CN110740283A - 一种基于视频通讯的语音转文字方法 - Google Patents
一种基于视频通讯的语音转文字方法 Download PDFInfo
- Publication number
- CN110740283A CN110740283A CN201911039641.7A CN201911039641A CN110740283A CN 110740283 A CN110740283 A CN 110740283A CN 201911039641 A CN201911039641 A CN 201911039641A CN 110740283 A CN110740283 A CN 110740283A
- Authority
- CN
- China
- Prior art keywords
- text
- video
- frames
- audio
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000004891 communication Methods 0.000 title claims abstract description 14
- 238000009877 rendering Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 4
- 230000011218 segmentation Effects 0.000 claims description 8
- 230000010354 integration Effects 0.000 claims description 6
- 230000002194 synthesizing effect Effects 0.000 claims description 2
- 230000002688 persistence Effects 0.000 abstract description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/478—Supplemental services, e.g. displaying phone caller identification, shopping application
- H04N21/4788—Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8547—Content authoring involving timestamps for synchronizing content
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开了一种基于视频通讯的语音转文字方法。它针对一般的视频会议系统,具体包括如下步骤:(1)在数据采集端,把音频数据和视频数据采集到了之后,送去编码器编码,同时保留一定时间的音频数据,进行文字识别处理,两者整合完毕后,一起发送给媒体服务器;(2)媒体服务器把收到的音视频数据包进行转发给客户端,同时对音视频数据包进行持久化保存下来;(3)客户端在收到音视频数据后,将其送入解码器解码,之后对音频进行播放以及视频进行渲染,把收到的文字信息渲染到视频上,显示到用户指定的区域上。本发明的有益效果是:给视频会议使用者提供更加直观的感受,提高语言听力上的容错率;使用文字形式记录视频会议的内容。
Description
技术领域
本发明涉及视频通讯相关技术领域,尤其是指一种基于视频通讯的语音转文字方法。
背景技术
随着音视频技术的不断发展,音频的质量也在不断提高。在正常使用视频通讯进行通话过程中,已经完全可以清晰地听到对方的声音。但是在一些特殊的情况下,比如地铁公交车或者广场等声音嘈杂的区域,有时候听不清对方的声音会降低音视频通话的体验。
在现代音视频通讯的视频和音频,一般都可以做到保存。如果在一些开会的场景中,视频通讯时中保存了领导的重要讲话。当想要回看某个点(或者回看确认某个数据)时,去回看整个视频效率是比较低的。
发明内容
本发明是为了克服现有技术中存在上述的不足,提供了一种提高容错率的基于视频通讯的语音转文字方法。
为了实现上述目的,本发明采用以下技术方案:
一种基于视频通讯的语音转文字方法,针对一般的视频会议系统,具体包括如下步骤:
(1)在数据采集端,把音频数据和视频数据采集到了之后,送去编码器编码,同时保留一定时间的音频数据,进行文字识别处理,两者整合完毕后,一起发送给媒体服务器;
(2)媒体服务器把收到的音视频数据包进行转发给客户端,同时对音视频数据包进行持久化保存下来;
(3)客户端在收到音视频数据后,将其送入解码器解码,之后对音频进行播放以及视频进行渲染,把收到的文字信息渲染到视频上,显示到用户指定的区域上。
本发明聚焦于解决视频通讯中语音数据表现的问题,由于声音受外部环境影响较大,只要略微有点噪音,就会造成声音听不清楚的情况。这样就需要对方再次说话,才能听清楚。为了解决这个问题,本发明将音频进行文字识别,把识别出来的文字通过服务端进行转发,然后再又客户端进行画面合成,没有在媒体服务器端做太多工作,客户端同时收到音视频以及文字消息,这样多元化的数据类型,可以给视频会议使用者提供更加直观的感受,文字字幕辅助音频的形式,可以提高语言听力上的容错率(声音听不清,可以观看字幕来进行弥补)。
作为优选,在步骤(1)中,由于文字的数据量不会太大,所以不需要加入编码器编码,可以直接使用文字编码格式编码,然后按照时间戳的先后顺序加入到音视频编码后的数据帧中,整合完毕后,一起发送给媒体服务器。
作为优选,在步骤(1)中,整合过程如下:语音分割并识别,将连续不断的语音,输出为分段的文字帧,文字帧的内容包括文字分段时间戳的起点、文字分段时间戳的终点以及识别后的文字内容,将分段完成后并且带有时间戳的文字帧立即进行传输,并且文字包优先级提高,这样可以降低文字的时延。
作为优选,在步骤(2)中,媒体服务器在收到音频、视频和音频转换而来的文字时,一方面把文字按照一定规则进行持久化保存到数据库;另一方面,把音频、视频以及文字转发给客户端。
作为优选,在步骤(2)中,根据需要把文字与视频进行合成,然后再录制下来保存到数据库,合成过程如下:在服务端对视频进行录制时,需要先等待文字帧的到来,将文字帧与视频帧对齐,一个文字帧对应多个视频帧,将文字帧对应的视频帧分别渲染上文字帧中的文字内容,一个文字帧结束之后就可以把视频保存下来,进行下一个文字帧与视频帧的对齐与渲染。
作为优选,在步骤(3)中,音频使用系统扬声器播放,视频使用opengles或者其他渲染工具进行渲染,视频渲染到画布上的同时,把收到的文字信息按照时间戳格式同样也渲染到视频同一块画布上,这样就做到了视频与文字的合成,合成完毕之后,进行交换缓冲区,显示到用户指定的区域上。
作为优选,步骤(3)中,视频与文字的合成过程如下:将文字帧与视频帧对齐,一个文字帧对应多个视频帧,将文字帧对应的视频帧分别渲染上文字帧中的文字内容,一个文字帧结束之后就可以把视频保存下来,进行下一个文字帧与视频帧的对齐与渲染,由于客户端是实时收到画面显示,而语音转文字的过程则会有一段时间的延迟,所以相同时间戳的文字帧会晚于视频帧的到达,这就需要媒体服务端尽可能的把文字帧时间间隔缩短,使得客户端将多个文字帧按顺序显示在视频帧之上。
作为优选,在步骤(3)中,在客户端如果想对本次视频会议的文字内容进行查看,可以请求服务端接口,来调取视频会议的文字记录。本发明可以使用文字形式记录视频会议的内容,使得文字作为更书面化更正式的信息载体得以很方便的来记录,当视频会议结束后,想要再次查阅会议内容时,文本查询就是最方便快捷的查询方式。
本发明的有益效果是:可以给视频会议使用者提供更加直观的感受,文字字幕辅助音频的形式,可以提高语言听力上的容错率;可以使用文字形式记录视频会议的内容,使得文字作为更书面化更正式的信息载体得以很方便的来记录。
附图说明
图1是本发明的方法流程图;
图2是语音转文字的过程图;
图3是媒体服务端文字合成的过程图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步的描述。
如图1所述的实施例中,一种基于视频通讯的语音转文字方法,针对一般的视频会议系统,具体包括如下步骤:
(1)在数据采集端,把音频数据和视频数据采集到了之后,送去编码器编码,同时保留一定时间的音频数据,一般保留3-5s(这个时间长度根据实际情况而定)音频,进行文字识别处理,两者整合完毕后,一起发送给媒体服务器;由于文字的数据量不会太大,所以不需要加入编码器编码,可以直接使用文字编码格式如“utf-8”等编码格式编码,然后按照时间戳的先后顺序加入到音视频编码后的数据帧中,整合完毕后,一起发送给媒体服务器;
如图2所示,整合过程如下:语音分割并识别,将连续不断的语音,输出为分段的文字帧,文字帧的内容包括文字分段时间戳的起点、文字分段时间戳的终点以及识别后的文字内容,文字帧的内容格式具体为,“start:1569307050000,end:1569307051000,body:这是我们会议的开始”,其中:“start”字段表示文字分段时间戳的起点,“end”字段表示文字分段时间戳的终点,“body”字段表示识别后的文字内容;将分段完成后并且带有时间戳的文字帧立即进行传输,并且文字包优先级提高,这样可以降低文字的时延;
(2)媒体服务器把收到的音视频数据包进行转发给客户端,同时对音视频数据包进行持久化保存下来;媒体服务器在收到音频、视频和音频转换而来的文字时,一方面把文字按照一定规则进行持久化保存到数据库,方便以后查询使用;另一方面,把音频、视频以及文字转发给客户端;根据需要把视频和音频录制下来,或者把文字与视频进行合成,然后再录制下来保存到数据库;如图3所示,合成过程如下:在服务端对视频进行录制时,需要先等待文字帧的到来,将文字帧与视频帧对齐,一个文字帧对应多个视频帧,将文字帧对应的视频帧分别渲染上文字帧中的文字内容,一个文字帧结束之后就可以把视频保存下来,进行下一个文字帧与视频帧的对齐与渲染;
(3)客户端在收到音视频数据后,将其送入解码器解码,之后对音频进行播放以及视频进行渲染,把收到的文字信息渲染到视频上,显示到用户指定的区域上;音频使用系统扬声器播放,视频使用opengles或者其他渲染工具进行渲染,视频渲染到画布上的同时,把收到的文字信息按照时间戳格式同样也渲染到视频同一块画布上,这样就做到了视频与文字的合成,视频与文字的合成过程如下:将文字帧与视频帧对齐,一个文字帧对应多个视频帧,将文字帧对应的视频帧分别渲染上文字帧中的文字内容,一个文字帧结束之后就可以把视频保存下来,进行下一个文字帧与视频帧的对齐与渲染,由于客户端是实时收到画面显示,而语音转文字的过程则会有一段时间的延迟,所以相同时间戳的文字帧会晚于视频帧的到达,这就需要媒体服务端尽可能的把文字帧时间间隔缩短,使得客户端将多个文字帧按顺序显示在视频帧之上,合成完毕之后,进行交换缓冲区,显示到用户指定的区域上;在客户端(包括手机端、web端或其他客户端)如果想对本次视频会议的文字内容进行查看,可以请求服务端接口,因为之前已经对文字进行了持久化保存到了数据库,所以这里可以很方便的来调取视频会议的文字记录。
本发明聚焦于解决视频通讯中语音数据表现的问题,由于声音受外部环境影响较大,只要略微有点噪音,就会造成声音听不清楚的情况。这样就需要对方再次说话,才能听清楚。为了解决这个问题,本发明将音频进行文字识别,把识别出来的文字通过服务端进行转发,然后再又客户端进行画面合成,没有在媒体服务器端做太多工作,客户端同时收到音视频以及文字消息,这样多元化的数据类型,可以给视频会议使用者提供更加直观的感受,文字字幕辅助音频的形式,可以提高语言听力上的容错率(声音听不清,可以观看字幕来进行弥补)。本发明还可以使用文字形式记录视频会议的内容,使得文字作为更书面化更正式的信息载体得以很方便的来记录,当视频会议结束后,想要再次查阅会议内容时,文本查询就是最方便快捷的查询方式。
Claims (8)
1.一种基于视频通讯的语音转文字方法,其特征是,针对一般的视频会议系统,具体包括如下步骤:
(1)在数据采集端,把音频数据和视频数据采集到了之后,送去编码器编码,同时保留一定时间的音频数据,进行文字识别处理,两者整合完毕后,一起发送给媒体服务器;
(2)媒体服务器把收到的音视频数据包进行转发给客户端,同时对音视频数据包进行持久化保存下来;
(3)客户端在收到音视频数据后,将其送入解码器解码,之后对音频进行播放以及视频进行渲染,把收到的文字信息渲染到视频上,显示到用户指定的区域上。
2.根据权利要求1所述的一种基于视频通讯的语音转文字方法,其特征是,在步骤(1)中,由于文字的数据量不会太大,所以不需要加入编码器编码,可以直接使用文字编码格式编码,然后按照时间戳的先后顺序加入到音视频编码后的数据帧中,整合完毕后,一起发送给媒体服务器。
3.根据权利要求1或2所述的一种基于视频通讯的语音转文字方法,其特征是,在步骤(1)中,整合过程如下:语音分割并识别,将连续不断的语音,输出为分段的文字帧,文字帧的内容包括文字分段时间戳的起点、文字分段时间戳的终点以及识别后的文字内容,将分段完成后并且带有时间戳的文字帧立即进行传输,并且文字包优先级提高,这样可以降低文字的时延。
4.根据权利要求1所述的一种基于视频通讯的语音转文字方法,其特征是,在步骤(2)中,媒体服务器在收到音频、视频和音频转换而来的文字时,一方面把文字按照一定规则进行持久化保存到数据库;另一方面,把音频、视频以及文字转发给客户端。
5.根据权利要求4所述的一种基于视频通讯的语音转文字方法,其特征是,在步骤(2)中,根据需要把文字与视频进行合成,然后再录制下来保存到数据库,合成过程如下:在服务端对视频进行录制时,需要先等待文字帧的到来,将文字帧与视频帧对齐,一个文字帧对应多个视频帧,将文字帧对应的视频帧分别渲染上文字帧中的文字内容,一个文字帧结束之后就可以把视频保存下来,进行下一个文字帧与视频帧的对齐与渲染。
6.根据权利要求1所述的一种基于视频通讯的语音转文字方法,其特征是,在步骤(3)中,音频使用系统扬声器播放,视频使用opengles或者其他渲染工具进行渲染,视频渲染到画布上的同时,把收到的文字信息按照时间戳格式同样也渲染到视频同一块画布上,这样就做到了视频与文字的合成,合成完毕之后,进行交换缓冲区,显示到用户指定的区域上。
7.根据权利要求6所述的一种基于视频通讯的语音转文字方法,其特征是,在步骤(3)中,视频与文字的合成过程如下:将文字帧与视频帧对齐,一个文字帧对应多个视频帧,将文字帧对应的视频帧分别渲染上文字帧中的文字内容,一个文字帧结束之后就可以把视频保存下来,进行下一个文字帧与视频帧的对齐与渲染,由于客户端是实时收到画面显示,而语音转文字的过程则会有一段时间的延迟,所以相同时间戳的文字帧会晚于视频帧的到达,这就需要媒体服务端尽可能的把文字帧时间间隔缩短,使得客户端将多个文字帧按顺序显示在视频帧之上。
8.根据权利要求1所述的一种基于视频通讯的语音转文字方法,其特征是,在步骤(3)中,在客户端如果想对本次视频会议的文字内容进行查看,可以请求服务端接口,来调取视频会议的文字记录。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911039641.7A CN110740283A (zh) | 2019-10-29 | 2019-10-29 | 一种基于视频通讯的语音转文字方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911039641.7A CN110740283A (zh) | 2019-10-29 | 2019-10-29 | 一种基于视频通讯的语音转文字方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110740283A true CN110740283A (zh) | 2020-01-31 |
Family
ID=69270246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911039641.7A Pending CN110740283A (zh) | 2019-10-29 | 2019-10-29 | 一种基于视频通讯的语音转文字方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110740283A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111654658A (zh) * | 2020-06-17 | 2020-09-11 | 平安科技(深圳)有限公司 | 音视频通话的处理方法、系统、编解码器及存储装置 |
CN111798854A (zh) * | 2020-06-16 | 2020-10-20 | 普强信息技术(北京)有限公司 | 一种基于视频通讯的语音转文字方法 |
CN113206853A (zh) * | 2021-05-08 | 2021-08-03 | 杭州当虹科技股份有限公司 | 一种视频批改结果保存改进方法 |
CN113225614A (zh) * | 2021-04-20 | 2021-08-06 | 深圳市九洲电器有限公司 | 视频播放方法、装置、服务器以及存储介质 |
WO2022068533A1 (zh) * | 2020-09-29 | 2022-04-07 | 北京字跳网络技术有限公司 | 互动信息处理方法、装置、设备及介质 |
CN115567470A (zh) * | 2022-09-21 | 2023-01-03 | 润芯微科技(江苏)有限公司 | 一种音频丢包补偿处理方法及系统 |
US11581007B2 (en) | 2021-04-27 | 2023-02-14 | Kyndryl, Inc. | Preventing audio delay-induced miscommunication in audio/video conferences |
CN115988169A (zh) * | 2023-03-20 | 2023-04-18 | 全时云商务服务股份有限公司 | 一种云会议中实时视频合屏文字快速显示方法与装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101452705A (zh) * | 2007-12-07 | 2009-06-10 | 希姆通信息技术(上海)有限公司 | 语音文字转换、手语文字转换的方法和装置 |
CN105959772A (zh) * | 2015-12-22 | 2016-09-21 | 合网络技术(北京)有限公司 | 流媒体与字幕即时同步显示、匹配处理方法、装置及系统 |
CN107172377A (zh) * | 2017-06-30 | 2017-09-15 | 福州瑞芯微电子股份有限公司 | 一种视频通话的数据处理方法和装置 |
CN109257547A (zh) * | 2018-09-21 | 2019-01-22 | 南京邮电大学 | 中文在线音视频的字幕生成方法 |
US10225621B1 (en) * | 2017-12-20 | 2019-03-05 | Dish Network L.L.C. | Eyes free entertainment |
CN109951673A (zh) * | 2019-03-11 | 2019-06-28 | 南京信奥弢电子科技有限公司 | 一种视频会议的内容交互系统和方法 |
-
2019
- 2019-10-29 CN CN201911039641.7A patent/CN110740283A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101452705A (zh) * | 2007-12-07 | 2009-06-10 | 希姆通信息技术(上海)有限公司 | 语音文字转换、手语文字转换的方法和装置 |
CN105959772A (zh) * | 2015-12-22 | 2016-09-21 | 合网络技术(北京)有限公司 | 流媒体与字幕即时同步显示、匹配处理方法、装置及系统 |
CN107172377A (zh) * | 2017-06-30 | 2017-09-15 | 福州瑞芯微电子股份有限公司 | 一种视频通话的数据处理方法和装置 |
US10225621B1 (en) * | 2017-12-20 | 2019-03-05 | Dish Network L.L.C. | Eyes free entertainment |
CN109257547A (zh) * | 2018-09-21 | 2019-01-22 | 南京邮电大学 | 中文在线音视频的字幕生成方法 |
CN109951673A (zh) * | 2019-03-11 | 2019-06-28 | 南京信奥弢电子科技有限公司 | 一种视频会议的内容交互系统和方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111798854A (zh) * | 2020-06-16 | 2020-10-20 | 普强信息技术(北京)有限公司 | 一种基于视频通讯的语音转文字方法 |
CN111798854B (zh) * | 2020-06-16 | 2024-05-07 | 普强信息技术(北京)有限公司 | 一种基于视频通讯的语音转文字方法 |
CN111654658A (zh) * | 2020-06-17 | 2020-09-11 | 平安科技(深圳)有限公司 | 音视频通话的处理方法、系统、编解码器及存储装置 |
WO2022068533A1 (zh) * | 2020-09-29 | 2022-04-07 | 北京字跳网络技术有限公司 | 互动信息处理方法、装置、设备及介质 |
US11917344B2 (en) | 2020-09-29 | 2024-02-27 | Beijing Zitiao Network Technology Co., Ltd. | Interactive information processing method, device and medium |
CN113225614A (zh) * | 2021-04-20 | 2021-08-06 | 深圳市九洲电器有限公司 | 视频播放方法、装置、服务器以及存储介质 |
US11581007B2 (en) | 2021-04-27 | 2023-02-14 | Kyndryl, Inc. | Preventing audio delay-induced miscommunication in audio/video conferences |
CN113206853A (zh) * | 2021-05-08 | 2021-08-03 | 杭州当虹科技股份有限公司 | 一种视频批改结果保存改进方法 |
CN115567470A (zh) * | 2022-09-21 | 2023-01-03 | 润芯微科技(江苏)有限公司 | 一种音频丢包补偿处理方法及系统 |
CN115988169A (zh) * | 2023-03-20 | 2023-04-18 | 全时云商务服务股份有限公司 | 一种云会议中实时视频合屏文字快速显示方法与装置 |
CN115988169B (zh) * | 2023-03-20 | 2023-08-18 | 全时云商务服务股份有限公司 | 一种云会议中实时视频合屏文字快速显示方法与装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110740283A (zh) | 一种基于视频通讯的语音转文字方法 | |
US10186170B1 (en) | Text caption error correction | |
US10244291B2 (en) | Authoring system for IPTV network | |
US11710488B2 (en) | Transcription of communications using multiple speech recognition systems | |
US8174559B2 (en) | Videoconferencing systems with recognition ability | |
WO2014117660A1 (zh) | 视频短信的发送、接收方法及其装置和手持电子设备 | |
EP1135921B1 (en) | System and method for ip-based communication having speech generated text | |
CN110364154B (zh) | 语音实时转换成文本的方法、装置、计算机设备及存储介质 | |
WO2005116992A1 (en) | Method of and system for modifying messages | |
US20040189791A1 (en) | Videophone device and data transmitting/receiving method applied thereto | |
JP6131053B2 (ja) | 情報再生端末 | |
CN110933485A (zh) | 一种视频字幕生成方法、系统、装置和存储介质 | |
CN115623264A (zh) | 直播流的字幕处理方法、装置及直播流的播放方法、装置 | |
CN112825551B (zh) | 一种视频会议重要内容提示及转写存储的方法及系统 | |
CN114866522A (zh) | 一种多模全网录音录像系统 | |
CN109040818B (zh) | 直播时的音视频同步方法、存储介质、电子设备及系统 | |
JP5727777B2 (ja) | 会議支援装置および会議支援方法 | |
CN111355918A (zh) | 一种智能远程视频会议系统 | |
CN115460186A (zh) | 一种基于amr-wb编码的能力平台录音文件生成方法和装置 | |
JP4254297B2 (ja) | 画像処理装置及びその方法並びにそれを用いた画像処理システム及びプログラム | |
EP2469851A1 (en) | System and method for generating interactive voice and video response menu | |
CN115455991A (zh) | 一种会议中的翻译方法、服务器和可读存储介质 | |
JP2000228687A (ja) | 情報通信システム | |
JP2013201505A (ja) | テレビ会議システム及び多地点接続装置並びにコンピュータプログラム | |
WO2020177483A1 (zh) | 音视频处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200131 |