CN111798854A - 一种基于视频通讯的语音转文字方法 - Google Patents
一种基于视频通讯的语音转文字方法 Download PDFInfo
- Publication number
- CN111798854A CN111798854A CN202010547221.6A CN202010547221A CN111798854A CN 111798854 A CN111798854 A CN 111798854A CN 202010547221 A CN202010547221 A CN 202010547221A CN 111798854 A CN111798854 A CN 111798854A
- Authority
- CN
- China
- Prior art keywords
- character information
- text
- video
- target character
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000006854 communication Effects 0.000 title claims abstract description 15
- 238000004891 communication Methods 0.000 title claims abstract description 14
- 238000012937 correction Methods 0.000 claims abstract description 25
- 238000009877 rendering Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 10
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000003786 synthesis reaction Methods 0.000 claims description 5
- 241001672694 Citrus reticulata Species 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
- H04N21/44012—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving rendering scenes according to scene graphs, e.g. MPEG-4 scene graphs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/478—Supplemental services, e.g. displaying phone caller identification, shopping application
- H04N21/4788—Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
Abstract
本发明公开了一种基于视频通讯的语音转文字方法,包括以下步骤:S1.将预设语音文本库和预设特征词和敏感词文本库存入服务器内;S2.采集音频数据,然后进行语音识别;S3.将语音识别的音频数据进行纠错处理,生成目标文字信息;S4.对S3中的目标文字信息进行特征词识别,然后生成转化文字信息;S5.将S4中的转化文字信息发送给服务器,并保存;S6.把服务器收到的文字信息渲染到视频上,显示到用户指定的区域上。本发明通过进行纠错处理,能够在语音转文字的过程中实现对同音字的纠错,进而提高语音转文字的准确性,从而提高了用户的体验,另外通过特征词的识别,在需要发送敏感词时,不必说出敏感词,也可以发送敏感文字,避免直接说出敏感词的尴尬。
Description
技术领域
本发明属于视频通讯技术领域,具体涉及一种基于视频通讯的语音转文字方法。
背景技术
随着音视频技术的不断发展,音频的质量也在不断提高。在正常使用视频通讯进行通话过程中,已经完全可以清晰地听到对方的声音。但是在一些特殊的情况下,比如地铁公交车或者广场等声音嘈杂的区域,有时候听不清对方的声音会降低音视频通话的体验,然而市面上各种的基于视频通讯的语音转文字方法仍存在各种各样的问题。
如授权公告号为CN106297794A所公开的一种语音文字的转换方法及设备,其虽然实现了解决了多人同时讲话的场景下根据用户分类将语音转化为对应的文字的问题,但是并未解决现有的基于视频通讯的语音转文字方法还存在的问题:不方便在在语音转文字的过程中对文字信息进行纠偏处理,降低了语音转文字的准确性,同时在公众场所需要使用语音转文字功能时,有时需要发送一些敏感词给对方,但在公众场合说出敏感词,往往会造成用户的尴尬,为此我们提出一种基于视频通讯的语音转文字方法。
发明内容
本发明的目的在于提供一种基于视频通讯的语音转文字方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于视频通讯的语音转文字方法,包括以下步骤:
S1.将预设语音文本库存入服务器内,预设语音文本库包括预设方言语音文本库和预设外语语音文本库,同时将预设特征词和敏感词文本库存入服务器内;
S2.采集音频数据,先进行保存,然后进行语音识别;
S3.将语音识别的音频数据转化为第一文字信息,并对第一文字信息进行纠错处理,生成目标文字信息;
S4.对S3中的目标文字信息进行特征词识别,判断目标文字信息中是否含有特征词,然后生成转化文字信息;
S5.将S4中的转化文字信息发送给服务器,并保存;
S6.采集视频数据,并将S2中的音频数据和视频数据送入解码器解码,之后对音频数据进行播放以及视频数据进行渲染,最后把服务器收到的文字信息渲染到视频上,显示到用户指定的区域上。
优选的,所述预设方言语音文本库包括中国十大方言,所述十大方言包括官话方言、晋方言、吴方言、徽方言、闽方言、粤方言、客家方言、赣方言、湘方言和平话土话。
优选的,所述预设外语语音文本库包括汉语、英语、俄语、日语、韩语、德语、法语、西班牙语、意大利语、葡萄牙语和泰语,所述汉语设置为普通话。
优选的,所述S3中的纠错处理具体包括以下步骤:
S31.对所述第一文字信息进行同音字纠错得到第二文字信息,基于当时的场景信息对所述第二文字信息进行同音字纠错生成第一初始目标文字信息;
S32.对所述第二文字信息进行同音字纠错得到第三文字信息,基于当时的场景信息对所述第三文字信息进行同音字纠错生成第二初始目标文字信息;
S33.检测所述第一初始目标文字信息和所述第二初始目标文字信息是否相同;若所述第一初始目标文字信息和所述第二初始目标文字信息相同,将所述第二初始目标文字信息相同确定生层目标文字信息;若所述第一初始目标文字信息和所述第二初始目标文字信息不相同,对所述第二初始目标文字进行同音字纠错生成第三初始目标文字,将所述第三初始目标文字信息确定生成目标文字信息。
优选的,所述预设特征词和敏感词文本库中设置有特征词与敏感词的对应关系,每组所述特征词均对应有一组所述敏感词。
优选的,所述S4中的判断方法为:如果识别到特征词,根据预先设置的对应关系,查找到与所述特征词对应的敏感词,将所述特征词替换为对应的敏感词,生成转化文字信息;若果没有识别到特征词,则直接生成转化文字信息。
优选的,所述S6中视频使用opengles或者其他渲染工具进行渲染,视频渲染到画布上的同时,把收到的文字信息按照时间戳格式同样也渲染到视频同一块画布上,这样就做到了视频与文字的合成,合成完毕之后,进行交换缓冲区,显示到用户指定的区域上。
优选的,所述视频与文字的合成过程如下:将文字帧与视频帧对齐,一个文字帧对应多个视频帧,将文字帧对应的视频帧分别渲染上文字帧中的文字内容,一个文字帧结束之后就可以把视频保存下来,进行下一个文字帧与视频帧的对齐与渲染,由于客户端是实时收到画面显示,而语音转文字的过程则会有一段时间的延迟,所以相同时间戳的文字帧会晚于视频帧的到达,这就需要服务端尽可能的把文字帧时间间隔缩短,使得客户端将多个文字帧按顺序显示在视频帧之上。
与现有技术相比,本发明的有益效果是:
(1)本发明通过进行纠错处理,能够在语音转文字的过程中实现对同音字的纠错,进而提高语音转文字的准确性,从而提高了用户的体验。
(2)本发明通过对特征词的识别,根据特征词与敏感词的对应关系,可以将特征词替换成敏感词,在需要发送敏感词时,不必说出敏感词,也可以发送敏感文字,避免直接说出敏感词的尴尬。
(3)本发明通过将文字信息合成到视频上,并显示到用户指定的区域上,不仅可以观察说话者的动作和情绪,而且能够更加清楚的知道说话者说的内容,方便进行沟通交流。
附图说明
图1为本发明的步骤流程图;
图2为本发明中S1的主要流程图;
图3为本发明中S3中纠错处理的流程图;
图4为本发明中S4中判断方法的流程图;
图5为本发明S1中预设方言语音文本库的示意图;
图6为本发明S1中预设外语语音文本库的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-图6,本发明提供一种技术方案:一种基于视频通讯的语音转文字方法,其特征在于:包括以下步骤:
S1.将预设语音文本库存入服务器内,预设语音文本库包括预设方言语音文本库和预设外语语音文本库,同时将预设特征词和敏感词文本库存入服务器内;
S2.采集音频数据,先进行保存,然后进行语音识别;
S3.将语音识别的音频数据转化为第一文字信息,并对第一文字信息进行纠错处理,生成目标文字信息;
S4.对S3中的目标文字信息进行特征词识别,判断目标文字信息中是否含有特征词,然后生成转化文字信息;
S5.将S4中的转化文字信息发送给服务器,并保存;
S6.采集视频数据,并将S2中的音频数据和视频数据送入解码器解码,之后对音频数据进行播放以及视频数据进行渲染,最后把服务器收到的文字信息渲染到视频上,显示到用户指定的区域上。
本实施例中,优选的,所述预设方言语音文本库包括中国十大方言,所述十大方言包括官话方言、晋方言、吴方言、徽方言、闽方言、粤方言、客家方言、赣方言、湘方言和平话土话。
本实施例中,优选的,所述预设外语语音文本库包括汉语、英语、俄语、日语、韩语、德语、法语、西班牙语、意大利语、葡萄牙语和泰语,所述汉语设置为普通话。
本实施例中,优选的,所述S3中的纠错处理具体包括以下步骤:
S31.对所述第一文字信息进行同音字纠错得到第二文字信息,基于当时的场景信息对所述第二文字信息进行同音字纠错生成第一初始目标文字信息;
S32.对所述第二文字信息进行同音字纠错得到第三文字信息,基于当时的场景信息对所述第三文字信息进行同音字纠错生成第二初始目标文字信息;
S33.检测所述第一初始目标文字信息和所述第二初始目标文字信息是否相同;若所述第一初始目标文字信息和所述第二初始目标文字信息相同,将所述第二初始目标文字信息相同确定生层目标文字信息;若所述第一初始目标文字信息和所述第二初始目标文字信息不相同,对所述第二初始目标文字进行同音字纠错生成第三初始目标文字,将所述第三初始目标文字信息确定生成目标文字信息。
本实施例中,优选的,所述预设特征词和敏感词文本库中设置有特征词与敏感词的对应关系,每组所述特征词均对应有一组所述敏感词。
本实施例中,优选的,所述S4中的判断方法为:如果识别到特征词,根据预先设置的对应关系,查找到与所述特征词对应的敏感词,将所述特征词替换为对应的敏感词,生成转化文字信息;若果没有识别到特征词,则直接生成转化文字信息。
本实施例中,优选的,所述S6中视频使用opengles或者其他渲染工具进行渲染,视频渲染到画布上的同时,把收到的文字信息按照时间戳格式同样也渲染到视频同一块画布上,这样就做到了视频与文字的合成,合成完毕之后,进行交换缓冲区,显示到用户指定的区域上。
本实施例中,优选的,所述视频与文字的合成过程如下:将文字帧与视频帧对齐,一个文字帧对应多个视频帧,将文字帧对应的视频帧分别渲染上文字帧中的文字内容,一个文字帧结束之后就可以把视频保存下来,进行下一个文字帧与视频帧的对齐与渲染,由于客户端是实时收到画面显示,而语音转文字的过程则会有一段时间的延迟,所以相同时间戳的文字帧会晚于视频帧的到达,这就需要服务端尽可能的把文字帧时间间隔缩短,使得客户端将多个文字帧按顺序显示在视频帧之上。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (8)
1.一种基于视频通讯的语音转文字方法,其特征在于:包括以下步骤:
S1.将预设语音文本库存入服务器内,预设语音文本库包括预设方言语音文本库和预设外语语音文本库,同时将预设特征词和敏感词文本库存入服务器内;
S2.采集音频数据,先进行保存,然后进行语音识别;
S3.将语音识别的音频数据转化为第一文字信息,并对第一文字信息进行纠错处理,生成目标文字信息;
S4.对S3中的目标文字信息进行特征词识别,判断目标文字信息中是否含有特征词,然后生成转化文字信息;
S5.将S4中的转化文字信息发送给服务器,并保存;
S6.采集视频数据,并将S2中的音频数据和视频数据送入解码器解码,之后对音频数据进行播放以及视频数据进行渲染,最后把服务器收到的文字信息渲染到视频上,显示到用户指定的区域上。
2.根据权利要求1所述的一种基于视频通讯的语音转文字方法,其特征在于:所述预设方言语音文本库包括中国十大方言,所述十大方言包括官话方言、晋方言、吴方言、徽方言、闽方言、粤方言、客家方言、赣方言、湘方言和平话土话。
3.根据权利要求1所述的一种基于视频通讯的语音转文字方法,其特征在于:所述预设外语语音文本库包括汉语、英语、俄语、日语、韩语、德语、法语、西班牙语、意大利语、葡萄牙语和泰语,所述汉语设置为普通话。
4.根据权利要求1所述的一种基于视频通讯的语音转文字方法,其特征在于:所述S3中的纠错处理具体包括以下步骤:
S31.对所述第一文字信息进行同音字纠错得到第二文字信息,基于当时的场景信息对所述第二文字信息进行同音字纠错生成第一初始目标文字信息;
S32.对所述第二文字信息进行同音字纠错得到第三文字信息,基于当时的场景信息对所述第三文字信息进行同音字纠错生成第二初始目标文字信息;
S33.检测所述第一初始目标文字信息和所述第二初始目标文字信息是否相同;若所述第一初始目标文字信息和所述第二初始目标文字信息相同,将所述第二初始目标文字信息相同确定生层目标文字信息;若所述第一初始目标文字信息和所述第二初始目标文字信息不相同,对所述第二初始目标文字进行同音字纠错生成第三初始目标文字,将所述第三初始目标文字信息确定生成目标文字信息。
5.根据权利要求1所述的一种基于视频通讯的语音转文字方法,其特征在于:所述预设特征词和敏感词文本库中设置有特征词与敏感词的对应关系,每组所述特征词均对应有一组所述敏感词。
6.根据权利要求1所述的一种基于视频通讯的语音转文字方法,其特征在于:所述S4中的判断方法为:如果识别到特征词,根据预先设置的对应关系,查找到与所述特征词对应的敏感词,将所述特征词替换为对应的敏感词,生成转化文字信息;若果没有识别到特征词,则直接生成转化文字信息。
7.根据权利要求1所述的一种基于视频通讯的语音转文字方法,其特征在于:所述S6中视频使用opengles或者其他渲染工具进行渲染,视频渲染到画布上的同时,把收到的文字信息按照时间戳格式同样也渲染到视频同一块画布上,这样就做到了视频与文字的合成,合成完毕之后,进行交换缓冲区,显示到用户指定的区域上。
8.根据权利要求7所述的一种基于视频通讯的语音转文字方法,其特征在于:所述视频与文字的合成过程如下:将文字帧与视频帧对齐,一个文字帧对应多个视频帧,将文字帧对应的视频帧分别渲染上文字帧中的文字内容,一个文字帧结束之后就可以把视频保存下来,进行下一个文字帧与视频帧的对齐与渲染,由于客户端是实时收到画面显示,而语音转文字的过程则会有一段时间的延迟,所以相同时间戳的文字帧会晚于视频帧的到达,这就需要服务端尽可能的把文字帧时间间隔缩短,使得客户端将多个文字帧按顺序显示在视频帧之上。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010547221.6A CN111798854B (zh) | 2020-06-16 | 一种基于视频通讯的语音转文字方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010547221.6A CN111798854B (zh) | 2020-06-16 | 一种基于视频通讯的语音转文字方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111798854A true CN111798854A (zh) | 2020-10-20 |
CN111798854B CN111798854B (zh) | 2024-05-07 |
Family
ID=
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170256262A1 (en) * | 2016-03-02 | 2017-09-07 | Wipro Limited | System and Method for Speech-to-Text Conversion |
CN108564950A (zh) * | 2018-02-28 | 2018-09-21 | 上海与德科技有限公司 | 语音转文字的方法、智能终端及计算机存储介质 |
CN110740283A (zh) * | 2019-10-29 | 2020-01-31 | 杭州当虹科技股份有限公司 | 一种基于视频通讯的语音转文字方法 |
CN110827826A (zh) * | 2019-11-22 | 2020-02-21 | 维沃移动通信有限公司 | 语音转换文字方法、电子设备 |
CN111128185A (zh) * | 2019-12-25 | 2020-05-08 | 北京声智科技有限公司 | 一种语音转文字的方法、装置、终端及存储介质 |
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170256262A1 (en) * | 2016-03-02 | 2017-09-07 | Wipro Limited | System and Method for Speech-to-Text Conversion |
CN108564950A (zh) * | 2018-02-28 | 2018-09-21 | 上海与德科技有限公司 | 语音转文字的方法、智能终端及计算机存储介质 |
CN110740283A (zh) * | 2019-10-29 | 2020-01-31 | 杭州当虹科技股份有限公司 | 一种基于视频通讯的语音转文字方法 |
CN110827826A (zh) * | 2019-11-22 | 2020-02-21 | 维沃移动通信有限公司 | 语音转换文字方法、电子设备 |
CN111128185A (zh) * | 2019-12-25 | 2020-05-08 | 北京声智科技有限公司 | 一种语音转文字的方法、装置、终端及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10176366B1 (en) | Video relay service, communication system, and related methods for performing artificial intelligence sign language translation services in a video relay service environment | |
US10878824B2 (en) | Speech-to-text generation using video-speech matching from a primary speaker | |
Rabiner | Applications of voice processing to telecommunications | |
US7143033B2 (en) | Automatic multi-language phonetic transcribing system | |
US20080059200A1 (en) | Multi-Lingual Telephonic Service | |
JP2023022150A (ja) | 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム | |
US20100217591A1 (en) | Vowel recognition system and method in speech to text applictions | |
KR20140146965A (ko) | 디스플레이 장치, 서버를 포함하는 변환 시스템 및 디스플레이 장치의 제어 방법 | |
US20130253932A1 (en) | Conversation supporting device, conversation supporting method and conversation supporting program | |
US20230316009A1 (en) | Methods and systems for control of content in an alternate language or accent | |
CN111199160A (zh) | 即时通话语音的翻译方法、装置以及终端 | |
TW200304638A (en) | Network-accessible speaker-dependent voice models of multiple persons | |
JP2011217018A (ja) | 音声応答装置及びプログラム | |
CN114596870A (zh) | 实时音频处理方法和装置、计算机存储介质、电子设备 | |
US11600279B2 (en) | Transcription of communications | |
JP2010128766A (ja) | 情報処理装置、情報処理方法、プログラム及び記憶媒体 | |
CN109616116B (zh) | 通话系统及其通话方法 | |
JP2009122989A (ja) | 翻訳装置 | |
JP2018045675A (ja) | 情報提示方法、情報提示プログラム及び情報提示システム | |
CN111798854A (zh) | 一种基于视频通讯的语音转文字方法 | |
CN111798854B (zh) | 一种基于视频通讯的语音转文字方法 | |
Cahyaningtyas et al. | Development of under-resourced Bahasa Indonesia speech corpus | |
US11848026B2 (en) | Performing artificial intelligence sign language translation services in a video relay service environment | |
CN113421571B (zh) | 一种语音转换方法、装置、电子设备和存储介质 | |
KR101920653B1 (ko) | 비교음 생성을 통한 어학학습방법 및 어학학습프로그램 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |