CN111798854A - 一种基于视频通讯的语音转文字方法 - Google Patents

一种基于视频通讯的语音转文字方法 Download PDF

Info

Publication number
CN111798854A
CN111798854A CN202010547221.6A CN202010547221A CN111798854A CN 111798854 A CN111798854 A CN 111798854A CN 202010547221 A CN202010547221 A CN 202010547221A CN 111798854 A CN111798854 A CN 111798854A
Authority
CN
China
Prior art keywords
character information
text
video
target character
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010547221.6A
Other languages
English (en)
Other versions
CN111798854B (zh
Inventor
蒲瑶
何国涛
李全忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pachira Technology Beijing Co ltd
Original Assignee
Pachira Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pachira Technology Beijing Co ltd filed Critical Pachira Technology Beijing Co ltd
Priority to CN202010547221.6A priority Critical patent/CN111798854B/zh
Priority claimed from CN202010547221.6A external-priority patent/CN111798854B/zh
Publication of CN111798854A publication Critical patent/CN111798854A/zh
Application granted granted Critical
Publication of CN111798854B publication Critical patent/CN111798854B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44012Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving rendering scenes according to scene graphs, e.g. MPEG-4 scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting

Abstract

本发明公开了一种基于视频通讯的语音转文字方法,包括以下步骤:S1.将预设语音文本库和预设特征词和敏感词文本库存入服务器内;S2.采集音频数据,然后进行语音识别;S3.将语音识别的音频数据进行纠错处理,生成目标文字信息;S4.对S3中的目标文字信息进行特征词识别,然后生成转化文字信息;S5.将S4中的转化文字信息发送给服务器,并保存;S6.把服务器收到的文字信息渲染到视频上,显示到用户指定的区域上。本发明通过进行纠错处理,能够在语音转文字的过程中实现对同音字的纠错,进而提高语音转文字的准确性,从而提高了用户的体验,另外通过特征词的识别,在需要发送敏感词时,不必说出敏感词,也可以发送敏感文字,避免直接说出敏感词的尴尬。

Description

一种基于视频通讯的语音转文字方法
技术领域
本发明属于视频通讯技术领域,具体涉及一种基于视频通讯的语音转文字方法。
背景技术
随着音视频技术的不断发展,音频的质量也在不断提高。在正常使用视频通讯进行通话过程中,已经完全可以清晰地听到对方的声音。但是在一些特殊的情况下,比如地铁公交车或者广场等声音嘈杂的区域,有时候听不清对方的声音会降低音视频通话的体验,然而市面上各种的基于视频通讯的语音转文字方法仍存在各种各样的问题。
如授权公告号为CN106297794A所公开的一种语音文字的转换方法及设备,其虽然实现了解决了多人同时讲话的场景下根据用户分类将语音转化为对应的文字的问题,但是并未解决现有的基于视频通讯的语音转文字方法还存在的问题:不方便在在语音转文字的过程中对文字信息进行纠偏处理,降低了语音转文字的准确性,同时在公众场所需要使用语音转文字功能时,有时需要发送一些敏感词给对方,但在公众场合说出敏感词,往往会造成用户的尴尬,为此我们提出一种基于视频通讯的语音转文字方法。
发明内容
本发明的目的在于提供一种基于视频通讯的语音转文字方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于视频通讯的语音转文字方法,包括以下步骤:
S1.将预设语音文本库存入服务器内,预设语音文本库包括预设方言语音文本库和预设外语语音文本库,同时将预设特征词和敏感词文本库存入服务器内;
S2.采集音频数据,先进行保存,然后进行语音识别;
S3.将语音识别的音频数据转化为第一文字信息,并对第一文字信息进行纠错处理,生成目标文字信息;
S4.对S3中的目标文字信息进行特征词识别,判断目标文字信息中是否含有特征词,然后生成转化文字信息;
S5.将S4中的转化文字信息发送给服务器,并保存;
S6.采集视频数据,并将S2中的音频数据和视频数据送入解码器解码,之后对音频数据进行播放以及视频数据进行渲染,最后把服务器收到的文字信息渲染到视频上,显示到用户指定的区域上。
优选的,所述预设方言语音文本库包括中国十大方言,所述十大方言包括官话方言、晋方言、吴方言、徽方言、闽方言、粤方言、客家方言、赣方言、湘方言和平话土话。
优选的,所述预设外语语音文本库包括汉语、英语、俄语、日语、韩语、德语、法语、西班牙语、意大利语、葡萄牙语和泰语,所述汉语设置为普通话。
优选的,所述S3中的纠错处理具体包括以下步骤:
S31.对所述第一文字信息进行同音字纠错得到第二文字信息,基于当时的场景信息对所述第二文字信息进行同音字纠错生成第一初始目标文字信息;
S32.对所述第二文字信息进行同音字纠错得到第三文字信息,基于当时的场景信息对所述第三文字信息进行同音字纠错生成第二初始目标文字信息;
S33.检测所述第一初始目标文字信息和所述第二初始目标文字信息是否相同;若所述第一初始目标文字信息和所述第二初始目标文字信息相同,将所述第二初始目标文字信息相同确定生层目标文字信息;若所述第一初始目标文字信息和所述第二初始目标文字信息不相同,对所述第二初始目标文字进行同音字纠错生成第三初始目标文字,将所述第三初始目标文字信息确定生成目标文字信息。
优选的,所述预设特征词和敏感词文本库中设置有特征词与敏感词的对应关系,每组所述特征词均对应有一组所述敏感词。
优选的,所述S4中的判断方法为:如果识别到特征词,根据预先设置的对应关系,查找到与所述特征词对应的敏感词,将所述特征词替换为对应的敏感词,生成转化文字信息;若果没有识别到特征词,则直接生成转化文字信息。
优选的,所述S6中视频使用opengles或者其他渲染工具进行渲染,视频渲染到画布上的同时,把收到的文字信息按照时间戳格式同样也渲染到视频同一块画布上,这样就做到了视频与文字的合成,合成完毕之后,进行交换缓冲区,显示到用户指定的区域上。
优选的,所述视频与文字的合成过程如下:将文字帧与视频帧对齐,一个文字帧对应多个视频帧,将文字帧对应的视频帧分别渲染上文字帧中的文字内容,一个文字帧结束之后就可以把视频保存下来,进行下一个文字帧与视频帧的对齐与渲染,由于客户端是实时收到画面显示,而语音转文字的过程则会有一段时间的延迟,所以相同时间戳的文字帧会晚于视频帧的到达,这就需要服务端尽可能的把文字帧时间间隔缩短,使得客户端将多个文字帧按顺序显示在视频帧之上。
与现有技术相比,本发明的有益效果是:
(1)本发明通过进行纠错处理,能够在语音转文字的过程中实现对同音字的纠错,进而提高语音转文字的准确性,从而提高了用户的体验。
(2)本发明通过对特征词的识别,根据特征词与敏感词的对应关系,可以将特征词替换成敏感词,在需要发送敏感词时,不必说出敏感词,也可以发送敏感文字,避免直接说出敏感词的尴尬。
(3)本发明通过将文字信息合成到视频上,并显示到用户指定的区域上,不仅可以观察说话者的动作和情绪,而且能够更加清楚的知道说话者说的内容,方便进行沟通交流。
附图说明
图1为本发明的步骤流程图;
图2为本发明中S1的主要流程图;
图3为本发明中S3中纠错处理的流程图;
图4为本发明中S4中判断方法的流程图;
图5为本发明S1中预设方言语音文本库的示意图;
图6为本发明S1中预设外语语音文本库的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-图6,本发明提供一种技术方案:一种基于视频通讯的语音转文字方法,其特征在于:包括以下步骤:
S1.将预设语音文本库存入服务器内,预设语音文本库包括预设方言语音文本库和预设外语语音文本库,同时将预设特征词和敏感词文本库存入服务器内;
S2.采集音频数据,先进行保存,然后进行语音识别;
S3.将语音识别的音频数据转化为第一文字信息,并对第一文字信息进行纠错处理,生成目标文字信息;
S4.对S3中的目标文字信息进行特征词识别,判断目标文字信息中是否含有特征词,然后生成转化文字信息;
S5.将S4中的转化文字信息发送给服务器,并保存;
S6.采集视频数据,并将S2中的音频数据和视频数据送入解码器解码,之后对音频数据进行播放以及视频数据进行渲染,最后把服务器收到的文字信息渲染到视频上,显示到用户指定的区域上。
本实施例中,优选的,所述预设方言语音文本库包括中国十大方言,所述十大方言包括官话方言、晋方言、吴方言、徽方言、闽方言、粤方言、客家方言、赣方言、湘方言和平话土话。
本实施例中,优选的,所述预设外语语音文本库包括汉语、英语、俄语、日语、韩语、德语、法语、西班牙语、意大利语、葡萄牙语和泰语,所述汉语设置为普通话。
本实施例中,优选的,所述S3中的纠错处理具体包括以下步骤:
S31.对所述第一文字信息进行同音字纠错得到第二文字信息,基于当时的场景信息对所述第二文字信息进行同音字纠错生成第一初始目标文字信息;
S32.对所述第二文字信息进行同音字纠错得到第三文字信息,基于当时的场景信息对所述第三文字信息进行同音字纠错生成第二初始目标文字信息;
S33.检测所述第一初始目标文字信息和所述第二初始目标文字信息是否相同;若所述第一初始目标文字信息和所述第二初始目标文字信息相同,将所述第二初始目标文字信息相同确定生层目标文字信息;若所述第一初始目标文字信息和所述第二初始目标文字信息不相同,对所述第二初始目标文字进行同音字纠错生成第三初始目标文字,将所述第三初始目标文字信息确定生成目标文字信息。
本实施例中,优选的,所述预设特征词和敏感词文本库中设置有特征词与敏感词的对应关系,每组所述特征词均对应有一组所述敏感词。
本实施例中,优选的,所述S4中的判断方法为:如果识别到特征词,根据预先设置的对应关系,查找到与所述特征词对应的敏感词,将所述特征词替换为对应的敏感词,生成转化文字信息;若果没有识别到特征词,则直接生成转化文字信息。
本实施例中,优选的,所述S6中视频使用opengles或者其他渲染工具进行渲染,视频渲染到画布上的同时,把收到的文字信息按照时间戳格式同样也渲染到视频同一块画布上,这样就做到了视频与文字的合成,合成完毕之后,进行交换缓冲区,显示到用户指定的区域上。
本实施例中,优选的,所述视频与文字的合成过程如下:将文字帧与视频帧对齐,一个文字帧对应多个视频帧,将文字帧对应的视频帧分别渲染上文字帧中的文字内容,一个文字帧结束之后就可以把视频保存下来,进行下一个文字帧与视频帧的对齐与渲染,由于客户端是实时收到画面显示,而语音转文字的过程则会有一段时间的延迟,所以相同时间戳的文字帧会晚于视频帧的到达,这就需要服务端尽可能的把文字帧时间间隔缩短,使得客户端将多个文字帧按顺序显示在视频帧之上。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种基于视频通讯的语音转文字方法,其特征在于:包括以下步骤:
S1.将预设语音文本库存入服务器内,预设语音文本库包括预设方言语音文本库和预设外语语音文本库,同时将预设特征词和敏感词文本库存入服务器内;
S2.采集音频数据,先进行保存,然后进行语音识别;
S3.将语音识别的音频数据转化为第一文字信息,并对第一文字信息进行纠错处理,生成目标文字信息;
S4.对S3中的目标文字信息进行特征词识别,判断目标文字信息中是否含有特征词,然后生成转化文字信息;
S5.将S4中的转化文字信息发送给服务器,并保存;
S6.采集视频数据,并将S2中的音频数据和视频数据送入解码器解码,之后对音频数据进行播放以及视频数据进行渲染,最后把服务器收到的文字信息渲染到视频上,显示到用户指定的区域上。
2.根据权利要求1所述的一种基于视频通讯的语音转文字方法,其特征在于:所述预设方言语音文本库包括中国十大方言,所述十大方言包括官话方言、晋方言、吴方言、徽方言、闽方言、粤方言、客家方言、赣方言、湘方言和平话土话。
3.根据权利要求1所述的一种基于视频通讯的语音转文字方法,其特征在于:所述预设外语语音文本库包括汉语、英语、俄语、日语、韩语、德语、法语、西班牙语、意大利语、葡萄牙语和泰语,所述汉语设置为普通话。
4.根据权利要求1所述的一种基于视频通讯的语音转文字方法,其特征在于:所述S3中的纠错处理具体包括以下步骤:
S31.对所述第一文字信息进行同音字纠错得到第二文字信息,基于当时的场景信息对所述第二文字信息进行同音字纠错生成第一初始目标文字信息;
S32.对所述第二文字信息进行同音字纠错得到第三文字信息,基于当时的场景信息对所述第三文字信息进行同音字纠错生成第二初始目标文字信息;
S33.检测所述第一初始目标文字信息和所述第二初始目标文字信息是否相同;若所述第一初始目标文字信息和所述第二初始目标文字信息相同,将所述第二初始目标文字信息相同确定生层目标文字信息;若所述第一初始目标文字信息和所述第二初始目标文字信息不相同,对所述第二初始目标文字进行同音字纠错生成第三初始目标文字,将所述第三初始目标文字信息确定生成目标文字信息。
5.根据权利要求1所述的一种基于视频通讯的语音转文字方法,其特征在于:所述预设特征词和敏感词文本库中设置有特征词与敏感词的对应关系,每组所述特征词均对应有一组所述敏感词。
6.根据权利要求1所述的一种基于视频通讯的语音转文字方法,其特征在于:所述S4中的判断方法为:如果识别到特征词,根据预先设置的对应关系,查找到与所述特征词对应的敏感词,将所述特征词替换为对应的敏感词,生成转化文字信息;若果没有识别到特征词,则直接生成转化文字信息。
7.根据权利要求1所述的一种基于视频通讯的语音转文字方法,其特征在于:所述S6中视频使用opengles或者其他渲染工具进行渲染,视频渲染到画布上的同时,把收到的文字信息按照时间戳格式同样也渲染到视频同一块画布上,这样就做到了视频与文字的合成,合成完毕之后,进行交换缓冲区,显示到用户指定的区域上。
8.根据权利要求7所述的一种基于视频通讯的语音转文字方法,其特征在于:所述视频与文字的合成过程如下:将文字帧与视频帧对齐,一个文字帧对应多个视频帧,将文字帧对应的视频帧分别渲染上文字帧中的文字内容,一个文字帧结束之后就可以把视频保存下来,进行下一个文字帧与视频帧的对齐与渲染,由于客户端是实时收到画面显示,而语音转文字的过程则会有一段时间的延迟,所以相同时间戳的文字帧会晚于视频帧的到达,这就需要服务端尽可能的把文字帧时间间隔缩短,使得客户端将多个文字帧按顺序显示在视频帧之上。
CN202010547221.6A 2020-06-16 一种基于视频通讯的语音转文字方法 Active CN111798854B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010547221.6A CN111798854B (zh) 2020-06-16 一种基于视频通讯的语音转文字方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010547221.6A CN111798854B (zh) 2020-06-16 一种基于视频通讯的语音转文字方法

Publications (2)

Publication Number Publication Date
CN111798854A true CN111798854A (zh) 2020-10-20
CN111798854B CN111798854B (zh) 2024-05-07

Family

ID=

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170256262A1 (en) * 2016-03-02 2017-09-07 Wipro Limited System and Method for Speech-to-Text Conversion
CN108564950A (zh) * 2018-02-28 2018-09-21 上海与德科技有限公司 语音转文字的方法、智能终端及计算机存储介质
CN110740283A (zh) * 2019-10-29 2020-01-31 杭州当虹科技股份有限公司 一种基于视频通讯的语音转文字方法
CN110827826A (zh) * 2019-11-22 2020-02-21 维沃移动通信有限公司 语音转换文字方法、电子设备
CN111128185A (zh) * 2019-12-25 2020-05-08 北京声智科技有限公司 一种语音转文字的方法、装置、终端及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170256262A1 (en) * 2016-03-02 2017-09-07 Wipro Limited System and Method for Speech-to-Text Conversion
CN108564950A (zh) * 2018-02-28 2018-09-21 上海与德科技有限公司 语音转文字的方法、智能终端及计算机存储介质
CN110740283A (zh) * 2019-10-29 2020-01-31 杭州当虹科技股份有限公司 一种基于视频通讯的语音转文字方法
CN110827826A (zh) * 2019-11-22 2020-02-21 维沃移动通信有限公司 语音转换文字方法、电子设备
CN111128185A (zh) * 2019-12-25 2020-05-08 北京声智科技有限公司 一种语音转文字的方法、装置、终端及存储介质

Similar Documents

Publication Publication Date Title
US10176366B1 (en) Video relay service, communication system, and related methods for performing artificial intelligence sign language translation services in a video relay service environment
US10878824B2 (en) Speech-to-text generation using video-speech matching from a primary speaker
Rabiner Applications of voice processing to telecommunications
US7143033B2 (en) Automatic multi-language phonetic transcribing system
US20080059200A1 (en) Multi-Lingual Telephonic Service
JP2023022150A (ja) 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム
US20100217591A1 (en) Vowel recognition system and method in speech to text applictions
KR20140146965A (ko) 디스플레이 장치, 서버를 포함하는 변환 시스템 및 디스플레이 장치의 제어 방법
US20130253932A1 (en) Conversation supporting device, conversation supporting method and conversation supporting program
US20230316009A1 (en) Methods and systems for control of content in an alternate language or accent
CN111199160A (zh) 即时通话语音的翻译方法、装置以及终端
TW200304638A (en) Network-accessible speaker-dependent voice models of multiple persons
JP2011217018A (ja) 音声応答装置及びプログラム
CN114596870A (zh) 实时音频处理方法和装置、计算机存储介质、电子设备
US11600279B2 (en) Transcription of communications
JP2010128766A (ja) 情報処理装置、情報処理方法、プログラム及び記憶媒体
CN109616116B (zh) 通话系统及其通话方法
JP2009122989A (ja) 翻訳装置
JP2018045675A (ja) 情報提示方法、情報提示プログラム及び情報提示システム
CN111798854A (zh) 一种基于视频通讯的语音转文字方法
CN111798854B (zh) 一种基于视频通讯的语音转文字方法
Cahyaningtyas et al. Development of under-resourced Bahasa Indonesia speech corpus
US11848026B2 (en) Performing artificial intelligence sign language translation services in a video relay service environment
CN113421571B (zh) 一种语音转换方法、装置、电子设备和存储介质
KR101920653B1 (ko) 비교음 생성을 통한 어학학습방법 및 어학학습프로그램

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant