CN114023327B - 基于语音识别的文本修正方法、装置、设备及介质 - Google Patents

基于语音识别的文本修正方法、装置、设备及介质 Download PDF

Info

Publication number
CN114023327B
CN114023327B CN202210003418.2A CN202210003418A CN114023327B CN 114023327 B CN114023327 B CN 114023327B CN 202210003418 A CN202210003418 A CN 202210003418A CN 114023327 B CN114023327 B CN 114023327B
Authority
CN
China
Prior art keywords
voice
text
candidate word
corrected
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210003418.2A
Other languages
English (en)
Other versions
CN114023327A (zh
Inventor
黄石磊
程刚
陈诚
吕少岭
廖晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Raisound Technology Co ltd
Original Assignee
Shenzhen Raisound Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Raisound Technology Co ltd filed Critical Shenzhen Raisound Technology Co ltd
Priority to CN202210003418.2A priority Critical patent/CN114023327B/zh
Publication of CN114023327A publication Critical patent/CN114023327A/zh
Application granted granted Critical
Publication of CN114023327B publication Critical patent/CN114023327B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及语音识别技术,揭露了一种基于语音识别的文本修正方法,包括:识别待识别语音包含的文本词汇,得到第一识别结果并显示;确定所述第一识别结果中待修正的目标词汇,对所述待修正的目标词汇对应的每个候选词执行扩展操作,得到每个所述候选词的修正词条并显示;接收用户基于所述修正词条发出的修正语音,根据所述修正语音选择对应的修正词条,用所选择的修正词条对应的候选词替换所述目标词汇,得到第二识别结果并进行显示。本发明还提出一种基于语音识别的文本修正装置、设备以及介质。本发明可以提升基于语音识别的文本修正效率及准确性。

Description

基于语音识别的文本修正方法、装置、设备及介质
技术领域
本发明涉及语音识别技术领域,尤其涉及一种基于语音识别的文本修正方法、装置、电子设备及计算机可读存储介质。
背景技术
根据语音信息录入相应的文本是语音识别技术的一种重要应用场景,例如,会议录音转文稿,在聊天软件中,利用语音输入法发表评论或回复信息。
基于当前语音识别技术框架,在利用语音识别技术录入文字的过程中,即使在较为安静的环境下,仍然会有可能出现识别文字错误的情况。通常语音文本识别错误包括删除错误、插入错误及替代错误。其中,替代错误最为常见,尤其是同音替代错误。例如,“琵琶”与“枇杷”。
针对语音文本识别错误,常见的解决方法是采用人工重读待修正文本的方式,重新识别人工重读语音信息包含的文本,利用重读识别得到的文本修正待修正文本,这种解决方法,可以解决由于环境嘈杂引起的语音文本识别错误,但是不能有效的解决同音替代错误,例如,待修正文本为“十亿”,需要将“十亿”修正为“诗意”,而根据重读“十亿”的语音信息识别得到的文本可能是“示意”、“失意”或“事宜”等,需要用户再一次的重读或者进一步地挑选可用于修正的文本,导致文本修正准确性不高,重复修正又会降低文本修正的效率。因此,如何全面高效准确地修正语音文本识别错误是亟待解决的问题。
发明内容
本发明提供一种基于语音识别的文本修正方法、装置、电子设备及计算机可读存储介质,其主要目的在于提升基于语音识别的文本修正效率及准确性。
第一方面,本发明提供的一种基于语音识别的文本修正方法,所述方法包括:
接收待识别语音并进行语音识别,得到所述待识别语音包含的文本词汇和每个所述文本词汇对应的多个不同评分的候选词;
选取每个所述文本词汇对应的评分最高的候选词组成第一识别结果,显示所述第一识别结果;
接收用户基于所述第一识别结果发出的修正指令,根据所述修正指令确定所述第一识别结果中待修正的目标词汇;
获取所述目标词汇对应的候选词,对所获取到的每个候选词进行扩展,得到对应的修正词条,显示所述修正词条;
接收用户基于所述修正词条发出的修正语音,根据所述修正语音选择对应的修正词条,用所选择的修正词条对应的候选词替换所述目标词汇,得到第二识别结果并进行显示。
详细地,所述对所获取到的每个候选词进行扩展,得到对应的修正词条,包括:
获取每个所述候选词的评分,根据每个所述候选词的评分的大小对所有所述候选词进行排序,得到候选词序列;
逐个生成所述候选词序列中每个所述候选词对应的多种扩展词条,其中,所述扩展词条包括候选词、所述候选词的相邻词及所述扩展词条对应的语言概率值;
对每个所述候选词的多个扩展词条进行筛选,得到每个所述候选词的修正词条。
详细地,所述候选词的相邻词包括所述候选词的前缀词及所述候选词的后缀词,所述逐个生成所述候选词序列中每个所述候选词对应的多种扩展词条,包括:
在预设的语言模型包含的词语表中,查找包含所述候选词的文本组合;
在所述文本组合中,将所述候选词左侧的文本标识为所述候选词的前缀词;或
将所述候选词右侧的文本标识为所述候选词的后缀词;
计算每个所述文本组合在所述词语表中的出现频率作为语言概率值,并将所述语言概率值添加到对应的文本组合中;
选取大于预设的概率阈值的语言概率值作为目标语言概率值,将所述目标语言概率值对应的文本组合作为所述候选词的扩展词条。
详细地,所述对每个所述候选词的多个扩展词条进行筛选,得到每个所述候选词的修正词条,包括:
选取所述候选词序列中第一个候选词对应的语言概率值最大的扩展词条为基准词条,并将所述基准词条作为所述第一个候选词的修正词条;
逐个从所述候选词序列中剩余的每个候选词对应的扩展词条中,选取所述前缀词与所述基准词条的前缀词发音不同,所述后缀词与所述基准词条的后缀词发音不同,且所述语言概率值相对最大的扩展词条作为剩余的每个所述候选词对应的修正词条。
详细地,所述根据所述修正语音选择对应的修正词条,包括:
识别所述修正语音对应的文本词汇;
逐个将所述修正语音对应的文本词汇与每个所述修正词条做一致性比较;
将与所述修正语音对应的文本词汇一致的修正词条作为所述修正语音对应的修正词条。
详细地,所述接收待识别语音并进行语音识别,得到所述待识别语音包含的文本词汇,包括:
接收所述待识别语音;
对所述待识别语音进行分帧加窗,得到多个语音帧;
逐个提取每个所述语音帧的语音特征;
利用预设的语音识别器,根据每个所述语音帧的语音特征,生成所述待识别语音中每个文本词汇对应的多个评分不同的候选词。
第二方面,本发明提供一种基于语音识别的文本修正装置,所述装置包括:
第一识别结果生成模块,用于接收待识别语音并进行语音识别,得到所述待识别语音包含的文本词汇和每个所述文本词汇对应的多个不同评分的候选词,选取每个所述文本词汇对应的评分最高的候选词组成第一识别结果,显示所述第一识别结果;
待修正词汇确定模块,用于接收用户基于所述第一识别结果发出的修正指令,根据所述修正指令确定所述第一识别结果中待修正的目标词汇;
修正词条生成模块,用于获取所述目标词汇对应的候选词,对所获取到的每个候选词进行扩展,得到对应的修正词条,显示所述修正词条;
第二识别结果生成模块,用于接收用户基于所述修正词条发出的修正语音,根据所述修正语音选择对应的修正词条,用所选择的修正词条对应的候选词替换所述目标词汇,得到第二识别结果并进行显示。
详细地,所述第一识别结果生成模块具体用于:
接收所述待识别语音;
对所述待识别语音进行分帧加窗,得到多个语音帧;
逐个提取每个所述语音帧的语音特征;
利用预设的语音识别器,根据每个所述语音帧的语音特征,生成所述语音信息中每个文本词汇对应的多个评分不同的候选词;
选取每个所述文本词汇对应的评分最高的候选词组成第一识别结果,显示所述第一识别结果。
第三方面,本发明提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一项实施例所述的基于语音识别的文本修正方法的步骤。
第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的基于语音识别的文本修正方法的步骤。
本发明申请通过对待修正的目标词汇对应的每个候选词进行扩展,提升了扩展后得到的多个修正词条对应的语音之间的差异度及辨识度,可以有效避免扩展前每个所述候选词之间由于发音相同或接近,相应的语音辨识度不高的问题,通过重新识别用户基于所述修正词条发出的修正语音对所述目标词汇进行修正,相较于通过重新识别用户重读所述目标词汇或所述目标词汇对应的候选词发出的修正语音对所述目标词汇进行修正,可以有效避免同音替代错误,提升了基于语音识别的文本修正效率及准确性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的基于语音识别的文本修正方法的流程示意图;
图2为本发明一实施例提供的一种基于语音识别的文本修正装置的模块示意模块图;
图3为本发明一实施例提供的一种实现基于语音识别的文本修正方法的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
参照图1所示,为本发明一实施例提供的基于语音识别的文本修正方法的流程示意图。在本实施例中,所述基于语音识别的文本修正方法包括:
S1、接收待识别语音并进行语音识别,得到所述待识别语音包含的文本词汇和每个所述文本词汇对应的多个不同评分的候选词。
本发明实施例中,所述待识别语音可以是用户在预设时间段内产生的用户语音,或者用户在使用具有语音输入功能的APP时产生的语音。例如,用户在预设时间段内的演讲语音,用户在预设时间段内与他人交谈的语音等。
本发明实施例中,可通过具有数据抓取功能的计算机语句(java语句、python语句等)从预先构建的存储区域中获取用户授权的可被获取的语音,所述存储区域包括但不限于数据库、区块链、网络缓存。
本发明其他实施例中,还可通过具有录音功能的麦克风、录音笔等设备对用户在预设时间段内产生的用户语音进行采集,并将采集到的用户语音作为所述待识别语音。
本发明实施例中,可以利用预设的语音识别器,识别所述待识别语音包含的文本词汇。所述预设的语音识别器是基于神经网络构建的自然语言学习模型,包括语音识别解码器、声学模型及语言模型三部分。当用户发出语音时,利用所述声学模型及所述语言模型提取所述语音的语音特征,利用所述语音识别解码器,根据所述语音的语音特征,识别所述语音的文本词汇,得到第一识别结果。
详细地,所述接收待识别语音并进行语音识别,得到所述待识别语音包含的文本词汇和每个所述文本词汇对应的多个不同评分的候选词,包括:接收所述待识别语音;对所述待识别语音进行分帧加窗,得到多个语音帧;逐个提取每个所述语音帧的语音特征;利用预设的语音识别器,根据每个所述语音帧的语音特征,生成所述待识别语音中每个文本词汇对应的多个评分不同的候选词。
较佳地,接收所述待识别语音后,还可以利用预设的滤波器对所述待语音进行降噪处理以提升语音特征提取的效果。
本发明实施例中,可以提取所述待识别语音的时域特征、谱域特征及倒谱域特征等语音特征。
可以理解的是,通常所述语音识别器具有大量的词汇表,针对具有同一语音特征的语音,会产生多个候选词,例如,用户发出的语音信息为“yi yang”,对应的候选词可以是“益阳”、“弋阳”或者“宜阳”。其中,每个所述候选词可以词图形式存在,所述词图是一种代表识别的不同结果的有向图,通常包括候选词对应的产生时间、候选词及候选词对应的评分三部分。
例如,语音信息“yiyang”对应的候选词分别为:(0.8,’益阳’, 0.7)、(0.8,’弋阳’, 0.4)、(0.8,’宜阳’, 0.5),其中,0.8表示语音信息“yiyang”的产生时间,0.7、0.4和0.5分别表示候选词“益阳”、“弋阳”及“宜阳”对应的评分,因为“益阳”这个文本词汇的使用频率高,相应的“益阳”这个候选词的评分也就最高。候选词的评分越高,表示该候选词是语音信息对应的文本词汇的可能性也就越大。
S2、选取每个所述文本词汇对应的评分最高的候选词组成第一识别结果,显示所述第一识别结果;
本发明实施例中,较佳的,可以选取每个文本词汇对应的评分最高的候选词组成所述待识别语音的第一识别结果,通过预设的UI界面中显示所述第一识别结果。其中,所述预设的UI界面可以是具有语音输入功能的APP提供的语音输入界面。
示例性的,所述待识别语音对应的文本词汇为(0.0,’今天’, 0.9)、(0.0,’今日’,0.5)、(0.0,’明天’, 0.01)、(0.2,’天气’, 0.8)、(0.2,’气温’, 0.5)、(0.2,’气候’,0.3)、(0.4,’很好’, 0.9)、(0.4,’不错’, 0.5)、(0.4,’还行’, 0.01),相应的根据选取每个文本词汇对应的评分最高的候选词组成所述待识别语音信息对应的第一识别结果,则所述待识别语音对应的第一识别结果为“今天天气很好”。
S3、接收用户基于所述第一识别结果发出的修正指令,根据所述修正指令确定所述第一识别结果中待修正的目标词汇。
本发明实施例中,所述修正指令可以是由用户通过移动鼠标或光标等修正符号触发。
详细地,所述根据所述修正指令确定所述第一识别结果中待修正的目标词汇,包括:
解析所述修正指令得到修正符号;获取所述修正符号所选中的文本词汇作为所述待修正的目标词汇。
本发明实施例中,所述修正符号可以是光标,通过获取所述光标在所述第一识别结果中的位置,将光标左侧最邻近的文本词汇作为所述待修正的目标词汇。所述修正符号也可以是鼠标,获取所述第一识别结果中鼠标选中的文本词汇,将选中的文本词汇作为所述待修正的目标词汇。
示例性的,当用户移动光标到“今天天气真好”中的“天气”的右侧时,将光标左侧最邻近的文本词汇,即“天气”确定为所述待修正的目标词汇。当用户利用鼠标选中“今天天气真好”中的“天气”时,将“天气”作为所述待修正的目标词汇。
可选的,本发明另一实施例中,可以对所述第一识别结果进行语法校验或语义识别,如果所述第一识别结果存在语法错误或语义问题,则触发所述修正指令。
本发明另一实施例中,详细地,所述接收用户基于所述第一识别结果发出的修正指令之前,所述方法还包括:利用预设的语义识别模型,对所述第一识别结果进行语义识别;当所述第一识别结果存在语义问题时,识别所述第一识别结果中存在语义问题的文本词汇,并对所述存在语义问题的文本词汇进行特殊化处理;触发所述修正指令。
本发明另一实施例中,所述预设的语义识别模型可以是基于BERT构建的语义识别模型或基于UniLM构建的语义识别模型,相较于基于BERT构建的语义识别模型,所述基于UniLM构建的语义识别模型不仅能很好处理自然语言理解的问题,也能很好处理自然语言生成的问题,是一种既能阅读又能自动生成文本的语言模型。
本发明另一实施例中,所述特殊化处理包括但不限于将所述存在语义问题的文本词汇进行字体加粗、字体倾斜、字体颜色变色或者字体高亮显示等处理。
本发明另一实施例中,可以根据所述修正指令识别所述第一识别结果中特殊化处理的文本词汇,将所述特殊化处理的文本词汇作为所述待修正的目标词汇。
S4、获取所述目标词汇对应的候选词,对所获取到的每个候选词进行扩展,得到对应的修正词条,显示所述修正词条;
本发明实施例中,所述对每个所述候选词进行扩展是指根据每个所述候选词的语义或者使用场景进行扩展,例如,候选词是“益阳”,则可以扩展为“湖南益阳”或者“益阳洞庭湖南岸之城”。
详细地,所述对所获取到的每个候选词进行扩展,得到对应的修正词条,包括:
获取每个所述候选词的评分,根据每个所述候选词的评分的大小对所有所述候选词进行排序,得到候选词序列;逐个生成所述候选词序列中每个所述候选词对应的多种扩展词条,其中,所述扩展词条包括候选词、所述候选词的相邻词及所述扩展词条对应的语言概率值;对每个所述候选词的多个扩展词条进行筛选,得到每个所述候选词的修正词条。
示例性的,若候选词分别为(0.8,’益阳’, 0.7)、(0.8,’弋阳’, 0.4)、(0.8,’宜阳’, 0.5),其中,“益阳”的评分为0.7、“弋阳”的评分为0.4,“宜阳”的评分为0.5,则相应的候选词序列为“益阳,宜阳,弋阳”。按照先“益阳”后“宜阳”最后“弋阳”的顺序,逐个生成每个候选词的扩展词条。
详细地,所述候选词的相邻词包括所述候选词的前缀词及所述候选词的后缀词,所述逐个生成所述候选词序列中每个所述候选词对应的多种扩展词条,包括:
在预设的语言模型包含的词语表中,查找包含所述候选词的文本组合;在所述文本组合中,将所述候选词左侧的文本标识为所述候选词的前缀词;或
将所述候选词右侧的文本标识为所述候选词的后缀词;计算每个所述文本组合在所述词语表中的出现频率作为语言概率值,并将所述语言概率值添加到对应的文本组合中;选取大于预设的概率阈值的语言概率值作为目标语言概率值,将所述目标语言概率值对应的文本组合作为所述候选词的扩展词条。
本发明实施例中,所述预设的语言模型是基于声学模型及语义识别模型联合构建的一种语言模型,通过所述语言模型中的声学模型能够生成大数据量的由字、词组、短语及句子组成的词语表,基于语言模型中的所述语义识别模型能够进行文本语义识别。
本发明实施例中,可以通过计算包含所述候选词的文本组合的数量与所述词语表中的短语及句子的总量之间的比值,得到所述候选词的文本组合对应的出现频率,将所述出现频率作为所述候选词的文本组合的语言概率值,每个所述文本组合对应的语言概率值越大,表示所述文本组合使用的频率也就越高。
本发明实施例中,所述预设的概率阈值可以根据实际情况设置。
可以理解的是,每个所述扩展词条除候选词外,可以同时包括候选词的前缀词(后面简称为前缀词)或候选词的后缀词(后面简称为后缀词),当不存在前缀词或后缀词时,也可以仅包含前缀词或后缀词。例如,若候选词为“益阳”,则所述候选词对应的扩展词条可以是“湖南益阳0.9”,也可以是“湖南益阳宜居城市0.3”,或者是“益阳洞庭湖南岸之城0.01”。其中“0.9”、“0.3”及“0.01”分别表示相应的扩展词条的语言概率值的大小。
可以理解的是,每个所述候选词的发音可能相同,例如,“益阳”、“弋阳”及“宜阳”发音相同,相应的每个所述候选词对应的扩展词条中的前缀词或后缀词发音也有可能相同,如果每个所述候选词对应的扩展词条的发音相同,不利于后续根据所述扩展词条进行语音修正。因此,较佳地,还需要对每个所述候选词的扩展词条进行筛选。
详细地,所述对每个所述候选词的多个扩展词条进行筛选,得到每个所述候选词的修正词条,包括:选取所述候选词序列中第一个候选词对应的语言概率值最大的扩展词条为基准词条,并将所述基准词条作为所述第一个候选词的修正词条;逐个从所述候选词序列中剩余的每个候选词对应的扩展词条中,选取所述前缀词与所述基准词条的前缀词发音不同,所述后缀词与所述基准词条的后缀词发音不同,且所述语言概率值相对最大的扩展词条作为剩余的每个所述候选词对应的修正词条。
示例性的,当候选词序列为“益阳、弋阳”时,第一候选词为“益阳”,所述第一候选词对应的扩展词条分别为“湖南益阳0.9”、“长沙益阳宜居城市0.3”、“益阳洞庭湖南岸之城0.01”,选取语言概率值是0.9的扩展词条“湖南益阳0.9”作为基准词条。候选词“弋阳”对应的扩展词条分别为“胡楠弋阳人0.01”、“江西弋阳0.7”、“上饶弋阳0.4”,其中扩展词条“胡楠弋阳人0.01”中的前缀词“胡楠”与所述基准词条“湖南益阳0.9”中的前缀词“湖南”的发音相同,则扩展词条“胡楠弋阳人0.01”不被选取,剩余的扩展词条中“江西弋阳0.7”的语言概率值最大,则选取扩展词条“江西弋阳0.7”作为候选词“弋阳”的可选组合。
本发明实施例中,通过对候选词进行语义扩展及筛选,可以扩大候选词之间的差异,有利于后续利用扩展的修正词条进行语音文本的修正,可以提升语音文本修正的效率及准确性。
S5、接收用户基于所述修正词条发出的修正语音,根据所述修正语音选择对应的修正词条,用所选择的修正词条对应的候选词替换所述目标词汇,得到第二识别结果并进行显示。
可以理解的是,用户如果直接发出与所述待修正的目标词汇一致的语音,因为较大概率的存在所述目标词汇对应的候选词与所述目标词汇的发音相同的情况,这种情况下,利用所述预设的语音识别器依然无法从语音上区分每个所述候选词。而通过对每个所述候选词进行扩展后得到的修正词条,可以提升每个所述候选词之间的语音差异度和辨识度。因此用户可以参考任一修正词条发出与所述修正词条一致的修正语音,利用所述预设的语音识别器对用户发出的修正语音进行文本识别,可以提升基于语音识别的文本修正效率。
详细地,所述根据所述修正语音选择对应的修正词条,包括:识别所述修正语音对应的文本词汇;逐个将所述修正语音对应的文本词汇与每个所述修正词条做一致性比较;将与所述修正语音对应的文本词汇一致的修正词条作为所述修正语音对应的修正词条。
示例性的,若所述目标词汇为“益阳”,所述修正词条分别为“江西弋阳0.7”及“河南宜阳0.6”,用户发出的修正语音为“jiangxi yiyang”,则所述修正语音对应的文本词汇中包含江西弋阳,与修正词条“江西弋阳”一致,则确定其中的“弋阳”为修正词,利用“弋阳”替代所述目标词汇“益阳”。
本发明申请通过对待修正的目标词汇对应的每个候选词进行扩展,提升了扩展后得到的多个修正词条对应的语音之间的差异度及辨识度,可以有效避免扩展前每个所述候选词之间由于发音相同或接近,相应的语音辨识度不高的问题,通过重新识别用户基于所述修正词条发出的修正语音对所述目标词汇进行修正,相较于通过重新识别用户重读所述目标词汇或所述目标词汇对应的候选词发出的修正语音对所述目标词汇进行修正,可以有效避免同音替代错误,提升了基于语音识别的文本修正效率及准确性。
如图2所示,是本发明一实施例提供的基于语音识别的文本修正装置的功能模块图。所述基于语音识别的文本修正装置100,包括:第一识别结果生成模块101、待修正词汇确定模块102、修正词条生成模块103及第二识别结果生成模块104。
第一识别结果生成模块101,用于接收待识别语音并进行语音识别,得到所述待识别语音包含的文本词汇和每个所述文本词汇对应的多个不同评分的候选词,选取每个所述文本词汇对应的评分最高的候选词组成第一识别结果,显示所述第一识别结果;
待修正词汇确定模块102,用于接收用户基于所述第一识别结果发出的修正指令,根据所述修正指令确定所述第一识别结果中待修正的目标词汇;
修正词条生成模块103,用于获取所述目标词汇对应的候选词,对所获取到的每个候选词进行扩展,得到对应的修正词条,显示所述修正词条;
第二识别结果生成模块104,用于接收用户基于所述修正词条发出的修正语音,根据所述修正语音选择对应的修正词条,用所选择的修正词条对应的候选词替换所述目标词汇,得到第二识别结果并进行显示。
详细地,所述第一识别结果生成模块101具体用于:
接收所述待识别语音;
对所述待识别语音进行分帧加窗,得到多个语音帧;
逐个提取每个所述语音帧的语音特征;
利用预设的语音识别器,根据每个所述语音帧的语音特征,生成所述语音信息中每个文本词汇对应的多个评分不同的候选词;
选取每个所述文本词汇对应的评分最高的候选词组成第一识别结果,显示所述第一识别结果。
详细地,本发明实施例中所述基于语音识别的文本修正装置100中的各个模块在使用时采用与上述的图1所述的基于语音识别的文本修正方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
如图3所示,本申请实施例提供了一种电子设备,包括处理器111、通信接口112、存储器113和通信总线114,其中,处理器111、通信接口112、存储器113通过通信总线114完成相互间的通信。
存储器113,用于存放计算机程序。
在本申请一个实施例中,处理器111,用于执行存储器113上所存放的程序时,实现前述任意一个方法实施例提供的基于语音识别的文本修正方法,包括:
接收待识别语音并进行语音识别,得到所述待识别语音包含的文本词汇和每个所述文本词汇对应的多个不同评分的候选词;
选取每个所述文本词汇对应的评分最高的候选词组成第一识别结果,显示所述第一识别结果;
接收用户基于所述第一识别结果发出的修正指令,根据所述修正指令确定所述第一识别结果中待修正的目标词汇;
获取所述目标词汇对应的候选词,对所获取到的每个候选词进行扩展,得到对应的修正词条,显示所述修正词条;
接收用户基于所述修正词条发出的修正语音,根据所述修正语音选择对应的修正词条,用所选择的修正词条对应的候选词替换所述目标词汇,得到第二识别结果并进行显示。
上述通信总线114可以是外设部件互连标准(PeripheralComponentInterconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture,简称EISA)总线等。该通信总线114可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口112用于上述电子设备与其他设备之间的通信。
存储器113可以包括随机存取存储器(RandomAccessMemory,简称RAM),也可以包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。可选的,存储器113还可以是至少一个位于远离前述处理器111的存储装置。
上述的处理器111可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述任意一个方法实施例提供的基于语音识别的文本修正方法的步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidStateDisk(SSD))等。需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种基于语音识别的文本修正方法,其特征在于,所述方法包括:
接收待识别语音并进行语音识别,得到所述待识别语音包含的文本词汇和每个所述文本词汇对应的多个不同评分的候选词;
选取每个所述文本词汇对应的评分最高的候选词组成第一识别结果,显示所述第一识别结果;
接收用户基于所述第一识别结果发出的修正指令,根据所述修正指令确定所述第一识别结果中待修正的目标词汇;
获取所述目标词汇对应的候选词,对所获取到的每个候选词进行扩展,得到对应的修正词条,显示所述修正词条;
接收用户基于所述修正词条发出的修正语音,根据所述修正语音选择对应的修正词条,用所选择的修正词条对应的候选词替换所述目标词汇,得到第二识别结果并进行显示;
所述对所获取到的每个候选词进行扩展,得到对应的修正词条,包括:
获取每个所述候选词的评分,根据每个所述候选词的评分的大小对所有所述候选词进行排序,得到候选词序列;
逐个生成所述候选词序列中每个所述候选词对应的多种扩展词条,其中,所述扩展词条包括候选词、所述候选词的相邻词及所述扩展词条对应的语言概率值;
对每个所述候选词的多个扩展词条进行筛选,得到每个所述候选词的修正词条;
所述候选词的相邻词包括所述候选词的前缀词及所述候选词的后缀词,所述逐个生成所述候选词序列中每个所述候选词对应的多种扩展词条,包括:
在预设的语言模型包含的词语表中,查找包含所述候选词的文本组合;
在所述文本组合中,将所述候选词左侧的文本标识为所述候选词的前缀词;或
将所述候选词右侧的文本标识为所述候选词的后缀词;
计算每个所述文本组合在所述词语表中的出现频率作为语言概率值,并将所述语言概率值添加到对应的文本组合中;
选取大于预设的概率阈值的语言概率值作为目标语言概率值,将所述目标语言概率值对应的文本组合作为所述候选词的扩展词条。
2.如权利要求1所述的基于语音识别的文本修正方法,其特征在于,所述对每个所述候选词的多个扩展词条进行筛选,得到每个所述候选词的修正词条,包括:
选取所述候选词序列中第一个候选词对应的语言概率值最大的扩展词条为基准词条,并将所述基准词条作为所述第一个候选词的修正词条;
逐个从所述候选词序列中剩余的每个候选词对应的扩展词条中,选取前缀词与所述基准词条的前缀词发音不同,后缀词与所述基准词条的后缀词发音不同,且所述语言概率值相对最大的扩展词条作为剩余的每个所述候选词对应的修正词条。
3.如权利要求1所述的基于语音识别的文本修正方法,其特征在于,所述根据所述修正语音选择对应的修正词条,包括:
识别所述修正语音对应的文本词汇;
逐个将所述修正语音对应的文本词汇与每个所述修正词条做一致性比较;
将与所述修正语音对应的文本词汇一致的修正词条作为所述修正语音对应的修正词条。
4.如权利要求1所述的基于语音识别的文本修正方法,其特征在于,所述接收待识别语音并进行语音识别,得到所述待识别语音包含的文本词汇,包括:
接收所述待识别语音;
对所述待识别语音进行分帧加窗,得到多个语音帧;
逐个提取每个所述语音帧的语音特征;
利用预设的语音识别器,根据每个所述语音帧的语音特征,生成所述待识别语音中每个文本词汇对应的多个评分不同的候选词。
5.一种基于语音识别的文本修正装置,其特征在于,所述装置包括:
第一识别结果生成模块,用于接收待识别语音并进行语音识别,得到所述待识别语音包含的文本词汇和每个所述文本词汇对应的多个不同评分的候选词,选取每个所述文本词汇对应的评分最高的候选词组成第一识别结果,显示所述第一识别结果;
待修正词汇确定模块,用于接收用户基于所述第一识别结果发出的修正指令,根据所述修正指令确定所述第一识别结果中待修正的目标词汇;
修正词条生成模块,用于获取所述目标词汇对应的候选词,对所获取到的每个候选词进行扩展,得到对应的修正词条,显示所述修正词条;
第二识别结果生成模块,用于接收用户基于所述修正词条发出的修正语音,根据所述修正语音选择对应的修正词条,用所选择的修正词条对应的候选词替换所述目标词汇,得到第二识别结果并进行显示;
所述对所获取到的每个候选词进行扩展,得到对应的修正词条,包括:
获取每个所述候选词的评分,根据每个所述候选词的评分的大小对所有所述候选词进行排序,得到候选词序列;
逐个生成所述候选词序列中每个所述候选词对应的多种扩展词条,其中,所述扩展词条包括候选词、所述候选词的相邻词及所述扩展词条对应的语言概率值;
对每个所述候选词的多个扩展词条进行筛选,得到每个所述候选词的修正词条;
所述候选词的相邻词包括所述候选词的前缀词及所述候选词的后缀词,所述逐个生成所述候选词序列中每个所述候选词对应的多种扩展词条,包括:
在预设的语言模型包含的词语表中,查找包含所述候选词的文本组合;
在所述文本组合中,将所述候选词左侧的文本标识为所述候选词的前缀词;或
将所述候选词右侧的文本标识为所述候选词的后缀词;
计算每个所述文本组合在所述词语表中的出现频率作为语言概率值,并将所述语言概率值添加到对应的文本组合中;
选取大于预设的概率阈值的语言概率值作为目标语言概率值,将所述目标语言概率值对应的文本组合作为所述候选词的扩展词条。
6.如权利要求5所述的基于语音识别的文本修正装置,其特征在于,所述第一识别结果生成模块具体用于:
接收所述待识别语音;
对所述待识别语音进行分帧加窗,得到多个语音帧;
逐个提取每个所述语音帧的语音特征;
利用预设的语音识别器,根据每个所述语音帧的语音特征,生成所述待识别语音中每个文本词汇对应的多个评分不同的候选词;
选取每个所述文本词汇对应的评分最高的候选词组成第一识别结果,显示所述第一识别结果。
7.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1至4任一项所述的基于语音识别的文本修正方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的基于语音识别的文本修正方法。
CN202210003418.2A 2022-01-05 2022-01-05 基于语音识别的文本修正方法、装置、设备及介质 Active CN114023327B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210003418.2A CN114023327B (zh) 2022-01-05 2022-01-05 基于语音识别的文本修正方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210003418.2A CN114023327B (zh) 2022-01-05 2022-01-05 基于语音识别的文本修正方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN114023327A CN114023327A (zh) 2022-02-08
CN114023327B true CN114023327B (zh) 2022-04-15

Family

ID=80069662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210003418.2A Active CN114023327B (zh) 2022-01-05 2022-01-05 基于语音识别的文本修正方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN114023327B (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103645876B (zh) * 2013-12-06 2017-01-18 百度在线网络技术(北京)有限公司 语音输入方法和装置
CN107678561A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 基于人工智能的语音输入纠错方法及装置
CN110808049B (zh) * 2018-07-18 2022-04-26 深圳市北科瑞声科技股份有限公司 语音标注文本修正方法、计算机设备和存储介质
CN112612442B (zh) * 2019-09-19 2024-08-09 北京搜狗科技发展有限公司 一种输入方法、装置和电子设备
CN113448430B (zh) * 2020-03-26 2023-02-28 中移(成都)信息通信科技有限公司 文本纠错的方法、装置、设备和计算机可读存储介质
CN113177114B (zh) * 2021-05-28 2022-10-21 重庆电子工程职业学院 一种基于深度学习的自然语言语义理解方法

Also Published As

Publication number Publication date
CN114023327A (zh) 2022-02-08

Similar Documents

Publication Publication Date Title
JP6251958B2 (ja) 発話解析装置、音声対話制御装置、方法、及びプログラム
CN108140019B (zh) 语言模型生成装置、语言模型生成方法以及记录介质
US7421387B2 (en) Dynamic N-best algorithm to reduce recognition errors
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
CN106575502B (zh) 用于在合成语音中提供非词汇线索的系统和方法
US11024298B2 (en) Methods and apparatus for speech recognition using a garbage model
US11810471B2 (en) Computer implemented method and apparatus for recognition of speech patterns and feedback
WO2017127296A1 (en) Analyzing textual data
CN111951825B (zh) 一种发音测评方法、介质、装置和计算设备
JP5824829B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
CN112397056B (zh) 语音评测方法及计算机存储介质
CN110675866B (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
CN110335608B (zh) 声纹验证方法、装置、设备及存储介质
CN112509568A (zh) 一种语音唤醒方法及装置
US20050187767A1 (en) Dynamic N-best algorithm to reduce speech recognition errors
CN112397051A (zh) 语音识别方法、装置及终端设备
CN112967711B (zh) 一种针对小语种口语发音评价方法、系统及存储介质
CN112133285B (zh) 语音识别方法、装置、存储介质和电子设备
CN111681646A (zh) 端到端架构的通用场景中文普通话语音识别方法
CN114023327B (zh) 基于语音识别的文本修正方法、装置、设备及介质
JP6366179B2 (ja) 発話評価装置、発話評価方法、及びプログラム
CN114203180A (zh) 会议纪要的生成方法、装置、电子设备及存储介质
CN114254628A (zh) 一种语音转写中结合用户文本的快速热词提取方法、装置、电子设备及存储介质
CN112733546A (zh) 表情符号生成方法、装置、电子设备及存储介质
CN112185346B (zh) 多语种语音关键词检测、模型生成方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant