CN114187913A - 语音识别方法、装置、设备、介质及程序产品 - Google Patents
语音识别方法、装置、设备、介质及程序产品 Download PDFInfo
- Publication number
- CN114187913A CN114187913A CN202111506043.3A CN202111506043A CN114187913A CN 114187913 A CN114187913 A CN 114187913A CN 202111506043 A CN202111506043 A CN 202111506043A CN 114187913 A CN114187913 A CN 114187913A
- Authority
- CN
- China
- Prior art keywords
- recognition
- voice
- text
- candidate
- confidence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000012937 correction Methods 0.000 claims description 23
- 230000003993 interaction Effects 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 11
- 238000007418 data mining Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000012545 processing Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 2
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了语音识别方法、装置、设备、介质及程序产品,涉及计算机技术领域,尤其涉及语音技术领域。具体实现方案为:基于至少两个语音识别场景,分别对待识别语音进行语音识别,得到至少两个候选识别文本;分别对候选识别文本和待识别语音进行特征提取得到候选文本特征和语音特征;依据候选文本特征和语音特征,确定候选识别文本的置信度;依据候选识别文本的置信度,确定待识别语音的语音识别结果。本公开实施例的技术方案,可以提高语音识别的准确度。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及语音技术领域,具体涉及一种语音识别方法、装置、设备、介质及程序产品。
背景技术
语音识别技术是计算机识别和理解人类输入的语音信号,并把语音信号转变为相应的文本或命令的技术,是实现人与机器交互的重要途径之一。
语音识别技术现在已广泛应用于各种场景,例如,语音搜索、车载导航、语音输入法以及智能音箱等场景。随着语音识别应用场景的不断丰富,用户对语音识别的准确率也有了更高的要求。
发明内容
本公开提供了一种语音识别方法、装置、设备、介质及程序产品。
根据本公开的一方面,提供了一种语音识别方法,包括:
基于至少两个语音识别场景,分别对待识别语音进行语音识别,得到至少两个候选识别文本;
分别对所述候选识别文本和所述待识别语音进行特征提取得到候选文本特征和语音特征;
依据所述候选文本特征和语音特征,确定所述候选识别文本的置信度;
依据所述候选识别文本的置信度,确定所述待识别语音的语音识别结果。
根据本公开的另一方面,提供了一种语音识别装置,包括:
候选识别文本确定模块,用于基于至少两个语音识别场景,分别对待识别语音进行语音识别,得到至少两个候选识别文本;
特征提取模块,用于分别对所述候选识别文本和所述待识别语音进行特征提取得到候选文本特征和语音特征;
置信度确定模块,用于依据所述候选文本特征和语音特征,确定所述候选识别文本的置信度;
语音识别结果确定模块,用于依据所述候选识别文本的置信度,确定所述待识别语音的语音识别结果。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开任一实施例的语音识别方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开任一实施例的语音识别方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现本公开任一实施例的语音识别方法。
本公开实施例可以提高语音识别准确率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例提供的一种语音识别方法的示意图;
图2是根据本公开实施例提供的一种语音识别方法的示意图;
图3是根据本公开实施例提供的一种语音识别方法的示意图;
图4是根据本公开实施例提供的一种语音识别装置的示意图;
图5是用来实现本公开实施例的语音识别方法的电子设备的框图;
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本公开实施例公开的一种语音识别方法的流程图,本实施例可以适用于基于不同语音识别场景对待识别语音进行语音识别的情况。本实施例方法可以由语音识别装置来执行,该装置可采用软件和/或硬件的方式实现,并具体配置于具有一定数据运算能力的电子设备中,该电子设备可以是客户端设备或服务器设备,客户端设备例如手机、平板电脑、车载终端和台式电脑等。
S110、基于至少两个语音识别场景,分别对待识别语音进行语音识别,得到至少两个候选识别文本。
语音识别场景能够表征包含语音识别环节的功能、应用或者设备等。示例性的,语音识别场景可以是语音搜索场景、语音输入法场景、虚拟个人助理的语音交互或语音指令场景,以及智能家居的语音指令或语音交互场景等。
针对不同的语音识别场景,语音识别的需求各不相同。具体的,在不同的语音识别场景下,对语音识别的速率和准确率的要求不相同。例如,语音搜索场景下,对语音识别的准确率要求较高,对语音识别的速率要求较低;在语音输入法场景,对语音识别的准确率要求较低,但对语音识别的速率要求较高;在虚拟个人助理的语音交互场景或者智能音箱的语音交互场景下,对语音识别的速率和准确率要求都比较高,这种情况下,对进行语音识别操作的设备计算力要求比较高。
针对上述情况,开发者往往针对不同的语音识别场景的训练目标,分别训练与各语音识别场景匹配的语音识别模型,来满足不同场景下对语音识别的要求。
本公开实施例中,在获取到待识别语音时,基于至少两个语音识别场景,分别对待识别语音进行语音识别,得到针对各语音识别场景的候选识别文本。具体的,可以在获取到待识别语音时,分别采用针对不同语音识别场景的解码器来进行语音识别,得到各解码器分别输出的候选识别文本,以在候选识别文本中选择置信度最高的,起到结合不同场景解码器的优势,提高语音识别准确度的效果。
示例性的,在获取到待识别语音后,分别采用针对语音搜索场景的解码器1、针对语音输入法场景的解码器2和针对智能音箱语音交互场景的解码器3对待识别语音进行识别,进而得到上述各解码器分别输出的候选识别文本。例如,解码器1输出的候选识别文本是“播放一首轻因悦”,解码器2输出的候选识别文本是“播放一首清音乐”,解码器3输出的候选识别文本是“播放一首轻音乐”。
S120、分别对候选识别文本和待识别语音进行特征提取得到候选文本特征和语音特征。
其中,候选文本特征通过对候选识别文本进行特征提取得到。具体的,可以通过预先训练的文本特征提取模型来对候选识别文本进行特征提取,得到候选文本特征。语音特征通过对待识别语音进行特征提取得到。具体的,可以通过预先训练的语音特征提取模型对待识别语音进行特征提取,得到语音特征。
本公开实施例中,为了在获取到的多个候选识别文本中,选择一个作为最终识别结果,需要确定各候选识别文本与待识别语音的匹配度。首先对候选识别文本和待识别语音进行特征提取,以根据提取到的候选文本特征和语音特征进行匹配,得到二者的匹配度。具体的,通过预先训练的文本特征提取模型和语音特征提取模型,分别对候选识别文本和待识别语音进行特征提取,得到候选文本特征和语音特征。示例性的,可以通过卷积神经网络对候选识别文本和待识别语音进行特征提取。
S130、依据候选文本特征和语音特征,确定候选识别文本的置信度。
为了保证语音识别的准确度,可以计算各候选识别文本的置信度,从而选择一个置信度最高的候选识别文本作为最终语音识别结果。通过将提取到的候选文本特征和语音特征进行匹配,得到各候选识别文本的置信度。
具体的,可以以字符为单位,获取候选文本特征中每个字符的文本特征,进一步的,根据候选识别文本中各字符与待识别语音中各音素的关联关系,在语音特征中获取与每个字符关联音素的音素特征。将字符的文本特征,与字符关联音素的音素特征进行匹配,来得到候选识别文本中每个字符的置信度。最终,依据每个字符的置信度来计算候选识别文本的置信的度。例如,可以通过计算多个字符对应置信度的平均值得到候选识别文本的置信度。
在一个具体的例子中,其中一个候选识别文本是“播放一首清音乐”。通过将候选识别文本中字符的文本特征和与字符对应音素的音素特征进行比对,可以得到字符“播”的置信度是90%,字符“放”的置信度是95%,字符“一”的置信度是87%,字符“首”的置信度是79%,字符“清”的置信度是30%,字符“音”的置信度是75%,字符“乐”的置信度是80%。计算上述各字符置信度的平均值,得到该候选识别文本的置信度是76.6%。
S140、依据候选识别文本的置信度,确定待识别语音的语音识别结果。
在计算得到各候选识别文本的置信度之后,可以依据候选识别文本的置信度,在候选识别文本中选择置信度最高的候选识别结果,作为最终的语音识别结果。另外,鉴于置信度最高的候选识别文本中,也可能存在错别字的情况,可以进一步对选择的置信度最高的候选识别文本进行纠错处理,将纠错结果作为最终的语音识别结果。
在一个具体的例子中,基于语音搜索场景进行语音识别,得到的候选识别文本1的置信度是67%,基于语音输入法场景进行语音识别,得到的候选识别文本2的置信度是75%,基于智能音箱场景进行语音识别,得到的候选识别文本3的置信度是80%。可以选择置信度最高的候选识别文本3作为最终的语音识别结果。
在另一个具体的例子中,基于3种不同的语音识别场景进行语音识别,得到的候选识别文本的置信度分别是35%、27%和41%。3个候选识别文本的置信度均较低,在这种情况下,即使选择置信度最高的候选识别文本作为最终的语音识别结果,其存在错别字的可能性也较大。针对这种情况,可以在选择置信度最高的候选识别文本后,进一步对选择的候选识别文本进行纠错处理,最终将纠错处理后的文本作为最终的语音识别结果。其中,纠错可以是以字符为单位,进行错别字的纠正。例如,通过预先设置的纠错库来对选择的候选识别文本中的错别字进行识别和纠错。
本公开实施例的技术方案,基于至少两个语音识别场景分别对待识别语音进行语音识别,得到至少两个候选识别文本,并依据候选识别文本的候选文本特征和待识别语音的语音特征来确定各候选识别文本的置信度,最终依据候选识别文本的置信度来确定语音识别结果,可以对待识别语音进行多场景下的语音识别,并依据识别到的多个候选识别文本的置信度来确定语音识别结果,可以适应多种场景下的语音识别,提高语音识别的准确度。
图2是本公开实施例中的一种语音识别方法的示意图,在上述实施例的基础上进一步细化,提供了基于至少两个语音识别场景,分别对待识别语音进行语音识别,得到至少两个候选识别文本的具体步骤,以及依据候选文本特征和语音特征,确定候选识别文本的置信度的具体步骤。下面结合图2对本公开实施例提供的一种语音识别方法进行说明,包括以下:
S210、采用至少两个解码器,分别对待识别语音进行语音识别,得到至少两个候选识别文本;其中,解码器采用设定语音识别场景中的语音样本确定。
在不同的语音识别场景下,用户对语音识别的需求也不相同。例如,在语音搜索场景下,对语音识别的准确率要求较高,对语音识别的速率要求较低;在智能音箱场景下,对语音识别的准确率和速率要求都比较高。因此,开发者会根据不同语音识别场景下的语音识别需求,分别开发针对相应语音识别需求的解码器,解码器中包含了语音识别模型。
本公开实施例中,为了提高语音识别的准确度,在获取到待识别语音后,可以采用至少两个针对不同语音识别场景的解码器,对待识别语音进行语音识别,从而得到不同解码器输出的候选识别文本。后续可以在候选识别文本中选择较优的作为最终的语音识别结果,提高语音识别的准确性,以及对不同语音识别场景的适应性。其中,针对设定语音识别场景的解码器是采用设定场景下的语音样本进行训练得到,语音样本的标注数据即为语音样本对应的文本。
示例性的,分别通过针对语音搜索场景的解码器、针对语音输入法场景的解码器和针对智能音箱场景的解码器,对待识别语音进行语音识别,得到各解码器分别输出的候选识别文本。
可选的,解码器包括针对语音搜索场景的解码器、针对语音输入法场景的解码器、针对语音指令场景的解码器、针对语音数据挖掘场景的解码器以及针对语音交互场景的解码器中的至少一项。
本可选的实施例中,提供了解码器的类型,包括针对语音搜索场景的解码器、针对语音输入法场景的解码器、针对语音指令场景的解码器、针对语音数据挖掘场景的解码器以及针对语音交互场景的解码器。通过针对不同语音识别场景的解码器的结合使用,可以提高语音识别准确性和对不同语音识别场景的适应性。
其中,针对语音搜索场景的解码器可以应用的具体场景包括:在通讯应用中搜索联系人、在电子地图中搜索目标地点或者控制智能音箱搜索网络话题或网络歌曲等。
针对语音输入法场景的解码器可以应用的具体场景包括:在即时通讯应用中输入聊天内容、在浏览器中输入待搜索信息或者在邮箱中输入邮件内容等。
针对语音指令场景的解码器可以应用的具体场景包括:控制智能家居(例如,智能音箱、智能冰箱、智能洗衣机以及智能电视机等)执行语音指令、控制车机语音助手查找音乐或者新闻、控制电子地图查询路线、控制机器人执行语音指令等。
针对语音交互场景的解码器可以应用的具体场景包括:与车机语音助手聊天、与智能音箱闲聊或者与机器人进行人机交互等。
针对语音数据挖掘场景的解码器可以应用的具体场景包括:通过客服通话记录统计业务数据、主播语音中的敏感信息统计或者在语音渠道统计电信诈骗数据,建立反欺诈系统等。
针对语音搜索场景的解码器是采用语音搜索场景下的语音样本训练得到,例如,语音样本为“歌曲A的演唱者是谁?”;针对语音输入法场景的解码器是采用语音输入法场景下的语音样本训练得到,例如,语音样本为用户输入的“我将会在十点到达会议地点”;针对语音指令场景的解码器是采用语音指令场景下的语音样本训练得到,例如,语音样本为“请播放一首欢快的音乐”;针对语音交互场景的解码器是采用语音交互场景下的语音样本训练得到,例如,语音样本为“你知道今天有什么有趣的新闻吗?”;针对语音数据挖掘场景的解码器是采用语音数据挖掘场景下的语音样本训练得到,例如,语音样本为“稍后为您办理XX业务”。
S220、分别对候选识别文本和待识别语音进行特征提取得到候选文本特征和语音特征。
S230、对候选识别文本中的字符和待识别语音中的音素进行对齐,得到候选识别文本中字符所关联的音素。
本公开实施例中,为了计算候选识别文本的置信度,依次计算候选识别文本中每个字符的置信度。在计算每个字符置信度之前,首先要对候选识别文本中的字符和待识别语音中的音素进行对齐,得到候选识别文本中字符所关联的音素。示例性的,可以采用隐马尔科夫模型+高斯混合模型对候选识别文本中的字符和待识别语音中的音素进行对齐。
S240、将候选文本特征中字符的文本特征,与语音特征中关联音素的音素特征进行匹配,得到候选识别文本中字符的置信度。
在将候选识别文本中的字符和待识别语音中的音素对齐后,在候选文本特征中依次获取字符的文本特征,并在待识别语音的语音特征中获取与当前字符所关联音素的音素特征。进一步的,将字符的文本特征和关联音素的音素特征进行匹配,得到候选识别文本中字符的置信度。重复执行上述操作,直至得到候选识别文本中全部字符的置信度。
在一个具体的例子中,候选识别文本是“播放一首轻音乐”,可以分别在候选文本特征中获取字符“播”的文本特征,并在待识别语音的语音特征中获取与字符“播”关联音素的音素特征,将获取到的文本特征和音素特征进行匹配,得到字符“播”的置信度。重复执行上述操作,计算候选识别文本中每个字符的置信度。
S250、根据字符的置信度,确定候选识别文本的置信度。
依据计算得到的每个字符的置信度,计算候选识别文本的置信度。具体的,可以通过计算候选识别文本中字符置信度的平均值,并将平均值作为当前候选识别文本的置信度。通过计算字符置信度的平均值,可以综合考虑每个字符的置信度。当候选识别文本中的错别字较多时,由于错别字对应置信度比较低,计算得到候选识别文本的置信度也会较低,此时选择该候选识别文本作为最终识别结果的几率也比较低,从而提高语音识别的准确度。
S260、依据候选识别文本的置信度,确定待识别语音的语音识别结果。
本公开实施例的技术方案,采用至少两个解码器,分别对待识别语音进行语音识别,得到至少两个候选识别文本,并依据候选识别文本的候选文本特征和待识别语音的语音特征来确定各候选识别文本的置信度,最终依据候选识别文本的置信度来确定语音识别结果,可以对待识别语音进行多场景下的语音识别,能够适应多种场景下的语音识别,提高语音识别的准确度。
图3是本公开实施例中的一种语音识别方法的示意图,在上述实施例的基础上进一步细化,提供了依据候选识别文本的置信度,确定待识别语音的语音识别结果。的具体步骤。下面结合图3对本公开实施例提供的一种语音识别方法进行说明,包括以下:
S310、基于至少两个语音识别场景,分别对待识别语音进行语音识别,得到至少两个候选识别文本。
S320、分别对候选识别文本和待识别语音进行特征提取得到候选文本特征和语音特征。
S330、依据候选文本特征和语音特征,确定候选识别文本的置信度。
S340、根据候选识别文本的置信度,从候选识别文本中选择目标识别文本。
目标识别文本是从候选识别文本中选择的文本,用于确定最终的语音识别结果。示例性的,可以直接将目标识别文本作为语音识别结果,也可以对目标识别文本进行纠错处理后,得到语音识别结果。
本公开实施例中,可以根据候选识别文本的置信度,从候选识别文本中选择目标识别文本。具体的,可以将置信度最高的候选识别文本作为目标识别文本。还可以在候选识别文本中选择置信度高于设定阈值的一个或者多个候选识别文本,进一步的,在选择的多个候选识别文本中选择包含错别字最少的作为目标识别文本。其中,错别字可以是将字符的置信度和预先设定的置信度阈值进行比对确定。
在一个具体的例子中,获取到了3个候选识别文本,其置信度分别是75%、65%和76%。可以直接选择置信度为76%的候选识别文本作为目标识别文本。
在另一个具体的例子中,获取到了3个候选识别文本,其置信度分别是75%、65%和76%。预先设定的文本置信度阈值是70%,则可以首先选择置信度高于文本置信度阈值的候选识别文本(即选择置信度为75%和76%的候选识别文本)。进一步的,在选择的候选识别文本中选择错别字最少的作为目标识别文本。候选识别文本中的错别字可以是将字符的置信度与预先设定的字符置信度阈值进行比对得到。例如,第二置信度阈值是60%。另外,在3个候选识别文本的置信度均低于文本置信度阈值时,可以直接选择置信度最高的作为目标识别文本。
S350、在目标识别文本的置信度低于第一置信度阈值的情况下,对目标识别文本进行纠错,将纠错结果作为待识别语音的语音识别结果。
在确定目标识别文本后,将目标识别文本的置信度与预先设定的第一置信度阈值进行比对。在目标识别文本的置信度等于或者高于第一置信度阈值的情况下,可以直接将目标识别文本作为待识别语音的语音识别结果。在目标识别文本的置信度低于第一置信度阈值的情况下,表明当前目标识别文本的置信度相对较低,存在错别字的几率比较高。此时可以先对目标识别文本进行纠错,将纠错的文本作为待识别语音的语音识别结果,进一步减少了语音识别结果中的错别字,提升用户体验。
在一个具体的例子中,预先设置的第一置信度为85%,若选择的目标识别文本的置信度等于或者高于85%,则可以直接将目标识别文本作为待识别语音的语音识别结果。
在另一个具体的例子中,预先设置的第一置信度为85%,若选择的目标识别文本的置信度低于85%,则认为其中存在错别字的几率较大。此时可以先对目标识别文本进行纠错,将纠错后的文本作为待识别语音的语音识别结果。
其中,在进行纠错时,可以分别将候选识别文本中每个字符的置信度与预先设定的第二置信度阈值进行比对,如果字符的置信度低于第二置信度阈值,则认为该字符是错别字。进一步的,可以在该字符的替换列表中选择一个字符进行替换,实现目标识别文本的纠错。
可选的,对目标识别文本进行纠错,包括:将目标识别文本中置信度小于第二置信度阈值的字符,作为待纠错字符;依据待纠错字符关联的音素,以及目标识别文本中待纠错字的上下文信息,预测待纠错字所处位置的替换字,并采用替换字替换待纠错字。
本可选的实施例中提供了一种对目标识别文本进行纠错的具体方式:首先可以将目标识别文本中置信度小于第二置信度阈值的字符作为待纠错字符。进一步的,将待纠错字符作为一个未知字,并通过待纠错字符关联的音素和目标识别文本中待纠错字符的上下文信息,来预测待纠错字符所处位置的替换字。最终使用该替换字来替换待纠错字符,完成目标识别文本的纠错过程。通过对目标识别文本的纠错过程,可以进一步对目标识别文本进行完善,减少最终语音识别结果中的错别字,提升用户体验。
其中,依据待纠错字符关联的音素和目标识别文本中待纠错字符的上下文信息,来预测待纠错字符所处位置的替换字具体过程如下:可以在语音特征中获取待纠错字符关联音素的音素特征,并且,在目标识别文本的文本特征中,获取待纠错字符的上下文信息的文本特征。依据获取到的音素特征和文本特征来预测待纠错字符所在位置的字符,该预测字符即为替换字,最终使用替换字来替换待纠错字符,完成目标识别文本的纠错。
本公开实施例的技术方案,基于至少两个语音识别场景分别对待识别语音进行语音识别,得到至少两个候选识别文本,并依据候选识别文本的候选文本特征和待识别语音的语音特征来确定各候选识别文本的置信度,根据候选识别文本的置信度,从候选识别文本中选择目标识别文本,且在目标识别文本的置信度低于第一置信度阈值的情况下,对目标识别文本进行纠错,将纠错结果作为待识别语音的语音识别结果,一方面,可以适应多种场景下的语音识别,提高语音识别的准确度,另一方面,对选择的目标识别文本进行纠错,可以减少语音识别结果的错别字,提高用户使用体验。
根据本公开的实施例,图4是本公开实施例中的语音识别装置的结构图,本公开实施例适用于基于不同语音识别场景对待识别语音进行语音识别的情况。该装置采用软件和/或硬件实现,并具体配置于具备一定数据运算能力的电子设备中。
如图4所示的一种语音识别装置400,包括:候选识别文本确定模块410、特征提取模块420、置信度确定模块430和语音识别结果确定模块440;其中,
候选识别文本确定模块410,用于基于至少两个语音识别场景,分别对待识别语音进行语音识别,得到至少两个候选识别文本;
特征提取模块420,用于分别对所述候选识别文本和所述待识别语音进行特征提取得到候选文本特征和语音特征;
置信度确定模块430,用于依据所述候选文本特征和语音特征,确定所述候选识别文本的置信度;
语音识别结果确定模块440,用于依据所述候选识别文本的置信度,确定所述待识别语音的语音识别结果。
进一步的,候选识别文本确定模块410,具体用于:
采用至少两个解码器,分别对所述待识别语音进行语音识别,得到至少两个候选识别文本;其中,所述解码器采用设定语音识别场景中的语音样本确定。
进一步的,解码器包括针对语音搜索场景的解码器、针对语音输入法场景的解码器、针对语音指令场景的解码器、针对语音数据挖掘场景的解码器以及针对语音交互场景的解码器中的至少一项。
进一步的,语音识别结果确定模块440,包括:
目标识别文本确定单元,用于根据候选识别文本的置信度,从所述候选识别文本中选择目标识别文本;
语音识别结果确定单元,用于在所述目标识别文本的置信度低于第一置信度阈值的情况下,对所述目标识别文本进行纠错,将纠错结果作为待识别语音的语音识别结果。
进一步的,语音识别结果确定单元,包括:
待纠错字符确定子单元,用于将所述目标识别文本中置信度小于第二置信度阈值的字符,作为待纠错字符;
纠错子单元,用于依据所述待纠错字符关联的音素,以及所述目标识别文本中所述待纠错字的上下文信息,预测所述待纠错字所处位置的替换字,并采用所述替换字替换所述待纠错字。
进一步的,置信度确定模块430,包括:
音素确定单元,用于对所述候选识别文本中的字符和待识别语音中的音素进行对齐,得到候选识别文本中字符所关联的音素;
字符置信度确定单元,用于将候选文本特征中字符的文本特征,与语音特征中关联音素的音素特征进行匹配,得到候选识别文本中字符的置信度;
候选文本置信度确定单元,用户根据所述字符的置信度,确定候选识别文本的置信度。
本公开实施例所提供的语音识别装置可执行本公开任意实施例所提供的语音识别方法,具备执行方法相应的功能模块和有益效果。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图5所示,设备500包括计算单元501,其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序,来执行各种适当的动作和处理。在RAM 503中,还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理,例如语音识别方法。例如,在一些实施例中,语音识别方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时,可以执行上文描述的语音识别方法的一个或多个步骤。备选地,在其他实施例中,计算单元501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行语音识别方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (15)
1.一种语音识别方法,包括:
基于至少两个语音识别场景,分别对待识别语音进行语音识别,得到至少两个候选识别文本;
分别对所述候选识别文本和所述待识别语音进行特征提取得到候选文本特征和语音特征;
依据所述候选文本特征和语音特征,确定所述候选识别文本的置信度;
依据所述候选识别文本的置信度,确定所述待识别语音的语音识别结果。
2.根据权利要求1所述的方法,其中,所述基于至少两个语音识别场景,分别对待识别语音进行语音识别,得到至少两个候选识别文本,包括:
采用至少两个解码器,分别对所述待识别语音进行语音识别,得到至少两个候选识别文本;其中,所述解码器采用设定语音识别场景中的语音样本确定。
3.根据权利要求2所述的方法,其中,所述解码器包括针对语音搜索场景的解码器、针对语音输入法场景的解码器、针对语音指令场景的解码器、针对语音数据挖掘场景的解码器以及针对语音交互场景的解码器中的至少一项。
4.根据权利要求1所述的方法,所述依据所述候选识别文本的置信度,确定所述待识别语音的语音识别结果,包括:
根据候选识别文本的置信度,从所述候选识别文本中选择目标识别文本;
在所述目标识别文本的置信度低于第一置信度阈值的情况下,对所述目标识别文本进行纠错,将纠错结果作为待识别语音的语音识别结果。
5.根据权利要求4所述的方法,其中,所述对所述目标识别文本进行纠错,包括:
将所述目标识别文本中置信度小于第二置信度阈值的字符,作为待纠错字符;
依据所述待纠错字符关联的音素,以及所述目标识别文本中所述待纠错字的上下文信息,预测所述待纠错字所处位置的替换字,并采用所述替换字替换所述待纠错字。
6.根据权利要求1-5任一所述的方法,其中,所述依据所述候选文本特征和语音特征,确定所述候选识别文本的置信度,包括:
对所述候选识别文本中的字符和待识别语音中的音素进行对齐,得到候选识别文本中字符所关联的音素;
将候选文本特征中字符的文本特征,与语音特征中关联音素的音素特征进行匹配,得到候选识别文本中字符的置信度;
根据所述字符的置信度,确定候选识别文本的置信度。
7.一种语音识别装置,包括:
候选识别文本确定模块,用于基于至少两个语音识别场景,分别对待识别语音进行语音识别,得到至少两个候选识别文本;
特征提取模块,用于分别对所述候选识别文本和所述待识别语音进行特征提取得到候选文本特征和语音特征;
置信度确定模块,用于依据所述候选文本特征和语音特征,确定所述候选识别文本的置信度;
语音识别结果确定模块,用于依据所述候选识别文本的置信度,确定所述待识别语音的语音识别结果。
8.根据权利要求7所述的装置,其中,所述候选识别文本确定模块,具体用于:
采用至少两个解码器,分别对所述待识别语音进行语音识别,得到至少两个候选识别文本;其中,所述解码器采用设定语音识别场景中的语音样本确定。
9.根据权利要求8所述的装置,其中,所述解码器包括针对语音搜索场景的解码器、针对语音输入法场景的解码器、针对语音指令场景的解码器、针对语音数据挖掘场景的解码器以及针对语音交互场景的解码器中的至少一项。
10.根据权利要求7所述的装置,其中,所述语音识别结果确定模块,包括:
目标识别文本确定单元,用于根据候选识别文本的置信度,从所述候选识别文本中选择目标识别文本;
语音识别结果确定单元,用于在所述目标识别文本的置信度低于第一置信度阈值的情况下,对所述目标识别文本进行纠错,将纠错结果作为待识别语音的语音识别结果。
11.根据权利要求10所述的装置,其中,所述语音识别结果确定单元,包括:
待纠错字符确定子单元,用于将所述目标识别文本中置信度小于第二置信度阈值的字符,作为待纠错字符;
纠错子单元,用于依据所述待纠错字符关联的音素,以及所述目标识别文本中所述待纠错字的上下文信息,预测所述待纠错字所处位置的替换字,并采用所述替换字替换所述待纠错字。
12.根据权利要求7-11任一所述的装置,其中,所述置信度确定模块,包括:
音素确定单元,用于对所述候选识别文本中的字符和待识别语音中的音素进行对齐,得到候选识别文本中字符所关联的音素;
字符置信度确定单元,用于将候选文本特征中字符的文本特征,与语音特征中关联音素的音素特征进行匹配,得到候选识别文本中字符的置信度;
候选文本置信度确定单元,用户根据所述字符的置信度,确定候选识别文本的置信度。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的语音识别方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的语音识别方法。
15.一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令在被处理器执行时实现根据权利要求1-6中任一项所述的语音识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111506043.3A CN114187913A (zh) | 2021-12-10 | 2021-12-10 | 语音识别方法、装置、设备、介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111506043.3A CN114187913A (zh) | 2021-12-10 | 2021-12-10 | 语音识别方法、装置、设备、介质及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114187913A true CN114187913A (zh) | 2022-03-15 |
Family
ID=80543028
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111506043.3A Pending CN114187913A (zh) | 2021-12-10 | 2021-12-10 | 语音识别方法、装置、设备、介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114187913A (zh) |
-
2021
- 2021-12-10 CN CN202111506043.3A patent/CN114187913A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11217236B2 (en) | Method and apparatus for extracting information | |
CN110956955B (zh) | 一种语音交互的方法和装置 | |
CN113129870A (zh) | 语音识别模型的训练方法、装置、设备和存储介质 | |
CN113674742B (zh) | 人机交互方法、装置、设备以及存储介质 | |
CN112767916A (zh) | 智能语音设备的语音交互方法、装置、设备、介质及产品 | |
CN114186681A (zh) | 用于生成模型簇的方法、装置及计算机程序产品 | |
CN116597831A (zh) | 语义识别方法、装置、设备、存储介质以及车辆 | |
CN113157877B (zh) | 多语义识别方法、装置、设备和介质 | |
EP3843090B1 (en) | Method and apparatus for outputting analysis abnormality information in spoken language understanding | |
CN114299955B (zh) | 语音交互的方法、装置、电子设备及存储介质 | |
CN113743127B (zh) | 任务型对话的方法、装置、电子设备及存储介质 | |
CN114758649B (zh) | 一种语音识别方法、装置、设备和介质 | |
CN114171016B (zh) | 语音交互的方法、装置、电子设备及存储介质 | |
CN114399992B (zh) | 语音指令响应方法、装置及存储介质 | |
CN114187913A (zh) | 语音识别方法、装置、设备、介质及程序产品 | |
CN114549695A (zh) | 图像生成方法、装置、电子设备及可读存储介质 | |
CN115294974A (zh) | 一种语音识别方法、装置、设备和存储介质 | |
CN114121022A (zh) | 语音唤醒方法、装置、电子设备以及存储介质 | |
CN113360590A (zh) | 兴趣点信息的更新方法、装置、电子设备及存储介质 | |
CN113129894A (zh) | 语音识别方法、装置、电子设备以及存储介质 | |
CN117198289B (zh) | 语音交互方法、装置、设备、介质及产品 | |
CN116049372B (zh) | 人机对话方法、装置及电子设备 | |
CN114078478B (zh) | 语音交互的方法、装置、电子设备及存储介质 | |
CN111951784B (zh) | 语音识别中垃圾词的生成方法及装置、介质、电子设备 | |
CN116737888B (zh) | 对话生成模型的训练方法和答复文本的确定方法、装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |