CN103000176B - 语音识别方法和系统 - Google Patents

语音识别方法和系统 Download PDF

Info

Publication number
CN103000176B
CN103000176B CN201210585431.XA CN201210585431A CN103000176B CN 103000176 B CN103000176 B CN 103000176B CN 201210585431 A CN201210585431 A CN 201210585431A CN 103000176 B CN103000176 B CN 103000176B
Authority
CN
China
Prior art keywords
error correction
character string
candidate
voice
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210585431.XA
Other languages
English (en)
Other versions
CN103000176A (zh
Inventor
何婷婷
胡郁
胡国平
刘庆峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201210585431.XA priority Critical patent/CN103000176B/zh
Publication of CN103000176A publication Critical patent/CN103000176A/zh
Application granted granted Critical
Publication of CN103000176B publication Critical patent/CN103000176B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明实施例公开了语音识别方法和系统,以解决上述用户人工进行定位存在的定位不便的问题。该语音识别方法包括:对用户输入的语音信号进行语音识别,获得语音识别结果以及语音识别结果中各字符对应的语音片段;接收用户单独输入的纠错信息并生成相应的纠错字符串;获取纠错字符串对应的至少一个语音段作为侯选语音段,并分别统计各侯选语音段在纠错字符串模型上的似然度;根据语音识别结果中各字符对应的语音片段,分别确定上述各侯选语音段在第一最优解码路径的语音识别结果中所对应的字符串作为侯选字符串;根据侯选语音段的似然度计算与之对应的侯选字符串的纠错置信度,并根据纠错置信度确定出错误字符串;利用纠错字符串替换错误字符串。

Description

语音识别方法和系统
技术领域
本发明涉及语音识别技术领域,更具体地说,涉及语音识别方法和系统。
背景技术
语音识别技术是一种对用户录入的语音信号进行识别,最终转化为文本/字符串(也即识别结果为文本)的技术,其为自然人性的人机交互提供了便利。以采用语音识别技术的移动设备为例,在语音识别技术的支持下,用户只要对着移动设备说话,经过语音识别系统识别后就会自动形成文字,大大提高了用户的输入效率。
但是,在大词汇量随意说的应用环境下,语音识别技术依然不能达到百分百正确的识别率,需要人工对识别结果进行修正编辑。移动设备(语音识别系统)将语音识别结果显示到屏幕的文本输入区后,用户如想对语音识别结果进行修改编辑,则首先需要在语音识别结果中定位需要修正(也可称为待修改)的字符。
而在移动设备上,特别是小屏幕的指触屏设备上,由于屏幕尺寸受限,用户在从连续大段文本中对某个确定的字符进行定位时,特别是在相邻两字符间插入编辑光标时,存在定位不便的问题。
发明内容
有鉴于此,本发明实施例目的在于提供语音识别方法和系统,以解决上述用户人工进行定位存在的定位不便的问题。
为实现上述目的,本发明实施例提供如下技术方案:
根据本发明实施例的一个方面,提供一种语音识别方法,包括:
对用户输入的语音信号进行语音识别,获得第一最优解码路径,所述第一最优解码路径包括语音识别结果以及所述语音识别结果中各字符对应的语音片段;
接收用户单独输入的纠错信息并生成相应的纠错字符串,所述纠错信息通过非语音方式或语音方式输入;
获取所述纠错字符串在所述用户输入的语音信号中对应的至少一个语音段作为侯选语音段,并分别统计各侯选语音段在所述纠错字符串模型上的似然度;
根据所述语音识别结果中各字符对应的语音片段,分别确定上述各侯选语音段在第一最优解码路径的语音识别结果中所对应的字符串作为侯选字符串;
根据所述侯选语音段的似然度计算与之对应的侯选字符串的纠错置信度,并根据纠错置信度确定出错误字符串;
利用所述纠错字符串替换所述错误字符串。
根据本发明实施例的另一个方面,提供一种语音识别系统,包括:
语音识别单元,用于对用户输入的语音信号进行语音识别,获得第一最优解码路径,所述第一最优解码路径包括语音识别结果以及所述语音识别结果中各字符对应的语音片段;
纠错字符串生成单元,用于接收用户单独输入的纠错信息并生成相应的纠错字符串,所述纠错信息通过非语音方式或语音方式输入;
自动纠错单元,用于根据所述纠错字符串确定所述用户输入的语音信号中侯选语音段;统计所述侯选语音段在所述纠错字符串模型上的似然度;根据所述语音识别结果中各字符对应的语音片段,确定上述侯选语音段在第一最优解码路径的语音识别结果中所对应的字符串作为侯选字符串;根据所述侯选语音段对应的似然度计算与之对应的侯选字符串的纠错置信度,并根据纠错置信度确定出错误字符串;利用所述纠错字符串替换所述错误字符串。
从上述的技术方案可以看出,本发明实施例所公开的技术方案根据用户单独输入的纠错信息所生成的纠错字符串来确定侯选语音段,再通过侯选语音段找到其在语音识别结果中所对应的错误字符串,实现了用户所输入的纠错字符串与错误字符串的对应,进而实现了对语音识别结果中错误字符串的自动定位,解决了用户人工进行定位存在的定位不便的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的语音识别方法流程图;
图2为本发明实施例提供的手写输入识别流程图;
图3为本发明实施例提供字符覆盖的最小区域示意图;
图4为本发明实施例提供的自动纠错过程流程图;
图5为本发明实施例提供的纠错字符串检索网络结构示意图;
图6为本发明实施例提供的自动纠错过程流程图;
图7为本发明实施例提供的确定出错误字符串流程图;
图8为本发明实施例提供的纠错置信度计算流程图;
图9为本发明实施例提供的语音识别系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
作为一种简单方便而又高效的输入方式,语音识别改变了传统的基于复杂编码或拼音输入的键盘模式,为自然人性的人机交互提供了便利条件。特别是近年来随着科技的发展和无线通讯网络的创新普及,各种在线语音识别应用,如发微博,写短信,网络即时通讯等受到了越来越多的关注。在语音识别技术的支持下,用户只要对着移动设备说话,经过系统识别后就会自动形成文字,大大提高了用户的输入效率。
但是,在大词汇量随意说的应用环境下,语音识别技术依然不能达到百分百正确的识别率,需要人工对识别结果进行修正编辑。移动设备(语音识别系统)将语音识别结果显示到屏幕的文本输入区后,用户如想对语音识别结果进行修改编辑,则需要在识别结果中定位需要修正(也可称为待修改)的字符。
而在移动设备上,特别是小屏幕的指触屏设备上,由于屏幕尺寸受限,用户在从连续大段文本中对某个确定的字符进行定位时,特别是在相邻两字符间插入编辑光标时,存在定位不准的问题。
为便于理解,现对语音识别介绍如下:
如果将待识别的一段语音信号记作S,对S进行一系列处理后得到与之相对应的语音特征序列O,记作O={O1,O2,…,Oi,…,OT},其中Oi是第i个语音特征,T为语音特征总个数。语音信号S对应的句子可看作是由许多词组成的一个词串,记作W={w1,w2,…,wn}。语音识别的任务就是根据已知的语音特征序列O,求出最可能的词串W’。
在语音识别的具体过程中,一般首先提取语音信号对应的语音特征参数,随后在由预置的声学模型和语言模型构成的网络搜索空间中,根据预设的搜索算法(比如Viterbi算法),搜索相对于所提取得语音特征参数的最优路径(也即最优解码路径)。
在了解了语音识别的一些概念后,现对本发明实施例的技术方案介绍如下。
为解决上述定位不便的问题,本发明实施例所提供的语音识别方法至少包括如下步骤:
语音识别过程:对用户输入的语音信号进行语音识别,获得最优解码路径,其中,最优解码路径包括语音识别结果以及语音识别结果中各字符对应的语音片段;
纠错字符串生成过程:接收用户单独输入的纠错信息并生成相应的纠错字符串,上述纠错信息允许通过非语音方式或语音方式输入;
自动纠错过程:根据纠错字符串确述用户输入的语音信号中侯选语音段;根据语音识别结果中各字符对应的语音片段,确定上述侯选语音段在第一最优解码路径的语音识别结果中所对应的字符串作为侯选字符串,从侯选字符串中确定出错误字符串;并利用纠错字符串替换所述错误字符串。下面对各个过程进行一一介绍。
一,语音识别过程
为了最大可能的满足用户日常交互需求,本发明实施例采用大词汇量连续语音识别技术,以实现对任意说语音的文本转换。
其中,参见图1,上述语音识别过程具体包括:
S11、跟踪采集用户输入的语音信号(也即上述待识别的一段语音信号);
在本发明其他实施例中,可将上述语音信号存入数据缓存区;
S12、对上述语音信号进行预处理,以得到经过预处理后的语音数据;
上述预处理可包括语音信号采样、反混叠带通滤波、分帧处理、去除个体发音差异和设备、环境引起的噪声影响,端点检测。为了提高语音识别系统的鲁棒性上述预处理具体还可包括前端降噪处理,以为后续语音处理提供较为纯净的语音。
S13、对上述经过预处理的语音数据中每帧语音数据分别进行特征提取,以获取特征矢量序列。
在步骤S13中,对每帧语音数据进行特征提取后可提取出有效语音特征(或者特征矢量)。这样,经特征提取后,每一帧语音数据形成一个特征矢量,相应的,上述语音数据即可用一特征矢量序列表示;
本领域技术人员可以理解的是,如果对经过预处理后的语音数据包括30帧语音数据的话,那么这30帧语音数据就可提取出30个特征矢量,而这30个特征矢量按照时间先后顺序即可组成上述特征矢量序列。
在本发明其他实施例中,上述有效语音特征可为线性预测倒谱或MFCC(Mel倒谱)特征。具体的,以MFCC特征为例,可对窗长25ms帧移10ms的每帧语音数据通过短时分析得到MFCC参数和/或MFCC参数的一阶/二阶差分,共计39维。这样,每帧语音数据经过特征提取可得到一个39维的特征矢量。
在本发明其他实施例中,可将上述语音特征/语音特征矢量序列存入特征缓存区内。
S14、在预先构建的检索网络中对上述特征矢量序列进行最优路径搜索(上述检索网络主要由系统预设的声学模型,词典,语言模型等构成),以获取与上述特征矢量序列具有最大模型似然概率的模型串作为语音识别结果输出。
在具体实施时,可采用业内主流的基于动态规划思想的Viterbi搜索算法,对每一特征矢量遍历检索网络中满足预设条件的活跃节点计算累计历史路径概率并保留满足预设条件的历史路径作为后续搜索网络的活跃节点,最后通过对具有最大历史路径概率的路径(也即上述第一最优解码路径)回溯实现对输入语音的识别解码。在解码中第一最优解码路径对每帧语音数据均保留其所对应的识别单元模型,进而对语音识别结果中每一字符都可获取其所对应的语音片段,当然,也可获取每一字符所对应语音片段的起始位置信息和结束位置信息。
需要说明的是,上述语音片段既可为语音信号中的语音片段,也可为经过预处理后的语音数据中的至少一帧语音数据,还可为特征矢量序列中的特征矢量子序列。为称呼方便,本文后续将语音信号、经过预处理后的语音数据以及特征矢量序列统称为待识别语音信号。也即,本文下述提及的待识别语音信号具体可为用户输入的语音信号、经过预处理后的语音数据或特征矢量序列。而本文下述提及的语音片段具体可为用户输入的语音信号中的语音片段、至少一帧语音数据或特征矢量子序列。
也就是说,我们可将步骤S11中的语音信号或者步骤S12中经过预处理后的语音数据或者步骤S13中的特征矢量序列划分成与语音识别结果中的字符相对应的语音片段,从而令语音识别结果中的每个字符对应一个确切的语音片段。
举例来讲,如果语音识别结果为“我们去爬山”这一字符串,该字符串对应的解码路径信息可保存为:(0000000 2200000),(2200000 3600000),(36000004300000),(4300000 5000000),(5000000 7400000)。
其中,(0000000 2200000)指示了“我”这个字符所对应的语音片断的起始位置信息和结束位置信息。其中,0000000是“我”所对应的语音片断在待识别语音信号中的起始位置(时刻),而2200000是“我”所对应的语音片断在待识别语音信号中的结束位置(时刻)。
二、纠错字符串生成过程
本发明实施例支持用户以非语音方式或语音方式输入纠错信息并生成纠错字符串。
在采用语音方式输入纠错信息时,所输入的纠错信息具体为语音信号,由于与语音识别过程一样是以语音方式输入,则系统可能无法确定当前的语音输入是为了继续新文本的语音输入,还是为了对原始文本进行语音纠错输入。因此,可以设置单独的纠错信息输入控制按键,控制从新文本的语音输入切换至对原始文本的语音纠错输入。在语音方式输入纠错信息的模式下,由于纠错信息为语音信号,在将其转化成纠错字符串时的处理过程同上述语音识别过程相同,在此不作赘述,并且,还可提供多个识别候选字符串供用户选择以提高生成纠错字符串的准确率。
此外,本发明实施例还支持用户以按键输入(比如拼音输入、笔划输入、区位码输入等等)、手写输入等非语音方式输入纠错信息,此时,如以按键输入,所输入的纠错信息具体为按键序列,如以手写输入,所输入的纠错信息具体为书写笔迹。
现以拼音输入和手写输入为例,对非语音方式输入过程进行介绍。
其具体流程仍请参见图1:
S21、判断用户的输入方式,如是拼音按键输入转入步骤S22,如果是手写输入转入步骤S23。
S22、将用户输入的按键序列转换成侯选纠错字符串。
其中,步骤S22具体可包括:
S221,跟踪采集用户的按键序列,将其对应成字母串序列;
S222,将采集到的字母串序列和预置的拼音辞典匹配以找到侯选纠错字符串,并显示。
比如用户在输入qinghua后,系统可能显示清华、青花、亲华等多个侯选纠错字符串供用户选择。
S23、识别用户输入的书写笔迹,将用户输入的书写笔迹转化为至少一个侯选纠错字符串;
其中,参见图2,步骤S23可具体包括:
S231,跟踪用户输入的书写笔迹,并将采集到的书写笔迹保存在笔迹数据缓存区内;
在联机手写识别系统中,用户的书写笔迹通常用一序列的二维(位置坐标)或三维点(位置坐标和抬笔/落笔状态)坐标表示,用以描述字符书写的空间和时间信息。
S232,对上述书写笔迹进行预处理。
由于采集设备或用户在书写时抖动等原因,原始采集到的书写笔迹中可能存在各种噪音干扰。为了提高系统的鲁棒性,可对采集到的笔迹进行预处理。具体的,可通过字符大小归一化、野点去除、平滑,重采样等处理方式加以组合,以尽可能减少噪音干扰带来的识别率下降的问题。
S233,对经过预处理的书写笔迹进行笔迹特征提取。
和语音识别相类似,在手写识别中,也需要从原始的笔迹轨迹上提取反映字符特点的字符特征。
具体的,本实施例提取手写识别领域常用的八方向特征,并通过LDA等技术提高笔迹特征的区分性。
S234,将提取的字符特征与预置模型进行匹配,计算相似度。
S235、选取与上述字符特征具有最高相似度的至少一个预置模型作为侯选纠错字符串,并显示。
考虑到拼音输入以及手写识别技术的准确率往往很好,因而通常上述侯选纠错字符串的个数可以选择3到5。
当然,本领域技术人员可以理解的是,当用户的非语音输入足够长时,也可能只有一个侯选纠错字符串。
S25、从侯选纠错字符串中确定纠错字符串。
步骤S25可具体包括:
接受用户的选择指定,从至少一个侯选纠错字符串中确定唯一的纠错字符串。
S25可以单独列出,作为对纠错字符串的进一步确认,以兼容语音输入和非语音输入方式。
三,自动纠错过程
考虑到用户输入的纠错字符串和语音识别结果中错误字符串所对应的语音段往往具有一致性,本发明实施例自动纠错的核心思想是:将用户单独输入的纠错信息所生成的纠错字符串映射到语音段上,再通过该语音段找到其在用户输入的语音信号对应的语音识别结果中所对应的字词(也即错误字符串),从而实现了纠错字符串与错误字符串的对应。这样,就实现了对语音识别结果中错误字符串的自动定位,解决了用户人工进行定位存在的定位不便的问题。
具体来说,该方法首先在待识别语音信号中找到对应于上述纠错字符串的语音段。随后在语音识别结果中定位与该语音段相对应的字符串作为“错误字符串”。上述“错误字符串”是在步骤S14中得到的模型串中的子串,该子串在待识别语音信号中所对应的语音段的起始时刻和结束时刻,与上述纠错字符串在待识别语音信号中所对应的语音段的起始时刻和结束时刻具有一致性。
自动纠错过程的流程请仍参见图1,包括:
S31、根据纠错字符串确定待识别语音信号中侯选语音段;
S32、根据语音识别结果中各字符对应的语音片段,确定上述侯选语音段在第一最优解码路径的语音识别结果中所对应的字符串作为侯选字符串,从侯选字符串中确定出错误字符串;
S33、利用纠错字符串替换上述错误字符串。
在本发明其他实施例,步骤S33可包括如下步骤:
在错误字符串的数目等于1时,直接利用纠错字符串替换该错误字符串;
在错误字符串的数目大于1时,利用纠错字符串替换用户指定的错误字符串。
本发明一些实施例可接受用户主动参与选择,因此,上述“利用纠错字符串替换用户指定的错误字符串”的具体流程可包括:
a,在语音识别结果中突出显示所有错误字符串。
在本发明其他实施例中,除突出显示所有错误字符串外,还可以设置除错误字符串外的其它识别结果为非活跃状态,以提高定位精确度;
b,接受用户的选择指定,利用上述纠错字符串更新用户所选定的错误字符串。
此外,在本发明其他实施例中,还可支持用户的模糊选择指定——即并不要求用户精准定位错误字符串,而是通过近邻方式进行定位:当手写笔的落笔点落入错误字符串近邻区域时,自动将其定位到对应的错误字符串上。
具体来说,计算落笔点距每个错误字符串所覆盖的最小区域的最短距离,选择具有最小“最短距离”的错误字符串作为用户选定的错误字符串。例如,参见图3,可设定一个字符(我)所覆盖的最小区域的高度H为该字符字高h的A倍,而一个字符所覆盖的最小区域的宽度W为该字符字宽w的B倍,A和B可为大于等于1的任意正数。那么,错误字符串所覆盖的最小区域则为组成该错误字符串中所有字符所覆盖的最小区域的总和。
参见图4,在本发明其他实施例中,上述步骤S31可具体包括如下步骤:
S311,根据上述纠错字符串生成纠错字符串检索网络。
请参见图5,上述纠错字符串检索网络包括纠错字符串模型以及预置的吸收模型。
其中,纠错字符串模型由纠错字符串生成:通过预置的词典将纠错字符串扩展为相应的模型序列得到对应的纠错字符串模型。由于用户每次输入的纠错信息并生成的纠错字符串都不尽相同,因此,纠错字符串网络中的纠错字符串模型需要实时更新。
因此,上述步骤S31又可具体包括:
获取纠错字符串对应的纠错字符串模型;
获取预置的吸收模型;
根据获取的纠错字符串模型以及吸收模型生成纠错字符串检索网络。
需要说明的是,如果语音识别结果中存在不相邻且不相干的多处识别错误,比如语音识别结果中存在“清华”和“西站”两处识别错误,则需要多次通过语音或非语音方式输入纠错信息生成纠错字符串。而对每次输入的纠错字符串,不管其包含多少字词,都将其看作一个独立的纠错字符串。比如,用户在某次输入纠错字符串时,共输入了3个汉字,则纠错字符串包括3个汉字,随后通过字典将包括该3个汉字的纠错字符串扩展成对应的纠错字符串模型。
在将纠错字符串扩展成纠错字符串模型时,根据预置的声学模型的不同可采用不同的扩展方式。比如,可基于音节模型单元的声学模型(如基于音节模型单元的声学模型,单个汉字由1个音节构成),也可基于音素模型单元的声学模型(如基于音素模型单元的声学模型,单个汉字由2个音素构成),具体由在进行语音识别时所采用的模型单元所决定。因此,如对上述包括3个汉字的纠错字符串进行扩展,可扩展得到由3个音节模型单元相串联的纠错字符串模型或者由6个音素模型单元相串联的纠错字符串模型。
至于吸收模型则是由系统预先在海量语音数据训练得到的背景模型,也可采用多个吸收模型以提高复杂语音匹配的准确性。需要注意的是,多个单独吸收模型是并联的。
S312,在纠错字符串检索网络中对待识别语音信号重新解码获取第二最优解码路径。
其中,第二最优解码路径包括纠错字符串模型对应的语音段,纠错字符串模型对应的语音段即为侯选语音段。
具体的,上述纠错字符串模型所对应的语音段可为用户输入的语音信号中的语音段,也可为经过预处理后的语音数据中的语音段,还可为特征矢量序列中的特征矢量子序列。为简单化起见,可选用纠错字符串模型所对应的特征矢量子序列作为侯选语音段。则步骤S312可具体包括:
在纠错字符串检索网络中搜索相应于特征矢量序列的最优路径(即第二最优路径),得到上述纠错字符串模型所对应的特征矢量子序列在整个特征矢量序列中的起始位置和结束位置。
步骤S312中的解码,与上述步骤S14相类似,二者的不同在于,步骤S312所利用的网络是根据纠错字符串生成的纠错字符串检索网络,而步骤S14所利用的检索网络的范围要大于上述纠错字符串检索网络。因此,步骤S312的解码,仍可采用业内主流的基于动态规划思想的Viterbi搜索算法,对每帧特征矢量遍历纠错字符串检索网络中满足预设条件的活跃节点并保留满足预设条件的历史路径作为后续搜索网络的活跃节点,最后通过对具有最大历史路径概率的路径(即第二最优解码路径)获得纠错字符串模型对应的语音段,从而确定了侯选语音段。
考虑到,纠错字符串模型可能对应多个语音段,而由于种种原因,实际上,这多个语音段中可能有一些并未发生识别错误,因此,需要对这多个语音段对应的字符串进行甄选,也即,需要对上述侯选字符串进行甄选。
基于此,参见图6,步骤S32可具体包括:
S321、将纠错字符串模型M对应的侯选语音段的集合,记为{X1,X2,...,Xi,...,XK}或{Xi},并分别统计各侯选语音段在纠错字符串模型M上的似然度,记为p(Xi|M)。其中(i=1,2,……k),k表示侯选语音段的总数量。
所述纠错字符串模型M可以通过拼接系统预设的基本语音单元,如音节单元得到,在获取了侯选语音段Xi后,直接就可以计算Xi相应于纠错字符串模型的似然度。
S322、根据语音识别结果中各字符对应的语音片段,确定上述侯选语音段在第一最优解码路径的语音识别结果中所对应的字符串作为侯选字符串。
将侯选语音段对应的侯选字符串的集合,记为{H1,H2,...,Hi,...,HK}或{Hi},则可知,Xi与Hi对应。
由于在步骤S312中,已经获取了侯选语音段的起始位置(时刻)和结束位置(时刻),因此,可根据语音识别结果中各字符对应的语音片段,确定侯选语音段的起始位置在语音识别结果中所对应的起始字符。同理,可确定侯选语音段的结束位置在语音识别结果中所对应的结束字符,在确定了起始字符和结束字符后,就可确定出侯选语音段在语音识别结果中所对应的字符串了。
更具体的,可通过如下方式来确定起始字符:
将起始位置对应的字符作为第一字符,并将该第一字符所对应的语音片断作为第一语音片断;
若上述起始位置位于第一语音片断的前部,则将该第一字符作为起始字符,否则选择语音识别结果中的下一字符作为起始字符。
而在确定结束字符时,可通过如下方式:
将结束位置对应的字符作为第二字符,将第二字符所对应的语音片断作为第二语音片断;
若结束位置位于第二语音片断的前部时,选择语音识别结果中的上一字符作为结束字符,否则,将第二字符作为结束字符。
仍以前述的“我们去爬山”这一语音识别结果为例,前已述及,该语音识别结果中各个字符所对应的语音片段的起始位置和结束位置分别为:(00000002200000),(2200000 3600000),(3600000 4300000),(4300000 5000000),(5000000 7400000)。
假设,侯选语音段Xi的起始和终点位置为(0000050 3600000),由于起始位置0000050在(0000000 2200000)的前部,可确定“我”作为起始字符,而结束位置3600000在(2200000 3600000)的后部,可确定“们”为结束字符,由此可确定,Xi与“我们”这个字符串相对应。因此,将“我们”作为与侯选语音段Xi对应的侯选字符串Hi
S323、根据各个侯选语音段的似然度计算各侯选字符串的纠错置信度,分别记为{CM1,CM2,...,CMi,...,CMk}或{CMi},并根据纠错置信度确定出错误字符串。
更具体的,参见图7,步骤S323包括:
S3231,初始化,设置当前统计错误字符串总数(也可不设置步骤S3231)
S3232,按照似然度从大到小的顺序依次将侯选字符串设为当前考察对象;
换句话说,在多个尚未考察的侯选语音段中选择具有最大似然度的侯选语音段所对应的字符串作为当前考察对象。
S3233,判断纠错字符串和当前考察对象是否相同,若相同则转入S3238,否则转入S3234;
S3234,判断当前考察对象是否为第一个侯选字符串,若是转入S3239,否则转入S3235;
S3235,计算当前考察对象的纠错置信度;
S3236,判断是否满足预设条件,若是转入S3232,否则转入S3237;
上述预设条件包括存在尚未考察的侯选字符串,并且已考察的侯选字符串总数不大于预设的最大候选总数;
S3237,将所有纠错置信度等于第二预设值的侯选字符串作为错误字符串,并将错误字符串的数量赋值给
S3238,将纠错置信度设为第一预设值转步骤S3236;
S3239,将纠错置信度设为第二预设值转步骤S3236。
在本发明其他实施例中,参见图8,步骤S3235还可包括如下步骤:
A,判断当前考察对象所对应侯选语音段的似然度是否大于第一预设阈值T,若是(则说明当前考察对象和纠错字符串的匹配程度较高),转入步骤B,否则转入步骤E;
需要说明的是,T由系统在开发集上得到,在取log域的似然度计算时,T往往被设置成是一个负数,如-50。
B,计算当前考察对象所对应侯选语音段的似然度与语音段集合中似然度最大值之间的差值ΔS;
C,判断是否满足ΔS>ΔT,如果是,转步骤D,否则转步骤E;其中ΔT是第二预设阈值。ΔT用于衡量可能的候选和不可能的候选的差异;
同样在取log域的似然度计算时,ΔT也可设置为一个负值,如-200等。
D,设置当前考察对象的纠错置信度为第二预设值,比如可将第二预设值设定为1;
E,设置当前考察对象的纠错置信度为第一预设值,比如可将第一预设值设定为0。
与上述方法相对应,本发明实施例还提供语音识别系统。图9示出了上述系统的一种结构,包括:
语音识别单元1,用于对用户输入的语音信号进行语音识别,获得第一最优解码路径,其中,第一最优解码路径包括语音识别结果以及所述语音识别结果中各字符对应的语音片段;
更具体的,语音识别单元可包括处理器,由处理器对用户输入的语音信号进行语音识别。
纠错字符串生成单元2,用于接收用户单独输入的纠错信息并生成相应的纠错字符串;
更具体的,如以语音方式输入纠错信息,则纠错字符串生成单元仍可包括上述处理器,由处理器对纠错信息进行语音识别生成纠错字符串;
如以按键输入方式输入纠错信息,则纠错字符串生成单元至少可包括键盘和处理器,由处理器对将用户输入的按键序列转换成侯选纠错字符串,并接受用户的选择指定,从至少一个侯选纠错字符串中确定唯一的纠错字符串。当然也可由另一独立的芯片或处理器来将用户输入的按键序列转换成侯选纠错字符串,并接受用户的选择指定,从至少一个侯选纠错字符串中确定唯一的纠错字符串。
如以手写输入方式输入纠错信息,则纠错字符串生成单元至少可包括手写笔、触摸屏和处理器,由处理器对将用户输入的书写笔迹转换成侯选纠错字符串,并接受用户的选择指定,从至少一个侯选纠错字符串中确定唯一的纠错字符串。当然也可由另一独立的芯片或处理器来将用户输入的书写笔迹转换成侯选纠错字符串,并接受用户的选择指定,从至少一个侯选纠错字符串中确定唯一的纠错字符串。
当然,为了保证用户可采用多种方式输入纠错信息,纠错字符串生成单元也可同时包括上述多种器件。
自动纠错单元3,用于获取纠错字符串在用户输入的语音信号(或待识别语音信号)中的侯选语音段;统计侯选语音段在纠错字符串模型上的似然度;根据语音识别结果中各字符对应的语音片段,确定上述侯选语音段在第一最优解码路径的语音识别结果中所对应的字符串作为侯选字符串;根据侯选语音段对应的似然度计算与之对应的侯选字符串的纠错置信度,并根据纠错置信度确定出错误字符串;利用纠错字符串替换错误字符串。
更具体的,自动纠错单元3的功能也可通过上述处理器或其他独立的芯片或处理器实现。
上述各单元的更详尽的功能可参见前述方法记载,在此不作赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种语音识别方法,其特征在于,包括:
对用户输入的语音信号进行语音识别,获得第一最优解码路径,所述第一最优解码路径包括语音识别结果以及所述语音识别结果中各字符对应的语音片段;
接收用户单独输入的纠错信息并生成相应的纠错字符串,所述纠错信息通过非语音方式或语音方式输入;
获取所述纠错字符串在所述用户输入的语音信号中对应的至少一个语音段作为候选语音段,并分别统计各候选语音段在所述纠错字符串模型上的似然度;
根据所述语音识别结果中各字符对应的语音片段,分别确定上述各候选语音段在第一最优解码路径的语音识别结果中所对应的字符串作为候选字符串;
根据所述候选语音段的似然度计算与之对应的候选字符串的纠错置信度,并根据纠错置信度确定出错误字符串;
利用所述纠错字符串替换所述错误字符串。
2.如权利要求1所述的方法,其特征在于,所述根据所述候选语音段对应的似然度计算与之对应的候选字符串的纠错置信度包括:
在满足预设条件时,按照候选字符串所对应候选语音段的似然度从大到小的顺序,依次将候选字符串设为当前考察对象;
在所述纠错字符串和当前考察对象相同时,将所述当前考察对象的纠错置信度设为第一预设值;
在所述纠错字符串和当前考察对象不相同,并且,当前考察对象为第一个候选字符串时,将所述当前考察对象的纠错置信度设为第二预设值;
在所述纠错字符串和当前考察对象不相同,并且,当前考察对象不为第一个候选字符串时,按照预设算法计算所述当前考察对象对应的纠错置信度。
3.如权利要求2所述的方法,其特征在于,所述预设条件包括存在尚未考察的候选字符串,并且已考察的候选字符串总数不大于预设的最大候选总数。
4.如权利要求3所述的方法,其特征在于,所述按照预设算法计算所述当前考察对象对应的纠错置信度具体包括:
当所述当前考察对象所对应语音段的似然度不大于第一预设阈值T时,将所述当前考察对象的纠错置信度设为所述第一预设值;
当所述当前考察对象所对应语音段的似然度大于所述T并且差值ΔS大于第二预设阈值时,将所述当前考察对象的纠错置信度设为所述第二预设值;
当所述当前考察对象所对应语音段的似然度大于所述T并且差值ΔS小于第二预设阈值时,将所述当前考察对象的纠错置信度设为所述第一预设值;
所述差值ΔS为当前考察对象所对应语音段的似然度与最大似然度之间的差值,所述最大似然度为所有候选语音段所对应的似然度中的最大值。
5.如权利要求4所述的方法,其特征在于,所述根据纠错置信度确定出错误字符串具体包括:
将所有纠错置信度等于所述第二预设值的候选字符串作为错误字符串。
6.如权利要求1所述的方法,其特征在于,所述根据所述纠错字符串确定所述用户输入的语音信号中候选语音段,包括:
根据所述纠错字符串生成纠错字符串检索网络,所述纠错字符串检索网络包括所述纠错字符串对应的纠错字符串模型以及预置的吸收模型,所述吸收模型是由系统预先在海量语音数据训练得到的背景模型;
在所述纠错字符串检索网络内搜索相应于所述用户输入的语音信号的第二最优解码路径,所述第二最优解码路径包括所述纠错字符串模型对应的语音段作为所述候选语音段;
确定所述候选语音段在所述用户输入的语音信号中对应的起始位置和结束位置。
7.如权利要求6所述的方法,其特征在于,所述根据所述纠错字符串生成纠错字符串检索网络,包括:
获取所述纠错字符串对应的纠错字符串模型;
获取预置的吸收模型;
根据获取的纠错字符串模型以及吸收模型生成所述纠错字符串检索网络。
8.如权利要求1至7任一项所述的方法,其特征在于,所述利用所述纠错字符串替换所述错误字符串具体包括:
在所述错误字符串的数目等于1时,直接利用所述纠错字符串替换所述错误字符串;
在所述错误字符串的数目大于1时,利用所述纠错字符串替换用户指定的错误字符串。
9.如权利要求8所述的方法,其特征在于,所述利用所述纠错字符串替换用户指定的错误字符串具体包括:
在所述语音识别结果中突出显示所有错误字符串;
接受用户选择,利用所述纠错字符串更新用户选定的错误字符串。
10.一种语音识别系统,其特征在于,包括:
语音识别单元,用于对用户输入的语音信号进行语音识别,获得第一最优解码路径,所述第一最优解码路径包括语音识别结果以及所述语音识别结果中各字符对应的语音片段;
纠错字符串生成单元,用于接收用户单独输入的纠错信息并生成相应的纠错字符串,所述纠错信息通过非语音方式或语音方式输入;
自动纠错单元,用于根据所述纠错字符串确定所述用户输入的语音信号中候选语音段;统计所述候选语音段在所述纠错字符串模型上的似然度;根据所述语音识别结果中各字符对应的语音片段,确定上述候选语音段在第一最优解码路径的语音识别结果中所对应的字符串作为候选字符串;根据所述候选语音段对应的似然度计算与之对应的候选字符串的纠错置信度,并根据纠错置信度确定出错误字符串;利用所述纠错字符串替换所述错误字符串。
CN201210585431.XA 2012-12-28 2012-12-28 语音识别方法和系统 Active CN103000176B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210585431.XA CN103000176B (zh) 2012-12-28 2012-12-28 语音识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210585431.XA CN103000176B (zh) 2012-12-28 2012-12-28 语音识别方法和系统

Publications (2)

Publication Number Publication Date
CN103000176A CN103000176A (zh) 2013-03-27
CN103000176B true CN103000176B (zh) 2014-12-10

Family

ID=47928673

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210585431.XA Active CN103000176B (zh) 2012-12-28 2012-12-28 语音识别方法和系统

Country Status (1)

Country Link
CN (1) CN103000176B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160034249A1 (en) * 2014-07-31 2016-02-04 Microsoft Technology Licensing Llc Speechless interaction with a speech recognition device
CN105374356B (zh) * 2014-08-29 2019-07-30 株式会社理光 语音识别方法、语音评分方法、语音识别系统及语音评分系统
CN105469801B (zh) * 2014-09-11 2019-07-12 阿里巴巴集团控股有限公司 一种修复输入语音的方法及其装置
CN105988769B (zh) * 2015-02-12 2019-11-12 中兴通讯股份有限公司 一种混合输入的方法和装置
JP6128146B2 (ja) * 2015-02-24 2017-05-17 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
CN105206260B (zh) * 2015-08-31 2016-09-28 努比亚技术有限公司 一种终端语音播报方法、装置及终端语音操作方法
CN108345581B (zh) * 2017-01-24 2022-10-14 北京搜狗科技发展有限公司 一种信息识别方法、装置和终端设备
CN106847288B (zh) * 2017-02-17 2020-12-25 上海创米科技有限公司 语音识别文本的纠错方法与装置
CN107220235B (zh) 2017-05-23 2021-01-22 北京百度网讯科技有限公司 基于人工智能的语音识别纠错方法、装置及存储介质
CN109582930B (zh) * 2017-09-29 2022-12-20 北京金山安全软件有限公司 一种滑动输入解码方法、装置及电子设备
CN108647190B (zh) * 2018-04-25 2022-04-29 北京华夏电通科技股份有限公司 一种语音识别文本插入笔录文档的方法、装置及系统
CN108733649B (zh) * 2018-04-25 2022-05-06 北京华夏电通科技股份有限公司 一种语音识别文本插入笔录文档的方法、装置及系统
CN108766443A (zh) * 2018-05-30 2018-11-06 Oppo广东移动通信有限公司 匹配阈值的调整方法、装置、存储介质及电子设备
CN110428822B (zh) * 2019-08-05 2022-05-03 重庆电子工程职业学院 一种语音识别纠错方法及人机对话系统
CN110516125B (zh) * 2019-08-28 2020-05-08 拉扎斯网络科技(上海)有限公司 识别异常字符串的方法、装置、设备及可读存储介质
CN112151072B (zh) * 2020-08-21 2024-07-02 北京搜狗科技发展有限公司 语音处理方法、装置和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1282072A (zh) * 1999-07-27 2001-01-31 国际商业机器公司 对语音识别结果中的错误进行校正的方法和语音识别系统
CN1979638A (zh) * 2005-12-02 2007-06-13 中国科学院自动化研究所 一种语音识别结果纠错方法
CN101295293A (zh) * 2007-04-29 2008-10-29 摩托罗拉公司 用于对表意字符的输入字符串进行自动纠错的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7941316B2 (en) * 2005-10-28 2011-05-10 Microsoft Corporation Combined speech and alternate input modality to a mobile device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1282072A (zh) * 1999-07-27 2001-01-31 国际商业机器公司 对语音识别结果中的错误进行校正的方法和语音识别系统
CN1979638A (zh) * 2005-12-02 2007-06-13 中国科学院自动化研究所 一种语音识别结果纠错方法
CN101295293A (zh) * 2007-04-29 2008-10-29 摩托罗拉公司 用于对表意字符的输入字符串进行自动纠错的方法

Also Published As

Publication number Publication date
CN103000176A (zh) 2013-03-27

Similar Documents

Publication Publication Date Title
CN103000176B (zh) 语音识别方法和系统
CN103021412B (zh) 语音识别方法和系统
TWI266280B (en) Multimodal disambiguation of speech recognition
WO2020001458A1 (zh) 语音识别方法、装置及系统
JP5098613B2 (ja) 音声認識装置及びコンピュータプログラム
KR20170063037A (ko) 음성 인식 장치 및 방법
US9093072B2 (en) Speech and gesture recognition enhancement
EP2685452A1 (en) Method of recognizing speech and electronic device thereof
KR20170106951A (ko) 문법 모델을 이용하여 음성인식을 수행하는 방법 및 디바이스
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
CN101415259A (zh) 嵌入式设备上基于双语语音查询的信息检索系统及方法
CN103680498A (zh) 一种语音识别方法和设备
EP1346343A1 (en) Speech recognition using word-in-phrase command
JP2001184088A (ja) コンピュータ読取自在の記録媒体、及びバックグランド・オーディオ・リカバリー・システム
CN105210147B (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
US20130030794A1 (en) Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof
CN103903618B (zh) 一种语音输入方法及电子设备
CN111508497B (zh) 语音识别方法、装置、电子设备及存储介质
CN110503956A (zh) 语音识别方法、装置、介质及电子设备
CN113327597B (zh) 语音识别方法、介质、装置和计算设备
CN112037772B (zh) 基于多模态的响应义务检测方法、系统及装置
JP2024050983A (ja) 自動音声認識のための多言語再スコアリングモデル
CN116564286A (zh) 语音录入方法、装置、存储介质及电子设备
JP2010164918A (ja) 音声翻訳装置、および方法
CN118355436A (zh) 用于基于语言识别执行说话人日志的方法及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 230031 666 Wangjiang West Road, Hefei high tech Zone, Anhui

Patentee after: Iflytek Co., Ltd.

Address before: 230088 No. 616, Mount Huangshan Road, hi tech Development Zone, Anhui, Hefei

Patentee before: Anhui USTC iFLYTEK Co., Ltd.