CN110689881B - 语音识别方法、装置、计算机设备和存储介质 - Google Patents
语音识别方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN110689881B CN110689881B CN201810636376.XA CN201810636376A CN110689881B CN 110689881 B CN110689881 B CN 110689881B CN 201810636376 A CN201810636376 A CN 201810636376A CN 110689881 B CN110689881 B CN 110689881B
- Authority
- CN
- China
- Prior art keywords
- word
- replaced
- words
- language model
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000004590 computer program Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 4
- 230000003595 spectral effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种语音识别方法、系统、计算机设备和存储介质。所述方法包括:获取语音信号,并从语音信号中提取语音特征;通过第一语言模型对语音特征进行识别,得到第一识别结果;第一识别结果包含待替换词;通过第二语言模型对语音特征进行识别,得到第二识别结果;第二识别结果包含热词;识别热词与待替换词之间的对应关系;根据对应关系将待替换词替换为相应的热词。采用本方法能够实现提高对热词识别的正确率,进而实现了有效的针对于热词的语音识别。
Description
技术领域
本发明涉及语音处理技术领域,特别是涉及一种语音识别方法、装置、计算机设备和存储介质。
背景技术
语音识别技术,也被称为自动语音识别,其目标是将语音中的内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列,并进行相应的操作。在传统方式中,语音识别的模型第一要是基于隐马尔科夫模型,其中,常用的是连续分布的隐马尔科夫模型。目前语音识别的主流已经转向基于WFST(带权有限状态转换器)并结合深度神经网络的框架。
语音识别结果目前来说会存在一定的错误,其中热词的错误率尤其高。因为,在基本系统的语言模型的词表中并没有热词或者热词概率比较低,而由于传统的语言模型都较为庞大,通过修改内存或者磁盘上的语言模型需要耗费大量的人力以及时间成本,而且这种改动是针对特定任务的,也就是当承担多个不同热词识别任务时,需要对多个庞大的语言模型进行处理,资源消耗很大。而基于后处理的方法对语音识别结果的处理过程非常复杂,也会因此占用大量的人力以及时间成本。
鉴于此,有必要提出一种可以有效的实现针对于热词的语音识别方法。
发明内容
基于此,有必要针对上述技术问题,提供一种可以有效的实现针对于热词的语音识别方法、装置、计算机设备和存储介质。
一种语音识别方法,所述方法包括:
获取语音信号,并从所述语音信号中提取语音特征;
通过第一语言模型对所述语音特征进行识别,得到第一识别结果;所述第一识别结果包含待替换词;
通过第二语言模型对所述语音特征进行识别,得到第二识别结果;所述第二识别结果包含热词;
识别热词与待替换词之间的对应关系;
根据所述对应关系将所述待替换词替换为相应的热词。
在其中一个实施例中,在通过第二语言模型对所述语音特征进行识别,得到第二识别结果之前,所述方法还包括:
获取热词配置文件,所述热词配置文件中记录了热词词表;
将所述热词词表与第三语言模型按照预设的权重进行插值,得到第二语言模型。
在其中一个实施例中,所述识别热词与待替换词之间的对应关系包括:
在所述第二识别结果中提取热词及其对应的时间标识;
在所述第一识别结果中提取待替换词及其对应的时间标识;
根据时间标识确定热词与待替换词之间的对应关系。
在其中一个实施例中,所述根据所述对应关系将所述待替换词替换为相应的热词包括:
计算所述热词的置信度;
计算所述待替换词的置信度;
根据所述对应关系对所述待替换词的置信度以及所述热词的置信度进行比较,得到置信度差值;
当所述置信度差值超过阈值时,将所述待替换词替换为相应的热词。
在其中一个实施例中,所述计算所述待替换词的置信度包括:
根据第一识别结果,提取第一识别结果中待替换词的特征得分;
提取第一识别结果中与所述待替换词的时间标识相同的候选词汇的特征得分;
通过计算所述待替换词的特征得分与候选词汇的特征得分的平均分的差值,得到所述待替换词的置信度。
一种语音识别装置,所述装置包括:
特征提取模块,用于获取语音信号,并从所述语音信号中提取语音特征;
第一识别模块,用于通过第一语言模型对所述语音特征进行识别,得到第一识别结果;所述第一识别结果包含待替换词;
第二识别模块,用于通过第二语言模型对所述语音特征进行识别,得到第二识别结果;所述第二识别结果包含热词;
对应关系识别模块,用于识别热词与待替换词之间的对应关系;
替换模块,用于根据所述对应关系将所述待替换词替换为相应的热词。
在其中一个实施例中,所述装置还包括:
获取模块,用于获取热词配置文件,所述热词配置文件中记录了热词词表;
插值模块,用于将所述热词词表与第三语言模型按照预设的权重进行插值,得到第二语言模型。
在其中一个实施例中,所述对应关系识别模块还用于:
在所述第二识别结果中提取热词及其对应的时间标识;
在所述第一识别结果中提取待替换词及其对应的时间标识;
根据时间标识确定热词与待替换词之间的对应关系。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述任意一项方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项方法的步骤。
上述语音识别方法、装置、计算机设备和存储介质,通过第一语言模型对语音特征进行识别,得到第一识别结果。通过第二语言模型对语音特征进行识别,得到第二识别结果。再根据第一识别结果中的待替换词与第二识别结果中热词的对应关系将待替换词替换为相应的热词。由此实现了提高对热词识别的正确率。此外,针对于多个不同的热词识别任务也可以将第一识别结果共用,通过不同的第二语言模型分别进行热词识别以及替换,节约了大量的资源以及人力时间成本。
附图说明
图1为一个实施例中语音识别方法的应用场景图;
图2为一个实施例中语音识别方法的流程示意图;
图3为另一个实施例中语音识别方法的流程示意图;
图4为一个实施例中识别热词与待替换词之间的对应关系的步骤的流程示意图;
图5为一个实施例中根据对应关系将待替换词替换为相应的热词的步骤的流程示意图;
图6位一个实施例中计算待替换词的置信度的步骤的流程示意图;
图7为一个实施例中语音识别装置的结构框图;
图8为另一个实施例中语音识别装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本发明实施例所提供的语音识别方法可应用到如图1所示的应用环境中。用户终端110与语音识别设备120通过网络连接,用户终端110包括但不限于手机、掌上游戏机、平板电脑、个人数字助理或穿戴设备等任意一种。语音识别设备120可以是语音识别器,服务器或个人电脑等任意一种。用户终端110将语音信号发送至语音识别设备120。语音识别设备120在接收到该语音信号后,从语音信号中提取语音特征。语音识别设备120通过第一语言模型对语音特征进行识别,得到第一识别结果,其中,第一识别结果中包括待替换词以及待替换词的置信度。语音识别设备120通过第二语言模型对语音特征进行识别,得到第二识别结果,其中第二识别结果中包括热词以及热词的置信度。语音识别设备120根据热词与待替换词之间的对应关系,并通过置信度比较,将待替换词替换为相应的热词。
在一个实施例中,如图2所示,提供了一种语音识别方法,以该方法应用于图1中的语音识别设备为例进行说明,该方法包括:
步骤202,获取语音信号,并从该语音信号中提取语音特征。
语音识别设备通过网络获取用户终端发送的语音信号,也可以直接采集用户语音的声学信号并转换为计算机可以处理的数字化信号,例如通过脉冲编码调制将声学信号转换成相应的数字波形信号。
语音识别设备从数字化的语音信号中提取用于语音识别的语音特征。具体地,语音识别中常用的MFCC(Mel-频率倒谱系数)特征、LPCC(线性预测倒谱系数)特征、PLP(线性预测倒谱系数)特征以及基频特征等,或者还可以是上述特征的组合。例如,本实施例中使用的特征是MFCC特征。
步骤204,通过第一语言模型对语音特征进行识别,得到第一识别结果;第一识别结果包含待替换词。
语音识别设备可以通过使用基于WFST(带权有限状态转换器)和LSTM(长短时记忆模型)神经网络的语音识别引擎进行语音的特征识别。该语音识别引擎中包括有第一声学模型和第一语言模型。其中,第一声学模型是基于汉语声韵母的三音子模型。第一语言模型是基于汉语词的三元统计语言模型,第一语言模型的词表中包含的词汇数量以及词汇组合的数量需要高于相应的第一预设值。例如,第一语言模型的词表大约20万词,第一语言模型中包含超过3千万个词语组合。可以理解的是,该第一语言模型中的语言模型为通用的语言模型,也就是没有针对不同的识别任务进行模型或者语言词库的调整。
语音识别设备通过第一语言模型对语音特征进行识别,得到第一识别结果,第一识别结果包含所有的待替换词的识别结果。具体的,第一识别结果为一组序列,每个序列中包括:时间标识、识别出的词汇、得分,每个词汇对应的识别结果可能还包含多个候选词汇,每个候选词汇中也至少包括:时间标识、识别出的词汇、特征得分,其中得分越大表示可能性越高。例如,某一段语音对应的内容为“今天天气很好”,则这个序列为“今天天气很好”。对于最佳候选的第一个符号的识别结果包括总共三个(0.0,’今天’,0.9)、(0.0,’今日’,0.5)、(0.0,’明天’,0.01)。为了简化起见,有时候可以只考虑最佳候选序列,例如第一个符号只考虑“今天”。
步骤206,通过第二语言模型对语音特征进行识别,得到第二识别结果;第二识别结果包含热词。
语音识别设备通过第二语言模型对语音特征进行识别,具体的,也可以使用上述基于WFST和LSTM神经网路的语音识别引擎进行语音的特征识别。与第一识别过程的区别在于,第二识别过程中使用的第二声学模型要比第一识别过程中的第一声学模型要简单一些。此外,第二识别过程中的第二语言模型是基于汉语词的三元统计语言模型,第二语言模型中包含的词表以及词语组合数量需要低于相应的第二预设值,例如,第二语言模型的词表大约1万词,包含不超过1百万个词语组合,相比第一语言模型中的语言模型词汇数量少很多。与第一语言模型中语言模型的区别还有第二语言模型中包含了预先配置好的热词。可以理解的是,第二语言模型是一个定制的语言识别模型,可以针对不同的识别任务进行模型的调整。因此,整体上该热词的识别过程所占用的内存资源要比第一识别过程小一个数量级以上,相应的解码速度也要快3-5倍甚至一个数量级。但是,虽然第二识别结果在热词的识别率上比第一识别结果高很多,但是仍然不能直接代替作为最终的识别结果。这是因为在实际识别过程中第二语言模型的词表比第一语言模型的词表小很多,模型也小很多,考虑到所有词的总体识别率来看,识别正确率会低很多。
第二识别结果与上述第一识别结果所具体包含的内容形式是一致的,其中包含对热词的识别结果的内容形式为:热词,该热词对应的时间标识,以及该热词的特征得分。例如,“谱倾斜”的识别结果为:(2.0,’谱倾斜’,0.8)。
步骤208,识别热词与待替换词之间的对应关系。
语音识别设备通过第二识别结果与待替换词识别结果的标识建立热词与替换词之间的对应关系。具体地,首先从第二识别结果中提取所有热词及其对应的时间标识,然后再从第一识别结果中查找与热词的时间标识相同的词汇作为该热词对应的待替换词,即实现了建立热词与待替换词之间的对应关系。可以理解的,这里的对应关系不仅仅包括时间标识完全相同的情况,也包括时间标识区间有重叠的情况,也就是说时间标识边界可能有一定的差别,但是主要部分是重叠的。例如:热词对应的时间标识区间为:2.0-2.8,待替换词的时间标识区间为1.8-2.2的情况。
步骤210,根据对应关系将待替换词替换为相应的热词。
语音识别设备根据已经建立的热词与待替换词之间的对应关系,依据相应的准则,将第一识别结果中的待替换词替换为相应的热词得到最终的识别结果。具体的准则可以通过将每个热词以及对应的待替换词配置个参考值,通过该参考值的大小来确定是否需要替换,这个参考值需要和该词汇的识别结果的可靠程度有关,这个值越大,说明该词汇的识别结果越可信。
上述的语音识别方法中,通过第一语言模型对语音特征进行识别,得到第一识别结果。通过第二语言模型对语音特征进行识别,得到第二识别结果。再根据第一识别结果中的待替换词与第二识别结果中热词的对应关系将待替换词替换为相应的热词。由此实现了提高在第一识别结果中对热词识别的正确率。此外,针对于多个不同的热词识别任务也可以将第一识别结果共用,通过不同的第二语言模型分别进行热词识别以及替换,节约了大量的资源以及人力时间成本。
在一个实施例中,如图3所示,通过第二语言模型对语音特征进行识别,得到第二识别结果;第二识别结果包含热词的步骤之前包括:
步骤306,获取热词配置文件,热词配置文件中记录了热词词表。
步骤308,将热词词表与第三语言模型按照预设的权重进行插值,得到第二语言模型。
语音识别设备可以直接获取热词配置文件,该热词文件中包括了预先用户根据不同识别任务配置的热词词表。语音识别设备还可以先获取用户输入的文本,并将该文本转换成标准格式。然后,通过热词提取器采用命名实体提取算法提取文本中的热词。具体的,这些热词一般是几十个到几百个。可以理解的是,这里的热词不仅仅包括高频词和关键词,还包括出现次数较少的专有名词以及对文本语义中比较重要的词汇,在实际配置过程中可以根据需求进行相应的配置。
语音识别设备将热词词表与第三语言模型按照预设的权重进行插值,得到第二语言模型。具体的,该第三语言模型语言是基于汉语词的三元统计语言模型,该语言模型中包含的词表以及词语组合数量需要低于相应的第三预设值,例如,语言模型的词表大约1万词,语言模型中包含超过不到1百万个词语组合。通常来说,该第三语言模型中的词表是第一语言模型词表的一个子集,但是这个不是必须条件,只要第三语言模型本身比较小,且包含了常用的词汇即可。
根据热词词表生成一个语言模型称为第四语言模型。例如,该第四语言模型只有1元统计信息,并且赋予这100个热词等同的概率0.008。
第三语言模型修改词表后重新生成一个新的第五语言模型。将第四语言模型和第五语言模型进行插值,这里两个语言模型的插值运算比例是可以调节的,例如,第四语言模型和第五语言模型的比例为1:9。插值之后得到第二语言模型,该第二语言模型已经包含了所有热词词表中的词,并且其对应的概率都是比较高的,因此在识别结果中只要语音接近热词的情况下,第二识别结果会倾向于输出这些热词。
本实施例中的语音识别方法,通过获取热词词表,然后将热词词表与第三语言模型按照预设的权重进行插值,得到第二语言模型。实现了用户可以针对于多个不同的热词识别任务对热词词表进行不同的配置,然后根据第二识别结果将第一识别结果中的待替换词用热词进行替换,提高了对热词的识别正确率,同时满足了不同的热词识别任务需求,具有广泛的适用性。
在一个实施例中,如图4所示,识别热词与待替换词之间的对应关系的步骤包括:
步骤402,在第二识别结果中提取热词及其对应的时间标识。
步骤404,在第一识别结果中提取待替换词及其对应的时间标识。
步骤406,根据时间标识确定热词与待替换词之间的对应关系。
语音识别设备在第二识别结果中提取热词及其对应的时间标识,以及在第一识别结果中提取待替换词及其对应的时间标识。
例如,在语音识别任务中,其内容是:“我们计算语音中的谱倾斜参数”。
第一识别结果为:“我们计算语音中的地铺倾斜参数”
(0.0,’我们’,0.9)
(0.5,’计算’,0.8)
(1.0,’语音’,0.6)
(1.5,’中’,0.7)
(1.8,’地铺’,0.6)
(2.2,’倾斜’,0.7)
(2.8,’参数’,0.8)
第二识别结果为:“我们计算语音中的谱倾斜参数”
(0.0,’我们’,0.9)
(0.5,’计算’,0.8)
(1.0,’语音’,0.6)
(1.5,’中’,0.7)
(1.8,’的’,0.6)
(2.0,’谱倾斜’,0.8)
(2.8,’参数’,0.8)
注意到“谱倾斜”是热词,通过热词“谱倾斜”对应的时间标识2.0,确定待替换词为第一识别结果中的“地铺”以及“倾斜”,可以理解的是,这里的对应关系不仅仅包括时间标识完全相同的情况,也包括时间标识有重叠的情况,也就是说时间标识边界可能有一定的差别,但是主要部分是重叠的。例如:热词对应的时间标识区间为:2.0-2.8,待替换词的时间标识区间为1.8-2.2的情况。
本实施例中的语音识别方法,通过提取热词及其对应的时间标识,以及在第一识别结果中提取待替换词及其对应的时间标识,通过该时间标识建立对应关系,实现了确保后续热词替换位置的准确性,提高了热词替换的准确率。
在一个实施例中,如图5所示,根据对应关系将待替换词替换为相应的热词的步骤包括:
步骤502,计算热词的置信度。
步骤504,计算待替换词的置信度。
步骤506,根据对应关系对待替换词的置信度以及热词的置信度进行比较,得到置信度差值。
步骤508,判断置信度差值是否达到阈值,若是,则执行步骤510,否则,执行步骤512。
步骤510,将待替换词替换为相应的热词。
步骤512,将待替换词保留。
语音识别设备通过计算待替换词以及热词的置信度的大小来确定是否需要替换,这个置信度需要和识别结果的可靠程度有关,这个值越大,说明对应的识别结果越可信。可以理解的是,由于替换过程中不仅仅可能是热词本身,还可以包括热词相邻的词汇,所以在计算置信度时,也要考虑热词以及待替换词相邻的词汇。
具体地,置信度比较的规则可以设置为:如果含有第二识别结果的热词的置信度与第一识别结果的待替换词的置信度的差值超过预设的阈值,那么就认为第二识别结果更为可信,需要将第一识别结果中的待替换词替换为热词。
例如,在语音识别任务中,其内容是:“我们计算语音中的谱倾斜参数”。
计算待替换词的置信度的结果为:
(1.8,’地铺’,0.6,0.1)
(2.2,’倾斜’,0.7,0.2)
(2.8,’参数’,0.8,0.4)
计算热词的置信度的结果为:
(1.8,’的’,0.6,0.4)
(2.0,’谱倾斜’,0.8,0.3)
(2.8,’参数’,0.8,0.4)
根据置信度比较可知,待替换词中的“地铺”、“倾斜”的置信度与热词“的”、“谱倾斜”的置信度差值达到了阈值0.1,是需要被替换的部分,而“参数”是不需要替换的。
本实施例中的语音识别方法,通过计算待替换词和热词的置信度,然后将置信度进行比较,根据比较的结果判断是否需要对待替换词进行热词替换。实现了提高热词替换的准确率。
在一个实施例中,如图6所示,计算待替换词的置信度的步骤包括:
步骤602,根据第一识别结果,提取第一识别结果中待替换词的特征得分。
步骤604,提取第一识别结果中与待替换词的时间标识相同的候选词汇的特征得分。
步骤606,通过计算待替换词的特征得分与候选词汇的特征得分的平均分的差值,得到待替换词的置信度。
具体地,语音识别设备从第一识别结果中,根据包含待替换词的识别结果,提取待替换词的特征得分。这个得分实际上可以通过声学模型得分和语言模型得分进行加权得到的。然后,提取若干个第一识别结果中与待替换词的时间标识相同的其他候选词的特征得分,并计算这些特征得分的平均值。通过计算待替换词的特征得分与该平均值的差值得到待替换词的置信度。
例如,选择4个候选词汇,则待替换词的置信度用CM表示:
CM(i)=SC_1(i)-(SC_2(i)+SC_3(i)+SC_4(i)+SC_5(i))/4
CM为置信度得分,SC_1到SC_5表示第一到第五词汇的特征得分。
本实施例中的语音识别方法,通过计算待替换词的特征得分与其他候选词汇的特征得分平均分的差值,得到待替换词的置信度。该置信度可以有效的表达该待替换词识别结果的可信度。确保了之后通过置信度判断替换过程的可靠性,进而提高了热词替换的准确率。
可以理解的,语音识别装置计算热词的置信度的过程与上述计算待替换词的置信度是一致的。具体地,语音识别设备从第二识别结果中,根据包含热词的识别结果,提取热词的特征得分。然后,提取若干个第二识别结果中与热词的时间标识相同的其他候选词的特征得分,并计算这些特征得分的平均值。通过计算热词的特征得分与该平均值的差值得到热词的置信度。
应该理解的是,虽然图2-6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-6中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图7所示,提供了一种基于应用程序的操作引导处理装置,该装置包括:
特征提取模块702,用于获取语音信号,并从语音信号中提取语音特征。
第一识别模块704,用于通过第一语言模型对语音特征进行识别,得到第一识别结果;第一识别结果包含待替换词。
第二识别模块706,用于通过第二语言模型对语音特征进行识别,得到第二识别结果;第二识别结果包含热词。
对应关系识别模块708,用于识别热词与待替换词之间的对应关系。
替换模块710,用于根据对应关系将待替换词替换为相应的热词。
在一个实施例中,如图8所示,该装置还包括:
获取模块806,用于获取热词配置文件,热词配置文件中记录了热词词表。
插值模块808,用于将热词词表与第三语言模型按照预设的权重进行插值,得到第二语言模型。
在一个实施例中,对应关系识别模块708还用于:在第二识别结果中提取热词及其对应的时间标识;在第一识别结果中提取待替换词及其对应的时间标识;根据时间标识确定热词与待替换词之间的对应关系。
在一个实施例中,替换模块710还用于:计算热词的置信度;计算待替换词的置信度;根据对应关系对待替换词的置信度以及热词的置信度进行比较,得到置信度差值;当置信度差值超过阈值时,将待替换词替换为相应的热词。
在一个实施例中,替换模块710还用于:根据第一识别结果,提取第一识别结果中待替换词的特征得分;提取第一识别结果中与待替换词的时间标识相同的候选词汇的特征得分;通过计算待替换词的特征得分与候选词汇的特征得分的平均分的差值,得到待替换词的置信度。
关于语音识别装置的具体限定可以参见上文中对于语音识别方法的限定,在此不再赘述。上述语音识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是语音识别设备,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器及网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音识别方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以上各个方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以上各个方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种语音识别方法,所述方法包括:
获取语音信号,并从所述语音信号中提取语音特征;
通过第一语言模型对所述语音特征进行识别,得到第一识别结果;所述第一识别结果包含待替换词;
通过第二语言模型对所述语音特征进行识别,得到第二识别结果;所述第二识别结果包含热词;所述第一语言模型和第二语言模型是基于汉语词的三元统计语言模型,所述第二语言模型中包含了预先配置好的热词,且所述第二语言模型中包含的词表以及词语组合数量低于第一语言模型中包含的词表以及词语组合数量;
识别热词与待替换词之间的对应关系;
根据所述对应关系将所述待替换词替换为相应的热词;
所述识别热词与待替换词之间的对应关系包括:
在所述第二识别结果中提取热词及其对应的时间标识;
在所述第一识别结果中提取待替换词及其对应的时间标识;
根据时间标识确定热词与待替换词之间的对应关系;所述对应关系包括时间标识完全相同的情况或者时间标识区间重叠的情况;
所述根据所述对应关系将所述待替换词替换为相应的热词,包括:
将每个所述热词以及对应的待替换词配置相应的参考值,通过所述参考值的大小确定是否需要替换,所述参考值与所述热词或者待替换词的识别结果的可靠程度相关。
2.根据权利要求1所述的语音识别方法,其特征在于,在通过第二语言模型对所述语音特征进行识别,得到第二识别结果之前,所述方法还包括:
获取热词配置文件,所述热词配置文件中记录了热词词表;
将所述热词词表与第三语言模型按照预设的权重进行插值,得到第二语言模型;所述第三语言模型是基于汉语词的三元统计语言模型。
3.根据权利要求1所述的语音识别方法,其特征在于,所述根据所述对应关系将所述待替换词替换为相应的热词包括:
计算所述热词的置信度;
计算所述待替换词的置信度;
根据所述对应关系对所述待替换词的置信度以及所述热词的置信度进行比较,得到置信度差值;
当所述置信度差值超过阈值时,将所述待替换词替换为相应的热词。
4.根据权利要求3所述的语音识别方法,其特征在于,所述计算所述待替换词的置信度包括:
根据第一识别结果,提取第一识别结果中待替换词的特征得分;
提取第一识别结果中与所述待替换词的时间标识相同的候选词汇的特征得分;
通过计算所述待替换词的特征得分与候选词汇的特征得分的平均分的差值,得到所述待替换词的置信度。
5.一种语音识别装置,其特征在于,所述装置包括:
特征提取模块,用于获取语音信号,并从所述语音信号中提取语音特征;
第一识别模块,用于通过第一语言模型对所述语音特征进行识别,得到第一识别结果;所述第一识别结果包含待替换词;
第二识别模块,用于通过第二语言模型对所述语音特征进行识别,得到第二识别结果;所述第二识别结果包含热词;所述第一语言模型和第二语言模型是基于汉语词的三元统计语言模型,所述第二语言模型中包含了预先配置好的热词,且所述第二语言模型包含的词表以及词语组合数量低于第一语言模型中包含的词表以及词语组合数量;
对应关系识别模块,用于识别热词与待替换词之间的对应关系;
替换模块,用于根据所述对应关系将所述待替换词替换为相应的热词;
所述对应关系识别模块还用于:
在所述第二识别结果中提取热词及其对应的时间标识;
在所述第一识别结果中提取待替换词及其对应的时间标识;
根据时间标识确定热词与待替换词之间的对应关系;所述对应关系包括时间标识完全相同的情况或者时间标识区间重叠的情况;
所述替换模块,还用于将每个所述热词以及对应的待替换词配置相应的参考值,通过所述参考值的大小确定是否需要替换,所述参考值与所述热词或者待替换词的识别结果的可靠程度相关。
6.根据权利要求5所述的语音识别装置,其特征在于,所述装置还包括:
获取模块,用于获取热词配置文件,所述热词配置文件中记录了热词词表;
插值模块,用于将所述热词词表与第三语言模型按照预设的权重进行插值,得到第二语言模型;所述第三语言模型是基于汉语词的三元统计语言模型。
7.根据权利要求5所述的语音识别装置,其特征在于,所述替换模块还用于:
计算所述热词的置信度;
计算所述待替换词的置信度;
根据所述对应关系对所述待替换词的置信度以及所述热词的置信度进行比较,得到置信度差值;
当所述置信度差值超过阈值时,将所述待替换词替换为相应的热词。
8.根据权利要求7所述的语音识别装置,其特征在于,所述替换模块还用于:
根据第一识别结果,提取第一识别结果中待替换词的特征得分;
提取第一识别结果中与所述待替换词的时间标识相同的候选词汇的特征得分;
通过计算所述待替换词的特征得分与候选词汇的特征得分的平均分的差值,得到所述待替换词的置信度。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810636376.XA CN110689881B (zh) | 2018-06-20 | 2018-06-20 | 语音识别方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810636376.XA CN110689881B (zh) | 2018-06-20 | 2018-06-20 | 语音识别方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110689881A CN110689881A (zh) | 2020-01-14 |
CN110689881B true CN110689881B (zh) | 2022-07-12 |
Family
ID=69106273
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810636376.XA Active CN110689881B (zh) | 2018-06-20 | 2018-06-20 | 语音识别方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110689881B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110415705B (zh) * | 2019-08-01 | 2022-03-01 | 苏州奇梦者网络科技有限公司 | 一种热词识别方法、系统、装置及存储介质 |
CN111508478B (zh) * | 2020-04-08 | 2023-04-11 | 北京字节跳动网络技术有限公司 | 语音识别方法和装置 |
CN111626049B (zh) * | 2020-05-27 | 2022-12-16 | 深圳市雅阅科技有限公司 | 多媒体信息的标题修正方法、装置、电子设备及存储介质 |
CN111627446A (zh) * | 2020-05-29 | 2020-09-04 | 国网浙江省电力有限公司信息通信分公司 | 一种基于智能语音识别技术的通信会议系统 |
CN112599114A (zh) * | 2020-11-11 | 2021-04-02 | 联想(北京)有限公司 | 一种语音识别方法及装置 |
CN112908301A (zh) * | 2021-01-27 | 2021-06-04 | 科大讯飞(上海)科技有限公司 | 一种语音识别方法、装置、存储介质及设备 |
CN113470619B (zh) * | 2021-06-30 | 2023-08-18 | 北京有竹居网络技术有限公司 | 语音识别方法、装置、介质及设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180062003A (ko) * | 2016-11-30 | 2018-06-08 | 한국전자통신연구원 | 음성 인식 오류 교정 방법 |
CN112599128A (zh) * | 2020-12-31 | 2021-04-02 | 百果园技术(新加坡)有限公司 | 一种语音识别方法、装置、设备和存储介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923854B (zh) * | 2010-08-31 | 2012-03-28 | 中国科学院计算技术研究所 | 一种交互式语音识别系统和方法 |
US8909526B2 (en) * | 2012-07-09 | 2014-12-09 | Nuance Communications, Inc. | Detecting potential significant errors in speech recognition results |
CN103971686B (zh) * | 2013-01-30 | 2015-06-10 | 腾讯科技(深圳)有限公司 | 自动语音识别方法和系统 |
CN103700369B (zh) * | 2013-11-26 | 2016-08-31 | 科大讯飞股份有限公司 | 语音导航方法及系统 |
US9263042B1 (en) * | 2014-07-25 | 2016-02-16 | Google Inc. | Providing pre-computed hotword models |
KR102380833B1 (ko) * | 2014-12-02 | 2022-03-31 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US9928840B2 (en) * | 2015-10-16 | 2018-03-27 | Google Llc | Hotword recognition |
CN105895103B (zh) * | 2015-12-03 | 2020-01-17 | 乐融致新电子科技(天津)有限公司 | 一种语音识别方法及装置 |
US9959861B2 (en) * | 2016-09-30 | 2018-05-01 | Robert Bosch Gmbh | System and method for speech recognition |
CN106653007B (zh) * | 2016-12-05 | 2019-07-16 | 苏州奇梦者网络科技有限公司 | 一种语音识别系统 |
US10134396B2 (en) * | 2016-12-07 | 2018-11-20 | Google Llc | Preventing of audio attacks |
CN110415705B (zh) * | 2019-08-01 | 2022-03-01 | 苏州奇梦者网络科技有限公司 | 一种热词识别方法、系统、装置及存储介质 |
CN113160822B (zh) * | 2021-04-30 | 2023-05-30 | 北京百度网讯科技有限公司 | 语音识别处理方法、装置、电子设备以及存储介质 |
-
2018
- 2018-06-20 CN CN201810636376.XA patent/CN110689881B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180062003A (ko) * | 2016-11-30 | 2018-06-08 | 한국전자통신연구원 | 음성 인식 오류 교정 방법 |
CN112599128A (zh) * | 2020-12-31 | 2021-04-02 | 百果园技术(新加坡)有限公司 | 一种语音识别方法、装置、设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
基于旅游领域的问句语音识别方法研究;孔德威;《中国优秀硕士学位论文全文数据库》;20150115;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110689881A (zh) | 2020-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110689881B (zh) | 语音识别方法、装置、计算机设备和存储介质 | |
US10438586B2 (en) | Voice dialog device and voice dialog method | |
CN110162633B (zh) | 语音数据意图确定方法、装置、计算机设备和存储介质 | |
CN111104495A (zh) | 基于意图识别的信息交互方法、装置、设备和存储介质 | |
CN108831439B (zh) | 语音识别方法、装置、设备和系统 | |
CN112102815B (zh) | 语音识别方法、装置、计算机设备和存储介质 | |
CN108447471B (zh) | 语音识别方法及语音识别装置 | |
CN105895103B (zh) | 一种语音识别方法及装置 | |
CN107644638B (zh) | 语音识别方法、装置、终端和计算机可读存储介质 | |
CN108899013B (zh) | 语音搜索方法、装置和语音识别系统 | |
US20150120301A1 (en) | Information Recognition Method and Apparatus | |
US9934452B2 (en) | Pruning and label selection in hidden Markov model-based OCR | |
CN111145733B (zh) | 语音识别方法、装置、计算机设备和计算机可读存储介质 | |
CN110688499A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN111105782A (zh) | 会话交互处理方法、装置、计算机设备和存储介质 | |
CN109522550B (zh) | 文本信息纠错方法、装置、计算机设备和存储介质 | |
CN109614627B (zh) | 一种文本标点预测方法、装置、计算机设备及存储介质 | |
CN111223476B (zh) | 语音特征向量的提取方法、装置、计算机设备和存储介质 | |
CN113506574A (zh) | 自定义命令词的识别方法、装置和计算机设备 | |
CN110164416B (zh) | 一种语音识别方法及其装置、设备和存储介质 | |
CN112632248A (zh) | 问答方法、装置、计算机设备和存储介质 | |
CN113571096B (zh) | 语音情绪分类模型训练方法、装置、计算机设备及介质 | |
CN113436614B (zh) | 语音识别方法、装置、设备、系统及存储介质 | |
CN112466287B (zh) | 一种语音分割方法、装置以及计算机可读存储介质 | |
CN107894882B (zh) | 一种移动终端的语音输入方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |