CN103500579A

CN103500579A - 语音识别方法、装置及系统

Info

Publication number: CN103500579A
Application number: CN201310470331.7A
Authority: CN
Inventors: 肖征荣; 张丽云; 贾佳; 廖军; 严斌峰
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2013-10-10
Filing date: 2013-10-10
Publication date: 2014-01-08
Anticipated expiration: 2033-10-10
Also published as: CN103500579B

Abstract

本发明提供一种语音识别方法、装置及系统。该方法包括对待识别的语音文件进行声学识别获得对应的音素图，并将搜索关键词转换为音素串；根据所述音素串在所述音素图中进行匹配搜索，获得关键词候选列表，所述关键词候选列表包括多个与所述搜索关键词相近的候选关键词；获取各候选关键词的置信度，并根据预设的置信度门限值，获取识别结果，所述识别结果包括所述语音文件的标识、置信度高于所述置信度门限值的候选关键词所对应的文件内偏移，以及所述候选关键词对应的置信度。本发明能够提高对语音关键词的识别速度及覆盖率。

Description

语音识别方法、装置及系统

技术领域

本发明涉及通信技术，尤其涉及一种语音识别方法、装置及系统。

背景技术

随着社会发展，信息安全成为各国关注的重点，特别是对音视频内容的监控，从被监控的音视频内容中检测出敏感的信息，为信息安全提供参考。

对语音数据的识别通常采用对音视频内容进行音视频分离，将分离出的语音数据转换为文本，利用文本匹配方式，在文本中匹配搜索关键词。

在现有技术中，由于先将语音数据转换为文本，然后利用文本匹配方式搜索关键词，另外没有涉及对相似关键词的搜索，导致关键词的搜索速度较慢以及关键词覆盖率较低。

发明内容

本发明提供一种语音识别方法、装置及系统，以提高对语音关键词的识别速度及覆盖率。

本发明的一个方面是提供一种语音识别方法，包括：

对待识别的语音文件进行声学识别获得对应的音素图，并将搜索关键词转换为音素串；

根据所述音素串在所述音素图中进行匹配搜索，获得关键词候选列表，所述关键词候选列表包括多个与所述搜索关键词相近的候选关键词；

获取各候选关键词的置信度，并根据预设的置信度门限值，获取识别结果，所述识别结果包括所述语音文件的标识、置信度高于所述置信度门限值的候选关键词所对应的文件内偏移，以及所述候选关键词对应的置信度。

本发明的另一个方面是提供一种语音识别装置，包括：

转换模块，用于对待识别的语音文件进行声学识别获得对应的音素图，并将搜索关键词转换为音素串；

匹配搜索模块，用于根据所述音素串在所述音素图中进行匹配搜索，获得关键词候选列表，所述关键词候选列表包括多个与所述搜索关键词相近的候选关键词；

置信度获取模块，用于获取各候选关键词的置信度，并根据预设的置信度门限值，获取识别结果，所述识别结果包括所述语音文件的标识、置信度高于所述置信度门限值的候选关键词所对应的文件内偏移，以及所述候选关键词对应的置信度。

本发明的另一个方面是提供一种语音识别系统，包括：

数据采集装置，用于实时采集音频数据；

如权利要求5-8任一所述的语音识别装置，用于对所述数据采集装置采集的音频数据进行识别，向结果显示模块发送识别后的识别结果；

结果显示模块，用于显示所述语音识别装置发送的所述识别结果。

本发明提供的语音识别方法、装置及系统，利用在语音数据对应的音素图中采用动态规划算法匹配搜索关键词文本对应的音素串，提高了语音关键词的识别速度及覆盖率。

附图说明

图1为本发明实施例一提供的语音识别方法流程图；

图2为本发明实施例二提供的语音识别方法流程图；

图3为本发明实施例三提供的语音识别方法框图；

图4为本发明实施例四提供的语音识别装置结构图；

图5为本发明实施例五提供的语音识别装置结构图；

图6为本发明实施例六提供的语音识别系统结构图。

具体实施方式

实施例一

图1为本发明实施例一提供的语音识别方法流程图。本发明实施例适用于基于音素图的语音关键词识别方法，将语音文件通过声学识别为音素图，将搜索关键词转换为音素串，在音素图中匹配搜索音素串，具体的语音识别过程包括：

步骤101、对待识别的语音文件进行声学识别获得对应的音素图，并将搜索关键词转换为音素串；

音素是根据语音的自然属性划分出来的最小语音单位，从声学性质来看，音素是从音质角度划分出来的最小语音单位，相同发音动作发出的音是同一音素，不同发音动作发出的音是不同音素。一个语音文件包含有大量的最小语音单位，由大量连续的音素可构成音素图，采用声学识别技术可以将语音文件转换成对应的音素图，与搜索关键词对应的音素可构成音素串。

步骤102、根据所述音素串在所述音素图中进行匹配搜索，获得关键词候选列表，所述关键词候选列表包括多个与所述搜索关键词相近的候选关键词；

在所述音素图中匹配搜索所述音素串，获得多个与所述搜索关键词相近的候选关键词，其中所述音素串是由所述搜索关键词转换得到的，且多个候选关键词构成关键词候选列表。例如“普通话”可以分析成“p,u,t,o,n，g,h,u,a”八个音素，“putonghua”构成“普通话”的音素串，而与“putonghua”对应的关键词可以是“普通话”也可以是“普通化”，如果“普通话”为所述搜索关键词，则“普通化”是与所述搜索关键词相近的候选关键词；在音素图中搜索“putonghua”，如果存在，将与“putonghua”对应的关键词“普通话”、“普通化”作为候选关键词输出。

步骤103、获取各候选关键词的置信度，并根据预设的置信度门限值，获取识别结果，所述识别结果包括所述语音文件的标识、置信度高于所述置信度门限值的候选关键词所对应的文件内偏移，以及所述候选关键词对应的置信度。

对关键词候选列表中的各候选关键词进行置信度计算，并与预设的置信度门限值比较，获得置信度高于预设的置信度门限值的候选关键词，以及所述候选关键词所在的语音文件标识、所述候选关键词在所述语音文件内的偏移以及所述候选关键词对应的置信度，并且由所述候选关键词所在的语音文件标识、所述候选关键词在所述语音文件内的偏移以及所述候选关键词对应的置信度构成三元组作为语音识别输出结果。

本实施例通过在语音文件对应的音素图中匹配搜索关键词对应的音素串，提高了搜索关键词的识别速度；通过对候选关键词进行置信度计算，选择置信度高于预设的置信度门限值的候选关键词，提高了搜索关键词的覆盖率。

实施例二

图2为本发明实施例二提供的语音识别方法流程图。在实施例一中，所述根据所述音素串在所述音素图中进行匹配搜索可以是在所述音素图中基于动态规划原理或基于统计知识的同步原理匹配搜索所述音素串，本实施例优选的匹配搜索方式是基于动态规划原理的音素串搜索。

如图2所示，在实施例一的基础上，通过计算各候选关键词的置信度，并与预设的置信度门限值比较，得到识别结果后，如步骤104所示，根据所述识别结果中各候选关键词的置信度，对所述识别结果进行排序，以使所述各候选关键词对应的三元组识别结果有序排列。其中，三元组中所述候选关键词在所述语音文件内的偏移以所述候选关键词距离所述语音文件开头的时间长度表示，并且精确到10毫秒。

本实施例中用于计算候选关键词置信度的方法有多种，可以是基于特征分类器方法、基于似然比检验方法或基于后验概率方法的置信度算法，本实施例优选的方式是基于后验概率方法的置信度算法。

本实施例通过对各候选关键词依据置信度大小进行排序，使得置信度高于预设门限值的所述各候选关键词对应的三元组识别结果有序排列。

实施例三

图3为本发明实施例三提供的语音识别方法框图。如图3所示，本实施例可具体采用上述实施例提供的语音识别方法，实现对语音文件的关键词识别，具体识别过程如下：

步骤301、对输入的语音文件进行声学识别；

通过声学识别技术将输入的语音文件转换成音素图。

步骤302、输入关键词文本；

输入的关键词文本是将在语音文件中搜索的关键词。

步骤303、转换成音素；

将输入的关键词文本转换成音素形成音素串。

步骤304、基于动态规划原理的音素串搜索；

在语音文件转换成的音素图中基于动态规划原理匹配搜索关键词对应的音素串，得到关键词候选列表。

步骤305、后验概率置信度计算；

对关键词候选列表中的各候选关键词依据后验概率置信度算法进行置信度计算。

步骤306、置信度门限值比较；

将各候选关键词对应的置信度与预设的置信度门限值比较，获得置信度高于预设的置信度门限值的候选关键词。

步骤307、候选关键词排序；

对多个置信度高于预设的置信度门限值的候选关键词依据置信度大小进行排序。输出如实施例一中所述的三元组识别结果，且多个三元组依据置信度大小有序排列。

本实施例通过采用上述实施例中的语音识别方法，实现了对语音文件中关键词快速全面的识别。

实施例四

图4为本发明实施例四提供的语音识别装置结构图。如图4所示，本发明实施例提供一种语音识别装置40，包括转换模块401、匹配搜索模块402和置信度获取模块403，其中，转换模块401用于对待识别的语音文件进行声学识别获得对应的音素图，并将搜索关键词转换为音素串；匹配搜索模块402用于根据所述音素串在所述音素图中进行匹配搜索，获得关键词候选列表，所述关键词候选列表包括多个与所述搜索关键词相近的候选关键词；置信度获取模块403用于获取各候选关键词的置信度，并根据预设的置信度门限值，获取识别结果，所述识别结果包括所述语音文件的标识、置信度高于所述置信度门限值的候选关键词所对应的文件内偏移，以及所述候选关键词对应的置信度。

实施例五

图5为本发明实施例五提供的语音识别装置结构图。如图5所示，在实施例四的基础上，所述语音识别装置40还包括排序模块404，且排序模块404用于根据所述识别结果中各候选关键词的置信度，对所述识别结果进行排序。

实施例六

图6为本发明实施例六提供的语音识别系统结构图。如图6所示，本实施例提供一种语音识别系统50，包括数据采集装置51、上述实施例提供的语音识别装置40和结果显示模块53，其中，数据采集装置51用于实时采集音频数据；语音识别装置40用于对所述数据采集装置51采集的音频数据进行识别，向结果显示模块53发送识别后的识别结果；结果显示模块53用于显示所述语音识别装置40发送的所述识别结果。

本实施例通过对音视频数据进行采集、处理及结果显示，实现了对音视频数据中语音数据的关键词识别，通过对语音数据采用上述实施例提供的语音识别方法，提高了关键词的搜索速度以及搜索范围。

综上所述，本发明提供的语音识别方法，通过在语音文件对应的音素图中匹配搜索关键词对应的音素串，提高了搜索关键词的识别速度；通过对候选关键词进行置信度计算，选择置信度高于预设的置信度门限值的候选关键词，提高了搜索关键词的覆盖率；通过对各候选关键词依据置信度大小进行排序，使得置信度高于预设门限值的所述各候选关键词对应的三元组识别结果有序排列。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语音识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述识别结果中各候选关键词的置信度，对所述识别结果进行排序。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述音素串在所述音素图中进行匹配搜索，包括：

在所述音素图中基于动态规划原理或基于统计知识的同步原理匹配搜索所述音素串。

4.根据权利要求1或2所述的方法，其特征在于，所述获取各候选关键词的置信度，包括：

对所述各候选关键词依据置信度算法获得与所述候选关键词对应的置信度，所述置信度算法包括基于特征分类器方法、基于似然比检验方法或基于后验概率方法的置信度算法。

5.一种语音识别装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

排序模块，用于根据所述识别结果各候选关键词的置信度，对所述识别结果进行排序。

7.根据权利要求5或6所述的装置，其特征在于，所述匹配搜索模块采用的匹配搜索算法包括基于动态规划原理或基于统计知识的同步原理的匹配搜索算法。

8.根据权利要求5或6所述的装置，其特征在于，所述置信度获取模块采用的置信度算法包括基于特征分类器方法、基于似然比检验方法或基于后验概率方法的置信度算法。

9.一种语音识别系统，其特征在于，包括：

数据采集装置，用于实时采集音频数据；