CN102521262A

CN102521262A - 实现语音智能索引的数据处理设备、系统及方法

Info

Publication number: CN102521262A
Application number: CN2011103710827A
Authority: CN
Inventors: 高精鍊; 高杰; 陆华兴
Original assignee: Guangdong Guobi Technology Co Ltd
Current assignee: Guangdong Guobi Technology Co Ltd
Priority date: 2011-11-21
Filing date: 2011-11-21
Publication date: 2012-06-27
Also published as: WO2013075557A1

Abstract

本发明提供了一种实现语音智能索引的数据处理设备。该数据处理设备根据用户自身的声音特点预先制定声音识别模型，并在声音识别模型和数字化的字、词、句之间建立映射联系，保证了声音识别的精确性，同时，实现了声音与数字化的字、词、句之间的精确转换联系，保证了从声音到索引结果呈现的自动性、精确性。本发明还提供一种实现语音智能索引的系统及方法。

Description

实现语音智能索引的数据处理设备、系统及方法

技术领域

本发明涉及一种数据索引技术，尤其涉及一种实现语音智能索引的数据处理设备、系统及方法。

背景技术

目前，人们已经注意到将声音识别技术运用到诸如手机、计算机、导航仪器等电子设备中的必要性。例如，当人们在做某一件无法完全解放双手的事情时，其很可能同时需要对手机、计算机、导航仪器等电子设备进行操作，依靠传统的手动操作显然不能满足需要。

比较先进的技术方案也已经提出，例如，很多公司提出了声音的“云识别计算”概念，通过对海量样本人群的声音样本研究，利用云端服务器群的高存储容量，高处理速度，对云客户端提供语音识别服务。然而，即使是这种比较先进的声音云识别技术也无法克服不同的人、不同的语调、不同的音品音色、不同的语言习惯等因素的制约，也就是说，现有技术还不存在一种普遍适用的、识别精度高的、使用代价低的声音识别技术方案，尤其是无法克服自由移动的、用户群纷繁复杂的手机、平板电脑等的高精度、低代价的声音识别。

发明内容

鉴于以上内容，有必要提供一种实现语音智能索引的数据处理设备，以根据数据处理设备用户自身的声音特点进行特定化识别，进而保证声音识别的精确性，同时，实现声音与数字化的字、词、句之间的精确转换联系，保证从声音到索引结果呈现的自动性、精确性。

此外，还有必要提供一种实现语音智能索引的方法，以根据数据处理设备用户自身的声音特点进行特定化识别，进而保证声音识别的精确性，同时，实现声音与数字化的字、词、句之间的精确转换联系，保证从声音到索引结果呈现的自动性、精确性。

此外，还有必要提供一种实现语音智能索引的系统，以根据数据处理设备用户自身的声音特点进行特定化识别，进而保证声音识别的精确性，同时，实现声音与数字化的字、词、句之间的精确转换联系，保证从声音到索引结果呈现的自动性、精确性。

一种实现语音智能索引的数据处理设备，该数据处理设备包括声音接收单元、输入/输出单元、存储单元、处理单元。该声音接收单元用于侦测和接收从一个或多个音源传来的声音。该输入/输出单元用于提供人机交互界面，以供用户输入指令，且输出显示数据处理设备对用户指令的响应数据。该存储单元用于存储声音识别索引系统，及该声音识别索引系统的运行数据。该处理单元用于调用并执行该声音识别索引系统，以执行以下步骤：A、生成并储存声音匹配模型；B、控制声音接收单元侦测并接收指令声音，生成指令声音声学特征的观察值序列；C、在存储的声音匹配模型中，对观察值序列进行比对；D、找出与观察值序列最大相似度的声音匹配模型，根据找出的声音匹配模型确定观察值序列对应的字、词或句；E、根据确定的字、词或句进行本机检索或者网络检索，并将检索结果通过输入/输出单元进行显示。

一种实现语音智能索引的方法，适用于数据处理设备，该数据处理设备提供声音接收单元、输入/输出单元、存储单元、处理单元。该方法包括步骤：i1、生成并储存声音匹配模型；i2、控制声音接收单元侦测并接收指令声音，生成指令声音声学特征的观察值序列；i3、在存储的声音匹配模型中，对观察值序列进行比对；i4、找出与观察值序列最大相似度的声音匹配模型，根据找出的声音匹配模型确定观察值序列对应的字、词或句；i5、根据确定的字、词或句进行本机检索或者网络检索，并将检索结果通过输入/输出单元进行显示。

一种实现语音智能索引的系统，运行于数据处理设备，该数据处理设备提供声音接收单元、输入/输出单元、存储单元、处理单元。该系统包括：声音匹配数据库；声音识别模块，用于生成声音匹配模型，并将生成的声音匹配模型存储进声音匹配数据库，控制声音接收单元侦测并接收指令声音，生成指令声音声学特征的观察值序列，在声音匹配数据库存储的声音匹配模型中，对观察值序列进行比对以找出与观察值序列最大相似度的声音匹配模型，根据找出的声音匹配模型确定观察值序列对应的字、词或句；目标索引模块，用于根据确定的字、词或句进行本机检索或者网络检索，并将检索结果通过输入/输出单元进行显示。

相较现有技术，本发明根据数据处理设备用户自身的声音特点预先制定声音识别模型，并在声音识别模型和数字化的字、词、句之间建立映射联系，保证了声音识别的精确性，同时，实现了声音与数字化的字、词、句之间的精确转换联系，保证了从声音到索引结果呈现的自动性、精确性。

附图说明

图1为本发明声音识别索引系统较佳实施例的运行环境图。

图2为图1中声音识别索引系统101的功能模块图。

图3为图1中声音识别模块1010的子功能模块例图。

图4为本发明声音识别索引方法较佳实施例的具体实施流程图。

图5为图4中步骤S10的细化流程图。

图6为图4中步骤S10的字、词或句设置示例图。

图7为图4中步骤S10的练习参数设置示例图。

具体实施方式

如图1所示，为本发明声音识别索引系统较佳实施例的运行环境图。该声音识别索引系统101运行于数据处理设备10中。所述数据处理设备10可以是手机、平板电脑、个人数字助理（Personal Digital Assistant，PDA）或其他任意适用的数据处理设备。所述数据处理设备10包括声音接收单元105，输入/输出单元104，存储单元103，及处理单元102。

该声音接收单元105，用于侦测和接收从一个或多个音源传来的声音。

该输入/输出单元104，用于提供人机交互界面，以供用户输入指令，且输出显示数据处理设备10对用户指令的响应数据。该输入/输出单元105包括输入单元和输出单元。在本实施例中，所述输入单元为触控输入单元，用于在所述人机交互界面的触控感应区的触控式输入；所述输出单元为带触控面板的输出显示单元。在本发明的其他实施例中，所述输入单元可以为其他类型的输入部件（例如，键盘），所述输出单元可以为其他类型的输出部件（例如，不带触控面板的液晶输出显示屏）。

该存储单元103，用于存储该声音识别索引系统101，及该声音识别索引系统101的运行数据。

该处理单元102，用于调用并执行该声音识别索引系统101，以实现对数据处理设备10周边可感测声音的识别与字、词、句转化，并进而实现目标对象的索引。

如图2所示，为图1中声音识别索引系统101的功能模块图。该声音识别索引系统101包括声音识别模块1010，声音匹配数据库1012，目标索引模块1011及语义关联数据库1013。

该声音识别模块1010，用于生成声音匹配模型，并将生成的声音匹配模型存储进声音匹配数据库1012。

在本发明的第一个实施例中，该声音识别模块1010生成声音匹配模型的步骤包括：A、设置需匹配的字、词或句；B、控制声音接收单元105侦测并接收设置的字、词或句对应的声音；C、将接收的声音的声学特征反应到声学模型的参数上，以生成与设置的字、词或句映射的声音匹配模型。该步骤A的实现方式有多种，例如，一种方式是：提供一个参数设置界面1006，以设置需匹配的字、词或句（如图6例图所示，参数设置界面1006包括需匹配的字、词或句设置选项1007）。该步骤C的实现方式有多种，例如，一种方式是：声学模型设为隐式马尔科夫模型（HMM）；将接收的声音划分成由固定范围毫秒（例如：10—20 msec）组成的帧；倒频谱运算逐帧数据，以生成倒频谱的时间序列；将生成的倒频谱时间序列反应到HMM模型的参数上，以生成与设置的字、词或句映射的声音匹配模型。

在本发明的第二个实施例中，该声音识别模块1010生成声音匹配模型的步骤包括：a、设置练习次数，及练习的字、词或句；b、控制声音接收单元105侦测并接收练习的字、词或句对应的练习声音；c、将接收的练习声音的声学特征反应到声学模型的参数上，以生成与练习的字、词或句映射的声音练习模型；d、重复步骤b和c，直到练习次数达到设置的练习次数；e、拟合生成的声音练习模型，以获得与练习的字、词或句映射的声音匹配模型。该步骤a的实现方式有多种，例如，一种方式是：提供一个练习参数设置界面，以设置练习次数，及练习的字、词或句（如图7例图所示，练习参数设置界面1003包括练习次数设置选项1004及练习的字、词或句设置选项1005）。该步骤c的实现方式有多种，例如，一种方式是：声学模型设为隐式马尔科夫模型（HMM）；将接收的练习声音划分成由固定范围毫秒（例如：10—20 msec）组成的帧；倒频谱运算逐帧数据，以生成倒频谱的时间序列；将生成的倒频谱时间序列反应到HMM模型的参数上，以生成与练习的字、词或句映射的声音练习模型。该步骤e的实现方式有多种，例如，一种方式是：拟合方法设为曲线拟合法，将同一个特征参数的多个参考值取平均，最大和最小的参考值作为偏差。

上述第一个实施例和第二个实施例是非穷举性的，本领域技术人员当知，参照所述两个实施例能轻易想到的任何其他实施例都属于支持本技术方案的实施例。

该声音识别模块1010，还用于控制声音接收单元105侦测并接收指令声音，生成指令声音声学特征的观察值序列，在声音匹配数据库1012存储的声音匹配模型中，对观察值序列进行比对以找出与观察值序列最大相似度的声音匹配模型，根据找出的声音匹配模型确定观察值序列对应的字、词或句。在采用HMM模型时，所述观察值序列是倒频谱的时间序列。

该目标索引模块1011，用于根据确定的字、词或句进行本机检索或者网络检索，并将检索结果通过输入/输出单元104进行显示。在本实施例中，该语义关联数据库1013预先存储有字、词的关联组，例如，相同语义、相近语义的字、词组成的关联组；该目标索引模块1011首先根据确定的字、词在该语义关联数据库1013找出关联组，根据找出的关联组进行本机检索或者网络检索，若该语义关联数据库1013未找出关联组，则仅根据确定的字、词进行本机检索或者网络检索；该目标索引模块1011首先对确定的句进行字、词切分，然后根据切分的字、词在该语义关联数据库1013找出关联组，根据找出的关联组进行本机检索或者网络检索，若该语义关联数据库1013未找出关联组，则仅根据切分的字、词进行本机检索或者网络检索，现有技术存在多种对整句进行字、词切分的技术，在此，不做赘述。在本发明的其他实施例中，该语义关联数据库1013是非必要的技术特征，该目标索引模块1011仅根据确定的字、词或句进行本机检索或者网络检索。

图3为图1中声音识别模块1010的子功能模块图。该子功能模块图适用于上述第一个实施例和第二个实施例中的HMM模型。该声音识别模块1010包括参数设置子模块1017，逐帧分割子模块1014，倒频谱运算子模块1015，声音匹配子模块1016。

该参数设置子模块1017，用于设置声音识别参数，包括需匹配的字、词或句。在上述第一个实施例中，该参数设置子模块1017提供一个参数设置界面（如图6所示的参数设置界面1006），用于设置需匹配的字、词或句。在上述第二个实施例中，该参数设置子模块1017提供一个练习参数设置界面（如图7所示的练习参数设置界面1003）。

该逐帧分割子模块1014，用于控制声音接收单元105侦测并接收练习的字、词或句对应的练习声音，将接收的声音划分成由固定范围毫秒（例如：10—20 msec）组成的帧。

该倒频谱运算子模块1015，用于倒频谱运算逐帧数据以生成倒频谱的时间序列。

在上述第一个实施例中，该声音匹配子模块1016，用于将生成的倒频谱时间序列反应到HMM模型的参数上，以生成与需匹配的字、词或句映射的声音匹配模型。

在上述第二个实施例中，该声音匹配子模块1016，用于将生成的倒频谱时间序列反应到HMM模型的参数上，以生成与需匹配的字、词或句映射的声音练习模型，判断练习次数是否达到设定值，在练习次数达到设定值时，对生成的所有声音练习模型进行拟合以生成与需匹配的字、词或句映射的声音匹配模型，及判断是否重新设定声音识别参数。

该声音匹配子模块1016，还用于在声音匹配数据库1012存储的声音匹配模型中，对观察值序列进行比对以找出与观察值序列最大相似度的声音匹配模型，根据找出的声音匹配模型确定观察值序列对应的字、词或句。

如图4所示，为本发明声音识别索引方法较佳实施例的具体实施流程图。该方法适用于数据处理设备10。

以下是结合本实施例逐步实现声音识别，及数据处理设备10的本机检索或者网络检索。

步骤S10，该声音识别模块1010生成声音匹配模型，并将生成的声音匹配模型存储进声音匹配数据库1012。

在本发明的第一个实施例中，该声音识别模块1010生成声音匹配模型的步骤包括：A、设置需匹配的字、词或句；B、控制声音接收单元105侦测并接收设置的字、词或句对应的声音；C、将接收的声音的声学特征反应到声学模型的参数上，以生成与设置的字、词或句映射的声音匹配模型。

在本发明的第二个实施例中，该声音识别模块1010生成声音匹配模型的步骤包括：a、设置练习次数，及练习的字、词或句；b、控制声音接收单元105侦测并接收练习的字、词或句对应的练习声音；c、将接收的练习声音的声学特征反应到声学模型的参数上，以生成与练习的字、词或句映射的声音练习模型；d、重复步骤b和c，直到练习次数达到设置的练习次数；e、拟合生成的声音练习模型，以获得与练习的字、词或句映射的声音匹配模型。

步骤S11，该声音识别模块1010控制声音接收单元105侦测并接收指令声音，生成指令声音声学特征的观察值序列。

步骤S12，该声音识别模块1010在声音匹配数据库1012存储的声音匹配模型中，对观察值序列进行比对。

步骤S13，该声音识别模块1010找出与观察值序列最大相似度的声音匹配模型，根据找出的声音匹配模型确定观察值序列对应的字、词或句。在采用HMM模型时，所述观察值序列是倒频谱的时间序列。

步骤S14，该目标索引模块1011根据确定的字、词或句进行本机检索或者网络检索，并将检索结果通过输入/输出单元104进行显示。

如图5所示，为图4中步骤S10的细化流程图。该细化流程图适用于上述第二个实施例。

步骤S20，该参数设置子模块1017设置声音识别参数，包括练习次数，及练习的字、词或句。如图7所示的练习参数设置界面1003。

步骤S21，该逐帧分割子模块1014控制声音接收单元105侦测并接收练习的字、词或句对应的练习声音。

步骤S22，该逐帧分割子模块1014将接收的声音划分成由固定范围毫秒（例如：10—20 msec）组成的帧。该倒频谱运算子模块1015倒频谱运算逐帧数据以生成倒频谱的时间序列。

步骤S23，该声音匹配子模块1016生成的倒频谱时间序列反应到HMM模型的参数上，以生成与练习的字、词或句映射的声音练习模型。

步骤S24，该声音匹配子模块1016判断练习次数是否达到设定值。

在练习次数未达到设定值时，返回执行上述步骤S21，或者，在练习次数达到设定值时，转入执行下述步骤S25。

步骤S25，该声音匹配子模块1016对生成的所有声音练习模型进行拟合以生成与练习的字、词或句映射的声音匹配模型。

步骤S25，该声音匹配子模块1016判断是否重新设定声音识别参数。

在需要重新设定声音识别参数时，返回执行上述步骤S20，或者，在不需要重新设定声音识别参数时，流程结束。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种实现语音智能索引的数据处理设备，其特征在于，该数据处理设备包括：

声音接收单元，用于侦测和接收从一个或多个音源传来的声音；

输入/输出单元，用于提供人机交互界面，以供用户输入指令，且输出显示数据处理设备对用户指令的响应数据；

存储单元，用于存储声音识别索引系统，及该声音识别索引系统的运行数据；

处理单元，用于调用并执行该声音识别索引系统，以执行以下步骤：

A、生成并储存声音匹配模型；

B、控制声音接收单元侦测并接收指令声音，生成指令声音声学特征的观察值序列；

C、在存储的声音匹配模型中，对观察值序列进行比对；

D、找出与观察值序列最大相似度的声音匹配模型，根据找出的声音匹配模型确定观察值序列对应的字、词或句；

E、根据确定的字、词或句进行本机检索或者网络检索，并将检索结果通过输入/输出单元进行显示。

2.如权利要求1所述实现语音智能索引的数据处理设备，其特征在于，所述步骤A包括：

A1、设置声音识别参数，包括需匹配的字、词或句；

A2、控制声音接收单元侦测并接收设置的字、词或句对应的声音；

A3、将接收的声音的声学特征反应到声学模型的参数上，以生成与设置的字、词或句映射的声音匹配模型。

3.如权利要求1所述实现语音智能索引的数据处理设备，其特征在于，所述步骤A包括：

a1、设置声音识别参数，包括练习次数，及练习的字、词或句；

a2、控制声音接收单元侦测并接收练习的字、词或句对应的练习声音；

a3、将接收的练习声音的声学特征反应到声学模型的参数上，以生成与练习的字、词或句映射的声音练习模型；

a4、重复步骤a2和a3，直到练习次数达到设置的练习次数；

a5、拟合生成的声音练习模型，以获得与练习的字、词或句映射的声音匹配模型；

a6、分析是否重新设置声音识别参数；

a7、在重新设置声音识别参数时，重复执行上述步骤a1至步骤a6。

4.如权利要求2或3所述实现语音智能索引的数据处理设备，其特征在于，所述声学模型为隐式马尔科夫模型。

5.如权利要求3所述实现语音智能索引的数据处理设备，其特征在于，所述步骤A3包括：

A31、将接收的声音划分成由固定范围毫秒组成的帧；

A32、倒频谱运算逐帧数据，以生成倒频谱的时间序列；

A33、将生成的倒频谱时间序列反应到声学模型的参数上，以生成与设置的字、词或句映射的声音匹配模型。

6.权利要求3所述实现语音智能索引的数据处理设备，其特征在于，所述步骤a3包括：

a31、将接收的练习声音划分成由固定范围毫秒组成的帧；

a32、倒频谱运算逐帧数据，以生成倒频谱的时间序列；

a33、将生成的倒频谱时间序列反应到声学模型的参数上，以生成与练习的字、词或句映射的声音练习模型。

7.一种实现语音智能索引的方法，适用于数据处理设备，该数据处理设备提供声音接收单元、输入/输出单元、存储单元、处理单元，其特征在于，该方法包括步骤：

i1、生成并储存声音匹配模型；

i2、控制声音接收单元侦测并接收指令声音，生成指令声音声学特征的观察值序列；

i3、在存储的声音匹配模型中，对观察值序列进行比对；

i4、找出与观察值序列最大相似度的声音匹配模型，根据找出的声音匹配模型确定观察值序列对应的字、词或句；

i5、根据确定的字、词或句进行本机检索或者网络检索，并将检索结果通过输入/输出单元进行显示。

8.如权利要求7所述实现语音智能索引的方法，其特征在于，所述步骤i1包括：

i11、设置声音识别参数，包括需匹配的字、词或句；

i12、控制声音接收单元侦测并接收设置的字、词或句对应的声音；

i13、将接收的声音的声学特征反应到声学模型的参数上，以生成与设置的字、词或句映射的声音匹配模型。

9.如权利要求7所述实现语音智能索引的方法，其特征在于，所述步骤i1包括：

i21、设置声音识别参数，包括练习次数，及练习的字、词或句；

i22、控制声音接收单元侦测并接收练习的字、词或句对应的练习声音；

i23、将接收的练习声音的声学特征反应到声学模型的参数上，以生成与练习的字、词或句映射的声音练习模型；

i24、重复步骤i22和i23，直到练习次数达到设置的练习次数；

i25、拟合生成的声音练习模型，以获得与练习的字、词或句映射的声音匹配模型；

i26、分析是否重新设置声音识别参数；

i27、在重新设置声音识别参数时，重复执行上述步骤i21至步骤i26。

10.如权利要求8或9所述实现语音智能索引的方法，其特征在于，所述声学模型为隐式马尔科夫模型。

11.如权利要求10所述实现语音智能索引的方法，其特征在于，所述步骤i13包括：

i131、将接收的声音划分成由固定范围毫秒组成的帧；

i132、倒频谱运算逐帧数据，以生成倒频谱的时间序列；

i133、将生成的倒频谱时间序列反应到声学模型的参数上，以生成与设置的字、词或句映射的声音匹配模型。

12.如权利要求10所述实现语音智能索引的方法，其特征在于，所述步骤i23包括：

i231、将接收的练习声音划分成由固定范围毫秒组成的帧；

i232、倒频谱运算逐帧数据，以生成倒频谱的时间序列；

i233、将生成的倒频谱时间序列反应到声学模型的参数上，以生成与练习的字、词或句映射的声音练习模型。

13.种实现语音智能索引的系统，运行于数据处理设备，该数据处理设备提供声音接收单元、输入/输出单元、存储单元、处理单元，特征在于，该系统包括：

声音匹配数据库；

声音识别模块，用于生成声音匹配模型，并将生成的声音匹配模型存储进声音匹配数据库，控制声音接收单元侦测并接收指令声音，生成指令声音声学特征的观察值序列，在声音匹配数据库存储的声音匹配模型中，对观察值序列进行比对以找出与观察值序列最大相似度的声音匹配模型，根据找出的声音匹配模型确定观察值序列对应的字、词或句；

目标索引模块，用于根据确定的字、词或句进行本机检索或者网络检索，并将检索结果通过输入/输出单元进行显示。

14.如权利要求13所述实现语音智能索引的系统，其特征在于，所述声音识别模块生成声音匹配模型的步骤包括：

设置声音识别参数，包括需匹配的字、词或句；

控制声音接收单元侦测并接收设置的字、词或句对应的声音；

将接收的声音的声学特征反应到声学模型的参数上，以生成与设置的字、词或句映射的声音匹配模型。

15.如权利要求13所述实现语音智能索引的系统，其特征在于，所述声音识别模块生成声音匹配模型的步骤包括：

H1、设置声音识别参数，包括练习次数，及练习的字、词或句；

H2、控制声音接收单元侦测并接收练习的字、词或句对应的练习声音；

H3、将接收的练习声音的声学特征反应到声学模型的参数上，以生成与练习的字、词或句映射的声音练习模型；

H4、重复步骤H2和H3，直到练习次数达到设置的练习次数；

H5、拟合生成的声音练习模型，以获得与练习的字、词或句映射的声音匹配模型；

H6、分析是否重新设置声音识别参数；

H7、在重新设置声音识别参数时，重复执行上述步骤i21至步骤i26。