CN101887720A

CN101887720A - 声讯语义辨识系统及方法

Info

Publication number: CN101887720A
Application number: CN2009103022764A
Authority: CN
Inventors: 李后贤; 李章荣; 罗治平
Original assignee: Hongfujin Precision Industry Shenzhen Co Ltd; Hon Hai Precision Industry Co Ltd
Current assignee: Hongfujin Precision Industry Shenzhen Co Ltd; Hon Hai Precision Industry Co Ltd
Priority date: 2009-05-13
Filing date: 2009-05-13
Publication date: 2010-11-17
Also published as: US20100292988A1

Abstract

一种声讯语义辨识系统，包括一声讯取样单元，用于采集若干具有相同语义的声音信号；一频谱转换单元，用于将每一声音信号转换为频谱图像；一频谱修正单元，用于修正每一频谱图像以获得若干具有相同宽度的频谱图像作为所述训练对象；一样本训练单元，用于对训练对象进行分析以得到所述声音信号的特征数据；一语义链接单元，用于对所述特征数据赋予语义；一存储单元，用于存储所述声音信号的特征数据及其语义；以及一比较辨识单元，用于根据存储单元中的特征数据辨识一后续出现的声讯指令的语义。本发明还提供一种声讯语义辨识方法，所述声讯语义辨识系统及方法可准确辨识声讯指令的语义。

Description

声讯语义辨识系统及方法

技术领域

本发明涉及一种声讯语义辨识系统及方法。

背景技术

目前，声讯控制技术可应用于各种电子设备中，以通过对电子设备下达声音指令，从而自动控制电子设备的动作，这些电子设备包括但不限于机器人、电动玩具、手机、家电装置等。声讯控制过程中，常常出现受控的电子设备不能准确判断声讯指令所代表的含义而执行错误的动作，因此，如何能够提供一种能够准确辨识声讯指令的语义的声讯语义辨识技术，成为业界较为关注的问题。

发明内容

鉴于以上内容，有必要提供一种声讯语义辨识系统及方法，可准确辨识声讯指令所代表的含义。

一种声讯语义辨识系统，包括：

一声讯取样单元，用于采集若干具有相同语义的声音信号；

一频谱转换单元，用于将每一声音信号转换为频谱图像；

一频谱修正单元，用于对每一频谱图像进行修正以得到若干具有相同宽度的频谱图像作为训练对象；

一样本训练单元，用于对所述训练对象进行分析以得到所述声音信号的特征数据；

一语义链接单元，用于对所述特征数据赋予语义；

一存储单元，用于存储所述特征数据及其对应的语义；及

一辨识比较单元，用于根据所述存储单元中的特征数据判断后续出现的声讯指令的语义。

一种声讯语义辨识方法，包括以下步骤：

一声讯取样单元采集若干声音信号；

一频谱转换单元将每一声音信号转换为频谱图像；

一频谱修正单元修正每一频谱图像以获得若干具有相同宽度的频谱图像作为训练对象；

一样本训练单元对训练对象进行分析以得到所述声音信号的特征数据；

一语义链接单元对所述特征数据赋予语义；

一存储单元存储所述声音信号的特征数据及其语义；以及

一比较辨识单元根据存储单元中的特征数据辨识一后续出现的声讯指令的语义。

所述声讯语义辨识系统及方法通过所述频谱转换单元将声音信号转换为频谱图像，该频谱图像经修正、分析、语义链接后产生具有语义的特征数据，供后续的声讯指令进行比较，可准确判断声讯指令的语义。

附图说明

图1是本发明声讯语义辨识系统较佳实施方式的模块图。

图2为由图1中的频谱转换单元及频谱修正单元所得到的声讯频谱图。

图3是本发明声讯语义辨识方法较佳实施方式的流程图。

具体实施方式

下面结合附图及较佳实施方式对本发明作进一步详细描述：

请参照图1，本发明声讯语义辨识系统1的较佳实施方式包括一声讯取样单元10、一频谱转换单元11、一频谱修正单元12、一样本训练单元13、一语义链接单元14、一存储单元15及一比较辨识单元16。

所述声讯取样单元10用于对一发声源所发出的若干声音信号进行采样，所述若干声音信号为人或物体重复发出的、语义相同且长度接近的声音，其包含但不限于人声、音乐声、敲击声等。

请继续参考图2，所述频谱转换单元11用于通过对所述若干声音信号进行频谱分析以将所述声讯取样单元10所获得的每一声音信号转换为频谱图像20。图2中以三个重复发出的声音信号“向左转”为例，得到三个频谱图像20，由图2可知，每一声音信号“向左转”的频谱图像20的形状之间略有差异，造成该现象的原因是由于发声源在多次发声时不会产生完全相同的声音信号。

所述频谱修正单元12通过对所述频谱转换单元11所得到的每一频谱图像20的起始位置A及结束位置B进行标示后，再将每一频谱图像20进行缩放修正以得到若干具有相同宽度的频谱图像，以方便对所述声音信号进行后续的分析。

所述样本训练单元13将若干修正后的具有相同宽度的频谱图像作为训练对象30，通过对所述若干训练对象30进行分析以得到具有该语义的声音信号的特征数据，例如，所述样本训练单元13可对一定数量的训练对象30进行叠加统计后得到一特征数据，该特征数据可包括若干概率数据，每一概率数据表示具有该语义的声音信号的若干训练对象30出现在一图像区域中的概率，如，将所述训练对象30所在的图像范围(图2中，所述图像范围为所述训练对象30所在的实线框部分)划分为若干区域，所述训练对象30出现在每一区域中的概率即为一概率数据。所述特征数据作为代表具有该语义的声音信号的特征数据，以与后续出现的声讯指令的频谱图像进行比较；所述特征数据也可为其他类型的数据。按照上述的方法，所述样本训练单元13可得到若干具有不同语义的声音信号的特征数据。

所述语义链接单元14用于将所述特征数据与对应的声音信号所代表的语义进行链接，即，对所述特征数据赋予语义。

所述存储单元15用于存储若干具有不同语义的声音信号的特征数据及其对应的语义。

当所述声讯取样单元10后续采集到一声讯指令时，所述声讯指令经所述频谱转换单元11转换为频谱图像，再经所述频谱修正单元12修正为与所述训练对象30相同的宽度，该声讯指令经过修正后的频谱图像传输至所述比较辨识单元16；所述比较辨识单元16用于在所述存储单元15中寻找一与所述声讯指令最接近的声音信号的特征数据，并将该最接近的声音信号的特征数据与所述声讯指令经过修正后的频谱图像进行比较，以判断所述声讯指令是否与所述存储单元15中的该特征数据所对应的声音信号相同，当判断出所述声讯指令与所述存储单元15中的声音信号相同时，所述声讯语义辨识系统1便可确定所述声讯指令的语义。

本实施方式中，判断所述声讯指令经过修正后的频谱图像是否与该特征数据相符合的条件可由用户自行设定，例如，可设定当所述修正后的频谱图像与该特征数据相符合的程度达到90％以上时，便判定所述声讯指令和与该特征数据所对应的声音信号相同。

请继续参照图3，本发明声讯语义辨识方法的较佳实施方式应用于图1中的声讯语义辨识系统1，所述声讯语义辨识方法包括以下步骤：

步骤S1：所述声讯取样单元10对若干声音信号进行采样，所述若干声音信号为人或物体重复发出的、语义相同且长度接近的声音。

步骤S2：所述频谱转换单元11通过对若干声音信号进行频谱分析以将所述声讯取样单元10所获得的若干声音信号转换为若干频谱图像20。

步骤S3：所述频谱修正单元12获得若干具有相同宽度的所述声音信号的训练对象30。本实施方式中，所述频谱修正单元12通过对所述频谱转换单元11所得到的每一频谱图像20的起始位置A及结束位置B进行标示后，再将每一频谱图像20进行缩放修正以得到若干具有相同宽度的频谱图像作为所述训练对象30。

步骤S4：所述样本训练单元13对若干训练对象30进行分析以得到所述若干声音信号的特征数据。如，所述样本训练单元13对一定数量的训练对象30进行概率统计后即可得到所述声音信号的特征数据。

步骤S5：所述语义链接单元14将所述声音信号的特征数据与所述声音信号所代表的语义进行链接，即对所述特征数据赋予语义。

步骤S6：所述存储单元15存储所述声音信号的特征数据及其所对应的语义。按照上述方法对其它声音信号进行采样，即可得到若干具有不同语义的特征数据，所述若干具有不同语义的特征数据均被存储于所述存储单元15内。

步骤S7：所述比较辨识单元16根据所述存储单元14存储的特征数据辨识一后续出现的声讯指令的语义。本实施方式中，所述比较辨识单元16在所述存储单元15中寻找一与所述声讯指令最接近的声音信号的特征数据，用来与所述声讯指令修正后的频谱图像进行比较，以判断所述声讯指令是否与所述存储单元15中的一特征数据所对应的声音信号相同，如果所述声讯指令修正后的频谱图像与该特征数据达到相符合的条件时，如，所述声讯指令修正后的频谱图像与该特征数据相符台的程度满足一设定值时，所述声讯语义辨识系统1便可确定所述声讯指令的含义。所述声讯指令的语义便可确定为该特征数据所链接的语义。所述设定值可由用户自行设定，如90％或80％。

所述声讯语义辨识系统及方法可通过所述频谱转换单元11将声音信号转换为频谱图像20，该频谱图像经所述频谱修正单元12的修正、所述样本训练单元13的分析计算及所述语义链接单元14进行语义链接后产生所述特征数据，以与后续的声讯指令的频谱图像进行比较，可准确判断所述声讯指令的语义。

Claims

1.一种声讯语义辨识系统，包括：

一声讯取样单元，用于采集若干具有相同语义的声音信号；

一频谱转换单元，用于将每一声音信号转换为频谱图像；

一语义链接单元，用于对所述特征数据赋予语义；

一存储单元，用于存储所述特征数据及其对应的语义；及

2.如权利要求1所述的声讯语义辨识系统，其特征在于：所述若干声音信号为若干重复发出的长度接近的声音。

3.如权利要求1所述的声讯语义辨识系统，其特征在于：所述频谱修正单元通过将每一频谱图像的起始位置以及结束位置进行标示后进行比例缩放，以得到对应的训练对象。

4.如权利要求1所述的声讯语义辨识系统，其特征在于：所述特征数据包括若干概率数据，每一概率数据用以表示所述若干训练对象出现在一图像范围中一对应区域中的概率。

5.一种声讯语义辨识方法，包括以下步骤：

一声讯取样单元采集若干具有相同语义的声音信号；

一频谱转换单元将每一声音信号转换为频谱图像；

一语义链接单元对所述特征数据赋予语义；

一存储单元存储所述声音信号的特征数据及其语义；以及

6.如权利要求5所述的声讯语义辨识方法，其特征在于：所述声讯语义辨识方法还包括以下步骤：

所述声讯取样单元采集所述声讯指令；

所述频谱转换单元将所述声讯指令转换为频谱图像；

所述频谱修正单元修正声讯指令的频谱图像；

所述比较辨识单元接收所述声讯指令修正后的的频谱图像；

所述比较辨识单元在所述存储单元中寻找一与所述声讯指令最接近的声音信号的特征数据，用来与所述声讯指令修正后的频谱图像进行比较，当比较出所述声讯指令修正后的频谱图像与该特征数据达到相符合的条件时，所述声讯指令的语义确定为该特征数据所对应的语义。