CN108231063A

CN108231063A - 一种语音控制指令的识别方法及装置

Info

Publication number: CN108231063A
Application number: CN201611144824.1A
Authority: CN
Inventors: 金杰敏
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Co Ltd
Priority date: 2016-12-13
Filing date: 2016-12-13
Publication date: 2018-06-29

Abstract

本发明涉及语音控制技术领域，特别涉及一种语音控制指令的识别方法及装置。该方法为：获取接收到的语音控制指令的发音和语调特点，并基于上述发音和语调特点，将该语音特征参数与预先存储的语音样本对应的样本语音特征参数进行匹配，并在判定该语音特征参数与任意一个样本语音特征参数匹配成功时，确定上述任意一个样本语音特征参数对应的语音样本表征的控制指令，并执行上述控制指令。采用上述方法，根据语音控制指令的发音和语调特点，与预先存储的全国区域内各地区的不同地方方言对应的语音样本的样本语音特征参数的发音和语调特点进行匹配，这样，就可以正确识别出不同地方的方言，从而提升了用户体验。

Description

一种语音控制指令的识别方法及装置

技术领域

本发明涉及语音控制技术领域，特别涉及一种语音控制指令的识别方法及装置。

背景技术

随着科学技术的不断发展，语音识别技术的不断进步，越来越多的智能设备可通过语音控制来完成相应的控制操作，这样，在使用智能设备时，通过语音控制智能设备完成相应的控制操作，提高了用户使用智能设备的方便性、安全性以及娱乐性。

现有技术中，通常采用以下语音控制指令的识别方法来完成用户针对智能设备的语音控制操作：

智能设备在接收到用户发出的语音控制指令时，基于接收到的语音控制指令，以及预先设置的各语音控制指令与各控制操作代码之间的映射关系，确定与接收到的语音控制指令相对应的控制操作代码，并基于上述已确定的控制操作代码完成相应的控制操作。

然而，采用上述语音控制指令的识别方法，只针对普通话的识别率较高，而针对不同地域的不同地方方言的识别率较低，甚至不能识别。这样，就限制了用户使用的语言种类，对于年龄较大，不会普通话甚至听不懂普通话的老人，就不能很好的通过语音来控制智能设备，那么，就给老人带来极大的不便。

综上所述，需要设计一种新的语音控制指令的识别方法来弥补现有技术中存在的缺陷和不足之处。

发明内容

本发明实施例提供一种语音控制指令的识别方法及装置，用以解决现有技术中存在的针对地方方言的识别率较低，甚至不能识别的问题。

本发明实施例提供的具体技术方案如下：

一种语音控制指令的识别方法，包括：

对接收的语音控制指令进行解析，获取所述语音控制指令的语音特征参数，其中，所述语音特征参数表征所述语音控制指令的发音和语调特点；

将所述语音特征参数与预先存储的语音样本对应的样本语音特征参数进行匹配；

在判定所述语音特征参数与任意一个样本语音特征参数匹配成功时，确定所述任意一个样本语音特征参数对应的语音样本表征的的控制指令，并执行所述控制指令。

可选的，在对接收的语音控制指令进行解析之前，还包括：

在采集各地区的语音样本时，分别获取每一个语音样本对应的样本语音特征参数，其中，所述样本语音特征参数表征所述语音样本的发音和语调特点；

将获取到的每一个语音样本对应的样本语音特征参数进行分类处理，并针对每一类样本语音特征参数设置相应的优先级顺序；

将采集到的每一个语音样本对应的样本语音特征参数存储在指定位置。

可选的，将获取到的每一个语音样本对应的样本语音特征参数进行分类处理，包括：

采用最邻近结点算法KNN对获取到的每一个语音样本对应的样本语音特征参数进行分类处理。

可选的，针对每一类样本语音特征参数设置相应的优先级顺序，包括：

将用户在应用程序中使用频率达到设定门限的语言对应的语音样本的样本语音特征参数，设置为第一优先级的样本语音特征参数类；

将用户当前所在地域的语言对应的语音样本的样本语音特征参数，设置为第二优先级的样本语音特征参数类；

将普通话对应的语音样本的样本语音特征参数，设置为第三优先级的样本语音特征参数类；

将其他语言对应的语音样本的样本语音特征参数，设置为第四优先级的样本语音特征参数类。

可选的，将所述语音特征参数与预先存储的语音样本对应的样本语音特征参数进行匹配，包括：

将所述语音特征参数按照预先设置的相应的优先级顺序与预先存储的语音样本对应的样本语音特征参数进行匹配；

直至所述语音特征参数与任意一个预先存储的语音样本对应的样本语音特征参数匹配成功或与预先存储的每一个语音样本对应的样本语音特征参数匹配完为止。

一种语音控制指令的识别装置，包括：

获取单元，用于对接收的语音控制指令进行解析，获取所述语音控制指令的语音特征参数，其中，所述语音特征参数表征所述语音控制指令的发音和语调特点；

匹配单元，用于将所述语音特征参数与预先存储的语音样本对应的样本语音特征参数进行匹配；

确定单元，用于在判定所述语音特征参数与任意一个样本语音特征参数匹配成功时，确定所述任意一个样本语音特征参数对应的语音样本表征的的控制指令，并执行所述控制指令。

可选的，在对接收的语音控制指令进行解析之前，所述获取单元还用于：

可选的，在将获取到的每一个语音样本对应的样本语音特征参数进行分类处理时，所述获取单元用于：

可选的，在针对每一类样本语音特征参数设置相应的优先级顺序时，所述获取单元用于：

可选的，在将所述语音特征参数与预先存储的语音样本对应的样本语音特征参数进行匹配时，所述匹配单元用于：

本发明有益效果如下：

综上所述，本发明实施例中，在语音控制指令识别的过程中，获取接收到的语音控制指令的发音和语调特点，并基于上述发音和语调特点，将该语音特征参数与预先存储的语音样本对应的样本语音特征参数进行匹配，并在判定该语音特征参数与任意一个样本语音特征参数匹配成功时，确定上述任意一个样本语音特征参数对应的语音样本表征的的控制指令，并执行上述控制指令。

采用上述方法，将该语音控制指令与预先存储的语音样本对应的样本语音特征参数进行匹配时，实施按序匹配的策略，前三优先级的样本语音特征参数匹配成功的几率远远高于第四优先级的样本语音特征参数的成功几率，这样，就提高了匹配效率。进一步的，根据接收到的语音控制指令的发音和语调特点进行匹配，可以准确的识别出全国范围内不同地方方言，这样，就解决了由于老人不会说普通话而导致不能通过语音来控制智能终端的问题，从而提升了用户体验。

附图说明

图1为本发明实施例中，一种确定第一优先级的样本语音特征参数类对应的语言的示意图；

图2为本发明实施例中，一种语音控制指令的识别方法的详细流程图；

图3为本发明实施例中，一种语音控制指令的识别装置的结构示意图。

具体实施方式

为了解决现有技术中存在的针对地方方言的识别率较低，甚至不能识别的问题，本发明实施例中设计了一种语音控制指令的识别方法及装置。该方法为：获取接收到的语音控制指令的发音和语调特点，并基于上述发音和语调特点，将该语音特征参数与预先存储的语音样本对应的样本语音特征参数进行匹配，并在判定该语音特征参数与任意一个样本语音特征参数匹配成功时，确定上述任意一个样本语音特征参数对应的语音样本表征的的控制指令，并执行上述控制指令。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面将通过具体实施例对本发明的方案进行详细描述，当然，本发明并不限于以下实施例。

首先，在预处理阶段，智能终端会预先采集全国区域内各地区的语言对应的语音样本，并分别获取每一个语音样本对应的样本语音特征参数，其中，上述样本语音特征参数用于表征上述语音样本的发音和语调特点。

实际应用中，所谓上述语音样本的发音特点，指的是语音样本中每一个字的读音特点；所谓上述语音样本的语调特点，指的是语音样本中间高低、快慢、轻重、停顿的各种变化的特点。由于不同区域的不同方言都有自己独特的发音和语调特点，因此，就可以通过任意一个语音样本的发音和语调特点识别出与该任意一个语音的发音和语调特点相对应的语言类别。

例如，假设张某某说了一句“你中午吃什么？”，那么“你中午吃什么？”在普通话中的发音为“nǐzhōng wǔchīshén me？”，而在湖南话中的发音却为“nǐzōng wǔqīshīmo”，即同一句话在不同的地方方言中会有不同的发音特点。进一步的，“你中午吃什么？”在用普通话说出来时，在句子最后有一个升调的表现，以表示发问者的疑问、征求意见等，而用湖南话说出来时，并没有上述升调的表现，即同一句话在不同的地方方言中就会有不同的语调特点。

具体的，在预处理阶段，智能终端会预先采集全国区域内的各地区的语言对应的语音样本，并针对采集到的任意一种语音样本采用小波变换技术进行降噪处理，以及对处理后的语音样本进行自相关函数法基音周期提取上述任意一种语音样本对应的样本语音特征参数。

例如，假设智能终端采集到“四川话”对应的“语音样本1”时，针对采集到的与“四川话”对应的“语音样本1”进行降噪处理，并获取上述已进行降噪处理后的“语音样本1”对应的“样本语音2特征参数”。

又例如，假设智能终端采集到“普通话”对应的“语音样本2”时，针对采集到的与“普通话”对应的“语音样本2”进行降噪处理，并获取上述已进行降噪处理后的“语音样本2”对应的“样本语音2特征参数”。

其次，智能终端将获取到的每一个语音样本对应的样本语音特征参数对应的样本语音特征参数进行分类处理，并针对每一类样本语音特征参数设置相应的优先级顺序。

实际应用中，智能终端可以采用最邻近结点算法(k-Nearest Neighboralgorithm，KNN)对获取到的每一个语音样本对应的样本语音特征参数进行分类处理，得到全国区域内的各地区的语言对应的语音样本的样本语音特征参数类别，并针对上述每一类样本语音特征参数设置相应的优先级顺序，其中，智能终端接收到语音控制指令后，可以按照上述预先设置的相应的优先级顺序进行匹配。

具体的，智能终端针对每一类样本语音特征参数类别设置相应的优先级顺序时，可以采用但不限于按照以下步骤来完成设置：

步骤1、智能终端将用户在应用程序中使用频率达到设定门限的语言对应的语音样本的样本语音特征参数，设置为第一优先级的样本语音特征参数类。

具体的，智能终端确定用户社交网络圈中每一个人使用的语言，并根据用户与社交网络中每一个人的亲密度针对上述社交网络中每一个人使用的语言分别设置相应的权重值，其中，亲密度越高，权重值越大，智能终端将同一种语言的权重值相加得到每一种语言对应的总权重值，将总权重值最大的语言对应的语音样本的样本语音特征参数，设置为第一优先级的样本语音特征参数类。

例如，参阅图1所示，假设用户A的社交网络中，包括关系亲密的(如，家人、朋友等)M1(其中，M1使用的语言为I1，对应的权重值为n1)、M2(其中，M2使用的语言为I2，对应权重值为n2)、M3(其中，M3使用的语言为I1，对应权重值为n3)、和M4(其中，M4使用的语言为I3，对应权重值为n4)，通过M2认识的M21(其中，M21使用的语言为I2，对应权重值为n21)和M22(其中，M22使用的语言为I1，对应权重值为n22)，以及通过M3认识的M31(其中，M31使用的语言为I3，对应权重值为n31)，那么，就可以计算I1、I2和I3的总权重值，并将总权重值最大的语言对应的语音样本的样本特征参数设置为第一优先级的样本语音特征参数类，其中，n_最大＝{(n1+n3+n22)，(n2+n21)，(n4+n31)}。

步骤2、智能终端将用户当前所在地域的语言对应的语音样本的样本语音特征参数，设置为第二优先级的样本语音特征参数类。

实际应用中，智能终端可以通过全球定位系统(Global Positioning System，GPS)确定用户当前所在地域；智能终端还可以通过网际协议地址确定用户当前所在地域。

例如，假设智能终端1通过GPS系统确定用户1当前所在地域为“四川”，那么，智能终端就可以将“四川话”对应的语音样本的样本语音特征参数设置为第二优先级的样本语音特征参数类。

又例如，假设智能终端2通过网际协议地址确定用户2的当前所在地域为“安徽”，那么，智能终端2就可以将“安徽话”对应的语音样本的样本语音特征参数设置为第二优先级的样本语音特征参数类。

步骤3、智能终端将普通话对应的语音样本的样本语音特征参数，设置为第三优先级的样本语音特征参数类。

步骤4、智能终端将其他语言对应的语音样本的样本语音特征参数，设置为第四优先级的样本语音特征参数类。

例如，假设智能终端将“四川话”对应的语音样本的样本语音特征参数设置为第一优先级的样本语音特征参数类，将“安徽话”对应的语音样本的样本语音特征参数设置为第二优先级的样本语音特征参数类，将“普通话”对应的语音样本的样本语音特征参数设置为第三优先级的样本语音特征参数类后，智能终端将采集到的除“四川话”、“安徽话”和“普通话”之外的其他语言(如，“湖南话”、“广东话”等)对应的语音样本的样本语音特征参数设置为第四优先级的样本语音特征参数类，其中，第四优先级的样本语音特征参数类中的所有样本语音特征参数的优先级是一样的。

最后，智能终端将采集到的每一个语音样本对应的样本语音特征参数存储在指定位置。

实际应用中，智能终端可以将采集到的全国区域内的各地区的语言对应的语音样本的样本特征参数存储在终端本地的样本语音特征参数库。

参阅图2所示，本发明实施例中，一种语音控制指令的识别方法的详细流程如下：

步骤201：智能终端对接收的语音控制指令进行解析。

具体的，在执行步骤201时，智能终端在接收到用户发出的语音控制指令后，对上述语音控制指令进行降噪处理。

例如，智能终端1在接收到用户1发出的语音控制指令(如，“播放歌曲”)后，采用小波变换技术对“播放歌曲”语音指令进行降噪处理。

步骤202：智能终端获取上述语音控制指令的语音特征参数。

具体的，在执行步骤202时，智能在对接收到的语音控制指令进行降噪处理后，提取上述语音控制指令对应的语音特征参数，其中，上述语音特征可以表征上述语音控制指令的发音和语调特点，而语音控制指令的发音特点表述该语音控制指令中每一个字的读音特点，语音控制指令的语调特点表述该语音控制指令中间高低、快慢、轻重、停顿的各种变化特点。

进一步的，实际应用中，由于全国区域内各地区的方言都有自己独特的发音和语调特点，那么，就可以根据上述提取的可以表征上述语音控制指令的发音和语调特点的语音特征参数，与预先存储的各地区的语言对应的语音样本的样本语音特征参数进行匹配。

步骤203：智能终端将上述语音特征参数与预先存储的语音样本对应的样本语音特征参数进行匹配。

具体的，在执行步骤203时，智能终端预先设置有匹配相似度阈值，只有在相似度大于匹配相似度阈值时，才判定上述语音特征参数与任意一个语音样本对应的样本语音特征参数匹配成功，否则，判定匹配失败。之所以要设置匹配相似度阈值来判断上述语音特征参数与任意一个语音样本对应的样本语音特征参数是否匹配成功，是因为即便同一个地域的不同的人，在说同一句话时，会存在一定的差异，句子中每一个字的读音不能保证百分百完全相同，句子的语气、停顿、轻重、急缓等也不能保证百分百完全相同。

例如，假设智能终端预先设置的匹配相似度阈值为80％，在确定“语音1特征参数”与“样本语音1特征参数”的相似度为85％(85％＞80％)时，则判定“语音1特征参数”与“样本语音1特征参数”匹配成功。

实际应用中，智能终端将上述语音特征参数按照预先设置的优先级顺序与预先存储的语音样本对应的样本语音特征参数进行匹配的流程如下：

智能终端将上述语音特征参数与预先存储的第一优先级的样本语音特征参数类进行匹配。

例如，假设“湖南话”对应的语音样本的样本语音特征参数为第一优先级的样本语音特征参数类，那么，智能终端将“语音1特征参数”与“湖南话”对应的语音样本的样本语音特征参数进行匹配，判断匹配相似度是否大于设定匹配相似度，若是，则确定匹配成功，即上诉语音特征参数对应的语音控制指令是“湖南话”；否则，确定匹配失败。

智能终端在确定上述语音特征参数与第一优先级的样本语音特征参数匹配失败后，将上述语音特征参数与第二优先级的样本语音特征参数类进行匹配。

例如，假设“四川话”对应的语音样本的样本语音特征参数为第二优先级的样本语音特征参数类，那么，智能终端再确定与“湖南话”对应的语音样本的样本语音特征参数匹配失败时，将“语音1特征参数”与“四川话”对应的语音样本的样本语音特征参数进行匹配，判断匹配相似度是否大于设定匹配相似度，若是，则确定匹配成功，即上诉语音特征参数对应的语音控制指令是“四川话”；否则，确定匹配失败。

智能终端在确定上述语音特征参数与第二优先级的样本语音特征参数匹配失败后，将上述语音特征参数与第三优先级的样本语音特征参数类进行匹配。

例如，假设“普通话”对应的语音样本的样本语音特征参数为第三优先级的样本语音特征参数类，那么，智能终端再确定与“四川话”对应的语音样本的样本语音特征参数匹配失败时，将“语音1特征参数”与“普通话”对应的语音样本的样本语音特征参数进行匹配，判断匹配相似度是否大于设定匹配相似度，若是，则确定匹配成功，即上诉语音特征参数对应的语音控制指令是“普通话”；否则，确定匹配失败。

智能终端在确定上述语音特征参数与第三优先级的样本语音特征参数匹配失败后，将上述语音特征参数与第四优先级的样本语音特征参数类进行匹配，其中，第四优先级的样本语音特征参数类中的所有样本语音特征参数的优先级是一样的。

例如，智能终端在确定与“湖南话”、“四川话”和“普通话”对应的语音样本的样本语音特征参数匹配失败后，非按序与第四优先级的样本语音特征参数类中的样本语音特征参数进行匹配。

进一步的，智能终端在确定上述语音特征参数与任意一个预先存储的语音样本对应的样本语音特征参数匹配成功时，匹配结束；或者，

智能终端在确定上述语音特征参数与预先存储的每一个语音样本对应的样本语音特征参数都匹配完时，匹配结束。

例如，智能终端在确定“语音1特征参数”与“湖南话”对应的语音样本的样本语音特征参数匹配成功后，判定“语音1特征参数”对应的语音控制指令是“湖南话”，从而匹配过程结束。

又例如，智能终端在与预先存储在本地的每一个语音样本对应的样本语音特征参数都匹配过后都未匹配成功时，确定匹配过程结束。

步骤204：智能终端在判定所述语音特征参数与任意一个样本语音特征参数匹配成功时，确定所述任意一个样本语音特征参数对应的语音样本表征的的控制指令。

具体的，在执行步骤204时，智能终端在判定上述语音特征参数与一个样本语音特征参数的相似度大于设定匹配相似度阈值，确定匹配成功时，确定上述一个样本语音特征参数对应的语音样本，并获取该语音样本对应的控制操作指令。

例如，假设智能终端判定语音1控制指令对应的“语音1特征参数”与“四川话”中一个样本语音1特征参数的相似度大于设定匹配相似度阈值，确定匹配成功时，确定该“四川话”中一个样本语音1特征参数对应的语音样本为“播放音乐”，该“播放音乐”对应的控制操作指令为“打开音乐播放器”。

步骤205：智能终端执行上述控制指令。

例如，智能终端基于接收到的“语音1控制指令”打开音乐播放器，播放音乐。

基于上述实施例，参阅图3所示，本发明实施例中，一种语音控制指令的识别装置(如，智能终端)，至少包括获取单元30，匹配单元31和确定单元32，其中，

获取单元30，用于对接收的语音控制指令进行解析，获取所述语音控制指令的语音特征参数，其中，所述语音特征参数表征所述语音控制指令的发音和语调特点；

匹配单元31，用于将所述语音特征参数与预先存储的语音样本对应的样本语音特征参数进行匹配；

确定单元32，用于在判定所述语音特征参数与任意一个样本语音特征参数匹配成功时，确定所述任意一个样本语音特征参数对应的语音样本表征的的控制指令，并执行所述控制指令。

可选的，在对接收的语音控制指令进行解析之前，获取单元30还用于：

可选的，在将获取到的每一个语音样本对应的样本语音特征参数进行分类处理时，获取单元30用于：

可选的，在针对每一类样本语音特征参数设置相应的优先级顺序时，获取单元30用于：

可选的，在将所述语音特征参数与预先存储的语音样本对应的样本语音特征参数进行匹配时，匹配单元31用于：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音控制指令的识别方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，在对接收的语音控制指令进行解析之前，还包括：

3.如权利要求2所述的方法，其特征在于，将获取到的每一个语音样本对应的样本语音特征参数进行分类处理，包括：

4.如权利要求3所述的方法，其特征在于，针对每一类样本语音特征参数设置相应的优先级顺序，包括：

5.如权利要求1-4任一项所述的方法，其特征在于，将所述语音特征参数与预先存储的语音样本对应的样本语音特征参数进行匹配，包括：

6.一种语音控制指令的识别装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，在对接收的语音控制指令进行解析之前，所述获取单元还用于：

8.如权利要求7所述的装置，其特征在于，在将获取到的每一个语音样本对应的样本语音特征参数进行分类处理时，所述获取单元用于：

9.如权利要求8所述的装置，其特征在于，在针对每一类样本语音特征参数设置相应的优先级顺序时，所述获取单元用于：

10.如权利要求6-9任一项所述的装置，其特征在于，在将所述语音特征参数与预先存储的语音样本对应的样本语音特征参数进行匹配时，所述匹配单元用于：