CN109841216A

CN109841216A - 语音数据的处理方法、装置和智能终端

Info

Publication number: CN109841216A
Application number: CN201811601409.3A
Authority: CN
Inventors: 刘健军; 王慧君; 张新; 秦萍
Original assignee: Gree Electric Appliances Inc of Zhuhai
Current assignee: Gree Electric Appliances Inc of Zhuhai
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2019-06-04
Anticipated expiration: 2038-12-26
Also published as: CN109841216B

Abstract

本发明提出一种语音数据的处理方法、装置和智能终端，其中方法包括：接收用户语音数据并对用户语音数据进行分段得到多个语音数据段；当任一语音数据段无法识别时，根据语音数据段的音量和/或音调为各个第一语音数据段设置优先级，其中，第一语音数据段为可识别的语音数据段；根据各个第一语音数据段和对应的优先级生成反馈信息。本申请中在部分语音数据无法识别的情况下，根据音量和/或音调为第一语音数据段设置优先级，以确定用户最为关心的内容，从而尽可能的准确确定用户的真实意图，以提高用户体验。

Description

语音数据的处理方法、装置和智能终端

技术领域

本发明涉及语音控制领域，特别涉及一种语音数据的处理方法、装置和智能终端。

背景技术

语音识别技术常常用于控制智能家居，智能家居接收用户发出的语音数据，再对应回复，在现有技术中，当外部环境较为嘈杂时，难以做到完整语音的高精度识别，即便是用户的不同使用方式也会导致识别的差异。例如在嘈杂噪音环境，用户发出一段语音，前半段语音受噪音影响无法识别，虽然后半段语音未受影响，但整段语音的识别依然会受影响导致整段语音识别失败，难以理解使用户的意图，在部分语音无法识别的情况下提高语音识别率，增强对用户使用意图的分析判断，以提高用户体验显得至关重要。

因此，在部分语音数据无法识别的情况下，增强对用户意图的分析，提高语音识别率，是本领域亟待解决的问题。

发明内容

本发明提供了一种语音数据的处理方法、装置和智能终端，以在部分语音数据无法识别的情况下，增强对用户意图的分析，提高语意识别的准确率，进而提高用户体验。

为了解决上述问题，作为本发明的一个方面，提供了一种语音数据的处理方法，包括：

接收用户语音数据并对用户语音数据进行分段得到多个语音数据段；

当任一语音数据段无法识别时，根据语音数据段的音量和/或音调为各个第一语音数据段设置优先级，其中，第一语音数据段为可识别的语音数据段；

根据各个第一语音数据段和对应的优先级生成反馈信息。

可选的，对用户语音数据进行分段，得到多个语音数据段，包括：

对用户语音数据按照音量和/或音调进行分段得到多个语音数据段，

其中，任一语音数据段内任意两个时刻的音量差小于预设音量差，和/或，任一语音数据段内任意两个时刻的音调差小于预设音调差。

可选的，根据用户语音数据段的音量和/或音调为各个第一语音数据段设置优先级，包括：

获取各个第一语音数据段对应的音量和/或音调；

确定各个第一语音数据段的音量评分和/或音调评分，其中，第一语音数据段的音量越大则对应的音量评分越高，和/或，第一语音数据段的音调越高则对应的音调评分越高；

根据音量评分和/或音调评分确定各个第一语音数据段的总评分；

根据第一语音数据段的总评分确定第一语音数据段的优先级，其中，第一语音数据段的总评分越高则对应的优先级越高。

可选的，任一第一语音数据段的总评分等于对应的音量评分和音调评分之和；

或者，

任一第一语音数据段的总评分等于对应的音量权重评分和音调权重评分之和，其中，音量权重评分等于音量评分和预设音量权重的乘积，音量权重评分等于音调评分和预设音调权重的乘积。

可选的，根据各个第一语音数据段和对应的优先级生成反馈信息，包括：

根据优先级将第一语音数据段分为必要数据段和可选数据段；

以必要数据段的语意为输入值进行搜索得到第一搜索结果；

尝试以可选数据段的语意为输入值在第一搜索结果中进行二次搜索；

当二次搜索的结果不为空时，以二次搜索的结果作为反馈信息；

当二次搜索的结果为空时，以第一搜索结果作为反馈信息。

本申请还提出一种语音数据的处理装置，包括：

语音接收单元，用于接收用户语音数据；

断句分段单元，用于对用户语音数据进行分段得到多个语音数据段；

语音处理单元，用于当任一语音数据段无法识别时，根据语音数据段的音量和/或音调为各个第一语音数据段设置优先级，以及根据各个第一语音数据段和对应的优先级生成反馈信息；

其中，第一语音数据段为可识别的语音数据段。

可选的，断句分段单元对用户语音数据进行分段，得到多个语音数据段，包括：

可选的，语音处理单元根据用户语音数据段的音量和/或音调为各个第一语音数据段设置优先级，包括：

获取各个第一语音数据段对应的音量和/或音调；

可选的，任一第一语音数据段的总评分等于对应的音量评分和音调评分之和；或者，

可选的，语音处理单元根据各个第一语音数据段和对应的优先级生成反馈信息，包括：

以必要数据段的语意为输入值进行搜索得到第一搜索结果；

当二次搜索的结果为空时，以第一搜索结果作为反馈信息。

本申请还提出一种智能终端，包括处理器、存储器以及存储在存储器上可在处理器上运行的程序，处理器执行程序时实现本申请提出的任一方法的步骤。

本申请还提出一种智能终端，包括本申请提出的任一的装置。

本发明提出了一种语音数据的处理方法、装置和智能终端，因为用户在下意识的情况下会着重强调自己所最关心的内容，即提高音量和音调，本申请中在部分语音数据无法识别的情况下，根据音量和/或音调为第一语音数据段设置优先级，以确定用户最为关心的内容，从而尽可能准确确定用户的真实意图，以提高用户体验。

附图说明

图1为本发明实施例中一种语音数据的处理方法的流程图；

图2为本发明实施例中一种语音数据的处理装置的组成图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或电器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或电器固有的其它步骤或单元。

在现有技术中，当用户采用语音控制的方式对智能家居进行控制时，用户发出的语音数据可能无法被智能家居完整的接收，例如，当外界环境较为嘈杂时，用户发出的语音数据与嘈杂的环境噪音混合在一起可能导致部分语音数据无法解析，在此情况下如果不对用户发出的语音数据进行反馈，则会降低用户的体验，因此，尽可能准确的理解用户的真实意图，提高语音识别率，从而提高用户的体验显得至关重要。

基于此，本申请提出了一种语音数据的处理方法，用于当语音数据不完整时提高语音识别的准确率，从而提高用户的体验。如图1所示，图1为本申请实施例中一种语音数据的处理方法的流程图，本申请提出的语音数据的处理方法，包括：

S11：接收用户语音数据并对用户语音数据进行分段得到多个语音数据段；

具体的，本申请提出的处理方法可以用于任何具有语音识别功能的终端，例如手机、电脑或是智能家居，上述终端上设置有麦克风阵列，用于接收用户发出的语音数据，语音数据指的是用户发出的语音指令，在通常情况下，周围环境具有环境音，终端上的麦克风阵列在接收到音频后需要对音频进行处理以提取用户语音数据，因此，在本步骤之前还可以包括：接收音频数据，对音频数据进行处理以提取用户语音数据，提取用户语音数据的具体步骤已经在诸多现有技术公开，在此不在赘述。在接收到用户语音数据后需要对语音数据进行分段，分段的依据可以是用户说话时的停顿点，即当用户发出的语音数据中出现短暂停歇时，设置一个分割点，将语音数据按照所述分割点进行分割。例如用户发出的语音数据是：北京明天的天气如何。则用户通常会在“北京”和“明天的”之间短暂停一下，在“明天的”和“天气”之间短暂停一下，这是人们在说话时下意识的在两个词语之间停顿的现象，根据用户的停顿点对用户语音数据进行分割，可以加快分段的速率，此外，因为两个停顿点之间的语句通常是一个完整的词组或短语，因此，在结合语法的情况下可以提高对用户语音数据分析的准确率。

S12：当任一语音数据段无法识别时，根据语音数据段的音量和/或音调为各个第一语音数据段设置优先级。

具体的，如果语音数据段全部都可以正常识别，则根据识别后得到的信息对用户语音数据进行反馈，如果其中有部分语音数据段无法识别，则会造成理解困难，造成部分语音数据段无法识别的原因例如可以是：周围环境过于嘈杂，或是用户发音不清。此时，先确定哪些语音数据段可以正常被识别，这些可识别的语音数据段为第一语音数据段；在此情况下，因为部分语音数据段无法被识别，造成无法确定用户的实际意图，因此，需要根据各个第一语音数据段确定用户的意图，在此基础上，各个第一语音数据段都有各自对应的语意，各个语意对应的意图可能有差别，设置优先级的目的在于准确确定用户的真实意图，用户在发出语音指令时，其往往会下意识的强调自己最为关注的内容，此时会提高音量和音调，因此本申请根据音量和/或音调最为确定优先级的基础，优先级正比于音量和音调，即音量越大，优先级越高，音调越高，优先级越高，优先级高的第一语音数据段是用户最为关注的内容。例如：用户发出的用户语音数据为：展示比尔盖茨和乔布斯的生日分别是哪一天。此时由于环境噪音较为嘈杂，只接收到了“比尔盖茨”、“乔布斯”和“哪一天”三个名词，其他内容没有识别清楚导致不清楚用户的意图，但是用户在说“比尔盖茨”和“乔布斯”时的音调较高且声音较大，则设定“比尔盖茨”和“乔布斯”的优先级较高，“哪一天”的优先级较低。

S13：根据各个第一语音数据段和对应的优先级生成反馈信息。

具体的，在确定了各个第一语音数据段的优先级后需要对用户进行反馈，向用户发送反馈信息，在生成反馈信息时优先考虑优先级高的第一语音数据段的语意，如果能够兼顾优先级低的第一语音数据段的语意，则尽可能兼顾，如果在综合考虑所有的第一语音数据段的语意则无法确定用户意图的情况下，忽略优先级地的第一语音数据段。继续以上述例子为例：因为“比尔盖茨”和“乔布斯”的优先级较高，必须优先保证反馈信息中包括“比尔盖茨”和“乔布斯”的信息，而当考虑“哪一天”这个内容时，则无法确定用户的具体意图，因此，自动省略“哪一天”，此时反馈包含“比尔盖茨”和“乔布斯”的内容，在这些内容中通常会包含这两人的人生经历，也就能够尽可能的满足用户的意图。在本申请中，在部分语音数据无法识别的情况下，根据音量和/或音调为第一语音数据段设置优先级，以确定用户最为关心的内容，从而尽可能准确确定并满足用户的真实意图，以提高用户体验。

对用户语音数据按照音量和/或音调进行分段得到多个语音数据段。

具体的，用户在说一段话时发生的音量和音调通常是上下起伏的，而在说一个固定的词组和短语时，音量和音调通常是不会发生变化的，因此，本申请中，任一语音数据段内任意两个时刻的音量差小于预设音量差，和/或，任一语音数据段内任意两个时刻的音调差小于预设音调差，根据音量和音调对用户语音数据进行分段，从而实现用户语音数据的预处理，加快语音识别速度。

获取各个第一语音数据段对应的音量和/或音调；

根据第一语音数据段的总评分确定第一语音数据段的优先级。

具体的，用户在发出语音指令时，往往会下意识的强调自己最为关注的内容，因此，越是重要的信息对应的音量越大、音调越高，则对应的音量评分、音调评分越高，这两个评分越高则第一语音数据段的总评分越高，第一语音数据段的总评分越高则对应的优先级越高。例如音量和音量评分可设置成线性正相关，用一次函数y＝ax+b，其中y为音量评分，a为斜率且大于零，x为音量值，b为预设修正参数，同样的，音调评分也可以与音调成线性正相关，也可以采用类似与上述的一次函数，只是需要对应修改斜率和预设修正参数。在对用户的用户语音数据进行反馈时优先考虑评分高的第一语音数据，从而尽可能准确的判断用户的真实意图。例如，如果有两个第一语音数据分别为数据1和数据2，且数据1的优先级大于数据2，但是如果同时考虑数据1和数据2的语意无法确定用户的意图，则只考虑数据1的语意，而忽略数据2的语意，从而尽可能准确的确定用户的意图。

可选的，在本实施例中，任一第一语音数据段的总评分等于对应的音量评分和音调评分之和；或者，任一第一语音数据段的总评分等于对应的音量权重评分和音调权重评分之和，其中，音量权重评分等于音量评分和预设音量权重的乘积，音量权重评分等于音调评分和预设音调权重的乘积。

具体的，对于任一第一语音数据段，其对应的总评分可以是音量评分加上音调评分，或是分别为音量评分和音调评分设置对应的加权值后得到的加权评分，加权评分的算法为现有技术，在此不赘述。本实施中优选采用加权评分，需要注意的是，在考虑音量评分时，优选是以第一语音数据段的音量和用户语音数据的平均音量的音量差值确定音量评分，该音量差值越大则音量评分越高，同理，在考虑音调评分时，是以第一语音数据段的音调和用户语音数据的平均音调的音调差值确定音量评分，该音调差值越大则音量评分越高，采用音量差和音调差的目的在于减小计算量，因为当音量或音调过大时数据量较大，而采用与平均值的差值进行计算可以减小计算量，以加快计算速度。

以必要数据段的语意为输入值进行搜索得到第一搜索结果；

当二次搜索的结果为空时，以第一搜索结果作为反馈信息。

具体的，可以是将优先级高于预设优先级的第一语音数据段设置为必要数据段，优先级不高于预设优先级的第一语音数据段设置为可选数据段，也可以是固定设置优先级最高的前百分之五十的第一语音数据段为必要数据段，其他的第一语音数据段为可选数据段，或是，设置优先级最高的前N个第一语音数据段为必要数据段。在确定了必要数据段后，为了对用户发出的用户语音数据进行反馈，将必要数据段对应的具体含义发送到网络上进行搜索得到第一搜索结果，在尝试在第一搜索结果中进行二次搜索，如果能够搜索到结果则将二次搜索的结果作为反馈信息，否则将第一搜索结果作为反馈信息。优选地，根据各个第一语音数据段和对应的优先级生成反馈信息，包括：步骤1:先获取优先级最高的第一语音数据段的语意作为输入值进行搜索得到搜索结果，步骤2：获取优先级低于前次输入值的第一语音数据段的语意作为输入值，在上一次搜索结果中进行二次搜索得到搜索结果，重复步骤2，直到搜索结果为空，获取上一次的搜索结果作为反馈信息，通过上述的递归方式，可以逐步逼近用户的真实意图。例如：用户发出的用户语音数据为：“醉红尘是林俊唱的还是汪峰唱的”，其中，只识别到部分词语，按照优先级排列分别为“醉红尘”和“汪峰”，此时“醉红尘”为必要数据段，“汪峰”为可选数据段，因为汪峰没有唱过醉红尘，因此如果同时以醉红尘和汪峰为输入值则得不到搜索结果，因此，只搜索优先级高的“醉红尘”，以包含“醉红尘”的搜索结果，因为搜索结果中通常会展示歌曲和演唱者，因此，实际上搜索结果可以解答用户的问题。

本申请还提出一种语音数据的处理装置，如图2所示，包括：语音接收单元10、断句分段单元20和语音处理单元30。其中，语音接收单元10，用于接收用户语音数据；断句分段单元20，用于对用户语音数据进行分段得到多个语音数据段；语音处理单元30，用于当任一语音数据段无法识别时，根据语音数据段的音量和/或音调为各个第一语音数据段设置优先级，以及根据各个第一语音数据段和对应的优先级生成反馈信息；

具体的，本申请提出的处理装置可以是任何具有语音识别控制功能的智能终端，语音接收单元10可以是设置在智能终端上的麦克风阵列，第一语音数据段为可识别的语音数据段。具体的，在语音接收单元10接收到用户语音数据后需要对语音数据进行分段，分段的依据可以是用户说话时的停顿点，即当用户发出的语音数据中出现短暂停歇时，设置一个分割点，将语音数据按照所述分割点进行分割。例如用户发出的语音数据是：北京明天的天气如何。则用户通常会在“北京”和“明天的”之间短暂停一下，在“明天的”和“天气”之间短暂停一下，这是人们在说话时下意识的在两个词语之间停顿的现象，根据用户的停顿点对用户语音数据进行分割，可以加快分段的速率，此外，因为两个停顿点之间的语句通常是一个完整的词组或短语，因此，在结合语法的情况下可以提高对用户语音数据分析的准确率。

可选的，断句分段单元20对用户语音数据进行分段，得到多个语音数据段，包括：

其中，任一第一语音数据段内任意两个时刻的音量差小于预设音量差，和/或，任一第一语音数据段内任意两个时刻的音调差小于预设音调差。

具体的，一个语音数据段是具有对应的时长的，在该时长内包括多个时刻，用户在说一段话时发生的音量和音调通常是上下起伏的，而在说一个固定的词组和短语时，音量和音调通常是不会发生变化的，因此，本申请中，任一第一语音数据段内任意两个时刻的音量差小于预设音量差，和/或，任一语音数据段内任意两个时刻的音调差小于预设音调差，根据音量和音调对用户语音数据进行分段，从而实现用户语音数据的预处理，加快语音识别速度。即在本实施中，语音数据段的分割点为音量或音调的突变点。

可选的，语音处理单元30根据用户语音数据段的音量和/或音调为各个第一语音数据段设置优先级，包括：

获取各个第一语音数据段对应的音量和/或音调；

具体的，用户在发出语音指令时，往往会下意识的强调自己最为关注的内容，因此，越是重要的信息对应的音量越大、音调越高，则对应的音量评分、音调评分越高，这两个评分越高则第一语音数据段的总评分越高，第一语音数据段的总评分越高则对应的优先级越高。在对用户的用户语音数据进行反馈时优先考虑评分高的第一语音数据，从而尽可能准确的判断用户的真实意图。

可选的，任一第一语音数据段的总评分等于对应的音量评分和音调评分之和；或者，任一第一语音数据段的总评分等于对应的音量权重评分和音调权重评分之和，其中，音量权重评分等于音量评分和预设音量权重的乘积，音量权重评分等于音调评分和预设音调权重的乘积。

具体的，对于任一第一语音数据段，其对应的总评分可以是音量评分加上音调评分，或是分别为音量评分和音调评分设置对应的加权值后得到的加权评分，优选采用加权评分，需要注意的是，在考虑音量评分时，是以第一语音数据段的音量和用户语音数据的平均音量的音量差值确定音量评分，该音量差值越大则音量评分越高，同理，在考虑音调评分时，是以第一语音数据段的音调和用户语音数据的平均音调的音调差值确定音量评分，该音调差值越大则音量评分越高，从而准确的确定用户想要强调的内容。

可选的，语音处理单元30根据各个第一语音数据段和对应的优先级生成反馈信息，包括：

以必要数据段的语意为输入值进行搜索得到第一搜索结果；

当二次搜索的结果为空时，以第一搜索结果作为反馈信息。

具体的，语音处理单元30根据各个第一语音数据段和对应的优先级生成反馈信息，包括：步骤1:先获取优先级最高的第一语音数据段的语意作为输入值进行搜索得到搜索结果，步骤2：获取优先级低于前次输入值的第一语音数据段的语意作为输入值，在上一次搜索结果中进行二次搜索得到搜索结果，重复步骤2，直到搜索结果为空，则获取上一次的搜索结果作为反馈信息，通过上述的递归方式，可以逐步逼近用户的真实意图。

本申请还提出另一种智能终端，包括本申请提出任一的装置。本申请中的智能终端可以是具有语音识别功能的空调。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音数据的处理方法，其特征在于，包括：

接收用户语音数据并对所述用户语音数据进行分段得到多个语音数据段；

当任一语音数据段无法识别时，根据所述语音数据段的音量和/或音调为各个第一语音数据段设置优先级，其中，所述第一语音数据段为可识别的语音数据段；

根据各个所述第一语音数据段和对应的优先级生成反馈信息。

2.根据权利要求1所述的语音数据的处理方法，其特征在于，对所述用户语音数据进行分段，得到多个语音数据段，包括：

对所述用户语音数据按照音量和/或音调进行分段得到多个语音数据段，

其中，任一所述语音数据段内任意两个时刻的音量差小于预设音量差，和/或，任一所述语音数据段内任意两个时刻的音调差小于预设音调差。

3.根据权利要求1-2任一项所述的语音数据的处理方法，其特征在于，根据所述用户语音数据段的音量和/或音调为各个第一语音数据段设置优先级，包括：

获取各个所述第一语音数据段对应的音量和/或音调；

确定各个所述第一语音数据段的音量评分和/或音调评分，其中，所述第一语音数据段的音量越大则对应的所述音量评分越高，和/或，所述第一语音数据段的音调越高则对应的所述音调评分越高；

根据所述音量评分和/或音调评分确定各个所述第一语音数据段的总评分；

根据所述第一语音数据段的总评分确定所述第一语音数据段的优先级，其中，所述第一语音数据段的总评分越高则对应的优先级越高。

4.根据权利要求3所述的语音数据的处理方法，其特征在于，

任一所述第一语音数据段的总评分等于对应的所述音量评分和所述音调评分之和；

或者，

任一所述第一语音数据段的总评分等于对应的音量权重评分和音调权重评分之和，其中，所述音量权重评分等于所述音量评分和预设音量权重的乘积，所述音量权重评分等于所述音调评分和预设音调权重的乘积。

5.根据权利要求1-4任一项所述的语音数据的处理方法，其特征在于，根据各个第一语音数据段和对应的优先级生成反馈信息，包括：

根据优先级将所述第一语音数据段分为必要数据段和可选数据段；

以所述必要数据段的语意为输入值进行搜索得到第一搜索结果；

尝试以所述可选数据段的语意为输入值在所述第一搜索结果中进行二次搜索；

当所述二次搜索的结果不为空时，以所述二次搜索的结果作为所述反馈信息；

当所述二次搜索的结果为空时，以所述第一搜索结果作为所述反馈信息。

6.一种语音数据的处理装置，其特征在于，包括：

语音接收单元，用于接收用户语音数据；

断句分段单元，用于对所述用户语音数据进行分段得到多个语音数据段；

语音处理单元，用于当任一语音数据段无法识别时，根据所述语音数据段的音量和/或音调为各个第一语音数据段设置优先级，以及根据各个所述第一语音数据段和对应的优先级生成反馈信息；

其中，所述第一语音数据段为可识别的语音数据段。

7.根据权利要求6所述的语音数据的处理装置，其特征在于，所述断句分段单元对所述用户语音数据进行分段，得到多个语音数据段，包括：

8.根据权利要求6-7任一项所述的语音数据的处理装置，其特征在于，所述语音处理单元根据所述用户语音数据段的音量和/或音调为各个第一语音数据段设置优先级，包括：

获取各个所述第一语音数据段对应的音量和/或音调；

9.根据权利要求8所述的语音数据的处理装置，其特征在于，

或者，

10.根据权利要求6-9任一项所述的语音数据的处理装置，其特征在于，所述语音处理单元根据各个第一语音数据段和对应的优先级生成反馈信息，包括：

11.一种智能终端，其特征在于，包括处理器、存储器以及存储在存储器上可在处理器上运行的程序，所述处理器执行所述程序时实现权利要求1-5任一所述方法的步骤。

12.一种智能终端，其特征在于，包括如权利要求6-10任一所述的装置。