CN105139858B

CN105139858B - 一种信息处理方法及电子设备

Info

Publication number: CN105139858B
Application number: CN201510446520.XA
Authority: CN
Inventors: 徐培来; 孙艳庆; 汪俊杰
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2015-07-27
Filing date: 2015-07-27
Publication date: 2019-07-26
Anticipated expiration: 2035-07-27
Also published as: CN105139858A

Abstract

本发明实施例提供一种信息处理方法及电子设备，用于解决电子设备误响应率较高的技术问题。该方法包括：获取第一语音信息，确定与所述第一语音信息对应的声纹信息及能量信息；基于确定的声纹信息及能量信息，确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息。

Description

一种信息处理方法及电子设备

技术领域

本发明涉及电子技术领域，特别涉及一种信息处理方法及电子设备。

背景技术

随着科学技术的不断发展，电子技术也得到了飞速的发展，电子设备具有越来越丰富的功能。其中，语音交互技术的广泛应用，使得用户能够通过语音实现对电子设备的控制，为设备的智能化作出了巨大贡献。

目前，由于在通过语音对电子设备的控制的过程中，若检测到存在相应的语音命令，则电子设备即可进行响应，使得一些非指定用户也能轻易触发电子设备，从而导致较多电子设备的误响应问题较为严重，还可能导致用户的隐私被泄露。而随着声纹识别技术的引入，可以预先建立指定用户的声纹模型，在识别到指定用户的语音时，再控制设备进入语音响应模式，否则可以拒绝响应，从而可以在一定程度上屏蔽非指定用户利用语音对电子设备进行的误触发。

然而，虽然以上介绍的声纹识别技术在一定程度上解决了语音交互技术中存在的电子设备会响应非指定用户的语音指令的问题，但对于一些特殊场景来说，如指定用户在与其他用户聊天的过程中，指定用户的话语可能仍会导致设备进行误响应，因此，电子设备的误响应问题依然较严重。

发明内容

本发明实施例提供一种信息处理方法及电子设备，用于解决电子设备误响应率较高的技术问题。

一种信息处理方法，包括以下步骤：

获取第一语音信息，确定与所述第一语音信息对应的声纹信息及能量信息；

基于确定的声纹信息及与预设声纹特征相同且与预设语音指令相匹配且能量大于预设值的语音片段是否满足预设条件，确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息；或者

基于确定的声纹信息及与预设声纹特征相同且与预设语音指令相匹配的语音片段的能量信息的能量的平均值是否大于声纹特征与预设声纹特征不同的至少一个语音片段的能量的平均值，确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息。

可选的，确定与所述第一语音信息对应的声纹信息及能量信息，包括：

将所述第一语音信息划分为N个语音片段；

确定所述N个语音片段中每个的声纹信息以及对应的能量信息。

可选的，在将所述第一语音信息划分为N个语音片段之后，还包括：

基于语音产生的时间先后顺序，确定所述N个语音片段对应的顺序；

确定所述N个语音片段中每个的声纹信息以及对应的能量信息，包括：

基于所述N个语音片段对应的顺序，确定所述N个语音片段中每个的声纹信息及对应的能量信息。

可选的，确定所述N个语音片段中每个的声纹信息以及对应的能量信息，包括：

基于所述N个语音片段中每个对应的声纹特征对所述N个语音片段分别进行标记，得到与所述N个语音片段对应的声纹信息；及

基于所述N个语音片段中每个对应的能量对所述N个语音片段分别进行标记，得到与所述N个语音片段对应的能量信息。

可选的，基于确定的声纹信息及能量信息，确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息，包括：

确定所述N个语音片段中能量大于预设值的M个语音片段，M为不大于N的正整数；

若所述M个语音片段的声纹特征均相同，确定所述第一语音信息对应的场景信息为单用户语音输入的第一语音场景信息；否则，确定所述第一语音信息对应的场景信息为多用户语音输入的第二语音场景信息；

基于所述第一语音信息对应的语音场景信息，确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息。

可选的，所述第一语音信息对应的语音场景信息为所述第一语音场景信息；

基于所述第一语音信息对应的语音场景信息，确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息，包括：

若所述M个语音片段对应的声纹特征与预设声纹特征相同，确定所述第一语音信息为用于控制电子设备进行响应的语音信息。

可选的，所述第一语音信息对应的语音场景信息为所述第二语音场景信息；

确定所述M个语音片段中是否存在声纹特征与预设声纹特征相同的语音片段；

若所述M个语音片段中不存在声纹特征与预设声纹特征相同的语音片段，确定所述第一语音信息不是用于控制所述电子设备进行响应的语音信息；或者，若所述M个语音片段中存在声纹特征与预设声纹特征相同的语音片段，获得声纹特征与预设声纹特征相同的语音片段中与预设语音指令相匹配的Q个语音片段，Q为小于等于M的正整数；

确定所述Q个语音片段是否满足预设条件；

若满足，确定所述第一语音信息为用于控制所述电子设备进行响应的语音信息。

可选的，确定所述Q个语音片段是否满足预设条件，包括：

基于所述Q个语音片段中每个的能量信息，确定所述Q个语音片段的能量的平均值；

确定所述平均值是否大于声纹特征与预设声纹特征不同的至少一个语音片段的能量的平均值；

若大于，确定所述Q个语音片段满足所述预设条件。

确定所述N个语音片段中与预设语音指令相匹配的P个语音片段，P为小于等于N的正整数；

当所述P个语音片段中每个的声纹信息与预设声纹信息相匹配时，若确定所述P个语音片段的能量的平均值大于N个语音片段中声纹特征与预设声纹特征不同的至少一个语音片段的能量的平均值，确定所述第一语音信息为用于控制电子设备进行响应的语音信息。

可选的，所述方法还包括：

当确定所述第一语音信息为用于控制所述电子设备响应其包含的语音指令的语音信息时，确定所述第一语音信息对应的语音指令；

控制电子设备响应所述语音指令。

一种电子设备，包括：

采集装置，用于获取第一语音信息；

处理器，用于执行如下操作：

确定与所述第一语音信息对应的声纹信息及能量信息，并基于确定的声纹信息及与预设声纹特征相同且与预设语音指令相匹配且能量大于预设值的语音片段是否满足预设条件，确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息，或者

确定与所述第一语音信息对应的声纹信息及能量信息，并基于确定的声纹信息及与预设声纹特征相同且与预设语音指令相匹配的语音片段的能量信息的能量的平均值是否大于声纹特征与预设声纹特征不同的至少一个语音片段的能量的平均值，确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息。

可选的，所述处理器用于：

将所述第一语音信息划分为N个语音片段；

可选的，所述处理器用于：

在将所述第一语音信息划分为N个语音片段之后，基于语音产生的时间先后顺序，确定所述N个语音片段对应的顺序；并基于所述N个语音片段对应的顺序，确定所述N个语音片段中每个的声纹信息及对应的能量信息。

可选的，所述处理器用于：

可选的，所述第一语音信息对应的语音场景信息为所述第一语音场景信息，所述处理器用于：

若所述M个语音片段对应的声纹特征与预设声纹特征相同，确定所述第一语音信息为用于控制电子设备进行响应的语音信息

可选的，所述第一语音信息对应的语音场景信息为所述第二语音场景信息，所述处理器用于：

确定所述Q个语音片段是否满足预设条件；

可选的，所述处理器用于：

若大于，确定所述Q个语音片段满足所述预设条件。

可选的，所述处理器用于：

控制电子设备响应所述语音指令。

一种电子设备，包括：

确定模块，用于获取第一语音信息，确定与所述第一语音信息对应的声纹信息及能量信息；

处理模块，用于执行如下操作：

基于确定的声纹信息及与预设声纹特征相同且与预设语音指令相匹配且能量大于预设值的语音片段是否满足预设条件，确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息，或者

本发明实施例中，可以确定获得的第一语音信息对应的声纹信息和能量信息，通过对第一语音信息的声纹信息和能量信息的分析，可以确定第一语音信息是否为用于控制电子设备进行响应的语音信息，因结合了第一语音信息的声纹信息和能量信息，故使得分析结果较为准确，从而能够较为准确地确定电子设备是否要对语音信息进行响应，避免出现仅依靠单一的声纹信息来控制电子设备对用户的语音指令进行响应的情况，降低电子设备的误响应率。

例如，在多人聊天时，即便采集到包含指定用户的声纹信息的语音信息，也不会立刻控制电子设备进行响应，而还需要结合相应的能量信息来确定是否控制电子设备进行响应，以提高电子设备在对语音信息进行响应时的准确性。

附图说明

图1为本发明实施例中信息处理方法的流程图；

图2为本发明实施例中第一语音信息主要处理流程；

图3为本发明实施例中电子设备的结构示意图；

图4为本发明实施例中电子设备的结构框图。

具体实施方式

本发明实施例提供一种信息处理方法及电子设备，该方法包括：获取第一语音信息，确定与所述第一语音信息对应的声纹信息及能量信息；基于确定的声纹信息及能量信息，确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中，电子设备可以是PC(个人计算机)、笔记本、PAD(平板电脑)、手机等不同的设备，本发明对此不作限制。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图对本发明优选的实施方式进行详细说明。

如图1所示，本发明实施例提供一种信息处理方法，该方法的流程描述如下。

S11：获取第一语音信息，确定与第一语音信息对应的声纹信息及能量信息。

本发明实施例中，本发明实施例中，第一语音信息可以是通过电子设备所采集的用户说话的语音信息，如可以是包括用户说的一句或一段声音内容的信息。

在实际应用中，可以通过电子设备中设置的声音采集装置来获取第一语音信息，声音采集装置例如可以包括声音传感器、麦克风等。声音采集装置可以实时采集电子设备所处环境中的语音信息，或者，也可以在检测存在语音信息时(如用户开始说话时)，对语音信息进行采集。在采集过程中，电子设备可以是处于待机状态，其不会对语音信息中的语音指令立即进行响应，而需要相应的触发信息，如含有预设指令的语音信息等。

可选的，本发明实施例中，声纹信息中可以包含语音信息的声纹特征，从而根据声纹信息中不同的声纹特征可以区分不同的声音对象，如声音对象可以是用户1、用户2、机器噪音等。

在实际应用中，在确定第一语音信息的声纹信息和能量信息之前，可以对第一语音信息进行去噪处理，以便后期较好地对语音信息进行声纹特征及能量的分享处理。

可选的，本发明实施例中，在S11中，确定第一语音信息的声纹信息及能量信息，可以包括：

将第一语音信息划分为N个语音片段，确定N个语音片段中每个的声纹信息以及对应的能量信息。

其中，时间长度可以是指每个语音片段对应的时间长度，如可能是5ms、10ms等，本发明不作具体限制。

在实际应用中，可以根据语音信息中包含的语音数据的多少来确定相应的时间长度。例如，若第一语音信息包含的语音数据较多，则可按对应时间较短的第一时间长度对第一语音信息进行分段，若第一语音信息包含的语音数据较少，则可按对应时间较长的第二时间长度对第一语音信息进行分段，其中，第一时间长度可以小于第二时间长度。

例如，语音信息1为说话较快的用户A的语音信息，语音信息2为说话较为缓慢的用户2的语音信息。则在相同的时长内，语音信息1对应的语音数据可能多于语音信息2对应的语音数据，因此，确定的语音信息1的时间长度可以是5ms，语音信息2对应的时间长度可以是10ms，以尽量避免出现太多不包含语音数据的空白片段。

可选的，本发明实施例中，在将第一语音信息划分为N个语音片段之后，还可以基于语音信息产生的时间先后顺序，确定N个语音片段对应的顺序。当然，在实际应用中，还可按照确定的顺序对N个语音片段进行编号，形成N个语音片段的时间序列，便于电子设备在进行相应处理时可按照时间序列进行。

可选的，本发明实施例中，确定N个语音片段中每个的声纹信息以及对应的能量信息，可以包括：

基于N个语音片段对应的顺序，确定N个语音片段中每个的声纹信息及对应的能量信息，即，可按照N个语音片段产生的先后顺序依次对每个语音片段进行处理，故在电子设备对第一语音信息进行划分的过程中，可以按照语音片段的产生的顺序实时地对语音片段进行处理，以提高处理效率。

本发明实施例中，确定N个语音片段中每个的声纹信息以及对应的能量信息，可以包括以下两方面。

一方面：

基于N个语音片段中每个对应的声纹特征对N个语音片段分别进行标记，得到与N个语音片段对应的声纹信息。

在实际应用中，由于第一语音信息可能对应有多个不同的声纹特征，而每个声纹特征具有各自对应的声音对象，如说话者1、说话者2等。因此，在对N个语音片段进行声纹特征识别的过程中，还可以确定声纹特征对应的类别，如人类、动物、机器等，进而可按照不同类别的声音对象对语音片段进行标记。

当然，本发明实施例中的标记可以主要是指针对声纹特征表征的对象为人类的语音片段所进行的标记。例如，若确定时间序列为1-3的语音片段均对应声纹特征a，时间序列为8-15的语音片段均对应声纹特征b，则可将语音片段1-3中每个标记为声纹特征a，而将语音片段8-15中每个标记为声纹特征b，等等。

此外，对于对应非人类的声纹特征的语音片段可以进行统一标记，如可以采用预设标记进行标记(如标记为空)，以便于电子设备根据标记将其与用户(即人类)的语音片段的标记分区。

另一方面：

基于N个语音片段中每个对应的能量对N个语音片段分别进行标记，得到与N个语音片段对应的能量信息。

具体来说，电子设备可以将N个语音片段中每个对应的语音信息在时域内进行短时能量分析，确定与每个语音片段对应的能量大小，进而，可以根据能量大小对语音片段进行标记，如1、2、3、4等。通常来说，语音片段对应的能量越大，其对应的语音信息中语音的分贝可能就越大。

或者，在实际应用中，还可以对语音片段的能量进行等级划分，如对于能量小于3的语音片段可以标记为能量一级，对于能量处于[3,6)的语音片段可以标记为能量二级，而处于[6,9)的语音片段可以标记为能量三级，等等。其中，若确定语音片段的能量为能量一级，则可以认为语音的分贝较低，能量较小，可能是用户低语或设备自身的噪声等，在实际计算中，可忽略不计。

需要说明的是，以上两方面可以是并行进行的，以提高电子设备对语音信息的处理效率，从而压缩电子设备的响应时间。此外，在实际应用中，当多个对象同时发出声音时，一个语音片段可能会对应于多个声纹特征，此时，在确定语音片段的声纹信息及能量信息时，可根据多个声纹特征中能量最大的声纹特征对语音片段进行标记，获得与该语音片段相应的能量信息和声纹信息。

S12：基于确定的声纹信息及能量信息，确定第一语音信息是否为用于控制电子设备进行响应的语音信息。

本发明实施例中，由于在S12之前已经确定N个语音片段中每个对应的声纹信息及能量信息，因此，在进行S12时，可以包括以下步骤：

确定N个语音片段中能量大于预设值的M个语音片段，M为不大于N的正整数；

若M个语音片段的声纹特征均相同，确定第一语音信息对应的场景信息为单用户语音输入的第一语音场景信息；否则，确定第一语音信息对应的场景信息为多用户语音输入的第二语音场景信息；

基于第一语音信息对应的语音场景信息，确定第一语音信息是否为用于控制电子设备进行响应的语音信息。

其中，预设值可以作为语音片段的能量大小的划分值，如能量等级一与能量等级二之间的临界能量值，即能量3，或者也可以是预设的其它能量值，如2、4甚至0等等，本发明不作具体限制。

若语音片段的能量小于预设值，则表明该语音片段对应的语音信息的能量较小，可默认为背景语音，如噪音、低语等，其能量可忽略不计。反之，则可以认为语音片段对应的语音信息的能量较大，例如第一语音信息可能为包含语音指令的语音信息。

在以上过程中，在根据声纹信息确定M个语音片段的声纹特征是否均相同时，具体可以是确定M个语音片段中声纹特征对应的对象为人类的多个语音片段的声纹特征是否相同，如是否均为对应用户1的声纹a，还是包含对应不同用户的多个声纹。若是对应同一用户，则可以确定第一语音信息为与单用户对应的语音信息，而当前的语音场景信息为第一语音场景信息，否则，则确定第一语音信息为与多用户对应的语音信息，而当前的语音场景信息为第二语音场景信息。

进而，根据不同的语音场景信息可以进一步对第一语音信息进行判断，确定其是否为用于控制电子设备进行响应的语音信息。具体来说，针对不同的语音场景，S12可以具有不同的处理过程，以下分别介绍两种语音场景下S12的处理过程。

情况一：第一语音信息对应的语音场景信息为第一语音场景信息。S12可以包括：

若M个语音片段对应的声纹特征与预设声纹特征相同，确定第一语音信息为用于控制电子设备进行响应的语音信息。

其中，预设声纹特征可以是指定用户对应的声纹特征，该指定用户可以是预设用户，电子设备中可以预存有与其声纹特征对应的预设声纹模型，通过将语音片段的声纹特征的声纹模式与预设声纹模型的匹配，即可确定是否与预设声纹特征相同。

当然，若确定M个语音片段对应的声纹特征与预设的声纹特征相同，则可确定第一语音信息为指定用户发出的语音对应的语音信息，由于此时的场景为单用户场景，故此时，可以确定第一语音信息为控制电子设备进行相应的语音信息，进而电子设备可以对第一语音信息中相关的语音指令进行响应。

情况二：第一语音信息对应的语音场景信息为第二语音场景信息。S12可以包括：

确定M个语音片段中是否存在声纹特征与预设声纹特征相同的语音片段；

若M个语音片段中不存在声纹特征与预设声纹特征相同的语音片段，确定第一语音信息不是用于控制所述电子设备进行响应的语音信息；或者，若M个语音片段中存在声纹特征与预设声纹特征相同的语音片段，获得声纹特征与预设声纹特征相同的语音片段中与预设语音指令相匹配的Q个语音片段，Q为小于等于M的正整数；

确定Q个语音片段是否满足预设条件；

若满足，确定第一语音信息为用于控制电子设备进行响应的语音信息。

其中，若M个语音片段中不存在声纹特征与预设声纹特征相同的语音片段，即可确定第一语音信息为非指定用户的语音信息，此时，无需控制电子设备进行响应。

此外，在确定M个语音片段中存在声纹特征与预设声纹特征相同的语音片段时，可以在确定的语音片段中获得与预设语音指令相匹配的Q个语音片段。其中，Q个语音片段可以具有连续的顺序的语音片段，以表明其预设语音指令对应的语音片段，而非拼凑语音指令所确定的语音片段，如Q个语音片段对应的顺序可以是4、5、6、7等，或者，Q个语音片段也可以是顺序间接连续的语音片段，如对应的顺序可以是3、5、6、8、9等，即可能用户说话较慢，在对包含语音指令的语音部分进行划分时，会形成不包含语音数据的空白片段，从而导致确定的Q个语音片段对应的顺序不会完全连续。

当然，若声纹特征与预设声纹特征相同的语音片段中不存在Q个语音片段，则可以确定第一语音信息的当前场景为指定用户与他人聊天的场景。其中，预设语音指令可以是用于控制电子设备进行相应的响应操作的指令，在获得Q个语音片段后，还可以根据能量信息对Q个语音片段进行进一步的判断，以确定Q个语音片段是否满足预设条件。

具体来说，在获得Q个语音片段后，可以基于Q个语音片段中每个的能量信息确定Q个语音片段的能量的平均值，以及，可以确定M个语音片段中声纹特征与预设声纹特征不同的至少一个语音片段的能量的平均值。

其中，至少一个语音片段可以是M个语音片段中声纹特征与预设声纹特征不同的所有语音片段，或者，也可以是与Q个语音片段相邻的语音片段，如与Q个语音片段相邻、且顺序位于Q个语音片段之前和/或之后的顺序连续的多个语音片段。

可选的，本发明实施例中，若确定Q个语音片段的能量的平均值大于至少一个语音片段的能量的平均值，则Q个语音片段满足预设条件，可以确定Q个语音片段对应的语音指令即为指定人需要电子设备进行响应的语音指令，第一语音信息即为用于控制电子设备进行响应的语音信息。

否则，可以确定第一语音信息不是用于控制电子设备进行响应的语音信息，即第一语音信息可能是指定用户在与他人聊天时，无意提到的、包含与电子设备的预设语音指令相同的语音指令的语音信息，而指定用户当前没有需要电子设备进行响应的需求，故通过对能量的分析可以较好地推测用户对电子设备的响应需求，避免造成过多的响应。

例如，电子设备中预存有指定用户对应的预设声纹特征，预设语音指令为“helloMoto X”。而采集的第一语音信息包括的N个语音片段中对应有用户1的声纹特征a、用户2的声纹特征b及用户3的声纹特征c，即表明第一语音信息对应的场景信息为多用户语音输入的第二语音场景信息，此时，用户1、用户2和用户3可能处于一同聊天的场景。

若3个声纹特征中没有与预设声纹特征相匹配的声纹特征，则表明当前的聊天场景为非指定人的聊天场景，则无需电子设备进行响应。

若确定声纹特征b与预设声纹特征相同，即用户2为指定人，则可以通过声纹聚类确定第一语音信息中与指定用户对应的语音片段，进而确定出语音片段中是否含有与预设语音指令的语音片段，若不存在，则无需电子设备进行响应。

若声纹信息标记为用户2的声纹特征b的语音片段中含有与预设语音指令“helloMoto X”相对应的多个语音片段，则可以根据能量信息计算多个语音片段的能量的平均值，若其能量的平均值明显高于与其相邻的语音片段的能量的平均值，或N个语音片段中除与预设语音指令对应的多个语音片段外的剩余语音片段的能量的平均值，则确定“helloMoto X”为指定用户(即用户2)在聊天场景中向电子设备发出的语音指令，此时，则需要控制电子设备进行响应。

若计算的多个语音片段的能量的平均值小于或等于与其相邻的语音片段的能量的平均值，或N个语音片段中除与预设语音指令对应的多个语音片段外的剩余语音片段的能量的平均值，则可以确定“hello Moto X”为指定用户在聊天场景中涉及的聊天词汇，无需控制电子设备进行响应，以避免了电子设备的误响应。

具体来说，电子设备在接收第一语音信息后，主要的处理流程可以如图2所示。

本发明实施例中，在确定N个语音片段中每个的声纹信息和能量信息后，S12的处理过程还可以包括：

确定N个语音片段中与预设语音指令相匹配的P个语音片段，P为小于等于N的正整数；

当P个语音片段中每个的声纹信息与预设声纹信息相匹配时，若确定P个语音片段的能量的平均值大于N个语音片段中声纹特征与预设声纹特征不同的至少一个语音片段的能量的平均值，确定第一语音信息为用于控制电子设备进行响应的语音信息，其中，P个语音片段可以具有连续的顺序或间隔很小的间接连接顺序。

该过程中，可以直接在N个语音片段中确定与预设语音指令相匹配的P个语音片段，进而根据能量信息可以计算P个语音片段的能量的平均值，及确定N个语音片段中的至少一个语音片段的能量的平均值，此处的至少一个语音片段可以是与P个语音片段相邻的语音片段，并在确定P个语音片段的能量的平均值大于至少一个语音片段的能量的平均值时，可以确定第一语音信息为用于控制电子设备进行响应的语音信息。

可选的，本发明实施例中，当确定第一语音信息为用于控制电子设备响应其包含的语音指令的语音信息时，可以确定第一语音信息对应的语音指令，进而控制电子设备响应语音指令。

例如，在将获得的第一语音信息划分为N个语音片段后，且每个语音片段标记有相应的声纹特征及能量大小，若预设语音指令为“hello Moto X”，则通过对第一语音信息的语音数据的检测，确定与预设语音指令对应的语音片段为语音片段4-10，则可计算语音片段4-10的能量的第一平均值，同时还可计算相邻的语音片段，如语音片段11-16及语音片段1-3的能量的第二平均值，若第一平均值明显大于第二平均值，则可以表明该语音指令可能是用户特意提高分贝所体现的指令，故需要控制电子设备进行响应，即电子设备可以进入语音指令响应模式，若第一平均值小于等于第二平均值，则可以认为用户未强调该预设语音指令，即用户此时没有需要电子设备对语音指令进行响应的需求，无需控制电子设备对其进行响应，从而避免了误响应的情况。

如图3所示，基于同一发明构思，本发明还公开一种电子设备，该电子设备包括采集装置10和处理器20。

采集装置10可以是设置在电子设备中的声音采集装置，例如可以包括声音传感器、麦克风等。采集装置10可以实时采集电子设备所处环境中的语音信息，或者，也可以在检测存在语音信息时(如用户开始说话时)，对语音信息进行采集，可以用于获取第一语音信息。

处理器20，与采集装置10相连，可以用于确定与所述第一语音信息对应的声纹信息及能量信息，并基于确定的声纹信息及能量信息，确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息。

可选的，本发明实施例中，处理器20可以用于：

将所述第一语音信息划分为N个语音片段；

可选的，本发明实施例中，处理器20可以用于：

可选的，本发明实施例中，若第一语音信息对应的语音场景信息为所述第一语音场景信息，则处理器20可以用于：

可选的，本发明实施例中，若第一语音信息对应的语音场景信息为所述第二语音场景信息，则处理器20可以用于：

确定所述Q个语音片段是否满足预设条件；

可选的，本发明实施例中，处理器20可以用于：

若大于，确定所述Q个语音片段满足所述预设条件。

可选的，本发明实施例中，处理器20可以用于：

可选的，本发明实施例中，处理器20还可以用于：

控制电子设备响应所述语音指令。

如图4所示，基于同一发明构思，本发明还提供一种电子设备，该电子设备包括第一确定模块401和处理模块402。

第一确定模块401可以用于获取第一语音信息，确定与所述第一语音信息对应的声纹信息及能量信息；

处理模块402可以用于基于确定的声纹信息及能量信息，确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息。

可选的，本发明实施例中，第一确定模块401可以用于:将所述第一语音信息划分为N个语音片段；确定所述N个语音片段中每个的声纹信息以及对应的能量信息。

可选的，本发明实施例中，第一确定模块401可以用于:

可选的，本发明实施例中，处理模块402可以用于:

一方面，本发明实施例中，若第一语音信息对应的语音场景信息为所述第一语音场景信息，处理模块402可以用于:

另一方面，本发明实施例中，若第一语音信息对应的语音场景信息为所述第二语音场景信息，处理模块402可以用于:

确定所述Q个语音片段是否满足预设条件；

可选的，本发明实施例中，处理模块402可以用于:

若大于，确定所述Q个语音片段满足所述预设条件。

可选的，本发明实施例中，处理模块402可以用于:

可选的，本发明实施例中，电子设备还可以包括：

第二确定模块，用于当确定所述第一语音信息为用于控制所述电子设备响应其包含的语音指令的语音信息时，确定所述第一语音信息对应的语音指令；

响应模块，用于控制电子设备响应所述语音指令。

具体来讲，本申请实施例中的信息处理方法对应的计算机程序指令可以被存储在光盘，硬盘，U盘等存储介质上，当存储介质中的与信息处理方法对应的计算机程序指令被一电子设备读取或被执行时，包括如下步骤：

基于确定的声纹信息及能量信息，确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息。

可选的，所述存储介质中存储的与步骤：确定与所述第一语音信息对应的声纹信息及能量信息，对应的计算机指令在具体被执行过程中，包括如下步骤：

将所述第一语音信息划分为N个语音片段；

可选的，所述存储介质中还存储有另外一些计算机指令，这些计算机指令在与步骤：将所述第一语音信息划分为N个语音片段对应的指令执行之后被执行，在被执行时包括如下步骤：

可选的，所述存储介质中存储的与步骤：确定所述N个语音片段中每个的声纹信息以及对应的能量信息，对应的计算机指令在具体被执行过程中，包括如下步骤：

可选的，所述存储介质中存储的与步骤：基于确定的声纹信息及能量信息，确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息，对应的计算机指令在具体被执行过程中，包括如下步骤：

可选的，若第一语音信息对应的语音场景信息为所述第一语音场景信息，所述存储介质中存储的与步骤：基于所述第一语音信息对应的语音场景信息，确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息，对应的计算机指令在具体被执行过程中，包括如下步骤：

可选的，若所述第一语音信息对应的语音场景信息为所述第二语音场景信息，所述存储介质中存储的与步骤：基于所述第一语音信息对应的语音场景信息，确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息，对应的计算机指令在具体被执行过程中，包括如下步骤：

确定所述Q个语音片段是否满足预设条件；

可选的，所述存储介质中存储的与步骤：确定所述Q个语音片段是否满足预设条件，对应的计算机指令在具体被执行过程中，包括如下步骤：

若大于，确定所述Q个语音片段满足所述预设条件。

可选的，所述存储介质中还存储有另外一些计算机指令，这些计算机指令在与步骤：确定所述第一语音信息为用于控制所述电子设备响应其包含的语音指令的语音信息，对应的指令执行之后被执行，在被执行时包括如下步骤：

控制电子设备响应所述语音指令。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种信息处理方法，包括：

2.如权利要求1所述的方法，其特征在于，确定与所述第一语音信息对应的声纹信息及能量信息，包括：

将所述第一语音信息划分为N个语音片段；

3.如权利要求2所述的方法，其特征在于，在将所述第一语音信息划分为N个语音片段之后，还包括：

4.如权利要求2所述的方法，其特征在于，确定所述N个语音片段中每个的声纹信息以及对应的能量信息，包括：

5.如权利要求2-4任一权项所述的方法，其特征在于，基于确定的声纹信息及能量信息，确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息，包括：

6.如权利要求5所述的方法，其特征在于，所述第一语音信息对应的语音场景信息为所述第一语音场景信息；

7.如权利要求5所述的方法，其特征在于，所述第一语音信息对应的语音场景信息为所述第二语音场景信息；

基于确定的声纹信息及与预设声纹特征相同且与预设语音指令相匹配且能量大于预设值的语音片段是否满足预设条件，确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息，包括：

确定所述Q个语音片段是否满足预设条件；

8.如权利要求7所述的方法，其特征在于，确定所述Q个语音片段是否满足预设条件，包括：

若大于，确定所述Q个语音片段满足所述预设条件。

9.如权利要求4所述的方法，其特征在于，基于确定的声纹信息及与预设声纹特征相同且与预设语音指令相匹配的语音片段的能量信息的能量的平均值是否大于声纹特征与预设声纹特征不同的至少一个语音片段的能量的平均值，确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息，包括：

10.如权利要求1所述的方法，其特征在于，所述方法还包括：

控制电子设备响应所述语音指令。

11.一种电子设备，包括：

采集装置，用于获取第一语音信息；

处理器，用于执行如下操作：

12.如权利要求11所述的电子设备，其特征在于，所述处理器用于：

将所述第一语音信息划分为N个语音片段；

13.如权利要求12所述的电子设备，其特征在于，所述处理器用于：

14.如权利要求12所述的电子设备，其特征在于，所述处理器用于：

15.如权利要求12-14任一权项所述的电子设备，其特征在于，所述处理器用于：

16.如权利要求15所述的电子设备，其特征在于，所述第一语音信息对应的语音场景信息为所述第一语音场景信息，所述处理器用于：

17.如权利要求15所述的电子设备，其特征在于，所述第一语音信息对应的语音场景信息为所述第二语音场景信息，所述处理器用于：

确定所述Q个语音片段是否满足预设条件；

18.如权利要求17所述的电子设备，其特征在于，所述处理器用于：

若大于，确定所述Q个语音片段满足所述预设条件。

19.如权利要求14所述的电子设备，其特征在于，所述处理器用于：

20.如权利要求11所述的电子设备，其特征在于，所述处理器用于：

控制电子设备响应所述语音指令。

21.一种电子设备，包括：

处理模块，用于执行如下操作：