CN105139858B - 一种信息处理方法及电子设备 - Google Patents

一种信息处理方法及电子设备 Download PDF

Info

Publication number
CN105139858B
CN105139858B CN201510446520.XA CN201510446520A CN105139858B CN 105139858 B CN105139858 B CN 105139858B CN 201510446520 A CN201510446520 A CN 201510446520A CN 105139858 B CN105139858 B CN 105139858B
Authority
CN
China
Prior art keywords
sound bite
voice messaging
voice
vocal print
print feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510446520.XA
Other languages
English (en)
Other versions
CN105139858A (zh
Inventor
徐培来
孙艳庆
汪俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201510446520.XA priority Critical patent/CN105139858B/zh
Publication of CN105139858A publication Critical patent/CN105139858A/zh
Application granted granted Critical
Publication of CN105139858B publication Critical patent/CN105139858B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明实施例提供一种信息处理方法及电子设备,用于解决电子设备误响应率较高的技术问题。该方法包括:获取第一语音信息,确定与所述第一语音信息对应的声纹信息及能量信息;基于确定的声纹信息及能量信息,确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息。

Description

一种信息处理方法及电子设备
技术领域
本发明涉及电子技术领域,特别涉及一种信息处理方法及电子设备。
背景技术
随着科学技术的不断发展,电子技术也得到了飞速的发展,电子设备具有越来越丰富的功能。其中,语音交互技术的广泛应用,使得用户能够通过语音实现对电子设备的控制,为设备的智能化作出了巨大贡献。
目前,由于在通过语音对电子设备的控制的过程中,若检测到存在相应的语音命令,则电子设备即可进行响应,使得一些非指定用户也能轻易触发电子设备,从而导致较多电子设备的误响应问题较为严重,还可能导致用户的隐私被泄露。而随着声纹识别技术的引入,可以预先建立指定用户的声纹模型,在识别到指定用户的语音时,再控制设备进入语音响应模式,否则可以拒绝响应,从而可以在一定程度上屏蔽非指定用户利用语音对电子设备进行的误触发。
然而,虽然以上介绍的声纹识别技术在一定程度上解决了语音交互技术中存在的电子设备会响应非指定用户的语音指令的问题,但对于一些特殊场景来说,如指定用户在与其他用户聊天的过程中,指定用户的话语可能仍会导致设备进行误响应,因此,电子设备的误响应问题依然较严重。
发明内容
本发明实施例提供一种信息处理方法及电子设备,用于解决电子设备误响应率较高的技术问题。
一种信息处理方法,包括以下步骤:
获取第一语音信息,确定与所述第一语音信息对应的声纹信息及能量信息;
基于确定的声纹信息及与预设声纹特征相同且与预设语音指令相匹配且能量大于预设值的语音片段是否满足预设条件,确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息;或者
基于确定的声纹信息及与预设声纹特征相同且与预设语音指令相匹配的语音片段的能量信息的能量的平均值是否大于声纹特征与预设声纹特征不同的至少一个语音片段的能量的平均值,确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息。
可选的,确定与所述第一语音信息对应的声纹信息及能量信息,包括:
将所述第一语音信息划分为N个语音片段;
确定所述N个语音片段中每个的声纹信息以及对应的能量信息。
可选的,在将所述第一语音信息划分为N个语音片段之后,还包括:
基于语音产生的时间先后顺序,确定所述N个语音片段对应的顺序;
确定所述N个语音片段中每个的声纹信息以及对应的能量信息,包括:
基于所述N个语音片段对应的顺序,确定所述N个语音片段中每个的声纹信息及对应的能量信息。
可选的,确定所述N个语音片段中每个的声纹信息以及对应的能量信息,包括:
基于所述N个语音片段中每个对应的声纹特征对所述N个语音片段分别进行标记,得到与所述N个语音片段对应的声纹信息;及
基于所述N个语音片段中每个对应的能量对所述N个语音片段分别进行标记,得到与所述N个语音片段对应的能量信息。
可选的,基于确定的声纹信息及能量信息,确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息,包括:
确定所述N个语音片段中能量大于预设值的M个语音片段,M为不大于N的正整数;
若所述M个语音片段的声纹特征均相同,确定所述第一语音信息对应的场景信息为单用户语音输入的第一语音场景信息;否则,确定所述第一语音信息对应的场景信息为多用户语音输入的第二语音场景信息;
基于所述第一语音信息对应的语音场景信息,确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息。
可选的,所述第一语音信息对应的语音场景信息为所述第一语音场景信息;
基于所述第一语音信息对应的语音场景信息,确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息,包括:
若所述M个语音片段对应的声纹特征与预设声纹特征相同,确定所述第一语音信息为用于控制电子设备进行响应的语音信息。
可选的,所述第一语音信息对应的语音场景信息为所述第二语音场景信息;
基于所述第一语音信息对应的语音场景信息,确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息,包括:
确定所述M个语音片段中是否存在声纹特征与预设声纹特征相同的语音片段;
若所述M个语音片段中不存在声纹特征与预设声纹特征相同的语音片段,确定所述第一语音信息不是用于控制所述电子设备进行响应的语音信息;或者,若所述M个语音片段中存在声纹特征与预设声纹特征相同的语音片段,获得声纹特征与预设声纹特征相同的语音片段中与预设语音指令相匹配的Q个语音片段,Q为小于等于M的正整数;
确定所述Q个语音片段是否满足预设条件;
若满足,确定所述第一语音信息为用于控制所述电子设备进行响应的语音信息。
可选的,确定所述Q个语音片段是否满足预设条件,包括:
基于所述Q个语音片段中每个的能量信息,确定所述Q个语音片段的能量的平均值;
确定所述平均值是否大于声纹特征与预设声纹特征不同的至少一个语音片段的能量的平均值;
若大于,确定所述Q个语音片段满足所述预设条件。
可选的,基于确定的声纹信息及能量信息,确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息,包括:
确定所述N个语音片段中与预设语音指令相匹配的P个语音片段,P为小于等于N的正整数;
当所述P个语音片段中每个的声纹信息与预设声纹信息相匹配时,若确定所述P个语音片段的能量的平均值大于N个语音片段中声纹特征与预设声纹特征不同的至少一个语音片段的能量的平均值,确定所述第一语音信息为用于控制电子设备进行响应的语音信息。
可选的,所述方法还包括:
当确定所述第一语音信息为用于控制所述电子设备响应其包含的语音指令的语音信息时,确定所述第一语音信息对应的语音指令;
控制电子设备响应所述语音指令。
一种电子设备,包括:
采集装置,用于获取第一语音信息;
处理器,用于执行如下操作:
确定与所述第一语音信息对应的声纹信息及能量信息,并基于确定的声纹信息及与预设声纹特征相同且与预设语音指令相匹配且能量大于预设值的语音片段是否满足预设条件,确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息,或者
确定与所述第一语音信息对应的声纹信息及能量信息,并基于确定的声纹信息及与预设声纹特征相同且与预设语音指令相匹配的语音片段的能量信息的能量的平均值是否大于声纹特征与预设声纹特征不同的至少一个语音片段的能量的平均值,确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息。
可选的,所述处理器用于:
将所述第一语音信息划分为N个语音片段;
确定所述N个语音片段中每个的声纹信息以及对应的能量信息。
可选的,所述处理器用于:
在将所述第一语音信息划分为N个语音片段之后,基于语音产生的时间先后顺序,确定所述N个语音片段对应的顺序;并基于所述N个语音片段对应的顺序,确定所述N个语音片段中每个的声纹信息及对应的能量信息。
可选的,所述处理器用于:
基于所述N个语音片段中每个对应的声纹特征对所述N个语音片段分别进行标记,得到与所述N个语音片段对应的声纹信息;及
基于所述N个语音片段中每个对应的能量对所述N个语音片段分别进行标记,得到与所述N个语音片段对应的能量信息。
可选的,所述处理器用于:
确定所述N个语音片段中能量大于预设值的M个语音片段,M为不大于N的正整数;
若所述M个语音片段的声纹特征均相同,确定所述第一语音信息对应的场景信息为单用户语音输入的第一语音场景信息;否则,确定所述第一语音信息对应的场景信息为多用户语音输入的第二语音场景信息;
基于所述第一语音信息对应的语音场景信息,确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息。
可选的,所述第一语音信息对应的语音场景信息为所述第一语音场景信息,所述处理器用于:
若所述M个语音片段对应的声纹特征与预设声纹特征相同,确定所述第一语音信息为用于控制电子设备进行响应的语音信息
可选的,所述第一语音信息对应的语音场景信息为所述第二语音场景信息,所述处理器用于:
确定所述M个语音片段中是否存在声纹特征与预设声纹特征相同的语音片段;
若所述M个语音片段中不存在声纹特征与预设声纹特征相同的语音片段,确定所述第一语音信息不是用于控制所述电子设备进行响应的语音信息;或者,若所述M个语音片段中存在声纹特征与预设声纹特征相同的语音片段,获得声纹特征与预设声纹特征相同的语音片段中与预设语音指令相匹配的Q个语音片段,Q为小于等于M的正整数;
确定所述Q个语音片段是否满足预设条件;
若满足,确定所述第一语音信息为用于控制所述电子设备进行响应的语音信息。
可选的,所述处理器用于:
基于所述Q个语音片段中每个的能量信息,确定所述Q个语音片段的能量的平均值;
确定所述平均值是否大于声纹特征与预设声纹特征不同的至少一个语音片段的能量的平均值;
若大于,确定所述Q个语音片段满足所述预设条件。
可选的,所述处理器用于:
确定所述N个语音片段中与预设语音指令相匹配的P个语音片段,P为小于等于N的正整数;
当所述P个语音片段中每个的声纹信息与预设声纹信息相匹配时,若确定所述P个语音片段的能量的平均值大于N个语音片段中声纹特征与预设声纹特征不同的至少一个语音片段的能量的平均值,确定所述第一语音信息为用于控制电子设备进行响应的语音信息。
可选的,所述处理器用于:
当确定所述第一语音信息为用于控制所述电子设备响应其包含的语音指令的语音信息时,确定所述第一语音信息对应的语音指令;
控制电子设备响应所述语音指令。
一种电子设备,包括:
确定模块,用于获取第一语音信息,确定与所述第一语音信息对应的声纹信息及能量信息;
处理模块,用于执行如下操作:
基于确定的声纹信息及与预设声纹特征相同且与预设语音指令相匹配且能量大于预设值的语音片段是否满足预设条件,确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息,或者
基于确定的声纹信息及与预设声纹特征相同且与预设语音指令相匹配的语音片段的能量信息的能量的平均值是否大于声纹特征与预设声纹特征不同的至少一个语音片段的能量的平均值,确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息。
本发明实施例中,可以确定获得的第一语音信息对应的声纹信息和能量信息,通过对第一语音信息的声纹信息和能量信息的分析,可以确定第一语音信息是否为用于控制电子设备进行响应的语音信息,因结合了第一语音信息的声纹信息和能量信息,故使得分析结果较为准确,从而能够较为准确地确定电子设备是否要对语音信息进行响应,避免出现仅依靠单一的声纹信息来控制电子设备对用户的语音指令进行响应的情况,降低电子设备的误响应率。
例如,在多人聊天时,即便采集到包含指定用户的声纹信息的语音信息,也不会立刻控制电子设备进行响应,而还需要结合相应的能量信息来确定是否控制电子设备进行响应,以提高电子设备在对语音信息进行响应时的准确性。
附图说明
图1为本发明实施例中信息处理方法的流程图;
图2为本发明实施例中第一语音信息主要处理流程;
图3为本发明实施例中电子设备的结构示意图;
图4为本发明实施例中电子设备的结构框图。
具体实施方式
本发明实施例提供一种信息处理方法及电子设备,该方法包括:获取第一语音信息,确定与所述第一语音信息对应的声纹信息及能量信息;基于确定的声纹信息及能量信息,确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息。
本发明实施例中,可以确定获得的第一语音信息对应的声纹信息和能量信息,通过对第一语音信息的声纹信息和能量信息的分析,可以确定第一语音信息是否为用于控制电子设备进行响应的语音信息,因结合了第一语音信息的声纹信息和能量信息,故使得分析结果较为准确,从而能够较为准确地确定电子设备是否要对语音信息进行响应,避免出现仅依靠单一的声纹信息来控制电子设备对用户的语音指令进行响应的情况,降低电子设备的误响应率。
例如,在多人聊天时,即便采集到包含指定用户的声纹信息的语音信息,也不会立刻控制电子设备进行响应,而还需要结合相应的能量信息来确定是否控制电子设备进行响应,以提高电子设备在对语音信息进行响应时的准确性。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中,电子设备可以是PC(个人计算机)、笔记本、PAD(平板电脑)、手机等不同的设备,本发明对此不作限制。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图对本发明优选的实施方式进行详细说明。
如图1所示,本发明实施例提供一种信息处理方法,该方法的流程描述如下。
S11:获取第一语音信息,确定与第一语音信息对应的声纹信息及能量信息。
本发明实施例中,本发明实施例中,第一语音信息可以是通过电子设备所采集的用户说话的语音信息,如可以是包括用户说的一句或一段声音内容的信息。
在实际应用中,可以通过电子设备中设置的声音采集装置来获取第一语音信息,声音采集装置例如可以包括声音传感器、麦克风等。声音采集装置可以实时采集电子设备所处环境中的语音信息,或者,也可以在检测存在语音信息时(如用户开始说话时),对语音信息进行采集。在采集过程中,电子设备可以是处于待机状态,其不会对语音信息中的语音指令立即进行响应,而需要相应的触发信息,如含有预设指令的语音信息等。
可选的,本发明实施例中,声纹信息中可以包含语音信息的声纹特征,从而根据声纹信息中不同的声纹特征可以区分不同的声音对象,如声音对象可以是用户1、用户2、机器噪音等。
在实际应用中,在确定第一语音信息的声纹信息和能量信息之前,可以对第一语音信息进行去噪处理,以便后期较好地对语音信息进行声纹特征及能量的分享处理。
可选的,本发明实施例中,在S11中,确定第一语音信息的声纹信息及能量信息,可以包括:
将第一语音信息划分为N个语音片段,确定N个语音片段中每个的声纹信息以及对应的能量信息。
其中,时间长度可以是指每个语音片段对应的时间长度,如可能是5ms、10ms等,本发明不作具体限制。
在实际应用中,可以根据语音信息中包含的语音数据的多少来确定相应的时间长度。例如,若第一语音信息包含的语音数据较多,则可按对应时间较短的第一时间长度对第一语音信息进行分段,若第一语音信息包含的语音数据较少,则可按对应时间较长的第二时间长度对第一语音信息进行分段,其中,第一时间长度可以小于第二时间长度。
例如,语音信息1为说话较快的用户A的语音信息,语音信息2为说话较为缓慢的用户2的语音信息。则在相同的时长内,语音信息1对应的语音数据可能多于语音信息2对应的语音数据,因此,确定的语音信息1的时间长度可以是5ms,语音信息2对应的时间长度可以是10ms,以尽量避免出现太多不包含语音数据的空白片段。
可选的,本发明实施例中,在将第一语音信息划分为N个语音片段之后,还可以基于语音信息产生的时间先后顺序,确定N个语音片段对应的顺序。当然,在实际应用中,还可按照确定的顺序对N个语音片段进行编号,形成N个语音片段的时间序列,便于电子设备在进行相应处理时可按照时间序列进行。
可选的,本发明实施例中,确定N个语音片段中每个的声纹信息以及对应的能量信息,可以包括:
基于N个语音片段对应的顺序,确定N个语音片段中每个的声纹信息及对应的能量信息,即,可按照N个语音片段产生的先后顺序依次对每个语音片段进行处理,故在电子设备对第一语音信息进行划分的过程中,可以按照语音片段的产生的顺序实时地对语音片段进行处理,以提高处理效率。
本发明实施例中,确定N个语音片段中每个的声纹信息以及对应的能量信息,可以包括以下两方面。
一方面:
基于N个语音片段中每个对应的声纹特征对N个语音片段分别进行标记,得到与N个语音片段对应的声纹信息。
在实际应用中,由于第一语音信息可能对应有多个不同的声纹特征,而每个声纹特征具有各自对应的声音对象,如说话者1、说话者2等。因此,在对N个语音片段进行声纹特征识别的过程中,还可以确定声纹特征对应的类别,如人类、动物、机器等,进而可按照不同类别的声音对象对语音片段进行标记。
当然,本发明实施例中的标记可以主要是指针对声纹特征表征的对象为人类的语音片段所进行的标记。例如,若确定时间序列为1-3的语音片段均对应声纹特征a,时间序列为8-15的语音片段均对应声纹特征b,则可将语音片段1-3中每个标记为声纹特征a,而将语音片段8-15中每个标记为声纹特征b,等等。
此外,对于对应非人类的声纹特征的语音片段可以进行统一标记,如可以采用预设标记进行标记(如标记为空),以便于电子设备根据标记将其与用户(即人类)的语音片段的标记分区。
另一方面:
基于N个语音片段中每个对应的能量对N个语音片段分别进行标记,得到与N个语音片段对应的能量信息。
具体来说,电子设备可以将N个语音片段中每个对应的语音信息在时域内进行短时能量分析,确定与每个语音片段对应的能量大小,进而,可以根据能量大小对语音片段进行标记,如1、2、3、4等。通常来说,语音片段对应的能量越大,其对应的语音信息中语音的分贝可能就越大。
或者,在实际应用中,还可以对语音片段的能量进行等级划分,如对于能量小于3的语音片段可以标记为能量一级,对于能量处于[3,6)的语音片段可以标记为能量二级,而处于[6,9)的语音片段可以标记为能量三级,等等。其中,若确定语音片段的能量为能量一级,则可以认为语音的分贝较低,能量较小,可能是用户低语或设备自身的噪声等,在实际计算中,可忽略不计。
需要说明的是,以上两方面可以是并行进行的,以提高电子设备对语音信息的处理效率,从而压缩电子设备的响应时间。此外,在实际应用中,当多个对象同时发出声音时,一个语音片段可能会对应于多个声纹特征,此时,在确定语音片段的声纹信息及能量信息时,可根据多个声纹特征中能量最大的声纹特征对语音片段进行标记,获得与该语音片段相应的能量信息和声纹信息。
S12:基于确定的声纹信息及能量信息,确定第一语音信息是否为用于控制电子设备进行响应的语音信息。
本发明实施例中,由于在S12之前已经确定N个语音片段中每个对应的声纹信息及能量信息,因此,在进行S12时,可以包括以下步骤:
确定N个语音片段中能量大于预设值的M个语音片段,M为不大于N的正整数;
若M个语音片段的声纹特征均相同,确定第一语音信息对应的场景信息为单用户语音输入的第一语音场景信息;否则,确定第一语音信息对应的场景信息为多用户语音输入的第二语音场景信息;
基于第一语音信息对应的语音场景信息,确定第一语音信息是否为用于控制电子设备进行响应的语音信息。
其中,预设值可以作为语音片段的能量大小的划分值,如能量等级一与能量等级二之间的临界能量值,即能量3,或者也可以是预设的其它能量值,如2、4甚至0等等,本发明不作具体限制。
若语音片段的能量小于预设值,则表明该语音片段对应的语音信息的能量较小,可默认为背景语音,如噪音、低语等,其能量可忽略不计。反之,则可以认为语音片段对应的语音信息的能量较大,例如第一语音信息可能为包含语音指令的语音信息。
在以上过程中,在根据声纹信息确定M个语音片段的声纹特征是否均相同时,具体可以是确定M个语音片段中声纹特征对应的对象为人类的多个语音片段的声纹特征是否相同,如是否均为对应用户1的声纹a,还是包含对应不同用户的多个声纹。若是对应同一用户,则可以确定第一语音信息为与单用户对应的语音信息,而当前的语音场景信息为第一语音场景信息,否则,则确定第一语音信息为与多用户对应的语音信息,而当前的语音场景信息为第二语音场景信息。
进而,根据不同的语音场景信息可以进一步对第一语音信息进行判断,确定其是否为用于控制电子设备进行响应的语音信息。具体来说,针对不同的语音场景,S12可以具有不同的处理过程,以下分别介绍两种语音场景下S12的处理过程。
情况一:第一语音信息对应的语音场景信息为第一语音场景信息。S12可以包括:
若M个语音片段对应的声纹特征与预设声纹特征相同,确定第一语音信息为用于控制电子设备进行响应的语音信息。
其中,预设声纹特征可以是指定用户对应的声纹特征,该指定用户可以是预设用户,电子设备中可以预存有与其声纹特征对应的预设声纹模型,通过将语音片段的声纹特征的声纹模式与预设声纹模型的匹配,即可确定是否与预设声纹特征相同。
当然,若确定M个语音片段对应的声纹特征与预设的声纹特征相同,则可确定第一语音信息为指定用户发出的语音对应的语音信息,由于此时的场景为单用户场景,故此时,可以确定第一语音信息为控制电子设备进行相应的语音信息,进而电子设备可以对第一语音信息中相关的语音指令进行响应。
情况二:第一语音信息对应的语音场景信息为第二语音场景信息。S12可以包括:
确定M个语音片段中是否存在声纹特征与预设声纹特征相同的语音片段;
若M个语音片段中不存在声纹特征与预设声纹特征相同的语音片段,确定第一语音信息不是用于控制所述电子设备进行响应的语音信息;或者,若M个语音片段中存在声纹特征与预设声纹特征相同的语音片段,获得声纹特征与预设声纹特征相同的语音片段中与预设语音指令相匹配的Q个语音片段,Q为小于等于M的正整数;
确定Q个语音片段是否满足预设条件;
若满足,确定第一语音信息为用于控制电子设备进行响应的语音信息。
其中,若M个语音片段中不存在声纹特征与预设声纹特征相同的语音片段,即可确定第一语音信息为非指定用户的语音信息,此时,无需控制电子设备进行响应。
此外,在确定M个语音片段中存在声纹特征与预设声纹特征相同的语音片段时,可以在确定的语音片段中获得与预设语音指令相匹配的Q个语音片段。其中,Q个语音片段可以具有连续的顺序的语音片段,以表明其预设语音指令对应的语音片段,而非拼凑语音指令所确定的语音片段,如Q个语音片段对应的顺序可以是4、5、6、7等,或者,Q个语音片段也可以是顺序间接连续的语音片段,如对应的顺序可以是3、5、6、8、9等,即可能用户说话较慢,在对包含语音指令的语音部分进行划分时,会形成不包含语音数据的空白片段,从而导致确定的Q个语音片段对应的顺序不会完全连续。
当然,若声纹特征与预设声纹特征相同的语音片段中不存在Q个语音片段,则可以确定第一语音信息的当前场景为指定用户与他人聊天的场景。其中,预设语音指令可以是用于控制电子设备进行相应的响应操作的指令,在获得Q个语音片段后,还可以根据能量信息对Q个语音片段进行进一步的判断,以确定Q个语音片段是否满足预设条件。
具体来说,在获得Q个语音片段后,可以基于Q个语音片段中每个的能量信息确定Q个语音片段的能量的平均值,以及,可以确定M个语音片段中声纹特征与预设声纹特征不同的至少一个语音片段的能量的平均值。
其中,至少一个语音片段可以是M个语音片段中声纹特征与预设声纹特征不同的所有语音片段,或者,也可以是与Q个语音片段相邻的语音片段,如与Q个语音片段相邻、且顺序位于Q个语音片段之前和/或之后的顺序连续的多个语音片段。
可选的,本发明实施例中,若确定Q个语音片段的能量的平均值大于至少一个语音片段的能量的平均值,则Q个语音片段满足预设条件,可以确定Q个语音片段对应的语音指令即为指定人需要电子设备进行响应的语音指令,第一语音信息即为用于控制电子设备进行响应的语音信息。
否则,可以确定第一语音信息不是用于控制电子设备进行响应的语音信息,即第一语音信息可能是指定用户在与他人聊天时,无意提到的、包含与电子设备的预设语音指令相同的语音指令的语音信息,而指定用户当前没有需要电子设备进行响应的需求,故通过对能量的分析可以较好地推测用户对电子设备的响应需求,避免造成过多的响应。
例如,电子设备中预存有指定用户对应的预设声纹特征,预设语音指令为“helloMoto X”。而采集的第一语音信息包括的N个语音片段中对应有用户1的声纹特征a、用户2的声纹特征b及用户3的声纹特征c,即表明第一语音信息对应的场景信息为多用户语音输入的第二语音场景信息,此时,用户1、用户2和用户3可能处于一同聊天的场景。
若3个声纹特征中没有与预设声纹特征相匹配的声纹特征,则表明当前的聊天场景为非指定人的聊天场景,则无需电子设备进行响应。
若确定声纹特征b与预设声纹特征相同,即用户2为指定人,则可以通过声纹聚类确定第一语音信息中与指定用户对应的语音片段,进而确定出语音片段中是否含有与预设语音指令的语音片段,若不存在,则无需电子设备进行响应。
若声纹信息标记为用户2的声纹特征b的语音片段中含有与预设语音指令“helloMoto X”相对应的多个语音片段,则可以根据能量信息计算多个语音片段的能量的平均值,若其能量的平均值明显高于与其相邻的语音片段的能量的平均值,或N个语音片段中除与预设语音指令对应的多个语音片段外的剩余语音片段的能量的平均值,则确定“helloMoto X”为指定用户(即用户2)在聊天场景中向电子设备发出的语音指令,此时,则需要控制电子设备进行响应。
若计算的多个语音片段的能量的平均值小于或等于与其相邻的语音片段的能量的平均值,或N个语音片段中除与预设语音指令对应的多个语音片段外的剩余语音片段的能量的平均值,则可以确定“hello Moto X”为指定用户在聊天场景中涉及的聊天词汇,无需控制电子设备进行响应,以避免了电子设备的误响应。
具体来说,电子设备在接收第一语音信息后,主要的处理流程可以如图2所示。
本发明实施例中,在确定N个语音片段中每个的声纹信息和能量信息后,S12的处理过程还可以包括:
确定N个语音片段中与预设语音指令相匹配的P个语音片段,P为小于等于N的正整数;
当P个语音片段中每个的声纹信息与预设声纹信息相匹配时,若确定P个语音片段的能量的平均值大于N个语音片段中声纹特征与预设声纹特征不同的至少一个语音片段的能量的平均值,确定第一语音信息为用于控制电子设备进行响应的语音信息,其中,P个语音片段可以具有连续的顺序或间隔很小的间接连接顺序。
该过程中,可以直接在N个语音片段中确定与预设语音指令相匹配的P个语音片段,进而根据能量信息可以计算P个语音片段的能量的平均值,及确定N个语音片段中的至少一个语音片段的能量的平均值,此处的至少一个语音片段可以是与P个语音片段相邻的语音片段,并在确定P个语音片段的能量的平均值大于至少一个语音片段的能量的平均值时,可以确定第一语音信息为用于控制电子设备进行响应的语音信息。
可选的,本发明实施例中,当确定第一语音信息为用于控制电子设备响应其包含的语音指令的语音信息时,可以确定第一语音信息对应的语音指令,进而控制电子设备响应语音指令。
例如,在将获得的第一语音信息划分为N个语音片段后,且每个语音片段标记有相应的声纹特征及能量大小,若预设语音指令为“hello Moto X”,则通过对第一语音信息的语音数据的检测,确定与预设语音指令对应的语音片段为语音片段4-10,则可计算语音片段4-10的能量的第一平均值,同时还可计算相邻的语音片段,如语音片段11-16及语音片段1-3的能量的第二平均值,若第一平均值明显大于第二平均值,则可以表明该语音指令可能是用户特意提高分贝所体现的指令,故需要控制电子设备进行响应,即电子设备可以进入语音指令响应模式,若第一平均值小于等于第二平均值,则可以认为用户未强调该预设语音指令,即用户此时没有需要电子设备对语音指令进行响应的需求,无需控制电子设备对其进行响应,从而避免了误响应的情况。
如图3所示,基于同一发明构思,本发明还公开一种电子设备,该电子设备包括采集装置10和处理器20。
采集装置10可以是设置在电子设备中的声音采集装置,例如可以包括声音传感器、麦克风等。采集装置10可以实时采集电子设备所处环境中的语音信息,或者,也可以在检测存在语音信息时(如用户开始说话时),对语音信息进行采集,可以用于获取第一语音信息。
处理器20,与采集装置10相连,可以用于确定与所述第一语音信息对应的声纹信息及能量信息,并基于确定的声纹信息及能量信息,确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息。
可选的,本发明实施例中,处理器20可以用于:
将所述第一语音信息划分为N个语音片段;
确定所述N个语音片段中每个的声纹信息以及对应的能量信息。
可选的,本发明实施例中,处理器20可以用于:
在将所述第一语音信息划分为N个语音片段之后,基于语音产生的时间先后顺序,确定所述N个语音片段对应的顺序;并基于所述N个语音片段对应的顺序,确定所述N个语音片段中每个的声纹信息及对应的能量信息。
可选的,本发明实施例中,处理器20可以用于:
基于所述N个语音片段中每个对应的声纹特征对所述N个语音片段分别进行标记,得到与所述N个语音片段对应的声纹信息;及
基于所述N个语音片段中每个对应的能量对所述N个语音片段分别进行标记,得到与所述N个语音片段对应的能量信息。
可选的,本发明实施例中,处理器20可以用于:
确定所述N个语音片段中能量大于预设值的M个语音片段,M为不大于N的正整数;
若所述M个语音片段的声纹特征均相同,确定所述第一语音信息对应的场景信息为单用户语音输入的第一语音场景信息;否则,确定所述第一语音信息对应的场景信息为多用户语音输入的第二语音场景信息;
基于所述第一语音信息对应的语音场景信息,确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息。
可选的,本发明实施例中,若第一语音信息对应的语音场景信息为所述第一语音场景信息,则处理器20可以用于:
若所述M个语音片段对应的声纹特征与预设声纹特征相同,确定所述第一语音信息为用于控制电子设备进行响应的语音信息
可选的,本发明实施例中,若第一语音信息对应的语音场景信息为所述第二语音场景信息,则处理器20可以用于:
确定所述M个语音片段中是否存在声纹特征与预设声纹特征相同的语音片段;
若所述M个语音片段中不存在声纹特征与预设声纹特征相同的语音片段,确定所述第一语音信息不是用于控制所述电子设备进行响应的语音信息;或者,若所述M个语音片段中存在声纹特征与预设声纹特征相同的语音片段,获得声纹特征与预设声纹特征相同的语音片段中与预设语音指令相匹配的Q个语音片段,Q为小于等于M的正整数;
确定所述Q个语音片段是否满足预设条件;
若满足,确定所述第一语音信息为用于控制所述电子设备进行响应的语音信息。
可选的,本发明实施例中,处理器20可以用于:
基于所述Q个语音片段中每个的能量信息,确定所述Q个语音片段的能量的平均值;
确定所述平均值是否大于声纹特征与预设声纹特征不同的至少一个语音片段的能量的平均值;
若大于,确定所述Q个语音片段满足所述预设条件。
可选的,本发明实施例中,处理器20可以用于:
确定所述N个语音片段中与预设语音指令相匹配的P个语音片段,P为小于等于N的正整数;
当所述P个语音片段中每个的声纹信息与预设声纹信息相匹配时,若确定所述P个语音片段的能量的平均值大于N个语音片段中声纹特征与预设声纹特征不同的至少一个语音片段的能量的平均值,确定所述第一语音信息为用于控制电子设备进行响应的语音信息。
可选的,本发明实施例中,处理器20还可以用于:
当确定所述第一语音信息为用于控制所述电子设备响应其包含的语音指令的语音信息时,确定所述第一语音信息对应的语音指令;
控制电子设备响应所述语音指令。
如图4所示,基于同一发明构思,本发明还提供一种电子设备,该电子设备包括第一确定模块401和处理模块402。
第一确定模块401可以用于获取第一语音信息,确定与所述第一语音信息对应的声纹信息及能量信息;
处理模块402可以用于基于确定的声纹信息及能量信息,确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息。
可选的,本发明实施例中,第一确定模块401可以用于:将所述第一语音信息划分为N个语音片段;确定所述N个语音片段中每个的声纹信息以及对应的能量信息。
可选的,本发明实施例中,第一确定模块401可以用于:
在将所述第一语音信息划分为N个语音片段之后,基于语音产生的时间先后顺序,确定所述N个语音片段对应的顺序;并基于所述N个语音片段对应的顺序,确定所述N个语音片段中每个的声纹信息及对应的能量信息。
可选的,本发明实施例中,第一确定模块401可以用于:
基于所述N个语音片段中每个对应的声纹特征对所述N个语音片段分别进行标记,得到与所述N个语音片段对应的声纹信息;及
基于所述N个语音片段中每个对应的能量对所述N个语音片段分别进行标记,得到与所述N个语音片段对应的能量信息。
可选的,本发明实施例中,处理模块402可以用于:
确定所述N个语音片段中能量大于预设值的M个语音片段,M为不大于N的正整数;
若所述M个语音片段的声纹特征均相同,确定所述第一语音信息对应的场景信息为单用户语音输入的第一语音场景信息;否则,确定所述第一语音信息对应的场景信息为多用户语音输入的第二语音场景信息;
基于所述第一语音信息对应的语音场景信息,确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息。
一方面,本发明实施例中,若第一语音信息对应的语音场景信息为所述第一语音场景信息,处理模块402可以用于:
若所述M个语音片段对应的声纹特征与预设声纹特征相同,确定所述第一语音信息为用于控制电子设备进行响应的语音信息。
另一方面,本发明实施例中,若第一语音信息对应的语音场景信息为所述第二语音场景信息,处理模块402可以用于:
确定所述M个语音片段中是否存在声纹特征与预设声纹特征相同的语音片段;
若所述M个语音片段中不存在声纹特征与预设声纹特征相同的语音片段,确定所述第一语音信息不是用于控制所述电子设备进行响应的语音信息;或者,若所述M个语音片段中存在声纹特征与预设声纹特征相同的语音片段,获得声纹特征与预设声纹特征相同的语音片段中与预设语音指令相匹配的Q个语音片段,Q为小于等于M的正整数;
确定所述Q个语音片段是否满足预设条件;
若满足,确定所述第一语音信息为用于控制所述电子设备进行响应的语音信息。
可选的,本发明实施例中,处理模块402可以用于:
基于所述Q个语音片段中每个的能量信息,确定所述Q个语音片段的能量的平均值;
确定所述平均值是否大于声纹特征与预设声纹特征不同的至少一个语音片段的能量的平均值;
若大于,确定所述Q个语音片段满足所述预设条件。
可选的,本发明实施例中,处理模块402可以用于:
确定所述N个语音片段中与预设语音指令相匹配的P个语音片段,P为小于等于N的正整数;
当所述P个语音片段中每个的声纹信息与预设声纹信息相匹配时,若确定所述P个语音片段的能量的平均值大于N个语音片段中声纹特征与预设声纹特征不同的至少一个语音片段的能量的平均值,确定所述第一语音信息为用于控制电子设备进行响应的语音信息。
可选的,本发明实施例中,电子设备还可以包括:
第二确定模块,用于当确定所述第一语音信息为用于控制所述电子设备响应其包含的语音指令的语音信息时,确定所述第一语音信息对应的语音指令;
响应模块,用于控制电子设备响应所述语音指令。
具体来讲,本申请实施例中的信息处理方法对应的计算机程序指令可以被存储在光盘,硬盘,U盘等存储介质上,当存储介质中的与信息处理方法对应的计算机程序指令被一电子设备读取或被执行时,包括如下步骤:
获取第一语音信息,确定与所述第一语音信息对应的声纹信息及能量信息;
基于确定的声纹信息及能量信息,确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息。
可选的,所述存储介质中存储的与步骤:确定与所述第一语音信息对应的声纹信息及能量信息,对应的计算机指令在具体被执行过程中,包括如下步骤:
将所述第一语音信息划分为N个语音片段;
确定所述N个语音片段中每个的声纹信息以及对应的能量信息。
可选的,所述存储介质中还存储有另外一些计算机指令,这些计算机指令在与步骤:将所述第一语音信息划分为N个语音片段对应的指令执行之后被执行,在被执行时包括如下步骤:
基于语音产生的时间先后顺序,确定所述N个语音片段对应的顺序;
确定所述N个语音片段中每个的声纹信息以及对应的能量信息,包括:
基于所述N个语音片段对应的顺序,确定所述N个语音片段中每个的声纹信息及对应的能量信息。
可选的,所述存储介质中存储的与步骤:确定所述N个语音片段中每个的声纹信息以及对应的能量信息,对应的计算机指令在具体被执行过程中,包括如下步骤:
基于所述N个语音片段中每个对应的声纹特征对所述N个语音片段分别进行标记,得到与所述N个语音片段对应的声纹信息;及
基于所述N个语音片段中每个对应的能量对所述N个语音片段分别进行标记,得到与所述N个语音片段对应的能量信息。
可选的,所述存储介质中存储的与步骤:基于确定的声纹信息及能量信息,确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息,对应的计算机指令在具体被执行过程中,包括如下步骤:
确定所述N个语音片段中能量大于预设值的M个语音片段,M为不大于N的正整数;
若所述M个语音片段的声纹特征均相同,确定所述第一语音信息对应的场景信息为单用户语音输入的第一语音场景信息;否则,确定所述第一语音信息对应的场景信息为多用户语音输入的第二语音场景信息;
基于所述第一语音信息对应的语音场景信息,确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息。
可选的,若第一语音信息对应的语音场景信息为所述第一语音场景信息,所述存储介质中存储的与步骤:基于所述第一语音信息对应的语音场景信息,确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息,对应的计算机指令在具体被执行过程中,包括如下步骤:
若所述M个语音片段对应的声纹特征与预设声纹特征相同,确定所述第一语音信息为用于控制电子设备进行响应的语音信息。
可选的,若所述第一语音信息对应的语音场景信息为所述第二语音场景信息,所述存储介质中存储的与步骤:基于所述第一语音信息对应的语音场景信息,确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息,对应的计算机指令在具体被执行过程中,包括如下步骤:
确定所述M个语音片段中是否存在声纹特征与预设声纹特征相同的语音片段;
若所述M个语音片段中不存在声纹特征与预设声纹特征相同的语音片段,确定所述第一语音信息不是用于控制所述电子设备进行响应的语音信息;或者,若所述M个语音片段中存在声纹特征与预设声纹特征相同的语音片段,获得声纹特征与预设声纹特征相同的语音片段中与预设语音指令相匹配的Q个语音片段,Q为小于等于M的正整数;
确定所述Q个语音片段是否满足预设条件;
若满足,确定所述第一语音信息为用于控制所述电子设备进行响应的语音信息。
可选的,所述存储介质中存储的与步骤:确定所述Q个语音片段是否满足预设条件,对应的计算机指令在具体被执行过程中,包括如下步骤:
基于所述Q个语音片段中每个的能量信息,确定所述Q个语音片段的能量的平均值;
确定所述平均值是否大于声纹特征与预设声纹特征不同的至少一个语音片段的能量的平均值;
若大于,确定所述Q个语音片段满足所述预设条件。
可选的,所述存储介质中存储的与步骤:基于确定的声纹信息及能量信息,确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息,对应的计算机指令在具体被执行过程中,包括如下步骤:
确定所述N个语音片段中与预设语音指令相匹配的P个语音片段,P为小于等于N的正整数;
当所述P个语音片段中每个的声纹信息与预设声纹信息相匹配时,若确定所述P个语音片段的能量的平均值大于N个语音片段中声纹特征与预设声纹特征不同的至少一个语音片段的能量的平均值,确定所述第一语音信息为用于控制电子设备进行响应的语音信息。
可选的,所述存储介质中还存储有另外一些计算机指令,这些计算机指令在与步骤:确定所述第一语音信息为用于控制所述电子设备响应其包含的语音指令的语音信息,对应的指令执行之后被执行,在被执行时包括如下步骤:
当确定所述第一语音信息为用于控制所述电子设备响应其包含的语音指令的语音信息时,确定所述第一语音信息对应的语音指令;
控制电子设备响应所述语音指令。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (21)

1.一种信息处理方法,包括:
获取第一语音信息,确定与所述第一语音信息对应的声纹信息及能量信息;
基于确定的声纹信息及与预设声纹特征相同且与预设语音指令相匹配且能量大于预设值的语音片段是否满足预设条件,确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息;或者
基于确定的声纹信息及与预设声纹特征相同且与预设语音指令相匹配的语音片段的能量信息的能量的平均值是否大于声纹特征与预设声纹特征不同的至少一个语音片段的能量的平均值,确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息。
2.如权利要求1所述的方法,其特征在于,确定与所述第一语音信息对应的声纹信息及能量信息,包括:
将所述第一语音信息划分为N个语音片段;
确定所述N个语音片段中每个的声纹信息以及对应的能量信息。
3.如权利要求2所述的方法,其特征在于,在将所述第一语音信息划分为N个语音片段之后,还包括:
基于语音产生的时间先后顺序,确定所述N个语音片段对应的顺序;
确定所述N个语音片段中每个的声纹信息以及对应的能量信息,包括:
基于所述N个语音片段对应的顺序,确定所述N个语音片段中每个的声纹信息及对应的能量信息。
4.如权利要求2所述的方法,其特征在于,确定所述N个语音片段中每个的声纹信息以及对应的能量信息,包括:
基于所述N个语音片段中每个对应的声纹特征对所述N个语音片段分别进行标记,得到与所述N个语音片段对应的声纹信息;及
基于所述N个语音片段中每个对应的能量对所述N个语音片段分别进行标记,得到与所述N个语音片段对应的能量信息。
5.如权利要求2-4任一权项所述的方法,其特征在于,基于确定的声纹信息及能量信息,确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息,包括:
确定所述N个语音片段中能量大于预设值的M个语音片段,M为不大于N的正整数;
若所述M个语音片段的声纹特征均相同,确定所述第一语音信息对应的场景信息为单用户语音输入的第一语音场景信息;否则,确定所述第一语音信息对应的场景信息为多用户语音输入的第二语音场景信息;
基于所述第一语音信息对应的语音场景信息,确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息。
6.如权利要求5所述的方法,其特征在于,所述第一语音信息对应的语音场景信息为所述第一语音场景信息;
基于所述第一语音信息对应的语音场景信息,确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息,包括:
若所述M个语音片段对应的声纹特征与预设声纹特征相同,确定所述第一语音信息为用于控制电子设备进行响应的语音信息。
7.如权利要求5所述的方法,其特征在于,所述第一语音信息对应的语音场景信息为所述第二语音场景信息;
基于确定的声纹信息及与预设声纹特征相同且与预设语音指令相匹配且能量大于预设值的语音片段是否满足预设条件,确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息,包括:
确定所述M个语音片段中是否存在声纹特征与预设声纹特征相同的语音片段;
若所述M个语音片段中不存在声纹特征与预设声纹特征相同的语音片段,确定所述第一语音信息不是用于控制所述电子设备进行响应的语音信息;或者,若所述M个语音片段中存在声纹特征与预设声纹特征相同的语音片段,获得声纹特征与预设声纹特征相同的语音片段中与预设语音指令相匹配的Q个语音片段,Q为小于等于M的正整数;
确定所述Q个语音片段是否满足预设条件;
若满足,确定所述第一语音信息为用于控制所述电子设备进行响应的语音信息。
8.如权利要求7所述的方法,其特征在于,确定所述Q个语音片段是否满足预设条件,包括:
基于所述Q个语音片段中每个的能量信息,确定所述Q个语音片段的能量的平均值;
确定所述平均值是否大于声纹特征与预设声纹特征不同的至少一个语音片段的能量的平均值;
若大于,确定所述Q个语音片段满足所述预设条件。
9.如权利要求4所述的方法,其特征在于,基于确定的声纹信息及与预设声纹特征相同且与预设语音指令相匹配的语音片段的能量信息的能量的平均值是否大于声纹特征与预设声纹特征不同的至少一个语音片段的能量的平均值,确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息,包括:
确定所述N个语音片段中与预设语音指令相匹配的P个语音片段,P为小于等于N的正整数;
当所述P个语音片段中每个的声纹信息与预设声纹信息相匹配时,若确定所述P个语音片段的能量的平均值大于N个语音片段中声纹特征与预设声纹特征不同的至少一个语音片段的能量的平均值,确定所述第一语音信息为用于控制电子设备进行响应的语音信息。
10.如权利要求1所述的方法,其特征在于,所述方法还包括:
当确定所述第一语音信息为用于控制所述电子设备响应其包含的语音指令的语音信息时,确定所述第一语音信息对应的语音指令;
控制电子设备响应所述语音指令。
11.一种电子设备,包括:
采集装置,用于获取第一语音信息;
处理器,用于执行如下操作:
确定与所述第一语音信息对应的声纹信息及能量信息,并基于确定的声纹信息及与预设声纹特征相同且与预设语音指令相匹配且能量大于预设值的语音片段是否满足预设条件,确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息,或者
确定与所述第一语音信息对应的声纹信息及能量信息,并基于确定的声纹信息及与预设声纹特征相同且与预设语音指令相匹配的语音片段的能量信息的能量的平均值是否大于声纹特征与预设声纹特征不同的至少一个语音片段的能量的平均值,确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息。
12.如权利要求11所述的电子设备,其特征在于,所述处理器用于:
将所述第一语音信息划分为N个语音片段;
确定所述N个语音片段中每个的声纹信息以及对应的能量信息。
13.如权利要求12所述的电子设备,其特征在于,所述处理器用于:
在将所述第一语音信息划分为N个语音片段之后,基于语音产生的时间先后顺序,确定所述N个语音片段对应的顺序;并基于所述N个语音片段对应的顺序,确定所述N个语音片段中每个的声纹信息及对应的能量信息。
14.如权利要求12所述的电子设备,其特征在于,所述处理器用于:
基于所述N个语音片段中每个对应的声纹特征对所述N个语音片段分别进行标记,得到与所述N个语音片段对应的声纹信息;及
基于所述N个语音片段中每个对应的能量对所述N个语音片段分别进行标记,得到与所述N个语音片段对应的能量信息。
15.如权利要求12-14任一权项所述的电子设备,其特征在于,所述处理器用于:
确定所述N个语音片段中能量大于预设值的M个语音片段,M为不大于N的正整数;
若所述M个语音片段的声纹特征均相同,确定所述第一语音信息对应的场景信息为单用户语音输入的第一语音场景信息;否则,确定所述第一语音信息对应的场景信息为多用户语音输入的第二语音场景信息;
基于所述第一语音信息对应的语音场景信息,确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息。
16.如权利要求15所述的电子设备,其特征在于,所述第一语音信息对应的语音场景信息为所述第一语音场景信息,所述处理器用于:
若所述M个语音片段对应的声纹特征与预设声纹特征相同,确定所述第一语音信息为用于控制电子设备进行响应的语音信息。
17.如权利要求15所述的电子设备,其特征在于,所述第一语音信息对应的语音场景信息为所述第二语音场景信息,所述处理器用于:
确定所述M个语音片段中是否存在声纹特征与预设声纹特征相同的语音片段;
若所述M个语音片段中不存在声纹特征与预设声纹特征相同的语音片段,确定所述第一语音信息不是用于控制所述电子设备进行响应的语音信息;或者,若所述M个语音片段中存在声纹特征与预设声纹特征相同的语音片段,获得声纹特征与预设声纹特征相同的语音片段中与预设语音指令相匹配的Q个语音片段,Q为小于等于M的正整数;
确定所述Q个语音片段是否满足预设条件;
若满足,确定所述第一语音信息为用于控制所述电子设备进行响应的语音信息。
18.如权利要求17所述的电子设备,其特征在于,所述处理器用于:
基于所述Q个语音片段中每个的能量信息,确定所述Q个语音片段的能量的平均值;
确定所述平均值是否大于声纹特征与预设声纹特征不同的至少一个语音片段的能量的平均值;
若大于,确定所述Q个语音片段满足所述预设条件。
19.如权利要求14所述的电子设备,其特征在于,所述处理器用于:
确定所述N个语音片段中与预设语音指令相匹配的P个语音片段,P为小于等于N的正整数;
当所述P个语音片段中每个的声纹信息与预设声纹信息相匹配时,若确定所述P个语音片段的能量的平均值大于N个语音片段中声纹特征与预设声纹特征不同的至少一个语音片段的能量的平均值,确定所述第一语音信息为用于控制电子设备进行响应的语音信息。
20.如权利要求11所述的电子设备,其特征在于,所述处理器用于:
当确定所述第一语音信息为用于控制所述电子设备响应其包含的语音指令的语音信息时,确定所述第一语音信息对应的语音指令;
控制电子设备响应所述语音指令。
21.一种电子设备,包括:
确定模块,用于获取第一语音信息,确定与所述第一语音信息对应的声纹信息及能量信息;
处理模块,用于执行如下操作:
基于确定的声纹信息及与预设声纹特征相同且与预设语音指令相匹配且能量大于预设值的语音片段是否满足预设条件,确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息,或者
基于确定的声纹信息及与预设声纹特征相同且与预设语音指令相匹配的语音片段的能量信息的能量的平均值是否大于声纹特征与预设声纹特征不同的至少一个语音片段的能量的平均值,确定所述第一语音信息是否为用于控制电子设备进行响应的语音信息。
CN201510446520.XA 2015-07-27 2015-07-27 一种信息处理方法及电子设备 Active CN105139858B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510446520.XA CN105139858B (zh) 2015-07-27 2015-07-27 一种信息处理方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510446520.XA CN105139858B (zh) 2015-07-27 2015-07-27 一种信息处理方法及电子设备

Publications (2)

Publication Number Publication Date
CN105139858A CN105139858A (zh) 2015-12-09
CN105139858B true CN105139858B (zh) 2019-07-26

Family

ID=54725180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510446520.XA Active CN105139858B (zh) 2015-07-27 2015-07-27 一种信息处理方法及电子设备

Country Status (1)

Country Link
CN (1) CN105139858B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106887229A (zh) * 2015-12-16 2017-06-23 芋头科技(杭州)有限公司 一种提升声纹识别准确度的方法和系统
CN106971724A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种防干扰声纹识别方法和系统
CN106971725B (zh) * 2016-01-14 2021-06-15 芋头科技(杭州)有限公司 一种具有优先级的声纹识方法和系统
CN106057198B (zh) * 2016-05-27 2019-08-16 北京云知声信息技术有限公司 一种控制智能交通工具的方法和装置
CN106200853A (zh) * 2016-07-02 2016-12-07 上海与德通讯技术有限公司 一种唤醒电路及唤醒方法
CN106647731A (zh) * 2016-09-19 2017-05-10 深圳博科智能科技有限公司 一种自动归位座椅及自动归位方法
CN108337601A (zh) * 2018-01-30 2018-07-27 出门问问信息科技有限公司 音箱的控制方法及装置
US11238856B2 (en) * 2018-05-01 2022-02-01 International Business Machines Corporation Ignoring trigger words in streamed media content
CN111312233A (zh) * 2018-12-11 2020-06-19 阿里巴巴集团控股有限公司 一种语音数据的识别方法、装置及系统
CN109524013B (zh) * 2018-12-18 2022-07-22 北京猎户星空科技有限公司 一种语音处理方法、装置、介质和智能设备
JP7159892B2 (ja) * 2019-02-04 2022-10-25 コニカミノルタ株式会社 画像形成装置、画像形成システム、および情報処理方法
CN109841207A (zh) * 2019-03-01 2019-06-04 深圳前海达闼云端智能科技有限公司 一种交互方法及机器人、服务器和存储介质
CN110364178B (zh) * 2019-07-22 2021-09-10 出门问问(苏州)信息科技有限公司 一种语音处理方法、装置、存储介质和电子设备
CN113571054B (zh) * 2020-04-28 2023-08-15 中国移动通信集团浙江有限公司 语音识别信号预处理方法、装置、设备及计算机存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102052036A (zh) * 2010-11-15 2011-05-11 无锡中星微电子有限公司 声控窗控制系统及其方法
CN103888587A (zh) * 2012-12-19 2014-06-25 中国移动通信集团公司 一种唤醒终端的方法、dsp芯片及终端
CN103888604A (zh) * 2014-03-10 2014-06-25 深圳市金立通信设备有限公司 一种终端应用模式的切换方法及终端
CN104135619A (zh) * 2014-08-12 2014-11-05 广东欧珀移动通信有限公司 一种摄像头控制方法及装置
CN104575492A (zh) * 2014-12-31 2015-04-29 深圳市航盛电子股份有限公司 一种声纹识别方法及装置和无钥匙车锁系统及实现方法
CN104766608A (zh) * 2014-01-07 2015-07-08 深圳市中兴微电子技术有限公司 一种语音控制方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040190688A1 (en) * 2003-03-31 2004-09-30 Timmins Timothy A. Communications methods and systems using voiceprints

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102052036A (zh) * 2010-11-15 2011-05-11 无锡中星微电子有限公司 声控窗控制系统及其方法
CN103888587A (zh) * 2012-12-19 2014-06-25 中国移动通信集团公司 一种唤醒终端的方法、dsp芯片及终端
CN104766608A (zh) * 2014-01-07 2015-07-08 深圳市中兴微电子技术有限公司 一种语音控制方法及装置
CN103888604A (zh) * 2014-03-10 2014-06-25 深圳市金立通信设备有限公司 一种终端应用模式的切换方法及终端
CN104135619A (zh) * 2014-08-12 2014-11-05 广东欧珀移动通信有限公司 一种摄像头控制方法及装置
CN104575492A (zh) * 2014-12-31 2015-04-29 深圳市航盛电子股份有限公司 一种声纹识别方法及装置和无钥匙车锁系统及实现方法

Also Published As

Publication number Publication date
CN105139858A (zh) 2015-12-09

Similar Documents

Publication Publication Date Title
CN105139858B (zh) 一种信息处理方法及电子设备
CN105190746B (zh) 用于检测目标关键词的方法和设备
KR101726945B1 (ko) 수동 시작/종료 포인팅 및 트리거 구문들에 대한 필요성의 저감
CN106658129B (zh) 基于情绪的终端控制方法、装置及终端
EP2994911B1 (en) Adaptive audio frame processing for keyword detection
US20130253924A1 (en) Speech Conversation Support Apparatus, Method, and Program
CN110780741B (zh) 模型训练方法、应用运行方法、装置、介质及电子设备
EP3593346B1 (en) Graphical data selection and presentation of digital content
CN110570840B (zh) 一种基于人工智能的智能设备唤醒方法和装置
CN105336324A (zh) 一种语种识别方法及装置
WO2014120291A1 (en) System and method for improving voice communication over a network
CN103971681A (zh) 一种语音识别方法及系统
CN109032345B (zh) 设备控制方法、装置、设备、服务端和存储介质
KR20200005617A (ko) 화자 구분
CN108600559B (zh) 静音模式的控制方法、装置、存储介质及电子设备
CN109065036A (zh) 语音识别的方法、装置、电子设备及计算机可读存储介质
CN109147780A (zh) 自由聊天场景下的语音识别方法及系统
CN108318042A (zh) 导航模式切换方法、装置、终端及存储介质
CN106921802B (zh) 音频数据的播放方法及装置
EP2913822B1 (en) Speaker recognition
CN111506183A (zh) 一种智能终端及用户交互方法
EP3793275B1 (en) Location reminder method and apparatus, storage medium, and electronic device
CN108989551B (zh) 位置提示方法、装置、存储介质及电子设备
CN109634554B (zh) 用于输出信息的方法和装置
CN103984415A (zh) 一种信息处理方法及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant