CN111192574A

CN111192574A - 智能语音交互方法、移动终端和计算机可读存储介质

Info

Publication number: CN111192574A
Application number: CN201811355502.0A
Authority: CN
Inventors: 王燕飞
Original assignee: Qiku Internet Technology Shenzhen Co Ltd
Current assignee: Qiku Internet Technology Shenzhen Co Ltd
Priority date: 2018-11-14
Filing date: 2018-11-14
Publication date: 2020-05-22

Abstract

本发明揭示了一种智能语音交互方法、移动终端和计算机可读存储介质，其中方法包括：采集当前用户的第一语音信号；通过预设声纹特征识别模型，识别第一语音信号的声纹特征；通过比较声纹特征与预存声纹特征的相似度，判断当前用户是否为预存声纹特征对应的预存用户；若当前用户为预存声纹特征对应的预存用户，则判断第一语音信号是否与预设语音唤醒指令相匹配；若与预设语音唤醒指令相匹配，则唤醒终端设备。通过不断训练用户的语音特征，实现智能设备能够更为准确的识别用户的声纹特征，达到语音唤醒的功能。

Description

智能语音交互方法、移动终端和计算机可读存储介质

技术领域

本发明涉及智能设备技术领域，特别是涉及一种智能语音交互方法、移动终端和计算机可读存储介质。

背景技术

语音识别技术的不断发展，基于语音识别的应用也越来越广泛，这样的技术已经渗透入家庭生活、办公领域、娱乐等方面。

现有的具有语音识别的智能设备在用户语音唤醒时，会因为用户此时说话的声音过大或过小，或者是用户说话过快或过慢，从而导致智能设备无法识别出用户的语音，造成唤醒失败的情况，给用户带来极大地不方便。

发明内容

本发明的主要目的为提供一种智能语音交互方法、移动终端和计算机可读存储介质，旨在解决现有的智能设备识别用户语音不够准确的技术问题。

本发明提出一种智能语音交互方法，包括：

采集当前用户的第一语音信号；

通过预设声纹特征识别模型，识别所述第一语音信号的声纹特征；

通过比较所述声纹特征与预存声纹特征的相似度，判断所述当前用户是否为所述预存声纹特征对应的预存用户；

若所述当前用户为所述预存用户，则判断所述第一语音信号是否与预设语音唤醒指令相匹配；

若所述第一语音信号与预设语音唤醒指令相匹配，则唤醒终端设备。

优选地，所述预设声纹特征识别模型为优化了识别阈值的声纹特征识别模型，所述优化了识别阈值的声纹特征识别模型的训练集中包括了多种极限语音场景分别对应的语音信号，所述通过预设声纹特征识别模型，识别所述第一语音信号的声纹特征的步骤之前，包括:

通过收集到的所述预存用户的多种极限语音场景对应的语音信号更新训练集的正负样本；

通过更新后的训练集的正负样本更新训练所述声纹特征识别模型的；

根据更新训练输出的优化权重参数，调整所述声纹特征识别模型的声纹特征识别阈值。

优选地，所述通过收集到的所述预存用户的多种极限语音场景对应的语音信号更新训练集的正负样本的步骤，包括：

采集所述预存用户在极限语音场景下的极限值分别对应的语音信号添加至所述正样本，其中，所述极限值为所述预存用户所述极限值包括最大音量值、最小音量值、最快语速值和最慢语速值。

优选地，所述唤醒终端设备的步骤之后，包括：

采集所述当前用户的第二语音信号；

根据所述第二语音信号，解析所述当前用户的情绪信息；

判断在预设的第一数据库中是否查找与所述情绪信息对应的回答模式，其中，所述第一数据库中包括多个回答模式；

若查找到与所述情绪信息对应的回答模式，则生成执行所述回答模式的命令。

优选地，所述解析所述当前用户的情绪信息的步骤，包括：

获取所述第二语音信号中所述当前用户的语音状态，其中，所述语音状态包括所述当前用户的语速值和音量值；

通过预关联传感器获取所述当前用户的体征信息；

根据所述语音状态和所述体征信息得到所述当前用户的情绪状态。

优选地，所述解析所述当前用户的情绪信息的步骤，包括：

获取所述第二语音信号中所述当前用户的语音状态；

获取所述当前用户当前环境信息；

根据所述语音状态和所述当前环境信息得到所述当前用户的情绪状态。

优选地，所述采集所述当前用户的第二语音信号的步骤之后，包括：

所述第二语音信号中包括执行信息，解析所述第二语音信号，获取执行信息；

判断根据所述执行信息于预设的第三数据库中是否查找到与所述执行信息对应的执行操作；

若查找到与所述执行信息对应的执行操作，则生成执行所述执行操作的命令。

优选地，所述唤醒终端设备的步骤之后，包括：

获取所述当前用户的脸部画面信息；

根据所述脸部画面信息识别所述当前用户的年龄；

根据所述年龄在预设的第二数据库中查找与所述年龄对应的年龄组，其中所述第二数据库包含多个年龄组，以及与所述年龄组呈一对一映射关系的识别回答模式；

根据所述年龄对应的所述年龄组，生成执行所述年龄组对应的所述识别回答模式的命令。

本发明还提供一种移动终端，包括存储器和处理器，所述移动终端存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

本发明提供的智能语音交互方法、移动终端和计算机可读存储介质，通过不断训练用户的语音特征，实现智能设备能够更为准确的识别用户的声纹特征，达到语音唤醒的功能。

附图说明

图1是本发明智能语音交互方法的流程示意图；

图2是本发明智能语音交互方法的整体流程示意图；

图3是本发明一实施例的计算机设备的结构示意框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1和图2，本发明提供的一种智能语音交互方法，包括：

S1、采集当前用户的第一语音信号；

S2、通过预设声纹特征识别模型，识别第一语音信号的声纹特征；

S3、通过比较声纹特征与预存声纹特征的相似度，判断当前用户是否为预存声纹特征对应的预存用户；

S4、若当前用户为预存用户，则判断第一语音信号是否与预设语音唤醒指令相匹配；

S5、若第一语音信号与预设语音唤醒指令相匹配，则唤醒终端设备。

本实施例中，当前用户为当前时间内智能设备接收到语音信号的人。预存用户为用户预先存储指定声纹特征到智能设备中的用户。提供一种智能语音交互方法，提高智能设备上语音助手的识别率。在使用时，智能设备采集当前用户的第一语音信号，第一语音信号包括智能设备检测到用户说话的声音信号，将第一语音信号解析识别，得到第一语音信号中的当前用户的声纹特征，将采集到的声纹特征与预先在智能设备中存储的预存声纹特征进行相似度比较，判断当前采集的声纹特征是否与预存声纹特征相似度达到指定阈值。若经过判断，智能设备采集到声纹特征与预存声纹特征达到指定阈值，则认为当前用户为智能设备的预存用户，此时智能设备将会生成判断第一语音信号是否为预设的语音唤醒指令，智能设备将会对第一语音信号所包含的文字信息与预设的语音唤醒指令进行匹配，判断语音信息是否为预设的语音唤醒指令，若经过判断提取的语音信息是预设的语音唤醒指令，则智能设备将唤醒语音助手。上述预设声纹识别模型基于神经网络训练得到，包括多种形式的神经网络，如多层感知、径向基函数(RBF)等，可以显式训练以区分说话人的声音信号和其背景声音信号。

上述S1、上述预设声纹特征识别模型为优化了识别阈值的声纹特征识别模型，上述优化了识别阈值的声纹特征识别模型的训练集中包括了多种极限语音场景分别对应的语音信号，通过预设声纹特征识别模型，识别第一语音信号的声纹特征的步骤之前，包括：

S6、通过收集到的预存用户的多种极限语音场景对应的语音信号更新训练集的正负样本；

S7、通过更新后的训练集的正负样本更新训练所述声纹特征识别模；

S8、根据更新训练输出的优化权重参数，调整声纹特征识别模型的声纹特征识别阈值。

本实施例中，智能设备通过不断收集预存用户的语音信号，建立一个训练集，训练集包括正负样本，正样本为用户的语音信号，负样本为其他用户的语音信号，正样本包括了用户不同状态时对同一语音文件的语音信号，上述同一语音文件包括相同文字文本对应的同一句话或同一段话，上述用户不同状态时对同一语音文件的语音信号，可理解为用户在不同状态下讲同一句话或同一段话时对应的音量、音色、音调及语义等数据。上述极限语音场景分别对应的语音信号，即用户最大音量值和最小音量值时的声音信号以及用户最快语速值和最慢语速值的声音信号。通过不断收集用户的语音信号，不断更新训练集中的正样本，增加正样本的比例，并将包括了多种极限语音场景分别对应的语音信号的更新后的训练集，输入神经网络进行声纹特征识别模型的更新训练，经过声纹特征识别模型更新训练输出的优化权重参数，根据这个权重参数，不断调整声纹特征的识别阈值，扩大能够识别的声纹特征，进一步提高智能设备的识别度。

上述S6、通过收集到的预存用户的多种极限语音场景对应的语音信号更新训练集的正负样本的步骤，包括：

S61、采集预存用户在极限语音场景下的极限值分别对应的语音信号添加至所述正样本，其中，极限值为预存用户相对于终端设备最大音量值、最小音量值、最快语速值和最慢语速值的第一语音信号。

本实施例中，智能设备预先录入当前用户的极限值的语音信号，具体的，智能设备将当前用户当前说话声音最大声时的音量录入，最小声时的音量录入，将最大音量值和最小音量值作为当前用户的语音信号的极限值保存，再将当前用户的日常音量值录入保存，由此得到当前用户的说话声音的极限值和日常音量值。本实施例中，用户说话声音的日常音量值既可以是智能设备保存的当前用户的说话声音的音量值，也可以跟不超过上述日常音量值一定范围的声音值。智能设备还将记录当前用户说话语速的最快语速值和最慢语速值，以及当前用户的正常说话的正常语速值。同样的用户说话的正常语速值既可以是智能设备保存的当前用户的正常语速值，也可以跟不超过上述正常语速值一定范围的语速值。根据录入的极限值的声纹特征计算得到智能设备的识别范围，即在极限值内的声纹特征，属于预存用户的声纹特征。在接收到用户的第一语音信号后，得到第一语音信号中的声纹特征，与智能设备中的预存声纹特征进行对比匹配，判断第一语音信号中的声纹特征是否在预存声纹特征识别范围中，再判断该声纹特征与预存声纹特征的相似度是否在识别阈值内。

上述S5、唤醒终端设备的步骤之后，包括：

S51、采集当前用户的第二语音信号；

S52、根据第二语音信号，解析当前用户的情绪信息；

S53、判断在预设的第一数据库中是否查找与情绪信息对应的回答模式，其中，第一数据库中包括多个回答模式；

S54、若查找到与情绪信息对应的回答模式，则生成执行回答模式对应的回答语境的命令。

本实施例中，第二语音信号为智能设备接收到的当前用户说的话。智能设备根据接收到的当前用户的第二语音信号，解析得到第二语音信号中当前用户说话语速的语速值、声音的音量值等不同语音信息，将解析得到的语音信息用户日常的说话语速的语速值、声音的音量值进行对比，判断出用户此时的心情。例如检测到用户声音音量值超过用户的日常音量值，且检测到用户说话的语速值也超过日常说话的语速值，则判定用户此时处于生气的情绪。根据不同的情绪信息，查找对应的回答模式，具体的，生气时采用简短而准确的回答模式，开心时采用趣味回答模式。

上述S52、解析当前用户的情绪信息的步骤，包括：

S521、获取第二语音信号中当前用户的语音状态，其中，语音状态包括当前用户的语速值和声音音量值；

S522、通过预关联传感器获取当前用户的体征信息；

S523、根据语音状态和体征信息得到当前用户的情绪状态。

本实施例中，体征信息为智能设备通过当前用户的智能手环等传感器检测得到的当前用户的心率、血压等信息，该传感器与智能设备连接，得到当前用户的特征信息。具体的，智能设备可以结合多种信息来精确分析判断当前用户的情绪信息，智能设备接收智能手环实时监测到当前用户此时的心率、血压等体征数据，结合当前用户说话语速的语速值、声音的音量值，得到当前用户的情绪信息。例如，智能设备在接收到当前用户第二语音信号时，若当前用户的说话声音音量值高于日常的说话声音音量值，此时智能设备将会接收来自预先与智能设备关联的智能手环的监测数据，若检测到当前用户此时的心率高于正常心率，血压也高于正常心率，则判定此时当前用户处于生气的情绪中，智能设备将启动当前用户生气时对应的回答模式，采用简短而准确的回答方式来回答当前用户。

上述S52、解析当前用户的情绪信息的步骤，包括：

S524、获取第二语音信号中当前用户的语音状态；

S525、获取当前用户当前环境信息；

S526、根据语音状态和当前环境信息得到当前用户的情绪状态。

本实施例中，智能设备获取当前用户当前环境信息的方式为通过智能设备的摄像头拍摄用户当前的周围环境获得的。具体的，在智能设备检测当前用户情绪状态时，结合当前用户的表情来推断。例如，智能设备在接收到当前用户第二语音信号时，若当前用户的说话声音音量值大于日常音量值，且说话的语速值也超过日常说话的语速值，此时智能设备将会开启摄像头，检测当前用户的脸部表情，若检测到当前用户此时嘴角向下弯曲或嘴唇紧闭。则会判定当前用户此时处于生气状态。若在接收到第二语音信号以后，通过摄像头检测到当前用户嘴角上扬，则判定当前用户此时处于开心状态。本实施例中，智能设备还可以通过摄像头拍摄当前的环境，检测当前的环境信息，例如智能设备通过摄像头拍摄到周围当前用户屋内灯光较暗，此时还拍摄到有蜡烛点燃，此时检测到当前用户处于开心状态，在趣味应答模式中添加浪漫回答等。

上述S5、唤醒终端设备的步骤之后，包括：

S55、获取当前用户的脸部画面信息；

S56、根据脸部画面信息识别当前用户的年龄；

S57、根据年龄在预设的第二数据库中查找与年龄对应的年龄组，其中第二数据库包含多个年龄组，以及与年龄组呈一对一映射关系的识别回答模式；

S58、根据年龄对应的年龄组，生成执行年龄组对应的识别回答模式的命令。

本实施例中，脸部画面信息由智能设备的摄像头采集得到，在当前用户唤醒智能设备之后，智能设备将开启摄像头采集当前用户的脸部画面信息。将得到的脸部画面信息解析得到当前用户的年龄。根据得到的年龄信息，在预设的数据库中查找该年龄在数据库中所对应的年龄组，年龄组根据年龄分为三组，0-15岁为第一年龄组，16-50岁为第二年龄组，超过50岁为第三年龄组，根据当前用户的年龄查找该年龄在数据库中所对应的年龄组，根据年龄组选取不同的识别模式和回答模式来回复用户，例如若当前用户检测到年龄超过50岁时，判定当前用户对应为第三年龄组，根据第三年龄组的识别回答模式，采用调整降低采集语音的速度，将识别时间延长，在回复时声音变大。若当前用户检测到年龄在0-15岁时，判定当前用户对应为第一年龄组，根据第一年龄组的识别回答模式，采用进行关键词的提取，按照主谓宾重组，挑选出概率最大的向用户询问是不是这样。若当前用户检测到年龄在16-50岁时，判定当前用户对应为第二年龄组，根据第二年龄组的识别回答模式，采用清晰语音采用快速应答模式。

S51、采集当前用户的第二语音信号的步骤之后，包括：

S511、解析第二语音信号，获取执行信息；

S512、判断根据执行信息于预设的第三数据库中是否查找到与执行信息对应的执行操作；

S513、若查找到与执行信息对应的执行操作，则生成执行执行操作的命令。

本实施例中，执行信息包括用户向智能设备提出的日期检索命令，天气检索命令、日程检索命令和信息检索命令。在接受到用户的第二语音信号后，智能设备将第二语音信号解析，获得其中的执行信息，在预设的第三数据库中是否查找到与执行信息对应的执行操作，若查找到与执行信息对应的执行操作，则生成执行执行操作的命令。例如，在第三数据库中，包括执行日期检索、天气检索、交通检索、外卖检索和信息检索等执行命令，在接收到当前用户的第二语音之后，检索该语音信号包含的检索当前天气的执行信息，智能设备将会调取智能设备中查询天气的应用程序中的当前天气情况，在检索到之后向当前用户报告当前的天气状况。本实施例中，智能设备还可以在接收到当前用户的第二语音之后，检索该语音信号包含的检索当前交通的执行信息，根据历史消息，检索用户常用的出行路线，优先显示该常用的出行路线的交通状况，若以后没有常用出行路线则根据当前用户的所在位置，显示周围的交通状况。

综上，本发明提供的智能语音交互方法、移动终端和计算机可读存储介质，通过不断训练用户的语音特征，实现智能设备能够更为准确的识别用户的声纹特征，达到语音唤醒的功能。

如图3，本申请实施例中还提供一种移动终端，该移动终端可以是服务器，其内部结构可以如图3所示。该移动终端包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该移动终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该移动终端的数据库用于存储用户语音信号等数据。该移动终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种智能语音交互方法。

上述处理器执行上述智能语音交互方法的步骤：

采集当前用户的第一语音信号；

通过预设声纹特征识别模型，识别第一语音信号的声纹特征；

通过比较声纹特征与预存声纹特征的相似度，判断当前用户是否为预存声纹特征对应的预存用户；

若当前用户为预存用户，则判断第一语音信号是否与预设语音唤醒指令相匹配；

若第一语音信号与预设语音唤醒指令相匹配，则唤醒终端设备。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种智能语音交互方法，具体为：

采集当前用户的第一语音信号；

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种智能语音交互方法，其特征在于，包括：

采集当前用户的第一语音信号；

2.如权利要求1所述智能语音交互方法，其特征在于，所述预设声纹特征识别模型为优化了识别阈值的声纹特征识别模型，所述优化了识别阈值的声纹特征识别模型的训练集中包括了多种极限语音场景分别对应的语音信号，所述通过预设声纹特征识别模型，识别所述第一语音信号的声纹特征的步骤之前，包括:

通过更新后的训练集的正负样本更新训练所述声纹特征识别模型；

3.如权利要求2所述智能语音交互方法，其特征在于，所述通过收集到的所述预存用户的多种极限语音场景对应的语音信号更新训练集的正负样本的步骤，包括：

4.如权利要求1所述智能语音交互方法，其特征在于，所述唤醒终端设备的步骤之后，包括：

采集所述当前用户的第二语音信号；

根据所述第二语音信号，解析所述当前用户的情绪信息；

5.如权利要求4所述智能语音交互方法，其特征在于，所述根据所述第二语音信号，解析所述当前用户的情绪信息的步骤，包括：

通过预关联传感器获取所述当前用户的体征信息；

6.如权利要求4所述智能语音交互方法，其特征在于，所述根据所述第二语音信号，解析所述当前用户的情绪信息的步骤，包括：

获取所述当前用户当前环境信息；

7.如权利要求4所述智能语音交互方法，其特征在于，所述第二语音信号中包括执行信息，所述采集所述当前用户的第二语音信号的步骤之后，包括：

解析所述第二语音信号，获取所述执行信息；

8.如权利要求1所述智能语音交互方法，其特征在于，所述唤醒终端设备的步骤之后，包括：

获取所述当前用户的脸部画面信息；

根据所述脸部画面信息识别所述当前用户的年龄；

9.一种移动终端，包括存储器和处理器，所述移动终端存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。