CN109102805A

CN109102805A - 语音交互方法、装置及实现装置

Info

Publication number: CN109102805A
Application number: CN201811099628.6A
Authority: CN
Inventors: 石晓萌; 汪世赓
Original assignee: Beijing Changcheng Huaguan Automobile Technology Development Co Ltd
Current assignee: CH Auto Technology Co Ltd; Beijing Changcheng Huaguan Automobile Technology Development Co Ltd
Priority date: 2018-09-20
Filing date: 2018-09-20
Publication date: 2018-12-28

Abstract

本发明提供了一种语音交互方法、装置及实现装置；其中，该方法应用于车辆的中央控制器；该方法包括：接收用户的语音数据；根据语音数据更新当前的命令执行状态；命令执行状态包括执行中或不执行；当更新后的命令执行状态为执行中时，采用预先建立的语音识别模型对语音数据进行分析，得到语音数据对应的指令及情绪特征；根据指令及情绪特征，生成并输出回复语音。本发明提高了人与车辆的控制系统的进行人机交互的效率。

Description

语音交互方法、装置及实现装置

技术领域

本发明涉及人工智能(Artificial Intelligence，AI)技术领域，尤其是涉及一种语音交互方法、装置及实现装置。

背景技术

随着汽车电子技术的飞速发展，车辆的功能复杂性日益提高。除了对汽车本身的行驶性能的要求，其他个性化的客户需求千差万别，市场竞争越来越激烈。在汽车行驶过程中，人需要与汽车进行交互，如开启音乐，调节空调温度等；现有的交互方式一般采用按键式或点触式交互方式，该方式效率低，操作复杂。

发明内容

有鉴于此，本发明的目的在于提供一种语音交互方法、装置及实现装置，以提高人与车辆的控制系统的进行人机交互的效率。

第一方面，本发明实施例提供了一种语音交互方法，该方法应用于车辆的中央控制器；该方法包括：接收用户的语音数据；根据语音数据更新当前的命令执行状态；命令执行状态包括执行中或不执行；当更新后的命令执行状态为执行中时，采用预先建立的语音识别模型对语音数据进行分析，得到语音数据对应的指令及情绪特征；根据指令及情绪特征，生成并输出回复语音。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，上述根据语音数据更新当前的命令执行状态的步骤，包括：如果当前的命令执行状态为不执行，判断语音数据中是否包含预设的唤醒关键词；如果是，将命令执行状态更新为执行中。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，上述语音识别模型通过神经网络训练而成；语音识别模型的训练过程具体包括：建立神经网络的网络结构；获取设定数量的交互语音数据、对应的语音识别文本及情绪特征；将设定数量的交互语音数据、对应的语音识别文本及情绪特征输入到网络结构中进行训练，生成语音识别模型。

结合第一方面，本发明实施例提供了第一方面的第三种可能的实施方式，其中，上述根据指令及情绪特征，生成并输出回复语音的步骤，包括：在预先建立的语义数据库中，查找指令对应的回复内容；在预先建立的情绪特征数据库中，查找情绪特征对应的回复语气；将回复内容及回复语气合成为回复语音，输出回复语音。

结合第一方面的第三种可能的实施方式，本发明实施例提供了第一方面的第四种可能的实施方式，其中，上述方法还包括：输出回复语音后，开始计时；如果计时时长在设定的时长阈值内未收到语音数据，更新命令执行状态为不执行。

第二方面，本发明实施例还提供一种语音交互装置，该装置设置于车辆的中央控制器；该装置包括：语音接收模块，用于接收用户的语音数据；状态更新模块，用于根据语音数据更新当前的命令执行状态；命令执行状态包括执行中或不执行；语音识别模块，用于当更新后的命令执行状态为执行中时，采用预先建立的语音识别模型对语音数据进行分析，得到语音数据对应的指令及情绪特征；语音输出模块，用于根据指令及情绪特征，生成并输出回复语音。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，上述状态更新模块还用于：如果当前的命令执行状态为不执行，判断语音数据中是否包含预设的唤醒关键词；如果是，将命令执行状态更新为执行中。

结合第二方面，本发明实施例提供了第二方面的第二种可能的实施方式，其中，上述语音识别模型通过神经网络训练而成；语音识别模型的训练过程具体包括：建立神经网络的网络结构；获取设定数量的交互语音数据、对应的语音识别文本及情绪特征；将设定数量的交互语音数据、对应的语音识别文本及情绪特征输入到网络结构中进行训练，生成语音识别模型。

结合第二方面，本发明实施例提供了第二方面的第三种可能的实施方式，其中，上述语音输出模块还用于：在预先建立的语义数据库中，查找指令对应的回复内容；在预先建立的情绪特征数据库中，查找情绪特征对应的回复语气；将回复内容及回复语气合成为回复语音，输出回复语音。

第三方面，本发明实施例还提供一种语音交互实现装置，包括存储器和处理器，其中，存储器用于存储一条或多条计算机指令，一条或多条计算机指令被处理器执行，以实现上述语音交互方法。

本发明实施例带来了以下有益效果：

本发明实施例提供了一种语音交互方法、装置及实现装置；接收用户的语音数据后，根据语音数据更新当前的命令执行状态；当更新后的命令执行状态为执行中时，采用预先建立的语音识别模型对接收到的语音数据进行分析，得到语音数据对应的指令及情绪特征；从而根据指令及情绪特征，生成并输出回复语音。该方式提高了人与车辆的控制系统的进行人机交互的效率。

本发明的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本发明的上述技术即可得知。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施方式，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种语音交互方法的流程图；

图2为本发明实施例提供的另一种语音交互方法的流程图；

图3为本发明实施例提供的一种语音交互装置的结构示意图；

图4为本发明实施例提供的一种车载智能终端的原理示意图；

图5为本发明实施例提供的车载智能终端与用户进行语音交互的原理图；

图6为本发明实施例提供的一种语音交互实现装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着汽车电子技术的飞速发展，车辆的功能复杂性日益提高，舒适、灵活、个性化的客户需求千差万别，市场竞争越来越激烈，更多的功能结合和新技术的发展，致使汽车作为出行服务的载体的发展面临的巨大的挑战。

目前，驾驶人员与汽车依然采用按键式或点触式交互方式，这样的方式不仅效率低，操作复杂又麻烦，而且极有可能因为驾驶人员的双手或注意力引发潜在的交通危险。

基于此，本发明实施例提供了一种语音交互方法、装置以及实现装置，可以应用于车辆的人机交互及其他领域的人机交互。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种语音交互方法进行详细介绍。

参见图1所示的一种语音交互方法的流程图，该方法应用于车辆的中央控制器；该方法包括以下步骤：

步骤100，接收用户的语音数据；具体地，实时接收用户的语音，该语音可能是用于与车辆交互的，也可能与语音交互无关；因此，可以设置一些限制条件，判断是否对该语音进行识别，继而进行语音交互。

步骤102，根据语音数据更新当前的命令执行状态；命令执行状态包括执行中或不执行。

上述命令执行状态可以作为限制条件；命令执行状态可以为执行中或不执行；可以预先设定某个关键词作为将命令执行状态设置为执行中的触发词；当检测到用户发出的语音数据中含有该关键词的时候，将命令执行状态更新为执行中；当进行一次语音交互后，开始计时，当在预设的时间长度内没有再次接收到语音数据，将命令执行状态更新为不执行。

步骤104，当更新后的命令执行状态为执行中时，采用预先建立的语音识别模型对语音数据进行分析，得到语音数据对应的指令及情绪特征。

上述语音识别模型可以通过神经网络、机器学习等多种方式建立；在语音识别模型的建立过程中，可以采用大量的数据进行训练；当命令执行状态为执行中时，可以将语音数据输入至语音识别模型中，从而得到该语音数据对应的指令及情绪特征；该指令可以为语音交互中的关键词，是交互过程中的关注点。

步骤106，根据指令及情绪特征，生成并输出回复语音。

具体地，可以预先建立指令回复数据库及情绪特征数据库；在两个数据库中查找指令及情绪特征对应的语义及语气，将对应的语义及语气合成为回复语音并输出；此外还可以建立一个集指令回复及情绪特征于一体的数据库，在其中进行查找对应的语义及语气。

本发明实施例提供了一种语音交互方法；接收用户的语音数据后，根据语音数据更新当前的命令执行状态；当更新后的命令执行状态为执行中时，采用预先建立的语音识别模型对语音数据进行分析，得到语音数据对应的指令及情绪特征；从而根据指令及情绪特征，生成并输出回复语音。该方法提高了人与车辆的控制系统的进行人机交互的效率。

本发明实施例还提供了另一种语音交互方法，该方法在图1所示方法的基础上实现；该方法包括以下步骤：

步骤200，接收用户的语音数据。

步骤202，判断命令执行状态是否处于执行中，如果否，执行步骤步骤 204；如果是，执行步骤208。

步骤204，如果当前的命令执行状态为不执行，判断语音数据中是否包含预设的唤醒关键词；如果否，执行步骤步骤200；如果是，执行步骤206；具体地，该唤醒关键词可以为用户设定的；在设置唤醒关键词时，也存在一个训练的过程；用户可以以几种设定的语气及速度读出唤醒关键词；系统接收到这些语音后，采用语音识别模型对语音依次进行识别，并输出识别结果，以使用户对识别结果进行确认，最终确定唤醒关键词。

步骤206，将命令执行状态更新为执行中。

步骤208，采用预先建立的语音识别模型对语音数据进行分析，得到语音数据对应的指令及情绪特征；当所述指令为询问天气状况，查找一些信息，或打开车内空调等操作时，可以调用信息搜索系统或车内控制系统，执行相关的指令。

上述语音识别模型可以通过神经网络训练而成，具体过程如下包括：

(1)建立神经网络的网络结构；

(2)获取设定数量的交互语音数据、对应的语音识别文本及情绪特征；理论上，样本的数量越大，训练而成的语音识别模型的准确度越高。

(3)将设定数量的交互语音数据、对应的语音识别文本及情绪特征输入到所述网络结构中进行训练，生成所述语音识别模型。

步骤210，在预先建立的语义数据库中，查找指令对应的回复内容；具体地，上述语义数据库可以为通过采集大量对话资料建立而成的；在该语义数据库中，将该指令作为关键词，查找该关键词对应的答复内容。

步骤212，在预先建立的情绪特征数据库中，查找情绪特征对应的回复语气；具体地，上述情绪特征数据库可以为采集大量的语音资料，分析语音中的情绪特征及对应的语速、语调等建立而成的；在该情绪特征数据库中，查找情绪特征对应的回复语气、语调、语速等。

步骤214，将回复内容及回复语气合成为回复语音，输出回复语音；具体地，通过语音合成算法将回复内容及回复语气结合在一起，生成回复语音并输出该语音。

此外，在输出回复语音后，开始计时；如果计时时长在设定的时长阈值内未收到语音数据，更新命令执行状态为不执行。

本发明实施例提供的另一种语音交互方法，可以实现对用户的语音数据的识别，并针对该语音的语义及情绪特征生成相应的语音回复，可以实现用户与车辆控制系统的流畅、自然的语音交互。

本发明实施例还提供一种语音交互装置，该装置设置于车辆的中央控制器，其结构示意图如图3所示；该装置包括：语音接收模块300，用于接收用户的语音数据；状态更新模块302，用于根据语音数据更新当前的命令执行状态；命令执行状态包括执行中或不执行；语音识别模块304，用于当更新后的命令执行状态为执行中时，采用预先建立的语音识别模型对语音数据进行分析，得到语音数据对应的指令及情绪特征；语音输出模块306，用于根据指令及情绪特征，生成并输出回复语音。

具体地，上述状态更新模块还用于：如果当前的命令执行状态为不执行，判断语音数据中是否包含预设的唤醒关键词；如果是，将命令执行状态更新为执行中。

具体地，上述语音识别模型通过神经网络训练而成；语音识别模型的训练过程具体包括：建立神经网络的网络结构；获取设定数量的交互语音数据、对应的语音识别文本及情绪特征；将设定数量的交互语音数据、对应的语音识别文本及情绪特征输入到网络结构中进行训练，生成语音识别模型。

具体地，上述语音输出模块还用于：在预先建立的语义数据库中，查找指令对应的回复内容；在预先建立的情绪特征数据库中，查找情绪特征对应的回复语气；将回复内容及回复语气合成为回复语音，输出回复语音。

此外，该装置还包括状态计时更改模块，该模块用于：

(1)输出所述回复语音后，开始计时；

(2)如果计时时长在设定的时长阈值内未收到语音数据，更新所述命令执行状态为不执行。

本发明实施例提供的语音交互实现装置，与上述实施例提供的语音交互实现方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

本发明实施例还提供了一种车载智能终端；其原理示意图如图4所示；该智能终端包括系统及外型；系统包括语音交互系统及智能情感引擎；外型包括显示屏、驱动板及外壳造型。该智能终端采用了基于人工智能的语音交互原理与用户进行沟通；人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、法法、技术应用系统的一门新的科学技术；而基于语音输入的新一代交互模式，通过说话就可以得到反馈结果。车载智能终端与用户进行语音交互的原理如图5所示，包括以下步骤：

(1)用户用唤醒词唤醒系统；该唤醒词可以是预先设置的。

(2)系统对用户唤醒命令做出响应；具体地，系统接收到唤醒词后，开启语音识别功能。

(3)用户语音输入具体指令；该指令可以为询问天气状况，查找一些信息，或打开车内空调等操作。

(4)系统理解用户输入的具体指令；即系统通过语音识别功能对指令进行识别。

(5)系统对用户指令做出反馈；系统可以调用信息搜索系统或车内控制系统，执行相关的指令，并做出语音反馈，如“主人，已为您打开车内空调”。

可以通过上述智能情感引擎为本实施例提供的车载智能终端赋予姓名和特定性格性格，系统是他的大脑，外型是他的身体，可以将他定义为车主的出行伙伴和车管家，他是个抽象思维系统的具象集合。他会理解车主的需求指令并转化为对应的服务，他会跟车主主动互动，在不同场景做出不同的表情和动作。他让人与汽车的交互变成双向的、自然的交互。与传统的人车交互方式相比，智能语音交互系统是更自然的交互方式，更贴合人的需求和生活场景，既提高了交互的效率，又降低了潜在的危险性。

本实施方式提供了一种与上述方法实施方式相对应的语音交互实现装置。图6为该实现装置的结构示意图，如图6所示，该设备包括处理器1201 和存储器1202；其中，存储器1202用于存储一条或多条计算机指令，一条或多条计算机指令被处理器执行，以实现上述语音交互方法。

图6所示的实现装置还包括总线1203和转发芯片1204，处理器1201、转发芯片1204和存储器1202通过总线1203连接。该报文传输的实现装置可以是网络边缘设备。

其中，存储器1202可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。总线1203可以是ISA总线、PCI总线或EISA 总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

转发芯片1204用于通过网络接口与至少一个用户终端及其它网络单元连接，将封装好的IPv4报文或IPv6报文通过网络接口发送至用户终端。

处理器1201可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1201中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1201可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processing，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称 ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施方式中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施方式所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1202，处理器1201读取存储器1202中的信息，结合其硬件完成前述实施方式的方法的步骤。

本发明实施方式还提供了一种机器可读存储介质，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现上述语音交互方法，具体实现可参见方法实施方式，在此不再赘述。

本发明实施方式所提供的语音交互装置及实现装置，其实现原理及产生的技术效果和前述方法实施方式相同，为简要描述，装置实施方式部分未提及之处，可参考前述方法实施方式中相应内容。

在本申请所提供的几个实施方式中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施方式仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施方式的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施方式中的各功能模块或单元可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM， Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施方式，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施方式对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施方式所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施方式技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种语音交互方法，其特征在于，所述方法应用于车辆的中央控制器；所述方法包括：

接收用户的语音数据；

根据所述语音数据更新当前的命令执行状态；所述命令执行状态包括执行中或不执行；

当更新后的所述命令执行状态为执行中时，采用预先建立的语音识别模型对所述语音数据进行分析，得到所述语音数据对应的指令及情绪特征；

根据所述指令及情绪特征，生成并输出回复语音。

2.根据权利要求1所述的方法，其特征在于，所述根据所述语音数据更新当前的命令执行状态的步骤，包括：

如果当前的命令执行状态为不执行，判断所述语音数据中是否包含预设的唤醒关键词；

如果是，将所述命令执行状态更新为执行中。

3.根据权利要求1所述的方法，其特征在于，所述语音识别模型通过神经网络训练而成；所述语音识别模型的训练过程具体包括：

建立神经网络的网络结构；

获取设定数量的交互语音数据、对应的语音识别文本及情绪特征；

将设定数量的交互语音数据、对应的语音识别文本及情绪特征输入到所述网络结构中进行训练，生成所述语音识别模型。

4.根据权利要求1所述的方法，其特征在于，所述根据所述指令及所述情绪特征，生成并输出回复语音的步骤，包括：

在预先建立的语义数据库中，查找所述指令对应的回复内容；

在预先建立的情绪特征数据库中，查找所述情绪特征对应的回复语气；

将所述回复内容及所述回复语气合成为回复语音，输出所述回复语音。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

输出所述回复语音后，开始计时；

如果计时时长在设定的时长阈值内未收到语音数据，更新所述命令执行状态为不执行。

6.一种语音交互装置，其特征在于，所述装置设置于车辆的中央控制器；所述装置包括：

语音接收模块，用于接收用户的语音数据；

状态更新模块，用于根据所述语音数据更新当前的命令执行状态；所述命令执行状态包括执行中或不执行；

语音识别模块，用于当更新后的所述命令执行状态为执行中时，采用预先建立的语音识别模型对所述语音数据进行分析，得到所述语音数据对应的指令及情绪特征；

语音输出模块，用于根据所述指令及情绪特征，生成并输出回复语音。

7.根据权利要求6所述的装置，其特征在于，所述状态更新模块还用于：

如果是，将所述命令执行状态更新为执行中。

8.根据权利要求6所述的装置，其特征在于，所述语音识别模型通过神经网络训练而成；所述语音识别模型的训练过程具体包括：

建立神经网络的网络结构；

9.根据权利要求6所述的装置，其特征在于，所述语音输出模块还用于：

10.一种语音交互实现装置，其特征在于，包括存储器和处理器，其中，所述存储器用于存储一条或多条计算机指令，所述一条或多条计算机指令被所述处理器执行，以实现权利要求1至5任一项所述的方法。