CN108766428A

CN108766428A - 一种语音播报控制方法及系统

Info

Publication number: CN108766428A
Application number: CN201810566322.0A
Authority: CN
Inventors: 袁媛; 周奇文; 王运; 孙露
Original assignee: Anhui Jianghuai Automobile Group Corp
Current assignee: Anhui Jianghuai Automobile Group Corp
Priority date: 2018-06-01
Filing date: 2018-06-01
Publication date: 2018-11-06

Abstract

本发明实施例提供一种语音播报控制方法及系统，方法包括：车载语音终端采集当前语音数据；提取目标声纹和目标语义并上传至云端服务器，以便云端服务器：确定目标声纹对应的目标账户，以及将根据目标语义生成的特征向量输入至预先建立的播报事件生成模型，由播报事件生成模型输出与当前语音数据相对应的目标事件，且当检测到目标事件到达对应的目标时间时，向车载语音终端发送语音播报指令和目标事件；车载语音终端当接收到语音播报指令时，播报目标事件对应的目标事项。应用本发明提供的语音播报控制方案进行语音播报时，云端服务器可以通过基于用户的历史行为数据所建立的播报时间模型生成目标事件，而非仅仅像闹钟一样定时提醒用户，交互性好。

Description

一种语音播报控制方法及系统

技术领域

本发明涉及智能汽车和语音识别技术领域，特别涉及一种语音播报控制方法及系统。

背景技术

随着智能化技术在汽车应用上的深入，给用户提供的驾驶体验也在不断得以优化，对于用户而言，也更加注重汽车的在交互过程的友好程度，例如，用户希望车载语音系统能够提供更加智能的用户体验，具体来说，用户希望车载语音系统能够提供主动语音播报服务。

目前，现有技术提供了这样一种语音播报控制方案：用户可以通过车载语音终端将用户的备忘录等文本信息同步至云端服务器，云端服务器通过提取备忘录中的时间点和事项建立播报事件，当云端服务器检测到达所提取的目标时间时，向车载语音终端发送语音播报指令，并由车载语音终端向用户主动播报该时间中的目标事项，以为用户提供语音播报服务。

由以上可见，现有技术中提供的语音播报控制方案，虽然能够为用户提供主动语音播报服务，但是由于车载语音终端所播报的内容即目标事项是基于用户同步至云端的备忘录等文本信息，也仅仅是在用户在备忘录中所设定的时间点才触发相应播报事件，这种语音播报服务类似于闹钟的功能，交互性差，用户体验不好。

发明内容

本发明实施例的目的在于提供一种语音播报控制方法及系统，以提高为用户提供主动语音播报过程的交互性，提高用户体验。

为达到上述目的，本发明实施例公开了一种语音播报控制方法，应用于车载语音终端，所述车载语音终端与云端服务器通信连接，所述语音播报方法包括：

当所述车载语音终端处于工作状态时，采集目标用户的当前语音数据；

提取所述当前语音数据对应的目标声纹和目标语义；

将所述目标声纹和目标语义上传至所述云端服务器，以便所述云端服务器：

基于预先建立的声纹与账户对应关系，确定所述目标声纹对应的目标账户，并将所述目标语义存储至所述目标账户中，以及将根据所述目标语义生成的特征向量输入至预先建立的播报事件生成模型，由所述播报事件生成模型输出与所述当前语音数据相对应的目标事件，且当检测到所述目标事件到达对应的目标时间时，向所述车载语音终端发送语音播报指令和所述目标事件；其中，所述播报事件生成模型为基于用户的历史行为数据并利用机器学习方法训练得到的用于生成播报事件的声学识别模型；所述目标事件至少包括目标时间和目标事项；

当接收到所述云端服务器发送的所述语音播报指令时，播报所述云端服务器发送的所述目标事件对应的目标事项。

优选地，所述提取所述当前语音数据对应的目标声纹和目标语义的步骤，包括：

对所述当前语音数据进行降噪处理；

对降噪处理后的当前语音数据进行声纹和语义提取，获得当前语音数据对应的目标声纹和初始语义；

过滤掉所述初始语义中的无效信息，获得所述当前语音数据对应的目标语义；其中，所述无效信息是指为空语义、重复语义或错误语义的初始语义。

优选地，按照以下方式建立的声纹与用户账户的对应关系：

采集目标用户的目标语音数据；

基于预设声纹识别算法，提取所述目标语音数据对应的目标声纹；

以账户注册或扫描微信二维码以绑定微信账户的方式，建立所述目标用户的目标账户；

将所述目标声纹与所述目标账户一一对应，建立所述目标声纹与所述目标账户的对应关系。

优选地，所述当接收到所述云端服务器发送的所述语音播报指令时，播报所述云端服务器发送的所述目标事件对应的目标事项的步骤包括：

当接收到所述云端服务器发送的所述语音播报指令时，检测是否满足本地播报条件，若满足则播报所述云端服务器发送的所述目标事件对应的目标事项；其中，所述本地播报条件与安装所述车载语音终端的目标车辆的车况、路况、位置、所处场景和天气环境有关。

为达到上述目的，本发明实施例还公开了一种语音播报控制方法，应用于云端服务器，所述云端服务器与车载语音终端通信连接，所述语音播报方法包括：

接收所述车载语音终端上传的目标声纹和目标语义；其中，所述目标声纹和目标语义是由所述车载语音终端处于工作状态时，对所采集目标用户的当前语音数据进行声纹和语义提取而得到的；

基于预先建立的声纹与账户对应关系，确定所述目标声纹对应的目标账户，并将所述目标语义存储至所述目标账户中；

将根据所述目标语义生成的特征向量输入至预先建立的播报事件生成模型，由所述播报事件生成模型输出与所述当前语音数据相对应的目标事件；其中，所述播报事件生成模型为基于用户的历史行为数据并利用机器学习方法训练得到的用于生成播报事件的声学识别模型；所述目标事件至少包括目标时间和目标事项；

当检测到所述目标事件到达对应的目标时间时，向所述车载语音终端发送语音播报指令和所述目标事件，以便所述车载语音终端：在接收到所述云端服务器发送的所述语音播报指令时，播报所述云端服务器发送的所述目标事件对应的目标事项。

优选地，所述将所述目标语义存储至所述目标账户中的步骤包括：

按照预设语义标准化规则，对所述目标语义进行数据标准化处理；

基于预设的语义与类别的对应关系，将标准化处理后的目标语义存储至所述目标账户中对应的类别数据库中。

优选地，按照以下方式建立所述播报事件生成模型：

获得待构建的播报事件生成模型的语音训练样本；其中，各个语音训练样本用于反映用户的历史行为数据；

提取所述语音训练样本的语义，并构成与各个训练样本对应的特征向量；

将所述特征向量输入值预先搭建的分类器模型或生成上一次播报事件的事件播报生成模型中，并基于相似度最大或距离最短的原则对待构建的播报事件生成模型进行参数优化。

优选地，所述目标事件中还包括：用户喜好程度和历史播报频次。

优选地，所述当检测到所述目标事件到达对应的目标时间时，向所述车载语音终端发送语音播报指令和所述目标事件的步骤包括：

当检测到所述目标事件到达对应的目标时间时，向所述车载语音终端发送语音播报指令和所述用户喜好程度最大和/或历史播报频次最高的目标事项。

为达到上述目的，本发明实施例公开了一种语音播报控制系统控制系统，所述语音播报控制系统包括：车载语音终端和云端服务器；其中，

所述车载语音终端，用于当所述车载语音终端处于工作状态时，采集目标用户的当前语音数据；提取所述当前语音数据对应的目标声纹和目标语义；将所述目标声纹和目标语义上传至所述云端服务器；以及，当接收到所述云端服务器发送的所述语音播报指令时，播报所述云端服务器发送的所述目标事件对应的目标事项；

所述云端服务器，用于接收所述车载语音终端上传的目标声纹和目标语义；基于预先建立的声纹与账户对应关系，确定所述目标声纹对应的目标账户，并将所述目标语义存储至所述目标账户中；将根据所述目标语义生成的特征向量输入至预先建立的播报事件生成模型，由所述播报事件生成模型输出与所述当前语音数据相对应的目标事件；以及，当检测到所述目标事件到达对应的目标时间时，向所述车载语音终端发送语音播报指令和所述目标事件；其中，所述目标声纹和目标语义是由所述车载语音终端处于工作状态时，对所采集目标用户的当前语音数据进行声纹和语义提取而得到的；其中，所述播报事件生成模型为基于用户的历史行为数据并利用机器学习方法训练得到的用于生成播报事件的声学识别模型；所述目标事件至少包括目标时间和目标事项。

由此可见，应用本发明实施例提供的方案进行语音播报时，首先由车载语音终端采集当前语音数据，然后提取当前语音数据的目标声纹和目标语义，并将所提取的目标声纹和目标语义上传至云端服务器；云端服务器在接收到车载语音终端上传的目标声纹后，一方面，根据声纹与账户对应关系，确定出对应的目标账户，并将目标语义存储于目标账户中，另一方面，云端服务器根据该目标语义生成对应的特征输入向量并输入至播报事件生成模型，从而由该模型输出与当前目标语音数据相对应的目标事件，进而根据目标事件中的目标时间和目标事项向车载语音终端发送语音播报控制指令，并由车载语音终端根据目标时间来播放目标事项。

需要说明的是，这里的“播报事件生成模型”为基于用户的历史行为数据并利用机器学习方法训练得到的用于生成播报事件的声学识别模型。在模型建立过程中，是通过对大量训练样本的历史行为数据进行机器学习得到的，模型一旦建立后可以通过将特征向量输入该模型来推测出用户可能发生的目标事件，这是基于用户的大量历史行为数据而得到的预测结果，而非仅仅像闹钟一样定时提醒用户，本发明并不需要用户在车载语音终端侧设定其希望播报的具体事项，显然本发明实施例提供的语音播报方案交互性更加友好，用户体验佳；另外，通过将每次上传的目标语义存入目标账户，可以实现对目标用户的历史行为数据的不断更新，这样使得语音播报生成模型能够不断基于用户最近的历史行为数据来进行模型优化，从而实现能够根据用户行为习惯的改变而不断更新所播报的目标时间的目标事项，进一步提升用户体验，给用户带来一种管家式智能化的体验感。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种语音播报控制方法的流程示意图；

图2为本发明实施例提供的另一种语音播报控制方法的流程示意图；

图3为本发明实施例提供的另一种语音播报控制系统的架构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了提高语音播报过程的交互性，提高用户体验，本发明实施例提供了如下语音播报控制方法和语音播报控制系统，首先先对本发明实施例提供的语音播报控制方法进行介绍。

如图1所示，为本发明实施例提供的一种语音播报控制方法的流程示意图，该语音播报控制方法，应用于车载语音终端，所述车载语音终端与云端服务器通信连接，所述语音播报方法可以包括以下步骤：

S101：当所述车载语音终端处于工作状态时，采集目标用户的当前语音数据。

可以理解的是，对于车载设备而言，在不需要其提供服务的情况下，可以设定该车载设备进入休眠状态，以实现节能的目的。因此，当用户需要进行与车载语音终端的交互时，可以先唤醒车载语音终端，使其处于工作状态，具体的，可以通过点击车载中控屏幕上的语音助手按键来唤醒该车载语音终端。

当车载语音终端被唤醒之后，可以利用车载语音终端的音频采集模块或声音拾取器来采集目标用户当前所说的音频信号，进而获得当前语音数据。

S102：提取所述当前语音数据对应的目标声纹和目标语义。

一种实现方式中，可以按照以下方式提取所述当前语音数据对应的目标声纹和目标语义：

(11)对所述当前语音数据进行降噪处理。

具体地，由车载语音终端所采集到的当前语音数据通常是带有噪声的，而噪声容易对后续的声纹和语义的提取造成干扰，因此，这里通过对当前语音数据进行降噪处理能够有效提高当前语音数据的音频质量。

(12)对降噪处理后的当前语音数据进行声纹和语义提取，获得当前语音数据对应的目标声纹和初始语义。

(13)过滤掉所述初始语义中的无效信息，获得所述当前语音数据对应的目标语义；其中，所述无效信息是指为空语义、重复语义或错误语义的初始语义。

需要说明的是，声纹也是可以用来唯一标识用户的生物特征，这里通过频谱分析提取出用户的声纹，从而可以实现后续利用声纹查找用户在云端服务器的目标账户的功能，另外，提取当前语音数据的声纹的具体方式可以参见现有技术中所公开的方式，此处不做赘述。

需要说明的是，语义可以简单地看作是数据所对应的现实世界中事物所代表的概念的含义，以及这些含义之间的关系，是数据在某个领域上的解释和逻辑表示。可以理解的是，数据实际上就是各种符号，而这些数据本身没有任何意义，只有被赋予含义的数据才能够被使用，这时候数据就转化为了信息，而数据的含义就是语义。

一种实现方式中，可以基于语音识别的方式，将当前语音数据识别为文本信息，进而根据所获得的文本信息来去除信息为空信息、重复信息或错误信息的文本信息，也就是，去除初始语义中为空语义、重复语义或错误语义的初始语义。

需要说明的是，这里仅仅是列举了一种提取目标声纹和目标语义的优选方式，并不应该构成对本发明实施例的限定。

S103：将所述目标声纹和目标语义上传至所述云端服务器，以便所述云端服务器：

基于预先建立的声纹与账户对应关系，确定所述目标声纹对应的目标账户，并将所述目标语义存储至所述目标账户中，以及将根据所述目标语义生成的特征向量输入至预先建立的播报事件生成模型，由所述播报事件生成模型输出与所述当前语音数据相对应的目标事件，且当检测到所述目标事件到达对应的目标时间时，向所述车载语音终端发送语音播报指令和所述目标事件；其中，所述播报事件生成模型为基于用户的历史行为数据并利用机器学习方法训练得到的用于生成播报事件的声学识别模型；所述目标事件至少包括目标时间和目标事项。

一种实现方式中，可以按照以下方式建立的声纹与用户账户的对应关系：

采集目标用户的目标语音数据；

需要说明的是，上述建立声纹与用户账户的对应关系的方式仅为本发明实施例提供的一种优选实现方式而已，并不应该构成对本发明实施例的限定。

S104：当接收到所述云端服务器发送的所述语音播报指令时，播报所述云端服务器发送的所述目标事件对应的目标事项。

一种实现方式中，当接收到所述云端服务器发送的所述语音播报指令时，询问目标用户是否需要进行语音播报，以及在检测用户输入的允许播报的操作后，播报所述云端服务器发送的所述目标事件对应的目标事项。

另一种实现方式中，当接收到所述云端服务器发送的所述语音播报指令时，检测是否满足本地播报条件，若满足则播报所述云端服务器发送的所述目标事件对应的目标事项。其中，所述本地播报条件与安装所述车载语音终端的目标车辆的车况、路况、位置、所处场景和天气环境有关。

需要说明的是，对于车载语音终端而言，从云端服务器获得的目标事件是通过模型预测得到的，而模型的建立需要依赖于大量的用户历史行为数据，对于用户行为习惯突然变化或临时变化的情况而言，模型预测出的目标事件有可能会不符合用户需求，因此，该实现方式中通过询问用户是否需要进行语音播报或是检测是否满足本地播报条件或者来确定是否需要为用户进行主动地语音播报，使得本发明实施例提供的方案在进行语音播报控制时的鲁棒性更好。

可以理解的是，当车载语音终端进行语音播报之前，车载语音终端所完成的仅仅是采集当前语音数据、提取目标声纹和目标语义并上传的动作，并未进行预先的备忘录式的编辑或录入动作，云端服务器在接收到所上传的目标声纹和目标语义后可以利用播报事件生成模型预测出对应的目标事件，给用户带来的感觉是云端服务器决定了所要播报的目标事件，给用户提供了一种管家式的用户体验，更加智能化。

相对于图1所示的方法实施例，本发明实施例还提供了一种语音播报控制方法，应用于云端服务器，所述云端服务器与车载语音终端通信连接，所述语音播报方法可以包括以下步骤：

S201：接收所述车载语音终端上传的目标声纹和目标语义。

其中，所述目标声纹和目标语义是由所述车载语音终端处于工作状态时，对所采集目标用户的当前语音数据进行声纹和语义提取而得到的。

需要说明的是，该步骤与图1所示方法实施例中的步骤S101至S102相同或类似，此处不再一一赘述。

S202：基于预先建立的声纹与账户对应关系，确定所述目标声纹对应的目标账户，并将所述目标语义存储至所述目标账户中。

一种实现方式中，可以按照以下方式将所述目标语义存储至所述目标账户中：

(21)按照预设语义标准化规则，对所述目标语义进行数据标准化处理；

(22)基于预设的语义与类别的对应关系，将标准化处理后的目标语义存储至所述目标账户中对应的类别数据库中。

可以理解的是，为了给每一个用户提供有针对性的主动语音播报服务，首先要做的就是确定用户的身份，这里通过预先建立的声纹与账户之间的对应关系来获得与用户相对应的用户数据库，进而根据该用户数据库对当前的播报事件生成模型进行优化，使其更符合用户当前的行为习惯。

S203：将根据所述目标语义生成的特征向量输入至预先建立的播报事件生成模型，由所述播报事件生成模型输出与所述当前语音数据相对应的目标事件。

其中，所述播报事件生成模型为基于用户的历史行为数据并利用机器学习方法训练得到的用于生成播报事件的声学识别模型；所述目标事件至少包括目标时间和目标事项。

一种实现方式中，可以按照以下方式建立所述播报事件生成模型：

(31)获得待构建的播报事件生成模型的语音训练样本；其中，各个语音训练样本用于反映用户的历史行为数据；

(32)提取所述语音训练样本的语义，并构成与各个训练样本对应的特征向量；

(33)将所述特征向量输入值预先搭建的分类器模型或生成上一次播报事件的事件播报生成模型中，并基于相似度最大或距离最短的原则对待构建的播报事件生成模型进行参数优化。

需要说明的是，这里仅仅列举了一种进行语音识别模型建立的具体实现方式，当然还可以有其他可行的实现方式，现有技术中公开了众多建立语音识别模型的具体方式，实际应用中可以参照现有技术中的具体方式，此处不再一一赘述。

S204：当检测到所述目标事件到达对应的目标时间时，向所述车载语音终端发送语音播报指令和所述目标事件，以便所述车载语音终端：在接收到所述云端服务器发送的所述语音播报指令时，播报所述云端服务器发送的所述目标事件对应的目标事项。

一种优选实现方式中，所述目标事件中还包括：用户喜好程度和历史播报频次。

相应地，当检测到所述目标事件到达对应的目标时间时，向所述车载语音终端发送语音播报指令和所述用户喜好程度最大和/或历史播报频次最高的目标事项。

可以理解的是，在提供主动播报时增加了用户喜好程度和历史播报频次两个维度，这样能够更加人性化智能化地为用户提供主动语音播报，进一步提高了用户与车载语音终端之间的交互友好性，进一步提升了用户体验。

相对于上述语音播报控制方法，本发明实施例提供了一种语音播报控制系统，如图3所示，为本发明实施例提供的一种语音播报控制系统的架构示意图。具体地，该语音播报控制系统包括：车载语音终端310和云端服务器320。

其中，所述车载语音终端310，用于当所述车载语音终端310处于工作状态时，采集目标用户的当前语音数据；提取所述当前语音数据对应的目标声纹和目标语义；将所述目标声纹和目标语义上传至所述云端服务器320；以及，当接收到所述云端服务器320发送的所述语音播报指令时，播报所述云端服务器320发送的所述目标事件对应的目标事项。

所述云端服务器320，用于接收所述车载语音终端310上传的目标声纹和目标语义；基于预先建立的声纹与账户对立关系，确定所述目标声纹对应的目标账户，并将所述目标语义存储至所述目标账户中；将根据所述目标语义生成的特征向量输入至预先建立的播报事件生成模型，由所述播报事件生成模型输出与所述当前语音数据相对应的目标事件；以及，当检测到所述目标事件到达对应的目标时间时，向所述车载语音终端310发送语音播报指令和所述目标事件；其中，所述目标声纹和目标语义是由所述车载语音终端310处于工作状态时，对所采集目标用户的当前语音数据进行声纹和语义提取而得到的；其中，所述播报事件生成模型为基于用户的历史行为数据并利用机器学习方法训练得到的用于生成播报事件的声学识别模型；所述目标事件至少包括目标时间和目标事项。

对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，这里所称的存储介质，如：ROM/RAM、磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种语音播报控制方法，其特征在于，应用于车载语音终端，所述车载语音终端与云端服务器通信连接，所述语音播报方法包括：

提取所述当前语音数据对应的目标声纹和目标语义；

2.根据权利要求1所述的语音播报方法，其特征在于，所述提取所述当前语音数据对应的目标声纹和目标语义的步骤，包括：

对所述当前语音数据进行降噪处理；

3.根据权利要求1所述的语音播报方法，其特征在于，按照以下方式建立的声纹与用户账户的对应关系：

采集目标用户的目标语音数据；

4.根据权利要求1-3任一项所述的语音播报方法，其特征在于，所述当接收到所述云端服务器发送的所述语音播报指令时，播报所述云端服务器发送的所述目标事件对应的目标事项的步骤包括：

5.一种语音播报控制方法，其特征在于，应用于云端服务器，所述云端服务器与车载语音终端通信连接，所述语音播报方法包括：

6.根据权利要求5所述的语音播报方法，其特征在于，所述将所述目标语义存储至所述目标账户中的步骤包括：

7.根据权利要求5所述的语音播报方法，其特征在于，按照以下方式建立所述播报事件生成模型：

8.根据权利要求5-7任一项所述的语音播报方法，其特征在于，所述目标事件中还包括：用户喜好程度和历史播报频次。

9.根据权利要求8所述的语音播报方法，其特征在于，所述当检测到所述目标事件到达对应的目标时间时，向所述车载语音终端发送语音播报指令和所述目标事件的步骤包括：

10.一种语音播报控制系统控制系统，其特征在于，所述语音播报控制系统包括：车载语音终端和云端服务器；其中，