CN115188376A

CN115188376A - 一种个性化语音交互方法及系统

Info

Publication number: CN115188376A
Application number: CN202210763766.XA
Authority: CN
Inventors: 沈仲孝; 梁伟强; 刘俊峰; 张莹; 冉光伟; 方宇坤; 罗国辉; 郑兴明; 仲凯杰; 朱文新
Original assignee: Xinghe Zhilian Automobile Technology Co Ltd
Current assignee: Xinghe Zhilian Automobile Technology Co Ltd
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-10-14

Abstract

本发明公开一种个性化语音交互方法及系统，该方法包括：响应于用户的语音交互指令，采集用户的行为数据；其中，所述行为数据至少包括语音数据；将所述行为数据输入至预设的特征识别模型进行特征识别，基于预设的每个用户行为所对应的评分值，获得用户的个性化特征和行为数据评分总值；基于预设的文本生成模型，提取所述语音数据中的文本数据，根据所述文本数据和所述个性化特征，基于预设语料库中的每个文本所具有的特征标记和分值标记，生成匹配于所述行为数据评分总值的回应文本，并将所述回应文本转化为音频数据。本发明能够实现与用户之间的语音交互，且回应内容切合用户的个性化特征，具有逻辑性。

Description

一种个性化语音交互方法及系统

技术领域

本发明涉及自然语言处理技术领域，尤其是涉及一种个性化语音交互方法及系统。

背景技术

随着语音交互技术的不断普及，目前的汽车通常配置有语音交互系统，能够对采集到的用户的语音数据作出应答，实现与用户之间的语音交互。现有的语音交互系统通常采用通用的语料库，当接收到用户的语音数据时，从通用的语料库中随机选取语句来作出应答，缺乏逻辑性，从而难以针对性地与用户进行语音交互。

发明内容

本发明提供一种个性化语音交互方法及系统，以解决现有的语音交互系统难以针对性地与用户进行语音交互的问题，通过对用户的行为数据进行特征识别，获得用户的个性化特征和行为数据评分总值，进而能够基于用户的语音数据中的文本数据以及个性化特征，生成匹配于用户的行为数据评分总值的回应文本，并将回应文本转化为音频数据，以使用户通过音频的形式接收该回应文本，从而实现与用户之间的语音交互，且回应内容切合用户的个性化特征，具有逻辑性。

为了解决上述技术问题，本发明实施例第一方面提供个性化语音交互方法，包括如下步骤：

响应于用户的语音交互指令，采集用户的行为数据；其中，所述行为数据至少包括语音数据；

将所述行为数据输入至预设的特征识别模型进行特征识别，基于预设的每个用户行为所对应的评分值，获得用户的个性化特征和行为数据评分总值；

基于预设的文本生成模型，提取所述语音数据中的文本数据，根据所述文本数据和所述个性化特征，基于预设语料库中的每个文本所具有的特征标记和分值标记，生成匹配于所述行为数据评分总值的回应文本，并将所述回应文本转化为音频数据。

作为优选方案，所述将所述行为数据输入至预设的特征识别模型进行特征识别，基于预设的每个用户行为所对应的评分值，获得用户的个性化特征和行为数据评分总值，具体包括如下步骤：

将所述行为数据输入至所述特征识别模型进行特征识别，获得用户的个性化特征；

基于预设的每个用户行为所对应的评分值，获取每个行为数据的评分值，根据每个行为数据的评分值，按照预设的评分规则获得用户的行为数据评分总值。

作为优选方案，所述根据所述文本数据和所述个性化特征，基于预设语料库中的每个文本所具有的特征标记和分值标记，生成匹配于所述行为数据评分总值的回应文本，具体包括如下步骤：

基于所述预设语料库中的每个文本所具有的特征标记和分值标记，利用NLG算法在所述预设语料库中获取匹配于所述文本数据和所述个性化特征的若干个文本；

根据所述行为数据评分总值和所述若干个文本的分值标记，对所述若干个文本进行筛选，获得若干个筛选文本；其中，所述若干个筛选文本的分值匹配于所述行为数据评分总值；

根据所述若干个筛选文本生成所述回应文本。

作为优选方案，所述方法具体通过如下步骤获得所述特征识别模型：

将预设的具有个性化特征标记和评分值标记的行为数据组成训练集，并利用所述训练集对卷积神经网络进行训练，获得所述特征识别模型。

作为优选方案，所述响应于用户的语音交互指令，采集用户的行为数据，具体包括如下步骤：

响应于用户的所述语音交互指令，通过语音获取模块采集用户的所述语音数据。

作为优选方案，所述行为数据还包括图像数据和中控配置数据。

作为优选方案，所述响应于用户的语音交互指令，采集用户的行为数据，具体还包括如下步骤：

响应于用户的所述语音交互指令，通过图像获取模块采集用户的所述图像数据；

通过中控模块采集用户的所述中控配置数据。

作为优选方案，所述个性化特征至少包括年龄、性别、时间、情感特征、喜好特征和场景环境。

作为优选方案，所述方法还包括如下步骤：

将用户的所述个性化特征和所述行为数据评分总值传输至预设的数据库，以使所述个性化特征和所述行为数据评分总值存储于所述数据库中。

本发明实施例第二方面提供一种个性化语音交互系统，包括：

行为数据采集模块，用于响应于用户的语音交互指令，采集用户的行为数据；其中，所述行为数据至少包括语音数据；

个性化特征识别模块，用于将所述行为数据输入至预设的特征识别模型进行特征识别，基于预设的每个用户行为所对应的评分值，获得用户的个性化特征和行为数据评分总值；

回应文本生成模块，用于基于预设的文本生成模型，提取所述语音数据中的文本数据，根据所述文本数据和所述个性化特征，基于预设语料库中的每个文本所具有的特征标记和分值标记，生成匹配于所述行为数据评分总值的回应文本，并将所述回应文本转化为音频数据。

相比于现有技术，本发明实施例的有益效果在于，通过对用户的行为数据进行特征识别，获得用户的个性化特征和行为数据评分总值，进而能够基于用户的语音数据中的文本数据以及个性化特征，生成匹配于用户的行为数据评分总值的回应文本，并将回应文本转化为音频数据，以使用户通过音频的形式接收该回应文本，从而实现与用户之间的语音交互，且回应内容切合用户的个性化特征，具有逻辑性。

附图说明

图1是本发明实施例提供的个性化语音交互方法的流程示意图；

图2是本发明实施例提供的个性化语音交互系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，本发明实施例第一方面提供一种个性化语音交互方法，包括如下步骤S1至步骤S3：

步骤S1，响应于用户的语音交互指令，采集用户的行为数据；其中，所述行为数据至少包括语音数据；

步骤S2，将所述行为数据输入至预设的特征识别模型进行特征识别，基于预设的每个用户行为所对应的评分值，获得用户的个性化特征和行为数据评分总值；

步骤S3，基于预设的文本生成模型，提取所述语音数据中的文本数据，根据所述文本数据和所述个性化特征，基于预设语料库中的每个文本所具有的特征标记和分值标记，生成匹配于所述行为数据评分总值的回应文本，并将所述回应文本转化为音频数据。

在本实施例中，响应于用户的语音交互指令，通过车辆内设有的信息采集模块对用户的行为数据进行采集，其中，用户的行为数据至少包括用户的语音数据。

进一步地，由于用户的不同行为代表着不同的个性化特征，例如，若用户表示其喜欢听摇滚音乐，则该用户的个性化特征可能为摇滚音乐爱好者以及豪迈，因此为了生成尽可能切合用户的个性化特征的回应文本，本实施例将行为数据输入至预设的特征识别模型中进行特征识别，基于预设的每个用户行为所对应的评分值，获得用户的个性化特征和行为数据评分总值，行为数据评分总值能够实现以一个量化值表示用户当前的行为，在后续生成回应文本的过程中，能够作为判断回应文本是否切合用户的个性化特征的依据。

进一步地，本实施例基于预设的文本生成模型，提取语音数据中的文本数据，根据该文本数据以及用户的个性化特征，基于预设语料库中的每个文本所具有的特征标记和分值标记，生成匹配于用户的行为数据评分总值的回应文本，并将回应文本转化为音频数据，以使用户通过音频的形式接收该回应文本，从而实现与用户之间的语音交互。可以理解的是，同一个个性化特征可能对应有多个文本，但每个文本所具有的分值标记并不相同，此时为了选取最切合用户的个性化特征的文本，需要以行为数据评分总值作为依据对文本进行筛选，使得筛选出的所有文本的分值为最接近该行为数据评分总值的分值，即匹配于该行为数据评分总值，将筛选出的所有文本进行语言组织，从而生成匹配于用户的行为数据评分总值的回应文本。

本发明实施例提供的一种个性化语音交互方法，通过对用户的行为数据进行特征识别，获得用户的个性化特征和行为数据评分总值，进而能够基于用户的语音数据中的文本数据以及个性化特征，生成匹配于用户的行为数据评分总值的回应文本，并将回应文本转化为音频数据，以使用户通过音频的形式接收该回应文本，从而实现与用户之间的语音交互，且回应内容切合用户的个性化特征，具有逻辑性。

在本实施例中，基于预设的每个用户行为所对应的评分值，能够获取每个行为数据的评分值，根据每个行为数据的评分值，按照如下表达式作为评分规则，获得用户的行为数据评分总值：

其中，S表示行为数据评分总值，S₀表示预设的初始行为数据评分值，N表示行为数据的数量，S₁,S₂,…,S_N表示第i个行为数据的评分值，0<i≤N。

获得的行为数据评分总值相当于用户的数字画像，形成用户的特定身份ID。

根据所述若干个筛选文本生成所述回应文本。

值得说明的是，在本实施例中，NLG算法的工作原理为：输入抽象的命题，然后对输入的自然语言进行语义分析、语法分析，再结合特征识别模型识别的个性化特征，进行行为数据评分匹配，根据与用户的行为数据评分总值最匹配的文本进行语言组织，然后生成最切合用户个性的回应文本。

NLG算法采用的是TextRank算法，这是一种基于图的用于关键词抽取和文档摘要的排序算法，由谷歌的网页重要性排序算法PageRank算法改进而来，它利用一篇文档内部的词语间的共现信息(语义)便可以抽取关键词，它能够从一个给定的文本中抽取出该文本的关键词、关键词组，并使用抽取式的自动文摘方法抽取出该文本的关键句。TextRank算法生成的文本本身不具备用户的特征属性，需要预先对语料库中的文本进行人为特征标记和分值标记，当人为标记后，就能够结合用户动态的个性化特征进行行为数据评分匹配，筛选出最切合的回应文本。

TextRank算法的基本思想是将文档看作一个词的网络，该网络中的链接表示词与词之间的语义关系。该算法主要包括：关键词抽取、关键短语抽取、关键句抽取。

关键词抽取是指从文本中确定一些能够描述文档含义的术语的过程。对关键词抽取而言，用于构建顶点集的文本单元可以是句子中的一个或多个字；根据这些字之间的关系(比如：在一个框中同时出现)构建边。根据任务的需要，可以使用语法过滤器(syntacticfilters)对顶点集进行优化。语法过滤器的主要作用是将某一类或者某几类词性的字过滤出来作为顶点集。

关键词抽取结束后，可以得到N个关键词，在原始文本中相邻的关键词构成关键短语。

句子抽取任务主要针对的是自动摘要这个场景，将每一个句子作为一个顶点，根据两个句子之间的内容重复程度来计算他们之间的相似度，以这个相似度作为联系，由于不同句子之间的相似度大小不一致，在这个场景下构建的是以相似度大小作为edge权重的有权图。

值得说明的是，本发明实施例的文本生成模型基于NLG算法，采用NLG算法对语音数据中的关键词进行提取，从而形成文本数据。

在本实施例中，基于预设语料库中的每个文本所具有的特征标记和分值标记，利用NLG算法在预设语料库中获取匹配于通过文本生成模型采用NLG算法所提取的文本数据，以及匹配于个性化特征的若干个文本；然后根据行为数据评分总值和若干个文本的分值标记，对若干个文本进行筛选，获得若干个筛选文本，这些筛选文本的总分值匹配于行为数据评分总值；根据若干个筛选文本生成所述回应文本。

值得说明的是，筛选文本按照与行为数据相同的评分规则进行总分值的计算，从而确保最终生成的回应文本尽可能地切合用户的个性化特征。

值得说明的是，由于车辆在行驶过程中，语音数据和图像数据等数据会出现失真现象，为了提高特征识别的稳定性和准确性，本实施例采用卷积神经网络，由2个卷积层，2个池化层，3个全连接层组成，这三个全连接层神经元个数分别是128，32，1，前两层使用Relu激活函数，最后一层输出状态的相似度值。

作为其中一种可选的实施例，语音获取模块为设于车辆内的前装麦克风或后装麦克风，通过该前装麦克风或后装麦克风采集用户的语音数据。

值得说明的是，由于车辆的中控模块为控制车辆的空调、音响等舒适娱乐装置的模块，因此通过采集中控配置数据，能够获取用户在娱乐与学习方面的行为数据，例如，用户会通过中控模块控制车辆的音响播放自己喜欢的音乐，那么采集该中控配置数据，就能够获取用户喜爱的音乐风格，作为该用户其中一种个性化特征。

通过中控模块采集用户的所述中控配置数据。

作为其中一种可选的实施例，图像获取模块为设于车辆的前装摄像头或后装摄像头，通过控制前装摄像头或后装摄像头的拍摄角度，便能够采集用户的图像数据。

作为优选方案，所述方法还包括如下步骤：

值得说明的是，存储于数据库中个性化特征和行为数据评分总值能够用于下一次对特征识别模型的训练，通过大批量的训练，能够不断提高特征识别模型的识别准确度。

参见图2，本发明实施例第二方面提供一种个性化语音交互系统，包括：

行为数据采集模块201，用于响应于用户的语音交互指令，采集用户的行为数据；其中，所述行为数据至少包括语音数据；

个性化特征识别模块202，用于将所述行为数据输入至预设的特征识别模型进行特征识别，基于预设的每个用户行为所对应的评分值，获得用户的个性化特征和行为数据评分总值；

回应文本生成模块203，用于基于预设的文本生成模型，提取所述语音数据中的文本数据，根据所述文本数据和所述个性化特征，基于预设语料库中的每个文本所具有的特征标记和分值标记，生成匹配于所述行为数据评分总值的回应文本，并将所述回应文本转化为音频数据。

作为优选方案，所述个性化特征识别模块202用于将所述行为数据输入至预设的特征识别模型进行特征识别，基于预设的每个用户行为所对应的评分值，获得用户的个性化特征和行为数据评分总值，具体包括：

作为优选方案，所述回应文本生成模块203用于根据所述文本数据和所述个性化特征，基于预设语料库中的每个文本所具有的特征标记和分值标记，生成匹配于所述行为数据评分总值的回应文本，具体包括：

根据所述若干个筛选文本生成所述回应文本。

作为优选方案，所述个性化特征识别模块202还用于通过如下步骤获得所述特征识别模型：

作为优选方案，所述行为数据采集模块201用于响应于用户的语音交互指令，采集用户的行为数据，具体包括：

作为优选方案，所述行为数据采集模块201用于响应于用户的语音交互指令，采集用户的行为数据，具体还包括：

通过中控模块采集用户的所述中控配置数据。

作为优选方案，所述个性化特征识别模块202还用于：

将用户的所述个性化特征和所述行为数据评分总值传输至预设的数据库204，以使所述个性化特征和所述行为数据评分总值存储于所述数据库204中。

作为优选方案，所述系统还包括控制模块205，用于：

接收用户的所述语音交互指令，并将所述语音交互指令发送至所述行为数据采集模块201；

将采集到的所述行为数据发送至所述个性化特征识别模块202。

本发明实施例提供的一种个性化语音交互系统，通过对用户的行为数据进行特征识别，获得用户的个性化特征和行为数据评分总值，进而能够基于用户的语音数据中的文本数据以及个性化特征，生成匹配于用户的行为数据评分总值的回应文本，并将回应文本转化为音频数据，以使用户通过音频的形式接收该回应文本，从而实现与用户之间的语音交互，且回应内容切合用户的个性化特征，具有逻辑性。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种个性化语音交互方法，其特征在于，包括如下步骤：

2.如权利要求1所述的个性化语音交互方法，其特征在于，所述将所述行为数据输入至预设的特征识别模型进行特征识别，基于预设的每个用户行为所对应的评分值，获得用户的个性化特征和行为数据评分总值，具体包括如下步骤：

3.如权利要求2所述的个性化语音交互方法，其特征在于，所述根据所述文本数据和所述个性化特征，基于预设语料库中的每个文本所具有的特征标记和分值标记，生成匹配于所述行为数据评分总值的回应文本，具体包括如下步骤：

根据所述若干个筛选文本生成所述回应文本。

4.如权利要求2所述的个性化语音交互方法，其特征在于，所述方法具体通过如下步骤获得所述特征识别模型：

5.如权利要求1所述的个性化语音交互方法，其特征在于，所述响应于用户的语音交互指令，采集用户的行为数据，具体包括如下步骤：

6.如权利要求1所述的个性化语音交互方法，其特征在于，所述行为数据还包括图像数据和中控配置数据。

7.如权利要求6所述的个性化语音交互方法，其特征在于，所述响应于用户的语音交互指令，采集用户的行为数据，具体还包括如下步骤：

通过中控模块采集用户的所述中控配置数据。

8.如权利要求1所述的个性化语音交互方法，其特征在于，所述个性化特征至少包括年龄、性别、时间、情感特征、喜好特征和场景环境。

9.如权利要求1所述的个性化语音交互方法，其特征在于，所述方法还包括如下步骤：

10.一种个性化语音交互系统，其特征在于，包括：