CN112562641B

CN112562641B - 语音交互满意度的评估方法、装置、设备和存储介质

Info

Publication number: CN112562641B
Application number: CN202011393344.5A
Authority: CN
Inventors: 李岩岩; 窦德景
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2023-09-29
Anticipated expiration: 2040-12-02
Also published as: CN112562641A; US20220059074A1

Abstract

本申请公开了一种语音交互满意度的评估方法、装置、设备和存储介质，涉及人工智能技术领域，具体为自然语言处理、知识图谱、深度学习领域，可应用于用户意图理解。具体实现方案包括：获取多轮样本语音交互行为下的样本交互数据；对各样本交互数据进行特征提取，得到样本交互特征序列；获取各样本交互数据对应的满意度标注，得到满意度标注序列；利用多组样本交互特征序列和满意度标注序列，训练初始模型，得到满意度评估模型，满意度评估模型用于根据多轮待评估语音交互行为下的待评估交互数据，评估各轮待评估语音交互行为的满意度。本申请实施例的技术方案可以准确、高效地基于用户的多轮语音操作，进行用户意图理解的满意度评估。

Description

语音交互满意度的评估方法、装置、设备和存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及自然语言处理、知识图谱、深度学习领域。

背景技术

随着人工智能算法与算力的提升，智能语音设备正在快速普及，不同种类的智能语音可广泛应用于多种应用场景，智能语音设备中最具代表性之一的如智能音箱，用户无需手动搜索，通过语音指令便可以通过智能音箱实现多种操作，例如点播歌曲或视频、查询天气、控制智能家居设备等等。对于智能语音设备而言，能够对用户指令进行高效准确地语音识别和意图理解至关重要，因此语音识别与意图理解的能力是评估智能语音设备智能化程度的重要指标。如何合理地评估智能语音设备的意图理解准确度，使评估结果真实地反映智能产品的性能，是研发人员研究的重点和热点。

发明内容

本申请提供了一种语音交互满意度的评估方法、装置、设备以及存储介质。

根据本申请的第一方面，提供了一种语音交互满意度评估模型的生成方法，包括：

获取多轮样本语音交互行为下的样本交互数据；

对各样本交互数据进行特征提取，得到样本交互特征序列，样本交互特征序列中的各样本交互特征，按照相应的样本语音交互行为的时间顺序排列；

获取各样本交互数据对应的满意度标注，得到满意度标注序列，满意度标注序列中的各满意度标注数据，按照相应的样本语音交互行为的时间顺序排列；

利用多组样本交互特征序列和满意度标注序列，训练初始模型，得到满意度评估模型，满意度评估模型用于根据多轮待评估语音交互行为下的待评估交互数据，评估各轮待评估语音交互行为的满意度。

根据本申请的第二方面，提供了一种语音交互满意度的评估方法，包括：

获取多轮待评估语音交互行为下的待评估交互数据；

对各待评估交互数据进行特征提取，得到待评估交互特征序列，待评估交互特征序列中的各待评估交互特征，按照相应的待评估语音交互行为的时间顺序排列；

将待评估交互特征序列输入满意度评估模型，评估各轮待评估语音交互行为的满意度，其中，满意度评估模型为根据本申请实施例的生成方法得到。

根据本申请的第三方面，提供了一种语音交互满意度评估模型的生成装置，包括：

样本交互数据获取模块，用于获取多轮样本语音交互行为下的样本交互数据；

样本交互特征序列确定模块，用于对各样本交互数据进行特征提取，得到样本交互特征序列，样本交互特征序列中的各样本交互特征，按照相应的样本语音交互行为的时间顺序排列；

满意度标注序列确定模块，用于获取各样本交互数据对应的满意度标注，得到满意度标注序列，满意度标注序列中的各满意度标注数据，按照相应的样本语音交互行为的时间顺序排列；

训练模块，用于利用多组样本交互特征序列和满意度标注序列，训练初始模型，得到满意度评估模型，满意度评估模型用于根据多轮待评估语音交互行为下的待评估交互数据，评估各轮待评估语音交互行为的满意度。

根据本申请的第四方面，提供了一种语音交互满意度的评估装置，包括：

待评估交互数据获取模块，用于获取多轮待评估语音交互行为下的待评估交互数据；

待评估交互特征序列确定模块，用于对各待评估交互数据进行特征提取，得到待评估交互特征序列，待评估交互特征序列中的各待评估交互特征，按照相应的待评估语音交互行为的时间顺序排列；

评估模块，用于将待评估交互特征序列输入满意度评估模型，评估各轮待评估语音交互行为的满意度，其中，满意度评估模型为根据本申请实施例的生成装置得到。

根据本申请的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本申请任意实施例提供的方法。

根据本申请的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行本申请任意实施例提供的方法。

根据本申请的第七方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方法。

本申请实施例的技术方案可以准确、高效地基于用户的多轮语音操作，进行用户意图理解的满意度评估。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请实施例的应用场景的示意图；

图2是根据本申请实施例语音交互满意度评估模型的生成方法的流程图；

图3是根据本申请实施例语音交互满意度的评估方法的流程图；

图4是根据本申请实施例一种实施方式的语音交互满意度评估模型的生成装置的框图；

图5是图4中的样本交互特征序列确定模块的框图；

图6是根据本申请实施例一种实施方式的语音交互满意度的评估装置的框图；

图7是图6中的待评估交互特征序列确定模块的框图；

图8是用来实现本申请实施例的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1为本申请实施例的应用场景示意图。如图1所示，智能语音设备101可以为智能音箱、手机、平板、车载终端、个人电脑等。本实施例对智能语音设备101的实现方式不做特别限制，只要该智能语音设备101能够与用户进行语音交互即可。

语音交互是基于语音识别、语音合成、自然语言理解等技术，在多种实际应用场景下，赋予智能语音设备产品“能听、会说、懂你”式的智能人机交互体验。适用于多个应用场景中，包括智能问答、智能播放、智能查找等场景。

用户通过语音向智能语音设备101输入语音指令，该智能语音设备101可以根据该语音指令获取用户的意图，并根据该意图进行自然语言理解，并将意图对应的响应内容反馈给用户。或者，该智能语音设备101可以将用户输入的语音指令发送给服务器102，由服务器102根据该语音指令获取用户的意图，并根据该意图进行自然语言理解，并将意图对应的响应内容通过智能语音设备101反馈给用户。

语音交互满意度的评估，可以用来评价意图理解的准确度，进而评估智能语音设备的产品性能。

本申请实施例提供了一种语音交互满意度评估模型的生成方法，如图2所示，该生成方法包括：

步骤S201、获取多轮样本语音交互行为下的样本交互数据；

步骤S202、对各样本交互数据进行特征提取，得到样本交互特征序列，样本交互特征序列中的各样本交互特征，按照相应的样本语音交互行为的时间顺序排列；

步骤S203、获取各样本交互数据对应的满意度标注，得到满意度标注序列，满意度标注序列中的各满意度标注数据，按照相应的样本语音交互行为的时间顺序排列；

步骤S204、利用多组样本语音交互特征序列和满意度标注序列，训练初始模型，得到满意度评估模型，满意度评估模型用于根据多轮待评估语音交互行为下的待评估交互数据，评估各轮待评估语音交互行为的满意度。

用户与智能语音设备101的语音交互行为通常为多轮，即用户发送语音指令1-设备响应1-用户发送语音指令2-设备响应2……，如此循环，其中，每一次发送指令和设备响应为一轮语音交互行为，每轮语音交互行为对应有一个满意度。

根据本申请实施例的生成方法，首先获取每轮样本语音交互行为所分别对应的样本交互数据，得到多组样本交互数据。每组样本交互数据包括用户语音指令以及设备响应内容。其中，设备响应内容可以是语音形式的，也可以是设备执行动作，如调高音量的执行动作等。

对每组样本交互数据进行特征提取，得到多组样本交互特征。各组样本交互特征按照它们分别对应的样本语音交互行为的时间顺序排列，构成了样本交互特征序列。获取每组样本交互数据对应的满意度标注，例如可以基于人工标注众包的方式，对每组样本交互数据的满意度进行人工标注从而得到每轮样本语音交互行为的满意度标注，并将各满意度标注按照它们分别对应的样本语音交互行为的时间顺序排列，构成了样本满意度序列。

然后构建初始模型，并基于大量的训练数据(即多组样本交互特征序列及其对应的样本满意度序列)对该初始模型进行训练，训练完成后得到满意度评估模型。对多轮待评估语音交互行为下的待评估交互数据，进行特征提取得到待评估交互特征序列，满意度评估模型可以对输入的待评估交互特征序列，输出满意度评估序列，该满意度评估序列包括多个满意度评估值，分别对应多轮待评估语音交互行为。

根据本申请实施例的生成方式所得到的满意度评估模型，可以对多轮语音交互行为下的用户意图理解的满意度进行评估，可以兼顾相邻轮语音交互行为的衔接性，从而能准确、高效基于用户的多轮语音操作，进行意图序列满意度评估。

在一种实施方式中，针对样本交互数据进行特征提取所得到的样本交互特征包括用户特征和设备特征。由于考虑了用户特征以及设备特征，可以提高满意度评估的准确性。

用户特征包括语速、语音字数、时间特征、基于语气的情感分析特征、语音语义主题中的至少一项；设备特征包括响应主题、播放时长、是否播放完成中的至少一项。对用户特征和设备特征分别进行分类细化，从多个维度进行评估，可以进一步提高满意度评估的准确性。

在一种实施方式中，在步骤S202中可以包括：从各样本交互数据中抽象出多个样本行为序列；其中，多个行为序列与多轮样本语音交互行为相对应，样本行为序列包括用户的语速、语音字数、时间信息、基于语气的情感分析、语音语义主题中的至少一项；以及设备的响应主题、播放时长、是否播放完成中的至少一项；对样本行为序列进行特征提取得到样本交互特征；对各样本交互特征，按照相应的样本语音交互行为的时间顺序排列，得到样本交互特征序列。

也就是说，可以针对交互与操作特点，从交互数据中抽象出行为序列，然后再对行为序列进行特征提取，得到交互特征。

在一个示例中，抽象出来的行为序列包含用户的语速、语音字数、时间信息、基于语气的情感分析、语音语义主题；以及智能语音设备的响应主题、播放时长、是否播放完成等。

这里的响应主题，是通过对智能音箱的操作行为进行分类获得。如控制(001)、视听(002)、游戏(003)、资讯(004)、教育(005)、休闲(006)、家居控制(007)、……。对于每一个操作大类，再进行子操作划分。如对视听(002)类，分为歌曲播放(0001)、视频播放(0002)、播放列表(0003)、进度调节(0004)、换一首(0005)、歌曲信息(0006)、歌手信息(0007)、播放视频(0008)、视频信息(0009)、播放完成(0010)……；如对控制类(001)，分为调高音量(0001)、调低音量(0002)、退出应用(0003)、关机(0004)、基础设置(0005)、唤醒(0006)等，如对资讯(004)，分为天气查询(0001)、播放完成(0002)、……。

下面给出6轮样本语音交互行为的示例：

(1)用户问(语音指令)：小度小度(50/min，9:00am，4，高兴，设备控制……)；

设备响应：在呢(0010006,5s，是……)；

满意度标注：[满意]

(2)用户语音指令:播放周杰伦的歌曲(40/min，9:00am，4，高兴，歌曲……)；

设备响应：好的，为您播放七里香(0020001，120s，否……)；

满意度标注：[满意]

(3)用户语音指令：声音高一点(30/min，9:02am，4，中性，设备控制……)；

设备响应：调高音量(0010001，10s，是……)；

满意度标注：[满意]

(4)用户语音指令：北海天气(55/min，9:03am，4，中性，设备控制……)；

设备响应：上海天气情况(0040001，15s，否……)；

满意度标注：[不满意]

(5)用户语音指令：广西壮族自治区北海天气(45/min，9:04am，4，失落，设备控制……)；

设备响应：北海天气情况(0040001，30s，是……)；

满意度标注：[满意]

(6)用户语音指令：退出(20/min，9:05am，4，中性，设备控制……)；

设备响应：退出(0010003，3s，是……)；

满意度标注：[满意]

对6轮行为序列(即用户语音指令和设备响应部分对应的括号中的部分)进行特征提取，得到交互特征序列；对应的满意度标注序列为：(满意，满意，满意，不满意，满意，满意)。

对交互数据进行序列化后，再进行特征提取，便于将用户行为数据和设备行为数据抽象为可分析的数据，简化特征提取，提高特征提取的效率。

在一种实施方式中，本申请实施例所采用的初始模型为条件随机场(ConditionalRandom Field，CRF)模型。设P(Y|X)为线性链条件随机场(linear chain conditionalrandom field)，则在随机变量X取值为x的条件下，随机变量Y取值为y的条件概率具有如下形式：

其中，Z(X)＝∑_yexp(∑_i,kλ_kt_k(y_i-1,y_i,x,i)+∑_i,lu_ls_l(y_i,x,i))；x表示交互特征序列；y_i表示第i轮语音交互行为对应的满意度标注；t_k(y_i-1,y_i,x,i)表示基于前一轮语音交互行为的满意度、当前轮语音交互行为的满意度、交互特征序列构建的第一参数函数；s_l(y_i,x,i)表示基于当前轮语音交互行为的满意度、交互特征序列构建的第二参数函数；λ_k表示所述第一参数函数对应的权重，u_l表示所述第二参数函数对应的权重；i表示语音交互行为的编号；k表示第一参数的编号，l表示第二参数的编号。

例如：比如t₁(y_i-1,y_i,x,i)＝1表示当前一轮交互行为为听歌未完成状态，当前轮交互行为为调高音量时，该次应该为满意的概率高，则对应的权重值λ_k应该是正的，且λ_k的值越大，则越倾向与将该次操作标注为满意(如(3))。

进一步地，基于海量用户的多轮样本语音行为和满意度标注序列，通过极大似然估计或正则化的极大似然估计，得到第一参数函数、第二参数函数、第一参数函数对应的权重以及第二参数函数对应的权重，从而得到条件概率模型即满意度评估模型。

条件随机场是给定一组输入随机变量条件下输出另一组随机变量的条件概率分布模型，其特点是假设输出随机变量构成马尔可夫随机场。在本申请实施例的智能语音意图理解场景中，可以依靠当前轮语音交互行为和前一轮语音交互行为，对满意度序列进行评估，提高满意度评估的效率和准确度。

本申请实施例还提供一种语音交互满意度的评估方法，如图3所示，该方法包括：

步骤S301、获取多轮待评估语音交互行为下的待评估交互数据；

步骤S302、对各待评估交互数据进行特征提取，得到待评估交互特征序列，待评估交互特征序列中的各待评估交互特征，按照相应的待评估语音交互行为的时间顺序排列；

步骤S303、将待评估交互特征序列输入满意度评估模型，评估各轮待评估语音交互行为的满意度，其中，满意度评估模型为根据上述的生成方法得到。

在一种实施方式中，在步骤S302中可以包括：从各待评估交互数据中抽象出多个待评估行为序列；其中，多个行为序列与多轮待评估语音交互行为相对应，待评估行为序列包括用户的语速、语音字数、时间信息、基于语气的情感分析、语音语义主题中的至少一项；以及设备的响应主题、播放时长、是否播放完成中的至少一项；对待评估行为序列进行特征提取得到待评估交互特征；对各待评估交互特征，按照相应的待评估语音交互行为的时间顺序排列，得到待评估交互特征序列。

在一种实施方式中，待评估交互特征包括用户特征和设备特征。其中，用户特征包括语速、语音字数、时间特征、基于语气的情感分析特征、语音语义主题中的至少一项；设备特征包括回答主题、播放时长、是否播放完成中的至少一项。

其中，待评估语音交互行为的解释、待评估交互数据的获取方法、待评估交互特征序列的获取方法及相应的技术效果，可参见上述步骤S201和步骤S202中对样本语音交互行为、样本交互数据、样本交互特征序列的阐述，在此不再赘述。

在步骤S303中，基于满意度评估模型，通过输入待评估交互特征序列X_i＝(x₁,x₂,…x_T)，求出条件概率最大的输出序列/>通过维特比算法，使用动态规划求解满意度评估模型的概率最大路径，可以得到各轮待评估语音交互行为对应的满意度评估序列。其中，满意度评估系列包括多个满意度评估结果，每个满意度评估结果对应一轮待评估语音交互行为。

通过维特比算法，可以简化概率最大路径的求解过程，减少计算量，进而提高评估效率。

根据本申请实施例的语音交互满意度的评估方法，可以针对多轮语音交互行为，得到满意度评估序列，即每轮语音交互行为的满意度，从而可以高效、准确地进行用户意图理解序列的满意度评估。

本申请实施例还提供一种语音交互满意度评估模型的生成装置，如图4所示，语音交互满意度评估模型的生成装置400包括：

样本交互数据获取模块401，用于获取多轮样本语音交互行为下的样本交互数据；

样本交互特征序列确定模块402，用于对各样本交互数据进行特征提取，得到样本交互特征序列，样本交互特征序列中的各样本交互特征，按照相应的样本语音交互行为的时间顺序排列；

满意度标注序列确定模块403，用于获取各样本交互数据对应的满意度标注，得到满意度标注序列，满意度标注序列中的各满意度标注数据，按照相应的样本语音交互行为的时间顺序排列；

训练模块404，用于利用多组样本交互特征序列和满意度标注序列，训练初始模型，得到满意度评估模型，满意度评估模型用于根据多轮待评估语音交互行为下的待评估交互数据，评估各轮待评估语音交互行为的满意度。

在一种实施方式中，初始模型包括：

其中，Z(X)＝∑_yexp(∑_i,kλ_kt_k(y_i-1,y_i,x,i)+∑_i,lu_ls_l(y_i,x,i))；x表示交互特征序列；y_i表示第i轮语音交互行为对应的满意度标注；t_k(y_i-1,y_i,x,i)表示基于前一轮语音交互行为的满意度、当前轮语音交互行为的满意度、交互特征序列构建的第一参数函数；s_l(y_i,x,i)表示基于当前轮语音交互行为的满意度、交互特征序列构建的第二参数函数；λ_k表示第一参数函数对应的权重，u_l表示第二参数函数对应的权重；i表示语音交互行为的编号；k表示第一参数的编号，l表示第二参数的编号。

在一种实施方式中，训练模块404还用于：

通过极大似然估计得到第一参数函数、第二参数函数、第一参数函数对应的权重以及第二参数函数对应的权重。

在一种实施方式中，如图5所示，样本交互特征序列确定模块500包括：

样本行为序列抽象子模块501，用于从各样本交互数据中抽象出多个样本行为序列；其中，多个样本行为序列与多轮样本语音交互行为相对应，样本行为序列包括用户的语速、语音字数、时间信息、基于语气的情感分析、语音语义主题中的至少一项；以及设备的响应主题、播放时长、是否播放完成中的至少一项；

样本交互特征提取子模块502，用于对样本行为序列进行特征提取得到样本交互特征；

样本交互特征序列确定子模块503，用于对各样本交互特征，按照相应的样本语音交互行为的时间顺序排列，得到样本交互特征序列。

其中，样本交互特征序列确定模块500可以是与样本交互特征序列确定模块402相同或相类似的模块。

在一种实施方式中，样本交互特征包括用户特征和设备特征。

在一种实施方式中，用户特征包括语速、语音字数、时间特征、基于语气的情感分析特征、语音语义主题中的至少一项；设备特征包括回答主题、播放时长、是否播放完成中的至少一项。

本申请实施例还提供一种语音交互满意度的评估装置，如图6所示，语音交互满意度的评估装置600包括：

待评估交互数据获取模块601，用于获取多轮待评估语音交互行为下的待评估交互数据；

待评估交互特征序列确定模块602，用于对各待评估交互数据进行特征提取，得到待评估交互特征序列，待评估交互特征序列中的各待评估交互特征，按照相应的待评估语音交互行为的时间顺序排列；

评估模块603，用于将待评估交互特征序列输入满意度评估模型，评估各轮待评估语音交互行为的满意度，其中，满意度评估模型为根据本申请实施例的生成装置得到。

在一种实施方式中，如图7所示，待评估交互特征序列确定模块700包括：

待评估行为序列抽象子模块701，用于从各待评估交互数据中抽象出多个待评估行为序列；其中，多个待评估行为序列与多轮待评估语音交互行为相对应，待评估行为序列包括用户的语速、语音字数、时间信息、基于语气的情感分析、语音语义主题中的至少一项；以及设备的响应主题、播放时长、是否播放完成中的至少一项；

待评估交互特征提取子模块702，用于对待评估行为序列进行特征提取得到待评估交互特征；

待评估交互特征序列确定子模块703，用于对各待评估交互特征，按照相应的待评估语音交互行为的时间顺序排列，得到待评估交互特征序列。

其中，待评估交互特征序列确定模块700可以是与待评估交互特征序列确定模块602相同或相类似的模块。

在一种实施方式中，待评估交互特征包括用户特征和设备特征。

在一种实施方式中，评估模块603还用于通过维特比算法，使用动态规划求解满意度评估模型的概率最大路径，以得到各轮待评估语音交互行为对应的满意度评估序列。

本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

如图8所示，是根据本申请实施例的生成方法或评估方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图8所示，该电子设备包括：一个或多个处理器801、存储器802，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。

存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的生成方法或评估方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的生成方法或评估方法。

存储器802作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的生成方法或评估方法或生成装置或评估装置对应的程序指令/模块。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的生成方法或评估方法。

存储器802可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据生成方法或评估方法的电子设备的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器802可选包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至生成方法或评估方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

生成方法或评估方法的电子设备还可以包括：输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接，图8中以通过总线连接为例。

输入装置803可接收输入的数字或字符信息，以及产生与生成方法或评估方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPS)服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种语音交互满意度评估模型的生成方法，包括：

获取多轮样本语音交互行为下的样本交互数据，其中，所述样本交互数据包括用户语音指令以及设备响应内容；

对各所述样本交互数据进行特征提取，得到样本交互特征序列，所述样本交互特征序列中的各样本交互特征，按照相应的样本语音交互行为的时间顺序排列，其中，所述样本交互特征包括用户语音指令特征以及设备响应内容特征；

获取各所述样本交互数据对应的满意度标注，得到满意度标注序列，所述满意度标注序列中的各满意度标注数据，按照相应的样本语音交互行为的时间顺序排列；

利用多组所述样本交互特征序列和所述满意度标注序列，训练初始模型，得到满意度评估模型，所述满意度评估模型用于根据多轮待评估语音交互行为下的待评估交互数据，评估各轮待评估语音交互行为的满意度；

其中，对各所述样本交互数据进行特征提取，得到样本交互特征序列，包括：

从各所述样本交互数据中抽象出多个样本行为序列；其中，多个所述样本行为序列与多轮所述样本语音交互行为相对应，所述样本行为序列包括用户的语速、语音字数、时间信息、基于语气的情感分析、语音语义主题中的至少一项；以及设备的响应主题、播放时长、是否播放完成中的至少一项；

对所述样本行为序列进行特征提取得到所述样本交互特征；

对各所述样本交互特征，按照相应的样本语音交互行为的时间顺序排列，得到所述样本交互特征序列；

其中，所述初始模型包括：

2.根据权利要求1所述的生成方法，其中，利用所述样本交互特征序列和所述满意度标注序列，训练初始模型，得到满意度评估模型，包括：

通过极大似然估计得到所述第一参数函数、所述第二参数函数、所述第一参数函数对应的权重以及所述第二参数函数对应的权重。

3.根据权利要求1至2任一项所述的生成方法，其中，所述样本交互特征包括用户特征和设备特征。

4.根据权利要求3所述的生成方法，其中，所述用户特征包括语速、语音字数、时间特征、基于语气的情感分析特征、语音语义主题中的至少一项；所述设备特征包括回答主题、播放时长、是否播放完成中的至少一项。

5.一种语音交互满意度的评估方法，包括：

获取多轮待评估语音交互行为下的待评估交互数据；

对各所述待评估交互数据进行特征提取，得到待评估交互特征序列，所述待评估交互特征序列中的各待评估交互特征，按照相应的待评估语音交互行为的时间顺序排列；

将所述待评估交互特征序列输入满意度评估模型，评估各轮待评估语音交互行为的满意度，其中，所述满意度评估模型为根据权利要求1至3任一项所述的生成方法得到。

6.根据权利要求5所述的评估方法，其中，对各所述待评估交互数据进行特征提取，得到待评估交互特征序列，包括：

从各所述待评估交互数据中抽象出多个待评估行为序列；其中，多个所述待评估行为序列与多轮所述待评估语音交互行为相对应，所述待评估行为序列包括用户的语速、语音字数、时间信息、基于语气的情感分析、语音语义主题中的至少一项；以及设备的响应主题、播放时长、是否播放完成中的至少一项；

对所述待评估行为序列进行特征提取得到所述待评估交互特征；

对各所述待评估交互特征，按照相应的待评估语音交互行为的时间顺序排列，得到所述待评估交互特征序列。

7.根据权利要求5所述的评估方法，其中，所述待评估交互特征包括用户特征和设备特征。

8.根据权利要求7所述的评估方法，其中，所述用户特征包括语速、语音字数、时间特征、基于语气的情感分析特征、语音语义主题中的至少一项；所述设备特征包括回答主题、播放时长、是否播放完成中的至少一项。

9.根据权利要求5所述的评估方法，其中，评估各轮待评估语音交互行为的满意度，包括：

通过维特比算法，使用动态规划求解所述满意度评估模型的概率最大路径，以得到各轮待评估语音交互行为对应的满意度评估序列。

10.一种语音交互满意度评估模型的生成装置，包括：

样本交互数据获取模块，用于获取多轮样本语音交互行为下的样本交互数据，其中，所述样本交互数据包括用户语音指令以及设备响应内容；

样本交互特征序列确定模块，用于对各所述样本交互数据进行特征提取，得到样本交互特征序列，所述样本交互特征序列中的各样本交互特征，按照相应的样本语音交互行为的时间顺序排列，其中，所述样本交互特征包括用户语音指令特征以及设备响应内容特征；

满意度标注序列确定模块，用于获取各所述样本交互数据对应的满意度标注，得到满意度标注序列，所述满意度标注序列中的各满意度标注数据，按照相应的样本语音交互行为的时间顺序排列；

训练模块，用于利用多组所述样本交互特征序列和所述满意度标注序列，训练初始模型，得到满意度评估模型，所述满意度评估模型用于根据多轮待评估语音交互行为下的待评估交互数据，评估各轮待评估语音交互行为的满意度；

其中，所述样本交互特征序列确定模块包括：

样本行为序列抽象子模块，用于从各所述样本交互数据中抽象出多个样本行为序列；其中，多个所述样本行为序列与多轮所述样本语音交互行为相对应，所述样本行为序列包括用户的语速、语音字数、时间信息、基于语气的情感分析、语音语义主题中的至少一项；以及设备的响应主题、播放时长、是否播放完成中的至少一项；

样本交互特征提取子模块，用于对所述样本行为序列进行特征提取得到所述样本交互特征；

样本交互特征序列确定子模块，用于对各所述样本交互特征，按照相应的样本语音交互行为的时间顺序排列，得到所述样本交互特征序列；

其中，所述初始模型包括：

11.根据权利要求10所述的生成装置，其中，所述训练模块还用于：

12.根据权利要求10至11任一项所述的生成装置，其中，所述样本交互特征包括用户特征和设备特征。

13.根据权利要求12所述的生成装置，其中，所述用户特征包括语速、语音字数、时间特征、基于语气的情感分析特征、语音语义主题中的至少一项；所述设备特征包括回答主题、播放时长、是否播放完成中的至少一项。

14.一种语音交互满意度的评估装置，包括：

待评估交互特征序列确定模块，用于对各所述待评估交互数据进行特征提取，得到待评估交互特征序列，所述待评估交互特征序列中的各待评估交互特征，按照相应的待评估语音交互行为的时间顺序排列；

评估模块，用于将所述待评估交互特征序列输入满意度评估模型，评估各轮待评估语音交互行为的满意度，其中，所述满意度评估模型为根据权利要求10至12任一项所述的生成装置得到。

15.根据权利要求14所述的评估装置，其中，所述待评估交互特征序列确定模块包括：

待评估行为序列抽象子模块，用于从各所述待评估交互数据中抽象出多个待评估行为序列；其中，多个所述待评估行为序列与多轮所述待评估语音交互行为相对应，所述待评估行为序列包括用户的语速、语音字数、时间信息、基于语气的情感分析、语音语义主题中的至少一项；以及设备的响应主题、播放时长、是否播放完成中的至少一项；

待评估交互特征提取子模块，用于对所述待评估行为序列进行特征提取得到所述待评估交互特征；

待评估交互特征序列确定子模块，用于对各所述待评估交互特征，按照相应的待评估语音交互行为的时间顺序排列，得到所述待评估交互特征序列。

16.根据权利要求15所述的评估装置，其中，所述待评估交互特征包括用户特征和设备特征。

17.根据权利要求16所述的评估装置，其中，所述用户特征包括语速、语音字数、时间特征、基于语气的情感分析特征、语音语义主题中的至少一项；所述设备特征包括回答主题、播放时长、是否播放完成中的至少一项。

18.根据权利要求14所述的评估装置，其中，所述评估模块还用于：

19.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使计算机执行权利要求1-9中任一项所述的方法。