CN109545185B

CN109545185B - 交互系统评价方法、评价系统、服务器及计算机可读介质

Info

Publication number: CN109545185B
Application number: CN201811341132.5A
Authority: CN
Inventors: 孙玉梅; 罗荣刚
Original assignee: Baidu Online Network Technology Beijing Co Ltd; Shanghai Xiaodu Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2018-11-12
Filing date: 2018-11-12
Publication date: 2022-03-18
Anticipated expiration: 2038-11-12
Also published as: CN109545185A

Abstract

本公开提供了一种交互系统评价方法，包括：获取交互系统的交互日志，所述交互日志中记载有多个交互输入和所述交互系统根据所述交互输入识别出的第一意图；针对至少部分交互输入中的每一个，根据该交互输入和与该交互输入相邻的至少一个交互输入，分析出该交互输入对应的第二意图；针对至少部分交互输入中的每一个，将其对应的第二意图与所述交互系统识别出的第一意图进行比较；根据全部比较结果生成第一评价结果。本公开还提供了评价系统、服务器及计算机可读介质。

Description

交互系统评价方法、评价系统、服务器及计算机可读介质

技术领域

本公开实施例涉及语音交互技术领域，特别涉及交互系统评价方法、评价系统、服务器及计算机可读介质。

背景技术

智能语音交互是基于语音输入的新一代交互模式，用户通过对交互系统说话就可以得到相应的反馈结果。在现有技术中，通常通过人工手段来评价交互系统的交互能力。

发明内容

本公开实施例提供一种交互系统评价方法、评价系统、服务器及计算机可读介质。

第一方面，本公开实施例提供一种交互系统评价方法，该交互系统评价方法包括：

获取交互系统的交互日志，所述交互日志中记载有多个交互输入和所述交互系统根据所述交互输入识别出的第一意图；

针对至少部分交互输入中的每一个，根据该交互输入和与该交互输入相邻的至少一个交互输入，分析出该交互输入对应的第二意图；

针对至少部分交互输入中的每一个，将其对应的第二意图与所述交互系统识别出的第一意图进行比较；

根据全部比较结果生成第一评价结果。

在一些实施例中，所述交互输入包括音频信息，所述根据该交互输入和与该交互输入相邻的至少一个交互输入，分析出该交互输入对应的第二意图包括：

获取根据该交互输入转换出的第一文字信息，以及根据与该交互输入相邻的至少一个交互输入转换出的第二文字信息；

根据所述第一文字信息和所述第二文字信息，确定出该交互输入对应的第二意图。

在一些实施例中，所述根据该交互输入和与该交互输入相邻的至少一个交互输入，分析出该交互输入对应的第二意图包括：

至少根据与该交互输入相邻的至少一个交互输入，分析出该交互输入对应的话题领域；

根据该交互输入和所述话题领域对应的分析规则，分析出该交互输入对应的第二意图。

至少根据与该交互输入相邻的至少一个交互输入，分析出该交互输入对应的语言习惯属性；

根据该交互输入和所述语言习惯属性对应的分析规则，分析出该交互输入对应的第二意图。

在一些实施例中，所述针对至少部分交互输入中的每一个，将其对应的第二意图与所述交互系统识别出的第一意图进行比较包括：

根据所述第二意图和所述第一意图，计算出所述第二意图与所述第一意图的相似度；

根据所述相似度生成比较结果。

在一些实施例中，所述交互输入包括音频信息，所述交互日志中还记载有交互系统根据交互输入转换出的文字信息，所述方法还包括：

针对至少部分交互输入中的每一个，验证交互系统转换出的文字信息是否存在错误，并在验证出交互系统转换出的文字信息存在错误时，根据预设的错误分析模型分析出所述错误对应的错误类别；

根据预先设置的错误类别和评价值的对应关系，查找出错误类别对应的评价值；

根据错误类别对应的评价值生成第二评价结果。

在一些实施例中，所述交互日志中还记载有交互系统根据至少部分交互输入中的每一个产生的推荐内容，以及用户针对该推荐内容的反馈动作，所述方法还包括：

根据至少部分用户的反馈动作生成第三评价结果。

在一些实施例中，所述推荐内容是交互系统根据设定的用户人物画像和交互输入产生的；所述根据至少部分用户的反馈动作生成第三评价结果包括：

根据至少部分用户的反馈动作，评价所述用户人物画像的准确度；

根据所述用户人物画像的准确度生成第三评价结果。

在一些实施例中，所述交互输入为音频信息，所述交互日志中还记载有交互系统根据交互输入识别出的第一语音识别结果，所述方法还包括：

针对至少部分交互输入中的每一个，根据GMM-HMM语音识别算法识别出该交互输入对应的第二语音识别结果；

针对至少部分交互输入中的每一个，将其对应的第二语音识别结果与第一语音识别结果进行比对；

根据全部比对结果生成第四评价结果。

第二方面，本公开实施例提供一种评价系统，用于对交互系统进行评价，所述评价系统包括：

获取模块，用于获取交互系统的交互日志，所述交互日志中记载有多个交互输入和所述交互系统根据所述交互输入识别出的第一意图；

意图分析模块，用于针对至少部分交互输入中的每一个，根据该交互输入和与该交互输入相邻的至少一个交互输入，分析出该交互输入对应的第二意图；

意图比较模块，用于针对至少部分交互输入中的每一个，将其对应的第二意图与所述交互系统识别出的第一意图进行比较；

评价模块，用于根据全部比较结果生成第一评价结果。

在一些实施例中，所述交互输入包括音频信息，所述意图分析模块具体用于获取根据该交互输入转换出的第一文字信息，以及根据与该交互输入相邻的至少一个交互输入转换出的第二文字信息；根据所述第一文字信息和所述第二文字信息，确定出该交互输入对应的第二意图。

在一些实施例中，所述意图分析模块具体用于至少根据与该交互输入相邻的至少一个交互输入，分析出该交互输入对应的话题领域；根据该交互输入和所述话题领域对应的分析规则，分析出该交互输入对应的第二意图。

在一些实施例中，所述意图分析模块具体用于至少根据与该交互输入相邻的至少一个交互输入，分析出该交互输入对应的语言习惯属性；根据该交互输入和所述语言习惯属性对应的分析规则，分析出该交互输入对应的第二意图。

在一些实施例中，所述意图比较模块具体用于根据所述第二意图和所述第一意图，计算出所述第二意图与所述第一意图的相似度；根据所述相似度生成比较结果。

在一些实施例中，所述交互输入包括音频信息，所述交互日志中还记载有交互系统根据交互输入转换出的文字信息，所述系统还包括：错误分析模块、查找模块；

所述错误分析模块用于针对至少部分交互输入中的每一个，验证交互系统转换出的文字信息是否存在错误，并在验证出交互系统转换出的文字信息存在错误时，根据预设的错误分析模型分析出所述错误对应的错误类别；

所述查找模块用于根据预先设置的错误类别和评价值的对应关系，查找出错误类别对应的评价值；

所述评价模块还用于根据错误类别对应的评价值生成第二评价结果。

在一些实施例中，所述交互日志中还记载有交互系统根据至少部分交互输入中的每一个产生的推荐内容，以及用户针对该推荐内容的反馈动作；

所述评价模块还用于根据至少部分用户的反馈动作生成第三评价结果。

在一些实施例中，所述推荐内容是交互系统根据设定的用户人物画像和交互输入产生的，所述评价模块具体用于根据至少部分用户的反馈动作，评价所述用户人物画像的准确度；根据所述用户人物画像的准确度生成第三评价结果。

在一些实施例中，所述交互输入为音频信息，所述交互日志中还记载有交互系统根据交互输入识别出的第一语音识别结果，所述系统还包括：语音识别模块、语音比对模块；

所述语音识别模块用于针对至少部分交互输入中的每一个，根据GMM-HMM语音识别算法识别出该交互输入对应的第二语音识别结果；

所述语音比对模块用于针对至少部分交互输入中的每一个，将其对应的第二语音识别结果与第一语音识别结果进行比对；

所述评价模块还用于根据全部比对结果生成第四评价结果。

第三方面，本公开实施例提供一种服务器，该服务器包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述的交互系统评价方法。

第四方面，本公开实施例提供一种计算机可读介质，其上存储有计算机程序，其中，所述程序被执行时实现如上述的交互系统评价方法。

本公开实施例提供的交互系统评价方法、评价系统、服务器及计算机可读介质，能够有效提高评价交互系统的语音交互能力的效率，实现对交互系统各方面语音交互能力的评价，为日后优化、升级交互系统提供了强大的数据支持。

附图说明

附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开的实施例一起用于解释本公开，并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述，以上和其他特征和优点对本领域技术人员将变得更加显而易见，在附图中：

图1为本公开实施例提供的一种交互系统评价方法的流程图；

图2为本公开实施例中步骤12的一种具体实现方式的流程图；

图3为本公开实施例中步骤12的另一种具体实现方式的流程图；

图4为本公开实施例中步骤12的又一种具体实现方式的流程图；

图5为本公开实施例中步骤13的一种具体实现方式的流程图；

图6为本公开实施例中步骤14的一种具体实现方式的流程图；

图7为本公开实施例中对交互系统的语音转文字的能力进行评价的流程图；

图8为本公开实施例中步骤21的一种具体实现方式的流程图；

图9为本公开实施例中步骤23的一种具体实现方式的流程图；

图10为本公开实施例中对交互系统准确反馈内容的能力进行评价的流程图；

图11为本公开实施例中对交互系统的语音识别能力进行评价的流程图；

图12为本公开实施例中步骤42的一种具体实现方式的流程图；

图13为本公开实施例中步骤43的一种具体实现方式的流程图；

图14为本公开实施例提供的一种评价系统的结构示意图。

具体实施方式

为使本领域的技术人员更好地理解本公开的技术方案，下面结合附图对本公开提供的交互系统评价方法、评价系统、服务器及计算机可读介质进行详细描述。

在下文中将参考附图更充分地描述示例实施例，但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之，提供这些实施例的目的在于使本公开透彻和完整，并将使本领域技术人员充分理解本公开的范围。

如本文所使用的，术语“和/或”包括一个或多个相关列举条目的任何和所有组合。

本文所使用的术语仅用于描述特定实施例，且不意欲限制本公开。如本文所使用的，单数形式“一个”和“该”也意欲包括复数形式，除非上下文另外清楚指出。还将理解的是，当本说明书中使用术语“包括”和/或“由……制成”时，指定存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其群组。

本文所述实施例可借助本公开的理想示意图而参考平面图和/或截面图进行描述。因此，可根据制造技术和/或容限来修改示例图示。因此，实施例不限于附图中所示的实施例，而是包括基于制造工艺而形成的配置的修改。因此，附图中例示的区具有示意性属性，并且图中所示区的形状例示了元件的区的具体形状，但并不旨在是限制性的。

除非另外限定，否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本文明确如此限定。

图1为本公开实施例提供的一种交互系统评价方法的流程图，如图1所示，该方法可以由评价系统来执行，该系统可以通过软件和/或硬件的方式实现，该系统可以集成在服务器中。该交互系统评价方法包括：

步骤11、获取交互系统的交互日志，交互日志中记载有多个交互输入和交互系统根据交互输入识别出的第一意图。

其中，交互系统为能够为用户提供智能交互服务的智能终端、平台或应用，例如，智能音响、智能视频音箱、智能故事机、智能交互平台、智能交互应用等。其中，交互系统可以基于DuerOS操作系统实现。本公开实施例对于交互系统的实现方式不作特别限制，只要该交互系统能够与用户进行交互即可。

本公开实施例中的“交互”包括语音交互(Speech Interaction)和文字交互，其中，语音交互是基于语音识别、语音合成、自然语言理解等技术实现，在多种实际应用场景下，赋予交互系统“能听、会说、懂你”式的智能人机交互体验，语音交互适用于多个应用场景中，包括智能问答、智能播放、智能查找等场景。文字交互基于文字识别、提取、自然语言理解等技术实现，同样可以适用于多个前述的应用场景。

需要说明的是，本公开实施例中的“交互输入”为用户在与交互系统进行交互过程中的输入。用户与交互系统进行交互时，通过向交互系统输入音频信息或文字信息，即前述交互输入包括音频信息或文字信息，其中，文字信息是指自然语言类的文字。当交互输入为音频信息时，该交互系统可以根据音频信息，经语音转换文字、根据文字提取用户意图(第一意图)和根据用户意图获取相应的反馈内容等一系列识别操作后，将反馈内容返回给用户；当交互输入为文字信息时，该交互系统可以根据文字信息，经根据文字提取用户意图(第一意图)和根据用户意图获取相应的反馈内容等一系列识别操作后，将反馈内容返回给用户。由此可见，当交互输入为文字信息，交互系统无需进行语音转换文字的操作。在下述描述中，以交互输入为音频信息为例进行描述

交互系统可以向用户提供各种的语音交互服务，因此，对交互系统的各方面语音交互能力进行评价，对于提高用户体验和交互系统的开发、优化和升级尤为重要。例如，交互系统的各方面语音交互能力可以包括交互系统的语音识别能力、语音转换文字的能力、根据文字提取用户意图的能力和根据用户意图反馈准确内容的能力。

在步骤11中，交互日志可以是由交互系统定期主动上报获取，也可以定期主动询问交互系统获取。

依据用户正常使用交互系统的使用习惯，通常情况下，用户与交互系统完成一次语音交互过程会有一定的语境，该语境中包含有多个交互输入，但交互系统通常仅针对每个交互输入识别用户意图，很难准确识别出用户的真实意图。例如，用户输入“我想听一首张三的歌”的语音，交互系统根据用户输入的该语音识别出的用户意图为“听一首张三的歌曲”并向用户返回一首由张三演唱的歌曲的音频。用户在听完张三的歌曲后，还想听一首由张三演唱的歌曲，因此继续输入“再来一首”的语音。此时，由于交互系统仅根据用户继续输入的语音进行识别，导致交互系统识别出的用户意图为“听一首歌曲”，并向用户任意推荐一首热门歌曲。显然，交互系统并未准确识别出用户的真实意图(由张三演唱的另一首歌曲)，针对交互系统的错误识别，用户会习惯去纠错，例如用户继续输入“我想听是张三的其他歌曲”的语音。

基于上述该用户与交互系统进行语音交互过程产生的语境，可以理解，用户与交互系统在进行语音交互时，用户与交互系统的语音交互过程包括交互输入-用户意图-反馈内容-交互输入-用户意图-反馈内容……，即交互输入、反馈内容交替发生。

本公开实施例中，通过获取多个交互输入和交互系统所识别出的用户意图，对交互系统在本次语音交互过程中识别用户意图的能力进行评价。

在一些实施例中，当交互输入包括音频信息时，可以通过解析交互日志中的音频文件地址而获取该音频信息。

步骤12、针对至少部分交互输入中的每一个，根据该交互输入和与该交互输入相邻的至少一个交互输入，分析出该交互输入对应的第二意图。

例如，至少部分交互输入包括第一交互输入、第二交互输入、第三交互输入，在交互日志中，至少部分交互输入按照输入时间顺序排序，针对第一交互输入，根据第一交互输入和与第一交互输入相邻的第二交互输入、第三交互输入，分析出该第一交互输入对应的第二意图。

本公开实施例中，与该交互输入相邻的至少一个交互输入包括与该交互输入相邻的前n个交互输入，和/或，与该交互输入相邻的后m个交互输入。其中，m、n均为大于或等于1的正整数。在交互日志中，交互输入可以按输入时间顺序排序，此处所述“前n个”可以理解为按照排序顺序中位于该交互输入之前的n个交互输入，同理，“后n个”可以理解为按照排序顺序中位于该交互输入之后的m个交互输入。

图2为本公开实施例中步骤12的一种具体实现方式的流程图，如图2所示，在一些实施例中，交互输入包括音频信息，步骤12包括：

步骤121a、获取根据该交互输入转换出的第一文字信息，以及根据与该交互输入相邻的至少一个交互输入转换出的第二文字信息。

在一些实施例中，利用语音识别技术，分析交互输入即音频信息，得到该交互输入对应的第一文字信息以及与该交互输入相邻的至少一个交互输入对应的第二文字信息。

步骤122a、根据第一文字信息和第二文字信息，确定出该交互输入对应的第二意图。

具体而言，针对至少部分交互输入中的每一个，根据其对应的第一文字信息，结合与其相邻的至少一个交互输入对应的所有第二文字信息，分析出该第一文字信息所表达的用户的真实意图，即该交互输入对应的第二意图。换言之，根据第一文字信息和第二文字信息的上下文语境，分析出第一文字信息对应的第二意图。

在一些实施例中，根据第一文字信息，结合所有第二文字信息，通过语义分析等自然语言处理技术，分析出该第一文字信息所表达的用户的真实意图(第二意图)。例如，第一文字信息包括“打开饿了么”，所有第二文字信息包括“那是一款外卖APP”、“我说的是帮我打开饿了么APP”，通过语义分析技术，分析第一文字信息和所有第二文字信息，则可以确定出第一文字信息所表达的用户的真实意图是“打开饿了么APP”。

需要说明的是，上述步骤121a～步骤122b为本公开实施例中用于确定出交互输入对应的第二意图的一种可选实现方式，其不会对本公开的技术方案产生限制。

图3为本公开实施例中步骤12的另一种具体实现方式的流程图，如图3所示，在一些实施例中，步骤12包括：

步骤121b、至少根据与该交互输入相邻的至少一个交互输入，分析出该交互输入对应的话题领域。

本公开实施例中，所述至少根据与该交互输入相邻的至少一个交互输入可以理解为：根据与该交互输入相邻的至少一个交互输入，或者根据该交互输入和与该交互输入相邻的至少一个交互输入。

优选地，与该交互输入相邻的至少一个交互输入包括与该交互输入相邻的前n个交互输入。具体地，根据与该交互输入相邻的前n个交互输入，分析出该交互输入对应的话题领域。例如，n为1，与该交互输入相邻的前1个交互输入为“播放张三的A歌”的语音，则通过语音识别技术或者文字识别技术，识别出话题领域为“歌手名、歌曲名”类话题领域，将该话题领域作为该交互输入对应的话题领域。

步骤122b、根据该交互输入和话题领域对应的分析规则，分析出该交互输入对应的第二意图。

其中，话题领域对应的分析规则包括话题领域对应的数据库，该数据库为预先建立的数据库，在数据库中记载有带有该话题领域的交互输入与第二意图的对应关系。由此，将该交互输入输入对应的数据库中，以使数据库将该交互输入与数据库中该话题领域的交互输入进行比对，即可查找出该交互输入对应的第二意图。

当从前述数据库中未查找出与该交互输入相匹配的第二意图时，说明前述话题领域分析有误，则可继续根据该交互输入和与该交互输入相邻的至少一个交互输入，利用语音识别技术或者文字识别技术，分析出该交互输入对应的话题领域，继续前述步骤122b的操作，直至查找出该交互输入对应的第二意图为止。

图4为本公开实施例中步骤12的又一种具体实现方式的流程图，如图4所示，在一些实施例中，步骤12包括：

步骤121c、至少根据与该交互输入相邻的至少一个交互输入，分析出该交互输入对应的语言习惯属性。

其中，至少根据与该交互输入相邻的至少一个交互输入的具体含义参见前述步骤121b的描述，此处不再赘述。

具体地，根据与该交互输入相邻的至少一个交互输入，分析出该交互输入对应的语言习惯属性。例如，当分析出与该交互输入相邻的前n个交互输入中经常出现网络用语，则将网络用语作为用户的语言习惯属性，即该交互输入对应的语言习惯属性。

步骤122c、根据所述语言习惯属性对应的分析规则，分析出该交互输入对应的第二意图。

其中，语言习惯属性对应的分析规则包括语言习惯属性对应的数据库，该数据库为预先建立的数据库，在数据库中记载有带有该语言习惯属性的交互输入与第二意图的对应关系。由此，将该交互输入输入对应的数据库中，数据库将该交互输入与数据库中带有该语言习惯属性的交互输入进行比对，即可查找出该交互输入对应的第二意图。

当从前述数据库中未查找出与该交互输入相匹配的第二意图时，说明前述语言习惯属性分析有误，则可继续根据该交互输入和与该交互输入相邻的至少一个交互输入，分析出该交互输入对应的语言习惯属性，继续前述步骤122c的操作，直至查找出该交互输入对应的第二意图为止。

步骤13、针对至少部分交互输入中的每一个，将其对应的第二意图与交互系统识别出的第一意图进行比较，得到对应的比较结果。

根据上述步骤12，可以获得至少部分交互输入中的每一个分别对应的第二意图。具体地，在步骤13中，通过将至少部分交互输入中的每一个分别对应的第二意图与交互系统分别识别出的第一意图进行一一对应比较，得到至少部分交互输入中的每一个分别对应的比较结果。

图5为本公开实施例中步骤13的一种具体实现方式的流程图，如图5所示，在一些实施例中，步骤13包括：

步骤131、根据第二意图和第一意图，计算出第二意图与第一意图的相似度。

本公开实施例中，第二意图和第一意图通常以文本语句、关键词等形式表现。在一些实施例中，利用文本相似度算法等自然语言处理技术，计算出交互输入对应的第二意图和交互系统识别出的第一意图之间的相似度。例如，在步骤12中所识别出的交互输入对应的第二意图为“A城的天气”，而交互系统所识别的该交互输入对应的第一意图为“B城的天气”，通过自然语言处理技术，则可以判定该第二意图和第一意图的相似度为50％。

步骤132、根据相似度生成比较结果。

其中，将第二意图和第一意图的相似度作为比较结果，因此，比较结果的取值范围可以为0～100％。

需要说明的是，上述步骤131～步骤132为本公开实施例中用于确定出至少部分交互输入中的每一个对应的比较结果的一种可选实现方式，其不会对本公开的技术方案产生限制。

步骤14、根据全部比较结果生成第一评价结果。

其中，第一评价结果用于表征交互系统识别用户意图的能力，即根据第一评价结果，可以判断出交互系统识别用户意图的准确性。

图6为本公开实施例中步骤14的一种具体实现方式的流程图，如图4所示，在一些实施例中，步骤14包括：

步骤141、根据全部比较结果，计算出全部比较结果的平均值。

具体地，将全部比较结果之和除以全部比较结果的数量，生成全部比较结果的平均值。

步骤142、将全部比较结果的平均值作为第一评价结果。

本公开实施例中，根据该第一评价结果，可以确定交互系统在此次与用户进行语音交互过程中能够正确识别用户意图的程度。例如，当第一评价结果大于或等于第一预设阈值时，可以确定交互系统能够正确识别用户意图的程度为较高，进而可以认为此时用户对此次语音交互过程的满意度为较高；当第一评价结果小于第一预设阈值且大于或等于第二预设阈值时，则可以确定交互系统能够正确识别用户意图的程度为一般，进而可以认为此时用户对此次语音交互过程的满意度为一般；当第一评价结果小于第二预设阈值时，则可以确定交互系统能够正确识别用户意图的程度为较差，进而可以认为此时用户对此次语音交互过程的满意度为较差。由此可以评估出用户对本次语音交互过程的满意度。

需要说明的是，上述步骤141～步骤142为本公开实施例中用于生成第一评价结果的一种可选实现方式，其不会对本公开的技术方案产生限制。

至此，不难理解，上述步骤11～步骤14即为对交互系统在语音交互过程中识别用户意图的能力进行评价的过程，图1示出了对交互系统在语音交互过程中识别用户意图的能力进行评价的过程。

前述交互输入为音频信息的情况仅为本公开实施例中的一种可选实施方式，本领域技术人员应该知晓，当交互输入为文字信息时，在前述步骤12中，无需对交互输入进行语音转换为文字的操作。

在一些实施例中，交互系统评价方法还包括对交互系统的语音转文字的能力进行评价的过程。图7为本公开实施例中对交互系统的语音转文字的能力进行评价的流程图，如图7所示，具体地，交互输入包括音频信息，交互日志中还记载有交互系统根据交互输入转换出的文字信息，该交互系统评价方法还包括：

步骤21、针对至少部分交互输入中的每一个，验证交互系统转换出的文字信息是否存在错误，并在验证出交互系统转换出的文字信息存在错误时，根据预设的错误分析模型分析出所述错误对应的错误类别。

具体地，针对至少部分交互输入中的每一个，验证交互系统转换出的文字信息是否存在错误。在验证出交互系统转换出的文字信息存在错误时，根据预设的错误分析模型分析出所述错误对应的错误类别。在验证出交互系统转换出的文字信息不存在错误时，忽略该条交互输入，继续验证至少部分交互输入中的其余交互输入。

图8为本公开实施例中步骤21的一种具体实现方式的流程图，如图8所示，在一些实施例中，步骤21包括：

步骤211、获取交互输入对应的标准文字信息。

在一些实施例中，利用语音识别技术，获取交互输入对应的标准文字信息。

步骤212、将交互输入对应的标准文字信息与交互系统转换出的文字信息进行比较，判断交互系统转换出的文字信息中是否存在识别错误区，若是，则验证出交互系统转换出的文字信息存在错误并执行步骤213，否则忽略该条交互输入，继续验证至少部分交互输入中的其余交互输入。

步骤213、根据预设的错误分析模型分析出所述错误对应的错误类别。

其中，错误类别包括但不限于语音识别的问题、单字或者词连续重复导致的切词问题、音频文件的获取质量较低的问题、线上已知未修复的坏案例(badcase)导致的问题、交互输入的该条交互输入是超长语句的问题。

在步骤213中，错误分析模型包括但不限于语音识别错误分析子模型、切词错误分析子模型、音频质量分析子模型、坏案例分析子模型和语句分析子模型。其中，语音识别错误分析子模型用于通过语音识别算法分析交互系统识别的出文字信息存在的错误是否是由交互系统的语音识别问题导致；切词错误分析子模型用于分析交互输入对应的标准文字信息是否存在单字或词连续重复，若存在，继而判断交互系统识别的文字信息存在的错误是否是由于单字或者词连续重复的问题导致；音频质量分析子模型中预设有标准音频文件参数，通过分析交互输入的音频文件参数是否满足标准音频文件参数，继而判断出交互系统识别的文字信息存在的错误是否是由于音频文件的获取质量较低的问题导致；坏案例分析子模型用于分析交互系统识别的文字信息存在的错误是否是由于线上已知的未修复的坏案例的问题导致；语句分析子模型用于分析交互系统识别的文字信息存在的错误是否是由于该交互输入是超长语句的问题导致。

不难理解，前述错误类别即为识别错误的具体原因。一般而言，交互系统中的语音识别系统一般由声学模型、语言模型和语音识别解码器等多个模块构成。在分析出具体的错误类别后，可以确定出交互系统中的语音识别系统中各个模块所存在的问题，进而便于开发人员对语音识别系统进行优化、升级。

需要说明的是，上述步骤211～步骤213为本公开实施例中用于分析交互系统转换出的文字信息存在的错误对应的错误类别的一种可选实现方式，其不会对本公开的技术方案产生限制。

步骤22、根据预先设置的错误类别和评价值的对应关系，查找出错误类别对应的评价值。

其中，预先设置的错误类别和评价值的对应关系可以通过以下过程建立：

步骤a、采集初始训练样本，训练样本包括历史交互输入、交互系统根据历史交互输入转换出的文字信息、用户意图以及交互系统根据用户意图反馈的内容。

步骤b、采用上述步骤211～步骤213的方式，筛选出交互系统识别错误的数据，该数据包括历史交互输入对应的错误类别、用户意图以及交互系统根据用户意图反馈的内容。

步骤c、针对每个错误类别，将其对应的用户意图和反馈的内容进行匹配，得到相应匹配度。

其中，相应匹配度的取值范围可以为0～100％。例如，当交互系统反馈的内容完全满足用户意图时，反馈的内容和用户意图的匹配度为100％；当交互系统反馈的内容部分满足用户意图时，反馈的内容和用户意图的匹配度为1％～99％；当交互系统反馈的内容完全不满足用户意图时，反馈的内容和用户意图的匹配度为0。在一些实施例中，可以根据交互系统反馈的内容的满足用户意图的比例，来确定反馈的内容和用户意图的匹配度。

步骤d、根据上述相应匹配度，确定出各错误类别对应的评价值。

例如，错误类别对应的相应匹配度为80％～100％时，其对应的评价值为5分，错误类别对应的相应匹配度为50％～79％时，其对应的评价值为3分，错误类别对应的相应匹配度为0％～49％时，其对应的评价值为1分。

步骤e、以各错误类别对应的评价值作为训练数据，将相同错误类别及其对应的评价值分为一类。

步骤f、对于每类错误类别，取每类错误类别对应的评价值的平均值作为该类错误类别对应的评价值，由此获得错误类别与评价值的对应关系。

需要说明的是，上述步骤a～步骤f为本公开实施例中用于建立错误类别与评价值的对应关系的一种可选实现方式，其不会对本公开的技术方案产生限制。

步骤23、根据错误类别对应的评价值生成第二评价结果。

其中，第二评价结果用于表征交互系统的语音转文字的能力，即根据第二评价结果，可以判断出交互系统根据语音转换出的文字的准确性。

图9为本公开实施例中步骤23的一种具体实现方式的流程图，如图9所示，在一些实施例中，步骤23包括：

步骤231、根据各错误类别分别对应的评价值，计算出平均评价值。

步骤232、将平均评价值作为第二评价结果。

在一些实施例中，交互系统评价方法还包括对交互系统准确反馈内容的能力进行评价的过程。

在一种应用场景中，评价系统或交互系统可通过大量分析用户的历史交互输入，并根据分析结果归纳出当前的用户人物画像，当前的用户人物画像包括但不限于用户的个人信息和偏好信息，以供交互系统针对用户人物画像自动推荐内容。例如，小明在每天放学后的时间段都会向交互系统输入播放蜡笔小新、柯南等日本动漫的语音，评价系统或交互系统根据这些大量的语音输入分析出小明的用户人物画像为日本动漫爱好者。则某天小明向交互系统输入“我想听个故事”的语音时，由于通过数据分析得出小明是个日本动漫爱好者，此时交互系统根据小明的用户人物画像自动向小明推荐一个与日本动漫相关的故事。基于该实际应用场景，可在交互系统根据用户人物画像反馈相应推荐内容后，对交互系统准确反馈内容的能力进行评价。

图10为本公开实施例中对交互系统准确反馈内容的能力进行评价的流程图，如图10所示，具体地，交互日志中还记载有交互系统根据至少部分交互输入中的每一个产生的推荐内容，以及用户针对该推荐内容的反馈动作，该交互系统评价方法还包括：根据至少部分用户的反馈动作生成第三评价结果。

具体地，推荐内容是交互系统根据设定的用户人物画像和交互输入产生的，根据至少部分用户的反馈动作生成第三评价结果包括：

步骤31、根据至少部分用户的反馈动作，评价用户人物画像的准确度。

具体而言，交互系统接收到交互输入后，根据识别出的用户意图，并结合预先获取的用户人物画像，向用户推荐与用户意图和用户人物画像相关的内容。在交互系统根据用户人物画像反馈相应推荐内容后，用户可能会针对此次推荐的内容作出不同的反馈动作，例如，不同的反馈动作包括但不限于：用户是否有由于不满意推荐结果，继续输入表达更多需求的语音的动作、用户是否有点击推荐内容的动作、用户浏览推荐内容的时间是否超过预设时间的动作、用户是否有结束交互的动作、用户是否有切换至交互系统上其他应用(如游戏应用)的动作。

本公开实施例中，通过获取用户对推荐内容做出的反馈动作，以判断出交互系统所反馈的推荐内容的准确度。

在一些实施例中，步骤31包括：从预先设置的用户的反馈动作数据库，查找出用户的反馈动作对应的用户人物画像的准确度。其中，反馈动作数据库中记载有各种用户的反馈动作与用户人物画像的准确度的对应关系。

例如，反馈动作为用户有由于不满意推荐结果，继续输入表达更多需求的语音的动作时，说明交互系统反馈的内容并不完全满足或完全不满足用户的需求，此时认为当前的用户人物画像不完全准确或者不准确；反馈动作为用户有点击推荐内容的动作并且浏览推荐内容的时间超过预设时间时，可以判断出交互系统反馈的内容比较符合用户的需求，即认为当前的用户人物画像较为准确；反馈动作为用户有结束交互的动作或者切换至交互系统上其他应用的动作时，说明交互系统反馈的内容并不满足用户的需求，此时认为当前的用户人物画像不完全准确或者不准确。由此可判断出用户人物画像的准确度，用户人物画像的准确度能够反映出交互系统反馈的推荐内容的准确度。

步骤32、根据用户人物画像的准确度生成第三评价结果。

其中，第三评价结果用于表征交互系统准确反馈内容的能力，即根据第三评价结果，可以判断出交互系统准确反馈内容的能力。具体地，将用户人物画像的准确度作为第三评价结果。

在一些实施例中，交互系统评价方法还包括对交互系统的语音识别能力进行评价的过程。图11为本公开实施例中对交互系统的语音识别能力进行评价的流程图，如图11所示，具体地，交互输入为音频信息，交互日志中还记载有交互系统根据交互输入识别出的第一语音识别结果，该交互系统评价方法还包括：

步骤41、针对至少部分交互输入中的每一个，根据GMM-HMM语音识别算法识别出该交互输入对应的第二语音识别结果。

步骤42、针对至少部分交互输入中的每一个，将其对应的第二语音识别结果与第一语音识别结果进行比对，得到比对结果。

图12为本公开实施例中步骤42的一种具体实现方式的流程图，如图12所示，在一些实施例中，步骤42包括：

步骤421、计算第二语音识别结果和第一语音识别结果的相似度。

本公开实施例中，第二语音识别结果和第一语音识别结果通常以文本语句、关键词等形式表现。在一些实施例中，利用文本相似度算法等自然语言处理技术，计算出第二语音识别结果和第一语音识别结果之间的相似度。例如，第二语音识别结果为“A城的天气”，而第一语音识别结果为“B城的天气”，通过自然语言处理技术，则可以判定第二语音识别结果和第一语音识别结果的相似度为50％。

步骤422、将第二语音识别结果与第一语音识别结果的相似度作为比对结果。

其中，根据第二语音识别结果与第一语音识别结果的相似度，比对结果取值范围可以为0～100％。

需要说明的是，上述步骤421～步骤422为本公开实施例中用于确定出至少部分交互输入中的每一个对应的比对结果的一种可选实现方式，其不会对本公开的技术方案产生限制。

步骤43、根据全部比对结果生成第四评价结果。

其中，所述第四评价结果用于表征交互系统的语音识别能力，即根据第四评价结果，可以判断出交互系统的语音识别能力。

图13为本公开实施例中步骤43的一种具体实现方式的流程图，如图13所示，在一些实施例中，步骤43包括：

步骤431、根据全部比对结果，计算出全部比对结果的平均值。

步骤432、将全部比对结果的平均值作为第四评价结果。

本公开实施例所提供的交互系统评价方法，通过从四个方面对交互系统的语音交互能力进行评价，得到第一评价结果、第二评价结果、第三评价结果和第四评价结果，有效提高了评价交互系统的效率，实现了对交互系统多方面语音交互能力的评价，为线上坏案例的挖掘、测试用例的整理、交互日志的分析提供的方便，为日后优化、升级交互系统提供了强大的数据支持。根据第一评价结果、第二评价结果、第三评价结果和第四评价结果，能够反映出用户对语音交互的满意度。

图14为本公开实施例提供的一种评价系统的结构示意图，如图14所示，该评价系统用于实现上述的交互系统评价方法，评价系统包括：获取模块51、意图分析模块52、意图比较模块53和评价模块54。

其中，获取模块51用于获取交互系统的交互日志，交互日志中记载有多个交互输入和交互系统根据所述交互输入识别出的第一意图；意图分析模块52用于针对至少部分交互输入中的每一个，根据该交互输入和与该交互输入相邻的至少一个交互输入，分析出该交互输入对应的第二意图；意图比较模块53用于针对至少部分交互输入中的每一个，将其对应的第二意图与所述交互系统识别出的第一意图进行比较，得到对应的比较结果；评价模块54用于根据全部比较结果生成第一评价结果。

在一些实施例中，交互输入包括音频信息，意图分析模块52具体用于获取根据该交互输入转换出的第一文字信息，以及根据与该交互输入相邻的至少一个交互输入转换出的第二文字信息；根据第一文字信息和第二文字信息，确定出该交互输入对应的第二意图。

在一些实施例中，意图分析模块52具体用于至少根据与该交互输入相邻的至少一个交互输入，分析出该交互输入对应的话题领域；根据该交互输入和所述话题领域对应的分析规则，分析出该交互输入对应的第二意图。

在一些实施例中，意图分析模块52具体用于至少根据与该交互输入相邻的至少一个交互输入，分析出该交互输入对应的语言习惯属性；根据该交互输入和所述语言习惯属性对应的分析规则，分析出该交互输入对应的第二意图。

在一些实施例中，意图比较模块53具体用于根据第二意图和第一意图，计算出第二意图与第一意图的相似度；根据相似度生成比较结果。

在一些实施例中，评价模块54具体用于根据全部比较结果，计算出全部比较结果的平均值；将全部比较结果的平均值作为第一评价结果。

在一些实施例中，交互输入包括音频信息，交互日志中还记载有交互系统根据交互输入转换出的文字信息，所述评价系统还包括：错误分析模块55、查找模块56。其中，错误分析模块55用于针对至少部分交互输入中的每一个，验证交互系统转换出的文字信息是否存在错误，并在验证出交互系统转换出的文字信息存在错误时，根据预设的错误分析模型分析出所述错误对应的错误类别；查找模块56用于根据预先设置的错误类别和评价值的对应关系，查找出错误类别对应的评价值；评价模块54还用于根据错误类别对应的评价值生成第二评价结果。

在一些实施例中，交互日志中还记载有交互系统根据至少部分交互输入中的每一个产生的推荐内容，以及用户针对该推荐内容的反馈动作，评价模块54还用于据至少部分用户的反馈动作生成第三评价结果。具体地，推荐内容是交互系统根据设定的用户人物画像和交互输入产生的，评价模块54具体用于根据至少部分用户的反馈动作，评价用户人物画像的准确度；根据用户人物画像的准确度生成第三评价结果。

在一些实施例中，交互输入为音频信息，交互日志中还记载有交互系统根据交互输入识别出的第一语音识别结果，所述评价系统还包括：语音识别模块57、语音比对模块58。

其中，语音识别模块57用于针对至少部分交互输入中的每一个，根据GMM-HMM语音识别算法识别出该交互输入对应的第二语音识别结果；语音比对模块58用于针对至少部分交互输入中的每一个，将其对应的第二语音识别结果与第一语音识别结果进行比对，得到对应的比对结果；评价模块54还用于根据全部比对结果生成第四评价结果。

在一些实施例中，所述系统还包括存储模块59和数据展示模块60，其中，存储模块59用于存储第一评价结果、第二评价结果、第三评价结果和第四评价结果；数据展示模块60用于向技术开发人员、测试人员、产品经理展示第一评价结果、第二评价结果、第三评价结果和第四评价结果。

本公开实施例中，对于技术开发人员而言，可通过前述评价系统筛选出未能识别或识别错误的用户意图，只需在评价系统的平台上输入需要筛选的交互系统的产品号即可查看特定时间内该交互系统的评价情况，便于优化交互系统的识别用户意图的能力等语音交互能力。对于测试人员而言，测试人员在测试过程中需要构造不同场景下的测试用例，可通过该平台筛选出相应条件数据，查看不同类型的错误类别，总结规律，节省构造测试数据的时间，提高测试效率，同时也能确保测试用例涵盖不同的场景。对于产品经理而言，可通过该评价系统的平台提供的不同维度的评价结果来查看新功能是否能符合产品设计的预期结果，也可总结用户人群特征，设计出更贴合用户使用习惯的产品。

此外，本公开实施例所提供的评价系统具体用于实现前述交互系统评价方法，具体可参见前述评价方法的描述，此处不再赘述。

本公开实施例还提供了一种服务器，该服务器包括：一个或多个处理器以及存储装置；其中，存储装置上存储有一个或多个程序，当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器实现前述的交互系统评价方法。

本公开实施例还提供了一计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被执行时实现前述的交互系统评价方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

本文已经公开了示例实施例，并且虽然采用了具体术语，但它们仅用于并仅应当被解释为一般说明性含义，并且不用于限制的目的。在一些实例中，对本领域技术人员显而易见的是，除非另外明确指出，否则可单独使用与特定实施例相结合描述的特征、特性和/或元素，或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此，本领域技术人员将理解，在不脱离由所附的权利要求阐明的本公开的范围的情况下，可进行各种形式和细节上的改变。

Claims

1.一种交互系统评价方法，包括：

根据全部比较结果生成第一评价结果。

2.根据权利要求1所述的交互系统评价方法，其中，所述交互输入包括音频信息，所述根据该交互输入和与该交互输入相邻的至少一个交互输入，分析出该交互输入对应的第二意图包括：

3.根据权利要求1所述的交互系统评价方法，其中，所述根据该交互输入和与该交互输入相邻的至少一个交互输入，分析出该交互输入对应的第二意图包括：

4.根据权利要求1所述的交互系统评价方法，其中，所述根据该交互输入和与该交互输入相邻的至少一个交互输入，分析出该交互输入对应的第二意图包括：

5.根据权利要求1所述的交互系统评价方法，其中，所述针对至少部分交互输入中的每一个，将其对应的第二意图与所述交互系统识别出的第一意图进行比较包括：

根据所述相似度生成比较结果。

6.根据权利要求1所述的交互系统评价方法，其中，所述交互输入包括音频信息，所述交互日志中还记载有交互系统根据交互输入转换出的文字信息，所述方法还包括：

根据错误类别对应的评价值生成第二评价结果。

7.根据权利要求1所述的交互系统评价方法，其中，所述交互日志中还记载有交互系统根据至少部分交互输入中的每一个产生的推荐内容，以及用户针对该推荐内容的反馈动作，所述方法还包括：

根据至少部分用户的反馈动作生成第三评价结果。

8.根据权利要求7所述交互系统评价方法，其中，所述推荐内容是交互系统根据设定的用户人物画像和交互输入产生的；所述根据至少部分用户的反馈动作生成第三评价结果包括：

根据所述用户人物画像的准确度生成第三评价结果。

9.根据权利要求1所述的交互系统评价方法，其中，所述交互输入为音频信息，所述交互日志中还记载有交互系统根据交互输入识别出的第一语音识别结果，所述方法还包括：

根据全部比对结果生成第四评价结果。

10.一种评价系统，用于对交互系统进行评价，所述评价系统包括：

评价模块，用于根据全部比较结果生成第一评价结果。

11.根据权利要求10所述的评价系统，其中，所述交互输入包括音频信息，所述意图分析模块具体用于获取根据该交互输入转换出的第一文字信息，以及根据与该交互输入相邻的至少一个交互输入转换出的第二文字信息；根据所述第一文字信息和所述第二文字信息，确定出该交互输入对应的第二意图。

12.根据权利要求10所述的评价系统，其中，所述意图分析模块具体用于至少根据与该交互输入相邻的至少一个交互输入，分析出该交互输入对应的话题领域；根据该交互输入和所述话题领域对应的分析规则，分析出该交互输入对应的第二意图。

13.根据权利要求10所述的评价系统，其中，所述意图分析模块具体用于至少根据与该交互输入相邻的至少一个交互输入，分析出该交互输入对应的语言习惯属性；根据该交互输入和所述语言习惯属性对应的分析规则，分析出该交互输入对应的第二意图。

14.根据权利要求10所述的评价系统，其中，所述意图比较模块具体用于根据所述第二意图和所述第一意图，计算出所述第二意图与所述第一意图的相似度；根据所述相似度生成比较结果。

15.根据权利要求10所述的评价系统，其中，所述交互输入包括音频信息，所述交互日志中还记载有交互系统根据交互输入转换出的文字信息，所述系统还包括：错误分析模块、查找模块；

16.根据权利要求10所述的评价系统，其中，所述交互日志中还记载有交互系统根据至少部分交互输入中的每一个产生的推荐内容，以及用户针对该推荐内容的反馈动作；

17.根据权利要求16所述的评价系统，其中，所述推荐内容是交互系统根据设定的用户人物画像和交互输入产生的，所述评价模块具体用于根据至少部分用户的反馈动作，评价所述用户人物画像的准确度；根据所述用户人物画像的准确度生成第三评价结果。

18.根据权利要求10所述的评价系统，其中，所述交互输入为音频信息，所述交互日志中还记载有交互系统根据交互输入识别出的第一语音识别结果，所述系统还包括：语音识别模块、语音比对模块；

所述评价模块还用于根据全部比对结果生成第四评价结果。

19.一种服务器，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-9中任一所述的交互系统评价方法。

20.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被执行时实现如权利要求1-9中任一所述的交互系统评价方法。