CN108255943A - 人机对话质量评估方法、装置、计算机设备及存储介质 - Google Patents
人机对话质量评估方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN108255943A CN108255943A CN201711321047.8A CN201711321047A CN108255943A CN 108255943 A CN108255943 A CN 108255943A CN 201711321047 A CN201711321047 A CN 201711321047A CN 108255943 A CN108255943 A CN 108255943A
- Authority
- CN
- China
- Prior art keywords
- type
- dialogue
- quality
- assessed
- conversational
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Mathematical Physics (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- General Business, Economics & Management (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Game Theory and Decision Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了人机对话质量评估方法、装置、计算机设备及存储介质,其中方法包括:获取待评估的对话;分别获取待评估的对话对应的对话质量类型以及用户满意度类型;根据获取到的对话质量类型以及用户满意度类型确定出待评估的对话的质量评分。应用本发明所述方案,能够提高评估结果的准确性等。
Description
【技术领域】
本发明涉及计算机应用技术,特别涉及人机对话质量评估方法、装置、计算机设备及存储介质。
【背景技术】
目前,人工对话产品的应用越来越广泛,如采用开放式聊天方式的度秘等。
作为人机对话产品的开发者,需要准确的得知机器人聊天的质量,以便及时地调整和优化机器人的聊天水平。
为此,需要进行人机对话(session)质量评估。现有技术中,通常采用主观评估方式,即主观判断对话质量的好或坏,但主观判断容易受到当时环境的干扰,且无准确的标度,因此评估结果的准确性较低。
【发明内容】
有鉴于此,本发明提供了人机对话质量评估方法、装置、计算机设备及存储介质,能够提高评估结果的准确性。
具体技术方案如下:
一种人机对话质量评估方法,包括:
获取待评估的对话;
分别获取所述待评估的对话对应的对话质量类型以及用户满意度类型;
根据获取到的对话质量类型以及用户满意度类型确定出所述待评估的对话的质量评分。
根据本发明一优选实施例,所述分别获取所述待评估的对话对应的对话质量类型以及用户满意度类型包括:
从所述待评估的对话中截取出前N轮对话内容,N为大于一的正整数,将截取出的对话内容作为处理对象;
获取所述处理对象对应的对话质量类型以及用户满意度类型。
根据本发明一优选实施例,所述从所述待评估的对话中截取出前N轮对话内容包括:
按照以下原则从所述待评估的对话中截取出前N轮对话内容:
同一轮对话内容中,相邻两条对话信息之间间隔的时长小于或等于预定阈值;
以及,相邻两轮对话内容中,前一轮对话内容中的最后一条对话信息与下一轮对话内容中的第一条对话信息之间间隔的时长大于所述预定阈值。
根据本发明一优选实施例,该方法进一步包括:
若所述待评估的对话中少于或等于N轮对话内容,则将所述待评估的对话作为所述处理对象。
根据本发明一优选实施例,所述获取所述处理对象对应的对话质量类型包括:
获取根据所述处理对象中的以下内容确定出的对话质量类型:是否出现影响对话质量的问题、出现问题的比例、是否出现提升对话质量的加分项。
根据本发明一优选实施例,所述影响对话质量的问题包括:严重问题和普通问题;
其中,在统计比例时,仅统计严重问题的出现比例,将一个普通问题视为x个严重问题进行处理,x大于0且小于1;
所述提升对话质量的加分项包括:有趣和有内容。
根据本发明一优选实施例,所述获取所述处理对象对应的用户满意度类型包括:
获取根据所述处理对象中的以下内容确定出的用户满意度类型:是否出现来自用户的评价信息、评价信息的类型、不同类型的评价信息的出现时机;其中,评价信息的类型包括:正面的评价信息以及负面的评价信息。
根据本发明一优选实施例,所述对话质量类型包括:劣、差、中、良、优;
所述用户满意度类型包括:用户不满意、无法判断、用户满意。
根据本发明一优选实施例,所述获取待评估的对话之前,进一步包括:
生成打分对照表,所述打分对照表中保存有不同的对话质量类型以及用户满意度类型分别对应的质量评分;
所述根据获取到的对话质量类型以及用户满意度类型确定出所述待评估的对话的质量评分包括:
通过查询所述打分对照表,确定出获取到的对话质量类型以及用户满意度类型对应的质量评分,将获取到的质量评分作为所述待评估的对话的质量评分。
一种人机对话质量评估装置,包括:对话获取单元、类型获取单元以及质量评估单元;
所述对话获取单元,用于获取待评估的对话;
所述类型获取单元,用于分别获取所述待评估的对话对应的对话质量类型以及用户满意度类型;
所述质量评估单元,用于根据获取到的对话质量类型以及用户满意度类型确定出所述待评估的对话的质量评分。
根据本发明一优选实施例,所述类型获取单元进一步用于,
从所述待评估的对话中截取出前N轮对话内容,N为大于一的正整数,将截取出的对话内容作为处理对象;
获取所述处理对象对应的对话质量类型以及用户满意度类型。
根据本发明一优选实施例,所述类型获取单元按照以下原则从所述待评估的对话中截取出前N轮对话内容:
同一轮对话内容中,相邻两条对话信息之间间隔的时长小于或等于预定阈值;
以及,相邻两轮对话内容中,前一轮对话内容中的最后一条对话信息与下一轮对话内容中的第一条对话信息之间间隔的时长大于所述预定阈值。
根据本发明一优选实施例,所述类型获取单元进一步用于,
若所述待评估的对话中少于或等于N轮对话内容,则将所述待评估的对话作为所述处理对象。
根据本发明一优选实施例,所述类型获取单元获取根据所述处理对象中的以下内容确定出的对话质量类型:是否出现影响对话质量的问题、出现问题的比例、是否出现提升对话质量的加分项。
根据本发明一优选实施例,所述影响对话质量的问题包括:严重问题和普通问题;
其中,在统计比例时,仅统计严重问题的出现比例,将一个普通问题视为x个严重问题进行处理,x大于0且小于1;
所述提升对话质量的加分项包括:有趣和有内容。
根据本发明一优选实施例,所述类型获取单元获取根据所述处理对象中的以下内容确定出的用户满意度类型:是否出现来自用户的评价信息、评价信息的类型、不同类型的评价信息的出现时机;其中,评价信息的类型包括:正面的评价信息以及负面的评价信息。
根据本发明一优选实施例,所述对话质量类型包括:劣、差、中、良、优;
所述用户满意度类型包括:用户不满意、无法判断、用户满意。
根据本发明一优选实施例,所述装置中进一步包括:预处理单元;
所述预处理单元,用于生成打分对照表,所述打分对照表中保存有不同的对话质量类型以及用户满意度类型分别对应的质量评分;
所述质量评估单元通过查询所述打分对照表,确定出获取到的对话质量类型以及用户满意度类型对应的质量评分,将获取到的质量评分作为所述待评估的对话的质量评分。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。
基于上述介绍可以看出,采用本发明所述方案,在获取到待评估的对话后,可分别获取待评估的对话对应的对话质量类型以及用户满意度类型,进而可根据获取到的对话质量类型以及用户满意度类型确定出待评估的对话的质量评分,从而避免了现有技术中存在的问题,进而提高了评估结果的准确性。
【附图说明】
图1为本发明所述人机对话质量评估方法实施例的流程图。
图2为本发明所述人机对话质量评估装置实施例的组成结构示意图。
图3示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。
【具体实施方式】
为了使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案进行进一步说明。
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明所述人机对话质量评估方法实施例的流程图。如图1所示,包括以下具体实现方式。
在101中,获取待评估的对话。
在102中,分别获取待评估的对话对应的对话质量类型以及用户满意度类型。
在103中,根据获取到的对话质量类型以及用户满意度类型确定出待评估的对话的质量评分。
本实施例中,可以不是针对整个待评估的对话进行评估,而是从待评估的对话中截取出前N轮对话内容,N为大于一的正整数,将截取出的对话内容作为处理对象,进而针对获取到的处理对象进行评估。
其中,可按照以下原则从待评估的对话中截取出前N轮对话内容:同一轮对话内容中,相邻两条对话信息之间间隔的时长小于或等于预定阈值;以及,相邻两轮对话内容中,前一轮对话内容中的最后一条对话信息与下一轮对话内容中的第一条对话信息之间间隔的时长大于预定阈值。
所述预定阈值的具体取值可根据实际需要而定,比如1分钟。也就是说,若对话间隔超过1分钟,则可视为两轮对话内容。
比如,机器人回复了一条对话信息a后,超过1分钟后用户才发出下一条对话信息b,那么对话信息a和对话信息b则会被划分到不同轮对话内容中,假设对话信息b所在的对话内容为对话内容c,那么对话内容c中的第一条信息即为对话信息b,对话内容c中的最后一条对话信息为:再次出现相邻两条对话信息之间间隔的时长大于预定阈值时,两条对话信息中的前一条对话信息。
N的具体取值可根据实际需要而定,比如,可为15。
对于大多数的待评估的对话来说,其中包括的对话内容轮数会大于15,那么只截取其中的前15轮对话内容作为处理对象进行评估,可以减少工作量,但对于少数的待评估的对话来说,其中可能少于或等于15轮对话内容,那么可将整个待评估的对话均作为处理对象。
在得到处理对象之后,可进一步获取处理对象对应的对话质量类型以及用户满意度类型。
具体地,可获取根据处理对象中的以下内容确定出的对话质量类型:是否出现影响对话质量的问题、出现问题的比例、是否出现提升对话质量的加分项等。
影响对话质量的问题可包括严重问题和普通问题等。
严重问题可以是指:对话导致用户完全无法理解,容易导致话题的偏移或用户感受大幅降低。
普通问题可以是指:对话有一定的问题,虽然连接不是特别顺畅,但是用户可以自行理解,并且带来的话题偏移性和感受降低不是很明显。
提升对话质量的加分项可包括有趣和有内容等。
有趣可以是指:对话能有趣,可以使得整个对话轻松幽默,使得用户开心。
有内容可以是指:能发送有具体内容的句子,能通过对话给用户带来实质性的帮助,如安慰悲伤、分享快乐、讨论某事等。
其中,严重问题又可包括以下类型:问题(query)和回复(reply)完全不相关、没有理解用户意图、query和reply完全矛盾、主体不分、语意漂移、上下文强矛盾等,分别举例说明如下。
1)query和reply完全不相关
示例1:
U:你把我给气坏了;S:放保鲜还能冻坏么?
两者没有一点关系,完全不相关。
示例2:
U:我追她两年不如他男朋友追她两天;S:继续追啊;
U:不追了;S:我们是追书,跳舞追什么?
追书和追女生,两者没有一点关系,完全不相关。
2)没有理解用户意图
即reply和query有一定相关性,但由于没有理解用户意图,reply无法满足用户的query意图,这里的query都是询问式的。
示例1:
U:到幼儿园了吗?S:我家女儿小班。
U为一个Yes/No的问题,S中的幼儿园小班和幼儿园相关,但是和到没到幼儿园没有直接关系。
示例2:
U:你都喜欢玩什么呀?S:我刚吃完饭。
“吃饭”和“喜欢玩什么”没有任何相关性。
U:为什么不听话?S:乖,听话,别闹。
U的意图是why的问题,S正常回复应当是一个阐述原因的陈述。
3)query和reply完全矛盾
示例1:
U:我最近很喜欢打游戏;S:你不玩游戏了吗?
“喜欢打游戏”和“不玩游戏”出现明显的冲突。
示例2:
U:晚安喽;S:早安。
“早安”和“晚安”有明显的冲突。
示例3:
U:我已经穿了呀,你为什么不穿呀!S:因为冷。
“为什么”和“因为”回应了用户的意图,但是“冷”和“不穿衣服”明显违背常识。
4)主体不分
示例1:
U:那你送一份礼物啦!S:不用,谢谢啦!
“谢谢”只有对应U为“我送你一份礼物”时,才符合日常的对话场景。
示例2:
U:我昨晚没睡好;S:还行,还是困。
U和S谈论的“没睡好”和“困”的主体不同,出现你我不分的问题。
5)语意漂移
即话题命中一部分,但是其它部分将话题完全带离主题。
示例1:
U:是我给你;S:对不起看错那你给我吧快!
U:什么时候?S:你真去啊?十一。
虽然“十一”命中了query,但是“你真去啊”将话题完全带偏,发生了漂移。
示例2:
U:怎么玩?S:不知道,人就是有点幼稚。
S中的“人就是有点幼稚”,和之前的“玩”没有任何相关性,发生了语意漂移。
6)上下文强矛盾
即上下文存在比较强的矛盾关系,无法解释。
示例1:
U:你有男朋友么?S:单身,没有男朋友;
U:找个男朋友陪你聊天呗!S:我有男朋友啊,天天出去玩。
前文说了没有男朋友,后面又说有,具有强烈的矛盾性。
普通问题可包括以下类型:话题延续性差、相关性差、上下文弱矛盾等,分别举例说明如下。
1)话题延续性差
即没有捕捉到话题的主体,或者没有跟住用户话题的转移。
示例1:
U:你反应太慢了;S:网速抢不过。
U:反应!S:反应给谁?
没有捕捉住上文的topic“反应慢”。
示例2:
U:我下午打算去游泳了;S:好羡慕啊!
U:好像今天下午依然很热;S:游泳池很脏。
U的第二句已经发生了话题转移“游泳”->“天气热”,但是S的回复依然停留在“游泳”和“游泳池”上。
2)相关性差
即回复命中一部分内容,内容的主体没有发生太大的变化,可以勉强解释的通。
示例1:
U:你不知道我在骂你吗?S:没,骂那个人呢。
回复命中一部分内容,但相关性又较差。
3)上下文弱矛盾
即与上文存在矛盾关系,但是一定程度上可以理解。
示例1:
U:我是谁?S:暂时不知道,你告诉我我就知道啦!
U:你上次不是知道了么好烦啊你!S:你烦我有什么用?
U:竟然敢忘记!S:就是忘不了才难受啊!
“就是忘不了才难受啊”这句话具有一定的矛盾性,但是又不是那么明显,因此是弱矛盾。
有趣和有内容可以分别举例如下。
有趣:
示例1:
上下文连接有趣,问题回复十分清楚,有趣。
有内容:
示例1:
结构流畅,有内容。
上述各示例中,U表示用户,S表示机器人。
如前所述,可结合处理对象中的以下内容:是否出现影响对话质量的问题、出现问题的比例、是否出现提升对话质量的加分项等,确定出处理对象对应的对话质量类型。
其中,在统计比例时,可仅统计严重问题的出现比例,将一个普通问题视为x个严重问题进行处理,x大于0且小于1,具体取值可根据实际需要而定,比如,可为0.625,即一个普通问题=0.625个严重问题。
对话质量类型可包括:劣、差、中、良、优等。
较佳地,不同的对话质量类型与对应的评价标准之间的关系可如表一所示:
表一 不同的对话质量类型与对应的评价标准之间的关系
按照上述方式,可获取到处理对象对应的对话质量类型,此外,还可获取处理对象对应的用户满意度类型,用户满意度类型可通过对用户语言整体感知而来,如可获取根据处理对象中的以下内容确定出的用户满意度类型:是否出现来自用户的评价信息、评价信息的类型、不同类型的评价信息的出现时机等。评价信息的类型可包括正面的评价信息和负面的评价信息。
用户满意度类型可包括:用户不满意、无法判断、用户满意等。
较佳地,不同的用户满意度类型与对应的评价标准之间的关系可如表二所示:
表二 不同的用户满意度类型与对应的评价标准之间的关系
表一和表二中所述的“整个对话”即指整个处理对象。另外,表一和表二中所示的类型划分方式及评价标准等仅为举例说明,并不用于限制本发明的技术方案,比如,如果用户与机器人之间互动较多,用户比较投入,那么也可判定用户的满意度类型为用户满意,不限于以上所示。
在实际应用中,可以通过对处理对象中的对话信息进行语义分析等,并结合表一和表二中所示的评价标准,确定出处理对象对应的对话质量类型以及用户满意度类型。或者,也可以采用人工处理方式,由评估人员根据表一和表二中所示的评价标准等,确定出处理对象对应的对话质量类型以及用户满意度类型,而且,为了减少人为主观因素对评估结果的影响,可分别由多个评估人员针对处理对象给出对话质量类型以及用户满意度类型的评估结果,并可综合多个评估人员的评估结果得到最终的评估结果。
另外,本实施例中,可预先生成打分对照表,打分对照表中保存有不同的对话质量类型以及用户满意度类型分别对应的质量评分。
这样,在获取到处理对象对应的对话质量类型以及用户满意度类型之后,可通过查询打分对照表,确定出处理对象对应的对话质量类型以及用户满意度类型对应的质量评分,进而可将确定出的质量评分作为待评估的对话的质量评分。
较佳地,打分对照表可如表三所示:
表三 打分对照表
如表三所示,假设处理对象对应的对话质量类型为良,对应的用户满意度类型为用户不满意,那么处理对象即待评估的对话的质量评分则为3,假设处理对象对应的对话质量类型为优,对应的用户满意度类型为用户满意,那么处理对象即待评估的对话的质量评分则为5。
以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。
图2为本发明所述人机对话质量评估装置实施例的组成结构示意图。如图2所示,包括:对话获取单元201、类型获取单元202以及质量评估单元203。
对话获取单元201,用于获取待评估的对话。
类型获取单元202,用于分别获取待评估的对话对应的对话质量类型以及用户满意度类型。
质量评估单元203,用于根据获取到的对话质量类型以及用户满意度类型确定出待评估的对话的质量评分。
本实施例中,可以不是针对整个待评估的对话进行评估,而是从待评估的对话中截取出前N轮对话内容,N为大于一的正整数,将截取出的对话内容作为处理对象,进而针对获取到的处理对象进行评估。
相应地,类型获取单元202可进一步用于,从待评估的对话中截取出前N轮对话内容,将截取出的对话内容作为处理对象,获取处理对象对应的对话质量类型以及用户满意度类型。
其中,类型获取单元202可按照以下原则从待评估的对话中截取出前N轮对话内容:同一轮对话内容中,相邻两条对话信息之间间隔的时长小于或等于预定阈值;以及,相邻两轮对话内容中,前一轮对话内容中的最后一条对话信息与下一轮对话内容中的第一条对话信息之间间隔的时长大于预定阈值。
所述预定阈值的具体取值可根据实际需要而定,比如1分钟。也就是说,若对话间隔超过1分钟,则可视为两轮对话内容。
N的具体取值同样可根据实际需要而定,比如,可为15。
对于大多数的待评估的对话来说,其中包括的对话内容轮数会大于15,那么只截取其中的前15轮对话内容作为处理对象进行评估,可以减少工作量,但对于少数的待评估的对话来说,其中可能少于或等于15轮对话内容,那么可将整个待评估的对话均作为处理对象。
在得到处理对象之后,类型获取单元202可进一步获取处理对象对应的对话质量类型以及用户满意度类型。
具体地,类型获取单元202可获取根据处理对象中的以下内容确定出的对话质量类型:是否出现影响对话质量的问题、出现问题的比例、是否出现提升对话质量的加分项等。
影响对话质量的问题可包括严重问题和普通问题等。
严重问题可以是指:对话导致用户完全无法理解,容易导致话题的偏移或用户感受大幅降低。
普通问题可以是指:对话有一定的问题,虽然连接不是特别顺畅,但是用户可以自行理解,并且带来的话题偏移性和感受降低不是很明显。
提升对话质量的加分项可包括有趣和有内容等。
有趣可以是指:对话能有趣,可以使得整个对话轻松幽默,使得用户开心。
有内容可以是指:能发送有具体内容的句子,能通过对话给用户带来实质性的帮助,如安慰悲伤、分享快乐、讨论某事等。
其中,严重问题又可具体包括以下类型:query和reply完全不相关、没有理解用户意图、query和reply完全矛盾、主体不分、语意漂移、上下文强矛盾等。
普通问题又可具体包括以下类型:话题延续性差、相关性差、上下文弱矛盾等。
如前所述,可结合处理对象中的以下内容:是否出现影响对话质量的问题、出现问题的比例、是否出现提升对话质量的加分项等,确定出处理对象对应的对话质量类型。
其中,在统计比例时,可仅统计严重问题的出现比例,将一个普通问题视为x个严重问题进行处理,x大于0且小于1,具体取值可根据实际需要而定,比如,可为0.625,即一个普通问题=0.625个严重问题。
对话质量类型可包括:劣、差、中、良、优等。不同的对话质量类型与对应的评价标准之间的关系可如表一所示。
此外,类型获取单元202还可获取根据处理对象中的以下内容确定出的用户满意度类型:是否出现来自用户的评价信息、评价信息的类型、不同类型的评价信息的出现时机等;其中,评价信息的类型可包括:正面的评价信息以及负面的评价信息。
用户满意度类型可包括:用户不满意、无法判断、用户满意等。
不同的用户满意度类型与对应的评价标准之间的关系可如表二所示。
在实际应用中,可以通过对处理对象中的对话信息进行语义分析等,并结合表一和表二中所示的评价标准,确定出处理对象对应的对话质量类型以及用户满意度类型。或者,也可以采用人工处理方式,由评估人员根据表一和表二中所示的评价标准等,确定出处理对象对应的对话质量类型以及用户满意度类型。
另外,图2所示装置中还可进一步包括:预处理单元200。
预处理单元200,用于生成打分对照表,打分对照表中保存有不同的对话质量类型以及用户满意度类型分别对应的质量评分,打分对照表可如表三所示。
这样,质量评估单元203可通过查询打分对照表,确定出获取到的对话质量类型以及用户满意度类型对应的质量评分,进而将获取到的质量评分作为待评估的对话的质量评分。
图2所示装置实施例的具体工作流程请参照前述方法实施例中的说明,不再赘述。
总之,采用上述各实施例所述方案,可根据获取到的对话质量类型以及用户满意度类型,自动地确定出待评估的对话的质量评分,从而避免了现有技术中存在的问题,进而提高了评估结果的准确性。
图3示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图3显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器(处理单元)16,存储器28,连接不同系统组件(包括存储器28和处理器16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图3所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现图1所示实施例中的方法。
本发明同时公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时将实现如图1所示实施例中的方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (20)
1.一种人机对话质量评估方法,其特征在于,包括:
获取待评估的对话;
分别获取所述待评估的对话对应的对话质量类型以及用户满意度类型;
根据获取到的对话质量类型以及用户满意度类型确定出所述待评估的对话的质量评分。
2.根据权利要求1所述的方法,其特征在于,
所述分别获取所述待评估的对话对应的对话质量类型以及用户满意度类型包括:
从所述待评估的对话中截取出前N轮对话内容,N为大于一的正整数,将截取出的对话内容作为处理对象;
获取所述处理对象对应的对话质量类型以及用户满意度类型。
3.根据权利要求2所述的方法,其特征在于,
所述从所述待评估的对话中截取出前N轮对话内容包括:
按照以下原则从所述待评估的对话中截取出前N轮对话内容:
同一轮对话内容中,相邻两条对话信息之间间隔的时长小于或等于预定阈值;
以及,相邻两轮对话内容中,前一轮对话内容中的最后一条对话信息与下一轮对话内容中的第一条对话信息之间间隔的时长大于所述预定阈值。
4.根据权利要求2所述的方法,其特征在于,
该方法进一步包括:
若所述待评估的对话中少于或等于N轮对话内容,则将所述待评估的对话作为所述处理对象。
5.根据权利要求2所述的方法,其特征在于,
所述获取所述处理对象对应的对话质量类型包括:
获取根据所述处理对象中的以下内容确定出的对话质量类型:是否出现影响对话质量的问题、出现问题的比例、是否出现提升对话质量的加分项。
6.根据权利要求5所述的方法,其特征在于,
所述影响对话质量的问题包括:严重问题和普通问题;
其中,在统计比例时,仅统计严重问题的出现比例,将一个普通问题视为x个严重问题进行处理,x大于0且小于1;
所述提升对话质量的加分项包括:有趣和有内容。
7.根据权利要求2所述的方法,其特征在于,
所述获取所述处理对象对应的用户满意度类型包括:
获取根据所述处理对象中的以下内容确定出的用户满意度类型:是否出现来自用户的评价信息、评价信息的类型、不同类型的评价信息的出现时机;其中,评价信息的类型包括:正面的评价信息以及负面的评价信息。
8.根据权利要求1所述的方法,其特征在于,
所述对话质量类型包括:劣、差、中、良、优;
所述用户满意度类型包括:用户不满意、无法判断、用户满意。
9.根据权利要求1所述的方法,其特征在于,
所述获取待评估的对话之前,进一步包括:
生成打分对照表,所述打分对照表中保存有不同的对话质量类型以及用户满意度类型分别对应的质量评分;
所述根据获取到的对话质量类型以及用户满意度类型确定出所述待评估的对话的质量评分包括:
通过查询所述打分对照表,确定出获取到的对话质量类型以及用户满意度类型对应的质量评分,将获取到的质量评分作为所述待评估的对话的质量评分。
10.一种人机对话质量评估装置,其特征在于,包括:对话获取单元、类型获取单元以及质量评估单元;
所述对话获取单元,用于获取待评估的对话;
所述类型获取单元,用于分别获取所述待评估的对话对应的对话质量类型以及用户满意度类型;
所述质量评估单元,用于根据获取到的对话质量类型以及用户满意度类型确定出所述待评估的对话的质量评分。
11.根据权利要求10所述的装置,其特征在于,
所述类型获取单元进一步用于,
从所述待评估的对话中截取出前N轮对话内容,N为大于一的正整数,将截取出的对话内容作为处理对象;
获取所述处理对象对应的对话质量类型以及用户满意度类型。
12.根据权利要求11所述的装置,其特征在于,
所述类型获取单元按照以下原则从所述待评估的对话中截取出前N轮对话内容:
同一轮对话内容中,相邻两条对话信息之间间隔的时长小于或等于预定阈值;
以及,相邻两轮对话内容中,前一轮对话内容中的最后一条对话信息与下一轮对话内容中的第一条对话信息之间间隔的时长大于所述预定阈值。
13.根据权利要求11所述的装置,其特征在于,
所述类型获取单元进一步用于,
若所述待评估的对话中少于或等于N轮对话内容,则将所述待评估的对话作为所述处理对象。
14.根据权利要求11所述的装置,其特征在于,
所述类型获取单元获取根据所述处理对象中的以下内容确定出的对话质量类型:是否出现影响对话质量的问题、出现问题的比例、是否出现提升对话质量的加分项。
15.根据权利要求14所述的装置,其特征在于,
所述影响对话质量的问题包括:严重问题和普通问题;
其中,在统计比例时,仅统计严重问题的出现比例,将一个普通问题视为x个严重问题进行处理,x大于0且小于1;
所述提升对话质量的加分项包括:有趣和有内容。
16.根据权利要求11所述的装置,其特征在于,
所述类型获取单元获取根据所述处理对象中的以下内容确定出的用户满意度类型:是否出现来自用户的评价信息、评价信息的类型、不同类型的评价信息的出现时机;其中,评价信息的类型包括:正面的评价信息以及负面的评价信息。
17.根据权利要求10所述的装置,其特征在于,
所述对话质量类型包括:劣、差、中、良、优;
所述用户满意度类型包括:用户不满意、无法判断、用户满意。
18.根据权利要求10所述的装置,其特征在于,
所述装置中进一步包括:预处理单元;
所述预处理单元,用于生成打分对照表,所述打分对照表中保存有不同的对话质量类型以及用户满意度类型分别对应的质量评分;
所述质量评估单元通过查询所述打分对照表,确定出获取到的对话质量类型以及用户满意度类型对应的质量评分,将获取到的质量评分作为所述待评估的对话的质量评分。
19.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~9中任一项所述的方法。
20.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711321047.8A CN108255943A (zh) | 2017-12-12 | 2017-12-12 | 人机对话质量评估方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711321047.8A CN108255943A (zh) | 2017-12-12 | 2017-12-12 | 人机对话质量评估方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108255943A true CN108255943A (zh) | 2018-07-06 |
Family
ID=62722538
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711321047.8A Pending CN108255943A (zh) | 2017-12-12 | 2017-12-12 | 人机对话质量评估方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108255943A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109472030A (zh) * | 2018-11-09 | 2019-03-15 | 科大讯飞股份有限公司 | 一种系统回复质量的评价方法及装置 |
CN109492954A (zh) * | 2019-01-04 | 2019-03-19 | 王睿琪 | 评估方法、装置、服务器、存储介质及系统 |
CN110737761A (zh) * | 2019-09-26 | 2020-01-31 | 联想(北京)有限公司 | 一种信息处理方法、电子设备和存储介质 |
CN111782778A (zh) * | 2020-04-10 | 2020-10-16 | 厦门快商通科技股份有限公司 | 一种评估机器人会话效果的方法及系统 |
CN113407677A (zh) * | 2021-06-28 | 2021-09-17 | 北京百度网讯科技有限公司 | 评估咨询对话质量的方法、装置、设备和存储介质 |
CN116170360A (zh) * | 2022-12-08 | 2023-05-26 | 中国联合网络通信集团有限公司 | 网络质量评估方法、装置及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101520802A (zh) * | 2009-04-13 | 2009-09-02 | 腾讯科技(深圳)有限公司 | 一种问答对的质量评价方法和系统 |
CN105095334A (zh) * | 2014-05-06 | 2015-11-25 | 雅虎公司 | 用于评估关于用户会话的用户满意度的方法和系统 |
CN105701208A (zh) * | 2016-01-13 | 2016-06-22 | 北京光年无限科技有限公司 | 一种面向问答系统的问答评价方法及装置 |
WO2016195911A1 (en) * | 2015-05-31 | 2016-12-08 | Microsoft Technology Licensing, Llc | Metric for automatic assessment of conversational responses |
-
2017
- 2017-12-12 CN CN201711321047.8A patent/CN108255943A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101520802A (zh) * | 2009-04-13 | 2009-09-02 | 腾讯科技(深圳)有限公司 | 一种问答对的质量评价方法和系统 |
CN105095334A (zh) * | 2014-05-06 | 2015-11-25 | 雅虎公司 | 用于评估关于用户会话的用户满意度的方法和系统 |
WO2016195911A1 (en) * | 2015-05-31 | 2016-12-08 | Microsoft Technology Licensing, Llc | Metric for automatic assessment of conversational responses |
CN105701208A (zh) * | 2016-01-13 | 2016-06-22 | 北京光年无限科技有限公司 | 一种面向问答系统的问答评价方法及装置 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109472030A (zh) * | 2018-11-09 | 2019-03-15 | 科大讯飞股份有限公司 | 一种系统回复质量的评价方法及装置 |
CN109472030B (zh) * | 2018-11-09 | 2023-11-24 | 科大讯飞股份有限公司 | 一种系统回复质量的评价方法及装置 |
CN109492954A (zh) * | 2019-01-04 | 2019-03-19 | 王睿琪 | 评估方法、装置、服务器、存储介质及系统 |
CN110737761A (zh) * | 2019-09-26 | 2020-01-31 | 联想(北京)有限公司 | 一种信息处理方法、电子设备和存储介质 |
CN110737761B (zh) * | 2019-09-26 | 2023-09-19 | 联想(北京)有限公司 | 一种信息处理方法、电子设备和存储介质 |
CN111782778A (zh) * | 2020-04-10 | 2020-10-16 | 厦门快商通科技股份有限公司 | 一种评估机器人会话效果的方法及系统 |
CN113407677A (zh) * | 2021-06-28 | 2021-09-17 | 北京百度网讯科技有限公司 | 评估咨询对话质量的方法、装置、设备和存储介质 |
CN113407677B (zh) * | 2021-06-28 | 2023-11-14 | 北京百度网讯科技有限公司 | 评估咨询对话质量的方法、装置、设备和存储介质 |
CN116170360A (zh) * | 2022-12-08 | 2023-05-26 | 中国联合网络通信集团有限公司 | 网络质量评估方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108255943A (zh) | 人机对话质量评估方法、装置、计算机设备及存储介质 | |
CN103190124B (zh) | 基于行为和运用的情境聊天 | |
CN108537017B (zh) | 一种用于管理游戏用户的方法与设备 | |
Weaver | Liquid racism and the ambiguity of Ali G | |
CN106155326A (zh) | 虚拟现实通讯中的对象识别方法和装置、虚拟现实设备 | |
CN109876450A (zh) | 基于ar游戏的实现方法、服务器、计算机设备及存储介质 | |
CN103189114A (zh) | 在线环境中的情境聊天消息生成 | |
CN103562906A (zh) | 用于在线体验的基于情绪的用户标识 | |
CN109582700A (zh) | 一种语音房间用户匹配方法、装置及设备 | |
CN108229535A (zh) | 涉黄图像审核方法、装置、计算机设备及存储介质 | |
CN110427454B (zh) | 文本情绪分析方法及装置、电子设备和非暂态存储介质 | |
WO2022017068A1 (zh) | 信息处理方法、装置及设备 | |
CN109278051A (zh) | 基于智能机器人的交互方法及系统 | |
CN109446907A (zh) | 一种视频聊天的方法、装置、设备和计算机存储介质 | |
Wilks | Is a Companion a distinctive kind of relationship with a machine? | |
Scriven | The phenomenology of the “other” in computer game worlds | |
CN112528266A (zh) | 到访登记方法及相关装置 | |
CN115982400A (zh) | 基于多模态的情绪图像的生成方法和服务器 | |
Altuncu et al. | Deepfake: definitions, performance metrics and standards, datasets and benchmarks, and a meta-review | |
WO2000062266A1 (en) | Automated on-line matchmaking | |
CN109961152B (zh) | 虚拟偶像的个性化互动方法、系统、终端设备及存储介质 | |
CN107329725A (zh) | 用于控制多人交互应用的方法与设备 | |
CN108268443A (zh) | 确定话题点转移以及获取回复文本的方法、装置 | |
CN105797375A (zh) | 一种跟随用户脸部表情改变角色模型表情的方法和终端 | |
Fantinato et al. | A survey on purchase intention of hello barbie in brazil and argentina |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180706 |