CN111177347A - 一种识别人机对话中坏例的方法及装置 - Google Patents

一种识别人机对话中坏例的方法及装置 Download PDF

Info

Publication number
CN111177347A
CN111177347A CN201911325819.4A CN201911325819A CN111177347A CN 111177347 A CN111177347 A CN 111177347A CN 201911325819 A CN201911325819 A CN 201911325819A CN 111177347 A CN111177347 A CN 111177347A
Authority
CN
China
Prior art keywords
badcase
dialog
data
human
conversation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911325819.4A
Other languages
English (en)
Inventor
郭灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Du Xiaoman Technology Beijing Co Ltd
Original Assignee
Shanghai Youyang New Media Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Youyang New Media Information Technology Co ltd filed Critical Shanghai Youyang New Media Information Technology Co ltd
Priority to CN201911325819.4A priority Critical patent/CN111177347A/zh
Publication of CN111177347A publication Critical patent/CN111177347A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种识别人机对话中坏例的方法及装置,从获取的待识别人机对话数据中提取对话特征信息,并基于对话特征信息以及预先建立的badcase筛选规则,来获得待识别人机对话数据是否是badcase的识别结果。因此,当识别结果为待识别人机对话数据为badcase时,就可以基于badcase的具体问题进行针对性的优化,从而保证人机交互的顺利进行,更好的满足用户的需求。

Description

一种识别人机对话中坏例的方法及装置
技术领域
本发明涉及计算机技术领域,更具体的说,涉及一种识别人机对话中坏例的方法及装置。
背景技术
人机交互是指人与机器之间使用某种对话语言,以一定的交互方式,为完成确定任务的人与机器之间的信息交换过程。
在人机交互过程中,单条对话的逻辑是:以用户所说的话为样本,机器根据一系列的规则将样本识别到意图上,根据意图确定对应的话术,并播放对应的话术。然而在实际应用中,机器可能因为缺少用户的说话样本,而无法识别用户所说的话或者对用户提出的问题回答错误。机器存在的无法识别用户所说的话或者对用户提出的问题回答错误的情况,称为人机对话中的坏例(badcase)。坏例的存在会导致人机交互无法顺利进行,因此影响了人机交互功能的可靠性。
因此,需要识别人机对话中的badcase,以作为对人机交互进行优化的依据或基础,才能更好的满足用户的需求。
发明内容
有鉴于此,本发明公开一种识别人机对话中坏例的方法及装置,以实现对人机对话数据是否是badcase进行识别,以便基于badcase的具体问题进行针对性的优化,从而保证人机交互的顺利进行,更好的满足用户的需求。
一种识别人机对话中坏例的方法,所述方法包括:
获取待识别人机对话数据;
从所述待识别人机对话数据中,提取出对话特征信息;
基于所述对话特征信息以及预先建立的坏例badcase筛选规则,获得所述待识别人机对话数据是否是badcase的识别结果,其中,所述badcase筛选规则基于历史标注badcase通话样本集确定。
可选的,所述对话特征信息包括:用于表征对话数据量的特征和/或用于表征对话内容的特征;
所述用于表征对话数据量的特征包括:对话总时长、单条对话时长和单条对话字数中的任意一个或多个的组合;
所述用于表征对话内容的特征包括:关键词。
可选的,所述基于所述对话特征信息以及预先建立的坏例badcase筛选规则,获得所述待识别人机对话数据是否是badcase的识别结果,具体包括:
获取预先依据用于表征对话内容特征建立的所述badcase筛选规则,所述badcase筛选规则包括:关键词及该关键词至少出现的次数,所述关键词为所述从历史标注badcase通话样本集中出现的统计值超过预设统计值的词;
判断所述对话特征信息中包含的关键词及所述关键词出现的次数,是否符合所述预先建立的至少一条badcase筛选规则中的至少一条规则;
如果是,则确定所述待识别人机对话数据为badcase;
如果否,则确定所述待识别人机对话数据不为badcase。
可选的,所述基于所述对话特征信息以及预先建立的坏例badcase筛选规则,获得所述待识别人机对话数据是否是badcase的识别结果,具体包括:
获取预先依据用于表征对话数据量的特征建立的所述badcase筛选规则,所述badcase筛选规则包括:对话总时长、单条对话时长和单条对话字数中的任意一个或多个的组合;
判断所述对话特征信息的用于表征对话数据量的特征,是否符合所述对话总时长、所述单条对话时长和所述单条对话字数中的任意一个或多个的组合;
如果是,则确定所述待识别人机对话数据为badcase;
如果否,则确定所述待识别人机对话数据不为badcase。
可选的,所述基于所述对话特征信息以及预先建立的坏例badcase筛选规则,获得所述待识别人机对话数据是否是badcase的识别结果,具体包括:
调用badcase筛选模型,所述badcase筛选模型为:以在建立所述badcase筛选规则所使用的所述历史标注badcase对话样本集,以及所述历史标注badcase对话样本集中各个badcase对话样本文本的badcase特征信息作为训练样本,以对所述badcase对话样本文本的badcase标注结果为样本标签进行训练得到;
将所述待识别人机对话数据和所述对话特征信息输入至所述badcase筛选模型,获得所述待识别人机对话数据为badcase的概率分值;
判断所述概率分值是否小于预设阈值,所述预设阈值为预设的badcase出现的概率;
如果是,则确定所述待识别人机对话数据为badcase;
如果否,则确定所述待识别人机对话数据不为badcase。
可选的,还包括:当所述待识别人机对话数据为badcase时,将所述待识别人机对话数据添加至所述历史标注badcase对话样本集中。
一种识别人机对话中坏例的装置,所述装置包括:
获取单元,用于获取待识别人机对话数据;
提取单元,用于从所述待识别人机对话数据中,提取出对话特征信息;
识别单元,用于基于所述对话特征信息以及预先建立的坏例badcase筛选规则,获得所述待识别人机对话数据是否是badcase的识别结果,其中,所述badcase筛选规则基于历史标注badcase通话样本集确定。
可选的,所述对话特征信息包括:用于表征对话数据量的特征和/或用于表征对话内容的特征;
所述用于表征对话数据量的特征包括:对话总时长、单条对话时长和单条对话字数中的任意一个或多个的组合;
所述用于表征对话内容的特征包括:关键词。
可选的,所述识别单元具体包括:
第一获取子单元,用于获取预先依据用于表征对话内容特征建立的所述badcase筛选规则,所述badcase筛选规则包括:关键词及该关键词至少出现的次数,所述关键词为所述从历史标注badcase通话样本集中出现的统计值超过预设统计值的词;
第一判断子单元,用于判断所述对话特征信息中包含的关键词及所述关键词出现的次数,是否符合所述预先建立的至少一条badcase筛选规则中的至少一条规则;
第一确定子单元,用于在所述第一判断子单元判断为是的情况下,确定所述待识别人机对话数据为badcase;
第二确定子单元,用于在所述第一判断子单元判断为否的情况下,确定所述待识别人机对话数据不为badcase。
可选的,所述识别单元具体包括:
第二获取子单元,用于获取预先依据用于表征对话数据量的特征建立的所述badcase筛选规则,所述badcase筛选规则包括:对话总时长、单条对话时长和单条对话字数中的任意一个或多个的组合;
第二判断子单元,用于判断所述对话特征信息的用于表征对话数据量的特征,是否符合所述对话总时长、所述单条对话时长和所述单条对话字数中的任意一个或多个的组合;
第三确定子单元,用于在所述第二判断子单元判断为是的情况下,确定所述待识别人机对话数据为badcase;
第四确定子单元,用于在所述第二判断子单元判断为否的情况下,确定所述待识别人机对话数据不为badcase。
可选的,所述识别单元具体包括:
调用子单元,用于调用badcase筛选模型,所述badcase筛选模型为:以在建立所述badcase筛选规则所使用的所述历史标注badcase对话样本集,以及所述历史标注badcase对话样本集中各个badcase对话样本文本的badcase特征信息作为训练样本,以对所述badcase对话样本文本的badcase标注结果为样本标签进行训练得到;
输入子单元,用于将所述待识别人机对话数据和所述对话特征信息输入至所述badcase筛选模型,获得所述待识别人机对话数据为badcase的概率分值;
第三判断子单元,用于判断所述概率分值是否小于预设阈值,所述预设阈值为预设的badcase出现的概率;
第五确定子单元,用于在所述第三判断子单元判断为是的情况下,确定所述待识别人机对话数据为badcase;
第六确定子单元,用于在所述第三判断子单元判断为否的情况下,确定所述待识别人机对话数据不为badcase。
可选的,还包括:
添加单元,用于当所述待识别人机对话数据为badcase时,将所述待识别人机对话数据添加至所述历史标注badcase对话样本集中。
从上述的技术方案可知,本发明公开了一种识别人机对话中坏例的方法及装置,从获取的待识别人机对话数据中提取对话特征信息,并基于对话特征信息以及预先建立的badcase筛选规则,来获得待识别人机对话数据是否是badcase的识别结果。因此,当识别结果为待识别人机对话数据为badcase时,就可以基于badcase的具体问题进行针对性的优化,从而保证人机交互的顺利进行,更好的满足用户的需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据公开的附图获得其他的附图。
图1为本发明实施例公开的一种识别人机对话中坏例的方法流程图;
图2为本发明一具体实施例公开的一种识别人机对话中坏例的方法流程图;
图3为本发明另一具体实施例公开的一种识别人机对话中坏例的方法流程图;
图4为本发明另一具体实施例公开的一种识别人机对话中坏例的方法流程图;
图5为本发明实施例公开的一种识别人机对话中坏例的装置的结构示意图;
图6为本发明实施例公开的一种识别单元的结构示意图;
图7为本发明实施例公开的另一种识别单元的结构示意图;
图8为本发明实施例公开的另一种识别单元的结构示意图。
具体实施方式
人机交互功能已经广泛应用在各个领域和场景,因此其可靠性直接影响用户感受。Badcase的识别和优化是保证和提高人机交互功能可靠性的主要途径。
Badcase识别作为人机对话优化的基础,成为了保证和提高人机交互功能可靠性的关键。本发明的发明人在研究中发现,在识别badcase的过程中,可以依靠人工不定时的抽查人机交互的对话记录,并标注每一个对话,然后从人工标注的对话中查找到badcase,最后根据badcase的具体问题进行针对性的优化。
然而,通过人工抽查来查找badcase的效率非常低,如果评估200条样本需要1天的时间,则人工查找到badcase的占比仅为百分之几,比如5%,对于百万千万级别的对话样本而言,需要花费大量的时间和人力成本。并且,由于不同人员对badcase的判断标准不同,因此通过人工抽查来查找badcase的准确度低。
为了解决上述问题,本发明实施例公开了一种识别人机对话中坏例的方法及装置,从待识别人机对话数据中提取对话特征信息,并基于对话特征信息以及预先建立的badcase筛选规则,来获得待识别人机对话数据是否是badcase的识别结果。因此,当识别结果为待识别人机对话数据为badcase时,就可以基于badcase的具体问题进行针对性的优化,从而保证人机交互的顺利进行,更好的满足用户的需求。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,本发明一实施例公开的一种识别人机对话中坏例的方法流程图,该方法包括步骤:
步骤S101、获取待识别人机对话数据;
步骤S102、从所述待识别人机对话数据中,提取出对话特征信息;
步骤S103、基于所述对话特征信息以及预先建立的badcase筛选规则,获得所述待识别人机对话数据是否是badcase的识别结果。
其中,badcase筛选规则基于历史标注badcase通话样本集确定。
本实施例预先建立了badcase筛选规则,通过判断对话特征信息是否满足badcase筛选规则,来确定待识别人机对话数据是否为badcase。具体的,当对话特征信息满足badcase筛选规则时,确定待识别人机对话数据为badcase,反之,当对话特征信息不满足badcase筛选规则时,确定待识别人机对话数据不为badcase。
综上可知,本发明公开的识别人机对话中坏例的方法,从获取的待识别人机对话数据中提取对话特征信息,并基于对话特征信息以及预先建立的badcase筛选规则,来获得待识别人机对话数据是否是badcase的识别结果。因此,当识别结果为待识别人机对话数据为badcase时,就可以基于badcase的具体问题进行针对性的优化,从而保证人机交互的顺利进行,更好的满足用户的需求。
另外,相对于通过人工抽查来查找badcase而言,本发明实现了从人机对话数据中自动查找badcase,不仅大大提高了badcase的查找效率,节省了时间和人力成本,而且,由于badcase筛选规则已经预先设定了对badcase的判断标准,因此,提高了查找badcase的准确度。
上述实施例中,对话特征信息包括:用于表征对话数据量的特征和/或用于表征对话内容的特征;
其中,所述用于表征对话数据量的特征包括:对话总时长、单条对话时长和单条对话字数中的任意一个或多个的组合;
所述用于表征对话内容的特征包括:关键词。
需要说明的是,用于表征对话数据量的特征主要指:表征对话表象的特征,对话表象指的是一些客观信息,其不是根据人为的一些经验设定的内容,执行起来简单、快捷和准确。例如,对话总时长是客观存在的,其不是根据人为的一些经验设定的。
用于表征对话内容的特征主要指:表征对话实质的特征,对话实质是根据人为的一些经验设定的内容,其能够分析意图的内容,更贴近对话实质,因此更加准确,但是会相对复杂。例如,关键词可以包括:用于表征被打断的关键词,例如,暂停,其中,暂停是根据认为经验设定的表征对话实质的特征。
综上可以看出,用于表征对话数据量的特征以及用于表征对话内容的特征之间是有较大差异的,可以根据不同的应用场景来选取两者中一个或全部来建立规则。
因此,为进一步优化上述实施例,参见图2,本发明一具体实施例公开的一种识别人机对话中坏例的方法流程图,该方法包括步骤:
步骤S201、获取待识别人机对话数据;
步骤S202、从所述待识别人机对话数据中,提取出对话特征信息;
本实施例中,对话特征信息包括:用于表征对话内容的特征,具体为关键词,在实际应用中,用于表征对话内容的特征还可以包括:关键词出现的次数。比如,关键词可以包括:用于表征被打断的关键词,例如,暂停,暂停的次数为三次;用于表征单条意图的关键词,例如,讲故事,讲故事的次数为两次;等等。
步骤S203、获取预先依据用于表征对话内容特征建立的所述badcase筛选规则;
其中,所述badcase筛选规则包括:关键词及该关键词至少出现的次数,所述关键词为所述从历史标注badcase通话样本集中出现的统计值超过预设统计值的词。
具体的,在获取到历史标注badcase对话样本集后,提取历史标注badcase对话样本集中各个badcase对话样本文本中表征badcase特征信息的关键词,针对提取到的各个关键词,查找统计值超过预设统计值的关键词,即从历史标注badcase对话样本集中查找高频出现的表征badcase特征信息的关键词。比如,80%的badcase都出现了打断情况,则控制机器执行打断操作的关键词即可作为高频出现的表征badcase特征信息的关键词。又比如,70%出现了脏话的对话都是badcase,则“脏话”即可作为高频出现的表征badcase特征信息的关键词。
在提取到高频出现的表征badcase特征信息的关键词后,就可以基于高频出现的关键词建立的badcase筛选规则,badcase筛选规则包括:关键词及该关键词至少出现的次数,比如,“脏话”至少出现次数为两次;同一个意图全局出现次数至少四次及意图连续出现至少三次;多次出现系统识别意图全局出现至少两次且不是连续出现;全局“需要复述”意图连续出现的次数至少两次;打断次数至少三次,等等。需要说明的是,此处列出的每一条规则均可作为一条badcase筛选规则,各个badcase筛选规则是相互独立的,在实际应用中,各个badcase筛选规则可以同时存在。
步骤S204、判断所述对话特征信息中包含的关键词及所述关键词出现的次数,是否符合所述预先建立的至少一条badcase筛选规则中的至少一条规则,如果是,则执行步骤S205,如果否,则执行步骤S206;
具体的,在从待识别人机对话数据中提取出对话特征信息后,则进一步从对话特征信息中提取关键词以及该关键词出现的次数,通过将关键词及该关键词出现的次数与预先建立的各条badcase筛选规则进行匹配,来确定其是否符合至少一条badcase筛选规则中的至少一条规则,以便确定待识别人机对话数据是否为badcase的识别结果。
假设,从待识别人机对话数据中提取出的对话特征信息为:脏话以及该脏话出现的次数为三次,通过将对话特征信息与预先建立的各个badcase筛选规则进行匹配,发现存在一条badcase筛选规则为:“脏话”至少出现次数为两次,很显然,对话特征信息“脏话以及该脏话出现的次数为三次”符合这一规则,因此,确定待识别人机对话数据为badcase。反之,当从待识别人机对话数据中提取出的对话特征信息为:脏话以及该脏话出现的次数为一次,很显然,对话特征信息“脏话以及该脏话出现的次数为一次”不符合badcase筛选规则“脏话”至少出现次数为两次,因此,确定待识别人机对话数据不为badcase。
步骤S205、确定所述待识别人机对话数据为badcase;
步骤S206、确定所述待识别人机对话数据不为badcase。
综上可知,本发明公开的识别人机对话中坏例的方法,从获取的待识别人机对话数据中提取对话特征信息,通过判断对话特征信息中包含的关键词及该关键词出现的次数,是否符合预先建立的至少一条badcase筛选规则中的至少一条规则,来确定待识别人机对话数据是否是badcase的识别结果。因此,当识别结果为待识别人机对话数据为badcase时,就可以基于badcase的具体问题进行针对性的优化,从而保证人机交互的顺利进行,更好的满足用户的需求。
另外,相对于通过人工抽查来查找badcase而言,本发明实现了从人机对话数据中自动查找badcase,不仅大大提高了badcase的查找效率,节省了时间和人力成本,而且,由于badcase筛选规则已经预先设定了对badcase的判断标准,因此,提高了查找badcase的准确度。
为进一步优化上述实施例,参见图3,本发明一具体实施例公开的一种识别人机对话中坏例的方法流程图,该方法包括步骤:
步骤S301、获取待识别人机对话数据;
步骤S302、从待识别人机对话数据中,提取出对话特征信息;
其中,本实施例中,对话特征信息为用于表征对话数据量的特征,具体包括:对话总时长、单条对话时长和单条对话字数中的任意一个或多个的组合。
步骤S303、获取预先依据用于表征对话数据量的特征建立的所述badcase筛选规则;
本实施例中,所述badcase筛选规则包括:对话总时长、单条对话时长和单条对话字数中的任意一个或多个的组合。
步骤S304、判断所述对话特征信息的用于表征对话数据量的特征,是否符合所述badcase筛选规则中的对话总时长、所述单条对话时长和所述单条对话字数中的任意一个或多个的组合,如果是,则执行步骤S305,如果否,则执行步骤S306;
步骤S305、确定所述待识别人机对话数据为badcase;
步骤S306、确定所述待识别人机对话数据不为badcase。
综上可知,本发明公开的识别人机对话中坏例的方法,从获取的待识别人机对话数据中提取对话特征信息,通过判断对话特征信息的用于表征对话数据量的特征,是否符合所述badcase筛选规则中的对话总时长、所述单条对话时长和所述单条对话字数中的任意一个或多个的组合,来确定待识别人机对话数据是否是badcase的识别结果。因此,当识别结果为待识别人机对话数据为badcase时,就可以基于badcase的具体问题进行针对性的优化,从而保证人机交互的顺利进行,更好的满足用户的需求。
另外,相对于通过人工抽查来查找badcase而言,本发明实现了从人机对话数据中自动查找badcase,不仅大大提高了badcase的查找效率,节省了时间和人力成本,而且,由于badcase筛选规则已经预先设定了对badcase的判断标准,因此,提高了查找badcase的准确度。
为进一步优化上述实施例,参见图4,本发明另一具体实施例公开的一种识别人机对话中坏例的方法流程图,该方法包括步骤:
步骤S401、获取待识别人机对话数据;
步骤S402、从待识别人机对话数据中,提取出对话特征信息;
步骤S403、调用badcase筛选模型;
其中,所述badcase筛选模型为:以在建立所述badcase筛选规则所使用的所述历史标注badcase对话样本集,以及所述历史标注badcase对话样本集中各个badcase对话样本文本的badcase特征信息作为训练样本,以对所述badcase对话样本文本的badcase标注结果为样本标签进行训练得到。
需要说明的是,对badcase对话样本文本的badcase标注结果可以包括:0和1,0表示不为badcase,1表示为badcase。
在训练得到badcase筛选模型时所采用的机器学习模型可以为:XGboost,LR等。
步骤S404、将所述待识别人机对话数据和所述对话特征信息输入至所述badcase筛选模型,获得所述待识别人机对话数据为badcase的概率分值;
其中,待识别人机对话数据为badcase的概率分值表示:预测待识别人机对话数据为badcase出现的概率。
步骤S405、判断所述概率分值是否小于预设阈值,如果是,则执行步骤S406,如果否,则执行步骤S407;
其中,所述预设阈值为预设的badcase出现的概率,
步骤S406、确定所述待识别人机对话数据为badcase;
步骤S407、确定所述待识别人机对话数据不为badcase。
综上可知,本发明公开的识别人机对话中坏例的方法,从获取的待识别人机对话数据中提取对话特征信息,调用badcase筛选模型,将待识别人机对话数据和对话特征信息输入badcase筛选模型,获得待识别人机对话数据为badcase的概率分值,当该概率分值小于预设阈值时,确定待识别人机对话数据为badcase,反之,该概率分值不小于预设阈值时,确定待识别人机对话数据不为badcase。因此,当识别结果为待识别人机对话数据为badcase时,就可以基于badcase的具体问题进行针对性的优化,从而保证人机交互的顺利进行,更好的满足用户的需求。
另外,相对于通过人工抽查来查找badcase而言,本发明实现了从人机对话数据中自动查找badcase,不仅大大提高了badcase的查找效率,节省了时间和人力成本,而且,由于badcase筛选规则已经预先设定了对badcase的判断标准,因此,提高了查找badcase的准确度。
需要特别说明的是,上述图2、图3和图4所示的实施例为两种不同的对badcase的筛选方法,在实际应用中,可以根据需要选择。
当确定待识别人机对话数据为badcase,就可以根据badcase的具体问题进行针对性优化。比如,无法识别用户意图,则在数据库中增加或者清洗数据库中的样本数据;已存储的话术无法解决用户的问题,则后续对话术进行优化处理;如果缺少话术,则在后续增加话术、意图及样本等等。
在实际应用中,还可以在确定待识别人机对话数据为badcase时,将所述待识别人机对话数据添加至历史标注badcase对话样本集中,实现对历史标注badcase对话样本集的优化。由此可以看出,本发明中的badcase对话样本集是不断更新和变化的,因此根据badcase对话样本集得到的badcase特征信息也是不断变化的,进而所确定的badcase筛选规则也是不断变化的。这样基于badcase筛选规则得到的badcase筛选结果会更加准确。
与上述方法实施例相对应,本发明还公开了一种识别人机对话中坏例的装置。
参见图5,本发明一实施例公开的一种识别人机对话中坏例的装置的结构示意图,该装置包括:
获取单元501,用于获取待识别人机对话数据;
提取单元502,用于从所述待识别人机对话数据中,提取出对话特征信息;
识别单元503,用于基于所述对话特征信息以及预先建立的坏例badcase筛选规则,获得所述待识别人机对话数据是否是badcase的识别结果,其中,所述badcase筛选规则基于历史标注badcase通话样本集确定。
其中,badcase筛选规则基于历史标注badcase通话样本集确定。
本实施例预先建立了badcase筛选规则,通过判断对话特征信息是否满足badcase筛选规则,来确定待识别人机对话数据是否为badcase。具体的,当对话特征信息满足badcase筛选规则时,确定待识别人机对话数据为badcase,反之,当对话特征信息不满足badcase筛选规则时,确定待识别人机对话数据不为badcase。
综上可知,本发明公开的识别人机对话中坏例的装置,从获取的待识别人机对话数据中提取对话特征信息,并基于对话特征信息以及预先建立的badcase筛选规则,来获得待识别人机对话数据是否是badcase的识别结果。因此,当识别结果为待识别人机对话数据为badcase时,就可以基于badcase的具体问题进行针对性的优化,从而保证人机交互的顺利进行,更好的满足用户的需求。
另外,相对于通过人工抽查来查找badcase而言,本发明实现了从人机对话数据中自动查找badcase,不仅大大提高了badcase的查找效率,节省了时间和人力成本,而且,由于badcase筛选规则已经预先设定了对badcase的判断标准,因此,提高了查找badcase的准确度。
上述实施例中,对话特征信息包括:用于表征对话数据量的特征和/或用于表征对话内容的特征;
其中,所述用于表征对话数据量的特征包括:对话总时长、单条对话时长和单条对话字数中的任意一个或多个的组合;
所述用于表征对话内容的特征包括:关键词。
需要说明的是,用于表征对话数据量的特征主要指:表征对话表象的特征,对话表象指的是一些客观信息,其不是根据人为的一些经验设定的内容,执行起来简单、快捷和准确。例如,对话总时长是客观存在的,其不是根据人为的一些经验设定的。
用于表征对话内容的特征主要指:表征对话实质的特征,对话实质是根据人为的一些经验设定的内容,其能够分析意图的内容,更贴近对话实质,因此更加准确,但是会相对复杂。例如,关键词可以包括:用于表征被打断的关键词,例如,暂停,其中,暂停是根据认为经验设定的表征对话实质的特征。
综上可以看出,用于表征对话数据量的特征以及用于表征对话内容的特征之间是有较大差异的,可以根据不同的应用场景来选取两者中一个或全部来建立规则。
参见图6,本发明一实施例公开的一种识别单元的结构示意图,识别单元可以包括:
第一获取子单元601,用于获取预先依据用于表征对话内容特征建立的所述badcase筛选规则,所述badcase筛选规则包括:关键词及该关键词至少出现的次数,所述关键词为所述从历史标注badcase通话样本集中出现的统计值超过预设统计值的词;
具体的,在获取到历史标注badcase对话样本集后,提取历史标注badcase对话样本集中各个badcase对话样本文本中表征badcase特征信息的关键词,针对提取到的各个关键词,查找统计值超过预设统计值的关键词,即从历史标注badcase对话样本集中查找高频出现的表征badcase特征信息的关键词。比如,80%的badcase都出现了打断情况,则控制机器执行打断操作的关键词即可作为高频出现的表征badcase特征信息的关键词。又比如,70%出现了脏话的对话都是badcase,则“脏话”即可作为高频出现的表征badcase特征信息的关键词。
在提取到高频出现的表征badcase特征信息的关键词后,就可以基于高频出现的关键词建立的badcase筛选规则,badcase筛选规则包括:关键词及该关键词至少出现的次数,比如,“脏话”至少出现次数为两次;同一个意图全局出现次数至少四次及意图连续出现至少三次;多次出现系统识别意图全局出现至少两次且不是连续出现;全局“需要复述”意图连续出现的次数至少两次;打断次数至少三次,等等。需要说明的是,此处列出的每一条规则均可作为一条badcase筛选规则,各个badcase筛选规则是相互独立的,在实际应用中,各个badcase筛选规则可以同时存在。
第一判断子单元602,用于判断所述对话特征信息中包含的关键词及所述关键词出现的次数,是否符合所述预先建立的至少一条badcase筛选规则中的至少一条规则;
具体的,在从待识别人机对话数据中提取出对话特征信息后,则进一步从对话特征信息中提取关键词以及该关键词出现的次数,通过将关键词及该关键词出现的次数与预先建立的各条badcase筛选规则进行匹配,来确定其是否符合至少一条badcase筛选规则中的至少一条规则,以便确定待识别人机对话数据是否为badcase的识别结果。
第一确定子单元603,用于在所述第一判断子单元602判断为是的情况下,确定所述待识别人机对话数据为badcase;
第二确定子单元604,用于在所述第一判断子单元602判断为否的情况下,确定所述待识别人机对话数据不为badcase。
综上可知,本发明通过判断对话特征信息中包含的关键词及该关键词出现的次数,是否符合预先建立的至少一条badcase筛选规则中的至少一条规则,来确定待识别人机对话数据是否是badcase的识别结果。因此,当识别结果为待识别人机对话数据为badcase时,就可以基于badcase的具体问题进行针对性的优化,从而保证人机交互的顺利进行,更好的满足用户的需求。
另外,相对于通过人工抽查来查找badcase而言,本发明实现了从人机对话数据中自动查找badcase,不仅大大提高了badcase的查找效率,节省了时间和人力成本,而且,由于badcase筛选规则已经预先设定了对badcase的判断标准,因此,提高了查找badcase的准确度。
为进一步优化上述实施例,参见图7,本发明一实施例公开的一种识别单元的结构示意图,识别单元可以包括:
第二获取子单元701,用于获取预先依据用于表征对话数据量的特征建立的所述badcase筛选规则,所述badcase筛选规则包括:对话总时长、单条对话时长和单条对话字数中的任意一个或多个的组合;
第二判断子单元702,用于判断所述对话特征信息的用于表征对话数据量的特征,是否符合所述对话总时长、所述单条对话时长和所述单条对话字数中的任意一个或多个的组合;
第三确定子单元703,用于在所述第二判断子单元702判断为是的情况下,确定所述待识别人机对话数据为badcase;
第四确定子单元704,用于在所述第二判断子单元702判断为否的情况下,确定所述待识别人机对话数据不为badcase。
综上可知,本发明通过判断对话特征信息的用于表征对话数据量的特征,是否符合所述badcase筛选规则中的对话总时长、所述单条对话时长和所述单条对话字数中的任意一个或多个的组合,来确定待识别人机对话数据是否是badcase的识别结果。因此,当识别结果为待识别人机对话数据为badcase时,就可以基于badcase的具体问题进行针对性的优化,从而保证人机交互的顺利进行,更好的满足用户的需求。
另外,相对于通过人工抽查来查找badcase而言,本发明实现了从人机对话数据中自动查找badcase,不仅大大提高了badcase的查找效率,节省了时间和人力成本,而且,由于badcase筛选规则已经预先设定了对badcase的判断标准,因此,提高了查找badcase的准确度。
为进一步优化上述实施例,参见图8,本发明一实施例公开的一种识别单元的结构示意图,识别单元可以包括:
调用子单元801,用于调用badcase筛选模型,所述badcase筛选模型为:以在建立所述badcase筛选规则所使用的所述历史标注badcase对话样本集,以及所述历史标注badcase对话样本集中各个badcase对话样本文本的badcase特征信息作为训练样本,以对所述badcase对话样本文本的badcase标注结果为样本标签进行训练得到;
输入子单元802,用于将所述待识别人机对话数据和所述对话特征信息输入至所述badcase筛选模型,获得所述待识别人机对话数据为badcase的概率分值;
第三判断子单元803,用于判断所述概率分值是否小于预设阈值,所述预设阈值为预设的badcase出现的概率;
第五确定子单元804,用于在所述第三判断子单元803判断为是的情况下,确定所述待识别人机对话数据为badcase;
第六确定子单元805,用于在所述第三判断子单元803判断为否的情况下,确定所述待识别人机对话数据不为badcase。
综上可知,本发明在从获取的待识别人机对话数据中提取对话特征信息后,调用badcase筛选模型,将待识别人机对话数据和对话特征信息输入badcase筛选模型,获得待识别人机对话数据为badcase的概率分值,当该概率分值小于预设阈值时,确定待识别人机对话数据为badcase,反之,该概率分值不小于预设阈值时,确定待识别人机对话数据不为badcase。因此,当识别结果为待识别人机对话数据为badcase时,就可以基于badcase的具体问题进行针对性的优化,从而保证人机交互的顺利进行,更好的满足用户的需求。
另外,相对于通过人工抽查来查找badcase而言,本发明实现了从人机对话数据中自动查找badcase,不仅大大提高了badcase的查找效率,节省了时间和人力成本,而且,由于badcase筛选规则已经预先设定了对badcase的判断标准,因此,提高了查找badcase的准确度。
当确定待识别人机对话数据为badcase,就可以根据badcase的具体问题进行针对性优化。比如,无法识别用户意图,则在数据库中增加或者清洗数据库中的样本数据;已存储的话术无法解决用户的问题,则后续对话术进行优化处理;如果缺少话术,则在后续增加话术、意图及样本等等。
因此,上述识别人机对话中坏例的装置还可以包括:
添加单元,用于当所述待识别人机对话数据为badcase时,将所述待识别人机对话数据添加至所述历史标注badcase对话样本集中。
由此可以看出,本发明中的badcase对话样本集是不断更新和变化的,因此根据badcase对话样本集得到的badcase特征信息也是不断变化的,进而所确定的badcase筛选规则也是不断变化的。这样基于badcase筛选规则得到的badcase筛选结果会更加准确。
需要说明的是,装置实施例中,各组成部分的具体工作原理,请参见方法实施例对应部分,此处不再赘述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (12)

1.一种识别人机对话中坏例的方法,其特征在于,所述方法包括:
获取待识别人机对话数据;
从所述待识别人机对话数据中,提取出对话特征信息;
基于所述对话特征信息以及预先建立的坏例badcase筛选规则,获得所述待识别人机对话数据是否是badcase的识别结果,其中,所述badcase筛选规则基于历史标注badcase通话样本集确定。
2.根据权利要求1所述的方法,其特征在于,所述对话特征信息包括:用于表征对话数据量的特征和/或用于表征对话内容的特征;
所述用于表征对话数据量的特征包括:对话总时长、单条对话时长和单条对话字数中的任意一个或多个的组合;
所述用于表征对话内容的特征包括:关键词。
3.根据权利要求2所述的方法,其特征在于,所述基于所述对话特征信息以及预先建立的坏例badcase筛选规则,获得所述待识别人机对话数据是否是badcase的识别结果,具体包括:
获取预先依据用于表征对话内容特征建立的所述badcase筛选规则,所述badcase筛选规则包括:关键词及该关键词至少出现的次数,所述关键词为所述从历史标注badcase通话样本集中出现的统计值超过预设统计值的词;
判断所述对话特征信息中包含的关键词及所述关键词出现的次数,是否符合所述预先建立的至少一条badcase筛选规则中的至少一条规则;
如果是,则确定所述待识别人机对话数据为badcase;
如果否,则确定所述待识别人机对话数据不为badcase。
4.根据权利要求2所述的方法,其特征在于,所述基于所述对话特征信息以及预先建立的坏例badcase筛选规则,获得所述待识别人机对话数据是否是badcase的识别结果,具体包括:
获取预先依据用于表征对话数据量的特征建立的所述badcase筛选规则,所述badcase筛选规则包括:对话总时长、单条对话时长和单条对话字数中的任意一个或多个的组合;
判断所述对话特征信息的用于表征对话数据量的特征,是否符合所述对话总时长、所述单条对话时长和所述单条对话字数中的任意一个或多个的组合;
如果是,则确定所述待识别人机对话数据为badcase;
如果否,则确定所述待识别人机对话数据不为badcase。
5.根据权利要求1所述的方法,其特征在于,所述基于所述对话特征信息以及预先建立的坏例badcase筛选规则,获得所述待识别人机对话数据是否是badcase的识别结果,具体包括:
调用badcase筛选模型,所述badcase筛选模型为:以在建立所述badcase筛选规则所使用的所述历史标注badcase对话样本集,以及所述历史标注badcase对话样本集中各个badcase对话样本文本的badcase特征信息作为训练样本,以对所述badcase对话样本文本的badcase标注结果为样本标签进行训练得到;
将所述待识别人机对话数据和所述对话特征信息输入至所述badcase筛选模型,获得所述待识别人机对话数据为badcase的概率分值;
判断所述概率分值是否小于预设阈值,所述预设阈值为预设的badcase出现的概率;
如果是,则确定所述待识别人机对话数据为badcase;
如果否,则确定所述待识别人机对话数据不为badcase。
6.根据权利要求1~5任意一项所述的方法,其特征在于,还包括:当所述待识别人机对话数据为badcase时,将所述待识别人机对话数据添加至所述历史标注badcase对话样本集中。
7.一种识别人机对话中坏例的装置,其特征在于,所述装置包括:
获取单元,用于获取待识别人机对话数据;
提取单元,用于从所述待识别人机对话数据中,提取出对话特征信息;
识别单元,用于基于所述对话特征信息以及预先建立的坏例badcase筛选规则,获得所述待识别人机对话数据是否是badcase的识别结果,其中,所述badcase筛选规则基于历史标注badcase通话样本集确定。
8.根据权利要求7所述的装置,其特征在于,所述对话特征信息包括:用于表征对话数据量的特征和/或用于表征对话内容的特征;
所述用于表征对话数据量的特征包括:对话总时长、单条对话时长和单条对话字数中的任意一个或多个的组合;
所述用于表征对话内容的特征包括:关键词。
9.根据权利要求8所述的装置,其特征在于,所述识别单元具体包括:
第一获取子单元,用于获取预先依据用于表征对话内容特征建立的所述badcase筛选规则,所述badcase筛选规则包括:关键词及该关键词至少出现的次数,所述关键词为所述从历史标注badcase通话样本集中出现的统计值超过预设统计值的词;
第一判断子单元,用于判断所述对话特征信息中包含的关键词及所述关键词出现的次数,是否符合所述预先建立的至少一条badcase筛选规则中的至少一条规则;
第一确定子单元,用于在所述第一判断子单元判断为是的情况下,确定所述待识别人机对话数据为badcase;
第二确定子单元,用于在所述第一判断子单元判断为否的情况下,确定所述待识别人机对话数据不为badcase。
10.根据权利要求8所述的装置,其特征在于,所述识别单元具体包括:
第二获取子单元,用于获取预先依据用于表征对话数据量的特征建立的所述badcase筛选规则,所述badcase筛选规则包括:对话总时长、单条对话时长和单条对话字数中的任意一个或多个的组合;
第二判断子单元,用于判断所述对话特征信息的用于表征对话数据量的特征,是否符合所述对话总时长、所述单条对话时长和所述单条对话字数中的任意一个或多个的组合;
第三确定子单元,用于在所述第二判断子单元判断为是的情况下,确定所述待识别人机对话数据为badcase;
第四确定子单元,用于在所述第二判断子单元判断为否的情况下,确定所述待识别人机对话数据不为badcase。
11.根据权利要求7所述的装置,其特征在于,所述识别单元具体包括:
调用子单元,用于调用badcase筛选模型,所述badcase筛选模型为:以在建立所述badcase筛选规则所使用的所述历史标注badcase对话样本集,以及所述历史标注badcase对话样本集中各个badcase对话样本文本的badcase特征信息作为训练样本,以对所述badcase对话样本文本的badcase标注结果为样本标签进行训练得到;
输入子单元,用于将所述待识别人机对话数据和所述对话特征信息输入至所述badcase筛选模型,获得所述待识别人机对话数据为badcase的概率分值;
第三判断子单元,用于判断所述概率分值是否小于预设阈值,所述预设阈值为预设的badcase出现的概率;
第五确定子单元,用于在所述第三判断子单元判断为是的情况下,确定所述待识别人机对话数据为badcase;
第六确定子单元,用于在所述第三判断子单元判断为否的情况下,确定所述待识别人机对话数据不为badcase。
12.根据权利要求7~11任意一项所述的装置,其特征在于,还包括:
添加单元,用于当所述待识别人机对话数据为badcase时,将所述待识别人机对话数据添加至所述历史标注badcase对话样本集中。
CN201911325819.4A 2019-12-20 2019-12-20 一种识别人机对话中坏例的方法及装置 Pending CN111177347A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911325819.4A CN111177347A (zh) 2019-12-20 2019-12-20 一种识别人机对话中坏例的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911325819.4A CN111177347A (zh) 2019-12-20 2019-12-20 一种识别人机对话中坏例的方法及装置

Publications (1)

Publication Number Publication Date
CN111177347A true CN111177347A (zh) 2020-05-19

Family

ID=70654025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911325819.4A Pending CN111177347A (zh) 2019-12-20 2019-12-20 一种识别人机对话中坏例的方法及装置

Country Status (1)

Country Link
CN (1) CN111177347A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106328166A (zh) * 2016-08-31 2017-01-11 上海交通大学 人机对话异常检测系统及方法
CN110032181A (zh) * 2019-02-26 2019-07-19 文远知行有限公司 语义地图中障碍物定位方法、装置、计算机设备和存储介质
CN110555095A (zh) * 2018-05-31 2019-12-10 北京京东尚科信息技术有限公司 人机对话方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106328166A (zh) * 2016-08-31 2017-01-11 上海交通大学 人机对话异常检测系统及方法
CN110555095A (zh) * 2018-05-31 2019-12-10 北京京东尚科信息技术有限公司 人机对话方法和装置
CN110032181A (zh) * 2019-02-26 2019-07-19 文远知行有限公司 语义地图中障碍物定位方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
US10354677B2 (en) System and method for identification of intent segment(s) in caller-agent conversations
CN108682420B (zh) 一种音视频通话方言识别方法及终端设备
CN108153800B (zh) 信息处理方法、信息处理装置以及记录介质
CN112037799B (zh) 语音中断处理方法、装置、计算机设备和存储介质
CN112468659B (zh) 应用于电话客服的质量评价方法、装置、设备及存储介质
CN111179935B (zh) 一种语音质检的方法和设备
CN110839112A (zh) 一种问题语音的检测方法和装置
CN110287318B (zh) 业务操作的检测方法及装置、存储介质、电子装置
CN113297365B (zh) 一种用户意向判定方法、装置、设备及存储介质
CN111178081B (zh) 语义识别的方法、服务器、电子设备及计算机存储介质
CN111768781A (zh) 语音打断的处理方法和装置
JP2017167726A (ja) 会話分析装置、方法及びコンピュータプログラム
CN109992651B (zh) 一种问题目标特征自动识别和抽取方法
CN111062221A (zh) 数据处理方法、装置、电子设备以及存储介质
CN109693244B (zh) 优化对话机器人的方法及装置
CN114328867A (zh) 一种人机对话中智能打断的方法及装置
WO2020199590A1 (zh) 情绪检测分析方法及相关装置
CN111177347A (zh) 一种识别人机对话中坏例的方法及装置
CN116303951A (zh) 对话处理方法、装置、电子设备和存储介质
CN111970311B (zh) 会话切分方法、电子设备及计算机可读介质
JP2011123565A (ja) Faq候補抽出システムおよびfaq候補抽出プログラム
CN114202363A (zh) 基于人工智能的话术调用方法、装置、计算机设备及介质
CN113810548A (zh) 基于iot的智能通话质检方法系统
CN112948585A (zh) 基于分类的自然语言处理方法、装置、设备、存储介质
JP2013117842A (ja) 知識量推定情報生成装置、知識量推定装置、方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 401121 b7-7-2, Yuxing Plaza, No.5 Huangyang Road, Yubei District, Chongqing

Applicant after: Chongqing duxiaoman Youyang Technology Co.,Ltd.

Address before: 201800 room j1328, 3 / F, building 8, 55 Huiyuan Road, Jiading District, Shanghai

Applicant before: SHANGHAI YOUYANG NEW MEDIA INFORMATION TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20211215

Address after: 100193 Room 606, 6 / F, building 4, West District, courtyard 10, northwest Wangdong Road, Haidian District, Beijing

Applicant after: Du Xiaoman Technology (Beijing) Co.,Ltd.

Address before: 401121 b7-7-2, Yuxing Plaza, No.5 Huangyang Road, Yubei District, Chongqing

Applicant before: Chongqing duxiaoman Youyang Technology Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200519