一种识别人机对话中坏例的方法及装置
技术领域
本发明涉及计算机技术领域,更具体的说,涉及一种识别人机对话中坏例的方法及装置。
背景技术
人机交互是指人与机器之间使用某种对话语言,以一定的交互方式,为完成确定任务的人与机器之间的信息交换过程。
在人机交互过程中,单条对话的逻辑是:以用户所说的话为样本,机器根据一系列的规则将样本识别到意图上,根据意图确定对应的话术,并播放对应的话术。然而在实际应用中,机器可能因为缺少用户的说话样本,而无法识别用户所说的话或者对用户提出的问题回答错误。机器存在的无法识别用户所说的话或者对用户提出的问题回答错误的情况,称为人机对话中的坏例(badcase)。坏例的存在会导致人机交互无法顺利进行,因此影响了人机交互功能的可靠性。
因此,需要识别人机对话中的badcase,以作为对人机交互进行优化的依据或基础,才能更好的满足用户的需求。
发明内容
有鉴于此,本发明公开一种识别人机对话中坏例的方法及装置,以实现对人机对话数据是否是badcase进行识别,以便基于badcase的具体问题进行针对性的优化,从而保证人机交互的顺利进行,更好的满足用户的需求。
一种识别人机对话中坏例的方法,所述方法包括:
获取待识别人机对话数据;
从所述待识别人机对话数据中,提取出对话特征信息;
基于所述对话特征信息以及预先建立的坏例badcase筛选规则,获得所述待识别人机对话数据是否是badcase的识别结果,其中,所述badcase筛选规则基于历史标注badcase通话样本集确定。
可选的,所述对话特征信息包括:用于表征对话数据量的特征和/或用于表征对话内容的特征;
所述用于表征对话数据量的特征包括:对话总时长、单条对话时长和单条对话字数中的任意一个或多个的组合;
所述用于表征对话内容的特征包括:关键词。
可选的,所述基于所述对话特征信息以及预先建立的坏例badcase筛选规则,获得所述待识别人机对话数据是否是badcase的识别结果,具体包括:
获取预先依据用于表征对话内容特征建立的所述badcase筛选规则,所述badcase筛选规则包括:关键词及该关键词至少出现的次数,所述关键词为所述从历史标注badcase通话样本集中出现的统计值超过预设统计值的词;
判断所述对话特征信息中包含的关键词及所述关键词出现的次数,是否符合所述预先建立的至少一条badcase筛选规则中的至少一条规则;
如果是,则确定所述待识别人机对话数据为badcase;
如果否,则确定所述待识别人机对话数据不为badcase。
可选的,所述基于所述对话特征信息以及预先建立的坏例badcase筛选规则,获得所述待识别人机对话数据是否是badcase的识别结果,具体包括:
获取预先依据用于表征对话数据量的特征建立的所述badcase筛选规则,所述badcase筛选规则包括:对话总时长、单条对话时长和单条对话字数中的任意一个或多个的组合;
判断所述对话特征信息的用于表征对话数据量的特征,是否符合所述对话总时长、所述单条对话时长和所述单条对话字数中的任意一个或多个的组合;
如果是,则确定所述待识别人机对话数据为badcase;
如果否,则确定所述待识别人机对话数据不为badcase。
可选的,所述基于所述对话特征信息以及预先建立的坏例badcase筛选规则,获得所述待识别人机对话数据是否是badcase的识别结果,具体包括:
调用badcase筛选模型,所述badcase筛选模型为:以在建立所述badcase筛选规则所使用的所述历史标注badcase对话样本集,以及所述历史标注badcase对话样本集中各个badcase对话样本文本的badcase特征信息作为训练样本,以对所述badcase对话样本文本的badcase标注结果为样本标签进行训练得到;
将所述待识别人机对话数据和所述对话特征信息输入至所述badcase筛选模型,获得所述待识别人机对话数据为badcase的概率分值;
判断所述概率分值是否小于预设阈值,所述预设阈值为预设的badcase出现的概率;
如果是,则确定所述待识别人机对话数据为badcase;
如果否,则确定所述待识别人机对话数据不为badcase。
可选的,还包括:当所述待识别人机对话数据为badcase时,将所述待识别人机对话数据添加至所述历史标注badcase对话样本集中。
一种识别人机对话中坏例的装置,所述装置包括:
获取单元,用于获取待识别人机对话数据;
提取单元,用于从所述待识别人机对话数据中,提取出对话特征信息;
识别单元,用于基于所述对话特征信息以及预先建立的坏例badcase筛选规则,获得所述待识别人机对话数据是否是badcase的识别结果,其中,所述badcase筛选规则基于历史标注badcase通话样本集确定。
可选的,所述对话特征信息包括:用于表征对话数据量的特征和/或用于表征对话内容的特征;
所述用于表征对话数据量的特征包括:对话总时长、单条对话时长和单条对话字数中的任意一个或多个的组合;
所述用于表征对话内容的特征包括:关键词。
可选的,所述识别单元具体包括:
第一获取子单元,用于获取预先依据用于表征对话内容特征建立的所述badcase筛选规则,所述badcase筛选规则包括:关键词及该关键词至少出现的次数,所述关键词为所述从历史标注badcase通话样本集中出现的统计值超过预设统计值的词;
第一判断子单元,用于判断所述对话特征信息中包含的关键词及所述关键词出现的次数,是否符合所述预先建立的至少一条badcase筛选规则中的至少一条规则;
第一确定子单元,用于在所述第一判断子单元判断为是的情况下,确定所述待识别人机对话数据为badcase;
第二确定子单元,用于在所述第一判断子单元判断为否的情况下,确定所述待识别人机对话数据不为badcase。
可选的,所述识别单元具体包括:
第二获取子单元,用于获取预先依据用于表征对话数据量的特征建立的所述badcase筛选规则,所述badcase筛选规则包括:对话总时长、单条对话时长和单条对话字数中的任意一个或多个的组合;
第二判断子单元,用于判断所述对话特征信息的用于表征对话数据量的特征,是否符合所述对话总时长、所述单条对话时长和所述单条对话字数中的任意一个或多个的组合;
第三确定子单元,用于在所述第二判断子单元判断为是的情况下,确定所述待识别人机对话数据为badcase;
第四确定子单元,用于在所述第二判断子单元判断为否的情况下,确定所述待识别人机对话数据不为badcase。
可选的,所述识别单元具体包括:
调用子单元,用于调用badcase筛选模型,所述badcase筛选模型为:以在建立所述badcase筛选规则所使用的所述历史标注badcase对话样本集,以及所述历史标注badcase对话样本集中各个badcase对话样本文本的badcase特征信息作为训练样本,以对所述badcase对话样本文本的badcase标注结果为样本标签进行训练得到;
输入子单元,用于将所述待识别人机对话数据和所述对话特征信息输入至所述badcase筛选模型,获得所述待识别人机对话数据为badcase的概率分值;
第三判断子单元,用于判断所述概率分值是否小于预设阈值,所述预设阈值为预设的badcase出现的概率;
第五确定子单元,用于在所述第三判断子单元判断为是的情况下,确定所述待识别人机对话数据为badcase;
第六确定子单元,用于在所述第三判断子单元判断为否的情况下,确定所述待识别人机对话数据不为badcase。
可选的,还包括:
添加单元,用于当所述待识别人机对话数据为badcase时,将所述待识别人机对话数据添加至所述历史标注badcase对话样本集中。
从上述的技术方案可知,本发明公开了一种识别人机对话中坏例的方法及装置,从获取的待识别人机对话数据中提取对话特征信息,并基于对话特征信息以及预先建立的badcase筛选规则,来获得待识别人机对话数据是否是badcase的识别结果。因此,当识别结果为待识别人机对话数据为badcase时,就可以基于badcase的具体问题进行针对性的优化,从而保证人机交互的顺利进行,更好的满足用户的需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据公开的附图获得其他的附图。
图1为本发明实施例公开的一种识别人机对话中坏例的方法流程图;
图2为本发明一具体实施例公开的一种识别人机对话中坏例的方法流程图;
图3为本发明另一具体实施例公开的一种识别人机对话中坏例的方法流程图;
图4为本发明另一具体实施例公开的一种识别人机对话中坏例的方法流程图;
图5为本发明实施例公开的一种识别人机对话中坏例的装置的结构示意图;
图6为本发明实施例公开的一种识别单元的结构示意图;
图7为本发明实施例公开的另一种识别单元的结构示意图;
图8为本发明实施例公开的另一种识别单元的结构示意图。
具体实施方式
人机交互功能已经广泛应用在各个领域和场景,因此其可靠性直接影响用户感受。Badcase的识别和优化是保证和提高人机交互功能可靠性的主要途径。
Badcase识别作为人机对话优化的基础,成为了保证和提高人机交互功能可靠性的关键。本发明的发明人在研究中发现,在识别badcase的过程中,可以依靠人工不定时的抽查人机交互的对话记录,并标注每一个对话,然后从人工标注的对话中查找到badcase,最后根据badcase的具体问题进行针对性的优化。
然而,通过人工抽查来查找badcase的效率非常低,如果评估200条样本需要1天的时间,则人工查找到badcase的占比仅为百分之几,比如5%,对于百万千万级别的对话样本而言,需要花费大量的时间和人力成本。并且,由于不同人员对badcase的判断标准不同,因此通过人工抽查来查找badcase的准确度低。
为了解决上述问题,本发明实施例公开了一种识别人机对话中坏例的方法及装置,从待识别人机对话数据中提取对话特征信息,并基于对话特征信息以及预先建立的badcase筛选规则,来获得待识别人机对话数据是否是badcase的识别结果。因此,当识别结果为待识别人机对话数据为badcase时,就可以基于badcase的具体问题进行针对性的优化,从而保证人机交互的顺利进行,更好的满足用户的需求。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,本发明一实施例公开的一种识别人机对话中坏例的方法流程图,该方法包括步骤:
步骤S101、获取待识别人机对话数据;
步骤S102、从所述待识别人机对话数据中,提取出对话特征信息;
步骤S103、基于所述对话特征信息以及预先建立的badcase筛选规则,获得所述待识别人机对话数据是否是badcase的识别结果。
其中,badcase筛选规则基于历史标注badcase通话样本集确定。
本实施例预先建立了badcase筛选规则,通过判断对话特征信息是否满足badcase筛选规则,来确定待识别人机对话数据是否为badcase。具体的,当对话特征信息满足badcase筛选规则时,确定待识别人机对话数据为badcase,反之,当对话特征信息不满足badcase筛选规则时,确定待识别人机对话数据不为badcase。
综上可知,本发明公开的识别人机对话中坏例的方法,从获取的待识别人机对话数据中提取对话特征信息,并基于对话特征信息以及预先建立的badcase筛选规则,来获得待识别人机对话数据是否是badcase的识别结果。因此,当识别结果为待识别人机对话数据为badcase时,就可以基于badcase的具体问题进行针对性的优化,从而保证人机交互的顺利进行,更好的满足用户的需求。
另外,相对于通过人工抽查来查找badcase而言,本发明实现了从人机对话数据中自动查找badcase,不仅大大提高了badcase的查找效率,节省了时间和人力成本,而且,由于badcase筛选规则已经预先设定了对badcase的判断标准,因此,提高了查找badcase的准确度。
上述实施例中,对话特征信息包括:用于表征对话数据量的特征和/或用于表征对话内容的特征;
其中,所述用于表征对话数据量的特征包括:对话总时长、单条对话时长和单条对话字数中的任意一个或多个的组合;
所述用于表征对话内容的特征包括:关键词。
需要说明的是,用于表征对话数据量的特征主要指:表征对话表象的特征,对话表象指的是一些客观信息,其不是根据人为的一些经验设定的内容,执行起来简单、快捷和准确。例如,对话总时长是客观存在的,其不是根据人为的一些经验设定的。
用于表征对话内容的特征主要指:表征对话实质的特征,对话实质是根据人为的一些经验设定的内容,其能够分析意图的内容,更贴近对话实质,因此更加准确,但是会相对复杂。例如,关键词可以包括:用于表征被打断的关键词,例如,暂停,其中,暂停是根据认为经验设定的表征对话实质的特征。
综上可以看出,用于表征对话数据量的特征以及用于表征对话内容的特征之间是有较大差异的,可以根据不同的应用场景来选取两者中一个或全部来建立规则。
因此,为进一步优化上述实施例,参见图2,本发明一具体实施例公开的一种识别人机对话中坏例的方法流程图,该方法包括步骤:
步骤S201、获取待识别人机对话数据;
步骤S202、从所述待识别人机对话数据中,提取出对话特征信息;
本实施例中,对话特征信息包括:用于表征对话内容的特征,具体为关键词,在实际应用中,用于表征对话内容的特征还可以包括:关键词出现的次数。比如,关键词可以包括:用于表征被打断的关键词,例如,暂停,暂停的次数为三次;用于表征单条意图的关键词,例如,讲故事,讲故事的次数为两次;等等。
步骤S203、获取预先依据用于表征对话内容特征建立的所述badcase筛选规则;
其中,所述badcase筛选规则包括:关键词及该关键词至少出现的次数,所述关键词为所述从历史标注badcase通话样本集中出现的统计值超过预设统计值的词。
具体的,在获取到历史标注badcase对话样本集后,提取历史标注badcase对话样本集中各个badcase对话样本文本中表征badcase特征信息的关键词,针对提取到的各个关键词,查找统计值超过预设统计值的关键词,即从历史标注badcase对话样本集中查找高频出现的表征badcase特征信息的关键词。比如,80%的badcase都出现了打断情况,则控制机器执行打断操作的关键词即可作为高频出现的表征badcase特征信息的关键词。又比如,70%出现了脏话的对话都是badcase,则“脏话”即可作为高频出现的表征badcase特征信息的关键词。
在提取到高频出现的表征badcase特征信息的关键词后,就可以基于高频出现的关键词建立的badcase筛选规则,badcase筛选规则包括:关键词及该关键词至少出现的次数,比如,“脏话”至少出现次数为两次;同一个意图全局出现次数至少四次及意图连续出现至少三次;多次出现系统识别意图全局出现至少两次且不是连续出现;全局“需要复述”意图连续出现的次数至少两次;打断次数至少三次,等等。需要说明的是,此处列出的每一条规则均可作为一条badcase筛选规则,各个badcase筛选规则是相互独立的,在实际应用中,各个badcase筛选规则可以同时存在。
步骤S204、判断所述对话特征信息中包含的关键词及所述关键词出现的次数,是否符合所述预先建立的至少一条badcase筛选规则中的至少一条规则,如果是,则执行步骤S205,如果否,则执行步骤S206;
具体的,在从待识别人机对话数据中提取出对话特征信息后,则进一步从对话特征信息中提取关键词以及该关键词出现的次数,通过将关键词及该关键词出现的次数与预先建立的各条badcase筛选规则进行匹配,来确定其是否符合至少一条badcase筛选规则中的至少一条规则,以便确定待识别人机对话数据是否为badcase的识别结果。
假设,从待识别人机对话数据中提取出的对话特征信息为:脏话以及该脏话出现的次数为三次,通过将对话特征信息与预先建立的各个badcase筛选规则进行匹配,发现存在一条badcase筛选规则为:“脏话”至少出现次数为两次,很显然,对话特征信息“脏话以及该脏话出现的次数为三次”符合这一规则,因此,确定待识别人机对话数据为badcase。反之,当从待识别人机对话数据中提取出的对话特征信息为:脏话以及该脏话出现的次数为一次,很显然,对话特征信息“脏话以及该脏话出现的次数为一次”不符合badcase筛选规则“脏话”至少出现次数为两次,因此,确定待识别人机对话数据不为badcase。
步骤S205、确定所述待识别人机对话数据为badcase;
步骤S206、确定所述待识别人机对话数据不为badcase。
综上可知,本发明公开的识别人机对话中坏例的方法,从获取的待识别人机对话数据中提取对话特征信息,通过判断对话特征信息中包含的关键词及该关键词出现的次数,是否符合预先建立的至少一条badcase筛选规则中的至少一条规则,来确定待识别人机对话数据是否是badcase的识别结果。因此,当识别结果为待识别人机对话数据为badcase时,就可以基于badcase的具体问题进行针对性的优化,从而保证人机交互的顺利进行,更好的满足用户的需求。
另外,相对于通过人工抽查来查找badcase而言,本发明实现了从人机对话数据中自动查找badcase,不仅大大提高了badcase的查找效率,节省了时间和人力成本,而且,由于badcase筛选规则已经预先设定了对badcase的判断标准,因此,提高了查找badcase的准确度。
为进一步优化上述实施例,参见图3,本发明一具体实施例公开的一种识别人机对话中坏例的方法流程图,该方法包括步骤:
步骤S301、获取待识别人机对话数据;
步骤S302、从待识别人机对话数据中,提取出对话特征信息;
其中,本实施例中,对话特征信息为用于表征对话数据量的特征,具体包括:对话总时长、单条对话时长和单条对话字数中的任意一个或多个的组合。
步骤S303、获取预先依据用于表征对话数据量的特征建立的所述badcase筛选规则;
本实施例中,所述badcase筛选规则包括:对话总时长、单条对话时长和单条对话字数中的任意一个或多个的组合。
步骤S304、判断所述对话特征信息的用于表征对话数据量的特征,是否符合所述badcase筛选规则中的对话总时长、所述单条对话时长和所述单条对话字数中的任意一个或多个的组合,如果是,则执行步骤S305,如果否,则执行步骤S306;
步骤S305、确定所述待识别人机对话数据为badcase;
步骤S306、确定所述待识别人机对话数据不为badcase。
综上可知,本发明公开的识别人机对话中坏例的方法,从获取的待识别人机对话数据中提取对话特征信息,通过判断对话特征信息的用于表征对话数据量的特征,是否符合所述badcase筛选规则中的对话总时长、所述单条对话时长和所述单条对话字数中的任意一个或多个的组合,来确定待识别人机对话数据是否是badcase的识别结果。因此,当识别结果为待识别人机对话数据为badcase时,就可以基于badcase的具体问题进行针对性的优化,从而保证人机交互的顺利进行,更好的满足用户的需求。
另外,相对于通过人工抽查来查找badcase而言,本发明实现了从人机对话数据中自动查找badcase,不仅大大提高了badcase的查找效率,节省了时间和人力成本,而且,由于badcase筛选规则已经预先设定了对badcase的判断标准,因此,提高了查找badcase的准确度。
为进一步优化上述实施例,参见图4,本发明另一具体实施例公开的一种识别人机对话中坏例的方法流程图,该方法包括步骤:
步骤S401、获取待识别人机对话数据;
步骤S402、从待识别人机对话数据中,提取出对话特征信息;
步骤S403、调用badcase筛选模型;
其中,所述badcase筛选模型为:以在建立所述badcase筛选规则所使用的所述历史标注badcase对话样本集,以及所述历史标注badcase对话样本集中各个badcase对话样本文本的badcase特征信息作为训练样本,以对所述badcase对话样本文本的badcase标注结果为样本标签进行训练得到。
需要说明的是,对badcase对话样本文本的badcase标注结果可以包括:0和1,0表示不为badcase,1表示为badcase。
在训练得到badcase筛选模型时所采用的机器学习模型可以为:XGboost,LR等。
步骤S404、将所述待识别人机对话数据和所述对话特征信息输入至所述badcase筛选模型,获得所述待识别人机对话数据为badcase的概率分值;
其中,待识别人机对话数据为badcase的概率分值表示:预测待识别人机对话数据为badcase出现的概率。
步骤S405、判断所述概率分值是否小于预设阈值,如果是,则执行步骤S406,如果否,则执行步骤S407;
其中,所述预设阈值为预设的badcase出现的概率,
步骤S406、确定所述待识别人机对话数据为badcase;
步骤S407、确定所述待识别人机对话数据不为badcase。
综上可知,本发明公开的识别人机对话中坏例的方法,从获取的待识别人机对话数据中提取对话特征信息,调用badcase筛选模型,将待识别人机对话数据和对话特征信息输入badcase筛选模型,获得待识别人机对话数据为badcase的概率分值,当该概率分值小于预设阈值时,确定待识别人机对话数据为badcase,反之,该概率分值不小于预设阈值时,确定待识别人机对话数据不为badcase。因此,当识别结果为待识别人机对话数据为badcase时,就可以基于badcase的具体问题进行针对性的优化,从而保证人机交互的顺利进行,更好的满足用户的需求。
另外,相对于通过人工抽查来查找badcase而言,本发明实现了从人机对话数据中自动查找badcase,不仅大大提高了badcase的查找效率,节省了时间和人力成本,而且,由于badcase筛选规则已经预先设定了对badcase的判断标准,因此,提高了查找badcase的准确度。
需要特别说明的是,上述图2、图3和图4所示的实施例为两种不同的对badcase的筛选方法,在实际应用中,可以根据需要选择。
当确定待识别人机对话数据为badcase,就可以根据badcase的具体问题进行针对性优化。比如,无法识别用户意图,则在数据库中增加或者清洗数据库中的样本数据;已存储的话术无法解决用户的问题,则后续对话术进行优化处理;如果缺少话术,则在后续增加话术、意图及样本等等。
在实际应用中,还可以在确定待识别人机对话数据为badcase时,将所述待识别人机对话数据添加至历史标注badcase对话样本集中,实现对历史标注badcase对话样本集的优化。由此可以看出,本发明中的badcase对话样本集是不断更新和变化的,因此根据badcase对话样本集得到的badcase特征信息也是不断变化的,进而所确定的badcase筛选规则也是不断变化的。这样基于badcase筛选规则得到的badcase筛选结果会更加准确。
与上述方法实施例相对应,本发明还公开了一种识别人机对话中坏例的装置。
参见图5,本发明一实施例公开的一种识别人机对话中坏例的装置的结构示意图,该装置包括:
获取单元501,用于获取待识别人机对话数据;
提取单元502,用于从所述待识别人机对话数据中,提取出对话特征信息;
识别单元503,用于基于所述对话特征信息以及预先建立的坏例badcase筛选规则,获得所述待识别人机对话数据是否是badcase的识别结果,其中,所述badcase筛选规则基于历史标注badcase通话样本集确定。
其中,badcase筛选规则基于历史标注badcase通话样本集确定。
本实施例预先建立了badcase筛选规则,通过判断对话特征信息是否满足badcase筛选规则,来确定待识别人机对话数据是否为badcase。具体的,当对话特征信息满足badcase筛选规则时,确定待识别人机对话数据为badcase,反之,当对话特征信息不满足badcase筛选规则时,确定待识别人机对话数据不为badcase。
综上可知,本发明公开的识别人机对话中坏例的装置,从获取的待识别人机对话数据中提取对话特征信息,并基于对话特征信息以及预先建立的badcase筛选规则,来获得待识别人机对话数据是否是badcase的识别结果。因此,当识别结果为待识别人机对话数据为badcase时,就可以基于badcase的具体问题进行针对性的优化,从而保证人机交互的顺利进行,更好的满足用户的需求。
另外,相对于通过人工抽查来查找badcase而言,本发明实现了从人机对话数据中自动查找badcase,不仅大大提高了badcase的查找效率,节省了时间和人力成本,而且,由于badcase筛选规则已经预先设定了对badcase的判断标准,因此,提高了查找badcase的准确度。
上述实施例中,对话特征信息包括:用于表征对话数据量的特征和/或用于表征对话内容的特征;
其中,所述用于表征对话数据量的特征包括:对话总时长、单条对话时长和单条对话字数中的任意一个或多个的组合;
所述用于表征对话内容的特征包括:关键词。
需要说明的是,用于表征对话数据量的特征主要指:表征对话表象的特征,对话表象指的是一些客观信息,其不是根据人为的一些经验设定的内容,执行起来简单、快捷和准确。例如,对话总时长是客观存在的,其不是根据人为的一些经验设定的。
用于表征对话内容的特征主要指:表征对话实质的特征,对话实质是根据人为的一些经验设定的内容,其能够分析意图的内容,更贴近对话实质,因此更加准确,但是会相对复杂。例如,关键词可以包括:用于表征被打断的关键词,例如,暂停,其中,暂停是根据认为经验设定的表征对话实质的特征。
综上可以看出,用于表征对话数据量的特征以及用于表征对话内容的特征之间是有较大差异的,可以根据不同的应用场景来选取两者中一个或全部来建立规则。
参见图6,本发明一实施例公开的一种识别单元的结构示意图,识别单元可以包括:
第一获取子单元601,用于获取预先依据用于表征对话内容特征建立的所述badcase筛选规则,所述badcase筛选规则包括:关键词及该关键词至少出现的次数,所述关键词为所述从历史标注badcase通话样本集中出现的统计值超过预设统计值的词;
具体的,在获取到历史标注badcase对话样本集后,提取历史标注badcase对话样本集中各个badcase对话样本文本中表征badcase特征信息的关键词,针对提取到的各个关键词,查找统计值超过预设统计值的关键词,即从历史标注badcase对话样本集中查找高频出现的表征badcase特征信息的关键词。比如,80%的badcase都出现了打断情况,则控制机器执行打断操作的关键词即可作为高频出现的表征badcase特征信息的关键词。又比如,70%出现了脏话的对话都是badcase,则“脏话”即可作为高频出现的表征badcase特征信息的关键词。
在提取到高频出现的表征badcase特征信息的关键词后,就可以基于高频出现的关键词建立的badcase筛选规则,badcase筛选规则包括:关键词及该关键词至少出现的次数,比如,“脏话”至少出现次数为两次;同一个意图全局出现次数至少四次及意图连续出现至少三次;多次出现系统识别意图全局出现至少两次且不是连续出现;全局“需要复述”意图连续出现的次数至少两次;打断次数至少三次,等等。需要说明的是,此处列出的每一条规则均可作为一条badcase筛选规则,各个badcase筛选规则是相互独立的,在实际应用中,各个badcase筛选规则可以同时存在。
第一判断子单元602,用于判断所述对话特征信息中包含的关键词及所述关键词出现的次数,是否符合所述预先建立的至少一条badcase筛选规则中的至少一条规则;
具体的,在从待识别人机对话数据中提取出对话特征信息后,则进一步从对话特征信息中提取关键词以及该关键词出现的次数,通过将关键词及该关键词出现的次数与预先建立的各条badcase筛选规则进行匹配,来确定其是否符合至少一条badcase筛选规则中的至少一条规则,以便确定待识别人机对话数据是否为badcase的识别结果。
第一确定子单元603,用于在所述第一判断子单元602判断为是的情况下,确定所述待识别人机对话数据为badcase;
第二确定子单元604,用于在所述第一判断子单元602判断为否的情况下,确定所述待识别人机对话数据不为badcase。
综上可知,本发明通过判断对话特征信息中包含的关键词及该关键词出现的次数,是否符合预先建立的至少一条badcase筛选规则中的至少一条规则,来确定待识别人机对话数据是否是badcase的识别结果。因此,当识别结果为待识别人机对话数据为badcase时,就可以基于badcase的具体问题进行针对性的优化,从而保证人机交互的顺利进行,更好的满足用户的需求。
另外,相对于通过人工抽查来查找badcase而言,本发明实现了从人机对话数据中自动查找badcase,不仅大大提高了badcase的查找效率,节省了时间和人力成本,而且,由于badcase筛选规则已经预先设定了对badcase的判断标准,因此,提高了查找badcase的准确度。
为进一步优化上述实施例,参见图7,本发明一实施例公开的一种识别单元的结构示意图,识别单元可以包括:
第二获取子单元701,用于获取预先依据用于表征对话数据量的特征建立的所述badcase筛选规则,所述badcase筛选规则包括:对话总时长、单条对话时长和单条对话字数中的任意一个或多个的组合;
第二判断子单元702,用于判断所述对话特征信息的用于表征对话数据量的特征,是否符合所述对话总时长、所述单条对话时长和所述单条对话字数中的任意一个或多个的组合;
第三确定子单元703,用于在所述第二判断子单元702判断为是的情况下,确定所述待识别人机对话数据为badcase;
第四确定子单元704,用于在所述第二判断子单元702判断为否的情况下,确定所述待识别人机对话数据不为badcase。
综上可知,本发明通过判断对话特征信息的用于表征对话数据量的特征,是否符合所述badcase筛选规则中的对话总时长、所述单条对话时长和所述单条对话字数中的任意一个或多个的组合,来确定待识别人机对话数据是否是badcase的识别结果。因此,当识别结果为待识别人机对话数据为badcase时,就可以基于badcase的具体问题进行针对性的优化,从而保证人机交互的顺利进行,更好的满足用户的需求。
另外,相对于通过人工抽查来查找badcase而言,本发明实现了从人机对话数据中自动查找badcase,不仅大大提高了badcase的查找效率,节省了时间和人力成本,而且,由于badcase筛选规则已经预先设定了对badcase的判断标准,因此,提高了查找badcase的准确度。
为进一步优化上述实施例,参见图8,本发明一实施例公开的一种识别单元的结构示意图,识别单元可以包括:
调用子单元801,用于调用badcase筛选模型,所述badcase筛选模型为:以在建立所述badcase筛选规则所使用的所述历史标注badcase对话样本集,以及所述历史标注badcase对话样本集中各个badcase对话样本文本的badcase特征信息作为训练样本,以对所述badcase对话样本文本的badcase标注结果为样本标签进行训练得到;
输入子单元802,用于将所述待识别人机对话数据和所述对话特征信息输入至所述badcase筛选模型,获得所述待识别人机对话数据为badcase的概率分值;
第三判断子单元803,用于判断所述概率分值是否小于预设阈值,所述预设阈值为预设的badcase出现的概率;
第五确定子单元804,用于在所述第三判断子单元803判断为是的情况下,确定所述待识别人机对话数据为badcase;
第六确定子单元805,用于在所述第三判断子单元803判断为否的情况下,确定所述待识别人机对话数据不为badcase。
综上可知,本发明在从获取的待识别人机对话数据中提取对话特征信息后,调用badcase筛选模型,将待识别人机对话数据和对话特征信息输入badcase筛选模型,获得待识别人机对话数据为badcase的概率分值,当该概率分值小于预设阈值时,确定待识别人机对话数据为badcase,反之,该概率分值不小于预设阈值时,确定待识别人机对话数据不为badcase。因此,当识别结果为待识别人机对话数据为badcase时,就可以基于badcase的具体问题进行针对性的优化,从而保证人机交互的顺利进行,更好的满足用户的需求。
另外,相对于通过人工抽查来查找badcase而言,本发明实现了从人机对话数据中自动查找badcase,不仅大大提高了badcase的查找效率,节省了时间和人力成本,而且,由于badcase筛选规则已经预先设定了对badcase的判断标准,因此,提高了查找badcase的准确度。
当确定待识别人机对话数据为badcase,就可以根据badcase的具体问题进行针对性优化。比如,无法识别用户意图,则在数据库中增加或者清洗数据库中的样本数据;已存储的话术无法解决用户的问题,则后续对话术进行优化处理;如果缺少话术,则在后续增加话术、意图及样本等等。
因此,上述识别人机对话中坏例的装置还可以包括:
添加单元,用于当所述待识别人机对话数据为badcase时,将所述待识别人机对话数据添加至所述历史标注badcase对话样本集中。
由此可以看出,本发明中的badcase对话样本集是不断更新和变化的,因此根据badcase对话样本集得到的badcase特征信息也是不断变化的,进而所确定的badcase筛选规则也是不断变化的。这样基于badcase筛选规则得到的badcase筛选结果会更加准确。
需要说明的是,装置实施例中,各组成部分的具体工作原理,请参见方法实施例对应部分,此处不再赘述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。