CN112765331A - 对话知识模板构建方法、装置、计算机设备及存储介质 - Google Patents

对话知识模板构建方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112765331A
CN112765331A CN202011640823.2A CN202011640823A CN112765331A CN 112765331 A CN112765331 A CN 112765331A CN 202011640823 A CN202011640823 A CN 202011640823A CN 112765331 A CN112765331 A CN 112765331A
Authority
CN
China
Prior art keywords
scene
industry
clustering
dialogue
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011640823.2A
Other languages
English (en)
Other versions
CN112765331B (zh
Inventor
高鹏
康维鹏
吴飞
潘晶
袁兰
高峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Mjoys Big Data Technology Co ltd
Original Assignee
Hangzhou Mjoys Big Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Mjoys Big Data Technology Co ltd filed Critical Hangzhou Mjoys Big Data Technology Co ltd
Priority to CN202011640823.2A priority Critical patent/CN112765331B/zh
Publication of CN112765331A publication Critical patent/CN112765331A/zh
Application granted granted Critical
Publication of CN112765331B publication Critical patent/CN112765331B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics

Abstract

本发明涉及对话知识模板构建方法、装置、计算机设备及存储介质,该方法包括获取限定行业的场景对话语料;对场景对话语料进行聚类,以得到聚类结果;对聚类结果进行挖掘和构建意图,以得到通用意图;构建行业词类、行业意图、场景词类以及场景意图,以得到行业信息以及场景信息;根据通用意图、行业信息以及场景信息构建场景对话模板主流程,以得到场景通用化模板;根据所接入的业务方对场景通用化模板进行个性化迁移,以得到限定行业场景的对话知识模板;反馈限定行业场景的对话知识模板至终端,以在终端显示。本发明极大地减少知识库构建的重复劳作,提升了知识的复用能力,并也提高了业务对接支撑能力。

Description

对话知识模板构建方法、装置、计算机设备及存储介质
技术领域
本发明涉及机器人对话处理方法,更具体地说是指对话知识模板构建方法、装置、计算机设备及存储介质。
背景技术
随着智能语音对话技术发展,智能语音对话技术被越来越多的企业、机构、政府部门以人工客服、智能外呼形式运用到各业务场景中,既将人力从简单重复劳动中解放出来,为企业实现了降本增效,也提高企业不间断持续化服务能力。
智能语音对话技术与大数据分析,机器学习和自然语言处理技术一同接连取得飞跃性的发展,基于用户的对话内容分析推断出正确的答案并预测下一个问题以提供对话服务,进而,最近除了简单的对话服务之外,还扩展到处理诸如购物及支付等多种工作的用途。
但各机构、部门由于自身业务的差异性,要快速构建起满足业务场景需求并提供个性化的智能对话技能,是智能对话系统在知识库上不得不面临的一大难题。换句话来说,就是该如何构建自己的知识库,使得用户在面临各具体业务化场景需求时,能够在运营资源最小的情况下达到高质量的智能交互服务。也就是说目前的技术只能是依据不同的机构和部门等各自的特征构建对应的模板,仅适用于对应的部门或机构所涉及的业务,若需要转移至其他业务,则需要知识库构建的重复劳作,对话知识的复用能力较弱。
因此,有必要设计一种新的方法,实现可减少知识库构建的重复劳作,提升了知识的复用能力。
发明内容
本发明的目的在于克服现有技术的缺陷,提供对话知识模板构建方法、装置、计算机设备及存储介质。
为实现上述目的,本发明采用以下技术方案:对话知识模板构建方法,包括:
获取限定行业的场景对话语料;
对所述场景对话语料进行聚类,以得到聚类结果;
对所述聚类结果进行挖掘和构建意图,以得到通用意图;
构建行业词类、行业意图、场景词类以及场景意图,以得到行业信息以及场景信息;
根据通用意图、行业信息以及场景信息构建场景对话模板主流程,以得到场景通用化模板;
根据所接入的业务方对场景通用化模板进行个性化迁移,以得到限定行业场景的对话知识模板;
反馈限定行业场景的对话知识模板至终端,以在终端显示。
其进一步技术方案为:所述对所述场景对话语料进行聚类,以得到聚类结果,包括:
对所述场景对话语料进行不同类型的问句聚类,以确定出各个类型的问句出现的频次以及各个聚类在各细分场景问句中的分布情况,以得到聚类结果。
其进一步技术方案为:所述对所述聚类结果进行挖掘和构建意图,以得到通用意图,包括:
对聚类结果进行相似度聚类,以得到各个聚类的问句数;
筛选出问句数小于阈值的聚类;
对筛选所得的聚类进行场景行业来源进行溯源分析和统计,以得到聚类与行业的关联关系;
采用卡方检测方式计算每个聚类与不同行业的相关度,并选择相关度小于设定相关度阈值的聚类,以得到通用意图。
其进一步技术方案为:所述对聚类结果进行相似度聚类,以得到各个聚类的问句数,包括:
采用文本余弦相似度算法对聚类结果进行相似度聚类,以得到各个聚类的问句数。
其进一步技术方案为:所述对筛选所得的聚类进行场景行业来源进行溯源分析和统计,以得到聚类与行业的关联关系,包括:
采用互信息的特征聚类选择算法对筛选所得的聚类进行场景行业来源进行溯源分析和统计,以得到聚类与行业的关联关系。
本发明还提供了对话知识模板构建装置,包括:
语料获取单元,用于获取限定行业的场景对话语料;
聚类单元,用于对所述场景对话语料进行聚类,以得到聚类结果;
通用意图获取单元,用于对所述聚类结果进行挖掘和构建意图,以得到通用意图;
信息构建单元,用于构建行业词类、行业意图、场景词类以及场景意图,以得到行业信息以及场景信息;
通用模板构建单元,用于根据通用意图、行业信息以及场景信息构建场景对话模板主流程,以得到场景通用化模板;
迁移单元,用于根据所接入的业务方对场景通用化模板进行个性化迁移,以得到限定行业场景的对话知识模板;
反馈单元,用于反馈限定行业场景的对话知识模板至终端,以在终端显示。
其进一步技术方案为:所述聚类单元用于对所述场景对话语料进行不同类型的问句聚类,以确定出各个类型的问句出现的频次以及各个聚类在各细分场景问句中的分布情况,以得到聚类结果。
其进一步技术方案为:所述通用意图获取单元包括:
相似度聚类子单元,用于对聚类结果进行相似度聚类,以得到各个聚类的问句数;
筛选子单元,用于筛选出问句数小于阈值的聚类;
统计子单元,用于对筛选所得的聚类进行场景行业来源进行溯源分析和统计,以得到聚类与行业的关联关系;
相关度计算子单元,用于采用卡方检测方式计算每个聚类与不同行业的相关度,并选择相关度小于设定相关度阈值的聚类,以得到通用意图。
本发明还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
本发明还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述的方法。
本发明与现有技术相比的有益效果是:本发明通过从限定行业的场景对话语料中采用层次聚类的方式进行处理后,并采用统计和挖掘的方式进行通用化意图的处理,再结合聚类和挖掘的方式进行行业词类、行业意图、场景词类以及场景意图的构建,并搭建主流程,由此确定场景通用化模板,在进行具体业务化对接时,只需要少许个性化迁移工作,极大地减少知识库构建的重复劳作,提升了知识的复用能力,并也提高了业务对接支撑能力。
下面结合附图和具体实施例对本发明作进一步描述。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的对话知识模板构建方法的应用场景示意图;
图2为本发明实施例提供的对话知识模板构建方法的流程示意图;
图3为本发明实施例提供的对话知识模板构建方法的子流程示意图;
图4为本发明实施例提供的对话知识模板构建装置的示意性框图;
图5为本发明实施例提供的对话知识模板构建装置的述通用意图获取单元的示意性框图;
图6为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的对话知识模板构建方法的应用场景示意图。图2为本发明实施例提供的对话知识模板构建方法的示意性流程图。该对话知识模板构建方法应用于服务器中。该服务器与终端进行数据交互,该终端由不同部门以及机构持有,服务器进行通用化的对话知识模板的构建,当接入至不同的终端时,根据不同的业务方的特征进行个性化的迁移,无需重复构建对话知识模板。
在具体限定细分业务场景内,用户所询问的问题范围与交互流程逻辑是较明确限定的,可根据问题在对话中的作用及跟行业场景的相关度,分为通用意图、行业意图、场景意图,进行层次化的知识构建,以场景模板的形式将对话知识沉淀下来。在进行具体业务化对接时,由于各具体业务方个性化因素,我们只需要进行简单的个性化迁移。但前者,即场景问题解析话题的整理与交互主流程的设计,是智能对话机器人的重点和难点工作。因此,限定细分场景构建层次知识对话模板就具有很大可行性和实际价值。例如,寄存快递细场景下,一般需要询问的事情是寄往的物品是什么、需要寄往哪里、什么时候揽件方便、怎么收费等、几天能够达到、要不要包价,以及短信息提示要求等等。又如,信用卡推广业务,用户一般会针对询问信用额度、最低还款比例、信用卡利率、信用卡逾期对个人征信影响、购物优惠活动等问题,也会说办卡太麻烦拒绝等等。从上面两个例子看,虽然每家快递公司或每家银行各自政策不一样,收费标准、送达时间、利率等都不一样,即面对用户相同提问的回答内容不一样,但是他们的对话引导流程,涉及的问题内容方面大相径庭。
图2是本发明实施例提供的对话知识模板构建方法的流程示意图。如图2所示,该方法包括以下步骤S110至S170。
S110、获取限定行业的场景对话语料。
在本实施例中,对话语料是指不同的限定行业场景中用户主要会询问的问题等内容。
获取对话语料主要目的是为了分析该细分限定领,用户主要会询问哪些问题。问题语料主要来源于线上生产环境的对话日志数据,内容的产生源可以是电话机器人或真人对话语料,要求其尽可能的包含多个细分场景的对话问答。此外,为了扩大语料问题覆盖范围,可抓取百度知道、贴吧等社区型问答系统,以收集用户问答语料,当然,还可以是人为导入对话语料。
S120、对所述场景对话语料进行聚类,以得到聚类结果。
在本实施例中,聚类结果是指各个类型的问句出现的频次,以及各个聚类在各细分场景问句中的分布情况。
具体地,对所述场景对话语料进行不同类型的问句聚类,以确定出各个类型的问句出现的频次以及各个聚类在各细分场景问句中的分布情况,以得到聚类结果。
另外,在本实施例中,采用基于词频文档频率的TFIDF(词频-逆文档频率,termfrequency–inverse document frequency)作为词语的权重,以cosine相似度进行计算。
S130、对所述聚类结果进行挖掘和构建意图,以得到通用意图。
在本实例中,通用意图是指与行业和场景无关或者关联度低的意图。
在智能机器人交互过程中,需明确哪些是跟行业领域无关的通用意图,哪些是领域相关的行业意图。哪些跟领域无关的话术意图会被用户说到,比如:询问来电者的身份,例如“你是谁”、“你找我什么事”、“是机器人吗”;对用户自己信息的提供,例如:“我没有空”、“我在忙”、“我是他朋友”;对通话信息的接受确认,例如:“你继续”、“你说大声点”、“没有听清”;对交流时间/方式的要求,例如:“你先发个信息来看看”、“你晚点打过来”;谩骂/脏话等。
在一实施例中,请参阅图3,上述的步骤S130可包括步骤S131~S134。
S131、对聚类结果进行相似度聚类,以得到各个聚类的问句数。
在本实施例中,首先需要先对不同类型的问题进行相似度的计算和统计,以此确定不同类型的问句的数量。
具体地,采用文本余弦相似度算法对聚类结果进行相似度聚类,以得到各个聚类的问句数。
S132、筛选出问句数小于阈值的聚类。
对于一些问句数小于设定的阈值的问题,通用化的意图一般的问句数一般会小于设定的阈值。
S133、对筛选所得的聚类进行场景行业来源进行溯源分析和统计,以得到聚类与行业的关联关系。
在本实施例中,采用互信息的特征聚类选择算法对筛选所得的聚类进行场景行业来源进行溯源分析和统计,以得到聚类与行业的关联关系。
S134、采用卡方检测方式计算每个聚类与不同行业的相关度,并选择相关度小于设定相关度阈值的聚类,以得到通用意图。
在本实施例中,主要利用人工整理的方式进行,并采用统计挖掘的方式进行问句上的补充。统计挖掘的方法,主要基于这样的分布假设:领域无关的通用问题会在大部分领域场景对话中出现,并且他们的出现频率会跟具体场景无关,即条件独立。因此,首先对收集到的问句集进行相似度聚类,将相同意思的问句聚类到一起,聚类算法主要采用文本cosine相似度。采用规则将聚类问句数小于阈值的进行过滤,并对每个聚类按场景行业来源进行溯源分析统计,聚类问句C={c1,c2,...,ck},行业类别随机变量T={t1,t2,...,tm},便可依据这两个集合确定两者的关联关系;采用卡方检测方式计算每个聚类ck与行业t的相关度独立性检测,将行业无关的聚类作为通用意图。
每个聚类ck与行业t的相关度对应的卡方值为:
Figure BDA0002880814150000081
其中,A为含聚类ck属于行业t的关联度;B为含聚类ck不属于行业t的关联度;C为非聚类ck属于行业t的关联度;D为非聚类ck不属于行业t的关联度;N为总数。
而聚类ck的整体行业独立性度量为
Figure BDA0002880814150000082
其中,T表示整个行业的集合,χ(ci,T)表示某个聚类ci对于整个行业集合T的权值平均关联度。每个行业tk的概率值P(t),用问句量规模占整个行业问句量规模比例进行计算。χ(ci,T)如上表示聚类ck与行业Ti的相关度对应的卡方值。
聚类ck大体有如下类别:com.是推销吗;com.是机器人吗;com.是正规的吗;com.为什么不是官方电话;com.之后再联系我;com.你是谁;com.什么业务;com.找我什么事;com.你加我微信吧;com.你发个短信给我;com.信号不好;com.叫什么名字;com.我们是同行;com.我现在忙;com.太麻烦;com.客服热线;com.怎么知道号码;com.我会去网点;com.我是老人/小孩;com.我有个问题;com.我没钱;com.打很多次了;com.打电话时间不对;com.打错了;com.换人沟通;com.有什么用;com.有没有在听/答非所问;com.直接跟我说;com.你继续说;com.考虑一下;com.能听得到吗;com.闲聊;com.骂人/投诉;com.中性-不太了解;com.中性-继续;com.否定;com.肯定;com.重复。
采用了互信息的特征聚类选择算法,即计算聚类问句C={c1,c2,...,ck}与行业类别随机变量T={t1,t2,...,tm}之间的关系。互信息是衡量不考虑特征分布的两个特征之间的一般依赖性,互信息越大,这两个随机变量的联系越紧密,当互信息趋近于零时,这两者之间相互独立。
熵的计算公式:
Figure BDA0002880814150000091
互信息的计算公式:
Figure BDA0002880814150000092
利用问句聚类与行业类别的关联度来进行行业通用意图的构建。
其中,H(X)表示某随机变量X的墒,具体表示了X每个可能取值Xi及其概率P(Xi)分布的某种不确定性(混乱)程度。对于多变量联合分布p(x,y),有H(X,Y)=Ex Ey p(x,y)log(p(x,y)),表示了变量X,Y组成的分布系统的某种不确定性度量,p(x,y)表示变量x,y的联合分布概率。在多变量联合分布系统中,p(x)、p(y)分别表示了变量x,y的边缘分布,即不考虑其他变量分布情况,只对自己的分布值进行分布统计。I(X:Y)表示在随机变量X在随机变量Y的前提下或者有量Y带来的对于X不确定性减少的度量,I(X:Y)=H(X)-H(X|Y)=H(X)+H(Y)-H(X,Y)。互信息是非负的,其值越大,说明相关性越强,越小说明越是条件独立的。互信息原理跟卡方检测相近。
举个例子,对于聚类“你们的还款利息是多少”由于与“银行”业关联性很大,而跟“快递业”关联性很小,因此但用户说这句话时,我们就可以确定是银行业务了。而用户说“声音大一点”,就很难断定是那个行业的,因此其基本与行业是条件独立的。在“银行”业中,聚类“你是哪个银行的”就很难区分出具体是银行的细分场景,而“这个信用卡的额度有点低啊,怎么调高”不止能确定是银行的,还能确定是“信用卡”这个场景的。
S140、构建行业词类、行业意图、场景词类以及场景意图,以得到行业信息以及场景信息。
在本实施例中,行业信息是指行业词类以及行业相关的意图;场景信息是指场景词类和场景相关的意图。
行业意图是跟行业紧密相关,不同行业间存在分布存在较大差异的问题。例如,在银行行业中,用于询问“利息说多少?”、“你是哪个银行的?”、“是不是可以到银行网点办理”等;而在酒店行业中,用户询问酒店床位、停车服务、早餐服务、距离一些景点位置信息的问题会偏多。
计算在相同行业内,不同业务场景之间的询问问句差异性。即计算那些跟业务场景是密切相关的问句列表。例如,在银行行业,可以分为“信用卡”、“车主卡”、“大额存贷”等具体业务场景,不同业务场景其询问的话题点事不尽相同的。例如,在信用卡业务中,用户较长询问“信用额度”、“逾期收费标准”等问题;而“大额存贷”中,用户比较关系“年化利率”、“是否保本”等问题。
在本实施例中,可参阅对通用化意图的构建方式构建行业词类、行业意图、场景词类以及场景意图,此处不再赘述,另外,词类的构建时采用基于词频文档频率的TFIDF(词频-逆文档频率,term frequency–inverse document frequency)作为词语的权重,由此形成各个行业的词类以及各个场景的词类。
S150、根据通用意图、行业信息以及场景信息构建场景对话模板主流程,以得到场景通用化模板。
在本实施例中,场景通用化模板是指各个行业各个场景均可以实用的对话知识模板。按语义解析层次来构建场景对话模板,形成了自底向上三个层次通用-行业-场景,构建场景对话模板,且采用算法统计+人工运营相结合,进行灵活构建场景对话模板。
对于用户问题,按照跟行业、业务的关联紧密程度及在对话中的分布进行归类总结,是为了丰富智能对话系统中的FAQ(常见问题解答,Frequently Asked Questions)知识库,而业务场景对话主流程,是为了构建在具体业务中与用户的引导流程方法及话术策略说辞等。例如,信用卡外呼开卡营销,一般是先开场白自我身份介绍,然后再简洁介绍信用卡情况,并继续询问是否有开卡意愿等,并进行一些必要等打断拉回策略或提前结束对话等,构建业务场景主流程模板等目标是提前就某一业务知识进行归纳总结,以方便后面快速业务化实施。
对于场景对话模板主流程而言,整个流程如下:开场白、活动介绍、解释产品、第一种挽回方式、第二种挽回方式、第三中挽回方式、成功结束、失败结束这几大流程,置于不同挽回方式的执行,则根据用户的回应来进行执行,包括肯定回应、否定回应以及中性不太了解回应等三种方式的结合。
S160、根据所接入的业务方对场景通用化模板进行个性化迁移,以得到限定行业场景的对话知识模板。
在本实施例中,限定行业场景的对话知识模板是指特定行业的特定场景下的对话知识模板,也就是将场景通用化模板的具体应用。
当接入一个新的业务方时,只需要在在基于相关模板进行个性化改造,增加一些个性化的问题及答案。如此以来,就能快速构建起一个既满足场景业务化需求,也能够提供个性化问答的对话系统,并能极大地减少我们知识库构建的重复劳作提高业务对接支撑能力,并进一步真正沉淀起对话知识。快速构建起限定业务场景的对话知识模板,将对话知识以场景模板的形式沉淀下来。在进行具体业务化对接时,只需要少许个性化迁移工作,如此以来极大地减少知识库构建的重复劳作,提升了知识的复用能力,并也提高了业务对接支撑能力。
S170、反馈限定行业场景的对话知识模板至终端,以在终端显示。
本实施例基于统计的层次聚类及挖掘方法,并与人工审核构建相结合的方式,进行场景对话知识模板化。在面相具体业务化需求时,只需在公共场景模板基础上进行少许业务化改造工作。
上述的对话知识模板构建方法,通过从限定行业的场景对话语料中采用层次聚类的方式进行处理后,并采用统计和挖掘的方式进行通用化意图的处理,再结合聚类和挖掘的方式进行行业词类、行业意图、场景词类以及场景意图的构建,并搭建主流程,由此确定场景通用化模板,在进行具体业务化对接时,只需要少许个性化迁移工作,极大地减少知识库构建的重复劳作,提升了知识的复用能力,并也提高了业务对接支撑能力。
图4是本发明实施例提供的一种对话知识模板构建装置300的示意性框图。如图4所示,对应于以上对话知识模板构建方法,本发明还提供一种对话知识模板构建装置300。该对话知识模板构建装置300包括用于执行上述对话知识模板构建方法的单元,该装置可以被配置于服务器中。具体地,请参阅图4,该对话知识模板构建装置300包括语料获取单元301、聚类单元302、通用意图获取单元303、信息构建单元304、通用模板构建单元305、迁移单元306以及反馈单元307。
语料获取单元301,用于获取限定行业的场景对话语料;聚类单元302,用于对所述场景对话语料进行聚类,以得到聚类结果;通用意图获取单元303,用于对所述聚类结果进行挖掘和构建意图,以得到通用意图;信息构建单元304,用于构建行业词类、行业意图、场景词类以及场景意图,以得到行业信息以及场景信息;通用模板构建单元305,用于根据通用意图、行业信息以及场景信息构建场景对话模板主流程,以得到场景通用化模板;迁移单元306,用于根据所接入的业务方对场景通用化模板进行个性化迁移,以得到限定行业场景的对话知识模板;反馈单元307,用于反馈限定行业场景的对话知识模板至终端,以在终端显示。
在一实施例中,所述聚类单元302用于对所述场景对话语料进行不同类型的问句聚类,以确定出各个类型的问句出现的频次以及各个聚类在各细分场景问句中的分布情况,以得到聚类结果。
在一实施例中,如图5所示,所述通用意图获取单元303包括相似度聚类子单元3031、筛选子单元3032、统计子单元3033以及相关度计算子单元3034。
相似度聚类子单元3031,用于对聚类结果进行相似度聚类,以得到各个聚类的问句数;筛选子单元3032,用于筛选出问句数小于阈值的聚类;统计子单元3033,用于对筛选所得的聚类进行场景行业来源进行溯源分析和统计,以得到聚类与行业的关联关系;相关度计算子单元3034,用于采用卡方检测方式计算每个聚类与不同行业的相关度,并选择相关度小于设定相关度阈值的聚类,以得到通用意图。
在一实施例中,所述相似度聚类子单元3031,用于采用文本余弦相似度算法对聚类结果进行相似度聚类,以得到各个聚类的问句数。
在一实施例中,所述统计子单元3033,用于采用互信息的特征聚类选择算法对筛选所得的聚类进行场景行业来源进行溯源分析和统计,以得到聚类与行业的关联关系。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述对话知识模板构建装置300和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述对话知识模板构建装置300可以实现为一种计算机程序的形式,该计算机程序可以在如图6所示的计算机设备上运行。
请参阅图6,图6是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器,其中,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图6,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令,该程序指令被执行时,可使得处理器502执行一种对话知识模板构建方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种对话知识模板构建方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
获取限定行业的场景对话语料;对所述场景对话语料进行聚类,以得到聚类结果;对所述聚类结果进行挖掘和构建意图,以得到通用意图;构建行业词类、行业意图、场景词类以及场景意图,以得到行业信息以及场景信息;根据通用意图、行业信息以及场景信息构建场景对话模板主流程,以得到场景通用化模板;根据所接入的业务方对场景通用化模板进行个性化迁移,以得到限定行业场景的对话知识模板;
反馈限定行业场景的对话知识模板至终端,以在终端显示。
在一实施例中,处理器502在实现所述对所述场景对话语料进行聚类,以得到聚类结果步骤时,具体实现如下步骤:
对所述场景对话语料进行不同类型的问句聚类,以确定出各个类型的问句出现的频次以及各个聚类在各细分场景问句中的分布情况,以得到聚类结果。
在一实施例中,处理器502在实现所述对所述聚类结果进行挖掘和构建意图,以得到通用意图步骤时,具体实现如下步骤:
对聚类结果进行相似度聚类,以得到各个聚类的问句数;筛选出问句数小于阈值的聚类;对筛选所得的聚类进行场景行业来源进行溯源分析和统计,以得到聚类与行业的关联关系;采用卡方检测方式计算每个聚类与不同行业的相关度,并选择相关度小于设定相关度阈值的聚类,以得到通用意图。
在一实施例中,处理器502在实现所述对聚类结果进行相似度聚类,以得到各个聚类的问句数步骤时,具体实现如下步骤:
采用文本余弦相似度算法对聚类结果进行相似度聚类,以得到各个聚类的问句数。
在一实施例中,处理器502在实现所述对筛选所得的聚类进行场景行业来源进行溯源分析和统计,以得到聚类与行业的关联关系步骤时,具体实现如下步骤:
采用互信息的特征聚类选择算法对筛选所得的聚类进行场景行业来源进行溯源分析和统计,以得到聚类与行业的关联关系。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中该计算机程序被处理器执行时使处理器执行如下步骤:
获取限定行业的场景对话语料;对所述场景对话语料进行聚类,以得到聚类结果;对所述聚类结果进行挖掘和构建意图,以得到通用意图;构建行业词类、行业意图、场景词类以及场景意图,以得到行业信息以及场景信息;根据通用意图、行业信息以及场景信息构建场景对话模板主流程,以得到场景通用化模板;根据所接入的业务方对场景通用化模板进行个性化迁移,以得到限定行业场景的对话知识模板;反馈限定行业场景的对话知识模板至终端,以在终端显示。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对所述场景对话语料进行聚类,以得到聚类结果步骤时,具体实现如下步骤:
对所述场景对话语料进行不同类型的问句聚类,以确定出各个类型的问句出现的频次以及各个聚类在各细分场景问句中的分布情况,以得到聚类结果。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对所述聚类结果进行挖掘和构建意图,以得到通用意图步骤时,具体实现如下步骤:
对聚类结果进行相似度聚类,以得到各个聚类的问句数;筛选出问句数小于阈值的聚类;对筛选所得的聚类进行场景行业来源进行溯源分析和统计,以得到聚类与行业的关联关系;采用卡方检测方式计算每个聚类与不同行业的相关度,并选择相关度小于设定相关度阈值的聚类,以得到通用意图。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对聚类结果进行相似度聚类,以得到各个聚类的问句数步骤时,具体实现如下步骤:
采用文本余弦相似度算法对聚类结果进行相似度聚类,以得到各个聚类的问句数。
在一实施例中,所述处理器在执行所述计算机程序而实现所述对筛选所得的聚类进行场景行业来源进行溯源分析和统计,以得到聚类与行业的关联关系步骤时,具体实现如下步骤:
采用互信息的特征聚类选择算法对筛选所得的聚类进行场景行业来源进行溯源分析和统计,以得到聚类与行业的关联关系。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.对话知识模板构建方法,其特征在于,包括:
获取限定行业的场景对话语料;
对所述场景对话语料进行聚类,以得到聚类结果;
对所述聚类结果进行挖掘和构建意图,以得到通用意图;
构建行业词类、行业意图、场景词类以及场景意图,以得到行业信息以及场景信息;
根据通用意图、行业信息以及场景信息构建场景对话模板主流程,以得到场景通用化模板;
根据所接入的业务方对场景通用化模板进行个性化迁移,以得到限定行业场景的对话知识模板;
反馈限定行业场景的对话知识模板至终端,以在终端显示。
2.根据权利要求1所述的对话知识模板构建方法,其特征在于,所述对所述场景对话语料进行聚类,以得到聚类结果,包括:
对所述场景对话语料进行不同类型的问句聚类,以确定出各个类型的问句出现的频次以及各个聚类在各细分场景问句中的分布情况,以得到聚类结果。
3.根据权利要求1所述的对话知识模板构建方法,其特征在于,所述对所述聚类结果进行挖掘和构建意图,以得到通用意图,包括:
对聚类结果进行相似度聚类,以得到各个聚类的问句数;
筛选出问句数小于阈值的聚类;
对筛选所得的聚类进行场景行业来源进行溯源分析和统计,以得到聚类与行业的关联关系;
采用卡方检测方式计算每个聚类与不同行业的相关度,并选择相关度小于设定相关度阈值的聚类,以得到通用意图。
4.根据权利要求3所述的对话知识模板构建方法,其特征在于,所述对聚类结果进行相似度聚类,以得到各个聚类的问句数,包括:
采用文本余弦相似度算法对聚类结果进行相似度聚类,以得到各个聚类的问句数。
5.根据权利要求3所述的对话知识模板构建方法,其特征在于,所述对筛选所得的聚类进行场景行业来源进行溯源分析和统计,以得到聚类与行业的关联关系,包括:
采用互信息的特征聚类选择算法对筛选所得的聚类进行场景行业来源进行溯源分析和统计,以得到聚类与行业的关联关系。
6.对话知识模板构建装置,其特征在于,包括:
语料获取单元,用于获取限定行业的场景对话语料;
聚类单元,用于对所述场景对话语料进行聚类,以得到聚类结果;
通用意图获取单元,用于对所述聚类结果进行挖掘和构建意图,以得到通用意图;
信息构建单元,用于构建行业词类、行业意图、场景词类以及场景意图,以得到行业信息以及场景信息;
通用模板构建单元,用于根据通用意图、行业信息以及场景信息构建场景对话模板主流程,以得到场景通用化模板;
迁移单元,用于根据所接入的业务方对场景通用化模板进行个性化迁移,以得到限定行业场景的对话知识模板;
反馈单元,用于反馈限定行业场景的对话知识模板至终端,以在终端显示。
7.根据权利要求6所述的对话知识模板构建装置,其特征在于,所述聚类单元用于对所述场景对话语料进行不同类型的问句聚类,以确定出各个类型的问句出现的频次以及各个聚类在各细分场景问句中的分布情况,以得到聚类结果。
8.根据权利要求7所述的对话知识模板构建装置,其特征在于,所述通用意图获取单元包括:
相似度聚类子单元,用于对聚类结果进行相似度聚类,以得到各个聚类的问句数;
筛选子单元,用于筛选出问句数小于阈值的聚类;
统计子单元,用于对筛选所得的聚类进行场景行业来源进行溯源分析和统计,以得到聚类与行业的关联关系;
相关度计算子单元,用于采用卡方检测方式计算每个聚类与不同行业的相关度,并选择相关度小于设定相关度阈值的聚类,以得到通用意图。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现如权利要求1至5中任一项所述的方法。
CN202011640823.2A 2020-12-31 2020-12-31 对话知识模板构建方法、装置、计算机设备及存储介质 Active CN112765331B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011640823.2A CN112765331B (zh) 2020-12-31 2020-12-31 对话知识模板构建方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011640823.2A CN112765331B (zh) 2020-12-31 2020-12-31 对话知识模板构建方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN112765331A true CN112765331A (zh) 2021-05-07
CN112765331B CN112765331B (zh) 2022-11-18

Family

ID=75698479

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011640823.2A Active CN112765331B (zh) 2020-12-31 2020-12-31 对话知识模板构建方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN112765331B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427722A (zh) * 2018-02-09 2018-08-21 卫盈联信息技术(深圳)有限公司 智能交互方法、电子装置及存储介质
CN109493166A (zh) * 2018-10-23 2019-03-19 深圳智能思创科技有限公司 一种针对电子商务导购场景任务型对话系统的构建方法
CN110955764A (zh) * 2019-11-19 2020-04-03 百度在线网络技术(北京)有限公司 场景知识图谱的生成方法、人机对话方法以及相关设备
CN111078846A (zh) * 2019-11-25 2020-04-28 青牛智胜(深圳)科技有限公司 一种基于业务场景的多轮对话体系构建方法及系统
CN111611382A (zh) * 2020-05-22 2020-09-01 贝壳技术有限公司 话术模型训练方法、对话信息生成方法及装置、系统
CN111859984A (zh) * 2020-07-23 2020-10-30 中国平安人寿保险股份有限公司 意图挖掘方法、装置、设备及存储介质
CN112131358A (zh) * 2020-08-24 2020-12-25 维知科技张家口有限责任公司 场景流程结构及所应用的智能客服系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427722A (zh) * 2018-02-09 2018-08-21 卫盈联信息技术(深圳)有限公司 智能交互方法、电子装置及存储介质
CN109493166A (zh) * 2018-10-23 2019-03-19 深圳智能思创科技有限公司 一种针对电子商务导购场景任务型对话系统的构建方法
CN110955764A (zh) * 2019-11-19 2020-04-03 百度在线网络技术(北京)有限公司 场景知识图谱的生成方法、人机对话方法以及相关设备
CN111078846A (zh) * 2019-11-25 2020-04-28 青牛智胜(深圳)科技有限公司 一种基于业务场景的多轮对话体系构建方法及系统
CN111611382A (zh) * 2020-05-22 2020-09-01 贝壳技术有限公司 话术模型训练方法、对话信息生成方法及装置、系统
CN111859984A (zh) * 2020-07-23 2020-10-30 中国平安人寿保险股份有限公司 意图挖掘方法、装置、设备及存储介质
CN112131358A (zh) * 2020-08-24 2020-12-25 维知科技张家口有限责任公司 场景流程结构及所应用的智能客服系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李让: "面向智能互联网的自然对话系统研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Also Published As

Publication number Publication date
CN112765331B (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
US11018885B2 (en) Summarization system
CN110300986B (zh) 与智能个人助理的辅助通信
US9245254B2 (en) Enhanced voice conferencing with history, language translation and identification
US20160117624A1 (en) Intelligent meeting enhancement system
CN109033257A (zh) 话术推荐方法、装置、计算机设备和存储介质
US20160133274A1 (en) Predictive video analytics system and methods
WO2019006146A1 (en) PROACTIVE SUPPLY OF NEW CONTENT TO PARTICIPANTS IN A GROUP DISCUSSION
US20130144619A1 (en) Enhanced voice conferencing
CN107786757B (zh) 银行卡业务参数调整方法和装置
CN106133825A (zh) 自动语音识别系统中的广义短语
CN108156824A (zh) 联系中心虚拟助理
US20190385256A1 (en) Recording evidence of communication in human-machine interactions
US20200226216A1 (en) Context-sensitive summarization
CN110493019A (zh) 会议纪要的自动生成方法、装置、设备及存储介质
US20200250265A1 (en) Generating conversation descriptions using neural networks
CN112131358A (zh) 场景流程结构及所应用的智能客服系统
CN111464707A (zh) 外呼处理方法、装置及系统
CN112434501A (zh) 工单智能生成的方法、装置、电子设备及介质
US20210287680A1 (en) Cognitive Automation-Based Engine BOT for Processing Audio and Taking Actions in Response Thereto
Aattouri et al. Modeling of an artificial intelligence based enterprise callbot with natural language processing and machine learning algorithms
CN110059178A (zh) 问题派发方法及装置
US11025568B2 (en) Customized response messages
CN112765331B (zh) 对话知识模板构建方法、装置、计算机设备及存储介质
CN112597292A (zh) 问题回复推荐方法、装置、计算机设备和存储介质
US20220207066A1 (en) System and method for self-generated entity-specific bot

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Zhang Chi

Inventor after: Gao Peng

Inventor after: Kang Weipeng

Inventor after: Wu Fei

Inventor after: Pan Jing

Inventor after: Yuan Lan

Inventor after: Gao Feng

Inventor before: Gao Peng

Inventor before: Kang Weipeng

Inventor before: Wu Fei

Inventor before: Pan Jing

Inventor before: Yuan Lan

Inventor before: Gao Feng

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method, device, computer equipment, and storage medium for constructing dialogue knowledge templates

Granted publication date: 20221118

Pledgee: China Everbright Bank Limited by Share Ltd. Hangzhou Yuhang sub branch

Pledgor: HANGZHOU MJOYS BIG DATA TECHNOLOGY Co.,Ltd.

Registration number: Y2024980005009

PE01 Entry into force of the registration of the contract for pledge of patent right