CN106844344A - 用于对话的贡献度计算方法及主题抽取方法和系统 - Google Patents

用于对话的贡献度计算方法及主题抽取方法和系统 Download PDF

Info

Publication number
CN106844344A
CN106844344A CN201710065890.8A CN201710065890A CN106844344A CN 106844344 A CN106844344 A CN 106844344A CN 201710065890 A CN201710065890 A CN 201710065890A CN 106844344 A CN106844344 A CN 106844344A
Authority
CN
China
Prior art keywords
theme
label
dialogue
contribution degree
vec
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710065890.8A
Other languages
English (en)
Other versions
CN106844344B (zh
Inventor
李稀敏
王宇
肖龙源
蔡振华
刘晓葳
刘楚
朱敬华
谭玉坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Co Ltd
Original Assignee
Xiamen Kuaishangtong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Co Ltd filed Critical Xiamen Kuaishangtong Technology Co Ltd
Priority to CN201710065890.8A priority Critical patent/CN106844344B/zh
Publication of CN106844344A publication Critical patent/CN106844344A/zh
Application granted granted Critical
Publication of CN106844344B publication Critical patent/CN106844344B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种用于对话的贡献度计算方法及主题抽取方法和系统,其通过对单词的量化计算得到单句的向量,并通过对主题词的量化计算得到主题的向量,根据所述单句的向量和所述主题的向量进行计算所述单句与所述主题之间的相似度和概率值,然后根据该相似度和概率值来计算所述单句对所述主题的贡献度;不仅极大的提高了整个智能客服工作的效率,而且提高了计算结果的准确性,为后续使用时语句的抽取、筛选等操作提供了依据。

Description

用于对话的贡献度计算方法及主题抽取方法和系统
技术领域
本发明涉及通信技术领域,特别是一种用于对话的贡献度计算方法及主题抽取方法及其应用该方法的系统。
背景技术
随着互联网及电子商务的普及应用,智能客服也越来越多。智能客服是在大规模知识处理基础上发展起来的一项面向行业应用的,涉及大规模知识处理技术、自然语言理解技术、知识管理技术、自动问答系统、推理技术等等,具有行业通用性,不仅为企业提供了细粒度知识管理技术,还为企业与海量用户之间的沟通建立了一种基于自然语言的快捷有效的技术手段;同时还能够为企业提供精细化管理所需的统计分析信息,并可为企业节约大量人力资源和成本。
在智能客服整个技术的实现中,主要涉及对话语料预处理、模型构建、语义解析、强化学习等技术,因为中文的博大精深,同一个对话主题往往有多种表述方式,例如存在同义词、近义词、完整表达、简化表达、歧义等,这就使得对话语料库中每一个相同的主题,往往存在多种表达;即,一个对话主题不仅由一个问题和一个答案组成,而是可能由多个问题和多个答案组成。如何定位并准确抽取其中最为理想的问答语句,关系到对话的正确性与完整性,以及用户的体验度。
并且,智能客服主要应用到语料处理、模型构建、语义解析、机器学习等相关技术,而在这些技术中经常需要将文本进行量化操作。然而,由于智能客服或智能对话是基于自然语言进行处理的,传统的文本分析方法主要是从句法分析和语义分析着手,通过发现句子中词语之间的语法关系和词语的语义来计算其相似度,但是该类方法需要提前人工构建大量的语法训练库,工作量大,极大的影响了计算效率,降低客服的体验效果。
发明内容
本发明为解决上述问题,提供了一种用于对话的贡献度计算方法及主题抽取方法和系统,通过将自然文本语言进行量化计算,方便了后续使用时语句的抽取、筛选等操作,极大的提高了整个智能客服工作的效率。
本发明的目的之一在于,提供一种用于对话的句子贡献度计算方法,其包括以下步骤:
a1.利用word2vec模型得到对话的每个单句中的每个单词的向量,并对所述每个单词的向量进行均值计算得到单词向量均值,将该单词向量均值作为所述单句的向量Vec(serve);
b1.利用word2vec模型得到对话的每个主题中的每个主题词的向量,并对所述每个主题词的向量进行均值计算得到主题词向量均值,将该主题词向量均值作为所述主题的向量Vec(topic);
c1.根据所述单句的向量Vec(serve)和所述主题的向量Vec(topic)进行计算所述单句与所述主题的余弦值cosθ,并根据该余弦值cosθ得到所述单句与所述主题的相似度;
d1.利用LDA主题模型得到对话中的所述单句在所述主题上的概率值;
e1.将所述相似度与对应的概率值进行乘法计算,得到所述单句对所述主题的贡献度。
优选的,所述余弦值的计算方法为:
其中,所述cosθ表示所述单句与所述主题的余弦值,所述Vec(topic)表示所述主题的向量,所述Vec(topic)′表示所述主题的向量的导数,所述Vec(serve)表示所述单句的向量,所述Vec(serve)′表示所述单句的向量的导数。
本发明的目的之二在于,提供一种用于对话的主题贡献度计算方法,其包括以下步骤:
a2.利用word2vec模型得到对话的每个主题中的每个主题词的向量,并对所述每个主题词的向量进行均值计算得到主题词向量均值,将该主题词向量均值作为所述主题的向量Vec(topic);
b2.利用word2vec模型得到对话的每个对话标签的向量Vec(tag);
c2.根据所述主题的向量Vec(topic)和所述对话标签的向量Vec(tag)进行计算所述主题与所述对话标签的余弦值cosθ,并根据该余弦值cosθ得到所述主题与所述对话标签的相似度;
d2.利用LDA主题模型得到对话中的所述主题在所述对话标签上的概率值;
e2.将所述相似度与对应的概率值进行乘法计算,得到所述主题对所述对话标签的贡献度。
优选的,所述余弦值的计算方法为:
其中,所述cosθ表示所述主题与所述对话标签的余弦值,所述Vec(topic)表示所述主题的向量,所述Vec(topic)′表示所述主题的向量的导数,所述Vec(tag)表示所述对话标签的向量,所述Vec(tag)′表示所述对话标签的向量的导数。
本发明的目的之三在于,提供一种用于对话的主题抽取方法,其包括以下步骤:
10)通过提取访客与客服的对话记录,对所述对话记录设置对话标签;
20)根据上述的主题贡献度计算方法进行统计所述对话记录中的每个主题对所述对话标签的贡献度;
30)根据所述贡献度对语料库中每个对话标签下的每个主题进行排序,并抽取贡献度较大的主题,将该主题中的问题作为推荐问题,并将该主题中对应的答案作为推荐答案;
40)根据访客提出的问题自动提取当前的问题标签,并将该当前的问题标签与语料库中的对话标签进行匹配,向访客提供该对话标签下贡献度较大的主题中的推荐问题所对应的推荐答案。
优选的,所述的步骤10)之前,还预先进行构建标签模型,其根据语料库中的语料的对话主题对所有语料进行分类,对不同类型的语料进行设置对话标签,得到标签模型。
优选的,所述的步骤10)中进行设置对话标签,是根据所述标签模型中的对话标签对所述对话记录进行选择和设置相应的对话标签。
优选的,所述的步骤30)中对每个主题进行排序,是指将新增的对话记录及对语料库中的历史对话记录中的所有主题,在各自对应的对话标签下进行贡献度的排序,并且,每次新增对话记录后则自动重新排序。
本发明的目的之四在于,根据上述主题抽取方法对应提供一种用于对话的主题抽取系统,其包括:
对话标签设置模块,其通过提取访客与客服的对话记录,对所述对话记录设置对话标签;
贡献度计算模块,其根据上述的主题贡献度计算方法进行统计所述对话记录中的每个主题对所述对话标签的贡献度;
主题抽取模块,其根据所述贡献度对语料库中每个对话标签下的每个主题进行排序,并抽取贡献度较大的主题,将该主题中的问题作为推荐问题,并将该主题中对应的答案作为推荐答案;
对话模块,其根据访客提出的问题自动提取当前的问题标签,并将该当前的问题标签与语料库中的对话标签进行匹配,向访客提供该对话标签下贡献度较大的主题中的推荐问题所对应的推荐答案。
优选的,还包括模型构建模块,其根据语料库中的语料的对话主题对所有语料进行分类,对不同类型的语料进行设置对话标签,得到标签模型。
本发明的有益效果是:
(1)本发明通过将自然文本语言进行量化计算,极大的提高了整个智能客服工作的效率;并且,通过结合相似度和概率值来计算贡献度,提高了计算结果的准确性,为后续使用时语句的抽取、筛选等操作提供了依据。
(2)本发明通过对每次对话记录设置对话标签,通过计算所述对话标签下的每个主题对所述对话标签的贡献度,并根据贡献度大小对所述主题进行排序,通过将对话记录进行标签处理和量化计算,并将贡献度较大的主题中的问题和答案作为推荐问题和推荐答案,从而实现自动化提取对话主题,使得智能客服回答访客的问题更准确、完整,访客体验更好;
(3)本发明通过构建标签模型,并对新增的对话记录及对语料库中的历史对话记录进行设置对话标签,并将所有主题在各自对应的对话标签下进行贡献度的排序,并且,每次新增对话记录后则自动重新排序,使得标签模型能够循环持续更新,并使得语料库能够持续自动更新和完善,访客体验越来越好。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的用于对话的句子贡献度计算方法的流程简图;
图2为本发明的用于对话的主题贡献度计算方法的流程简图;
图3为本发明的对话中主题抽取方法的流程简图;
图4为本发明的对话系统的流程简图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图及实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
智能客服的实现过程中有些部分是需要进行量化后,机器才可以进行计算和比较的,所以将自然语言文本进行量化的计算方法也就成了智能客服中一项较为重要的技术。基于此,本发明如下的贡献度的量化计算方法:
如图1所示,本实施例提供一种用于对话的句子贡献度计算方法,其包括以下步骤:
a1.利用word2vec模型得到对话的每个单句中的每个单词的向量,并对所述每个单词的向量进行均值计算得到单词向量均值,将该单词向量均值作为所述单句的向量Vec(serve);
b1.利用word2vec模型得到对话的每个主题中的每个主题词的向量,并对所述每个主题词的向量进行均值计算得到主题词向量均值,将该主题词向量均值作为所述主题的向量Vec(topic);
c1.根据所述单句的向量Vec(serve)和所述主题的向量Vec(topic)进行计算所述单句与所述主题的余弦值cosθ,并根据该余弦值cosθ得到所述单句与所述主题的相似度;
d1.利用LDA主题模型得到对话中的所述单句在所述主题上的概率值;
e1.将所述相似度与对应的概率值进行乘法计算,得到所述单句对所述主题的贡献度。
本实施例中,所述余弦值的计算方法为:
其中,所述cosθ表示所述单句与所述主题的余弦值,所述Vec(topic)表示所述主题的向量,所述Vec(topic)′表示所述主题的向量的导数,所述Vec(serve)表示所述单句的向量,所述Vec(serve)′表示所述单句的向量的导数。
工作过程中,通过对语料库进行分类、标识等操作,得到语料库及模型等,然后对模型要输入的数据,即对话进行按主题标识(标识来自语料库经过分类后得到的主题标签);然后,基于本实施例的句子贡献度的计算方法,将对话中的客服的每句话进行计算该句话对本次对话的主题标签的贡献度;客服在回答访客问题时,可根据该贡献度的大小,按主题标签进行提取贡献度较大的句子(在先答案)来回答访客问题。
如图2所示,本实施例提供一种用于对话的主题贡献度计算方法,其包括以下步骤:
a2.利用word2vec模型得到对话的每个主题中的每个主题词的向量,并对所述每个主题词的向量进行均值计算得到主题词向量均值,将该主题词向量均值作为所述主题的向量Vec(topic);
b2.利用word2vec模型得到对话的每个对话标签的向量Vec(tag);
c2.根据所述主题的向量Vec(topic)和所述对话标签的向量Vec(tag)进行计算所述主题与所述对话标签的余弦值cosθ,并根据该余弦值cosθ得到所述主题与所述对话标签的相似度;
d2.利用LDA主题模型得到对话中的所述主题在所述对话标签上的概率值;
e2.将所述相似度与对应的概率值进行乘法计算,得到所述主题对所述对话标签的贡献度。
本实施例中,所述余弦值的计算方法为:
其中,所述cosθ表示所述主题与所述对话标签的余弦值,所述Vec(topic)表示所述主题的向量,所述Vec(topic)′表示所述主题的向量的导数,所述Vec(tag)表示所述对话标签的向量,所述Vec(tag)′表示所述对话标签的向量的导数。
如图3所示,本实施例提供一种用于对话的主题抽取方法,其包括以下步骤:
10)通过提取访客与客服的对话记录,对所述对话记录设置对话标签;
20)根据图2的主题贡献度计算方法进行统计所述对话记录中的每个主题对所述对话标签的贡献度;
30)根据所述贡献度对语料库中每个对话标签下的每个主题进行排序,并抽取贡献度较大的主题,将该主题中的问题作为推荐问题,并将该主题中对应的答案作为推荐答案;
40)根据访客提出的问题自动提取当前的问题标签,并将该当前的问题标签与语料库中的对话标签进行匹配,向访客提供该对话标签下贡献度较大的主题中的推荐问题所对应的推荐答案。
传统的智能客服系统主要采用以下方式进行自主学习:
1.将相似问题,推荐给库中已有的问题;
2.自动合并相似度非常高的问题。
但是,这样的自主学习对智能客服系统而言仍然存在很大缺陷:一方面,需要人工导入更多新问题或者相似问题,语料库不能快速增长与更新;另一方面,部分优秀客服的优秀话术,不能及时被发现与学习。
本实施例中通过构建标签模型并对模型进行循环滚动加强,能够实现语料库持续自动更新和完善,访客体验越来越好。具体的:
所述的步骤10)之前,还预先进行构建标签模型,其根据语料库中的语料的对话主题对所有语料进行分类,对不同类型的语料进行设置对话标签,得到标签模型。
所述的步骤10)中进行设置对话标签,是根据所述标签模型中的对话标签对所述对话记录进行选择和设置相应的对话标签。
所述的步骤30)中对每个主题进行排序,是指将新增的对话记录及对语料库中的历史对话记录中的所有主题,在各自对应的对话标签下进行贡献度的排序,并且,每次新增对话记录后则自动重新排序。
如图4所示,本实施例提供一种用于对话的主题抽取系统,其包括:
模型构建模块,其根据语料库中的语料的对话主题对所有语料进行分类,对不同类型的语料进行设置对话标签,得到标签模型;
对话标签设置模块,其通过提取访客与客服的对话记录,对所述对话记录设置对话标签;
贡献度计算模块,其根据图2的主题贡献度计算方法统计所述对话记录中的每个主题对所述对话标签的贡献度;
主题抽取模块,其根据所述贡献度对语料库中每个对话标签下的每个主题进行排序,并抽取贡献度较大的主题,将该主题中的问题作为推荐问题,并将该主题中对应的答案作为推荐答案;
对话模块,其根据访客提出的问题自动提取当前的问题标签,并将该当前的问题标签与语料库中的对话标签进行匹配,向访客提供该对话标签下贡献度较大的主题中的推荐问题所对应的推荐答案。
本实施例中,所述对话标签设置模块是根据所述标签模型中的对话标签对所述对话记录进行选择和设置相应的对话标签。所述主题抽取模块中对每个主题进行排序,是指将新增的对话记录及对语料库中的历史对话记录中的所有主题,在各自对应的对话标签下进行贡献度的排序,并且,每次新增对话记录后则自动重新排序。
具体的,本发明的主题抽取过程如下:
1.构建模型
首先对语料库进行梳理,按照对话主题及关键词,为所有的语料进行设置对话标签,所述对话标签一般按照对话主题进行分类,例如包括质量、价格、物流、售后服务等,从而形成标签模型。
2.贴标签
在使用时,如一组完整的对话,共有10次访客与智能客服的对话互动记录。先利用标签模型为本次对话贴上相应的对话标签,所述对话标签来自于构建模型时所形成的标签(一组完整的对话,可能包括多个标签)。
3.计算贡献度
计算本组对话中,每一句话(每个主题)对本组对话的对话标签的贡献度,并用数值进行表示。因一组对话可能存在多个对话标签,同时,一句话可能会对两个及以上的对话标签产生贡献度,或多句话都能同一个对话标签产生贡献度,所以为本组对话计算完贡献度后,每个相应的标签下,将产生相应的对其生产贡献度的多句对话,将这些对话按贡献度值进行排序。
4.自动抽取主题
当智能客服回答访客的问话时,首先提取其访客问题对应的问题标签(例如,根据问题中的关键字),并与所构建的模型中的对话标签进行匹配。完成标签匹配后,将该对话标签下按数值排序的贡献度较大的主题或问题(推荐问题)进行提取,并将该主题或问题所对应的答案(推荐答案)用于回答访客的问题,从而使访客获得较为准确和完善的问题答复。
5.循环滚动加强模型
当有新的语料及标签产生时,模型持续更新,并根据贡献度的计算,持续更新每个标签下的相应的问题的贡献度数值与排序,持续完善对话的问题回复。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。并且,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外,本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (10)

1.一种用于对话的句子贡献度计算方法,其特征在于,包括以下步骤:
a1.利用word2vec模型得到对话的每个单句中的每个单词的向量,并对所述每个单词的向量进行均值计算得到单词向量均值,将该单词向量均值作为所述单句的向量Vec(serve);
b1.利用word2vec模型得到对话的每个主题中的每个主题词的向量,并对所述每个主题词的向量进行均值计算得到主题词向量均值,将该主题词向量均值作为所述主题的向量Vec(topic);
c1.根据所述单句的向量Vec(serve)和所述主题的向量Vec(topic)进行计算所述单句与所述主题的余弦值cosθ,并根据该余弦值cosθ得到所述单句与所述主题的相似度;
d1.利用LDA主题模型得到对话中的所述单句在所述主题上的概率值;
e1.将所述相似度与对应的概率值进行乘法计算,得到所述单句对所述主题的贡献度。
2.根据权利要求1所述的一种用于对话的句子贡献度计算方法,其特征在于:所述余弦值的计算方法为:
cos θ = V e c ( s e r v e ) ′ V e c ( t o p i c ) V e c ( s e r v e ) ′ V e c ( s e r v e ) * V e c ( t o p i c ) ′ V e c ( t o p i c )
其中,所述cosθ表示所述单句与所述主题的余弦值,所述Vec(topic)表示所述主题的向量,所述Vec(topic)′表示所述主题的向量的导数,所述Vec(serve)表示所述单句的向量,所述Vec(serve)′表示所述单句的向量的导数。
3.一种用于对话的主题贡献度计算方法,其特征在于,包括以下步骤:
a2.利用word2vec模型得到对话的每个主题中的每个主题词的向量,并对所述每个主题词的向量进行均值计算得到主题词向量均值,将该主题词向量均值作为所述主题的向量Vec(topic);
b2.利用word2vec模型得到对话的每个对话标签的向量Vec(tag);
c2.根据所述主题的向量Vec(topic)和所述对话标签的向量Vec(tag)进行计算所述主题与所述对话标签的余弦值cosθ,并根据该余弦值cosθ得到所述主题与所述对话标签的相似度;
d2.利用LDA主题模型得到对话中的所述主题在所述对话标签上的概率值;
e2.将所述相似度与对应的概率值进行乘法计算,得到所述主题对所述对话标签的贡献度。
4.根据权利要求3所述的一种用于对话的主题贡献度计算方法,其特征在于:所述余弦值的计算方法为:
c o s θ = V e c ( t o p i c ) ′ V e c ( t a g ) V e c ( t o p i c ) ′ V e c ( t o p i c ) * V e c ( t a g ) ′ V e c ( t a g )
其中,所述cosθ表示所述主题与所述对话标签的余弦值,所述Vec(topic)表示所述主题的向量,所述Vec(topic)′表示所述主题的向量的导数,所述Vec(tag)表示所述对话标签的向量,所述Vec(tag)′表示所述对话标签的向量的导数。
5.一种用于对话的主题抽取方法,其特征在于,包括以下步骤:
10)通过提取访客与客服的对话记录,对所述对话记录设置对话标签;
20)根据权利要求3或4的主题贡献度计算方法进行统计所述对话记录中的每个主题对所述对话标签的贡献度;
30)根据所述贡献度对语料库中每个对话标签下的每个主题进行排序,并抽取贡献度较大的主题,将该主题中的问题作为推荐问题,并将该主题中对应的答案作为推荐答案;
40)根据访客提出的问题自动提取当前的问题标签,并将该当前的问题标签与语料库中的对话标签进行匹配,向访客提供该对话标签下贡献度较大的主题中的推荐问题所对应的推荐答案。
6.根据权利要求5所述的一种用于对话的主题抽取方法,其特征在于:所述的步骤10)之前,还预先进行构建标签模型,其根据语料库中的语料的对话主题对所有语料进行分类,对不同类型的语料进行设置对话标签,得到标签模型。
7.根据权利要求6所述的一种用于对话的主题抽取方法,其特征在于:所述的步骤10)中进行设置对话标签,是根据所述标签模型中的对话标签对所述对话记录进行选择和设置相应的对话标签。
8.根据权利要求5或6或7所述的一种用于对话的主题抽取方法,其特征在于:所述的步骤30)中对每个主题进行排序,是指将新增的对话记录及对语料库中的历史对话记录中的所有主题,在各自对应的对话标签下进行贡献度的排序,并且,每次新增对话记录后则自动重新排序。
9.一种用于对话的主题抽取系统,其特征在于,包括:
对话标签设置模块,其通过提取访客与客服的对话记录,对所述对话记录设置对话标签;
贡献度计算模块,其根据权利要求3或4的主题贡献度计算方法进行统计所述对话记录中的每个主题对所述对话标签的贡献度;
主题抽取模块,其根据所述贡献度对语料库中每个对话标签下的每个主题进行排序,并抽取贡献度较大的主题,将该主题中的问题作为推荐问题,并将该主题中对应的答案作为推荐答案;
对话模块,其根据访客提出的问题自动提取当前的问题标签,并将该当前的问题标签与语料库中的对话标签进行匹配,向访客提供该对话标签下贡献度较大的主题中的推荐问题所对应的推荐答案。
10.根据权利要求9所述的一种用于对话的主题抽取系统,其特征在于:还包括模型构建模块,其根据语料库中的语料的对话主题对所有语料进行分类,对不同类型的语料进行设置对话标签,得到标签模型。
CN201710065890.8A 2017-02-06 2017-02-06 用于对话的贡献度计算方法及主题抽取方法和系统 Active CN106844344B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710065890.8A CN106844344B (zh) 2017-02-06 2017-02-06 用于对话的贡献度计算方法及主题抽取方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710065890.8A CN106844344B (zh) 2017-02-06 2017-02-06 用于对话的贡献度计算方法及主题抽取方法和系统

Publications (2)

Publication Number Publication Date
CN106844344A true CN106844344A (zh) 2017-06-13
CN106844344B CN106844344B (zh) 2020-06-05

Family

ID=59122943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710065890.8A Active CN106844344B (zh) 2017-02-06 2017-02-06 用于对话的贡献度计算方法及主题抽取方法和系统

Country Status (1)

Country Link
CN (1) CN106844344B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209763A (zh) * 2018-02-12 2019-09-06 北京京东尚科信息技术有限公司 数据处理方法、装置以及计算机可读存储介质
CN110377721A (zh) * 2019-07-26 2019-10-25 京东方科技集团股份有限公司 自动问答方法、装置、存储介质及电子设备
CN110472198A (zh) * 2018-05-10 2019-11-19 腾讯科技(深圳)有限公司 一种关键词的确定方法、文本处理的方法及服务器
CN112148872A (zh) * 2020-09-28 2020-12-29 国家计算机网络与信息安全管理中心广东分中心 自然对话主题分析方法、装置、电子设备和存储介质
CN113204638A (zh) * 2021-04-23 2021-08-03 上海明略人工智能(集团)有限公司 基于工作会话单元的推荐方法、系统、计算机和存储介质
CN113421148A (zh) * 2021-06-30 2021-09-21 北京百度网讯科技有限公司 商品数据处理方法、装置、电子设备及计算机存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130304469A1 (en) * 2012-05-10 2013-11-14 Mynd Inc. Information processing method and apparatus, computer program and recording medium
CN104598445A (zh) * 2013-11-01 2015-05-06 腾讯科技(深圳)有限公司 自动问答系统和方法
US20150339299A1 (en) * 2014-05-23 2015-11-26 International Business Machines Corporation Type evaluation in a question-answering system
US20160170962A1 (en) * 2014-12-10 2016-06-16 International Business Machines Corporation Data relationships in a question-answering environment
US20160335339A1 (en) * 2015-05-13 2016-11-17 Rovi Guides, Inc. Methods and systems for updating database tags for media content
CN106156204A (zh) * 2015-04-23 2016-11-23 深圳市腾讯计算机系统有限公司 文本标签的提取方法和装置
CN106202065A (zh) * 2016-06-30 2016-12-07 中央民族大学 一种跨语言话题检测方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130304469A1 (en) * 2012-05-10 2013-11-14 Mynd Inc. Information processing method and apparatus, computer program and recording medium
CN104598445A (zh) * 2013-11-01 2015-05-06 腾讯科技(深圳)有限公司 自动问答系统和方法
US20150339299A1 (en) * 2014-05-23 2015-11-26 International Business Machines Corporation Type evaluation in a question-answering system
US20160170962A1 (en) * 2014-12-10 2016-06-16 International Business Machines Corporation Data relationships in a question-answering environment
CN106156204A (zh) * 2015-04-23 2016-11-23 深圳市腾讯计算机系统有限公司 文本标签的提取方法和装置
US20160335339A1 (en) * 2015-05-13 2016-11-17 Rovi Guides, Inc. Methods and systems for updating database tags for media content
CN106202065A (zh) * 2016-06-30 2016-12-07 中央民族大学 一种跨语言话题检测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NATALIA 等: "Utilising Semantically Rich Big Data to Enhance Book Recommendation Engines", 《2016 IEEE 18TH INTERNATIONAL CONFERENCE ON HIGH PERFORMANCE COMPUTING AND COMMUNICATIONS; IEEE 14TH INTERNATIONAL CONFERENCE ON SMART CITY; IEEE 2ND INTERNATIONAL CONFERENCE ON DATA SCIENCE AND SYSTEMS (HPCC/SMARTCITY/DSS)》 *
江大鹏: "基于词向量的短文本分类方法研究", 《中国优秀硕士论文全文数据库信息科技辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209763A (zh) * 2018-02-12 2019-09-06 北京京东尚科信息技术有限公司 数据处理方法、装置以及计算机可读存储介质
CN110209763B (zh) * 2018-02-12 2024-09-20 北京京东尚科信息技术有限公司 数据处理方法、装置以及计算机可读存储介质
CN110472198A (zh) * 2018-05-10 2019-11-19 腾讯科技(深圳)有限公司 一种关键词的确定方法、文本处理的方法及服务器
CN110377721A (zh) * 2019-07-26 2019-10-25 京东方科技集团股份有限公司 自动问答方法、装置、存储介质及电子设备
US11475068B2 (en) 2019-07-26 2022-10-18 Beijing Boe Technology Development Co., Ltd. Automatic question answering method and apparatus, storage medium and server
CN112148872A (zh) * 2020-09-28 2020-12-29 国家计算机网络与信息安全管理中心广东分中心 自然对话主题分析方法、装置、电子设备和存储介质
CN112148872B (zh) * 2020-09-28 2024-04-02 国家计算机网络与信息安全管理中心广东分中心 自然对话主题分析方法、装置、电子设备和存储介质
CN113204638A (zh) * 2021-04-23 2021-08-03 上海明略人工智能(集团)有限公司 基于工作会话单元的推荐方法、系统、计算机和存储介质
CN113204638B (zh) * 2021-04-23 2024-02-23 上海明略人工智能(集团)有限公司 基于工作会话单元的推荐方法、系统、计算机和存储介质
CN113421148A (zh) * 2021-06-30 2021-09-21 北京百度网讯科技有限公司 商品数据处理方法、装置、电子设备及计算机存储介质
CN113421148B (zh) * 2021-06-30 2023-08-18 北京百度网讯科技有限公司 商品数据处理方法、装置、电子设备及计算机存储介质

Also Published As

Publication number Publication date
CN106844344B (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
CN106802951B (zh) 一种用于智能对话的话题抽取方法及系统
CN106844344A (zh) 用于对话的贡献度计算方法及主题抽取方法和系统
King et al. Template analysis in business and management research
EP3144822A1 (en) Tagging text snippets
CN111325029B (zh) 一种基于深度学习集成模型的文本相似度计算方法
CN109582949A (zh) 事件元素抽取方法、装置、计算设备及存储介质
CN106777257B (zh) 基于话术的智能对话模型的构建系统及方法
CN109885664A (zh) 一种智能对话方法、机器人对话系统、服务器及存储介质
CN106572001B (zh) 一种智能客服的对话方法及系统
CN110175227A (zh) 一种基于组队学习和层级推理的对话辅助系统
US20230394247A1 (en) Human-machine collaborative conversation interaction system and method
CN111708869A (zh) 人机对话的处理方法及装置
CN107247751B (zh) 基于lda主题模型的内容推荐方法
CN107436916B (zh) 智能提示答案的方法及装置
CN110222145A (zh) 一种智能法律评估方法和系统
CN110287305B (zh) 一种基于自然语言处理的智能问答管理系统
CN110046230A (zh) 生成推荐话术集合的方法、推荐话术的方法和装置
CN109325780A (zh) 一种面向电子政务领域的智能客服系统的交互方法
CN110929007A (zh) 一种电力营销知识体系平台及应用方法
CN113268610A (zh) 基于知识图谱的意图跳转方法、装置、设备及存储介质
CN110807323A (zh) 情绪向量的生成方法及装置
CN118013045B (zh) 基于人工智能的语句情感检测方法及装置
CN113505606B (zh) 一种培训信息获取方法、装置、电子设备及存储介质
Ferschke et al. A lightly supervised approach to role identification in wikipedia talk page discussions
CN110321414A (zh) 一种基于深度学习的人工智能咨询服务方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Contribution calculation method and topic extraction method and system for dialogue

Effective date of registration: 20221202

Granted publication date: 20200605

Pledgee: Industrial Bank Limited by Share Ltd. Xiamen branch

Pledgor: XIAMEN KUAISHANGTONG TECH. Corp.,Ltd.

Registration number: Y2022980024751