CN111339303A - 一种基于聚类与自动摘要的文本意图归纳方法及装置 - Google Patents

一种基于聚类与自动摘要的文本意图归纳方法及装置 Download PDF

Info

Publication number
CN111339303A
CN111339303A CN202010152155.2A CN202010152155A CN111339303A CN 111339303 A CN111339303 A CN 111339303A CN 202010152155 A CN202010152155 A CN 202010152155A CN 111339303 A CN111339303 A CN 111339303A
Authority
CN
China
Prior art keywords
user
cluster
module
clusters
intention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010152155.2A
Other languages
English (en)
Other versions
CN111339303B (zh
Inventor
宋子文晗
江岭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Xiaoduo Technology Co ltd
Original Assignee
Chengdu Xiaoduo Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Xiaoduo Technology Co ltd filed Critical Chengdu Xiaoduo Technology Co ltd
Priority to CN202010152155.2A priority Critical patent/CN111339303B/zh
Publication of CN111339303A publication Critical patent/CN111339303A/zh
Application granted granted Critical
Publication of CN111339303B publication Critical patent/CN111339303B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及文本摘要归纳技术领域,具体公开了基于聚类与自动摘要的文本意图归纳方法及装置,具体包括以下步骤:通过抽样选择模块将用户问题分为抽中问题和剩余问题;抽中问题通过预训练特征提取模块和层次聚类模块处理得到K个簇,并计算每个簇的中心向量;剩余问题通过预训练特征提取模块和问题分配模块处理并将用户问题分配到距离最近的簇,完成将所有用户问题分配到K个簇并获得每个簇用户问题的总数;通过摘要提取模块获得每个簇能够代表核心意图;审核、创建、标注和训练模型。本发明只需要对少部分数据进行层次聚类,剩余的数据直接分配到聚类好的距离最近的簇,节省了内存资源和CPU计算资源的占用,提高了层次聚类的速度。

Description

一种基于聚类与自动摘要的文本意图归纳方法及装置
技术领域
本发明涉及文本意图归纳技术领域,具体的说,是一种基于聚类与自动摘要的文本意图归纳方法及装置。
背景技术
随着电商行业的急速发展,网上购物成为了大多数人必不可少的日常,在各大电商平台的商家需要招募大量的客服人员对买家进行答疑解惑,与日俱增的咨询量使得商家对客服机器人的需求逐渐提高。在智能客服领域,意图识别是一个重要任务,旨在理解客服场景中买家发来的问题。而意图识别的实现方式有很多种,传统做法是基于一些规则匹配,后来大家利用机器学习进行相似度匹配、语义分类等。所谓相似度匹配,是针对每一种买家问题的意图设置对应的代表这个意图的常规问法示例,假设有100种意图(“什么时候发货?”、“能否退货?”等),我们就可以将每一个买家发来的问题与这100种意图对应的问法示例进行相似度匹配,如果匹配度非常高,则认为买家的问题属于该意图。另一种是语义分类,即对每种买家问题的意图定义一个名称,而机器学习或者深度学习模型就学习如何把每一个买家问题分类到正确的意图名称上,比如“我刚刚下单,你们今天可以发货吗?”,则分类到的意图名称为“今天是否能发货”。不论是相似度匹配还是语义分类,我们的首要任务都是发现、定义意图,有了明确的意图,我们就可以将真实的买家问题归类到对应的意图上,并进行后续操作,这里的后续操作是指针对相应意图回复买家答案。
目前业界没有可行的方案,没有在这方面做出应用的企业,且这方面的应用比较原始,基本上靠人力一条一条看买家的问题记录,通过单纯的人工检索来达到发现新的意图的目的。
1.纯人工发现,需要从数十上百万买家问题(短文本)中寻找新的意图(未定义的意图)。耗时耗力,效率低下。
2.人工发现且定义的新意图,依然需要去寻找更多相关买家问题并标注到该意图下,以便后续的模型训练。模型的数据冷启动慢,效率低。
3.人工发现意图时需要不断地思考每一条买家问题的意图,并且在数十万上百万的买家问题中,会在不同位置都发现类似意图的买家问题,需要人工在心里或者手动聚合到一起,并抽象出一个意图。操作繁杂,重复性劳动多。
发明内容
本发明的目的在于提供一种基于聚类与自动摘要的文本意图归纳方法及装置,只需要对少部分数据进行层次聚类,剩余的数据直接分配到聚类好的距离最近的簇,节省了内存资源和CPU计算资源的占用,提高了层次聚类的速度。
本发明通过下述技术方案实现:
一种基于聚类与自动摘要的文本意图归纳方法,具体包括以下步骤:
步骤S1:用户问题通过抽样选择模块将用户问题分为抽中问题和剩余问题;
步骤S2:对于抽中问题依次通过预训练特征提取模块和层次聚类模块处理得到K个簇,并计算每个簇的中心向量;
步骤S3:对于剩余问题依次通过预训练特征提取模块和问题分配模块处理并将每一条用户问题分配到距离最近的簇,完成将所有用户问题都分配到K个簇并获得每个簇用户问题的总数;
步骤S4:针对每个簇通过摘要提取模块进行自动摘要提取,获得能够代表该簇的核心意图的核心问题;
步骤S5:最后以每个簇包含核心问题与该簇的用户问题数目的方式进行审核、创建、标注和训练模型。
进一步地,为了更好的实现本发明,所述步骤S2具体包括以下步骤:
步骤S21:抽中问题经过预训练特征提取模块,输出抽中问题的特征向量并将抽中问题的特征向量进入层次聚类模块;
步骤S22:层次聚类模块对抽中问题的特征向量进行层次聚类运算,随后输出为K个簇,其中每个簇包含若干条相似且极有可能意图等价的用户问题;
步骤S23:计算每个簇的中心向量。
进一步地,为了更好的实现本发明,所述步骤S3具体包括以下步骤:
步骤S31:剩余问题经过预训练特征提取模块,输出剩余问题的特征向量;
步骤S32:计算剩余问题的特征向量与K个簇的中心向量的欧几里得距离;
步骤S33:将剩余问题分别通过问题分配模块分配到欧几里得距离最近的簇;完成将所有用户问题都分配到K个簇并获得每个簇用户问题的总数。
进一步地,为了更好的实现本发明,所述步骤S4具体是指:利用TextRank算法进行计算每个簇中各个用户问题的重要性,最终选择最重要的用户问题作为核心意图,获得每个簇的核心问题。
进一步地,为了更好的实现本发明,所述步骤S1具体是指:设定抽样数为N,N大于全部用户问题包含的意图种类;
当用户问题量≤N时,则不进行抽样,数据直接流入预训练特征提取模块;
当用户问题量大于N时,抽样选择模块对大量用户问题随机抽样N条作为抽中问题,其中大量用户问题为M条,剩下M-N条作为剩余问题。
一种基于聚类与自动摘要的文本意图归纳装置,包括:
抽样选择模块:用于接收客户端发出的用户问题,对用户问题随机抽样,并将用户问题分为抽中问题和剩余问题;
预训练特征提取模块:抽中问题和剩余问题中的每个用户问题先经过预训练特征提取模块处理,被切分为字/词,字/词经过词典匹配转换为编号,并映射到对应的字/词向量,该用户问题对应的字/词向量序列输入句向量编码模块,输出的即为该用户问题的特征向量。
层次聚类模块:将抽中问题的特征向量进行层次聚类运算,随后输出为K个簇,每个簇包含若干条用户问题,每个簇的若干条用户问题为相似且极有可能意图等价;
问题分配模块:将剩余问题中每个用户问题分别分配到与K个簇的中心向量欧几里得距离最近的簇;
摘要提取模块:利用TextRank算法进行计算每个簇中各个用户问题的重要性,最终选择最重要的用户问题作为核心意图。
进一步地,为了更好的实现本发明,所述层次聚类模块包括:
距离计算模块:采用欧几里得距离计算方式和矩阵乘法计算计算出N个特征向量之间的欧氏距离;
层次聚类算法模块:将N个特征向量所对应的簇,通过寻找该簇欧几里得距离最近的另一个簇,通过簇与簇之间不断地合并,直到所有的簇之间都无法满足小于阈值T的平均距离范围,则聚类完成并得到K个簇,其中N>K。
本发明与现有技术相比,具有以下优点及有益效果:
(1)本发明通过抽样选择模块只需要对少部分数据进行层次聚类,剩余的数据直接分配到聚类好的距离最近的簇,节省了内存资源和CPU计算资源的占用,提高了层次聚类的速度;
(2)本发明通过摘取模块,将每个簇的所有用户问题当成一篇文章,提取文章的摘要,旨在从簇中提取该簇表达的核心意图,有效的缩短发现意图的时间,提高工作效率。
附图说明
图1为本发明的工作流程图;
图2为本发明中预训练特征提取模块的工作流程图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例1:
本发明通过下述技术方案实现,如图1、图2所示,一种基于聚类与自动摘要的文本意图归纳方法,具体包括以下步骤:
步骤S1:用户问题通过抽样选择模块将用户问题分为抽中问题和剩余问题;
步骤S2:对于抽中问题依次通过预训练特征提取模块和层次聚类模块处理得到K个簇,并计算每个簇的中心向量;
步骤S3:对于剩余问题依次通过预训练特征提取模块和问题分配模块处理并将每一条用户问题分配到距离最近的簇,完成将所有用户问题都分配到K个簇并获得每个簇用户问题的总数;
步骤S4:针对每个簇通过摘要提取模块进行自动摘要提取,获得能够代表该簇的核心意图的核心问题;
步骤S5:最后以每个簇包含核心问题与该簇的用户问题数目的方式进行审核、创建、标注和训练模型。
需要说明的是,通过上述改进,用户问题来自于电商领域中大量的客服和买家的对话中买家问题,他们是电商卖家的用户,用户问题多为十几个到三十几字的疑问句或陈述句,且大多数都包含至少一个意图,即每一个用户问题都至少含有一种意图,这种意图是向客服表明对商品、对售后以及对物流等具体某一个细节的咨询。
本发明将用户问题通过抽样选择分为抽中问题和剩余问题,对于抽中问题通过预训练特征提取模块将该用户问题以特征向量的形式输出给层次聚类模块,该特征向量用于代表该用户问题的全部信息,例如句式、句意等等;层次聚类模块将用户问题的特征向量进行计算,得到K个簇,其中每个簇包含若干条用户问题,意即每个簇的若干条用户问题为相似且极有可能意图等价;在当抽中问题中的用户问题被聚集为K个簇后,计算出每个簇的中心向量,即代表这个簇的中心的向量,是利用簇内所有用户问题的特征向量的平均值计算出来;剩余问题经过预训练特征提取模块转化为剩余问题的特征向量,剩余问题的特征向量再与K个簇的中心向量分别计算欧几里得距离,将剩余问题中每个用户问题到欧几里得距离最近的簇,直到所有的剩余问题均被分配到K个簇,并获得每个簇的用户总数;为了进一步提炼每个簇的核心意图,也就是给人工智能训练师更精准地推荐新意图以及其待标注样本。针对每一个簇,利用摘要提取模块进行自动摘要提取,对每一个簇提取最重要、最能代表这个簇的核心意图的用户问题,减少人工智能训练师浏览数据量,进而大大提高发现、创建新意图的效率。
实施例2:
本实施例在上述实施例的基础上做进一步优化,如图1、图2所示,进一步地,为了更好的实现本发明,所述步骤S2具体包括以下步骤:
步骤S21:抽中问题经过预训练特征提取模块,输出抽中问题的特征向量并将抽中问题的特征向量进入层次聚类模块;
步骤S22:层次聚类模块对抽中问题的特征向量进行层次聚类运算,随后输出为K个簇,其中每个簇包含若干条相似且极有可能意图等价的用户问题;
步骤S23:计算每个簇的中心向量。
需要说明的是,通过上述改进,图2所示,预训练特征提取模块为基于神经网络的深度学习模型,是提前用大量已标注过意图分类的电商领域用户问题训练过的分类模性,该模型由长短期记忆网络(LSTM)、卷积神经网络(CNN)、两个线性层(DenseLayer)以及softmax 函数组成,去除该模型的最后一个“线性层2”和softmax函数,则可以被认为是句向量编码模块。用户问题先经过预处理,被切分为字或/和词,字或/和词经过词典匹配转换为编号,并映射到对应的字或/和词向量,该用户问题对应的字或/和词向量序列输入句向量编码模块,输出的即为该用户问题的特征向量,可以代表该用户问题的全部信息(包括句式、句意)。
预训练特征提取可以为现有比较出名的BERT、GPT等大型自然语言预训练模型,也可以为基于电商对话领域数据训练的有监督学习的预训练模型(如Bi-LSTM、CNN等网络结构为基础的分类模性)。
随后N条用户问题特征向量进入层次聚类模块,在层次聚类模块中会进行层次聚类运算,随后输出为K个簇,每个簇包含若干条用户问题,意即每个簇的若干条用户问题为相似且极有可能意图等价。
层次聚类模块包含两个部分:1、距离计算模块2、层次聚类算法模块;
距离计算模块采用欧几里得距离计算方式(欧氏距离),为了以最快的速度计算出N个向量之间的欧氏距离,这里采用矩阵乘法计算。假设两个用户问题的特征向量分别为a和b, a=(a1,a2,a3,···ad),b=(b1,b2,b3,···bd)则这两个用户问题的欧氏距离的平方如下。这里不做开方是为了节省运算,比较距离只需要比较相对距离,而不需要知道绝对距离的数值;
Figure RE-GDA0002462217510000051
这种普通的欧式距离计算方式较慢,于是经过简化为矩阵运算:
Figure RE-GDA0002462217510000052
也就是说欧氏距离和余弦相似度存在上述关系,则利用矩阵乘法的形式来计算欧氏距离,利用矩阵乘法一次性计算N个点相互之间N(N-1)/2个距离。
层次聚类算法一开始把N个特征向量都当作单独的簇,找到距离单独的簇最近的另一个单独的簇,两两合并为新的簇,且合并的两个单独的簇之间的平均距离要小于一个阈值T,这样,即使两个单独的簇互为最近的簇,但如果阈值超过T,则无法合并为新的簇,各自为独立的簇。这样簇与簇之间不断地合并,直到所有的簇之间都无法满足小于阈值T的平均距离范围,则聚类完成。
当用户问题被聚集为K个簇后,计算出每个簇的中心向量;每个簇的中心向量代表这个簇的中心的向量,是利用簇内所有用户问题的特征向量的平均值计算出来的。
层次聚类可以换成其他的聚类算法,但需要提前指定簇的个数K:K-Means(K均值)、 EM算法。
本实施例的其他部分与上述实施例相同,故不再赘述。
实施例3:
本实施例在上述实施例的基础上做进一步优化,如图1所示,进一步地,为了更好的实现本发明,所述步骤S3具体包括以下步骤:
步骤S31:剩余问题经过预训练特征提取模块,输出剩余问题的特征向量;
步骤S32:计算剩余问题的特征向量与K个簇的中心向量的欧几里得距离;
步骤S33:将剩余问题分别通过问题分配模块分配到欧几里得距离最近的簇;完成将所有用户问题都分配到K个簇并获得每个簇用户问题的总数。
需要说明的是,通过上述改进,剩余问题经过预训练特征提取模块转化为M-N条用户问题的特征向量,再与K个簇的中心向量分别计算欧几里得距离,然后把剩余问题中每一条用户问题分配到距离最近的簇。就此,所有的用户问题都被分配到K个簇,且也获知每个簇的用户问题总数。
本实施例的其他部分与上述实施例相同,故不再赘述。
实施例4:
本实施例在上述实施例的基础上做进一步优化,如图1所示,进一步地,为了更好的实现本发明,所述步骤S4具体是指:利用TextRank算法进行计算每个簇中各个用户问题的重要性,最终选择最重要的用户问题作为核心意图,获得每个簇的核心问题。
需要说明的是,通过上述改进,为了进一步提炼每个簇的核心意图,也就是给人工智能训练师更精准地推荐新意图以及其待标注样本。针对每一个簇,利用摘要提取模块进行了自动摘要提取,对每一个簇提取最重要、最能代表这个簇的核心意图的用户问题,减少人工智能训练师浏览数据量,进而大大提高发现、创建新意图的效率。
摘要提取模块是一种摘要算法,主要利用TextRank算法进行计算簇中各个用户问题的重要性,最终选择最重要的用户问题作为核心意图。TextRank算法来源于PageRank算法,主要思想是一个网页如果被越多的网页所指向,则这个网页越重要,而这个网页如果被价值很高的网页所指向那说明这个网页也很重要。同理,如果簇中一个句子和其他所有句子相似度的相似度之和很高,说明这个句子比较能代表这些句子的共同特点,它的重要性就越高,以及如果一个句子和某个重要性很高的句子的相似度很高,那么这个句子也很重要。基于这个原理,则有
Figure RE-GDA0002462217510000071
上式中,WS代表句子的重要性,V表示簇中的句子或者叫作用户问题,In(Vi)代表指向用户问题i的其他句子,在这里一个簇中的用户问题之间都相互连接。Out(Vj)是用户问题j 指出去的连接。w是权重,在这里表示两个用户问题之间的相似度。d是阻尼系数,是用来调节重要性的参数。
最终该算法对每一个簇中的所有句子算出了重要性,以最重要的句子作为摘要;摘要在这里作为该簇的核心意图提供给人工智能训练师参考。
自动摘要使用的TextRank算法,可以替换为其他的摘要算法:a.取聚类后簇中心最近的用户问题作为摘要b.利用序列摘要抽取算法,从文本中抽取重要的词句组合成摘要c.利用深度学习的生成式模型自动生成摘要。
最终,以每个簇包含一句核心意图的用户问题与该簇的用户问题总数的方式来展示给人工智能训练师进行审核,通过观察用户问题总数来确定是否为高频问题,以及通过一句话总结的簇的核心意图帮助创建、标注和训练模型。
本实施例的其他部分与上述实施例相同,故不再赘述。
实施例5:
本实施例在上述实施例的基础上做进一步优化,如图1所示,进一步地,为了更好的实现本发明,所述步骤S1具体是指:设定抽样数为N,N大于全部用户问题包含的意图种类;
当用户问题量≤N时,则不进行抽样,数据直接流入预训练特征提取模块中进行处理,得到该用户问题的特征向量;
当用户问题量大于N时,抽样选择模块对大量用户问题随机抽样N条作为抽中问题,其中大量用户问题为M条,剩下M-N条作为剩余问题。
需要说明的是,通过上述改进,抽样选择模块是一种划分用户问题的装置,设定一个抽样数为N;一般来说,N大于全部用户问题包含的意图种类,电商问答中,意图种类一般不会超过一千个;另一方面,抽样的方式为对全部问题进行随机乱序,取前N个用户问题;当用户问题量小于等于N,则不进行抽样,数据直接流入下一步;
否则,抽样选择模块会对大量用户问题(M条,M>N)随机抽样N条作为抽中问题,剩下 M-N条作为剩余问题。对于抽中问题,会经过预训练特征提取模块进行处理,得到输出N条用户问题的特征向量。
本实施例的其他部分与上述实施例相同,故不再赘述。
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。

Claims (7)

1.一种基于聚类与自动摘要的文本意图归纳方法,其特征在于,具体包括以下步骤:
步骤S1:用户问题通过抽样选择模块将用户问题分为抽中问题和剩余问题;
步骤S2:对于抽中问题依次通过预训练特征提取模块和层次聚类模块处理得到K个簇,并计算每个簇的中心向量;
步骤S3:对于剩余问题依次通过预训练特征提取模块和问题分配模块处理并将每一条用户问题分配到距离最近的簇,完成将所有用户问题都分配到K个簇并获得每个簇用户问题的总数;
步骤S4:针对每个簇通过摘要提取模块进行自动摘要提取,获得能够代表该簇的核心意图的核心问题;
步骤S5:最后以每个簇包含核心问题与该簇的用户问题数目的方式进行审核、创建、标注和训练模型。
2.根据权利要求1所述的一种基于聚类与自动摘要的文本意图归纳方法,其特征在于,所述步骤S2具体包括以下步骤:
步骤S21:抽中问题经过预训练特征提取模块,输出抽中问题的特征向量并将抽中问题的特征向量进入层次聚类模块;
步骤S22:层次聚类模块对抽中问题的特征向量进行层次聚类运算,随后输出为K个簇,其中每个簇包含若干条相似且意图等价的用户问题;
步骤S23:计算每个簇的中心向量。
3.根据权利要求2所述的一种基于聚类与自动摘要的文本意图归纳方法,其特征在于,所述步骤S3具体包括以下步骤:
步骤S31:剩余问题经过预训练特征提取模块,输出剩余问题的特征向量;
步骤S32:计算剩余问题的特征向量与K个簇的中心向量的欧几里得距离;
步骤S33:将剩余问题分别通过问题分配模块分配到欧几里得距离最近的簇;完成将所有用户问题都分配到K个簇并获得每个簇用户问题的总数。
4.根据权利要求3所述的一种基于聚类与自动摘要的文本意图归纳方法,其特征在于,所述步骤S4具体是指:利用TextRank算法进行计算每个簇中各个用户问题的重要性,最终选择最重要的用户问题作为核心意图,获得每个簇的核心问题。
5.根据权利要求4所述的一种基于聚类与自动摘要的文本意图归纳方法,其特征在于,所述步骤S1具体是指:设定抽样数为N,N大于全部用户问题包含的意图种类;
当用户问题量≤N时,则不进行抽样,数据直接流入预训练特征提取模块;
当用户问题量大于N时,抽样选择模块对大量用户问题随机抽样N条作为抽中问题,其中大量用户问题为M条,剩下M-N条作为剩余问题。
6.根据权利要求1-5任一项所述的一种基于聚类与自动摘要的文本意图归纳装置,其特征在于,包括:
抽样选择模块:用于接收客户端发出的用户问题,对用户问题随机抽样,并将用户问题分为抽中问题和剩余问题;
预训练特征提取模块:抽中问题和剩余问题中的每个用户问题先经过预训练特征提取模块处理,被切分为字/词,字/词经过词典匹配转换为编号,并映射到对应的字/词向量,该用户问题对应的字/词向量序列输入句向量编码模块,输出的即为该用户问题的特征向量;
层次聚类模块:将抽中问题的特征向量进行层次聚类运算,随后输出为K个簇,每个簇包含若干条用户问题,每个簇的若干条用户问题为相似且极有可能意图等价;
问题分配模块:将剩余问题中每个用户问题分别分配到与K个簇的中心向量欧几里得距离最近的簇;
摘要提取模块:利用TextRank算法进行计算每个簇中各个用户问题的重要性,最终选择最重要的用户问题作为核心意图。
7.根据权利要求6所述的一种基于聚类与自动摘要的文本意图归纳装置,其特征在于,所述层次聚类模块包括:
距离计算模块:采用欧几里得距离计算方式和矩阵乘法计算计算出N个特征向量之间的欧氏距离;
层次聚类算法模块:将N个特征向量所对应的簇,通过寻找该簇欧几里得距离最近的另一个簇,通过簇与簇之间不断地合并,直到所有的簇之间都无法满足小于阈值T的平均距离范围,则聚类完成并得到K个簇,其中N>K。
CN202010152155.2A 2020-03-06 2020-03-06 一种基于聚类与自动摘要的文本意图归纳方法及装置 Active CN111339303B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010152155.2A CN111339303B (zh) 2020-03-06 2020-03-06 一种基于聚类与自动摘要的文本意图归纳方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010152155.2A CN111339303B (zh) 2020-03-06 2020-03-06 一种基于聚类与自动摘要的文本意图归纳方法及装置

Publications (2)

Publication Number Publication Date
CN111339303A true CN111339303A (zh) 2020-06-26
CN111339303B CN111339303B (zh) 2023-08-22

Family

ID=71184390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010152155.2A Active CN111339303B (zh) 2020-03-06 2020-03-06 一种基于聚类与自动摘要的文本意图归纳方法及装置

Country Status (1)

Country Link
CN (1) CN111339303B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113220853A (zh) * 2021-05-12 2021-08-06 燕山大学 一种法律提问自动生成方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2001291494A1 (en) * 2000-09-25 2002-04-02 Telstra Corporation Limited A document categorisation system
CN103699525A (zh) * 2014-01-03 2014-04-02 江苏金智教育信息技术有限公司 一种基于文本多维度特征自动生成摘要的方法和装置
CN106294733A (zh) * 2016-08-10 2017-01-04 成都轻车快马网络科技有限公司 基于文本分析的网页检测方法
CN106372083A (zh) * 2015-07-22 2017-02-01 中国科学院计算技术研究所 一种有争议性新闻线索自动发现的方法及系统
CN108595411A (zh) * 2018-03-19 2018-09-28 南京邮电大学 一种同主题文本集合中多文本摘要获取方法
CN109189901A (zh) * 2018-08-09 2019-01-11 北京中关村科金技术有限公司 一种智能客服系统中自动发现新分类以及对应语料的方法
CN109241274A (zh) * 2017-07-04 2019-01-18 腾讯科技(深圳)有限公司 文本聚类方法及装置
CN109710728A (zh) * 2018-11-26 2019-05-03 西南电子技术研究所(中国电子科技集团公司第十研究所) 新闻话题自动发现方法
CN109885683A (zh) * 2019-01-29 2019-06-14 桂林远望智能通信科技有限公司 一种基于K-means模型和神经网络模型的生成文本摘要的方法
KR20190102456A (ko) * 2018-02-26 2019-09-04 한국인터넷진흥원 어플리케이션 클러스터링 방법 및 그 장치

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2001291494A1 (en) * 2000-09-25 2002-04-02 Telstra Corporation Limited A document categorisation system
CN103699525A (zh) * 2014-01-03 2014-04-02 江苏金智教育信息技术有限公司 一种基于文本多维度特征自动生成摘要的方法和装置
CN106372083A (zh) * 2015-07-22 2017-02-01 中国科学院计算技术研究所 一种有争议性新闻线索自动发现的方法及系统
CN106294733A (zh) * 2016-08-10 2017-01-04 成都轻车快马网络科技有限公司 基于文本分析的网页检测方法
CN109241274A (zh) * 2017-07-04 2019-01-18 腾讯科技(深圳)有限公司 文本聚类方法及装置
KR20190102456A (ko) * 2018-02-26 2019-09-04 한국인터넷진흥원 어플리케이션 클러스터링 방법 및 그 장치
CN108595411A (zh) * 2018-03-19 2018-09-28 南京邮电大学 一种同主题文本集合中多文本摘要获取方法
CN109189901A (zh) * 2018-08-09 2019-01-11 北京中关村科金技术有限公司 一种智能客服系统中自动发现新分类以及对应语料的方法
CN109710728A (zh) * 2018-11-26 2019-05-03 西南电子技术研究所(中国电子科技集团公司第十研究所) 新闻话题自动发现方法
CN109885683A (zh) * 2019-01-29 2019-06-14 桂林远望智能通信科技有限公司 一种基于K-means模型和神经网络模型的生成文本摘要的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王嫣如: "基于语义及情感的微博分类等级判定方法研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113220853A (zh) * 2021-05-12 2021-08-06 燕山大学 一种法律提问自动生成方法及系统

Also Published As

Publication number Publication date
CN111339303B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN107491531B (zh) 基于集成学习框架的中文网络评论情感分类方法
CN112115238B (zh) 一种基于bert和知识库的问答方法和系统
CN109062893B (zh) 一种基于全文注意力机制的商品名称识别方法
CN107633007B (zh) 一种基于层次化ap聚类的商品评论数据标签化系统和方法
CN111104498B (zh) 一种任务型对话系统中的语义理解方法
CN112231447B (zh) 一种中文文档事件抽取的方法和系统
CN110597961B (zh) 一种文本类目标注方法、装置、电子设备及存储介质
CN108932342A (zh) 一种语义匹配的方法、模型的学习方法及服务器
CN113515632B (zh) 基于图路径知识萃取的文本分类方法
CN107832287A (zh) 一种标签识别方法及装置、存储介质、终端
CN111858896B (zh) 一种基于深度学习的知识库问答方法
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN110750646B (zh) 一种旅店评论文本的属性描述提取方法
CN112131876A (zh) 一种基于相似度确定标准问题的方法及系统
CN111274822A (zh) 语义匹配方法、装置、设备及存储介质
CN112988970A (zh) 一种服务于智能问答系统的文本匹配算法
CN112487237A (zh) 基于自适应cnn和半监督自训练模型的音乐分类方法
CN114564563A (zh) 一种基于关系分解的端到端实体关系联合抽取方法及系统
CN116644148A (zh) 关键词识别方法、装置、电子设备及存储介质
CN117807232A (zh) 商品分类方法、商品分类模型构建方法及装置
CN116737922A (zh) 一种游客在线评论细粒度情感分析方法和系统
CN115169349A (zh) 基于albert的中文电子简历命名实体识别方法
CN113688636A (zh) 扩展问的推荐方法、装置、计算机设备和存储介质
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN113076758A (zh) 一种面向任务型对话的多域请求式意图识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant