CN113127639A - 一种异常会话文本检测方法和装置 - Google Patents
一种异常会话文本检测方法和装置 Download PDFInfo
- Publication number
- CN113127639A CN113127639A CN202010038629.0A CN202010038629A CN113127639A CN 113127639 A CN113127639 A CN 113127639A CN 202010038629 A CN202010038629 A CN 202010038629A CN 113127639 A CN113127639 A CN 113127639A
- Authority
- CN
- China
- Prior art keywords
- text
- session
- clustering
- conversation
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 113
- 238000001514 detection method Methods 0.000 title claims abstract description 27
- 238000009826 distribution Methods 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims abstract description 32
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 239000011159 matrix material Substances 0.000 claims description 41
- 238000012545 processing Methods 0.000 claims description 16
- 230000011218 segmentation Effects 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000003064 k means clustering Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种异常会话文本检测方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取多个会话文本,对各个会话文本进行主题提取,得到各个会话文本的主题概率分布;通过第一聚类方式对主题概率分布进行聚类处理,以确定簇中心会话文本和第一异常会话文本;以簇中心会话文本为起始值、簇中心会话文本的数量为聚类数量,通过第二聚类方式对主题概率分布进行聚类处理,得到第二异常会话文本;对第一异常会话文本和第二异常会话文本取交集,得到第三异常会话文本。该实施方式将密度最大值聚类和K‑mean聚类两种聚类方式融合在一起,并对两者所得异常会话文本进行差异提取,提高了异常会话文本的检测准确度。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种异常会话文本检测方法和装置。
背景技术
在客服会话数据中会有很多主题,例如在电商平台中关于配送、售后、运输、补货等类别的会话。但随着平台业务的多样化,会有一些会话数据不在这些分类中,而这些会话数据的主题可能反应的是运营系统原因、或者是由于业务发展所导致用户新的诉求。
如何提取并分析这些会话数据,对于后续及时发现系统异常和进行业务决策至关重要。通常这类数据在会话总量中占比较小,为区别于其他会话数据,可以将其归类为异常值(离群点)进行检测。目前主要采用基于聚类的算法检测异常值,例如基于密度的聚类或者K-means聚类等方法,且是单独使用的。
在实现本发明的过程中,发明人发现现有方式至少存在如下问题:
1)基于密度的聚类算法的时间复杂度较高,而且处理稀疏的高维数据性能不是很好;
2)K-means聚类算法的时间复杂度较小,但需要指定k值(聚类簇数)以及选取初始值和噪声敏感,容易陷入局部最优解。
发明内容
有鉴于此,本发明实施例提供一种异常会话文本检测方法和装置,至少能够解决现有技术中单独基于密度的聚类算法或者K-means聚类算法,存在聚类效果不理想的问题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种异常会话文本检测方法,包括:
获取多个会话文本,对各个会话文本进行主题提取,得到各个会话文本的主题概率分布;
通过第一聚类方式对主题概率分布进行聚类处理,以确定簇中心会话文本和第一异常会话文本;
以所述簇中心会话文本为起始值、簇中心会话文本的数量为聚类数量,通过第二聚类方式对主题概率分布进行聚类处理,得到第二异常会话文本;
对第一异常会话文本和第二异常会话文本取交集,得到第三异常会话文本。
可选的,所述对各个会话文本进行主题提取,得到各个会话文本的主题概率分布,包括:
对各个会话文本进行分词处理,以根据词语的出现次数,构建文本词语矩阵;其中,文本词语矩阵表示各个词语在各个会话文本中的出现概率;
利用主题模型对所述文本词语矩阵进行主题建模,得到主题词语矩阵和文本主题矩阵;
在文本主题矩阵中,通过对主题排序以将各个主题在同一会话文本中的出现概率进行组合,得到各个会话文本的主题概率分布。
可选的,通过第一聚类方式对主题概率分布进行聚类处理,以确定簇中心会话文本和第一异常会话文本,包括:
根据各个会话文本的主题概率分布,确定各个会话文本的局部密度和高局部密度点距离;
对各个会话文本的局部密度和高局部密度点距离进行密度最大值聚类,以确定簇中心会话文本和第一异常会话文本。
可选的,所述确定各个会话文本的局部密度和高局部密度点距离,包括:
提取局部密度高于第一会话文本局部密度的第二会话文本;
获取各个第二会话文本与第一会话文本的距离,将最小的距离作为第一会话文本的高局部密度点距离。
可选的,所述通过第二聚类方式对主题概率分布进行聚类处理,得到第二异常会话文本,包括:
利用第二聚类方式,确定各个会话文本簇的质心;
获取各个会话文本到相邻最近质心的相对距离;其中,相对距离为会话文本到质心的距离与对应簇内所有会话文本到质心的距离中位数的比值;
提取相对距离大于预定相对距离阈值的会话文本,将所提取的会话文本确定为第二异常会话文本。
为实现上述目的,根据本发明实施例的另一方面,提供了一种异常会话文本检测装置,包括:
主题提取模块,用于获取多个会话文本,对各个会话文本进行主题提取,得到各个会话文本的主题概率分布;
第一检测模块,用于通过第一聚类方式对主题概率分布进行聚类处理,以确定簇中心会话文本和第一异常会话文本;
第二检测模块,用于以所述簇中心会话文本为起始值、簇中心会话文本的数量为聚类数量,通过第二聚类方式对主题概率分布进行聚类处理,得到第二异常会话文本;
文本确定模块,用于对第一异常会话文本和第二异常会话文本取交集,得到第三异常会话文本。
可选的,所述主题提取模块,用于:
对各个会话文本进行分词处理,以根据词语的出现次数,构建文本词语矩阵;其中,所述文本词语矩阵表示各个词语在各个会话文本中的出现概率;
利用主题模型对所述文本词语矩阵进行主题建模,得到主题词语矩阵和文本主题矩阵;
在文本主题矩阵中,通过对主题排序以将各个主题在同一会话文本中的出现概率进行组合,得到各个会话文本的主题概率分布。
可选的,所述第一检测模块,用于:
根据各个会话文本的主题概率分布,确定各个会话文本的局部密度和高局部密度点距离;
对各个会话文本的局部密度和高局部密度点距离进行密度最大值聚类,以确定所述簇中心会话文本和第一异常会话文本。
可选的,所述第一检测模块,用于:
提取局部密度高于第一会话文本局部密度的第二会话文本;
获取各个第二会话文本与第一会话文本的距离,将最小的距离作为第一会话文本的高局部密度点距离。
可选的,所述第二检测模块,用于:
利用所述第二聚类方式,确定各个会话文本簇的质心;
获取各个会话文本到相邻最近质心的相对距离;其中,相对距离为会话文本到质心的距离与对应簇内所有会话文本到质心的距离中位数的比值;
提取相对距离大于预定相对距离阈值的会话文本,将所提取的会话文本确定为第二异常会话文本。
为实现上述目的,根据本发明实施例的再一方面,提供了一种异常会话文本检测电子设备。
本发明实施例的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一所述的异常会话文本检测方法。
为实现上述目的,根据本发明实施例的再一方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一所述的异常会话文本检测方法。
根据本发明所述提供的方案,上述发明中的一个实施例具有如下优点或有益效果:通过密度最大值聚类进行文本降维和聚类分析,以克服时间复杂度较高和对高维稀疏数据性能不好的问题;将密度最大值聚类所得簇中心作为初始聚类中心点进行K-mean聚类,不但提高了K-mean聚类的稳定性和可靠性,而且加快了K-mean聚类的收敛速度;将密度最大值聚类和K-mean聚类融合一起进行异常会话文本识别,提高了异常会话文本检测的准确率。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的一种异常会话文本检测方法的主要流程示意图;
图2是根据本发明实施例的一种可选的异常会话文本检测方法的流程示意图;
图3是根据本发明实施例的另一种可选的异常会话文本检测方法的流程示意图;
图4是根据本发明实施例的一种具体地异常会话文本检测方法的流程示意图;
图5是根据本发明实施例的一种异常会话文本检测装置的主要模块示意图;
图6是本发明实施例可以应用于其中的示例性系统架构图;
图7是适于用来实现本发明实施例的移动设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
参见图1,示出的是本发明实施例提供的一种异常会话文本检测方法的主要流程图,包括如下步骤:
S101:获取多个会话文本,对各个会话文本进行主题提取,得到各个会话文本的主题概率分布;
S102:通过第一聚类方式对所述主题概率分布进行聚类处理,以确定簇中心会话文本和第一异常会话文本;
S103:以所述簇中心会话文本为起始值、簇中心会话文本的数量为聚类数量,通过第二聚类方式对所述主题概率分布进行聚类处理,得到第二异常会话文本;
S103:对所述第一异常会话文本和所述第二异常会话文本取交集,得到第三异常会话文本。
上述实施方式中,对于步骤S101,本发明所针对的数据为客服和用户的会话问答数据,并将每次会话数据作为一个会话文本,本发明一次性可以处理多个会话文本。
为进行相似会话文本归类,可以使用主题模型进行文本主题构建。例如文本中出现很多体育类的词,如篮球、足球之类,则主题模型就会将其划分为体育类文本。
在主题模型中,主题表示一个概念/方面,表现为一系列单词,是这些单词的条件概率,且这些单词与该主题有较强的相关性。使用主题模型进行文本主题提取,主要有两个有益效果:
1)降维:能将长文档降到Q维(Q为主题的数目),并同时给出了各个会话文本主题的概率分布,把主题作为文本特征进行聚类时降低了时间复杂度;
2)通过在文本和词语之间加入主题这个隐层概念,可以较好的解决普通词向量模型不具有的一词多义和多词一义的问题,以此提高聚类后的准确率。
例如:词向量1[(送到,8),(送达,0)]和词向量2[(送到,0),(送达,2)]的余弦相似度为0,很明显不合逻辑,但如果都降到“配送”这一主题上效果会更好。且从内容角度来讲,只要两个文本的主题是相同的,这两个文本就是相关/相似的。
对于步骤S102,第一聚类方式主要选用密度最大值聚类,通过计算各个会话文本的局部密度和高局部密度点距离,可以选取簇中心和判断异常会话文本:
1)簇中心:有着比较大的局部密度ρi和很大的高密距离δi的会话文本被认为是簇的中心;
2)异常点:高密距离δi较大但局部密度ρi较小的会话文本是异常会话文本Outlier1。
对各个会话文本的局部密度和高局部密度点距离计算,具体参见后续图3所示描述,在此不再赘述。
对于步骤S103,密度最大值聚类除了可以确定第一异常会话文本外,还可以确定簇中心会话文本。
将簇中心会话文本作为K-mean聚类(第二聚类方式)的初始值,簇中心会话文本的数量作为K-mean聚类的聚类数量K,通过K-mean聚类得到第二异常会话文本Outlier2。
K-means聚类也称为K-平均聚类或K-均值聚类,是一种基于距离的聚类算法,采用误差平方和准则函数作为聚类的准则函数,该算法非常简单且使用广泛。K-mean聚类寻找异常会话文本的逻辑如下:
1)进行K-mean聚类,找到各簇的质心;
2)计算各会话文本到离它最近质心的距离;
3)计算各会话文本到离它最近质心的相对距离。相对距离是会话文本到质心的距离与该簇内所有会话文本到质心的距离中位数之比;
4)与给定阈值进行比较。若某个会话文本距离大于该阈值,则认为该会话文本为异常会话文本Outlier2。
对于步骤S104,对于第一聚类方式所得异常会话文本Outlier1和第二聚类方式所得异常会话文本Outlier2,进行差异提取,所得交集即为最终异常会话文本Outlier。
上述实施例所提供的方法,在检测异常会话文本的过程中,将密度最大值聚类和K-mean聚类两种聚类方式融合在一起,并对两者所得异常会话文本进行差异提取,提高了异常会话文本检测的准确度。
参见图2,示出了根据本发明实施例的一种可选的异常会话文本检测方法流程示意图,包括如下步骤:
S201:获取多个会话文本,对各个会话文本进行分词处理,以根据词语的出现次数,构建文本词语矩阵;其中,所述文本词语矩阵表示各个词语在各个会话文本中的出现概率;
S202:利用主题模型对所述文本词语矩阵进行主题建模,得到主题词语矩阵和文本主题矩阵;
S203:在文本主题矩阵中,通过对主题排序以将各个主题在同一会话文本中的出现概率进行组合,得到各个会话文本的主题概率分布;
S204:通过第一聚类方式对所述主题概率分布进行聚类处理,以确定簇中心会话文本和第一异常会话文本;
S205:以所述簇中心会话文本为起始值、簇中心会话文本的数量为聚类数量,通过第二聚类方式对所述主题概率分布进行聚类处理,得到第二异常会话文本;
S206:对所述第一异常会话文本和所述第二异常会话文本取交集,得到第三异常会话文本。
上述实施方式中,对于步骤S204~S206可参见图1所示步骤S102~S104的描述,在此不再赘述。
上述实施方式中,对于步骤S201,首先将会话文本转换为文本特征词向量,且中文处理方式和外文处理方式相同。
分词处理是文本处理的一个基础步骤,所选用的分词方式包括但不限于:
1)jieba分词;其中,jieba分词提供了词性标注功能,可以标注文本分词后每个词的词性。且词性标注集采用北大计算所词性标注集,属于采用基于统计模型的标注方法。
2)Tokenizer(分词器)或Tokenization(文本符号化);
3)RegexTokenizer:提供了更为高级的基于正则表达式(regex)匹配的单词拆分。
对每个会话文本进行分词处理后,得到的就是一个文本对应于一个词袋。可以基于词袋模型(Bag of Words,简称BOW),将每个会话文本转换为计算机所能够识别的一个特征向量,以此提高文本特征的运算性能。其中,词袋模型可以忽略掉文本的语法和语序等要素,仅将文本视为是若干个词汇的集合,且文本中每个单词的出现都是独立的。
除了词袋模型外,对于文本-特征词向量的转换,还可以使用HashingTF、Word2Vec等模型;其中,HashingTF是一个转换器(Transformer),可以将特征词组转换为给定长度的(词频)特征向量组;Word2Vec通过文本单词的平均数(条件概率)将每个文档转换为特征词向量,此向量可以用作特征预测、文档相似度计算等。
但无论是词袋模型、HashingTF还是Word2Vec,都需要考虑文本中各个单词的词频(有些情况需要考虑权重值)。例如:
Corpus[14]
[(36,1),(505,2),(506,3),(507,1),(508,1)]
可知对于第14个会话文本总共有5个有意义的单词。其中,36号单词出现一次、505号单词出现2次、506号单词出现3次,以此类推。
需要说明的是,客服会话文本中可能存在一些干扰项,本发明在对会话文本进行分词处理之前,还需要对其进行数据清洗,以得到噪声较小的会话文本。例如去掉文本中的标点、大小写、空格、网页标签等不规则的数据。
在文本分词后、文本特征词向量生成之前,同样需要去掉在文本中频繁出现、但未携带太多意义的词语,具体地去停用词(Stop words Remover),例如“啊”、“还是”、“这个”、“I”、“the”、“had”以及“a”。
主题模型对文本主题的提取,依赖于“文本-词语”—>“文本-主题”和“主题-词语”的转换。对于转换之前的“文本-词语”(即后续的P(词语|文本)),需要将各个会话文本的特征词向量进行组合,以此得到文本词语矩阵(m个n维列向量可以构成n×m矩阵,m个n维行向量可以构成m×n矩阵)。
对于步骤S202和S203,所采用的主题模型可以是LDA(Latent DirichletAllocation,隐含狄利克雷分布)主题模型。
LDA主题模型的基本思想为所有文章都是用基本的词汇组合而成,且通过词汇的概率分布来反映主题、主题的概率分布来表达文本。
概率公式可以用矩阵表示:
P(词语|文本)=P(词语|主题)P(主题|文本)
也就是:“同一主题下某个词语出现的概率”以及“同一文本下某个主题出现的概率”,两个概率的乘积,可以得到某个文本出现某个词语的概率,整体构成“词→主题→文档”这样的关系。
因此,通过LDA主题模型对所得文本词语矩阵进行主题建模,可以求得同一文本下某个主题出现的概率,以此按照主题排序进行组合,得到该文本的主题概率分布。
上述实施例所提供的方法,在聚类之前引入主题模型,较好的解决了一次多义和多词一义的问题,此外还将会话文本特征词向量降维到主题维度,降低了聚类的时间复杂度,提高了优化度。
参见图3,示出了根据本发明实施例的另一种可选的异常会话文本检测方法流程示意图,包括如下步骤:
S301:获取多个会话文本,对各个会话文本进行主题提取,得到各个会话文本的主题概率分布;
S302:根据各个会话文本的主题概率分布,确定各个会话文本的局部密度,提取局部密度高于第一会话文本局部密度的第二会话文本;
S303:获取各个第二会话文本与所述第一会话文本的距离,将最小的距离作为所述第一会话文本的高局部密度点距离;
S304:对各个会话文本的局部密度和高局部密度点距离进行密度最大值聚类,以确定所述簇中心会话文本和所述第一异常会话文本;
S305:以所述簇中心会话文本为起始值、簇中心会话文本的数量为聚类数量,通过第二聚类方式对所述主题概率分布进行聚类处理,得到第二异常会话文本;
S306:对所述第一异常会话文本和所述第二异常会话文本取交集,得到第三异常会话文本。
上述实施方式中,对于步骤S301可参见图1所示步骤S101和图2所示步骤S201~S203的描述,步骤S305和S306可参见图1所示步骤S103和S104的描述,在此不再赘述。
上述实施方式中,对于步骤S302~S304,密度最大值聚类的具体计算逻辑如下:
步骤一:计算各个会话文本的局部密度ρi
其中,dc是一个截断距离,ρi即到对象i的距离小于dc的对象的个数,即ρi为任何一个点以dc为半径的圆内样本点的数量。由于该算法只对ρi的相对值敏感,所以对dc的选择是稳健的,一种推荐做法是选择dc,使得平均每个点的邻居数为所有点的1%-2%。
通过局部密度计算,对于第i个会话文本,可以计算得到其局部密度ρi,对于第j个会话文本,可以计算其局部密度ρj,其他会话文本同理,例如有:ρ1、ρ2、ρ3。
步骤二:根据各个会话文本的局部密度,定义高局部密度点距离δi(简称高密距离):
其中,δi为在密度高于对象i的所有对象中到对象i最近的距离。
假设ρi=8、ρ1=9、ρ2=10、ρ3=4、ρj=20,对于第i个会话文本,将其局部密度和其他所有会话文本的局部密度做比较:
①由于ρi<ρ1,所以需计算会话文本i和会话文本1之间的距离;同理需计算和会话文本2和会话文本j之间的距离;
②由于ρi>ρ3,所以无需计算会话文本i和会话文本3之间的距离。
总之对于会话文本i(即第一会话文本),计算局部密度比其高的会话文本(即第二会话文本)与其之间的距离。之后,在这些距离中取最小的数值,以此得到该会话文本i的高局部密度点距离。
步骤三:之后进行密度最大值聚类,得到簇中心会话文本和第一异常会话文本。参见图1步骤S102所示,在此不再赘述。
上述实施例所提供的方法,通过密度最大值聚类确定簇中心和簇中心数,并将其作为K-mean聚类的初始值和聚类类数,减少K-mean聚类的迭代次数,加快了收敛速度,实现了两种聚类方式很好的融合。
参见图4,示出了根据本发明实施例的一具体地异常会话文本检测方法流程示意图,包括如下步骤:
S401:获取多个会话文本,对各个会话文本进行分词处理,以根据词语的出现次数,构建文本词语矩阵;其中,所述文本词语矩阵表示各个词语在各个会话文本中的出现概率;
S402:利用主题模型对所述文本词语矩阵进行主题建模,得到主题词语矩阵和文本主题矩阵;
S403:在所述文本主题矩阵中,通过对主题排序以将各个主题在同一会话文本中的出现概率进行组合,得到各个会话文本的主题概率分布;
S404:根据各个会话文本的主题概率分布,确定各个会话文本的局部密度,提取局部密度高于第一会话文本局部密度的第二会话文本;
S405:获取各个第二会话文本与所述第一会话文本的距离,将最小的距离作为所述第一会话文本的高局部密度点距离;
S406:对各个会话文本的局部密度和高局部密度点距离进行密度最大值聚类,以确定所述簇中心会话文本和所述第一异常会话文本;
S407:以所述簇中心会话文本为起始值、簇中心会话文本的数量为聚类数量,通过第二聚类方式对所述主题概率分布进行聚类处理,得到第二异常会话文本;
S408:对所述第一异常会话文本和所述第二异常会话文本取交集,得到第三异常会话文本。
本发明实施例所提供的方法相比现有技术,至少存在有益效果:
1)利用已有的客服会话记录进行模型训练和分析,将密度最大值聚类和K-mean聚类融合一起进行异常会话文本识别,提高了异常会话文本检测的准确率;
2)通过密度最大值聚类进行文本降维和聚类分析,以克服时间复杂度较高和对高维稀疏数据性能不好的问题;
3)将密度最大值聚类所得簇中心作为初始聚类中心点进行K-mean聚类,不但提高了K-mean聚类的稳定性和可靠性,而且加快了K-mean聚类的收敛速度。
参见图5,示出了本发明实施例提供的一种异常会话文本检测装置500的主要模块示意图,包括:
主题提取模块501,用于获取多个会话文本,对各个会话文本进行主题提取,得到各个会话文本的主题概率分布;
第一检测模块502,用于通过第一聚类方式对所述主题概率分布进行聚类处理,以确定簇中心会话文本和第一异常会话文本;
第二检测模块503,用于以所述簇中心会话文本为起始值、簇中心会话文本的数量为聚类数量,通过第二聚类方式对所述主题概率分布进行聚类处理,得到第二异常会话文本;
文本确定模块504,用于对所述第一异常会话文本和所述第二异常会话文本取交集,得到第三异常会话文本。
本发明实施装置中,所述主题提取模块501,用于:
对各个会话文本进行分词处理,以根据词语的出现次数,构建文本词语矩阵;其中,所述文本词语矩阵表示各个词语在各个会话文本中的出现概率;
利用主题模型对所述文本词语矩阵进行主题建模,得到主题词语矩阵和文本主题矩阵;
在所述文本主题矩阵中,通过对主题排序以将各个主题在同一会话文本中的出现概率进行组合,得到各个会话文本的主题概率分布。
本发明实施装置中,所述第一检测模块502,用于:
根据各个会话文本的主题概率分布,确定各个会话文本的局部密度和高局部密度点距离;
对各个会话文本的局部密度和高局部密度点距离进行密度最大值聚类,以确定所述簇中心会话文本和所述第一异常会话文本。
本发明实施装置中,所述第一检测模块502,用于:
提取局部密度高于第一会话文本局部密度的第二会话文本;
获取各个第二会话文本与所述第一会话文本的距离,将最小的距离作为所述第一会话文本的高局部密度点距离。
本发明实施装置中,所述第二检测模块503,用于:
利用所述第二聚类方式,确定各个会话文本簇的质心;
获取各个会话文本到相邻最近质心的相对距离;其中,相对距离为会话文本到质心的距离与对应簇内所有会话文本到质心的距离中位数的比值;
提取相对距离大于预定相对距离阈值的会话文本,将所提取的会话文本确定为所述第二异常会话文本。
另外,在本发明实施例中所述装置的具体实施内容,在上面所述方法中已经详细说明了,故在此重复内容不再说明。
图6示出了可以应用本发明实施例的示例性系统架构600。
如图6所示,系统架构600可以包括终端设备601、602、603,网络604和服务器605(仅仅是示例)。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备601、602、603通过网络604与服务器605交互,以接收或发送消息等。终端设备601、602、603上可以安装有各种通讯用户端应用。
终端设备601、602、603可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器605可以是提供各种服务的服务器,例如对用户利用终端设备601、602、603所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。
需要说明的是,本发明实施例所提供的方法一般由服务器605执行,相应地,装置一般设置于服务器605中。
应该理解,图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图7,其示出了适于用来实现本发明实施例的终端设备的计算机系统700的结构示意图。图7示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括主题提取模块、第一检测模块、第二检测模块和文本确定模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,文本确定模块还可以被描述为“确定异常会话文本的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:
获取多个会话文本,对各个会话文本进行主题提取,得到各个会话文本的主题概率分布;
通过第一聚类方式对主题概率分布进行聚类处理,以确定簇中心会话文本和第一异常会话文本;
以所述簇中心会话文本为起始值、簇中心会话文本的数量为聚类数量,通过第二聚类方式对主题概率分布进行聚类处理,得到第二异常会话文本;
对第一异常会话文本和第二异常会话文本取交集,得到第三异常会话文本。
根据本发明实施例的技术方案,通过密度最大值聚类进行文本降维和聚类分析,以克服时间复杂度较高和对高维稀疏数据性能不好的问题;将密度最大值聚类所得簇中心作为初始聚类中心点进行K-mean聚类,不但提高了K-mean聚类的稳定性和可靠性,而且加快了K-mean聚类的收敛速度;将密度最大值聚类和K-mean聚类融合一起进行异常会话文本识别,提高了异常会话文本检测的准确率。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (8)
1.一种异常会话文本检测方法,其特征在于,包括:
获取多个会话文本,对各个会话文本进行主题提取,得到各个会话文本的主题概率分布;
通过第一聚类方式对所述主题概率分布进行聚类处理,以确定簇中心会话文本和第一异常会话文本;
以所述簇中心会话文本为起始值、簇中心会话文本的数量为聚类数量,通过第二聚类方式对所述主题概率分布进行聚类处理,得到第二异常会话文本;
对所述第一异常会话文本和所述第二异常会话文本取交集,得到第三异常会话文本。
2.根据权利要求1所述的方法,其特征在于,所述对各个会话文本进行主题提取,得到各个会话文本的主题概率分布,包括:
对各个会话文本进行分词处理,以根据词语的出现次数,构建文本词语矩阵;其中,所述文本词语矩阵表示各个词语在各个会话文本中的出现概率;
利用主题模型对所述文本词语矩阵进行主题建模,得到主题词语矩阵和文本主题矩阵;
在所述文本主题矩阵中,通过对主题排序以将各个主题在同一会话文本中的出现概率进行组合,得到各个会话文本的主题概率分布。
3.根据权利要求1所述的方法,其特征在于,所述通过第一聚类方式对所述主题概率分布进行聚类处理,以确定簇中心会话文本和第一异常会话文本,包括:
根据各个会话文本的主题概率分布,确定各个会话文本的局部密度和高局部密度点距离;
对各个会话文本的局部密度和高局部密度点距离进行密度最大值聚类,以确定所述簇中心会话文本和所述第一异常会话文本。
4.根据权利要求3所述的方法,其特征在于,所述确定各个会话文本的局部密度和高局部密度点距离,包括:
提取局部密度高于第一会话文本局部密度的第二会话文本;
获取各个第二会话文本与所述第一会话文本的距离,将最小的距离作为所述第一会话文本的高局部密度点距离。
5.根据权利要求1或3所述的方法,其特征在于,所述通过第二聚类方式对所述主题概率分布进行聚类处理,得到第二异常会话文本,包括:
利用所述第二聚类方式,确定各个会话文本簇的质心;
获取各个会话文本到相邻最近质心的相对距离;其中,相对距离为会话文本到质心的距离与对应簇内所有会话文本到质心的距离中位数的比值;
提取相对距离大于预定相对距离阈值的会话文本,将所提取的会话文本确定为所述第二异常会话文本。
6.一种异常会话文本检测装置,其特征在于,包括:
主题提取模块,用于获取多个会话文本,对各个会话文本进行主题提取,得到各个会话文本的主题概率分布;
第一检测模块,用于通过第一聚类方式对所述主题概率分布进行聚类处理,以确定簇中心会话文本和第一异常会话文本;
第二检测模块,用于以所述簇中心会话文本为起始值、簇中心会话文本的数量为聚类数量,通过第二聚类方式对所述主题概率分布进行聚类处理,得到第二异常会话文本;
文本确定模块,用于对所述第一异常会话文本和所述第二异常会话文本取交集,得到第三异常会话文本。
7.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
8.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010038629.0A CN113127639B (zh) | 2020-01-14 | 2020-01-14 | 一种异常会话文本检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010038629.0A CN113127639B (zh) | 2020-01-14 | 2020-01-14 | 一种异常会话文本检测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113127639A true CN113127639A (zh) | 2021-07-16 |
CN113127639B CN113127639B (zh) | 2023-11-03 |
Family
ID=76771296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010038629.0A Active CN113127639B (zh) | 2020-01-14 | 2020-01-14 | 一种异常会话文本检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113127639B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113656535A (zh) * | 2021-08-31 | 2021-11-16 | 上海观安信息技术股份有限公司 | 一种异常会话检测方法、装置及计算机存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105224954A (zh) * | 2015-10-10 | 2016-01-06 | 福州大学 | 一种基于Single-pass去除小话题影响的话题发现方法 |
US20180032874A1 (en) * | 2016-07-29 | 2018-02-01 | Ca, Inc. | Document analysis system that uses process mining techniques to classify conversations |
WO2018036555A1 (zh) * | 2016-08-25 | 2018-03-01 | 腾讯科技(深圳)有限公司 | 会话处理方法及装置 |
CN109101518A (zh) * | 2018-05-21 | 2018-12-28 | 全球能源互联网研究院有限公司 | 语音转录文本质量评估方法、装置、终端及可读存储介质 |
CN109947934A (zh) * | 2018-07-17 | 2019-06-28 | 中国银联股份有限公司 | 针对短文本的数据挖掘方法及系统 |
-
2020
- 2020-01-14 CN CN202010038629.0A patent/CN113127639B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105224954A (zh) * | 2015-10-10 | 2016-01-06 | 福州大学 | 一种基于Single-pass去除小话题影响的话题发现方法 |
US20180032874A1 (en) * | 2016-07-29 | 2018-02-01 | Ca, Inc. | Document analysis system that uses process mining techniques to classify conversations |
WO2018036555A1 (zh) * | 2016-08-25 | 2018-03-01 | 腾讯科技(深圳)有限公司 | 会话处理方法及装置 |
CN109101518A (zh) * | 2018-05-21 | 2018-12-28 | 全球能源互联网研究院有限公司 | 语音转录文本质量评估方法、装置、终端及可读存储介质 |
CN109947934A (zh) * | 2018-07-17 | 2019-06-28 | 中国银联股份有限公司 | 针对短文本的数据挖掘方法及系统 |
Non-Patent Citations (2)
Title |
---|
ANNA L. BUCZAK等: "A Survey of Data Mining and Machine Learning Methods for Cyber Security Intrusion Detection", 《IEEE COMMUNICATIONS SURVEYS & TUTORIALS》, vol. 18, no. 2, pages 1153 - 1176, XP011611147, DOI: 10.1109/COMST.2015.2494502 * |
孙莉;张振;李继云;王梅;: "基于微博文本和元数据的话题检测", 计算机应用与软件, no. 03 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113656535A (zh) * | 2021-08-31 | 2021-11-16 | 上海观安信息技术股份有限公司 | 一种异常会话检测方法、装置及计算机存储介质 |
CN113656535B (zh) * | 2021-08-31 | 2023-11-14 | 上海观安信息技术股份有限公司 | 一种异常会话检测方法、装置及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113127639B (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106897428B (zh) | 文本分类特征提取方法、文本分类方法及装置 | |
CN107992596B (zh) | 一种文本聚类方法、装置、服务器和存储介质 | |
CN110909165B (zh) | 数据处理方法、装置、介质及电子设备 | |
CN105069143B (zh) | 提取文档中关键词的方法及装置 | |
CN107885717B (zh) | 一种关键词提取方法及装置 | |
CN113095080B (zh) | 基于主题的语义识别方法、装置、电子设备和存储介质 | |
CN111753086A (zh) | 一种垃圾邮件识别方法和装置 | |
CN114861889B (zh) | 深度学习模型的训练方法、目标对象检测方法和装置 | |
CN111861596B (zh) | 一种文本分类方法和装置 | |
CN113569578B (zh) | 一种用户意图识别方法、装置和计算机设备 | |
CN110874532A (zh) | 提取反馈信息的关键词的方法和装置 | |
CN112818091A (zh) | 基于关键词提取的对象查询方法、装置、介质与设备 | |
CN112926298A (zh) | 新闻内容识别方法、相关装置及计算机程序产品 | |
CN114647727A (zh) | 应用于实体信息识别的模型训练方法、装置和设备 | |
CN112686035A (zh) | 一种未登录词进行向量化的方法和装置 | |
CN113127639B (zh) | 一种异常会话文本检测方法和装置 | |
CN112925912A (zh) | 文本处理方法、同义文本召回方法及装置 | |
US20170293597A1 (en) | Methods and systems for data processing | |
US20230004715A1 (en) | Method and apparatus for constructing object relationship network, and electronic device | |
CN114090885B (zh) | 产品标题核心词提取方法、相关装置及计算机程序产品 | |
US20230274092A1 (en) | Descriptive Topic Modeling with LDA on Bags of Utterance Clusters | |
CN112784046B (zh) | 文本聚簇的方法、装置、设备及存储介质 | |
CN115577082A (zh) | 文档关键词的提取方法、装置、电子设备及存储介质 | |
US11822609B2 (en) | Prediction of future prominence attributes in data set | |
CN115238676A (zh) | 招标需求热点识别方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |