CN112036176A - 文本聚类方法及装置 - Google Patents

文本聚类方法及装置 Download PDF

Info

Publication number
CN112036176A
CN112036176A CN202010713845.0A CN202010713845A CN112036176A CN 112036176 A CN112036176 A CN 112036176A CN 202010713845 A CN202010713845 A CN 202010713845A CN 112036176 A CN112036176 A CN 112036176A
Authority
CN
China
Prior art keywords
text
clustering
node
participles
corpora
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010713845.0A
Other languages
English (en)
Other versions
CN112036176B (zh
Inventor
刘泽城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dazhu Hangzhou Technology Co ltd
Original Assignee
Dazhu Hangzhou Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dazhu Hangzhou Technology Co ltd filed Critical Dazhu Hangzhou Technology Co ltd
Priority to CN202010713845.0A priority Critical patent/CN112036176B/zh
Publication of CN112036176A publication Critical patent/CN112036176A/zh
Application granted granted Critical
Publication of CN112036176B publication Critical patent/CN112036176B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本聚类方法、装置、计算机设备及计算机存储介质,涉及文本聚类技术领域,能够快速实现对海量文本数据的精准聚类,提高文本聚类效果。所述方法包括:获取从网络平台中随机抽取出各个类目下的文本语料;利用多模式匹配算法,提取所述各类目下的文本语料中具有文本特征的文本分词;将所述具有文本特征的文本分词输入至预先训练的语言模型,得到文本分词的向量表示;利用基于密度的聚类算法,对所述文本分词的向量表示进行聚类。

Description

文本聚类方法及装置
技术领域
本发明涉及文本聚类技术领域,尤其是涉及文本聚类方法、装置、计算机设备及计算机存储介质。
背景技术
近年来,随着信息技术和数据库的迅猛发展,人们可以非常方便地获取和存储大量文本数据,文本数据是一种非结构化数据,具有高纬、数据量大、价值密度低等特点,如何从海量文本数据进行有效处理及价值挖掘已成为当今文本处理研究的热点,文本聚类是自然语言文本智能分析技术的一种应用,利用文本之间的相似性实现相似文本的聚类,便于对同类别文本数据的分析处理。
现有技术中,常规的文本聚类方法主要包括文本特征提取阶段以及文本特征聚类阶段,通过文本特征提取阶段可以提取到文本数据的,然而,对于大量文本数据,常规的文本聚类方法仍然存在以下两方面不足,一方面,在文本特征提取过程中,常规的文本聚类方法使用完整的文本进行语言模型的构建,导致添加了很多无效的文本特征,语言模型构建速度较慢,影响文本聚类的速度;另一方面,在文本特征聚类阶段,常规的文本聚类方法使用欧氏距离进行文本特征直接差异的计算,计算复杂度较高,使得文本聚类的准确度较低,影响文本聚类效果。
发明内容
有鉴于此,本发明提供了一种文本聚类方法、装置、计算机设备及计算机存储介质,主要目的在于能够快速实现对海量文本数据的精准聚类,提高文本聚类效果。
依据本发明一个方面,提供了一种文本聚类方法,该方法包括:
获取从网络平台中随机抽取出各个类目下的文本语料;
利用多模式匹配算法,提取所述各类目下的文本语料中具有文本特征的文本分词;
将所述具有文本特征的文本分词输入至预先训练的语言模型,处理为文本分词的向量表示;
利用基于密度的聚类算法,对所述文本分词的向量表示进行聚类。
进一步地,所述利用多模式匹配算法,提取所述各类目下的文本语料中具有文本特征的文本分词,具体包括:
利用多模式匹配算法所构建的树形结构,遍历匹配所述各类文本类目下的文本语料;
记录树形结构中与文本语料匹配相一致目标节点对应的模式串;
汇总所述目标节点对应的模式串,形成具有文本特征的文本分词。
进一步地,所述利用多模式匹配算法所构建的树形结构,遍历匹配所述各类文本类目下的文本语料,具体包括:
利用多模式匹配算法,将预先维护的特征词转换为多模式串后,构建包含有失败指针的树形结构,所述树形结构中每个节点对应有一个失败指针;
将所述各类文本类目下的文本语料形成多个主串分别沿着树形结构中节点指向以及节点对应失败指针的指向与每个节点对应的模式串进行匹配。
进一步地,所述将所述各类文本类目下的文本语料形成多个主串分别沿着树形结构中节点指向以及节点对应失败指针的指向与每个节点对应的模式串进行匹配,具体包括:
将所述各类文本类目下的文本语料形成多个主串分别沿着树形结构中节点指向与每个节点对应的模式串进行匹配;
若匹配相不一致,则沿着节点对应失败指针的指向继续与每个节点对应的模式串进行匹配。
进一步地,所述语言模型中所述将所述具有文本特征的文本分词输入至预先训练的语言模型,处理为文本分词的向量表示,具体包括:
对所述具有文本特征的文本分词进行离散处理,形成分词序列;
利用所述预先训练的语言模型中多维向量映射参数将离散处理形成的分词序列映射至多维向量空间中,得到文本分词的向量表示。
进一步地,所述利用基于密度的聚类算法,对所述文本分词的向量表示进行聚类,具体包括:
利用基于密度的聚类算法,对所述文本分词的向量表示进行重新组织,构建二叉查找树;
从所述二叉查找树的根节点开始作为中心节点,对所述二叉查找树中每个节点进行最邻近查找,得到所述根节点相邻节点的邻域阈值;
基于所述相邻节点的邻域阈值,对所述文本分词的向量表示进行聚类。
进一步地,所述基于所述邻域阈值,对所述文本分词的向量表示进行聚类,具体包括:
按照所述邻域阈值由小至大的排列顺序,逐个将相邻节点加入至所述中心节点后,计算以所述中心节点预设距离为半径形成分布区域内的节点密度差异;
若所述分布区域内的节点密度差异大于预设阈值,则排除当前相邻接点后对剩余节点进行聚类。
依据本发明另一个方面,提供了一种文本聚类装置,所述装置包括:
获取单元,用于获取从网络平台中随机抽取出各个类目下的文本语料;
提取单元,用于利用多模式匹配算法,提取所述各类目下的文本语料中具有文本特征的文本分词;
处理单元,用于将所述具有文本特征的文本分词输入至预先训练的语言模型,处理为文本分词的向量表示;
聚类单元,用于利用基于密度的聚类算法,对所述文本分词的向量表示进行聚类。
进一步地,所述提取单元包括:
匹配模块,用于利用多模式匹配算法所构建的树形结构,遍历匹配所述各类文本类目下的文本语料;
记录模块,用于记录树形结构中与文本语料匹配相一致目标节点对应的模式串;
汇总模块,用于汇总所述目标节点对应的模式串,形成具有文本特征的文本分词。
进一步地,所述匹配模块包括:
构建子模块,用于利用多模式匹配算法,将预先维护的特征词转换为多模式串后,构建包含有失败指针的树形结构,所述树形结构中每个节点对应有一个失败指针;
匹配子模块,用于将所述各类文本类目下的文本语料形成多个主串分别沿着树形结构中节点指向以及节点对应失败指针的指向与每个节点对应的模式串进行匹配。
进一步地,所述匹配子模块,具体用于将所述各类文本类目下的文本语料形成多个主串分别沿着树形结构中节点指向与每个节点对应的模式串进行匹配;
所述匹配子模块,具体还用于若匹配相不一致,则沿着节点对应失败指针的指向继续与每个节点对应的模式串进行匹配。
进一步地,所述处理单元包括:
处理模块,用于对所述具有文本特征的文本分词进行离散处理,形成分词序列;
映射模块,用于利用所述预先训练的语言模型中多维向量映射参数将离散处理形成的分词序列映射至多维向量空间中,得到文本分词的向量表示。
进一步地,所述聚类单元包括:
构建模块,用于利用基于密度的聚类算法,对所述文本分词的向量表示进行重新组织,构建二叉查找树;
查找模块,用于从所述二叉查找树的根节点开始作为中心节点,对所述二叉查找树中每个节点进行最邻近查找,得到所述根节点相邻节点的邻域阈值;
聚类模块,用于基于所述相邻节点的邻域阈值,对所述文本分词的向量表示进行聚类。
进一步地,所述聚类模块包括:
计算子模块,用于按照所述邻域阈值由小至大的排列顺序,逐个将相邻节点加入至所述中心节点后,计算以所述中心节点预设距离为半径形成分布区域内的节点密度差异;
聚类子模块,用于若所述分布区域内的节点密度差异大于预设阈值,则排除当前相邻接点后对剩余节点进行聚类。
依据本发明又一个方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现文本聚类方法的步骤。
依据本发明再一个方面,提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现文本聚类方法的步骤。
借由上述技术方案,本发明提供一种文本聚类方法及装置,通过获取从网络平台中随机抽取出各个类目下的文本语料,然后利用多模式匹配算法,提取各类目下的文本语料中具有文本特征的文本分词,进一步将具有文本特征的文本分词输入至预先训练的语言模型,得到文本分词的向量表示,最后利用基于密度的聚类算法,对文本分词的向量表示进行聚类。与现有技术中使用完整语言模型进行文本聚类的方式相比,本发明实施例通过多模式匹配算法降低了文本分词中无效词汇对语言模型的干扰,利用基于密度的聚类算法对距离的判断进行了优化,能够快速实现对海量文本数据的精准聚类,提高文本聚类效果。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种文本聚类方法流程示意图;
图2示出了本发明实施例提供的另一种文本聚类方法流程示意图;
图3示出了本发明实施例提供的一种文本聚类装置结构示意图;
图4示出了本发明实施例提供的另一种文本聚类装置结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种文本聚类方法,能够快速实现对海量文本数据的精准聚类,提高文本聚类效果,如图1所示,该方法包括:
101、获取从网络平台中随机抽取出各个类目下的文本语料。
其中,网络平台中记录有从不同渠道收集到的机器数据,该机器数据通常由服务器、存储、互联网及物联网中的设备或程序生成的大量结构化、非结构化的数据。相比传统数据库数据,机器数据具有数据量大、增长速度快、复杂性高、种类多样化等特点。为了保证数据的多样性,机器数据应该包含各行各业在运营过程中所产生的数据,例如,金融、体育、旅游、教育等。
由于机器数据通常表现为文本形式,为了充分利用文本语料,可以从大量的文本语料中挖掘出用户感兴趣、潜在有用的信息,进而将文本语料中的有用信息应用至不同的业务场景,例如,对文本进行解析的业务场景,对文本进行分类的业务场景。
102、利用多模式匹配算法,提取所述各类目下的文本语料中具有文本特征的文本分词。
其中,多模式匹配算法相当于一种自动机算法,构建自动机需要一份词典表,该词典表为预先输入的具有文本特征的各种分文本分词,进而将词典表输入至自动机,自动机会生成树形结构,进一步将各类目下的文本语料作为输入待匹配的字符串,从树形结构的根节点开始查找,提取各类目下的文本语料中具有文本特征的文本分词。
例如,词典表中包含有词语“ash”、“shex”、“sha”,输入待匹配的字符串为“ashexsha”,经过自动机生成的树形结构进行查询后,输出待匹配的字符串中包含字典表中的词语为“ash”、“shex”、“sha”。
103、将所述具有文本特征的文本分词输入至预先训练的语言模型,得到文本分词的向量表示。
其中,语言模型可将文本分词进行向量化,进而转换为向量表示,这里可以使用word2vec算法,具体可以通过神经网络机器学习算法来训练网络模型,并在训练过程中求出word所对应的vector。
可以理解的是,文本分词进行向量化是将语言中的分词进行数学化,即把一个分词表示成一个向量,具体文本分词进行向量化主要有以下两种表达方式,一种为one-hot表示方式,用一个很长的向量来表示一个文本分词。向量的长度为词典的大小(通常达到),向量的分量只有一个1,其余全为0,1的位置对应该词在词典中的位置。比如,“土豆”表示为[00000100000000 0…],而“马铃薯”表示为[010000000000000…];另一种为离散表示方式,通过将文本分词映射到一个低维度、稠密的实数向量空间中(空间大小一般为100或者200),使得词义越相近的文本分词在空间上的距离越近,比如,“土豆”可以表示为[0.843,-0.125,0.734,-0.345,0.654…],而“马铃薯”表示为[0.923,-0.231,0.698,-0.233,0.743…]。
在本发明实施例中,通常情况下网络模型具有多个层级,具体在训练网络模型的过程中可以通过卷积层、全连接层、池化层以及分类层结构实现映射效果,这里的卷积层相当于神经网络模型的隐含层,可以为多层结构,用于提取更深层次的已标注数据的特征参数;在神经网络模型中,为了减小参数,减低计算,常常在连续卷积层中间隔插入池化层;这里的全连接层与卷积层相似,卷积层的神经元和上一层输出局部区域相连,当然为了减少输出特征向量过多,可以设置两个全连接层,在训练数据通过若干个卷积层训练后对训练输出的特征参数进行整合。
104、利用基于密度的聚类算法,对所述文本分词的向量表示进行聚类。
其中,基于密度的聚类算法能够将具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。具体可以将文本分词的向表示作为节点,任选一个未被访问的节点开始,通过扫描半径和最小包含节点数量,找出与其距离在扫描半径之内的所有附近点,如果附近节点数量大于最小包含节点数量,则当前节点与其附近节点形成一个簇,并且出发点被标记为已访问,然后递归,以相同的方法处理簇内所有未被标记为已访问的节点,进而对簇进行扩展,如果附近节点数量小于最小包含节点数量,则将该节点暂时标记为噪声点,如果簇充分地被扩展,即簇内所有节点被标记为已访问,然后用同样的算法来处理未被访问的节点。
本发明提供一种文本聚类方法,通过获取从网络平台中随机抽取出各个类目下的文本语料,然后利用多模式匹配算法,提取各类目下的文本语料中具有文本特征的文本分词,进一步将具有文本特征的文本分词输入至预先训练的语言模型,得到文本分词的向量表示,最后利用基于密度的聚类算法,对文本分词的向量表示进行聚类。与现有技术中使用完整语言模型进行文本聚类的方式相比,本发明实施例通过多模式匹配算法降低了文本分词中无效词汇对语言模型的干扰,利用基于密度的聚类算法对距离的判断进行了优化,能够快速实现对海量文本数据的精准聚类,提高文本聚类效果。
本发明实施例提供了另一种文本聚类方法,能够快速实现对海量文本数据的精准聚类,提高文本聚类效果,如图2所示,所述方法包括:
201、获取从网络平台中随机抽取出各个类目下的文本语料。
可以理解的是,这里网络平台中各类目下的文本语料的数据获取来源可以包括但不局限于应用日志、物联网、GPS定位等,并且各类目下的文本语料可以应用到不同行业的应用场景中,例如,金融类目的文本语料可以用于交易反欺诈,利用消费数据、消费时间、商户号等金融类目的文本语料,并结合一些其它来源的信息,去判断每一笔交易被欺诈的可能性。
对于本发明实施例,网络平台中的数据交互会产生大量的文本语料,而从文本语料中挖掘有用信息可作为分析用户需求的依据,例如,从文本语料中挖掘用户喜好的内容,进而向用户推送喜好的内容,从文本语料中挖掘用户的购买记录,进而便于商家更合理的展示商品。
可以理解的是,为了便于网络平台进行数据挖掘,可以在获取从网络平台中随机抽取出各个类目下的文本语料之前,对文本语料数据进行清洗,例如对数据格式进行规整,对无用的冗余文本语料进行删除等操作,以提高文本语料的挖掘效率。
202、利用多模式匹配算法所构建的树形结构,遍历匹配所述各类文本类目下的文本语料。
对于本发明实施例,由于多模式匹配算法能够从文本语料中匹配出多个模式串,具体可以利用多模式匹配算法,将预先维护的特征词转换为多模式串后,构建包含有失败指针的树形结构,该预先维护的特征词可以为各类目下文本语料中反映词性的文本分词,通常包含文本特征,该树形结构中每个节点对应有一个失败指针;,进一步将各类文本类目下的文本语料形成多个主串分别沿着树形结构中节点指向以及节点对应失败指针的指向与每个节点对应的模式串进行匹配。
可以理解的是,为了便于节点对应的模式串能够准确匹配,具体在将各类文本类目下的文本语料形成多个主串分别沿着树形结构中节点指向以及节点对应失败指针的指向与每个节点对应的模式串进行匹配的过程中,具体包可以将各类文本类目下的文本语料形成多个主串分别沿着树形结构中节点指向与每个节点对应的模式串进行匹配;若匹配相不一致,则沿着节点对应失败指针的指向继续与每个节点对应的模式串进行匹配。
203、记录树形结构中与文本语料匹配相一致目标节点对应的模式串。
应说明的是,树形结构中的每一个节点都有一个失败指针,通常情况,该失败指针可以指向与它模式串相同的节点,当然如果树形结构中不存在这样的节点,则该失败指针指向根节点,根节点的失败指针指向null,具体在应用过程中,针对未知多个主串,从第一个主串开始逐个寻找路径,如果没有任何路径不做任何操作,如果有路径则沿着路径指向继续查找节点模式串是否匹配,如果沿着路径发现节点模式串不匹配,则基于当前节点对应失败指针所指向的节点继续查找节点模式串是否匹配,匹配过程随着失败指针指向根节点结束,直至最后一个主串匹配完成结束。
204、汇总所述目标节点对应的模式串,形成具有文本特征的文本分词。
可以理解的是,利用自动机算法可以查找各类目下文本语料出现在词典表中的文本分词,该文本分词包含有文本特征,能够从一定程度上反映出文本语料的有用信息。
205、对所述具有文本特征的文本分词进行离散处理,形成分词序列。
对于离散处理后形成的分词序列中包含有大量非零分量,相对分散,将文本分词信息分布不到各个序列中,可以使得各个序列中包含有各个空间位置上文本分词的信息。
206、利用所述预先训练的语言模型中多维向量映射参数将离散处理形成的分词序列映射至多维向量空间中,得到文本分词的向量表示。
具体将离散处理后形成的分词序列映射值多维向量空间的过程中,预先训练的语言模型中多维向量映射参数相当于文本分词在空间中的坐标系表示,这里可以为给定其中的某个分词点建立直角坐标系,基于该直角坐标系上的每个分词点唯一对应一个坐标,接着引入欧氏距离,在平面上找出与这个分词点最相近的一个点,距离越小说明文本分词之间相似度越高,而每个分词对应坐标即为文本分词的词向量表示。
207、利用基于密度的聚类算法,对所述文本分词的向量表示进行聚类。
具体在对文本分词的向量表示进行聚类的过程中,可以利用基于密度的聚类算法,对文本分词的向量表示进行重新组织,构建二叉查找树,然后从二叉查找树的根节点开始作为中心节点,对二叉查找树中每个节点进行最邻近查找,得到所述根节点相邻节点的邻域阈值,最后基于所述相邻节点的邻域阈值,对文本分词的向量表示进行聚类。
具体在基于相邻节点的邻域阈值,对文本分词的向量表示进行聚类的过程中,可以按照邻域阈值由小至大的排列顺序,逐个将相邻节点加入至所述中心节点后,计算以中心节点预设距离为半径形成分布区域内的节点密度差异;若分布区域内的节点密度差异大于预设阈值,则排除当前相邻接点后对剩余节点进行聚类。
本发明实施例基于自动机算法对文本语料中敏感特征进行提取,能够提高文本语料中敏感词的利用率,降低了无效词汇对语言模型的干扰,利用KD-Tree聚类算法对距离的判断进行优化,提升了文本聚类的速度。
进一步地,作为图1所述方法的具体实现,本发明实施例提供了一种文本聚类装置,如图3所示,所述装置包括:获取单元31、提取单元32、处理单元33、聚类单元34。
获取单元31,可以用于获取从网络平台中随机抽取出各个类目下的文本语料;
提取单元32,可以用于利用多模式匹配算法,提取所述各类目下的文本语料中具有文本特征的文本分词;
处理单元33,可以用于将所述具有文本特征的文本分词输入至预先训练的语言模型,处理为文本分词的向量表示;
聚类单元34,可以用于利用基于密度的聚类算法,对所述文本分词的向量表示进行聚类。
本发明提供一种文本聚类装置,通过获取从网络平台中随机抽取出各个类目下的文本语料,然后利用多模式匹配算法,提取各类目下的文本语料中具有文本特征的文本分词,进一步将具有文本特征的文本分词输入至预先训练的语言模型,得到文本分词的向量表示,最后利用基于密度的聚类算法,对文本分词的向量表示进行聚类。与现有技术中使用完整语言模型进行文本聚类的方式相比,本发明实施例通过多模式匹配算法降低了文本分词中无效词汇对语言模型的干扰,利用基于密度的聚类算法对距离的判断进行了优化,能够快速实现对海量文本数据的精准聚类,提高文本聚类效果。
作为图3中所示文本聚类装置的进一步说明,图4是根据本发明实施例另一种文本聚类装置的结构示意图,如图4所示,所述提取单元32包括:
匹配模块321,可以用于利用多模式匹配算法所构建的树形结构,遍历匹配所述各类文本类目下的文本语料;
记录模块322,可以用于记录树形结构中与文本语料匹配相一致目标节点对应的模式串;
汇总模块323,可以用于汇总所述目标节点对应的模式串,形成具有文本特征的文本分词。
进一步地,所述匹配模块321包括:
构建子模块3211,可以用于利用多模式匹配算法,将预先维护的特征词转换为多模式串后,构建包含有失败指针的树形结构,所述树形结构中每个节点对应有一个失败指针;
匹配子模块3212,可以用于将所述各类文本类目下的文本语料形成多个主串分别沿着树形结构中节点指向以及节点对应失败指针的指向与每个节点对应的模式串进行匹配。
进一步地,所述匹配子模块3212,具体可以用于将所述各类文本类目下的文本语料形成多个主串分别沿着树形结构中节点指向与每个节点对应的模式串进行匹配;
所述匹配子模块3212,具体还可以用于若匹配相不一致,则沿着节点对应失败指针的指向继续与每个节点对应的模式串进行匹配。
进一步地,所述处理单元33包括:
处理模块331,可以用于对所述具有文本特征的文本分词进行离散处理,形成分词序列;
映射模块332,可以用于利用所述预先训练的语言模型中多维向量映射参数将离散处理形成的分词序列映射至多维向量空间中,得到文本分词的向量表示。
进一步地,所述聚类单元34包括:
构建模块341,可以用于利用基于密度的聚类算法,对所述文本分词的向量表示进行重新组织,构建二叉查找树;
查找模块342,可以用于从所述二叉查找树的根节点开始作为中心节点,对所述二叉查找树中每个节点进行最邻近查找,得到所述根节点相邻节点的邻域阈值;
聚类模块343,可以用于基于所述相邻节点的邻域阈值,对所述文本分词的向量表示进行聚类。
进一步地,所述聚类模块343包括:
计算子模块3431,可以用于按照所述邻域阈值由小至大的排列顺序,逐个将相邻节点加入至所述中心节点后,计算以所述中心节点预设距离为半径形成分布区域内的节点密度差异;
聚类子模块3432,可以用于若所述分布区域内的节点密度差异大于预设阈值,则排除当前相邻接点后对剩余节点进行聚类。
需要说明的是,本实施例提供的一种文本聚类装置所涉及各功能单元的其他相应描述,可以参考图1和图2中的对应描述,在此不再赘述。
基于上述如图1和图2所示方法,相应的,本实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1和图2所示的文本聚类方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1和图2所示的方法,以及图3和图4所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该实体设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1和图2所示的文本聚类方法。
可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的文本聚类的实体设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。通过应用本申请的技术方案,与目前现有技术相比,通过多模式匹配算法降低了文本分词中无效词汇对语言模型的干扰,利用基于密度的聚类算法对距离的判断进行了优化,能够快速实现对海量文本数据的精准聚类,提高文本聚类效果。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (10)

1.一种文本聚类方法,其特征在于,所述方法包括:
获取从网络平台中随机抽取出各个类目下的文本语料;
利用多模式匹配算法,提取所述各类目下的文本语料中具有文本特征的文本分词;
将所述具有文本特征的文本分词输入至预先训练的语言模型,得到文本分词的向量表示;
利用基于密度的聚类算法,对所述文本分词的向量表示进行聚类。
2.根据权利要求1所述的方法,其特征在于,所述利用多模式匹配算法,提取所述各类目下的文本语料中具有文本特征的文本分词,具体包括:
利用多模式匹配算法所构建的树形结构,遍历匹配所述各类文本类目下的文本语料;
记录树形结构中与文本语料匹配相一致目标节点对应的模式串;
汇总所述目标节点对应的模式串,形成具有文本特征的文本分词。
3.根据权利要求2所述的方法,其特征在于,所述利用多模式匹配算法所构建的树形结构,遍历匹配所述各类文本类目下的文本语料,具体包括:
利用多模式匹配算法,将预先维护的特征词转换为多模式串后,构建包含有失败指针的树形结构,所述树形结构中每个节点对应有一个失败指针;
将所述各类文本类目下的文本语料形成多个主串分别沿着树形结构中节点指向以及节点对应失败指针的指向与每个节点对应的模式串进行匹配。
4.根据权利要求3所述的方法,其特征在于,所述将所述各类文本类目下的文本语料形成多个主串分别沿着树形结构中节点指向以及节点对应失败指针的指向与每个节点对应的模式串进行匹配,具体包括:
将所述各类文本类目下的文本语料形成多个主串分别沿着树形结构中节点指向与每个节点对应的模式串进行匹配;
若匹配相不一致,则沿着节点对应失败指针的指向继续与每个节点对应的模式串进行匹配。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述语言模型中所述将所述具有文本特征的文本分词输入至预先训练的语言模型,得到文本分词的向量表示,具体包括:
对所述具有文本特征的文本分词进行离散处理,形成分词序列;
利用所述预先训练的语言模型中多维向量映射参数将离散处理形成的分词序列映射至多维向量空间中,得到文本分词的向量表示。
6.根据权利要求1-4中任一项所述的方法,其特征在于,所述利用基于密度的聚类算法,对所述文本分词的向量表示进行聚类,具体包括:
利用基于密度的聚类算法,对所述文本分词的向量表示进行重新组织,构建二叉查找树;
从所述二叉查找树的根节点开始作为中心节点,对所述二叉查找树中每个节点进行最邻近查找,得到所述根节点相邻节点的邻域阈值;
基于所述相邻节点的邻域阈值,对所述文本分词的向量表示进行聚类。
7.根据权利要求6的方法,其特征在于,所述基于所述邻域阈值,对所述文本分词的向量表示进行聚类,具体包括:
按照所述邻域阈值由小至大的排列顺序,逐个将相邻节点加入至所述中心节点后,计算以所述中心节点预设距离为半径形成分布区域内的节点密度差异;
若所述分布区域内的节点密度差异大于预设阈值,则排除当前相邻接点后对剩余节点进行聚类。
8.一种文本聚类装置,其特征在于,所述装置包括:
获取单元,用于获取从网络平台中随机抽取出各个类目下的文本语料;
提取单元,用于利用多模式匹配算法,提取所述各类目下的文本语料中具有文本特征的文本分词;
处理单元,用于将所述具有文本特征的文本分词输入至预先训练的语言模型,处理为文本分词的向量表示;
聚类单元,用于利用基于密度的聚类算法,对所述文本分词的向量表示进行聚类。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的文本聚类方法的步骤。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的文本聚类方法的步骤。
CN202010713845.0A 2020-07-22 2020-07-22 文本聚类方法及装置 Active CN112036176B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010713845.0A CN112036176B (zh) 2020-07-22 2020-07-22 文本聚类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010713845.0A CN112036176B (zh) 2020-07-22 2020-07-22 文本聚类方法及装置

Publications (2)

Publication Number Publication Date
CN112036176A true CN112036176A (zh) 2020-12-04
CN112036176B CN112036176B (zh) 2024-05-24

Family

ID=73582945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010713845.0A Active CN112036176B (zh) 2020-07-22 2020-07-22 文本聚类方法及装置

Country Status (1)

Country Link
CN (1) CN112036176B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030074368A1 (en) * 1999-01-26 2003-04-17 Hinrich Schuetze System and method for quantitatively representing data objects in vector space
CN106934005A (zh) * 2017-03-07 2017-07-07 重庆邮电大学 一种基于密度的文本聚类方法
CN107436875A (zh) * 2016-05-25 2017-12-05 华为技术有限公司 文本分类方法及装置
CN108021713A (zh) * 2017-12-28 2018-05-11 北京奇艺世纪科技有限公司 一种文档聚类的方法和装置
US20180365218A1 (en) * 2016-02-29 2018-12-20 Alibaba Group Holding Limited Text information clustering method and text information clustering system
US10223586B1 (en) * 2018-07-15 2019-03-05 Cognigo Research Ltd. Multi-modal electronic document classification
CN109558489A (zh) * 2018-12-03 2019-04-02 南京中孚信息技术有限公司 文本分类方法及装置
CN109739978A (zh) * 2018-12-11 2019-05-10 中科恒运股份有限公司 一种文本聚类方法、文本聚类装置及终端设备
CN110413986A (zh) * 2019-04-12 2019-11-05 上海晏鼠计算机技术股份有限公司 一种改进词向量模型的文本聚类多文档自动摘要方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030074368A1 (en) * 1999-01-26 2003-04-17 Hinrich Schuetze System and method for quantitatively representing data objects in vector space
US20180365218A1 (en) * 2016-02-29 2018-12-20 Alibaba Group Holding Limited Text information clustering method and text information clustering system
CN107436875A (zh) * 2016-05-25 2017-12-05 华为技术有限公司 文本分类方法及装置
US20190087490A1 (en) * 2016-05-25 2019-03-21 Huawei Technologies Co., Ltd. Text classification method and apparatus
CN106934005A (zh) * 2017-03-07 2017-07-07 重庆邮电大学 一种基于密度的文本聚类方法
CN108021713A (zh) * 2017-12-28 2018-05-11 北京奇艺世纪科技有限公司 一种文档聚类的方法和装置
US10223586B1 (en) * 2018-07-15 2019-03-05 Cognigo Research Ltd. Multi-modal electronic document classification
CN109558489A (zh) * 2018-12-03 2019-04-02 南京中孚信息技术有限公司 文本分类方法及装置
CN109739978A (zh) * 2018-12-11 2019-05-10 中科恒运股份有限公司 一种文本聚类方法、文本聚类装置及终端设备
CN110413986A (zh) * 2019-04-12 2019-11-05 上海晏鼠计算机技术股份有限公司 一种改进词向量模型的文本聚类多文档自动摘要方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIU QING, ET AL.: "Text features extraction based on TF-IDF associating semantic", PROC OF THE 4TH IEEE INTERNATIONAL CONFERENCE ON COMPUTER AND COMMUNICATIONS.PISCATAWAY, NJ:IEEE PRESS *
曾依灵;许洪波;白硕;: "改进的OPTICS算法及其在文本聚类中的应用", 中文信息学报, no. 01 *

Also Published As

Publication number Publication date
CN112036176B (zh) 2024-05-24

Similar Documents

Publication Publication Date Title
WO2020221298A1 (zh) 文本检测模型训练方法、文本区域、内容确定方法和装置
CN108920720B (zh) 基于深度哈希和gpu加速的大规模图像检索方法
CN106682233B (zh) 一种基于深度学习与局部特征融合的哈希图像检索方法
CN108287843B (zh) 一种兴趣点信息检索的方法和装置、及导航设备
CN112395506A (zh) 一种资讯推荐方法、装置、电子设备和存储介质
CN109697451B (zh) 相似图像聚类方法及装置、存储介质、电子设备
US20150199567A1 (en) Document classification assisting apparatus, method and program
EP2833275B1 (en) Image search device, image search method, program, and computer-readable storage medium
CN110287311B (zh) 文本分类方法及装置、存储介质、计算机设备
CN114332680A (zh) 图像处理、视频搜索方法、装置、计算机设备和存储介质
US20230306035A1 (en) Automatic recommendation of analysis for dataset
CN106844733B (zh) 基于词汇树信息融合与豪斯多夫距离结合的图像检索方法
Luqman et al. Subgraph spotting through explicit graph embedding: An application to content spotting in graphic document images
CN111506726A (zh) 基于词性编码的短文本聚类方法、装置及计算机设备
JP5433396B2 (ja) マンガ画像からテキストを抽出するマンガ画像解析装置、プログラム、検索装置及び方法
Pengcheng et al. Fast Chinese calligraphic character recognition with large-scale data
CN111988668B (zh) 一种视频推荐方法、装置、计算机设备及存储介质
CN111259975B (zh) 分类器的生成方法及装置、文本的分类方法及装置
CN110209895B (zh) 向量检索方法、装置和设备
CN112036176B (zh) 文本聚类方法及装置
CN114282119B (zh) 一种基于异构信息网络的科技信息资源检索方法及系统
CN115309995A (zh) 一种基于需求文本的科技资源推送方法和装置
CN111310442B (zh) 形近字纠错语料挖掘方法、纠错方法、设备及存储介质
CN114461827A (zh) 一种以图搜图的方法及装置
CN113869398A (zh) 一种不平衡文本分类方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant