CN112597300A - 文本聚类方法、装置、终端设备及存储介质 - Google Patents

文本聚类方法、装置、终端设备及存储介质 Download PDF

Info

Publication number
CN112597300A
CN112597300A CN202011473162.9A CN202011473162A CN112597300A CN 112597300 A CN112597300 A CN 112597300A CN 202011473162 A CN202011473162 A CN 202011473162A CN 112597300 A CN112597300 A CN 112597300A
Authority
CN
China
Prior art keywords
text
clustered
clustering
classification
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011473162.9A
Other languages
English (en)
Inventor
郑勇升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202011473162.9A priority Critical patent/CN112597300A/zh
Publication of CN112597300A publication Critical patent/CN112597300A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请适用于人工智能技术领域,提供了一种文本聚类方法、装置、终端设备及存储介质,其中,所述方法通过从待聚类文本中提取N个关键词;所述N为大于1的整数;将所述待聚类文本以及所述待聚类文本对应的N个关键词输入文本分类模型,得到分类标签;将所述分类标签在预设的标签分布词典中所属的文本类别作为所述待聚类文本的聚类类别;所述标签分布词典根据历史文本的聚类结果生成,包含若干聚类文本类别以及各个所述聚类文本类别关联的标签。以解决线上应用场景的文本聚类效率低的问题。另外,本申请还涉及区块链技术。

Description

文本聚类方法、装置、终端设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种文本聚类方法、装置、终端 设备及计算机可读存储介质。
背景技术
文本聚类是自然语言处理领域十分常见的算法模型,目前业界也有了许多 成熟的算法,比如生成文本向量之后使用Kmeans、KNN等传统聚类算法,基 于文本主题模型LDA算法的聚类,或者基于关键词抽取叠加社区发现算法的聚 类。文本聚类算法可以将杂乱的内容聚合到不同的类别中,有利于对文本的使 用和理解,广泛应用于内容服务的多种场景。
传统的文本聚类方法大多数仅适用于离线挖掘场景,对于线上应用场景, 每天都有大量的新文本进来,传统聚类算法往往需要对全量数据进行计算,如 果每次都对全量文本进行聚类操作,效率将十分低下。同时传统的文本聚类算 法的效果往往很难达到线上应用的要求,一些聚类出来的错误样本也很难控制。
发明内容
有鉴于此,本申请实施例提供了一种文本聚类方法、装置、终端设备及计 算机可读存储介质,以解决现有技术中线上应用场景的文本聚类效率低的问题。
本申请实施例的第一方面提供了一种文本聚类方法,包括:
从待聚类文本中提取N个关键词;所述N为大于1的整数;
将所述待聚类文本以及所述待聚类文本对应的N个关键词输入文本分类模 型,得到分类标签;
将所述分类标签在预设的标签分布词典中所属的文本类别作为所述待聚类 文本的聚类类别;所述标签分布词典根据历史文本的聚类结果生成,包含若干 聚类文本类别以及各个所述聚类文本类别关联的标签。
在一个实施示例中,所述从待聚类文本中提取N个关键词,包括:
提取所述待聚类文本的标题以及正文中包含的词组,得到词组合集;
对所述词组合集进行关键词提取,得到所述关键词。
在一个实施示例中,所述对所述词组合集进行关键词提取,得到所述关键 词,包括:
计算所述词组合集中每个所述词组在整个所述词组合集中的权重值;
将所述权重值满足预设条件的词组作为所述关键词。
在一个实施示例中,所述将所述待聚类文本以及所述待聚类文本对应的N 个关键词输入文本分类模型,得到分类标签包括:
将所述待聚类文本输入神经网络进行特征提取,得到特征向量;
查询预设的向量表,分别确定所述待聚类文本对应的各个所述关键词的词 向量;
将所述N个关键词的所述词向量与所述特征向量进行合并,得到总特征向 量;
将所述总特征向量输入文本分类器,得到分类标签。
在一个实施示例中,在将所述分类标签在预设的标签分布词典中所属的文 本类别作为所述待聚类文本的聚类类别之前,还包括:
获取若干历史文本对应的历史关键词构建标签库;
采用文本聚类算法将所述标签库中的标签聚类为若干文本类别;
根据所有所述文本类别关联的标签生成标签分布词典。
在一个实施示例中,所述将所述分类标签在预设的标签分布词典中所属的 文本类别作为所述待聚类文本的聚类类别,包括:
采用多模匹配算法构建所述标签分布词典对应的字典树;
遍历所述字典树查找所述分类标签,得到所述分类标签在所述标签分布词 典中所属的文本类别;
将所述分类标签在所述标签分布词典中所属的文本类别作为所述待聚类文 本的聚类类别。
在一个实施示例中,在将所述分类标签在预设的标签分布词典中所属的文 本类别作为所述待聚类文本的聚类类别之后,包括:
将所述待聚类文本的聚类类别上传至区块链。
本申请实施例的第二方面提供了一种文本聚类装置,包括:
关键词提取模块,用于从待聚类文本中提取N个关键词;所述N为大于1 的整数;
分类模块,用于将所述待聚类文本以及所述待聚类文本对应的N个关键词 输入文本分类模型,得到分类标签;
聚类模块,用于将所述分类标签在预设的标签分布词典中所属的文本类别 作为所述待聚类文本的聚类类别;所述标签分布词典根据历史文本的聚类结果 生成,包含若干聚类文本类别以及各个所述聚类文本类别关联的标签。
本申请实施例的第四方面提供了一种终端设备,包括存储器、处理器以及 存储在所述存储器中并可在终端设备上运行的计算机程序,所述处理器执行所 述计算机程序时实现第一方案提供的文本聚类方法的各步骤。
本申请实施例的第五方面提供了一种计算机可读存储介质,所述计算机可 读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方案 提供的文本聚类方法的各步骤。
实施本申请实施例提供的一种文本聚类方法、文本聚类装置、终端设备及 计算机可读存储介质具有以下有益效果:
本申请实施例提供的一种文本聚类方法,从待聚类文本中提取N个关键词; 所述N为大于1的整数;通过从待聚类文本中提取N个关键词得到该待聚类文 本的特征信息;将所述待聚类文本以及所述待聚类文本对应的N个关键词输入 文本分类模型,得到分类标签;结合待聚类文本的N个关键词以及待聚类文本 的全文内容进行文本分类,提高文本分类准确率;将所述分类标签在预设的标 签分布词典中所属的文本类别作为所述待聚类文本的聚类类别。预设的标签分 布词典根据历史文本的聚类结果生成,包含若干聚类文本类别以及各个所述聚 类文本类别关联的标签,通过将分类标签在预设的标签分布词典中所属的文本 类别作为待聚类文本的聚类类别,实现快速完成待聚类文本的聚类。对于线上 应用场景中的新文档,只需经过标签匹配将可以将待聚类文本聚合到标签分布 词典具有的类别中,聚类效率显著提升。且通过自定义预设的标签分布词典包 含的文本类别以及文本类别对应的标签,能够实现对聚类效果的精确控制。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技 术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅 仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳 动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例一提供的一种文本聚类方法的实现流程图;
图2是本申请实施例二提供的一种文本聚类装置的结构框图;
图3是本申请实施例三提供的一种终端设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅 仅用以解释本申请,并不用于限定本申请。
本申请实施例所涉及的文本聚类方法,本实施例可适用于对文本进行聚类 的应用场景。请参阅图1,图1示出了本申请实施例提供的一种文本聚类方法 的实现流程图。该方法可以由文本聚类装置执行,该装置可为控制设备或终端 平板、PC或服务器等;在本申请实施例中以文本聚类装置作为执行主体进行说 明,本实施例提供的文本聚类方法具体包括如下步骤:
S110、从待聚类文本中提取N个关键词;所述N为大于1的整数。
随着数据信息电子化的推进,业务办理以及信息推广等环节均会产生大量 的数据内容,而这些数据内容往往以文本的形式存在。在线上应用场景中,为 实现目标内容的获取,有时还需要定时进行数据挖掘并将挖掘到的文本上传服 务器。对于服务器中原本储存有的海量文本和每个时间节点不断接收到新上传 的大量文本,为便于对服务器中的文本进行查找,可以通过对服务器中存在的 所有文本进行聚类,得到各个文本所属的类别,从而能够根据文本类别对目标 文本进行查找。传统的文本聚类方法通常需要对服务器中存储的全量文本进行 聚类计算,而服务器中存储的文本有可能在每个时间节点又不断接收到新上传 的大量文本,每接收到一次新上传文本就进行一次文本聚类,导致文本聚类效率十分低下。为解决这一问题,可通过单独对各个待聚类文本进行标签匹配以 实现文本聚类。具体的,可通过从待聚类文本中提取具有该待聚类文本的特征 信息的N个关键词,然后根据待聚类文本提取到的N个关键词以及待聚类文本 的文本内容实现待聚类文本的标签匹配;N为大于1的整数。
在一个实施示例中,从待聚类文本中提取N个关键词的具体过程包括:提 取所述待聚类文本的标题以及正文中包含的词组,得到词组合集;对所述词组 合集进行关键词提取,得到所述关键词。
由于待聚类文本中的包含长度不同的语句,语句中包含定语以及状语等无 意义词语,不便于进行关键词的提取。因此需对待聚类文本的文本内容进行分 词处理。具体的,由于文本格式中通常包含文本标题以及文本正文,在进行待 聚类文本的文本内容分词处理的过程中,需结合待聚类文本的标题以及正文中 的语句一起进行分词处理,提取待聚类文本的标题以及正文中包含的词组,从 而得到待聚类文本对应的词组合集。然后对得到的词组合集进行关键词提取, 得到待聚类文本对应的N个关键词。
可选的,可采用分词算法对待聚类文本的文本内容进行分词,且分词后得 到的各个词组均具有词性标注。若待聚类文本为中文文本,则分词算法可以为 中文分词组件(例如jieba分词)。详细举例说明,若待聚类文本的文本内容为: 育儿主要指的是对0~6岁年龄阶段的幼儿所实施的教育。一个孩子还是胎儿的 时候,他就能感受…等文字内容。提取待聚类文本的标题以及正文中包含的词 组,得到词组合集包括:育儿;0~6岁;年龄阶段;幼儿;实施;教育;孩 子;胎儿;感受…等词组。
在一个实施示例中,为准确提取出待聚类文本的关键词,对所述词组合集 进行关键词提取,得到所述关键词的具体过程包括:计算所述词组合集中每个 所述词组在整个所述词组合集中的权重值;将所述权重值满足预设条件的词组 作为所述关键词。
具体的,可以采用TextRank算法对所述词组合集进行关键词提取,得到所 述关键词。由于分词后得到的词组合集中每个词组具有词性标注,TextRank算 法根据预设词性限定规则对词组合集中的词组进行筛选,将不符合预设词性限 定规则的词组从词组合集中剔除并同时将停用词过滤掉,从而使得词组合集中 保留下符合预设词性限定规则的词组。可选的,预设词性限定规则可为保留词 性为名词、动词或动名词的词组。
然后计算词组合集中保留下来的符合预设词性限定规则的各个词组在整个 词组合集中的权重值。详细的,通过TextRank算法构建词组合集中保留下来的 符合预设词性限定规则的各个词组G=(V,E),其中V为节点集,由词组合集中 保留下来的符合预设词性限定规则的各个词组组成各个节点,然后采用共现关 系(co-occurrence)构造任两点之间的边,两个节点之间存在边仅当它们对应 的词汇在长度为K的窗口中共现,根据网页排序算法PageRank的计算公式对 各个节点(词组)的权重进行计算,得到词组合集中保留下来的符合预设词性 限定规则的各个词组在整个词组合集中的权重值。可选的,得到词组合集中保 留下来的符合预设词性限定规则的各个词组在整个词组合集中的权重值后,还 可进行专家评估,若任一词组属于待聚类文本的标题内容,则将预设参数与该 词组对应的权重值叠加,并将更新后的权重值作为该词组的权重值;实现对待 聚类文本的标题内容中出现的词组进行加权。
得到词组合集中保留下来的符合预设词性限定规则的各个词组在整个词组 合集中的权重值后,将所述权重值满足预设条件的词组作为所述关键词。具体 的,预设条件可以为选取权重值最大的N个词组作为关键词,则将所述权重值 满足预设条件的词组作为所述关键词的过程可为:根据各个词组对应的权重值 大小以从大至小的顺序排序,确定按顺序排列的N个词组为关键词。可选的, N可设为3。
S120、将所述待聚类文本以及所述待聚类文本对应的N个关键词输入文本 分类模型,得到分类标签。
为实现待聚类文本的标签匹配,可以将待聚类文本以及所述待聚类文本对 应的N个关键词输入文本分类模型,得到分类标签。结合待聚类文本的N个关 键词以及待聚类文本的全文内容进行文本分类,提高文本分类准确率。
在一个实施示例中,将所述待聚类文本以及所述待聚类文本对应的N个关 键词输入文本分类模型,得到分类标签的具体过程包括步骤11至步骤14:
步骤11、将所述待聚类文本输入神经网络进行特征提取,得到特征向量;
为提取待聚类文本的全文特征信息,可通过将待聚类文本输入神经网络进 行卷积计算提取特征信息,输出待聚类文本的特征向量。具体的,该神经网络 可为预先训练好的TextCNN深度学习模型;以具有类别标签的若干历史文本作 为训练数据,根据上述训练数据对神经网络进行训练得到TextCNN深度学习模 型。
步骤12、查询预设的向量表,分别确定所述待聚类文本对应的各个所述关 键词的词向量;
为提高待聚类文本的分类准确率,还可将提取到的特征向量与待聚类文本 对应的N个关键词对应的特征信息结合,增强待聚类文本的特征信息。具体的, 由于提取待聚类文本的全文特征信息得到的特征向量为向量不能直接与待聚类 文本对应的N个关键词进行信息融合,需将待聚类文本对应的N个关键词转换 为对应的向量。详细的,可通过查询预设的向量表,分别确定所述待聚类文本 对应的各个所述关键词的词向量;其中,该预设的向量表(embeding_table)对 各个词组进行编码得到各个词组对应的向量(embbeding)。通过 embbeding_lookup的方式能够从预设的向量表里查找出待聚类文本对应的各个 关键词的词向量。
步骤13、将所述N个关键词的所述词向量与所述特征向量进行合并,得到 总特征向量;
由于待聚类文本对应具有N个关键词,为实现将N个关键词的词向量与特 征向量进行合并,还需在合并之前对待聚类文本对应具有N个关键词的词向量 进行求和,然后再将待聚类文本对应具有N个关键词的词向量的和值与提取待 聚类文本的全文特征信息得到的特征向量拼接起来,得到总特征向量,实现增 强待聚类文本的特征信息。
步骤14、将所述总特征向量输入文本分类器,得到分类标签。
得到待聚类文本的总特征向量后,将该总特征向量输入文本分类器,得到 分类标签,实现待聚类文本的标签匹配。具体的,该文本分类器可为全连接分 类器,由具有若干预设标签类别的若干历史文本训练生成。可根据聚类需求自 定义预设标签类别,例如预设标签类别可为健康、育儿和情感等类别。将该总 特征向量输入文本分类模型中的训练好的文本分类器,文本分类器通过对总特 征向量进行各个预设标签类别的概率计算,得到分类标签。
S130、将所述分类标签在预设的标签分布词典中所属的文本类别作为所述 待聚类文本的聚类类别;所述标签分布词典根据历史文本的聚类结果生成,包 含若干聚类文本类别以及各个所述聚类文本类别关联的标签。
由于预设的标签分布词典根据历史文本的聚类结果生成,包含若干聚类文 本类别以及各个所述聚类文本类别关联的标签,标签分布词典中具有的聚类文 本类别对应为历史文本聚类后得到的文本类别。通过将待聚类文本的分类标签 在预设的标签分布词典中所属的文本类别作为待聚类文本的聚类类别,实现单 独对各个待聚类文本进行标签匹配以实现文本聚类,实现快速完成待聚类文本 的聚类。对于线上应用场景中的新文档,只需经过标签匹配将可以将待聚类文 本聚合到标签分布词典具有的类别中,无需再结合原有的历史文本再次进行总 聚类,聚类效率显著提升。且通过自定义预设的标签分布词典包含的文本类别 以及文本类别对应的标签,能够实现对聚类效果的精确控制。
在一个实施示例中,可根据若干历史文本的关键词标签进行聚类生成预设 的标签分布词典。在将所述分类标签在预设的标签分布词典中所属的文本类别 作为所述待聚类文本的聚类类别之前,还包括步骤21至步骤23:
步骤21、获取若干历史文本对应的历史关键词构建标签库;
具体的,可获取若干历史文本对应的历史关键词构建标签库。当步骤110 执行后得到待聚类文本对应的N个关键词,可将提取到的N个关键词收录在标 签库中,完成获取历史文本对应的历史关键词构建标签库。详细的,收录在标 签库中的关键词还需经过审核和筛选,将重复和无效标签剔除,并限定后续新 增的标签在这个标签库范围内。
步骤22、采用文本聚类算法将所述标签库中的标签聚类为若干文本类别;
构建标签库后,可采用文本聚类算法(例如tf-idf+kmeans)将所述标签库 中的标签聚类为若干文本类别,完成对关键词标签的聚类。
步骤23、根据所有所述文本类别关联的标签生成标签分布词典。
具体的,若采用文本聚类算法将标签库中的标签聚类出“孕妈”、“新生 儿”、“饮食”、“教育”、“健康”……等等多个类别;接下来我们选取每 个类别下的关键词标签,要求出现在5篇及以上文章,同时随机挑选出5篇文 章,如果标签能代表这5篇文章的内容则保留这个标签,如“孕妈”类别下有 “产检”、“胎动”、“孕吐”……等等标签。根据所有文本类别关联的标签 生成标签分布词典,如
“育儿 孕妈 分娩
育儿 孕妈 胎动
育儿 孕妈 胎盘”
……。
在一个实施示例中,将所述分类标签在预设的标签分布词典中所属的文本 类别作为所述待聚类文本的聚类类别的具体过程包括步骤31至步骤33:
步骤31、采用多模匹配算法构建所述标签分布词典对应的字典树;
为实现查找待聚类文本对应的分类标签在预设的标签分布词典中所属的文 本类别,可采用多模匹配算法进行查找。具体的,由于预设的标签分布词典具 有各个文本类别对应的标签,多模匹配算法根据预设的标签分布词典包含的所 有标签构建该标签分布词典对应的字典树,该字典树通过标签分布词典包含的 各个标签的公共前缀进行串联构建,从而根据字典树中各个标签的公共前缀节 约了字符串的查询时间。
步骤32、遍历所述字典树查找所述分类标签,得到所述分类标签在所述标 签分布词典中所属的文本类别;
构建好标签分布词典对应的字典树后,为实现待聚类文本对应的分类标签 在预设的标签分布词典中所属的文本类别的查找,需遍历字典树查找待聚类文 本对应的分类标签,当在字典树中查找到待聚类文本对应的分类标签,就能够 确定该分类标签在标签分布词典中所属的文本类别。
步骤33、将所述分类标签在所述标签分布词典中所属的文本类别作为所述 待聚类文本的聚类类别。
通过将待聚类文本的分类标签在预设的标签分布词典中所属的文本类别作 为待聚类文本的聚类类别,实现单独对各个待聚类文本进行标签匹配以实现文 本聚类,实现快速完成待聚类文本的聚类。对于线上应用场景中的新文档,只 需经过标签匹配将可以将待聚类文本聚合到标签分布词典具有的类别中,聚类 效率显著提升。
以上可以看出,本实施例提供的一种文本聚类方法,从待聚类文本中提取N个关键词;所述N为大于1的整数;通过从待聚类文本中提取N个关键词得 到该待聚类文本的特征信息;将所述待聚类文本以及所述待聚类文本对应的N 个关键词输入文本分类模型,得到分类标签;结合待聚类文本的N个关键词以 及待聚类文本的全文内容进行文本分类,提高文本分类准确率;将所述分类标 签在预设的标签分布词典中所属的文本类别作为所述待聚类文本的聚类类别。 预设的标签分布词典根据历史文本的聚类结果生成,包含若干聚类文本类别以 及各个所述聚类文本类别关联的标签,通过将分类标签在预设的标签分布词典 中所属的文本类别作为待聚类文本的聚类类别,实现快速完成待聚类文本的聚 类。对于线上应用场景中的新文档,只需经过标签匹配将可以将待聚类文本聚 合到标签分布词典具有的类别中,聚类效率显著提升。且通过自定义预设的标 签分布词典包含的文本类别以及文本类别对应的标签,能够实现对聚类效果的 精确控制。
在本申请的所有实施例中,基于文本聚类方法得到对应的控制方案,具体 来说,将聚类类别上传至区块链可保证其安全性和对用户的公正透明性。用户 设备可以从区块链中下载得该聚类类别,以便查证聚类类别是否被篡改。本示 例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机 技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库, 是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网 络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可 以包括区块链底层平台、平台产品服务层以及应用服务层等。
实施例二
请参阅图2,图2是本申请实施例提供的一种文本聚类装置的结构框图。 本实施例中该移动终端包括的各单元用于执行图1对应的实施例中的各步骤。 具体请参阅图1以及图1所对应的实施例中的相关描述。为了便于说明,仅示 出了与本实施例相关的部分。参见图2,文本聚类装置20包括:
关键词提取模块201,用于从待聚类文本中提取N个关键词;所述N为大 于1的整数;
分类模块202,用于将所述待聚类文本以及所述待聚类文本对应的N个关 键词输入文本分类模型,得到分类标签;
聚类模块203,用于将所述分类标签在预设的标签分布词典中所属的文本 类别作为所述待聚类文本的聚类类别;所述标签分布词典根据历史文本的聚类 结果生成,包含若干聚类文本类别以及各个所述聚类文本类别关联的标签。
在一个实施示例中,关键词提取模块包括:
词组合集提取单元,用于提取所述待聚类文本的标题以及正文中包含的词 组,得到词组合集;
关键词提取单元,用于对所述词组合集进行关键词提取,得到所述关键词。
在一个实施示例中,关键词提取单元包括:
权重计算子单元,用于计算所述词组合集中每个所述词组在整个所述词组 合集中的权重值;
关键词确定子单元,用于将所述权重值满足预设条件的词组作为所述关键 词。
在一个实施示例中,分类模块包括:
特征提取提取单元,用于将所述待聚类文本输入神经网络进行特征提取, 得到特征向量;
词向量确定单元,用于查询预设的向量表,分别确定所述待聚类文本对应 的各个所述关键词的词向量;
总特征向量计算单元,用于将所述N个关键词的所述词向量与所述特征向 量进行合并,得到总特征向量;
分类单元,用于将所述总特征向量输入文本分类器,得到分类标签。
在一个实施示例中,文本聚类装置还包括:
标签库构建模块,用于获取若干历史文本对应的历史关键词构建标签库;
标签聚类模块,用于采用文本聚类算法将所述标签库中的标签聚类为若干 文本类别;
标签分布词典生成模块,用于根据所有所述文本类别关联的标签生成标签 分布词典。
在一个实施示例中,聚类模块包括:
字典树构建单元,用于采用多模匹配算法构建所述标签分布词典对应的字 典树;
遍历单元,用于遍历所述字典树查找所述分类标签,得到所述分类标签在 所述标签分布词典中所属的文本类别;
聚类单元,用于将所述分类标签在所述标签分布词典中所属的文本类别作 为所述待聚类文本的聚类类别。
本实施例提供的一种文本聚类装置,从待聚类文本中提取N个关键词;所 述N为大于1的整数;通过从待聚类文本中提取N个关键词得到该待聚类文 本的特征信息;将所述待聚类文本以及所述待聚类文本对应的N个关键词输 入文本分类模型,得到分类标签;结合待聚类文本的N个关键词以及待聚类 文本的全文内容进行文本分类,提高文本分类准确率;将所述分类标签在预设 的标签分布词典中所属的文本类别作为所述待聚类文本的聚类类别。预设的标 签分布词典具有各个文本类别对应的标签,通过将分类标签在预设的标签分布 词典中所属的文本类别作为待聚类文本的聚类类别,实现快速完成待聚类文本 的聚类。对于线上应用场景中的新文档,只需经过标签匹配将可以将待聚类文 本聚合到标签分布词典具有的类别中,聚类效率显著提升。且通过自定义预设 的标签分布词典包含的文本类别以及文本类别对应的标签,能够实现对聚类效 果的精确控制。
实施例三
图3是本申请实施例三提供的一种终端设备的结构框图。如图3所示,该 实施例的终端设备30包括:处理器31、存储器32以及存储在所述存储器32 中并可在所述处理器31上运行的计算机程序33,例如文本聚类方法的程序。 处理器31执行所述计算机程序33时实现上述各个文本聚类方法各实施例中的 步骤,例如图1所示的S110至S130。或者,所述处理器31执行所述计算机程 序33时实现上述图3对应的实施例中各单元的功能,例如,图2所示的模块 201至203的功能,具体请参阅图2对应的实施例中的相关描述,此处不赘述。
示例性的,所述计算机程序33可以被分割成一个或多个单元,所述一个或 者多个单元被存储在所述存储器32中,并由所述处理器31执行,以完成本申 请。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段, 该指令段用于描述所述计算机程序33在所述终端30中的执行过程。例如,所 述计算机程序33可以被分割成关键词提取模块、分类模块以及聚类模块,各单 元具体功能如上所述。
所述转台设备可包括,但不仅限于,处理器31、存储器32。本领域技术人 员可以理解,图3仅仅是终端设备30的示例,并不构成对终端设备30的限定, 可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例 如所述转台设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器31可以是中央处理单元(Central Processing Unit,CPU),还可 以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用 集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或 者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理 器也可以是任何常规的处理器等。
所述存储器32可以是所述终端设备30的内部存储单元,例如终端设备30 的硬盘或内存。所述存储器32也可以是所述终端设备30的外部存储设备,例 如所述终端设备30上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC), 安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述 存储器32还可以既包括所述终端设备30的内部存储单元也包括外部存储设备。 所述存储器32用于存储所述计算机程序以及所述转台设备所需的其他程序和 数据。所述存储器32还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照 前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其 依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特 征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申 请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种文本聚类方法,其特征在于,包括:
从待聚类文本中提取N个关键词;所述N为大于1的整数;
将所述待聚类文本以及所述待聚类文本对应的N个关键词输入文本分类模型,得到分类标签;
将所述分类标签在预设的标签分布词典中所属的文本类别作为所述待聚类文本的聚类类别;所述标签分布词典根据历史文本的聚类结果生成,包含若干聚类文本类别以及各个所述聚类文本类别关联的标签。
2.如权利要求1所述的文本聚类方法,其特征在于,所述从待聚类文本中提取N个关键词,包括:
提取所述待聚类文本的标题以及正文中包含的词组,得到词组合集;
对所述词组合集进行关键词提取,得到所述关键词。
3.如权利要求2所述的文本聚类方法,其特征在于,所述对所述词组合集进行关键词提取,得到所述关键词,包括:
计算所述词组合集中每个所述词组在整个所述词组合集中的权重值;
将所述权重值满足预设条件的词组作为所述关键词。
4.如权利要求1所述的文本聚类方法,其特征在于,所述将所述待聚类文本以及所述待聚类文本对应的N个关键词输入文本分类模型,得到分类标签包括:
将所述待聚类文本输入神经网络进行特征提取,得到特征向量;
查询预设的向量表,分别确定所述待聚类文本对应的各个所述关键词的词向量;
将所述N个关键词的所述词向量与所述特征向量进行合并,得到总特征向量;
将所述总特征向量输入文本分类器,得到分类标签。
5.如权利要求1所述的文本聚类方法,其特征在于,在将所述分类标签在预设的标签分布词典中所属的文本类别作为所述待聚类文本的聚类类别之前,还包括:
获取若干历史文本对应的历史关键词构建标签库;
采用文本聚类算法将所述标签库中的标签聚类为若干文本类别;
根据所有所述文本类别关联的标签生成标签分布词典。
6.如权利要求1所述的文本聚类方法,其特征在于,所述将所述分类标签在预设的标签分布词典中所属的文本类别作为所述待聚类文本的聚类类别,包括:
采用多模匹配算法构建所述标签分布词典对应的字典树;
遍历所述字典树查找所述分类标签,得到所述分类标签在所述标签分布词典中所属的文本类别;
将所述分类标签在所述标签分布词典中所属的文本类别作为所述待聚类文本的聚类类别。
7.根据权利要求1所述的文本聚类方法,其特征在于,在将所述分类标签在预设的标签分布词典中所属的文本类别作为所述待聚类文本的聚类类别之后,包括:
将所述待聚类文本的聚类类别上传至区块链。
8.一种文本聚类装置,其特征在于,包括:
关键词提取模块,用于从待聚类文本中提取N个关键词;所述N为大于1的整数;
分类模块,用于将所述待聚类文本以及所述待聚类文本对应的N个关键词输入文本分类模型,得到分类标签;
聚类模块,用于将所述分类标签在预设的标签分布词典中所属的文本类别作为所述待聚类文本的聚类类别;所述标签分布词典根据历史文本的聚类结果生成,包含若干聚类文本类别以及各个所述聚类文本类别关联的标签。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
CN202011473162.9A 2020-12-15 2020-12-15 文本聚类方法、装置、终端设备及存储介质 Pending CN112597300A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011473162.9A CN112597300A (zh) 2020-12-15 2020-12-15 文本聚类方法、装置、终端设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011473162.9A CN112597300A (zh) 2020-12-15 2020-12-15 文本聚类方法、装置、终端设备及存储介质

Publications (1)

Publication Number Publication Date
CN112597300A true CN112597300A (zh) 2021-04-02

Family

ID=75196115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011473162.9A Pending CN112597300A (zh) 2020-12-15 2020-12-15 文本聚类方法、装置、终端设备及存储介质

Country Status (1)

Country Link
CN (1) CN112597300A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435199A (zh) * 2021-07-18 2021-09-24 谢勇 一种性格对应文化的存储读取干涉方法及系统
CN113435308A (zh) * 2021-06-24 2021-09-24 平安国际智慧城市科技股份有限公司 文本多标签分类方法、装置、设备及存储介质
CN114090962A (zh) * 2022-01-24 2022-02-25 湖北长江传媒数字出版有限公司 一种基于大数据的智能出版系统及方法
CN114266255A (zh) * 2022-03-01 2022-04-01 深圳壹账通科技服务有限公司 基于聚类模型的语料分类方法、装置、设备及存储介质
CN114998920A (zh) * 2022-06-27 2022-09-02 北京智慧金源供应链管理有限公司 基于nlp语义识别的供应链金融文件管理方法及系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435308A (zh) * 2021-06-24 2021-09-24 平安国际智慧城市科技股份有限公司 文本多标签分类方法、装置、设备及存储介质
CN113435308B (zh) * 2021-06-24 2023-05-30 平安国际智慧城市科技股份有限公司 文本多标签分类方法、装置、设备及存储介质
CN113435199A (zh) * 2021-07-18 2021-09-24 谢勇 一种性格对应文化的存储读取干涉方法及系统
CN113435199B (zh) * 2021-07-18 2023-05-26 谢勇 一种性格对应文化的存储读取干涉方法及系统
CN114090962A (zh) * 2022-01-24 2022-02-25 湖北长江传媒数字出版有限公司 一种基于大数据的智能出版系统及方法
CN114090962B (zh) * 2022-01-24 2022-05-13 湖北长江传媒数字出版有限公司 一种基于大数据的智能出版系统及方法
CN114266255A (zh) * 2022-03-01 2022-04-01 深圳壹账通科技服务有限公司 基于聚类模型的语料分类方法、装置、设备及存储介质
CN114998920A (zh) * 2022-06-27 2022-09-02 北京智慧金源供应链管理有限公司 基于nlp语义识别的供应链金融文件管理方法及系统
CN114998920B (zh) * 2022-06-27 2023-04-07 北京智慧金源信息科技有限公司 基于nlp语义识别的供应链金融文件管理方法及系统

Similar Documents

Publication Publication Date Title
Hardeniya et al. Natural language processing: python and NLTK
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与系统
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN112597300A (zh) 文本聚类方法、装置、终端设备及存储介质
CN110442841B (zh) 识别简历的方法及装置、计算机设备、存储介质
Sebastiani Classification of text, automatic
CN110851596A (zh) 文本分类方法、装置及计算机可读存储介质
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
CN110674252A (zh) 一种面向司法领域的高精度语义搜索系统
Wahid et al. Cricket sentiment analysis from Bangla text using recurrent neural network with long short term memory model
Arumugam et al. Hands-On Natural Language Processing with Python: A practical guide to applying deep learning architectures to your NLP applications
US10915756B2 (en) Method and apparatus for determining (raw) video materials for news
CN113632092A (zh) 实体识别的方法和装置、建立词典的方法、设备、介质
Yıldırım et al. Mastering Transformers: Build state-of-the-art models from scratch with advanced natural language processing techniques
CN111813905A (zh) 语料生成方法、装置、计算机设备及存储介质
Logeswaran et al. Sentence ordering using recurrent neural networks
CN111177375A (zh) 一种电子文档分类方法及装置
CN112966117A (zh) 实体链接方法
Tapsai et al. Thai Natural Language Processing: Word Segmentation, Semantic Analysis, and Application
Rajalakshmi et al. Sentimental analysis of code-mixed Hindi language
CN111831624A (zh) 数据表创建方法、装置、计算机设备及存储介质
CN113408282B (zh) 主题模型训练和主题预测方法、装置、设备及存储介质
CN111382243A (zh) 文本的类别匹配方法、类别匹配装置及终端
CN113836295A (zh) 一种文本摘要提取方法、系统、终端及存储介质
CN113420119B (zh) 基于知识卡片的智能问答方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination