CN113590773A

CN113590773A - 一种文本主题标引的方法、装置、设备及可读存储介质

Info

Publication number: CN113590773A
Application number: CN202110648194.6A
Authority: CN
Inventors: 安源; 齐向春; 王东晋; 翟夏普; 尉永哲; 周俊
Original assignee: Institute Of Science And Technology Information China Academy Of Railway Sciences Group Co ltd
Current assignee: Institute Of Science And Technology Information China Academy Of Railway Sciences Group Co ltd
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-11-02

Abstract

本发明提供了一种文本主题标引的方法、装置、设备及可读存储介质，所述方法包括：获取待标引文本，利用齐普夫定律过滤所述待标引文本中词频过高和过低的词汇，获得候选词集合；对所述待标引文本进行预处理，得到文本词序列，对所述文本词序列进行聚类分析，得到每个簇的权重P；基于所述候选词集合，生成所述候选词集合的词共现矩阵，基于所述词共现矩阵构建双向词图，在所述双向词图中迭代计算每个节点的Rank值；基于所述每个簇的权重P与所述每个节点的Rank值标引文本主题。本发明首先对文本进行聚类，使用手肘法确定文本的最佳主题个数，再对不同的主题抽取关键词标引文献。

Description

一种文本主题标引的方法、装置、设备及可读存储介质

技术领域

本发明涉及文本标引技术领域，具体而言，涉及一种文本主题标引的方法、装置、设备及可读存储介质。

背景技术

主题标引是从文本内容角度标引和检索信息资源的方法，其主要技术方法包括：采用人工标引的方式，在主题分析的基础上，以一定的受控词表或标引规则为依据，将信息资源中具有检索意义的特征转换成相应的主题词，并将其组织成表达信息资源内容特征的标识。但现有的方法中缺少如何识别文本中的多个主题，并对每个主题使用若干词进行标引。

发明内容

本发明的目的在于提供一种文本主题标引的方法、装置、设备及可读存储介质，以改善上述问题。

为了实现上述目的，本申请实施例提供了如下技术方案：

一方面，本申请实施例提供了一种文本主题标引的方法，所述方法包括：

获取待标引文本，利用齐普夫定律过滤所述待标引文本中词频过高和过低的词汇，获得候选词集合；

对所述待标引文本进行预处理，得到文本词序列，对所述文本词序列进行聚类分析，得到每个簇的权重P；

基于所述候选词集合，生成所述候选词集合的词共现矩阵，基于所述词共现矩阵构建双向词图，在所述双向词图中迭代计算每个节点的Rank值；

基于所述每个簇的权重P与所述每个节点的Rank值标引文本主题。

可选的，所述对所述待标引文本进行预处理，得到文本词序列，包括：

过滤所述待标引文本的图片、表格和公式数据，得到处理后的所述待标引文本；

利用专业领域词表和停用词词对所述处理后的所述待标引文本进行分句和分词处理，得到所述文本词序列。

可选的，所述获取待标引文本，利用齐普夫定律过滤所述待标引文本中词频过高和过低的词汇，获得候选词集合，包括：

计算所述待标引文本中词汇的词频，对词频进行排序，按排序顺序对词频进行编号；

绘制词频与编号之间的曲线图，选取斜率在一定范围内的词汇构建候选词集。

可选的，所述基于所述候选词集合，生成所述候选词集合的词共现矩阵，包括：

基于所述文本词序列，设置长度为N的滑动窗口，滑动窗口内出现的词汇之间定义为共现关系，通过对所述候选词集合进行窗口滑动，记录候选词集中词与词之间的共现次数，生成候选词集的词共现矩阵。

第二方面，本申请实施例提供了一种文本主题标引的装置，所述装置包括获取模块、处理模块、生成模块和标引模块。

获取模块，用于获取待标引文本，利用齐普夫定律过滤所述待标引文本中词频过高和过低的词汇，获得候选词集合；

处理模块，用于对所述待标引文本进行预处理，得到文本词序列，对所述文本词序列进行聚类分析，得到每个簇的权重P；

生成模块，用于基于所述候选词集合，生成所述候选词集合的词共现矩阵，基于所述词共现矩阵构建双向词图，在所述双向词图中迭代计算每个节点的Rank值；

标引模块，用于基于所述每个簇的权重P与所述每个节点的Rank值标引文本主题。

可选的，所述处理模块，包括：

过滤单元，用于过滤所述待标引文本的图片、表格和公式数据，得到处理后的所述待标引文本；

处理单元，用于利用专业领域词表和停用词词对所述处理后的所述待标引文本进行分句和分词处理，得到所述文本词序列。

可选的，所述获取模块，包括：

计算单元，用于计算所述待标引文本中词汇的词频，对词频进行排序，按排序顺序对词频进行编号；

选取单元，用于绘制词频与编号之间的曲线图，选取斜率在一定范围内的词汇构建候选词集。

可选的，所述生成模块，包括：

生成单元，用于基于所述文本词序列，设置长度为N的滑动窗口，滑动窗口内出现的词汇之间定义为共现关系，通过对所述候选词集合进行窗口滑动，记录候选词集中词与词之间的共现次数，生成候选词集的词共现矩阵。

第三方面，本申请实施例提供了一种文本主题标引的设备，所述设备包括存储器和处理器。存储器用于存储计算机程序；处理器用于执行所述计算机程序时实现上述文本主题标引的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述文本主题标引的方法的步骤。

本发明的有益效果为：

1、本发明首先对文本进行聚类，使用手肘法确定文本的最佳主题个数，再对不同的主题抽取关键词标引文献。

2、本申请在使用K-mean聚类识别文本主题时，标识了文本主题的权重，识别出了主要主题、次要主题等信息，并且依据主题的重要程度确定该主题下应该标引几个关键词，在标引结果中体现了主题及主题词的权重信息。

本发明的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明实施例了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施例中所述的文本主题标引的方法流程示意图；

图2是本发明实施例中所述的文本主题标引的装置结构示意图；

图3是本发明实施例中所述的文本主题标引的设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号或字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

实施例1

如图1所示，本实施例提供了一种文本主题标引的方法，该方法包括步骤S1和步骤S2。

步骤S1、获取待标引文本，利用齐普夫定律过滤所述待标引文本中词频过高和过低的词汇，获得候选词集合；

步骤S2、对所述待标引文本进行预处理，得到文本词序列，对所述文本词序列进行聚类分析，得到每个簇的权重P；

步骤S3、基于所述候选词集合，生成所述候选词集合的词共现矩阵，基于所述词共现矩阵构建双向词图，在所述双向词图中迭代计算每个节点的Rank值；

步骤S4、基于所述每个簇的权重P与所述每个节点的Rank值标引文本主题。

本实施例中，使用K-mean聚类识别文本主题时，标识了文本主题的权重，识别出了主要主题、次要主题等信息，并且依据主题的重要程度确定该主题下应该标引几个关键词，在标引结果中体现了主题及主题词的权重信息。

在本公开的一种具体实施方式中，所述步骤S2，还可以包括步骤S21和步骤S22。

步骤S21、过滤所述待标引文本的图片、表格和公式数据，得到处理后的所述待标引文本；

步骤S22、利用专业领域词表和停用词词对所述处理后的所述待标引文本进行分句和分词处理，得到所述文本词序列。

在本公开的一种具体实施方式中，所述步骤S1，还可以包括步骤S11和步骤S12。

步骤S11、计算所述待标引文本中词汇的词频，对词频进行排序，按排序顺序对词频进行编号；

步骤S12、绘制词频与编号之间的曲线图，选取斜率在一定范围内的词汇构建候选词集。

在本公开的一种具体实施方式中，所述步骤S3，还可以包括步骤S31。

步骤S31、基于所述文本词序列，设置长度为N的滑动窗口，滑动窗口内出现的词汇之间定义为共现关系，通过对所述候选词集合进行窗口滑动，记录候选词集中词与词之间的共现次数，生成候选词集的词共现矩阵。

实施例2

如图2所示，本实施例提供了一种文本主题标引的装置，所述装置包括获取模块701、处理模块702、生成模块703和标引模块704。

获取模块701，用于获取待标引文本，利用齐普夫定律过滤所述待标引文本中词频过高和过低的词汇，获得候选词集合；

处理模块702，用于对所述待标引文本进行预处理，得到文本词序列，对所述文本词序列进行聚类分析，得到每个簇的权重P；

生成模块703，用于基于所述候选词集合，生成所述候选词集合的词共现矩阵，基于所述词共现矩阵构建双向词图，在所述双向词图中迭代计算每个节点的Rank值；

标引模块704，用于基于所述每个簇的权重P与所述每个节点的Rank值标引文本主题。

在本公开的一种具体实施方式中，所述处理模块702包括过滤单元7021和处理单元7022。

过滤单元7021，用于过滤所述待标引文本的图片、表格和公式数据，得到处理后的所述待标引文本；

处理单元7022，用于利用专业领域词表和停用词词对所述处理后的所述待标引文本进行分句和分词处理，得到所述文本词序列。

在本公开的一种具体实施方式中，所述获取模块701包括计算单元7011和选取单元7012。

计算单元7011，用于计算所述待标引文本中词汇的词频，对词频进行排序，按排序顺序对词频进行编号；

选取单元7012，用于绘制词频与编号之间的曲线图，选取斜率在一定范围内的词汇构建候选词集。

在本公开的一种具体实施方式中，所述生成模块703包括生成单元7031。

生成单元7031，用于基于所述文本词序列，设置长度为N的滑动窗口，滑动窗口内出现的词汇之间定义为共现关系，通过对所述候选词集合进行窗口滑动，记录候选词集中词与词之间的共现次数，生成候选词集的词共现矩阵。

需要说明的是，关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

实施例3

相应于上面的方法实施例，本公开实施例还提供了文本主题标引的设备，下文描述的文本主题标引的设备与上文描述的文本主题标引的方法可相互对应参照。

图3是根据一示例性实施例示出的文本主题标引的设备800的框图。如图3所示，该文本主题标引的设备800可以包括：处理器801，存储器802。该文本主题标引的设备800还可以包括多媒体组件803，输入/输出(I/O)接口804，以及通信组件805中的一者或多者。

其中，处理器801用于控制该文本主题标引的设备800的整体操作，以完成上述的文本主题标引的方法中的全部或部分步骤。存储器802用于存储各种类型的数据以支持在该文本主题标引的设备800的操作，这些数据例如可以包括用于在该文本主题标引的设备800上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器802可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-OnlyMemory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件803可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器802或通过通信组件805发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口804为处理器801和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件805用于该文本主题标引的设备800与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件805可以包括：Wi-Fi模块，蓝牙模块，NFC模块。

在一示例性实施例中，该文本主题标引的设备800可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal ProcessingDevice，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的文本主题标引的方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的文本主题标引的方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器802，上述程序指令可由该文本主题标引的设备800的处理器801执行以完成上述的文本主题标引的方法。

实施例4

相应于上面的方法实施例，本公开实施例还提供了一种可读存储介质，下文描述的一种可读存储介质与上文描述的文本主题标引的方法可相互对应参照。

一种可读存储介质，可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例的文本主题标引的方法的步骤。

该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本主题标引的方法，其特征在于，包括：

2.根据权利要求1所述的文本主题标引的方法，其特征在于，所述对所述待标引文本进行预处理，得到文本词序列，包括：

3.根据权利要求1所述的文本主题标引的方法，其特征在于，所述获取待标引文本，利用齐普夫定律过滤所述待标引文本中词频过高和过低的词汇，获得候选词集合，包括：

4.根据权利要求1所述的文本主题标引的方法，其特征在于，所述基于所述候选词集合，生成所述候选词集合的词共现矩阵，包括：

5.一种文本主题标引的装置，其特征在于，包括：

6.根据权利要求5所述的文本主题标引的装置，其特征在于，所述处理模块，包括：

7.根据权利要求5所述的文本主题标引的装置，其特征在于，所述获取模块，包括：

8.根据权利要求5所述的文本主题标引的装置，其特征在于，所述生成模块，包括：

9.一种文本主题标引的设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至4任一项所述文本主题标引的方法的步骤。

10.一种可读存储介质，其特征在于：所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述文本主题标引的方法的步骤。