CN113761902A

CN113761902A - 目标关键词提取系统

Info

Publication number: CN113761902A
Application number: CN202111323631.3A
Authority: CN
Inventors: 刘羽; 傅晓航; 林方; 刘宸
Original assignee: Zhongke Yuchen Technology Co Ltd
Current assignee: Zhongke Yuchen Technology Co Ltd
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2021-12-07
Anticipated expiration: 2041-11-10
Also published as: CN113761902B

Abstract

本发明涉及一种目标关键词提取系统，实现：步骤S1、获取待处理文档，基于关键词库从待处理文档中提取第一候选关键词，构建第一候选关键词集合；步骤S2、将每一候选关键词转换为对应的第一候选词向量，构建第一候选词向量集合；步骤S3、将第一候选词向量集合中第一候选词向量所有进行聚类处理，得到N个第一候选词向量子集，基于第一候选关键词集合获取每一第一候选词向量子集对应的第一候选关键词子集；步骤S4、获取每一第一候选关键词子集中所有第一候选关键词的平均字符数，将平均字符数最大的第一候选关键词子集确定为第二候选关键词集合；步骤S5、从第二候选关键词集合中确定目标关键词。本发明提高了目标关键词提取的准确度。

Description

目标关键词提取系统

技术领域

本发明涉及计算机技术领域，尤其涉及一种目标关键词提取系统。

背景技术

现有技术中对于文档目标关键词的提取，通常是将文档分词，然后通过统计词频等方式，将出现次数多的词语作目标关键词。但是至少存在以下缺点：文档中可能出现一些非关键词但出现次数有很多的词，例如“的”，或英文中的介词，即便将部分词语剔除掉，单从词频来确定目标关键词也是无法保证准确率的。尤其对于专业领域文档中，基于词频提取得到的可能是一些非专业领域的常用词语，而并非目标关键词。由此可知，如何提高目标关键词提取的准确度，成为亟待解决的技术问题。

发明内容

本发明目的在于，提供一种目标关键词提取系统，提高了目标关键词提取的准确度。

根据本发明一方面，提供了一种目标关键词提取系统，包括预先构建的关键词库、预先训练的词向量转换模型、处理器和存储有计算机程序的存储器，所述关键词库包括属于至少一个专业领域的目标关键词集合，当所述处理器执行所述计算机程序时，实现以下步骤：

步骤S1、获取待处理文档，基于所述关键词库从所述待处理文档中提取第一候选关键词，构建第一候选关键词集合；

步骤S2、将每一候选关键词通过所述词向量转换模型转换为对应的第一候选词向量，构建第一候选词向量集合；

步骤S3、将所述第一候选词向量集合中第一候选词向量所有进行聚类处理，得到N个第一候选词向量子集，基于第一候选关键词集合获取每一第一候选词向量子集对应的第一候选关键词子集，N大于等于2；

步骤S4、获取每一第一候选关键词子集中所有第一候选关键词的平均字符数，将平均字符数最大的第一候选关键词子集确定为第二候选关键词集合；

步骤S5、从所述第二候选关键词集合中确定目标关键词。

本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案，本发明提供的一种目标关键词提取系统可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有下列优点：

本发明所述系统通过预先构建的关键词库构建第一候选关键词集合，再通过词向量转换模型构建第一候选词向量集合，然后进一步通过聚类分析选择出第二候选关键词集合，再进一步从第二候选关键词中确定为目标关键词，减少了提取目标关键词的计算量，提高了提取目标关键词的效率和准确度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

图1为本发明实施例提供的目标关键词提取系统示意图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的一种目标关键词提取系统的具体实施方式及其功效，详细说明如后。

本发明实施例提供了一种目标关键词提取系统，如图1所示，包括预先构建的关键词库、预先训练的词向量转换模型、处理器和存储有计算机程序的存储器，所述关键词库包括属于至少一个专业领域的目标关键词集合，即关键词库可以包括一个或多个用户感兴趣的专业领域所对应的关键词，专业领域所对应的关键词具体可从现有的专业领域文档关键词中直接获取，例如可以将专业领域文档库对应的关键词出现次数排在前预设X个的专业领域关键词存入所述关键词词库中。当所述处理器执行所述计算机程序时，实现以下步骤：

需要说明的是，专业领域关键词通常较一般词语更长，因此，优选字符数最大的第一候选关键词子集作为第二候选关键词集合，以进一步减少关键词候选词的数量，提高关键词候选词的准确度。

步骤S5、从所述第二候选关键词集合中确定目标关键词。

对于中文文本来说，如果直接用关键词库里的词，到待处理文档直接进行匹配，匹配结果可能会有偏差，例如词典里的关键词为“方便”，原文中出现的词为“某品牌方便面”的话，会直接判定“方便”一词在原文中出现过，这种判别是错误的。若采用常规的关键词匹配方式，是将待处理文档进行分词后，依次判定每个分词是否出现在关键词库中。对于每一个分词来说，判定过程需要与关键库里的每个关键词都进行比较，这使得判定过程耗时巨大，且如果分词不准确得到话，也是无法保证准确度的，基于此，本发明实施例进一步提出了以下改进措施，作为一种实施例，所述系统还包括汉字拼音映射表，用于存储每一汉字对应的拼音字符串，所述拼音字符串包括汉字对应的拼音，例如，“中”对应的拼音字符串为“zhong”。进一步的，为了避免词语出现重复，所述拼音字符串还包括汉字对应的拼音所对应的预设的标注字符，预设标注字符可以为用于标识声调的字符，例如用数字1、2、3、4表示，或者用五笔输入法、全拼输入法、首笔画信息等表示。

作为一种实施例，所述步骤S1包括：

步骤S11、将所述关键词库中的每一关键词进行分词，将分词之间采用预设的第一分隔符分开，得到分词关键词；

其中，第一分隔符可以为空格，这样可以减少关键词错误匹配，提高关键词匹配的准确度。例如“中国银行”分词后为“中国银行”

步骤S12、基于所述汉字拼音映射表将每一分词关键词中的每个字转换为对应的拼音字符串，得到对应的关键词字符串；

仍以“中国银行”为例，对应的关键词字符串为“zhongguo yinhang”。若拼音字符串还包括汉字对应的拼音所对应的预设的标注字符，且为数字表示的声调，则对应的关键词字符串为“zhong1guo2 yin2hang2”。若拼音字符串还包括汉字对应的拼音所对应的预设的标注字符，且为五笔输入的英文字符，则对应的关键词字符串为“zhongkguolyinqvehangtf”。可以理解的是，如果待处理文档本身就是英文字符，则无需执行步骤S11-步骤S12，直接从步骤S13处理即可。

步骤S13、将所述待处理文档进行去停用词、分词处理，将分词之间采用预设的第一分隔符分开，基于所述汉字拼音映射表将每个字转换为对应的拼音字符串，依次按照第一分隔符和分词步长构建文本候选词库，文本候选词包括一个分词字符串，或多个连续的由第一分隔符分隔的分词字符串；

需要说明的是，如果待处理文档是英文文档，则无需将分词之间采用预设的第一分隔符分开，因为英文词语之间本身就是空格符分开的。另外，依次按照第一分隔符和分词步长构建文本候选词库，是因为关键词词库中的关键词可能是由两个或两个以上的分词组成的，因此为了避免遗漏，除了分词本身以外，还要将分词前后连续的分词组成的词组也作为文本候选词，具体选择的前后的数量和步长，根据具体应用需求来确定。

步骤S14、基于每一关键词字符串查询所述文本候选词库，若所述文本候选词库中包括该关键词字符串，则将该字符串对应的关键词确定为第一候选关键词，将所有第一候选关键词构建第一候选关键词集合。

作为一种实施例，所述关键词词库包括I个关键词{C₁，C₂，…C_I}，C_i为第i个关键词，i的取值范围为1到I，C_i对应的关键词字符串为D_i,

,

为D_i 的第j个字符，iJ为D_i的字符总数；所述步骤S14中，基于每一关键词字符串查询所述文本候选词库，若所述文本候选词库中包括该关键词字符串，则将该字符串对应的关键词确定为第一候选关键词，包括：

步骤S141、初始化i=1,j=1，初始化查询字符串Q=

，初始化查询候选词集合R为空；

步骤S142、基于Q查询所述文本候选词库，将包含Q的候选词添加至R，若R不为空，则执行步骤S143，若为空，则执行步骤S145

步骤S143、判断j是否小于iJ，若小于，则设置

，j=j+1，返回执行步骤S144，若j=iJ，则判断R中是否存在与D_i完全相同的分词，若存在，则确定D_i为第一候选关键词，加入所述第一候选分词集合中，若不存在，则执行步骤S145；

步骤S144、基于Q查询R，将R中不包含Q的分词删除，返回执行步骤是143，若R不为空，则执行步骤S145；

步骤S145、判断i是否小于I，若小于，则设置i=i+1,j=1，Q=

, 设置查询候选词集合R为空，返回执行步骤S142，若i=I,则结束流程。

通过步骤S141-步骤S145，能够从待处理文档中准确快速地匹配出出现在关键词词库中的第一候选关键词，且每个关键词都由字母字符组成，判别可以从左到右依次判别，若判断前几个就没有对应关键词了就直接停止，不用继续遍历，减少了计算量，提高了关键词匹配效率。

作为一种实施例，所述词向量转换模型为word2vec模型，word2vec模型可以事先利用大量相关语料集训练，把关键词库的每一个关键词词生成一个对应的多维向量空间，目的是让两个意思相近的词在某几个空间维度的位置关系相近。具体可以根据关键词所在的语料范围自己训练模型实现词向量化的操作，也可以采用像BERT这种经过大规模训练的预训练模型，将词转换成空间向量。

进一步的，所述步骤S3包括：

步骤S31、从所述第一候选词向量集合中随机选取N个候选词向量作为中心点；

步骤S32、计算所述第一候选词向量集合中除中心点外每一候选词向量与每一中心点的距离，并将每一第一候选词向量划分至距离最近的中心点所属组别，得到N个分组；

优选的，N的取值为2。具体可通过欧氏距离算法或球面距离算法确定每一候选词向量与每一中心点的距离。

步骤S33、获取当前N个分组中的每一中心点，返回执行步骤S32，直至每次迭代后的变化小于预设的变化阈值，将当前得到的N个分组确定为N个第一候选词向量子集。

作为上述实施例变形，步骤S32和步骤S33也可以多次随机初始化中心点，然后选择运行结果最好的一个，确定N个分组。

可以理解的是，所述第二候选关键词集合已将候选关键词限缩在很小的范围内，可以直接采用多种实施方式从第二候选关键词集合中进一步确定目标关键词，以下通过几个实施方式进行说明：

实施方式一、

所述步骤S5具体可以包括：直接将所述第二候选关键词集合中的第二候选词按照距离中心点距离由近到远排序，将位于前M个的第二候选关键词确定为目标关键词。

实施方式二、

所述步骤S5具体可以包括：获取所述第二候选关键词集合中每一第二候选关键词的在所述待处理文档中的词频，将词频位于前M个的第二候选关键词确定为目标关键词。

需要说明的是，步骤S5中基于第二候选关键词集合进一步通过词频来确定目标关键词，一方面，第二关键词均已经是专业领域的关键词，具有一定的准确度；另一方面，相对于现有技术统计所有分词的词频，仅基于第二候选关键词集合进行词频统计可以大大减少目标关键词提取的计算量，且能提高准确度。

实施方式三、

部分专业领域词汇可能占据重要位置，但往往对应的词频不会太高，因此，可以通过进一步设置权重来调节，提高关键词提取结果的准确度，在实施例二的基础上，所述系统还包括关键词权重配置列表，配置了关键词库中每一关键词的权重，所述步骤S5包括：

步骤S51、获取所述第二候选关键词集合中每一第二候选关键词的在所述待处理文档中的词频；

其中，具体可采用TF-IDF算法获取所述第二候选关键词集合中每一第二候选关键词的在所述待处理文档中的词频。TF-IDF算法为现有算法，在此不再赘述。

步骤S52、将每一第二候选关键词的在所述待处理文档中的词频乘以关键词权重配置列表中第二候选关键词对应的权重，得到对应的词频比重；

步骤S53、将所有第二候选关键词对应的词频比重按照从大到小的顺序排列，将词频比重位于前M个的第二候选关键词确定为目标关键词。

本发明实施例所述系统通过预先构建的关键词库构建第一候选关键词集合，再通过词向量转换模型构建第一候选词向量集合，然后进一步通过聚类分析选择出第二候选关键词集合，再进一步从第二候选关键词中确定为目标关键词，减少了提取目标关键词的计算量，提高了提取目标关键词的效率和准确度。

需要说明的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种目标关键词提取系统，其特征在于，

包括预先构建的关键词库、预先训练的词向量转换模型、处理器和存储有计算机程序的存储器，所述关键词库包括属于至少一个专业领域的目标关键词集合，当所述处理器执行所述计算机程序时，实现以下步骤：

步骤S5、从所述第二候选关键词集合中确定目标关键词。

2.根据权利要求1所述的系统，其特征在于，

还包括汉字拼音映射表，用于存储每一汉字对应的拼音字符串，所述拼音字符串包括汉字对应的拼音和预设的标注字符，所述步骤S1包括：

3.根据权利要求2所述的系统，其特征在于，

所述关键词词库包括I个关键词{C₁，C₂，…C_I}，C_i为第i个关键词，i的取值范围为1到I， C_i对应的关键词字符串为D_i,

,

为D_i的第j个字符，iJ为D_i的字符总数；所述步骤S14中，基于每一关键词字符串查询所述文本候选词库，若所述文本候选词库中包括该关键词字符串，则将该字符串对应的关键词确定为第一候选关键词，包括：

步骤S141、初始化i=1,j=1，初始化查询字符串Q=

，初始化查询候选词集合R为空；

步骤S143、判断j是否小于iJ，若小于，则设置

，j=j+1，返回执行步骤 S144，若j=iJ，则判断R中是否存在与D_i完全相同的分词，若存在，则确定D_i为第一候选关键词，加入所述第一候选分词集合中，若不存在，则执行步骤S145；

步骤S145、判断i是否小于I，若小于，则设置i=i+1,j=1，Q=

, 设置查询候选词集合R 为空，返回执行步骤S142，若i=I,则结束流程。

4.根据权利要求1所述的系统，其特征在于，

所述词向量转换模型为word2vec模型。

5.根据权利要求1所述的系统，其特征在于，

所述步骤S3包括：

6.根据权利要求5所述的系统，其特征在于，

所述步骤S32中，通过欧氏距离算法或球面距离算法确定每一候选词向量与每一中心点的距离。

7.根据权利要求1所述的系统，其特征在于，

所述步骤S5具体包括：获取所述第二候选关键词集合中每一第二候选关键词的在所述待处理文档中的词频，将词频位于前M个的第二候选关键词确定为目标关键词。

8.根据权利要求1所述的系统，其特征在于，

所述系统还包括关键词权重配置列表，配置了关键词库中每一关键词的权重，所述步骤S5包括：

9.根据权利要求8所述的系统，其特征在于，

所述步骤S51中，采用TF-IDF算法获取所述第二候选关键词集合中每一第二候选关键词的在所述待处理文档中的词频。