CN112307155A

CN112307155A - 针对互联网中文文本的关键词提取方法和提取系统

Info

Publication number: CN112307155A
Application number: CN201910666464.9A
Authority: CN
Inventors: 郑宇帆; 赵澈
Original assignee: Wisers Information Ltd
Current assignee: Wisers Information Ltd
Priority date: 2019-07-23
Filing date: 2019-07-23
Publication date: 2021-02-02
Also published as: TWI755786B; TW202105233A

Abstract

本发明涉及一种针对互联网中文文本的关键词提取方法和系统，所述方法包括：构建出由文本中单词组成的词汇表；根据所述词汇表，构建出关键词候选集；计算出所述关键词候选集中每个单词的得分；计算出所述关键词候选集中每个短语的得分；将所述关键词候选集中的关键短语去重；根据每个所述关键词的得分进行排序并输出得分最高的一个或多个作为文本的关键词。所述系统包括：第一构建单元、第二构建单元、第一计算单元、第二计算单元、处理单元以及输出单元。根据本发明，不仅能够提取针对中文文本的关键单词，更是能抽取出针对中文文本的关键短语。

Description

针对互联网中文文本的关键词提取方法和提取系统

技术领域

本发明涉及互联网信息处理领域，尤其涉及一种针对互联网中文文本的关键词提取方法和提取系统。

背景技术

随着互联网技术的发展，网络媒体以及社交媒体的用户群正在迅速扩大，同时也产生了海量的文本数据(如网络新闻、用户的发帖，评论等)。从文本中抽取关键词，既可以快速地了解用户关注的兴趣话题，还可以起到为某些其他的自然语言处理任务提供更详细的信息的作用，例如：通过文本分类，我们只能获得该文本的类别信息(如：美食)，但通过关键词提取，就可以进一步挖掘到该文本谈论的具体是哪一款美食(如：红烧狮子头)这一信息。

在关键词抽取算法领域中，“关键词”包括“关键单词”和由两个或以上单词组成的“关键短语”。目前的关键词抽取方法存在许多的局限性，一般针对关键短语的提取算法对于英文关键短语的处理能力较强，但在中文关键短语的提取任务上效果不佳。例如RAKE算法，是利用停顿词和标点切分句子的方法来构建关键短语候选集，但是由于社交媒体中中文的停顿词和标点符号并没有英文那么常见，并且不会按照正常语法来使用标点符号。例如，用户通常会将重要的单词或短语用话题标签或者中括号等形式突出出来，以及算法提取的中文关键短语候选集往往过长，这就会与关键词的精简性目标不符。而一般针对关键单词提取的算法(如TF-IDF，TextRank等)，虽然可以适用于不同的语言，却只能提取单词而不具备“自主”的挖掘短语作为关键词的能力。在很多情况下，短语会比单词更能反映出文章的内容和主题。例如：“进击的巨人”作为一个短语，是一部动画片的名字，但如果将它拆分成为“进击”、“的”、“巨人”三个独立单词的话，读者则很难看出其内容主题。而上面提到的TF-IDF，TextRank等算法，它们都需要藉助一个预先定义好的短语库，或者简单地将相邻的关键单词拼接，才能具有挖掘出短语作为关键词的能力。而在真实文本数据中，由于语言的多样性，想要定义出一个覆盖所有短语的词库几乎不可能；同时由于语言本身存在语法规则，简单拼接相邻的关键单词来抽取关键短语的方法并不能取得理想的实际效果。例如在“进击的巨人”例子中，“的”字往往会作为停用词被算法过滤掉，因而无法抽取该完整的关键短语。由此可见，具有“自主”的发现关键短语的能力是很重要的，而目前还缺少这种针对中文文本的不仅能够提取关键单词、更是能抽取关键短语的关键词提取方法。

发明内容

鉴于上述问题，本发明所要解决的技术问题是，提供一种针对中文文本的不仅能够提取关键单词，更是能抽取关键短语的针对互联网中文文本的关键词提取方法。

为了解决上述技术问题，本发明提供了：

一种针对互联网中文文本的关键词提取方法，包括：

根据互联网中文文本，构建出由单词组成的词汇表；

根据所述词汇表，构建出关键词候选集；

计算出所述关键词候选集中每个单词的得分；

计算出所述关键词候选集中每个短语的得分；

将所述关键词候选集中的关键短语去重；以及

根据每个所述关键词的得分进行排序并输出得分最高的一个或多个作为文本的关键词。

所述词汇表包含：

通过一些提取重要单词的算法分别得到的文本中的每个单词及其归一化后的得分；

有意义的命名实体的单词及其归一化后的得分；以及

基于社交媒体文本特征的单词及其归一化后的分数。

所述词汇表还可包含：预定义词库中的单词及其归一化后的得分。

所述关键词候选集包含：

文本中连续出现的所述词汇表中的单词所构成的短语；

出现次数超过预定阈值的词汇表中的词所构成的短语，所述短语的结构为所述词汇表中的单词连接一个非词汇表中的单词，再连接所述词汇表中的单词；以及

命名实体中的短语、基于社交媒体文本特征提取的短语，以及所述预定义词库中的短语。

其特征在于，将所述词汇表中的单词全部作为关键单词加入所述关键词候选集中。

过滤掉所述关键词候选集中预定义过长的短语。

根据所述关键词候选集中的单词构建一个共现矩阵，并计算每个所述单词在所述共现矩阵中的重要性得分、权重得分以及最终得分。

根据所述共现矩阵中单词的所述重要性得分、权重得分以及最终得分，使用预定义的算法计算出所述候选集中每个关键短语的重要程度得分。

对内容有重叠的所述关键词根据预定义算法进行所述去重处理。

输出所述重要程度得分最高的一个或多个所述关键词。

一种针对互联网中文文本的关键词提取系统，包括：

第一构建单元，其根据互联网中文文本，构建出由单词组成的词汇表；

第二构建单元，其根据所述词汇表，构建出关键词候选集；

第一计算单元，其计算出所述关键词候选集中每个单词的得分；

第二计算单元，其计算出所述关键词候选集中每个短语的得分；

处理单元，其将所述关键词候选集中的关键短语去重；以及

输出单元，其根据每个所述关键词的得分进行排序并输出得分最高的一个或多个作为文本的关键词。

所述第一构建单元构建的所述词汇表包含：

有意义的命名实体的单词及其归一化后的得分；以及

基于社交媒体文本特征的单词及其归一化后的分数。

所述第一构建单元构建的所述词汇表还可包含：预定义词库中的单词及其归一化后的得分。

所述第二构建单元构建的所述关键词候选集包含：

文本中连续出现的所述词汇表中的单词所构成的短语；

所述第二构建单元将所述第一构建单元构建的所述词汇表中的单词全部作为关键单词加入所述关键词候选集中。

所述第二构建单元过滤掉所述关键词候选集中预定义过长的短语。

所述第一计算单元根据所述关键词候选集中的单词构建一个共现矩阵，并计算每个所述单词在所述共现矩阵中的重要性得分、权重得分以及最终得分。

所述第二计算单元根据所述共现矩阵中单词的所述重要性得分、权重得分以及最终得分，使用预定义的算法计算出所述候选集中每个关键短语的重要程度得分。

所述处理单元对内容有重叠的所述关键词根据预定义算法进行所述去重处理。

所述输出单元输出所述重要程度得分最高的一个或多个所述关键词。

与现有技术相比，本发明具有以下优点：

本发明针对的为互联网中文文本，通过互联网特点以及中文特点去进行提取，相比于不针对任何语种或互联网的提取方式更加精准。很多情况下，能体现文本关键信息和主题的往往并不是单词而是短语，相比于现有技术，本发明不仅能够提取关键单词，更是能够根据中文特点提取出关键短语。

附图说明

现在参考附图，将仅通过举例的方式、而不是以任何限制方式，来描述本发明的优选实施例。在附图中：

图1是本发明的算法流程图；

图2是本发明实施例使用的文本；

图3是本发明实施例的单词算法得分和归一化处理后得分的结果表；

图4是本发明实施例的由关键单词组成的词汇表；

图5是本发明实施例的连续词汇表单词构成的短语的候选集；

图6是本发明实施例的词汇表的词+非词汇表词+词汇表中的词构成的短语候选集；

图7是本发明实施例的候选单词的共现矩阵；

图8是本发明实施例的共现矩阵中词汇表的单个单词的重要性得分表；

图9是本发明实施例的各单词的权重得分；

图10是本发明实施例的未去重的关键词的得分表；

图11是本发明实施例的去重后的关键词的得分表。

具体实施方式

图1为本发明的流程图。本发明的大体流程分为六步，在这里先介绍这六步的大体框架，介绍完毕后将结合实施例来具体讲解本发明。本申请中提到的关键词是由关键单词和关键短语构成的，因此关键词候选集包含两部分，即关键单词和关键短语。

第一步为构建由关键单词所组成的词汇表，在输入文本之后，本发明同时进行重要单词提取、命名实体的识别及提取、以及提取基于社交媒体特有的单词。其中命名实体为人名、机构名、地名以及其他所有以名称为标识的实体，基于社交媒体特有的单词为现代人会在网络上使用的语言。另外，这一步也可使用预定义词库，即提前设定好的词库，以提取出特定的单词。之后，通过所提取出的单词构建出一个由提取出单词所组成的词汇表。词汇表会包含通过用已知不同算法所提取出的单词、根据所述算法得到的原始得分以及归一化处理后得到的各单词的得分。其中，原始得分可以是提取出单词的出现次数。

第二步为构建关键词候选集，由第一步构建出的词汇表中的单词会作为单词直接被放入构建关键词候选集中。同时，提取出根据文本连续出现的词汇表单词所构成的短语、频繁出现的“词汇表单词+非词汇表词+词汇表单词”构成的短语以及基于命名实体、社交媒体特征和/或预定义词库提取的短语等。过滤掉这些短语中过长的短语，并作为关键短语同关键单词一同被放进构建关键词候选集。在下述实施例中，过长定义为超过五个单词的短语，但也可以设定为其他字数的短语。

第三步和第四步分别为计算关键词候选集中每个关键单词在文本中的得分以及计算关键词候选集中每个关键短语在文本中的得分。在第五步中对关键词去重。最后一步，即第六步为根据每个关键词和关键短语的得分进行排序，输出得分最高的一个或多个作为文本的关键词。

下面将参照附图更详细地描述本发明的示例性实施例。图2为本实施例中需要提取关键词的文本。根据本发明的第一步，需要构建一个由单词组成的词汇表。在此实施例中，该词汇表一共包括4个部分：1.由不同算法得出的重要单词；2.命名实体；3.基于社交媒体文本特征提取的单词；以及，4.可选的预定义词库。

第1部分：先利用能提取重要单词的算法，例如TextRank、TF-IDF和Chi-square等等算法，分别计算得到每个单词的得分，归一化分数并将得分最高的一些单词加入词汇表。在这一步中，可根据用户或者文本的长度来选择加入词汇表单词的数量。在此实施例中，词汇表加入多个用TextRank和TF-IDF算出来的最高分单词，这里加入词汇表的最高分单词的数量可因文本的长度或用户的喜好而改变。

第2部分：使用命名实体识别技术(NER)识别出人名、公司名、产品名和品牌名等有意义的命名实体，统计出这些实体所包含的每个单词在文本出现的次数并进行归一化处理，并得到所述每个单词的得分，然后将所得单词及其得分加入词汇表。

第3部分：根据网络社交文本的特点，提取出作者高亮出来或者是用特殊符号标注出来的重要的单词、短语或词组。在此实施例中，针对此文本所提取出来的用特殊符号标注出来的为词组和一个用括号标注出来的单词，其中，词组为“【糖烤板栗？当令好食】”，单词为“「膜」”，随后统计出所述词组包含的每个单词在文本中出现的次数并进行归一化处理，得到这些单词的得分，并将所得单词及其得分加入到词汇表中。其次，统计出单独标注出来的单词在文本中出现的次数并进行归一化处理，并将单词及其得分加入到词汇表中。

第4部分：可选的，用户可以提供预定义的词库，如果文章中有匹配上此词库的任何单词，则统计所述单词在文本中出现的次数并进行归一化处理，并将所得单词及其得分加入到词汇表中。

图3为根据此实施例文本所得到的单词得分和归一化处理后得分的结果表，其中W代表通过算法提取或者匹配得到的单词，S代表根据算法得到的原始得分或匹配单词出现的次数，NS为归一化处理后的单词得分。这里使用了TestRank和TF-IDF这两种算法，该两种算法使用不同的逻辑且得分不一样，但并不影响最终结果，这里我们将各自算法的分数归一化，因此每个单词在分数上都是以同一标准判断的。此词汇表中第一列为使用TextRank所提取出的重要单词及其得分，根据此算法得出的重要单词有：栗子、好食、令、街头、板栗、糖烤、做法、水分、紧贴、烘干、烤箱、外壳、炒、模仿、秋天。第二列为使用TF-IDF所提取出的重要单词及其得分，此列包含的单词有：栗子、水分、板栗、街头、外壳、糖烤、紧贴、烘干、模仿、享受、膜、安坐、厚实、炒、家中。第三列为此实施例文本中的命名实体，此列包含的单词有：Instagram、Youtube、肥丁。第四列为本文作者用特殊符号标注出来的词组所包含的单词及其得分，此列包含：糖烤、板栗、秋天、食、呢、D、当、令、好食。第五列为作者使用括号标示出来的单词及其得分，此列仅有：膜。第六列为预定义词库单词，此实施例并未使用预定义词库。此实施例中的词汇表一共包含：栗子、好食、令、街头、板栗、糖烤、做法、水分、紧贴、烘干、烤箱、外壳、炒、模仿、秋天、享受、膜、安坐、厚实、家中、Youtube、Instagram、肥丁、食、呢、D、当。这些单词将会直接进入到第二步中的关键词候选集中。

本发明的第二步为构建关键词候选集，该关键词候选集包括4个部分：1.词汇表单词；2.连续出现的词汇表单词所构成的短语；3.“词汇表单词+非词汇表词+词汇表单词”构成的短语；4.基于命名实体、社交媒体特征和/或预定义词库提取的短语等。

第1部分已在上一步中总结出来，因此将上步中的单词直接放进关键词候选集中。

第2部分：找出由连续出现的词汇表单词构成的短语。例如，如图5所示，其中“模仿”和“街头”都是此实施例词汇表中且为在文本中连续出现的单词，则“模仿街头”为一个由连续出现的词汇表单词构成的短语，以此找出文本中由连续出现的词汇表单词构成的短语。依照此方式，在此实施例中所述短语有：模仿街头、街头炒、炒栗子、模仿街头炒、模仿街头炒栗子、街头炒栗子、水分烘干、紧贴栗子、糖烤板栗、当令好食、安坐家中、享受厚实、糖烤板栗、秋天食、秋天食呢、食呢、食呢D、呢D、秋天食呢D、当令好食。

第3部分：在文本中会出现一个或多个“词汇表中的词”连接一个“非词汇表中的词”并再连接一个或多个“词汇表中的词”这种结构，如果在文本中匹配到这种结构时，并且在文本中的出现次数超过了预定的阈值，在此实施例中为出现两次或两次以上，则将这种短语也加入到候选集中。在此实施例中，例如“炒栗子的做法”是由“炒”+“栗子”+“的”+“做法”组成的，而“炒”、“栗子”及“做法”均是词汇表单词，“的”为非词汇表单词，因此“炒栗子的做法”会被加入到候选集中。如图6所示，出现两次或两次以上的“连续的词汇表的词+非词汇表的词+词汇表中”的结构共有7个，分别是：炒栗子的做法、栗子的做法、烤箱把栗子、栗子的水分、栗子的水分烘干、外壳和紧贴、外壳和紧贴栗子。

第4部分：接下来，将命名实体中的短语、基于社交媒体文本特征提取的短语以及自定义词库中的单词或短语一同放进关键词候选集中。目前关键词候选集中包含：词汇表单词、由连续出现的词汇表单词构成的短语、出现两次或两次以上的连续的“词汇表的词+非词汇表的词+词汇表中的词”以及命名实体中的短语、基于社交媒体文本特征提取的短语和自定义词库中的单词。根据长度过滤关键词候选集中的短语，例如在此实施例中为过滤掉包含超过五个单词的短语。最终则剩下如下单词和短语：栗子、好食、令、街头、板栗、糖烤、做法、水分、紧贴、烘干、烤箱、外壳、炒、模仿、秋天、享受、膜、安坐、厚实、家中、Youtube,Instagram,肥丁,食,呢,D,当、模仿街头、模仿街头炒栗子、街头炒栗子、水分烘干、紧贴栗子、糖烤板栗、当令好食、安坐家中、享受厚实、秋天食呢D、秋天食、秋天食呢、食呢、食呢D、呢D、炒栗子的做法、栗子的做法、烤箱把栗子、栗子的水分、栗子的水分烘干、外壳和紧贴栗子。

在第二步时，选择短语和单词的方法可根据社交媒体的不同或用户的选择来进行变动，例如上述的算法中可使用任意两个算法(任意两个部分)进行短语和单词的提取，而不需要使用全部算法。

第三步为：计算关键词候选集中每个关键单词在文本中的重要性得分。根据文本中单词的共现情况，构建出共现矩阵，如图7所示。矩阵对角线上的值为单词在文本中出现的次数，矩阵其他位置的值为两单词在同一页面滑动窗口下共同出现的次数。例如，“栗子”在本文中共出现6次，则矩阵对角线上对应“栗子”的次数为6，而“街头栗子”共出现两次，因此在“街头”和“栗子”的交汇的方格中次数为2。在此基础上，计算每个单词在共现矩阵中的重要性得分，此实施例中的算法为：

重要性得分＝(单词出现次数+单词共现次数)÷单词出现次数

例如此实施例中“栗子”的单词出现次数与单词共现次数的和为18，而“栗子”在文本中出现次数为6，则在共现矩阵中得分为18/6即3分。如图8所示，图8为此实施例的共现矩阵中词汇表的单个单词的重要性得分，其中deg(word)代表单词出现次数+单词共现次数，其等于图7中某一列或一行的和；freq(word)代表单词在文本中出现次数，为矩阵中对角线上的值；importance(word)为重要性得分。

根据每个单词在图3即词汇表中归一化处理后的得分，计算其在文本中的权重得分，如图9所示。权重得分为各项得分之和，或在各项得分基础上的某种数学变换，此实施例中使用的权重得分算法为各项得分之和。例如，“膜”的TF-IDF得分为0.3，同时“膜”还是得分为1的括号单词，因此“膜”的最终权重得分为0.3+1即1.3分。现阶段关键词得分由每个关键单词在共现矩阵中的得分乘以计算出的权重得分来得到。

第四步为：根据第三步计算的关键单词得分，计算关键词候选集中每个关键短语的重要程度得分，其包含所有关键单词的得分之和，或在此基础上的某种数学变换。在此实施例中使用的是关键短语中所有关键单词的得分之和来计算的，例如关键短语“炒栗子的做法”的得分为：2.88(炒)+6(栗子)+0(的)+0.94(做法)＝9.82。依据所述算法，得到每个关键词未去重的得分，图10为未去重的关键词得分表。

第五步为：对内容有重叠的关键短语进行去重处理。去重的判断方法并不固定，在此实施例中需要进行去重处理的情况为：关键词或短语出现完全包含另一个关键词或短语的情况；关键词或短语之间有两个或两个以上的单词是相同的情况；关键词之间的相似系数超过某一阈值，所述阈值可根据需要而设定不同数值。如果两个关键词之间出现以上情况之一，则将得分较低的一个去除。图10中带有下划线的词为需要去重处理掉的词，图11为去重后的关键词得分表，如“模仿街头炒栗子”完全包含“街头炒栗子”这个关键词，因此在图11中“街头炒栗子”被去重处理掉。

第六步，即最后一步，为输出步骤。选择重要程度得分最高的一个或多个关键词作为最终的关键词输出。如图11所示，此实施例中得分最高的关键词为“模仿街头炒栗子”，它将会被输出作为最终结果。根据应用需求，也可以选择多个关键词输出，例如，重要程度得分最高的前10个作为文本的关键词输出。

在这里要说明的是，本发明提到的“关键词”包含“关键单词”和“关键短语”，“单词”和“短语”共同组成了“词”。

Claims

1.一种针对互联网中文文本的关键词提取方法，包括：

根据互联网中文文本，构建出由关键单词组成的词汇表；

构建出关键词候选集，所述关键词候选集中的关键词包括所述词汇表中的所述关键单词和关键短语；

计算出所述关键词候选集中每个单词的得分；

计算出所述关键词候选集中每个短语的得分；

将所述关键词候选集中的关键短语去重；以及

2.根据权利要求1所述的方法，其特征在于，所述词汇表包含：

有意义的命名实体的单词及其归一化后的得分；以及

基于社交媒体文本特征的单词及其归一化后的分数。

3.根据权利要求2所述的方法，其特征在于，所述词汇表还可包含：预定义词库中的单词及其归一化后的得分。

4.根据权利要求1所述的方法，其特征在于，所述关键词候选集包含的所述关键短语为：

文本中连续出现的所述词汇表中的单词所构成的短语；

5.根据权利要求2、3和4所述的方法，其特征在于，将所述词汇表中的单词全部作为关键单词加入所述关键词候选集中。

6.根据权利要求5所述的方法，其特征在于，过滤掉所述关键词候选集中预定义过长的短语。

7.根据权利要求6所述的方法，其特征在于，根据所述关键词候选集中的单词构建一个共现矩阵，并计算每个所述单词在所述共现矩阵中的重要性得分、权重得分以及最终得分。

8.根据权利要求7所述的方法，其特征在于，根据所述共现矩阵中单词的所述重要性得分、权重得分以及最终得分，使用预定义的算法计算出所述候选集中每个关键短语的重要程度得分。

9.根据权利要求8所述的方法，其特征在于，对内容有重叠的所述关键词根据预定义算法进行所述去重处理。

10.根据权利要求9所述的方法，其特征在于，输出所述重要程度得分最高的一个或多个所述关键词。

11.一种针对互联网中文文本的关键词提取系统，包括：

第一构建单元，其根据互联网中文文本，构建出由关键单词组成的词汇表；

第二构建单元，构建出关键词候选集，所述关键词候选集中的关键词包括所述词汇表中的所述关键单词和关键短语；第一计算单元，其计算出所述关键词候选集中每个单词的得分；

处理单元，其将所述关键词候选集中的关键短语去重；以及

12.根据权利要求1所述的系统，其特征在于，所述第一构建单元构建的所述词汇表包含：

有意义的命名实体的单词及其归一化后的得分；以及

基于社交媒体文本特征的单词及其归一化后的分数。

13.根据权利要求12所述的系统，其特征在于，所述第一构建单元构建的所述词汇表还可包含：预定义词库中的单词及其归一化后的得分。

14.根据权利要求11所述的系统，其特征在于，所述第二构建单元构建的所述关键词候选集包含：

文本中连续出现的所述词汇表中的单词所构成的短语；

15.根据权利要求12、13和14所述的系统，其特征在于，所述第二构建单元将所述第一构建单元构建的所述词汇表中的单词全部作为关键单词加入所述关键词候选集中。

16.根据权利要求15所述的系统，其特征在于，所述第二构建单元过滤掉所述关键词候选集中预定义过长的短语。

17.根据权利要求16所述的系统，其特征在于，所述第一计算单元根据所述关键词候选集中的单词构建一个共现矩阵，并计算每个所述单词在所述共现矩阵中的重要性得分、权重得分以及最终得分。

18.根据权利要求17所述的系统，其特征在于，所述第二计算单元根据所述共现矩阵中单词的所述重要性得分、权重得分以及最终得分，使用预定义的算法计算出所述候选集中每个关键短语的重要程度得分。

19.根据权利要求18所述的方法，其特征在于，所述处理单元对内容有重叠的所述关键词根据预定义算法进行所述去重处理。

20.根据权利要求19所述的方法，其特征在于，所述输出单元输出所述重要程度得分最高的一个或多个所述关键词。