CN110232112B

CN110232112B - 文章中关键词提取方法及装置

Info

Publication number: CN110232112B
Application number: CN201910468815.5A
Authority: CN
Inventors: 贺夏龙
Original assignee: Beijing Chuangxin Journey Network Technology Co ltd
Current assignee: Mafengwo Guizhou Tourism Group Co ltd
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2022-06-21
Anticipated expiration: 2039-05-31
Also published as: CN110232112A

Abstract

本公开实施例涉及计算机技术领域，提供一种文章中关键词提取方法及装置，其中，方法包括：对待进行文章中关键词提取的文章进行分割得到分割语句，并确定分割语句的位置；基于分割语句，确定分割语句的语义重要性分值；基于语义重要性分值和分割语句的位置，确定分割语句的重要性分值；基于分割语句的重要性分值确定分割语句权重；基于分割语句权重确定文章分词后的词语权重；基于词语权重对分割语句中的词语进行筛选，得到关键词。本公开实施例结合文章内容，提取得到关键词,可提高提取的关键词体现文章重要信息的准确度。

Description

文章中关键词提取方法及装置

技术领域

本公开涉及计算机技术领域，尤其涉及一种文章中关键词提取方法及装置。

背景技术

随着互联网技术的发展，每天有大量的文章被制造出来，其中，文章可以包括新闻、游记、散文等类型。关键词成为人们阅读文章、快速了解文章大概内容的不可或缺的分析工具。通过与文章主旨最贴切、表述能力最精确的关键词，可以减少用于概括文章的词语的数量，并且可以提高人们的阅读效率以及加深对文章的理解。

相关技术中，一方面可采用人工方式提取关键词，但处理量较大，并且由于每个人对关键词的认知不同，容易造成文章中关键词提取标准不一致。另一方面可基于词频的关键词自动提取关键词，但此种方式基于词频的提取是将词与文章脱离，提取后的关键词可能体现不出文章的重要信息。

综上，目前对文章中关键词的提取方式，提取准确度不高，很难使提取的关键词精准体现文章重要信息。

发明内容

为了解决现有技术中存在的上述问题，本公开提供一种文章中关键词提取方案。

根据本公开实施例的第一方面，提供一文章中关键词提取方法，包括：文章分割步骤，对待进行文章中关键词提取的文章进行分割得到分割语句，并确定分割语句的位置；语义重要性确定步骤，基于分割语句，确定分割语句的语义重要性分值；分割语句重要性确定步骤，基于语义重要性分值和分割语句的位置，确定分割语句的重要性分值；分割语句权重获取步骤，基于分割语句的重要性分值确定分割语句权重；词语权重获取步骤，基于分割语句权重确定文章分词后的词语重要度权重，文章分词后的词语权重包括词语重要度权重；词语筛选步骤，基于词语权重对分割语句中的词语进行筛选，得到关键词。

在一例中，词语权重获取步骤之前，方法还包括：全局权重获取步骤，基于配置语料库、词语在文章中的词频与逆向文件频率，确定词语全局权重；语义投票权重获取步骤，利用投票机制对文章中的词语进行排序，得到词语语义投票权重；词语权重还包括词语全局权重和词语的语义投票权重。

在一例中，在文章分割步骤之后，方法还包括：属性权重获取步骤，基于词语的属性，得到词语属性权重，其中，词语的属性包括词性、词长度、特殊位置，特殊位置包括引号内、括号内、书名号内中的至少一种；词语权重还包括词语属性权重。

在一例中，词语筛选步骤之前，方法还包括：词类型匹配步骤，确定词语与配置词库中参照词的相似度，参照词具有参照词权重；基于相似度以及参照词权重，确定词类型权重；词语权重还包括词语类型权重。

在一例中，方法还包括：降权系数获取步骤，基于词语与参照词中相同字的个数、参照词的字数、词语的字数，得到对参照词的词权重进行权重降级的降权系数。

在一例中，其中，在词语筛选步骤之后，方法还包括：停用词对比步骤，将关键词与配置的停用词库中的停用词进行对比；响应于停用词库中存在与关键词相同的停用词，去除与停用词相同的关键词。

在一例中，方法还包括：关键词排序步骤，对关键词按照关键词的词语权重进行排序，并基于排序后的关键词得到关键词列表。

在一例中，关键词排序步骤之前，方法还包括：关键词筛选步骤，针对去除与停用词相同的关键词之后的剩余关键词，基于剩余关键词的词性，对剩余关键词进行筛选，获得目标关键词，目标关键词具有与词语权重等值的目标关键词权重；关键词列表基于目标关键词获得。

在一例中，语义重要性确定步骤，包括：分割语句语义重要性概率获取步骤，调用预先训练的语义模型，并将分割语句作为语义模型的输入参数，确定分割语句语义重要概率以及分割语句语义不重要概率；语义重要性分值确定步骤，基于分割语句语义重要概率以及分割语句语义不重要概率，确定语义重要性分值。

在一例中，文章中包括有至少两个相同的词语；词语权重为文章中所有相同的词语的词语重要度权重之和。

本公开实施例的第二方面，提供一种文章中关键词提取方法，包括：文章分割步骤，对待进行文章中关键词提取的文章进行分割得到分割语句，并确定分割语句的位置；分割语句重要性确定步骤，将分割语句及分割语句的位置采用句子位置重要性模型进行预测，确定分割语句位置重要性分值；词语权重获取步骤，基于分割语句位置重要性分值，确定文章分词后的词语权重；词语筛选步骤，基于词语权重对分割语句中的词语进行筛选，得到关键词。

在一例中，在分割语句重要性确定步骤之前，方法还包括：模型训练步骤，采用类型与文章类型相同的文本信息训练神经网络，获得句子位置重要性模型，文本信息包括标注有位置重要性标识的句子。

在一例中，在词语权重获取步骤之前，方法还包括：全局权重获取步骤，基于配置语料库、词语在文章中的词频与逆向文件频率，确定词语全局权重；语义投票权重获取步骤，利用投票机制对文章中的词语进行排序，得到词语语义投票权重；词语权重还包括词语全局权重和词语的语义投票权重。

在一例中，在词语筛选步骤之前，方法还包括：词类型匹配步骤，确定词语与配置词库中参照词的相似度，参照词具有参照词权重；若相似度小于预设阈值，则对参照词权重进行权重降级，并将降级后的参照词权重作为词语类型权重；若相似度大于或等于预设阈值，则将参照词权重作为词语类型权重；基于参照词权重与相似度获取词语类型权重；词语权重还包括词语类型权重。

在一例中，在词语筛选步骤之后，方法还包括：关键词排序步骤，对关键词按照关键词的词语权重进行排序，并基于排序后的关键词得到关键词列表。

在一例中，在关键词排序步骤之前，方法还包括：关键词筛选步骤，针对去除与停用词相同的关键词之后的剩余关键词，基于剩余关键词的词性，对剩余关键词进行筛选，获得目标关键词，目标关键词具有与词语权重等值的目标关键词权重；关键词列表基于目标关键词获得。

根据本公开实施例的第三方面，提供一种文章中关键词提取装置，包括：文章分割单元，用于对待进行文章中关键词提取的文章进行分割得到分割语句，并确定分割语句的位置；语义重要性确定单元，用于基于分割语句，确定分割语句的语义重要性分值；分割语句重要性确定单元，用于基于语义重要性分值和分割语句的位置，确定分割语句的重要性分值；分割语句权重获取单元，用于基于分割语句的重要性分值确定分割语句权重；词语权重获取单元，用于基于分割语句权重确定文章分词后的词语重要度权重，文章分词后的词语权重包括词语重要度权重；词语筛选单元，用于基于词语权重对分割语句中的词语进行筛选，得到关键词。

在一例中，装置还包括：全局权重获取单元，用于基于配置语料库、词语在文章中的词频与逆向文件频率，确定词语全局权重；语义投票权重获取单元，用于利用投票机制对文章中的词语进行排序，得到词语语义投票权重；词语权重还包括词语全局权重和词语的语义投票权重。

在一例中，装置还包括：属性权重获取单元，用于基于词语的属性，得到词语属性权重，其中，词语的属性包括词性、词长度、特殊位置，特殊位置包括引号内、括号内、书名号内中的至少一种；词语权重还包括词语属性权重。

在一例中，装置还包括：词类型匹配单元，用于确定词语与配置词库中参照词的相似度，参照词具有参照词权重；基于参照词权重与相似度获取词语类型权重；词语权重还包括词语类型权重。

在一例中，装置还包括：降权系数获取单元，用于基于词语与参照词中相同字的个数、参照词的字数、词语的字数，得到对参照词的词权重进行权重降级的降权系数。

在一例中，装置还包括：停用词对比单元，用于将关键词与配置的停用词库中的停用词进行对比；响应于停用词库中存在与关键词相同的停用词，去除与停用词相同的关键词。

在一例中，装置还包括：关键词排序单元，用于对关键词按照关键词的词语权重进行排序，并基于排序后的关键词得到关键词列表。

在一例中，装置还包括：关键词筛选单元，用于针对去除与停用词相同的关键词之后的剩余关键词，基于剩余关键词的词性，对剩余关键词进行筛选，获得目标关键词，目标关键词具有与词语权重等值的目标关键词权重；关键词列表基于目标关键词获得。

在一例中，语义重要性确定单元，包括：分割语句语义重要性概率获取模块，用于调用预先训练的语义模型，并将分割语句作为语义模型的输入参数，确定分割语句语义重要概率以及分割语句语义不重要概率；语义重要性分值确定模块，用于基于分割语句语义重要概率以及分割语句语义不重要概率，确定语义重要性分值。

根据本公开实施例的第四方面，提供一种文章中关键词提取装置，包括：文章分割单元，用于对待进行文章中关键词提取的文章进行分割得到分割语句，并确定分割语句的位置；分割语句重要性确定单元，用于将分割语句及分割语句的位置采用句子位置重要性模型进行预测，确定分割语句位置重要性分值；词语权重获取单元，用于基于分割语句位置重要性分值，确定文章分词后的词语权重；词语筛选单元，用于基于词语权重对分割语句中的词语进行筛选，得到关键词。

在一例中，装置还包括：模型训练单元，用于采用类型与文章类型相同的文本信息训练神经网络，获得句子位置重要性模型，文本信息包括标注有位置重要性标识的句子。

根据本公开实施例的第五方面，提供一种电子设备，其中，包括：存储器，用于存储计算机程序；处理器，用于执行存储器中存储的计算机程序，且计算机程序被执行时，实现上述任一实施例的方法。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，存储有计算机程序，其中，计算机程序被处理器执行时，实现上述任一实施例的方法。

基于本公开实施例的文章中关键词提取方法及装置、电子设备、计算机可读存储介质，通过基于语义重要性分值和分割语句的位置，确定分割语句的重要性分值，结合文章语义与分割句的位置重要性，避免了提取的关键词与文章主旨。基于分割语句的重要性分值确定分割语句权重；基于分割语句权重确定文章分词后的词语权重；基于词语权重对分割语句中的词语进行筛选，得到关键词。提高了提取的关键词体现文章重要信息的准确度。

附图说明

通过参考附图阅读下文的详细描述，本公开实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

图1示出了本公开文章中关键词提取方法一个实施例的流程示意图；

图2示出了本公开文章中关键词提取方法另一实施例的流程示意图；

图3示出了本公开文章中关键词提取方法另一实施例的流程示意图；

图4示出了本公开文章中关键词提取方法另一实施例的流程示意图；

图5示出了本公开文章中关键词提取方法另一实施例的流程示意图；

图6示出了本公开文章中关键词提取方法另一实施例的流程示意图；

图7示出了本公开文章中关键词提取方法另一实施例的流程示意图；

图8示出了本公开文章中关键词提取方法另一实施例的流程示意图；

图9示出了本公开文章中关键词提取装置一个实施例的结构示意图；

图10示出了本公开文章中关键词提取装置另一实施例的结构框图；

图11示出了本公开文章中关键词提取装置另一实施例的结构框图；

图12示出了本公开文章中关键词提取装置另一实施例的结构框图；

图13示出了本公开文章中关键词提取装置另一实施例的结构框图；

图14示出了本公开文章中关键词提取装置另一实施例的结构框图；

图15示出了本公开文章中关键词提取装置另一实施例的结构框图；

图16示出了本公开文章中关键词提取装置另一实施例的结构框图；

图17示出了本公开电子设备的一个实施例的结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。

需要注意，虽然本文中使用“第一”、“第二”等表述来描述本公开的实施方式的不同模块、步骤和数据等，但是“第一”、“第二”等表述仅是为了在不同的模块、步骤和数据等之间进行区分，而并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。

本公开实施例可以应用于终端设备、计算机系统及服务器等电子设备，其可与众多其它通用或者专用的计算系统环境或者配置一起操作。适于与终端设备、计算机系统以及服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子，包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统以及服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑以及数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

由于本公开的文章中关键词提取方法适用于多种文章进行关键词的提取，如新闻、游记、散文等类型，以下实施例仅以游记为例对本公开的文章中关键词提取方法进行详细阐述。

游记内容通常为较长的文本信息，关键词是对游记文本的缩略表达，从游记文本中提取关键词，是搜索和推荐所使用的基本元素。关键词是针对游记内容的一层抽象，能够包含游记中必要的关键信息。随着现在经济的发展，出游人群也越来越多，每天都会有大量的游记内容产生。

图1为本公开文章中关键词提取方法一个实施例的流程图。如图1所示，该实施例方法包括：文章分割步骤100、语义重要性确定步骤200、分割语句重要性确定步骤300、分割语句权重获取步骤400、词语权重获取步骤500以及词语筛选步骤600。下面对图1中的各步骤进行详细说明。

基于本公开实施例是对文章进行关键词提取，在进行本公开实施例的方法步骤之前可以基于结构化感知机对文章内容进行分词，并对分词后得到的词语进行词性标注。在一例中，可以通过采用“_”标识符进行分词，采用词性的英文简称在“_”后标注词性。例如“名词”的英文为noun，“动词”的英文为verb，可以采用“n”作为名词简称，采用“v”作为动词简称，其他词性简称在此不再一一列举。在一具体示例中，“跟尼泊尔的缘分大概要追溯到7年前了，那是2012年离开职场开始独自背包旅行，计划之外的决定去了珠峰，却错过了从樟木口岸前往尼泊尔”这一文章中的部分文字，分词后结果为“跟_p尼泊尔_ns的_u缘分_n大概_d要_v追溯_v到 _v 7年_t前_f了_y，_w那_r是_v 2012年_t离开_v职场_n开始_v独自_d背包_v旅行_v，_w计划_n之外_f的_u决定_n去_v了_u珠峰_ns，_w却_d错过_v了_u从_p樟木_ns口岸_n前往_v尼泊尔_ns。_w”。

文章分割步骤100，对待进行文章中关键词提取的文章进行分割得到分割语句，并确定分割语句的位置。

在一个实施例中，对游记类型的文章进行分割，标记出段落；对段落进行分割，标记出分割句；对分割句进行分割并标记出每一个分词后的词语。记录每个词语所在分割句的位置，该位置包括章节号、段落号和分割句序号。根据换行符来确定段落，根据标点符号来确定分割语句，标点符号包括逗号、句号、分号等。对游记进行分割后，对于游记中的每一个词语，可以通过章节号(即第几章)、段落号(即第几段)、分割句序号(即当前段落中的第几句)组合后的位置标识进行标注。

语义重要性确定步骤200，基于分割语句，确定分割语句的语义重要性分值。

在一些实施例中，分割语句的语义重要性分值可以通过分割语句的语义重要性概率计算得到。具体地，语义重要性确定步骤200可以包括分割语句语义重要性概率获取步骤210以及语义重要性分值获取步骤220。图2示出了本公开文章中关键词提取方法的另一些实施例的流程示意图，参照图2，本实施例的分割语句语义重要性概率获取步骤210，调用预先训练的语义模型，并将分割语句作为语义模型的输入参数，确定分割语句语义重要概率以及分割语句语义不重要概率。

采用游记对待训练模型进行训练，得到语义模型。游记的每个分割语句作为一个输入，重要不重要作为分类标签，输入一个词的序列(一段文本或者一句话)，输出这个词序列属于不同类别标签的概率。分割句中的词和词组组成特征向量，特征向量通过线性变换映射到中间层，中间层再映射到标签。在预测标签时使用非线性激活函数，在中间层不使用非线性激活函数。例如，选择10000篇游记作为训练样本，人工标注出样本中每个分割句是否重要。比如“吉隆是个很小的镇子”就是重要的句子，设置得分为1，“每每这种时刻”就是不重要的句子，设置得分为0等，训练该待训练模型。基于上下文关系、语义内容来学习训练，进行语义重要性模型训练，得到一个根据输入分割句来判断该分割句是否重要的语义模型。

使用训练后得到的语义模型对分割句重要的概率以及不重要的概率进行预测，将待分析游记的每个分割句输入到该语义模型中进行预测，得到每个分割语句的重要概率P_{fast_pos}，以及不重要概率P_{fast_neg}。

语义重要性分值获取步骤220，基于分割语句语义重要概率以及分割语句语义不重要概率，确定语义重要性分值。

基于分割语句的重要概率P_{fast_pos}，以及不重要概率P_{fast_neg}计算句子语义重要性得分，该得分可以使用上述两者的除法、减法、或者其他运算方法，在此不做具体限定，比如该得分可以是P_{fast_pos}/P_{fast_neg}，也可以是P_{fast_pos}+P_{fast_neg}等。

由于游记是通过句子来表达完整的意思，通过确定分割语句的语义重要性，可以在关键词提取的过程中缩小关键词的提取范围，即，可以在语义重要性分数较高的分割语句中提取关键词。

分割语句重要性确定步骤300，基于语义重要性分值和分割语句的位置，确定分割语句的重要性分值。

在一些实施例中，将分割语句、语义重要性得分，以及分割语句的位置标识，即分割语句章节号、段落号以及分割语句序号，作为输入特征，训练得到判断句子是否重要的位置模型。使用该模型进行游记中分割句的预测，可以获得一个重要的概率 P_{xgb_pos}和一个不重要的概率P_{xgb_neg},使用P_{xgb_pos}/P_{xgb_neg}(或者其他的计算方法，在此不做限定)作为最终的分割语句的重要性分值w_xgb。为防止过于两极化，对阈值进行控制，限制此w_xgb的范围为0.05-19。对于一篇游记中的所有分割句，可得出一个最大值 w_{xgb_max}和一个最小值w_{xgb_min}。

分割语句权重获取步骤400，基于分割语句的重要性分值确定分割语句权重。

在一些实施例中，使用min-max方法进行对分割语句的重要性分值归一化处理得到分割语句权重。其中，可以采用如下公式对分割语句权重的计算：

Y＝(x-x_min)/(x_max-x_min)公式(一)

其中，Y为分割语句的重要性分值，在采用公式(一)计算分割语句重要性分值的过程中x代入待测分割语句的语义重要性分值，x_min代入游记中分割句重要性分值的最小值w_{xgb_min}，x_max代入游记中分割句重要性分值的最大值w_{xgb_max}。通过归一化处理得到的值即为分割语句权重。

通过分割句、分割语句的语义重要性分值以及分割语句的位置信息获得的分割语句权重，可体现该分割语句在整篇游记中的重要程度，通过分割语句权重可确定关键词提取的范围，以保障提取的关键词能够体现游记中的重要信息。

词语权重获取步骤500，基于分割语句权重确定文章分词后的词语重要度权重，文章分词后的词语权重包括词语重要度权重。

在一些实施例中，分词后的某一词语在游记中只出现一次，该游记中的分割语句权重可以直接作为分词后的词语的重要性权重。基于分词后的的词语在游记中出现至少两次，即游记中包括有至少两个相同的词语；词语权重可以是文章中所有相同词语的词语重要度权重之和。对文章中的词进行遍历，对相同的词语做词语重要度权重的加和，即位置权重与词频的结合。例如某一词语在游记中共出现了n次，则词语权重计算得到w_t的公式为：

其中，w_l为词语在某一分割语句中的词语重要性权重，词语重要度权重基于分割语句权重确定，其具体形式可以是词语重要度权重与分割语句权重相等。

通过确定词语权重，可以通过数据直接得知该词语在整篇游记中的重要性，包括语义重要性以及位置重要性。避免了人为提取关键词时对关键词的认知不同，可能出现标准不一致的情况产生，提高了关键词提取的准确性以及公平性。

词语筛选步骤600，基于词语权重对分割语句中的词语进行筛选，得到关键词。可以作为特征用于文章内容的分类，聚类，也可以用于后续的目的地提取，POI提取，作为推荐算法的召回通道等等。

每一种类型的文章都具有其特殊的文本形式，其关注的重要内容各有不同，例如，游记关注的重要信息是旅游方面的内容，景点、节日、城市特点等；新闻关注的重要信息是时间、事件、地点、事件影响等；散文关注的是情感表达等。根据每一种类型的文章提取能够表达其重要内容的关键词，同一词语可能在不同类型的文章中的重要程度不同，造成词语权重不同。

在游记类型的文章通常篇幅较长，作者一般以时间线来贯穿全文，且没有固定的事件和中心思想，主要是以一种记叙的方式来记录一次旅行的过程,除了极少数词会出现多次，大部分词汇都只出现了一次两次。因此使用与新闻类似的以词频为主的关键词提取算法在游记内容上表现不佳。同时，游记由于通常由广大的用户生产，而不是由专业的写作编辑生产，在句子的书写规范，句子形式以及用词上往往有较大的差异，使用基于句式特点的关键词提取效果也不是很好。而游记所包含的重要信息往往都分布在一些特定的位置，比如一般会在开头做一些总述性的描述，在新一章节的开始交代一天的行程等等，与位置的关系较强。故，本公开实施例中在进行关键词提取时，结合语义重要性与位置重要性能更好地从多维度体现关键词的特点。

本实施例基于词语权重对分割语句中的词语进行筛选后获得关键词。词语权重越高的关键词，其越能概括文章的重要信息。基于词语权重筛选后的关键词能够结合语义信息以及位置信息，提高对文章重要信息的概括，更准确表达文章的主旨内容。

图3示出了本公开文章中关键词提取方法的另一些实施例的流程示意图，如图 3所示，本实施例的文章中关键词提取方法还包括：全局权重获取步骤700与语义投票权重获取步骤800，其中，

全局权重获取步骤700，基于配置语料库、词语在文章中的词频与逆向文件频率，确定词语全局权重。

语料库中存放的是在语言的实际使用中真实出现过的语言材料；语料库是以电子计算机为载体承载语言知识的基础资源。词频为某个词语在文章中出现的次数，逆向文件频率为：以配置语料库中的文章总数与包含该词语的文章数加1后的文章总数的比值为真数，固定的(0，+∞)中任意值为底的对数。通过词频与逆向文件频率的乘积确定词语全局权重w_f。其中，词语全局权重与词语在文章中的出现次数成正比，与该词语在整个语料库中的出现次数成反比。由此可知，词语全局权重越高的词语在文章中出现的次数越多，越低的词在文章中出现的次数越少。

在本实施例中，通过以“词频”衡量词语在文章中的重要性结合上述的词语重要度权重，不仅可以在数量方面体现词语的重要性，还可以在语义重要性以及位置重要性方面对关键词提取准确性做出贡献。

语义投票权重获取步骤800，利用投票机制对文章中的词语进行排序，得到词语语义投票权重。

在一些实施例中通过把文章分割成若干分割句以及词语，并建立图模型,利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取。可以表示为一个有向有权图G＝(V,E),由点集合V和边集合E组成,E是V×V的子集。任两点V_i,V_j之间边的权重为w_ji,对于一个给定的点V_i,In(Vi)为指向该点的点集合,Out(Vi)为点V_i指向的点集合。点V_i的得分定义如下:

其中,d为阻尼系数,取值范围为0到1,代表从图中某一特定点指向其他任意点的概率,一般取值为0.85；k∈(1，i)。计算图中各点的得分时,需要给图中的点指定任意的初值,并递归计算直到收敛,即图中任意一点的误差率小于给定的极限值时就可以达到收敛,一般该极限值取0.0001。

本实施例中，通过计算得出的V_i的得分WS(V_i)可以得出词语的投票语义权重 w_r，用于筛选分割语句中词语的词语权重还可以包括词语的语义投票权重w_r。

图4示出了本公开文章中关键词提取方法的另一些实施例的流程示意图，如图 4所示，本实施例的文章中关键词提取方法还可以包括属性权重获取步骤900，基于词语的属性，得到词语属性权重，其中，词语的属性包括词性、词长度、特殊位置，特殊位置包括引号内、括号内、书名号内中的至少一种；词语权重还包括词语属性权重。

在一些实施例中，根据词性、词长度给出的属性权重可以是正值，也可以是负值，具体的可以使用预先制定的策略或者训练的模型给出。其中，在游记内容中，名词提供有效价值的可能性更高，动词稍差，数量词和时间词也会有一定的贡献，而对于助词，副词，介词这种词没有什么价值，甚至会影响判断，因此名词，动词会给予正值，而助词，副词，介词等会给予负值，根据词性给出的属性权重记为w_p，根据词语词长度给出的属性权重记为w_c。根据特殊位置给出的属性权重为正值，如引号内、括号内、书名号内等词语给出一个特殊位置的属性权重w_d。这些特殊位置，往往是一些有价值的词语，因此会给予一个加分。比如本文中出现“《高山上的夏尔巴人》”，高山上的夏尔巴人就是一个比较有意义的词语，是作者提到的一个跟尼泊尔相关的电影名称。

在一些实施例中，词语权重还可以包括词语属性权重。通过将词语的属性权重作为词语权重的一部分，可以进一步体现出文章类型，提高关键词体现游记类型文章重要信息的准确性。

图5示出了本公开文章中关键词提取方法的另一些实施例的流程示意图，如图 5所示，本实施例的文章中关键词提取方法还可以包括词类型匹配步骤1000，具体地，确定词语与配置词库中参照词的相似度，参照词具有参照词权重；若相似度小于预设阈值，则对参照词权重进行权重降级，并将降级后的参照词权重作为词语类型权重；若相似度大于或等于预设阈值，则将参照词权重作为词语类型权重；词语权重还包括词语类型权重w_e。

在一些实施例中，参照词库可以是实体词库，根据预先收集整理好的旅行实体词库，把能够体现游记的实体词划分为目的地词、POI词、景色实体词、玩法实体词、食物实体词、行前准备实体词等一系列的实体词，其中，POI是基于位置服务的最核心数据，在电子地图上运用场景广泛，如导航前选择的目的地、查看周边的餐馆等。

每一种类型的实体词都会有一个不同的重要度分数。比如“尼泊尔”就是一个目的地词，“辣椒油”是一个食物类实体词。使用游记中的词语与实体词库中的词进行匹配，以及进行命名实体识别，对于能完全匹配的词使用该实体词库原有的重要度权重分数，对于识别到的相似词汇对实体词权重分数降级，其中，δ可以作为降权系数。

图6示出了本公开文章中关键词提取方法的另一些实施例的流程示意图，如图 6所示，本实施例的文章中关键词提取方法还可以包括降权系数获取步骤1100，基于词语与参照词中相同字的个数、参照词的字数、词语的字数，得到对参照词的词权重进行权重降级的降权系数。

计算降权系数方法可以参照如下方式进行：首先对于相似的实体，比如实体词库中的实体为“珠穆拉玛峰”，找到相似的词为“珠峰”。相同的字的个数为same＝2，不同的字的个数为diff＝3，“珠穆拉玛峰”的长度为lena＝5，“珠峰”的长度为 lenb＝2。那么降权系数可以表示为：

δ＝same/(diff+|lena-lenb|)≈0.33

其中，降权后的词类型权重w_v＝δw_e。

本实施例中的词语权重可以为w_t+w_r+w_f+w_p+w_c+w_d+w_e计算后获得的最终值，或者也可以为w_t+w_r+w_f+w_p+w_c+w_d+w_v计算得出的最终值。

图7示出了本公开文章中关键词提取方法的另一些实施例的流程示意图，如图 7所示，本实施例的文章中关键词提取方法在词语筛选步骤600之后还可以包括停用词对比步骤1200，具体地，将关键词与配置的停用词库中的停用词进行对比；响应于停用词库中存在与关键词相同的停用词，去除与停用词相同的关键词。

本实施例中，停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，这些字或词即被称为停用词。这些停用词都是人工输入、非自动化生成的，生成后的停用词会形成一个停用词表。本实施例通过在获得的关键词中去除与停用词相同的关键词，可以提高关键词提取效率及精简性。

图8示出了本公开文章中关键词提取方法的另一些实施例的流程示意图，如图 8所示，本实施例的文章中关键词提取方法在停用词对比步骤1200之后，还可以包括关键词排序步骤1300，对目标关键词按照目标关键词权重进行排序，并基于排序后的目标关键词得到关键词列表。

本实施例的关键词列表中按照关键词在游记中对应的词语权重进行排序，提取得到的目标关键词在旅行兴趣方面的效果佳。提取后的关键词可以准确概括游记中的重要信息且没有多余关键词。

继续参照图8，在获取关键词之后，还可以对获取得到的关键词进行关键词筛选步骤1400，具体地，针对去除与停用词相同的关键词之后的剩余关键词，基于剩余关键词的词性，对剩余关键词进行筛选，获得目标关键词，目标关键词具有与词语权重等值的目标关键词权重。

在一些实施例中，语气助词、副词、介词、连接词等，通常自身并无明确的意义，只有将其放入一个完整的句子中才有一定作用，为了能够避免这些词语对提取的关键词的影响，将上述词性的关键词从去除了与停用词相同的关键词之后的剩余关键词中去掉。获得能够表达具体意思并能够概括游记重要信息的目标关键词，作为最终的游记的关键词。

本公开实施例还提供一种文章中关键词提取方法，其中，文章分割步骤，对待进行文章中关键词提取的文章进行分割得到分割语句，并确定分割语句的位置；分割语句重要性确定步骤，将分割语句及分割语句的位置采用句子位置重要性模型进行预测，确定分割语句位置重要性分值；词语权重获取步骤，基于分割语句位置重要性分值，确定文章分词后的词语权重；词语筛选步骤，基于词语权重对分割语句中的词语进行筛选，得到关键词。

本实施例中，文章分割步骤、词语筛选步骤可分别参照前述实施例中所涉及的文章分割步骤100、词语筛选步骤600进行理解，在此不再一一赘述。现只对本实施例中分割语句重要性确定步骤、词语权重获取步骤进行具体阐述。

分割语句重要性确定步骤中，可以通过训练神经网络模型得到句子位置重要性模型。采用类型与文章类型相同的文本信息训练神经网络，获得句子位置重要性模型，文本信息包括标注有位置重要性标识的句子。可以采用多篇类型相同的文章，比如 1000篇游记、新闻等输入神经网络模型，在输入的多篇类型相同的文章中人工标记出重要位置的句子。通过上述多篇类型相同的文章训练后得到的神经网络模型，可具备预测文章中句子位置重要性的能力。神经网络模型训练后得到的句子位置重要性模型可以采用输出分值的方式得到待预测的分割语句的重要性。

与语句重要性确定步骤相对应的，词语权重获取步骤可以是基于分割语句位置重要性分值，确定文章分词后的词语权重。本实施例中，关键词是基于整篇文章提取得到的，提取得到的关键词在文章中的位置可以是段首、句首、句中的任何一个位置，本实施例对关键词在句中的位置不做限定。

本实施例的文章中关键词提取方法还可以包括全局权重获取步骤、语义投票权重获取步骤、属性权重获取步骤、词类型匹配步骤、降权系数获取步骤、关键词排序步骤、关键词筛选步骤中的一项或者多项。其中，全局权重获取步骤，基于配置语料库、词语在文章中的词频与逆向文件频率，确定词语全局权重；语义投票权重获取步骤，利用投票机制对文章中的词语进行排序，得到词语语义投票权重；词语权重还包括词语全局权重和词语的语义投票权重。属性权重获取步骤，基于词语的属性，得到词语属性权重；词语权重还包括词语属性权重。词类型匹配步骤，确定词语与配置词库中参照词的相似度，参照词具有参照词权重；基于相似度以及参照词权重，确定词类型权重；词语权重还包括词语类型权重。降权系数获取步骤，基于词语与参照词中相同字的个数、参照词的字数、词语的字数，得到对参照词的词权重进行权重降级的降权系数。关键词排序步骤，对关键词按照关键词的词语权重进行排序，并基于排序后的关键词得到关键词列表。关键词筛选步骤，针对去除与停用词相同的关键词之后的剩余关键词，基于剩余关键词的词性，对剩余关键词进行筛选，获得目标关键词，目标关键词具有与词语权重等值的目标关键词权重；关键词列表基于目标关键词获得。

基于相同的构思，本公开实施例还提供一种文章中关键字提取装置。图9示出了本公开文章中关键词提取装置一个实施例的结构示意图。该文章中关键字提取装置可用于多种类型的文章中的关键字进行提取，其中，多种类型的文章包括游记、新闻、小说等。该文章中关键字提取装置包括文章分割单元10、语义重要性确定单元20、分割语句重要性确定单元30、分割语句权重获取单元40、词语权重获取单元50、词语筛选单元60，其中，

文章分割单元10用于对待进行文章中关键词提取的文章进行分割得到分割语句，并确定分割语句的位置；语义重要性确定单元20用于基于分割语句，确定分割语句的语义重要性分值；分割语句重要性确定单元30，用于基于语义重要性分值和分割语句的位置，确定分割语句的重要性分值；分割语句权重获取单元40用于基于分割语句的重要性分值确定分割语句权重；词语权重获取单元50用于基于分割语句权重确定文章分词后的词语重要度权重，文章分词后的词语权重包括词语重要度权重；词语筛选单元60用于基于词语权重对分割语句中的词语进行筛选，得到关键词。

在一些实施例中，基于本公开实施例是对文章进行关键词提取，在进行本公开实施例的方法步骤之前可以基于结构化感知机对文章内容进行分词，并对分词后得到的词语进行词性标注。其具体的分词方式与分词后的标注形式可以参照上述实施例中的分词方式进行，也可以是现有技术中可以实现分词以及词性标注的多种形式，本实施例在此不做限定。

文章分割单元10对游记类型的文章进行分割，标记出段落；对段落进行分割，标记出分割句；对分割句进行分割并标记出每一个分词后的词语。记录每个词语所在分割句的位置，该位置包括章节号、段落号和分割句序号。根据换行符来确定段落，根据标点符号来确定分割语句，标点符号包括逗号、句号、分号等。对游记进行分割后，对于游记中的每一个词语，可以通过章节号(即第几章)、段落号(即第几段)、分割句序号(即当前段落中的第几句)组合后的位置标识进行标注。

在一些实施例中，语义重要性确定单元20在获取分割语句的语义重要性分值可以通过分割语句的语义重要性概率计算得到。具体地，语义重要性确定单元20可以包括分割语句语义重要性概率获取模块21以及语义重要性分值获取模块22。图10 示出了本公开文章中关键词提取装置的另一些实施例的结构框图，参照图10，本实施例的分割语句语义重要性概率获取模块21用于调用预先训练的语义模型，将分割语句作为语义模型的输入参数，确定分割语句重要概率P_{fast_pos}，以及不重要概率 P_{fast_neg}。

语义重要性分值获取模块22基于分割语句的重要概率P_{fast_pos}，以及不重要概率P_{fast_neg}计算句子语义重要性得分，该得分可以使用上述两者的除法、减法、或者其他运算方法，在此不做具体限定，比如该得分可以是P_{fast_pos}/P_{fast_neg}，也可以是 P_{fast_pos}+P_{fast_neg}等。具体的运算可以通过设置配置文件对本市实施例的语义重要性分值获取模块22进行配置，已得到预期的语义重要性分值。

分割语句重要性确定单元30将分割语句、语义重要性得分，以及分割语句的位置标识，即分割语句章节号、段落号以及分割语句序号，作为输入特征，训练得到判断句子是否重要的位置模型。使用该模型进行游记中分割句的预测，可以获得一个重要的概率P_{xgb_pos}和一个不重要的概率P_{xgb_neg},使用P_{xgb_pos}/P_{xgb_neg}(或者其他的计算方法，在此不做限定)作为最终的分割语句的重要性分值w_xgb。对于一篇游记中的所有分割句，可得出一个最大值w_{xgb_max}和一个最小值w_{xgb_min}。

分割语句权重获取单元40使用min-max方法进行对分割语句的重要性分值归一化处理得到分割语句权重。通过分割句、分割语句的语义重要性分值以及分割语句的位置信息获得的分割语句权重，可体现该分割语句在整篇游记中的重要程度，通过分割语句权重可确定关键词提取的范围，以保障提取的关键词能够体现游记中的重要信息。

在一些实施例中，分词后的某一词语在游记中只出现一次，该游记中的分割语句权重可以直接作为分词后的词语的重要性权重。基于分词后的的词语在游记中出现至少两次，即游记中包括有至少两个相同的词语；词语权重可以是文章中所有相同词语的词语重要度权重之和。词语权重获取单元50对文章中的词进行遍历，对相同的词语做词语重要度权重的加和，即位置权重与词频的结合。通过词语权重获取单元 50确定的词语权重，使得人们可以通过数据直接得知该词语在整篇游记中的重要性，包括语义重要性以及位置重要性。避免了人为提取关键词时对关键词的认知不同，可能出现标准不一致的情况产生，提高了关键词提取的准确性以及公平性。

本实施例的词语筛选单元60基于词语权重对分割语句中的词语进行筛选后获得关键词。词语权重越高的关键词，其越能概括文章的重要信息。基于词语权重筛选后的关键词能够结合语义信息以及位置信息，提高对文章重要信息的概括，更准确表达文章的主旨内容。

图11示出了本公开文章中关键词提取装置的另一些实施例的结构框图。如图 11所示，本实施例的文章中关键词提取装置还包括：全局权重获取单元70，用于基于配置语料库、词语在文章中的词频与逆向文件频率，确定词语全局权重；语义投票权重获取单元80，用于利用投票机制对文章中的词语进行排序，得到词语的语义投票权重。

全局权重获取单元70通过词频与逆向文件频率的乘积确定词语全局权重w_f。其中，词语全局权重与词语在文章中的出现次数成正比，与该词语在整个语料库中的出现次数成反比。由此可知，词语全局权重越高的词语在文章中出现的次数越多，越低的词在文章中出现的次数越少。

语义投票权重获取单元80通过把文章分割成若干分割句以及词语，并建立图模型,利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取。

在本实施例中，通过以“词频”衡量词语在文章中的重要性得出的词语全局权重w_f、词语的语义投票权重w_r结合上述的词语重要度权重，不仅可以在数量方面体现词语的重要性，还可以在语义重要性以及位置重要性方面对关键词提取准确性做出贡献。

图12示出了本公开文章中关键词提取装置的另一些实施例的结构框图。如图 12所示，本实施例的文章中关键词提取装置相对于图9所示实施例还可以包括，属性权重获取单元90，用于基于词语的属性，得到词语属性权重。其中，词语的属性包括词性、词长度、特殊位置，特殊位置包括引号内、括号内、书名号内中的至少一种。

根据词性、词长度给出的属性权重可以是正值，也可以是负值，具体的可以使用预先制定的策略或者训练的模型给出。其中，在游记内容中，名词提供有效价值的可能性更高，动词稍差，数量词和时间词也会有一定的贡献，而对于助词，副词，介词这种词没有什么价值，甚至会影响判断，因此名词，动词会给予正值，而助词，副词，介词等会给予负值，根据词性给出的属性权重记为w_p，根据词语词长度给出的属性权重记为w_c。根据特殊位置给出的属性权重为正值，如引号内、括号内、书名号内等词语给出一个特殊位置的属性权重w_d。这些特殊位置，往往是一些有价值的词语，因此会给予一个加分。比如本文中出现“《高山上的夏尔巴人》”，高山上的夏尔巴人就是一个比较有意义的词语，是作者提到的一个跟尼泊尔相关的电影名称。

图13示出了本公开文章中关键词提取装置的另一些实施例的结构框图。如图 13所示，本实施例的文章中关键词提取装置相对于图9所示实施例还可以包括，词类型匹配单元1。具体地，词类型匹配单元1用于确定词语与配置词库中参照词的相似度，参照词具有参照词权重；若相似度小于预设阈值，则对参照词权重进行权重降级，并将降级后的参照词权重作为词语类型权重；若相似度大于或等于预设阈值，则将参照词权重作为词语类型权重；词语权重还包括词语类型权重w_e。

图14示出了本公开文章中关键词提取装置的另一些实施例的结构框图。如图 14所示，本实施例的文章中关键词提取装置相对于图13所示实施例还可以包括，降权系数获取单元11，用于基于词语与参照词中相同字的个数、参照词的字数、词语的字数，得到对参照词的词权重进行权重降级的降权系数。

在一具体例中，降权系数获取单元11计算降权系数方法可以参照如下方式进行：首先对于相似的实体词，比如实体词库中的实体词为“珠穆拉玛峰”，在游记中找到相似的词为“珠峰”。相同的字的个数为same＝2，不同的字的个数为diff＝3， “珠穆拉玛峰”的长度为lena＝5，“珠峰”的长度为lenb＝2。那么降权系数可以表示为：

δ＝same/(diff+|lena-lenb|)≈0.33

其中，降权后的词类型权重w_v＝δw_e。

图15示出了本公开文章中关键词提取装置的另一些实施例的结构框图。如图 15所示，本实施例的文章中关键词提取装置中还可以设置停用词对比单元12与词语筛选单元60连接。具体地，停用词对比单元12用于将关键词与配置的停用词库中的停用词进行对比；响应于停用词库中存在与关键词相同的停用词，去除与停用词相同的关键词。本实施例通过停用词对比单元12在获得的关键词中去除与停用词相同的关键词，可以提高关键词提取效率及精简性。

图16示出了本公开文章中关键词提取装置的另一些实施例的结构框图。如图 16所示，本实施例的文章中关键词提取装置还可以设置关键词排序单元13、关键词筛选单元14分别与词语筛选单元60连接。其中，语气助词、副词、介词、连接词等，通常自身并无明确的意义，经关键词排序单元13获取的关键词列表中按照关键词在游记中对应的词语权重进行排序，提取得到的目标关键词在旅行兴趣方面的关键词提取效果佳。提取后的关键词可以准确概括游记中的重要信息。关键词筛选单元14能够避免语气助词、副词、介词、连接词等对提取的关键词的影响，将上述词性的关键词从去除了与停用词相同的关键词之后的剩余关键词中去掉。获得能够表达具体意思并能够概括游记重要信息的目标关键词，作为最终的游记的关键词，且没有多余关键词。

本公开实施例还提供一种文章中关键词提取装置，包括：文章分割单元，用于对待进行文章中关键词提取的文章进行分割得到分割语句，并确定分割语句的位置；分割语句重要性确定单元，用于将分割语句及分割语句的位置采用句子位置重要性模型进行预测，确定分割语句位置重要性分值；词语权重获取单元，用于基于分割语句位置重要性分值，确定文章分词后的词语权重；词语筛选单元，用于基于词语权重对分割语句中的词语进行筛选，得到关键词。

在一些实施例中，装置还包括：模型训练单元，用于采用类型与文章类型相同的文本信息训练神经网络，获得句子位置重要性模型，文本信息包括标注有位置重要性标识的句子。

在一些实施例中，装置还包括：全局权重获取单元，用于基于配置语料库、词语在文章中的词频与逆向文件频率，确定词语全局权重；语义投票权重获取单元，用于利用投票机制对文章中的词语进行排序，得到词语语义投票权重；词语权重还包括词语全局权重和词语的语义投票权重。

在一些实施例中，装置还包括：属性权重获取单元，用于基于词语的属性，得到词语属性权重，其中，词语的属性包括词性、词长度、特殊位置，特殊位置包括引号内、括号内、书名号内中的至少一种；词语权重还包括词语属性权重。

在一些实施例中，装置还包括：词类型匹配单元，用于确定词语与配置词库中参照词的相似度，参照词具有参照词权重；基于参照词权重与相似度获取词语类型权重；词语权重还包括词语类型权重。

在一些实施例中，装置还包括：降权系数获取单元，用于基于词语与参照词中相同字的个数、参照词的字数、词语的字数，得到对参照词的词权重进行权重降级的降权系数。

在一些实施例中，装置还包括：停用词对比单元，用于将关键词与配置的停用词库中的停用词进行对比；响应于停用词库中存在与关键词相同的停用词，去除与停用词相同的关键词。

在一些实施例中，装置还包括：关键词排序单元，用于对关键词按照关键词的词语权重进行排序，并基于排序后的关键词得到关键词列表。

在一些实施例中，装置还包括：关键词筛选单元，用于针对去除与停用词相同的关键词之后的剩余关键词，基于剩余关键词的词性，对剩余关键词进行筛选，获得目标关键词，目标关键词具有与词语权重等值的目标关键词权重；关键词列表基于目标关键词获得。

图17示出了本公开的电子设备的一个实施例的结构示意图。下面参考图17，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备的结构示意图。如图17所示，该电子设备该电子设备包括处理器和存储器。电子设备也可以包括输入输出装置。存储器、输入输出装置均通过总线与处理器连接。其中，存储器，用于存储处理器执行的指令；处理器，用于调用存储器存储的指令，并执行上述实施例涉及的文章中关键字提取方法。

本公开实施例中处理器可调用存储器存储的指令，进行对待进行文章中关键词提取的文章进行分割得到分割语句，并确定分割语句的位置；基于分割语句，确定分割语句的语义重要性分值；基于语义重要性分值和分割语句的位置，确定分割语句的重要性分值；基于分割语句的重要性分值确定分割语句权重；基于分割语句权重确定文章分词后的词语权重，词语权重包括词语重要度权重，词语重要度权重基于分割语句权重确定；基于词语权重对分割语句中的词语进行筛选，得到关键词。其中，电子设备执行视频图像处理的过程，可参阅上述实施例描述的文章中关键字提取的实施过程，在此不再赘述。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在计算机上运行时，执行上述实施例涉及的文章中关键字提取方法。

本公开实施例还提供一种包含指令的计算机程序产品，当包含指令的计算机程序产品在计算机上运行时，使得计算机执行上述实施例涉及的文章中关键字提取方法。

在一个或多个可选实施方式中，本公开实施例还提供了一种计算机可读存储介质，用于存储计算机可读指令，该指令被执行时使得计算机执行上述任一可能的实现方式中的文章中关键字提取方法。在另一个可选例子中，该计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本公开的方法和装置能够利用标准编程技术来完成，利用基于规则的逻辑或者其他逻辑来实现各种方法步骤。还应当注意的是，此处以及权利要求书中使用的词语 “装置”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/ 或用于接收输入的设备。

此处描述的任何步骤、操作或程序可以使用单独的或与其他设备组合的一个或多个硬件或软件模块来执行或实现。在一个实施方式中，软件模块使用包括包含计算机程序代码的计算机可读介质的计算机程序产品实现，其能够由计算机处理器执行用于执行任何或全部的所描述的步骤、操作或程序。

出于示例和描述的目的，已经给出了本公开实施的前述说明。前述说明并非是穷举性的也并非要将本公开限制到所公开的确切形式，根据上述教导还可能存在各种变形和修改，或者是可能从本公开的实践中得到各种变形和修改。选择和描述这些实施例是为了说明本公开的原理及其实际应用，以使得本领域的技术人员能够以适合于构思的特定用途来以各种实施方式和各种修改而利用本公开。

Claims

1.一种文章中关键词提取方法，其中，包括：

文章分割步骤，对待进行文章中关键词提取的文章进行分割得到分割语句，并确定所述分割语句的位置；

语义重要性确定步骤，基于所述分割语句，确定所述分割语句的语义重要性分值；

分割语句重要性确定步骤，基于所述语义重要性分值和所述分割语句的位置，确定所述分割语句的重要性分值；

分割语句权重获取步骤，基于所述分割语句的重要性分值确定分割语句权重，所述分割语句权重用于确定关键词提取的范围；

词语权重获取步骤，基于所述分割语句权重确定所述文章分词后的词语重要度权重，文章分词后的词语权重包括所述词语重要度权重以及词类型权重；

词类型匹配步骤，确定所述词语与配置词库中参照词的相似度，所述参照词具有参照词权重；基于所述相似度以及所述参照词权重，确定词类型权重；

降权系数获取步骤，基于所述词语与所述参照词中相同字的个数、所述参照词的字数、所述词语的字数，得到对所述词类型权重进行权重降级的降权系数；

所述降权系数通过如下公式得到：

δ＝same/(diff+|lena-lenb|)

其中，δ表示降权系数，same表示所述词语与所述参照词中相同字的个数，diff表示所述词语与所述参照词中不同字的个数，lena表示所述词语的字数，lenb表示所述参照词的字数；

所述方法还包括：

基于所述降权系数，对所述词类型权重进行降权，得到降权后的词类型权重；词语筛选步骤，基于所述词语权重对所述分割语句中的词语进行筛选，得到关键词，所述词语权重包括词义重要性以及位置重要性，其中，对所述分割语句中的词语进行筛选的词语权重，包括所述词类型权重或所述降权后的词类型权重。

2.根据权利要求1所述的方法，其中，所述词语权重获取步骤之前，所述方法还包括：

全局权重获取步骤，基于配置语料库、所述词语在所述文章中的词频与逆向文件频率，确定词语全局权重；

语义投票权重获取步骤，利用投票机制对所述文章中的词语进行排序，得到词语语义投票权重；

所述词语权重还包括所述词语全局权重和所述词语的语义投票权重。

3.根据权利要求1所述的方法，其中，所述文章分割步骤之后，所述方法还包括：

属性权重获取步骤，基于所述词语的属性，得到词语属性权重；

所述词语权重还包括所述词语属性权重。

4.根据权利要求1至3中任意一项所述的方法，其中，在所述词语筛选步骤之后，所述方法还包括：

关键词排序步骤，对所述关键词按照所述关键词的词语权重进行排序，并基于排序后的关键词得到关键词列表。

5.根据权利要求4所述的方法，其中，所述关键词排序步骤之前，所述方法还包括：

关键词筛选步骤，针对去除与停用词相同的关键词之后的剩余关键词，基于所述剩余关键词的词性，对所述剩余关键词进行筛选，获得目标关键词，所述目标关键词具有与所述词语权重等值的目标关键词权重；所述关键词列表基于所述目标关键词获得。

6.根据权利要求1所述的方法，其中，所述语义重要性确定步骤，包括：

分割语句语义重要性概率获取步骤，调用预先训练的语义模型，并将所述分割语句作为所述语义模型的输入参数，确定分割语句语义重要概率以及分割语句语义不重要概率；

语义重要性分值确定步骤，基于所述分割语句语义重要概率以及所述分割语句语义不重要概率，确定所述语义重要性分值。

7.根据权利要求6所述的方法，其中，所述文章中包括有至少两个相同的所述词语；

所述词语权重为所述文章中所有相同的所述词语的词语重要度权重之和。

8.一种文章中关键词提取方法，其中，包括：

分割语句重要性确定步骤，将所述分割语句及所述分割语句的位置采用句子位置重要性模型进行预测，确定分割语句位置重要性分值；

词语权重获取步骤，基于所述分割语句位置重要性分值，确定所述文章分词后的词语权重，文章分词后的词语权重包括词类型权重；

所述方法还包括：

确定所述词语与配置词库中参照词的相似度，所述参照词具有参照词权重；基于所述相似度以及所述参照词权重，确定词类型权重；

基于所述词语与所述参照词中相同字的个数、所述参照词的字数、所述词语的字数，得到对所述词类型权重进行权重降级的降权系数；

基于所述降权系数，对所述词类型权重进行降权，得到降权后的词类型权重；

其中，所述降权系数通过如下公式得到：

δ＝same/(diff+|lena-lenb|)

词语筛选步骤，基于所述词语权重对所述分割语句中的词语进行筛选，得到关键词，所述词语权重包括词义重要性以及位置重要性，其中，对所述分割语句中的词语进行筛选的词语权重，包括所述词类型权重或所述降权后的词类型权重。

9.如权利要求8所述的方法，其中，在所述分割语句重要性确定步骤之前，所述方法还包括：

模型训练步骤，采用类型与所述文章类型相同的文本信息训练神经网络，获得所述句子位置重要性模型，所述文本信息包括标注有位置重要性标识的句子。

10.一种文章中关键词提取装置，其中，包括：

文章分割单元，用于对待进行文章中关键词提取的文章进行分割得到分割语句，并确定所述分割语句的位置；

语义重要性确定单元，用于基于所述分割语句，确定所述分割语句的语义重要性分值；

分割语句重要性确定单元，用于基于所述语义重要性分值和所述分割语句的位置，确定所述分割语句的重要性分值；

分割语句权重获取单元，用于基于所述分割语句的重要性分值确定分割语句权重，所述分割语句权重用于确定关键词提取的范围；

词语权重获取单元，用于基于所述分割语句权重确定所述文章分词后的词语重要度权重，文章分词后的词语权重包括所述词语重要度权重以及词类型权重；

词类型匹配单元，确定所述词语与配置词库中参照词的相似度，所述参照词具有参照词权重；基于所述相似度以及所述参照词权重，确定词类型权重；

降权系数获取单元，基于所述词语与所述参照词中相同字的个数、所述参照词的字数、所述词语的字数，得到对所述词类型权重进行权重降级的降权系数；

所述降权系数通过如下公式得到：

δ＝same/(diff+|lena-lenb|)

所述降权系数获取单元还用于：

词语筛选单元，用于基于所述词语权重对所述分割语句中的词语进行筛选，得到关键词，所述词语权重包括词义重要性以及位置重要性，其中，对所述分割语句中的词语进行筛选的词语权重，包括所述词类型权重或所述降权后的词类型权重。

11.一种文章中关键词提取装置，其中，包括：

分割语句重要性确定单元，用于将所述分割语句及所述分割语句的位置采用句子位置重要性模型进行预测，确定分割语句位置重要性分值；

词语权重获取单元，用于基于所述分割语句位置重要性分值，确定所述文章分词后的词语权重，文章分词后的词语权重包括词类型权重；

所述词语权重获取单元还用于：

其中，所述降权系数通过如下公式得到：

δ＝same/(diff+|lena-lenb|)

12.一种电子设备，其中，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现权利要求1-7中任意一项所述的文章中关键词提取方法或权利要求8-9中任意一项所述的文章中关键词提取方法。

13.一种计算机可读存储介质，存储有计算机程序，其中，所述计算机程序被处理器执行时，实现权利要求1-7中任意一项所述的文章中关键词提取方法或权利要求8-9中任意一项所述的文章中关键词提取方法。