CN116187307B

CN116187307B - 一种政务文章标题关键字提取方法、设备及存储设备

Info

Publication number: CN116187307B
Application number: CN202310467705.3A
Authority: CN
Inventors: 李颖; 陈胜鹏; 梅龙
Original assignee: Geospace Information Technology Co ltd
Current assignee: Geospace Information Technology Co ltd
Priority date: 2023-04-27
Filing date: 2023-04-27
Publication date: 2023-07-14
Anticipated expiration: 2043-04-27
Also published as: CN116187307A

Abstract

本发明涉及一种政务文章标题提取方法、设备及存储设备，方法包括以下步骤：获取短文本集合A，提取A中的一个短文本a，并从a中提取分词结果T；从T中选择词语T _i，计算其逆文本频率值IDF；根据IDF对a预处理，得到短文本a`及对应的分词结果T`；计算T`中关键词词语T _i`的语义相似度P _i；在a`首尾处各补充一个占位符，得到短文本

及其对应的分词结果

；根据P _i计算

的词语

的得分

；计算由相邻两个关键词

和

组成的关键短语的得分；按关键词短语得分，由高到低输出提取结果。有益效果是：综合考虑了词语词频、词间关联关系和语义相似度，有效提高了短文本标题尤其是政务网文章标题关键字的提取精度。

Description

一种政务文章标题关键字提取方法、设备及存储设备

技术领域

本发明涉及数据处理领域，尤其涉及一种政务文章标题提取方法、设备及存储设备。

背景技术

一段文本的关键词是指最能代表文本核心关键内容的词汇，关键短语则指相邻关键词的组合。在构建文件搜索系统时，往往需要首先提取文章标题的关键词和关键短语，进而建立关键词或关键短语与文件的关联关系或索引映射，从而实现基于关键词或关键短语的文件快速搜索。

TextRank是一种基于图排序的文本关键词提取算法，它利用关键词在窗口中的共现关系，在相关联候选关键词之间建立连边，形成词共现网络，通过迭代计算得到每个关键词的权重。在固定窗口长度下，其算法结果与词频、词所处位置相关，多用于长文本关键词、关键短语及关键句提取。传统的TextRank算法，如CN109918660A 一种基于TextRank的关键词提取方法和装置、CN114328865A 一种改进的TextRank多特征融合教育资源关键词提取方法、CN110728136A 一种融合多因素的textrank关键词提取算法等，在TextRank算法基础上增加了词语长度、词性对关键词得分的影响，其在长文本关键字提取应用中表现良好，但并不适用于政务文章这类短文本的提取情况，其原因主要如下：

（1）在政务文章标题等短文本中，词语一般较为简单，词语一般不会重复出现，因而词频固定；

（2）在政务文章标题等短文本中，词语长度一般固定为2-3个字，且词长一般不影响词汇的关键性；

（3）在政务文章标题等短文本中，词性一般单一或固定，多以名词为主。

传统方法中，对于词位置的处理是设置为中间权重大，两端小，但在文章标题等短文本中，词位置对词关键性的影响较为随机。因此传统的TextRank算法提取其短文本关键词，或者即使能够提取，但其提取的准确度较低。

发明内容

为解决传统TextRank算法提取其短文本关键词不适用或准确度低的技术问题，本发明提出了一种政务文章标题提取方法、设备及存储设备，其中，方法采取两端补充占位符的方式，消解词位置对关键性的影响，同时通过融合语义相似度，改进传统的TextRank计算公式，使得计算结果能够兼顾语义相似度与词共现关系，从而提升关键词提取准确度。

本发明供的一种政务文章标题提取方法，具体包括以下步骤：

S1：获取短文本集合A，提取短文本集合A中的一个短文本a，并从短文本a中提取分词结果T；

S2：从分词结果T中选择词语T _i，计算其逆文本频率值IDF；其中i表示词语的序号；

S3：根据逆文本频率值IDF对短文本a进行预处理，得到预处理后的短文本a`及其对应的分词结果T`；

S4：计算分词结果T`中关键词词语T _i`的语义相似度P _i；

S5：在短文本a`首尾处各补充一个占位符，得到短文本

及其对应的分词结果/>

；

S6：根据语义相似度P _i计算分词结果

中关键词/>

的得分/>

如下：

其中，max_P为分词结果T`各关键词词语中最大的语义相似度，min_P为分词结果T`各关键词词语中最小的语义相似度；d为阻尼系数；在短文本

中，与/>

共现的节点记作

，/>

中的第j个节点记作/>

；与/>

共现的节点记作/>

，/>

中的第k个节点记作/>

；W _ji为/>

与/>

的共现次数，W _jk为/>

与/>

的共现次数；

S7：计算由相邻两个关键词

和/>

组成的关键短语D _mn的得分；

S8、按关键词短语得分，由高到低输出提取结果。

一种存储设备，所述存储设备存储指令及数据用于实现一种政务文章标题提取方法。

一种政务文章标题提取设备，包括：处理器及所述存储设备；所述处理器加载并执行所述存储设备中的指令及数据用于实现一种政务文章标题提取方法。

本发明提供的有益效果是：综合考虑了词语词频、词间关联关系和语义相似度，有效提高了短文本标题尤其是政务网文章标题关键字的提取精度。

附图说明

图1是本发明方法流程示意图；

图2是本发明实施例的硬件设备工作示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地描述。

请参考图1，图1是本发明方法的流程图；本发明提供的一种政务文章标题提取方法，方法具体包括以下步骤：

作为一种实施例，这里以某部门政务文件举例；

首先，某部门政务文件总数N _A为1115件；其对应标题如下表1所示：

表1 短文本A集合示例

步骤S2中逆文本频率值IDF的计算公式如下：

其中N _A为短文本集合A中的短文本总数，N _i为含有词语T _i的短文本数；

步骤S3中所述预处理，具体指：去除短文本a及分词结果T中IDF值低于预设阈值V _IDF的词语；

下面以表格1中序号为1的文件标题短文本为例说明步骤S2~S3的实施结果。

短文本a为“市人民政府办公厅关于印发武汉市完善和改进灵活就业人员社会保险参保缴费工作方案的通知”，对其分词结果去除停用词“的”、“和”后，得到T=['市','人民政府','办公厅','关于','印发','武汉市','完善','改进','灵活','就业','人员','社会保险','参保','缴费','工作','方案','通知']，各词语的IDF值计算结果如表2所示。

表2 各关键词词语及其IDF值

在本实施例中，设置阈值V _IDF=lg(N _A/(N _A*0.85))≈0.0706

去除IDF值低于预设阈值V _IDF的词语后，获得预处理后a`=“印发武汉市完善改进灵活就业人员社会保险参保缴费工作方案”，a`的分词结果T`=['印发','武汉市','完善','改进','灵活','就业','人员','社会保险','参保','缴费','工作','方案']。

S4：计算分词结果T`中关键词词语T _i`的语义相似度P _i；

对上述T`中的词语使用keyBert计算语义相似度结果如下表3所示。

表3 语义相似度结果表

S5：在短文本a`首尾处各补充一个占位符，得到短文本

及其对应的分词结果/>

；

S6：根据语义相似度P _i计算分词结果

中关键词/>

的得分/>

如下：

中，与/>

共现的节点记作

，/>

中的第j个节点记作/>

；与/>

共现的节点记作/>

，/>

中的第k个节点记作/>

；W _ji为/>

与/>

的共现次数，W _jk为/>

与/>

的共现次数；

需要说明的是，为了不影响后续处理结果，占位符选择不具备语义的符号，例如“$”，占位符的语义相似度P ₀为0；

对上述a`=“印发武汉市完善改进灵活就业人员社会保险参保缴费工作方案”添加占位符后

=“$印发武汉市完善改进灵活就业人员社会保险参保缴费工作方案$”,/>

=[ '$', '印发', '武汉市', '完善', '改进', '灵活', '就业', '人员', '社会保险', '参保', '缴费', '工作', '方案']。

将阻尼系数d设置为0.85，设置关键词的初始得分为1，按

的计算公式循环迭代，直至获得最终所有关键词的得分；

作为一种实施例，对

=“$印发武汉市完善改进灵活就业人员社会保险参保缴费工作方案$”，其分词结果/>

=['$', '印发', '武汉市', '完善', '改进', '灵活', '就业', '人员', '社会保险', '参保', '缴费', '工作', '方案']，按上述公式计算得到关键词得分如下。

[('社会保险', 0.6421440727344612), ('参保', 0.573367510859338), ('人员', 0.5529596234443178), ('缴费', 0.5350492841039768), ('就业',0.5024392137424785), ('武汉市', 0.47260505811740894), ('工作',0.4707501591523295), ('灵活', 0.4342263981276896), ('方案',0.42444754889618763), ('印发', 0.41535771512165154), ('改进',0.39583222055084294), ('完善', 0.3925853946482903), ('$',0.3771254763735944)]；

S7：计算由相邻两个关键词

和/>

组成的关键短语D _mn的得分；

关键短语D _mn的得分计算公式如下：

。

S8、按关键词短语得分，由高到低输出提取结果。

本发明在去除占位符后，根据实际需要，按关键词或关键短语得分由高到低输出结果。

作为一种实施例，本发明比较了keyBert方法、TextRank提取方法，其结果如后文的表4所示。从表4中可以看到，本发明最终提取的关键字排序，相对于传统方法而言，其标题的核心部分更为准确。

请参见图2，图2是本发明实施例的硬件设备工作示意图，所述硬件设备具体包括：一种政务文章标题提取设备401、处理器402及存储设备403。

一种政务文章标题提取设备401：所述一种政务文章标题提取设备401实现所述一种政务文章标题提取方法。

处理器402：所述处理器402加载并执行所述存储设备403中的指令及数据用于实现所述一种政务文章标题提取方法。

存储设备403：所述存储设备403存储指令及数据；所述存储设备403用于实现所述一种政务文章标题提取方法。

表4 实验结果数据对比表

综合来看，本发明的有益效果是：综合考虑了词语词频、词间关联关系和语义相似度，有效提高了短文本标题尤其是政务网文章标题关键字的提取精度。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。