CN116187307B - 一种政务文章标题关键字提取方法、设备及存储设备 - Google Patents
一种政务文章标题关键字提取方法、设备及存储设备 Download PDFInfo
- Publication number
- CN116187307B CN116187307B CN202310467705.3A CN202310467705A CN116187307B CN 116187307 B CN116187307 B CN 116187307B CN 202310467705 A CN202310467705 A CN 202310467705A CN 116187307 B CN116187307 B CN 116187307B
- Authority
- CN
- China
- Prior art keywords
- short text
- word segmentation
- government
- steps
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000011218 segmentation Effects 0.000 claims abstract description 36
- 238000000605 extraction Methods 0.000 claims abstract description 21
- 238000004364 calculation method Methods 0.000 claims abstract description 11
- 238000013016 damping Methods 0.000 claims description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000012545 processing Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000002620 method output Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种政务文章标题提取方法、设备及存储设备。
背景技术
一段文本的关键词是指最能代表文本核心关键内容的词汇,关键短语则指相邻关键词的组合。在构建文件搜索系统时,往往需要首先提取文章标题的关键词和关键短语,进而建立关键词或关键短语与文件的关联关系或索引映射,从而实现基于关键词或关键短语的文件快速搜索。
TextRank是一种基于图排序的文本关键词提取算法,它利用关键词在窗口中的共现关系,在相关联候选关键词之间建立连边,形成词共现网络,通过迭代计算得到每个关键词的权重。在固定窗口长度下,其算法结果与词频、词所处位置相关,多用于长文本关键词、关键短语及关键句提取。传统的TextRank算法,如CN109918660A 一种基于TextRank的关键词提取方法和装置、CN114328865A 一种改进的TextRank多特征融合教育资源关键词提取方法、CN110728136A 一种融合多因素的textrank关键词提取算法等,在TextRank算法基础上增加了词语长度、词性对关键词得分的影响,其在长文本关键字提取应用中表现良好,但并不适用于政务文章这类短文本的提取情况,其原因主要如下:
(1)在政务文章标题等短文本中,词语一般较为简单,词语一般不会重复出现,因而词频固定;
(2)在政务文章标题等短文本中,词语长度一般固定为2-3个字,且词长一般不影响词汇的关键性;
(3)在政务文章标题等短文本中,词性一般单一或固定,多以名词为主。
传统方法中,对于词位置的处理是设置为中间权重大,两端小,但在文章标题等短文本中,词位置对词关键性的影响较为随机。因此传统的TextRank算法提取其短文本关键词,或者即使能够提取,但其提取的准确度较低。
发明内容
为解决传统TextRank算法提取其短文本关键词不适用或准确度低的技术问题,本发明提出了一种政务文章标题提取方法、设备及存储设备,其中,方法采取两端补充占位符的方式,消解词位置对关键性的影响,同时通过融合语义相似度,改进传统的TextRank计算公式,使得计算结果能够兼顾语义相似度与词共现关系,从而提升关键词提取准确度。
本发明供的一种政务文章标题提取方法,具体包括以下步骤:
S1:获取短文本集合A,提取短文本集合A中的一个短文本a,并从短文本a中提取分词结果T;
S2:从分词结果T中选择词语T i ,计算其逆文本频率值IDF;其中i表示词语的序号;
S3:根据逆文本频率值IDF对短文本a进行预处理,得到预处理后的短文本a`及其对应的分词结果T`;
S4:计算分词结果T`中关键词词语T i `的语义相似度P i ;
其中,maxP为分词结果T`各关键词词语中最大的语义相似度,minP为分词结果T`各关键词词语中最小的语义相似度;d为阻尼系数;在短文本中,与/>共现的节点记作,/>中的第j个节点记作/>;与/>共现的节点记作/>,/>中的第k个节点记作/>;W ji 为/>与/>的共现次数,W jk 为/>与/>的共现次数;
S8、按关键词短语得分,由高到低输出提取结果。
一种存储设备,所述存储设备存储指令及数据用于实现一种政务文章标题提取方法。
一种政务文章标题提取设备,包括:处理器及所述存储设备;所述处理器加载并执行所述存储设备中的指令及数据用于实现一种政务文章标题提取方法。
本发明提供的有益效果是:综合考虑了词语词频、词间关联关系和语义相似度,有效提高了短文本标题尤其是政务网文章标题关键字的提取精度。
附图说明
图1是本发明方法流程示意图;
图2是本发明实施例的硬件设备工作示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地描述。
请参考图1,图1是本发明方法的流程图;本发明提供的一种政务文章标题提取方法,方法具体包括以下步骤:
S1:获取短文本集合A,提取短文本集合A中的一个短文本a,并从短文本a中提取分词结果T;
作为一种实施例,这里以某部门政务文件举例;
首先,某部门政务文件总数N A 为1115件;其对应标题如下表1所示:
表1 短文本A集合示例
S2:从分词结果T中选择词语T i ,计算其逆文本频率值IDF;其中i表示词语的序号;
步骤S2中逆文本频率值IDF的计算公式如下:
其中N A 为短文本集合A中的短文本总数,N i 为含有词语T i 的短文本数;
S3:根据逆文本频率值IDF对短文本a进行预处理,得到预处理后的短文本a`及其对应的分词结果T`;
步骤S3中所述预处理,具体指:去除短文本a及分词结果T中IDF值低于预设阈值V IDF 的词语;
下面以表格1中序号为1的文件标题短文本为例说明步骤S2~S3的实施结果。
短文本a为“市人民政府办公厅关于印发武汉市完善和改进灵活就业人员社会保险参保缴费工作方案的通知”,对其分词结果去除停用词“的”、“和”后,得到T=['市','人民政府','办公厅','关于','印发','武汉市','完善','改进','灵活','就业','人员','社会保险','参保','缴费','工作','方案','通知'],各词语的IDF值计算结果如表2所示。
表2 各关键词词语及其IDF值
在本实施例中,设置阈值V IDF =lg(N A /(N A *0.85))≈0.0706
去除IDF值低于预设阈值V IDF 的词语后,获得预处理后a`=“印发武汉市完善改进灵活就业人员社会保险参保缴费工作方案”,a`的分词结果T`=['印发','武汉市','完善','改进','灵活','就业','人员','社会保险','参保','缴费','工作','方案']。
S4:计算分词结果T`中关键词词语T i `的语义相似度P i ;
对上述T`中的词语使用keyBert计算语义相似度结果如下表3所示。
表3 语义相似度结果表
其中,maxP为分词结果T`各关键词词语中最大的语义相似度,minP为分词结果T`各关键词词语中最小的语义相似度;d为阻尼系数;在短文本中,与/>共现的节点记作,/>中的第j个节点记作/>;与/>共现的节点记作/>,/>中的第k个节点记作/>;W ji 为/>与/>的共现次数,W jk 为/>与/>的共现次数;
需要说明的是,为了不影响后续处理结果,占位符选择不具备语义的符号,例如“$”,占位符的语义相似度P 0为0;
对上述a`=“印发武汉市完善改进灵活就业人员社会保险参保缴费工作方案”添加占位符后=“$印发武汉市完善改进灵活就业人员社会保险参保缴费工作方案$”,/>=[ '$', '印发', '武汉市', '完善', '改进', '灵活', '就业', '人员', '社会保险', '参保', '缴费', '工作', '方案']。
作为一种实施例,对=“$印发武汉市完善改进灵活就业人员社会保险参保缴费工作方案$”,其分词结果/>=['$', '印发', '武汉市', '完善', '改进', '灵活', '就业', '人员', '社会保险', '参保', '缴费', '工作', '方案'],按上述公式计算得到关键词得分如下。
[('社会保险', 0.6421440727344612), ('参保', 0.573367510859338), ('人员', 0.5529596234443178), ('缴费', 0.5350492841039768), ('就业',0.5024392137424785), ('武汉市', 0.47260505811740894), ('工作',0.4707501591523295), ('灵活', 0.4342263981276896), ('方案',0.42444754889618763), ('印发', 0.41535771512165154), ('改进',0.39583222055084294), ('完善', 0.3925853946482903), ('$',0.3771254763735944)];
S8、按关键词短语得分,由高到低输出提取结果。
本发明在去除占位符后,根据实际需要,按关键词或关键短语得分由高到低输出结果。
作为一种实施例,本发明比较了keyBert方法、TextRank提取方法,其结果如后文的表4所示。从表4中可以看到,本发明最终提取的关键字排序,相对于传统方法而言,其标题的核心部分更为准确。
请参见图2,图2是本发明实施例的硬件设备工作示意图,所述硬件设备具体包括:一种政务文章标题提取设备401、处理器402及存储设备403。
一种政务文章标题提取设备401:所述一种政务文章标题提取设备401实现所述一种政务文章标题提取方法。
处理器402:所述处理器402加载并执行所述存储设备403中的指令及数据用于实现所述一种政务文章标题提取方法。
存储设备403:所述存储设备403存储指令及数据;所述存储设备403用于实现所述一种政务文章标题提取方法。
表4 实验结果数据对比表
综合来看,本发明的有益效果是:综合考虑了词语词频、词间关联关系和语义相似度,有效提高了短文本标题尤其是政务网文章标题关键字的提取精度。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种政务文章标题提取方法,其特征在于:包括以下步骤:
S1:获取短文本集合A,提取短文本集合A中的一个短文本a,并从短文本a中提取分词结果T;
S2:从分词结果T中选择词语T i ,计算其逆文本频率值IDF;其中i表示词语的序号;
S3:根据逆文本频率值IDF对短文本a进行预处理,得到预处理后的短文本a`及其对应的分词结果T`;
所述预处理,具体指:去除短文本a及分词结果T中IDF值低于预设阈值V IDF 的词语;
S4:计算分词结果T`中关键词词语T i `的语义相似度P i ;
其中,maxP为分词结果T`各关键词词语中最大的语义相似度,minP为分词结果T`各关键词词语中最小的语义相似度;d为阻尼系数;在短文本中,与/>共现的节点记作/>,中的第j个节点记作/>;与/>共现的节点记作/>,/>中的第k个节点记作/>;W ji 为/>与/>的共现次数,W jk 为/>与/>的共现次数;
S8、按关键词短语得分,由高到低输出提取结果。
3.如权利要求1所述的一种政务文章标题提取方法,其特征在于:步骤S4中计算语义相似度采用KeyBert方法。
4.如权利要求1所述的一种政务文章标题提取方法,其特征在于:所述占位符为不具备语义的符号。
5.一种存储设备,其特征在于:所述存储设备存储指令及数据用于实现权利要求1~4的任意一种政务文章标题提取方法。
6.一种政务文章标题提取设备,其特征在于:包括:处理器及存储设备;所述处理器加载并执行存储设备中的指令及数据用于实现权利要求1~4的任意一种政务文章标题提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310467705.3A CN116187307B (zh) | 2023-04-27 | 2023-04-27 | 一种政务文章标题关键字提取方法、设备及存储设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310467705.3A CN116187307B (zh) | 2023-04-27 | 2023-04-27 | 一种政务文章标题关键字提取方法、设备及存储设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116187307A CN116187307A (zh) | 2023-05-30 |
CN116187307B true CN116187307B (zh) | 2023-07-14 |
Family
ID=86452654
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310467705.3A Active CN116187307B (zh) | 2023-04-27 | 2023-04-27 | 一种政务文章标题关键字提取方法、设备及存储设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116187307B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989802A (zh) * | 2021-01-28 | 2021-06-18 | 北京信息科技大学 | 一种弹幕关键词提取方法、装置、设备及介质 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7343280B2 (en) * | 2003-07-01 | 2008-03-11 | Microsoft Corporation | Processing noisy data and determining word similarity |
CN100444194C (zh) * | 2005-10-27 | 2008-12-17 | 富士施乐株式会社 | 文章标题及关联信息的自动抽取装置和抽取方法 |
CN102760142A (zh) * | 2011-04-29 | 2012-10-31 | 北京百度网讯科技有限公司 | 一种针对搜索请求抽取搜索结果主题标签的方法和装置 |
IN2013CH04333A (zh) * | 2013-09-25 | 2015-08-28 | Accenture Global Services Ltd | |
US20170154077A1 (en) * | 2015-12-01 | 2017-06-01 | Le Holdings (Beijing) Co., Ltd. | Method for comment tag extraction and electronic device |
CN108228541B (zh) * | 2016-12-22 | 2021-08-03 | 深圳市北科瑞声科技股份有限公司 | 生成文档摘要的方法和装置 |
CN107967256B (zh) * | 2017-11-14 | 2021-12-21 | 北京拉勾科技有限公司 | 词语权重预测模型生成方法、职位推荐方法及计算设备 |
CN109190117B (zh) * | 2018-08-10 | 2023-06-23 | 中国船舶重工集团公司第七一九研究所 | 一种基于词向量的短文本语义相似度计算方法 |
CN111737453B (zh) * | 2020-05-29 | 2024-04-02 | 南京硅基智能科技有限公司 | 一种基于无监督的多模型融合抽取式文本摘要方法 |
CN113672695A (zh) * | 2021-05-11 | 2021-11-19 | 山西大学 | 一种基于加权网络的中文短文本相似性度量方法 |
CN115017903A (zh) * | 2022-06-20 | 2022-09-06 | 安徽大学 | 文档层次结构联合全局局部信息抽取关键短语方法及系统 |
CN115270774B (zh) * | 2022-09-27 | 2023-01-03 | 吉奥时空信息技术股份有限公司 | 一种半监督学习的大数据关键词词典构建方法 |
CN115757743A (zh) * | 2022-11-29 | 2023-03-07 | 上海弘玑信息技术有限公司 | 文档的检索词匹配方法及电子设备 |
CN115906817A (zh) * | 2022-12-28 | 2023-04-04 | 成都网安科技发展有限公司 | 一种跨语言环境的关键字匹配方法、装置及电子设备 |
-
2023
- 2023-04-27 CN CN202310467705.3A patent/CN116187307B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989802A (zh) * | 2021-01-28 | 2021-06-18 | 北京信息科技大学 | 一种弹幕关键词提取方法、装置、设备及介质 |
Non-Patent Citations (1)
Title |
---|
一种结合词项语义信息和TF-IDF方法的文本相似度量方法;黄承慧;《计算机学报》;第34卷(第5期);第856-864页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116187307A (zh) | 2023-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Froud et al. | Arabic text summarization based on latent semantic analysis to enhance arabic documents clustering | |
CN104778256B (zh) | 一种领域问答系统咨询的快速可增量聚类方法 | |
CN106610951A (zh) | 改进的基于语义分析的文本相似度求解算法 | |
CN109582704A (zh) | 招聘信息和求职简历匹配的方法 | |
CN109033212B (zh) | 一种基于相似度匹配的文本分类方法 | |
CN110674296B (zh) | 一种基于关键词的资讯摘要提取方法及系统 | |
CN110705247A (zh) | 基于χ2-C的文本相似度计算方法 | |
Panda | Developing an efficient text pre-processing method with sparse generative Naive Bayes for text mining | |
CN106570120A (zh) | 一种改进的关键词优化实现搜索引擎优化技术 | |
CN107526792A (zh) | 一种中文问句关键词快速提取方法 | |
CN111368539A (zh) | 一种热点分析建模方法 | |
CN111178009B (zh) | 一种基于特征词加权的文本多语种识别方法 | |
CN116187307B (zh) | 一种政务文章标题关键字提取方法、设备及存储设备 | |
CN108763487B (zh) | 一种基于Mean Shift的融合词性和句子信息的词表示方法 | |
CN116662479A (zh) | 一种用于医保目录的文本匹配方法 | |
CN111881678B (zh) | 一种基于无监督学习的领域词发现方法 | |
CN111209737B (zh) | 噪声文档的筛除方法及计算机可读存储介质 | |
CN114997161A (zh) | 关键词抽取方法、装置、电子设备与存储介质 | |
CN110688835B (zh) | 一种基于词语特征值的法律专有领域词发现方法及装置 | |
CN113987172A (zh) | 恶意评论识别方法、装置、系统及计算机可读存储介质 | |
Tijani et al. | An auto-generated approach of stop words using aggregated analysis | |
JP5698306B2 (ja) | 焦点推定装置、方法、及びプログラム | |
Zheng et al. | Research on domain term extraction based on conditional random fields | |
Govindaraju et al. | Handwritten document retrieval strategies | |
CN105335351B (zh) | 一种基于专利搜索日志用户行为的同义词自动挖掘方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |