CN114328900A - 一种基于关键词的资讯摘要提取方法 - Google Patents
一种基于关键词的资讯摘要提取方法 Download PDFInfo
- Publication number
- CN114328900A CN114328900A CN202210245094.3A CN202210245094A CN114328900A CN 114328900 A CN114328900 A CN 114328900A CN 202210245094 A CN202210245094 A CN 202210245094A CN 114328900 A CN114328900 A CN 114328900A
- Authority
- CN
- China
- Prior art keywords
- keyword
- information
- keywords
- statistical unit
- weight coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于关键词的资讯摘要提取方法,包括以下步骤:1.设置关键词;2.关键词都设置有权重系数组合,权重系数组合分为权重系数k1,直至权重系数kn;3.将两个标点符号之间的句子视为一个统计单元;4.统计W1关键词及其出现的次数x;5.统计出统计单元里权重系数之和,其公式为:W1=k1+…+kx,得出Q1,直至第y个Wy关键词的权重系数之和并得出Qy;6.统计出统计单元里所有关键词的权重系数之积M=Q1…*…Qy;7.将M排列,截取最高10个句子;8.即得到该资讯的摘要。本发明通过设置权重系数来确定关联远近,通过所有关键词权重系数之积来确定与所关注资讯内容远近,通过排列统计单元的M来截取摘要,节省无效信息阅读时间,提高阅读效率。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种基于关键词的资讯摘要提取方法。
背景技术
证券市场与金融投资在现代社会中占有重要的地位。股票市场的建模和预测研究对我国的经济发展和金融建设具有重要意义,一直为人们所关注,股市行情受国家政策、经济形势、公司发展状况以及投资者心理等诸多因素的影响。
随着互联网技术的迅速发展和广发普及,普通投资者有越来越多的渠道获得更多的互联网信息。越来越多的财经网站每天都会推送大量的有关于各个公司的财经新闻以及媒体或者专家对于各个公司近来状况的解读,所以投资者会受到来自各个方面新闻信息的影响,这些新闻信息会影响投资者的判断。
那么多论文、文献里如何提取对某个方面有用的资讯就成为一个重要的问题,这个问题关系到提高工作效率的问题。
发明内容
本发明要解决的技术问题是提供一种基于关键词的资讯摘要提取方法,解决通过资讯摘要的关键词来选择资讯的问题。
为了解决上述技术问题,本发明的技术方案为:一种基于关键词的资讯摘要提取方法,包括以下步骤:
(一)设置关键词库,在所述关键词库设置所关注资讯的关键词;
(二)将每个关键词都设置有与其相匹配的权重系数组合,所述权重系数组合又分
为出现第一次的权重系数k1,所述关键词出现第一次的权重系数k1大于1.0,直至出现第n
次的权重系数kn,kn=k1*,n为自然数;
(三)导入所要提取摘要的资讯原文,将所述资讯原文里除顿号和冒号外的两个标点符号之间的句子视为一个统计单元;
(四)按照所述关键词库里的关键词逐一查找,统计所述统计单元里所出现的第1个关键词并称其为W1关键词及其出现的次数x,x为自然数;
(五)统计出所述统计单元里所述W1关键词的权重系数之和Q1,其公式为:Q1=k1*,得出Q1,x为大于1.5的自然数,当x=1时Q1=k1,依此类推直至统
计出所述统计单元里出现的第y个Wy关键词的权重系数之和并得出Qy,y为大于1.5的自然
数,当只有一个关键词时所述统计单元里所有关键词权重系数之和的乘积M=Q1;
(六)统计出所述统计单元里所有关键词权重系数之和的乘积,M=Q1…*…Qy;
(七)统计出所述资讯原文里所有统计单元的M值,将所述资讯原文里所有统计单元的M由高到低排列,截取M最高10个统计单元的句子和/或将M高于某一设定值的句子截取出来;
(八)将所述资讯原文里没有截取的句子删除即得到所述资讯原文的摘要。
作为本发明的一种优选方案,关键词的权重系数k1是根据该关键词在所关注资讯里的重要程度来设置的。
采用本技术方案的有益效果:通过将关键词设置权重系数来确定与所关注资讯的关联远近,通过在一个句子里所有关键词权重系数之积来确定该句子与所关注资讯内容远近,通过排列统计单元的M来截取摘要,比较完整地摘取所关注资讯的内容,节省无效信息阅读时间,提高阅读效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的示意图。
具体实施方式
为进一步说明各实施例,本发明提供有附图,这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理,配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点,图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。
参考附图,一种基于关键词的资讯摘要提取方法,包括以下步骤:
(一)设置关键词库,在关键词库设置所关注资讯的关键词,如W1、W2、W3……WN,有N个关键词,N为自然数;如关注的是金融资讯,那么关键词有央行、加息、支持、加大、贷款等等。N表示关键词库里关键词的个数。
(二)将每个关键词都设置有与其相匹配的权重系数组合,所述关键词的权重系数
组合又分为出现第一次的权重系数k1,直至出现第n次的权重系数kn=k1*,n为自
然数;如W1关键词,其第一次出现时的权重系数为k1,第二次出现时的权重系数为k1/2,第
三次出现时的权重系数为k1/4,直至出现第n次的权重系数k1*;之所以要将后面
出现的关键词的权重系数设置的越来越小,就防止一个关键词的影响过大而导致摘要提取
走样;如第一次出现的权重系数为5.0,那么第二次出现的权重系数为2.5,那么第三次出现
的权重系数为1.25,第n次的权重系数5.0*;如W1关键词的第一次的权重系数k1为
5.0,关键词W2的第一次的权重系数k1为5.8,关键词W3的第一次的权重系数k1为3.0,每个
关键词的第一次的权重系数k1与其他关键词的第一次的权重系数k1可以相同,也可以不相
同;
(三)导入所要提取摘要的资讯原文,将资讯原文里除顿号和冒号外的两个标点符号之间的句子视为一个统计单元;
(四)按照所述关键词库里的关键词逐一查找,统计所述统计单元里所出现的第1个关键词并称其为W1关键词及其出现的次数x,x为自然数;x表示在一个统计单元里同一个关键词所出现的次数。
(五)统计出所述统计单元里W1关键词的权重系数之和Q1,其公式为:Q1=k1*,得出Q1,x为大于1.5的自然数,当x=1时Q1=k1,依此类推直至统
计出所述统计单元里出现的第y个Wy关键词的权重系数之和并得出Qy,y为大于1.5的自然
数,当只有一个关键词时所述统计单元里所有关键词权重系数之和的乘积M=Q1,Qy的统计
就象Q1的统计一样来统计,先统计出Wy关键词及其出现的次数,再得出其权重系数之和就
得出Qy;y表示在一个统计单元里所出现关键词的个数,也就是说一个统计单元里有多少个
关键词库里的关键词。
(六)统计出所述统计单元里所有关键词权重系数之和的乘积,M=Q1…*…Qy;
(七)统计出所述资讯原文里所有统计单元的M值,将所述资讯原文里所有统计单元的M由高到低排列,截取M最高10个统计单元的句子和/或将M高于某一设定值的句子截取出来;
(八)将所述资讯原文里没有截取的句子删除即得到所述资讯原文的摘要。
优选的,关键词的权重系数k1是根据该关键词在所关注资讯里的重要程度来设置的。
优选的,关键词的权重系数k1大于1.0。
本发明通过将关键词设置权重系数来确定与所关注资讯的关联远近,通过在一个句子里所有关键词权重系数之积来确定该句子与所关注资讯内容远近,通过排列统计单元的M来截取摘要,比较完整地摘取所关注资讯的内容,节省无效信息阅读时间,提高阅读效率。
本发明有益技术效果有:
1.通过关键词的重要性来设置关键词的第一次出现的权重系数k1,确保摘录的为重要信息;
2.通过关键词出现次数来使权重系数k1等比数列变化,确保摘录内容不会因一个关键词多次出现而摘录失真;
3.通过多个关键词的权重系数之和的乘积来确定一个句子与所关注资讯的关联性,确保关键词多的重要性重要的句子摘录出来;
4.本发明的摘要对原文摘取效率高,快捷可靠。
以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式进行多种变化、修改、替换和变型,仍落入本发明的保护范围内。
Claims (2)
1.一种基于关键词的资讯摘要提取方法,其特征在于:包括以下步骤:
(一)设置关键词库,在所述关键词库设置所关注资讯的关键词;
(二)将每个关键词都设置有与其相匹配的权重系数组合,所述权重系数组合又分为出
现第一次的权重系数k1,所述关键词出现第一次的权重系数k1大于1.0,直至出现第n次的
权重系数kn,kn=k1*,n为自然数;
(三)导入所要提取摘要的资讯原文,将所述资讯原文里除顿号和冒号外的两个标点符号之间的句子视为一个统计单元;
(四)按照所述关键词库里的关键词逐一查找,统计所述统计单元里所出现的第1个关键词并称其为W1关键词及其出现的次数x,x为自然数;
(五)统计出所述统计单元里所述W1关键词的权重系数之和Q1,其公式为:Q1=k1*,得出Q1,x为大于1.5的自然数,当x=1时Q1=k1,依此类推直至统
计出所述统计单元里出现的第y个Wy关键词的权重系数之和并得出Qy,y为大于1.5的自然
数,当只有一个关键词时所述统计单元里所有关键词权重系数之和的乘积M=Q1;
(六)统计出所述统计单元里所有关键词权重系数之和的乘积,M=Q1…*…Qy;
(七)统计出所述资讯原文里所有统计单元的M值,将所述资讯原文里所有统计单元的M由高到低排列,截取M最高10个统计单元的句子和/或将M高于某一设定值的句子截取出来;
(八)将所述资讯原文里没有截取的句子删除即得到所述资讯原文的摘要。
2.根据权利要求1所述的资讯摘要提取方法,其特征在于,所述关键词的权重系数K1是根据该关键词在所关注资讯里的重要程度来设置的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210245094.3A CN114328900A (zh) | 2022-03-14 | 2022-03-14 | 一种基于关键词的资讯摘要提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210245094.3A CN114328900A (zh) | 2022-03-14 | 2022-03-14 | 一种基于关键词的资讯摘要提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114328900A true CN114328900A (zh) | 2022-04-12 |
Family
ID=81034117
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210245094.3A Pending CN114328900A (zh) | 2022-03-14 | 2022-03-14 | 一种基于关键词的资讯摘要提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114328900A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060206806A1 (en) * | 2004-11-04 | 2006-09-14 | Motorola, Inc. | Text summarization |
CN102629266A (zh) * | 2012-03-08 | 2012-08-08 | 上海大学 | 一种基于调和级数的文本图结构表示模型 |
WO2016125949A1 (ko) * | 2015-02-02 | 2016-08-11 | 숭실대학교 산학협력단 | 문서 자동 요약 방법 및 서버 |
CN108563636A (zh) * | 2018-04-04 | 2018-09-21 | 广州杰赛科技股份有限公司 | 提取文本关键词的方法、装置、设备及存储介质 |
US20180349360A1 (en) * | 2017-01-05 | 2018-12-06 | Social Networking Technology, Inc. | Systems and methods for automatically generating news article |
CN109522402A (zh) * | 2018-10-22 | 2019-03-26 | 国家电网有限公司 | 一种基于电力行业特征关键词的摘要提取方法及存储介质 |
CN112836016A (zh) * | 2021-02-05 | 2021-05-25 | 北京字跳网络技术有限公司 | 会议纪要生成方法、装置、设备和存储介质 |
-
2022
- 2022-03-14 CN CN202210245094.3A patent/CN114328900A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060206806A1 (en) * | 2004-11-04 | 2006-09-14 | Motorola, Inc. | Text summarization |
CN102629266A (zh) * | 2012-03-08 | 2012-08-08 | 上海大学 | 一种基于调和级数的文本图结构表示模型 |
WO2016125949A1 (ko) * | 2015-02-02 | 2016-08-11 | 숭실대학교 산학협력단 | 문서 자동 요약 방법 및 서버 |
US20180349360A1 (en) * | 2017-01-05 | 2018-12-06 | Social Networking Technology, Inc. | Systems and methods for automatically generating news article |
CN108563636A (zh) * | 2018-04-04 | 2018-09-21 | 广州杰赛科技股份有限公司 | 提取文本关键词的方法、装置、设备及存储介质 |
CN109522402A (zh) * | 2018-10-22 | 2019-03-26 | 国家电网有限公司 | 一种基于电力行业特征关键词的摘要提取方法及存储介质 |
CN112836016A (zh) * | 2021-02-05 | 2021-05-25 | 北京字跳网络技术有限公司 | 会议纪要生成方法、装置、设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
JUAN WANG ET AL: "Dynamic Rounds Chaotic Block Cipher Based on Keyword Abstract Extraction", 《ENTROPY》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7895205B2 (en) | Using core words to extract key phrases from documents | |
US10002122B2 (en) | Forming knowledge information based on a predetermined threshold of a concept and a predetermined threshold of a target word extracted from a document | |
US7536408B2 (en) | Phrase-based indexing in an information retrieval system | |
Reynaert | Non-interactive OCR post-correction for giga-scale digitization projects | |
Dang et al. | Improvement methods for stock market prediction using financial news articles | |
US20060018551A1 (en) | Phrase identification in an information retrieval system | |
CN104081385A (zh) | 从文档表示信息 | |
CN108170666A (zh) | 一种基于tf-idf关键词提取的改进方法 | |
CN110134847A (zh) | 一种基于互联网金融信息的热点挖掘方法及系统 | |
Yang et al. | A framework for web table mining | |
CN106649308B (zh) | 一种分词词库更新方法及系统 | |
Li et al. | Identifying the influential factors of commodity futures prices through a new text mining approach | |
Patil et al. | A comprehensive analysis of stemmers available for Indic languages | |
CN112835923A (zh) | 一种相关检索方法、装置和设备 | |
CN114328900A (zh) | 一种基于关键词的资讯摘要提取方法 | |
Brosseau-Villeneuve et al. | Latent word context model for information retrieval | |
Fu et al. | Research on text representation method based on improved TF-IDF | |
Kim et al. | Usefulness of temporal information automatically extracted from news articles for topic tracking | |
US20150012540A1 (en) | Deriving an interestingness measure for a cluster | |
Kloptchenko et al. | Mining textual contents of financial report | |
CN111625579A (zh) | 一种信息处理方法、装置及系统 | |
JP2013084216A (ja) | 定型文判別装置及び定型文判別方法 | |
CN114818664A (zh) | 一种金融资讯的获取方法 | |
US20220358287A1 (en) | Text mining based on document structure information extraction | |
CN116306598B (zh) | 针对不同领域字词的定制化纠错方法、系统、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220412 |