CN114328900A

CN114328900A - 一种基于关键词的资讯摘要提取方法

Info

Publication number: CN114328900A
Application number: CN202210245094.3A
Authority: CN
Inventors: 陈守红
Original assignee: Shenzhen Gelonghui Information Technology Co ltd
Current assignee: Shenzhen Gelonghui Information Technology Co ltd
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2022-04-12

Abstract

本发明公开了一种基于关键词的资讯摘要提取方法，包括以下步骤：1.设置关键词；2.关键词都设置有权重系数组合，权重系数组合分为权重系数k1，直至权重系数kn;3.将两个标点符号之间的句子视为一个统计单元；4.统计W1关键词及其出现的次数x；5.统计出统计单元里权重系数之和，其公式为：W1=k1+…+kx，得出Q1，直至第y个Wy关键词的权重系数之和并得出Qy;6.统计出统计单元里所有关键词的权重系数之积M=Q1…*…Qy；7.将M排列，截取最高10个句子；8.即得到该资讯的摘要。本发明通过设置权重系数来确定关联远近，通过所有关键词权重系数之积来确定与所关注资讯内容远近，通过排列统计单元的M来截取摘要，节省无效信息阅读时间，提高阅读效率。

Description

一种基于关键词的资讯摘要提取方法

技术领域

本发明涉及数据处理技术领域，特别涉及一种基于关键词的资讯摘要提取方法。

背景技术

证券市场与金融投资在现代社会中占有重要的地位。股票市场的建模和预测研究对我国的经济发展和金融建设具有重要意义，一直为人们所关注，股市行情受国家政策、经济形势、公司发展状况以及投资者心理等诸多因素的影响。

随着互联网技术的迅速发展和广发普及，普通投资者有越来越多的渠道获得更多的互联网信息。越来越多的财经网站每天都会推送大量的有关于各个公司的财经新闻以及媒体或者专家对于各个公司近来状况的解读，所以投资者会受到来自各个方面新闻信息的影响，这些新闻信息会影响投资者的判断。

那么多论文、文献里如何提取对某个方面有用的资讯就成为一个重要的问题，这个问题关系到提高工作效率的问题。

发明内容

本发明要解决的技术问题是提供一种基于关键词的资讯摘要提取方法，解决通过资讯摘要的关键词来选择资讯的问题。

为了解决上述技术问题，本发明的技术方案为：一种基于关键词的资讯摘要提取方法，包括以下步骤：

（一）设置关键词库，在所述关键词库设置所关注资讯的关键词；

（二）将每个关键词都设置有与其相匹配的权重系数组合，所述权重系数组合又分为出现第一次的权重系数k1，所述关键词出现第一次的权重系数k1大于1.0，直至出现第n 次的权重系数kn，kn=k1*

,n为自然数；

（三）导入所要提取摘要的资讯原文，将所述资讯原文里除顿号和冒号外的两个标点符号之间的句子视为一个统计单元；

（四）按照所述关键词库里的关键词逐一查找，统计所述统计单元里所出现的第1个关键词并称其为W1关键词及其出现的次数x，x为自然数；

（五）统计出所述统计单元里所述W1关键词的权重系数之和Q1，其公式为：Q1=k1*

，得出Q1，x为大于1.5的自然数，当x=1时Q1=k1，依此类推直至统计出所述统计单元里出现的第y个Wy关键词的权重系数之和并得出Qy，y为大于1.5的自然数，当只有一个关键词时所述统计单元里所有关键词权重系数之和的乘积M=Q1；

（六）统计出所述统计单元里所有关键词权重系数之和的乘积，M=Q1…*…Qy；

（七）统计出所述资讯原文里所有统计单元的M值，将所述资讯原文里所有统计单元的M由高到低排列，截取M最高10个统计单元的句子和/或将M高于某一设定值的句子截取出来；

（八）将所述资讯原文里没有截取的句子删除即得到所述资讯原文的摘要。

作为本发明的一种优选方案，关键词的权重系数k1是根据该关键词在所关注资讯里的重要程度来设置的。

采用本技术方案的有益效果：通过将关键词设置权重系数来确定与所关注资讯的关联远近，通过在一个句子里所有关键词权重系数之积来确定该句子与所关注资讯内容远近，通过排列统计单元的M来截取摘要，比较完整地摘取所关注资讯的内容，节省无效信息阅读时间，提高阅读效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的示意图。

具体实施方式

为进一步说明各实施例，本发明提供有附图，这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理，配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点，图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是，对于这些实施方式的说明用于帮助理解本发明，但并不构成对本发明的限定。此外，下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。

参考附图，一种基于关键词的资讯摘要提取方法，包括以下步骤：

（一）设置关键词库，在关键词库设置所关注资讯的关键词，如W1、W2、W3……WN，有N个关键词，N为自然数；如关注的是金融资讯，那么关键词有央行、加息、支持、加大、贷款等等。N表示关键词库里关键词的个数。

（二）将每个关键词都设置有与其相匹配的权重系数组合，所述关键词的权重系数组合又分为出现第一次的权重系数k1，直至出现第n次的权重系数kn=k1*

，n为自然数；如W1关键词，其第一次出现时的权重系数为k1，第二次出现时的权重系数为k1/2，第三次出现时的权重系数为k1/4，直至出现第n次的权重系数k1*

；之所以要将后面出现的关键词的权重系数设置的越来越小，就防止一个关键词的影响过大而导致摘要提取走样；如第一次出现的权重系数为5.0，那么第二次出现的权重系数为2.5，那么第三次出现的权重系数为1.25，第n次的权重系数5.0*

；如W1关键词的第一次的权重系数k1为 5.0，关键词W2的第一次的权重系数k1为5.8，关键词W3的第一次的权重系数k1为3.0，每个关键词的第一次的权重系数k1与其他关键词的第一次的权重系数k1可以相同，也可以不相同；

（三）导入所要提取摘要的资讯原文，将资讯原文里除顿号和冒号外的两个标点符号之间的句子视为一个统计单元；

（四）按照所述关键词库里的关键词逐一查找，统计所述统计单元里所出现的第1个关键词并称其为W1关键词及其出现的次数x，x为自然数；x表示在一个统计单元里同一个关键词所出现的次数。

（五）统计出所述统计单元里W1关键词的权重系数之和Q1，其公式为：Q1=k1*

，得出Q1，x为大于1.5的自然数，当x=1时Q1=k1，依此类推直至统计出所述统计单元里出现的第y个Wy关键词的权重系数之和并得出Qy，y为大于1.5的自然数，当只有一个关键词时所述统计单元里所有关键词权重系数之和的乘积M=Q1，Qy的统计就象Q1的统计一样来统计，先统计出Wy关键词及其出现的次数，再得出其权重系数之和就得出Qy；y表示在一个统计单元里所出现关键词的个数，也就是说一个统计单元里有多少个关键词库里的关键词。

优选的，关键词的权重系数k1是根据该关键词在所关注资讯里的重要程度来设置的。

优选的，关键词的权重系数k1大于1.0。

本发明通过将关键词设置权重系数来确定与所关注资讯的关联远近，通过在一个句子里所有关键词权重系数之积来确定该句子与所关注资讯内容远近，通过排列统计单元的M来截取摘要，比较完整地摘取所关注资讯的内容，节省无效信息阅读时间，提高阅读效率。

本发明有益技术效果有：

1.通过关键词的重要性来设置关键词的第一次出现的权重系数k1，确保摘录的为重要信息；

2.通过关键词出现次数来使权重系数k1等比数列变化，确保摘录内容不会因一个关键词多次出现而摘录失真；

3.通过多个关键词的权重系数之和的乘积来确定一个句子与所关注资讯的关联性，确保关键词多的重要性重要的句子摘录出来；

4.本发明的摘要对原文摘取效率高，快捷可靠。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

Claims

1.一种基于关键词的资讯摘要提取方法，其特征在于：包括以下步骤：

（二）将每个关键词都设置有与其相匹配的权重系数组合，所述权重系数组合又分为出现第一次的权重系数k1，所述关键词出现第一次的权重系数k1大于1.0，直至出现第n次的权重系数kn，kn=k1*

,n为自然数；

2.根据权利要求1所述的资讯摘要提取方法，其特征在于，所述关键词的权重系数K1是根据该关键词在所关注资讯里的重要程度来设置的。