CN110674296B

CN110674296B - 一种基于关键词的资讯摘要提取方法及系统

Info

Publication number: CN110674296B
Application number: CN201910877490.6A
Authority: CN
Inventors: 孙成; 张鹏飞
Original assignee: Inesa R&d Center
Current assignee: Inesa R&d Center
Priority date: 2019-09-17
Filing date: 2019-09-17
Publication date: 2022-11-04
Anticipated expiration: 2039-09-17
Also published as: CN110674296A

Abstract

本发明公开了一种基于关键词的资讯摘要提取方法及系统，对于从互联网上持续抓取的金融资讯，形成基于金融特色的语料库，并结合该语料库进行文本向量化，使向量化结果的语义表达更为准确，通过不同算法的融合分析模型，提取关键词并对资讯的正负面情感方向进行评价分析，最终给出资讯的摘要以及对相关板块、股票可能产生的正负面影响。本发明相对于传统基于词典和规则或单一算法的关键词提取方法，融合多种算法的结果提高了准确度，且在情感分析方面结合了摘要情感方向，可以更精确地给出资讯的情感方向。

Description

一种基于关键词的资讯摘要提取方法及系统

技术领域

本发明属于大数据、自然语言处理、机器学习领域，具体涉及一种基于关键词的资讯摘要提取方法及系统。

背景技术

在金融等领域，资讯消息是从业人员及投资爱好者不可忽视的重要行业信息来源，而信息时代的到来带来的信息爆炸，资讯的数量惊人的增长，资讯的获取途径也逐渐向网络化、信息化进行转移，越来越多的信息化手段能够辅助相关人员进行资讯的获取、汇聚。如何有效筛选、甄别和分类获取的资讯，如何快速获取资讯信息的重点内容和提要，对于相关人员第一时间获取到有效、相关的资讯信息具有重要意义，在这过程中，对资讯文本进行摘要提取和内容情感方向分析是常见的需求。针对网络各类信息源获取/爬取的咨询文本信息，目前也有多种基于词典和规则或单一算法进行关键词、关键字的提取以及基于词典和规则判定进行情感分析的方法， CN110020056A公开了一种通过表格抽取和文本段落相似的方法，来提取个股公告、研报的摘要，具体采用先分离再合并的策略，分离公告或研报的表格和纯文本，对表格进行结构化处理，对纯文本进行段落划分处理，然后结合预定义的摘要模板(关键词模板)，从结构化表格中抽取关键词指标数据并填充模板；从划分段落中寻找与模板最相似的top N个作为摘要候选段落，如果结构化表格中匹配不到关键词，则从候选段落中寻找最相似的段落作为一个子摘要。但是绝大多数的方法都在精准性上有所欠缺，并且词典、语料库缺乏相关行业特征，多数算法的应用集中于舆情消息。

发明内容

有鉴于此，本发明的目的是提供一种基于关键词的金融资讯摘要提取方法及系统，以解决现有技术中的不足。

为了达到上述目的，本发明的目的是通过下述技术方案实现的：

一方面，提供一种基于关键词的资讯摘要提取方法，其中，包括如下步骤：

S1.针对网络抓取的资讯文本，利用中英文分词技术，结合行业词典进行分词处理，分词后的文本数据与历史数据库对比，排除重复多余的资讯；

S2.去重之后的有效文本进入语料库作为关键词提取模型训练的储备数据；

S3.准备一部分人工标定好情感方向的资讯数据作为标签库，用于进行情感分析模型的训练；

S4.对于步骤S2中存储的文本语料库数据，进行TFIDF模型和LDA主题模型的训练；

S5.对于步骤S3中人工标定好情感方向的资讯数据标签库，进行情感分析模型的训练，首先采用TFIDF的方法分别对训练集和测试集数据进行文本向量化，接着采用SVM的方法进行分类模型训练，对向量化后的文本进行特征选择，采用卡方统计的方法进行特征选择，通过试验验证选取特征为50％的时候效果最佳，然后将选取后的特征放入到支持向量机中训练，最后通过测试集数据对模型效果进行检验；

S6.对于新抓取的资讯，首先使用已有的行业关键词词典进行关键词提取，再使用步骤S5、S6中已经训练好的TFIDF模型、LDA主题模型进行关键词提取，接着使用TextRank模型进行关键词提取，通过把文本分割成若干组成单元并建立图模型，利用投票机制对文本中的重要成分进行排序，融合以上所有算法的结果选取最为代表文本文义的关键词，作为摘要给出；

S7.使用步骤S5中训练好的情感分析模型进行情感方向的判定，结合文本摘要的情感方向校准资讯内容的情感方向判定结果。

上述基于关键词的资讯摘要提取方法，其中，步骤S1中的去重方法，采用TFIDF向量计算两条文本的相似程度，对于相似度过大的两条资讯，认为是重复资讯：每条新抓取的资讯，均与T小时内所有其他资讯进行逐一比对TFIDF向量的相似度，其中T≥1，当上述相似度大于给定重复判定阈值时，判定为该两条资讯重复，会把时间更新的一条标记为重复资讯。

上述基于关键词的资讯摘要提取方法，其中，步骤S4中所提TFIDF模型计算方式如下：

如上式，为单词i在资讯j中的TFIDF值，其中TF为文本中的词频，计算单词出现次数与资讯分词后单词总数之比，IDF用来衡量一个词的常见程度，为全库单词数与包含单词i的资讯数量比值的对数。

上述基于关键词的资讯摘要提取方法，其中，步骤S4中所提LDA主题聚类运算，具体算法如下：

上述基于关键词的资讯摘要提取方法，其中，步骤S5中SVM就是：寻找一个能够正确划分数据集，并且几何间隔最大的超平面，这个目标表达为：

另一方面，提供一种基于关键词的资讯摘要提取系统，其中，采用如上述中任意一项所述方法实现资讯摘要提取。

本发明技术方案的有益效果是：

相对于传统基于词典和规则或单一算法的关键词提取方法，本方法融合多种算法的结果提高了准确度，且在情感分析方面结合了摘要情感方向，可以更精确地给出资讯的情感方向。

附图说明

图1为本发明方法的流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

本发明基于关键词的资讯摘要提取方法，包括如下步骤：

S5.对于步骤S3中人工标定好情感方向的资讯数据标签库，进行情感分析模型的训练，首先采用TFIDF的方法分别对训练集和测试集数据进行文本向量化，接着采用SVM(支持向量机)的方法进行分类模型训练，对向量化后的文本进行特征选择，采用卡方统计的方法进行特征选择，通过试验验证选取特征为50％的时候效果最佳，然后将选取后的特征放入到支持向量机中训练，最后通过测试集数据对模型效果进行检验；

步骤S1中的去重方法，采用TFIDF向量计算两条文本的相似程度，对于相似度过大的两条资讯，认为是重复资讯：每条新抓取的资讯，均与T 小时内所有其他资讯进行逐一比对TFIDF向量的相似度，其中T≥1，当上述相似度大于给定重复判定阈值时，判定为该两条资讯重复，会把时间更新的一条标记为重复资讯。

步骤S4中所提TFIDF模型计算方式如下：

如上式，为单词i在资讯j中的TFIDF值，其中TF为文本中的词频，

计算单词出现次数与资讯分词后单词总数之比，IDF用来衡量一个词的常见程度，为全库单词数与包含单词i的资讯数量比值的对数。

步骤S4中所提LDA主题聚类运算，具体算法如下：

上述两个模型生成过程可能持续时间较长，且过程中可能加入新的爬

取资讯，为保证模型收敛，选取系统数据进入较少的时段(交易时间以外的时段新闻资讯产生速率会降低)，并且在训练开始后对于新加入的资讯不予计入。上述训练过程每天进行一次即可，目的是能够使模型随着资讯的积累不断的优化。

步骤S5中SVM就是：寻找一个能够正确划分数据集，并且几何间隔最大的超平面，这个目标表达为：

本发明还提供一种基于关键词的资讯摘要提取系统，采用如上述中任意一项所述方法实现资讯摘要提取。

本发明对于从互联网上持续抓取的金融资讯，形成基于金融特色的语料库，并结合该语料库进行文本向量化，使向量化结果的语义表达更为准确，通过不同算法的融合分析模型，提取关键词并对资讯的正负面情感方向进行评价分析，最终给出资讯的摘要以及对相关板块、股票可能产生的正负面影响。

以上仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种基于关键词的资讯摘要提取方法，其特征在于，包括如下步骤：

2.如权利要求1所述基于关键词的资讯摘要提取方法，其特征在于，步骤S1中的去重方法，采用TFIDF向量计算两条文本的相似程度，对于相似度过大的两条资讯，认为是重复资讯：每条新抓取的资讯，均与T小时内所有其他资讯进行逐一比对TFIDF向量的相似度，其中T≥1，当上述相似度大于给定重复判定阈值时，判定为该两条资讯重复，会把时间更新的一条标记为重复资讯。

3.如权利要求1所述基于关键词的资讯摘要提取方法，其特征在于，步骤S4中所提TFIDF模型计算方式如下：

4.如权利要求1所述基于关键词的资讯摘要提取方法，其特征在于，步骤S4中所提LDA主题聚类运算，具体算法如下：

。

5.如权利要求1所述基于关键词的资讯摘要提取方法，其特征在于，步骤S5中SVM就是：寻找一个能够正确划分数据集，并且几何间隔最大的超平面，这个目标表达为：

。

6.一种基于关键词的资讯摘要提取系统，其特征在于，采用如权利要求1-5中任意一项所述方法实现资讯摘要提取。