CN110674296B - 一种基于关键词的资讯摘要提取方法及系统 - Google Patents

一种基于关键词的资讯摘要提取方法及系统 Download PDF

Info

Publication number
CN110674296B
CN110674296B CN201910877490.6A CN201910877490A CN110674296B CN 110674296 B CN110674296 B CN 110674296B CN 201910877490 A CN201910877490 A CN 201910877490A CN 110674296 B CN110674296 B CN 110674296B
Authority
CN
China
Prior art keywords
information
model
text
emotion
abstract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910877490.6A
Other languages
English (en)
Other versions
CN110674296A (zh
Inventor
孙成
张鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inesa R&d Center
Original Assignee
Inesa R&d Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inesa R&d Center filed Critical Inesa R&d Center
Priority to CN201910877490.6A priority Critical patent/CN110674296B/zh
Publication of CN110674296A publication Critical patent/CN110674296A/zh
Application granted granted Critical
Publication of CN110674296B publication Critical patent/CN110674296B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明公开了一种基于关键词的资讯摘要提取方法及系统,对于从互联网上持续抓取的金融资讯,形成基于金融特色的语料库,并结合该语料库进行文本向量化,使向量化结果的语义表达更为准确,通过不同算法的融合分析模型,提取关键词并对资讯的正负面情感方向进行评价分析,最终给出资讯的摘要以及对相关板块、股票可能产生的正负面影响。本发明相对于传统基于词典和规则或单一算法的关键词提取方法,融合多种算法的结果提高了准确度,且在情感分析方面结合了摘要情感方向,可以更精确地给出资讯的情感方向。

Description

一种基于关键词的资讯摘要提取方法及系统
技术领域
本发明属于大数据、自然语言处理、机器学习领域,具体涉及一种基 于关键词的资讯摘要提取方法及系统。
背景技术
在金融等领域,资讯消息是从业人员及投资爱好者不可忽视的重要行 业信息来源,而信息时代的到来带来的信息爆炸,资讯的数量惊人的增长, 资讯的获取途径也逐渐向网络化、信息化进行转移,越来越多的信息化手 段能够辅助相关人员进行资讯的获取、汇聚。如何有效筛选、甄别和分类 获取的资讯,如何快速获取资讯信息的重点内容和提要,对于相关人员第 一时间获取到有效、相关的资讯信息具有重要意义,在这过程中,对资讯文本进行摘要提取和内容情感方向分析是常见的需求。针对网络各类信息 源获取/爬取的咨询文本信息,目前也有多种基于词典和规则或单一算法进 行关键词、关键字的提取以及基于词典和规则判定进行情感分析的方法, CN110020056A公开了一种通过表格抽取和文本段落相似的方法,来提取个 股公告、研报的摘要,具体采用先分离再合并的策略,分离公告或研报的 表格和纯文本,对表格进行结构化处理,对纯文本进行段落划分处理,然 后结合预定义的摘要模板(关键词模板),从结构化表格中抽取关键词指 标数据并填充模板;从划分段落中寻找与模板最相似的top N个作为摘要 候选段落,如果结构化表格中匹配不到关键词,则从候选段落中寻找最相 似的段落作为一个子摘要。但是绝大多数的方法都在精准性上有所欠缺, 并且词典、语料库缺乏相关行业特征,多数算法的应用集中于舆情消息。
发明内容
有鉴于此,本发明的目的是提供一种基于关键词的金融资讯摘要提取 方法及系统,以解决现有技术中的不足。
为了达到上述目的,本发明的目的是通过下述技术方案实现的:
一方面,提供一种基于关键词的资讯摘要提取方法,其中,包括如下 步骤:
S1.针对网络抓取的资讯文本,利用中英文分词技术,结合行业词典进 行分词处理,分词后的文本数据与历史数据库对比,排除重复多余的资讯;
S2.去重之后的有效文本进入语料库作为关键词提取模型训练的储备 数据;
S3.准备一部分人工标定好情感方向的资讯数据作为标签库,用于进行 情感分析模型的训练;
S4.对于步骤S2中存储的文本语料库数据,进行TFIDF模型和LDA主 题模型的训练;
S5.对于步骤S3中人工标定好情感方向的资讯数据标签库,进行情感 分析模型的训练,首先采用TFIDF的方法分别对训练集和测试集数据进行 文本向量化,接着采用SVM的方法进行分类模型训练,对向量化后的文本 进行特征选择,采用卡方统计的方法进行特征选择,通过试验验证选取特 征为50%的时候效果最佳,然后将选取后的特征放入到支持向量机中训练, 最后通过测试集数据对模型效果进行检验;
S6.对于新抓取的资讯,首先使用已有的行业关键词词典进行关键词提 取,再使用步骤S5、S6中已经训练好的TFIDF模型、LDA主题模型进行关 键词提取,接着使用TextRank模型进行关键词提取,通过把文本分割成若 干组成单元并建立图模型,利用投票机制对文本中的重要成分进行排序, 融合以上所有算法的结果选取最为代表文本文义的关键词,作为摘要给出;
S7.使用步骤S5中训练好的情感分析模型进行情感方向的判定,结合 文本摘要的情感方向校准资讯内容的情感方向判定结果。
上述基于关键词的资讯摘要提取方法,其中,步骤S1中的去重方法, 采用TFIDF向量计算两条文本的相似程度,对于相似度过大的两条资讯, 认为是重复资讯:每条新抓取的资讯,均与T小时内所有其他资讯进行逐 一比对TFIDF向量的相似度,其中T≥1,当上述相似度大于给定重复判定 阈值时,判定为该两条资讯重复,会把时间更新的一条标记为重复资讯。
上述基于关键词的资讯摘要提取方法,其中,步骤S4中所提TFIDF模 型计算方式如下:
Figure BDA0002204786930000021
如上式,为单词i在资讯j中的TFIDF值,其中TF为文本中的词频, 计算单词出现次数与资讯分词后单词总数之比,IDF用来衡量一个词的常 见程度,为全库单词数与包含单词i的资讯数量比值的对数。
上述基于关键词的资讯摘要提取方法,其中,步骤S4中所提LDA主题 聚类运算,具体算法如下:
Figure RE-GDA0002248158520000022
上述基于关键词的资讯摘要提取方法,其中,步骤S5中SVM就是:寻 找一个能够正确划分数据集,并且几何间隔最大的超平面,这个目标表达 为:
Figure BDA0002204786930000031
另一方面,提供一种基于关键词的资讯摘要提取系统,其中,采用如 上述中任意一项所述方法实现资讯摘要提取。
本发明技术方案的有益效果是:
相对于传统基于词典和规则或单一算法的关键词提取方法,本方法融 合多种算法的结果提高了准确度,且在情感分析方面结合了摘要情感方向, 可以更精确地给出资讯的情感方向。
附图说明
图1为本发明方法的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明 的限定。
本发明基于关键词的资讯摘要提取方法,包括如下步骤:
S1.针对网络抓取的资讯文本,利用中英文分词技术,结合行业词典进 行分词处理,分词后的文本数据与历史数据库对比,排除重复多余的资讯;
S2.去重之后的有效文本进入语料库作为关键词提取模型训练的储备 数据;
S3.准备一部分人工标定好情感方向的资讯数据作为标签库,用于进行 情感分析模型的训练;
S4.对于步骤S2中存储的文本语料库数据,进行TFIDF模型和LDA主 题模型的训练;
S5.对于步骤S3中人工标定好情感方向的资讯数据标签库,进行情感 分析模型的训练,首先采用TFIDF的方法分别对训练集和测试集数据进行 文本向量化,接着采用SVM(支持向量机)的方法进行分类模型训练,对 向量化后的文本进行特征选择,采用卡方统计的方法进行特征选择,通过 试验验证选取特征为50%的时候效果最佳,然后将选取后的特征放入到支 持向量机中训练,最后通过测试集数据对模型效果进行检验;
S6.对于新抓取的资讯,首先使用已有的行业关键词词典进行关键词提 取,再使用步骤S5、S6中已经训练好的TFIDF模型、LDA主题模型进行关 键词提取,接着使用TextRank模型进行关键词提取,通过把文本分割成若 干组成单元并建立图模型,利用投票机制对文本中的重要成分进行排序, 融合以上所有算法的结果选取最为代表文本文义的关键词,作为摘要给出;
S7.使用步骤S5中训练好的情感分析模型进行情感方向的判定,结合 文本摘要的情感方向校准资讯内容的情感方向判定结果。
步骤S1中的去重方法,采用TFIDF向量计算两条文本的相似程度,对 于相似度过大的两条资讯,认为是重复资讯:每条新抓取的资讯,均与T 小时内所有其他资讯进行逐一比对TFIDF向量的相似度,其中T≥1,当上 述相似度大于给定重复判定阈值时,判定为该两条资讯重复,会把时间更 新的一条标记为重复资讯。
步骤S4中所提TFIDF模型计算方式如下:
如上式,为单词i在资讯j中的TFIDF值,其中TF为文本中的词频,
Figure BDA0002204786930000041
计算单词出现次数与资讯分词后单词总数之比,IDF用来衡量一个词的常 见程度,为全库单词数与包含单词i的资讯数量比值的对数。
步骤S4中所提LDA主题聚类运算,具体算法如下:
上述两个模型生成过程可能持续时间较长,且过程中可能加入新的爬
Figure RE-GDA0002248158520000041
取资讯,为保证模型收敛,选取系统数据进入较少的时段(交易时间以外 的时段新闻资讯产生速率会降低),并且在训练开始后对于新加入的资讯 不予计入。上述训练过程每天进行一次即可,目的是能够使模型随着资讯 的积累不断的优化。
步骤S5中SVM就是:寻找一个能够正确划分数据集,并且几何间隔最 大的超平面,这个目标表达为:
Figure BDA0002204786930000046
本发明还提供一种基于关键词的资讯摘要提取系统,采用如上述中任 意一项所述方法实现资讯摘要提取。
本发明对于从互联网上持续抓取的金融资讯,形成基于金融特色的语 料库,并结合该语料库进行文本向量化,使向量化结果的语义表达更为准 确,通过不同算法的融合分析模型,提取关键词并对资讯的正负面情感方 向进行评价分析,最终给出资讯的摘要以及对相关板块、股票可能产生的 正负面影响。
以上仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保 护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书 及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包 含在本发明的保护范围内。

Claims (6)

1.一种基于关键词的资讯摘要提取方法,其特征在于,包括如下步骤:
S1.针对网络抓取的资讯文本,利用中英文分词技术,结合行业词典进行分词处理,分词后的文本数据与历史数据库对比,排除重复多余的资讯;
S2.去重之后的有效文本进入语料库作为关键词提取模型训练的储备数据;
S3.准备一部分人工标定好情感方向的资讯数据作为标签库,用于进行情感分析模型的训练;
S4.对于步骤S2中存储的文本语料库数据,进行TFIDF模型和LDA主题模型的训练;
S5.对于步骤S3中人工标定好情感方向的资讯数据标签库,进行情感分析模型的训练,首先采用TFIDF的方法分别对训练集和测试集数据进行文本向量化,接着采用SVM的方法进行分类模型训练,对向量化后的文本进行特征选择,采用卡方统计的方法进行特征选择,通过试验验证选取特征为50%的时候效果最佳,然后将选取后的特征放入到支持向量机中训练,最后通过测试集数据对模型效果进行检验;
S6.对于新抓取的资讯,首先使用已有的行业关键词词典进行关键词提取,再使用步骤S5、S6中已经训练好的TFIDF模型、LDA主题模型进行关键词提取,接着使用TextRank模型进行关键词提取,通过把文本分割成若干组成单元并建立图模型,利用投票机制对文本中的重要成分进行排序,融合以上所有算法的结果选取最为代表文本文义的关键词,作为摘要给出;
S7.使用步骤S5中训练好的情感分析模型进行情感方向的判定,结合文本摘要的情感方向校准资讯内容的情感方向判定结果。
2.如权利要求1所述基于关键词的资讯摘要提取方法,其特征在于,步骤S1中的去重方法,采用TFIDF向量计算两条文本的相似程度,对于相似度过大的两条资讯,认为是重复资讯:每条新抓取的资讯,均与T小时内所有其他资讯进行逐一比对TFIDF向量的相似度,其中T≥1,当上述相似度大于给定重复判定阈值时,判定为该两条资讯重复,会把时间更新的一条标记为重复资讯。
3.如权利要求1所述基于关键词的资讯摘要提取方法,其特征在于,步骤S4中所提TFIDF模型计算方式如下:
Figure FDA0002204786920000011
如上式,为单词i在资讯j中的TFIDF值,其中TF为文本中的词频,计算单词出现次数与资讯分词后单词总数之比,IDF用来衡量一个词的常见程度,为全库单词数与包含单词i的资讯数量比值的对数。
4.如权利要求1所述基于关键词的资讯摘要提取方法,其特征在于,步骤S4中所提LDA主题聚类运算,具体算法如下:
Figure FDA0002204786920000021
5.如权利要求1所述基于关键词的资讯摘要提取方法,其特征在于,步骤S5中SVM就是:寻找一个能够正确划分数据集,并且几何间隔最大的超平面,这个目标表达为:
Figure FDA0002204786920000022
6.一种基于关键词的资讯摘要提取系统,其特征在于,采用如权利要求1-5中任意一项所述方法实现资讯摘要提取。
CN201910877490.6A 2019-09-17 2019-09-17 一种基于关键词的资讯摘要提取方法及系统 Active CN110674296B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910877490.6A CN110674296B (zh) 2019-09-17 2019-09-17 一种基于关键词的资讯摘要提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910877490.6A CN110674296B (zh) 2019-09-17 2019-09-17 一种基于关键词的资讯摘要提取方法及系统

Publications (2)

Publication Number Publication Date
CN110674296A CN110674296A (zh) 2020-01-10
CN110674296B true CN110674296B (zh) 2022-11-04

Family

ID=69077117

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910877490.6A Active CN110674296B (zh) 2019-09-17 2019-09-17 一种基于关键词的资讯摘要提取方法及系统

Country Status (1)

Country Link
CN (1) CN110674296B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460131A (zh) * 2020-02-18 2020-07-28 平安科技(深圳)有限公司 公文摘要提取方法、装置、设备及计算机可读存储介质
CN111581480B (zh) * 2020-05-12 2023-09-08 杭州风远科技有限公司 新闻资讯聚合分析方法及系统、终端、存储介质
CN112307175B (zh) * 2020-12-02 2021-11-02 龙马智芯(珠海横琴)科技有限公司 一种文本处理方法、装置、服务器及计算机可读存储介质
CN112784585A (zh) * 2021-02-07 2021-05-11 新华智云科技有限公司 金融公告的摘要提取方法与摘要提取终端

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025299A (zh) * 2017-04-24 2017-08-08 北京理工大学 一种基于加权lda主题模型的金融舆情感知方法
WO2019055654A1 (en) * 2017-09-15 2019-03-21 Thomson Reuters Global Resources Unlimited Company SYSTEMS AND METHODS FOR DETECTING AND CONFIGURING MULTIMEDIA EVENTS AND COREFERENCING

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8359282B2 (en) * 2009-01-12 2013-01-22 Nec Laboratories America, Inc. Supervised semantic indexing and its extensions

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025299A (zh) * 2017-04-24 2017-08-08 北京理工大学 一种基于加权lda主题模型的金融舆情感知方法
WO2019055654A1 (en) * 2017-09-15 2019-03-21 Thomson Reuters Global Resources Unlimited Company SYSTEMS AND METHODS FOR DETECTING AND CONFIGURING MULTIMEDIA EVENTS AND COREFERENCING

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于主题―情感挖掘模型的微博评论情感分类研究;朱晓霞等;《情报理论与实践》;20181221(第05期);全文 *

Also Published As

Publication number Publication date
CN110674296A (zh) 2020-01-10

Similar Documents

Publication Publication Date Title
CN110674296B (zh) 一种基于关键词的资讯摘要提取方法及系统
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
CN107562717B (zh) 一种基于Word2Vec与词共现相结合的文本关键词抽取方法
CN109543178B (zh) 一种司法文本标签体系构建方法及系统
Burger et al. Discriminating gender on Twitter
CN109960756B (zh) 新闻事件信息归纳方法
US20200019611A1 (en) Topic models with sentiment priors based on distributed representations
CN104881458B (zh) 一种网页主题的标注方法和装置
CN110008309B (zh) 一种短语挖掘方法及装置
CN109492105B (zh) 一种基于多特征集成学习的文本情感分类方法
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN110705247B (zh) 基于χ2-C的文本相似度计算方法
CN108388660A (zh) 一种改进的电商产品痛点分析方法
CN109766547B (zh) 一种句子相似度计算方法
CN109213998A (zh) 中文错字检测方法及系统
CN110955767A (zh) 一种机器人对话系统中生成意图候选集列表集合的算法及装置
CN107451116B (zh) 一种移动应用内生大数据统计分析方法
Ashna et al. Lexicon based sentiment analysis system for malayalam language
CN115238040A (zh) 一种钢铁材料学知识图谱构建方法及系统
CN107239455B (zh) 核心词识别方法及装置
CN110019556B (zh) 一种话题新闻获取方法、装置及其设备
CN110347812A (zh) 一种面向司法文本的搜索排序方法及系统
CN113360647A (zh) 一种基于聚类的5g移动业务投诉溯源分析方法
Maheswari et al. Rule based morphological variation removable stemming algorithm
CN108733824B (zh) 考虑专家知识的交互式主题建模方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant