CN112380422A

CN112380422A - 一种基于关键词热度的金融新闻推荐装置

Info

Publication number: CN112380422A
Application number: CN202010918857.7A
Authority: CN
Inventors: 张庆全; 鲁小羽; 闻瑞萱; 田地
Original assignee: Shanghai Zhizhi Intelligent Technology Co ltd
Current assignee: Shanghai Zhizhi Intelligent Technology Co ltd
Priority date: 2020-09-04
Filing date: 2020-09-04
Publication date: 2021-02-19

Abstract

本发明涉及一种基于关键词热度的金融新闻推送装置，所述装置包括：新闻抓取模块，用于通过实时抓取金融新闻并将抓取到的金融新闻内容以文本形式存储在新闻数据库中；预处理模块，用于从所述新闻数据库中读取所存储的每个金融新闻文本，并对其进行处理；元数据分析模块，用于计算元数据序列中包含的数字个数，得到元数据分析结果；关键词排序模块，用于创建多元词典并对多元词典中关键词进行实时排序；概率模型训练模块，用于获得概率模型，对新抓取的金融新闻文本进行主题概率打分；金融新闻推送模块，用于构建金融新闻文本热度的推送模型，创建新闻推荐列表。本发明极大提高了金融新闻推送的效率和精度，实现了金融新闻的个性化推送。

Description

一种基于关键词热度的金融新闻推荐装置

技术领域

本发明涉及数据分析技术领域，特别是涉及一种基于关键词热度的金融新闻推荐装置。

背景技术

随着网络技术的发展和新媒体的广泛应用，各类新闻的产生和发布数量大大增加，如何“砂里淘金”，选择价值更高的新闻显得尤为重要。

现有的新闻推荐方法更多关注泛领域的新闻，金融新闻往往只是新闻推荐中的一个小板块，当前网络上的新闻信息呈现爆炸式增长趋势，用户很难从中找到有用的金融信息。传统新闻价值推送方法更多体现的是普适性的新闻热点推送，且对新闻来源与社交媒体上的用户进行无差别的推送，不仅不能直接用于单一领域类新闻推送，同时还严重制约了各行业数据、政策信息的有效传播，用户在浏览大量无关新闻的过程中，很容易错过大量重要的金融信息。

因此，如何更加精准、高效地对金融领域热点新闻进行挖掘、推送，成为了新闻数据分析推送领域亟待解决的重要问题。

发明内容

为了克服上述技术问题，本发明提供了一种基于关键词热度的金融新闻推荐装置，极大地提高了对金融领域热点新闻进行挖掘、推送的效率和精度。

为实现上述目的，本发明的技术方案如下：

本发明提供了一种基于关键词热度的金融新闻推送装置，所述装置设有下述组成部件：新闻抓取模块、预处理模块、元数据分析模块、关键词排序模块、概率模型训练模块、金融新闻推送模块、金融新闻展示模块，其中：

新闻抓取模块，用于通过实时抓取金融新闻并将抓取到的金融新闻内容以文本形式存储在新闻数据库中；

预处理模块，用于从所述新闻数据库中读取所存储的每个金融新闻文本，并对其进行处理；

元数据分析模块，用于计算元数据序列中包含的数字个数，得到元数据分析结果；

关键词排序模块，用于创建多元词典并对多元词典中关键词进行实时排序；

概率模型训练模块，用于获得概率模型，对新抓取的金融新闻文本进行主题概率打分；

金融新闻推送模块，用于用于根据元数据分析模块、关键词排序模块、概率模型训练模块输出的结果，构建金融新闻文本热度的推送模型，创建新闻推荐列表，所述新闻推荐列表包含了准备向用户推荐的新闻文本；

金融新闻展示模块，用于对所述准备向用户推荐的新闻文本进行展示。

优选地，所述预处理模块的处理操作包括但不限于：将字符序列转换为小写字符、选用特定长度的单词、删除非法字符、删除数字、删除停用词、词干提取和词性还原。

优选地，所述元数据分析模块包括元数据序列获取单元、元数据分析单元；

所述元数据序列获取单元，用于调用所述预处理模块，对所述金融新闻文本进行删除非法字符、删除停用词、将字符序列转换为小写字符处理，得到元数据序列；

所述元数据分析单元，用于计算所述元数据序列中包含的数字个数，生成元数据分析结果。

优选地，所述关键词排序模块包括多元词典生成单元、冗余删除单元、关键词排序单元；

所述多元词典生成单元，用于调用所述预处理模块，对所述新闻文本进行删除非法字符、删除停用词、删除单独出现的数字、将字符序列转换为小写字符、选用特定长度的单词处理，通过自然语言处理和神经网络训练动态获取关键词序列并提取所述关键词序列中的命名实体名词构成一个命名实体关键词序列；然后，将所述关键词序列、所述命名实体关键词序列与预先存储在所述关键词排序模块中的静态金融关键词序列合并为多元词典；

所述冗余删除单元，用于读取所述关键词序列和所述命名实体关键词序列，然后删除其中与所述静态金融关键词序列中重复的关键词；

所述关键词排序单元，用于通过热度搜索提取多元词典中关键词的关键词热度值，并按照所述关键词热度值对所述多元词典中的关键词进行实时排序。

优选地，所述概率模型训练模块包括概率模型词典生成单元、概率模型生成单元、主题概率预测单元；

所述概率模型词典生成单元，用于调用所述预处理模块，从所述新闻数据库中读取所存储的每个新闻文本，对所述新闻文本删除非法字符、删除停用词、将字符序列转换为小写字符、选用特定长度的单词、词干提取和词性还原，得到概率模型词典；

所述概率模型生成单元，用于对所述概率模型词典进行主题模型训练；将所述概率模型词典转化为主题特征向量；在获得概率模型词典和主题特征向量之后，对新闻数据库中存储的金融新闻文本进行主题挖掘得到概率模型；

所述主题概率预测单元，用于在获得概率模型后，确定新抓取的金融新闻文本的主题概率权重。

优选地，所述概率模型训练模块还包括过滤器单元，所述过滤器单元，用于删除所述概率模型词典中词频小于特定数目的关键词，或提取词频大于特定百分比的关键词，或提取特定数目的关键词。

优选地，所述装置还包括用户行为分析模块和匹配模块，

所述用户行为分析模块，用于根据用户行为构建个性化用户模型，通过用户模型分析用户交互行为，得到用户行为分析报告；

所述匹配模块，用于根据所述用户行为分析报告，将所述新闻数据库中准备向用户推荐的金融新闻文本与不同行为习惯的用户进行个性化匹配，实现新闻文本推送。

优选地，所述用户行为分析模块包括用户行为获取单元、用户模型构建单元；

所述用户行为获取单元，用于从用户数据库中获取日志系统的全部用户交互行为记录；

所述用户模型构建单元，用于对用户交互行为记录中的用户点击序列进行筛选和切分，生成用户行为顺序对，将其转化为全局目标新闻特征向量；对用户点击序列进行筛选后，动态生成用户最近24小时内的点击序列，将用户最近24小时内的点击序列与全局目标新闻特征向量相结合，对用户的新闻点击习惯进行建模，得到表示用户阅读行为偏好的用户模型。

优选地，所述金融新闻推送模块包括推送模型生成单元、新闻推荐列表生成单元；

所述推送模型生成单元，用于将元数据分析结果、多元词典与概率模型相结合，对金融新闻文本热度进行建模，得到表示金融新闻文本热度的推送模型；

所述新闻推荐列表生成单元，用于通过所述推送模型计算新抓取的每个金融新闻文本的热度值，如果该热度值大于设定的阀值，则将该新抓取的新闻文本列入准备向用户推荐的新闻推荐列表中，并存储在所述新闻数据库中，以便推荐给用户。

优选地，所述金融新闻展示模块包括：过滤单元；

所述过滤单元，用于读取用户的新闻推荐列表，过滤掉用户已经有过点击行为的新闻文本或者将用户已经有过点击行为的新闻文本的优先级降低，对用户的新闻推荐列表进行实时更新。

本发明的有益效果为：

针对传统新闻重要性评估方法不适用于金融领域内新闻评估的缺陷，本发明提出了一种基于关键词热度的金融新闻推荐装置，构建了一种面向金融新闻领域的关键词动态获取和模型构建机制，本发明采用自然语言处理和神经网络训练、概率模型训练、用户模型构建等方法，对金融新闻热度进行动态评估，并个性化推送给特定用户，基于关键词热度搜索机制，对金融类新闻进行个性化推送，极大提高了金融新闻的推送精准度，提高了用户从金融新闻中获取有效信息的效率。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中上所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于关键词热度的金融新闻推荐装置外围架构示意图；

图2为本发明一种基于关键词热度的金融新闻推荐装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

研究如何对金融新闻进行个性化精准推送，对新闻工作者的编辑工作、在线商业广告的投放以及网络舆情的检测都具有重要意义。传统的推送方法多是仅针对用户点击进行无差别推送，新闻的优先级别没有得到体现。基于此，本发明实施例提供的一种基于关键词热度的金融新闻推送装置，即可以评估金融新闻的优先级同时可以根据用户行为进行个性化推送。

为使本发明的目的、技术方案和优点更加清楚，下面将结合具体实施例对本发明请求保护的一种基于关键词热度的金融新闻推送装置作进一步地详细阐述。

请参阅图1，本发明通过金融新闻推送装置筛选热点金融新闻，并将根据用户点击行为构建用户模型，将热点新闻通过用户UI系统有针对性地推送给对其感兴趣的用户。在完成一整套推送操作之后，金融新闻推送装置将再次获取最新的用户模型用于实现新闻推送，形成了一个良性的循环。因此，从上述架构可以看出，整个金融新闻推送的核心是如何利用用户行为分析、热点新闻筛选设计相应的推送装置。

请参阅图2，本发明提供了一种基于关键词热度的金融新闻推送装置，所述装置设有下述组成部件：新闻抓取模块、预处理模块、元数据分析模块、关键词排序模块、概率模型训练模块、金融新闻推送模块、金融新闻展示模块，其中：

新闻抓取模块，用于通过实时抓取金融新闻并将抓取到的金融新闻内容以文本形式存储在新闻数据库中；具体地，在一些可能的实施例中，可以先通过现有的网络爬虫等技术，实时对txt或pdf等格式的新闻文本进行抓取，即抓取目标金融新闻文本；随后对目标新闻文本进行批量读取，将所述抓取到的金融新闻内容以文本形式存储在新闻数据库中。

预处理模块，用于从所述新闻数据库中读取所存储的每个金融新闻文本，并对其进行处理；具体地，在一些可能的实施例中，对于每个新闻文本的预处理操作可以分为中文文本预处理和英文文本预处理。其中，中文文本预处理包括分词、删除标点符号、数字及其他字符等；英文文本预处理包括英文缩写替换、转换为小写字符、选用长度在一定范围之间的单词、删除非法字符、拼写检查等。预处理后得到的所有原始数据会储存在csv格式的文档中，其中包括，原始文档的路径和清理后的数据内容。

具体地，在一些可能的实施例中，所述预处理模块根据调用其的模块不同对金融新闻文本进行不同的处理，例如，在预处理模块中有如下abcdef六种处理方式可选则：

a.删除非法字符

b.删除停用词

c.删除单独出现的数字

d.单词小写(适用于英文)

e.单词长度(适用于英文)

f.词干提取和词形还原(适用于英文)

其中：a+b+d处理适用于元数据分析模块、a+b+c+(d)+e处理适用于关键词排序模块，a+b+d+e+f处理适用于概率模型训练模块。

举例如下：

所述关键词排序模块调用所述预处理模块，对于如下金融新闻文本进行a+b+c+d+e处理：

“Defensive Investor-Must pass at least 6of the following 7tests:Score＝2/7Enterprising Investor-Must pass at least 4of the following 5tests,or besuitable for a Defensive Investor:Score＝5/5Key Data Balance Sheet-January2015Earnings Per Share Earnings Per Share-ModernGraham Dividend HistoryAgilent Technologies is suitable for the Enterprising Investor,but not forthe more conservative Defensive Investor,who is concerned about theinsufficient earnings growth or stability over the last ten years,the shortdividend history,and the high PEmg and PB ratios.”

预处理后得到如下数据，可用于关键词序列的获取：

“defensive investor pass following tests score enterprising investorpass following tests suitable defensive investor score key data balance sheetjanuary earnings share earnings share moderngraham dividend history agilenttechnologies suitable enterprising investor conservative defensive investorconcerned insufficient earnings growth stability years short dividend historyhigh pemg pb ratios”

关键词排序模块，用于创建多元词典并对多元词典中关键词进行实时排序；本发明实施例为保障数据的实时更新，提高新闻推送的准确度，对关键词的获取和排序是动态的，譬如通过训练增加以前未出现过的近期热词作为关键词，将所有获取的关键词通过热度搜索进行排序，再用于评估。

金融新闻推送模块，用于根据元数据分析模块、关键词排序模块、概率模型训练模块输出的结果，构建金融新闻文本热度的推送模型，创建新闻推荐列表，所述新闻推荐列表包含了准备向用户推荐的新闻文本；

所述多元词典生成单元，用于调用所述预处理模块，对所述新闻文本进行删除非法字符、删除停用词、删除单独出现的数字、将字符序列转换为小写字符、选用特定长度的单词处理，通过自然语言处理和神经网络训练动态获取关键词序列并提取所述关键词序列中的命名实体名词构成一个命名实体关键词序列；然后，将所述关键词序列、所述命名实体关键词序列与预先存储在所述关键词排序模块中的静态金融关键词序列合并为多元词典。其中，所述预先存储在所述关键词排序模块中的静态金融关键词序列，可以是由人工根据经验提取金融行业相关的关键词。

具体地，在一些可能的实施例中，多元词典生成单元首先计算所述关键词序列和所述命名实体关键词序列中关键词的数量，并根据热度值对其进行排序，取其中前n个关键词与静态金融关键词序列合并组成多元词典，此时的多元词典既包含静态金融关键词，也包含动态变化的n个动态关键词。需要说明的是，这里关键词的个数n可以在实际生产中根据需要进行灵活设定。

具体地，在一些可能的实施例中，还可通过如下步骤构建多元词典，例如：

多元词典生成单元筛选金融行业关键词组成静态词典；具体地，可以由人工根据经验提取金融行业相关的关键词。根据已有的金融词汇，生成多元静态词典(包括但并不限于一元、二元、三元、四元、五元)，取多元静态词典的前n个关键词，例如：如下表1为根据金融词汇生成的二元静态词典的前五个关键词：

表1二元静态词典的前五个关键词二元词典

subsidiary company
	money business
external factors
	investment banking
low-price-earnings-ratio effect

通过自然语言处理和神经网络训练动态获取训练集关键词组成动态词典；加入训练集关键词获取机制的目的是为了实现对新闻文本的动态评估，通过对数万篇金融新闻进行关键词提取，可动态更新训练集产生的关键词词汇。取多元动态词典的前n个关键词，例如：如下表2为根据训练集生成的二元动态词典的前五个关键词：

表2二元动态词典的前五个关键词

将上述静态二元词典与所述动态二元词典合并组成多元词典；具体地，在一些可能的实施例中，计算训练集关键词的数量并根据热度值对其进行排序，取其中前5个训练集关键词与金融行业关键词合并组成多元词典，此时的多元词典既包含静态的金融行业关键词，也包含动态变化的n个训练集关键词。

命名实体识别：

多元词典生成单元通过自然语言处理和神经网络训练获得用于评估的命名实体，如人物名、机构名；使用开源库Spacy的带残差连接的卷积神经网络模型提取命名实体；

利用神经网络模型识别所述命名实体作为关键词，即将上述识别到的人名以及机构名等作为关键词。例如：如下表3为神经网络模型提取的训练集中的前5个机构实体：

表3神经网络模型提取的训练集中的前5个机构实体

所述冗余删除单元，用于读取所述关键词序列和所述命名实体关键词序列，然后删除其中与所述静态金融关键词序列中重复的关键词；需要说明的是，所述关键词序列和所述命名实体关键词序列中的关键词往往是通过自然语言处理得到的，在现有的静态金融关键词序列中未出现过的与金融行业相关的关键词。

具体地，在一些可能的实施例中，关键词排序单元可以通过如下方法对关键词进行排序

将所述多元词典中的全部关键词通过热度搜索提取热度值，并按照所述热度值进行排序。

单个词语的热度值w_i的计算公式为：

其中：n：超参数，α：特定日期的热度值

所述热度搜索值在经过数学处理后，可以直接用于权重计算。例如：如下表4为命名实体关键词的前5名热度搜索值：

表4命名实体关键词的前5名热度搜索值

具体地，在一些可能的实施例中，所述概率模型生成单元可以通过如下方法提取概率模型:

首先，我们需要将已经进行过预处理的金融新闻文本变成词袋模型，也就是将各金融新闻文本变成数字向量形式；

例如，某一篇金融新闻文本的数字向量表现形式为

[(13,1),(960,1),(1424,1),(1982,1),(3154,1),(3872,1),(4435,1),(5115,1),(5583,1),(6506,1)]

其中，括号内的数字分别代表标号和个数，即(标号,个数)。标号为在概率模型词典中的标号；个数为此金融新闻文本中，该单词出现的次数。

例如，通过训练后的概率模型词典如下：

…

在获得概率模型词典和对金融新闻文本向量化之后，我们进行主题挖掘得到概率模型。所述概率模型采用隐含狄利克雷分布模型，主题数预设为10，联合分布公式为：

其中：

α,β：均为狄利克雷分布

td_i,D:均为多项式分布

td_i：从α中取样生成训练集文档i的金融主题分布；

D：从β中取样生成金融主题t_i,j的词语分布；

t_i,j：从主题分布td_i中取样生成训练集文档i第j个词的金融主题；

w_i,j：从词语分布D中采样生成的词汇。

例如，设金融新闻文本集中主题模型的主题个数为10，以下是其中的2个模型：

主题模型一：

0.014*"quarter"+0.010*"year"+0.009*"oper"+0.008*"million"+0.007*"go"+0.007*"growth"+0.007*"expect"+0.006*"increas"+0.006*"think"+0.006*"sale"

主题模型二：

0.009*"continu"+0.008*"think"+0.008*"see"+0.008*"quarter"+0.007*"year"+0.007*"product"+0.007*"market"+0.006*"growth"+0.006*"sale"+0.006*"go"

在获得模型后，我们为每篇金融新闻文本进行主题概率打分，为金融新闻文本集主题个数n设立阈值β，并统计此文档的主题个数N。

譬如，金融新闻文本集中某篇金融新闻文本的主题模型得分：

分数:0.596898078918457主题:0.008*"market"+0.007*"growth"+0.007*"go"+0.007*"think"+0.006*"see"

分数:0.3438090980052948主题:0.011*"price"+0.010*"share"+0.008*"earn"+0.007*"year"+0.006*"author"

分数:0.04699835553765297主题:0.012*"revenu"+0.010*"growth"+0.010*"increas"+0.008*"oper"+0.008*”continu"

此举例的金融新闻文本有n＝3个主题，假设阈值β＝0.05,那么这篇金融新闻文本最终的主题个数为N＝2。我们统计整个金融新闻文本集中的每篇金融新闻文本的主题个数，然后用于评估。

优选地，所述概率模型训练模块还包括过滤器单元，可以使主题分类与提取更鲜明，所述过滤器单元，用于删除所述概率模型词典中词频小于特定数目的关键词，或提取词频大于特定百分比的关键词，或提取特定数目的关键词。

优选地，所述装置还包括用户行为分析模块和匹配模块，

所述新闻推荐列表生成单元，用于通过推送模型计算新抓取的每个金融新闻文本的热度值，如果该热度值大于设定的阀值，则将该新抓取的新闻文本列入准备向用户推荐的新闻推荐列表中，并存储在所述新闻数据库中，以便推荐给用户。

具体地，在一些可能的实施例中，新闻推荐列表生成单元可以通过如下推送模型对新抓取的金融新闻文本热度进行计算：

其中：

λ：超参数，表示元数据分析结果、多元词典、概率模型三个参数的权重

γ：超参数，多元词典中的权重

θ：元数据分析结果的权重、概率主题的权重

Φ:多元词典的权重、命名实体关键词序列的权重、热度值的权重

优选地，所述金融新闻展示模块包括：过滤单元；

综上所述，与现有技术相比，本发明提供了一种基于文本的新闻重要性评估方法、装置及电子设备，本发明通过自然语言处理和神经网络得到包含金融行业关键词的多元词典，动态词典和静态词典结合，实时更新关键词词典。使用各类关键词获取的流水线动态提取重要新闻价值评估的特征项，赋予各特征项不同权重，对金融类新闻进行重要性标定。此外，基于关键词热度搜索机制获取关键词的热度用于打分。赋予各特征项不同权重，对金融类新闻进行重要性标定。实现了对新闻文本的动态评估，大大提高了评估的准确度。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种基于关键词热度的金融新闻推送装置，其特征在于，所述装置设有下述组成部件：新闻抓取模块、预处理模块、元数据分析模块、关键词排序模块、概率模型训练模块、金融新闻推送模块、金融新闻展示模块，其中：

2.根据权利要求1所述的装置，其特征在于：所述预处理模块的处理操作包括但不限于：将字符序列转换为小写字符、选用特定长度的单词、删除非法字符、删除数字、删除停用词、词干提取和词性还原。

3.根据权利要求2所述的装置，其特征在于：所述元数据分析模块包括元数据序列获取单元、元数据分析单元；

4.根据权利要求2所述的装置，其特征在于：所述关键词排序模块包括多元词典生成单元、冗余删除单元、关键词排序单元；

5.根据根据权利要求2所述的装置，其特征在于：所述概率模型训练模块包括概率模型词典生成单元、概率模型生成单元、主题概率预测单元；

6.根据根据权利要求5所述的装置，其特征在于：所述概率模型训练模块还包括过滤器单元，所述过滤器单元，用于删除所述概率模型词典中词频小于特定数目的关键词，或提取词频大于特定百分比的关键词，或提取特定数目的关键词。

7.根据权利要求1所述的装置，其特征在于，所述装置还包括用户行为分析模块和匹配模块，

8.根据权利要求7所述的装置，其特征在于，所述用户行为分析模块包括用户行为获取单元、用户模型构建单元；

9.根据权利要求1所述的装置，其特征在于，所述金融新闻推送模块包括推送模型生成单元、新闻推荐列表生成单元；

10.根据权利要求1所述的装置，其特征在于，所述金融新闻展示模块包括：过滤单元；