CN113190682A

CN113190682A - 基于树模型的事件影响度获取方法、装置及计算机设备

Info

Publication number: CN113190682A
Application number: CN202110737088.5A
Authority: CN
Inventors: 周骏红; 陈一峰; 彭琛
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-07-30
Anticipated expiration: 2041-06-30
Also published as: CN113190682B; WO2023273303A1

Abstract

本发明公开了基于树模型的事件影响度获取方法、装置、计算机设备及存储介质，涉及人工智能技术，先是根据获取的文本数据进行事件类型判断得到事件分类结果，之后结合事件分类结果和企业基本面信息输入至随机森林模型判断事件影响程度，最后将文本数据对应的事件影响度参数及未推送文本数据集中每一个未推送文本数据对应的事件影响度参数根据预设的排序策略进行影响度参数排序而得到排序结果。实现了基于随机森林模型和事件核心数据集快速确定事件的事件影响度参数，并基于各文本数据的事件影响度参数进行排序以筛选出重要文本数据，降低了文本数据的推送量，能有效提高用户的查看效率。

Description

基于树模型的事件影响度获取方法、装置及计算机设备

技术领域

本发明涉及人工智能的智能决策技术领域，尤其涉及一种基于树模型的事件影响度获取方法、装置、计算机设备及存储介质。

背景技术

目前，在金融投资领域，事件分析是重要技术手段，例如股价短期波动主要源于近期事件影响。常见的各大金融投资软件都有提供事件预警功能，例如同花顺、东方财富、及各券商APP等。

针对用户所关注的上市企业或是所有上市企业，金融投资软件上均可进行相关上市企业的新闻信息推送，以供用户查看和参考。目前的新闻信息推送方式是只要有与该上市企业相关的新闻信息，都会推送至用户进行查看，不仅需要用户花费大量的时间去查看推送信息导致降低了获取信息的效率，而且用户需要根据经验主观的判断这些新闻信息的重要程度而降低了用户获取重要信息的效率。

发明内容

本发明实施例提供了一种基于树模型的事件影响度获取方法、装置、计算机设备及存储介质，旨在解决现有技术中将关注对象的所有新闻均推送至用户进行查看，用户逐一查看不仅效率低下，而且降低了用户获取重要信息的效率的问题。

第一方面，本发明实施例提供了一种基于树模型的事件影响度获取方法，其包括：

若检测到文本数据，通过对所述文本数据进行事件类型分类，得到与所述文本数据对应的事件分类结果；

获取所述文本数据所相应的文本发送方，在确定所述文本发送方的可信度超出预设的可信度阈值时，获取所述文本数据对应的事件分类结果，并获取所述文本数据所对应相关公司主体名称的公司基本面数据，由所述事件分类结果和所述公司基本面数据组成得到事件核心数据集；其中，所述公司基本面数据包括公司财务指标值和公司估值指标值；

调用已训练的随机森林模型，将所述事件核心数据集输入至所述随机森林模型中，得到与所述事件核心数据集对应的事件影响度参数，并将所述事件核心数据集对应的事件影响度参数存储至本地；

在确定未检测到另一文本数据时，获取本地已存储的未推送文本数据集，以及所述未推送文本数据集中每一个未推送文本数据对应的事件影响度参数；其中，所述未推送文本数据集对应的事件相关公司主体名称与所述文本数据对应的事件相关公司主体名称相同；

将所述文本数据对应的事件影响度参数及所述未推送文本数据集中每一个未推送文本数据对应的事件影响度参数根据预设的排序策略进行影响度参数排序，得到排序结果；以及

获取所述排序结果中排名值未超出预设的排名阈值的各事件影响度参数分别对应的文本数据，组成待推送文本数据集。

第二方面，本发明实施例提供了一种基于树模型的事件影响度获取装置，其包括：

事件类型分类单元，用于若检测到文本数据，通过对所述文本数据进行事件类型分类，得到与所述文本数据对应的事件分类结果；

事件核心数据集获取单元，用于获取所述文本数据所相应的文本发送方，在确定所述文本发送方的可信度超出预设的可信度阈值时，获取所述文本数据对应的事件分类结果，并获取所述文本数据所对应相关公司主体名称的公司基本面数据，由所述事件分类结果和所述公司基本面数据组成得到事件核心数据集；其中，所述公司基本面数据包括公司财务指标值和公司估值指标值；

事件影响度参数计算单元，用于调用已训练的随机森林模型，将所述事件核心数据集输入至所述随机森林模型中，得到与所述事件核心数据集对应的事件影响度参数，并将所述事件核心数据集对应的事件影响度参数存储至本地；

未推送文本获取单元，用于在确定未检测到另一文本数据时，获取本地已存储的未推送文本数据集，以及所述未推送文本数据集中每一个未推送文本数据对应的事件影响度参数；其中，所述未推送文本数据集对应的事件相关公司主体名称与所述文本数据对应的事件相关公司主体名称相同；

影响度排序单元，用于将所述文本数据对应的事件影响度参数及所述未推送文本数据集中每一个未推送文本数据对应的事件影响度参数根据预设的排序策略进行影响度参数排序，得到排序结果；以及

待推送文本获取单元，用于获取所述排序结果中排名值未超出预设的排名阈值的各事件影响度参数分别对应的文本数据，组成待推送文本数据集。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的基于树模型的事件影响度获取方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于树模型的事件影响度获取方法。

本发明实施例提供了一种基于树模型的事件影响度获取方法、装置、计算机设备及存储介质，先是根据获取的文本数据进行事件类型判断得到事件分类结果，之后结合事件分类结果和企业基本面信息输入至随机森林模型判断事件影响程度，最后将文本数据对应的事件影响度参数及未推送文本数据集中每一个未推送文本数据对应的事件影响度参数根据预设的排序策略进行影响度参数排序而得到排序结果。实现了基于随机森林模型和事件核心数据集快速确定事件的事件影响度参数，并基于各文本数据的事件影响度参数进行排序以筛选出重要文本数据，降低了文本数据的推送量，能有效提高用户的查看效率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于树模型的事件影响度获取方法的应用场景示意图；

图2为本发明实施例提供的基于树模型的事件影响度获取方法的流程示意图；

图3为本发明实施例提供的基于树模型的事件影响度获取方法的子流程示意图；

图4为本发明实施例提供的基于树模型的事件影响度获取装置的示意性框图；

图5为本发明实施例提供的基于树模型的事件影响度获取装置的子单元示意性框图；

图6为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本发明实施例提供的基于树模型的事件影响度获取方法的应用场景示意图；图2为本发明实施例提供的基于树模型的事件影响度获取方法的流程示意图，该基于树模型的事件影响度获取方法应用于服务器中，该方法通过安装于服务器中的应用软件进行执行。

如图2所示，该方法包括步骤S101~S107。

S101、若检测到文本数据，通过对所述文本数据进行事件类型分类，得到与所述文本数据对应的事件分类结果。

在本实施例中，为了更清楚的了解本申请的技术方案，下面对所涉及的执行主体进行详细介绍。本申请是在服务器的角度描述技术方案。

服务器，其可以定时或者按预设的数据采集周期去目标服务器上采集企业新闻舆情文本或者是企业公告文本（目标服务器可以是财经网站、证券网站等对应的服务器，目标服务器可以及时的更新跟一些公司相关的企业新闻舆情或是企业公告）。当从目标服务器采集到一些公司相关的企业新闻舆情或是企业公告后，可以分析和计算公司相关的企业新闻舆情或是企业公告对应的事件影响度。将多个企业新闻舆情或是企业公告根据事件影响度进行排序后，有选择的将比较重要的企业新闻舆情或是企业公告推送至目标接收终端。

目标接收终端，其是用户使用的智能终端（如智能手机、平板电脑、笔记本电脑等），在目标接收终端安装了金融投资软件，并设定了关注的企业。这样只要服务器中采集到所关注企业的重要企业新闻舆情或是企业公告，会及时的推送至目标接收终端以供用户查看。

目标服务器，其可以是财经网站、证券网站等对应的多个服务器，目标服务器可以及时的更新跟一些公司相关的企业新闻舆情或是企业公告。服务器可以定时或者按预设的数据采集周期从目标服务器上采集企业新闻舆情文本或者是企业公告文本。

其中，当服务器检测到从目标服务器获取到的文本数据时，需对文本数据进行事件类型分类，判断这一文本数据对应何种事件类型（例如是股东增持事件、股东减持事件、投资成立子公司事件等），从而进一步根据事件分类结果和其他参数共同分析事件紧急度。

在一实施例中，如图3所示，步骤S101包括：

S1011、获取所述文本数据对应的来源类型，判断所述文本数据对应的来源类型是企业新闻舆情文本或者是企业公告文本；

S1012、若所述文本数据对应的来源类型对应的是企业新闻舆情文本，通过信息抽取获取所述文本数据对应的事件核心信息集；其中，所述事件核心信息集中至少包括事件相关公司主体名称、事件内容关键词集、事件发生时间、事件相关人员清单、文本数据来源信息；

S1013、调用预先训练的事件分类模型，将所述事件核心信息集输入至所述事件分类模型中，得到与所述文本数据对应的事件分类结果；

S1014、若所述文本数据对应的来源类型对应的是企业公告文本，通过获取所述企业公告文本的标题、正文文本和表格信息，得到与所述文本数据对应的事件分类结果。

在本实施例中，当服务器检测到文本数据，表示某一目标服务器上更新了某一企业相关的企业新闻舆情或是企业公告，此时服务器及时的将这一文本数据采集并保存在本地第一存储区域（在本地第一存储区域中，专用于缓存从目标服务器采集得到的文本数据，而且本地第一存储区域中存储的文本数据此时都还未进行事件影响度的分析和计算）。

之后按照文本数据存储至本地第一存储区域中的存储时间的先后顺序，依次取出文本数据，将当前取出的文本数据存储至本地第二存储区域并从本地第一存储区域删除该取出的文本数据，此时对取出的文本数据进行数据解析，判断其对应的来源类型。

在判断文本数据对应的来源类型时，可以获取文本数据对应的正文内容并判断正文内容是否包括公告编号这一关键词，若文本数据对应的正文内容包括公告编号对应的关键词，判定所述文本数据对应的来源类型是企业公告文本；若文本数据对应的正文内容不包括公告编号对应的关键词，判定所述文本数据对应的来源类型是企业新闻舆情。在判断文本数据的来源类型时，除了可以通过公告编号这一关键词来判断，还可以通过以下列举的另外几种方式：

A1）获取文本数据的文件名称来判断，一般公司公告的文件名称是“XXX公司关于YYY事项的公告”或“XXX公司关于ZZZ事项的报告”，若文本数据的文件名称中包括公告或报告等关键词，也可以判定文本数据的来源类型为企业公告文本。

A2）获取文本数据的文件类型来判断，一般公司公告的文件后缀是pdf，若文本数据的文件类型是PDF文件，也可以判定文本数据的来源类型为企业公告文本。

A3）获取文本数据的文本内容中是否包括公章来判断，一般公司的公告在文件的末尾处（一般是最后一页）加盖公章，此时可以通过图像识别模型识别文件的最后一页的内容，并判断是否提取有圆形封闭轮廓，若提取有圆形封闭轮廓表示文本末尾处有公章，也可以判定文本数据的来源类型为企业公告文本。

若所述文本数据对应的来源类型对应的是企业新闻舆情文本，表示该文本数据是一些新闻媒体等机构编辑并发布的新闻资讯，此时为了更加快速的判断这一文本数据对应的事件分类结果，需要先提取文本数据对应的时间核心信息集，具体所采用的方式是信息抽取方法。信息抽取方法（Information Extraction）可用于从自然语言文本中，抽取出特定的事件或事实信息。这些信息通常包括实体（entity）、关系（relation）、事件（event）。信息抽取主要包括三个子任务：关系抽取、命名实体识别、事件抽取。

在一实施例中，步骤S1012包括：

通过实体抽取获取所述文本数据对应的实体识别结果；

通过关系抽取在所述文本数据中获取所述实体识别结果中各实体之间的关系，得到三元组提取结果；

通过事件抽取在所述文本数据中获取所述实体识别结果中各实体之间的多元关系，得到事件抽取结果；

由所述实体识别结果、三元组提取结果及事件抽取结果组成事件核心信息集。

在本实施例中，与自动摘要相比，信息抽取更有目的性，并能将找到的信息以一定的框架展示。具体的，信息抽取主要包括三个子任务：

1）实体抽取与链指：也就是命名实体识别；

2）关系抽取：通常指的是三元组(triple)抽取，主要用于抽取实体间的关系；

3）事件抽取：相当于一种多元关系的抽取。

在进行关系抽取时，需要先完成实体抽取与链指，在识别出句子中的关键实体后，还需要抽取两个实体或多个实体之间的语义关系。语义关系通常用于连接两个实体，并与实体一起表达文本的主要含义。常见的关系抽取结果可以用SPO结构（即主谓宾结构）的三元组来表示，即 (Subject, Predication, Object)，如X的爸爸是Y，对应提取的三元组表示为（X，爸爸，Y）。

其中，通过关系抽取在所述文本数据中获取所述实体识别结果中各实体之间的关系，得到三元组提取结果时，可以采用卷积神经网络抽取实体之间的关系，在该卷积神经网络中包括查找表（即Look-up tables）、卷积层（即Convolutional layer）、池化层（即Pooling layer）和全连接层（即Classifier）。

查找表（Look-up tables）中包括 word embedding 层（即词嵌入层）和 positionembedding 层（即位置嵌入层）两个部分，word embedding 为预训练得到，而 positionembedding 则随机初始化，两者均参与训练。对于输入句子长度，将其限定在两个实体可能的最大长度的范围内，假设句子长度为 n，用 i−i₁表示第i个词距离第一个实体的距离，用i−i₂表示第i个词距离第二个实体的距离，则 position embedding 层的维度为(2n−1)×m_d，其中m_d 为位置向量的维度。假设句子中第 i 个词的词向量为e_i，位置向量为 d_i1 和d_i2，则该词的词表征为 x_i=[e_i;d_i1;d_i2]。

在卷积层中，可以借鉴TextCNN （即文本卷积神经网络）的模型结构，通过设计多个不同宽度的卷积核来抽取不同粒度大小的特征来提升模型性能。在池化层中采用最大值池化操作，用于抽取最重要的特征。在全连接层中则采用softmax这一激活函数，同时还使用了 dropout 和L2 正则化策略。

当完成了实体抽取和关系抽取后还需进行事件抽取，事件抽取任务总体可以分为两个大类：元事件抽取和主题事件抽取。元事件表示一个动作的发生或状态的变化，往往由动词驱动，也可以由能表示动作的名词等其他词性的词来触发，它包括参与该动作行为的主要成分 ( 如时间、地点、人物等) 。主题事件包括一类核心事件或活动以及所有与之直接相关的事件和活动，可以由多个元事件片段组成。

其中，元事件抽取采用基于机器学习的方式抽取，基于机器学习的元事件抽取，借鉴了文本分类的思想，将事件类别及事件元素的识别转化成为分类问题，其核心在于分类器的构造和特征的选择。对元事件的识别主要包括事件类别的识别与分类以及事件元素识别两大核心任务。例如，可在事件抽取中引入最大熵模型用于事件元素的识别，实现了对人事管理事件的抽取。

主题事件采用基于本体的方式抽取，基于本体的主题事件抽取一般根据本体所描述的概念、关系、层次结构、实例等来抽取待抽取文本中所包含的侧面事件及相关实体信息，主要分为3个步骤：领域本体的构建，这是后续工作的基础；基于领域本体的文本内容的自动语义标注；基于语义标注的事件抽取。

完成了对文本数据的信息抽取后，即可得到所述文本数据对应的事件核心信息集；其中，所述事件核心信息集中至少包括事件相关公司主体名称（也即公司名称）、事件内容关键词集（也即公司新闻的若干个核心关键词）、事件发生时间、事件相关人员清单、文本数据来源信息（也即新闻的初始编辑和发送来源）。

当完成了对文本数据的信息抽取得到了事件核心信息集后，为了对事件类型进行快速划分，此时可以调用服务器本地预先训练的事件分类模型。更具体的，该事件分类模型是深度神经网络，通过将所述事件核心信息集中事件内容关键词集对应的语义向量作为深度神经网络的输入，即可得到与所述文本数据对应的事件分类结果。

在一实施例中，步骤S1013包括：

获取所述事件核心信息集中的事件内容关键词集，由事件内容关键词集对应的各事件内容关键词的词向量进行加权运算，获取与所述事件内容关键词集对应的事件语义向量；

将所述事件语义向量输入至所调用的事件分类模型进行运算，得到与所述文本数据对应的事件分类结果。

例如，所述事件核心信息集中事件内容关键词集中包括“增持”、“5%”这些核心关键词，获取这些核心关键词对应的词向量各自对应的权重值后，由这些核心关键词对应的词向量乘以对应的权重值后相加，得到对应的事件语义向量。将所述事件语义向量作为所述事件分类模型的输入进行运算，即可得到对应的事件分类结果。上述举例中，所对应的事件分类结果是“公司增持”的概率最大。通过上述方式进行事件类型的分类时，由于充分考虑了事件的核心关键词，故分类结果是极为准确的。

若所述文本数据对应的来源类型对应的是企业公告文本，表示该文本数据是公司自行编辑审核后再上传至证监会网站，再由目标服务器从证监会网站上采集并转载得到。由于企业公告文本一般是有统一的模板，故可以快速的通过OCR技术（即光学字符识别技术）获取所述文本数据对应的标题、正文文本以及表格信息。此时先可以通过企业公告文本的标题判断是否能确定事件分类结果，若无法通过标题确定事件分类结果之后可以再通过正文文本进行关键词抽取并输入至事件分类模型的方式确定事件分类结果。

S102、获取所述文本数据所相应的文本发送方，在确定所述文本发送方的可信度超出预设的可信度阈值时，获取所述文本数据对应的事件分类结果，并获取所述文本数据所对应相关公司主体名称的公司基本面数据，由所述事件分类结果和所述公司基本面数据组成得到事件核心数据集；其中，所述公司基本面数据包括公司财务指标值和公司估值指标值。

在本实施例中，当完成了事件类型的分类后，为了避免这些文本数据是一些非可靠媒体（如有发假新闻前科历史的新闻媒体等）发出，此时可以先获取所述文本数据来源信息所相应文本发送方。在服务器的本地可以预先设置一个动态更新的文本发送方置信度清单，在该文本发送方置信度清单至少又设置两个子清单，分别是文本发送方置信度白名单和文本发送方置信度黑名单。

在文本发送方置信度黑名单中存储的都是一些有发假新闻前科历史的新闻媒体的发送方名称及各发送方名称对应的当前置信度，在文本发送方置信度黑名单中的当前置信度都是等于或小于预设的可信度阈值。在文本发送方置信度白名单中存储的都是一些没有发假新闻前科历史的新闻媒体的发送方名称及各发送方名称对应的当前置信度，在文本发送方置信度白名单中的当前置信度都是大于可信度阈值。文本发送方置信度黑名单中的文本数据是假新闻的嫌疑较大，一般不可信；文本发送方置信度白名单中的文本数据是假新闻的嫌疑极小，一般可信。通过发送发对应机构的可信度判断，可以初步筛选出一些假新闻不再进行后续的数据处理，提高了数据处理的可信度。

具体实施时，还可以通过采集该文本发送方的5-10篇历史文本数据，以及这5-10篇历史文本数据每一历史文本分别对应的评论文本集。之后，通过贝叶斯模型判断评论文本集中每一评论文本是正面评论、中性评论或是负面评论。此时可以统计评论文本中对应的负面文本总个数，以及上述5-10篇历史文本数据中评论文本集中的评论总条数，由可信度=1-负面文本总个数/评论总条数来计算发送方的可信度。

当所述文本数据来源信息所相应文本发送方的可信度超出所述可信度阈值，表示这一文本数据是可信机构发出，可以进行后一步的事件紧急度分析和计算。此时，可以由所述文本数据对应的事件分类结果以及该公司对应的公司基本面数据组成模型输入数据进行后一步的事件紧急度分析和计算。

其中，由于结合了事件分类结果和所述公司基本面数据而组成事件核心数据集，这样在分析和计算事件紧急度时参考了更多维度的参数，计算结果更加准确。

在一实施例中，在所述获取所述文本数据所相应的文本发送方之后，在所述在确定所述文本发送方的可信度超出预设的可信度阈值时之前还包括：

判断所述文本发送方的可信度是否超出预设的可信度阈值；

在所述判断所述文本发送方的可信度是否超出预设的可信度阈值之后，还包括：

若所述文本发送方的可信度未超出所述可信度阈值，将所述文本数据增加不可信文本标签，并发送至本地第三存储区域进行存储。

在本实施例中，当所述文本数据来源信息所相应文本发送方的可信度未超出所述可信度阈值，表示这一文本数据是非可信机构发出。此时可以将这一类的文本数据进行收集，以用于训练非可信文本数据的识别模型。

S103、调用已训练的随机森林模型，将所述事件核心数据集输入至所述随机森林模型中，得到与所述事件核心数据集对应的事件影响度参数，并将所述事件核心数据集对应的事件影响度参数存储至本地。

在本实施例中，当获取了与所述文本数据对应的事件核心数据集后，可以将该事件核心数据集输入至预先训练的随机森林模型，得到与所述事件核心数据集对应的事件影响度参数。例如，所得到的事件核心数据集是{公司增持,公司资产负载率为10%，应收账款周转率90%，……，公司估值1000亿元}，这样当将事件核心数据集输入至包括多个决策树的随机森林模型，即可得到与所述事件核心数据集对应的事件影响度参数。如上述事件核心数据集是{公司增持,公司资产负载率为10%，应收账款周转率90%，……，公司估值1000亿元}输入至随机森林模型，得到事件影响度参数为+5%（+5%对应事件影响度等级为一般正面）。

此时，还可以将事件影响度参数根据其对应的具体取值转换为事件影响度等级，例如5%以上对应的事件影响度等级是重大正面，（0，5%]对应的事件影响度等级是一般正面，0对应的事件影响度等级是中性，[-5%,0）对应的事件影响度等级是一般负面，-5%以下对应的事件影响度等级是重大负面。

在一实施例中，步骤S103之前还包括：

获取历史事件核心数据集及对应的历史事件影响度参数组成原始训练集，通过原始训练集对待训练的随机森林模型进行模型训练，得到随机森林模型。

在本实施例中，随机森林属于集成学习（Ensemble Learning）中的bagging算法（即套袋法），bagging算法的具体过程如下：

A）从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本（有放回的抽样）。共进行k轮抽取，得到k个训练集。（k个训练集之间是相互独立的）

B）每次使用一个训练集得到一个模型，k个训练集共得到k个模型。

C）对分类问题：将上步得到的k个模型采用投票的方式得到分类结果；对回归问题，计算上述模型的均值作为最后的结果。

随机森立中的每棵树的按照如下规则生成：

1）如果训练集大小为N，对于每棵树而言，随机且有放回地从训练集中的抽取N个训练样本（这种采样方式称为bootstrap sample方法），作为该树的训练集；

2）如果每个样本的特征维度为M，指定一个常数m<<M，随机地从M个特征中选取m个特征子集，每次树进行分裂时，从这m个特征中选择最优的；

3）每棵树都尽最大程度的生长，并且没有剪枝过程。

当完成了上述步骤后，即基于当前采集得到的文本数据获取了事件影响度参数，此时还需判断服务器中是否采集到新的文本数据从而重复执行步骤S101-S103，直至得到服务器中本地第一存储区域中所有采集得到文本数据的事件影响度参数后结束事件影响度参数的计算流程。

在一实施例中，如图2所示，步骤S103之后还包括：

S104、判断是否检测到另一文本数据。

在本实施例中，是在服务器中本地第一存储区域中判断是否检测到另一文本数据（该另一文本数据区域是为了区分步骤S101中检测到的文本数据，也即若服务器的本地第一存储区域中先后采集到了多条文本数据后，此时通过步骤S101-S104计算了第一条文本数据的事件影响度参数后，还需判断服务器的本地第一存储区域中是否还存在别的文本数据仍需计算事件影响度参数），以本地第一存储区域是否为空为判断条件从而判断是否计算完本地第一存储区域中所有采集得到文本数据的事件影响度参数，通过这一排查，可以确保计算过程的完整性。

S105、在确定未检测到另一文本数据时，获取本地已存储的未推送文本数据集，以及所述未推送文本数据集中每一个未推送文本数据对应的事件影响度参数；其中，所述未推送文本数据集对应的事件相关公司主体名称与所述文本数据对应的事件相关公司主体名称相同。

在本实施例中，在服务器中本地第一存储区域中未检测到另一文本数据，表示所有当前已采集的文本数据都已计算得到事件影响度参数，此时可以获取本地已存储的未推送文本数据集，以及所述未推送文本数据集中每一个未推送文本数据对应的事件影响度参数。在服务器中存在有未推送文本数据集是因为服务器并不是每计算完一个文本数据的事件影响度参数后就确定是否推送，而是先缓存在服务器中，等到满足服务器的文本推送时间策略（也可以理解为文本推送时间条件）后再进行推送，例如是服务器每1个小时进行一次推送。通过这一方式，可以灵活控制推送消息的频率。

S106、将所述文本数据对应的事件影响度参数及所述未推送文本数据集中每一个未推送文本数据对应的事件影响度参数根据预设的排序策略进行影响度参数排序，得到排序结果。

在本实施例中，此时可以将排序策略设置为去掉事件影响度参数为0的文本数据后其他文本数据根据事件影响度参数对应的事件影响度等级按以下顺序排序重大负面>重大正面>一般负面>一般正面，这样可以快速的得到排序结果。

S107、获取所述排序结果中排名值未超出预设的排名阈值的各事件影响度参数分别对应的文本数据，组成待推送文本数据集。

在本实施例中，当得到了排序结果后，例如将排名阈值设置为3，则选定排序结果中排名前3的各事件影响度参数分别对应的文本数据组成待推送文本数据集，从而对用户推送影响度靠前的三条资讯，节省用户查看时间，这样避免了查看所有事件影响度等级的文本数据。

在一实施例中，步骤S104之后还包括：

若检测到另一文本数据，将另一文本数据更新为文本数据，返回执行所述若检测到文本数据，通过对所述文本数据进行事件类型分类，得到与所述文本数据对应的事件分类结果的步骤。

在本实施例中，在服务器中本地第一存储区域中检测到另一文本数据，执行步骤S101-S103，直至得到服务器中本地第一存储区域中所有采集得到文本数据的事件影响度参数后结束事件影响度参数的计算流程。

在一实施例中，步骤S107之后还包括：

若当前系统时间满足预设的文本推送时间策略，获取所述待推送文本数据集对应的事件相关公司主体名称及事件相关公司主体名称对应的目标用户清单，将所述待推送文本数据集发送至所述目标用户清单分别对应的目标接收终端。

在本实施例中，当在服务器中获取了待推送文本数据集后，并不是立即进行推送，而是先判断是否满足预设的文本推送时间策略，例如是服务器每1个小时进行一次推送，此时若当前系统时间距上一次推送时间的时间间隔为1小时，是可以先获取所述待推送文本数据集对应的事件相关公司主体名称及事件相关公司主体名称对应的目标用户清单，将所述待推送文本数据集发送至所述目标用户清单分别对应的目标接收终端。通过这一方式，可以有针对性的将筛选的重要信息发送至对该公司有添加关注的目标用户，以及时的提示目标用户有针对性的快速查看。

该方法实现了基于随机森林模型和事件核心数据集快速确定事件的事件影响度参数，并基于各文本数据的事件影响度参数进行排序以筛选出重要文本数据，降低了文本数据的推送量，能有效提高用户的查看效率。

本发明实施例还提供一种基于树模型的事件影响度获取装置，该基于树模型的事件影响度获取装置用于执行前述基于树模型的事件影响度获取方法的任一实施例。具体地，请参阅图4，图4是本发明实施例提供的基于树模型的事件影响度获取装置的示意性框图。该基于树模型的事件影响度获取装置100可以配置于服务器中。

如图4所示，基于树模型的事件影响度获取装置100包括：事件类型分类单元101、事件核心数据集获取单元102、事件影响度参数计算单元103、文本检测单元104、未推送文本获取单元105、影响度排序单元106、待推送文本获取单元107。

事件类型分类单元101，用于若检测到文本数据，通过对所述文本数据进行事件类型分类，得到与所述文本数据对应的事件分类结果。

在本实施例中，当服务器检测到从目标服务器获取到的文本数据时，需对文本数据进行事件类型分类，判断这一文本数据对应何种事件类型（例如是股东增持事件、股东减持事件、投资成立子公司事件等），从而进一步根据事件分类结果和其他参数共同分析事件紧急度。

在一实施例中，如图5所示，事件类型分类单元101包括：

来源类型判断单元1011，用于获取所述文本数据对应的来源类型，判断所述文本数据对应的来源类型是企业新闻舆情文本或者是企业公告文本；

事件核心信息集获取单元1012，用于若所述文本数据对应的来源类型对应的是企业新闻舆情文本，通过信息抽取获取所述文本数据对应的事件核心信息集；其中，所述事件核心信息集中至少包括事件相关公司主体名称、事件内容关键词集、事件发生时间、事件相关人员清单、文本数据来源信息；

第一事件分类单元1013，用于调用预先训练的事件分类模型，将所述事件核心信息集输入至所述事件分类模型中，得到与所述文本数据对应的事件分类结果；

第二事件分类单元1014，用于若所述文本数据对应的来源类型对应的是企业公告文本，通过获取所述企业公告文本的标题、正文文本和表格信息，得到与所述文本数据对应的事件分类结果。

B1）获取文本数据的文件名称来判断，一般公司公告的文件名称是“XXX公司关于YYY事项的公告”或“XXX公司关于ZZZ事项的报告”，若文本数据的文件名称中包括公告或报告等关键词，也可以判定文本数据的来源类型为企业公告文本。

B2）获取文本数据的文件类型来判断，一般公司公告的文件后缀是pdf，若文本数据的文件类型是PDF文件，也可以判定文本数据的来源类型为企业公告文本。

B3）获取文本数据的文本内容中是否包括公章来判断，一般公司的公告在文件的末尾处（一般是最后一页）加盖公章，此时可以通过图像识别模型识别文件的最后一页的内容，并判断是否提取有圆形封闭轮廓，若提取有圆形封闭轮廓表示文本末尾处有公章，也可以判定文本数据的来源类型为企业公告文本。

在一实施例中，事件核心信息集获取单元1012包括：

实体抽取单元，用于通过实体抽取获取所述文本数据对应的实体识别结果；

关系抽取单元，用于通过关系抽取在所述文本数据中获取所述实体识别结果中各实体之间的关系，得到三元组提取结果；

事件抽取单元，用于通过事件抽取在所述文本数据中获取所述实体识别结果中各实体之间的多元关系，得到事件抽取结果；

信息组合单元，用于由所述实体识别结果、三元组提取结果及事件抽取结果组成事件核心信息集。

在本实施例中，通过关系抽取在所述文本数据中获取所述实体识别结果中各实体之间的关系，得到三元组提取结果时，可以采用卷积神经网络抽取实体之间的关系，在该卷积神经网络中包括查找表（即Look-up tables）、卷积层（即Convolutional layer）、池化层（即Pooling layer）和全连接层（即Classifier）。

查找表（Look-up tables）中包括 word embedding 层（即词嵌入层）和 positionembedding 层（即位置嵌入层）两个部分，word embedding 为预训练得到，而 positionembedding 则随机初始化，两者均参与训练。对于输入句子长度，将其限定在两个实体可能的最大长度的范围内，假设句子长度为 n，用 i−i₁表示第i个词距离第一个实体的距离，用i−i₂表示第i个词距离第二个实体的距离，则 position embedding 层的维度为(2n−1)×m_d，其中m_d 为位置向量的维度。假设句子中第 i 个词的词向量为 e_i ，位置向量为 d_i1 和d_i2，则该词的词表征为 x_i=[e_i;d_i1;d_i2]。

在卷积层中，可以借鉴TextCNN （即文本卷积神经网络）的模型结构，通过设计多个不同宽度的卷积核来抽取不同粒度大小的特征来提升模型性能。在池化层中采用最大值池化操作，用于抽取最重要的特征。在全连接层中则采用softmax这一激活函数，同时还使用了 dropout 和L2正则化策略。

在一实施例中，第一事件分类单元1013包括：

事件语义向量获取单元，用于获取所述事件核心信息集中的事件内容关键词集，由事件内容关键词集对应的各事件内容关键词的词向量进行加权运算，获取与所述事件内容关键词集对应的事件语义向量；

第一分类运算单元，用于将所述事件语义向量输入至所调用的事件分类模型进行运算，得到与所述文本数据对应的事件分类结果。

事件核心数据集获取单元102，用于获取所述文本数据所相应的文本发送方，在确定所述文本发送方的可信度超出预设的可信度阈值时，获取所述文本数据对应的事件分类结果，并获取所述文本数据所对应相关公司主体名称的公司基本面数据，由所述事件分类结果和所述公司基本面数据组成得到事件核心数据集；其中，所述公司基本面数据包括公司财务指标值和公司估值指标值。

在一实施例中，基于树模型的事件影响度获取装置100还包括：

可信度判断单元，用于判断所述文本发送方的可信度是否超出预设的可信度阈值；

所述基于树模型的事件影响度获取装置100还包括：

标签增加单元，用于若所述文本发送方的可信度未超出所述可信度阈值，将所述文本数据增加不可信文本标签，并发送至本地第三存储区域进行存储。

事件影响度参数计算单元103，用于调用已训练的随机森林模型，将所述事件核心数据集输入至所述随机森林模型中，得到与所述事件核心数据集对应的事件影响度参数，并将所述事件核心数据集对应的事件影响度参数存储至本地。

随机森林模型训练单元，用于获取历史事件核心数据集及对应的历史事件影响度参数组成原始训练集，通过原始训练集对待训练的随机森林模型进行模型训练，得到随机森林模型。

在本实施例中，基于当前采集得到的文本数据获取了事件影响度参数，此时还需判断服务器中是否采集到新的文本数据从而重复执行步骤S101-S104，直至得到服务器中本地第一存储区域中所有采集得到文本数据的事件影响度参数后结束事件影响度参数的计算流程。

文本检测单元104，用于判断是否检测到另一文本数据。

在本实施例中，是在服务器中本地第一存储区域中判断是否检测到另一文本数据（该另一文本数据区域是为了区分事件类型分类单元101中检测到的文本数据，也即若服务器的本地第一存储区域中先后采集到了多条文本数据后，此时通过事件类型分类单元101、事件核心数据集获取单元102和事件影响度参数计算单元103所执行的操作计算了第一条文本数据的事件影响度参数后，还需判断服务器的本地第一存储区域中是否还存在别的文本数据仍需计算事件影响度参数），以本地第一存储区域是否为空为判断条件从而判断是否计算完本地第一存储区域中所有采集得到文本数据的事件影响度参数，通过这一排查，可以确保计算过程的完整性。

未推送文本获取单元105，用于在确定未检测到另一文本数据时，获取本地已存储的未推送文本数据集，以及所述未推送文本数据集中每一个未推送文本数据对应的事件影响度参数；其中，所述未推送文本数据集对应的事件相关公司主体名称与所述文本数据对应的事件相关公司主体名称相同。

影响度排序单元106，用于将所述文本数据对应的事件影响度参数及所述未推送文本数据集中每一个未推送文本数据对应的事件影响度参数根据预设的排序策略进行影响度参数排序，得到排序结果。

待推送文本获取单元107，用于获取所述排序结果中排名值未超出预设的排名阈值的各事件影响度参数分别对应的文本数据，组成待推送文本数据集。

文本数据更新单元，用于若检测到另一文本数据，将另一文本数据更新为文本数据，返回执行所述若检测到文本数据，通过对所述文本数据进行事件类型分类，得到与所述文本数据对应的事件分类结果的步骤。

在本实施例中，在服务器中本地第一存储区域中检测到另一文本数据，执行事件类型分类单元101、事件核心数据集获取单元102和事件影响度参数计算单元103对应执行的操作，直至得到服务器中本地第一存储区域中所有采集得到文本数据的事件影响度参数后结束事件影响度参数的计算流程。

目标用户推送单元，用于若当前系统时间满足预设的文本推送时间策略，获取所述待推送文本数据集对应的事件相关公司主体名称及事件相关公司主体名称对应的目标用户清单，将所述待推送文本数据集发送至所述目标用户清单分别对应的目标接收终端。

该装置实现了基于随机森林模型和事件核心数据集快速确定事件的事件影响度参数，并基于各文本数据的事件影响度参数进行排序以筛选出重要文本数据，降低了文本数据的推送量，能有效提高用户的查看效率。

上述基于树模型的事件影响度获取装置可以实现为计算机程序的形式，该计算机程序可以在如图6所示的计算机设备上运行。

请参阅图6，图6是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图6，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行基于树模型的事件影响度获取方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行基于树模型的事件影响度获取方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图6中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现本发明实施例公开的基于树模型的事件影响度获取方法。

本领域技术人员可以理解，图6中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图6所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元 (CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路 (Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本发明实施例公开的基于树模型的事件影响度获取方法。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备 ( 可以是个人计算机，服务器，或者网络设备等 ) 执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U 盘、移动硬盘、只读存储器 (ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于树模型的事件影响度获取方法，其特征在于，包括：

2.根据权利要求1所述的基于树模型的事件影响度获取方法，其特征在于，所述通过对所述文本数据进行事件类型分类，得到与所述文本数据对应的事件分类结果，包括：

获取所述文本数据对应的来源类型，判断所述文本数据对应的来源类型是企业新闻舆情文本或者是企业公告文本；

若所述文本数据对应的来源类型对应的是企业新闻舆情文本，通过信息抽取获取所述文本数据对应的事件核心信息集；其中，所述事件核心信息集中至少包括事件相关公司主体名称、事件内容关键词集、事件发生时间、事件相关人员清单、文本数据来源信息；

调用预先训练的事件分类模型，将所述事件核心信息集输入至所述事件分类模型中，得到与所述文本数据对应的事件分类结果；

若所述文本数据对应的来源类型对应的是企业公告文本，通过获取所述企业公告文本的标题、正文文本和表格信息，得到与所述文本数据对应的事件分类结果。

3.根据权利要求2所述的基于树模型的事件影响度获取方法，其特征在于，所述通过信息抽取获取所述文本数据对应的事件核心信息集，包括：

通过实体抽取获取所述文本数据对应的实体识别结果；

4.根据权利要求2所述的基于树模型的事件影响度获取方法，其特征在于，所述将所述事件核心信息集输入至所述事件分类模型中，得到与所述文本数据对应的事件分类结果，包括：

5.根据权利要求1所述的基于树模型的事件影响度获取方法，其特征在于，所述调用已训练的随机森林模型，将所述事件核心数据集输入至所述随机森林模型中，得到与所述事件核心数据集对应的事件影响度参数，并将所述事件核心数据集对应的事件影响度参数存储至本地之前，还包括：

6.根据权利要求1所述的基于树模型的事件影响度获取方法，其特征在于，还包括：

7.根据权利要求1所述的基于树模型的事件影响度获取方法，其特征在于，所述获取所述排序结果中排名值未超出预设的排名阈值的各事件影响度参数分别对应的文本数据，组成待推送文本数据集之后，还包括：

8.一种基于树模型的事件影响度获取装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于树模型的事件影响度获取方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的基于树模型的事件影响度获取方法。