CN113689299B

CN113689299B - 新闻信息指数模型的构建方法及新闻信息分析方法

Info

Publication number: CN113689299B
Application number: CN202110506897.5A
Authority: CN
Inventors: 赵洋; 王愈; 陈龙; 包荣鑫; 王宇
Original assignee: Shenzhen Valueonline Technology Co ltd
Current assignee: Shenzhen Valueonline Technology Co ltd
Priority date: 2021-05-10
Filing date: 2021-05-10
Publication date: 2023-10-20
Anticipated expiration: 2041-05-10
Also published as: CN113689299A

Abstract

本申请适用于信息技术领域，提供了一种新闻信息指数模型的构建方法及新闻信息分析方法，新闻信息指数模型的构建方法包括：采集本行业内多个企业的历史新闻数据，所述历史新闻数据包括多条历史新闻信息，每条历史新闻信息具有数值化的情感倾向、信息来源和信息标签；根据单位时间内与每个企业关联的多条历史新闻信息的情感倾向、信息来源和信息标签，分别计算所述每个企业在每个单位时间内的信息分数；将所述每个企业在所述每个单位时间内的信息分数顺序排列，得到所述每个企业在历史时间段内的信息分数排名信息；基于所述信息分数排名信息和累积分布函数，构建本行业的新闻信息指数模型。采用本方法，可以提高新闻信息分析的准确性和全面性。

Description

新闻信息指数模型的构建方法及新闻信息分析方法

技术领域

本申请属于信息技术领域，特别是涉及一种新闻信息指数模型的构建方法及新闻信息分析方法。

背景技术

在新闻信息分析中，信息态势可以提供重要的参考作用。所谓信息态势，可以用于描述一段时间内新闻信息的倾向的走势。例如，可以采用新闻信息分类模型对每一天网络上的新闻信息进行分类，识别每一条新闻信息是正面信息、中性信息还是负面信息。如果正面信息偏多，信息得分就会相对更高；反之，信息得分就相对较低。但是，仅仅通过识别每天的新闻信息属于正面信息还是负面信息得出的信息态势，无法准确、全面地用于分析公司的具体新闻信息。

发明内容

有鉴于此，本申请实施例提供了一种新闻信息指数模型的构建方法及新闻信息分析方法，用以提高新闻信息分析的准确性和全面性。

本申请实施例的第一方面提供了一种新闻信息指数模型的构建方法，包括：

采集本行业内多个企业的历史新闻数据，所述历史新闻数据包括多条历史新闻信息，每条历史新闻信息具有数值化的情感倾向、信息来源和信息标签；

根据单位时间内与每个企业关联的多条历史信息信息的情感倾向、信息来源和信息标签，分别计算所述每个企业在每个单位时间内的信息分数；

将所述每个企业在所述每个单位时间内的信息分数顺序排列，得到所述每个企业在历史时间段内的信息分数排名信息；

基于所述信息分数排名信息和累积分布函数，构建本行业的新闻信息指数模型。

本申请实施例的第二方面提供了一种新闻信息分析方法，包括：

采集待处理的新闻数据，所述待处理的新闻数据包括多条新闻信息，每条新闻信息具有数值化的情感倾向、信息来源和信息标签；

根据数值化的所述情感倾向、所述信息来源和所述信息标签，计算所述待处理的新闻数据对应的当前信息分数；

根据所述当前信息分数和预先构建的本行业的新闻信息指数模型进行新闻信息分析；

其中，所述本行业的新闻信息指数模型通过如下步骤构建得到：

根据单位时间内与每个企业关联的多条历史新闻信息的情感倾向、信息来源和信息标签，分别计算所述每个企业在每个单位时间内的信息分数；

本申请实施例的第三方面提供了一种新闻信息指数模型的构建装置，包括：

采集模块，用于采集本行业内多个企业的历史新闻数据，所述历史新闻数据包括多条历史新闻信息，每条历史新闻信息具有数值化的情感倾向、信息来源和信息标签；

计算模块，用于根据单位时间内与每个企业关联的多条历史新闻信息的情感倾向、信息来源和信息标签，分别计算所述每个企业在每个单位时间内的信息分数；

排序模块，用于将所述每个企业在所述每个单位时间内的信息分数顺序排列，得到所述每个企业在历史时间段内的信息分数排名信息；

构建模块，用于基于所述信息分数排名信息和累积分布函数，构建本行业的新闻信息指数模型。

本申请实施例的第四方面提供了一种新闻信息分析装置，包括：

新闻数据采集模块，用于采集待处理的新闻数据，所述待处理的新闻数据包括多条新闻信息，每条新闻信息具有数值化的情感倾向、信息来源和信息标签；

当前信息分数计算模块，用于根据数值化的所述情感倾向、所述信息来源和所述信息标签，计算所述待处理的新闻数据对应的当前信息分数；

新闻信息分析模块，用于根据所述当前信息分数和预先构建的本行业的新闻信息指数模型进行新闻信息分析；

其中，所述本行业的新闻信息指数模型通过调用如下模块构建得到：

本申请实施例的第五方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面和/或第二方面所述的方法。

本申请实施例的第六方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面和/或第二方面所述的方法。

本申请实施例的第七方面提供了一种计算机程序产品，当所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述第一方面和/或第二方面所述的方法。

与现有技术相比，本申请实施例包括以下优点：

本申请实施例，通过将与企业相关的历史新闻信息的情感倾向、信息来源和信息标签等进行数值化处理，在此基础上，考虑各种情感倾向的新闻信息在新闻信息总量中的占比情况，从而可以基于新闻信息的多个因素计算得到企业在每个单位时间内的信息分数，保证信息分数的准确性；然后，又以企业所在行业，基于累积分布函数，构建出本行业的新闻信息指数模型，用于后续的新闻信息分析。采用本申请实施例提供的新闻信息指数模型构建方法和基于该模型实现的新闻信息分析方法，可以提高新闻信息分析的准确性和全面性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例的一种新闻信息指数模型的构建方法的步骤流程示意图；

图2是本申请一个实施例的一种新闻信息指数模型的构建方法中S102的实现流程示意图；

图3是本申请一个实施例的一种新闻信息分析方法的步骤流程示意图；

图4是本申请一个实施例的一种新闻信息指数模型的构建装置的示意图；

图5是本申请一个实施例的一种新闻信息分析装置的示意图；

图6是本申请一个实施例的一种终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域技术人员应当清楚，在没有这些具体细节的其他实施例中也可以实现本申请。在其他情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

现有技术中，基于新闻信息的情感倾向来进行的新闻信息分析往往只考虑分析当日各类倾向的新闻信息在全部新闻信息量中的占比情况，这种分析方式存在以下问题：

1、判断与企业相关的每条新闻信息的情感倾向是由情感分类模型决定的。一方面，情感分类模型存在的误差将会影响最终信息分数的计算；另一方面，每日的新闻信息的情感倾向存在偶然性，无法形成连续时间段的新闻信息态势分析数据。

2、不同企业的规模及影响力不同，统一按照各类倾向的新闻信息在全部新闻信息量中的占比情况来进行新闻信息分析，无法准确、全面地体现不同情感倾向的新闻信息对企业的影响。例如，对于同样是上市公司的企业A和企业B，若企业A的市值是企业B的10倍甚至更高，即便在同一天内，两家企业正面倾向、中性倾向及负面倾向的新闻信息数量均相同，最终对两家企业产生的影响也会完全不同。

3、计算信息分数往往需要将计算结果限制的一个特定的范围内，如0-100 之间。采用传统的归一化方法，这种处理方式仅仅考虑了信息分数本身，无法考虑当前信息分数在历史新闻数据中的排列位置，使得对于新闻信息的判断并不准确。例如，若某一行业的整体信息指数本身较低，如果不考虑历史排名，即便某一企业当前计算得到的信息分数能够排在本行业历史数据的前列，该信息分数对应的信息指数(public opinion index，POI)值也会非常低，无法准确地反映当前新闻信息的影响力。

有的行业信息指数本身较低，如果不考虑历史排名，即便公司当前信息得分排在当前行业历史数据的头部，计算的POI指数也会非常低，相反，会给它一个相对合理的值。

因此，针对上述问题，本申请实施例提供了一种新闻信息指数模型的构建方法，通过考虑一段时间内与本企业相关的新闻信息的情感倾向、信息来源等影响新闻信息态势的因素，并结合当日内具有正面倾向、中性倾向和负面倾向的新闻信息在当日新闻信息总量中的占比情况，以加权求和的方式计算得到本企业在每日内的信息分数。最终，又以本企业所在行业内的多个企业的信息分数，基于累积分布函数构建出本行业的新闻信息指数模型。在此基础上，本申请实施例还提供了一种新闻信息分析方法，当采集到待处理的新闻数据时，按照构建新闻信息指数模型时的相同方式，计算出待处理的新闻数据的信息得分，并结合新闻信息指数模型中的信息指数值，可以绘制出本企业的新闻信息态势，用于为本企业的新闻信息分析提供参考。

下面通过具体实施例来说明本申请的技术方案。

参照图1，示出了本申请一个实施例的一种新闻信息指数模型的构建方法的步骤流程示意图，具体可以包括如下步骤：

S101、采集本行业内多个企业的历史新闻数据，所述历史新闻数据包括多条历史新闻信息，每条历史新闻信息具有数值化的情感倾向、信息来源和信息标签。

需要说明的是，本方法可以以行业为单位，通过采集过去一段时间与本行业内多个企业相关的历史新闻数据，来构建新闻信息指数模型。数据采集的时间起止点以及涉及企业的数量可以根据实际情况确定，本申请实施例对此不作具体限定。例如，可以采集过去一年中与本行业内的全部企业相关的新闻数据进行处理。

在本申请实施例中，采集得到的历史新闻数据可以包括多条历史新闻信息，每条历史新闻信息可以包括该条新闻信息的数据编号、新闻信息具体内容、关联的企业名称、情感倾向、信息来源以及信息标签等等。其中，每条历史新闻信息的情感倾向、信息来源和信息标签等信息可以是经数值化处理后的一个具体的数值。

例如，对于情感倾向，可以设定正面情感倾向为1，中性情感倾向为0，负面情感倾向为-1。每条历史新闻信息的情感倾向可以由情感分类模型计算得到，由于采用情感分类模型对新闻信息的情感倾向进行分类属于实际应用中已较为成熟的一种技术手段，本申请实施例对此不再赘述。

又如，信息来源可以根据该条历史新闻信息的来源权威程度设定不同的数值，如(0，10]之间。一般地，数值越高，表示权威性也越高。

再如，对于信息标签，可以根据该条新闻信息的情感倾向将每条具有正面情感倾向的新闻信息的标签分数设定为1，而对于具有负面情感倾向的新闻信息，其标签分数可以设定为属于(0，2]之间，均值为1。其中，上述负面情感倾向的新闻信息可以预先根据设置的标签类型按照百分制进行打分，然后对其作归一化处理得到。

在本申请实施例的一种可能的实现方式中，部分具有负面情感倾向的新闻信息的标签类型及其分数可以如下所示：

'财务造假'：100；

'虚假宣传'：90；

'非法吸收公众存款'：90；

'立案调查'：90；

'IPO失败'：80；

'证券操纵'：80；

'违规买卖股票'：80；

'违规销售'：70；

'退市风险'：70；

'高层无法履职'：70；

'偷税漏税'：70；

'并购重组和再融资风险'：60；

'提保风险'：60；

'非标意见'：60；

'业绩下滑':50；

'高管变动'：50

...

其中，对每个标签类型的分数进行归一化处理可以采用简单的线性缩放，将其归一化至(0，2]之间。当然，也可以采用其他方式进行归一化处理，本申请实施例对此不作限定。

在按照前述示例对每条历史新闻信息中的部分信息进行数值化处理后，一条历史新闻信息的格式可以如表一所示。

表一，历史新闻信息格式：

S102、根据单位时间内与每个企业关联的多条历史新闻信息的情感倾向、信息来源和信息标签，分别计算所述每个企业在每个单位时间内的信息分数。

在本申请实施例中，单位时间可以是根据计算信息分数的具体需求所划分的时间段。例如，单位时间可以是一周、三天、两天或一天，本申请实施例对此不作限定。

以单位时间为一天为例，则在计算信息分数时，根据每日内采集到的新闻信息，可以计算得到每日的一个信息分数。

在具体实现中，对于已数值化的情感倾向、信息来源和信息标签等信息，可以预先为每一类信息配置一权重，然后通过加权求和的方式计算得到信息分数。

在本申请实施例的一种可能的实现方式中，参照图2，S102具体可以包括如下子步骤S1021-S1023：

S1021、分别根据目标单位时间内与目标企业关联的多条历史新闻信息的情感倾向、信息来源和信息标签，计算所述目标单位时间的平均信息得分。

在本申请实施例中，上述情感倾向包括正面情感倾向、中性情感倾向或负面情感倾向。情感倾向可以基于现有技术中的情感分类模型计算得到。上述目标单位时间可以是待计算信息分数的单位时间。以单位时间为一天为例，目标单位时间即是当前需要计算信息分数的那一天，例如，第d天。目标企业可以是本行业内多个企业中的任意一家企业，也就是当前需要计算在第d天的信息分数的企业。

在本申请实施例的一种可能的实现方式中，以目标企业为公司c为例，计算公司c在第d天的平均信息得分可以对第d天内已数值化的情感倾向、信息来源和信息标签等信息进行加权求和，以加权求和结果作为第d天的平均信息得分。上述各信息的权重可以根据实际需要确定，本申请实施例对此不作限定。

由于新闻信息分类模型存在一定的误差，可能给信息指数的计算带来噪音。同时，仅考虑一天的新闻信息难以获取企业之前的新闻信息对其产生的影响。因此，在本申请实施例的另一种可能的实现方式中，计算目标单位时间的平均信息得分还可以根据包含目标单位时间在内的多个单位时间的信息得分，来计算得出目标单位时间的平均信息得分。

在本申请实施例中，可以分别根据每个单位时间内与目标企业关联的多条历史新闻信息的情感倾向、信息来源和信息标签，计算多个单位时间的情感倾向加权平均数；然后对目标单位时间以及在该目标单位时间前的多个单位时间的情感倾向加权平均数进行加权求和，得到目标单位时间的平均信息得分。

需要说明的是，上述情感倾向加权平均数的计算方式可以与前述示例中计算公司c在第d天的平均信息得分的方式相同。

仍然以单位时间为一天为例，可以采用如下公式，计算目标单位时间(即第 d天)的情感倾向加权平均数：

score(c,d)＝∑(opinion_sentiment_i·opinion_hotIndex_i·tag_score_i)……(1)

其中，i表示第d天的第i条新闻信息，opinion_sentiment_i为每条新闻信息的情感倾向，1表示正面情感倾向，0表示中性情感倾向，-1表示负面情感倾向，每条新闻信息的情感倾向由情感分类模型获得。

opinion_hotIndex_i为每条信息来源的权威程度，属于(0，10]，数值越高，代表权威性越高。

tag_score_i为信息标签对应的分数。对于正面新闻信息，tag_score_i＝1；对于负面新闻信息来说，tag_score_i属于(0，2]，均值为1。

按照上述公式(1)，可以计算出多天的情感倾向加权平均数，例如，第d天，第d-1天，第d-2天的情感倾向加权平均数。

然后，考虑在第d天前N天的新闻信息情况对当前新闻信息的影响，可以对第d天前N天(包括第d天)的情感倾向加权平均数进行加权求和，作为第d 天的平均信息得分。

以N＝3为例，即考虑第d天前3天(包括第d天)的新闻信息，可以采用如下公式计算公司c在第d天的平均信息得分：

其中，w_cur为第d天的情感倾向加权平均数的权重，w_prev为前N天的情感倾向加权平均数的权重(上述公式(2)中，N＝3)。

作为一种示例，可以设置w_cur＝0.6，w_prev＝0.2。

S1022、针对所述目标企业，分别计算具有所述正面情感倾向、所述中性情感倾向和所述负面情感倾向的历史新闻信息在所述目标单位时间内的多条历史新闻信息中的占比量。

在本申请实施例中，可以分别计算具有正面情感倾向、中性情感倾向以及负面情感倾向的新闻信息的数量在当天所有新闻信息量的占比，再将所得的占比*100作为各类信息量的得分。

例如，可以采用如下公式计算各类新闻信息的得分：

其中，N_neu/pos/neg分别表示具有中性情感倾向/正面情感倾向/负面情感倾向的新闻信息量，N_total表示当天的总新闻信息量。

S1023、对所述平均信息得分以及具有所述正面情感倾向、所述中性情感倾向和所述负面情感倾向的历史新闻信息的占比量进行加权求和，得到所述目标企业在所述目标单位时间的信息分数。

在经过上述S1021、S1022步骤的计算，获得平均信息得分以及具有正面情感倾向、中性情感倾向和负面情感倾向的历史新闻信息的占比量得分后，可以对上述平均信息得分和占比量得分进行加权求和，得到公司c在第d天的最终的信息分数。

例如，可以采用如下公式计算公司c在第d天的信息分数SC_c,d：

S103、将所述每个企业在所述每个单位时间内的信息分数顺序排列，得到所述每个企业在历史时间段内的信息分数排名信息。

按照前述S1021-S1023的步骤及公式，可以计算得到本行业内各个企业在历史时间段内各个单位时间的信息分数，上述历史时间段由多个单位时间组成。

作为本申请实施例的一种示例，若历史时间段为过去10日，单位时间为每一天，本行业内的企业共10家，则按照前述S1021-S1023的步骤及公式，计算得到历史时间段内的信息分数共100个。即，每家企业在每一天内的信息分数各一个。

对上述全部100个信息分数按照从小到大的顺序排列，可以得到本行业内各个企业在过去10天内的信息分数排名信息。如表二所示，是本申请实施例的一种信息分数排名信息示例。

表二，信息分数排名信息示例：

日期	公司编码	公司名称	信息分数
				2021/04/01	10003	公司c	-2056.03
2021/04/03	10001	公司a	-1419.87
				2021/04/07	10004	公司d	-1343.96
2021/04/10	10006	公司f	-1304.37
				……	……	……	……
2021/04/03	10003	公司c	1603.14
				2021/04/03	10003	公司c	1816.50

S104、基于所述信息分数排名信息和累积分布函数，构建本行业的新闻信息指数模型。

在本申请实施例中，针对已经计算得到的本行业内各个企业在历史时间段内的多个信息分数，可以基于累积分布函数，构建出本行业的新闻信息指数模型。

累积分布函数(Cumulative Distribution Function，CDF)，又叫分布函数，是概率密度函数的积分，能完整描述一个实随机变量X的概率分布。对于所有实数X，累积分布函数定义如下：

F_X(x)＝P(X≤x)……(5)

在本申请实施例的一种可能的实现方式中，在基于信息分数排名信息和累积分布函数，构建本行业的新闻信息指数模型时，可以首先基于累积分布函数，计算每个企业的每个信息分数排名信息在历史时间段内的概率排名，每个概率排名具有相应的概率值，这个概率值可以用于表示信息分数位于当前这个排名的概率大小。

然后，可以根据概率值，计算每个企业在所述历史时间段内的信息指数值，并基于每个企业在历史时间段内的信息指数值，可以构建本行业的新闻信息指数模型。

例如，可以将概率值乘以100，作为企业在对应单位时间的信息指数POI 值。这样，每个信息分数均可以计算得到一个对应的信息指数值。将全部的信息指数值存入数据库，可以作为本行业的新闻信息指数模型。

在构建出本行业的新闻信息指数模型的基础上，参照图3，示出了本申请一个实施例的一种新闻信息分析方法的步骤流程示意图，该新闻信息分析方法可以采用前述实施例中构建的新闻信息指数模型对采集到的新闻信息进行分析。该新闻信息分析方法具体可以包括如下步骤：

S301、采集待处理的新闻数据，所述待处理的新闻数据包括多条新闻信息，每条新闻信息具有数值化的情感倾向、信息来源和信息标签。

在本申请实施例中，待处理的新闻数据可以是在某一单位时间内采集到的与相关企业关联的新闻数据。例如，在新的一天d中，与公司c相关的新闻数据。

与前述实施例中构建新闻信息指数模型时采集的新闻数据类似，新采集到的新闻数据也可以包括多条新闻信息，每条新闻信息具有数值化的情感倾向、信息来源和信息标签等信息。针对情感倾向、信息来源和信息标签等信息的数值化处理过程，可以参见前述实施例中的介绍，本步骤对比不再赘述。

S302、根据数值化的所述情感倾向、所述信息来源和所述信息标签，计算所述待处理的新闻数据对应的当前信息分数。

在具体实现中，可以按照前述实施例中S101-S102介绍的过程计算待处理的新闻数据对应的当前信息分数，即计算SC_{c,d_new}。

S303、根据所述当前信息分数和预先构建的本行业的新闻信息指数模型进行新闻信息分析。

在本申请实施例中，本行业的新闻信息指数模型可以通过如下步骤构建得到：

上述构建新闻信息指数模型的步骤与前述实施例中S101-S104类似，详细过程可以参见前述实施例的介绍，本步骤对此不再赘述。

在本申请实施例中，根据当前信息分数SC_{c,d_new}和预先构建的本行业的新闻信息指数模型进行新闻信息分析时，可以取出新闻信息指数模型，即历史信息指数的记录，并进行倒排序，然后对当前信息分数SC_{c,d_new}和历史信息分数SC_c,d进行匹配，确定本行业的新信息指数模型中是否记录有与当前信息分数SC_{c,d_new}相同的目标信息分数。

若存在有与当前信息分数SC_{c,d_new}相同的目标信息分数，即，存在与SC_{c,d_new}相等的SC_c,d，则可以将目标信息分数SC_c,d对应的信息指数值作为当前信息分数 SC_{c,d_new}对应的当前信息指数值POI_{SCc,d_new}。否则，则可以根据与当前信息分数 SC_{c,d_new}关联的至少两个信息分数，重新计算当前信息分数SC_{c,d_new}对应的当前信息指数值。

在具体实现中，可以从本行业的新闻信息指数模型中，确定大于当前信息分数的SC_{c,d_new}多个信息分数中的最小分数值，以及确定小于当前信息分数 SC_{c,d_new}的多个信息分数中的最大分数值，并分别确定最小分数值和最大分数值对应的信息指数值。然后计算最小分数值和最大分数值对应的信息指数值的平均值，将该平均值作为当前信息分数SC_{c,d_new}对应的当前信息指数值POI_{SCc,d_new}。

例如，若POI_SCc,di和POI_SCc,di-1分别是大于当前信息分数的SC_{c,d_new}多个信息分数中的最小分数值，以及小于当前信息分数SC_{c,d_new}的多个信息分数中的最大分数值，则当前信息分数SC_{c,d_new}对应的当前信息指数值POI_{SCc,d_new}可以按照如下公式计算得到：

作为一种示例，若当前信息分数SC_{c,d_new}为15，如果在历史数据中没有找到得分为15的信息分数，但找到比15大的最小的得分15.1，且找到比15小的最大得分14.9，这两天的POI指数分别为65和64，那么当天的POI信息指数为(65+64)/2＝64.5。

需要说明的是，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

参照图4，示出了本申请一个实施例的一种新闻信息指数模型的构建装置的示意图，具体可以包括采集模块401、计算模块402、排序模块403和构建模块 404，其中：

在本申请实施例中，所述计算模块具体用于：

分别根据目标单位时间内与目标企业关联的多条历史新闻信息的情感倾向、信息来源和信息标签，计算所述目标单位时间的平均信息得分，所述情感倾向包括正面情感倾向、中性情感倾向或负面情感倾向，所述目标单位时间为待计算信息分数的单位时间，所述目标企业为所述多个企业中的任意一家企业；

针对所述目标企业，分别计算具有所述正面情感倾向、所述中性情感倾向和所述负面情感倾向的历史新闻信息在所述目标单位时间内的多条历史新闻信息中的占比量；

对所述平均信息得分以及具有所述正面情感倾向、所述中性情感倾向和所述负面情感倾向的历史新闻信息的占比量进行加权求和，得到所述目标企业在所述目标单位时间的信息分数。

在本申请实施例中，所述计算模块还具体用于：

分别根据每个单位时间内与所述目标企业关联的多条历史新闻信息的情感倾向、信息来源和信息标签，计算多个单位时间的情感倾向加权平均数；

对所述目标单位时间以及在所述目标单位时间前的多个单位时间的情感倾向加权平均数进行加权求和，得到所述目标单位时间的平均信息得分。

在本申请实施例中，所述构建模块具体用于：

基于累积分布函数，计算所述每个企业的每个信息分数排名信息在所述历史时间段内的概率排名，每个概率排名具有相应的概率值；

根据所述概率值，计算所述每个企业在所述历史时间段内的信息指数值；

基于所述每个企业在所述历史时间段内的信息指数值，构建本行业的新闻信息指数模型。

参照图5，示出了本申请一个实施例的一种新闻信息分析装置的示意图，具体可以包括新闻数据采集模块501、当前信息分数计算模块502和新闻信息分析模块503，其中：

在本申请实施例中，所述新闻信息分析模块具体用于：

确定所述本行业的新闻信息指数模型中是否记录有与所述当前信息分数相同的目标信息分数；

若是，则将所述目标信息分数对应的信息指数值作为所述当前信息分数对应的当前信息指数值；否则，则根据与所述当前信息分数关联的至少两个信息分数，重新计算所述当前信息分数对应的当前信息指数值。

在本申请实施例中，所述新闻信息分析模块还具体用于：

从所述本行业的新闻信息指数模型中，确定大于所述当前信息分数的多个信息分数中的最小分数值，以及确定小于所述当前信息分数的多个信息分数中的最大分数值；

分别确定所述最小分数值和所述最大分数值对应的信息指数值；

计算所述最小分数值和所述最大分数值对应的信息指数值的平均值，将所述平均值作为所述当前信息分数对应的当前信息指数值。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述得比较简单，相关之处参见方法实施例部分的说明即可。

参照图6，示出了本申请一个实施例的一种终端设备的示意图。如图6所示，本实施例的终端设备600包括：处理器610、存储器620以及存储在所述存储器 620中并可在所述处理器610上运行的计算机程序621。所述处理器610执行所述计算机程序621时实现上述新闻信息指数模型的构建方法和/或新闻信息分析方法各个实施例中的步骤，例如图1所示的步骤S101至S104以及图3所示的步骤S301至S303。或者，所述处理器610执行所述计算机程序621时实现上述各装置实施例中各模块/单元的功能，例如图4所示模块401至404的功能以及图5所示模块501至503的功能。

示例性的，所述计算机程序621可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器620中，并由所述处理器610执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段可以用于描述所述计算机程序621在所述终端设备600中的执行过程。例如，所述计算机程序621在实现新闻信息指数模型的构建时，可以被分割成采集模块、计算模块、排序模块和构建模块，各模块具体功能如下：

或者，所述计算机程序621在实现新闻信息分析时，可以被分割成新闻数据采集模块、当前信息分数计算模块和新闻信息分析模块，各模块具体功能如下：

新闻信息分析模块，用于根据所述当前信息分数和预先构建的本行业的新闻信息指数模型进行新闻信息分析。

所述终端设备600可以是桌上型计算机、云端终端设备等计算设备。所述终端设备600可包括，但不仅限于，处理器610、存储器620。本领域技术人员可以理解，图6仅仅是终端设备600的一种示例，并不构成对终端设备600的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备600还可以包括输入输出设备、网络接入设备、总线等。

所述处理器610可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器620可以是所述终端设备600的内部存储单元，例如终端设备 600的硬盘或内存。所述存储器620也可以是所述终端设备600的外部存储设备，例如所述终端设备600上配备的插接式硬盘，智能存储卡(Smart Media Card， SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)等等。进一步地，所述存储器620还可以既包括所述终端设备600的内部存储单元也包括外部存储设备。所述存储器620用于存储所述计算机程序621以及所述终端设备600所需的其他程序和数据。所述存储器620还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还公开了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述新闻信息指数模型的构建方法和/或新闻信息分析方法。

本申请实施例还公开了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述新闻信息指数模型的构建方法和/或新闻信息分析方法。

本申请实施例还公开了一种计算机程序产品，当所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述新闻信息指数模型的构建方法和/ 或新闻信息分析方法。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制。尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种新闻信息指数模型的构建方法，其特征在于，包括：

基于所述信息分数排名信息和累积分布函数，构建本行业的新闻信息指数模型；

其中，所述根据单位时间内与每个企业关联的多条历史新闻信息的情感倾向、信息来源和信息标签，分别计算所述每个企业在每个单位时间内的信息分数，包括：

2.根据权利要求1所述的方法，其特征在于，所述分别根据目标单位时间内与目标企业关联的多条历史新闻信息的情感倾向、信息来源和信息标签，计算所述目标单位时间的平均信息得分，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述基于所述信息分数排名信息和累积分布函数，构建本行业的新闻信息指数模型，包括：

4.一种新闻信息分析方法，其特征在于，包括：

根据所述当前信息分数和预先构建的本行业的新闻信息指数模型进行新闻信息分析，所述本行业的新闻信息指数模型通过如权利要求1-3任一项所述的构建方法构建得到；

其中，所述根据所述当前信息分数和预先构建的本行业的新闻信息指数模型进行新闻信息分析，包括：

若是，则将所述目标信息分数对应的信息指数值作为所述当前信息分数对应的当前信息指数值；否则，则从所述本行业的新闻信息指数模型中，确定大于所述当前信息分数的多个信息分数中的最小分数值，以及确定小于所述当前信息分数的多个信息分数中的最大分数值；分别确定所述最小分数值和所述最大分数值对应的信息指数值；计算所述最小分数值和所述最大分数值对应的信息指数值的平均值，将所述平均值作为所述当前信息分数对应的当前信息指数值。

5.一种新闻信息指数模型的构建装置，其特征在于，所述构建装置用于执行如权利要求1-3任一项所述的构建方法，包括：

构建模块，用于基于所述信息分数排名信息和累积分布函数，构建本行业的新闻信息指数模型；

其中，所述计算模块具体用于：

对所述平均虚拟虚得分以及具有所述正面情感倾向、所述中性情感倾向和所述负面情感倾向的历史新闻信息的占比量进行加权求和，得到所述目标企业在所述目标单位时间的信息分数。

6.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-4任一项所述的方法。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4任一项所述的方法。