CN110502638B

CN110502638B - 一种基于目标实体的企业新闻风险分类方法

Info

Publication number: CN110502638B
Application number: CN201910817159.5A
Authority: CN
Inventors: 刘德彬; 陈玮; 覃勋辉; 吴涛
Original assignee: Chongqing Socialcredits Big Data Technology Co ltd
Current assignee: Chongqing Yucun Technology Co ltd
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2023-05-16
Anticipated expiration: 2039-08-30
Also published as: CN110502638A

Abstract

本发明公开了一种基于目标实体的企业新闻风险分类方法，将一篇新闻通过文本分句方式拆分成若干句话；结合目标实体数据库，当内容包含有一个或者多个目标实体时，目标实体和内容的组合作为重点分析对象；采用深度学习技术构建分类网络；对分类网络进行分类训练；本发明中，采用了层级分类，将新闻按照内容分成了若干个大类，每个大类下有若干个子类，每个子类能够具体反映新闻对企业的风险或发展情况；统计新闻中的每个企业实体关于分类类别的一个统计直方图和概率图，基于该统计直方图，可以看出新闻的风险统计值；对存储的数据进行加密处理，提高了存储数据的安全；增加如风险类别推送，及对应的具体新闻内容推送，提高了用户的体验。

Description

一种基于目标实体的企业新闻风险分类方法

技术领域

本发明属于企业新闻数据处理技术领域，具体涉及一种基于目标实体的企业新闻风险分类方法。

背景技术

企业新闻是了解企业发展状况的重要渠道。目前已经有相关处理方法，如得出新闻正向情感/还是负向情感，或者新闻的大致类别，但并不能将风险类别及详细对应的新闻内容呈现给用户。

相关专利申请号及主要内容如下：

申请号为201610266431.1的企业新闻分析方法及系统，采用评价分析方法对关联新闻进行分析，并给出对目标企业的信誉评价，LSI模型为隐式语义索引模型对所述目标企业进行正向评价和负向评价。

申请号为201711446480.4的一种分析企业风险的方法以及系统，采集企业的相关信息，所述相关信息包括新闻舆情信息以及微博舆情信息；对所述相关信息进行标签化提取，分析得出所述企业的风险等级；所述相关信息还包括工商基本信息、司法诉讼信息、司法判决信息、失信被执行人信息、行政处罚信息、经营异常信息、抵制押信息、上市企业公告书信息、董监高管理人员公开信息以及招聘信息；根据所述相关信息结合OEC模型，输出所述企业的风险标签。

申请号为201811239861.X的结合深度学习和逻辑规则的企业新闻数据风险分类方法，根据确定企业的公司名称获取所述确定企业的相关属性，获取与所述确定企业相关的新闻材料，并从所述新闻材料中提取出含有所述相关属性的句子；将含有所述相关属性的句子输入CNN句子分类模型中，得到每个句子的句子分类，所述句子分类为正面类别或负面类别；将每个所述句子分类分别进行加权处理，取加权处理后的句子分类值大者作为当前新闻的新闻分类，所述新闻分类为正面类别或负面类别；将所述新闻材料以篇为单位输入Bi-LSTM文章情感分类模型中，得到每篇新闻的情感倾向值，所述情感倾向值为正面概率和负面概率。

申请号为201410138443.7的一种基于语义情感分析的贷后风险预警系统，语义情感分析模块，用于接收所述相关信息并进行情感成分分析，生成情感极性K和情感强度M；分析总模块，用于获取所述情感极性K和所述情感强度M，并且根据所述相关信息的来源生成情感极性K值和情感强度M值，之后根据预定公式依次计算得出可靠系数P和总体可靠系数W；用户交互模块，用于在所述总体可靠系数W低于警戒值时发出警告。

现有的企业新闻风险分类方法存在着以下方面的不足：

1.企业发展和风险的标签分类定义问题：只能针对新闻正向情感/还是负向情感，具体原因缺乏可解释性的依据；新闻分类的类别不细致，仅对新闻做了内容的大致划分，如财务相关、人事相关等等，而这些标签对应内容过于宽泛，不能够具体反映新闻对企业的风险或发展情况；

2.分类方法问题：同一个新闻中，甚至新闻的某一句话中，可能包含多个企业实体，但这些实体对应的风险或发展情况的标签可能不相同，而现有方法主要基于句子或者篇章分析得出对应的标签，而忽略实体在内容中起的作用，是不准确的。

发明内容

本发明的目的在于提供一种基于目标实体的企业新闻风险分类方法，以解决上述背景技术中提出的企业发展和风险的标签分类定义问题：只能针对新闻正向情感/还是负向情感，具体原因缺乏可解释性的依据；新闻分类的类别不细致，仅对新闻做了内容的大致划分，如财务相关、人事相关等等，而这些标签对应内容过于宽泛，不能够具体反映新闻对企业的风险或发展情况；分类方法问题：同一个新闻中，甚至新闻的某一句话中，可能包含多个企业实体，但这些实体对应的风险或发展情况的标签可能不相同，而现有方法主要基于句子或者篇章分析得出对应的标签，而忽略实体在内容中起的作用，是不准确的问题。

为实现上述目的，本发明提供如下技术方案：一种基于目标实体的企业新闻风险分类方法，所述方法如下：

步骤一：新闻分句：将一篇新闻通过文本分句方式拆分成若干句话；

步骤二：目标实体抽取：结合目标实体数据库，当内容包含有一个或者多个目标实体时，目标实体和内容的组合作为重点分析对象；

步骤三：新闻内容分类：采用深度学习技术构建分类网络；对分类网络进行分类训练；

步骤四：统计分类结果：此处包含有目标实体的别名，将同一实体的多个结果合并，统计这篇新闻中的每个企业实体关于分类类别的一个统计直方图和概率向量，基于该概率向量，结合风险分类的标签(如正负)，可以训练定制化的风险分类器；

步骤五：数据库存储：将新闻分析的结果存入云数据库中，并对存储的数据进行加密处理；

步骤六：推送展示：原有篇章基础上增加如风险类别推送，及对应的具体新闻内容推送。

作为本发明的一种优选的技术方案，所述步骤一中，分句方法为ltp分句、结巴分句、特殊标点符号分句中的一种或几种。

作为本发明的一种优选的技术方案，所述步骤二中，实体抽取方法为基于bert序列标注模型或bilstm序列标注模型。

作为本发明的一种优选的技术方案，所述步骤三中，采用深度学习技术构建分类网络，网络分为三个主要模块，分别为网络输入层、深度特征编码层、网络输出层。

作为本发明的一种优选的技术方案，所述步骤三中，分类训练包括两种方式，一种是二级分类和三级分类单独训练，另一种是二级分类和三级分类联合训练。

作为本发明的一种优选的技术方案，所述步骤五中，加密的类型为密钥加密或数字证书。

作为本发明的一种优选的技术方案，所述步骤六中，推送的方法如下：

步骤一：检测用户对网页的滚动操作时长，确定用户浏览新闻内容的长度；

步骤二：将确定的浏览新闻内容的长度与预设内容长度进行比对，确定用户感兴趣的新闻内容；

步骤三：根据用户感兴趣的内容，推送与此相关的新闻内容网页。

与现有技术相比，本发明的有益效果是：

(1)采用了层级分类，将新闻按照内容分成了若干个大类，每个大类下有若干个子类，每个子类能够具体反映新闻对企业的风险或发展情况；

(2)采用深度学习的技术，实现对目标新闻句子内容+实体的分析，得到的分类结果，通过实体对齐后，统计这篇新闻中的每个企业实体关于分类类别的一个统计直方图和概率图，基于该统计直方图，可以看出新闻的风险统计值；

(3)新闻分析的结果存入云数据库中，并对存储的数据进行加密处理，提高了存储数据的安全；

(4)原有篇章基础上增加如风险类别推送，及对应的具体新闻内容推送，提高了用户的体验。

附图说明

图1为本发明的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

请参阅图1，本发明提供一种技术方案：一种基于目标实体的企业新闻风险分类方法，包括如下步骤：

步骤一：新闻分句：将一篇新闻通过文本分句方式拆分成若干句话；分句方法为ltp分句；

步骤二：目标实体抽取：结合目标实体数据库，当内容包含有一个或者多个目标实体时，目标实体和内容的组合作为重点分析对象；实体抽取方法为基于bert序列标注模型；

步骤五：数据库存储：将新闻分析的结果存入云数据库中，并对存储的数据进行加密处理；加密的类型为密钥加密；

步骤六：推送展示：原有篇章基础上增加如风险类别推送，及对应的具体新闻内容推送；推送的方法如下：

本实施例中，优选的，所述步骤三中，采用深度学习技术构建分类网络，网络分为三个主要模块，分别为网络输入层、深度特征编码层、网络输出层；

一.网络输入层：

输入：分析的句子和目标实体，可能的其它特殊符号(比如cls\sep)，以及用于批量计算时的句子长度规整补充符号pad，假设总长度为N。

输出层：

特征编码后的向量序列，大小为N×dim。

掩码向量：大小为N×1。

中间过程：参考bert的输入。

向量化：字向量/词向量/特殊符号向量，大小为N×dim，可以采用已经预训练好的向量，也可以自己训练。

掩码向量：用于注意力机制，pad对应处为0，大小为N×1，基于bert句子归属向量改进，改进地方主要在于entity处的掩码值可以不为1。

位置向量：用于描述字符在句子中的位置，大小为N×1，可以采用transformer位置向量。

句子归属向量：用于描述不同句子，属于同一句子的值相同，大小为N×1，可以采用bert句子归属向量。

总的向量：向量化+位置向量+句子归属向量。

举例：

情况1，可以是cls+sentence+sep+entity+sep。

情况2，可以是cls+sentence+sep，此处靠掩码向量区分entity.目标实体处的值不等于普通字符的值。

二.深度特征编码层：

输入：网络输入层的输出。

特征编码后的向量序列，大小为N×dim。

掩码向量：大小为N×1。

输出：

特征编码后的向量序列，大小为N×dim_output。

中间过程：

基于多层双向lstm编码，层数作为模型超参数，默认为4。

基于多层双向的transformer编码，如bert或者xlnet编码，层数作为模型超参数，默认为12。

三.网络输出层：

输入：深度特征编码层的输出。

特征编码后的向量序列，大小为N×dim_output。

输出：

三级分类的概率，可以设置阈值得到分类结果。

二级分类的概率，可以设置阈值得到分类结果。

中间过程：

线性特征加权，将特征编码后的向量序列N×dim_output转换为1×dim_output维度的最终特征，方法可以是maxpooling，也可以是线性加权。

线性概率转换，将最终特征1×dim_output通过全连接层转换输出为1×level_2_num和1×level_3_num，level_2_num和level_3_num分别表示二级分类和三级分类的标签个数，分别归一化后的向量为属于每一类的概率。

本实施例中，优选的，所述步骤三中，网络的训练过程包括：

分类训练过程：

输入目标实体+问句，由上述分类网络计算得到二级分类和三级分类的每一类的概率。

通过分类概率和分类标签，结合分类损失函数，求得分类损失，损失函数如交叉熵损失。

通过误差反向传播更新网络参数，反复多轮迭代。

两种训练方式：

二级分类和三级分类单独训练，可以共享分类网络参数，也可以不共享。

二级分类和三级分类联合训练，共享分类网络参数；loss＝loss_level_2*weight_level_2+loss_level_3*(1-weight_level_2)。

举例：

句子：本周六在xx市xx法院裁决张三公司涉嫌盗用李四公司的知识产权一案。

实体：张三公司；李四公司。

分析结果：张三公司+句子＝抄袭剽窃；李四公司+句子＝合作竞争。

实施例2

步骤一：新闻分句：将一篇新闻通过文本分句方式拆分成若干句话；分句方法为结巴分句；

步骤二：目标实体抽取：结合目标实体数据库，当内容包含有一个或者多个目标实体时，目标实体和内容的组合作为重点分析对象；实体抽取方法为基于bilstm序列标注模型；

步骤五：数据库存储：将新闻分析的结果存入云数据库中，并对存储的数据进行加密处理；加密的类型为数字证书；

一.网络输入层：

输出层：

特征编码后的向量序列，大小为N×dim。

掩码向量：大小为N×1。

中间过程：参考bert的输入。

总的向量：向量化+位置向量+句子归属向量。

举例：

情况1，可以是cls+sentence+sep+entity+sep。

二.深度特征编码层：

输入：网络输入层的输出。

特征编码后的向量序列，大小为N×dim。

掩码向量：大小为N×1。

输出：

特征编码后的向量序列，大小为N×dim_output。

中间过程：

基于多层双向lstm编码，层数作为模型超参数，默认为4。

三.网络输出层：

输入：深度特征编码层的输出。

特征编码后的向量序列，大小为N×dim_output。

输出：

三级分类的概率，可以设置阈值得到分类结果。

二级分类的概率，可以设置阈值得到分类结果。

中间过程：

分类训练过程：

通过误差反向传播更新网络参数，反复多轮迭代。

两种训练方式：

举例：

实体：张三公司；李四公司。

实施例3

步骤一：新闻分句：将一篇新闻通过文本分句方式拆分成若干句话；分句方法为特殊标点符号分句；

一.网络输入层：

输出层：

特征编码后的向量序列，大小为N×dim。

掩码向量：大小为N×1。

中间过程：参考bert的输入。

总的向量：向量化+位置向量+句子归属向量。

举例：

情况1，可以是cls+sentence+sep+entity+sep。

二.深度特征编码层：

输入：网络输入层的输出。

特征编码后的向量序列，大小为N×dim。

掩码向量：大小为N×1。

输出：

特征编码后的向量序列，大小为N×dim_output。

中间过程：

基于多层双向lstm编码，层数作为模型超参数，默认为4。

三.网络输出层：

输入：深度特征编码层的输出。

特征编码后的向量序列，大小为N×dim_output。

输出：

三级分类的概率，可以设置阈值得到分类结果。

二级分类的概率，可以设置阈值得到分类结果。

中间过程：

分类训练过程：

通过误差反向传播更新网络参数，反复多轮迭代。

两种训练方式：

举例：

实体：张三公司；李四公司。

需要补充的是：

输出类别如下：

企业变更：地址变动、名称变动；

持股变动：股权冻结、股权激励、股权解冻；

股票变动：股票停牌、股票减持、股票增持、股票增发、股票复牌、股票限售、股价利空、股价利好；

高管变动：高管辞职、高管招聘、高管去世、高管换届、违法乱纪；

行政监管：行政处罚、禁止入市、批评谴责、政府补助；

投资融资：对外投资、企业融资；

司法涉诉：失信被执行、刑事纠纷、民事纠纷；

欺诈骗局：涉嫌传销、非法集资、财务造假、内幕交易；

企业经营：业绩亏损、企业裁员、企业降薪、业绩盈利、企业扩张、企业加薪、信誉危机、资产转移、偷税漏税、资产重组、破产清算；

合作竞争：合作共赢、恶性竞争、抄袭剽窃、合作终止；

产品相关：产品发布、产品升级、优质产品、伪劣产品、产品倾销；

上市相关：上市失利、上市利好、上市路演；

事故信息：自然灾害、生产事故；

债务信息：抵押质押、债务违约、借贷相关。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于目标实体的企业新闻风险分类方法，其特征在于：所述方法如下：

步骤三：新闻内容分类：采用深度学习技术构建分类网络；对分类网络进行分类训练；采用深度学习技术构建分类网络，网络分为三个模块，分别为网络输入层、深度特征编码层、网络输出层；分类训练包括两种方式，一种是二级分类和三级分类单独训练，另一种是二级分类和三级分类联合训练；

步骤四：统计分类结果：此处包含有目标实体的别名，将同一实体的多个结果合并，统计这篇新闻中的每个企业实体关于分类类别的一个统计直方图和概率向量，基于该概率向量，结合风险分类的标签，可训练定制化的风险分类器；

步骤六：推送展示：原有篇章基础上增加风险类别推送，及对应的具体新闻内容推送；

一.网络输入层：

输入：分析的句子和目标实体，其它特殊符号，以及用于批量计算时的句子长度规整补充符号pad，总长度为N；

输出层：

特征编码后的向量序列，大小为N×dim；

掩码向量：大小为N×1；

中间过程：参考bert的输入；

向量化：字向量/词向量/特殊符号向量，大小为N×dim，可采用已经预训练好的向量或自己训练；

掩码向量：用于注意力机制，pad对应处为0，大小为N×1，基于bert句子归属向量改进，改进地方在于entity处的掩码值可不为1；

位置向量：用于描述字符在句子中的位置，大小为N×1，可采用transformer位置向量；

句子归属向量：用于描述不同句子，属于同一句子的值相同，大小为N×1，可采用bert句子归属向量；

总的向量：向量化+位置向量+句子归属向量；

二.深度特征编码层：

输入：网络输入层的输出；

特征编码后的向量序列，大小为N×dim；

掩码向量：大小为N×1；

输出：

特征编码后的向量序列，大小为N×dim_output；

中间过程：

基于多层双向lstm编码，层数作为模型超参数，默认为4；

基于多层双向的transformer编码，可为bert或者xlnet编码，层数作为模型超参数，默认为12；

三.网络输出层：

输入：深度特征编码层的输出；

特征编码后的向量序列，大小为N×dim_output；

输出：

三级分类的概率，可设置阈值得到分类结果；

二级分类的概率，可设置阈值得到分类结果；

中间过程：

线性特征加权，将特征编码后的向量序列N×dim_output转换为1×dim_output维度的最终特征，方法为maxpooling或线性加权；

线性概率转换，将最终特征1×dim_output通过全连接层转换输出为1×level_2_num和1×level_3_num，level_2_num和level_3_num分别表示二级分类和三级分类的标签个数，分别归一化后的向量为属于每一类的概率；

分类训练过程：

输入目标实体+问句，由上述分类网络计算得到二级分类和三级分类的每一类的概率；

通过分类概率和分类标签，结合分类损失函数，求得分类损失，损失函数为交叉熵损失；

通过误差反向传播更新网络参数，反复多轮迭代；

两种训练方式：

二级分类和三级分类单独训练，可共享分类网络参数或不共享；

2.根据权利要求1所述的一种基于目标实体的企业新闻风险分类方法，其特征在于：所述步骤一中，分句方法为ltp分句、结巴分句、特殊标点符号分句中的一种或几种。

3.根据权利要求1所述的一种基于目标实体的企业新闻风险分类方法，其特征在于：所述步骤二中，实体抽取方法为基于bert序列标注模型或bilstm序列标注模型。

4.根据权利要求1所述的一种基于目标实体的企业新闻风险分类方法，其特征在于：所述步骤五中，加密的类型为密钥加密或数字证书。

5.根据权利要求1所述的一种基于目标实体的企业新闻风险分类方法，其特征在于：所述步骤六中，推送的方法如下：