CN110502638B - 一种基于目标实体的企业新闻风险分类方法 - Google Patents
一种基于目标实体的企业新闻风险分类方法 Download PDFInfo
- Publication number
- CN110502638B CN110502638B CN201910817159.5A CN201910817159A CN110502638B CN 110502638 B CN110502638 B CN 110502638B CN 201910817159 A CN201910817159 A CN 201910817159A CN 110502638 B CN110502638 B CN 110502638B
- Authority
- CN
- China
- Prior art keywords
- classification
- news
- vector
- content
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000012549 training Methods 0.000 claims abstract description 24
- 238000004458 analytical method Methods 0.000 claims abstract description 23
- 238000013135 deep learning Methods 0.000 claims abstract description 13
- 238000005516 engineering process Methods 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 230000006872 improvement Effects 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 8
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000011161 development Methods 0.000 abstract description 9
- 230000008451 emotion Effects 0.000 description 18
- 238000011156 evaluation Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 230000007115 recruitment Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001125 extrusion Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- GOLXNESZZPUPJE-UHFFFAOYSA-N spiromesifen Chemical compound CC1=CC(C)=CC(C)=C1C(C(O1)=O)=C(OC(=O)CC(C)(C)C)C11CCCC1 GOLXNESZZPUPJE-UHFFFAOYSA-N 0.000 description 1
- 230000004936 stimulating effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010257 thawing Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于目标实体的企业新闻风险分类方法,将一篇新闻通过文本分句方式拆分成若干句话;结合目标实体数据库,当内容包含有一个或者多个目标实体时,目标实体和内容的组合作为重点分析对象;采用深度学习技术构建分类网络;对分类网络进行分类训练;本发明中,采用了层级分类,将新闻按照内容分成了若干个大类,每个大类下有若干个子类,每个子类能够具体反映新闻对企业的风险或发展情况;统计新闻中的每个企业实体关于分类类别的一个统计直方图和概率图,基于该统计直方图,可以看出新闻的风险统计值;对存储的数据进行加密处理,提高了存储数据的安全;增加如风险类别推送,及对应的具体新闻内容推送,提高了用户的体验。
Description
技术领域
本发明属于企业新闻数据处理技术领域,具体涉及一种基于目标实体的企业新闻风险分类方法。
背景技术
企业新闻是了解企业发展状况的重要渠道。目前已经有相关处理方法,如得出新闻正向情感/还是负向情感,或者新闻的大致类别,但并不能将风险类别及详细对应的新闻内容呈现给用户。
相关专利申请号及主要内容如下:
申请号为201610266431.1的企业新闻分析方法及系统,采用评价分析方法对关联新闻进行分析,并给出对目标企业的信誉评价,LSI模型为隐式语义索引模型对所述目标企业进行正向评价和负向评价。
申请号为201711446480.4的一种分析企业风险的方法以及系统,采集企业的相关信息,所述相关信息包括新闻舆情信息以及微博舆情信息;对所述相关信息进行标签化提取,分析得出所述企业的风险等级;所述相关信息还包括工商基本信息、司法诉讼信息、司法判决信息、失信被执行人信息、行政处罚信息、经营异常信息、抵制押信息、上市企业公告书信息、董监高管理人员公开信息以及招聘信息;根据所述相关信息结合OEC模型,输出所述企业的风险标签。
申请号为201811239861.X的结合深度学习和逻辑规则的企业新闻数据风险分类方法,根据确定企业的公司名称获取所述确定企业的相关属性,获取与所述确定企业相关的新闻材料,并从所述新闻材料中提取出含有所述相关属性的句子;将含有所述相关属性的句子输入CNN句子分类模型中,得到每个句子的句子分类,所述句子分类为正面类别或负面类别;将每个所述句子分类分别进行加权处理,取加权处理后的句子分类值大者作为当前新闻的新闻分类,所述新闻分类为正面类别或负面类别;将所述新闻材料以篇为单位输入Bi-LSTM文章情感分类模型中,得到每篇新闻的情感倾向值,所述情感倾向值为正面概率和负面概率。
申请号为201410138443.7的一种基于语义情感分析的贷后风险预警系统,语义情感分析模块,用于接收所述相关信息并进行情感成分分析,生成情感极性K和情感强度M;分析总模块,用于获取所述情感极性K和所述情感强度M,并且根据所述相关信息的来源生成情感极性K值和情感强度M值,之后根据预定公式依次计算得出可靠系数P和总体可靠系数W;用户交互模块,用于在所述总体可靠系数W低于警戒值时发出警告。
现有的企业新闻风险分类方法存在着以下方面的不足:
1.企业发展和风险的标签分类定义问题:只能针对新闻正向情感/还是负向情感,具体原因缺乏可解释性的依据;新闻分类的类别不细致,仅对新闻做了内容的大致划分,如财务相关、人事相关等等,而这些标签对应内容过于宽泛,不能够具体反映新闻对企业的风险或发展情况;
2.分类方法问题:同一个新闻中,甚至新闻的某一句话中,可能包含多个企业实体,但这些实体对应的风险或发展情况的标签可能不相同,而现有方法主要基于句子或者篇章分析得出对应的标签,而忽略实体在内容中起的作用,是不准确的。
发明内容
本发明的目的在于提供一种基于目标实体的企业新闻风险分类方法,以解决上述背景技术中提出的企业发展和风险的标签分类定义问题:只能针对新闻正向情感/还是负向情感,具体原因缺乏可解释性的依据;新闻分类的类别不细致,仅对新闻做了内容的大致划分,如财务相关、人事相关等等,而这些标签对应内容过于宽泛,不能够具体反映新闻对企业的风险或发展情况;分类方法问题:同一个新闻中,甚至新闻的某一句话中,可能包含多个企业实体,但这些实体对应的风险或发展情况的标签可能不相同,而现有方法主要基于句子或者篇章分析得出对应的标签,而忽略实体在内容中起的作用,是不准确的问题。
为实现上述目的,本发明提供如下技术方案:一种基于目标实体的企业新闻风险分类方法,所述方法如下:
步骤一:新闻分句:将一篇新闻通过文本分句方式拆分成若干句话;
步骤二:目标实体抽取:结合目标实体数据库,当内容包含有一个或者多个目标实体时,目标实体和内容的组合作为重点分析对象;
步骤三:新闻内容分类:采用深度学习技术构建分类网络;对分类网络进行分类训练;
步骤四:统计分类结果:此处包含有目标实体的别名,将同一实体的多个结果合并,统计这篇新闻中的每个企业实体关于分类类别的一个统计直方图和概率向量,基于该概率向量,结合风险分类的标签(如正负),可以训练定制化的风险分类器;
步骤五:数据库存储:将新闻分析的结果存入云数据库中,并对存储的数据进行加密处理;
步骤六:推送展示:原有篇章基础上增加如风险类别推送,及对应的具体新闻内容推送。
作为本发明的一种优选的技术方案,所述步骤一中,分句方法为ltp分句、结巴分句、特殊标点符号分句中的一种或几种。
作为本发明的一种优选的技术方案,所述步骤二中,实体抽取方法为基于bert序列标注模型或bilstm序列标注模型。
作为本发明的一种优选的技术方案,所述步骤三中,采用深度学习技术构建分类网络,网络分为三个主要模块,分别为网络输入层、深度特征编码层、网络输出层。
作为本发明的一种优选的技术方案,所述步骤三中,分类训练包括两种方式,一种是二级分类和三级分类单独训练,另一种是二级分类和三级分类联合训练。
作为本发明的一种优选的技术方案,所述步骤五中,加密的类型为密钥加密或数字证书。
作为本发明的一种优选的技术方案,所述步骤六中,推送的方法如下:
步骤一:检测用户对网页的滚动操作时长,确定用户浏览新闻内容的长度;
步骤二:将确定的浏览新闻内容的长度与预设内容长度进行比对,确定用户感兴趣的新闻内容;
步骤三:根据用户感兴趣的内容,推送与此相关的新闻内容网页。
与现有技术相比,本发明的有益效果是:
(1)采用了层级分类,将新闻按照内容分成了若干个大类,每个大类下有若干个子类,每个子类能够具体反映新闻对企业的风险或发展情况;
(2)采用深度学习的技术,实现对目标新闻句子内容+实体的分析,得到的分类结果,通过实体对齐后,统计这篇新闻中的每个企业实体关于分类类别的一个统计直方图和概率图,基于该统计直方图,可以看出新闻的风险统计值;
(3)新闻分析的结果存入云数据库中,并对存储的数据进行加密处理,提高了存储数据的安全;
(4)原有篇章基础上增加如风险类别推送,及对应的具体新闻内容推送,提高了用户的体验。
附图说明
图1为本发明的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参阅图1,本发明提供一种技术方案:一种基于目标实体的企业新闻风险分类方法,包括如下步骤:
步骤一:新闻分句:将一篇新闻通过文本分句方式拆分成若干句话;分句方法为ltp分句;
步骤二:目标实体抽取:结合目标实体数据库,当内容包含有一个或者多个目标实体时,目标实体和内容的组合作为重点分析对象;实体抽取方法为基于bert序列标注模型;
步骤三:新闻内容分类:采用深度学习技术构建分类网络;对分类网络进行分类训练;
步骤四:统计分类结果:此处包含有目标实体的别名,将同一实体的多个结果合并,统计这篇新闻中的每个企业实体关于分类类别的一个统计直方图和概率向量,基于该概率向量,结合风险分类的标签(如正负),可以训练定制化的风险分类器;
步骤五:数据库存储:将新闻分析的结果存入云数据库中,并对存储的数据进行加密处理;加密的类型为密钥加密;
步骤六:推送展示:原有篇章基础上增加如风险类别推送,及对应的具体新闻内容推送;推送的方法如下:
步骤一:检测用户对网页的滚动操作时长,确定用户浏览新闻内容的长度;
步骤二:将确定的浏览新闻内容的长度与预设内容长度进行比对,确定用户感兴趣的新闻内容;
步骤三:根据用户感兴趣的内容,推送与此相关的新闻内容网页。
本实施例中,优选的,所述步骤三中,采用深度学习技术构建分类网络,网络分为三个主要模块,分别为网络输入层、深度特征编码层、网络输出层;
一.网络输入层:
输入:分析的句子和目标实体,可能的其它特殊符号(比如cls\sep),以及用于批量计算时的句子长度规整补充符号pad,假设总长度为N。
输出层:
特征编码后的向量序列,大小为N×dim。
掩码向量:大小为N×1。
中间过程:参考bert的输入。
向量化:字向量/词向量/特殊符号向量,大小为N×dim,可以采用已经预训练好的向量,也可以自己训练。
掩码向量:用于注意力机制,pad对应处为0,大小为N×1,基于bert句子归属向量改进,改进地方主要在于entity处的掩码值可以不为1。
位置向量:用于描述字符在句子中的位置,大小为N×1,可以采用transformer位置向量。
句子归属向量:用于描述不同句子,属于同一句子的值相同,大小为N×1,可以采用bert句子归属向量。
总的向量:向量化+位置向量+句子归属向量。
举例:
情况1,可以是cls+sentence+sep+entity+sep。
情况2,可以是cls+sentence+sep,此处靠掩码向量区分entity.目标实体处的值不等于普通字符的值。
二.深度特征编码层:
输入:网络输入层的输出。
特征编码后的向量序列,大小为N×dim。
掩码向量:大小为N×1。
输出:
特征编码后的向量序列,大小为N×dim_output。
中间过程:
基于多层双向lstm编码,层数作为模型超参数,默认为4。
基于多层双向的transformer编码,如bert或者xlnet编码,层数作为模型超参数,默认为12。
三.网络输出层:
输入:深度特征编码层的输出。
特征编码后的向量序列,大小为N×dim_output。
输出:
三级分类的概率,可以设置阈值得到分类结果。
二级分类的概率,可以设置阈值得到分类结果。
中间过程:
线性特征加权,将特征编码后的向量序列N×dim_output转换为1×dim_output维度的最终特征,方法可以是maxpooling,也可以是线性加权。
线性概率转换,将最终特征1×dim_output通过全连接层转换输出为1×level_2_num和1×level_3_num,level_2_num和level_3_num分别表示二级分类和三级分类的标签个数,分别归一化后的向量为属于每一类的概率。
本实施例中,优选的,所述步骤三中,网络的训练过程包括:
分类训练过程:
输入目标实体+问句,由上述分类网络计算得到二级分类和三级分类的每一类的概率。
通过分类概率和分类标签,结合分类损失函数,求得分类损失,损失函数如交叉熵损失。
通过误差反向传播更新网络参数,反复多轮迭代。
两种训练方式:
二级分类和三级分类单独训练,可以共享分类网络参数,也可以不共享。
二级分类和三级分类联合训练,共享分类网络参数;loss=loss_level_2*weight_level_2+loss_level_3*(1-weight_level_2)。
举例:
句子:本周六在xx市xx法院裁决张三公司涉嫌盗用李四公司的知识产权一案。
实体:张三公司;李四公司。
分析结果:张三公司+句子=抄袭剽窃;李四公司+句子=合作竞争。
实施例2
请参阅图1,本发明提供一种技术方案:一种基于目标实体的企业新闻风险分类方法,包括如下步骤:
步骤一:新闻分句:将一篇新闻通过文本分句方式拆分成若干句话;分句方法为结巴分句;
步骤二:目标实体抽取:结合目标实体数据库,当内容包含有一个或者多个目标实体时,目标实体和内容的组合作为重点分析对象;实体抽取方法为基于bilstm序列标注模型;
步骤三:新闻内容分类:采用深度学习技术构建分类网络;对分类网络进行分类训练;
步骤四:统计分类结果:此处包含有目标实体的别名,将同一实体的多个结果合并,统计这篇新闻中的每个企业实体关于分类类别的一个统计直方图和概率向量,基于该概率向量,结合风险分类的标签(如正负),可以训练定制化的风险分类器;
步骤五:数据库存储:将新闻分析的结果存入云数据库中,并对存储的数据进行加密处理;加密的类型为数字证书;
步骤六:推送展示:原有篇章基础上增加如风险类别推送,及对应的具体新闻内容推送;推送的方法如下:
步骤一:检测用户对网页的滚动操作时长,确定用户浏览新闻内容的长度;
步骤二:将确定的浏览新闻内容的长度与预设内容长度进行比对,确定用户感兴趣的新闻内容;
步骤三:根据用户感兴趣的内容,推送与此相关的新闻内容网页。
本实施例中,优选的,所述步骤三中,采用深度学习技术构建分类网络,网络分为三个主要模块,分别为网络输入层、深度特征编码层、网络输出层;
一.网络输入层:
输入:分析的句子和目标实体,可能的其它特殊符号(比如cls\sep),以及用于批量计算时的句子长度规整补充符号pad,假设总长度为N。
输出层:
特征编码后的向量序列,大小为N×dim。
掩码向量:大小为N×1。
中间过程:参考bert的输入。
向量化:字向量/词向量/特殊符号向量,大小为N×dim,可以采用已经预训练好的向量,也可以自己训练。
掩码向量:用于注意力机制,pad对应处为0,大小为N×1,基于bert句子归属向量改进,改进地方主要在于entity处的掩码值可以不为1。
位置向量:用于描述字符在句子中的位置,大小为N×1,可以采用transformer位置向量。
句子归属向量:用于描述不同句子,属于同一句子的值相同,大小为N×1,可以采用bert句子归属向量。
总的向量:向量化+位置向量+句子归属向量。
举例:
情况1,可以是cls+sentence+sep+entity+sep。
情况2,可以是cls+sentence+sep,此处靠掩码向量区分entity.目标实体处的值不等于普通字符的值。
二.深度特征编码层:
输入:网络输入层的输出。
特征编码后的向量序列,大小为N×dim。
掩码向量:大小为N×1。
输出:
特征编码后的向量序列,大小为N×dim_output。
中间过程:
基于多层双向lstm编码,层数作为模型超参数,默认为4。
基于多层双向的transformer编码,如bert或者xlnet编码,层数作为模型超参数,默认为12。
三.网络输出层:
输入:深度特征编码层的输出。
特征编码后的向量序列,大小为N×dim_output。
输出:
三级分类的概率,可以设置阈值得到分类结果。
二级分类的概率,可以设置阈值得到分类结果。
中间过程:
线性特征加权,将特征编码后的向量序列N×dim_output转换为1×dim_output维度的最终特征,方法可以是maxpooling,也可以是线性加权。
线性概率转换,将最终特征1×dim_output通过全连接层转换输出为1×level_2_num和1×level_3_num,level_2_num和level_3_num分别表示二级分类和三级分类的标签个数,分别归一化后的向量为属于每一类的概率。
本实施例中,优选的,所述步骤三中,网络的训练过程包括:
分类训练过程:
输入目标实体+问句,由上述分类网络计算得到二级分类和三级分类的每一类的概率。
通过分类概率和分类标签,结合分类损失函数,求得分类损失,损失函数如交叉熵损失。
通过误差反向传播更新网络参数,反复多轮迭代。
两种训练方式:
二级分类和三级分类单独训练,可以共享分类网络参数,也可以不共享。
二级分类和三级分类联合训练,共享分类网络参数;loss=loss_level_2*weight_level_2+loss_level_3*(1-weight_level_2)。
举例:
句子:本周六在xx市xx法院裁决张三公司涉嫌盗用李四公司的知识产权一案。
实体:张三公司;李四公司。
分析结果:张三公司+句子=抄袭剽窃;李四公司+句子=合作竞争。
实施例3
请参阅图1,本发明提供一种技术方案:一种基于目标实体的企业新闻风险分类方法,包括如下步骤:
步骤一:新闻分句:将一篇新闻通过文本分句方式拆分成若干句话;分句方法为特殊标点符号分句;
步骤二:目标实体抽取:结合目标实体数据库,当内容包含有一个或者多个目标实体时,目标实体和内容的组合作为重点分析对象;实体抽取方法为基于bert序列标注模型;
步骤三:新闻内容分类:采用深度学习技术构建分类网络;对分类网络进行分类训练;
步骤四:统计分类结果:此处包含有目标实体的别名,将同一实体的多个结果合并,统计这篇新闻中的每个企业实体关于分类类别的一个统计直方图和概率向量,基于该概率向量,结合风险分类的标签(如正负),可以训练定制化的风险分类器;
步骤五:数据库存储:将新闻分析的结果存入云数据库中,并对存储的数据进行加密处理;加密的类型为密钥加密;
步骤六:推送展示:原有篇章基础上增加如风险类别推送,及对应的具体新闻内容推送;推送的方法如下:
步骤一:检测用户对网页的滚动操作时长,确定用户浏览新闻内容的长度;
步骤二:将确定的浏览新闻内容的长度与预设内容长度进行比对,确定用户感兴趣的新闻内容;
步骤三:根据用户感兴趣的内容,推送与此相关的新闻内容网页。
本实施例中,优选的,所述步骤三中,采用深度学习技术构建分类网络,网络分为三个主要模块,分别为网络输入层、深度特征编码层、网络输出层;
一.网络输入层:
输入:分析的句子和目标实体,可能的其它特殊符号(比如cls\sep),以及用于批量计算时的句子长度规整补充符号pad,假设总长度为N。
输出层:
特征编码后的向量序列,大小为N×dim。
掩码向量:大小为N×1。
中间过程:参考bert的输入。
向量化:字向量/词向量/特殊符号向量,大小为N×dim,可以采用已经预训练好的向量,也可以自己训练。
掩码向量:用于注意力机制,pad对应处为0,大小为N×1,基于bert句子归属向量改进,改进地方主要在于entity处的掩码值可以不为1。
位置向量:用于描述字符在句子中的位置,大小为N×1,可以采用transformer位置向量。
句子归属向量:用于描述不同句子,属于同一句子的值相同,大小为N×1,可以采用bert句子归属向量。
总的向量:向量化+位置向量+句子归属向量。
举例:
情况1,可以是cls+sentence+sep+entity+sep。
情况2,可以是cls+sentence+sep,此处靠掩码向量区分entity.目标实体处的值不等于普通字符的值。
二.深度特征编码层:
输入:网络输入层的输出。
特征编码后的向量序列,大小为N×dim。
掩码向量:大小为N×1。
输出:
特征编码后的向量序列,大小为N×dim_output。
中间过程:
基于多层双向lstm编码,层数作为模型超参数,默认为4。
基于多层双向的transformer编码,如bert或者xlnet编码,层数作为模型超参数,默认为12。
三.网络输出层:
输入:深度特征编码层的输出。
特征编码后的向量序列,大小为N×dim_output。
输出:
三级分类的概率,可以设置阈值得到分类结果。
二级分类的概率,可以设置阈值得到分类结果。
中间过程:
线性特征加权,将特征编码后的向量序列N×dim_output转换为1×dim_output维度的最终特征,方法可以是maxpooling,也可以是线性加权。
线性概率转换,将最终特征1×dim_output通过全连接层转换输出为1×level_2_num和1×level_3_num,level_2_num和level_3_num分别表示二级分类和三级分类的标签个数,分别归一化后的向量为属于每一类的概率。
本实施例中,优选的,所述步骤三中,网络的训练过程包括:
分类训练过程:
输入目标实体+问句,由上述分类网络计算得到二级分类和三级分类的每一类的概率。
通过分类概率和分类标签,结合分类损失函数,求得分类损失,损失函数如交叉熵损失。
通过误差反向传播更新网络参数,反复多轮迭代。
两种训练方式:
二级分类和三级分类单独训练,可以共享分类网络参数,也可以不共享。
二级分类和三级分类联合训练,共享分类网络参数;loss=loss_level_2*weight_level_2+loss_level_3*(1-weight_level_2)。
举例:
句子:本周六在xx市xx法院裁决张三公司涉嫌盗用李四公司的知识产权一案。
实体:张三公司;李四公司。
分析结果:张三公司+句子=抄袭剽窃;李四公司+句子=合作竞争。
需要补充的是:
输出类别如下:
企业变更:地址变动、名称变动;
持股变动:股权冻结、股权激励、股权解冻;
股票变动:股票停牌、股票减持、股票增持、股票增发、股票复牌、股票限售、股价利空、股价利好;
高管变动:高管辞职、高管招聘、高管去世、高管换届、违法乱纪;
行政监管:行政处罚、禁止入市、批评谴责、政府补助;
投资融资:对外投资、企业融资;
司法涉诉:失信被执行、刑事纠纷、民事纠纷;
欺诈骗局:涉嫌传销、非法集资、财务造假、内幕交易;
企业经营:业绩亏损、企业裁员、企业降薪、业绩盈利、企业扩张、企业加薪、信誉危机、资产转移、偷税漏税、资产重组、破产清算;
合作竞争:合作共赢、恶性竞争、抄袭剽窃、合作终止;
产品相关:产品发布、产品升级、优质产品、伪劣产品、产品倾销;
上市相关:上市失利、上市利好、上市路演;
事故信息:自然灾害、生产事故;
债务信息:抵押质押、债务违约、借贷相关。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (5)
1.一种基于目标实体的企业新闻风险分类方法,其特征在于:所述方法如下:
步骤一:新闻分句:将一篇新闻通过文本分句方式拆分成若干句话;
步骤二:目标实体抽取:结合目标实体数据库,当内容包含有一个或者多个目标实体时,目标实体和内容的组合作为重点分析对象;
步骤三:新闻内容分类:采用深度学习技术构建分类网络;对分类网络进行分类训练;采用深度学习技术构建分类网络,网络分为三个模块,分别为网络输入层、深度特征编码层、网络输出层;分类训练包括两种方式,一种是二级分类和三级分类单独训练,另一种是二级分类和三级分类联合训练;
步骤四:统计分类结果:此处包含有目标实体的别名,将同一实体的多个结果合并,统计这篇新闻中的每个企业实体关于分类类别的一个统计直方图和概率向量,基于该概率向量,结合风险分类的标签,可训练定制化的风险分类器;
步骤五:数据库存储:将新闻分析的结果存入云数据库中,并对存储的数据进行加密处理;
步骤六:推送展示:原有篇章基础上增加风险类别推送,及对应的具体新闻内容推送;
一.网络输入层:
输入:分析的句子和目标实体,其它特殊符号,以及用于批量计算时的句子长度规整补充符号pad,总长度为N;
输出层:
特征编码后的向量序列,大小为N×dim;
掩码向量:大小为N×1;
中间过程:参考bert的输入;
向量化:字向量/词向量/特殊符号向量,大小为N×dim,可采用已经预训练好的向量或自己训练;
掩码向量:用于注意力机制,pad对应处为0,大小为N×1,基于bert句子归属向量改进,改进地方在于entity处的掩码值可不为1;
位置向量:用于描述字符在句子中的位置,大小为N×1,可采用transformer位置向量;
句子归属向量:用于描述不同句子,属于同一句子的值相同,大小为N×1,可采用bert句子归属向量;
总的向量:向量化+位置向量+句子归属向量;
二.深度特征编码层:
输入:网络输入层的输出;
特征编码后的向量序列,大小为N×dim;
掩码向量:大小为N×1;
输出:
特征编码后的向量序列,大小为N×dim_output;
中间过程:
基于多层双向lstm编码,层数作为模型超参数,默认为4;
基于多层双向的transformer编码,可为bert或者xlnet编码,层数作为模型超参数,默认为12;
三.网络输出层:
输入:深度特征编码层的输出;
特征编码后的向量序列,大小为N×dim_output;
输出:
三级分类的概率,可设置阈值得到分类结果;
二级分类的概率,可设置阈值得到分类结果;
中间过程:
线性特征加权,将特征编码后的向量序列N×dim_output转换为1×dim_output维度的最终特征,方法为maxpooling或线性加权;
线性概率转换,将最终特征1×dim_output通过全连接层转换输出为1×level_2_num和1×level_3_num,level_2_num和level_3_num分别表示二级分类和三级分类的标签个数,分别归一化后的向量为属于每一类的概率;
分类训练过程:
输入目标实体+问句,由上述分类网络计算得到二级分类和三级分类的每一类的概率;
通过分类概率和分类标签,结合分类损失函数,求得分类损失,损失函数为交叉熵损失;
通过误差反向传播更新网络参数,反复多轮迭代;
两种训练方式:
二级分类和三级分类单独训练,可共享分类网络参数或不共享;
二级分类和三级分类联合训练,共享分类网络参数;loss=loss_level_2*weight_level_2+loss_level_3*(1-weight_level_2)。
2.根据权利要求1所述的一种基于目标实体的企业新闻风险分类方法,其特征在于:所述步骤一中,分句方法为ltp分句、结巴分句、特殊标点符号分句中的一种或几种。
3.根据权利要求1所述的一种基于目标实体的企业新闻风险分类方法,其特征在于:所述步骤二中,实体抽取方法为基于bert序列标注模型或bilstm序列标注模型。
4.根据权利要求1所述的一种基于目标实体的企业新闻风险分类方法,其特征在于:所述步骤五中,加密的类型为密钥加密或数字证书。
5.根据权利要求1所述的一种基于目标实体的企业新闻风险分类方法,其特征在于:所述步骤六中,推送的方法如下:
步骤一:检测用户对网页的滚动操作时长,确定用户浏览新闻内容的长度;
步骤二:将确定的浏览新闻内容的长度与预设内容长度进行比对,确定用户感兴趣的新闻内容;
步骤三:根据用户感兴趣的内容,推送与此相关的新闻内容网页。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910817159.5A CN110502638B (zh) | 2019-08-30 | 2019-08-30 | 一种基于目标实体的企业新闻风险分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910817159.5A CN110502638B (zh) | 2019-08-30 | 2019-08-30 | 一种基于目标实体的企业新闻风险分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110502638A CN110502638A (zh) | 2019-11-26 |
CN110502638B true CN110502638B (zh) | 2023-05-16 |
Family
ID=68590725
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910817159.5A Active CN110502638B (zh) | 2019-08-30 | 2019-08-30 | 一种基于目标实体的企业新闻风险分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110502638B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111639183B (zh) * | 2020-05-19 | 2023-11-28 | 民生科技有限责任公司 | 一种基于深度学习算法的金融同业舆情分析方法及系统 |
CN111859922B (zh) * | 2020-07-31 | 2023-12-01 | 上海银行股份有限公司 | 实体关系抽取技术在银行风控中的应用方法 |
CN112784602A (zh) * | 2020-12-03 | 2021-05-11 | 南京理工大学 | 基于远程监督的新闻情感实体抽取方法 |
CN113761837B (zh) * | 2021-05-20 | 2023-07-25 | 腾讯科技(深圳)有限公司 | 实体关系类型确定方法、装置和设备及存储介质 |
CN117150145B (zh) * | 2023-10-31 | 2024-01-02 | 成都企软数字科技有限公司 | 一种基于大语言模型的个性化新闻推荐方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2013200386A1 (en) * | 2005-12-30 | 2013-02-21 | Innovation Institute Llc | An adjustable pet door |
CN107193959A (zh) * | 2017-05-24 | 2017-09-22 | 南京大学 | 一种面向纯文本的企业实体分类方法 |
CN108595704A (zh) * | 2018-05-10 | 2018-09-28 | 成都信息工程大学 | 一种基于软分类模型的新闻情感和重要性分类方法 |
CN109155132A (zh) * | 2016-03-21 | 2019-01-04 | 亚马逊技术公司 | 说话者验证方法和系统 |
CN109800411A (zh) * | 2018-12-03 | 2019-05-24 | 哈尔滨工业大学(深圳) | 临床医疗实体及其属性抽取方法 |
CN110083702A (zh) * | 2019-04-15 | 2019-08-02 | 中国科学院深圳先进技术研究院 | 一种基于多任务学习的方面级别文本情感转换方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7181428B2 (en) * | 2001-01-30 | 2007-02-20 | Goldman, Sachs & Co. | Automated political risk management |
CN102023967A (zh) * | 2010-11-11 | 2011-04-20 | 清华大学 | 一种面向股票领域的文本情感分类方法 |
CN106776554A (zh) * | 2016-12-09 | 2017-05-31 | 厦门大学 | 一种基于多模态超图学习的微博情感预测方法 |
CN107770274A (zh) * | 2017-10-23 | 2018-03-06 | 林楚莲 | 一种网页推送方法及系统 |
CN108846547A (zh) * | 2018-05-06 | 2018-11-20 | 成都信息工程大学 | 一种动态调整的企业信用风险评估方法 |
CN109325120A (zh) * | 2018-09-14 | 2019-02-12 | 江苏师范大学 | 一种分离用户和产品注意力机制的文本情感分类方法 |
CN109492097B (zh) * | 2018-10-23 | 2021-11-16 | 重庆誉存大数据科技有限公司 | 一种企业新闻数据风险分类方法 |
CN109800305A (zh) * | 2018-12-31 | 2019-05-24 | 南京理工大学 | 基于自然标注的微博情绪分类方法 |
-
2019
- 2019-08-30 CN CN201910817159.5A patent/CN110502638B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2013200386A1 (en) * | 2005-12-30 | 2013-02-21 | Innovation Institute Llc | An adjustable pet door |
CN109155132A (zh) * | 2016-03-21 | 2019-01-04 | 亚马逊技术公司 | 说话者验证方法和系统 |
CN107193959A (zh) * | 2017-05-24 | 2017-09-22 | 南京大学 | 一种面向纯文本的企业实体分类方法 |
CN108595704A (zh) * | 2018-05-10 | 2018-09-28 | 成都信息工程大学 | 一种基于软分类模型的新闻情感和重要性分类方法 |
CN109800411A (zh) * | 2018-12-03 | 2019-05-24 | 哈尔滨工业大学(深圳) | 临床医疗实体及其属性抽取方法 |
CN110083702A (zh) * | 2019-04-15 | 2019-08-02 | 中国科学院深圳先进技术研究院 | 一种基于多任务学习的方面级别文本情感转换方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110502638A (zh) | 2019-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110502638B (zh) | 一种基于目标实体的企业新闻风险分类方法 | |
Cookson et al. | Does partisanship shape investor beliefs? Evidence from the COVID-19 pandemic | |
Han et al. | Artificial intelligence for anti-money laundering: a review and extension | |
Purda et al. | Accounting variables, deception, and a bag of words: Assessing the tools of fraud detection | |
US20120316916A1 (en) | Methods and systems for generating corporate green score using social media sourced data and sentiment analysis | |
CN108108352A (zh) | 一种基于机器学习文本挖掘技术的企业投诉风险预警方法 | |
CN111597348B (zh) | 用户画像方法、装置、计算机设备和存储介质 | |
EP2798604A2 (en) | Methods and systems for generating composite index using social media sourced data and sentiment analysis | |
US11263523B1 (en) | System and method for organizational health analysis | |
Wang et al. | The textual contents of media reports of information security breaches and profitable short-term investment opportunities | |
US20220164397A1 (en) | Systems and methods for analyzing media feeds | |
CN112419030B (zh) | 财务舞弊风险评估的方法、系统及设备 | |
CN113297283A (zh) | 用于企业风险预警的舆情分析方法及系统 | |
CN112419029B (zh) | 类金融机构风险监控方法、风险模拟系统及存储介质 | |
Brown et al. | Financial statement adequacy and firms' MD&A disclosures | |
CN113095927A (zh) | 一种反洗钱可疑交易识别方法及设备 | |
Lee et al. | Esg discourse analysis through bertopic: comparing news articles and academic papers | |
Da et al. | Non-financial indicators for credit risk analysis of Chinese technology-oriented micro and small enterprises | |
CN112632964B (zh) | 基于nlp的行业政策信息处理方法、装置、设备及介质 | |
CN110222180A (zh) | 一种文本数据分类与信息挖掘方法 | |
CN117077682A (zh) | 基于语义识别的公文分析方法及系统 | |
CN114861205A (zh) | 一种安全性能高的基于数据分类分级的隐私保护系统 | |
CN112434126B (zh) | 一种信息处理方法、装置、设备和存储介质 | |
CN114493224A (zh) | 企业可持续发展程度评价方法和装置 | |
Sun | Deep learning applications in audit decision making |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: 401121 Floor 9, Block C, Qilin Tower, No. 53-2, Middle Section of Mount Huangshan Avenue, Yubei District, Chongqing Patentee after: Chongqing Yucun Technology Co.,Ltd. Country or region after: China Address before: 401121 Floor 9, Block C, Qilin Tower, No. 53-2, Middle Section of Mount Huangshan Avenue, Yubei District, Chongqing Patentee before: CHONGQING SOCIALCREDITS BIG DATA TECHNOLOGY CO.,LTD. Country or region before: China |
|
CP03 | Change of name, title or address |