CN113297283A

CN113297283A - 用于企业风险预警的舆情分析方法及系统

Info

Publication number: CN113297283A
Application number: CN202011264306.XA
Authority: CN
Inventors: 李加庆
Original assignee: Suning Financial Technology Nanjing Co Ltd
Current assignee: Suning Financial Technology Nanjing Co Ltd
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2021-08-24
Also published as: CA3138730C; CA3138730A1

Abstract

本发明公开一种用于企业风险预警的舆情分析方法及系统，能够在减轻人工工作量的前提下，准确高效的向相关企业提供舆情分析和预警服务。该方法包括：从任一指定网站中采集舆情文本数据，并针对舆情文本数据的网站来源构建数据源序列；基于预设的风险标签集对舆情文本数据的风险标签进行匹配，并构建风险标签序列；利用情感分类模型对舆情文本数据进行情感极性的分类构建情感极性序列，以及对舆情文本数据中关联的企业实体名称进行识别构建企业关联序列；根据舆情文本数据对应的数据源序列、风险标签序列、情感极性序列和企业关联序列，计算输出舆情分析结果。该系统应用有上述方案所提的方法。

Description

用于企业风险预警的舆情分析方法及系统

技术领域

本发明涉及互联网技术领域，尤其涉及一种用于企业风险预警的舆情分析方法及系统。

背景技术

目前企业风险预警领域越来越依赖并受益于人工智能及自然语言处理等技术的应用，随着大量网络舆情的出现，企业的负面舆情或者风险事件对于企业风险的识别与预警起着关键的作用。

对于需要关注企业风险的用户来说，如贷款审批经理或者风险控制经理，他们关注企业的风险事件，获取足够多的风险事件信息对于了解企业的风险状态至关重要，但这需要大量的人工工作和成本，当企业数量众多时，人工难以覆盖全面的信息，特别是对于网络上出现的大量与企业相关的舆情信息，人工阅读比较耗时，难以准确对相关企业进行风险预警。

发明内容

本发明的目的在于提供一种用于企业风险预警的舆情分析方法，能够在减轻人工工作量的前提下，准确高效的向相关企业提供舆情分析和预警服务。

为了实现上述目的，本发明的第一方面提供一种用于企业风险预警的舆情分析方法，包括：

从任一指定网站中采集舆情文本数据，并针对所述舆情文本数据的网站来源构建数据源序列；

基于预设的风险标签集对所述舆情文本数据的风险标签进行匹配，并构建风险标签序列；

利用情感分类模型对所述舆情文本数据进行情感极性的分类构建情感极性序列，以及对所述舆情文本数据中关联的企业实体名称进行识别构建企业关联序列；

根据所述舆情文本数据对应的数据源序列、风险标签序列、情感极性序列和企业关联序列，计算输出舆情分析结果。

优选地，针对所述舆情文本数据的网站来源构建数据源序列的方法包括：

统计指定网站的总数量并配置各指定网站的信用权重，构建与总数量维度一致的数据源序列集；

识别来源网站在数据源序列集中的位置，构建对应的数据源序列同时匹配对应的信用权重。

优选地，基于预设的风险标签集对所述舆情文本数据的风险标签进行匹配之前还包括：

预先构建风险标签集，所述风险标签集包括多个风险标签类别，且每个风险标签类别对应至少一个风险关键词；

针对风险标签集中的各风险标签类别配置相应的风险权重。

较佳地，基于预设的风险标签集对所述舆情文本数据的风险标签进行匹配，并构建风险标签序列的方法包括：

采用文本关键词匹配的方式对所述舆情文本数据进行风险关键词的匹配，并根据匹配结果查找对应的风险标签类别；

基于所述风险标签类别在风险标签集中的所属位置，构建风险标签序列。

优选地，情感分类模型的训练方法包括：

从获取的舆情语料中分别抽取各种情感极性的舆情语料，构建标注语料集；

基于标注语料集采用LSTM或者TextCNN模型架构训练情感分类模型；

所述情感极性的分类包括积极情感、中性情感和消极情感，所述情感极性序列为3种情感极性之一的序列表示。

较佳地，利用情感分类模型对所述舆情文本数据进行情感极性的分类构建情感极性序列之后还包括：

针对每种情感极性配置相应的极性权重。

优选地，对所述舆情文本数据中关联的企业实体名称进行识别构建企业关联序列的方法包括：

预先构建包括多个企业实体的企业监控列表；

结合中文分词工具和/或NER命名实体识别工具采用关键词匹配的方式识别出所述舆情文本数据关联的企业实体名称；

基于企业实体名在企业监控列表中的所属位置，构建企业关联序列。

优选地，根据所述舆情文本数据对应的数据源序列、风险标签序列、情感极性序列和企业关联序列，计算输出舆情分析结果之前还包括：

预先设定多种风险预警等级，同时定义每种风险预警等级的边界区间。

较佳地，根据所述舆情文本数据对应的数据源序列、风险标签序列、情感极性序列和企业关联序列，计算输出舆情分析结果的方法包括：

采用舆情风险预警公式

对所述舆情文本数据的风险值进行计算；

结合企业关联序列计算所述舆情文本数据对应的预警值，并基于所属的边界区间输出相应的风险预警等级；

所述R_i表示对应风险标签类别的风险权重，所述L_i表示风险标签序列，所述n表示风险标签集中风险标签类别的总数量，所述W_i表示指定网站的信用权重，所述S_i表示数据源序列，所述k表示指定网站的总数量，所述Q_i表示极性权重，所述T_i表示情感极性序列，所述p表示情感极性的总数量。

与现有技术相比，本发明提供的用于企业风险预警的舆情分析方法具有以下有益效果：

本发明提供的用于企业风险预警的舆情分析方法中，通过从任一指定网站中采集舆情文本数据，处理后构建网站来源的网站来源，以及基于预设的风险标签集对舆情文本数据的风险标签进行匹配构建风险标签序列，同时利用情感分类模型对舆情文本数据进行情感极性的分类构建情感极性序列，以及对舆情文本数据中关联的企业实体名称进行识别构建企业关联序列，最终根据舆情文本数据对应的数据源序列、风险标签序列、情感极性序列和企业关联序列，计算输出舆情分析结果。

可见，本发明通过多维度的数据处理，对企业潜在的风险信息进行深度挖掘形成一套舆情分析流程，实现对企业潜在风险进行智能化预警的功能，进而辅助风险业务人员更高效地进行企业风险管控与评估。

本发明的第二方面提供一种用于企业风险预警的舆情分析系统，应用于上述技术方案所述的用于企业风险预警的舆情分析方法中，所述系统包括：

舆情采集模块，用于从任一指定网站中采集舆情文本数据，并针对所述舆情文本数据的网站来源构建数据源序列；

风险标签模块，用于基于预设的风险标签集对所述舆情文本数据的风险标签进行匹配，并构建风险标签序列；

情感极性及实体名称识别模块，用于利用情感分类模型对所述舆情文本数据进行情感极性的分类构建情感极性序列，以及对所述舆情文本数据中关联的企业实体名称进行识别构建企业关联序列；

预警输出模块，用于根据所述舆情文本数据对应的数据源序列、风险标签序列、情感极性序列和企业关联序列，计算输出舆情分析结果。

与现有技术相比，本发明提供的用于企业风险预警的舆情分析系统的有益效果与上述技术方案提供的用于企业风险预警的舆情分析方法的有益效果相同，在此不做赘述。

本发明的第三方面提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述用于企业风险预警的舆情分析方法的步骤。

与现有技术相比，本发明提供的计算机可读存储介质的有益效果与上述技术方案提供的用于企业风险预警的舆情分析方法的有益效果相同，在此不做赘述。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例中用于企业风险预警的舆情分析方法的一种流程示意图；

图2为本发明实施例中用于企业风险预警的舆情分析方法的另一种流程示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例，均属于本发明保护的范围。

实施例一

请参阅图1和图2，本实施例提供一种用于企业风险预警的舆情分析方法，包括：

从任一指定网站中采集舆情文本数据，并针对舆情文本数据的网站来源构建数据源序列；基于预设的风险标签集对舆情文本数据的风险标签进行匹配，并构建风险标签序列；利用情感分类模型对舆情文本数据进行情感极性的分类构建情感极性序列，以及对舆情文本数据中关联的企业实体名称进行识别构建企业关联序列；根据舆情文本数据对应的数据源序列、风险标签序列、情感极性序列和企业关联序列，计算输出舆情分析结果。

本实施例提供的用于企业风险预警的舆情分析方法中，通过从任一指定网站中采集舆情文本数据，处理后构建网站来源的网站来源，以及基于预设的风险标签集对舆情文本数据的风险标签进行匹配构建风险标签序列，同时利用情感分类模型对舆情文本数据进行情感极性的分类构建情感极性序列，以及对舆情文本数据中关联的企业实体名称进行识别构建企业关联序列，最终根据舆情文本数据对应的数据源序列、风险标签序列、情感极性序列和企业关联序列，计算输出舆情分析结果。

可见，本实施例通过多维度的数据处理，对企业潜在的风险信息进行深度挖掘形成一套舆情分析流程，实现对企业潜在风险进行智能化预警的功能，进而辅助风险业务人员更高效地进行企业风险管控与评估。

上述实施例中，针对舆情文本数据的网站来源构建数据源序列的方法包括：

统计指定网站的总数量并配置各指定网站的信用权重，构建与总数量维度一致的数据源序列集；识别来源网站在数据源序列集中的位置，构建对应的数据源序列同时匹配对应的信用权重。

具体实施时，舆情采集模块主要负责采集企业的舆情文本数据，并进行结构化数据提取。首先，需进行舆情数据源的设定配置，企业舆情的来源主要分为新闻网站、政府网站、论坛、社交平台、投诉网站等，来源序列为 S＝{S₁,S₂,…,S_k}，根据舆情的来源设定不同的信用权重W_i，用户也可以自定义配置该信用权重。该步骤还需设定舆情数据源的地址、栏目、采集频率、关键词等；其次，采用互联网数据采集工具对舆情文本数据进行获取，并采用Python或Java程序的html处理工具进行网页去噪、数据清洗、字段提取，将舆情网页数据按照标题、来源、链接、发布日期、正文、摘要、作者等字段进行结构化提取。

示例性地，舆情文本数据的采集过程分为以下几个步骤：

步骤1：采用Python或Java程序的html处理工具进行网页去噪、数据清洗和字段提取，将舆情文本数据按照标题、来源、链接、发布日期、正文、摘要、作者等字段进行结构化提取；如设置的指定网站列表为[“网站1”、“网站2”、“网站3”、“网站4”、“网站5”、“网站6”、“网站7”、“网站8”、“网站9”]，对应每个指定网站配置的信用权重为(范围1～5)： [5、5、3、5、3、3、5、5、4]。

步骤2：将提取出的结构化文本数据进行存储，形式如下：

上述实施例中，基于预设的风险标签集对所述舆情文本数据的风险标签进行匹配之前还包括：

预先构建风险标签集，所述风险标签集包括多个风险标签类别，且每个风险标签类别对应至少一个风险关键词；针对风险标签集中的各风险标签类别配置相应的风险权重。

基于预设的风险标签集对所述舆情文本数据的风险标签进行匹配，并构建风险标签序列的方法包括：

采用文本关键词匹配的方式对所述舆情文本数据进行风险关键词的匹配，并根据匹配结果查找对应的风险标签类别；基于所述风险标签类别在风险标签集中的所属位置，构建风险标签序列。

风险标签模块主要根据预先创建好的风险标签集，通过风险关键词匹配的方式提取舆情的风险标签。首先，针对企业舆情常见的风险事件类别以及用户关注的风险事件类别构建风险标签集，每个风险标签给予相应的风险权重R_j，该风险权重也可以由用户自定义配置。并整理每个风险标签对应的关键词集合，构成一个“标签-关键词词典”；其次，采用文本关键词匹配的方式，对舆情文本进行风险关键词匹配，并根据匹配结果进行相应标签标注，生成舆情的风险标签序列L＝{L₁,L₂,…,L_n}，其中n为风险标签的总数，L_i对应该风险标签的0/1标识，1表示舆情存在第i个标签，0表示舆情不存在第i个标签。

示例性地，舆情文本数据的风险标签匹配过程分为以下几个步骤：

步骤1：创建风险标签集，结合风险管理领域业务要求对舆情风险类别进行标签定义整理，得到一个风险标签集，比如：

[“破产停业”、“抵押质押”、“亏损”、“股权变动”、“违约暴雷”、“非法集资”、“侵权抄袭”、“合同纠纷”、“违规违法”、“造假欺诈”、“偷税漏税”、“安全事件”]；预设各风险标签类别的风险权重(范围为1～10) 对应为：[10、5、7、10、4、3、2、2、5、3、3]。

步骤2：整理风险标签类别对应的风险关键词集合，构成一个“标签-关键词词典”；示例性地：

{

破产停业：破产清算、破产、冻结、停业、业务暂停、停业整顿、查封、吊销、扣押、非标意见；

抵押质押：债务抵押、抵押债务、资不抵债、资产抵押、借款担保、股权质押；

亏损：亏损、恶化、欠款、业绩上升、销售额下降；

股权变动：股权变动、股权质押、权益变动、增持、减持、减资、分立、合并；

违约暴雷：债务违约、暴雷、跑路、逾期、失信人、兑付不确定、拖欠款项、P2P、黑名单、被执行、风险；

合同纠纷：合同纠纷、取消合同、劳务纠纷、劳务诉讼；

造假欺诈：财务造假、涉嫌欺诈、财务丑闻、诈骗；

非法集资：非法集资、集资诈骗；

偷税漏税：偷税、漏税、逃税；

侵权抄袭：侵权、抄袭；

安全事件：事故、信息泄露、隐私数据、数据泄露、生产事故；

违规违法：违法、违规、投诉、维权、传销、经侦介入、仲裁、犯罪、高利贷、刑事、起诉、涉黑涉恶、立案调查；

}；

步骤3：采用关键词匹配的方式，对舆情文本进行风险关键词匹配，根据匹配结果进行标签标注，得到风险标签序列。

假设采集的一条舆情文本数据为“XXXX承包工程事故连发，因违规施工被禁止承揽新项目……”，由于舆情文本数据中的“违规”一词与“违规违法”风险标签中的风险关键词能够匹配上，故该条舆情文本数据匹配的风险标签为“违规违法”，而其余风险标签均为匹配上，故仅在“违规违法”对应元素位置处的风险标签序列出标记为“1”，其余元素位置处的风险标签序列出标记为“0”，因此上述舆情文本数据对应的风险标签序列：[0、0、0、 0、0、0、0、0、0、0、1]。

上述实施例中，情感分类模型的训练方法包括：

从获取的舆情语料中分别抽取各种情感极性的舆情语料，构建标注语料集；基于标注语料集采用LSTM或者TextCNN模型架构训练情感分类模型；情感极性的分类包括积极情感、中性情感和消极情感，情感极性序列为3种情感极性之一的序列表示。

具体实施时，情感极性及实体名称识别模块依据预先定义的企业正负面的情感词典，从预先获取的舆情语料中抽取正中负(也即积极情感、中性情感和消极情感)三种情感极性类别的舆情数据集，形成标注语料集。例如：

[

“消极情感”舆情语料：

亏损17亿、电站减值某科技公司披露状况是否为行业共同痛点；

二月新片再次撤档、影视股九成跌停，院线股进入“冰河世纪”；

投诉某网络科技公司私自扣费,乱收费现象问题；

上海某快递效率太低快递小哥辞职转行了；

……

“舆情语料”舆情语料：

叫板“疫苗之王”XXXX！首款国产疫苗上市；

利好突至，万亿级板块又“炸了”千亿龙头涨停；

氢能源产业利好持续加码，两大细分领域迎长线成长空间；

某视频平台依然“稳健”；

……

“中性情感”舆情语料：

A某某、B某某、C某某都在倡导的“长期主义”，到底是什么；

对2020年的行情的想象；

告别蓄力待发的2019，迈向深度转型的2020；

某国央行为何选择1月初降准？为市场提供流动性；

……

]

对舆情语料进行文本预处理之后，采用基于大量企业舆情文本预先训练好的词向量模型作为该模型训练的文本向量表示，然后基于LSTM/TextCNN 对情感分类模型进行训练，因情感分类模型的训练为现有技术，故不作详细阐述，只做结果说明。经统计，本实施例得到的情感分类模型基于10万条数据的模型准确率为87％，满足预期效果。

上述实施例中，利用情感分类模型对舆情文本数据进行情感极性的分类构建情感极性序列之后还包括：

针对每种情感极性配置相应的极性权重Q_i，Q_i＝{Q₁,Q₂,Q₃}，情感极性序列T_i＝{T₁,T₂,T₃}，T₁表示积极情感，T₂表示中性情感，T₃表示消极情感，Q₁表示积极情感对应的极性权重，Q₂表示中性情感对应的极性权重，Q₃表示消极情感对应的极性权重。

上述实施例中，对舆情文本数据中关联的企业实体名称进行识别构建企业关联序列的方法包括：

预先构建包括多个企业实体的企业监控列表；结合中文分词工具和/或 NER命名实体识别工具采用关键词匹配的方式识别出舆情文本数据关联的企业实体名称；基于企业实体名在企业监控列表中的所属位置，构建企业关联序列。

具体实施时，通过舆情处理平台对采集的舆情文本数据进行企业实体识别、舆情风险标签提取、舆情情感极性分析等处理，并通过个性化配置服务提供标准化的应用配置接口。

第一步，通过舆情输入模块从采集到舆情数据源中订阅实时获取到的舆情文本数据，对舆情标题、正文、摘要文本进行文本预处理，去除不必要的停用词，并进行中文分词；第二步，舆情标签处理及情感极性分类，将预处理后的舆情文本数据输入风险标签模块，得到风险标签序列；输入情感极性分析模块得到情感极性标签，如积极情感、中性情感或消极情感；第三步，通过企业监控列表，结合中文分词工具和NER命名实体识别工具以及关键词匹配，基于监控企业的全称、简称及别名词典，提取出舆情文本数据关联的企业实体，将舆情文本数据与企业实体做关联，得到企业关联序列 E＝{E₁,E₂,…,E_m}，其中m为全部监控企业数，E_i为0/1标识，1表示舆情关联第i个企业，0表示不关联。该平台的个性化配置模块，可以提供企业监控列表的同步、情感极性词典的更新、舆情来源及风险标签权重的设定等。

示例性地，对于舆情文本数据“XXXX承包工程事故连发被禁止承揽新项目……”，经过情感极性分类后，该舆情情感标签为消极情感，经过关联企业实体提取，该舆情关联企业对应监控企业列表序列为

[……、0、1、0、……]。

上述实施例中，根据舆情文本数据对应的数据源序列、风险标签序列、情感极性序列和企业关联序列，计算输出舆情分析结果之前还包括：

具体实施时，根据用户订阅的预警标签和企业监控列表J＝{J₁,J₂,…,J_m}，J_i为0/1标识，根据舆情文本数据的数据源序列、信用权重、风险标签序列、风险权重、情感极性序列、极性权以及企业关联序列，计算风险预警分值，并根据风险阈值划分预警等级，对符合条件的企业舆情信息进行预警推送。

示例性地，风险预警等级A＝{不预警、一般、重要、严重}，对应每种风险预警等级的边界区间分别为：H＝{H₁,H₂,H₃}，也就是说分值小于H₁对应的风险预警等级为不预警，分值大于H₁小于H₂对应的风险预警等级为一般，分值大于H₂小于H₃对应的风险预警等级为重要，分值大于H₃对应的风险预警等级为严重，情感极性对应的分值为Q＝{Q₁,Q₂,Q₃}，舆情文本数据所对应的情感极性序列为T＝{T₁,T₂,T₃}，其中只有一个T_i为1，另外两个为0。

根据舆情文本数据对应的数据源序列、风险标签序列、情感极性序列和企业关联序列，计算输出舆情分析结果的方法包括：

采用舆情风险预警公式

对舆情文本数据的风险值进行计算；结合企业关联序列计算舆情文本数据对应的预警值，并基于所属的边界区间输出相应的风险预警等级；R_i表示对应风险标签类别的风险权重，L_i表示风险标签序列，n表示风险标签集中风险标签类别的总数量，W_i表示指定网站的信用权重，S_i表示数据源序列，k表示指定网站的总数量，Q_i表示极性权重，T_i表示情感极性序列，所述p表示情感极性的总数量。

具体实施时，对于某用户来说，某条舆情文本数据的风险预警分值计算公式为：

用<x，y>表示向量内积，上面公式表示为

z＝<R,L>+〈W,S>+<Q,T>

结合关联企业的序列信息，令

z′＝z·ε(<E，J>)

其中，ε(x)为单位阶跃函数，

可以理解的是，当该条舆情文本数据的企业实体名称存在于企业监控列表，则ε(x)的值为1，此时对其进行风险预警分值的计算，当该条舆情文本数据的企业实体名称不存在于企业监控列表，则ε(x)的值为0，此时不再对其进行风险预警分值的计算。

进一步地，预警标识为Output(z′)＝＜Y(z′),A＞，其中 Y(x)＝{y₁(x),y₂(x),y₃(x),y₄(x)}，二值函数y₁(x),y₂(x),y₃(x),y₄(x)的取值为True或False(1或0)：

y₁(x)＝0≤x<H₁

y₂(x)＝H₁≤x<H₂

y₃(x)＝H₂≤x<H₃

y₄(x)＝x≥H₃

输出Output(z′)为预警标识：不预警、一般、重要或严重。

举例说明，风险预警等级A＝{不预警、一般、重要、严重}，对应的阈值边界分别为：H＝{H₁＝5,H₂＝10,H₃＝30}。

情感极性(积极情感、中性情感和消极情感)对应的分值为Q＝{1,2,3}，该条舆情文本数据所对应的情感极性序列为T＝{0,0,1}.

以输入舆情文本数据为“XXXX承包工程事故连发被禁止承揽新项目……”为例，该舆情文本数据来源为某网站，对应数据源序列向量为[0、0、 0、1、0、0、0、0、0]，并且用户订阅的预警标签包含“安全事故”，企业监控列表中包括XXXX。

根据风险预警分值计算公式：

z＝<R，L>+<W,S>+<Q，T>＝5+3+3＝11

该舆情文本数据有关联企业(XXXX)在用户监控的企业中，因此<E,J>＞0，所以ε(<E,J>)＝1，从而得到z′＝z·ε(<E,J>)＝z＝11。

进一步地，由于H₂<z′<H₃，因此Y(z′)＝{0,0,1,0}，得到预警标识为 Output(z′)＝<Y(z′),A>＝“重要”。该预警输出模块给该用户输出舆情“XXXX 承包工程事故连发被禁止承揽新项目……”为“重要”预警。

综上，本实施例中的方案旨在对企业潜在的风险信息进行挖掘，提供自动化及个性化的配置方案，形成一套舆情分析流程，实现对企业潜在风险进行智能化预警的功能，进而辅助风险业务人员更高效地进行企业风险管控与评估。

实施例二

本实施例提供一种用于企业风险预警的舆情分析系统，包括：

与现有技术相比，本发明实施例提供的用于企业风险预警的舆情分析系统的有益效果与上述实施例一提供的用于企业风险预警的舆情分析方法的有益效果相同，在此不做赘述。

实施例三

本实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述用于企业风险预警的舆情分析方法的步骤。

与现有技术相比，本实施例提供的计算机可读存储介质的有益效果与上述技术方案提供的用于企业风险预警的舆情分析方法的有益效果相同，在此不做赘述。

本领域普通技术人员可以理解，实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，上述程序可以存储于计算机可读取存储介质中，该程序在执行时，包括上述实施例方法的各步骤，而的存储介质可以是：ROM/RAM、磁碟、光盘、存储卡等。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种用于企业风险预警的舆情分析方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，针对所述舆情文本数据的网站来源构建数据源序列的方法包括：

3.根据权利要求1所述的方法，其特征在于，基于预设的风险标签集对所述舆情文本数据的风险标签进行匹配之前还包括：

针对风险标签集中的各风险标签类别配置相应的风险权重。

4.根据权利要求3所述的方法，其特征在于，基于预设的风险标签集对所述舆情文本数据的风险标签进行匹配，并构建风险标签序列的方法包括：

5.根据权利要求1所述的方法，其特征在于，情感分类模型的训练方法包括：

6.根据权利要求5所述的方法，其特征在于，利用情感分类模型对所述舆情文本数据进行情感极性的分类构建情感极性序列之后还包括：

针对每种情感极性配置相应的极性权重。

7.根据权利要求1所述的方法，其特征在于，对所述舆情文本数据中关联的企业实体名称进行识别构建企业关联序列的方法包括：

预先构建包括多个企业实体的企业监控列表；

8.根据权利要求1所述的方法，其特征在于，根据所述舆情文本数据对应的数据源序列、风险标签序列、情感极性序列和企业关联序列，计算输出舆情分析结果之前还包括：

9.根据权利要求8所述的方法，其特征在于，根据所述舆情文本数据对应的数据源序列、风险标签序列、情感极性序列和企业关联序列，计算输出舆情分析结果的方法包括：

采用舆情风险预警公式

对所述舆情文本数据的风险值进行计算；

10.一种用于企业风险预警的舆情分析系统，其特征在于，包括：