CN113297283A - 用于企业风险预警的舆情分析方法及系统 - Google Patents
用于企业风险预警的舆情分析方法及系统 Download PDFInfo
- Publication number
- CN113297283A CN113297283A CN202011264306.XA CN202011264306A CN113297283A CN 113297283 A CN113297283 A CN 113297283A CN 202011264306 A CN202011264306 A CN 202011264306A CN 113297283 A CN113297283 A CN 113297283A
- Authority
- CN
- China
- Prior art keywords
- sequence
- risk
- public opinion
- text data
- enterprise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 48
- 230000008451 emotion Effects 0.000 claims abstract description 107
- 238000000034 method Methods 0.000 claims abstract description 46
- 238000013145 classification model Methods 0.000 claims abstract description 20
- 238000012544 monitoring process Methods 0.000 claims description 13
- 230000007935 neutral effect Effects 0.000 claims description 9
- 230000002996 emotional effect Effects 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 description 9
- 230000009286 beneficial effect Effects 0.000 description 6
- 238000003860 storage Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 229960005486 vaccine Drugs 0.000 description 2
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 208000035475 disorder Diseases 0.000 description 1
- 238000004146 energy storage Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 239000001257 hydrogen Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 238000007789 sealing Methods 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 230000008961 swelling Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Resources & Organizations (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Strategic Management (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Quality & Reliability (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Development Economics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Evolutionary Biology (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种用于企业风险预警的舆情分析方法及系统,能够在减轻人工工作量的前提下,准确高效的向相关企业提供舆情分析和预警服务。该方法包括:从任一指定网站中采集舆情文本数据,并针对舆情文本数据的网站来源构建数据源序列;基于预设的风险标签集对舆情文本数据的风险标签进行匹配,并构建风险标签序列;利用情感分类模型对舆情文本数据进行情感极性的分类构建情感极性序列,以及对舆情文本数据中关联的企业实体名称进行识别构建企业关联序列;根据舆情文本数据对应的数据源序列、风险标签序列、情感极性序列和企业关联序列,计算输出舆情分析结果。该系统应用有上述方案所提的方法。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种用于企业风险预警的舆情分析方法及系统。
背景技术
目前企业风险预警领域越来越依赖并受益于人工智能及自然语言处理等技术的应用,随着大量网络舆情的出现,企业的负面舆情或者风险事件对于企业风险的识别与预警起着关键的作用。
对于需要关注企业风险的用户来说,如贷款审批经理或者风险控制经理,他们关注企业的风险事件,获取足够多的风险事件信息对于了解企业的风险状态至关重要,但这需要大量的人工工作和成本,当企业数量众多时,人工难以覆盖全面的信息,特别是对于网络上出现的大量与企业相关的舆情信息,人工阅读比较耗时,难以准确对相关企业进行风险预警。
发明内容
本发明的目的在于提供一种用于企业风险预警的舆情分析方法,能够在减轻人工工作量的前提下,准确高效的向相关企业提供舆情分析和预警服务。
为了实现上述目的,本发明的第一方面提供一种用于企业风险预警的舆情分析方法,包括:
从任一指定网站中采集舆情文本数据,并针对所述舆情文本数据的网站来源构建数据源序列;
基于预设的风险标签集对所述舆情文本数据的风险标签进行匹配,并构建风险标签序列;
利用情感分类模型对所述舆情文本数据进行情感极性的分类构建情感极性序列,以及对所述舆情文本数据中关联的企业实体名称进行识别构建企业关联序列;
根据所述舆情文本数据对应的数据源序列、风险标签序列、情感极性序列和企业关联序列,计算输出舆情分析结果。
优选地,针对所述舆情文本数据的网站来源构建数据源序列的方法包括:
统计指定网站的总数量并配置各指定网站的信用权重,构建与总数量维度一致的数据源序列集;
识别来源网站在数据源序列集中的位置,构建对应的数据源序列同时匹配对应的信用权重。
优选地,基于预设的风险标签集对所述舆情文本数据的风险标签进行匹配之前还包括:
预先构建风险标签集,所述风险标签集包括多个风险标签类别,且每个风险标签类别对应至少一个风险关键词;
针对风险标签集中的各风险标签类别配置相应的风险权重。
较佳地,基于预设的风险标签集对所述舆情文本数据的风险标签进行匹配,并构建风险标签序列的方法包括:
采用文本关键词匹配的方式对所述舆情文本数据进行风险关键词的匹配,并根据匹配结果查找对应的风险标签类别;
基于所述风险标签类别在风险标签集中的所属位置,构建风险标签序列。
优选地,情感分类模型的训练方法包括:
从获取的舆情语料中分别抽取各种情感极性的舆情语料,构建标注语料集;
基于标注语料集采用LSTM或者TextCNN模型架构训练情感分类模型;
所述情感极性的分类包括积极情感、中性情感和消极情感,所述情感极性序列为3种情感极性之一的序列表示。
较佳地,利用情感分类模型对所述舆情文本数据进行情感极性的分类构建情感极性序列之后还包括:
针对每种情感极性配置相应的极性权重。
优选地,对所述舆情文本数据中关联的企业实体名称进行识别构建企业关联序列的方法包括:
预先构建包括多个企业实体的企业监控列表;
结合中文分词工具和/或NER命名实体识别工具采用关键词匹配的方式识别出所述舆情文本数据关联的企业实体名称;
基于企业实体名在企业监控列表中的所属位置,构建企业关联序列。
优选地,根据所述舆情文本数据对应的数据源序列、风险标签序列、情感极性序列和企业关联序列,计算输出舆情分析结果之前还包括:
预先设定多种风险预警等级,同时定义每种风险预警等级的边界区间。
较佳地,根据所述舆情文本数据对应的数据源序列、风险标签序列、情感极性序列和企业关联序列,计算输出舆情分析结果的方法包括:
结合企业关联序列计算所述舆情文本数据对应的预警值,并基于所属的边界区间输出相应的风险预警等级;
所述Ri表示对应风险标签类别的风险权重,所述Li表示风险标签序列,所述n表示风险标签集中风险标签类别的总数量,所述Wi表示指定网站的信用权重,所述Si表示数据源序列,所述k表示指定网站的总数量,所述Qi表示极性权重,所述Ti表示情感极性序列,所述p表示情感极性的总数量。
与现有技术相比,本发明提供的用于企业风险预警的舆情分析方法具有以下有益效果:
本发明提供的用于企业风险预警的舆情分析方法中,通过从任一指定网站中采集舆情文本数据,处理后构建网站来源的网站来源,以及基于预设的风险标签集对舆情文本数据的风险标签进行匹配构建风险标签序列,同时利用情感分类模型对舆情文本数据进行情感极性的分类构建情感极性序列,以及对舆情文本数据中关联的企业实体名称进行识别构建企业关联序列,最终根据舆情文本数据对应的数据源序列、风险标签序列、情感极性序列和企业关联序列,计算输出舆情分析结果。
可见,本发明通过多维度的数据处理,对企业潜在的风险信息进行深度挖掘形成一套舆情分析流程,实现对企业潜在风险进行智能化预警的功能,进而辅助风险业务人员更高效地进行企业风险管控与评估。
本发明的第二方面提供一种用于企业风险预警的舆情分析系统,应用于上述技术方案所述的用于企业风险预警的舆情分析方法中,所述系统包括:
舆情采集模块,用于从任一指定网站中采集舆情文本数据,并针对所述舆情文本数据的网站来源构建数据源序列;
风险标签模块,用于基于预设的风险标签集对所述舆情文本数据的风险标签进行匹配,并构建风险标签序列;
情感极性及实体名称识别模块,用于利用情感分类模型对所述舆情文本数据进行情感极性的分类构建情感极性序列,以及对所述舆情文本数据中关联的企业实体名称进行识别构建企业关联序列;
预警输出模块,用于根据所述舆情文本数据对应的数据源序列、风险标签序列、情感极性序列和企业关联序列,计算输出舆情分析结果。
与现有技术相比,本发明提供的用于企业风险预警的舆情分析系统的有益效果与上述技术方案提供的用于企业风险预警的舆情分析方法的有益效果相同,在此不做赘述。
本发明的第三方面提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述用于企业风险预警的舆情分析方法的步骤。
与现有技术相比,本发明提供的计算机可读存储介质的有益效果与上述技术方案提供的用于企业风险预警的舆情分析方法的有益效果相同,在此不做赘述。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例中用于企业风险预警的舆情分析方法的一种流程示意图;
图2为本发明实施例中用于企业风险预警的舆情分析方法的另一种流程示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,均属于本发明保护的范围。
实施例一
请参阅图1和图2,本实施例提供一种用于企业风险预警的舆情分析方法,包括:
从任一指定网站中采集舆情文本数据,并针对舆情文本数据的网站来源构建数据源序列;基于预设的风险标签集对舆情文本数据的风险标签进行匹配,并构建风险标签序列;利用情感分类模型对舆情文本数据进行情感极性的分类构建情感极性序列,以及对舆情文本数据中关联的企业实体名称进行识别构建企业关联序列;根据舆情文本数据对应的数据源序列、风险标签序列、情感极性序列和企业关联序列,计算输出舆情分析结果。
本实施例提供的用于企业风险预警的舆情分析方法中,通过从任一指定网站中采集舆情文本数据,处理后构建网站来源的网站来源,以及基于预设的风险标签集对舆情文本数据的风险标签进行匹配构建风险标签序列,同时利用情感分类模型对舆情文本数据进行情感极性的分类构建情感极性序列,以及对舆情文本数据中关联的企业实体名称进行识别构建企业关联序列,最终根据舆情文本数据对应的数据源序列、风险标签序列、情感极性序列和企业关联序列,计算输出舆情分析结果。
可见,本实施例通过多维度的数据处理,对企业潜在的风险信息进行深度挖掘形成一套舆情分析流程,实现对企业潜在风险进行智能化预警的功能,进而辅助风险业务人员更高效地进行企业风险管控与评估。
上述实施例中,针对舆情文本数据的网站来源构建数据源序列的方法包括:
统计指定网站的总数量并配置各指定网站的信用权重,构建与总数量维度一致的数据源序列集;识别来源网站在数据源序列集中的位置,构建对应的数据源序列同时匹配对应的信用权重。
具体实施时,舆情采集模块主要负责采集企业的舆情文本数据,并进行结构化数据提取。首先,需进行舆情数据源的设定配置,企业舆情的来源主要分为新闻网站、政府网站、论坛、社交平台、投诉网站等,来源序列为 S={S1,S2,…,Sk},根据舆情的来源设定不同的信用权重Wi,用户也可以自定义配置该信用权重。该步骤还需设定舆情数据源的地址、栏目、采集频率、关键词等;其次,采用互联网数据采集工具对舆情文本数据进行获取,并采用Python或Java程序的html处理工具进行网页去噪、数据清洗、字段提取,将舆情网页数据按照标题、来源、链接、发布日期、正文、摘要、作者等字段进行结构化提取。
示例性地,舆情文本数据的采集过程分为以下几个步骤:
步骤1:采用Python或Java程序的html处理工具进行网页去噪、数据清洗和字段提取,将舆情文本数据按照标题、来源、链接、发布日期、正文、摘要、作者等字段进行结构化提取;如设置的指定网站列表为[“网站1”、“网站2”、“网站3”、“网站4”、“网站5”、“网站6”、“网站7”、“网站8”、“网站9”],对应每个指定网站配置的信用权重为(范围1~5): [5、5、3、5、3、3、5、5、4]。
步骤2:将提取出的结构化文本数据进行存储,形式如下:
上述实施例中,基于预设的风险标签集对所述舆情文本数据的风险标签进行匹配之前还包括:
预先构建风险标签集,所述风险标签集包括多个风险标签类别,且每个风险标签类别对应至少一个风险关键词;针对风险标签集中的各风险标签类别配置相应的风险权重。
基于预设的风险标签集对所述舆情文本数据的风险标签进行匹配,并构建风险标签序列的方法包括:
采用文本关键词匹配的方式对所述舆情文本数据进行风险关键词的匹配,并根据匹配结果查找对应的风险标签类别;基于所述风险标签类别在风险标签集中的所属位置,构建风险标签序列。
风险标签模块主要根据预先创建好的风险标签集,通过风险关键词匹配的方式提取舆情的风险标签。首先,针对企业舆情常见的风险事件类别以及用户关注的风险事件类别构建风险标签集,每个风险标签给予相应的风险权重Rj,该风险权重也可以由用户自定义配置。并整理每个风险标签对应的关键词集合,构成一个“标签-关键词词典”;其次,采用文本关键词匹配的方式,对舆情文本进行风险关键词匹配,并根据匹配结果进行相应标签标注,生成舆情的风险标签序列L={L1,L2,…,Ln},其中n为风险标签的总数,Li对应该风险标签的0/1标识,1表示舆情存在第i个标签,0表示舆情不存在第i个标签。
示例性地,舆情文本数据的风险标签匹配过程分为以下几个步骤:
步骤1:创建风险标签集,结合风险管理领域业务要求对舆情风险类别进行标签定义整理,得到一个风险标签集,比如:
[“破产停业”、“抵押质押”、“亏损”、“股权变动”、“违约暴雷”、“非法集资”、“侵权抄袭”、“合同纠纷”、“违规违法”、“造假欺诈”、“偷税漏税”、“安全事件”];预设各风险标签类别的风险权重(范围为1~10) 对应为:[10、5、7、10、4、3、2、2、5、3、3]。
步骤2:整理风险标签类别对应的风险关键词集合,构成一个“标签-关键词词典”;示例性地:
{
破产停业:破产清算、破产、冻结、停业、业务暂停、停业整顿、查封、吊销、扣押、非标意见;
抵押质押:债务抵押、抵押债务、资不抵债、资产抵押、借款担保、股权质押;
亏损:亏损、恶化、欠款、业绩上升、销售额下降;
股权变动:股权变动、股权质押、权益变动、增持、减持、减资、分立、合并;
违约暴雷:债务违约、暴雷、跑路、逾期、失信人、兑付不确定、拖欠款项、P2P、黑名单、被执行、风险;
合同纠纷:合同纠纷、取消合同、劳务纠纷、劳务诉讼;
造假欺诈:财务造假、涉嫌欺诈、财务丑闻、诈骗;
非法集资:非法集资、集资诈骗;
偷税漏税:偷税、漏税、逃税;
侵权抄袭:侵权、抄袭;
安全事件:事故、信息泄露、隐私数据、数据泄露、生产事故;
违规违法:违法、违规、投诉、维权、传销、经侦介入、仲裁、犯罪、高利贷、刑事、起诉、涉黑涉恶、立案调查;
};
步骤3:采用关键词匹配的方式,对舆情文本进行风险关键词匹配,根据匹配结果进行标签标注,得到风险标签序列。
假设采集的一条舆情文本数据为“XXXX承包工程事故连发,因违规施工被禁止承揽新项目……”,由于舆情文本数据中的“违规”一词与“违规违法”风险标签中的风险关键词能够匹配上,故该条舆情文本数据匹配的风险标签为“违规违法”,而其余风险标签均为匹配上,故仅在“违规违法”对应元素位置处的风险标签序列出标记为“1”,其余元素位置处的风险标签序列出标记为“0”,因此上述舆情文本数据对应的风险标签序列:[0、0、0、 0、0、0、0、0、0、0、1]。
上述实施例中,情感分类模型的训练方法包括:
从获取的舆情语料中分别抽取各种情感极性的舆情语料,构建标注语料集;基于标注语料集采用LSTM或者TextCNN模型架构训练情感分类模型;情感极性的分类包括积极情感、中性情感和消极情感,情感极性序列为3种情感极性之一的序列表示。
具体实施时,情感极性及实体名称识别模块依据预先定义的企业正负面的情感词典,从预先获取的舆情语料中抽取正中负(也即积极情感、中性情感和消极情感)三种情感极性类别的舆情数据集,形成标注语料集。例如:
[
“消极情感”舆情语料:
亏损17亿、电站减值某科技公司披露状况是否为行业共同痛点;
二月新片再次撤档、影视股九成跌停,院线股进入“冰河世纪”;
投诉某网络科技公司私自扣费,乱收费现象问题;
上海某快递效率太低快递小哥辞职转行了;
……
“舆情语料”舆情语料:
叫板“疫苗之王”XXXX!首款国产疫苗上市;
利好突至,万亿级板块又“炸了”千亿龙头涨停;
氢能源产业利好持续加码,两大细分领域迎长线成长空间;
某视频平台依然“稳健”;
……
“中性情感”舆情语料:
A某某、B某某、C某某都在倡导的“长期主义”,到底是什么;
对2020年的行情的想象;
告别蓄力待发的2019,迈向深度转型的2020;
某国央行为何选择1月初降准?为市场提供流动性;
……
]
对舆情语料进行文本预处理之后,采用基于大量企业舆情文本预先训练好的词向量模型作为该模型训练的文本向量表示,然后基于LSTM/TextCNN 对情感分类模型进行训练,因情感分类模型的训练为现有技术,故不作详细阐述,只做结果说明。经统计,本实施例得到的情感分类模型基于10万条数据的模型准确率为87%,满足预期效果。
上述实施例中,利用情感分类模型对舆情文本数据进行情感极性的分类构建情感极性序列之后还包括:
针对每种情感极性配置相应的极性权重Qi,Qi={Q1,Q2,Q3},情感极性序列Ti={T1,T2,T3},T1表示积极情感,T2表示中性情感,T3表示消极情感,Q1表示积极情感对应的极性权重,Q2表示中性情感对应的极性权重,Q3表示消极情感对应的极性权重。
上述实施例中,对舆情文本数据中关联的企业实体名称进行识别构建企业关联序列的方法包括:
预先构建包括多个企业实体的企业监控列表;结合中文分词工具和/或 NER命名实体识别工具采用关键词匹配的方式识别出舆情文本数据关联的企业实体名称;基于企业实体名在企业监控列表中的所属位置,构建企业关联序列。
具体实施时,通过舆情处理平台对采集的舆情文本数据进行企业实体识别、舆情风险标签提取、舆情情感极性分析等处理,并通过个性化配置服务提供标准化的应用配置接口。
第一步,通过舆情输入模块从采集到舆情数据源中订阅实时获取到的舆情文本数据,对舆情标题、正文、摘要文本进行文本预处理,去除不必要的停用词,并进行中文分词;第二步,舆情标签处理及情感极性分类,将预处理后的舆情文本数据输入风险标签模块,得到风险标签序列;输入情感极性分析模块得到情感极性标签,如积极情感、中性情感或消极情感;第三步,通过企业监控列表,结合中文分词工具和NER命名实体识别工具以及关键词匹配,基于监控企业的全称、简称及别名词典,提取出舆情文本数据关联的企业实体,将舆情文本数据与企业实体做关联,得到企业关联序列 E={E1,E2,…,Em},其中m为全部监控企业数,Ei为0/1标识,1表示舆情关联第i个企业,0表示不关联。该平台的个性化配置模块,可以提供企业监控列表的同步、情感极性词典的更新、舆情来源及风险标签权重的设定等。
示例性地,对于舆情文本数据“XXXX承包工程事故连发被禁止承揽新项目……”,经过情感极性分类后,该舆情情感标签为消极情感,经过关联企业实体提取,该舆情关联企业对应监控企业列表序列为
[……、0、1、0、……]。
上述实施例中,根据舆情文本数据对应的数据源序列、风险标签序列、情感极性序列和企业关联序列,计算输出舆情分析结果之前还包括:
预先设定多种风险预警等级,同时定义每种风险预警等级的边界区间。
具体实施时,根据用户订阅的预警标签和企业监控列表J={J1,J2,…,Jm},Ji为0/1标识,根据舆情文本数据的数据源序列、信用权重、风险标签序列、风险权重、情感极性序列、极性权以及企业关联序列,计算风险预警分值,并根据风险阈值划分预警等级,对符合条件的企业舆情信息进行预警推送。
示例性地,风险预警等级A={不预警、一般、重要、严重},对应每种风险预警等级的边界区间分别为:H={H1,H2,H3},也就是说分值小于H1对应的风险预警等级为不预警,分值大于H1小于H2对应的风险预警等级为一般,分值大于H2小于H3对应的风险预警等级为重要,分值大于H3对应的风险预警等级为严重,情感极性对应的分值为Q={Q1,Q2,Q3},舆情文本数据所对应的情感极性序列为T={T1,T2,T3},其中只有一个Ti为1,另外两个为0。
根据舆情文本数据对应的数据源序列、风险标签序列、情感极性序列和企业关联序列,计算输出舆情分析结果的方法包括:
采用舆情风险预警公式对舆情文本数据的风险值进行计算;结合企业关联序列计算舆情文本数据对应的预警值,并基于所属的边界区间输出相应的风险预警等级;Ri表示对应风险标签类别的风险权重,Li表示风险标签序列,n表示风险标签集中风险标签类别的总数量,Wi表示指定网站的信用权重,Si表示数据源序列,k表示指定网站的总数量,Qi表示极性权重,Ti表示情感极性序列,所述p表示情感极性的总数量。
具体实施时,对于某用户来说,某条舆情文本数据的风险预警分值计算公式为:
用<x,y>表示向量内积,上面公式表示为
z=<R,L>+〈W,S>+<Q,T>
结合关联企业的序列信息,令
z′=z·ε(<E,J>)
其中,ε(x)为单位阶跃函数,
可以理解的是,当该条舆情文本数据的企业实体名称存在于企业监控列表,则ε(x)的值为1,此时对其进行风险预警分值的计算,当该条舆情文本数据的企业实体名称不存在于企业监控列表,则ε(x)的值为0,此时不再对其进行风险预警分值的计算。
进一步地,预警标识为Output(z′)=<Y(z′),A>,其中 Y(x)={y1(x),y2(x),y3(x),y4(x)},二值函数y1(x),y2(x),y3(x),y4(x)的取值为True或False(1或0):
y1(x)=0≤x<H1
y2(x)=H1≤x<H2
y3(x)=H2≤x<H3
y4(x)=x≥H3
输出Output(z′)为预警标识:不预警、一般、重要或严重。
举例说明,风险预警等级A={不预警、一般、重要、严重},对应的阈值边界分别为:H={H1=5,H2=10,H3=30}。
情感极性(积极情感、中性情感和消极情感)对应的分值为Q={1,2,3},该条舆情文本数据所对应的情感极性序列为T={0,0,1}.
以输入舆情文本数据为“XXXX承包工程事故连发被禁止承揽新项目……”为例,该舆情文本数据来源为某网站,对应数据源序列向量为[0、0、 0、1、0、0、0、0、0],并且用户订阅的预警标签包含“安全事故”,企业监控列表中包括XXXX。
根据风险预警分值计算公式:
z=<R,L>+<W,S>+<Q,T>=5+3+3=11
该舆情文本数据有关联企业(XXXX)在用户监控的企业中,因此<E,J>>0,所以ε(<E,J>)=1,从而得到z′=z·ε(<E,J>)=z=11。
进一步地,由于H2<z′<H3,因此Y(z′)={0,0,1,0},得到预警标识为 Output(z′)=<Y(z′),A>=“重要”。该预警输出模块给该用户输出舆情“XXXX 承包工程事故连发被禁止承揽新项目……”为“重要”预警。
综上,本实施例中的方案旨在对企业潜在的风险信息进行挖掘,提供自动化及个性化的配置方案,形成一套舆情分析流程,实现对企业潜在风险进行智能化预警的功能,进而辅助风险业务人员更高效地进行企业风险管控与评估。
实施例二
本实施例提供一种用于企业风险预警的舆情分析系统,包括:
舆情采集模块,用于从任一指定网站中采集舆情文本数据,并针对所述舆情文本数据的网站来源构建数据源序列;
风险标签模块,用于基于预设的风险标签集对所述舆情文本数据的风险标签进行匹配,并构建风险标签序列;
情感极性及实体名称识别模块,用于利用情感分类模型对所述舆情文本数据进行情感极性的分类构建情感极性序列,以及对所述舆情文本数据中关联的企业实体名称进行识别构建企业关联序列;
预警输出模块,用于根据所述舆情文本数据对应的数据源序列、风险标签序列、情感极性序列和企业关联序列,计算输出舆情分析结果。
与现有技术相比,本发明实施例提供的用于企业风险预警的舆情分析系统的有益效果与上述实施例一提供的用于企业风险预警的舆情分析方法的有益效果相同,在此不做赘述。
实施例三
本实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述用于企业风险预警的舆情分析方法的步骤。
与现有技术相比,本实施例提供的计算机可读存储介质的有益效果与上述技术方案提供的用于企业风险预警的舆情分析方法的有益效果相同,在此不做赘述。
本领域普通技术人员可以理解,实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,上述程序可以存储于计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种用于企业风险预警的舆情分析方法,其特征在于,包括:
从任一指定网站中采集舆情文本数据,并针对所述舆情文本数据的网站来源构建数据源序列;
基于预设的风险标签集对所述舆情文本数据的风险标签进行匹配,并构建风险标签序列;
利用情感分类模型对所述舆情文本数据进行情感极性的分类构建情感极性序列,以及对所述舆情文本数据中关联的企业实体名称进行识别构建企业关联序列;
根据所述舆情文本数据对应的数据源序列、风险标签序列、情感极性序列和企业关联序列,计算输出舆情分析结果。
2.根据权利要求1所述的方法,其特征在于,针对所述舆情文本数据的网站来源构建数据源序列的方法包括:
统计指定网站的总数量并配置各指定网站的信用权重,构建与总数量维度一致的数据源序列集;
识别来源网站在数据源序列集中的位置,构建对应的数据源序列同时匹配对应的信用权重。
3.根据权利要求1所述的方法,其特征在于,基于预设的风险标签集对所述舆情文本数据的风险标签进行匹配之前还包括:
预先构建风险标签集,所述风险标签集包括多个风险标签类别,且每个风险标签类别对应至少一个风险关键词;
针对风险标签集中的各风险标签类别配置相应的风险权重。
4.根据权利要求3所述的方法,其特征在于,基于预设的风险标签集对所述舆情文本数据的风险标签进行匹配,并构建风险标签序列的方法包括:
采用文本关键词匹配的方式对所述舆情文本数据进行风险关键词的匹配,并根据匹配结果查找对应的风险标签类别;
基于所述风险标签类别在风险标签集中的所属位置,构建风险标签序列。
5.根据权利要求1所述的方法,其特征在于,情感分类模型的训练方法包括:
从获取的舆情语料中分别抽取各种情感极性的舆情语料,构建标注语料集;
基于标注语料集采用LSTM或者TextCNN模型架构训练情感分类模型;
所述情感极性的分类包括积极情感、中性情感和消极情感,所述情感极性序列为3种情感极性之一的序列表示。
6.根据权利要求5所述的方法,其特征在于,利用情感分类模型对所述舆情文本数据进行情感极性的分类构建情感极性序列之后还包括:
针对每种情感极性配置相应的极性权重。
7.根据权利要求1所述的方法,其特征在于,对所述舆情文本数据中关联的企业实体名称进行识别构建企业关联序列的方法包括:
预先构建包括多个企业实体的企业监控列表;
结合中文分词工具和/或NER命名实体识别工具采用关键词匹配的方式识别出所述舆情文本数据关联的企业实体名称;
基于企业实体名在企业监控列表中的所属位置,构建企业关联序列。
8.根据权利要求1所述的方法,其特征在于,根据所述舆情文本数据对应的数据源序列、风险标签序列、情感极性序列和企业关联序列,计算输出舆情分析结果之前还包括:
预先设定多种风险预警等级,同时定义每种风险预警等级的边界区间。
10.一种用于企业风险预警的舆情分析系统,其特征在于,包括:
舆情采集模块,用于从任一指定网站中采集舆情文本数据,并针对所述舆情文本数据的网站来源构建数据源序列;
风险标签模块,用于基于预设的风险标签集对所述舆情文本数据的风险标签进行匹配,并构建风险标签序列;
情感极性及实体名称识别模块,用于利用情感分类模型对所述舆情文本数据进行情感极性的分类构建情感极性序列,以及对所述舆情文本数据中关联的企业实体名称进行识别构建企业关联序列;
预警输出模块,用于根据所述舆情文本数据对应的数据源序列、风险标签序列、情感极性序列和企业关联序列,计算输出舆情分析结果。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011264306.XA CN113297283A (zh) | 2020-11-12 | 2020-11-12 | 用于企业风险预警的舆情分析方法及系统 |
CA3138730A CA3138730C (en) | 2020-11-12 | 2021-11-12 | Public-opinion analysis method and system for providing early warning of enterprise risks |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011264306.XA CN113297283A (zh) | 2020-11-12 | 2020-11-12 | 用于企业风险预警的舆情分析方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113297283A true CN113297283A (zh) | 2021-08-24 |
Family
ID=77318454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011264306.XA Pending CN113297283A (zh) | 2020-11-12 | 2020-11-12 | 用于企业风险预警的舆情分析方法及系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113297283A (zh) |
CA (1) | CA3138730C (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113918794A (zh) * | 2021-12-13 | 2022-01-11 | 宝略科技(浙江)有限公司 | 企业网络舆情效益分析方法、系统、电子设备及存储介质 |
CN115456793A (zh) * | 2022-09-06 | 2022-12-09 | 山东大学 | 一种用户投资决策的智能风险控制系统 |
CN116738070A (zh) * | 2023-08-15 | 2023-09-12 | 浙江同信企业征信服务有限公司 | 一种舆情监测方法、装置、设备及存储介质 |
CN116777607A (zh) * | 2023-08-24 | 2023-09-19 | 上海银行股份有限公司 | 一种基于nlp技术的智能审计方法 |
CN117291428A (zh) * | 2023-11-17 | 2023-12-26 | 南京雅利恒互联科技有限公司 | 一种基于企业管理app的数据后台管理系统 |
CN117788136A (zh) * | 2023-11-24 | 2024-03-29 | 浙江孚临科技有限公司 | 一种基于区块链和舆情的金融风控系统 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116069832B (zh) * | 2023-04-07 | 2023-06-06 | 微网优联科技(成都)有限公司 | 数据挖掘方法、装置及电子设备 |
CN117131281B (zh) * | 2023-10-26 | 2024-02-09 | 中关村科学城城市大脑股份有限公司 | 舆情事件处理方法、装置、电子设备和计算机可读介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110704572A (zh) * | 2019-09-04 | 2020-01-17 | 北京航空航天大学 | 疑似非法集资风险的预警方法、装置、设备和存储介质 |
CN111695033A (zh) * | 2020-04-29 | 2020-09-22 | 平安科技(深圳)有限公司 | 企业舆情分析方法、装置、电子设备及介质 |
-
2020
- 2020-11-12 CN CN202011264306.XA patent/CN113297283A/zh active Pending
-
2021
- 2021-11-12 CA CA3138730A patent/CA3138730C/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110704572A (zh) * | 2019-09-04 | 2020-01-17 | 北京航空航天大学 | 疑似非法集资风险的预警方法、装置、设备和存储介质 |
CN111695033A (zh) * | 2020-04-29 | 2020-09-22 | 平安科技(深圳)有限公司 | 企业舆情分析方法、装置、电子设备及介质 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113918794A (zh) * | 2021-12-13 | 2022-01-11 | 宝略科技(浙江)有限公司 | 企业网络舆情效益分析方法、系统、电子设备及存储介质 |
CN113918794B (zh) * | 2021-12-13 | 2022-03-29 | 宝略科技(浙江)有限公司 | 企业网络舆情效益分析方法、系统、电子设备及存储介质 |
CN115456793A (zh) * | 2022-09-06 | 2022-12-09 | 山东大学 | 一种用户投资决策的智能风险控制系统 |
CN116738070A (zh) * | 2023-08-15 | 2023-09-12 | 浙江同信企业征信服务有限公司 | 一种舆情监测方法、装置、设备及存储介质 |
CN116777607A (zh) * | 2023-08-24 | 2023-09-19 | 上海银行股份有限公司 | 一种基于nlp技术的智能审计方法 |
CN116777607B (zh) * | 2023-08-24 | 2023-11-07 | 上海银行股份有限公司 | 一种基于nlp技术的智能审计方法 |
CN117291428A (zh) * | 2023-11-17 | 2023-12-26 | 南京雅利恒互联科技有限公司 | 一种基于企业管理app的数据后台管理系统 |
CN117291428B (zh) * | 2023-11-17 | 2024-03-08 | 南京雅利恒互联科技有限公司 | 一种基于企业管理app的数据后台管理系统 |
CN117788136A (zh) * | 2023-11-24 | 2024-03-29 | 浙江孚临科技有限公司 | 一种基于区块链和舆情的金融风控系统 |
Also Published As
Publication number | Publication date |
---|---|
CA3138730C (en) | 2023-08-01 |
CA3138730A1 (en) | 2022-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113297283A (zh) | 用于企业风险预警的舆情分析方法及系统 | |
Bastani et al. | Latent Dirichlet allocation (LDA) for topic modeling of the CFPB consumer complaints | |
CN106547738B (zh) | 一种基于文本挖掘的金融类逾期短信智能判别方法 | |
CN110704572B (zh) | 疑似非法集资风险的预警方法、装置、设备和存储介质 | |
CN107515873B (zh) | 一种垃圾信息识别方法及设备 | |
US20120316916A1 (en) | Methods and systems for generating corporate green score using social media sourced data and sentiment analysis | |
CN107807962B (zh) | 一种使用lda主题模型对法律判决文书进行相似度匹配的方法 | |
CN106372798A (zh) | 一种基于风险的用户自定义的合同生成方法和系统 | |
CN110502638B (zh) | 一种基于目标实体的企业新闻风险分类方法 | |
CN110889786A (zh) | 一种基于lstm技术的法律诉讼被告人保全用审判服务方法 | |
CN109492097B (zh) | 一种企业新闻数据风险分类方法 | |
Matthies et al. | Computer-aided text analysis of corporate disclosures-demonstration and evaluation of two approaches | |
Fu et al. | A sentiment-aware trading volume prediction model for P2P market using LSTM | |
CN112396437A (zh) | 一种基于知识图谱的贸易合同验证方法及装置 | |
Owda et al. | Financial discussion boards irregularities detection system (fdbs-ids) using information extraction | |
CN109918639B (zh) | 一种基于深度学习技术和规则库的银行授信文本解析方法 | |
Tao et al. | Establishment of cross-border e-commerce credit evaluation system based on big data | |
Poirier | Accountable Data: The Politics and Pragmatics of Disclosure Datasets | |
KR20210001625A (ko) | 뉴스 기사의 감성 정보 레이블링에 기초한 기업 부실 정보 서비스 제공 방법 및 그 장치 | |
CN110134866A (zh) | 信息推荐方法及装置 | |
CN110766091B (zh) | 一种套路贷团伙的识别方法及系统 | |
CN110322252B (zh) | 风险主体识别方法以及装置 | |
CN113327161A (zh) | 一种用于信贷业务的智能风控决策系统 | |
Lee et al. | Novel methods for resolving false positives during the detection of fraudulent activities on stock market financial discussion boards | |
Li et al. | A novel chinese text mining method for e-commerce review spam detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210824 |