CN116563006A - 业务风险预警方法、设备、存储介质及装置 - Google Patents
业务风险预警方法、设备、存储介质及装置 Download PDFInfo
- Publication number
- CN116563006A CN116563006A CN202310389192.9A CN202310389192A CN116563006A CN 116563006 A CN116563006 A CN 116563006A CN 202310389192 A CN202310389192 A CN 202310389192A CN 116563006 A CN116563006 A CN 116563006A
- Authority
- CN
- China
- Prior art keywords
- information
- early warning
- public opinion
- news
- business risk
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000012549 training Methods 0.000 claims abstract description 65
- 238000012216 screening Methods 0.000 claims abstract description 26
- 230000002596 correlated effect Effects 0.000 claims abstract description 15
- 238000004458 analytical method Methods 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 26
- 230000000875 corresponding effect Effects 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 14
- 238000005516 engineering process Methods 0.000 claims description 13
- 238000002372 labelling Methods 0.000 claims description 12
- 238000003058 natural language processing Methods 0.000 claims description 12
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 230000002441 reversible effect Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 abstract description 11
- 230000000694 effects Effects 0.000 abstract description 7
- 230000010354 integration Effects 0.000 abstract description 5
- 238000012502 risk assessment Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 230000008451 emotion Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000008014 freezing Effects 0.000 description 2
- 238000007710 freezing Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000008521 reorganization Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 206010062575 Muscle contracture Diseases 0.000 description 1
- 206010033799 Paralysis Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 208000006111 contracture Diseases 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/06—Asset management; Financial planning or analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Technology Law (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Biophysics (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Human Resources & Organizations (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种业务风险预警方法、设备、存储介质及装置,本发明通过对目标新闻进行初筛选,对筛选后的新闻信息进行预处理,并基于BERT预训练模型对获得目标舆情信息进行舆情预警分类,并对分类后的舆情信息进行预警标签关联;根据关联后的舆情信息进行业务风险预警。由于本发明通过BERT预训练模型对新闻信息中的舆情信息进行舆情预警分类,并通过预警标签进行标注,以进行业务风险预警,相较于现有技术中通过人工分析和整合新闻的事件信息,效率极低、容易发生信息遗漏问题,耗费大量人力且效果不好,本发明实现了降低各种金融领域场景下的企业风险评估依靠人工进行信息整合的工作量,也降低了整合出错的概率,提升处理效率。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种业务风险预警方法、设备、存储介质及装置。
背景技术
随着互联网和金融行业的快速发展,借贷业务面向的客户类型也越来越多,但由于当前金融业面向企业级用户的贷后管理,风控信息面较为狭窄,传统的金融企业主要风险等级分析以行内和客户数据为主,相关数据依赖客户经理通过人工的方式定期从工商法院信息,客户财报的数据进行检查。
而随着互联网的发展,新闻对企业公司的影响在逐步加大,且新闻的及时性较强,把企业相关的新闻舆情数据加入到贷后风控管理中来是同业正在实行的一个趋势。并且目前企业新闻数据量极大,每天新增新闻超过上万条,而其中真正有风险信息的不足1%。通过人工来进行分析和整合新闻的事件信息,效率极低、容易发生信息遗漏问题,耗费大量人力且效果不好。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种业务风险预警方法、设备、存储介质及装置,旨在解决现有技术中通过人工分析和整合新闻的事件信息,效率极低、容易发生信息遗漏问题,耗费大量人力且效果不好的技术问题。
为实现上述目的,本发明提供一种业务风险预警方法,所述业务风险预警方法包括以下步骤:
对目标新闻进行初筛选,获得目标类型的新闻信息;
对所述新闻信息进行预处理,获得目标舆情信息;
基于BERT预训练模型对所述目标舆情信息进行舆情预警分类,并对分类后的舆情信息进行预警标签关联;
根据关联后的舆情信息进行业务风险预警。
可选地,所述对所述新闻信息进行预处理,获得目标舆情信息的步骤,包括:
基于BERT预训练模型将新闻信息转换为字向量,并基于所述字向量确定所述新闻信息中的句子特征;
基于所述BERT预训练模型的CRF层对所述句子特征进行序列标注预测任务;
根据标注后的句子特征确定目标企业的主体信息以及相关舆情信息;
根据所述主体信息以及相关舆情信息确定目标舆情信息。
可选地,所述基于BERT预训练模型将新闻信息转换为字向量,并基于所述字向量确定所述新闻信息中的句子特征的步骤,包括:
基于BERT预训练模型中文本表示层将新闻信息中各句子中的每个字转换为低维稠密的字向量;
基于所述BERT预训练模型中Bi-LSTM层将各个句子的字向量序列作为双向LSTM各个时间步的输入,并将正向LSTM输出的隐状态序列与反向LSTM的在各个位置输出的隐状态按照位置进行拼接,获得完整的隐状态序列;
根据所述完整的隐状态序列确定所述新闻信息中的句子特征。
可选地,所述基于BERT预训练模型对所述目标舆情信息进行舆情预警分类,并对分类后的舆情信息进行预警标签关联的步骤,包括:
基于BERT预训练模型和预设业务场景对所述目标舆情信息进行舆情预警分类,获得分类后的舆情信息;
通过自然语言处理技术将分类后的舆情信息与主体信息进行预警标签关联。
可选地,所述通过自然语言处理技术将分类后的舆情信息与主体信息进行预警标签关联的步骤,包括:
通过自然语言处理技术将分类后的舆情信息与主体信息进行关联,获得关联后的数据;
根据预设标签关联模型对所述数据进行预警标签关联。
可选地,所述对目标新闻进行初筛选,获得目标类型的新闻信息的步骤,包括:
通过BERT预训练模型对目标新闻进行初筛选,获得有效数据;
通过预设业务场景的数据标注对有效数据进行文本倾向分类,获得正负倾向对应的数据集合;
根据所述正负倾向对应的数据集合确定目标类型的新闻信息。
可选地,所述根据关联后的舆情信息进行业务风险预警的步骤,包括:
基于所述有效数据提取摘要信息;
根据所述摘要信息和关联后的舆情信息进行业务风险预警。
此外,为实现上述目的,本发明还提出一种业务风险预警设备,所述业务风险预警设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的业务风险预警程序,所述业务风险预警程序配置为实现如上文所述的业务风险预警的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有业务风险预警程序,所述业务风险预警程序被处理器执行时实现如上文所述的业务风险预警方法的步骤。
此外,为实现上述目的,本发明还提出一种业务风险预警装置,所述业务风险预警装置包括:
信息筛选模型,用于对目标新闻进行初筛选,获得目标类型的新闻信息;
舆情分析模块,用于对所述新闻信息进行预处理,获得目标舆情信息;
标签关联模块,用于基于BERT预训练模型对所述目标舆情信息进行舆情预警分类,并对分类后的舆情信息进行预警标签关联;
风险预警模块,用于根据关联后的舆情信息进行业务风险预警。
本发明通过对目标新闻进行初筛选,获得目标类型的新闻信息;对所述新闻信息进行预处理,获得目标舆情信息;基于BERT预训练模型对所述目标舆情信息进行舆情预警分类,并对分类后的舆情信息进行预警标签关联;根据关联后的舆情信息进行业务风险预警。由于本发明通过对新闻信息进行预处理,从而基于BERT预训练模型对新闻信息中的舆情信息进行舆情预警分类,并通过预警标签进行标注,以进行业务风险预警,相较于现有技术中通过人工分析和整合新闻的事件信息,效率极低、容易发生信息遗漏问题,耗费大量人力且效果不好,本发明实现了降低各种金融领域场景下的企业风险评估依靠人工进行信息整合的工作量,也降低了整合出错的概率,提升处理效率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的业务风险预警设备的结构示意图;
图2为本发明业务风险预警方法第一实施例的流程示意图;
图3为本发明业务风险预警方法第二实施例的流程示意图;
图4为本发明业务风险预警方法第二实施例的模型结构示意图;
图5为本发明业务风险预警方法第二实施例的模型训练流程示意图;
图6为本发明业务风险预警方法第三实施例的流程示意图;
图7为本发明业务风险预警方法第三实施例的关联示意图;
图8为本发明业务风险预警方法第三实施例的风险预警示意图;
图9为本发明业务风险预警装置第一实施例的结构框图。
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的业务风险预警设备结构示意图。
如图1所示,该业务风险预警设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display),可选用户接口1003还可以包括标准的有线接口、无线接口,对于用户接口1003的有线接口在本发明中可为USB接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory,RAM),也可以是稳定的存储器(Non-volatileMemory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对业务风险预警设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,认定为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及业务风险预警程序。
在图1所示的业务风险预警设备中,网络接口1004主要用于连接后台服务器,与所述后台服务器进行数据通信;用户接口1003主要用于连接用户设备;所述业务风险预警设备通过处理器1001调用存储器1005中存储的业务风险预警程序,并执行本发明实施例提供的业务风险预警方法。
基于上述硬件结构,提出本发明业务风险预警方法的实施例。
参照图2,图2为本发明业务风险预警方法第一实施例的流程示意图,提出本发明业务风险预警方法第一实施例。
在本实施例中,所述业务风险预警方法包括以下步骤:
步骤S10:对目标新闻进行初筛选,获得目标类型的新闻信息。
需说明的是,本实施例的执行主体可以是具有业务风险预警功能的设备,所述设备如:计算机、笔记本、电脑以及平板等,还可为其它可实现相同或相似功能的业务风险预警设备,所述设备可以是应用于处理任何形式的新闻信息的业务风险预警设备,本实施例对此不做限制。此处将以上述计算机为例对本实施例和下述各实施例进行说明。
可理解的是,目标新闻可以是指具有业务往来的企业的相关新闻,所述新闻可以是指正面新闻,也可以是负面新闻,其中所述新闻可以是语音播报形式的新闻,也可以是视频形式的新闻,也可以是网页浏览时文本形式的新闻,本实施例中对新闻的形式不加以限定,由于本申请会通过BERT预训练模型对多个维度获取的新闻信息进行初步处理,以便于获取目标类型的新闻信息。
应理解的是,目标类型可以是针对多个维度获取的新闻信息进行分类的类型,其中所述类型可以是针对整体新闻内容进行情感计算,进行舆情判断后确定的类型,所述类型包括:包含负面舆情和不包含负面舆情两种类型,通过上述方式对所有新闻信息进行初筛选,可以减轻后期数据处理压力。
具体实现中,通过BERT预训练模型对多个维度获取的新闻信息进行初筛选,剔除不包含负面舆情信息的新闻,保留包含负面舆情信息的新闻,以便于后期对包含负面舆情信息的新闻进行风险预警。
进一步地,所述步骤S10还包括:通过BERT预训练模型对目标新闻进行初筛选,获得有效数据;通过预设业务场景的数据标注对有效数据进行文本倾向分类,获得正负倾向对应的数据集合;根据所述正负倾向对应的数据集合确定目标类型的新闻信息。
应理解的是,BERT预训练模型可以是预先设置的用于金融场景下对语言进行处理的模型,是一个预训练的语言表征模型,其中BERT预训练模型在训练过程中可以通过业务场景对应的大量标注数据对模型进行微调,达到契合行内专有分析场景的效果。由于BERT(Bidirectional Encoder Representations from Transformers)本身是在大量通用领域语料上预训练而来的模型,通用语料中金融文本的缺乏限制了模型向金融领域迁移的能力。因此可以通过在BERT基础上利用金融行业内的相关数据进行调整训练适配。可以极大的提高金融逻辑的主体情感分类准确度,还可以将为后期其他金融领域子任务如金融分词、金融实体识别、金融实体消歧、金融事件检测等带来帮助和提升。
具体实现中,由于不同来源的新闻的描述与篇幅会有出入,为了适配这些差异化的信息,通过采用基于BERT的预训练模型,在本实施例中BERT预训练模型可以是预先设置的用于将新闻内容转换为文本进行感情分析的模型,所述模型用于剔除新闻文档中未包含负面信息的新闻,在获取判断结果后,将包含贬义倾向的新闻信息保留作为有效数据,并通过预先设置的业务场景对应的数据标注对包含贬义倾向的新闻信息进行文本倾向分类,即对有效数据中具体的正负情感的文本进行分类,获得正向倾向的数据集合以及负向倾向的数据集合,通过正负倾向对应的数据集合确定负面舆情类型的新闻信息。上述步骤可以降低用户的阅读量,让用户可以只关注有负面舆情的相关新闻信息,但由于上述方式不能完全将不相干的新闻去除,因此一旦新闻中出现负面信息不管是不是用户所关注的主体公司都会判断为负面舆情信息。只能作为筛选数据降低用户阅读量,达不到让用户从阅读到精读的目的。所以针对此种情况,后续还可以通过信息抽取的方式优化阅读效果,通过对新闻中主体公司的抽取,以及主体公司相关舆情抽取,将新闻的关键信息进行分析,让用户避免对长篇新闻的阅读而是只关注要关注的方面。
步骤S20:对所述新闻信息进行预处理,获得目标舆情信息。
需说明的是,预处理是指基于BERT预训练模型对初筛选后的新闻信息进行关键信息抽取的处理,以优化阅读效果,让用户避免对长篇新闻的阅读而是只关注要关注的方面,从而能够减少用户对无效数据的关注。
应理解的是,本申请中对新闻信息进行预处理是针对句子级的处理,不仅能具体到每个句子的情感,还能确定具体的方面。
具体实现中,通过BERT预训练模型针对全文进行标题和内容进行分权重的分类,以减少用户阅读量,并对新闻中具体信息进行相关舆情信息的抽取以进行分析,获得目标舆情信息。
步骤S30:基于BERT预训练模型对所述目标舆情信息进行舆情预警分类,并对分类后的舆情信息进行预警标签关联。
需说明的是,基于BERT预训练模型通过结合实际数据以及金融场景分析对目标舆情信息进行舆情预警分类,并通过预先设置的标签对分类后的舆情信息进行标注关联。
可理解的是,结合实际数据以及金融场景分析,对数据内容进行了分类,初步将所有的舆情信息分类为六种,如:a、金融业务异常(如:借户欠款逾期;借户金融类业务违规;资金紧张;有债务危机的情况;股份部分冻结情况等情况);b、企业运转异常(如:财报数据异常状况;发生重大经营事故;企业瘫痪;核心资产被冻结等情况);C、企业重大变革(如:企业改制,重组,实际控制人发生重大变动;核心业务发生变动,转让,出售等行为);d、经营情况不善(如:经营严重亏损,产品严重积压滞销;贷款项目发生停建,缓建或成本控制);e、借户预设行为(如:涉及违反犯罪行为);f、借户方面除业务外重大负面信息(如:企业或者实际控制人被曝光存在严重负面信息,如:信用违约问题)。通过上述六种舆情信息分类进行预警标签关联,即根据新闻实质内容确定舆情种类并通过预警标签进行标注,例如:根据某篇新闻内容报道A公司存在诉讼情况,即初步判定A公司存在违法行为,则需要通过预警标签关联违法行为对A公司进行标注,以便于后期生成业务风险预警信息对用户进行提醒。
步骤S40:根据关联后的舆情信息进行业务风险预警。
需说明的是,通过上述关联后的舆情信息生成业务风险信息,并对用户进行预警,通过具体舆情方面的标签能更清晰的展示新闻描述了“谁发生了什么”,而且上述格式的结果能够便于收集统计用作企业风险评估等各种金融领域场景。
本实施例通过对目标新闻进行初筛选,获得目标类型的新闻信息;对所述新闻信息进行预处理,获得目标舆情信息;基于BERT预训练模型对所述目标舆情信息进行舆情预警分类,并对分类后的舆情信息进行预警标签关联;根据关联后的舆情信息进行业务风险预警。由于本发明通过对新闻信息进行预处理,从而基于BERT预训练模型对新闻信息中的舆情信息进行舆情预警分类,并通过预警标签进行标注,以进行业务风险预警,相较于现有技术中通过人工分析和整合新闻的事件信息,效率极低、容易发生信息遗漏问题,耗费大量人力且效果不好,本发明实现了降低各种金融领域场景下的企业风险评估依靠人工进行信息整合的工作量,也降低了整合出错的概率,提升处理效率。
参照图3,图3为本发明业务风险预警方法第二实施例的流程示意图,基于上述图2所示的第一实施例,提出本发明业务风险预警方法的第二实施例。
在本实施例中,所述步骤S20,包括:
步骤S201:基于BERT预训练模型将新闻信息转换为字向量,并基于所述字向量确定所述新闻信息中的句子特征。
需说明的是,BERT预训练模型是基于BERT的Bi-LSTM+CRF的模型结构,具体模型结构可以参考图4所示的模型结构示意图,所述模型结构包括文本表示层、Bi-LSTM层以及CRF层,为进一步说明模型训练过程,可以参考图5所示的模型训练流程示意图,由图可知,BERT预训练模型可以是通过大量原始文本数据进行预处理后将文本内容中的标题、内容进行分权重处理,获得处理后的数据,将数据进行数据集划分,获得测试集、验证集以及训练集等,并将训练集以及验证集输入至Bi-LSTM层以及CRF层进行训练以及验证,并将测试集输入至训练好的模型进行测试,获得预测结果,根据预测结果确定模型是否处于最优状态确定的预训练模型,通过上述方式训练得到的模型输出并用以实际场景的数据处理中,在针对实际数据的处理过程中,可以通过处理的数据对模型进行迭代优化,以保证模型的金融逻辑的主体情感分类准确度。其中,所述文本表示层利用预训练的embedding矩阵将句子中的每个字生成低维稠密的字向量(character embedding),并在输入下一层之前设置dropout以缓解过拟合。
应理解的是,基于文本表示层分解的字向量输入至Bi-LSTM层进行句子特征提取,以确定新闻信息中的句子特征。
进一步地,所述步骤S201还包括:基于BERT预训练模型中文本表示层将新闻信息中各句子中的每个字转换为低维稠密的字向量;基于所述BERT预训练模型中Bi-LSTM层将各个句子的字向量序列作为双向LSTM各个时间步的输入,并将正向LSTM输出的隐状态序列与反向LSTM的在各个位置输出的隐状态按照位置进行拼接,获得完整的隐状态序列;根据所述完整的隐状态序列确定所述新闻信息中的句子特征。
需说明的是,Bi-LSTM层可以用于自动提取句子特征的双向LSTM的神经网络层,通过将一个句子的各个字的character embedding序列(a1、a2、...、an)作为双向LSTM各个时间步的输入,并将正向LSTM输出的隐状态序列与反向LSTM/>的在各个位置输出的隐状态按照位置进行拼接,获得完整的隐状态序列。在设置dropout后,接入一个线性层,将隐状态向量从m维映射到k维,k是标注集的标签数,从而得到自动提取的句子特征。
步骤S202:基于所述BERT预训练模型的CRF层对所述句子特征进行序列标注预测任务。
需说明的是,由于在Bi-LSTM层对各个位置进行标注时无法利用已经标注过的信息,所以需要将接入一个CRF层来进行句子级的序列标注预测任务,其中CRF层的参数可以是一个矩阵A,表示的是从第i个标签到第j个标签的转移得分。CRF层的输入可以是每个词对应每个标签的分数,CRF层输出可以是每个可能的标注序列,并选择得分最高的序列作为最终结果,并对最终结果中的序列进行标注。
步骤S203:根据标注后的句子特征确定目标企业的主体信息以及相关舆情信息。
需说明的是,目标企业可以是舆情信息中出现的企业,所述企业不仅限于一个,可以是多个,其中所述目标企业的主体信息可以是指企业名称信息,相关舆情信息可以是指目标企业对应的负面舆情信息。其中,负面舆情信息将包括从新闻中体现的生产经营或已发生违约行为;借户经营出现明显问题,包括诉讼、事故;模型不会对新闻进行等级判断,只会判断当前新闻中是否存在负面舆情信息。具体可包括:企业主要经营管理者逃跑、失联;企业账户或资产被冻结;企业发生停产、破产重组、被吊销营业执照;企业受到外部管理机关等机构的查处和罚款;企业出现改制、合并、分立、资产重组、承包、托管、出售等重大事件;企业发生开工率大幅下跌、发生严重事故、业务转让出售等情况;企业发生拖欠、员工工资等情况;存在媒体宣传重大负面报道、严重生产事故、突发不可抗力等事件发生等信息。
步骤S204:根据所述主体信息以及相关舆情信息确定目标舆情信息。
需说明的是,本方案通过BERT预训练模型可以将各个企业对应的相关舆情信息进行绑定生成目标舆情信息,通过上述方式可以更加精准的确定舆情信息中企业对应的相关舆情信息,便于后期对企业的舆情进行预警标签关联。
具体实现中,通过创建命名实体识别的任务对待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、企业名、地名、时间、日期、货币和百分比)命名实体。本方案中通过引入基于BERT的Bi-LSTM+CRF的模型结构用于解决本方案中的问题,通过将推送的新闻数据进行初步筛选,剔除部分无效数据,以精简阅读量,并将剩余有效数据输入至模型中的文本表示层将各语句的字转换为字向量,并通过Bi-LSTM层自动提取句子特征,最后通过CRF层进行句子级的序列标注预测任务,从而确定目标企业的主体信息以及相关舆情信息,最后生成目标舆情信息。
本实施例通过对目标新闻进行初筛选,获得目标类型的新闻信息;基于BERT预训练模型将新闻信息转换为字向量,并基于所述字向量确定所述新闻信息中的句子特征;基于所述BERT预训练模型的CRF层对所述句子特征进行序列标注预测任务;根据标注后的句子特征确定目标企业的主体信息以及相关舆情信息;根据所述主体信息以及相关舆情信息确定目标舆情信息;对所述目标舆情信息进行舆情预警分类,并对分类后的舆情信息进行预警标签关联;根据关联后的舆情信息进行业务风险预警。由于本发明通过BERT预训练模型对新闻信息进行预处理,从而对新闻信息中的舆情信息进行舆情预警分类,并通过预警标签进行标注,以进行业务风险预警,相较于现有技术中通过人工分析和整合新闻的事件信息,效率极低、容易发生信息遗漏问题,耗费大量人力且效果不好,本发明实现了降低各种金融领域场景下的企业风险评估依靠人工进行信息整合的工作量,也降低了整合出错的概率,提升处理效率。
参照图6,图6为本发明业务风险预警方法第三实施例的流程示意图,基于上述图2所示的第一实施例,提出本发明业务风险预警方法的第三实施例。
在本实施例中,所述步骤S30包括:
步骤S301:基于BERT预训练模型和预设业务场景对所述目标舆情信息进行舆情预警分类,获得分类后的舆情信息。
需说明的是,预设业务场景可以是预先设置的用于对舆情信息进行分类的场景,所述场景包括金融业务、企业运转、企业变革、经营情况、借户行为以及借户除业务以外负面情况等场景,本实施例不仅限于上述六种场景。
应理解的是,基于BERT预训练模型和上述场景对目标舆情信息进行分类,分类后的舆情信息包括六个方向的舆情信息,例如:金融业务方面的舆情信息可以包括借户欠款逾期、借户金融类业务违规、资金紧张、存在兼并,重组,分立,转移资产等行为,有债务危机的情况;股份部分冻结情况;存在大额资金流失或者潜在流失等情况。
步骤S302:通过自然语言处理技术将分类后的舆情信息与主体信息进行预警标签关联。
需说明的是,自然语言处理技术可以是基于深度学习算法进行信息抽取的语言处理技术,其中预警标签关联通过在句首引入预警标签query作为辅助信息,共同输入进模型,将实体与预警标签关联起来。
进一步地,所述步骤S302还包括:通过自然语言处理技术将分类后的舆情信息与主体信息进行关联,获得关联后的数据;根据预设标签关联模型对所述数据进行预警标签关联。
具体实现中,预警标签可以是预先设置的舆情场景标签,所述舆情场景标签可以根据舆情信息类型所确定,例如:舆情信息类型属于金融业务方面,则舆情标签可以设置为金融业务异常的标识对目标企业的主体信息和相关舆情信息进行标识。所述舆情场景标签的标签类型包括但不限于金融业务异常、企业运转异常、企业重大变革、经营情况不善、借户违法行为、借户方面除业务外重大负面信息等。例如:一条精简后的新闻如:“近日,AA公司起诉BB公司未结付上千万的广告费用,并要求法院冻结BB公司千万资产,对此BB公司回应称:AA公司被骗了,双方之间从未进行过商业合作。”其中为了获取精简的新闻内容并进行预警,可以通过提取舆情信息并按照舆情信息类型进行预警标签关联,具体关联方式可以,参考图7所示的关联示意图。
在本实施例中,所述步骤S40包括:基于所述有效数据提取摘要信息;根据所述摘要信息和关联后的舆情信息进行业务风险预警。
需说明的是,在对全文进行预处理时,对新闻进行分类和摘要的生成,减少用户阅读量,为了便于用户后期金融风险分析,可以通过提取摘译以及关联后的舆情信息对用户展示预警信息,从而进行业务风险预警,为业务风控决策提供辅助支持,节省分析人员的工作量。为进一步说明预警信息展示内容,可以参考图8所示的风险预警示意图,文本框内是摘要内容。
本实施例通过对目标新闻进行初筛选,获得目标类型的新闻信息;对所述新闻信息进行预处理,获得目标舆情信息;基于BERT预训练模型和预设业务场景对所述目标舆情信息进行舆情预警分类,获得分类后的舆情信息;通过自然语言处理技术将分类后的舆情信息与主体信息进行预警标签关联;根据关联后的舆情信息进行业务风险预警。由于本发明通过对新闻信息进行预处理,从而基于BERT预训练模型对新闻信息中的舆情信息进行舆情预警分类,并通过预警标签进行标注,以进行业务风险预警,相较于现有技术中通过人工分析和整合新闻的事件信息,效率极低、容易发生信息遗漏问题,耗费大量人力且效果不好,本发明实现了降低各种金融领域场景下的企业风险评估依靠人工进行信息整合的工作量,也降低了整合出错的概率,提升处理效率。
此外,为实现上述目的,本发明还提出一种业务风险预警设备,所述业务风险预警设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的业务风险预警程序,所述业务风险预警程序配置为实现如上文所述的业务风险预警的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有业务风险预警程序,所述业务风险预警程序被处理器执行时实现如上文所述的业务风险预警方法的步骤。
参照图9,图9为本发明业务风险预警装置第一实施例的结构框图。
如图9所示,本发明实施例提出的业务风险预警装置包括:
信息筛选模型10,用于对目标新闻进行初筛选,获得目标类型的新闻信息;
舆情分析模块20,用于对所述新闻信息进行预处理,获得目标舆情信息;
标签关联模块30,用于基于BERT预训练模型对所述目标舆情信息进行舆情预警分类,并对分类后的舆情信息进行预警标签关联;
风险预警模块40,用于根据关联后的舆情信息进行业务风险预警。
本实施例通过对目标新闻进行初筛选,获得目标类型的新闻信息;对所述新闻信息进行预处理,获得目标舆情信息;基于BERT预训练模型对所述目标舆情信息进行舆情预警分类,并对分类后的舆情信息进行预警标签关联;根据关联后的舆情信息进行业务风险预警。由于本发明通过对新闻信息进行预处理,从而基于BERT预训练模型对新闻信息中的舆情信息进行舆情预警分类,并通过预警标签进行标注,以进行业务风险预警,相较于现有技术中通过人工分析和整合新闻的事件信息,效率极低、容易发生信息遗漏问题,耗费大量人力且效果不好,本发明实现了降低各种金融领域场景下的企业风险评估依靠人工进行信息整合的工作量,也降低了整合出错的概率,提升处理效率。
进一步地,所述舆情分析模块20,还用于基于BERT预训练模型将新闻信息转换为字向量,并基于所述字向量确定所述新闻信息中的句子特征;基于所述BERT预训练模型的CRF层对所述句子特征进行序列标注预测任务;根据标注后的句子特征确定目标企业的主体信息以及相关舆情信息;根据所述主体信息以及相关舆情信息确定目标舆情信息。
进一步地,所述舆情分析模块20,还用于基于BERT预训练模型中文本表示层将新闻信息中各句子中的每个字转换为低维稠密的字向量;
基于所述BERT预训练模型中Bi-LSTM层将各个句子的字向量序列作为双向LSTM各个时间步的输入,并将正向LSTM输出的隐状态序列与反向LSTM的在各个位置输出的隐状态按照位置进行拼接,获得完整的隐状态序列;
根据所述完整的隐状态序列确定所述新闻信息中的句子特征。
进一步地,所述标签关联模块30,还用于基于BERT预训练模型和预设业务场景对所述目标舆情信息进行舆情预警分类,获得分类后的舆情信息;通过自然语言处理技术将分类后的舆情信息与主体信息进行预警标签关联。
进一步地,所述标签关联模块30,还用于通过自然语言处理技术将分类后的舆情信息与主体信息进行关联,获得关联后的数据;根据预设标签关联模型对所述数据进行预警标签关联。
进一步地,所述信息筛选模型10,还用于通过BERT预训练模型对目标新闻进行初筛选,获得有效数据;通过预设业务场景的数据标注对有效数据进行文本倾向分类,获得正负倾向对应的数据集合;根据所述正负倾向对应的数据集合确定目标类型的新闻信息。
进一步地,所述风险预警模块40,还用于基于所述有效数据提取摘要信息;根据所述摘要信息和关联后的舆情信息进行业务风险预警。
应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在具体应用中,本领域的技术人员可以根据需要进行设置,本发明对此不做限制。
需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。
另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的业务风险预警方法,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序,可将这些词语解释为名称。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器镜像(Read Only Memory image,ROM)/随机存取存储器(Random AccessMemory,RAM)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种业务风险预警方法,其特征在于,所述业务风险预警方法包括以下步骤:
对目标新闻进行初筛选,获得目标类型的新闻信息;
对所述新闻信息进行预处理,获得目标舆情信息;
基于BERT预训练模型对所述目标舆情信息进行舆情预警分类,并对分类后的舆情信息进行预警标签关联;
根据关联后的舆情信息进行业务风险预警。
2.如权利要求1所述的业务风险预警方法,其特征在于,所述对所述新闻信息进行预处理,获得目标舆情信息的步骤,包括:
基于BERT预训练模型将新闻信息转换为字向量,并基于所述字向量确定所述新闻信息中的句子特征;
基于所述BERT预训练模型的CRF层对所述句子特征进行序列标注预测任务;
根据标注后的句子特征确定目标企业的主体信息以及相关舆情信息;
根据所述主体信息以及相关舆情信息确定目标舆情信息。
3.如权利要求2所述的业务风险预警方法,其特征在于,所述基于BERT预训练模型将新闻信息转换为字向量,并基于所述字向量确定所述新闻信息中的句子特征的步骤,包括:
基于BERT预训练模型中文本表示层将新闻信息中各句子中的每个字转换为低维稠密的字向量;
基于所述BERT预训练模型中Bi-LSTM层将各个句子的字向量序列作为双向LSTM各个时间步的输入,并将正向LSTM输出的隐状态序列与反向LSTM的在各个位置输出的隐状态按照位置进行拼接,获得完整的隐状态序列;
根据所述完整的隐状态序列确定所述新闻信息中的句子特征。
4.如权利要求1所述的业务风险预警方法,其特征在于,所述基于BERT预训练模型对所述目标舆情信息进行舆情预警分类,并对分类后的舆情信息进行预警标签关联的步骤,包括:
基于BERT预训练模型和预设业务场景对所述目标舆情信息进行舆情预警分类,获得分类后的舆情信息;
通过自然语言处理技术将分类后的舆情信息与主体信息进行预警标签关联。
5.如权利要求4所述的业务风险预警方法,其特征在于,所述通过自然语言处理技术将分类后的舆情信息与主体信息进行预警标签关联的步骤,包括:
通过自然语言处理技术将分类后的舆情信息与主体信息进行关联,获得关联后的数据;
根据预设标签关联模型对所述数据进行预警标签关联。
6.如权利要求1所述的业务风险预警方法,其特征在于,所述对目标新闻进行初筛选,获得目标类型的新闻信息的步骤,包括:
通过BERT预训练模型对目标新闻进行初筛选,获得有效数据;
通过预设业务场景的数据标注对有效数据进行文本倾向分类,获得正负倾向对应的数据集合;
根据所述正负倾向对应的数据集合确定目标类型的新闻信息。
7.如权利要求1-6中任一项所述的业务风险预警方法,其特征在于,所述根据关联后的舆情信息进行业务风险预警的步骤,包括:
基于所述有效数据提取摘要信息;
根据所述摘要信息和关联后的舆情信息进行业务风险预警。
8.一种业务风险预警设备,其特征在于,所述业务风险预警设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的业务风险预警程序,所述业务风险预警程序被所述处理器执行时实现如权利要求1至7中任一项所述的业务风险预警方法。
9.一种存储介质,其特征在于,所述存储介质上存储有业务风险预警程序,所述业务风险预警程序被处理器执行时实现如权利要求1至7中任一项所述的业务风险预警方法。
10.一种业务风险预警装置,其特征在于,所述业务风险预警装置包括:
信息筛选模型,用于对目标新闻进行初筛选,获得目标类型的新闻信息;
舆情分析模块,用于对所述新闻信息进行预处理,获得目标舆情信息;
标签关联模块,用于基于BERT预训练模型对所述目标舆情信息进行舆情预警分类,并对分类后的舆情信息进行预警标签关联;
风险预警模块,用于根据关联后的舆情信息进行业务风险预警。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310389192.9A CN116563006A (zh) | 2023-04-03 | 2023-04-03 | 业务风险预警方法、设备、存储介质及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310389192.9A CN116563006A (zh) | 2023-04-03 | 2023-04-03 | 业务风险预警方法、设备、存储介质及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116563006A true CN116563006A (zh) | 2023-08-08 |
Family
ID=87500912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310389192.9A Pending CN116563006A (zh) | 2023-04-03 | 2023-04-03 | 业务风险预警方法、设备、存储介质及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116563006A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117131944A (zh) * | 2023-10-24 | 2023-11-28 | 中国电子科技集团公司第十研究所 | 面向多领域的交互式危机事件动态预警方法及系统 |
CN117828075A (zh) * | 2023-12-14 | 2024-04-05 | 北京市农林科学院信息技术研究中心 | 农情数据的分类方法、装置及存储介质 |
-
2023
- 2023-04-03 CN CN202310389192.9A patent/CN116563006A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117131944A (zh) * | 2023-10-24 | 2023-11-28 | 中国电子科技集团公司第十研究所 | 面向多领域的交互式危机事件动态预警方法及系统 |
CN117131944B (zh) * | 2023-10-24 | 2024-01-12 | 中国电子科技集团公司第十研究所 | 面向多领域的交互式危机事件动态预警方法及系统 |
CN117828075A (zh) * | 2023-12-14 | 2024-04-05 | 北京市农林科学院信息技术研究中心 | 农情数据的分类方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Aziz et al. | Machine learning and AI for risk management | |
Filippini et al. | Sustainable finance literacy and the determinants of sustainable investing | |
CN108153729B (zh) | 一种面向金融领域的知识抽取方法 | |
CN113297283A (zh) | 用于企业风险预警的舆情分析方法及系统 | |
CN116563006A (zh) | 业务风险预警方法、设备、存储介质及装置 | |
US20220343433A1 (en) | System and method that rank businesses in environmental, social and governance (esg) | |
CN112507116A (zh) | 基于客户应答语料的客户画像方法及其相关设备 | |
Jiang et al. | Mining semantic features in current reports for financial distress prediction: Empirical evidence from unlisted public firms in China | |
CN112686022A (zh) | 违规语料的检测方法、装置、计算机设备及存储介质 | |
CN113378090B (zh) | 一种互联网网站相似度分析方法、装置以及可读存储介质 | |
Sun | The incremental informativeness of the sentiment of conference calls for internal control material weaknesses | |
CN112396437A (zh) | 一种基于知识图谱的贸易合同验证方法及装置 | |
CN115689717A (zh) | 企业风险预警方法、装置、电子设备、介质和程序产品 | |
CN117112782A (zh) | 一种招标公告信息提取方法 | |
CN110826315B (zh) | 使用神经网络系统识别短文本时效性的方法 | |
CN113887214B (zh) | 基于人工智能的意愿推测方法、及其相关设备 | |
Wang et al. | A document analysis deep learning regression model for initial coin offerings success prediction | |
Düsterhöft et al. | Let’s talk about risk! Stock market effects of risk disclosure for European energy utilities | |
CN113159924A (zh) | 授信客户对象的确定方法及装置 | |
Blanco-González-Tejero et al. | Leveraging blockchain for industry funding: A social media analysis | |
CN113554504A (zh) | 一种车贷风控模型生成方法、装置及评分卡生成方法 | |
CN116934341A (zh) | 交易风险的评估方法、装置、电子设备和介质 | |
CN112133308B (zh) | 一种用于语音识别文本多标签分类的方法和装置 | |
Farahani et al. | How AI Changes the Game in Finance Business Models | |
CN114842385A (zh) | 学科教培视频审核方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |