CN115017894A - 一种舆情风险识别方法及装置 - Google Patents
一种舆情风险识别方法及装置 Download PDFInfo
- Publication number
- CN115017894A CN115017894A CN202210604157.XA CN202210604157A CN115017894A CN 115017894 A CN115017894 A CN 115017894A CN 202210604157 A CN202210604157 A CN 202210604157A CN 115017894 A CN115017894 A CN 115017894A
- Authority
- CN
- China
- Prior art keywords
- risk
- risk subject
- subject
- subjects
- semantic feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000012545 processing Methods 0.000 claims abstract description 37
- 238000011176 pooling Methods 0.000 claims abstract description 23
- 239000013598 vector Substances 0.000 claims description 116
- 230000015654 memory Effects 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 23
- 238000012937 correction Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000012986 modification Methods 0.000 claims description 4
- 230000004048 modification Effects 0.000 claims description 4
- 238000002715 modification method Methods 0.000 claims 1
- 238000000605 extraction Methods 0.000 abstract description 11
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 8
- 238000013145 classification model Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000011161 development Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- Computing Systems (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Primary Health Care (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Life Sciences & Earth Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供了一种舆情风险识别方法及装置,可以应用于自然语言处理中的信息抽取技术领域,用于提升风险主体类别识别的准确性。所述方法包括:获取待识别文本;将所述待识别文本输入预先训练的风险主体识别模型,得到多个风险主体;基于每个风险主体的位置信息提取以所述每个风险主体为中心的上文语义信息、下文语义信息和所述每个风险主体自身的语义信息,并分别对所述每个风险主体对应的上文语义信息、下文语义信息和自身的语义信息进行卷积运算和全局最大池化处理;基于卷积运算和全局最大池化处理结果确定所述每个风险主体对应的风险主体类别。
Description
技术领域
本发明涉及自然语言处理中的信息抽取技术领域,尤其涉及一种舆情风险识别方法及装置。
背景技术
舆情是指在一定的社会空间内,围绕社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。随着互联网技术的快速发展,网络的开放性和灵活性让其成为反映社会舆情的主要载体之一。
其中,自然语言处理能力中的信息抽取任务,能够在海量的财经新闻文本中快速准确地识别出涉及风险舆情的财经文本内容,并抽取出风险舆情对应的事件主体。在银行风控部门,风险管理团队与其分支部门中,抽取出风险舆情对应的事件的主体多次引入到风险舆情预警建模中,协助工作人员更加有效地开展风险预知、风险等级评估、风险规避等工作。
目前,针对事件主体所属类别的识别主要是通过将待识别文本向量和事件主体自身的向量进行拼接,基于拼接之后的向量识别事件主体所属类别,然而,当待识别文本中有多个事件主体时,由于多个事件主体对应的待识别文本向量是相同的,使得基于拼接之后的向量识别事件主体所述类别的准确性较低。
发明内容
本申请实施例提供了一种舆情风险识别方法及装置,用于提升风险主体类别识别的准确性。
第一方面,提供一种舆情风险识别方法,所述方法包括:
获取待识别文本;
将所述待识别文本输入预先训练的风险主体识别模型,得到多个风险主体;其中,所述风险主体识别模型用于获取所述待识别文本的语义特征向量,基于所述语义特征向量判断每个起始位置和对应的结束位置组成的字段是否为实体,以及判断所述实体是否为风险主体对应的实体;
基于每个风险主体的位置信息提取以所述每个风险主体为中心的上文语义信息、下文语义信息和所述每个风险主体自身的语义信息,并分别对所述每个风险主体对应的上文语义信息、下文语义信息和自身的语义信息进行卷积运算和全局最大池化处理;
基于卷积运算和全局最大池化处理结果确定所述每个风险主体对应的风险主体类别。
可选的,所述获取所述待识别文本的语义特征向量,包括:
获取所述待识别文本的句子语义特征向量和段落语义特征向量;
将所述句子语义特征向量和段落语义特征向量基于预设方式进行融合,得到所述语义特征向量。
可选的,所述将所述句子语义特征向量和段落语义特征向量基于预设方式进行融合,包括:
将所述句子语义特征向量和所述段落语义特征向量相加;或者,
基于门控机制对所述句子语义特征向量和段落语义特征向量进行融合。
可选的,所述基于每个风险主体的位置信息提取以所述每个风险主体为中心的上文语义信息、下文语义信息和每个所述风险主体自身的语义信息,包括:
基于预设边界修正方法对所述多个风险主体进行边界修正,得到多个目标风险主体;
基于每个目标风险主体的位置信息提取以所述每个目标风险主体为中心的上文语义信息、下文语义信息和所述每个目标风险主体自身的语义信息。
可选的,所述风险主体识别模型还用于计算每个字段为实体的得分,所述基于预设边界修正方法对所述多个风险主体进行边界修正,得到多个目标风险主体,包括:
确定所述多个风险主体中是否存在至少两个风险主体存在边界冲突;其中,所述边界冲突表示所述至少两个风险主体对应的字段存在交集;
若存在,则确定所述至少两个风险主体中得分最高的风险主体为目标风险主体,以及确定其它风险主体为非目标风险主体。
可选的,所述基于预设边界修正方法对所述多个风险主体进行边界修正,得到多个目标风险主体,包括:
确定所述多个风险主体中是否存在两个风险主体位置连续;其中,所述位置连续指示所述两个风险主体中的第一个风险主体的结束位置与第二个风险主体的起始位置连续;
若存在,则将所述两个风险主体合并后得到的一个风险主体确定为目标风险主体。
可选的,所述方法还包括:
分别将每个目标风险主体与预先构建的专业术语词典库进行最长公共子序列匹配;
若第一目标风险主体为第一专业术语的子序列,则确定所述待识别文本中是否存在所述第一专业术语;其中,所述第一专业术语为所述专业术语词典库中的词语;
若存在,则将所述第一目标风险主体替换为所述第一专业术语。
可选的,所述风险主体识别模型中使用的损失函数为focal loss损失函数。
第二方面,提供一种舆情风险识别装置,所述装置包括:
获取模块,用于获取待识别文本;
处理模块,用于将所述待识别文本输入预先训练的风险主体识别模型,得到多个风险主体;其中,所述风险主体识别模型用于获取所述待识别文本的语义特征向量,基于所述语义特征向量判断每个起始位置和对应的结束位置组成的字段是否为实体,以及判断所述实体是否为风险主体对应的实体;
所述处理模块,还用于基于每个风险主体的位置信息提取以所述每个风险主体为中心的上文语义信息、下文语义信息和所述每个风险主体自身的语义信息,并分别对所述每个风险主体对应的上文语义信息、下文语义信息和自身的语义信息进行卷积运算和全局最大池化处理;
所述处理模块,还用于基于卷积运算和全局最大池化处理结果确定所述每个风险主体对应的风险主体类别。
可选的,所述风险主体识别模型,具体用于:
获取所述待识别文本的句子语义特征向量和段落语义特征向量;
将所述句子语义特征向量和段落语义特征向量基于预设方式进行融合,得到所述语义特征向量。
可选的,所述风险主体识别模型,具体用于:
将所述句子语义特征向量和所述段落语义特征向量相加;或者,
基于门控机制对所述句子语义特征向量和段落语义特征向量进行融合。
可选的,所述处理模块,具体用于:
基于预设边界修正方法对所述多个风险主体进行边界修正,得到多个目标风险主体;
基于每个目标风险主体的位置信息提取以所述每个目标风险主体为中心的上文语义信息、下文语义信息和所述每个目标风险主体自身的语义信息。
可选的,所述风险主体识别模型还用于计算每个字段为实体的得分,所述处理模块,具体用于:
确定所述多个风险主体中是否存在至少两个风险主体存在边界冲突;其中,所述边界冲突表示所述至少两个风险主体对应的字段存在交集;
若存在,则确定所述至少两个风险主体中得分最高的风险主体为目标风险主体,以及确定其它风险主体为非目标风险主体。
可选的,所述处理模块,具体用于:
确定所述多个风险主体中是否存在两个风险主体位置连续;其中,所述位置连续指示所述两个风险主体中的第一个风险主体的结束位置与第二个风险主体的起始位置连续;
若存在,则将所述两个风险主体合并后得到的一个风险主体确定为目标风险主体。
可选的,所述处理模块,还用于:
分别将每个目标风险主体与预先构建的专业术语词典库进行最长公共子序列匹配;
若第一目标风险主体为第一专业术语的子序列,则确定所述待识别文本中是否存在所述第一专业术语;其中,所述第一专业术语为所述专业术语词典库中的词语;
若存在,则将所述第一目标风险主体替换为所述第一专业术语。
第三方面,提供一种电子设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行第一方面所述的方法包括的步骤。
第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质用于存储指令,当所述指令被执行时,使如第一方面所述的方法被实现。
第五方面,提供一种包含指令的计算机程序产品,所述计算机程序产品中存储有指令,当其在计算机上运行时,使得计算机执行第一方面所述的方法。
在本申请实施例中,获取待识别文本,将待识别文本输入风险主体识别模型,通过风险主体识别模型获取待识别文本的语义特征向量,基于语义特征向量判断每个起始位置和对应的结束文职组成的字段是否为实体,以及判断实体是否为风险主体对应的实体,得到多个风险主体,然后基于每个风险主体的位置信息提取以每个风险主体为中心的上文语义信息、下文语义信息和每个风险主体自身的语义信息,并对获取的每个风险主体的上文语义信息、下文语义信息和自身的语义信息进行卷积运算和全局最大池化处理,基于卷积运算和全局最大池化处理结果确定每个风险主体对应的风险事件类别。
也就是说,本申请基于每个风险主体的位置信息获取每个风险主体的上文语义信息(或者也可以说是上文语义向量)、自身语义信息和下文语义信息,并对获取的语义信息进行卷积操作和全局最大池化操作,相对于现有技术中简单的将两个向量拼接,可以有效提升风险主体类别识别的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例。
图1为本申请实施例提供的一种舆情风险识别方法的流程图;
图2为本申请实施例提供的一种多粒度语义特征网络结构图;
图3为本申请实施例提供的一种Biaffine网络的网络结构图;
图4为本申请实施例提供的一种风险主体分类模型的结构图;
图5为本申请实施例提供的一种舆情风险识别装置的结构框图;
图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请的说明书和权利要求书及上述附图中的术语“第一”和“第二”是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的保护。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请中的“多个”可以表示至少两个,例如可以是两个、三个或者更多个,本申请实施例不做限制。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,在不做特别说明的情况下,一般表示前后关联对象是一种“或”的关系。
在介绍本申请实施例之前,首先对本申请中的部分技术特征进行介绍,以便于本领域技术人员理解。
事件:发生过的历史事件、现实事件或资讯信息,例如可以包括:金融事件、法律事件、社会事件、历史事件、自然事件等。
事件主体:是指与目标事件相关的命名名称列表,命名名称包括人名、地名、组织、机构名等,且该命名名称列表中的命名名称按照相对目标事件的重要程度降序排列。可以通过事件主体获取相关的咨询信息,用于识别风险、辅助决策以及确定事件的发展趋势等,从而实现通过事件主体反向索引相关的资讯信息。本发明中是面向金融领域的,所提及的事件主体主要指金融事件主体,这里指的是组织实体。
全连接层:全连接层的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来。全连接层可以整合前面神经网络层中具有区分性的局部信息,如果全连接层后连接一个softmax层或者sigmoid层进行输出,可以得到多个分类的概率分布,从而实现分类。
实体识别层:使用某种方法从一段文本中识别出人名、地名、组织名、日期等,本发明实体识别层就是为了识别出风险主体。
卷积层:用来提取特征,就是根据多个一定的权重(即卷积核),对一个块的像素进行内积运算,其输出就是提取的特征之一。
池化层:即对一块数据进行抽样或聚合,例如选择该区域的最大值(或平均值)取代该区域。
下面结合说明书附图对本申请实施例提供的舆情风险识别方法进行详细介绍。请参见图1所示,本申请提供的舆情风险识别方法的流程图描述如下:
步骤101:获取待识别文本;
其中,由于本申请实施例是面向金融领域的,因此,本申请实施例中的待识别文本可以是财经新闻文本,或者其它与金融相关的资讯、消息等。
步骤102:将待识别文本输入预先训练的风险主体识别模型,得到多个风险主体;
在本申请实施例中,风险主体识别模型包括多粒度语义特征网络、双仿射分类网络和实体识别层,其中,多粒度语义特征网络用于获取待识别文本的语义特征向量、双仿射分类网络用于基于多粒度语义特征网络获取的待识别文本的语义特征向量判断每个起始位置和对应的结束位置组成的字段是否为实体,实体识别层用于判断双仿射分类网络确定的实体是否为风险主体对应的实体。
作为一种可能的实施方式,在本申请实施例中,多粒度语义特征网络通过获取待识别文本的句子语义特征向量和段落语义特征向量,将句子语义特征向量和段落语义特征向量进行融合,得到最终的语义特征向量。
其中,所述多粒度语义特征网络是基于预训练的语言表征模型(BidirectionalEncoder Representation from Transformers,BERT)和长短期记忆网络(Long Short-Term Memory,LSTM)搭建的,该多粒度语义特征网络主要包括三个模块,句子语义提取模块,段落语义提取模块、句子和段落语义融合模块。在获取待识别文本之后,首先使用wordembedding(词嵌入)将待识别文本表示成向量,然后通过句子语义提取模块利用sentence-level BILSTM方式编码提取句子语义特征向量,以及通过段落语义提取模块利用paragraph-level BILSTM方式编码提取段落语义特征,最后通过句子和段落语义融合模块将句子语义特征向量和段落语义特征向量进行融合,具体网络结构如图2所示。
在介绍完本申请多粒度语义特征网络的具体结构之后,下面分别介绍句子语义提取模块提取句子语义特征向量、段落语义提取模块提取段落语义特征向量和将句子语义特征向量和段落语义特征向量进行融合的原理。
句子语义提取模块提取句子语义特征向量原理如下:
假设待识别文本中总共包括k个句子,句子1词序列为……,句子k词序列为k个句子经过wordembeding得到相应的词向量序列依次为然后依次采用sentence-level BILSTM(即BILSTMsent)对每个句子进行语义编码,具体公式如下:
……
段落语义提取模块提取段落语义特征向量原理如下:
继续以上述为例,待识别文本中总共包括k个句子,句子1词序列为……,句子k词序列为k个句子经过wordembeding得到相应的词向量序列依次为然后依次采用paragraph-level BILSTM(即BILSTMpara)对每个句子进行语义编码,具体公式如下:
将句子语义特征向量和段落语义特征向量进行融合的原理如下:
继续以上述为例,待识别文本中总共包括k个句子,句子1词序列为……,句子k词序列为k个句子经过句子语义提取模块得到的句子语义特征向量为k个句子经过段落语义提取模块得到的段落语义特征向量为可以通过以下两种方式对句子语义特征向量和段落语义特征向量进行融合。
第一种:简单求和,即将句子语义特征向量和段落语义特征向量相加。例如,第k个句子第i个词si k经过句子语义特征提取模块提取的的语义特征向量为经过段落语义特征提取模块提取的段落语义特征向量为则第k个句子第i个词简单求和后得到的语义特征向量为
第二种:基于门控机制对句子语义特征向量和段落语义特征向量进行融合。以上述为例,第k个句子第i个词基于门控机制融合后得到的语义特征向量为:
其中,*表示点乘,W1、W2和b为模型(sigmoid)学习的网络参数。
在具体的实施过程中,考虑到现有技术中直接将待识别文本进行截断,容易丢失待识别文本的语义信息,或者直接将待识别文本切割成多个片段,再进行汇总,处理起来比较粗糙的情况,本申请通过构建多粒度语义特征网络,能够充分捕获待识别文本的篇章级语义信息,使得获取的待识别文本的语义特征向量的更准确。
在通过多粒度语义特征网络获取待识别文本的语义特征向量之后,通过双仿射分类网络(Biaffine网络)基于该语义特征向量判断每个起始位置和对应的结束位置组成的字段(span)是否为实体。其中,Biaffine网络的网络结构如图3所示,从图中可以看出Biaffine网络使用的是两个独立的线性网络,FFNN_start(即FFNNs)网络和FFNN_end(即FFNNe)网络,FFNN_start网络和FFNN_end网络分别基于多粒度语义特征网络获取的语义特征向量获取span的起始位置向量和结束位置向量(可分别表示为向量hs和he),然后基于span的起始位置向量和结束位置向量进行语义交互(Biaffine Classify)。然后在限制起始位置小于结束位置的条件下,判断由该起始位置和结束位置的span能构成一个实体的得分,基于该得分判断该span是否为实体。
例如,假设待识别文本中总共包括k个句子,其词序列为s1,…,sn,将词序列经过多粒度语义特征网络得到语义特征向量为x1,…,xn。对该语义特征向量使用Biaffine双仿射,得到得分矩阵张量为rm(即每个span为实体的得分),其维度为n×n×c,其中c为实体类别的个数+1,rm的计算公式如下:
rm(i)=hs(i)TUmhe(i)+Wm(hs(i)+he(i))+bm
其中,si和ei分别是span i的起始位置和结束位置,和分别为多粒度语义特征网络得到的span i起始位置的语义特征向量和span i结束位置的语义特征向量,Um是一个d×c×d维张量,双仿射矩阵,是模型学习的网络参数,Wm是一个2d×c的矩阵,也是模型学习的网络参数,bm是一个2d的向量,也是通过模型学习的网络参数。
在得到每个span为实体的得分之后,判断每个span的为实体的得分是否大于预设阈值,若得分大于预设阈值,则确定该span为实体。
进一步地,在确定每个span是否为实体之后,还可以在双仿射分类网络后面拼接实体识别层(即拼接一个softmax)进行多分类,判断实体是否为风险主体对应的实体,具体公式如下:
其中,pm(ic)为span i在实体类型为c上的得分,取值为[0,1]之间。
在具体的实施过程中,考虑到现有技术分别单独预测实体主体的起始位置和结束位置时,没有利用起始位置token和结束位置token信息进行交互,可能导致实体主体的起始位置和结束位置的数量不一致的情况,需要根据预测概率进行后置处理,使得实体识别效率较低,本申请实施例中Biaffine网络采用双线性仿射机制,可以让实体起始位置token和实体结束位置token信息进行交互,然后联合实体起始位置token和结束位置token信息判断由起始位置token和结束位置token组成的span是否为实体,可以有效提升实体识别效率。
作为一种可能的实施方式,在本申请实施例中,在将待识别文本输入预先训练的风险主体识别模型之前,还需要通过已标注的预训练语料对已经定义的网络结构进行训练,并通过梯度下降不断优化损失函数,学习语料信息中各种特征。其中,损失函数是用来估量模型的预测值f(x)与真实值Y的不一致程度,在本申请实施例中,风险主体识别模型使用focal loss损失函数替代一般交叉熵损失函数,focal loss损失函数的具体公式如下:
其中,α用于调节正负样本的重要性,γ用于调节简单样本权重降低的速度,α和γ都为超参数,y′为模型预测得分,取值为[0,1]之间。在损失函数优化过程中,若预测分数为0.95,表明该样本为简单样本,此时(1-0.95)γ的取值较小,相应的损失值也更小,若预测分数为0.3,表明该样本为难分类样本,其损失值就相对较大。因此,focal loss损失函数不仅可以解决正负样本不均衡问题,而且可以减少易分类样本的损失,增加困难、错分样本的权重,使得模型更加关注于这种难以区分的样本,增加模型的鲁棒性。
步骤103:基于每个风险主体的位置信息提取以每个风险主体为中心的上文语义信息、下文语义信息和每个风险主体自身的语义信息;
如步骤102所述,风险主体识别模型在识别风险主体的过程中已获得了每个风险主体的起始位置和结束位置,在本申请实施例中,可以基于风险主体识别模型识别出的多个风险主体中每个风险主体的位置信息(即每个风险主体的起始位置和结束位置)分别获取该风险主体对应的上文语义信息、下文语义信息和自身的语义信息。
具体的,在风险主体识别模型对待识别文本进行识别得到多个风险主体之后,可以将该多个风险主体的每个风险主体对应的位置信息输入动态卷积神经网络提取每个风险主体对应的上文语义信息、下文语义信息和自身的语义信息,例如,采用三个动态卷积神经网络分别基于每个风险主体对应的位置信息提取当前风险主体(span)的上文语义信息、自身的语义信息和下文语义信息。
如前所述,本发明是面向金融领域的,所提及的事件主体主要是指金融事件主体,即组织实体,且都为长实体,而长实体容易出现边界错误,以及使用双仿射分类网络识别出的实体容易包含在另一个实体中,或者一个实体位于另一个实体内部。因此,针对上述情况,本申请实施例在基于每个风险主体的位置信息提取以每个风险主体为中心的上文语义信息、下文语义信息和自身的语义信息之前还可以基于预设边界修正方法对多个风险主体进行边界修正,得到多个目标风险主体,然后基于每个目标风险主体的位置信息提取以每个目标风险主体为中心的上文语义信息、下文语义信息和自身自身的语义信息。
下面介绍本申请实施例对多个风险主体进行边界修正的具体实施方式。
第一种可能的实施方式,确定多个风险主体中是否存在至少两个风险主体存在边界冲突,即确定多个风险主体中是否存在至少两个风险主体对应的字段存在交集(对应前述的一个实体包含在另一个实体,或者一个实体位于另一个实体内部),若存在至少两个风险主体对应的字段存在交集,则基于风险主体识别模型计算的每个span为实体的得分将所述至少两个风险主体按照得分降序排序,并确定得分最高的风险主体为目标风险主体,其它风险主体为非目标风险主体。
例如,span1字段在待识别文本中的起始位置是13,结束位置是18(即span1为待识别文本中的第13-18个字符),风险主体识别模型计算的该字段为实体的得分为0.95,span2字段在待识别文本中的起始位置为15,结束位置为18,风险主体识别模型计算的该字段为实体的得分为0.92,span3字段在待识别文本中的起始位置为17,结束位置为20,风险主体识别模型计算的该字段为实体的得分为0.93,基于每个字段的位置信息可以确定出该三个字段存在交集(即存在边界冲突),则将所述三个字段按照得分降序排序,得到span1>span3>span2,此时可以确定span字段对应的风险主体为目标风险主体,而span2和span3字段对应的风险主体为非目标风险主体。
第二种可能的实施方式,确定多个风险主体中是否存在两个风险主体位置连续,即确定多个风险主体中是否存在两个风险主体中第一个风险主体的结束位置与第二个风险主体的起始位置连续,若存在,则表明可能将一个风险主体识别为两个风险主体,此时,可以将所述两个风险主体进行合并,并将合并后得到的一个风险主体确定为目标风险主体。
作为一种可能的实施方式,在对多个风险主体进行边界修正,得到多个目标风险主体之后,还可以分别将每个目标风险主体与预先构建的专业术语词典库进行最长公共子序列匹配,若第一目标风险主体为第一专业术语的子序列,则确定待识别文本中是否存在第一专业术语,其中,第一专业术语为专业术语词典库中的词语,若存在,则将第一目标风险主体替换为第一专业术语。
例如,待识别文本是“A股份有限公司已宣告倒闭、破产”,风险主体识别模型进行风险主体识别结果为A(A即为第一目标风险主体),在将风险主体识别结果“A”与预先构建的专业术语词典库进行最长公共子序列匹配时,确定A为第一专业术语的最长公共子序列,第一专业术语例如可以是“A股份有限公司”,或者还可以是“A科技有限公司”此时为了避免错误替换,还需要进一步确定第一专业术语是否存在与待识别文本中,若第一专业术语为“A股份有限公司”,则确定第一专业术语存在于待识别文本中,则可以使用第一专业术语替换第一目标风险主体;若第一专业术语为“A科技有限公司”,则确定第一专业术语未存在于待识别文本中,则不能使用第一专业术语替换第一目标风险主体。
在具体的实施过程中,将风险主体识别模型识别出的多个风险主体进行边界修正以及使用专业术语词典库中的词语替换识别出的目标风险主体,可以有效提升风险主体识别的准确率。
步骤104:分别对每个风险主体对应的上文语义信息、下文语义信息和自身的语义信息进行卷积运算和全局最大池化处理;
在通过步骤103获得每个风险主体对应的上文语义信息、下文语义信息和自身的语义信息之后,可以对每个风险主体对应的上文语义信息、下文语义信息和自身的语义信息进行卷积运算和全局最大池化处理,例如,将上文语义信息、下文语义信息和自身的语义信息经过卷积层和池化层进行卷积运算和全局最大池化处理(即CNN+MaxPlooing)。
步骤105:基于卷机运算和全局最大池化处理结果确定每个风险主体对应的风险主体类别。
其中,风险主体类别主要包括:“停产减产事件主体”、“破产事件主体”、“资产异常事件主体”、“违约失信事件主体”、“减持事件主体”、“董高监成员异常事件主体”、“评级恶化事件主体”、“财务造假事件主体”、“资产查封事件主体”、“亏损事件主体”等。在本申请实施例中,考虑到一个风险主体可以属于多个风险主体类别(例如同时属于违约失信事件主体和停产减产事件主体),因此在基于卷积运算和全局最大池化处理结果确定每个风险主体对应的风险主体类别时,可以将每个风险主体的分类问题转化为二分类问题,例如,可以通过多层感知机(MultiLayer Perceptron,MLP)和sigmoid层(即MLP+sigmoid)将每个风险主体是否属于当前风险主体类别转化为二分类问题,其中,若风险主体类别的数量为k个,则二分类器的个数也为k个,通过k个二分类器分别判断每个风险主体是否为当前风险主体类别,具体分类公式如下:
其中,e表示风险主体e的得分,取值为[0,1]。
在一些其它的实施例中,在通过动态卷积神经网络提取每个风险主体的语义信息以及通过MLP和sigmoid层确定每个风险主体对应的风险主体类别之前,还可以将动态卷积神经网络和sigmoid层搭建形成风险主体分类模型,风险主体分类模型结构如图4所示,然后通过已标注的预训练语料对风险主体分类模型进行训练,并通过梯度下降不断优化损失函数,学习语料信息中各种特征。其中,风险主体分类模型使用的损失函数与风险主体识别模型使用的损失函数相同,在此不再赘述。
在具体的实施过程中,本申请通过构建多粒度语义特征网络,能够充分捕获待识别文本的篇章级语义信息,使得获取的待识别文本的语义特征向量的更准确,以及通过使用focal loss损失函数作为模型训练过程中的损失函数,不仅可以解决正负样本不均衡问题,而且可以减少易分类样本的损失,增加困难、错分样本的权重,使得模型更加关注于这种难以区分的样本,增加模型的鲁棒性,且通过对风险主体识别模型识别出的多个风险主体进行边界修正,有效提升了风险主体识别的准确性。
为了更好的理解本申请的技术方案,下面将结合具体的实施例对本申请提供的预失真扩展模型及其实现预失真的方法进行解释说明。
实施例
获取的待识别文本为“2020年以来,愿景基金一期的投资项目中,Brandless、OneWeb两家企业已宣告倒闭、破产,直接导致愿景基金一期投资的22.4亿美元全部打水漂”,将其输入风险主体识别模型进行风险主体识别之后得到两个风险主体,分别是“Brandless”和“OneWeb”,其中,“Brandless”在待识别文本中的起始位置为22,结束位置为30,“OneWeb”在待识别文本中的起始位置为32,结束位置为37,基于“Brandless”的位置信息(22,30)分别提取起始位置为1,结束位置为21的字段的语义信息(上文语义信息)、起始位置为22,结束位置为31的字段(即Brandless)的语义信息和起始位置为31,结束位置为待识别文本的最后一个字符(位置为75)的字段的语义信息(下文语义信息),以及基于“OneWeb”的位置信息(32,37)分别提取起始位置为1,结束位置为31的字段的语义信息(上文语义信息)、起始位置为32,结束位置为37的字段(即OneWeb)的语义信息和起始位置为38,结束位置为75的字段的语义信息(下文语义信息),分别对基于Brandless和OneWeb的位置信息提取的语义信息进行卷积运算和全局最大池化处理,然后基于运算结果确定该Brandless和OneWeb对应的风险主体类别为“破产事件主体”。
基于同一发明构思,本申请实施例提供了一种舆情风险识别装置,该舆情风险识别装置能够实现前述的舆情风险识别方法对应的功能。该舆情风险识别装置可以是硬件结构、软件模块、或硬件结构加软件模块。该舆情风险识别装置可以由芯片系统实现,芯片系统可以由芯片构成,也可以包含芯片和其他分立器件。请参见图5所示,该舆情风险识别装置包括获取模块501、处理模块502和风险主体识别模型503。其中:
获取模块501,用于获取待识别文本;
处理模块502,用于将所述待识别文本输入预先训练的风险主体识别模型,得到多个风险主体;其中,所述风险主体识别模型用于获取所述待识别文本的语义特征向量,基于所述语义特征向量判断每个起始位置和对应的结束位置组成的字段是否为实体,以及判断所述实体是否为风险主体对应的实体;
所述处理模块502,还用于基于每个风险主体的位置信息提取以所述每个风险主体为中心的上文语义信息、下文语义信息和所述每个风险主体自身的语义信息,并分别对所述每个风险主体对应的上文语义信息、下文语义信息和自身的语义信息进行卷积运算和全局最大池化处理;
所述处理模块502,还用于基于卷积运算和全局最大池化处理结果确定所述每个风险主体对应的风险主体类别。
可选的,所述风险主体识别模型503,具体用于:
获取所述待识别文本的句子语义特征向量和段落语义特征向量;
将所述句子语义特征向量和段落语义特征向量基于预设方式进行融合,得到所述语义特征向量。
可选的,所述风险主体识别模型503,具体用于:
将所述句子语义特征向量和所述段落语义特征向量相加;或者,
基于门控机制对所述句子语义特征向量和段落语义特征向量进行融合。
可选的,所述处理模块502,具体用于:
基于预设边界修正方法对所述多个风险主体进行边界修正,得到多个目标风险主体;
基于每个目标风险主体的位置信息提取以所述每个目标风险主体为中心的上文语义信息、下文语义信息和所述每个目标风险主体自身的语义信息。
可选的,所述风险主体识别模型503还用于计算每个字段为实体的得分,所述处理模块502,具体用于:
确定所述多个风险主体中是否存在至少两个风险主体存在边界冲突;其中,所述边界冲突表示所述至少两个风险主体对应的字段存在交集;
若存在,则确定所述至少两个风险主体中得分最高的风险主体为目标风险主体,以及确定其它风险主体为非目标风险主体。
可选的,所述处理模块502,具体用于:
确定所述多个风险主体中是否存在两个风险主体位置连续;其中,所述位置连续指示所述两个风险主体中的第一个风险主体的结束位置与第二个风险主体的起始位置连续;
若存在,则将所述两个风险主体合并后得到的一个风险主体确定为目标风险主体。
可选的,所述处理模块502,还用于:
分别将每个目标风险主体与预先构建的专业术语词典库进行最长公共子序列匹配;
若第一目标风险主体为第一专业术语的子序列,则确定所述待识别文本中是否存在所述第一专业术语;其中,所述第一专业术语为所述专业术语词典库中的词语;
若存在,则将所述第一目标风险主体替换为所述第一专业术语。
前述的舆情风险识别方法的实施例涉及的各步骤的所有相关内容均可援引到本申请施例中的舆情风险识别装置所对应的功能模块的功能描述,在此不再赘述。
本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,另外,在本申请各个实施例中的各功能模块可以集成在一个处理器中,也可以是单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
基于同一发明构思,本申请实施例提供一种电子设备。请参见图6所示,该电子设备包括至少一个处理器601,以及与至少一个处理器连接的存储器602,本申请实施例中不限定处理器601与存储器602之间的具体连接介质,图6中是以处理器601和存储器602之间通过总线600连接为例,总线600在图6中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线600可以分为地址总线、数据总线、控制总线等,为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
在本申请实施例中,存储器602存储有可被至少一个处理器601执行的指令,至少一个处理器601通过执行存储器602存储的指令,可以执行前述的舆情风险识别方法中所包括的步骤。
其中,处理器601是电子设备的控制中心,可以利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器602内的指令以及调用存储在存储器602内的数据,电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器601可包括一个或多个处理单元,处理器601可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器601中。在一些实施例中,处理器601和存储器602可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器601可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的舆情风险识别方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器602作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器602可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器602是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器602还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
通过对处理器601进行设计编程,可以将前述实施例中介绍的舆情风险识别方法所对应的代码固化到芯片内,从而使芯片在运行时能够执行前述的舆情风险识别方法的步骤,如何对处理器601进行设计编程为本领域技术人员所公知的技术,这里不再赘述。
基于同一发明构思,本申请实施例还提供一种计算可读存储介质,该计算可读存储介质存储有计算机指令,当该计算机指令在计算机上运行时,使得计算机执行如前述的舆情风险识别方法的步骤。
在一些可能的实施方式中,本申请提供的舆情风险识别方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在电子设备上运行时,程序代码用于使该检测设备执行本说明书上述描述的根据本申请各种示例性实施方式的舆情风险识别方法中的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (18)
1.一种舆情风险识别方法,其特征在于,所述方法包括:
获取待识别文本;
将所述待识别文本输入预先训练的风险主体识别模型,得到多个风险主体;其中,所述风险主体识别模型用于获取所述待识别文本的语义特征向量,基于所述语义特征向量判断每个起始位置和对应的结束位置组成的字段是否为实体,以及判断所述实体是否为风险主体对应的实体;
基于每个风险主体的位置信息提取以所述每个风险主体为中心的上文语义信息、下文语义信息和所述每个风险主体自身的语义信息,并分别对所述每个风险主体对应的上文语义信息、下文语义信息和自身的语义信息进行卷积运算和全局最大池化处理;
基于卷积运算和全局最大池化处理结果确定所述每个风险主体对应的风险主体类别。
2.如权利要求1所述的方法,其特征在于,所述获取所述待识别文本的语义特征向量,包括:
获取所述待识别文本的句子语义特征向量和段落语义特征向量;
将所述句子语义特征向量和段落语义特征向量基于预设方式进行融合,得到所述语义特征向量。
3.如权利要求2所述的方法,其特征在于,所述将所述句子语义特征向量和段落语义特征向量基于预设方式进行融合,包括:
将所述句子语义特征向量和所述段落语义特征向量相加;或者,
基于门控机制对所述句子语义特征向量和段落语义特征向量进行融合。
4.如权利要求1所述的方法,其特征在于,所述基于每个风险主体的位置信息提取以所述每个风险主体为中心的上文语义信息、下文语义信息和每个所述风险主体自身的语义信息,包括:
基于预设边界修正方法对所述多个风险主体进行边界修正,得到多个目标风险主体;
基于每个目标风险主体的位置信息提取以所述每个目标风险主体为中心的上文语义信息、下文语义信息和所述每个目标风险主体自身的语义信息。
5.如权利要求4所述的方法,其特征在于,所述风险主体识别模型还用于计算每个字段为实体的得分,所述基于预设边界修正方法对所述多个风险主体进行边界修正,得到多个目标风险主体,包括:
确定所述多个风险主体中是否存在至少两个风险主体存在边界冲突;其中,所述边界冲突表示所述至少两个风险主体对应的字段存在交集;
若存在,则确定所述至少两个风险主体中得分最高的风险主体为目标风险主体,以及确定其它风险主体为非目标风险主体。
6.如权利要求4所述的方法,其特征在于,所述基于预设边界修正方法对所述多个风险主体进行边界修正,得到多个目标风险主体,包括:
确定所述多个风险主体中是否存在两个风险主体位置连续;其中,所述位置连续指示所述两个风险主体中的第一个风险主体的结束位置与第二个风险主体的起始位置连续;
若存在,则将所述两个风险主体合并后得到的一个风险主体确定为目标风险主体。
7.如权利要求4-6任一所述的方法,其特征在于,所述方法还包括:
分别将每个目标风险主体与预先构建的专业术语词典库进行最长公共子序列匹配;
若第一目标风险主体为第一专业术语的子序列,则确定所述待识别文本中是否存在所述第一专业术语;其中,所述第一专业术语为所述专业术语词典库中的词语;
若存在,则将所述第一目标风险主体替换为所述第一专业术语。
8.如权利要求1所述的方法,其特征在于,所述风险主体识别模型中使用的损失函数为focal loss损失函数。
9.一种舆情风险识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别文本;
处理模块,用于将所述待识别文本输入预先训练的风险主体识别模型,得到多个风险主体;其中,所述风险主体识别模型用于获取所述待识别文本的语义特征向量,基于所述语义特征向量判断每个起始位置和对应的结束位置组成的字段是否为实体,以及判断所述实体是否为风险主体对应的实体;
所述处理模块,还用于基于每个风险主体的位置信息提取以所述每个风险主体为中心的上文语义信息、下文语义信息和所述每个风险主体自身的语义信息,并分别对所述每个风险主体对应的上文语义信息、下文语义信息和自身的语义信息进行卷积运算和全局最大池化处理;
所述处理模块,还用于基于卷积运算和全局最大池化处理结果确定所述每个风险主体对应的风险主体类别。
10.如权利要求9所述的装置,其特征在于,所述风险主体识别模型,具体用于:
获取所述待识别文本的句子语义特征向量和段落语义特征向量;
将所述句子语义特征向量和段落语义特征向量基于预设方式进行融合,得到所述语义特征向量。
11.如权利要求10所述的装置,其特征在于,所述风险主体识别模型,具体用于:
将所述句子语义特征向量和所述段落语义特征向量相加;或者,
基于门控机制对所述句子语义特征向量和段落语义特征向量进行融合。
12.如权利要求9所述的装置,其特征在于,所述处理模块,具体用于:
基于预设边界修正方法对所述多个风险主体进行边界修正,得到多个目标风险主体;
基于每个目标风险主体的位置信息提取以所述每个目标风险主体为中心的上文语义信息、下文语义信息和所述每个目标风险主体自身的语义信息。
13.如权利要求12所述的装置,其特征在于,所述风险主体识别模型还用于计算每个字段为实体的得分,所述处理模块,具体用于:
确定所述多个风险主体中是否存在至少两个风险主体存在边界冲突;其中,所述边界冲突表示所述至少两个风险主体对应的字段存在交集;
若存在,则确定所述至少两个风险主体中得分最高的风险主体为目标风险主体,以及确定其它风险主体为非目标风险主体。
14.如权利要求12所述的装置,其特征在于,所述处理模块,具体用于:
确定所述多个风险主体中是否存在两个风险主体位置连续;其中,所述位置连续指示所述两个风险主体中的第一个风险主体的结束位置与第二个风险主体的起始位置连续;
若存在,则将所述两个风险主体合并后得到的一个风险主体确定为目标风险主体。
15.如权利要求12-14任一所述的装置,其特征在于,所述处理模块,还用于:
分别将每个目标风险主体与预先构建的专业术语词典库进行最长公共子序列匹配;
若第一目标风险主体为第一专业术语的子序列,则确定所述待识别文本中是否存在所述第一专业术语;其中,所述第一专业术语为所述专业术语词典库中的词语;
若存在,则将所述第一目标风险主体替换为所述第一专业术语。
16.一种电子设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行如权利要求1-8任一项所述的方法包括的步骤。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储指令,当所述指令被执行时,使如权利要求1-8中任一项所述的方法被实现。
18.一种包含指令的计算机程序产品,其特征在于,所述计算机程序产品中存储有指令,当其在计算机上运行时,使得计算机执行如权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210604157.XA CN115017894A (zh) | 2022-05-30 | 2022-05-30 | 一种舆情风险识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210604157.XA CN115017894A (zh) | 2022-05-30 | 2022-05-30 | 一种舆情风险识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115017894A true CN115017894A (zh) | 2022-09-06 |
Family
ID=83070470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210604157.XA Pending CN115017894A (zh) | 2022-05-30 | 2022-05-30 | 一种舆情风险识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115017894A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116978511A (zh) * | 2023-09-25 | 2023-10-31 | 字节星球科技(成都)有限公司 | 基于大语言模型的用药风险识别方法、装置及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110968672A (zh) * | 2019-12-03 | 2020-04-07 | 北京工商大学 | 一种基于神经网络的食品安全虚假舆情识别方法 |
CN110990525A (zh) * | 2019-11-15 | 2020-04-10 | 华融融通(北京)科技有限公司 | 一种基于自然语言处理的舆情信息抽取及知识库生成方法 |
CN111177319A (zh) * | 2019-12-24 | 2020-05-19 | 中国建设银行股份有限公司 | 风险事件的确定方法、装置、电子设备和存储介质 |
CN112149179A (zh) * | 2020-09-18 | 2020-12-29 | 支付宝(杭州)信息技术有限公司 | 基于隐私保护的风险识别方法及装置 |
-
2022
- 2022-05-30 CN CN202210604157.XA patent/CN115017894A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110990525A (zh) * | 2019-11-15 | 2020-04-10 | 华融融通(北京)科技有限公司 | 一种基于自然语言处理的舆情信息抽取及知识库生成方法 |
CN110968672A (zh) * | 2019-12-03 | 2020-04-07 | 北京工商大学 | 一种基于神经网络的食品安全虚假舆情识别方法 |
CN111177319A (zh) * | 2019-12-24 | 2020-05-19 | 中国建设银行股份有限公司 | 风险事件的确定方法、装置、电子设备和存储介质 |
CN112149179A (zh) * | 2020-09-18 | 2020-12-29 | 支付宝(杭州)信息技术有限公司 | 基于隐私保护的风险识别方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116978511A (zh) * | 2023-09-25 | 2023-10-31 | 字节星球科技(成都)有限公司 | 基于大语言模型的用药风险识别方法、装置及存储介质 |
CN116978511B (zh) * | 2023-09-25 | 2023-12-12 | 字节星球科技(成都)有限公司 | 基于大语言模型的用药风险识别方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102008845B1 (ko) | 비정형 데이터의 카테고리 자동분류 방법 | |
CN113822494A (zh) | 风险预测方法、装置、设备及存储介质 | |
CN112434535B (zh) | 基于多模型的要素抽取方法、装置、设备及存储介质 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN110888983B (zh) | 一种正负面情感分析方法、终端设备及存储介质 | |
CN113987187A (zh) | 基于多标签嵌入的舆情文本分类方法、系统、终端及介质 | |
KR20220068937A (ko) | 기계학습 방법론을 이용한 한국 표준 산업/직업 분류 방법 | |
Islam et al. | Deep learning for multi-labeled cyberbully detection: Enhancing online safety | |
CN112464670A (zh) | 识别方法、识别模型的训练方法、装置、设备、存储介质 | |
CN114218392A (zh) | 面向期货问答的用户意图识别方法和系统 | |
CN115269833A (zh) | 基于深度语义和多任务学习的事件信息抽取方法及系统 | |
CN112380346A (zh) | 金融新闻情感分析方法、装置、计算机设备及存储介质 | |
CN116150367A (zh) | 一种基于方面的情感分析方法及系统 | |
CN115017894A (zh) | 一种舆情风险识别方法及装置 | |
Shahina et al. | A sequential labelling approach for the named entity recognition in Arabic language using deep learning algorithms | |
CN112465262A (zh) | 一种事件预测处理方法、装置、设备及存储介质 | |
CN114119191A (zh) | 风控方法、逾期预测方法、模型训练方法及相关设备 | |
CN111582565A (zh) | 数据融合方法、装置和电子设备 | |
Gillmann et al. | Quantification of Economic Uncertainty: a deep learning approach | |
CN113705201B (zh) | 基于文本的事件概率预测评估算法、电子设备及存储介质 | |
CN116089605A (zh) | 基于迁移学习和改进词袋模型的文本情感分析方法 | |
CN118277556A (zh) | 多级分类模型分类方法、训练方法、装置、设备及介质 | |
Li et al. | A deep learning approach of financial distress recognition combining text | |
CN115713082A (zh) | 一种命名实体识别方法、装置、设备及存储介质 | |
Mondal et al. | An Efficient Multi-Modal Classification Approach for Disaster-related Tweets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |