CN112905713B - 联合罪名预测的涉案新闻重叠实体关系抽取方法 - Google Patents
联合罪名预测的涉案新闻重叠实体关系抽取方法 Download PDFInfo
- Publication number
- CN112905713B CN112905713B CN202011269272.3A CN202011269272A CN112905713B CN 112905713 B CN112905713 B CN 112905713B CN 202011269272 A CN202011269272 A CN 202011269272A CN 112905713 B CN112905713 B CN 112905713B
- Authority
- CN
- China
- Prior art keywords
- relation
- name
- entity
- criminal
- case
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及联合罪名预测的涉案新闻重叠实体关系抽取方法,属于自然语言处理技术领域。本发明首先预测涉案新闻所描述的案件的罪名,然后将罪名向量融入到关系分类的状态向量中,实现重叠实体关系抽取,另外,为了缓解因联合罪名预测而给重叠实体关系抽取带来的错误传播问题,本发明引入一种分层级联强化学习机制,将整个过程分解为罪名预测层和重叠实体关系抽取层,利用罪名指导重叠实体关系抽取,帮助重叠实体关系抽取层优化强化学习策略。并将重叠实体关系抽取结果反馈给罪名预测层帮助罪名预测层优化强化学习策略。实验结果表明,该方法是实验过程中获得的一个最优的技术方案,在涉案新闻数据集上,F1指标达到了86.5%。
Description
技术领域
本发明涉及联合罪名预测的涉案新闻重叠实体关系抽取方法,属于自然语言处理技术领域。
背景技术
涉案新闻实体关系抽取作为司法领域信息抽取的重要组成部分,是构建案件知识图谱的基础。相比通用领域,涉案新闻中实体是指被告人、被害人和作案地点等与案件相关的人名、地名、机构名,关系是这些实体之间的相互联系。在涉案新闻句级文本中,普遍存在一个以上的关系,并且不同关系的关联实体有重复,这类关系被称作重叠实体关系。目前的实体关系抽取局限于单实体关系抽取,即只能抽取出一个句子中存在的两个实体和实体之间的关系,忽略了句子中大量存在的重叠实体关系,且在涉案新闻文本中,只抽取出单关系对于知识图谱的构建远远不够,并且准确抽取出所有的重叠实体关系比较困难。因此利用人工智能技术自动抽取出重叠实体关系对涉案新闻实体关系抽取研究意义重大。
发明内容
本发明提供了联合罪名预测的涉案新闻重叠实体关系抽取方法,以解决目前重叠实体关系抽取传统的方法中,存在误导关系分类和实体识别的词,使关系指示符定位不准确问题。
本发明的技术方案是:联合罪名预测的涉案新闻重叠实体关系抽取方法,所述方法包括:
Step1、收集用于预测罪名和抽取重叠实体关系的涉案新闻文本,对爬取的文本进行分句、去重、筛选;
作为本发明的优选方案,所述Step1中,使用Scrapy作为爬取工具,根据页面数据元素的XPath路径制定模板获取详细数据,获取涉案新闻网站正文数据。
此优选方案设计是本发明的重要组成部分,主要为本发明收集语料过程,为本发明预测罪名和抽取重叠实体关系提供了数据支撑。
Step2、定制联合罪名预测的涉案新闻重叠实体关系抽取的标注体系,标记出罪名和实体关系,将标记好的涉案新闻句子级语料按照8:1:1分为训练语料、开发语料、验证语料;
Step3、获取涉案新闻字级向量和句级文本向量;
Step4、采用强化学习的方法,由涉案新闻句级文本向量经过最大池化后,利用softmax分类器获取涉案新闻句级文本的罪名类别;
Step5、采用强化学习的方法,由预测出的罪名类别指导定位关系指示符抽取关系,罪名向量参与的当前关系分类向量经过softmax分类器获得当前的关系分类结果;
Step6、将实体识别任务抽象为给每一个字预测实体类别标签,采用强化学习的方法,依照抽取出的关系,由预测出的罪名类别指导实体识别,罪名分类向量参与的当前实体标签预测的向量经过softmax分类器获得当前字的标签类别结果;
Step7、根据强化学习的奖励分别优化整个模型的强化学习策略,即优化三个任务对应的softmax分类器的参数。
作为本发明的优选方案,所述Step2中的具体步骤为:
Step2.1、将罪名分为三种类型和不存在罪名,将实体关系分为七种类型。根据任务的需求,定制联合罪名预测的涉案新闻重叠实体关系抽取的标注体系,分别针对罪名、实体关系、实体关系的关联实体对进行标注。
得到实验数据共22860条,其中关系总数38644,本发明设置的训练集、开发集和测试集关系数和数据条数的比例基本一致。
此优选方案设计是本发明的重要组成部分,主要为本发明提供语料预处理过程,为后续工作提供模型训练时所需训练语料和为模型测试时提供测试语料;并且为本发明预测罪名和抽取重叠实体关系提供了支撑和挖掘的对象。(结合其它步骤,它是一个数据输入,后面都会用得到)
Step2.2、再将实验数据分为训练语料、测试语料和验证语料。
作为本发明的优选方案,所述步骤Step2中:将罪名分为三种类型和不存在罪名,分别为“故意伤害罪”、“盗窃罪”和“诈骗罪”关系,当不属于三个罪名时,定义为不存在罪名;将实体关系分为七种类型,分别是“人名,被告人-被害人,人名”、“人名,被告人-作案地点,地名”、“人名,其他关系,人名”、“人名,被害人-被害人,人名”、“人名,被告人-证人,人名”、“人名,被告人-证人,人名”、“人名,证人-证人,人名”;根据任务的需求,定制联合罪名预测的涉案新闻重叠实体关系抽取的标注体系。
作为本发明的优选方案,所述步骤Step3的具体步骤:
Step3.1、采用Bi-LSTM方法获取涉案新闻文本字级上下文信息,从而得到涉案新闻字级向量;
Step3.2、将涉案新闻文本中所有的字级向量按照顺序拼接在一起,得到涉案新闻句级文本向量。
如图3所示,罪名预测时以整个文本的向量H作为输入,关系抽取和实体识别时以当前字向量ht作为输入。
此优选方案是本发明的重要组成部分,主要为发明提供向量编码的过程,并对每一个字进行上下文信息编码,获取上下文信息,进而提升模型性能。
作为本发明的优选方案,本发明通过利用Bi-LSTM获取当前字结合上下文信息的隐状态向量;将句子级文本向量作为罪名预测的输入,将当前字向量作为关系抽取的输入,将当前字向量作为实体标签预测的输入。
作为本发明的优选方案,所述步骤Step4的具体步骤:
Step4.1、由涉案新闻句级文本向量经过最大池化后得到当前的罪名分类向量;
Step4.2、由当前的罪名分类向量经过softmax分类器,选择使概率最大的选项作为强化学习的动作,即分类得到罪名类别。
所述强化学习:
状态:状态S由整个文本的隐状态H最大池化后经过非线性激活函数得到。将
其表示为:
H=(h1,h2,h3,...,hL) (5)
选项:选项c从ε={NC}∪C中选择,NC代表无罪名,C是罪名的集合,将无罪名也看做是一种罪名。不管做何选择,都立即到重叠关系抽取层执行相关任务。
策略:罪名预测的随机策略λ:S→c,用于指定选项的概率分布,最后根据该概率分布选择概率最大的选项c作为强化学习的动作:
c~λ(c|S)=softmax(WλS) (6)
S为状态,c为预测出的罪名,Wλ为可学习参数。
奖励:提供标量中间奖励来估计罪名c未来的回报,并通过最大化预期累积奖励来优化策略函数λ,奖励计算如下:
此优选方案提出的强化学习由状态、策略、选项、奖励四个因素构成,状态由整个句子的隐状态通过最大池化得到,由状态根据策略λ预测出使奖励最大的罪名属性,预测出无罪名或者任意罪名,都会进入下一层的重叠关系抽取强化学习过程。如图2所示,通过预测出的罪名计算当前奖励并由重叠关系抽取层传递过来的抽取结果计算关系抽取主模块的延迟奖励r1 c和实体识别辅模块的延迟奖励
作为本发明的优选方案,所述步骤Step5的具体步骤:
Step5.1、由罪名分类向量、当前字的向量、上一时间步骤的状态向量、上一时间步骤的动作向量四者拼接得到当前关系分类状态向量;
Step5.2、当前关系分类状态向量又经过softmax分类器,选择使概率最大的选项作为强化学习的动作,即分类得到当前的关系分类。
所述强化学习:
选项:选项ot在集合θ={NR}∪R中选择,其中,NR代表不存在关系,R代表定义的关系集合。在某个时间步骤,如果没有足够的信息表明一个关系存在时,选择NR。否则确定一个关系并触发实体识别辅任务,当实体识别任务完成,继续被关系抽取层接管去执行下一个选项,直到句末。
奖励:关系抽取模块提供给Agent的t时刻的关系抽取层自身的奖励,由该时刻
预测出的关系与真实关系类型比较得到。计算如下:
本文认为当关系名称预测正确且关系对应的原实体和目标实体的开始位置定位准确,则正确抽取出一个关系。最后用一个最终奖励来评价一个句子的抽取效果:
其中,ST指一个句子所有时间步骤的关系抽取模块状态集合。Fβ(ST)是指整个句子重叠关系抽取的精度p和回收率r加权平均值,β指权重,取0.1。
此优选方案提出的强化学习由状态、策略、选项、奖励四个因素构成,如图3所示,状态由当前字隐状态、罪名、上一时间步骤的状态和上一时间步骤的选项得到,状态经过策略μ得到选项的概率分布,为了最大化奖励,选择了概率最大的选项作为动作,并将该动作反馈给罪名预测层。如图2所示,由该动作计算自身关系抽取的奖励rt h,并且由实体识别辅模块反馈的动作计算主模块的最终奖励
作为本发明的优选方案,所述步骤Step6的具体步骤:
Step6.1、由罪名分类向量、触发该实体识别任务的关系对应的关系分类状态向量、当前字向量、上一时间步骤的状态向量、上一时间步骤的动作的向量五者拼接得到当前实体标签预测的状态向量;
Step6.2、当前实体标签预测的状态向量又经过softmax分类器,选择使概率最大的选项作为强化学习的动作,即分类得到当前字的标签类别。
所述强化学习:
状态:与关系抽取主模块的状态类似,该模块在时间步骤t的状态由以下五者决定:1)当前字嵌入wt的隐藏状态ht,2)该模块上一时间步骤的动作at-1的可学习嵌入3)触发该实体识别任务的关系对应的状态向量经过全连接得到的向量4)该模块上一时间步骤的状态向量5)罪名预测层预测的罪名c的可学习嵌入vc。公式表示为:
选项:每一个时间步的选项是为当前字分配对应的标签,标签包括A=({S,T,O}×{B,I})∪{N},其中S和T分别代表与关系相关联的源实体与目标实体,O代表与该关系无关的实体,N代表非实体字,B和I分别代表实体的开头字与非开头字。同一实体可以根据目前所涉及的不同关系类型分配不同的标记,因此可以处理重叠关系。有关示例,请参见图4。
其中,Wπ是关系ot'对应的关联实体标签预测时,softmax分类的可学习参数。
奖励:由罪名预测层预测的罪名和主模块抽取的关系,Agent通过该模块策略采样,得到每个字的实体标签。因此,在对动作进行采样时,通过将采样结果和金标注进行比较提供即时奖励:
其中sgn(·)是符号函数,yt是关系o的金标准实体标注。这里,Φ(yt)是非实体标记的向下偏置权重函数,定义如下:
较小的α使不是实体的字的奖励较少,α=0.1,N是非实体字。以这种方式,模型避免将所有单词预测为N。当所有的动作采样完成,计算出一个额外的最终奖励如果所有的实体标签都被正确预测,那么Agent将获得1奖励,否则-1。
此优选方案提出的强化学习由状态、策略、选项、奖励四个因素构成。如图3所示,状态由罪名预测层预测出的罪名、主模块抽取到的关系和当前字隐状态等组成。状态经过策略π得到选项的概率分布,由概率分布选择使奖励最大化的选项作为该模块强化学习的动作。如图2所示,将动作分别反馈给罪名预测层和关系抽取主模块,通过该动作计算当前步骤的奖励在完成所有字的预测后,计算最终奖励
作为本发明的优选方案,所述步骤Step7的具体步骤:
Step7.1、罪名预测的奖励由自身即时奖励、关系抽取的延迟奖励、实体识别的延迟奖励三者组成,通过最大化罪名预测的预期累积回报来优化罪名预测的强化学习策略;
Step7.2、关系抽取的奖励由自身即时奖励、实体识别的延迟奖励二者组成,通过最大化关系抽取的预期累积回报来优化关系抽取的强化学习策略;
Step7.3、实体识别的奖励是关系对应的实体识别任务的所有即时奖励,通过最大化该奖励的预期累积回报来优化实体标签预测的强化学习策略。
所述预期累积回报计算方式为:
罪名预测的预期累积回报:
关系抽取的预期累积回报:
实体识别的预期累积回报;
通过将累积奖励分解为贝尔曼方程,得到三个任务的当前期望最大奖励分别为:
其中,Rλ、和分别是罪名预测、关系抽取主模块和实体识别辅模块的当前期望最大奖励,N是当辅模块实体抽取策略运行在主模块关系抽取动作ot上的实体识别持续的时间步长数,因此下一个选项是ot+N,当ot=NR时,N=1。
然后使用策略梯度方法去分别优化每一个模块的策略。利用似然比技巧,罪名预测层、关系抽取主模块、实体识别辅模块的策略梯度分别为:
本发明的有益效果是:
1、本发明对涉案新闻文本进行编码时,使用Bi-LSTM的方法,有效捕获涉案新闻句级文本上下文信息。
2、本发明根据预测罪名的关键词是定位关系指示符的重要依据,使用预测出的罪名去指导重叠实体关系抽取,使关系指示符定位更加准确,并且将关系的关联实体对指引到正确的位置,进而识别出来。
3、本发明将关系抽取和实体识别的结果反馈给罪名预测任务,罪名预测任务通过计算延迟奖励来优化自身的强化学习策略。
4、本发明为了抽取涉案新闻中的重叠实体关系,将实体识别看做是关系抽取的验证,每定位到一个关系指示符抽取出一个关系,启动关系对应的关联实体对识别,依照该关系识别出该关系的关联实体对,并将识别结果反馈给关系抽取模块,关系抽取模块通过计算来自实体识别的奖励来优化自身的强化学习策略。进而可以处理重叠实体关系抽取。
附图说明
图1是本发明提出的联合罪名预测的涉案新闻重叠实体关系抽取方法的流程图。
图2是本发明提出的联合罪名预测的涉案新闻重叠实体关系抽取方法的框架图。
图3是本发明提出的联合罪名预测的涉案新闻重叠实体关系抽取模型的模型结构图。
图4是实体标签示例。
具体实施方式
实施例1:如图1-4所示,联合罪名预测的涉案新闻重叠实体关系抽取方法,所述方法包括:
Step1、使用Scrapy作为爬取工具,根据页面数据元素的XPath路径制定模板获取详细数据,收集用于预测罪名和抽取重叠实体关系的涉案新闻文本,对文本进行分句、去重、筛选;
Step2、定制联合罪名预测的涉案新闻重叠实体关系抽取的标注体系,标记出罪名和实体关系,最后得到38644条数据,将标记好的涉案新闻句子级语料按照8:1:1的比例分为训练语料、开发语料、验证语料;
所述步骤Step2中:将罪名分为三种类型和不存在罪名,分别为“故意伤害罪”、“盗窃罪”和“诈骗罪”关系,当不属于三个罪名时,定义为不存在罪名;将实体关系分为七种类型,分别是“人名,被告人-被害人,人名”、“人名,被告人-作案地点,地名”、“人名,其他关系,人名”、“人名,被害人-被害人,人名”、“人名,被告人-证人,人名”、“人名,被告人-证人,人名”、“人名,证人-证人,人名”;根据任务的需求,定制联合罪名预测的涉案新闻重叠实体关系抽取的标注体系。
Step3、获取涉案新闻字级向量和句级文本向量;
Step3.1、采用Bi-LSTM方法获取涉案新闻文本字级上下文信息,从而得到涉案新闻字级向量;
Step3.2、将涉案新闻文本中所有的字级向量按照顺序拼接在一起,得到涉案新闻句级文本向量。
Step4、采用强化学习的方法,由涉案新闻句级文本向量经过最大池化后,利用softmax分类器获取涉案新闻句级文本的罪名类别;
Step4.1、由涉案新闻句级文本向量经过最大池化后得到当前的罪名分类向量;
Step4.2、由当前的罪名分类向量经过softmax分类器,选择使概率最大的选项作为强化学习的动作,即分类得到罪名类别。
Step5、采用强化学习的方法,由预测出的罪名类别指导定位关系指示符抽取关系,罪名向量参与的当前关系分类向量经过softmax分类器获得当前的关系分类结果;
Step5.1、由罪名分类向量、当前字的向量、上一时间步骤的状态向量、上一时间步骤的动作向量四者拼接得到当前关系分类状态向量;
Step5.2、当前关系分类状态向量又经过softmax分类器,选择使概率最大的选项作为强化学习的动作,即分类得到当前的关系分类。
Step6、将实体识别任务抽象为给每一个字预测实体类别标签,采用强化学习的方法,依照抽取出的关系,由预测出的罪名类别指导实体识别,罪名分类向量参与的当前实体标签预测的向量经过softmax分类器获得当前字的标签类别结果;
Step6.1、由罪名分类向量、触发该实体识别任务的关系对应的关系分类状态向量、当前字向量、上一时间步骤的状态向量、上一时间步骤的动作的向量五者拼接得到当前实体标签预测的状态向量;
Step6.2、当前实体标签预测的状态向量又经过softmax分类器,选择使概率最大的选项作为强化学习的动作,即分类得到当前字的标签类别。
Step7、根据强化学习的奖励分别优化整个模型的强化学习策略,即优化三个任务对应的softmax分类器的参数。
Step7.1、罪名预测的奖励由自身即时奖励、关系抽取的延迟奖励、实体识别的延迟奖励三者组成,通过最大化罪名预测的预期累积回报来优化罪名预测的强化学习策略;
Step7.2、关系抽取的奖励由自身即时奖励、实体识别的延迟奖励二者组成,通过最大化关系抽取的预期累积回报来优化关系抽取的强化学习策略;
Step7.3、实体识别的奖励是关系对应的实体识别任务的所有即时奖励,通过最大化该奖励的预期累积回报来优化实体标签预测的强化学习策略。
本文使用准确率(p),召回率(r),F1(F1_score)作为评价指标。其中,F1_score计算方式为:
F1_score=2*p*r/(p+r) (23)
当关系名称预测正确,并且准确定位与关系相关联的源实体和目标实体开始位置时,本文认为正确抽取出一个关系。
为了验证方法的有效性,本发明将不同个的模型作用到涉案新闻数据集上,结果如表1所示
表1不同方法实验结果
模型 | p | r | F1 |
CoType | 0.205 | 0.290 | 0.240 |
ATT+LSTM | 0.415 | 0.529 | 0.465 |
Tagging | 0.509 | 0.591 | 0.547 |
SPTree | 0.578 | 0.556 | 0.557 |
CopyR | 0.610 | 0.578 | 0.584 |
HRL+ours | 0.920 | 0.816 | 0.865 |
分析表1可知,基于特征提取的方法CoType的F1值仅达到0.240,基于神经网络的方法普遍优于基于特征提取的方法。本发明模型F1值取得0.865的结果,高出ATT+LSTM、Tagging、SPTree各0.401、0.318、0.308。在涉案新闻数据集上,ATT+LSTM将句子级特征用于关系分类,每一个句子只能得到唯一关系,Tagging为实体分配唯一标签,句子中的每一个实体仅被识别一次,因此只能抽取出实体没有重复的关系,SPTree仅将一种关系与实体对配对,只能抽取出句子中唯一一个关系。CopyR在抽取重叠关系上取得了不错的结果,但该方法强烈依赖标注过的噪声训练数据,本发明使用的涉案新闻数据集没有对噪声数据进行标注,F1值比本文模型低了0.281。本发明模型得益于联合罪名预测和以实体识别作为关系抽取的验证的方法,在涉案新闻句级重叠实体关系抽取任务上达到了最优的效果。
消融实验,本发明分别将不联合罪名预测、仅将罪名作用于关系抽取主模块、仅将罪名作用于实体识别辅模块、将罪名作用于关系抽取主模块和实体识别辅模块四个方法进行对比。
表2消融实验结果
分析表2可知,罪名分别对关系抽取和实体识别都有指导作用,当罪名只作用于关系抽取主任务时F1值为0.839比不联合罪名高出0.014,说明罪名有效帮助准确定位关系指示符。当罪名只作用于实体识别辅任务时F1值为0.852比不联合罪名高出0.027。罪名通过作用于实体识别辅任务进而协助关系抽取主任务的方法,比直接作用于关系抽取主任务效果好,这不仅说明罪名对实体识别具有很大的指导作用,还说明本发明使用的实体识别辅助关系抽取方法的有效性。当罪名不仅作用于关系抽取主任务还作用于实体识辅任务时达到最好的效果,此时F1值为0.865,比不联合罪名预测高出0.04。
模型抽取结果示列,列举了三个在不同场景下模型的抽取结果。证明罪名预测的指导对实体识别和关系抽取的促进作用且模型能够抽取重叠关系。
如表3所示,场景一,当存在“骚扰”和“辱骂短信”等对关系的关联实体对识别产生误导的信息时,罪名“故意伤害罪”可以帮助将“被告人-被害人”关系的关联实体对定位到“打伤”附近,进而正确识别出来。场景二,当罪名预测与关系抽取共用相同的信息“偷走”等,罪名“盗窃罪”可以帮助更准确的定位“被告人-被害人”的关系指示符。场景三,尽管实体“罗某某”参与了两个关系的关联实体对,本发明模型依然能将这两个关系正确抽取出来。
表3模型抽取结果示列
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (7)
1.联合罪名预测的涉案新闻重叠实体关系抽取方法,其特征在于:所述方法包括:
Step1、收集用于预测罪名和抽取重叠实体关系的涉案新闻文本,对文本进行分句、去重、筛选;
Step2、定制联合罪名预测的涉案新闻重叠实体关系抽取的标注体系,标记出罪名和实体关系,将标记好的涉案新闻句子级语料分为训练语料、开发语料、验证语料;
Step3、获取涉案新闻字级向量和句级文本向量;
Step4、采用强化学习的方法,由涉案新闻句级文本向量经过最大池化后,利用softmax分类器获取涉案新闻句级文本的罪名类别;
Step5、采用强化学习的方法,由预测出的罪名类别指导定位关系指示符抽取关系,罪名向量参与的当前关系分类向量经过softmax分类器获得当前的关系分类结果;
Step6、将实体识别任务抽象为给每一个字预测实体类别标签,采用强化学习的方法,依照抽取出的关系,由预测出的罪名类别指导实体识别,罪名分类向量参与的当前实体标签预测的向量经过softmax分类器获得当前字的标签类别结果;
Step7、根据强化学习的奖励分别优化整个模型的强化学习策略,即优化三个任务对应的softmax分类器的参数;
所述步骤Step5的具体步骤:
Step5.1、由罪名分类向量、当前字的向量、上一时间步骤的状态向量、上一时间步骤的动作向量四者拼接得到当前关系分类状态向量;
Step5.2、当前关系分类状态向量又经过softmax分类器,选择使概率最大的选项作为强化学习的动作,即分类得到当前的关系分类;
所述强化学习:
选项:选项ot在集合中选择,其中,NR代表不存在关系,R代表定义的关系集合;在某个时间步骤,如果没有足够的信息表明一个关系存在时,选择NR;否则确定一个关系并触发实体识别辅任务,当实体识别任务完成,继续被关系抽取层接管去执行下一个选项,直到句末;
奖励:关系抽取模块提供给Agent的t时刻的关系抽取层自身的奖励,由该时刻预测出的关系与真实关系类型比较得到;计算如下:
认为当关系名称预测正确且关系对应的原实体和目标实体的开始位置定位准确,则正确抽取出一个关系,最后用一个最终奖励来评价一个句子的抽取效果:
其中,ST指一个句子所有时间步骤的关系抽取模块状态集合,Fβ(ST)是指整个句子重叠关系抽取的精度p和回收率r加权平均值,β指权重,取0.1;
2.根据权利要求1所述的联合罪名预测的涉案新闻重叠实体关系抽取方法,其特征在于:所述Step1中,使用Scrapy作为爬取工具,根据页面数据元素的XPath路径制定模板获取详细数据,获取涉案新闻网站正文数据。
3.根据权利要求1所述的联合罪名预测的涉案新闻重叠实体关系抽取方法,其特征在于:所述步骤Step2中:将罪名分为三种类型和不存在罪名,分别为“故意伤害罪”、“盗窃罪”和“诈骗罪”关系,当不属于三个罪名时,定义为不存在罪名;将实体关系分为七种类型,分别是“人名,被告人-被害人,人名”、“人名,被告人-作案地点,地名”、“人名,其他关系,人名”、“人名,被害人-被害人,人名”、“人名,被告人-证人,人名”、“人名,被告人-证人,人名”、“人名,证人-证人,人名”;根据任务的需求,定制联合罪名预测的涉案新闻重叠实体关系抽取的标注体系。
4.根据权利要求1所述的联合罪名预测的涉案新闻重叠实体关系抽取方法,其特征在于:所述步骤Step3的具体步骤:
Step3.1、采用Bi-LSTM方法获取涉案新闻文本字级上下文信息,从而得到涉案新闻字级向量;
Step3.2、将涉案新闻文本中所有的字级向量按照顺序拼接在一起,得到涉案新闻句级文本向量。
5.根据权利要求1所述的联合罪名预测的涉案新闻重叠实体关系抽取方法,其特征在于:所述步骤Step4的具体步骤:
Step4.1、由涉案新闻句级文本向量经过最大池化后得到当前的罪名分类向量;
Step4.2、由当前的罪名分类向量经过softmax分类器,选择使概率最大的选项作为强化学习的动作,即分类得到罪名类别。
6.根据权利要求1所述的联合罪名预测的涉案新闻重叠实体关系抽取方法,其特征在于:所述步骤Step6的具体步骤:
Step6.1、由罪名分类向量、触发该实体识别任务的关系对应的关系分类状态向量、当前字向量、上一时间步骤的状态向量、上一时间步骤的动作的向量五者拼接得到当前实体标签预测的状态向量;
Step6.2、当前实体标签预测的状态向量又经过softmax分类器,选择使概率最大的选项作为强化学习的动作,即分类得到当前字的标签类别。
7.根据权利要求1所述的联合罪名预测的涉案新闻重叠实体关系抽取方法,其特征在于:所述步骤Step7的具体步骤:
Step7.1、罪名预测的奖励由自身即时奖励、关系抽取的延迟奖励、实体识别的延迟奖励三者组成,通过最大化罪名预测的预期累积回报来优化罪名预测的强化学习策略;
Step7.2、关系抽取的奖励由自身即时奖励、实体识别的延迟奖励二者组成,通过最大化关系抽取的预期累积回报来优化关系抽取的强化学习策略;
Step7.3、实体识别的奖励是关系对应的实体识别任务的所有即时奖励,通过最大化该奖励的预期累积回报来优化实体标签预测的强化学习策略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011269272.3A CN112905713B (zh) | 2020-11-13 | 2020-11-13 | 联合罪名预测的涉案新闻重叠实体关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011269272.3A CN112905713B (zh) | 2020-11-13 | 2020-11-13 | 联合罪名预测的涉案新闻重叠实体关系抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112905713A CN112905713A (zh) | 2021-06-04 |
CN112905713B true CN112905713B (zh) | 2022-06-14 |
Family
ID=76111298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011269272.3A Active CN112905713B (zh) | 2020-11-13 | 2020-11-13 | 联合罪名预测的涉案新闻重叠实体关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112905713B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304035B (zh) * | 2023-02-28 | 2023-11-03 | 中国司法大数据研究院有限公司 | 一种复杂案件中的多被告多罪名关系抽取方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543183A (zh) * | 2018-11-16 | 2019-03-29 | 西安交通大学 | 基于深度神经网络和标注策略的多标签实体-关系联合提取方法 |
CN110196913A (zh) * | 2019-05-23 | 2019-09-03 | 北京邮电大学 | 基于文本生成式的多实体关系联合抽取方法和装置 |
CN110598001A (zh) * | 2019-08-05 | 2019-12-20 | 平安科技(深圳)有限公司 | 联合实体关系抽取方法、装置及存储介质 |
CN111767409A (zh) * | 2020-06-14 | 2020-10-13 | 南开大学 | 一种基于多头自注意力机制的实体关系抽取方法 |
CN111914091A (zh) * | 2019-05-07 | 2020-11-10 | 四川大学 | 一种基于强化学习的实体和关系联合抽取方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI709107B (zh) * | 2018-05-21 | 2020-11-01 | 國立清華大學 | 影像特徵提取方法及包含其顯著物體預測方法 |
US11195067B2 (en) * | 2018-12-21 | 2021-12-07 | Ambient AI, Inc. | Systems and methods for machine learning-based site-specific threat modeling and threat detection |
-
2020
- 2020-11-13 CN CN202011269272.3A patent/CN112905713B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543183A (zh) * | 2018-11-16 | 2019-03-29 | 西安交通大学 | 基于深度神经网络和标注策略的多标签实体-关系联合提取方法 |
CN111914091A (zh) * | 2019-05-07 | 2020-11-10 | 四川大学 | 一种基于强化学习的实体和关系联合抽取方法 |
CN110196913A (zh) * | 2019-05-23 | 2019-09-03 | 北京邮电大学 | 基于文本生成式的多实体关系联合抽取方法和装置 |
CN110598001A (zh) * | 2019-08-05 | 2019-12-20 | 平安科技(深圳)有限公司 | 联合实体关系抽取方法、装置及存储介质 |
CN111767409A (zh) * | 2020-06-14 | 2020-10-13 | 南开大学 | 一种基于多头自注意力机制的实体关系抽取方法 |
Non-Patent Citations (3)
Title |
---|
《基于图的新闻事件主题句抽取方法》;王雍凯;《南京理工大学学报》;20160831;第40卷(第4期);438-443 * |
A hierarchical framework for relation extraction with reinforcement learning;Takanobu R 等;《Proceedings of the AAAI Conference on Artificial Intelligence》;20191231;7072-7079 * |
实体关系抽取方法研究综述;李冬梅 等;《计算机研究与发展》;20200720;第57卷(第7期);1424-1448 * |
Also Published As
Publication number | Publication date |
---|---|
CN112905713A (zh) | 2021-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109255506B (zh) | 一种基于大数据的互联网金融用户贷款逾期预测方法 | |
CN111079985B (zh) | 一种基于bert并融合可区分属性特征的刑事案件刑期预测方法 | |
CN108363790A (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN109271627B (zh) | 文本分析方法、装置、计算机设备和存储介质 | |
CN108984775B (zh) | 一种基于商品评论的舆情监控方法及系统 | |
CN112215004A (zh) | 一种基于迁移学习在军事装备文本实体抽取中的应用方法 | |
CN108563624A (zh) | 一种基于深度学习的自然语言生成方法 | |
CN112668319B (zh) | 基于中文信息和越南语句法指导的越南语新闻事件检测方法 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN109598387A (zh) | 基于双向跨模态注意力网络模型的股价预测方法及系统 | |
CN112183994B (zh) | 一种设备状态的评估方法、装置、计算机设备和存储介质 | |
CN112988963B (zh) | 基于多流程节点的用户意图预测方法、装置、设备及介质 | |
CN113157859B (zh) | 一种基于上位概念信息的事件检测方法 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
JP7128919B2 (ja) | 技能用語評定方法および装置、電子機器、コンピュータ読み取り可能な媒体 | |
CN112288279A (zh) | 基于自然语言处理和线性回归的业务风险评估方法和装置 | |
Titov et al. | Constituent parsing with incremental sigmoid belief networks | |
CN117151222B (zh) | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 | |
CN114896386A (zh) | 基于BiLSTM的电影评论语义情感分析方法及系统 | |
CN115238685B (zh) | 一种基于位置感知的建筑工程变更事件联合抽取方法 | |
CN115099326A (zh) | 基于人工智能的行为预测方法、装置、设备及存储介质 | |
CN115906842A (zh) | 一种政策信息识别方法 | |
CN115510188A (zh) | 文本关键词关联方法、装置、设备及存储介质 | |
CN112905713B (zh) | 联合罪名预测的涉案新闻重叠实体关系抽取方法 | |
CN113570348A (zh) | 一种简历筛选方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |