CN110826316B - 一种应用于裁判文书中敏感信息的识别方法 - Google Patents
一种应用于裁判文书中敏感信息的识别方法 Download PDFInfo
- Publication number
- CN110826316B CN110826316B CN201911077763.5A CN201911077763A CN110826316B CN 110826316 B CN110826316 B CN 110826316B CN 201911077763 A CN201911077763 A CN 201911077763A CN 110826316 B CN110826316 B CN 110826316B
- Authority
- CN
- China
- Prior art keywords
- entity
- word
- sensitive information
- sentence
- referee document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种应用于裁判文书中敏感信息的识别方法,包括:步骤1:在中国裁判文书网上获取的裁判文书,对裁判文书进行分句和分词处理;步骤2:对处理后的裁判文书进行命名实体识别抽取实体以及属性值;步骤3:对处理后的裁判文书进行语义角色标注,构建关于事件发生情况的三元组;步骤4:对抽取实体和属性值利用关系抽取,构建关系三元组;步骤5:根据事件发生情况的三元组和关系三元组通过实体对齐构建结构数据网;步骤6:根据不宜公开的信息内容定义敏感信息,利用结构数据网标注裁判文书中所对应的敏感信息。本发明实施例提供了一种应用于裁判文书中敏感信息的识别方法,利用机器学习对法律概念、自然语言的语义理解,对裁判文书中的敏感信息进行识别,对司法公开,保障公众的知情权和监督权具有良好的现实意义。
Description
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种应用于裁判文书中敏感信息的识别方法。
背景技术
人民法院为了落实审判公开的原则,保障公众的知情权和监督权,司法公开是法治社会发展的必经之路。司法公开要求将司法的过程和结果向当事人和社会公开,实现司法程序的公开透明。而对于一些社会上民众关注的敏感案件或者案件中的敏感文字,对于大众的社会情绪和行为有一定的影响,同时社会舆论也会对案件的审判产生影响。因此,敏感信息的过滤和审判文书发布的风险评估就成为智慧法院的关键研究方向。
目前在司法领域中对于信息的自动化分析无法满足实际的需求,其根本原因在于分析机制需要建立在机器学习对法律概念、自然语言的语义理解的基础之上,由于司法业务流程的繁杂以及相关数据不够完备,发展尚不完善的语义理解及NLP理论还无法取得在其他领域中的应用效果。
发明内容
本发明的实施例提供了一种应用于裁判文书中敏感信息的识别方法,以克服现有技术的缺陷。
为了实现上述目的,本发明采取了如下技术方案。
一种应用于裁判文书中敏感信息的识别方法,包括:
步骤1:在中国裁判文书网上获取的裁判文书,对所述裁判文书进行分句和分词处理;
步骤2:对处理后的裁判文书进行命名实体识别抽取实体以及属性值;
步骤3:对处理后的裁判文书进行语义角色标注,构建关于事件发生情况的三元组;
步骤4:对所述抽取实体和属性值利用关系抽取,构建关系三元组;
步骤5:根据所述事件发生情况的三元组和关系三元组通过实体对齐构建结构数据网;
步骤6:根据不宜公开的信息内容定义敏感信息,利用所述结构数据网标注裁判文书中所对应的敏感信息。
优选地,所述步骤2中命名实体和步骤3中语义角色标注识别均采用LSTM+CRF模型。
优选地,所述步骤4中关系抽取采用BERT预训练+全连接层模型。
优选地,所述步骤2中命名实体识别的内容包括:人名、组织机构、地名、日期、时间、货币、手机号码、座机号码、数字和百分比。
优选地,所述步骤3中语义角色标注的内容包括:动作的实施者、动作的影响、受益人、条件、方向、程度、频率、地点、方式、目的、原因、时间和主题。
优选地,所述步骤2中命名实体和步骤3中语义角色标注识别均采用LSTM+CRF模型,具体包括:
对于给定的输入X=(x1,x2,…,xn),这里的输入为文档经过分词后,每一句话中的各个词语,X表示一个句子,x表示组成这句话的每一个词语,经过LSTM层得到输出P=(p1,p2,p3…pn)∈Rn×k,其中k为实体/语义角色标记的数目,P表示经过LSTM每个字在隐藏层的输出的连接,p1…pn表示每个字隐藏层输出,R表示字向量全集,Pi,j为第i个词被预测为实体/语义角色j的分数;
对于一条标记序列y=(y1,y2,…,yn),定义模型对于句子X的标签等于对标记序列y的分数:
其中,S表示模型对句子X的标签,A为转移矩阵,Ai,j为从标记i转移到标记j的分数。对分数s(X,y)取softmax做规范化,则得到标记序列y的预测概率为:
其中,分母表示对所有可能的标记序列的分数求和,e为自然常数,p表示输入一句话X序列,预测每一个词语xi的标签yi的概率。
优选地,所述关系抽取采用BERT预训练+全连接层模型包括:
对于句子中的实体e1经过BERT得到向量Hi到Hj,实体e2经过BERT得到向量Hk到Hm,经过全连接层输出得到:
其中,W1与W2,b1与b2共享参数,W,b表示全连接层的参数权重W和偏置b,H表示组成实体的每一个字通过BERT预训练得到的字向量,i,j表示组成实体e1的首尾字,k,m表示组成实体e2的首尾字。
句子的起始标志经过BERT得到向量H0经过全连接层:
H′0=W0(tanh(H0))+b0
最后将得到的三个向量拼接取softmax做规范化,则得到e1与e2关系r的预测概率为:
h″=W3[concat(H′0,H′1,H′2)]+b3
p(r|E=e1,e2)=softmax(h″)
其中,h″表示将之前的向量拼接经过全连接层输出后的向量。
优选地,所述根据所述事件发生情况的三元组和关系三元组通过实体对齐构建结构数据网,包括:
将构建的事件发生情况三元组和关系三元组存储到图数据库中,在所述图数据库中先根据实体创建节点,再根据事件发生情况三元组和关系三元组之间的关系创建节点之间的关系,最后将节点连接成结构数据网。
由上述本发明的实施例提供的技术方案可以看出,本发明实施例提供了一种应用于裁判文书中敏感信息的识别方法,全面提取裁判文书中所有潜在敏感信息的内容,并找到之间的相互关系。根据《司法公开文书信息屏蔽处理细则》中的内容,识别出敏感信息。该方法不仅适用于司法领域,在其他领域中同样适用,鲁棒性强。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一种应用于裁判文书中敏感信息的识别方法流程图;
图2为一种结构数据网示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
本发明实施例提供了一种应用于裁判文书中敏感信息的识别方法,如图1所示,包括:
步骤1:在中国裁判文书网上获取的裁判文书,对裁判文书进行分句和分词处理。
步骤2:对处理后的裁判文书进行命名实体识别抽取实体以及属性值,其中,命名实体识别的内容包括:人名、组织机构、地名、日期、时间、货币、手机号码、座机号码、数字和百分比等。
步骤3:对处理后的裁判文书进行语义角色标注,构建关于事件发生情况的三元组,其中,语义角色标注的内容包括:动作的实施者、动作的影响、受益人、条件、方向、程度、频率、地点、方式、目的、原因、时间和主题等。
命名实体识别与语义角色标注都利用LSTM+CRF对处理后的裁判文书进行识别和处理:
对于给定的输入X=(x1,x2,…,xn)(这里的输入为文档经过分词后,每一句话中的各个词语,X表示一个句子,x表示组成这句话的每一个词语,经过LSTM层得到输出P=(p1,p2,p3…pn)∈Rn×k,其中k为实体/语义角色标记的数目,P表示经过LSTM每个字在隐藏层的输出的连接,p1…pn表示每个字隐藏层输出,R表示字向量全集,Pi,j为第i个词被预测为实体/语义角色j的分数。
对于一条标记序列y=(y1,y2,…,yn),定义模型对于句子X的标签等于对标记序列y的分数:
其中,S表示模型对句子X的标签,A为转移矩阵,Ai,j为从标记i转移到标记j的分数。对分数s(X,y)取softmax做规范化,则得到标记序列y的预测概率为:
其中,分母表示对所有可能的标记序列的分数求和,e为自然常数,p表示输入一句话X序列,预测每一个词语xi的标签yi的概率。
步骤4:对抽取实体和属性值利用关系抽取,构建关系三元组。
关系抽取采用BERT预训练+全连接层模型的方法:
对于句子中的实体e1经过BERT得到向量Hi到Hj,实体e2经过BERT得到向量Hk到Hm,经过全连接层输出得到:
其中,W1与W2,b1与b2共享参数,W,b表示全连接层的参数权重W和偏置b,H表示组成实体的每一个字通过BERT预训练得到的字向量,i,j表示组成实体e1的首尾字,k,m表示组成实体e2的首尾字。
句子的起始标志经过BERT得到向量H0经过全连接层:
H′0=W0(tanh(H0))+b0
最后将得到的三个向量拼接取softmax做规范化,则得到e1与e2关系r的预测概率为:
h″=W3[concat(H′0,H′1,H′2)]+b3
p(r|E=e1,e2)=softmax(h″)
其中,h″表示将之前的向量拼接经过全连接层输出后的向量。
步骤5:根据事件发生情况的三元组和关系三元组通过实体对齐构建结构数据网,包括:将构建的事件发生情况三元组和关系三元组存储到图数据库(如Neo4j)中,在数据库中先根据实体创建节点,再根据事件发生情况三元组和关系三元组之间的关系创建节点之间的关系,最后将节点连接成结构数据网。
直接在图数据库中创建节点,
在Neo4j中$CREATE(n:Person{name:‘ZJ’,title:‘Developer’})return n;
创建一个节点,再同样的创建另一个节点,
$CREATE(n:Person{name:‘CQR’,title:‘Helper’})return n;
创建两个节点之间的关系
$match(n:Person{name:“Zhangjian”}),(m:Person{name:“Chenqiurui”})create(n)-[r:Friend]->(m)return r;
如此构建每一个节点与关系,最后会形成一张结构网络。
如图2结构数据网示意图所示。
步骤6:根据不宜公开的信息内容定义敏感信息,利用结构数据网标注裁判文书中所对应的敏感信息。
《司法公开文书信息屏蔽处理细则》不宜公开的信息内容:
当事人为自然人,应当删除身份、身份证号码、住(居)所地址、银行账号等个人信息,但一般保留当事人姓名、性别和年龄等信息;
当事人为法人或其他组织,保留其名称、住所地、法定代表人或负责任的姓名、性别和年龄,其他信息应当删除;
暴力犯罪案件的被害人及所有案件的证人只公布姓氏,其他个人信息应当删除;
委托代理人是律师的,保留律师事务所名称。委托代理人或辩护人是公民的,删除委托代理人或辩护人的住址、通讯方式、身份证号码等信息,但保留委托代理人与当事人的关系;
证人、鉴定人、刑事案件被害人及其法定代理人的姓名,以及涉及到未成年人的裁判文书,只公布其姓氏;
裁判文书中已经使用化名等代替证人、鉴定人、刑事案件被害人及其法定代理人的个人信息的,替代信息不再进行技术处理。
根据《司法公开文书信息屏蔽处理细则》中不宜公开的内容对敏感信息的定义,找到实体为当事人并且其身份为自然人的身份,身份证号码、居住地址,且标注为敏感信息,识别结果如下表所示。
表1:敏感信息识别结果
本领域技术人员应能理解上述根据《司法公开文书信息屏蔽处理细则》内容对敏感信息的定义仅为举例,其他现有的或今后可能出现的定义敏感信息的原则如可适用于本发明实施例,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
综上所述,本发明针对在中国裁判文书网中采集到的裁判文书信息,通过实体识别和语义角色标注的方法找到潜在的敏感信息。通过关系抽取算法建立各实体之间的联系,构建结构化数据网,根据《司法公开文书信息屏蔽处理细则》中的对于不宜公开的信息定义,识别敏感信息。本发明对已有数据的利用率高,可解释性强,鲁棒性高,对司法公开,保障公众的知情权和监督权具有良好的现实意义。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (4)
1.一种应用于裁判文书中敏感信息的识别方法,其特征在于,包括:
步骤1:在中国裁判文书网上获取的裁判文书,对所述裁判文书进行分句和分词处理;
步骤2:对处理后的裁判文书进行命名实体识别抽取实体以及属性值;
步骤3:对处理后的裁判文书进行语义角色标注,构建关于事件发生情况的三元组;
步骤4:对所述抽取实体和属性值利用关系抽取,构建关系三元组;
步骤5:根据所述事件发生情况的三元组和关系三元组通过实体对齐构建结构数据网;
步骤6:根据不宜公开的信息内容定义敏感信息,利用所述结构数据网标注裁判文书中所对应的敏感信息;
所述步骤2中命名实体和步骤3中语义角色标注识别均采用LSTM+CRF模型,具体包括:
对于给定的输入X=(x1,x2,...,xn),这里的输入为文档经过分词后,每一句话中的各个词语,X表示一个句子,x表示组成这句话的每一个词语,经过LSTM层得到输出P=(p1,p2,p3…pn)∈Rn×k,其中k为实体/语义角色标记的数目,P表示经过LSTM每个字在隐藏层的输出的连接,p1…pn表示每个字隐藏层输出,R表示字向量全集,Pi,j为第i个词被预测为实体/语义角色j的分数;
对于一条标记序列y=(y1,y2,...,yn),定义模型对于句子X的标签等于对标记序列y的分数:
其中,S表示模型对句子X的标签,A为转移矩阵,Ai,j为从标记i转移到标记j的分数,对分数s(X,y)取softmax做规范化,则得到标记序列y的预测概率为:
其中,分母表示对所有可能的标记序列的分数求和,e为自然常数,p表示输入一句话X序列,预测每一个词语xi的标签yi的概率;
所述关系抽取采用BERT预训练+全连接层模型包括:
对于句子中的实体e1经过BERT得到向量Hi到Hj,实体e2经过BERT得到向量Hk到Hm,经过全连接层输出得到:
其中,W1与W2,b1与b2共享参数,W,b表示全连接层的参数权重W和偏置b,H表示组成实体的每一个字通过BERT预训练得到的字向量,i,j表示组成实体e1的首尾字,k,m表示组成实体e2的首尾字;
句子的起始标志经过BERT得到向量H0经过全连接层:
H′0=W0(tanh(H0))+b0
最后将得到的三个向量拼接取softmax做规范化,则得到e1与e2关系r的预测概率为:
h″=W3[concat(H′0,H′1,H′2)]+b3
p(r|E=e1,e2)=softmax(h″)
其中,h″表示将之前的向量拼接经过全连接层输出后的向量。
2.根据权利要求1所述的识别方法,其特征在于,所述步骤2中命名实体识别的内容包括:人名、组织机构、地名、日期、时间、货币、手机号码、座机号码、数字和百分比。
3.根据权利要求1所述的识别方法,其特征在于,所述步骤3中语义角色标注的内容包括:动作的实施者、动作的影响、受益人、条件、方向、程度、频率、地点、方式、目的、原因、时间和主题。
4.根据权利要求1所述的识别方法,其特征在于,所述根据所述事件发生情况的三元组和关系三元组通过实体对齐构建结构数据网,包括:
将构建的事件发生情况三元组和关系三元组存储到图数据库中,在所述图数据库中先根据实体创建节点,再根据事件发生情况三元组和关系三元组之间的关系创建节点之间的关系,最后将节点连接成结构数据网。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911077763.5A CN110826316B (zh) | 2019-11-06 | 2019-11-06 | 一种应用于裁判文书中敏感信息的识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911077763.5A CN110826316B (zh) | 2019-11-06 | 2019-11-06 | 一种应用于裁判文书中敏感信息的识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110826316A CN110826316A (zh) | 2020-02-21 |
CN110826316B true CN110826316B (zh) | 2021-08-10 |
Family
ID=69553234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911077763.5A Active CN110826316B (zh) | 2019-11-06 | 2019-11-06 | 一种应用于裁判文书中敏感信息的识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110826316B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111553318A (zh) * | 2020-05-14 | 2020-08-18 | 北京华宇元典信息服务有限公司 | 敏感信息提取方法、裁判文书处理方法、装置和电子设备 |
CN111444678B (zh) * | 2020-06-16 | 2020-09-22 | 四川大学 | 一种基于机器阅读理解的起诉状信息抽取方法及系统 |
CN112905746A (zh) * | 2021-03-08 | 2021-06-04 | 国能大渡河流域水电开发有限公司 | 一种基于知识图谱技术的制度档案知识挖掘处理方法 |
CN113570480A (zh) * | 2021-07-19 | 2021-10-29 | 北京华宇元典信息服务有限公司 | 裁判文书地址信息识别方法、装置和电子设备 |
CN113569046B (zh) * | 2021-07-19 | 2022-10-21 | 北京华宇元典信息服务有限公司 | 裁判文书人物关系识别方法、装置和电子设备 |
CN113554172A (zh) * | 2021-07-28 | 2021-10-26 | 北京法意科技有限公司 | 基于案例文本的裁判规则知识抽取方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107818138A (zh) * | 2017-09-28 | 2018-03-20 | 银江股份有限公司 | 一种案件法律条例推荐方法及系统 |
CN108197163A (zh) * | 2017-12-14 | 2018-06-22 | 上海银江智慧智能化技术有限公司 | 一种基于裁判文书的结构化处理方法 |
CN109739939A (zh) * | 2018-12-29 | 2019-05-10 | 颖投信息科技(上海)有限公司 | 知识图谱的数据融合方法和装置 |
CN110046260A (zh) * | 2019-04-16 | 2019-07-23 | 广州大学 | 一种基于知识图谱的暗网话题发现方法和系统 |
CN110147553A (zh) * | 2019-05-23 | 2019-08-20 | 贵州大学 | 一种基于案件要素的法律文书分析方法 |
CN110188206A (zh) * | 2019-05-08 | 2019-08-30 | 北京邮电大学 | 基于翻译模型的协同迭代联合实体对齐方法及装置 |
CN110222199A (zh) * | 2019-06-20 | 2019-09-10 | 青岛大学 | 一种基于本体和多种神经网络集成的人物关系图谱构建方法 |
CN110347843A (zh) * | 2019-07-10 | 2019-10-18 | 陕西师范大学 | 一种基于知识图谱的中文旅游领域知识服务平台构建方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897403B (zh) * | 2017-02-14 | 2019-03-26 | 中国科学院电子学研究所 | 面向知识图谱构建的细粒度中文属性对齐方法 |
CN108875051B (zh) * | 2018-06-28 | 2020-04-28 | 中译语通科技股份有限公司 | 面向海量非结构化文本的知识图谱自动构建方法及系统 |
CN110188347B (zh) * | 2019-04-29 | 2021-01-19 | 西安交通大学 | 一种面向文本的知识主题间认知关系抽取方法 |
-
2019
- 2019-11-06 CN CN201911077763.5A patent/CN110826316B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107818138A (zh) * | 2017-09-28 | 2018-03-20 | 银江股份有限公司 | 一种案件法律条例推荐方法及系统 |
CN108197163A (zh) * | 2017-12-14 | 2018-06-22 | 上海银江智慧智能化技术有限公司 | 一种基于裁判文书的结构化处理方法 |
CN109739939A (zh) * | 2018-12-29 | 2019-05-10 | 颖投信息科技(上海)有限公司 | 知识图谱的数据融合方法和装置 |
CN110046260A (zh) * | 2019-04-16 | 2019-07-23 | 广州大学 | 一种基于知识图谱的暗网话题发现方法和系统 |
CN110188206A (zh) * | 2019-05-08 | 2019-08-30 | 北京邮电大学 | 基于翻译模型的协同迭代联合实体对齐方法及装置 |
CN110147553A (zh) * | 2019-05-23 | 2019-08-20 | 贵州大学 | 一种基于案件要素的法律文书分析方法 |
CN110222199A (zh) * | 2019-06-20 | 2019-09-10 | 青岛大学 | 一种基于本体和多种神经网络集成的人物关系图谱构建方法 |
CN110347843A (zh) * | 2019-07-10 | 2019-10-18 | 陕西师范大学 | 一种基于知识图谱的中文旅游领域知识服务平台构建方法 |
Non-Patent Citations (3)
Title |
---|
Enriching Pre-trained Language Model with Entity Information for Relation Classification;Shanchan Wu;《Proceedings of the 28th ACM International Conference on Information and Knowledge Management》;20190520;第1-3页 * |
实体对齐论文总结;pelhans;《pelhans.com/2019/03/18/entity_alignment/》;20190318;第1、4页 * |
面向裁判文书的隐私内容检测方法;嵇旋 等;《重庆邮电大学学报(自然科学版)》;20151030;第27卷(第5期);第639、641-642、644-645页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110826316A (zh) | 2020-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110826316B (zh) | 一种应用于裁判文书中敏感信息的识别方法 | |
CN108595708A (zh) | 一种基于知识图谱的异常信息文本分类方法 | |
CN113051916B (zh) | 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法 | |
US20230056987A1 (en) | Semantic map generation using hierarchical clause structure | |
CN112434535B (zh) | 基于多模型的要素抽取方法、装置、设备及存储介质 | |
Prusa et al. | Designing a better data representation for deep neural networks and text classification | |
CN111428504B (zh) | 一种事件抽取方法和装置 | |
CN113779358B (zh) | 一种事件检测方法和系统 | |
US11663406B2 (en) | Methods and systems for automated detection of personal information using neural networks | |
CN113791757B (zh) | 软件需求和代码映射方法及系统 | |
Mehta et al. | Event detection using hierarchical multi-aspect attention | |
CN113392209A (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN112667813B (zh) | 用于裁判文书的敏感身份信息的识别方法 | |
CN110008699A (zh) | 一种基于神经网络的软件漏洞检测方法及装置 | |
CN112016850A (zh) | 业务评估方法以及装置 | |
Perez et al. | I Call BS: Fraud detection in crowdfunding campaigns | |
CN115017879A (zh) | 文本对比方法、计算机设备及计算机存储介质 | |
CN115146068A (zh) | 关系三元组的抽取方法、装置、设备及存储介质 | |
Lhasiw et al. | A bidirectional LSTM model for classifying Chatbot messages | |
CN112507388B (zh) | 基于隐私保护的word2vec模型训练方法、装置及系统 | |
CN114282542A (zh) | 网络舆情监控方法及设备 | |
CN114417974A (zh) | 模型训练方法、信息处理方法、装置、电子设备和介质 | |
Yandrapati et al. | Classifying informative tweets using feature enhanced pre-trained language model | |
Bae et al. | Named entity recognition using transfer learning and small human‐and meta‐pseudo‐labeled datasets | |
Alqaraleh et al. | Multimodal classifier for disaster response |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |