CN112417880A - 一种面向法院电子卷宗的案情信息自动抽取方法 - Google Patents

一种面向法院电子卷宗的案情信息自动抽取方法 Download PDF

Info

Publication number
CN112417880A
CN112417880A CN202011369142.7A CN202011369142A CN112417880A CN 112417880 A CN112417880 A CN 112417880A CN 202011369142 A CN202011369142 A CN 202011369142A CN 112417880 A CN112417880 A CN 112417880A
Authority
CN
China
Prior art keywords
model
word
information
case
information extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011369142.7A
Other languages
English (en)
Other versions
CN112417880B (zh
Inventor
万玉晴
王霄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiji Computer Corp Ltd
Original Assignee
Taiji Computer Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiji Computer Corp Ltd filed Critical Taiji Computer Corp Ltd
Priority to CN202011369142.7A priority Critical patent/CN112417880B/zh
Publication of CN112417880A publication Critical patent/CN112417880A/zh
Application granted granted Critical
Publication of CN112417880B publication Critical patent/CN112417880B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Technology Law (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种面向法院电子卷宗的案情信息自动抽取方法,该方法包括:创建案情信息抽取框架,对各类案件电子卷宗文件中案情要素进行统计分析,构建基本案情本体;根据案情本体和电子卷宗文件版面特点,定制基本案情信息抽取策略;基于XML的跨领域信息抽取工具TZIE,构建案情信息抽取框架;基于多粒度语义的法律文书构建NER模型及训练,多粒度语义单元的结合方式,采用Word2vec的Skip‑gram模型和LDA主题模型,分别训练得到司法领域词向量模型和字向量模型,结合BiLSTM‑Attention‑CRF模型的领域实体识别,在基准模型BiLSTM‑CRF中增加了Attentio机制,预测每个语义单元属于不同标签的概率,辅助优化的模型训练方式,以人工标注语料训练模型作为主任务,以人工和自动标注语料训练模型作为辅助任务。

Description

一种面向法院电子卷宗的案情信息自动抽取方法
技术领域
本发明涉及人工智能文本信息抽取技术领域,具体来说,涉及一种面向法院电子卷宗的案情信息自动抽取方法。
背景技术
目前,各级法院在信息化过程中积累了大规模的案件电子卷宗,对于海量电子卷宗记录的非结构文本信息,亟需利用更加高效的方法进行结构化、知识化处理,为法院电子卷宗深度应用奠定基础。
信息抽取是从非结构化文本中获取结构化数据的过程,结构化数据中主要包括:实体、关系、属性、事件四种数据类型,对于一份法院案卷来说,其中的案情信息就是有由以上四种要素所形成的语义网络,从电子卷宗中进行信息抽取的过程也就是构建案件知识本体的过程,这个过程中通常包括符号化标注、句法分析、提取、对齐合并四个环节,综合国内外文本信息抽取方法研究成果,主要分为三类方法:基于规则模板的方法;基于统计机器学习的方法;基于图的方法;早期的研究多采用人工总结领域语言特征,基于词性标注、依存句法分析等自然语言处理技术,编写规则模板,抽取匹配模式的信息,后来研究者采用无监督方法自动生成新规则扩充模板库,取得了一定的进展,规则的编写极为依赖领域知识,这使得基于规则模板的方法对于特定语料具有较高的抽取准确率,但往往无法跨领域移植,范化能力差。
基于统计机器学习的方法是把信息抽取的问题,看作序列标注问题来解决,主要分为传统机器学习方法和深度学习方法,目前常用的传统机器学习方法有:隐马尔可夫模型(Hidden Markov Model,HMM)、最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)、和条件随机场模型(Conditional Random Field Model,CRF),这三种模型都是通过已知的观测序列X,去求解最优的标注序列Y,所不同的是,三者依赖的假设条件约束依次降低,CRF由于其不受状态独立性和状态转移的马尔可夫性的严格限制,被更广泛的用在解决序列标注问题上,但CRF训练需要根据经验设置特征值,而且完全依赖训练词库进行实体判断,对未登录词的抽取效果很差,近年来深度学习技术快速发展,与传统的基于规则的方法以及基于统计机器学习的方法相比,深度神经网络模型具有更好的泛化性,更少的人工特征依赖等优点,在各领域命名实体识别中得到了广泛的应用,但对于法律文书命名实体识别的主要问题在于:不同命名实体之间长度差别大,使得语言表示的语义粒度对模型训练效果影响较大,造成不同命名实体的识别性能差异大的问题,在不同案件类型的卷宗文书中,命名实体的上下文特征具有显著差异,造成模型应用在不同类型案件卷宗上的鲁棒性较差,训练深度学习模型需要大量标注语料,但当前法律文书的标注语料不充足。
基于图的方法是采用节点表示实体、节点的边表示实体关系、实体的边数来量化实体间的语义距离,这种图的方法从整体上建模实体及其关系,更方便表达实体间的等级关系,具有更完整的信息提取思路,这种方法需要面向领域提前构建本体。
发明内容
针对相关技术中的上述技术问题,本发明提出一种面向法院电子卷宗的案情信息自动抽取方法,能够对各类案件卷宗内文件类型和案情要素的统计分析,基于图方法的思想从整体上建模案情本体,整合各种信息抽取技术方法,以获取准确完整的案情信息,然后从输入模型的语言表示入手,对不同尺度的嵌入表示,以及结合方式的有效性进行了研究验证,形成涵盖字向量、词向量和主题向量三个语义粒度的语言表示,使用一种辅助优化的训练方式,减少模型对人工标注语料的依赖,最后训练了适用于法律文书的命名实体识别模型。
为实现上述技术目的,本发明的技术方案是这样实现的:一种面向法院电子卷宗的案情信息自动抽取方法,其特征在于,该方法包括如下步骤:
S1创建案情信息抽取框架,进一步包含:
S1.1对各类案件电子卷宗文件中案情要素进行统计分析,构建基本案情本体;
S1.2根据案情本体和电子卷宗文件版面特点,定制基本案情信息抽取策略;
S1.3基于XML的跨领域信息抽取工具TZIE,自定义抽取领域要素信息,构建案情信息抽取框架,提供领域词典、规则及现有模型组合配置;
S2基于多粒度语义的法律文书构建NER模型及训练,进一步包含:
S2.1多粒度语义单元的结合方式,采集一个包含400多万份裁判文书的中文语料集,采用Word2vec的Skip-gram模型和LDA主题模型,分别训练得到司法领域含有主题语义的词向量模型和字向量模型,另外,不同案件类型的裁判文书中,使用LDA主题模型的向量模型,获取更大粒度上的语义信息;
S2.2结合BiLSTM-Attention-CRF模型的领域实体识别,在基准模型BiLSTM-CRF中增加了Attentio机制,预测出每个语义单元属于不同标签的概率,在BiLSTM模型上接入CRF模型,使得BiLSTM模型在计算最优标签序列时合理体现CRF模型转移矩阵;
S2.3基于辅助优化的模型训练方式,以人工标注语料训练模型作为主任务,以人工和自动标注语料训练模型作为辅助任务,后者向前者共享BiLSTM模型层的输出。
进一步地,所述S1.1中基本案情本体进一步包含:
S1.1.1基本案情本体为顶层实体,由系列属性和实体共同定义,对基本案情本体中实体、属性及关系定制抽取策略并执行。
进一步地,所述S1.2中基本案情信息抽取策略进一步包含:
S1.2.1基于通用命名实体识别模型抽取,对案情本体中大部分属性信息的抽取,命名实体识别对象主要为三大类:实体、时间和数字,七小类:人名、地名、机构名、日期、时间、百分比及货币;
S1.2.2基于领域词典和规则模板抽取,可枚举或具有固定模式的属性,所述属性为案由、审理方式、诉讼请求、身份证号码、联系方式、诉讼地位,对于案情本体中的实体关系,采用基于上下文关系定义规则模板来获取;
S1.2.3训练领域命名实体识别模型抽取,其中,案情本体中的司法领域特有命名实体为案号、案件名称、法律条文,以及领域特性的命名实体为地址、籍贯、工作单位,这类命名实体需要结合领域文本语料单独训练和优化。
进一步地,所述S1.3中构建案情信息抽取框架进一步包含:
S1.3.1框架配置文件,基于TZIE配置语法规则编写的XML文件,XML节点及关系由DTD文件定义,所述配置文件分为定义领域词典、定义领域要素、定义信息抽取方式;
S1.3.2框架功能调度器,框架基于TZIE配置语言编译器对配置文件进行资源链接,形成可执行代码,在执行过程中通过功能调度器从功能池中调用相应模型工具,完成信息抽取,输出结果JSON对象,该JSON对象完全基于XML配置文件中定义的数据结构组织所抽取的要素信息。
进一步地,所述S1.3.1中配置文件类型进一步包含:
S1.3.1.1定义领域词典,按照TZIE内置操作符格式进行引用领域词典信息抽取任务;
S1.3.1.2定义领域要素,基于TZIE内置的实体节点进行配置,在领域概念和事件的定义中继续配置下层属性实体,层级结构表达为复杂从属关系;
S1.3.1.3定义信息抽取方式,TZIE内置的method节点用来定义信息抽取,其中,通过引入TZIE配置语言元素,把正则表达式改造为领域规则模板,对具有显著关键词和文本格式特征的场景具有很好的效果,通过配置通用及自训练的模型进行信息抽取,通过配置调用自定义API实现信息抽取的方式,获取复杂逻辑判断或计算的信息。
进一步地,所述S2.1中多粒度语义单元的结合方式进一步包含:
S2.1.1基于LDA主题模型的向量模型对文档主题和词的概率分布的设定,得到联合概率关系式:
Figure BDA0002806049960000041
其中,K为主题数、M为裁判文书数、N为文书中的词数,在(1)式中,W是唯一观察到的量,Z、θ、
Figure BDA0002806049960000042
是中间隐含变量,α,β是需要求的超参数,对(1)进一步处理得到:
Figure BDA0002806049960000051
其中,计算的是超参α、β的极大似然估计值:
Figure BDA0002806049960000052
采用EM算法学习出
Figure BDA0002806049960000053
代入Dirichlet分布得到文书主题的概率分布θ,和主题中词的概率分布
Figure BDA0002806049960000054
本文根据θ和
Figure BDA0002806049960000055
进行多次随机采样,确定一个K*V的矩阵,该矩阵的每一列作为对应词的主题信息向量:
Figure BDA0002806049960000056
同样的过程,可以得到基于中文字的主题信息向量:
Figure BDA0002806049960000057
通过以上方式分别得到了字、词、篇章三种粒度上的语义信息表示,对此,提出以下两种结合方式分别获取词向量和字向量;
S2.1.2结合字信息和主题信息的词向量,以词作为基本语义单元,加入词内字的语义信息,和基于词的主题信息
Figure BDA0002806049960000058
设某个中文词wi在所训练的司法词向量模型中的向量表示为
Figure BDA0002806049960000059
wi中的字cj在所训练的司法字向量模型中的向量表示为
Figure BDA00028060499600000510
由组成wi的所有字向量联合表示,得到wi新的词向量
Figure BDA00028060499600000511
是信是信息结合后的词向量,计算公式为:
Figure BDA00028060499600000512
Figure BDA00028060499600000513
其中i是指词在句子中的位置,j是指字在词中的位置,n是指词的字数;
S2.1.3结合词信息和主题信息的字向量作为基本语义单元,加入所在词的语义信息,和基于字的主题信息
Figure BDA0002806049960000061
Figure BDA0002806049960000062
句子中的第i个字的字向量表示,
Figure BDA0002806049960000063
是第i个字所在词的向量表示,
Figure BDA0002806049960000064
是信息结合后的字向量,计算得到:
Figure BDA0002806049960000065
进一步地,所述S2.2中结合BiLSTM-Attention-CRF模型进一步包含:
S2.2.1在BiLSTM模型和CRF模型之间加入Attention机制,在语义单元特征中加入全局注意力信息,为CRF模型计算最优路径时突出关键词的影响,向量词句子设为
Figure BDA0002806049960000066
表示句中第i个词的词向量,n为句长,输入模型进行计算:
Figure BDA0002806049960000067
得到双向LSTM提取的特征状态值,进入全连接层,该层在基于辅助优化的训练中,具有融合辅助特征到统一维度的作用,设置relu作为非线性激活函数,获取全连接层输出
Figure BDA0002806049960000068
组合每个时刻的输出向量设为
Figure BDA0002806049960000069
进入Attention模块,训练公式如下:
Figure BDA00028060499600000610
α=softmax(ha) (9)
Figure BDA0002806049960000071
进一步地,所述S2.2.1中进入Attention模块进一步包含:
S2.2.1上述步骤中Attention模块的第一层是以tanh为激活函数的全连接层,与前一个全连接层不同的是,该层是在BiLSTM模型的完整输出序列上做全连接,θa和ba随模型训练不断更新,再通过一层softmax获取注意力权重a后,与Attention模块的输入hm加权求和得到输出向量
Figure BDA0002806049960000072
进入Dropout层,获得Dropout层输出
Figure BDA0002806049960000073
进入CRF层,得到最终的全局最优标注序列,设定对输入句子的预测标注序列为y={y1,y2,…,yi,…,yn},该序列的整体得分为:
Figure BDA0002806049960000074
其中A为CRF模型的转移矩阵,P为BiLSTM-Attention输出的标注概率矩阵,可以计算把输入句子x标记为序列y的概率,并计算其对数似然函数为:
Figure BDA0002806049960000075
其中Yx是句子x所有可能的标注序列集合,CRF模型在预测中使用Viterbi算法来求解最优路径,即得到概率最大的一组标注序列:
Figure BDA0002806049960000076
进一步地,所述S2.3中基于辅助优化的模型训练方式进一步包含:
S2.3.1从BiLSTM模型直接进入Attention模块,而主任务模型中第一层全连接层的输入
Figure BDA0002806049960000081
为:
Figure BDA0002806049960000082
当输入的句子是自动标注语料时,只执行辅助任务,当输入来自人工标注语料集时,会同时执行主任务和辅助任务,因此训练依据的损失函数是两者损失函数的加权组合,λ是一个可调控的组合系数:
Figure BDA0002806049960000083
基于上述方式,训练得到适用于法律文书的命名实体识别模型,放入案情信息抽取框架的功能池中,框架根据配置文件通过功能调度器从功能池中调用。
本发明的有益效果:鉴于现有技术中存在的不足,本申请基于当前文本信息抽取相关方法的研究成果,对法院电子卷宗内案情信息及裁判文书模式特征进行了分析,设计了基本案情本体,和法院电子卷宗案情要素信息抽取框架,另外,针对深度学习在法律文书命名实体识别中出现的主要问题,提出了基于多粒度语义的法律文书NER模型及训练方法,依此训练出模型,并集成在框架功能池中,本申请的框架及模型方法对法院电子卷宗基本案情信息抽取具有如下有益效果:
1)只需要较少的样本即可获得较高精度的信息抽取效果,在方法上实现冷启动,减少了大量的人工标注工作;
2)深入结合领域文本特征和领域词典,配置引用灵活方便;
3)针对不同实体特征可适配多种信息抽取方法,并按照定制策略选择和融合,在一定程度上保证了召回率;
4)信息抽取结果具有与领域本体一致的结构,可准确获取实体关系;
5)易于调整优化,可针对抽取错误调整对应配置内容,实现精准修正而不影响其他信息项,目前本发明已经在合作法院的业务信息中使用,获得了很好的应用效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例所述的面向法院电子卷宗的案情信息自动抽取方法基本案情本体框图
图2是根据本发明实施例所述的面向法院电子卷宗的案情信息自动抽取方法构建框架的整体框图;
图3是根据本发明实施例所述的面向法院电子卷宗的案情信息自动抽取方法主题模型框图;
图4是根据本发明实施例所述的面向法院电子卷宗的案情信息自动抽取方法基于辅助优化模型训练框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
如图1-4所示,根据本发明实施例所述的面向法院电子卷宗的案情信息自动抽取方法,该方法包括:
步骤一,创建案情信息抽取框架;
步骤二,基于多粒度语义的法律文书构建NER模型及训练。
在本发明的一个具体实施例中,
步骤一,创建案情信息抽取框架;
基本案情本体,对各类案件电子卷宗文件中案情要素进行统计分析,构建基本案情本体,基本案情本体为顶层实体,由系列属性和实体共同定义,对基本案情本体中实体、属性及关系定制抽取策略并执行;
基本案情信息抽取策略,根据案情本体和电子卷宗文件版面特点,定制基本案情信息抽取策略,基于通用命名实体识别模型抽取;基于领域词典和规则模板抽取;训练领域命名实体识别模型抽取;
构建案情信息抽取框架,基于XML的跨领域信息抽取工具TZIE,自定义抽取领域要素信息,构建案情信息抽取框架,提供领域词典、规则及现有模型组合配置,并充分考虑了规则模板的复用,及对结果信息的引用,框架主要功能有:文本处理、要素定义、提取方式配置,框架中使用的TZIE配置语言由XML节点、保留字、操作符和语法规则构成,其中封装了用于信息抽取的各种技术方法,正则表达式、NLP技术工具、机器学习模型,及代码包等,通过配置语句,可以应对各种场景、各种文本下的信息提取需求,其中,框架配置文件进一步包含:
定义领域词典,基于TZIE配置语法规则编写的XML文件,XML节点及关系由DTD文件定义,领域词典在信息抽取任务中具有重要作用,不仅可以提高分词工具的性能,还可以快速实现信息抽取的领域自适应,使用词典时,按照TZIE内置操作符格式进行引用;
定义领域要素,基于TZIE内置的实体节点进行配置,在领域概念和事件的定义中继续配置下层属性实体,层级结构表达为复杂从属关系;
定义信息抽取方式,TZIE内置的method节点用来定义信息抽取,可选用基于规则模板、基于模型、基于编码的方法,基于规则模板的方式是通过引入TZIE配置语言元素,把正则表达式改造为领域规则模板,对具有显著关键词和文本格式特征的场景具有很好的效果,通过配置通用及自训练的模型进行信息抽取,通过配置调用自定义API实现信息抽取的方式,获取复杂逻辑判断或计算的信息,同一要素可配置多个method节点,然后通过配置组合表达式及优先级关系,对结果进行融合或取舍,另外,使用TZIE内置操作符可以对领域词典、信息抽取结果、功能池等资源进行调用;
框架功能调度器,框架基于TZIE配置语言编译器对配置文件进行资源链接,形成可执行代码,在执行过程中通过功能调度器从功能池中调用相应模型工具,完成信息抽取,输出结果JSON对象,该JSON对象完全基于XML配置文件中定义的数据结构组织所抽取的要素信息,框架功能池中包含了常用的文本处理工具和模型,所训练的适用于法律文书的命名实体识别模型,以及针对具体应用场景开发的代码包。
在本发明的一个具体实施例中,
步骤二,基于多粒度语义的法律文书构建NER模型及训练;
多粒度语义单元的结合方式,采集一个包含400多万份裁判文书的中文语料集,采用Word2vec的Skip-gram模型和LDA主题模型,分别训练得到司法领域含有主题语义的词向量模型和字向量模型,向量维度均为200维;
根据基准方法BiLSTM-CRF模型在标注语料上的表现来看,使用字向量对较短的命名实体具有更好的识别效果,而对于法律文书中地名、机构名较长的特点,采用词向量效果更好一些,分析主要原因在于:词向量忽略了词内字的语义信息,另外,分词质量对采用词向量的识别结果有很大影响,但另一方面,以单字作为语义单元的歧义性较大,可见词向量和字向量各有优略,两种语义单元相结合可以包含更全面的信息表示,另外,不同案件类型的裁判文书中,命名实体的上下文具有显著差异,无法在细粒度语义单元中得到很好的表示,使用LDA主题模型的向量模型,获取更大粒度上的语义信息,结合BiLSTM-Attention-CRF模型的领域实体识别,在基准模型BiLSTM-CRF中增加了Attentio机制,预测出每个语义单元属于不同标签的概率,在BiLSTM模型上接入CRF模型,使得BiLSTM模型在计算最优标签序列时合理体现CRF模型转移矩阵;
基于辅助优化的模型训练方式,以人工标注语料训练模型作为主任务,以人工和自动标注语料训练模型作为辅助任务,后者向前者共享BiLSTM模型层的输出,在模型结构上,相比前者,去掉了第一层全连接层,从BiLSTM直接进入Attention模块,当输入的句子是自动标注语料时,只执行辅助任务,当输入来自人工标注语料集时,会同时执行主任务和辅助任务,因此训练依据的损失函数是两者损失函数的加权组合,训练得到适用于法律文书的命名实体识别模型,放入案情信息抽取框架的功能池中,框架可以根据配置文件通过功能调度器从功能池中调用。
为了方便理解本发明的上述技术方案,以下通过具体使用方式上对本发明的上述技术方案进行详细说明。
在具体使用时,根据本发明所述的面向法院电子卷宗的案情信息自动抽取方法,具体实施举例说明步骤如下:
1、案件文本数据采集与标注
针对司法领域命名实体识别任务,还没有数量充分的标注语料集,本文的语料数据主要来源于中国裁判文书网,共计2200份案件判决书,其中包含民事、刑事和执行三种类型的案件。在实体标注上,本发明面向司法领域需求,设定5类命名实体:人名(Nr)、地名(Ns)、机构名(Nt)、案件名(Nc)和法律条文(Nl),采用BIOES方式进行标注,对语料分别进行字标注和词标注,如表1所示。在词标注中使用HanLP开发工具进行分词;表1基于词的BIOES标注示例;
Figure BDA0002806049960000121
在标注方式上,采用人工标注和自动标注两种方式,人工标注语料集中包含200份裁判文书,经过人工标注和检验,获取高质量标注语料集,对于另2000份文书,根据法律文书中一些半结构化特点和关键词典,使用正则表达式和词性标注工具定义了相应启发式规则,例如:当事人姓名,和机构名前通常会有“原告”、“被告”这样的诉讼地位;地名前通常会有“住址”、“籍贯”等词出现;案件名通常由当事人名称和案由名称组合而成;法律条文更是具有典型的结构化特征,基于这些启发式规则开发了相应命名实体的自动标注工具,可以快速获取标注语料集,但其标注质量,尤其在召回率上与人工标注语料相比有一定差距;
2、模型训练
从人工标注语料集中随机选取150份裁判文书作为NER主任务的训练语料,剩余50份用于测试,自动标注语料集中全部2000份文书用于辅助任务训练,另外,根据句长分布情况,无论以词还是字作为语义单元,模型接收的句子长度设为200,数据集情况如表2所示:
语料 训练数据(句) 测试数据(句)
人工标注语料集 10927 3446
自动标注语料集 143059 --
模型参数设置如表3所示:
参数
词/字向量维度 200
多粒度词/字向量 406
语义单元长度 200
优化方法 Adam
学习率 0.001
Dropout概率 0.5
Epoch 20
Batch 32
辅助优化组合系数 0.65
训练得到模型文件:ner.bin,放置在案情信息抽取框架的功能池中;
3、编写框架配置文件
框架配置文件基于TZIE配置语法规则进行编写,主要包括三个方面的配置:定义法律文书相关词典、定义案卷案情要素、定义信息抽取方法,同一要素可以配置多种方法,然后通过配置多方式组合表达式及优先级关系,对多个方法结果进行融合或取舍,最后获取一个结构化数据对象,该XML配置文件也是对领域本体另一种形式的定义,不同的是,其中还包含了每个实体及属性的信息抽取方法;
4、执行信息抽取
框架基于配置文件进行资源链接,形成可执行代码,在执行过程中通过功能调度器从功能池中调用相应模型,完成信息抽取,输出结果JSON对象,该JSON对象完全基于XML配置文件中定义的案情本体组织所抽取的要素信息,获取输入文件的格式化信息,如表4所示:
Figure BDA0002806049960000141
综上所述,借助于本发明的上述技术方案,通过对各类案件卷宗内文件类型和案情要素的统计分析,基于图方法的思想从整体上建模案情本体,整合各种信息抽取技术方法,以获取准确完整的案情信息;从输入模型的语言表示入手,对不同尺度的嵌入表示,以及结合方式的有效性进行了研究验证,形成涵盖字向量、词向量和主题向量三个语义粒度的语言表示,然后提出一种适于法律文书命名实体识别的深度学习模型,并从模型训练入手,使用一种辅助优化的训练方式,减少模型对人工标注语料的依赖,最后训练了适用于法律文书的命名实体识别模型。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种面向法院电子卷宗的案情信息自动抽取方法,其特征在于,该方法包括以下步骤:
S1创建案情信息抽取框架,进一步包含:
S1.1对各类案件电子卷宗文件中案情要素进行统计分析,构建基本案情本体;
S1.2根据案情本体和电子卷宗文件版面特点,定制基本案情信息抽取策略;
S1.3基于XML的跨领域信息抽取工具TZIE,自定义抽取领域要素信息,构建案情信息抽取框架,提供领域词典、规则及现有模型组合配置;
S2基于多粒度语义的法律文书构建NER模型及训练,进一步包含:
S2.1多粒度语义单元的结合方式,采集一个包含400多万份裁判文书的中文语料集,采用Word2vec的Skip-gram模型和LDA主题模型,分别训练得到司法领域含有主题语义的词向量模型和字向量模型,另外,不同案件类型的裁判文书中,使用LDA主题模型的向量模型,获取更大粒度上的语义信息;
S2.2结合BiLSTM-Attention-CRF模型的领域实体识别,在基准模型BiLSTM-CRF中增加了Attentio机制,预测出每个语义单元属于不同标签的概率,在BiLSTM模型上接入CRF模型,使得BiLSTM模型在计算最优标签序列时合理体现CRF模型转移矩阵;
S2.3基于辅助优化的模型训练方式,以人工标注语料训练模型作为主任务,以人工和自动标注语料训练模型作为辅助任务,后者向前者共享BiLSTM模型层的输出。
2.根据权利要求1所述的面向法院电子卷宗的案情信息自动抽取方法,其特征在于,所述S1.1中基本案情本体进一步包含:
S1.1.1基本案情本体为顶层实体,由系列属性和实体共同定义,对基本案情本体中实体、属性及关系定制抽取策略并执行。
3.根据权利要求1所述的面向法院电子卷宗的案情信息自动抽取方法,其特征在于,所述S1.2中基本案情信息抽取策略进一步包含:
S1.2.1基于通用命名实体识别模型抽取,对案情本体中大部分属性信息的抽取,命名实体识别对象主要为三大类:实体、时间和数字,七小类:人名、地名、机构名、日期、时间、百分比及货币;
S1.2.2基于领域词典和规则模板抽取,可枚举或具有固定模式的属性,所述属性为案由、审理方式、诉讼请求、身份证号码、联系方式、诉讼地位,对于案情本体中的实体关系,采用基于上下文关系定义规则模板来获取;
S1.2.3训练领域命名实体识别模型抽取,其中,案情本体中的司法领域特有命名实体为案号、案件名称、法律条文,以及领域特性的命名实体为地址、籍贯、工作单位,这类命名实体需要结合领域文本语料单独训练和优化。
4.根据权利要求1所述的面向法院电子卷宗的案情信息自动抽取方法,其特征在于,所述S1.3中构建案情信息抽取框架进一步包含:
S1.3.1框架配置文件,基于TZIE配置语法规则编写的XML文件,XML节点及关系由DTD文件定义,所述配置文件分为定义领域词典、定义领域要素、定义信息抽取方式;
S1.3.2框架功能调度器,框架基于TZIE配置语言编译器对配置文件进行资源链接,形成可执行代码,在执行过程中通过功能调度器从功能池中调用相应模型工具,完成信息抽取,输出结果JSON对象,该JSON对象完全基于XML配置文件中定义的数据结构组织所抽取的要素信息。
5.根据权利要求4所述的面向法院电子卷宗的案情信息自动抽取方法,其特征在于,所述S1.3.1中配置文件类型进一步包含:
S1.3.1.1定义领域词典,按照TZIE内置操作符格式进行引用领域词典信息抽取任务;
S1.3.1.2定义领域要素,基于TZIE内置的实体节点进行配置,在领域概念和事件的定义中继续配置下层属性实体,层级结构表达为复杂从属关系;
S1.3.1.3定义信息抽取方式,TZIE内置的method节点用来定义信息抽取,其中,通过引入TZIE配置语言元素,把正则表达式改造为领域规则模板,对具有显著关键词和文本格式特征的场景具有很好的效果,通过配置通用及自训练的模型进行信息抽取,通过配置调用自定义API实现信息抽取的方式,获取复杂逻辑判断或计算的信息。
6.根据权利要求1所述的面向法院电子卷宗的案情信息自动抽取方法,其特征在于,所述S2.1中多粒度语义单元的结合方式进一步包含:
S2.1.1基于LDA主题模型的向量模型对文档主题和词的概率分布的设定,得到联合概率关系式:
Figure FDA0002806049950000031
其中,K为主题数、M为裁判文书数、N为文书中的词数,在(1)式中,W是唯一观察到的量,Z、θ、
Figure FDA0002806049950000032
是中间隐含变量,α,β是需要求的超参数,对(1)进一步处理得到:
Figure FDA0002806049950000033
其中,计算的是超参α、β的极大似然估计值:
Figure FDA0002806049950000034
采用EM算法学习出
Figure FDA0002806049950000035
代入Dirichlet分布得到文书主题的概率分布θ,和主题中词的概率分布
Figure FDA0002806049950000036
本文根据θ和
Figure FDA0002806049950000037
进行多次随机采样,确定一个K*V的矩阵,该矩阵的每一列作为对应词的主题信息向量:
Figure FDA0002806049950000038
同样的过程,可以得到基于中文字的主题信息向量:
Figure FDA0002806049950000039
通过以上方式分别得到了字、词、篇章三种粒度上的语义信息表示,对此,提出以下两种结合方式分别获取词向量和字向量;
S2.1.2结合字信息和主题信息的词向量,以词作为基本语义单元,加入词内字的语义信息,和基于词的主题信息
Figure FDA0002806049950000041
设某个中文词Wi在所训练的司法词向量模型中的向量表示为
Figure FDA0002806049950000042
Wi中的字cj在所训练的司法字向量模型中的向量表示为
Figure FDA0002806049950000043
由组成Wi的所有字向量联合表示,得到Wi新的词向量
Figure FDA0002806049950000044
Figure FDA0002806049950000045
是信是信息结合后的词向量,计算公式为:
Figure FDA0002806049950000046
Figure FDA0002806049950000047
其中i是指词在句子中的位置,j是指字在词中的位置,n是指词的字数;
S2.1.3结合词信息和主题信息的字向量作为基本语义单元,加入所在词的语义信息,和基于字的主题信息
Figure FDA0002806049950000048
Figure FDA0002806049950000049
句子中的第i个字的字向量表示,
Figure FDA00028060499500000410
是第i个字所在词的向量表示,
Figure FDA00028060499500000411
是信息结合后的字向量,计算得到:
Figure FDA00028060499500000412
7.根据权利要求1所述的面向法院电子卷宗的案情信息自动抽取方法,其特征在于,所述S2.2中结合BiLSTM-Attention-CRF模型进一步包含:
S2.2.1在BiLSTM模型和CRF模型之间加入Attention机制,在语义单元特征中加入全局注意力信息,为CRF模型计算最优路径时突出关键词的影响,向量词句子设为
Figure FDA0002806049950000051
Figure FDA0002806049950000052
表示句中第i个词的词向量,n为句长,输入模型进行计算:
Figure FDA0002806049950000053
得到双向LSTM提取的特征状态值,进入全连接层,该层在基于辅助优化的训练中,具有融合辅助特征到统一维度的作用,设置relu作为非线性激活函数,获取全连接层输出
Figure FDA0002806049950000054
组合每个时刻的输出向量设为
Figure FDA0002806049950000055
进入Attention模块,训练公式如下:
Figure FDA0002806049950000056
α=softmax(ha) (9)
Figure FDA0002806049950000057
8.根据权利要求7所述的面向法院电子卷宗的案情信息自动抽取方法,其特征在于,所述S2.2.1中进入Attention模块进一步包含:
S2.2.1上述步骤中Attention模块的第一层是以tanh为激活函数的全连接层,与前一个全连接层不同的是,该层是在BiLSTM模型的完整输出序列上做全连接,θa和ba随模型训练不断更新,再通过一层softmax获取注意力权重a后,与Attention模块的输入hm加权求和得到输出向量
Figure FDA0002806049950000058
进入Dropout层,获得Dropout层输出
Figure FDA0002806049950000059
进入CRF层,得到最终的全局最优标注序列,设定对输入句子的预测标注序列为y={y1,y2,…,yi,…,yn},该序列的整体得分为:
Figure FDA0002806049950000061
其中A为CRF模型的转移矩阵,P为BiLSTM-Attention输出的标注概率矩阵,可以计算把输入句子x标记为序列y的概率,并计算其对数似然函数为:
Figure FDA0002806049950000062
其中Yx是句子x所有可能的标注序列集合,CRF模型在预测中使用Viterbi算法来求解最优路径,即得到概率最大的一组标注序列:
Figure FDA0002806049950000063
9.根据权利要求1所述的面向法院电子卷宗的案情信息自动抽取方法,其特征在于,所述S2.3中基于辅助优化的模型训练方式进一步包含:
S2.3.1从BiLSTM模型直接进入Attention模块,而主任务模型中第一层全连接层的输入
Figure FDA0002806049950000064
为:
Figure FDA0002806049950000065
当输入的句子是自动标注语料时,只执行辅助任务,当输入来自人工标注语料集时,会同时执行主任务和辅助任务,因此训练依据的损失函数是两者损失函数的加权组合,λ是一个可调控的组合系数:
Figure FDA0002806049950000071
基于上述方式,训练得到适用于法律文书的命名实体识别模型,放入案情信息抽取框架的功能池中,框架根据配置文件通过功能调度器从功能池中调用。
CN202011369142.7A 2020-11-30 2020-11-30 一种面向法院电子卷宗的案情信息自动抽取方法 Active CN112417880B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011369142.7A CN112417880B (zh) 2020-11-30 2020-11-30 一种面向法院电子卷宗的案情信息自动抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011369142.7A CN112417880B (zh) 2020-11-30 2020-11-30 一种面向法院电子卷宗的案情信息自动抽取方法

Publications (2)

Publication Number Publication Date
CN112417880A true CN112417880A (zh) 2021-02-26
CN112417880B CN112417880B (zh) 2023-06-23

Family

ID=74829344

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011369142.7A Active CN112417880B (zh) 2020-11-30 2020-11-30 一种面向法院电子卷宗的案情信息自动抽取方法

Country Status (1)

Country Link
CN (1) CN112417880B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989811A (zh) * 2021-03-01 2021-06-18 哈尔滨工业大学 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法
CN113220888A (zh) * 2021-06-01 2021-08-06 上海交通大学 基于Ernie模型的案件线索要素抽取方法及系统
CN113220850A (zh) * 2021-04-26 2021-08-06 中国电子科技集团公司第十五研究所 一种面向庭审阅卷的案件画像挖掘方法
CN113221562A (zh) * 2021-04-14 2021-08-06 河海大学 一种基于知识图谱提高文书档案检索效率的方法及系统
CN113377916A (zh) * 2021-06-22 2021-09-10 哈尔滨工业大学 一种面向法律文本的多关系中主要关系的抽取方法
CN113435200A (zh) * 2021-06-22 2021-09-24 上海交通大学医学院附属仁济医院 实体识别模型训练、电子病历处理方法、系统及设备
CN113468890A (zh) * 2021-07-20 2021-10-01 南京信息工程大学 基于nlp信息萃取与词性规则的沉积学文献挖掘方法
CN113689195A (zh) * 2021-08-27 2021-11-23 北京市律典通科技有限公司 案件管辖智能判断方法、装置、电子设备及存储介质
CN113779976A (zh) * 2021-09-27 2021-12-10 成都数之联科技有限公司 裁判规则提取方法及系统及装置及介质
CN114021544A (zh) * 2021-11-19 2022-02-08 上海国泰君安证券资产管理有限公司 产品合同的要素智能抽取和审核方法及系统
CN114238418A (zh) * 2022-02-24 2022-03-25 佛山市禅城区人民法院 信用卡要素表生成方法、系统和可读存储介质
CN114625850A (zh) * 2022-03-09 2022-06-14 上海弘玑信息技术有限公司 字段抽取引擎的生成方法及装置、电子设备、存储介质
CN114925694A (zh) * 2022-05-11 2022-08-19 厦门大学 一种利用实体判别信息来提高生物医学命名体识别的方法
CN115017144A (zh) * 2022-05-30 2022-09-06 北京计算机技术及应用研究所 一种基于图神经网络的司法文书案情要素实体识别方法
WO2023000728A1 (zh) * 2021-07-23 2023-01-26 华为云计算技术有限公司 一种分词方法及其相关设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059193A (zh) * 2019-06-21 2019-07-26 南京擎盾信息科技有限公司 基于法律语义件与文书大数据统计分析的法律咨询系统
WO2020114373A1 (zh) * 2018-12-07 2020-06-11 北京国双科技有限公司 一种实现司法文书中要素识别的方法及装置
CN111680504A (zh) * 2020-08-11 2020-09-18 四川大学 法律信息抽取模型及方法及系统及装置及辅助系统
CN111723564A (zh) * 2020-05-27 2020-09-29 西安交通大学 一种针对随案电子卷宗的事件抽取及处理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020114373A1 (zh) * 2018-12-07 2020-06-11 北京国双科技有限公司 一种实现司法文书中要素识别的方法及装置
CN110059193A (zh) * 2019-06-21 2019-07-26 南京擎盾信息科技有限公司 基于法律语义件与文书大数据统计分析的法律咨询系统
CN111723564A (zh) * 2020-05-27 2020-09-29 西安交通大学 一种针对随案电子卷宗的事件抽取及处理方法
CN111680504A (zh) * 2020-08-11 2020-09-18 四川大学 法律信息抽取模型及方法及系统及装置及辅助系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李佳静;闫宏飞;于珑雪;孟涛;: "TML认知计算平台", 情报工程, no. 05 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989811A (zh) * 2021-03-01 2021-06-18 哈尔滨工业大学 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法
CN113221562A (zh) * 2021-04-14 2021-08-06 河海大学 一种基于知识图谱提高文书档案检索效率的方法及系统
CN113220850A (zh) * 2021-04-26 2021-08-06 中国电子科技集团公司第十五研究所 一种面向庭审阅卷的案件画像挖掘方法
CN113220850B (zh) * 2021-04-26 2024-06-11 中国电子科技集团公司第十五研究所 一种面向庭审阅卷的案件画像挖掘方法
CN113220888A (zh) * 2021-06-01 2021-08-06 上海交通大学 基于Ernie模型的案件线索要素抽取方法及系统
CN113377916B (zh) * 2021-06-22 2023-03-24 哈尔滨工业大学 一种面向法律文本的多关系中主要关系的抽取方法
CN113377916A (zh) * 2021-06-22 2021-09-10 哈尔滨工业大学 一种面向法律文本的多关系中主要关系的抽取方法
CN113435200A (zh) * 2021-06-22 2021-09-24 上海交通大学医学院附属仁济医院 实体识别模型训练、电子病历处理方法、系统及设备
CN113468890A (zh) * 2021-07-20 2021-10-01 南京信息工程大学 基于nlp信息萃取与词性规则的沉积学文献挖掘方法
CN113468890B (zh) * 2021-07-20 2023-05-26 南京信息工程大学 基于nlp信息萃取与词性规则的沉积学文献挖掘方法
WO2023000728A1 (zh) * 2021-07-23 2023-01-26 华为云计算技术有限公司 一种分词方法及其相关设备
CN113689195A (zh) * 2021-08-27 2021-11-23 北京市律典通科技有限公司 案件管辖智能判断方法、装置、电子设备及存储介质
CN113779976A (zh) * 2021-09-27 2021-12-10 成都数之联科技有限公司 裁判规则提取方法及系统及装置及介质
CN113779976B (zh) * 2021-09-27 2023-07-07 成都数之联科技股份有限公司 裁判规则提取方法及系统及装置及介质
CN114021544A (zh) * 2021-11-19 2022-02-08 上海国泰君安证券资产管理有限公司 产品合同的要素智能抽取和审核方法及系统
CN114238418A (zh) * 2022-02-24 2022-03-25 佛山市禅城区人民法院 信用卡要素表生成方法、系统和可读存储介质
CN114625850A (zh) * 2022-03-09 2022-06-14 上海弘玑信息技术有限公司 字段抽取引擎的生成方法及装置、电子设备、存储介质
CN114925694A (zh) * 2022-05-11 2022-08-19 厦门大学 一种利用实体判别信息来提高生物医学命名体识别的方法
CN114925694B (zh) * 2022-05-11 2024-06-04 厦门大学 一种利用实体判别信息来提高生物医学命名体识别的方法
CN115017144A (zh) * 2022-05-30 2022-09-06 北京计算机技术及应用研究所 一种基于图神经网络的司法文书案情要素实体识别方法
CN115017144B (zh) * 2022-05-30 2024-03-29 北京计算机技术及应用研究所 一种基于图神经网络的司法文书案情要素实体识别方法

Also Published As

Publication number Publication date
CN112417880B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN112417880B (zh) 一种面向法院电子卷宗的案情信息自动抽取方法
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN106844349B (zh) 基于协同训练的垃圾评论识别方法
CN110825721A (zh) 大数据环境下高血压知识库构建与系统集成方法
CN110209822A (zh) 基于深度学习的学术领域数据相关性预测方法、计算机
Güngör et al. The effect of morphology in named entity recognition with sequence tagging
CN114416942A (zh) 一种基于深度学习的自动化问答方法
CN109493956A (zh) 一种导诊方法
CN114818717B (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN112818698B (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
Ahanin et al. A multi-label emoji classification method using balanced pointwise mutual information-based feature selection
Jayakumar et al. RNN based question answer generation and ranking for financial documents using financial NER
Seo et al. Plain template insertion: korean-prompt-based engineering for few-shot learners
Wang Research on the art value and application of art creation based on the emotion analysis of art
CN108763361A (zh) 一种基于主题模型的多标签分类框架方法
Katyshev et al. Intelligent approaches for the automated domain ontology extraction
CN112613316A (zh) 一种生成古汉语标注模型的方法和系统
Sathyanarayanan et al. Kannada named entity recognition and classification using bidirectional long short-term memory networks
Shahid et al. Next word prediction for Urdu language using deep learning models
Shivakumar et al. Behavior gated language models
Liu et al. Text Analysis of Community Governance Case based on Entity and Relation Extraction
Mengzhan Simulation of Chinese language and text information system processing mode based on hidden Markov model
Gan et al. Incorporate lexicon into self-training: a distantly supervised chinese medical NER

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant