CN112329442A - 面向异构法律数据的多任务阅读系统及方法 - Google Patents
面向异构法律数据的多任务阅读系统及方法 Download PDFInfo
- Publication number
- CN112329442A CN112329442A CN202011092287.7A CN202011092287A CN112329442A CN 112329442 A CN112329442 A CN 112329442A CN 202011092287 A CN202011092287 A CN 202011092287A CN 112329442 A CN112329442 A CN 112329442A
- Authority
- CN
- China
- Prior art keywords
- data
- reading
- legal
- statistical
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012545 processing Methods 0.000 claims abstract description 32
- 238000007781 pre-processing Methods 0.000 claims abstract description 30
- 238000006243 chemical reaction Methods 0.000 claims abstract description 13
- 238000004140 cleaning Methods 0.000 claims abstract description 13
- 238000007405 data analysis Methods 0.000 claims abstract description 12
- 239000000463 material Substances 0.000 claims abstract description 8
- 238000007619 statistical method Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 230000010354 integration Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 21
- 238000005516 engineering process Methods 0.000 abstract description 8
- 238000011160 research Methods 0.000 description 13
- 238000011156 evaluation Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 6
- 238000004374 forensic analysis Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 239000012634 fragment Substances 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000012800 visualization Methods 0.000 description 4
- 238000002679 ablation Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 3
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 238000007621 cluster analysis Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000000611 regression analysis Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 125000006850 spacer group Chemical group 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Tourism & Hospitality (AREA)
- Probability & Statistics with Applications (AREA)
- Technology Law (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及文书阅读技术领域,具体地说,涉及一种面向异构法律数据的多任务阅读系统及方法,系统包括依次连接的:数据输入模块,用于输入统计型和文本型法学数据;数据预处理模块,用于对法学数据进行数据清洗和数据转换;数据分析模块,用于对预处理后的数据进行分析;阅读结果处理模块,用于对分析后的数据整合,形成结构化的阅读结果数据;结果推送模块,用于将阅读结果数据反馈给法学研究者。本发明同时使用了统计分析和机器阅读理解技术,可以同时处理统计年鉴等结构化数据,以及裁判文书、案卷材料、访谈文本记录等非结构化数据,解决了数据的异构性问题。
Description
技术领域
本发明涉及文书阅读技术领域,具体地说,涉及一种面向异构法律数据的多任务阅读系统及方法。
背景技术
将人工智能技术应用到法律领域,能加快和改善法律研究流程,降低法律研究的时间成本和资金,这使得法律智能研究成为一个相当有前景的领域。Katz在2012年的研究中指出,随着人工智能的飞速发展,从法律文件生成到案件结果预测等传统法律任务将迎来变革。这种变革也可以从另外三个方面得以窥见。首先,语音识别技术被用于庭审记录]。其次,使用机器学习方法辅助律师进行法律文书的审查。再有,一些机器学习方法也被应用于构建智能裁判系统。
由此可见,人工智能应用于法学研究时,自然语言理解成为了最有希望成功应用的技术,这是因为法学研究中包含大量文本数据。例如,在数据驱动的法学实证分析中,需要研究者人工阅读大量的裁判文书,进行数据的归纳整理,这是一个相当费时费力的过程。
机器阅读理解任务通常被定义为给定一个篇章和与篇章相关的问题,模型在阅读了篇章之后,给出问题的答案。在深度学习出现之后,机器阅读理解技术获得了长足发展。前几年的一些研究者致力于解决完型填空或者单向选择类型的问题,出现了AttentiveReader、Stanford AR、GA Reader、AOA Reader等模型。之后,机器阅读理解的发展更趋向于解决接近现实情景的问题,如片段抽取问题或者多任务类型的问题,出现了BiDAF、Match-LSTM、S-net等模型。2018年,谷歌发布了一个强大的语言模型—Bert。该模型在11个自然语言处理任务上获得了成功,也在一定程度上提升了机器阅读理解的最先进表现。随着机器阅读理解技术的不断发展,它展示了处理长文本、多任务问题上的能力,这使得机器阅读理解技术有应用到法学实证分析中的可能。
但是,在将机器阅读理解应用到法学实证分析过程中,还存在诸多的挑战:
数据的异构性:法学实证分析过程是一个较为复杂的过程,它包含很多的数据形式,既有统计年鉴等结构化数据,也会有访谈记录、裁判文书等非结构化的数据,因此它是一个同时需要结构化数据分析和非结构化分析的研究方法;
问题的多样性:对于一个裁判文书,研究者既可能提出一些在文书中可以直接找到答案的问题,如刑期、犯罪地点等,也可能提出需要推断才能给出答案的问题,如是否存在团伙犯罪等。同时,部分文书可能不能给出预设问题的答案,即不可回答类问题。传统的片段提取类的机器阅读理解模型并不能处理多种复杂类型的问题;
因此,需要一种面向异构法律数据的多任务阅读系统。
发明内容
本发明的内容是提供一种面向异构法律数据的多任务阅读系统及方法,其能够克服现有技术的某种或某些缺陷。
根据本发明的一种面向异构法律数据的多任务阅读系统,其包括依次连接的:
数据输入模块,用于输入统计型和文本型法学数据;
数据预处理模块,用于对法学数据进行数据清洗和数据转换;
数据分析模块,用于对预处理后的数据进行分析;
阅读结果处理模块,用于对分析后的数据整合,形成结构化的阅读结果数据;
结果推送模块,用于将阅读结果数据反馈给法学研究者。
作为优选,数据预处理模块包括统计型数据预处理模块和文本型数据预处理模块,统计型数据预处理模块用于对统计型数据中的缺失项进行填充、异常项进行删除或替换、离群数据进行统计,文本型数据预处理模块用于对数据进行过滤,处理掉空数据,对文本型数据进行分词,将分词后的词序列数据映射为数字序列数据。
作为优选,数据分析模块包括统计学处理模块和机器阅读理解模型,统计学处理模块与统计型数据预处理模块连接,机器阅读理解模型与文本型数据预处理模块连接,统计学处理模块用于对预处理后的统计型数据进行分析处理,机器阅读理解模型用于对预处理后的文本型数据进行分析处理。
作为优选,阅读结果处理模块与统计型数据预处理模块连接,用于将结构化的阅读结果数据进行统计型的数据清洗和数据转换。
作为优选,机器阅读理解模型为LegalSelfReader,LegalSelfReader包括:
Bert层,用于对输入的篇章和问题进行编码;
特征融合层,用于融合词性标注和命名实体标注向量;
建模层,用于片段提取预测和非类型判断的建模;
输出层,用于片段预测、是非预测和拒答概率的输出。
本发明还提供了一种面向异构法律数据的多任务阅读方法,其采用上述的一种面向异构法律数据的多任务阅读系统,并包括以下步骤:
一、输入统计型和文本型法学数据;
二、数据清洗和数据转换:对于统计型数据,需要对数据中的缺失项进行填充、异常项进行删除或替换、离群数据进行统计;对于文本型数据,首先对数据进行过滤,处理掉空数据,然后,对文本型数据进行分词,再将分词后的词序列数据映射为数字序列数据;
三、数据分析:对于统计型数据,通过统计学对均值、方差、中位数、回归、聚类进行分析;对于文本型数据,通过机器阅读理解模型进行分析;
四、数据整合:经过问题分类和答案提取,形成结构化的阅读结果数据;
五、将阅读结果数据反馈给法学研究者。
作为优选,文本型数据包括法律文书、案卷材料和庭审记录。
作为优选,步骤四中,结构化的阅读结果数据进行统计型的数据清洗和数据转换,然后进行统计分析,再反馈给法学研究者。
本发明能同时使用了统计分析和机器阅读理解技术,可以同时处理统计年鉴等结构化数据,以及裁判文书、案卷材料、访谈文本记录等非结构化数据,解决了数据的异构性问题。
附图说明
图1为实施例1中一种面向异构法律数据的多任务阅读系统的结构框图;
图2为实施例1中一种法律文书阅读模型的示意图;
图3为实施例2中时间类型问题可视化结果示意图;
图4为实施例2中原因类型问题可视化结果示意图;
图5为实施例2中是非类型问题的可视化结果示意图。
具体实施方式
为进一步了解本发明的内容,结合附图和实施例对本发明作详细描述。应当理解的是,实施例仅仅是对本发明进行解释而并非限定。
实施例1
如图1所示,本实施例提供了一种面向异构法律数据的多任务阅读系统,其包括依次连接的:
数据输入模块,用于输入统计型和文本型法学数据;
数据预处理模块,用于对法学数据进行数据清洗和数据转换;
数据分析模块,用于对预处理后的数据进行分析;
阅读结果处理模块,用于对分析后的数据整合,形成结构化的阅读结果数据;
结果推送模块,用于将阅读结果数据反馈给法学研究者。
本实施例中,数据预处理模块包括统计型数据预处理模块和文本型数据预处理模块,统计型数据预处理模块用于对统计型数据中的缺失项进行填充、异常项进行删除或替换、离群数据进行统计,文本型数据预处理模块用于对数据进行过滤,处理掉空数据,对文本型数据进行分词,将分词后的词序列数据映射为数字序列数据。
本实施例中,数据分析模块包括统计学处理模块和机器阅读理解模型,统计学处理模块与统计型数据预处理模块连接,机器阅读理解模型与文本型数据预处理模块连接,统计学处理模块用于对预处理后的统计型数据进行分析处理,机器阅读理解模型用于对预处理后的文本型数据进行分析处理。
本实施例中,阅读结果处理模块与统计型数据预处理模块连接,用于将结构化的阅读结果数据进行统计型的数据清洗和数据转换。
如图2所示,本实施例中,机器阅读理解模型为LegalSelfReader,LegalSelfReader包括:
Bert层,用于对输入的篇章和问题进行编码;
特征融合层,用于融合词性标注和命名实体标注向量;
建模层,用于片段提取预测和非类型判断的建模;
输出层,用于片段预测、是非预测和拒答概率的输出。
数据输入模块中,法学研究者确定某一法学研究后,根据研究需求,需要收集一定的法学数据。这些数据包括:已有的统计型数据、法律文书、案卷材料、庭审记录等。已有统计年鉴等统计型数据,可以使用统计学方法进行处理。法律文书、案卷材料、庭审记录等数据为非结构化数据,这需要更高级的处理方式,在本系统中,将使用机器阅读理解模型处理定性型数据。数据的输入方式可以是法学研究者自行整理法律文书,然后批量输入系统中,也可以输入某一关键词,让系统辅助法学研究者从互联网上爬取相关数据。
本实施例提供了一种面向异构法律数据的多任务阅读方法,其特征在于:其采用如权利要求1-4中所述的任意一种面向异构法律数据的多任务阅读系统,并包括以下步骤:
一、输入统计型和文本型法学数据;
二、数据清洗和数据转换:对于统计型数据,需要对数据中的缺失项进行填充、异常项进行删除或替换、离群数据进行统计;对于文本型数据,首先对数据进行过滤,处理掉空数据,然后,对文本型数据进行分词,再将分词后的词序列数据映射为数字序列数据;
三、数据分析:对于统计型数据,通过统计学对均值、方差、中位数、回归、聚类进行分析;对于文本型数据,通过机器阅读理解模型进行分析;
四、数据整合:经过问题分类和答案提取,形成结构化的阅读结果数据;
五、将阅读结果数据反馈给法学研究者。这有助于研究者完成法学研究的背景研究部分,同时对数据进行简单地回归分析、聚类分析后,帮助法学研究者从繁杂的数据中找到真实存在的法学问题,法学研究者再根据自己的理论知识,对问题提出解决方法。
文本型数据包括法律文书、案卷材料和庭审记录。
步骤四中,结构化的阅读结果数据进行统计型的数据清洗和数据转换,然后进行统计分析,再反馈给法学研究者。结构化的阅读结果的分析过程和结构化数据的处理过程比较相似,都会被送到统计型数据预处理模块和统计学处理模块,进行进一步的分析。
法学实证研究时一个概念生成与测量过程带有重叠的过程,因此测量需求可能是研究者得到文本后才分析出来的。这时候,需要研究者针对特定文本数据,给出一个特定的测量问题,模型会根据这个问题在文本数据找到答案,再反馈给研究者。
机器阅读理解模型LegalSelfReader采用一种法律文书阅读模型的构建方法进行构建,一种法律文书阅读模型的构建方法包括以下步骤:
一、Bert层对输入的篇章和问题进行编码;该层使用谷歌提出的Bert-Chinese实现;
二、在之前的一些研究表明,加入一些与单词相关的先验特征,可以使得模型的性能获得一定的提升,这同样适用于法律裁判文书的场景下。加入命名实体识别向量,有利于模型识别出犯罪人姓名、犯罪地点、犯罪团伙名称;加入词性向量,有利于模型识别出一些实体词、量词等;因此,在得到语义编码向量后,特征融合层融合词性标注和命名实体标注向量;
三、建模层对片段提取预测和是非类型判断的建模;
四、输出层输出片段预测和是非概率预测。
Bert层的编码过程包括:
1.1、对输入的篇章和问题进行整理,并整理为三个序列:
(2)前后句标记序列,问题序列被标记为A,篇章序列被标记为B:
{EA,...,EA,EB,...,EB};
(3)单词位置序列,问题的位置序列为E0,...,En,篇章的位置序列为E0',...,Em':
{E0,...,En,E0,...,Em};
1.2、将单词的词典映射序列、前后句标记序列和单词位置序列求和并进行编码处理,得到编码结果:
{E[CLS]',E1',...,En',E[SEP]',E1',...,Em',E[SEP]'}。
特征融合层融合词性标注和命名实体标注向量后,得到包含富特征的语义编码向量Mt:
Mt=[Et';Ct]t∈[1,n+m+3];
得到M序列,表示为M={M1,M2,...,Mt}。
在现实场景的阅读任务中,如果问题类型为是非判断,则我们通常会选择略读全文,更关心文章的宏观信息,这时候我们可以通过注意力层和池化层,得到文章中更重要的部分。如果问题类型为阐述类题目(片段提取比较类似于这类题目),我们通常会精读全文,以期获得更为详细的上下文信息,这时候我们选择保留完整的词向量表示,再使用双向LSTM更进一步地提取上下文信息,然后使用一层MLP进映射。
建模层对是非类型判断的建模方法为:
3.2、使用了平均池化层对新的融合进行处理,得到池化输出Pi:
输出层使用MLP多层感知机实现,对于片段预测的输出:
其中,startlogit为篇章token作为答案起始位置概率,endlogit为篇章token作为答案终止位置的概率,Wspan和bspan为输出层的权值和偏置;
对于是非预测的输出:
其中,Yeslogit为答案是“Yes”的概率,Nologit为答案是“No”的概率,Wyes_no和byes_no为权值和偏置。
输出层还输出拒答概率的输出:
Nulllogit=Wnull·Pt+bnull;
其中,Nulllogit为该问题无答案的概率,Wyes_no和byes_no为权值和偏置。
步骤四后,最终的输出会被整形为两个新的概率输出,分别为:
startlogit′=[startlogit,unklogit,yeslogit,nologit];
endlogit′=[endlogit,unklogit,yeslogit,nologit];
设格式相同并且包含是非概率、拒答概率的真实输出为ystart、yend,使用交叉熵作为损失函数计算损失lossstart、lossend,然后对两个损失求取均值即可以得到总体损失lossall,用公式表达为:
其中N为样本个数。
机器阅读理解模型LegalSelfReader能同时处理片段抽取、是非判断、拒答三种类型问题。
实施例2
本实施例设置了两个benchmark:BIDAF、Bert,与本实施例所提出的模型LegalSelfReader一起实验。
实验环境
在一个装有64位Windows系统的机器上进行实验。该机器的外存空间大小为930GB,内存空间大小为48GB,CPU类型为单核Intel i7-8700K,GPU类型为NVIDA GeForceGTX 1080Ti,GPU大小为11GB。本实施例所有实验程序均使用python语言编写,所使用的深度学习框架为Pytorch,版本号为1.13.0。
本实施例使用的原始数据来自于CAIL 2019法律阅读理解竞赛1,该数据集由哈工大科大讯飞联合实验室发布,是一个面向司法领域的多任务机器阅读理解数据集,数据集名称为CJRC。数据集的篇章来自于中国裁判文书网,问题和答案均由法学专家手工撰写,问题类型包括片段抽取、是非判断、拒绝回答等类型,答案为对应篇章的片段。原始数据集经过简单预处理后,每个样本被确定为一个五元组,包括篇章、问题、答案文本、答案在篇章中的起止位置、是非型问题标记。训练集包含4万个样本,测试集包含7000个样本。
评价指标
使用Rouge和宏平均F1分数、EM(Exact Match)分数三个个评价指标对所提出的系统进行评价。F1分数是常用的分类评价指标,它同时兼顾了分类问题中的精确度和召回率。宏平均F1分数为F1分数的变体,在评测数据集含有多个参考答案时,将预测答案与多个答案分别求取F1分数,在对其求均值,即可得到宏平均F1分数,公式如下:
Rouge和Bleu分数都是机器翻译的常用指标,但是近来有研究者指出Bleu分数在机器阅读理解中评价时,与Rouge分数有很大的偏差,可能的一个原因是Bleu对长答案设置了惩罚项,使得Bleu更趋向于选择更短的答案,这给机器阅读理解的评价带来了影响[7]。因此,本实施例没有选择Bleu分数作为评价指标,只使用了Rouge-L。Rouge-L主要比较预测答案和参考答案之间的最长公共子序列,并求出Rouge-L分数,以期通过Rouge-L分数得到两者的“相似度”,Rouge-L的公式形式为:
LCS(X,Y)是参考摘要X和候选摘要Y的最长公共子序列的长度,m、n是参考答案X和候选答案Y的长度,Rlcs、Plcs分别表示召回率和准确度,Flcs即Rouge-L分数。
EM是和金标准答案完全一致的预测答案在所有预测答案中所占的比例。
对比实验
为了验证本实施例所设计的系统的有效性,将三个模型在试验环境中所描述的数据上进行实验。实验结果如下表所示。其中,带“*”的为哈工大讯飞实验室在github上公布的部分在开发集上的实验结果。
对照实验结果
从实验结果中可以看出,与传统的BIDAF、Bert模型相比,我们的模型LegalSelfReader在三个指标都有比较大的提升。传统的BIDAF使用word2vec预训练词向量,得到的是固定语义词向量,我们的模型使用了Bert模型获取词向量,得到的词向量是上下文相关的,因此更获得大幅度的提升。虽然我们对原始的Bert模型进行了一定调整,使其能够回答是非类型问题,但是原始的Bert模型中并没有回答是非问题的能力,因此在我们的多任务机器阅读理解数据集上表现较差。同时,在与哈工大科大讯飞提出的一些比较新颖的Transformer类模型的比较时,我们的模型也有比较明显的表现提升。并且,我们的模型只是一个基于原始Bert-Chinese的单隐层模型,没有对Bert模型进行大规模的重新训练,对于片段抽取输出部分只是加了一个BiLSTM层,对于是非判断输出层只是加了一个注意力层和一个池化层。相较于他们重新构建新的Transformer类模型,并使用新的预料重新训练,我们的模型在如此低廉的代价下,依然获得了比较好的结果。
以下表格展示了我们的模型与哈工大讯飞联合实验室的训练花费对比,数据来自于他们在github上的公开结果。
训练花费对比
模型 | 设备 | 训练步数 |
BERT-wwm | TPU v3 | 200K |
BERT-wwm-ext | TPU v3 | 1.4M |
RoBERTa-wwm-ext | TPU v3 | 1M |
RoBERTa-wwm-ext-large | TPU Pod v3-32 | 2M |
LegalSelfReader | GTX 1080Ti | 60.3K |
消融研究
本实施例在原始模型的基础上,分别对先验特征(词性向量和命名实体识别向量)、注意力层、双向LSTM层进行消融,以比较模型各个组件的有效性。最终的实验结果如下:
消融实验结果
从实验结果中,我们可以看出,在分别消除各个组件后,模型的性能都发生了一定程度的下降,消除注意力机制后在三个分数上分别下降了0.07、0.074、0.09,消除双向LSTM模型后分别下降了0.004、0.005、0.002,消除先验特征之后分别下降了0.003、0.003、-0.001。这说明,三个组件对模型都能提升模型的表现。其中,性能下降最为明显的是在消除注意力机制之后,这个模型带了近乎10%的性能下降,这说明注意力机制的使用,是LegalSelfReader在该问题上获得性能提升的一个重要方面。
关于问题多样性的分析
为了更深入地分析本实施例所提出模型所擅长处理的问题类型,我们利用汉语中一些特定的问题关键词,设计了一个启发式的问题类别分类,类别划分如下(由于表格大小的限制,我们只能尽可能地展示我们所选地关键词):
问题类型的关键词表
根据如上所展示的关键词,我们对测试集进行了随机筛选,每个问题类别筛选得到100个篇章-问题-答案对,然后使用所训练的模型进行评价,得到如下结果:
从实验结果中可以看出,本实施例所提出的模型在所有问题类型上都有相当优异的表现。其中,本实施例所提出的模型更擅长处理的问题类型是时间类型问题和是非类型问题,并且在宏平均F1分数上都获得了0.9以上的分数。大多数情况下,时间类型问题答案格式比较固定,模型只需要学习到这种固定的时间格式,然后进行简单匹配,基本就可以得到最终答案。而是非类型问题更为复杂,它不是一个匹配类型的问题,需要模型对文章的整体语义进行深层理解,然后再做出是非判断。本实施例所提出的模型能在是非类型获得较好的表现,说明我们针对是非类型问题设置的多任务训练获得了成功,它使得模型能够进行深层的篇章语义理解。
同时,模型在Who和Why类型问题上获得了较差的效果。我们查看了关于Who类型问题的数据,最终发现为了保护个人隐私,数据中的人名等都进行了匿名化处理,这可能使得我们所加入的命名实体识别向量出现偏差,从而使得模型的效果变差。对于Why类型的问题,它通常可以组织出多个答案(正确答案可能不止金标准答案一个),这是由于Why类型问题在文章中往往展示出多处关联性。除了正确答案的篇章子段之外,模型可能还会去发掘其他与问题相关的子段,并且这些子段可能会成为答案。这使得注意力值的有效范围被扩大了,从而模型不能给出一个确切的答案,并降低了模型的表现。
注意力值的可视化研究
如图3所示,在时间类型问题的样本中,可以很明显的地看到,模型给时间类型的片段赋予了高于上下文的注意力权值,这可以使得后续模型更能注意到上下文中更重要的部分,而不会关注与时间无关的信息,使得模型的预测能力大大提升。
如图4所示,在Why类型问题的样本中,可以看出答案部分虽然被赋予了较高的注意力值,但是其上下文的注意力值也较高,整体显示出注意力值近似于服从均匀分布。模型在使用这种分布下的注意力值,难以得出较为有效的答案。
如图5所示,对于是非类型问题,模型必须有比较的推理能力,推理能力其中一个很重要的一点就是,模型需要能自己找到线索。发现模型具有很好的“找线索”能力。如图所示,为一个是非判断类型的样本,图中注意力值比较高的部分,均是回答该问题的比较重要的线索,这说明模型具有很好的推理能力。
关于数据异构性
模型在给出的预测篇章片段并不能直接用于法学分析,因为这样的篇章片段包含许多其他信息,这需要一个后处理阶段。对于每个给出的预测片段,系统会再次对原始问题进行归类。例如,一个问题为“When”类型问题,则后处理模块会从预测片段中提取时间格式的数据,如果问题为“How much”或“How many”类型问题,后处理模块会从预测片段中提取数值类型数据。
得到更为干净的数据后,系统帮助法学研究者进行一定的统计。首先,系统可以执行统计,如我们在所有裁判文书中读取刑期数据,则可以分析平均刑期,各个刑期区间的统计等。其次,对于一些数值型数据,系统可以对它们进行回归分析,判断不同数据之间的相关性。比如在网络犯罪中,我们可以分析盗取用户信息条数和刑期之间的线性关系。再者,对于大量的同类型裁判文书的数据中,系统可以对这些数据进行聚类分析,判断同类别犯罪中的不同子类别,使得法学研究者找到可能细化法律条文的地方,并提出自己的观点。
(2)该系统需要法学研究者的参与
从近期的研究以及本实施例的实验可以看出,现阶段的机器阅读理解并不能在所有类型的问题上取得比较优异的表现,特别是“Why”类型问题。因此,这仍然需要法学研究者的参与。在系统给出似是而非的答案时,需要法学研究者对答案再次进行检查,纠正模型给出的某些错误的预测,然后使用模型对这些数据着重的训练。在可见的未来,该系统也可能使用表现更好的模型,这带来的一个好处是法学研究者在系统自阅读过程中的参与度会逐渐减少,直至系统完全实现自阅读。
结论
本实施例的一种面向异构法律数据的多任务阅读系统的分析模块同时使用了统计分析和机器阅读理解技术,可以同时处理统计年鉴等结构化数据,以及裁判文书、案卷材料、访谈文本记录等非结构化数据,解决了数据的异构性问题。本实施例的LegalSelfReader可以应用到法学实证研究中,可以同时回答片段抽取、是非判断、拒答三种类型的问题,基本解决了问题的多样性问题。
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。所以,如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。
Claims (8)
1.面向异构法律数据的多任务阅读系统,其特征在于:包括依次连接的:
数据输入模块,用于输入统计型和文本型法学数据;
数据预处理模块,用于对法学数据进行数据清洗和数据转换;
数据分析模块,用于对预处理后的数据进行分析;
阅读结果处理模块,用于对分析后的数据整合,形成结构化的阅读结果数据;
结果推送模块,用于将阅读结果数据反馈给法学研究者。
2.根据权利要求1所述的面向异构法律数据的多任务阅读系统,其特征在于:数据预处理模块包括统计型数据预处理模块和文本型数据预处理模块,统计型数据预处理模块用于对统计型数据中的缺失项进行填充、异常项进行删除或替换、离群数据进行统计,文本型数据预处理模块用于对数据进行过滤,处理掉空数据,对文本型数据进行分词,将分词后的词序列数据映射为数字序列数据。
3.根据权利要求2所述的面向异构法律数据的多任务阅读系统,其特征在于:数据分析模块包括统计学处理模块和机器阅读理解模型,统计学处理模块与统计型数据预处理模块连接,机器阅读理解模型与文本型数据预处理模块连接,统计学处理模块用于对预处理后的统计型数据进行分析处理,机器阅读理解模型用于对预处理后的文本型数据进行分析处理。
4.根据权利要求3所述的面向异构法律数据的多任务阅读系统,其特征在于:阅读结果处理模块与统计型数据预处理模块连接,用于将结构化的阅读结果数据进行统计型的数据清洗和数据转换。
5.根据权利要求4所述的面向异构法律数据的多任务阅读系统,其特征在于:机器阅读理解模型为LegalSelfReader,LegalSelfReader包括:
Bert层,用于对输入的篇章和问题进行编码;
特征融合层,用于融合词性标注和命名实体标注向量;
建模层,用于片段提取预测和非类型判断的建模;
输出层,用于片段预测、是非预测和拒答概率的输出。
6.面向异构法律数据的多任务阅读方法,其特征在于:其采用如权利要求1-4中所述的任意一种面向异构法律数据的多任务阅读系统,并包括以下步骤:
一、输入统计型和文本型法学数据;
二、数据清洗和数据转换:对于统计型数据,需要对数据中的缺失项进行填充、异常项进行删除或替换、离群数据进行统计;对于文本型数据,首先对数据进行过滤,处理掉空数据,然后,对文本型数据进行分词,再将分词后的词序列数据映射为数字序列数据;
三、数据分析:对于统计型数据,通过统计学对均值、方差、中位数、回归、聚类进行分析;对于文本型数据,通过机器阅读理解模型进行分析;
四、数据整合:经过问题分类和答案提取,形成结构化的阅读结果数据;
五、将阅读结果数据反馈给法学研究者。
7.根据权利要求6中所述的一种面向异构法律数据的多任务阅读方法,其特征在于:文本型数据包括法律文书、案卷材料和庭审记录。
8.根据权利要求7中所述的一种面向异构法律数据的多任务阅读方法,其特征在于:步骤四中,结构化的阅读结果数据进行统计型的数据清洗和数据转换,然后进行统计分析,再反馈给法学研究者。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011092287.7A CN112329442A (zh) | 2020-10-13 | 2020-10-13 | 面向异构法律数据的多任务阅读系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011092287.7A CN112329442A (zh) | 2020-10-13 | 2020-10-13 | 面向异构法律数据的多任务阅读系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112329442A true CN112329442A (zh) | 2021-02-05 |
Family
ID=74313229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011092287.7A Withdrawn CN112329442A (zh) | 2020-10-13 | 2020-10-13 | 面向异构法律数据的多任务阅读系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112329442A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011196A (zh) * | 2021-04-28 | 2021-06-22 | 广西师范大学 | 一种概念增强表示与单向蕴含注意力的主观题自动阅卷神经网络模型 |
CN113220641A (zh) * | 2021-05-20 | 2021-08-06 | 共道网络科技有限公司 | 一种法律文书的辅助阅读方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134946A (zh) * | 2019-04-15 | 2019-08-16 | 深圳智能思创科技有限公司 | 一种针对复杂数据的机器阅读理解方法 |
CN110309305A (zh) * | 2019-06-14 | 2019-10-08 | 中国电子科技集团公司第二十八研究所 | 基于多任务联合训练的机器阅读理解方法及计算机存储介质 |
CN110688491A (zh) * | 2019-09-25 | 2020-01-14 | 暨南大学 | 基于深度学习的机器阅读理解方法、系统、设备及介质 |
US20200301913A1 (en) * | 2019-03-20 | 2020-09-24 | Promethium, Inc. | Natural language based processing of data stored across heterogeneous data sources |
-
2020
- 2020-10-13 CN CN202011092287.7A patent/CN112329442A/zh not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200301913A1 (en) * | 2019-03-20 | 2020-09-24 | Promethium, Inc. | Natural language based processing of data stored across heterogeneous data sources |
CN110134946A (zh) * | 2019-04-15 | 2019-08-16 | 深圳智能思创科技有限公司 | 一种针对复杂数据的机器阅读理解方法 |
CN110309305A (zh) * | 2019-06-14 | 2019-10-08 | 中国电子科技集团公司第二十八研究所 | 基于多任务联合训练的机器阅读理解方法及计算机存储介质 |
CN110688491A (zh) * | 2019-09-25 | 2020-01-14 | 暨南大学 | 基于深度学习的机器阅读理解方法、系统、设备及介质 |
Non-Patent Citations (1)
Title |
---|
YUJIE LI,ET AL.: "Multi-task reading for intelligent legal services", 《FUTURE GENERATION COMPUTER SYSTEMS》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011196A (zh) * | 2021-04-28 | 2021-06-22 | 广西师范大学 | 一种概念增强表示与单向蕴含注意力的主观题自动阅卷神经网络模型 |
CN113011196B (zh) * | 2021-04-28 | 2023-01-10 | 陕西文都教育科技有限公司 | 一种概念增强表示与单向蕴含注意力的主观题自动阅卷神经网络模型 |
CN113220641A (zh) * | 2021-05-20 | 2021-08-06 | 共道网络科技有限公司 | 一种法律文书的辅助阅读方法和装置 |
CN113220641B (zh) * | 2021-05-20 | 2022-08-02 | 共道网络科技有限公司 | 一种法律文书的辅助阅读方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492157B (zh) | 基于rnn、注意力机制的新闻推荐方法及主题表征方法 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN110032632A (zh) | 基于文本相似度的智能客服问答方法、装置及存储介质 | |
CN110968684B (zh) | 一种信息处理方法、装置、设备及存储介质 | |
CN111985247B (zh) | 一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统 | |
CN115329127A (zh) | 一种融合情感信息的多模态短视频标签推荐方法 | |
CN107844533A (zh) | 一种智能问答系统及分析方法 | |
CN111178053B (zh) | 一种结合语义和文本结构进行生成式摘要抽取的文本生成方法 | |
CN112329442A (zh) | 面向异构法律数据的多任务阅读系统及方法 | |
CN112100212A (zh) | 一种基于机器学习和规则匹配的案件情节抽取方法 | |
CN114547230A (zh) | 一种智能行政执法案例信息抽取和案由认定方法 | |
Sadiq et al. | High dimensional latent space variational autoencoders for fake news detection | |
CN113836896A (zh) | 一种基于深度学习的专利文本摘要生成方法和装置 | |
CN112329441A (zh) | 一种法律文书阅读模型及构建方法 | |
Parolin et al. | Hanke: Hierarchical attention networks for knowledge extraction in political science domain | |
CN117574898A (zh) | 基于电网设备的领域知识图谱更新方法及系统 | |
CN117033558A (zh) | 一种融合bert-wwm与多特征的影评情感分析方法 | |
CN116089644A (zh) | 一种融合多模态特征的事件检测方法 | |
CN113361615B (zh) | 基于语义相关性的文本分类方法 | |
CN113821571B (zh) | 基于bert和改进pcnn的食品安全关系抽取方法 | |
CN115081445A (zh) | 一种基于多任务学习的短文本实体消歧方法 | |
CN115269846A (zh) | 文本处理方法、装置、电子设备及存储介质 | |
CN114693949A (zh) | 一种基于区域感知对齐网络的多模态评价对象抽取方法 | |
CN113076424A (zh) | 一种面向不平衡文本分类数据的数据增强方法及系统 | |
Ghorbanali | Social network textual data classification through a hybrid word embedding approach and Bayesian conditional-based multiple classifiers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210205 |