CN112836051B - 一种在线自学习的法院电子卷宗文本分类方法 - Google Patents
一种在线自学习的法院电子卷宗文本分类方法 Download PDFInfo
- Publication number
- CN112836051B CN112836051B CN202110188680.4A CN202110188680A CN112836051B CN 112836051 B CN112836051 B CN 112836051B CN 202110188680 A CN202110188680 A CN 202110188680A CN 112836051 B CN112836051 B CN 112836051B
- Authority
- CN
- China
- Prior art keywords
- model
- text
- file
- corpus
- files
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 239000013598 vector Substances 0.000 claims abstract description 51
- 238000005457 optimization Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims description 28
- 238000009826 distribution Methods 0.000 claims description 25
- 238000004422 calculation algorithm Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000000546 chi-square test Methods 0.000 claims description 5
- 238000002474 experimental method Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 4
- 239000013604 expression vector Substances 0.000 claims description 2
- 230000002441 reversible effect Effects 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000013145 classification model Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004836 empirical method Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services; Handling legal documents
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Technology Law (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种在线自学习的法院电子卷宗文本分类方法,包括采集文本数据,基于所采集的法律文书语料集,采用Word2vec的Skip‑gram模型,训练得到司法领域词向量模型,基于所采集的卷宗语料集,采用Doc2vec的PV‑DM模型进行训练,进行训练LDA模型;使用多维度语义表示方法获取卷宗文件特征向量;在应用系统中集成基于高斯核函数的KELM离线学习案卷文本分类器;利用基于RLS的在线序列优化模型KOS‑ELM对当前案卷文本分类器进行在线优化。本发明通过基于人工标注的卷宗语料集,提出多维度语义表示方法获取卷宗文件特征向量,通过使用基于RLS的在线序列优化模型KOS‑ELM对当前案卷文本分类器进行在线优化,经过迭代更新,模型分类正确率得到了逐步优化。
Description
技术领域
本发明涉及文本分类技术领域,具体来说,涉及一种在线自学习的法院电子卷宗文本分类方法。
背景技术
文本分类是NLP的一项基本任务,相关研究主要包括文本预处理、文本表示、特征提取,以及分类模型构建。与英文不同,中文文本的预处理更为重要,对于文本分类任务来说,文本预处理主要包括分词、去除停用词、过滤低频词等过程。
文本分类最为关键的环节在于文本表示和特征提取,有时会合在一起完成。文本表示的目的是把语言文本转化为机器可计算的数学表达,主要理论方法有:向量空间模型、基于主题的方法、和基于机器学习的方法。向量空间模型(一种自动索引的向量空间模型,ACM通讯,1975,18(11):613-620)是对文本空间中每个文本使用n个特征词来表示,特征词的值可以是one-hot、词频、TF-IDF,VSM文本表示方法在长文本分类中具有很好的表现。基于主题的文本表示是从篇章级语义粒度对文本语义进行概括表达,主要有:有潜在语义分析(LSA:Latent Semantic Analysis)、潜在语义概率分析(pLSA:Probabilistic LatentSemantic Analysis)和隐含狄利克雷分布(LDA:Latent Dirichlet Allocation)等方法(通过潜在语义来分析索引,美国信息科学学会杂志,1990,41(6):391;一个潜在语义分析概论,过程论述,1998,25(2-3):259-284;潜在语义概率分析,第十五届人工智能不确定性会议论文集,Morgan Kaufmann出版股份有限公司,1999:289-296;狄利克雷潜在分配,机器学习研究杂志,2003,3(Jan):993-1022),LSA是在VSM基础上,通过奇异值分解得到文本特征矩阵的近似,该近似矩阵更稠密并易于计算。pLSA在LSA基础上进行了理论补充,具有完整的概率统计基础,通过所定义的生成模型从文本中学习出主题概率分布和主题的词概率分布。LDA模型在pLSA基础上加入狄利克雷先验,使模型更准确的拟合真实分布。基于机器学习的文本表示是当前被广泛使用方法,典型的神经网络语言模型有HLBL、RNNLM、Word2vec、GloVe、ELMo、BERT等(一种可扩展的分层分布式语言模型,神经信息处理系统国际会议,Curran联合股份有限公司,2008;基于递归神经网络的语言模型,国际演讲交流协会会议,2010:1045-1048;向量空间中词语表示的有效估计,arXiv预印本arXiv:1301.3781,2013;用于单词表示的全局向量,2014年自然语言处理中用于文字表示的经验方法会议的全球进展(EMNLP),2014:1532-1543;深度语境化的词语表征,arXiv预印本arXiv:1802.05365,2018),以上模型可训练得到字、词和句等细粒度语义单元的嵌入向量,进而获取文本表示。Mikolov等人提出的Doc2vec是直接用于文本表示的模型(句子和文档的分布式表示,第31届机器学习国际会议论文集(ICML-14),2014:1188-1196),该模型在Word2vec基础上引入段落信息,增强对文本语义表示的准确性和完整性。随着深度学习的兴起,出现了多种基于CNN、RNN的文本表示模型(用于句子分类的卷积神经网络,自然语言处理的经验方法研讨会,USA,2014,1746-1751;一种用于建模句子的卷积神经网络,arXiv预印本arXiv:1404.2188,2014;一种文本分类的C-LSTM神经网络,arXiv预印本arXiv:1511.08630,2015;基于递归和卷积神经网络的序列短文本分类,arXiv预印本arXiv:1603.03827,2016),前者能够较好的学习文本局部序列和语义信息,后者更善于学习上下文依赖关系、句法和行文逻辑等信息。深度学习追求的是end2end思想,这些模型通常结合词向量完成文本表示、特征提取、文本分类多个环节。特征提取可看作降维的过程,从特征空间中筛选出主要特征,新的特征子集能够更简洁准确的表现文本类别差异,提高分类性能,常用的特征提取算法有TF-IDF、期望交叉熵、互信息、信息增益、卡方检验等方法,此外文本证据权、基尼指数、特征聚类等方法也常被用于特征降维。
文本分类模型主要有传统分类模型,和基于深度学习的模型,传统模型通常基于特征工程结合分类器构成,属于浅层语义学习模型,分类器主要有:KNN、决策树、SVM(最相邻模式分类,IEEE信息理论汇刊,1967,13(1):21-27;分类和回归树,CRC出版社,1984;归纳决策树,机器学习,1986,1(1):81-106;机器学习程序,1992;支持向量网络,机器学习,1995,20(3):273-297;一种最优边缘分类器的训练算法,第五届计算学习理论年度研讨会论文集,ACM,1992:144-152;支持向量回归的机器,神经信息处理系统的进展,1997:155-161)、逻辑回归等。基于深度学习的模型相比于传统模型,可以获取更抽象的文本语义表征,并把特征提取任务融于模型构建的过程中,从而减少了人为设计特征的不完备性和冗余度,比如:Yoon Kim(用于句子分类的卷积神经网络,自然语言处理的经验方法研讨会,USA,2014,1746-1751)提出的Text-CNN模型,利用CNN捕捉文本局部相关性,得到很好的分类效果。Armand Joulin等人(高效的文本分类技巧,第15届计算语言学协会欧洲分会会议论文集,第二卷,短篇论文,2017,427-431)提出一种快速文本分类模型FastText,把文本表示与分类融合在一起,进行分类的同时还获取了词向量。Yogatama等(基于递归神经网络的生成和判别文本分类,2017)构建基于LSTM的生成模型和判别模型,解决文本分类的问题。Wang(用于文本分类的中断循环神经网络,计算语言学协会会议,2018:2311-2320)提出的中断循环神经网络DGRU模型,既能学习长距离依赖关系,又能抽取关键短语信息,在多个数据集上都获取了很好的分类效果。Yang等人(文献分类的层次注意力网络,2016年计算语言学协会北美分会会议论文集:人类语言技术,圣地亚哥,2016,1480-1489)提出一种层次Attention模型用来解决长文本分类的问题,证明这种层级结构获取的文本特征在长文本分类中具有很大帮助。还有RCNN(基于注意力机制和RCNN的学术新闻文本分类模型,计算机支持的合作工作和社会计算的CCF会议,新加坡,2018)这类混合结构模型也被成功用于文本分类任务中。近几年,Transformer框架的提出和相关方法(如GPT(通过生成性预训练提高语言理解能力,2018)、BERT(用于语言理解的深度双向Transformers预训练模型,arXiv预印本arXiv:1810.04805,2018)、ERNIE(使用信息实体增强语言表示,arXiv预印本arXiv:1905.07129,2019)、ULMFiT(文本分类的通用语言模型微调,arXiv预印本arXiv:1801.06146,2018))的使用,使得迁移学习在文本分类等多个NLP任务上取得了重大进展。
另外,集成学习作为提升分类效果的方法,也被广泛使用,其思想是通过构建并组合多个同质或异质的学习器处理同一任务,获取比单一学习器更好的效果(基于集成学习的标题分类算法研究,计算机应用研究,2017,34(04):1004-1007),集成学习按照集成方式主要分为两类:Bagging和Boosting,前者基学习器之间无强依赖关系,具有更好的鲁棒性(基于优化样本分布抽样集成学习的半监督文本分类方法研究,中文信息学报,2017,31(06):180-189),典型算法是随机森林(随机森林,机器学习,2001,45(1):5-32);后者串行生成基分类器,代表算法有adaboost(一种在线学习的决策理论泛华及其在提升模型中的应用,计算机与系统科学杂质,1997,55(1):119-139),和基于梯度提升算法(gbdt)的xgboost(一种可扩展的树提升系统//第22届ACM Sigkdd知识发现和数据挖掘国际会议论文集,2016:785-794)和lightgbm(一种高效的梯度提升决策树//神经信息处理系统的进展,2017:3146-3154)。
近些年,极限学习机(ELM:Extreme Learning Machine)的相关理论(一种新的前馈神经网络学习方案,2004年IEEE国际联席会议,IEEE,2004,2:985-990;理论和应用[J],神经计算与控制,2006,70(1):489-501;以随机隐藏节点方式使用泛逼近定理增量构造前馈网络,IEEE夸神经网络,2006,17(4):879-892;用于回归和多类分类的极限学习机制[J],IEEE系统汇刊,2012,42(2):513-529)在机器学习界越来越受到关注,ELM是基于单隐层前馈神经网络[J],神经网络(SLFNs)的一种快速学习算法,该算法随机初始化输入权重和偏置,根据KKT优化理论,通过一次计算获取输出权重的全局最优解,相比基于梯度下降的反向传播训练方法,ELM算法具有计算速度快、泛化能力强的优点。
发明内容
针对相关技术中的上述技术问题,本发明提出一种在线自学习的法院电子卷宗文本分类方法,能够克服现有技术方法的上述不足。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种在线自学习的法院电子卷宗文本分类方法,包括采集文本数据,从案卷中选取常见案件卷宗,从所述案件卷宗中选取文本文件进行人工标注作为卷宗语料集,从中国裁判文书网采集裁判文书作为法律文书语料集;基于所采集的法律文书语料集,采用Word2vec的Skip-gram模型,训练得到司法领域词向量模型,向量维度为300维,并标记词向量;基于所采集的卷宗语料集,采用Doc2vec的PV-DM模型进行训练,得到文件特征向量,向量维度为300维,并标记特征向量;基于所采集的卷宗语料集,进行训练LDA模型;使用多维度语义表示方法获取卷宗文件特征向量;在应用系统中集成基于高斯核函数的KELM离线学习案卷文本分类器;系统在线使用过程,采集用户修正后的文件作为新标注样本,利用基于RLS的在线序列优化模型KOS-ELM对当前案卷文本分类器进行在线优化。
基于所述高斯核函数的KELM对(C,Y)是敏感,其中C为正则化参数,Y高斯核函数参数;通过多种组合参数的对比实验,确定合适的参数值;基于少量样本对模型进行训练。
LDA模型进行训练首先构建基于词的主题模型和基于LDA对文件主题和词的概率分布的设定得到联合概率关系式,采用算法得到卷宗文件主题的概率分布和主题中词的概率分布,确定一个矩阵,所述矩阵中每一列作为对应词的主题信息向量。
使用多维度语义表示方法获取卷宗文件特征向量通过采用卡方检验构建类别特征词典,语料集经过预处理后,对文本进行计算出词语类型的卡方值,按降序排列,再根据文件特征词卡方值的分布情况设定阈值,得到本卷重语料集的类别特征词典,获取卷宗文件特征向量。
ELM算法是通过随机初始化输入权重和偏置,根据KKT优化理论,通过计算获取输出权重的全局最优解。
KOS-ELM通过RLS逐渐增加新样本来更新模型参数,进行优化模型预测精准度,采用离线方式计算得到KELM输出权重矩阵。
本发明的有益效果:通过基于人工标注的卷宗语料集,提出多维度语义表示方法获取卷宗文件特征向量,通过使用基于RLS的在线序列优化模型KOS-ELM对当前案卷文本分类器进行在线优化,经过迭代更新,模型分类正确率得到了逐步优化,每次迭代使用的样本越多,优化效果越明显,而且模型优化的趋势越平稳,但每次迭代花费时间越长,反之,优化过程中模型性能波动越大,但计算时间越短。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例所述的在线自学习的法院电子卷宗文本分类方法的LDA主题模型示意图。
图2是根据本发明实施例所述的在线自学习的法院电子卷宗文本分类方法的单输入输出的基本ELM模型示意图。
图3是根据本发明实施例所述的在线自学习的法院电子卷宗文本分类方法的不同数量新样本进行20次迭代优化效果示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明实施例所述的在线自学习的法院电子卷宗文本分类方法,包括数据采集标注、多维度语义表示以及基于KOS-ELM的案卷文本分类及在线优化方法,数据采集有法院电子卷宗文本分类是面向案件卷宗,识别其中包含文件的类别,为自动生成阅卷目录和自动归档奠定基础。本文所提出的方法,在训练模型的过程中使用到两个数据集,一是经过人工标注的卷宗语料集,由于不同类型案件卷宗内的文件类别和数量存在较大差异,本文从项目合作法院提供的案卷中选取了10类常见案件卷宗(其中包含5类刑事子案由,5类民事子案由),共计1455卷,从中选出重要的20类文本文件,共计12841份,进行人工标注。另一个数据集是从中国裁判文书网采集的400多万份裁判文书构成,用于训练司法领域词向量模型的法律文书语料集。
所述多维度语义表示分为司法领域的词向量、卷宗文件特征向量,基于LDA模型的主题向量、卷宗文件的多维度语义表示方法。
所述司法领域词向量,通过基于采集的法律文书语料集,采用Word2vec的Skip-gram模型,训练得到司法领域词向量模型,向量维度为300维,某词向量标记为
所述卷宗文件特征向量,通过基于卷宗语料集,采用Doc2vec的PV-DM模型进行训练,虽然PV-DM模型可同时得到词向量模型,但本文只使用文件特征向量,向量维度为300维,记语料集中某文件的特征向量为
所述基于LDA模型的主体向量,如图1所示,LDA模型基于卷宗预料集进行训练,该数据集包含10类常见案件卷宗,相应的设定主体数量为10,如图1所示构建基于词的主题模型,基于LDA对文件主题和词的概率分布的设定,得到联合概率关系式(1):
式(1)中:K为主题数;M为卷宗语料集中的文件数;N为文件中的词数,W是唯一可以观察到的量,表示文档中词的概率分布,Z,θ,φ是代表三种分布的中间隐含变量,α,β是需要确定的Dirichlet分布超参数。对式(1)进一步处理:
P(W;α,β)=∑ZP(W,Z;α,β) (2)
本文要计算的就是超参α、β的极大似然估计值:
采用EM算法学习出代入Dirichlet分布得到卷宗文件主题的概率分布θ,和主题中词的概率分布φ,本文根据θ和φ进行多次随机采样,确定一个K*V的矩阵,V表示卷宗语料集的词典长度,该矩阵的每一列作为对应词的主题信息向量/>
所述卷宗文件的多维度语义表示方法通过基于人工标注了文件类别的卷宗语料集,采用卡方检验构建类别特征词典,语料集经过分词、去除停用词、去人名、过滤低频词等预处理后,对20类文本计算词与类型的卡方值:
式中c为类别标签;w为c类文本语料中出现的词;N为卷宗语料集文件总数;A为包含w且属于c类别的文件数;B为包含w但不属于c类别的文件数;C为不包含w却属于c类别的文件数;D为不包含w也不属于c类别的文件数。
本文分别计算出20类文件中每个词的卡方值,按降序进行排列,根据每类文件特征词卡方值的分布情况手动设定阈值,将高于阈值的各类文件特征词合在一起,去重后得到本卷宗语料集的类别特征词典Dc。
基于以上定义,计算卷宗语料集中每个文件的表示向量,记卷宗语料集为Cd:{d1,d2,…,dj,…,dN},每个文件对应的类别标签为{c1,c2,…,cj,…,cN},相应的Doc2vec文件特征向量为文件的多维度语义表示/>如下获取:
tfidfi,j=tfi,j*idfi (14)
其中wi,j表示文件dj中的第i个词,ni,j表示wi,j在dj中出现的次数,本文从dj中选出存在于特征词典Dc中的词,计算tf-idf值,作为权重用于组合特征词向量,获取文本基于词粒度的语义表示,同时还在特征词向量中加入了该词的主题信息。
如图2所示,所述基于KOS-ELM的案卷文本分类及在线优化方法,包括ELM算法、KELM以及基于递归最小乘的在线序列优化模型,所述ELM算法,首先给定训练集X={(xi,ti)|(xi∈Rn,ti∈Rm,i=1,2,…,N)},其中xi为样本输入向量,ti为样本标签,N为样本数,则包含L个隐层神经元的ELM数学模型为
其中h(x)=[h1(x),…hL(x)]T为隐层的输出向量,也称为ELM特征向量;β=[β1(x),…βL(x)]T为输出权重矩阵,即待计算的量。与传统SLFNs不同,ELM的隐层激活函数中无可调参数,由随机初始化生成,因此算法是学习最优权重β的过程,该过程可表示为一个约束优化问题。
s.t.hT(xi)β=ti-ζi,i=1,…,N
其中ζi=[ζi1,…ζim]T是样本xi的训练误差向量,C是正则化参数,根据KKT最优化条件解得:
其中,H=[h(x1),…,h(xN)]为隐层映射矩阵,T=[t1,…,tn]T为目标值矩阵。
所述KELM根据核函数理论,核函数可将数据隐式映射到高维特征空间,近而实现样本在高维空间中线性可分,同时还解决了ELM随机初始化的问题。应用Mercer’s条件定义ELM的核矩阵为:Ω=HHT,其中Ωi,j=h(xi)·h(xj)=K(xi,xj)。
则KELM的预测输出函数可表示为:
从上式可看出,确定核函数后,则无需知道特征映射h(x),也无需给出特征空间的维数L(隐层神经元数量)。在本文中,选择高斯核函数作为ELM的核函数,将样本从原始输入空间映射到无限维空间。
K(xi,xj)=exp(-γ||xi-xj||2) (22)
γ为核函数参数,γ>0,根据(21)式调整KELM的输出权重矩阵为:
即:
f(x)=[K(x,x1),…,K(x,xN)]Tα (25)。
所述基于递归最小二乘的在线序列优化模型,KELM算法可以快速学习分类预测模型参数,但其性能受限于训练样本的数量和特征质量,在线序列核极限学习机(KOS-ELM)是通过RLS逐渐增加新样本来更新模型参数,进而优化模型预测精准度。
首先采用离线方式计算得到KELM输出权重矩阵,设模型的特征映射矩阵为H0,则KELM的核函数矩阵为Ω0=H0H0 T;输出目标矩阵为T0;待求的输出权重矩阵为α0,根据以上设定,式(21)可改写为多元线性拟合问题求解的形式:
Ω0·α0=T0 (22)
当输入的特征矩阵无法确保为可逆方阵时,该问题通常转为基于广义逆求解范数最小二乘解,根据Moore-Penrose广义逆的计算得到解的形式为:
在迭代优化阶段,每次增加一批新样本,基于递推最小二乘算法(RLS)对α0进行序列迭代。设新增样本在高维特征空间中表示为(wi,ti),其中wi=h(xi)HT,ti为观测值。设第k次迭代增加样本集表示为(Wk,Tk),其中的样本数量可按需定义。根据式(23)递推式可写为
设带入式(24)中计算可得到一般化表达:
经过上述计算实现了使用一批新样本对模型参数的更新,其中对的计算可以采用sherman-Morrison-Woodbury公式进行改写。设/> 则有:
经过改写,大矩阵求逆转换为小矩阵求逆,转换矩阵大小等于新增样本数,可按需调整。为了提高计算效率应避免求逆运算,可以每次仅使用一个样本wk+1进行迭代,则上式中成为标量,求逆运算成为求倒数,式(25)可写为:
以上过程实现了新增样本对KELM模型参数的序列迭代,若每次使用一条新样本,则整个优化迭代过程中不存在矩阵求逆运算,保证了在线计算效率。
综上所述,借助于本发明的上述技术方案,通过基于人工标注的卷宗语料集,提出多维度语义表示方法获取卷宗文件特征向量,该方法基于卡方检验构建特征词典,可筛选出对分类具有重要作用的词;计算tf-idf值可作为特征词对文本语义的贡献权重;训练LDA模型,在文本表示中加入案由信息,这些更精准的信息补充到基于Doc2vec的文本表示中,得到了更全面的文本特征信息。然后通过使用基于高斯核函数的KELM离线学习案卷文本分类器,这种基于ELM的方法具有更好的多分类表现,可以在很少的训练时间内获取更高的正确率,其中KELM的训练时间是BP算法的1/6,是LSSVM的1/10,另外,与ELM相比,高斯核函数将样本从原始输入空间映射到无限维特征空间,同时不再受随机初始化的影响,在实验中得到了最好的文本多分类效果。最后通过使用基于RLS的在线序列优化模型KOS-ELM对当前案卷文本分类器进行在线优化,经过迭代更新,模型分类正确率得到了逐步优化,每次迭代使用的样本越多,优化效果越明显,而且模型优化的趋势越平稳,但每次迭代花费时间越长,反之,优化过程中模型性能波动越大,但计算时间越短。如图3所示,通过对比实验证明,以上方法无论在文本分类性能上还是在训练效率上,都具有明显优势,并且使分类模型具有在线快速自学习的能力。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种在线自学习的法院电子卷宗文本分类方法,其特征在于,包括以下步骤:
S1:采集文本数据,从案卷中选取常见案件卷宗,从所述案件卷宗中选取文本文件进行人工标注作为卷宗语料集,从网上采集裁判文书作为法律文书语料集;
S2:基于所采集的法律文书语料集,采用Word2vec的Skip-gram模型,训练得到司法领域词向量模型,向量维度为300维;
S3:基于所采集的卷宗语料集,采用Doc2vec的PV-DM模型进行训练,得到文件特征向量,向量维度为300维;
S4:基于所采集的卷宗语料集,进行训练LDA模型;首先构建基于词的主题模型,基于LDA对文件主题和词的概率分布的设定得到联合概率关系式其中:K为主题数;M为卷宗语料集中的文件数;N为文件中的词数,W表示文件中词的概率分布,Z、θ及φ代表三种分布的中间隐含变量,α、β是需要确定的Dirichlet分布超参数;采用算法得到卷宗文件主题的概率分布θ和主题中词的概率分布φ,从而确定一个K*V矩阵,所述矩阵中每一列作为对应词的主题信息向量,其中V表示卷宗语料集的词典长度;
S5:使用训练好的Skip-gram模型、PV-DM模型、LDA模型获取卷宗文件特征向量;
S6:在应用系统中集成基于高斯核函数的KELM离线学习案卷文本分类器;
S7:系统在线使用过程,采集用户修正后的文件作为新标注样本,利用基于RLS的在线序列优化模型KOS-ELM对当前案卷文本分类器进行在线优化;
S7的具体步骤如下:
S71 ELM算法采用离线方式计算得到KELM输出权重矩阵;当输入的特征矩阵无法确保为可逆方阵时,转为基于广义逆求解范数最小二乘解;
S72在迭代优化阶段,每次增加一批新样本,基于递推最小二乘算法对输出权重矩阵进行序列迭代,同时采用sherman-Morrison-Woodbury公式进行改写;
S73经过改写,每次仅使用一个样本进行迭代,求逆运算成为求倒数。
2.根据权利要求1所述的一种在线自学习的法院电子卷宗文本分类方法,其特征在于,基于所述高斯核函数的KELM对(C,Y)是敏感,其中C为正则化参数,Y高斯核函数参数;通过多种组合参数的对比实验,确定合适的参数值;基于少量样本对模型进行训练。
3.根据权利要求1所述的一种在线自学习的法院电子卷宗文本分类方法,其特征在于,所述步骤S5通过采用卡方检验构建类别特征词典,语料集经过预处理后,对文本进行计算出词语类型的卡方值:
并按降序排列,再根据文件特征词卡方值的分布情况设定阈值,得到本卷重语料集的类别特征词典Dc,计算tf-idf值可作为特征词对文本语义的贡献权重,在特征词表示向量中加入LDA主题模型提供的案由信息,结合基于Doc2vec的文本表示,得到文本的多维度语义特征信息;其中,卡方值公式中c为类别标签,w为c类文本语料中出现的词,N为卷宗语料集文件总数;A为包含w且属于c类别的文件数,B为包含w但不属于c类别的文件数;C为不包含w却属于c类别的文件数;D为不包含w也不属于c类别的文件数。
4.根据权利要求1所述的一种在线自学习的法院电子卷宗文本分类方法,其特征在于,所述的ELM算法是通过随机初始化输入权重和偏置,根据KKT优化理论,通过一次计算获取输出权重的全局最优解。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110188680.4A CN112836051B (zh) | 2021-02-19 | 2021-02-19 | 一种在线自学习的法院电子卷宗文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110188680.4A CN112836051B (zh) | 2021-02-19 | 2021-02-19 | 一种在线自学习的法院电子卷宗文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112836051A CN112836051A (zh) | 2021-05-25 |
CN112836051B true CN112836051B (zh) | 2024-03-26 |
Family
ID=75933735
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110188680.4A Active CN112836051B (zh) | 2021-02-19 | 2021-02-19 | 一种在线自学习的法院电子卷宗文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112836051B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113487194B (zh) * | 2021-07-12 | 2023-11-07 | 贵州电网有限责任公司 | 一种基于文本分类的电力系统调度员等级评估系统 |
CN114153952A (zh) * | 2021-12-22 | 2022-03-08 | 南京智浩软件科技有限公司 | 一种面试考官管理系统及评分质量监测分析方法 |
CN116991984B (zh) * | 2023-09-27 | 2024-01-12 | 人民法院信息技术服务中心 | 广域协同与体系知识增强的电子卷宗材料处理方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012146003A (ja) * | 2011-01-07 | 2012-08-02 | Nippon Telegr & Teleph Corp <Ntt> | データ抽出装置、データ抽出方法、及びプログラム |
CN106096004A (zh) * | 2016-06-23 | 2016-11-09 | 北京工业大学 | 一种建立大规模跨领域文本情感倾向性分析框架的方法 |
KR20170034206A (ko) * | 2015-09-18 | 2017-03-28 | 아주대학교산학협력단 | 크로스 미디어 분석에 기반한 소셜 미디어 텍스트의 주제 카테고리 자동 분류 방법 및 그 장치 |
CN107451278A (zh) * | 2017-08-07 | 2017-12-08 | 北京工业大学 | 基于多隐层极限学习机的中文文本分类方法 |
CN108647325A (zh) * | 2018-05-11 | 2018-10-12 | 吉林大学 | 一种可避免过拟合的文本分类系统 |
WO2019080863A1 (zh) * | 2017-10-26 | 2019-05-02 | 福建亿榕信息技术有限公司 | 文本情感分类方法、存储介质及计算机 |
KR20190072823A (ko) * | 2017-12-18 | 2019-06-26 | 한국과학기술원 | Rnn 문장임베딩과 elm 알고리즘을 이용한 은행업무 관련 고객상담을 위한 도메인 특화 화행분류 방법 |
WO2019153551A1 (zh) * | 2018-02-12 | 2019-08-15 | 平安科技(深圳)有限公司 | 文章分类方法、装置、计算机设备及存储介质 |
CN111985247A (zh) * | 2020-08-31 | 2020-11-24 | 华侨大学 | 一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统 |
-
2021
- 2021-02-19 CN CN202110188680.4A patent/CN112836051B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012146003A (ja) * | 2011-01-07 | 2012-08-02 | Nippon Telegr & Teleph Corp <Ntt> | データ抽出装置、データ抽出方法、及びプログラム |
KR20170034206A (ko) * | 2015-09-18 | 2017-03-28 | 아주대학교산학협력단 | 크로스 미디어 분석에 기반한 소셜 미디어 텍스트의 주제 카테고리 자동 분류 방법 및 그 장치 |
CN106096004A (zh) * | 2016-06-23 | 2016-11-09 | 北京工业大学 | 一种建立大规模跨领域文本情感倾向性分析框架的方法 |
CN107451278A (zh) * | 2017-08-07 | 2017-12-08 | 北京工业大学 | 基于多隐层极限学习机的中文文本分类方法 |
WO2019080863A1 (zh) * | 2017-10-26 | 2019-05-02 | 福建亿榕信息技术有限公司 | 文本情感分类方法、存储介质及计算机 |
KR20190072823A (ko) * | 2017-12-18 | 2019-06-26 | 한국과학기술원 | Rnn 문장임베딩과 elm 알고리즘을 이용한 은행업무 관련 고객상담을 위한 도메인 특화 화행분류 방법 |
WO2019153551A1 (zh) * | 2018-02-12 | 2019-08-15 | 平安科技(深圳)有限公司 | 文章分类方法、装置、计算机设备及存储介质 |
CN108647325A (zh) * | 2018-05-11 | 2018-10-12 | 吉林大学 | 一种可避免过拟合的文本分类系统 |
CN111985247A (zh) * | 2020-08-31 | 2020-11-24 | 华侨大学 | 一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统 |
Non-Patent Citations (4)
Title |
---|
基于WLabeled-LDA 模型的文本分类研究;卜天然;长春师范大学学报;第36卷(第4期);第6-12页 * |
基于三支决策的中文文本分类算法研究;靳义林;胡峰;南京大学学报(自然科学)(第04期);第136-145页 * |
基于极限学习机的中文文本分类方法;程东生等;重庆理工大学学报(自然科学);第32卷(第8期);第156-164页 * |
基于核的在线序列极端学习机的理论与算法;杨乐;中国优秀硕士学位论文全文数据库 (信息科技辑);摘要、正文第12-28页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112836051A (zh) | 2021-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zulqarnain et al. | Efficient processing of GRU based on word embedding for text classification | |
Du et al. | Text classification research with attention-based recurrent neural networks | |
CN107992597B (zh) | 一种面向电网故障案例的文本结构化方法 | |
CN111966917B (zh) | 一种基于预训练语言模型的事件检测与摘要方法 | |
CN112836051B (zh) | 一种在线自学习的法院电子卷宗文本分类方法 | |
Zhang et al. | Combining convolution neural network and bidirectional gated recurrent unit for sentence semantic classification | |
Gui et al. | Embedding learning with events in heterogeneous information networks | |
Mohammadi et al. | Ensemble deep learning for aspect-based sentiment analysis | |
Peng et al. | Radical-based hierarchical embeddings for Chinese sentiment analysis at sentence level | |
Wahid et al. | Topic2Labels: A framework to annotate and classify the social media data through LDA topics and deep learning models for crisis response | |
CN110162771B (zh) | 事件触发词的识别方法、装置、电子设备 | |
Zhang et al. | Deep autoencoding topic model with scalable hybrid Bayesian inference | |
Wu et al. | Sentiment classification using attention mechanism and bidirectional long short-term memory network | |
CN111274790A (zh) | 基于句法依存图的篇章级事件嵌入方法及装置 | |
CN114925205B (zh) | 基于对比学习的gcn-gru文本分类方法 | |
Liu et al. | Application of entity relation extraction method under CRF and syntax analysis tree in the construction of military equipment knowledge graph | |
Sun et al. | Multi-channel CNN based inner-attention for compound sentence relation classification | |
Cao et al. | Stacked residual recurrent neural network with word weight for text classification | |
CN115859980A (zh) | 一种半监督式命名实体识别方法、系统及电子设备 | |
Naqvi et al. | Roman Urdu news headline classification empowered with machine learning | |
Mankolli et al. | Machine learning and natural language processing: Review of models and optimization problems | |
Song et al. | Sparse multi-modal topical coding for image annotation | |
Novotný et al. | Text classification with word embedding regularization and soft similarity measure | |
Luo et al. | Recurrent neural networks with mixed hierarchical structures for natural language processing | |
Yan et al. | A deep active learning-based and crowdsourcing-assisted solution for named entity recognition in Chinese historical corpora |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |