CN111709231B - 一种基于自注意变分自编码的类案推荐方法 - Google Patents
一种基于自注意变分自编码的类案推荐方法 Download PDFInfo
- Publication number
- CN111709231B CN111709231B CN202010366669.8A CN202010366669A CN111709231B CN 111709231 B CN111709231 B CN 111709231B CN 202010366669 A CN202010366669 A CN 202010366669A CN 111709231 B CN111709231 B CN 111709231B
- Authority
- CN
- China
- Prior art keywords
- self
- case
- text
- vector
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 239000013598 vector Substances 0.000 claims abstract description 74
- 230000004927 fusion Effects 0.000 claims abstract description 8
- 230000011218 segmentation Effects 0.000 claims abstract description 5
- 238000000605 extraction Methods 0.000 claims description 6
- 238000012512 characterization method Methods 0.000 abstract description 6
- 238000010276 construction Methods 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 206010063385 Intellectualisation Diseases 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Probability & Statistics with Applications (AREA)
- Technology Law (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于自注意变分自编码的类案推荐方法,属于自然语言处理技术领域。本发明包括步骤:对案件文本进行分词、构建词表和隐去案件类型的预处理;获取案件文本的词频统计特征;使用自注意力机制得到案件文本的上下文特征;构建基于自注意机制的变分自编码模型,融合文本的词频统计特征和上下文特征,得到案件的融合特征向量;使用融合特征向量的期望作为案件文本的表征向量,再使用这个向量计算与其他向量的相似性从而实现类案推荐。本发明利用变分自编码融合统计特征和特征信息,挖掘文本的潜在特征,很好表征了案件文本,从而实现类案推荐。
Description
技术领域
本发明涉及一种基于自注意变分自编码的类案推荐方法,属于自然语言处理技术领域。
背景技术
随着技术的发展和科技的进步,司法领域的智能化成为热点研究方向。智能类案推荐在司法智能化中扮演者重要角色,类案推荐是针对一个目标案件推荐与其相似的案件,其对案件检索、案件比对和案件相关性分析等都有很大的帮助,方便的法律工作者快速的查找出案件类似案件。类案推荐实现可转化文文本的相似度计算问题,其关键在于如何更有效的提取案件文本的特征。对于案件文本来说,案件文本通常是描述相关内容,其描述通常具有一定的特性,主要表现为结构固定、用语固定,文本长短差异大等特点。其一,案件文本中对罪名的陈述部分都要遵循固定的格式,其结构相对固定;其二,对案件文本中的事件描述具有一定的规范性,具有固定用词方式,案件文本需要做到表意精确,解释单一,因此案件文本中的叙事部分用词普遍单一,用词重复多。其三,由于各个案件的叙事过程和证据掌握程度都不同,各个案件文本的篇幅长短也有很大的差别。为解决以上问题本方法考虑融合文本的统计特征和上下文特征,借助了变分自编码挖掘隐含特征,并使用每个文档的变分向量计算出案件文本间的距离,选出与目标文本的变分向量距离最近的向量以实现类案推荐。
发明内容
为了解决上述存在的问题,本发明提供了一种基于自注意变分自编码的类案推荐方法,实现了司法领域的类案推荐,本发明在类案推荐任务上取得了较好的效果。
本发明的技术方案是:一种基于自注意变分自编码的类案推荐方法,所述方法的具体步骤如下:
Step1、对案件文本进行分词、构建词表和隐去案件类型的预处理;
其中,可以从裁判文书网获取法律文书当作案件文本,选取10类案件作为类案推荐数据集,对案件文本进行分词、构建词表、隐去案件文本中的罪名和适用法律条文等与案件类别有直接关系的信息;
Step2、获取案件文本的词频统计特征:首先使用词袋模型将文本进行编码得到案件文本的词频信息,然后使用MLP网络提取出词频信息中的词频统计特征hi。其过程可描述为:
ci=fbow(Xi)
hi=MLP(ci)
其中fbow(·)为词袋模型,hi为包含统计特征的向量,Xi表示案件文本。
其过程可描述为:
XiWem=Ei
Q,K,V=MLPq(Ei),MLPk(Ei),MLPv(Ei)
Step4、构建基于自注意机制的变分自编码模型,融合文本的词频统计特征和上下文特征,得到案件的融合特征向量;
Step5、使用融合特征向量的期望作为案件文本的表征向量,再使用这个向量计算与其他向量的相似性从而实现类案推荐。可描述为:
μi=MLPμ([H])
score=fcross(μt,μi)
其中μt为其他案件的向量,fcross为余弦距离,分数越高则两个案件越相似。
进一步地,所述步骤Step4中,使用统计特征和上下文特征共同表征案件文本,将统计特征和上下文特征融合使用MLP网络拟合出融合特征的期望和方差,最后使用重参数技巧使特征向量z服从正态分布z=MLPμ(H)+MLPσ(H)*ε其中ε~N(0,I)。
进一步地,所述步骤Step4中,变分自编码模型的编码器输入为文本的词频统计特征和上下文特征,解码器输出的重构特征为文本的词频特征。
进一步地,所述步骤Step4构建基于自注意机制的变分自编码模型的具体步骤如下:
Step4.1、使用词袋模型和MLP网络获取文本词频特征hi:hi=bow(Xi),其中hi为包含统计特征的向量,Xi表示案件文本,bow统计特征获取模型;
包含上下文特征的向量,Xi表示案件文本,selfattention为自注意力机制;
Step4.3、根据变分自编码的特点构建变分自编码模型,模型编码器为:
μi=MLPμ(Hi)
σi=MLPσ(Hi)
zi=μi+σi∈i
其中MLPμ为均值提取层,MLPσ为方差提取层,μi为Hi的均值向量,σi为Hi的方差向量,zi为隐含向量,∈i为一个采样自正太分布的向量;
模型解码器为:
βi=softmax(zi)
损失函数定义为:
本发明的有益效果是:
1、本发明针对案件文本结构相似用词重复的特点,使用自注意机制获取文本的上下特征;
2、本发明针对案件文本长短不一的特点,上下文特征不能很好的覆盖整篇文本,使用词袋模型获取文本的统计特征,解决了上下文特征表征不全的问题;
3、本发明利用变分自编码融合统计特征和特征信息,挖掘文本的潜在特征,很好表征了案件文本,从而实现类案推荐。
附图说明
图1为本发明中的流程图;
图2为本发明提出的基于自注意变分自编码的类案推荐模型。
具体实施方式
实施例1:如图1-2所示,一种基于自注意变分自编码的类案推荐方法,所述方法的具体步骤如下:
a1、案件文本的收集:对案件文本进行分词、构建词表和隐去案件类型的预处理;
其中,本发明构建了20126个案件文本,数据来源于裁判文书网,将案件文本中的罪名条目去除,共10类型的刑事案件包括故意杀人、非法经营等。每个案件文本都对应一个案件类型,少数案件文本对应多个案件条目,从中选一个作为改案件文本的案件条目,案件文本中罪名和适用法律条例已被隐去;
a2、案件文本预处理:本文从20126个案件文本数据集上选取词频大于3的词去除停用词构建了35281词表;
a3、获取案件文本的词频统计特征:首先使用词袋模型将文本进行编码得到案件文本的词频信息,然后使用MLP网络提取出词频信息中的词频统计特征hi,隐藏层维度为256维,激活函数使用Relu;其过程可描述为:
ci=fbow(Xi)
hi=MLP(ci)
其中fbow(·)为词袋模型,hi为包含统计特征的向量,Xi表示案件文本。
a4、使用自注意力机制得到案件文本的上下文特征:首先使用词嵌入将案件文本嵌入向量,嵌入向量的维度为256维,获取案件文本的词嵌入特征和位置信息,再利用自注意机制从词嵌入特征和位置信息中提取出案件文本的上下文特征隐藏层维度为256,注意力头个数为8,激活函数使用Relu;
其过程可描述为:
XiWem=Ei
Q,K,V=MLPq(Ei),MLPk(Ei),MLPv(Ei)
a5、构建基于自注意机制的变分自编码模型,融合文本的词频统计特征和上下文特征,得到案件的融合特征向量;
进一步地,所述步骤a5中,使用统计特征和上下文特征共同表征案件文本,将统计特征和上下文特征融合使用MLP网络拟合出融合特征的期望和方差,最后使用重参数技巧使特征向量z服从正态分布z=MLPμ(H)+MLPσ(H)*ε其中ε~N(0,I)。
进一步地,所述步骤a5中,变分自编码模型的编码器输入为文本的词频统计特征和上下文特征,解码器输出的重构特征为文本的词频特征。
进一步地,所述步骤a5构建基于自注意机制的变分自编码模型的具体步骤如下:
Step5.1、使用词袋模型和MLP网络获取文本词频特征hi:hi=bow(Xi),其中hi为包含统计特征的向量,Xi表示案件文本,bow统计特征获取模型;
包含上下文特征的向量,Xi表示案件文本,selfattention为自注意力机制;
Step5.3、根据变分自编码的特点构建变分自编码模型,模型编码器为:
μi=MLPμ(Hi)
σi=MLPσ(Hi)
zi=μi+σi∈i
其中MLPμ为均值提取层,MLPσ为方差提取层,μi为Hi的均值向量,σi为Hi的方差向量,zi为隐含向量,∈i为一个采样自正太分布的向量;
模型解码器为:
βi=softmax(zi)
损失函数定义为:
a6、使用融合特征向量的期望作为案件文本的表征向量,再使用这个向量计算与其他向量的相似性从而实现类案推荐。可描述为:
μi=MLPμ([H])
score=fcross(μt,μi)
其中μt为其他案件的向量,fcross为余弦距离,分数越高则两个案件越相似。
类案推荐的评价标准:对于A类的每个案件文本都将其编码为向量z,A类案件共有N个,计算这个案件的编码向量与其他所有的编码向量的余弦相似度,选出K个与这个案件最相似的案件。其中M表示这K个案件中属于A类的案件,于是对于所有的A类的案件则有:
SA就是A类案件的同类准确率。K取不同值可检测不同的区间精确度。
为了验证案件文本表征向量在嵌入空间中表征质量,本文进行了案件表征的准确率实验,表1分别使用一系列模型将案件文本编码为嵌入向量,然后使用上文所提出的评测方法得出每类案件的准确度K取各类案件的总数,保证覆盖所有的案例;其中,BOW为使用词袋模型对案件文本进行表征,TF-IDF为使用词频逆文档频率对案件文本进行编码,BERT(DIRECTLY)是直接使用BERT对案件文本进行编码,BERT+MLM为使用BERT在案件文本上进行MLM任务微调后再对案件文本进行编码,VAE+BOW为使用变分自编码对案件文本的词频统计特征进行编码,VAE+BOW+ATT为本发明方法。
表1类案推荐准确率表
分析表1可知,从实验可以看出无论是单从统计信息或是单从内容信息都无法完整的表征案件文本的信息。本文提出的方法同时考虑了案件文本的统计特征和内容特征,在大多数案件上都获得了较好的效果。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (5)
1.一种基于自注意变分自编码的类案推荐方法,其特征在于:所述方法的具体步骤如下:
Step1、对案件文本进行分词、构建词表和隐去案件类型的预处理;
Step2、获取案件文本的词频统计特征;
Step3、使用自注意力机制得到案件文本的上下文特征;
Step4、构建基于自注意机制的变分自编码模型,融合文本的词频统计特征和上下文特征,得到案件的融合特征向量;
Step5、使用融合特征向量的期望作为案件文本的表征向量,再使用这个向量计算与其他向量的相似性从而实现类案推荐;
所述步骤Step4构建基于自注意机制的变分自编码模型的具体步骤如下:
Step4.1、使用词袋模型和MLP网络获取文本词频特征hi:hi=bow(Xi),其中hi为包含统计特征的向量,Xi表示案件文本,bow为统计特征获取模型;
Step4.3、根据变分自编码的特点构建变分自编码模型,模型编码器为:
μi=MLPμ(Hi)
σi=MLPσ(Hi)
zi=μi+σi∈i
其中MLPμ为均值提取层,MLPσ为方差提取层,μi为Hi的均值向量,σi为Hi的方差向量,zi为隐含向量,∈i为一个采样自正太分布的向量;
模型解码器为:
βi=softmax(zi)
损失函数定义为:
2.根据权利要求1所述的基于自注意变分自编码的类案推荐方法,其特征在于:所述步骤Step2中,首先使用词袋模型得到案件文本的词频信息,然后使用MLP网络提取出词频信息中的词频统计特征hi。
5.根据权利要求1所述的基于自注意变分自编码的类案推荐方法,其特征在于:所述步骤Step4中,变分自编码模型的编码器输入为文本的词频统计特征和上下文特征,解码器输出的重构特征为文本的词频特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010366669.8A CN111709231B (zh) | 2020-04-30 | 2020-04-30 | 一种基于自注意变分自编码的类案推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010366669.8A CN111709231B (zh) | 2020-04-30 | 2020-04-30 | 一种基于自注意变分自编码的类案推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111709231A CN111709231A (zh) | 2020-09-25 |
CN111709231B true CN111709231B (zh) | 2022-11-18 |
Family
ID=72536563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010366669.8A Active CN111709231B (zh) | 2020-04-30 | 2020-04-30 | 一种基于自注意变分自编码的类案推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111709231B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113032558B (zh) * | 2021-03-11 | 2023-08-29 | 昆明理工大学 | 融合维基知识的变分半监督百度百科分类方法 |
CN113076467A (zh) * | 2021-03-26 | 2021-07-06 | 昆明理工大学 | 基于跨语言神经主题模型的汉越新闻话题发现方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108647226A (zh) * | 2018-03-26 | 2018-10-12 | 浙江大学 | 一种基于变分自动编码器的混合推荐方法 |
CN108984524A (zh) * | 2018-07-05 | 2018-12-11 | 北京理工大学 | 一种基于变分神经网络主题模型的标题生成方法 |
CN110287583A (zh) * | 2019-06-21 | 2019-09-27 | 上海交通大学 | 基于循环神经网络的工业设备剩余寿命预测方法 |
CN110442684A (zh) * | 2019-08-14 | 2019-11-12 | 山东大学 | 一种基于文本内容的类案推荐方法 |
CN110717332A (zh) * | 2019-07-26 | 2020-01-21 | 昆明理工大学 | 基于非对称孪生网络的新闻与案件相似度计算方法 |
CN110991190A (zh) * | 2019-11-29 | 2020-04-10 | 华中科技大学 | 文档主题增强的自注意力网络、文本情绪预测系统和方法 |
-
2020
- 2020-04-30 CN CN202010366669.8A patent/CN111709231B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108647226A (zh) * | 2018-03-26 | 2018-10-12 | 浙江大学 | 一种基于变分自动编码器的混合推荐方法 |
CN108984524A (zh) * | 2018-07-05 | 2018-12-11 | 北京理工大学 | 一种基于变分神经网络主题模型的标题生成方法 |
CN110287583A (zh) * | 2019-06-21 | 2019-09-27 | 上海交通大学 | 基于循环神经网络的工业设备剩余寿命预测方法 |
CN110717332A (zh) * | 2019-07-26 | 2020-01-21 | 昆明理工大学 | 基于非对称孪生网络的新闻与案件相似度计算方法 |
CN110442684A (zh) * | 2019-08-14 | 2019-11-12 | 山东大学 | 一种基于文本内容的类案推荐方法 |
CN110991190A (zh) * | 2019-11-29 | 2020-04-10 | 华中科技大学 | 文档主题增强的自注意力网络、文本情绪预测系统和方法 |
Non-Patent Citations (1)
Title |
---|
Case2vec: joint variational autoencoder for case text embedding representation;Ran Song;《International Journal of Machine Learning and Cybernetics》;20210707;2517–2528 * |
Also Published As
Publication number | Publication date |
---|---|
CN111709231A (zh) | 2020-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110532542B (zh) | 一种基于正例与未标注学习的发票虚开识别方法及系统 | |
CN107832663B (zh) | 一种基于量子理论的多模态情感分析方法 | |
CN110728541B (zh) | 信息流媒体广告创意推荐方法及装置 | |
CN112732916B (zh) | 一种基于bert的多特征融合模糊文本分类系统 | |
CN102693299B (zh) | 一种并行视频拷贝检测系统和方法 | |
CN110442723A (zh) | 一种基于多步判别的Co-Attention模型用于多标签文本分类的方法 | |
CN111026869A (zh) | 一种利用基于多层注意力的序列生成网络进行多罪名预测的方法 | |
CN111709231B (zh) | 一种基于自注意变分自编码的类案推荐方法 | |
CN112257441B (zh) | 一种基于反事实生成的命名实体识别增强方法 | |
CN113076483A (zh) | 基于案件要素异构图的舆情新闻抽取式摘要方法 | |
CN114706559A (zh) | 一种基于需求识别的软件规模度量方法 | |
CN111723295A (zh) | 一种内容分发方法、装置和存储介质 | |
CN114461890A (zh) | 分层多模态的知识产权搜索引擎方法与系统 | |
CN114443899A (zh) | 视频分类方法、装置、设备及介质 | |
CN114281982B (zh) | 一种多模态融合技术的图书宣传摘要生成方法和系统 | |
CN115952791A (zh) | 基于机器阅读理解的篇章级事件抽取方法、装置、设备及存储介质 | |
CN116680363A (zh) | 一种基于多模态评论数据的情感分析方法 | |
CN115392254A (zh) | 一种基于目标任务可解释性认知预测与判别方法及其系统 | |
CN114861082A (zh) | 一种基于多维度语义表示的攻击性评论检测方法 | |
CN112989830B (zh) | 一种基于多元特征和机器学习的命名实体识别方法 | |
CN112084783B (zh) | 基于民航不文明旅客的实体识别方法及系统 | |
CN116630726B (zh) | 基于多模态的鸟类分类方法及系统 | |
CN115481313A (zh) | 一种基于文本语义挖掘的新闻推荐方法 | |
CN114861601B (zh) | 基于旋转式编码的事件联合抽取方法及存储介质 | |
CN113434698B (zh) | 基于全层级注意力的关系抽取模型建立方法及其应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |