CN114492446A - 法律文书处理方法、装置、电子设备及存储介质 - Google Patents
法律文书处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114492446A CN114492446A CN202210142302.7A CN202210142302A CN114492446A CN 114492446 A CN114492446 A CN 114492446A CN 202210142302 A CN202210142302 A CN 202210142302A CN 114492446 A CN114492446 A CN 114492446A
- Authority
- CN
- China
- Prior art keywords
- word
- legal document
- target
- words
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims description 140
- 238000012545 processing Methods 0.000 claims description 47
- 238000004590 computer program Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 12
- 150000001875 compounds Chemical class 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 11
- 238000012549 training Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000012015 optical character recognition Methods 0.000 description 6
- 238000011176 pooling Methods 0.000 description 6
- 230000003213 activating effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Tourism & Hospitality (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Technology Law (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能技术领域,提供一种法律文书处理方法、装置、电子设备及存储介质,先将待处理法律文书处理为结构化法律文书,便于从结构化法律文书中提取多个目标关键词,从而调用实体识别模型识别多个目标关键词中的实体,接着对结构化法律文书进行分句处理,根据每个语句中的实体生成词汇级别的特征向量并提取结构化法律文书中每个语句的语句级别的特征向量,最后结合词汇级别的特征向量及对应的语句级别的特征向量识别对应语句中的实体之间的关系。本发明能够准确的提取出非结构化的法律文书中的实体并识别出实体之间的关系。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种法律文书处理方法、装置、电子设备及存储介质。
背景技术
审查申请人的司法涉诉情况是信贷审批中重要一环,但法律文书专业性较强,阐述内容较长,逐页阅读会给审批人员带来较大的工作量。部分审批人员从外部渠道查询到的裁判文书是PDF或图片格式,无法使用传统的信息提取手段进行关键信息提取。
如何快速获取法律文书中的关键信息成为急需解决的技术问题。
发明内容
鉴于以上内容,有必要提出一种法律文书处理方法、装置、电子设备及存储介质,基于人工智能技术将非结构化的法律文书进行结构化处理,并从中提取出实体及实体之间的关系。
本发明的第一方面提供一种法律文书处理方法,所述方法包括:
对待处理法律文书进行结构化处理,得到结构化法律文书;
提取所述结构化法律文书中的多个目标关键词,并调用实体识别模型识别所述多个目标关键词中的实体;
对所述结构化法律文书进行分句处理,并根据每个语句中的所述实体生成词汇级别的特征向量;
提取所述结构化法律文书中每个语句的语句级别的特征向量;
根据所述词汇级别的特征向量及对应的所述语句级别的特征向量识别对应语句中的所述实体之间的关系。
根据本发明的一个可选的实施方式,所述提取所述结构化法律文书中的多个目标关键词包括:
对所述结构化法律文书进行分词处理,得到多个词语;
获取每个所述词语的词频;
识别每个所述词语在所述结构化法律文书中的段落位置,并基于所述段落位置为对应的所述词语生成位置权重;
根据所述词频及对应的所述位置权重为每个所述词语生成三元组;
计算每两个所述词语的词语相似度;
根据所述词语相似度更新所述三元组;
计算更新后的三元组中词语的词语逆频率;
根据所述词频及对应的所述词语逆频率从所述更新后的三元组中确定目标关键词。
根据本发明的一个可选的实施方式,所述计算每两个所述词语的词语相似度包括:
将低于预设词频阈值的词频对应的词语进行删除,得到目标词语集;
获取所述目标词语集中每个所述目标词语的词性;
计算具有相同词性的每两个目标词语的词语相似度。
根据本发明的一个可选的实施方式,所述根据所述词语相似度更新所述三元组包括:
获取大于预设词语相似度阈值的词语相似度对应的两个目标词语;
将所述两个目标词语中的词频进行加权,得到加权词频;
保留所述两个目标词语中的任意一个目标词语并删除另一个目标词语;
使用所述加权词频更新所留的目标词语对应的三元组。
根据本发明的一个可选的实施方式,所述计算更新后的三元组中词语的词语逆频率包括:计算所述更新后的三元组中的词语的频数之和,得到频数和值;根据所述频数和值及所述频数计算对应词语的词语逆频率。
根据本发明的一个可选的实施方式,所述根据所述词频及对应的所述词语逆频率从所述更新后的三元组中确定目标关键词包括:根据所述词频及对应的所述词语逆频率及位置权重计算得到词语权重;从所述更新后的三元组中获取大于预设词语权重阈值的词语,作为所述目标关键词。
根据本发明的一个可选的实施方式,在得到所述目标关键词之后,所述方法还包括:
判断所述目标关键词中是否存在组合词;
当所述目标关键词中存在组合词时,删除所述组合词。
根据本发明的一个可选的实施方式,所述根据每个语句中的所述实体生成词汇级别的特征向量包括:
将每个语句中的所述实体按照顺序进行排序,将排序在第一的实体确定为第一实体,将排序在最后的实体确定为第二实体;
获取位于所述第一实体左边的目标关键词的第一词嵌入向量,获取位于所述第二实体右边的目标关键词的第二词嵌入向量;
获取所述第一实体和所述第二实体的上位关键词的第三词嵌入向量;
基于所述第一实体的词嵌入向量、所述第二实体的词嵌入向量、所述第一词嵌入向量、所述第二词嵌入向量及所述第三词嵌入向量生成词汇级别的特征向量。
本发明的第二方面提供一种法律文书处理装置,所述装置包括:
处理模块,用于对待处理法律文书进行结构化处理,得到结构化法律文书;
调用模块,用于提取所述结构化法律文书中的多个目标关键词,并调用实体识别模型识别所述多个目标关键词中的实体;
生成模块,用于对所述结构化法律文书进行分句处理,并根据每个语句中的所述实体生成词汇级别的特征向量;
提取模块,用于提取所述结构化法律文书中每个语句的语句级别的特征向量;
识别模块,用于根据所述词汇级别的特征向量及对应的所述语句级别的特征向量识别对应语句中的所述实体之间的关系。
本发明的第三方面提供一种电子设备,所述电子设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述法律文书处理方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述法律文书处理方法。
综上所述,本发明所述的法律文书处理方法、装置、电子设备及存储介质,先将待处理法律文书处理为结构化法律文书,便于从结构化法律文书中提取多个目标关键词,从而调用实体识别模型识别多个目标关键词中的实体,接着对结构化法律文书进行分句处理,根据每个语句中的实体生成词汇级别的特征向量并提取结构化法律文书中每个语句的语句级别的特征向量,最后结合词汇级别的特征向量及对应的语句级别的特征向量识别对应语句中的实体之间的关系。本发明能够准确的提取出非结构化的法律文书中的实体并识别出实体之间的关系。
附图说明
图1是本发明实施例一提供的法律文书处理方法的流程图。
图2是本发明实施例二提供的法律文书处理装置的结构图。
图3是本发明实施例三提供的电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述在一个可选的实施方式中实施例的目的,不是旨在于限制本发明。
本发明实施例提供的法律文书处理方法由电子设备执行,相应地,法律文书处理装置运行于电子设备中。
实施例一
图1是本发明实施例一提供的法律文书处理方法的流程图。所述法律文书处理方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11,对待处理法律文书进行结构化处理,得到结构化法律文书。
其中,待处理法律文书为非结构化的文书文本,例如,图片格式,PDF格式。
电子设备可以使用光学字符识别(Optical Character Recognition,OCR)技术对非结构化的待处理法律文书进行OCR识别,将图片格式或者PDF格式的待处理法律文书转化为可编辑的字体格式,然后将转换后的字体复制在空文本中,从而得到结构化的法律文书。
S12,提取所述结构化法律文书中的多个目标关键词,并调用实体识别模型识别所述多个目标关键词中的实体。
现有技术中通常使用词频-逆文本频率指数(term frequency–inverse documentfrequency,TF-IDF)提取关键词,TF表示词语在文本中出现的频率,IDF表示文本的逆频率,但由于IDF单纯的认为频率小的词语就越重要,频率大的词语就越无用,因而IDF无法有效的反映词语的重要程度和特征词的分布情况,尤其是在同类语料库中,同类文本的关键词被掩盖无法很好的完成对词语权重的调整。
本实施例,先对TF-IDF算法进行改进,然后基于改进后的TF-IDF算法提取结构化法律文书中的多个目标关键词。在得到多个目标关键词之后,调用预先训练的实体识别模型对每个关键词进行实体识别。其中,实体可以包括:原告、被告、案号、案由、审理时间、标题、判决结果、涉案金额等。实体识别模型的训练过程不为本发明的发明点,在此不再详细阐述。
在一个可选的实施方式中,所述提取所述结构化法律文书中的多个目标关键词包括:
对所述结构化法律文书进行分词处理,得到多个词语;
获取每个所述词语的词频;
识别每个所述词语在所述结构化法律文书中的段落位置,并基于所述段落位置为对应的所述词语生成位置权重;
根据所述词频及对应的所述位置权重为每个所述词语生成三元组;
计算每两个所述词语的词语相似度;
根据所述词语相似度更新所述三元组;
计算更新后的三元组中词语的词语逆频率;
根据所述词频及对应的所述词语逆频率从所述更新后的三元组中确定目标关键词。
电子设备可以使用结巴分词工具对结构化法律文书进行分词处理,通过分词处理之后,得到多个词语,然后计算每个词语在结构化法律文书中的词频TF。
结构化法律文书中不同位置,例如,标题,摘要,正文,结论中的词语对结构化法律文书的贡献程度是各不相同的,标题能够直接反结构化法律文书的主要内容,因此位于标题处的词语的贡献度最大,相比较,位于正文中的词语的贡献度最小。基于此,电子设备预先将位于标题处的词语赋予第一位置权重,将位于摘要处的词语赋予第二权重,将位于结论处的词语赋予第三位置权重,将位于正文处的词语赋予第四权重,其中,第一位置权重>第二位置权重>第三位置权重>第四位置权重。
电子设备基于每个词语的词频及位置权重为每个词语对应生成一个三元组(词语、词频、位置权重)。
考虑到文本中存在像“计算机”和“电脑”类似的同义词或者近义词,在计算词语的词频时,这类同义词或者近义词都是分开处理的,实际上同义词或者近义词是可以集合在一起计算词频的。通过计算词语相似度,对词语对应的三元组进行更新,从而实现相似度较大的词语的合并。将相似度较大的词语进行合并,减少了词语的数量。
在更新三元组之后,计算更新后的三元组中词语的词语逆频率,从而根据词频及对应的词语逆频率从所述更新后的三元组中确定目标关键词。
上述可选的实施方式中,通过将TF-IDF中的文本逆频率更换为词语逆频率,使得计算得到的词语权重更能表达每个词语在结构化法律文书中的重要程度,从而提高了结构化法律文书中目标关键词的提取准确度。
在一个可选的实施方式中,所述计算每两个所述词语的词语相似度包括:
将低于预设词频阈值的词频对应的词语进行删除,得到目标词语集;
获取所述目标词语集中每个所述目标词语的词性;
计算具有相同词性的每两个目标词语的词语相似度。
考虑到词语两两相互计算词语相似度,将产生较大的计算量,在计算过程中消耗过多的时间,从计算效率的角度而言,电子设备可以不计算每两个词语的词语相似度,而是先基于词语的词性和词频有选择性的计算某两个词语的词语相似度。
上述可选的实施方式,在计算两个词语的词语相似度时,由于不同词性对词语相似度的影响度较低,且词频过低的词语对计算结果影响也较低,因而可以将具有相同词性,且词频大于预设词频阈值的两个词语进行词语相似度的计算,从而减少了计算词语相似度的次数,提高了计算词语相似度的效率。
在一个可选的实施方式中,根据所述词语相似度更新所述三元组包括:
获取大于预设词语相似度阈值的词语相似度对应的两个目标词语;
将所述两个目标词语中的词频进行加权,得到加权词频;
保留所述两个目标词语中的任意一个目标词语并删除另一个目标词语;
使用所述加权词频更新所留的目标词语对应的三元组。
示例性的,假设两个目标词语为词语1和词语2,词语1的词频为F1,词语2的词频为F2,则加权词频为F1+F2。由于词语1和词语2的词语相似度大于预设词语相似度阈值,因而可以认为词语1和词语2为同义词或者近义词,在结构化法律文书的上下文中可以相互替换,则可以将词语1和词语2进行合并处理,从而保留词语1和词语2中的任意一个。假设保留的是词语1,删除的是词语2,则更新后的三元组(词语1、词语1的词频+词语2的词频、词语1的位置权重)。
上述可选的实施方式,通过将词语相似度较高的词语进行合并处理,将词语的词频进行叠加,更能够反映出频率较高的词语在结构化法律文书中的重要性,将词频比作为候选关键词去噪音的权值,有效抑制了同类语料库对所提取关键词权重的影响,从而有助于提高关键词的准确度。
在一个可选的实施方式中,所述计算更新后的三元组中词语的词语逆频率包括:
计算所述更新后的三元组中的词语的频数之和,得到频数和值;
根据所述频数和值及所述频数计算对应词语的词语逆频率。
其中,频数和值为所有更新后的三元组中的词语在法律文书语料库中出现的总频数,某个词语的词语逆频率为频数和值与该词语在法律文书语料库中出现的总频数之间的比值并取对数。
上述可选的实施方式,通过计算词语逆频率,降低了语料库中同类文本对词语权重的影响,更加精确的表达了词语在待处理的结构化文书中的重要程度;此外,由于TF-IDF算法计算得到的权重会接近0,而词语逆频率能够解决权值过小的问题。
在一个可选的实施方式中,所述根据所述词频及对应的所述词语逆频率从所述更新后的三元组中确定目标关键词包括:
根据所述词频及对应的所述词语逆频率及位置权重计算得到词语权重;
从所述更新后的三元组中获取大于预设词语权重阈值的词语,作为所述目标关键词。
上述可选的实施方式,将词频、词语逆频率及位置权重这三者进行结合来考虑词语在结构化法律文书中的词语权重,不仅通过位置权重考虑了词语的位置对结构化法律文书的贡献程度,而且通过词语逆频率有效抑制了同类语料库对所提取关键词权重的影响,从而使得提取出的目标关键词更加准确。
在一个可选的实施方式中,在得到所述目标关键词之后,所述方法还包括:
判断所述目标关键词中是否存在组合词;
当所述目标关键词中存在组合词时,删除所述组合词。
其中,组合词是指由至少两个词语组合形成的词语。示例性的,假设目标关键词包括:“健康平安”、“健康”、“平安”,则“健康平安”为“健康”和“平安”组合而成的组合词,此时,可以将目标关键词“健康平安”删除。
上述可选的实施方式,通过去掉组合词,能够避免组合词和组合该组合词的词语形成重复的关键词,如此,能够进一步减少目标关键词的数量,提高实体识别的效率。
S13,对所述结构化法律文书进行分句处理,并根据每个语句中的所述实体生成词汇级别的特征向量。
电子设备可以基于预设的标点符号,例如,句号,感叹号等,对结构化法律文书进行分句处理,得到多个语句。
每个语句可以包括一个或者目标关键词,每个语句中包括的多个目标关键词中可以包括一个或者多个实体。本发明主要是为了输出同一个语句中的多个实体间的实体关系,因此,本文仅对包括多个实体的语句进行处理,具体而言,是根据每个语句中的所述实体生成词汇级别的特征向量。
在一个可选的实施方式中,所述根据每个语句中的所述实体生成词汇级别的特征向量包括:
将每个语句中的所述实体按照顺序进行排序,将排序在第一的实体确定为第一实体,将排序在最后的实体确定为第二实体;
获取位于所述第一实体左边的目标关键词的第一词嵌入向量,获取位于所述第二实体右边的目标关键词的第二词嵌入向量;
获取所述第一实体和所述第二实体的上位关键词的第三词嵌入向量;
基于所述第一实体的词嵌入向量、所述第二实体的词嵌入向量、所述第一词嵌入向量、所述第二词嵌入向量及所述第三词嵌入向量生成词汇级别的特征向量。
其中,上位关键词是指第一实体和第二实体同属于哪一个上位名词。
电子设备可以使用词向量模型来获取目标关键词的词嵌入向量,词嵌入向量是目标关键词的唯一向量表示,词向量模型可以为word2vec。
将第一实体的词嵌入向量、第二实体的词嵌入向量、第一词嵌入向量、第二词嵌入向量及第三词嵌入向量进行拼接,即可得到词汇级别的特征向量。
S14,提取所述结构化法律文书中每个语句的语句级别的特征向量。
语句级别的特征向量可以采用最大池化的卷积神经网络作为主要特征抽取模型,输入词向量信息以及位置向量信息至最大池化的卷积神经网络中,通过最大池化的卷积神经网络输出每个语句的语句级别的特征向量。
第一步,抽取词向量信息,为了能够抽取到每个词完整的上下文信息,在句子首位额外添加了Padding字符,Word Embedding层是预训练得到的,并且参与后续的训练任务。
第二步,抽取位置向量信息,额外增加了时序特征来弥补卷积网络对时序特征抽取能力不足的缺陷。为每个词拼接两个固定维度的位置向量,分别表示词距离两个关键实体的相对位置信息。如“中国的首都是北京”,“的”与“中国”的距离大小为1,与“北京”的距离大小为-3,再将1和-3在Position Embedding层中查表得到,随机初始化PositionEmbedding层,并且参与到模型训练当中。
第三步,将上述的词向量信息与位置向量信息进行拼接,输入到卷积网络中,再用Max Pooling层把每个卷积核的输出进行池化操作。再将池化结果通过一个全连接层,激活函数为tanh,将其看作一个更高层次的特征映射,得到最终的语句级别的特征向量。
S15,根据所述词汇级别的特征向量及对应的所述语句级别的特征向量识别对应语句中的所述实体之间的关系。
将词汇级别的特征向量及对应的所述语句级别的特征向量进行拼接,作为输入向量,最后接入全连接层,并将其送入分类器进行分类,得到实体关系类别。
假设某个语句中包括实体1和实体2,则输出实体1和实体2之间的实体关系类别(实体1,关系,实体2)。示例性的,假如实体1为“张三”,实体2为“10000”,则输出(张三,赔付,10000),又如实体1为“案件”,实体2为“张三”,则输出(案件,原告,张三)。
电子设备得到每个语句中的实体之间的关系后,将实体之间的关系进行结构化展示。
在一个可选的实施方式中,所述方法还包括:
响应于用户的法律文书的搜索请求,向所述用户反馈所述法律文书,并对所述法律文书中的实体之间的关系进行结构化展示。
通过响应于用户的法律文书的搜索请求,向用户结构化展示法律文书中的实体之间的关系,例如,通过高亮显示实体,并通过标签的方式显示实体之间的关系,能够方便用户直观且快速的理解法律文书的内容。
本发明所述的法律文书处理方法,先将待处理法律文书处理为结构化法律文书,便于从结构化法律文书中提取多个目标关键词,从而调用实体识别模型识别多个目标关键词中的实体,接着对结构化法律文书进行分句处理,根据每个语句中的实体生成词汇级别的特征向量并提取结构化法律文书中每个语句的语句级别的特征向量,最后结合词汇级别的特征向量及对应的语句级别的特征向量识别对应语句中的实体之间的关系。本发明能够准确的提取出非结构化的法律文书中的实体并识别出实体之间的关系。
本发明所述的法律文书处理方法,可应用在智慧政务、智慧法律等需要进行法律要素处理的领域,从而推动智慧城市的发展。
实施例二
图2是本发明实施例二提供的法律文书处理装置的结构图。
在一些实施例中,所述法律文书处理装置20可以包括多个由计算机程序段所组成的功能模块。所述法律文书处理装置20中的各个程序段的计算机程序可以存储于电子设备的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)法律文书处理的功能。
本实施例中,所述法律文书处理装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:处理模块201、调用模块202、删除模块203、生成模块204、提取模块205及识别模块206。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述处理模块201,用于对待处理法律文书进行结构化处理,得到结构化法律文书。
其中,待处理法律文书为非结构化的文书文本,例如,图片格式,PDF格式。
电子设备可以使用光学字符识别(Optical Character Recognition,OCR)技术对非结构化的待处理法律文书进行OCR识别,将图片格式或者PDF格式的待处理法律文书转化为可编辑的字体格式,然后将转换后的字体复制在空文本中,从而得到结构化的法律文书。
所述调用模块202,用于提取所述结构化法律文书中的多个目标关键词,并调用实体识别模型识别所述多个目标关键词中的实体。
现有技术中通常使用词频-逆文本频率指数(term frequency–inverse documentfrequency,TF-IDF)提取关键词,TF表示词语在文本中出现的频率,IDF表示文本的逆频率,但由于IDF单纯的认为频率小的词语就越重要,频率大的词语就越无用,因而IDF无法有效的反映词语的重要程度和特征词的分布情况,尤其是在同类语料库中,同类文本的关键词被掩盖无法很好的完成对词语权重的调整。
本实施例,先对TF-IDF算法进行改进,然后基于改进后的TF-IDF算法提取结构化法律文书中的多个目标关键词。在得到多个目标关键词之后,调用预先训练的实体识别模型对每个关键词进行实体识别。其中,实体可以包括:原告、被告、案号、案由、审理时间、标题、判决结果、涉案金额等。实体识别模型的训练过程不为本发明的发明点,在此不再详细阐述。
在一个可选的实施方式中,所述调用模块202提取所述结构化法律文书中的多个目标关键词包括:
对所述结构化法律文书进行分词处理,得到多个词语;
获取每个所述词语的词频;
识别每个所述词语在所述结构化法律文书中的段落位置,并基于所述段落位置为对应的所述词语生成位置权重;
根据所述词频及对应的所述位置权重为每个所述词语生成三元组;
计算每两个所述词语的词语相似度;
根据所述词语相似度更新所述三元组;
计算更新后的三元组中词语的词语逆频率;
根据所述词频及对应的所述词语逆频率从所述更新后的三元组中确定目标关键词。
电子设备可以使用结巴分词工具对结构化法律文书进行分词处理,通过分词处理之后,得到多个词语,然后计算每个词语在结构化法律文书中的词频TF。
结构化法律文书中不同位置,例如,标题,摘要,正文,结论中的词语对结构化法律文书的贡献程度是各不相同的,标题能够直接反结构化法律文书的主要内容,因此位于标题处的词语的贡献度最大,相比较,位于正文中的词语的贡献度最小。基于此,电子设备预先将位于标题处的词语赋予第一位置权重,将位于摘要处的词语赋予第二权重,将位于结论处的词语赋予第三位置权重,将位于正文处的词语赋予第四权重,其中,第一位置权重>第二位置权重>第三位置权重>第四位置权重。
电子设备基于每个词语的词频及位置权重为每个词语对应生成一个三元组(词语、词频、位置权重)。
考虑到文本中存在像“计算机”和“电脑”类似的同义词或者近义词,在计算词语的词频时,这类同义词或者近义词都是分开处理的,实际上同义词或者近义词是可以集合在一起计算词频的。通过计算词语相似度,对词语对应的三元组进行更新,从而实现相似度较大的词语的合并。将相似度较大的词语进行合并,减少了词语的数量。
在更新三元组之后,计算更新后的三元组中词语的词语逆频率,从而根据词频及对应的词语逆频率从所述更新后的三元组中确定目标关键词。
上述可选的实施方式中,通过将TF-IDF中的文本逆频率更换为词语逆频率,使得计算得到的词语权重更能表达每个词语在结构化法律文书中的重要程度,从而提高了结构化法律文书中目标关键词的提取准确度。
在一个可选的实施方式中,所述计算每两个所述词语的词语相似度包括:
将低于预设词频阈值的词频对应的词语进行删除,得到目标词语集;
获取所述目标词语集中每个所述目标词语的词性;
计算具有相同词性的每两个目标词语的词语相似度。
考虑到词语两两相互计算词语相似度,将产生较大的计算量,在计算过程中消耗过多的时间,从计算效率的角度而言,电子设备可以不计算每两个词语的词语相似度,而是先基于词语的词性和词频有选择性的计算某两个词语的词语相似度。
上述可选的实施方式,在计算两个词语的词语相似度时,由于不同词性对词语相似度的影响度较低,且词频过低的词语对计算结果影响也较低,因而可以将具有相同词性,且词频大于预设词频阈值的两个词语进行词语相似度的计算,从而减少了计算词语相似度的次数,提高了计算词语相似度的效率。
在一个可选的实施方式中,根据所述词语相似度更新所述三元组包括:
获取大于预设词语相似度阈值的词语相似度对应的两个目标词语;
将所述两个目标词语中的词频进行加权,得到加权词频;
保留所述两个目标词语中的任意一个目标词语并删除另一个目标词语;
使用所述加权词频更新所留的目标词语对应的三元组。
示例性的,假设两个目标词语为词语1和词语2,词语1的词频为F1,词语2的词频为F2,则加权词频为F1+F2。由于词语1和词语2的词语相似度大于预设词语相似度阈值,因而可以认为词语1和词语2为同义词或者近义词,在结构化法律文书的上下文中可以相互替换,则可以将词语1和词语2进行合并处理,从而保留词语1和词语2中的任意一个。假设保留的是词语1,删除的是词语2,则更新后的三元组(词语1、词语1的词频+词语2的词频、词语1的位置权重)。
上述可选的实施方式,通过将词语相似度较高的词语进行合并处理,将词语的词频进行叠加,更能够反映出频率较高的词语在结构化法律文书中的重要性,将词频比作为候选关键词去噪音的权值,有效抑制了同类语料库对所提取关键词权重的影响,从而有助于提高关键词的准确度。
在一个可选的实施方式中,所述计算更新后的三元组中词语的词语逆频率包括:
计算所述更新后的三元组中的词语的频数之和,得到频数和值;
根据所述频数和值及所述频数计算对应词语的词语逆频率。
其中,频数和值为所有更新后的三元组中的词语在法律文书语料库中出现的总频数,某个词语的词语逆频率为频数和值与该词语在法律文书语料库中出现的总频数之间的比值并取对数。
上述可选的实施方式,通过计算词语逆频率,降低了语料库中同类文本对词语权重的影响,更加精确的表达了词语在待处理的结构化文书中的重要程度;此外,由于TF-IDF算法计算得到的权重会接近0,而词语逆频率能够解决权值过小的问题。
在一个可选的实施方式中,所述根据所述词频及对应的所述词语逆频率从所述更新后的三元组中确定目标关键词包括:
根据所述词频及对应的所述词语逆频率及位置权重计算得到词语权重;
从所述更新后的三元组中获取大于预设词语权重阈值的词语,作为所述目标关键词。
上述可选的实施方式,将词频、词语逆频率及位置权重这三者进行结合来考虑词语在结构化法律文书中的词语权重,不仅通过位置权重考虑了词语的位置对结构化法律文书的贡献程度,而且通过词语逆频率有效抑制了同类语料库对所提取关键词权重的影响,从而使得提取出的目标关键词更加准确。
在一个可选的实施方式中,在得到所述目标关键词之后,所述删除模块203,用于:
判断所述目标关键词中是否存在组合词;
当所述目标关键词中存在组合词时,删除所述组合词。
其中,组合词是指由至少两个词语组合形成的词语。示例性的,假设目标关键词包括:“健康平安”、“健康”、“平安”,则“健康平安”为“健康”和“平安”组合而成的组合词,此时,可以将目标关键词“健康平安”删除。
上述可选的实施方式,通过去掉组合词,能够避免组合词和组合该组合词的词语形成重复的关键词,如此,能够进一步减少目标关键词的数量,提高实体识别的效率。
所述生成模块204,用于对所述结构化法律文书进行分句处理,并根据每个语句中的所述实体生成词汇级别的特征向量。
电子设备可以基于预设的标点符号,例如,句号,感叹号等,对结构化法律文书进行分句处理,得到多个语句。
每个语句可以包括一个或者目标关键词,每个语句中包括的多个目标关键词中可以包括一个或者多个实体。本发明主要是为了输出同一个语句中的多个实体间的实体关系,因此,本文仅对包括多个实体的语句进行处理,具体而言,是根据每个语句中的所述实体生成词汇级别的特征向量。
在一个可选的实施方式中,所述生成模块204根据每个语句中的所述实体生成词汇级别的特征向量包括:
将每个语句中的所述实体按照顺序进行排序,将排序在第一的实体确定为第一实体,将排序在最后的实体确定为第二实体;
获取位于所述第一实体左边的目标关键词的第一词嵌入向量,获取位于所述第二实体右边的目标关键词的第二词嵌入向量;
获取所述第一实体和所述第二实体的上位关键词的第三词嵌入向量;
基于所述第一实体的词嵌入向量、所述第二实体的词嵌入向量、所述第一词嵌入向量、所述第二词嵌入向量及所述第三词嵌入向量生成词汇级别的特征向量。
其中,上位关键词是指第一实体和第二实体同属于哪一个上位名词。
电子设备可以使用词向量模型来获取目标关键词的词嵌入向量,词嵌入向量是目标关键词的唯一向量表示,词向量模型可以为word2vec。
将第一实体的词嵌入向量、第二实体的词嵌入向量、第一词嵌入向量、第二词嵌入向量及第三词嵌入向量进行拼接,即可得到词汇级别的特征向量。
所述提取模块205,用于提取所述结构化法律文书中每个语句的语句级别的特征向量。
语句级别的特征向量可以采用最大池化的卷积神经网络作为主要特征抽取模型,输入词向量信息以及位置向量信息至最大池化的卷积神经网络中,通过最大池化的卷积神经网络输出每个语句的语句级别的特征向量。
第一步,抽取词向量信息,为了能够抽取到每个词完整的上下文信息,在句子首位额外添加了Padding字符,Word Embedding层是预训练得到的,并且参与后续的训练任务。
第二步,抽取位置向量信息,额外增加了时序特征来弥补卷积网络对时序特征抽取能力不足的缺陷。为每个词拼接两个固定维度的位置向量,分别表示词距离两个关键实体的相对位置信息。如“中国的首都是北京”,“的”与“中国”的距离大小为1,与“北京”的距离大小为-3,再将1和-3在Position Embedding层中查表得到,随机初始化PositionEmbedding层,并且参与到模型训练当中。
第三步,将上述的词向量信息与位置向量信息进行拼接,输入到卷积网络中,再用Max Pooling层把每个卷积核的输出进行池化操作。再将池化结果通过一个全连接层,激活函数为tanh,将其看作一个更高层次的特征映射,得到最终的语句级别的特征向量。
所述识别模块206,用于根据所述词汇级别的特征向量及对应的所述语句级别的特征向量识别对应语句中的所述实体之间的关系。
将词汇级别的特征向量及对应的所述语句级别的特征向量进行拼接,作为输入向量,最后接入全连接层,并将其送入分类器进行分类,得到实体关系类别。
假设某个语句中包括实体1和实体2,则输出实体1和实体2之间的实体关系类别(实体1,关系,实体2)。示例性的,假如实体1为“张三”,实体2为“10000”,则输出(张三,赔付,10000),又如实体1为“案件”,实体2为“张三”,则输出(案件,原告,张三)。
电子设备得到每个语句中的实体之间的关系后,将实体之间的关系进行结构化展示。
在一个可选的实施方式中,所述处理模块201,还用于:
响应于用户的法律文书的搜索请求,向所述用户反馈所述法律文书,并对所述法律文书中的实体之间的关系进行结构化展示。
通过响应于用户的法律文书的搜索请求,向用户结构化展示法律文书中的实体之间的关系,例如,通过高亮显示实体,并通过标签的方式显示实体之间的关系,能够方便用户直观且快速的理解法律文书的内容。
本发明所述的法律文书处理装置,先将待处理法律文书处理为结构化法律文书,便于从结构化法律文书中提取多个目标关键词,从而调用实体识别模型识别多个目标关键词中的实体,接着对结构化法律文书进行分句处理,根据每个语句中的实体生成词汇级别的特征向量并提取结构化法律文书中每个语句的语句级别的特征向量,最后结合词汇级别的特征向量及对应的语句级别的特征向量识别对应语句中的实体之间的关系。本发明能够准确的提取出非结构化的法律文书中的实体并识别出实体之间的关系。
本发明所述的法律文书处理装置,可应用在智慧政务、智慧法律等需要进行法律要素处理的领域,从而推动智慧城市的发展。
实施例三
本实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述法律文书处理方法实施例中的步骤,例如图1所示的S11-S15:
S11,对待处理法律文书进行结构化处理,得到结构化法律文书;
S12,提取所述结构化法律文书中的多个目标关键词,并调用实体识别模型识别所述多个目标关键词中的实体;
S13,对所述结构化法律文书进行分句处理,并根据每个语句中的所述实体生成词汇级别的特征向量;
S14,提取所述结构化法律文书中每个语句的语句级别的特征向量;
S15,根据所述词汇级别的特征向量及对应的所述语句级别的特征向量识别对应语句中的所述实体之间的关系。
或者,该计算机程序被处理器执行时实现上述装置实施例中各模块/单元的功能,例如图2中的模块201,202,204-206:
所述处理模块201,用于对待处理法律文书进行结构化处理,得到结构化法律文书;
所述调用模块202,用于提取所述结构化法律文书中的多个目标关键词,并调用实体识别模型识别所述多个目标关键词中的实体;
所述生成模块204,用于对所述结构化法律文书进行分句处理,并根据每个语句中的所述实体生成词汇级别的特征向量;
所述提取模块205,用于提取所述结构化法律文书中每个语句的语句级别的特征向量;
所述识别模块206,用于根据所述词汇级别的特征向量及对应的所述语句级别的特征向量识别对应语句中的所述实体之间的关系。
该计算机程序被处理器执行时实现上述装置实施例中的删除模块203,具体请参见实施例二及其相关描述。
实施例四
参阅图3所示,为本发明实施例三提供的电子设备的结构示意图。在本发明较佳实施例中,所述电子设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的电子设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述电子设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述电子设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述电子设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31中存储有计算机程序,所述计算机程序被所述至少一个处理器32执行时实现如所述的法律文书处理方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一些实施例中,所述至少一个处理器32是所述电子设备3的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行电子设备3的各种功能和处理数据。例如,所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本发明实施例中所述的法律文书处理方法的全部或者部分步骤;或者实现法律文书处理装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述电子设备3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。说明书中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种法律文书处理方法,其特征在于,所述方法包括:
对待处理法律文书进行结构化处理,得到结构化法律文书;
提取所述结构化法律文书中的多个目标关键词,并调用实体识别模型识别所述多个目标关键词中的实体;
对所述结构化法律文书进行分句处理,并根据每个语句中的所述实体生成词汇级别的特征向量;
提取所述结构化法律文书中每个语句的语句级别的特征向量;
根据所述词汇级别的特征向量及对应的所述语句级别的特征向量识别对应语句中的所述实体之间的关系。
2.如权利要求1所述的法律文书处理方法,其特征在于,所述提取所述结构化法律文书中的多个目标关键词包括:
对所述结构化法律文书进行分词处理,得到多个词语;
获取每个所述词语的词频;
识别每个所述词语在所述结构化法律文书中的段落位置,并基于所述段落位置为对应的所述词语生成位置权重;
根据所述词频及对应的所述位置权重为每个所述词语生成三元组;
计算每两个所述词语的词语相似度;
根据所述词语相似度更新所述三元组;
计算更新后的三元组中词语的词语逆频率;
根据所述词频及对应的所述词语逆频率从所述更新后的三元组中确定目标关键词。
3.如权利要求2所述的法律文书处理方法,其特征在于,所述计算每两个所述词语的词语相似度包括:
将低于预设词频阈值的词频对应的词语进行删除,得到目标词语集;
获取所述目标词语集中每个所述目标词语的词性;
计算具有相同词性的每两个目标词语的词语相似度。
4.如权利要求3所述的法律文书处理方法,其特征在于,所述根据所述词语相似度更新所述三元组包括:
获取大于预设词语相似度阈值的词语相似度对应的两个目标词语;
将所述两个目标词语中的词频进行加权,得到加权词频;
保留所述两个目标词语中的任意一个目标词语并删除另一个目标词语;
使用所述加权词频更新所留的目标词语对应的三元组。
5.如权利要求4所述的法律文书处理方法,其特征在于,所述计算更新后的三元组中词语的词语逆频率包括:计算所述更新后的三元组中的词语的频数之和,得到频数和值;根据所述频数和值及所述频数计算对应词语的词语逆频率;
所述根据所述词频及对应的所述词语逆频率从所述更新后的三元组中确定目标关键词包括:根据所述词频及对应的所述词语逆频率及位置权重计算得到词语权重;从所述更新后的三元组中获取大于预设词语权重阈值的词语,作为所述目标关键词。
6.如权利要求1至5中任意一项所述的法律文书处理方法,其特征在于,在得到所述目标关键词之后,所述方法还包括:
判断所述目标关键词中是否存在组合词;
当所述目标关键词中存在组合词时,删除所述组合词。
7.如权利要求1至5中任意一项所述的法律文书处理方法,其特征在于,所述根据每个语句中的所述实体生成词汇级别的特征向量包括:
将每个语句中的所述实体按照顺序进行排序,将排序在第一的实体确定为第一实体,将排序在最后的实体确定为第二实体;
获取位于所述第一实体左边的目标关键词的第一词嵌入向量,获取位于所述第二实体右边的目标关键词的第二词嵌入向量;
获取所述第一实体和所述第二实体的上位关键词的第三词嵌入向量;
基于所述第一实体的词嵌入向量、所述第二实体的词嵌入向量、所述第一词嵌入向量、所述第二词嵌入向量及所述第三词嵌入向量生成词汇级别的特征向量。
8.一种法律文书处理装置,其特征在于,所述装置包括:
处理模块,用于对待处理法律文书进行结构化处理,得到结构化法律文书;
调用模块,用于提取所述结构化法律文书中的多个目标关键词,并调用实体识别模型识别所述多个目标关键词中的实体;
生成模块,用于对所述结构化法律文书进行分句处理,并根据每个语句中的所述实体生成词汇级别的特征向量;
提取模块,用于提取所述结构化法律文书中每个语句的语句级别的特征向量;
识别模块,用于根据所述词汇级别的特征向量及对应的所述语句级别的特征向量识别对应语句中的所述实体之间的关系。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述法律文书处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述法律文书处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210142302.7A CN114492446B (zh) | 2022-02-16 | 2022-02-16 | 法律文书处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210142302.7A CN114492446B (zh) | 2022-02-16 | 2022-02-16 | 法律文书处理方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114492446A true CN114492446A (zh) | 2022-05-13 |
CN114492446B CN114492446B (zh) | 2023-06-16 |
Family
ID=81479968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210142302.7A Active CN114492446B (zh) | 2022-02-16 | 2022-02-16 | 法律文书处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114492446B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115545671A (zh) * | 2022-11-02 | 2022-12-30 | 广州明动软件股份有限公司 | 一种法律法规结构化处理的方法、系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000033215A1 (en) * | 1998-11-30 | 2000-06-08 | Justsystem Corporation | Term-length term-frequency method for measuring document similarity and classifying text |
CN108763484A (zh) * | 2018-05-25 | 2018-11-06 | 南京大学 | 一种基于lda主题模型的法条推荐方法 |
CN110889786A (zh) * | 2019-12-02 | 2020-03-17 | 北明软件有限公司 | 一种基于lstm技术的法律诉讼被告人保全用审判服务方法 |
CN110910283A (zh) * | 2019-10-18 | 2020-03-24 | 平安科技(深圳)有限公司 | 生成法律文书的方法、装置、设备和存储介质 |
CN111125368A (zh) * | 2019-12-31 | 2020-05-08 | 重庆百事得大牛机器人有限公司 | 基于目标对象的法律意见书生成方法 |
CN111159383A (zh) * | 2019-12-31 | 2020-05-15 | 重庆百事得大牛机器人有限公司 | 基于目标对象的法律意见书生成系统 |
CN111666752A (zh) * | 2020-04-20 | 2020-09-15 | 中山大学 | 一种基于关键词注意力机制的电路教材实体关系抽取方法 |
CN113743090A (zh) * | 2021-09-08 | 2021-12-03 | 度小满科技(北京)有限公司 | 一种关键词提取方法及装置 |
-
2022
- 2022-02-16 CN CN202210142302.7A patent/CN114492446B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000033215A1 (en) * | 1998-11-30 | 2000-06-08 | Justsystem Corporation | Term-length term-frequency method for measuring document similarity and classifying text |
CN108763484A (zh) * | 2018-05-25 | 2018-11-06 | 南京大学 | 一种基于lda主题模型的法条推荐方法 |
CN110910283A (zh) * | 2019-10-18 | 2020-03-24 | 平安科技(深圳)有限公司 | 生成法律文书的方法、装置、设备和存储介质 |
CN110889786A (zh) * | 2019-12-02 | 2020-03-17 | 北明软件有限公司 | 一种基于lstm技术的法律诉讼被告人保全用审判服务方法 |
CN111125368A (zh) * | 2019-12-31 | 2020-05-08 | 重庆百事得大牛机器人有限公司 | 基于目标对象的法律意见书生成方法 |
CN111159383A (zh) * | 2019-12-31 | 2020-05-15 | 重庆百事得大牛机器人有限公司 | 基于目标对象的法律意见书生成系统 |
CN111666752A (zh) * | 2020-04-20 | 2020-09-15 | 中山大学 | 一种基于关键词注意力机制的电路教材实体关系抽取方法 |
CN113743090A (zh) * | 2021-09-08 | 2021-12-03 | 度小满科技(北京)有限公司 | 一种关键词提取方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115545671A (zh) * | 2022-11-02 | 2022-12-30 | 广州明动软件股份有限公司 | 一种法律法规结构化处理的方法、系统 |
CN115545671B (zh) * | 2022-11-02 | 2023-10-03 | 广州明动软件股份有限公司 | 一种法律法规结构化处理的方法、系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114492446B (zh) | 2023-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110163478B (zh) | 一种合同条款的风险审查方法及装置 | |
WO2022141861A1 (zh) | 情感分类方法、装置、电子设备及存储介质 | |
CN111984793A (zh) | 文本情感分类模型训练方法、装置、计算机设备及介质 | |
CN112988963B (zh) | 基于多流程节点的用户意图预测方法、装置、设备及介质 | |
CN113449187A (zh) | 基于双画像的产品推荐方法、装置、设备及存储介质 | |
CN112579733A (zh) | 规则匹配方法、规则匹配装置、存储介质及电子设备 | |
CN113919336A (zh) | 基于深度学习的文章生成方法、装置及相关设备 | |
CN115525750A (zh) | 机器人话术检测可视化方法、装置、电子设备及存储介质 | |
CN117708351B (zh) | 基于深度学习的技术标辅助评审方法、系统及存储介质 | |
CN115239214A (zh) | 企业的评估处理方法、装置及电子设备 | |
CN118364916A (zh) | 一种基于大语言模型和知识图谱的新闻检索方法及系统 | |
CN114492446B (zh) | 法律文书处理方法、装置、电子设备及存储介质 | |
CN114372082A (zh) | 基于人工智能的数据查询方法、装置、电子设备及介质 | |
CN112579781A (zh) | 文本归类方法、装置、电子设备及介质 | |
CN113362072A (zh) | 风控数据处理方法、装置、电子设备及存储介质 | |
CN116933130A (zh) | 一种基于大数据的企业行业分类方法、系统、设备及介质 | |
CN114969385B (zh) | 基于文档属性赋值实体权重的知识图谱优化方法及装置 | |
CN114708073B (zh) | 一种围标串标智能检测方法、装置、电子设备及存储介质 | |
CN114528851B (zh) | 回复语句确定方法、装置、电子设备和存储介质 | |
CN113590845B (zh) | 基于知识图谱的文献检索方法、装置、电子设备及介质 | |
JP6026036B1 (ja) | データ分析システム、その制御方法、プログラム、及び、記録媒体 | |
CN115760438A (zh) | 数字化动态核保系统、方法、设备及存储介质 | |
CN115510219A (zh) | 话术推荐方法、装置、电子设备及存储介质 | |
CN117859122A (zh) | 包括用于自动化文档处理的技术的ai增强的审计平台 | |
CN113935328A (zh) | 文本摘要生成方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |