CN108073569B - 一种基于多层级多维度语义理解的法律认知方法、装置和介质 - Google Patents
一种基于多层级多维度语义理解的法律认知方法、装置和介质 Download PDFInfo
- Publication number
- CN108073569B CN108073569B CN201710475332.9A CN201710475332A CN108073569B CN 108073569 B CN108073569 B CN 108073569B CN 201710475332 A CN201710475332 A CN 201710475332A CN 108073569 B CN108073569 B CN 108073569B
- Authority
- CN
- China
- Prior art keywords
- legal
- text
- word
- model
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services; Handling legal documents
Abstract
本发明涉及一种利用人工智能领域的机器学习技术,通过多层级和多维度语义理解法律知识,属于人工智能领域。本发明所涉及的方法、装置和计算机可读介质,对法律文本内容进行预处理获得法律文本信息,基于相似词语模型、相似短语模型和相似长句模型,生成语义概念聚合以构建语义理解模块,基于法律属性抽取模型生成法律属性和法律规则,以构建法律规则模块,语义理解模块和/或法律规则构建模块识别所述法律文本信息并生成法律知识图谱。对法律文本中的自然语言进行深度理解,扩展了人工智能法律知识的处理能力。
Description
技术领域
本发明涉及一种利用人工智能领域的智能语义理解和处理,属于人工智能领域。
背景技术
自然语言处理(natural language processing,简称NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。对于自然语言理解,特别是语义理解方面,从现有的理论和技术现状看,部分的自然语言处理系统,特别是针对特定业务需求的自然语言处理和理解系统,虽然具备了一定的实用性,但是在法律文本的自然语言处理领域,尚无成熟的、专业的技术成果和商业应用。
就法律自然语言理解而言,其主要问题包括几方面:
一是缺少针对法律领域的大规模真实语料库的研制,以及专业性强的丰富的法律词典的编制。如对于法律专业的“无因管理”、“不当得利”以及特定的案由、罪名等,通用的分词等技术是无法满足实际应用需求的。
二是对法律文本的基本属性、特征、规则研究不足,导致对包括裁判文书、检察文书、诉状与答辩意见、证据材料等在内的各类文本进行信息抽取和分析效果不佳。
三是目前的语义理解能力,主要集中在对相似的法律词语的理解上。在短语、语句层面的理解效果上还有不足,导致无法实现从字面涵义到法律涵义的转换,更无法对纷繁复杂的案件自然事实、情节、证据进行统一认知和扩展。
举例来说,裁判文书会区分为刑事、民事、行政、执行等各类案件类型,同时也会区分一审、二审、再审等各类审判程序,并且根据判决、裁定、调解文书来看,其文书结构和段落等也会有有较多的差别。只有精准的识别了相应的属性,我们才有可能更好地做相应的信息抽取和语义理解。如到公安机关投案这个事实,在法律认知上属于自首的一个具体情形。再如对于入户盗窃中关于“户”的理解,也需要结合具体语境或者实际情况来实现统一的认知,从而扩展我们的知识。
发明内容
为了解决上述存在的技术问题,本发明提出了一种基于多层级多维度语义理解的法律认知方法、装置、系统和介质。本发明提出的技术方案与法律知识图谱技术相结合,通过在语义理解过程中的改进,辅助实现从案情数据输入,到最终对用户有价值的法律知识输出的全智能的应用过程。
本发明提出一种基于多层级和多维度语义理解的法律认知方法,包括,
步骤1:对法律文本内容进行预处理,获得法律文本信息;
步骤2:基于相似词语模型、相似短语模型和相似长句模型,生成语义概念聚合以构建语义理解模块;
步骤3:基于法律属性抽取模型生成法律属性和法律规则,以构建法律规则模块;
步骤4:所述语义理解模块和/或法律规则构建模块识别所述法律文本信息并生成法律知识图谱。
根据本发明的一实施例,所述法律规则模型调用法律法规库以优化法律规则模型。
根据本发明的一实施例,所述词语聚类处理包括对每个词设置一个词向量,利用神经网络训练语言模型对词向量进行训练,通过文本统计出词频、词的共现、词的搭配,调整词向量的值,并自我学习生成新的词向量,自动标注所述法律文本信息,并通过比较词向量的距离,实现语义概念的聚合。
根据本发明的一实施例,对所述获得的法律文本信息的词语进行组合,并通过加权计算,生成文本向量矩阵,对法律短语和法律语句进行相似处理。
根据本发明的一实施例,所述对法律文本内容进行预处理包括了对法律文本信息进行分段、分句和分词,利用法律属性抽取模型,对分词后的文本信息进行法律文本属性特征的识别,并结合法律法规库形成法律规则集合。
根据本发明的一实施例,根据语言单位的不同层次,通过时间递归神经网络LSTM优化网络参数,实现词的正确分类和语义的正确生成。
根据本发明的一实施例,法律文本至少包括以下列之一的特征:文本特征模型、段落特征模型和规范用语特征模型,其中文本特征模型至少包括下列之一的维度:案件类别维度、审判程序维度、和/或文本类型维度。
根据本发明的一实施例,所述法律规则模型,对输入的内容中的法律属性进行识别,并结合所述法律文本的特征,通过对特定字符串的查找与替换进行简化处理。
根据本发明的一实施例,所述特定字符串的查找和替换包括文本特征配置、特征信息查找和/或特征信息替换,分别为,
依据对裁判文书数据特征的分析,进行文本特征的量化配置,包括逻辑段的特征识别和关键词的特征配置,作为文本字符串查找和/或替换的规则依据;
将检索手段与正则表达式相结合,根据文本特征的关键字,对目标文本进行检索,过滤错误信息,并准确定位特征信息位置;
通过正则表达式,完成特征信息的替换,将特征信息替换为文本数据挖掘更为容易识别的标识性字符。
根据本发明的一实施例,利用知识工程与实体识别技术,通过与专业的法律法规、业务规则相结合,实现对法律规则的构建。
本发明提出了一种基于多层级和多维度语义理解的法律认知装置,包括,
预处理模块,对法律文本内容进行预处理,获得法律文本信息;
语义理解模块,基于相似词语模型、相似短语模型和相似长句模型,生成语义概念聚合;
法律规则模块,基于法律属性抽取模型生成法律属性和法律规则,以构建法律规则;
知识图谱模块,通过语义理解模块和/或法律规则构建模块识别所述法律文本信息并生成法律知识图谱。
根据本发明的一实施例,文本特征配置模块,依据对裁判文书数据特征的分析,进行文本特征的量化配置,包括逻辑段的特征识别和关键词的特征配置,作为文本字符串查找和/或替换的规则依据;
特征信息查找模块,将检索手段与正则表达式相结合,根据文本特征的关键字,对目标文本进行检索,过滤错误信息,并准确定位特征信息位置;
特征信息替换模块,通过正则表达式,完成特征信息的替换,将特征信息替换为文本数据挖掘更为容易识别的标识性字符。
本发明提出了一种基于多层级和多维度语义理解的法律认知装置,包括
存储器;
显示器;
一个或多个处理器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行以下步骤的指令:
步骤1:对法律文本内容进行预处理,获得法律文本信息;
步骤2:基于相似词语模型、相似短语模型和相似长句模型,生成语义概念聚合以构建语义理解模块;
步骤3:基于法律属性抽取模型生成法律属性和法律规则,以构建法律规则模块;
步骤4:语义理解模块和/或法律规则构建模块识别所述法律文本信息并生成法律知识图谱。
本发明提出了一种计算机可读存储介质,包括与具有显示器的装置结合使用的计算机程序,所述计算机程序可被处理器执行以完成以下步骤:
步骤1:对法律文本内容进行预处理,获得法律文本信息;
步骤2:基于相似词语模型、相似短语模型和相似长句模型,生成语义概念聚合以构建语义理解模块;
步骤3:基于法律属性抽取模型生成法律属性和法律规则,以构建法律规则模块;
步骤4:语义理解模块和/或法律规则构建模块识别所述法律文本信息并生成法律知识图谱。
本发明与现有技术相比所产生的有益效果是:
一、研制和运用针对法律领域的大规模真实语料库以及专业性强的丰富的法律词典,对分词、法律属性识别、法律规则构建和语义理解、法律概念认知奠定了基础。
二、对各类法律文本的属性特征识别,并构建法律规则。具备强大的商业应用价值,如辅助法律文书生成,法律文本检索,法律知识管理、法律文本校对等。
三、可对法律文本中的各类自然事实在短语、句子层面进行深度理解,扩展了法律认知的能力。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1是本发明的基于语义理解的法律认知引擎的具体流程示意图;
图2是本发明的词的聚类结果示意图;
图3是本发明的知识工程模块的应用示意图;
图4是本发明的自然语言理解模块的应用示意图;
图5是本发明的法律短语和法律语句相似处理示意图。
具体实施方式
本领域技术人员应当明了的是,法律领域中,本发明提出的法律概念框架的含义和边界是清楚,即包含所有法律概念及其法学框架,所述法学框架的划分可以包括中国和外国的法律体系,也可以包括中央和地方的法律法规体系,但不仅限于此。法律知识点和法律框架的关系也不言自明,即遵从于整个法律体系的知识框架架构,现有的法律知识点和法律框架的理解都纳入本发明的保护范围。另外,法律知识点和法律观念框架或法学框架的关联同样遵从于现有和今后法律发展的具有共识的体系,本发明的目的在于将已经形成共识,具有清楚、完整的法律知识点进行技术性的关联。
本领域的技术人员还应明了的是,本发明利用各类算法,使机器智能化,在扩大知识覆盖率——尤其是法律知识的同时,还可以不断修正知识的准确率,即使初期的准确率不足,也可以通过不断的机器学习来逐步提升准确率,具有成本低、效率高、准确性强的优点。本发明实现了对知识提取不断更新迭代,和社会变迁与法律政策的变化随时保持准确一致。本发明提出的对词的多层次和多维度的划分遵从本领域技术人员所能理解的人工智能领域的通常含义,尤其是对知识词语、短语和长句的层次和维度划分,因此,其所表达的含义在本领域中是清楚的。
对本发明进行详细说明。如图1所示,本发明的基于语义理解的法律认知引擎的具体流程如下:
(1)通过法律文本预处理模块实现对用户输入的法律相关文本信息进行统一处理。
就用户的输入内容来说,主要包括用户输入的案情描述文本,用户上传一份法律文书如诉状、裁判文书、检察文书、答辩意见等,证据材料图片字符识别转换文本(OCR)、语音识别转换文本等。
预处理过程,包括对文书的去封装、格式化、标准化,以及进一步的分段、分句和分词处理等一系列的过程。
举例来说,大多数裁判文书的原生文件格式为.doc,部分存为.htm,包括排版格式、乃至图片、表格等各种情况,属于富文本信息。同时,由于文本的多样性以及法律语言的专业性,所以本发明提出,在具体法律文本处理上,需要一定的标准化处理,并针对法律文本特征,引入专业的法律词典,实现了对法律语言的优化,从而便于后续进一步进行信息抽取知识工程模块的应用示意图粹的文本信息,进而实现较好的法律文本分词处理。
(2)在前述处理过程后,分别进行针对法律文本的语义理解和法律规则构建。
语义理解模块
法律主要实现对社会、经济、生活中人们各种行为和关系的规制。因此,法律语言与日常的生活语言存在较为明显的差异,更加概括、抽象,具备普适性。法律规定的概念、知识一般是对实际生活中的纷繁复杂的人、事、物的统称,比如未成年人,可以囊括18周岁以下各类人群。如夫妻共同财产,也会在具体案件认定时,出现各类不同的情形。
因此,本发明提出需要能够对词语、短语、句子三个层面基于语义相似模型构建出相似文本集合,扩展支持各类法律情景描述,聚合法律语义概念,并调用法律知识图谱,实现对法律概念认知。
具体来说,通过法律词语聚类处理技术,结合法律法规规则库和相关业务规则,根据语义信息、词语结构、词典等计算词语之间的相关关系,形成相关词语聚类,以及相关性评价,在词语聚类处理过程,每个词采用Distributed Representation表示方法,被设置为一个词向量,例如:[0.792,-0.177,-0.107,0.109,-0.542,...]。然后,使用神经网络训练语言模型,对词向量进行训练。通过文本统计出的词频、词的共现、词的搭配等因素,影响词向量值的调整,进而从大量未标注的普通文本数据中无监督地学习出优质的词向量。通过比较词向量的距离,聚类语义相近的词向量集合,作为组件的输出。
图2给出了一个词的聚类结构示意图。以“匕首”为例,相关的词聚类结果如下所示,可以将尖刀、刀具、水果刀、砍刀找到,从而为后续的法律概念认知奠定基础。如图2所示。
然而,即使上述模型对词向量进行平均处理,我们仍然忽略了单词之间的排列顺序对语义分析的影响。即只是基于词的维度进行"语义分析"的,而并不具有上下文的"语义分析"能力。
因此,本发明的一个核心创新在于,在前述词语相似的基础上,进行词语组合,通过加权计算方法,生成文本向量矩阵,从而实现法律短语和法律语句的相似。
在词的语义基础上,根据语言单位的不同层次,自底向上进行语义生成,目标是案由的正确分类,通过双向LSTM(long short-term memory)来实现网络参数的优化,从而最终实现语义的正确生成。
图3展示的是知识工程模块的应用示意图,具体实施如下:
1.法律专家或法学人士具有资深的法学知识和经验,这些知识和经验属于非结构化数据,需要对其建立规则模型转化成为结构化数据。例如:利用正则表达式,将具有法律含义的实体转化为可被计算机识别的结构化数据,具体而言就是将都可以被识别为“正当防卫”的表述都以正则表达式表示出来。
2.法律概念由具有法律意义的构成要件和一般语词所组成,法律概念的抽取就需要具有法律知识的主体对其进行解构,根据构成要件,从而析出法律概念。例如:对于“不当得利”的表述:“没有法律根据取得利益,致使他人损害的,为不当得利”,需要析出“无法律根据”、“利益与损失的因果”、“一方受损”、“一方得利”这些构成要件,从而得到“不当得利”这个法律概念。
3.将法律概念与法律规则模型得到的数据提取后进入法律知识特征库。
图4展示的是自然语言理解模块的应用示意图,具体实施如下:
1.利用词组聚类组件,基于Google Word2Vec框架,结合法宝法律法规规则库和法院业务规则,根据语义信息、短语结构、短语词典等计算短语之间的相关关系,形成相关短语聚类,以及相关性评价。
2.依据聚类表示和组件,对语义意图进行识别,通过文本统计出的词频、词的共现、词的搭配等因素,影响词向量值的调整,进而从大量未标注的普通文本数据中无监督地学习出优质的词向量。通过比较词向量的距离,聚类语意相近的词向量集合,作为组件的输出。
3.特征词的提取要依据上下文语境,并基于此进行分词技术的运用,具体实施是:
1)通过分词算法对文本中的词汇进行提取。所有词汇对文本分类的意义不同,通常一些通用的、各个类别都普遍存在的词汇对分类的贡献小,在某特定类中出现比重大而在其他类中出现比重小的词汇对文本分类的贡献大。为了提高分类精度,对于每一类,系统自动去除表现力不强的词汇,筛选出针对该类的特征项集合。
2)系统在词频、文档频、停用词这些基本方法上,采用了TF-IDF(term frequency–inverse document frequency)方法来进行特征选择,依据某个词的词频和其出现过的文本的频率来计算该词在整个文本集合中的权重,依据权重来进行特征选取。权重越高,说明该词对文本的区分能力越强,否则其区分能力则越弱。
3)基于文本特征词,形成向量空间模型。在这个模型中,文本空间被看作是由一组正交词条向量组成的向量空间,每个文本表示为其中一个范化特征向量。行代表文档,列代表文档中出现的词,从而使文本的表示和处理形式化,以便计算机处理。
4)生成的特征词进入到法律知识特征库中存储以供使用
图5给出了一种实现法律短语和法律语句相似处理示意图。具体包括:
层级LSTM
·词语->短语(短句)
o将每个word映射到低维语义空间,得到相应的词嵌入wij;
o每次输入一个词嵌入,LSTM的cell state cij和hidden state hij都得以更新,这样输入一个句子就得到一系列的hidden state[hi1,hi2,...,hili];
o将这一系列的hidden state输入average pooling layer,得到句子表示si。
·短语->长句
o将上一步得到的短语向量表示[s1,s2,...,sn]送进LSTM;
o经过如上的变换过程,一个长句得到一系列的hidden state[hi1,hi2,...,hili];
o将这一系列的hidden state输入average pooling layer,得到长句表示v。
Attention机制
不同的word对于表达这个短语含义的贡献应该是不一样的,同理,不同的短语对于表达这个长句含义的贡献也应该不一样。但上述建模过程中,由LSTM的隐层状态到更高一级的语义表示过程中,average pooling操作相当于每个word(短语)对短语(长句)的语义表示贡献是一致的。
Attention机制通过赋予短语和长句中不同部分在语义表达中不同的贡献度来提取出特定的关键词,同时考虑了不同要素对案由分类的影响。
·word-level Attention
o上面每个句子经过LSTM后得到了一系列的hidden state[hi1,hi2,...,hili];
o在利用这一系列hidden state得到短语representation时,并不是利用averagepooling操作,而是根据下式得到:
o上式中αi j代表一句话中每个词的权重:
·短语级Attention
o短语级的attention机制和word-level的类似,表示如下:
o用β来表示短语在整个长句中的权重,而不再用average pooling操作来获得整个长句的表示。
案由分类
经过上述流程得到的长句representation是文本的高维特征,可以将其作为案由分类的特征。
·先用非线性映射将特征v映射到C类的目标空间:
·再用softmax函数进行分类:
其中C是类别数,pc是属于类别c的概率;
·训练时,采用交叉熵作为损失函数:
其中pgc是ground truth,D是训练数据。
通过不断训练提高案由分类的准确性,就得到了不同层级语言单位的语义的正确表示。
法律规则构建模块
法律规则构建模块包括法律属性抽取模型、法律属性模型和法律规则模型。其中,法律属性抽取模型对分词后的具体文本信息,进行法律文本的属性特征识别,进而结合法律法规库等形成相应的法律规则集合,为法律概念认知的强化学习提供高价值的评估依据。法律规则模型包括证据规则模型、裁判文书规则模型、检察文书规则模型、案情文本规则模型、笔录等一般诉讼资料规则模型等。
以法律文本中典型的裁判文书为例,可区分为文本特征模型、段落特征模型和规范用语特征模型。
文本特征模型大致分为四个维度:
首先是案件类别维度,用于区分案件性质,包括:刑事、民事、行政、赔偿、执行五类;
其次是审判程序维度,用于区分审级,包括:一审、二审、再审等,不同审级的裁判文书中蕴藏的信息从数量和描述方面,差异比较明显;
其次是文书类型维度,区分判决书和裁定书。前者信息量最大,特色的“判决如下:......”是重要的提取目标,一审案件基本上应该有此类文书,二审、再审案件的裁定书数据提取需求也很高;
最后,还有其它可用于文书分类的特征,例如刑事案件的公诉与自诉文书也存有少许不同,但差异明显小于前面三个分类依据。
段落特征模型主要是依据法律规定,将裁判文书中各逻辑段予以明晰,具体设置如下:
首先是文本来源、性质和时间,主要表达承办法院、案件性质、审判程序、案号等数据。
其次是涉案机构或人员,主要是公诉机关、被告人的情况,与犯罪特征相关的是被告人的若干自然状况和前科劣迹情况,自然状况中年龄、是否患精神病对某些犯罪行为的量刑有重要影响,根据前科劣迹可以辨明是否累犯、是否惯犯,这些情节对量刑结果的加重、从重、从轻、减轻有作用。
某些案件中有被害人的自然状况,被害人的性别、年龄、是否具有行为能力、是否患有特别病症等特征与对施害人的量刑有关系。
第三是案件由来和审理方式概述,本段没有与犯罪特征密切关系的信息,但有不少可用于案件质效评估的数据。
第四是犯罪事实与举证、质证、认证叙述,本段有丰富的对案件的定性、裁判有较大价值的实体案情信息,如犯罪地点、犯罪手段、犯罪对象等。若在第二逻辑段中没有集中描述被害人,而是在此散列被害人情况的,则需要考察关于被害人的一些特征。
第五是法官裁判分析和案件定性,主要综合前述,对案件的具体情节认定和法律适用提出明确的意见。其中案件的争议焦点,或者被采信的事实、证据,具有较大的法律知识价值。
第六是具体裁判结果,主要描述审判的结论,对于“揭示案件特征和裁判结果之间的规则映射关系”来说至关重要。
第六是审判组织成员构成。其中法官的姓名是较为容易获取的信息点,但更重要的是它的背后反映了具体法官的审判能力,这个隐性知识的获取后续可结合法院的名称、法官的名称等相关数据,实现对法官的审判业绩、能力、裁判观点和倾向的深入认知。
规范用语特征模型也是法律属性的重要组成部分。例如:
与案人员(含审判主体与客体)的角色称谓,包括:被告人、被告人暨附带民事诉讼被告人、被害人;法定代理人、辩护人;审判长、审判员、书记员;
描述案件进展,包括:指控、独任审判、合议庭、公开开庭、出庭支持公诉、现已审理终结、经审理查明、本院认为、判决如下、如不服本判决等。
关于犯罪事实、证据、判罚方面,包括:被害人xxx陈述、被告人xxx供述、证人xxx证明、辨认笔录、勘验笔录、在案为证、在案佐证、足以认定等。
罪名和刑罚方面,遵循案由与量刑相关代码,包括:盗窃罪、故意伤害罪、管制、拘役、有期徒刑、无期徒刑、死刑缓期二年执行、死刑立即执行等。
综上,基于法律规则模型,系统对输入的内容中的法律属性进行识别。在此过程中,系统还结合法律文本的特征进行了优化处理,简化属性识别的硬编码和配置逻辑的复杂度。主要是对特定字符串的查找与替换。具体分为三个环节:
一是文本特征配置。
依据对裁判文书数据特征的分析,进行文本特征的量化配置,包括逻辑段的特征识别、关键词的特征配置等,作为下一步文本字符串查找、替换的规则依据。
例如:逻辑段的划分,对于当事人自然状况、诉讼代理人(辩护人)状况的逻辑段,其前导特征字符串和截止特征字符串,在不同种类的裁判文书中均能总结出规律,作为特定逻辑段的文本特征。
二是特征信息查找。
将全文检索技术与正则表达式相结合,根据文本特征的关键字,对目标文本进行检索,过滤混淆和错误信息,精确定位特征信息位置。
三是特征信息替换
借助正则表达式,完成特征信息的替换,将特征信息替换为文本数据挖掘更易识别的标识性字符。
例如,在与属性识别有关的裁判文书的文本特征中,当日、当月、当年、次日、同年、同月、本院、本案等代称用词,系统会转换为直接的日期、单位、罪名等内容。关于金额的描述,在裁判文书中也有汉字描述或阿拉伯数字描述两种,系统也会统一。
上述环节全部完成后,系统会基于法律规范,以特定的法律逻辑规则,将各个法律属性之间的关系建立。此部分的规则关系较为复杂。
举例来说,在法律领域,法律属性之间的规则存在知识层级,和法律逻辑性。例如,“被告人”张三,“年龄”17周岁,犯“故意伤害罪”,但由于属于“量刑情节”下的“未成年人”,所以所“判处主刑”不得有“死刑”,且相同的情节、要素下,“刑期”较有“完全刑事责任能力人员”要轻。可以看出,这其中含有特定的逻辑推理规则,且也存在不同的知识层级。因此,本发明提出在此环节,引入专家知识工程与实体识别技术,通过与专业的法律法规、业务规则相结合,实现对法律规则的构建。
所述专家知识工程与实体识别技术具体包括:
1.法律专家或法学人士具有资深的法学知识和经验,这些知识和经验属于非结构化数据,需要对其建立规则模型转化成为结构化数据。例如:利用正则表达式,将具有法律含义的实体转化为可被计算机识别的结构化数据,具体而言就是将都可以被识别为“正当防卫”的表述都以正则表达式表示出来。
2.法律概念由具有法律意义的构成要件和一般语词所组成,法律概念的抽取就需要具有法律知识的主体对其进行解构,根据构成要件,从而析出法律概念。例如:对于“不当得利”的表述:“没有法律根据取得利益,致使他人损害的,为不当得利”,需要析出“无法律根据”、“利益与损失的因果”、“一方受损”、“一方得利”这些构成要件,从而得到“不当得利”这个法律概念。
本领域普通技术人员还应当明白,结合本申请所公开内容描述的各种示例性的模块、装置和步骤均可以实现成电子硬件、计算机软件或二者的组合。为了清楚地表示硬件和软件之间的可交换性,上面对各种示例性的部件、框、模块、电路和步骤均围绕其功能进行了总体描述。至于这种功能是实现成硬件还是实现成软件,取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用,以变通的方式实现所描述的功能,但是,这种实现决策不应解释为背离本发明的保护范围。
用于执行本申请所述功能的通用处理器(CPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件部件或者其任意组合,可以用来实现或执行结合本申请所公开内容描述的各种示例性的逻辑框、模块和电路。通用处理器可以是微处理器,或者,该处理器也可以是任何常规的处理器、控制器、微控制器或者状态机。处理器也可以实现为计算设备的组合,例如,DSP和微处理器的组合、若干微处理器、一个或多个微处理器与DSP内核的结合,或者任何其它此种结构。结合本申请所公开内容描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或两者的组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域已知的任何其它形式的存储介质中。可以将一种示例性的存储介质连接至处理器,从而使该处理器能够从该存储介质读取信息,并且可向该存储介质写入信息。或者,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然,处理器和存储介质也可以作为分立组件存在于用户终端中。
本申请接受各种修改和可替换的形式,具体的实施方式已经在附图中借助于实施例来显示并且已经在本申请详细描述。但是,本申请不意在受限于公开的特定形式。相反,本申请意在包括本申请范围内的所有修改形式、等价物、和可替换物,本申请的范围由所附权利要求及其法律等效物限定。
Claims (5)
1.一种基于多层级和多维度语义理解的法律认知方法,其特征在于,
步骤1:对法律文本内容进行预处理,获得法律文本信息;
步骤2:基于相似词语模型、相似短语模型和相似长句模型,生成语义概念聚合以构建语义理解模块;
步骤3:基于法律属性抽取模型生成法律属性和法律规则,以构建法律规则模块;
步骤4:所述语义理解模块和/或法律规则构建模块识别所述法律文本信息并生成法律知识图谱;
其中,
所述步骤2,所述语义概念聚合处理包括对每个词设置一个词向量,利用神经网络训练语言模型对词向量进行训练,通过文本统计出词频、词的共现、词的搭配,调整词向量的值,并自我学习生成新的词向量,自动标注所述法律文本信息,并通过比较词向量的距离,实现语义概念的聚合;
所述步骤2,对获得的法律文本信息的词语进行组合,并通过加权计算,生成文本向量矩阵,对法律短语和法律语句进行相似处理;
所述步骤1,所述对法律文本内容进行预处理包括了对法律文本信息进行分段、分句和分词,利用法律属性抽取模型,对分词后的文本信息进行法律文本属性特征的识别,并结合法律法规库形成法律规则集合;
根据语言单位的不同层次,通过时间递归神经网络LSTM优化网络参数,实现词的正确分类和语义的正确生成;法律文本至少包括以下列之一的特征:文本特征模型、段落特征模型和规范用语特征模型,其中文本特征模型至少包括下列之一的维度:案件类别维度、审判程序维度、和/或文本类型维度;所述法律规则模块,对输入的内容中的法律属性进行识别,并结合所述法律文本的特征,通过对特定字符串的查找与替换进行简化处理;
所述特定字符串的查找和替换包括文本特征配置、特征信息查找和/或特征信息替换,分别为依据对裁判文书数据特征的分析,进行文本特征的量化配置,包括逻辑段的特征识别和关键词的特征配置,作为文本字符串查找和/或替换的规则依据;
将检索手段与正则表达式相结合,根据文本特征的关键字,对目标文本进行检索,过滤错误信息,并准确定位特征信息位置;
通过正则表达式,完成特征信息的替换,将特征信息替换为文本数据挖掘更为容易识别的标识性字符;
另外,进一步包括:
将一个词映射到低维度语义空间,得到相应的词嵌入wij;
输入词嵌入,更新LSTM的cell state cij和hidden state hij,输入句子后得到hiddenstate[hi1,hi2,...,hili];
将hidden state输入下采样层average pooling layer,得到短语向量si;
将短语向量[s1,s2,...,sn]发送给LSTM;
更新LSTM的cell state cij和hidden state hij,输入句子得到hidden state[hi1,hi2,...,hili];
将hidden state输入average pooling layer,得到长句表示v;
注意机制Attention通过赋予短语和长句中不同部分在语义表达中不同的贡献度来提取特定的关键词,所述注意机制Attention包括:
(1)词级注意,每个句子经过LSTM后得到了一系列的hidden state[hi1,hi2,...,hili];
在利用hidden state得到短语表达时,根据以下公式得到短语:
(2)短语级注意,通过以下公式得到长句:
所述长句表达具有文本的高维特征,表达形式为:
先用非线性映射将特征v映射到C类的目标空间:
再用softmax函数进行分类:
其中C是类别数,pc是属于类别c的概率;
训练时,采用交叉熵作为损失函数:
其中pg c是标注数据ground truth,D是训练数据;
通过不断训练提高分类的准确性,从而得到不同层级语言单位的正确语义表示。
2.如权利要求1所述的基于多层级和多维度语义理解的法律认知方法,进一步包括,
所述法律规则模块调用法律法规库以优化法律规则模型。
3.如权利要求1所述的基于多层级和多维度语义理解的法律认知方法,进一步包括:
利用知识工程与实体识别技术,通过与专业的法律法规、业务规则相结合,实现对法律规则的构建。
4.一种基于多层级和多维度语义理解的法律认知装置,其特征在于,包括
存储器;
显示器;
一个或多个处理器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如权利要求1-3任一所述的方法的指令。
5.一种计算机可读存储介质,包括与具有显示器的装置结合使用的计算机程序,
所述计算机程序可被处理器执行如权利要求1-3任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710475332.9A CN108073569B (zh) | 2017-06-21 | 2017-06-21 | 一种基于多层级多维度语义理解的法律认知方法、装置和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710475332.9A CN108073569B (zh) | 2017-06-21 | 2017-06-21 | 一种基于多层级多维度语义理解的法律认知方法、装置和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108073569A CN108073569A (zh) | 2018-05-25 |
CN108073569B true CN108073569B (zh) | 2021-08-27 |
Family
ID=62159151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710475332.9A Active CN108073569B (zh) | 2017-06-21 | 2017-06-21 | 一种基于多层级多维度语义理解的法律认知方法、装置和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108073569B (zh) |
Families Citing this family (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10726198B2 (en) | 2017-10-17 | 2020-07-28 | Handycontract, LLC | Method, device, and system, for identifying data elements in data structures |
US11475209B2 (en) | 2017-10-17 | 2022-10-18 | Handycontract Llc | Device, system, and method for extracting named entities from sectioned documents |
CN110750625B (zh) * | 2018-07-04 | 2022-05-27 | 北京国双科技有限公司 | 司法问答方法及相关设备 |
CN108874783A (zh) * | 2018-07-12 | 2018-11-23 | 国网福建省电力有限公司 | 电力信息运维知识模型构建方法 |
CN110858269B (zh) * | 2018-08-09 | 2022-03-08 | 清华大学 | 事实描述文本预测方法及装置 |
CN109409625B (zh) * | 2018-08-16 | 2021-09-14 | 上海绿狮智能信息科技股份有限公司 | 一种对法律事务进行量化评估的方法 |
CN109408814B (zh) * | 2018-09-30 | 2020-08-07 | 中国地质大学(武汉) | 基于释义基元词的中英跨语言词汇表征学习方法及系统 |
CN111104798B (zh) * | 2018-10-27 | 2023-04-21 | 北京智慧正安科技有限公司 | 法律文书中的量刑情节的解析方法、系统及计算机可读存储介质 |
CN111198953B (zh) * | 2018-11-16 | 2023-07-07 | 北京智慧正安科技有限公司 | 基于案件文本信息推荐类案的方法、系统及可读存储介质 |
CN111291570B (zh) * | 2018-12-07 | 2022-07-05 | 北京国双科技有限公司 | 一种实现司法文书中要素识别的方法及装置 |
CN111507095B (zh) * | 2019-01-29 | 2023-05-02 | 阿里云计算有限公司 | 裁判文书的生成方法、装置、存储介质和处理器 |
CN109871452B (zh) * | 2019-01-31 | 2021-04-02 | 深度好奇(北京)科技有限公司 | 确定犯罪特征的方法、装置以及存储介质 |
CN111538832A (zh) * | 2019-02-02 | 2020-08-14 | 富士通株式会社 | 用于对文书进行事件标注的装置和方法及记录介质 |
CN111611396A (zh) * | 2019-02-26 | 2020-09-01 | 广州慧睿思通信息科技有限公司 | 基于法律知识图谱的信息匹配方法、装置和存储介质 |
CN111861046B (zh) * | 2019-04-02 | 2023-12-29 | 南京大学 | 基于大数据和深度学习的专利价值智能评估系统 |
CN110046241B (zh) * | 2019-04-18 | 2022-12-16 | 武汉大学 | 基于自动对比文章相似度辅助法律文书检错方法及系统 |
CN111859975A (zh) * | 2019-04-22 | 2020-10-30 | 广东小天才科技有限公司 | 一种扩充样本语料的语料正则式的方法和系统 |
CN110046262B (zh) * | 2019-06-10 | 2021-03-12 | 南京擎盾信息科技有限公司 | 一种基于法律专家知识库的上下文推理方法 |
CN110413992A (zh) * | 2019-06-26 | 2019-11-05 | 重庆兆光科技股份有限公司 | 一种语义分析识别方法、系统、介质和设备 |
CN110414007A (zh) * | 2019-08-02 | 2019-11-05 | 南京擎盾信息科技有限公司 | 一种基于法理图规则引擎的法律概念识别方法 |
CN110489538B (zh) * | 2019-08-27 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 基于人工智能的语句应答方法、装置及电子设备 |
CN110618980A (zh) * | 2019-09-09 | 2019-12-27 | 上海交通大学 | 基于法律文本精确匹配和矛盾检测的系统及方法 |
CN110879842A (zh) * | 2019-10-15 | 2020-03-13 | 东南大学 | 一种基于信息抽取的法律知识图谱构建方法 |
CN111091009B (zh) * | 2019-11-20 | 2022-03-15 | 中国电子科技集团公司第三十研究所 | 一种基于语义分析的文档关联审核方法 |
US20220415456A1 (en) * | 2019-11-25 | 2022-12-29 | Boe Technology Group Co., Ltd. | Character acquisition, page processing and knowledge graph construction method and device, medium |
CN110928994B (zh) * | 2019-11-28 | 2022-07-19 | 北京华宇元典信息服务有限公司 | 相似案例检索方法、相似案例检索装置和电子设备 |
CN111126057B (zh) * | 2019-12-09 | 2023-08-01 | 航天科工网络信息发展有限公司 | 一种分级神经网络的案件情节精准量刑系统 |
CN110765256B (zh) * | 2019-12-24 | 2020-07-07 | 杭州实在智能科技有限公司 | 一种在线法律咨询自动回复的生成方法与设备 |
CN111552821B (zh) * | 2020-05-14 | 2022-03-01 | 北京华宇元典信息服务有限公司 | 法律意图搜索方法、法律意图搜索装置和电子设备 |
CN111651270B (zh) * | 2020-05-19 | 2021-07-20 | 南京擎盾信息科技有限公司 | 对法律数据完成多任务语义标注的可视化方法和装置 |
CN111402092B (zh) * | 2020-06-08 | 2020-09-15 | 杭州识度科技有限公司 | 一种基于多层次语义解析的法律法规检索系统 |
US11922325B2 (en) | 2020-06-09 | 2024-03-05 | Legislate Technologies Limited | System and method for automated document generation and search |
CN111898361A (zh) * | 2020-07-14 | 2020-11-06 | 南京擎盾信息科技有限公司 | 法律文本解析方法、装置、设备和存储介质 |
CN111859984B (zh) * | 2020-07-23 | 2023-02-14 | 中国平安人寿保险股份有限公司 | 意图挖掘方法、装置、设备及存储介质 |
CN112307216A (zh) * | 2020-07-30 | 2021-02-02 | 北京沃东天骏信息技术有限公司 | 药品知识图谱的构建方法和装置 |
CN112632286A (zh) * | 2020-09-21 | 2021-04-09 | 北京合享智慧科技有限公司 | 一种文本属性特征的识别、分类及结构分析方法及装置 |
CN112581327B (zh) * | 2020-11-17 | 2022-12-02 | 天津汇智星源信息技术有限公司 | 基于知识图谱的法律推荐方法、装置和电子设备 |
CN112463925A (zh) * | 2020-12-01 | 2021-03-09 | 科大讯飞股份有限公司 | 案件卷宗处理方法、相关设备及可读存储介质 |
CN112990388B (zh) * | 2021-05-17 | 2021-08-24 | 成都数联铭品科技有限公司 | 基于概念词的文本聚类方法 |
CN113435199B (zh) * | 2021-07-18 | 2023-05-26 | 谢勇 | 一种性格对应文化的存储读取干涉方法及系统 |
CN113673243B (zh) * | 2021-08-23 | 2022-04-22 | 上海浦东华宇信息技术有限公司 | 文本类型识别方法及装置 |
CN115130435B (zh) * | 2022-06-27 | 2023-08-11 | 北京百度网讯科技有限公司 | 文档处理方法、装置、电子设备和存储介质 |
CN116244315B (zh) * | 2022-12-08 | 2023-11-10 | 南京擎盾信息科技有限公司 | 一种法律法规数据库时效性动态更新的方法和系统 |
CN116451660B (zh) * | 2023-04-11 | 2023-09-19 | 浙江法之道信息技术有限公司 | 一种法律文本专业性审查与智能批注系统 |
CN117077682A (zh) * | 2023-05-06 | 2023-11-17 | 西安公路研究院南京院 | 基于语义识别的公文分析方法及系统 |
CN116775900B (zh) * | 2023-06-13 | 2024-02-02 | 南京智绘星图信息科技有限公司 | 一种基于规则知识图谱驱动的政务辅助管理方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013068854A2 (en) * | 2011-09-30 | 2013-05-16 | Thomson Reuters Global Resources | Systems, methods, and interfaces for analyzing conceptually-related portions of text |
CN103853824A (zh) * | 2014-03-03 | 2014-06-11 | 沈之锐 | 一种基于深度语义挖掘的内文广告发布方法与系统 |
CN106372225A (zh) * | 2016-09-07 | 2017-02-01 | 知识产权出版社有限责任公司 | 一种基于高价值对比库的信息处理装置及方法 |
CN106446071A (zh) * | 2016-09-07 | 2017-02-22 | 知识产权出版社有限责任公司 | 信息处理装置及方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102360383B (zh) * | 2011-10-15 | 2013-07-31 | 西安交通大学 | 一种面向文本的领域术语与术语关系抽取方法 |
CN103389970B (zh) * | 2012-05-08 | 2016-05-25 | 北京华宇软件股份有限公司 | 基于实时学习的word辅助编写系统和方法 |
US9996528B2 (en) * | 2014-07-24 | 2018-06-12 | Seal Software Ltd. | Advanced clause groupings detection |
CN104573006A (zh) * | 2015-01-08 | 2015-04-29 | 南通大学 | 一种公共卫生突发事件领域知识库的构建方法 |
CN106815206A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 法律裁判文书的解析方法及装置 |
CN106503239A (zh) * | 2016-11-07 | 2017-03-15 | 上海智臻智能网络科技股份有限公司 | 一种法律信息查询的方法和装置 |
CN106649661A (zh) * | 2016-12-13 | 2017-05-10 | 税云网络科技服务有限公司 | 知识库构建方法和装置 |
CN106844318A (zh) * | 2016-12-20 | 2017-06-13 | 北京华宇信息技术有限公司 | 文书智能编写方法、文书智能编写装置和计算机存储介质 |
-
2017
- 2017-06-21 CN CN201710475332.9A patent/CN108073569B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013068854A2 (en) * | 2011-09-30 | 2013-05-16 | Thomson Reuters Global Resources | Systems, methods, and interfaces for analyzing conceptually-related portions of text |
CN103853824A (zh) * | 2014-03-03 | 2014-06-11 | 沈之锐 | 一种基于深度语义挖掘的内文广告发布方法与系统 |
CN106372225A (zh) * | 2016-09-07 | 2017-02-01 | 知识产权出版社有限责任公司 | 一种基于高价值对比库的信息处理装置及方法 |
CN106446071A (zh) * | 2016-09-07 | 2017-02-22 | 知识产权出版社有限责任公司 | 信息处理装置及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108073569A (zh) | 2018-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108073569B (zh) | 一种基于多层级多维度语义理解的法律认知方法、装置和介质 | |
CN108073673B (zh) | 一种基于机器学习的法律知识图谱构建方法、装置、系统和介质 | |
CN106055536B (zh) | 一种中文事件联合推理方法 | |
CN110046260B (zh) | 一种基于知识图谱的暗网话题发现方法和系统 | |
US10437867B2 (en) | Scenario generating apparatus and computer program therefor | |
CN108763333A (zh) | 一种基于社会媒体的事件图谱构建方法 | |
CN110968699A (zh) | 一种基于事理推荐的逻辑图谱构建及预警方法和装置 | |
CN109726745B (zh) | 一种融入描述知识的基于目标的情感分类方法 | |
Tran et al. | Encoded summarization: summarizing documents into continuous vector space for legal case retrieval | |
US20210026835A1 (en) | System and semi-supervised methodology for performing machine driven analysis and determination of integrity due diligence risk associated with third party entities and associated individuals and stakeholders | |
KR101335540B1 (ko) | 온톨로지 기반의 문서 분류 방법 및 장치 | |
Wang et al. | A machine learning analysis of Twitter sentiment to the Sandy Hook shootings | |
Lo et al. | An unsupervised multilingual approach for online social media topic identification | |
Petroni et al. | An extensible event extraction system with cross-media event resolution | |
Ma et al. | News2vec: News network embedding with subnode information | |
CN109492097B (zh) | 一种企业新闻数据风险分类方法 | |
CN109740164A (zh) | 基于深度语义匹配的电力缺陷等级识别方法 | |
CN114896305A (zh) | 一种基于大数据技术的智慧互联网安全平台 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
Das et al. | Sentiment classification with GST tweet data on LSTM based on polarity-popularity model | |
Zhang et al. | GAIA-A Multi-media Multi-lingual Knowledge Extraction and Hypothesis Generation System. | |
Malherbe et al. | Bringing order to the job market: Efficient job offer categorization in e-recruitment | |
Bracewell et al. | A tiered approach to the recognition of metaphor | |
CN109189820A (zh) | 一种煤矿安全事故本体概念抽取方法 | |
Alruily | Using text mining to identify crime patterns from arabic crime news report corpus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |