CN108073673B - 一种基于机器学习的法律知识图谱构建方法、装置、系统和介质 - Google Patents
一种基于机器学习的法律知识图谱构建方法、装置、系统和介质 Download PDFInfo
- Publication number
- CN108073673B CN108073673B CN201710339258.8A CN201710339258A CN108073673B CN 108073673 B CN108073673 B CN 108073673B CN 201710339258 A CN201710339258 A CN 201710339258A CN 108073673 B CN108073673 B CN 108073673B
- Authority
- CN
- China
- Prior art keywords
- legal
- knowledge
- text
- feature
- machine learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 61
- 238000010276 construction Methods 0.000 title claims description 24
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 22
- 238000005516 engineering process Methods 0.000 claims description 16
- 238000013507 mapping Methods 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 9
- 238000003909 pattern recognition Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 230000015572 biosynthetic process Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 238000007637 random forest analysis Methods 0.000 claims description 4
- 239000012634 fragment Substances 0.000 claims description 2
- 239000000463 material Substances 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 13
- 239000000523 sample Substances 0.000 description 10
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008021 deposition Effects 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 208000014674 injury Diseases 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 210000001520 comb Anatomy 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Tourism & Hospitality (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Strategic Management (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Technology Law (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种利用人工智能领域的机器学习技术构建法律知识图谱,属于人工智能领域。本发明所涉及的系统、装置、方法和计算机可读介质,利用不同的技术手段,包括对文本的识别、法律规则模型的建立、自然语言理解法律知识特征、机器学习法律知识特征,最后有效建立法律知识的关联,通过上述技术手段的多维度、综合施行,实现对机器学习技术的有效选择、设置和利用,最大可能的准确识别法律知识,从而构建具有价值的法律知识图谱。
Description
技术领域
本发明涉及一种利用人工智能领域的机器学习技术构建法律知识图谱,属于人工智能领域。
背景技术
近年来,知识图谱的应用变成了大数据时代的一个标志。知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(HeterogeneousInformation)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。而伴随着知识图谱的兴起是人工智能领域的机器学习技术以及相关概念。其核心要点在于通过搜集一系列大数量级的结构化数据或非结构化数据,继而基于领域专业性对数据进行分析建模,并通过机器计算从中找出规律——通常是该领域的规律,最后机器可以识别该规律并进行学习,形成之后生成相关数据的计算规则。
目前对于知识图谱的建构方法有很多,通常涉及的技术是以爬虫爬取、日志搜索(query log)或基于Bootstrapping的多类别协同模式学习等方式,这类方法现在主要的应用途径是优化现有的搜索引擎。全世界的所有数据中,高达80%是非结构化数据,而大多数现有技术和云技术无法识别和分析这些数据。在法律领域,由于其高度的专业性、知识性和强逻辑性,法律知识图谱的建构基本还亟待发展,现有的技术最多仅仅是利用机器学习来建构数学模型来处理法律数据,但是这类数据通常是结构化数据,解析的也都是通用文本,无法适用于法律文本训练,灵活性较差。不仅如此,单不论法律知识图谱的建构还不成熟,即使基于现有的关联图技术和算法,对法律领域的适用度不足,主要是因为法律专业性较强,传统方法无法实现法律概念、规则的认知,只能揭示常规的实体关联关系,在法律逻辑层面的技术处理上有较大缺陷,并且业内对于利用机器学习的技术建构起法律知识图谱也仍旧处于空白。
发明内容
为了解决上述存在的技术问题,本发明提出了一种基于机器学习的法律知识图谱构建方法、装置、系统和介质。
本发明提出了一种基于机器学习的法律知识图谱构建方法,包括
知识生成模块,利用自然语言理解模块抽取得到的文本特征、特征机器学习模块学习得到的法律知识特征,以及知识工程模块识别得到的法律概念,对原始法律数据识别出法律知识点,并通过法律概念框架自动关联法律知识点以构建法律知识图谱。
根据本发明的一实施例,所述自然语言理解模块利用自然语言理解技术进行语义理解以及文本意图的识别,从而抽取得到所述文本特征。
根据本发明的一实施例,所述特征机器学习模块征利用随机森林算法对机器进行训练学习。
根据本发明的一实施例,所述知识工程模块用于梳理建立法律规则模型,利用所述法律规则模型识别法律概念,并作为法律知识特征存储于法律知识特征库。
本发明还提出了一种基于机器学习的法律知识图谱构建方法,包括,
步骤1,识别原始法律数据,并生成带有法律特征的文本语料库;
步骤2,利用所述文本语料库以及法律法规库识别法律实体和/或法律关系,进行法律规则处理并生成法律知识特征库;
步骤3,梳理建立法律规则模型,利用所述法律规则模型识别法律概念,并作为法律知识特征存储于所述法律知识特征库;
步骤4,基于所述文本语料库进行语意理解和/或识别文本意图,对文本语料上下文语境分析抽取文本特征并存储于所述法律知识特征库;
步骤5,利用所述法律知识特征库进行机器学习训练,并对机器学习训练后的法律特征存储于所述法律知识特征库;
步骤6,利用所述自然语言理解模块抽取得到的文本特征、所述特征机器学习模块得到的法律知识特征和/或所述知识工程模块识别得到的法律概念,识别法律知识点,并通过法律概念框架建立法律知识点的关联;
步骤7,展示通过已进行关联处理的法律知识点的法律知识图谱并保存所述法律知识图谱。
根据本发明的一实施例,所述步骤1,识别原始法律数据包括法律属性的识别、文本段落的识别、语句拆分、和/或分词。
根据本发明的一实施例,所述步骤3,由法律专家进行人工操作,或者由计算机进行自动操作。
根据本发明的一实施例,所述步骤4,进一步包括利用自然语言理解技术进行语义理解和文本意图的识别,从而抽取得到文本特征;
所述步骤5,进一步包括利用随机森林算法对机器进行训练学习。
本发明还提出了一种基于机器学习的法律知识图谱构建系统,包括,
数据预处理模块,用于识别原始法律数据,并生成带有法律特征的文本语料库;
实体与关系处理模块,利用所述文本语料库以及法律法规库识别法律实体和/或法律关系,进行法律规则处理并生成法律知识特征库;
知识工程模块,用于梳理建立法律规则模型,并利用所述法律规则模型识别法律概念,并作为法律知识特征存储于所述法律知识特征库;
自然语言理解模块,基于所述文本语料库进行语意理解和/或识别文本意图,对文本语料上下文语境分析抽取文本特征并存储于所述法律知识特征库;
特征机器学习模块,利用所述法律知识特征库进行机器学习训练,并对机器学习训练后的法律特征存储于所述法律知识特征库;
知识生成模块,利用所述自然语言理解模块抽取得到的文本特征、所述特征机器学习模块得到的法律知识特征和/或所述知识工程识别得到的法律知识概念,识别法律知识点,并通过法律概念框架建立法律知识点的关联;
知识图谱展示存储模块,展示通过已进行关联处理的法律知识点的法律知识图谱并保存所述法律知识图谱。
本发明还提出了一种基于机器学习的法律知识图谱构建装置,包括
存储器;
显示器;
一个或多个处理器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行以下步骤的指令:
识别原始法律数据,并生成带有法律特征的文本语料库;
利用所述文本语料库以及法律法规库识别法律实体和/或法律关系,进行法律规则处理并生成法律知识特征库;
梳理建立法律规则模型,利用所述法律规则模型识别法律概念,并作为法律知识特征存储于所述法律知识特征库;
基于所述文本语料库进行语意理解和/或识别文本意图,对文本语料上下文语境分析抽取文本特征并存储于所述法律知识特征库;
利用所述法律知识特征库进行机器学习训练,并对机器学习训练后的法律特征存储于所述法律知识特征库;
利用所述自然语言理解模块抽取得到的文本特征、所述特征机器学习模块得到的法律知识特征和/或所述知识工程模块识别得到的法律概念,识别法律知识点,并通过法律概念框架建立法律知识点的关联;
展示通过已进行关联处理的法律知识点的法律知识图谱并保存所述法律知识图谱。
本发明还提出了一种计算机可读存储介质,包括与具有显示器的装置结合使用的计算机程序,所述计算机程序可被处理器执行以完成以下步骤:
识别原始法律数据,并生成带有法律特征的文本语料库;
利用所述文本语料库以及法律法规库识别法律实体和/或法律关系,进行法律规则处理并生成法律知识特征库;
梳理建立法律规则模型,利用所述法律规则模型识别法律概念,并作为法律知识特征存储于所述法律知识特征库;
基于所述文本语料库进行语意理解和/或识别文本意图,对文本语料上下文语境分析抽取文本特征并存储于所述法律知识特征库;
利用法律知识特征库进行机器学习训练,并对机器学习训练后的法律特征存储于所述法律知识特征库;
利用所述自然语言理解模块抽取得到的文本特征、所述特征机器学习模块得到的法律知识特征和/或所述知识工程模块识别得到的法律概念,识别法律知识点,并通过法律概念框架建立法律知识点的关联;
展示通过已进行关联处理的法律知识点的法律知识图谱并保存所述法律知识图谱。
通过本发明提出的方法、装置、系统和介质,可以解决如下问题:1.法律知识图谱构建方法简单僵化、技术不成熟;2.机器学习与知识图谱结合不足;3.知识图谱转化为机器可学习的结构化数据欠缺。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1是本发明的数据预处理模块实现过程示意图;
图2是本发明的实体识别与实体关系的处理模块应用示意图;
图3是本发明的知识工程模块的应用示意图;
图4是本发明的自然语言理解模块的应用示意图;
图5是本发明的特征机器学习的模块应用示意图;
图6是本发明的法律知识构建模块应用示意图;
图7是本发明的法律知识图谱存储模块的应用示意图。
具体实施方式
本发明提出的基于机器学习的法律知识图谱构建系统包括数据预处理模块、实体与关系处理模块、知识工程模块、自然语言理解模块、特征机器学习模块、知识建构模块、知识图谱存储模块,具体实现如下:
1)所述数据预处理模块,从原始法律数据中找出已知可用的案例,进行法律属性的识别、文本段落识别、语句拆分、分词(同时从法律词典库中提取作为语料进行分词),输出带有法律特征的文本语料库。
2)所述实体识别与关系处理模块,利用文本语料库以及法律法规库进行法律实体识别和法律关系识别,进而进行法律规则处理,以此为基础生成法律知识特征库。
3)所述知识工程模块,由法学专家或资深、专业法律人士梳理出法律规则模型,通过模型的建立对法律概念进行抽取,作为法律知识特征存储在法律知识特征库。
4)所述自然语言理解模块,基于文本语料库采取自然语言理解NLU技术进行语意理解和文本意图识别,同时对文本语料上下文语境分析提取出文本特征,作为法律知识特征的补充存储进法律知识特征库。
5)所述特征机器学习模块,从法律知识特征库中抽取特征,进行加权之后采用随机森林算法进行对其训练,最后对机器学习后的法律特征回填进法律知识特征库,用以下一次机器学习使用。
6)所述知识生成模块,利用自然语言理解处理抽取得到的文本特征、机器学习模块得到的法律知识特征以及知识工程抽取得到的法律知识概念,进行法律知识点的识别,并通过法律领域的概念框架建立起法律知识点的关联。
7)所述知识图谱展示存储模块,通过已进行关联处理的法律知识点表示出法律知识图谱,以计算机可读取结构对图谱进行存储,待未来使用。
本发明所涉及的系统、装置、方法和存储有计算机程序的计算机可读介质,可以基于机器学习技术实现对有法律逻辑的知识数据进行计算和梳理,生成法律知识图谱,是人工智能领域的一大进展,为机器学习的进一步训练提供了新形式的训练材料。
本发明提出的机器学习的系统、装置、方法和介质,具备以下技术效果:
1.本发明较早利用司法数据公开的现状,对法律实务中的法律知识点进行梳理和建构。具体来说,早期利用互联网大数据进行知识建构的大多为搜索引擎或电商,因为通用知识公开且技术透明的缘由,很容易对通识性知识进行建构。而中国司法数据公开时间较晚,这类数据蕴含着法律领域中法官们判案的智慧,也蕴含了实务当中的法律知识点,如此数量级的原始知识数据由于公开时间晚于万维网的构建时间,因此对法律实务领域中带有的法律知识提取度较低。本发明基于此现状,提出利用司法大数据公开以及其他权威法律数据的渠道,通过机器学习和其他计算机技术实现对法律知识的抽取。
2.本发明解决了以往知识图谱构建方式单一的问题,利用自然语言理解技术、知识工程、实体识别与关系处理技术,三种技术并行的方式,对蕴含的法律知识和法律实体特征进行提取,大大改善了以往单一架构的问题:单一方式的构建传统上只能提升知识的覆盖率,对于噪声样本的问题除了不断铺设人力人工审核外没有更好的方式。而本发明三种技术的同时运用,利用各类算法,使机器智能化,在扩大知识覆盖率——尤其是法律知识覆盖率的同时,还可以不断修正知识的准确率,即使初期的准确率不足,也可以通过不断的机器学习来逐步提升准确率,具有成本低、效率高、准确性强的优点。
3.本发明实现了对知识提取不断更新迭代,和社会变迁与法律政策的变化随时保持准确一致。本发明引入特征机器学习方法,与提取到的法律知识相结合,不断对机器进行样本训练。初期通过人机交互的方式来使机器建立初步的法律知识框架和基础法律知识特征,随着机器训练的不断进行,机器逐步提升法律领域知识的识别准确度、学习精确度、概念理解度、知识应用度等多维度能力,不再需要人工审核训练样本,实现随已知知识增多,能够清晰识别的法律特征实体也相应增加,从而达到系统自学习目的,具有低成本、高效率、更智能的优点。
本领域技术人员应当明了的是,法律领域中,本发明提出的法律概念框架的含义和边界是清楚,即包含所有法律概念及其法学框架,所述法学框架的划分可以包括中国和外国的法律体系,也可以包括中央和地方的法律法规体系,但不仅限于此。法律知识点和法律框架的关系也不言自明,即遵从于整个法律体系的知识框架架构,现有的法律知识点和法律框架的理解都纳入本发明的保护范围。另外,法律知识点和法律观念框架或法学框架的关联同样遵从于现有和今后法律发展的具有共识的体系,本发明的目的在于将已经形成共识,具有清楚、完整的法律知识点进行技术性的关联。
图1展示的是数据预处理模块实现过程示意图,具体为:
以法院、当事人或检察院等渠道(包括但不限于)获取到的原始案例文本为样例库,作为数据输入的来源,进入数据预处理模块。具体的实施步骤是:
1.样本材料进入模块,首先识别出样本属性,基于模块中种类特征模型的定义可快速识别文本中由公诉机关、法院、法官、被告人、被害人、辩护人等多种角色的人参与案件的叙述内容,定位可用信息。例如:根据辩护人、公诉人(机关)等角色可以识别出文书的法律属性为刑事文书。
输入:文书和文书属性判定规则(如正则表达式)
输出:文书属性类别
处理方法:文本匹配
2.进一步的,依据法律规定,法律文书中各逻辑段在行文顺序方面基本相同,因此便可以利用模块段落识别模型对文本进行段落识别和划分,便于将文书逻辑明晰化,利于下一步文本处理。例如:对于刑事判决书的段落结构一般可以分为案件事实段、检察院指控段落、法院裁判分析段落。
这一步采用通用的段落分类器,
输入:由各个段落组成的案例文本
输出:各个段落的所属类别
算法:分类器(SVM分类器libsvm或者朴素贝叶斯分类器)
3.进一步的,利用模块语句特征模型,规范法律文本用语特征,规范用语特征模型采用关键字的方式表达——主要是法律意义的表达,例如描述案件进展,包括:指控、独任审判、合议庭、公开开庭、出庭支持公诉、现已审理终结、经审理查明、本院认为、判决如下、如不服本判决等;描述与案人员(含审判主体与客体)的角色称谓,包括:被告人、被告人暨附带民事诉讼被告人、被害人;法定代理人、辩护人;审判长、审判员、书记员,从而将段落拆分成一个个句子。
输入:文书段落和模块语句特征
输出:句子
处理方法:文本匹配
4.进一步的,利用分词技术,对识别到的句子进行极细颗粒度的词语划分,按照中文语法并辅以法律概念对词语进行划分的同时,还可以进行类别归类。例如:对动词的分类在法律概念上可以划分出法律行为概念,如刑事中的杀人、民事中的买卖、行政中的征收等。
输入:句子、法律词典、法律本体论
输出:分词后的句子和相对应的法律概念
处理方法:分词器(结巴中文分词)
图2展示的是实体识别与实体关系的处理模块应用示意图,具体实施如下:
1.在从图1获得的文本语料库中对具有法律意义的实体进行识别,具体上除了通过上述的文本语料库,还要辅以法律法规库,利用命名实体识别的技术提取出该法律实体,例如:不止是带有“被告”、“夫妻”、“财产”的表述被识别,还要将“被告”、“夫妻”、“财产”的同义表述也识别出。
2.进一步利用识别提取到的法律实体,并继续使用法律法规库,对法律实体关系进行识别,具体采取具有法律逻辑的分析方法对实体间的关系总结提取,进而建立起法律实体之间法律意义上的关联关系。例如:对于实体“正当防卫”与“故意伤害”之间的互斥关系进行识别。
3.利用规则样本建立规则模型,该模型具有可变性、及时性、实时更新等特性,无论法律法规如何变化,只要规则模型可变且具有复用性,对法律实体、实体关系以及法律规则就可以做到同步更新。例如:利用“正当防卫”和“故意伤害”之间具有互斥的关系,可以处理出现这两种数据时的计算逻辑。
4.模块还有文本的识别引擎且具有自学习能力,在其自动采集文本信息过程,能够识别出其中文本特征清晰的实体,将其存放在提取目标集中,作为“已知知识”处理,为不清晰的实体提取工作提供更多的线索,使可识别率大幅提高。随着已知知识的增多,能够清晰识别的文本特征实体也相应增加,从而达到系统自学习目的。文本识别引擎自学习过程的具体设计说明如下:对于文本特征不够强的提取目标,实体识别引擎采用了动态构造正则表达式的机制,即通过XPath检索已知知识,作为当前正则表达式中的精确文本,充当当前文书的领域特征,借之增强文本模式,继而完成匹配。不断重复这种复合提取模式,能够迭代出更多的实体。
5.法律实体、实体关系以及处理后的规则共同被识别提取出后进入法律知识特征库。
图3展示的是知识工程模块的应用示意图,具体实施如下:
1.法律专家或法学人士具有资深的法学知识和经验,这些知识和经验属于非结构化数据,需要对其建立规则模型转化成为结构化数据。例如:利用正则表达式,将具有法律含义的实体转化为可被计算机识别的结构化数据,具体而言就是将都可以被识别为“正当防卫”的表述都以正则表达式表示出来。
2.法律概念由具有法律意义的构成要件和一般语词所组成,法律概念的抽取就需要对具有法律知识的主体进行解构,根据构成要件,从而析出法律概念。例如:对于“不当得利”的表述:“没有法律根据取得利益,致使他人损害的,为不当得利”,需要析出“无法律根据”、“利益与损失的因果”、“一方受损”、“一方得利”这些构成要件,从而得到“不当得利”这个法律概念。
3.将法律概念与法律规则模型得到的数据提取后进入法律知识特征库
图4展示的是自然语言理解模块的应用示意图,具体实施如下:
1.利用词聚类组件,基于Google Word2Vec框架,结合法宝法律法规规则库和法院业务规则,根据语义信息、短语结构、短语词典等计算短语之间的相关关系,形成相关短语聚类,以及相关性评价。
2.依据聚类表示和组件,对语义意图进行识别,每个词组采用DistributedRepresentation表示方法,被设置为一个词向量,例如:[0.792,-0.177,-0.107,0.109,-0.542,...]。使用神经网络训练语言模型,对词向量进行训练。通过文本统计出的词频、词的共现等因素,影响词向量值的调整,进而从大量未标注的普通文本数据中无监督地学习出优质的词向量。通过比较词向量的距离,聚类语意相近的词向量集合,作为组件的输出。
3.特征词的提取要依据上下文语境,并基于此进行分词技术的运用,具体实施是:
1)通过分词算法对文本中的词汇进行提取。所有词汇对文本分类的意义不同,通常一些通用的、各个类别都普遍存在的词汇对分类的贡献小,在某特定类中出现比重大而在其他类中出现比重小的词汇对文本分类的贡献大。为了提高分类精度,对于每一类,系统自动去除表现力不强的词汇,筛选出针对该类的特征项集合。
2)系统在词频、文档频、停用词这些基本方法上,采用了TF-IDF(term frequency–inverse document frequency)方法来进行特征选择,依据某个词的词频和其出现过的文本的频率来计算该词在整个文本集合中的权重,依据权重来进行特征选取。权重越高,说明该词对文本的区分能力越强,否则其区分能力则越弱。
3)基于文本特征词,形成向量空间模型。在这个模型中,文本空间被看作是由一组正交词条向量组成的向量空间,每个文本表示为其中一个范化特征向量。行代表文档,列代表文档中出现的词,从而使文本的表示和处理形式化,以便计算机处理。
4)生成的特征词进入到法律知识特征库中存储以供使用
图5展示的是特征机器学习的模块应用示意图,具体实施如下:
1.根据对法律知识特征库中的法律实体、文本数据、法律概念的特征分析,进行文本特征的量化配置,包括逻辑段的特征识别、关键词的特征配置等,作为下一步实体权重计算和替换的规则依据。例如:逻辑段的划分,对于当事人自然状况、诉讼代理人(辩护人)状况的逻辑段,其前导特征字符串和截止特征字符串,在不同种类的裁判文书中均能总结出规律,作为特定逻辑段的文本特征。例如:对于“非法占有为目的”的特征要素,对其进行后续权重计算的量化,设置基准参数。
2.对法律实体特征和文本数据特征以及法律概念特征的数据进行权重加权计算,根据不同目的、不同案由、不用类别的图谱种类,这个权重参数设置为可调整,根据不同的需求和欲达到的效果从而进行不同的计算。例如:对“非法占有为目的”需要作为一个罪名主要的特征,则该特征的准确度权重参数就需要调高,如是作为一个次要特征,则该特征的准确度权重参数就可以降低。
3.得到加权计算的特征之后,利用随机森林算法,生成每个决策树,利用每个决策树得到分类器,就可以对输入进来的样本特征进行分类,同时还可以给出各个变量(基因)的重要性评分,评估各个变量在分类中所起的作用。例如:对“非法占有为目的”及其相关表述进行了样本归类,可以对该特征进行重要性评分,比如在财产犯罪中的重要性评分就会高,那么就可以作为财产性犯罪的特征——例如盗窃罪。
4.分类后的特征被固定下来,最后进入到法律知识特征库作为更为准确的样本补充。例如:“以非法占有为目的”的表述“欲据为己有”就可以被补充进如“盗窃罪”、“侵占罪”等罪的知识特征库中。
图6展示的是法律知识构建模块应用示意图,具体如下:
1.首先,利用法律知识特征库中的法律概念数据、法律特征实体数据、文本特征数据进行聚类划分,从中提取出法律知识,这类知识可以是法律法规所含有的法律知识,但更多的是法律领域中基于法官的审判经验、基于检察官的公诉经验、基于大众社会的固有惯例、基于社会运行的法律规则等法律知识。例如:法律规定“自动投案”、“如实供述”是“自首”的构成要件,那么在实务审判中,就会有“自动向监狱机关投案”以及“如实供述自己或同案犯犯下的罪行”这类表述,在实体识别和知识工程阶段会将这种表述提取出来进入到法律知识特征库之中作为法律知识特征存储。本阶段就是要将这些基于法律实务的法律特征与法律规定的法律特征进行对应。
2.进一步的,法律领域中的结构就是法学框架,例如刑法中的“四要件”、“三阶层”。那么要形成法律知识之间的动态关联就需要这些框架作为支撑,将上一步的法律知识根据框架建立关联关系,从而形成整个法律体系。例如,上一步中的“自首”已经有了实务知识的“向监狱机关投案,并如实供述自己或同案犯的罪行”地补充,则需要将这些法律知识依据法律体系进行归入,即将“自首”及其相关替代表述归入进“刑法总则”之中。
图7展示的是法律知识图谱存储模块的应用示意图,具体为:
将已生成的具有法学体系的法律知识按照结构化数据存储的方式存储在法律知识图谱存储模块中,按照法律关系的不同具体划分不同的存储集,例如:盗窃罪实体集、买卖合同实体集、行政征收实体集等。
本领域普通技术人员还应当明白,结合本申请所公开内容描述的各种示例性的模块、装置和步骤均可以实现成电子硬件、计算机软件或二者的组合。为了清楚地表示硬件和软件之间的可交换性,上面对各种示例性的部件、框、模块、电路和步骤均围绕其功能进行了总体描述。至于这种功能是实现成硬件还是实现成软件,取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用,以变通的方式实现所描述的功能,但是,这种实现决策不应解释为背离本发明的保护范围。
用于执行本申请所述功能的通用处理器(CPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件部件或者其任意组合,可以用来实现或执行结合本申请所公开内容描述的各种示例性的逻辑框、模块和电路。通用处理器可以是微处理器,或者,该处理器也可以是任何常规的处理器、控制器、微控制器或者状态机。处理器也可以实现为计算设备的组合,例如,DSP和微处理器的组合、若干微处理器、一个或多个微处理器与DSP内核的结合,或者任何其它此种结构。结合本申请所公开内容描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或两者的组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域已知的任何其它形式的存储介质中。可以将一种示例性的存储介质连接至处理器,从而使该处理器能够从该存储介质读取信息,并且可向该存储介质写入信息。或者,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然,处理器和存储介质也可以作为分立组件存在于用户终端中。
本申请接受各种修改和可替换的形式,具体的实施方式已经在附图中借助于实施例来显示并且已经在本申请详细描述。但是,本申请不意在受限于公开的特定形式。相反,本申请意在包括本申请范围内的所有修改形式、等价物、和可替换物,本申请的范围由所附权利要求及其法律等效物限定。
Claims (7)
1.一种基于机器学习的法律知识图谱构建方法,其特征在于,
步骤1,识别原始法律数据,并生成带有法律特征的文本语料库;
步骤2,利用所述文本语料库以及法律法规库识别法律实体和/或法律关系,进行法律规则处理并生成法律知识特征库;
步骤3,梳理建立法律规则模型,利用所述法律规则模型识别法律概念,并作为法律知识特征存储于所述法律知识特征库;
步骤4,基于所述文本语料库进行语意理解和/或识别文本意图,对文本语料上下文语境分析抽取文本特征并存储于所述法律知识特征库;
步骤5,利用所述法律知识特征库进行机器学习训练,并对机器学习训练后的法律特征存储于所述法律知识特征库;
步骤6,利用自然语言理解模块抽取得到的文本特征、特征机器学习模块得到的法律知识特征和/或知识工程模块识别得到的法律概念,识别法律知识点,并通过法律概念框架建立法律知识点的关联;
步骤7,展示通过已进行关联处理的法律知识点的法律知识图谱并保存所述法律知识图谱。
2.如权利要求1所述的基于机器学习的法律知识图谱构建方法,
所述步骤1,识别原始法律数据包括法律属性的识别、文本段落的识别、语句拆分、和/或分词。
3.如权利要求1或2所述的基于机器学习的法律知识图谱构建方法,
所述步骤3,由法律专家进行人工操作,或者由计算机进行自动操作。
4.如权利要求3所述的基于机器学习的法律知识图谱构建方法,
所述步骤4,进一步包括利用自然语言理解技术进行语义理解和文本意图的识别,从而抽取得到文本特征;
所述步骤5,进一步包括利用随机森林算法对机器进行训练学习。
5.一种基于机器学习的法律知识图谱构建系统,其特征在于包括,
数据预处理模块,用于识别原始法律数据,并生成带有法律特征的文本语料库;
实体识别与关系处理模块,利用所述文本语料库以及法律法规库识别法律实体和/或法律关系,进行法律规则处理并生成法律知识特征库;
知识工程模块,用于梳理建立法律规则模型,并利用所述法律规则模型识别法律概念,并作为法律知识特征存储于所述法律知识特征库;
自然语言理解模块,基于所述文本语料库进行语意理解和/或识别文本意图,对文本语料上下文语境分析抽取文本特征并存储于所述法律知识特征库;
特征机器学习模块,利用所述法律知识特征库进行机器学习训练,并对机器学习训练后的法律特征存储于所述法律知识特征库;
知识生成模块,利用所述自然语言理解模块抽取得到的文本特征、所述特征机器学习模块得到的法律知识特征和/或所述知识工程识别得到的法律知识概念,识别法律知识点,并通过法律概念框架建立法律知识点的关联;
知识图谱展示存储模块,展示通过已进行关联处理的法律知识点的法律知识图谱并保存所述法律知识图谱。
6.一种基于机器学习的法律知识图谱构建装置,其特征在于,包括
存储器;
显示器;
一个或多个处理器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行以下步骤的指令:
识别原始法律数据,并生成带有法律特征的文本语料库;
利用所述文本语料库以及法律法规库识别法律实体和/或法律关系,进行法律规则处理并生成法律知识特征库;
梳理建立法律规则模型,利用所述法律规则模型识别法律概念,并作为法律知识特征存储于所述法律知识特征库;
基于所述文本语料库进行语意理解和/或识别文本意图,对文本语料上下文语境分析抽取文本特征并存储于所述法律知识特征库;
利用所述法律知识特征库进行机器学习训练,并对机器学习训练后的法律特征存储于所述法律知识特征库;
利用自然语言理解模块抽取得到的文本特征、特征机器学习模块得到的法律知识特征和/或知识工程模块识别得到的法律概念,识别法律知识点,并通过法律概念框架建立法律知识点的关联;
展示通过已进行关联处理的法律知识点的法律知识图谱并保存所述法律知识图谱。
7.一种计算机可读存储介质,其特征在于,包括与具有显示器的装置结合使用的计算机程序,所述计算机程序可被处理器执行以完成以下步骤:
识别原始法律数据,并生成带有法律特征的文本语料库;
利用所述文本语料库以及法律法规库识别法律实体和/或法律关系,进行法律规则处理并生成法律知识特征库;
梳理建立法律规则模型,利用所述法律规则模型识别法律概念,并作为法律知识特征存储于所述法律知识特征库;
基于所述文本语料库进行语意理解和/或识别文本意图,对文本语料上下文语境分析抽取文本特征并存储于所述法律知识特征库;
利用所述法律知识特征库进行机器学习训练,并对机器学习训练后的法律特征存储于所述法律知识特征库;
利用自然语言理解模块抽取得到的文本特征、特征机器学习模块得到的法律知识特征和/或知识工程模块识别得到的法律概念,识别法律知识点,并通过法律概念框架建立法律知识点的关联;
展示通过已进行关联处理的法律知识点的法律知识图谱并保存所述法律知识图谱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710339258.8A CN108073673B (zh) | 2017-05-15 | 2017-05-15 | 一种基于机器学习的法律知识图谱构建方法、装置、系统和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710339258.8A CN108073673B (zh) | 2017-05-15 | 2017-05-15 | 一种基于机器学习的法律知识图谱构建方法、装置、系统和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108073673A CN108073673A (zh) | 2018-05-25 |
CN108073673B true CN108073673B (zh) | 2019-02-26 |
Family
ID=62159109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710339258.8A Active CN108073673B (zh) | 2017-05-15 | 2017-05-15 | 一种基于机器学习的法律知识图谱构建方法、装置、系统和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108073673B (zh) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145102B (zh) * | 2018-09-06 | 2021-02-09 | 杭州安恒信息技术股份有限公司 | 智能问答方法及其知识图谱系统构建方法、装置、设备 |
CN110895568B (zh) * | 2018-09-13 | 2023-07-21 | 阿里巴巴集团控股有限公司 | 处理庭审记录的方法和系统 |
CN109509556A (zh) * | 2018-11-09 | 2019-03-22 | 天津开心生活科技有限公司 | 知识图谱生成方法、装置、电子设备及计算机可读介质 |
CN109710383A (zh) * | 2018-12-29 | 2019-05-03 | 上海晏鼠计算机技术股份有限公司 | 一种人工智能算法容器化应用的方法 |
CN109919368B (zh) * | 2019-02-26 | 2020-11-17 | 西安交通大学 | 一种基于关联图的法条推荐预测系统及方法 |
CN111625653A (zh) * | 2019-02-26 | 2020-09-04 | 广州慧睿思通信息科技有限公司 | 法律数据处理方法、装置、计算机设备和存储介质 |
CN109933789B (zh) * | 2019-02-27 | 2021-04-13 | 中国地质大学(武汉) | 一种基于神经网络的司法领域关系抽取方法及系统 |
CN110232447B (zh) * | 2019-04-28 | 2021-04-06 | 杭州实在智能科技有限公司 | 法律案件深度推理方法 |
CN110188346B (zh) * | 2019-04-29 | 2023-09-29 | 浙江工业大学 | 一种基于信息抽取的网络安全法案件智能研判方法 |
CN109977236A (zh) * | 2019-04-30 | 2019-07-05 | 上海乂学教育科技有限公司 | 实现重复学习的人工智能教学系统 |
CN110197280B (zh) * | 2019-05-20 | 2021-08-06 | 中国银行股份有限公司 | 一种知识图谱构建方法、装置及系统 |
CN110334212A (zh) * | 2019-07-01 | 2019-10-15 | 南京审计大学 | 一种基于机器学习的领域性审计知识图谱构建方法 |
CN110717049B (zh) * | 2019-08-29 | 2020-12-04 | 四川大学 | 一种面向文本数据的威胁情报知识图谱构建方法 |
CN110825879B (zh) * | 2019-09-18 | 2024-05-07 | 平安科技(深圳)有限公司 | 判案结果确定方法、装置、设备及计算机可读存储介质 |
CN110879842A (zh) * | 2019-10-15 | 2020-03-13 | 东南大学 | 一种基于信息抽取的法律知识图谱构建方法 |
CN111143521B (zh) * | 2019-10-28 | 2023-08-15 | 广州恒巨信息科技有限公司 | 基于知识图谱的法条检索方法、系统、装置及存储介质 |
CN110727806B (zh) * | 2019-12-17 | 2020-08-11 | 北京百度网讯科技有限公司 | 基于自然语言和知识图谱的文本处理方法及装置 |
KR102524766B1 (ko) | 2019-12-17 | 2023-04-24 | 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 | 자연어 및 지식 그래프 기반 표현 학습 방법 및 장치 |
CN110795926B (zh) * | 2020-01-03 | 2020-04-07 | 四川大学 | 一种基于法律知识图谱的裁判文书相似性判断方法及系统 |
CN111400480B (zh) * | 2020-04-21 | 2023-05-12 | 支付宝(杭州)信息技术有限公司 | 针对多轮对话的用户意图识别方法和装置 |
CN111797231B (zh) * | 2020-06-11 | 2021-08-20 | 南京擎盾信息科技有限公司 | 基于三阶层论法律推理命题表示方法、法律事件推理方法和电子设备 |
CN111753928B (zh) * | 2020-07-29 | 2023-05-16 | 北京人人云图信息技术有限公司 | 一种基于知识图谱与树模型构造的海关检测规则生成方法 |
CN112347270A (zh) * | 2020-11-30 | 2021-02-09 | 重庆工程职业技术学院 | 一种法律知识图谱构建系统及方法 |
CN112559766B (zh) * | 2020-12-08 | 2022-08-26 | 杭州互仲网络科技有限公司 | 一种法律知识图谱构建系统 |
CN112612906B (zh) * | 2020-12-29 | 2022-01-11 | 广东电网有限责任公司中山供电局 | 一种基于最大熵模型的规则知识图谱构建方法及系统 |
CN113032359A (zh) * | 2021-01-29 | 2021-06-25 | 厦门市法度信息科技有限公司 | 一种智能办案辅助系统及方法 |
CN113420126B (zh) * | 2021-06-30 | 2024-05-07 | 北京法意科技有限公司 | 基于法规文本的法律规则图谱构建方法及系统 |
CN115511668B (zh) * | 2022-10-12 | 2023-09-08 | 金华智扬信息技术有限公司 | 一种基于人工智能的案件监督方法、装置、设备和介质 |
CN116244315B (zh) * | 2022-12-08 | 2023-11-10 | 南京擎盾信息科技有限公司 | 一种法律法规数据库时效性动态更新的方法和系统 |
CN116523039B (zh) * | 2023-04-26 | 2024-02-09 | 华院计算技术(上海)股份有限公司 | 连铸知识图谱的生成方法及装置、存储介质、终端 |
CN117436768A (zh) * | 2023-12-19 | 2024-01-23 | 湖南三湘银行股份有限公司 | 一种基于数据治理的统一监管指标方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103955531B (zh) * | 2014-05-12 | 2017-06-30 | 南京提坦信息科技有限公司 | 基于命名实体库的在线知识地图 |
CN106447346A (zh) * | 2016-08-29 | 2017-02-22 | 北京中电普华信息技术有限公司 | 一种智能电力客服系统的构建方法及系统 |
CN106649661A (zh) * | 2016-12-13 | 2017-05-10 | 税云网络科技服务有限公司 | 知识库构建方法和装置 |
-
2017
- 2017-05-15 CN CN201710339258.8A patent/CN108073673B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108073673A (zh) | 2018-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108073673B (zh) | 一种基于机器学习的法律知识图谱构建方法、装置、系统和介质 | |
CN108073569B (zh) | 一种基于多层级多维度语义理解的法律认知方法、装置和介质 | |
Lin et al. | Predictive intelligence in harmful news identification by BERT-based ensemble learning model with text sentiment analysis | |
Atanasova et al. | Automatic fact-checking using context and discourse information | |
Mohler et al. | Semantic signatures for example-based linguistic metaphor detection | |
CN108363687A (zh) | 主观题评分及其模型的构建方法、电子设备及存储介质 | |
CN106997341B (zh) | 一种创新方案匹配方法、装置、服务器及系统 | |
CN104573028A (zh) | 实现智能问答的方法和系统 | |
CN110249341A (zh) | 分类器训练 | |
CN107239439A (zh) | 基于word2vec的舆情倾向性分析方法 | |
CN107608999A (zh) | 一种适用于自动问答系统的问句分类方法 | |
CN105320960A (zh) | 一种基于投票的跨语言主客观情感分类方法 | |
CN110390006A (zh) | 问答语料生成方法、装置和计算机可读存储介质 | |
WO2010132790A1 (en) | Methods and systems for knowledge discovery | |
Kausar et al. | ProSOUL: a framework to identify propaganda from online Urdu content | |
Schulder et al. | Metaphor detection through term relevance | |
CN113378565A (zh) | 多源数据融合的事件分析方法、装置、设备及存储介质 | |
Seganti et al. | NLPR@ SRPOL at SemEval-2019 Task 6 and Task 5: Linguistically enhanced deep learning offensive sentence classifier | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN110851593B (zh) | 一种基于位置与语义的复值词向量构建方法 | |
CN111091009A (zh) | 一种基于语义分析的文档关联审核方法 | |
Fu et al. | Learning semantic hierarchies: A continuous vector space approach | |
CN110019776A (zh) | 文章分类方法及装置、存储介质 | |
CN110232124A (zh) | 一种情感分析系统 | |
CN106294315A (zh) | 基于句法特性与统计融合的自然语言谓语动词识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |