CN108073988B

CN108073988B - 一种基于强化学习的法律认知方法、装置和介质

Info

Publication number: CN108073988B
Application number: CN201710476566.5A
Authority: CN
Inventors: 李东海; 黄晓宏
Original assignee: Beijing Huayu Yuandian Information Services Co ltd
Current assignee: Beijing Huayu Yuandian Information Services Co ltd
Priority date: 2017-06-21
Filing date: 2017-06-21
Publication date: 2021-09-03
Anticipated expiration: 2037-06-21
Also published as: CN108073988A

Abstract

本发明涉及一种利用人工智能领域的机器学习技术，通过机器强化学习和反馈法律知识提高人工智能的水平，尤其是法律领域人工智能的水平。本发明所涉及的方法、装置和计算机可读介质，调用法律知识图谱，获得法律概念，对所述法律概念进行置信度评价，获得法律认知结果，构建所述法律认知结果的评估网络，通过所述评估网络，反馈并强化所述法律知识图谱。对法律知识的识别和处理引入评价机制，提高了人工智能法律知识的处理能力。

Description

一种基于强化学习的法律认知方法、装置和介质

技术领域

本发明涉及一种利用人工智能领域的学习和认知，特别是法律信息的人工智能学习领域。

背景技术

自然语言处理(natural language processing，简称NLP)是计算机科学，人工智能，语言学关注计算机和人类(自然)语言之间的相互作用的领域。对于自然语言理解，特别是语义理解方面，从现有的理论和技术现状看，部分的自然语言处理系统，特别是针对特定业务需求的自然语言处理和理解系统，虽然具备了一定的实用性，但是在法律文本的自然语言处理领域，尚无成熟的、专业的技术成果和商业应用。

就法律自然语言理解而言，其主要问题包括几方面：

一是缺少针对法律领域的大规模真实语料库的研制，以及专业性强的丰富的法律词典的编制。如对于法律专业的“无因管理”、“不当得利”以及特定的案由、罪名等，通用的分词等技术是无法满足实际应用需求的。

二是对法律文本的基本属性、特征、规则研究不足，导致对包括裁判文书、检察文书、诉状与答辩意见、证据材料等在内的各类文本进行信息抽取和分析效果不佳。

三是目前的语义理解能力，主要集中在对相似的法律词语的理解上。在短语、语句层面的理解效果上还有不足，导致无法实现从字面涵义到法律涵义的转换，更无法对纷繁复杂的案件自然事实、情节、证据进行统一认知和扩展。

举例来说，裁判文书会区分为刑事、民事、行政、执行等各类案件类型，同时也会区分一审、二审、再审等各类审判程序，并且根据判决、裁定、调解文书来看，其文书结构和段落等也会有较多的差别。只有精准的识别了相应的属性，我们才有可能更好地做相应的信息抽取和语义理解。如到公安机关投案这个事实，在法律认知上属于自首的一个具体情形。再如对于入户盗窃中关于“户”的理解，也需要结合具体语境或者实际情况来实现统一的认知，从而扩展我们的知识。

强化学习(reinforcement learning)，是一种重要的机器学习方法，在智能控制机器人及分析预测等领域有许多应用。强化学习主要实现智能系统从环境到行为映射的学习，以使奖励信号(强化信号)函数值最大，不断找到实现优化。

就强化学习而言，其主要问题在于：传统的强化学习，一般是通过完全的人机交互来实现的。而针对法律领域，由于其专业性、逻辑性的要求，单纯的依靠人工干预，即使是专业的法律用户来干预，一方面在效率、成本上有诸多制约，另一方面，也会受到人为判定标准差异性等因素的影响。单纯的自然语言处理技术和强化学习技术不能很好地解决法律文本处理和认知方面的问题，因此我们提出了基于强化学习的法律认知引擎和其应用方法。

发明内容

为了解决上述存在的技术问题，本发明提出了一种基于强化学习的法律认知方法、装置和介质。本发明提出的技术方案与法律知识图谱调用和法律规则构建技术相结合，通过对法律概念的置信度评价，对强化反馈的效率和准确性进行改进，促进机器的自主强化学习，从而提高法律知识的准确性。

本发明提出的一种基于强化学习的法律认知方法，包括，

步骤1：调用法律知识图谱，获得法律概念；

步骤2：对所述法律概念进行置信度评价，获得法律认知结果；

步骤3：构建所述法律认知结果的评估网络；

步骤4：通过所述评估网络，反馈并强化所述法律知识图谱。

根据本发明的实施例，所述评估网络通过用户对法律认知结果进行评判，如果认可，则给法律认知结果所包括的实体或者关系为正面激励，如果不认可，则给所述实现或者关系为负面激励；或者将法律认知结果反馈给法律规则引擎，由所述法律规则引擎装置自动验证，如果验证正常通过，则给所述实体或者关系为正面激励，如果错误或者不通过，则给所述实体或者关系为负面激励。

根据本发明的实施例，所述评估网络获取由用户或法律规则引擎装置给出的评估结果，并将其反馈给所述法律知识图谱，由所述法律知识图谱进行验证，如果通过，则所述置信度评价包括的评价规则权重增加，如果不通过，则所述置信度评价包括的评价规则权重减少。

根据本发明的实施例，重复步骤4，当反馈结果满足所述法律知识图谱的要求时停止重复步骤4。

根据本发明的实施例，所述要求为当权重变化量小于指定值时，停止步骤4。

根据本发明的实施例，通过自然语言处理抽取得到文本特征、法律知识特征和/或法律概念，识别法律知识点，并通过法律概念框架建立法律知识点的关联，并将已进行关联处理的法律知识点存储于法律知识图谱。

根据本发明的实施例，所述自然语言处理包括对法律文本内容进行预处理，所述预处理包括了对法律文本信息进行分段、分句和分词，利用法律属性抽取模型，对分词后的文本信息进行法律文本属性特征的识别，并结合法律法规库形成法律规则集合。

根据本发明的实施例，对所述法律概念中的法律属性进行识别，并利用法律法规库构建法律规则，所述法律规则用于所述置信度评价。

本发明提出了一种基于强化学习的法律认知装置，包括，

获取模块，用于调用法律知识图谱，获得法律概念；

评价模块，用于对所述法律概念进行置信度评价，获得法律认知结果；

构建模块，构建所述法律认知结果的评估网络；

强化模块，通过所述评估网络反馈并强化所述法律知识图谱。

根据本发明的另一实施例，基于强化学习的法律认知装置包括自然语言处理模块，用于抽取得到文本特征、法律知识特征和/或法律概念，识别法律知识点，并通过法律概念框架建立法律知识点的关联，并将已进行关联处理的法律知识点存储于法律知识图谱。

根据本发明的另一实施例，基于强化学习的法律认知装置包括法律规则构建模块，用于对所述法律概念中的法律属性进行识别，并利用法律法规库构建法律规则，所述法律规则用于所述置信度评价。

本发明提出了一种基于强化学习的法律认知装置，包括存储器、显示器、一个或多个处理器、一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行以下步骤的指令：

步骤1：调用法律知识图谱，获得法律概念；

步骤3：构建所述法律认知结果的评估网络；

步骤4：通过所述评估网络，反馈并强化所述法律知识图谱。

本发明还提出了一种基于强化学习的法律认知装置，包括存储器、显示器、一个或多个处理器、一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行上述任一所述的方法的指令。

本发明还提出了一种计算机可读存储介质，包括与具有显示器的装置结合使用的计算机程序，所述计算机程序可被处理器执行以完成以下步骤：

步骤1：调用法律知识图谱，获得法律概念；

步骤3：构建所述法律认知结果的评估网络；

步骤4：通过所述评估网络，反馈并强化所述法律知识图谱。

本发明还提出了一种计算机可读存储介质，包括与具有显示器的装置结合使用的计算机程序，所述计算机程序可被处理器执行上述任一所述的方法。

本发明与现有技术相比所产生的有益效果是：

一、在传统的人机交互基础上，引入了基于法律逻辑规则的法律认知结果验证机制，促进机器自主强化学习，提高了输出的法律知识的准确性。正确率可以提高到95％以上。

二、研制和运用针对法律领域的大规模真实语料库以及专业性强的丰富的法律词典，对分词、法律属性识别、法律规则构建和语义理解、法律概念认知奠定了基础。

三、可对法律文本中的各类自然事实在短语、句子层面进行深度理解，扩展了法律认知的能力。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。在附图中：

图1是本发明的机器基于强化学习的流程图；

图2是本发明的法律实体关系示意图；

图3是本发明的自然语言处理中的数据预处理模块实现过程示意图；

图4是本发明的法律知识构建示意图；

图5是本发明的法律知识图谱示意图。

具体实施方式

本领域技术人员应当明了的是，法律领域中，本发明提出的法律概念框架的含义和边界是清楚，即包含所有法律概念及其法学框架，所述法学框架的划分可以包括中国和外国的法律体系，也可以包括中央和地方的法律法规体系，但不仅限于此。法律知识点和法律框架的关系也不言自明，即遵从于整个法律体系的知识框架架构，现有的法律知识点和法律框架的理解都纳入本发明的保护范围。另外，法律知识点和法律观念框架或法学框架的关联同样遵从于现有和今后法律发展的具有共识的体系，本发明的目的在于将已经形成共识，具有清楚、完整的法律知识点进行技术性的关联。

本领域的技术人员还应明了的是，本发明利用各类算法，使机器智能化，在扩大知识覆盖率——尤其是法律知识的同时，还可以不断修正知识的准确率，即使初期的准确率不足，也可以通过不断的机器学习来逐步提升准确率，具有成本低、效率高、准确性强的优点。本发明实现了对知识提取不断更新迭代，和社会变迁与法律政策的变化随时保持准确一致。本发明提出的机器强化学习遵从本领域技术人员所能理解的人工智能领域的通常含义，尤其是对强化反馈的目的和基本含义对所属技术领域的技术人员而言是明了的，因此，其所表达的含义在本领域中是清楚的。

图1示出的是本发明的机器对法律知识强化学习的流程图。具体为：

(1)基于法律知识图谱实现法律认知的强化学习。

法律知识图谱主要是法律领域的实体、实体属性、实体关系。本发明的目的就是在一个初步构建的法律知识图谱的基础上，通过强化学习的方法不断扩展和完善这个法律知识图谱。

具体实现步骤为：

步骤1，调用法律知识图谱，对前述语义概念聚合后的数据进行统一计算，得到对应的法律概念。如将“婚后购买的房产”认知为“夫妻共同财产”。这里主要应用的是法律知识图谱中的is_a关系，即“婚后购买的房屋”是一种“夫妻共同财产”。(参见图 2)

步骤2，由于事实的复杂性、多样性与法律概念、知识的抽象性，一般情况下，一个特定的语义概念，可能会出现被认知为多个法律概念的可能。这种情况下，就需要通过引入置信度评价的机制，来确定哪一个更加合理和可信。具体来说，系统结合统计概率，评估上述法律认知结果的置信水平。举例来说，对于单一的“开车将他人撞伤”的事实，在法律认知过程中，很可能会出现刑事的“交通肇事罪-轻伤”、“危险驾驶罪- 轻伤”和民事的“机动车道路交通责任事故纠纷”等几种判定。在综合多个语义概念做全因素考量时，就会出现对上述认知结果置信度的概率评价，从而有利于确定最佳选择，供用户参照。

P(交通肇事罪-轻伤|开车将他人撞伤)＝0.4

P(危险驾驶罪-轻伤|开车将他人撞伤)＝0.35

P(机动车道路交通责任事故纠纷|开车将他人撞伤)＝0.25

上面的概率基于系统中的统计，定义如下：

公式中s代表在系统中出现的总次数

步骤3，通过构建法律认知结果的评估网络，实现对法律知识图谱的反馈和强化，持续提升法律认知能力。整个强化学习的过程如下：

首先，在具体的应用系统中，加载用户对法律认知结果的查看和交互模块，允许用户点击操作，对认知结果进行评判，包括认可或者不认可。如果认可，给该实体或者关系一个正的激励，否则是一个负的激励。

其次，将法律认知的数据提交法律规则引擎，由其进行自动验证。验证结果分为正常通过或者错误未通过。如果通过，给该实体或者关系一个正的激励r，否则是一个负的激励。

第三，上述两种结果全部返回到评估网络中，由其综合运用、处理后，反馈给法律知识图谱引擎，进行优化。如果结果得到了验证，则该规则的权重得到了增加，否则它的权重则减少。

第四，重复以上过程，直到权重变化量小于指定值。

法律知识图谱经过强化学习优化后，提高了知识图谱引擎的识别能力，最终实现有效的法律知识的输出。

图2示出了法律实体关系图。具体包括，

如图2所示，A某(女)与其丈夫的法律实体关系包括个人信息、婚姻信息、财产状况，其中财产状况在法律上关系最为复杂，例如夫妻共同财产包括房产、车辆，房产和车辆又进一步包括其各自属性。因此，人工智能要识别具体信息较为简单，但是要识别这些事实信息之间的法律实体关系经常是困难的，它需要一系列的维度进行表征才能达到法律上的适用性。因此，对这些关系的识别必须引入法律上的具体含义，并对这些信息进行权重赋值，从而达到法律领域人工智能适用的水平。

图3示出的是自然语言处理中的数据预处理模块实现过程示意图，具体为：

以法院、当事人或检察院等渠道(包括但不限于)获取到的原始案例文本为样例库，作为数据输入的来源，进入数据预处理模块。具体的实施步骤是：

1.样本材料进入模块，首先识别出样本属性，基于模块中种类特征模型的定义可快速识别文本中由公诉机关、法院、法官、被告人、被害人、辩护人等多种角色的人参与案件的叙述内容，定位可用信息。例如：根据辩护人、公诉人(机关)等角色可以识别出文书的法律属性为刑事文书。

2.进一步的，依据法律规定，法律文书中各逻辑段在行文顺序方面基本相同，因此便可以利用模块段落识别模型对文本进行段落识别和划分，便于将文书逻辑明晰化，利于下一步文本处理。例如：对于刑事判决书的段落结构一般可以分为案件事实段、检察院指控段落、法院裁判分析段落。这一步采用通用的段落分类器，输入：由各个段落组成的案例文本，输出：各个段落的所属类别，算法：分类器(SVM分类器libsvm或者朴素贝叶斯分类器)

3.进一步的，利用模块语句特征模型，规范法律文本用语特征，规范用语特征模型采用关键字的方式表达——主要是法律意义的表达，例如描述案件进展，包括：指控、独任审判、合议庭、公开开庭、出庭支持公诉、现已审理终结、经审理查明、本院认为、判决如下、如不服本判决等；描述与案人员(含审判主体与客体)的角色称谓，包括：被告人、被告人暨附带民事诉讼被告人、被害人；法定代理人、辩护人；审判长、审判员、书记员，从而将段落拆分成一个个句子。

4.进一步的，利用分词技术，对识别到的句子进行极细颗粒度的词语划分，按照中文语法并辅以法律概念对词语进行划分的同时，还可以进行类别归类。例如：对动词的分类在法律概念上可以划分出法律行为概念，如刑事中的杀人、民事中的买卖、行政中的征收等。

图4示出的是法律知识构建示意图，具体如下：

1.首先，利用法律知识特征库中的法律概念数据、法律特征实体数据、文本特征数据进行聚类划分，从中提取出法律知识，这类知识可以是法律法规所含有的法律知识，但更多的是法律领域中基于法官的审判经验、基于检察官的公诉经验、基于大众社会的固有惯例、基于社会运行的法律规则等法律知识。例如：法律规定“自动投案”、“如实供述”是“自首”的构成要件，那么在实务审判中，就会有“自动向监狱机关投案”以及“如实供述自己或同案犯犯下的罪行”这类表述，在实体识别和知识工程阶段会将这种表述提取出来进入到法律知识特征库之中作为法律知识特征存储。本阶段就是要将这些基于法律实务的法律特征与法律规定的法律特征进行对应。

2.进一步的，法律领域中的结构就是法学框架，例如刑法中的“四要件”、“三阶层”。那么要形成法律知识之间的动态关联就需要这些框架作为支撑，将上一步的法律知识根据框架建立关联关系，从而形成整个法律体系。例如，上一步中的“自首”已经有了实务知识的“向监狱机关投案，并如实供述自己或同案犯的罪行”地补充，则需要将这些法律知识依据法律体系进行归入，即将“自首”及其相关替代表述归入进“刑法总则”之中。

图5示出的是法律知识图谱示意图，具体为：

将已生成的具有法学体系的法律知识按照结构化数据存储的方式存储在法律知识图谱存储模块中，按照法律关系的不同具体划分不同的存储集，例如：盗窃罪实体集、买卖合同实体集、行政征收实体集等。

本领域普通技术人员还应当明白，结合本申请所公开内容描述的各种示例性的模块、装置和步骤均可以实现成电子硬件、计算机软件或二者的组合。为了清楚地表示硬件和软件之间的可交换性，上面对各种示例性的部件、框、模块、电路和步骤均围绕其功能进行了总体描述。至于这种功能是实现成硬件还是实现成软件，取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用，以变通的方式实现所描述的功能，但是，这种实现决策不应解释为背离本发明的保护范围。

用于执行本申请所述功能的通用处理器(CPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件部件或者其任意组合，可以用来实现或执行结合本申请所公开内容描述的各种示例性的逻辑框、模块和电路。通用处理器可以是微处理器，或者，该处理器也可以是任何常规的处理器、控制器、微控制器或者状态机。处理器也可以实现为计算设备的组合，例如，DSP和微处理器的组合、若干微处理器、一个或多个微处理器与 DSP内核的结合，或者任何其它此种结构。结合本申请所公开内容描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或两者的组合。软件模块可以位于 RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、 CD-ROM或者本领域已知的任何其它形式的存储介质中。可以将一种示例性的存储介质连接至处理器，从而使该处理器能够从该存储介质读取信息，并且可向该存储介质写入信息。或者，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然，处理器和存储介质也可以作为分立组件存在于用户终端中。

本申请接受各种修改和可替换的形式，具体的实施方式已经在附图中借助于实施例来显示并且已经在本申请详细描述。但是，本申请不意在受限于公开的特定形式。相反，本申请意在包括本申请范围内的所有修改形式、等价物、和可替换物，本申请的范围由所附权利要求及其法律等效物限定。

Claims

1.一种基于强化学习的法律认知方法，其特征在于，包括如下步骤：

步骤1：调用法律知识图谱，对语义概念聚合后的数据进行统一计算，获得法律概念；

步骤2：结合统计概率，对所述法律概念进行置信度评价，获得法律认知结果；

步骤3：构建所述法律认知结果的评估网络；所述评估网络通过用户对法律认知结果进行评判，如果认可，则给法律认知结果所包括的实体或者关系为正面激励，如果不认可，则给所述实体或者关系为负面激励；或者，

将法律认知结果反馈给法律规则装置，由所述法律规则装置自动验证，如果验证正常通过，则给所述实体或者关系为正面激励，如果错误或者不通过，则给所述实体或者关系为负面激励；

步骤4：通过所述评估网络，反馈并强化所述法律知识图谱；所述评估网络获取由用户或法律规则装置给出的评估结果，并将其反馈给所述法律知识图谱，由所述法律知识图谱进行验证，如果通过，则所述置信度评价包括的评价规则权重增加，如果不通过，则所述置信度评价包括的评价规则权重减少。

2.如权利要求1所述的基于强化学习的法律认知方法，进一步包括，重复步骤4，当反馈结果满足所述法律知识图谱的要求时停止重复步骤4。

3.如权利要求2所述的基于强化学习的法律认知方法，所述要求为当权重变化量小于指定值时，停止步骤4。

4.如权利要求1-3任一所述的基于强化学习的法律认知方法，进一步包括，

对所述法律概念中的法律属性进行识别，并利用法律法规库构建法律规则，所述法律规则用于所述置信度评价。

5.如权利要求4所述的基于强化学习的法律认知方法，进一步包括，

通过自然语言处理抽取得到文本特征、法律知识特征和/或法律概念，识别法律知识点，并通过法律概念框架建立法律知识点的关联，并将已进行关联处理的法律知识点存储于法律知识图谱。

6.如权利要求5所述的基于强化学习的法律认知方法，进一步包括，

所述自然语言处理包括对法律文本内容进行预处理，所述预处理包括了对法律文本信息进行分段、分句和分词，利用法律属性抽取模型，对分词后的文本信息进行法律文本属性特征的识别，并结合法律法规库形成法律规则集合。

7.一种基于强化学习的法律认知装置，其特征在于包括，

获取模块，用于调用法律知识图谱，对语义概念聚合后的数据进行统一计算，获得法律概念；

评价模块，用于结合统计概率，对所述法律概念进行置信度评价，获得法律认知结果；

构建模块，构建所述法律认知结果的评估网络；所述评估网络通过用户对法律认知结果进行评判，如果认可，则给法律认知结果所包括的实体或者关系为正面激励，如果不认可，则给所述实体或者关系为负面激励；或者，

强化模块，通过所述评估网络反馈并强化所述法律知识图谱；所述评估网络获取由用户或法律规则装置给出的评估结果，并将其反馈给所述法律知识图谱，由所述法律知识图谱进行验证，如果通过，则所述置信度评价包括的评价规则权重增加，如果不通过，则所述置信度评价包括的评价规则权重减少。

8.如权利要求7所述的基于强化学习的法律认知装置，进一步包括：

自然语言处理模块，用于抽取得到文本特征、法律知识特征和/或法律概念，识别法律知识点，并通过法律概念框架建立法律知识点的关联，并将已进行关联处理的法律知识点存储于法律知识图谱。

9.如权利要求7或8所述的基于强化学习的法律认知装置，进一步包括：

法律规则构建模块，用于对所述法律概念中的法律属性进行识别，并利用法律法规库构建法律规则，所述法律规则用于所述置信度评价。

10.一种基于强化学习的法律认知装置，其特征在于，包括存储器、显示器、一个或多个处理器、一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行以下步骤的指令：

11.一种基于强化学习的法律认知装置，其特征在于，包括存储器、显示器、一个或多个处理器、一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如权利要求2-8任一所述的方法的指令。

12.一种计算机可读存储介质，其特征在于，包括与具有显示器的装置结合使用的计算机程序，所述计算机程序可被处理器执行以完成以下步骤：

13.一种计算机可读存储介质，包括与具有显示器的装置结合使用的计算机程序，

所述计算机程序可被处理器执行如权利要求2-8任一所述的方法。