CN110765257B

CN110765257B - 一种知识图谱驱动型的法律智能咨询系统

Info

Publication number: CN110765257B
Application number: CN201911390068.4A
Authority: CN
Inventors: 刘广峰; 张卓仁
Original assignee: Hangzhou Zhidu Technology Co Ltd
Current assignee: Hangzhou Zhidu Technology Co Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-03-31
Anticipated expiration: 2039-12-30
Also published as: CN110765257A

Abstract

本发明提供了一种知识图谱驱动型的法律智能咨询系统，包括：知识构建模块：用于构建问答语料库和法律知识库；法律语言理解模块：用于训练得到相应的实体识别模型、意图属性识别模型以及问题答案对匹配识别模型；特征识别模块：用于对法律特征的进行识别；知识关联模块：用于查找问题相关联的属性；查询匹配模块：用于在知识库中查询并匹配答案，同时形成系统问答日志；知识运营模块：用于在系统问答日志筛选出有效问题，并将其匹配的答案更新到知识库中。本发明能够智能解答并引导用户解决法律知识上的问题，节省了普通民众做法律咨询的成本，同时也节省了人力物力，提高了用户和法律专业人士的办事效率。

Description

一种知识图谱驱动型的法律智能咨询系统

技术领域

本发明涉及人工智能领域，具体涉及一种知识图谱驱动型的法律智能咨询系统。

背景技术

作为一种描述自然知识和社会知识的重要载体，知识图谱最直接和最重要的任务是满足用户的精确信息需求，提供个性化知识服务。其中，致力于回答各种类型问题的问答和对话系统是最典型的任务之一。然而在法律咨询行业，由于法律领域的高度专业性、知识性和强逻辑性，现有的通用知识图谱技术并不能得到很好的适用，只能揭示常规的实体关联关系，在法律逻辑层面的技术处理上有较大缺陷，并且业内对于利用知识图谱技术构建法律咨询系统也仍旧处于空白。

其次，普通群众、代理人对于法律领域知识欠缺，寻求相关专业人员的咨询成本较高。综上所述，现有法律领域基于知识图谱的智能咨询系统存在以下难点：

（1）法律领域知识库信息缺失问题。法律行业的数据通常是以非结构化文本为主，缺乏结构化且机器学习模型容易理解的知识数据；

（2）法律数据关联问题。普通的知识图谱构建方法针对法律领域不能完全适应，如裁判文书、法律法规等数据并不能很好的关联起来，涉及到的法律领域的实体和关系需要法律专家进行定义；

（3）构建体系问题。现有法律领域知识图谱驱动的智能咨询系统没有一个统一规范的构建流程和体系，缺乏自动化的工具。

如专利名称为：“一种知识图谱赋能的基于信息检索的问答系统和方法”（申请号201910134021.5，申请公布日：2019.06.14）的专利中公开了一种公开了知识图谱赋能的基于信息检索的问答系统和方法，整体提升系统的问答效果，扩大用户咨询范围并提升问题反馈的准确度。其技术方案为：系统包括：知识图谱数据库存储领域知识图谱的信息；分词和词性标注模块将用户问题进行分词并对其词性标注；实体识别与链接模块将用户问题中的实体进行识别并将实体链接到知识图谱数据库中的节点上；意图理解模块基于实体链接结果及分布式表示向量得到用户问题的意图理解结果；检索模块基于检索数据源，根据用户问题中的信息检索出对应的多个问答对作为粗选结果；排序模块利用实体的分布式表示向量对粗选结果进行重排序；语义匹配模块利用实体的分布式表示向量对重排序结果进行打分并最终输出答案。

上述专利提供的系统依旧无法应用到法律领域中，因此，如何能为其提供一种法律领域的智能咨询系统，能够智能解答、引导，提供方便和提高效率，也是法律领域亟待解决的问题之一。

发明内容

本发明提供一种知识图谱驱动型的法律智能咨询系统，能够解决解决前往法院或律师事务所咨询成本高，在法律知识领域中没有智能、自动解答的问题的系统可以使用，能够为用户提供方便、提高效率。

本发明的技术方案入下所示：

一种知识图谱驱动型的法律智能咨询系统，包括：

知识构建模块：基于法条、用户和律师提问的问题并结合专业知识来构建问答语料库和法律知识库；

法律语言理解模块：利用深度学习技术进行语义理解、涉及意图的识别以及问答对匹配，训练得到相应的实体识别模型、意图属性识别模型以及问题答案对匹配识别模型；

特征识别模块：利用所述实体识别模型对输入问题进行法律特征的识别；

知识关联模块：利用所述意图属性识别模型查找问题相关联的属性；

查询匹配模块：针对问题中识别到的实体和关联到的属性在知识库中查询并匹配答案，同时形成系统问答日志；

知识运营模块：针对所述系统问答日志筛选出有效问题，并将其匹配的答案更新到知识库中。

优选的，所述知识构建模块实现功能的具体步骤为：

S1：基于法条和常见用户问题来识别法律数据，并生成带有问题类型的法律领域问答语料库；

S2：将现有法律领域词库与人工标注的法律种子词库结合并构建法律词典；

S3：使用构建的法律词典对问答语料库进行分词、去停用词，梳理并建立法律领域术语抽取模型，利用所述术语抽取模型来识别法律领域术语；

S4：梳理并建立同义词识别模型，通过术语抽取模型抽取法律术语，并通过同义词识别模型将表达相同概念的法律术语聚合到一起形成别名词典，并将所述表达相同概念的法律术语作为法律知识特征存储于法律知识库中；

S5：基于所述问答语料库进行问题的意图属性关联，并作为法律知识特征存储于法律知识库中。

S6：基于所述步骤S1-S5的过程，最终形成法律知识库，所述步骤S4中的别名词典和步骤S5中问题的意图属性关联均作为法律知识特征存储于所述法律知识库中。

优选的，所述法律语言理解模块实现功能的具体步骤为：

S1：针对问答语料库以及构建的法律知识库的数据，将问题中出现的法律术语抽取到对应的实体集合中，并依据实体标注体系“BIO”对其进行标注；

S2：针对标注实体来训练实体识别模型：使用BERT对问题文本进行编码，使用双向LSTM网络生成语义更加丰富的问句特征，然后使用CRF算法捕捉问题中的实体集合；

S3：针对问答语料库以及构建的法律知识库的数据，将问题以及问题相关联的属性构建为意图识别数据集，并将问题和属性列表中关联的正确属性的标签置为1，并通过负采样操作取5个错误的属性将其标签置为0；

S4：针对意图识别数据集来训练意图属性识别模型：基于BERT分别获取问题和属性的编码表示，然后通过设置的标签使用公开的句子对构建PairCNN模型来训练问题和属性间的相似性识别；

S5：针对问答语料库中的标准问题和答案，将其结合形成问题-答案对数据，并将问题和答案匹配的样本类别标签设置为1，反之类别标签设置为0；

S6：针对问题-答案对数据训练问题答案对匹配识别模型：基于BERT分别获取问题和答案文本的编码表示，然后使用句子对建模PairCNN来训练问题和答案间的匹配识别。

优选的，所述特征识别模块实现功能的具体步骤为：

S1：所述实体识别模型针对输入问题进行实体识别，基于所述别名词典找到对应的所有候选实体并形成候选实体集合；

S2：通过所述候选实体集合中各候选实体的长度L以及对应的逆文档频率IDF进行加权得到对应候选实体的得分ent_score，并根据所述得分ent_score对候选实体集合进行逆序排列。

优选的，其特征在于，所述候选实体的得分计算公式为：ent_score=ɑ*L+（1-ɑ）*IDF，其中ɑ为人工设定的一个权重系数，用于L和IDF的均衡衡量。

优选的，所述知识关联模块实现功能的具体步骤为：

S1：基于所述已排序的候选实体集合检索知识库中所有有关的三元组信息，并将其中的属性与问题关联形成问题-属性对集合；

S2：使用训练好的意图属性识别模型针对问题-属性对集合进行预测相似度，对相似度倒序排列进而得到对应的属性集合。

优选的，所述查询匹配模块实现功能的具体方法为：

S1：命名实体重排序：即使用知识关联模块得到的属性分值对特征识别模块识别的实体集合进行重排序；

S2：针对重排序后的实体及其对应属性，在与实体关联的三元组集合中进行检索，筛选出其对应的三元组中的答案形成候选答案集合；

S3：针对候选答案集合，将答案与用户问题结合形成问题-答案对，使用训练好的问题答案对匹配识别模型对其进行识别并计算匹配得分，将匹配得分排名第一的答案返回给用户。

优选的，所述重排序过程中的用于作为重排序根据而计算的新的得分score的计算公式为：score=ɑ*ent_score+（1-ɑ）*prop_score，其中prop_score为问题-属性对的匹配分值，ɑ为人工设定的一个权重系数，用于L和IDF的均衡衡量。

优选的，所述知识运营模块实现功能的具体步骤为：

S1：由法律运营人员对所述法律智能咨询系统的系统问答日志进行整理，提取出其中的用户询问的问题。

S2：针对提取出的问题，由法律运营人员判断该问题在法律领域是否有效，若有效则针对该问题去检索相关法条和匹配答案并将其知识点扩充至法律知识库中，反之则丢弃。

本发明的有益效果为：本发明提出了一种知识图谱驱动型的法律智能咨询系统，能够智能解答并引导用户解决法律知识上的问题，节省了普通民众做法律咨询的成本，同时也节省了人力物力，提高了用户和法律专业人士的办事效率。

附图说明

图1为本发明提出的法律智能咨询系统整体架构图。

图2为本发明的知识构建模块实现过程示意图。

图3为本发明的法律语言理解模块的模型构建示意图。

图4为本发明的法律语言理解模块的实体识别模型架构图。

图5位本发明的法律语言理解模块的句子对模型架构图。

图6为本发明的法律特征识别模块的应用示意图。

图7为本发明的知识关联模块的应用示意图。

图8为本发明的查询匹配模块的应用示意图。

图9为本发明的知识运营模块的应用示意图。

具体实施方式

下面将结合附图来详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

如图1所示，本发明提供了一种知识图谱驱动型的法律智能咨询系统，包括：

知识构建模块：用于构建问答语料库和法律知识库；

法律语言理解模块：用于训练得到相应的实体识别模型、意图属性识别模型以及问题答案对匹配识别模型；

特征识别模块：用于对法律特征的进行识别；

知识关联模块：用于查找问题相关联的属性；

查询匹配模块：用于在知识库中查询并匹配答案，同时形成系统问答日志；

知识运营模块：用于在系统问答日志筛选出有效问题，并将其匹配的答案更新到知识库中。

如图2所示，知识构建模块实现功能的具体步骤为：

步骤1，问答语料库的构建。

在本步骤中，问答语料库构建主要采用以下两种方式：

方式1：根据法条提炼标准问。如法条中规定，房地产开发企业销售房屋前要事前备案，则会设置标准问题“房地产开发企业销售房屋是否需要事前备案”以及对应的问题意图属性“事前备案”。

方式2：根据用户问题提炼标准问。平时的后台问题中采集到可用的问题后，分析这一问题中包含的法律关系，针对这一法律关系编写标准问。如有用户问到“房子有问题被法院封了，我想卖了这房子可以吗”，其中包含的法律关系即“被法院查封的房子能不能买卖”，同时根据法律法规的规定规范用语，补上保全的说法，形成标准问题“被保全、查封的房子能不能买卖”以及对应的意图属性“买卖”。

标准问题形成后，去查询相关法律法规，根据查询到的法律法规的依据给出答案。最终整理出来的问答库存储形式为<标准问题，意图属性，答案>，涉及领域包括房产买卖、合同纠纷、婚姻家庭、交通事故、劳动争议、民间借贷以及刑事犯罪7个领域。

步骤2，法律词典库的整理。

在本步骤中，首先构建法律领域种子词库以及下载中国裁判文书网的裁判文书语料；然后针对裁判文书语料基于构建的法律种子词库进行分词，使用word2vec模型训练得到法律词向量，进而计算与法律种子词库中的词语对应的词向量相似的候选法律词语；随后通过人工筛选出有效的候选法律词语，以添加到人工标注种子词库中；最后将人工标注种子词库和搜狗法律词典结合作为最终的法律词典库。其中，计算词向量相似度的公式为：相似度=cos（θ）=（W_i·W_j）/（║W_i║║W_j║），W_i和W_j为对应法律词语的词向量。

步骤3，数据预处理。

在本步骤中，将整理得到的法律词典库当做自定义的分词词库，然后使用jieba工具对问答库中的问题进行分词操作，然后基于哈工大和百度提供的停用词库针对分词结果去停用词，最终形成词表，梳理并建立法律领域术语抽取模型，利用所述术语抽取模型来识别法律领域术语。

步骤4，同义词识别。

梳理并建立同义词识别模型，通过术语抽取模型抽取法律术语，并通过同义词识别模型将表达相同概念的法律术语聚合到一起形成别名词典，具体为：基于整理得到的法律词典库和训练得到的词向量文件，使用中文同义词工具包Synonyms针对数据预处理的结果进行操作，得到对应的同义词集合并形成法律别名词典。最终将法律别名词典和问答库语料中的问题-属性对存储至法律知识库中。

知识库构建好之后，进入法律语言理解模块，如图3、图4和图5所示，法律语言理解模块实现功能的具体步骤为：

步骤1，输入数据处理。

在本步骤中，主要针对实体数据、意图属性数据以及问答对数据进行处理：

实体数据：针对问答语料库中的标准问题以及构建的知识库中的别名词典，将问题中出现的法律术语抽取到对应的实体集合中；然后按照实体标注体系“BIO”对文本进行标注。BIO分别为实体词的开始、剩余和非实体词构成部分。

意图属性数据：针对知识库中的问题-属性对数据，将问题与其关联的属性定义为类别标签1，然后通过负采样操作取5个错误的属性与问题关联起来并将其类别标签置为0。类别标签1代表该意图属性与问题关联，类别标签0代表该意图属性与问题不关联。

问答对数据：针对问答语料库中的标准问题和答案数据，将二者结合形成问题-答案对，并将问题-答案对中相互匹配的样本类别标签设置为1，然后通过负采样操作取五个错误的答案与标准问题关联起来继而将其类别标签设置为0。

步骤2，语言理解。

在本步骤中，主要进行实体识别、问题意图属性识别以及问题-答案对匹配识别：

实体识别：使用如图3所示模型针对标注的实体数据进行实体识别，首先基于BERT针对文本进行词嵌入获得向量表示，然后使用双向LSTM网络捕捉文本的深度特征，继而将该特征输入到CRF层，最终输出概率最大的一组词语，即识别出的实体集合。

问题意图属性识别：针对标注的意图属性数据进行意图识别，首先基于BERT分别针对问题文本和意图属性文本进行词嵌入获得词向量表示，继而将二者的向量输入到句子对模型PairCNN中进行训练，最终通过Softmax输出相似度得分以及对应类别。

问题-答案对匹配识别：针对标注的问题-答案对数据进行匹配识别，首先基于BERT分别针对问题文本和答案文本进行词嵌入获得词向量表示，继而将二者的向量输入到句子对模型PairCNN中进行训练，最终通过Softmax输出相似度得分以及对应类别。

相关数据和模型构建好之后，进入法律特征识别模块，如图6所示，法律特征识别模块实现功能的具体步骤为：

步骤1，数据预处理。

由于BERT输入是以字为单位，无需进行分词操作，避免了中文分词表现不佳的弊端。该步骤中，将文本切分为以单个字组成的列表。如用户输入的问题为“经济适用房的种类”，通过数据预处理之后就转换成这种表示：[‘经’，‘济’，‘适’，‘用’，‘房’，‘的’，‘种’，‘类’]。

步骤2，实体抽取。

针对数据预处理的结果，使用训练好的实体识别模型BERT+BiLSTM+CRF进行实体抽取，即：将上例中的“经济适用房”这个实体抽取出来。

步骤3，候选实体筛选。

在构建的别名词典中检索与抽取到的实体相关的候选实体，例如“经济适用房”这个实体可检索到候选实体“经济适用住房”，从而形成实体集合[‘经济适用房’，‘经济适用住房’]。

步骤4，候选实体排序。

针对筛选出的候选实体集合，使用公式ent_score=ɑ*L+（1-ɑ）*IDF计算对应实体的得分。其中L为实体的长度，IDF为该实体词对应的逆文档频率，ɑ为人工设定的一个权重系数，用于L和IDF的均衡衡量。最终根据得分针对候选实体进行逆序排列。如上例处理结果为{‘经济适用房’：4.53，‘经济适用住房’：4.01}。

筛选出与用户问题相关的实体集合之后，进入知识关联模块，如图7所示，知识关联模块实现功能的具体步骤为：

步骤1，知识检索。

针对筛选出的候选实体，在构建的知识库中检索与这些实体相关的三元组并记录其属性，继而将这些属性与用户问题结合形成问题-属性对集合。如针对上例中的“经济适用房”实体集进行检索，得到相关属性为[‘种类’，‘概念’，‘申请流程’]，然后与用户问题结合形成的问题-属性对为：

[‘经济适用房的种类’，‘种类’]

[‘经济适用房的种类’，‘概念’]

[‘经济适用房的种类’，‘申请流程’]

步骤2，问题意图属性识别。

针对检索出的问题-属性对集合，使用训练好的意图属性识别模型计算问题-属性对的匹配分值prop_score，然后根据匹配分值对属性集合进行逆序排列。如针对上例的检索结果，相应的问题-属性对得分情况为：

[‘经济适用房的种类’，‘种类’，0.989]

[‘经济适用房的种类’，‘概念’，0.891]

[‘经济适用房的种类’，‘申请流程’，0.645]

基于上述得分情况，属性值排序列表为：[‘种类’，‘概念’，‘申请流程’]。

得到关联的知识（实体和属性）后，进入匹配查询模块，如图8所示，匹配查询模块实现功能的具体步骤为：

步骤1，实体重排序。

为了保证所识别到的实体为用户主要关注的目标，在该步骤中使用上例中得到的属性分值对识别到的实体集进行重排序，从而在一定程度上达到了实体消歧的目的。重排序公式为：score=ɑ*ent_score+（1-ɑ）*prop_score，ɑ为人工设定的一个权重系数，用于L和IDF的均衡衡量。例如这个问题“黄军医生被病人家属恶意殴打，应该怎么维权”中存在两个实体“黄军”和“军医”，在特征识别模块中，正确的命名实体“黄军”的得分2.19要低于“军医”的得分3.02。但“黄军”对应的知识关联模块得到的最佳关联属性为“维权方式”，得分为0.91，该分数要远高于“军医”对应的最佳关联属性“法律规定”的得分0.28。因此有必要进行实体重排序操作。

步骤2，答案检索。

针对重排序后的实体及其关联的属性，在知识库的三元组数据中检索与其相关的答案，并将该答案与用户问题结合形成问题-答案对。

步骤3，答案筛选。

针对得到的问题-答案对，使用训练好的PairCNN模型获取对应的问题-答案对的匹配得分，并根据匹配得分逆序排列，将排名第一的答案返回给用户。

当用户询问问题并得到系统返回的答案之后，此时用户的需求已经基本满足，但为了确保本发明提出的法律知识库能够适应最新的法律规定以及进一步提升用户满意度，本发明提出了知识运营模块，如图9所示，知识运营模块实现功能的具体步骤为：

步骤1，问答日志整理。

由法律运营人员从咨询系统后台数据中提取问答日志，并将日志中的问题提取出来。

步骤2，知识库更新。

针对提取的问题，若该问题在法律领域有效，则针对该问题去检索相关法条以及匹配答案，并将其知识点扩充至法律知识库中，反之则丢弃。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。

Claims

1.一种知识图谱驱动型的法律智能咨询系统，其特征在于，包括：

2.根据权利要求1中所述的一种知识图谱驱动型的法律智能咨询系统，其特征在于，所述知识构建模块实现功能的具体步骤为：

S5：基于所述问答语料库进行问题的意图属性关联，并作为法律知识特征存储于法律知识库中；

3.根据权利要求2中所述的一种知识图谱驱动型的法律智能咨询系统，其特征在于，所述法律语言理解模块实现功能的具体步骤为：

4.根据权利要求2中所述的一种知识图谱驱动型的法律智能咨询系统，其特征在于，所述特征识别模块实现功能的具体步骤为：

5.根据权利要求4中所述的一种知识图谱驱动型的法律智能咨询系统，其特征在于，所述候选实体的得分计算公式为：ent_score=ɑ*L+（1-ɑ）*IDF，其中ɑ为人工设定的一个权重系数，用于L和IDF的均衡衡量。

6.根据权利要求4中所述的一种知识图谱驱动型的法律智能咨询系统，其特征在于，所述知识关联模块实现功能的具体步骤为：

7.根据权利要求6中所述的一种知识图谱驱动型的法律智能咨询系统，其特征在于，所述查询匹配模块实现功能的具体方法为：

8.根据权利要求7中所述的一种知识图谱驱动型的法律智能咨询系统，其特征在于，所述重排序过程中的用于作为重排序根据而计算的新的得分score的计算公式为：score=ɑ*ent_score+（1-ɑ）*prop_score，其中prop_score为问题-属性对的匹配分值，ɑ为人工设定的一个权重系数，用于L和IDF的均衡衡量。

9.根据权利要求1中所述的一种知识图谱驱动型的法律智能咨询系统，其特征在于，所述知识运营模块实现功能的具体步骤为：

S1：由法律运营人员对所述法律智能咨询系统的系统问答日志进行整理，提取出其中的用户询问的问题；