CN111553160B

CN111553160B - 一种获取法律领域问句答案的方法和系统

Info

Publication number: CN111553160B
Application number: CN202010332120.7A
Authority: CN
Inventors: 郜成胜; 熊冠铭; 赵文; 季昕; 邹欢欢
Original assignee: Beijing Peking University Software Engineering Co ltd
Current assignee: Beijing Peking University Software Engineering Co ltd
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2024-02-02
Anticipated expiration: 2040-04-24
Also published as: CN111553160A

Abstract

本发明公开了一种获取法律领域问句答案的方法和系统，属于语义理解领域，在获取用户的自然语言问句后生成词语的实体，识别实体并将实体分为命名实体和一般实体，根据命名实体和一般实体的关系生成语法依存树，根据语法依存树生成实体间的谓词路径，在根据谓词路径生成查询语句，执行查询语句从数据库中获取用户问句的答案。通过上述方案能够理解用户的语义，帮助用户快速准确的获取问句的答案，同时获取的答案更全面。

Description

一种获取法律领域问句答案的方法和系统

技术领域

本发明涉及语义理解领域，特别地，涉及一种获取法律领域问句答案的方法和系统。

背景技术

当今的互联网上，传统的搜索引擎，比如：Google、雅虎、百度等，很大程度上解决了用户对信息搜索的需求。以Google为首的传统的搜索引擎主要是基于关键词匹配，它从互联网中以一定的策略搜集、爬取信息，对信息进行解析、索引，为用户提供检索服务。这种基于关键词匹配的方式在一般情况下能够非常快速的解决用户的问题。但是在法律领域，法律文本具有非常严格的定义，在不同的情景下，一个词往往具有不同的语义，这样基于关键词匹配的方式无法快速向用户给出明确具体的信息。

发明内容

为了克服现有技术的不足，本发明提供一种能够快速型用户给出明确具体信息的获取法律领域问句答案的方法和系统。

本发明解决其技术问题所采用的技术方案是：

一方面，

一种获取法律领域问句答案的方法，包括以下步骤：

获取用户的自然语言问句；

根据所述问句生成词语的实体；

识别所述实体并将所述实体分为命名实体和一般实体两类，所述命名实体用于表示名词；

根据所述命名实体和一般实体的关系生成所述问句的语法依存树；

根据所述语法依存树生成实体间的谓词路径；

根据所述谓词路径生成查询语句；

执行所述查询语句从数据库中获取问句答案。

进一步地，所述根据所述问句生成词语的实体包括：

加入法律领域字典对分词器进行调整；

采用调整后的分词器对所述问句进行分词获得词语的实体。

进一步地，所述识别所述实体并将所述实体分为命名实体和一般实体两类，所述命名实体用于表示名词包括：

利用法律数据库中的数据训练得到分类模型；

采用所述分类模型识别所述实体并将所述实体分为命名实体和一般实体两类。

进一步地，所述根据所述命名实体和一般实体的关系生成所述问句的语法依存树包括：

将问句以实体的形式按顺序分开排列；

连接任意两个实体并标注所述两个实体的关系，获得所述语法依存树。

进一步地，所述根据所述语法依存树生成实体间的谓词路径包括：

根据语法依存树抽取能代表所述问句含义的最小子句；

根据所述最小子句生成查询图；

将所述查询图映射到数据库中生成实体间的谓词路径。

进一步地，所述将所述查询图映射到数据库中生成实体间的谓词路径包括：

通过预设规则将所述查询图内的谓词进行转换，以匹配所述数据库中的实体连接关系；

根据语法依存树中各实体的关系对转换后的实体连接关系进行补充标注，生成实体间的谓词路径。

进一步地，在根据所述语法依存树生成实体间的谓词路径之前还包括：

将问句中的实体与数据库中的的实体进行匹配；

将数据库中匹配成功的实体代替问句中的实体生成谓词路径。

进一步地，所述将数据库中匹配成功的实体代替问句中的实体生成谓词路径包括：

计算问句中实体与数据库中实体的相似度；

将数据库中相似度在预设数值以上的实体集合代表问句中对应的实体。

进一步地，当根据所述语法依存树生成实体间的谓词路径时，代表所述命名实体的实体集合中存在不能生成谓词路径匹配的实体时，则从所述实体集合中删除所述实体。

另一方面，

一种获取法律领域问句答案的系统，包括：

问句获取模块，用于获取用户的自然语言问句；

命名实体生成模块，用于根据所述问句生成词语的实体；

命名实体分类模块，用于识别所述实体并将所述实体分为命名实体和一般实体两类，所述命名实体用于表示名词；

语法依存树生成模块，用于根据所述命名实体和一般实体的关系生成所述问句的语法依存树；

谓词路径生成模块，用于根据所述语法依存树生成实体间的谓词路径；

查询语句生成模块，用于根据所述谓词路径生成查询语句；

问句答案获取模块，用于执行所述查询语句从数据库中获取问句答案。

本申请采用以上技术方案，至少具备以下有益效果：

本发明技术方案公开了一种获取法律领域问句答案的方法和系统，在获取用户的自然语言问句后生成词语的实体，识别实体并将实体分为命名实体和一般实体，根据命名实体和一般实体的关系生成语法依存树，根据语法依存树生成实体间的谓词路径，在根据谓词路径生成查询语句，执行查询语句从数据库中获取用户问句的答案。通过上述方案能够理解用户的语义，帮助用户快速准确的获取问句的答案，同时获取的答案更全面。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种获取法律领域问句答案的方法流程图；

图2是本发明实施例提供的另一种获取法律领域问句答案的方法流程图；

图3是本发明实施例提供的一种语法依存树；

图4是本发明实施例提供的根据图3形成的查询图；

图5是本发明实施例提供的一种实体间关系图；

图6是本发明实施例提供的根据图5映射到数据库后得到的实体关系图；

图7是本发明实施例提供的一种显示谓词属性的实体关系图；

图8是本发明实施例提供的将图7映射到数据库后得到的实体关系图；

图9是本发明实施例提供的一种谓词路径的示意图；

图10是本发明实施例提供的一种获取法律领域问句答案的系统。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面结合附图和实施例对本发明的技术方案进行详细的描述说明。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本申请所保护的范围。

一个实施例中，本发明提供了一种获取法律领域问句答案的方法，如图1所示，包括以下步骤：

获取用户的自然语言问句；

根据问句生成词语的实体；

识别实体并将实体分为命名实体和一般实体两类，命名实体用于表示名词；

根据命名实体和一般实体的关系生成问句的语法依存树；

根据语法依存树生成实体间的谓词路径；

根据谓词路径生成查询语句；

执行查询语句从数据库中获取问句答案。

本发明实施例提供的一种获取法律领域问句答案的方法，在获取用户的自然语言问句后生成词语的实体，识别实体并将实体分为命名实体和一般实体，根据命名实体和一般实体的关系生成语法依存树，根据语法依存树生成实体间的谓词路径，在根据谓词路径生成查询语句，执行查询语句从数据库中获取用户问句的答案。通过上述方法能够理解用户的语义，帮助用户快速准确的获取问句的答案，同时获取的答案更全面。

作为对上述实施例的一种改进说明，本发明实施例提供了另一种获取法律领域问句答案的方法，如图2所示，针对获取答案方法的步骤，下面以法律领域的问题“执法过A公司和B公司的人，上个月还执法过哪些海淀区的公司？”为例分别进行说明：

获取用户的自然语言问句：执法过A公司和B公司的人，上个月还执法过哪些海淀区的公司？

根据问句生成词语的实体；可选地，根据问句生成词语的实体包括：加入法律领域字典对分词器进行调整；采用调整后的分词器对问句进行分词获得词语的实体。通过分词算法对问句进行切割，以及对分析切割后的每个词、短语的词性、疑问词识别，生成语法树，最终识别出词语的实体。例如，将法律名称、违法主体、执法主体、执法人员、地名导入分词器，改进分词器的切分准确度。对于中文问题，需要分词并且对每一个词进行词性标注，从而更好地理解用户问题。例如，“执法过A公司和B公司的人，上个月还执法过哪些海淀区的公司？”的词性标注结果是“执法/v过/uA公司/n和/cB公司/n的/u人/n上个月/nt还/d执法/v过/u哪些/r海淀区/ns的/u公司/n”。其中v是动词，u是助动词，n是名词，nt是时间名词，d是副词，r是代词，ns是地点名词。本实施例的分词和词性标注采用基于词典调整的语言模型，包括但不限于jieba分词、斯坦福分词器，LTP分词等。

识别实体并将实体分为命名实体和一般实体两类，命名实体用于表示名词；作为本发明实施例的一种可选的实现方式，识别实体并将实体分为命名实体和一般实体两类包括：利用法律数据库中的数据训练得到分类模型；采用分类模型识别实体并将实体分为命名实体和一般实体两类，命名实体用于表示名词。使用神经网络训练多分类器，对生成的命名实体进行类型分类。利用法律领域关系数据库中的数据进行有监督训练，模型使用基于encoder-decoder的分类模型。Encoder模型的输出层一般可作为词嵌入(word-embedding)表示，同时也是decoder层的输入。基于深度学习的分类算法能够较好识别短语特征，从而给出准确的分类。这里使用数据库中的列数据为训练集，类别名为标签，例如“北京abc公司”的类别是“命名实体”、“单位”或者“公司”的类别是“公司”、“北京市工商局”的类别是“执法主体”。

根据命名实体和一般实体的关系生成问句的语法依存树；一些实施例中，根据命名实体和一般实体的关系生成问句的语法依存树包括：将问句以实体的形式按顺序分开排列；连接任意两个实体并标注两个实体的关系，获得语法依存树。生成的语法依存树如图3所示，其中各实体之间的关系如下表所示：

由图3可知，从子树“哪些海淀区的公司”中，可以发现，“哪些”和“公司”之间是描述(feat)关系，“海淀区”和“公司”之间也是描述关系，但“哪些”在词性标注中是代词(r)，“海淀区”则是地区名词(ns)。这符合模板关系，可以抽取为：“哪些—公司；公司—海淀”。进一步，可以抽取出“执法—公司”等，最终形成一个查询图，如图4所示。

可选地，根据语法依存树生成实体间的谓词路径包括：根据语法依存树抽取能代表问句含义的最小子句；根据最小子句生成查询图；将查询图映射到数据库中生成实体间的谓词路径。具体地，通过预设规则将查询图内的谓词进行转换，以匹配数据库中的实体连接关系；根据语法依存树中各实体的关系对转换后的实体连接关系进行补充标注，生成实体间的谓词路径。对谓词和谓词修饰语进行转换。语法依存树所表达的实体间关系未必是数据库中的实体连接关系，需要定义规则进行转换。在图5中，“人”与“公司”之间的关系是“执法”，需要映射到数据库中的数据存储方式，即增加“案例”节点，如图6所示。通过定义映射列表，该模块还能识别谓词属性。众所周知，在三元组形式的数据中，谓词不能表达属性，即原句中的状语成分难以表示。本实例利用法律知识图谱的特点，将谓词属性表示为2度关系查询。例如，上述例句中，“上个月还执法过”已正确地被系统拆分为“上个月/time执法”，即“上个月”是“执法”的时间状语。本专利利用法律领域数据库的连接特点，将谓词“执法”的时间属性拆分为查找“案例”节点的时间属性。如图7所示。

需要说明的是在特定领域中，谓词表达是有限的，通过构建语法模板，可以有效覆盖谓词表达的语义模式，如图8所示。

根据谓词路径生成查询语句，根据谓词路径结果生成sparql语句。谓词路径如图9所示，圆圈代表实体，A公司和B公司是命名实体，箭头代表谓词关系，方框代表属性。根据该图能够生成sparql语句。

生成的sparql语句为：

Select？公司where{

？公司位于“海淀区”.

<案例>违法主体？公司.

<案例>时间“9月”.

<案例>执法人？人.

？人类型“人”.

？人执法A公司.

？人执法B公司.

}

需要说明的是，若实体映射模块中，某些实体具有多个映射，则取笛卡尔积进行sparql生成。例如，“A公司”的候选集合为[“a公司”，“Aa公司”]，“B公司”的候选集合为[“b公司”，“Bb公司”]，则该模块生成4个sparql语句，并发向gstore查询，若有查询结果，则返回查询结果与对应集合中的元素。

执行查询语句从数据库中获取问句答案。

一些实施例中，在根据语法依存树生成实体间的谓词路径之前还包括：将问句中的实体与数据库中的的实体进行匹配；将数据库中匹配成功的实体代替问句中的实体生成谓词路径。具体地，计算问句中实体与数据库中实体的相似度；将数据库中相似度在预设数值以上的实体集合代表问句中对应的实体。

需要特别说明的是，当根据语法依存树生成实体间的谓词路径时，代表命名实体的实体集合中存在不能生成谓词路径匹配的实体时，则从实体集合中删除实体。

可以理解的是，输入问句可能存在错别字、漏字等情况，导致实体抽取结果在数据库中没有对应。本专利使用Levenshtein距离对输入实体进行相似度匹配。Levenshtein距离指两个字串之间，由一个转成另一个所需的最少编辑操作次数。允许的编辑操作包括：将一个字符替换成另一个字符、插入一个字符和删除一个字符。例如，“A公司”和“Aa公司”、“a公司”相距较近，若数据库中能精确匹配到“A公司”，则将对应实体映射集合设置为只有一个元素，否则，选取较相似的前n个元素加入实体相似映射集合。

需要特别说明的是，以上实施例涉及自然语言处理和图数据库查询。本实例采用gstore图数据库存储。

本发明实施例提供的另一种获取法律领域问句答案的方法，能够理解用户的语义，进而直接返回用户所需的答案。具体来说，具有以下优点：

1.基于知识图谱的搜索支持对话式的问答模式

自然语言问句一方面可以使得用户的搜索更加快速、准确、方便，另一方面更符合用户的用户查询习惯。

2.基于知识图谱的搜索支持准确的结果返回

基于知识图谱的搜索最后将转化为查询语句，最终匹配到数据库中的某一个实体。聚焦于目标实体，搜索结果能够返回给用户非常丰富的结果。

3.知识图谱支持推理

推理意味着能够发现数据之间隐藏的关系，我们能够通过定义推理规则，在知识库上进行一系列的推理、挖掘工作，将隐式信息显式展现给用户。

本文基于法律领域文本的特点，构建一套基于知识图谱的语义理解问答方法。在底层结构化的知识图谱数据上，通过自然语言处理和分析，转化为基本的查询过程。

一个实施例中，本发明还提供了一种获取法律领域问句答案的系统，如图10所示，包括：

问句获取模块101，用于获取用户的自然语言问句。

命名实体生成模块102，用于根据问句生成词语的实体；具体地，命名实体生成模块用于加入法律领域字典对分词器进行调整；采用调整后的分词器对问句进行分词获得词语的实体。

命名实体分类模块103，用于识别实体并将实体分为命名实体和一般实体两类，命名实体用于表示名词；具体地，命名实体分类模块用于利用法律数据库中的数据训练得到分类模型；采用分类模型识别实体并将实体分为命名实体和一般实体两类，命名实体用于表示名词。

语法依存树生成模块104，用于根据命名实体和一般实体的关系生成问句的语法依存树；语法依存树生成模块将问句以实体的形式按顺序分开排列；连接任意两个实体并标注两个实体的关系，获得语法依存树。

命名实体匹配模块105，用于将问句中的实体与数据库中的的实体进行匹配；将数据库中匹配成功的实体代替问句中的实体生成谓词路径。具体地，命名实体匹配模块用于计算问句中实体与数据库中实体的相似度；将数据库中相似度在预设数值以上的实体集合代表问句中对应的实体。

谓词路径生成模块106，用于根据语法依存树生成实体间的谓词路径；谓词路径生成模块用于根据语法依存树抽取能代表问句含义的最小子句；根据最小子句生成查询图；将查询图映射到数据库中生成实体间的谓词路径。具体地，谓词路径生成模块通过预设规则将查询图内的谓词进行转换，以匹配数据库中的实体连接关系；根据语法依存树中各实体的关系对转换后的实体连接关系进行补充标注，生成实体间的谓词路径。

需要特别说明的是，当谓词路径生成模块根据语法依存树生成实体间的谓词路径时，代表命名实体的实体集合中存在不能生成谓词路径匹配的实体时，则从实体集合中删除实体。

查询语句生成模块107，用于根据谓词路径生成查询语句。

问句答案获取模块108，用于执行查询语句从数据库中获取问句答案。

本发明实施例提供的一种获取法律领域问句答案的系统，包括：问句获取模块获取用户的自然语言问句；命名实体生成模块根据问句生成词语的实体；命名实体分类模块识别实体并将实体分为命名实体和一般实体两类，命名实体用于表示名词；语法依存树生成模块根据命名实体和一般实体的关系生成问句的语法依存树；命名实体匹配模块将问句中的实体与数据库中的的实体进行匹配；将数据库中匹配成功的实体代替问句中的实体生成谓词路径；谓词路径生成模块根据语法依存树生成命名实体间的谓词路径；查询语句生成模块根据谓词路径生成查询语句；问句答案获取模块执行查询语句从数据库中获取问句答案。通过上述系统中各模块的配合能够理解用户的语义，帮助用户快速准确的获取问句的答案，同时获取的答案更全面。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种获取法律领域问句答案的方法，其特征在于，包括以下步骤：

获取用户的自然语言问句；

根据所述问句生成词语的实体；

根据所述语法依存树生成实体间的谓词路径；

根据所述谓词路径生成查询语句；

执行所述查询语句从数据库中获取问句答案；

所述根据所述语法依存树生成实体间的谓词路径包括：

根据语法依存树抽取能代表所述问句含义的最小子句；

根据所述最小子句生成查询图；

将所述查询图映射到数据库中生成实体间的谓词路径；

所述将所述查询图映射到数据库中生成实体间的谓词路径包括：

根据语法依存树中各实体的关系对转换后的实体连接关系进行补充标注，生成实体间的谓词路径；

所述根据所述问句生成词语的实体包括：

加入法律领域字典对分词器进行调整；

采用调整后的分词器对所述问句进行分词获得词语的实体；

具体的，将法律名称、违法主体、执法主体、执法人员、地名导入分词器，改进分词器的切分准确度。

2.根据权利要求1所述的方法，其特征在于：所述识别所述实体并将所述实体分为命名实体和一般实体两类包括：

利用法律数据库中的数据训练得到分类模型；

3.根据权利要求1所述的方法，其特征在于：所述根据所述命名实体和一般实体的关系生成所述问句的语法依存树包括：

将问句以实体的形式按顺序分开排列；

4.根据权利要求1所述的方法，其特征在于：在根据所述语法依存树生成实体间的谓词路径之前还包括：

将问句中的实体与数据库中的的实体进行匹配；

5.根据权利要求4所述的方法，其特征在于：所述将数据库中匹配成功的实体代替问句中的实体生成谓词路径包括：

计算问句中实体与数据库中实体的相似度；

将数据库中相似度在预设数值以上的实体集合代表问句中对应的实体；

两个所述实体集合之间的谓词路径即问句中对应的实体间的谓词路径。

6.根据权利要求5所述的方法，其特征在于：

当根据所述语法依存树生成实体间的谓词路径时，代表所述命名实体的实体集合中存在不能生成谓词路径匹配的实体时，则从所述实体集合中删除所述实体。

7.一种获取法律领域问句答案的系统，其特征在于，包括：

问句获取模块，用于获取用户的自然语言问句；

命名实体生成模块，用于根据所述问句生成词语的实体；

所述根据所述问句生成词语的实体包括：加入法律领域字典对分词器进行调整；采用调整后的分词器对所述问句进行分词获得词语的实体；具体的，将法律名称、违法主体、执法主体、执法人员、地名导入分词器，改进分词器的切分准确度；

谓词路径生成模块，用于根据所述语法依存树生成实体间的谓词路径；所述根据所述语法依存树生成实体间的谓词路径包括：根据语法依存树抽取能代表所述问句含义的最小子句；根据所述最小子句生成查询图；将所述查询图映射到数据库中生成实体间的谓词路径；所述将所述查询图映射到数据库中生成实体间的谓词路径包括：通过预设规则将所述查询图内的谓词进行转换，以匹配所述数据库中的实体连接关系；根据语法依存树中各实体的关系对转换后的实体连接关系进行补充标注，生成实体间的谓词路径；

查询语句生成模块，用于根据所述谓词路径生成查询语句；