CN110046262B - 一种基于法律专家知识库的上下文推理方法 - Google Patents

一种基于法律专家知识库的上下文推理方法 Download PDF

Info

Publication number
CN110046262B
CN110046262B CN201910494906.6A CN201910494906A CN110046262B CN 110046262 B CN110046262 B CN 110046262B CN 201910494906 A CN201910494906 A CN 201910494906A CN 110046262 B CN110046262 B CN 110046262B
Authority
CN
China
Prior art keywords
semantic
knowledge
legal
knowledge base
expert knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910494906.6A
Other languages
English (en)
Other versions
CN110046262A (zh
Inventor
郑茂盛
杜向阳
储昭辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Aegis Information Technology Co ltd
Original Assignee
Nanjing Aegis Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Aegis Information Technology Co ltd filed Critical Nanjing Aegis Information Technology Co ltd
Priority to CN201910494906.6A priority Critical patent/CN110046262B/zh
Publication of CN110046262A publication Critical patent/CN110046262A/zh
Application granted granted Critical
Publication of CN110046262B publication Critical patent/CN110046262B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明公开了一种基于法律专家知识库的上下文推理方法,本发明基于专家知识库,通过实体识别、语义分析,根据上下文推理理解法律文本中的隐含语义内容,并将推理过程中产生的新实体和不包含在专家知识库的推理结果经过人工审核整理后加入专家知识库,并从相应的语料库中得到每一条专家知识、每一个法律实体的权重,本发明的上下文推理方法为多推理引擎综合的推理方法,包括基于PMI的打分推理、一阶谓词逻辑推理、贝叶斯推理、神经网络推理等,该方法针对法律文本领域的上下文推理,能够有效解决法律文本语言理解中的部分上下文推理问题;本发明采用的基于法律专家知识库的推理方法,在法律领域具有天然的专业优势。

Description

一种基于法律专家知识库的上下文推理方法
技术领域
本发明涉及法律文本分析技术领域,具体是一种基于法律专家知识库的上下文推理方法。
背景技术
法律领域中存在大量的自然语言文本,智能化需要做好自然语言理解的工作,而上下文推理是NLU中一个至关重要的领域,上下文推理可以直观地理解为解决基于上下文的推理机制的理解问题。处理好法律文本的上下文推理才能真正意义上实现人工智能在法律文本领域的各项应用,如智能问答、智能摘要等。目前在法律领域,并没有实质意义上的法律文本上下文推理的技术方案。
中国专利CN105808568A和CN 105677671A分别从效率和不确定性两个方法介绍了两种通用的上下文推理方法,通过分布式提高上下文推理效率,针对不确定性问题采用独特的推理方法提高准确率。但是,现有技术中的这些推理方法具有以下缺点,即目前法律文本领域未有完善易用的上下文推理方法,法律领域是一个专业领域,通用的方法在该领域并不可行。究其原因,一是法律领域的文本存在一个文本里有多法律意图(要素)的可能性,一个法律事实可能对应多个诉讼请求,不是简单的一对一推理;二是,法律文本中的多个法律意图(要素)存在递进关系,可以形成一个有向的概念图;三是,法律文本中存在多个法律主体,多个法律事件的复杂关系。
因此,本发明提供了一种基于法律专家知识库的上下文推理方法,以解决上述背景技术中提出的问题。
发明内容
本发明的目的在于提供一种基于法律专家知识库的上下文推理方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于法律专家知识库的上下文推理方法,其特征在于,其包括以下步骤:
(1)构建语义向量空间,分为语义向量空间构建和语义向量空间映射,其包括语义向量空间构建和语义空间映射;
(2)法律实体识别;
(3)法律文本语义分析;
(4)隐含语义推理,其包括获取候选知识点、树构建法构建知识路径、获取候选隐含语义和推理结果评估分析;
(5)专家知识库更新;
其中,在所述步骤(4)中,获取候选知识点采用语义空间向量获取候选节点、树构建法构建知识路径这两个步骤获取候选的知识路径;
且获取候选隐含语义是针对候选知识点,结合专家知识库中的已有知识决策路径和语义分析结果,采用多种推理方法进行候选隐含语义推理;
其多种推理方法至少包括基于PMI的节点评分方法、一阶谓词逻辑推理方法、贝叶斯推理方法、神经网络推理方法。
进一步,作为优选,在所述步骤(1)中,所述语义向量空间构建是通过基于法律文本语料库构建一个法律语义向量库,将文本单元映射到语义空间上的向量,文本单元之间的语义相似度是根据对应向量在语义空间中的距离进行比较,语义接近的词;构建语义向量的训练数据的选择原则是法律相关文本,如裁判文书、法律法规、相关普法文章,作为用Word2Vec方法训练语义向量的语料库,并用训练结果构建语义向量库,以供其它模块在语义映射时使用。
进一步,作为优选,在所述步骤(1)中,语义空间映射是将专家知识库中表示专家知识的文本映射为语义空间中的向量,具体步骤如下:
(i)对专家知识库的知识图谱中的边/节点(这里的边是指知识图谱中实体节点与实体节点之间的关系及其自身的属性,节点是指知识图谱中的实体及其自身的相关属性中的词语进行过滤处理,去除其中无语义的停用词;
(ii)对经步骤(i)操作处理后保留的每一个词语,从已经构建好的语义向量库中获取其在语义向量空间中的映射向量,然后将这些词语对应的语义向量进行累加,进而得到表征该边/节点的总体语义向量。
进一步,作为优选,在所述步骤(2)的法律实体识别中,是针对待处理的法律文本进行分词处理,去除停用词后使用实体识别模型进行实体标注识别;同时,该模型还具有未知实体发现的作用,针对模型中不存在的实体,通过总结实体特征,发现具有相同特征的新法律实体;
其中,所述实体识别模型是构建法律文本及其标注的法律实体语料,通过相关算法进行机器学习训练,得到用于实体标注识别和新实体发现的模型。
进一步,作为优选,在所述步骤(3)的法律文本语义分析中,使用语义分析工具进行语义分析,语义分析的结果包括词性结果、句法分析结果、依存关系分析结果,上述语义分析结果将作为后续候选知识路径构建的辅助判断信息,这里的知识点和知识路径是等同的。
进一步,作为优选,在所述步骤(4)中,语义空间向量获取候选节点是将实体识别的结果映射到语义向量空间中,同专家知识库中的语义向量进行比较,结合语义分析结果,取相似度最高的多个专家知识库知识实体节点,通过树构建法构建知识路径,作为候选知识点。
进一步,作为优选,在所述步骤(4)中的树构建法构建知识路径中,构建方法如下:
①选择法律实体 e1 –工作为树根,其中,e1是上述多个专家知识库实体节点的一个;
②第一过程为直接关联,首先在专家知识库中选择关系 r1 可以一步跳到 e1 的法律实体 e2 ,其中 e2 的约束条件为:一步跳到e1 ,并且同时在法律文本和专家知识中出现;
③第二过程为多跳关联,其中,多跳关联是指在专家知识中选择关系 r2 可以链接 e2 和 e3;
④第三个过程外部关联,这步扩大的链接知识库的范围,这个过程的e4 仅在专家知识中,并且是e3的邻居,e3的邻居就是可以一步跳到e3,这个过程通过有用的外部信息的收集来完善上下文中的路径;
⑤第四个过程上下文关联,上一个过程发散了知识库的范围,将范围收敛来确保外部知识确实对任务有用,具体实现是在专家知识中选择关系 r4 可以通过 e3或e4 链接e3或e4 和e5,e5 同时属于专家知识和上下文。
进一步,作为优选,在所述步骤(4)中,获取候选隐含语义是针对候选知识点,结合专家知识库中的已有知识决策路径和语义分析结果,采用多种推理方法进行候选隐含语义推理;具体的推理方法包括:
(a)、基于PMI的节点评分方法
基于上述树构建产生的对于在法律文本上下文中的节点打分函数计算为:
Figure 100002_DEST_PATH_IMAGE001
|C| 是上下文的长度, count(c) 函数是法律实体在法律文本中的次数;
对于不在文中的节点 ,通过逻辑一致路径更为频繁出现的启发,评分函数使用的是计算点互信息PMI,通过 e4 和 e{1-3} 的点信息:
Figure 100002_DEST_PATH_IMAGE002
Figure 100002_DEST_PATH_IMAGE003
Figure 405575DEST_PATH_IMAGE003
Figure 100002_DEST_PATH_IMAGE004
Figure 100002_DEST_PATH_IMAGE005
其中路径指专家知识库和语义知识库中的知识路径,并对计算的PMI做归一化--NPMI:
Figure 100002_DEST_PATH_IMAGE006
又因为不同分支、不同层级的节点不存在竞争,对同层的兄弟节点进行标准化:
Figure 100002_DEST_PATH_IMAGE007
获取节点的初始分数后,采用一种启发式的累计节点打分方法,累计节点打分方法是一种自底向上的迭代,从叶子节点开始,叶子节点不需要更新,更新公式为:
Figure 100002_DEST_PATH_IMAGE008
其中e为非叶子节点,f(e)是节点的函数,计算方法为选择该节点e的孩子节点中c-score最高的两个,取两者的平均值;
最后计算知识路径的得分,采用知识路径的各个节点c-score的累加值:
Figure 100002_DEST_PATH_IMAGE009
设定一个阈值,认为score(p)小于该阈值的知识路径为无效路径;
(aa)、一阶谓词逻辑推理方法是基于专家知识库和语义知识库,将与候选知识点关联的知识转化为谓词公式,转化方法如下:定义谓词及个体,确定每个谓词及个体的确切含义;根据所要表达的事物或概念,为每个谓词中的变元赋以特定的值;根据所要表达的知识的语义,用适当的连接符号将各个谓词连接起来,形成谓词公式;根据知识库对上述方法产生的谓词公式求真值,保留真值为True的知识,过滤真值为False的知识;
(aaa)、贝叶斯推理方法,是对条件概率公式进行变形,可以得到如下形式:
Figure 100002_DEST_PATH_IMAGE010
其中,公式中有四个概率即P(A|B)、P(B|A)、P(A)和P(B),分别称之为后验概率、似然条件、先验概率和归一化常数;
P(B|A)/P(B)称为“可能性函数”,是一个调整因子,使得预估概率更接近真实概率,条件概率可以理解为下面的式子:
Figure 100002_DEST_PATH_IMAGE011
先预估一个“先验概率”,然后加入实验结果,看这个实验到底是增强还是消弱了“先验概率”,由此得到更接近事实的“后验概率”,也就是推理结果;
(aaaa)、神经网络推理方法是以语义向量化的专家知识库、语义知识库和法律文本语料作为训练语料,采用循环神经网络算法训练的法律文本隐含语义神经网络推理模型;通过该模型,输入实体识别和语义分析结果,可以得到可能的隐含语义及其置信度。
进一步,作为优选,在所述步骤(5)专家知识库更新中,具体步骤如下:
(b)专家知识自动生成
根据新实体发现和隐含语义推理结果,根据实体关系和实体关联度组合生成可能的新知识点,使用以下公式计算可能的新知识点分数,对于大于一定阈值,阈值通常为0.8的知识点,进入步骤(bb);
Figure 100002_DEST_PATH_IMAGE012
其中truth为一阶谓词逻辑推理结果,取值为0或1,pmi为基于PMI的打分推理方法结果,bayes为贝叶斯推理结果,nn为神经网络推理结果,
Figure 100002_DEST_PATH_IMAGE014
Figure 100002_DEST_PATH_IMAGE015
Figure 100002_DEST_PATH_IMAGE017
Figure 100002_DEST_PATH_IMAGE018
Figure 100002_DEST_PATH_IMAGE020
Figure 100002_DEST_PATH_IMAGE021
分别为上述三个结果的权重,通常取1/3;
(bb)专家知识审核:由法律专家团队针对上述步骤中生成的筛选后的知识点进行审核和二次编辑;
(bbb)专家知识入库:将经过审核的知识点加入原有的专家知识库中,更新语料库,重新构建语义向量空间和专家知识权重。
与现有技术相比,本发明的有益效果是:
(1)本发明基于专家知识库,通过实体识别、语义分析,根据上下文推理理解法律文本中的隐含语义内容,并将推理过程中产生的新实体和不包含在专家知识库的推理结果经过人工审核整理后加入专家知识库,并从相应的语料库中得到每一条专家知识、每一个法律实体的权重,这里的专家知识库是法律领域的专业知识库,采用基于本体的建模方式,是一个有向无环的贝叶斯网络图,图的每个节点都带有该节点在一条知识决策路径(知识点)的权重,外部法律文本通过基于向量空间的映射方法产生自适应权重,该权重影响后续的推理分析;这里的上下文是在自然语言中的空间上或者时间上有直接关联的前后文本;这里的上下文推理方法为多推理引擎综合的推理方法,包括一阶谓词逻辑推理、贝叶斯推理、神经网络推理等;这里隐含语义内容是指在法律文本中未直接提及的、但对理解该法律文本至关重要的法律要素、法律意图等。这里隐含语义的推理体现在两个方面:一、法律实体概念(要素、意图等)与具体描述该概念的关键词(或组合)之间能够通过推理动态匹配;二、语义缺省的推理补全,针对法律文本中缺省表达的法律要素,通过基于专家知识库的上下文推理方法进行补全;
(2)本发明是针对法律文本领域的上下文推理方法,能够有效解决法律文本语言理解中的部分上下文推理问题,本发明采用的基于法律专家知识库的推理方法,在法律领域具有天然的专业优势,推理的对象是法律文本中的隐含语义,也就是文本中未直接描述的部分,对法律知识的专业程度要求更高。
附图说明
图1为一种基于法律专家知识库的上下文推理方法的流程结构示意图;
图2为一种基于法律专家知识库的上下文推理方法中的树构建法构建知识路径的结构示意图。
具体实施方式
请参阅图1~2,本发明实施例中,一种基于法律专家知识库的上下文推理方法,其包括以下步骤:
(1)语义向量空间,分为语义向量空间构建和语义向量空间映射。
(1.1)语义向量空间构建:基于法律文本语料库构建一个法律语义向量库,将文本单元映射到语义空间上的向量,文本单元之间的语义相似度可以根据对应向量在语义空间中的距离进行比较,语义接近的词,它们对应的语义向量在空间上的距离也会很近,这样就克服了词语间直接比较时受到的词语变形、同义词变化、语法形式变化的影响。
语义向量的训练方法有Word2Vec、ESA (Explicit semanticanalysis)、LSA(Latent semantic analysis)、共现词频率特征等多种,本发明采用Word2Vec方法(https://code.google.com/p/word2vec)。
构建语义向量的训练数据的选择原则是法律相关文本,如裁判文书、法律法规、相关普法文章等,作为用Word2Vec方法训练语义向量的语料库,并用训练结果构建语义向量库,以供其它模块在语义映射时使用。
(1.2)语义空间映射:将专家知识库中表示专家知识的文本映射为语义空间中的向量,具体步骤如下:
(1.2.1)对专家知识库中的边/节点(实体间关系/实体)中的词语进行过滤处理,去除其中无语义的停用词;
(1.2.2)对经上步操作处理后保留的每一个词语,从已经构建好的语义向量库中获取其在语义空间中的投影向量,然后将这些词语对应的语义向量进行累加,进而得到表征该边/节点的总体语义向量。
(2)法律实体识别
针对待处理的法律文本进行分词处理,去除停用词后使用实体识别模型进行实体标注识别;同时,该模型还具有未知实体发现的作用,针对模型中不存在的实体,通过总结实体特征,发现具有相同特征的新法律实体。
实体识别模型:构建法律文本及其标注的法律实体语料,通过相关算法进行机器学习训练,得到用于实体标注识别和新实体发现的模型。
(3)法律文本语义分析
使用语义分析工具进行语义分析,语义分析的结果包括词性结果、句法分析结果、依存关系分析结果等,基于上述结果,采用语义规则和法律关系相结合的方式生成可能的知识点(实体组、实体关系组等)。
(4)隐含语义推理
(4.1)获取候选知识点
采用以下两个步骤获取候选的知识路径(知识点):
(4.1.1))语义空间向量获取候选节点:实体识别的结果映射到语义向量空间中,同专家知识库中的语义向量进行比较,结合语义分析结果,取相似度最高的多个专家知识库知识节点,通过树构建法构建知识路径,作为候选知识点;
(4.1.2)树构建法构建知识路径,其包括以下步骤:
①选择法律实体 e1 –工作为树根;
②第一过程为直接关联,首先在专家知识库中选择关系 r1 可以一步跳到 e1 的法律实体 e2 (这里 e2 的约束条件为:一步跳到e1 ,并且同时在法律文本和专家知识中出现)如图中的试用期、劳动合同等等;
③第二过程为多跳关联,也在专家知识中选择关系 r2 可以链接 e2 和 e3 ,其中 e3 的约束的条件和e2一样,其中,这里的多跳体现在从根节点e1出发,需要经过2跳(一跳以上)的实体才能到达目标实体e3,e1与e3的关联为多跳关联;其中 e3 的约束的条件和e2一样,一步从e2跳到e3,并且同时在法律文本和专家知识库中出现;
④第三个过程外部关联,这步扩大的链接知识库的范围,这个过程的e4 仅在专家知识中,并且是e3的邻居(就是可以一步跳到e3),这个过程通过有用的外部信息的收集来完善上下文中的路径;
⑤第四个过程上下文关联,上一个过程发散了知识库的范围,本过程需要将范围收敛来确保外部知识确实对任务有用,具体实现是在专家知识中选择关系 r4 可以通过e3或e4 链接e3或e4 和e5,e5 同时属于专家知识和上下文。
(4.2)获取候选隐含语义
针对候选知识点,结合专家知识库中的已有知识决策路径和语义分析结果,采用多种推理方法进行候选隐含语义推理。包括以下方法:
(4.2.1)基于PMI的节点评分方法
基于上述树构建产生的对于在法律文本上下文中的节点打分函数计算为:
Figure 617988DEST_PATH_IMAGE001
|C| 是上下文的长度, count(c) 函数是法律实体在法律文本中的次数。
对于不在文中的 节点 ,通过逻辑一致路径更为频繁出现的启发,评分函数使用的是计算点互信息(Pointwise Mutual Information,PMI)。通过 e4 和 e{1-3} 的点信息:
Figure 663305DEST_PATH_IMAGE002
Figure 589672DEST_PATH_IMAGE003
Figure 544990DEST_PATH_IMAGE003
Figure 898611DEST_PATH_IMAGE004
Figure 322901DEST_PATH_IMAGE005
其中路径指专家知识库和语义知识库中的知识路径。这里有一个关键,因为PMI受低频的值影响很大,所以需要对计算的PMI做归一化--NPMI(normalized PMI):
Figure 787381DEST_PATH_IMAGE006
又因为不同分支、不同层级的节点不存在竞争,可以对同层的兄弟节点进行标准化:
Figure 987418DEST_PATH_IMAGE007
获取节点的初始分数后,在知识路径中,节点的重要度与其后代也有关系,这里采用一种启发式的累计节点打分方法,这是一种自底向上的迭代,从叶子节点开始,叶子节点不需要更新,更新公式为:
Figure 121727DEST_PATH_IMAGE008
其中e为非叶子节点,f(e)是节点的函数,计算方法为选择该节点e的孩子节点中c-score最高的两个,取两者的平均值。
最后计算知识路径的得分,采用知识路径的各个节点c-score的累加值:
Figure 407215DEST_PATH_IMAGE009
设定一个阈值,认为score(p)小于该阈值的知识路径为无效路径。
(4.2.2)一阶谓词逻辑推理方法:
基于专家知识库和语义知识库,将与候选知识点关联的知识转化为谓词公式,转化方法如下:定义谓词及个体,确定每个谓词及个体的确切含义;根据所要表达的事物或概念,为每个谓词中的变元赋以特定的值;根据所要表达的知识的语义,用适当的连接符号将各个谓词连接起来,形成谓词公式。
根据知识库对上述方法产生的谓词公式求真值,保留真值为True的知识,过滤真值为False的知识。
(4.2.3)贝叶斯推理方法
对条件概率公式(贝叶斯定理)进行变形,可以得到如下形式:
Figure 409806DEST_PATH_IMAGE010
这里公式中有四个概率即P(A|B)、P(B|A)、P(A)和P(B),我们分别称之为后验概率(也就是有了一定先验知识的情况下得出的判断)、似然条件(因为B已经发生了,你判断A是否发生的逻辑一定要使得B发生)、先验概率(没有经过先验知识左右的纯的A发生的概率)和归一化常数(所有的判断都是建立在B已经发生了的基础上进行的,所以一切概率要以B发生为基准)。
本发明把P(B|A)/P(B)称为“可能性函数”,这是一个调整因子,使得预估概率更接近真实概率。
所以,条件概率可以理解为下面的式子:
Figure 588983DEST_PATH_IMAGE011
这就是贝叶斯推断的含义。我们先预估一个“先验概率”,然后加入实验结果,看这个实验到底是增强还是消弱了“先验概率”,由此得到更接近事实的“后验概率”,也就是推理结果。本发明中,专家知识库本身就是一个贝叶斯网络,根据法律文本中各个实体在知识库中的先验概率,以及从法律文本语料中统计得来的调整因子值,计算隐含语义的后验概率值,以后验概率值大于0.6为可信推理结果。
(4.2.4)神经网络推理方法
以语义向量化的专家知识库、语义知识库和法律文本语料作为训练语料,采用循环神经网络算法训练的法律文本隐含语义神经网络推理模型;通过该模型,输入实体识别和语义分析结果,可以得到可能的隐含语义及其置信度(概率)。
(3)推理结果评估分析
综合分析上述四个推理方法的推理结果,保留三个方法及以上的交集部分作为正确推理结果,保留两个方法交集部分作为待咨询(评审)项,用以二次咨询用户或通过人工进行评审,最终得到法律文本隐含语义的推理结果。
(5)专家知识库更新
专家知识库更新的具体步骤如下:
(5.1)专家知识自动生成
根据法律实体识别步骤的新实体发现和步骤隐含语义推理中的隐含语义推理结果,根据实体关系和实体关联度组合生成可能的新知识点,使用以下公式计算可能的新知识点分数,对于大于一定阈值(通常为0.8)的知识点,进入步骤5.2;
Figure 549986DEST_PATH_IMAGE012
其中truth为一阶谓词逻辑推理结果,取值为0或1,pmi为基于PMI的打分推理方法结果,bayes为贝叶斯推理结果,nn为神经网络推理结果,
Figure 932557DEST_PATH_IMAGE014
Figure 738839DEST_PATH_IMAGE015
Figure 647889DEST_PATH_IMAGE017
Figure 137383DEST_PATH_IMAGE018
Figure 131884DEST_PATH_IMAGE020
Figure 617223DEST_PATH_IMAGE021
分别为上述三个结果的权重,通常取1/3。
(5.2)专家知识审核
由法律专家团队针对上述步骤中生成的筛选后的知识点进行审核和二次编辑
(5.3)专家知识入库
将经过审核的知识点加入原有的专家知识库中,更新语料库,重新构建语义向量空间和专家知识权重。
本发明基于专家知识库,通过实体识别、语义分析,根据上下文推理理解法律文本中的隐含语义内容,并将推理过程中产生的新实体和不包含在专家知识库的推理结果经过人工审核整理后加入专家知识库,并从相应的语料库中得到每一条专家知识、每一个法律实体的权重,这里的专家知识库是法律领域的专业知识库,采用基于本体的建模方式,是一个有向无环的贝叶斯网络图,图的每个节点都带有该节点在一条知识决策路径(知识点)的权重,外部法律文本通过基于向量空间的映射方法产生自适应权重,该权重影响后续的推理分析;这里的上下文是在自然语言中的空间上或者时间上有直接关联的前后文本;这里的上下文推理方法为多推理引擎综合的推理方法,包括一阶谓词逻辑推理、贝叶斯推理、神经网络推理等;这里隐含语义内容是指在法律文本中未直接提及的、但对理解该法律文本至关重要的法律要素、法律意图等。这里隐含语义的推理体现在两个方面:一、法律实体概念(要素、意图等)与具体描述该概念的关键词(或组合)之间能够通过推理动态匹配;二、语义缺省的推理补全,针对法律文本中缺省表达的法律要素,通过基于专家知识库的上下文推理方法进行补全。
此外,本发明是针对法律文本领域的上下文推理方法,能够有效解决法律文本语言理解中的部分上下文推理问题,本发明采用的基于法律专家知识库的推理方法,在法律领域具有天然的专业优势,推理的对象是法律文本中的隐含语义,也就是文本中未直接描述的部分,对法律知识的专业程度要求更高。
以上所述的,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (7)

1.一种基于法律专家知识库的上下文推理方法,其特征在于,其包括以下步骤:
(1)构建语义向量空间,分为语义向量空间构建和语义向量空间映射,其包括语义向量空间构建和语义空间映射;
(2)法律实体识别;
(3)法律文本语义分析;
(4)隐含语义推理,其包括获取候选知识点、树构建法构建知识路径、获取候选隐含语义和推理结果评估分析;
(5)专家知识库更新;
其中,在所述步骤(4)中,获取候选知识点采用语义空间向量获取候选节点、树构建法构建知识路径这两个步骤获取候选的知识路径;
且获取候选隐含语义是针对候选知识点,结合专家知识库中的已有知识决策路径和语义分析结果,采用多种推理方法进行候选隐含语义推理;
其多种推理方法至少包括基于PMI的节点评分方法、一阶谓词逻辑推理方法、贝叶斯推理方法、神经网络推理方法;
在所述步骤(1)中,所述语义向量空间构建是通过基于法律文本语料库构建一个法律语义向量库,将文本单元映射到语义空间上的向量,文本单元之间的语义相似度是根据对应向量在语义空间中的距离进行比较,语义接近的词;构建语义向量的训练数据的选择原则是法律相关文本,裁判文书、法律法规、相关普法文章,作为用Word2Vec方法训练语义向量的语料库,并用训练结果构建语义向量库,以供其它模块在语义映射时使用;
在所述步骤(1)中,语义空间映射是将专家知识库中表示专家知识的文本映射为语义空间中的向量,具体步骤如下:
(i)对专家知识库的知识图谱中的边/节点,这里的边是指知识图谱中实体节点与实体节点之间的关系及其自身的属性,节点是指知识图谱中的实体及其自身的相关属性中的词语进行过滤处理,去除其中无语义的停用词;
(ii)对经步骤(i)操作处理后保留的每一个词语,从已经构建好的语义向量库中获取其在语义向量空间中的映射向量,然后将这些词语对应的语义向量进行累加,进而得到表征该边/节点的总体语义向量。
2.根据权利要求1所述的一种基于法律专家知识库的上下文推理方法,其特征在于,在所述步骤(2)的法律实体识别中,是针对待处理的法律文本进行分词处理,去除停用词后使用实体识别模型进行实体标注识别;同时,该模型还具有未知实体发现的作用,针对模型中不存在的实体,通过总结实体特征,发现具有相同特征的新法律实体;
其中,所述实体识别模型是构建法律文本及其标注的法律实体语料,通过相关算法进行机器学习训练,得到用于实体标注识别和新实体发现的模型。
3.根据权利要求1所述的一种基于法律专家知识库的上下文推理方法,其特征在于,在所述步骤(3)的法律文本语义分析中,使用语义分析工具进行语义分析,语义分析的结果包括词性结果、句法分析结果、依存关系分析结果,上述语义分析结果将作为后续候选知识路径构建的辅助判断信息,这里的知识点和知识路径是等同的。
4.根据权利要求1所述的一种基于法律专家知识库的上下文推理方法,其特征在于,在所述步骤(4)中,语义空间向量获取候选节点是将实体识别的结果映射到语义向量空间中,同专家知识库中的语义向量进行比较,结合语义分析结果,取相似度最高的多个专家知识库知识实体节点,通过树构建法构建知识路径,作为候选知识点。
5.根据权利要求4所述的一种基于法律专家知识库的上下文推理方法,其特征在于,在所述步骤(4)中的树构建法构建知识路径中,构建方法如下:
①选择法律实体 e1 –工作为树根,其中,e1是上述多个专家知识库实体节点的一个;
②第一过程为直接关联,首先在专家知识库中选择关系 r1 可以一步跳到 e1 的法律实体 e2 ,其中 e2 的约束条件为:一步跳到e1 ,并且同时在法律文本和专家知识中出现;
③第二过程为多跳关联,其中,多跳关联是指在专家知识中选择关系 r2 可以链接 e2和 e3;
④第三个过程外部关联,这步扩大的链接知识库的范围,这个过程的e4 仅在专家知识中,并且是e3的邻居,e3的邻居就是可以一步跳到e3,这个过程通过有用的外部信息的收集来完善上下文中的路径;
⑤第四个过程上下文关联,上一个过程发散了知识库的范围,将范围收敛来确保外部知识确实对任务有用,具体实现是在专家知识中选择关系 r4 可以通过 e3或e4 链接e3或e4 和e5,e5 同时属于专家知识和上下文。
6.根据权利要求1所述的一种基于法律专家知识库的上下文推理方法,其特征在于,在所述步骤(4)中,获取候选隐含语义是针对候选知识点,结合专家知识库中的已有知识决策路径和语义分析结果,采用多种推理方法进行候选隐含语义推理;具体的推理方法包括:
(a)、基于PMI的节点评分方法
基于上述树构建产生的对于在法律文本上下文中的节点打分函数计算为:
Figure DEST_PATH_IMAGE001
|C| 是上下文的长度, count(c) 函数是法律实体在法律文本中的次数;
对于不在文中的节点 ,通过逻辑一致路径更为频繁出现的启发,评分函数使用的是计算点互信息PMI,通过 e4 和 e{1-3} 的点信息:
Figure DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
Figure 312741DEST_PATH_IMAGE003
Figure DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE005
其中路径指专家知识库和语义知识库中的知识路径,并对计算的PMI做归一化--NPMI:
Figure DEST_PATH_IMAGE006
又因为不同分支、不同层级的节点不存在竞争,对同层的兄弟节点进行标准化:
Figure DEST_PATH_IMAGE007
获取节点的初始分数后,采用一种启发式的累计节点打分方法,累计节点打分方法是一种自底向上的迭代,从叶子节点开始,叶子节点不需要更新,更新公式为:
Figure DEST_PATH_IMAGE008
其中e为非叶子节点,f(e)是节点的函数,计算方法为选择该节点e的孩子节点中c-score最高的两个,取两者的平均值;
最后计算知识路径的得分,采用知识路径的各个节点c-score的累加值:
Figure DEST_PATH_IMAGE009
设定一个阈值,认为score(p)小于该阈值的知识路径为无效路径;
(aa)、一阶谓词逻辑推理方法是基于专家知识库和语义知识库,将与候选知识点关联的知识转化为谓词公式,转化方法如下:定义谓词及个体,确定每个谓词及个体的确切含义;根据所要表达的事物或概念,为每个谓词中的变元赋以特定的值;根据所要表达的知识的语义,用适当的连接符号将各个谓词连接起来,形成谓词公式;根据知识库对上述方法产生的谓词公式求真值,保留真值为True的知识,过滤真值为False的知识;
(aaa)、贝叶斯推理方法,是对条件概率公式进行变形,可以得到如下形式:
Figure DEST_PATH_IMAGE010
其中,公式中有四个概率即P(A|B)、P(B|A)、P(A)和P(B),分别称之为后验概率、似然条件、先验概率和归一化常数;
P(B|A)/P(B)称为“可能性函数”,是一个调整因子,使得预估概率更接近真实概率,条件概率可以理解为下面的式子:
Figure DEST_PATH_IMAGE011
先预估一个“先验概率”,然后加入实验结果,看这个实验到底是增强还是消弱了“先验概率”,由此得到更接近事实的“后验概率”,也就是推理结果;
(aaaa)、神经网络推理方法是以语义向量化的专家知识库、语义知识库和法律文本语料作为训练语料,采用循环神经网络算法训练的法律文本隐含语义神经网络推理模型;通过该模型,输入实体识别和语义分析结果,可以得到可能的隐含语义及其置信度。
7.根据权利要求1所述的一种基于法律专家知识库的上下文推理方法,其特征在于,在所述步骤(5)专家知识库更新中,具体步骤如下:
(b)专家知识自动生成
根据新实体发现和隐含语义推理结果,根据实体关系和实体关联度组合生成可能的新知识点,使用以下公式计算可能的新知识点分数,对于大于一定阈值,阈值为0.8的知识点,进入步骤(bb);
Figure DEST_PATH_IMAGE012
其中truth为一阶谓词逻辑推理结果,取值为0或1,pmi为基于PMI的打分推理方法结果,bayes为贝叶斯推理结果,nn为神经网络推理结果,
Figure DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
Figure DEST_PATH_IMAGE017
Figure DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE021
分别为上述三个结果的权重,取1/3;
(bb)专家知识审核:由法律专家团队针对上述步骤中生成的筛选后的知识点进行审核和二次编辑;
(bbb)专家知识入库:将经过审核的知识点加入原有的专家知识库中,更新语料库,重新构建语义向量空间和专家知识权重。
CN201910494906.6A 2019-06-10 2019-06-10 一种基于法律专家知识库的上下文推理方法 Active CN110046262B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910494906.6A CN110046262B (zh) 2019-06-10 2019-06-10 一种基于法律专家知识库的上下文推理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910494906.6A CN110046262B (zh) 2019-06-10 2019-06-10 一种基于法律专家知识库的上下文推理方法

Publications (2)

Publication Number Publication Date
CN110046262A CN110046262A (zh) 2019-07-23
CN110046262B true CN110046262B (zh) 2021-03-12

Family

ID=67284656

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910494906.6A Active CN110046262B (zh) 2019-06-10 2019-06-10 一种基于法律专家知识库的上下文推理方法

Country Status (1)

Country Link
CN (1) CN110046262B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160557B (zh) * 2019-12-27 2023-04-18 浙江大学 一种基于双代理增强学习路径搜索的知识表示学习方法
CN110765257B (zh) * 2019-12-30 2020-03-31 杭州识度科技有限公司 一种知识图谱驱动型的法律智能咨询系统
CN111680135B (zh) * 2020-04-20 2023-08-25 重庆兆光科技股份有限公司 一种基于隐式知识的阅读理解方法
CN111797230B (zh) * 2020-06-11 2021-07-13 南京擎盾信息科技有限公司 法律三阶层论自动推理方法、装置和电子设备
CN111797233B (zh) * 2020-06-12 2021-04-30 南京擎盾信息科技有限公司 基于垂直领域的事件链结构识别的方法和装置
CN111897959A (zh) * 2020-07-17 2020-11-06 南京擎盾信息科技有限公司 动态法律事件内的推理方法、装置、设备和存储介质
CN112381228B (zh) * 2020-11-03 2023-06-27 中国直升机设计研究所 一种基于业务的知识体系构建和应用方法
CN112183073A (zh) * 2020-11-27 2021-01-05 北京擎盾信息科技有限公司 一种适用于法律热线语音识别的文本纠错和补全方法
CN113255364A (zh) * 2021-05-28 2021-08-13 华斌 基于知识融合的政务信息化项目多专家意见机器整合方法
CN114091673B (zh) * 2022-01-19 2022-04-08 华中科技大学 语义编码器、解码器和语义通信框架

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182489A (zh) * 2014-08-11 2014-12-03 同济大学 一种文本大数据的查询处理方法
CN106202010A (zh) * 2016-07-12 2016-12-07 重庆兆光科技股份有限公司 基于深度神经网络构建法律文本语法树的方法和装置
CN107908671A (zh) * 2017-10-25 2018-04-13 南京擎盾信息科技有限公司 基于法律数据的知识图谱构建方法及系统
CN107943793A (zh) * 2018-01-10 2018-04-20 威盛电子股份有限公司 自然语言的语义解析方法
CN108073569A (zh) * 2017-06-21 2018-05-25 北京华宇元典信息服务有限公司 一种基于多层级多维度语义理解的法律认知方法、装置和介质
CN108256065A (zh) * 2018-01-16 2018-07-06 智言科技(深圳)有限公司 基于关系检测和强化学习的知识图谱推理方法
CN109271506A (zh) * 2018-11-29 2019-01-25 武汉大学 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853449A (zh) * 2010-06-18 2010-10-06 上海百事通信息技术有限公司 一种法律问题智能诊断方法与系统
US9898541B2 (en) * 2014-11-20 2018-02-20 International Business Machines Corporation Generating derived links
CN107133283A (zh) * 2017-04-17 2017-09-05 北京科技大学 一种法律本体知识库自动构建方法
CN109858007B (zh) * 2017-11-30 2024-02-02 上海智臻智能网络科技股份有限公司 语义分析问答方法和装置、计算机设备和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182489A (zh) * 2014-08-11 2014-12-03 同济大学 一种文本大数据的查询处理方法
CN106202010A (zh) * 2016-07-12 2016-12-07 重庆兆光科技股份有限公司 基于深度神经网络构建法律文本语法树的方法和装置
CN108073569A (zh) * 2017-06-21 2018-05-25 北京华宇元典信息服务有限公司 一种基于多层级多维度语义理解的法律认知方法、装置和介质
CN107908671A (zh) * 2017-10-25 2018-04-13 南京擎盾信息科技有限公司 基于法律数据的知识图谱构建方法及系统
CN107943793A (zh) * 2018-01-10 2018-04-20 威盛电子股份有限公司 自然语言的语义解析方法
CN108256065A (zh) * 2018-01-16 2018-07-06 智言科技(深圳)有限公司 基于关系检测和强化学习的知识图谱推理方法
CN109271506A (zh) * 2018-11-29 2019-01-25 武汉大学 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
法律领域的知识表示;曾丽芳等;《计算机工程与科学》;19940610;第52页-第57页 *

Also Published As

Publication number Publication date
CN110046262A (zh) 2019-07-23

Similar Documents

Publication Publication Date Title
CN110046262B (zh) 一种基于法律专家知识库的上下文推理方法
CN110377686B (zh) 一种基于深度神经网络模型的地址信息特征抽取方法
CN111310438B (zh) 基于多粒度融合模型的中文句子语义智能匹配方法及装置
US11256487B2 (en) Vectorized representation method of software source code
Xu et al. Sql-to-text generation with graph-to-sequence model
CN108874878A (zh) 一种知识图谱的构建系统及方法
CN111027595B (zh) 双阶段语义词向量生成方法
CN106897371B (zh) 中文文本分类系统及方法
CN110245238B (zh) 基于规则推理和句法模式的图嵌入方法及系统
Xiong et al. Knowledge graph question answering with semantic oriented fusion model
CN110765755A (zh) 一种基于双重选择门的语义相似度特征提取方法
JP6291443B2 (ja) 接続関係推定装置、方法、及びプログラム
CN110659357B (zh) 一种基于本体语义相似度的地理知识问答系统
CN112597285B (zh) 一种基于知识图谱的人机交互方法及系统
CN110580281A (zh) 一种基于语义相似度的相似案件匹配方法
CN108733745B (zh) 一种基于医学知识的查询扩展方法
CN111639165A (zh) 基于自然语言处理和深度学习的智能问答优化方法
CN105335510A (zh) 文本数据高效搜索方法
CN107679124B (zh) 一种基于动态规划算法的知识图谱中文问答检索方法
CN112036178A (zh) 一种配网实体相关的语义搜索方法
CN115422323A (zh) 一种基于知识图谱的情报智能问答方法
CN105160046A (zh) 基于文本的数据检索方法
CN104572633A (zh) 一种确定多义词词义的方法
CN114444515A (zh) 一种基于实体语义融合的关系抽取方法
CN107402919B (zh) 基于图的机器翻译数据选择方法及机器翻译数据选择系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant