CN112632225B

CN112632225B - 基于案事件知识图谱的语义搜索方法、装置和电子设备

Info

Publication number: CN112632225B
Application number: CN202011596608.7A
Authority: CN
Inventors: 朵思惟; 余梓飞; 张程华; 薛晨云
Original assignee: Tianjin Huizhi Xingyuan Information Technology Co ltd
Current assignee: Tianjin Huizhi Xingyuan Information Technology Co ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2022-08-30
Anticipated expiration: 2040-12-29
Also published as: CN112632225A

Abstract

本说明书一个或多个实施例提供一种基于案事件知识图谱的语义搜索方法、装置和电子设备，对用户输入的法律案事件问题首先进行预处理，然后对所述法律案事件问题的描述进行信息抽取和信息融合；基于案事件类型标签对所述描述进行分类，输出带有案事件类型标签的语义搜索图；将所述语义搜索图与法律案事件知识图谱进行子图匹配，输出法律案事件答案数据。本发明通过对用户问题建立语义网，并结合案事件知识图谱进行匹配和推理，能够准确捕捉用户的搜索意图，从而直接给出满足用户搜索意图的答案，实际解决用户的法律问题。

Description

基于案事件知识图谱的语义搜索方法、装置和电子设备

技术领域

本说明书一个或多个实施例涉及知识图谱技术领域，尤其涉及一种基于案事件知识图谱的语义搜索方法、装置和电子设备。

背景技术

随着科技的发展，人工智能正在推动司法的改革。面对海量的裁判文书等法律资源，如果能让机器对案件进行一定程度的理解和认知，将会很大程度的解放人力，并将在类案搜索、类案精准推送等司法应用场景中发挥重要的作用。

传统的法律案事件搜索系统大多基于关键词匹配技术或案事件分类，返回的结果主要依据用户输入素材中是否存在相关的法律关键词或直接对用户输入进行粗糙的分类并基于该分类结果直接返回属于该类别的所有案例。这种搜索系统并不能理解用户搜索语句的真正含义，返回的案例往往范围太广甚至完全不准确，这与用户对精准返回相关案事件的需求相矛盾。

基于此，需要一种能够为民众提供精准的类案搜索结果和相关案情分析的语义搜索方法。

发明内容

有鉴于此，本说明书一个或多个实施例的目的在于提出一种基于案事件知识图谱的语义搜索方法、装置和电子设备，以解决传统的法律案事件搜索系统不能准确理解用户搜索语句的问题。

基于上述目的，本说明书一个或多个实施例提供了一种基于案事件知识图谱的语义搜索方法，包括：

响应于接收到用户输入的法律案事件问题的描述，对所述描述进行预处理；

通过Balanced-TPLinker模型对所述描述进行实体、实体关系、事件触发词、事件角色和论元的提取，以所述实体、事件触发词和论元作为节点，以所述实体关系和事件角色作为边构建语义搜索图，对所述描述进行案事件类型分类并得到所述描述的案事件类型分类标签集合，结合所述语义搜索图得到一个带有至少一个案事件类型分类标签的语义搜索图；

将所述带有案事件类型分类标签的语义搜索图与预先基于法律案事件相关文件构建的法律案事件知识图谱进行子图匹配，输出与所述描述相关的法律案事件候选答案数据集；

输出所述法律案事件候选答案数据集中的至少一个作为与所述描述相关的法律案事件答案数据。

基于同一发明构思，本说明书一个或多个实施例还提供了一种基于案事件知识图谱的语义搜索装置，包括：

预处理模块，被配置为响应于接受到用户输入的法律案事件问题的描述，对所述描述进行预处理；

语义搜索图生成模块，被配置为通过Balanced-TPLinker模型对所述描述进行实体、实体关系、事件触发词、事件角色和论元的提取，以所述实体、事件触发词和论元作为节点，以所述实体关系和事件角色作为边构建语义搜索图，对所述描述进行案事件类型分类并得到所述描述的案事件类型分类标签集合，结合所述语义搜索图得到一个带有至少一个案事件类型分类标签的语义搜索图；

子图匹配模块，被配置为将所述带有案事件类型分类标签的语义搜索图与预先基于法律案事件相关文件构建的法律案事件知识图谱进行子图匹配，输出与所述描述相关的法律案事件候选答案数据集；

输出模块，被配置为输出所述法律案事件候选答案数据集中的至少一个作为与所述描述相关的法律案事件答案数据。

基于同一发明构思，本说明书一个或多个实施例还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上任意一项所述的方法。

基于同一发明构思，本说明书一个或多个实施例还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令在被计算机执行时使所述计算机执行如上任一所述的方法。

从上面所述可以看出，本说明书一个或多个实施例提供的一种基于案事件知识图谱的语义搜索方法、装置和电子设备，通过对用户问题建立语义网，并结合案事件知识图谱进行匹配和推理，能够准确捕捉用户的搜索意图，从而直接给出满足用户搜索意图的答案，实际解决用户的法律问题。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书一个或多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书一个或多个实施例的语义搜索方法流程的示意图；

图2为本说明书一个或多个实施例的预处理操作流程的示意图；

图3为本说明书一个或多个实施例的实体关系连接的示意图；

图4为本说明书一个或多个实施例的对用户描述进行编码分类的示意图；

图5为本说明书一个或多个实施例的语义搜索图示意图；

图6为本说明书一个或多个实施例的语义搜索装置的模块示意图；

图7为本说明书一个或多个实施例的电子设备的硬件结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

需要说明的是，除非另外定义，本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本说明书一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

如背景技术所述，当前法律案事件搜索系统大多是基于关键词匹配技术，不能准确理解用户搜索语句的真正含义，难以解决用户法律方面问题的需求，不能为用户提供精准的法律案例推荐。

有鉴于此，本说明书一个或多个实施例提供了一种基于案事件知识图谱的语义搜索方法，对用户输入的法律案事件问题首先进行预处理，包括去除特殊符号、分词、同义词归一化和语法纠错等。然后对所述法律案事件问题的描述进行信息抽取和信息融合，提取出“主体-关系-客体”、“事件触发词-事件角色-论元”两个三元组，基于两个三元组构建语义搜索图，对用户语义做初步的理解。基于案事件类型标签对所述描述进行分类，输出带有案事件类型标签的语义搜索图。将所述案事件类型标签与预先基于法律知识相关文件构建的法律案事件知识图谱的节点相对应，将所述语义搜索图和基于所述节点为根节点的部分法律案事件知识图谱进行匹配，将匹配度高的子图作为法律案事件候选答案数据集。输出所述法律案事件候选答案数据集中的至少一个法律案事件候选答案数据作为与所述描述相关的法律案事件答案数据。

可见，本说明书一个或多个实施例的基于案事件知识图谱的语义搜索方法通过对用户问题进行语义理解，结合已有的法律案事件类型，构建基于用户提问的带有案事件类别标签的语义搜索图，并将其和大规模系统化的法律案事件知识图谱进行匹配，充分利用两个图谱间的相互关联信息，通过精准理解用户的搜索意图，返回最为相似的历史案事件，实际解决用户的法律诉求。

以下，通过具体的实施例来详细说明本说明书一个或多个实施例的技术方案。

参考图1，本说明书一个实施例的基于案事件知识图谱的语义搜索方法，包括以下步骤：

步骤S101、响应于接受到用户输入的法律案事件问题的描述，对所述描述进行预处理。

在本步骤中，参考图2，所述预处理包括以下步骤：

步骤S201、去除标点符号和特殊符号，由于标点符号仅对阅读理解有作用，而对语义理解没有太大作用，我们通过正则表达式的方式删除标点符号及特殊符号。

步骤S202、繁简体统一化，由于中文文字在历史上经历了多次改革，很多字存在多种书写形式，如“车”，“車”，因此对同一个字需要进行繁简体的统一化。

步骤S203、分词，应用简单高效的中文分词算法WMSeg对所述描述进行分词。

步骤S204、同义词归一化，将缩写、别称和具有多种表述方式的词汇用标准表达方式进行统一，这样可以减少计算机处理不同信息的数量，提高计算效率和准确度。

步骤S205、文本纠错，采用文本纠错的最优模型Soft-Masked BERT对用户输入进行文本纠错，常见的文本错误主要包括字形引起的错误和拼音相似引起的错误，其他错误还包括方言、口语化和重复输入等。

基于上述步骤S201至步骤S205完成对所述描述的预处理。

步骤S102、通过Balanced-TPLinker模型对所述描述进行实体、实体关系、事件触发词、事件角色和论元的提取，以所述实体、事件触发词和论元作为节点，以所述实体关系和事件角色作为边构建语义搜索图，对所述描述进行案事件类型分类并得到所述描述的案事件类型分类标签集合，结合所述语义搜索图得到一个带有至少一个案事件类型分类标签的语义搜索图。

在实际情况中，用户搜索语句中可能包含的信息有：实体(如人名，地名等)，实体间的关系(如张鹏-“居住在”-北京等)，事件触发词(如“殴打”等)，事件参数(如事件发生的时间等)。我们需要将实体和事件触发词表示为语义搜索图的节点，实体间的关系和事件参数作为边，构建语义搜索图。为了缩小在法律案事件知识图谱中的搜索范围，我们会对用户搜索语句贴标签，由于其可能包含多重信息，可能被贴上多个标签。每个标签对应于法律案事件知识图谱中的一个案事件类型节点。在后续子图匹配过程中，我们只需要对和该节点相关的部分案事件图谱进行匹配即可。

本实施例中，生成带有至少一个案事件类型分类标签的语义搜索图包括语义搜索图生成和案事件类型分类标签生成。其中，语义搜索图生成包括信息抽取和信息融合，具体为：

1、信息抽取：信息抽取的主要目标是要从用户搜索语句中提取出实体、实体间的关系、事件触发词、事件角色和论元，以实体、事件触发词和论元作为节点，实体间的关系和事件角色作为边，构建语义搜索图。通过对实体关系抽取模型TPLinker的改进，我们提出了Balanced-TPLinker模型，并将其推广应用到了对事件触发词和论元的提取中。本步骤主要分为两步：基于Balanced-TPLinker的“主体-关系-客体”三元组抽取，基于Balanced-TPLinker的“事件触发词-事件角色-论元”三元组抽取。

(1)Balanced-TPLinker模型的主要思想是对于一个“主体-关系-客体”三元组，我们如果能够基于一个给定的“关系”确定“主体”和“客体”在句子中首字和尾字的位置，那么就可以得到相应的“主体-关系-客体”三元组了。为了达到这一目的，我们首先定义以下两组连接，参考图3，每组包括三种连接方式：

第一组：1)实体头-实体尾(EH-ET)；

2)主体头-客体头(SH-OH)；

3)主体尾-客体尾(ST-OT)；

第二组：1)实体头-实体尾(EH-ET)；

2)主体头-客体尾(SH-OT)；

3)主体尾-客体头(ST-OH)；

如图3所示，实线对应第一组连接，虚线对应第二组连接。对于一个给定的用户搜索语句[w₁，...，w_n]，首先基于预训练模型Bert对句子进行字粒度的编码，得到每个字的向量表示[h₁，...，h_n]，然后让句子中的字两两互相“握手”，得到每个“字对儿”的向量表示：

h_i，j＝tanh(W_h·[h_i；h_j]+b_h)，j≥i

其中，W_h为权重矩阵，b_h为偏置向量，tanh(·)为双曲正切函数，被广泛用于深度学习的神经网络中，作为神经元的激活函数使用。如果直接应用两个字向量的拼接[h_i；h_j]作为“字对儿”的向量表示，则会丢失两个字之间的内在联系，上述公式通过线性和非线性变换自然地将两个向量的信息进行了融合，从而使得变换后的向量h_i，j能够更好的表达“字对儿”内在的关联特征。使用Softmax分类器对上述“字对儿”基于前面已经定义的5类连接进行分类(其中EH-ET被两组共享，因此只有5类)，对于一个给定类型的连接‘*’，该“字对儿”是否属于该类型连接的概率计算如下：

其中变量

表示“字对儿”(w_i，w_j)在连接类型‘*’下对应的标签值(0或1或2)。概率

是一个向量，向量中的元素分别代表该“字对儿”对于给定的连接类型‘*’被标记为l(l＝0，1，2)的概率。以连接类型SH-OH为例，l＝0代表不属于该类型，l＝1代表属于类型，l＝2代表属于主体和客体位置对调的类型SH-OH。根据概率

的值的大小，我们最后对该“字对儿”(w_i，w_j)所贴的标签(0或1或2)进行确定：

其中，

函数表示取使得P(y_i，j＝l)最大的l，因此最终link(w_i，w_j)的值只可能为0、1或2，也就是l的所有可能取值，对应于图4中每个小方块中的数字。通过最大化如下目标函数得到最终的模型：

其中，N代表句子的长度，

表示对于给定的连接类型‘*’该“字对儿”的真实标签，E，HH，TT，HT，TH分别是5种连接类型EH-ET，SH-OH，ST-OT，SH-OT，ST-OH的简写。在得到了每个“字对儿”(w_i，w_j)连接类型link(w_i，w_j)后，我们需要对此信息进行解码，从而确定“主体-关系-客体”三元组。

解码步骤具体如下：

1)首先，提取出在连接EH-ET下被标记为“1”的所有字序列作为“实体”，然后将每个“实体”的首字映射到以该字为首字的所有实体上，例如“天”会被映射到“天津”和“天津市”。通过该映射，我们可以得到一个从“首字”到“实体”的查询字典，我们将其记为D；

根据法律领域的专家预先定义好的封闭“关系”集合，对于一个给定的“关系”，我们做如下操作：

2)将所有连接类型ST-OT标签非零的“字对儿”提取出来，组成集合E，供后续查询使用；

3)将所有连接类型SH-OH标签非零的“字对儿”提取出来，然后在字典D中查询所有分别以该两个字为首字的实体，得到一个候选“主体-客体”集合F；

4)最后，遍历候选集F中所有的“主体-客体”对儿，查询其相应的尾字对儿是否在集合E中，最终确定出基于给定“关系”的“主体”和“客体”。

参考图4，对于解码过程我们举例说明如下：

(“王”，“红”)，(“女”)，(“过”，“时”)，(“马”，“路”)和(“钱”，“包”)在EH-ET这个连接类别下均被标记为“1”，这意味着“王红”、“女”、“过马路时”、“马路”和“钱包”是5个实体。对于“性别”这个关系，在SH-OH这个连接下，(“王”，“女”)标记为“1”，这意味着对于“性别”这个关系，主体的首字是“王”，客体的首字是“女”。(“红”，“女”)在ST-OT这个关系下被标记为“1”，意味着主体和客体对于“性别”这个关系是分别以这两个字为尾字的词。基于以上的信息，我们可以确定(“王红”，性别，“女”)是一个“主体-关系—客体”三元组。

在对一些词对儿的识别中“主体头-客体尾(SH-OT)”或“主体尾-客体头(ST-OH)”这种连接类型可能对准确识别更为有利。例如在“张华出生于天津市。”这句话中，我们可以提取出(“张华”，出生地，“天津”)这个三元组。由于“张”是姓氏，很容易联想到“人”这个实体类型，“市”又很容易联想到“城市”，因此“张-市”相比于“张-天”或“华-市”更容易表达出(“张华”-“天津”)这一(“人”-“城市”)的词对儿。相比于原始的TPLinker算法，我们提出的Balanced-TPLinker算法增加了对“主体头-客体尾(SH-OT)”和“主体尾-客体头(ST-OH)”连接类型的标注，该连接提高了算法对一些三元组的识别度。

(2)基于Balanced-TPLinker的“事件触发词-事件角色-论元”三元组抽取：在本步骤中，我们将“事件触发词”,“事件角色”和“论元”分别类比为步骤1中的“主体”，“关系”和“客体”，具体算法完全可以完全类比步骤1进行，这里不做详细说明。

2、信息融合：由上述(1)、(2)两步我们已经得到了两个集合，第一个集合包含所有“主体-关系-客体”三元组，第二个集合包含所有“事件触发词-事件角色-论元”三元组。在本步骤中，我们需要将两个集合得到的三元组进行融合，对于重复的节点进行统一化处理。我们直接使用正则匹配，将相同的节点直接粘合成一个节点，我们以如下句子举例说明：“王红，女，在过马路时钱包被抢。”

通过第(1)步，我们可以抽取如下的“主体-关系-客体”三元组：

王红(主体)-性别(关系)-女(客体)

通过第(2)步，我们可以抽取如下的“事件触发词-事件角色-论元”三元组：

抢(事件触发词)-受害人(事件角色)-王红(论元)

抢(事件触发词)-目标(事件角色)-钱包(论元)

抢(事件触发词)-地点(事件角色)-马路(论元)

抢(事件触发词)-时间(事件角色)-过马路时(论元)

其中，“王红”这个节点既是“主体-关系-客体”三元组的主体，又是其中一个“事件触发词-事件角色-论元”三元组的论元，因此是一个重复节点，我们需要对其进行粘合处理，最终拼接三元组，可得到如图5所示的语义搜索图。

案事件类型标签生成，在这一步中，我们会对给定的用户输入语句生成一个或多个案事件类型标签。该案事件类型标签集合包括对用户输入语句的多标签分类以及基于信息抽取第(2)步中抽取的“事件触发词”关联对应的案事件类型。下面对此多标签生成过程做简要说明：

1)多标签分类：首先将用户输入语句输入BERT-Chinese预训练模型进行编码，得到每个词的向量表示。对于一个给定的预设分类标签，求得其向量表示和输入语句中每个词的向量表示的相似度，将求得的相似度作为每个词的权重系数，对每个词的向量表示加权求和得到用户输入语句对于该预设分类标签的向量表示。假设有N个预设分类标签，那么对每一个语句最终会生成N个向量表示。在这里，我们将预设分类标签的特征融合到用户搜索语句的特征生成中，以提高用户搜索语句对不同标签的敏感度和注意力。最后，使用Softmax函数计算对应每个预设分类标签的语句的向量表示的得分，取得分最高的预设分类标签为该语句对应的类型分类标签，即为第一案事件类型分类标签。

2)基于事件触发词关联案事件类型：遍历所有抽取出的事件触发词，在已有的经过法律专家总结的事件触发词-法律案事件类型词典中查询到与其对应的案事件类型，建立映射，得到相应的第二案事件类型分类标签。

基于所述第一案事件类型分类标签与所述第二案事件类型分类标签构建所述描述的案事件类型分类标签集合。结合语义搜索图和案事件类型标签，我们可以得到一个带有一个或多个标签的用户语义搜索图。

步骤S103、将所述带有案事件类型分类标签的语义搜索图与预先基于法律案事件相关文件构建的法律案事件知识图谱进行子图匹配，输出与所述描述相关的法律案事件候选答案数据集。

本步骤的主要任务是将得到的用户语义搜索图和案事件知识图谱进行匹配，从而返回给用户相应的案件类型信息和相关案例。主要分为以下两步：类别节点匹配和案事件子图匹配。

(1)类别节点匹配：根据案事件类型标签将用户搜索语句对应到案事件知识图谱中相应的案事件类型节点上。由于案事件类型标签集合和案事件知识图谱中的案事件节点集合是同一个集合，都来源于法律专家划分的案事件类型，这里我们简单应用正则匹配方法，将标签和节点进行匹配对应。

(2)案事件子图匹配：以该节点集中每个节点下关联的案事件子图为候选集，和用户语义搜索图进行匹配，根据相关性得分，输出相关的法律案事件候选答案数据集。

步骤S104、输出所述法律案事件候选答案数据集中的至少一个作为与所述描述相关的法律案事件答案数据。

基于步骤S101至S104，完成对用户输入的法律案事件问题的语义搜索，为用户输出相关法律案事件答案数据。

可见，在本实施例中，基于法律案事件知识图谱，通过对用户问题进行语义理解，结合已有的法律案事件类型，构建基于用户提问的带有案事件类别标签的语义搜索图，并将其和大规模系统化的法律案事件知识图谱进行匹配，充分利用两个图谱间的相互关联信息，通过精准理解用户的搜索意图，返回最为相似的历史案事件，实际解决用户的法律诉求。

需要说明的是，本说明书一个或多个实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，与上述任意实施例方法相对应的，本说明书一个或多个实施例还提供了一种基于案事件知识图谱的语义搜索装置。

参考图6，所述一种基于案事件知识图谱的语义搜索装置，包括：

预处理模块601，被配置为响应于接受到用户输入的法律案事件问题的描述，对所述描述进行预处理；

语义搜索图生成模块602，被配置为通过Balanced-TPLinker模型对所述描述进行实体、实体关系、事件触发词、事件角色和论元的提取，以所述实体、事件触发词和论元作为节点，以所述实体关系和事件角色作为边构建语义搜索图，对所述描述进行案事件类型分类并得到所述描述的案事件类型分类标签集合，结合所述语义搜索图得到一个带有至少一个案事件类型分类标签的语义搜索图；

子图匹配模块603，被配置为将所述带有案事件类型分类标签的语义搜索图与预先基于法律案事件相关文件构建的法律案事件知识图谱进行子图匹配，输出与所述描述相关的法律案事件候选答案数据集；

输出模块604，被配置为输出所述法律案事件候选答案数据集中的至少一个作为与所述描述相关的法律案事件答案数据。

作为一个可选的实施例，所述预处理模块601，具体被配置为包括下列中至少一个：

通过正则表达式去除所述描述的标点符号和/或特殊符号；

将所述描述中的繁简字体进行统一化；

通过中文分词算法WMSeg对所述描述进行分词；

通过标准表达方式对所述描述进行同义词归一化；

通过Soft-Masked BERT模型对所述描述进行文本纠错处理。

作为一个可选的实施例，语义搜索图生成模块602，具体被配置为通过Balanced-TPLinker模型对所述描述进行三元组抽取，得到两个三元组集合，所述两个三元组集合为“主体-关系-客体”三元组集合和“事件触发词-事件角色-论元”三元组集合，将所述两个三元组集合进行融合，通过正则匹配将两个所述三元组集合进行拼接，基于所述拼接得到的三元组构建语义搜索图。

作为一个可选的实施例，子图匹配模块603，具体被配置为通过BERT-Chinese预训练模型得到所述描述的词向量表示，对于给定的一个预设分类标签，求其向量表示和每个所述词向量表示的相似度，以所述相似度作为权重系数对所述词向量表示进行加权求和得到所述描述的向量表示；

采用Softmax函数计算对应每个预设分类标签的所述描述的向量表示的得分，取得分最高的所述预设分类标签作为第一案事件类型分类标签；

基于所述事件触发词，在已有的事件触发词-法律案事件类型词典中查询与所述事件触发词相对应的案事件类型，建立映射，得到第二案事件类型分类标签；

基于所述第一案事件类型分类标签与所述第二案事件类型分类标签构建所述描述的案事件类型分类标签集合。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的基于案事件知识图谱的语义搜索方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本说明书一个或多个实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的基于案事件知识图谱的语义搜索方法。

图7示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的基于案事件知识图谱的语义搜索方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本说明书一个或多个实施例还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的基于案事件知识图谱的语义搜索方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的基于案事件知识图谱的语义搜索方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本说明书一个或多个实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本说明书一个或多个实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本说明书一个或多个实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本公开的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本说明书一个或多个实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本公开的具体实施例对本公开进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于案事件知识图谱的语义搜索方法，其特征在于，包括：

通过Balanced-TPLinker模型对所述描述进行实体、实体关系、事件触发词、事件角色和论元的提取，以所述实体、事件触发词和论元作为节点，以所述实体关系和事件角色作为边构建语义搜索图，对所述描述进行案事件类型分类并得到所述描述的案事件类型分类标签集合，结合所述语义搜索图得到一个带有至少一个案事件类型分类标签的语义搜索图；其中，所述Balanced-TPLinker模型包括对所述描述进行“实体头-实体尾”、“主体头-客体头”、“主体尾-客体尾”、“主体头-客体尾”以及“主体尾-客体头”类型的标注；

2.根据权利要求1所述的语义搜索方法，其特征在于，响应于接受到用户输入的法律案事件问题的描述，对所述描述进行预处理包括下列中至少一个：

通过正则表达式去除所述描述的标点符号和/或特殊符号；

将所述描述中的繁简字体进行统一化；

通过中文分词算法WMSeg对所述描述进行分词；

通过标准表达方式对所述描述进行同义词归一化；

通过Soft-Masked BERT模型对所述描述进行文本纠错处理。

3.根据权利要求1或2所述的语义搜索方法，其特征在于，通过Balanced-TPLinker模型对所述描述进行实体、实体关系、事件触发词、事件角色和论元的提取，以所述实体、事件触发词和论元作为节点，以所述实体关系和事件角色作为边构建语义搜索图，包括：

通过Balanced-TPLinker模型对所述描述进行三元组抽取，得到两个三元组集合，所述两个三元组集合分别为“主体-关系-客体”三元组集合和“事件触发词-事件角色-论元”三元组集合，将所述两个三元组集合通过正则匹配进行融合拼接，基于经过所述融合拼接的两个三元组构建语义搜索图。

4.根据权利要求1或2所述的语义搜索方法，其特征在于，对所述描述进行案事件类型分类并得到所述描述的案事件类型分类标签集合，结合所述语义搜索图得到一个带有至少一个案事件类型分类标签的语义搜索图，包括：

通过BERT-Chinese预训练模型得到所述描述的词向量表示，对于给定的一个预设分类标签，求其向量表示和每个所述词向量表示的相似度，以所述相似度作为权重系数对所述词向量表示进行加权求和得到所述描述的向量表示；

5.根据权利要求1或2所述的语义搜索方法，其特征在于，将所述带有案事件类型分类标签的语义搜索图与预先基于法律案事件相关文件构建的法律案事件知识图谱进行子图匹配，输出与所述描述相关的法律案事件候选答案数据集，包括：

通过正则匹配方法将所述案事件类型分类标签与所述法律案事件知识图谱中的节点匹配对应，得到匹配节点集合；

以所述节点集合中的每个节点下关联的案事件子图作为法律案事件候选答案数据集，根据所述案事件子图与所述语义搜索图的相关性得分对所述法律案事件候选答案数据集中的法律案事件候选答案数据进行排序。

6.一种基于案事件知识图谱的语义搜索装置，其特征在于，包括：

语义搜索图生成模块，被配置为通过Balanced-TPLinker模型对所述描述进行实体、实体关系、事件触发词、事件角色和论元的提取，以所述实体、事件触发词和论元作为节点，以所述实体关系和事件角色作为边构建语义搜索图，对所述描述进行案事件类型分类并得到所述描述的案事件类型分类标签集合，结合所述语义搜索图得到一个带有至少一个案事件类型分类标签的语义搜索图；其中，所述Balanced-TPLinker模型包括对所述描述进行“实体头-实体尾”、“主体头-客体头”、“主体尾-客体尾”、“主体头-客体尾”以及“主体尾-客体头”类型的标注；

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任意一项所述的方法。

8.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行权利要求1至5任意一项所述方法。