CN111522963A

CN111522963A - 一种基于公安知识图谱引擎的智能助理应用交互方法

Info

Publication number: CN111522963A
Application number: CN202010288761.7A
Authority: CN
Inventors: 刘宇; 李维; 吴珺; 耿鑫; 刘生元; 牛金良; 何宇
Original assignee: Nanjing Fiberhome Telecommunication Technologies Co ltd
Current assignee: Nanjing Fiberhome Telecommunication Technologies Co ltd
Priority date: 2020-04-14
Filing date: 2020-04-14
Publication date: 2020-08-11

Abstract

本发明公开了一种基于公安知识图谱引擎的智能助理应用交互方法，属互联网信息技术领域，通过构建公安知识图谱，设计完成智能编排和推理引擎，基于该引擎完成警务智能助理，对于提升警务工作效率具有极大的作用；在构建公安知识图谱的过程中，提出了一些新的训练模型并应用于智能助理；JTMEA训练模型对获取的知识进行加工处理，通过跨知识图谱实体对齐合并其他高质量知识库中的实体关系，从而形成一个更加丰富全面的知识图谱；本发明提出了一种全新的嵌入式模型TRNG，利用TRNG算法，生成公安知识图谱中实体与关系的向量表示。通过构建公安知识图谱，设计完成智能编排和推理引擎，基于该引擎完成警务智能助理，对于提升警务工作效率具有极大的作用。

Description

一种基于公安知识图谱引擎的智能助理应用交互方法

技术领域

本发明属于互联网信息技术领域，尤其涉及一种基于公安知识图谱引擎的智能助理应用交互方法。

背景技术

当前公安数据具有维度多，类型全，数据量大等特点；且警务人员仍停留在使用查询和简单分析等应用场景，数据使用不够充分，致相关公安知识的信息挖掘不够充分，通过构建公安知识图谱打造相关公安领域知识库，从而进一步挖掘隐藏的知识信息。

另一方面，公安业务系统较多且业务复杂，流程操作繁琐，对警务人员操作要求较高，无法做到随数据进行深度挖掘和推理。需要设计一种特殊的推理引擎完成该项工作，引擎中除了将公安领域知识数据集加入本体(实体、关系、词林)外，将相关的业务接口和业务能力也进行抽象化加入，实现警务人员无需通过操作多个复杂的系统应用，通过可视化的人机交互对话的形式实现解决数据的深入挖掘应用和分析

发明内容

本发明所要解决的技术问题是针对背景技术的不足提供一种基于公安知识图谱引擎的智能助理应用交互方法，其通过构建公安知识图谱，设计完成智能编排和推理引擎，基于该引擎完成警务智能助理，对于提升警务工作效率具有极大的作用。

本发明为解决上述技术问题采用以下技术方案：

一种基于公安知识图谱引擎的智能助理应用交互方法，具体包含如下步骤：

步骤1，按照领域词汇，从公安系统案件、警情、快报各维度文本中提取人物固有自然属性，生成结构化数据并抽取作为知识图谱当中的实体；其中，领域词汇包含人、案、事、物、地；

步骤2，对特定业务功能处理接口进行定义和封装，形成单独的实体，并建立实体和实体，以及实体和属性之间的关系；

步骤3，对于获取到的实体进行校验：判断获取的信息中必要字段是否有值且格式正确，若无值或非格式正确则舍弃该条数据，对于地址机构及单位类数据基于实体对齐技术进行处理，对轨迹中涉及到的地址信息进行归一化处理，进而得到标准化的地址；其中，实体对齐技术是指将不同实体指向同一个现实对象；

步骤4，针对特定的业务功能处理服务进行抽象并知识图谱化；具体如下：

将现有业务服务归并为本体和关系两大类别，其中本体是对系统、功能的抽象，是组成主题领域的词汇表的基本术语及其关系，以及结合这些术语和关系来定义词汇表外延的规则；

关系是系统、功能以及操作之间的隶属、业务关系；本体定义系统、功能的类别、操作、输入/输出参数；进而通过这样的抽象化，将系统功能、业务行为、业务数据纳入了统一理论框架；

步骤5，采用CloseIE工具与自训练深度学习模型相结合的方式抽取实体关系，包括DeepDive的抽取和基于深度学习模型的抽取两个模块；

步骤6，公安分布式图存储引擎FitGraph完成对实体属性和实体关系存储；

步骤7，利用JTMEA模型对知识进行加工处理，通过跨知识图谱实体对齐合并其他高质量知识库中的实体关系，进而形成一个公安知识图谱；

步骤8，基于公安知识图谱实现推理引擎。

作为本发明一种基于公安知识图谱引擎的智能助理应用交互方法的进一步优选方案，在步骤7中：整个JTMEA训练和迭代对齐过程为：

步骤7.1，利用已有的知识图谱三元组、先验对齐实体以及实体类型对模型进行训练。每经过一定批次的训练后进行一次迭代实体对齐，即执行步骤7.2到步骤7.4；

步骤7.2，依次选择实体集中的一个未对齐实体e₁，然后利用公式：

选择另一个知识图谱中匹配评分值小于ε的实体，将它们标记为新对齐实体；其中，知识图谱中的未对齐实体e₁,可得到另一个知识图谱中使φ(e₁,e₂)达到最小值的实体e₂，参数∈为匹配程度阈值；

步骤7.3，如果标记的对齐实体与之前迭代中产生的对齐结果产生冲突，则利用公式：SD(e₁,e_x,e_y)＝s(e₁,e_x)-s(e₁,e_y)计算当前参数下实体对的匹配评分差异，选择更可靠的实体；其中，实体e₁，候选对齐实体e_x和e_y，若SD<0，则表明e_x是具有更大对齐可能性的候选者，则选择(e₁,e_x)为对齐实体；

步骤7.4，将新标记的对齐实体添加到对齐实体训练集中，作为下一轮迭代的训练数据；

步骤7.5，直到达到最大迭代对齐次数则终止。

作为本发明一种基于公安知识图谱引擎的智能助理应用交互方法的进一步优选方案，所述步骤8具体包含如下步骤：

步骤8.1，公安自然语言处理引擎对交互内容进行词法分析、句法分析、情感分析文本处理，完成语义解析；

步骤8.2，公安知识图谱引擎完成数据的整合、处理、分析和计算；

步骤8.3，通过水波网络包含图谱结构信息的TRNG训练算法，利用TRNG算法，来生成公安知识图谱中N个实体与N个关系的向量表示，之后则根据知识表示来完成推理分析，并应用于智能助理系统中。

作为本发明一种基于公安知识图谱引擎的智能助理应用交互方法的进一步优选方案，在步骤8.2中，所述TRNG训练算法具体如下：采用最大间隔方法即合页损失，定义如下目标优化函数：

其中，h代表头部实体；t代表尾部实体，r代表了两者之间的关系；FF代表实体h和t的综合相似度特征，G为知识图谱中的事实三元组，也就是正样本集合，G′是负样本集合，γ是正参数，是合法三元组与负样本三元组之间的间隔距离，并且能够给模型增加一些容错率。

发明采用以上技术方案与现有技术相比，具有以下技术效果：

1、本发明通过构建公安知识图谱，设计完成智能编排和推理引擎，基于该引擎完成警务智能助理，对于提升警务工作效率具有极大的作用；

2、本发明在构建公安知识图谱的过程中，提出了一些新的训练模型并应用于智能助理；JTMEA训练模型对获取的知识进行加工处理，通过跨知识图谱实体对齐合并其他高质量知识库中的实体关系，从而形成一个更加丰富全面的知识图谱；提出了一种全新的嵌入式模型TRNG，利用TRNG算法，生成公安知识图谱中实体与关系的向量表示；之后则根据这些知识表示来完成智能助理推理模块；

3、本发明将公安系统内部现有的一些系统应用功能，做了信息提取，融合到公安知识图谱中，然后基于公安知识图谱设计了智能助理，极大的提高了警务工作者的效率。

附图说明

图1是本发明的方法流程图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

步骤1，按照领域词汇，从公安系统案件、警情、快报各维度文本中提取人物固有自然属性以及其附属其它相关联属性信息，生成结构化数据并抽取作为知识图谱当中的实体；其中，领域词汇包含人、案、事、物、地；

步骤2，对特定业务功能处理接口进行定义和封装，形成单独的实体，并建立与其它实体和属性的关联关系；实体和实体，实体和属性之间存在多种多样的关系，如：实体父亲和实体儿子之间的关系，实体人和属性年龄之间的关系。

步骤3，对于获取到的实体进行校验：判断获取的信息中必要字段是否有值且格式正确，若无值或非格式正确则舍弃该条数据，对于地址机构及单位类数据基于实体对齐技术进行处理，对于轨迹类数据进行关联标准化处理；实体对齐技术是指将不同实体指向同一个现实对象，是构建知识图谱的必备和重要过程；对于轨迹类数据进行关联标准化处理具体指：轨迹中涉及到的地址信息进行归一化处理，得到标准化的地址，不是本专利具体的讨论内容。

步骤4，针对特定的业务功能处理服务进行抽象并知识图谱化；

具体来说，可以将现有业务服务归并为本体和关系两大类别。

其中，本体是对系统、功能的抽象，是组成主题领域的词汇表的基本术语及其关系，以及结合这些术语和关系来定义词汇表外延的规则。简单说本体是对一个特定领域概念化的明确表示。

步骤5，采用CloseIE工具与自训练深度学习模型相结合的方式抽取实体关系，包括DeepDive的抽取和基于深度学习模型的抽取两个模块；DeepDive是ClosIE的典型工具，一个开源的知识抽取系统，它通过弱监督学习，从非结构化的文本中抽取结构化的关系数据。

随着深度学习的不断发展，越来越多的深度学习模型被应用于解决关系抽取问题，如循环神经网络、卷积神经网络和递归神经网络等。

此处DeepDive和深度学习模型采用领域内常见方法，并未过多的引入自己特色。

步骤6，公安分布式图存储引擎FitGraph完成对实体属性和关系存储；

步骤8，基于公安知识图谱实现推理引擎。

所述步骤8具体包含如下步骤：

JTMEA训练和迭代对齐过程：

输入：两个知识图谱的三元组集合T_A，T_B，实体类型标签集Z_A，Z_B,先验对齐实体集I_train，匹配阈值ε，总训练轮次epoch，迭代对齐间隔次数k；

输出：JTMEA的参数θ，新对齐实体集A；

Initialize：

θ_AttKE←AttKE//依照AttKE模型初始化知识嵌入部分的参数

foreachZ∈{Z_A∪Z_A}

W←I

Train:

for epo in range(epoch/k)do//最大迭代对齐次数

for i in range(k)do

optimize w.r.tL_JTMEA//在T_A，T_B，Z_A，Z_B和I_train上交替训练JTMEA模型

end for

for e₁∈E_A do

CA_e1＝Neighbors(E_B,k)//利用KNN计算另一个知识图谱中的候选实体

//选取匹配评分达到最小的实体

if

then//e₁不在I_train中或者新候选实体

比冲突对齐实体更匹配

if

then

end if

end for

整个训练和迭代对齐过程为：

(1)利用已有的知识图谱三元组、先验对齐实体以及实体类型对模型进行训练。每经过一定批次的训练后进行一次迭代实体对齐，即执行第(2)到(4)步；

(2)依次选择实体集中的一个未对齐实体e₁，然后利用公式

(3)如果标记的对齐实体与之前迭代中产生的对齐结果产生冲突，则利用公式SD(e₁,e_x,e_y)＝s(e₁,e_x)-s(e₁,e_y)

计算当前参数下实体对的匹配评分差异，选择更可靠的实体；其中，实体e₁，候选对齐实体e_x和e_y，若SD<0，则表明e_x是具有更大对齐可能性的候选者，则选择(e₁,e_x)为对齐实体；

(4)将新标记的对齐实体添加到对齐实体训练集中，作为下一轮迭代的训练数据；

(5)直到达到最大迭代对齐次数则终止。

TRNG训练算法：

知识图谱：用有向图G＝(V,E)表示知识图谱，其中，V是知识图谱中所有实体的集合，E则是知识图谱中所有边的集合；而这样一个有向边e＝(v_i,v_j)则表示从实体v_i到实体v_j之间的关系。接下来则是通过给定的大量三元组数据来构建知识图谱的方法：在每个三元组(h,r,t)中，h代表头部实体；t代表尾部实体。首先在知识图谱中进行搜索，看是否知识图谱中已经存在这两个实体或其中之一。假设h不存在，则在知识图谱中创建一点v_i，其中i是h的唯一索引。当h和t所代表的两个节点都创建完毕或被寻找到时，再从h所代表的节点向t所代表的节点建立一个有向边e，代表了两者之间的关系r，另外，同时建立一条反向的边，代表了关系r的反向关系r^-1。对于每个三元组都重复以上的操作，直到所有的实体和关系都被包含在知识图谱之内。

所述TRNG训练算法具体如下：采用最大间隔方法即合页损失，定义如下目标优化函数：

其中，负样本的选取采用非波浪区随机替换法，设随机一个实体x，若

and

其中，k＝1,2,...,n,将随机替换两个实体h或者t中的一个，加入到负样本集合；

其中，TRNG模型的训练算法：模型需要的数据有图谱G，训练数据S＝(h,r,t)，实体集合V，关系集合E，变量α，γ,嵌入维度m；模型训练完毕后会输出三元组的向量表示；对三元组的向量表示进行初始化，使用SGD算法来进行优化，对每一个batch，对batch中的实体集合和关系集合进行归一化，之后找出它的负样本，再用上述目标优化函数来计算损失。

Data:图谱G，训练数据S＝(h,r,t)，实体集合V，关系集合E，变量α,γ,m

Result:三元组(h,r,t)的向量表示

initialization e∈E and v∈V；

repeat

Batch_i(S)←S；

Batch_i(A)←Φ；

v＝normalization(V)；

e＝normalization(E)；

foreach(h,r,t)∈Batch_i(S)do

(h′,r,t′)＝negative((h,r,t))；

Batch_i(A)＝Batch_i(A)∪{((h,r,t),((h′,r,t′)))}；

end

L′＝L′+∑_Batchi(A)L((h,r,t),((h′,r,t′)))；

until end

本发明为了屏蔽众多警务应用的复杂性，让民警专注业务，让数据发挥能量，基于公安知识图谱引擎的新一代智能警务助理应用能够很好的实现业务对数据的不感知。此处，针对某预警场景应用进行详细描述：

警务智能助理支持通过多轮对话，智能语义识别，理解民警业务意图；将业务意图通过融合推理引擎进行处理，基于构建的公安领域知识图谱进行自动推理和分析，编排转换为底层业务功能进行处理。底层业务功能基于引擎编码的处理流程进行自动处理，生成结果推送至交互界面。整个处理流程均通过可视化交互方式进行，以互动交互方式完成整个业务场景的处理。

本发明通过构建公安知识图谱，设计完成智能编排和推理引擎，基于该引擎完成警务智能助理，对于提升警务工作效率具有极大的作用；本发明在构建公安知识图谱的过程中，提出了一些新的训练模型并应用于智能助理；本发明的JTMEA训练模型对获取的知识进行加工处理，通过跨知识图谱实体对齐合并其他高质量知识库中的实体关系，从而形成一个更加丰富全面的知识图谱；本发明提出了一种全新的嵌入式模型TRNG(TranswithRippleNeton Graph)，利用TRNG算法，生成公安知识图谱中XXXX个实体与XXX个关系的向量表示。之后则根据这些知识表示来完成智能助理推理模块；

本发明将公安系统内部现有的一些系统应用功能，做了信息提取，融合到公安知识图谱中，然后基于公安知识图谱设计了智能助理，极大的提高了警务工作者的效率。

本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。上面对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于公安知识图谱引擎的智能助理应用交互方法，其特征在于：具体包含如下步骤：

步骤8，基于公安知识图谱实现推理引擎。

2.根据权利要求1所述的一种基于公安知识图谱引擎的智能助理应用交互方法，其特征在于：在步骤7中：整个JTMEA训练和迭代对齐过程为：

步骤7.5，直到达到最大迭代对齐次数则终止。

3.根据权利要求1所述的一种基于公安知识图谱引擎的智能助理应用交互方法，其特征在于：所述步骤8具体包含如下步骤：

4.根据权利要求3所述的一种基于公安知识图谱引擎的智能助理应用方法，其特征在于：在步骤8.2中，所述TRNG训练算法具体如下：采用最大间隔方法即合页损失，定义如下目标优化函数：