CN109739992B

CN109739992B - 一种获取关联信息的方法及终端

Info

Publication number: CN109739992B
Application number: CN201811420058.6A
Authority: CN
Inventors: 陈捷; 吴春德; 林世国; 栾江霞; 吴鸿伟; 吴文
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2018-11-26
Filing date: 2018-11-26
Publication date: 2021-06-11
Anticipated expiration: 2038-11-26
Also published as: WO2020107929A1; CN109739992A

Abstract

本发明涉及数据处理技术领域，尤其涉及一种获取关联信息的方法及终端。本发明通过根据预设的第一数据构建知识图谱；获取检索实体；根据所述知识图谱获取与所述检索实体关联的实体，得到第一实体集合；从所述第一实体集合中获取一个以上与所述检索实体的关联强度值大于预设阈值的实体。提高了从海量数据中获取关联信息的效率。

Description

一种获取关联信息的方法及终端

技术领域

本发明涉及数据处理技术领域，尤其涉及一种获取关联信息的方法及终端。

背景技术

在日常的很多业务中都会产生大量的事件记录数据。这些海量的数据大部分都是文本数据，也包含一些表格类数据，往往分布存储在结构化、非结构化的数据库中。按照传统的方法，业务人员在调用数据时需要到不同的系统中进行查询调取，再通过人工的方式建立数据之间的关系，费时费力。

发明内容

本发明所要解决的技术问题是：如何提高从海量数据中获取关联信息的效率。

为了解决上述技术问题，本发明采用的技术方案为：

本发明提供一种获取关联信息的方法，包括：

S1、根据预设的第一数据构建知识图谱；

S2、获取检索实体；

S3、根据所述知识图谱获取与所述检索实体关联的实体，得到第一实体集合；

S4、从所述第一实体集合中获取一个以上与所述检索实体的关联强度值大于预设阈值的实体。

进一步地，所述S1具体为：

从所述第一数据中提取实体，得到第二实体集合；

设置所述第二实体集合中具有关联关系的两实体间的关联强度值，得到第一关联强度值集合；

根据所述第一关联强度值集合计算所述第二实体集合中任意两实体间的关联强度值，得到第二关联强度值集合；

根据所述第二实体集合和所述第二关联强度值集合构建知识图谱。

进一步地，根据所述第一关联强度值集合计算所述第二实体集合中任意两实体间的关联强度值，得到第二关联强度值集合，具体为：

X(e_i,e_j)＝max(a_i→j)

其中，e_i，e_j为所述第二实体集合中的任一实体，a_i→j为实体e_i，e_j连接路径上任意两个节点之间的关联强度值，X(e_i，e_j)为实体e_i，e_j之间的关联强度值。

进一步地，根据所述第二实体集合和所述第二关联强度值集合构建知识图谱，具体为：

归一化处理所述第二关联强度值集合，得到第三关联强度值集合；

根据所述第三关联强度值集合和所述第二实体集合构建知识图谱。

进一步地，所述S4具体为：

计算所述检索实体与所述第一实体集合中每一实体的后验概率，得到后验概率集合；

若所述第一实体集合中一实体的后验概率大于预设阈值，则输出所述一实体。

进一步地，还包括：

输出所述检索实体与所述一实体之间的最短路径。

本发明还提供一种计算机可读存储介质，其上存储有程序，所述程序在被计算机执行时执行所述获取关联信息的方法。

本发明另提供一种获取关联信息的终端，包括一个或多个处理器及存储器，所述存储器存储有程序，并且被配置成由所述一个或多个处理器执行以下步骤：

S1、根据预设的第一数据构建知识图谱；

S2、获取检索实体；

进一步地，所述S1具体为：

从所述第一数据中提取实体，得到第二实体集合；

X(e_i,e_j)＝max(a_i→j)

其中，e_i，e_j为所述第二实体集合中的任一实体，a_i→j为实体e_i，e_j连接路径上任意两个节点之间的关联强度值，X(e_i，e_j)为实体e_i，e_j之间的关联强度值；

根据所述第二实体集合和所述第二关联强度值集合构建知识图谱，具体为：归一化处理所述第二关联强度值集合，得到第三关联强度值集合；根据所述第三关联强度值集合和所述第二实体集合构建知识图谱；

所述S4具体为：

计算所述检索实体与所述第一实体集合中每一实体的后验概率，得到后验概率集合；若所述第一实体集合中一实体的后验概率大于预设阈值，则输出所述一实体；

输出所述检索实体与所述一实体之间的最短路径。

本发明的有益效果在于：本发明通过根据海量的第一数据构建知识图谱，实现将与检索实体相关联的数据集从海量数据中快速提取出来，简化了业务人员数据调取的过程，提高了业务人员的工作效率，同时通过智能过滤检索数据，提升了从海量数据中获取关联信息的效率。

附图说明

图1为本发明提供的一种获取关联信息的方法的具体实施方式的流程框图；

图2为本发明提供的一种获取关联信息的终端的具体实施方式的结构框图；

图3为检索实体与知识图谱中的实体的关联示例图；

标号说明：

1、处理器； 2、存储器。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施方式并配合附图予以说明。

请参照图1至图3，

如图1所示，本发明提供一种获取关联信息的方法，包括：

S1、根据预设的第一数据构建知识图谱；

S2、获取检索实体；

进一步地，所述S1具体为：

从所述第一数据中提取实体，得到第二实体集合；

由上述描述可知，根据业务需求从业务数据(即第一数据)中提取实体，并根据业务需求设置所提取的实体间的关联强度直接存储起来，有利于提升业务人员进行检索时的效率和数据准确性。

X(e_i,e_j)＝max(a_i→j)

由上述描述可知，通过选取任意两实体间最大关联强度作为有效关联强度值，可以有效将强度值高于所设阈值的实体数据都提取出来，避免关键实体信息的遗漏。

由上述描述可知，归一化后的关联强度值取值范围固定(大于等于0，小于等于1)，业务人员可以方便的进行阈值的设定。

进一步地，所述S4具体为：

由上述描述可知，采用后验概率的方法，当有新的实体数据入库，原有实体的后验概率值也会动态调整，特别针对检索实体关联实体数据量大的情况，能够保证每次提取的都是相对重要性高的实体数据。

进一步地，还包括：

输出所述检索实体与所述一实体之间的最短路径。

由上述描述可知，输出最短路径，可以知道实体间最直接的联系方式，能够辅助业务人员理解两个实体是如何链接的，由业务人员决策是否对链接路径上的实体进行查看。

如图2所示，本发明另提供一种获取关联信息的终端，包括一个或多个处理器1及存储器2，所述存储器2存储有程序，并且被配置成由所述一个或多个处理器1执行以下步骤：

S1、根据预设的第一数据构建知识图谱；

S2、获取检索实体；

进一步地，所述S1具体为：

从所述第一数据中提取实体，得到第二实体集合；

X(e_i,e_j)＝max(a_i→j)

所述S4具体为：

输出所述检索实体与所述一实体之间的最短路径。

本发明的实施例一为：

本实施例提供一种获取关联信息的方法，包括：

S1、根据预设的第一数据构建知识图谱。

其中，所述第一数据为业务部门日常记录数据。在日常的很多业务中都会产生大量的事件记录数据。这些海量的数据大部分都是文本数据，也包含一些表格类数据，往往分布存储在结构化、非结构化的数据库中。

S11、从所述第一数据中提取实体，得到第二实体集合。

其中，通过规则匹配、OCR识别、自然语言分析等技术从业务部门日常记录数据中提取出人物实体、地址实体、事件实体、物品实体和组织实体。

在本实施例中，所述人物实体包括业务记录中标明的人员实体及其关联人员的人物身份标识信息，如姓名、证件号码、性别、血型等；

所述地址实体包括事件记录中涉及的公司、团体组织、个人等的地址信息，如企业的注册地址、办公地址、个人的户籍地址、暂住地地址等；

所述事件实体包括事件记录中事件类型、事件日期、事件内容等事件描述需要的信息；

所述物品实体包括事件记录中包含的手机、电脑、车辆等物品的标识信息，如手机号码、电脑的MAC地址、车牌号码等；

所述组织实体包括事件记录中组织名称、类型、规模、活动范围等信息。

通过规则匹配技术从规范化录入的事件记录数据中提取主体数据，如交通出行记录、证件申办材料等；

通过OCR识别技术从事件记录中的图片数据中提取主体数据，如车牌照信息、经营许可证等。这些图片数据的格式比较固定，可以通过预先训练好的OCR识别模型进行识别；

通过自然语言处理技术从事件记录中格式规范不强的文本数据中提取主体数据，如事件描述信息等。

S12、设置所述第二实体集合中具有关联关系的两实体间的关联强度值，得到第一关联强度值集合。

其中，将人物实体、地址实体、事件实体、物品实体、组织实体根据事件记录中的关系进行两两关联，实体之间关联强度值在本实施例中按照与事件的紧密程度由业务人员进行设定，分值范围在0到100之间。

S13、根据所述第一关联强度值集合计算所述第二实体集合中任意两实体间的关联强度值，得到第二关联强度值集合；具体为：

X(e_i,e_j)＝max(a_i→j)

其中，e_i，e_j为所述第二实体集合中的任一实体，a_i→j为实体e_i，e_j连接路径上任意两个节点之间的关联强度值，X(e_i,e_j)为实体e_i，e_j之间的关联强度值。

其中，任意两实体之间关联强度值取决于两者路径上存在的最大关联强度值。

S14、归一化处理所述第二关联强度值集合，得到第三关联强度值集合。

其中，归一化处理X(e_i，e_j)的公式为：

即将X(e_i,e_j)除以第二关联强度值集合中的最大值。

S15、根据所述第三关联强度值集合和所述第二实体集合构建知识图谱。

其中，将建立的实体以及实体之间的关联强度值存入Neo4j或Titan这类图数据库中，构建知识图谱。知识图谱早先主要由Google应用在语义搜索领域，以提升搜索的效果，现在也被应用于聊天机器人、智能问答系统、医疗服务、图书信息服务等领域。知识图谱中的数据都可以表述为三元组的形式，即实体1-关系-实体2的形式，其中实体是知识图谱中最基本元素，是对事实的描述，不同的实体间存在不同的关系。若将实体视为结点，实体间的关系作为边，那么包含了大量三元组的知识图谱，就成为一个庞大的知识图，从而将不同种类的信息连接成一个关系网络，提供了从关系的角度去分析问题的能力。将知识图谱技术应用到大数据领域，可以将这些海量异构数据进行融合，实现对象数据之间的关联关系构建，让业务人员能够快速实现对全量数据的关系查询、分析和挖掘，提高工作的效率。

S2、获取检索实体。

其中，对新增检索数据进行预处理，提取检索实体数据集；从获取的检索信息中抽取检索主体，如主体名称、证件号码、联系方式、涉及类型、涉及地点、涉及组织等日常业务信息。

S3、根据所述知识图谱获取与所述检索实体关联的实体，得到第一实体集合。

例如，如图3所示，将检索实体与知识图谱中的人物实体、地址实体、事件实体、物品实体、组织实体分别进行关联，依据实体之间建立的关联关系，提取检索实体相关的所有实体信息，组成数据集{e₁,e₂,...,e_k}。如使用检索实体中的手机号可以直接关联物品实体，再依据物品实体与人物实体、地址实体、事件实体、组织实体建立的关联，关联出这个手机号的人物姓名、住址等信息。

S4、从所述第一实体集合中获取一个以上与所述检索实体的关联强度值大于预设阈值的实体。具体为：

S41、计算所述检索实体与所述第一实体集合中每一实体的后验概率，得到后验概率集合；

S42、若所述第一实体集合中一实体的后验概率大于预设阈值，则输出所述一实体。

其中，通过所建知识图谱，结合实体间关联强度值，代入后验概率的计算中，提取出与检索主体相关的人物实体、地址实体、事件实体、物品实体、组织实体，从而构成数据集{e₁,e₂,...,e_k}；

所述后验概率的计算公式为：

式中C_i代表检索实体i，k为该数据集的个数，{e₁,e₂,...,e_k}为人物实体、地址实体、事件实体、物品实体、组织实体构成的实体数据集。

将关联概率高于指定阈值的实体数据按照概率从高到低依次推送。

例如，在图3中，X(e_i,e_k)＝10,X(e_i,e_j)＝100,X(e_i,e_n)＝10,X(e_i,e_m)＝100

随后对X(e_i,e_j)进行归一化处理，公式为：

则得到：

X(e_i,e_k)′＝0.1,X(e_i,e_j)′＝1,X(e_i,e_n)′＝0.1,X(e_i,e_m)′＝1

将上述结果代入后验概率计算，可以得到：

同理可得：

P(c_i|e_j)＝0.45,P(c_i|e_n)＝0.05,P(c_i|e_m)＝0.45

若将概率高于0.3的实体输出：则输出实体ej和实体e_m。

S5、输出所述检索实体与所述一实体之间的最短路径。

例如，输出e_i和e_j实体间联系的最短路径e_i→e_j，输出e_i和e_m实体间联系的最短路径e_i→e_k→e_n→e_m。

综上所述，本实施例提供的获取关联信息的方法，通过知识图谱的构建，可以快速将检索主体相关联的数据集提取出来，简化了业务人员数据调取的过程，提高了业务人员的工作效率，同时通过智能过滤检索数据，提升数据查询的效率。

本发明的实施例二为：

本实施例提供一种计算机可读存储介质，其上存储有程序，所述程序在被计算机执行以下步骤：

S1、根据预设的第一数据构建知识图谱。

S11、从所述第一数据中提取实体，得到第二实体集合。

X(e_i,e_j)＝max(a_i→j)

其中，e_i，e_j为所述第二实体集合中的任一实体，a_i→j为实体e_i，e_j连接路径上任意两个节点之间的关联强度值，为实体e_i，e_j之间的关联强度值。

其中，归一化处理X(e_i，e_j)的公式为：

即将X(e_i,e_j)除以第二关联强度值集合中的最大值。

S2、获取检索实体。

所述后验概率的计算公式为：

随后对X(e_i,e_j)进行归一化处理，公式为：

则得到：

X(e_i,e_k)′＝0.1,X(e_i,e_j)′＝1,X(e_i,e_n)′＝0.1,X(e_i,e_m)′＝1

将上述结果代入后验概率计算，可以得到：

同理可得：

P(c_i|e_j)＝0.45,P(c_i|e_n)＝0.05,P(c_i|e_m)＝0.45

若将概率高于0.3的实体输出：则输出实体ej和实体e_m。

S5、输出所述检索实体与所述一实体之间的最短路径。

本发明的实施例三为：

本实施例提供一种获取关联信息的终端，包括一个或多个处理器及存储器，所述存储器存储有程序，并且被配置成由所述一个或多个处理器执行以下步骤：

S1、根据预设的第一数据构建知识图谱。

S11、从所述第一数据中提取实体，得到第二实体集合。

X(e_i,e_j)＝max(a_i→j)

其中，归一化处理X(e_i，e_j)的公式为：

即将X(e_i,e_j)除以第二关联强度值集合中的最大值。

S2、获取检索实体。

例如，如图3所示，将检索实体与知识图谱中的人物实体、地址实体、事件实体、物品实体、组织实体分别进行关联，依据实体之间建立的关联关系，提取检索实体相关的所有实体信息，组成数据集{e1,e2,...,ek}。如使用检索实体中的手机号可以直接关联物品实体，再依据物品实体与人物实体、地址实体、事件实体、组织实体建立的关联，关联出这个手机号的人物姓名、住址等信息。

所述后验概率的计算公式为：

随后对X(e_i,e_j)进行归一化处理，公式为：

则得到：

X(e_i,e_k)′＝0.1,X(e_i,e_j)′＝1,X(e_i,e_n)′＝0.1,X(e_i,e_m)′＝1

将上述结果代入后验概率计算，可以得到：

同理可得：

P(c_i|e_j)＝0.45,P(c_i|e_n)＝0.05,P(c_i|e_m)＝0.45

若将概率高于0.3的实体输出：则输出实体e_j和实体e_m。

S5、输出所述检索实体与所述一实体之间的最短路径。

综上所述，本发明提供的一种获取关联信息的方法及终端，通过根据海量的第一数据构建知识图谱，实现将与检索实体相关联的数据集从海量数据中快速提取出来，简化了业务人员数据调取的过程，提高了业务人员的工作效率，同时通过智能过滤检索数据，提升了从海量数据中获取关联信息的效率。进一步地，根据业务需求从业务数据(即第一数据)中提取实体，并根据业务需求设置所提取的实体间的关联强度直接存储起来，有利于提升业务人员进行检索时的效率和数据准确性。进一步地，通过选取任意两实体间最大关联强度作为有效关联强度值，可以有效将强度值高于所设阈值的实体数据都提取出来，避免关键实体信息的遗漏。进一步地，归一化后的关联强度值取值范围固定(大于等于0，小于等于1)，业务人员可以方便的进行阈值的设定。进一步地，采用后验概率的方法，当有新的实体数据入库，原有实体的后验概率值也会动态调整，特别针对检索实体关联实体数据量大的情况，能够保证每次提取的都是相对重要性高的实体数据。进一步地，输出最短路径，可以知道实体间最直接的联系方式，能够辅助业务人员理解两个实体是如何链接的，由业务人员决策是否对链接路径上的实体进行查看。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种获取关联信息的方法，其特征在于，包括：

S1、根据预设的第一数据构建知识图谱，其中，所述第一数据包括业务记录数据；

S2、获取检索实体，所述实体包括人物实体、地址实体、事件实体、物体实体和组织实体；

S4、从所述第一实体集合中获取一个以上与所述检索实体的关联强度值大于预设阈值的实体，并输出所述检索实体与所述实体之间的最短路径；

其中，步骤S1具体为：

从所述第一数据中提取实体，得到第二实体集合；

根据所述第一关联强度值集合计算所述第二实体集合中任意两实体间的关联强度值，得到第二关联强度值集合，具体为：

X(e_i，e_j)＝max(a_i→j)

归一化处理所述第二关联强度值集合，得到第三关联强度值集合，归一化处理X(e_i，e_j)的公式为：

即将X(e_i，e_j)除以第二关联强度值集合中的最大值；

2.根据权利要求1所述的获取关联信息的方法，其特征在于，所述S4具体为：

3.一种计算机可读存储介质，其上存储有程序，所述程序在被计算机执行时执行如权利要求1-2中任一项所述的方法。

4.一种获取关联信息的终端，其特征在于，包括一个或多个处理器及存储器，所述存储器存储有程序，并且被配置成由所述一个或多个处理器执行以下步骤：

S4、从所述第一实体集合中获取一个以上与所述检索实体的关联强度值大于预设阈值的实体，输出所述检索实体与所述实体之间的最短路径；

其中，步骤S1具体为：

从所述第一数据中提取实体，得到第二实体集合；

X(e_i，e_j)＝max(a_i→j)

即将X(e_i，e_j)除以第二关联强度值集合中的最大值；

5.根据权利要求4所述的获取关联信息的终端，其特征在于，所述S4具体为：计算所述检索实体与所述第一实体集合中每一实体的后验概率，得到后验概率集合；若所述第一实体集合中一实体的后验概率大于预设阈值，则输出所述一实体。