CN109739992B - 一种获取关联信息的方法及终端 - Google Patents

一种获取关联信息的方法及终端 Download PDF

Info

Publication number
CN109739992B
CN109739992B CN201811420058.6A CN201811420058A CN109739992B CN 109739992 B CN109739992 B CN 109739992B CN 201811420058 A CN201811420058 A CN 201811420058A CN 109739992 B CN109739992 B CN 109739992B
Authority
CN
China
Prior art keywords
entity
entities
data
association
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811420058.6A
Other languages
English (en)
Other versions
CN109739992A (zh
Inventor
陈捷
吴春德
林世国
栾江霞
吴鸿伟
吴文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN201811420058.6A priority Critical patent/CN109739992B/zh
Publication of CN109739992A publication Critical patent/CN109739992A/zh
Priority to PCT/CN2019/099124 priority patent/WO2020107929A1/zh
Application granted granted Critical
Publication of CN109739992B publication Critical patent/CN109739992B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理技术领域,尤其涉及一种获取关联信息的方法及终端。本发明通过根据预设的第一数据构建知识图谱;获取检索实体;根据所述知识图谱获取与所述检索实体关联的实体,得到第一实体集合;从所述第一实体集合中获取一个以上与所述检索实体的关联强度值大于预设阈值的实体。提高了从海量数据中获取关联信息的效率。

Description

一种获取关联信息的方法及终端
技术领域
本发明涉及数据处理技术领域,尤其涉及一种获取关联信息的方法及终端。
背景技术
在日常的很多业务中都会产生大量的事件记录数据。这些海量的数据大部分都是文本数据,也包含一些表格类数据,往往分布存储在结构化、非结构化的数据库中。按照传统的方法,业务人员在调用数据时需要到不同的系统中进行查询调取,再通过人工的方式建立数据之间的关系,费时费力。
发明内容
本发明所要解决的技术问题是:如何提高从海量数据中获取关联信息的效率。
为了解决上述技术问题,本发明采用的技术方案为:
本发明提供一种获取关联信息的方法,包括:
S1、根据预设的第一数据构建知识图谱;
S2、获取检索实体;
S3、根据所述知识图谱获取与所述检索实体关联的实体,得到第一实体集合;
S4、从所述第一实体集合中获取一个以上与所述检索实体的关联强度值大于预设阈值的实体。
进一步地,所述S1具体为:
从所述第一数据中提取实体,得到第二实体集合;
设置所述第二实体集合中具有关联关系的两实体间的关联强度值,得到第一关联强度值集合;
根据所述第一关联强度值集合计算所述第二实体集合中任意两实体间的关联强度值,得到第二关联强度值集合;
根据所述第二实体集合和所述第二关联强度值集合构建知识图谱。
进一步地,根据所述第一关联强度值集合计算所述第二实体集合中任意两实体间的关联强度值,得到第二关联强度值集合,具体为:
X(ei,ej)=max(ai→j)
其中,ei,ej为所述第二实体集合中的任一实体,ai→j为实体ei,ej连接路径上任意两个节点之间的关联强度值,X(ei,ej)为实体ei,ej之间的关联强度值。
进一步地,根据所述第二实体集合和所述第二关联强度值集合构建知识图谱,具体为:
归一化处理所述第二关联强度值集合,得到第三关联强度值集合;
根据所述第三关联强度值集合和所述第二实体集合构建知识图谱。
进一步地,所述S4具体为:
计算所述检索实体与所述第一实体集合中每一实体的后验概率,得到后验概率集合;
若所述第一实体集合中一实体的后验概率大于预设阈值,则输出所述一实体。
进一步地,还包括:
输出所述检索实体与所述一实体之间的最短路径。
本发明还提供一种计算机可读存储介质,其上存储有程序,所述程序在被计算机执行时执行所述获取关联信息的方法。
本发明另提供一种获取关联信息的终端,包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:
S1、根据预设的第一数据构建知识图谱;
S2、获取检索实体;
S3、根据所述知识图谱获取与所述检索实体关联的实体,得到第一实体集合;
S4、从所述第一实体集合中获取一个以上与所述检索实体的关联强度值大于预设阈值的实体。
进一步地,所述S1具体为:
从所述第一数据中提取实体,得到第二实体集合;
设置所述第二实体集合中具有关联关系的两实体间的关联强度值,得到第一关联强度值集合;
根据所述第一关联强度值集合计算所述第二实体集合中任意两实体间的关联强度值,得到第二关联强度值集合;
根据所述第二实体集合和所述第二关联强度值集合构建知识图谱。
进一步地,根据所述第一关联强度值集合计算所述第二实体集合中任意两实体间的关联强度值,得到第二关联强度值集合,具体为:
X(ei,ej)=max(ai→j)
其中,ei,ej为所述第二实体集合中的任一实体,ai→j为实体ei,ej连接路径上任意两个节点之间的关联强度值,X(ei,ej)为实体ei,ej之间的关联强度值;
根据所述第二实体集合和所述第二关联强度值集合构建知识图谱,具体为:归一化处理所述第二关联强度值集合,得到第三关联强度值集合;根据所述第三关联强度值集合和所述第二实体集合构建知识图谱;
所述S4具体为:
计算所述检索实体与所述第一实体集合中每一实体的后验概率,得到后验概率集合;若所述第一实体集合中一实体的后验概率大于预设阈值,则输出所述一实体;
输出所述检索实体与所述一实体之间的最短路径。
本发明的有益效果在于:本发明通过根据海量的第一数据构建知识图谱,实现将与检索实体相关联的数据集从海量数据中快速提取出来,简化了业务人员数据调取的过程,提高了业务人员的工作效率,同时通过智能过滤检索数据,提升了从海量数据中获取关联信息的效率。
附图说明
图1为本发明提供的一种获取关联信息的方法的具体实施方式的流程框图;
图2为本发明提供的一种获取关联信息的终端的具体实施方式的结构框图;
图3为检索实体与知识图谱中的实体的关联示例图;
标号说明:
1、处理器; 2、存储器。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
请参照图1至图3,
如图1所示,本发明提供一种获取关联信息的方法,包括:
S1、根据预设的第一数据构建知识图谱;
S2、获取检索实体;
S3、根据所述知识图谱获取与所述检索实体关联的实体,得到第一实体集合;
S4、从所述第一实体集合中获取一个以上与所述检索实体的关联强度值大于预设阈值的实体。
进一步地,所述S1具体为:
从所述第一数据中提取实体,得到第二实体集合;
设置所述第二实体集合中具有关联关系的两实体间的关联强度值,得到第一关联强度值集合;
根据所述第一关联强度值集合计算所述第二实体集合中任意两实体间的关联强度值,得到第二关联强度值集合;
根据所述第二实体集合和所述第二关联强度值集合构建知识图谱。
由上述描述可知,根据业务需求从业务数据(即第一数据)中提取实体,并根据业务需求设置所提取的实体间的关联强度直接存储起来,有利于提升业务人员进行检索时的效率和数据准确性。
进一步地,根据所述第一关联强度值集合计算所述第二实体集合中任意两实体间的关联强度值,得到第二关联强度值集合,具体为:
X(ei,ej)=max(ai→j)
其中,ei,ej为所述第二实体集合中的任一实体,ai→j为实体ei,ej连接路径上任意两个节点之间的关联强度值,X(ei,ej)为实体ei,ej之间的关联强度值。
由上述描述可知,通过选取任意两实体间最大关联强度作为有效关联强度值,可以有效将强度值高于所设阈值的实体数据都提取出来,避免关键实体信息的遗漏。
进一步地,根据所述第二实体集合和所述第二关联强度值集合构建知识图谱,具体为:
归一化处理所述第二关联强度值集合,得到第三关联强度值集合;
根据所述第三关联强度值集合和所述第二实体集合构建知识图谱。
由上述描述可知,归一化后的关联强度值取值范围固定(大于等于0,小于等于1),业务人员可以方便的进行阈值的设定。
进一步地,所述S4具体为:
计算所述检索实体与所述第一实体集合中每一实体的后验概率,得到后验概率集合;
若所述第一实体集合中一实体的后验概率大于预设阈值,则输出所述一实体。
由上述描述可知,采用后验概率的方法,当有新的实体数据入库,原有实体的后验概率值也会动态调整,特别针对检索实体关联实体数据量大的情况,能够保证每次提取的都是相对重要性高的实体数据。
进一步地,还包括:
输出所述检索实体与所述一实体之间的最短路径。
由上述描述可知,输出最短路径,可以知道实体间最直接的联系方式,能够辅助业务人员理解两个实体是如何链接的,由业务人员决策是否对链接路径上的实体进行查看。
本发明还提供一种计算机可读存储介质,其上存储有程序,所述程序在被计算机执行时执行所述获取关联信息的方法。
如图2所示,本发明另提供一种获取关联信息的终端,包括一个或多个处理器1及存储器2,所述存储器2存储有程序,并且被配置成由所述一个或多个处理器1执行以下步骤:
S1、根据预设的第一数据构建知识图谱;
S2、获取检索实体;
S3、根据所述知识图谱获取与所述检索实体关联的实体,得到第一实体集合;
S4、从所述第一实体集合中获取一个以上与所述检索实体的关联强度值大于预设阈值的实体。
进一步地,所述S1具体为:
从所述第一数据中提取实体,得到第二实体集合;
设置所述第二实体集合中具有关联关系的两实体间的关联强度值,得到第一关联强度值集合;
根据所述第一关联强度值集合计算所述第二实体集合中任意两实体间的关联强度值,得到第二关联强度值集合;
根据所述第二实体集合和所述第二关联强度值集合构建知识图谱。
进一步地,根据所述第一关联强度值集合计算所述第二实体集合中任意两实体间的关联强度值,得到第二关联强度值集合,具体为:
X(ei,ej)=max(ai→j)
其中,ei,ej为所述第二实体集合中的任一实体,ai→j为实体ei,ej连接路径上任意两个节点之间的关联强度值,X(ei,ej)为实体ei,ej之间的关联强度值;
根据所述第二实体集合和所述第二关联强度值集合构建知识图谱,具体为:归一化处理所述第二关联强度值集合,得到第三关联强度值集合;根据所述第三关联强度值集合和所述第二实体集合构建知识图谱;
所述S4具体为:
计算所述检索实体与所述第一实体集合中每一实体的后验概率,得到后验概率集合;若所述第一实体集合中一实体的后验概率大于预设阈值,则输出所述一实体;
输出所述检索实体与所述一实体之间的最短路径。
本发明的实施例一为:
本实施例提供一种获取关联信息的方法,包括:
S1、根据预设的第一数据构建知识图谱。
其中,所述第一数据为业务部门日常记录数据。在日常的很多业务中都会产生大量的事件记录数据。这些海量的数据大部分都是文本数据,也包含一些表格类数据,往往分布存储在结构化、非结构化的数据库中。
S11、从所述第一数据中提取实体,得到第二实体集合。
其中,通过规则匹配、OCR识别、自然语言分析等技术从业务部门日常记录数据中提取出人物实体、地址实体、事件实体、物品实体和组织实体。
在本实施例中,所述人物实体包括业务记录中标明的人员实体及其关联人员的人物身份标识信息,如姓名、证件号码、性别、血型等;
所述地址实体包括事件记录中涉及的公司、团体组织、个人等的地址信息,如企业的注册地址、办公地址、个人的户籍地址、暂住地地址等;
所述事件实体包括事件记录中事件类型、事件日期、事件内容等事件描述需要的信息;
所述物品实体包括事件记录中包含的手机、电脑、车辆等物品的标识信息,如手机号码、电脑的MAC地址、车牌号码等;
所述组织实体包括事件记录中组织名称、类型、规模、活动范围等信息。
通过规则匹配技术从规范化录入的事件记录数据中提取主体数据,如交通出行记录、证件申办材料等;
通过OCR识别技术从事件记录中的图片数据中提取主体数据,如车牌照信息、经营许可证等。这些图片数据的格式比较固定,可以通过预先训练好的OCR识别模型进行识别;
通过自然语言处理技术从事件记录中格式规范不强的文本数据中提取主体数据,如事件描述信息等。
S12、设置所述第二实体集合中具有关联关系的两实体间的关联强度值,得到第一关联强度值集合。
其中,将人物实体、地址实体、事件实体、物品实体、组织实体根据事件记录中的关系进行两两关联,实体之间关联强度值在本实施例中按照与事件的紧密程度由业务人员进行设定,分值范围在0到100之间。
S13、根据所述第一关联强度值集合计算所述第二实体集合中任意两实体间的关联强度值,得到第二关联强度值集合;具体为:
X(ei,ej)=max(ai→j)
其中,ei,ej为所述第二实体集合中的任一实体,ai→j为实体ei,ej连接路径上任意两个节点之间的关联强度值,X(ei,ej)为实体ei,ej之间的关联强度值。
其中,任意两实体之间关联强度值取决于两者路径上存在的最大关联强度值。
S14、归一化处理所述第二关联强度值集合,得到第三关联强度值集合。
其中,归一化处理X(ei,ej)的公式为:
Figure BDA0001880369870000081
即将X(ei,ej)除以第二关联强度值集合中的最大值。
S15、根据所述第三关联强度值集合和所述第二实体集合构建知识图谱。
其中,将建立的实体以及实体之间的关联强度值存入Neo4j或Titan这类图数据库中,构建知识图谱。知识图谱早先主要由Google应用在语义搜索领域,以提升搜索的效果,现在也被应用于聊天机器人、智能问答系统、医疗服务、图书信息服务等领域。知识图谱中的数据都可以表述为三元组的形式,即实体1-关系-实体2的形式,其中实体是知识图谱中最基本元素,是对事实的描述,不同的实体间存在不同的关系。若将实体视为结点,实体间的关系作为边,那么包含了大量三元组的知识图谱,就成为一个庞大的知识图,从而将不同种类的信息连接成一个关系网络,提供了从关系的角度去分析问题的能力。将知识图谱技术应用到大数据领域,可以将这些海量异构数据进行融合,实现对象数据之间的关联关系构建,让业务人员能够快速实现对全量数据的关系查询、分析和挖掘,提高工作的效率。
S2、获取检索实体。
其中,对新增检索数据进行预处理,提取检索实体数据集;从获取的检索信息中抽取检索主体,如主体名称、证件号码、联系方式、涉及类型、涉及地点、涉及组织等日常业务信息。
S3、根据所述知识图谱获取与所述检索实体关联的实体,得到第一实体集合。
例如,如图3所示,将检索实体与知识图谱中的人物实体、地址实体、事件实体、物品实体、组织实体分别进行关联,依据实体之间建立的关联关系,提取检索实体相关的所有实体信息,组成数据集{e1,e2,...,ek}。如使用检索实体中的手机号可以直接关联物品实体,再依据物品实体与人物实体、地址实体、事件实体、组织实体建立的关联,关联出这个手机号的人物姓名、住址等信息。
S4、从所述第一实体集合中获取一个以上与所述检索实体的关联强度值大于预设阈值的实体。具体为:
S41、计算所述检索实体与所述第一实体集合中每一实体的后验概率,得到后验概率集合;
S42、若所述第一实体集合中一实体的后验概率大于预设阈值,则输出所述一实体。
其中,通过所建知识图谱,结合实体间关联强度值,代入后验概率的计算中,提取出与检索主体相关的人物实体、地址实体、事件实体、物品实体、组织实体,从而构成数据集{e1,e2,...,ek};
所述后验概率的计算公式为:
Figure BDA0001880369870000101
式中Ci代表检索实体i,k为该数据集的个数,{e1,e2,...,ek}为人物实体、地址实体、事件实体、物品实体、组织实体构成的实体数据集。
将关联概率高于指定阈值的实体数据按照概率从高到低依次推送。
例如,在图3中,X(ei,ek)=10,X(ei,ej)=100,X(ei,en)=10,X(ei,em)=100
随后对X(ei,ej)进行归一化处理,公式为:
Figure BDA0001880369870000102
则得到:
X(ei,ek)′=0.1,X(ei,ej)′=1,X(ei,en)′=0.1,X(ei,em)′=1
将上述结果代入后验概率计算,可以得到:
Figure BDA0001880369870000103
同理可得:
P(ci|ej)=0.45,P(ci|en)=0.05,P(ci|em)=0.45
若将概率高于0.3的实体输出:则输出实体ej和实体em
S5、输出所述检索实体与所述一实体之间的最短路径。
例如,输出ei和ej实体间联系的最短路径ei→ej,输出ei和em实体间联系的最短路径ei→ek→en→em
综上所述,本实施例提供的获取关联信息的方法,通过知识图谱的构建,可以快速将检索主体相关联的数据集提取出来,简化了业务人员数据调取的过程,提高了业务人员的工作效率,同时通过智能过滤检索数据,提升数据查询的效率。
本发明的实施例二为:
本实施例提供一种计算机可读存储介质,其上存储有程序,所述程序在被计算机执行以下步骤:
S1、根据预设的第一数据构建知识图谱。
其中,所述第一数据为业务部门日常记录数据。在日常的很多业务中都会产生大量的事件记录数据。这些海量的数据大部分都是文本数据,也包含一些表格类数据,往往分布存储在结构化、非结构化的数据库中。
S11、从所述第一数据中提取实体,得到第二实体集合。
其中,通过规则匹配、OCR识别、自然语言分析等技术从业务部门日常记录数据中提取出人物实体、地址实体、事件实体、物品实体和组织实体。
在本实施例中,所述人物实体包括业务记录中标明的人员实体及其关联人员的人物身份标识信息,如姓名、证件号码、性别、血型等;
所述地址实体包括事件记录中涉及的公司、团体组织、个人等的地址信息,如企业的注册地址、办公地址、个人的户籍地址、暂住地地址等;
所述事件实体包括事件记录中事件类型、事件日期、事件内容等事件描述需要的信息;
所述物品实体包括事件记录中包含的手机、电脑、车辆等物品的标识信息,如手机号码、电脑的MAC地址、车牌号码等;
所述组织实体包括事件记录中组织名称、类型、规模、活动范围等信息。
通过规则匹配技术从规范化录入的事件记录数据中提取主体数据,如交通出行记录、证件申办材料等;
通过OCR识别技术从事件记录中的图片数据中提取主体数据,如车牌照信息、经营许可证等。这些图片数据的格式比较固定,可以通过预先训练好的OCR识别模型进行识别;
通过自然语言处理技术从事件记录中格式规范不强的文本数据中提取主体数据,如事件描述信息等。
S12、设置所述第二实体集合中具有关联关系的两实体间的关联强度值,得到第一关联强度值集合。
其中,将人物实体、地址实体、事件实体、物品实体、组织实体根据事件记录中的关系进行两两关联,实体之间关联强度值在本实施例中按照与事件的紧密程度由业务人员进行设定,分值范围在0到100之间。
S13、根据所述第一关联强度值集合计算所述第二实体集合中任意两实体间的关联强度值,得到第二关联强度值集合;具体为:
X(ei,ej)=max(ai→j)
其中,ei,ej为所述第二实体集合中的任一实体,ai→j为实体ei,ej连接路径上任意两个节点之间的关联强度值,为实体ei,ej之间的关联强度值。
其中,任意两实体之间关联强度值取决于两者路径上存在的最大关联强度值。
S14、归一化处理所述第二关联强度值集合,得到第三关联强度值集合。
其中,归一化处理X(ei,ej)的公式为:
Figure BDA0001880369870000121
即将X(ei,ej)除以第二关联强度值集合中的最大值。
S15、根据所述第三关联强度值集合和所述第二实体集合构建知识图谱。
其中,将建立的实体以及实体之间的关联强度值存入Neo4j或Titan这类图数据库中,构建知识图谱。知识图谱早先主要由Google应用在语义搜索领域,以提升搜索的效果,现在也被应用于聊天机器人、智能问答系统、医疗服务、图书信息服务等领域。知识图谱中的数据都可以表述为三元组的形式,即实体1-关系-实体2的形式,其中实体是知识图谱中最基本元素,是对事实的描述,不同的实体间存在不同的关系。若将实体视为结点,实体间的关系作为边,那么包含了大量三元组的知识图谱,就成为一个庞大的知识图,从而将不同种类的信息连接成一个关系网络,提供了从关系的角度去分析问题的能力。将知识图谱技术应用到大数据领域,可以将这些海量异构数据进行融合,实现对象数据之间的关联关系构建,让业务人员能够快速实现对全量数据的关系查询、分析和挖掘,提高工作的效率。
S2、获取检索实体。
其中,对新增检索数据进行预处理,提取检索实体数据集;从获取的检索信息中抽取检索主体,如主体名称、证件号码、联系方式、涉及类型、涉及地点、涉及组织等日常业务信息。
S3、根据所述知识图谱获取与所述检索实体关联的实体,得到第一实体集合。
例如,如图3所示,将检索实体与知识图谱中的人物实体、地址实体、事件实体、物品实体、组织实体分别进行关联,依据实体之间建立的关联关系,提取检索实体相关的所有实体信息,组成数据集{e1,e2,...,ek}。如使用检索实体中的手机号可以直接关联物品实体,再依据物品实体与人物实体、地址实体、事件实体、组织实体建立的关联,关联出这个手机号的人物姓名、住址等信息。
S4、从所述第一实体集合中获取一个以上与所述检索实体的关联强度值大于预设阈值的实体。具体为:
S41、计算所述检索实体与所述第一实体集合中每一实体的后验概率,得到后验概率集合;
S42、若所述第一实体集合中一实体的后验概率大于预设阈值,则输出所述一实体。
其中,通过所建知识图谱,结合实体间关联强度值,代入后验概率的计算中,提取出与检索主体相关的人物实体、地址实体、事件实体、物品实体、组织实体,从而构成数据集{e1,e2,...,ek};
所述后验概率的计算公式为:
Figure BDA0001880369870000131
式中Ci代表检索实体i,k为该数据集的个数,{e1,e2,...,ek}为人物实体、地址实体、事件实体、物品实体、组织实体构成的实体数据集。
将关联概率高于指定阈值的实体数据按照概率从高到低依次推送。
例如,在图3中,X(ei,ek)=10,X(ei,ej)=100,X(ei,en)=10,X(ei,em)=100
随后对X(ei,ej)进行归一化处理,公式为:
Figure BDA0001880369870000141
则得到:
X(ei,ek)′=0.1,X(ei,ej)′=1,X(ei,en)′=0.1,X(ei,em)′=1
将上述结果代入后验概率计算,可以得到:
Figure BDA0001880369870000142
同理可得:
P(ci|ej)=0.45,P(ci|en)=0.05,P(ci|em)=0.45
若将概率高于0.3的实体输出:则输出实体ej和实体em
S5、输出所述检索实体与所述一实体之间的最短路径。
例如,输出ei和ej实体间联系的最短路径ei→ej,输出ei和em实体间联系的最短路径ei→ek→en→em
本发明的实施例三为:
本实施例提供一种获取关联信息的终端,包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:
S1、根据预设的第一数据构建知识图谱。
其中,所述第一数据为业务部门日常记录数据。在日常的很多业务中都会产生大量的事件记录数据。这些海量的数据大部分都是文本数据,也包含一些表格类数据,往往分布存储在结构化、非结构化的数据库中。
S11、从所述第一数据中提取实体,得到第二实体集合。
其中,通过规则匹配、OCR识别、自然语言分析等技术从业务部门日常记录数据中提取出人物实体、地址实体、事件实体、物品实体和组织实体。
在本实施例中,所述人物实体包括业务记录中标明的人员实体及其关联人员的人物身份标识信息,如姓名、证件号码、性别、血型等;
所述地址实体包括事件记录中涉及的公司、团体组织、个人等的地址信息,如企业的注册地址、办公地址、个人的户籍地址、暂住地地址等;
所述事件实体包括事件记录中事件类型、事件日期、事件内容等事件描述需要的信息;
所述物品实体包括事件记录中包含的手机、电脑、车辆等物品的标识信息,如手机号码、电脑的MAC地址、车牌号码等;
所述组织实体包括事件记录中组织名称、类型、规模、活动范围等信息。
通过规则匹配技术从规范化录入的事件记录数据中提取主体数据,如交通出行记录、证件申办材料等;
通过OCR识别技术从事件记录中的图片数据中提取主体数据,如车牌照信息、经营许可证等。这些图片数据的格式比较固定,可以通过预先训练好的OCR识别模型进行识别;
通过自然语言处理技术从事件记录中格式规范不强的文本数据中提取主体数据,如事件描述信息等。
S12、设置所述第二实体集合中具有关联关系的两实体间的关联强度值,得到第一关联强度值集合。
其中,将人物实体、地址实体、事件实体、物品实体、组织实体根据事件记录中的关系进行两两关联,实体之间关联强度值在本实施例中按照与事件的紧密程度由业务人员进行设定,分值范围在0到100之间。
S13、根据所述第一关联强度值集合计算所述第二实体集合中任意两实体间的关联强度值,得到第二关联强度值集合;具体为:
X(ei,ej)=max(ai→j)
其中,ei,ej为所述第二实体集合中的任一实体,ai→j为实体ei,ej连接路径上任意两个节点之间的关联强度值,为实体ei,ej之间的关联强度值。
其中,任意两实体之间关联强度值取决于两者路径上存在的最大关联强度值。
S14、归一化处理所述第二关联强度值集合,得到第三关联强度值集合。
其中,归一化处理X(ei,ej)的公式为:
Figure BDA0001880369870000161
即将X(ei,ej)除以第二关联强度值集合中的最大值。
S15、根据所述第三关联强度值集合和所述第二实体集合构建知识图谱。
其中,将建立的实体以及实体之间的关联强度值存入Neo4j或Titan这类图数据库中,构建知识图谱。知识图谱早先主要由Google应用在语义搜索领域,以提升搜索的效果,现在也被应用于聊天机器人、智能问答系统、医疗服务、图书信息服务等领域。知识图谱中的数据都可以表述为三元组的形式,即实体1-关系-实体2的形式,其中实体是知识图谱中最基本元素,是对事实的描述,不同的实体间存在不同的关系。若将实体视为结点,实体间的关系作为边,那么包含了大量三元组的知识图谱,就成为一个庞大的知识图,从而将不同种类的信息连接成一个关系网络,提供了从关系的角度去分析问题的能力。将知识图谱技术应用到大数据领域,可以将这些海量异构数据进行融合,实现对象数据之间的关联关系构建,让业务人员能够快速实现对全量数据的关系查询、分析和挖掘,提高工作的效率。
S2、获取检索实体。
其中,对新增检索数据进行预处理,提取检索实体数据集;从获取的检索信息中抽取检索主体,如主体名称、证件号码、联系方式、涉及类型、涉及地点、涉及组织等日常业务信息。
S3、根据所述知识图谱获取与所述检索实体关联的实体,得到第一实体集合。
例如,如图3所示,将检索实体与知识图谱中的人物实体、地址实体、事件实体、物品实体、组织实体分别进行关联,依据实体之间建立的关联关系,提取检索实体相关的所有实体信息,组成数据集{e1,e2,...,ek}。如使用检索实体中的手机号可以直接关联物品实体,再依据物品实体与人物实体、地址实体、事件实体、组织实体建立的关联,关联出这个手机号的人物姓名、住址等信息。
S4、从所述第一实体集合中获取一个以上与所述检索实体的关联强度值大于预设阈值的实体。具体为:
S41、计算所述检索实体与所述第一实体集合中每一实体的后验概率,得到后验概率集合;
S42、若所述第一实体集合中一实体的后验概率大于预设阈值,则输出所述一实体。
其中,通过所建知识图谱,结合实体间关联强度值,代入后验概率的计算中,提取出与检索主体相关的人物实体、地址实体、事件实体、物品实体、组织实体,从而构成数据集{e1,e2,...,ek};
所述后验概率的计算公式为:
Figure BDA0001880369870000171
式中Ci代表检索实体i,k为该数据集的个数,{e1,e2,...,ek}为人物实体、地址实体、事件实体、物品实体、组织实体构成的实体数据集。
将关联概率高于指定阈值的实体数据按照概率从高到低依次推送。
例如,在图3中,X(ei,ek)=10,X(ei,ej)=100,X(ei,en)=10,X(ei,em)=100
随后对X(ei,ej)进行归一化处理,公式为:
Figure BDA0001880369870000172
则得到:
X(ei,ek)′=0.1,X(ei,ej)′=1,X(ei,en)′=0.1,X(ei,em)′=1
将上述结果代入后验概率计算,可以得到:
Figure BDA0001880369870000181
同理可得:
P(ci|ej)=0.45,P(ci|en)=0.05,P(ci|em)=0.45
若将概率高于0.3的实体输出:则输出实体ej和实体em
S5、输出所述检索实体与所述一实体之间的最短路径。
例如,输出ei和ej实体间联系的最短路径ei→ej,输出ei和em实体间联系的最短路径ei→ek→en→em
综上所述,本发明提供的一种获取关联信息的方法及终端,通过根据海量的第一数据构建知识图谱,实现将与检索实体相关联的数据集从海量数据中快速提取出来,简化了业务人员数据调取的过程,提高了业务人员的工作效率,同时通过智能过滤检索数据,提升了从海量数据中获取关联信息的效率。进一步地,根据业务需求从业务数据(即第一数据)中提取实体,并根据业务需求设置所提取的实体间的关联强度直接存储起来,有利于提升业务人员进行检索时的效率和数据准确性。进一步地,通过选取任意两实体间最大关联强度作为有效关联强度值,可以有效将强度值高于所设阈值的实体数据都提取出来,避免关键实体信息的遗漏。进一步地,归一化后的关联强度值取值范围固定(大于等于0,小于等于1),业务人员可以方便的进行阈值的设定。进一步地,采用后验概率的方法,当有新的实体数据入库,原有实体的后验概率值也会动态调整,特别针对检索实体关联实体数据量大的情况,能够保证每次提取的都是相对重要性高的实体数据。进一步地,输出最短路径,可以知道实体间最直接的联系方式,能够辅助业务人员理解两个实体是如何链接的,由业务人员决策是否对链接路径上的实体进行查看。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (5)

1.一种获取关联信息的方法,其特征在于,包括:
S1、根据预设的第一数据构建知识图谱,其中,所述第一数据包括业务记录数据;
S2、获取检索实体,所述实体包括人物实体、地址实体、事件实体、物体实体和组织实体;
S3、根据所述知识图谱获取与所述检索实体关联的实体,得到第一实体集合;
S4、从所述第一实体集合中获取一个以上与所述检索实体的关联强度值大于预设阈值的实体,并输出所述检索实体与所述实体之间的最短路径;
其中,步骤S1具体为:
从所述第一数据中提取实体,得到第二实体集合;
设置所述第二实体集合中具有关联关系的两实体间的关联强度值,得到第一关联强度值集合;
根据所述第一关联强度值集合计算所述第二实体集合中任意两实体间的关联强度值,得到第二关联强度值集合,具体为:
X(ei,ej)=max(ai→j)
其中,ei,ej为所述第二实体集合中的任一实体,ai→j为实体ei,ej连接路径上任意两个节点之间的关联强度值,X(ei,ej)为实体ei,ej之间的关联强度值;
归一化处理所述第二关联强度值集合,得到第三关联强度值集合,归一化处理X(ei,ej)的公式为:
Figure FDA0003029211550000011
即将X(ei,ej)除以第二关联强度值集合中的最大值;
根据所述第三关联强度值集合和所述第二实体集合构建知识图谱。
2.根据权利要求1所述的获取关联信息的方法,其特征在于,所述S4具体为:
计算所述检索实体与所述第一实体集合中每一实体的后验概率,得到后验概率集合;
若所述第一实体集合中一实体的后验概率大于预设阈值,则输出所述一实体。
3.一种计算机可读存储介质,其上存储有程序,所述程序在被计算机执行时执行如权利要求1-2中任一项所述的方法。
4.一种获取关联信息的终端,其特征在于,包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:
S1、根据预设的第一数据构建知识图谱,其中,所述第一数据包括业务记录数据;
S2、获取检索实体,所述实体包括人物实体、地址实体、事件实体、物体实体和组织实体;
S3、根据所述知识图谱获取与所述检索实体关联的实体,得到第一实体集合;
S4、从所述第一实体集合中获取一个以上与所述检索实体的关联强度值大于预设阈值的实体,输出所述检索实体与所述实体之间的最短路径;
其中,步骤S1具体为:
从所述第一数据中提取实体,得到第二实体集合;
设置所述第二实体集合中具有关联关系的两实体间的关联强度值,得到第一关联强度值集合;
根据所述第一关联强度值集合计算所述第二实体集合中任意两实体间的关联强度值,得到第二关联强度值集合,具体为:
X(ei,ej)=max(ai→j)
其中,ei,ej为所述第二实体集合中的任一实体,ai→j为实体ei,ej连接路径上任意两个节点之间的关联强度值,X(ei,ej)为实体ei,ej之间的关联强度值;
归一化处理所述第二关联强度值集合,得到第三关联强度值集合,归一化处理X(ei,ej)的公式为:
Figure FDA0003029211550000031
即将X(ei,ej)除以第二关联强度值集合中的最大值;
根据所述第三关联强度值集合和所述第二实体集合构建知识图谱。
5.根据权利要求4所述的获取关联信息的终端,其特征在于,所述S4具体为:计算所述检索实体与所述第一实体集合中每一实体的后验概率,得到后验概率集合;若所述第一实体集合中一实体的后验概率大于预设阈值,则输出所述一实体。
CN201811420058.6A 2018-11-26 2018-11-26 一种获取关联信息的方法及终端 Active CN109739992B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811420058.6A CN109739992B (zh) 2018-11-26 2018-11-26 一种获取关联信息的方法及终端
PCT/CN2019/099124 WO2020107929A1 (zh) 2018-11-26 2019-08-02 一种获取关联信息的方法及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811420058.6A CN109739992B (zh) 2018-11-26 2018-11-26 一种获取关联信息的方法及终端

Publications (2)

Publication Number Publication Date
CN109739992A CN109739992A (zh) 2019-05-10
CN109739992B true CN109739992B (zh) 2021-06-11

Family

ID=66358734

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811420058.6A Active CN109739992B (zh) 2018-11-26 2018-11-26 一种获取关联信息的方法及终端

Country Status (2)

Country Link
CN (1) CN109739992B (zh)
WO (1) WO2020107929A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109739992B (zh) * 2018-11-26 2021-06-11 厦门市美亚柏科信息股份有限公司 一种获取关联信息的方法及终端
CN110504028A (zh) * 2019-08-22 2019-11-26 上海软中信息系统咨询有限公司 一种疾病问诊方法、装置、系统、计算机设备和存储介质
CN113496332B (zh) * 2020-04-02 2024-01-26 中国电信股份有限公司 工业互联网故障预测方法和系统
CN111831833A (zh) * 2020-07-27 2020-10-27 人民卫生电子音像出版社有限公司 知识图谱的构建方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052636A (zh) * 2017-12-20 2018-05-18 北京工业大学 确定文本主题相关度的方法、装置及终端设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7743046B2 (en) * 2005-04-20 2010-06-22 Tata Consultancy Services Ltd Cybernetic search with knowledge maps
WO2010124137A1 (en) * 2009-04-22 2010-10-28 Millennium Pharmacy Systems, Inc. Pharmacy management and administration with bedside real-time medical event data collection
CN106874695B (zh) * 2017-03-22 2019-10-25 北京大数医达科技有限公司 医疗知识图谱的构建方法和装置
CN107145744B (zh) * 2017-05-08 2018-03-02 合肥工业大学 医学知识图谱的构建方法、装置及辅助诊断方法
CN107247881B (zh) * 2017-06-20 2020-04-28 北京大数医达科技有限公司 一种多模态智能分析方法及系统
CN108875053A (zh) * 2018-06-28 2018-11-23 国信优易数据有限公司 一种知识图谱数据处理方法及装置
CN109739992B (zh) * 2018-11-26 2021-06-11 厦门市美亚柏科信息股份有限公司 一种获取关联信息的方法及终端

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052636A (zh) * 2017-12-20 2018-05-18 北京工业大学 确定文本主题相关度的方法、装置及终端设备

Also Published As

Publication number Publication date
CN109739992A (zh) 2019-05-10
WO2020107929A1 (zh) 2020-06-04

Similar Documents

Publication Publication Date Title
CN109739992B (zh) 一种获取关联信息的方法及终端
CN109635117B (zh) 一种基于知识图谱识别用户意图方法及装置
CN103620601B (zh) 在映射缩减过程中汇合表
US20140279803A1 (en) Disambiguating data using contextual and historical information
CN111710429A (zh) 信息的推送方法及装置、计算机设备、存储介质
CN110752027B (zh) 电子病历数据推送方法、装置、计算机设备和存储介质
CN111696656A (zh) 一种互联网医疗平台的医生评价方法、装置
CN113051389B (zh) 知识推送方法及装置
US20140095527A1 (en) Expanding high level queries
JP2014174938A (ja) ヘルプデスク支援システム
JP2010211575A (ja) 情報評価支援システム
CN111752922A (zh) 一种建立知识数据库、实现知识查询的方法及装置
CN113204644B (zh) 一种基于知识图谱的政务百科构建方法
Kalokyri et al. Integration and exploration of connected personal digital traces
US11687575B1 (en) Efficient search for combinations of matching entities given constraints
US11880377B1 (en) Systems and methods for entity resolution
US10445061B1 (en) Matching entities during data migration
CN114416848A (zh) 基于数据仓库的数据血缘关系处理方法及装置
CN115544050A (zh) 操作日志记录方法、装置、设备及存储介质
CN114090076A (zh) 应用程序的合规性判别方法和装置
CN110851431B (zh) 用于数据中台的数据处理方法及装置
CN109657010B (zh) 文档处理方法、装置和存储介质
CN110019547B (zh) 获取客户间的关联关系的方法、装置、设备及介质
CN108062379B (zh) 数据处理方法、平台、装置和计算机可读存储介质
CN112685572A (zh) 一种基于联邦计算的异构数据融合方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant