CN110019825B - 一种分析数据语义的方法及装置 - Google Patents

一种分析数据语义的方法及装置 Download PDF

Info

Publication number
CN110019825B
CN110019825B CN201710612651.XA CN201710612651A CN110019825B CN 110019825 B CN110019825 B CN 110019825B CN 201710612651 A CN201710612651 A CN 201710612651A CN 110019825 B CN110019825 B CN 110019825B
Authority
CN
China
Prior art keywords
field
entity
data source
graph
entity type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710612651.XA
Other languages
English (en)
Other versions
CN110019825A (zh
Inventor
樊哲
汪芳山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201710612651.XA priority Critical patent/CN110019825B/zh
Publication of CN110019825A publication Critical patent/CN110019825A/zh
Application granted granted Critical
Publication of CN110019825B publication Critical patent/CN110019825B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种分析数据语义的方法及装置,方法包括:数据分析装置获取预设的知识图谱和待处理的数据源,数据源包括N个字段,每个字段对应至少一个字段数据,N为正整数,知识图谱包括图模式和图数据,字段对应知识图谱中的实体类型,字段数据对应知识图谱中的实体;根据知识图谱和数据源得到数据源中各字段对应的实体类型。根据数据源中各字段对应的实体类型、数据源和知识图谱生成字段关联关系。数据分析装置根据数据源中的字段、数据源中各字段对应的实体类型和字段关联关系生成包括数据源中各字段对应的实体类型,各字段之间的关联关系的目标图模式,根据目标图模式对搜索请求进行语义分析,确定并输出搜索答案。采用本方案,能够提高数据分析效率。

Description

一种分析数据语义的方法及装置
技术领域
本申请涉及大数据处理技术领域,尤其涉及一种分析数据语义的方法及装置。
背景技术
大数据分析平台可基于输入的数据表进行智能化分析,并根据智能化分析的结果输出图模式。其中,智能化分析主要包括数据表语义分析、生成关键问题、生成关键问题答案、以及展示问题及答案。该关键问题是指能够体现用户对该数据表最可能感兴趣的问题,图模式是指数据表的字段语义及字段关联关系语义。例如用户输入一张数据表,其中包括各类品牌手机的销售量、销售地点、销售价格和销售年月份等信息。如图1所示,大数据分析平台对该数据表进行智能化分析,最后生成一个图模式,该图模式可直观的呈现销售量排名前10的手机品牌、以及影响手机销售量的因子(例如销售地点、销售价格)。
目前,为实现精准、高效的数据表语义分析,主要依据数据表字段名,从预定义规则库(其是指:记录从数据表中的字段名到知识图谱实体类型的可能映射规则)中为每个字段匹配出合适的映射规则,再通过匹配到的映射规则将字段映射到知识图谱,以生成所有可能的候选图模式,最后从得到的候选图模式中挑选一个作为最终输出的图模式。例如,用户输入一张数据表,该数据表中包括多个国家名称、多个城市名称以及多个地点。如图2所示,大数据平台先根据“国家”、“城市”、以及“地点”这三类字段名从预定义规则库中分别匹配出:“城市”与“城市”、“首都”和“国家”等映射,“地点”与“城市”、“首都”和“国家”等映射,“国家”与“城市”和“地区”等映射。然后根据匹配出的各种组合,分别生成对应的多个图模式,最后选择其中的代表“城市与国家的映射”图模式。
可见,由于现有的数据表语义分析需要依赖数据表中的字段名,由于数据表的来源很多,所提供的数据表中的数据不规范或不严谨等因素,可能获取的数据表中会存在字段名缺失或不准确的问题,这样会导致最终无法输出图模式,或者输出的图模式准确度较低。
发明内容
本申请提供了一种分析数据语义的方法及装置,能够解决现有技术中基于数据表输出的图模式的准确度较低的问题。
本申请第一方面提供一种分析数据语义的方法,所述方法包括:
数据分析装置获取预设的知识图谱和待处理的数据源,所述数据源包括N个字段,每个字段对应至少一个字段数据,N为正整数,所述预设的知识图谱包括图模式和图数据,所述图模式记录实体类型和实体关联关系,所述图数据记录实体间的关联关系和实体,所述字段对应所述预设的知识图谱中的实体类型,所述字段数据对应所述预设的知识图谱中的实体。其中,实体间的关联关系是指实体与实体之间所存在的关联关系,实体关联关系是指实体类型与实体类型之间所存在的关联关系。
所述数据分析装置根据所述预设的知识图谱和所述数据源得到所述数据源中各字段对应的实体类型,所述数据源中各字段对应的实体类型根据所述数据源中的字段与所述预设的知识图谱中实体类型之间的映射得到。
所述数据分析装置根据所述数据源中各字段对应的实体类型、所述数据源和所述预设的知识图谱,生成字段关联关系,所述字段关联关系根据所述数据源中字段间的关联关系和所述知识图谱中实体关联关系之间的映射得到。
所述数据分析装置根据所述数据源中的字段、所述数据源中各字段对应的实体类型和所述字段关联关系生成目标图模式,所述目标图模式包括所述数据源中各字段对应的实体类型,以及各字段之间的关联关系。
所述数据分析装置根据所述目标图模式对获取到的搜索请求进行语义分析,确定并输出搜索答案。
在一些可能的设计中,所述N个字段包括字段Ai,i∈[1,N]且i为整数;所述数据分析装置根据所述知识图谱和所述数据源得到所述数据源中各字段对应的实体类型,包括:
所述数据分析装置根据所述预设的知识图谱和所述数据源,对所述数据源中的字段Ai进行初始化,得到所述字段Ai的候选实体类型;
所述方法还包括:
所述数据分析装置根据词频-权重算法,分别计算所述字段Ai为每个所述候选实体类型的置信度,得到字段Ai与候选实体类型映射的置信度。
在一些可能的设计中,所述N个字段还包括字段Aj,j∈[1,N]且j为整数,一个字段Ai和一个字段Aj组成一个字段对(Ai,Aj);所述数据分析装置根据所述数据源中各字段对应的实体类型、所述数据源和所述预设的知识图谱,生成字段关联关系,包括:
所述数据分析装置根据所述知识图谱和所述数据源中各字段对应的实体类型,对字段对(Ai,Aj)进行初始化,得到字段对(Ai,Aj)的候选关联关系类型,根据所述字段对(Ai,Aj)的候选关联关系类型生成所述字段关联关系;
所述方法还包括:
所述数据分析装置根据所述词频-权重算法,计算字段对(Ai,Aj)为每个所述候选关联关系类型的置信度,得到字段对(Ai,Aj)与候选关联关系类型映射的置信度。
在一些可能的设计中,所述数据分析装置根据所述数据源中的字段、所述数据源中各字段对应的实体类型和所述字段关联关系,生成目标图模式,包括:
所述数据分析装置根据所述数据源中的字段、所述数据源中各字段对应的实体类型和所述字段关联关系,生成至少一个图模式;确定所述至少一个图模式中置信度最高的图模式为所述目标图模式,所述至少一个图模式的置信度根据所述字段Ai与候选实体类型映射的置信度,以及所述字段对(Ai,Aj)与候选关联关系类型映射的置信度计算得到。
在一些可能的设计中,所述目标图模式具体包括字段Ai的实体类型、字段Aj的实体类型、字段Ai与字段Aj之间的字段关联关系类型、字段Ai与候选实体类型映射的置信度、字段Aj与候选实体类型映射的置信度、所述字段对(Ai,Aj)与候选关联关系类型映射的置信度。
可选的,所述字段关联关系包括多个实体类型三元组,所述实体类型三元组包括实体类型关联关系、字段Ai对应的实体类型、字段Aj对应的实体类型,所述实体类型关联关系是指字段Ai对应的实体类型,与字段Aj对应的实体类型映射的关联关系类型。通过三元组的形式,能够直观的体现出各字段间的关联关系,便于定位参与目标图模式的生成。
在一些可能的设计中,所述根据所述数据源中的字段、所述数据源中各字段对应的实体类型和所述字段关联关系,生成至少一个图模式,包括:
所述数据分析装置根据所述数据源中的字段、所述数据源中各字段对应的实体类型和所述字段关联关系,按照图模式的置信度上限值对图模式的生成进行剪枝,生成所述至少一个图模式。
在一些可能的设计中,在已获取字段映射和字段关联关系映射的基础上,下面提供一种通过基于字段映射和字段关联关系映射,遍历数据源中的各字段,以生成最优图模式的方式,具体可包括以下步骤:
初始化图模式和目标图模式,从所述数据源中选择一个字段对(Ai,Aj)。
判断所述字段对(Ai,Aj)中是否存在未标记的实体类型三元组。
当确定所述字段对(Ai,Aj)中存在未标记的实体类型三元组时,则从所述字段对(Ai,Aj)中选择一个未标记且置信度最高的候选实体类型三元组并标记,生成关于所述字段对(Ai,Aj)的候选图模式,当确定所述候选实体类型三元组满足与所述候选图模式进行连接join操作的条件时,则计算所述候选图模式的置信度上限值;其中候选实体类型三元组的置信度根据字段与实体类型映射的置信度、实体间的关联关系得到。
当确定所述候选图模式的置信度上限值大于所述目标图模式的置信度,且确定所述数据源中还存在字段对(Ai+1,Aj+1)时,则执行判断所述字段对(Ai+1,Aj+1)中是否存在未标记的实体类型三元组的操作,所述字段对(Ai+1,Aj+1)为所述字段对(Ai,Aj)的下一个字段对。每轮遍历判断后都会得到一个目标图模式,即得到的目标图模式可能是本轮选择的字段对所得到的最优图模式。若置信度上限值Max(G)小于S(Gr),则表示当前得到的候选图模式并不是最优图模式,则表示本轮判断流程选择的作为最优图模式的候选图模式无效,需要去除该字段对下的所有Tri,以便其它轮的遍历判断时使用。若不能回溯到上一个字段,则当前输出的最优图模式是本轮所比较的目标图模式。
若确定所述数据源中不存在字段对(Ai+1,Aj+1),则将所述候选图模式作为目标图模式,当确定满足回溯到字段对(Ai-1,Aj-1)的条件时,则执行判断所述字段对(Ai+1,Aj+1)中是否存在未标记的实体类型三元组的操作;当确定不满足回溯到字段对(Ai-1,Aj-1)的条件时,则将当前得到的所述候选图模式作为目标图模式输出。
当确定所述候选图模式的置信度上限值不大于所述目标图模式的置信度时,则去除所述字段对(Ai,Aj)中所有实体类型三元组的标记,当确定不满足回溯到字段对(Ai-1,Aj-1)的条件时,则将当前得到的所述候选图模式作为目标图模式输出;当确定满足回溯到字段对(Ai-1,Aj-1)的条件时,则执行判断所述字段对(Ai-1,Aj-1)中是否存在未标记的实体类型三元组的操作。
由此可见,当本轮遍历所得到的候选图模式是目前找到的最优图模式时,通过剪枝和去除(Ai,Aj)下所有Tri的标记,这样无需生成所有可能的图模式,从而缩小搜索空间,加快生成最优图模式的速度,进而提高创建目标图模式的效率。
在一些可能的设计中,所述数据分析装置根据所述目标图模式对获取到的搜索请求进行语义分析,确定并输出搜索答案,包括:
所述数据分析装置根据所述目标图模式和所述搜索请求生成待解实体三元组,所述待解实体三元组包括第一实体、第一实体与待解实体的关联关系类型,所述待解实体为根据所述搜索请求待解的实体。
并根据所述目标图模式匹配出与所述待解实体三元组对应的实体类型三元组,匹配出的实体类型三元组包括所述第一实体与第二实体的实体关联关系类型、所述第一实体的实体类型以及所述第二实体的实体类型。
再将所述匹配出的实体类型三元组中的所述第二实体的实体类型确定为所述待解实体的实体类型。
然后从所述第一实体的字段数据中,提取与所述第二实体的实体类型对应的字段数据作为所述待解实体,并输出所述第二实体。
可见,在收到搜索请求后,就可以直接基于创建好的目标图模式进行语义分析,能够快速的输出准确度较高的搜索答案,加快响应速度,减少用户的等待时长。
在一些可能的设计中,所述数据分析装置根据所述目标图模式对获取到的搜索请求进行语义分析,确定并输出搜索答案,还包括:
根据所述数据源和预设问题规则库,生成多个搜索问题;
根据所述目标图模式和所述数据源,确定所述多个搜索问题中各搜索问题的搜索答案,生成并输出与搜索问题对应的搜索答案。
这些搜索问题可以是关键问题,也就是大多数用户想要搜索的问题。搜索问题对应的搜索答案还可以以数据报表的形式输出,一方面中,输出的数据报表+目标图模式可以便于用户直观的分析大数据;另一方面中,输出了数据报表,还可以便于在后续收到用户的搜索请求后,可以不需要针对每个搜索请求都进行语义分析,就可以直接将答案输出,进一步加快响应速度,也能减少数据分析装置的运算负荷,尤其适用于大量用户搜索问题时的拥塞时段,一定程度上能够提高数据分析装置的性能。
本申请第二方面提供一种数据分析装置,具有实现对应于上述第一方面提供的分析数据语义的方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。
一种可能的设计中,所述数据分析装置包括:
收发模块,用于获取预设的知识图谱和待处理的数据源,所述数据源包括N个字段,每个字段对应至少一个字段数据,N为正整数,所述预设的知识图谱包括图模式和图数据,所述图模式记录实体类型和实体关联关系,所述图数据记录实体间的关联关系和实体,所述字段对应所述预设的知识图谱中的实体类型,所述字段数据对应所述预设的知识图谱中的实体;
处理模块,用于根据所述预设的知识图谱和所述数据源得到所述数据源中各字段对应的实体类型,所述数据源中各字段对应的实体类型根据所述数据源中的字段与所述预设的知识图谱中实体类型之间的映射得到;
根据所述数据源中各字段对应的实体类型、所述数据源和所述预设的知识图谱,生成字段关联关系,所述字段关联关系根据所述数据源中字段间的关联关系和所述知识图谱中实体关联关系之间的映射得到;
根据所述数据源中的字段、所述数据源中各字段对应的实体类型和所述字段关联关系生成目标图模式,所述目标图模式包括所述数据源中各字段对应的实体类型,以及各字段之间的关联关系;
根据所述目标图模式对获取到的搜索请求进行语义分析,确定并输出搜索答案。
在一些可能的设计中,所述N个字段包括字段Ai,i∈[1,N]且i为整数;所述处理模块具体用于:
根据所述预设的知识图谱和所述数据源,对所述数据源中的字段Ai进行初始化,得到所述字段Ai的候选实体类型;
所述处理模块还用于:
根据词频-权重算法,分别计算所述字段Ai为每个所述候选实体类型的置信度,得到字段Ai与候选实体类型映射的置信度。
在一些可能的设计中,所述N个字段还包括字段Aj,j∈[1,N]且j为整数,一个字段Ai和一个字段Aj组成一个字段对(Ai,Aj);所述处理模块具体用于:
根据所述知识图谱和所述数据源中各字段对应的实体类型,对字段对(Ai,Aj)进行初始化,得到字段对(Ai,Aj)的候选关联关系类型,根据所述字段对(Ai,Aj)的候选关联关系类型生成所述字段关联关系;
所述处理模块还用于:
根据所述词频-权重算法,计算字段对(Ai,Aj)为每个所述候选关联关系类型的置信度,得到字段对(Ai,Aj)与候选关联关系类型映射的置信度。
在一些可能的设计中,所述处理模块具体用于:
根据所述数据源中的字段、所述数据源中各字段对应的实体类型和所述字段关联关系,生成至少一个图模式;确定所述至少一个图模式中置信度最高的图模式为所述目标图模式,所述至少一个图模式的置信度根据所述字段Ai与候选实体类型映射的置信度,以及所述字段对(Ai,Aj)与候选关联关系类型映射的置信度计算得到。
在一些可能的设计中,所述目标图模式具体包括字段Ai的实体类型、字段Aj的实体类型、字段Ai与字段Aj之间的字段关联关系类型、字段Ai与候选实体类型映射的置信度、字段Aj与候选实体类型映射的置信度、所述字段对(Ai,Aj)与候选关联关系类型映射的置信度。
在一些可能的设计中,所述处理模块具体用于:
根据所述数据源中的字段、所述数据源中各字段对应的实体类型和所述字段关联关系,按照图模式的置信度上限值对图模式的生成进行剪枝,生成所述至少一个图模式。
在一些可能的设计中,所述字段关联关系包括多个实体类型三元组,所述实体类型三元组包括实体类型关联关系、字段Ai对应的实体类型、字段Aj对应的实体类型,所述实体类型关联关系是指字段Ai对应的实体类型,与字段Aj对应的实体类型映射的关联关系类型。
在一些可能的设计中,所述处理模块具体用于:
初始化图模式和目标图模式,从所述数据源中选择一个字段对(Ai,Aj)。
判断所述字段对(Ai,Aj)中是否存在未标记的实体类型三元组。
当确定所述字段对(Ai,Aj)中存在未标记的实体类型三元组时,则从所述字段对(Ai,Aj)中选择一个未标记且置信度最高的候选实体类型三元组并标记,生成关于所述字段对(Ai,Aj)的候选图模式,当确定所述候选实体类型三元组满足与所述候选图模式进行连接join操作的条件时,则计算所述候选图模式的置信度上限值;其中候选实体类型三元组的置信度根据字段与实体类型映射的置信度、实体间的关联关系得到。
当确定所述候选图模式的置信度上限值大于所述目标图模式的置信度,且确定所述数据源中还存在字段对(Ai+1,Aj+1)时,则执行判断所述字段对(Ai+1,Aj+1)中是否存在未标记的实体类型三元组的操作,所述字段对(Ai+1,Aj+1)为所述字段对(Ai,Aj)的下一个字段对。
若确定所述数据源中不存在字段对(Ai+1,Aj+1),则将所述候选图模式作为目标图模式,当确定满足回溯到字段对(Ai-1,Aj-1)的条件时,则执行判断所述字段对(Ai+1,Aj+1)中是否存在未标记的实体类型三元组的操作;当确定不满足回溯到字段对(Ai-1,Aj-1)的条件时,则将当前得到的所述候选图模式作为目标图模式输出。
当确定所述候选图模式的置信度上限值不大于所述目标图模式的置信度时,则去除所述字段对(Ai,Aj)中所有实体类型三元组的标记,当确定不满足回溯到字段对(Ai-1,Aj-1)的条件时,则将当前得到的所述候选图模式作为目标图模式输出;当确定满足回溯到字段对(Ai-1,Aj-1)的条件时,则执行判断所述字段对(Ai-1,Aj-1)中是否存在未标记的实体类型三元组的操作。
在一些可能的设计中,所述处理模块具体用于:
根据所述目标图模式和所述搜索请求生成待解实体三元组,所述待解实体三元组包括第一实体、第一实体与待解实体的关联关系类型,所述待解实体为根据所述搜索请求待解的实体;
根据所述目标图模式匹配出与所述待解实体三元组对应的实体类型三元组,匹配出的实体类型三元组包括所述第一实体与第二实体的实体关联关系类型、所述第一实体的实体类型以及所述第二实体的实体类型;
将所述匹配出的实体类型三元组中的所述第二实体的实体类型确定为所述待解实体的实体类型;
从所述第一实体的字段数据中,提取与所述第二实体的实体类型对应的字段数据作为所述待解实体,并输出所述第二实体。
在一些可能的设计中,所述处理模块具体还用于:
根据所述数据源和预设问题规则库,生成多个搜索问题;
根据所述目标图模式和所述数据源,确定所述多个搜索问题中各搜索问题的搜索答案,生成并输出与搜索问题对应的搜索答案。
本申请又一方面提供了一种数据分析装置,其包括至少一个连接的处理器、存储器、发射器和接收器,其中,所述存储器用于存储程序代码,所述处理器用于调用所述存储器中的程序代码来执行上述第一方面所述的方法。
本申请又一方面提供了一种计算机存储介质,其包括指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法。
本申请又一方面提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法。
相较于现有技术,本申请实施例提供的方案中,数据分析装置在获取预设的知识图谱和数据源后,根据知识图谱和所述数据源得到所述数据源中各字段对应的实体类型,然后根据所述数据源中各字段对应的实体类型、所述数据源和所述知识图谱,生成字段关联关系,最后根据所述数据源中各字段对应的实体类型和所述字段关联关系,生成能够包括所述数据源中各字段对应的实体类型,各字段之间的关联关系的目标图模式。由于该目标图模式是基于字段、字段的实体类型和字段关联关系生成,所以输出的目标图模式的准确度较高,即使该数据源中的字段数据的字段名缺失或不准确,也能实现对数据语义的准确分析。若接收到搜索请求,则可直接基于得到的目标图模式进行语义分析,然后输出搜索答案。
附图说明
图1为现有机制中大数据分析平台进行大数据处理的一种示意图;
图2为现有机制中大数据分析平台基于数据表输出图模式的一种示意图;
图3为本申请实施例中大数据分析平台的一种结构示意图;
图4为本申请实施例中分析数据语义的方法的一种流程示意图;
图5为本申请实施例中大数据分析平台进行大数据处理的一种示意图;
图6为本申请实施例中分析数据语义的方法的另一种流程示意图;
图7为本申请实施例中预设的知识图谱的一种结构示意图;
图8为本申请实施例中图模式的一种示意图;
图9为本申请实施例中图模式的另一种示意图;
图10为本申请实施例中图模式的另一种示意图;
图11为本申请实施例中图模式的另一种示意图;
图12为本申请实施例中目标图模式的一种示意图;
图13a为本申请实施例中用户在终端设备搜索问题的一种界面示意图;
图13b为本申请实施例中终端设备获取服务器发送的搜索答案的界面图;
图14为本申请实施例中最优图模式的一种示意图;
图15为本申请实施例中服务器基于最优图模式生成的数据报表的一种示意图;
图16为本申请实施例中数据分析装置的一种结构示意图;
图17为本申请实施例中数据分析装置的另一种结构示意图;
图18为本申请实施例中服务器的一种结构示意图;
图19为本申请实施例中手机的一种结构示意图。
具体实施方式
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式,例如多个模块可以结合成或集成在另一个系统中,或一些特征可以忽略,或不执行,另外,所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,模块之间的间接耦合或通信连接可以是电性或其他类似的形式,本申请中均不作限定。并且,作为分离部件说明的模块或子模块可以是也可以不是物理上的分离,可以是也可以不是物理模块,或者可以分布到多个电路模块中,可以根据实际的需要选择其中的部分或全部模块来实现本申请方案的目的。
本申请供了一种分析数据语义的方法即装置,主要用于大数据处理领域。以下进行详细说明。本申请实施例主要基于如图3所示的系统架构,该系统框架主要包括数据来源装置、数据分析装置及分析结果应用装置。
其中,数据来源装置是指包含任何可用于收集及发送数据的装置,例如终端设备,终端设备可以是智能手机、平板电脑、手提电脑、桌面电脑或者爬虫服务器等。数据来源装置还可用于将数据来源装置的数据源发送至数据分析装置。
数据分析装置是指包含任何可以用于提供数据分析的装置,如私有云、公有云、混合云设备等。数据分析装置从数据来源装置获取到数据源后,其可基于已有的知识图谱和来自数据来源装置的数据源生成一个分析结果,该分析结果可以采用图模式的形式体现。然后,数据分析装置将分析结果发送给分析结果应用装置。
分析结果应用装置是指包含任何可以应用分析结果(例如分析结果可以是本申请得到的图模式)的装置,如私有云、公有云、混合云设备等。例如,分析结果应用装置收到用户发送的搜索请求后,可基于该图模式对搜索请求进行语义分析,然后输出对应的答案。或者,分析结果应用装置还可基于该图模式和预定义规则库,生成多个关键问题,并给出相应的答案,最后输出一个数据报表。
其中,已有的知识图谱是指先验知识,其是指为用户查询中所包含的实体或返回的答案提供详细的结构化摘要,其主要包括概念、概念层次、属性、属性值类型、关系、关系定义域(Domain)概念集以及关系值域(Range)概念集。
该知识图谱可通过收集来自百科类站点和各种垂直站点的结构化数据来覆盖大部分常识性知识,其通过从各种半结构化数据(形如HTML表格)抽取相关实体的属性-值对来丰富实体的描述。此外,通过搜索日志(query log)发现新的实体或新的实体属性从而不断扩展知识图谱的覆盖率。相比常识性知识,通过数据挖掘抽取得到的知识数据更大,更能反映当前用户的查询需求并能及时发现最新的实体或事实。
在建立该知识图谱时,还可利用互联网的冗余性在后续的挖掘中通过投票或其他聚合算法来评估其置信度,并通过人工审核将置信度加入到该预设的知识图谱中。从各种类型的数据源抽取构建知识图谱所需的各种候选实体(概念)及其属性关联,形成了一个个孤立的抽取图谱(Extraction Graphs)。
为解决上述技术问题,本申请实施例主要提供以下技术方案:
本申请实施例主要基于数据源及预设的知识图谱,采用词频-逆向文件频率(英文全称:term frequency–inverse document frequency,英文简称:tf-idf)算法原理,分析字段语义及字段关联关系语义,然后通过深度优先搜索+剪枝优化,生成用于表示分析结果的最优图模式。相较于现有机制,能够明显提高效率和准确度。
其中,tf-idf算法用于评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度,即可作为文件与用户查询之间相关程度的度量或评级。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
需要说明的是,本申请中的数据分析装置可以是服务器或者终端设备,数据分析装置也可以是安装于服务器或者终端设备的应用,具体本申请不作限定。
请参照图4,以下对本申请实施例中提供的一种分析数据语义的方法进行举例说明,所述方法主要包括:
401、数据来源装置获取数据源,并发送至数据分析装置。
其中,所述数据源包括N个字段,每个字段对应至少一个字段数据,N为正整数。所述N个字段包括字段Ai和字段Aj,i、j∈[1,N],且i、j均为整数,Ai和字段Aj均表示该数据源中的任一字段。字段Ai和字段Aj可以表示不同或相同的字段。
字段表示字段数据的属性,这些字段数据的属性相同或相似。例如,数据源中包括的字段数据分别为:北京、南京、武汉、广州。虽然它们都是城市名,但北京的属性就是首都,南京、武汉和广州的属性则是省会。所以可以将南京、武汉和广州划分到一个字段,而将北京单独划分到一个字段。
402、数据分析装置获取预设的知识图谱和待处理的数据源。
其中,所述预设的知识图谱是指已有的知识图谱,也就是先验知识,其主要可包括图模式和图数据。其中,所述图模式记录实体类型和实体关联关系,所述图数据记录实体间的关联关系和实体。一种实施方式中,图模式可参考如图7所示的图模式结构示意图,图数据可参考如图7所示的图数据的结构示意图,本申请不限定图模式和图数据的表现形式,只要能直观的呈现出想要表达的语义即可。
本申请实施例中,所述数据源中的字段对应所述预设的知识图谱中的实体类型,所述字段数据可对应所述预设的知识图谱中的实体。
实体可以是任何名词,例如图7中的美国(US)、西雅图(Seatle)和公司M等。而实体类型是指实体的属性,例如图7中的国家(Country)则可代表中国、美国、日本及韩国等名词的所属类型,城市(City)则可代表北京、上海和深圳等名词的所属类型。
实体间的关联关系是指实体与实体之间所存在的关联关系。例如图7中的Seatle与US的关联关系为:Seatle为US的城市(即为City-of关系)。又例如,Seatle与公司M的关联关系为:公司M坐落于Seatle(即为Locate-in关系)。
实体关联关系是指实体类型与实体类型之间所存在的关联关系。例如图7中的City与Country的关联关系为:City为Country的城市(即为City-of关系)。又例如,Company与City的关联关系为:Company坐落于City(即为Locate-in关系)。
在本申请实施例中,可以认为实体关联关系与实体间的关联关系是一样的。可以用实体类型三元组定义实体关联关系:<实体类型,实体关联关系类型,实体类型>,以及用实体三元组来定义实体间的关联关系:<实体,实体关联关系,实体>。
403、所述数据分析装置根据所述知识图谱和所述数据源得到所述数据源中各字段对应的实体类型。
所述数据源中各字段对应的实体类型可根据所述数据源中的字段与所述预设的知识图谱中实体类型之间的映射得到。
以字段Ai为例,数据分析装置根据所述预设的知识图谱和所述数据源,对所述数据源中的字段Ai进行初始化,即可得到所述字段Ai的候选实体类型。字段Ai的候选实体类型可以为至少一个,即字段Ai的可能映射到预设的知识图谱的所有实体类型。例如,字段为苹果,那么基于预设的知识图谱,苹果可能映射到的实体类型有公司和水果。
404、所述数据分析装置根据所述数据源中各字段对应的实体类型、所述数据源和所述预设的知识图谱,生成字段关联关系。
所述字段关联关系根据所述数据源中字段间的关联关系和所述知识图谱中实体关联关系之间的映射得到。
以字段Ai、Aj为例,一个字段Ai和一个字段Aj组成一个字段对(Ai,Aj)。所述数据分析装置可根据所述知识图谱和所述数据源中各字段对应的实体类型,对字段对(Ai,Aj)进行初始化,得到字段对(Ai,Aj)的候选关联关系类型,再根据所述字段对(Ai,Aj)的候选关联关系类型生成所述字段关联关系。
可选的,在一些实施方式中,所述字段关联关系可以包括多个实体类型三元组,所述实体类型三元组包括实体类型关联关系、字段Ai对应的实体类型、字段Aj对应的实体类型,所述实体类型关联关系是指字段Ai对应的实体类型,与字段Aj对应的实体类型映射的关联关系类型。通过三元组的形式,能够直观的体现出各字段间的关联关系,便于定位参与目标图模式的生成。
405、所述数据分析装置根据所述数据源中的字段、所述数据源中各字段对应的实体类型和所述字段关联关系生成目标图模式。
所述目标图模式包括所述数据源中各字段对应的实体类型,以及各字段之间的关联关系。
406、所述数据分析装置根据所述目标图模式对获取到的搜索请求进行语义分析,确定并输出搜索答案。
可选的,在所述数据分析装置生成目标图模式之后,该数据分析装置还可以将该目标图模式发送给分析结果应用装置,以便分析结果应用装置在获取到用户输入的搜索请求之后,进行语义分析,并输出搜索答案。分析结果应用装置与数据分析装置可以相互独立设置,也可以集成于同一个设备,具体本申请不作限定。
例如,数据分析装置安装于服务器,由服务器进行大数据分析后得到目标图模式,然后接收终端设备上由用户输入的搜索请求,由服务器进行语义分析,然后向该终端设备返回搜索答案。或者,数据分析装置安装于服务器1,由服务器1进行大数据分析后得到目标图模式,然后将目标图模式发送给服务器2,服务器2接收终端设备上由用户输入的搜索请求,由服务器2对该搜索请求进行语义分析,然后向该终端设备返回搜索答案。或者,数据分析装置安装于终端设备,由终端设备进行大数据分析后得到目标图模式,然后接收该终端设备上由用户输入的搜索请求,对该搜索请求进行语义分析,然后在该终端设备的用户界面显示搜索答案。或者,数据分析装置安装于终端设备1,由终端设备1进行大数据分析后得到目标图模式,然后将目标图模式发送给终端设备2,终端设备2接收终端设备2上由用户输入的搜索请求,由终端设备2对该搜索请求进行语义分析,然后在该终端设备2的用户界面显示搜索答案。
相较于现有技术,本申请实施例所提供的方案中,数据分析装置在获取预设的知识图谱和数据源后,根据知识图谱和所述数据源得到所述数据源中各字段对应的实体类型,然后根据所述数据源中各字段对应的实体类型、所述数据源和所述知识图谱,生成字段关联关系,最后根据所述数据源中各字段对应的实体类型和所述字段关联关系,生成能够包括所述数据源中各字段对应的实体类型,各字段之间的关联关系的目标图模式。由于该目标图模式是基于字段、字段的实体类型和字段关联关系生成,所以输出的目标图模式的准确度较高,即使该数据源中的字段数据的字段名缺失或不准确,也能实现对数据语义的准确分析。若接收到搜索请求,则可直接基于得到的目标图模式进行语义分析,然后输出搜索答案。
可选的,在一些实施例中,由于数据源中所包括的字段数目较多,预设的知识图谱中所涵盖的结构范围广。一方面,当将数据源中的各字段映射到预设的知识图谱时,每个字段可能会映射出较多的候选实体类型。当数据分析装置基于这份数据源和匹配出的候选实体类型创建所述目标图模式时的运算工作较重,其中有些映射的关联性较弱的候选实体类型也会参与运算,相应的也会降低创建目标图模式的效率。另一方面,基于字段对应的实体类型、所述数据源和所述预设的知识图谱时,由于各字段映射的候选实体类型较多,相应的,根据字段间的关联关系和所述知识图谱中实体关联关系之间的映射得到字段关联关系时,同样会映射出较多的字段关联关系,其中,会包括部分重要性较低或者关联度较弱的字段关联关系,同样也会增加运算工作。基于此类情况,本申请实施例还提供下述手段:
1、对于通过映射获取字段对应的实体类型
所述数据分析装置可根据词频-权重算法,分别计算所述字段Ai为每个所述候选实体类型的置信度,得到字段Ai与候选实体类型映射的置信度。字段Aj为每个候选实体类型的置信度同理,不作赘述。
然后,按照置信度的降序对映射得到的各候选实体类型进行排序,最后可以得到字段映射,如下表所示:
Figure GDA0003064678830000111
2、对于通过映射获取字段关联关系
所述数据分析装置可根据所述词频-权重算法,计算字段对(Ai,Aj)为每个所述候选关联关系类型的置信度,得到字段对(Ai,Aj)与候选关联关系类型映射的置信度。然后,按照置信度的降序对映射得到的各候选关联关系类型进行排序,最后可以得到字段关联关系映射,如下表所示:
Figure GDA0003064678830000121
上表中的T1-Ti表示实体类型,R1-R4表示关联关系类型。
相应的,在一些实施方式中,由于引入了字段为每个候选实体类型的置信度,以及字段对(Ai,Aj)为每个候选关联关系类型的置信度,所以在所述数据分析装置生成目标图模式的过程中,会生成至少一个图模式。然后确定所述至少一个图模式中置信度最高的图模式为所述目标图模式。所述至少一个图模式的置信度可根据所述字段Ai与候选实体类型映射的置信度,以及所述字段对(Ai,Aj)与候选关联关系类型映射的置信度计算得到。
在一些实施方式中,所述目标图模式可包括字段Ai的实体类型、字段Aj的实体类型、字段Ai与字段Aj之间的字段关联关系类型、字段Ai与候选实体类型映射的置信度、字段Aj与候选实体类型映射的置信度、所述字段对(Ai,Aj)与候选关联关系类型映射的置信度。
例如,字段对(A1,A2)的关联关系类型为R1时,由该字段对(A1,A2)生成的图模式的置信度为:0.9+0.8+0.9=2.6。
为便于表述,将图模式简称为G,图模式G的置信度简称为S(G)。S(G)是指字段映射置信度与字段关联关系映射置信度之和,即实体类型三元组置信度之和。需要说明的是,字段映射置信度与字段关联关系映射置信度之和是针对所述数据源中所有字段及所有字段关联关系置信度。
如图5所示的一种图模式G,其置信度S(G)=0.8×4+0.9×3=5.9。
在一些实施方式中,所述数据分析装置可根据所述数据源中的字段、所述数据源中各字段对应的实体类型和所述字段关联关系,按照图模式的置信度上限值对图模式的生成进行剪枝,生成所述至少一个图模式。通过剪枝的方式,可以通过减少非重要字段参与图模式的生成。
上述目标图模式也可称为通过遍历找到的最优图模式Gr,也就是置信度最高的图模式,最优图模式Gr的置信度可用S(Gr)表示。生成最优图模式Gr的算法如下:
基于字段映射及字段关联关系映射,采用深度优先搜索的方式,依据图模式G的置信度S(G)上界进行剪枝。这样就无需生成所有可能的图模式,从而缩小搜索空间,加快生成最优图模式的速度,进而提高创建目标图模式的效率。
在已获取字段映射和字段关联关系映射的基础上,下面提供一种通过基于字段映射和字段关联关系映射,遍历数据源中的各字段,以生成最优图模式的方式,如图6所示,具体可包括以下步骤:
(1)、初始化图模式和目标图模式,从所述数据源中选择一个字段对(Ai,Aj)。
(2)、判断所述字段对(Ai,Aj)中是否存在未标记的实体类型三元组。
(3)、当确定所述字段对(Ai,Aj)中存在未标记的实体类型三元组时,则从所述字段对(Ai,Aj)中选择一个未标记且置信度最高的候选实体类型三元组并标记,生成关于所述字段对(Ai,Aj)的候选图模式;当确定所述候选实体类型三元组满足与所述候选图模式进行连接join操作的条件时,则计算所述候选图模式的置信度上限值;其中候选实体类型三元组的置信度根据字段与实体类型映射的置信度、实体间的关联关系得到。
(4)、当确定所述候选图模式的置信度上限值大于所述目标图模式的置信度,且确定所述数据源中还存在字段对(Ai+1,Aj+1)时,则执行判断所述字段对(Ai+1,Aj+1)中是否存在未标记的实体类型三元组的操作,所述字段对(Ai+1,Aj+1)为所述字段对(Ai,Aj)的下一个字段对。
需要说明的是,每轮遍历判断后都会得到一个S(Gr),即得到的S(Gr)可能是本轮选择的字段对所得到的最优图模式。若置信度上限值Max(G)小于S(Gr),则表示当前得到的G并不是最优图模式,则表示本轮判断流程选择的作为最优图模式的G无效,需要去除该字段对下的所有Tri,以便其它轮的遍历判断时使用。若不能回溯到上一个字段,则当前输出的最优图模式是本轮所比较的S(Gr)。
所以,根据步骤(4)可判断当前遍历所得到的S(Gr)是否需要更新,若不存在下一个字段对,则可直接将当前得到的G作为Gr输出。若还存在下一个字段对,则表示不需要更新Gr。本轮判断都是以上一轮判断得到的S(Gr)为基础进行比较。
(5)、若确定所述数据源中不存在字段对(Ai+1,Aj+1),则将所述候选图模式作为目标图模式,当确定满足回溯到字段对(Ai-1,Aj-1)的条件时,则执行判断所述字段对(Ai+1,Aj+1)中是否存在未标记的实体类型三元组的操作;当确定不满足回溯到字段对(Ai-1,Aj-1)的条件时,则将当前得到的所述候选图模式作为目标图模式输出。
(6)、当确定所述候选图模式的置信度上限值不大于所述目标图模式的置信度时,则去除所述字段对(Ai,Aj)中所有实体类型三元组的标记,当确定不满足回溯到字段对(Ai-1,Aj-1)的条件时,则将当前得到的所述候选图模式作为目标图模式输出;当确定满足回溯到字段对(Ai-1,Aj-1)的条件时,则执行判断所述字段对(Ai-1,Aj-1)中是否存在未标记的实体类型三元组的操作。
可选的,在一些发明实施例中,在得到所述目标图模式之后,还可以基于该目标图模式实现下述两种应用:
一、基于语义的搜索
数据分析装置为服务器,分析结果应用装置为搜索引擎,提供搜索应用。基于语义的搜索主要包含三个步骤:
(1)搜索问题输入;(2)问题答案生成;及(3)答案返回。
在本申请实施例中,所述服务器收到来自终端设备发送的搜索请求后,可根据所述目标图模式和所述搜索请求生成待解实体三元组,所述待解实体三元组包括第一实体、第一实体与待解实体的关联关系类型,所述待解实体为根据所述搜索请求待解的实体。
再根据所述目标图模式匹配出与所述待解实体三元组对应的实体类型三元组,匹配出的实体类型三元组包括所述第一实体与第二实体的实体关联关系类型、所述第一实体的实体类型以及所述第二实体的实体类型。
然后,将所述匹配出的实体类型三元组中的所述第二实体的实体类型确定为所述待解实体的实体类型。
最后,从所述第一实体的字段数据中,提取与所述第二实体的实体类型对应的字段数据作为所述待解实体,并输出所述第二实体。
可见,在收到搜索请求后,就可以直接基于创建好的目标图模式进行语义分析,能够快速的输出准确度较高的搜索答案,加快响应速度,减少用户的等待时长。
举例来说,如图13a所示,用户以自然语言的形式,对数据表的内容进行语义搜索,用户在终端设备上输入“P公司坐落在哪里?”,并将问题发送至搜索引擎。
搜索引擎基于上述目标图模式,分析该问题,并对问题进行作答。具体来说,搜索引擎基于图模式(字段语义及字段关联关系)生成该问题的实体三元组:
<P,Locate_in,?>,其中“?”即为用户需要的答案。
这里,该实体三元组<P,Locate_in,?>对应的实体类型三元组为<Company,Locate_in,City>,查询字段数据后,发现City属于表1中的A2字段。所以,提取P的数据A2字段,答案即为Cupertino,然后将答案输出至终端设备,如图13b所示,终端设备上显示“P公司坐落在Cupertino”。
二、基于语义的数据报表分析
基于语义的数据报表分析主要包含三个步骤:
(1)关键问题生成;(2)问题答案生成;及(3)数据报表生成并返回。
在本实施例中,所述数据分析装置根据所述数据源和预设问题规则库,生成多个搜索问题,然后根据所述目标图模式和所述数据源,确定所述多个搜索问题中各搜索问题的搜索答案,生成并输出与搜索问题对应的搜索答案。
这些搜索问题可以是关键问题,也就是大多数用户想要搜索的问题。搜索问题对应的搜索答案还可以以数据报表的形式输出,一方面中,输出的数据报表+目标图模式可以便于用户直观的分析大数据;另一方面中,输出了数据报表,还可以便于在后续收到用户的搜索请求后,可以不需要对每个搜索请求都进行语义分析,就可以直接基于该数据报表将答案输出,进一步加快响应速度,也能减少数据分析装置的运算负荷,尤其适用于大量用户搜索问题时的拥塞时段,一定程度上能够提高数据分析装置的性能。
例如,服务器获取如下表所示的一张数据表,下表中第1列的a表示公司P的产品a的产品名称,m表示公司M的产品m的产品名称,下表中第4列的P表示公司P的公司名称,M表示公司M的公司名称。然后基于下表可生成对应的目标图模式(如图14所示)。
A B C D
a 10M 2016 P
M 1M 2016 M
通过预定义的规则库生成多种问题,如“手机销量排行Top3的企业是哪些?”,然后,服务器基于上表所示的数据表及图14所示的目标图模式,对生成的多种问题进行解析,例如解析“手机销量排行Top3的企业是哪些?”,即可得到答案“P、M、S”。
依此类推,其他问题一一得到相应的答案,然后根据生成的各种问题和解析得到的答案生成数据报表(如图15所示),并返回该数据报表。
为便于理解,下面结合具体的实施例对本申请的大数据分析过程进行举例说明,主要包括步骤一至步骤五。
步骤一:数据来源装置获取数据源,并将数据源发送至数据分析装置。再由数据分析装置基于预设的知识图谱和该数据源创建目标图模式,并对所创建的目标图模式进行维护。本申请实施例中所创建的目标图模式可新建,也可根据新获取的数据源来更新已建好的目标图模式。
其中,数据源可以来源数据库、互联网、表格等,可以是帖子、新闻、文本、期刊等。举例来说,表1为一个来自互联网的数据源,其包含多个公司的基本信息,该数据源中的字段名缺失,表1中分别用A1、A2、A3和A4代替每列数据的属性。相较于现有机制中需要依赖字段名来判断每列数据代表的语义,本申请实施例中则无需知道字段名也能够进行数据分析。
A<sub>1</sub> A<sub>2</sub> A<sub>3</sub> A<sub>3</sub>
P Cupertino US Washington
M Seattle US Washington
表1
本申请实施例中预设的知识图谱:其与上述数据源对应(部分)知识图谱,图7为预设的知识图谱的一种结构示意图,其为先验知识。本申请不对预设的知识图谱的表现形式进行限定。本申请基于预设的知识图谱所创建的目标图模式或者本申请中其他实施例中所出现的图模式都可以参考如图7所示的结构示意图。
为便于表述,首先定义下述符号所代表的含义:
A:代表数据源中的字段,如“A1”;
N:代表数据源的总行数,设N=100;
t:代表数据源的某行数据,如第一行数据可用t 1表示;
t1=(P,Cupertino,US,Washington);
t(A):代表表2中行数据t中字段为A的数据,如“t1(A1)=P”;
T:代表实体类型,如“Country”;
R:代表实体间的关联关系类型,如“City_of”;
|T|:代表实体类型总数,设|T|=1000;
|R|:代表实体间关联关系类型总数,设|R|=1000;
G:代表图模式;
Tri:代表三元组,可以是字段关联关系映射中的实体类型三元组。
步骤二:数据分析装置基于数据源及预设的知识图谱,为数据源中的每个字段分别进行初始化,以得到字段映射。具体来说,数据分析装置可对表1中的各字段分别进行初始化,例如基于知识图谱对字段A1进行初始化,可得到字段A1所有可能映射的实体类型(例如表2中的Company和Fruit),字段A2-A4同理不作赘述,最终得到如表2所示的初始化阶段字段映射。
然后采用tf-idf算法,生成字段映射置信度,具体来说,获取某个字段A所有可能的实体类型Ti,然后将A与这些实体类型Ti进行tf-idf的计算,即计算tf-idf(A,Ti)的值,最后得到该字段A能够被映射到这些Ti的置信度。
1、初始化类型映射:
对数据源每个字段A(包括字段A1-A4),基于知识图谱,初始化A所有可能实体类型。例如表1中,A1所对应的字段数据包含P、M等,那么可以推测出A1可能的实体类型为Company、Fruit等,得到表2所示的字段映射。
Figure GDA0003064678830000161
表2
2、生成字段映射置信度:
基于tf-idf算法,计算字段A为实体类型T i的置信度,置信度越高,A越有可能是某个候选的实体类型T i,最终输出字段与候选的实体类型T i的映射置信度,最终得到的字段映射如表3所示。
一种实施方式中,字段映射置信度计算方式如下:
Figure GDA0003064678830000171
其中,tf(T,t(A))衡量当t(A)为实体类型T时,实体类型为T的实体A在知识图谱中出现的频次:
Figure GDA0003064678830000172
其中,idf(T,t(A))可衡量t(A)的重要性,可用权重值表示,其计算方式如下:
Figure GDA0003064678830000173
下面以示例1和示例2对字段A1与每个候选实体类型映射的置信度的计算过程进行说明:
示例1:字段A1的实体类型T=Company时,那么字段A1为Company的置信度为:
Figure GDA0003064678830000174
其中,P和M分别表示字段A1对应的字段数据。假设预设的知识图谱中包含1000家Company,|T|=1000种实体类型类别。字段数据P的实体类型T可能是Company或Fruit,而字段数据M的实体类型只可能是Company。下面计算字段A1的实体类型T为Company时的置信度:
(1)计算字段A1的字段数据为P时,P的实体类型T为Company时的置信度:
Figure GDA0003064678830000175
(2)计算字段A1的字段数据为M时,M的实体类型T为Company时的置信度:
Figure GDA0003064678830000176
依此类推,分别计算字段A1的字段数据为其他信息时,其实体类型T为Company时的置信度,最终取所有置信度的平均值,得到字段A1的实体类型T为Company时的置信度:
tfidf(Company,A1)=0.8。
示例2:字段A1的实体类型T=Fruit时,字段A1为Fruit的置信度为:
Figure GDA0003064678830000181
同样的,假设预设的知识图谱中包含100个Fruit,|T|=1000种实体类型类别。字段数据P的实体类型T可以是Company或Fruit,字段数据M的实体类型只能是Company。下面计算字段A1的实体类型T为Fruit时的置信度:
(1)计算字段A1的字段数据为P时,P的实体类型T为Fruit时的置信度:
Figure GDA0003064678830000182
(2)计算字段A1的字段数据为M时,M的实体类型T为Fruit时的置信度:
tf(Fruit,M)×idf(Fruit,M)=0×0=0
依此类推,最终计算出字段A1的实体类型T为Fruit时的置信度tfidf(Fruit,A1)=0.1。
依次类推,最终可以计算出字段A1为每个实体类型的置信度,字段A2-A4同理,不作赘述。然后,根据置信度的降序对实体类型进行排序,得到如表3所示的字段映射。
Figure GDA0003064678830000183
表3
步骤三:数据分析装置基于字段映射和预设的知识图谱,初始化所述字段映射,得到字段间关联关系,最终得到如表4所示的字段关联关系映射,并根据数据源(如表1)及预设的知识图谱,采用tf-idf算法,生成字段关联关系映射置信度。
1、初始化关联关系映射:
基于字段映射及预设的知识图谱,初始化各字段对(Ai,Aj)所有可能的关联关系R。如字段对(A1,A2)所有可能字段对,例如可以是字段对(City,Country),字段对(State,Country)等,相应的,字段对(A1,A2)可能的关联关系R可能是City_of、State_of等。
Figure GDA0003064678830000184
表4
2、生成字段关联关系映射置信度:
基于tf-idf算法,计算字段对(Ai,Aj)为某个关联关系类型R的置信度,置信度越高,字段对(Ai,Aj)的关联关系类型越有可能是R,最终输出字段关联关系映射置信度。
一种实施方式中,字段关联关系映射置信度计算方式如下:
Figure GDA0003064678830000191
其中,tf(R,t(Ai),t(Aj))衡量当(t(Ai),t(Aj))为关联关系类型R时,关联关系类型为R的实体三元组(即<实体,R,实体>)在知识图谱中出现的频次,计算公式如下。
Figure GDA0003064678830000192
idf(R,t(Ai),t(Aj))衡量(t(Ai),t(Aj))的重要性:
Figure GDA0003064678830000193
下面可使用下述公式计算字段对(A1,A2)的关联关系类型R=Locate_in时的置信度:
Figure GDA0003064678830000194
假设预设的知识图谱包含1000个含有Locate_in的实体三元组,|R|=1000种实体类型类别,字段对(P,Cupertino)的关联关系类型R可以是Locate_in或者Product_of,字段对(M,Cupertino)的关联关系类型R只可能是Locate_in。
(1)计算字段对(P,Cupertino)的关联关系类型R为Locate_in时的置信度:
Figure GDA0003064678830000195
(2)计算字段对(M,Seatle)的关联关系类型R为Locate_in时的置信度:
Figure GDA0003064678830000196
依此类推,最终得到字段对(A1,A2)的关联关系类型R为Locate_in时的置信度tfidf(Locate_in,A1,A2)=0.8。
依此类推,最终可以得到字段关联关系映射置信度,然后按照置信度的降序对实体类型三元组进行排序,得到如表5所示的字段关联关系映射。
Figure GDA0003064678830000201
表5
步骤四:数据分析装置基于字段映射及字段关联关系映射,生成最优图模式Gr,可以采用深度优先搜索+剪枝的方式生成Gr。
下面以具体的实例来解释上述流程:
一、对数据源进行初始化:
(1)、按照置信度的降序对字段映射中的实体类型进行排序,得到表6所示的字段映射。以及按照置信度的降序对字段关联关系映射中的实体类型三元组进行排序,得到表7所示的字段关联关系映射。
Figure GDA0003064678830000202
表6
Figure GDA0003064678830000203
表7
(2)、初始化图模式G及最优图模式Gr为空,即S(Gr)=0。
二、从表7所示的字段关联关系映射中选择一个字段对(A2,A3)作为遍历的起始点。按照图5所示的判断流程进行遍历,直至回溯至作为遍历的起始点的字段对(A2,A3)。整个遍历过程可包括下述步骤(1)-(3):
(1)遍历字段对(A2,A3)
步骤A1、判断字段对(A2,A3)是否存在没有标记过的实体类型三元组Tri。
步骤A2、若存在,则从表7的字段对(A2,A3)中选择置信度最高且未标记的实体类型三元组Tri=(City,City_of,Country),可生成图模式G=G.Join(Tri),本轮遍历所得到的图模式G如图8所示。并标记Tri=(City,City_of,Country),被标记的Tri如表8中的字段关联关系映射中第一行第一列的阴影部分)。
Figure GDA0003064678830000211
表8
步骤A3、计算当前图模式G的置信度上界Max(G)=5.9。
其中,Max(G)是指当前图模式G的置信度S(G)=2.6(即0.8+0.9+0.9)与未标记的实体类型三元组最大置信度之和,即Max(G)=S(G)+0.8×3+0.9=5.9。
步骤A4、判断Max(G)是否大于S(Gr),此时,经过判断,Max(G)>S(Gr)=0,因此继续判断是否还存在下一个字段对(A1,A2)。
若存在字段对(A1,A2),则进入字段对(A1,A2)的判断:
(2)遍历字段对(A1,A2)
步骤B1、判断(A1,A2)是否存在没有标记过的实体类型三元组Tri。
步骤B2、若存在,则从表7中选择置信度最高且未标记的实体类型三元组Tri=(Company,Locate_in,City),可生成图模式G=G.Join(Tri),本轮遍历所得到的图模式G如图9所示。并标记Tri=(Company,Locate_in,City),被标记的Tri如表9中的字段关联关系映射中第一行第二列的阴影部分。
Figure GDA0003064678830000221
表9
步骤B3、计算当前图模式G的置信度上界Max(G)=5.9。
Max(G)是指当前图模式置信度S(G)=4.2(0.8*3+0.9*2)与未标记的实体类型三元组最大置信度之和,S(G)+0.8+0.9=5.9。图模式G中不存在A4,所以未标记的只算capitalof(0.9)和capital(0.8)。
步骤B4、同样,判断是否Max(G)<S(Gr),此时可判断:Max(G)>S(Gr)=0,因此继续判断是否存在下一个字段对(A3,A4)。
若存在,则进入字段对(A3,A4)的判断流程。
(3)遍历字段对(A3,A4)
步骤C1、判断(A3,A4)是否存在没有标记过的实体类型三元组Tri。
步骤C2、若存在,则从表9中选择置信度最高且未标记的实体类型三元组Tri=(Capital,Capital_of,Country),可生成图模式G=G.Join(Tri),本轮遍历所得到的图模式G如图10所示。并标记Tri=(Capital,Capital_of,Country),被标记的Tri如表9中的字段关联关系映射中第一行第三列的阴影部分。
Figure GDA0003064678830000222
表10
步骤C3、计算当前图模式G的置信度上界Max(G)=5.9(当前图模式置信度S(G)=5.9,且无未标记实体类型三元组)。
若Max(G)>S(Gr)=0,且确定无下一个字段对时,表示Gr即为当前遍历找到的最优图模式,则可设置当前最优图模式Gr=G。
步骤C4、若Max(G)<S(Gr),则剪枝,去除表10中的(A3,A4)下所有Tri的标记(如表11),并回溯到当前字段对(A3,A4)的上一个字段对(A1,A2)。
步骤C5、由表10可知,(A1,A2)的第一行Tri已被标记,则只剩下第二行Tri的Tri=(Fruit,Produce_in,State)未被标记。
则从表11中选择置信度最高且未标记的实体类型三元组Tri=(Fruit,Produce_in,State),因为表9上的当前的图模式G=(City,City_of,Country)与(A1,A2)的Tri=(Fruit,Produce_in,State)无法进行Join操作,所以无法生成图模式G=G.Join(Tri)。
Figure GDA0003064678830000231
表11
步骤C6、又因为当前的字段对(A1,A2)没有下一个字段对,因此去除表11中(A1,A2)下所有Tri的标记(如表12所示),回溯到字段对(A1,A2)的上一个字段对(A2,A3)。需要说明的是,对于某个字段对而言,只要某一次被遍历判断时,该字段对下的某个实体类型三元组Tri不能与当前的得到图模式G进行join操作,则需要去除该字段对下所有的Tri的目的是:便于以其它字段对为起始遍历点时进行遍历。
步骤C7、则从表12中选择置信度最高且未标记的实体类型三元组Tri=(State,State_of,Country),通过判断,可确定当前的三元组Tri=(State,State_of,Country)可以与当前G进行Join操作,所以本轮遍历中可生成图模式G=G.Join(Tri),本轮遍历生成的图模式G如图11所示。并标记Tri=(State,State_of,Country),被标记的Tri如表12中第二行第一列的阴影部分。
Figure GDA0003064678830000232
表12
步骤C8、计算当前图模式G的置信度上界Max(G)=5.2。
Max(G)是指当前图模式置信度S(G)=1.9与未标记的实体类型三元组最大置信度之和,即Max(G)=S(G)+0.9+0.8×3=5.2。
因本轮遍历所得到的最优图模式Gr是目前找到的最优图模式,即本申请实施例中在遍历字段对(A2,A3)时找到的最优图模式Gr,因此其置信度为5.9,Max(G)<S(Gr)=5.9,所以剪枝,去除(A2,A3)下所有Tri的标记。
因表12中无未标记实体类型三元组,结束搜索,输出最优图模式Gr。最后要回到遍历的起始点,也就是遍历结束,输出的Gr是整个遍历过程中置信度最高的一个G(如表10所示的图模式G)。
步骤五、数据分析装置将最优图模式Gr发送至分析结果应用装置,实现各类分析应用,即基于语义的搜索和基于语义的数据报表分析。
上述图3-图15中任一所对应的实施例中的字段、字段数据、字段间关联关系、实体、实体类型、实体间关联关系、实体间关联关系类型、字段对、字段映射、字段关联关系映射、知识图谱、图模式、图数据、实体类型三元组、实体三元组、最优图模式、各类置信度的定义等特征均适用于如图16-图19所对应的实施例,后续不作赘述。
以上对本申请中一种分析数据语义的方法进行说明,以下对执行上述分析数据语义的装置进行描述。该装置能够执行上述图3-图15中任一所对应的实施例中由数据分析装置执行的操作。该装置可以是服务器或者终端设备,也可以是安装于服务器或者终端设备的应用。并且,该装置还可以与如图3中所示的数据来源装置、分析结果应用装置相互独立部署或集成部署,具体本申请不作限定。
如图16所示,所述数据分析装置160包括:
收发模块1601,用于获取预设的知识图谱和待处理的数据源,所述数据源包括N个字段,每个字段对应至少一个字段数据,N为正整数,所述预设的知识图谱包括图模式和图数据,所述图模式记录实体类型和实体关联关系,所述图数据记录实体间的关联关系和实体,所述字段对应所述预设的知识图谱中的实体类型,所述字段数据对应所述预设的知识图谱中的实体。
处理模块1602,用于根据所述收发模块1601获取的所述预设的知识图谱和所述数据源得到所述数据源中各字段对应的实体类型,所述数据源中各字段对应的实体类型根据所述数据源中的字段与所述预设的知识图谱中实体类型之间的映射得到。
根据所述数据源中各字段对应的实体类型、所述数据源和所述预设的知识图谱,生成字段关联关系,所述字段关联关系根据所述数据源中字段间的关联关系和所述知识图谱中实体关联关系之间的映射得到。
根据所述数据源中的字段、所述数据源中各字段对应的实体类型和所述字段关联关系生成目标图模式,所述目标图模式包括所述数据源中各字段对应的实体类型,以及各字段之间的关联关系。
根据所述目标图模式对获取到的搜索请求进行语义分析,确定并输出搜索答案。
可选的,在所述处理模块1602生成目标图模式之后,还可以通过所述收发模块1601将该目标图模式发送给分析结果应用装置,以便分析结果应用装置在获取到用户输入的搜索请求之后,进行语义分析,并输出搜索答案。分析结果应用装置与数据分析装置160可以相互独立设置,也可以集成于同一个设备,具体本申请不作限定。
相较于现有技术,本申请实施例所提供的方案中,在收发模块1601获取预设的知识图谱和数据源后,处理模块1602可根据知识图谱和所述数据源得到所述数据源中各字段对应的实体类型,然后根据所述数据源中各字段对应的实体类型、所述数据源和所述知识图谱,生成字段关联关系,最后根据所述数据源中各字段对应的实体类型和所述字段关联关系,生成能够包括所述数据源中各字段对应的实体类型,各字段之间的关联关系的目标图模式。由于该目标图模式是基于字段、字段的实体类型和字段关联关系生成,所以输出的目标图模式的准确度较高,即使该数据源中的字段数据的字段名缺失或不准确,也能实现对数据语义的准确分析。若接收到搜索请求,则可直接基于得到的目标图模式进行语义分析,然后输出搜索答案。
可选的,在一些发明实施例中,由于数据源中所包括的字段数目较多,预设的知识图谱中所涵盖的结构范围广。一方面,当将数据源中的各字段映射到预设的知识图谱时,每个字段可能会映射出较多的候选实体类型。当数据分析装置基于这份数据源和匹配出的候选实体类型创建所述目标图模式时的运算工作较重,其中有些映射的关联性较弱的候选实体类型也会参与运算,相应的也会降低创建目标图模式的效率。另一方面,基于字段对应的实体类型、所述数据源和所述预设的知识图谱时,由于各字段映射的候选实体类型较多,相应的,根据字段间的关联关系和所述知识图谱中实体关联关系之间的映射得到字段关联关系时,同样会映射出较多的字段关联关系,其中,会包括部分重要性较低或者关联度较弱的字段关联关系,同样也会增加运算工作。基于此类情况,本申请实施例还提供下述手段:
1、对于通过映射获取字段对应的实体类型
所述处理模块1602可根据所述预设的知识图谱和所述数据源,对所述数据源中的字段Ai进行初始化,得到所述字段Ai的候选实体类型。
然后,所述处理模块1602根据词频-权重算法,分别计算所述字段Ai为每个所述候选实体类型的置信度,得到字段Ai与候选实体类型映射的置信度。
并按照置信度的降序对映射得到的各候选实体类型进行排序,最后可以得到字段映射。
2、对于通过映射获取字段关联关系
所述处理模块1602根据所述知识图谱和所述数据源中各字段对应的实体类型,对字段对(Ai,Aj)进行初始化,得到字段对(Ai,Aj)的候选关联关系类型,根据所述字段对(Ai,Aj)的候选关联关系类型生成所述字段关联关系。
所述处理模块1602再根据所述词频-权重算法,计算字段对(Ai,Aj)为每个所述候选关联关系类型的置信度,得到字段对(Ai,Aj)与候选关联关系类型映射的置信度。
然后,所述处理模块1602按照置信度的降序对映射得到的各候选关联关系类型进行排序,最后可以得到字段关联关系映射。
可选的,在一些发明实施例中,所述处理模块1602具体用于:
根据所述数据源中的字段、所述数据源中各字段对应的实体类型和所述字段关联关系,生成至少一个图模式;确定所述至少一个图模式中置信度最高的图模式为所述目标图模式,所述至少一个图模式的置信度根据所述字段Ai与候选实体类型映射的置信度,以及所述字段对(Ai,Aj)与候选关联关系类型映射的置信度计算得到。
可选的,在一些发明实施例中,所述目标图模式具体包括字段Ai的实体类型、字段Aj的实体类型、字段Ai与字段Aj之间的字段关联关系类型、字段Ai与候选实体类型映射的置信度、字段Aj与候选实体类型映射的置信度、所述字段对(Ai,Aj)与候选关联关系类型映射的置信度。
可选的,在一些发明实施例中,所述处理模块1602具体用于:
根据所述数据源中的字段、所述数据源中各字段对应的实体类型和所述字段关联关系,按照图模式的置信度上限值对图模式的生成进行剪枝,生成所述至少一个图模式。通过剪枝的方式,可以通过减少非重要字段参与图模式的生成。上述目标图模式也可称为通过遍历找到的最优图模式,也就是置信度最高的图模式。生成最优图模式的算法如下:
基于字段映射及字段关联关系映射,采用深度优先搜索的方式,依据图模式的置信度上界进行剪枝。这样就无需生成所有可能的图模式,从而缩小搜索空间,加快生成最优图模式的速度,进而提高创建目标图模式的效率。
可选的,在一些发明实施例中,所述字段关联关系包括多个实体类型三元组,所述实体类型三元组包括实体类型关联关系、字段Ai对应的实体类型、字段Aj对应的实体类型,所述实体类型关联关系是指字段Ai对应的实体类型,与字段Aj对应的实体类型映射的关联关系类型。
可选的,在一些发明实施例中,在已获取字段映射和字段关联关系映射的基础上,处理模块1602还可以通过基于字段映射和字段关联关系映射,遍历数据源中的各字段,以生成最优图模式。根据如图6所示的流程,所述处理模块1602具体用于执行以下操作:
(1)、初始化图模式和目标图模式,从所述数据源中选择一个字段对(Ai,Aj)。
(2)、判断所述字段对(Ai,Aj)中是否存在未标记的实体类型三元组。
(3)、当确定所述字段对(Ai,Aj)中存在未标记的实体类型三元组时,则从所述字段对(Ai,Aj)中选择一个未标记且置信度最高的候选实体类型三元组并标记,生成关于所述字段对(Ai,Aj)的候选图模式,当确定所述候选实体类型三元组满足与所述候选图模式进行连接join操作的条件时,则计算所述候选图模式的置信度上限值;其中候选实体类型三元组的置信度根据字段与实体类型映射的置信度、实体间的关联关系得到。
(4)、当确定所述候选图模式的置信度上限值大于所述目标图模式的置信度,且确定所述数据源中还存在字段对(Ai+1,Aj+1)时,则执行判断所述字段对(Ai+1,Aj+1)中是否存在未标记的实体类型三元组的操作,所述字段对(Ai+1,Aj+1)为所述字段对(Ai,Aj)的下一个字段对。需要说明的是,每轮遍历判断后都会得到一个最优图模式的置信度,即得到的最优图模式可能是本轮选择的字段对所得到的最优图模式。若置信度上限值小于本轮遍历得到的最优图模式的置信度,则表示当前得到的图模式并不是最优图模式,则表示本轮判断流程选择的作为最优图模式的候选图模式无效,需要去除该字段对下的所有Tri,以便其它轮的遍历判断时使用。若不能回溯到上一个字段,则当前输出的最优图模式是本轮所比较的最优图模式。所以,根据步骤(4)可判断当前遍历所得到的最优图模式置信度是否需要更新,若不存在下一个字段对,则可直接将当前得到的候选图模式作为最优图模式输出。若还存在下一个字段对,则表示不需要更新最优图模式。本轮判断都是以上一轮判断得到的最优图模式置信度为基础进行比较。
(5)、若确定所述数据源中不存在字段对(Ai+1,Aj+1),则将所述候选图模式作为目标图模式,当确定满足回溯到字段对(Ai-1,Aj-1)的条件时,则执行判断所述字段对(Ai+1,Aj+1)中是否存在未标记的实体类型三元组的操作;当确定不满足回溯到字段对(Ai-1,Aj-1)的条件时,则将当前得到的所述候选图模式作为目标图模式输出。
(6)、当确定所述候选图模式的置信度上限值不大于所述目标图模式的置信度时,则去除所述字段对(Ai,Aj)中所有实体类型三元组的标记,当确定不满足回溯到字段对(Ai-1,Aj-1)的条件时,则将当前得到的所述候选图模式作为目标图模式输出;当确定满足回溯到字段对(Ai-1,Aj-1)的条件时,则执行判断所述字段对(Ai-1,Aj-1)中是否存在未标记的实体类型三元组的操作。
可选的,在一些发明实施例中,处理模块1602在得到所述目标图模式之后,还可以基于该目标图模式实现下述两种应用:
一、基于语义的搜索
数据分析装置为服务器,分析结果应用装置为搜索引擎,提供搜索应用。基于语义的搜索主要包含三个步骤:
(1)搜索问题输入;(2)问题答案生成;及(3)答案返回。
在收发模块1601收到来自终端设备发送的搜索请求后,所述处理模块1602可根据所述目标图模式和所述搜索请求生成待解实体三元组,所述待解实体三元组包括第一实体、第一实体与待解实体的关联关系类型,所述待解实体为根据所述搜索请求待解的实体。
并根据所述目标图模式匹配出与所述待解实体三元组对应的实体类型三元组,匹配出的实体类型三元组包括所述第一实体与第二实体的实体关联关系类型、所述第一实体的实体类型以及所述第二实体的实体类型。
然后将所述匹配出的实体类型三元组中的所述第二实体的实体类型确定为所述待解实体的实体类型。
再从所述第一实体的字段数据中,提取与所述第二实体的实体类型对应的字段数据作为所述待解实体,并输出所述第二实体。可见,在收到搜索请求后,就可以直接基于创建好的目标图模式进行语义分析,能够快速的输出准确度较高的搜索答案,加快响应速度,减少用户的等待时长。
二、基于语义的数据报表分析
基于语义的数据报表分析主要包含三个步骤:
(1)关键问题生成;(2)问题答案生成;及(3)数据报表生成并返回。
所述处理模块1602可根据所述数据源和预设问题规则库,生成多个搜索问题。然后根据所述目标图模式和所述数据源,确定所述多个搜索问题中各搜索问题的搜索答案,生成并输出与搜索问题对应的搜索答案。
由上述两种应用可知,这些搜索问题可以是关键问题,也就是大多数用户想要搜索的问题。搜索问题对应的搜索答案还可以以数据报表的形式输出,一方面中,输出的数据报表+目标图模式可以便于用户直观的分析大数据;另一方面中,输出了数据报表,还可以便于在后续收到用户的搜索请求后,可以不需要对每个搜索请求都进行语义分析,就可以直接基于该数据报表将答案输出,进一步加快响应速度,也能减少数据分析装置的运算负荷,尤其适用于大量用户搜索问题时的拥塞时段,一定程度上能够提高数据分析装置的性能。
上面从模块化功能实体的角度对本申请实施例中的数据分析装置进行了描述,下面从硬件处理的角度分别对本申请实施例中的数据分析装置进行描述。需要说明的是,在本申请如图16所示的实施例中所有的接收模块对应的实体设备可以为接收器,所有的发送模块对应的实体设备可以为发射器,处理模块对应的实体设备可以为处理器。图16所示的各装置均可以具有如图17所示的结构,当一种装置具有如图17所示的结构时,图17中的处理器和收发器实现前述对应该装置的装置实施例提供的处理模块和收发模块相同或相似的功能,图17中的存储器存储处理器执行上述分析数据语义的方法时需要调用的程序代码。
在本申请图16所示的实施例中的收发模块对应的实体设备还可以为输入/输出单元,处理模块对应的实体设备可以为处理器。当数据分析装置为服务器时,图16所示的装置可以具有如图18所示的结构,当图16所示的装置具有如图18所示的结构时,图18中的处理器和收发器能够实现前述对应该装置的装置实施例提供的处理模块和收发模块相同或相似的功能,图18中的中央存储器存储处理器执行上述分析数据语义的方法时需要调用的程序代码。在本申请图16所示的实施例中的收发模块所对应的实体设备可以为输入输出接口,处理模块对应的实体设备可以为处理器。
当数据分析装置为终端设备时,图16所示的装置还可以具有如图19所示的结构,当图16所示的装置具有如图19所示的结构时,图19中的处理器和RF电路能够实现前述对应该装置的装置实施例提供的处理模块和收发模块相同或相似的功能,图19中的存储器存储处理器执行上述分析数据语义方法时需要调用的程序代码。
以下分别进行说明:
图18是本申请实施例提供的一种服务器结构示意图,该服务器1800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(英文全称:centralprocessing units,英文简称:CPU)1822(例如,一个或一个以上处理器)和存储器1832,一个或一个以上存储应用程序1842或数据1844的存储介质1830(例如一个或一个以上海量存储设备)。其中,存储器1832和存储介质1830可以是短暂存储或持久存储。存储在存储介质1830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1822可以设置为与存储介质1830通信,在服务器1800上执行存储介质1830中的一系列指令操作。
服务器1800还可以包括一个或一个以上电源1826,一个或一个以上有线或无线网络接口1850,一个或一个以上输入输出接口1858,和/或,一个或一个以上操作系统1841,例如Windows Server,Mac OS X,Unix,Linux,FreeBSD等等。
上述实施例中由数据分析装置所执行的步骤可以基于该图18所示的服务器结构。
本申请实施例还提供了另一种终端设备,如图19所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(英文全称:Personal Digital Assistant,英文简称:PDA)、销售终端(英文全称:Point of Sales,英文简称:POS)、车载电脑等任意终端设备,以终端为手机为例:
图19示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图19,手机包括:射频(英文全称:Radio Frequency,英文简称:RF)电路1919、存储器1920、输入单元1930、显示单元1940、传感器1950、音频电路1960、无线保真(英文全称:wireless fidelity,英文简称:WiFi)模块1970、处理器1980、以及电源1990等部件。本领域技术人员可以理解,图19中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图19对手机的各个构成部件进行具体的介绍:
RF电路1919可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1980处理;另外,将设计上行的数据发送给基站。通常,RF电路1919包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(英文全称:LowNoise Amplifier,英文简称:LNA)、双工器等。此外,RF电路1919还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(英文全称:Global System of Mobile communication,英文简称:GSM)、通用分组无线服务(英文全称:General Packet Radio Service,英文简称:GPRS)、码分多址(英文全称:Code Division Multiple Access,英文简称:CDMA)、宽带码分多址(英文全称:Wideband Code Division Multiple Access,英文简称:WCDMA)、长期演进(英文全称:LongTerm Evolution,英文简称:LTE)、电子邮件、短消息服务(英文全称:Short MessagingService,英文简称:SMS)等。
存储器1920可用于存储软件程序以及模块,处理器1980通过运行存储在存储器1920的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1920可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1920可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1930可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1930可包括触控面板1931以及其他输入设备1932。触控面板1931,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1931上或在触控面板1931附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1931可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1980,并能接收处理器1980发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1931。除了触控面板1931,输入单元1930还可以包括其他输入设备1932。具体地,其他输入设备1932可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1940可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1940可包括显示面板1941,可选的,可以采用液晶显示器(英文全称:Liquid Crystal Display,英文简称:LCD)、有机发光二极管(英文全称:Organic Light-Emitting Diode,英文简称:OLED)等形式来配置显示面板1941。进一步的,触控面板1931可覆盖显示面板1941,当触控面板1931检测到在其上或附近的触摸操作后,传送给处理器1980以确定触摸事件的类型,随后处理器1980根据触摸事件的类型在显示面板1941上提供相应的视觉输出。虽然在图19中,触控面板1931与显示面板1941是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1931与显示面板1941集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1950,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1941的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1941和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1960、扬声器1961,传声器1962可提供用户与手机之间的音频接口。音频电路1960可将接收到的音频数据转换后的电信号,传输到扬声器1961,由扬声器1961转换为声音信号输出;另一方面,传声器1962将收集的声音信号转换为电信号,由音频电路1960接收后转换为音频数据,再将音频数据输出处理器1980处理后,经RF电路1919以发送给比如另一手机,或者将音频数据输出至存储器1920以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1970可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图19示出了WiFi模块1970,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变申请的本质的范围内而省略。
处理器1980是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1920内的软件程序和/或模块,以及调用存储在存储器1920内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1980可包括一个或多个处理单元;优选的,处理器1980可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1980中。
手机还包括给各个部件供电的电源1990(比如电池),优选的,电源可以通过电源管理系统与处理器1980逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该手机所包括的处理器1980还具有控制执行以上由数据分析装置执行的方法流程。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
以上对本申请所提供的技术方案进行了详细介绍,本申请中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (22)

1.一种分析数据语义的方法,其特征在于,所述方法包括:
数据分析装置获取预设的知识图谱和待处理的数据源,所述数据源包括N个字段,每个字段对应至少一个字段数据,N为正整数,所述预设的知识图谱包括图模式和图数据,所述图模式记录实体类型和实体关联关系,所述图数据记录实体间的关联关系和实体,所述字段对应所述预设的知识图谱中的实体类型,所述字段数据对应所述预设的知识图谱中的实体;
所述数据分析装置根据所述预设的知识图谱和所述数据源得到所述数据源中各字段对应的实体类型,所述数据源中各字段对应的实体类型根据所述数据源中的字段与所述预设的知识图谱中实体类型之间的映射得到;
所述数据分析装置根据所述数据源中各字段对应的实体类型、所述数据源和所述预设的知识图谱,生成字段关联关系,所述字段关联关系根据所述数据源中字段间的关联关系和所述知识图谱中实体关联关系之间的映射得到;
所述数据分析装置根据所述数据源中的字段、所述数据源中各字段对应的实体类型和所述字段关联关系生成目标图模式,所述目标图模式包括所述数据源中各字段对应的实体类型,以及各字段之间的关联关系;
所述数据分析装置根据所述目标图模式对获取到的搜索请求进行语义分析,确定并输出搜索答案。
2.根据权利要求1所述的方法,其特征在于,所述N个字段包括字段Ai,i∈[1,N]且i为整数;所述数据分析装置根据所述知识图谱和所述数据源得到所述数据源中各字段对应的实体类型,包括:
所述数据分析装置根据所述预设的知识图谱和所述数据源,对所述数据源中的字段Ai进行初始化,得到所述字段Ai的候选实体类型;
所述方法还包括:
所述数据分析装置根据词频-权重算法,分别计算所述字段Ai为每个所述候选实体类型的置信度,得到字段Ai与候选实体类型映射的置信度。
3.根据权利要求2所述的方法,其特征在于,所述N个字段还包括字段Aj,j∈[1,N]且j为整数,一个字段Ai和一个字段Aj组成一个字段对(Ai,Aj);所述数据分析装置根据所述数据源中各字段对应的实体类型、所述数据源和所述预设的知识图谱,生成字段关联关系,包括:
所述数据分析装置根据所述知识图谱和所述数据源中各字段对应的实体类型,对字段对(Ai,Aj)进行初始化,得到字段对(Ai,Aj)的候选关联关系类型,根据所述字段对(Ai,Aj)的候选关联关系类型生成所述字段关联关系;
所述方法还包括:
所述数据分析装置根据所述词频-权重算法,计算字段对(Ai,Aj)为每个所述候选关联关系类型的置信度,得到字段对(Ai,Aj)与候选关联关系类型映射的置信度。
4.根据权利要求3所述的方法,其特征在于,所述数据分析装置根据所述数据源中的字段、所述数据源中各字段对应的实体类型和所述字段关联关系,生成目标图模式,包括:
所述数据分析装置根据所述数据源中的字段、所述数据源中各字段对应的实体类型和所述字段关联关系,生成至少一个图模式;确定所述至少一个图模式中置信度最高的图模式为所述目标图模式,所述至少一个图模式的置信度根据所述字段Ai与候选实体类型映射的置信度,以及所述字段对(Ai,Aj)与候选关联关系类型映射的置信度计算得到。
5.根据权利要求4所述的方法,其特征在于,所述目标图模式具体包括字段Ai的实体类型、字段Aj的实体类型、字段Ai与字段Aj之间的字段关联关系类型、字段Ai与候选实体类型映射的置信度、字段Aj与候选实体类型映射的置信度、所述字段对(Ai,Aj)与候选关联关系类型映射的置信度。
6.根据权利要求4或5所述的方法,其特征在于,所述根据所述数据源中的字段、所述数据源中各字段对应的实体类型和所述字段关联关系,生成至少一个图模式,包括:
所述数据分析装置根据所述数据源中的字段、所述数据源中各字段对应的实体类型和所述字段关联关系,按照图模式的置信度上限值对图模式的生成进行剪枝,生成所述至少一个图模式。
7.根据权利要求6所述的方法,其特征在于,所述字段关联关系包括多个实体类型三元组,所述实体类型三元组包括实体类型关联关系、字段Ai对应的实体类型、字段Aj对应的实体类型,所述实体类型关联关系是指字段Ai对应的实体类型,与字段Aj对应的实体类型映射的关联关系类型。
8.根据权利要求7所述的方法,其特征在于,所述数据分析装置根据所述数据源中的字段、所述数据源中各字段对应的实体类型和所述字段关联关系,按照图模式的置信度上限值对图模式的生成进行剪枝,生成所述至少一个图模式,确定所述至少一个图模式中置信度最高的图模式为所述目标图模式,包括:
初始化图模式和目标图模式,从所述数据源中选择一个字段对(Ai,Aj);
判断所述字段对(Ai,Aj)中是否存在未标记的实体类型三元组;
当确定所述字段对(Ai,Aj)中存在未标记的实体类型三元组时,则从所述字段对(Ai,Aj)中选择一个未标记且置信度最高的候选实体类型三元组并标记,生成关于所述字段对(Ai,Aj)的候选图模式,当确定所述候选实体类型三元组满足与所述候选图模式进行连接join操作的条件时,则计算所述候选图模式的置信度上限值;其中候选实体类型三元组的置信度根据字段与实体类型映射的置信度、实体间的关联关系得到;
当确定所述候选图模式的置信度上限值大于所述目标图模式的置信度,且确定所述数据源中还存在字段对(Ai+1,Aj+1)时,则执行判断所述字段对(Ai+1,Aj+1)中是否存在未标记的实体类型三元组的操作,所述字段对(Ai+1,Aj+1)为所述字段对(Ai,Aj)的下一个字段对;
若确定所述数据源中不存在字段对(Ai+1,Aj+1),则将所述候选图模式作为目标图模式,当确定满足回溯到字段对(Ai-1,Aj-1)的条件时,则执行判断所述字段对(Ai+1,Aj+1)中是否存在未标记的实体类型三元组的操作;当确定不满足回溯到字段对(Ai-1,Aj-1)的条件时,则将当前得到的所述候选图模式作为目标图模式输出;
当确定所述候选图模式的置信度上限值不大于所述目标图模式的置信度时,则去除所述字段对(Ai,Aj)中所有实体类型三元组的标记,当确定不满足回溯到字段对(Ai-1,Aj-1)的条件时,则将当前得到的所述候选图模式作为目标图模式输出;当确定满足回溯到字段对(Ai-1,Aj-1)的条件时,则执行判断所述字段对(Ai-1,Aj-1)中是否存在未标记的实体类型三元组的操作。
9.根据权利要求1-5、7、8任一所述的方法,其特征在于,所述数据分析装置根据所述目标图模式对获取到的搜索请求进行语义分析,确定并输出搜索答案,包括:
所述数据分析装置根据所述目标图模式和所述搜索请求生成待解实体三元组,所述待解实体三元组包括第一实体、第一实体与待解实体的关联关系类型,所述待解实体为根据所述搜索请求待解的实体;
根据所述目标图模式匹配出与所述待解实体三元组对应的实体类型三元组,匹配出的实体类型三元组包括所述第一实体与第二实体的实体关联关系类型、所述第一实体的实体类型以及所述第二实体的实体类型;
将所述匹配出的实体类型三元组中的所述第二实体的实体类型确定为所述待解实体的实体类型;
从所述第一实体的字段数据中,提取与所述第二实体的实体类型对应的字段数据作为所述待解实体,并输出所述第二实体。
10.根据权利要求7或8所述的方法,其特征在于,所述数据分析装置根据所述目标图模式对获取到的搜索请求进行语义分析,确定并输出搜索答案,还包括:
根据所述数据源和预设问题规则库,生成多个搜索问题;
根据所述目标图模式和所述数据源,确定所述多个搜索问题中各搜索问题的搜索答案,生成并输出与搜索问题对应的搜索答案。
11.一种数据分析装置,其特征在于,所述装置包括:
收发模块,用于获取预设的知识图谱和待处理的数据源,所述数据源包括N个字段,每个字段对应至少一个字段数据,N为正整数,所述预设的知识图谱包括图模式和图数据,所述图模式记录实体类型和实体关联关系,所述图数据记录实体间的关联关系和实体,所述字段对应所述预设的知识图谱中的实体类型,所述字段数据对应所述预设的知识图谱中的实体;
处理模块,用于根据所述收发模块获取的所述预设的知识图谱和所述数据源得到所述数据源中各字段对应的实体类型,所述数据源中各字段对应的实体类型根据所述数据源中的字段与所述预设的知识图谱中实体类型之间的映射得到;
根据所述数据源中各字段对应的实体类型、所述数据源和所述预设的知识图谱,生成字段关联关系,所述字段关联关系根据所述数据源中字段间的关联关系和所述知识图谱中实体关联关系之间的映射得到;
根据所述数据源中的字段、所述数据源中各字段对应的实体类型和所述字段关联关系生成目标图模式,所述目标图模式包括所述数据源中各字段对应的实体类型,以及各字段之间的关联关系;
根据所述目标图模式对获取到的搜索请求进行语义分析,确定并输出搜索答案。
12.根据权利要求11所述的装置,其特征在于,所述N个字段包括字段Ai,i∈[1,N]且i为整数;所述处理模块具体用于:
根据所述预设的知识图谱和所述数据源,对所述数据源中的字段Ai进行初始化,得到所述字段Ai的候选实体类型;
所述处理模块还用于:
根据词频-权重算法,分别计算所述字段Ai为每个所述候选实体类型的置信度,得到字段Ai与候选实体类型映射的置信度。
13.根据权利要求12所述的装置,其特征在于,所述N个字段还包括字段Aj,j∈[1,N]且j为整数,一个字段Ai和一个字段Aj组成一个字段对(Ai,Aj);所述处理模块具体用于:
根据所述知识图谱和所述数据源中各字段对应的实体类型,对字段对(Ai,Aj)进行初始化,得到字段对(Ai,Aj)的候选关联关系类型,根据所述字段对(Ai,Aj)的候选关联关系类型生成所述字段关联关系;
所述处理模块还用于:
根据所述词频-权重算法,计算字段对(Ai,Aj)为每个所述候选关联关系类型的置信度,得到字段对(Ai,Aj)与候选关联关系类型映射的置信度。
14.根据权利要求13所述的装置,其特征在于,所述处理模块具体用于:
根据所述数据源中的字段、所述数据源中各字段对应的实体类型和所述字段关联关系,生成至少一个图模式;确定所述至少一个图模式中置信度最高的图模式为所述目标图模式,所述至少一个图模式的置信度根据所述字段Ai与候选实体类型映射的置信度,以及所述字段对(Ai,Aj)与候选关联关系类型映射的置信度计算得到。
15.根据权利要求14所述的装置,其特征在于,所述目标图模式具体包括字段Ai的实体类型、字段Aj的实体类型、字段Ai与字段Aj之间的字段关联关系类型、字段Ai与候选实体类型映射的置信度、字段Aj与候选实体类型映射的置信度、所述字段对(Ai,Aj)与候选关联关系类型映射的置信度。
16.根据权利要求14或15所述的装置,其特征在于,所述处理模块具体用于:
根据所述数据源中的字段、所述数据源中各字段对应的实体类型和所述字段关联关系,按照图模式的置信度上限值对图模式的生成进行剪枝,生成所述至少一个图模式。
17.根据权利要求16所述的装置,其特征在于,所述字段关联关系包括多个实体类型三元组,所述实体类型三元组包括实体类型关联关系、字段Ai对应的实体类型、字段Aj对应的实体类型,所述实体类型关联关系是指字段Ai对应的实体类型,与字段Aj对应的实体类型映射的关联关系类型。
18.根据权利要求17所述的装置,其特征在于,所述处理模块具体用于:
初始化图模式和目标图模式,从所述数据源中选择一个字段对(Ai,Aj);
判断所述字段对(Ai,Aj)中是否存在未标记的实体类型三元组;
当确定所述字段对(Ai,Aj)中存在未标记的实体类型三元组时,则从所述字段对(Ai,Aj)中选择一个未标记且置信度最高的候选实体类型三元组并标记,生成关于所述字段对(Ai,Aj)的候选图模式,当确定所述候选实体类型三元组满足与所述候选图模式进行连接join操作的条件时,则计算所述候选图模式的置信度上限值;其中候选实体类型三元组的置信度根据字段与实体类型映射的置信度、实体间的关联关系得到;
当确定所述候选图模式的置信度上限值大于所述目标图模式的置信度,且确定所述数据源中还存在字段对(Ai+1,Aj+1)时,则执行判断所述字段对(Ai+1,Aj+1)中是否存在未标记的实体类型三元组的操作,所述字段对(Ai+1,Aj+1)为所述字段对(Ai,Aj)的下一个字段对;
若确定所述数据源中不存在字段对(Ai+1,Aj+1),则将所述候选图模式作为目标图模式,当确定满足回溯到字段对(Ai-1,Aj-1)的条件时,则执行判断所述字段对(Ai+1,Aj+1)中是否存在未标记的实体类型三元组的操作;当确定不满足回溯到字段对(Ai-1,Aj-1)的条件时,则将当前得到的所述候选图模式作为目标图模式输出;
当确定所述候选图模式的置信度上限值不大于所述目标图模式的置信度时,则去除所述字段对(Ai,Aj)中所有实体类型三元组的标记,当确定不满足回溯到字段对(Ai-1,Aj-1)的条件时,则将当前得到的所述候选图模式作为目标图模式输出;当确定满足回溯到字段对(Ai-1,Aj-1)的条件时,则执行判断所述字段对(Ai-1,Aj-1)中是否存在未标记的实体类型三元组的操作。
19.根据权利要求11-15、17、18任一所述的装置,其特征在于,所述处理模块具体用于:
根据所述目标图模式和所述搜索请求生成待解实体三元组,所述待解实体三元组包括第一实体、第一实体与待解实体的关联关系类型,所述待解实体为根据所述搜索请求待解的实体;
根据所述目标图模式匹配出与所述待解实体三元组对应的实体类型三元组,匹配出的实体类型三元组包括所述第一实体与第二实体的实体关联关系类型、所述第一实体的实体类型以及所述第二实体的实体类型;
将所述匹配出的实体类型三元组中的所述第二实体的实体类型确定为所述待解实体的实体类型;
从所述第一实体的字段数据中,提取与所述第二实体的实体类型对应的字段数据作为所述待解实体,并输出所述第二实体。
20.根据权利要求17或18所述的装置,其特征在于,所述处理模块具体还用于:
根据所述数据源和预设问题规则库,生成多个搜索问题;
根据所述目标图模式和所述数据源,确定所述多个搜索问题中各搜索问题的搜索答案,生成并输出与搜索问题对应的搜索答案。
21.一种数据分析装置,其特征在于,所述装置包括:
至少一个处理器、存储器、接收器和发射器;
其中,所述存储器用于存储程序代码,所述处理器用于调用所述存储器中存储的程序代码来执行如权利要求1-10任一项所述的方法。
22.一种计算机存储介质,其特征在于,其包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-10任一所述的方法。
CN201710612651.XA 2017-07-25 2017-07-25 一种分析数据语义的方法及装置 Active CN110019825B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710612651.XA CN110019825B (zh) 2017-07-25 2017-07-25 一种分析数据语义的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710612651.XA CN110019825B (zh) 2017-07-25 2017-07-25 一种分析数据语义的方法及装置

Publications (2)

Publication Number Publication Date
CN110019825A CN110019825A (zh) 2019-07-16
CN110019825B true CN110019825B (zh) 2021-08-20

Family

ID=67185844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710612651.XA Active CN110019825B (zh) 2017-07-25 2017-07-25 一种分析数据语义的方法及装置

Country Status (1)

Country Link
CN (1) CN110019825B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889286B (zh) * 2019-10-12 2022-04-12 平安科技(深圳)有限公司 基于数据表的依赖关系识别方法、装置和计算机设备
EP4191437A4 (en) * 2020-08-31 2024-04-24 Siemens Ltd China KNOWLEDGE GRAPHS BASED DATA FUSION METHOD AND APPARATUS AND ELECTRONIC DEVICE
CN112363996B (zh) * 2020-10-30 2023-10-24 国家电网有限公司大数据中心 用于建立电网知识图谱的物理模型的方法及系统和介质
CN113342992B (zh) * 2021-06-16 2022-11-08 中国科学院空天信息创新研究院 基于剪枝技术与自动图扩展的知识图谱关联图布局方法
CN113407281B (zh) * 2021-06-23 2022-11-11 重庆卡歌科技有限公司 一种基于数据应用的陆海新通道业务动态可视化立体展示方法
CN113434701A (zh) * 2021-07-16 2021-09-24 山东大学 一种车联网知识图谱的构建、更新方法及系统
CN114168608B (zh) * 2021-12-16 2022-07-15 中科雨辰科技有限公司 一种用于更新知识图谱的数据处理系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468605A (zh) * 2014-08-25 2016-04-06 济南中林信息科技有限公司 一种实体信息图谱生成方法及装置
CN106095932A (zh) * 2016-06-13 2016-11-09 竹间智能科技(上海)有限公司 百科知识问句识别方法及装置
CN106776564A (zh) * 2016-12-21 2017-05-31 张永成 一种基于知识图谱的语义识别方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995847B (zh) * 2014-05-06 2017-08-18 百度在线网络技术(北京)有限公司 信息搜索方法及其装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468605A (zh) * 2014-08-25 2016-04-06 济南中林信息科技有限公司 一种实体信息图谱生成方法及装置
CN106095932A (zh) * 2016-06-13 2016-11-09 竹间智能科技(上海)有限公司 百科知识问句识别方法及装置
CN106776564A (zh) * 2016-12-21 2017-05-31 张永成 一种基于知识图谱的语义识别方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
专家知识图谱构建研究;周湘超等;《电脑知识与技术》;20160511;第12卷(第07期);第195-196页 *
基于知识图谱的军事信息搜索技术架构;蒋锴等;《指挥信息系统与技术》;20160307;第7卷(第01期);第47-52页 *
智慧搜索中的实体与关联关系建模与挖掘;王晓阳等;《通信学报》;20151225;第36卷(第12期);第17-27页 *

Also Published As

Publication number Publication date
CN110019825A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
CN110019825B (zh) 一种分析数据语义的方法及装置
CN111310034B (zh) 一种资源推荐方法及相关设备
CN106294308B (zh) 命名实体识别方法及装置
CN109947858B (zh) 一种数据处理的方法及装置
CN109033156B (zh) 一种信息处理方法、装置及终端
CN104182488A (zh) 搜索方法、服务器及客户端
CN108427761B (zh) 一种新闻事件处理的方法、终端、服务器及存储介质
CN111125523B (zh) 搜索方法、装置、终端设备及存储介质
CN107885718B (zh) 语义确定方法及装置
CN110276010A (zh) 一种权重模型训练方法和相关装置
CN115022098B (zh) 人工智能安全靶场内容推荐方法、装置及存储介质
CN110196833B (zh) 应用程序的搜索方法、装置、终端及存储介质
CN113392150A (zh) 一种基于业务域的数据表展示方法、装置、设备及介质
CN104281610B (zh) 过滤微博的方法和装置
CN110597957B (zh) 一种文本信息检索的方法及相关装置
CN113537685A (zh) 一种数据处理方法和装置
CN109871524B (zh) 一种图表生成方法及装置
CN111090877A (zh) 数据生成、获取方法及对应的装置、存储介质
CN106372090A (zh) 一种查询聚类方法及装置
WO2021073434A1 (zh) 对象行为的识别方法、装置及终端设备
CN110287398B (zh) 一种信息更新的方法以及相关装置
CN111553163A (zh) 文本相关度的确定方法、装置、存储介质及电子设备
CN108270660A (zh) 消息的快捷回复方法及装置
CN116307394A (zh) 产品用户体验评分方法、装置、介质及设备
CN115617899A (zh) 一种数据可视化处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant