CN110275966B - 一种知识抽取方法及装置 - Google Patents

一种知识抽取方法及装置 Download PDF

Info

Publication number
CN110275966B
CN110275966B CN201910585762.5A CN201910585762A CN110275966B CN 110275966 B CN110275966 B CN 110275966B CN 201910585762 A CN201910585762 A CN 201910585762A CN 110275966 B CN110275966 B CN 110275966B
Authority
CN
China
Prior art keywords
target
entity
entity name
name
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910585762.5A
Other languages
English (en)
Other versions
CN110275966A (zh
Inventor
李直旭
宋晓兆
陈志刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iflytek Suzhou Technology Co Ltd
Original Assignee
Iflytek Suzhou Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iflytek Suzhou Technology Co Ltd filed Critical Iflytek Suzhou Technology Co Ltd
Priority to CN201910585762.5A priority Critical patent/CN110275966B/zh
Publication of CN110275966A publication Critical patent/CN110275966A/zh
Application granted granted Critical
Publication of CN110275966B publication Critical patent/CN110275966B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种知识抽取方法及装置,在获取第一表格集合后,对该第一表格集合进行类型识别,得到至少一种目标表格类型下的半结构化的各个表格,作为各个第一目标表格,并基于该各个第一目标表格的表格布局特征,从各个第一目标表格中抽取能够用于补全目标知识图谱的知识信息,以便利用知识信息自动补全目标知识图谱,如此实现知识图谱的自动补全。其中,由于自动补全过程中无需人工参与,因而,降低人工成本开销,减少人力资源的浪费。另外,由于表格布局特征能够影响知识信息的抽取效果,因而,当基于各个半结构化的第一目标表格的表格布局特征对各个第一目标表格中知识信息进行抽取时,能够较快地抽取到知识信息,提高了知识信息的抽取效果。

Description

一种知识抽取方法及装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种知识抽取方法及装置。
背景技术
目前,由于知识的不断更新,需要在原有知识图谱的基础上,利用新知识对原有知识图谱进行知识补全。
一种补全方法是采用众包的方法抽取三元组以补全知识图谱,但这种方式会浪费大量的人力,人工成本开销较大;另一种补全方法是智能的从非结构化文本中抽取三元组以补全知识图谱,但处理非结构化文本的难度大、精度低,使得三元组抽取结果不够理想,知识抽取效果较差。
发明内容
本申请实施例的主要目的在于提供一种知识抽取方法及装置,能够提升知识抽取效果。
本申请实施例提供了一种知识抽取方法,包括:
获取第一表格集合,所述第一表格集合中的每一表格为带有知识的表格;
对所述第一表格集合中的表格进行类型识别,得到至少一种目标表格类型下的半结构化的各个表格,作为各个第一目标表格;
基于所述各个第一目标表格的表格布局特征,从所述各个第一目标表格中抽取知识信息,所述知识信息用于补全目标知识图谱。
本申请实施例还提供了一种知识抽取装置,包括:
获取单元,用于获取第一表格集合,所述第一表格集合中的每一表格为带有知识的表格;
识别单元,用于对所述第一表格集合中的表格进行类型识别,得到至少一种目标表格类型下的半结构化的各个表格,作为各个第一目标表格;
抽取单元,用于基于所述各个第一目标表格的表格布局特征,从所述各个第一目标表格中抽取知识信息,所述知识信息用于补全目标知识图谱。
本申请实施例还提供了一种知识抽取设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述提供的知识抽取方法的任一实施方式。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利上述提供的知识抽取方法的任一实施方式。
本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述提供的知识抽取方法的任一实施方式。
基于上述技术方案,本申请具有以下有益效果:
本申请提供的知识抽取方法及装置,在获取第一表格集合后,对该第一表格集合进行类型识别,得到至少一种目标表格类型下的半结构化的各个表格,作为各个第一目标表格,并基于该各个第一目标表格的表格布局特征,从该各个第一目标表格中抽取能够用于补全目标知识图谱的知识信息,以便利用该知识信息自动补全目标知识图谱,如此实现了知识图谱的自动补全。其中,由于该自动补全过程中无需人工参与,因而,降低了人工成本开销,减少了人力资源的浪费。另外,由于各个第一目标表格均是半结构化的表格,而且,各个第一目标表格的表格布局特征能够影响该第一目标表格中知识信息的抽取效果,因而,当基于各个第一目标表格的表格布局特征对各个第一目标表格中知识信息进行抽取时,能够较快地抽取到准确地知识信息,从而提高了知识信息的抽取效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请方法实施例提供的知识抽取方法的流程图;
图2为本申请实施例第一类型的示意图;
图3为本申请实施例第二类型的示意图;
图4为本申请实施例枚举型表格的示意图;
图5为本申请实施例目标知识图谱的示意图;
图6为本申请实施例第三目标表格的示意图;
图7为本申请实施例提供的知识图谱补全系统的示意图;
图8为本申请实施例提供的知识抽取方法的组成示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
方法实施例一
参见图1,该图为本申请方法实施例提供的知识抽取方法的流程图。
本申请实施例提供的知识抽取方法,包括步骤S1-S3:
S1:获取第一表格集合,该第一表格集合中的每一表格为带有知识的表格。
其中,带有知识的表格是指能够为目标知识图谱提供有用信息的表格,例如,带有知识的表格可以为图2至图4所示的表格。反之,非带有知识的表格是指无法为目标知识图谱提供任何有用信息的表格,例如,非带有知识的表格可以是用于页面布局或用于导航的表格等。
本申请不限定第一表格集合的来源,例如,第一表格集合可以来源于互联网。为了便于解释和理解步骤S1,下面将以从互联网中获取第一表格集合为例进行说明,作为一种实施方式,当第一表格集合来源于互联网时,则S1具体可以包括步骤S11-S12:
S11:利用预设表格获取算法,从各个目标网页上获取表格,构成原始表格集合。
在S11中,本申请不限定预设表格获取算法,例如,该预设表格获取算法可以是网络爬虫算法;目标网页可以预先设定,例如,目标网页可以预先设定为互联网中的任一百科网页;原始表格集合中包括至少一个表格,其可以包括带知识的表格和/或非带知识的表格。
为了便于解释和理解,下面将结合示例进行说明。
作为示例,S11具体可以为:利用网络爬虫算法,从互联网中的各个百科网页上进行表格爬取,以便将爬取的各个表格进行集合,得到原始表格集合。
在该示例中,由于百科网页中的表格具有规范的格式(例如,互联网中的带<table>标签的表格),因而,为了能够提高百科网页中表格的爬取效率,S11具体可以为:根据百科网页中的各个表格所具有的格式规范,利用网络爬虫算法,从互联网中的各个百科网页上进行表格爬取,以便将爬取获得的各个表格进行集合,得到原始表格集合。
S12:利用预设表格过滤算法,过滤原始表格集合中的各个非带有知识的表格,得到第一表格集合,使第一表格集合中的每一表格均为带有知识的表格。
作为示例,预设表格过滤算法可以是梯度提升树(Gradient Boosting DecisonTree,GBDT)算法,而且GBDT算法可以对原始表格集合进行二分类,从而分类得到各个带有知识的表格,进而使这些表格形成第一表格集合。
另外,GBDT训练时的特征集合包括全局布局特征、布局特征和内容特征,其中,全局布局特征包括表格每行最大的列数、每列最大的行数、以及每个单元格字符串的最大长度;布局特征包括含有单元格的列的比例、含有单元格的行的比例、单元格字符串平均长度、以及单元格字符串长度变化率;内容特征包括含有<th>标签的比例、含有href连接源头文字的比例、粗体字的比例、以冒号结尾的字符串的比例、单元格内容是数字的比例、以及单元格内容含数字的比例。
以上为S1的具体实施方式。
S2:对第一表格集合中的表格进行类型识别,得到至少一种目标表格类型下的半结构化的各个表格,作为各个第一目标表格。
第一表格集合中可以包括不同类型的表格,例如,第一表格集合中可以包括第一类型、第二类型、枚举型、以及其他类型中的至少一种类型的表格。
下面介绍各个类型表格的特点。
1、第一类型的表格可以包括至少一个属性名以及每一属性名对应的属性值和/或至少一个关系名以及每一关系名对应的尾实体名。具体地,第一类型的表格布局特征可以为:第一类型的表格包括两列,且第一列包括属性名和/或关系名,第二列包括第一列中的属性名下的属性值、以及第一列中的关系名下的尾实体名。需要说明的是,第一类型的表格中可以包括或不包括头实体名。
为了便于解释和理解第一类型的表格,下面结合图2进行说明。
作为示例,图2所示的第一类型的表格为11行2列的表格,其中,第一列为属性名、第二列为属性值,且每一行的属性名均与该行的属性值相对应(例如,属性名“界”与属性值“动物界”相对应)。
2、第二类型的表格包括至少一个头实体名以及每一个头实体名对应的至少一个属性值和/或至少一个尾实体名。具体地,第二类型的表格布局特征可以为:第二类型的表格可以包括至少两行,其中,第一行包括其他行中各个头实体名的上位概念以及该上位概念对应的各个属性名和各个关系名,除第一行以外的其他任一行包括一个头实体名、该头实体名对应的第一行中各个属性名下的属性值、以及该头实体名对应的第一行中各个关系名下的尾实体名。
为了便于解释和理解第二类型,下面结合图3进行说明。
作为示例,图3所示的第二类型的表格为16行3列的表格。其中,在第一行中,“行政区”为“合肥”、“芜湖”……“亳州”这些头实体名的上位概念,第1行中的“车牌”为属性名,第1行中的“下辖行政区”为关系名;在第2行中,包括头实体名“合肥”以及“合肥”在属性名“车牌”下对应的属性值“皖A”和在关系名“下辖行政区”下对应的各个尾实体名“瑶海区、庐阳区、蜀山区、包河区、肥东县、肥西县、长丰县、庐江县、巢湖市”;……。
3、枚举型的表格包括至少一个实体名。另外,枚举型的表格布局特征可以为:枚举型的表格中包括至少一个单元格,且每一单元格均记录一个实体名;而且,枚举型的表格中的所有实体名均对应同一个实体上位概念,该实体上位概念可以记录或不记录在表格中。
为了便于解释和理解枚举型表格,下面结合图4进行说明。
作为示例,图4所示的枚举型的表格包括10个单元格,且每个单元格为一个实体名(例如,黄山);而且,这10个实体名均对应的实体上位概念为“安徽省10大名山”。
另外,在S2中,至少一种目标表格类型可以预先设定,尤其可以根据应用场景设定。作为示例,至少一种目标表格类型可以包括上述第一类型、第二类型、枚举型中的至少一种类型。
基于上述介绍的第一类型、第二类型和枚举型的表格的相关内容,本申请还提供了步骤S2中执行动作“对第一表格集合中的表格进行类型识别”的多种实施方式,且这些实施方式将在方法实施例二中进行介绍。
以上为步骤S2的具体实施方式。
S3:基于各个第一目标表格的表格布局特征,从各个第一目标表格中抽取知识信息,该知识信息用于补全目标知识图谱。
表格布局特征是指第一目标表格自身所具有的行列布局特征,例如,当第一目标表格为第一类型、第二类型或枚举型的表格时,相应的表格布局特征请参见S2中的相关介绍。
可以基于各个第一目标表格的表格布局特征,将表格中的实体与目标知识图谱进行对齐,从而基于对齐结果,从各个第一目标表格中抽取三元组信息,用于丰富目标知识图谱。
本申请提供了S3的多种实施方式,且这些实施方式将在方法实施例三中进行介绍。
以上为方法实施例一提供的知识抽取方法的具体实施方式,在该实施方式中,在获取第一表格集合后,对该第一表格集合进行类型识别,得到至少一种目标表格类型下的半结构化的各个表格,作为各个第一目标表格,并基于该各个第一目标表格的表格布局特征,从该各个第一目标表格中抽取能够用于补全目标知识图谱的知识信息,以便利用该知识信息自动补全目标知识图谱,如此实现了知识图谱的自动补全。其中,由于该自动补全过程中无需人工参与,因而,降低了人工成本开销,减少了人力资源的浪费。另外,由于各个第一目标表格均是半结构化的表格,而且,各个第一目标表格的表格布局特征能够影响该第一目标表格中知识信息的抽取效果,因而,当基于各个第一目标表格的表格布局特征对各个第一目标表格中知识信息进行抽取时,能够较快地抽取到准确地知识信息,从而提高了知识信息的抽取效果。
方法实施例二
需要说明的是,方法实施例二将主要介绍方法实施例一的步骤S2中的执行动作“对第一表格集合中的表格进行类型识别”(下面简称为类型识别过程)的具体实施方式。
在本申请中,类型识别过程的具体实施方式与“至少一种目标表格类型”相关联,而且,不同的目标表格类型可以对应于不同的类型识别过程的实施方式。为了便于解释和理解,下面将以类型识别过程的四个实施方式为例进行说明。
作为第一种实施方式,第一类型的表格的识别过程具体可以为:根据表格第一列中属于第一目标集合的属性名和关系名数量,识别第一表格集合中的第一类型的表格。其中,第一目标集合包括目标知识图谱中的各个属性名和各个关系名。
需要说明的是,在该实施方式中,针对第一表格集合中的各个表格均可以采用相同的识别过程进行识别。为了便于解释和理解该实施方式(下面简称为第一类型识别过程),下面结合两个示例进行说明。需要说明的是,本实施方式将第一表格集合中的每一正在被识别的表格称为第i个表格,并且,由于属性名和关系名通常位于第一类型的表格的第一列,所以,本实施方式以表格第一列为识别对象。
作为第一示例,第一类型识别过程具体可以为:判断第i个表格的第一列中属于第一目标集合的属性名和关系名的数量是否达到第一数量阈值,若是,则确定第i个表格为第一类型的表格;若否,则确定第i个表格不是第一类型的表格。其中,第一数量阈值可以预先设定。
作为第二示例,第一类型识别过程具体可以为:首先,确定第i个表格第一列中属于第一目标集合的属性名和关系名的总数量n、以及第i个表格第一列中的属性名和关系名的总数量N;然后,判断n/N是否达到第一比例阈值,若是,则确定第i个表格为第一类型的表格,若否,则确定第i个表格不是第一类型的表格。其中,第一比例阈值可以预先设定。
需要说明的是,上述两个示例均是以第i个表格的第一类型识别过程为例进行说明的。然而,在本申请中,第一表格集合可以包括至少一个表格,且每一表格的第一类型识别过程均可以利用上述两个示例提供的任一识别过程进行实施,为了简要起见,在此不再赘述。
另外,为了提高第一类型识别过程的识别准确率,还可以利用已识别出的第一类型的表格更新第一目标集合,以便根据更新后的第一目标集合再次进行第一类型的表格识别。因而,本申请还提供了第一类型识别过程的另一种实施方式,在该实施方式中,第一类型识别过程具体可以包括步骤S2A1-S2A3:
S2A1:对于第一表格集合中未被识别为目标表格类型的每一表格,根据该表格第一列中属于第一目标集合的属性名和关系名的数量,确定该表格是否为第一类型的表格,并在确定该表格为第一类型的表格后,将该表格中不属于第一目标集合的属性名和关系名添加到第一目标集合中。
其中,第一表格集合中未被识别为目标表格类型的每一表格可以是原始的第一表格集合中的各个表格,也可以是进行了至少一轮类别识别过程后的第一表格集合中未被识别为目标表格类型的每一表格。
步骤S2A1提供了“一轮第一类型识别过程”,所谓“一轮第一类型识别过程”是指将第一表格集合中未被识别为目标表格类型的每一表格均识别一次的过程。为了便于解释和理解“一轮第一类型识别过程”,下面结合示例进行说明。
作为示例,假设第一表格集合中包括3个未被识别为目标表格类型的表格,且该3个表格分别为第1个表格至第3个表格,则第一类型识别过程具体可以包括步骤S2A11-S2A13:
S2A11:根据第1个表格第一列中属于第一目标集合的属性名和关系名的数量,确定该表格是否为第一类型的表格;若是,则将第1个表格中不属于第一目标集合的属性名和关系名添加到第一目标集合中;若否,则确定第1个表格是未被识别为目标表格类型的表格。
S2A12:根据第2个表格第一列中属于第一目标集合的属性名和关系名的数量,确定该表格是否为第一类型的表格;若是,则将第2个表格中不属于第一目标集合的属性名和关系名添加到第一目标集合中;若否,则确定第2个表格是未被识别为目标表格类型的表格。
S2A13:根据第3个表格第一列中属于第一目标集合的属性名和关系名的数量,确定该表格是否为第一类型的表格,若是,则将第3个表格中不属于第一目标集合的属性名和关系名添加到第一目标集合中;若否,则确定第3个表格是未被识别为目标表格类型的表格。
需要说明的是,根据属性名和关系名的数量识别第一类型的表格,可以采用上述两个示例之一介绍的第一类型识别过程。
还需要说明的是,上述示例是以识别3个未识别表格为例对“一轮第一类型识别过程”进行说明的。然而,在本申请中,“一轮第一类型识别过程”中所需识别的所有表格,是指在本轮识别之前第一表格集合中所包括的未被识别为目标表格类型的各个表格。
以上为S2A1的相关内容。
S2A2:判断是否满足第一迭代条件,若是,则返回执行步骤S2A1;若否,则执行步骤S2A3。
下面结合示例对第一迭代条件进行说明。
在本轮识别过程(即步骤S2A1)中,若第一目标集合没有发生更新,则表示本轮识别过程之前已经将所有能被识别为第一类型的表格识别出来了,此时可以通过执行步骤S2A3来结束第一类型识别过程;反之,在本轮识别过程(即步骤S2A1)中,若第一目标集合发生了更新,则表示本轮识别过程可能没有将能够被识别的所有第一类型的表格识别出来,此时需要再次执行步骤S2A1,不断迭代识别直至执行步骤S2A3为止。可以理解的是,每一轮识别过程中需要被识别的表格数量,会少于其上一轮识别过程中需要被识别的表格数量。
基于此可知,第一迭代条件可以是:在本轮识别过程中,第一目标集合发生更新,也就是,在本轮识别过程中第一目标集合中加入了新属性名和/或新关系名。
以上为步骤S2A2的具体实施方式。
S2A3:结束第一类型识别过程。
以上为类型识别过程的第一种实施方式(也就是,第一类型识别过程)的相关内容。
作为第二种实施方式,第二类型的表格的识别过程具体可以为:根据表格第一行中属于第一目标集合的属性名和关系名的数量,识别第一表格集合中的第二类型的表格。其中,第一目标集合包括目标知识图谱中的各个属性名和各个关系名。
需要说明的是,在该实施方式中,针对第一表格集合中的各个表格均可以采用相同的识别过程进行识别。为了便于解释和理解类型识别过程的第二种实施方式(下面简称为第二类型识别过程),下面结合两个示例进行说明。需要说明的是,本实施方式将第一表格集合中的每一正在被识别的表格称为第j个表格,并且,由于属性名和关系名通常位于第二类型的表格的第一行,所以,本实施方式以表格第一行为识别对象。
作为第一示例,第二类型识别过程具体可以为:判断第j个表格的第一行中属于第一目标集合的属性名和关系名的数量是否达到第二数量阈值,若是,则确定第j个表格为第二类型的表格;若否,则确定第j个表格不是第二类型的表格。其中,第二数量阈值可以预先设定。
作为第二示例,第二类型识别过程具体可以为:首先,确定第j个表格第一行中属于第一目标集合的属性名和关系名的总数量m、以及第j个表格第一行中的属性名和关系名的总数量M;然后,判断m/M是否达到第二比例阈值,若是,则确定第j个表格为第二类型的表格,若否,则确定第j个表格不是第二类型的表格。其中,第二比例阈值可以预先设定。
需要说明的是,上述两个示例均是以第j个表格的第二类型识别过程为例进行说明的。然而,在本申请中,第一表格集合可以包括至少一个表格,且每一表格的第二类型识别过程均可以利用上述两个示例提供的任一识别过程进行实施,为了简要起见,在此不再赘述。
另外,为了提高第二类型识别过程的识别准确率,还可以利用已识别出的第二类型的表格更新第一目标集合,以便根据更新后的第一目标集合再次进行第二类型的表格识别。因而,本申请还提供了第二类型识别过程的另一种实施方式,在该实施方式中,第二类型识别过程具体可以包括步骤S2B1-S2B3:
S2B1:对于第一表格集合中未被识别为目标表格类型的每一表格,根据该表格第一行中属于第一目标集合的属性名和关系名的数量,确定该表格是否为第二类型的表格,并在确定该表格为第二类型的表格后,将该表格中不属于第一目标集合的属性名和关系名添加到第一目标集合中。
其中,第一表格集合中未被识别为目标表格类型的每一表格可以是原始的第一表格集合中的各个表格,也可以是进行了至少一轮类别识别过程后的第一表格集合中未被识别为目标表格类型的每一表格。
步骤S2B1提供了“一轮第二类型识别过程”,所谓“一轮第二类型识别过程”是指将第一表格集合中未被识别为目标表格类型的每一表格均识别一次的过程。为了便于解释和理解“一轮第二类型识别过程”,下面结合示例进行说明。
作为示例,假设第一表格集合中包括3个未被识别为目标表格类型的表格,且该3个表格分别为第1个表格至第3个表格,则第二类型识别过程具体可以包括步骤S2B11-S2B13:
S2B11:根据第1个表格第一行中属于第一目标集合的属性名和关系名的数量,确定该表格是否为第二类型的表格,若是,则将第1个表格中不属于第一目标集合的属性名和关系名添加到第一目标集合中;若否,则确定第1个表格是未被识别为目标表格类型的表格。
S2B12:根据第2个表格第一行中属于第一目标集合的属性名和关系名的数量,确定该表格是否为第二类型的表格,若是,则将第2个表格中不属于第一目标集合的属性名和关系名添加到第一目标集合中;若否,则确定第2个表格是未被识别为目标表格类型的表格。
S2B13:根据第3个表格第一行中属于第一目标集合的属性名和关系名的数量,确定该表格是否为第二类型的表格,若是,则将第3个表格中不属于第一目标集合的属性名和关系名添加到第一目标集合中;若否,则确定第3个表格是未被识别为目标表格类型的表格。
需要说明的是,根据属性名和关系名的数量识别第二类型的表格,可以采用上述两个示例之一介绍的第二类型识别过程。
还需要说明的是,上述示例是以识别3个未识别表格为例对“一轮第二类型识别过程”进行说明的。然而,在本申请中,“一轮第二类型识别过程”中所需识别的所有表格,是指在本轮识别之前第一表格集合中所包括的未被识别为目标表格类型的各个表格。
以上为S2B1的相关内容。
S2B2:判断是否满足第二迭代条件,若是,则返回执行步骤S2B1;若否,则执行步骤S2B3。
下面结合示例对第二迭代条件进行说明。
在本轮识别过程(即步骤S2B1)中,若第一目标集合没有发生更新,则表示本轮识别过程之前已经将所有能被识别为第二类型的表格识别出来了,此时可以通过执行步骤S2B3来结束第二类型识别过程;反之,在本轮识别过程(即步骤S2B1)中,若第一目标集合发生了更新,则表示本轮识别过程可能没有将能够被识别的所有第二类型的表格识别出来,此时需要再次执行步骤S2B1,不断迭代识别直至执行步骤S2B3为止。可以理解的是,每一轮识别过程中需要被识别的表格数量,会少于其上一轮识别过程中需要被识别的表格数量。
基于此可知,第二迭代条件可以是:在本轮识别过程中,第一目标集合发生更新,也就是,在本轮识别过程中第一目标集合中加入了新属性名和/或新关系名。
以上为步骤S2B2的具体实施方式。
S2B3:结束第二类型的识别过程。
以上为类型识别过程的第二种实施方式(也就是,第二类型识别过程)的相关内容。
作为第三种实施方式,枚举型的表格的识别过程具体可以为:根据表格中属于第二目标集合的实体名数量,识别第一表格集合中的枚举型的表格。
其中,第二目标集合包括目标知识图谱中的各个实体名,即,第二目标集合包括目标知识图谱中的每一实体上位概念下的各个实体名。为了便于解释第二目标集合,现结合图5进行说明:作为示例,当目标知识图谱为图5所示的知识图谱时,则目标知识图谱中的实体上位概念包括东亚国家、西欧国家、其他山脉、历史书籍、……等,且目标知识图谱中的实体名为图5中叶子节点中的实体名,即日本(日本国)、中华人民共和国、法国(法兰西共和国)、日本(山名)、法国(APA publication主编图书)、……等,这些实体名构成第二目标集合。
在该实施方式中,针对第一表格集合中的各个表格均可以采用相同的识别过程进行识别(下面简称为枚举型识别过程)。具体的,对于第一表格集合中未被识别为目标表格类型的每一表格,可以根据该表格中属于第二目标集合中每一实体上位概念下的实体名数量,确定该表格是否为枚举型表格。
下面结合两个示例进行说明。需要说明的是,在这两个示例中,将第一表格集合中的每一正在被识别的表格称为第k个表格,此外,为便于解释,将第二目标集合中的每一实体上位概念下的实体名集合称为第二目标子集合,例如,图5中实体上位概念“东亚国家”下的第二目标子集合包括“日本(日本国)”和“中华人民共和国”。
作为第一示例,假设第二目标集合包括T个第二目标子集合,可以判断第k个表格是否满足以下T个数量判断条件中的至少一个条件,若是,则确定第k个表格为枚举型的表格,并结束第k个表格的类型识别过程;若否,则确定第k个表格不是枚举型的表格。其中,该T个数量判断条件为:第k个表格中属于第1个第二目标子集合的实体名数量达到第三数量阈值,第k个表格中属于第2个第二目标子集合的实体名数量达到第三数量阈值,……,以及第k个表格中属于第T个第二目标子集合的实体名数量达到第三数量阈值。其中,第三数量阈值可以预先设定。
作为第二示例,假设第二目标集合包括T个第二目标子集合,可以根据第k个表格的实体名集合与每一第二目标子集合之间的集合相似度,来确定第k个表格是否属于枚举型的表格。
具体来讲,先判断第k个表格是否满足以下T个相似度判断条件中的至少一个条件,若是,则确定第k个表格为枚举型的表格,并结束第k个表格的类型识别过程;若否,则确定第k个表格不是枚举型的表格。其中,该T个相似度判断条件为:第k个表格的实体名集合与第1个第二目标子集合之间的集合相似度达到第一相似度阈值,第k个表格中实体名集合与第2个第二目标子集合之间的集合相似度达到第一相似度阈值,……,以及第k个表格中实体名集合与第T个第二目标子集合之间的集合相似度达到第一相似度阈值。其中,第一相似度阈值可以预先设定。
上述的集合相似度用于衡量两个集合之间的相似程度,而且,本申请不限定集合相似度的具体计算方式。例如,集合相似度可以采用下面公式进行计算:
Figure BDA0002114520320000141
式中,
Figure BDA0002114520320000142
是第k个表格的实体名集合与第j个第二目标子集合之间的集合相似度;|Ti.E∩I(Cj)|是第k个表格的实体名集合与第j个第二目标子集合之间的交集个数,即,第k个表格中属于第j个第二目标子集合的实体名数量;Ti.E是第k个表格的实体名集合;I(Cj)是第j个第二目标子集合,即,目标知识图谱中第i个实体上位概念Cj下的实体集合,且j为正整数,且1≤j≤T,T为目标知识图谱中实体上位概念的总数;|Ti.E|是第k个表格中的实体名总个数;k为正整数,且k≥1。
以上为类型识别过程的第三种实施方式(也就是,枚举型识别过程)的相关内容。
作为第四种实施方式,若至少一种目标表格类型包括:第一类型、第二类型、枚举型中的至少两种类型,则存在以下四种示例:
作为第一示例,若至少一种目标表格类型包括第一类型和第二类型,则先迭代执行上述第一类型识别过程,直至无法识别出第一类型的表格为止,然后,再迭代执行上述第二类型识别过程,直至无法识别出第二类型的表格为止,进一步地,还可以重复执行上述过程,直至无法识别出第一类型和第二类型的表格为止。或者,先迭代执行上述第二类型识别过程,直至无法识别出第二类型的表格为止,然后,再迭代执行上述第一类型识别过程,直至无法识别出第一类型的表格为止,进一步地,还可以重复执行上述过程,直至无法识别出第一类型和第二类型的表格为止。
作为第二示例,若至少一种目标表格类型包括第一类型和第三类型,则先迭代执行上述第一类型识别过程,直至无法识别出第一类型的表格为止,然后,再执行上述枚举型识别过程。
作为第三示例,若至少一种目标表格类型包括第二类型和第三类型,则先迭代执行上述第二类型识别过程,直至无法识别出第二类型的表格为止,然后,再执行上述枚举型识别过程。
作为第四示例,若至少一种目标表格类型包括第一类型、第二类型和枚举型,则先执行第一示例的迭代过程,直至无法识别出第一类型和第二类型的表格为止,然后,再执行上述枚举型识别过程。
以上为方法实施例二提供的类型识别过程的具体实施方式,也就是,步骤S2中执行动作“对第一表格集合中的表格进行类型识别”的具体实施方式,在这些实施方式中,可以采用不同的类型识别过程识别出各个类型的表格,且具有较好的识别效率以及识别准确率。
方法实施例三
方法实施例三将主要介绍方法实施例一的步骤S3的具体实施方式。
为了提高知识信息提取的准确性,可以针对具有不同表格布局特征的第一目标表格,采用不同的知识信息提取过程,因而,本申请提供了步骤S3的两种实施方式,下面将依次介绍这两种实施方式。
作为第一种实施方式,对于各个第一目标表格中的各个第二类型的表格来说,S3具体可以包括步骤S31-S33:
S31:将各个第一目标表格中的各个第二类型的表格,作为各个第二目标表格。
作为示例,假设在步骤S2中得到了10个第一目标表格,且7个第一目标表格属于第二类型,则步骤S31具体可以为:将该7个属于第二类型的第一目标表格分别作为第二目标表格,以便得到7个第二目标表格。
S32:根据各个第二目标表格的表格布局特征,将各个第二目标表格中的实体与目标知识图谱进行实体对齐。
由于各个第二目标表格均属于第二类型,因而,第二目标表格的表格布局特征就是第二类型的表格布局特征(内容详情请参照上述方法实施例一中提供的“第二类型”的相关内容)。
在本申请中,为了提高知识信息提取效果,本申请还提供了步骤S32中执行动作“将各个第二目标表格中的实体与目标知识图谱进行实体对齐”(下面简称为:第二类型表格实体对齐过程)的一种实施方式,具体可以包括步骤S321-S322:
S321:根据各个第二目标表格,得到各个第三目标表格。
第三目标表格中的实体具有相同的实体上位概念,“实体上位概念”的解释请参照方法实施例二的“枚举型识别过程”中的“实体上位概念”。
例如,假设第二目标表格包括中国、法国、日本这三个实体名,且这三个实体名均具有同一个实体上位概念“国家”,则,将这样的第二目标表格定义为第三目标表格。
另外,在本申请中,步骤S321可以采用两种实施方式,下面将依次介绍S321的两种实施方式。
作为第一种实施方式,S321具体可以为:将每一第二目标表格作为第三目标表格。
作为第二种实施方式,在一些情况下,不同的第二目标表格可能具有相同的实体上位概念,此时,为了提高第二类型中知识信息的抽取效率,可以将具有相同的实体上位概念的第二目标表格进行聚类,并将聚为同一类的各个表格作为一个第三目标表格。因此,S321具体可以为:将各个第二目标表格进行聚类,并将聚为同一类的所有第二目标表格作为一个第三目标表格,该第三目标表格中的实体名具有相同的实体上位概念。其具体实现时,可以包括步骤S3211-S3212:
S3211:将各个第二目标表格进行聚类,以便得到至少一类。
在本申请中,可以利用聚类的方式将具有相同的实体上位概念的至少一个第二目标表格划分到同一个类中,以便后续能够将同一类中的所有表格同时进行知识信息抽取。
本申请提供了S3211的一种实施方式,在该实施方式中,S3211具体可以包括步骤S32111-S32112:
S32111:对于每一第二目标表格,生成该第二目标表格对应的向量,该向量中的每一维度对应于目标知识图中的每一实体上位概念,且每一维度的值表征了该第二目标表格中属于对应实体上位概念下的实体数量在该第二目标表格的所有实体中的占比。
在本申请中,各个第二目标表格对应的向量可以采用相同的计算过程,而且,各个第二目标表格对应的向量的计算过程是相互独立的,因而,为了便于理解和解释各个第二目标表格对应的向量的计算过程,下面将以第i个第二目标表格对应的向量的计算过程为例进行说明。
作为示例,当目标知识图谱中包括T个实体上位概念时,则S32111具体为:利用下面公式,分别计算第i个第二目标表格对应的向量中的第1维度的值至第T维度的值。
Figure BDA0002114520320000171
式中,
Figure BDA0002114520320000172
是第i个第二目标表格Ti中的实体在目标知识图谱中的第j实体上位概念Cj下的实体数量,在第i个第二目标表格的所有实体中的占比;|Ti.E∩I(Cj)|是第i个第二目标表格Ti中的实体属于第j实体上位概念Cj的实体数量,即,Ti中有多少个实体属于目标知识图谱且在目标知识图谱的第j实体上位概念Cj下;Ti.E是第i个第二目标表格Ti中实体集合;I(Cj)是目标知识图谱中的第j个实体上位概念Cj下的实体集合,且j为正整数,且1≤j≤T;|Ti.E|是第i个第二目标表格Ti中实体总个数;i为正整数,且i≥1。
需要说明的是,上述示例是以第i个第二目标表格对应的向量的计算过程为例进行说明的;而且,在本申请中,每一第二目标表格对应的向量均可以采用上述示例提供的计算过程,为了简要起见,在此不再赘述。
S32112:计算各个第二目标表格对应的向量之间的相似度。
本申请不限定向量之间的相似度计算方法,可以采用任一种相似度计算方法来计算各个第二目标表格对应的向量之间的相似度。例如,该相似度计算方法可以是余弦相似度计算方法。
S32113:根据各个第二目标表格对应的向量之间的相似度,将各个第二目标表格进行聚类,以便得到至少一类。
作为一种实施方式,S32113具体可以为:对于各个第二目标表格中每两个第二目标表格,判断这两个第二目标表格对应的向量之间的相似度是否超过第二相似度阈值,如果这两个第二目标表格对应的向量之间的相似度达到了第二相似度阈值,则将该两个第二目标表格划分到同一类中;如果这两个第二目标表格对应的向量之间的相似度没有达到第二相似度阈值,则将该两个第二目标表格划分到不同类中。其中,第二相似度阈值可以预先设定。
可以理解的是,通过上述划分,每一类下的表格可以包括一个或多个第二目标表格。
以上为步骤S3211的具体实施方式。
S3212:将每一类中的所有第二目标表格作为一个第三目标表格。
作为示例,假设第一类中包括第1表格、第2表格和第3表格,则S3212具体可以为:将第1表格、第2表格和第3表格进行合并,作为一个第三目标表格。
S322:将第三目标表格中的实体与目标知识图谱进行实体对齐。
在本申请中,每一第三目标表格中的实体与目标知识图谱进行实体对齐的过程是相同且相互独立的,因而,为了便于解释和理解,下面将以一个第三目标表格中的实体与目标知识图谱进行实体对齐的过程为例进行说明。
作为一种实施方式,对于每一第三目标表格来说,S322具体可以包括步骤S3221-S3223:
S3221:将第三目标表格中的每一实体名定义为表格实体名。
作为示例,图6所示的第三目标表格包括三个实体名,且该三个实体名分别为中国、日本和法国,此时,S3221具体可以为:将中国、日本和法国分别定义为表格实体名。
S3222:对于每一表格实体名,确定该表格实体名对应的候选实体名集合。
在步骤S3222中,表格实体名与候选实体名集合是一一对应的,也就是,一个表格实体名对应于一个候选实体名集合。
一个表格实体名对应的候选实体名集合可以包括至少一个候选实体名,且候选实体名是指在目标知识图谱中与该表格实体名对齐可能性较大的实体名。另外,候选实体名集合可以包括至少一个第一候选实体名和/或至少一个第二候选实体名,其中,第一候选实体名为目标知识图谱中与该表格实体名相似度高的实体名,第二候选实体名为目标知识图谱中的该表格实体名的对应实体的别名。
为了便于解释和理解候选实体名集合,下面结合图5和图6进行说明。
作为示例,假设目标知识图谱是图5所示的知识图谱,第三目标表格为图6所示的表格,且第三目标表格包括第一个表格实体名“中国”、第二个表格实体名“日本”和第三个表格实体名“法国”。此时,对于第一表格实体名“中国”来说,由于目标知识图谱中只存在“中国”的对应实体的别名“中华人民共和国”,因而,第一表格实体名对应的候选实体名集合为{中华人民共和国};对于第二表格实体名“日本”来说,由于目标知识图谱中存在“日本”的别名“日本(日本国)”,也存在与“日本”相似度高的实体名“日本(山名)”,因而,第二表格实体名“日本”对应的候选实体名集合为{日本(日本国),日本(山名)};对于第三表格实体名“法国”来说,由于目标知识图谱中存在“法国”的别名“法国(法兰西共和国)”,也存在与“法国”相似度高的实体名“法国(APA publication主编图书)”,因而,第三表格实体名对应的候选实体名集合为{法国(法兰西共和国),法国(APA publication主编图书)}。
需要说明的是,上述示例以根据图5中的知识图谱分别获取“中国”、“日本”以及“法国”这三个表格实体名对应的候选实体名集合为例进行说明的,而且,在本申请中,每一表格实体名对应的候选实体名集合均可以采用上述示例提供获取方法进行获取。
S3223:在候选实体名集合中确定该表格实体名的对齐实体名。
由于第三目标表格中的表格实体名具有相同的实体上位概念,而且每一表格实体名对应的候选实体名集合中包括了目标知识图谱的不同实体上位概念下的实体名,因而,为了能够从每一表格实体名对应的候选实体名集合中唯一筛选出该表格实体名在目标知识图谱中所对应的实体名,可以借助第三目标表格中的所有表格实体名具有相同的实体上位概念的特性来进行筛选。如此,本申请提供了步骤S3223第一种实施方式,在该实施方式中,S3223具体可以包括步骤S3223A1-S3223A2:
S3223A1:确定第三目标表格中各个表格实体名对应的候选实体名集合的公共的实体上位概念。
在步骤S3223A1中,可以根据目标知识图谱以及第三目标表格中每一表格实体名对应的候选实体名集合,来唯一确定第三目标表格中的公共的实体上位概念。需要说明的是,本申请中的公共的实体上位概念是指第三目标表格中所有实体所对应的范围最小的公共实体上位概念。
为了便于理解和解释公共的实体上位概念,下面结合示例进行说明。
假设目标知识图谱是图5所示的知识图谱,第三目标表格包括第一表格实体名“中国”、第二表格实体名“日本”和第三表格实体名“法国”。其中,第一表格实体名“中国”对应的候选实体名集合为{中华人民共和国};第二表格实体名“日本”对应的候选实体名集合为{日本(日本国),日本(山名)};第三表格实体名“法国”对应的候选实体名集合为{法国(法兰西共和国),法国(APA publication主编图书)}。
基于上述假设并结合图5可知,第一表格实体名“中国”对应的候选实体名集合的实体上位概念集合为{东亚国家},第二表格实体名“日本”对应的候选实体名集合的实体上位概念集合为{东亚国家,其它山脉},第三表格实体名“法国”对应的候选实体名集合的实体上位概念集合为{西欧国家,历史书籍};而且,根据图5所示的目标知识图谱可知,“东亚国家”和“西欧国家”所对应的范围最小的公共实体上位概念为“国家”,如此,可以确定第一表格实体名“中国”对应的候选实体名集合、第二表格实体名“日本”对应的候选实体名集合和第三表格实体名“法国”对应的候选实体名集合的公共的实体上位概念为“国家”。
故而,基于上述提供的“公共的实体上位概念”的相关内容,本申请提供了S3223A1的一种实施方式,在该实施方式中,S3223A1具体可以包括步骤S3223A11-S3223A12:
S3223A11:根据目标知识图谱,确定每一表格实体名对应的候选实体名集合的实体上位概念集合。
作为示例,S3223A11具体可以为:根据图5所示的目标知识图谱,确定第二表格实体名“日本”对应的候选实体名集合{日本(日本国),日本(山名)}的实体上位概念集合为{东亚国家,其它山脉}。
S3223A12:根据目标知识图谱以及每一表格实体名对应的候选实体名集合的实体上位概念集合,确定各个表格实体名对应的候选实体名集合的公共的实体上位概念。
作为示例,S3223A12具体可以为:利用图5所示的知识图谱、第一表格实体名“中国”对应的候选实体名集合的实体上位概念集合{东亚国家}、第二表格实体名“日本”对应的候选实体名集合的实体上位概念集合{东亚国家,其它山脉}、以及第三表格实体名“法国”对应的候选实体名集合的实体上位概念集合{西欧国家,历史书籍},确定这些表格实体名对应的候选实体名集合的公共的实体上位概念为“国家”。
以上为步骤S3223A1的具体实施方式。
S3223A2:根据所确定的公共的实体上位概念,在每一表格实体名对应的候选实体名集合中,确定该表格实体名的对齐实体名。
在步骤S3223A2中,可以将每一表格实体名对应的候选实体名集合中在公共的实体上位概念下的实体名作为该表格实体的对齐实体名。
为了便于解释和理解步骤S3223A2,下面结合示例进行解释。
作为示例,基于步骤S3223A12中的假设,当公共的实体上位概念为“国家”时,则步骤S3223A2具体可以为:由于第一表格实体名“中国”对应的候选实体名集合{中华人民共和国}中的“中华人民共和国”是位于该公共的实体上位概念“国家”下的实体名,因而确定第一表格实体“中国”的对齐实体名为“中华人民共和国”;由于第二表格实体名“日本”对应的候选实体名集合{日本(日本国),日本(山名)}中的“日本(日本国)”是位于该公共的实体上位概念“国家”下的实体名,因而确定第二表格实体名“日本”的对齐实体名为“日本(日本国)”;由于第三表格实体名“法国”对应的候选实体名集合{法国(法兰西共和国),法国(APApublication主编图书)}中的“法国(法兰西共和国)”是位于该公共的实体上位概念“国家”下的实体名,因而确定第三表格实体名“法国”的对齐实体名为“法国(法兰西共和国)”。
以上为步骤S3223的第一种实施方式。
另外,在一些情况下,第三目标表格中各个表格实体名对应的候选实体名集合之间可能不具备公共的实体上位概念,如此无法利用步骤S3223的第一种实施方式来确定每一表格实体名的对齐实体名。为了能够确定所有表格实体名的对齐实体名,本申请还提供了步骤S3223的第二种实施方式,在该实施方式中,步骤S3223具体包括步骤S3223B1-S3223B5:
S3223B1:判断第三目标表格中各个表格实体名对应的候选实体名集合是否具备公共的实体上位概念,若是,则执行步骤S3223B2;若否,则执行步骤S3223B4。
S3223B2:确定第三目标表格中各个表格实体名对应的候选实体名集合的公共的实体上位概念。
S3223B3:根据公共的实体上位概念,在每一表格实体名对应的候选实体名集合中,确定该表格实体名的对齐实体名。
需要说明的是,步骤S3223B2和步骤S3223B3分别与上述步骤S3223的第一种实施方式中的步骤S3223A1和步骤S3223A2内容相同,技术详情请参照上述步骤S3223的第一种实施方式。
S3223B4:对于该表格实体名对应的候选实体名集合中每一候选实体名,确定该候选实体名与该表格实体名的每一相同属性类型下的属性值之间的相似度、以及确定该候选实体名与该表格实体名的每一相同关系类型下的尾实体名之间的相似度,使其中的最大相似度用于衡量该候选实体名与该表格实体名之间的实体相似度。
在步骤S3223B4中,每一候选实体名与其对应的表格实体名之间的实体相似度可以采用相同的计算方法,而且,每一候选实体名与其对应的表格实体名之间的实体相似度的计算过程相互独立,因而,为了便于解释和理解,下面将以一个候选实体名(比如第一候选实体名)与其对应的表格实体名之间的实体相似度的计算过程为例进行说明。
以图3为例,在图3所示的第三目标表格中,第1个表格实体名(头实体名)为“合肥”,第1个表格实名在属性名“车牌”下的属性值为“皖A”,且第1个表格实体名在关系名“下辖行政区”下的尾实体名包括“瑶海区、庐阳区、蜀山区、包河区、肥东县、肥西县、长丰县、庐江县、巢湖市”。并且,在目标知识图谱中,第一候选实体名在属性名“车牌”下的属性值为第一属性值,第一候选实体名在关系名“下辖行政区”下的各个尾实体为各个第一尾实体名。
基于上述假设,步骤S3223B4具体可以包括步骤S3223B41-S3223B43:
S3223B41:计算第1个表格实体名在“车牌”下的属性值与第一候选实体名在“车牌”下的属性值之间的相似度,也就是,获取“皖A”与第一属性值之间的相似度,作为第一相似度。
S3223B42:计算第1个表格实体名在“下辖行政区”下的各个尾实体名与第一候选实体名在“下辖行政区”下的各个尾实体名之间的相似度,也就是,获取“瑶海区、庐阳区、蜀山区、包河区、肥东县、肥西县、长丰县、庐江县、巢湖市”与各个第一尾实体名之间的相似度,作为第二相似度。
S3223B43:比较第一相似度和第二相似度的大小,将其中的相似度最大值,用于衡量第一候选实体名与第1个表格实体名之间的实体相似度;可以理解的是,若第一相似度等于第二相似度,则将第一相似度或第二相似度用于衡量第一候选实体名与第1个表格实体名之间的实体相似度。
S3223B5:根据候选实体名集合中的每一候选实体名对应的实体相似度,确定该表格实体名的对齐实体名。
作为第一种实施方式,步骤S3223B5具体可以为:在候选实体名集合中的每一候选实体名对应的实体相似度中,将最大的实体相似度对应的候选实体名作为该表格实体的对齐实体名。
在步骤S3223B5的第一种实施方式中,每一表格实体名的对齐实体名可以采用相同的确定过程,而且,每一表格实体名的对齐实体名的确定过程是相互独立的,因而,为了便于理解和解释,下面将以一个表格实体名的对齐实体名的确定过程为例进行说明。
假设,第1个表格实体名对应的候选实体名集合包括第一候选实体名、第二候选实体名和第三候选实体名,其中,第一候选实体名与第1个表格实体名之间的实体相似度为S1,第二候选实体名与第1个表格实体名之间的实体相似度为S2,第三候选实体名与第1个表格实体名之间的实体相似度为S3,且S1<S2<S3
作为示例,基于上述假设可知,步骤S3223B5具体可以为:由于S1<S2<S3,因而,第三候选实体名与第1个表格实体名之间的实体相似度最大,此时可以将第三候选实体名作为第1个表格实体的对齐实体名。
以上为S3223B5的第一种实施方式。
另外,为了进一步提高实体对齐准确率,还可以根据实体相似度较高的多个候选实体名来确定对应表格实体名的对齐实体名,因而,本申请还提供了S3223B5的第二种实施方式,在该实施方式中,步骤S3223B5具体可以为:从实体相似度高的至少两个候选实体名中确定该表格实体名的对齐实体名。
在步骤S3223B5的第二种实施方式中,为了提高实体对齐效果,执行动作“从实体相似度高的至少两个候选实体名中确定该表格实体名的对齐实体名”(下面简称实体名对齐过程)可以借助于属性对齐进行实施,因而,本申请提供了步骤实体名对齐过程的一种实施方式,在该实施方式中,实体名对齐过程具体可以为:基于所述第三目标表格中的每一表格实体名与该表格实体名对应的候选实体名集合之间的属性对齐结果和尾实体对齐结果,从实体相似度高的至少两个候选实体名中确定该表格实体名的对齐实体名。
在步骤S3223B5中,第三目标表格中的每一表格实体名对应的属性对齐、尾实体对齐均是以表格整体为单位进行实现的,而且,每一表格实体名对应的对齐执行过程是相同且相互独立的,因而,为了便于解释和理解,下面将以图3所示的第三目标表格对应的对齐执行过程为例进行说明。
作为示例,图3所示的第三目标表格对应的对齐执行过程具体可以包括步骤S3223B51-S3223B55:
S3223B51:从每一表格实体名对应的候选实体名集合中选择实体相似度高的至少两个候选实体名,作为每一表格实体名对应的目标实体名集合。
作为第一示例,S3223B51具体可以为:从每一表格实体名对应的候选实体名集合中选择K个候选实体名,作为每一表格实体名对应的目标实体名集合,使得被选择的K个候选实体名对应的实体相似度高于未被选择的候选实体名。其中,K可以预先设定,比如K为3。
作为第二示例,S3223B51具体可以为:从每一表格实体名对应的候选实体名集合中选择实体相似度达到第三相似度阈值的候选实体名,作为每一表格实体名对应的目标实体名集合,其中,第三相似度阈值可以根据实验和/或经验预先设定。
S3223B52:确定第三目标表格中的每一表格实体名与该表格实体名对应的目标实体名集合之间的属性对齐结果、以及确定第三目标表格中的每一表格实体名与该表格实体名对应的目标实体名集合之间的尾实体对齐结果。
属性对齐结果用于记录每一表格实体名与其对应的目标实体名集合中每一候选实体名之间在不同属性名下的对齐结果。同理,尾实体对齐结果用于记录每一表格实体名与其对应的目标实体名集合中每一候选实体名之间在不同关系名下的对齐结果。
在步骤S3223B52中,每一表格实体名与该表格实体名对应的目标实体名集合之间的对齐结果的获取过程是相同且相互独立的,因而,为了便于解释和理解,下面将以一个表格实体名与该表格实体名对应的目标实体名集合之间的属性对齐结果的获取过程为例进行说明。
作为示例,假设第三目标表格包括第1个表格实体名以及三个属性名,这三个属性名分别是第一属性名、第二属性名和第三属性名,并且,假设第1个表格实体名对应的目标实体名集合包括第一候选实体名、第二候选实体名和第三候选实体名。其中,第一候选实体名与第1个表格实体名在第一属性名下的相似度为
Figure BDA0002114520320000251
第一候选实体名与第1个表格实体名在第二属性名下的相似度为
Figure BDA0002114520320000252
第一候选实体名与第1个表格实体名在第三属性名下的相似度为
Figure BDA0002114520320000253
第二候选实体名与第1个表格实体名在第一属性名下的相似度为
Figure BDA0002114520320000254
第二候选实体名与第1个表格实体名在第二属性名下的相似度为
Figure BDA0002114520320000255
第二候选实体名与第1个表格实体名在第三属性名下的相似度为
Figure BDA0002114520320000256
第三候选实体名与第1个表格实体名在第一属性名下的相似度为
Figure BDA0002114520320000257
第三候选实体名与第1个表格实体名在第二属性名下的相似度为
Figure BDA0002114520320000258
第一候选实体名与第1个表格实体名在第三属性名下的相似度为
Figure BDA0002114520320000259
且,
Figure BDA00021145203200002510
基于上述假设可知,由于
Figure BDA00021145203200002511
使得在第一属性名下第一候选实体名与第1个表格实体名更相似,因而,第一候选实体名与第1个表格实体名在第一属性名下对齐;由于
Figure BDA00021145203200002512
使得在第二属性名下第二候选实体名与第1个表格实体名更相似,因而,第二候选实体名与第1个表格实体名在第二属性名下对齐;由于
Figure BDA00021145203200002513
使得在第三属性名下第二候选实体名与第1个表格实体名更相似,因而,第二候选实体名与第1个表格实体名在第三属性名下对齐。
由此可知,第1个表格实体与该表格实体对应的目标实体名集合之间的属性对齐结果为:第一候选实体名与第1个表格实体名在第一属性名下对齐,且第1个表格实体名在第一属性名下的对齐相似度为
Figure BDA00021145203200002514
第二候选实体名与第1个表格实体名在第二属性名下对齐,且第1个表格实体名在第二属性名下的对齐相似度为
Figure BDA00021145203200002515
第二候选实体名与第1个表格实体名在第三属性名下对齐,且第1个表格实体名在第三属性名下的对齐相似度为
Figure BDA00021145203200002516
需要说明的是,当第三目标表格包括关系名时,该关系名的处理方式与上述属性名的处理方式一致,此处不再赘述。
还需要说明的是,上述示例以一个表格实体名与该表格实体名对应的目标实体名集合之间的属性对齐结果的获取过程为例进行说明的,而且,在本申请中,每一表格实体名与该表格实体名对应的目标实体名集合之间的属性对齐结果均可以采用上述示例提供的获取过程进行获取。
以上为步骤S3223B52的具体实施方式。
S3223B53:根据第三目标表格中每一表格实体名与该表格实体名对应的目标实体名集合之间的属性对齐结果和关系对齐结果,确定每一属性名和每一关系名的重要程度。
每一属性名的重要程度用于衡量每一属性名在进行实体对齐过程中的重要程度;而且,一个属性名的重要程度可以根据所有表格实体名在该属性名下的对齐相似度加和确定。同理,每一关系名的重要程度用于衡量每一关系名在进行实体对齐过程中的重要程度;而且,一个关系名的重要程度可以根据所有表格实体名在该关系名下的对齐相似度加和确定。
在步骤S3223B53中,每一属性名和每一关系名的重要程度的计算过程是相同且相互独立的,因而,属性名和关系名的重要程度对应的计算方式是相同的,所以,为了便于解释和说明,下面结合仅以三个属性名的重要程度的计算过程为例进行说明。
假设在S3223B52中示例的基础上,第三目标表格,不但包括第1个表格实体名、还包括第2个表格实体名,并且,第2个表格实体名对应的目标实体名集合包括第四候选实体名、第五候选实体名和第六候选实体名。其中,第1个表格实体名与该表格实体名对应的目标实体名集合之间的属性对齐结果为:第一候选实体名与第1个表格实体名在第一属性名下对齐,且第1个表格实体名在第一属性名下的对齐相似度为
Figure BDA0002114520320000261
第二候选实体名与第1个表格实体名在第二属性名下对齐,且第1个表格实体名在第二属性名下的对齐相似度为
Figure BDA0002114520320000262
第二候选实体名与第1个表格实体名在第三属性名下对齐,且第1个表格实体名在第三属性名下的对齐相似度为
Figure BDA0002114520320000263
同样,第2个表格实体名与该表格实体名对应的目标实体名集合之间的属性对齐结果为:第四候选实体名与第2个表格实体名在第一属性名下对齐,且第2个表格实体名在第一属性名下的对齐相似度为
Figure BDA0002114520320000271
第五候选实体名与第2个表格实体名在第二属性名下对齐,且第2个表格实体名在第二属性名下的对齐相似度为
Figure BDA0002114520320000272
第六候选实体名与第2个表格实体名在第三属性名下对齐,且第2个表格实体名在第三属性名下的对齐相似度为
Figure BDA0002114520320000273
作为示例,基于上述假设,第一属性名的重要程度I1可以为
Figure BDA0002114520320000274
第二属性名的重要程度I2可以为
Figure BDA0002114520320000275
第三属性名的重要程度I3可以为
Figure BDA0002114520320000276
S3223B54:根据第三目标表格中每一属性名和每一关系名的重要程度,确定对齐目标。
作为一种实施方式,S3223B54具体可以为:将重要程度最高的属性名或关系名作为对齐目标。
作为示例,假设在S3223B53中示例的基础上,当第一属性名的重要程度为I1、第二属性名的重要程度为I2、第三属性名的重要程度为I3,且I1<I2<I3时,则可以将第三属性名作为对齐目标。
S3223B55:根据对齐目标,确定第三目标表格中每一表格实体名的对齐实体名。
作为一种实施方式,S3223B55具体可以为:将每一表格实体名在对齐目标下对齐的候选实体名作为该表格实体名的对齐实体名。
作为示例,假设在S3223B54中示例的基础上,即,对齐目标为第三属性名时,则步骤S3223B55具体可以为:将第1个表格实体名在第三属性名下的对齐的候选实体名作为第1个表格实体名的对齐实体名,也就是,将第二候选实体名作为第1个表格实体名的对齐实体名;将第2个表格实体名在第三属性名下的对齐的候选实体名作为第2个表格实体名的对齐实体名,也就是,将第六候选实体名作为第2个表格实体名的对齐实体名。
以上为步骤S32的具体实施方式。
S33:基于实体对齐结果,从各个第二目标表格中抽取知识信息。
在步骤S33中,若第二目标表格中的实体能够与目标知识图谱中的实体进行对齐,则可以利用表格中该对齐实体的相关信息对目标知识图谱中的对齐实体进行更新;若第二目标表格中实体无法与目标知识图谱中的实体进行对齐,则可以直接将表格中未对齐实体的相关信息添加到目标知识图谱,以便在目标知识图谱中增加新的实体。
以上为方法实施例三提供的步骤S3的第一种实施方式,该实施方式适用于对第二类型的表格进行知识信息抽取,而且,在该实施方式中,可以根据第二类型的表格布局特征,从各个第二类型的表格中抽取知识信息,如此能够有效地从第二类型的表格中进行知识信息的抽取,提高了知识信息的抽取效果。
另外,由于第一类型和枚举型的表格中均可能缺少该表格对应的头实体,因而,为了能够有效的从第一类型和枚举型的表格中进行知识信息的抽取,可以利用图7所示的主题推断算法来确定每一第一类型的表格或枚举型的表格对应的头实体名,以便后续能够根据该头实体名进行知识信息的抽取。如此,本申请还提供了步骤S3的第二种实施方式,在该实施方式中,步骤S3具体可以为:首先,将各个第一目标表格中的各个第一类型的表格和枚举型的表格,作为各个第四目标表格;然后,利用主题推断算法,获取各个第四目标表格的头实体;最后,根据各个第四目标表格的头实体,从各个第四目标表格中抽取知识信息。
本申请不限定主题推断算法,可以采用任一种主题推断算法来获取每一第一类型的表格或枚举型的表格对应的头实体名。
作为示例,在主题推断算法中,可以根据每一第一类型的表格或枚举型的表格的来源,来确定每一第一类型的表格或枚举型的表格对应的头实体名,具体为:若第一类型的表格或枚举型的表格来源于百科页面,可以直接将整个百科页面的主题作为该第一类型的表格或枚举型的表格的头实体名;若第一类型的表格或枚举型的表格来源于非百科页面,则可以利用n-gram模型,为对应表格计算得到一个概率最大的头实体名。
以上为方法实施例三提供的步骤S3的第二种实施方式,该实施方式适用于对第一类型或枚举型的表格进行知识信息的抽取,而且,在该实施方式中,可以根据第一类型或枚举型的表格布局特征,从各个第一类型或枚举型的表格中抽取知识信息,如此能够有效地从第一类型或枚举型的表格中进行知识信息的抽取,提高了知识信息的抽取效果。
装置实施例
本实施例将对一种知识抽取装置进行介绍,相关内容请参见上述方法实施例。
参见图8,该图为本申请装置实施例提供的知识抽取装置的结构示意图。
本申请实施例提供的知识抽取装置80,包括:
获取单元81,用于获取第一表格集合,所述第一表格集合中的每一表格为带有知识的表格;
识别单元82,用于对所述第一表格集合中的表格进行类型识别,得到至少一种目标表格类型下的半结构化的各个表格,作为各个第一目标表格;
抽取单元83,用于基于所述各个第一目标表格的表格布局特征,从所述各个第一目标表格中抽取知识信息,所述知识信息用于补全目标知识图谱。
作为一种实施方式,所述至少一种目标表格类型包括:第一类型、第二类型、枚举型中的至少一种类型;
其中,所述第一类型的表格包括至少一个属性名以及每一属性名对应的属性值和/或至少一个关系名以及每一关系名对应的尾实体名;所述第二类型的表格包括至少一个头实体名以及每一个头实体名对应的至少一个属性值和/或至少一个尾实体名;所述枚举型的表格包括至少一个实体名。
作为一种实施方式,所述识别单元82,包括:
第一识别子单元,用于根据表格第一列中属于第一目标集合的属性名和关系名的数量,识别所述第一表格集合中的所述第一类型的表格;
第二识别子单元,用于根据表格第一行中属于第一目标集合的属性名和关系名的数量,识别所述第一表格集合中的所述第二类型的表格;
第三识别子单元,用于根据表格中属于第二目标集合的实体名数量,识别所述第一表格集合中的所述枚举型的表格;
其中,所述第一目标集合包括所述目标知识图谱中的各个属性名和各个关系名;所述第二目标集合包括所述目标知识图谱中的各个实体名。
作为一种实施方式,所述第一识别子单元,包括:
第一更新子单元,用于对于所述第一表格集合中未被识别为目标表格类型的每一表格,根据该表格第一列中属于所述第一目标集合的属性名和关系名的数量,确定该表格是否为第一类型的表格,并在确定该表格为第一类型的表格后,将该表格中不属于所述第一目标集合的属性名和关系名添加到所述第一目标集合中;
第一循环子单元,用于继续执行所述对于所述第一表格集合中未被识别为所述目标表格类型的每一表格的步骤,直至所述第一目标集合中不再加入属性名和关系名为止。
作为一种实施方式,所述第二识别子单元,包括:
第二更新子单元,用于对于所述第一表格集合中未被识别为目标表格类型的每一表格,根据该表格第一行中属于所述第一目标集合的属性名和关系名的数量,确定该表格是否为第二类型的表格,并在确定该表格为第二类型的表格后,将该表格中不属于所述第一目标集合的属性名和关系名添加到所述第一目标集合中;
第二循环子单元,用于继续执行所述对于所述第一表格集合中未被识别为所述目标表格类型的每一表格的步骤,直至所述第一目标集合中不再加入属性名和关系名为止。
作为一种实施方式,所述第三识别子单元,具体用于:
对于所述第一表格集合中未被识别为目标表格类型的每一表格,根据该表格中属于所述第二目标集合中每一实体上位概念下的实体名数量,确定该表格是否为枚举型表格。
作为一种实施方式,所述抽取单元83,包括:
第一获取子单元,用于将所述各个第一目标表格中的各个第二类型的表格,作为各个第二目标表格;
实体对齐子单元,用于根据各个第二目标表格的表格布局特征,将各个第二目标表格中的实体与所述目标知识图谱进行实体对齐;
知识抽取子单元,用于基于实体对齐结果,从各个第二目标表格中抽取知识信息。
作为一种实施方式,所述实体对齐子单元,包括:
第二获取子单元,用于将每一第二目标表格作为第三目标表格;或者,将各个第二目标表格进行聚类,并将聚为同一类的所有第二目标表格作为一个第三目标表格,所述第三目标表格中的实体名具有相同的实体上位概念;
第一对齐子单元,用于将所述第三目标表格中的实体与所述目标知识图谱进行实体对齐。
作为一种实施方式,所述第二获取子单元,包括:
向量生成子单元,用于对于每一第二目标表格,生成该第二目标表格对应的向量,所述向量中的每一维度对应于所述目标知识图中的每一实体上位概念,所述每一维度的值表征了该第二目标表格中属于对应实体上位概念下的实体数量在该第二目标表格的所有实体中的占比;
表格聚类子单元,用于根据各个第二目标表格对应的向量之间的相似度,将各个第二目标表格进行聚类。
作为一种实施方式,所述第一对齐子单元,包括:
名称定义子单元,用于将所述第三目标表格中的每一实体名定义为表格实体名;
候选确定子单元,用于对于每一表格实体名,确定该表格实体名对应的候选实体名集合,所述候选实体名集合包括至少一个第一候选实体名和/或至少一个第二候选实体名,所述第一候选实体名为所述目标知识图谱中与该表格实体名相似度高的实体名,所述第二候选实体名为所述目标知识图谱中的该表格实体名的对应实体的别名;
名称确定子单元,用于在该表格实体名对应的候选实体名集合中,确定该表格实体名的对齐实体名。
作为一种实施方式,所述名称确定子单元,包括:
第一确定子单元,用于确定所述第三目标表格中各个表格实体名对应的候选实体名集合的公共的实体上位概念;
第二确定子单元,用于根据所述公共的实体上位概念,在该表格实体名对应的候选实体名集合中,确定该表格实体名的对齐实体名。
作为一种实施方式,所述装置还包括:
第三确定子单元,用于若所述候选实体名集合不具备公共的实体上位概念,则对于所述候选实体名集合中每一候选实体名,确定该候选实体名与该表格实体名的每一相同属性类型下的属性值之间的相似度、以及确定该候选实体名与该表格实体名的每一相同关系类型下的尾实体名之间的相似度,使其中的最大相似度用于衡量该候选实体名与该表格实体名之间的实体相似度;
第四确定子单元,用于在所述候选实体名集合中的每一候选实体名对应的实体相似度中,将最大的实体相似度对应的候选实体名作为该表格实体的对齐实体名;或者,从实体相似度高的至少两个候选实体名中确定该表格实体名的对齐实体名。
作为一种实施方式,所述第四确定子单元,包括:
第五确定子单元,用于基于所述第三目标表格中的每一表格实体名与该表格实体名对应的候选实体名集合之间的属性对齐结果和尾实体对齐结果,从实体相似度高的至少两个候选实体名中确定该表格实体名的对齐实体名。
进一步地,本申请实施例还提供了一种知识抽取设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述方法实施例提供的知识抽取方法的任一实施方式。
进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利上述方法实施例提供的知识抽取方法的任一实施方式。
进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述方法实施例提供的知识抽取方法的任一实施方式。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本申请各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (17)

1.一种知识抽取方法,其特征在于,包括:
获取第一表格集合,所述第一表格集合中的每一表格为带有知识的表格;
对所述第一表格集合中的表格进行类型识别,得到至少一种目标表格类型下的半结构化的各个表格,作为各个第一目标表格;
基于所述各个第一目标表格的表格布局特征,从所述各个第一目标表格中抽取知识信息,所述知识信息用于补全目标知识图谱;其中,各个第一目标表格的表格布局特征不同,从所述第一目标表格中抽取知识信息的方式也不相同。
2.根据权利要求1所述的方法,其特征在于,所述至少一种目标表格类型包括:第一类型、第二类型、枚举型中的至少一种类型;
其中,所述第一类型的表格包括至少一个属性名以及每一属性名对应的属性值和/或至少一个关系名以及每一关系名对应的尾实体名;所述第二类型的表格包括至少一个头实体名以及每一个头实体名对应的至少一个属性值和/或至少一个尾实体名;所述枚举型的表格包括至少一个实体名。
3.根据权利要求2所述的方法,其特征在于,所述对所述第一表格集合中的表格进行类型识别,包括:
根据表格第一列中属于第一目标集合的属性名和关系名的数量,识别所述第一表格集合中的所述第一类型的表格;
根据表格第一行中属于第一目标集合的属性名和关系名的数量,识别所述第一表格集合中的所述第二类型的表格;
根据表格中属于第二目标集合的实体名数量,识别所述第一表格集合中的所述枚举型的表格;
其中,所述第一目标集合包括所述目标知识图谱中的各个属性名和各个关系名;所述第二目标集合包括所述目标知识图谱中的各个实体名。
4.根据权利要求3所述的方法,其特征在于,所述根据表格第一列中属于第一目标集合的属性名和关系名的数量,识别所述第一表格集合中的所述第一类型的表格,包括:
对于所述第一表格集合中未被识别为目标表格类型的每一表格,根据该表格第一列中属于所述第一目标集合的属性名和关系名的数量,确定该表格是否为第一类型的表格,并在确定该表格为第一类型的表格后,将该表格中不属于所述第一目标集合的属性名和关系名添加到所述第一目标集合中;
继续执行所述对于所述第一表格集合中未被识别为所述目标表格类型的每一表格的步骤,直至所述第一目标集合中不再加入属性名和关系名为止。
5.根据权利要求3所述的方法,其特征在于,所述根据表格第一行中属于第一目标集合的属性名和关系名的数量,识别所述第一表格集合中的所述第二类型的表格,包括:
对于所述第一表格集合中未被识别为目标表格类型的每一表格,根据该表格第一行中属于所述第一目标集合的属性名和关系名的数量,确定该表格是否为第二类型的表格,并在确定该表格为第二类型的表格后,将该表格中不属于所述第一目标集合的属性名和关系名添加到所述第一目标集合中;
继续执行所述对于所述第一表格集合中未被识别为所述目标表格类型的每一表格的步骤,直至所述第一目标集合中不再加入属性名和关系名为止。
6.根据权利要求3所述的方法,其特征在于,所述根据表格中属于第二目标集合的实体名数量,识别所述第一表格集合中的所述枚举型的表格,包括:
对于所述第一表格集合中未被识别为目标表格类型的每一表格,根据该表格中属于所述第二目标集合中每一实体上位概念下的实体名数量,确定该表格是否为枚举型表格。
7.根据权利要求2至6任一项所述的方法,其特征在于,所述基于所述各个第一目标表格的表格布局特征,从所述各个第一目标表格中抽取知识信息,包括:
将所述各个第一目标表格中的各个第二类型的表格,作为各个第二目标表格;
根据各个第二目标表格的表格布局特征,将各个第二目标表格中的实体与所述目标知识图谱进行实体对齐;
基于实体对齐结果,从各个第二目标表格中抽取知识信息。
8.根据权利要求7所述的方法,其特征在于,所述将各个第二目标表格中的实体与所述目标知识图谱进行实体对齐,包括:
将每一第二目标表格作为第三目标表格;或者,将各个第二目标表格进行聚类,并将聚为同一类的所有第二目标表格作为一个第三目标表格,所述第三目标表格中的实体名具有相同的实体上位概念;
将所述第三目标表格中的实体与所述目标知识图谱进行实体对齐。
9.根据权利要求8所述的方法,其特征在于,所述将各个第二目标表格进行聚类,包括:
对于每一第二目标表格,生成该第二目标表格对应的向量,所述向量中的每一维度对应于所述目标知识图中的每一实体上位概念,所述每一维度的值表征了该第二目标表格中属于对应实体上位概念下的实体数量在该第二目标表格的所有实体中的占比;
根据各个第二目标表格对应的向量之间的相似度,将各个第二目标表格进行聚类。
10.根据权利要求8所述的方法,其特征在于,所述将所述第三目标表格中的实体与所述目标知识图谱进行实体对齐,包括:
将所述第三目标表格中的每一实体名定义为表格实体名;
对于每一表格实体名,确定该表格实体名对应的候选实体名集合,所述候选实体名集合包括至少一个第一候选实体名和/或至少一个第二候选实体名,所述第一候选实体名为所述目标知识图谱中与该表格实体名相似度高的实体名,所述第二候选实体名为所述目标知识图谱中的该表格实体名的对应实体的别名;
在该表格实体名对应的候选实体名集合中,确定该表格实体名的对齐实体名。
11.根据权利要求10所述的方法,其特征在于,所述在该表格实体名对应的候选实体名集合中,确定该表格实体名的对齐实体名,包括:
确定所述第三目标表格中各个表格实体名对应的候选实体名集合的公共的实体上位概念;
根据所述公共的实体上位概念,在该表格实体名对应的候选实体名集合中,确定该表格实体名的对齐实体名。
12.根据权利要求11所述的方法,其特征在于,所述方法还包括:
若所述候选实体名集合不具备公共的实体上位概念,则对于所述候选实体名集合中每一候选实体名,确定该候选实体名与该表格实体名的每一相同属性类型下的属性值之间的相似度、以及确定该候选实体名与该表格实体名的每一相同关系类型下的尾实体名之间的相似度,使其中的最大相似度用于衡量该候选实体名与该表格实体名之间的实体相似度;
在所述候选实体名集合中的每一候选实体名对应的实体相似度中,将最大的实体相似度对应的候选实体名作为该表格实体的对齐实体名;或者,从实体相似度高的至少两个候选实体名中确定该表格实体名的对齐实体名。
13.根据权利要求12所述的方法,其特征在于,所述从实体相似度高的至少两个候选实体名中确定该表格实体名的对齐实体名,包括:
基于所述第三目标表格中的每一表格实体名与该表格实体名对应的候选实体名集合之间的属性对齐结果和尾实体对齐结果,从实体相似度高的至少两个候选实体名中确定该表格实体名的对齐实体名。
14.一种知识抽取装置,其特征在于,包括:
获取单元,用于获取第一表格集合,所述第一表格集合中的每一表格为带有知识的表格;
识别单元,用于对所述第一表格集合中的表格进行类型识别,得到至少一种目标表格类型下的半结构化的各个表格,作为各个第一目标表格;
抽取单元,用于基于所述各个第一目标表格的表格布局特征,从所述各个第一目标表格中抽取知识信息,所述知识信息用于补全目标知识图谱;其中,各个第一目标表格的表格布局特征不同,从所述第一目标表格中抽取知识信息的方式也不相同。
15.一种知识抽取设备,其特征在于,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行权利要求1-13任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1-13任一项所述的方法。
17.一种计算机程序产品,其特征在于,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行权利要求1-13任一项所述的方法。
CN201910585762.5A 2019-07-01 2019-07-01 一种知识抽取方法及装置 Active CN110275966B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910585762.5A CN110275966B (zh) 2019-07-01 2019-07-01 一种知识抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910585762.5A CN110275966B (zh) 2019-07-01 2019-07-01 一种知识抽取方法及装置

Publications (2)

Publication Number Publication Date
CN110275966A CN110275966A (zh) 2019-09-24
CN110275966B true CN110275966B (zh) 2021-10-01

Family

ID=67963829

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910585762.5A Active CN110275966B (zh) 2019-07-01 2019-07-01 一种知识抽取方法及装置

Country Status (1)

Country Link
CN (1) CN110275966B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111324609B (zh) * 2020-02-17 2023-07-14 腾讯云计算(北京)有限责任公司 知识图谱构建方法、装置、电子设备及存储介质
CN111523326B (zh) * 2020-04-23 2023-03-17 北京百度网讯科技有限公司 实体链指方法、装置、设备以及存储介质
CN111767376B (zh) * 2020-06-03 2023-04-07 北京理工大学 基于动态知识图谱的问答系统及方法
CN113159326B (zh) * 2021-03-03 2024-02-23 国网山西省电力公司信息通信分公司 基于人工智能的智能业务决策方法
CN113656592B (zh) * 2021-07-22 2022-09-27 北京百度网讯科技有限公司 基于知识图谱的数据处理方法、装置、电子设备和介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570081A (zh) * 2016-10-18 2017-04-19 同济大学 基于语义网的大规模离线数据分析框架
CN106649844A (zh) * 2016-12-30 2017-05-10 浙江工商大学 非结构化文本数据增强型分布式大规模数据维度抽取方法
CN107330125A (zh) * 2017-07-20 2017-11-07 云南电网有限责任公司电力科学研究院 基于知识图谱技术的海量非结构化配网数据集成方法
CN108228664A (zh) * 2016-12-22 2018-06-29 中国移动通信集团上海有限公司 非结构化数据处理方法及装置
CN108446368A (zh) * 2018-03-15 2018-08-24 湖南工业大学 一种包装产业大数据知识图谱的构建方法及设备
CN108446367A (zh) * 2018-03-15 2018-08-24 湖南工业大学 一种基于知识图谱的包装行业数据搜索方法及设备
CN109885698A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种知识图谱构建方法及装置、电子设备

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8452782B2 (en) * 2008-03-12 2013-05-28 Nec Corporation Text mining device, text mining method, text mining program, and recording medium
CN103488724B (zh) * 2013-09-16 2016-09-28 复旦大学 一种面向图书的阅读领域知识图谱构建方法
US20160224645A1 (en) * 2015-02-03 2016-08-04 Siemens Aktiengesellschaft System and method for ontology-based data integration
CN104657750B (zh) * 2015-03-23 2018-04-27 苏州大学张家港工业技术研究院 一种用于人物关系抽取的方法和装置
CN106855851A (zh) * 2015-12-08 2017-06-16 中国移动通信集团公司 知识抽取方法及装置
CN106934042B (zh) * 2017-03-16 2020-05-29 中国人民解放军国防科学技术大学 一种知识图谱表示系统及其实施方法
CN108694201A (zh) * 2017-04-10 2018-10-23 华为软件技术有限公司 一种实体对齐方法和装置
CN107480191B (zh) * 2017-07-12 2020-08-21 清华大学 一种迭代的实体对齐模型
CN108268581A (zh) * 2017-07-14 2018-07-10 广东神马搜索科技有限公司 知识图谱的构建方法及装置
CN108304933A (zh) * 2018-01-29 2018-07-20 北京师范大学 一种知识库的补全方法及补全装置
CN109189943B (zh) * 2018-09-19 2021-06-04 中国电子科技集团公司信息科学研究院 一种能力知识抽取及能力知识图谱构建的方法
CN109885691A (zh) * 2019-01-08 2019-06-14 平安科技(深圳)有限公司 知识图谱补全方法、装置、计算机设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570081A (zh) * 2016-10-18 2017-04-19 同济大学 基于语义网的大规模离线数据分析框架
CN108228664A (zh) * 2016-12-22 2018-06-29 中国移动通信集团上海有限公司 非结构化数据处理方法及装置
CN106649844A (zh) * 2016-12-30 2017-05-10 浙江工商大学 非结构化文本数据增强型分布式大规模数据维度抽取方法
CN107330125A (zh) * 2017-07-20 2017-11-07 云南电网有限责任公司电力科学研究院 基于知识图谱技术的海量非结构化配网数据集成方法
CN108446368A (zh) * 2018-03-15 2018-08-24 湖南工业大学 一种包装产业大数据知识图谱的构建方法及设备
CN108446367A (zh) * 2018-03-15 2018-08-24 湖南工业大学 一种基于知识图谱的包装行业数据搜索方法及设备
CN109885698A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种知识图谱构建方法及装置、电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
医学知识图谱构建技术与研究进展;袁凯琦 等;《计算机应用研究》;20180731;第35卷(第7期);第1929-1936 *

Also Published As

Publication number Publication date
CN110275966A (zh) 2019-09-24

Similar Documents

Publication Publication Date Title
CN110275966B (zh) 一种知识抽取方法及装置
CN110019843B (zh) 知识图谱的处理方法及装置
CN107766324B (zh) 一种基于深度神经网络的文本一致性分析方法
CN102184204B (zh) 一种智能Web表单自动填充方法及系统
CN107766371A (zh) 一种文本信息分类方法及其装置
CN103823890A (zh) 一种针对特定群体的微博热点话题检测方法及装置
CN104573130A (zh) 基于群体计算的实体解析方法及装置
CN102929930A (zh) 小样本自动化Web文本数据抽取模板生成与抽取方法
CN113434684B (zh) 自监督学习的谣言检测方法、系统、设备及存储介质
CN109165373B (zh) 一种数据处理方法及装置
CN112241458B (zh) 文本的知识结构化处理方法、装置、设备和可读存储介质
CN114153978A (zh) 模型训练方法、信息抽取方法、装置、设备及存储介质
CN107301411A (zh) 数学公式识别方法及装置
CN104794163A (zh) 实体集合扩展方法
CN115600605A (zh) 一种中文实体关系联合抽取方法、系统、设备及存储介质
CN115936624A (zh) 基层数据管理方法及装置
CN113642320A (zh) 文档目录结构的提取方法、装置、设备和介质
CN111709225A (zh) 一种事件因果关系判别方法、装置和计算机可读存储介质
CN110969005B (zh) 一种确定实体语料之间的相似性的方法及装置
CN106844743B (zh) 维吾尔语文本的情感分类方法及装置
CN113761137B (zh) 一种提取地址信息的方法及装置
CN111984790B (zh) 一种实体关系抽取方法
CN112148735A (zh) 一种用于结构化表格数据知识图谱的构建方法
CN112765976A (zh) 文本相似度计算方法、装置、设备及存储介质
CN109241438B (zh) 基于要素的跨通道热点事件发现方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant