CN109815343B - 获得知识图谱中的数据模型的方法、装置、设备和介质 - Google Patents

获得知识图谱中的数据模型的方法、装置、设备和介质 Download PDF

Info

Publication number
CN109815343B
CN109815343B CN201910081843.1A CN201910081843A CN109815343B CN 109815343 B CN109815343 B CN 109815343B CN 201910081843 A CN201910081843 A CN 201910081843A CN 109815343 B CN109815343 B CN 109815343B
Authority
CN
China
Prior art keywords
type
data model
determining
candidate
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910081843.1A
Other languages
English (en)
Other versions
CN109815343A (zh
Inventor
李千
史亚冰
梁海金
张扬
朱勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910081843.1A priority Critical patent/CN109815343B/zh
Publication of CN109815343A publication Critical patent/CN109815343A/zh
Priority to KR1020200002709A priority patent/KR102299744B1/ko
Priority to JP2020002943A priority patent/JP6933736B2/ja
Priority to US16/749,029 priority patent/US11556812B2/en
Priority to EP20153635.6A priority patent/EP3686749A1/en
Application granted granted Critical
Publication of CN109815343B publication Critical patent/CN109815343B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开的实施例涉及用于获得知识图谱中的数据模型的方法、装置、设备和介质。一种用于获得知识图谱中的数据模型的方法包括接收描述实体与对象之间的关系的知识条目。该方法还包括基于实体、关系和对象中的至少一项,来确定该对象的多个候选类型。该方法还包括基于预定规则,从多个候选类型中确定用于生成与该知识条目相匹配的数据模型的对象类型。此外,该方法还包括至少基于该对象类型来生成数据模型。本公开的实施例能够从主谓宾(SPO)形式的知识条目中自动地归纳和挖掘合适的对象类型,从而能够在有效降低人力成本的情况下高效地构建知识图谱中的数据模型。此外,该方案能够保证自动构建的数据模型中的对象类型具有合适的泛化程度。

Description

获得知识图谱中的数据模型的方法、装置、设备和介质
技术领域
本公开的实施例涉及计算机领域,并且更具体地涉及用于获得知识图谱中的数据模型的方法、装置、设备和计算机可读存储介质。
背景技术
知识图谱又称为知识库(Knowledge Base),其被用于描述真实世界中存在的各种实体和概念、它们之间的关系以及它们各自的属性。目前,知识图谱被广泛地应用于搜索、人工智能、深度学习等领域。在知识图谱中,使用schema来描述某个领域的数据模型,其包含该领域内的实体类型、与该实体类型相关联的关系(或属性)、以及与该实体类型具有上述关系的对象(或属性值)的类型。例如,以知识条目“温柔的作者是五月天”为例,其所对应的数据模型可以被表示为“音乐-作者-人物”。
为了便于构建知识图谱,期望从不同来源的数据中挖掘和归纳各个领域的schema。
发明内容
根据本公开的示例实施例,提供了用于获得知识图谱中的数据模型的方案。
在本公开的第一方面中,提供了一种用于获得知识图谱中的数据模型的方法。该方法包括接收描述实体与对象之间的关系的知识条目。该方法还包括基于实体、关系和对象中的至少一项,来确定该对象的多个候选类型。该方法还包括基于预定规则,从多个候选类型中确定用于生成与该知识条目相匹配的数据模型的对象类型。此外,该方法还包括至少基于该对象类型来生成数据模型。
在本公开的第二方面中,提供了用于获得知识图谱中的数据模型的装置。该装置包括:第一接收模块,被配置为接收描述实体与对象之间的关系的知识条目;第一确定模块,被配置为基于实体、关系和对象中的至少一项来确定该对象的多个候选类型;第二确定模块,被配置为基于预定规则从多个候选类型中确定用于生成与该知识条目相匹配的数据模型的对象类型;以及第一生成模块,被配置为至少基于该对象类型来生成数据模型。
在本公开的第三方面中,提供了一种用于获得知识图谱中的数据模型的设备。该设备包括:一个或多个处理器;以及存储装置,用于存储一个或多个程序,当该一个或多个程序被一个或多个处理器执行时,使得该一个或多个处理器实现根据本公开的第一方面的方法。
在本公开的第四方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
图1示出了根据本公开的实施例的示例系统的框图;
图2示出了根据本公开的实施例的用于获得知识图谱中的数据模型的方法的流程图;
图3示出了根据本公开的实施例的确定用于生成数据模型的对象类型的示例过程的框图;
图4示出了根据本公开的实施例的从多个候选对象类型中确定用于生成数据模型的对象类型的示例规则的流程图;
图5示出了根据本公开的实施例的用于获得知识图谱中的数据模型的方法的流程图;
图6示出了根据本公开的实施例的用于获得知识图谱中的数据模型的装置的框图;以及
图7示出了可以实施本公开实施例的计算设备的框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
如上所述,在知识图谱中,使用schema来描述某个领域的数据模型,其包含该领域内的实体类型、与该实体类型相关联的关系(或属性)、以及与该实体类型具有上述关系的对象(或属性值)的类型。在此所述的“实体类型”指代实体所属的分类,其通常可以利用描述实体的词语的上位词来表示。在此所述的“对象的类型”指代与实体发生关联的对象(例如,该实体的属性的值、或者与该实体具有某种关系的另一实体)所属的分类,其通常可以利用描述对象的词语的上位词来表示。
以主谓宾(SPO)形式的知识条目“温柔的作者是五月天”为例,其包括描述实体的主语“温柔”,描述关系的谓词“作者”和描述对象的宾语“五月天”。在该示例中,实体“温柔”的类型(本文也称为“实体类型”或SType)例如为“音乐”,关系例如为“作者”,而对象“五月天”的类型(本文也称为“对象类型”或OType)例如为“人物”。因此,与知识条目“温柔的作者是五月天”相对应的数据模型(即,schema)可以被表示为“音乐-作者-人物”。
为了便于构建知识图谱,期望从来自不同来源的知识条目中挖掘和归纳各个领域的数据模型。然而,同一对象可能存在多个上位词(例如,上述示例中对象“五月天”的上位词可以是音乐人、人物或事物),也即与同一知识条目相对应的对象类型可能不止一种。在此情况下,为了构建合适的数据模型,需要确定与知识条目的语义最为匹配的对象类型。此外,所确定的对象类型的泛化程度应当是合适的,既不会过于泛化也不会过于细化。
传统方案通常利用人工方式来编辑数据模型中的对象类型、或者复用已有数据模型中的对象类型。能够看出,这些方案均存在不同程度的外部依赖性。
根据本公开的实施例,提出了一种用于获得知识图谱中的数据模型的方案。该方案能够从SPO形式的知识条目中自动地归纳和挖掘合适的对象类型,从而能够在有效降低人力成本的情况下高效地构建知识图谱中的数据模型。除了能够消除传统方案中的外部依赖性以外,该方案能够保证自动构建的数据模型中的对象类型具有合适的泛化程度。
以下将参照附图来具体描述本公开的实施例。
图1示出了根据本公开的实施例的示例系统100的框图。如图1所示,示例系统100总体上可以包括模型获得装置120。应当理解,在图1中仅出于示例性的目的描述系统100的结构和功能,而不暗示对于本公开的范围的任何限制。本公开的实施例还可以被应用到具有不同的结构和/或功能的环境中。
模型获得装置120可以从多个数据来源接收输入数据110。如图1所示,输入数据110例如可以包括SPO形式的知识条目111。知识条目111的示例例如为“温柔的作者是五月天”,其描述了与实体“温柔”的关系为“作者”的另一实体“五月天”。知识条目111的示例又如“张学友的生日是7月10日”,其描述了实体“张学友”的属性“生日”的属性值“7月10日”。在本文中,将实体的属性的值或者与该实体具有某种关系的另一实体统称为“对象”,例如以上示例中的“五月天”和“7月10日”。
模型获得装置120可以生成与知识条目111相匹配的数据模型130。如图1所示,数据模型130可以包括实体类型131、关系132和对象类型133。以知识条目“温柔的作者是五月天”为例,其实体类型例如为“音乐”,关系为“作者”,并且对象类型例如为“人物”,所以与其匹配的数据模型可以被表示为“音乐-作者-人物”。以知识条目“张学友的生日是7月10日”为例,其实体类型例如为“人物”,关系为“生日”,并且对象类型例如为“时间”,所以与其匹配的数据模型可以被表示为“人物-生日-时间”。
如上所述,为了获得与知识条目111相匹配的数据模型130,模型获得装置120需要确定与知识条目111相对应的实体类型131、关系132和对象类型133。例如,模型获得装置120可以利用任何已知或将要开发的方法或技术来确定实体类型131和关系132,在此不再赘述。在下文中,将进一步结合附图来详细描述模型获得装置120如何确定与知识条目111相对应的对象类型133。
图2示出了根据本公开实施例的用于获得知识图谱中的数据模型的方法200的流程图。例如,方法200可以由如图1所示的模型获得装置120来执行。以下将结合图1来详细描述方法200。应当理解,方法200还可以包括未示出的附加框和/或可以省略所示出的框。本公开的范围在此方面不受限制。
在框210处,模型获得装置120接收描述实体与对象之间的关系的知识条目111。以知识条目“温柔的作者是五月天”为例,其描述了与实体“温柔”的关系为“作者”的对象“五月天”。
在框220处,模型获得装置120基于实体、关系和对象中的至少一项,来确定该对象的多个候选类型。
图3示出了根据本公开的实施例的确定用于生成数据模型的对象类型的示例过程300的框图。例如,图3示出了由模型获得装置120所确定的与知识条目111中的对象相对应的多个候选对象类型310-1、310-2……310-5(统称为“候选对象类型310”或“候选类型310”)。以下结合图3来详细描述框220。尽管在图3中示出了与知识条目111相对应的5个候选对象类型,然而这仅仅出于示例的目的而无意于限制本公开的范围。应当理解,模型获得装置120可以确定比图3所示的数目更多或更少的候选对象类型。
在一些实施例中,模型获得装置120可以将知识条目111中描述关系的词语(也称为谓词)划分成多个分词,并且基于多个分词之一来确定对象的第一候选类型310-1。
例如,以知识条目“麦当劳的营业时间为0:00-24:00”为例,其谓词为“营业时间”。例如,模型获得装置120可以将谓词“营业时间”划分为“营业”和“时间”两个分词,其中“营业”为形容词而“时间”为名词。模型获得装置120可以基于名词“时间”来确定对象“0:00-24:00”的候选类型,例如“时间”。附加地,在一些实施例中,模型获得装置120例如可以被配置有预定对象类型集合。例如,仅当名词“时间”能够与预定对象类型集合中的某个预定对象类型匹配时,模型获得装置120才将名词“时间”确定为对象“0:00-24:00”的候选类型。
附加地或备选地,在一些实施例中,模型获得装置120可以确定该对象是否与预定的非事物类型匹配。当模型获得装置120确定知识条目中的对象与预定的非事物类型匹配时,模型获得装置120可以将该预定的非事物类型确定为对象的第二候选类型310-2。在一些实施例中,模型获得装置120可以通过解析描述对象的词语(也即,SPO中的宾语)的词性来确定该对象是否与预定的非事物类型匹配。例如,预定的非事物类型可以是以下之一:文本类型(例如,统一资源定位符等)、时间类型(例如,日期或时间区间等)、数字类型(例如,浮点数、整数等)、数量(由数字和单位组成,例如8个、6只、2天等)、枚举类型(例如,关系枚举、索引枚举、值类型枚举或布尔枚举等)。
举例而言,以上述知识条目“麦当劳的营业时间为0:00-24:00”为例,通过对对象“0:00-24:00”进行词性解析可以确定其指代时间区间,这与上述非事物类型中的“时间类型”相匹配。因此,模型获得装置120可以将“时间”确定为对象“0:00-24:00”的候选类型。又如,假定某个知识条目的对象为“100”,通过对其进行词性解析,可以确定其类型为上述非事物类型中的“数字类型”。因此,模型获得装置120可以将“数字”确定为对象“100”的候选类型。
附加地或备选地,在一些实施例中,模型获得装置120可以通过预测与知识条目111中的实体具有所述关系的对象类型,来确定知识条目111中的对象的第三候选类型310-3。
例如,假设知识条目的主语和谓词(即,实体和关系)为“汽车的速度”,则模型获得装置120可以预测与之关联的对象可能是“xxx公里每小时”,从而确定与“汽车的速度”相关联的对象类型可能为“数量”。应当理解,模型获得装置120也可以利用任何已知或将来开发的预测工具,以基于知识条目中的主语和谓词两者来预测对象的候选类型。
附加地或备选地,在一些实施例中,模型获得装置120可以基于知识条目的语义来确定与该语义最为匹配的对象类型,以作为第四候选对象类型310-4。在一些实施例中,模型获得装置120可以确定实体(即,SPO中的主语)的多个实体上位词并且确定对象(即,SPO中的宾语)的多个对象上位词。然后,模型获得装置120可以从多个实体上位词和多个对象上位词中确定与该知识条目的语义匹配度最高的实体上位词和对象上位词的组合。模型获得装置120可以进一步将该组合中的对象上位词确定为对象的候选类型。
以知识条目“温柔的演唱者是五月天”为例,实体“温柔”的上位词可以是“音乐”、“电影”等,对象“五月天”的上位词可以是“音乐人”、“餐厅”、“地点”等。然而,根据该知识条目的语义,模型获得装置120可以确定实体上位词“音乐”和对象上位词“音乐人”的组合与该知识条目的语义最为匹配。因此,模型获得装置120可以将“音乐人”确定为对象“五月天”的候选类型。
附加地或备选地,在一些实施例中,模型获得装置120可以配置有预定对象类型集合。模型获得装置120可以基于知识条目的语义来确定知识条目中的对象是否与预定对象类型集合中的对象类型匹配。当模型获得装置120确定知识条目中的对象与预定对象类型集合中的某个对象类型匹配时,模型获得装置120可以将所匹配的对象类型确定为对象的第五候选类型310-5。
例如,仍以知识条目“温柔的演唱者是五月天”为例,如果预定对象类型集合中仅包括对象类型“人物”而不包括对象类型“音乐人”,则模型获得装置120可以将对象类型“人物”确定为对象“五月天”的候选类型。
以上仅列举了确定知识条目中的对象的候选类型的若干示例方式。应当理解,本公开的实施例还可以利用其他方式或工具来确定知识条目中的对象的候选类型,而不仅仅限于以上所列举的这些示例。
在框230处,模型获得装置120基于预定规则从多个候选类型中确定用于生成与知识条目相匹配的数据模型的对象类型。例如,如图3所示,模型获得装置120基于规则320从多个候选类型310中确定与知识条目111相对应的对象类型133。在一些实施例中,模型获得装置120可以基于规则320选择多个候选类型310之一作为对象类型133。附加地或备选地,在一些实施例中,模型获得装置120可以通过融合多个候选类型310中的至少一部分候选类型来确定对象类型133。
图4示出了根据本公开的实施例的示例规则320的流程图。应当理解,图4仅示出了如图3所示的规则320的一种示例实现方式。在另一些实施例中,其他规则也是可行的。
如图4所示,模型获得装置120可以确定401第一候选类型310-1是否存在。例如,如上所述,第一候选类型310-1可以是通过对知识条目中的谓词进行分词而确定的候选对象类型。如果第一候选类型310-1存在,则模型获得装置120可以将第一候选类型310-1输出402作为对象类型133。
如果第一候选类型310-1不存在,则模型获得装置120可以确定403第二候选类型310-2是否存在。例如,如上所述,第二候选类型310-2可以是基于知识条目中的宾语的词性而确定的非事物类型。如果第二候选类型310-2存在,则模型获得装置120可以将第二候选类型310-2输出404作为对象类型133。
如果第二候选类型310-2不存在,则模型获得装置120可以确定405第三候选类型310-3是否存在,并且还可以确定406第四候选类型310-4是否存在。例如,如上所述,第三候选类型310-3可以是基于知识条目中的主语和谓词两者而预测的对象类型,并且第四候选类型310-4可以是基于知识条目的语义通过标注实体上位词和对象上位词而确定的对象类型。如果第四候选类型310-4不存在,则模型获得装置120可以进一步确定407第五候选类型310-5是否存在。例如,如上所述,第五候选类型310-5是基于知识条目的语义通过与预定对象类型集合中的对象类型进行匹配而确定的对象类型。
然后,模型获得装置120可以确定408第三候选类型310-3、第四候选类型310-4、和/或第五候选类型310-5中是否仅一个候选类型存在。如果是,则模型获得装置120可以输出409该唯一候选类型以作为对象类型133。
如果模型获得装置120确定第三候选类型310-3和第四候选类型310-4同时存在,或者第三候选类型310-3和第五候选类型310-5同时存在,则模型获得装置120可以进一步确定410存在的多个候选类型中是否存在非事物类型。如果是,则模型获得装置120可以输出411该非事物类型以作为对象类型133。也即,非事物类型可以被优先地选择。
附加地或备选地,在一些实施例中,如果模型获得装置120确定存在的多个候选类型中存在多个非事物类型,则模型获得装置120可以按照多个非事物类型的预定优先级输出优先级最高的非事物类型。在一些实施例中,多个非事物类型的优先级顺序例如为:文本>数字>数量>时间>枚举。应当理解,在另一些实施例中,多个非事物类型的优先级顺序可以与以上顺序不同。
如果模型获得装置120确定存在的多个候选类型中不存在非事物类型,则模型获得装置120可以进一步确定412存在的多个候选类型是否可融合。例如,模型获得装置120可以确定存在的多个候选类型是否存在共同的上位词(也称为“融合结果”)。例如,“人物”和“电影”的共同上位词可以是“事物”。当模型获得装置120确定多个候选类型存在共同的上位词时,模型获得装置120可以将该共同上位词输出413以作为对象类型133。
以此方式,模型获得装置120能够确定用于生成数据模型130的对象类型133。
返回图2,在框240处,模型获得装置120至少基于对象类型133来生成数据模型130。在一些实施例中,例如,模型获得装置120可以利用任何已知或将要开发的方法或技术来确定实体类型131和关系132。模型获得装置120可以通过组合实体类型131、关系132和对象类型133来生成与知识条目111相匹配的数据模型130。
模型获得装置120可以针对来自不同数据来源的多个不同知识条目应用如图2所示的方法200来确定与多个知识条目相匹配的多个数据模型。然而,所确定的多个数据模型中可能存在具有相同实体类型和关系但是具有不同对象类型的若干数据模型。在一些情况下,这些数据模型可以被归并,从而保证所构建的数据模型中对象类型的泛化程度是合适的,既不会过于泛化也不会过于细化。以下结合图5来详细描述针对这类场景的处理。
图5示出了根据本公开实施例的用于获得知识图谱中的数据模型的方法500的流程图。例如,方法500可以由如图1所示的模型获得装置120来执行。应当理解,方法500还可以包括未示出的附加框和/或可以省略所示出的框。本公开的范围在此方面不受限制。
在框510处,模型获得装置120可以接收描述多个实体与多个对象之间的相应关系的多个知识条目。然后,在框520处,模型获得装置120可以生成与所述多个知识条目相匹配的多个数据模型。
在一些实施例中,模型获得装置120可以针对所接收的多个知识条目中的每个知识条目应用如图2所示的方法200,以生成一个对应的数据模型。模型获得装置120可以进一步通过对所生成的数据模型进行去重来得到与多个知识条目相匹配的多个不同数据模型。
在一些实施例中,由模型获得装置120确定的多个数据模型中例如可以包括第一数据模型和第二数据模型,其中第一数据模型指示与第一实体类型具有第一关系的第一对象类型,并且第二数据模型指示与第一实体类型具有第一关系的第二对象类型。举例而言,第一数据模型的示例为“音乐-作者-人物”,而第二数据模型的示例为“音乐-作者-音乐人”,两者的实体类型均为“音乐”且关系均为“作者”,而对象类型分别为“人物”(即,第一对象类型)和“音乐人”(即,第二对象类型)。
在框530处,模型获得装置120可以确定上述第一数据模型中的第一对象类型与第二数据模型中的第二对象类型是否相同。如果不同,则在框540处,模型获得装置120可以确定在多个知识条目所涉及的多个对象中与第一对象类型匹配的对象的第一数目和与第二对象类型匹配的对象的第二数目。
在一些实施例中,模型获得装置120可以对所接收的多个知识条目中涉及的所有对象进行去重,以确定多个知识条目所涉及的非重复对象的总数目。然后,模型获得装置120可以进一步确定由第一对象类型(也即,“人物”)所覆盖的对象的第一数目,和由第二对象类型(也即,“音乐人”)所覆盖的对象的第二数目。例如,在此假设由第一对象类型“人物”覆盖的对象的数目为101,而由第二对象类型“音乐人”覆盖的对象的数目为100。
在框550处,模型获得装置120可以基于第一数目和第二数目,保留第一数据模型和第二数据模型中的至少一个数据模型。
例如,在上述示例中,第一对象类型“人物”是第二对象类型“音乐人”的上位词。在一些实施例中,在第一对象类型是第二对象类型的上位词的情况下,模型获得装置120可以确定第二数目与第一数目的比值是否超过预定阈值。当比值超过预定阈值时,模型获得装置120可以仅保留指示第二对象类型的第二数据模型,而从多个数据模型中移除指示第一对象类型的第一数据模型。以上述示例为例,第二数目与第一数目的比值例如为100/101,假设预定阈值例如为0.8(或其他数值),因此100/101>0.8。在此情况下,模型获得装置120可以从多个数据模型中移除第一数据模型“音乐-作者-人物”,而仅仅保留第二数据模型“音乐-作者-音乐人”。附加地或备选地,在一些实施例中,如果第二数目与第一数目的比值未超过预定阈值,则模型获得装置120可以保留第一数据模型和第二数据模型两者。
在一些实施例中,模型获得装置120可以针对在框520处确定的多个数据模型迭代地执行框530~框550的操作,从而保证所构建的数据模型中对象类型的泛化程度是合适的,既不会过于泛化也不会过于细化。
通过以上描述能够看出,本公开的实施例提出了一种用于获得知识图谱中的数据模型的方案。该方案能够从SPO形式的知识条目中自动地归纳和挖掘合适的对象类型,从而能够在有效降低人力成本的情况下高效地构建知识图谱中的数据模型。除了能够消除传统方案中的外部依赖性以外,该方案能够保证自动构建的数据模型中的对象类型具有合适的泛化程度。
图6示出了根据本公开实施例的用于获得知识图谱中的数据模型的装置600的示意性框图。该装置600可以被用于实现如图1所示的模型获得装置120。如图6所示,装置600可以包括第一接收模块610,被配置为接收描述实体与对象之间的关系的知识条目;第一确定模块620,被配置为基于实体、关系和对象中的至少一项,来确定该对象的多个候选类型;第二确定模块630,被配置为基于预定规则从多个候选类型中确定用于生成与该知识条目相匹配的数据模型的对象类型;以及第一生成模块640,被配置为至少基于该对象类型来生成数据模型。
在一些实施例中,第一确定模块620还被配置为:将知识条目中描述关系的词语划分成多个分词;以及基于多个分词之一来确定对象的第一候选类型。
在一些实施例中,第一确定模块620还被配置为:确定知识条目中描述对象的词语的词性;基于该词性来确定对象是否与预定的非事物类型匹配;以及响应于确定对象与预定的非事物类型匹配,将该预定的非事物类型确定为对象的第二候选类型。
在一些实施例中,预定的非事物类型为以下之一:文本类型、时间类型、数字类型、数量类型和枚举类型。
在一些实施例中,第一确定模块620还被配置为:通过预测与实体具有关系的对象类型,来确定对象的第三候选类型。
在一些实施例中,第一确定模块620还被配置为:确定实体的多个实体上位词;确定对象的多个对象上位词;从多个实体上位词和多个对象上位词中确定与该知识条目的语义匹配度最高的实体上位词和对象上位词的组合;以及基于该组合中的对象上位词,来确定对象的第四候选类型。
在一些实施例中,第一确定模块620还被配置为:基于知识条目的语义来确定对象是否与预定对象类型集合中的对象类型匹配;以及响应于确定对象与预定对象类型集合中的对象类型匹配,将所匹配的对象类型确定为对象的第五候选类型。
在一些实施例中,第二确定模块630还被配置为:基于预定规则,选择多个候选类型之一作为用于生成数据模型的对象类型。
在一些实施例中,多个候选类型至少包括第六候选类型和第七候选类型,并且第二确定模块630还被配置为:确定第六候选类型和第七候选类型的共同上位词;以及基于共同上位词来确定用于生成数据模型的对象类型。
在一些实施例中,装置600还包括:第二接收模块,被配置为接收描述多个实体与多个对象之间的相应关系的多个知识条目;第二生成模块,被配置为生成与多个知识条目相匹配的多个数据模型,多个数据模型至少包括第一数据模型和第二数据模型,第一数据模型指示与第一实体类型具有第一关系的第一对象类型,并且第二数据模型指示与第一实体类型具有第一关系的第二对象类型;第三确定模块,被配置为响应于第一对象类型不同于第二对象类型,从多个对象中确定与第一对象类型相匹配的对象的第一数目和与第二对象类型相匹配的对象的第二数目;以及保留模块,被配置为基于第一数目和第二数目,保留第一数据模型和第二数据模型中的至少一个数据模型。
在一些实施例中,保留模块还被配置为:响应于第一对象类型是第二对象类型的上位词,确定第二数目与第一数目的比值是否超过预定阈值;响应于该比值超过预定阈值,保留第二数据模型并且从多个数据模型中移除第一数据模型;以及响应于该比值未超过预定阈值,保留第一数据模型和第二数据模型两者。
应当理解,装置600中记载的每个模块分别与参考图2描述的方法200和/或参考图5描述的方法500中的每个步骤相对应,并且与方法200和/或500中的相应操作和特征具有同样的效果,具体细节不再赘述。
此外,装置600中所包括的模块和/或单元可以利用各种方式来实现,包括软件、硬件、固件或其任意组合。在一些实施例中,一个或多个单元可以使用软件和/或固件来实现,例如存储在存储介质上的机器可执行指令。除了机器可执行指令之外或者作为替代,装置600中的部分或者全部单元可以至少部分地由一个或多个硬件逻辑组件来实现。作为示例而非限制,可以使用的示范类型的硬件逻辑组件包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD),等等。
图6中所示的这些模块和/或单元可以部分或者全部地实现为硬件模块、软件模块、固件模块或者其任意组合。特别地,在某些实施例中,上文描述的流程、方法或过程可以由存储系统或与存储系统对应的主机或独立于存储系统的其它计算设备中的硬件来实现。
图7示出了可以用来实施本公开的实施例的示例设备700的示意性框图。设备700可以用于实现如图1所示的模型获得装置120。如图所示,设备700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的计算机程序指令或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序指令,来执行各种适当的动作和处理。在RAM703中,还可存储设备700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理单元701执行上文所描述的各个方法和处理,例如方法200和/或方法500。例如,在一些实施例中,方法200和/或方法500可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM703并由CPU 701执行时,可以执行上文描述的方法200和/或方法500的一个或多个步骤。备选地,在其他实施例中,CPU 701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法200和/或方法500。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (22)

1.一种用于获得知识图谱中的数据模型的方法,包括:
接收描述实体与对象之间的关系的知识条目;
基于所述实体、所述关系和所述对象中的至少一项,来确定所述对象的多个候选类型;
基于预定规则,从所述多个候选类型中确定用于生成与所述知识条目相匹配的数据模型的对象类型;以及
至少基于所述对象类型来生成所述数据模型,
其中确定所述对象的所述多个候选类型包括:
确定所述实体的多个实体上位词;
确定所述对象的多个对象上位词;
从所述多个实体上位词和所述多个对象上位词中确定与所述知识条目的语义匹配度最高的实体上位词和对象上位词的组合;以及
基于所述组合中的所述对象上位词,来确定所述多个候选类型之一。
2.根据权利要求1所述的方法,其中确定所述对象的所述多个候选类型包括:
将所述知识条目中描述所述关系的词语划分成多个分词;以及
基于所述多个分词之一来确定所述对象的第一候选类型。
3.根据权利要求1所述的方法,其中确定所述对象的所述多个候选类型包括:
确定所述知识条目中描述所述对象的词语的词性;
基于所述词性来确定所述对象是否与预定的非事物类型匹配;以及
响应于确定所述对象与所述预定的非事物类型匹配,将所述预定的非事物类型确定为所述对象的第二候选类型。
4.根据权利要求3所述的方法,其中所述预定的非事物类型为以下之一:文本类型、时间类型、数字类型、数量类型和枚举类型。
5.根据权利要求1所述的方法,其中确定所述对象的所述多个候选类型包括:
通过预测与所述实体具有所述关系的对象类型,来确定所述对象的第三候选类型。
6.根据权利要求1所述的方法,其中确定所述对象的所述多个候选类型包括:
基于所述知识条目的语义来确定所述对象是否与预定对象类型集合中的对象类型匹配;以及
响应于确定所述对象与所述预定对象类型集合中的对象类型匹配,将所匹配的对象类型确定为所述对象的第五候选类型。
7.根据权利要求1所述的方法,其中从所述多个候选类型中确定用于生成所述数据模型的所述对象类型包括:
基于所述预定规则,选择所述多个候选类型之一作为用于生成所述数据模型的所述对象类型。
8.根据权利要求1所述的方法,其中所述多个候选类型至少包括第六候选类型和第七候选类型,并且从所述多个候选类型中确定用于生成所述数据模型的所述对象类型包括:
确定所述第六候选类型和所述第七候选类型的共同上位词;以及
基于所述共同上位词来确定用于生成所述数据模型的所述对象类型。
9.根据权利要求1所述的方法,还包括:
接收描述多个实体与多个对象之间的相应关系的多个知识条目;
生成与所述多个知识条目相匹配的多个数据模型,所述多个数据模型至少包括第一数据模型和第二数据模型,所述第一数据模型指示与第一实体类型具有第一关系的第一对象类型,并且所述第二数据模型指示与所述第一实体类型具有所述第一关系的第二对象类型;
响应于所述第一对象类型不同于所述第二对象类型,从所述多个对象中确定与所述第一对象类型相匹配的对象的第一数目和与所述第二对象类型相匹配的对象的第二数目;以及
基于所述第一数目和所述第二数目,保留所述第一数据模型和所述第二数据模型中的至少一个数据模型。
10.根据权利要求9所述的方法,其中保留所述第一数据模型和所述第二数据模型中的至少一个数据模型包括:
响应于所述第一对象类型是所述第二对象类型的上位词,确定所述第二数目与所述第一数目的比值是否超过预定阈值;
响应于所述比值超过所述预定阈值,保留所述第二数据模型并且从所述多个数据模型中移除所述第一数据模型;以及
响应于所述比值未超过所述预定阈值,保留所述第一数据模型和所述第二数据模型两者。
11.一种用于获得知识图谱中的数据模型的装置,包括:
第一接收模块,被配置为接收描述实体与对象之间的关系的知识条目;
第一确定模块,被配置为基于所述实体、所述关系和所述对象中的至少一项,来确定所述对象的多个候选类型;
第二确定模块,被配置为基于预定规则从所述多个候选类型中确定与所述知识条目相对应的对象类型;以及
第一生成模块,被配置为至少基于所述对象类型来生成所述数据模型,
其中所述第一确定模块还被配置为:
确定所述实体的多个实体上位词;
确定所述对象的多个对象上位词;
从所述多个实体上位词和所述多个对象上位词中确定与所述知识条目的语义匹配度最高的实体上位词和对象上位词的组合;以及
基于所述组合中的所述对象上位词,来确定所述多个候选类型之一。
12.根据权利要求11所述的装置,其中所述第一确定模块还被配置为:
将所述知识条目中描述所述关系的词语划分成多个分词;以及
基于所述多个分词之一来确定所述对象的第一候选类型。
13.根据权利要求11所述的装置,其中所述第一确定模块还被配置为:
确定所述知识条目中描述所述对象的词语的词性;
基于所述词性来确定所述对象是否与预定的非事物类型匹配;以及
响应于确定所述对象与所述预定的非事物类型匹配,将所述预定的非事物类型确定为所述对象的第二候选类型。
14.根据权利要求13所述的装置,其中所述预定的非事物类型为以下之一:文本类型、时间类型、数字类型、数量类型和枚举类型。
15.根据权利要求11所述的装置,其中所述第一确定模块还被配置为:
通过预测与所述实体具有所述关系的对象类型,来确定所述对象的第三候选类型。
16.根据权利要求11所述的装置,其中所述第一确定模块还被配置为:
基于所述知识条目的语义来确定所述对象是否与预定对象类型集合中的对象类型匹配;以及
响应于确定所述对象与所述预定对象类型集合中的对象类型匹配,将所匹配的对象类型确定为所述对象的第五候选类型。
17.根据权利要求11所述的装置,其中所述第二确定模块还被配置为:
基于所述预定规则,选择所述多个候选类型之一作为用于生成所述数据模型的所述对象类型。
18.根据权利要求11所述的装置,其中所述多个候选类型至少包括第六候选类型和第七候选类型,并且所述第二确定模块还被配置为:
确定所述第六候选类型和所述第七候选类型的共同上位词;以及
基于所述共同上位词来确定用于生成所述数据模型的所述对象类型。
19.根据权利要求11所述的装置,还包括:
第二接收模块,被配置为接收描述多个实体与多个对象之间的相应关系的多个知识条目;
第二生成模块,被配置为生成与所述多个知识条目相匹配的多个数据模型,所述多个数据模型至少包括第一数据模型和第二数据模型,所述第一数据模型指示与第一实体类型具有第一关系的第一对象类型,并且所述第二数据模型指示与所述第一实体类型具有所述第一关系的第二对象类型;
第三确定模块,被配置为响应于所述第一对象类型不同于所述第二对象类型,从所述多个对象中确定与所述第一对象类型相匹配的对象的第一数目和与所述第二对象类型相匹配的对象的第二数目;以及
保留模块,被配置为基于所述第一数目和所述第二数目,保留所述第一数据模型和所述第二数据模型中的至少一个数据模型。
20.根据权利要求19所述的装置,其中所述保留模块还被配置为:
响应于所述第一对象类型是所述第二对象类型的上位词,确定所述第二数目与所述第一数目的比值是否超过预定阈值;
响应于所述比值超过所述预定阈值,保留所述第二数据模型并且从所述多个数据模型中移除所述第一数据模型;以及
响应于所述比值未超过所述预定阈值,保留所述第一数据模型和所述第二数据模型两者。
21.一种用于获得知识图谱中的数据模型的设备,包括:
一个或多个处理器;以及
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现根据权利要求1-10中任一项所述的方法。
22.一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现根据权利要求1-10中任一项所述的方法。
CN201910081843.1A 2019-01-28 2019-01-28 获得知识图谱中的数据模型的方法、装置、设备和介质 Active CN109815343B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201910081843.1A CN109815343B (zh) 2019-01-28 2019-01-28 获得知识图谱中的数据模型的方法、装置、设备和介质
KR1020200002709A KR102299744B1 (ko) 2019-01-28 2020-01-08 지식 그래프 중의 데이터 모델을 획득하는 방법, 장치, 기기 및 저장 매체
JP2020002943A JP6933736B2 (ja) 2019-01-28 2020-01-10 知識グラフにおけるデータモデルを取得する方法、装置、機器及び媒体
US16/749,029 US11556812B2 (en) 2019-01-28 2020-01-22 Method and device for acquiring data model in knowledge graph, and medium
EP20153635.6A EP3686749A1 (en) 2019-01-28 2020-01-24 Method and device for acquiring data model in knowledge graph, and medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910081843.1A CN109815343B (zh) 2019-01-28 2019-01-28 获得知识图谱中的数据模型的方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN109815343A CN109815343A (zh) 2019-05-28
CN109815343B true CN109815343B (zh) 2021-01-22

Family

ID=66605613

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910081843.1A Active CN109815343B (zh) 2019-01-28 2019-01-28 获得知识图谱中的数据模型的方法、装置、设备和介质

Country Status (5)

Country Link
US (1) US11556812B2 (zh)
EP (1) EP3686749A1 (zh)
JP (1) JP6933736B2 (zh)
KR (1) KR102299744B1 (zh)
CN (1) CN109815343B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102273136B1 (ko) * 2019-10-17 2021-07-02 연세대학교 산학협력단 멀티 홉 이웃을 이용한 제로샷 지식 그래프 완성 방법 및 장치
CN111274379B (zh) * 2020-01-15 2023-08-29 北京百度网讯科技有限公司 一种spo的选择方法、装置、电子设备及存储介质
US11853904B2 (en) * 2020-03-26 2023-12-26 Accenture Global Solutions Limited Agnostic creation, version control, and contextual query of knowledge graph
JP7001795B1 (ja) 2020-11-13 2022-01-20 株式会社ネクスティエレクトロニクス シミュレーション用のデータ生成装置、方法及びコンピュータプログラム
CN112732940B (zh) * 2021-01-15 2023-07-14 医渡云(北京)技术有限公司 基于模型的医学知识图谱的推理方法、装置、设备及介质
CN117371529B (zh) * 2023-12-07 2024-04-05 北京市农林科学院信息技术研究中心 作物表型数据知识图谱生成方法、装置、电子设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495892A (zh) * 2011-12-09 2012-06-13 北京大学 一种网页信息抽取方法
CN108153901A (zh) * 2018-01-16 2018-06-12 北京百度网讯科技有限公司 基于知识图谱的信息推送方法和装置
CN108182245A (zh) * 2017-12-28 2018-06-19 北京锐安科技有限公司 人对象属性分类知识图谱的构建方法及装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004036497A (ja) 2002-07-03 2004-02-05 Nissan Motor Co Ltd 排ガス浄化方法
KR20050062624A (ko) * 2002-10-18 2005-06-23 도꾸리쯔교세이호징 가가꾸 기쥬쯔 신꼬 기꼬 구조화 지식에 의거한 학습ㆍ사고기계 및 학습ㆍ사고방법과컴퓨터 시스템 및 정보생성방법
US8078646B2 (en) * 2008-08-08 2011-12-13 Oracle International Corporation Representing and manipulating RDF data in a relational database management system
JP2011108085A (ja) * 2009-11-19 2011-06-02 Nippon Hoso Kyokai <Nhk> 知識構築装置およびプログラム
WO2012088590A1 (en) * 2010-12-30 2012-07-05 Primal Fusion Inc. System and method for using a knowledge representation to provide information based on environmental inputs
US20130262449A1 (en) * 2012-04-02 2013-10-03 Playence GmBH System and method for search refinement using knowledge model
CN106716402B (zh) * 2014-05-12 2020-08-11 销售力网络公司 以实体为中心的知识发现
US20160098645A1 (en) * 2014-10-02 2016-04-07 Microsoft Corporation High-precision limited supervision relationship extractor
KR101644044B1 (ko) * 2015-02-24 2016-08-01 한국과학기술원 개념 및 관계 의역 시스템 및 방법
EP3136262A1 (en) * 2015-07-30 2017-03-01 Tata Consultancy Services Limited Method and system for entity relationship model generation
US10127274B2 (en) * 2016-02-08 2018-11-13 Taiger Spain Sl System and method for querying questions and answers
DE102016223193A1 (de) * 2016-11-23 2018-05-24 Fujitsu Limited Verfahren und Vorrichtung zum Komplettieren eines Wissensgraphen
JP6705763B2 (ja) * 2017-03-16 2020-06-03 ヤフー株式会社 生成装置、生成方法および生成プログラム
KR101988396B1 (ko) * 2017-12-20 2019-06-12 주식회사 솔트룩스 자연어 질의로부터 지식 베이스에 대한 쿼리 생성 및 리소스 랭킹을 위한 시스템 및 이를 포함하는 질의 응답 시스템
KR101987915B1 (ko) * 2017-12-22 2019-06-12 주식회사 솔트룩스 자연어 질의로부터 지식 베이스에 대한 쿼리의 생성에 사용되는 템플릿을 생성하는 시스템 및 이를 포함하는 질의 응답 시스템

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495892A (zh) * 2011-12-09 2012-06-13 北京大学 一种网页信息抽取方法
CN108182245A (zh) * 2017-12-28 2018-06-19 北京锐安科技有限公司 人对象属性分类知识图谱的构建方法及装置
CN108153901A (zh) * 2018-01-16 2018-06-12 北京百度网讯科技有限公司 基于知识图谱的信息推送方法和装置

Also Published As

Publication number Publication date
US11556812B2 (en) 2023-01-17
KR102299744B1 (ko) 2021-09-08
JP2020119544A (ja) 2020-08-06
US20200242490A1 (en) 2020-07-30
KR20200093441A (ko) 2020-08-05
CN109815343A (zh) 2019-05-28
JP6933736B2 (ja) 2021-09-08
EP3686749A1 (en) 2020-07-29

Similar Documents

Publication Publication Date Title
CN109815343B (zh) 获得知识图谱中的数据模型的方法、装置、设备和介质
US9311823B2 (en) Caching natural language questions and results in a question and answer system
US20160275148A1 (en) Database query method and device
US11281737B2 (en) Unbiasing search results
WO2019224629A1 (en) Training data expansion for natural language classification
US11613008B2 (en) Automating a process using robotic process automation code
US11347891B2 (en) Detecting and obfuscating sensitive data in unstructured text
US20130332478A1 (en) Querying and integrating structured and instructured data
CN108776696B (zh) 节点配置方法及装置、存储介质和电子设备
US20160125067A1 (en) Entity resolution between datasets
US20120158742A1 (en) Managing documents using weighted prevalence data for statements
JP7254925B2 (ja) 改良されたデータマッチングのためのデータレコードの字訳
US10719663B2 (en) Assisted free form decision definition using rules vocabulary
US20180307676A1 (en) Systems, Devices, Components and Associated Computer Executable Code for Recognizing and Analyzing/Processing Modification Sentences within Human Language
CN111460822B (zh) 主题扩展的方法、装置、设备和存储介质
US10705810B2 (en) Automatic code generation
CN115563242A (zh) 汽车信息筛选方法、装置、电子设备及存储介质
JP6868062B2 (ja) 情報を更新するための方法と装置
US11170010B2 (en) Methods and systems for iterative alias extraction
CN109815996B (zh) 一种基于循环神经网络的场景自适配方法及装置
CN114218431A (zh) 视频搜索方法、装置、电子设备以及存储介质
US10169074B2 (en) Model driven optimization of annotator execution in question answering system
CN111597311B (zh) 用于输出信息的方法和装置
CN108228648B (zh) 创建索引的方法和设备
CN116010571A (zh) 知识库构建方法、信息查询方法、装置以及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant