CN110162768B - 实体关系的获取方法、装置、计算机可读介质及电子设备 - Google Patents

实体关系的获取方法、装置、计算机可读介质及电子设备 Download PDF

Info

Publication number
CN110162768B
CN110162768B CN201810545940.7A CN201810545940A CN110162768B CN 110162768 B CN110162768 B CN 110162768B CN 201810545940 A CN201810545940 A CN 201810545940A CN 110162768 B CN110162768 B CN 110162768B
Authority
CN
China
Prior art keywords
entity
candidate
combination
relationship
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810545940.7A
Other languages
English (en)
Other versions
CN110162768A (zh
Inventor
谭小龙
汤煌
张小鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of CN110162768A publication Critical patent/CN110162768A/zh
Application granted granted Critical
Publication of CN110162768B publication Critical patent/CN110162768B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明的实施例提供了一种实体关系的获取方法、装置、计算机可读介质及电子设备。该实体关系的获取方法包括:根据第一语料库获取实体组合的第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次,其中各候选实体关系组合为所述实体组合分别与各候选关系词的组合;根据所述第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次,获取各候选实体关系组合的关联度;根据各候选实体关系组合的关联度确定实体关系。本发明实施例的技术方案能够基于候选实体关系组合的统计信息获取候选实体关系组合的关联度,从而减小了实体关系获取的实现复杂度和计算量。

Description

实体关系的获取方法、装置、计算机可读介质及电子设备
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种实体关系的获取方法、装置、计算机可读介质及电子设备。
背景技术
知识图谱(Knowledge Graph/Vault)又称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
知识图谱中主要包含实体以及实体与实体之间的关系,如公司与公司之间的关系、机构与机构之间的关系等,因此获得两个实体之间的关系是构建和完善知识图谱必不可少的步骤。此外,获得实体之间的关系在搜索、智能人机交互、语义标注、机器翻译、公共安全等领域均有重要应用。
现有技术中的三元组的关系抽取技术,如图1所示,通常基于候选三元组,进行特征获取;获取特征后,转化为分类问题。在这种方式中,特征获取的过程中,往往需要较多的处理与计算步骤,且实现起来相对复杂。此外,转为分类过程后,很多方法都需要构建一些人工标注的训练语料,耗费较多时间和精力。
因此,需要一种新的实体关系的获取方法、装置、计算机可读介质及电子设备。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明实施例的目的在于提供一种实体关系的获取方法、装置、计算机可读介质及电子设备,进而至少在一定程度上克服相关技术中存在的特征获取计算量较大、分类过程需要构建人工标注的训练语料导致耗费较多时间的问题。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明实施例的一方面,提供了一种实体关系的获取方法,包括:根据第一语料库获取实体组合的第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次,其中各候选实体关系组合为所述实体组合分别与各候选关系词的组合;根据所述第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次,获取各候选实体关系组合的关联度;根据各候选实体关系组合的关联度确定实体关系。
在本发明的一些实施例中,基于前述方案,还包括:对第三语料库中的文本进行分词,获得分词结果;获取所述分词结果中的名词的文档频率;选择文档频率超过频率阈值的名词以构建所述关系词库。
在本发明的一些实施例中,基于前述方案,还包括:将结构化数据中抽取的关系词添加至所述关系词库中。
在本发明的一些实施例中,基于前述方案,还包括:从第三语料库中获取实体以构建所述实体库。
在本发明的一些实施例中,基于前述方案,所述第一语料库包括所述第二语料库。
在本发明的一些实施例中,基于前述方案,所述第二语料库包括百科语料库和新闻语料库。
在本发明的一些实施例中,基于前述方案,所述第三语料库包括百科语料库,所述实体库中的实体包括所述百科语料库的实体词条。
在本发明的一些实施例中,基于前述方案,还包括:对各候选实体关系组合的关联度进行归一化。
在本发明的一些实施例中,基于前述方案,根据各候选实体关系组合的关联度确定实体关系,包括:根据所述关联度对各候选实体关系组合进行排序;根据排序选取预设数量的候选实体关系组合确定实体关系。
根据本发明实施例的一方面,提供了一种实体关系的获取装置,包括:统计信息获取模块,配置为根据第一语料库获取实体组合的第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次,其中各候选实体关系组合为所述实体组合分别与各候选关系词的组合;关联度获取模块,配置为根据所述第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次,获取各候选实体关系组合的关联度;实体关系确定模块,配置为根据各候选实体关系组合的关联度确定实体关系。
根据本发明实施例的一方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述实施例中所述的实体关系的获取方法。
根据本发明实施例的一方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,配置为存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的实体关系的获取方法。
在本发明的一些实施例所提供的技术方案中,通过获取实体组合的第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次等统计信息,从而能够基于候选实体关系组合的统计信息获取候选实体关系组合的关联度,并通过各候选实体关系组合的关联度确定实体关系,采用所述实体关系的获取方法,不需要进行特征统计,同时也不需要大量人工标注的训练语料,减小了实体关系获取的实现复杂度和计算量。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了现有技术中的一种实体关系的获取方法的流程图;
图2示出了可以应用本发明实施例的实体关系的获取方法或实体关系的获取装置的示例性系统架构的示意图;
图3示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图;
图4示意性示出了根据本发明的一实施例的实体关系的获取方法的流程图;
图5示意性示出了根据本发明的另一实施例的实体关系的获取方法的流程图;
图6示意性示出了根据本发明的又一实施例的实体关系的获取方法的流程图;
图7示意性示出了根据本发明的再一实施例的实体关系的获取方法的流程图;
图8示意性示出了根据本发明的一实施例的实体组库和关系词库的构建方法的流程图;
图9示意性示出了根据本发明的一实施例的实体关系组库的构建方法的流程图;
图10示意性示出了根据本发明的再一实施例的实体关系的获取方法的流程图;
图11示意性示出了根据本发明的一实施例的实体关系的获取方法的示意图;
图12示出了本发明实施例的实体关系的获取方法或实体关系的获取装置的应用场景示意图;
图13示意性示出了根据本发明的一实施例的实体关系的获取装置的框图;
图14示意性示出了根据本发明的另一实施例的实体关系的获取装置的框图;
图15示意性示出了根据本发明的又一实施例的实体关系的获取装置的框图;
图16示意性示出了根据本发明的再一个实施例的实体关系的获取装置的框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
图2示出了可以应用本发明实施例的实体关系的获取方法或实体关系的获取装置的示例性系统架构200的示意图。
如图2所示,系统架构200可以包括终端设备201、202、203中的一种或多种,网络204和服务器205。网络204用以在终端设备201、202、203和服务器205之间提供通信链路的介质。网络204可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
应该理解,图2中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器205可以是多个服务器组成的服务器集群等。
用户可以使用终端设备201、202、203通过网络204与服务器205交互,以接收或发送消息等。终端设备201、202、203可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、便携式计算机和台式计算机、智能聊天机器人等等。
服务器205可以是提供各种服务的服务器。例如用户利用终端设备203(也可以是终端设备201或202)向服务器205发送搜索请求。服务器205可以基于该搜索请求中携带的查询关键词(query)中的实体,在实体关系组库中检索到匹配的搜索结果,并将搜索结果例如实体关系反馈给终端设备203,进而用户可以基于终端设备203上显示的内容确定不同实体之间的关系。
又如终端设备203(也可以是终端设备201或202)可以是智能聊天机器人,用户可以通过该智能聊天机器人向服务器205发送语音指令,该语音指令中包含待查询的实体。服务器205可以基于该语音指令中的待查询的实体,在实体关系组库中检索到匹配的实体关系返回给该智能聊天机器人,进而通过该智能聊天机器人将返回的实体关系通过语音的形式播放,从而用户可以方便的获取到不同实体之间的关系。
图3示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图3示出的电子设备的计算机系统300仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,计算机系统300包括中央处理单元(CPU)301,其可以根据存储在只读存储器(ROM)302中的程序或者从存储部分308加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM 303中,还存储有系统操作所需的各种程序和数据。CPU301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
以下部件连接至I/O接口305:包括键盘、鼠标等的输入部分306;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分307;包括硬盘等的存储部分308;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至I/O接口305。可拆卸介质311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器310上,以便于从其上读出的计算机程序根据需要被安装入存储部分308。
特别地,根据本发明的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分309从网络上被下载和安装,和/或从可拆卸介质311被安装。在该计算机程序被中央处理单元(CPU)301执行时,执行本申请的方法和/或装置中限定的各种功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的方法、装置和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块和/或单元和/或子单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的模块和/或单元和/或子单元也可以设置在处理器中。其中,这些模块和/或单元和/或子单元的名称在某种情况下并不构成对该模块和/或单元和/或子单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。例如,所述的电子设备可以实现如图4或图5或图6或图7或图8或图9或图10或图11所示的各个步骤。
图4示意性示出了根据本发明的一实施例的实体关系的获取方法的流程图。
如图4所示,本实施例提供的实体关系的获取方法可以包括以下步骤。
在步骤S410中,根据第一语料库获取实体组合的第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次,其中各候选实体关系组合为所述实体组合分别与各候选关系词的组合。
语料,通常在统计自然语言处理中实际上不可能观测到大规模的语言实例。所以,人们简单地用文本作为替代,并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。把一个文本集合称为语料库(Corpus)。
本实施例中,所述第一语料库例如可以是百科语料库、新闻语料库、书籍语料库等中的任意一种或者多种的组合,本公开对此不作限定。下文中以所述第一语料库包括百科语料库和新闻语料库为例进行说明。
需要说明的是,本公开实施例中实体是指存在于现实世界中并且可以与其他物体区分开来的物体,如某一个人物、某一个国家、某一个机构、某一条狗、某一种编程语言、某一个学科等。下文中提到的文本,通常作为实体的名字、描述等。
在示例性实施例中,所述实体组合可以包括第一实体和第二实体。但本公开并不限定于此,所述实体组合可以包括更多的实体,下文中以包括两个(即所述第一实体和所述第二实体)实体的实体二元组为例说明所述实体组合。
在示例性实施例中,各候选实体关系组合可以包括所述第一实体和所述第二实体及相应候选关系词。下文中以包括第一实体、第二实体及相应候选关系词的候选三元组为例进行说明。
例如,一个候选实体关系组合可以用如下形式表示:第一实体-候选关系词-第二实体;又例如,一个候选实体关系组合也可以用如下形式表示:第一实体-第二实体-候选关系词。
其中,所述第一实体和所述第二实体的词性可以为名词、动词、形容词等任意一种或者多种,候选关系词可以使用minipar的62种关系词,如obj(动词及其宾语)、appo(同位语)、mod(词和它的修饰性副词)等。下面的实施例中以所述候选关系词的词性为名词为例进行说明,但是本公开并不限定于此。
需要说明的是,本公开实施例中在不同的应用背景下,所述第一实体和所述第二实体之间的关系可以相应变化,如地理位置关系、雇佣关系等。例如,“XX大学校长”,其中“校长”和“XX大学”分别为人物实体和组织实体,而它们之间又构成一种雇佣关系,即校长受雇于XX大学。又例如XXX与XX国的关系应当是国家领导人与国家的关系。再例如,假设实体是公司,分别作为第一实体和第二实体的两个公司之间的关系可以包括但不限于:子公司与母公司关系、合作关系、供应链关系和其他关系等,例如,所述其他关系可以包括:并购关系、收购关系或者注资关系等。
需要说明的是,本实施例中的“频次”和下文中的“文档频率”不是同一个概念,“频次”是指某个候选实体关系组合在所述第一语料库中任意一篇语料中出现一次,其相应的频次就累加1,在该同一篇语料中出现多次,其相应的频次就累加多次;而文档频率是指在同一篇语料中不论是出现一次还是多次,其文档频率均是累加1。
本公开实施例中,上述步骤S410可以进一步包括以下步骤。
在步骤S411中,统计所述第一语料库中所述实体组合的共现频次作为所述第一频次。
本实施例中,所述实体组合的共现频次是指在所述第一语料库中,获取在同一篇语料中,一个实体组合中的各实体同时出现的次数,再将所述第一语料库中所有语料的该实体组合的各实体同时出现的次数累加,即可获得该实体组合的第一频次。
本实施例中,可以通过记录实体二元组在百科语料库(例如百科描述文本)和新闻语料库中共同出现的总次数作为所述第一频次。
例如,(李四,甲六)这个实体二元组为例,在第一篇新闻语料中“李四”和“甲六”这两个实体同时出现了2次,在第二篇新闻语料中同时出现了3次,则当前累计的该实体二元组的第一频次为5。
在步骤S412中,统计所述第一语料库中各候选关系词的出现频次作为所述第二频次。
本实施例中,可以通过记录每一个候选关系词在百科语料库(例如百科描述文本)和新闻语料库中出现的总次数作为所述第二频次。
在步骤S413中,统计所述第一语料库中各候选实体关系组合的共现频次作为所述第三频次。
本实施例中,各候选实体关系组合的共现频次是指在所述第一语料库中,获取在同一篇语料中,一个候选实体关系组合中的各实体及相应的候选关系词同时出现的次数,再将所述第一语料库中所有语料的该候选实体关系组合中的各实体及相应的候选关系词同时出现的次数累加,即可获得该候选实体关系组合的第三频次。
例如,以(李四,甲六,情侣)这个候选三元组为例,在第一篇新闻语料中“李四”、“甲六”、“情侣”同时出现了2次,在第二篇新闻语料中同时出现了4次,则该候选三元组的第三频次当前累计为6。
需要说明的是,上述步骤S411、S412和S413之间的执行顺序不分先后,例如可以按照步骤S411、S412和S413的先后顺序执行,也可以按照步骤S411、S413和S412的先后顺序执行,还可以按照步骤S413、S412和S411的先后顺序执行,还可以按照步骤S413、S411和S412的先后顺序执行,还可以按照步骤S412、S413和S411的先后顺序执行,还可以按照步骤S412、S411和S413的先后顺序执行,或者,步骤S411、S412和S413可以同时并发执行。
在步骤S420中,根据所述第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次,获取各候选实体关系组合的关联度。
本实施例中的关联度是基于实体组合的共现频次和各候选实体关系组合的共现频次、各候选关系词的出现频次等指标来定义的。
例如,各候选实体关系组合的关联度cor可以通过以下公式(1-1)计算获取:
Figure GDA0003926981970000111
上述公式(1-1)中,e1为所述第一实体,e2为所述第二实体,r为候选关系词,F(e1,e2)为所述实体组合的第一频次,F(r)为所述候选关系词的第二频次,F(e1,r,e2)为候选实体关系组合的第三频次。
再例如,各候选实体关系组合的关联度cor还可以通过以下公式(1-2)计算获取:
Figure GDA0003926981970000112
上述公式(1-2)中,e1为所述第一实体,e2为所述第二实体,r为候选关系词,F(e1,e2)为所述实体组合的第一频次,F(r)为所述候选关系词的第二频次,F(e1,r,e2)为候选实体关系组合的第三频次。
需要说明的是,上述关联度的计算公式(1-1)以及(1-2)中可以通过累计所述第一语料库中所有语料中的实体组合的共现频次、各候选关系词的出现频次及各候选实体关系组合的共现频次获得最终的第一频次、第二频次和第三频次,然后再根据上述公式(1-1)或者(1-2)计算获得各候选实体关系组合的关联度,但本公开并不限定于此,在其他实施例中,也可以对所述第一语料库中的单篇语料分别统计实体组合的共现频次、各候选关系词的出现频次及各候选实体关系组合的共现频次作为该篇语料的第一频次、第二频次和第三频次,然后可以根据上述公式计算获得该篇语料的各候选实体关系组合的关联度,当计算出所述第一语料库中各篇语料的关联度后,再根据各篇语料的关联度计算获得最终的候选实体关系组合的关联度,例如可以对各篇语料的关联度求取算术平均值等。
需要说明的是,上述候选实体关系组合的关联度的计算公式(1-1)和(1-2)可以进行各种适当的变形,只要其是根据实体组合的第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次获取各候选实体关系组合的关联度,均属于本公开的保护范围。
在步骤S430中,根据各候选实体关系组合的关联度确定实体关系。
本公开实施方式提供的实体关系的获取方法,通过获取实体组合的第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次等统计信息,从而能够基于候选实体关系组合的统计信息获取候选实体关系组合的关联度,并通过各候选实体关系组合的关联度确定实体关系,采用所述实体关系的获取方法,不需要进行特征统计,同时也不需要大量人工标注的训练语料,减小了实体关系获取的实现复杂度和计算量。
图5示意性示出了根据本发明的另一实施例的实体关系的获取方法的流程图。
如图5所示,本实施例提供的实体关系的获取方法可以包括以下步骤。
在步骤S510中,根据第一语料库获取实体组合的第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次,其中各候选实体关系组合为所述实体组合分别与各候选关系词的组合。
本实施例中的步骤S510可以参照上述图4所示实施例中的步骤S410在此不再详述。
在步骤S520中,根据所述第一语料库获取各候选实体关系组合中的各实体与候选关系词之间的距离信息。
在示例性实施例中,所述距离信息可以包括候选实体关系组合中的第一实体与所述候选关系词之间的第一距离以及所述候选实体关系组合中的第二实体与所述候选关系词之间的第二距离。
本公开实施例中,上述步骤S520可以进一步包括以下步骤。
在步骤S521中,在所述第一语料库中分别获取候选实体关系组合中的第一实体与所述候选关系词之间的距离、第二实体与所述候选关系词之间的距离。
本公开实施例中,实体与候选关系词之间的距离,以及下文中的实体与实体之间的距离,均是指在文本中的相对距离值。这里以字符距离为例进行示例说明,但本公开对此不作限定。
例如,“张三是A公司的CEO”,则第一实体“张三”和候选关系词“CEO”之间的距离是5,第二实体“A公司”和候选关系词“CEO”之间的距离是1。
在步骤S522中,将所述第一实体与所述候选关系词之间的最小距离作为所述第一距离,将所述第二实体与所述候选关系词之间的最小距离作为所述第二距离。
本实施例中,所述第一语料库中包括多篇语料,即使在同一篇语料中,同一个实体与同一个候选关系词之间也可能存在多个距离,这里选择了多个距离中的最小值作为所述距离信息。例如,对于第一实体与所述候选关系词而言,每次有新的距离更新,取较小的那一个距离作为该第一实体与该候选关系词之间的第一距离。
需要说明的是,上述步骤S510和S520之间的执行顺序不分先后,例如,也可以先执行步骤S520,再执行步骤S510,也可以同时并发执行。
在步骤S530中,根据所述第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次以及各实体与候选关系词之间的距离信息,获取各候选实体关系组合的关联度。
本实施例中的关联度是基于实体组合的共现频次和各候选实体关系组合的共现频次、各候选关系词的出现频次,以及各实体与候选关系词之间的距离等指标来定义的。
例如,各候选实体关系组合的关联度cor可以通过以下公式(2-1)获取:
Figure GDA0003926981970000131
上述公式(2-1)中,e1表示所述第一实体,e2表示所述第二实体,r表示候选关系词,F(e1,e2)为所述实体组合的第一频次,F(r)为所述候选关系词的第二频次,F(e1,r,e2)为候选实体关系组合的第三频次,dis(e1,r)为所述第一实体与所述候选关系词之间的第一距离,dis(e2,r)为所述第二实体与所述候选关系词之间的第二距离。min{dis(e1,r),dis(e2,r)表示取所述第一距离和所述第二距离中的较小的一个,这里以距离信息的对数的倒数作为候选实体关系组合的关联度的距离权重。
根据上述的公式(2-1),可以获得不同的候选实体关系组合的关联度。
例如,假设在该第一语料库中实体二元组(“王五”,“李四”)共现频次为1000,候选三元组(“王五”,“李四”,“儿子”)共现频次为100,候选关系词“儿子”的出现频次为1000,同时假设在该第一语料库中“李四”和“儿子”、“王五”和“儿子”之间的最小距离均为10,那么上述公式(1)中的距离权重为1,候选三元组(“王五”,“李四”,“儿子”)的关联度为:0.0001。
再例如,实体二元组(“王五”,“李四”)共现频次为1000,候选三元组(“王五”,“李四”,“妻子”)共现频次为10,候选关系词“儿子”的出现频次为1000,同时“李四”和“妻子”、“王五”和“妻子”之间的最小距离均为100,那么上述公式(1)中的距离权重为0.5,候选三元组(“王五”,“李四”,“妻子”)的关联度为:0.000005。
由上可知,(“王五”,“李四”,“儿子”)这个候选三元组的关联度比(“王五”,“李四”,“妻子”)这个候选三元组的关联度要高,则“王五”和“李四”这两个人物实体之间在现实生活中的真实关系更有可能是父子关系,而非夫妻关系。
需要说明的是,虽然上述公式(2-1)中的对数取以10为底数的lg为例进行说明,但本公开并不限定于此,在其他实施例中,也可以取其他合适的底数。
再例如,各候选实体关系组合的关联度cor可以通过以下公式(2-2)获取:
Figure GDA0003926981970000141
上述公式(2-2)中,e1表示所述第一实体,e2表示所述第二实体,r表示候选关系词,F(e1,e2)为所述实体组合的第一频次,F(r)为所述候选关系词的第二频次,F(e1,r,e2)为候选实体关系组合的第三频次,dis(e1,r)为所述第一实体与所述候选关系词之间的第一距离,dis(e2,r)为所述第二实体与所述候选关系词之间的第二距离。min{dis(e1,r),dis(e2,r)表示取所述第一距离和所述第二距离中的较小的一个,这里以距离信息的对数的倒数作为候选实体关系组合的关联度的距离权重。
又例如,各候选实体关系组合的关联度cor可以通过以下公式(2-3)获取:
Figure GDA0003926981970000151
上述公式(2-3)中,e1表示所述第一实体,e2表示所述第二实体,r表示候选关系词,F(e1,e2)为所述实体组合的第一频次,F(r)为所述候选关系词的第二频次,F(e1,r,e2)为候选实体关系组合的第三频次,dis(e1,r)为所述第一实体与所述候选关系词之间的第一距离,dis(e2,r)为所述第二实体与所述候选关系词之间的第二距离。min{dis(e1,r),dis(e2,r)表示取所述第一距离和所述第二距离中的较小的一个,这里以距离信息的对数的倒数作为候选实体关系组合的关联度的距离权重。
需要说明的是,上述关联度的计算公式(2-1)、(2-2)以及(2-3)中可以通过累计所述第一语料库中所有语料中的实体组合的共现频次、各候选关系词的出现频次及各候选实体关系组合的共现频次获得最终的第一频次、第二频次和第三频次,以及将各实体与候选关系词在所述第一语料库中所有语料中的距离最小值作为所述距离信息,然后再根据上述公式(2-1)、(2-2)或者(2-3)计算获得各候选实体关系组合的关联度,但本公开并不限定于此,在其他实施例中,也可以对所述第一语料库中的单篇语料分别统计实体组合的共现频次、各候选关系词的出现频次及各候选实体关系组合的出现频次作为该篇语料的第一频次、第二频次和第三频次,以及将各实体与候选关系词在该篇语料中的距离最小值作为所述距离信息,然后可以根据上述公式(2-1)、(2-2)或者(2-3)计算获得该篇语料的候选实体关系组合的关联度,当计算出所述第一语料库中各篇语料的关联度后,再根据各篇语料的关联度计算获得最终的候选实体关系组合的关联度,例如可以对各篇语料的关联度求取算术平均值等。
需要说明的是,上述候选实体关系组合的关联度的计算公式(2-1)和(2-2)以及(2-3)可以进行各种适当的变形,只要其是根据实体组合的第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次以及各实体与候选关系词之间的距离信息获取各候选实体关系组合的关联度,均属于本公开的保护范围。
本实施例可以通过计算各候选实体关系组合的关联度时添加距离权重,从而可以获得更准确的实体关系,同时能够减少最终获得的实体关系的数量,进而减少计算数据量。
在步骤S540中,根据各候选实体关系组合的关联度确定实体关系。
本实施方式提供的实体关系的获取方法,通过获取实体组合的第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次等统计信息,以及获取各候选实体关系组合中的各实体与候选关系词之间的距离信息,从而能够基于候选实体关系组合的统计信息和距离信息获取候选实体关系组合的关联度,并通过各候选实体关系组合的关联度确定实体关系,采用所述实体关系的获取方法,不需要进行特征抽取,同时也不需要大量人工标注的训练语料,减小了实体关系获取的实现复杂度和计算量,简化了实现方法。此外,上述计算关联度的公式中通过加入距离权重,可以进一步减少最终获得的实体关系的数量。
图6示意性示出了根据本发明的又一实施例的实体关系的获取方法的流程图。
如图6所示,本实施例提供的实体关系的获取方法可以包括以下步骤。
在步骤S610中,根据第一语料库获取实体组合的第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次,其中各候选实体关系组合为所述实体组合分别与各候选关系词的组合。
本实施例中的步骤S610可以参照上述图4所示实施例中的步骤S410在此不再详述。
在步骤S620中,获取各候选实体关系组合的语义信息。
在示例性实施例中,所述语义信息可以包括候选实体关系组合中的各实体之间的语义相似度以及各候选关系词的关系密切度。
本实施例中,可以利用包括两个实体例如第一实体和第二实体的百科语料,训练word2vector(词向量),计算所述第一实体与所述第二实体之间的语义相似度。例如(李四,王五,爸爸)这个候选三元组,利用百科语料进行训练,计算李四和王五这两个实体的语义相似度。
对于候选关系词,可以按照经验来给予不同的候选关系词不同的分值,代表相应候选关系词的关系密切度。
例如,假设有2000个候选关系词,里面有“爸爸”、“妈妈”、“叔叔”、“老师”等,可以标注一下它们分别代表的“亲密”级别,例如用不同的分值表示不同的关系密切度。
再例如,用word2vector计算“李四”和“王五”之间的语义相似度,如果他们的语义相似度非常近,并且该两个人物实体对应的候选三元组里面有“爸爸”、“妈妈”这些候选关系词,那么就可以用这些候选关系词的关系密切度作为语义权重,可以将该语义权重替换上述公式(2-1)、(2-2)或者(2-3)中的距离权重,使得这些候选三元组更显著。同时,去除一批关系密切度低的候选三元组,减少计算量。
需要说明的是,上述步骤S610和S620之间的执行顺序不分先后,也可以同时并发执行。
在步骤S630中,根据所述第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次以及各候选实体关系组合的语义信息,获取各候选实体关系组合的关联度。
本实施例中的关联度是基于实体组合的共现频次和各候选实体关系组合的共现频次、各候选关系词的出现频次,以及各候选实体关系组合的语义信息等指标来定义的。
在步骤S640中,根据各候选实体关系组合的关联度确定实体关系。
本实施方式提供的实体关系的获取方法,通过获取实体组合的第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次等统计信息,以及获取各候选实体关系组合的语义信息,从而能够基于候选实体关系组合的统计信息和语义信息获取候选实体关系组合的关联度,并通过各候选实体关系组合的关联度确定实体关系,采用所述实体关系的获取方法,不需要进行特征抽取,同时也不需要大量人工标注的训练语料,减小了实体关系获取的实现复杂度和计算量,简化了实现方法。此外,上述计算关联度的公式中通过加入语义权重,可以进一步减少最终获得的实体关系的数量。
图7示意性示出了根据本发明的再一实施例的实体关系的获取方法的流程图。
如图7所示,本实施例提供的实体关系的获取方法可以包括以下步骤。
在步骤S710中,根据第一语料库获取实体组合的第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次,其中各候选实体关系组合为所述实体组合分别与各候选关系词的组合。
本实施例中的步骤S710可以参照上述图4所示实施例中的步骤S410在此不再详述。
在步骤S720中,根据所述第一语料库获取各候选实体关系组合中的各实体与候选关系词之间的距离信息。
本实施例中的步骤S720可以参照上述图5所示实施例中的步骤S520,在此不再详述。
在步骤S730中,获取各候选实体关系组合的语义信息。
在示例性实施例中,所述语义信息可以包括候选实体关系组合中的各实体之间的语义相似度以及各候选关系词的关系密切度。
本实施例中,可以利用包括两个实体例如第一实体和第二实体的百科语料,训练word2vector(词向量),计算所述第一实体与所述第二实体之间的语义相似度。例如(李四,王五,爸爸)这个候选三元组,利用百科语料进行训练,计算李四和王五这两个实体的语义相似度。
对于候选关系词,可以按照经验来给予不同的候选关系词不同的分值,代表相应候选关系词的关系密切度。
例如,假设有2000个候选关系词,里面有“爸爸”、“妈妈”、“叔叔”、“老师”等,可以标注一下它们分别代表的“亲密”级别,例如用不同的分值表示不同的关系密切度。
再例如,用word2vector计算“李四”和“王五”之间的语义相似度,如果他们的语义相似度非常近,并且该两个人物实体对应的候选三元组里面有“爸爸”、“妈妈”这些候选关系词,那么就可以用这些候选关系词的关系密切度作为语义权重,可以将该语义权重与上述公式(2-1)、(2-2)或者(2-3)中的距离权重相加,也可以将该语义权重与上述公式(2-1)、(2-2)或者(2-3)中的距离权重相乘,使得这些候选三元组更显著。同时,去除一批关系密切度低的候选三元组,减少计算量。
需要说明的是,上述步骤S710、S720和S730之间的执行顺序不分先后,也可以同时并发执行。
在步骤S740中,根据所述第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次以及各候选实体关系组合中的各实体与候选关系词之间的距离信息和各候选实体关系组合的语义信息,获取各候选实体关系组合的关联度。
在步骤S750中,根据各候选实体关系组合的关联度确定实体关系。
本实施方式提供的实体关系的获取方法,通过获取实体组合的第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次等统计信息,以及获取各候选实体关系组合中的各实体与候选关系词之间的距离信息,同时还获取各候选实体关系组合的语义信息,从而能够基于候选实体关系组合的统计信息和距离信息以及语义信息获取候选实体关系组合的关联度,并通过各候选实体关系组合的关联度确定实体关系,采用所述实体关系的获取方法,不需要进行特征统计,同时也不需要大量人工标注的训练语料,减小了实体关系获取的实现复杂度和计算量。同时,通过在候选实体关系组合的关联度的计算过程中,增加距离权重和语义权重,可以获得更加准确的实体关系。
在示例性实施例中,上述图4和/或图5和/或图6和/或图7所示的实体关系的获取方法还可以包括:利用实体库和第二语料库获取所述实体组合;利用关系词库和所述第二语料库获取各候选关系词。
在示例性实施例中,利用实体库和第二语料库获取所述实体组合,可以包括:对于从所述第二语料库中获取的语料,将所述语料中的实体与所述实体库中的实体进行匹配,得到匹配实体;以及将同一语料中的任两个或多个所述匹配实体组合构成所述实体组合。
下面通过图8和图9对上述实体库、关系词库的构建过程过程进行说明,并阐述根据上述实体库构建实体组库、根据上述实体库和上述关系词库构建实体关系组库的过程。
图8示意性示出了根据本发明的一实施例的实体组库和关系词库的构建方法的流程图。
如图8所示,本实施例提供的实体组库和关系词库的构建方法可以包括以下步骤。
在步骤S810中,从第三语料库中获取实体构建实体库。
在示例性实施例中,所述第三语料库可以包括百科语料库,所述实体库中的实体包括所述百科语料库的实体词条。但本公开并不限定于此。所述第三语料库也可以包括其他语料库,所述实体库中的实体也可以从所述第三语料库的描述文本中获得。
本实施例中,所述百科语料库例如可以利用网络爬虫,从百度百科、维基百科、互动百科等互联网站点爬取。
本发明实施例中,可以从百科类站点中获取百科的实体词条即百科的title作为实体库中的实体。这样一方面可以缩小实体范围,从而减少计算数据量;另一方面,百科的词条已经足够多,能够得到开放域上几乎所有类型的最常见的实体,能够满足覆盖率的要求。
在步骤S820中,对于从所述第二语料库中获取的语料,将所述语料中的实体与所述实体库中的实体进行匹配,得到匹配实体。
在示例性实施例中,所述第二语料库可以包括百科语料库、新闻语料库、书籍语料库等中的任意一种或者多种。在下面的实施例中,以所述第二语料库包括百科语料库和新闻语料库为例进行说明。
本公开实施例中,为了尽量多的获取实体二元组,希望尽量多的使用好的语料,因此在上述第三语料库的百科语料库的基础上,添加新闻语料库至所述第二语料库,由于新闻语料包罗万象,能获取更多可能存在“关系”的实体二元组。在其他实施例中,为了获取更广泛的存在关系的实体二元组,上述第二语料库还可以在百科语料库和新闻语料库的基础上,再增加书籍语料库等其他语料库。
需要说明的是,上述实施例中用于获取第一频次、第二频次和第三频次的所述第一语料库可以和所述第二语料库是同一语料库,例如,均为包括百科语料库和新闻语料库的语料库,这样,可以在获取所述实体组合、各候选实体关系组合和各候选关系词的过程中,记录所述实体组合的第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次,以及记录所述候选实体关系组合中的各实体与候选关系词之间的距离,这样可以减少数据计算量。在其他实施例中,上述实施例中的所述第一语料库和所述第二语料库可以不是同一语料库,例如,所述第一语料库不仅可以包括所述第二语料库,还可以包括书籍语料库、垂直站点语料库等中的任意一种或者多种的组合,此时,统计获取第一频次、第二频次和第三频次以及记录距离的过程,可以与获取所述实体组合、各候选实体关系组合和各候选关系词的过程分开进行,例如可以在第二语料库中获取所述实体组合、各候选实体关系组合和各候选关系词,再从第一语料库中统计获取第一频次、第二频次和第三频次以及获取距离信息。
在示例性实施例中,将所述语料中的实体与所述实体库中的实体进行匹配,可以包括:将所述实体库中的实体存入字典树;将所述第二语料库的所述语料中的实体与所述字典树中的实体进行匹配。
这里的字典树即trie树可以参考双数组trie树的构建。但本公开对此不限定。
本公开实施例中,由于实体库中的实体的数量级有接近600万条,数量巨大,所以为了提升效率,将实体库中的实体构建trie树,再可以利用所述第二语料库,对每篇语料里,将trie树能匹配到的实体进行两两组合,获得实体二元组,添加至实体组库。
在步骤S830中,将所述第二语料库中的同一语料中的任两个或多个所述匹配实体组合构成所述实体组合,添加至实体组库。
在示例性实施例中,所述方法还可以包括:获取所述实体组合中的实体之间的第三距离;当所述第三距离大于距离阈值时,过滤相应的实体组合。
例如,用公式可以表示为:
dis(e1,e2)<=N (3)
上述公式(3)中,e1表示第一实体,e2表示第二实体,dis(e1,e2)表示e1和e2两个实体之间的第三距离,N为这两个实体在所述第二语料库的语料中的距离阈值。
这里的实体与实体之间的第三距离的计算方式类似于上述第一实体与候选关系词之间的第一距离和第二实体与所述候选关系词之间的第二距离的计算方式,对于同一个实体组合中的第一实体和第二实体而言,在语料中每次有新的距离更新时,取较小的那一个距离作为该实体组合的第三距离。
这里的距离阈值是一个经验值,取值可以基于所用语料中的行文风格,例如,一般说“A公司的CEO是张三”,那么“A公司”和“张三”这两个实体之间的距离不会太远。
反之,若计算出的所述第三距离小于或者等于所述距离阈值,则认为相应的两个实体之间的关系比较明确,则可以进一步从该同一语料中获取该两个实体之间的候选关系词,组合成候选三元组。
本实施例中,每篇语料中,当trie树匹配到多个实体时,可以计算这多个实体之间两两之间的第三距离,如果某个或某些实体组合之间的第三距离大于所述距离阈值,可以将相应的实体组合从所述实体组库中删除或者不添加至所述实体组库中。这样通过先计算语料中两个实体之间的距离,只有语料中两个实体之间的距离在所述距离阈值以内的才需进行后续关联度的频次统计工作,从而减小了计算量,并且可以避免生成不准确的候选实体关系组合。
需要说明的是,虽然本实施例是在构建实体组库的过程中根据实体组合之间的距离是否超过距离阈值来排除相应的实体组合,但在其他实施例中,也可以实体组库的构建过程中不进行该过滤步骤,而是到了下文中的实体关系组库构建过程中,计算候选实体关系组合对应的两个实体之间的第三距离,比如在语料中“李四”和“北京”这两个实体距离的太远,就认为这两个实体之间不存在关系,直接把这两个实体对应的候选三元组从实体关系组库中删除。甚至,还可以获取各候选实体关系组合的关联度后,再过滤实体与实体之间的距离超过距离阈值的候选实体关系组合。本公开对此不作限定。
在示例性实施例中,所述方法还可以包括:当所述实体组合中的实体之间存在包含关系时,过滤相应的实体组合。
例如,在某个或某些实体组合里面,第一实体和第二实体相同;或者,再例如,第一实体是“AB”,第二实体是“ABC”,这两种情况均可以认为同一语料中的实体与实体之间存在包含关系,则删除相应的实体组合。
类似的,也可以在实体关系组库的构建过程过滤实体与实体之间存在包含关系的候选实体关系组合。或者,在获取各候选实体关系组合的关联度后,再过滤实体与实体之间存在包含关系的候选实体关系组合。本公开对此不作限定。
在步骤S840中,从所述第三语料库获取关系词以构建关系词库。
本实施例中,所述第三语料库包括百科文本,即从百科词条的描述文本中获取获取候选关系词,这样,一方面,百科文本数据量够大,能够满足需求;另一方面,可以减小关系词的量级,减少计算量。
在示例性实施例中,根据第三语料库获取关系词,可以包括:对所述第三语料库中的文本进行分词,获得分词结果;获取所述分词结果中的名词的文档频率(documentfrequency,DF,一个词在一篇语料里出现,它的DF就+1);选择文档频率超过频率阈值的名词以构建所述关系词库。
例如,可以采用HanLP分词工具,对百科词条的描述文本进行分词,对其中的名词予以保留,作为初始的关系词,通过计算作为关系词的名词的DF进行降序排序,选择DF超过频率阈值的名词以构建所述关系词库。所述频率阈值的取值也可以根据实际情况进行自主设置。
需要说明的是,本发明实施例中可以采用任意的分词工具,而每个阶段使用的分词工具是一样的,例如关系词获取阶段和实体获取阶段。
本公开实施例中,将名词作为关系词库中的关系词,而不是动词等,是因为两个实体之间的关系,一般是名词居多,比如李四和王五的关系就是“父亲”。在其他实施例中,也可以将其他词性的词语作为关系词库中的关系词,可以根据具体的应用场景进行调整。
例如,假设在百度百科“李四”这个实体对应的描述文本中,有名词“爸爸”,则将“爸爸”作为关系词库中的一个关系词,然后通过计算“爸爸”这个名词在第三语料库中的DF,例如百度百科任意一篇文档中出现“爸爸”这个名词,同一篇文档中不管是出现多次还是一次,其DF均加1。以这种方式获得各个关系词后,将各个关系词的DF与频率阈值去比较,DF小于频率阈值的名词去除,保留DF大于等于频率阈值的名词添加至关系词库中。
在示例性实施例中,所述方法还可以包括:将结构化数据中抽取的关系词添加至所述关系词库中。本实施例中,在关系词库的构建上,可以通过融合结构化数据里抽取的关系词,对该关系词库进行丰富,从而在后续可以召回更多的候选三元组。
例如,可以通过爬虫去特定网站或者一些诸如维基百科类的网站直接获取结构化数据。结构化数据,简单来说就是数据库。
本实施例中,还可以在获得上述关系词库后,标注哪些适合做关系词,其中,适合的保留,不适合的摒弃。如果通过上述方法有少量的比较显著的关系词没有召回,则可以通过人工添加至关系词库中。
需要说明的是,上述步骤S840与S810-830的执行顺序不分先后,也可以同时并发执行,即实体库和实体组库的构建可以与关系词库的构建同时进行,也可以按顺序先后执行。
本实施方式所提供的方法,采用分词工具,对语料库中的文本进行分词,保留其中的名词作为关系词,并通过计算这些名词的DF进行排序,确定最后的关系词库,一方面可以实现关系词库的自动构建,相比于现有技术中采取的人工枚举关系的方式,提高了关系词库的构建效率;另一方面,通过将百科词条的描述文本中的名词作为初步的关系词,减少了关系词库中的关系词的数量,减小了计算量。
图9示意性示出了根据本发明的一实施例的实体关系组库的构建方法的流程图。
本实施例中,上述图4和/或图5和/或图6和/或图7和/或图8所示的实体关系的获取方法还可以包括实体关系组库的构建步骤。如图9所示,本实施例提供的实体关系组库的构建方法可以包括以下步骤。
在步骤S910中,利用关系词库和所述第二语料库获取各候选关系词。
本公开实施例中,对第二语料库中的语料文本进行分词,再将关系词库中的关系词与第二语料库的语料文本的分词结果进行匹配,当关系词库中的某一个或某些关系词出现在第二语料库的某一篇语料文本中时,将这些匹配的关系词提取出来作为候选关系词。
本公开实施例中,所述实体关系的获取方法还可以包括:当所述候选关系词之一与所述实体组合中的一个实体存在包含关系时,过滤所述候选关系词之一。这样,可以通过预先过滤与实体之间存在包含关系的候选关系词,减少后续的候选实体关系组合的数量,从而降低数据计算量。
在步骤S920中,将所述实体组合分别与同一语料中的各候选关系词组合,构成候选实体关系组合。
本公开实施例中,对于每篇语料里匹配到的上述候选关系词,将同一篇语料中获取的实体二元组与这些匹配到的候选关系词分别进行组合,得到候选三元组。
比如有一篇语料是:“李四的爸爸王五今天和他的小女友乙七又出去游玩了,他们现在非常的.....”,那么里面出现的“李四”、“王五”、“乙七”这三个实体,它们就是潜在有关系的实体(这些实体同时例如也都是百科词条的title,即存在于实体库中),两两组合获得的实体二元组包括:“李四王五”、“李四乙七”以及“王五乙七”。
上面的这篇语料中,有三个实体二元组,同时里面还出现了“爸爸”、“女友”这样的候选关系词,那么组合后,可以得到下述候选三元组:“李四王五爸爸”、“李四乙七爸爸”、“王五乙七爸爸”、“李四王五女友”、“李四乙七女友”、以及“王五乙七女友”。
本公开实施例中,还可以根据同义词库对候选关系词进行扩展,例如,候选关系词“爸爸”和“父亲”算是一样的。类似的,上述实施例中的频次统计和距离计算,也可以将同义的候选关系词看成是一样的。
在步骤S930中,根据所述候选实体关系组合构建实体关系组库。
在示例性实施例中,所述方法还可以包括:当所述候选实体关系组合中的实体与候选关系词之间存在包含关系时,过滤相应的候选实体关系组合。
例如,当候选实体关系组合中的第一实体和/或第二实体与该候选实体关系组合中的候选关系词是一样的情况,可以认为第一实体和/或第二实体与该候选实体关系组合中的候选关系词之间存在包含关系,此时可以将该相应的候选实体关系组合删除。这样可以进一步减少关联度计算的计算量。
通过上述步骤构建实体关系组库,可以再利用图4-7中任一所述的实体关系的获取方法确定所述实体关系组库中的各候选实体关系组合的实体关系。
例如,假设实体关系组库中存在下述候选三元组:“李四王五爸爸”、“李四乙七爸爸”、“王五乙七爸爸”、“李四王五女友”、“李四乙七女友”、以及“王五乙七女友”。通过上述的实体关系的获取方法中的各候选实体关系组合的关联度的计算,可以获得“李四王五爸爸”和“王五乙七女友”的关联度值较大,而“李四乙七爸爸”、“王五乙七爸爸”、“李四王五女友”和“李四乙七女友”的关联度值较小,此时,可以确定李四的爸爸是王五,王五的女友是乙七,而将“李四乙七爸爸”、“王五乙七爸爸”、“李四王五女友”和“李四乙七女友”这几个候选三元组从实体关系组库中删除,保留“李四王五爸爸”和“王五乙七女友”这两个候选实体关系组合。
图10示意性示出了根据本发明的再一实施例的实体关系的获取方法的流程图。
如图10所示,本实施例提供的实体关系的获取方法可以包括以下步骤。
在步骤S1010中,获取各候选实体关系组合的关联度。
其中,关联度的获取方式可以参照上述实施例中的方法,在此不再详述。
在步骤S1020中,对各候选实体关系组合的关联度进行归一化。
这里可以采用min-max归一化方法或者Z-score方法等中的任意一种,本公开对此不作限定。
在步骤S1030中,根据归一化后的所述关联度对各候选实体关系组合进行排序。
本实施例中,根据归一化后的关联度的大小进行降序排列(在其他实施例中,也可以进行升序排列),关联度越大的排序越前,说明该实体二元组与该候选关系词之间的关系越紧密,关联度越大,用户输入信息时,可以将关联度越大的搜索结果排序在前返回给用户终端。
在步骤S1040中,根据排序选取预设数量的候选实体关系组合确定实体关系。
在现实生活中,相同的两个实体之间可能存在一个或者多个真实的关系。比如,李四和王五可能同时是父子关系和上下级关系,在一个公司,王五是领导,李四是下属。这时可以根据上述方法计算获得两个实体之间的关联度,然后将关联度按照大小降序排列,选择排序在前的预设数量的候选实体关系组合确定实体关系。所述预设数量可以根据经验进行设置。
图11示意性示出了根据本发明的一实施例的实体关系的获取方法的示意图。
如图11,本实施例提供的实体关系的获取方法可以包括以下步骤。
首先,将百科词条作为实体,生成原始的实体库。然后,对各实体的百科词条描述文本进行分词并结合一定的人工干预获得候选关系词。
将上述获得的实体存入trie树,利用百科词条描述文本和新闻语料,对每篇语料里,trie能匹配到的实体进行两两组合,获取实体二元组。
对于每篇语料里匹配到的候选关系词,将上述实体二元组与候选关系词进行组合,获得候选三元组。
在获取候选关系词、实体二元组、候选三元组的过程中,记录每个候选关系词、实体二元组、各个候选三元组的频次,同时记录实体-实体之间的距离、实体与候选关系词之间的距离,根据这些统计信息和距离信息计算上述获取的各候选三元组的关联度。还可以对实体与实体之间的距离超过设定的阈值N和/或实体与实体、实体与候选关系词之间有包含关系的实体二元组或者候选三元组进行过滤,这样可以达到一定的去噪作用,缩小整体计算规模。对于每个候选三元组,利用统计信息和距离信息计算出此相应的实体二元组与之相应的候选关系词之间的关联度,并对其分值归一化后进行排序。
图12示出了本发明实施例的实体关系的获取方法或实体关系的获取装置的应用场景示意图。
如图12,上述实施例的实体关系的获取方法提供了一种简单且相对高效的实体关系三元组获取技术,能够利用当前的各种语料抽取较为完善的开放域实体关系,可以生成实体关系组库。
其中,生成的实体关系组库可以应用于智能聊天机器人的聊天系统、搜索引擎、自动问答系统或者人机聊天软件等,即所述实体关系的获取方法可以应用于任何需要获取实体之间的关系作为准确或相对准确答案的场合。用户通过文字、语音等任意方式,输入相应的询问语句,智能机器人、问答系统或者搜索引擎等从底层实体关系组库里检索出相对应关系的回答反馈给用户终端,实现人与机器、软件的自然交互。。
当应用于智能机器人领域时,可以帮助机器人快速实时地从实体关系组库中检索出准确答案,聊天系统可以做出相应的答复,从而可以实现人机自然交互聊天。
例如,用户问聊天机器人:李四是谁呀?
机器人从实体关系组库检索李四的三元组可以回答:李四的职业是演员,他的爸爸是王五,他的妈妈是狄波拉,他…。
当应用在问答系统或搜索引擎中时,可以省去从互联网上搜索答案所需要消耗的大量计算和时间资源,并可以在理解用户意图的基础上,直接查找返回正确答案,高效便捷准确。
例如:用户在搜索框中输入query:中国的首都是哪里?
搜索引擎通过对该query解析获得:中国→首都→地址,从而返回答案:北京。
以下介绍本发明的装置实施例,可以用于执行本发明上述的实体关系的获取方法。对于本发明装置实施例中未披露的细节,请参照本发明上述的实体关系的获取方法的实施例。
图13示意性示出了根据本发明的一实施例的实体关系的获取装置的框图。
如图13所示,本实施例提供的实体关系的获取装置1300可以包括统计信息获取模块1310、关联度获取模块1320以及实体关系确定模块1330。
其中,统计信息获取模块1310可以配置为根据第一语料库获取实体组合的第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次,其中各候选实体关系组合为所述实体组合分别与各候选关系词的组合。
本实施例中,统计信息获取模块1310可以进一步包括第一频次统计单元、第二频次统计单元以及第三频次统计单元。
其中,所述第一频次统计单元可以配置为统计所述第一语料库中所述实体组合的共现频次作为所述第一频次。
所述第二频次统计单元可以配置为统计所述第一语料库中各候选关系词的出现频次作为所述第二频次。
所述第三频次统计单元可以配置为统计所述第一语料库中各候选实体关系组合的共现频次作为所述第三频次。
关联度获取模块1320可以配置为根据所述第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次,获取各候选实体关系组合的关联度。
实体关系确定模块1330可以配置为根据各候选实体关系组合的关联度确定实体关系。
在示例性实施例中,所述实体组合可以包括第一实体和第二实体,其中各候选实体关系组合的关联度cor通过以下公式获取:
Figure GDA0003926981970000291
上述公式中,e1为所述第一实体,e2为所述第二实体,r为所述候选关系词,F(e1,e2)为所述实体组合的第一频次,F(r)为所述候选关系词的第二频次,F(e1,r,e2)为候选实体关系组合的第三频次。
在示例性实施例中,实体关系的获取装置1300还可以包括实体组合获取模块和关系词获取模块。
其中,所述实体组合获取模块可以配置为利用实体库和第二语料库获取所述实体组合。所述关系词获取模块可以配置为利用关系词库和所述第二语料库获取所述各候选关系词。
在示例性实施例中,所述实体组合获取模块可以包括实体匹配单元和实体组合单元。
其中,所述实体匹配单元可以配置为对于从所述第二语料库中获取的语料,将所述语料中的实体与所述实体库中的实体进行匹配,得到匹配实体。所述实体组合单元可以配置为将同一语料中的任两个或多个所述匹配实体组合构成所述实体组合。
在示例性实施例中,所述关系词获取模块可以包括关系词匹配单元。其中,所述关系词匹配单元可以配置为将同一语料中的关系词与所述关系词库中的关系词进行匹配,得到候选关系词。
在示例性实施例中,所述实体匹配单元可以包括字典树构建子单元和实体匹配子单元。其中,所述字典树构建子单元可以配置为将所述实体库中的实体存入字典树。所述实体匹配子单元可以配置为将所述语料中的实体与所述字典树中的实体进行匹配。
在示例性实施例中,实体关系的获取装置1300还可以包括:实体距离获取模块以及第一实体过滤模块。
其中,所述实体距离获取模块可以配置为获取所述实体组合中的实体之间的第三距离。所述第一实体过滤模块可以配置为当所述第三距离大于距离阈值时,过滤相应的实体组合。
在示例性实施例中,实体关系的获取装置1300还可以包括第二实体过滤模块。其中,所述第二实体过滤模块可以配置为当所述实体组合中的实体之间存在包含关系时,过滤相应的实体组合。
在示例性实施例中,实体关系的获取装置1300还可以包括关系词过滤模块。其中,所述关系词过滤模块可以配置为当所述候选关系词之一与所述实体组合中的一个实体存在包含关系时,过滤所述候选关系词之一。
在示例性实施例中,实体关系的获取装置1300还可以包括:分词模块、文档频率获取模块以及关系词库构建模块。
其中,所述分词模块可以配置为对第三语料库中的文本进行分词,获得分词结果。所述文档频率获取模块可以配置为获取所述分词结果中的名词的文档频率。所述关系词库构建模块可以配置为选择文档频率超过频率阈值的名词以构建所述关系词库。
在示例性实施例中,实体关系的获取装置1300还可以包括结构数据模块。其中,所述结构数据模块可以配置为将结构化数据中抽取的关系词添加至所述关系词库中。
在示例性实施例中,实体关系的获取装置1300还可以包括实体库构建模块。其中,所述实体库构建模块可以配置为从第三语料库中获取实体以构建所述实体库。
在示例性实施例中,所述第一语料库可以包括所述第二语料库。
在示例性实施例中,所述第二语料库可以包括百科语料库和新闻语料库。
在示例性实施例中,所述第三语料库可以包括百科语料库,所述实体库中的实体包括所述百科语料库的实体词条。
在示例性实施例中,实体关系的获取装置1300还可以包括归一化模块。其中,所述归一化模块可以配置为对各候选实体关系组合的关联度进行归一化。
在示例性实施例中,实体关系确定模块1330可以包括排序单元和实体关系确定单元。
其中,所述排序单元可以配置为根据所述关联度对各候选实体关系组合进行排序。所述实体关系确定单元可以配置为根据排序选取预设数量的候选实体关系组合确定实体关系。
本公开实施方式提供的实体关系的获取装置,通过获取实体组合的第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次等统计信息,从而能够基于候选实体关系组合的统计信息获取候选实体关系组合的关联度,并通过各候选实体关系组合的关联度确定实体关系,采用所述实体关系的获取装置,不需要进行特征统计,同时也不需要大量人工标注的训练语料,减小了实体关系获取的实现复杂度和计算量。
图14示意性示出了根据本发明的一实施例的实体关系的获取装置的框图。
如图14所示,本实施例提供的实体关系的获取装置1400可以包括统计信息获取模块1310、距离信息获取模块1410、关联度获取模块1420以及实体关系确定模块1430。
其中,统计信息获取模块1310可以配置为获取实体组合的第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次。
在示例性实施例中,所述实体组合可以包括第一实体和第二实体。
在示例性实施例中,各候选实体关系组合为所述实体组合分别与各候选关系词的组合。
本实施例中的统计信息获取模块1310可以参照上述图13所示的实施例中的内容,在此不再详述。
距离信息获取模块1410可以配置为根据所述第一语料库获取各候选实体关系组合中的各实体与候选关系词之间的距离信息。
在示例性实施例中,所述距离信息可以包括所述第一实体与所述候选关系词之间的第一距离以及所述第二实体与所述候选关系词之间的第二距离。
在示例性实施例中,所述第一距离为所述第一实体与所述候选关系词之间的最小距离,所述第二距离为所述第二实体与所述候选关系词之间的最小距离。
关联度获取模块1420可以配置为根据所述第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次以及各候选实体关系组合中的各实体与候选关系词之间的距离信息,获取各候选实体关系组合的关联度。
实体关系确定模块1430可以配置为根据各候选实体关系组合的关联度确定实体关系。
在示例性实施例中,各候选实体关系组合的关联度cor通过以下公式获取:
Figure GDA0003926981970000321
上述公式中,e1为所述第一实体,e2为所述第二实体,r为候选关系词,F(e1,e2)为所述实体组合的第一频次,F(r)为所述候选关系词的第二频次,F(e1,r,e2)为候选实体关系组合的第三频次,dis(e1,r)为所述第一实体与所述候选关系词之间的第一距离,dis(e2,r)为所述第二实体与所述候选关系词之间的第二距离。
本实施方式提供的实体关系的获取装置,通过获取实体组合的第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次等统计信息,以及获取各候选实体关系组合中的各实体与候选关系词之间的距离信息,从而能够基于候选实体关系组合的统计信息和距离信息获取候选实体关系组合的关联度,并通过各候选实体关系组合的关联度确定实体关系,采用所述实体关系的获取装置,不需要进行特征抽取,同时也不需要大量人工标注的训练语料,减小了实体关系获取的实现复杂度和计算量,简化了实现方法。此外,上述计算关联度的公式中通过加入距离权重,可以进一步减少最终获得的实体关系的数量。
图15示意性示出了根据本发明的另一个实施例的实体关系的获取装置的框图。
如图15所示,本实施例提供的实体关系的获取装置1500可以包括统计信息获取模块1310、语义信息获取模块1510、关联度获取模块1520以及实体关系确定模块1530。
其中,统计信息获取模块1310可以配置为根据第一语料库获取实体组合的第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次,其中各候选实体关系组合为所述实体组合分别与各候选关系词的组合。
本实施例中的统计信息获取模块1310可以参照上述图13所示的实施例中的内容,在此不再详述。
语义信息获取模块1510可以配置为获取各候选实体关系组合的语义信息。
在示例性实施例中,所述语义信息可以包括候选实体关系组合中的实体之间的语义相似度以及各候选关系词的关系密切度。
关联度获取模块1520可以配置为根据所述第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次以及各候选实体关系组合的语义信息,获取各候选实体关系组合的关联度。
实体关系确定模块1530可以配置为根据各候选实体关系组合的关联度确定实体关系。
本实施方式提供的实体关系的获取装置,通过获取实体组合的第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次等统计信息,以及获取各候选实体关系组合的语义信息,从而能够基于候选实体关系组合的统计信息和语义信息获取候选实体关系组合的关联度,并通过各候选实体关系组合的关联度确定实体关系,采用所述实体关系的获取装置,不需要进行特征抽取,同时也不需要大量人工标注的训练语料,减小了实体关系获取的实现复杂度和计算量,简化了实现方法。此外,上述计算关联度的公式中通过加入语义权重,可以进一步减少最终获得的实体关系的数量。
图16示意性示出了根据本发明的再一个实施例的实体关系的获取装置的框图。
如图16所示,本实施例提供的实体关系的获取装置1600可以包括统计信息获取模块1310、距离信息获取模块1410、语义信息获取模块1510、关联度获取模块1610以及实体关系确定模块1610。
其中,统计信息获取模块1310可以配置为根据第一语料库获取实体组合的第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次,其中各候选实体关系组合为所述实体组合分别与各候选关系词的组合。
本实施例中的统计信息获取模块1310可以参照上述图13所示实施例中的统计信息获取模块1310,在此不再详述。
距离信息获取模块1410可以配置为根据所述第一语料库获取各候选实体关系组合中的各实体与候选关系词之间的距离信息。
本实施例中的距离信息获取模块1410可以参照上述图14所示实施例中的距离信息获取模块1410,在此不再详述。
语义信息获取模块1510可以配置为获取各候选实体关系组合的语义信息。
在示例性实施例中,所述语义信息可以包括各候选实体关系组合中的实体之间的语义相似度以及各候选关系词的关系密切度。
本实施例中的语义信息获取模块1510可以参照上述图15所示实施例中的语义信息获取模块1510,在此不再详述。
关联度获取模块1610可以配置为根据所述第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次以及各候选实体关系组合中的各实体与候选关系词之间的距离信息和各候选实体关系组合的语义信息,获取各候选实体关系组合的关联度。
实体关系确定模块1620可以配置为根据各候选实体关系组合的关联度确定实体关系。
本实施方式提供的的获取装置,通过获取实体组合的第一频次、相应的各候选关系词的第二频次及各候选实体关系组合的第三频次等统计信息,以及获取各实体与候选关系词之间的距离信息,同时还获取各候选实体关系组合的语义信息,从而能够基于候选实体关系组合的统计信息和距离信息以及语义信息获取候选实体关系组合的关联度,并通过各候选实体关系组合的关联度确定实体关系,采用所述实体关系的获取装置,不需要进行特征统计,同时也不需要大量人工标注的训练语料,减小了实体关系获取的实现复杂度和计算量。同时,通过在候选实体关系组合的关联度的计算过程中,引入语料中上下文的语义信息作为关联度的距离权重和语义权重,可以获得更加准确的目标实体关系组合。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元或者子单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元或者子单元中具体化。反之,上文描述的一个模块或者单元或者子单元的特征和功能可以进一步划分为由多个模块或者单元或者子单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (22)

1.一种实体关系的获取方法,其特征在于,包括:
根据第一语料库获取实体组合的第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次,其中各候选实体关系组合为所述实体组合分别与各候选关系词的组合,所述实体组合包括第一实体和第二实体;
根据所述第一语料库获取各候选实体关系组合中的各实体与候选关系词之间的距离信息,所述距离信息包括所述第一实体与所述候选关系词之间的第一距离以及所述第二实体与所述候选关系词之间的第二距离;
根据所述第一频次、各候选关系词的第二频次、各候选实体关系组合的第三频次、所述第一距离和所述第二距离,获取各候选实体关系组合的关联度,所述关联度与所述第三频次正相关,所述关联度与所述第一频次和所述第二频次负相关,所述关联度与所述第一距离或所述第二距离负相关;
根据各候选实体关系组合的关联度确定实体关系。
2.根据权利要求1所述的方法,其特征在于,其中各候选实体关系组合的关联度cor通过以下公式获取:
Figure FDA0003926981960000011
上述公式中,e1为所述第一实体,e2为所述第二实体,r为候选关系词,F(e1,e2)为所述实体组合的第一频次,F(r)为所述候选关系词的第二频次,F(e1,r,e2)为候选实体关系组合的第三频次,dis(e1,r)为所述第一实体与所述候选关系词之间的第一距离,dis(e2,r)为所述第二实体与所述候选关系词之间的第二距离。
3.根据权利要求2所述的方法,其特征在于,所述第一距离为所述第一实体与所述候选关系词之间的最小距离,所述第二距离为所述第二实体与所述候选关系词之间的最小距离。
4.根据权利要求1所述的方法,其特征在于,还包括:获取各候选实体关系组合的语义信息;
其中,所述获取各候选实体关系组合的关联度包括利用所述语义信息。
5.根据权利要求1所述的方法,其特征在于,还包括:
利用实体库和第二语料库获取所述实体组合;
利用关系词库和所述第二语料库获取各候选关系词。
6.根据权利要求5所述的方法,其特征在于,利用实体库和第二语料库获取所述实体组合,包括:
对于从所述第二语料库中获取的语料,将所述语料中的实体与所述实体库中的实体进行匹配,得到匹配实体;以及
将同一语料中的任两个或多个所述匹配实体组合构成所述实体组合;
其中,利用关系词库和所述第二语料库获取各候选关系词,包括:
将同一语料中的关系词与所述关系词库中的关系词进行匹配,得到候选关系词。
7.根据权利要求6所述的方法,其特征在于,将所述语料中的实体与所述实体库中的实体进行匹配,包括:
将所述实体库中的实体存入字典树;
将所述语料中的实体与所述字典树中的实体进行匹配。
8.根据权利要求6所述的方法,其特征在于,还包括:
获取所述实体组合中的实体之间的第三距离;
当所述第三距离大于距离阈值时,过滤相应的实体组合。
9.根据权利要求6所述的方法,其特征在于,还包括:当所述实体组合中的实体之间存在包含关系时,过滤相应的实体组合。
10.根据权利要求6所述的方法,其特征在于,还包括:当所述候选关系词之一与所述实体组合中的一个实体之间存在包含关系时,过滤所述候选关系词之一。
11.一种实体关系的获取装置,其特征在于,包括:
统计信息获取模块,配置为根据第一语料库获取实体组合的第一频次、各候选关系词的第二频次及各候选实体关系组合的第三频次,其中各候选实体关系组合为所述实体组合分别与各候选关系词的组合,所述实体组合包括第一实体和第二实体;
距离信息获取模块,配置为根据所述第一语料库获取各候选实体关系组合中的各实体与候选关系词之间的距离信息,所述距离信息包括所述第一实体与所述候选关系词之间的第一距离以及所述第二实体与所述候选关系词之间的第二距离;
关联度获取模块,配置为根据所述第一频次、各候选关系词的第二频次、各候选实体关系组合的第三频次、所述第一距离和所述第二距离,获取各候选实体关系组合的关联度,所述关联度与所述第三频次正相关,所述关联度与所述第一频次和所述第二频次负相关,所述关联度与所述第一距离或所述第二距离负相关;
实体关系确定模块,配置为根据各候选实体关系组合的关联度确定实体关系。
12.根据权利要求11所述的装置,其特征在于,其中各候选实体关系组合的关联度cor通过以下公式获取:
Figure FDA0003926981960000031
上述公式中,e1为所述第一实体,e2为所述第二实体,r为候选关系词,F(e1,e2)为所述实体组合的第一频次,F(r)为所述候选关系词的第二频次,F(e1,r,e2)为候选实体关系组合的第三频次,dis(e1,r)为所述第一实体与所述候选关系词之间的第一距离,dis(e2,r)为所述第二实体与所述候选关系词之间的第二距离。
13.根据权利要求12所述的装置,其特征在于,所述第一距离为所述第一实体与所述候选关系词之间的最小距离,所述第二距离为所述第二实体与所述候选关系词之间的最小距离。
14.根据权利要求11所述的装置,其特征在于,还包括:语义信息获取模块,配置为获取各候选实体关系组合的语义信息;
其中,所述获取各候选实体关系组合的关联度包括利用所述语义信息。
15.根据权利要求11所述的装置,其特征在于,还包括:
实体组合获取模块,配置为利用实体库和第二语料库获取所述实体组合;
关系词获取模块,配置为利用关系词库和所述第二语料库获取各候选关系词。
16.根据权利要求15所述的装置,其特征在于,所述实体组合获取模块包括:
实体匹配单元,配置为对于从所述第二语料库中获取的语料,将所述语料中的实体与所述实体库中的实体进行匹配,得到匹配实体;以及
实体组合单元,配置为将同一语料中的任两个或多个所述匹配实体组合构成所述实体组合;
其中,所述关系词获取模块包括:
关系词匹配单元,配置为将同一语料中的关系词与所述关系词库中的关系词进行匹配,得到候选关系词。
17.根据权利要求16所述的装置,其特征在于,所述实体匹配单元包括:
字典树构建子单元,配置为将所述实体库中的实体存入字典树;
实体匹配子单元,配置为将所述语料中的实体与所述字典树中的实体进行匹配。
18.根据权利要求16所述的装置,其特征在于,还包括:
实体距离获取模块,配置为获取所述实体组合中的实体之间的第三距离;
第一实体过滤模块,配置为当所述第三距离大于距离阈值时,过滤相应的实体组合。
19.根据权利要求16所述的装置,其特征在于,还包括:第二实体过滤模块,配置为当所述实体组合中的实体之间存在包含关系时,过滤相应的实体组合。
20.根据权利要求16所述的装置,其特征在于,还包括:关系词过滤模块,配置为当所述候选关系词之一与所述实体组合中的一个实体之间存在包含关系时,过滤所述候选关系词之一。
21.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至10中任一项所述的实体关系的获取方法。
22.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,配置为存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至10中任一项所述的实体关系的获取方法。
CN201810545940.7A 2018-03-09 2018-05-25 实体关系的获取方法、装置、计算机可读介质及电子设备 Active CN110162768B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810192813 2018-03-09
CN2018101928133 2018-03-09

Publications (2)

Publication Number Publication Date
CN110162768A CN110162768A (zh) 2019-08-23
CN110162768B true CN110162768B (zh) 2022-12-30

Family

ID=67644856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810545940.7A Active CN110162768B (zh) 2018-03-09 2018-05-25 实体关系的获取方法、装置、计算机可读介质及电子设备

Country Status (1)

Country Link
CN (1) CN110162768B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783797A (zh) * 2018-12-11 2019-05-21 北京百度网讯科技有限公司 语义关系的抽取方法、装置、设备及存储介质
CN110991183B (zh) * 2019-12-06 2023-07-04 北京百度网讯科技有限公司 问题的谓词确定方法、装置、设备及存储介质
CN111309926B (zh) * 2020-02-11 2024-01-23 北京声智科技有限公司 一种实体链接方法、装置及电子设备
CN111930963B (zh) * 2020-09-17 2021-01-05 平安国际智慧城市科技股份有限公司 知识图谱生成方法、装置、电子设备及存储介质
CN113935486B (zh) * 2021-12-16 2022-03-04 中科雨辰科技有限公司 一种知识图谱的建立方法、计算机设备和存储介质
CN116777634B (zh) * 2023-06-25 2024-06-11 深圳征信服务有限公司 一种基于人工智能的金融数据分析系统及方法
CN117435714B (zh) * 2023-12-20 2024-03-08 湖南紫薇垣信息系统有限公司 一种基于知识图谱的数据库和中间件问题智能诊断系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106066856A (zh) * 2016-05-24 2016-11-02 北京工商大学 一种基于编辑距离以及词频和词向量的实体关系识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4200645B2 (ja) * 2000-09-08 2008-12-24 日本電気株式会社 情報処理装置、情報処理方法および記録媒体
CN102129427B (zh) * 2010-01-13 2013-06-05 腾讯科技(深圳)有限公司 一种词关系挖掘方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106066856A (zh) * 2016-05-24 2016-11-02 北京工商大学 一种基于编辑距离以及词频和词向量的实体关系识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Semi-supervised Entity Relation Extraction Based on Trigger Word;Liting Tai et al.;《2017 3rd IEEE International Conference on Computer and Communications》;20171213;第497-501页 *
专利领域本体概念间非分类关系抽取研究;何宇;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20161115(第11期);正文第24-25页 *

Also Published As

Publication number Publication date
CN110162768A (zh) 2019-08-23

Similar Documents

Publication Publication Date Title
CN110162768B (zh) 实体关系的获取方法、装置、计算机可读介质及电子设备
CN107436864B (zh) 一种基于Word2Vec的中文问答语义相似度计算方法
CN106844658B (zh) 一种中文文本知识图谱自动构建方法及系统
Al-Radaideh et al. A hybrid approach for arabic text summarization using domain knowledge and genetic algorithms
KR101339103B1 (ko) 의미적 자질을 이용한 문서 분류 시스템 및 그 방법
CN109960786A (zh) 基于融合策略的中文词语相似度计算方法
US20160041986A1 (en) Smart Search Engine
US20130060769A1 (en) System and method for identifying social media interactions
CN110457708B (zh) 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
CN111324771B (zh) 视频标签的确定方法、装置、电子设备及存储介质
US11875585B2 (en) Semantic cluster formation in deep learning intelligent assistants
US9529894B2 (en) Context based passage retreival and scoring in a question answering system
CN112395395B (zh) 文本关键词提取方法、装置、设备及存储介质
CN105045852A (zh) 一种教学资源的全文搜索引擎系统
CN111414763A (zh) 一种针对手语计算的语义消歧方法、装置、设备及存储装置
CN112559684A (zh) 一种关键词提取及信息检索方法
CN110888970B (zh) 文本生成方法、装置、终端和存储介质
CN116882372A (zh) 文本生成方法、装置、电子设备以及存储介质
Dorji et al. Extraction, selection and ranking of Field Association (FA) Terms from domain-specific corpora for building a comprehensive FA terms dictionary
CN111813993A (zh) 视频内容的拓展方法、装置、终端设备及存储介质
Kestemont et al. Mining the Twentieth Century's History from the Time Magazine Corpus
CN112148886A (zh) 一种内容知识图谱的构建方法及系统
CN111966792A (zh) 一种文本处理方法、装置、电子设备及可读存储介质
Eldin et al. An enhanced opinion retrieval approach via implicit feature identification
CN118296120A (zh) 多模态多尺度多路召回的大型语言模型检索增强生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant