CN109783797A - 语义关系的抽取方法、装置、设备及存储介质 - Google Patents

语义关系的抽取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109783797A
CN109783797A CN201811507886.3A CN201811507886A CN109783797A CN 109783797 A CN109783797 A CN 109783797A CN 201811507886 A CN201811507886 A CN 201811507886A CN 109783797 A CN109783797 A CN 109783797A
Authority
CN
China
Prior art keywords
evidence
relationship
text
candidate
search operation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811507886.3A
Other languages
English (en)
Inventor
潘禄
陈玉光
彭卫华
罗雨
陈亮
陈文浩
周辉
郑宇宏
陈伟娜
韩翠云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811507886.3A priority Critical patent/CN109783797A/zh
Publication of CN109783797A publication Critical patent/CN109783797A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供一种语义关系的抽取方法、装置、设备及存储介质,通过从文本中抽取获得实体间的多个候选关系;针对每个候选关系,从信息源中查找包括所述实体间的所述候选关系的文本证据;基于查找获得的各候选关系对应的文本证据的数量,从所述多个候选关系中确定出所述实体间的实际关系。本申请实施例提供的技术方案,能够提高语义关系抽取的可靠性。

Description

语义关系的抽取方法、装置、设备及存储介质
技术领域
本申请实施例涉及人工智能技术领域,尤其涉及一种语义关系的抽取方法、装置、设备及存储介质。
背景技术
随着互联网的快速普及,网络信息呈爆炸式增长,采用信息抽取技术从文本中自动抽取结构化信息可以极大地提升人们获取信息的效率。关系抽取旨在基于文本的上下文信息从文本中抽取实体间的语义关系,是信息抽取的主要任务之一。
然而,在文本中,由于一些特定关系的上下文信息严重不足,导致在关系分类时容易产生歧义,进而影响关系抽取的可靠性。
发明内容
本申请实施例提供一种语义关系的抽取方法、装置、设备及存储介质,用以提高语义关系抽取的可靠性,避免上下文信息缺失对语义关系抽取造成影响。
本申请实施例第一方面提供一种语义关系的抽取方法,包括:从文本中抽取获得实体间的多个候选关系;针对每个候选关系,从信息源中查找包括所述实体间的所述候选关系的文本证据;基于查找获得的各候选关系对应的文本证据的数量,从所述多个候选关系中确定出所述实体间的实际关系。
本申请实施例第二方面提供一种语义关系抽取装置,包括:抽取模块,用于从文本中抽取获得实体间的多个候选关系;证据查找模块,用于针对每个候选关系,从信息源中查找包括所述实体间的所述候选关系的文本证据;确定模块,用于基于查找获得的各候选关系对应的文本证据的数量,从所述多个候选关系中确定出所述实体间的实际关系。
本申请实施例第三方面提供一种计算机设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器执行如上述第一方面所述的方法。
本申请实施例第四方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行如上述第一方面所述的方法。
基于以上各方面,本申请实施例通过从文本中抽取获得实体间的多个候选关系,针对每个候选关系,从信息源中查找包括该候选关系的文本证据,从而基于查找获得的各候选关系对应的文本证据的数量,从该些候选关系中确定出实体间的实际关系。由于本申请实施例在抽取获得实体间的各种候选关系后,还需要进一步从信息源中查找用于支持各种候选关系的证据,并根据证据的获取情况来最终判断实体间的实际关系,因而即使在文本中缺少实体间的上下文信息,也能够根据搜集到的证据准确判断实体间的实际关系,而不会因为上下文信息缺失对关系提取造成影响,提升了语义关系抽取的可靠性。
应当理解,上述发明内容部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征,亦非用于限制本申请的范围。本公申请的其它特征将通过以下的描述变得容易理解。
附图说明
图1是本申请实施例提供的一种语义关系的抽取方法的流程图;
图2是本申请实施例提供的一种抽取场景示意图;
图3是本申请实施例提供的一种步骤S12的执行方法流程图;
图4是本申请实施例提供的一种MDP模型的结构示意图;
图5是本申请实施例提供的一种语义关系抽取装置的结构示意图;
图6是本申请实施例提供的一种证据查找模块52的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例,然而应当理解的是,本申请可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是,本申请的附图及实施例仅用于示例性作用,并非用于限制本申请的保护范围。
本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
当前主流的语义关系抽取(以下简称关系抽取)方法主要以机器学习方法和深度学习方法为主。这些方法通常通过改善模型拟合句子本身特征的能力来提升关系抽取的可靠性,但是提升的效果都非常有限。导致这种结果的原因不仅与模型本身存在的缺陷有关,更重要的是还与文本中上下文信息不足、语句表达形式复杂、训练语料数量不足等原因有关。其中,关系上下文信息不足导致关系分类时容易产生歧义,是影响关系抽取可靠性的重要原因。例如在下面的英文句子“James Cameron directed the Titanic in 1997.”中,表达关系的单词“directed”是个多义词,在英文中有导演电影和管理公司的含义,但是如果该英文句子所在的文本中没有关于“James Cameron”是导演、“Titanic”是电影的上下文信息,那么就很难判断实体“James Cameron”和“Titanic”之间的关系,从而造成关系提取失败或提取错误的问题。
针对现有技术存在的上述问题,本申请实施例提供了一种语义关系抽取方案,该方案首先通过关系抽取器从文本中抽取获得实体间可能存在的一个或多个候选关系,再从信息源中查找用于支持实体间各种候选关系的证据,并根据证据的查找情况来判断实体间的实际关系。从而即使文本中缺少实体的上下文信息,也能够通过查找证据的方式确定出实体间的实际关系,进而提高语义关系抽取的可靠性。
以下结合具体实施例对本申请技术方案进行详细的描述。
图1是本申请实施例提供的一种语义关系的抽取方法的流程图,该方法可以由一种语义关系抽取装置来执行。参见图1,该方法包括步骤S11-S13:
S11、从文本中抽取获得实体间的多个候选关系。
其中,从文本中抽取实体间候选关系的方法可以参照现有技术,比如可以通过基于机器学习或神经网络学习得到的关系抽取模型从文本中提取实体间的候选关系,其中实体间的候选关系可以是一个也可以是多个,本实施例中以抽取到的候选关系为多个为例。比如,图2是本申请实施例提供的一种抽取场景示意图,如图2所示,当文本为英文语句“James Cameron directed the Titanic in 1997.”时,抽取获得的候选关系有两个分别是:候选关系1:“James Cameron manages Titanic”,含义为“James Cameron”管理“Titanic”公司,候选关系2:“James Cameron is the director of Titanic”,含义为“James Cameron”导演电影“Titanic”。当然这里仅为示例说明而不是对本申请的唯一限定。
S12、针对每个候选关系,从信息源中查找包括所述实体间的所述候选关系的文本证据。
本实施例所称的信息源是指预先指定的可用于获取文本数据的数据库或者网络。其中,在从信息源中查找文本证据时可采用如下方法中的任意一种,但在实际应用中可不局限于如下方法:
在一种可能的方法中可以,分别将每个提取到的候选关系作为搜索的关系式在信息源中进行搜索,将搜索到的文本中包括该候选关系的文本作为文本证据。比如在上例中,可以分别将候选关系:“James Cameron manages Titanic”和“James Cameron is thedirector of Titanic”,作为搜索的关系式,若搜索到的文本中包含关于“James Cameron”管理“Titanic”的内容,则将该文本确定为候选关系“James Cameron manages Titanic”的文本证据,类似的,若搜索到的文本中包含关于“James Cameron”导演电影“Titanic”的内容,则将该文本确定为候选关系“James Cameron is the director of Titanic”的文本证据。
在另一种可能的方法中,可以预先对实体间可能的关系进行分类(比如,因果关系、并列关系,从属关系等),并针对每种关系分类设置对应的关系式模板。在从文本中提取获得实体间的候选关系后,基于各候选关系所属的关系类型,将实体添加到相应的关系式模板中,构建形成用于搜索的符合该关系类型的关系式,进一步的,再基于构建获得的关系式从信息源中查找对应的文本证据。以因果关系为例,假设实体1和实体2之间的一种候选关系满足因果关系,则可以将实体1和实体2,填入预设的模板“<e1>caused<e2>”和/或“<e1>lead to<e2>”中生成用于搜索的关系式,并基于该关系式查找实体1和实体2之间具有因果关系的文本证据。也就是说,在这种查找方法中一种关系类型可对应有多个关系式模板,相应的,在基于候选关系的关系类型构建关系式时,也可以基于模板构建生成多个用于搜索的关系式。当然这里仅为示例说明而不是对本申请的唯一限定。
这里需要说明的是,在本实施例中可基于同一关系式执行多次文本证据的查找操作,具体基于哪个关系式执行几次查找操作可以根据需要进行设定,本实施例中不做限定。
S13、基于查找获得的各候选关系对应的文本证据的数量,从所述多个候选关系中确定出所述实体间的实际关系。
其中本实施例基于各候选关系文本证据的数量确定实体间实际关系的方法可以有多种,示例的,在一种可能的方法中,可以将获取到的文本证据的数量最多的候选关系确定为实体间的实际关系。比如,在前例中候选关系“James Cameron is the director ofTitanic”的文本证据数量大于候选关系“James Cameron manages Titanic”的文本证据数量,则确定实体“James Cameron”和“Titanic”之间的关系为“James Cameron is thedirector of Titanic”,即“James Cameron”导演电影“Titanic”。当然这里仅为示例说明而不是唯一限定。
示例的,在另一种可能的方式中,可以先根据查找到的各候选关系对应的文本证据的数量在所有文本证据中占据的比例,确定各候选关系的置信度,在将各候选关系中置信度最高的确定为所述实体间的实际关系。比如候选关系1的文本证据数量为60、候选关系2的文本证据数据量为20、候选关系3的文本证据数量为20,则候选关系1的文本证据数量在所有100个文本证据中所占的比例为60%,在这种情况下,一种可能的设计中可以将候选关系的文本证据数量在所有文本证据中所占的比例作为候选关系的置信度,即在上例中候选关系1的置信度为60%,是所有候选关系中的最大置信度,所以将候选关系1确定为对应实体间的实际关系。或者,在另一种可能设计中,也可以根据预先设定的加权求和公式,将候选关系的文本证据数量在所有文本证据中所占的比例与关系抽取模型在抽取获得候选关系时计算得到的候选关系的初始置信度进行加权求和,得到候选关系的最终置信度,将对应的最终置信度做大的候选关系确定为实体间的实际关系。
当然上述两种确定实体间实际关系的方法仅为示例性的方法,而不是本申请实施例的全部方法。
本实施例通过从文本中抽取获得实体间的多个候选关系,针对每个候选关系,从信息源中查找包括该候选关系的文本证据,从而基于查找获得的各候选关系对应的文本证据的数量,从该些候选关系中确定出实体间的实际关系。由于本实施例在抽取获得实体间的各种候选关系后,还需要进一步从信息源中查找用于支持各种候选关系的证据,并根据证据的获取情况来最终判断实体间的实际关系,因而即使在文本中缺少实体间的上下文信息,也能够根据搜集到的证据准确判断实体间的实际关系,而不会因为上下文信息缺失对关系提取造成影响,提升了语义关系抽取的可靠性。
图3是本申请实施例提供的一种步骤S12的执行方法流程图,如图3所示,在图1实施例的基础上,步骤S12可以包括如下子步骤:
S121、针对每个候选关系所属的关系类型,构建所述实体间符合所述关系类型的关系式。
在本实施例中,关系类型可以根据需要进行划分,每种关系类型预先设置有对应的一个或多个关系式模板,各关系类型的关系式模板可以根据需要进行设置,本实施例中不做限定。以因果关系为例,假设因果关系的关系式模板包括如下两种:“<e1>caused<e2>”、“<e1>lead to<e2>”,则在构建关系式时,将实体填写到关系式模板的相应位置上形成用于搜索的关系式。
S122、基于各候选关系对应的所述关系式,从信息源中查找各候选关系对应的文本证据。
在本实施例中,一个候选关系可以对应多个关系式,针对一个关系式可以进行多次查找。基于此,示例性的本实施例查找文本证据的方法可包括如下几种:
在一种可能的实现方式中,可以对每个关系式的查找次数进行设置,在基于关系式执行查找操作时,通过记录并判断当前关系式的查找次数来判断当前关系式的查找次数是否达到预设次数,若达到预设次数,则在下一次查找操作中基于另一关系式查找文本证据,相反的若未达到预设次数,则在下一次查找操作中继续基于当前关系式查找文本证据。其中,不同关系式可以拥有不同或相同的预设次数,每个关系式的预设次数可以根据需要进行设置,本实施例中不做限定。
在另一种可能的实现方式中,可以对每次查找操作获取到的文本证据的数量进行配置,通过判断当前查找操作获取到的文本证据的数量是否低于预设数量来确定下一次的查找操作是否继续使用当前的关系式,其中,比如在一种设计中,可以在当前查找操作获取到的文本证据的数量高于预设数量时,确定在下一次查找操作中继续使用当前的关系式进行查找。若在当前查找操作获取到的文本证据的数量低于预设数量时,确定在下一次查找操作中使用另一关系式查找文本证据。其中,这里所说的“另一关系式”可以是同一候选关系对应的不同的关系式,也可以是不同候选关系对应的关系式。比如,在一种可能的设计中,当确定在下一次查找操作中使用不同的关系式时,可以优选从当前候选关系对应的其他关系式中选择一个待使用的关系式,当当前候选关系对应的所有关系式都搜索结束时,再从其他候选关系对应的关系式中选择一个执行下次查找操作。当然这里仅为示例说明而不是唯一限定。
在又一种可能的实现方式中,还可以根据当前关系式的查找次数(比如,当前是第几次查找、剩余查找次数和/或预设的次数上限等)和查找到的文本证据的数量,采用预设的马尔可夫决策(MDP)模型,确定下一次查找操作所对应的关系式或者结束所有查找操作。比如,在一种可行的设计中,可以先根据本次查找操作获取到的文本证据的数量在本次查找结果中所占据的比例,确定本次查找操作对当前所对应的候选关系的置信度的提升量(其中,置信度的计算方法可以示例性的通过前述实施例中的方法获得);再根据当前关系式的查找次数和所述提升量,采用预设的MDP模型,确定下一次查找操作所对应的关系式或者结束所有查找操作。
具体的,考虑到本实施例根据文本证据的查找情况确定下一步查找动作的问题是典型的动态决策问题,因此,可以通过马尔可夫决策方法进行解决。其中,图4是本申请实施例提供的一种MDP模型的结构示意图,如图4所示,本实施例提供的MDP模型由多个神经网络层构成,包括输入层、全连接层和输出层。下面分别对每个神经网络层进行解释:
输入层:用于输入决策过程所涉及到的状态转移参数(St,At,Rt+1,St+1),其中,St表示t时刻的状态,St包括:当前关系式所对应的候选关系的置信度、本次查找操作获取到的文本证据的数量、当前关系式已执行查找操作的次数、当前关系式剩余可用的查找次数以及当前关系式所对应的候选关系。At表示t时刻根据状态St执行的动作,At包括如下动作中的一种继续基于当前关系式查找文本证据、基于其他关系式查找文本证据、停止文本证据查找操作。St+1表示动作At执行后的状态。Rt+1表示在对状态St执行动作At后,在t+1时刻获得的反馈,示例的Rt+1可描述如下:
其中,表示时间惩罚,为定值C;是在动作At执行后候选关系r*的置信度Pt+1(r*)比之前Pt(r*)的提升量。
全连接层,示例的,为了提取高维度的特征,在图2所示的MDP模型中设置了两个全连接层,通过全连接层对下一次查找操作进行决策,其决策方法可示例性的表示为:
其中,a属于上述三种可执行动作,a*表示在t+1时刻执行概率最大的动作,θ是上述决策函数的参数,θ为定值,其值可通过如下方法获得:
其中,其中,θ*表示设定的初始值,α为定值,(Si,Ai)为采集获得的第i组训练样本,这样的训练样本有n组。
输出层,用于执行概率最大的动作a*
本实施例基于上述三种方式中的任意一种能够提高文本证据查找的效率。
本实施例通过从文本中抽取获得实体间的多个候选关系,针对每个候选关系,从信息源中查找包括该候选关系的文本证据,从而基于查找获得的各候选关系对应的文本证据的数量,从该些候选关系中确定出实体间的实际关系。由于本实施例在抽取获得实体间的各种候选关系后,还需要进一步从信息源中查找用于支持各种候选关系的证据,并根据证据的获取情况来最终判断实体间的实际关系,因而即使在文本中缺少实体间的上下文信息,也能够根据搜集到的证据准确判断实体间的实际关系,而不会因为上下文信息缺失对关系提取造成影响,提升了语义关系抽取的可靠性。
图5是本申请实施例提供的一种语义关系抽取装置的结构示意图,如图5所示,装置50包括:
抽取模块51,用于从文本中抽取获得实体间的多个候选关系.
证据查找模块52,用于针对每个候选关系,从信息源中查找包括所述实体间的所述候选关系的文本证据。
确定模块53,用于基于查找获得的各候选关系对应的文本证据的数量,从所述多个候选关系中确定出所述实体间的实际关系。
在一种可能的设计中,确定模块53,用于:
根据查找到的各候选关系对应的文本证据的数量在所有文本证据中占据的比例,确定各候选关系的置信度,将所述多个候选关系中置信度最高的确定为所述实体间的实际关系。
本实施例提供的装置能够用于执行图1实施例的方法,其执行方式和有益效果类似,在这里不再赘述。
图6是本申请实施例提供的一种证据查找模块52的结构示意图,如图6所示,证据查找模块52,包括:
关系式构建子模块521,用于针对每个候选关系所属的关系类型,构建所述实体间符合所述关系类型的关系式。
证据查找子模块522,用于基于各候选关系对应的所述关系式,从信息源中查找各候选关系对应的文本证据。
在一种可能的设计中,所述证据查找子模块522,包括:
第一处理子单元,用于记录并判断基于当前关系式的查找次数。
第一执行子单元,用于在当前关系式的查找次数达到预设次数时,在下一次查找操作中基于另一关系式查找文本证据;或者在当前关系式的查找次数未达到预设次数时,在下一次查找操作中继续基于当前关系式查找文本证据。
在一种可能的设计中,所述证据查找子模块522,包括:
第二处理子单元,用于判断本次查找操作获取到的文本证据的数量是否低于预设数量。
第二执行子单元,用于在本次查找操作获取到的文本证据的数量高于预设数量时,在下一次查找操作中继续基于当前关系式查找文本证据;或者在本次查找操作获取到的文本证据的数量低于预设数量时,在下一次查找操作中基于另一关系式查找文本证据。
在一种可能的设计中,所述证据查找子模块522,包括:
确定子单元,用于根据当前关系式的查找次数和查找到的文本证据的数量,采用预设的马尔可夫决策MDP模型,确定下一次查找操作所对应的关系式或者结束所有查找操作。
在一种可能的设计中,所述确定子单元,具体用于:
根据本次查找操作获取到的文本证据的数量在本次查找结果中所占据的比例,确定本次查找操作对当前所对应的候选关系的置信度的提升量;根据当前关系式的查找次数和所述提升量,采用预设的马尔可夫决策MDP模型,确定下一次查找操作所对应的关系式或者结束所有查找操作。
本实施例提供的装置能够用于执行图3实施例的方法,其执行方式和有益效果类似,在这里不再赘述。
本申请实施例还提供一种计算机设备,包括:一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一实施例所述的方法。
本申请实施例还提供在一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例所述的方法。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (16)

1.一种语义关系的抽取方法,其特征在于,包括:
从文本中抽取获得实体间的多个候选关系;
针对每个候选关系,从信息源中查找包括所述实体间的所述候选关系的文本证据;
基于查找获得的各候选关系对应的文本证据的数量,从所述多个候选关系中确定出所述实体间的实际关系。
2.根据权利要求1所述的方法,其特征在于,所述针对每个候选关系,从信息源中查找包括所述实体间的所述候选关系的文本证据,包括:
针对每个候选关系所属的关系类型,构建所述实体间符合所述关系类型的关系式;
基于各候选关系对应的所述关系式,从信息源中查找各候选关系对应的文本证据。
3.根据权利要求2所述的方法,其特征在于,所述基于各候选关系对应的所述关系式,从信息源中查找各候选关系对应的文本证据,包括:
记录并判断基于当前关系式的查找次数;
若当前关系式的查找次数达到预设次数,则在下一次查找操作中基于另一关系式查找文本证据;
若当前关系式的查找次数未达到预设次数,则在下一次查找操作中继续基于当前关系式查找文本证据。
4.根据权利要求2所述的方法,其特征在于,所述基于各候选关系对应的所述关系式,从信息源中查找各候选关系对应的文本证据,包括:
判断本次查找操作获取到的文本证据的数量是否低于预设数量;
若本次查找操作获取到的文本证据的数量高于预设数量,则在下一次查找操作中继续基于当前关系式查找文本证据;
若本次查找操作获取到的文本证据的数量低于预设数量,则在下一次查找操作中基于另一关系式查找文本证据。
5.根据权利要求2所述的方法,其特征在于,所述基于各候选关系对应的所述关系式,从信息源中查找各候选关系对应的文本证据,包括:
根据当前关系式的查找次数和查找到的文本证据的数量,采用预设的马尔可夫决策MDP模型,确定下一次查找操作所对应的关系式或者结束所有查找操作。
6.根据权利要求5所述的方法,其特征在于,所述根据当前关系式的查找次数和查找到的文本证据的数量,采用预设的马尔可夫决策MDP模型,确定下一次查找操作所对应的关系式或者结束所有查找操作,包括:
根据本次查找操作获取到的文本证据的数量在本次查找结果中所占据的比例,确定本次查找操作对当前所对应的候选关系的置信度的提升量;
根据当前关系式的查找次数和所述提升量,采用预设的马尔可夫决策MDP模型,确定下一次查找操作所对应的关系式或者结束所有查找操作。
7.根据权利要求1所述的方法,其特征在于,所述基于查找获得的各候选关系对应的文本证据的数量,从所述多个候选关系中确定出所述实体间的实际关系,包括:
根据查找到的各候选关系对应的文本证据的数量在所有文本证据中占据的比例,确定各候选关系的置信度,将所述多个候选关系中置信度最高的确定为所述实体间的实际关系。
8.一种语义关系抽取装置,其特征在于,包括:
抽取模块,用于从文本中抽取获得实体间的多个候选关系;
证据查找模块,用于针对每个候选关系,从信息源中查找包括所述实体间的所述候选关系的文本证据;
确定模块,用于基于查找获得的各候选关系对应的文本证据的数量,从所述多个候选关系中确定出所述实体间的实际关系。
9.根据权利要求8所述的装置,其特征在于,所述证据查找模块,包括:
关系式构建子模块,用于针对每个候选关系所属的关系类型,构建所述实体间符合所述关系类型的关系式;
证据查找子模块,用于基于各候选关系对应的所述关系式,从信息源中查找各候选关系对应的文本证据。
10.根据权利要求9所述的装置,其特征在于,所述证据查找子模块,包括:
第一处理子单元,用于记录并判断基于当前关系式的查找次数;
第一执行子单元,用于在当前关系式的查找次数达到预设次数时,在下一次查找操作中基于另一关系式查找文本证据;或者在当前关系式的查找次数未达到预设次数时,在下一次查找操作中继续基于当前关系式查找文本证据。
11.根据权利要求9所述的装置,其特征在于,所述证据查找子模块,包括:
第二处理子单元,用于判断本次查找操作获取到的文本证据的数量是否低于预设数量;
第二执行子单元,用于在本次查找操作获取到的文本证据的数量高于预设数量时,在下一次查找操作中继续基于当前关系式查找文本证据;或者在本次查找操作获取到的文本证据的数量低于预设数量时,在下一次查找操作中基于另一关系式查找文本证据。
12.根据权利要求9所述的装置,其特征在于,所述证据查找子模块,包括:
确定子单元,用于根据当前关系式的查找次数和查找到的文本证据的数量,采用预设的马尔可夫决策MDP模型,确定下一次查找操作所对应的关系式或者结束所有查找操作。
13.根据权利要求12所述的装置,其特征在于,所述确定子单元,具体用于:
根据本次查找操作获取到的文本证据的数量在本次查找结果中所占据的比例,确定本次查找操作对当前所对应的候选关系的置信度的提升量;
根据当前关系式的查找次数和所述提升量,采用预设的马尔可夫决策MDP模型,确定下一次查找操作所对应的关系式或者结束所有查找操作。
14.根据权利要求8所述的装置,其特征在于,所述确定模块,用于:
根据查找到的各候选关系对应的文本证据的数量在所有文本证据中占据的比例,确定各候选关系的置信度,将所述多个候选关系中置信度最高的确定为所述实体间的实际关系。
15.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实执行如权利要求1-7中任一项所述的方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时执行如权利要求1-7中任一项所述的方法。
CN201811507886.3A 2018-12-11 2018-12-11 语义关系的抽取方法、装置、设备及存储介质 Pending CN109783797A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811507886.3A CN109783797A (zh) 2018-12-11 2018-12-11 语义关系的抽取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811507886.3A CN109783797A (zh) 2018-12-11 2018-12-11 语义关系的抽取方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN109783797A true CN109783797A (zh) 2019-05-21

Family

ID=66496845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811507886.3A Pending CN109783797A (zh) 2018-12-11 2018-12-11 语义关系的抽取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109783797A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113723074A (zh) * 2021-08-27 2021-11-30 国网山东省电力公司信息通信公司 一种基于证据检验增强的文档级关系抽取方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034693A (zh) * 2012-12-03 2013-04-10 哈尔滨工业大学 开放式实体及其类型识别方法
CN103250129A (zh) * 2010-09-24 2013-08-14 国际商业机器公司 使用具有受限结构的文本提供具有延迟类型评估的问答
EP2634705A1 (en) * 2012-02-29 2013-09-04 Hypios SAS Method for discovering relevant concepts in a semantic graph of concepts
CN104933164A (zh) * 2015-06-26 2015-09-23 华南理工大学 互联网海量数据中命名实体间关系提取方法及其系统
CN105678327A (zh) * 2016-01-05 2016-06-15 北京信息科技大学 一种面向中文专利的实体间非分类关系抽取方法
CN105701172A (zh) * 2014-11-07 2016-06-22 谷歌公司 使用web资源确定对疑问性查询的答案
CN106326300A (zh) * 2015-07-02 2017-01-11 富士通株式会社 信息处理方法以及信息处理设备
CN107798136A (zh) * 2017-11-23 2018-03-13 北京百度网讯科技有限公司 基于深度学习的实体关系抽取方法、装置及服务器
CN108021682A (zh) * 2017-12-11 2018-05-11 西安交通大学 开放式信息抽取背景下一种基于维基百科的实体语义化方法
CN108415902A (zh) * 2018-02-10 2018-08-17 合肥工业大学 一种基于搜索引擎的命名实体链接方法
CN110162768A (zh) * 2018-03-09 2019-08-23 腾讯科技(深圳)有限公司 实体关系的获取方法、装置、计算机可读介质及电子设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103250129A (zh) * 2010-09-24 2013-08-14 国际商业机器公司 使用具有受限结构的文本提供具有延迟类型评估的问答
EP2634705A1 (en) * 2012-02-29 2013-09-04 Hypios SAS Method for discovering relevant concepts in a semantic graph of concepts
CN103034693A (zh) * 2012-12-03 2013-04-10 哈尔滨工业大学 开放式实体及其类型识别方法
CN105701172A (zh) * 2014-11-07 2016-06-22 谷歌公司 使用web资源确定对疑问性查询的答案
CN104933164A (zh) * 2015-06-26 2015-09-23 华南理工大学 互联网海量数据中命名实体间关系提取方法及其系统
CN106326300A (zh) * 2015-07-02 2017-01-11 富士通株式会社 信息处理方法以及信息处理设备
CN105678327A (zh) * 2016-01-05 2016-06-15 北京信息科技大学 一种面向中文专利的实体间非分类关系抽取方法
CN107798136A (zh) * 2017-11-23 2018-03-13 北京百度网讯科技有限公司 基于深度学习的实体关系抽取方法、装置及服务器
CN108021682A (zh) * 2017-12-11 2018-05-11 西安交通大学 开放式信息抽取背景下一种基于维基百科的实体语义化方法
CN108415902A (zh) * 2018-02-10 2018-08-17 合肥工业大学 一种基于搜索引擎的命名实体链接方法
CN110162768A (zh) * 2018-03-09 2019-08-23 腾讯科技(深圳)有限公司 实体关系的获取方法、装置、计算机可读介质及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113723074A (zh) * 2021-08-27 2021-11-30 国网山东省电力公司信息通信公司 一种基于证据检验增强的文档级关系抽取方法

Similar Documents

Publication Publication Date Title
CN110837550B (zh) 基于知识图谱的问答方法、装置、电子设备及存储介质
CN111026842B (zh) 自然语言处理方法、自然语言处理装置及智能问答系统
CN111506722A (zh) 基于深度学习技术的知识图谱问答方法、装置及设备
CN110727779A (zh) 基于多模型融合的问答方法及系统
US10997134B2 (en) Automatic entity resolution with rules detection and generation system
CN109710744B (zh) 一种数据匹配方法、装置、设备及存储介质
CN111444344B (zh) 实体分类方法、装置、计算机设备和存储介质
US20100198756A1 (en) Methods and systems for matching records and normalizing names
Viswanathan et al. Automated spatial-semantic modeling with applications to place labeling and informed search
CN110377916A (zh) 词预测方法、装置、计算机设备及存储介质
CN106649739B (zh) 多轮交互信息继承识别方法、装置以及交互系统
CN108446404B (zh) 面向无约束视觉问答指向问题的检索方法及系统
CN109978060A (zh) 一种自然语言要素抽取模型的训练方法及装置
CN107357763B (zh) 一种基于自步学习的众包分类数据质量控制方法
WO2020073533A1 (zh) 自动问答方法及装置
CN111177583A (zh) 一种基于社交平台的人脉分析方法及系统
CN111767382A (zh) 生成反馈信息的方法、装置及终端设备
WO2023040516A1 (zh) 一种事件整合方法、装置、电子设备、计算机可读存储介质及计算机程序产品
CN112685550A (zh) 智能问答方法、装置、服务器及计算机可读存储介质
KR20210043283A (ko) 기계 독해 기반 지식 추출을 위한 시스템 및 방법
CN113946657A (zh) 一种基于知识推理的电力业务意图自动识别方法
CN111708870A (zh) 基于深度神经网络的问答方法、装置及存储介质
CN111931503B (zh) 信息抽取方法及装置、设备、计算机可读存储介质
CN109783797A (zh) 语义关系的抽取方法、装置、设备及存储介质
CN112199958A (zh) 概念词序列生成方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination