CN112232074B - 实体关系抽取方法、装置、电子设备及存储介质 - Google Patents

实体关系抽取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112232074B
CN112232074B CN202011275193.3A CN202011275193A CN112232074B CN 112232074 B CN112232074 B CN 112232074B CN 202011275193 A CN202011275193 A CN 202011275193A CN 112232074 B CN112232074 B CN 112232074B
Authority
CN
China
Prior art keywords
entity
word
words
dependency
target text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011275193.3A
Other languages
English (en)
Other versions
CN112232074A (zh
Inventor
任梦星
刘炎
覃建策
陈邦忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Perfect World Holding Group Ltd
Original Assignee
Perfect World Holding Group Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Perfect World Holding Group Ltd filed Critical Perfect World Holding Group Ltd
Priority to CN202011275193.3A priority Critical patent/CN112232074B/zh
Publication of CN112232074A publication Critical patent/CN112232074A/zh
Application granted granted Critical
Publication of CN112232074B publication Critical patent/CN112232074B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例涉及一种实体关系抽取方法、装置、电子设备及存储介质,所述方法包括:对待抽取的目标文本进行分词处理,得到多个词语;对每一所述词语进行词性标注,得到每一所述词语的词性标记;基于每一所述词语的词性标记对所述目标文本进行依存句法分析,得到所述目标文本的依存句法树;基于所述依存句法树确定所述目标文本所符合的句法模式,以及基于所述句法模式从所述目标文本抽取实体关系三元组。由此,可以实现高效、准确地从语料数据中提取实体关系三元组。

Description

实体关系抽取方法、装置、电子设备及存储介质
技术领域
本发明实施例涉及自然语言处理技术领域,尤其涉及一种实体关系抽取方法、装置、电子设备及存储介质。
背景技术
随着互联网的发展,各个领域中每天都会产生大量不同形式的互联网数据,如何准确、高效地挖掘出互联网数据中的重要信息,以提升该领域中的服务效率是一个关键问题。进一步的,在信息挖掘中,实体关系抽取是其中一项核心任务。目前,常用的实体关系抽取方法包括基于规则的实体关系抽取方法、基于字典的实体关系抽取方法,以及基于机器学习的实体关系抽取方法。
其中,对于基于规则的实体关系抽取方法,重点在于规则的定义。然而,不同的领域具有不同的专业知识,因此,针对某一领域制定的规则并无法移植到其他领域,这就导致基于规则的实体关系抽取方法的可移植性很差;对于基于字典的实体关系抽取方法,由于其仅能识别以动词作为中心词的句子中实体之间的关系,很难实现同义、反义等关系结构的识别和推理,并且难以解决词典之外的词的关系抽取,因此,基于字典的实体关系抽取方法灵活性很差;对于基于机器学习的实体关系抽取方法,由于机器学习结果的准确性和召回率对标注语料的依赖性很高,且需要较强的人工干预,而语料标注耗时耗力,这就导致基于机器学习的实体关系抽取方法的整体开发周期很长,且需要耗费较高的人力物力。
发明内容
鉴于此,本发明实施例提供一种实体关系抽取方法、装置、电子设备及存储介质,以提供一种基于句法模式的实体关系抽取方法,提高实体关系抽取的效率、准确率,以及可扩展性。
第一方面,本发明实施例提供一种实体关系抽取方法,所述方法包括:
对待抽取的目标文本进行分词处理,得到多个词语;
对每一所述词语进行词性标注,得到每一所述词语的词性标记;
基于每一所述词语的词性标记对所述目标文本进行依存句法分析,得到所述目标文本的依存句法树;所述依存句法树用于描述每一所述词语的依存结构,所述依存结构包括:所述词语的词性标记、所述词语的父节点和所述父节点的词性标记、所述词语和其父节点之间的依存关系标签;
基于所述依存句法树确定所述目标文本所符合的句法模式,以及基于所述句法模式从所述目标文本抽取实体关系三元组。
在一个可能的实施方式中,所述基于依存句法树确定所述目标文本所符合的句法模式,包括:
按照多个所述词语在所述目标文本中的排列顺序,依次将每一所述词语的词性标记和所述词语与其父节点之间的依存关系标签组合,得到初始句法模式;
从预设的句法模式集中确定与所述初始句法模式相匹配的目标句法模式;
将所述目标句法模式确定为所述目标文本所符合的句法模式。
在一个可能的实施方式中,所述基于句法模式从所述目标文本抽取实体关系三元组,包括:
基于所述句法模式中的各依存关系标签从所述目标文本中抽取目标词元和核心关系词;
将抽取出的所述目标词元和核心关系词组成实体关系三元组。
在一个可能的实施方式中,在所述基于句法模式从所述目标文本抽取实体关系三元组之后,还包括:
基于所述依存句法树确定是否对所述实体关系三元组中的关系词进行修正。
在一个可能的实施方式中,所述基于依存句法树确定是否对所述实体关系三元组中的关系词进行修正,包括:
检查所述依存句法树中是否存在与所述实体关系三元组中的关系词相连且满足设定条件的目标词语;所述设定条件为:词性标记为副词,依存标签为指定依存标签,以及包含在预设的关键标志词词表中;
如果是,则确定对所述实体关系三元组中的关系词进行修正。
在一个可能的实施方式中,所述对所述实体关系三元组中的关系词进行修正,包括:
将所述实体关系三元组中的关系词更新为所述目标词语与所述关系词的组合;或者,
将所述实体关系三元组中的关系词更新为所述目标词语、所述关系词,以及所述目标文本中位于所述目标词语和所述关系词之间的名词性短语的组合。
在一个可能的实施方式中,所述指定依存标签为:ADV或CMP,所述关键标志词词表中包含至少一个否定词;或者,
所述指定依存标签为ADV,所述关键标志词词表中包含至少一个被动标志词。
在一个可能的实施方式中,在所述基于句法模式从所述目标文本抽取实体关系三元组之后,还包括:
基于预设的实体校正规则对所述实体关系三元组中的实体进行校正。
在一个可能的实施方式中,所述基于预设的实体校正规则对所述实体关系三元组中的实体进行校正,包括:
若所述实体关系三元组对应的实体间关系为并列关系,则将所述实体关系三元组中的首个实体更新为第一实体关系三元组中的首个实体;和/或,
将所述实体关系三元组中的第二个实体更新为第二实体关系三元组中的第二个实体;所述第一实体关系三元组是指基于第一句法模式从所述目标文本中抽取的实体关系三元组,所述第二实体关系三元组是指基于第二句法模式从所述目标文本中抽取的实体关系三元组。
在一个可能的实施方式中,所述基于预设的实体校正规则对所述实体关系三元组中的实体进行校正,包括:
以所述实体关系三元组中的首个实体为关键字查找预设的代词词表;
如果在所述代词词表中查找到所述关键字,则将所述实体关系三元组中的首个实体更新为第二实体关系三元组中的首个实体;所述第二实体关系三元组是指基于第二句法模式从所述目标文本中抽取的实体关系三元组。
在一个可能的实施方式中,所述基于预设的实体校正规则对所述实体关系三元组中的实体进行校正,包括:
确定所述实体关系三元组中的首个实体中是否包含触发词;
如果是,则从预设的正则表达式集中确定与所述触发词相匹配的目标正则表达式;
基于所述目标正则表达式对应的替换规则对所述实体关系三元组中的首个实体进行更新。
在一个可能的实施方式中,所述方法还包括:
针对更新后的所述实体关系三元组中的首个实体,将所述首个实体中位于指定字符串之前的部分确定为第一实体,位于所述指定字符串之后的部分确定为第二实体;以及,
以所述指定字符串为关系词,得到包含所述第一实体和所述第二实体的实体关系三元组。
在一个可能的实施方式中,在所述基于句法模式从所述目标文本抽取实体关系三元组之后,还包括:
以所述实体关系三元组中的关系词为关键字查找预设的过滤词集;
如果在所述过滤词集中未查找到所述关键字,则丢弃所述实体关系三元组。
第二方面,本发明实施例提供一种实体关系抽取装置,所述装置包括:
分词模块,用于对待抽取的目标文本进行分词处理,得到多个词语;
词性标注模块,用于对每一所述词语进行词性标注,得到每一所述词语的词性标记;
句法分析模块,用于基于每一所述词语的词性标记对所述目标文本进行依存句法分析,得到所述目标文本的依存句法树;所述依存句法树用于描述每一所述词语的依存结构,所述依存结构包括:所述词语的词性标记、所述词语的父节点和所述父节点的词性标记、所述词语和其父节点之间的依存关系标签;
句法模式确定模块,用于基于所述依存句法树确定所述目标文本所符合的句法模式;
抽取模块,用于基于所述句法模式从所述目标文本抽取实体关系三元组。
在一个可能的实施方式中,所述句法模式确定模块具体用于:
按照多个所述词语在所述目标文本中的排列顺序,依次将每一所述词语的词性标记和所述词语与其父节点之间的依存关系标签组合,得到初始句法模式;
从预设的句法模式集中确定与所述初始句法模式相匹配的目标句法模式;
将所述目标句法模式确定为所述目标文本所符合的句法模式。
在一个可能的实施方式中,所述抽取模块具体用于:
基于所述句法模式中的各依存关系标签从所述目标文本中抽取目标词元和核心关系词;
将抽取出的所述目标词元和核心关系词组成实体关系三元组。
在一个可能的实施方式中,还包括:
判断模块,用于基于所述依存句法树确定是否对所述实体关系三元组中的关系词进行修正。
在一个可能的实施方式中,所述判断模块具体用于:
检查所述依存句法树中是否存在与所述实体关系三元组中的关系词相连且满足设定条件的目标词语;所述设定条件为:词性标记为副词,依存标签为指定依存标签,以及包含在预设的关键标志词词表中;
如果是,则确定对所述实体关系三元组中的关系词进行修正。
在一个可能的实施方式中,还包括:
修正模块,用于将所述实体关系三元组中的关系词更新为所述目标词语与所述关系词的组合;或者,
将所述实体关系三元组中的关系词更新为所述目标词语、所述关系词,以及所述目标文本中位于所述目标词语和所述关系词之间的名词性短语的组合。
在一个可能的实施方式中,所述指定依存标签为:ADV或CMP,所述关键标志词词表中包含多个否定词;或者,
所述指定依存标签为ADV,所述关键标志词词表中包含多个被动标志词。
在一个可能的实施方式中,还包括:
校正模块,用于基于预设的实体校正规则对所述实体关系三元组中的实体进行校正。
在一个可能的实施方式中,所述校正模块具体用于:
若所述实体关系三元组对应的实体间关系为并列关系,则将所述实体关系三元组中的首个实体更新为第一实体关系三元组中的首个实体;和/或,
将所述实体关系三元组中的第二个实体更新为第二实体关系三元组中的第二个实体;所述第一实体关系三元组是指基于第一句法模式从所述目标文本中抽取的实体关系三元组,所述第二实体关系三元组是指基于第二句法模式从所述目标文本中抽取的实体关系三元组。
在一个可能的实施方式中,所述校正模块具体用于:
以所述实体关系三元组中的首个实体为关键字查找预设的代词词表;
如果在所述代词词表中查找到所述关键字,则将所述实体关系三元组中的首个实体更新为第二实体关系三元组中的首个实体;所述第二实体关系三元组是指基于第二句法模式从所述目标文本中抽取的实体关系三元组。
在一个可能的实施方式中,所述校正模块具体用于:
确定所述实体关系三元组中的首个实体中是否包含触发词;
如果是,则从预设的正则表达式集中确定与所述触发词相匹配的目标正则表达式;
基于所述目标正则表达式对应的替换规则对所述实体关系三元组中的首个实体进行更新。
在一个可能的实施方式中,所述校正模块还用于:
针对更新后的所述实体关系三元组中的首个实体,将所述首个实体中位于指定字符串之前的部分确定为第一实体,位于所述指定字符串之后的部分确定为第二实体;以及,
以所述指定字符串为关系词,得到包含所述第一实体和所述第二实体的实体关系三元组。
在一个可能的实施方式中,还包括:
查找模块,用于以所述实体关系三元组中的关系词为关键字查找预设的过滤词集;
过滤模块,用于如果在所述过滤词集中未查找到所述关键字,则丢弃所述实体关系三元组。
第三方面,本发明实施例提供一种电子设备,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的程序,以实现第一方面中任一项所述的方法。
第四方面,本发明实施例提供一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现第一方面中任一项所述的方法。
本发明实施例提供的技术方案,通过对待抽取的目标文本进行分词处理,得到多个词语,对每一词语进行词性标注,得到每一词语的词性标记,基于每一词语的词性标记对目标文本进行依存句法分析,得到目标文本的依存句法树,基于依存句法树确定目标文本所符合的句法模式,以及基于句法模式从目标文本抽取实体关系三元组,实现了基于句法模型的实体关系抽取。进一步地,该方法避免了繁琐的规则设定和语料标注,具有可扩展性,高效性,且对于新的语料数据仍可以实现抽取实体关系三元组,因此具有灵活性。
附图说明
图1为本发明一示例性实施例提供的一种实体关系抽取方法的实施例流程图;
图2为词性表释义图;
图3为依存关系标签释义图;
图4为本发明一示例性实施例提供的另一种实体关系抽取方法的实施例流程图;
图5为本发明一示例性实施例提供的又一种实体关系抽取方法的实施例流程图;
图6为本发明一示例性实施例提供的再一种实体关系抽取方法的实施例流程图;
图7为本发明一示例性实施例提供的再一种实体关系抽取方法的实施例流程图;
图8为本发明一示例性实施例提供的再一种实体关系抽取方法的实施例流程图;
图9为本发明一示例性实施例提供的再一种实体关系抽取方法的实施例流程图;
图10为本发明一示例性实施例提供的一种实体关系抽取装置的实施例框图;
图11为本发明实施例提供的一种的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,为本发明一示例性实施例提供的一种实体关系抽取方法的实施例流程图。如图1所示,该方法可包括以下步骤:
步骤102、对待抽取的目标文本进行分词处理,得到多个词语。
上述目标文本指待进行实体关系抽取的文本数据,为描述方便简称目标文本。作为一个实施例,在一些业务场景下,比如某领域知识图谱构建、机器学习模型训练等场景下,可通过以下过程获取上述目标文本:
首先根据实际业务需求设置触发词表,该触发词表中包含多个与实际业务需求相关的触发词。比如,在招聘领域知识图谱构建场景下,招聘相关信息通常包含:公司、旗下、位于、创立于、公司简称、集团、成立于、子公司、品牌等词,因此可以将这些词加入触发词表中。在应用中,则可基于预设的触发词表从数据量庞大的数据库中过滤出满足实际业务需求的文本数据,即目标文本。
具体而言,将数据库中的文本数据与上述触发词表进行匹配,如果该文本数据中至少包含一个触发词,则可将该文本数据确定为目标文本。
进一步,作为一个优选的实现方式,可以尽可能地从数据库中选取信息量多的文本数据作为目标文本。在一个例子中,可通过文本数据中包含的触发词的个数衡量该文本数据包含的信息量。可以理解的是,文本数据中包含的触发词的个数越多,则意味着该文本数据包含的信息量越多。基于此,则可以从数据库中选取包含的触发词个数大于等于设定的数据阈值(为大于1的自然数)的文本数据作为目标文本。在另一个例子中,还可以为触发词表中的触发词设置权重,在文本数据中至少包含一个触发词时,进一步确定该文本数据中包含的所有触发词的加权和值,可以理解的是,加权和值越大则意味着该文本数据包含的信息量越多。基于此,可以从数据库中选取包含的触发词的加权和值大于等于设定加权阈值的文本数据作为目标文本。
作为一个实施例,在依存句法分析工程中,随着句子长度的增加容易降低分析结果的准确性以及分析效率,因此,在从数据库中选取出目标文本之后,可进一步将目标文本划分为单个句子,将划分得到的单个句子作为最终的目标文本。如此处理能够提高后续对目标文本进行分析的效率和准确性。作为一个可选的实现方式,可根据标点符号将原始的目标文本划分为单个句子。上述标点符号包括但不限于:逗号、分号、句号等。
进一步地,在汉语中,词是承载语义的基本单元,也是信息检索、信息提取等任务的实施基础,因此,在从目标文本中抽取实体关系三元组时,首先对目标文本进行分词处理,得到多个词语。
举例来说,假设目标文本为:开元珠宝旗下拥有三大直营品牌:周六福珠宝、中国珠宝、周先生珠宝。通过对该目标文本进行分词处理,可得到以下多个词语:开元、珠宝、旗、下、拥有、三、大、直营、品牌、“:”、周六福、珠宝、“、”、中国、珠宝、“、”、周、先生、珠宝。
步骤104、对每一词语进行词性标注,得到每一词语的词性标记。
词性标注又称为词类标注,是指确定词语的词性的过程。词性包括但不限于名词、形容词、动词、副词、介词等。
作为一个可选的实现方式,在应用中,可利用LTP(Language TechnologyPlantform,语言技术平台)工具中的词性标注模块对上述每一词语进行词性标注,得到每一词语的词性标记。
举例来说,下述为对上述步骤102中示出的多个词语的词性标注结果的示例:
开元(nz)、珠宝(n)、旗(nz)、下(nd)、拥有(v)、三(m)、大(a)、直营(b)、品牌(n)、“:”(wp)、周六福(nh)、珠宝(n)、“、”(wp)、中国(ns)、珠宝(n)、“、”(wp)、周(n)、先生(n)、珠宝(n)
其中,词性表释义如图2所示。
步骤106、基于每一词语的词性标记对目标文本进行依存句法分析,得到目标文本的依存句法树。
依存句法分析是自然语言处理中的关键技术之一,其基本任务是确定句子中词语之间的依存关系。
作为一个可选的实现方式,在应用中,可利用LTP工具中的依存句法分析模块对目标文本进行依存句法分析,得到目标文本的依存句法树。依存句法树用于描述每一词语的依存结构,依存结构包括:词语的词性标记、词语的父节点和父节点的词性标记、词语和其父节点之间的依存关系标签。
举例来说,如下述表1所示,为对上述步骤102中举例的目标文本进行依存句法分析得到的依存句法树中部分节点的依存结构的示意图,其中,依存关系标签释义如图3所示。
表1
节点(位置下标) 依存结构
开元(1) 【nz:2:n:ATT】
珠宝(2) 【n:3:n:ATT】
旗(3) 【n:4:nd:ATT】
下(4) 【nd:5:v:ADV】
拥有(5) 【v:0:HED】
周(17) 【nh:18:n:ATT】
先生(18) 【n:12:ns:COO】
珠宝(19) 【n:5:v:VOB】
表1中,依存结构中的内容依次表示:词语的词性标记、词语的父节点所在位置下标、父节点的词性标记、词语和其父节点之间的依存关系标签。比如词语“开元”的依存结构【nz:2:n:ATT】表示:词语“开元”的词性标记为其他名词,其父节点所在位置下标为2(也即词语“珠宝”),父节点的词性标记为名词,词语“开元”与其父节点之间的依存关系标签为ATT,也即,词语“开元”与词语“珠宝”之间存在ATT依存关系。
需要说明的是,分词列表存在位置下标为0的隐含节点ROOT,因此,“开元”对应的位置下标为1。
还需要说明的是,上述表1中,HED表示句子的核心。
步骤108、基于依存句法树确定目标文本所符合的句法模式。
作为一个实施例,可通过图4所示流程实现基于依存句法树确定目标文本所符合的句法模式。如图4所示,该流程包括以下步骤:
步骤402、按照多个词语在目标文本中的排列顺序,依次将每一词语的词性标记和该词语与其父节点之间的依存关系标签组合,得到初始句法模式。
为使本领域技术人员容易理解本步骤402的具体实现,以下通过四个具体例子对本步骤402进行说明:
例一:
假设目标文本为“广州立信股权投资基金管理有限公司拥有一线江景甲级写字楼立白中心”,可以理解的是,依次将该目标文本中每一词语的词性标记和该词语与其父节点之间的依存关系标签组合,可得到初始句法模式:广州立信股权投资基金管理有限公司|n-SBV-拥有|v-VOB-一线江景甲级写字楼立白中心|n。
例二:
假设目标文本为“广州立信股权投资基金管理有限公司成立于2018年”,可以理解的是,依次将该目标文本中每一词语的词性标记和该词语与其父节点之间的依存关系标签组合,可得到初始句法模式:广州立信股权投资基金管理有限公司|n-SBV-成立|v于|p-CMP-2018|m-POB-年|q。
例三:
假设目标文本为“深圳华智物联科技有限公司董事长赵振祥”,可以理解的是,依次将该目标文本中每一词语的词性标记和该词语与其父节点之间的依存关系标签组合,可得到初始句法模式:深圳|n-ATT-华智物联|n-ATT-科技|n-ATT-有限公司|n-ATT-董事长|n-ATT-赵振祥|n。
例四:
假设目标文本为“开元珠宝旗下周六福珠宝和中国珠宝两大珠宝品牌”,可以理解的是,依次将该目标文本中每一词语的词性标记和该词语与其父节点之间的依存关系标签组合,可得到初始句法模式:开元|n-ATT-珠宝|n-SBV-拥有|v-VOB-周六福|n-ATT-珠宝|n-ATT-和|c-COO-中国|n-ATT-珠宝|n-ATT-两|m-ATT-大|a-ATT-珠宝|n-ATT-品牌|n。
步骤404、从预设的句法模式集中确定与初始句法模式相匹配的目标句法模式。
以下首先对预设的句法模式集进行说明:
作为一个实施例,可根据实际业务场景下业务数据的结构特点制定句法模式集,该句法模式集中包含多个句法模式,每一句法模式由至少一个依存关系标签来表示。
举例来说,在招聘领域下,制定的句法模式集中包括但不限于以下句法模式:【SBV+VOB】、【SBV+CMP+VOB】、【SBV+CMP+POB】、【SBV+CMP+COO】、【ATT+ATT】、【ATT+COO+RAD】、【SBV+VOB+COO】、【COO+SBV+VOB】、【ATT+COO+LAD+ATT】、【SBV+COO+VOB】等。为便于理解,以句法模式【SBV+VOB】为例,该句法模式中包含主谓关系和动宾关系。
在本步骤404中,则可以从上述预设的句法模式集中确定与初始句法模式相匹配的句法模式(为描述方便,以下称目标句法模式)。
举例来说,对于上述例一示例出的初始句法模式,确定出的目标句法模式为【SBV+VOB】;对于上述例二示例出的初始句法模式,确定出的目标句法模式为【SBV+CMP+POB】;对于上述例三示例出的初始句法模式,确定出的目标句法模式为【ATT+ATT】;对于上述例四示例出的初始句法模式,确定出的目标句法模式为【SBV+VOB+COO】。
步骤406、将目标句法模式确定为所述目标文本所符合的句法模式。
至此,完成图4所示流程的描述。
步骤110、基于句法模式从目标文本抽取实体关系三元组。
作为一个实施例,可通过图5所示流程实现基于句法模式从目标文本抽取实体关系三元组。如图5所示,包括以下步骤:
步骤502、基于句法模式中的各依存关系标签从所述目标文本中抽取目标词元和核心关系词。
步骤504、将抽取出的目标词元和核心关系词组成实体关系三元组。
举例来说,对于上述例一,句法模式为主谓宾结构,抽取出的目标词元包括:广州立信股权投资基金管理有限公司、一线江景甲级写字楼立白中心,核心关系词为拥有,组成的实体关系三元组则为:【广州立信股权投资基金管理有限公司,拥有,一线江景甲级写字楼立白中心】。
对于上述例二,句法模式为含有介宾关系的主谓动补关系,抽取出的目标词元包括:广州立信股权投资基金管理有限公司、2018年,核心关系词为成立于,组成的实体关系三元组则为:【广州立信股权投资基金管理有限公司,成立于,2018年】。
对于上述例三,句法模式为从属关系结构,抽取出的目标词元包括:深圳华智物联科技有限公司、赵振祥,核心关系词为董事长,组成的实体关系三元组为:【深圳华智物联科技有限公司,董事长,赵振祥】。
对于上述例四,句法模式为并列关系结构,抽取出的目标词元包括:开元珠宝、周六福珠宝、中国珠宝,核心关系词为拥有,组成的实体关系三元组包括【开元珠宝,拥有,周六福珠宝】、【开元珠宝,拥有,中国珠宝】。
至此,完成图1所示流程的描述。
在图1所示流程中,通过对待抽取的目标文本进行分词处理,得到多个词语,对每一词语进行词性标注,得到每一词语的词性标记,基于每一词语的词性标记对目标文本进行依存句法分析,得到目标文本的依存句法树,基于依存句法树确定目标文本所符合的句法模式,以及基于句法模式从目标文本抽取实体关系三元组,实现了基于句法模型的实体关系抽取。进一步地,该方法避免了繁琐的规则设定和语料标注,具有可扩展性,高效性,且对于新的语料数据仍可以实现抽取实体关系三元组,因此具有灵活性。
在实践中,对于一些特殊的句式,在句子中常常含有一些关键的标志词,这些关键标志词往往能改变句子中谓语的语义,如果在进行关系词抽取时不对这些关键标志词进行单独处理,往往会造成关系元组抽取的严重错误。
举例来说,假设目标文本为“广州润德文化传播有限公司地址不位于上海,而是广州”,并假设按照图1所示流程抽取到的实体关系三元组为:【广州润德文化传播有限公司,位于,上海】,由此可见,由于没有把表示否定意义的关键标志词(以下称否定词)包含在关系词内,导致抽取到了错误的关系元组。
再举例来说,假设目标文本为“抖音APP被认为是字节跳动最有潜力的产品之一”,并假设按照图1所示流程抽取到的实体关系三元组为:【抖音APP,认为,字节跳动最有潜力的产品之一】,由于可见,由于没有把表示被动意义的关键标志词(以下称被动标志词)包含在关系词内,导致抽取到了错误的关系元组。
针对上述情况,本发明还提供以下实施例:
作为一个实施例,如图6所示,为执行完上述步骤110之后的一个实施例流程图。如图6所示,该流程包括以下步骤:
步骤602、基于依存句法树确定是否对实体关系三元组中的关系词进行修正。
步骤604、如果是,则基于依存句法树对实体关系三元组中的关系词进行修正。
以下对步骤602~604进行统一说明:
作为一个实施例,对于上述举例的句子中包含否定词的情况,通过分析否定句的依存句法树的特征发现,否定词一般在句子中做状语或补语与谓词相连,因此,可通过以下方式实现上述步骤602:检查依存句法树中是否存在与实体关系三元组中的关系词相连且满足设定条件的词语(为描述方便,以下称目标词语),该设定条件为:词性标记为副词,依存标签为指定依存标签,以及包含在预设的关键标志词词表中。在该实施例中,上述指定依存标签为ADV或CMP。上述关键标志词词表中包含至少一个否定词,包括但不限于:不、非、无、没、未、否、莫、别。
在步骤604中,如果检查结果表示依存句法树中存在与实体关系三元组中的关系词相连且满足上述设定条件的目标词语,则将实体关系三元组中的关系词更新为目标词语与关系词的组合。
举例来说,对上述实体关系三元组【广州润德文化传播有限公司,位于,上海】中的关系词进行修正后,得到的实现关系三元组为【广州润德文化传播有限公司,不位于,上海】。
作为另一个实施例,对于上述举例的句子中包含被动标志词的情况,通过分析该类句子的依存句法树的特征发现,被动标志词一般在句子中做状语与谓词相连,因此,可通过以下方式实现上述步骤602:检查依存句法树中是否存在与实体关系三元组中的关系词相连且满足设定条件的目标词语,该设定条件为:词性标记为副词,依存标签为指定依存标签,以及包含在预设的关键标志词词表中。在该实施例中,上述指定依存标签为ADV。上述关键标志词词表中包含多个被动标志词,包括但不限于:被、给、让。
在步骤604中,如果检查结果表示依存句法树中存在与实体关系三元组中的关系词相连且满足上述设定条件的目标词语,则将实体关系三元组中的关系词更新为目标词语、关系词,以及目标文本中位于目标词语和关系词之间的名词性短语的组合。
举例来说,对上述实体关系三元组【抖音APP,认为,字节跳动最有潜力的产品之一】中的关系词进行修正后,得到的实现关系三元组为【抖音APP,被认为,字节跳动最有潜力的产品之一】。
通过图6所示流程,实现了对于一些含有关键标志词,比如否定词或被动标志词的特殊句式,在进行关系词抽取时对这些关键标志词进行单独处理,使得最终抽取出的实体关系三元组更为准确。
在实践中,由于文本数据中经常会存在大量指代性或隐含的实体名词,因此通过上述图1所示流程抽取到的实体关系三元组有可能会存在实体定语缺失、实体指代不明或者实体张冠李戴等情况。针对这些情况,本发明提出:在执行完上述步骤110之后,基于预设的实体校正规则对步骤110中抽取到的实体关系三元组中的实体进行校正。以下则通过三个具体实施例对基于预设的实体校正规则对步骤110中抽取到的实体关系三元组中的实体进行校正的过程做出示例性说明:
实施例一,对于实体定语缺失的情况:
举例来说,假设目标文本为“北京字节跳动科技有限公司成立于2012年03月09日,注册地位于北京市海淀区知春路甲48号2号楼10A室,法定代表人为张利东”,按照上述图1所示流程可抽取出以下三个实体关系三元组:【北京字节跳动科技有限公司,成立于,2012年03月09日】、【注册地,位于,北京市海淀区知春路甲48号2号楼10A室】、【法定代表人,为,张利东】。可以理解的是,上述第二个和第三个实体关系三元组出现实体定语缺失的情况。
在该种情况下,则可通过以下过程实现基于预设的实体校正规则对抽取到的实体关系三元组中的实体进行校正:
若实体关系三元组对应的实体间关系为并列关系,则将实体关系三元组中的首个实体更新为第一实体关系三元组中的首个实体;和/或,将实体关系三元组中的第二个实体更新为第二实体关系三元组中的第二个实体;所述第一实体关系三元组是指基于第一句法模式从目标文本中抽取的实体关系三元组,第二实体关系三元组是指基于第二句法模式从目标文本中抽取的实体关系三元组。
上述第一句法模式是指【SBV+CMP+COO】,第二句法模式是指【SBV+VOB】。
实施例二,对于实体指代不明的情况:
举例来说,假设目标文本为“广州润德文化传播有限公司主要从事中小学教辅研发、制作与发行,公司办公地址位于广州市天河区中山大道288号东圃商业大厦D栋”,按照上述图1所示流程可抽取出以下两个实体关系三元组:【广州润德文化传播有限公司,从事,中小学教辅研发】、【公司办公地址,位于,广州市天河区中山大道288号东圃商业大厦D栋】。可以理解的是,上述第二个实体关系三元组中的首个实体“公司办公地址”指代不明。
在该种情况下,则可通过图7所示流程实现基于预设的实体校正规则对抽取到的实体关系三元组中的实体进行校正。如图7所示,该流程包括以下步骤:
步骤702、以实体关系三元组中的首个实体为关键字查找预设的代词词表。
步骤704、如果在代词词表中查找到关键字,则将实体关系三元组中的首个实体更新为第二实体关系三元组中的首个实体;所述第二实体关系三元组是指基于第二句法模式从目标文本中抽取的实体关系三元组。
以下对步骤702~704进行统一说明:
作为一个实施例,可根据实际业务场景设置代词词表,该代词词表中可包括该实际业务场景中可能涉及到的一些指代性词语。举例来说,在招聘领域中,通过对文本数据进行分析,发现同一个句子中公司名称一般只出现一次,后续会出现一些指代性实体名称来代替公司名称,包括但不限于:公司、集团公司、公司总部、我们、总公司、集团总部、总部地址、企业总部、我司、我公司、本公司、该公司、该企业、一家、集团、总部、公司办公地址等。因此,可将上述词加入到代词词表中。
在应用中,则可针对抽取出的实体关系三元组,以该实体关系三元组中的首个实体为关键字查找上述代词词表,如果在代词词表中查找到该关键字,则意味着该首个实体指代不明。此时,则可对该首个实体进行校正。
具体而言,可将该首个实体更新为【SBV+VOB】这一句法模式(为描述方便,称为第二句法模式)对应的实体关系三元组(为描述方便,称为第二实体关系三元组)中的实体1,也即将该首个实体更新为基于第二句法模式从目标文本中抽取的实体关系三元组中的首个实体。
举例来说,针对上述举例的实体关系三元组【公司办公地址,位于,广州市天河区中山大道288号东圃商业大厦D栋】,按照图9所示流程,可将其校正为【广州润德文化传播有限公司,位于,广州市天河区中山大道288号东圃商业大厦D栋】。
实施例三,对于实体关系错误的情况:
举例来说,假设目标文本为“深圳高度公司,前身为香港信诚公司,成立于2000年。旗下有深圳市高度标识设计有限公司、深圳市高度照明科技有限公司”,按照上述图1所示流程可抽取出以下三个实体关系三元组:【深圳高度公司,成立于,2000年】、【旗下,有,深圳市高度标识设计有限公司】、【旗下,有,深圳市高度照明科技有限公司】,可以理解的是,上述第二个和第三个实体关系三元组中的实体关系错误。
在该种情况下,则可通过图8所示流程实现基于预设的实体校正规则对抽取到的实体关系三元组中的实体进行校正。如图8所示,该流程包括以下步骤:
步骤802、确定实体关系三元组中的首个实体中是否包含触发词。
作为一个实施例,可根据实际业务场景设置触发词集,该触发词集中可包括该实际业务场景中可能涉及到的一些表示实体间关系的词语。举例来说,在招聘领域中,通过对文本数据进行分析,发现对于旗下关系,可能涉及到的词语包括但不限于:公司旗下、旗下品牌、旗下公司、旗下等,因此,可将上述词语(以下称触发词)加入触发词集。
在应用中,则可以将实体关系三元组中的首个实体与上述触发词集中的触发词进行匹配,如果上述首个实体中包含某一触发词,则意味着该实体关系三元组错误,此时,则可对该实体关系三元组中的首个实体进行校正。
步骤804、如果是,则从预设的正则表达式集中确定与首个实体中包含的触发词相匹配的目标正则表达式。
步骤806、基于目标正则表达式对应的替换规则对实体关系三元组中的首个实体进行更新。
以下分四种情况对步骤804~806进行统一说明:
情况一、
若上述首个实体的字符串长度大于4(多于4个字),且前4个字为触发词“集团旗下”,则从预设的正则表达式集中确定与该触发词相匹配的目标正则表达式:eTmp=e1.replace(“集团旗下”,lstemp[0]+‘集团旗下’。其中,lstemp0是指主谓宾结构下的主语,该目标正则表达式是指:将首个实体中的触发词“集团旗下”替换为lstemp[0]+‘集团旗下’。
情况二、
若上述首个实体的字符串长度大于4,且前4个字为触发词“公司旗下”、“旗下品牌”或者“旗下公司”,则从预设的正则表达式集中确定与该触发词相匹配的目标正则表达式:eTmp=e1.replace(strList1,temp[0]+‘旗下’)。其中,strList表示关键字,temp[0]是指含有介宾关系的主谓动补结构下的主语,该目标正则表达式是指:将首个实体中的触发词strList1替换为temp[0]+‘旗下’。
情况三、
若上述首个实体为触发词“旗下品牌”或“旗下”,则从预设的正则表达式集中确定与该触发词相匹配的目标正则表达式:eTmp=e1.replace(strList2,temp[0])。该目标正则表达式是指:将首个实体中strList2替换为temp[0]。
情况四、
若上述首个实体的字符串长度大于2(多于2个字),且前2个字为触发词“旗下”,则从预设的正则表达式集中确定与该触发词相匹配的目标正则表达式:eTmp=e1.replace(“旗下”,temp[0]+‘旗下’),该目标正则表达式是指:将首个实体中的触发词“旗下”替换为temp[0]+‘旗下’。
步骤808、将实体关系三元组中的关系词更新为指定关系词。
在一个例子中,上述指定关系词为“旗下”。举例来说,对于上述实体关系三元组【旗下,有,深圳市高度标识设计有限公司】,通过执行上述步骤804~808,可以得到实体关系三元组【深圳高度公司,旗下,深圳市高度标识设计有限公司】。
步骤810、针对更新后的实体关系三元组中的首个实体,将首个实体中位于指定字符串之前的部分确定为第一实体,位于指定字符串之后的部分确定为第二实体;以及,以指定字符串为关系词,得到包含第一实体和第二实体的实体关系三元组。
由上述描述可知,更新后的实体关系三元组中的首个实体包含关系词,因此,可将该首个实体进行分割,得到一个实体关系三元组。具体而言,可将首个实体中位于指定字符串之前的部分确定为第一实体,位于指定字符串之后的部分确定为第二实体;以及,以指定字符串为关系词,得到包含第一实体和第二实体的实体关系三元组。
举例来说,对于实体关系三元组【集团旗下核心医院深圳润泽瑞尼丝医疗美容医院,创立于,2018年4月】,通过上述步骤802~808完成实体校正后得到实体关系三元组【瑞尼丝医疗美容集团旗下核心医院深圳润泽瑞尼丝医疗美容医院,创立于,2018年4月】。按照步骤810中的描述,该实体关系三元组中包含关系词旗下,则可将首个实体中,位于“旗下”这一指定字符串之前的部分“瑞尼丝医疗美容集团”确定为第一实体,位于“旗下”这一指定字符串之后的部分“核心医院深圳润泽瑞尼丝医疗美容医院”确定为第二实体,最终可得到实体关系三元组【瑞尼丝医疗美容集团,旗下,核心医院深圳润泽瑞尼丝医疗美容医院】。
在实践中,由于在上述图1所示流程中,是根据句法模式来实现实体关系三元组的抽取,也就是说,只要目标文本满足预设的句法模式,就可以得到相应的实体关系三元组,如此将不可避免地出现一些与实际业务需求无关的实体关系三元组。基于此,本发明还提供以下实施例:
作为一个实施例,如图9所示,为执行完上述步骤110之后的一个实施例流程图。如图9所示,该流程包括以下步骤:
步骤902、以实体关系三元组中的关系词为关键字查找预设的过滤词集;如果过滤词集中未查找到关键字,则执行步骤904;如果在过滤词集中查找到关键字,则执行步骤906。
步骤904、丢弃该实体关系三元组。
步骤906、保留该实体关系三元组。
以下对步骤902~906进行统一说明:
作为一个实施例,可根据实际业务场景设置过滤词集,该过滤词集中可包括该实际业务场景中可能涉及到的一些关系对应的关系词。举例来说,在招聘领域中,涉及到的主要关系包括但不限于:成立于、位于、属于(子公司)、职称关系等,这些关系对应的关系词包括但不限于:旗下、成立于、位于、包含、包括、设有、拥有、属于、简称、涵盖、职称等。按照上述描述,则可将上述关系词放入过滤词集中。
在应用中,则可以实体关系三元组中的关系词为关键字查找预设的过滤词集,如果在过滤词集中未查找到该关键字,则可认为该实体关系三元组与实际业务需求无关,从而丢弃该实体关系三元组;反之,如果在过滤词集中查找到该关键字,则可认为该实体关系三元组与实际业务需求相关,从而保留该实体关系三元组。
举例来说,对于实体关系三元组【声博士(深圳)声学技术有限公司,属于,广州声博士声学技术有限公司】,其关系词“属于”存在于上述过滤词集中,按照上述描述,可保留该实体关系三元组。
再举例来说,对于实体关系三元组【上海凯奔航空技术有限公司,经营,航空公司的零部件】,其关系词“经营”不存在于上述过滤词集中,按照上述描述,可丢弃该实体关系三元组。
此外,作为一个实施例,还可将最终抽取出的实体关系三元组插入数据库中,完成数据入库工作,以便于后续应用。作为一个可选的实现方式,可利用Cypher语言,将最终抽取出的实体关系元组数据逐条插入图数据库neo4j中。作为另一个可选的实现方式,可将最终抽取出的实体关系三元组写入txt文件,然后将txt文件存储为CSV格式,最后则通过图数据库neo4j中的“import”模块将CSV格式的文件导入图数据库neo4j中。
参见图10,为本发明一示例性实施例提供的一种实体关系抽取装置的实施例框图。如图10所示,该装置可包括:分词模块1001、词性标注模块1002、句法分析模块1003、句法模式确定模块1004,以及抽取模块1005。
其中,分词模块1001,用于对待抽取的目标文本进行分词处理,得到多个词语;
词性标注模块1002,用于对每一所述词语进行词性标注,得到每一所述词语的词性标记;
句法分析模块1003,用于基于每一所述词语的词性标记对所述目标文本进行依存句法分析,得到所述目标文本的依存句法树;所述依存句法树用于描述每一所述词语的依存结构,所述依存结构包括:所述词语的词性标记、所述词语的父节点和所述父节点的词性标记、所述词语和其父节点之间的依存关系标签;
句法模式确定模块1004,用于基于所述依存句法树确定所述目标文本所符合的句法模式;
抽取模块1005,用于基于所述句法模式从所述目标文本抽取实体关系三元组。
在一个可能的实施方式中,所述句法模式确定模块1004具体用于:
按照多个所述词语在所述目标文本中的排列顺序,依次将每一所述词语的词性标记和所述词语与其父节点之间的依存关系标签组合,得到初始句法模式;
从预设的句法模式集中确定与所述初始句法模式相匹配的目标句法模式;
将所述目标句法模式确定为所述目标文本所符合的句法模式。
在一个可能的实施方式中,所述抽取模块1005具体用于:
基于所述句法模式中的各依存关系标签从所述目标文本中抽取目标词元和核心关系词;
将抽取出的所述目标词元和核心关系词组成实体关系三元组。
在一个可能的实施方式中,还包括(图10未示出):
判断模块,用于基于所述依存句法树确定是否对所述实体关系三元组中的关系词进行修正;
修正模块,用于如果确定对所述实体关系三元组中的关系词进行修正,则基于所述依存句法树对所述实体关系三元组中的关系词进行修正。
在一个可能的实施方式中,所述判断模块具体用于:
检查所述依存句法树中是否存在与所述实体关系三元组中的关系词相连且满足设定条件的目标词语;所述设定条件为:词性标记为副词,依存标签为指定依存标签,以及包含在预设的关键标志词词表中;
如果是,则确定对所述实体关系三元组中的关系词进行修正。
在一个可能的实施方式中,所述修正模块具体用于:
将所述实体关系三元组中的关系词更新为所述目标词语与所述关系词的组合;或者,
将所述实体关系三元组中的关系词更新为所述目标词语、所述关系词,以及所述目标文本中位于所述目标词语和所述关系词之间的名词性短语的组合。
在一个可能的实施方式中,所述指定依存标签为:ADV或CMP,所述关键标志词词表中包含多个否定词;或者,
所述指定依存标签为ADV,所述关键标志词词表中包含多个被动标志词。
在一个可能的实施方式中,还包括(图10未示出):
校正模块,用于基于预设的实体校正规则对所述实体关系三元组中的实体进行校正。
在一个可能的实施方式中,所述校正模块具体用于:
若所述实体关系三元组对应的实体间关系为并列关系,则将所述实体关系三元组中的首个实体更新为第一实体关系三元组中的首个实体;和/或,
将所述实体关系三元组中的第二个实体更新为第二实体关系三元组中的第二个实体;所述第一实体关系三元组是指基于第一句法模式从所述目标文本中抽取的实体关系三元组,所述第二实体关系三元组是指基于第二句法模式从所述目标文本中抽取的实体关系三元组。
在一个可能的实施方式中,所述校正模块具体用于:
以所述实体关系三元组中的首个实体为关键字查找预设的代词词表;
如果在所述代词词表中查找到所述关键字,则将所述实体关系三元组中的首个实体更新为第二实体关系三元组中的首个实体;所述第二实体关系三元组是指基于第二句法模式从所述目标文本中抽取的实体关系三元组。
在一个可能的实施方式中,所述校正模块具体用于:
确定所述实体关系三元组中的首个实体中是否包含触发词;
如果是,则从预设的正则表达式集中确定与所述触发词相匹配的目标正则表达式;
基于所述目标正则表达式对应的替换规则对所述实体关系三元组中的首个实体进行更新。
在一个可能的实施方式中,所述校正模块还用于:
针对更新后的所述实体关系三元组中的首个实体,将所述首个实体中位于指定字符串之前的部分确定为第一实体,位于所述指定字符串之后的部分确定为第二实体;以及,
以所述指定字符串为关系词,得到包含所述第一实体和所述第二实体的实体关系三元组。
在一个可能的实施方式中,还包括(图10未示出):
查找模块,用于以所述实体关系三元组中的关系词为关键字查找预设的过滤词集;
过滤模块,用于如果在所述过滤词集中未查找到所述关键字,则丢弃所述实体关系三元组。
图11为本发明实施例提供的一种的电子设备的结构示意图,图11所示的电子设备1100包括:至少一个处理器1101、存储器1102、至少一个网络接口1104和其他用户接口1103。电子设备1100中的各个组件通过总线系统1105耦合在一起。可理解,总线系统1105用于实现这些组件之间的连接通信。总线系统1105除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图11中将各种总线都标为总线系统1105。
其中,用户接口1103可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。
可以理解,本发明实施例中的存储器1102可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-OnlyMemory,ROM)、可编程只读存储器(ProgrammableROM,PROM)、可擦除可编程只读存储器(ErasablePROM,EPROM)、电可擦除可编程只读存储器(ElectricallyEPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(RandomAccessMemory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(StaticRAM,SRAM)、动态随机存取存储器(DynamicRAM,DRAM)、同步动态随机存取存储器(SynchronousDRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(DoubleDataRateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(SynchlinkDRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambusRAM,DRRAM)。本文描述的存储器1102旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器1102存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统11021和应用程序11022。
其中,操作系统11021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序11022,包含各种应用程序,例如媒体播放器(MediaPlayer)、浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序11022中。
在本发明实施例中,通过调用存储器1102存储的程序或指令,具体的,可以是应用程序11022中存储的程序或指令,处理器1101用于执行各方法实施例所提供的方法步骤,例如包括:
对待抽取的目标文本进行分词处理,得到多个词语;
对每一所述词语进行词性标注,得到每一所述词语的词性标记;
基于每一所述词语的词性标记对所述目标文本进行依存句法分析,得到所述目标文本的依存句法树;所述依存句法树用于描述每一所述词语的依存结构,所述依存结构包括:所述词语的词性标记、所述词语的父节点和所述父节点的词性标记、所述词语和其父节点之间的依存关系标签;
基于所述依存句法树确定所述目标文本所符合的句法模式,以及基于所述句法模式从所述目标文本抽取实体关系三元组。
上述本发明实施例揭示的方法可以应用于处理器1101中,或者由处理器1101实现。处理器1101可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器1101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1101可以是通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(FieldProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1102,处理器1101读取存储器1102中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecificIntegratedCircuits,ASIC)、数字信号处理器(DigitalSignalProcessing,DSP)、数字信号处理设备(DSPDevice,DSPD)、可编程逻辑设备(ProgrammableLogicDevice,PLD)、现场可编程门阵列(Field-ProgrammableGateArray,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本实施例提供的电子设备可以是如图11中所示的电子设备,可执行如图1,图4-9中实体关系抽取方法的所有步骤,进而实现图1,图4-9所示实体关系抽取方法的技术效果,具体请参照图1,图4-9相关描述,为简洁描述,在此不作赘述。
本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。
当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述在电子设备侧执行的实体关系抽取方法。
所述处理器用于执行存储器中存储的实体关系抽取程序,以实现以下在电子设备侧执行的实体关系抽取方法的步骤:
对待抽取的目标文本进行分词处理,得到多个词语;
对每一所述词语进行词性标注,得到每一所述词语的词性标记;
基于每一所述词语的词性标记对所述目标文本进行依存句法分析,得到所述目标文本的依存句法树;所述依存句法树用于描述每一所述词语的依存结构,所述依存结构包括:所述词语的词性标记、所述词语的父节点和所述父节点的词性标记、所述词语和其父节点之间的依存关系标签;
基于所述依存句法树确定所述目标文本所符合的句法模式,以及基于所述句法模式从所述目标文本抽取实体关系三元组。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (13)

1.一种实体关系抽取方法,其特征在于,所述方法包括:
对待抽取的目标文本进行分词处理,得到多个词语;
对每一所述词语进行词性标注,得到每一所述词语的词性标记;
基于每一所述词语的词性标记对所述目标文本进行依存句法分析,得到所述目标文本的依存句法树;所述依存句法树用于描述每一所述词语的依存结构,所述依存结构包括:所述词语的词性标记、所述词语的父节点和所述父节点的词性标记、所述词语和其父节点之间的依存关系标签;
基于所述依存句法树确定所述目标文本所符合的句法模式,以及基于所述句法模式从所述目标文本抽取实体关系三元组;基于预设的实体校正规则对所述实体关系三元组中的实体进行校正;
其中,所述基于依存句法树确定所述目标文本所符合的句法模式,包括:按照多个所述词语在所述目标文本中的排列顺序,依次将每一所述词语的词性标记和所述词语与其父节点之间的依存关系标签组合,得到初始句法模式;从预设的句法模式集中确定与所述初始句法模式相匹配的目标句法模式,其中所述预设的句法模式集中包含多个句法模式,每一句法模式由至少一个依存关系标签来表示;将所述目标句法模式确定为所述目标文本所符合的句法模式;
所述基于预设的实体校正规则对所述实体关系三元组中的实体进行校正,包括:以所述实体关系三元组中的首个实体为关键字查找预设的代词词表;如果在所述代词词表中查找到所述关键字,则将所述实体关系三元组中的首个实体更新为第二实体关系三元组中的首个实体;所述第二实体关系三元组是指基于第二句法模式从所述目标文本中抽取的实体关系三元组。
2.根据权利要求1所述的方法,其特征在于,所述基于句法模式从所述目标文本抽取实体关系三元组,包括:
基于所述句法模式中的各依存关系标签从所述目标文本中抽取目标词元和核心关系词;
将抽取出的所述目标词元和核心关系词组成实体关系三元组。
3.根据权利要求1~2任一所述的方法,其特征在于,在所述基于句法模式从所述目标文本抽取实体关系三元组之后,还包括:
基于所述依存句法树确定是否对所述实体关系三元组中的关系词进行修正。
4.根据权利要求3所述的方法,其特征在于,所述基于依存句法树确定是否对所述实体关系三元组中的关系词进行修正,包括:
检查所述依存句法树中是否存在与所述实体关系三元组中的关系词相连且满足设定条件的目标词语;所述设定条件为:词性标记为副词,依存标签为指定依存标签,以及包含在预设的关键标志词词表中;
如果是,则确定对所述实体关系三元组中的关系词进行修正。
5.根据权利要求4所述的方法,其特征在于,所述对所述实体关系三元组中的关系词进行修正,包括:
将所述实体关系三元组中的关系词更新为所述目标词语与所述关系词的组合;或者,
将所述实体关系三元组中的关系词更新为所述目标词语、所述关系词,以及所述目标文本中位于所述目标词语和所述关系词之间的名词性短语的组合。
6.根据权利要求4所述的方法,其特征在于,所述指定依存标签为:ADV或CMP,所述关键标志词词表中包含至少一个否定词;或者,
所述指定依存标签为ADV,所述关键标志词词表中包含至少一个被动标志词。
7.一种实体关系抽取方法,其特征在于,所述方法包括:
对待抽取的目标文本进行分词处理,得到多个词语;
对每一所述词语进行词性标注,得到每一所述词语的词性标记;
基于每一所述词语的词性标记对所述目标文本进行依存句法分析,得到所述目标文本的依存句法树;所述依存句法树用于描述每一所述词语的依存结构,所述依存结构包括:所述词语的词性标记、所述词语的父节点和所述父节点的词性标记、所述词语和其父节点之间的依存关系标签;
基于所述依存句法树确定所述目标文本所符合的句法模式,以及基于所述句法模式从所述目标文本抽取实体关系三元组;基于预设的实体校正规则对所述实体关系三元组中的实体进行校正;
其中,所述基于依存句法树确定所述目标文本所符合的句法模式,包括:按照多个所述词语在所述目标文本中的排列顺序,依次将每一所述词语的词性标记和所述词语与其父节点之间的依存关系标签组合,得到初始句法模式;从预设的句法模式集中确定与所述初始句法模式相匹配的目标句法模式,其中所述预设的句法模式集中包含多个句法模式,每一句法模式由至少一个依存关系标签来表示;将所述目标句法模式确定为所述目标文本所符合的句法模式;
所述基于预设的实体校正规则对所述实体关系三元组中的实体进行校正,包括:确定所述实体关系三元组中的首个实体中是否包含触发词;如果是,则从预设的正则表达式集中确定与所述触发词相匹配的目标正则表达式;基于所述目标正则表达式对应的替换规则对所述实体关系三元组中的首个实体进行更新。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
针对更新后的所述实体关系三元组中的首个实体,将所述首个实体中位于指定字符串之前的部分确定为第一实体,位于所述指定字符串之后的部分确定为第二实体;以及,
以所述指定字符串为关系词,得到包含所述第一实体和所述第二实体的实体关系三元组。
9.根据权利要求8所述的方法,其特征在于,在所述基于句法模式从所述目标文本抽取实体关系三元组之后,还包括:
以所述实体关系三元组中的关系词为关键字查找预设的过滤词集;
如果在所述过滤词集中未查找到所述关键字,则丢弃所述实体关系三元组。
10.一种实体关系抽取装置,其特征在于,所述装置包括:
分词模块,用于对待抽取的目标文本进行分词处理,得到多个词语;
词性标注模块,用于对每一所述词语进行词性标注,得到每一所述词语的词性标记;
句法分析模块,用于基于每一所述词语的词性标记对所述目标文本进行依存句法分析,得到所述目标文本的依存句法树;所述依存句法树用于描述每一所述词语的依存结构,所述依存结构包括:所述词语的词性标记、所述词语的父节点和所述父节点的词性标记、所述词语和其父节点之间的依存关系标签;
句法模式确定模块,用于基于所述依存句法树确定所述目标文本所符合的句法模式;其中,所述基于依存句法树确定所述目标文本所符合的句法模式,包括:按照多个所述词语在所述目标文本中的排列顺序,依次将每一所述词语的词性标记和所述词语与其父节点之间的依存关系标签组合,得到初始句法模式;从预设的句法模式集中确定与所述初始句法模式相匹配的目标句法模式,其中所述预设的句法模式集中包含多个句法模式,每一句法模式由至少一个依存关系标签来表示;将所述目标句法模式确定为所述目标文本所符合的句法模式;
抽取模块,用于基于所述句法模式从所述目标文本抽取实体关系三元组;
校正模块,用于基于预设的实体校正规则对所述实体关系三元组中的实体进行校正;其中,所述基于预设的实体校正规则对所述实体关系三元组中的实体进行校正,包括:以所述实体关系三元组中的首个实体为关键字查找预设的代词词表;如果在所述代词词表中查找到所述关键字,则将所述实体关系三元组中的首个实体更新为第二实体关系三元组中的首个实体;所述第二实体关系三元组是指基于第二句法模式从所述目标文本中抽取的实体关系三元组。
11.一种实体关系抽取装置,其特征在于,所述装置包括:
分词模块,用于对待抽取的目标文本进行分词处理,得到多个词语;
词性标注模块,用于对每一所述词语进行词性标注,得到每一所述词语的词性标记;
句法分析模块,用于基于每一所述词语的词性标记对所述目标文本进行依存句法分析,得到所述目标文本的依存句法树;所述依存句法树用于描述每一所述词语的依存结构,所述依存结构包括:所述词语的词性标记、所述词语的父节点和所述父节点的词性标记、所述词语和其父节点之间的依存关系标签;
句法模式确定模块,用于基于所述依存句法树确定所述目标文本所符合的句法模式;其中,所述基于依存句法树确定所述目标文本所符合的句法模式,包括:按照多个所述词语在所述目标文本中的排列顺序,依次将每一所述词语的词性标记和所述词语与其父节点之间的依存关系标签组合,得到初始句法模式;从预设的句法模式集中确定与所述初始句法模式相匹配的目标句法模式,其中所述预设的句法模式集中包含多个句法模式,每一句法模式由至少一个依存关系标签来表示;将所述目标句法模式确定为所述目标文本所符合的句法模式;
抽取模块,用于基于所述句法模式从所述目标文本抽取实体关系三元组;
校正模块,用于基于预设的实体校正规则对所述实体关系三元组中的实体进行校正;其中,所述基于预设的实体校正规则对所述实体关系三元组中的实体进行校正,包括:确定所述实体关系三元组中的首个实体中是否包含触发词;如果是,则从预设的正则表达式集中确定与所述触发词相匹配的目标正则表达式;基于所述目标正则表达式对应的替换规则对所述实体关系三元组中的首个实体进行更新。
12.一种电子设备,其特征在于,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的程序,以实现权利要求1~6或7~9中任一项所述的方法。
13.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1~6或7~9中任一项所述的方法。
CN202011275193.3A 2020-11-13 2020-11-13 实体关系抽取方法、装置、电子设备及存储介质 Active CN112232074B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011275193.3A CN112232074B (zh) 2020-11-13 2020-11-13 实体关系抽取方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011275193.3A CN112232074B (zh) 2020-11-13 2020-11-13 实体关系抽取方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112232074A CN112232074A (zh) 2021-01-15
CN112232074B true CN112232074B (zh) 2022-01-04

Family

ID=74123729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011275193.3A Active CN112232074B (zh) 2020-11-13 2020-11-13 实体关系抽取方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112232074B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699665B (zh) * 2021-03-25 2021-08-27 北京智源人工智能研究院 一种安全报告文本的三元组抽取方法、装置及电子设备
CN113282762B (zh) * 2021-05-27 2023-06-02 深圳数联天下智能科技有限公司 知识图谱构建方法、装置、电子设备和存储介质
CN113705198B (zh) * 2021-10-21 2022-03-25 北京达佳互联信息技术有限公司 场景图生成方法、装置、电子设备及存储介质
CN114186552B (zh) * 2021-12-13 2023-04-07 北京百度网讯科技有限公司 文本分析方法、装置、设备及计算机存储介质
CN114997398B (zh) * 2022-03-09 2023-05-26 哈尔滨工业大学 一种基于关系抽取的知识库融合方法
CN115294964B (zh) * 2022-09-26 2023-02-10 广州小鹏汽车科技有限公司 语音识别方法、服务器、语音识别系统和可读存储介质
CN116127960B (zh) * 2023-04-17 2023-06-23 广东粤港澳大湾区国家纳米科技创新研究院 信息抽取方法、装置、存储介质及计算机设备
CN116136866B (zh) * 2023-04-19 2023-06-27 中国人民解放军国防科技大学 基于知识图谱的中文新闻摘要事实性知识校正方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101396131B1 (ko) * 2013-11-18 2014-05-19 한국과학기술정보연구원 패턴 기반 관계 유사도 측정 장치 및 방법
CN104933027A (zh) * 2015-06-12 2015-09-23 华东师范大学 一种利用依存分析的开放式中文实体关系抽取方法
CN107291687A (zh) * 2017-04-27 2017-10-24 同济大学 一种基于依存语义的中文无监督开放式实体关系抽取方法
CN107797991A (zh) * 2017-10-23 2018-03-13 南京云问网络技术有限公司 一种基于依存句法树的知识图谱扩充方法及系统
CN108763353A (zh) * 2018-05-14 2018-11-06 中山大学 基于规则和远程监督的百度百科关系三元组抽取方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156352B (zh) * 2014-08-15 2017-04-19 苏州大学 一种中文事件的处理方法及系统
CN109408642B (zh) * 2018-08-30 2021-07-16 昆明理工大学 一种基于距离监督的领域实体属性关系抽取方法
CN110046351B (zh) * 2019-04-19 2022-06-14 福州大学 规则驱动下基于特征的文本关系抽取方法
CN110750994A (zh) * 2019-10-23 2020-02-04 北京字节跳动网络技术有限公司 一种实体关系抽取方法、装置、电子设备及存储介质
CN111241302B (zh) * 2020-01-15 2023-09-15 北京百度网讯科技有限公司 职位信息图谱生成方法、装置、设备和介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101396131B1 (ko) * 2013-11-18 2014-05-19 한국과학기술정보연구원 패턴 기반 관계 유사도 측정 장치 및 방법
CN104933027A (zh) * 2015-06-12 2015-09-23 华东师范大学 一种利用依存分析的开放式中文实体关系抽取方法
CN107291687A (zh) * 2017-04-27 2017-10-24 同济大学 一种基于依存语义的中文无监督开放式实体关系抽取方法
CN107797991A (zh) * 2017-10-23 2018-03-13 南京云问网络技术有限公司 一种基于依存句法树的知识图谱扩充方法及系统
CN108763353A (zh) * 2018-05-14 2018-11-06 中山大学 基于规则和远程监督的百度百科关系三元组抽取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
中文开放式多元实体关系抽取;李颖;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180115;I138-1908 *
中文开放式实体关系抽取研究与实现;李杨;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170215;I138-4405 *
李杨.中文开放式实体关系抽取研究与实现.《中国优秀硕士学位论文全文数据库 信息科技辑》.2017,I138-4405. *

Also Published As

Publication number Publication date
CN112232074A (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
CN112232074B (zh) 实体关系抽取方法、装置、电子设备及存储介质
US20170357625A1 (en) Event extraction from documents
CN109840256B (zh) 一种基于业务实体的查询实现方法
US9224103B1 (en) Automatic annotation for training and evaluation of semantic analysis engines
US20160062981A1 (en) Methods and apparatus related to determining edit rules for rewriting phrases
CA2853627C (en) Automatic creation of clinical study reports
CN112231494B (zh) 信息抽取方法、装置、电子设备及存储介质
Ockeloen et al. BiographyNet: Managing Provenance at Multiple Levels and from Different Perspectives.
CN112699677B (zh) 事件提取方法及装置、电子设备、存储介质
US20120158742A1 (en) Managing documents using weighted prevalence data for statements
Ide et al. Anatomy of annotation schemes: mapping to graf
CN111656453A (zh) 用于信息提取的层次实体识别和语义建模框架
US20180101366A1 (en) Reducing translation volume and ensuring consistent text strings in software development
Mărănduc et al. A Romanian dependency treebank
CN112182204A (zh) 构建中文命名实体标注的语料库的方法、装置
US9189475B2 (en) Indexing mechanism (nth phrasal index) for advanced leveraging for translation
Khalid et al. Reference terms identification of cited articles as topics from citation contexts
CN112733517B (zh) 需求模板符合性检查的方法、电子设备及存储介质
Körner et al. Semantic enriching of natural language texts with automatic thematic role annotation
US7865488B2 (en) Method for discovering design documents
US7865489B2 (en) System and computer program product for discovering design documents
Antony et al. Entity and verb semantic role labelling for tamil biomedicine
US20240095466A1 (en) Method and system for document structure based unsupervised long-form technical question generation
Bai Describing the Grammatical Knowledge of Chinese Words for Natural Language Processing
Liu et al. Non-entity event argument extraction on structural representation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant