CN112231494A - 信息抽取方法、装置、电子设备及存储介质 - Google Patents
信息抽取方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112231494A CN112231494A CN202011488009.3A CN202011488009A CN112231494A CN 112231494 A CN112231494 A CN 112231494A CN 202011488009 A CN202011488009 A CN 202011488009A CN 112231494 A CN112231494 A CN 112231494A
- Authority
- CN
- China
- Prior art keywords
- entity
- entity relationship
- word
- target
- triple
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例涉及一种信息抽取方法、装置、电子设备及存储介质,所述方法包括:利用预设的抽取规则从待抽取的目标语料中抽取第一实体关系三元组;将所述目标语料输入至已训练的实体关系抽取模型,得到第二实体关系三元组,所述实体关系抽取模型用于从输入的语料中抽取实体关系三元组;基于预设的过滤规则从所述第一实体关系三元组和所述第二实体关系三元组中确定目标实体关系三元组。由此,可以实现一种基于规则与机器学习联合抽取实体关系三元组的方法,提高抽取出的实体关系三元组的准确性,且在不同的领域之间可以高效移植。
Description
技术领域
本发明实施例涉及自然语言处理技术领域,尤其涉及一种信息抽取方法、装置、电子设备及存储介质。
背景技术
随着互联网的发展,各个领域中每天都会产生大量不同形式的互联网数据,如何准确、高效地挖掘出互联网数据中的重要信息,以提升该领域中的服务效率是一个关键问题。进一步的,在信息挖掘中,实体关系提取是其中一项核心任务。目前,常用的实体关系抽取方法包括基于规则的实体关系抽取方法、基于机器学习的实体关系抽取方法。
其中,基于规则的实体关系抽取方法重点在于规则的制定,而规则的制定强依赖于人为经验,这就导致在人为经验不足时,无法制定出合理有效的规则,进而导致基于规则所抽取到的实体关系三元组不够全面,不够准确;基于机器学习的实体关系抽取方法的准确性和召回率对标注语料的依赖性很高,且需要较强的人工干预,而语料标注耗时耗力,这就导致基于机器学习的实体关系抽取方法的整体开发周期很长,且需要耗费较高的人力物力。
发明内容
鉴于此,为解决相关技术中单纯地使用一种方式抽取实体关系三元组而导致各种缺陷,比如耗费人力物力、抽取的实体关系三元组准确性较低的技术问题,本发明实施例提供一种信息抽取方法、装置、电子设备及存储介质。
第一方面,本发明实施例提供一种信息抽取方法,所述方法包括:利用预设的抽取规则从待抽取的目标语料中抽取第一实体关系三元组;将所述目标语料输入至已训练的实体关系抽取模型,得到第二实体关系三元组,所述实体关系抽取模型用于从输入的语料中抽取实体关系三元组;基于预设的过滤规则从所述第一实体关系三元组和所述第二实体关系三元组中确定目标实体关系三元组。
在一个可能的实施方式中,所述利用预设的抽取规则从待抽取的目标语料中抽取第一实体关系三元组,包括:对待抽取的目标语料进行分词处理,得到多个词语;对每一所述词语进行词性标注,得到每一所述词语的词性标记;基于每一所述词语的词性标记,并利用预设的基于依存句法关系的抽取规则从所述目标语料中抽取第三实体关系三元组;基于每一所述词语的词性标记,并利用预设的基于触发词的抽取规则从所述目标语料中抽取第四实体关系三元组;利用所述第三实体关系三元组和所述第四实体关系三元组构成所述第一实体关系三元组。
第二方面,本发明实施例提供一种信息抽取装置,所述装置包括:第一抽取模块,用于利用预设的抽取规则从待抽取的目标语料中抽取第一实体关系三元组;第二抽取模块,用于将所述目标语料输入至已训练的实体关系抽取模型,得到第二实体关系三元组,所述实体关系抽取模型用于从输入的语料中抽取实体关系三元组;过滤模块,用于基于预设的过滤规则从所述第一实体关系三元组和所述第二实体关系三元组中确定目标实体关系三元组。
在一个可能的实施方式中,所述第一抽取模块具体用于:对待抽取的目标语料进行分词处理,得到多个词语;对每一所述词语进行词性标注,得到每一所述词语的词性标记;基于每一所述词语的词性标记,并利用预设的基于依存句法关系的抽取规则从所述目标语料中抽取第三实体关系三元组;基于每一所述词语的词性标记,并利用预设的基于触发词的抽取规则从所述目标语料中抽取第四实体关系三元组;利用所述第三实体关系三元组和所述第四实体关系三元组构成所述第一实体关系三元组。
第三方面,本发明实施例提供一种电子设备,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的程序,以实现第一方面中任一项所述的信息抽取方法。
第四方面,本发明实施例提供一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现第一方面中任一项所述的信息抽取方法。
本发明实施例提供的技术方案,通过利用预设的抽取规则从待抽取的目标语料中抽取第一实体关系三元组,将目标语料输入至已训练的实体关系抽取模型,得到第二实体关系三元组,基于预设的过滤规则从第一实体关系三元组和第二实体关系三元组中确定目标实体关系三元组,实现了一种基于规则与机器学习联合抽取实体关系三元组的方法,其中,基于规则抽取到的实体关系三元组可作为机器学习的训练数据,这就解决了现有技术中通过人工标注足够的训练数据需要耗费大量人力物力的问题,同时还能够使得实体关系抽取模型能够快速地进行迭代更新,提高其对抗能力,提高通过实体关系抽取模型所抽取到的实体关系三元组的准确性;进一步的,基于机器学习的抽取方法可弥补基于规则的抽取方法由于强依赖于人为经验而导致归纳出的规则或模板不足以全面、准确地抽取实体关系三元组的缺陷。由此可见,基于规则与机器学习的抽取方法相辅相成,将两者联合使用可提高抽取出的实体关系三元组的准确性,且在不同的领域之间可以高效移植。
附图说明
图1为本发明实施例提供的一种信息抽取方法的实施例流程图;
图2为本发明实施例提供的另一种信息抽取方法的实施例流程图;
图3为词性表释义图;
图4为依存关系标签释义图;
图5为本发明实施例提供的一种基于依存关系标签确定目标语料所符合的句法模式的实施例流程图;
图6为本发明实施例提供的一种基于句法模式从目标语料中抽取第三实体关系三元组的实施例流程图;
图7为本发明实施例提供的又一种信息抽取方法的实施例流程图;
图8为本发明实施例提供的再一种信息抽取方法的实施例流程图;
图9为本发明实施例提供的再一种信息抽取方法的实施例流程图;
图10为本发明实施例提供的再一种信息抽取方法的实施例流程图;
图11为Att-BLSTM模型的结构示意图;
图12为本发明实施例提供的一种信息抽取装置的实施例框图;
图13为本发明实施例提供的一种的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图以具体实施例对本发明提供的信息抽取方法进行说明。
参见图1,为本发明实施例提供的一种信息抽取方法的实施例流程图。如图1所示,该方法可包括以下步骤:
步骤102、利用预设的抽取规则从待抽取的目标语料中抽取第一实体关系三元组。
在一个例子中,若待抽取实体关系三元组的目标文本为网页,则可先使用解析器对目标文本进行解析,以去除网页中除语料以外的其他字符,比如HTML标签、换行符等,如此则可得到纯文本数据。
在另一个例子中,若待抽取实体关系三元组的目标文本为电子文件,则可先通过文本提取器提取出其中的纯文本数据。上述电子文件的格式包括但不限于DOC、TXT、PDF、JPG、JPEG等。
在又一个例子中,若待抽取实体关系三元组的目标文本为纸质文件,则可先通过扫描技术将纸质文件转化为电子文件,之后从电子文件中提取出纯文本数据。
进一步,将上述纯文本数据划分为单个句子,划分得到的单个句子即为上述目标语料,作为一个可选的实现方式,可根据标点符号将纯文本数据划分为单个句子。上述标点符号包括但不限于:逗号、分号、句号等。
作为一个实施例,上述抽取规则可包括基于依存句法关系的抽取规则和/或基于触发词的抽取规则。换言之,在本步骤102中,可利用预设的基于依存句法关系的抽取规则从目标语料中抽取实体关系三元组(为描述方便,以下称为第三实体关系三元组),利用第三实体关系三元组构成上述第一实体关系三元组,或者利用预设的基于触发词的抽取规则从待抽取的目标语料中抽取实体关系三元组(为描述方便,以下称为第四实体关系三元组),利用第四实体关系三元组构成上述第一实体关系三元组,再或者既利用预设的基于依存句法关系的抽取规则从目标语料中抽取第三实体关系三元组,又利用预设的基于触发词的抽取规则从目标语料中抽取第四实体关系三元组,最终利用第三实体关系三元组和第四实体关系三元组构成第一实体关系三元组。
关于如何利用预设的基于依存句法关系的抽取规则从目标语料中抽取第三实体关系三元组,将在下文中通过图2所示实施例进行说明。
关于如何利用预设的基于触发词的抽取规则从目标语料中抽取第四实体关系三元组,将在下文中通过图7所示实施例进行说明。
步骤104、将目标语料输入至已训练的实体关系抽取模型,得到第二实体关系三元组。
上述实体关系抽取模型用于从输入的语料中抽取实体关系三元组。基于此,在本步骤104中,将目标语料数据输入至已训练的实体关系抽取模型,可直接得到实体关系三元组(为描述方便,以下称第二实体关系三元组)。可以理解的是,相对于相关技术中先从目标语料中识别实体,再抽取实体间关系的管道式作业方式而言,通过已训练的实体关系抽取模型直接得到实体关系三元组,可以实现实体、实体间关系的一站式抽取,进而能够有效避免出现累积误差,提高抽取出的实体关系三元组的准确性。
关于如何训练得到上述实体关系抽取模型,在下文中通过图10所示实施例进行说明。
步骤106、基于预设的过滤规则从第一实体关系三元组和第二实体关系三元组中确定目标实体关系三元组。
在实际应用中,通过执行上述步骤102和步骤104所得到的实体关系三元组中有可能存在与实际业务场景无关的实体关系三元组,比如在招聘领域知识图谱构建场景下,实体关系三元组【上海**有限公司,经营,**零部件】与实际业务场景无关,再比如实体关系三元组【现诚聘优秀人才,加入,我们团队】也与实际业务场景无关,因此,在本步骤106中,可进一步对步骤102和步骤104所得到的实体关系三元组进行过滤筛选,从中确定与实际业务场景相关的实体关系三元组(为描述方便,以下称为目标实体关系三元组)。
基于此,在本发明实施中,基于预设的过滤规则对第一实体关系三元组和第二实体关系三元组进行过滤,以从第一实体关系三元组和第二实体关系三元组中确定目标实体关系三元组。
作为一个实施例,可根据实际业务场景设置过滤词集,该过滤词集中可包括实际业务场景中可能涉及到的一些关系词。举例来说,在招聘领域知识图谱构建场景下,涉及到的关系词包括但不限于:旗下、成立于、位于、包含、包括、设有、拥有、属于、简称、涵盖、职称等。
在应用中,则可针对每一第一实体关系三元组和第二实体关系三元组,以实体关系三元组中的关系词为关键字查找预设的过滤词集,如果在过滤词集中查找到关键字,则意味着该实体关系三元组与实际业务场景相关,因此可将该实体关系三元组确定为目标实体关系三元组,而如果在过滤词集中未查找到该关键字,则可认为该实体关系三元组与实际业务场景不相关,因此可丢弃该实体关系三元组。
需要说明的是,在应用中,通过执行步骤106,可将第一实体关系三元组和第二实体关系三元组中的任意一个或几个确定为目标实体关系三元组,本发明对最终确定出的目标实体关系三元组的数量不做限制。
关于如何构建上述过滤词集,将在下文中通过图9所示流程进行说明。
本发明实施例提供的技术方案,通过利用预设的抽取规则从待抽取的目标语料中抽取第一实体关系三元组,将目标语料输入至已训练的实体关系抽取模型,得到第二实体关系三元组,基于预设的过滤规则从第一实体关系三元组和第二实体关系三元组中确定目标实体关系三元组,实现了一种基于规则与机器学习联合抽取实体关系三元组的方法,其中,基于规则抽取到的实体关系三元组可作为机器学习的训练数据,这就解决了现有技术中通过人工标注足够的训练数据需要耗费大量人力物力的问题,同时还能够使得实体关系抽取模型能够快速地进行迭代更新,提高其对抗能力,提高通过实体关系抽取模型所抽取到的实体关系三元组的准确性;进一步的,基于机器学习的抽取方法可弥补基于规则的抽取方法由于强依赖于人为经验而导致归纳出的规则或模板不足以全面、准确地抽取实体关系三元组的缺陷。由此可见,基于规则与机器学习的抽取方法相辅相成,将两者联合使用可提高抽取出的实体关系三元组的准确性,且在不同的领域之间可以高效移植。
参见图2,为本发明实施例提供的另一种信息抽取方法的实施例流程图,该图2所示流程在上述图1所示流程的基础上,描述如何利用预设的基于依存句法关系的抽取规则从目标语料中抽取第三实体关系三元组。如图2所示,该流程可包括以下步骤:
步骤202、对待抽取的目标语料进行分词处理,得到多个词语。
在汉语中,词是承载语义的基本单元,也是信息检索、信息提取等任务的实施基础,因此,在从目标语料中抽取实体关系三元组时,可首先对目标语料进行分词处理,得到多个词语。
举例来说,假设目标语料为:*元珠宝旗下拥有三大直营品牌:周**珠宝、中*珠宝、*先生珠宝。通过对该目标语料进行分词处理,可得到以下多个词语:*元、珠宝、旗、下、拥有、三、大、直营、品牌、“:”、周**、珠宝、“、”、中*、珠宝、“、”、*、先生、珠宝。
步骤204、对每一词语进行词性标注,得到每一词语的词性标记。
词性标注又称为词类标注,是指确定词语的词性的过程。词性包括但不限于名词、形容词、动词、副词、介词等。
作为一个可选的实现方式,在应用中,可利用LTP(Language TechnologyPlantform,语言技术平台)工具中的词性标注模块对上述每一词语进行词性标注,得到每一词语的词性标记。
举例来说,下述为对上述步骤202中示出的多个词语的词性标注结果的示例,其中,词性表释义如图3所示:
*元(nz)、珠宝(n)、旗(nz)、下(nd)、拥有(v)、三(m)、大(a)、直营(b)、品牌(n)、“:”(wp)、周**(nh)、珠宝(n)、“、”(wp)、中*(ns)、珠宝(n)、“、”(wp)、*(n)、先生(n)、珠宝(n)。
步骤206、基于每一词语的词性标记对目标语料进行依存句法分析,得到目标语料中词语之间的依存关系标签。
依存句法分析是自然语言处理中的关键技术之一,其基本任务是确定句子中词语之间的依存关系标签。
作为一个可选的实现方式,在应用中,可利用LTP工具中的依存句法分析模块对目标语料进行依存句法分析,得到目标语料的依存句法树。依存句法树用于描述每一词语的依存结构,依存结构包括:词语的词性标记、词语的父节点和父节点的词性标记、词语和其父节点之间的依存关系标签。
举例来说,如下述表1所示,为对上述步骤202中举例的目标语料进行依存句法分析得到的依存句法树中部分节点的依存结构的示例,其中,依存关系标签释义如图4所示:
表1
节点(位置下标) | 依存结构 |
*元(1) | 【nz:2:n:ATT】 |
珠宝(2) | 【n:3:n:ATT】 |
旗(3) | 【n:4:nd:ATT】 |
下(4) | 【nd:5:v:ADV】 |
拥有(5) | 【v:0:HED】 |
… | … |
*(17) | 【nh:18:n:ATT】 |
先生(18) | 【n:12:ns:COO】 |
珠宝(19) | 【n:5:v:VOB】 |
上述表1中,依存结构中的内容依次表示:词语的词性标记、词语的父节点所在位置下标、父节点的词性标记、词语和其父节点之间的依存关系标签。比如词语“*元”的依存结构【nz:2:n:ATT】表示:词语“*元”的词性标记为其他名词,其父节点所在位置下标为2(也即词语“珠宝”),父节点的词性标记为名词,词语“*元”与其父节点之间的依存关系标签为ATT,也即,词语“*元”与词语“珠宝”之间存在ATT依存关系。
需要说明的是,分词列表存在位置下标为0的隐含节点ROOT,因此,“*元”对应的位置下标为1。
还需要说明的是,上述表1中,HED表示句子的核心。
步骤208、基于依存关系标签确定目标语料所符合的句法模式。
作为一个实施例,可通过图5所示流程实现基于依存关系标签确定目标语料所符合的句法模式。如图5所示,该流程可包括以下步骤:
步骤502、按照多个词语在目标语料中的排列顺序,依次将每一词语的词性标记和该词语与其父节点之间的依存关系标签组合,得到初始句法模式。
为使本领域技术人员容易理解本步骤502的具体实现,以下通过四个具体例子对本步骤502进行说明:
例一:
假设目标语料为“广州**有限公司拥有一线江景甲级写字楼**中心”,可以理解的是,依次将该目标语料中每一词语的词性标记和该词语与其父节点之间的依存关系标签组合,可得到初始句法模式:广州**有限公司|n-SBV-拥有|v-VOB-一线江景甲级写字楼**中心|n。
例二:
假设目标语料为“广州**有限公司成立于2018年”,可以理解的是,依次将该目标语料中每一词语的词性标记和该词语与其父节点之间的依存关系标签组合,可得到初始句法模式:广州**有限公司| n-SBV-成立|v于|p-CMP-2018|m-POB-年|q。
例三:
假设目标语料为“深圳**有限公司董事长张三”,可以理解的是,依次将该目标语料中每一词语的词性标记和该词语与其父节点之间的依存关系标签组合,可得到初始句法模式:深圳|n-ATT-**|n-ATT -有限公司|n-ATT-董事长|n-ATT-张三|n。
例四:
假设目标语料为“*元珠宝旗下周**珠宝和中*珠宝两大珠宝品牌”,可以理解的是,依次将该目标语料中每一词语的词性标记和该词语与其父节点之间的依存关系标签组合,可得到初始句法模式:*元|n-ATT-珠宝|n-SBV-拥有|v-VOB-周**|n-ATT-珠宝|n-ATT-和|c-COO-中*|n-ATT-珠宝|n-ATT-两|m-ATT-大|a-ATT-珠宝|n-ATT-品牌|n。
步骤504、从预设的句法模式集中确定与初始句法模式相匹配的目标句法模式。
以下首先对预设的句法模式集进行说明:
作为一个实施例,可根据实际业务场景下业务数据的结构特点制定句法模式集,该句法模式集中包含多个句法模式,每一句法模式由至少一个依存关系标签来表示。
举例来说,在招聘领域下,制定的句法模式集中包括但不限于以下句法模式:【SBV+VOB】、【SBV+CMP+VOB】、【SBV+CMP+POB】、【SBV+CMP+COO】、【ATT+ATT】、【ATT+COO+RAD】、【SBV+VOB+COO】、【COO+SBV+VOB】、【ATT+COO+LAD+ATT】、【SBV+COO+VOB】等。为便于理解,以句法模式【SBV+VOB】为例,该句法模式中包含主谓关系和动宾关系。
在本步骤504中,则可以从上述预设的句法模式集中确定与初始句法模式相匹配的句法模式(为描述方便,以下称目标句法模式)。
举例来说,对于上述例一示例出的初始句法模式,确定出的目标句法模式为【SBV+VOB】;对于上述例二示例出的初始句法模式,确定出的目标句法模式为【SBV+CMP+POB】;对于上述例三示例出的初始句法模式,确定出的目标句法模式为【ATT+ATT】;对于上述例四示例出的初始句法模式,确定出的目标句法模式为【SBV+VOB+COO】。
步骤506、将目标句法模式确定为目标语料所符合的句法模式。
至此,完成图5所示流程的描述。
步骤210、基于句法模式从目标语料中抽取第三实体关系三元组。
作为一个实施例,可通过图6所示流程实现基于句法模式从目标语料中抽取第三实体关系三元组。如图6所示,包括以下步骤:
步骤602、基于句法模式中的各依存关系标签从目标语料中抽取目标词元和核心关系词。
步骤604、基于目标词元和核心关系词构建第三实体关系三元组。
举例来说,对于上述例一,句法模式为主谓宾结构,抽取出的目标词元包括:广州**有限公司、一线江景甲级写字楼**中心,核心关系词为拥有,构建的第三实体关系三元组则为:【广州立**有限公司,拥有,一线江景甲级写字楼**中心】。
对于上述例二,句法模式为含有介宾关系的主谓动补关系,抽取出的目标词元包括:广州**有限公司、2018年,核心关系词为成立于,构建的第三实体关系三元组则为:【广州**有限公司,成立于,2018年】。
对于上述例三,句法模式为从属关系结构,抽取出的目标词元包括:深圳**有限公司、张三,核心关系词为董事长,构建的第三实体关系三元组为:【深圳**有限公司,董事长,张三】。
对于上述例四,句法模式为并列关系结构,抽取出的目标词元包括:*元珠宝、周**珠宝、中*珠宝,核心关系词为拥有,构建的第四实体关系三元组为【*元珠宝,拥有,周**珠宝】、【*元珠宝,拥有,中*珠宝】。
至此,完成图2所示流程的描述。
通过图2所示流程,实现了基于依存句法关系的抽取规则从目标语料中抽取第三实体关系三元组,并且图2所述流程避免了繁琐的规则设定和语料标注,具有可扩展性,高效性,对于新的语料数据仍可以实现抽取实体关系三元组,因此具有灵活性。
参见图7,为本发明实施例提供的又一种信息抽取方法的实施例流程图,该图7所示流程在上述图1所示流程的基础上,描述如何利用预设的基于触发词的抽取规则从目标语料中抽取第四实体关系三元组。如图7所示,该流程可包括以下步骤:
步骤702、对待抽取的目标语料进行分词处理,得到多个词语。
步骤704、对每一词语进行词性标注,得到每一词语的词性标记。
步骤702和步骤704的描述可参见上述图2所示流程中步骤202和步骤204的描述,这里不再赘述。
步骤706、对目标语料进行实体识别,得到至少一个实体。
实体识别的目的是识别语料中的人名、地名、组织结构名、品牌名等实体。在应用中,对目标语料进行实体识别可采用的实体识别方式包括但不限于:基于规则的实体识别方法、基于统计的实体识别方法、基于条件随机场的实体识别方法等。
步骤708、若实体的数量大于等于设定的数量阈值,则基于每一词语的词性标记从多个预设的候选实体间关系中确定与目标语料相匹配的目标实体间关系。
可以理解的是,若在步骤706中仅识别出一个实体,是无法构建实体关系三元组的,因此,在本发明实施例中,当从目标语料中识别出两个以上实体时,则可从该目标语料中抽取一个或多个实体关系三元组。
基于此,上述设定的数量阈值可以为2,也即,若步骤706中识别出两个以上实体,则基于每一词语的词性标记从多个预设的候选实体间关系中确定与目标语料相匹配的目标实体间关系。
作为一个实施例,可根据实际业务场景设置上述多个候选实体间关系。举例来说,在招聘领域知识图谱构建场景下,常见的实体间关系包括但不限于:旗下拥有关系、子母公司包含关系、公司成立关系、公司位于关系、所属职位关系等,可将上述常见的实体间关系设为候选实体间关系。
进一步,可分析统计出用于说明实体对构成的实体关系表达意义的词。比如,对于旗下拥有关系,一般会出现旗下、包括、拥有、涉及、有、公司旗下、集团旗下等词;对于子母公司包含关系,一般会出现下属、全资、子公司、隶属于、控股等词;对于公司成立关系,一般会出现成立于、创建于、创立于等词;对于公司位于关系,一般会出现位于、在、坐落等词;对于所属职位关系,一般会出现CEO、行长、所长、董事长、总经理等词。基于此,可预设如下述表2所示例的关系特征词典:
表2
候选实体间关系 | 对应的关系词 | 关系特征词集 |
旗下拥有关系 | 旗下拥有 | 旗下、包括、拥有、涉及、有、公司旗下、集团旗下等 |
子母公司包含关系 | 子公司 | 下属、全资、子公司、隶属于、控股等 |
公司成立关系 | 成立于 | 成立于、创建于、创立于等 |
公司位于关系 | 位于 | 位于、在、坐落等 |
所属职位关系 | 职位 | CEO、行长、所长、董事长、总经理等 |
如上述表2所示,关系特征词典包括多条关系特征词集与候选实体间关系的对应关系。关于是如何构建出如上述表2所示例的关系特征词典的,在下文中通过图8所示实施例举例说明。
基于上述描述,在本步骤708中,则可通过以下步骤实现基于每一词语的词性标记从多个预设的候选实体间关系中确定与目标语料相匹配的目标实体间关系:
步骤a1、基于每一词语的词性标记从多个词语中确定实体关系描述词。
上述实体关系描述词又称实体关系触发词、实体关系指示词,用于说说明实体对构成的实体关系。在应用中,可基于词性标注结果,也即每一词语的词性标记进行语义分析,进而从多个词语中确定实体关系描述词。
步骤a2、基于实体关系描述词查找已构建的关系特征词典。
步骤a3、若查找到包含实体关系描述词的目标关系特征词集,则将目标关系特征词集对应的候选实体间关系确定为与样本语料数据相匹配的目标实体间关系。
若在上述表2所示例的关系特征词典中查找到包含步骤a1确定出的实体关系描述词的关系特征词集(为描述方便,以下称为目标关系特征词集),则意味着目标语料中包含的实体间具有该目标关系特征词集对应的候选实体间关系,因此,可将目标关系特征词集对应的候选实体间关系确定为与目标语料相匹配的目标实体间关系。
步骤710、基于实体和目标实体间关系构建第四实体关系三元组。
在本步骤710中,若在上述步骤706中识别出两个实体,则可基于该两个实体和步骤708得到的目标实体间关系构建出一个第四实体关系三元组。
若在上述步骤706中识别出的实体数量大于2,且每一实体的实体类别相同,则按照在目标语料中的出现顺序,将多个实体中排在前两位的实体确定为目标实体,将目标实体和步骤708得到的目标实体间关系构建为第四实体关系三元组。
在图7所示流程中,通过结合于实际业务需求设置关系特征词典,基于关系特征词典实现基于触发词的实体关系三元组抽取,能够实现较为准确地抽取出满足实际业务需求的实体关系三元组;同时,由于在面临不同的业务需求时,调整关系特征词典即可实现基于触发词的实体关系三元组抽取,因此,图7所示例的基于触发词的抽取规则具有较强的泛化性。
参见图8,为本发明实施例提供的再一种信息抽取方法的实施例流程图,该图8所示流程在上述图7所示流程的基础上,描述如何构建关系特征词典。如图8所示,该流程可包括以下步骤:
步骤802、针对每一候选实体间关系,确定每一预设的候选关系特征词对于该候选实体间关系对应句子的第一词频,并确定每一预设的候选关系特征词对于所有候选实体间关系对应句子的第二词频。
步骤804、按照第一词频从大到小的顺序对候选关系特征词进行排序,得到第一排序结果,以及按照第二词频从小到大的顺序对候选关系特征词进行排序,得到第二排序结果。
步骤806、将第一排序结果中排在前N位的候选关系特征词归入第一集合,将第二排序结果中排在前M位的候选关系特征词归入第二集合,以及将第一集合和第二集合的交集确定为该候选实体间关系对应的关系特征词集。
以下对步骤802至806进行统一说明:
基于TF-IDF原理可知,一个词在文本中出现的次数越多,同时在所有文本中出现的次数越少,该词越能够代表该文本,因此,针对每一候选实体间关系,将局部常见词以及全局少见词抽取出来形成该候选实体间关系对应的关系特征词集。
作为一个实施例,在应用中,可基于先验经验设置一些候选关系特征词,并针对每一候选实体间关系设置对应的句子(数量可为多个),这里所说的对应是指句子包含对应的候选实体间关系。
进一步,在步骤802中,针对每一候选实体间关系,确定每一预设的候选关系特征词对于该候选实体间关系对应句子的词频(为描述方便,以下称第一词频),并确定每一预设的候选关系特征词对于所有候选实体间关系对应句子的词频(为描述方便,以下称第二词频)。
在步骤804中,按照第一词频从大到小的顺序对候选关系特征词进行排序,得到排序结果(为描述方便,以下称第一排序结果),以及按照第二词频从小到大的顺序对候选关系特征词进行排序,得到排序结果(为描述方便,以下称第二排序结果)。
在步骤806中,将第一排序结果中排在前N位的候选关系特征词归入一个集合中(为描述方便,以下称第一集合),也即将局部常见词归入第一集合;将第二排序结果中排在前M位的候选关系特征词归入另一集合中(为描述方便,以下称第二集合),也即将全局少见词归入第二集合;然后按照上述描述,将第一集合和第二集合的交集确定为该候选实体间关系对应的关系特征词集。
通过图8所示流程,实现了构建关系特征词典。
参见图9,为本发明实施例提供的再一种信息抽取方法的实施例流程图,该图9所示流程在上述图8所示流程的基础上,描述如何构建过滤词集。如图9所示,该流程可包括以下步骤:
步骤902、针对关系特征词典中每一候选实体间关系,按照关系特征词与候选实体间关系的匹配度从高到低的顺序对候选实体间关系对应的关系特征词进行排序。
步骤904、将排序结果中排在前S位的关系特征词归入过滤词集。
以下对步骤902和步骤904进行统一说明:
由上述表2可见,每一候选实体间关系对应有多个关系特征词,而在应用中,不同的关系特征词与候选实体间关系之间的匹配度是不同的,匹配度越高则意味着语料中包含关系特征词时,该语料所满足的实体间关系为该关系特征词对应的候选实体间关系的可能性越大。举例来说,对于旗下拥有关系,其对应的关系特征词按照匹配度从高到低的顺序依次为:旗下、公司旗下、集团旗下、拥有、有、包括、涉及。需要说明的是,这一排列顺序仅仅是一种示例,本发明对此并不做限制。
基于此,作为一个实施例,针对关系特征词典中每一候选实体间关系,按照关系特征词与候选实体间关系的匹配度从高到低的顺序对候选实体间关系对应的关系特征词进行排序,将排序结果中排在前S(S为大于0的自然数)位的关系特征词归入过滤词集。
由此可见,通过上述实施例得到的过滤词集相对于表2所示例的关系特征词典更为精细,进一步的,通过该过滤词集对实体关系三元组进行过滤,可以使得最终得到的目标实体关系三元组更为准确。
此外,作为另一个实施例,还可以在上述表2所示例的关系特征词典中添加设定的关系特征词,得到过滤词集。可以理解的是,通过该实施例得到的过滤词集相对于表2所示例的关系特征词典更为宽泛,进一步的,通过该过滤词集对实体关系三元组进行过滤,可以使得最终得到的目标实体关系三元组更为宽泛、全面。
参见图10,为本发明实施例提供的再一种信息抽取方法的实施例流程图,该图10所示流程在上述图1所示流程的基础上,描述如何训练得到上述实体关系抽取模型。如图10所示,该流程可包括以下步骤:
步骤1002、利用预设的抽取规则从样本语料中抽取样本实体关系三元组。
作为一个实施例,在应用中,可以从多个数据源中获取上述样本语料。数据源包括但不限于:网页、电子文件、纸质文件等。
其中,对于网页而言,可以根据实际业务场景,使用网络爬虫技术从网络上抓取网页数据,然后使用解析器对抓取的网页数据进行解析,以去除网页数据中除语料以外的其他字符,比如HTML标签、换行符等,如此则可得到纯文本数据。在一个例子中,上述业务场景为招聘领域知识图谱构建场景,相应的,上述网页数据则可为招聘网站上的网页数据。
对于电子文件而言,可以通过文本提取器提取出其中的文本数据。上述电子文件的格式包括但不限于DOC、TXT、PDF、JPG、JPEG等。
对于纸质文件而言,则可以首先通过扫描技术将纸质文件转化为电子文件,之后从电子文件中提取出文本数据。
进一步,作为一个实施例,在从上述示例的数据源中得到文本数据之后,可将文本数据划分为单个句子,将划分得到的单个句子作为上述样本语料,作为一个可选的实现方式,可根据标点符号将文本数据划分为单个句子。上述标点符号包括但不限于:逗号、分号、句号等。如此处理能够提高后续对样本语料进行分析的效率和准确性。
至于是如何利用预设的抽取规则从样本语料中抽取样本实体关系三元组的,可参见上述流程中的相关描述,这里不再赘述。
步骤1004、将样本语料、样本实体关系三元组作为训练样本存储至训练样本集,以利用训练样本集对初始模型进行训练。
步骤1006、当初始模型满足设定条件时停止训练,得到实体关系抽取模型。
以下对步骤1004和步骤1006进行统一说明:
通过步骤1004可以看出,在本发明实施例中,将样本语料作为输入值,将对应的样本实体关系三元组作为标签值构造一条训练样本存储至训练样本集。比如,训练样本为“北京**有限公司是上海**有限公司在北京的全资子公司,目前员工人数近400名;(上海**有限公司,北京**有限公司,子公司)。
进一步,由于训练样本具有已知标签,因此,在本步骤1004中,可基于训练样本集,利用监督学习算法对初始模型进行训练,以得到实体关系抽取模型。在训练过程中,为提高模型精度,可进行多次迭代训练,当已训练的初始模型满足设定条件时停止训练,得到最终的实体关系抽取模型。上述监督学习算法包括但不限于:K-近邻算法、逻辑回归算法、决策树算法等。上述设定条件包括但不限于:迭代次数达到设定的次数阈值、模型Loss值小于设定阈值、准确率高于设定阈值等。
作为一个实施例,上述实体关系抽取模型采用Att-BLSTM(Attention-BasedBidirectional Long Short-Term Memory,基于注意力机制的双向长短期记忆)网络结构。参见图11,为Att-BLSTM模型的结构示意图。如图11所示,Att-BLSTM模型包括5层结构,分别为输入层、WordEmbeddings(词嵌入)层、BiLSTM(Bi-directional Long Short-TermMemory,双向长短时记忆网络)层、注意力层,以及输出层。
其中,输入层用于将待处理语料输入模型中。
WordEmbeddings层用于对输入模型中的语料进行表征,即将语料中的每个词映射到低维空间,完成语料转换为词向量的过程。
BiLSTM层用于利用BLSM从WordEmbeddings层的输出结果中获得高级特征。
注意力层用于对BiLSTM层的输出结果使用注意力机制进行加权,使每一迭代中的词汇级特征合并为句子级特征,得到句子级别的特征向量。
输出层用于基于注意层的输出结果进行关系分类,得到实体关系三元组。
参见图12,为本发明实施例提供的一种信息抽取装置的实施例框图。如图12所示,该装置包括:第一抽取模块121、第二抽取模块122,以及过滤模块123。
其中,第一抽取模块121,用于利用预设的抽取规则从待抽取的目标语料中抽取第一实体关系三元组;第二抽取模块122,用于将所述目标语料输入至已训练的实体关系抽取模型,得到第二实体关系三元组,所述实体关系抽取模型用于从输入的语料中抽取实体关系三元组;过滤模块123,用于基于预设的过滤规则从所述第一实体关系三元组和所述第二实体关系三元组中确定目标实体关系三元组。
在一个可能的实现方式中,所述第一抽取模块121具体用于:对待抽取的目标语料进行分词处理,得到多个词语;对每一所述词语进行词性标注,得到每一所述词语的词性标记;基于每一所述词语的词性标记,并利用预设的基于依存句法关系的抽取规则从所述目标语料中抽取第三实体关系三元组;和/或,基于每一所述词语的词性标记,并利用预设的基于触发词的抽取规则从所述目标语料中抽取第四实体关系三元组;利用所述第三实体关系三元组和/或所述第四实体关系三元组构成所述第一实体关系三元组。
在一个可能的实现方式中,所述第一抽取模块121基于每一所述词语的词性标记,并利用预设的基于依存句法关系的抽取规则从所述目标语料中抽取第三实体关系三元组,包括:基于每一所述词语的词性标记对所述目标语料进行依存句法分析,得到所述目标语料中词语之间的依存关系标签;基于所述依存关系标签确定所述目标语料所符合的句法模式;基于所述句法模式从所述目标语料中抽取第三实体关系三元组。
在一个可能的实现方式中,所述第一抽取模块121基于依存关系标签确定所述目标语料所符合的句法模式,包括:按照多个所述词语在所述目标语料中的排列顺序,依次将每一所述词语的词性标记和所述词语与其父节点之间的依存关系标签组合,得到初始句法模式;从预设的句法模式集中确定与所述初始句法模式相匹配的目标句法模式;将所述目标句法模式确定为所述目标语料所符合的句法模式。
在一个可能的实现方式中,所述第一抽取模块121基于句法模式从所述目标语料中抽取第三实体关系三元组,包括:基于所述句法模式中的各依存关系标签从所述目标语料中抽取目标词元和核心关系词;基于所述目标词元和核心关系词构建第三实体关系三元组。
在一个可能的实现方式中,所述第一抽取模块121基于每一所述词语的词性标记,并利用预设的基于触发词的抽取规则从所述目标语料中抽取第四实体关系三元组,包括:对所述目标语料进行实体识别,得到至少一个实体;若所述实体的数量大于等于设定的数量阈值,则基于每一所述词语的词性标记从多个预设的候选实体间关系中确定与所述目标语料相匹配的目标实体间关系;基于所述实体和所述目标实体间关系构建第四实体关系三元组。
在一个可能的实现方式中,所述第一抽取模块121基于每一所述词语的词性标记从多个预设的候选实体间关系中确定与所述目标语料相匹配的目标实体间关系,包括:基于每一所述词语的词性标记从所述多个词语中确定实体关系描述词;基于所述实体关系描述词查找已构建的关系特征词典,所述关系特征词典包括多条关系特征词集与候选实体间关系的对应关系;若查找到包含所述实体关系描述词的目标关系特征词集,则将所述目标关系特征词集对应的候选实体间关系确定为与所述目标语料相匹配的目标实体间关系。
在一个可能的实现方式中,所述第一抽取模块121基于所述实体和所述目标实体间关系构建第四实体关系三元组,包括:若所述实体的数量大于所述数量阈值且每一所述实体的实体类别相同,则按照在所述目标语料中的出现顺序,将多个所述实体中排在前两位的实体确定为目标实体;基于所述目标实体和所述目标实体间关系构建第四实体关系三元组。
在一个可能的实现方式中,还包括(图12中未示出):词典构建模块,用于针对每一所述候选实体间关系,确定每一预设的候选关系特征词对于所述候选实体间关系对应句子的第一词频,并确定每一预设的候选关系特征词对于所有候选实体间关系对应句子的第二词频;按照第一词频从大到小的顺序对所述候选关系特征词进行排序,得到第一排序结果,以及按照第二词频从小到大的顺序对所述候选关系特征词进行排序,得到第二排序结果;将所述第一排序结果中排在前N位的候选关系特征词归入第一集合,将所述第二排序结果中排在前M位的候选关系特征词归入第二集合,以及将所述第一集合和所述第二集合的交集确定为所述候选实体间关系对应的关系特征词集;所述N和M为大于0 的自然数。
在一个可能的实现方式中,还包括(图12中未示出):模型训练模块,用于利用预设的抽取规则从样本语料中抽取样本实体关系三元组;将所述样本语料、所述样本实体关系三元组作为训练样本存储至训练样本集,以利用所述训练样本集对初始模型进行训练;当所述初始模型满足设定条件时停止训练,得到所述实体关系抽取模型。
在一个可能的实现方式中,所述第一抽取模块121基于预设的过滤规则从所述第一实体关系三元组和所述第二实体关系三元组中确定目标实体关系三元组,包括:针对每一所述第一实体关系三元组和所述第二实体关系三元组,以所述实体关系三元组中的关系词为关键字查找预设的过滤词集;如果在所述过滤词集中查找到所述关键字,则将所述实体关系三元组确定为目标实体关系三元组。
在一个可能的实现方式中,还包括(图12中未示出):词集构建模块,用于针对所述关系特征词典中每一候选实体间关系,按照关系特征词与所述候选实体间关系的匹配度从高到低的顺序对所述候选实体间关系对应的关系特征词进行排序;将排序结果中排在前S位的关系特征词归入过滤词集,所述S为大于0 的自然数;或者,在所述关系特征词典中添加设定的关系特征词,得到所述过滤词集。
图13为本发明实施例提供的一种的电子设备的结构示意图,图13所示的电子设备1300包括:至少一个处理器1301、存储器1302、至少一个网络接口1304和其他用户接口1303。电子设备1300中的各个组件通过总线系统1305耦合在一起。可理解,总线系统1305用于实现这些组件之间的连接通信。总线系统1305除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图13中将各种总线都标为总线系统1305。其中,用户接口1303可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。
可以理解,本发明实施例中的存储器1302可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-OnlyMemory,ROM)、可编程只读存储器 (ProgrammableROM,PROM)、可擦除可编程只读存储器(ErasablePROM,EPROM)、电可擦除可编程只读存储器(ElectricallyEPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(RandomAccessMemory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(StaticRAM,SRAM)、动态随机存取存储器 (DynamicRAM,DRAM)、同步动态随机存取存储器(SynchronousDRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(DoubleDataRateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(SynchlinkDRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambusRAM,DRRAM)。本文描述的存储器1302旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器1302存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统13021和应用程序13022。其中,操作系统13021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序13022,包含各种应用程序,例如媒体播放器(MediaPlayer)、浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序13022中。
在本发明实施例中,通过调用存储器1302存储的程序或指令,具体的,可以是应用程序13022中存储的程序或指令,处理器1301用于执行各方法实施例所提供的方法步骤,例如包括:利用预设的抽取规则从待抽取的目标语料中抽取第一实体关系三元组;将所述目标语料输入至已训练的实体关系抽取模型,得到第二实体关系三元组,所述实体关系抽取模型用于从输入的语料中抽取实体关系三元组;基于预设的过滤规则从所述第一实体关系三元组和所述第二实体关系三元组中确定目标实体关系三元组。
上述本发明实施例揭示的方法可以应用于处理器1301中,或者由处理器1301实现。处理器1301可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器1301中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1301可以是通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(FieldProgrammableGateArray, FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1302,处理器1301读取存储器1302中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecificIntegratedCircuits,ASIC)、数字信号处理器(DigitalSignalProcessing,DSP)、数字信号处理设备(DSPDevice,DSPD)、可编程逻辑设备(ProgrammableLogicDevice,PLD)、现场可编程门阵列(Field-ProgrammableGateArray,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本实施例提供的电子设备可以是如图13中所示的电子设备,可执行如上述信息抽取方法的所有步骤,进而实现上述信息抽取方法的技术效果,具体请参照上述实施例中的相关描述,为简洁描述,在此不作赘述。
本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。
当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述在电子设备侧执行的信息抽取方法。
所述处理器用于执行存储器中存储的信息抽取程序,以实现以下在电子设备侧执行的信息抽取方法的步骤:利用预设的抽取规则从待抽取的目标语料中抽取第一实体关系三元组;将所述目标语料输入至已训练的实体关系抽取模型,得到第二实体关系三元组,所述实体关系抽取模型用于从输入的语料中抽取实体关系三元组;基于预设的过滤规则从所述第一实体关系三元组和所述第二实体关系三元组中确定目标实体关系三元组。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (16)
1.一种信息抽取方法,其特征在于,所述方法包括:
利用预设的抽取规则从待抽取的目标语料中抽取第一实体关系三元组;
将所述目标语料输入至已训练的实体关系抽取模型,得到第二实体关系三元组,所述实体关系抽取模型用于从输入的语料中抽取实体关系三元组;
基于预设的过滤规则从所述第一实体关系三元组和所述第二实体关系三元组中确定目标实体关系三元组。
2.根据权利要求1所述的方法,其特征在于,所述利用预设的抽取规则从待抽取的目标语料中抽取第一实体关系三元组,包括:
对待抽取的目标语料进行分词处理,得到多个词语;
对每一所述词语进行词性标注,得到每一所述词语的词性标记;
基于每一所述词语的词性标记,并利用预设的基于依存句法关系的抽取规则从所述目标语料中抽取第三实体关系三元组;
基于每一所述词语的词性标记,并利用预设的基于触发词的抽取规则从所述目标语料中抽取第四实体关系三元组;
利用所述第三实体关系三元组和所述第四实体关系三元组构成所述第一实体关系三元组。
3.根据权利要求2所述的方法,其特征在于,所述基于每一所述词语的词性标记,并利用预设的基于依存句法关系的抽取规则从所述目标语料中抽取第三实体关系三元组,包括:
基于每一所述词语的词性标记对所述目标语料进行依存句法分析,得到所述目标语料中词语之间的依存关系标签;
基于所述依存关系标签确定所述目标语料所符合的句法模式;
基于所述句法模式从所述目标语料中抽取第三实体关系三元组。
4.根据权利要求3所述的方法,其特征在于,所述基于依存关系标签确定所述目标语料所符合的句法模式,包括:
按照多个所述词语在所述目标语料中的排列顺序,依次将每一所述词语的词性标记和所述词语与其父节点之间的依存关系标签组合,得到初始句法模式;
从预设的句法模式集中确定与所述初始句法模式相匹配的目标句法模式;
将所述目标句法模式确定为所述目标语料所符合的句法模式。
5.根据权利要求3所述的方法,其特征在于,所述基于句法模式从所述目标语料中抽取第三实体关系三元组,包括:
基于所述句法模式中的各依存关系标签从所述目标语料中抽取目标词元和核心关系词;
基于所述目标词元和核心关系词构建第三实体关系三元组。
6.根据权利要求2所述的方法,其特征在于,所述基于每一所述词语的词性标记,并利用预设的基于触发词的抽取规则从所述目标语料中抽取第四实体关系三元组,包括:
对所述目标语料进行实体识别,得到至少一个实体;
若所述实体的数量大于等于设定的数量阈值,则基于每一所述词语的词性标记从多个预设的候选实体间关系中确定与所述目标语料相匹配的目标实体间关系;
基于所述实体和所述目标实体间关系构建第四实体关系三元组。
7.根据权利要求6所述的方法,其特征在于,所述基于每一所述词语的词性标记从多个预设的候选实体间关系中确定与所述目标语料相匹配的目标实体间关系,包括:
基于每一所述词语的词性标记从所述多个词语中确定实体关系描述词;
基于所述实体关系描述词查找已构建的关系特征词典,所述关系特征词典包括多条关系特征词集与候选实体间关系的对应关系;
若查找到包含所述实体关系描述词的目标关系特征词集,则将所述目标关系特征词集对应的候选实体间关系确定为与所述目标语料相匹配的目标实体间关系。
8.根据权利要求6所述的方法,其特征在于,所述基于所述实体和所述目标实体间关系构建第四实体关系三元组,包括:
若所述实体的数量大于所述数量阈值且每一所述实体的实体类别相同,则按照在所述目标语料中的出现顺序,将多个所述实体中排在前两位的实体确定为目标实体;
基于所述目标实体和所述目标实体间关系构建第四实体关系三元组。
9.根据权利要求7所述的方法,其特征在于,所述关系特征词典通过以下方式构建:
针对每一所述候选实体间关系,确定每一预设的候选关系特征词对于所述候选实体间关系对应句子的第一词频,并确定每一预设的候选关系特征词对于所有候选实体间关系对应句子的第二词频;
按照第一词频从大到小的顺序对所述候选关系特征词进行排序,得到第一排序结果,以及按照第二词频从小到大的顺序对所述候选关系特征词进行排序,得到第二排序结果;
将所述第一排序结果中排在前N位的候选关系特征词归入第一集合,将所述第二排序结果中排在前M位的候选关系特征词归入第二集合,以及将所述第一集合和所述第二集合的交集确定为所述候选实体间关系对应的关系特征词集;所述N和M为大于0 的自然数。
10.根据权利要求1所述的方法,其特征在于,所述实体关系抽取模型通过以下方式训练得到:
利用预设的抽取规则从样本语料中抽取样本实体关系三元组;
将所述样本语料、所述样本实体关系三元组作为训练样本存储至训练样本集,以利用所述训练样本集对初始模型进行训练;
当所述初始模型满足设定条件时停止训练,得到所述实体关系抽取模型。
11.根据权利要求7所述的方法,其特征在于,所述基于预设的过滤规则从所述第一实体关系三元组和所述第二实体关系三元组中确定目标实体关系三元组,包括:
针对每一所述第一实体关系三元组和所述第二实体关系三元组,以所述实体关系三元组中的关系词为关键字查找预设的过滤词集;
如果在所述过滤词集中查找到所述关键字,则将所述实体关系三元组确定为目标实体关系三元组。
12.根据权利要求11所述的方法,其特征在于,所述过滤词集通过以下方式构建:
针对所述关系特征词典中每一候选实体间关系,按照关系特征词与所述候选实体间关系的匹配度从高到低的顺序对所述候选实体间关系对应的关系特征词进行排序;
将排序结果中排在前S位的关系特征词归入过滤词集,所述S为大于0 的自然数;或者,
在所述关系特征词典中添加设定的关系特征词,得到所述过滤词集。
13.一种信息抽取装置,其特征在于,所述装置包括:
第一抽取模块,用于利用预设的抽取规则从待抽取的目标语料中抽取第一实体关系三元组;
第二抽取模块,用于将所述目标语料输入至已训练的实体关系抽取模型,得到第二实体关系三元组,所述实体关系抽取模型用于从输入的语料中抽取实体关系三元组;
过滤模块,用于基于预设的过滤规则从所述第一实体关系三元组和所述第二实体关系三元组中确定目标实体关系三元组。
14.根据权利要求13所述的装置,其特征在于,所述第一抽取模块具体用于:
对待抽取的目标语料进行分词处理,得到多个词语;
对每一所述词语进行词性标注,得到每一所述词语的词性标记;
基于每一所述词语的词性标记,并利用预设的基于依存句法关系的抽取规则从所述目标语料中抽取第三实体关系三元组;
基于每一所述词语的词性标记,并利用预设的基于触发词的抽取规则从所述目标语料中抽取第四实体关系三元组;
利用所述第三实体关系三元组和所述第四实体关系三元组构成所述第一实体关系三元组。
15.一种电子设备,其特征在于,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的程序,以实现权利要求1~12中任一项所述的信息抽取方法。
16.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1~12中任一项所述的信息抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011488009.3A CN112231494B (zh) | 2020-12-16 | 2020-12-16 | 信息抽取方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011488009.3A CN112231494B (zh) | 2020-12-16 | 2020-12-16 | 信息抽取方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112231494A true CN112231494A (zh) | 2021-01-15 |
CN112231494B CN112231494B (zh) | 2021-08-03 |
Family
ID=74124118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011488009.3A Active CN112231494B (zh) | 2020-12-16 | 2020-12-16 | 信息抽取方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112231494B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113076396A (zh) * | 2021-03-29 | 2021-07-06 | 中国医学科学院医学信息研究所 | 一种面向人机协同的实体关系处理方法及系统 |
CN113128230A (zh) * | 2021-04-22 | 2021-07-16 | 北京百度网讯科技有限公司 | 实体抽取方法、装置、电子设备及计算机存储介质 |
CN116720502A (zh) * | 2023-06-20 | 2023-09-08 | 中国航空综合技术研究所 | 基于机器阅读理解与模板规则的航空文档信息抽取方法 |
WO2023206703A1 (zh) * | 2022-04-29 | 2023-11-02 | 青岛海尔科技有限公司 | 事件槽位的提取方法和装置、存储介质及电子装置 |
CN117495538A (zh) * | 2023-10-30 | 2024-02-02 | 北京融和云链科技有限公司 | 订单融资的风险性评估方法和模型训练方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070073533A1 (en) * | 2005-09-23 | 2007-03-29 | Fuji Xerox Co., Ltd. | Systems and methods for structural indexing of natural language text |
CN109977235A (zh) * | 2019-04-04 | 2019-07-05 | 吉林大学 | 一种触发词的确定方法和装置 |
CN110046351A (zh) * | 2019-04-19 | 2019-07-23 | 福州大学 | 规则驱动下基于特征的文本关系抽取方法 |
CN111027324A (zh) * | 2019-12-05 | 2020-04-17 | 电子科技大学广东电子信息工程研究院 | 一种基于句法模式和机器学习的开放式关系的抽取方法 |
-
2020
- 2020-12-16 CN CN202011488009.3A patent/CN112231494B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070073533A1 (en) * | 2005-09-23 | 2007-03-29 | Fuji Xerox Co., Ltd. | Systems and methods for structural indexing of natural language text |
CN109977235A (zh) * | 2019-04-04 | 2019-07-05 | 吉林大学 | 一种触发词的确定方法和装置 |
CN110046351A (zh) * | 2019-04-19 | 2019-07-23 | 福州大学 | 规则驱动下基于特征的文本关系抽取方法 |
CN111027324A (zh) * | 2019-12-05 | 2020-04-17 | 电子科技大学广东电子信息工程研究院 | 一种基于句法模式和机器学习的开放式关系的抽取方法 |
Non-Patent Citations (1)
Title |
---|
蒋贻顺: "基于规则匹配与神经网络学习的中文实体关系抽取研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113076396A (zh) * | 2021-03-29 | 2021-07-06 | 中国医学科学院医学信息研究所 | 一种面向人机协同的实体关系处理方法及系统 |
CN113076396B (zh) * | 2021-03-29 | 2023-05-16 | 中国医学科学院医学信息研究所 | 一种面向人机协同的实体关系处理方法及系统 |
CN113128230A (zh) * | 2021-04-22 | 2021-07-16 | 北京百度网讯科技有限公司 | 实体抽取方法、装置、电子设备及计算机存储介质 |
WO2023206703A1 (zh) * | 2022-04-29 | 2023-11-02 | 青岛海尔科技有限公司 | 事件槽位的提取方法和装置、存储介质及电子装置 |
CN116720502A (zh) * | 2023-06-20 | 2023-09-08 | 中国航空综合技术研究所 | 基于机器阅读理解与模板规则的航空文档信息抽取方法 |
CN116720502B (zh) * | 2023-06-20 | 2024-04-05 | 中国航空综合技术研究所 | 基于机器阅读理解与模板规则的航空文档信息抽取方法 |
CN117495538A (zh) * | 2023-10-30 | 2024-02-02 | 北京融和云链科技有限公司 | 订单融资的风险性评估方法和模型训练方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112231494B (zh) | 2021-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112231494B (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN108763333B (zh) | 一种基于社会媒体的事件图谱构建方法 | |
Gupta et al. | A survey of text question answering techniques | |
Dozier et al. | Named entity recognition and resolution in legal text | |
WO2019091026A1 (zh) | 知识库文档快速检索方法、应用服务器及计算机可读存储介质 | |
Vicient et al. | An automatic approach for ontology-based feature extraction from heterogeneous textualresources | |
Kowalski | Information retrieval architecture and algorithms | |
Zanasi | Text mining and its applications to intelligence, CRM and knowledge management | |
Quercini et al. | Entity discovery and annotation in tables | |
US20080275859A1 (en) | Method and system for disambiguating informational objects | |
US20140180934A1 (en) | Systems and Methods for Using Non-Textual Information In Analyzing Patent Matters | |
JP2005526317A (ja) | ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム | |
Zu et al. | Resume information extraction with a novel text block segmentation algorithm | |
Jabbar et al. | A survey on Urdu and Urdu like language stemmers and stemming techniques | |
Alami et al. | Hybrid method for text summarization based on statistical and semantic treatment | |
CN114756733A (zh) | 一种相似文档搜索方法、装置、电子设备及存储介质 | |
Betti et al. | Expert concept-modeling ground truth construction for word embeddings evaluation in concept-focused domains | |
Dlugolinský et al. | Evaluation of named entity recognition tools on microposts | |
Raghavendra Nayaka et al. | An efficient framework for algorithmic metadata extraction over scholarly documents using deep neural networks | |
Iurshina et al. | NILK: entity linking dataset targeting NIL-linking cases | |
Kostakos | Strings and things: A semantic search engine for news quotes using named entity recognition | |
Joshi et al. | Auto-grouping emails for faster e-discovery | |
Bloodgood et al. | Data cleaning for xml electronic dictionaries via statistical anomaly detection | |
CN113590792A (zh) | 用户问题的处理方法、装置和服务器 | |
US20080033953A1 (en) | Method to search transactional web pages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |