CN111198932A - 三元组获取方法、装置、电子设备及可读存储介质 - Google Patents
三元组获取方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN111198932A CN111198932A CN201911399438.0A CN201911399438A CN111198932A CN 111198932 A CN111198932 A CN 111198932A CN 201911399438 A CN201911399438 A CN 201911399438A CN 111198932 A CN111198932 A CN 111198932A
- Authority
- CN
- China
- Prior art keywords
- target
- triple
- target text
- triplet
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本申请提出一种三元组获取方法、装置、电子设备及可读存储介质,应用于数据处理技术领域。首先获取目标文本,并从该目标文本中提取出三元组。其中,每个三元组包括两个目标实体及第一关系。然后将目标文本的第一向量及提取出的三元中的目标实体的第二向量输入到训练好的分类模型中,获得每个三元组中的目标实体之间的第二关系。最后根据每个三元组对应的第一关系及第二关系,判断每个三元组是否为目标三元组,并保留是目标三元组的三元组,不保留不是目标三元组的三元组。由此,可过滤掉无用的三元组,得到需要的三元组。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种三元组获取方法、装置、电子设备及可读存储介质。
背景技术
随着互联网的不断发展演进,网络信息的传播方式生发生了很大变化,涌现出大量的论坛网站和手机应用程序,随之产生了大量的、冗余的网络信息资源,“信息过载”问题也随之产生。知识图谱(Knowledge Graph)可被用来优化和完善当前的搜索引擎。知识图谱,能够更好地查询较为繁杂的相关信息,分析查询语义,来理解用户的查询需求,从而改进搜索质量。
在构建知识图谱、知识库的过程中,语义抽取是必要的前提。语义抽取包括实体、关系的抽取,也就是说,需要文本中抽取含有关系的三元组(实体1,关系,实体2)。而获得的三元组的质量决定着知识图谱的构建质量。因此,如何提高获得的三元组的质量是本领域技术人员需要解决的技术问题。
发明内容
有鉴于此,本申请的目的在于提供一种三元组获取方法、装置、电子设备和可读存储介质。
为了实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供一种三元组获取方法,应用于电子设备,所述电子设备中存储有训练好的分类模型,所述方法包括:
获取目标文本,并从所述目标文本中提取出三元组,其中,每个三元组包括两个目标实体及第一关系;
将所述目标文本的第一向量及提取出的三元组中的目标实体的第二向量输入到所述分类模型中,获得每个三元组中的目标实体之间的第二关系;
根据每个三元组对应的所述第一关系及第二关系,判断每个三元组是否为目标三元组,并保留是目标三元组的三元组,不保留不是目标三元组的三元组。
在可选的实施方式中,所述目标文本为中文,所述从所述目标文本中提取出三元组,包括:
对所述目标文本进行预处理,获得预处理结果,其中,所述预处理包括:中文分词、命名实体识别、词袋分析、依存句法分析,所述预处理结果中包括识别出来的命名实体、依存句法分析结果;
根据预设三元组提取规则及所述预处理结果,从所述目标文本中提取出所述三元组。
在可选的实施方式中,所述根据预设三元组提取规则及所述预处理结果,从所述目标文本中提取出所述三元组,包括:
根据所述预处理结果,判断所述目标文本是否包括两个命名实体分别与位于两个命名实体之间的词之间为修饰关系的修饰结构;
若所述目标文本中包括所述修饰结构,则将所述修饰结构中的两个命名实体作为两个目标实体,并将所述位于两个命名实体之间的词作为所述第一关系。
在可选的实施方式中,所述预处理结果还包括每个词的词性,所述根据预设三元组提取规则及所述预处理结果,从所述目标文本中提取出所述三元组,还包括:
根据所述预处理结果判断所述目标文本是否包括动词结构,其中,所述动词结构包括主谓动宾结构、主谓介宾结构、主谓补宾结构;
若所述目标文本中包括所述动词结构,则将所述动词结构中的两个命名实体作为两个目标实体,并根据所述动词结构中的其他词确定所述第一关系。
在可选的实施方式中,所述根据预设三元组提取规则及所述预处理结果,从所述目标文本中提取出所述三元组,还包括:
根据所述预处理结果判断所述目标文本中是否包括并列结构,其中,所述并列结构包括实体并列结构及动词并列结构;
若所述目标文本中包括所述并列结构,则从所述并列结构中提取出两个三元组。
在可选的实施方式中,所述根据预设三元组提取规则及所述预处理结果,从所述目标文本中提取出所述三元组,还包括:
根据所述预处理结果判断所述目标文本中是否包括预设公式化结构;
若所述目标文本中包括所述预设公式化结构,则从所述预设公式化结构中提取所述三元组。
在可选的实施方式中,所述分类模型中包括特征工程模块、Bi-LSTM模型及分类器,所述将所述目标文本的第一向量及提取出的三元组中的目标实体的第二向量输入到所述分类模型中,获得每个三元组中的目标实体之间的第二关系,包括:
通过所述特征工程模块,基于所述目标文本的第一向量及每个三元组中的目标实体的第二向量,获得所述目标文本中每个词的位置特征向量,并根据所述目标文本中每个词的位置特征向量及所述第一向量,获得所述目标文本的特征向量,其中,所述特征向量包括所述位置特征向量及第一向量;
通过所述Bi-LSTM模型,基于所述特征向量获得所述目标文本的高层特征向量;
通过所述分类器,基于所述高层特征向量获得每个三元组中的目标实体之间的第二关系。
第二方面,本申请实施例提供一种三元组获取装置,应用于电子设备,所述电子设备中存储有训练好的分类模型,所述装置包括:
提取模块,用于获取目标文本,并从所述目标文本中提取出三元组,其中,每个三元组包括两个目标实体及第一关系;
分类模块,用于将所述目标文本的第一向量及提取出的三元组中的目标实体的第二向量输入到所述分类模型中,获得每个三元组中的目标实体之间的第二关系;
处理模块,用于根据每个三元组对应的所述第一关系及第二关系,判断每个三元组是否为目标三元组,并保留是目标三元组的三元组,不保留不是目标三元组的三元组。
第三方面,本申请实施例提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器可执行所述机器可执行指令以实现前述实施方式中任一项所述的三元组获取方法。
第四方面,本申请实施例提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述实施方式中任一项所述的三元组获取方法。
本申请实施例提供的三元组获取方法、装置、电子设备及可读存储介质,首先获取目标文本,并从该目标文本中提取出三元组。其中,每个三元组包括两个目标实体及第一关系。然后将目标文本的第一向量及提取出的三元中的目标实体的第二向量输入到训练好的分类模型中,获得每个三元组中的目标实体之间的第二关系。最后根据每个三元组对应的第一关系及第二关系,判断每个三元组是否为目标三元组,并保留是目标三元组的三元组,不保留不是目标三元组的三元组。由此,可利用分类模型过滤掉无用的三元组,以提高获得的三元组的质量,得到符合特定专业领域需求的三元组。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本申请实施例提供的电子设备的方框示意图;
图2是本申请实施例提供的三元组获取方法的流程示意图之一;
图3是图2中步骤S110包括的子步骤的流程示意图;
图4是本申请实施例提供的修饰结构示意图;
图5是本申请实施例提供的动词结构示意图;
图6是本申请实施例提供的并列结构示意图;
图7是本申请实施例提供的预设公式化结构示意图之一;
图8是本申请实施例提供的预设公式化结构示意图之二;
图9是本申请实施例提供的预设公式化结构示意图之三;
图10是图2中步骤S120包括的子步骤的流程示意图;
图11是Multi-head Attention模型的结构示意图;
图12是本申请实施例提供的三元组获取装置的方框示意图。
图标:100-电子设备;110-存储器;120-处理器;130-通信单元;200-三元组获取装置;210-提取模块;220-分类模块;230-处理模块。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
请参照图1,图1是本申请实施例提供的电子设备100的方框示意图。所述电子设备100可以是,但不限于,服务器、个人电脑(Personal Computer,PC)等。所述电子设备100可以包括存储器110、处理器120及通信单元130。所述存储器110、处理器120以及通信单元130各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
其中,存储器110用于存储程序或者数据。所述存储器110可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(ErasableProgrammable Read-Only Memory,EPROM),电可擦除只读存储器(Electric ErasableProgrammable Read-Only Memory,EEPROM)等。
处理器120用于读/写存储器110中存储的数据或程序,并执行相应地功能。比如,存储器110中存储有三元组获取装置200,所述三元组获取装置200包括至少一个可以软件或固件(firmware)的形式存储于所述存储器110中的软件功能模块。所述处理器120通过运行存储在存储器110内的软件程序以及模块,如本申请实施例中的三元组获取装置200,从而执行各种功能应用以及数据处理,即实现本申请实施例中的三元组获取方法。
通信单元130用于通过网络建立所述电子设备100与其它通信终端之间的通信连接,并用于通过所述网络收发数据。
应当理解的是,图1所示的结构仅为电子设备100的结构示意图,所述电子设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
请参照图2,图2是本申请实施例提供的三元组获取方法的流程示意图之一。所述方法应用于电子设备100,所述电子设备100中存储有预先训练好的分类模型。可选地,该分类模型由特定专业领域的样本训练集训练得到。下面对三元组获取方法的具体流程进行详细阐述。
步骤S110,获取目标文本,并从所述目标文本中提取出三元组。
在本实施例中,所述电子设备100可通过接收其他设备发送的文本或接收用户对文本的选择操作等方式,获得目标文本。所述目标文本中可以包括至少一个语句。然后,从所述目标文本中提取出三元组。其中,每个三元组包括两个目标实体及该两个目标实体之间的第一关系。可选地,可根据实际需求选择适用的三元组提取方式,从所述目标文本中获得三元组。
步骤S120,将所述目标文本的第一向量及提取出的三元组中的目标实体的第二向量输入到所述分类模型中,获得每个三元组中的目标实体之间的第二关系。
步骤S130,根据每个三元组对应的所述第一关系及第二关系,判断每个三元组是否为目标三元组,并保留是目标三元组的三元组,不保留不是目标三元组的三元组。
在从所述目标文本中提取出三元组后,将所述目标文本、提取出的三元组中的目标实体采用向量化表示,从而得到该目标文本的第一向量、每个三元组中的每个目标实体的第二向量。接着,将该目标文本的第一向量、提取出的三元组中的目标实体的第二向量(即每个三元组中的每个目标实体的第二向量),输入到所述分类模型中,获得每个三元组中的两个目标实体之间的第二关系。由此,可获得每个三元组对应的第一关系及第二关系。
可选地,可通过计算所述第一关系与第二关系的中文编辑距离,确定第一关系与第二关系的相似度。若该相似度大于预设相似度(比如,60%),则可判定该三元组为目标三元组,并保留该三元组。若该相似度不大于预设相似度,则可判定该三元组不是目标三元组,不保留该三元组。由此,可利用分类模型过滤掉无用的三元组,以提高获得的三元组的质量,得到符合特定专业领域需求的三元组。
在本实施例中,所述目标文本为中文。请参照图3,图3是图2中步骤S110包括的子步骤的流程示意图。步骤S110可以包括子步骤S111及子步骤S112。
子步骤S111,对所述目标文本进行预处理,获得预处理结果。
子步骤S112,根据预设三元组提取规则及所述预处理结果,从所述目标文本中提取出所述三元组。
在本实施例中,在获得所述目标文本后,若所述目标文本中包括多个语句,可先对所述目标文本进行分句处理。若所述目标文本仅包括一个语句,则可不进行分句处理。然后,对每个语句进行中文分词、命名实体识别、词袋分析、依存句法分析等预处理,得到每个语句的预处理结果。其中,所述预处理结果中可以包括识别出来的命名实体、依存句法分析结果等。可将各语句的预处理结果的汇总结果作为该目标文本的预处理结果。
可选地,对一个语句,可先进行中文分词;然后根据中文分词结果,进行命名实体识别,以识别出该语句中包括的命名实体;接着基于中文分词结果,对该语句中的每个词进行词袋分析,获得每个词的词性。其中,词性包括:名词、动词、介词等,名词可以包括地名、人名、机构名等。最后基于上述分析结果,对该语句进行依存句法分析,得到该语句的依存句法分析结果。该依存句法分析结果中包括该语句中词与词之间的依存关系,依存关系包括:主谓关系、动宾关系等。
可选地,在本实施例的一种实施方式中,使用stanfordcorenlp工具进行中文分词、命名实体识别、词袋分析、依存句法分析。当然可以理解的是,也可以利用其他工具实现上述预处理。
基于一个语句的预处理结果,可根据预设三元组提取规则从该语句中提取出三元组。三元组几乎只出现在稳定的句法结构中,有许多的句法结构中包括关系特征,比如,主-谓、谓-宾、介-宾、并列、修饰等。
在具体介绍三元组提取方式前,首先对下文涉及到的依存标签、词性等进行说明。ATT,表示定中结构;RAD,表示右附加关系;SBV,表示主谓关系;VOB,表示动宾关系;ADV,表示状中结构;POB表示介宾关系;LAD,表示左附加关系;COO,表示并列关系。E1、E2、E3均表示命名实体;Attword为修饰语;Pred表示谓词;Prep表示介词;Conj表示连词。n或noun表示名词,v或verb或Verb表示动词,p表示介词,c表示连词。
在本实施例的一种实施方式中,可根据所述预处理结果,判断所述目标文本是否包括两个命名实体分别与位于两个命名实体之间的词之间为修饰关系的修饰结构。若所述目标文本中包括所述修饰结构,则将所述修饰结构中的两个命名实体作为两个目标实体,并将所述位于两个命名实体之间的词作为所述第一关系。
可选地,可分别判断目标文本中的每个语句是否包括该修饰结构,并在一个语句包括该修饰结构时,从该修饰结构中提取出三元组。由此,可基于修饰结构从该目标文本中提取出三元组。
修饰结构(或定语结构)往往表现为关系词是实体对的修饰符组件的情况,这里主词(head word)是实体,修饰语被称为修饰定语,修饰语和主词之间的标签通常是ATT或RAD。该修饰结构可如图4所示,表示为:E1|n+AttWord|n+E2|n,从该修饰结构中可提取出三元组:(E1,AttWord,E2)。其中,AttWord为修饰语,作为关系词。
比如,如图4所示,“德国总统高克访问中国”,“德国”和“总统”都是实体“高克”的定语,同时,“总统”也表达了实体对“高克”和“德国”的语义关系,因此可获得三元组:(德国,总统,高克)。
其中,修饰语可以是多级的,使得实体有多个定语。在实际提取中,若一个修饰结构中存在多个定语,可将该多个定语的组合作为关系词。
在本实施例的另一种实施方式中,还可以根据所述预处理结果判断所述目标文本是否包括动词结构。若所述目标文本中包括所述动词结构,则将所述动词结构中的两个命名实体作为两个目标实体,并根据所述动词结构中的其他词确定所述第一关系。其中,所述动词结构包括主谓动宾结构、主谓介宾结构、主谓补宾结构等。
可选地,可分别判断目标文本中的每个语句是否包括该动词结构,并在一个语句包括该动词结构时,从该动词结构中提取出三元组。由此,可基于动词结构从该目标文本中提取出三元组。
动词既可充当谓词短语,也可以是关系词。对于实体对,一个是谓词的主语,另一个在宾语位置,它可以直接与动词相连(动-宾结构),也可以与介词间接相连(介-宾结构)。根据动词的多样性,关系可分为以下几类:及物动词关系、轻动词关系、不及物动词关系等;动词结构可以分为:主谓动宾结构、主谓介宾结构、主谓补宾结构等。其中,及物动词关系对应主谓动宾结构、主谓介宾结构,轻动词关系对应主谓介宾结构,不及物动词关系对应主谓补宾结构。
及物动词,是语句的主语或宾语的两个实体都依赖于使用SBV或VOB标记的中心谓词。该种动词结构为主谓动宾结构,该主谓动宾结构可如图5的第一行所示,该主谓动宾结构可表示为:E1|n+Pred|v+E2|n,从该主谓动宾结构可提取出三元组:(E1,Pred,E2)。
比如,如图5中的Example1(例1)所示,“高克访问中国”,实体“高克”和“中国”都依赖于谓词“访问”。对于这种结构,可使用图5中的Template1(模板1)提取出三元组:(高克,访问,中国)。
有时,在及物动词后无动词宾语,而是用介-宾短语(该介-宾短语位于短语谓词前面)来修饰动词。这种动词结构为主谓介宾结构,该主谓介宾结构可如图5的第二行所示,该主谓介宾结构可表示为:E1|n+Prep|p+E2|n+Pred|v,从该主谓介宾结构中可提取出三元组:(E1,Pred-Prep,E2)。
比如,如图5中的Example2(例2)所示,“习某某在上海视察”,实体“习某某”是主语,依赖于动词“视察”,同时介词“在”依赖于ADV标记的动词“视察”,还有个实体“上海”依赖于POB标记的介词“在”。对于这种结构,可使用图5中的Template 2(模板2)提取出三元组:(习某某,视察在,上海)。
轻动词,比如,“习某某对埃及进行国事访问”中的“对……进行国事访问”即是中文轻动词结构。作为主语的“习某某”直接依赖于SBV标记的轻动词“进行”。同时,作为介词宾语的“埃及”间接依赖于POB标记的轻动词。对于这种情况,可使用图5中的Template 2来处理,提取出三元组(习某某,国事访问,埃及)。在特殊情况下,如果介词呈被动语态,如“由”或“被”,则交换实体位置。
不及物动词,当介词位于不及物动词的左侧时,可使用图5中的Template2提取三元组,谓词仅用于关系词。当介词位于动词右侧时,这种结构为主谓宾补结构,该主谓宾补结构可如图5的第三行所示,该主谓宾补结构可表示为:E1|n+Pred|v+Prep|p+E2|n,从该主谓补宾结构中可提取出三元组:(E1,Pred-Prep,E2)。
比如,如图5的Example3(例3)所示,“李彦宏毕业于北京大学”,基于图5中的Template 3(模板3)可提取出三元组:(李彦宏,毕业于,北京大学)。
在本实施例的另一种实施方式中,还可以根据所述预处理结果判断所述目标文本中是否包括并列结构。其中,所述并列结构包括实体并列结构及动词并列结构。若所述目标文本中包括所述并列结构,则从所述并列结构中提取出两个三元组。
对于并列实体E1和E2,涉及E1的所有三元组都适用于E2,即E2可以在三元组中取代E1的角色来获得新三元组。并列实体往往用逗号或连词连接。如图6中的第一行和第二行所示,连词依赖于LAD标记的E1,而E1同时依赖于COO标记的E2。
图6的Example1所示的实体并列结构为:E1|n+Conj|c+E2|n+Pred|v+E3|n,从该实体并列结构中可提取出三元组:(E1,Pred,E3)、(E2,Pred,E3)。比如,如图6的Example1所示,“拉里佩奇和谢盖尔布林创建了goole”,基于图6中的Template 1可提取出三元组:(拉里佩奇,创建,goole)、(谢盖尔布林,创建,goole)。
图6的Example2所示的实体并列结构为:E2|n+Pred|v+E3|n+Conj|c+E1|n,从该实体并列结构中可提取出三元组:(E2,Pred,E3)、(E2,Pred,E1)。比如,如图6的Example2所示,“李娜遇见了王娜和李静”,基于图6中的Template 2提取出三元组:(李娜,遇见,王娜)、(李娜,遇见,李静)。
对于同一实体采用不同动作的并列动词,该结构为动词并列结构。并列动词往往分布在语句的子句中。该动词并列结构可如图6的第三行所示,结构表示为:E1|n+Pred1|v+Pred2|v+E2|n,从该动词并列结构中提取出三元组:(E1,Pred1,E2)、(E1,Pred2,E2)。比如,如图6的Example3所示,“高克访问中国,并在同济大学发表演讲”,两个子句表达了“高克”参与了两种动作,子句通过并列谓词“访问”和“发表”来表示并列。对于这种结构,可使用图5中的Template 3提取出三元组:(高克,访问,中国)、(高克,发表演讲,同济大学)。其中,并列结构必须嵌入到其他句法类别中。
遵循中文文章的写作风格,有许多固定的表达格式难以依赖解析。比如:“拉里佩奇,Google首席执行官(CEO)”,尽管没有依赖路径,但通过构建预设公式化结构以执行硬匹配,也可获得满意的结果。
在本实施例的另一种实施方式中,还可以根据所述预处理结果判断所述目标文本中是否包括预设公式化结构。若所述目标文本中包括所述预设公式化结构,则从所述预设公式化结构中提取所述三元组。
可选地,如图7所示,所述预设公式化结构为:E1+E2+noun,从该结构中可提取出三元组:(E1,noun,E2)。比如,“张三,A公司创始人”,可提取出三元组:(张三,创始人,A公司)。
可选地,如图8所示,所述预设公式化结构还可以为包括“是”的预设公式化结构。该预设公式化结构可以为:E1+的+noun+是+E2,可提取出三元组:(E1,noun,E2)。比如,“李明的父亲是李小刚”,可提取出三元组(李明,父亲,李小刚)。该预设公式化结构还可以为:E1+是+E2+的+noun,可提取出三元组:(E2,noun,E1)。比如,“李小刚是李明的父亲”,可提取出三元组:(李明,父亲,李小刚)。
可选地,如图9所示,所述预设公式化结构还可以为包括“的”预设公式化结构。该预设公式化结构可以为:E1+的+noun+E2,可提取出三元组:(E1,noun,E2)。比如,“张三的母亲李四”,可提取出三元组:(张三,母亲,李四)。该预设公式化结构还可以为:verb+E1+的+E2,可提取出三元组:(E1,verb,E2)。其中,verb表示图9中的Verb。比如,“位于陕西的西安”,可提取出三元组:(陕西,位于,西安)。
进一步,在通过上述方式提取出三元组后,可利用stanfordcorenlp工具获取整个句子中的指代结果,并与提取出的三元组进行匹配,替换相应的代词。比如,若一语句中“他”指代“小明”,则可将从语句提取的三元组中的“他”替换为“小明”。
当目标文本中一个语句被分词处理后,该语句被分成多个词,可通过词向量模型获得该语句中每个词的向量化表示,并将该向量化表示作为该词的第一向量。可按照一个语句中各词的分布位置,对一个语句中的各词的第一向量进行汇总,并将汇总结果作为该语句的第一向量。一个目标文本中各语句的第一向量的汇总结果,可作为该目标文本的第一向量。
可选地,可利用python的gensim工具包实现Word2Vec Skip-gram模型,并利用预先分好词的训练语料对Word2Vec Skip-gram模型进行多次(比如,100次)训练,得到词向量模型。
其中,Word2vec是一个处理文本的双层神经网络。它的输入是一个文本语料库,它的输出是该语料库中单词的特征向量。Word2vec首先根据训练文本数据构建词汇表,然后学习单词的矢量表示。生成的单词矢量文件可以用作许多自然语言处理和机器学习应用程序中的特征。
在获得各语句的第一向量后,可确定每个三元组中的两个目标实体的向量化表示,并将各目标实体的向量化表示作为各目标实体的第二向量。然后将目标文本的第一向量及提取出的三元组中的目标实体的第二向量输入到所述分类模型。
可选地,为避免直接将目标文本的第一向量、各目标实体的第二向量,一起输入到所述分类模型时,不便于进行分析,可依次将一个三元组的第二向量及该三元组对应的语句的第一向量输入到所述分类模型中。
在本实施例中,所述分类模型中可以包括特征工程模块、Bi-LSTM模型(双向长短时记忆模型)及分类器。请参照图10,图10是图2中步骤S120包括的子步骤的流程示意图。步骤S120可以包括子步骤S121~子步骤S123。
子步骤S121,通过所述特征工程模块,基于所述目标文本的第一向量及每个三元组中的目标实体的第二向量,获得所述目标文本中每个词的位置特征向量,并根据所述目标文本中每个词的位置特征向量及所述第一向量,获得所述目标文本的特征向量。
在获得一个三元组中的两个目标实体之间的第二关系时,在对词性特征进行选择时,也关注了实体词本身以及其前后两个词的词性,据此可以充分表达出词性特征。在词汇特征这部分主要考虑4个部分:实体1;实体2;实体1前后两个词的词性;实体2前后两个词的词性。由此,可通过词性判断主语谓语,并对相应的主语词组进行合并。通过词向量模型获得了词特征(WF),但仅靠词特征得不到完整特征信息,因此,所述特征工程模块可获得每个词的位置特征(PF),然后将词特征和位置特征进行组合,从而得到所有的特征。其中,位置特征,是指每个词分别与两个目标实体之间的相对距离。将一个词的位置特征和词特征进行向量化表示、组合,可得到该词的特征向量,经汇总,可得到一个语句的特征向量,该特征向量中包括所述位置特征向量及第一向量。
所述特征工程模块在获得一个语句的特征向量后,可将该特征向量输入所述Bi-LSTM模型。
子步骤S122,通过所述Bi-LSTM模型,基于所述特征向量获得所述目标文本的高层特征向量。
LSTM(Long Short-Term Memory,长短期记忆网络)是RNN(Recurrent NeuralNetworks,循环神经网络)的一种变体,它通过引入门控单元克服RNN长期依赖问题从而缓解梯度消失。一个LSTM单元由三个门组成:输入门it、遗忘门ft、ot。以特征(即前文所述的一个语句的特征向量)作为输入,将t作为当前时刻,ht-1表示前一时刻隐层状态值,ct-1表示前一时刻细胞单元状态值,计算第t时刻词对应的LSTM各个状态值:
it=σ(Wxiet+Whiht-1+Wcict+bi)
ft=σ(Wxfet+Whfht-1+Wcfct-1+bf)
gt=tanh(Wxcet+Whcht-1+Wccct+bo)
ct=itgt+ftct-1
ot=σ(Wxoxt+Whoht-1+Wcoct+bo)
ht=ottanh(ct)
通过以上计算,得到t时刻LSTM隐层状态的输出值ht。其他的为中间计算值,是拟合参数。在本文中使用的是Bi-LSTM,将前向LSTM中t时刻隐层状态值记为f-ht,将后向LSTM中t时刻隐层状态的输出值记为b-ht,则最终Bi-LSTM第t时刻输出值为:ht=f-ht+b-ht。
子步骤S123,通过所述分类器,基于所述高层特征向量获得每个三元组中的目标实体之间的第二关系。
可选地,该分类器可以是,但不限于,SoftMax函数实现的SoftMax分类器。关系分类是一个多分类问题,可使用SoftMax函数计算每一个类别的条件概率,然后选取条件概率最大值所对应的类别作为预测输类别。由此,可获得一个三元组中两个目标实体之间的第二关系。
可选地,在本实施例中,所述分类模型中还可以包括Multi-head Attention(多头注意力机制)模型。可将一个语句的高层特征向量输入到该Multi-head Attention模型中,从而获得该语句的句子级特征向量。然后该句子级特征向量输入到所述分类器中,使所述分类器根据该句子级特征向量,获得一个三元组中的两个目标实体之间的第二关系。
其中,Multi-head Attention本质就是进行多次selfattention计算。Multi-headAttention模型可以从不同表征子空间获取更多层面的特征,从而捕获句子更多的上下文信息。Multi-head attention模型结构如图11所示。单次的selfattention计算过程如下:
其中,H表示一个矩阵,由Bi-LSTM模型所有时刻输出的向量(即[h1,h2,...hT])组成;r表示Multi-head Attention模型最终的输出值;dh是隐藏层节点数,w是一个参数向量。w的维度为dh,r的维度是T,的维度是dh。
经过self-attention计算,可以得到单次attention输出特征值为:
h*=tanh(r)
Multi-head attention计算,即进行k次selfattention计算。
由此,可利用预设三元组提取规则从目标文本中提取三元组,从而避免由于当前的三元组抽取方式无法处理中文语法而导致部分三元组未被提取的情况发生。接着,利用特定专业领域的分类模型基于原语句及从原句中提取出的实体,确定该两个实体的第二关系。最后,可根据每个三元组中包括的第一关系及经分类模型获得的第二关系,确定保留哪些三元组,从而获得满足特定专业领域需求的三元组,提高三元组的获取质量。
为了执行上述实施例及各个可能的方式中的相应步骤,下面给出一种三元组获取装置200的实现方式,可选地,该三元组获取装置200可以采用上述图1所示的电子设备100的器件结构。进一步地,请参照图12,图12是本申请实施例提供的三元组获取装置200的方框示意图。需要说明的是,本实施例所提供的三元组获取装置200,其基本原理及产生的技术效果和上述实施例相同,为简要描述,本实施例部分未提及之处,可参考上述的实施例中相应内容。所述三元组获取装置200应用于电子设备100,所述电子设备100中存储有训练好的分类模型。该三元组获取装置200可以包括:提取模块210、分类模块220、处理模块230。
提取模块210,用于获取目标文本,并从所述目标文本中提取出三元组。其中,每个三元组包括两个目标实体及第一关系。
分类模块220,用于将所述目标文本的第一向量及提取出的三元组中的目标实体的第二向量输入到所述分类模型中,获得每个三元组中的目标实体之间的第二关系。
处理模块230,用于根据每个三元组对应的所述第一关系及第二关系,判断每个三元组是否为目标三元组,并保留是目标三元组的三元组,不保留不是目标三元组的三元组。
可选地,上述模块可以软件或固件(Firmware)的形式存储于图1所示的存储器110中或固化于该电子设备100的操作系统(Operating System,OS)中,并可由图1中的处理器120执行。同时,执行上述模块所需的数据、程序的代码等可以存储在存储器110中。
本申请实施例还提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的三元组获取方法。
综上所述,本申请实施例提供一种三元组获取方法、装置、电子设备及可读存储介质。首先获取目标文本,并从该目标文本中提取出三元组。其中,每个三元组包括两个目标实体及第一关系。然后将目标文本的第一向量及提取出的三元中的目标实体的第二向量输入到训练好的分类模型中,获得每个三元组中的目标实体之间的第二关系。最后根据每个三元组对应的第一关系及第二关系,判断每个三元组是否为目标三元组,并保留是目标三元组的三元组,不保留不是目标三元组的三元组。由此,可利用分类模型过滤掉无用的三元组,以提高获得的三元组的质量,得到符合特定专业领域需求的三元组。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种三元组获取方法,其特征在于,应用于电子设备,所述电子设备中存储有训练好的分类模型,所述方法包括:
获取目标文本,并从所述目标文本中提取出三元组,其中,每个三元组包括两个目标实体及第一关系;
将所述目标文本的第一向量及提取出的三元组中的目标实体的第二向量输入到所述分类模型中,获得每个三元组中的目标实体之间的第二关系;
根据每个三元组对应的所述第一关系及第二关系,判断每个三元组是否为目标三元组,并保留是目标三元组的三元组,不保留不是目标三元组的三元组。
2.根据权利要求1所述的方法,其特征在于,所述目标文本为中文,所述从所述目标文本中提取出三元组,包括:
对所述目标文本进行预处理,获得预处理结果,其中,所述预处理包括:中文分词、命名实体识别、词袋分析、依存句法分析,所述预处理结果中包括识别出来的命名实体、依存句法分析结果;
根据预设三元组提取规则及所述预处理结果,从所述目标文本中提取出所述三元组。
3.根据权利要求2所述的方法,其特征在于,所述根据预设三元组提取规则及所述预处理结果,从所述目标文本中提取出所述三元组,包括:
根据所述预处理结果,判断所述目标文本是否包括两个命名实体分别与位于两个命名实体之间的词之间为修饰关系的修饰结构;
若所述目标文本中包括所述修饰结构,则将所述修饰结构中的两个命名实体作为两个目标实体,并将所述位于两个命名实体之间的词作为所述第一关系。
4.根据权利要求3所述的方法,其特征在于,所述预处理结果还包括每个词的词性,所述根据预设三元组提取规则及所述预处理结果,从所述目标文本中提取出所述三元组,还包括:
根据所述预处理结果判断所述目标文本是否包括动词结构,其中,所述动词结构包括主谓动宾结构、主谓介宾结构、主谓补宾结构;
若所述目标文本中包括所述动词结构,则将所述动词结构中的两个命名实体作为两个目标实体,并根据所述动词结构中的其他词确定所述第一关系。
5.根据权利要求4所述的方法,其特征在于,所述根据预设三元组提取规则及所述预处理结果,从所述目标文本中提取出所述三元组,还包括:
根据所述预处理结果判断所述目标文本中是否包括并列结构,其中,所述并列结构包括实体并列结构及动词并列结构;
若所述目标文本中包括所述并列结构,则从所述并列结构中提取出两个三元组。
6.根据权利要求5所述的方法,其特征在于,所述根据预设三元组提取规则及所述预处理结果,从所述目标文本中提取出所述三元组,还包括:
根据所述预处理结果判断所述目标文本中是否包括预设公式化结构;
若所述目标文本中包括所述预设公式化结构,则从所述预设公式化结构中提取所述三元组。
7.根据权利要求1所述的方法,其特征在于,所述分类模型中包括特征工程模块、Bi-LSTM模型及分类器,所述将所述目标文本的第一向量及提取出的三元组中的目标实体的第二向量输入到所述分类模型中,获得每个三元组中的目标实体之间的第二关系,包括:
通过所述特征工程模块,基于所述目标文本的第一向量及每个三元组中的目标实体的第二向量,获得所述目标文本中每个词的位置特征向量,并根据所述目标文本中每个词的位置特征向量及所述第一向量,获得所述目标文本的特征向量,其中,所述特征向量包括所述位置特征向量及第一向量;
通过所述Bi-LSTM模型,基于所述特征向量获得所述目标文本的高层特征向量;
通过所述分类器,基于所述高层特征向量获得每个三元组中的目标实体之间的第二关系。
8.一种三元组获取装置,其特征在于,应用于电子设备,所述电子设备中存储有训练好的分类模型,所述装置包括:
提取模块,用于获取目标文本,并从所述目标文本中提取出三元组,其中,每个三元组包括两个目标实体及第一关系;
分类模块,用于将所述目标文本的第一向量及提取出的三元组中的目标实体的第二向量输入到所述分类模型中,获得每个三元组中的目标实体之间的第二关系;
处理模块,用于根据每个三元组对应的所述第一关系及第二关系,判断每个三元组是否为目标三元组,并保留是目标三元组的三元组,不保留不是目标三元组的三元组。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器可执行所述机器可执行指令以实现权利要求1-7中任一项所述的三元组获取方法。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的三元组获取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911399438.0A CN111198932B (zh) | 2019-12-30 | 2019-12-30 | 三元组获取方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911399438.0A CN111198932B (zh) | 2019-12-30 | 2019-12-30 | 三元组获取方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111198932A true CN111198932A (zh) | 2020-05-26 |
CN111198932B CN111198932B (zh) | 2023-03-21 |
Family
ID=70746198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911399438.0A Active CN111198932B (zh) | 2019-12-30 | 2019-12-30 | 三元组获取方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111198932B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967242A (zh) * | 2020-08-17 | 2020-11-20 | 支付宝(杭州)信息技术有限公司 | 一种文本信息的抽取方法、装置及设备 |
CN112069818A (zh) * | 2020-08-06 | 2020-12-11 | 北京捷通华声科技股份有限公司 | 三元组预测模型生成方法、关系三元组提取方法和装置 |
CN112463960A (zh) * | 2020-10-30 | 2021-03-09 | 完美世界控股集团有限公司 | 一种实体关系的确定方法、装置、计算设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291687A (zh) * | 2017-04-27 | 2017-10-24 | 同济大学 | 一种基于依存语义的中文无监督开放式实体关系抽取方法 |
WO2018153295A1 (zh) * | 2017-02-27 | 2018-08-30 | 腾讯科技(深圳)有限公司 | 文本实体提取方法、装置、设备及存储介质 |
CN109241538A (zh) * | 2018-09-26 | 2019-01-18 | 上海德拓信息技术股份有限公司 | 基于关键词和动词依存的中文实体关系抽取方法 |
US20190220749A1 (en) * | 2018-01-17 | 2019-07-18 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Text processing method and device based on ambiguous entity words |
-
2019
- 2019-12-30 CN CN201911399438.0A patent/CN111198932B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018153295A1 (zh) * | 2017-02-27 | 2018-08-30 | 腾讯科技(深圳)有限公司 | 文本实体提取方法、装置、设备及存储介质 |
CN107291687A (zh) * | 2017-04-27 | 2017-10-24 | 同济大学 | 一种基于依存语义的中文无监督开放式实体关系抽取方法 |
US20190220749A1 (en) * | 2018-01-17 | 2019-07-18 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Text processing method and device based on ambiguous entity words |
CN109241538A (zh) * | 2018-09-26 | 2019-01-18 | 上海德拓信息技术股份有限公司 | 基于关键词和动词依存的中文实体关系抽取方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069818A (zh) * | 2020-08-06 | 2020-12-11 | 北京捷通华声科技股份有限公司 | 三元组预测模型生成方法、关系三元组提取方法和装置 |
CN112069818B (zh) * | 2020-08-06 | 2024-05-24 | 北京捷通华声科技股份有限公司 | 三元组预测模型生成方法、关系三元组提取方法和装置 |
CN111967242A (zh) * | 2020-08-17 | 2020-11-20 | 支付宝(杭州)信息技术有限公司 | 一种文本信息的抽取方法、装置及设备 |
CN111967242B (zh) * | 2020-08-17 | 2024-05-03 | 支付宝(杭州)信息技术有限公司 | 一种文本信息的抽取方法、装置及设备 |
CN112463960A (zh) * | 2020-10-30 | 2021-03-09 | 完美世界控股集团有限公司 | 一种实体关系的确定方法、装置、计算设备及存储介质 |
CN112463960B (zh) * | 2020-10-30 | 2021-07-27 | 完美世界控股集团有限公司 | 一种实体关系的确定方法、装置、计算设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111198932B (zh) | 2023-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Uc-Cetina et al. | Survey on reinforcement learning for language processing | |
US11347783B2 (en) | Implementing a software action based on machine interpretation of a language input | |
JP7412060B2 (ja) | 自然言語分類のための訓練データの拡張 | |
US20200192727A1 (en) | Intent-Based Organisation Of APIs | |
RU2607975C2 (ru) | Построение корпуса сравнимых документов на основе универсальной меры похожести | |
CN112106056A (zh) | 构造虚构的话语树来提高回答聚敛性问题的能力 | |
CN110502642B (zh) | 一种基于依存句法分析与规则的实体关系抽取方法 | |
CN108038205B (zh) | 针对中文微博的观点分析原型系统 | |
RU2626555C2 (ru) | Извлечение сущностей из текстов на естественном языке | |
CN111198932B (zh) | 三元组获取方法、装置、电子设备及可读存储介质 | |
RU2607976C1 (ru) | Извлечение информации из структурированных документов, содержащих текст на естественном языке | |
CN110297868A (zh) | 构建企业特定知识图 | |
CN104657440B (zh) | 结构化查询语句生成系统及方法 | |
CN108304375A (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
RU2646380C1 (ru) | Использование верифицированных пользователем данных для обучения моделей уверенности | |
WO2014071330A2 (en) | Natural language processing system and method | |
CN109582799A (zh) | 知识样本数据集的确定方法、装置及电子设备 | |
RU2640297C2 (ru) | Определение степеней уверенности, связанных со значениями атрибутов информационных объектов | |
CN110162771A (zh) | 事件触发词的识别方法、装置、电子设备 | |
RU2640718C1 (ru) | Верификация атрибутов информационных объектов | |
CN111897965B (zh) | 话题生成方法、装置、存储介质和电子设备 | |
Konjengbam et al. | Aspect ontology based review exploration | |
CN113392305A (zh) | 关键词的提取方法及装置、电子设备、计算机存储介质 | |
CN113282762A (zh) | 知识图谱构建方法、装置、电子设备和存储介质 | |
US11321531B2 (en) | Systems and methods of updating computer modeled processes based on real time external data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |