CN111831829B - 一种面向开放域的实体关系抽取方法、装置及终端设备 - Google Patents
一种面向开放域的实体关系抽取方法、装置及终端设备 Download PDFInfo
- Publication number
- CN111831829B CN111831829B CN202010540594.0A CN202010540594A CN111831829B CN 111831829 B CN111831829 B CN 111831829B CN 202010540594 A CN202010540594 A CN 202010540594A CN 111831829 B CN111831829 B CN 111831829B
- Authority
- CN
- China
- Prior art keywords
- entity
- labeling
- open domain
- prediction
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 134
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000002372 labelling Methods 0.000 claims description 138
- 239000013598 vector Substances 0.000 claims description 47
- 230000006870 function Effects 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 10
- 239000002131 composite material Substances 0.000 claims description 9
- 150000001875 compounds Chemical class 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 238000013461 design Methods 0.000 claims description 6
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000003651 drinking water Substances 0.000 description 1
- 235000020188 drinking water Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及计算机自然语言处理技术领域,公开了一种面向开放域的实体关系抽取方法、装置及终端设备,所述方法包括:获取待处理的开放域数据;将所述开放域数据输入训练好的实体关系抽取模型,获得所述开放域数据中的实体关系;其中,所述实体关系抽取模型采用有监督学习算法进行训练。本发明提供的一种面向开放域的实体关系抽取方法、装置及终端设备,能够提高面向开放域的实体关系抽取结果的准确率。
Description
技术领域
本发明涉及计算机自然语言处理技术领域,特别是涉及一种面向开放域的实体关系抽取方法、装置及终端设备。
背景技术
关系抽取目的在于从互联网大量存在的非结构化文本中抽取实体的语义关系,用于构建知识图谱或者为人们提供更高效的信息获取工具。关系抽取通常以三元组为一个基本数据单位,形如<subject,predicate,object>,其中subject为头实体,object为尾实体,predicate为两个实体之间的关系。通常头实体都是指代具体的人或事物,而尾实体除了可以指代具体的人或事物外,还可以是一些属性。
目前常用的实体关系抽取方法,根据关系类别是否预定义,可以分为限定域关系抽取和开放域关系抽取两种。
在限定域关系抽取中,系统所抽取的关系类别是预先定义好的,比如“亲属”、“所属公司”、“地理位置”等的几种预定义关系,抽取的关系种类较为局限。
开放域关系抽取由于没有预先设定的关系种类,抽取关系更加自由,主要使用无监督的方法来抽取关系三元组,如句法分析和模式匹配等,并且通常是以句子中的某个词语来代表实体之间的关系类型。这种方法的优点是可以发现更多新的关系,抽取更加自由。但是由于自然语言表达的多样性和实体关系的复杂性,使用句法分析和模式匹配的方法准确率往往不高。
发明内容
本发明实施例所要解决的技术问题是:提出一种面向开放域的实体关系抽取方法、装置及终端设备,采用有监督学习算法进行实体关系抽取,提高面向开放域的实体关系抽取结果的准确率。
为了解决上述技术问题,第一方面,本发明实施例提供一种面向开放域的实体关系抽取方法,所述方法包括:
获取待处理的开放域数据;
将所述开放域数据输入训练好的实体关系抽取模型,获得所述开放域数据中的实体关系;其中,所述实体关系抽取模型采用有监督学习算法进行训练。
作为一个优选方案,所述实体关系抽取模型预先通过以下步骤进行训练:
获取原始数据;
对所述原始数据进行预处理,获取标注数据;
根据所述标注数据对预设的实体关系抽取模型进行训练。
作为一个优选方案,所述对所述原始数据进行预处理,获取标注数据,具体包括:
对所述原始数据中的N个句子分别进行复合句拆分,获得M个拆分后的句子,M≥N;
对M个所述拆分后的句子分别进行标注,获取M组所述标注数据。
作为一个优选方案,所述标注数据包括第一标注序列、第二标注序列以及第三标注序列;
则,所述对M个所述拆分后的句子分别进行标注,获取M组标注数据,具体包括:
根据预设的标注类别对M个所述拆分后的句子分别进行标注,对应获得M个第一标注序列;其中,每一个所述第一标注序列为每一个拆分后的句子中的所有实体的标注序列;
根据预设的标注类别对M个所述拆分后的句子分别进行标注,对应获得M个第二标注序列;其中,每一个所述第二标注序列为每一个拆分后的句子中的实体关系的标注序列;
根据预设的标注类别对M个所述拆分后的句子分别进行标注,对应获得M个第三标注序列;其中,每一个所述第三标注序列为每一个拆分后的句子中的尾实体的标注序列。
作为一个优选方案,所述预设的标注类别为L={B,I,E,O};其中,B表示实体词首,I表示实体词中间,E表示实体词尾,O表示非实体词。
作为一个优选方案,所述对所述原始数据中的N个句子分别进行复合句拆分,获得M个拆分后的句子,具体包括:
根据依存句法分析器分析所述原始数据中的N个句子的结构;
基于所述结构,根据句法分析标签设计规则对所述原始数据中的N个句子进行复合句拆分,获得M个所述拆分后的句子。
作为一个优选方案,所述方法还包括:
对实体关系相同的拆分后的句子,进行头实体替换以及尾实体替换。
作为一个优选方案,所述训练好的实体关系抽取模型包括头实体预测模块、实体关系和尾实体联合预测模块;
则,所述将所述开放域数据输入训练好的实体关系抽取模型,抽取所述开放域数据中的实体关系,具体包括:
将所述开放域数据输入所述头实体预测模块获取第一预测标注序列、句子特征向量以及头实体表示向量;
将所述句子特征向量与所述头实体表示向量拼接得到拼接向量;
将所述拼接向量输入所述实体关系和尾实体联合预测模块获取第二预测标注序列、第三预测标注序列;
将所述第一预测标注序列、所述第二预测标注序列以及所述第三预测标注序列依次连接获得所述开放域数据中的实体关系。
为了解决上述技术问题,第二方面,本发明实施例提供一种面向开放域的实体关系抽取装置,所述装置包括:
数据获取模块,用于获取待处理的开放域数据;
关系抽取模块,用于将所述开放域数据输入训练好的实体关系抽取模型,获得所述开放域数据中的实体关系;其中,所述实体关系抽取模型采用有监督学习算法进行训练。
为了解决上述技术问题,第三方面,本发明实施例提供一种终端设备,所述终端设备包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述计算机程序被所述处理器执行时实现如第一方面任一项所述的面向开放域的实体关系抽取方法。
与现有技术相比,本发明实施例提供的一种面向开放域的实体关系抽取方法、装置及终端设备,其有益效果在于:将实体关系抽取视为有监督的序列标注任务,使得关系抽取既可以充分利用标注数据保证抽取准确率,又可以不限制抽取的关系类别,利用模型的泛化能力发现更多新的关系,实现较高准确率的开放域关系抽取,同时,针对实际抽取环境中句子多样性问题对句子进行拆分,降低了待抽取句子的复杂度,进一步保证抽取准确率,还解决了关系抽取实体的一对多问题。
附图说明
为了更清楚地说明本发明实施例的技术特征,下面将对本发明实施例中所需要使用的附图做简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种面向开放域的实体关系抽取方法的一个优选实施例的流程示意图;
图2是本发明提供的依存句法分析器分析过程的一个优选实施例的示意图;
图3是本发明提供的实体关系抽取模型的一个优选实施例的结构示意图;
图4是本发明提供的一种面向开放域的实体关系抽取装置的一个优选实施例的结构示意图;
图5是本发明提供的一种终端设备的一个优选实施例的结构示意图。
具体实施方式
为了对本发明的技术特征、目的、效果有更加清楚的理解,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例仅用于说明本发明,但是不用来限制本发明的保护范围。基于本发明的实施例,本领域技术人员在没有付出创造性劳动的前提下所获得的其他实施例,都应属于本发明的保护范围。
在本发明的描述中,应当理解的是,本文中的编号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有顺序或者技术含义,不能理解为规定或者暗示所描述的对象的重要性。
图1所示为本发明提供的一种面向开放域的实体关系抽取方法的一个优选实施例的流程示意图。
如图1所示,所述方法包括:
S10:获取待处理的开放域数据;
S20:将所述开放域数据输入训练好的实体关系抽取模型,获得所述开放域数据中的实体关系;其中,所述实体关系抽取模型采用有监督学习算法进行训练。
具体而言,本实施例采用空洞卷积神经网络(Dilated Convolutional NeuralNetworks,DCNN)算法对实体关系抽取模型进行训练,但是本发明实施例不限于此。
本发明实施例的实体关系抽取模型是预先训练好的,当用户需要对开放域数据进行关系抽取时,只需将所述开放域数据输入训练好的实体关系抽取模型即可,无需进行过多操作即可获得所述开放域数据中的实体关系。
本发明实施例的一种面向开放域的实体关系抽取方法,采用了有监督学习算法训练实体关系抽取模型,将开放域数据的实体关系抽取视为有监督的序列标注任务,既能够保证关系抽取的准确率,又可以不预设实体关系类别,实体关系的抽取更加自由。
在一个优选实施例中,所述实体关系抽取模型预先通过以下步骤进行训练:
获取原始数据;
对所述原始数据进行预处理,获取标注数据;
根据所述标注数据对预设的实体关系抽取模型进行训练。
具体而言,首先通过网络爬虫爬取公开的关系抽取数据,获得一定量用于训练模型的原始数据,由于数据为开放域数据,对关系类别没有限制,故不同来源、不同种类的关系抽取数据集可以合并在一起。对所述原始数据进行一系列的预处理获取满足模型训练格式的标注数据,然后根据所述标注数据训练实体关系抽取模型,获得训练好的实体关系抽取模型。
在一个优选实施例中,所述对所述原始数据进行预处理,获取标注数据,具体包括:
对所述原始数据中的N个句子分别进行复合句拆分,获得M个拆分后的句子,M≥N;
对M个所述拆分后的句子分别进行标注,获取M组所述标注数据。
可以理解地,复合句大致分为并列复合句和主从复合句,这些句子相对复杂,往往会存在实体关系相对位置分隔较远或者句子语义难以分析等问题,而实体关系抽取任务的难度和输入数据的复杂度有一定的关系,若将复合句拆分成若干个简单句,则可以在一定程度上简化数据,有助于从数据的角度降低任务难度,从而进一步保证关系抽取模型的准确率。
作为一个举例,“《功夫足球》于2001年上映,参演者有周星驰、吴孟达等人。”就是一个并列复合句,可以将其拆分为S1:“《功夫足球》于2001年上映。”和S2:“《功夫足球》参演者有周星驰、吴孟达等人。”两句。
需要说明的是,在复合句进行拆后分的句子中,有的是不包含实体关系的,此时则需要将这些不包含实体关系的句子进行滤除,如上述的S1即不包含实体关系,需要将其滤除,只保留下S2。
进一步地,可以将S2转换成如下格式:
{text:”《功夫足球》参演者有周星驰、吴孟达等人。”
Items:[
[功夫足球,参演者,周星驰],
[功夫足球,参演者,吴孟达],
]}
在一个优选实施例中,所述标注数据包括第一标注序列、第二标注序列以及第三标注序列;
则,所述对M个所述拆分后的句子分别进行标注,获取M组标注数据,具体包括:
根据预设的标注类别对M个所述拆分后的句子分别进行标注,对应获得M个第一标注序列;其中,每一个所述第一标注序列为每一个拆分后的句子中的所有实体的标注序列;
根据预设的标注类别对M个所述拆分后的句子分别进行标注,对应获得M个第二标注序列;其中,每一个所述第二标注序列为每一个拆分后的句子中的实体关系的标注序列;
根据预设的标注类别对M个所述拆分后的句子分别进行标注,对应获得M个第三标注序列;其中,每一个所述第三标注序列为每一个拆分后的句子中的尾实体的标注序列。
具体而言,对上述S2进行标注,则可获得S2的第一标注序列(即S2中所有实体的标注序列)、第二标注序列(即S2中实体关系的标注序列)以及第三标注序列(即S2中尾实体的标注序列)。
在一个优选实施例中,所述预设的标注类别为L={B,I,E,O};其中,B表示实体词首,I表示实体词中间,E表示实体词尾,O表示非实体词。
具体而言,按照所述标注类别L={B,I,E,O}对S2:“《功夫足球》参演者有周星驰、吴孟达等人。”标注后,得到S2的第一标注序列为:
[O,B,I,I,E,O,O,O,O,O,B,I,E,O,B,I,E,O,O,O];
将其记为seq1,其中,序列长度为text的长度,表示text中的实体有“功夫足球”、“周星驰”、“吴孟达”,其他字符为非实体词。
得到S2的第二标注序列为:
[O,O,O,O,O,O,B,I,E,O,O,O,O,O,O,O,O,O,O,O];
将其记为seq2,表示头实体为“功夫足球”的关系为“参演者”。
得到S2的第三标注序列为:
[O,O,O,O,O,O,O,O,O,O,B,I,E,O,B,I,E,O,O,O];
将其记为seq3,表示头实体为“功夫足球”,关系为“参演者”的尾实体为“周星驰”、“吴孟达”。
进一步地,将上述标注数据整理成数据样本,格式如下:
{text:“《功夫足球》参演者有周星驰、吴孟达等人。”
entities:seq1,
Items:{
“功夫足球”:[seq2,seq3]
}
}
本实施例采用的标注方式自然地解决了实体关系抽取中,头实体和尾实体的一对多和多对一问题。其中,头实体和尾实体的一对多的解决体现为:在seq3中可以包含多个尾实体标注,即头实体“功夫足球”可以对应多个尾实体。
在一个优选实施例中,所述对所述原始数据中的N个句子分别进行复合句拆分,获得M个拆分后的句子,具体包括:
根据依存句法分析器分析所述原始数据中的N个句子的结构;
基于所述结构,根据句法分析标签设计规则对所述原始数据中的N个句子进行复合句拆分,获得M个所述拆分后的句子。
具体而言,本实施例通过LTP(Language Technology Platform,语言技术平台)依存句法分析器来分析所述原始数据中的句子结构,但本发明实施例不限于此,再根据句法分析标签设计规则对其进行拆分,其中,所述句法分析标签设计规则可以根据需求进行开发设置,本发明实施例对此不做限制。
作为一个举例,句子A为:“我吃饭,喝水”,对其使用依存句法分析器分析过程如图2所示,其中,HED对应的词语为句子的核心词,COO为并列关系,SBV为主谓关系。若核心词存在并列关系,则按照标点,将句子拆分成“我吃饭”、“喝水”两个分句,分别记为A1和A2。此时A1的核心词为“吃饭”,A2的核心词为与HED指向的词语互为并列关系的“喝水”,同时由SBV关系可知,A1存在主语“我”,A2没有主语,故在A2句首直接添加A1的主语“我”。于是并列句便被拆分成两个分句,并且拥有相同的主语,两句分句分别为A1:“我吃饭”和A2:“我喝水”。
本实施例通过依存句法分析器对复合句进行拆分,能够将复杂的句子拆分成简单句,提高实体关系抽取的准确率。
在一个优选实施例中,所述方法还包括:
对实体关系相同的拆分后的句子,进行头实体替换以及尾实体替换。
需要说明的是,相同实体关系所对应的头实体、尾实体之间的类型通常都是类似的,为了获得更多的标注数据,可以进行相同实体关系的实体替换来扩展出更多的构造数据,具体步骤如下:
1)将标注的数据按照实体关系进行归类并提取实体关系。
2)将句子中的实体用相同关系的其他实体进行替换。
相同实体关系的句子进行实体替换之后,其句子结构是基本不变的,于是,通过相同实体关系的实体替换便构造出了新的标注数据,能够获取更多的标注数据,也可以减轻获取原始数据时的任务量。
在一个优选实施例中,如图3所示,所述训练好的实体关系抽取模型包括头实体预测模块、实体关系和尾实体联合预测模块;
则,所述将所述开放域数据输入训练好的实体关系抽取模型,抽取所述开放域数据中的实体关系,具体包括:
将所述开放域数据输入所述头实体预测模块获取第一预测标注序列、句子特征向量以及头实体表示向量;
将所述句子特征向量与所述头实体表示向量拼接得到拼接向量;
将所述拼接向量输入所述实体关系和尾实体联合预测模块获取第二预测标注序列、第三预测标注序列;
将所述第一预测标注序列、所述第二预测标注序列以及所述第三预测标注序列依次连接获得所述开放域数据中的实体关系。
其中,所述头实体预测模块和所述实体关系和尾实体联合预测模块的输出都是与句子等长的向量,分别标记了头实体、实体关系和尾实体在句子中的位置。
具体而言,本发明实施例的实体关系抽取模型的具体训练过程如下:
M1:采用空洞卷积神经网络DCNN1拼接attention1层作为句子实体抽取模块,获得句子特征向量,再拼接softmax1输出层输出第一预测标注序列(即头实体预测标注序列),其对应的真实标注序列为seq1。
其中,该模块为头实体预测模块,记该模块的损失函数为loss1,loss1为交叉熵损失函数:
其中,N为句子长度;|C|为标注类别的数量,例如,标注类别包括B、I、O、E时,|C|=4,标注类别包括B、O、E时,|C|=3;i为标注类别的编号,例如,标注类别B的编号为i=0,表示第0类为标注类别B;yi是样本标签的one-hot表示,当样本属于第i类标注类别时,yi为1,否则为0;pi为softmax1分类器在第i类标注类别的输出概率;pc为sofmax1分类器在yc=1的标注类别的输出概率。
M2:抽取出句子实体后,对于每一个实体,将该实体视为头实体,使用GRU(GateRecurrent Unit,门控循环单元)对其进行编码,获得实体表示向量。
M3:将步骤M1的attention1层获得的句子特征向量和步骤M2获得的实体表示向量进行拼接,输入到DCNN2+attention2的网络中,并在该模型输出端设置softmax2输出层以及softmax3输出层,分别输出第二预测标注序列(即实体关系预测标注序列)以及第三预测标注序列(即尾实体预测标注序列)。
其中,该DCNN2+attention2网络结构与步骤M1的网络结构相同,但两者为两个相互独立的网络,权重参数不共享。softmax2输出层、以及softmax3输出层和步骤M1的softmax1输出层相同,标注类别也相同,区别在于DCNN2+attention2网络有两个输出层,分别输出实体关系预测标注序列以及尾实体预测标注序列,对应的真实标注序列分别为seq2以及seq3。
该模块为实体关系和尾实体联合预测模块,由于分别输出了实体关系预测标注序列以及尾实体预测标注序列,该模块共有两个损失函数,记实体关系损失函数为loss2,记尾实体损失函数为loss3,其中,
各个参数的含义与步骤M1中loss1的相同,在此不再赘述。
M4:整个实体关系抽取模型(头实体预测模块+实体关系和尾实体联合预测模块)的损失函数为:loss=loss1+loss2+loss3,最小化该损失函数即可训练出可进行实体关系抽取的实体关系抽取模型。
M5:分别从实体关系预测序列和尾实体预测序列中找到对应的实体关系以及尾实体,构成<头实体,实体关系,尾实体>的三元组作为模型抽取出的三元组信息。
由于整个实体关系抽取模型是标注序列模型,可以拟合训练集以获得较高的抽取准确率。并且,由于抽取的实体关系都是从输入文本中的词汇得来,使得实体关系的抽取不限于特定的类别,模型可以通过增加泛化性来学习句子的语义和语法结构,以抽取出更多种类的实体关系。
具体实施时,所述实体关系抽取模型首先用头实体识别模块抽取出句子中的实体,标注出实体在句子中的位置,其次,对于句子中的各个实体,使用所述实体关系和尾实体联合预测模块同时标注出实体关系和尾实体的位置。
对于一个实体,若没有预测出相应的实体关系或尾实体,则表示不存在以该实体为头实体的实体关系;若在同一实体关系预测标注序列中出现多个候选实体关系,由于无法确定多个实体关系与尾实体的对应关系,也视为不存在实体关系;若在同一尾实体预测标注序列中出现多个候选实体,则视为头实体与多个尾实体都存在同一关系。
本实施例提供的一种面向开放域的实体关系抽取方法,将实体关系抽取视为有监督的序列标注任务,使得关系抽取既可以充分利用标注数据保证抽取准确率,又可以不限制抽取的关系类别,利用模型的泛化能力发现更多新的关系,实现较高准确率的开放域关系抽取,同时,针对实际抽取环境中句子多样性问题对句子进行拆分,降低了待抽取句子的复杂度,进一步保证抽取准确率,还解决了实体关系抽取过程中实体的一对多问题。
应当理解,本发明实现上述面向开放域的实体关系抽取方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述面向开放域的实体关系抽取方法的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括电载波信号和电信信号。
图4所示为本发明提供的一种面向开放域的实体关系抽取装置的一个优选实施例的结构示意图,所述装置能够实现上述任一实施例所述的面向开放域的实体关系抽取方法的所有流程。
如图4所示,所述装置包括:
数据获取模块,用于获取待处理的开放域数据;
关系抽取模块,用于将所述开放域数据输入训练好的实体关系抽取模型,获得所述开放域数据中的实体关系;其中,所述实体关系抽取模型采用有监督学习算法进行训练。
具体实施时,将待处理的开放域数据输入所述装置后,所述数据获取模块便会获取所述开放域数据,并将其传输至所述关系抽取模块,所述关系抽取模快将所述开放域数据输入训练好的实体关系抽取模型,获得所述开放域数据中的实体关系,并输出所述实体关系。
优选地,所述装置还包括模型训练模块,所述模型训练模块用于:
获取原始数据;
对所述原始数据进行预处理,获取标注数据;
根据所述标注数据对预设的实体关系抽取模型进行训练。
优选地,所述对所述原始数据进行预处理,获取标注数据,具体包括:
对所述原始数据中的N个句子分别进行复合句拆分,获得M个拆分后的句子,M≥N;
对M个所述拆分后的句子分别进行标注,获取M组所述标注数据。
优选地,所述标注数据包括第一标注序列、第二标注序列以及第三标注序列;
则,所述对M个所述拆分后的句子分别进行标注,获取M组标注数据,具体包括:
根据预设的标注类别对M个所述拆分后的句子分别进行标注,对应获得M个第一标注序列;其中,每一个所述第一标注序列为每一个拆分后的句子中的所有实体的标注序列;
根据预设的标注类别对M个所述拆分后的句子分别进行标注,对应获得M个第二标注序列;其中,每一个所述第二标注序列为每一个拆分后的句子中的实体关系的标注序列;
根据预设的标注类别对M个所述拆分后的句子分别进行标注,对应获得M个第三标注序列;其中,每一个所述第三标注序列为每一个拆分后的句子中的尾实体的标注序列。
优选地,所述预设的标注类别为L={B,I,E,O};其中,B表示实体词首,I表示实体词中间,E表示实体词尾,O表示非实体词。
优选地,所述对所述原始数据中的N个句子分别进行复合句拆分,获得M个拆分后的句子,具体包括:
根据依存句法分析器分析所述原始数据中的N个句子的结构;
基于所述结构,根据句法分析标签设计规则对所述原始数据中的N个句子进行复合句拆分,获得M个所述拆分后的句子。
优选地,所述装置还包括实体替换模块,用于对实体关系相同的拆分后的句子,进行头实体替换以及尾实体替换。
优选地,所述训练好的实体关系抽取模型包括头实体预测模块、实体关系和尾实体联合预测模块;
则,所述关系抽取模块具体用于:
将所述开放域数据输入所述头实体预测模块获取第一预测标注序列、句子特征向量以及头实体表示向量;
将所述句子特征向量与所述头实体表示向量拼接得到拼接向量;
将所述拼接向量输入所述实体关系和尾实体联合预测模块获取第二预测标注序列、第三预测标注序列;
将所述第一预测标注序列、所述第二预测标注序列以及所述第三预测标注序列依次连接获得所述开放域数据中的实体关系。
本实施例提供的一种面向开放域的实体关系抽取装置,将实体关系抽取视为有监督的序列标注任务,使得关系抽取既可以充分利用标注数据保证抽取准确率,又可以不限制抽取的关系类别,利用模型的泛化能力发现更多新的关系,实现较高准确率的开放域关系抽取,同时,针对实际抽取环境中句子多样性问题对句子进行拆分,降低了待抽取句子的复杂度,进一步保证抽取准确率,还解决了实体关系抽取过程中实体的一对多问题。
图5所示为本发明提供的一种终端设备的一个优选实施例的结构示意图,所述终端设备能够实现如上述任一实施例所述的面向开放域的实体关系抽取方法的所有流程。
如图5所示,所述终端设备包括处理器、存储器,以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述计算机程序被所述处理器执行时实现如上述任一实施例所述的面向开放域的实体关系抽取方法。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述终端设备中的执行过程。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
需要说明的是,上述终端设备包括,但不仅限于,处理器、存储器,本领域技术人员可以理解,图5结构示意图仅仅是上述终端设备的示例,并不构成对终端设备的限定,可以包括比图示更多部件,或者组合某些部件,或者不同的部件。
本实施例提供的终端设备,能够提高面向开放域的实体关系抽取结果的准确率。
以上所述,仅是本发明的优选实施方式,但本发明的保护范围并不局限于此,应当指出,对于本领域技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干等效的明显变形和/或同等替换,这些明显变形和/或同等替换也应视为本发明的保护范围。
Claims (9)
1.一种面向开放域的实体关系抽取方法,其特征在于,所述方法包括:
获取待处理的开放域数据;
将所述开放域数据输入训练好的实体关系抽取模型,获得所述开放域数据中的实体关系;其中,所述实体关系抽取模型采用有监督学习算法进行训练;
所述训练好的实体关系抽取模型包括头实体预测模块、实体关系和尾实体联合预测模块;
则,所述将所述开放域数据输入训练好的实体关系抽取模型,抽取所述开放域数据中的实体关系,具体包括:
将所述开放域数据输入所述头实体预测模块获取第一预测标注序列、句子特征向量以及头实体表示向量;
将所述句子特征向量与所述头实体表示向量拼接得到拼接向量;
将所述拼接向量输入所述实体关系和尾实体联合预测模块获取第二预测标注序列、第三预测标注序列;
将所述第一预测标注序列、所述第二预测标注序列以及所述第三预测标注序列依次连接获得所述开放域数据中的实体关系;
所述实体关系抽取模型的具体训练过程如下:
M1:通过采用空洞卷积神经网络DCNN1拼接attention1层,获得所述句子特征向量,再拼接softmax1分类器输出层,输出所述第一预测标注序列;
M2:抽取出句子实体,对于每一个实体,将所述句子实体视为头实体,使用GRU对所述句子实体进行编码,获得所述实体表示向量;
M3:将步骤M1的attention1层获得的句子特征向量和步骤M2获得的实体表示向量进行拼接,输入到新的空洞卷积神经网络DCNN2拼接attention2层中,并在所述实体关系和尾实体联合预测模块输出端设置softmax2分类器输出层以及softmax3分类器输出层,分别输出所述第二预测标注序列以及所述第三预测标注序列;
M4:最小化所述实体关系抽取模型的总损失函数即可训练出能够进行实体关系抽取的实体关系抽取模型;
M5:分别从所述第二预测标注序列以及所述第三预测标注序列中找到对应的实体关系以及尾实体,构成<头实体,实体关系,尾实体>的三元组作为所述实体关系抽取模型抽取出的三元组信息;
其中,所述实体关系抽取模型的总损失函数为:
loss=loss1+loss2+loss3,
式中,loss1为交叉熵损失函数,表示所述头实体预测模块的损失函数;loss2表示所述实体关系和尾实体联合预测模块的实体关系损失函数;loss3表示所述实体关系和尾实体联合预测模块的尾实体损失函数;其中,
式中,N为句子长度;|C|为标注类别的数量,当所述标注类别包括B、I、O、E时,|C|=4,当所述标注类别包括B、O、E时,|C|=3;i为所述标注类别的编号,当标注类别B的编号为i=0时,表示第0类为标注类别B;yi为样本标签的one-hot表示,当样本属于第i类标注类别时,yi为1,否则为0;pi为所述softmax1分类器在所述第i类,即yi=1的标注类别的输出概率;pc为所述sofmax1分类器在yc=1的标注类别的输出概率。
2.根据权利要求1所述的面向开放域的实体关系抽取方法,其特征在于,所述实体关系抽取模型预先通过以下步骤进行训练:
获取原始数据;
对所述原始数据进行预处理,获取标注数据;
根据所述标注数据对预设的实体关系抽取模型进行训练。
3.根据权利要求2所述的面向开放域的实体关系抽取方法,其特征在于,所述对所述原始数据进行预处理,获取标注数据,具体包括:
对所述原始数据中的N个句子分别进行复合句拆分,获得M个拆分后的句子,M≥N;
对M个所述拆分后的句子分别进行标注,获取M组所述标注数据。
4.根据权利要求3所述的面向开放域的实体关系抽取方法,其特征在于,所述标注数据包括第一标注序列、第二标注序列以及第三标注序列;
则,所述对M个所述拆分后的句子分别进行标注,获取M组标注数据,具体包括:
根据预设的标注类别对M个所述拆分后的句子分别进行标注,对应获得M个第一标注序列;其中,每一个所述第一标注序列为每一个拆分后的句子中的所有实体的标注序列;
根据预设的标注类别对M个所述拆分后的句子分别进行标注,对应获得M个第二标注序列;其中,每一个所述第二标注序列为每一个拆分后的句子中的实体关系的标注序列;
根据预设的标注类别对M个所述拆分后的句子分别进行标注,对应获得M个第三标注序列;其中,每一个所述第三标注序列为每一个拆分后的句子中的尾实体的标注序列。
5.根据权利要求4所述的面向开放域的实体关系抽取方法,其特征在于,所述预设的标注类别为L={B,I,E,O};其中,B表示实体词首,I表示实体词中间,E表示实体词尾,O表示非实体词。
6.根据权利要求3至5任一项所述的面向开放域的实体关系抽取方法,其特征在于,所述对所述原始数据中的N个句子分别进行复合句拆分,获得M个拆分后的句子,具体包括:
根据依存句法分析器分析所述原始数据中的N个句子的结构;
基于所述结构,根据句法分析标签设计规则对所述原始数据中的N个句子进行复合句拆分,获得M个所述拆分后的句子。
7.根据权利要求6所述的面向开放域的实体关系抽取方法,其特征在于,所述方法还包括:
对实体关系相同的拆分后的句子,进行头实体替换以及尾实体替换。
8.一种面向开放域的实体关系抽取装置,其特征在于,所述装置包括:
数据获取模块,用于获取待处理的开放域数据;
关系抽取模块,用于将所述开放域数据输入训练好的实体关系抽取模型,获得所述开放域数据中的实体关系;其中,所述实体关系抽取模型采用有监督学习算法进行训练;
所述训练好的实体关系抽取模型包括头实体预测模块、实体关系和尾实体联合预测模块;
则,所述将所述开放域数据输入训练好的实体关系抽取模型,抽取所述开放域数据中的实体关系,具体包括:
将所述开放域数据输入所述头实体预测模块获取第一预测标注序列、句子特征向量以及头实体表示向量;
将所述句子特征向量与所述头实体表示向量拼接得到拼接向量;
将所述拼接向量输入所述实体关系和尾实体联合预测模块获取第二预测标注序列、第三预测标注序列;
将所述第一预测标注序列、所述第二预测标注序列以及所述第三预测标注序列依次连接获得所述开放域数据中的实体关系;
所述实体关系抽取模型的具体训练过程如下:
M1:通过采用空洞卷积神经网络DCNN1拼接attention1层,获得所述句子特征向量,再拼接softmax1分类器输出层,输出所述第一预测标注序列;
M2:抽取出句子实体,对于每一个实体,将所述句子实体视为头实体,使用GRU对所述句子实体进行编码,获得所述实体表示向量;
M3:将步骤M1的attention1层获得的句子特征向量和步骤M2获得的实体表示向量进行拼接,输入到新的空洞卷积神经网络DCNN2拼接attention2层中,并在所述实体关系和尾实体联合预测模块输出端设置softmax2分类器输出层以及softmax3分类器输出层,分别输出所述第二预测标注序列以及所述第三预测标注序列;
M4:最小化所述实体关系抽取模型的总损失函数即可训练出能够进行实体关系抽取的实体关系抽取模型;
M5:分别从所述第二预测标注序列以及所述第三预测标注序列中找到对应的实体关系以及尾实体,构成<头实体,实体关系,尾实体>的三元组作为所述实体关系抽取模型抽取出的三元组信息;
其中,所述实体关系抽取模型的总损失函数为:
loss=loss1+loss2+loss3,
式中,loss1为交叉熵损失函数,表示所述头实体预测模块的损失函数;loss2表示所述实体关系和尾实体联合预测模块的实体关系损失函数;loss3表示所述实体关系和尾实体联合预测模块的尾实体损失函数;其中,
式中,N为句子长度;|C|为标注类别的数量,当所述标注类别包括B、I、O、E时,|C|=4,当所述标注类别包括B、O、E时,|C|=3;i为所述标注类别的编号,当标注类别B的编号为i=0时,表示第0类为标注类别B;yi为样本标签的one-hot表示,当样本属于第i类标注类别时,yi为1,否则为0;pi为所述softmax1分类器在所述第i类,即yi=1的标注类别的输出概率;pc为所述sofmax1分类器在yc=1的标注类别的输出概率。
9.一种终端设备,其特征在于,所述终端设备包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7任一项所述的面向开放域的实体关系抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010540594.0A CN111831829B (zh) | 2020-06-12 | 2020-06-12 | 一种面向开放域的实体关系抽取方法、装置及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010540594.0A CN111831829B (zh) | 2020-06-12 | 2020-06-12 | 一种面向开放域的实体关系抽取方法、装置及终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111831829A CN111831829A (zh) | 2020-10-27 |
CN111831829B true CN111831829B (zh) | 2024-04-09 |
Family
ID=72898718
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010540594.0A Active CN111831829B (zh) | 2020-06-12 | 2020-06-12 | 一种面向开放域的实体关系抽取方法、装置及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111831829B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101578B (zh) * | 2020-11-17 | 2021-02-23 | 中国科学院自动化研究所 | 基于联邦学习的分布式语言关系识别方法、系统和装置 |
CN113011189A (zh) * | 2021-03-26 | 2021-06-22 | 深圳壹账通智能科技有限公司 | 开放式实体关系的抽取方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875051A (zh) * | 2018-06-28 | 2018-11-23 | 中译语通科技股份有限公司 | 面向海量非结构化文本的知识图谱自动构建方法及系统 |
CN110209836A (zh) * | 2019-05-17 | 2019-09-06 | 北京邮电大学 | 远程监督关系抽取方法及装置 |
CN110399433A (zh) * | 2019-07-23 | 2019-11-01 | 福建奇点时空数字科技有限公司 | 一种基于深度学习的数据实体关系抽取方法 |
CN110968660A (zh) * | 2019-12-09 | 2020-04-07 | 四川长虹电器股份有限公司 | 基于联合训练模型的信息抽取方法和系统 |
CN111027324A (zh) * | 2019-12-05 | 2020-04-17 | 电子科技大学广东电子信息工程研究院 | 一种基于句法模式和机器学习的开放式关系的抽取方法 |
CN111160008A (zh) * | 2019-12-18 | 2020-05-15 | 华南理工大学 | 一种实体关系联合抽取方法及系统 |
-
2020
- 2020-06-12 CN CN202010540594.0A patent/CN111831829B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875051A (zh) * | 2018-06-28 | 2018-11-23 | 中译语通科技股份有限公司 | 面向海量非结构化文本的知识图谱自动构建方法及系统 |
CN110209836A (zh) * | 2019-05-17 | 2019-09-06 | 北京邮电大学 | 远程监督关系抽取方法及装置 |
CN110399433A (zh) * | 2019-07-23 | 2019-11-01 | 福建奇点时空数字科技有限公司 | 一种基于深度学习的数据实体关系抽取方法 |
CN111027324A (zh) * | 2019-12-05 | 2020-04-17 | 电子科技大学广东电子信息工程研究院 | 一种基于句法模式和机器学习的开放式关系的抽取方法 |
CN110968660A (zh) * | 2019-12-09 | 2020-04-07 | 四川长虹电器股份有限公司 | 基于联合训练模型的信息抽取方法和系统 |
CN111160008A (zh) * | 2019-12-18 | 2020-05-15 | 华南理工大学 | 一种实体关系联合抽取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111831829A (zh) | 2020-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109582949B (zh) | 事件元素抽取方法、装置、计算设备及存储介质 | |
CN113672708B (zh) | 语言模型训练方法、问答对生成方法、装置及设备 | |
CN110110054A (zh) | 一种基于深度学习的从非结构化文本中获取问答对的方法 | |
CN110598203A (zh) | 一种结合词典的军事想定文书实体信息抽取方法及装置 | |
CN110597961B (zh) | 一种文本类目标注方法、装置、电子设备及存储介质 | |
CN110609983B (zh) | 一种政策文件结构化分解方法 | |
CN113051356A (zh) | 开放关系抽取方法、装置、电子设备及存储介质 | |
CN109214407B (zh) | 事件检测模型、方法、装置、计算设备及存储介质 | |
CN110457585B (zh) | 负面文本的推送方法、装置、系统及计算机设备 | |
CN110941958B (zh) | 一种文本类目标注方法、装置、电子设备及存储介质 | |
CN111831829B (zh) | 一种面向开放域的实体关系抽取方法、装置及终端设备 | |
CN112188311B (zh) | 用于确定新闻的视频素材的方法和装置 | |
CN108563725A (zh) | 一种中文症状体征构成识别方法 | |
CN113392641A (zh) | 文本处理方法、装置、存储介质和设备 | |
CN115017303A (zh) | 基于新闻文本进行企业风险评估的方法、计算设备和介质 | |
CN113282729A (zh) | 基于知识图谱的问答方法及装置 | |
CN114580424A (zh) | 一种用于法律文书的命名实体识别的标注方法和装置 | |
CN115273856A (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN113220854B (zh) | 机器阅读理解的智能对话方法及装置 | |
CN114281948A (zh) | 一种纪要确定方法及其相关设备 | |
CN114372454A (zh) | 文本信息抽取方法、模型训练方法、装置及存储介质 | |
CN114842982B (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN117112743A (zh) | 文本自动生成问题的可回答性评估方法、系统及存储介质 | |
CN113657092B (zh) | 识别标签的方法、装置、设备以及介质 | |
CN114003708B (zh) | 基于人工智能的自动问答方法、装置、存储介质及服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |