CN111639185B - 关系信息抽取方法、装置、电子设备和可读存储介质 - Google Patents

关系信息抽取方法、装置、电子设备和可读存储介质 Download PDF

Info

Publication number
CN111639185B
CN111639185B CN202010500070.9A CN202010500070A CN111639185B CN 111639185 B CN111639185 B CN 111639185B CN 202010500070 A CN202010500070 A CN 202010500070A CN 111639185 B CN111639185 B CN 111639185B
Authority
CN
China
Prior art keywords
words
entity
word
entity words
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010500070.9A
Other languages
English (en)
Other versions
CN111639185A (zh
Inventor
陈烨
熊军
谭悦
栾博恒
陈晨
张继晟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubo Network Technology Shanghai Co ltd
Original Assignee
Hubo Network Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubo Network Technology Shanghai Co ltd filed Critical Hubo Network Technology Shanghai Co ltd
Priority to CN202010500070.9A priority Critical patent/CN111639185B/zh
Publication of CN111639185A publication Critical patent/CN111639185A/zh
Application granted granted Critical
Publication of CN111639185B publication Critical patent/CN111639185B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种关系信息抽取方法、装置、电子设备和可读存储介质,通过将待处理文本处理为单独的字的最小单元,并按多种不同的排列组合方式将待处理文本的多个字进行组合,得到多组词集合。再针对每组词集合,利用预先训练得到的分类模型判别出该词集合包含的多个词中的实体词,并获得判别得到的任意两个实体词之间的关系信息。本方案中,采用以字为最小单元,并按多种不同的组合方式进行词组合,可以得到不同组合下的词,且针对每任意两个实体抽取关系型。避免了现有技术中,按照经验知识进行文本划分所存在的局限在以往经验下的词形式,本方案可以以灵活、多样地方式对文本进行处理,得到不同词组合情况下的关系信息。

Description

关系信息抽取方法、装置、电子设备和可读存储介质
技术领域
本申请涉及自然语言处理技术领域,具体而言,涉及一种关系信息抽取方法、装置、电子设备和可读存储介质。
背景技术
近年来结构化的知识已被广泛应用于搜索引擎、问答系统等自然语言处理应用中。但与实际应用中快速增长的知识信息量相比,知识图谱覆盖度仍力有未逮。由于知识信息规模巨大而人工标注昂贵,这些新知识单靠人力标注添加几无可能完成。为了尽可能及时、准确地为知识图谱增添更加丰富的世界知识,从业人员努力探索高效、自动获取世界知识的方法,即目前的实体关系抽取技术。
关系抽取是知识抽取的重要子任务之一,面向非结构化文本数据,关系抽取是从文本中抽取出两个或者多个实体之间的语义关系。关系抽取和实体抽取密切相关,一般是在识别出文本的实体之后,再抽取实体之间可能存在的关系。目前,进行关系抽取时,采用的方式主要包括基于模板的关系抽取方法、基于监督学习的关系抽取方法及基于弱监督学习的关系抽取方法。目前的各种关系抽取方法中,均是按预先设置的单一的抽取模板或隐含的关系进行后续操作,难以满足实际应用中,对关系抽取处理的灵活化、多样性的处理要求。
发明内容
本申请的目的包括,例如,提供了一种关系信息抽取方法、装置、电子设备和可读存储介质,其能够以灵活、多样地方式对文本进行处理,得到不同词组合情况下的关系信息。
本申请的实施例可以这样实现:
第一方面,本申请实施例提供一种关系信息抽取方法,所述方法包括:
识别得到待处理文本包含的多个字,按多种不同的排列组合方式将所述多个字进行组合,得到多组词集合,其中,每组所述词集合包含多个词,每个所述词由所述多个字中的至少一个字构成;
针对每组词集合,利用预先训练得到的分类模型判别出所述词集合包含的多个词中的实体词,并获得判别得到的任意两个实体词之间的关系信息。
在可选的实施方式中,所述分类模型包括第一分类器和第二分类器,所述利用预先训练得到的分类模型判别出所述词集合包含的多个词中的实体词,并获得判别得到的任意两个实体词之间的关系信息的步骤,包括:
利用预先训练得到的第一分类器判别出所述词集合包含的多个词中的实体词;
针对判别得到的任意两个实体词,获得所述词集合包含的多个词中该任意两个实体词之间的非实体词;
将所述任意两个实体词以及其之间的非实体词导入预先训练得到的第二分类器,得到所述任意两个实体词之间的关系信息。
在可选的实施方式中,所述将所述任意两个实体词以及其之间的非实体词导入预先训练得到的第二分类器,得到所述任意两个实体词之间的关系信息的步骤,包括:
获得所述任意两个实体词中各所述实体词对应的实体词向量;
获得所述任意两个实体词之间的非实体词对应的非实体词向量,对所述非实体词向量进行池化操作;
将所述任意两个实体词所对应的实体词向量和池化操作后的非实体词向量进行级联操作,得到级联向量;
将所述级联向量导入至预先训练得到的第二分类器,得到所述任意两个实体词之间的关系信息。
在可选的实施方式中,所述获得所述任意两个实体词中各所述实体词对应的实体词向量的步骤,包括:
针对所述任意两个实体词中的各所述实体词,根据所述实体词的宽度信息建立宽度嵌入向量,所述宽度嵌入向量用于将所述实体词映射至对应宽度的向量空间;
获得所述实体词对应的词向量;
将所述词向量和所述宽度嵌入向量进行级联操作,得到所述实体词对应的实体词向量。
在可选的实施方式中,所述按多种不同的排列组合方式将所述多个字进行组合,得到多组词集合的步骤,包括:
根据各个字在所述待处理文本中的位置先后顺序,按多种不同的组合长度模式将所述多个字进行组合,得到多组词集合,其中,各种组合长度模式包含多个组合长度值。
在可选的实施方式中,所述方法还包括:
根据获得的每任意两个实体词之间的关系信息,得到多个关系信息,并根据所述多个关系信息建立对应的知识图谱。
在可选的实施方式中,所述识别得到待处理文本包含的多个字的步骤,包括:
根据待处理文本中包含的第一断句符号,将所述待处理文本切分为多个句子;
针对每个所述句子,根据所述句子中包含的第二断句符号,将所述句子切分为多个子句;
针对每个所述子句,将所述子句切分为多个单独的字。
第二方面,实施例提供一种关系信息抽取装置,所述装置包括:
组合模块,用于识别得到待处理文本包含的多个字,按多种不同的排列组合方式将所述多个字进行组合,得到多组词集合,其中,每组所述词集合包含多个词,每个所述词由所述多个字中的至少一个字构成;
关系信息抽取模块,用于针对每组词集合,利用预先训练得到的分类模型判别出所述词集合包含的多个词中的实体词,并获得判别得到的任意两个实体词之间的关系信息。
第三方面,实施例提供一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如前述任一所述方法的步骤。
第四方面,实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如前述任一所述方法的步骤。
本申请实施例的有益效果包括,例如:
本申请实施例提供的关系信息抽取方法、装置、电子设备和可读存储介质,通过将待处理文本处理为单独的字的最小单元,并按多种不同的排列组合方式将待处理文本的多个字进行组合,得到多组词集合。再针对每组词集合,利用预先训练得到的分类模型判别出该词集合包含的多个词中的实体词,并获得判别得到的任意两个实体词之间的关系信息。本方案中,采用以字为最小单元,并按多种不同的组合方式进行词组合,可以得到不同组合下的词,且针对每任意两个实体抽取关系信息。避免了现有技术中,按照经验知识进行文本划分所存在的局限在以往经验下的词形式,本方案可以以灵活、多样地方式对文本进行处理,得到不同词组合情况下的关系信息。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的电子设备的结构框图;
图2为本申请实施例提供的关系信息抽取方法的流程图;
图3为本申请实施例提供的基于分类模型获得关系信息的方法的流程图;
图4为本申请实施例提供的基于第二分类模型获得关系信息的方法的流程图;
图5为本申请实施例提供的获得实体词向量的方法的流程图;
图6为本申请实施例提供的关系信息抽取过程的示意图;
图7为本申请实施例提供的关系信息抽取装置的功能模块框图。
图标:110-处理器;120-存储器;130-通信模块;140-关系信息抽取装置;141-组合模块;142-关系信息抽取模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本申请的描述中,需要说明的是,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在不冲突的情况下,本申请的实施例中的特征可以相互结合。
请参阅图1,为本申请实施例提供的电子设备的结构图,该电子设备可以包括但不限于计算机、服务器等设备。该电子设备可包括存储器120、处理器110及通信模块130。所述存储器120、处理器110以及通信模块130各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
其中,存储器120用于存储程序或者数据。所述存储器120可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(ErasableProgrammable Read-Only Memory,EPROM),电可擦除只读存储器(Electric ErasableProgrammable Read-Only Memory,EEPROM)等。
处理器110用于读/写存储器120中存储的数据或程序,并执行本申请任意实施例提供的关系信息抽取方法。
通信模块130用于通过网络建立电子设备与其它通信终端之间的通信连接,并用于通过网络收发数据。
应当理解的是,图1所示的结构仅为电子设备的结构示意图,所述电子设备还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
请参阅图2,图2示出了本申请实施例提供的关系信息抽取方法的流程示意图,该关系信息抽取方法可由图1中所示的电子设备执行。应当理解,在其它实施例中,本实施例的关系信息抽取方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。该关系信息抽取方法的详细步骤介绍如下。
步骤S210,识别得到待处理文本包含的多个字,按多种不同的排列组合方式将所述多个字进行组合,得到多组词集合,其中,每组所述词集合包含多个词,每个所述词由所述多个字中的至少一个字构成。
步骤S220,针对每组词集合,利用预先训练得到的分类模型判别出所述词集合包含的多个词中的实体词,并获得判别得到的任意两个实体词之间的关系信息。
本实施例中,可针对例如新闻报道、政府文件、科技文献等文本进行处理,从而实现对这类文本内容中的实体关系信息的抽取。可选地,待处理文本的格式可以包括但不限于,word文本格式、pdf文本格式、txt文本格式或者是网页内容等。
若要进行文本关系信息的抽取,还需要先进行文本实体的识别,其中,实体主要指的是文本中可以表征文本主要信息的部分,例如,文本中的主语、宾语等,对应地,文本中的非实体,则主要为文本中的一些对文本内容表达影响不大的内容,例如可以是文本中的谓语、状语等。在识别出文本中的实体后,可基于一定的处理策略,识别出实体之间的关系信息,从而可以基于得到的关系信息及实体,以简洁的方式一定程度上体现出原本繁杂的文本的表达内容。
在进行文本实体识别时,首先需要将待处理文本进行划分,目前,一般是依据以往的经验知识,采用预设设置模板或隐含关系的方式将待处理文本划分为多个词,例如,针对一段文字“ABCDEFG”,则按照以往经验知识,对该段文本进行划分之后可以得到多个单独的词“A”、“B”、“CD”、“E”、“FG”。目前的处理方式中,仅能按照预设的模板,并按常规的划分的方式进行划分,得到的划分词难以根据实际需求,以灵活、多样地处理方式进行处理。
本实施例中,为了避免上述缺陷,针对待处理文本,首先,识别出待处理文本包含的多个字,即首先将待处理文本切分为多个单独的字,如此,不受经验知识中固定的词的划分限制。在此基础上,再按多种不同的排列组合方式将多个字进行组合,得到多组词集合。即首先将待处理文本切分为字的最小单元,再将字进行灵活、多样地处理。
例如,以上述为例,针对一段文字“ABCDEFG”,首先将该段文本划分为多个字“A”、“B”、“C”、“D”、“E”、“F”、“G”。在不同的预设组合方式中,得到的词可以是如“A”、“AB”、“ABCD”等这些词形式。则相对现有技术中在切分时仅能按照常规的切分为“A”、“B”、“CD”这种方式而言,本实施例首先将待处理文本划分为以字为最小单元,再按不同组合方式组合为不同词形式,避免预设模板对词切分的限制。
在上述基础上,针对每组词集合中的多个词,可以利用预先训练得到的分类模型判别出其中的实体词,并获得任意两个实体词之间的关系信息。例如,通过分类模型的判别后,在文本“ABCDEFG”中,其中,“ABCD”和“FG”为实体词,而其中的“E”为非实体词。利用分类模型还可判别出“ABCD”和“FG”之间的关系信息。该关系信息可以是两者之间存在主动关系、或两者之间存在被动关系、或是两者之间不存在关系等。
此外,在本实施例中,在经过分类模型判别得到其中的实体词后,还可对得到的实体词进行筛选,以得到更适合实际表达的形式。例如,针对一段文字“大家的眼睛是黑色的”,得到的实体词可能是“大家”、“眼睛”、“大家的眼睛”、“黑色”等。则可以将其中的“大家”、“眼睛”和“黑色”这组会产生歧义的组合丢弃,保留“大家的眼睛”这个最长实体词。
本实施例中,通过先将待处理文本切分为单独的字的最小单元,再按不同的组合方式进行词组合,并且,针对每任意两个实体词进行关系抽取,从而可以避免限制在以预设模板进行词划分所存在的局限性的问题,且能够抽取更为多样的关系。
本实施例中,在针对待处理文本进行处理,以识别出待处理文本包含的多个字时,可选地,根据待处理文本中包含的都第一断句符号,将待处理文本切分为多个句子。其中,第一断句符号可以是符号“。”,或者是包括符号“。”、符号“;”等不限,具体地,可以根据实际需求进行相应设置。再针对每个句子,根据句子中包含的第二断句符号,将句子切分为多个子句,其中,第二断句符号可以是如“,”、“、”、“/”等不限。最后,可针对每个子句,将子句切分为多个单独的字。
在得到待处理文本包含的多个字后,上述步骤S210中按不同的排列组合方式将多个字进行组合时,可以是根据各个字在待处理文本中的位置先后顺序,按多种不同的组合长度模式将多个字进行组合,得到多组词集合。其中,各种组合长度模式包含多个组合长度值。
例如,针对一段文字“ABCDEFG”,假设有两种组合长度模式,该两种组合长度模式包含的组合长度值可以分别是11212和412,如此,按第一种组合长度模式对上述文字进行切分后,则得到的词集合可以包含“A”、“B”、“CD”、“E”、“FG”,按第二种组合长度模式对上述文字进行切分后,得到的词集合可以包含“ABCD”、“E”、“FG”。
需要说明的是,上述对于组合长度模式的描述仅为举例说明,实际应用中并不限制于此。
在根据不同的组合方式组合得到多个词之后,上述步骤S220中的分类模型可包含第一分类器和第二分类器,第一分类器可用于进行实体词的识别,第二分类器可用于判别实体词之间的关系信息。请参阅图3,可通过以下方式识别出实体词并判别实体词之间的关系信息。
步骤S221,利用预先训练得到的第一分类器判别出所述词集合包含的多个词中的实体词。
步骤S222,针对判别得到的每任意两个实体词,获得所述词集合包含的多个词中该任意两个实体词之间的非实体词。
步骤S223,将所述任意两个实体词以及其之间的非实体词导入预先训练得到的第二分类器,得到所述相邻两个实体词之间的关系信息。
本实施例中,第一分类器和第二分类器可以理解为分类模型包含的两个层级,该两个层级的输出信息可以分别是实体词判别的结果,以及实体词之间的关系信息的判别结果。可选地,第一分类器可以是softmax分类器,第二分类器可以是softmax分类器或sigmoid分类器等。
可选地,预先可基于大量的训练样本对构建的神经网络模型进行训练,并基于构建的损失函数以评价训练得到的模型的优劣,在训练满足预设条件时,可以得到所述的分类模型。其中,用于训练模型的训练样本可以是通用的、开放的,应当包含多种不同形式的训练样本。在模型训练阶段对训练得到的模型进行评价时,可采用如下的损失函数:
Figure BDA0002524376780000101
其中,M表示词的总数,yo,c的取值为0或1,po,c表示词被识别为实体词的似然值。
通过第一分类器可以识别出多个词中的实体词,例如,若上述例子中的“A”和“CD”以及“FG”被判别为实体词,则相应地,“B”、“E”为非实体词。针对每任意两个实体词,如“A”和“CD”,或者“A”和“FG”,则任意两个实体词之间的非实体词可以是一个,也可以是多个。将该任意两个实体词和其之间的非实体词导入第二分类器,即将“A”、“B”和“CD”导入第二分类器,得到实体词“A”和“CD”之间的关系信息。或者是将“A”、“B”、“E”、“FG”导入第二分类器,得到实体词“A”和“FG”之间的关系信息。应当理解,此处两个实体词之间的关系信息与其之间的非实体词相关,因此,在抽取两个实体词之间的关系信息时,其之间的非实体词必不可少。
例如,针对一段文字“张三担任董事长,身价1.1亿”,则得到的实体词可以是“张三”、“董事长”、“1.1亿”等,非实体词可以是“担任”、“身价”等。则抽取的关系可以是“张三,担任,董事长”,以及“张三,身价,1.1亿”这样的不同形式。
本实施例中,由于第一分类器和第二分类器均针对向量形式的输入信息进行处理,因此,请参阅图4,上述步骤S223中利用第二分类器获得实体词之间的关系信息时,可通过以下方式实现。
步骤S2231,获得所述任意两个实体词中各所述实体词对应的实体词向量。
步骤S2232,获得所述任意两个实体词之间的非实体词对应的非实体词向量,对所述非实体词向量进行池化操作。
步骤S2233,将所述任意两个实体词所对应的实体词向量和池化操作后的非实体词向量进行级联操作,得到级联向量。
步骤S2234,将所述级联向量导入至预先训练得到的第二分类器,得到所述相邻两个实体词之间的关系信息。
本实施例中,请参阅图5,针对通过上述第一分类器所判别得到的每任意两个实体词中的各个实体词,可通过以下方式获得各个实体词的实体词向量:
步骤S22311,针对所述任意两个实体词中的各所述实体词,根据所述实体词的宽度信息建立宽度嵌入向量。
步骤S22312,获得所述实体词对应的词向量。
步骤S22313,将所述词向量和所述宽度嵌入向量进行级联操作,得到所述实体词对应的实体词向量。
本实施例中,需要将实体词转换至向量空间中,以数值形式进行表达,为了能够将实体词映射至对应宽度的向量空间,因此,可采用宽度嵌入的方式。即,根据实体词的宽度信息建立宽度嵌入向量,该宽度嵌入向量可用于将实体词映射至对应宽度的向量空间。将实体词本身对应的词向量和宽度嵌入向量进行级联操作,则可以得到实体词对应的实体词向量,该实体词向量包含实体词本身的向量信息,还包括可将实体词合理映射至向量空间中的向量信息。
对于每任意两个实体词中的各个实体词,均采用上述方式获得实体词对应的实体词向量。此外,对于任意两个实体词之间的非实体词,可以采用上述类似方式获得非实体词对应的非实体词向量。为了简化非实体词向量信息,本实施例中,可对得到的非实体词向量进行池化操作,池化操作的具体方式可参见现有常用方式,在此不作赘述。最后将任意两个实体词向量和之间的非实体词向量进行级联操作后,利用第二分类器判别该任意两个实体词之间的关系信息。
由上述可知,实体词之间的关系信息可以是主动关系、被动关系或无关系。在第二分类器输出得到每任意两个实体词之间的关系信息后,可根据多个关系信息,建立对应的知识图谱。
为了便于本领域技术人员能够进一步理解本申请所提供的关系信息抽取方案,以下将结合图6中的示意图,对关系信息抽取过程的整体流程进行阐述。
在针对待处理文本进行单独的字的划分后,可以获得待处理文本包含的多个字。在此基础上,可利用BERT(BidirectionalEncoder Representations from Transformer,双向编码器)模型并按多种不同排列组合方式进行组合得到多个词。而该多个词中,可能包含实体词、非实体词以及疑似实体词。所谓的疑似实体词即该词中可能既包含文本表达的主语、宾语等,又包含文本中的谓语、状语等。
在上述基础上,进入图6中的(a)区间分类阶段,在该阶段,可利用第一分类器(区间分类器),对各个词进行识别,以判别出其中的实体词、非实体词,而上述的疑似实体在经过第一分类器的判别后,可明确该疑似实体为非实体词。针对识别出的实体词,可获得该实体词相应的宽度嵌入向量,并结合实体词的本身的向量和宽度嵌入向量,得到该实体词的实体词向量。而在图6中的(b)区间过滤阶段,可以将多个词中的非实体滤除,剩下多个词中的实体词。
针对任意两个实体词,可对该两个实体词之间的非实体词(例如,表达文本语境的词)的向量进行最大池化操作。并在图6中的(c)关系分类阶段,将该两个实体词的实体词向量和之间的非实体词向量进行关联操作后,导入第二分类器(关系分类器),从而输出该两个实体词之间的关系信息。
本实施例所提供的关系信息抽取方案,采用将文本切分为最小单元的单独的字,再进行多种方式组合,避免预先定义封闭关系集合所带来的局限性,能够抽取已有和未知的词之间的关系信息。
请参阅图7,为本申请另一实施例提供的关系信息抽取装置140的功能模块框图,该关系信息抽取装置140包括组合模块141及关系信息抽取模块142。
组合模块141,用于识别得到待处理文本包含的多个字,按多种不同的排列组合方式将所述多个字进行组合,得到多组词集合,其中,每组所述词集合包含多个词,每个所述词由所述多个字中的至少一个字构成。
可以理解,该组合模块141可以用于执行上述步骤S210,关于该组合模块141的详细实现方式可以参照上述对步骤S210有关的内容。
关系信息抽取模块142,用于针对每组词集合,利用预先训练得到的分类模型判别出所述词集合包含的多个词中的实体词,并获得判别得到的任意两个实体词之间的关系信息。
可以理解,该关系信息抽取模块142可以用于执行上述步骤S220,关于该关系信息抽取模块142的详细实现方式可以参照上述对步骤S220有关的内容。
进一步地,本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有机器可执行指令,机器可执行指令被执行时实现上述实施例提供的关系信息抽取方法。
其中,前述计算机程序运行时执行的各步骤,在此不再一一赘述,可参考前文对所述关系信息抽取方法的解释说明。
综上所述,本申请实施例提供的关系信息抽取方法、装置、电子设备和可读存储介质,通过将待处理文本处理为单独的字的最小单元,并按多种不同的排列组合方式将待处理文本的多个字进行组合,得到多组词集合。再针对每组词集合,利用预先训练得到的分类模型判别出该词集合包含的多个词中的实体词,并获得判别得到的任意两个实体词之间的关系信息。本方案中,采用以字为最小单元,并按多种不同的组合方式进行词组合,可以得到不同组合下的词,且针对每任意两个实体抽取关系信息。避免了现有技术中,按照经验知识进行文本划分所存在的局限在以往经验下的词形式,本方案可以以灵活、多样地方式对文本进行处理,得到不同词组合情况下的关系信息。
在本申请实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (9)

1.一种关系信息抽取方法,其特征在于,所述方法包括:
识别得到待处理文本包含的多个字,按多种不同的排列组合方式将所述多个字进行组合,得到多组词集合,其中,每组所述词集合包含多个词,每个所述词由所述多个字中的至少一个字构成;
针对每组词集合,利用预先训练得到的分类模型判别出所述词集合包含的多个词中的实体词,并获得判别得到的任意两个实体词之间的关系信息;
所述分类模型包括第一分类器和第二分类器,所述利用预先训练得到的分类模型判别出所述词集合包含的多个词中的实体词,并获得判别得到的任意两个实体词之间的关系信息的步骤,包括:
利用预先训练得到的第一分类器判别出所述词集合包含的多个词中的实体词;针对判别得到的任意两个实体词,获得所述词集合包含的多个词中该任意两个实体词之间的非实体词;将所述任意两个实体词以及其之间的非实体词导入预先训练得到的第二分类器,得到所述任意两个实体词之间的关系信息。
2.根据权利要求1所述的关系信息抽取方法,其特征在于,所述将所述任意两个实体词以及其之间的非实体词导入预先训练得到的第二分类器,得到所述任意两个实体词之间的关系信息的步骤,包括:
获得所述任意两个实体词中各所述实体词对应的实体词向量;
获得所述任意两个实体词之间的非实体词对应的非实体词向量,对所述非实体词向量进行池化操作;
将所述任意两个实体词所对应的实体词向量和池化操作后的非实体词向量进行级联操作,得到级联向量;
将所述级联向量导入至预先训练得到的第二分类器,得到所述任意两个实体词之间的关系信息。
3.根据权利要求2所述的关系信息抽取方法,其特征在于,所述获得所述任意两个实体词中各所述实体词对应的实体词向量的步骤,包括:
针对所述任意两个实体词中的各所述实体词,根据所述实体词的宽度信息建立宽度嵌入向量,所述宽度嵌入向量用于将所述实体词映射至对应宽度的向量空间;
获得所述实体词对应的词向量;
将所述词向量和所述宽度嵌入向量进行级联操作,得到所述实体词对应的实体词向量。
4.根据权利要求1所述的关系信息抽取方法,其特征在于,所述按多种不同的排列组合方式将所述多个字进行组合,得到多组词集合的步骤,包括:
根据各个字在所述待处理文本中的位置先后顺序,按多种不同的组合长度模式将所述多个字进行组合,得到多组词集合,其中,各种组合长度模式包含多个组合长度值。
5.根据权利要求1所述的关系信息抽取方法,其特征在于,所述方法还包括:
根据获得的每任意两个实体词之间的关系信息,得到多个关系信息,并根据所述多个关系信息建立对应的知识图谱。
6.根据权利要求1所述的关系信息抽取方法,其特征在于,所述识别得到待处理文本包含的多个字的步骤,包括:
根据待处理文本中包含的第一断句符号,将所述待处理文本切分为多个句子;
针对每个所述句子,根据所述句子中包含的第二断句符号,将所述句子切分为多个子句;
针对每个所述子句,将所述子句切分为多个单独的字。
7.一种关系信息抽取装置,其特征在于,所述装置包括:
组合模块,用于识别得到待处理文本包含的多个字,按多种不同的排列组合方式将所述多个字进行组合,得到多组词集合,其中,每组所述词集合包含多个词,每个所述词由所述多个字中的至少一个字构成;
关系信息抽取模块,用于针对每组词集合,利用预先训练得到的分类模型判别出所述词集合包含的多个词中的实体词,并获得判别得到的任意两个实体词之间的关系信息;
所述分类模型包括第一分类器和第二分类器,所述关系信息提取模块用于:
利用预先训练得到的第一分类器判别出所述词集合包含的多个词中的实体词;针对判别得到的任意两个实体词,获得所述词集合包含的多个词中该任意两个实体词之间的非实体词;将所述任意两个实体词以及其之间的非实体词导入预先训练得到的第二分类器,得到所述任意两个实体词之间的关系信息。
8.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1-6任一所述方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1-6任一所述方法的步骤。
CN202010500070.9A 2020-06-04 2020-06-04 关系信息抽取方法、装置、电子设备和可读存储介质 Active CN111639185B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010500070.9A CN111639185B (zh) 2020-06-04 2020-06-04 关系信息抽取方法、装置、电子设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010500070.9A CN111639185B (zh) 2020-06-04 2020-06-04 关系信息抽取方法、装置、电子设备和可读存储介质

Publications (2)

Publication Number Publication Date
CN111639185A CN111639185A (zh) 2020-09-08
CN111639185B true CN111639185B (zh) 2023-06-02

Family

ID=72332481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010500070.9A Active CN111639185B (zh) 2020-06-04 2020-06-04 关系信息抽取方法、装置、电子设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN111639185B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183023A (zh) * 2020-09-28 2021-01-05 云知声智能科技股份有限公司 一种多关系抽取方法和终端
CN112926332A (zh) * 2021-03-30 2021-06-08 善诊(上海)信息技术有限公司 一种实体关系联合抽取方法及装置
TWI807400B (zh) * 2021-08-27 2023-07-01 台達電子工業股份有限公司 產生實體關係抽取模型的裝置及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446328A (zh) * 2018-11-02 2019-03-08 成都四方伟业软件股份有限公司 一种文本识别方法、装置及其存储介质
WO2019214145A1 (zh) * 2018-05-10 2019-11-14 平安科技(深圳)有限公司 文本情绪分析方法、装置及存储介质
CN110580292A (zh) * 2019-08-28 2019-12-17 腾讯科技(深圳)有限公司 一种文本标签生成方法、装置和计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019214145A1 (zh) * 2018-05-10 2019-11-14 平安科技(深圳)有限公司 文本情绪分析方法、装置及存储介质
CN109446328A (zh) * 2018-11-02 2019-03-08 成都四方伟业软件股份有限公司 一种文本识别方法、装置及其存储介质
CN110580292A (zh) * 2019-08-28 2019-12-17 腾讯科技(深圳)有限公司 一种文本标签生成方法、装置和计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李颖 ; 郝晓燕 ; 王勇 ; .中文开放式多元实体关系抽取.计算机科学.2017,(S1),全文. *

Also Published As

Publication number Publication date
CN111639185A (zh) 2020-09-08

Similar Documents

Publication Publication Date Title
CN111639185B (zh) 关系信息抽取方法、装置、电子设备和可读存储介质
CN112232058B (zh) 基于深度学习三层语义抽取框架的假新闻识别方法及系统
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN111125354A (zh) 文本分类方法及装置
CN112507704B (zh) 多意图识别方法、装置、设备及存储介质
CN114330475A (zh) 内容匹配方法、装置、设备、存储介质及计算机程序产品
CN112883724A (zh) 文本数据增强处理方法、装置、电子设备和可读存储介质
CN113722438A (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN111475651B (zh) 文本分类方法、计算设备及计算机存储介质
CN113590764A (zh) 训练样本构建方法、装置、电子设备和存储介质
CN117332788B (zh) 一种基于英语口语文本的语义分析方法
CN114547301A (zh) 文档处理、识别模型训练方法、装置、设备及存储介质
CN114328934A (zh) 一种基于注意力机制的多标签文本分类方法及系统
CN111898375B (zh) 一种基于词向量句子链的文章论点论据自动检测划分方法
CN113609865A (zh) 文本情感的识别方法、装置、电子设备及可读存储介质
CN110888983B (zh) 一种正负面情感分析方法、终端设备及存储介质
CN112784601A (zh) 关键信息提取方法、装置、电子设备和存储介质
CN112364166A (zh) 关系抽取模型的建立方法以及关系抽取方法
CN111460817A (zh) 一种刑事法律文书相关法条的推荐方法和系统
CN110851597A (zh) 一种基于同类实体替换的语句标注的方法及装置
CN108021609B (zh) 文本情感分类方法、装置、计算机设备和存储介质
CN108733733B (zh) 基于机器学习的生物医学文本分类方法、系统和存储介质
CN111191455A (zh) 一种交通事故损害赔偿中法律条文预测方法
CN115563278A (zh) 一种句子文本的问题分类处理方法及装置
CN111611394A (zh) 一种文本分类方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant