CN114417850A - 信息抽取方法、装置、存储介质及电子设备 - Google Patents

信息抽取方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN114417850A
CN114417850A CN202210103652.2A CN202210103652A CN114417850A CN 114417850 A CN114417850 A CN 114417850A CN 202210103652 A CN202210103652 A CN 202210103652A CN 114417850 A CN114417850 A CN 114417850A
Authority
CN
China
Prior art keywords
target text
matrix
speech
vector
knowledge base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210103652.2A
Other languages
English (en)
Inventor
樊乘源
刘海锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN202210103652.2A priority Critical patent/CN114417850A/zh
Publication of CN114417850A publication Critical patent/CN114417850A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种信息抽取方法、装置、存储介质以及电子设备,其中,方法包括:获取目标文本;将所述目标文本输入至预训练模型中,输出所述目标文本对应的第一矩阵,所述预训练模型包括用于提取语义向量的语义处理模块、用于提取词性标签向量的词性处理模块以及用于提取知识库标签向量的知识库处理模块;基于所述第一矩阵抽取所述目标文本的三元组信息,所述三元组信息包括主语、宾语以及主语和宾语之间的关系。采用本申请实施例,提升了信息抽取的召回率和准确率。

Description

信息抽取方法、装置、存储介质及电子设备
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种信息抽取方法、装置、 存储介质及电子设备。
背景技术
随着信息技术的迅速发展和硬件设备的不断提升,信息抽取在人工智能应 用中扮演着非常重要的角色,越来越多的深层应用,依赖于信息抽取的结果。 信息抽取是指在非结构化数据中抽取实体、关系、时间等信息,抽取结果一般 可以被下游任务利用,例如,构建知识图谱的实体、构建事理图谱等都依赖信 息抽取的结果。
发明内容
为了解决上述问题,本申请实施例提供了一种信息抽取方法、装置、存储 介质及电子设备,提升了信息抽取的召回率和准确率。
第一方面,本申请实施例提供了一种信息抽取方法,所述方法包括:
获取目标文本;
将所述目标文本输入至预训练模型中,输出所述目标文本对应的第一矩阵, 所述预训练模型包括用于提取语义向量的语义处理模块、用于提取词性标签向 量的词性处理模块以及用于提取知识库标签向量的知识库处理模块;
基于所述第一矩阵抽取所述目标文本的三元组信息,所述三元组信息包括 主语、宾语以及主语和宾语之间的关系。
第二方面,本申请实施例提供了一种信息抽取装置,所述装置包括:
信息获取模块,用于获取目标文本;
矩阵确定模块,用于将所述目标文本输入至预训练模型中,输出所述目标 文本对应的第一矩阵,所述预训练模型包括用于提取语义向量的语义处理模块、 用于提取词性标签向量的词性处理模块以及用于提取知识库标签向量的知识库 处理模块;
信息确定模块,用于基于所述第一矩阵抽取所述目标文本的三元组信息, 所述三元组信息包括主语、宾语以及主语和宾语之间的关系。
第三方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介 质存储有多条指令,所述指令适于由处理器加载并执行上述第一方面的方法步 骤。
第四方面,本申请实施例提供了一种电子设备,可包括:处理器和存储器; 其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载 并执行上述第一方面的方法步骤。
本申请一些实施例提供的技术方案带来的有益效果至少包括:
在本申请实施例中,通过获取目标文本,将目标文本输入至预训练模型中, 输出目标文本对应的第一矩阵,预训练模型包括用于提取语义向量的语义处理 模块、用于提取词性标签向量的词性处理模块以及用于提取知识库标签向量的 知识库处理模块,基于第一矩阵抽取目标文本的三元组信息,三元组信息包括 主语、宾语以及主语和宾语之间的关系。通过结合目标文本的语义信息、词性 以及预设的知识库抽取目标文本三元组信息,提升了对目标文本进行信息抽取 的召回率和准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些 实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可 以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种信息抽取方法的系统架构图;
图2为本申请实施例提供的一种信息抽取方法的流程示意图;
图3为本申请实施例提供的一种提取词性标签向量的举例示意图;
图4为本申请实施例提供的一种信息抽取方法的流程示意图;
图5为本申请实施例提供的一种信息抽装置的结构示意图;
图6为本申请实施例提供的一种信息抽装置的结构示意图;
图7为本申请实施例提供的一种信息抽装置的结构示意图;
图8为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清 楚、完整地描述。
在下述介绍中,术语“第一”、“第二”仅为用于描述的目的,而不能理 解为指示或暗示相对重要性。下述介绍提供了本申请的多个实施例,不同实施 例之间可以替换或者合并组合,因此本申请也可认为包含所记载的相同和/或不 同实施例的所有可能组合。因而,如果一个实施例包含特征A、B、C,另一个 实施例包含特征B、D,那么本申请也应视为包括含有A、B、C、D的一个或多 个所有其他可能的组合的实施例,尽管该实施例可能并未在以下内容中有明确 的文字记载。
下面的描述提供了示例,并且不对权利要求书中阐述的范围、适用性或示 例进行限制。可以在不脱离本申请内容的范围的情况下,对描述的元素的功能 和布置做出改变。各个示例可以适当省略、替代或添加各种过程或组件。例如 所描述的方法可以以所描述的顺序不同的顺序来执行,并且可以添加、省略或 组合各种步骤。此外,可以将关于一些示例描述的特征组合到其他示例中。
随着信息技术的迅速发展和硬件设备的不断提升,信息抽取在人工智能应 用中扮演着非常重要的角色,越来越多的深层应用,依赖于信息抽取的结果。 信息抽取是指在非结构化数据中抽取实体、关系、时间等信息,抽取结果一般 可以被下游任务利用,例如构建知识图谱的实体、构建事理图谱等都依赖信息 抽取的结果。信息抽取分为两部分,一部分是命名实体识别,识别出文本中的 实体,另外就是关系抽取,对识别出来的实体构建对应的关系,两者便是构建 三元组的基本构成。常见的信息抽取方案有两种,一种是基于摘要(schema) 的信息抽取,通过预定义schema从图谱中抽取出三元组入库;另一种是开放域信息抽取技术,通过对文本进行句法分析和命名实体识别,依靠预定义模板或 者模型就可以抽取出三元组。现有信息抽取系统通常只使用信息抽取模型,通 常只使用文本信息作为输入,并没有充分利用已有知识库和词性信息,因此召 回率和准确率不能得到保证。
基于此,本申请实施例提供了一种信息抽取方法,通过获取目标文本,将 目标文本输入至预训练模型中,输出目标文本对应的第一矩阵,预训练模型包 括用于提取语义向量的语义处理模块、用于提取词性标签向量的词性处理模块 以及用于提取知识库标签向量的知识库处理模块,基于第一矩阵抽取目标文本 的三元组信息,三元组信息包括主语、宾语以及主语和宾语之间的关系。通过 结合目标文本的语义信息、词性以及预设的知识库抽取目标文本三元组信息, 提升了对目标文本进行信息抽取的召回率和准确率。
请参见图1,为本申请实施例提供的一种信息抽取方法的系统架构示意图, 该系统包括用户终端,用户终端可以包括但不限于智能手机、智能交互平板、 个人电脑、台式电脑、平板电脑、掌上电脑、膝上型电脑、电脑一体机、车载 多媒体等。通过获取目标文本,将目标文本输入至预训练模型中,基于语义处 理模块得到目标文本对应的语义向量;在预训练模型的词性处理模块中,对目 标文本中的各个词语进行词性划分,得到各词语对应的词性标注结果,在预设 的词性标签向量集合中确定各词性标注结果对应的目标词性标签向量,将各目 标词性标签向量进行组合,得到目标文本对应的词性标签向量;在预训练模型的知识库处理模块中,在预设知识库中确定与目标文本相关联的已有的三元组 信息,将已有的三元组信息中主语和宾语分别打上标签,得到已有的三元组信 息对应的目标知识库标签向量,将目标知识库表标签向量确定为目标文本对应 的知识库标签向量;将语义向量、词性标签向量、知识库标签向量进行拼接, 得到目标文本对应的第一矩阵;将第一矩阵转换为二维矩阵,基于二维矩阵抽 取目标文本中主语对应的主语矩阵,将主语矩阵和第一矩阵相加,得到第二矩 阵,将第二矩阵转换为各预设关系分别对应的二维矩阵,基于各二维矩阵以及 各预设关系确定目标文本中的三元组信息。结合了用户输入的目标文本中各词 语的词性、语义信息,以及预设的知识库中已有的三元组信息进行抽取目标文 本中的三元组信息,提升了对目标文本进行信息抽取的召回率和准确率。
在图1所示系统架构基础上,下面将结合图2~图4,对本申请实施例提供 的信息抽取方法进行详细介绍。
请参见图2,为本申请实施例提供了一种信息抽取方法的流程示意图。如图 2所示,所述信息抽取方法可以包括以下步骤:
S101,获取目标文本。
在一个实施例中,在用户需要对目标文本进行信息抽取时,将目标文本输 入至用户终端中,用户终端对目标文本进行信息抽取,抽取出目标文本中的三 元组信息。
S102,将所述目标文本输入至预训练模型,输出所述目标文本对应的第一 矩阵,所述预训练模型包括用于提取语义向量的语义处理模块、用于提取词性 标签向量的词性处理模块以及用于提取知识库标签向量的知识库处理模块。
在一个实施例中,用户将目标文本输入至用户终端中,预训练模型中的语 义处理模块对目标文本进行语义识别,得到目标文本对应的语义向量,预训练 模型中的词性处理模块对目标文本进行词性划分,得到目标文本对应的词性标 签向量,预训练模型中的知识库处理模块在预训练模型中预存的知识库对目标 文本进行处理得到目标文本对应的知识库标签向量,将语义向量、词性标签向 量以及知识库标签向量拼接得到目标文本对应的第一矩阵。
其中,语义处理模块用于获取目标文本的语义信息,根据目标文本的语义 信息生成目标文本对应的语义向量。
词性处理模块对目标文本进行词语划分,并对每个词语进行词性标注,在 词性处理模块预设的词性标签表中,根据每个词语的词性对每个词语打上词性 标签,再根据预设的词性标签与向量的对应关系确定每个词语对应的向量,由 此,确定目标文本对应的词性标签向量。
如表1所示,为预设的词性标签表。
标签 含义 标签 含义 标签 含义 标签 含义
n 普通名词 f 方位名词 s 处所名词 nw 作品名
nz 其他专名 v 普通动词 vd 动副词 vn 名动词
a 形容词 ad 副形词 an 名形词 d 副词
m 数量词 q 量词 r 代词 p 介词
c 连词 u 助词 xc 其他虚词 w 标点符号
PER 人名 LOC 地名 ORG 机构名 TIME 时间
表1中词性对应的标签的表示并不是对各词性对应的标签的表示方法进行 限定,在本申请实施例中不对词性对应的标签的表示方法进行限定。
词性标签与向量的对应关系是由词性标注id建立的,每一个词性标签有且 只有一个词性标注id与之对应,每一个词性标注id有且只有一个向量与之对应。
表2词性标签与词性标注id的对应关系表
词性标签 id
PER 1
v 2
n 3
m 4
... ...
表3词性标注id与向量的对应关系表
id 向量
1 向量1
2 向量2
3 向量3
4 向量4
... ...
根据表2和表3可以得出每一个词性都有与之对应的向量,根据词性标签 确定目标文本的词性标签向量,每一个词性标签向量可以是一个128维的向量。
例如,目标文本为“刘德华是一名演员”,对目标文本进行词性划分后的 结果为“刘德华/是/一名/演员”。其中“刘德华”对应的词性标签为“PER”, 对应的词性标注id是1,对应的向量为向量1,“是”对应的词性标签为“v”, 对应的词性标注id为2,对应的向量为向量2,“一名”对应的词性标签为“m”, 对应的词性标注id为4,对应的向量为向量4,“演员”对应的词性标签为“n”, 对应的词性标注id为3,对应的向量为向量3,如图3所示,为目标文本的词性 标签向量表示。
知识库处理模块根据知识库中预设的知识库,当用户将目标文本输入至用 户终端之后,根据预设的知识库生成目标文本对应的知识库标签,对抽取目标 文本的三元组信息提供很大的帮助。
例如,目标文本为“刘德华出演了无间道和神雕侠侣等影视剧”,在预设 的知识库中存在“刘德华,主演,无间道”这个三元组,但不存在“刘德华, 主演,神雕侠侣”这个三元组,通过对目标文本中的“刘德华”和“无间道” 打上标签,在抽取目标文本中的“刘德华,主演,神雕侠侣”这个三元组有很 大的帮助。
如表4所示,对目标文本在预设的知识库中存在的三元组打上标签。
目标文本
主语标签向量 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
宾语标签向量 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0
如表4所示,将目标文本中对预设的知识库中已有的三元组打上标签,分 别形成主语标签向量和宾语标签向量,主语标签向量和宾语标签向量进行拼接 之后得到知识库标签向量。
将主语向量、词性标签向量以及知识库标签向量进行拼接得到目标文本对 应的第一矩阵,第一矩阵的维度由语义向量、词性标签向量以及知识库标签向 量决定,是语义向量、词性标签向量以及知识库标签向量的维度的总和。
S103,基于所述第一矩阵抽取所述目标文本的三元组信息,所述三元组信 息包括主语、宾语以及主语和宾语之间的关系。
在一个实施例中,根据第一矩阵抽取目标文本中由主语、宾语以及主语和 宾语之间的关系的三元组信息。
例如,目标文本为“刘德华出演了无间道和神雕侠侣等影视剧”,经过预 训练模型得到第一矩阵,根据第一矩阵得到目标文本中的三元组包括“刘德华, 主演,无间道”和“刘德华,主演,神雕侠侣”两个三元组。
在本申请实施例中,通过获取目标文本,将目标文本输入至预训练模型中, 输出目标文本对应的第一矩阵,预训练模型包括用于提取语义向量的语义处理 模块、用于提取词性标签向量的词性处理模块以及用于提取知识库标签向量的 知识库处理模块,基于第一矩阵抽取目标文本的三元组信息,三元组信息包括 主语、宾语以及主语和宾语之间的关系。通过结合目标文本的语义信息、词性 以及预设的知识库抽取目标文本三元组信息,提升了对目标文本进行信息抽取 的召回率和准确率。
请参见图4,为本申请实施例提供了一种信息抽取方法的流程示意图。如图 4所示,所述信息抽取方法可以包括以下步骤:
S201,获取目标文本。
本步骤具体实施方式可以参考步骤S101,在此不做赘述。
S202,将所述目标文本输入至预训练模型中,基于所述语义处理模块得到 所述目标文本对应的语义向量,所述预训练模型包括用于提取语义向量的语义 处理模块、用于提取词性标签向量的词性处理模块以及用于提取知识库标签向 量的知识库处理模块。
在一个实施例中,获取用户输入的目标文本,输入至预训练模型中,预训 练模型包括用于提取语义向量的语义处理模块、用于提取词性标签向量的词性 处理模块以及用于提取知识库标签向量的知识库处理模块,通过语义处理模块 提取目标文本的语义信息,并生成对应的语义向量。
S203,将所述目标文本输入至预训练模型中,对所述目标文本中的各个词 语进行词性划分,得到各所述词语对应的词性标注结果。
S204,在预设的词性标签向量集合中确定各所述词性标注结果对应的目标 词标签向量。
S205,将各所述目标词性标签向量进行组合,得到所述目标文本对应的词 性标签向量。
在一个实施例中,获取用户输入的目标文本,输入至预训练模型中,通过 分词器对目标文本进行词性划分,得到目标文本对应的各词性,并根据预设的 词性与词性标签的对应关系对目标文本进行标注,得到目标文本中各词语的词 性标注结果;再根据预设的词性标签向量集合,在词性标签向量集合中确定各 词性标注结果对应的目标词性标签向量,将各目标词性标签向量进行组合,得 到目标文本对应的词性标签向量。
各词性与词性标签的对应关系可以是如表1所示的对应关系,本申请实施 例不对各词性标签的表示方法进行限定。
目标词性标签向量的确定是根据预训练模型的词性处理模块中预设的词性 标签前与词性标注id的对应关系表以及词性标注id与向量的对应关系表确定, 词性标签与词性标注结果id的对应感谢如表2所示,词性标注id与向量的对应 关系表如表3所示。
在预训练模型的词性处理模块中预设了词性与词性标签的对应关系,词性 标签与词性标注id的对应关系表,词性标注id与向量的对应关系表,在对目标 文本进行词性划分之后,可以根据词性与词性标签的对应关系表确定目标文本 中各词性的词性标签,再根据词性标签与词性标注id的对应关系表确定目标文 本的词性标注id,然后再根据词性标注id与向量的对应关系表确定目标文本中 各词性的词性标签向量,再将各词性的词性标签向量进行组合得到目标文本的 词性标签向量。
S206,将所述目标文本输入至预训练模型中,在预设知识库中确定与所述 目标文本相关联的已有的三元组信息。
S207,将所述已有的三元组信息中主语和宾语分别打上标签,得到所述已 有的三元组信息对应的目标知识库标签向量。
S208,将所述目标知识库标签向量确定为所述目标文本对应的知识库标签 向量。
在一个实施例中,获取用户输入的目标文本,输入至预训练模型中,在知 识库处理模块中预设的知识库中确定与目标文本相关联的已有的三元组信息; 确定了目标文本在预设知识库中已有的三元组信息之后,在目标文本中,对已 有的三元组信息中的主语和宾语分别打上标签,得到已有三元组信息对应的目 标知识库标签向量;将该目标知识库标签向量确定为目标文本的知识库标签向 量。
其中,在预设的知识库已有的三元组信息中,确定目标文本是否存在知识 库中已有的三元组信息,若目标文本中存在知识库中已有的三元组信息,则将 目标文本对应位置的主语和宾语打上标签,得到目标文本对应的知识库标签向 量。
S209,将所述语义向量、所述词性标签向量以及所述知识库标签向量进行 拼接,得到所述目标文本对应的第一矩阵。
在一个实施例中,将预训练模型的语义处理模块提取出的目标文本的语义 向量、词性处理模块提取出的目标文本的词性标签向量以及知识库处理模块提 取出的知识库标签向量进行拼接,得到目标文本对应的第一矩阵。
其中,语义向量、词性标签向量以及知识库标签向量的拼接顺序可以包括 但不限于语义向量、词性标签向量、知识库标签向量,语义向量、知识库标签 向量、词性标签向量,词性标签向量、语义向量、知识库标签向量,词性标签 向量、知识库标签向量、语义向量,知识库标签向量、语义向量、词性标签向 量,知识库标签向量、词性标签向量、语义向量等等。
第一矩阵是由语义向量、词性标签向量以及知识库标签向量拼接而成,因 此,第一矩阵的维度是语义向量、词性标签向量以及知识库标签向量维度的总 和。
S210,将所述第一矩阵转换为二维矩阵。
S211,基于所述二维矩阵抽取所述目标文本中主语对应的主语矩阵。
在一个实施例中,将第一矩阵通过全连接层转换为二维矩阵,根据二维矩 阵抽取目标文本的主语对应的主语矩阵。
其中,通过全连接层,将第一矩阵转换为主语对应的起始位向量以及结束 位向量,根据转换后的起始位向量中各向量值与预设值进行比较,以确定该位 置对应的向量值是0还是1,同理,根据转换后的结束位向量中各向量值与预设 值进行比较,以确定各位置对应的向量值是0还是1。
若转换后的起始位向量为[0.8,0.1,,0.08,0.3,0.4,0.2,0.05,0.2],预设 值为0.5,主语对应的主语矩阵中开始位的向量为[1,0,0,0,0,0,0,0,0], 表示从目标文本的第一个字开始即目标文本的主语开始,若转换后的结束位向 量为[0.03,0.04,0.6,0.08,0.2,0.09,0.3,0.06],主语对应的主语矩阵中结 束位的向量为[0,0,1,0,0,0,0,0],表示目标文本的主语在目标文本的第 三个字结束,以上,即目标文本主语为前三个字。
将开始位向量和结束位向量拼接,得到目标文本中主语对应的主语矩阵。
S212,将所述主语矩阵与所述第一矩阵相加,得到第二矩阵。
在一个实施例中,将主语矩阵中的向量值相加,得到一个主语矩阵对应的 向量值,将主语矩阵的向量值与第一矩阵中的每一个向量值相加,得到第二矩 阵。
S213,将所述第二矩阵转换为各预设关系分别对应的二维矩阵。
在一个实施例中,用户在对目标文本进行抽取之前,预设了三元组中主语 与宾语之间的关系,在对抽取目标文本中的三元组信息时,根据用户预先设置 的关系,将第二矩阵转换为各预设关系对应的二维矩阵,二维矩阵包括开始位 向量和结束位向量。
例如,用户预设的关系有“国籍,出生地,母亲,父亲,妻子,女儿,儿 子”,这六个关系,通过全连接层将第二矩阵转换为这六种关系分别对应的二 维矩阵。
S214,基于各所述二维矩阵、所述主语矩阵以及各所述预设关系确定所述 目标文本中的三元组信息。
在一个实施例中,根据预设关系转换后的二维矩阵,如上述步骤S212中主 语矩阵如何确定目标文本中的主语开始位置和结束位置的方法相同,将转换为 二维矩阵中的各向量值与预设值进行比较,确定该关系对应的宾语在目标文本 中的位置,再结合通过主语矩阵确定的主语以及预设关系确定目标文本中的三 元组信息。
基于主语矩阵确定目标文本中的主语之后,结合用户预设的关系,在目标 文本中确定主语对应的宾语,将主语,宾语以及主语和宾语之前的关系确定为 一组三元组信息。
在本申请实施例中,通过获取目标文本,讲目标文本输入至预训练模型中, 基于语义处理模块得到目标文本对应的语义向量;对目标文本中的各个词语进 行词性划分,得到个词语对应的词性标注结果,在预设的词性标签向量集合中 确定各次性格标注结果对应的目标词性标签向量,将各目标词性标签向量进行 组合,得到目标文本对应的词性标签向量;并在预设知识库中确定与目标文本 相关联的已有的三元组信息,将已有的三元组信息中主语和宾语分别打上标签, 得到已有的三元组信息对应的目标知识库标签向量,将目标知识库标签向量确 定为目标文本对应的知识库标签向量;将语义向量、词性标签向量以及知识库 标签向量进行拼接,得到目标文本对应的第一矩阵,将第一矩阵转换为二维矩阵,基于二维矩阵抽取目标文本中主语对应的主语矩阵,将主语矩阵与第一矩 阵相加,得到第二矩阵,将第二矩阵转换为各预设关系分别对应的二维矩阵, 基于各二维矩阵、主语矩阵以及预设关系确定目标文本中的三元组信息。通过 在抽取之前预设三元组中主语与宾语之间的关系,并结合目标文本的语义信息、 目标文本中各词语的词性以及目标文本中在预设知识库中已有的三元组信息, 以对目标文本进行抽取三元组信息,提升了对目标文本进行信息抽取的找回来 和准确率。
下面将结合图5,对本申请实施例提供的信息抽取装置进行详细介绍。需要 说明的是。图5中的信息抽取装置,用于执行本申请图2~图4所示实施例的方 法,为了便于说明,仅示出了与本申请实施例相关部分,具体技术细节为揭示 的,请参照本申请图2~图4所示的方法实施例。
请参见图5,为本申请提供了一种信息抽取装置的结构示意图。如图5所示, 本申请实施例的所述信息抽取装置1包括:信息获取模块11、矩阵确定模块12、 信息确定模块13。
信息获取模块11,用于获取目标文本;
矩阵确定模块12,用于将所述目标文本输入至预训练模型中,输出所述目 标文本对应的第一矩阵,所述预训练模型包括用于提取语义向量的语义处理模 块、用于提取词性标签向量的词性处理模块以及用于提取知识库标签向量的知 识库处理模块;
信息确定模块13,用于基于所述第一矩阵抽取所述目标文本的三元组信息, 所述三元组信息包括主语、宾语以及主语和宾语之间的关系。
可选的,如图6所示,所述矩阵确定模块12,包括:
向量获取单元121,用于将所述目标文本输入至预训练模型中,基于所述语 义处理模块得到所述目标文本对应的语义向量,基于所述词性处理模块得到所 述目标文本对应的词性标签向量,以及基于所述知识库处理模块得到所述目标 文本对应的知识库标签向量;
矩阵确定单元122,用于基于所述语义向量、所述词性标签向量以及所述知 识库标签向量,得到所述目标文本对应的第一矩阵。
可选的,所述向量获取单元121,具体用于:
对所述目标文本中的各个词语进行词性划分,得到各所述词语对应的词性 标注结果;
在预设的词性标签向量集合中确定各所述词性标注结果对应的目标词性标 签向量;
将各所述目标词性标签向量进行组合,得到所述目标文本对应的词性标签 向量。
可选的,所述向量获取单元121,具体用于:
在预设知识库中确定与所述目标文本相关联的已有的三元组信息;
将所述已有的三元组信息中主语和宾语分别打上标签,得到所述已有的三 元组信息对应的目标知识库标签向量;
将所述目标知识库标签向量确定为所述目标文本对应的知识库标签向量。
可选的,所述矩阵确定单元122,具体用于:
将所述语义向量、所述词性标签向量以及所述知识库标签向量进行拼接, 得到所述目标文本对应的第一矩阵。
可选的,如图7所示,所述信息确定模块13,包括:
数据转换单元131,用于将所述第一矩阵转换为二维矩阵;
信息抽取单元132,用于基于所述二维矩阵抽取所述目标文本中主语对应的 主语矩阵;
信息确定单元133,用于基于所述主语矩阵以及所述第一矩阵确定所述目标 文本中的三元组信息。
可选的,所述信息确定单元133,具体用于:
将所述主语矩阵与所述第一矩阵相加,得到第二矩阵;
将所述第二矩阵转换为各预设关系分别对应的二维矩阵;
基于各所述二维矩阵、所述主语矩阵以及各所述预设关系确定所述目标文 本中的三元组信息。
在本申请实施例中,通过获取目标文本,讲目标文本输入至预训练模型中, 基于语义处理模块得到目标文本对应的语义向量;对目标文本中的各个词语进 行词性划分,得到个词语对应的词性标注结果,在预设的词性标签向量集合中 确定各次性格标注结果对应的目标词性标签向量,将各目标词性标签向量进行 组合,得到目标文本对应的词性标签向量;并在预设知识库中确定与目标文本 相关联的已有的三元组信息,将已有的三元组信息中主语和宾语分别打上标签, 得到已有的三元组信息对应的目标知识库标签向量,将目标知识库标签向量确 定为目标文本对应的知识库标签向量;将语义向量、词性标签向量以及知识库 标签向量进行拼接,得到目标文本对应的第一矩阵,将第一矩阵转换为二维矩阵,基于二维矩阵抽取目标文本中主语对应的主语矩阵,将主语矩阵与第一矩 阵相加,得到第二矩阵,将第二矩阵转换为各预设关系分别对应的二维矩阵, 基于各二维矩阵、主语矩阵以及预设关系确定目标文本中的三元组信息。通过 在抽取之前预设三元组中主语与宾语之间的关系,并结合目标文本的语义信息、 目标文本中各词语的词性以及目标文本中在预设知识库中已有的三元组信息, 以对目标文本进行抽取三元组信息,提升了对目标文本进行信息抽取的召回率 和准确率。
本申请实施例还提供了一种计算机存储介质,所述计算机存储介质可以存 储有多条指令,所述指令适于由处理器加载并执行如上述图2~图4所示实施例 的所述信息抽取方法,具体执行过程可以参见图2~图4所示实施例的具体说明, 在此不进行赘述。
请参见图8,为本申请实施例提供了一种电子设备的结构示意图。如图8所 示,所述终端设备1000可以包括:至少一个处理器1001,至少一个网络接口 1002,至少一个输入输出接口1003,至少一个显示单元1004,至少一个存储器 1005,至少一个通信总线1006。其中,处理器1001可以包括一个或者多个处理 核心。处理器1001利用各种接口和线路连接整个电子设备1000内的各个部分, 通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集,以及调 用存储在存储器1005内的数据,执行终端1000的各种功能和处理数据。存储 器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位 于远离前述处理器1001的存储装置。其中,网络接口1002可选的可以包括标 准的有线接口、无线接口(如WI-FI接口、蓝牙接口)。通信总线1006用于实 现这些组件之间的连接通信。显示单元1004可以是触控面板。如图8所示,作 为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、输入输出 接口模块以及信息抽取程序。
在图8所示的电子设备1000中,输入输出接口1003主要用于为用户以及 接入设备提供接口,获取用户以及接入设备输入的数据。
在一个实施例中,处理器1001可以用于调用存储器1005中存储的信息抽 取程序,并具体执行以下操作:
获取目标文本;
将所述目标文本输入至预训练模型中,输出所述目标文本对应的第一矩阵, 所述预训练模型包括用于提取语义向量的语义处理模块、用于提取词性标签向 量的词性处理模块以及用于提取知识库标签向量的知识库处理模块;
基于所述第一矩阵抽取所述目标文本的三元组信息,所述三元组信息包括 主语、宾语以及主语和宾语之间的关系。
在一个实施例中,处理器1001在执行将所述目标文本输入至预训练模型中, 输出所述目标文本对应的第一矩阵时,具体执行以下操作:
将所述目标文本输入至预训练模型中,基于所述语义处理模块得到所述目 标文本对应的语义向量,基于所述词性处理模块得到所述目标文本对应的词性 标签向量,以及基于所述知识库处理模块得到所述目标文本对应的知识库标签 向量;
基于所述语义向量、所述词性标签向量以及所述知识库标签向量,得到所 述目标文本对应的第一矩阵。
在一个实施例中,处理器1001在执行基于所述词性处理模块得到所述目标 文本对应的词性标签向量时,具体执行以下操作:
对所述目标文本中的各个词语进行词性划分,得到各所述词语对应的词性 标注结果;
在预设的词性标签向量集合中确定各所述词性标注结果对应的目标词性标 签向量;
将各所述目标词性标签向量进行组合,得到所述目标文本对应的词性标签 向量。
在一个实施例中,处理器1001在执行基于所述知识库处理模块得到所述目 标文本对应的知识库标签向量时,具体执行以下操作:
在预设知识库中确定与所述目标文本相关联的已有的三元组信息;
将所述已有的三元组信息中主语和宾语分别打上标签,得到所述已有的三 元组信息对应的目标知识库标签向量;
将所述目标知识库标签向量确定为所述目标文本对应的知识库标签向量。
在一个实施例中,处理器1001在执行基于所述语义向量、所述词性标签向 量以及所述知识库标签向量,得到所述目标文本对应的第一矩阵时,具体执行 以下操作:
将所述语义向量、所述词性标签向量以及所述知识库标签向量进行拼接, 得到所述目标文本对应的第一矩阵。
在一个实施例中,处理器1001在执行基于所述第一矩阵确定所述目标文本 的三元组信息时,具体执行以下操作:
将所述第一矩阵转换为二维矩阵;
基于所述二维矩阵抽取所述目标文本中主语对应的主语矩阵;
基于所述主语矩阵以及所述第一矩阵确定所述目标文本中的三元组信息。
在一个实施例中,处理器1001在执行基于所述主语矩阵以及所述第一矩阵 确定所述目标文本中的三元组信息时,具体执行以下操作:
将所述主语矩阵与所述第一矩阵相加,得到第二矩阵;
将所述第二矩阵转换为各预设关系分别对应的二维矩阵;
基于各所述二维矩阵、所述主语矩阵以及各所述预设关系确定所述目标文 本中的三元组信息。
本申请实施例中,通过获取目标文本,讲目标文本输入至预训练模型中, 基于语义处理模块得到目标文本对应的语义向量;对目标文本中的各个词语进 行词性划分,得到个词语对应的词性标注结果,在预设的词性标签向量集合中 确定各次性格标注结果对应的目标词性标签向量,将各目标词性标签向量进行 组合,得到目标文本对应的词性标签向量;并在预设知识库中确定与目标文本 相关联的已有的三元组信息,将已有的三元组信息中主语和宾语分别打上标签, 得到已有的三元组信息对应的目标知识库标签向量,将目标知识库标签向量确 定为目标文本对应的知识库标签向量;将语义向量、词性标签向量以及知识库 标签向量进行拼接,得到目标文本对应的第一矩阵,将第一矩阵转换为二维矩 阵,基于二维矩阵抽取目标文本中主语对应的主语矩阵,将主语矩阵与第一矩 阵相加,得到第二矩阵,将第二矩阵转换为各预设关系分别对应的二维矩阵, 基于各二维矩阵、主语矩阵以及预设关系确定目标文本中的三元组信息。通过 在抽取之前预设三元组中主语与宾语之间的关系,并结合目标文本的语义信息、 目标文本中各词语的词性以及目标文本中在预设知识库中已有的三元组信息, 以对目标文本进行抽取三元组信息,提升了对目标文本进行信息抽取的召回率 和准确率。
本领域的技术人员可以清楚地了解到本申请的技术方案可借助软件和/或硬 件来实现。本说明书中的“单元”和“模块”是指能够独立完成或与其他部件配合完 成特定功能的软件和/或硬件,其中硬件例如可以是现场可编程门阵列(Field- ProgrammaBLEGate Array,FPGA)、集成电路(Integrated Circuit,IC)等。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述 为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的 动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。 其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施 例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详 述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其 它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单 元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例 如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略, 或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可 以是通过一些服务接口,装置或单元的间接耦合或通信连接,可以是电性或其 它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为 单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者 也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部 单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中, 也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元 中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的 形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或 使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的 技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部 分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中, 包括若干指令用以使得一台电子设备(可为个人计算机、服务器或者网络设备 等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括: U盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤 是可以通进程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存 储器中,存储器可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、 随机存取器(Random AccessMemory,RAM)、磁盘或光盘等。
以上所述者,仅为本公开的示例性实施例,不能以此限定本公开的范围。 即但凡依本公开教导所作的等效变化与修饰,皆仍属本公开涵盖的范围内。本 领域技术人员在考虑说明书及实践这里的公开后,将容易想到本公开的其它实 施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、 用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领 域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开 的范围和精神由权利要求限定。

Claims (10)

1.一种信息抽取方法,其特征在于,所述方法包括:
获取目标文本;
将所述目标文本输入至预训练模型中,输出所述目标文本对应的第一矩阵,所述预训练模型包括用于提取语义向量的语义处理模块、用于提取词性标签向量的词性处理模块以及用于提取知识库标签向量的知识库处理模块;
基于所述第一矩阵抽取所述目标文本的三元组信息,所述三元组信息包括主语、宾语以及主语和宾语之间的关系。
2.根据权利要求1所述的方法,其特征在于,所述将所述目标文本输入至预训练模型中,输出所述目标文本对应的第一矩阵,包括:
将所述目标文本输入至预训练模型中,基于所述语义处理模块得到所述目标文本对应的语义向量,基于所述词性处理模块得到所述目标文本对应的词性标签向量,以及基于所述知识库处理模块得到所述目标文本对应的知识库标签向量;
基于所述语义向量、所述词性标签向量以及所述知识库标签向量,得到所述目标文本对应的第一矩阵。
3.根据权利要求2所述的方法,其特征在于,所述基于所述词性处理模块得到所述目标文本对应的词性标签向量,包括:
对所述目标文本中的各个词语进行词性划分,得到各所述词语对应的词性标注结果;
在预设的词性标签向量集合中确定各所述词性标注结果对应的目标词性标签向量;
将各所述目标词性标签向量进行组合,得到所述目标文本对应的词性标签向量。
4.根据权利要求2所述的方法,其特征在于,所述基于所述知识库处理模块得到所述目标文本对应的知识库标签向量,包括:
在预设知识库中确定与所述目标文本相关联的已有的三元组信息;
将所述已有的三元组信息中主语和宾语分别打上标签,得到所述已有的三元组信息对应的目标知识库标签向量;
将所述目标知识库标签向量确定为所述目标文本对应的知识库标签向量。
5.根据权利要求2所述的方法,其特征在于,所述基于所述语义向量、所述词性标签向量以及所述知识库标签向量,得到所述目标文本对应的第一矩阵,包括:
将所述语义向量、所述词性标签向量以及所述知识库标签向量进行拼接,得到所述目标文本对应的第一矩阵。
6.根据权利要求1所述的方法,其特征在于,所述基于所述第一矩阵确定所述目标文本的三元组信息,包括:
将所述第一矩阵转换为二维矩阵;
基于所述二维矩阵抽取所述目标文本中主语对应的主语矩阵;
基于所述主语矩阵以及所述第一矩阵确定所述目标文本中的三元组信息。
7.根据权利要求6所述的方法,其特征在于,所述基于所述主语矩阵以及所述第一矩阵确定所述目标文本中的三元组信息,包括:
将所述主语矩阵与所述第一矩阵相加,得到第二矩阵;
将所述第二矩阵转换为各预设关系分别对应的二维矩阵;
基于各所述二维矩阵、所述主语矩阵以及各所述预设关系确定所述目标文本中的三元组信息。
8.一种信息抽取装置,其特征在于,所述装置包括:
信息获取模块,用于获取目标文本;
矩阵确定模块,用于将所述目标文本输入至预训练模型中,输出所述目标文本对应的第一矩阵,所述预训练模型包括用于提取语义向量的语义处理模块、用于提取词性标签向量的词性处理模块以及用于提取知识库标签向量的知识库处理模块;
信息确定模块,用于基于所述第一矩阵抽取所述目标文本的三元组信息,所述三元组信息包括主语、宾语以及主语和宾语之间的关系。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1-7任意一项的方法步骤。
10.一种电子设备,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1-7任意一项的方法步骤。
CN202210103652.2A 2022-01-27 2022-01-27 信息抽取方法、装置、存储介质及电子设备 Pending CN114417850A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210103652.2A CN114417850A (zh) 2022-01-27 2022-01-27 信息抽取方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210103652.2A CN114417850A (zh) 2022-01-27 2022-01-27 信息抽取方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN114417850A true CN114417850A (zh) 2022-04-29

Family

ID=81279337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210103652.2A Pending CN114417850A (zh) 2022-01-27 2022-01-27 信息抽取方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN114417850A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116069938A (zh) * 2023-04-06 2023-05-05 中电科大数据研究院有限公司 一种文本关联性分析方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116069938A (zh) * 2023-04-06 2023-05-05 中电科大数据研究院有限公司 一种文本关联性分析方法

Similar Documents

Publication Publication Date Title
CN112685565B (zh) 基于多模态信息融合的文本分类方法、及其相关设备
CN109697291B (zh) 文本的语义段落识别方法和装置
CN109002510B (zh) 一种对话处理方法、装置、设备和介质
CN109241286B (zh) 用于生成文本的方法和装置
CN110377740B (zh) 情感极性分析方法、装置、电子设备及存储介质
CN111159409B (zh) 基于人工智能的文本分类方法、装置、设备、介质
CN108121699B (zh) 用于输出信息的方法和装置
CN109858045B (zh) 机器翻译方法和装置
CN111078842A (zh) 查询结果的确定方法、装置、服务器及存储介质
CN110704608A (zh) 文本主题生成方法、装置和计算机设备
CN113947095A (zh) 多语种文本翻译方法、装置、计算机设备及存储介质
CN112464642A (zh) 文本添加标点的方法、装置、介质及电子设备
CN110008807B (zh) 一种合同内容识别模型的训练方法、装置及设备
CN114417850A (zh) 信息抽取方法、装置、存储介质及电子设备
CN114780701A (zh) 自动问答匹配方法、装置、计算机设备及存储介质
CN113505595A (zh) 文本短语抽取方法、装置、计算机设备及存储介质
CN111783433A (zh) 一种文本检索纠错方法和装置
CN111179904A (zh) 混合文语转换方法及装置、终端和计算机可读存储介质
CN112100364A (zh) 文本语义理解方法和模型训练方法、装置、设备和介质
CN113032523B (zh) 三元组信息的抽取方法、装置、电子设备和存储介质
CN111708819B (zh) 用于信息处理的方法、装置、电子设备和存储介质
CN111985235B (zh) 文本处理方法、装置、计算机可读存储介质和电子设备
CN109857838B (zh) 用于生成信息的方法和装置
CN114692633A (zh) 一种命名实体识别方法、终端以及存储介质
CN114118072A (zh) 文档结构化方法、装置、电子设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination