CN114491010A - 信息抽取模型的训练方法及装置 - Google Patents

信息抽取模型的训练方法及装置 Download PDF

Info

Publication number
CN114491010A
CN114491010A CN202011263099.6A CN202011263099A CN114491010A CN 114491010 A CN114491010 A CN 114491010A CN 202011263099 A CN202011263099 A CN 202011263099A CN 114491010 A CN114491010 A CN 114491010A
Authority
CN
China
Prior art keywords
information
training
text information
extraction model
verification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011263099.6A
Other languages
English (en)
Inventor
朱自强
李长亮
汪美玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Digital Entertainment Co Ltd
Original Assignee
Beijing Kingsoft Digital Entertainment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Digital Entertainment Co Ltd filed Critical Beijing Kingsoft Digital Entertainment Co Ltd
Priority to CN202011263099.6A priority Critical patent/CN114491010A/zh
Publication of CN114491010A publication Critical patent/CN114491010A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供信息抽取模型的训练方法及装置,其中所述信息抽取模型的训练方法包括:获取与目标维度匹配的训练文本信息和验证文本信息,所述训练文本信息和所述验证文本信息中分别携带有类别标签;根据所述训练文本信息和所述训练文本信息携带的类别标签训练信息抽取模型,并利用信息抽取模型处理所述验证文本信息,获得验证类别标签;将所述验证类别标签和所述验证文本信息携带的类别标签进行比对,并根据比对结果判断信息抽取模型是否满足停止训练条件;若否,根据所述比对结果确定待调整识别维度,并将所述待调整识别维度作为所述目标维度,继续训练信息抽取模型。

Description

信息抽取模型的训练方法及装置
技术领域
本申请涉及机器学习技术领域,特别涉及信息抽取模型的训练方法及装置。
背景技术
在现有技术中,对于不同事件或同一事件不同维度的信息抽取难度是不同的,对于一些简单类别的信息抽取往往只需要一小部分数据,就可以训练出很高准确率的信息抽取模型,然而,对于一些复杂事件或同一事件的复杂维度的信息抽取难度较高,并且为了使得信息抽取模型在复杂事件的信息抽取上能够达到很高的准确率,往往需要标注大量的数据,另外标注大量的数据不仅耗费人力和物力,还需要较长的时间才能够完成,因此亟需一种有效的方案以解决上述问题。
发明内容
有鉴于此,本申请实施例提供了一种信息抽取模型的训练方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种信息抽取模型的训练装置,一种知识图谱构建方法,一种知识图谱构建装置,一种计算设备,以及一种计算机可读存储介质。
根据本申请实施例的第一方面,提供了一种信息抽取模型的训练方法,包括:
获取与目标维度匹配的训练文本信息和验证文本信息,所述训练文本信息和所述验证文本信息中分别携带有类别标签;
根据所述训练文本信息和所述训练文本信息携带的类别标签训练信息抽取模型,并利用信息抽取模型处理所述验证文本信息,获得验证类别标签;
将所述验证类别标签和所述验证文本信息携带的类别标签进行比对,并根据比对结果判断信息抽取模型是否满足停止训练条件;
若否,根据所述比对结果确定待调整识别维度,并将所述待调整识别维度作为所述目标维度,继续训练信息抽取模型。
可选地,所述获取与目标维度匹配的训练文本信息和验证文本信息,包括:
在预设的文本数据库中提取设定数量与所述目标维度匹配的初始文本信息;
基于设定数量的所述初始文本信息,生成设定数量携带有类别标签的初始文本信息;
将设定数量携带有类别标签的初始文本信息划分为携带有类别标签的所述训练文本信息,以及携带有类别标签的验证文本信息。
可选地,所述根据所述比对结果确定待调整识别维度,并将所述待调整识别维度作为所述目标维度,包括:
根据比较结果确定所述验证类别标签和所述验证文本信息携带的类别标签二者之间的区别类别标签;
对所述区别类别标签进行归类处理,根据归类处理结果选择目标类别标签;
将所述目标类别标签所属的识别维度确定为所述待调整识别维度。
可选地,所述对所述区别类别标签进行归类处理,根据归类处理结果选择目标类别标签,包括:
对所述区别类别标签进行归类处理,获得多个类别标签集合;
确定各个类别标签集合中包含的类别标签的标签数量,并选择标签数量大于预设数量阈值的类别标签集合确定所述目标类别标签。
可选地,所述训练文本信息为训练政务文本信息,所述训练政务文本信息包括下述至少一项子信息:
主题名称子信息、成本日期子信息、文件摘要子信息、发文机构子信息、发布日期子信息、发文字号子信息、文件原文链接子信息;
相应的,所述验证文本子信息为验证政务文本信息,所述验证政务文本信息包括下述至少一项子信息:
主题名称子信息、成本日期子信息、文件摘要子信息、发文机构子信息、发布日期子信息、发文字号子信息、文件原文链接子信息;
相应的,所述类别标签包括下述至少一项:姓名标签、性别标签、年龄标签、职位标签、会议名称标签。
可选地,所述根据所述训练文本信息和所述训练文本信息携带的类别标签训练信息抽取模型,包括:
将所述训练文本信息转换为第一特征向量,作为所述信息抽取模型的输入,以及将所述训练文本信息携带的类别标签作为所述信息抽取模型的输出;
基于所述第一特征向量和所述训练文本信息携带的类别标签对所述信息抽取模型进行训练,获得验证信息抽取模型。
可选地,所述利用信息抽取模型处理所述验证文本信息,获得验证类别标签,包括:
将所述验证文本信息转换为第二特征向量,并将所述第二特征向量输入至所述验证信息抽取模型进行处理,获得所述验证文本信息对应的验证类别标签。
可选地,若所述根据比对结果判断信息抽取模型是否满足停止训练条件的判断结果为是,则执行如下步骤:
将信息抽取模型确定为目标信息抽取模型,并存储所述目标信息抽取模型。
可选地,所述将信息抽取模型确定为目标信息抽取模型,并存储所述目标信息抽取模型步骤执行之后,还包括:
获取与目标领域匹配的文本信息,并对所述文本信息进行结构化处理;
将结构化的文本信息输入至所述目标信息抽取模型进行处理,获得所述文本信息对应的类别标签;
基于所述文本信息对应的类别标签从所述文本信息中提取多个三元组,并根据所述多个三元组构建与所述目标领域匹配的知识图谱。
可选地,还包括:
将所述知识图谱以属性图的形式存储至图数据库,其中所述图数据库配置有调用接口。
可选地,还包括:
接收用户针对所述目标领域提交的查询信息;
确定所述查询信息对应的查询实体,以及与所述查询实体对应的查询关系;
基于所述查询实体和所述查询关系在所述知识图谱中确定目标实体,并将所述目标作为所述查询信息的反馈发送至所述用户。
根据本申请实施例的第二方面,提供了一种信息抽取模型的训练装置,包括:
获取模块,被配置为获取与目标维度匹配的训练文本信息和验证文本信息,所述训练文本信息和所述验证文本信息中分别携带有类别标签;
训练模块,被配置为根据所述训练文本信息和所述训练文本信息携带的类别标签训练信息抽取模型,并利用信息抽取模型处理所述验证文本信息,获得验证类别标签;
比对模块,被配置为将所述验证类别标签和所述验证文本信息携带的类别标签进行比对,并根据比对结果判断信息抽取模型是否满足停止训练条件;
若否,运行确定模块,所述确定模块,被配置为根据所述比对结果确定待调整识别维度,并将所述待调整识别维度作为所述目标维度,继续训练信息抽取模型。
根据本申请实施例的第三方面,提供了一种知识图谱构建方法,包括:
获取与目标领域匹配的文本信息,并对所述文本信息进行结构化处理;
将结构化的文本信息输入至满足训练停止条件的目标信息抽取模型进行处理,获得所述文本信息对应的类别标签;
基于所述文本信息对应的类别标签从所述文本信息中提取多个三元组,并根据所述多个三元组构建与所述目标领域匹配的知识图谱。
可选地,所述根据所述多个三元组构建与所述目标领域匹配的知识图谱步骤执行之后,还包括:
将所述知识图谱以属性图的形式存储至图数据库,其中所述图数据库配置有调用接口。
可选地,所述根据所述多个三元组构建与所述目标领域匹配的知识图谱步骤执行之后,还包括:
接收用户针对所述目标领域提交的查询信息;
确定所述查询信息对应的查询实体,以及与所述查询实体对应的查询关系;
基于所述查询实体和所述查询关系在所述知识图谱中确定目标实体,并将所述目标作为所述查询信息的反馈发送至所述用户。
根据本申请实施例的第四方面,提供了一种知识图谱构建装置,包括:
获取文本信息模块,被配置为获取与目标领域匹配的文本信息,并对所述文本信息进行结构化处理;
模型处理模块,被配置为将结构化的文本信息输入至满足训练停止条件的目标信息抽取模型进行处理,获得所述文本信息对应的类别标签;
构建图谱模块,被配置为基于所述文本信息对应的类别标签从所述文本信息中提取多个三元组,并根据所述多个三元组构建与所述目标领域匹配的知识图谱。
根据本申请实施例的第五方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器执行所述计算机可执行指令时实现所述方法的步骤。
根据本申请实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述方法的步骤。
本申请提供的信息抽取模型的训练方法,在获取与目标维度匹配的训练文本信息和验证文本信息之后,通过使用训练文本信息及其携带的类别标签训练信息抽取模型,再通过验证文本信息携带的类别标签验证信息抽取模型,从而分析出当前信息抽取模型存在的缺陷,之后针对该缺陷再有针对性的抽取新的文本信息进行模型的再次训练在,直至得到满足使用需求的目标信息抽取模型在进行存储,实现了有针对性的对模型进行训练,不仅可以节省训练模型所使用的成本,而且可以提高模型在各个识别维度的识别精准度,从而满足后续构建知识图谱时可以在消耗较低的情况下完成。
附图说明
图1是本申请一实施例提供的一种信息抽取模型的训练方法的流程图;
图2是本申请一实施例提供的一种信息抽取模型的训练方法的结构示意图;
图3是本申请一实施例提供的一种信息抽取模型的训练装置的结构示意图;
图4是本申请一实施例提供的一种知识图谱构建方法的流程图;
图5是本申请一实施例提供的一种知识图谱构建装置的结构示意图;
图6是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
知识图谱:知识图谱是用于增强其搜索引擎功能的知识库,本质上,知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,通过节点表示实体或概念,边则由属性或关系构成。
图数据库:使用图形结构进行语义查询的数据库,利用节点、边和属性来表示和存储数据。
训练文本信息:是指在训练信息抽取模型时所使用的文本信息;相应的,训练文本信息携带的类别标签具体是指文本信息中各个文字、词所对应的标签。
验证文本信息:是指验证信息抽取模型识别精准度的文本信息,相应的,验证文本信息携带的类别标签具体是指文本信息中各个文字、词所对应的标签。
验证类别标签:是指通过信息抽取模型对验证文本信息中包含的文字和词进行识别后,所识别出的类别标签。
停止训练条件:是指判断信息抽取模型是否达到使用需求的条件;达到则停止训练信息抽取模型用于后续使用即可;未达到则继续训练信息抽取模型在,直至满足使用需求再停止训练。
待调整识别维度:是指信息抽取模型还存在识别不精准的维度。
在本申请中,提供了一种信息抽取模型的训练方法。本申请同时涉及一种信息抽取模型的训练装置、一种知识图谱构建方法、一种知识图谱构建装置、一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本申请一实施例提供的一种信息抽取模型的训练方法的流程图,具体包括以下步骤:
步骤S102:获取与目标维度匹配的训练文本信息和验证文本信息,所述训练文本信息和所述验证文本信息中分别携带有类别标签。
实际应用中,在构建设定领域的知识图谱时,由于不同的领域具有不同的特点,因此需要针对性进行构建,而大部分知识图谱在构建之后,都需要整合所属领域的大量数据才能够实现,而在数据准备阶段如果是指通过人工标注成本将很高,并且时间较长,很大程度上影响图谱构建效率。
本申请提供的信息抽取模型的训练方法,为了提高数据准备阶段的高效性,以及提高构建图谱效率,在获取与目标维度匹配的训练文本信息和验证文本信息之后,通过使用训练文本信息及其携带的类别标签训练信息抽取模型,再通过验证文本信息携带的类别标签验证信息抽取模型,从而分析出当前信息抽取模型存在的缺陷,之后针对该缺陷再有针对性的抽取新的文本信息进行模型的再次训练在,直至得到满足使用需求的目标信息抽取模型在进行存储,实现了有针对性的对模型进行训练,不仅可以节省训练模型所使用的成本,而且可以提高模型在各个识别维度的识别精准度,从而满足后续构建知识图谱时可以在消耗较低的情况下完成。
具体实施时,本申请提供的信息抽取模型训练方法是为了在知识图谱构建之前,能够通过训练完成的信息抽取模型快速的对数据进行标注,从而提高图谱的构建效率,而为了快速的完成对数据的标注,就需要满足标注需求的同时保证标注精准度,即需要训练出满足标注需求的模型也将花费大量的人力物力,因此本申请提供的方法以解决信息抽取模型训练方法为目的,减少信息抽取模型训练成本的同时,保证信息抽取模型的识别精准度,从而更能满足后续使用需求。
进一步的,本申请将以信息抽取模型应用于政务领域为例,对所述信息抽取模型的训练方法进行描述,需要说明的是,其他领域如新闻领域,裁决领域或会议领域均可参见本实施例相应的描述内容,本实施例在此不作赘述。
更进一步的,在所述信息抽取模型的训练方法应用于政务领域的情况下,所述训练文本信息为训练政务文本信息,所述训练政务文本信息包括下述至少一项子信息:主题名称子信息、成本日期子信息、文件摘要子信息、发文机构子信息、发布日期子信息、发文字号子信息、文件原文链接子信息;相应的,所述验证文本子信息为验证政务文本信息,所述验证政务文本信息包括下述至少一项子信息:主题名称子信息、成本日期子信息、文件摘要子信息、发文机构子信息、发布日期子信息、发文字号子信息、文件原文链接子信息;相应的,所述类别标签包括下述至少一项:姓名标签、性别标签、年龄标签、职位标签、会议名称标签。
具体的,在构建政务领域所应用的知识图谱的过程中,由于构建图谱需要通过n个三元组才能够实现,因此需要对政务领域所涉及的大量数据进行实体标注和关系标注才能够完成,而在此之前,对这部分大量数据进行标注需要单独构建信息抽取模型才能够满足标注需求,而模型构建的过程耗时耗力,因此为了能够在较短的时间内得到满足使用需求的信息抽取模型,可以采用主动学习的方式进行训练,即递进式的针对训练的模型存在的缺陷有针对性训练,从而得到满足使用需求的信息抽取模型。
其中,所述训练政务文本信息具体是指在政务领域中训练所述模型所需要使用的文本信息,且该文本信息已经被标注出各个文字和词对应的标签,相应的,所述验证政务文本信息具体是指在政务领域中验证信息抽取模型所需要使用的文本信息,且该文本信息已经被标注出各个文字和词对应的标签;进一步的,主题名称子信息、成本日期子信息、文件摘要子信息、发文机构子信息、发布日期子信息、发文字号子信息和/或文件原文链接子信息是指文本信息所包含的子信息,而姓名标签、性别标签、年龄标签、职位标签和/或会议名称标签是指文本信息中各个文字或词所应该对应的类别标签,此外类别标签还可以包括时间标签,空间标签等等,本实施例在此不作过多限定。
而在信息抽取模型的训练过程中,为了提高模型训练效率,将按照目标维度获取携带有类别标签的训练文本信息和携带有类别标签的验证文本信息,本实施例中,具体实现方式如下所述:
在预设的文本数据库中提取设定数量与所述目标维度匹配的初始文本信息;
基于设定数量的所述初始文本信息,生成设定数量携带有类别标签的初始文本信息;
将设定数量携带有类别标签的初始文本信息划分为携带有类别标签的所述训练文本信息,以及携带有类别标签的验证文本信息。
具体的,所述预设的文本数据库具体是指存储有大量未被标注的文本信息(该文本信息与需要构建的知识图谱所属领域相同),所述目标维度具体是指训练信息抽取模型时所需要训练方向对应的维度,如需要通过信息抽取模型完成对文本信息中的时间进行标注类别标签,则目标维度即为时间维度,再或者需要通过信息抽取模型完成对文本信息中的姓名和性别进行标注类别标签,则目标维度即为姓名维度和性别维度;相应的,所述初始文本信息即为还未被标注的文本信息,且该文本信息是少量(设定数量)的,用于初步训练模型。即每次都针对目标维度选择少量的样本对信息抽取模型进行训练,从而实现降低成本的目的,并且分析当前模型存在的缺陷,之后逐步进行完善,达到训练出满足使用需求的信息抽取模型。
基于此,首先在预设的文本数据中提取设定数量的且与目标维度匹配的初始文本信息,其次对设定数量的初始文本信息进行标注,获得携带有类别标签的初始文本信息;最后将携带有类别标签的初始文本信息划分为两部分,一部分作为训练文本信息,用于训练信息抽取模型,另一部分作为验证文本信息,用于协助分析信息抽取模型存在的缺陷,方便后续针对性抽取新的训练样本继续对模型进行训练。
例如,在政务文本数据库中存在1000万个未标注类别标签的政务文本信息,此时可以在政务文本数据库中抽取5000个政务文本信息进行标注,即标注每个政务文本信息中每个词或文字对应的类别标签,如文本信息是“小明创作了歌曲《春天里》”,首先对该文本信息进行标准化处理,即删除文本信息中的标点符号,得到标准文本信息“小明创作了歌曲春天里”,其次对该标准文本信息进行分词处理,获得多个词单元{小明、创、作、了、歌曲、春天里},最后对各个词单元进行标注,确定“小明”对应的类别标签为“作者”、“春天里”对应的类别标签为“作品”等等,同时,对于无意义的“创”、“作”以及“了”等文字则标注为“0”。
进一步的,当对5000个政务文本信息完成标注之后,将选择4000个携带有类别标签的政务文本信息组成样本文本信息,将剩余的1000个携带有类别标签的政务文本信息组成验证文本信息,用于后续训练应用于政务领域的信息抽取模型,从而能够构建出满足使用需求的政务知识图谱。
需要说明的是,当第一次训练信息抽取模型时,目标维度将包含全部满足使用需求的训练子维度,从而能够使得信息抽取模型学习到需要识别哪些维度的类别标签,后续在对各个训练子维度进行完善;此外,设定数量可以是数据库的占比数量,如数据库中文本信息的百分之一或者百分之二,本实施例在此不作任何限定。
综上,通过选择设定数量且与目标维度匹配的初始文本信息划分出训练文本信息和验证文本信息,实现通过较少的样本对模型进行逐步训练,有效的降低模型训练的消耗成本。
步骤S104,根据所述训练文本信息和所述训练文本信息携带的类别标签训练信息抽取模型,并利用信息抽取模型处理所述验证文本信息,获得验证类别标签。
具体的,在上述获得携带有类别标签的验证文本信息和训练文本信息之后,此时需要对所述信息抽取模型进行训练,而在训练的过程中,由于需要监控当前信息抽取模型的识别精准度,因此可以使用准备好的验证文本信息验证当前信息抽取模型,从而用于后续判断信息抽取模型还存在的缺陷,进而有针对性的选择新的样本数据继续对模型进行训练。
进一步的,由于信息抽取模型在进行类别标签识别前,需要对数据进行预处理才能够作为模型的输入,因此需要对所述训练文本信息进行转换为特征向量,之后再通过模型进行识别,本实施例中,具体实现方式如下所述:
将所述训练文本信息转换为第一特征向量,作为所述信息抽取模型的输入,以及将所述训练文本信息携带的类别标签作为所述信息抽取模型的输出;
基于所述第一特征向量和所述训练文本信息携带的类别标签对所述信息抽取模型进行训练,获得验证信息抽取模型;
将所述验证文本信息转换为第二特征向量,并将所述第二特征向量输入至所述验证信息抽取模型进行处理,获得所述验证文本信息对应的验证类别标签。
具体的,所述第一特征向量具体是指训练文本信息中的各个文本信息转换为特征向量之后组成的,所述第二特征向量具体是指验证文本信息中的各个文本信息转换为特征向量之后组成的,相应的,所述验证信息抽取模型具体是指经过训练文本信息初次训练之后得到的模型,所述验证类别标签具体是指使用验证信息抽取模型对验证文本信息进行标签识别后,得到的与验证文本信息对应的类别标签。
基于此,在获得携带有类别标签的验证文本信息和训练文本信息之后,为了能够满足训练和验证,首先将所述训练文本信息转换为第一特征向量作为所述信息抽取模型的输入,同时也将训练文本信息携带的类别标签作为所述信息抽取模型的输出,其次使用第一特征向量和所述训练文本信息携带的类别标签对所述信息抽取模型进行训练,得到当前阶段初步训练完成的验证信息抽取模型,最后使用验证文本信息转换为第二特征向量作为验证模型识别精准度的文本信息,通过验证信息抽取模型对第二特征向量进行处理,获得所述验证文本信息对应的验证类别标签,用于验证当前阶段的信息抽取模型的精准度,从而方便后续继续进行针对性训练。
沿用上例,确定基于4000个携带有类别标签的政务文本信息组成样本文本信息,以及基于1000个携带有类别标签的政务文本信息组成验证文本信息的基础上,进一步的,此时将4000个政务文本信息(样本文本信息)分别转换为第一子特征向量,作为训练信息抽取模型的输入,同时也将各个第一特征子向量对应的类别标签作为模型的输出,组成4000个样本对对信息抽取模型进行训练,当训练完成后得到验证信息抽取模型;之后将1000个政务文本信息(验证文本信息)转换为第二特征子向量,并分别输入至验证信息抽取模型进行识别,获得每个验证文本信息对应的验证类别标签,用于后续与1000个政务文本信息(验证文本信息)对应的正确类别标签进行比对,从而分析出信息抽取模型还存在的缺陷,用于抽取新的政务文本信息对其进行有效的训练。
综上,通过使用一部分数据进行模型的训练,一部分数据对模型进行验证,从而可以精准的分析出模型还存在的缺陷,方便后续有针对性的抽取新的数据继续对模型进行训练,有效的避免数据浪费的问题,从而节省模型训练的成本。
步骤S106,将所述验证类别标签和所述验证文本信息携带的类别标签进行比对,并根据比对结果判断信息抽取模型是否满足停止训练条件;
若否,则执行步骤S108;若是,则将信息抽取模型确定为目标信息抽取模型,并存储所述目标信息抽取模型。
具体的,在上述使用训练文本信息对信息抽取模型进行训练后,又通过信息抽取模型对验证文本信息进行了类别标签的识别获得了所述验证类别标签,此时可以通过将验证类别标签和验证文本信息携带的类别标签进行比对,从而根据比对结果判断当前的信息抽取模型是否满足停止训练条件,其中,停止训练条件具体是指判断当前阶段的信息抽取模型是否达到了使用需求,即在各个维度的识别精准度是否满足后续构建知识图谱所需要的标准,若否,则说明模型还需要继续进行训练,则执行后续步骤S108即可;若是,则说明模型已经达到了使用需求,则存储信息抽取模型即可。
实际应用中,所述停止训练条件可以根据实际应用场景进行设定,如将停止训练条件设置为判断当前阶段的信息抽取模型的识别精准度是否达到精准度阈值,或者判断当前阶段的信息抽取模型在识别设定数量的验证文本信息后,识别正确的数量是否达到预设数量阈值,具体应用时可以根据实际应用场景进行设定,本实施例在此不作任何限定。
沿用上例,当使用验证信息抽取模型对1000个政务文本信息(验证文本信息)进行识别之后,获得每个政务文本信息分别对应的验证类别标签,此时将每个政务文本信息携带的类别标签与每个识别后的验证文本信息进行比对,确定当前信息抽取模型针对1000个政务文本信息识别后的类别标签正确率为s,若s大于预设正确率阈值p的情况下,说明当前信息抽取模型的识别精准度已经满足后续协助构建知识图谱的使用,则可以将其存储,用于对构建知识图谱的数据进行类别标签的标注;若s小于等于预设正确率阈值p的情况下,说明当前信息抽取模型的识别精准度并不满足后续协助构建知识图谱的使用,则需要对其继续进行训练,以尽快训练出满足使用需求的模型,而再次训练信息抽取模型时,需要有针对性进行训练,从而提高模型的识别丰富度。
或者,确定当前信息抽取模型针对1000个政务文本信息识别后的类别标签识别正确数量是n个,若n大于预设数量阈值m,说明当前信息抽取模型的识别精准度已经满足后续协助构建知识图谱的使用,则可以将其存储,用于对构建知识图谱的数据进行类别标签的标注;若n小于等于预设数量阈值m,说明当前信息抽取模型的识别精准度并不满足后续协助构建知识图谱的使用,则需要对其继续进行训练,以尽快训练出满足使用需求的模型。
步骤S108,根据所述比对结果确定待调整识别维度,并将所述待调整识别维度作为所述目标维度,继续训练信息抽取模型。
具体的,在上述根据比对结果判断训练后的信息抽取模型是否满足停止训练条件的基础上,进一步的,此时根据比对结果分析出训练后的信息抽取模型并未满足停止训练条件,说明还需要进一步对模型进行训练,而为了节省训练成本的同时,提高模型的识别精准度,可以根据验证类别标签和所述验证文本信息携带的类别标签的比对结果确定待调整识别维度,所述待调整识别维度具体是指当前阶段的信息抽取模型所存在的识别缺陷,如对时间类别标签的识别精准度不高,则确定待调整识别维度为时间维度;最后将待调整识别维度作为目标维度,并继续训练信息抽取模型,即返回执行步骤S102,从而可以实现在样本中有针对性的选择新的样本对信息抽取模型继续进行训练,即确定信息抽取模型的缺陷后,从样本中选择缺陷所对应的样本文本信息和验证文本信息再对模型继续进行训练和验证,直至得到满足需求的模型后,将其进行存储即可。
实际应用中,在继续训练信息抽取模型的过程中,由于新一轮的模型训练过程需要根据所述待识别维度选择新的训练文本数据和新的验证文本信息实现,因此为了能够提高模型训练效率,可以按照预设的训练策略完成信息抽取模型的迭代训练过程,即:将所述待调整识别维度作为所述目标维度后,需要按照所述目标维度匹配新的训练文本信息和验证文本信息,此时可以减少新的训练文本信息和新的验证文本信息的获取数量(由于在上一轮训练的过程中已经对该模型在目标维度的识别能力进行了训练,使其具有了一定的预测能力,因此在新一轮的训练过程中,可以选择减少目标维度的样本数量,从而减少成本消耗),再次对信息抽取模型进行训练。
进一步的,在所述目标维度包含多个目标子维度的情况下,说明信息抽取模型在新一轮的训练过程中,还需要针对多个维度的预测能力进行强化,而信息抽取模型可能在不同的目标子维度的预测精准度不同,因此在新一轮的训练过程中,可以按照信息抽取模型在目标子维度的预测精准度的优先级进行样本数据(训练文本信息和验证文本信息)的获取,即:针对预测精准度较低的目标子维度选择较多的样本数据,针对预测精准度较高的目标子维度选择较少的样本数据,从而实现动态调整获取样本数据的数量,节省资源消耗的同时提高模型的训练效率。
例如,根据比对结果确定当前阶段的信息抽取模型在时间维度的识别精准度为75%,在姓名维度的识别精准度为60%,确定当前阶段的信息抽取模型识别时间和姓名精准度均不高,并且在姓名维度的识别精准度较差,因此在新一轮的训练过程中,可以选择与时间维度匹配的3000个训练文本信息和500个验证文本信息,以及选择与姓名维度匹配的4500个训练文本信息和800个验证文本信息,继续对信息抽取模型进行训练。
此外,在新一轮的训练过程中,还可能存在目标子维度交叉的情况,即获取与各个目标子维度匹配的训练文本信息和验证文本信息时,可能选择了重复的训练文本信息和验证文本信息,如训练文本信息U不仅可以用于时间维度的训练,还可以用于姓名维度的训练;此时为了能够减少资源的消耗,可以在获取与目标子维度匹配的训练文本信息和验证文本信息之后,对训练文本信息和验证文本信息进行去重,得到不重复的训练文本信息和验证文本信息再对所述信息抽取模型进行训练,从而减少训练信息抽取模型消耗时间的同时,提高模型训练效率。
进一步的,在根据比对结果确定所述待调整识别维度的过程中,为了能够可以针对性的选择缺陷较大的维度,可以根据归类结果选择存在识别精准度最低的标签确定目标维度,本实施例中,具体实现方式如下所述:
根据比较结果确定所述验证类别标签和所述验证文本信息携带的类别标签二者之间的区别类别标签;
对所述区别类别标签进行归类处理,获得多个类别标签集合;
确定各个类别标签集合中包含的类别标签的标签数量,并选择标签数量大于预设数量阈值的类别标签集合确定所述目标类别标签;
将所述目标类别标签所属的识别维度确定为所述待调整识别维度。
具体的,所述区别类别标签具体是指信息抽取模型对验证文本信息进行识别后,识别不准确的类别标签;所述目标类别标签具体是指所述区别类别标签中数量较多的类型标签;基于此,根据比对结果确定区别类别标签之后,此时将对所述区别类别标签进行归类处理,获得属于同一种类的多个类别标签集合,之后确定各个类别标签集合中包含的类别标签数量,最后选择标签数量大于预设阈值的类别标签确定所述目标类别标签所属的维度确定为所述待调整识别维度,用于后续进行新的样本抽取和训练信息抽取模型。
沿用上例,通过验证信息抽取模型对1000个政务文本信息(验证文本信息)进行识别后,获得验证类别标签,并将验证类别标签与政务文本信息携带的类别标签进行比对,确定识别的标签中职位标签、会议名称标签和姓名标签共有200个,而识别正确的数量只有50个,正确率较低,说明信息抽取模型在识别文本信息中姓名词汇、名称词汇和职位词汇的识别精准度不高,而识别性别标签和日期标签等识别精准度已经满足识别需求,则还需要提高模型识别职位标签、会议名称标签和姓名标签的精准度,则确定职位标签、会议名称标签和姓名标签为目标类别标签,并且确定各个标签所属的维度为目标维度,用于在数据库中下次提取设定数量的政务文本信息时,选择在这三个维度占比较多的政务文本信息进行模型的再次训练。
综上,在确定所述待调整识别维度的过程中,为了能够有针对性且对信息抽取模型失误较大的维度进行训练,可以按照识别错误的类别标签数量确定需要提高识别精准度的类别标签,之后确定该标签所属的维度作为待调整识别维度,用于满足抽取新的样本的需求。
当根据比对结果确定信息抽取模型满足停止训练条件的情况下,可以将信息抽取模型确定为目标信息抽取模型,并存储所述目标信息抽取模型。
具体的,在上述根据比对结果判断训练后的信息抽取模型是否满足停止训练条件的基础上,进一步的,此时确定根据比对结果分析出训练后的信息抽取模型满足停止训练条件,说明当前的信息抽取模型已经可以应用于构建知识图谱的过程,则将该模型作为目标信息抽取模型进行存储即可,需要说明的是,由于该目标信息抽取模型进行训练时,是针对知识图谱构建的领域进行训练的,因此只能够应用于相同或相近的知识图谱领域使用,从而可以有效提高模型的识别精准度,减少其他因素对模型产生影响。
基于此,参见图2所示,当从样本集合中选择出设定数量的文本信息之后,此时将对设定数量的文本信息进行标注(为文本信息中的分词结果添加类别标签),之后将标注后的文本信息划分为训练集合和验证集合,其中训练集合中的文本信息为携带有类别标签的训练文本信息,验证集合中的文本信息为携带有类别标签的验证文本信息,之后使用训练集合对信息抽取模型(信息抽取模型)进行训练,在初步训练完成之后,使用验证集合中的文本信息对其进行验证,即使用初步训练完成的文本信息对验证集合中的文本信息进行标签识别。
进一步的,将验证集合中标注的类别标签与信息抽取模型识别出的标签进行比对,根据比对结果判断该模型是否满足停止训练条件,若是,说明训练后的信息抽取模型满足下游业务使用,则将其应用于下游业务处理即可;若否,训练后的信息抽取模型无法满足下游业务使用,则可以根据比对结果确定模型主要存在的缺陷(即确定待调整识别维度),之后通过分析出的缺陷重新在样本集合中筛选出新的样本继续对模型进行训练。直至得到满足使用需求的模型应用于后续处理即可。
进一步的,在完成模型训练之后,即可应用于知识图谱的构建,而在构建所述知识图谱的过程中,需要对涉及的文本信息都经过信息抽取模型进行标注后,才能够应用,本实施例中,具体实现方式如下所述:
获取与目标领域匹配的文本信息,并对所述文本信息进行结构化处理;
将结构化的文本信息输入至所述目标信息抽取模型进行处理,获得所述文本信息对应的类别标签;
基于所述文本信息对应的类别标签从所述文本信息中提取多个三元组,并根据所述多个三元组构建与所述目标领域匹配的知识图谱。
具体的,所述目标领域具体是指所述知识图谱所需要应用的领域,所述与目标领域匹配的文本信息具体是指所述目标领域涉及的全部文本信息,用于构建所述知识图谱,相应的,所述三元组是指构建知识图谱的基本单位,每个三元组由实体和属性构建,如(小明-年龄-56岁)、(小雅-性别-女)、(小明-职位-xxx委员)以及(XXX代表大会-会议名称-第一次全体会议)等。需要说明的是,对所述文本信息进行结构化处理具体是指对其进行预处理,从而得到满足使用需求的数据,方便后续进行知识图谱的构建。
沿用上例,当通过上述方式获得满足使用政务领域使用需求的目标信息抽取模型之后,此时选择政务领域涉及的大量文本信息,并对文本信息进行结构化处理,之后再通过目标信息抽取模型对大量的经过结构化处理的文本信息进行标签的识别,从而得到每个文本信息中文字或词对应的类别标签,根据这些标签从各个文本信息中抽取出三元组,从而得到大量的三元组,之后基于大量的三元组构成与政务领域匹配的政务知识图谱;通过该政务知识图谱即可实现查询相关政务信息的需要。
进一步的,在完成知识图谱构建之后,为了方便后续使用,可以将所述知识图谱以属性图的形式存储至图数据库,其中所述图数据库配置有调用接口;即将知识图谱进行存储后,可以在后续应用时通过调用接口调用使用,从而满足不同的场景使用需求;并且,在以属性图的形式存储至图数据库的过程中,可以基于资源描述框架(RDF)的存储,也可以基于图数据库的存储,其中,图数据库把重点放在了高效的图查询和搜索上,图数据库一般以属性图为基本的表示形式,实体和关系可以包含属性,这就意味着更容易表达现实的真实场景。具体实施时,所述图数据库可以是Neo4j(一个高性能的NOSQL图形数据库)图形数据库。
综上,利用基于主动学习得到的信息抽取模型对政务数据进行标记并提取出三元组,并通过三元组构建出关于政务数据的知识图谱,实现了利用较少数据量来标注政务数据并构建知识图谱,减少了时间成本和资金成本。
此外,在完成所述知识图谱的构建之后,即可应用于目标领域的查询,当获得用户的查询需求后,即可快速的查询出满足需求的答案,本实施例中,具体实现方式如下所述:
接收用户针对所述目标领域提交的查询信息;
确定所述查询信息对应的查询实体,以及与所述查询实体对应的查询关系;
基于所述查询实体和所述查询关系在所述知识图谱中确定目标实体,并将所述目标作为所述查询信息的反馈发送至所述用户。
具体的,所述用户具体是指存在查询需求的用户,所述查询信息具体是指用户提交的问题,所述查询实体具体是指所述查询信息中的实体,所述查询关系具体是指与查询实体对应的关系,所述目标实体具体是指所述查询信息对应的答案。
基于此,在接收到所述用户针对目标领域提交的查询信息的情况下,说明用户需要查询相关的信息,则此时抽取查询信息中的查询实体,并确定与所述查询实体对应的查询关系,之后基于查询实体和查询关系组成查询语句在所述知识图谱中确定目标实体,最后将目标实体作为查询信息的反馈发送至所述用户即可。
例如,构建出的知识图谱是政务知识图谱,此时接收到用户提交的查询信息是“A地治理环境的负责人是谁?”此时确定查询实体是“A地”,查询关系是“环境负责人”;之后基于查询实体“A地”和查询关系“环境负责人”在政务知识图谱中确定目标实体为“负责人乙”,则确定该问题的答案是“负责人乙”,此时将“负责人乙”反馈给用户即可,使得用户了解该问题的答案。
综上,通过使用较少的数据训练出满足使用需求的信息抽取模型,之后使用该模型进行知识图谱的构建,最后将图谱提供给用户使用,不仅可以减少构建知识图谱的时间,并且可以在有图谱构建需求时,能够在较短的时间内提供满足使用需求的知识图谱,进一步提高用户的体验。
本申请提供的信息抽取模型的训练方法,在获取与目标维度匹配的训练文本信息和验证文本信息之后,通过使用训练文本信息及其携带的类别标签训练信息抽取模型,再通过验证文本信息携带的类别标签验证信息抽取模型,从而分析出当前信息抽取模型存在的缺陷,之后针对该缺陷再有针对性的抽取新的文本信息进行模型的再次训练,直至得到满足使用需求的目标信息抽取模型并进行存储,实现了有针对性的对模型进行训练,不仅可以节省训练模型所使用的成本,而且可以提高模型在各个识别维度的识别精准度,从而满足后续构建知识图谱时可以在消耗较低的情况下完成。
与上述方法实施例相对应,本申请还提供了信息抽取模型的训练装置实施例,图3示出了本申请一实施例提供的一种信息抽取模型的训练装置的结构示意图。如图3所示,该装置包括:
获取模块302,被配置为获取与目标维度匹配的训练文本信息和验证文本信息,所述训练文本信息和所述验证文本信息中分别携带有类别标签;
训练模块304,被配置为根据所述训练文本信息和所述训练文本信息携带的类别标签训练信息抽取模型,并利用信息抽取模型处理所述验证文本信息,获得验证类别标签;
比对模块306,被配置为将所述验证类别标签和所述验证文本信息携带的类别标签进行比对,并根据比对结果判断信息抽取模型是否满足停止训练条件;
若否,运行确定模块308,所述确定模块308,被配置为根据所述比对结果确定待调整识别维度,并将所述待调整识别维度作为所述目标维度,继续训练信息抽取模型。
一个可选的实施例中,所述获取模块302进一步被配置为:
在预设的文本数据库中提取设定数量与所述目标维度匹配的初始文本信息;基于设定数量的所述初始文本信息,生成设定数量携带有类别标签的初始文本信息;将设定数量携带有类别标签的初始文本信息划分为携带有类别标签的所述训练文本信息,以及携带有类别标签的验证文本信息。
一个可选的实施例中,所述确定模块308进一步被配置为:
根据比较结果确定所述验证类别标签和所述验证文本信息携带的类别标签二者之间的区别类别标签;对所述区别类别标签进行归类处理,根据归类处理结果选择目标类别标签;将所述目标类别标签所属的识别维度确定为所述待调整识别维度。
一个可选的实施例中,所述确定模块308进一步被配置为:
对所述区别类别标签进行归类处理,获得多个类别标签集合;确定各个类别标签集合中包含的类别标签的标签数量,并选择标签数量大于预设数量阈值的类别标签集合确定所述目标类别标签。
一个可选的实施例中,所述训练文本信息为训练政务文本信息,所述训练政务文本信息包括下述至少一项子信息:
主题名称子信息、成本日期子信息、文件摘要子信息、发文机构子信息、发布日期子信息、发文字号子信息、文件原文链接子信息;
相应的,所述验证文本子信息为验证政务文本信息,所述验证政务文本信息包括下述至少一项子信息:
主题名称子信息、成本日期子信息、文件摘要子信息、发文机构子信息、发布日期子信息、发文字号子信息、文件原文链接子信息;
相应的,所述类别标签包括下述至少一项:姓名标签、性别标签、年龄标签、职位标签、会议名称标签。
一个可选的实施例中,所述训练模块304进一步被配置为:
将所述训练文本信息转换为第一特征向量,作为所述信息抽取模型的输入,以及将所述训练文本信息携带的类别标签作为所述信息抽取模型的输出;基于所述第一特征向量和所述训练文本信息携带的类别标签对所述信息抽取模型进行训练,获得验证信息抽取模型。
一个可选的实施例中,所述训练模块304进一步被配置为:
将所述验证文本信息转换为第二特征向量,并将所述第二特征向量输入至所述验证信息抽取模型进行处理,获得所述验证文本信息对应的验证类别标签。
一个可选的实施例中,所述信息抽取模型的训练装置,还包括:
存储模块,被配置为将信息抽取模型确定为目标信息抽取模型,并存储所述目标信息抽取模型。
一个可选的实施例中,所述信息抽取模型的训练装置,还包括:
获取文本信息模块,被配置为获取与目标领域匹配的文本信息,并对所述文本信息进行结构化处理;
模型处理模块,被配置为将结构化的文本信息输入至所述目标信息抽取模型进行处理,获得所述文本信息对应的类别标签;
构建图谱模块,被配置为基于所述文本信息对应的类别标签从所述文本信息中提取多个三元组,并根据所述多个三元组构建与所述目标领域匹配的知识图谱。
一个可选的实施例中,所述信息抽取模型的训练装置,还包括:
存储图谱模块,被配置将所述知识图谱以属性图的形式存储至图数据库,其中所述图数据库配置有调用接口。
一个可选的实施例中,所述信息抽取模型的训练装置,还包括:
接收信息模块,被配置为接收用户针对所述目标领域提交的查询信息;
确定识别模块,被配置为确定所述查询信息对应的查询实体,以及与所述查询实体对应的查询关系;
反馈模块,被配置为基于所述查询实体和所述查询关系在所述知识图谱中确定目标实体,并将所述目标作为所述查询信息的反馈发送至所述用户。
本实施例提供的信息抽取模型的训练装置,在获取与目标维度匹配的训练文本信息和验证文本信息之后,通过使用训练文本信息及其携带的类别标签训练信息抽取模型,再通过验证文本信息携带的类别标签验证信息抽取模型,从而分析出当前信息抽取模型存在的缺陷,之后针对该缺陷再有针对性的抽取新的文本信息进行模型的再次训练在,直至得到满足使用需求的目标信息抽取模型在进行存储,实现了有针对性的对模型进行训练,不仅可以节省训练模型所使用的成本,而且可以提高模型在各个识别维度的识别精准度,从而满足后续构建知识图谱时可以在消耗较低的情况下完成。
上述为本实施例的一种信息抽取模型的训练装置的示意性方案。需要说明的是,该信息抽取模型的训练装置的技术方案与上述的信息抽取模型的训练方法的技术方案属于同一构思,信息抽取模型的训练装置的技术方案未详细描述的细节内容,均可以参见上述信息抽取模型的训练方法的技术方案的描述。此外,装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
图4示出了根据本申请一实施例提供的一种知识图谱构建方法的流程图,具体包括以下步骤:
步骤S402,获取与目标领域匹配的文本信息,并对所述文本信息进行结构化处理。
步骤S404,将结构化的文本信息输入至满足训练停止条件的目标信息抽取模型进行处理,获得所述文本信息对应的类别标签。
步骤S406,基于所述文本信息对应的类别标签从所述文本信息中提取多个三元组,并根据所述多个三元组构建与所述目标领域匹配的知识图谱。
本实施例的一个或多个实施方式中,还包括:
将所述知识图谱以属性图的形式存储至图数据库,其中所述图数据库配置有调用接口。
本实施例的一个或多个实施方式中,还包括:
接收用户针对所述目标领域提交的查询信息;
确定所述查询信息对应的查询实体,以及与所述查询实体对应的查询关系;
基于所述查询实体和所述查询关系在所述知识图谱中确定目标实体,并将所述目标作为所述查询信息的反馈发送至所述用户。
综上所述,通过使用较少的数据训练出满足使用需求的信息抽取模型,之后使用该模型进行知识图谱的构建,最后将图谱提供给用户使用,不仅可以减少构建知识图谱的时间,并且可以在有图谱构建需求时,能够在较短的时间内提供满足使用需求的知识图谱,进一步提高用户的体验。
与上述方法实施例相对应,本申请还提供了知识图谱构建装置实施例,图5示出了本申请一实施例提供的一种知识图谱构建装置的结构示意图。如图5所示,该装置包括:
获取文本信息模块502,被配置为获取与目标领域匹配的文本信息,并对所述文本信息进行结构化处理;
模型处理模块504,被配置为将结构化的文本信息输入至满足训练停止条件的目标信息抽取模型进行处理,获得所述文本信息对应的类别标签;
构建图谱模块506,被配置为基于所述文本信息对应的类别标签从所述文本信息中提取多个三元组,并根据所述多个三元组构建与所述目标领域匹配的知识图谱。
一个可选的实施例中,所述知识图谱构建装置,还包括:
存储图谱模块,被配置为将所述知识图谱以属性图的形式存储至图数据库,其中所述图数据库配置有调用接口。
一个可选的实施例中,所述知识图谱构建装置,还包括:
接收信息模块,被配置为接收用户针对所述目标领域提交的查询信息;
确定实体模块,被配置为确定所述查询信息对应的查询实体,以及与所述查询实体对应的查询关系;
反馈实体模块,被配置为基于所述查询实体和所述查询关系在所述知识图谱中确定目标实体,并将所述目标作为所述查询信息的反馈发送至所述用户。
综上所述,通过使用较少的数据训练出满足使用需求的信息抽取模型,之后使用该模型进行知识图谱的构建,最后将图谱提供给用户使用,不仅可以减少构建知识图谱的时间,并且可以在有图谱构建需求时,能够在较短的时间内提供满足使用需求的知识图谱,进一步提高用户的体验。
上述为本实施例的一种知识图谱构建装置的示意性方案。需要说明的是,该知识图谱构建装置的技术方案与上述的知识图谱构建方法的技术方案属于同一构思,知识图谱构建装置的技术方案未详细描述的细节内容,均可以参见上述知识图谱构建方法的技术方案的描述。此外,装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
此外,上述知识图谱构建方法和知识图谱构建装置均可参见上述信息抽取模型的训练方法相应的描述内容,本实施例在此不作过多赘述。
图6示出了根据本申请一实施例提供的一种计算设备600的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接,数据库650用于保存数据。
计算设备600还包括接入设备640,接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本申请的一个实施例中,计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图6所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备600可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备600还可以是移动式或静止式的服务器。
其中,处理器620用于执行如下计算机可执行指令:
获取与目标维度匹配的训练文本信息和验证文本信息,所述训练文本信息和所述验证文本信息中分别携带有类别标签;
根据所述训练文本信息和所述训练文本信息携带的类别标签训练信息抽取模型,并利用信息抽取模型处理所述验证文本信息,获得验证类别标签;
将所述验证类别标签和所述验证文本信息携带的类别标签进行比对,并根据比对结果判断信息抽取模型是否满足停止训练条件;
若否,根据所述比对结果确定待调整识别维度,并将所述待调整识别维度作为所述目标维度,继续训练信息抽取模型。
其中,处理器620还用于执行如下计算机可执行指令:
获取与目标领域匹配的文本信息,并对所述文本信息进行结构化处理;
将结构化的文本信息输入至满足训练停止条件的目标信息抽取模型进行处理,获得所述文本信息对应的类别标签;
基于所述文本信息对应的类别标签从所述文本信息中提取多个三元组,并根据所述多个三元组构建与所述目标领域匹配的知识图谱。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述两种方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述两种方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于:
获取与目标维度匹配的训练文本信息和验证文本信息,所述训练文本信息和所述验证文本信息中分别携带有类别标签;
根据所述训练文本信息和所述训练文本信息携带的类别标签训练信息抽取模型,并利用信息抽取模型处理所述验证文本信息,获得验证类别标签;
将所述验证类别标签和所述验证文本信息携带的类别标签进行比对,并根据比对结果判断信息抽取模型是否满足停止训练条件;
若否,根据所述比对结果确定待调整识别维度,并将所述待调整识别维度作为所述目标维度,继续训练信息抽取模型。
该指令被处理器执行时还可以用于:
获取与目标领域匹配的文本信息,并对所述文本信息进行结构化处理;
将结构化的文本信息输入至满足训练停止条件的目标信息抽取模型进行处理,获得所述文本信息对应的类别标签;
基于所述文本信息对应的类别标签从所述文本信息中提取多个三元组,并根据所述多个三元组构建与所述目标领域匹配的知识图谱。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述两种方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述两种方法的技术方案的描述。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (18)

1.一种信息抽取模型的训练方法,其特征在于,包括:
获取与目标维度匹配的训练文本信息和验证文本信息,所述训练文本信息和所述验证文本信息中分别携带有类别标签;
根据所述训练文本信息和所述训练文本信息携带的类别标签训练信息抽取模型,并利用信息抽取模型处理所述验证文本信息,获得验证类别标签;
将所述验证类别标签和所述验证文本信息携带的类别标签进行比对,并根据比对结果判断信息抽取模型是否满足停止训练条件;
若否,根据所述比对结果确定待调整识别维度,并将所述待调整识别维度作为所述目标维度,继续训练信息抽取模型。
2.根据权利要求1所述的信息抽取模型的训练方法,其特征在于,所述获取与目标维度匹配的训练文本信息和验证文本信息,包括:
在预设的文本数据库中提取设定数量与所述目标维度匹配的初始文本信息;
基于设定数量的所述初始文本信息,生成设定数量携带有类别标签的初始文本信息;
将设定数量携带有类别标签的初始文本信息划分为携带有类别标签的所述训练文本信息,以及携带有类别标签的验证文本信息。
3.根据权利要求1所述的信息抽取模型的训练方法,其特征在于,所述根据所述比对结果确定待调整识别维度,并将所述待调整识别维度作为所述目标维度,包括:
根据比较结果确定所述验证类别标签和所述验证文本信息携带的类别标签二者之间的区别类别标签;
对所述区别类别标签进行归类处理,根据归类处理结果选择目标类别标签;
将所述目标类别标签所属的识别维度确定为所述待调整识别维度。
4.根据权利要求3所述的信息抽取模型的训练方法,其特征在于,所述对所述区别类别标签进行归类处理,根据归类处理结果选择目标类别标签,包括:
对所述区别类别标签进行归类处理,获得多个类别标签集合;
确定各个类别标签集合中包含的类别标签的标签数量,并选择标签数量大于预设数量阈值的类别标签集合确定所述目标类别标签。
5.根据权利要求1所述的信息抽取模型的训练方法,其特征在于,所述训练文本信息为训练政务文本信息,所述训练政务文本信息包括下述至少一项子信息:
主题名称子信息、成本日期子信息、文件摘要子信息、发文机构子信息、发布日期子信息、发文字号子信息、文件原文链接子信息;
相应的,所述验证文本子信息为验证政务文本信息,所述验证政务文本信息包括下述至少一项子信息:
主题名称子信息、成本日期子信息、文件摘要子信息、发文机构子信息、发布日期子信息、发文字号子信息、文件原文链接子信息;
相应的,所述类别标签包括下述至少一项:姓名标签、性别标签、年龄标签、职位标签、会议名称标签。
6.根据权利要求1所述的信息抽取模型的训练方法,其特征在于,所述根据所述训练文本信息和所述训练文本信息携带的类别标签训练信息抽取模型,包括:
将所述训练文本信息转换为第一特征向量,作为所述信息抽取模型的输入,以及将所述训练文本信息携带的类别标签作为所述信息抽取模型的输出;
基于所述第一特征向量和所述训练文本信息携带的类别标签对所述信息抽取模型进行训练,获得验证信息抽取模型。
7.根据权利要求6所述的信息抽取模型的训练方法,其特征在于,所述利用信息抽取模型处理所述验证文本信息,获得验证类别标签,包括:
将所述验证文本信息转换为第二特征向量,并将所述第二特征向量输入至所述验证信息抽取模型进行处理,获得所述验证文本信息对应的验证类别标签。
8.根据权利要求1所述的信息抽取模型的训练方法,其特征在于,若所述根据比对结果判断信息抽取模型是否满足停止训练条件的判断结果为是,则执行如下步骤:
将信息抽取模型确定为目标信息抽取模型,并存储所述目标信息抽取模型。
9.根据权利要求8所述的信息抽取模型的训练方法,其特征在于,所述将信息抽取模型确定为目标信息抽取模型,并存储所述目标信息抽取模型步骤执行之后,还包括:
获取与目标领域匹配的文本信息,并对所述文本信息进行结构化处理;
将结构化的文本信息输入至所述目标信息抽取模型进行处理,获得所述文本信息对应的类别标签;
基于所述文本信息对应的类别标签从所述文本信息中提取多个三元组,并根据所述多个三元组构建与所述目标领域匹配的知识图谱。
10.根据权利要求9所述的信息抽取模型的训练方法,其特征在于,还包括:
将所述知识图谱以属性图的形式存储至图数据库,其中所述图数据库配置有调用接口。
11.根据权利要求10所述的信息抽取模型的训练方法,其特征在于,还包括:
接收用户针对所述目标领域提交的查询信息;
确定所述查询信息对应的查询实体,以及与所述查询实体对应的查询关系;
基于所述查询实体和所述查询关系在所述知识图谱中确定目标实体,并将所述目标作为所述查询信息的反馈发送至所述用户。
12.一种信息抽取模型的训练装置,其特征在于,包括:
获取模块,被配置为获取与目标维度匹配的训练文本信息和验证文本信息,所述训练文本信息和所述验证文本信息中分别携带有类别标签;
训练模块,被配置为根据所述训练文本信息和所述训练文本信息携带的类别标签训练信息抽取模型,并利用信息抽取模型处理所述验证文本信息,获得验证类别标签;
比对模块,被配置为将所述验证类别标签和所述验证文本信息携带的类别标签进行比对,并根据比对结果判断信息抽取模型是否满足停止训练条件;
若否,运行确定模块,所述确定模块,被配置为根据所述比对结果确定待调整识别维度,并将所述待调整识别维度作为所述目标维度,继续训练信息抽取模型。
13.一种知识图谱构建方法,其特征在于,包括:
获取与目标领域匹配的文本信息,并对所述文本信息进行结构化处理;
将结构化的文本信息输入至如权利要求1至11任意一项所述的满足训练停止条件的目标信息抽取模型进行处理,获得所述文本信息对应的类别标签;
基于所述文本信息对应的类别标签从所述文本信息中提取多个三元组,并根据所述多个三元组构建与所述目标领域匹配的知识图谱。
14.根据权利要求13所述的知识图谱构建方法,其特征在于,所述根据所述多个三元组构建与所述目标领域匹配的知识图谱步骤执行之后,还包括:
将所述知识图谱以属性图的形式存储至图数据库,其中所述图数据库配置有调用接口。
15.根据权利要求13所述的知识图谱构建方法,其特征在于,所述根据所述多个三元组构建与所述目标领域匹配的知识图谱步骤执行之后,还包括:
接收用户针对所述目标领域提交的查询信息;
确定所述查询信息对应的查询实体,以及与所述查询实体对应的查询关系;
基于所述查询实体和所述查询关系在所述知识图谱中确定目标实体,并将所述目标作为所述查询信息的反馈发送至所述用户。
16.一种知识图谱构建装置,其特征在于,包括:
获取文本信息模块,被配置为获取与目标领域匹配的文本信息,并对所述文本信息进行结构化处理;
模型处理模块,被配置为将结构化的文本信息输入至如权利要求1至11任意一项所述的满足训练停止条件的目标信息抽取模型进行处理,获得所述文本信息对应的类别标签;
构建图谱模块,被配置为基于所述文本信息对应的类别标签从所述文本信息中提取多个三元组,并根据所述多个三元组构建与所述目标领域匹配的知识图谱。
17.一种计算设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令实现权利要求1至11或13至15任意一项所述方法的步骤。
18.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1至11或13至15任意一项所述方法的步骤。
CN202011263099.6A 2020-11-12 2020-11-12 信息抽取模型的训练方法及装置 Pending CN114491010A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011263099.6A CN114491010A (zh) 2020-11-12 2020-11-12 信息抽取模型的训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011263099.6A CN114491010A (zh) 2020-11-12 2020-11-12 信息抽取模型的训练方法及装置

Publications (1)

Publication Number Publication Date
CN114491010A true CN114491010A (zh) 2022-05-13

Family

ID=81490879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011263099.6A Pending CN114491010A (zh) 2020-11-12 2020-11-12 信息抽取模型的训练方法及装置

Country Status (1)

Country Link
CN (1) CN114491010A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11823478B2 (en) 2022-04-06 2023-11-21 Oracle International Corporation Pseudo labelling for key-value extraction from documents
US11989964B2 (en) 2021-11-11 2024-05-21 Oracle International Corporation Techniques for graph data structure augmentation

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11989964B2 (en) 2021-11-11 2024-05-21 Oracle International Corporation Techniques for graph data structure augmentation
US11823478B2 (en) 2022-04-06 2023-11-21 Oracle International Corporation Pseudo labelling for key-value extraction from documents

Similar Documents

Publication Publication Date Title
CN110168535B (zh) 一种信息处理方法及终端、计算机存储介质
CN109284399B (zh) 相似度预测模型训练方法、设备及计算机可读存储介质
CN107153965A (zh) 一种多终端的智能客服解决方法
CN111930940A (zh) 一种文本情感分类方法、装置、电子设备及存储介质
CN104462600A (zh) 实现来电原因自动分类的方法及装置
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN108682421B (zh) 一种语音识别方法、终端设备及计算机可读存储介质
CN111339277A (zh) 基于机器学习的问答交互方法及装置
CN110633475A (zh) 基于计算机场景的自然语言理解方法、装置、系统和存储介质
CN114090776A (zh) 文档解析方法、系统及装置
CN111159334A (zh) 用于房源跟进信息处理的方法及系统
CN114491010A (zh) 信息抽取模型的训练方法及装置
CN112364622A (zh) 对话文本分析方法、装置、电子装置及存储介质
CN112632248A (zh) 问答方法、装置、计算机设备和存储介质
CN113051384B (zh) 基于对话的用户画像抽取方法及相关装置
CN110750626B (zh) 一种基于场景的任务驱动的多轮对话方法及系统
CN114281984A (zh) 一种风险检测方法、装置、设备及计算机可读存储介质
CN114647719A (zh) 一种基于知识图谱的问答方法及装置
CN115934904A (zh) 文本处理方法以及装置
CN116010545A (zh) 一种数据处理方法、装置及设备
CN115599953A (zh) 视频文本检索模型的训练方法、检索方法及相关设备
CN114492410A (zh) 合约信息提取方法及装置
CN114077831A (zh) 一种问题文本分析模型的训练方法及装置
CN112149389A (zh) 简历信息结构化处理方法、装置、计算机设备和存储介质
CN111159360A (zh) 获得讯询问话题分类模型、讯询问话题分类的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination