CN112069319B - 文本抽取方法、装置、计算机设备和可读存储介质 - Google Patents
文本抽取方法、装置、计算机设备和可读存储介质 Download PDFInfo
- Publication number
- CN112069319B CN112069319B CN202010944955.8A CN202010944955A CN112069319B CN 112069319 B CN112069319 B CN 112069319B CN 202010944955 A CN202010944955 A CN 202010944955A CN 112069319 B CN112069319 B CN 112069319B
- Authority
- CN
- China
- Prior art keywords
- text
- target
- annotation
- training
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 45
- 238000013145 classification model Methods 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 21
- 239000013598 vector Substances 0.000 claims description 190
- 238000012549 training Methods 0.000 claims description 129
- 238000002372 labelling Methods 0.000 claims description 75
- 238000013507 mapping Methods 0.000 claims description 40
- 230000006870 function Effects 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 18
- 230000011218 segmentation Effects 0.000 claims description 18
- 230000004913 activation Effects 0.000 claims description 11
- 239000013604 expression vector Substances 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种文本抽取方法、装置、计算机设备和可读存储介质,涉及大数据处理技术领域,应用于计算机设备,计算机设备存储有多个关系种类和多个标注类别;文本抽取方法包括:获取待抽取文本;将待抽取文本输入预先训练的关系分类模型得到目标关系文本,目标关系文本包括从多个关系种类中确定的目标关系种类;将目标关系文本输入预先训练的序列标注模型得到目标标注文本,目标标注文本包括从多个标注类别中确定的目标标注类别;基于目标关系种类和目标标注类别,从目标标注文本中抽取得到目标文本,通过上述步骤,能够便捷地获取目标文本。
Description
技术领域
本发明涉及大数据处理技术领域,具体而言,涉及一种文本抽取方法、装置、计算机设备和可读存储介质。
背景技术
随着大数据的发展与应用,大型知识图谱也随着出现,现有的大型知识图谱虽然具备丰富的语义知识,并以结构化的形式存储。但与现实世界数据增长的势头相比,知识图谱的构建显然相对较慢。而在知识图谱的构架中,三元组是不可或缺的文本信息,且需求量大。现有技术中,一般采取人工标注的形式来实现三元组的构建,这使得作为大型知识图谱构建基石的三元组的获取十分不便。
有鉴于此,如何提供一种便捷地文本抽取方案,是本领域技术人员需要解决的。
发明内容
本发明提供了一种文本抽取方法、装置、计算机设备和可读存储介质。
本发明的实施例可以这样实现:
第一方面,本发明实施例提供一种文本抽取方法,应用于计算机设备,所述计算机设备存储有多个关系种类和多个标注类别;
所述方法包括:
获取待抽取文本;
将所述待抽取文本输入预先训练的关系分类模型得到目标关系文本,所述目标关系文本包括从所述多个关系种类中确定的目标关系种类;
将所述目标关系文本输入预先训练的序列标注模型得到目标标注文本,所述目标标注文本包括从所述多个标注类别中确定的目标标注类别;
基于所述目标关系种类和所述目标标注类别,从所述目标标注文本中抽取得到目标文本。
在可选的实施方式中,所述将所述待抽取文本输入预先训练的关系分类模型得到目标关系文本的步骤,包括:
对经过预处理后的所述待抽取文本进行特征提取,得到多个第一特征向量;
将所述多个第一特征向量输入Bert模型,得到语义表示向量,其中,所述语义表示向量用于表征所述待抽取文本的全文语义;
将所述语义表示向量通过全连接层映射,得到语义映射向量;
将所述语义映射向量通过预设激活函数计算得到语义预测向量,所述语义预测向量包括语义预测置信度;
根据所述语义预测置信度与预设置信度阈值确定所述目标关系种类;
将所述经过预处理后的所述待抽取文本与所述目标关系种类构建为所述目标关系文本。
在可选的实施方式中,所述将所述目标关系文本输入预先训练的序列标注模型得到目标标注文本的步骤,包括:
对经过预处理后的所述目标关系文本进行特征提取,得到多个第二特征向量;
将所述多个第二特征向量输入Bert模型,得到文字序列向量,其中,所述文字序列向量用于表征所述待抽取文本中每个文字的标注信息;
将所述文字序列向量通过全连接层映射,得到多个标注预测向量,每个所述标注预测向量均包括标注预测向量置信度;
根据最大标注预测向量置信度确定所述目标标注类别;
根据所述目标标注类别对所述目标关系文本进行标注,得到所述目标标注文本。
在可选的实施方式中,所述目标标注文本包括目标文本关系;
所述基于所述目标关系种类和所述目标标注类别,从所述目标标注文本中抽取得到目标文本的步骤,包括:
根据所述目标关系种类、所述目标标注类别和所述目标文本关系从所述目标标注文本中抽取目标实体关系、第一实体和第二实体;
将所述目标实体关系、第一实体和第二实体作为所述目标文本。
在可选的实施方式中,所述关系分类模型通过以下方式获取:
获取训练样本文本和预设样本关系;
对经过分词处理的所述训练样本文本进行特征提取,得到多个第一训练特征向量;
将所述多个第一训练特征向量输入Bert模型,得到训练语义表示向量,其中,所述训练语义表示向量用于表征所述训练样本文本的全文语义;
将所述训练语义表示向量通过全连接层映射,得到训练语义映射向量;
将所述训练语义映射向量通过预设激活函数计算得到训练语义预测向量;
基于所述预设样本关系,将所述训练语义预测向量输入所述关系分类模型通过交叉熵损失函数计算损失并进行迭代训练,直至得到所述关系分类模型。
在可选的实施方式中,所述序列标注模型通过以下方式获取:
获取所述训练样本文本和预设标注类别;
对经过分词处理的所述训练样本文本进行特征提取,得到多个第二训练特征向量;
将所述多个第二训练特征向量输入Bert模型,得到训练文字序列向量,其中,所述训练文字序列向量用于表征所述待抽取文本中每个文字的标注信息;
将所述训练文字序列向量通过全连接层映射,得到训练标注预测向量;
将所述训练标注预测向量输入所述序列标注模型通过交叉熵损失函数计算损失并进行迭代训练,直至得到所述序列标注模型。
在可选的实施方式中,所述计算机设备还存储有知识图谱,所述方法还包括:
将所述目标文本存储于所述知识图谱中。
第二方面,本发明实施例提供一种文本抽取装置,应用于计算机设备,所述计算机设备存储有多个关系种类和多个标注类别;
所述装置包括:
获取模块,用于获取待抽取文本;
处理模块,用于将所述待抽取文本输入预先训练的关系分类模型得到目标关系文本,所述目标关系文本包括从所述多个关系种类中确定的目标关系种类;将所述目标关系文本输入预先训练的序列标注模型得到目标标注文本,所述目标标注文本包括从所述多个标注类别中确定的目标标注类别;
抽取模块,用于基于所述目标关系种类和所述目标标注类别,从所述目标标注文本中抽取得到目标文本。
第三方面,本发明实施例提供一种计算机设备,所述计算机设备包括处理器及存储有计算机指令的非易失性存储器,所述计算机指令被所述处理器执行时,所述计算机设备执行前述实施方式中任意一项所述的文本抽取方法。
第四方面,本发明实施例提供一种可读存储介质,所述可读存储介质包括计算机程序,所述计算机程序运行时控制所述可读存储介质所在计算机设备执行前述实施方式中任意一项所述的文本抽取方法。
本发明实施例的有益效果包括,例如:采用本申请实施例提供的一种文本抽取方法、装置、计算机设备和可读存储介质,应用于计算机设备,所述计算机设备存储有多个关系种类和多个标注类别。通过获取待抽取文本;从而将所述待抽取文本输入预先训练的关系分类模型得到目标关系文本,所述目标关系文本包括从所述多个关系种类中确定的目标关系种类;再将所述目标关系文本输入预先训练的序列标注模型得到目标标注文本,所述目标标注文本包括从所述多个标注类别中确定的目标标注类别;然后基于所述目标关系种类和所述目标标注类别,从所述目标标注文本中抽取得到目标文本,通过巧妙地应用预先训练的关系分类模型和预先训练的序列标注模型能够便捷地获取目标文本。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的文本提取方法的一种步骤流程示意图;
图2为本申请实施例提供的文本提取方法的另一种步骤流程示意图;
图3为本申请实施例提供的文本抽取装置的结构示意框图;
图4为本申请实施例提供的计算机设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在不冲突的情况下,本发明的实施例中的特征可以相互结合。
目前,大数据的应用场景已经十分的广泛,而大数据的有效应用离不开其对于有效数据的高效利用。而知识图谱作为支撑大数据的相对成熟的技术,现有的大型知识图谱,大多具有丰富的语义知识,并以结构化的形式存储。虽然这些结构化的知识已被广泛用于信息检索、智能问答、智能对话等人工智能应用中,但与实际情况中的数据增长的趋势相比,现有的知识图谱构建方式的速度显然已经无法满足用户的需求。知识图谱的构建离不开大量的三元组,而现有技术中大多使用人工标注的形成构建三元组这样的文本相关信息,即便如此,在需要花费高额人工成本的基础上也无法满足构建规模巨大的知识图谱所需的三元组。有鉴于此,请参考图1,图1为本申请实施例提供的文本抽取方法的步骤流程示意图。该方法应用于计算机设备,计算机设备存储有多个关系种类和多个标注类别。下面对前述文本抽取方法进行详细的描述。
步骤201,获取待抽取文本。
步骤202,将待抽取文本输入预先训练的关系分类模型得到目标关系文本。
其中,目标关系文本包括从多个关系种类中确定的目标关系种类。
步骤203,将目标关系文本输入预先训练的序列标注模型得到目标标注文本。
其中,目标标注文本包括从多个标注类别中确定的目标标注类别。
步骤204,基于目标关系种类和目标标注类别,从目标标注文本中抽取得到目标文本。
在本申请实施例中,待抽取文本可以是案件信息,对应的,计算机设备中存储的多个关系种类可以包括年龄、电话号码、银行卡号、车牌、居住地,户籍地等,在实际操作中,可以获取需要进行提取的待提取文本,由预先训练的关系分类模型和预先训练的序列标注模型依次对其进行处理,可以得到标注文本,再根据目标关系种类和目标标注类别,从目标标注文本中抽取得到目标文本,目标文本即为构建知识图谱所需的三元组。通过上述步骤,能够便捷地获取三元组,整个过程无需人工参与,为后续构建知识图谱提高了便捷。
在此基础上,请参照图2,为了能够更加详细的对前述步骤202中的方案进行描述,本申请实施例提供了以下的具体实施方式。
子步骤202-1,对经过预处理后的待抽取文本进行特征提取,得到多个第一特征向量。
子步骤202-2,将多个第一特征向量输入Bert模型,得到语义表示向量。
其中,语义表示向量用于表征待抽取文本的全文语义。
子步骤202-3,将语义表示向量通过全连接层映射,得到语义映射向量。
子步骤202-4,将语义映射向量通过预设激活函数计算得到语义预测向量,语义预测向量包括语义预测置信度。
子步骤202-5,根据语义预测置信度与预设置信度阈值确定目标关系种类。
子步骤2020-6,将经过预处理后的待抽取文本与目标关系种类构建为目标关系文本。
在前述基础上,对待抽取文本的预处理过程可以是分词处理,分词后可以对其进行特征提取,得到的第一特征向量的类型可以包括但不限于字向量(通过查询字向量表将输入文本中每个字转换为一维向量),位置向量(对不同位置的词附加一个向量作为区分),文本向量(描述文本的全局语义向量)。在本申请实施例中,可以将字向量、位置向量和文本向量的加和作为Bert(Bidirectional Encoder Representations from Transformers,简称基于转换器的双向编码表示)模型的输入,可以得到文本[CLS](classification,简称分类任务)符号对应的输出向量,即语义表示向量用于表征待抽取文本的全文语义。
可以将语义表示向量通过全连接层映射,得到语义映射向量,然后将语义映射向量通过预设sigmoid激活函数:
计算得到语义预测向量,其中,outputi为输入的语义映射向量,inputi为输出的语义预测向量。
计算得到的语义预测向量中包括语义预测置信度,可以根据语义预测置信度与预设置信度阈值确定目标关系种类,应当理解的是,前述提出的多种关系种类分别一一对应一个置信度区间,可以根据语义预测置信度具体落在了预设置信度阈值的哪个区间来确定目标关系种类。在确定了目标关系种类后,可以将目标关系种类和预处理后的待抽取文本组成目标关系文本。
在上述基础上,作为一种可替换的具体实施方式,步骤203可以通过以下步骤实现。
子步骤203-1,对经过预处理后的目标关系文本进行特征提取,得到第二特征向量。
子步骤203-2,将多个第二特征向量输入Bert模型,得到文字序列向量。
其中,文字序列向量用于表征待抽取文本中每个文字的标注信息。
子步骤203-3,将文字序列向量通过全连接层映射,得到多个标注预测向量。
其中,每个标注预测向量均包括标注预测向量置信度。
子步骤203-4,根据最大标注预测向量置信度确定目标标注类别。
子步骤203-5,根据目标标注类别对目标关系文本进行标注,得到目标标注文本。
在通过了前述关系分类模型将待抽取文本处理为目标关系文本后,可以将目标关系文本采取前述同样的方式进行特征提取,获得多个第二特征向量,同样将多个第二特征向量输入Bert模型,得到文字序列向量,应当理解的是,文字序列向量用于表征待抽取文本中每个文字的标注信息,即获取待抽取文本中每个字对应的输出向量组成序列向量(即文字序列向量)对每个字字进行标注。
可以将文字序列向量通过全连接层映射,得到多个标注预测向量,多个标注预测向量可以遵循置信度最大原则确定每个字对应的目标标注类别。值得说明的是,计算机设备中预先存储的多个标注类别可以是有CLS、B-OBJ至I-OBJ(表示一个实体)、B-SUB至I-SUB(表示另一个实体)、O(除实体外其余文字)等。而每个标注预测向量的标注预测置信度对应哪个标注类别的值最大,那么可以认定该标注预测向量对应的文字即为置信度最大的标注类别。
除了上述方案,为了能够更清楚地描述本申请实施例中提出的方法,本申请实施例还提供了前述步骤204的具体实施方式,目标标注文本包括目标文本关系。
子步骤204-1,根据目标关系种类、目标标注类别和目标文本关系从目标标注文本中抽取目标实体关系、第一实体和第二实体。
子步骤204-2,将目标实体关系、第一实体和第二实体作为目标文本。
在本申请实施例中,目标文本关系可以是指第一实体和第二实体之间包含的关系,具体可以包括主宾关系和主表关系。
在前述基础上,本申请实施例中提出的关系分类模型通过以下方式获取:
步骤301,获取训练样本文本和预设样本关系。
步骤302,对经过分词处理的训练样本文本进行特征提取,得到多个第一训练特征向量。
步骤303,将多个第一训练特征向量输入Bert模型,得到训练语义表示向量。
其中,训练语义表示向量用于表征训练样本文本的全文语义。
步骤304,将训练语义表示向量通过全连接层映射,得到训练语义映射向量。
步骤305,将训练语义映射向量通过预设激活函数计算得到训练语义预测向量。
步骤306,基于预设样本关系,将训练语义预测向量输入关系分类模型通过交叉熵损失函数计算损失并进行迭代训练,直至得到关系分类模型。
值得说明的是,在训练得到关系分类模型的过程中,可以先获取训练样本文本、预设样本关系、经过分词处理后的训练样本文本以及经过分词处理后的训练样本文本对应的真实的语义关系。在此基础上,可以将对经过分词处理的训练样本文本进行特征提取,得到多个第一训练特征向量再将多个第一训练特征向量输入Bert模型,得到训练语义表示向量。
接着将训练语义表示向量通过全连接层映射,得到训练语义映射向量。然后将训练语义映射向量通过预设激活函数计算得到训练语义预测向量。最终基于预设样本关系,将训练语义预测向量输入关系分类模型通过交叉熵损失函数计算损失并进行迭代训练,具体的,可以通过公式:
loss(xi,yi)=-wi(yi logxi+(1-yi)log(1-xi))
将训练语义预测向量的置信度与预先知道的真实标签进行计算交叉熵10损失并进行反向传播,迭代计算直至得到关系分类模型,得到语义预测向量对应的置信度,并将预测向量对应的置信度与预设置信度阈值进行比较,以获取目标关系种类,其中,wi为预设权重,xi为预测输出(即训练语义预测向量的置信度),yi为真实标签。
在此基础上,本申请实施例提出的序列标注模型通过以下方式获取:
步骤401,获取训练样本文本和预设标注类别。
步骤302,对经过分词处理的训练样本文本进行特征提取,得到多个第二训练特征向量。
步骤403,将多个第二训练特征向量输入Bert模型,得到训练文字序列向量。
其中,训练文字序列向量用于表征待抽取文本中每个文字的标注信息。
步骤404,将训练文字序列向量通过全连接层映射,得到训练标注预测向量。
步骤405,将训练标注预测向量输入序列标注模型通过交叉熵损失函数计算损失并进行迭代训练,直至得到序列标注模型。
除了提供了关系分类模型的训练过程,本申请实施例还提供了序列标注模型的训练过程。为了保证最终训练得到的关系分类模型和序列标注模型能够配合使用,两个模型所用的训练样本文本为同一个,只是训练时对应提取的东西不同。
具体的,可以先获取训练样本文本、预设标注类别、分词后的训练样本文本以及对分词后的训练样本文本中每个字已经完成标注的文本。可以对经过分词处理的训练样本文本进行特征提取,得到多个第二训练特征向量。进而将多个第二训练特征向量输入Bert模型,得到训练文字序列向量。然后可以将训练文字序列向量通过全连接层映射,得到训练标注预测向量。最终将训练标注预测向量输入序列标注模型通过交叉熵损失函数计算损失并进行迭代训练,具体的,可以将训练标注预测向量输入:
以将训练标注预测向量与真实标签计算交叉熵损失,迭代计算直至得到序列标注模型,其中,wclass为预设权重,class为类别,x为训练标注预测向量。
除此之外,计算机设备还存储有知识图谱,除了前述方案,再得到目标文本后,方法还可以将目标文本存储于知识图谱中。获取的目标文本即为构建知识图谱所需的三元组,可以将目标文本存储与计算机设备中的知识图谱中,以供使用。
为了能够更加清楚的对前述方案进行解释,本申请实施例下面提供一种较为完整的实施方式。
提供一待抽取文本:[被告人某某某,男,户籍所在地四川省巴中市],对待抽取文本进行分词处理,得到[被告人某某某,男,户籍所在地四川省巴中市]。
将分词处理后的待抽取文本输入预先训练的关系分类模型,可以得到目标关系文本:[被告人某某某,男,户籍所在地四川省巴中市户籍地],其中,目标关系种类为户籍地,即该段文本全文想要表达的语义为户籍地相关信息。
将上述目标关系文本输入预先训练的序列标注模型,可以得到目标标注文本:[CLS O O O B_SUB I_SUB I_SUB O O O O O O OO B_OBJ I_OBJ I_OBJ I_OBJ I_OBJ I_OBJ],其中,与户籍地无关的文字被标注为“O”即空。
目标标注文本中的头实体(即第一实体)对应为“某某某”即姓名,尾实体(即第二实体)对应为“四川省巴中市”即户籍地,而目标关系种类对应为“户籍地”,基于此,可以从目标标注文本中抽取目标文本,即构建知识图谱所需三元组:<某某某,户籍地,四川省巴中市>(实体-关系-实体)。
本申请实施例提供一种文本抽取装置110,应用于计算机设备,计算机设备存储有多个关系种类和多个标注类别。请参照图3,装置包括:
获取模块1101,用于获取待抽取文本。
处理模块1102,用于将待抽取文本输入预先训练的关系分类模型得到目标关系文本,目标关系文本包括从多个关系种类中确定的目标关系种类;将目标关系文本输入预先训练的序列标注模型得到目标标注文本,目标标注文本包括从多个标注类别中确定的目标标注类别。
抽取模块1103,用于基于目标关系种类和目标标注类别,从目标标注文本中抽取得到目标文本。
进一步地,处理模块1102具体用于:
对经过预处理后的待抽取文本进行特征提取,得到多个第一特征向量;将多个第一特征向量输入Bert模型,得到语义表示向量,其中,语义表示向量用于表征待抽取文本的全文语义;将语义表示向量通过全连接层映射,得到语义映射向量;将语义映射向量通过预设激活函数计算得到语义预测向量,语义预测向量包括语义预测置信度;根据语义预测置信度与预设置信度阈值确定目标关系种类;将经过预处理后的待抽取文本与目标关系种类构建为目标关系文本。
进一步地,处理模块1102还用于:
对经过预处理后的目标关系文本进行特征提取,得到多个第二特征向量;将多个第二特征向量输入Bert模型,得到文字序列向量,其中,文字序列向量用于表征待抽取文本中每个文字的标注信息;将文字序列向量通过全连接层映射,得到多个标注预测向量,每个标注预测向量均包括标注预测向量置信度;根据最大标注预测向量置信度确定目标标注类别;根据目标标注类别对目标关系文本进行标注,得到目标标注文本。
进一步地,目标标注文本包括目标文本关系;
抽取模块1103具体用于:
根据目标关系种类、目标标注类别和目标文本关系从目标标注文本中抽取目标实体关系、第一实体和第二实体;将目标实体关系、第一实体和第二实体作为目标文本。
进一步地,装置还包括训练模块1104,用于:
获取训练样本文本和预设样本关系;对经过分词处理的训练样本文本进行特征提取,得到多个第一训练特征向量;将多个第一训练特征向量输入Bert模型,得到训练语义表示向量,其中,训练语义表示向量用于表征训练样本文本的全文语义;将训练语义表示向量通过全连接层映射,得到训练语义映射向量;将训练语义映射向量通过预设激活函数计算得到训练语义预测向量;基于预设样本关系,将训练语义预测向量输入关系分类模型通过交叉熵损失函数计算损失并进行迭代训练,直至得到关系分类模型。
进一步地,训练模块1104还用于:
获取训练样本文本和预设标注类别;对经过分词处理的训练样本文本进行特征提取,得到多个第二训练特征向量;将多个第二训练特征向量输入Bert模型,得到训练文字序列向量,其中,训练文字序列向量用于表征待抽取文本中每个文字的标注信息;将训练文字序列向量通过全连接层映射,得到训练标注预测向量;将训练标注预测向量输入序列标注模型通过交叉熵损失函数计算损失并进行迭代训练,直至得到序列标注模型。
进一步地,计算机设备还存储有知识图谱,处理模块1102还用于:
将目标文本存储于知识图谱中。
本申请实施例提供一种计算机设备100,计算机设备100包括处理器及存储有计算机指令的非易失性存储器,计算机指令被处理器执行时,计算机设备100执行前述的文本抽取方法。如图4所示,图4为本申请实施例提供的计算机设备100的结构框图。计算机设备100包括文本抽取装置110、存储器111、处理器112及通信单元113。
为实现数据的传输或交互,存储器111、处理器112以及通信单元113各元件相互之间直接或间接地电性连接。例如,可通过一条或多条通讯总线或信号线实现这些元件相互之间电性连接。文本抽取装置110包括至少一个可以软件或固件(firmware)的形式存储于存储器111中或固化在计算机设备100的操作系统(operating system,OS)中的软件功能模块。处理器112用于执行存储器111中存储的可执行模块,例如文本抽取装置110所包括的软件功能模块及计算机程序等。
本申请实施例提供一种可读存储介质,可读存储介质包括计算机程序,计算机程序运行时控制可读存储介质所在计算机设备执行前述的文本抽取方法。
综上所述,本发明实施例提供了一种文本抽取方法、装置、计算机设备和可读存储介质,应用于计算机设备,所述计算机设备存储有多个关系种类和多个标注类别。通过获取待抽取文本;从而将所述待抽取文本输入预先训练的关系分类模型得到目标关系文本,所述目标关系文本包括从所述多个关系种类中确定的目标关系种类;再将所述目标关系文本输入预先训练的序列标注模型得到目标标注文本,所述目标标注文本包括从所述多个标注类别中确定的目标标注类别;然后基于所述目标关系种类和所述目标标注类别,从所述目标标注文本中抽取得到目标文本,通过巧妙地应用预先训练的关系分类模型和预先训练的序列标注模型能够便捷地获取目标文本。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (9)
1.一种文本抽取方法,其特征在于,应用于计算机设备,所述计算机设备存储有多个关系种类和多个标注类别;所述方法包括:
获取待抽取文本;
将所述待抽取文本输入预先训练的关系分类模型得到目标关系文本,对经过预处理后的所述待抽取文本进行特征提取,得到多个第一特征向量;
将所述多个第一特征向量输入Bert模型,得到语义表示向量,其中,所述语义表示向量用于表征所述待抽取文本的全文语义;
将所述语义表示向量通过全连接层映射,得到语义映射向量;
将所述语义映射向量通过预设激活函数计算得到语义预测向量,所述语义预测向量包括语义预测置信度;
根据所述语义预测置信度与预设置信度阈值确定目标关系种类;
将所述经过预处理后的所述待抽取文本与所述目标关系种类构建为所述目标关系文本,所述目标关系文本包括从所述多个关系种类中确定的目标关系种类;
将所述目标关系文本输入预先训练的序列标注模型得到目标标注文本,所述目标标注文本包括从所述多个标注类别中确定的目标标注类别;
基于所述目标关系种类和所述目标标注类别,从所述目标标注文本中抽取得到目标文本。
2.根据权利要求1所述的方法,其特征在于,所述将所述目标关系文本输入预先训练的序列标注模型得到目标标注文本的步骤,包括:
对经过预处理后的所述目标关系文本进行特征提取,得到多个第二特征向量;
将所述多个第二特征向量输入Bert模型,得到文字序列向量,其中,所述文字序列向量用于表征所述待抽取文本中每个文字的标注信息;
将所述文字序列向量通过全连接层映射,得到多个标注预测向量,每个所述标注预测向量均包括标注预测向量置信度;
根据最大标注预测向量置信度确定所述目标标注类别;
根据所述目标标注类别对所述目标关系文本进行标注,得到所述目标标注文本。
3.根据权利要求1所述的方法,其特征在于,所述目标标注文本包括目标文本关系;
所述基于所述目标关系种类和所述目标标注类别,从所述目标标注文本中抽取得到目标文本的步骤,包括:
根据所述目标关系种类、所述目标标注类别和所述目标文本关系从所述目标标注文本中抽取目标实体关系、第一实体和第二实体;
将所述目标实体关系、第一实体和第二实体作为所述目标文本。
4.根据权利要求1所述的方法,其特征在于,所述关系分类模型通过以下方式获取:
获取训练样本文本和预设样本关系;
对经过分词处理的所述训练样本文本进行特征提取,得到多个第一训练特征向量;
将所述多个第一训练特征向量输入Bert模型,得到训练语义表示向量,其中,所述训练语义表示向量用于表征所述训练样本文本的全文语义;
将所述训练语义表示向量通过全连接层映射,得到训练语义映射向量;
将所述训练语义映射向量通过预设激活函数计算得到训练语义预测向量;
基于所述预设样本关系,将所述训练语义预测向量输入所述关系分类模型通过交叉熵损失函数计算损失并进行迭代训练,直至得到所述关系分类模型。
5.根据权利要求4所述的方法,其特征在于,所述序列标注模型通过以下方式获取:
获取所述训练样本文本和预设标注类别;
对经过分词处理的所述训练样本文本进行特征提取,得到多个第二训练特征向量;
将所述多个第二训练特征向量输入Bert模型,得到训练文字序列向量,其中,所述训练文字序列向量用于表征所述待抽取文本中每个文字的标注信息;
将所述训练文字序列向量通过全连接层映射,得到训练标注预测向量;
将所述训练标注预测向量输入所述序列标注模型通过交叉熵损失函数计算损失并进行迭代训练,直至得到所述序列标注模型。
6.根据权利要求1所述的方法,其特征在于,所述计算机设备还存储有知识图谱,所述方法还包括:
将所述目标文本存储于所述知识图谱中。
7.一种文本抽取装置,其特征在于,应用于计算机设备,所述计算机设备存储有多个关系种类和多个标注类别;
所述装置包括:
获取模块,用于获取待抽取文本;
处理模块,用于将所述待抽取文本输入预先训练的关系分类模型得到目标关系文本,对经过预处理后的所述待抽取文本进行特征提取,得到多个第一特征向量;将所述多个第一特征向量输入Bert模型,得到语义表示向量,其中,所述语义表示向量用于表征所述待抽取文本的全文语义;将所述语义表示向量通过全连接层映射,得到语义映射向量;将所述语义映射向量通过预设激活函数计算得到语义预测向量,所述语义预测向量包括语义预测置信度;根据所述语义预测置信度与预设置信度阈值确定目标关系种类;将所述经过预处理后的所述待抽取文本与所述目标关系种类构建为所述目标关系文本,所述目标关系文本包括从所述多个关系种类中确定的目标关系种类;将所述目标关系文本输入预先训练的序列标注模型得到目标标注文本,所述目标标注文本包括从所述多个标注类别中确定的目标标注类别;
抽取模块,用于基于所述目标关系种类和所述目标标注类别,从所述目标标注文本中抽取得到目标文本。
8.一种计算机设备,其特征在于,所述计算机设备包括处理器及存储有计算机指令的非易失性存储器,所述计算机指令被所述处理器执行时,所述计算机设备执行权利要求1-6中任意一项所述的文本抽取方法。
9.一种可读存储介质,其特征在于,所述可读存储介质包括计算机程序,所述计算机程序运行时控制所述可读存储介质所在计算机设备执行权利要求1-6中任意一项所述的文本抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010944955.8A CN112069319B (zh) | 2020-09-10 | 2020-09-10 | 文本抽取方法、装置、计算机设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010944955.8A CN112069319B (zh) | 2020-09-10 | 2020-09-10 | 文本抽取方法、装置、计算机设备和可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112069319A CN112069319A (zh) | 2020-12-11 |
CN112069319B true CN112069319B (zh) | 2024-03-22 |
Family
ID=73663343
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010944955.8A Active CN112069319B (zh) | 2020-09-10 | 2020-09-10 | 文本抽取方法、装置、计算机设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112069319B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112599211B (zh) * | 2020-12-25 | 2023-03-21 | 中电云脑(天津)科技有限公司 | 一种医疗实体关系抽取方法及装置 |
CN112819622B (zh) * | 2021-01-26 | 2023-10-17 | 深圳价值在线信息科技股份有限公司 | 一种信息的实体关系联合抽取方法、装置及终端设备 |
CN112860855B (zh) * | 2021-02-04 | 2024-02-06 | 京东科技控股股份有限公司 | 一种信息抽取方法、装置及电子设备 |
CN112861515B (zh) * | 2021-02-08 | 2022-11-11 | 上海天壤智能科技有限公司 | 交互式知识定义与处理方法、系统、装置和可读介质 |
CN113011189A (zh) * | 2021-03-26 | 2021-06-22 | 深圳壹账通智能科技有限公司 | 开放式实体关系的抽取方法、装置、设备及存储介质 |
CN112883194B (zh) * | 2021-04-06 | 2024-02-20 | 讯飞医疗科技股份有限公司 | 一种症状信息抽取方法、装置、设备及存储介质 |
CN114003690A (zh) * | 2021-10-25 | 2022-02-01 | 南京中兴新软件有限责任公司 | 信息标注方法、模型训练方法、电子设备及存储介质 |
CN114611519A (zh) * | 2022-03-31 | 2022-06-10 | 联想(北京)有限公司 | 一种文本的实体关系抽取方法、装置及电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729465A (zh) * | 2017-10-12 | 2018-02-23 | 杭州中奥科技有限公司 | 人物危险度的评估方法、装置及电子设备 |
CN108509421A (zh) * | 2018-04-04 | 2018-09-07 | 郑州大学 | 基于随机游走和粗糙决策置信度的文本情感分类方法 |
WO2019100724A1 (zh) * | 2017-11-24 | 2019-05-31 | 华为技术有限公司 | 训练多标签分类模型的方法和装置 |
CN110019839A (zh) * | 2018-01-03 | 2019-07-16 | 中国科学院计算技术研究所 | 基于神经网络和远程监督的医学知识图谱构建方法和系统 |
CN111143569A (zh) * | 2019-12-31 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及计算机可读存储介质 |
CN111144120A (zh) * | 2019-12-27 | 2020-05-12 | 北京知道创宇信息技术股份有限公司 | 一种训练语句的获取方法、装置、存储介质及电子设备 |
WO2020119075A1 (zh) * | 2018-12-10 | 2020-06-18 | 平安科技(深圳)有限公司 | 通用文本信息提取方法、装置、计算机设备和存储介质 |
CN111324743A (zh) * | 2020-02-14 | 2020-06-23 | 平安科技(深圳)有限公司 | 文本关系抽取的方法、装置、计算机设备及存储介质 |
CN111444305A (zh) * | 2020-03-19 | 2020-07-24 | 浙江大学 | 一种基于知识图谱嵌入的多三元组联合抽取方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050027664A1 (en) * | 2003-07-31 | 2005-02-03 | Johnson David E. | Interactive machine learning system for automated annotation of information in text |
CN107291684B (zh) * | 2016-04-12 | 2021-02-09 | 华为技术有限公司 | 语言文本的分词方法和系统 |
EP3577570A4 (en) * | 2017-01-31 | 2020-12-02 | Mocsy Inc. | INFORMATION EXTRACTION FROM DOCUMENTS |
CN109165385B (zh) * | 2018-08-29 | 2022-08-09 | 中国人民解放军国防科技大学 | 一种基于实体关系联合抽取模型的多三元组抽取方法 |
US11151175B2 (en) * | 2018-09-24 | 2021-10-19 | International Business Machines Corporation | On-demand relation extraction from text |
-
2020
- 2020-09-10 CN CN202010944955.8A patent/CN112069319B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729465A (zh) * | 2017-10-12 | 2018-02-23 | 杭州中奥科技有限公司 | 人物危险度的评估方法、装置及电子设备 |
WO2019100724A1 (zh) * | 2017-11-24 | 2019-05-31 | 华为技术有限公司 | 训练多标签分类模型的方法和装置 |
CN110019839A (zh) * | 2018-01-03 | 2019-07-16 | 中国科学院计算技术研究所 | 基于神经网络和远程监督的医学知识图谱构建方法和系统 |
CN108509421A (zh) * | 2018-04-04 | 2018-09-07 | 郑州大学 | 基于随机游走和粗糙决策置信度的文本情感分类方法 |
WO2020119075A1 (zh) * | 2018-12-10 | 2020-06-18 | 平安科技(深圳)有限公司 | 通用文本信息提取方法、装置、计算机设备和存储介质 |
CN111144120A (zh) * | 2019-12-27 | 2020-05-12 | 北京知道创宇信息技术股份有限公司 | 一种训练语句的获取方法、装置、存储介质及电子设备 |
CN111143569A (zh) * | 2019-12-31 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及计算机可读存储介质 |
CN111324743A (zh) * | 2020-02-14 | 2020-06-23 | 平安科技(深圳)有限公司 | 文本关系抽取的方法、装置、计算机设备及存储介质 |
CN111444305A (zh) * | 2020-03-19 | 2020-07-24 | 浙江大学 | 一种基于知识图谱嵌入的多三元组联合抽取方法 |
Non-Patent Citations (1)
Title |
---|
基于注意力机制的开放域实体关系抽取;刘勇杰;中国优秀硕士学位论文全文数据库;I138-2361 * |
Also Published As
Publication number | Publication date |
---|---|
CN112069319A (zh) | 2020-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112069319B (zh) | 文本抽取方法、装置、计算机设备和可读存储介质 | |
CN110619051B (zh) | 问题语句分类方法、装置、电子设备及存储介质 | |
CN116795973B (zh) | 基于人工智能的文本处理方法及装置、电子设备、介质 | |
CN111950596A (zh) | 一种用于神经网络的训练方法以及相关设备 | |
CN111767375A (zh) | 语义召回方法、装置、计算机设备及存储介质 | |
CN112182167B (zh) | 一种文本匹配方法、装置、终端设备和存储介质 | |
CN115438215A (zh) | 图文双向搜索及匹配模型训练方法、装置、设备及介质 | |
CN112100375A (zh) | 文本信息生成方法、装置、存储介质及设备 | |
CN115062134B (zh) | 知识问答模型训练及知识问答方法、装置和计算机设备 | |
CN114780746A (zh) | 基于知识图谱的文档检索方法及其相关设备 | |
CN115131698A (zh) | 视频属性确定方法、装置、设备及存储介质 | |
CN113723077B (zh) | 基于双向表征模型的句向量生成方法、装置及计算机设备 | |
CN112598039B (zh) | 获取nlp分类领域阳性样本方法及相关设备 | |
CN114218948A (zh) | 关键词识别方法及其装置、设备、介质、产品 | |
CN113326701A (zh) | 嵌套实体识别方法、装置、计算机设备及存储介质 | |
CN117114063A (zh) | 用于训练生成式大语言模型和用于处理图像任务的方法 | |
CN113177406B (zh) | 文本处理方法、装置、电子设备和计算机可读介质 | |
CN115238077A (zh) | 基于人工智能的文本分析方法、装置、设备及存储介质 | |
CN112417260B (zh) | 本地化推荐方法、装置及存储介质 | |
CN114637831A (zh) | 基于语义分析的数据查询方法及其相关设备 | |
CN114547313A (zh) | 资源类型识别方法以及装置 | |
CN114398482A (zh) | 一种词典构造方法、装置、电子设备及存储介质 | |
CN114692715A (zh) | 一种样本标注方法及装置 | |
CN112329459A (zh) | 文本标注方法和神经网络模型的构建方法 | |
CN111178630A (zh) | 一种负荷预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |