CN113688215A - 信息抽取、模型训练方法、装置、计算机设备和存储介质 - Google Patents

信息抽取、模型训练方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN113688215A
CN113688215A CN202110887160.2A CN202110887160A CN113688215A CN 113688215 A CN113688215 A CN 113688215A CN 202110887160 A CN202110887160 A CN 202110887160A CN 113688215 A CN113688215 A CN 113688215A
Authority
CN
China
Prior art keywords
text data
information
model
layer
information extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110887160.2A
Other languages
English (en)
Inventor
张辰昱
潘仰耀
汪贇
张彤
刘学源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Pudong Development Bank Co Ltd
Original Assignee
Shanghai Pudong Development Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Pudong Development Bank Co Ltd filed Critical Shanghai Pudong Development Bank Co Ltd
Priority to CN202110887160.2A priority Critical patent/CN113688215A/zh
Publication of CN113688215A publication Critical patent/CN113688215A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种信息抽取、模型训练方法、装置、计算机设备和存储介质,通过将客服对话语音信号所对应的待预测文本数据输入至信息抽取模型,通过所述词嵌入层对所述待预测文本数据进行嵌入表征,得到所述待预测文本数据的词向量;通过所述特征增强层对所述词向量进行维度变化,将维度变化后的词向量分别输入至所述命名实体识别模型和所述关键词提取模型中进行信息抽取,得到所述待预测文本数据中的实体类信息和关键词信息,实现将信息抽取拆解为命名实体识别与关键词抽取两个子任务,从而减少信息抽取任务的难度,并提升关键信息抽取的准确率,降低关键词漏检几率。

Description

信息抽取、模型训练方法、装置、计算机设备和存储介质
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种信息抽取、模型训练方法、装置、计算机设备和存储介质。
背景技术
随着自然语言处理技术的飞速发展,许多先进的人工智能技术逐步落地,应用于实际生产中。在电话银行场景中,应用最为广泛的便是关键信息提取(InformationExtration)方法。获取电话银行对话过程中的语音数据,识别该语音数据对应的文本内容,通过机器学习模型从文本内容中抽取关键信息,根据抽取到的关键信息感知客户意图与需求,并针对客户的需要作出回应服务。
然而,相关技术中的信息抽取方式会出现对关键词漏检的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够降低相关技术中关键词漏检几率的信息抽取、模型训练方法、装置、计算机设备和存储介质。
一种信息抽取方法,所述方法包括:
将客服对话语音信号所对应的待预测文本数据输入至信息抽取模型,所述信息抽取模型包括词嵌入层、与所述词嵌入层连接的特征增强层、与所述特征增强层连接的命名实体识别模型和关键词提取模型;
通过所述词嵌入层对所述待预测文本数据进行嵌入表征,得到所述待预测文本数据的词向量;
通过所述特征增强层对所述词向量进行维度变化,将维度变化后的词向量分别输入至所述命名实体识别模型和所述关键词提取模型中进行信息抽取,得到所述待预测文本数据中的实体类信息和关键词信息。
在其中一个实施例中,在所述信息抽取模型的训练阶段,所述特征增强层用于将样本文本数据的句法特征、词性特征与所述词嵌入层输出的词向量进行拼接。
在其中一个实施例中,所述命名实体识别模型包括依次连接的第一预训练词嵌入层、第一双向LSTM层、第一向量拼接层、第一全连接层和CRF解码层。
在其中一个实施例中,所述关键词提取模型包括依次连接的第二预训练词嵌入层、第二双向LSTM层、第二向量拼接层、注意力层和第二全连接层。
在其中一个实施例中,所述方法还包括:
获取输入的关键要素信息;
根据所述实体类信息和所述关键词信息,对所述关键要素信息进行校验。
在其中一个实施例中,所述方法还包括:
获取对校验结果的反馈信息;
根据所述反馈信息,利用所述待预测文本数据、所述实体类信息、所述关键词信息继续对所述信息抽取模型进行训练,得到更新后的信息抽取模型。
一种模型训练方法,所述方法包括:
获取训练数据集,所述训练数据集包括若干个样本文本数据;
将所述样本文本数据输入至待训练的信息抽取模型,所述信息抽取模型包括词嵌入层、与所述词嵌入层连接的特征增强层、与所述特征增强层连接的命名实体识别模型和关键词提取模型;
通过所述词嵌入层对所述样本文本数据进行嵌入表征,得到所述样本文本数据的词向量;
获取所述样本文本数据的句法特征、词性特征,通过所述特征增强层将所述句法特征、所述词性特征与所述词向量进行拼接,得到拼接特征;
将所述拼接特征分别输入至所述命名实体识别模型和所述关键词提取模型中进行信息抽取,得到所述样本文本数据中的实体类信息和关键词信息;
当所述样本文本数据中的实体类信息和关键词信息满足模型训练停止条件时,停止对所述信息抽取模型的训练。
在其中一个实施例中,所述词嵌入层采用Bert网络模型,在所述将所述样本文本数据输入至待训练的信息抽取模型之前,所述方法还包括:
获取金融领域文本数据,所述金融领域数据包括若干个金融领域词汇;
基于全词掩码对所述金融领域词汇进行词覆盖处理,利用处理后的金融领域文本数据对所述Bert网络模型进行无监督预训练。
一种信息抽取装置,所述装置包括:
文本数据输入模块,用于将客服对话语音信号所对应的待预测文本数据输入至信息抽取模型,所述信息抽取模型包括词嵌入层、与所述词嵌入层连接的特征增强层、与所述特征增强层连接的命名实体识别模型和关键词提取模型;
文本数据嵌入模块,用于通过所述词嵌入层对所述待预测文本数据进行嵌入表征,得到所述待预测文本数据的词向量;
实体关键词抽取模块,用于通过所述特征增强层对所述词向量进行维度变化,将维度变化后的词向量分别输入至所述命名实体识别模型和所述关键词提取模型中进行信息抽取,得到所述待预测文本数据中的实体类信息和关键词信息。
一种模型训练装置,所述装置包括:
数据集获取模块,用于获取训练数据集,所述训练数据集包括若干个样本文本数据;
文本数据输入模块,用于将所述样本文本数据输入至待训练的信息抽取模型,所述信息抽取模型包括词嵌入层、与所述词嵌入层连接的特征增强层、与所述特征增强层连接的命名实体识别模型和关键词提取模型;
文本数据嵌入模块,用于通过所述词嵌入层对所述样本文本数据进行嵌入表征,得到所述样本文本数据的词向量;
文本特征增强模块,用于获取所述样本文本数据的句法特征、词性特征,通过所述特征增强层将所述句法特征、所述词性特征与所述词向量进行拼接,得到拼接特征;
实体关键词抽取模块,用于将所述拼接特征分别输入至所述命名实体识别模型和所述关键词提取模型中进行信息抽取,得到所述样本文本数据中的实体类信息和关键词信息;
模型停止训练模块,用于当所述样本文本数据中的实体类信息和关键词信息满足模型训练停止条件时,停止对所述信息抽取模型的训练。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
上述信息抽取、模型训练方法、装置、计算机设备和存储介质,通过将客服对话语音信号所对应的待预测文本数据输入至信息抽取模型,通过所述词嵌入层对所述待预测文本数据进行嵌入表征,得到所述待预测文本数据的词向量;通过所述特征增强层对所述词向量进行维度变化,将维度变化后的词向量分别输入至所述命名实体识别模型和所述关键词提取模型中进行信息抽取,得到所述待预测文本数据中的实体类信息和关键词信息,实现将信息抽取拆解为命名实体识别与关键词抽取两个子任务,从而减少信息抽取任务的难度,并提升关键信息抽取的准确率,降低关键词漏检几率。
附图说明
图1为一个实施例中信息抽取方法的应用环境图;
图2为一个实施例中信息抽取方法的流程示意图;
图3为一个实施例中命名实体识别模型的结果示意图;
图4为一个实施例中关键词提取模型的结果示意图;
图5为一个实施例中信息抽取方法的流程示意图;
图6为一个实施例中信息抽取方法的流程示意图;
图7为一个实施例中信息抽取方法的流程示意图;
图8a为一个实施例中模型训练方法的流程示意图;
图8b为一个实施例中特征增强过程的示意图;
图9为一个实施例中模型训练方法的流程示意图;
图10为一个实施例中信息抽取装置的结构框图;
图11为一个实施例中模型训练装置的结构框图;
图12为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的信息抽取方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。服务器104搭建待训练的信息抽取模型,获取训练数据集,训练数据集包括若干个样本文本数据;将样本文本数据输入至待训练的信息抽取模型,信息抽取模型包括词嵌入层、与词嵌入层连接的特征增强层、与特征增强层连接的命名实体识别模型和关键词提取模型;通过词嵌入层对样本文本数据进行嵌入表征,得到样本文本数据的词向量;获取样本文本数据的句法特征、词性特征,通过特征增强层将句法特征、词性特征与词向量进行拼接,得到拼接特征;将拼接特征分别输入至命名实体识别模型和关键词提取模型中进行信息抽取,得到样本文本数据中的实体类信息和关键词信息。当样本文本数据中的实体类信息和关键词信息满足模型训练停止条件时,停止对信息抽取模型的训练。服务器104可以将完成训练的信息抽取模型发布至终端102。终端102接收到客服对话语音信号所对应的待预测文本数据,将客服对话语音信号所对应的待预测文本数据输入至信息抽取模型中,通过词嵌入层对待预测文本数据进行嵌入表征,得到待预测文本数据的词向量;通过特征增强层对词向量进行维度变化,将维度变化后的词向量分别输入至命名实体识别模型和关键词提取模型中进行信息抽取,得到待预测文本数据中的实体类信息和关键词信息。
其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种信息抽取方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
S210、将客服对话语音信号所对应的待预测文本数据输入至信息抽取模型。
其中,信息抽取模型包括词嵌入层、与词嵌入层连接的特征增强层、与特征增强层连接的命名实体识别模型和关键词提取模型。客户对话语音信号可以是电话银行人工客服与客户对话过程中产生的语音信号。可以通过语音识别技术将客服对话语音信号转化为文本数据,并将转化得到的文本数据作为待预测文本数据。待预测文本数据可以是长对话语音信号所对应的文本数据。具体地,待预测文本数据可以存在终端本地,也可以存储在与终端连接的计算机设备中,从终端本地或者计算机设备中获取待预测文本数据,将待预测文本数据输入至信息抽取模型中。
S220、通过词嵌入层对待预测文本数据进行嵌入表征,得到待预测文本数据的词向量。
其中,词嵌入层用于对待预测文本数据进行嵌入表示,将待预测文本数据转化为计算机或者模型可处理的数据。词嵌入层可以采用完成预训练的Bert(BidirectionalEncoder Representations from Transformers)网路模型。具体地,将预测文本数据输入至信息抽取模型中,首先通过词嵌入层对待预测文本数据进行嵌入表征,得到待预测文本数据的词向量。
S230、通过特征增强层对词向量进行维度变化,将维度变化后的词向量分别输入至命名实体识别模型和关键词提取模型中进行信息抽取,得到待预测文本数据中的实体类信息和关键词信息。
其中,命名实体识别模型可以用于从文本数据或者长文本数据中识别出命名实体的网络模型,比如命名实体识别模型可以用于抽取文本数据中的人名、地点、企业名、机构名等实体类字词。关键词提取模型可以用于从文本数据或者长文本数据中识别出关键词的网络模型,比如关键词提取模型用于抽取文本数据中的银行卡号、理财产品存期、理财产品利率、起点金额、购买金额等关键词信息。
具体地,词嵌入层输出的词向量与命名实体识别模型的输入向量的维度不同,词嵌入层输出的词向量与关键词提取模型的输入向量的维度也不同,因此通过特征增强层对词向量进行维度变化。将词向量的维度转化至关键词提取模型的输入向量的维度以及命名实体识别模型的输入向量的维度。将维度变化后的词向量输入至命名实体识别模型,命名实体识别模型输出待预测文本数据中的实体类信息。同时,将维度变化后的词向量输入至关键词提取模型,关键词提取模型输出待预测文本数据中的实体类信息。
上述信息抽取方法中,信息抽取模型中设置特征增强层,通过特征增强层提高模型对实体类信息和关键词信息界限的敏感度,将特征增强层的输出分别输入至命名实体识别模型和关键词提取模型进行信息提取,实现将信息抽取拆解为命名实体识别与关键词抽取两个子任务,从而减少信息抽取任务的难度,并提升关键信息抽取的准确率。
在一个实施例中,在信息抽取模型的训练阶段,特征增强层用于将样本文本数据的句法特征、词性特征与词嵌入层输出的词向量进行拼接。
具体地,在使用信息抽取模型进行预测时,特征增强层用于对词向量进行维度变化。在训练信息抽取模型时,特征增强层获取样本文本数据的句法特征和词性特征,并将样本文本数据的句法特征、词性特征与词嵌入层输出的词向量进行融合,比如将句法特征、词性特征拼接在词嵌入层输出的词向量后面,得到包含有句法特征、词性特征的拼接特征。
本实施例中,通过特征增强层为词嵌入层的输出增加词性特征与句法特征实现对模型的特征增强,提高模型对信息界限的敏感度。
在一个实施例中,如图3所示,命名实体识别模型包括依次连接的第一预训练词嵌入层、第一双向LSTM层、第一向量拼接层、第一全连接层和CRF解码层。
具体地,将维度变化后的词向量输入至命名实体识别模型中,通过第一预训练词嵌入层对维度变化后的词向量进行处理,得到第一预训练词嵌入层的输出;通过第一双向LSTM层对第一预训练词嵌入层的输出进行处理,得到第一双向LSTM层的输出;利用第一向量拼接层对第一双向LSTM层的输出进行拼接,得到第一向量拼接层输出的拼接特征;利用第一全连接层对第一向量拼接层输出的拼接特征进行处理,得到第一全连接层的输出;通过CRF解码层对第一全连接层的输出进行约束处理,得到待预测文本数据中的实体类信息。
本实施例中,通过命名实体识别模型中依次连接的第一预训练词嵌入层、第一双向LSTM层、第一向量拼接层、第一全连接层和CRF解码层进行实体类信息的提取,降低了信息抽取的难度,提升模型预测的准确性。
在一个实施例中,如图4所示,关键词提取模型包括依次连接的第二预训练词嵌入层、第二双向LSTM层、第二向量拼接层、注意力层和第二全连接层。
具体地,将维度变化后的词向量输入至关键词提取模型中,通过第二预训练词嵌入层对维度变化后的词向量进行处理,得到第二预训练词嵌入层的输出,通过第二双向LSTM层对第二预训练词嵌入层的输出进行处理,得到第二双向LSTM层的输出,通过第二向量拼接层对第二双向LSTM层的输出进行拼接,得到第二向量拼接层输出的拼接特征,通过注意力层对第二向量拼接层输出的拼接特征进行注意力加权处理,得到注意力层的输出,通过第二全连接层对注意力层的输出进行处理,得到待预测文本数据中的关键词信息。
本实施例中,通过命名实体识别模型中依次连接的第二预训练词嵌入层、第二双向LSTM层、第二向量拼接层、注意力层和第二全连接层进行关键词信息的提取,降低了信息抽取的难度,提升模型预测的准确性。
在一个实施例中,如图5所示,该方法还包括:
S510、获取输入的关键要素信息。
S520、根据实体类信息和关键词信息,对关键要素信息进行校验。
具体地,在电话银行的场景中,客服人员与客户进行语音对话,客户讲述想要购买的产品,客服人员一边根据客户讲述的语音信号确定关键要素信息,一边执行输入操作,将确定的关键要素信息输入至客服操作系统,客服操作系统与服务器通信连接,服务器可以获取到输入的关键要素信息。通过语音识别得到对应的待预测文本数据。服务器获取对应的待预测文本数据,服务器将对应的待预测文本数据输入至信息抽取模型,通过信息抽取模型从对应的待预测文本数据中抽取得到实体类信息和关键词信息。将实体类信息和关键词信息与获取到的关键要素信息进行比较,判断实体类信息和关键词信息与输入的关键要素信息是否一致,若一致,则判定输入的关键要素信息正确,即输入的关键要素信息通过校验,可以向客户操作系统发送输入正确的提示信息。若不一致,则判定输入的关键要素信息有误,即输入的关键要素信息不通过校验,可以向客户操作系统发送输入错误的提示信息。
需要说明的是,服务器获取对应的待预测文本数据的方式:可以是接收客服操作系统发送的待预测文本数据,也可以是接收客服操作系统发送的语音信号,通过语音识别得到待预测文本数据。
示例性地,通过语音识别得到对应的文本数据为“购买XX产品,10000元,存三年”,将该文本数据输入至信息抽取模型,通过信息抽取模型抽取到的实体类信息和关键次信息包括XX产品、10000元、三年。客服人员输入至客户操作系统的关键要素信息包括产品名称、金额信息、存期。利用抽取到的“XX产品、10000元、三年”对输入的“产品名称、金额信息、存期”进行校验。若输入的金额信息为1000,则向客户操作系统发送“金额输入错误,请核对”的第一提示信息。若输入的产品名称为XX产品,则向客户操作系统发送“产品名称输入正确”的第二提示信息。若输入的存期为6年,则向客户操作系统发送“存期输入错误,请核对”的第三提示信息。需要说明的是,可以依次弹出第一提示信息、第二提示信息以及第三提示信息,也可以采用一条提示信息的形式,比如“金额以及存期输入错误,请核对”。
本实施例中,通过获取输入的关键要素信息,并根据实体类信息和关键词信息,对关键要素信息进行校验。实现对客服人员实时操作时的输入信息的质检,不仅可以及时质检客服人员(人工坐席)购买操作是否准确,而且可以及时提醒客户人员,还可以减少不可逆错误发生的几率,有效防范客服人员的操作风险,提升客户体验,确保服务质量效率。
在一个实施例中,如图6所示,该方法还包括:
S610、获取对校验结果的反馈信息。
S620、根据反馈信息,利用待预测文本数据、实体类信息、关键词信息继续对信息抽取模型进行训练,得到更新后的信息抽取模型。
具体地,服务器向客服操作系统返回包括校验结果的提示信息,客服人员可以对校验结果进行确认反馈。响应于客服人与对校验结果的反馈操作,服务器获取反馈信息,反馈信息可以是提示信息正确,也可以是提示信息错误。若反馈信息是提示信息正确,则说明信息抽取模型抽取的实体类信息、关键词信息是正确的,若反馈信息是提示信息错误,则说明信息抽取模型抽取的实体类信息、关键词信息是错误的。可以利用反馈信息,利用待预测文本数据对训练数据集合进行更新,扩大了训练数据集合,且若反馈信息是提示信息正确,还可以利用信息抽取模型抽取的实体类信息、关键词信息为真实标签。因此,根据反馈信息,利用待预测文本数据、实体类信息、关键词信息继续对信息抽取模型进行训练,得到更新后的信息抽取模型。
在一些实施方式中,可以采用T+1的方式对信息抽取模型进行自动训练。具体地,在第T个时间段(比如若干个小时、天、周等),获取客服人员与客户之间对话所对应的待预测文本数据,以及根据客服人员对校验结果反馈操作所产生的反馈信息,确定是否利用该待预测文本数据对信息抽取模型进行更新训练。可以预先设置在第T个时间段对信息抽取模型进行更新训练所使用的训练数据条数,获取在第T个时间段内目标文本数据集合的条数,目标文本数据集合中的文本数据是预测结果的反馈信息为提示信息正确的待预测文本数据。将目标文本数据集合的条数与训练数据条数进行比较,若目标文本数据集合的条数不小于训练数据条数,则从目标文本数据集合获取数量等于训练数据条数的文本数据,对信息抽取模型进行训练,得到更新后的信息抽取模型。若目标文本数据集合的条数小于训练数据条数,则获取目标文本数据集合中的各文本数据,并从练数据集中获取剩余数量的文本数据(剩余数量等于训练数据条数减去目标文本数据集合的条数)。利用目标文本数据集合中的各文本数据以及获取的剩余数量的文本数据,对信息抽取模型进行训练,得到更新后的信息抽取模型。
本实施例中,通过获取对校验结果的反馈信息,并根据反馈信息,利用待预测文本数据、实体类信息、关键词信息继续对信息抽取模型进行训练,得到更新后的信息抽取模型,通过对校验结果的反馈信息实现了对训练数据的自动标注,进行半监督的模型迭代优化训练。
在一个实施例中,如图7所示,提供了一种信息抽取方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
S702、将客服对话语音信号所对应的待预测文本数据输入至信息抽取模型。
其中,信息抽取模型包括词嵌入层、与词嵌入层连接的特征增强层、与特征增强层连接的命名实体识别模型和关键词提取模型。在信息抽取模型的训练阶段,特征增强层用于将样本文本数据的句法特征、词性特征与词嵌入层输出的词向量进行拼接。命名实体识别模型包括依次连接的第一预训练词嵌入层、第一双向LSTM层、第一向量拼接层、第一全连接层和CRF解码层。关键词提取模型包括依次连接的第二预训练词嵌入层、第二双向LSTM层、第二向量拼接层、注意力层和第二全连接层。
S704、通过词嵌入层对待预测文本数据进行嵌入表征,得到待预测文本数据的词向量。
S706、通过特征增强层对词向量进行维度变化,将维度变化后的词向量分别输入至命名实体识别模型和关键词提取模型中进行信息抽取,得到待预测文本数据中的实体类信息和关键词信息。
S708、获取输入的关键要素信息。
S710、根据实体类信息和关键词信息,对关键要素信息进行校验。
S712、获取对校验结果的反馈信息;
S714、根据反馈信息,利用待预测文本数据、实体类信息、关键词信息继续对信息抽取模型进行训练,得到更新后的信息抽取模型。
在一个实施例中,如图8a所示,提供了一种模型训练方法,以该方法应用于图1中服务器为例进行说明,包括以下步骤:
S810、获取训练数据集。
其中,训练数据集包括若干个样本文本数据。具体地,通过对互联网上的海量金融新闻、博客、评论进行爬取,获得海量金融领域文本,同时构建相应的金融领域词汇知识库,对这些数据进行预处理后得到初始训练数据集。利用初始训练数据集对Bert网络模型进行无监督预训练。从初始训练数据集中获取部分文本数据进行标注,得到已有标注的金融领域文书数据,作为训练数据集,训练数据集包括若干个样本文本数据。
S820、将样本文本数据输入至待训练的信息抽取模型。
其中,信息抽取模型包括词嵌入层、与词嵌入层连接的特征增强层、与特征增强层连接的命名实体识别模型和关键词提取模型。具体地,服务器搭建信息抽取模型,训练数据集可以分割为训练集和测试集。利用样本文本数据对待训练的信息抽取模型进行训练。在一些实施方式中,可以获取电话银行应用场景中的真实对话文本数据对模型进行微调训练。需要说明的是,需要对一些数据进行预处理得到模型训练所使用的数据,比如去除多余的网络符号、脏乱语句、非法词汇等。
S830、通过词嵌入层对样本文本数据进行嵌入表征,得到样本文本数据的词向量。
具体地,,词嵌入层可以使用步骤S810中训练得到的Bert网络模型。通过词嵌入层对样本文本数据进行嵌入表征,得到样本文本数据的词向量。
S840、获取样本文本数据的句法特征、词性特征,通过特征增强层将句法特征、词性特征与词向量进行拼接,得到拼接特征。
具体地,特征增强层获取样本文本数据的句法特征和词性特征,并将样本文本数据的句法特征、词性特征与词嵌入层输出的词向量进行融合(如图8b所示),比如将句法特征、词性特征拼接在词嵌入层输出的词向量后面,得到包含有句法特征、词性特征的拼接特征。在一些实施方式中,采用了基于专家知识库的匹配模型,比如通过金融领域中标注的字典,通过匹配的方式找到对应的词性特征与句法特征。
S850、将拼接特征分别输入至命名实体识别模型和关键词提取模型中进行信息抽取,得到样本文本数据中的实体类信息和关键词信息。
具体地,将特征增强层输出的拼接特征输入至命名实体识别模型,命名实体识别模型输出样本文本数据中的实体类信息。同时,将特征增强层输出的拼接特征输入至关键词提取模型,关键词提取模型输出样本文本数据中的实体类信息。
S860、当样本文本数据中的实体类信息和关键词信息满足模型训练停止条件时,停止对信息抽取模型的训练。
具体地,命名实体模型和关键词抽取模型在训练过程中是联合训练的,但损失函数不同,命名实体识别模型采用CRF自带的损失函数,关键词提取模型采用交叉熵损失函数。当满足模型训练停止条件时,停止对信息抽取模型的训练。
本实施例中,通过联合训练学习的方法提高模型性能,通过在信息抽取模型中设置特征增强层,通过特征增强层提高模型对实体类信息和关键词信息界限的敏感度。通过将特征增强层的输出分别输入至命名实体识别模型和关键词提取模型进行信息提取,实现将信息抽取拆解为命名实体识别与关键词抽取两个子任务,从而减少信息抽取任务的难度。
在一个实施例中,如图9所示,词嵌入层采用Bert网络模型,在将样本文本数据输入至待训练的信息抽取模型之前,该方法还包括:
S910、获取金融领域文本数据,金融领域数据包括若干个金融领域词汇。
S920、基于全词掩码对金融领域词汇进行词覆盖处理,利用处理后的金融领域文本数据对Bert网络模型进行无监督预训练。
具体地,对Bert网络模型的无监督训练过程如下:采用全词掩码(whole wordmask)的词覆盖方法,对文本中所对应的金融领域词汇知识库中的词汇进行全文词覆盖处理。同时采用遮蔽语言模型(Masked Language Model,MLM)与下句预测模型(NextSentence Prediction,NSP)两种训练方法对Bert网络模型进行无监督的预训练。
本实施例中,通过基于金融领域的无监督的BERT模型训练方法,使模型更适用于金融领域自然语言处理任务。
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图10所示,提供了一种信息抽取装置1000,包括:文本数据输入模块1010、文本数据嵌入模块1020和实体关键词抽取模块1030,其中:
文本数据输入模块1010,用于将客服对话语音信号所对应的待预测文本数据输入至信息抽取模型,所述信息抽取模型包括词嵌入层、与所述词嵌入层连接的特征增强层、与所述特征增强层连接的命名实体识别模型和关键词提取模型;
文本数据嵌入模块1020,用于通过所述词嵌入层对所述待预测文本数据进行嵌入表征,得到所述待预测文本数据的词向量;
实体关键词抽取模块1030,用于通过所述特征增强层对所述词向量进行维度变化,将维度变化后的词向量分别输入至所述命名实体识别模型和所述关键词提取模型中进行信息抽取,得到所述待预测文本数据中的实体类信息和关键词信息。
在一个实施例中,在所述信息抽取模型的训练阶段,所述特征增强层用于将样本文本数据的句法特征、词性特征与所述词嵌入层输出的词向量进行拼接。
在一个实施例中,所述命名实体识别模型包括依次连接的第一预训练词嵌入层、第一双向LSTM层、第一向量拼接层、第一全连接层和CRF解码层。
在一个实施例中,所述关键词提取模型包括依次连接的第二预训练词嵌入层、第二双向LSTM层、第二向量拼接层、注意力层和第二全连接层。
在一个实施例中,该装置还包括关键要素获取模块和关键要素校验模块;其中:
关键要素获取模块,用于获取输入的关键要素信息;
关键要素校验模块,用于根据所述实体类信息和所述关键词信息,对所述关键要素信息进行校验。
在一个实施例中,该装置包括:反馈信息获取模块和模型继续训练模块;其中:
反馈信息获取模块,用于获取对校验结果的反馈信息;
模型继续训练模块,用于根据所述反馈信息,利用所述待预测文本数据、所述实体类信息、所述关键词信息继续对所述信息抽取模型进行训练,得到更新后的信息抽取模型。
关于信息抽取装置的具体限定可以参见上文中对于信息抽取方法的限定,在此不再赘述。上述信息抽取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,如图11所示,提供了一种模型训练装置1100,该装置包括数据集获取模块1110、文本数据输入模块1120、文本数据嵌入模块1130、文本特征增强模块1140、实体关键词抽取模块1150以及模型停止训练模块1160。
数据集获取模块1110,用于获取训练数据集,所述训练数据集包括若干个样本文本数据;
文本数据输入模块1120,用于将所述样本文本数据输入至待训练的信息抽取模型,所述信息抽取模型包括词嵌入层、与所述词嵌入层连接的特征增强层、与所述特征增强层连接的命名实体识别模型和关键词提取模型;
文本数据嵌入模块1130,用于通过所述词嵌入层对所述样本文本数据进行嵌入表征,得到所述样本文本数据的词向量;
文本特征增强模块1140,用于获取所述样本文本数据的句法特征、词性特征,通过所述特征增强层将所述句法特征、所述词性特征与所述词向量进行拼接,得到拼接特征;
实体关键词抽取模块1150,用于将所述拼接特征分别输入至所述命名实体识别模型和所述关键词提取模型中进行信息抽取,得到所述样本文本数据中的实体类信息和关键词信息;
模型停止训练模块1160,用于当所述样本文本数据中的实体类信息和关键词信息满足模型训练停止条件时,停止对所述信息抽取模型的训练。
在一个实施例中,该装置还包括:
金融文本获取模块,用于获取金融领域文本数据,所述金融领域数据包括若干个金融领域词汇;
词汇覆盖处理模块,用于基于全词掩码对所述金融领域词汇进行词覆盖处理,利用处理后的金融领域文本数据对所述Bert网络模型进行无监督预训练。
关于模型训练装置的具体限定可以参见上文中对于模型训练方法的限定,在此不再赘述。上述模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种信息抽取方法或者模型训练方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述实施例中的方法步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中的方步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (12)

1.一种信息抽取方法,其特征在于,所述方法包括:
将客服对话语音信号所对应的待预测文本数据输入至信息抽取模型,所述信息抽取模型包括词嵌入层、与所述词嵌入层连接的特征增强层、与所述特征增强层连接的命名实体识别模型和关键词提取模型;
通过所述词嵌入层对所述待预测文本数据进行嵌入表征,得到所述待预测文本数据的词向量;
通过所述特征增强层对所述词向量进行维度变化,将维度变化后的词向量分别输入至所述命名实体识别模型和所述关键词提取模型中进行信息抽取,得到所述待预测文本数据中的实体类信息和关键词信息。
2.根据权利要求1所述的方法,其特征在于,在所述信息抽取模型的训练阶段,所述特征增强层用于将样本文本数据的句法特征、词性特征与所述词嵌入层输出的词向量进行拼接。
3.根据权利要求1所述的方法,其特征在于,所述命名实体识别模型包括依次连接的第一预训练词嵌入层、第一双向LSTM层、第一向量拼接层、第一全连接层和CRF解码层。
4.根据权利要求1所述的方法,其特征在于,所述关键词提取模型包括依次连接的第二预训练词嵌入层、第二双向LSTM层、第二向量拼接层、注意力层和第二全连接层。
5.根据权利要求1至4任意一项所述的方法,其特征在于,所述方法还包括:
获取输入的关键要素信息;
根据所述实体类信息和所述关键词信息,对所述关键要素信息进行校验。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取对校验结果的反馈信息;
根据所述反馈信息,利用所述待预测文本数据、所述实体类信息、所述关键词信息继续对所述信息抽取模型进行训练,得到更新后的信息抽取模型。
7.一种模型训练方法,其特征在于,所述方法包括:
获取训练数据集,所述训练数据集包括若干个样本文本数据;
将所述样本文本数据输入至待训练的信息抽取模型,所述信息抽取模型包括词嵌入层、与所述词嵌入层连接的特征增强层、与所述特征增强层连接的命名实体识别模型和关键词提取模型;
通过所述词嵌入层对所述样本文本数据进行嵌入表征,得到所述样本文本数据的词向量;
获取所述样本文本数据的句法特征、词性特征,通过所述特征增强层将所述句法特征、所述词性特征与所述词向量进行拼接,得到拼接特征;
将所述拼接特征分别输入至所述命名实体识别模型和所述关键词提取模型中进行信息抽取,得到所述样本文本数据中的实体类信息和关键词信息;
当所述样本文本数据中的实体类信息和关键词信息满足模型训练停止条件时,停止对所述信息抽取模型的训练。
8.根据权利要求6所述的方法,其特征在于,所述词嵌入层采用Bert网络模型,在所述将所述样本文本数据输入至待训练的信息抽取模型之前,所述方法还包括:
获取金融领域文本数据,所述金融领域数据包括若干个金融领域词汇;
基于全词掩码对所述金融领域词汇进行词覆盖处理,利用处理后的金融领域文本数据对所述Bert网络模型进行无监督预训练。
9.一种信息抽取装置,其特征在于,所述装置包括:
文本数据输入模块,用于将客服对话语音信号所对应的待预测文本数据输入至信息抽取模型,所述信息抽取模型包括词嵌入层、与所述词嵌入层连接的特征增强层、与所述特征增强层连接的命名实体识别模型和关键词提取模型;
文本数据嵌入模块,用于通过所述词嵌入层对所述待预测文本数据进行嵌入表征,得到所述待预测文本数据的词向量;
实体关键词抽取模块,用于通过所述特征增强层对所述词向量进行维度变化,将维度变化后的词向量分别输入至所述命名实体识别模型和所述关键词提取模型中进行信息抽取,得到所述待预测文本数据中的实体类信息和关键词信息。
10.一种模型训练装置,其特征在于,所述装置包括:
数据集获取模块,用于获取训练数据集,所述训练数据集包括若干个样本文本数据;
文本数据输入模块,用于将所述样本文本数据输入至待训练的信息抽取模型,所述信息抽取模型包括词嵌入层、与所述词嵌入层连接的特征增强层、与所述特征增强层连接的命名实体识别模型和关键词提取模型;
文本数据嵌入模块,用于通过所述词嵌入层对所述样本文本数据进行嵌入表征,得到所述样本文本数据的词向量;
文本特征增强模块,用于获取所述样本文本数据的句法特征、词性特征,通过所述特征增强层将所述句法特征、所述词性特征与所述词向量进行拼接,得到拼接特征;
实体关键词抽取模块,用于将所述拼接特征分别输入至所述命名实体识别模型和所述关键词提取模型中进行信息抽取,得到所述样本文本数据中的实体类信息和关键词信息;
模型停止训练模块,用于当所述样本文本数据中的实体类信息和关键词信息满足模型训练停止条件时,停止对所述信息抽取模型的训练。
11.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
CN202110887160.2A 2021-08-03 2021-08-03 信息抽取、模型训练方法、装置、计算机设备和存储介质 Pending CN113688215A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110887160.2A CN113688215A (zh) 2021-08-03 2021-08-03 信息抽取、模型训练方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110887160.2A CN113688215A (zh) 2021-08-03 2021-08-03 信息抽取、模型训练方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN113688215A true CN113688215A (zh) 2021-11-23

Family

ID=78578646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110887160.2A Pending CN113688215A (zh) 2021-08-03 2021-08-03 信息抽取、模型训练方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN113688215A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115204164A (zh) * 2022-09-13 2022-10-18 国网湖北省电力有限公司信息通信公司 一种电力系统通信敏感信息识别方法、系统及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851570A (zh) * 2019-11-14 2020-02-28 中山大学 基于Embedding技术的无监督关键词提取方法
US20200380211A1 (en) * 2019-05-31 2020-12-03 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus, computer device and readable medium for knowledge hierarchical extraction of a text
CN112434535A (zh) * 2020-11-24 2021-03-02 上海浦东发展银行股份有限公司 基于多模型的要素抽取方法、装置、设备及存储介质
CN112818694A (zh) * 2021-03-02 2021-05-18 浙江工业大学 一种基于规则和改进预训练模型的命名实体识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200380211A1 (en) * 2019-05-31 2020-12-03 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus, computer device and readable medium for knowledge hierarchical extraction of a text
CN110851570A (zh) * 2019-11-14 2020-02-28 中山大学 基于Embedding技术的无监督关键词提取方法
CN112434535A (zh) * 2020-11-24 2021-03-02 上海浦东发展银行股份有限公司 基于多模型的要素抽取方法、装置、设备及存储介质
CN112818694A (zh) * 2021-03-02 2021-05-18 浙江工业大学 一种基于规则和改进预训练模型的命名实体识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115204164A (zh) * 2022-09-13 2022-10-18 国网湖北省电力有限公司信息通信公司 一种电力系统通信敏感信息识别方法、系统及存储介质
CN115204164B (zh) * 2022-09-13 2022-12-02 国网湖北省电力有限公司信息通信公司 一种电力系统通信敏感信息识别方法、系统及存储介质

Similar Documents

Publication Publication Date Title
US11775761B2 (en) Method and apparatus for mining entity focus in text
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN110569500A (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN109766418B (zh) 用于输出信息的方法和装置
CN110866098B (zh) 基于transformer和lstm的机器阅读方法、装置及可读存储介质
CN111223476B (zh) 语音特征向量的提取方法、装置、计算机设备和存储介质
US11238050B2 (en) Method and apparatus for determining response for user input data, and medium
US20220319493A1 (en) Learning device, learning method, learning program, retrieval device, retrieval method, and retrieval program
CN111859916B (zh) 古诗关键词提取、诗句生成方法、装置、设备及介质
CN111930914A (zh) 问题生成方法和装置、电子设备以及计算机可读存储介质
CN111985243B (zh) 情感模型的训练方法、情感分析方法、装置及存储介质
CN112417855A (zh) 文本意图识别方法、装置以及相关设备
CN113254613A (zh) 对话问答方法、装置、设备及存储介质
CN111859914B (zh) 敏感信息检测方法、装置、计算机设备及存储介质
CN113240510A (zh) 异常用户预测方法、装置、设备及存储介质
CN115495553A (zh) 查询文本排序方法、装置、计算机设备及存储介质
CN114218945A (zh) 实体识别方法、装置、服务器及存储介质
CN113190702A (zh) 用于生成信息的方法和装置
US11036996B2 (en) Method and apparatus for determining (raw) video materials for news
CN107766498A (zh) 用于生成信息的方法和装置
CN113688215A (zh) 信息抽取、模型训练方法、装置、计算机设备和存储介质
CN113051384A (zh) 基于对话的用户画像抽取方法及相关装置
CN112581297A (zh) 基于人工智能的信息推送方法、装置及计算机设备
CN112231556A (zh) 基于对话场景的用户画像方法、装置、设备及介质
US20230244878A1 (en) Extracting conversational relationships based on speaker prediction and trigger word prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination