CN112069820B - 模型训练方法、模型训练装置和实体抽取方法 - Google Patents
模型训练方法、模型训练装置和实体抽取方法 Download PDFInfo
- Publication number
- CN112069820B CN112069820B CN202010944981.0A CN202010944981A CN112069820B CN 112069820 B CN112069820 B CN 112069820B CN 202010944981 A CN202010944981 A CN 202010944981A CN 112069820 B CN112069820 B CN 112069820B
- Authority
- CN
- China
- Prior art keywords
- training
- model
- data
- text sequence
- output matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 263
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000000605 extraction Methods 0.000 title claims abstract description 43
- 238000012545 processing Methods 0.000 claims abstract description 41
- 239000011159 matrix material Substances 0.000 claims description 44
- 230000006870 function Effects 0.000 claims description 36
- 239000013598 vector Substances 0.000 claims description 34
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 102000006822 Agouti Signaling Protein Human genes 0.000 description 1
- 108010072151 Agouti Signaling Protein Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供的模型训练方法、模型训练装置和实体抽取方法,涉及数据处理技术领域。模型训练方法应用于电子设备,模型训练方法包括:首先,获取训练数据并根据训练数据对预设模型进行训练,得到第一训练模型;其次,根据第一训练模型的部分参数得到第二训练模型;然后,根据第一训练模型与第二训练模型之间的损失函数对第二训练模型进行训练,得到实体抽取模型。通过上述设置,使得小规模的第二训练模型实现第一训练模型的功能,从而在不降低准确率的前提下减少模型规模,提高了模型预测和推理的效率。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种模型训练方法、模型训练装置和实体抽取方法。
背景技术
近几年,深度学习技术的发展使得人工智能受到了世界范围内的广泛关注,自然语言处理技术更是人工智能领域的重要研究方向之一,在近几年的各种领域的研究中都取得了重大突破。预训练模型的发展大大推进了自然语言处理的发展,在包括实体抽取在内的众多自然语言处理任务中都取得了较好的效果。
但是,经发明人研究发现,在现有技术中,在实际工业部署场景下,由于模型的规模过大,预训练模型的推理需要较高的设备成本和时间成本,从而存在着模型预测和推理效率低的问题。
发明内容
有鉴于此,本申请的目的在于提供一种模型训练方法、模型训练装置和实体抽取方法,以改善现有技术中存在的问题。
为实现上述目的,本申请实施例采用如下技术方案:
一种模型训练方法,应用于电子设备,所述模型训练方法包括:
获取训练数据并根据所述训练数据对预设模型进行训练,得到第一训练模型;
根据所述第一训练模型的部分参数得到第二训练模型;
根据所述第一训练模型与所述第二训练模型之间的损失函数对所述第二训练模型进行训练,得到实体抽取模型。
在本申请实施例较佳的选择中,所述根据所述训练数据对预设模型进行训练,得到第一训练模型的步骤,包括:
对所述训练数据进行预处理,得到所述训练数据对应的文本序列和标签数据;
根据预设模型对所述文本序列和所述标签数据进行概率计算处理,得到概率值,其中,所述概率值表征文本序列对应的字向量与所述标签数据的对应关系;
根据所述概率值对所述预设模型进行训练,得到第一训练模型。
在本申请实施例较佳的选择中,所述根据预设模型对所述文本序列和所述标签数据进行概率计算处理,得到概率值的步骤,包括:
对所述文本序列进行词嵌入处理,得到所述文本序列对应的字向量序列;
对所述字向量序列进行特征提取处理,得到所述字向量序列对应的隐状态矩阵;
根据所述隐状态矩阵和所述标签数据进行计算,得到概率值。
在本申请实施例较佳的选择中,所述根据所述隐状态矩阵和所述标签数据进行计算,得到概率值的步骤,包括:
根据所述隐状态矩阵和标签数据计算得到所述字向量序列与所述标签数据的打分值,其中,所述打分值表征所述字向量序列包括的字向量与所述标签数据的对应关系;
对所述打分值进行归一化处理,得到概率值。
在本申请实施例较佳的选择中,所述根据所述第一训练模型与所述第二训练模型之间的损失函数对所述第二训练模型进行训练,得到实体抽取模型的步骤,包括:
根据所述第一训练模型对所述文本序列进行词嵌入处理,得到第一输出矩阵,根据所述第二训练模型对所述文本序列进行词嵌入处理,得到第二输出矩阵;
根据所述第一输出矩阵与第二输出矩阵之间的损失函数对所述第二训练模型进行训练,直至所述第一输出矩阵与基于训练后的第二训练模型得到的新的第二输出矩阵之间的损失函数满足预设条件,得到实体抽取模型。
在本申请实施例较佳的选择中,所述对所述训练数据进行预处理,得到所述训练数据对应的文本序列和标签数据的步骤,包括:
对所述训练数据进行分字处理,得到所述训练数据对应的文本序列;
对所述训练数据进行标注处理,得到所述训练数据对应的标签数据。
本申请实施例还提供了一种实体抽取方法,应用于电子设备,所述实体抽取方法包括:
根据上述的实体抽取模型对待处理文本信息进行实体抽取处理,得到所述待处理文本信息对应的实体信息。
本申请实施例还提供了一种模型训练装置,包括:
第一模型训练模块,用于获取训练数据并根据所述训练数据对预设模型进行训练,得到第一训练模型;
第二训练模型获取模块,用于根据所述第一训练模型的部分参数得到第二训练模型;
第二模型训练模块,用于根据所述第一训练模型与所述第二训练模型之间的损失函数对所述第二训练模型进行训练,得到实体抽取模型。
本申请实施例还提供了一种电子设备,包括存储器和处理器,所述处理器用于执行所述存储器中存储的可执行的计算机程序,以实现上述的模型训练方法。
本申请实施例还提供了一种存储介质,其上存储有计算机程序,该程序被执行时实现上述模型训练方法的步骤。
本申请实施例提供的模型训练方法、模型训练装置和实体抽取方法,根据训练后的第一训练模型的部分参数得到第二训练模型,根据第一训练模型与第二训练模型之间的损失函数对第二训练模型进行训练,得到实体抽取模型,使得小规模的第二训练模型实现第一训练模型的功能,从而在不降低准确率的前提下减少模型规模,避免了现有技术中由于模型的规模过大,预训练模型的推理需要较高的设备成本和时间成本,所导致的模型预测和推理效率低的问题。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的电子设备的结构框图。
图2为本申请实施例提供的模型训练方法的流程示意图。
图3为本申请实施例提供的模型训练方法的另一流程示意图。
图4为本申请实施例提供的模型训练方法的另一流程示意图。
图5为本申请实施例提供的模型训练方法的另一流程示意图。
图6为本申请实施例提供的模型训练方法的另一流程示意图。
图7为本申请实施例提供的模型训练方法的另一流程示意图。
图8为本申请实施例提供的模型训练装置的结构框图。
图标:100-电子设备;110-网络端口;120-第一处理器;130-通信总线; 140-第一存储介质;150-接口;800-模型训练装置;810-第一模型训练模块; 820-第二训练模型获取模块;830-第二模型训练模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行详细地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了使得本领域技术人员能够使用本申请内容,给出以下实施方式。对于本领域技术人员来说,在不脱离本申请的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用场景。本申请的系统或方法的应用可以包括网页、浏览器的插件、客户端终端、定制系统、内部分析系统、或人工智能机器人等,或其任意组合。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
图1示出根据本申请的一些实施例的可以实现本申请思想的电子设备 100的示例性硬件和软件组件的示意图。电子设备100可以包括连接到网络的网络端口110、用于执行程序指令的一个或多个第一处理器120、通信总线130和不同形式的第一存储介质140,例如,磁盘、ROM、或RAM,或其任意组合。示例性地,电子设备100还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质或其任意组合中的程序指令,根据这些程序指令可以实现本申请的方法。电子设备100还可以包括与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(Input/Output,I/O)接口150。
在一些实施例中,第一处理器120可以处理与模型训练有关的信息和/ 或数据,以执行本申请中描述的一个或多个功能。在一些实施例中,第一处理器120可以包括一个或多个处理核(例如,单核处理器(S)或多核处理器(S))。仅作为举例,第一处理器120可以包括中央处理单元(Central Processing Unit,CPU)、专用集成电路(Application SpecificIntegrated Circuit, ASIC)、专用指令集处理器(Application Specific Instruction-set Processor, ASIP)、图形处理单元(Graphics Processing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器(Digital Signal Processor, DSP)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、简化指令集计算机(ReducedInstruction Set Computing,RISC)或微处理器等,或其任意组合。
电子设备100中的第一处理器120可以是通用计算机或设定用途的计算机,两者都可以用于实现本申请的方法。本申请尽管仅示出了一个计算机,但是为了方便起见,可以在多个类似平台上以分布式方式实现本申请描述的功能,以均衡处理负载。
为了便于说明,在电子设备100中仅描述了一个处理器。然而,应当注意,本申请中的电子设备100还可以包括多个处理器,因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如,若电子设备100的处理器执行步骤A和步骤B,则应该理解,步骤A 和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如,第一个处理器执行步骤A,第二个处理器执行步骤B,或者第一个处理器和第二个处理器共同执行步骤A和B。
网络可以用于信息和/或数据的交换。在一些实施例中,电子设备100 中的一个或多个组件可以向其他组件发送信息和/或数据。例如,电子设备 100可以经由网络获取信号。仅作为示例,网络可以包括无线网络、远程通信网络、内联网、因特网、局域网(LocalArea Network,LAN)、广域网(Wide Area Network,WAN)、无线局域网(Wireless LocalArea Networks,WLAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide AreaNetwork, WAN)、蓝牙网络、ZigBee网络、或近场通信(Near Field Communication, NFC)网络等,或其任意组合。
在一些实施例中,网络可以包括一个或多个网络接入点。例如,网络可以包括有线或无线网络接入点,例如基站和/或网络交换节点,电子设备 100的一个或多个组件可以通过该接入点连接到网络以交换数据和/或信息。
结合图2,本申请实施例还提供了一种模型训练方法,其可以被应用于图1所示的电子设备100,模型训练方法可以包括:
步骤S210,获取训练数据并根据训练数据对预设模型进行训练,得到第一训练模型。
详细地,在获取训练数据之后,可以根据训练数据训练预设模型,得到第一训练模型。
步骤S220,根据第一训练模型的部分参数得到第二训练模型。
详细地,通过步骤S210得到第一训练模型之后,可以根据第一训练模型的部分参数得到第二训练模型。
步骤S230,根据第一训练模型与第二训练模型之间的损失函数对第二训练模型进行训练,得到实体抽取模型。
详细地,通过步骤S220得到第二训练模型之后,可以根据第一训练模型与第二训练模型之间的损失函数对第二训练模型进行训练,得到实体抽取模型。
通过上述方法,根据训练后的第一训练模型的部分参数得到第二训练模型,根据第一训练模型与第二训练模型之间的损失函数对第二训练模型进行训练,得到实体抽取模型,使得小规模的第二训练模型实现第一训练模型的功能,从而在不降低准确率的前提下减少模型规模,避免了现有技术中由于模型的规模过大,预训练模型的推理需要较高的设备成本和时间成本,所导致的模型预测和推理效率低的问题。
对于步骤S210,需要说明的是,进行模型训练的具体步骤不受限制,可以根据实际应用需求进行设置。例如,在一种可以替代的示例中,步骤 S210可以包括对训练数据进行预处理的步骤。因此,在图2的基础上,图 3为本申请实施例提供的另一种模型训练方法的流程示意图,参见图3,步骤S210可以包括:
步骤S211,对训练数据进行预处理,得到训练数据对应的文本序列和标签数据。
步骤S212,根据预设模型对文本序列和标签数据进行概率计算处理,得到概率值。
其中,概率值表征文本序列对应的字向量与标签数据的对应关系。
步骤S213,根据概率值对预设模型进行训练,得到第一训练模型。
对于步骤S211,需要说明的是,进行预处理的具体步骤不受限制,可以根据实际应用需求进行设置。例如,在一种可以替代的示例中,步骤S211 可以包括对训练数据进行分字处理和标注处理的步骤。因此,在图3的基础上,图4为本申请实施例提供的另一种模型训练方法的流程示意图,参见图4,步骤S211可以包括:
步骤S2111,对训练数据进行分字处理,得到训练数据对应的文本序列。
步骤S2112,对训练数据进行标注处理,得到训练数据对应的标签数据。
对于步骤S2111,需要说明的是,可以对训练数据进行处理,得到训练数据对应的句子序列,针对句子序列的每一个句子,可以通过WordPiece 工具进行分字处理,得到该句子对应的单词序列X=(x1,x2,…,xn),其中xi代表该句子中的第i个字,n表示句子中字的数量,每个句子的单词序列组成文本序列。
对于步骤S2112,需要说明的是,可以通过BIO标注法以字为单位对训练数据进行标注,B是实体的开始标签,I表示实体的中间标签,O表示其他标签。其中,实体可以包括时间、地名、人名、机构、物品、金额等信息,例如“B-时间”就代表时间实体的开始标签,所以6个实体标签和B、 I两个标签可以组合成12种标签,加上非实体的O标签,可以得到13类标签。
对于步骤S212,需要说明的是,进行概率计算处理的具体步骤不受限制,可以根据实际应用需求进行设置。例如,在一种可以替代的示例中,步骤S212可以包括对文本序列进行词嵌入处理的步骤。因此,在图3的基础上,图5为本申请实施例提供的另一种模型训练方法的流程示意图,参见图5,步骤S212可以包括:
步骤S2121,对文本序列进行词嵌入处理,得到文本序列对应的字向量序列。
步骤S2122,对字向量序列进行特征提取处理,得到字向量序列对应的隐状态矩阵。
步骤S2123,根据隐状态矩阵和标签数据进行计算,得到概率值。
对于步骤S2121,需要说明的是,可以将预设模型包括的由12层 Transformer构成的预训练模型BERT作为词嵌入工具,对文本序列进行词嵌入处理,得到字向量序列E=(e1,e2,…,en),ei是一个对应输入字xi的字向量。对于文本序列包括的每个句子的单词序列,计算公式可以为E=BERT(X)。
对于步骤S2122,需要说明的是,可以通过预设模型包括的BiLSTM模块作为字向量的特征提取器,用于读取上下文,将字向量序列输入BiLSTM 模块中,可以得到包括字向量上下文关系的隐状态矩阵,计算公式可以为 H=BiLSTM(E)。
对于步骤S2123,需要说明的是,计算概率值的具体步骤不受限制,可以根据实际应用需求进行设置。例如,在一种可以替代的示例中,步骤S2123 可以包括进行归一化处理的步骤。因此,在图5的基础上,图6为本申请实施例提供的另一种模型训练方法的流程示意图,参见图6,步骤S2123 可以包括:
步骤S2123A,根据隐状态矩阵和标签数据计算得到字向量序列与标签数据的打分值。
其中,打分值表征字向量序列包括的字向量与标签数据的对应关系。
步骤S2123B,对打分值进行归一化处理,得到概率值。
对于步骤S2123A,需要说明的是,可以通过条件随机场算法CRF对标签数据进行计算得到上下标签的转移得分,根据隐状态矩阵和标签数据得到字向量映射到标签的发射得分,根据上下标签的转移得分和字向量映射到标签的发射得分计算得到字向量序列与标签数据的打分值。也就是说,可以基于BiLSTM模块得到的隐状态矩阵H,使用条件随机场作为预设模型的输出层与分类器,用于学习上下标签之间的约束关系,计算公式可以为:
其中,表示从标签yi-1到标签yi的转移得分,/>表示第i个字向量映射到标签yi的发射得分,score(Y,X)表示字向量序列与标签数据的打分值, n表示句子中字的数量。
对于步骤S2123B,需要说明的是,可以通过预设模型包括的softmax 模块对打分值进行归一化处理,得到概率值,计算公式可以为 p(Y|X)=softmax(score(Y,X)),p(Y|X)为概率值。
对于步骤S213,需要说明的是,可以使用最大似然函数Loss=-log(p(Y|X)) 根据概率值对预设模型进行训练,将最大似然函数作为损失函数,以最大化这个条件概率,即对该函数进行随机梯度下降,让Loss最小化,逐步优化模型参数,得到第一训练模型。
对于步骤S220,需要说明的是,可以构建一个包括6层Transformer 的“学生”模型,为了加快计算,可以将第一训练模型的前6层参数作为“学生”模型的初始参数进行初始化处理,从而得到第二训练模型。
对于步骤S230,需要说明的是,模型训练的具体步骤不受限制,可以根据实际应用需求进行设置。例如,在一种可以替代的示例中,步骤S230 可以包括进行词嵌入处理的步骤。因此,在图2的基础上,图7为本申请实施例提供的另一种模型训练方法的流程示意图,参见图7,步骤S230可以包括:
步骤S231,根据第一训练模型对文本序列进行词嵌入处理,得到第一输出矩阵,根据第二训练模型对文本序列进行词嵌入处理,得到第二输出矩阵。
详细地,可以将第一训练模型BERT作为“教师”模型,对文本序列进行词嵌入处理,得到第一输出矩阵E,计算公式可以为E=BERT(X);根据第二训练模型对同样的文本序列进行词嵌入处理,得到第二输出矩阵Estu,计算公式可以为Estu=Student(X)。
步骤S232,根据第一输出矩阵与第二输出矩阵之间的损失函数对第二训练模型进行训练,直至第一输出矩阵与基于训练后的第二训练模型得到的新的第二输出矩阵之间的损失函数满足预设条件,得到实体抽取模型。
详细地,可以将BERT教师模型的输出向量,作为学生模型训练使用的软标签,并使用均方差损失函数作为训练的损失函数:
其中,和ei分别为第二输出矩阵Estu和第一输出矩阵E中的具体向量。 n表示句子中字的数量。根据损失函数Loss对第二训练模型进行训练,直至第一输出矩阵与基于训练后的第二训练模型得到的新的第二输出矩阵之间的损失函数满足预设条件,得到实体抽取模型。
需要说明的是,预设条件可以为Loss最小化,从而实现在不降低模型准确率的前提下,减少模型参数量,提高计算速度。为了更好地优化“学生”模型的效果,可以使用训练数据再对第二训练模型进行一次小幅度的微调,具体过程与训练第一训练模型的步骤相同。
在完成实体抽取模型的训练后,使用该模型即可完成从文本信息中进行实体抽取的任务,只需要输入待处理文本信息,该模型即可输出其包含的实体信息。进一步地,本申请实施例还提供了一种事件抽取方法,该事件抽取方法应用上述模型训练方法得到的事件抽取模型。事件抽取方法可以被应用于图1所示的电子设备100,事件抽取方法可以包括:
根据上述的实体抽取模型对待处理文本信息进行实体抽取处理,得到待处理文本信息对应的实体信息。
详细地,可以对待处理文本信息进行处理得到对应的待处理文本序列,将待处理文本序列输入实体抽取模型,得到对应的实体信息。
结合图8,本申请实施例还提供了一种模型训练装置800,该模型训练装置800实现的功能对应上述方法执行的步骤。该模型训练装置800可以理解为上述电子设备100的处理器,也可以理解为独立于上述电子设备100 或处理器之外的在电子设备100控制下实现本申请功能的组件。其中,模型训练装置800可以包括第一模型训练模块810、第二训练模型获取模块 820和第二模型训练模块830。
第一模型训练模块810,用于获取训练数据并根据训练数据对预设模型进行训练,得到第一训练模型。在本申请实施例中,第一模型训练模块810 可以用于执行图2所示的步骤S210,关于第一模型训练模块810的相关内容可以参照前文对步骤S210的描述。
第二训练模型获取模块820,用于根据第一训练模型的部分参数得到第二训练模型。在本申请实施例中,第二训练模型获取模块820可以用于执行图2所示的步骤S220,关于第二训练模型获取模块820的相关内容可以参照前文对步骤S220的描述。
第二模型训练模块830,用于根据第一训练模型与第二训练模型之间的损失函数对第二训练模型进行训练,得到实体抽取模型。在本申请实施例中,第二模型训练模块830可以用于执行图2所示的步骤S230,关于第二模型训练模块830的相关内容可以参照前文对步骤S230的描述。
此外,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述模型训练方法的步骤。
本申请实施例所提供的模型训练方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,程序代码包括的指令可用于执行上述方法实施例中的模型训练方法的步骤,具体可参见上述方法实施例,在此不再赘述。
综上所述,本申请实施例提供的模型训练方法、模型训练装置和实体抽取方法,根据训练后的第一训练模型的部分参数得到第二训练模型,根据第一训练模型与第二训练模型之间的损失函数对第二训练模型进行训练,得到实体抽取模型,使得小规模的第二训练模型实现第一训练模型的功能,从而在不降低准确率的前提下减少模型规模,避免了现有技术中由于模型的规模过大,预训练模型的推理需要较高的设备成本和时间成本,所导致的模型预测和推理效率低的问题。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/ 或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (8)
1.一种模型训练方法,其特征在于,应用于电子设备,所述模型训练方法包括:
获取训练数据并根据所述训练数据对预设模型进行训练,得到第一训练模型,包括:对所述训练数据进行预处理,得到所述训练数据对应的文本序列和标签数据;根据预设模型对所述文本序列和所述标签数据进行概率计算处理,得到概率值,其中,所述概率值表征文本序列对应的字向量与所述标签数据的对应关系;根据所述概率值对所述预设模型进行训练,得到第一训练模型;
根据所述第一训练模型的部分参数得到第二训练模型;
根据所述第一训练模型与所述第二训练模型之间的损失函数对所述第二训练模型进行训练,得到实体抽取模型,包括:根据所述第一训练模型对所述文本序列进行词嵌入处理,得到第一输出矩阵,根据所述第二训练模型对所述文本序列进行词嵌入处理,得到第二输出矩阵;根据所述第一输出矩阵与第二输出矩阵之间的损失函数对所述第二训练模型进行训练,直至所述第一输出矩阵与基于训练后的第二训练模型得到的新的第二输出矩阵之间的损失函数满足预设条件,得到实体抽取模型。
2.如权利要求1所述的模型训练方法,其特征在于,所述根据预设模型对所述文本序列和所述标签数据进行概率计算处理,得到概率值的步骤,包括:
对所述文本序列进行词嵌入处理,得到所述文本序列对应的字向量序列;
对所述字向量序列进行特征提取处理,得到所述字向量序列对应的隐状态矩阵;
根据所述隐状态矩阵和所述标签数据进行计算,得到概率值。
3.如权利要求2所述的模型训练方法,其特征在于,所述根据所述隐状态矩阵和所述标签数据进行计算,得到概率值的步骤,包括:
根据所述隐状态矩阵和标签数据计算得到所述字向量序列与所述标签数据的打分值,其中,所述打分值表征所述字向量序列包括的字向量与所述标签数据的对应关系;
对所述打分值进行归一化处理,得到概率值。
4.如权利要求1所述的模型训练方法,其特征在于,所述对所述训练数据进行预处理,得到所述训练数据对应的文本序列和标签数据的步骤,包括:
对所述训练数据进行分字处理,得到所述训练数据对应的文本序列;
对所述训练数据进行标注处理,得到所述训练数据对应的标签数据。
5.一种实体抽取方法,其特征在于,应用于电子设备,所述实体抽取方法包括:
根据权利要求1-4任意一项所述的实体抽取模型对待处理文本信息进行实体抽取处理,得到所述待处理文本信息对应的实体信息。
6.一种模型训练装置,其特征在于,包括:
第一模型训练模块,用于获取训练数据并根据所述训练数据对预设模型进行训练,得到第一训练模型,包括:对所述训练数据进行预处理,得到所述训练数据对应的文本序列和标签数据;根据预设模型对所述文本序列和所述标签数据进行概率计算处理,得到概率值,其中,所述概率值表征文本序列对应的字向量与所述标签数据的对应关系;根据所述概率值对所述预设模型进行训练,得到第一训练模型;
第二训练模型获取模块,用于根据所述第一训练模型的部分参数得到第二训练模型;
第二模型训练模块,用于根据所述第一训练模型与所述第二训练模型之间的损失函数对所述第二训练模型进行训练,得到实体抽取模型,包括:根据所述第一训练模型对所述文本序列进行词嵌入处理,得到第一输出矩阵,根据所述第二训练模型对所述文本序列进行词嵌入处理,得到第二输出矩阵;根据所述第一输出矩阵与第二输出矩阵之间的损失函数对所述第二训练模型进行训练,直至所述第一输出矩阵与基于训练后的第二训练模型得到的新的第二输出矩阵之间的损失函数满足预设条件,得到实体抽取模型。
7.一种电子设备,其特征在于,包括存储器和处理器,所述处理器用于执行所述存储器中存储的可执行的计算机程序,以实现权利要求1-4任意一项所述的模型训练方法。
8.一种存储介质,其特征在于,其上存储有计算机程序,该程序被执行时实现权利要求1-4任意一项所述模型训练方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010944981.0A CN112069820B (zh) | 2020-09-10 | 2020-09-10 | 模型训练方法、模型训练装置和实体抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010944981.0A CN112069820B (zh) | 2020-09-10 | 2020-09-10 | 模型训练方法、模型训练装置和实体抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112069820A CN112069820A (zh) | 2020-12-11 |
CN112069820B true CN112069820B (zh) | 2024-05-24 |
Family
ID=73663355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010944981.0A Active CN112069820B (zh) | 2020-09-10 | 2020-09-10 | 模型训练方法、模型训练装置和实体抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112069820B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113901799B (zh) * | 2021-12-07 | 2022-03-08 | 苏州浪潮智能科技有限公司 | 模型训练、文本预测方法、装置、电子设备及介质 |
CN117406170A (zh) * | 2023-12-15 | 2024-01-16 | 中科华芯(东莞)科技有限公司 | 一种基于超宽带的定位方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108268632A (zh) * | 2018-01-16 | 2018-07-10 | 中国人民解放军海军航空大学 | 异常情报数据识别机器学习方法 |
CN109284684A (zh) * | 2018-08-21 | 2019-01-29 | Oppo广东移动通信有限公司 | 一种信息处理方法、装置以及计算机存储介质 |
US10379995B1 (en) * | 2018-07-06 | 2019-08-13 | Capital One Services, Llc | Systems and methods to identify breaking application program interface changes |
CN110457682A (zh) * | 2019-07-11 | 2019-11-15 | 新华三大数据技术有限公司 | 电子病历词性标注方法、模型训练方法及相关装置 |
CN111261282A (zh) * | 2020-01-21 | 2020-06-09 | 南京航空航天大学 | 一种基于机器学习的脓毒症早期预测方法 |
CN111274422A (zh) * | 2018-12-04 | 2020-06-12 | 北京嘀嘀无限科技发展有限公司 | 模型训练方法、图像特征提取方法、装置及电子设备 |
CN111354354A (zh) * | 2018-12-20 | 2020-06-30 | 深圳市优必选科技有限公司 | 一种基于语义识别的训练方法、训练装置及终端设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9646227B2 (en) * | 2014-07-29 | 2017-05-09 | Microsoft Technology Licensing, Llc | Computerized machine learning of interesting video sections |
-
2020
- 2020-09-10 CN CN202010944981.0A patent/CN112069820B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108268632A (zh) * | 2018-01-16 | 2018-07-10 | 中国人民解放军海军航空大学 | 异常情报数据识别机器学习方法 |
US10379995B1 (en) * | 2018-07-06 | 2019-08-13 | Capital One Services, Llc | Systems and methods to identify breaking application program interface changes |
CN109284684A (zh) * | 2018-08-21 | 2019-01-29 | Oppo广东移动通信有限公司 | 一种信息处理方法、装置以及计算机存储介质 |
CN111274422A (zh) * | 2018-12-04 | 2020-06-12 | 北京嘀嘀无限科技发展有限公司 | 模型训练方法、图像特征提取方法、装置及电子设备 |
CN111354354A (zh) * | 2018-12-20 | 2020-06-30 | 深圳市优必选科技有限公司 | 一种基于语义识别的训练方法、训练装置及终端设备 |
CN110457682A (zh) * | 2019-07-11 | 2019-11-15 | 新华三大数据技术有限公司 | 电子病历词性标注方法、模型训练方法及相关装置 |
CN111261282A (zh) * | 2020-01-21 | 2020-06-09 | 南京航空航天大学 | 一种基于机器学习的脓毒症早期预测方法 |
Non-Patent Citations (1)
Title |
---|
基于SVM和CRF的病症实体抽取方法研究;张敏 等;《中国优秀硕士学位论文全文数据库信息科技辑》(第1期);第I138-5565页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112069820A (zh) | 2020-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Which encoding is the best for text classification in chinese, english, japanese and korean? | |
CN110851596A (zh) | 文本分类方法、装置及计算机可读存储介质 | |
CN110298035B (zh) | 基于人工智能的字向量定义方法、装置、设备及存储介质 | |
CN108009148A (zh) | 基于深度学习的文本情感分类表示方法 | |
CN111159485B (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN112069820B (zh) | 模型训练方法、模型训练装置和实体抽取方法 | |
CN109299264A (zh) | 文本分类方法、装置、计算机设备及存储介质 | |
CN111539211A (zh) | 实体及语义关系识别方法、装置、电子设备及存储介质 | |
CN111339780B (zh) | 一种基于多任务模型的词语处理方法及装置 | |
CN110968697B (zh) | 文本分类方法、装置、设备及可读存储介质 | |
CN114897060B (zh) | 样本分类模型的训练方法和装置、样本分类方法和装置 | |
WO2021223882A1 (en) | Prediction explanation in machine learning classifiers | |
CN114372465A (zh) | 基于Mixup和BQRNN的法律命名实体识别方法 | |
CN115700515A (zh) | 文本多标签分类方法及装置 | |
CN116258137A (zh) | 文本纠错方法、装置、设备和存储介质 | |
CN111241843B (zh) | 基于复合神经网络的语义关系推断系统和方法 | |
CN108875024B (zh) | 文本分类方法、系统、可读存储介质及电子设备 | |
CN112132281B (zh) | 一种基于人工智能的模型训练方法、装置、服务器及介质 | |
CN107741943B (zh) | 一种结合实体图像的知识表示学习方法及服务器 | |
CN111723186A (zh) | 用于对话系统的基于人工智能的知识图谱生成方法、电子设备 | |
CN111680519A (zh) | 基于降维桶模型的文本翻译方法及装置 | |
CN112131879A (zh) | 一种关系抽取系统、方法和装置 | |
CN115757694A (zh) | 招聘行业文本召回方法及系统、设备与介质 | |
Zhao et al. | Commented content classification with deep neural network based on attention mechanism | |
CN110705268B (zh) | 基于人工智能的文章主旨提取方法、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |