CN110738182A - 一种用于高精度识别中标金额的lstm模型单元训练方法及装置 - Google Patents
一种用于高精度识别中标金额的lstm模型单元训练方法及装置 Download PDFInfo
- Publication number
- CN110738182A CN110738182A CN201911001371.0A CN201911001371A CN110738182A CN 110738182 A CN110738182 A CN 110738182A CN 201911001371 A CN201911001371 A CN 201911001371A CN 110738182 A CN110738182 A CN 110738182A
- Authority
- CN
- China
- Prior art keywords
- lstm model
- dimensional
- character vector
- vectors
- vector training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种用于高精度识别中标金额的LSTM模型单元训练方法,包括:获取标注有中标金额信息的判别二值或三值表;生成字符向量训练素材;初始化LSTM模型单元;将所述字符向量训练素材按正序排列输入到当前LSTM模型单元中进行训练,得到对应字符向量训练素材的前向运行预测值;计算与该对应字符向量训练素材的实际类别之间的差距;判断所述差距是否持续震荡下降;通过链式法则,得到当前LSTM模型单元中每个参数应该变化的数值大小;通过梯度下降优化算法,得到当前LSTM模型中每个参数的变化方向和变化值,进而修正LSTM模型中每个参数。
Description
技术领域
本发明涉及识别技术,具体的涉及用于高精度识别中标金额的LSTM 模型单元训练方法及装置。
背景技术
LSTM(long short term memory,长短期记忆网络)是为了解决长期问题而专门设计出来的,所有的RNN(Recurrent Neural Network,循环神经网络)都具有一种重复神经网络模块的链式形式。在标准RNN中,这个重复的结构模块只有一个非常简单的结构,例如一个tanh层。LSTM同样是这样的结构,但是重复的模块拥有一个不同的结构。不同于单一神经网络层,这里是有四个,以一种非常特殊的方式进行交互。
softmax是归一化指数函数,是逻辑函数的一种推广。它能将一个含任意实数的K维向量z“压缩”到另一个K维实向量σ(z)中,使得每一个元素的范围都在(0,1)之间,并且所有元素的和为1。该函数多于多分类问题中。
由于招中标文件编写格式差异大的特点,目前市面上并没有对于招中标文件的中标金额进行识别提取的成熟解决方案。本专利是依托于四川隧唐科技股份有限公司的大数据建设项目完成。一些类似的解决方案主要是通过将某一行业的专有名词加入通用的中文分词工具的自定义词库进行行业文件的分词以及后续命名实体识别操作(包括三大类:实体类,时间类和数字类,以及7小类:人名,地名,组织机构名,日期,时间,货币和百分比),然后将识别结果和模式匹配结合起来判断最终要提取的信息(以招中标文件的中标单位提取为例,该方案会提取出文本中所有的组织机构名,包括招标单位,评标单位,招标代理单位,中标单位,参与投标单位等,都提取出来,然后根据模式匹配确定中标单位)。这样做的好处是开发效率高,但是缺点也很明显,开发人员不可能提取出所有的匹配模式,所以一定有些信息提取不出来,而且更为重要的是,信息提取失败也不会报错,开发人员不能据此新增匹配模式。这将造成提取精度提高受限,所以需要一种能自己确定信息提取规则的新型算法,既拥有高的提取精度,又能处理经验以外的新情况。
发明内容
本发明的一个目的在于提供一种用于高精度识别中标金额的 LSTM模型单元训练方法及装置,使得能过准确对LSTM模型单元进行训练。
具体地,本发明是通过如下技术方案实现的:
一种用于高精度识别中标金额的LSTM模型单元训练方法,应用于计算机,所述方法包括:
S1:获取标注有中标金额信息的判别二值或三值表;
S2:根据所述标注有中标金额信息的判别二值或三值表生成字符向量训练素材;
S3:初始化LSTM模型单元;
S4:将所述字符向量训练素材按正序排列输入到当前LSTM模型单元中进行训练,得到对应字符向量训练素材的前向运行预测值;
S5:根据得到的对应字符向量训练素材的前向运行预测值,计算与该对应字符向量训练素材的实际类别之间的差距;
S6:判断所述差距是否持续震荡下降,若是,则执行S7,若否,则结束,得到目标LSTM模型单元;
S7:通过链式法则,得到当前LSTM模型单元中每个参数应该变化的数值大小;
S8:通过梯度下降优化算法,得到当前LSTM模型中每个参数的变化方向和变化值,进而修正LSTM模型中每个参数。
较佳的,所述S2包括:使用Embedding层,对字符进行向量化,使每一个字符对应于一个300维的向量。
较佳的,所述S4包括:
S41:将字符向量训练素材中的每一个向量,按照从前到后的顺序,依次通过当前LSTM模型单元进行运算,得到一个最终结果输出量;
S42:将得到的最终结果输出量输入softmax进行运算,得到对应字符向量训练素材的预测值,记为该字符的前向运算预测值,然后与真实标签进行衡量得到损失值。
较佳的,所述S5中,所述前向运行预测值是一个2维或3维向量,记为前向运行2维或3维预测向量,字符对应的标签类型值,也表示为一个2维或3维向量,则所述差距指的是前向运行2维或 3维预测向量与该对应的标签类型2维或3维向量之间的差异化程度。
较佳的,
前向运行2维或3维预测向量与对应的标签类型2维或3维向量之间的差异化程度用损失函数进行表示,记一个前向运行2维或 3维预测向量与对应的标签类型2维或3维向量之间的损失函数值为cost(hθ(x),y),则cost(hθ(x),y)计算方法为:
cost(hθ(x),y)=-yilog(hθ(x))-(1-yi)log(1-hθ(x)),
其中,hθ(x)为一个前向运行2维或3维预测向量,yi为对应的标签类型2维或3维向量。
较佳的,S6中,所述判断所述差距是否持续震荡下降,包括:判断所述批量样本的损失函数是否持续震荡下降。
一种用于高精度识别中标金额的LSTM模型单元训练装置,应用于计算机,所述装置包括:
判别二值表获取模块,用于获取标注有中标金额信息的判别二值表;
字符向量训练素材生产模块,用于根据所述标注有中标金额信息的判别三值表生成字符向量训练素材;
初始化模块,用于初始化LSTM模型单元;
前向运行预测值确定模块,用于将所述字符向量训练素材按正序排列输入到当前LSTM模型单元中进行训练,得到对应字符向量训练素材的前向运行预测值;
差距确定模块,用于根据得到的对应字符向量训练素材的前向运行预测值,计算与该对应字符向量训练素材的实际类别之间的差距;
差距判断模块,用于判断所述差距是否持续震荡下降;
参数数值变化量确定模块,用于通过链式法则,得到当前LSTM 模型单元中每个参数应该变化的数值大小;
参数修正模块,用于通过梯度下降优化算法,得到当前LSTM 模型中每个参数的变化方向和变化值,进而修正LSTM模型中每个参数;
较佳的,所述字符向量训练素材生产模块,用于使用Embedding 层,对字符进行向量化,使每一个字符对应于一个300维的向量。
较佳的,所述前向运行预测值确定模块包括:
输出量确定子模块,用于将字符向量训练素材中的每一个向量,按照从前到后的顺序,依次通过当前LSTM模型单元进行运算,得到一个最终结果输出量;
预测值确定子模块,用于将得到的最终结果输出量输入softmax 进行运算,得到对应字符向量训练素材的预测值,记为该字符的前向运算预测值,然后与真实标签进行衡量得到损失值。
本发明的有益效果是:训练出的LSTM模型单元对中标金额的识别准确度高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种用于高精度识别中标金额的 LSTM模型单元训练方法流程示意图;
图2为本发明提供的记录有中标金额信息的字符向量训练素材;
图3为LSTM模型单元结构示意图;
图4为本发明字符向量训练素材按正序排列输入到当前LSTM 模型单元中进行训练示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
以下将通过实施例对本发明进行详细描述。
本申请中,训练不同的LSTM模型,分别对中标金额数字和对中标金额单位进行提取。即训练高精度识别中标金额数字的LSTM 模型,和训练高精度识别中标金额单位的LSTM模型。
一种用于高精度识别中标金额的LSTM模型单元训练方法,应用于计算机,如图1所示,所述方法包括:
S1:获取标注有中标金额信息的判别二值或三值表。
所述判别二值表或三值表指的是对一个中标金额信息,有两个或三个判断信息,当中标金额信息为中标金额数字时,对应的两个判断信息为“是”或者“否”;当中标金额信息为中标金额单位时,对应的两个判断信息为“元”或者“万元”或者“无单位”。
所述判别二值或三值表通过记载有中标信息的网页制作得到。具体的,一个记录有中标金额信息的网页页面,其中清楚的记载了“桐庐县学科教室、创新实验室采购及安装项目”的中标金额为“1480000.00元”,同时,在这个网页中,还有一些不属于中标金额的数字,如某负责人的电话“18806505034”、合同书编号“91330105691702588”等,在得到这个网页之后,可以通过html2text 网页文本过滤工具,去除掉网页中的标签格式,保留纯文本,由于通过该工具清洗之后结果中可能会存在过多的(\n,\t,\r,**,_, \xe3,\xa0)之类的特殊字符,所以需要进一步匹配替换,得到纯文字的网页内容文本之后,可以采用人工处理的方式,将纯文字的网页内容文本中的中标金额进行标注。
要表示一个金额,只显示数字,如“1300”,是不够的,后面还要加上单位“元”或者“万元”,显示为“1300元”或者“1300 万元”,才是一个完整意义上的“金额”。
针对训练高精度识别中标金额数字的LSTM模型的方法,所述获取标注有中标金额信息的判别二值或三值表包括:
(1)将中标文件标题和该文件中的每一串数字,分别进行组合,得到多套标题和数字组合。
(2)对每个标题数字组合进行人工标注,标注其中的数字是金额数字或者不是金额数字,制作金额数字判别二值表,如表1。
表1金额数字判别二值表
针对训练高精度识别中标金额单位的LSTM模型的方法,所述获取标注有中标金额信息的判二值或三值表包括:
将网页文本进行人工标注,标注其中的中标金额单位是“元”还是“万元”还是“无单位”,制作金额单位判别三值表,如表2。
表2金额单位判别三值表
S2:根据所述标注有中标金额信息的判别二值或三值表生成字符向量训练素材。
所述金额数字判别二值表或者金额单位判别三值表中,每一行内容为一个字符向量训练素材。
可以使用Embedding层,对判别二值表中每一行的字符进行向量化,可以将Embedding层理解为一个字典,通过给每一个字符(汉字或标点)编号,从1到3913(常用汉字约2500个,3913个编号认为足够覆盖所有常用汉字和标点),将每一个字符对应于一个300维的向量。一个字符对应一个整数,一个整数通过Embedding层对应一个300维的向量。这样,就能够生成如图2表所示的字符向量训练素材。
S3:初始化LSTM模型单元。
所述LSTM模型单元由存储在计算机存储介质中的算法库中的一系列与LSTM运算相关的算法函数所组成,在使用这一系列与 LSTM运算相关的算法函数进行LSTM运算时,需要预先对这些算法函数中的参数进行确定,以使得LSTM运算针对不同的目的达到不同的效果,本发明的目的是对LSTM模型单元进行训练,以使得 LSTM模型单元能够用于高精度地识别中标单位,所述对LSTM模型单元进行训练,即是确定合适的与LSTM运算相关的算法函数的各个参数。
在步骤S3中,在并不知道合适的参数的时候,可以对所述相关的函数的参数进行一个随机的初始化赋值。
S4:将所述字符向量训练素材按正序排列输入到当前LSTM模型单元中进行训练,得到对应字符向量训练素材的前向运行预测值。
具体的,如图3所示,所述LSTM模型单元包括σ激活函数节点、tanh激活函数节点、乘法运算节点和加法运算节点,所述LSTM 模型单元包括遗忘门、输入门、更新门和输出门。
LSTM模型单元参数解释:
ht-1:上一个时刻的输出,也是一个300维的向量;
xt:当前时刻的输入,即某一个经过向量化之后的300维向量;
[ht-1,xt]:将两个300维的向量连接在一起,成为一个600维的向量;
Wf:与[ht-1,xt]做点积运算的权重参数,也是一个向量;
bf:一个t维的向量,该向量中的每一个数都一样;
σ:激活函数sigmoid;
ft:遗忘门的输出值,一个介于(0,1)之间的数,对于第一个单元,由于没有上一个单元,所以初始化为0;
Wi:与[ht-1,xt]做点积运算的权重参数,也是一个向量;
Wc:与[ht-1,xt]做点积运算的权重参数,也是一个向量;
W0::与[ht-1,xt]做点积运算的权重参数,也是一个向量;
bi:一个t维的向量,该向量中的每一个数都一样;
bc:一个t维的向量,该向量中的每一个数都一样;
b0:一个t维的向量,该向量中的每一个数都一样;
tanh:另一个激活函数,输出一个(-1,1)之间的值;
it:用于决定有多少信息保留到该单元状态;
Ct-1:上一个单元的状态;
it:用于决定有多少信息保留到该单元状态;
Ct:更新门的输出,表示的是该单元的状态。
其中,
ft=σ(Wf·[ht-1,xt]+bf)
it=σ(Wi·[ht-1,xt]+bi)
ot=σ(Wo[ht-1,xt]+bo)
ht=ot*tanh(Ct)
所述LSTM模型单元为现有技术,本发明不再赘述,本领域技术人员知晓LSTM模型单元中每个参数的意义及公式表示方法。
如图4所示,所述字符向量训练素材按正序排列输入到当前LSTM模型单元中进行训练,即将字符向量训练素材中的各个向量按照由第一行到最后一行的顺序,依次作为LSTM模型单元的输入 xt,得到对应的输出量ht,之后将得到的ht,作为下一个LSTM模型单元的输入量,与xt+1一起按照LSTM模型单元的规则进行运算,依次类推,直到字符向量训练素材的所有字符全部进行运算完毕后,生成最终结果输出量hn。也即为,将字符向量训练素材中的第一个 300维向量作为x0,经过LSTM模型单元的运算,得到输出量h0,将字符向量训练素材中的第二个300维向量作为x1,与输出量h0一起,经过LSTM模型单元的运算,得到输出量h1,依次类推,最终一个字符向量训练素材对应得到一个最终结果输出量。由于字符向量训练素材中的第一个300维向量作为x0时,缺少相应的Ct-1和ht-1,则对应的Ct-1和ht-1均取为0。
具体的,所述S4包括:
S41:将字符向量训练素材中的每一个向量,按照从前到后的顺序,依次通过当前LSTM模型单元进行运算,得到一个最终结果输出量。
S42:将得到的最终结果输出量输入softmax函数进行运算,得到对应字符向量训练素材的预测值,记为该字符的前向运算预测值,然后与真实标签进行衡量得到损失值。
softmax函数的使用为现有技术,本发明不再赘述。
S5:根据得到的对应字符向量训练素材的前向运行预测值,计算与该对应字符向量训练素材的实际类别之间的差距。
具体的,这里的表述“差距”指的是前向运行预测值与对应的实际类别值之间的差异化程度。
具体的,所述前向运行预测值是一个2维向量,记为前向运行 2维预测向量,字符对应的标签类型值,也表示为一个2维向量,即“是金额数字”表示为一个2维向量,“不是金额数字”表示为一个2维向量,记为标签类型2维向量,则所述差距指的是前向运行2维预测向量与该对应的标签类型2维向量之间的差异化程度。
类似的,“元”表示为一个3维向量,“万元”表示为一个3 维向量,“无单位”表示为一个3维向量,记为标签类型3维向量。
具体的,前向运行2维或3维预测向量与对应的标签类型2维或3维向量之间的差异化程度用损失函数进行表示,具体的,记一个前向运行2维或3维预测向量与对应的标签类型2维或3维向量之间的损失函数值为cost(hθ(x),y),则cost(hθ(x),y)计算方法为:
cost(hθ(x),y)=-yilog(hθ(x))-(1-yi)log(1-hθ(x)),
其中,hθ(x)为一个前向运行2维或3维预测向量,yi为对应的标签类型2维或3维向量。
也即,通过一份字符向量训练素材,获得一个损失函数值。
若有m个前向运行2维或3维预测向量,则这m个前向运行2 维或3维预测向量对应的批量样本的损失函数为:
S6:判断所述差距是否持续震荡下降,若是,则执行S7,若否,则结束,得到目标LSTM模型单元。
具体的,判断所述批量样本的损失函数是否持续震荡下降,若否,则认为当前LSTM模型单元各个参数取值合适,训练结束,若是,则说明当前LSTM模型单元各个参数取值不合适。
损失函数表示的是预测结果与实际结果之间的偏差度,如果批量样本的损失函数不再持续震荡下降,则说明批量样本的损失函数趋于稳定,即偏差度趋于稳定,则说明预测结果在一个稳定的偏差下是可信的,若损失函数持续震荡下降,说明这个偏差本身就是不稳定的,也即说明预测结果不稳定。
S7:通过链式法则,得到当前LSTM模型单元中每个参数应该变化的数值大小。
链式法则即复合函数求偏导数,设有:
z=t2
t=x+y
链式法则即是说一个复杂的函数中的任何一个参数对函数结果的偏导数都可以通过联级求导的方式获得。
在LSTM模型中,有损失函数震荡的存在,即说明LSTM模型中的一个或多个参数存在赋值差异,不足以在一个稳定偏差的情况下预测出正确的情况,而这种不稳定性可能来自于LSTM模型中的任意参数,而LSTM模型中的参数又是由多种结构复杂的函数通过线性或非线性的公式结合而来的,要想通过损失函数值来修正 LSTM模型中的参数值,就必须将损失函数值根据LSTM模型中的参数值的函数结构形式逐级求导,来修正最基础的变量,也即,可以理解为要让损失函数对LSTM模型中的参数函数的变量进行复合函数求导,也即链式法则,最终得到LSTM模型中的参数函数的变量的变化量,让这个参数函数的变量变化,相应的,这个LSTM模型中的参数也变化起来,即得到了修正。
S8:通过梯度下降优化算法,得到当前LSTM模型中每个参数的变化方向和变化值,进而修正LSTM模型中每个参数。
梯度计算就是计算某一点的微分,即dw。梯度下降对前向传播算法的每个参数进行更新的公式为:W=W-λ*dw,
其中λ是需要我们设置的超参数,本例中为0.003,该梯度下降公式已考虑梯度为正和负两种情况。所述参数的变化方向,即确定每个参数应当增大还是减小。
采用这样的训练方式,能够根据海量网页文件,对LSTM模型进行中标单位提取功能的训练,能够有效提高对网页文件中中标单位的识别度。
本发明还提供了一种用于高精度识别中标金额的LSTM模型单元训练装置,应用于计算机,所述装置包括:
判别二或三值表获取模块,用于获取标注有中标金额信息的判别二或三值表;
字符向量训练素材生产模块,用于根据所述标注有中标金额信息的判别二值表生成字符向量训练素材;
初始化模块,用于初始化LSTM模型单元;
前向运行预测值确定模块,用于将所述字符向量训练素材按正序排列输入到当前LSTM模型单元中进行训练,得到对应字符向量训练素材的前向运行预测值;
差距确定模块,用于根据得到的对应字符向量训练素材的前向运行预测值,计算与该对应字符向量训练素材的实际类别之间的差距;
差距判断模块,用于判断所述差距是否持续震荡下降;
参数数值变化量确定模块,用于通过链式法则,得到当前LSTM 模型单元中每个参数应该变化的数值大小;
参数修正模块,用于通过梯度下降优化算法,得到当前LSTM 模型中每个参数的变化方向和变化值,进而修正LSTM模型中每个参数;
所述字符向量训练素材生产模块,用于使用Embedding层,对字符进行向量化,使每一个字符对应于一个300维的向量。
所述前向运行预测值确定模块包括:
输出量确定子模块,用于将字符向量训练素材中的每一个向量,按照从前到后的顺序,依次通过当前LSTM模型单元进行运算,得到一个最终结果输出量;
预测值确定子模块,用于将得到的最终结果输出量输入softmax 进行运算,得到对应字符向量训练素材的预测值,记为该字符的前向运算预测值,然后与真实标签进行衡量得到损失值。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括: U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (9)
1.一种用于高精度识别中标金额的LSTM模型单元训练方法,应用于计算机,其特征在于,所述方法包括:
S1:获取标注有中标金额信息的判别二值或三值表;
S2:根据所述标注有中标金额信息的判别二值或三值表生成字符向量训练素材;
S3:初始化LSTM模型单元;
S4:将所述字符向量训练素材按正序排列输入到当前LSTM模型单元中进行训练,得到对应字符向量训练素材的前向运行预测值;
S5:根据得到的对应字符向量训练素材的前向运行预测值,计算与该对应字符向量训练素材的实际类别之间的差距;
S6:判断所述差距是否持续震荡下降,若是,则执行S7,若否,则结束,得到目标LSTM模型单元;
S7:通过链式法则,得到当前LSTM模型单元中每个参数应该变化的数值大小;
S8:通过梯度下降优化算法,得到当前LSTM模型中每个参数的变化方向和变化值,进而修正LSTM模型中每个参数。
2.根据权利要求1所述的方法,其特征在于,所述S2包括:使用Embedding层,对字符进行向量化,使每一个字符对应于一个300维的向量。
3.根据权利要求1所述的方法,其特征在于,所述S4包括:
S41:将字符向量训练素材中的每一个向量,按照从前到后的顺序,依次通过当前LSTM模型单元进行运算,得到一个最终结果输出量;
S42:将得到的最终结果输出量输入激活函数softmax进行运算,得到对应字符向量训练素材的预测值,记为该字符的前向运算预测值,然后与真实标签进行衡量得到损失值。
4.根据权利要求1所述的方法,其特征在于,所述S5中,所述前向运行预测值是一个2维或3维向量,记为前向运行2维或3维预测向量,字符对应的标签类型值,也表示为一个2维或3维向量,则所述差距指的是前向运行2维或3维预测向量与该对应的标签类型2维或3维向量之间的差异化程度。
5.根据权利要求4所述的方法,其特征在于,
前向运行2维或3维预测向量与对应的标签类型2维或3维向量之间的差异化程度用损失函数进行表示,记一个前向运行2维或3维预测向量与对应的标签类型2维或3维向量之间的损失函数值为cost(hθ(x),y),则cost(hθ(x),y)计算方法为:
cost(hθ(x),y)=-yilog(hθ(x))-(1-yi)log(1-hθ(x)),
其中,hθ(x)为一个前向运行2维或3维预测向量,yi为对应的标签类型2维或3维向量。
6.根据权利要求5所述的方法,其特征在于,S6中,所述判断所述差距是否持续震荡下降,包括:判断所述批量样本的损失函数是否持续震荡下降。
7.一种用于高精度识别中标金额的LSTM模型单元训练装置,应用于计算机,其特征在于,所述装置包括:
判别二值或三值表获取模块,用于获取标注有中标金额信息的判别二值或三值表;
字符向量训练素材生产模块,用于根据所述标注有中标金额信息的判别二值或三值表生成字符向量训练素材;
初始化模块,用于初始化LSTM模型单元;
前向运行预测值确定模块,用于将所述字符向量训练素材按正序排列输入到当前LSTM模型单元中进行训练,得到对应字符向量训练素材的前向运行预测值;
损失衡量模块,用于根据得到的对应字符向量训练素材的前向运行预测值,计算与该对应字符向量训练素材的实际类别之间的差距;
模型停止模块,用于判断所述差距是否持续震荡下降;
参数数值变化量确定模块,用于通过链式法则,得到当前LSTM模型单元中每个参数应该变化的数值大小;
参数修正模块,用于通过梯度下降优化算法,得到当前LSTM模型中每个参数的变化方向和变化值,进而修正LSTM模型中每个参数;
8.根据权利要求7所述的装置,其特征在于,所述字符向量训练素材生产模块,用于使用Embedding层,对字符进行向量化,使每一个字符对应于一个300维的向量。
9.根据权利要求8所述的装置,其特征在于,所述前向运行预测值确定模块包括:
输出量确定子模块,用于将字符向量训练素材中的每一个向量,按照从前到后的顺序,依次通过当前LSTM模型单元进行运算,得到一个最终结果输出量;
预测值确定子模块,用于将得到的最终结果输出量输入激活函数softmax进行运算,得到对应字符向量训练素材的预测值,记为该字符的前向运算预测值,然后与真实标签进行衡量得到损失值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911001371.0A CN110738182A (zh) | 2019-10-21 | 2019-10-21 | 一种用于高精度识别中标金额的lstm模型单元训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911001371.0A CN110738182A (zh) | 2019-10-21 | 2019-10-21 | 一种用于高精度识别中标金额的lstm模型单元训练方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110738182A true CN110738182A (zh) | 2020-01-31 |
Family
ID=69270691
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911001371.0A Pending CN110738182A (zh) | 2019-10-21 | 2019-10-21 | 一种用于高精度识别中标金额的lstm模型单元训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110738182A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111415270A (zh) * | 2020-03-03 | 2020-07-14 | 浙江万胜智能科技股份有限公司 | 一种基于lstm学习的电力负荷智能识别方法 |
CN111898682A (zh) * | 2020-07-31 | 2020-11-06 | 平安科技(深圳)有限公司 | 基于多个源模型修正新模型的方法、装置以及计算机设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN107885721A (zh) * | 2017-10-12 | 2018-04-06 | 北京知道未来信息技术有限公司 | 一种基于lstm的命名实体识别方法 |
CN109299458A (zh) * | 2018-09-12 | 2019-02-01 | 广州多益网络股份有限公司 | 实体识别方法、装置、设备及存储介质 |
CN109753660A (zh) * | 2019-01-07 | 2019-05-14 | 福州大学 | 一种基于lstm的中标网页命名实体抽取方法 |
US20190188463A1 (en) * | 2017-12-15 | 2019-06-20 | Adobe Inc. | Using deep learning techniques to determine the contextual reading order in a form document |
-
2019
- 2019-10-21 CN CN201911001371.0A patent/CN110738182A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN107885721A (zh) * | 2017-10-12 | 2018-04-06 | 北京知道未来信息技术有限公司 | 一种基于lstm的命名实体识别方法 |
US20190188463A1 (en) * | 2017-12-15 | 2019-06-20 | Adobe Inc. | Using deep learning techniques to determine the contextual reading order in a form document |
CN109299458A (zh) * | 2018-09-12 | 2019-02-01 | 广州多益网络股份有限公司 | 实体识别方法、装置、设备及存储介质 |
CN109753660A (zh) * | 2019-01-07 | 2019-05-14 | 福州大学 | 一种基于lstm的中标网页命名实体抽取方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111415270A (zh) * | 2020-03-03 | 2020-07-14 | 浙江万胜智能科技股份有限公司 | 一种基于lstm学习的电力负荷智能识别方法 |
CN111898682A (zh) * | 2020-07-31 | 2020-11-06 | 平安科技(深圳)有限公司 | 基于多个源模型修正新模型的方法、装置以及计算机设备 |
CN111898682B (zh) * | 2020-07-31 | 2023-08-25 | 平安科技(深圳)有限公司 | 基于多个源模型修正新模型的方法、装置以及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110163261A (zh) | 不平衡数据分类模型训练方法、装置、设备及存储介质 | |
CN109408823B (zh) | 一种基于多通道模型的特定目标情感分析方法 | |
CN104598611B (zh) | 对搜索条目进行排序的方法及系统 | |
Yao | Automated sentiment analysis of text data with NLTK | |
CN107092596A (zh) | 基于attention CNNs和CCR的文本情感分析方法 | |
CN112529115B (zh) | 一种对象聚类方法和系统 | |
AU2019100371A4 (en) | A Sentiment Analysis System Based on Deep Learning | |
CN116070602B (zh) | 一种pdf文档智能标注与抽取方法 | |
CN110738182A (zh) | 一种用于高精度识别中标金额的lstm模型单元训练方法及装置 | |
CN115310425A (zh) | 基于政策文本分类和关键信息识别的政策文本分析方法 | |
CN111091007A (zh) | 一种基于舆情及企业画像识别多个企业之间关系的方法 | |
CN109800292A (zh) | 问答匹配度的确定方法、装置及设备 | |
Thattinaphanich et al. | Thai named entity recognition using Bi-LSTM-CRF with word and character representation | |
CN112632256A (zh) | 基于问答系统的信息查询方法、装置、计算机设备和介质 | |
CN115455189A (zh) | 基于提示学习的政策文本分类方法 | |
CN114117048A (zh) | 一种文本分类的方法、装置、计算机设备及存储介质 | |
Rao et al. | BMSP-ML: big mart sales prediction using different machine learning techniques | |
CN113902569A (zh) | 数字资产中的绿色资产的占比的识别方法及相关产品 | |
CN117034948B (zh) | 基于多特征自适应融合的段落识别方法、系统及存储介质 | |
CN110738319A (zh) | 一种基于crf识别中标单位的lstm模型单元训练方法及装置 | |
CN114360637A (zh) | 一种基于图注意力网络的蛋白质-配体亲和力评价方法 | |
CN115331754A (zh) | 基于哈希算法的分子分类方法 | |
Rahman et al. | Classification of Book Review Sentiment in Bangla Language Using NLP, Machine Learning and LSTM | |
Liu et al. | Prerequisite relation learning for course concepts based on hyperbolic deep representation | |
Li et al. | An analysis of multi-modal deep learning for art price appraisal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200131 |
|
RJ01 | Rejection of invention patent application after publication |