CN113963358B - 文本识别模型训练方法、文本识别方法、装置及电子设备 - Google Patents
文本识别模型训练方法、文本识别方法、装置及电子设备 Download PDFInfo
- Publication number
- CN113963358B CN113963358B CN202111560609.0A CN202111560609A CN113963358B CN 113963358 B CN113963358 B CN 113963358B CN 202111560609 A CN202111560609 A CN 202111560609A CN 113963358 B CN113963358 B CN 113963358B
- Authority
- CN
- China
- Prior art keywords
- neural network
- text
- text image
- network
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 224
- 238000000034 method Methods 0.000 title claims abstract description 105
- 238000013528 artificial neural network Methods 0.000 claims abstract description 196
- 239000013598 vector Substances 0.000 claims abstract description 108
- 230000000306 recurrent effect Effects 0.000 claims abstract description 106
- 238000013527 convolutional neural network Methods 0.000 claims description 122
- 230000011218 segmentation Effects 0.000 claims description 57
- 125000004122 cyclic group Chemical group 0.000 claims description 50
- 238000000605 extraction Methods 0.000 claims description 42
- 238000002372 labelling Methods 0.000 claims description 37
- 238000012545 processing Methods 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 16
- 238000010276 construction Methods 0.000 claims description 13
- 230000000750 progressive effect Effects 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 20
- 230000006870 function Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 9
- 230000003287 optical effect Effects 0.000 description 4
- 230000010354 integration Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本公开涉及一种文本识别模型训练方法、文本识别方法、装置及电子设备。文本识别模型训练方法包括:构建包括第一卷积神经网络、第一循环神经网络、第二循环神经网络和编解码网络的初始文本识别模型;将第一文本图像输入第一卷积神经网络,以输出第一文本图像的第一特征序列至第一循环神经网络和第二循环神经网络,通过第一循环神经网络输出第一特征向量标签分布,通过第二循环神经网络输出第一预测结果,由编解码网络根据第一特征向量标签分布和第一预测结果输出第一文本图像中字符序列的第一文本识别结果,用于训练初始文本识别模型,获得目标文本识别模型,以提高目标文本识别模型的可靠性。
Description
技术领域
本公开涉及自然语言处理领域,尤其涉及一种文本识别模型训练方法、文本识别方法、装置及电子设备。
背景技术
自然语言处理领域中,自然场景文字识别是指从携带有字符序列的图像中识别出字符序列的过程。现有技术中,字符序列的识别方法通常是基于整体分析的策略,也即,字符序列到字符序列的方法,首先,对图像进行编码,然后,再进行字符序列的解码,而直接获得整个字符序列,且现有技术中,通常借用传统的卷积循环神经网络实现字符序列的识别。
发明内容
本公开的目的在于,提供一种文本识别模型训练方法、文本识别方法、装置及电子设备,以解决通过现有技术训练获得的目标文本识别模型的可靠性较低的问题。
本公开第一方面提供的文本识别模型训练方法,包括:
获取训练数据集,训练数据集中包括多张文本图像,以及多张文本图像中每张文本图像的字符标注信息,字符标注信息包括整体字符信息;
构建初始文本识别模型,初始文本识别模型包括第一卷积神经网络、第一循环神经网络、第二循环神经网络和编解码网络;
针对训练数据集中的每张第一文本图像,将第一文本图像输入第一卷积神经网络,以供第一卷积神经网络输出第一文本图像的第一特征序列至第一循环神经网络和第二循环神经网络,并通过第一循环神经网络输出第一特征序列的第一特征向量标签分布,以及通过第二循环神经网络输出第一预测结果,且由编解码网络根据第一特征向量标签分布和第一预测结果输出第一文本图像中字符序列的第一文本识别结果,第一预测结果为第一文本图像中字符序列的分词结果和实体标注信息的预测结果;
在每获得一次第一文本识别结果之后,根据第一文本识别结果,以及第一文本识别结果所对应的第一文本图像的整体字符信息,对第一卷积神经网络、第一循环神经网络、第二循环神经网络和编解码网络进行训练,获得目标文本识别模型。
本公开第二方面提供的文本识别方法,包括:
获取待识别文本图像;
将待识别文本图像输入包括目标卷积神经网络、第一目标循环神经网络、第二目标循环神经网络和目标编解码网络的目标文本识别模型,以供目标卷积神经网络输出待识别文本图像的第八特征序列至第一目标循环神经网络和第二目标循环神经网络,并通过第一目标循环神经网络输出第八特征序列的第三特征向量标签分布,以及通过第二目标循环神经网络输出第五预测结果,且由目标编解码网络根据第三特征向量标签分布和第五预测结果输出待识别文本图像中字符序列的第二文本识别结果,第五预测结果为待识别文本图像中字符序列的分词结果和实体标注信息的预测结果。
本公开第三方面提供的文本识别模型训练装置,包括:
训练数据集获取模块,用于获取训练数据集,训练数据集中包括多张文本图像,以及多张文本图像中每张文本图像的字符标注信息,字符标注信息包括整体字符信息;
第一模型构建模块,用于构建初始文本识别模型,初始文本识别模型包括第一卷积神经网络、第一循环神经网络、第二循环神经网络和编解码网络;
第一输入控制模块,针对训练数据集中的每张第一文本图像,将第一文本图像输入第一卷积神经网络,以供第一卷积神经网络输出第一文本图像的第一特征序列至第一循环神经网络和第二循环神经网络,并通过第一循环神经网络输出第一特征序列的第一特征向量标签分布,以及通过第二循环神经网络输出第一预测结果,且由编解码网络根据第一特征向量标签分布和第一预测结果输出第一文本图像中字符序列的第一文本识别结果,第一预测结果为第一文本图像中字符序列的分词结果和实体标注信息的预测结果;
第一模型训练模块,用于在每获得一次第一文本识别结果之后,根据第一文本识别结果,以及第一文本识别结果所对应的第一文本图像的整体字符信息,对第一卷积神经网络、第一循环神经网络、第二循环神经网络和编解码网络进行训练,获得目标文本识别模型。
本公开第四方面提供的文本识别装置,包括:
待识别文本图像获取模块,用于获取待识别文本图像;
文本识别模块,用于将待识别文本图像输入包括目标卷积神经网络、第一目标循环神经网络、第二目标循环神经网络和目标编解码网络的目标文本识别模型,以供目标卷积神经网络输出待识别文本图像的第八特征序列至第一目标循环神经网络和第二目标循环神经网络,并通过第一目标循环神经网络输出第八特征序列的第三特征向量标签分布,以及通过第二目标循环神经网络输出第五预测结果,且由目标编解码网络根据第三特征向量标签分布和第五预测结果输出待识别文本图像中字符序列的第二文本识别结果,第五预测结果为待识别文本图像中字符序列的分词结果和实体标注信息的预测结果。
本公开第五方面提供的电子设备,包括:
处理器;以及
存储器,存储器上存储有计算机程序;
其中,计算机程序包括指令,指令在由处理器执行时,使处理器执行本公开的第一方面所提供的文本识别模型训练方法,或使处理器执行本公开的第二方面所提供的文本识别方法。
本公开第六方面还提供了一种非瞬时计算机可读存储介质,其特征在于,存储有计算机指令,计算机指令用于使计算机执行本公开的第一方面所提供的文本识别模型训练方法,或使计算机执行本公开的第二方面所提供的文本识别方法。
本公开第七方面还提供了一种计算机程序产品,其特征在于,包括计算机程序,计算机程序在被处理器执行时实现本公开的第一方面所提供的文本识别模型训练方法,或实现处理器执行本公开的第二方面所提供的文本识别方法。
本公开提供的一个或多个技术方案中,构建了包括第一卷积神经网络、第一循环神经网络、第二循环神经网络和编解码网络这四个高性能的神经网络模型的初始文本识别模型,也即,初始文本识别模型的模型结构相较于传统的卷积循环神经网络而言,不仅包括并列的两层循环数据网络,还包括编解码网络,在通过第一卷积神经网络输出第一样本图像的第一特征序列之后,第一循环神经网络输出第一特征序列的第一特征向量标签分布,第二循环神经网络输出第一预测结果,第一预测结果为第一文本图像中字符序列的分词结果和实体标注信息的预测结果,再由编解码网络根据第一特征向量标签分布和第一预测结果输出第一文本图像中字符序列的第一文本识别结果,最后,根据第一文本识别结果,以及第一文本识别结果所对应的第一文本图像的整体字符信息,对第一卷积神经网络、第一循环神经网络、第二循环神经网络和编解码网络进行训练,获得目标文本识别模型。显然,由于模型结构的改变,在对初始文本识别模型进行训练,获得目标文本识别模型的过程中,能够完成更为深入的学习,从而提高目标文本识别模型的可靠性。
附图说明
在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
图1示出了本公开示例性实施例提供的一种文本识别模型训练方法的流程图;
图2示出了本公开示例性实施例提供的一种文本图像;
图3示出了本公开示例性实施例提供的一种初始文本识别模型的示意性框图;
图4示出了本公开示例性实施例提供的文本识别模型训练方法的另一种流程图;
图5示出了本公开示例性实施例提供的文本识别模型训练方法的另一种流程图;
图6示出了本公开示例性实施例提供的一种命名实体识别模型的示意性框图;
图7示出了本公开示例性实施例提供的文本识别模型训练方法的另一种流程图;
图8示出了本公开示例性实施例提供的一种第一卷积循环神经网络的示意性框图;
图9示出了本公开示例性实施例提供的一种变分自编码器的示意性框图;
图10示出了本公开示例性实施例提供的文本识别模型训练方法的另一种流程图;
图11示出了本公开示例性实施例提供的一种简单命名实体网络的示意性框图;
图12示出了本公开示例性实施例提供的文本识别模型训练方法的另一种流程图;
图13示出了本公开示例性实施例提供的一种第二卷积循环神经网络的示意性框图;
图14示出了本公开示例性实施例提供的文本识别模型训练方法的另一种流程图;
图15示出了本公开示例性实施例提供的一种编解码网络的示意性框图;
图16示出了本公开示例性实施例提供的一种文本识别模型训练方法的辅助性说明图;
图17示出了本公开示例性实施例提供的一种文本识别模型训练装置的示意性框图;
图18示出了本公开示例性实施例提供的一种文本识别方法的流程图;
图19示出了本公开示例性实施例提供的一种文本识别装置的示意性框图;
图20示出了用于实现本公开实施例的示例性电子设备的示意性结构框图。
具体实施方式
下面将结合附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而,应当理解的是,本公开可以通过各种形式来实现,且不应该被解释为限于这里阐述的实施例,相反,提供这些实施例是为了更加透彻和完整地理解本公开,此外,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
还应当理解的是,本公开的方法实施例中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤,本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”,术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”,术语“另一实施例”表示“至少一个另外的实施例”,术语“一些实施例”表示“至少一些实施例”,其他术语的相关定义将在下文描述中给出。此外,需要说明的是,本公开示例性实施例中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或相互依存关系。
需要说明的是,本公开示例性实施例中提及的“一个”、“多个”的修饰是示意性,而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
此外,还需要说明的是,本公开实施方式中的多个装置之间所交互的消息或信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
以下结合附图描述本公开示例性实施例提供的一种文本识别模型训练方法、文本识别方法、装置及电子设备。
请参阅图1,本公开示例性实施例提供的一种文本识别模型训练方法包括步骤S110、步骤S120、步骤S130和步骤S140。
步骤S110,获取训练数据集,训练数据集中包括多张文本图像,以及多张文本图像中每张文本图像的字符标注信息,字符标注信息包括整体字符信息。
本公开示例性实施例中,多张文本图像可以具有相同尺寸,例如,长32个像素单位,宽1个像素单位,且文本图像为携带有字符序列的图像。此外,本公开示例性实施例中,字符序列可以是多种语言的字符序列,例如,中文字符序列、英文字符序列等,且字符序列可以理解为包括至少一个字符的字符串,而对于中文,一个字符便是一个汉字,对于英文,一个字符便是一个字母。
此外,本公开示例性实施例中,字符标注信息包括整体字符信息。对于某张文本图像而言,其整体字符信息即为该张文本图像携带的字符序列本身。
以图2所示的文本图像为例,其字符标注信息中的整体字符信息为:
小勇十点半要去北京的XXX工作
步骤S120,构建初始文本识别模型,初始文本识别模型包括第一卷积神经网络(Convolutional Neural Networks,CNN)、第一循环神经网络(Recurrent NeuralNetworks,RNN)、第二RNN和编解码网络。
请结合图3,执行步骤S120所构建的初始文本识别模型中,第一CNN的输出分别作为第一RNN和第二RNN的输入,第一RNN和第二RNN的输出共同作为编解码网络的输入。此外,初始文本识别模型中,第一CNN可以包括编码器(Encoder),第一RNN可以包括两层双向的长短期记忆网络(Long Short-Term Memory,LSTM),第二RNN同样可以包括两层LSTM,编解码网络可以是未经过训练的Transformer模型,也可以是经过训练的Transformer模型,本公开示例性实施例对此不作具体限制。
步骤S130,针对训练数据集中的每张第一文本图像,将第一文本图像输入第一CNN,以供第一CNN输出第一文本图像的第一特征序列至第一RNN和第二RNN,并通过第一RNN输出第一特征序列的第一特征向量标签分布,以及通过第二RNN输出第一预测结果,且由编解码网络根据第一特征向量标签分布和第一预测结果输出第一文本图像中字符序列的第一文本识别结果,第一预测结果为第一文本图像中字符序列的分词结果和实体标注信息的预测结果。本公开示例性实施例中,在执行步骤S130之前,可以从训练数据集中选取出多张文本图像,分别作为第一文本图像。
此外,可以理解的是,本公开示例性实施例所中,执行步骤S130时,第一CNN用于对第一文本图像进行特征提取,输出第一文本图像的第一特征序列,第一RNN用于根据第一特征序列,输出第一特征序列的第一特征向量标签分布,也即,第一特征序列中每一个特征向量的标签分布,而第二RNN用于根据第一特征序列,输出第一预测结果。
以图2所示的文本图像为例,第一预测结果中,针对分词结果的预测结果可以是:
小勇|十点半|要|去|北京|的|XXX|工作
针对实体标注信息的预测结果可以是:
小勇——人名
十点半——日期时间
北京——地名
XXX——组织机构名
步骤S140,在每获得一次第一文本识别结果之后,根据第一文本识别结果,以及第一文本识别结果所对应的第一文本图像的整体字符信息,对第一CNN、第一RNN、第二RNN和编解码网络进行训练,获得目标文本识别模型。
对第一CNN、第一RNN、第二RNN和编解网络进行训练即为调整第一CNN、第一RNN、第二RNN和编解码网络的模型参数,而这个过程,即可看作是对初始文本模型的训练过程。在训练完成之后,获得最终的目标文本识别模型,包括目标CNN、第一目标循环神经网络、第二目标循环神经网络和目标编解码网络。其中,目标CNN即为训练之后的第一CNN,第一目标RNN即为训练之后的第一RNN,第二目标RNN即为训练之后的第二RNN,目标编解码网络即为训练之后的编解码网络。
此外,步骤S140中,可以通过多分类交叉熵损失函数对第一CNN、第一RNN、第二RNN和编解码网络进行训练。
如背景技术所述的,现有技术中,字符序列的识别方法通常是基于整体分析的策略,也即,字符序列到字符序列的方法,首先,对图像进行编码,然后,再进行字符序列的解码,而直接获得整个字符序列,且现有技术中,通常借用传统的卷积循环神经网络实现字符序列的识别。该字符序列的识别方法虽然标注简单,只需记录每张文本图像携带的字符序列,也即,只需要标注每张文本图像的整体字符信息,但其可能存在识别结果出现多识别字符或漏识别字符的情况,因此,可靠性较低。此外,现有技术中,通常借用传统的CRNN实现字符序列的识别,由于传统的CRNN模型结构较为简单,因此,依旧无法提高文本识别结果的可靠性。
而本公开示例性实施例中,构建了包括第一CNN、第一RNN、第二RNN和编解码网络这四个高性能的神经网络模型的初始文本识别模型,也即,初始文本识别模型的模型结构相较于传统的CRNN而言,不仅包括并列的两层RNN,还包括编解码网络,在通过第一CNN输出第一样本图像的第一特征序列之后,第一RNN输出第一特征序列的第一特征向量标签分布,第二RNN输出第一预测结果,第一预测结果为第一文本图像中字符序列的分词结果和实体标注信息的预测结果,再由编解码网络根据第一特征向量标签分布和第一预测结果输出第一文本图像中字符序列的第一文本识别结果,最后,根据第一文本识别结果,以及第一文本识别结果所对应的第一文本图像的整体字符信息,对第一CNN、第一RNN、第二RNN和编解码网络进行训练,获得目标文本识别模型。显然,由于模型结构的改变,在对初始文本识别模型进行训练,获得目标文本识别模型的过程中,能够完成更为深入的学习,从而提高目标文本识别模型的可靠性。
作为本公开的一种可选的实施方式,字符标注信息除包括整体字符信息之外,还包括分词结果和实体标注信息。
对于某张文本图像而言,其分词结果即为对该张文本图像携带的字符序列进行分词处理之后,获得的分词处理结果,其实体标注信息即为获得对应的分词结果之后,基于分词结果,对字符序列中的多个字词进行命名实体标注,获得的命名实体标注结果,以用于表征字符序列中的多个字词的字词属性。
通常而言,字词属性可以细分为三大类(实体类,时间类,数字类)和七小类(人名、地名、组织机构名、时间、日期、货币、百分比)。但为降低多张文本图像的整体标注时间,本公开示例性实施例中,可以仅标注人名、地名、组织机构名、日期时间这四种字词属性,其余字词属性则可以根据实际应用需求而定。
在字符标注信息包括整体字符信息、分词结果和实体标注信息的情况下,以图2所示文本图像为例,其字符标注信息中的整体字符信息、分词结果和实体标注信息分别为:
整体字符信息:
小勇十点半要去北京的XXX工作
分词结果:
小勇|十点半|要|去|北京|的|XXX|工作
实体标注信息:
小勇——人名
十点半——日期时间
北京——地名
XXX——组织机构名
此外,请结合图4,在字符标注信息包括整体字符信息、分词结果和实体标注信息的情况下,本公开示例性实施例中,步骤S120可以包括步骤S121、步骤S122、步骤S123、步骤S124和步骤S125。
步骤S121,构建初始文本处理模型,初始文本处理模型包括第一CNN、第一RNN和第二RNN。
执行步骤S121所构建的初始文本处理模型中,第一CNN的输出分别作为第一RNN和第二RNN的输入。此外,初始文本处理模型中,第一CNN可以包括编码器(Encoder),第一RNN可以包括两层LSTM,第二RNN同样可以包括两层LSTM,本公开示例性实施例对此不作具体限制。
步骤S122,针对训练数据集中的每张第二文本图像,将第二文本图像输入第一CNN,以供第一CNN输出第二文本图像的第二特征序列至第一RNN和第二RNN,并通过第一RNN输出第二特征序列的第二特征向量标签分布,以及通过第二RNN输出第二预测结果,第二预测结果为第二文本图像中字符序列的分词结果和实体标注信息的预测结果。
本公开示例性实施例中,在执行步骤S122之前,可以从训练数据集中选取出多张文本图像,分别作为第二文本图像。需要说明的是,本公开示例性实施例中,选取出的多张第二文本图像可以与选取出的多张第一文本图像部分相同,也可以与选取出的多张第一文本图像完全不同,本公开示例性实施例对此不作具体限制。
此外,可以理解的是,本公开示例性实施例中,执行步骤S122时,第一CNN用于对第二文本图像进行特征提取,输出第二文本图像的第二特征序列,第一RNN用于根据第二特征序列,输出第二特征序列的第二特征向量标签分布,也即,第二特征序列中每一个特征向量的标签分布,第二RNN用于根据第二特征序列,输出第二预测结果。
步骤S123,在每获得一次第二特征向量标签分布之后,根据第二特征向量标签分布,以及第二特征向量标签分布所对应的第二文本图像的整体字符信息,对第一CNN和第一RNN进行训练。
对第一CNN和第一RNN进行训练即为调整第一CNN和第一RNN的模型参数,且步骤S123中,同样可以通过多分类交叉熵损失函数对第一CNN和第一RNN进行训练。
步骤S124,在每获得一次第二预测结果之后,根据第二预测结果,以及第二预测结果所对应的第二文本图像的分词结果和实体标注信息,对第一CNN和第二RNN进行训练。
对第一CNN和第二RNN进行训练即为调整第一CNN和第二RNN的模型参数,且步骤S124中,同样可以通过多分类交叉熵损失函数对对第一CNN和第二RNN进行训练。
步骤S125,通过编解码网络,以及训练之后的第一CNN、第一RNN和第二RNN构建初始文本识别模型。
执行步骤S125所构建的初始文本识别模型中,第一CNN的输出分别作为第一RNN和第二RNN的输入,第一RNN和第二RNN的输出共同作为编解码网络的输入。此外,本公开示例性实施例中,初始文本识别模型包括的编解码网络可以是未经过训练的Transformer模型,也可以是经过训练的Transformer模型,本公开示例性实施例对此不作具体限制。
在上述实施方式中,一方面,用于构建初始文本识别模型的第一CNN、第一RNN和第二RNN是预先经过训练获得的,那么,第一CNN便已经具有了一定的特征序列提取能力,第一RNN和第二RNN具有一定的特征序列处理能力,在后续对初始文本识别模型进行训练,以获得目标文本识别模型时,便能够在一定程度上提高训练的有效性,从而提高目标文本识别模型的可靠性,另一方面,字符标注信息除包括整体字符信息、分词结果和实体标注信息,因此,字符标注信息较为精细化,后续所采用的初始文本识别模型又包括第一CNN、第一RNN、第二RNN和编解码网络这四个高性能的神经网络模型,因此,还能够在很大程度上降低训练数据集所需包括的文本图像数量,以降低多张文本图像的整体标注时间,从而提高目标文本识别模型的训练效率。
此外,实际实施时,字符标注信息除包括整体字符信息、分词结果和实体标注信息之外,还可以包括每个字符的位置信息,也即,在对文本图像进行位置信息标注的过程中,针对字符序列中的每一个字符,首先,可以通过矩形坐标框对其进行位置圈定,然后,再记录矩形坐标框位于文本图像中的坐标位置,用于表征字符的位置信息。
在字符标注信息包括整体字符信息、分词结果、实体标注信息和每个字符的位置信息的情况下,本公开示例性实施例中,上述步骤S122和步骤S124可以分别替换为:
步骤S122,针对训练数据集中的每张第二文本图像,将第二文本图像输入第一CNN,以供第一CNN输出第二文本图像的第二特征序列至第一RNN和第二RNN,并通过第一RNN输出第二特征序列的第二特征向量标签分布,以及通过第二RNN输出第二预测结果,第二预测结果为第二文本图像中字符序列的分词结果、实体标注信息,以及每个字符的位置信息的预测结果。
步骤S124,在每获得一次第二预测结果之后,根据第二预测结果,以及第二预测结果所对应的第二文本图像的分词结果、实体标注信息和每个字符的位置信息,对第一CNN和第二RNN进行训练。
在上述实施方式中,字符标注信息包括整体字符信息、分词结果、实体标注信息和每个字符的位置信息,因此,在对初始文本识别模型进行训练,获得目标文本识别模型的过程中,能够更加充分的挖掘利用一个字符序列由字、词、句三级结构组成的特点,同时,字符标注信息包括整体字符信息、分词结果、实体标注信息,以及每个字符的位置信息等多种详细信息,从而进一步保证了深入的学习,因此,能够进一步提高目标文本识别模型的可靠性。
请结合图5,作为本公开的一种可选的实施方式,在执行步骤S120中的步骤S121、步骤S122、步骤S123、步骤S124和步骤S125之前,文本识别模型训练方法还包括步骤S210、步骤S220和步骤S230。
步骤S210,构建命名实体识别模型,命名实体识别模型包括第一CNN和第二RNN。
请结合图6,执行步骤S210所构建的命名实体识别模型中,第一CNN的输出作为第二RNN的输入。此外,第一CNN可以包括编码器(Encoder),第二RNN可以包括两层LSTM,本公开示例性实施例对此不作具体限制。
步骤S220,针对训练数据集中的每张第三文本图像,将第三文本图像输入第一CNN,以供第一CNN输出第三文本图像的第三特征序列至第二RNN,并通过第二RNN输出第三预测结果,第三预测结果为第三文本图像中字符序列的分词结果和实体标注信息的预测结果。
本公开示例性实施例中,在执行步骤S220之前,可以从训练数据集中选取出多张文本图像,分别作为第三文本图像。需要说明的是,本公开示例性实施例中,选取出的多张第三文本图像可以与选取出的多张第一文本图像,或多张第二文本图像部分相同,也可以与选取出的多张第一文本图像,或多张第二文本图像完全不同,本公开示例性实施例对此不作具体限制。
此外,可以理解的是,本公开示例性实施例中,执行步骤S220时,第一CNN用于对第三文本图像进行特征提取,输出第三文本图像的第三特征序列,第二RNN用于根据第三特征序列,输出第三预测结果。
步骤S230,在每获得一次第三预测结果之后,根据第三预测结果,以及第三预测结果所对应的第三文本图像的分词结果和实体标注信息,对第一CNN和第二RNN进行训练。
对第一CNN和第二RNN进行训练即为调整第一CNN和第二RNN的模型参数,而这个过程,即可看作是对命名实体识别模型的训练过程,且步骤S230中,可以通过线性链(LinearChain,CRF) 损失函数对第一CNN和第二RNN进行训练。
在对命名实体识别模型中的第一CNN和第二RNN进行训练之后,即可通过命名实体识别模型中经过训练的第一CNN构建初始文本处理模型,最终,用于构建初始文本识别模型。
在上述实施方式中,用于构建初始文本识别模型的第一CNN和第二RNN在执行步骤S210、步骤S220和步骤S230时预先经过一次训练,此后,在执行步骤S121、步骤S122、步骤S123、步骤S124和步骤S125时,再经过一次训练,那么,第一CNN便已经具有了相对较强的特征序列提取能力,第二RNN具有相对较强的特征序列处理能力,在后续对初始文本识别模型进行训练,以获得目标文本识别模型时,便能够进一步提高训练的有效性,从而进一步提高目标文本识别模型的可靠性。
请结合图7,作为本公开的一种可选的实施方式,在执行步骤S210之前,文本识别模型训练方法还包括步骤S310、步骤S320和步骤S330。
步骤S310,构建第一卷积循环神经网络(Convolutional Recurrent NeuralNetwork,CRNN),第一CRNN包括第一CNN和第三RNN。
请结合图8,执行步骤S310所构建的第一CRNN中,第一CNN的输出作为第三RNN的输入。此外,第一CNN可以包括编码器(Encoder),第三RNN可以包括两层LSTM,本公开示例性实施例对此不作具体限制。
步骤S320,针对训练数据集中的每张第四文本图像,将第四文本图像输入第一卷积神经网络,以供第一CNN输出第四文本图像的第四特征序列至第三循环神经网络,并通过第三RNN输出第四特征序列的第三特征向量标签分布。
本公开示例性实施例中,在执行步骤S320之前,可以从训练数据集中选取出多张文本图像,分别作为第四文本图像。需要说明的是,本公开示例性实施例中,选取出的多张第四文本图像可以与选取出的多张第一文本图像、多张第二文本图像,或多张第三文本图像部分相同,也可以与选取出的多张第一文本图像、多张第二文本图像,或多张第三文本图像完全不同,本公开示例性实施例对此不作具体限制。
此外,可以理解的是,本公开示例性实施例中,在执行步骤S320时,第一CNN用于对第四文本图像进行特征提取,输出第四文本图像的第四特征序列,第三RNN用于根据第四特征序列,输出第四特征序列的第三特征向量标签分布。
步骤S330,在每获得一次第三特征向量标签分布之后,根据第三特征向量标签分布,以及第三特征向量标签分布所对应的第四文本图像的整体字符信息,对第一CNN和第三RNN进行训练。
对第一CNN和第三RNN进行训练即为调整第一CNN和第三RNN的模型参数,而这个过程,即可看作是对第一CRNN的训练过程,且步骤S330中,可以通过CTC损失函数对第一CNN和第三RNN进行训练,其中,CTC损失函数的英文全称为Connectionist TemporalClassification。
对第一CRNN中的第一CNN和第三RNN进行训练之后,即可通过第一CRNN中经过训练的第一CNN构建命名实体识别模型。
在上述实施方式中,用于构建命名实体识别模型的第一CNN在执行步骤S310、步骤S320和步骤S330时,预先经过一次训练,此后,在执行步骤S210、步骤S220和步骤S230时,再经过一次训练,最后,在执行步骤S121、步骤S122、步骤S123、步骤S124和步骤S125时,再经过一次训练,那么,第一CNN便已经具有了相对更强的特征序列提取能力,在后续对初始文本识别模型进行训练,以获得目标文本识别模型时,便能够更进一步提高训练的有效性,从而更进一步地提高目标文本识别模型的可靠性。
作为本公开的一种可选的实施方式,步骤S310包括步骤S311、步骤S312、步骤S313和步骤S314。
步骤S311,构建变分自编码器(Variational Auto-Encoders,VAE),变分自编码器包括第一编码网络和第一解码网络。
请结合图9,执行步骤S311所构建的VAE中,第一编码网络的输出作为第一解码网络的输入。此外,VAE中,第一编码网络可以包括八个卷积层,第一解码网络可以包括八个反卷积层。可以当理解的是,本公开示例性实施例中,第一编码网络包括的卷积层数量,以及第一解码网络包括的反卷积层数量可以根据实际应用需求而定。
步骤S312,针对训练数据集中的每张第五文本图像,将第五文本图像输入第一编码网络,以供第一编码网络输出第五文本图像的第五特征序列至第一解码网络,并通过第一解码网络输出第五文本图像的图像构建结果。
本公开示例性实施例中,在执行步骤S312之前,可以从训练数据集中选取出多张文本图像,分别作为第五文本图像。需要说明的是,本公开示例性实施例中,选取出的多张第五文本图像可以与选取出的多张第一文本图像、多张第二文本图像、多张第三文本图像,或多张第四文本图像部分相同,也可以与选取出的多张第一文本图像、多张第二文本图像、多张第三文本图像,或多张第四文本图像完全不同,本公开示例性实施例对此不作具体限制。
此外,可以理解的是,本公开示例性实施例中,在执行步骤S312时,第一编码网络用于对第五文本图像进行特征提取,输出第五文本图像的第五特征序列,第一解码网络用于根据第五特征序列,输出第五文本图像的图像构建结果。
步骤S313,在每获得一次图像构建结果之后,根据图像构建结果,以及图像构建结果所对应的第五文本图像,对第一编码网络和第一解码网络进行训练。
对第一编码网络和第一解码网络进行训练即为调整第一编码网络和第一解码网络的模型参数,而这个过程,即可看作是对VAE的训练过程,且步骤S313中,可以通过L1损失函数对初始VAE进行训练,其中,L1损失函数又称为平均绝对误差 (Mean Abs Error,MAE)损失函数。
步骤S314,将训练之后的第一编码网络作为第一CNN,并结合第三RNN,构建第一CRNN。
在上述实施方式中,第一编码网络在执行步骤S311、步骤S312、步骤S313和步骤S314时预先经过一次训练,此后,在执行步骤S310、步骤S320和步骤S330时,作为第一CNN,再经过一次训练,接着,在执行步骤S210、步骤S220和步骤S230时,再经过一次训练,最后,在执行步骤S121、步骤S122、步骤S123、步骤S124和步骤S125时,再经过一次训练,那么,第一CNN便已经具有了相对更强的特征序列提取能力,在后续对初始文本识别模型进行训练,以获得目标文本识别模型时,便能够更进一步提高训练的有效性,从而更进一步提高目标文本识别模型的可靠性。
请结合图10,作为本公开的一种可选的实施方式,在执行步骤S210之前,文本识别模型训练方法还包括步骤S410、步骤S420、步骤S430和步骤S440。
步骤S410,构建简单命名实体网络,简单命名实体网络包括第二RNN。
请结合图11,执行步骤S410所构建的简单命名实体网络中,第二RNN可以包括两层LSTM,本公开示例性实施例对此不作具体限制。
步骤S420,获取训练数据集中,每张第六文本图像中字符序列所对应的第一表征词向量。
本公开示例性实施例中,在执行步骤S420之前,可以从训练数据集中选取出多张文本图像,分别作为第六文本图像。需要说明的是,本公开示例性实施例中,选取出的多张第六文本图像可以与选取出的多张第一文本图像、多张第二文本图像、多张第三文本图像、多张第四文本图像,或多张第五文本图像部分相同,也可以与选取出的多张第一文本图像、多张第二文本图像、多张第三文本图像、多张第四文本图像,或多张第五文本图像完全不同,本公开示例性实施例对此不作具体限制。
此外,本公开示例性实施例中,可以通过Word2vec或 Glove等编码工具对第六文本图像中携带的字符序列进行编码,获得对应的第一表征词向量,且第一表征词向量实质包括多个第一词向量。
步骤S430,针对训练数据集中的每张第六文本图像,将第六文本图像中字符序列所对应的第一表征词向量输入第二RNN,以通过第二RNN输出第四预测结果,第四预测结果为第六文本图像中字符序列的分词结果和实体标注信息的预测结果。
本公开示例性实施例中,在执行步骤S430时,第二RNN用于根据第六文本图像中字符序列所对应的第一表征词向量,输出第四预测结果。
步骤S440,在每获得一次第四预测结果之后,根据第四预测结果,以及与第四预测结果对应的第六文本图像的分词结果和实体标注信息,对第二RNN进行训练。
步骤S440中,对第二RNN进行训练即为调整第二份RNN的模型参数,而这个过程,即可看作是对简单命名实体网络的训练过程,且步骤S440中,可以通过CTC损失函数对简单命名实体网络进行训练。
对简单命名实体网络中的第二RNN进行训练之后,即可通过简单命名实体网络中经过训练的第二RNN构建命名实体识别模型。
在上述实施方式中,第二RNN在执行步骤S410、步骤S420、步骤S430和步骤S440时预先经过一次训练,此后,在执行步骤S210、步骤S220和步骤S230时,再经过一次训练,最后,在执行步骤S121、步骤S122、步骤S123、步骤S124和步骤S125时,再经过一次训练,那么,第二RNN便已经具有了相对更强的特征序列处理能力,在后续对初始文本识别模型进行训练,以获得目标文本识别模型时,便能够更进一步地提高训练的有效性,从而更进一步地提高目标文本识别模型的可靠性。
请结合图12,作为本公开的一种可选的实施方式,在执行步骤S120之前,文本识别模型训练方法还包括步骤S510、步骤S520和步骤S530。
步骤S510,构建第二CRNN,第二CRNN包括第二CNN和第一RNN。
请结合图13,执行步骤S510所构建的第二CRNN中,第二CNN的输出作为第一RNN的输入。此外,第二CRNN中,第二CNN可以包括编码器(Encoder),第一RNN可以包括两层LSTM,本公开示例性实施例对此不作具体限制。
步骤S520,针对训练数据集中的每张第七文本图像,将第七文本图像输入第二卷积神经网络,以供第二卷积神经网络输出第七文本图像的第六特征序列至第一循环神经网络,并通过第一循环神经网络输出第六特征序列的第四特征向量标签分布。
本公开示例性实施例中,在执行步骤S520之前,可以从训练数据集中选取出多张文本图像,分别作为第七文本图像。需要说明的是,本公开示例性实施例中,选取出的多张第七文本图像可以与选取出的多张第一文本图像、多张第二文本图像、多张第三文本图像、多张第四文本图像、多张第五文本图像,或多张第六文本图像部分相同,也可以与选取出的多张第一文本图像、多张第二文本图像、多张第三文本图像、多张第四文本图像、多张第五文本图像,或多张第六文本图像完全不同,本公开示例性实施例对此不作具体限制。
此外,可以理解的是,本公开示例性实施例中,在执行步骤S520时,第二CNN用于对第七文本图像进行特征提取,输出第七文本图像的第四特征序列,第一RNN用于根据第六特征序列,输出第六特征序列的第四特征向量标签分布。
步骤S530,在每获得一次第四特征向量标签分布之后,根据第四特征向量标签分布,以及第四特征向量标签分布所对应的第七文本图像的整体字符信息,对第二CNN和第一RNN进行训练。
对第二CNN和第一RNN进行训练即为调整第二CNN和第一RNN的模型参数,而这个过程,即可看作是对第二CRNN的训练过程,且步骤S530中,可以通过CTC损失函数对第二CNN和第一RNN进行训练。
在上述实施方式中,用于构建初始文本识别模型的第一RNN在执行步骤S510、步骤S520和步骤S530时预先经过一次训练,已经具有一定的特征序列处理能力,在后续对初始文本识别模型进行训练,以获得目标文本识别模型时,便能够进一步提高训练的有效性,从而进一步提高目标文本识别模型的可靠性。此外,若步骤120包括步骤S121、步骤S122、步骤S123、步骤S124和步骤S125,那么,在执行步骤S121、步骤S122、步骤S123、步骤S124和步骤S125时,第一RNN将再经过一次训练,使得第一RNN具有相对较强的特征序列处理能力,在后续对初始文本识别模型进行训练,以获得目标文本识别模型时,便能够更进一步地提高训练的有效性,从而更进一步地提高目标文本识别模型的可靠性。
此外,需要说明的是,本公开示例性实施例中,作为步骤S510、步骤S520和步骤S530的并列实施例,若文本识别模型训练方法包括步骤S310、步骤S320和步骤S330,那么,也可以在执行步骤S310、步骤S320和步骤S330之后,将经过的第三RNN直接作为第一RNN,构建初始文本识别模型,也即,步骤S120中,初始文本识别模型包括的第一RNN可以直接采用训练之后的第三RNN。此外,若步骤120包括步骤S121、步骤S122、步骤S123、步骤S124和步骤S125,那么,也可以在执行步骤S310、步骤S320和步骤S330之后,将经过的第三RNN直接作为第一RNN,用于构建初始文本处理模型,也即,步骤S121中,初始文本处理模型包括的第一RNN可以直接采用训练之后的第三RNN。
请结合图14,作为本公开的一种可选的实施方式,在执行步骤S120之前,文本识别模型训练方法还可以包括步骤S610、步骤S620、步骤S630和步骤S640。
步骤S610,构建编解码网络,编解码网络包括第二编码网络和第二解码网络。
请结合图15,执行步骤S610时所构建的编解码网络可以是一个未经过训练的Transformer模型,编解码网络包括的第二编码网络的输出作为第二解码网络的输入。此外,本公开示例性实施例中,第二编码网络可以包括六个基础编码器,第二解码网络可以包括六个基础解码器。可以当理解的是,本公开示例性实施例中,第二编码网络包括的卷积层数量,以及第二解码网络包括的反卷积层数量可以根据实际应用需求而定。
步骤S620,获取训练数据集中,每张第八文本图像中字符序列所对应的第二表征词向量。
本公开示例性实施例中,在执行步骤S620之前,可以从训练数据集中选取出多张文本图像,分别作为第八文本图像。需要说明的是,本公开示例性实施例中,选取出的多张第八文本图像可以与选取出的多张第一文本图像、多张第二文本图像、多张第三文本图像、多张第四文本图像、多张第五文本图像、多张第六文本图像,或多张第七文本图像部分相同,也可以与选取出的多张第一文本图像、多张第二文本图像、多张第三文本图像、多张第四文本图像、多张第五文本图像、多张第六文本图像,或多张第七文本图像完全不同,本公开示例性实施例对此不作具体限制。
此外,本公开示例性实施例中,可以通过Word2vec或 Glove等编码工具直接对每张第八文本图像中携带的字符序列进行编码,获得对应的第二表征词向量,且第二表征词向量实质包括多个第二词向量。
步骤S630,针对训练数据集中的每张第八文本图像,将第八文本图像中字符序列所对应的第二表征词向量输入第二编码网络,以供第二编码网络输出第八文本图像中字符序列的第七特征序列至第二解码网络,并通过第二解码网络输出第八文本图像中字符序列的特征表示。在此过程中,第二解码网络的输入以<E >作为起始符,接着,循环解码,以输出单个字符的特征表示,最终,输出字符序列的特征表示,且每输出一个字符的特征表示时,都需要添加Mask掩膜,以掩蔽第二解码网络对后续字符的输入。添加Mask掩膜的原因在于:在机器翻译任务中,例如,将“你是谁”翻译为“<S> who are you <E>”(<S>和<E>是设定的起止符),第二编码网络会将“你是谁”一次性编码,但是,第二解码网络却是每次解码一个单词,同时,前面解码出来的单词会是后面的输入,前面的单词又不能受到后面的单词影响,这个时候就需要借助掩膜,将后面的单词掩蔽,
本公开示例性实施例中,执行步骤S630时,第二编码网络用于对第八文本图像中字符序列所对应的第二表征词向量进行特征提取,输出第八文本图像中字符序列的第七特征序列,第三RNN用于根据第八文本图像中字符序列的第七特征序列,输出第八文本图像中字符序列的特征表示。
步骤S640,在每获得一次特征表示之后,根据特征表示,以及特征表示所对应的第八文本图像中的字符序列,对第二编码网络和第二解码网络进行训练,以对编解码网络进行训练。
对第二编码网络和第二解码网络进行训练即为调整第二编码网络和第二解码网络的模型参数,而这个过程,即可看作是对编解码网络的训练过程,且步骤S640中,可以通过多分类交叉熵损失函数对第二编码网络和第二解码网络进行训练。
在上述实施方式中,用于构建初始文本识别模型的编解码网络在执行步骤S610、步骤S620、步骤S630和步骤S640时预先经过一次训练,已经具有一定的文本识别处理能力,在后续对初始文本识别模型进行训练,以获得目标文本识别模型时,便能够进一步提高训练的有效性,从而进一步提高目标文本识别模型的可靠性。
作为本公开的一种可选的实施方式,步骤S620包括步骤S621、步骤S622和步骤S623。
步骤S621,针对训练数据集中的每张第八文本图像,对第八文本图像中的字符序列进行增强处理,获得已增强字符序列。
本公开示例性实施例中,对某张文本图像携带的字符序列进行增强可以理解为对该张文本图像携带的字符序列进行基础的语义提取操作,也即,以字词为单位的语义提取操作,用于突出该张文本图像携带的字符序列所要表达的语义信息。
实际实施时,针对训练数据集中的每张第八文本图像,可以获取该张第八文本所对应的字符标注信息,再根据该张第八文本图像所对应的字符标注信息,对该张第八文本图像携带的字符序列进行基础的语义提取操作。例如,在字符标注信息包括整体字符信息、分词结果和实体标注信息的情况下,可以提取出该张第八文本图像携带的样本字符序列中具有实体标注信息的字和词,同时,结合分词结果,提取出该张第八图像携带的样本字符序列中的动词。
以图2所示的文本图像为例,对该张文本图像携带的字符序列进行增强,获得的已增强字符序列可以是:
小勇|十点半|北京|XXX|工作
步骤S622,在每获得一个已增强字符序列之后,将已增强字符序列与对应的字符序列进行拼接,获得结合式字符序列。
本公开示例性实施例中,在每获得一个已增强字符序列之后,可以将该已增强字符序列拼接到对应的字符序列之后,获得一个结合式字符序列。
例如,对于已增强字符序列“小勇|十点半|北京|XXX|工作”,可以将其添加到对应的字符序列“小勇十点半要去北京的XXX工作”之后,获得结合式字符序列“小勇十点半要去北京的XXX工作—小勇|十点半|北京|XXX|工作”。
步骤S623,对结合式字符序列进行编码,获得第二表征词向量。
本公开示例性实施例中,可以通过Word2vec或 Glove等编码工具对结合式字符序列进行编码,获得对应的第二表征词向量,且第二表征词向量实质包括多个第二词向量。
在上述实施方式中,首先,可以针对训练数据集中的每张第八文本图像,对第八文本图像中的字符序列进行增强处理,获得已增强字符序列,然后,在每获得一个已增强字符序列之后,将已增强字符序列与对应的字符序列进行拼接,获得结合式字符序列,最后,对结合式字符序列进行编码,获得第二表征词向量,而第二表征词向量是用于对编解码网络进行训练的,因此,能够提高编解码网络的可靠性,那么,在后续对初始文本识别模型进行训练,以获得目标文本识别模型时,便能够更进一步地提高训练的有效性,从而更进一步地提高目标文本识别模型的可靠性。
作为本公开的一种可选的实施方式,步骤S621包括步骤S6211和步骤S6212。
步骤S6211,对第八文本图像中的字符序列进行多阶段的递进式语义提取操作,获得语义提取结果。
本公开示例性实施例中,多阶段的递进式语义提取操作可以理解为,首先,进行基础的语义提取操作,也即,以字词为单位的语义提取操作,然后,再进行以片段式为提取单位的语义提取操作。
实际实施时,针对训练数据集中的每张第八文本图像,可以获取该张第八文本所对应的字符标注信息,再根据该张第八文本图像所对应的字符标注信息,对该张第八文本图像携带的字符序列进行基础的语义提取操作。例如,在字符标注信息包括整体字符信息、分词结果和实体标注信息的情况下,可以提取出该张第八文本图像携带的样本字符序列中具有实体标注信息的字和词,同时,结合分词结果,提取出该张第八图像携带的样本字符序列中的动词。在对该张第八文本图像携带的字符序列进行基础的语义提取操作之后,再对该张第八文本图像携带的字符序列进行片段式语义提取操作。
以图2所示的文本图像为例,对该张文本图像中的字符序列进行基础的语义提取操作,获得的语义提取结果可以是:
小勇|十点半|北京|XXX|工作
对该张文本图像携带的字符序列进行片段式语义提取操作,获得的语义提取结果可以是:
小勇|十点半|北京的XXX|工作
步骤S6212,根据语义提取结果,获得已增强字符序列。
本公开示例性实施例中,可以对获取的多个语义提取结果进行拼接,获得已增强字符序列。
继续以图2所示的文本图像为例,最终,可以获得已增强字符序列:
小勇|十点半|北京|XXX|工作—小勇|十点半|北京的XXX|工作
在上述实施方式中,能够对第八文本图像中的字符序列进行多阶段的递进式语义提取操作,获得语义提取结果,以根据语义提取结果,获得已增强字符序列,从而提高已增强字符序列的实际增强效果,而已增强字符序列是用于获得结合式字符序列的,结合式字符序列对应的第二表征词向量又是用于训练编解码网络的,编解码网络又是用于构建初始文本识别模型的,因此,在后续对初始文本识别模型进行训练时,便能够更进一步地提高训练的有效性,也就更进一步地提高了目标文本识别模型的可靠性。
作为本公开的一种可选的实施方式,步骤S623包括步骤S6231、步骤S6232、步骤S6233和步骤S6234。
步骤S6231,按照字、词和片段的分级编码方式对结合式字符序列进行整体字符编码,获得第一编码结果。
本公开示例性实施例中,首先,可以按照结合式字符序列中的字,对每个字进行编码,接着,按照结合式字符序列中的词,对每个词进行编码,然后,将词的编码组成的片段的编码,最后,按照顺序对片段的编码进行拼接,获得第一编码结果。
步骤S6232,对结合式字符序列的字、词,和/或片段进行位置编码,获得第二编码结果。
本公开示例性实施例中,也可以对结合式字符序列中的每个字、词和片段中的至少一者进行位置编码。例如,“小勇十点半要去北京的XXX工作—小勇|十点半|北京|XXX|工作—小勇|十点半|北京的XXX|工作”的位置编码可以是:
123456789(10)(11)(12)(13)(14)(15)—12|345|89|(11)(12)(13)|(14)(15)—12|345|89(10)11)(12)(13)|14)(15)
步骤S6233,对结合式字符序列中具有实体标注信息的字和/或词进行实体标注信息编码,获得第三编码结果。
本公开示例性实施例中,还可以对结合式字符序列中具有实体标注信息的字和词中的至少一者进行实体标注信息编码。
以人名、地名、组织机构名、日期时间的编码值分别为0001、0010、0011、0100,而不具有实体标注信息的字和/或词的编码值为0000为例,“小勇十点半要去北京的XXX工作—小勇|十点半|北京|XXX|工作—小勇|十点半|北京的XXX|工作”的实体标注信息编码可以是:
12(0001)|345(0100)|6(0000)|7(0000)|89(0010)|(10)(0000)|(11)(12)(13)(0011)|(14)(15)(0000)—12(0001)|345(0100)|89(0010)|(11)(12)(13)(0011)|(14)(15)(0000)—12(0001)|345(0100)|89(0010)(10)(0000)(11)(12)(13)(0011)|14)(15)(0000)
步骤S6234,根据获取到的第一编码结果、第二编码结果和第三编码结果,获得第二表征词向量。
在上述实施方式中,第二表征词向量包括第一编码结果、第二编码结果和第三编码结果,从而提高了第二表征词向量对于结合式字符序列的可表征性,而第二表征词向量又是用于训练编解码网络的,编解码网络又是用于构建初始文本识别模型的,因此,在后续对初始文本识别模型进行训练时,便能够更进一步地提高训练的有效性,也就更进一步地提高了目标文本识别模型的可靠性。
最后,需要说明的是,本公开示例性实施例中,以上所述多种可选的实施方式可以合理组合。例如,在文本识别模型训练方法包括步骤S110、步骤S120、步骤S130和步骤S140,且步骤S120包括步骤S121、步骤S122、步骤S123、步骤S12和步骤S125的基础上,在执行步骤S120中的步骤S121、步骤S122、步骤S123、步骤S124和步骤S125之前,文本识别模型训练方法还可以包括步骤S210、步骤S220和步骤S230,在执行步骤S210之前,文本识别模型训练方法还可以包括步骤S310、步骤S320和步骤S330,而步骤S310包括步骤S311、步骤S312、步骤S313和步骤S314,同时,在执行步骤S210之前,文本识别模型训练方法还可以包括步骤S410、步骤S420、步骤S430和步骤S440,此外,在执行步骤S120之前,文本识别模型训练方法还可以包括步骤S610、步骤S620、步骤S630和步骤S640,具体可参阅图16,并结合前述相关流程图。
基于与上述文本识别模型训练方法相同的发明构思,本公开示例性实施例还提供了一种文本识别模型训练装置700。请参阅图17,本公开示例性实施例提供的文本识别模型训练装置700包括训练数据集获取模块710、第一模型构建模块720、第一输入控制模块730和第一模型训练模块740。
训练数据集获取模块710,用于获取训练数据集,训练数据集中包括多张文本图像,以及多张文本图像中每张文本图像的字符标注信息,字符标注信息包括整体字符信息;
第一模型构建模块720,用于构建初始文本识别模型,初始文本识别模型包括第一卷积神经网络、第一循环神经网络、第二循环神经网络和编解码网络;
第一输入控制模块730,针对训练数据集中的每张第一文本图像,将第一文本图像输入第一卷积神经网络,以供第一卷积神经网络输出第一文本图像的第一特征序列至第一循环神经网络和第二循环神经网络,并通过第一循环神经网络输出第一特征序列的第一特征向量标签分布,以及通过第二循环神经网络输出第一预测结果,且由编解码网络根据第一特征向量标签分布和第一预测结果输出第一文本图像中字符序列的第一文本识别结果,第一预测结果为第一文本图像中字符序列的分词结果和实体标注信息的预测结果;
第一模型训练模块740,用于在每获得一次第一文本识别结果之后,根据第一文本识别结果,以及第一文本识别结果所对应的第一文本图像的整体字符信息,对第一卷积神经网络、第一循环神经网络、第二循环神经网络和编解码网络进行训练,获得目标文本识别模型。
作为本公开的一种可选的实施方式,第一模型构建模块720可以包括第一模型构建单元、第一输入输出控制单元、第一模型训练单元、第二模型训练单元和第二模型构建单元。
第一模型构建单元,用于构建初始文本处理模型,初始文本处理模型包括第一卷积神经网络、第一循环神经网络和第二循环神经网络。
第一输入输出控制单元,用于针对训练数据集中的每张第二文本图像,将第二文本图像输入第一卷积神经网络,以供第一卷积神经网络输出第二文本图像的第二特征序列至第一循环神经网络和第二循环神经网络,并通过第一循环神经网络输出第二特征序列的第二特征向量标签分布,以及通过第二循环神经网络输出第二预测结果,第二预测结果为第二文本图像中字符序列的分词结果和实体标注信息的预测结果。
第一模型训练单元,用于在每获得一次第二特征向量标签分布之后,根据第二特征向量标签分布,以及第二特征向量标签分布所对应的第二文本图像的整体字符信息,对第一卷积神经网络和第一循环神经网络进行训练。
第二模型训练单元,用于在每获得一次第二预测结果之后,根据第二预测结果,以及第二预测结果所对应的第二文本图像的分词结果和实体标注信息,对第一卷积神经网络和第二循环神经网络进行训练。
第二模型构建单元,用于通过编解码网络,以及训练之后的第一卷积神经网络、第一循环神经网络和第二循环神经网络构建初始文本识别模型。
作为本公开的一种可选的实施方式,文本识别模型训练装置700还包括第二模型构建模块、第二输出控制模块和第二模型训练模块。
第二模型构建模块,用于构建命名实体识别模型,命名实体识别模型包括第一卷积神经网络和第二循环神经网络。
第二输出控制模块,用于针对训练数据集中的每张第三文本图像,将第三文本图像输入第一卷积神经网络,以供第一卷积神经网络输出第三文本图像的第三特征序列至第二循环神经网络,并通过第二循环神经网络输出第三预测结果,第三预测结果为第三文本图像中字符序列的分词结果和实体标注信息的预测结果。
第二模型训练模块,用于在每获得一次第三预测结果之后,根据第三预测结果,以及第三预测结果所对应的第三文本图像的分词结果和实体标注信息,对第一卷积神经网络和第二循环神经网络进行训练。
作为本公开的一种可选的实施方式,文本识别模型训练装置700还包括第三模型构建模块、第三输入控制模块和第三模型训练模块。
第三模型构建模块,用于构建第一卷积循环神经网络,第一卷积循环神经网络包括第一卷积神经网络和第三循环神经网络。
第三输入控制模块,用于针对训练数据集中的每张第四文本图像,将第四文本图像输入第一卷积神经网络,以供第一卷积神经网络输出第四文本图像的第四特征序列至第三循环神经网络,并通过第三循环神经网络输出第四特征序列的第三特征向量标签分布。
第三模型训练模块,用于在每获得一次第三特征向量标签分布之后,根据第三特征向量标签分布,以及第三特征向量标签分布所对应的第四文本图像的整体字符信息,对第一卷积神经网络和第三循环神经网络进行训练。
作为本公开的一种可选的实施方式,第三模型构建模块包括第三模型构建单元、第二输入输出控制单元、第三模型训练单元和第四模型构建单元。
第三模型构建单元,用于构建变分自编码器,变分自编码器包括第一编码网络和第一解码网络。
第二输入输出控制单元,用于针对训练数据集中的每张第五文本图像,将第五文本图像输入第一编码网络,以供第一编码网络输出第五文本图像的第五特征序列至第一解码网络,并通过第一解码网络输出第五文本图像的图像构建结果。
第三模型训练单元,用于在每获得一次图像构建结果之后,根据图像构建结果,以及图像构建结果所对应的第五文本图像,对第一编码网络和第一解码网络进行训练。
第四模型构建单元,用于将训练之后的第一编码网络作为第一卷积神经网络,并结合第三循环神经网络,构建第一卷积循环神经网络。
作为本公开的一种可选的实施方式,文本识别模型训练装置700还包括第四模型构建模块、第一表征词向量获取模块、第三输入输出控制单元和第五模型训练模块。
第四模型构建模块,用于构建简单命名实体网络,简单命名实体网络包括第二循环神经网络。
第一表征词向量获取模块,用于获取训练数据集中,每张第六文本图像中字符序列所对应的第一表征词向量。
第三输入输出控制单元,用于针对训练数据集中的每张第六文本图像,将第六文本图像中字符序列所对应的第一表征词向量输入第二循环神经网络,以通过第二循环神经网络输出第四预测结果,第四预测结果为第六文本图像中字符序列的分词结果和实体标注信息的预测结果。
第五模型训练模块,用于在每获得一次第四预测结果之后,根据第四预测结果,以及与第四预测结果对应的第六文本图像的分词结果和实体标注信息,对第二循环神经网络进行训练。
作为本公开的一种可选的实施方式,文本识别模型训练装置700还包括第六模型构建模块、第四输入输出控制单元和第五模型训练模块。
第六模型构建模块,用于构建第二卷积循环神经网络,第二卷积循环神经网络包括第二卷积神经网络和第一循环神经网络。
第四输入输出控制单元,用于针对训练数据集中的每张第七文本图像,将第七文本图像输入第二卷积神经网络,以供第二卷积神经网络输出第七文本图像的第六特征序列至第一循环神经网络,并通过第一循环神经网络输出第六特征序列的第四特征向量标签分布。
第五模型训练模块,用于在每获得一次第四特征向量标签分布之后,根据第四特征向量标签分布,以及第四特征向量标签分布所对应的第七文本图像的整体字符信息,对第二卷积神经网络和第一循环神经网络进行训练。
作为本公开的一种可选的实施方式,文本识别模型训练装置700还包括第七模型构建模块、第二表征词向量获取模块、第五输入输出控制单元和第六模型训练模块。
第七模型构建模块,用于构建编解码网络,编解码网络包括第二编码网络和第二解码网络。
第二表征词向量获取模块,用于获取训练数据集中,每张第八文本图像中字符序列所对应的第二表征词向量。
第五输入输出控制单元,用于针对训练数据集中的每张第八文本图像,将第八文本图像中字符序列所对应的第二表征词向量输入第二编码网络,以供第二编码网络输出第八文本图像中字符序列的第七特征序列至第二解码网络,并通过第二解码网络输出第八文本图像中字符序列的特征表示。
第六模型训练模块,用于在每获得一次特征表示之后,根据特征表示,以及特征表示所对应的第八文本图像中的字符序列,对第二编码网络和第二解码网络进行训练,以对编解码网络进行训练。
作为本公开的一种可选的实施方式,第二表征词向量获取模块包括已增强字符序列获取单元、拼接单元、第二表征词向量获取单元。
已增强字符序列获取单元,用于针对训练数据集中的每张第八文本图像,对第八文本图像中的字符序列进行增强处理,获得已增强字符序列。
拼接单元,用于在每获得一个已增强字符序列之后,将已增强字符序列与对应的字符序列进行拼接,获得结合式字符序列。
第二表征词向量获取单元,用于对结合式字符序列进行编码,获得第二表征词向量。
作为本公开的一种可选的实施方式,已增强字符序列获取单元包括语义提取单元和语义提取结果整合单元。
语义提取单元,用于对第八文本图像中的字符序列进行多阶段的递进式语义提取操作,获得语义提取结果。
语义提取结果整合单元,用于根据语义提取结果,获得已增强字符序列。
作为本公开的一种可选的实施方式,第二表征词向量获取单元包括第一编码结果获取单元、第二编码结果获取单元、第三编码结果获取单元和编码结果整合单元。
第一编码结果获取单元,用于按照字、词和片段的分级编码方式对结合式字符序列进行整体字符编码,获得第一编码结果。
第二编码结果获取单元,用于对结合式字符序列的字、词,和/或片段进行位置编码,获得第二编码结果。
第三编码结果获取单元,用于对结合式字符序列中具有实体标注信息的字和/或词进行实体标注信息编码,获得第三编码结果。
编码结果整合单元,用于根据获取到的第一编码结果、第二编码结果和第三编码结果,获得第二表征词向量。
由于本公开示例性实施例提供的文本识别模型训练装置700是基于与上述文本识别模型训练方法相同的发明构思实现的,因此,文本识别模型训练装置700中,每个软件模块的具体描述,均可参见本公开示例性实施例提供文本识别模型训练方法实施例中对应步骤的相关描述,此处不作赘述。
请参阅图18,本公开示例性实施例还提供了一种文本识别方法,包括步骤S810和步骤S820。
步骤S810,获取待识别文本图像;
步骤S820,将待识别文本图像输入包括目标卷积神经网络、第一目标循环神经网络、第二目标循环神经网络和目标编解码网络的目标文本识别模型,以供目标卷积神经网络输出待识别文本图像的第八特征序列至第一目标循环神经网络和第二目标循环神经网络,并通过第一目标循环神经网络输出第八特征序列的第三特征向量标签分布,以及通过第二目标循环神经网络输出第五预测结果,且由目标编解码网络根据第三特征向量标签分布和第五预测结果输出待识别文本图像中字符序列的第二文本识别结果,第五预测结果为待识别文本图像中字符序列的分词结果和实体标注信息的预测结果。
可以理解的是,本公开示例性实施例中,目标文本识别模型可以通过本公开示例性实施例提供的文本识别模型训练方法训练获得。
基于与上述文本识别方法相同的发明构思,本公开示例性实施例还提供了一种文本识别装置900。请参阅图19,本公开示例性实施例提供的文本识别装置包括待识别文本图像获取模块910和文本识别模块920。
待识别文本图像获取模块910,用于获取待识别文本图像;
文本识别模块920,用于将待识别文本图像输入包括目标卷积神经网络、第一目标循环神经网络、第二目标循环神经网络和目标编解码网络的目标文本识别模型,以供目标卷积神经网络输出待识别文本图像的第八特征序列至第一目标循环神经网络和第二目标循环神经网络,并通过第一目标循环神经网络输出第八特征序列的第三特征向量标签分布,以及通过第二目标循环神经网络输出第五预测结果,且由目标编解码网络根据第三特征向量标签分布和第五预测结果输出待识别文本图像中字符序列的第二文本识别结果,第五预测结果为待识别文本图像中字符序列的分词结果和实体标注信息的预测结果。
可以理解的是,本公开示例性实施例中,目标文本识别模型可以通过本公开示例性实施例提供的文本识别模型训练装置训练获得。本公开示例性实施例还提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。存储器存储有能够被至少一个处理器执行的计算机程序,计算机程序在被至少一个处理器执行时用于使电子设备执行本公开示例性实施例提供的文本识别模型训练方法,或本公开示例性实施例提供的文本识别方法。
本公开示例性实施例还提供一种非瞬时计算机可读存储介质,其上存储有计算机指令,计算机指令用于使计算机执行本公开示例性实施例提供的文本识别模型训练方法,或本公开示例性实施例提供的文本识别方法。
本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,计算机程序在被处理器执行时实现本公开示例性实施例提供的文本识别模型训练方法,或本公开示例性实施例提供的文本识别方法。
请参阅图20,现将描述可以作为本公开的服务器或客户端的电子设备1000的示意性结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或要求的本公开的实现。
电子设备1000包括计算单元1010,其可以根据存储在只读存储器(Read-OnlyMemory,ROM)1020中的计算机程序或从存储单元1080加载到随机访问存储器(RandomAccess Memory,RAM)1030中的计算机程序,来执行各种适当的动作和处理。在RAM 1030中,还可存储设备1000操作所需的各种程序和数据。计算单元1010、ROM 1020以及RAM 1030通过总线1040彼此相连。输入/输出(I/O)接口1050也连接至总线1040。
电子设备1000中的多个部件连接至I/O接口1050,包括:输入单元1060、输出单元1070、存储单元1080以及通信单元1090。输入单元1060可以是能向电子设备1000输入信息的任何类型的设备,输入单元1060可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元1070可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1040可以包括但不限于磁盘、光盘。通信单元1090允许电子设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如,蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元1010可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1010的一些示例包括但不限于中央处理单元(Central Processing Unit,CPU)、图形处理单元(Graphics Processing Unit,GPU)、各种专用的人工智能(ArtificialIntelligence,AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(Digital Signal Process,DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1010执行上文所描述的各个方法和处理。例如,在一些实施例中,执行方法(例如,前述文本识别模型训练方法中的步骤S110、步骤S120、步骤S130和步骤S140)可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1080。在一些实施例中,计算机程序的部分或全部可以经由ROM 1020和/或通信单元1090而被载入和/或安装到电子设备1000上。在一些实施例中,计算单元1010可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法(例如,前述文本识别模型训练方法中的步骤S110、步骤S120、步骤S130和步骤S140)。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory,EPROM)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(Programmable Logic Device,PLD),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,阴极射线管(Cathode Ray Tube,CRT)或液晶显示器(Liquid Crystal Display,LCD)监视器);以及键盘和指向装置(例如,鼠标或轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈或触觉反馈);并且可以用任何形式(包括声输入、语音输入或触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或包括中间件部件的计算系统(例如,应用服务器)或包括前端部件的计算系统(例如,具有图形用户界面或网络浏览器的用户计算机,用户可以通过该图形用户界面或该网络浏览器来与此处描述的系统和技术的实施方式交互)或包括这种后台部件、中间件部件或前端部件的任何组合的计算系统中。可以通过任何形式或介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
Claims (16)
1.一种文本识别模型训练方法,其特征在于,包括:
获取训练数据集,所述训练数据集中包括多张文本图像,以及所述多张文本图像中每张文本图像的字符标注信息,所述字符标注信息包括整体字符信息、分词结果和实体标注信息;
构建初始文本识别模型,所述初始文本识别模型包括第一卷积神经网络、第一循环神经网络、第二循环神经网络和编解码网络;
针对所述训练数据集中的每张第一文本图像,将所述第一文本图像输入所述第一卷积神经网络,以供所述第一卷积神经网络输出所述第一文本图像的第一特征序列至所述第一循环神经网络和所述第二循环神经网络,并通过所述第一循环神经网络输出所述第一特征序列的第一特征向量标签分布,以及通过所述第二循环神经网络输出第一预测结果,且由所述编解码网络根据所述第一特征向量标签分布和所述第一预测结果输出所述第一文本图像中字符序列的第一文本识别结果,所述第一预测结果为所述第一文本图像中字符序列的分词结果和实体标注信息的预测结果;
在每获得一次所述第一文本识别结果之后,根据所述第一文本识别结果,以及所述第一文本识别结果所对应的第一文本图像的整体字符信息,对所述第一卷积神经网络、所述第一循环神经网络、所述第二循环神经网络和所述编解码网络进行训练,获得目标文本识别模型。
2.根据权利要求1所述的文本识别模型训练方法,其特征在于,所述构建初始文本识别模型,包括:
构建初始文本处理模型,所述初始文本处理模型包括所述第一卷积神经网络、所述第一循环神经网络和所述第二循环神经网络;
针对所述训练数据集中的每张第二文本图像,将所述第二文本图像输入所述第一卷积神经网络,以供所述第一卷积神经网络输出所述第二文本图像的第二特征序列至所述第一循环神经网络和所述第二循环神经网络,并通过所述第一循环神经网络输出所述第二特征序列的第二特征向量标签分布,以及通过所述第二循环神经网络输出第二预测结果,所述第二预测结果为所述第二文本图像中字符序列的分词结果和实体标注信息的预测结果;
在每获得一次所述第二特征向量标签分布之后,根据所述第二特征向量标签分布,以及所述第二特征向量标签分布所对应的第二文本图像的整体字符信息,对所述第一卷积神经网络和所述第一循环神经网络进行训练;
在每获得一次所述第二预测结果之后,根据所述第二预测结果,以及所述第二预测结果所对应的第二文本图像的分词结果和实体标注信息,对所述第一卷积神经网络和所述第二循环神经网络进行训练;
通过所述编解码网络,以及训练之后的所述第一卷积神经网络、所述第一循环神经网络和所述第二循环神经网络构建所述初始文本识别模型。
3.根据权利要求2所述的文本识别模型训练方法,其特征在于,所述构建初始文本识别模型之前,所述文本识别模型训练方法还包括:
构建命名实体识别模型,所述命名实体识别模型包括所述第一卷积神经网络和所述第二循环神经网络;
针对所述训练数据集中的每张第三文本图像,将所述第三文本图像输入所述第一卷积神经网络,以供所述第一卷积神经网络输出所述第三文本图像的第三特征序列至所述第二循环神经网络,并通过所述第二循环神经网络输出第三预测结果,所述第三预测结果为所述第三文本图像中字符序列的分词结果和实体标注信息的预测结果;
在每获得一次所述第三预测结果之后,根据所述第三预测结果,以及所述第三预测结果所对应的第三文本图像的分词结果和实体标注信息,对所述第一卷积神经网络和所述第二循环神经网络进行训练。
4.根据权利要求3所述的文本识别模型训练方法,其特征在于,所述构建命名实体识别模型之前,所述文本识别模型训练方法还包括:
构建第一卷积循环神经网络,所述第一卷积循环神经网络包括所述第一卷积神经网络和第三循环神经网络;
针对所述训练数据集中的每张第四文本图像,将所述第四文本图像输入所述第一卷积神经网络,以供所述第一卷积神经网络输出所述第四文本图像的第四特征序列至所述第三循环神经网络,并通过所述第三循环神经网络输出所述第四特征序列的第三特征向量标签分布;
在每获得一次所述第三特征向量标签分布之后,根据所述第三特征向量标签分布,以及所述第三特征向量标签分布所对应的第四文本图像的整体字符信息,对所述第一卷积神经网络和所述第三循环神经网络进行训练。
5.根据权利要求4所述的文本识别模型训练方法,其特征在于,所述构建第一卷积循环神经网络,包括:
构建变分自编码器,所述变分自编码器包括第一编码网络和第一解码网络;
针对所述训练数据集中的每张第五文本图像,将所述第五文本图像输入所述第一编码网络,以供所述第一编码网络输出所述第五文本图像的第五特征序列至所述第一解码网络,并通过所述第一解码网络输出所述第五文本图像的图像构建结果;
在每获得一次所述图像构建结果之后,根据所述图像构建结果,以及所述图像构建结果所对应的第五文本图像,对所述第一编码网络和所述第一解码网络进行训练;
将训练之后的所述第一编码网络作为所述第一卷积神经网络,并结合所述第三循环神经网络,构建所述第一卷积循环神经网络。
6.根据权利要求3所述的文本识别模型训练方法,其特征在于,所述构建命名实体识别模型之前,所述文本识别模型训练方法还包括:
构建简单命名实体网络,所述简单命名实体网络包括所述第二循环神经网络;
获取所述训练数据集中,每张第六文本图像中字符序列所对应的第一表征词向量;
针对所述训练数据集中的每张第六文本图像,将所述第六文本图像中字符序列所对应的第一表征词向量输入所述第二循环神经网络,以通过所述第二循环神经网络输出第四预测结果,所述第四预测结果为所述第六文本图像中字符序列的分词结果和实体标注信息的预测结果;
在每获得一次所述第四预测结果之后,根据所述第四预测结果,以及与所述第四预测结果对应的第六文本图像的分词结果和实体标注信息,对所述第二循环神经网络进行训练。
7.根据权利要求1或2所述的文本识别模型训练方法,其特征在于,所述构建初始文本识别模型之前,所述文本识别模型训练方法还包括:
构建第二卷积循环神经网络,所述第二卷积循环神经网络包括第二卷积神经网络和所述第一循环神经网络;
针对所述训练数据集中的每张第七文本图像,将所述第七文本图像输入所述第二卷积神经网络,以供所述第二卷积神经网络输出所述第七文本图像的第六特征序列至所述第一循环神经网络,并通过所述第一循环神经网络输出所述第六特征序列的第四特征向量标签分布;
在每获得一次所述第四特征向量标签分布之后,根据所述第四特征向量标签分布,以及所述第四特征向量标签分布所对应的第七文本图像的整体字符信息,对所述第二卷积神经网络和所述第一循环神经网络进行训练。
8.根据权利要求1或2所述的文本识别模型训练方法,其特征在于,所述构建初始文本识别模型之前,所述文本识别模型训练方法还包括:
构建所述编解码网络,所述编解码网络包括第二编码网络和第二解码网络;
获取所述训练数据集中,每张第八文本图像中字符序列所对应的第二表征词向量;
针对所述训练数据集中的每张第八文本图像,将所述第八文本图像中字符序列所对应的第二表征词向量输入所述第二编码网络,以供所述第二编码网络输出所述第八文本图像中字符序列的第七特征序列至所述第二解码网络,并通过所述第二解码网络输出所述第八文本图像中字符序列的特征表示;
在每获得一次所述特征表示之后,根据所述特征表示,以及所述特征表示所对应的第八文本图像中的字符序列,对所述第二编码网络和所述第二解码网络进行训练,以对所述编解码网络进行训练。
9.根据权利要求8所述的文本识别模型训练方法,其特征在于,所述获取所述训练数据集中,每张第八文本图像中字符序列所对应的第二表征词向量,包括:
针对所述训练数据集中的每张第八文本图像,对所述第八文本图像中的字符序列进行增强处理,获得已增强字符序列;
在每获得一个已增强字符序列之后,将所述已增强字符序列与对应的字符序列进行拼接,获得结合式字符序列;
对所述结合式字符序列进行编码,获得第二表征词向量。
10.根据权利要求9所述的文本识别模型训练方法,其特征在于,所述对所述第八文本图像中的字符序列进行增强处理,获得已增强字符序列,包括:
对所述第八文本图像中的字符序列进行多阶段的递进式语义提取操作,获得语义提取结果;
根据所述语义提取结果,获得已增强字符序列。
11.根据权利要求9所述的文本识别模型训练方法,其特征在于,所述对所述结合式字符序列进行编码,获得第二表征词向量,包括:
按照字、词和片段的分级编码方式对所述结合式字符序列进行整体字符编码,获得第一编码结果;
对所述结合式字符序列的字、词,和/或片段进行位置编码,获得第二编码结果;
对所述结合式字符序列中具有实体标注信息的字和/或词进行实体标注信息编码,获得第三编码结果;
根据获取到的所述第一编码结果、所述第二编码结果和所述第三编码结果,获得所述第二表征词向量。
12.一种文本识别方法,其特征在于,包括:
获取待识别文本图像;
将所述待识别文本图像输入包括目标卷积神经网络、第一目标循环神经网络、第二目标循环神经网络和目标编解码网络的目标文本识别模型,以供所述目标卷积神经网络输出所述待识别文本图像的第八特征序列至所述第一目标循环神经网络和所述第二目标循环神经网络,并通过所述第一目标循环神经网络输出所述第八特征序列的第三特征向量标签分布,以及通过所述第二目标循环神经网络输出第五预测结果,且由所述目标编解码网络根据所述第三特征向量标签分布和所述第五预测结果输出所述待识别文本图像中字符序列的第二文本识别结果,所述第五预测结果为所述待识别文本图像中字符序列的分词结果和实体标注信息的预测结果。
13.一种文本识别模型训练装置,其特征在于,包括:
训练数据集获取模块,用于获取训练数据集,所述训练数据集中包括多张文本图像,以及所述多张文本图像中每张文本图像的字符标注信息,所述字符标注信息包括整体字符信息、分词结果和实体标注信息;
第一模型构建模块,用于构建初始文本识别模型,所述初始文本识别模型包括第一卷积神经网络、第一循环神经网络、第二循环神经网络和编解码网络;
第一输入控制模块,针对所述训练数据集中的每张第一文本图像,将所述第一文本图像输入所述第一卷积神经网络,以供所述第一卷积神经网络输出所述第一文本图像的第一特征序列至所述第一循环神经网络和所述第二循环神经网络,并通过所述第一循环神经网络输出所述第一特征序列的第一特征向量标签分布,以及通过所述第二循环神经网络输出第一预测结果,且由所述编解码网络根据所述第一特征向量标签分布和所述第一预测结果输出所述第一文本图像中字符序列的第一文本识别结果,所述第一预测结果为所述第一文本图像中字符序列的分词结果和实体标注信息的预测结果;
第一模型训练模块,用于在每获得一次所述第一文本识别结果之后,根据所述第一文本识别结果,以及所述第一文本识别结果所对应的第一文本图像的整体字符信息,对所述第一卷积神经网络、所述第一循环神经网络、所述第二循环神经网络和所述编解码网络进行训练,获得目标文本识别模型。
14.一种文本识别装置,其特征在于,包括:
待识别文本图像获取模块,用于获取待识别文本图像;
文本识别模块,用于将所述待识别文本图像输入包括目标卷积神经网络、第一目标循环神经网络、第二目标循环神经网络和目标编解码网络的目标文本识别模型,以供所述目标卷积神经网络输出所述待识别文本图像的第八特征序列至所述第一目标循环神经网络和所述第二目标循环神经网络,并通过所述第一目标循环神经网络输出所述第八特征序列的第三特征向量标签分布,以及通过所述第二目标循环神经网络输出第五预测结果,且由所述目标编解码网络根据所述第三特征向量标签分布和所述第五预测结果输出所述待识别文本图像中字符序列的第二文本识别结果,所述第五预测结果为待识别文本图像中字符序列的分词结果和实体标注信息的预测结果。
15.一种电子设备,包括:
处理器;以及
存储器,所述存储器上存储有计算机程序;
其中,所述计算机程序包括指令,所述指令在由所述处理器执行时,使所述处理器执行权利要求1~11中任意一项所述的文本识别模型训练方法,或使所述处理器执行权利要求12所述的文本识别方法。
16.一种非瞬时计算机可读存储介质,其特征在于,存储有计算机指令,所述计算机指令用于使计算机执行权利要求1~11中任意一项所述的文本识别模型训练方法,或使所述计算机执行权利要求12所述的文本识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111560609.0A CN113963358B (zh) | 2021-12-20 | 2021-12-20 | 文本识别模型训练方法、文本识别方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111560609.0A CN113963358B (zh) | 2021-12-20 | 2021-12-20 | 文本识别模型训练方法、文本识别方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113963358A CN113963358A (zh) | 2022-01-21 |
CN113963358B true CN113963358B (zh) | 2022-03-04 |
Family
ID=79473328
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111560609.0A Active CN113963358B (zh) | 2021-12-20 | 2021-12-20 | 文本识别模型训练方法、文本识别方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113963358B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115409038A (zh) * | 2022-08-26 | 2022-11-29 | 湖北星纪时代科技有限公司 | 自然语言处理方法及装置、电子设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109992782A (zh) * | 2019-04-02 | 2019-07-09 | 深圳市华云中盛科技有限公司 | 法律文书命名实体识别方法、装置及计算机设备 |
CN110097049A (zh) * | 2019-04-03 | 2019-08-06 | 中国科学院计算技术研究所 | 一种自然场景文本检测方法及系统 |
CN110276253A (zh) * | 2019-05-15 | 2019-09-24 | 中国科学院信息工程研究所 | 一种基于深度学习的模糊文字检测识别方法 |
CN111428718A (zh) * | 2020-03-30 | 2020-07-17 | 南京大学 | 一种基于图像增强的自然场景文本识别方法 |
CN113269189A (zh) * | 2021-07-20 | 2021-08-17 | 北京世纪好未来教育科技有限公司 | 文本识别模型的构建方法、文本识别方法、装置及设备 |
CN113569833A (zh) * | 2021-07-27 | 2021-10-29 | 平安科技(深圳)有限公司 | 基于文本文档的文字识别方法、装置、设备及存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753822B (zh) * | 2019-03-29 | 2024-05-24 | 北京市商汤科技开发有限公司 | 文本识别方法及装置、电子设备和存储介质 |
CN111027613A (zh) * | 2019-12-04 | 2020-04-17 | 浙江省北大信息技术高等研究院 | 一种场景文字识别方法、装置、存储介质及终端 |
CN111046946B (zh) * | 2019-12-10 | 2021-03-02 | 昆明理工大学 | 基于crnn的缅甸语图像文本识别方法 |
CN111160031A (zh) * | 2019-12-13 | 2020-05-15 | 华南理工大学 | 一种基于词缀感知的社交媒体命名实体识别方法 |
CN113297843B (zh) * | 2020-02-24 | 2023-01-13 | 华为技术有限公司 | 指代消解的方法、装置及电子设备 |
CN112287920B (zh) * | 2020-09-17 | 2022-06-14 | 昆明理工大学 | 基于知识蒸馏的缅甸语ocr方法 |
CN112100356A (zh) * | 2020-09-17 | 2020-12-18 | 武汉纺织大学 | 一种基于相似性的知识库问答实体链接方法及系统 |
CN112633423B (zh) * | 2021-03-10 | 2021-06-22 | 北京易真学思教育科技有限公司 | 文本识别模型的训练方法、文本识别方法、装置及设备 |
CN112633422B (zh) * | 2021-03-10 | 2021-06-22 | 北京易真学思教育科技有限公司 | 文本识别模型的训练方法、文本识别方法、装置及设备 |
CN113705313A (zh) * | 2021-04-07 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置、设备及介质 |
CN113343958B (zh) * | 2021-08-06 | 2021-11-19 | 北京世纪好未来教育科技有限公司 | 一种文本识别方法、装置、设备及介质 |
-
2021
- 2021-12-20 CN CN202111560609.0A patent/CN113963358B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109992782A (zh) * | 2019-04-02 | 2019-07-09 | 深圳市华云中盛科技有限公司 | 法律文书命名实体识别方法、装置及计算机设备 |
CN110097049A (zh) * | 2019-04-03 | 2019-08-06 | 中国科学院计算技术研究所 | 一种自然场景文本检测方法及系统 |
CN110276253A (zh) * | 2019-05-15 | 2019-09-24 | 中国科学院信息工程研究所 | 一种基于深度学习的模糊文字检测识别方法 |
CN111428718A (zh) * | 2020-03-30 | 2020-07-17 | 南京大学 | 一种基于图像增强的自然场景文本识别方法 |
CN113269189A (zh) * | 2021-07-20 | 2021-08-17 | 北京世纪好未来教育科技有限公司 | 文本识别模型的构建方法、文本识别方法、装置及设备 |
CN113569833A (zh) * | 2021-07-27 | 2021-10-29 | 平安科技(深圳)有限公司 | 基于文本文档的文字识别方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113963358A (zh) | 2022-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113283427B (zh) | 文本识别方法、装置、设备及介质 | |
US10380996B2 (en) | Method and apparatus for correcting speech recognition result, device and computer-readable storage medium | |
CN113269189B (zh) | 文本识别模型的构建方法、文本识别方法、装置及设备 | |
CN113590858B (zh) | 目标对象的生成方法、装置、电子设备以及存储介质 | |
CN113963359B (zh) | 文本识别模型训练方法、文本识别方法、装置及电子设备 | |
CN115309877B (zh) | 对话生成方法、对话模型训练方法及装置 | |
CN113313022A (zh) | 文字识别模型的训练方法和识别图像中文字的方法 | |
CN113344014B (zh) | 文本识别方法和装置 | |
CN113011420A (zh) | 字符识别方法、模型训练方法、相关装置及电子设备 | |
US20220358955A1 (en) | Method for detecting voice, method for training, and electronic devices | |
CN113889076B (zh) | 语音识别及编解码方法、装置、电子设备及存储介质 | |
CN112989935A (zh) | 一种视频生成方法、装置、设备以及存储介质 | |
CN114022887B (zh) | 文本识别模型训练及文本识别方法、装置、电子设备 | |
CN115376211B (zh) | 唇形驱动方法、唇形驱动模型的训练方法、装置及设备 | |
CN114639096B (zh) | 文本识别方法、装置、电子设备和存储介质 | |
CN114495977B (zh) | 语音翻译和模型训练方法、装置、电子设备以及存储介质 | |
CN113688955B (zh) | 文本识别方法、装置、设备及介质 | |
CN113963358B (zh) | 文本识别模型训练方法、文本识别方法、装置及电子设备 | |
CN115640520A (zh) | 跨语言跨模态模型的预训练方法、设备和存储介质 | |
CN115810068A (zh) | 一种图像描述生成方法、装置、存储介质及电子设备 | |
CN114973229A (zh) | 文本识别模型训练、文本识别方法、装置、设备及介质 | |
CN113360683A (zh) | 训练跨模态检索模型的方法以及跨模态检索方法和装置 | |
CN114970666B (zh) | 一种口语处理方法、装置、电子设备及存储介质 | |
CN115880506A (zh) | 图像生成方法、模型的训练方法、装置及电子设备 | |
CN114898742A (zh) | 流式语音识别模型的训练方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231107 Address after: 518028 Garden East Community, Yuanling Street, Futian District, Shenzhen City, Guangdong Province 297, Garden East Garden Podium Building, No. 1, 3, and 5, Yuanling Fifth Street Patentee after: Shenzhen Xingtong Technology Co.,Ltd. Address before: 102200 Room 401, building 16, courtyard 16, Yingcai North Third Street, future science city, Changping District, Beijing Patentee before: BEIJING YIZHEN XUESI EDUCATION TECHNOLOGY Co.,Ltd. |