CN113283241B - 文本识别方法、装置、电子设备及计算机可读存储介质 - Google Patents
文本识别方法、装置、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113283241B CN113283241B CN202010105885.7A CN202010105885A CN113283241B CN 113283241 B CN113283241 B CN 113283241B CN 202010105885 A CN202010105885 A CN 202010105885A CN 113283241 B CN113283241 B CN 113283241B
- Authority
- CN
- China
- Prior art keywords
- text
- blocks
- text blocks
- text block
- block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 239000013598 vector Substances 0.000 claims abstract description 201
- 230000002776 aggregation Effects 0.000 claims abstract description 92
- 238000004220 aggregation Methods 0.000 claims abstract description 92
- 239000011159 matrix material Substances 0.000 claims description 175
- 230000014509 gene expression Effects 0.000 claims description 157
- 229940050561 matrix product Drugs 0.000 claims description 46
- 230000015654 memory Effects 0.000 claims description 19
- 238000000926 separation method Methods 0.000 claims description 18
- 230000006403 short-term memory Effects 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 7
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 14
- 230000008520 organization Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000017105 transposition Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本公开实施例公开了文本识别方法、装置、电子设备及计算机可读存储介质,所述方法包括获取待识别的图像,所述待识别的图像包括多个文本块;通过第一编码器,对图像中的文本块中的文字序列进行编码,获得多个文本块对应的多个语义向量;通过第二编码器,对于所述多个文本块中的每个文本块,基于文本块的语义向量、文本块的周围文本块的语义向量、文本块的图形空间特征、文本块的周围文本块的图形空间特征,获得文本块的目标向量表示;基于所述多个文本块对应的多个目标向量表示、多个图形空间特征、多个邻接矩阵,获得所述图像中的文本块的识别结果。本公开实施例利用图像文本块的空间关系和语义信息进行文本块聚合,提高了文本识别的准确度。
Description
技术领域
本公开涉及计算机应用技术领域,具体涉及一种文本识别方法、装置、电子设备及计算机可读存储介质。
背景技术
在卡证结构化任务中,需要识别卡证图像中的特定实体文本,其中,卡证图像中的文本包括丰富且具有特定意义的实体信息,例如,人名、地名、组织名等。由于卡证图像中的文本包括丰富的非序列化的空间上下文信息,而空间上下文信息需要结合空间拓扑关系和语义进行建模,即需要将卡证图像中不同的文本块进行聚合,从而形成完整的实体文本内容,但是文本块聚合关系不能简单描述为上、下、左、右关系,因此,如何充分利用卡证图像中的空间上下文信息以及如何进行文本块聚合成为亟待解决的技术问题。
发明内容
为了解决相关技术中的问题,本公开实施例提供一种文本识别方法、装置、电子设备及计算机可读存储介质。
第一方面,本公开实施例中提供了一种文本识别的方法。
具体地,所述文本识别的方法,包括:
获取待识别的图像,其中,所述待识别的图像包括多个文本块,每个所述文本块具有相应的图形空间特征;
通过第一编码器,对所述图像中的文本块中的文字序列进行编码,获得所述多个文本块对应的多个语义向量;
通过第二编码器,对于所述多个文本块中的每个文本块,基于所述文本块的语义向量、所述文本块的周围文本块的语义向量、所述文本块的图形空间特征、所述文本块的周围文本块的图形空间特征,获得所述文本块对应的目标向量表示,其中,所述目标向量表示是指融合了空间上下文语义和图形空间特征的向量表示;
基于所述多个文本块对应的多个目标向量表示、多个图形空间特征、多个邻接矩阵,或者基于所述多个文本块对应的多个目标向量表示、多个图形空间特征、多个邻接矩阵、多个语义向量,获得所述图像中的文本块的识别结果,每个文本块对应的邻接矩阵表示所述文本块的对应文本块集合中各文本块两两之间的远近程度,所述文本块的对应文本块集合包括所述文本块和所述周围文本块。
结合第一方面,本公开在第一方面的第一种实现方式中,所述第一编码器是长短期记忆LSTM编码器或变换Transformer编码器;
所述通过第一编码器,对所述图像中的文本块中的文字序列进行编码,获得所述多个文本块对应的多个语义向量,包括:通过所述第一编码器,对所述图像中的多个文本块中的每个文本块的文字序列分别进行编码,获得所述多个文本块各自的语义向量。
结合第一方面,本公开在第一方面的第二种实现方式中,所述第二编码器包括以下任意一种编码器:图卷积网络GCN编码器、长短期记忆LSTM编码器、变换Transformer编码器;
所述文本块的图形空间特征包括所述文本块的位置坐标和/或所述文本块的尺寸和/或所述文本块与其他文本块之间的分隔图形的位置坐标和/或所述文本块与其他文本块之间的分隔图形的尺寸。
结合第一方面,本公开在第一方面的第三种实现方式中,所述文本块的周围文本块包括所述多个文本块中除所述文本块之外的文本块或所述多个文本块中除所述文本块之外的与所述文本块之间的距离小于预设阈值的文本块。
结合第一方面,本公开在第一方面的第四种实现方式中,所述通过第二编码器,对于所述多个文本块中的每个文本块,基于所述文本块的语义向量、所述文本块的周围文本块的语义向量、所述文本块的图形空间特征、所述文本块的周围文本块的图形空间特征,获得所述文本块对应的目标向量表示,包括:
将所述文本块的语义向量、所述文本块的尺寸、所述文本块的位置坐标进行拼接,将所述文本块的周围文本块的语义向量、所述文本块的周围文本块的尺寸、所述文本块的周围文本块的位置坐标进行拼接,将拼接结果输入所述第二编码器,获得所述文本块对应的所述目标向量表示。
结合第一方面,本公开在第一方面的第五种实现方式中,所述基于所述多个文本块对应的多个目标向量表示、多个图形空间特征、多个邻接矩阵,或者基于所述多个文本块对应的多个目标向量表示、多个图形空间特征、多个邻接矩阵、多个语义向量,获得所述图像中的文本块的识别结果,包括:
针对所述多个文本块中的每个文本块,基于所述文本块的目标向量表示、所述文本块的图形空间特征、所述文本块的邻接矩阵,获得所述文本块的特征表达;
基于所述多个文本块对应的多个特征表达,或者基于所述多个文本块对应的多个语义向量和所述多个文本块对应的多个特征表达,获得所述图像中的文本块的识别结果。
结合第一方面的第五种实现方式,本公开在第一方面的第六种实现方式中,所述基于所述多个文本块对应的多个特征表达获得所述图像中的文本的识别结果,包括:
通过第三编码器,基于所述多个文本块对应的多个特征表达,获得聚合信息矩阵,所述聚合信息矩阵表示所述多个文本块的聚合规则;
将所述多个文本块对应的多个特征表达和所述聚合信息矩阵输入语言表示模型,获得所述多个文本块的候选聚合结果的概率;
将所述语言表示模型的输入和所述概率一起输入命名实体识别NER模型,获得所述图像中的文本的识别结果。
结合第一方面的第五种实现方式,本公开在第一方面的第七种实现方式中,所述基于所述多个文本块对应的多个语义向量和所述多个文本块对应的多个特征表达获得所述图像中的文本的识别结果,包括:
通过第三编码器,基于所述多个文本块对应的多个特征表达,获得聚合信息矩阵,所述聚合信息矩阵表示所述多个文本块的聚合规则;
将所述多个文本块对应的多个语义向量、所述多个文本块对应的多个特征表达和所述聚合信息矩阵输入语言表示模型,获得所述多个文本块的候选聚合结果的概率;
将所述语言表示模型的输入和所述概率一起输入命名实体识别NER模型,获得所述图像中的文本的识别结果。
结合第一方面的第五种实现方式,本公开在第一方面的第八种实现方式中,所述基于所述文本块的目标向量表示、所述文本块的图形空间特征、所述文本块的邻接矩阵,获得所述文本块的特征表达,包括:
将所述文本块的目标向量表示、所述文本块的图形空间特征、所述文本块的邻接矩阵进行拼接,获得所述文本块的特征表达,所述文本块的图形空间特征包括所述文本块的尺寸和所述文本块的位置坐标。
结合第一方面的第六种实现方式或第七种实现方式,本公开在第一方面的第九种实现方式中,所述聚合信息矩阵包括前向信息矩阵和后向信息矩阵,所述前向信息矩阵表示所述多个文本块中的各文本块是否与其前一文本块聚合,所述后向信息矩阵表示所述多个文本块中的各文本块是否与其后一文本块聚合;和/或
所述第三编码器包括第一全连接层和第二全连接层,所述通过第三编码器,基于所述多个文本块对应的多个特征表达,获得聚合信息矩阵,包括:
将所述多个文本块对应的多个特征表达输入第一全连接层,获得前向信息矩阵;
将所述多个文本块对应的多个特征表达输入第二全连接层,获得后向信息矩阵。
结合第一方面的第九种实现方式,本公开在第一方面的第十种实现方式中,所述将所述多个文本块对应的多个特征表达和所述聚合信息矩阵输入语言表示模型,包括:将所述前向信息矩阵与所述多个文本块的特征表达矩阵相乘获得第一矩阵乘积,所述多个文本块的特征表达矩阵是通过将所述多个文本块对应的多个特征表达拼接得到的,将所述后向信息矩阵与所述多个文本块的特征表达矩阵相乘获得第二矩阵乘积,将所述第一矩阵乘积、所述第二矩阵乘积和所述多个文本块对应的多个特征表达输入所述语言表示模型;
所述将所述多个文本块对应的多个语义向量、所述多个文本块对应的多个特征表达和所述聚合信息矩阵输入语言表示模型,包括:将所述前向信息矩阵与所述多个文本块的特征表达矩阵相乘获得第一矩阵乘积,所述多个文本块的特征表达矩阵是通过将所述多个文本块对应的多个特征表达拼接得到的;将所述后向信息矩阵与所述多个文本块的特征表达矩阵相乘获得第二矩阵乘积;将所述第一矩阵乘积、所述第二矩阵乘积和所述多个文本块对应的多个语义向量输入所述语言表示模型。
结合第一方面的第六种实现方式或第七种实现方式,本公开在第一方面的第十一种实现方式中,所述语言表示模型包括预训练语言表示模型;和/或
所述语言表示模型包括BERT模型。
结合第一方面,本公开在第一方面的第十二种实现方式中,所述命名实体识别NER模型包括长短期记忆网络LSTM+条件随机场CRF模型;和/或
所述获得所述图像中的文本块的识别结果,包括:获得所述多个文本块中文字的标签;根据所述标签聚合所述文字,获得所述识别结果。
第二方面,本公开实施例中提供了一种文本识别装置。
具体地,所述文本识别装置,包括:
第一获取模块,被配置为获取待识别的图像,其中,所述待识别的图像包括多个文本块,每个所述文本块具有相应的图形空间特征;
第二获取模块,被配置为通过第一编码器,对所述图像中的文本块中的文字序列进行编码,获得所述多个文本块对应的多个语义向量;
第三获取模块,被配置为通过第二编码器,对于所述多个文本块中的每个文本块,基于所述文本块的语义向量、所述文本块的周围文本块的语义向量、所述文本块的图形空间特征、所述文本块的周围文本块的图形空间特征,获得所述文本块对应的目标向量表示,其中,所述目标向量表示是指融合了空间上下文语义和图形空间特征的向量表示;
第四获取模块,基于所述多个文本块对应的多个目标向量表示、多个图形空间特征、多个邻接矩阵,或者基于所述多个文本块对应的多个目标向量表示、多个图形空间特征、多个邻接矩阵、多个语义向量,获得所述图像中的文本块的识别结果,每个文本块对应的邻接矩阵表示所述文本块的对应文本块集合中各文本块两两之间的远近程度,所述文本块的对应文本块集合包括所述文本块和所述周围文本块。
结合第二方面,本公开在第二方面的第一种实现方式中,所述第一编码器是长短期记忆LSTM编码器或变换Transformer编码器;
所述通过第一编码器,对所述图像中的文本块中的文字序列进行编码,获得所述多个文本块对应的多个语义向量,包括:通过所述第一编码器,对所述图像中的多个文本块中的每个文本块的文字序列分别进行编码,获得所述多个文本块各自的语义向量。
结合第二方面,本公开在第二方面的第二种实现方式中,所述第二编码器包括以下任意一种编码器:图卷积网络GCN编码器、长短期记忆LSTM编码器、变换Transformer编码器;
所述文本块的图形空间特征包括所述文本块的位置坐标和/或所述文本块的尺寸和/或所述文本块与其他文本块之间的分隔图形的位置坐标和/或所述文本块与其他文本块之间的分隔图形的尺寸。
结合第二方面,本公开在第二方面的第三种实现方式中,所述文本块的周围文本块包括所述多个文本块中除所述文本块之外的文本块或所述多个文本块中除所述文本块之外的与所述文本块之间的距离小于预设阈值的文本块。
结合第二方面,本公开在第二方面的第四种实现方式中,所述通过第二编码器,对于所述多个文本块中的每个文本块,基于所述文本块的语义向量、所述文本块的周围文本块的语义向量、所述文本块的图形空间特征、所述文本块的周围文本块的图形空间特征,获得所述文本块对应的目标向量表示,包括:
将所述文本块的语义向量、所述文本块的尺寸、所述文本块的位置坐标进行拼接,将所述文本块的周围文本块的语义向量、所述文本块的周围文本块的尺寸、所述文本块的周围文本块的位置坐标进行拼接,将拼接结果输入所述第二编码器,获得所述文本块对应的所述目标向量表示。
结合第二方面,本公开在第二方面的第五种实现方式中,所述基于所述多个文本块对应的多个目标向量表示、多个图形空间特征、多个邻接矩阵,或者基于所述多个文本块对应的多个目标向量表示、多个图形空间特征、多个邻接矩阵、多个语义向量,获得所述图像中的文本块的识别结果,包括:
针对所述多个文本块中的每个文本块,基于所述文本块的目标向量表示、所述文本块的图形空间特征、所述文本块的邻接矩阵,获得所述文本块的特征表达;
基于所述多个文本块对应的多个特征表达,或者基于所述多个文本块对应的多个语义向量和所述多个文本块对应的多个特征表达,获得所述图像中的文本块的识别结果。
结合第二方面的第五种实现方式,本公开在第二方面的第六种实现方式中,所述基于所述多个文本块对应的多个特征表达获得所述图像中的文本的识别结果,包括:
通过第三编码器,基于所述多个文本块对应的多个特征表达,获得聚合信息矩阵,所述聚合信息矩阵表示所述多个文本块的聚合规则;
将所述多个文本块对应的多个特征表达和所述聚合信息矩阵输入语言表示模型,获得所述多个文本块的候选聚合结果的概率;
将所述语言表示模型的输入和所述概率一起输入命名实体识别NER模型,获得所述图像中的文本的识别结果。
结合第二方面的第五种实现方式,本公开在第二方面的第七种实现方式中,所述基于所述多个文本块对应的多个语义向量和所述多个文本块对应的多个特征表达获得所述图像中的文本的识别结果,包括:
通过第三编码器,基于所述多个文本块对应的多个特征表达,获得聚合信息矩阵,所述聚合信息矩阵表示所述多个文本块的聚合规则;
将所述多个文本块对应的多个语义向量、所述多个文本块对应的多个特征表达和所述聚合信息矩阵输入语言表示模型,获得所述多个文本块的候选聚合结果的概率;
将所述语言表示模型的输入和所述概率一起输入命名实体识别NER模型,获得所述图像中的文本的识别结果。
结合第二方面的第五种实现方式,本公开在第二方面的第八种实现方式中,所述基于所述文本块的目标向量表示、所述文本块的图形空间特征、所述文本块的邻接矩阵,获得所述文本块的特征表达,包括:
将所述文本块的目标向量表示、所述文本块的图形空间特征、所述文本块的邻接矩阵进行拼接,获得所述文本块的特征表达,所述文本块的图形空间特征包括所述文本块的尺寸和所述文本块的位置坐标。
结合第二方面的第六种实现方式或第七种实现方式,本公开在第二方面的第九种实现方式中,所述聚合信息矩阵包括前向信息矩阵和后向信息矩阵,所述前向信息矩阵表示所述多个文本块中的各文本块是否与其前一文本块聚合,所述后向信息矩阵表示所述多个文本块中的各文本块是否与其后一文本块聚合;和/或
所述第三编码器包括第一全连接层和第二全连接层,所述通过第三编码器,基于所述多个文本块对应的多个特征表达,获得聚合信息矩阵,包括:
将所述多个文本块对应的多个特征表达输入第一全连接层,获得前向信息矩阵;
将所述多个文本块对应的多个特征表达输入第二全连接层,获得后向信息矩阵。
结合第二方面的第九种实现方式,本公开在第二方面的第十种实现方式中,所述将所述多个文本块对应的多个特征表达和所述聚合信息矩阵输入语言表示模型,包括:将所述前向信息矩阵与所述多个文本块的特征表达矩阵相乘获得第一矩阵乘积,所述多个文本块的特征表达矩阵是通过将所述多个文本块对应的多个特征表达拼接得到的,将所述后向信息矩阵与所述多个文本块的特征表达矩阵相乘获得第二矩阵乘积,将所述第一矩阵乘积、所述第二矩阵乘积和所述多个文本块对应的多个特征表达输入所述语言表示模型;
所述将所述多个文本块对应的多个语义向量、所述多个文本块对应的多个特征表达和所述聚合信息矩阵输入语言表示模型,包括:将所述前向信息矩阵与所述多个文本块的特征表达矩阵相乘获得第一矩阵乘积,所述多个文本块的特征表达矩阵是通过将所述多个文本块对应的多个特征表达拼接得到的;将所述后向信息矩阵与所述多个文本块的特征表达矩阵相乘获得第二矩阵乘积;将所述第一矩阵乘积、所述第二矩阵乘积和所述多个文本块对应的多个语义向量输入所述语言表示模型。
结合第二方面的第六种实现方式或第七种实现方式,本公开在第二方面的第十一种实现方式中,所述语言表示模型包括预训练语言表示模型;和/或
所述语言表示模型包括BERT模型。
结合第二方面,本公开在第二方面的第十二种实现方式中,所述命名实体识别NER模型包括长短期记忆网络LSTM+条件随机场CRF模型;和/或
所述获得所述图像中的文本块的识别结果,包括:获得所述多个文本块中文字的标签;根据所述标签聚合所述文字,获得所述识别结果。
第三方面,本公开实施例提供了一种电子设备,包括存储器和处理器,其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如第一方面、第一方面的第一种实现方式至第十二种实现方式任一项所述的方法步骤。
第四方面,本公开实施例中提供了一种可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现如第一方面、第一方面的第一种实现方式至第十二种实现方式任一项所述的方法。
根据本公开实施例提供的技术方案,通过获取待识别的图像,其中,待识别的图像包括多个文本块,每个文本块具有相应的图形空间特征,通过第一编码器,对图像中的文本块中的文字序列进行编码,获得多个文本块对应的多个语义向量,通过第二编码器,对于多个文本块中的每个文本块,基于文本块的语义向量、文本块的周围文本块的语义向量、文本块的图形空间特征、文本块的周围文本块的图形空间特征,获得文本块对应的目标向量表示,其中,目标向量表示是指融合了空间上下文语义和图形空间特征的向量表示,然后基于多个文本块对应的多个目标向量表示、多个图形空间特征、多个邻接矩阵,或者基于多个文本块对应的多个目标向量表示、多个图形空间特征、多个邻接矩阵、多个语义向量,获得图像中的文本块的识别结果,邻接矩阵表示文本块的对应文本块集合中各文本块两两之间的远近程度,文本块的对应文本块集合包括文本块和周围文本块。从而通过利用待识别的图像中文本块的空间上下文语义和图形空间特征等信息,实现了图像中实体文本块的有效聚合,并正确识别图像中的实体文本块信息。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本公开的其它特征、目的和优点将变得更加明显。在附图中:
图1示出根据本公开的实施例的文本识别方法的流程图;
图2示出根据本公开实施例通过第三编码器,基于所述多个文本块对应的多个特征表达,获得聚合信息矩阵的流程图;
图3示出根据本公开实施例将所述多个文本块对应的多个特征表达和所述聚合信息矩阵输入语言表示模型,或者将所述多个文本块对应的多个语义向量、所述多个文本块对应的多个特征表达和所述聚合信息矩阵输入语言表示模型的流程图;
图4示出根据本公开实施例获得所述图像中的文本的识别结果的流程图;
图5示出根据本公开实施例的文本识别方法的应用场景示意图;
图6示出根据本公开的实施例的文本识别装置的结构框图;
图7示出根据本公开的实施例的电子设备的结构框图;
图8示出适于用来实现根据本公开实施例的文本识别方法的计算机系统的结构示意图。
具体实施方式
下文中,将参考附图详细描述本公开的示例性实施例,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施例无关的部分。
在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
如上所述,在识别卡证图像中实体文本信息时,现有技术一般将卡证图像中的文本块按照从上到下,从左到右拼接成一个序列,然后对序列中的每一个文字进行标注,例如,通过双向循环神经网络和条件随机场进行序列标注。上述识别方法无法利用卡证图像中的文本的非序列化的空间上下文信息,同时,上述序列拼接方式破坏了卡证图像中的文本的空间位置结构,可能形成错误的实体聚合方式,导致无法识别正确的实体文本信息。
为至少部分地解决发明人发现的现有技术中的问题而提出本公开。
图1示出根据本公开的实施例的文本识别方法的流程图。如图1所示,所述文本识别方法包括以下步骤S101-S104:
在步骤S101中,获取待识别的图像,其中,所述待识别的图像包括多个文本块,每个所述文本块具有相应的图形空间特征;
在步骤S102中,通过第一编码器,对所述图像中的文本块中的文字序列进行编码,获得所述多个文本块对应的多个语义向量;
在步骤S103中,通过第二编码器,对于所述多个文本块中的每个文本块,基于所述文本块的语义向量、所述文本块的周围文本块的语义向量、所述文本块的图形空间特征、所述文本块的周围文本块的图形空间特征,获得所述文本块对应的目标向量表示,其中,所述目标向量表示是指融合了空间上下文语义和图形空间特征的向量表示;
在步骤S104中,基于所述多个文本块对应的多个目标向量表示、多个图形空间特征、多个邻接矩阵,或者基于所述多个文本块对应的多个目标向量表示、多个图形空间特征、多个邻接矩阵、多个语义向量,获得所述图像中的文本块的识别结果,每个文本块对应的邻接矩阵表示所述文本块的对应文本块集合中各文本块两两之间的远近程度,所述文本块的对应文本块集合包括所述文本块和所述周围文本块。
根据本公开的实施例,可以获取待识别的图像,待识别的图像例如可以包括卡证图像,比如,身份证图像、护照图像或工作证图像等;图像中可以包括多个文本块,每个文本块中可以包括文字序列,其中,文字序列可以包括各类语言文字序列,比如中文文字序列、英文文字序列、法文文字序列等。例如,身份证图像或护照图像上包括人名和地址名等文本块,工作证图像上包括人名和组织机构名等文本块,且人名、地址名和组织机构名等文本块均包括相应的文字序列。每个文本块具有相应的图形空间特征,其中,图形空间特征可以包括每个文本块的位置坐标和/或每个文本块的尺寸和/或每个文本块与其他文本块之间的分隔图形的位置坐标和/或每个文本块与其他文本块之间的分隔图形的尺寸等。可以利用第一编码器对图像中的文本块中的文字序列进行编码,获得文本块的语义向量(例如,embedding向量),例如,可以得到图像中的多个文本块对应的多个语义向量。本公开对第一编码器不做具体限定,只要可以实现将文字序列进行编码为语义向量的编码器均在本公开实施例的保护范围之内。
根据本公开的实施例,对于任一文本块,可以通过第二编码器对该文本块的语义向量、该文本块的图形空间特征、该文本块的周围文本块的语义向量和该文本块的周围文本块的图形空间特征进行编码,从而获得所述文本块的目标向量表示,其中,目标向量表示是指融合了空间上下文语义和图形空间特征的向量表示。根据本公开的实施例,在获取了多个文本块对应的多个目标向量表示之后,可以结合多个文本块对应的多个图形空间特征和多个邻接矩阵,或者结合多个文本块对应的多个图形空间特征、多个邻接矩阵和多个语义向量,获得图像中的文本块的识别结果,其中,某个文本块的邻接矩阵表示该文本块的对应文本块集合中各文本块两两之间的远近程度,文本块的对应文本块集合包括该文本块和该文本块的周围文本块。例如,可以根据对应文本块集合中多个文本块的中心点之间的距离生成邻接矩阵,比如,邻接矩阵MA中的元素makj表示第k个文本块与第j个文本块的远近程度,其值可以表示为:m=(S-d)/S,其中,S为对应文本块集合中的多个文本块作为一个整体的外接正方形的边长,d为第k个文本块与第j个文本块的中心点之间的距离。
根据本公开实施例提供的技术方案,不但利用了图像中文本块的语义信息,而且利用了各文本块的图形空间特征进行文本识别,提高了文本块聚合的准确度,进而提高了文本识别的准确度。
根据本公开的实施例,所述第一编码器是长短期记忆LSTM编码器或变换Transformer编码器;所述步骤S102,即通过第一编码器,对所述图像中的文本块中的文字序列进行编码,获得所述多个文本块对应的多个语义向量,包括:通过所述第一编码器,对所述图像中的多个文本块中的每个文本块的文字序列分别进行编码,获得所述多个文本块各自的语义向量。
应理解,本公开的实施例将以第一编码器为长短期记忆LSTM编码器为例进行说明,但不应该作为对本公开的限制。长短期记忆LSTM编码器为循环神经网络模型的扩展,其通过特殊的结构设计可以避免循环神经网络模型中的长期依赖问题,其中,长短期记忆LSTM编码器的更新公式可以表示如下:
遗忘门:ft=σ(Wf·[ht-1,xt]+bf)
输入门:it=σ(Wi·[ht-1,xt]+bi)
输出门:ot=σ(Wo·[ht-1,xt]+bo)
短记忆:ht=Ot*tanh(Ct)
其中,t表示步数;xt表示当前步的输入,即当前步输入的文本块中的文字,例如,假设文本块中的文字序列是Adam,则x1表示A,x2表示d,x3表示a,x4表示m;ht表示当前步的输出,即已输入的文字序列x1……xt对应的语义向量,ho可以取0或者其他任意随机数;Wf、bf、Wi、bi、Wo、bo、Wc和bc为长短期记忆LSTM编码器的参数。
根据本公开的实施例,所述第二编码器包括以下任意一种编码器:图卷积网络GCN编码器、长短期记忆LSTM编码器、变换Transformer编码器;所述文本块的图形空间特征包括所述文本块的位置坐标和/或所述文本块的尺寸和/或所述文本块与其他文本块之间的分隔图形的位置坐标和/或所述文本块与其他文本块之间的分隔图形的尺寸。
应理解,本公开的实施例将以第二编码器为图卷积网络GCN编码器为例进行说明,但不应该作为对本公开的限制。图卷积网络GCN编码器用于提取拓扑图的空间特征,具体地,可以通过融合任一文本块以及所述任一文本块的周围文本块的图形空间特征,获取所述任一文本块的目标向量表达,具体可以用公式表示如下:
其中,u表示所述任一文本块,l表示图卷积网络GCN编码器的当前层数,N(u)表示所述文本块的对应文本块集合中的所有文本块,v表示所述文本块的周围文本块中的其中一个文本块,Wl和bl表示图卷积网络GCN编码器的参数,hu l+1表示第l层得到的第u个文本块的融合了空间上下文语义和图形空间特征的向量表示,hv l表示输入第l层的第v个文本块的融合了空间上下文语义和图形空间特征的向量表示。根据本公开的实施例,输入第一层的第v个文本块的融合了空间上下文语义和图形空间特征的向量表示是第v个文本块的语义向量、第v个文本块的图形空间特征、第v个文本块的周围文本块的语义向量、第v个文本块的周围文本块的图形空间特征的拼接结果。F表示激活函数,本公开对激活函数不做具体限定,例如,可以为ReLU函数。
根据本公开的实施例,对于多个文本块中的每个文本块,该文本块的图形空间特征可以包括该文本块的位置坐标和/或该文本块的尺寸和/或该文本块与其他文本块之间的分隔图形的位置坐标和/或该文本块与其他文本块之间的分隔图形的尺寸,其中,文本块的位置坐标可以为文本块中预设位置的位置坐标,本公开对预设位置不做具体限定,比如,可以为每个文本块第一个文字序列左上角或者左下角的位置;文本块的尺寸可以包括文本块的以下一个或多个参数:长度、高度、大小(面积)等。因此,文本块的图形空间特征包含了文本块在图像中的位置信息以及文本块本身的尺寸信息,以便于更好地描述文本块在图像中的空间特征。
根据本公开的实施例,文本块的图形空间特征也可以包括所述文本块与其他文本块之间的分隔图形(例如分隔线等)的空间特征,例如所述分隔图形的位置坐标和/或尺寸等。如果两个文本块之间存在分隔图形,则意味着这两个文本块不应彼此聚合。
通过在生成目标向量表示时考虑文本块的上述图形空间特征,可以更加准确地识别文本块彼此之间的聚合关系,提高文本识别结果的准确率。
根据本公开的实施例,所述文本块的周围文本块包括图像中的所述多个文本块中除所述文本块之外的文本块或图像中的所述多个文本块中除所述文本块之外的与所述文本块之间的距离小于预设阈值的文本块。
根据本公开的实施例,所述文本块的周围文本块可以包括多个文本块中除所述文本块之外的任一文本块,其中,多个文本块可以为图像中所有文本块,也可以为图像中部分文本块。
根据本公开的实施例,对于任一文本块,可以计算出所述文本块与图像中其他文本块的距离,例如,根据所述文本块与图像中其他文本块的位置坐标计算出所述文本块与图像中其他文本块的距离。并将计算出的距离与预设阈值进行比较,当该距离小于预设阈值时,可以将对应的文本块定义为所述文本块的周围文本块,本公开实施例对预设阈值不做具体限定,可以根据实际需要进行限定。
根据本公开的实施例,所述步骤S103,即通过第二编码器,对于所述多个文本块中的每个文本块,基于所述文本块的语义向量、所述文本块的周围文本块的语义向量、所述文本块的图形空间特征、所述文本块的周围文本块的图形空间特征,获得所述文本块对应的目标向量表示,包括:
将所述文本块的语义向量、所述文本块的尺寸、所述文本块的位置坐标进行拼接,将所述文本块的周围文本块的语义向量、所述文本块的周围文本块的尺寸、所述文本块的周围文本块的位置坐标进行拼接,将拼接结果输入所述第二编码器,获得所述文本块对应的所述目标向量表示。
根据本公开的实施例,当文本块的图形空间特征包括文本块的位置坐标和文本块的尺寸时,可以将文本块的语义向量、文本块的尺寸、文本块的位置坐标进行拼接,获取第一拼接结果;还可以将文本块的周围文本块的语义向量、文本块的周围文本块的尺寸、文本块的周围文本块的位置坐标进行拼接,获取第二拼接结果;可以将第一拼接结果和第二拼接结果输入第二编码器,获得文本块对应的目标向量表示。
根据本公开的实施例,所述步骤S104,即基于所述多个文本块对应的多个目标向量表示、多个图形空间特征、多个邻接矩阵,或者基于所述多个文本块对应的多个目标向量表示、多个图形空间特征、多个邻接矩阵、多个语义向量,获得所述图像中的文本块的识别结果,包括:
针对所述多个文本块中的每个文本块,基于所述文本块的目标向量表示、所述文本块的图形空间特征、所述文本块的邻接矩阵,获得所述文本块的特征表达;
基于所述多个文本块对应的多个特征表达,或者基于所述多个文本块对应的多个语义向量和所述多个文本块对应的多个特征表达,获得所述图像中的文本块的识别结果。
根据本公开的实施例,针对多个文本块中的每个文本块,首先可以基于每个文本块对应的目标向量表示、图形空间特征和邻接矩阵获取每个文本块的特征表达。然后可以基于图像中的多个文本块的特征表达,对多个文本块进行有效聚合,获取待识别图像中的文本块的识别结果,也可以基于图像中的多个文本块的语义向量以及特征表达,对多个文本块进行有效聚合,获取待识别图像中的文本块的识别结果。
根据本公开的实施例,所述基于所述多个文本块对应的多个特征表达获得所述图像中的文本的识别结果,包括:
通过第三编码器,基于所述多个文本块对应的多个特征表达,获得聚合信息矩阵,所述聚合信息矩阵表示所述多个文本块的聚合规则;
将所述多个文本块对应的多个特征表达和所述聚合信息矩阵输入语言表示模型,获得所述多个文本块的候选聚合结果的概率;
将所述语言表示模型的输入和所述概率一起输入命名实体识别NER模型,获得所述图像中的文本的识别结果。
根据本公开的实施例,在获取多个文本块的特征表达之后,可以通过第三编码器,基于多个文本块对应的多个特征表达中包含的多个文本块对应的多个语义信息以及图形空间特征获取聚合信息矩阵,其中,聚合信息矩阵表示多个文本块的聚合规则,聚合规则用于表示哪些文本块可以聚合在一起,以及文本块聚合的前后次序。
根据本公开的实施例,可以将多个文本块的特征表达和聚合信息矩阵输入语言表示模型,获得多个文本块的候选聚合结果的概率,其中,候选聚合结果的概率用于表示候选文本块聚合在一起的概率,概率越大表示该候选文本块聚合在一起的可能性越大。
根据本公开的实施例,可以将语言表示模型的输入和输出(候选聚合结果的概率)一起输入至命名实体识别NER(Named Entity Recognition)模型中,获得图像中的文本的识别结果。本公开对NER模型不做具体限定,可以根据实际需要进行选择。
根据本公开的实施例,所述基于所述多个文本块对应的多个语义向量和所述多个文本块对应的多个特征表达获得所述图像中的文本的识别结果,包括:
通过第三编码器,基于所述多个文本块对应的多个特征表达,获得聚合信息矩阵,所述聚合信息矩阵表示所述多个文本块的聚合规则;
将所述多个文本块对应的多个语义向量、所述多个文本块对应的多个特征表达和所述聚合信息矩阵输入语言表示模型,获得所述多个文本块的候选聚合结果的概率;
将所述语言表示模型的输入和所述概率一起输入命名实体识别NER模型,获得所述图像中的文本的识别结果。
根据本公开的实施例,在获取多个文本块对应的多个特征表达之后,可以通过第三编码器,基于多个文本块对应的多个特征表达中包含的多个文本块对应的多个语义信息以及图形空间特征获取聚合信息矩阵,其中,聚合信息矩阵表示多个文本块的聚合规则,聚合规则用于表示哪些文本块可以聚合在一起,以及这些文本块聚合的前后次序。
根据本公开的实施例,可以将多个文本块对应的多个语义向量、多个文本块对应的多个特征表达和聚合信息矩阵输入语言表示模型,获得多个文本块的候选聚合结果的概率,其中,候选聚合结果的概率用于表示候选文本块聚合在一起的概率,概率越大表示该候选文本块聚合在一起的可能性越大。
根据本公开的实施例,可以将语言表示模型的输入和输出(候选聚合结果的概率)一起输入至命名实体识别NER(Named Entity Recognition)模型中,获得图像中的文本的识别结果。本公开对NER模型不做具体限定,可以根据实际需要进行选择。
根据本公开的实施例,当文本块具有多个周围文本块时,可以获得多个周围文本块各自的第二拼接结果,此时,将第一拼接结果和第二拼接结果输入第二编码器,包括将第一拼接结果和多个周围文本块各自的第二拼接结果输入第二编码器。根据本公开的实施例,所述基于所述文本块的目标向量表示、所述文本块的图形空间特征、所述文本块的邻接矩阵,获得所述文本块的特征表达,包括:
将所述基于所述文本块的目标向量表示、所述文本块的图形空间特征、所述多个文本块的邻接矩阵进行拼接,获得所述文本块的特征表达,所述文本块的图形空间特征包括所述文本块的尺寸和所述文本块的位置坐标。
根据本公开的实施例,可以对文本块的目标向量表示、图形空间特征以及邻接矩阵进行拼接处理。当文本块的图形空间特征包括文本块的位置坐标和文本块的尺寸时,可以将文本块的目标向量表示、文本块的尺寸、文本块的位置坐标以及文本块的邻接矩阵进行拼接,并获得文本块的特征表达,从而使获取的特征表达既包含了文本块的语义信息,还包含了文本块的图形空间特征。
图2示出根据本公开实施例通过第三编码器,基于所述多个文本块对应的多个特征表达,获得聚合信息矩阵的流程图。如图2所示,所述聚合信息矩阵包括前向信息矩阵和后向信息矩阵,当把图像中的多个文本块有序排列时,所述前向信息矩阵表示所述多个文本块中的各文本块是否与其前一文本块聚合,所述后向信息矩阵表示所述多个文本块中的各文本块是否与其后一文本块聚合,和/或所述第三编码器包括第一全连接层和第二全连接层,所述通过第三编码器,基于所述多个文本块对应的多个特征表达,获得聚合信息矩阵,包括以下步骤S201-S202:
在步骤S201中,将所述多个文本块对应的多个特征表达输入第一全连接层,获得前向信息矩阵;
在步骤S202中,将所述多个文本块对应的多个特征表达输入第二全连接层,获得后向信息矩阵。
应理解,本公开的实施例将以“ABCD”四个文本块为例进行说明,但不应该作为对本公开的限制。假设“A”为第0个文本块、“B”为第1个文本块、“C”为第2个文本块、“D”为第3个文本块,假设文本块“A”和“B”可以聚合为一个实体,且文本块“A”在文本块“B”的前面,假设“C”和“D”可以聚合为一个实体,且文本块“C”在文本块“D”的前面。
根据本公开的实施例,可以将四个文本块“ABCD”对应的四个特征表达输入第一全连接层NetF,获得前向信息矩阵MF,其中,前向信息矩阵MF中元素(1,0)的值可以为1,表示第1个文本块的前面为第0个文本块,即文本块“A”和“B”可以聚合为一个实体,前向信息矩阵MF中元素(3,2)的值可以为1,表示第3个文本块的前面为第2个文本块,即文本块“C”和“D”可以聚合为一个实体,前向信息矩阵MF可以表示为:
根据本公开的实施例,可以将四个文本块“ABCD”对应的四个特征表达输入第二全连接层NetB,获得后向信息矩阵MB,其中,后向信息矩阵MB中元素(0,1)的值可以为1,表示第0个文本块的后面为第1个文本块,即文本块“A”和“B”可以聚合为一个实体,后向信息矩阵MB中元素(2,3)的值可以为1,表示第2个文本块的后面为第3个文本块,即文本块“C”和“D”可以聚合为一个实体,后向信息矩阵MB可以表示为:
根据本公开的实施例,所述通过第三编码器,基于所述多个文本块的特征表达,获得聚合信息矩阵,还可以被实施为:将所述多个文本块的特征表达输入第一全连接层,获得前向信息矩阵;对所述前向信息矩阵进行转置运算,获得后向信息矩阵,其中,所述后向信息矩阵为所述前向信息矩阵的转置矩阵。或者,所述通过第三编码器,基于所述多个文本块的特征表达,获得聚合信息矩阵,还可以被实施为:将所述多个文本块的特征表达输入第二全连接层,获得后向信息矩阵;对所述后向信息矩阵进行转置运算,获得前向信息矩阵,其中,所述前向信息矩阵为所述后向信息矩阵的转置矩阵。
图3示出根据本公开实施例将所述多个文本块对应的多个特征表达和所述聚合信息矩阵输入语言表示模型,或者将所述多个文本块对应的多个语义向量、所述多个文本块对应的多个特征表达和所述聚合信息矩阵输入语言表示模型的流程图。如图3所示,所述将所述多个文本块对应的多个特征表达和所述聚合信息矩阵输入语言表示模型,或者将所述多个文本块对应的多个语义向量、所述多个文本块对应的多个特征表达和所述聚合信息矩阵输入语言表示模型,包括以下步骤S301-S303:
在步骤S301中,将所述前向信息矩阵与所述多个文本块的特征表达矩阵相乘获得第一矩阵乘积,所述多个文本块的特征表达矩阵是通过将所述多个文本块对应的多个特征表达拼接得到的;
在步骤S302中,将所述后向信息矩阵与所述多个文本块的特征表达矩阵相乘获得第二矩阵乘积;
在步骤S303中,将所述第一矩阵乘积、所述第二矩阵乘积和所述多个文本块对应的多个特征表达,或者将所述第一矩阵乘积、所述第二矩阵乘积和所述多个文本块对应的多个语义向量输入所述语言表示模型。
应理解,本公开的实施例将以“ABCD”四个文本块为例进行说明,但不应该作为对本公开的限制。假设“A”、“B”、“C”、“D”四个文本块对应的特征表达分别为eA、eB、eC、eD,假设前向信息矩阵为MF,后向信息矩阵为MB。
根据本公开的实施例,可以将四个文本块“ABCD”对应的四个特征表达进行拼接,获取文本块“ABCD”的特征表达矩阵E=[eA,eB,eC,eD]T。可以将前向信息矩阵为MF与特征表达矩阵E相乘,获取第一矩阵乘积front_info,其中,front_info=[0,eA,0,eC]T;可以将后向信息矩阵MB与特征表达矩阵E相乘,获取第二矩阵乘积back_info,其中,back_info=[eB,0,eD,0]T。然后将第一矩阵乘积front_info、第二矩阵乘积back_info以及四个文本块对应的四个特征表达eA、eB、eC、eD输入至语言表示模型,从而获取四个文本块的候选聚合结果的概率,其中,候选聚合结果包括(0,eA,eB)、(eA,eB,0)、(0,eC,eD)、(eC,eD,0)。或者将第一矩阵乘积front_info、第二矩阵乘积back_info以及四个文本块对应的四个语义向量输入至语言表示模型,从而获取四个文本块的候选聚合结果的概率。
根据本公开的实施例,所述语言表示模型包括预训练语言表示模型;和/或所述语言表示模型包括BERT模型。应理解,本公开的实施例将以语言表示模型为BERT模型为例进行说明,但不应该作为对本公开的限制。
BERT模型是一种自然语言识别模型,其核心架构包括预设层数的运算层(比如12层),其中,运算层为转换器(Transformers),各个Transformers可以基于注意力机制对文本信息进行特征提取,以及对文本信息进行编码和解码。由于BERT模型为已经预训练完成的模型,在应用BERT模型时,只需根据具体的自然语言处理任务,直接使用该预训练BERT模型即可,或者也可以通过训练对该预训练BERT模型中的参数进行调整。
图4示出根据本公开实施例获得所述图像中的文本的识别结果的流程图。如图4所示,所述命名实体识别NER模型包括长短期记忆网络LSTM+条件随机场CRF模型;和/或所述获得所述图像中的文本块的识别结果,包括以下步骤S401-S402:
在步骤S401中,获得所述多个文本块中文字的标签;
在步骤S402中,根据所述标签聚合所述文字,获得所述识别结果。
应理解,本公开的实施例将以命名实体识别NER模型为长短期记忆网络LSTM+条件随机场CRF模型为例进行说明,但不应该作为对本公开的限制,可以将多个文本块对应的语言表示模型的输入和所述概率一起输入至长短期记忆网络LSTM+条件随机场CRF模型中,获取多个文本块中文字的标签,其中,标签中可以包括相同实体的标签,也可以包括不同实体的标签,可以结合标签的特点将标签进行聚合并形成文字,从而获取图像中文本块的实体识别结果。
应理解,本公开的实施例将以“ABCD”四个文本块为例进行说明,但不应该作为对本公开的限制。假设“A”、“B”、“C”、“D”四个文本块中文字的标签分别为“B-ORG、I-ORG、I-ORG”、“I-ORG、E-ORG”、“B-LOC、I-LOC”、“I-LOC、I-LOC、E-LOC”。可以识别文本块“A”和“B”代表“组织机构名”实体,且文本块“A”中包括标签“B-ORG”,即文本块“A”中包括组织机构名开始文字,文本块“B”中包括标签“E-ORG”,即文本块“B”中包括组织机构名结束文字,可以将文本块“A”和“B”聚合在一起,并获得组织机构名的识别结果。可以识别文本块“C”和“D”代表“地址名”实体,且文本块“C”中包括标签“B-LOC”,即文本块“C”中包括地址名开始文字,文本块“D”中包括标签“E-LOC”,即文本块“D”中包括地址名结束文字,可以将文本块“C”和“D”聚合在一起,并获得地址名的识别结果。
图5示出根据本公开实施例的文本识别方法的应用场景示意图。如图5所示,应用场景包括图像500,其中,图像500中包括六个文本块,分别为“P”、“Q”、“G”、“F”、“H”、“M”。假设文本块“P”和“Q”可以聚合为一个实体,且文本块“P”在文本块“Q”的前面,文本块“P”的文字序列为“周”,文本块“Q”的文字序列为“某某”;假设“G”和“H”可以聚合为一个实体,且文本块“G”在文本块“H”的前面,文本块“G”的文字序列为“XXX”,文本块“H”的文字序列为“有限公司”;假设文本块“M”和“F”可以聚合为一个实体,且文本块“M”在文本块“F”的前面,文本块“M”的文字序列为“浦东区”,文本块“F”的文字序列为“XX科技园”。为了描述的方便,图5的应用场景中仅绘制了一张图像500和六个文本块,应当了解的是,该示例仅为示例使用,并非是对于本公开的限制,本公开中的图像500的数量、文本块的数量、文本块中的文字系列的个数、文本块的排列次序以及文本块的聚合关系可以根据实际需要进行设定,本公开对此不作具体限定。
现有技术的文本识别方法,将六个文本块“P”、“Q”、“G”、“F”、“H”、“M”按照从上到下从左到右的次序进行拼接,获得序列“PQGFHM”。可见,上述文本识别方法破坏了图像中的文本块的空间位置结构,无法利用图像中的文本块的非序列化的空间上下文信息,造成了错误的聚合方式,即文本块“G”和“H”无法聚合在一起,文本块“M”和“F”也无法聚合在一起,导致无法识别正确的实体文本信息“GH”和“MF”。
或者,现有技术的文本识别方法将六个文本块“P”、“Q”、“G”、“F”、“H”、“M”分别进行文本向量化表示,然后分别对六个文本块通过图网络进行构建,分别得到六个文本块的基于空间位置的向量表示,并分别将六个向量表示作为序列标注模型的初始状态,通过条件随机场进行标注,获取六个文本块的六个标签,无法使文本块“G”和“H”聚合在一起,也无法使文本块“M”和“F”聚合在一起,导致无法识别正确的实体文本信息“GH”和“MF”。
当采用本公开实施例的文本识别方法时,通过第一编码器对图像中的六个文本块“P”、“Q”、“G”、“F”、“H”、“M”中的文字序列进行编码,获得六个文本块对应的六个语义向量vP,vQ,vG,vF,vH,vM;通过第二编码器,基于六个文本块对应的六个语义向量和六个文本块的对应的六个图形空间特征,获得了六个文本块的融合了空间上下文语义和图形空间特征的目标向量表示,并基于六个文本块对应的六个目标向量表示、六个文本块对应的六个图形空间特征和六个文本块对应的六个邻接矩阵,获得了六个文本块对应的六个特征表达eP,eQ,eG,eF,eH,eM;将六个文本块对应的六个特征表达输入第一全连接层,获得前向信息矩阵,将六个文本块对应的六个特征表达输入第二全连接层,获得后向信息矩阵;将前向信息矩阵与六个文本块的特征表达矩阵[eP,eQ,eG,eF,eH,eM]T相乘获得第一矩阵乘积[0,eP,0,eM,eG,0]T,将后向信息矩阵与六个文本块的特征表达矩阵[eP,eQ,eG,eF,eH,eM]T相乘获得第二矩阵乘积[eQ,0,eH,0,0,eF]T;将第一矩阵乘积[0,eP,0,eM,eG,0]T、第二矩阵乘积[eQ,0,eH,0,0,eF]T和六个文本块对应的六个特征表达eP,eQ,eG,eF,eH,eM,或者将第一矩阵乘积[0,eP,0,eM,eG,0]T、第二矩阵乘积[eQ,0,eH,0,0,eF]T和六个文本块对应的六个语义向量vP,vQ,vG,vF,vH,vM输入语言表示模型,获得六个文本块的候选聚合结果的概率;将语言表示模型的输入和上述概率一起输入长短期记忆网络LSTM+条件随机场CRF模型,获得六个文本块“P”、“Q”、“G”、“F”、“H”、“M”中文字的标签分别为“B-PER”、“I-PER、E-PER”、“B-ORG、I-ORG、I-ORG”、“I-LOC、I-LOC、I-LOC、I-LOC、E-LOC”、“I-ORG、I-ORG、I-ORG、E-ORG”、“B-LOC、I-LOC、I-LOC”。
可以识别文本块“P”和“Q”代表“人名”实体,且文本块“P”中包括标签“B-PER”,即文本块“P”中包括人名开始文字,文本块“Q”中包括标签“E-PER”,即文本块“Q”中包括人名结束文字,可以将文本块“P”和“Q”聚合在一起,并获得人名的识别结果“周某某”。可以识别文本块“G”和“H”代表“组织机构名”实体,且文本块“G”中包括标签“B-ORG”,即文本块“G”中包括组织机构名开始文字,文本块“H”中包括标签“E-ORG”,即文本块“H”中包括组织机构名结束文字,可以将文本块“G”和“H”聚合在一起,并获得组织机构名的识别结果“XXX有限公司”。可以识别文本块“M”和“F”代表“地址名”实体,且文本块“M”中包括标签“B-LOC”,即文本块“B”中包括地址名开始文字,文本块“F”中包括标签“E-LOC”,即文本块“F”中包括地址名结束文字,可以将文本块“M”和“F”聚合在一起,并获得地址名的识别结果“浦东区XX科技园”。
根据本公开的实施例,将所述第一编码器、第二编码器、第三编码器、语言表示模型、命名实体识别模型作为一个整体进行训练,训练样本为已知文本块聚合结果和文本识别结果的图像。在训练过程中,可以监督两个全连接层的损失函数以分别得到前向信息矩阵和后向信息矩阵。根据本公开的实施例,在训练过程中,可以不改变语言表示模型中的参数。
图6示出根据本公开的实施例的文本识别装置的结构框图。其中,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图6所示,所述文本识别装置600包括第一获取模块610、第二获取模块620、第三获取模块630和第四获取模块640。
所述第一获取模块610,被配置为获取待识别的图像,其中,所述待识别的图像包括多个文本块,每个所述文本块具有相应的图形空间特征;
所述第二获取模块620,被配置为通过第一编码器,对所述图像中的文本块中的文字序列进行编码,获得所述多个文本块对应的多个语义向量;
所述第三获取模块630,被配置为通过第二编码器,对于所述多个文本块中的每个文本块,基于所述文本块的语义向量、所述文本块的周围文本块的语义向量、所述文本块的图形空间特征、所述文本块的周围文本块的图形空间特征,获得所述文本块对应的目标向量表示,其中,所述目标向量表示是指融合了空间上下文语义和图形空间特征的向量表示;
所述第四获取模块640,基于所述多个文本块对应的多个目标向量表示、多个图形空间特征、多个邻接矩阵,或者基于所述多个文本块对应的多个目标向量表示、多个图形空间特征、多个邻接矩阵、多个语义向量,获得所述图像中的文本块的识别结果,每个文本块对应的邻接矩阵表示所述文本块的对应文本块集合中各文本块两两之间的远近程度,所述文本块的对应文本块集合包括所述文本块和所述周围文本块。
根据本公开的实施例,所述第一编码器是长短期记忆LSTM编码器或变换Transformer编码器;
所述通过第一编码器,对所述图像中的文本块中的文字序列进行编码,获得所述多个文本块对应的多个语义向量,包括:通过所述第一编码器,对所述图像中的多个文本块中的每个文本块的文字序列分别进行编码,获得所述多个文本块各自的语义向量。
根据本公开的实施例,所述第二编码器包括以下任意一种编码器:图卷积网络GCN编码器、长短期记忆LSTM编码器、变换Transformer编码器;
所述文本块的图形空间特征包括所述文本块的位置坐标和/或所述文本块的尺寸和/或所述文本块与其他文本块之间的分隔图形的位置坐标和/或所述文本块与其他文本块之间的分隔图形的尺寸。
根据本公开的实施例,所述文本块的周围文本块包括所述多个文本块中除所述文本块之外的文本块或所述多个文本块中除所述文本块之外的与所述文本块之间的距离小于预设阈值的文本块。
根据本公开的实施例,所述通过第二编码器,对于所述多个文本块中的每个文本块,基于所述文本块的语义向量、所述文本块的周围文本块的语义向量、所述文本块的图形空间特征、所述文本块的周围文本块的图形空间特征,获得所述文本块对应的目标向量表示,包括:
将所述文本块的语义向量、所述文本块的尺寸、所述文本块的位置坐标进行拼接,将所述文本块的周围文本块的语义向量、所述文本块的周围文本块的尺寸、所述文本块的周围文本块的位置坐标进行拼接,将拼接结果输入所述第二编码器,获得所述文本块对应的所述目标向量表示。
根据本公开的实施例,所述基于所述多个文本块对应的多个目标向量表示、多个图形空间特征、多个邻接矩阵,或者基于所述多个文本块对应的多个目标向量表示、多个图形空间特征、多个邻接矩阵、多个语义向量,获得所述图像中的文本块的识别结果,包括:
针对所述多个文本块中的每个文本块,基于所述文本块的目标向量表示、所述文本块的图形空间特征、所述文本块的邻接矩阵,获得所述文本块的特征表达;
基于所述多个文本块对应的多个特征表达,或者基于所述多个文本块对应的多个语义向量和所述多个文本块对应的多个特征表达,获得所述图像中的文本块的识别结果。
根据本公开的实施例,所述基于所述多个文本块对应的多个特征表达获得所述图像中的文本的识别结果,包括:
通过第三编码器,基于所述多个文本块对应的多个特征表达,获得聚合信息矩阵,所述聚合信息矩阵表示所述多个文本块的聚合规则;
将所述多个文本块对应的多个特征表达和所述聚合信息矩阵输入语言表示模型,获得所述多个文本块的候选聚合结果的概率;
将所述语言表示模型的输入和所述概率一起输入命名实体识别NER模型,获得所述图像中的文本的识别结果。
根据本公开的实施例,所述基于所述多个文本块对应的多个语义向量和所述多个文本块对应的多个特征表达获得所述图像中的文本的识别结果,包括:
通过第三编码器,基于所述多个文本块对应的多个特征表达,获得聚合信息矩阵,所述聚合信息矩阵表示所述多个文本块的聚合规则;
将所述多个文本块对应的多个语义向量、所述多个文本块对应的多个特征表达和所述聚合信息矩阵输入语言表示模型,获得所述多个文本块的候选聚合结果的概率;
将所述语言表示模型的输入和所述概率一起输入命名实体识别NER模型,获得所述图像中的文本的识别结果。
根据本公开的实施例,所述基于所述文本块的目标向量表示、所述文本块的图形空间特征、所述文本块的邻接矩阵,获得所述文本块的特征表达,包括:
将所述文本块的目标向量表示、所述文本块的图形空间特征、所述文本块的邻接矩阵进行拼接,获得所述文本块的特征表达,所述文本块的图形空间特征包括所述文本块的尺寸和所述文本块的位置坐标。
根据本公开的实施例,所述聚合信息矩阵包括前向信息矩阵和后向信息矩阵,所述前向信息矩阵表示所述多个文本块中的各文本块是否与其前一文本块聚合,所述后向信息矩阵表示所述多个文本块中的各文本块是否与其后一文本块聚合;和/或
所述第三编码器包括第一全连接层和第二全连接层,所述通过第三编码器,基于所述多个文本块对应的多个特征表达,获得聚合信息矩阵,包括:
将所述多个文本块对应的多个特征表达输入第一全连接层,获得前向信息矩阵;
将所述多个文本块对应的多个特征表达输入第二全连接层,获得后向信息矩阵。
根据本公开的实施例,所述将所述多个文本块对应的多个特征表达和所述聚合信息矩阵输入语言表示模型,包括:将所述前向信息矩阵与所述多个文本块的特征表达矩阵相乘获得第一矩阵乘积,所述多个文本块的特征表达矩阵是通过将所述多个文本块对应的多个特征表达拼接得到的,将所述后向信息矩阵与所述多个文本块的特征表达矩阵相乘获得第二矩阵乘积,将所述第一矩阵乘积、所述第二矩阵乘积和所述多个文本块对应的多个特征表达输入所述语言表示模型;
所述将所述多个文本块对应的多个语义向量、所述多个文本块对应的多个特征表达和所述聚合信息矩阵输入语言表示模型,包括:将所述前向信息矩阵与所述多个文本块的特征表达矩阵相乘获得第一矩阵乘积,所述多个文本块的特征表达矩阵是通过将所述多个文本块对应的多个特征表达拼接得到的;将所述后向信息矩阵与所述多个文本块的特征表达矩阵相乘获得第二矩阵乘积;将所述第一矩阵乘积、所述第二矩阵乘积和所述多个文本块对应的多个语义向量输入所述语言表示模型。
根据本公开的实施例,所述语言表示模型包括预训练语言表示模型;和/或
所述语言表示模型包括BERT模型。
根据本公开的实施例,所述命名实体识别NER模型包括长短期记忆网络LSTM+条件随机场CRF模型;和/或
所述获得所述图像中的文本块的识别结果,包括:获得所述多个文本块中文字的标签;根据所述标签聚合所述文字,获得所述识别结果。
本公开还公开了一种电子设备,图7示出根据本公开的实施例的电子设备的结构框图。
如图7所示,所述电子设备700包括存储器701和处理器702;其中,
所述存储器701用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器702执行以实现根据本公开实施例的方法。
根据本公开实施例的方法可以在电子设备上执行,也可以在服务器(例如云端服务器)上执行。或者,根据本公开实施例的方法的各步骤可以分别在电子设备和服务器上执行。例如,对计算资源消耗较小的步骤可以在电子设备上执行,对计算资源消耗较大的步骤可以在服务器上执行。
图8示出适于用来实现根据本公开实施例的文本识别方法的计算机系统的结构示意图。
如图8所示,计算机系统800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行上述实施例中的各种处理。在RAM 803中,还存储有系统800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本公开的实施例,上文描述的方法可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,所述计算机程序包含用于执行上述对象类别确定方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过可编程硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中电子设备或计算机系统中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (15)
1.一种文本识别方法,其特征在于,包括:
获取待识别的图像,其中,所述待识别的图像包括多个文本块,每个所述文本块具有相应的图形空间特征;
通过第一编码器,对所述图像中的文本块中的文字序列进行编码,获得所述多个文本块对应的多个语义向量;
通过第二编码器,对于所述多个文本块中的每个文本块,基于所述文本块的语义向量、所述文本块的周围文本块的语义向量、所述文本块的图形空间特征、所述文本块的周围文本块的图形空间特征,获得所述文本块对应的目标向量表示,其中,所述目标向量表示是指融合了空间上下文语义和图形空间特征的向量表示,所述文本块的周围文本块包括所述多个文本块中除所述文本块之外的文本块或所述多个文本块中除所述文本块之外的与所述文本块之间的距离小于预设阈值的文本块;
基于所述多个文本块对应的多个目标向量表示、多个图形空间特征、多个邻接矩阵,或者基于所述多个文本块对应的多个目标向量表示、多个图形空间特征、多个邻接矩阵、多个语义向量,获得所述图像中的文本块的识别结果,每个文本块对应的邻接矩阵表示所述文本块的对应文本块集合中各文本块两两之间的远近程度,所述文本块的对应文本块集合包括所述文本块和所述周围文本块。
2.根据权利要求1所述的方法,其特征在于:
所述第一编码器是长短期记忆LSTM编码器或变换Transformer编码器;
所述通过第一编码器,对所述图像中的文本块中的文字序列进行编码,获得所述多个文本块对应的多个语义向量,包括:通过所述第一编码器,对所述图像中的多个文本块中的每个文本块的文字序列分别进行编码,获得所述多个文本块各自的语义向量。
3.根据权利要求1所述的方法,其特征在于:
所述第二编码器包括以下任意一种编码器:图卷积网络GCN编码器、长短期记忆LSTM编码器、变换Transformer编码器;
所述文本块的图形空间特征包括所述文本块的位置坐标和/或所述文本块的尺寸和/或所述文本块与其他文本块之间的分隔图形的位置坐标和/或所述文本块与其他文本块之间的分隔图形的尺寸。
4.根据权利要求1所述的方法,其特征在于:
所述通过第二编码器,对于所述多个文本块中的每个文本块,基于所述文本块的语义向量、所述文本块的周围文本块的语义向量、所述文本块的图形空间特征、所述文本块的周围文本块的图形空间特征,获得所述文本块对应的目标向量表示,包括:
将所述文本块的语义向量、所述文本块的尺寸、所述文本块的位置坐标进行拼接,将所述文本块的周围文本块的语义向量、所述文本块的周围文本块的尺寸、所述文本块的周围文本块的位置坐标进行拼接,将拼接结果输入所述第二编码器,获得所述文本块对应的所述目标向量表示。
5.根据权利要求1所述的方法,其特征在于,所述基于所述多个文本块对应的多个目标向量表示、多个图形空间特征、多个邻接矩阵,或者基于所述多个文本块对应的多个目标向量表示、多个图形空间特征、多个邻接矩阵、多个语义向量,获得所述图像中的文本块的识别结果,包括:
针对所述多个文本块中的每个文本块,基于所述文本块的目标向量表示、所述文本块的图形空间特征、所述文本块的邻接矩阵,获得所述文本块的特征表达;
基于所述多个文本块对应的多个特征表达,或者基于所述多个文本块对应的多个语义向量和所述多个文本块对应的多个特征表达,获得所述图像中的文本块的识别结果。
6.根据权利要求5所述的方法,其特征在于,所述基于所述多个文本块对应的多个特征表达获得所述图像中的文本的识别结果,包括:
通过第三编码器,基于所述多个文本块对应的多个特征表达,获得聚合信息矩阵,所述聚合信息矩阵表示所述多个文本块的聚合规则;
将所述多个文本块对应的多个特征表达和所述聚合信息矩阵输入语言表示模型,获得所述多个文本块的候选聚合结果的概率;
将所述语言表示模型的输入和所述概率一起输入命名实体识别NER模型,获得所述图像中的文本的识别结果。
7.根据权利要求5所述的方法,其特征在于,所述基于所述多个文本块对应的多个语义向量和所述多个文本块对应的多个特征表达获得所述图像中的文本的识别结果,包括:
通过第三编码器,基于所述多个文本块对应的多个特征表达,获得聚合信息矩阵,所述聚合信息矩阵表示所述多个文本块的聚合规则;
将所述多个文本块对应的多个语义向量、所述多个文本块对应的多个特征表达和所述聚合信息矩阵输入语言表示模型,获得所述多个文本块的候选聚合结果的概率;
将所述语言表示模型的输入和所述概率一起输入命名实体识别NER模型,获得所述图像中的文本的识别结果。
8.根据权利要求5所述的方法,其特征在于:所述基于所述文本块的目标向量表示、所述文本块的图形空间特征、所述文本块的邻接矩阵,获得所述文本块的特征表达,包括:
将所述文本块的目标向量表示、所述文本块的图形空间特征、所述文本块的邻接矩阵进行拼接,获得所述文本块的特征表达,所述文本块的图形空间特征包括所述文本块的尺寸和所述文本块的位置坐标。
9.根据权利要求6或7所述的方法,其特征在于:
所述聚合信息矩阵包括前向信息矩阵和后向信息矩阵,所述前向信息矩阵表示所述多个文本块中的各文本块是否与其前一文本块聚合,所述后向信息矩阵表示所述多个文本块中的各文本块是否与其后一文本块聚合;和/或
所述第三编码器包括第一全连接层和第二全连接层,所述通过第三编码器,基于所述多个文本块对应的多个特征表达,获得聚合信息矩阵,包括:
将所述多个文本块对应的多个特征表达输入第一全连接层,获得前向信息矩阵;
将所述多个文本块对应的多个特征表达输入第二全连接层,获得后向信息矩阵。
10.根据权利要求9所述的方法,其特征在于:
所述将所述多个文本块对应的多个特征表达和所述聚合信息矩阵输入语言表示模型,包括:将所述前向信息矩阵与所述多个文本块的特征表达矩阵相乘获得第一矩阵乘积,所述多个文本块的特征表达矩阵是通过将所述多个文本块对应的多个特征表达拼接得到的,将所述后向信息矩阵与所述多个文本块的特征表达矩阵相乘获得第二矩阵乘积,将所述第一矩阵乘积、所述第二矩阵乘积和所述多个文本块对应的多个特征表达输入所述语言表示模型;
所述将所述多个文本块对应的多个语义向量、所述多个文本块对应的多个特征表达和所述聚合信息矩阵输入语言表示模型,包括:将所述前向信息矩阵与所述多个文本块的特征表达矩阵相乘获得第一矩阵乘积,所述多个文本块的特征表达矩阵是通过将所述多个文本块对应的多个特征表达拼接得到的;将所述后向信息矩阵与所述多个文本块的特征表达矩阵相乘获得第二矩阵乘积;将所述第一矩阵乘积、所述第二矩阵乘积和所述多个文本块对应的多个语义向量输入所述语言表示模型。
11.根据权利要求6或7所述的方法,其特征在于:
所述语言表示模型包括预训练语言表示模型;和/或
所述语言表示模型包括BERT模型。
12.根据权利要求6或7所述的方法,其特征在于:
所述命名实体识别NER模型包括长短期记忆网络LSTM+条件随机场CRF模型;和/或
所述获得所述图像中的文本块的识别结果,包括:获得所述多个文本块中文字的标签;根据所述标签聚合所述文字,获得所述识别结果。
13.一种文本识别装置,其特征在于,包括:
第一获取模块,被配置为获取待识别的图像,其中,所述待识别的图像包括多个文本块,每个所述文本块具有相应的图形空间特征;
第二获取模块,被配置为通过第一编码器,对所述图像中的文本块中的文字序列进行编码,获得所述多个文本块对应的多个语义向量;
第三获取模块,被配置为通过第二编码器,对于所述多个文本块中的每个文本块,基于所述文本块的语义向量、所述文本块的周围文本块的语义向量、所述文本块的图形空间特征、所述文本块的周围文本块的图形空间特征,获得所述文本块对应的目标向量表示,其中,所述目标向量表示是指融合了空间上下文语义和图形空间特征的向量表示,所述文本块的周围文本块包括所述多个文本块中除所述文本块之外的文本块或所述多个文本块中除所述文本块之外的与所述文本块之间的距离小于预设阈值的文本块;
第四获取模块,基于所述多个文本块对应的多个目标向量表示、多个图形空间特征、多个邻接矩阵,或者基于所述多个文本块对应的多个目标向量表示、多个图形空间特征、多个邻接矩阵、多个语义向量,获得所述图像中的文本块的识别结果,每个文本块对应的邻接矩阵表示所述文本块的对应文本块集合中各文本块两两之间的远近程度,所述文本块的对应文本块集合包括所述文本块和所述周围文本块。
14.一种电子设备,其特征在于,包括存储器和处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现权利要求1-12任一项所述的方法步骤。
15.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-12任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010105885.7A CN113283241B (zh) | 2020-02-20 | 2020-02-20 | 文本识别方法、装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010105885.7A CN113283241B (zh) | 2020-02-20 | 2020-02-20 | 文本识别方法、装置、电子设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113283241A CN113283241A (zh) | 2021-08-20 |
CN113283241B true CN113283241B (zh) | 2022-04-29 |
Family
ID=77275192
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010105885.7A Active CN113283241B (zh) | 2020-02-20 | 2020-02-20 | 文本识别方法、装置、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113283241B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114817444B (zh) * | 2022-04-02 | 2024-07-16 | 支付宝(杭州)信息技术有限公司 | 文档处理方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165384A (zh) * | 2018-08-23 | 2019-01-08 | 成都四方伟业软件股份有限公司 | 一种命名实体识别方法及装置 |
CN109522553A (zh) * | 2018-11-09 | 2019-03-26 | 龙马智芯(珠海横琴)科技有限公司 | 命名实体的识别方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9256798B2 (en) * | 2013-01-31 | 2016-02-09 | Aurasma Limited | Document alteration based on native text analysis and OCR |
-
2020
- 2020-02-20 CN CN202010105885.7A patent/CN113283241B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165384A (zh) * | 2018-08-23 | 2019-01-08 | 成都四方伟业软件股份有限公司 | 一种命名实体识别方法及装置 |
CN109522553A (zh) * | 2018-11-09 | 2019-03-26 | 龙马智芯(珠海横琴)科技有限公司 | 命名实体的识别方法及装置 |
Non-Patent Citations (2)
Title |
---|
Merge and Recognize: A Geometry and 2D Context Aware Graph Model for Named Entity Recognition from Visual Documents;Chuwei Luo等;《Proceedings of the Graph-based Methods for Natural Language Processing (TextGraphs)》;20201213;第24-34页 * |
基于BERT嵌入的中文命名实体识别方法;杨飘 等;《计算机工程》;20190530;第46卷(第4期);第40-52页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113283241A (zh) | 2021-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115203380B (zh) | 基于多模态数据融合的文本处理系统及其方法 | |
CN107293296B (zh) | 语音识别结果纠正方法、装置、设备及存储介质 | |
CN114821622B (zh) | 文本抽取方法、文本抽取模型训练方法、装置及设备 | |
JP2023541532A (ja) | テキスト検出モデルのトレーニング方法及び装置、テキスト検出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム | |
JP2023541119A (ja) | 文字認識モデルのトレーニング方法、文字認識方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
CN113343982B (zh) | 多模态特征融合的实体关系提取方法、装置和设备 | |
CN111914654B (zh) | 一种文本版面分析方法、装置、设备和介质 | |
CN113158656B (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
CN112966140B (zh) | 字段识别方法、装置、电子设备、存储介质和程序产品 | |
CN112086087A (zh) | 语音识别模型训练方法、语音识别方法及装置 | |
CN113901909A (zh) | 基于视频的目标检测方法、装置、电子设备和存储介质 | |
CN116245097A (zh) | 训练实体识别模型的方法、实体识别方法及对应装置 | |
CN114092931B (zh) | 场景文字识别方法、装置、电子设备及存储介质 | |
CN115565177A (zh) | 文字识别模型训练、文字识别方法、装置、设备及介质 | |
CN116152833A (zh) | 基于图像的表格还原模型的训练方法及表格还原方法 | |
CN111475635A (zh) | 语义补全方法、装置和电子设备 | |
CN113283241B (zh) | 文本识别方法、装置、电子设备及计算机可读存储介质 | |
CN110502236B (zh) | 基于多尺度特征解码的前端代码生成方法、系统及设备 | |
CN114970666B (zh) | 一种口语处理方法、装置、电子设备及存储介质 | |
CN116152265A (zh) | 一种基于多尺度特征选择性融合的指代分割方法 | |
CN115565186A (zh) | 文字识别模型的训练方法、装置、电子设备和存储介质 | |
CN117077814B (zh) | 图片检索模型的训练方法、图片检索方法及装置 | |
CN114821603B (zh) | 票据识别方法、装置、电子设备以及存储介质 | |
CN116383428B (zh) | 一种图文编码器训练方法、图文匹配方法及装置 | |
CN113936141B (zh) | 图像语义分割方法及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |