CN112381038B

CN112381038B - 一种基于图像的文本识别方法、系统和介质

Info

Publication number: CN112381038B
Application number: CN202011348515.2A
Authority: CN
Inventors: 郭永金; 韦正现; 郝燕
Original assignee: CSSC Systems Engineering Research Institute
Current assignee: CSSC Systems Engineering Research Institute
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2024-04-19
Anticipated expiration: 2040-11-26
Also published as: CN112381038A

Abstract

本发明提供一种基于图像的文本识别方法、系统和介质。其中方法包括：步骤S1、识别图像中的文本，以获得第一文本集；步骤S2、对第一文本集中的文本进行预处理，以获得第二文本集，其中预处理包括屏蔽词处理和分词处理；步骤S3、对第二文本集中的文本建立索引，索引为key‑value形式的键值对，其中key表示索引关键词，value表示索引关键词在第二文本集中的文本位置；步骤S4、从预先训练好的模型中获取语料关键词库，计算索引关键词与语料关键词库中的预料关键词的相似度，其中语料关键词库由模型预先训练语料库获得；以及步骤S5、基于相似度确定图像中的关键元素，作为图像的检索要素。

Description

一种基于图像的文本识别方法、系统和介质

技术领域

本发明涉及图像识别领域，尤其是涉及一种基于图像的文本识别方法、系统和介质。

背景技术

从自然场景图像中识别出的文本内容往往是杂乱无序的，为了能够将识别出的文本内容作为图像关键元素进行检索，需要对图像中的文本内容进行分析，找出与检索词相似的文本元素。对于文本元素的检索，目前已有的方法是根据关键词库对检索对象进行匹配：首先将待检索文本进行图像分割提取关键词；然后对关键词进行遍历检索，如果关键词库中的关键词与待检文本的关键词相同，即认为该图像中包含此文本元素(图像关键元素)。这种方法只能对给定关键词进行识别，对于和给定关键词词义相近或者语义相近的关键词，计算机无法进行精确识别。在实际应用中，基于语义的文本检索能够更加准确地捕捉用户的检索意图，返回更符合检索要求的检索结果。在当前的文本检索技术中，基于同义词库进行相关词汇检索的技术已经发展成熟，但对于一个同义词库中尚未包含且又可以作为当前文本关键元素的关键词，该方法无法做到准确检索，即在包含复杂语义的文本中，该方法的识别精准度较低。

发明内容

考虑到上述问题，本发明设计了一种基于图像的文本识别方案，以解决上述技术问题。该方案能够计算不同语义环境中待检文本与输入关键词之间的关联度，结合上下文语境给出检索关键词与待检图像关键元素的匹配结果，以配合基于内容的图像检索方法，提高图像搜索效率。

在第一方面，提供了一种基于图像的文本识别方法，所述所述方法包括：步骤S1、识别所述图像中的文本，以获得第一文本集；步骤S2、对所述第一文本集中的文本进行预处理，以获得第二文本集，其中所述预处理包括屏蔽词处理和分词处理；步骤S3、对所述第二文本集中的文本建立索引，所述索引为key-value形式的键值对，其中key表示索引关键词，value表示所述索引关键词在所述第二文本集中的文本位置；步骤S4、从预先训练好的模型中获取语料关键词库，计算所述索引关键词与所述语料关键词库中的预料关键词的相似度，其中所述语料关键词库由所述模型预先训练语料库获得；以及步骤S5、基于所述相似度确定所述图像中的关键元素，作为所述图像的检索要素。

具体地，所述屏蔽词处理为利用屏蔽词库过滤所述第一文本集。

具体地，所述分词处理包括：基于Trie树加在文本字典，对经过所述屏蔽词处理的第一文本集进行切分，以生成第一切分词和对应的第一切分位置；对于所述第一文本集中未包含在所述文本字典中的文本，利用马尔科夫模型和Viterbi算法计算最优状态序列，以获得第二切分词和对应的第二切分位置；以及整合所述第一切分词、第二切分词、第一切分位置、第二切分位置作为所述第二文本集。

具体地，所述模型为Word2Vec算法中的Skip-Gram模型，所述语料关键词库中的预料关键词以词向量矩阵的形式存储在二进制文件中。

在第二方面，提供了一种基于图像的文本识别系统，所述所述系统包括：识别单元，被配置为：识别所述图像中的文本，以获得第一文本集；预处理单元，被配置为：对所述第一文本集中的文本进行屏蔽词处理和分词处理，以获得第二文本集；索引建立单元，被配置为：对所述第二文本集中的文本建立索引，所述索引为key-value形式的键值对，其中key表示索引关键词，value表示所述索引关键词在所述第二文本集中的文本位置；匹配单元，被配置为：从预先训练好的模型中获取语料关键词库，计算所述索引关键词与所述语料关键词库中的预料关键词的相似度，其中所述语料关键词库由所述模型预先训练语料库获得；以及确定单元，被配置为：基于所述相似度确定所述图像中的关键元素，作为所述图像的检索要素。

具体地，所述预处理单元进一步被配置为：所述屏蔽词处理为利用屏蔽词库过滤所述第一文本集。

具体地，所述预处理单元进一步被配置为，所述分词处理包括：基于Trie树加在文本字典，对经过所述屏蔽词处理的第一文本集进行切分，以生成第一切分词和对应的第一切分位置；对于所述第一文本集中未包含在所述文本字典中的文本，利用马尔科夫模型和Viterbi算法计算最优状态序列，以获得第二切分词和对应的第二切分位置；以及整合所述第一切分词、第二切分词、第一切分位置、第二切分位置作为所述第二文本集。

在第三方面，提供了一种存储有指令的非暂时性计算机可读介质，当所述指令由处理器执行时，执行第一方面中的各个步骤。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例的基于图像的文本识别方法的流程示意图；以及

图2为根据本发明实施例的基于图像的文本识别系统的结构示意图；

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明第一方面提供了一种基于图像的文本识别方法，图1为根据本发明实施例的基于图像的文本识别方法的流程示意图；如图1所示，所述方法包括：步骤S1、识别所述图像中的文本，以获得第一文本集；步骤S2、对所述第一文本集中的文本进行预处理，以获得第二文本集，其中所述预处理包括屏蔽词处理和分词处理；步骤S3、对所述第二文本集中的文本建立索引，所述索引为key-value形式的键值对，其中key表示索引关键词，value表示所述索引关键词在所述第二文本集中的文本位置；步骤S4、从预先训练好的模型中获取语料关键词库，计算所述索引关键词与所述语料关键词库中的预料关键词的相似度，其中所述语料关键词库由所述模型预先训练语料库获得；以及步骤S5、基于所述相似度确定所述图像中的关键元素，作为所述图像的检索要素。

在步骤S1，识别所述图像中的文本，以获得第一文本集。具体地，通过对图像进行分析和识别，提取出图像中的文本作为第一文本集。

在步骤S2，对所述第一文本集中的文本进行预处理，以获得第二文本集，其中所述预处理包括屏蔽词处理和分词处理。

具体地，所述屏蔽词处理为利用屏蔽词库过滤所述第一文本集。设置屏蔽词库，屏蔽词库中包含与语义无关的标点以及与后续模型训练无关的特殊文字符号。通过正则表达式算法在待检文本中依次检索屏蔽词库元素出现的位置，并将相应位置设置为空。

具体地，所述分词处理包括：(1)基于Trie树加在文本字典，对经过所述屏蔽词处理的第一文本集进行切分，以生成第一切分词和对应的第一切分位置；(2)对于所述第一文本集中未包含在所述文本字典中的文本，利用马尔科夫模型和Viterbi算法计算最优状态序列，以获得第二切分词和对应的第二切分位置；以及(3)整合所述第一切分词、第二切分词、第一切分位置、第二切分位置作为所述第二文本集。

具体地，基于Trie树加载文本字典，将待检文本根据Trie树进行切分，生成若干切分位置提议，此位置为分词词语相对于原文本的位置，取值范围为(0，n-1)，n为文本长度。根据上述切分位置，构造有向无环图；通过动态规划算法，计算得到最大概率路径，也就得到了最终的切分形式。对于文本字典中没有的切分词，可将分词问题视为序列标注问题，其中，待分词文本为观测序列，分词结果为状态序列。通过隐马尔科夫模型，利用Viterbi算法进行求解，最终得到最优的状态序列，然后再根据状态序列，输出分词结果。

在步骤S3，对所述第二文本集中的文本建立索引，所述索引为key-value形式的键值对，其中key表示索引关键词，value表示所述索引关键词在所述第二文本集中的文本位置。

具体地，需要对文本的分词结果建立反向索引，通过建立key-value形式的键值对作为索引信息。其中key为分词后的关键词，value为链表形式的数据结构，用于存储对应文本位置。对于一个新的索引信息，首先搜索已有索引信息集合，通过遍历集合中的key元素，查找索引词是否存在集合中，如果存在，则在value链表的末尾添加新的位置信息，如果不存在则将新的key-value形式的索引信息存入此集合，直至所有的索引词都加入到索引集合中。

在步骤S4，从预先训练好的模型中获取语料关键词库，计算所述索引关键词与所述语料关键词库中的预料关键词的相似度，其中所述语料关键词库由所述模型预先训练语料库获得。所述模型为Word2Vec算法中的Skip-Gram模型，所述语料关键词库中的预料关键词以词向量矩阵的形式存储在二进制文件中。

具体地，所述模型为Word2Vec算法中的Skip-Gram模型，所述语料关键词库中的预料关键词以词向量矩阵的形式存储在二进制文件中。所述训练过程，例如，人工选取语料库，对语料库去除屏蔽词库中的屏蔽词后，基于前缀词典及动态规划实现分词，分词后的文本结果作为Word2Vec算法的输入进行模型训练，其中词向量的维度size设置为400，词向量上下文最大距离window设置为5，模型类型sg为Skip-Gram，计算词向量最小词频min_count为5，随机梯度下降中迭代步长alpha设置为0.025，随迭代次数衰减的最小步长min_alpha为0.0001，迭代次数iter为5。训练结束后得到词语的向量表示形式，为方便二次加载与搜索，将向量矩阵存储于二进制文件中。

从词向量数据库中查询索引关键词的词向量，若查询成功，则返回词向量，若查询失败则设置词向量默认值为1*n维全0矩阵。从词向量数据库中查询语料关键词的词向量，若查询成功，则返回词向量，若查询失败则设置词向量默认值为1*n维全0矩阵。基于索引关键词的词向量A＝(a₁，a₂，……a_n)与预料关键词的词向量B＝(b₁，b₂，……b_n)来计算相似度，计算公式为：

结果为A和B两向量夹角的cosine值，cosine值越接近1，表示两向量夹角越小，语义越接近。比较相似度值与设定阈值的大小关系，如果超过阈值，则视为检出；如果小于阈值，则视为两个关键词间不具备相似关系。

在步骤S5，基于所述相似度确定所述图像中的关键元素，作为所述图像的检索要素。具体地，利用建立好的待检文本关键词索引，遍历上一步检出集合中的关键词搜索列表，根据对应文本关键词在索引关系得到索引位置。将索引位置上的分词作为所述图像的关键元素以用于实现对所述图像的检索。

本发明第二方面提供了一种基于图像的文本识别系统，所述所述系统包括：识别单元201，被配置为：识别所述图像中的文本，以获得第一文本集；预处理单元202，被配置为：对所述第一文本集中的文本进行屏蔽词处理和分词处理，以获得第二文本集；索引建立单元203，被配置为：对所述第二文本集中的文本建立索引，所述索引为key-value形式的键值对，其中key表示索引关键词，value表示所述索引关键词在所述第二文本集中的文本位置；匹配单元204，被配置为：从预先训练好的模型中获取语料关键词库，计算所述索引关键词与所述语料关键词库中的预料关键词的相似度，其中所述语料关键词库由所述模型预先训练语料库获得；以及确定单元205，被配置为：基于所述相似度确定所述图像中的关键元素，作为所述图像的检索要素。

具体地，所述预处理单元202进一步被配置为：所述屏蔽词处理为利用屏蔽词库过滤所述第一文本集。

具体地，所述预处理单元202进一步被配置为，所述分词处理包括：基于Trie树加在文本字典，对经过所述屏蔽词处理的第一文本集进行切分，以生成第一切分词和对应的第一切分位置；对于所述第一文本集中未包含在所述文本字典中的文本，利用马尔科夫模型和Viterbi算法计算最优状态序列，以获得第二切分词和对应的第二切分位置；以及整合所述第一切分词、第二切分词、第一切分位置、第二切分位置作为所述第二文本集。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于图像的文本识别方法，其特征在于，所述方法包括：

步骤S1、识别所述图像中的文本，以获得第一文本集；

步骤S2、对所述第一文本集中的文本进行预处理，以获得第二文本集，其中所述预处理包括屏蔽词处理和分词处理；

步骤S3、对所述第二文本集中的文本建立索引，所述索引为key-value形式的键值对，其中key表示索引关键词，va lue表示所述索引关键词在所述第二文本集中的文本位置；

步骤S4、从预先训练好的模型中获取语料关键词库，计算所述索引关键词与所述语料关键词库中的预料关键词的相似度，其中所述语料关键词库由所述模型预先训练语料库获得；以及

步骤S5、基于所述相似度确定所述图像中的关键元素，作为所述图像的检索要素；

其中，所述分词处理包括：

基于Trie树加在文本字典，对经过所述屏蔽词处理的第一文本集进行切分，以生成第一切分词和对应的第一切分位置；

对于所述第一文本集中未包含在所述文本字典中的文本，利用马尔科夫模型和Viterbi算法计算最优状态序列，以获得第二切分词和对应的第二切分位置；以及

整合所述第一切分词、第二切分词、第一切分位置、第二切分位置作为所述第二文本集。

2.根据权利要求1所述的基于图像的文本识别方法，其特征在于，所述屏蔽词处理为利用屏蔽词库过滤所述第一文本集。

3.根据权利要求1所述的基于图像的文本识别方法，其特征在于，所述模型为Word2Vec算法中的Skip-Gram模型，所述语料关键词库中的预料关键词以词向量矩阵的形式存储在二进制文件中。

4.一种基于图像的文本识别系统，其特征在于，所述系统包括：

识别单元，被配置为：识别所述图像中的文本，以获得第一文本集；

预处理单元，被配置为：对所述第一文本集中的文本进行屏蔽词处理和分词处理，以获得第二文本集；

索引建立单元，被配置为：对所述第二文本集中的文本建立索引，所述索引为key-value形式的键值对，其中key表示索引关键词，value表示所述索引关键词在所述第二文本集中的文本位置；

匹配单元，被配置为：从预先训练好的模型中获取语料关键词库，计算所述索引关键词与所述语料关键词库中的预料关键词的相似度，其中所述语料关键词库由所述模型预先训练语料库获得；以及

确定单元，被配置为：基于所述相似度确定所述图像中的关键元素，作为所述图像的检索要素；

其中，所述分词处理包括：

5.根据权利要求4所述的基于图像的文本识别系统，其特征在于，所述预处理单元进一步被配置为：所述屏蔽词处理为利用屏蔽词库过滤所述第一文本集。

6.根据权利要求4所述的基于图像的文本识别系统，其特征在于，所述模型为Word2Vec算法中的Skip-Gram模型，所述语料关键词库中的预料关键词以词向量矩阵的形式存储在二进制文件中。

7.一种存储有指令的非暂时性计算机可读介质，当所述指令由处理器执行时，执行根据权利要求1-3中任一项所述的基于图像的文本识别方法中的步骤。