CN112651402A

CN112651402A - 字符识别方法和装置

Info

Publication number: CN112651402A
Application number: CN201910960896.0A
Authority: CN
Inventors: 杨迪; 阮宜龙; 任华; 王铮; 汪少敏
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2019-10-11
Filing date: 2019-10-11
Publication date: 2021-04-13

Abstract

本公开公开了一种字符识别方法和装置，涉及互联网领域。该方法包括：对图像中的字符进行检测识别，得到识别结果，其中，识别结果中包括已识别字符和未识别字符；确定已识别字符所属行业；获取已识别字符所属行业的词向量字典；根据词向量字典对识别结果进行词向量计算，识别出未识别字符。本公开提高了字符识别的精确度。

Description

字符识别方法和装置

技术领域

本公开涉及互联网领域，尤其涉及一种字符识别方法和装置。

背景技术

字符识别技术在虚拟现实、人机交互、票据识别等领域中都有广泛的应用。传统的OCR(Optical Character Recognition，光学字符识别)技术主要面向的是图像质量较好的图片，而在自然场景中，由于光照、角度、抖动、成像效果较差，加上图像背景环境多样、字体多变、排布丰富，所以OCR识别效果不好。

发明内容

本公开要解决的一个技术问题是，提供一种字符识别方法和装置，提高字符识别的精确度。

根据本公开一方面，提出一种字符识别方法，包括：对图像中的字符进行检测识别，得到识别结果，其中，识别结果中包括已识别字符和未识别字符；确定已识别字符所属行业；获取已识别字符所属行业的词向量字典；根据词向量字典对识别结果进行词向量计算，识别出未识别字符。

在一些实施例中，确定已识别字符所属行业包括：确定已识别字符在预定行业的行业相似指标和相似度稳定指标；根据行业相似指标和相似度稳定指标确定行业对应性综合指标；将行业对应性综合指标最大值对应的行业，作为已识别字符所属行业。

在一些实施例中，确定已识别字符在预定行业的行业相似指标包括：确定已识别字符在预定行业的行业词库的字符占比、词汇重复率和词汇反向重复率；对字符占比、词汇重复率和词汇反向重复率进行加权计算，确定已识别字符在预定行业的行业相似指标。

在一些实施例中，确定已识别字符在预定行业的相似度稳定指标包括：确定已识别字符中每个词组在预定行业的行业词库的字符流量性指标、差异稳定性率和匹配计算时延指标；对符流量性指标和差异稳定性率进行加权计算后，根据匹配计算时延指标，确定每个词组中每个字的相似稳定性值；对每个词组中每个字的相似稳定性值进行加权计算，得到每个词组的相似度稳定性值；对每个词组的相似度稳定性值进行加权计算，得到已识别字符在预定行业的相似度稳定指标。

在一些实施例中，基于静态词库对未识别字符进行识别，得到多个候选字符；根据词向量字典对已识别字符和候选字符进行词向量计算，识别出未识别字符。

在一些实施例中，获取已识别字符所属行业的静态词库。

在一些实施例中，对图像进行预处理。

根据本公开的另一方面，还提出一种字符识别装置，包括：字符检测模块，被配置为对图像中的字符进行检测识别，得到识别结果，其中，识别结果中包括已识别字符和未识别字符；行业识别模块，被配置为确定已识别字符所属行业；词向量字典获取模块，被配置为获取已识别字符所属行业的词向量字典；词向量计算模块，被配置为根据词向量字典对识别结果进行词向量计算，识别出未识别字符。

根据本公开的另一方面，还提出一种字符识别装置，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器的指令执行如上述的字符识别方法。

根据本公开的另一方面，还提出一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现上述的字符识别方法。

与相关技术相比，本公开实施例通过引入对已识别字符的行业/专业的判别，选取精准的词向量字典对识别结果进行词向量计算，提升了字符识别的精确度。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1为本公开字符识别方法的一些实施例的流程示意图。

图2为本公开字符识别方法的另一些实施例的流程示意图。

图3为本公开字符识别方法的另一些实施例的流程示意图。

图4为本公开字符识别装置的一些实施例的结构示意图。

图5A为本公开字符识别装置的另一些实施例的结构示意图。

图5B为本公开字符识别装置的另一些实施例的结构示意图。

图6为本公开字符识别装置的另一些实施例的结构示意图。

图7为本公开字符识别装置的另一些实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

随着词向量技术的引入，计算向量的相似程度，完成字符的识别并输出字或词。但由于存在词库训练的行业/专业性差异，仍旧会存在一定的误差，并且因此加重向量计算的性能消耗。

图1为本公开字符识别方法的一些实施例的流程示意图。

在步骤110，对图像中的字符进行检测识别，得到识别结果，其中，识别结果中包括已识别字符和未识别字符。

在一些实施例中，对原始图像进行预处理后，对图像进行文字检测和识别，能够得到一些正确清晰的文字，还有一些可能错误或识别不出的文字。

在步骤120，确定已识别字符所属行业。

对已识别的文字进行行业或专业识别。例如，“终端”所属行业可能是电信行业也可能是银行相关行业等。

在一些实施例中，可以先确定已识别字符在预定行业的行业相似指标和相似度稳定指标；根据行业相似指标和相似度稳定指标确定行业对应性综合指标；将行业对应性综合指标最大值对应的行业，作为已识别字符所属行业。

在步骤130，获取已识别字符所属行业的词向量字典。

在步骤140，根据词向量字典对识别结果进行词向量计算，识别出未识别字符。

在该实施例中，通过引入对已识别字符的行业/专业的判别，选取精准的词向量字典对识别结果进行词向量计算，提升了字符识别的精确度。

图2为本公开字符识别方法的另一些实施例的流程示意图。

在步骤210，对图像进行预处理。

在步骤220，对图像中的字符进行检测识别，得到已识别字符和未识别字符。

在步骤230，基于静态词库对未识别字符进行识别，得到多个候选字符。

例如，利用静态词库对未识别字符进行模糊判断。静态词库指一般的通用性的字典，例如新华字典等。模糊判断的机制为：如果当前识别出来的文字为“中华××共和国”，根据静态字典可以推断出其中的“××”部分可能为“人民”2字。

在步骤240，确定已识别字符在预定行业的行业相似指标和相似度稳定指标。

在一些实施例中，确定已识别字符在预定行业的行业词库的字符占比、词汇重复率和词汇反向重复率；对字符占比、词汇重复率和词汇反向重复率进行加权计算，确定已识别字符在预定行业的行业相似指标。

例如，定义行业相似度指标为U，已识别内容与静态行业词库的字符占比为T，加权值为α；已识别内容与行业词库的词汇重复率为C，加权值为β；已识别内容与行业字库的反向重复率为M，加权值为γ；所涉及行业词库的相关词汇个数为n；则行业相似度指标为：

其中，α+β+γ＝1。

若已识别出10个字符，而该行业词库中有100个字符，则将这10个字符分别与行业词库中的100个字符进行比较，判断行业词库中是否存在对应的字符，则T的取值为0-10/100。词汇重复率是指以词组或词汇的模式与行业词库进行比对，例如，“电信”可以拆分为“电”和“信”，在确定词汇重复率时，是将“电信”作为词组与行业词库进行比较。反向重复率是指，将词组或词汇以倒序模式进行行业词库占比比较，即以“信电”为词组/词汇去行业词库中进行重复率计算。

在一些实施例中，确定已识别字符中每个词组在预定行业的行业词库的字符流量性指标、差异稳定性率和匹配计算时延指标；对符流量性指标和差异稳定性率进行加权计算后，根据匹配计算时延指标，确定每个词组中每个字的相似稳定性值；对每个词组中每个字的相似稳定性值进行加权计算，得到每个词组的相似度稳定性值；对每个词组的相似度稳定性值进行加权计算，得到已识别字符在预定行业的相似度稳定指标。

例如，先计算公式h＝(θ_s×R_s+θ_d×R_d)÷log₂K_d，再计算H＝[S_A(θ_A1×h_A1+...θ_n×h_An)+S_B(θ_B1×h_B1+...+θ_Bm×h_Bm)+...]×100。h为每个字的相似稳定性值，θ_s为字符流速性权重，R_s为字符流量性指标，θ_d为，R_d为差异稳定性率，K_d为匹配计算时延指标，H为已识别字符在预定行业的相似度稳定指标，S_A为词组A的权重，θ_A1为词组A中第一字的流速性权重。该步骤中，定义相似稳定性指标为H，反映整个内容比较对应字库的相似稳定状况，分析字符命中流速、相似稳定性中反映出来的对应能力、命中度，而得出的评价性指标。

在步骤250，根据行业相似指标和相似度稳定指标确定行业对应性综合指标。例如，综合指标W＝1/(H*U)。

在步骤260，将行业对应性综合指标最大值对应的行业，作为已识别字符所属行业。

在步骤270，获取已识别字符所属行业的词向量字典。

在步骤280，根据词向量字典对已识别字符和候选字符进行词向量计算，识别出未识别字符。

在该实施例中，通过引入对已识别字符的行业/专业的判别，选取精准的词向量字典进行词向量计算，提升了识别精确度；并且加入静态字典对字符进行模糊判断，提供几个候选字符/词供进行词向量计算，减少了计算资源消耗量。

图3为本公开字符识别方法的另一些实施例的流程示意图。

在步骤310，对图像进行预处理。

在步骤320，对图像中的字符进行检测识别，得到已识别字符和未识别字符。

在步骤330，确定已识别字符在预定行业的行业相似指标和相似度稳定指标。

在步骤340，根据行业相似指标和相似度稳定指标确定行业对应性综合指标。例如，

在步骤350，将行业对应性综合指标最大值对应的行业，作为已识别字符所属行业。

在步骤360，获取已识别字符所属行业的静态词库。

在步骤370，基于静态词库对未识别字符进行识别，得到多个候选字符。例如，终端这个词，在电信行业字库中会理解为手机、光猫等通信设备，在银行的字库中会理解为自动取款机、存款机这类的金融设备。

在步骤380，获取已识别字符所属行业的词向量字典。

在步骤390，根据词向量字典对已识别字符和候选字符进行词向量计算，识别出未识别字符。

在该实施例中，通过使用匹配与识别内容更相近行业/专业的词典进行词向量计算，使识别内容的精准性进一步提高，另外，通过引入候选词机制，缩小和降低了词向量计算开销。

图4为本公开字符识别装置的一些实施例的结构示意图。该装置包括字符检测模块410、行业识别模块420、词向量字典获取模块430和词向量计算模块440。

字符检测模块410被配置为对图像中的字符进行检测识别，得到识别结果，其中，识别结果中包括已识别字符和未识别字符。

行业识别模块420被配置为确定已识别字符所属行业。

在一些实施例中，确定已识别字符在预定行业的行业相似指标和相似度稳定指标；根据行业相似指标和相似度稳定指标确定行业对应性综合指标；将行业对应性综合指标最大值对应的行业，作为已识别字符所属行业。

词向量字典获取模块430被配置为获取已识别字符所属行业的词向量字典。

词向量计算模块440被配置为根据词向量字典对识别结果进行词向量计算，识别出未识别字符。

图5A和5B为本公开字符识别装置的另一些实施例的结构示意图。该装置还包括预处理模块510和静态词库模块520。

其中，预处理模块510被配置为对图像进行预处理。

静态词库模块520被配置为基于静态词库对未识别字符进行识别，得到多个候选字符。从而，词向量计算模块440根据词向量字典对已识别字符和候选字符进行词向量计算，识别出未识别字符。

在另一些实施例中，静态词库模块520还被配置为获取已识别字符所属行业的静态词库。

在上述实施例中，通过引入对已识别字符的行业/专业的判别，选取精准的词向量字典进行词向量计算，提升了识别精确度；并且加入静态字典对字符进行模糊判断，提供几个候选字符/词供进行词向量计算，减少了计算资源消耗量。

在公开的实施例可以用于人机交互、票据识别等各种应用场景中，也可以用于各种专业文献的图像文字识别，例如，电信文献、医学文献、文学著作等等，使得识别文字精准度更高。另外，运营商可以在图像运维质检、通信文献的识别等领域应该技术。

图6为本公开字符识别装置的另一些实施例的结构示意图。该装置包括存储器610和处理器620。其中：存储器610可以是磁盘、闪存或其它任何非易失性存储介质。存储器610用于存储图1-3所对应实施例中的指令。处理器620耦接至存储器610，可以作为一个或多个集成电路来实施，例如微处理器或微控制器。该处理器620用于执行存储器中存储的指令。

在一些实施例中，还可以如图7所示，该装置700包括存储器710和处理器720。处理器720通过BUS总线730耦合至存储器710。该装置700还可以通过存储接口740连接至外部存储装置750以便调用外部数据，还可以通过网络接口760连接至网络或者另外一台计算机系统(未标出)，此处不再进行详细介绍。

在该实施例中，通过存储器存储数据指令，再通过处理器处理上述指令，能够提升字符识别的精确度。

在另一些实施例中，一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现图1-3所对应实施例中的方法的步骤。本领域内的技术人员应明白，本公开的实施例可提供为方法、装置、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

至此，已经详细描述了本公开。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。本领域的技术人员应该理解，可在不脱离本公开的范围和精神的情况下，对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims

1.一种字符识别方法，包括：

对图像中的字符进行检测识别，得到识别结果，其中，所述识别结果中包括已识别字符和未识别字符；

确定所述已识别字符所属行业；

获取所述已识别字符所属行业的词向量字典；

根据所述词向量字典对所述识别结果进行词向量计算，识别出所述未识别字符。

2.根据权利要求1所述的字符识别方法，其中，确定所述已识别字符所属行业包括：

确定所述已识别字符在预定行业的行业相似指标和相似度稳定指标；

根据所述行业相似指标和相似度稳定指标确定行业对应性综合指标；

将行业对应性综合指标最大值对应的行业，作为所述已识别字符所属行业。

3.根据权利要求2所述的字符识别方法，其中，确定所述已识别字符在预定行业的行业相似指标包括：

确定所述已识别字符在预定行业的行业词库的字符占比、词汇重复率和词汇反向重复率；

对所述字符占比、所述词汇重复率和所述词汇反向重复率进行加权计算，确定所述已识别字符在预定行业的行业相似指标。

4.根据权利要求2所述的字符识别方法，其中，确定所述已识别字符在预定行业的相似度稳定指标包括：

确定所述已识别字符中每个词组在预定行业的行业词库的字符流量性指标、差异稳定性率和匹配计算时延指标；

对所述符流量性指标和所述差异稳定性率进行加权计算后，根据所述匹配计算时延指标，确定所述每个词组中每个字的相似稳定性值；

对所述每个词组中每个字的相似稳定性值进行加权计算，得到所述每个词组的相似度稳定性值；

对所述每个词组的相似度稳定性值进行加权计算，得到所述已识别字符在预定行业的相似度稳定指标。

5.根据权利要求1-4任一所述的字符识别方法，还包括：

基于静态词库对所述未识别字符进行识别，得到多个候选字符；

根据所述词向量字典对所述已识别字符和所述候选字符进行词向量计算，识别出所述未识别字符。

6.根据权利要求5所述的字符识别方法，还包括：

获取所述已识别字符所属行业的静态词库。

7.根据权利要求1-4任一所述的字符识别方法，还包括：

对所述图像进行预处理。

8.一种字符识别装置，包括：

字符检测模块，被配置为对图像中的字符进行检测识别，得到识别结果，其中，所述识别结果中包括已识别字符和未识别字符；

行业识别模块，被配置为确定所述已识别字符所属行业；

词向量字典获取模块，被配置为获取所述已识别字符所属行业的词向量字典；

词向量计算模块，被配置为根据所述词向量字典对所述识别结果进行词向量计算，识别出所述未识别字符。

9.一种字符识别装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至7任一项所述的字符识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现权利要求1至7任一项所述的字符识别方法。