CN111914825B

CN111914825B - 文字识别方法、装置及电子设备

Info

Publication number: CN111914825B
Application number: CN202010767955.5A
Authority: CN
Inventors: 康健; 黄珊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-03
Filing date: 2020-08-03
Publication date: 2023-10-27
Anticipated expiration: 2040-08-03
Also published as: CN111914825A

Abstract

本申请公开了一种文字识别方法、装置及电子设备，涉及计算机视觉技术领域。其中，该方法包括：获取待识别图像，待识别图像包括待识别文字，待识别文字包括至少一个字符组，字符组包括至少一个字符；从待识别图像中提取图像特征，并根据图像特征确定待识别文字所对应候选文字的第一编码序列以及第一概率；根据候选文字的第二编码序列，获取候选文字对应的第二概率；根据第一概率和第二概率，从各候选文字的第一编码序列中确定待识别文字对应的目标编码序列，并将目标编码序列所表示的候选文字确定为待识别文字的识别结果。如此，可以有效降低字符组识别出错的几率，进而降低待识别文字识别出错的几率。

Description

文字识别方法、装置及电子设备

技术领域

本申请涉及计算机视觉技术领域，更具体地，涉及一种文字识别方法、装置、电子设备及存储介质。

背景技术

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

随着人工智能技术的飞速发展，其在图像文字识别(Optical CharacterRecognition，OCR)领域得到了广泛应用。但是，现有的识别方法对于一些特定语言的文字的识别准确度较差。

发明内容

本申请提出了一种文字识别方法、装置及电子设备及存储介质，可以改善上述问题。

一方面，本申请实施例提供了一种文字识别方法，包括：获取待识别图，待识别图像包括待识别文字，待识别文字包括至少一个字符组，该字符组包括至少一个字符组；从待识别图像中提取图像特征，并根据图像特征确定与待识别文字所对应候选文字的第一编码序列以及第一概率，所述第一编码序列包括候选文字中各字符组的编码信息，第一概率表示待识别文字是该候选文字的概率；根据候选文字的第二编码序列，获取候选文字对应的第二概率，第二编码序列包括候选文字中各字符的编码信息，第二概率表示候选文字是正确文字的概率；根据第一概率和第二概率，从各候选文字的第一编码序列中确定待识别文字对应的目标编码序列，并将目标编码序列所表示的候选文字确定为待识别文字的识别结果。

另一方面，本申请实施例提供了一种文字识别装置，包括：获取模块、确定模块以及识别模块。其中，获取模块用于获取待识别图像，待识别图像包括待识别文字，待识别文字包括至少一个字符组，字符组包括至少一个字符。确定模块用于从待识别图像中提取图像特征，并根据图像特征确定与待识别文字所对应候选文字的第一编码序列以及第一概率，所述第一编码序列包括候选文字中各字符组的编码信息，第一概率表示待识别文字是候选文字的概率；根据候选文字的第二编码序列，获取候选文字对应的第二概率，第二编码序列包括候选文字中各字符的编码信息，第二概率表示候选文字是正确文字的概率。识别模块用于根据第一概率和第二概率，从各候选文字的第一编码序列中确定待识别文字对应的目标编码序列，并将目标编码序列所表示的候选文字确定为待识别文字的识别结果。

另一方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储器；一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述的方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，其上存储有程序代码，所述程序代码可被处理器调用执行上述的方法。

本申请提供的方案，对于包括待识别文字的待识别图像，可以从待识别图像中提取图像特征，并根据图像特征确定与待识别文字所对应候选文字的第一编码序列以及第一概率，根据候选文字的第二编码序列获取候选文字对应的第二概率。其中，待识别文字包括至少一个字符组，字符组包括至少一个字符。第一编码序列包括候选文字中各字符组的编码信息，第一概率表示待识别文字是候选文字的概率，第二编码序列包括候选文字中各字符的编码信息，第二概率表示候选文字是正确文字的概率。然后，可以根据第一概率和第二概率，从各候选文字的第一编码序列中确定待识别文字对应的目标编码序列，并将目标编码序列所表示的候选文字确定为待识别文字的识别结果。如此，在基于第一概率确定待识别文字是哪一个候选文字时，可以以基于第二编码序列得到的第二概率为约束条件，从而有效降低因字符组识别有误而将待识别文字识别为错误的候选文字的几率。

本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提供的一种文字识别方法的流程图。

图2A示出了一个藏文文字的示意图。

图2B示出了图2A所示藏文文字的字符序列和字符组序列的示意图。

图2C示出了几个字符组的堆编码示意图。

图3示出了本申请另一实施例提供的一种文字识别方法的流程图。

图4示出了本申请实施例提供的一种文字识别模型的架构示意图。

图5示出了本申请实施例提供的一个例子中字符编码约束模型的训练流程。

图6示出了图4所示实施例中的文字识别方法的另一流程图。

图7示出了本申请又一实施例提供的一种文字识别方法的流程图。

图8示出了本申请实施例提供的一个待识别图像的识别结果示意图。

图9示出了本申请实施例提供的另一个待识别图像的识别结果示意图。

图10示出了本申请实施例提供的一种文字识别装置的框图。

图11是本申请实施例的用于执行根据本申请实施例的文字识别方法的电子设备的框图。

图12是本申请实施例的用于保存或者携带实现根据本申请实施例的文字识别方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

图像是承载和传播文字信息的一种常见方式，针对这种方式，需要使用图像识别技术识别图像中携带的文字信息的具体内容。传统的图像识别技术包括光学字符识别(Optical Character Recognition，OCR)，其可以从图像中识别出文字信息的具体内容，并可以将图像所携带的文字转换成文本信息以供后续应用和处理。对于一些语言的文字，采用常规的识别方式，识别结果不佳。

针对上述问题，发明人经过长期研究，提出了一种文字识别方法、装置及电子设备，可以提升文字识别的准确度。该方法可以由电子设备执行，这里的电子设备可以是服务器或终端设备。终端设备可以是智能手机、平板电脑、笔记本电脑、个人计算机(PersonalComputer，PC)、便携式穿戴式设备等。服务器可以是，独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算、大数据和人工智能平台等基础云计算服务的云服务器。

在本申请实施例的一个应用场景中，如果需要对图像中的文字进行识别，终端设备或者服务器可以获得待识别图像，比如可以通过图像采集设备(比如，摄像头)采集待识别图，或者可以是接收其他设备通过数据传输方式传输的待识别图像。终端设备或服务器可以通过配置的文字识别模型对获得的待识别图像进行识别，从而得到该待识别图像中的待识别文字。

请参照图1，图1示出了本申请一实施例提供的一种文字识别方法的流程示意图，该方法可以应用于上述的电子设备中。该方法可以包括以下步骤：

步骤S110，获取待识别图像，所述待识别图像包括待识别文字，所述待识别文字包括至少一个字符组，所述字符组包括至少一个字符。

其中，待识别图像是指包含待识别文字的图像，待识别文字是需要被识别的文字。本实施例中的待识别文字可以包括多个字符，所述多个字符按照特定结构排列。这里的字符可以是用于组成文字的结构单元，可以随着文字类型的不同而不同。比如，对于汉字而言，其包含的字符可以理解为偏旁、部首、笔划等。又比如，对于元音标注文字而言，其包含的字符可以理解为一个音位对应的字符，比如辅音字母和元音字母等。

待识别文字包括的多个字符中关联紧密的部分字符，可以视为一个字符组。这里的关联紧密可以理解为按照特定结构排列，比如，字符间距小于阈值；又如，按照特定方向排列等。

以藏文为例，其作为一种元音标注文字，由30个辅音字母和4个元音字母组成。图2A示例性地示出了藏文的一个音节201，音节201是藏文的一个基本表意单位，其字形围绕着基字2014展开，基字2014的前方是前加字2011，基字2014的后方依次是后加字2017和再后加字2018，基字2014的上方依次是上加字2013和上元音2012，基字2014的下方依次是下加字2015和下元音2016。与英文书写系统中将基本的字符单位进行横向排列有一些区别，藏文的书写系统中存在着明显的局部纵向排列。如果将藏文文字中纵向排列的字符确定为关联紧密的字符，那么，如图2B所示，音节201中纵向排列的上元音2012、上加字2013、基字2014、下加字2015和下元音2016，可以视为关联紧密的部分字符，从而可以组成一个字符组g1。而前加字2011、后加字2017以及再后加字2018，可以分别视为一个特殊的字符组，即只包含一个字符的字符组。

本实施例中，一个待识别文字可以包括至少一个字符组，至少一个字符组是沿第一方向排列的。每个字符组可以包括至少一个字符，同一字符组中的字符是沿第二方向依次排列的。第一方向可以是待识别文字的书写方向，第二方向是垂直于第一方向的方向。这里的书写方向可以理解为待识别文字的约定俗成的书写方向。比如，现代汉语的书写方向是沿水平方向、从左到右依次书写；又比如，古汉语的书写方向是沿竖直方向、从右到左书写。参照图2A和图2B所示的例子，第一方向可以是横向(或水平方向)，第二方向可以是纵向(或竖直方向)。另一个例子中，待识别图像可能并非是规则的图像，比如沿水平方向、从左到右书写的文字，经过一定倾斜处理后，其书写方向可能是某个倾斜方向O1，则此时第一方向可以是O1，而第二方向可以是垂直于O1的方向。

S120，从所述待识别图像中提取图像特征，并根据所述图像特征确定与所述待识别文字所对应候选文字的第一编码序列以及第一概率，所述第一编码序列包括所述候选文字中各字符组的编码信息，所述第一概率表示所述待识别文字是所述候选文字的概率。

对于待识别文字，一些实施方式中，可以通过文字识别模型预测该文字可能是哪些候选文字，以及可能是每个候选文字的概率。这里的候选文字通常表示为一个编码序列，编码序列包括了候选文字中的各个字符的编码信息。然而，孤立的多个字符需要按照一定结构组合，才可以形成相应的文字。也就是说，以单个字符为单位进行编码的识别方式，其预测过程除了需要预测待识别文字可能包括的字符，实际上还暗含了对待识别文字可能包括的各字符的组合过程。而这个组合过程可能会累积一定误差，从而导致识别结果不佳。

针对这一问题，经过研究发现，从图像特征而言，待识别文字的一些字符组成的字符组与待识别文字的直观显示之间具有更高的相似度。比如，图2B所示的字符组g1与音节201的图像相似度，相较于字符组g1中的单个字符与音节201的图像相似度更高。如果以这样的部分字符构成的整体(即，字符组)作为待识别文字的结构单元，对待识别文字进行识别，可以提升待识别文字的识别结果的准确度。

本实施例中，一个包括至少两个字符的字符组的编码信息可以视为堆编码，一个字符的编码信息可以视为字符编码。值得说明的是，如果一个字符组只包括一个字符，其编码信息应该是一个字符编码而不是堆编码。

比如，请再次参照图2B，将音节201的各个字符按照音节201的书写顺序展开，可以得到字符序列s1。可以理解，每种语言的文字通常具有约定的书写顺序，比如，汉字的笔划、偏旁、部首的书写具有特定的先后顺序；又如，英文的单词是按照从左到右的顺序依次书写单词中的每个字符。字符序列s1中的每个字符都可以具有对应的编码信息，编码信息例如可以是采用Unicode(又称统一码、万国码或者单一码)编码规则获得的编码信息。以字符为单位对字符序列s1编码，可以得到一编码信息c1。

字符序列s1的编码信息c1包括：前加字2011的编码信息、上元音2012的编码信息、上加字2013的编码信息、基字2014的编码信息、下加字2015的编码信息、下元音2016的编码信息、后加字2017的编码信息以及再后加字2018的编码信息。可以确定，编码信息c1包括的是8个字符编码，不包括堆编码。

又比如，将音节201中的各个字符组按照音节201的书写顺序展开，可以得到字符组序列s2，字符组序列s2中的每个字符组都可以具有对应的编码信息。以字符组为单位对字符组序列s2编码，可以得到一编码信息c2。字符组序列s2的编码信息c2包括：前加字2011的编码信息、字符组g1的编码信息、后加字2017的编码信息以及再后加字2018的编码信息。可以确定，编码信息c2包括一个堆编码(即，字符组g1的编码信息)以及3个字符编码。值得说明的是，虽然前加字、后加字和再后加字可以分别视为只包括一个字符的字符组，但它们的编码信息本质上还是字符编码，而不是堆编码。

进一步地，如果一个文字的编码序列中仅存在字符编码(如，编码信息c1)，则这个编码序列可以视为字符级别(char-level)的编码序列。如果一个文字的编码序列中存在堆编码(如，编码信息c2)，则这个编码序列可以视为字符组级别的编码序列，或者也可以称为堆级别(stack-level)的编码序列。

本实施例中，以字符组的编码信息(即，堆编码)为单位，对待识别文字进行识别。详细地，待识别图像中可能存在依次排列的一个以上待识别文字，文字识别模型可以从待识别图像中提取图像特征，进而根据图像特征输出每个待识别文字所对应的多个候选文字的编码序列以及第一矩阵。

第一矩阵是一个M×N的概率矩阵，其中的每一个元素都可以视为一个第一概率。具体地，N可以是待识别图像中的待识别文字的数量，M可以是电子设备中存储的字典所包括的字数。也就是，第一矩阵中的第j列对应的是待识别图像中的第j个待识别文字的预测信息，第j列的第i个元素表示的是第j个待识别文字是第j个元素所表征的候选文字的概率。

候选文字可以表示为一个第一编码序列。每个候选文字(例如，k)的第一编码序列包括多个字符组的编码信息，这里的字符组可能包括一个字符，也可能包括至少两个字符。如果某个字符组只包括一个字符，则其编码信息为字符编码，如果某个字符组包括至少两个字符，则其编码信息是堆编码。所述多个字符组的编码信息的排列顺序与所述多个字符组在候选文字k中的书写顺序一致。本实施例中，候选文字的第一编码序列可以至少包括一个堆编码，对应地，候选文字的第一编码序列可以是堆级别的编码序列。

一些实施方式中，对于每一个待识别文字，可以根据该待识别文字对应的每个候选文字的第一概率，将该待识别文字确定为第一概率最大的候选文字。这样，相较于纯粹以字符为单位进行编码的识别方式，可以减少将字符组中的各字符排列组合以构成该字符组的过程所累积的误差。

但是，对于包括至少两个字符的字符组，字符组识别出错的几率大于单个字符识别出错的几率，而字符组识别的微小误差可能导致极大的文字识别错误和语义理解错误。因此，基于字符组的编码信息(即，堆编码)进行文字识别的方式可能引入新的识别误差。如图2C所示，其中展示了几个字符组的字形和编码信息之间的对应关系，这几个字符组的编码信息仅仅是最后一位不同，但是字形差异却非常大，语义差别也比较大。可见，一旦字符组的编码信息(堆编码)的预测出现误差，可能导致比较大的识别错误，甚至可能导致基于识别结果的后续处理出错。

基于此，本实施例中，在获得候选文字的第一编码序列和第一概率的基础上，还可以按照S130获得候选文字选取的约束条件。

S130，根据所述候选文字的第二编码序列，获取所述候选文字对应的第二概率，所述第二编码序列包括所述候选文字中各字符的编码信息，所述第二概率表示所述候选文字是正确文字的概率。

本实施例中，第二编码序列是一个字符级别的编码序列。第二编码序列包括的是候选文字中的各个字符的编码信息，因此，基于第二编码序列确定第二概率，实际上表示的是候选文字中的各个字符组成一个正确文字的概率有多大。比如，候选文字k的第二编码序列依次包括：字符01的编码信息、字符02的编码信息、字符03的编码信息和字符04的编码信息；那么，候选文字k对应的第二概率表示的是字符01、字符02、字符03和字符04组成一个正确文字的概率大小。如果该第二概率较小，表示字符01、字符02、字符03和字符04不太可能用于组成一个文字。

S140，根据所述第一概率和所述第二概率，从各所述候选文字的第一编码序列中确定所述待识别文字对应的目标编码序列，并将所述目标编码序列所表示的候选文字确定为所述待识别文字的识别结果。

如上所述，待识别文字可能与多个候选文字对应，而每个候选文字都具有对应的第一概率和第二概率，实施过程中，可以将第一概率和第二概率的乘积的候选文字确定为目标文字，这个目标文字的第一编码序列就是目标编码序列。此时，可以确定待识别文字就是这个目标编码序列所表示的候选文字(即，目标文字)，换句话说，待识别文字的识别结果就是目标文字。

再次以候选文字k为例，假定：

候选文字k的第一编码序列依次包括字符01的编码信息、字符组g2的编码信息、字符04的编码信息。其中，从字形上划分，字符组g2可以包括字符02和03。但实际上，候选文字k是由字符01、字符02、字符05和字符04组成的。

如果候选文字k对应的第一概率比较大，在只按照第一概率来确定待识别文字是哪一个候选文字的情况下，待识别文字有很大几率被识别成候选文字k。但是，在加入基于第二编码序列得到的第二概率作为约束条件之后，可以基于候选文字k对应的第二概率确定候选文字k中的各个字符是否能够组成一个正确的文字，尤其可以用于确定字符组g2中的字符02和03是否能够出现在一个文字中，从而可以降低字符组预测出错的几率。

请参照图3，图3示出了本申请另一实施例提供的文字识别方法的流程示意图，该方法可以应用于上述的电子设备。该方法可以包括以下步骤：

步骤S310，获取待识别图像，所述待识别图像包括待识别文字，所述待识别文字包括至少一个字符组，所述字符组包括至少一个字符。

本实施例中，S310的详细实现过程与S110类似，在此不再赘述。

S320，从所述待识别图像中提取图像特征，并获取字形模型根据所述图像特征输出的第一编码序列和第三概率，所述第一编码序列和所述第三概率均与所述待识别文字的一个候选文字对应，所述第三概率用于表示所述待识别文字具有该候选文字的字形的概率。

本实施例中，第一概率和第一编码序列的获得可以通过S320-S340实现。如图4所示，本实施例中，文字识别模型可以包括字形模型、语言模型和字符编码约束模型。

详细地，字形模型可以用于从待识别图像的图像特征中学习待识别文字的字形特征(如，笔划特征等)，从而可以预测出待识别文字的字形可能是哪些字形，以及待识别文字的字形是每一个可能的字形的概率大小。其中，字形模型所预测的每一个可能的字形可以称为候选字形，候选字形也可以理解成上述实施例中的候选文字，它可以表示成一个第一编码序列，第一编码序列的含义可以参照上述实施例的描述。待识别文字的字形是某一个候选字形的概率大小，即为第三概率。

可选地，本实施例中，第一编码序列中各个字符组的编码信息可以是按照所述各个字符组在候选文字中的书写顺序排列的。如此，对于候选文字的表示将更为准确。

S330，获取语言模型根据位于所述待识别文字之前的至少一个已识别文字输出的第四概率，所述第四概率表示在所述至少一个已识别文字存在的情况下，所述待识别文字出现的条件概率。

本实施例中，待识别图像中可能存在依次排列的一个以上待识别文字，可以按照待识别文字的排列顺序依次识别每个待识别文字。对于当前识别的待识别文字而言，排列在该待识别文字之前的所有待识别文字均可以理解成S330中的已识别文字。

为了更好地结合上下文之间的语义信息，除了通过字形模型进行识别，还可以通过语言模型来针对待识别文字的上下文关系做建模，以提升识别结果的准确度。语言模型是用来计算一个句子的概率的模型，也就是判断一句话是否是一句合理的自然语言。

所述语言模型可以是N元文法模型(N-gram模型)，这里的N为正整数。对应地，根据所采用的N元文法模型的不同，S330中使用的已识别文字的数量也有所不同。比如，当采用二元文法模型时，语言模型可以根据待识别文字之前的两个已识别文字输出第四概率。又如，当采用三元文法模型时，语言模型可以根据待识别文字之前的三个已识别文字输出第四概率。换言之，S330中使用的已识别文字的数量为N。

N元文法模型可以通过如下表达式，根据给定上文(如，位于待识别文字之前的至少一个已识别文字)计算下文(待识别文字)的出现概率：

P(ω_i|ω₁,…,ω_i-1)＝P(ω_i|ω_i-m+1,…,ω_i-1)， (1)

其中，ω_i表示的是待识别文字，ω₁,…,ω_i-1则分别表示位于待识别文字ω_i之前的i-1个已识别文字。在N元文法模型中，认为第i个文字的出现主要依赖于第i个文字之前的m个文字决定，这里的m即为S330中的已识别文字的数量，也就是N。

S340，将所述第三概率与所述第四概率的乘积确定为第一概率，所述第一概率表示所述待识别文字是所述候选文字的概率。

本实施例中，第一概率可以通过如下表达式(2)获得：

其中，x是输入的图像特征，w*是语言模型输出的一个候选文字的第一编码序列。p(x|w)表示字形模型输出的第三概率，p(w)表示第四概率，w表示的是字形模型输出的一个候选文字的第一编码序列。argmax表示用于使其后的表达式取得最大值的自变量的值。比如：

表示使p(w*|x)取得最大值的w*；/>表示使表示p(x|w)×p(w)取得最大值的w。

可以看出，基于第一概率选取候选文字的过程，就是最大化表达式(2)的值的过程。

S350，获取字符编码约束模型基于第二编码序列输出的正确性分数，所述第二编码序列包括所述候选文字中各字符的编码信息按照所述候选文字的书写顺序排列而成的序列。

本实施例中，对于待识别文字对应的每一候选文字，可以将其第一编码序列展开为第二编码序列。具体地，对于第一编码序列中的每一个堆编码，可以查找该堆编码对应的字符编码的组合。值得说明的是，电子设备或者是与电子设备通信的其他设备中可以存储有堆编码与字符编码之间的对应关系。在获得候选文字的第二编码序列之后，可以将第二编码序列输入到字符编码约束模型中。

可选地，第二编码序列中各个字符的编码信息可以是按照所述各个字符在候选文字中的书写顺序排列的。如此，基于第二概率为候选文字的选择提供的约束条件将更为准确。

本实施例中，上述的字符编码约束模型可以是经过训练的神经网络模型，其可以通过图5所示的流程进行训练。

S501，获取正样本数据和负样本数据，所述正样本数据包括正确的元音标注文字中各字符的编码信息，所述负样本数据包括错误的元音标注文字中各字符的编码信息。

S502，获取字符编码约束模型基于所述正样本数据输出的第一得分，以及基于所述负样本数据输出的第二得分。

S503，基于所述第一得分和所述第二得分调整所述字符编码约束模型的模型参数，使调整后的字符约束编码模型输出的第一得分和第二得分的差距增大。

本实施例中，错误的元音标注文字是指一个并不存在的文字，即，负样本数据中的编码信息所表示的并不是一个真实存在的文字。一个例子中，如果待识别文字是藏文文字，则正样本数据可以包括正确的藏文文字的编码信息，负样本数据可以包括错误的藏文文字的编码信息。错误的藏文文字可以理解成藏文字符组成的非藏文文字。

实施过程中，可以获取多个正样本数据和多个负样本数据，并将每个样本数据(正样本数据或负样本数据)输入预先建立的字符编码约束模型，字符编码约束模型可以基于输入的样本数据输出一正确性得分，该正确性得分与输入的样本数据所表示的元音标注文字的正确度相关。基于正确性得分，可以确定输入的样本数据所表示的文字是否是一个正确的文字。

因此，为了提升字符编码约束模型的判别能力，可以使字符编码约束模型针对正确的元音标注文字输出的正确性得分，与针对错误的元音标注文字输出的正确性得分之间的差距足够大。换句话说，可以调整字符编码约束模型的模型参数，以使调整后的字符编码约束模型针对正样本数据输出的第一得分与针对负样本数据输出的第二得分之间的差距增大。如此，基于调整后的字符编码约束模型输出的正确性得分，可以得到置信度更高的判别结果。

一个例子中，字符编码约束模型输出的正确性得分可以与输入的样本数据所表示的元音标注文字的正确度负相关(如，成反比)。在此情况下，对于字符编码约束模型的模型参数的调整目标可以是：使第一得分减小、第二得分增大。另一个例子中，字符编码约束模型输出的正确性得分可以与输入的样本数据所表示的元音标注文字的正确度正相关(比如，成正比)。在此情况下，对于字符编码约束模型的模型参数的调整目标可以是：使第一得分增大、第二得分减小。本实施例对此没有限制。

经过训练的字符编码约束模型输出的正确性得分，可以比较准确地反映输入的第二编码序列所表示的文字的正确度。

S360，对所述正确性分数进行归一化，并将归一化后的正确性分数确定为所述第二概率。

实施过程中，可以通过归一化处理将正确性分数映射到给定的概率空间内，比如[0,1]区间内，正确性分数经过映射后得到的值可以视为第二概率。

S370，从各所述候选文字的第一编码序列中确定使所述第一概率和所述第二概率的乘积取得最大值的候选文字的第一编码序列，将该候选文字的第一编码序列确定为所述待识别文字对应的目标编码序列，并所述目标编码序列所表示的候选文字确定为所述待识别文字的识别结果。

本实施例中，对于每个待识别文字，可以分别计算其对应的每个候选文字的第一概率和第二概率的乘积，进而从该待识别文字对应的所有候选文字中选择第一概率和第二概率的乘积最大的一者，并将被选中的候选文字的第一编码序列作为目标编码序列。如此，该待识别文字可以被识别成所述被选中的候选文字。

通过本实施例提供的文字识别方法，引入了候选文字的第二概率作为约束条件，改进了基于第一概率对候选文字所做的选择，从而使得对于待识别文字的识别结果更为准确。

本实施例中，上述S350-S360中描述的对于第二概率的确定过程，还可以通过其他方式实现。比如，可以通过图6所示的流程实现。

S650，获取候选文字的第二编码序列，所述第二编码序列是所述候选文字中各字符的编码信息按照所述候选文字的书写顺序排列而成的序列。

本实施例中，可以根据候选文字的第一编码序列展开为第二编码序列，也可以根据第一编码序列中的堆编码，查找该堆编码对应的字符编码的组合，并将第一编码序列中的堆编码替换为查找到的字符编码的组合，即可得到所述第二编码序列。

S660，针对第二编码序列中第i个字符的编码信息，获取在所述第i个字符之前的N个字符的编码信息出现的情况下，所述第i个字符的编码信息出现的条件概率，其中，N为大于1的正整数，1≤i≤N，i为正整数。

其中，N可以是第二编码序列中的字符数量，也可以是预设数量，比如2或者3。

S670，将所述候选文字中各候选字符的编码信息的条件概率的乘积，确定为第二概率。

如此，第二概率表示的是候选文字中的各个字符按照候选文字的书写顺序组成一个正确文字的几率，将通过图6所示流程确定的第二概率作为基于第一概率选取候选文字的约束条件，可以使对待识别文字的识别结果更加准确。

请参照图7，其中示出了本申请又一实施例提供的文字识别方法的流程示意图，该方法可以应用于上述的电子设备。该方法可以包括如下步骤：

S710，获取待识别图像，待识别图像包括待识别文字，所述待识别文字是藏文文字，该藏文文字包括沿第一方向排列的至少一个字符组，所述字符组包括沿第二方向排列的至少一个字符，所述字符组中的字符为基字和元音中的一者。

关于待识别文字，可以参照上述实施例对图2A-2C的详细介绍。S710的详细实现过程，可以参照上述实施例对S110的详细描述，在此不再赘述。

S720，从所述待识别图像中提取图像特征，并获取字形模型根据所述图像特征输出的第一编码序列和第三概率，所述第一编码序列和所述第三概率均与所述待识别文字的一个候选文字对应，所述第三概率用于表示所述待识别文字具有该候选文字的字形的概率。

S730，获取语言模型根据位于所述待识别文字之前的至少一个已识别文字输出的第四概率，所述第四概率表示在所述至少一个已识别文字存在的情况下，所述待识别文字出现的条件概率。

S740，将所述第三概率与所述第四概率的乘积确定为第一概率，所述第一概率表示所述待识别文字是所述候选文字的概率。

其中，S720-S740的详细实现过程可以参照上述实施例对S320-S340的详细描述，在此不再赘述。

S750，获取所述候选文字的第二编码序列在位于所述待识别文字之前的各已识别文字的第二编码序列存在的情况下出现的条件概率，并将该条件概率确定为所述候选文字的第二概率，所述第二编码序列包括所述候选文字中各字符的编码信息，所述第二概率表示所述候选文字是正确文字的概率。

考虑到藏文的各个待识别文字实际上可以是一个音节，而连续的音节之间具有关联性，因此，之前音节中出现的字符可以决定当前音节包含哪些字符。由此可以确定，在之前音节中出现的字符确定的情况下，候选文字中的各字符在当前音节出现的条件概率(即，第二概率)可以在一定程度上反映候选文字中的各个字符组成的文字是否正确。

详细地，S750可以通过如下所示的表达式(3)实现：

其中，G表示字符编码约束模型，或者也可以理解成第二编码序列，p(G)表示待识别文字对应的候选文字的第二概率。其中，p(w*|x，G)可以表示为如下表达式(4)：

其中，w₁表示第1个待识别文字对应的一个候选文字的第一编码序列，g1表示候选文字w₁的第二编码序列，p(g₁)表示的候选文字w₁的第二概率。由于是第1个待识别文字对应的候选文字，其第二概率就是g1出现的概率。

w₂表示第2个待识别文字对应的一个候选文字的第一编码序列，g2表示候选文字w₂的第二编码序列，p(g₁|g₂)表示的是在已识别文字的第二编码序列g1存在的情况下，候选文字w₂的第二编码序列g2出现的条件概率(也就是第二概率)。

w_i表示第i个待识别文字对应的一个候选文字的第一编码序列，g_i-m+1表示候选文字w_i的第二编码序列，p(g_i|g_i-m+1…g₁)表示的是在已识别文字的第二编码序列g_i-m+1、…、g₁出现的情况下，w_i的第二编码序列出现的概率。

与上述表达式(2)类似的，表达式(4)中，p(w_i|x，t_i)可以通过上述的字形模型和语言模型得到，而p(G)也可以视为在选择待识别文字的最优候选文字的过程中加入的一个字符编码级别的“语言模型”。通过加入一项堆编码与字符编码之间的约束关系以及候选堆编码序列的字符编码分数，从而提升识别结果的准确性。

可选地，本实施例中，字形模型可以采用CTC(Connectionist temporalclassification，连接短时分类)模型或者LF-MMI(Lattice-Free Maximum MutualInformation，无格最大互信息)模型等。本实施例对此没有限制。

S760，从各所述候选文字的第一编码序列中确定使所述第一概率和所述第二概率的乘积取得最大值的候选文字的第一编码序列，将该候选文字的第一编码序列确定为所述待识别文字对应的目标编码序列，并将所述目标编码序列所表示的候选文字确定为所述待识别文字的识别结果。

本实施例中，S760的详细实现过程与上述实施例中的S140、S370类似，可以参照上述实施例中的相关描述，在此不再赘述。

通过本实施例提供的文字识别方法，在藏文文字的识别过程中，引入了字符编码约束G，减少了堆编码预测有误的情况。如图8所示的待识别图像，其中包括待识别的藏文文字序列，其中存在字符组g3和g4。在没有引入字符编码约束G的情况下，基于字符组g3识别得到的堆编码c3为：\u0f67\u0fb2\u0f7c；基于字符组g4识别得到的堆编码c4为：\u0f40\u0fb1\u0f7a。可以看出，堆编码c3表示的字符组的字形与实际的字符组g3是有差异的，堆编码c4表示的字符组的字形与实际的字符组g4也是有差异的。而这些差异主要是由于堆编码中的一些字符编码的预测错误或识别错误所导致的，通过字符编码约束G的应用，类似的错误可以得到纠正。

详细地，通过本实施例提供的文字识别方法，基于字符组g3识别得到的堆编码c3’为：\u0f67\u0f7c；基于字符组g4识别得到的堆编码c4’为：\u0f40\u0fb1\u0f72。可以看出，堆编码c3’表示的字符组的字形与实际的字符组g3一致，堆编码c4’表示的字符组的字形与实际的字符组g4一致。

请参照下表1，其中示出了本实施例提供的文字识别方法及其他的一些文字识别方法在验证集上的验证结果，这里的验证结果是指CER(Character Error Rate，字错误率)。

表1

其中，第一种方法是仅使用基于堆编码的字形模型，且字形模型是CTC模型。CTC模型作为一种经典的图像文字识别方法，通过引入输入特征序列和对应的标注序列之间的连接短时分类代价函数，来更新字形模型，从而达到学习图像中的文字序列内容的目的。第二种方法时仅使用基于堆编码的字形模型，且字形模型是CTC模型，并通过CycleGAN(CycleGenerative Adversarial Networks，循环生成对抗网络)来进行风格迁移和数据扩充，以提升训练数据集风格的多样性，提升字形模型的鲁棒性。使用上述两种方法对应的基线(baseline)模型，在藏文图像文字识别任务上的字错误率分别是4.69和4.25。

本实施例中，采用LF-MMI模型作为字形模型，这是因为藏文图像文字识别所需的训练数据总体较少，在面对较少的训练数据时，LF-MMI模型的收敛效果优于CTC模型。可以看出，在仅使用基于堆编码的字形模型且字形模型是LF-MMI模型的情况下，CER可以达到3.60，先对进步达到10％。在采用LF-MMI模型作为字形模型的情况下，引入字符编码约束模型，即第4种方法，其CER进一步下降到3.36，相对于只使用基于堆编码的字形模型(即，第三种方法)，相对进步达到7％；相对于第二种方法，相对进步达到20％。例如图9所示，其中示出了通过第2种方式和本实施例提供的文字识别方法对待识别图像901进行识别的结果。可以看出，本实施例提供的文字识别方法可以获得更为准确的识别结果。

请参阅图10，其示出了本申请实施例提供的一种文字识别装置的结构框图。该装置1000可以包括：获取模块1010、确定模块1020以及识别模块1030。

其中，获取模块1010用于获取待识别图像，所述待识别图像包括待识别文字，所述待识别文字包括至少一个字符组，所述字符组包括至少一个字符。

确定模块1020用于从所述待识别图像中提取图像特征，并根据所述图像特征确定与所述待识别文字所对应候选文字的第一编码序列以及第一概率，所述第一编码序列包括所述候选文字中各字符组的编码信息，所述第一概率表示所述待识别文字是所述候选文字的概率；根据所述候选文字的第二编码序列，获取所述候选文字对应的第二概率，所述第二编码序列包括所述候选文字中各字符的编码信息，所述第二概率表示所述候选文字是正确文字的概率。

识别模块1030用于根据所述第一概率和所述第二概率，从各所述候选文字的第一编码序列中确定所述待识别文字对应的目标编码序列，并将所述目标编码序列所表示的候选文字确定为所述待识别文字的识别结果。

可选地，所述确定模块1020根据所述第一概率和所述第二概率，从各所述候选文字的第一编码序列中确定所述待识别文字对应的目标编码序列的方式可以是：

从各所述候选文字的第一编码序列中确定使所述第一概率和所述第二概率的乘积取得最大值的候选文字的第一编码序列，并将该候选文字的第一编码序列确定为所述待识别文字对应的目标编码序列。

可选地，所述确定模块1020根据所述候选文字的第二编码序列，获取所述候选文字对应的第二概率的方式可以是：获取字符编码约束模型基于所述第二编码序列输出的正确性分数；对所述正确性分数进行归一化，并将归一化后的正确性分数确定为所述第二概率。

可选地，所述待识别文字可以是元音标注文字。所述装置1000还可以包括训练模块。训练模块可以用于：获取正样本数据和负样本数据，所述正样本数据包括正确的元音标注文字中各字符的编码信息，所述负样本数据包括错误的元音标注文字中各字符的编码信息；获取字符编码约束模型基于所述正样本数据输出的第一得分，以及基于所述负样本数据输出的第二得分；基于所述第一得分和所述第二得分调整所述字符编码约束模型的模型参数，使调整后的字符约束编码模型输出的第一得分和第二得分的差距增大。

可选地，所述第二编码序列为所述候选文字中各字符的编码信息按照所述候选文字的书写顺序排列而成的序列。所述确定模块1020根据所述候选文字的第二编码序列，获取所述候选文字对应的第二概率的方式，可以是：

针对所述第二编码序列中第i个字符的编码信息，获取在所述第i个字符之前的N个字符的编码信息出现的情况下，所述第i个字符的编码信息出现的条件概率，其中，N为大于1的正整数，1≤i≤N，i为正整数；将所述候选文字中各字符的编码信息的条件概率的乘积，确定为所述第二概率。

可选地，所述确定模块1020根据所述候选文字的第二编码序列，获取所述候选文字对应的第二概率的方式可以是：

获取所述第二编码序列在位于所述待识别文字之前的各已识别文字的第二编码序列存在的情况下出现的条件概率，并将该条件概率确定为所述第二概率。

可选地，所述确定模块1020可以通过如下方式确定所述第一概率：获取字形模型根据所述图像特征输出的第三概率，所述第三概率与所述待识别文字的一个候选文字对应，并用于表示所述待识别文字的字形是该候选文字的字形的概率；获取语言模型根据位于所述待识别文字之前的至少一个已识别文字输出的第四概率，所述第四概率表示在所述至少一个已识别文字存在的情况下，所述待识别文字出现的条件概率；将所述第三概率与所述第四概率的乘积确定为所述第一概率。

可选地，所述待识别文字中的至少一个字符组沿第一方向排列，所述字符组中的至少一个字符沿第二方向排列，所述第一方向为文字书写方向，所述第一方向与所述第二方向相互垂直。

可选地，所述待识别文字为藏文文字，所述字符组中的字符为基字和元音中的一者；其中，若所述字符组包括基字和元音，则所述元音位于所述基字的所述第二方向。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参考图11，其示出了本申请实施例提供的一种电子设备1100的结构框图。该电子设备1100可以是上述的服务器或终端设备。本申请中的电子设备1100可以包括一个或多个如下部件：处理器1110、存储器1120、以及一个或多个程序，其中一个或多个程序可以被存储在存储器1120中并被配置为由一个或多个处理器1110执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器1110可以包括一个或者多个处理核。处理器1110利用各种接口和线路连接整个电子设备1100内的各个部分，通过运行或执行存储在存储器1120内的指令、程序、代码集或指令集，以及调用存储在存储器1120内的数据，执行电子设备1100的各种功能和处理数据。可选地，处理器1110可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1110可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1110中，单独通过一块通信芯片进行实现。

存储器1120可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器1120可用于存储指令、程序、代码、代码集或指令集。存储器1120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端100在使用中所创建的数据(比如待识别图像、编码信息)等。

请参考图12，其示出了本申请实施例提供的一种计算机可读存储介质1200的结构框图。该计算机可读介质1200中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质1200可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质800包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质1200具有执行上述方法中的任何方法步骤的程序代码1210的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1210可以例如以适当形式进行压缩。

此外，本申请实施例还提供一种计算机程序产品或者计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质(如，1200)中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请上述实施例提供的文字识别方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种文字识别方法，其特征在于，所述方法包括：

获取待识别图像，所述待识别图像包括待识别文字，所述待识别文字包括至少一个字符组，所述字符组包括至少一个字符；

从所述待识别图像中提取图像特征，并根据所述图像特征确定与所述待识别文字所对应候选文字的第一编码序列以及第一概率，所述第一编码序列包括所述候选文字中各字符组的编码信息，所述第一概率表示所述待识别文字是所述候选文字的概率；

根据所述候选文字的第二编码序列，获取所述候选文字对应的第二概率，所述第二编码序列包括所述候选文字中各字符的编码信息，所述第二概率表示所述候选文字是正确文字的概率；

根据所述第一概率和所述第二概率，从各所述候选文字的第一编码序列中确定所述待识别文字对应的目标编码序列，并将所述目标编码序列所表示的候选文字确定为所述待识别文字的识别结果。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一概率和所述第二概率，从各所述候选文字的第一编码序列中确定所述待识别文字对应的目标编码序列，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述候选文字的第二编码序列，获取所述候选文字对应的第二概率，包括：

获取字符编码约束模型基于所述第二编码序列输出的正确性分数；

对所述正确性分数进行归一化，并将归一化后的正确性分数确定为所述第二概率。

4.根据权利要求3所述的方法，其特征在于，所述待识别文字是元音标注文字，所述字符编码约束模型通过以下方式训练得到：

获取正样本数据和负样本数据，所述正样本数据包括正确的元音标注文字中各字符的编码信息，所述负样本数据包括错误的元音标注文字中各字符的编码信息；

获取字符编码约束模型基于所述正样本数据输出的第一得分，以及基于所述负样本数据输出的第二得分；

基于所述第一得分和所述第二得分调整所述字符编码约束模型的模型参数，使调整后的字符约束编码模型输出的第一得分和第二得分的差距增大。

5.根据权利要求1或2所述的方法，其特征在于，所述第二编码序列为所述候选文字中各字符的编码信息按照所述候选文字的书写顺序排列而成的序列，所述根据所述候选文字的第二编码序列，获取所述候选文字对应的第二概率，包括：

针对所述第二编码序列中第i个字符的编码信息，获取在所述第i个字符之前的N个字符的编码信息出现的情况下，所述第i个字符的编码信息出现的条件概率，其中，N为大于1的正整数，1≤i≤N，i为正整数；

将所述候选文字中各字符的编码信息的条件概率的乘积，确定为所述第二概率。

6.根据权利要求1或2所述的方法，其特征在于，所述根据所述候选文字的第二编码序列，获取所述候选文字对应的第二概率，包括：

7.根据权利要求1或2所述的方法，其特征在于，所述第一概率通过如下步骤获得：

获取字形模型根据所述图像特征输出的第三概率，所述第三概率与所述待识别文字的一个候选文字对应，并用于表示所述待识别文字的字形是该候选文字的字形的概率；

获取语言模型根据位于所述待识别文字之前的至少一个已识别文字输出的第四概率，所述第四概率表示在所述至少一个已识别文字存在的情况下，所述待识别文字出现的条件概率；

将所述第三概率与所述第四概率的乘积确定为所述第一概率。

8.根据权利要求1或2所述的方法，其特征在于，所述待识别文字中的至少一个字符组沿第一方向排列，所述字符组中的至少一个字符沿第二方向排列，所述第一方向为文字书写方向，所述第一方向与所述第二方向相互垂直。

9.根据权利要求8所述的方法，其特征在于，所述待识别文字为藏文文字，所述字符组中的字符为基字和元音中的一者；其中，若所述字符组包括基字和元音，则所述元音位于所述基字的所述第二方向。

10.一种文字识别装置，其特征在于，包括：

获取模块，用于获取待识别图像，所述待识别图像包括待识别文字，所述待识别文字包括至少一个字符组，所述字符组包括至少一个字符；

确定模块，用于从所述待识别图像中提取图像特征，并根据所述图像特征确定与所述待识别文字所对应候选文字的第一编码序列以及第一概率，所述第一编码序列包括所述候选文字中各字符组的编码信息，所述第一概率表示所述待识别文字是所述候选文字的概率；根据所述候选文字的第二编码序列，获取所述候选文字对应的第二概率，所述第二编码序列包括所述候选文字中各字符的编码信息，所述第二概率表示所述候选文字是正确文字的概率；

识别模块，用于根据所述第一概率和所述第二概率，从各所述候选文字的第一编码序列中确定所述待识别文字对应的目标编码序列，并将所述目标编码序列所表示的候选文字确定为所述待识别文字的识别结果。

11.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-9中任意一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-9中任意一项所述的方法。