CN107004140B

CN107004140B - 文本识别方法和计算机程序产品

Info

Publication number: CN107004140B
Application number: CN201580066282.8A
Authority: CN
Inventors: 韦尔夫·伍兹里希
Original assignee: Planet A1 GmbH
Current assignee: Planet A1 GmbH
Priority date: 2014-12-05
Filing date: 2015-12-02
Publication date: 2021-01-12
Anticipated expiration: 2035-12-02
Also published as: EP3029607A1; CN107004140A; US20170124435A1; AU2015357110B2; MX2017007035A; WO2016087519A1; US10133965B2; CA2969593A1; AU2015357110A1; CA2969593C

Abstract

本发明涉及一种文本识别方法，其中所述方法由计算设备的处理器执行，并且包括以下步骤：提供置信矩阵，其中所述置信矩阵是输入序列的数字表示；输入正则表达式；搜索输入序列的与正则表达式匹配的符号序列，其中，处理器使用置信矩阵的置信度值来计算得分值，其中所述得分值是输入序列的符号序列与正则表达式之间的匹配品质的指示。此外，本发明涉及一种计算机程序产品，该计算机程序产品在由计算设备的处理器执行时，执行该方法。

Description

文本识别方法和计算机程序产品

技术领域

本公开涉及一种文本识别方法和计算机程序产品。

背景技术

从历史手稿或其它文件类型以及从语音文本序列进行计算机辅助信息检索仍然是非常困难和受限制的。

基于样本序列的直接搜索是非常慢的过程，并且不能推广到其它书写风格或语音中的其它口音。基于预先转录的计算机代码(例如ASCII)的搜索是快速的，但是其需要昂贵(时间和人力资源)的并且容易出错的手动转录过程。

在文献A.Graves,et al.,“A Novel Connectionist System for UnconstrainedHandwriting Recognition(一种用于无约束手写识别的新型联结系统)”，IEEETransactions of pattern analysis and machine intelligence(IEEE模式分析与机器智能汇刊)，vol.31,no.5,May 2009(2009年第31卷第5期)中，公开了一种用于识别无约束手写文本的方法。该方法基于设计用于序列标注任务的递归神经网络，对于该序列标注任务，数据难以分割并包含远程双向相互依赖(interdependent)。

文献US 2009/0077053A1公开了一种用于搜索一组墨水数据(ink data)中的术语的方法。该方法包括以至少一个分割图的形式将墨水数据转换成中间格式的中间数据的操作。分割图的每个节点包括至少一个墨水段，该墨水段与对应于至少一个识别单元的假设相关联。该方法还包括用于对中间数据执行的、搜索术语的操作。

发明内容

目的是提供改进的文本识别技术。

提供了文本识别方法和计算机程序产品。其它实施例是从属权利要求的主题。

一方面，提供了一种文本识别方法。该方法由计算设备的处理器执行，并且包括以下步骤：提供置信矩阵，其中所述置信矩阵是输入序列的数字表示；输入正则表达式；搜索所述输入序列的与所述正则表达式相匹配的符号序列，其中，所述处理器使用所述置信矩阵的置信度值来计算得分值，其中所述得分值是所述输入序列的符号序列与所述正则表达式之间的匹配品质的指示。所述搜索的步骤是对所述置信矩阵执行的。换句话说，正则表达式可直接应用于置信矩阵，用于解码符号序列。

另一方面，公开了一种计算机程序产品，其中所述计算机程序产品在由计算设备的处理器执行时，适于执行所述方法的步骤。该计算机程序产品可存储在非暂时性介质上。

置信矩阵(也称为ConfMat)是任意长度的二维矩阵，其在横轴(x轴或t轴)的每个位置处包含N维向量。每个向量元素对应于某个符号通道。例如，在数字0到9被编码的情况下，需要N＝10个符号通道。可以引入附加通道，NaC通道(非字符通道)。NaC通道表示所有其它编码符号通道的补充(例如，未知符号或符号转换)。矩阵内的每个横向位置对应于输入序列的某个位置。这可以是1：1映射或1：S映射，其中矩阵列x对应于输入序列位置x*S。S称为子采样因子。

置信度值是实数值，该实数值与输入序列中相应位置处的某个符号的置信度或甚至概率相关。置信度值越高，分类器(例如，分类器模块)越高或越多地确定在特定序列位置处“看到”特定符号。置信度值可为伪概率。这种概率估计允许清洗(clean)数学处理。此外，可使用其它置信度值。

正则表达式(也称为RegEx)是字符序列，描述一组字符串，使用这些字符串形成搜索模式，例如用于字符串匹配或“查找和替换”操作。正则表达式中的每个字符都可要么被理解为具有特定意义的元字符，要么被理解为具有其字面意义的正规字符。模式序列本身是一表达式，该表达式是语言中的语句，该语句专门设计用于以最简洁灵活的方式表示规定对象，以指导一般文本文件、特定文本形式或随机输入字符串的文本处理的自动化。

输入序列可以以书面文本或语音文本的形式提供。提供置信矩阵的步骤可包括将书面文本或语音文本转换成置信矩阵，例如使用分类器模块来转换。可通过扫描文档来提供书面文本，以便提供文本的数字版本。该文档可包括手写文本。语音文本可作为音频文件提供。

输入序列可包括一个或多个符号。数个符号可形成符号序列。该符号可包括字母(例如A到Z、a到z)、数字(例如0到9)、标点符号(例如“.”，“？”或“-”)、控制符号(例如“@”)和空格。

正则表达式可包括一个或多个嵌入式词典。嵌入式词典提供一个或多个术语，并可被视作占位符。嵌入式词典可包含任何字符串。例如，词典可包括城市列表。可通过词典将城市包含在正则表达式中。

正则表达式可包括正则表达式组(也称为RegEx组)。正则表达式可定义正则表达式中用于在置信矩阵上解析的标记区。RegEx组是左右括号之间的字符子序列。RegEx组可被标记，以便可在工作流程中通过RegEx组的标识访问子序列。正则表达式可包括数个可被标记的RegEx组。例如，正则表达式组可定义为RegEx＝"(？<HNr>[0-9]{1,4}[A-Za-z]？)？(？<street>[[:dictStreet:]])"。诸如“14A HamburgerStraβe”的地址可在地址部分之间没有间隙地手写(如此手写“14AHamburgerStraβe”)。使用正则表达式，该地址将被正确识别为HNr.(门牌号)：14A和街道名称：Hamburger Straβe。将不会错误识别为HNr.：14和街道名称“AHamburger Straβe”。地址在没有正则表达式组的情况下不可能被解析。为了分析和标记地址的元素，包括词典的正则表达式是必要的。这允许直接搜索给定置信矩阵的“最佳”符号序列。

置信矩阵可以是结构化或半结构化输入序列的数字表示。该方法还可包括以下步骤：使用正则表达式解析结构化或半结构化输入序列。RegEx组是用于结构化及半结构化文本的强大解析工具。该方法可为所有定义的RegEx组提供相应的子序列，便于将输入序列智能解析成相关的子组成部分。该方法还可包括以下步骤：标记输入序列，其中输入序列的每个元素分配有得分值。

结构化数据具有唯一的数据模型。结构化数据的单个元素可被直接标记。例如，在一表格中，每列都有其标识。可使用语法和词汇使半结构数据进入结构化形式。在构造半结构化数据之后，可对单个元素进行标记。

数据是否是结构化、半结构化甚至非结构化的都不会影响置信矩阵。然而，它对使用正则表达式解码置信矩阵，即评估置信矩阵有影响。数据的结构可包括用于解码的所谓约束。换言之，只可能但没有意义的标识是“允许的”。这些解码条件使用正则表达式来表示。因为识别元素的类型和数量不是已知的，所以正则表达式对于解码半结构化数据是必要的。

在RegEx表示特定单词的情况下，RegEx可以是简单的字符串；或者，在即将解析具有复杂模式的序列的情况下(例如对于邮政地址、电子邮件地址、日期和时间等)，RegEx可以是包括一个或多个嵌入式词典和/或RegEx组的复杂表达式。有效匹配可作为按得分排序的列表提供。RegEx组可表示子序列，并因此支持非常复杂的解析方案。RegEx组可用于复制与RegEx组相关联的输入序列的内容。例如，RegEx组可包括五位数字(例如邮政编码)。在输入序列中查找到的五位数字的所有示例都可通过RegEx组复制。

该方法还可包括，将输入序列转录成符号序列或字符编码方案。例如，输入序列可以以ASCII文本(ASCII-美国信息交换标准代码)进行转录。可上下文相关地执行转录和/或基于一个或多个词典执行转录。

该方法非常快速并且是容错的。它不需要对内容进行任何手动转录。它使用正则表达式实现非常复杂的搜索方法，该正则表达式例如包括嵌入式词典和RegEx组，该RegEx组例如为电子邮件地址、电话号码、无线电通信中的清除限制等。解析即将字符序列分割成相关组成部分，结构化和半结构化书面及语音输入序列的解析可应用于例如表单、地址、飞行员和控制器之间的无线电通信等。在许多情况下，对整个序列的相关子组成部分(例如整个文本中的电子邮件地址)的恰当识别只能基于识别结果来进行(需要知道符号序列以检测电子邮件地址)。但与约束解码(例如当已经知道该序列应该是电子邮件地址时)相比，在没有好的约束的情况下，将序列解码成符号通常出现错误(“自由识别”)。使用包括RegEx组的正则表达式，结构化和半结构化序列可被解析成相关子组成部分(例如，地址可被解析成邮政编码、城市、街道、门牌号等)。

正则表达式可被转换成由有限状态自动机表示的基于图的模型。有限状态自动机是通过状态和转换来描述系统行为的图模型。有限状态自动机与正则表达式之间存在对偶性(duality)。对于每个有限状态自动机，存在一正则表达式，反之亦然。例如，正则表达式可被转换成非确定性有限状态自动机，例如通过使用汤普森(Thompson)算法来转换。替代地，可应用有限状态自动机的确定性模型。还存在将正则表达式转换成有限状态自动机的其它适当算法。有限状态自动机可被实现为有限状态转换器。有限状态转换器可包括状态的有限集合、有限输入字母表、有限输出字母表、作为状态集合的子集的初始状态集合、作为状态集合的另一子集的最终状态集合以及转换关系。有限状态可被加权。这可解释成覆盖整个过程的加权自动机，其中通过最可能的输出序列的概率，使用加权自动机在时间t的那条弧线对每个时间点t的每个转换进行加权。

基于图的模型可通过动态规划来实现。动态规划是一种通过将复杂问题分解成简单的子问题来解决复杂问题的方法。图模型可定义所有允许的转换。例如，基于维特比原理，可沿着图模型的边计算所有具有最高概率的路径。

置信矩阵可存储在计算设备的存储器上。正则表达式可通过输入设备输入，输入设备例如为键盘、鼠标或触敏屏。替代地，正则表达式可通过从另一计算设备接收正则表达式而被输入，例如，经由该计算设备和另一计算设备之间的有线或无线连接来从另一计算设备接收。

该方法可包括以下步骤：输出得分值。该得分值可输出至输出设备，该输出设备例如为显示设备或打印设备。

本公开涉及计算设备的使用。计算设备可包括配置为执行指令的一个或多个处理器。此外，计算设备可包括易失性存储器(例如RAM-随机存取存储器)和/或非易失性存储器(例如，磁性硬盘、闪存或固态设备)形式的存储器。计算设备还可包括用于与其它(计算)设备连接和/或通信的装置，该连接和/通信例如通过有线连接(例如LAN—局域网、火线(IEEE1394)和/或USB—通用串行总线)，或通过无线连接(例如WLAN—无线局域网、蓝牙和/或WiMAX—全球微波互联接入)进行。计算设备可包括用于录入用户输入的设备，例如键盘、鼠标和/或触摸板。计算设备可包括显示设备或者可连接到显示设备。显示设备可以是触敏显示设备(例如触摸屏)。

附图说明

下文中，参照附图公开了示例性实施例。

图1示出了置信矩阵的示例。

图2示出了文本识别方法的流程图。

图3示出了文本识别方法的进一步步骤。

图4示出了图模型表示的示例。

图5示出了创建置信矩阵的流程图。

具体实施方式

图1示出了简短文字序列的置信矩阵(ConfMat)的示例，该简短文字序列在该ConfMat的下面示出。ConfMat包含数字通道(0-9)和NaC通道。某位置处的底色(field)越深，某一符号的置信度越高(黑色等于1.0，白色等于0.0)。在其它实施例中，置信矩阵可另外包含一组字母、标点符号和/或控制符号，一组字母例如为A到Z以及a到z。

在图2中，示出了文本识别的流程图。在步骤1中，提供输入序列的置信矩阵。置信矩阵是输入序列的数字表示。输入序列可以是书面文本或语音文本。在步骤2中，录入正则表达式的输入。在步骤3中，在输入序列中搜索与该正则表达式相匹配的符号序列。对于该搜索，使用ConfMat的置信度值计算得分值(步骤4)。

图3示出了识别文本的示例性实施例。将输入序列(例如书面文本或语音文本)转换成置信矩阵14。下面参照图5提供转换输入序列的细节。置信矩阵包括符号表(例如拉丁文2)的所有符号出现在输入序列的相应位置处的所有置信度。可在给定的ConfMat上执行任意正则表达式的匹配操作和搜索操作。该操作的结果是，得到最佳匹配结果的匹配得分(例如，匹配概率)。此外，可提供包含在RegEx中的所有经标记的RegEx组的结果。例如，可以输出与包括五位数字(例如邮政编码)的RegEx组相匹配的所有结果。所有结果可作为按得分排序的结果列表提供。得分可以是置信度(例如伪概率)或损失(cost)(如负对数概率)。在匹配过程中可以根据需要使用许多嵌入式词典。这使得能够在RegEx中的某些位置处使用特定的词汇。

对于得分，可以使用基于负对数概率的特定损失函数，但也可以使用其它得分或损失函数。

在步骤10中，输入正则表达式的列表作为搜索表达式。该列表可包括一个或多个嵌入式词典和/或RegEx组。在步骤11中，为正则表达式的列表生成基于图的模型，例如使用汤普森算法来生成。这产生包括有限状态自动机的基于图的模型(步骤12)，该有限状态自动机例如为有限状态转换器。在动态规划模块中输入基于图的模型和置信矩阵13。在步骤14中，使用例如维特比算法或CTC算法(CTC-连接时序分类)，确定置信矩阵的元素与正则表达式之间的匹配。在步骤15中将该结果作为列表输出。可提供置信度值。该列表可按最高置信度排序。此外，可包括RegEx组，用于解析。

待优化的值：

在一实施例中，对于给定ConfMat和给定正则表达式r，提供具有最高得分(概率)的序列：

其中，S(r)是所有序列的集合，这些序列由正则表达式r描述，t指ConfMat中的列。根据分类器模块，S(r)可包含特定路径处理，例如，在CTC训练系统的情况下，S(r)可包含两个符号中可选的NaC或者符号的连续重复输出。使用对数概率c_a，t＝ln p(a|y_t)作为得分值，最终序列

可计算如下：

换言之，

是具有最高概率的序列。注意，假设不同位置处的概率是独立的。

构建图模型：

有许多适当的算法将正则表达式转换成有限状态自动机。汤普森算法可用于构建非确定性自动机。由于计算损失较低并因此具有更快速度，因此非确定性自动机优选先于确定性模型而与维特比近似相结合。

动态规划：

图模型定义所有允许的转换。基于维特比原理，将沿着图模型的边计算具有最高概率的所有路径。与许多单个序列的计算相比，高性能权衡基于以下事实：在每个位置处只有少数路径必须被评估并被存储–不依赖于用于该特定转换的可能符号的数量。

通过额外的输出带来扩展有限状态自动机，产生有限状态转换器。因此，如果输出带提供到达特定位置的最佳路径的概率，则有限状态转换器可对该过程建模。

上述方法提供以下优点：

-文本序列内容(例如文字和语音)的全自动获取，

-因为所有信息都存储在ConfMat中，因此不存在转录错误，

-所有请求(搜索和检索)的快速处理，

-复杂请求是可能的(例如通过使用正则表达式)，

-用于内容相关解析的复杂技术(例如通过使用RegEx组)，

-因嵌入式词典的使用(约束识别)而鲁棒识别(甚至转录)，嵌入式词典例如为地址中的邮政编码、城市、街道或飞行员的无线电通信。

在下文中，公开了执行该方法的示例。为了构建图模型，使用了汤普森算法。正则表达式是该算法的输入，该算法提供图作为输出。图的边定义了所有允许的符号转换。在任何节点之后插入用于“查看”NaC的可选节点。

图4示出了RegEx的示例：[0-9]{5}表示5位数字(例如邮政编码)。接受状态由双圈标记。

动态规划模块现基于图和给定ConfMat沿着边计算概率。对于图中的每个边以及每个序列位置，计算最大可能路径的概率。具有最大概率的序列使在位置t处达到接受状态的所有序列概率最大化。

基于具有先前边最高概率的序列乘以具有最高得分值(符号在时间t的最大输出概率)的ConfMat输入，计算对特定边具有最高概率的序列。因此，我们必须考虑到，除非使用相同的边时，否则我们构造不出在时间t-1和时间t输出相同标识的任何路径。由于相同的原因，序列可扩展符号在几个时间步长上的输出并保持如下所示的相同弧度。

对于图1所示的示例性ConfMat，以下表格示出具有最高概率路径的结果：

时间	1	2	3	4	5	6	7	8	9	10
											状态	1	1	2	4	5	6	8	10	11	11
概率	1.0	0.8	0.48	0.432	0.347	0.31	0.249	0.2	0.16	0.16

例如，时间2时状态1的概率作为NaC(边(0，1))活动(active)两个时间步长的概率。在这种情况下，系统使用相同的边，并因此必须输出相同的标识。

时间t时边(2，4)的最大概率计算为：

其中WK_(i，j)(t)等于在时间t时经由(i，j)的最可能路径的概率，WK^a _(i，j)(t)等于时间t时经由(i，j)最后输出符号a的最可能路径的概率，l_(i，j)(t)表示在时间t时经由(i，j)最可能输出的标识。仅计算最高概率的路径不足以达到证据最优(见上文)。在每个时间步长处也必须考虑下一个可能路径的概率WK^a _(i，j)(t)，虽然实践中限制到最好两个路径可能是合理近似。

在下文中，提供复杂正则表达式的示例，并讨论该正则表达式的特征：

该RegEx包含7组括号，或者换言之，它由7对括号组成，其中3对括号被标记。标记组的语法是：(？<名称>...)。

名为glabel1的组描述了由大小写字母和德语字母表中的特殊字符构成的字符串，由

表示，用“+”表示该字符串可出现多次。在想要限制重复次数的情况下，例如可用[K-S]{3,5}表示，这表示K和S之间的3到5个字符的字符串。

组glabel2包含ID为dictID1的词典。词典是预先提供给解码器的词的预定义列表。

任意字符可由字符“.”表示，在重复任意次数的情况下，“.”后跟“*”，“.*”描述了完全任意的字符串(也是空字符串)。

图5示出了创建置信矩阵的工作流程。输入序列20(例如书面文本或语音文本)将由序列处理模块21转换成置信向量序列(例如包含伪概率)。每个矩阵列(置信向量)包含输入序列特定位置的所有符号通道(以及必要时的附加NaC通道)的置信度。如果特定位置处出现未知符号或者符号之间的转换，则特定NaC通道一直有效(active)。

ConfMat 22为该全自动编码过程的结果。ConfMat非常简洁(与输入序列相比达到50倍)，并可作为输入序列内容的抽象表示来存储。

为了训练目的，可提供训练对象23，例如输入序列的字符串表示。训练对象23可被发送到训练模块24，该训练模块24可与序列处理模块21交互。

可通过以下步骤创建置信矩阵：通过对原始序列进行预处理和归一化(例如均值方差归一化、Gabor滤波)构建输入序列。这产生二维输入矩阵。利用卷积神经网络(CNN)对输入序列进行处理，该卷积神经网络(CNN)对于每个相应符号通道均包含一个特定输出神经元。CNN的输出将在y维度(正交于序列方向)上被折叠(通过对相同通道的所有值求和)，该N个通道神经元是输出的“新的”y维度。通过softmax激活函数，某个序列位置的输出神经元的所有的激活值将被归一化。该结果是ConfMat。

在训练模式中，可执行以下附加步骤：通过CTC算法(连接时序分类)，基于给定序列的期望输出的字符串表示来计算误差梯度；基于计算出的误差梯度，使用随机梯度下降算法来训练CNN。

上述实施方式是从数字序列创建ConfMat的一具体实施例。还存在能够执行类似步骤的其它适当分类器(例如，支持向量机、递归神经网络(RNN))，但是它们都需要执行所描述的操作以将特征向量的数字输入序列映射到置信度向量的相应输出序列。

说明书、权利要求书和附图中所公开的特征可单独地或者以彼此任何组合的方式相关联，以实现实施例。

Claims

1.一种文本识别方法，其中所述方法由计算设备的处理器执行，并且包括以下步骤：

提供置信矩阵，其中所述置信矩阵是输入序列的数字表示，其中，所述置信矩阵为二维矩阵，其中，所述置信矩阵内的每个横向位置对应于所述输入序列的某个位置，

所述置信矩阵内的每个竖直位置对应于某个符号通道，以及

所述置信矩阵的每个元素为置信度值，所述置信度值与所述输入序列中相应位置处的某个符号的置信度相关，

输入正则表达式，和

搜索所述输入序列的与所述正则表达式相匹配的符号序列，其中，所述处理器使用所述置信矩阵的置信度值来计算得分值，且所述得分值是所述输入序列的符号序列与所述正则表达式之间的匹配品质的指示，其中

所述正则表达式被转换成由非确定性有限状态自动机表示的基于图的模型，

其中

所述基于图的模型是通过状态和转换来描述所述正则表达式的行为的图模型，和

在所述非确定性有限状态自动机和所述正则表达式之间存在对偶性，对于每个正则表达式，存在一非确定性有限状态自动机，反之亦然，以及

所述搜索的步骤是使用动态规划对所述置信矩阵执行的，所述动态规划包括除了具有最大概率的路径外，基于所述置信矩阵中的所述置信度值，在每个时间处，确定所述非确定性有限状态自动机中预定数量的下一个可能路径的概率。

2.根据权利要求1所述的方法，其中，提供所述置信矩阵的步骤包括将书面文本或语音文本转换成所述置信矩阵。

3.根据权利要求1或2所述的方法，其中，所述正则表达式包括正则表达式组，其中，所述正则表达式定义所述正则表达式中用于在置信矩阵上解析的标记区。

4.根据权利要求1或2所述的方法，其中，所述正则表达式包括嵌入式词典。

5.根据权利要求1或2所述的方法，还包括，将所述输入序列转录成符号序列。

6.根据权利要求1或2所述的方法，其中，所述置信矩阵是结构化或半结构化输入序列的数字表示，且其中所述方法还包括以下步骤：使用所述正则表达式解析并标记所述结构化或半结构化输入序列，其中，所述结构化或半结构化输入序列的每个元素分配有得分值。

7.根据权利要求1或2所述的方法，还包括以下步骤：输出所述得分值。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序在由计算设备的处理器执行时，执行根据前述权利要求中任一项所述的方法。