CN109684928B

CN109684928B - 基于互联网检索的中文文档识别方法

Info

Publication number: CN109684928B
Application number: CN201811395481.5A
Authority: CN
Inventors: 王秋锋; 黄开竹
Original assignee: Xian Jiaotong Liverpool University
Current assignee: Xian Jiaotong Liverpool University
Priority date: 2018-11-22
Filing date: 2018-11-22
Publication date: 2023-04-11
Anticipated expiration: 2038-11-22
Also published as: CN109684928A

Abstract

本发明公开了一种基于互联网检索的中文文档识别方法，包括：对文档图片通过构建的候选切分网络，得到基元片段；将相邻的N个基元片段组合构成候选字符模式，将所有的候选字符模式构成候选切分网格；通过字符识别器识别候选切分网格中的候选字符模式，得到识别概率最高的M个字符类别，生成候选识别网格；对候选识别网格中的候选切分‑识别路径进行评价，得到评分最高的路径；若识别次数小于设定阈值，进行互联网检索，在互联网语料库中查找与当前文档相关的文档；从相关文档中得到词语的语言上下文概率模型，在识别过程中根据语言上下文概率模型动态更新语言模型，得到文档识别结果。充分考虑语言上下文信息，提高语言模型的得分准确性，从而提高文档识别准确率。

Description

基于互联网检索的中文文档识别方法

技术领域

本发明涉及一种中文文档识别方法，具体地涉及一种基于互联网检索的中文文档识别方法。

背景技术

近年来，文档识别可以被视为非常热的研究。目前，一些背景简单、书写规范的印刷体扫描文档识别基本已经解决，但是面对背景复杂或者书写自由的文档识别，仍然存在很大的困难。这里面一个很大的难题就是语言上下文的利用很不充分，当前文档识别方法并没有像人类一样能够充分借助上下文知识来识别文档。目前文档识别方法中一般综合考虑字符类别相似度得分(这个字像不像)以及语言上下文得分(这个字在这里符不符合语言习惯)，随着深度学习技术的发展，字符类别相似度得分得到了巨大的进步，但是语言上下文得分这一部分仍然是一个难点，这也是本发明主要针对的内容。

目前的语言上下文得分通常采用语言模型来表示，其一般包括两种：第一种是N元文法模型(N-Gram模型)，第二种是近年来兴起的基于神经网络的语言模型(比如：递归神经网络等)。这两种模型都依赖于一个大型文本语料库事先进行统计训练，得到一个静态的相邻几个词语之间的概率分布，然后在识别过程中进行使用。这种方式有两个缺陷：

(1)由于语言中单词的多义性，一个词语在不同的语境中与相邻词语的概率是不同的(比如“姚明”这个词语在体育类语境中概率会高的多)，这种多样性在目前的语言模型中很难体现出来。

(2)由于计算资源有限，目前所谓的大型文本语料库其实相对人类语言学知识库来说也是非常的渺小，因此其训练出来的统计模型往往是有偏差的。

随着互联网的普及，目前互联网上的内容则是庞大的，如果能够充分利用网络中的内容辅助文档识别，在识别过程中通过互联网检索找到相关语料，从而对语言模型进行动态调整，这样的语言上下文得分能够一定程度上克服上述两个缺陷，从而更加准确，提高文档识别性能，本发明因此而来。

发明内容

为了解决上述存在的技术问题，本发明的目的是提出了一种基于互联网检索的中文文档识别方法。在识别过程中利用互联网检索得到相关文本，动态更新语言模型，充分考虑语言上下文信息，提高语言模型的得分准确性，从而提高文档识别准确率。

本发明的技术方案是：

一种基于互联网检索的中文文档识别方法，包括以下步骤：

S01：对输入的文档图片通过构建的候选切分网络，得到连续的基元片段；

S02：将相邻的N个基元片段组合构成一个候选字符模式，将所有的候选字符模式构成一个候选切分网格；

S03：通过字符识别模型识别候选切分网格中的候选字符模式，得到识别概率最高的M个字符类别，生成候选识别网格；

S04：根据字符识别模型和语言模型对候选识别网格中的候选切分-识别路径进行评价，得到评分最高的路径；

S05：判断识别次数，若识别次数小于设定阈值，进行互联网检索，利用当前识别结果作为网络检索的查询文本，在互联网语料库中查找与当前文档相关的文档；

S06：从相关文档中得到词语的语言上下文概率模型，根据语言上下文概率模型动态更新语言模型，当判断不需要进行检索时输出文本结果。

优选的技术方案中，所述步骤S01中对输入的文档图片预先通过文本行提取算法得到文本行字符串图像。

优选的技术方案中，所述步骤S04中根据字符识别模型、语言模型和四个几何模型构建路径评价准则，所述路径评价准则为：

其中，X^s为第s条切分路径，C为识别结果字符串，字P(c_i|x_i)为字符识别模型，P(c_i|c₁ ^i-1)为语言模型，

为四个几何模型，λ_j(j＝1,2,..,5)为权重，用来平衡各模型的输出，ω_i表示该字符图像的宽度。

优选的技术方案中，所述互联网检索为利用搜索引擎进行检索。

优选的技术方案中，所述互联网检索包括以下步骤：

分别对查询文本和语料库文档进行特征提取，采用相同的特征表示；

查询文本用向量Q＝{q₁q₂…q_v}，其中V为事先准备的词汇表中词语的数目，q_i(i＝1、2…v)为第i个词的归一化比重，对语料库中的所有文档D_k用同样的方式进行向量表示；

采用cosine相似度来衡量查询文本与该文档的相关性，公式为：

得到相关性较高的前K个相关文档。

优选的技术方案中，所述步骤S06中，通过统计词语的N-Gram数值，得到一个相关N-Gram语言模型，采用该N-Gram模型和传统的语言模型进行加权组合，如下公式表示：

其中，

和

分别表示传统语言模型和检索得到的语言上下文概率模型，w₁和w₂为权重。

与现有技术相比，本发明的优点是：

1、利用互联网检索动态得到相关文档，从而可以自适应的更新当前传统语言上下文模型，符合人们对语言的认知。

2、该更新过程中并不需要对待识别有任何先验知识，比如说领域类别等，可以做到无监督的自适应。

3、由于文档识别的主要时间消耗在构建候选网格部分(也就是字符分类器的识别过程，其有大量的候选模式需要分类器进行识别输出)，而这一部分并不需要重复进行，因此本发明中设计的工作并不会给文档识别系统带来很多时间消耗。

4、本发明针对的语言上下文模型的更新，是一个比较独立的模块，可以做到即插即用的方式进行融合，因此可以应用在多个识别框架中，比如场景文档识别，甚至在语音识别中也可以推广。

附图说明

下面结合附图及实施例对本发明作进一步描述：

图1为本发明基于互联网检索的中文文档识别方法的流程图；

图2为基于互联网检索的文档识别具体示例图；

图3为本实施例的文档图片；

图4为候选切分网格示意图；

图5为候选识别网格示意图；

图6为检索结果示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

实施例：

如图1所示，一种基于互联网检索的中文文档识别方法，包括以下步骤：

(1)输入文档图片，通过文本行提取算法得到一行一行的文本字符串图像，这样做的目的是降低整个候选网格的搜索空间，加快识别速度。

(2)针对文本行图片X，通过过切分算法(联通部件分析和神经网络分类器相结合的两步切分方法)得到一系列连续的基元片段，这些基元片段绝大多数是字的一部分，或者是一个完整的字(对于极个别粘连很严重的情况会出现过切分失败，导致一个基元片段包含多个字)；通过相邻的N个基元片段组合可以构成一个候选字符模式，所有的候选字符模式就构成了一个候选切分网格，网格中的每一个候选字符模式表示这个图像块可能是一个字，对于一些图像块的几何形状明显不是一个字的将要在这里删除，以便减少后续的搜索空间，网格中每一条从起始到结束的路径构成了一条候选切分路径(一种切分方式)。

(3)针对候选切分网格中每一个候选字符模式，利用一个字符识别器进行识别，得到识别概率最高的M个字符类别，这样候选切分中所有的候选字符类别就构成了一个候选识别网格。该网格中每一条从起始到结束的路径构成了一条候选切分-识别路径，既包括了切分信息也包括了字符类别(识别)信息。

(4)针对候选识别网格，我们的目的是快速准确的找到最优路径，从而得到识别结果。这里面包含了两个问题：如何对候选路径进行评价得分，从而可以判断谁是最好的路径；如何在这个指数级增长的复杂搜索空间中快速准确的把这个评分最高的路径找出来。(a)针对路径评价问题，采用基于贝叶斯决策的最大后验概率准则，通过推导可以得到其路径评价准则为公式(1)，这里面Xs表明第s条切分路径，其中上面的识别结果字符串为C表示，对于这样一条切分-识别路径(X^s,C),我们充分考虑了字符识别模型(P(c_i|x_i)),语言模型(P(c_i|c₁ ^i-1))以及四个几何模型。这里面的权重λ_j(j＝1,2,..,5)是用来平衡各个模型的输出，需要训练得到；而字符识别器前面系数ω_i表示该字符图像的宽度，用于对整个文本行的字符数目做限制，避免评价准则偏向于字符数目少的路径。本发明重点在于语言模型这一部分，其他的模型以及相应权重学习可以参考已有发表的论文。

(b)针对快速准确的路径搜索算法，采用目前流行的精简柱搜索算法，该方法采用两步剪枝的方法，大大降低了搜索空间，同时其精细的剪枝策略也保证了搜索精度。一旦找到最优路径，可以通过回溯得到其路径上的识别结果。

(5)根据上述搜索，得到当前文本行的识别结果，然后判断是否为文档的最后一个文本行，如果不是，那么直接进行下一个文本行的识别，这里我们会将当前文本行的识别结果拼接在下一个文本行的开头；如果是最后一个文本行，那么就得到整个文档的当前识别结果。接着根据事先设置一个的循环次数T，一旦识别次数不到T，那么我们就进行互联网检索。

(6)利用当前识别结果作为网络检索的查询文本，在互联网语料库中查找与当前文档先关的文本。这里有两种方案，一是直接利用百度等已有搜索引擎在互联网上直接检索，这种方案涉及到已有搜索引擎的使用权问题；另一种方案是本身提供一个巨大的网络文本语料库，然后设计检索算法，这种方案更加灵活。对于第二种方案，分别对查询文本和语料库文档进行特征提取，两者采用相同的特征表示方法。以查询文本为例，用向量Q＝{q₁q₂…q_v}，其中V表示事先准备的词汇表中词语的数目，而q_i表示第i个词在该文档中出现的次数除以文档的总词数，因此q_i实际表示的是第i个词的归一化比重。类似的，对语料库中的所有文档都用这样的方式进行向量表示，比如第k个文档表示为D_k，接着采用cosine相似度来衡量查询文本与该文档的相关性，如公式(2)所示。通过相似度计算，我们得到相关性较高前K个互联网文档或者相似度大于某个阈值Ts的文档。

(7)针对上述得到的相关文档，通过统计词语的N-Gram数值，得到一个相关N-Gram语言模型，为了保证更好的泛化性和稳定性，采用该N-Gram模型和传统的语言模型进行加权组合，如公式(3)所示：

其中，Pn和Ps分别表示传统语言模型和检索得到的语言模型，而权重w1和w2控制着两者的重要性。

(8)将更新的语言模型代入公式(1)中进行重新搜索最优路径，进入下一个识别轮次。

以上步骤的(5)-(8)为本发明的创新之处，也是需要重点保护的地方。本发明第一次通过互联网检索得到与识别文档相关的语料文档，从而在这些相关文档中得到词语的语言上下文概率模型。由于该过程是在识别过程中得到，因此是动态的更新原始语言模型，针对不同的识别文档，其词语的语言上下文概率会自适应的更新，而传统的语言模型静态的，并没有主动更新。

下面结合具体实例进行详细说明，如图2所示。

(1)输入文档图片，这里为了简单示意，以某一个手写文本行片段为例，如图3所示。

(2)利用过切分算法，将文本行图片进行过切分得到一系列基元片段(如图4中的中间行显示)。这里的过切分算法，结合基于联通部件的过切分进行预切分，然后利用神经网络分类器进一步细切分，从而得到最终的过切分结果。得到了基元片段后，通过合并相邻的N个基元片段构成候选字符模式，这些初步的候选字符模式根据简单的几何规则将一些明显不是文字的模式删掉(比如说宽高比大于2.5)，然后根据前后位置关系将这些候选字符模式连接起来就构成了候选切分网格，比如图4中给出了结合相邻两个(N＝2)示例图，其中红色边构成了该文本行的正确切分方式。

(3)针对上述候选切分网格中的每一个候选字符模式，采用字符分类器进行识别，这里的字符分类器可以采用传统的字符分类器，也可以采用目前流行的基于卷积神经网络分类器。字符分类器在输出具体字符的同时还带有每个字符的置信度数值，根据置信度数值的高低，取最高的M个字符构成候选识别网格，如图5中给出M＝3的示例图。网格中的每一条从起始到结束的路径构成了一条候选切分-识别路径，比如图中灰色路线是该示例的正确路径，该路径上包含了正确的切分结果和识别结果(灰色字体显示)。从图中可以看出，相同的候选切分路径可以对应很多识别路径，而相同的识别结果(文本字符串)也有可能对应很多切分路径。为此，需要在网格找到正确的切分-识别路径。

(4)一旦得到候选网格，我们的目标就是在网格中快速准确的找到正确路径。为此，结合字符分类器模型、几何上下文模型以及语言模型对网格中的每一条切分-识别路径进行打分，最终找出打分最高的路径作为最终结果输出。这里的字符分类器输出采用前面构建候选识别网格中的字符识别置信度，几何上下文模型则采用了四个单独的分类器模型给出，包括一元与类别无关、一元与类别有关、二元与类别无关和二元与类别有关，这些模型的使用可以根据实际情况进行选择，比如说考虑精度和时间的折中，模型的训练都是在事先的手写数据库中得到(如果是场景文档识别，那么就利用相应的样本训练分类器)。语言模型则使用简单的N-gram模型或者基于神经网络的语言模型，本示例中采用基于单字的Tri-Gram模型(三元模型)。搜索算法采用两步剪枝的精简柱搜索算法，通过搜索得到当前路径评价准则下的最优路径，接着通过路径回溯，得到当前识别结果。

(5)通过上述搜索得到的识别结果，本示例为“吃箥箩有助消化”，其中“箥箩”两字没有识别正确，如图5中的蓝色框字体。当前示例因为只有一行，所以也就是当前文档的最后一行，因此直接判断是否需要进行互联网检索模块，本示例中采用了循环2次(T＝2)，也就是检索一次后就停止。

(6)根据识别结果“吃箥箩有助消化”进行检索，本示例采用互联网搜索引擎(百度为例)，得到图6所示结果，从检索结果可以看出，返回的网页结果中有大量的词语(“助消化”)与查询文本进行匹配，而其差异的部分正是当前识别结果的错误部分。本示例采用一篇检索结果去构建相关文档集。

(7)根据检索得到的相关文档集(如图6所示)，我们统计该文档中的字词频率，得到相关文档集的N-gram模型。本示例采用单字三元模型(Tri-Gram model)，从图3中可以看出三元组“吃菠萝”，“菠萝有”，“助消化”等概率都会提高，最终使得其候选结果的概率Prob(吃菠萝有助消化)将大大提高。

(8)将更新的语言模型代入路径评价准则中，从而重新在候选网格中搜索最优路径，由于概率Prob(吃菠萝有助消化)得到了大大提高，因此该候选路径的得分将超过第一次的识别结果(吃箥箩有助消化)，从而得到正确的识别结果，如图5中灰色路径所示。

由于该示例采用迭代2次结束，因此该轮识别结果将作为最终结果输出。

上述步骤(5)-(8)为本发明的重点部分，该示例可以用图2很好的表示，图2上半部分(图中水平分界线)框内为系统流程图，包括具体的中间环节输入和输出；下面部分为具体结果图，包括输入，中间结果和输出结果。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。