CN105046289B

CN105046289B - 一种文字域类型识别方法和文字域类型识别系统

Info

Publication number: CN105046289B
Application number: CN201510484879.6A
Authority: CN
Inventors: 朱睿; 张弛; 吴家楠; 周舒畅; 印奇
Original assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Priority date: 2015-08-07
Filing date: 2015-08-07
Publication date: 2019-04-26
Anticipated expiration: 2035-08-07
Also published as: CN105046289A

Abstract

本发明提供了一种文字域类型识别方法和文字域类型识别系统。所述方法包括：步骤S101：载入文字数据的语言模型，其中所述语言模型为利用所述文字数据基于神经网络训练得到的文字域分类器；以及步骤S102：通过所述语言模型确定新输入的文字数据的文字域类型。该方法可以更加精确地进行文字域类型识别，以提供最优的识别性能。该文字域类型识别系统同样具有上述优点。

Description

一种文字域类型识别方法和文字域类型识别系统

技术领域

本发明涉及文字域识别领域，具体而言涉及一种文字域类型识别方法和文字域类型识别系统。

背景技术

当今社会，各种各样的文档和人们的工作生活是分不开的。一般较为常见的文档上有许多文字域，如身份证上会有姓名，出生日期等，或者合同上会有标题、条款和签名。在获取这些文字域的文字信息后，若有一种高效的方法可以将这些文字信息各属于哪一类文字域(姓名、出生日期、标题...)区分出来，便可以得到一些具体的用途。如可以反过来校验获取这些文字信息的OCR(Optical Character Recognition，光学字符识别)算法，或者将散乱的文字内容，通过文字域的识别，再次组合成一个个完整的证件。

经过调研发现，现在市面上具有类似功能的系统种类并不很多，并且其中绝大部分的识别方法都是很简陋的且难以推广的，比如针对身份证，就单纯的设置一些规则来识别，出现了五十六个民族里面的字就判别为“民族”域，出现了百家姓就判别为“姓名”域，出现了数字就判别为“出生日期”域等。然而，这些识别方法是非常容易出错的，如对于“张家口”就很难将其正确识别为“地址”域，而会错误识别成为“姓名”域。此外，当文本信息有一些无规则的扰动(比如录入错误，或者是识别的过程出现问题)时，以上述方法将不再有效。

发明内容

针对现有技术的不足，本发明提出一种文字域类型识别方法和文字域类型识别系统，可以显著提升文字域类型识别的精确度和性能，同时具有速度快和相当的灵活性。

本发明的一个实施例提供一种文字域类型识别方法，其特征在于，所述方法包括：步骤S101：载入文字数据的语言模型，其中所述语言模型为利用所述文字数据基于神经网络训练得到的文字域类型；以及步骤S102：通过所述语言模型确定新输入的文字数据的文字域类型。

示例性地，所述神经网络是长短期记忆人工神经网络LSTM。

示例性地，所述步骤S102包括：通过所述语言模型计算新输入的文字数据中每个短词或字的置信程度，将整个所述新输入的文字数据的置信程度归一化为所述新输入的文字数据为特定文字域类型的概率，并将概率最高的类型确定为所述新输入的文字数据的文字域类型。

示例性地，在所述步骤S102之后还包括步骤S103：读入所述新输入的文字数据，将所述文字数据编码以作为待判定的数据，判断是否进行修改，以及如果是则返回修改后的文字数据。

示例性地，在步骤S102中，在确定新输入的文字数据的文字域类型之前，对所述新输入的文字数据进行编码，以便于所述语言模型的处理。

本发明的另一实施例提供一种文字域类型识别系统，其特征在于，所述系统包括：文字域识别模块，用于载入文字数据的语言模型，其中所述语言模型为利用所述文字数据基于神经网络训练得到的文字域分类器；以及通过所述语言模型确定新输入的文字数据的文字域类型。

示例性地，所述神经网络是长短期记忆人工神经网络LSTM。

示例性地，所述文字域识别模块还用于通过所述语言模型计算新输入的文字数据中每个短词或字的置信程度，将整个所述新输入的文字数据的置信程度归一化为所述新输入的文字数据为特定文字域类型的概率，并将概率最高的类型确定为所述新输入的文字数据的文字域类型。

示例性地，所述系统还包括文字域修正模块，用于读入所述新输入的文字数据，将所述文字数据编码以作为待判定的数据，判断是否进行修改，以及如果是则返回修改后的文字数据。

示例性地，在所述文字域识别模块确定新输入的文字数据的文字域类型之前，对所述新输入的文字数据进行编码，以便于所述语言模型的处理。

本发明的文字域识别方法，由于通过基于神经网络训练得到的语言模型对新输入的文字数据为特定类型的概率进行计算，因而可以保证更高的文字域识别精确度和最优的文字域识别性能。本发明的文字域识别系统，同样具有上述优点。

附图说明

本发明的下列附图在此作为本发明的一部分用于理解本发明。附图中示出了本发明的实施例及其描述，用来解释本发明的原理。

附图中：

图1为本发明实施例一的文字域类型识别方法的一种流程图；以及

图2为本发明实施例二的文字域类型识别方法的一种流程图。

具体实施方式

在下文的描述中，给出了大量具体的细节以便提供对本发明更为彻底的理解。然而，对于本领域技术人员而言显而易见的是，本发明可以无需一个或多个这些细节而得以实施。在其他的例子中，为了避免与本发明发生混淆，对于本领域公知的一些技术特征未进行描述。

应当理解的是，本发明能够以不同形式实施，而不应当解释为局限于这里提出的实施例。相反地，提供这些实施例将使公开彻底和完全，并且将本发明的范围完全地传递给本领域技术人员。在附图中，为了清楚，层和区的尺寸以及相对尺寸可能被夸大。自始至终相同附图标记表示相同的元件。

在此使用的术语的目的仅在于描述具体实施例并且不作为本发明的限制。在此使用时，单数形式的“一”、“一个”和“所述/该”也意图包括复数形式，除非上下文清楚指出另外的方式。还应明白术语“组成”和/或“包括”，当在该说明书中使用时，确定所述特征、整数、步骤、操作、元件和/或部件的存在，但不排除一个或更多其它的特征、整数、步骤、操作、元件、部件和/或组的存在或添加。在此使用时，术语“和/或”包括相关所列项目的任何及所有组合。

为了彻底理解本发明，将在下列的描述中提出详细的步骤以及详细的结构，以便阐释本发明的技术方案。本发明的较佳实施例详细描述如下，然而除了这些详细描述外，本发明还可以具有其他实施方式。

本发明的一个实施例提供一种文字域识别方法。该方法可以显著提高文字域识别的精确度以及文字域识别性能。

实施例一

下面，参照图1来具体描述本发明的一个实施例的一种文字域类型识别方法。其中，图1为本发明实施例一的文字域类型识别方法的一种流程图。

本发明实施例的作者分析方法，包括如下步骤：

步骤S101：载入文字数据的语言模型，其中所述语言模型为利用所述文字数据基于神经网络训练得到的文字域分类器。

示例性地，语言模型的训练可以包括如下步骤：语言模型学习模块读入大量带标注的文字信息数据，将其处理成为便于处理的编码格式；通过神经网络算法训练出一个相应的语言模型(即文字域分类器)并存储。语言模型的训练可以通过语言模型学习模块实现。

步骤S102：通过所述语言模型确定新输入的文字数据的文字域类型。示例性地，本步骤包括：文字域识别模块载入相应的训练好的语言模型；文字域识别模块将编码好的文字信息数据一批批的输入给语言模型，并在语言模型的输出端得到这些文字信息的分类结果(即文字域类型)，返回输出给用户。示例性地，本步骤还可以包括：文字域识别模块在读入待分类的文字信息数据后，将其转换成为便于处理的编码格式，以便于所述语言模型的处理。

示例性地，所述神经网络是长短期记忆人工神经网络LSTM(Long Short TermMemory)。

示例性地，在步骤S101中，文字域所属类型的属性是预先定义的。

本发明实施例的方法，由于通过基于神经网络训练得到的语言模型对新输入的文字数据为特定类型的概率进行计算，因而可以保证更高的文字域识别精确度和最优的文字域识别性能。进一步地，由于引入了LSTM神经网络，因而可以进一步保证更高的文字域识别精确度和最优的文字域识别性能。本方法优势不止在于一次学习完成之后的每一次识别的速度都很快，还具有相当的灵活性。用户可以根据自己的需求自己定义训练数据中包括的各项文字域的属性，基于此训练出的语言模型便具有判别出相应文字域的能力。

该实施例给出了一个不含有文字域修正模块的基于语言模型的文本文字域识别系统的简易实施例。该实施例主要包括语言模型学习模块和文字域识别模块两部分。语言模型学习模块从指定数据文件中读入大量带文字域信息标注的文字数据，并通过LSTM训练学习出一个语言模型，保存在指定文件目录中。文字域识别模块则可以在读入一个语言模型之后，为一些文字信息提供相应的文字域分类(或者无法识别将其分类为“未知”域)。

实施例二

下面，参照图2来具体描述本发明的一个实施例的一种文字域类型识别方法。其中，图2为本发明实施例二的文字域类型识别方法的流程图。

本发明实施例的文字域类型识别方法，包括如下步骤：步骤S101和S102与实施例一相同，在所述步骤S102之后还包括步骤S103：读入所述新输入的文字数据，将所述文字数据编码以作为待判定的数据，判断是否进行修改，以及如果是则返回修改后的文字数据。示例性地，文字域修正模块读入被分好类的文字信息及其分类，将其处理成为便于处理的编码格式。示例性地，文字域修正模块载入相应的训练好的语言模型。示例性地，文字域修正模块将编码好的文字信息数据一批批输给语言模型，并在语言模型的输出端得到这些文字信息的每个字词，在当前分类结果下的置信程度，并根据一些参数决定是否修改与如何修改。示例性地，该步骤还包括将修改后的文字信息返回给用户。

该实施例给出了一个包含文字域修正模块的基于语言模型的文本文字域识别系统的完整实施例。该实施例在实施例一的基础上增加了文字域修正模块。该模块通过根据一个指定的语言模型，将输入的已经按照文字域分好类的文字信息中可能出现的错误(漏字、错字、多字等)排除。

本发明的另一实施例提供一种文字域类型识别系统，该文字域类型识别系统，其特征在于，所述系统包括：文字域识别模块，用于载入文字数据的语言模型，其中所述语言模型为利用所述文字数据基于神经网络训练得到；以及通过所述语言模型计算新输入的文字数据为特定类型的概率。其中，所述语言模块可以为通过语言模型学习模块训练得到。

示例性地，所述神经网络是长短期记忆人工神经网络LSTM。

示例性地，在所述文字域识别模块中，文字域所属类型的属性是预先定义的。

在本发明各实施例的文字域识别方法中，可以不包括语言模型的训练步骤，而采用预先训练好的语言模型。在本发明各实施例的文字域类型识别系统中，也可以不包括语言模型学习模块，而是采用预先训练好的语言模型。

综上所述，为了能够更好的进行文本文字域识别，本发明提供了一种基于语言模型的文本文字域识别与分类系统。该系统包括一个语言模型学习模块、一个文字域识别模块与一个文字域修正模块。语言模型学习模块针对大量的、已标注的某一类文本文字数据(如某一类合同，或身份证、房产证)，通过LSTM等算法的训练学习，得出一个该类型文本各文字域的语言模型并保存在硬盘中。文字域识别模块则载入一个指定的语言模型，在分析该语言模型后，对用户给出的散乱的每一条文字信息给出一个其文字域的判别，如姓名，性别或未知域等。文字域修正模块则根据文字域识别模块识别出的结果，对输入文字信息中可能出现的错误进行修正，如修正住址中的错别字和补全内容等。

在一个具体示例中，该文本文字域识别系统可以不包括文字域修正模块，而在文字域识别模块采用利用特定类型的文字数据基于神经网络事先训练好的语言模型。当然，在某些示例中，文字域修正模块也可以省略。

本系统优势不止在于一次学习完成之后的每一次识别的速度都很快，还具有相当的灵活性。用户可以根据自己的需求自己定义训练数据中包括的各项文字域的属性，基于此训练出的语言模型便具有判别出相应文字域的能力。同时，本系统还具备有极高的精确度。针对身份证这一特定场景，在训练与测试数据有大量干扰(缺字漏字，多一些无意义的字，误识别或者误录入)的情况下，可以达到99％以上的判别准确率；而在训练与测试数据相对完整的情况下，准确率更是几乎可以做到100％。

在本系统的帮助下，许多之前的系统和算法的效率都可以得到一个极大提升。比如OCR自动识别录入身份证信息这一特定的应用场景就是其中之一。OCR系统先进行一次直接的文字识别，将得到的证照文字信息输入给本系统的文字域识别模块。然后文字识别模块分别给出这些文字信息分别属于哪个文字域。一方面，识别出的文字域可以提供给OCR系统作为文本框查找等算法的修正依据进行下一步的调整后得到一个更加准确的文字识别结果；另一方面，识别出的文字域结合文字域修正模块可以直接对OCR结果进行修改，得到一个置信度较高的识别结果反馈给用户。

本发明实施例的各个模块可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的文字域识别系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在存储载体上提供，或者以任何其他形式提供。

贯穿上述实施例，本发明基于语言模型生成和识别系统提供了一套高效、智能且具有重大参考意义的文本文字域识别方法。由于新技术与方法的引入，识别模块的精确度与可靠性都有极大的突破，能够更加准确的进行文字域类型识别。

本发明已经通过上述实施例进行了说明，但应当理解的是，上述实施例只是用于举例和说明的目的，而非意在将本发明限制于所描述的实施例范围内。此外本领域技术人员可以理解的是，本发明并不局限于上述实施例，根据本发明的教导还可以做出更多种的变型和修改，这些变型和修改均落在本发明所要求保护的范围以内。本发明的保护范围由附属的权利要求书及其等效范围所界定。

Claims

1.一种文字域类型识别方法，其特征在于，所述方法包括：

步骤S101：载入文字数据的语言模型，其中所述语言模型为利用所述文字数据基于神经网络训练得到的文字域分类器；

步骤S102：通过所述语言模型确定新输入的文字数据的文字域类型；以及

步骤S103：对所述新输入的文字数据进行编码，基于经编码的所述新输入的文字数据、由步骤S102得到的所属的所述文字域类型，通过用于修正文字域类型的语言模型，判断所述新输入的文字数据是否需要进行修改，以及如果是则将所述新输入的文字数据中出现的漏字、错字、多字中的至少一种错误修改，并返回修改后的文字数据。

2.如权利要求1所述的文字域类型识别方法，其特征在于，所述神经网络是长短期记忆人工神经网络LSTM。

3.如权利要求1或2所述的文字域类型识别方法，其特征在于，所述步骤S102包括：通过所述语言模型计算新输入的文字数据中每个短词或字的置信程度，将整个所述新输入的文字数据的置信程度归一化为所述新输入的文字数据为特定文字域类型的概率，并将概率最高的类型确定为所述新输入的文字数据的文字域类型。

4.如权利要求1所述的文字域类型识别方法，其特征在于，在步骤S102中，在确定新输入的文字数据的文字域类型之前，对所述新输入的文字数据进行编码，以便于所述语言模型的处理。

5.一种文字域类型识别系统，其特征在于，所述系统包括：

文字域识别模块，用于载入文字数据的语言模型，其中所述语言模型为利用所述文字数据基于神经网络训练得到的文字域分类器；通过所述语言模型确定新输入的文字数据的文字域类型；以及文字域修正模块，用于对所述新输入的文字数据进行编码，基于经编码的所述新输入的文字数据、由所述语言模型确定的所属的所述文字域类型，通过用于修正文字域类型的语言模型，判断所述新输入的文字数据是否需要进行修改，以及如果是则将所述新输入的文字数据中出现的漏字、错字、多字中的至少一种错误修改，并返回修改后的文字数据。

6.如权利要求5所述的文字域类型识别系统，其特征在于，所述神经网络是长短期记忆人工神经网络LSTM。

7.如权利要求5或6所述的文字域类型识别系统，其特征在于，所述文字域识别模块还用于通过所述语言模型计算新输入的文字数据中每个短词或字的置信程度，将整个所述新输入的文字数据的置信程度归一化为所述新输入的文字数据为特定文字域类型的概率，并将概率最高的类型确定为所述新输入的文字数据的文字域类型。

8.如权利要求5所述的文字域类型识别系统，其特征在于，在所述文字域识别模块确定新输入的文字数据的文字域类型之前，对所述新输入的文字数据进行编码，以便于所述语言模型的处理。