CN108664973A

CN108664973A - 文本处理方法和装置

Info

Publication number: CN108664973A
Application number: CN201810266320.XA
Authority: CN
Inventors: 伍更新; 李健; 张连毅; 武卫东
Original assignee: BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP
Current assignee: BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP; Beijing Sinovoice Technology Co Ltd
Priority date: 2018-03-28
Filing date: 2018-03-28
Publication date: 2018-10-16

Abstract

本发明提供了一种文本处理方法和装置，该方法包括：采用OCR技术对预设证件类型的待检测纸质文本进行字符识别，确定识别到的多个文本行；将每个文本行与预设证件类型的预设配置文件中每个条目类型的一级关键词进行匹配，确定匹配到一级关键词的第一目标文本行所对应的第一目标条目类型；按照预设规则确定并删除第一目标文本行中的无效内容；对删除无效内容的第一目标文本行，按照相应第一目标条目类型所对应的预设文本格式进行格式规范化处理。本发明可以准确的确定纸质文本中各个文本行所对应的条目类型；并对各个文本行的内容进行格式规范化处理，从而可以得到格式统一的条目类型以及有效文本内容，提升了文本的识别准确率，并简化了文本识别流程。

Description

文本处理方法和装置

技术领域

本发明涉及文本处理技术领域，特别是涉及一种文本处理方法和装置。

背景技术

OCR(Optical Character Recognition，光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。OCR技术能够让机器看图识字，可以实现高效的信息录入、存储和检索。

OCR的应用场景，除了一些纯电子化的应用场景以外，大部分应用场景不仅要完成字符的正确识别，还需要将待识别证件中的文本内容以条目分类的方式展示给用户。因为识别结果仅仅是一长篇的文字，对用户来说没有意义，而是要将用户关心的内容进行提取，分门别类地呈现出来，从而便于用户校对。

目前，针对版式比较固定的证件对象，例如身份证、行驶证、驾驶证等证件，只要识别出个别关键内容就能根据先验知识，对所有识别结果进行分类并对识别结果的合理性进行判定和修正，快速完成识别结果的结构化组织。

但是对于非固定版面的证件对象，例如名片、营业执照等各类普通文本，条目(例如姓名、电话等)所在位置、文字大小、文本内容并不十分固定，使得对文本的识别结果错误率高、且识别流程复杂冗余。

发明内容

本发明提供了一种文本处理方法和装置，以解决现有技术中针对非固定版式的纸质证件进行文本识别时，所存在的识别错误率高、识别流程复杂冗余的问题。

为了解决上述问题，根据本发明的一个方面，本发明公开了一种文本处理方法，包括：

采用OCR技术对预设证件类型的待检测纸质文本进行字符识别，确定识别到的多个文本行；

将每个文本行与所述预设证件类型的预设配置文件中每个条目类型的一级关键词进行匹配，确定匹配到一级关键词的第一目标文本行所对应的第一目标条目类型；

其中，所述预设配置文件包括针对所述预设证件类型而预设的多个条目类型、每个条目类型的属性信息、以及每个条目类型对应的一级关键词，其中，所述一级关键词用于指示所述待检测纸质文本中包含所述一级关键词的文本行中有效内容的位置以及所述有效内容对应的条目类型；

按照预设规则确定并删除所述第一目标文本行中的无效内容；

对删除无效内容的第一目标文本行，按照相应第一目标条目类型所对应的预设文本格式进行格式规范化处理，其中，规范化处理后的每个第一目标文本行包括格式规范化的第一目标条目类型和格式规范化的第一目标有效内容；

其中，所述预设配置文件和所述预设规则由同一个框架来实现，且所述框架中的预设配置文件和所述预设规则能够根据文本处理需求灵活配置。

根据本发明的另一方面，本发明还公开了一种文本处理装置，包括：

识别模块，用于采用OCR技术对预设证件类型的待检测纸质文本进行字符识别，确定识别到的多个文本行；

第一匹配模块，用于将每个文本行与所述预设证件类型的预设配置文件中每个条目类型的一级关键词进行匹配，确定匹配到一级关键词的第一目标文本行所对应的第一目标条目类型；

第一删除模块，用于按照预设规则确定并删除所述第一目标文本行中的无效内容；

第一处理模块，用于对删除无效内容的第一目标文本行，按照相应第一目标条目类型所对应的预设文本格式进行格式规范化处理，其中，规范化处理后的每个第一目标文本行包括格式规范化的第一目标条目类型和格式规范化的第一目标有效内容；

与现有技术相比，本发明包括以下优点：

本发明通过单独设置预设配置文件，该预设配置文件中包括预设证件类型的多个条目类型、每个条目类型的属性信息，以及每个条目类型对应的一级关键词，从而可以通过将针对预设证件类型的待检测纸质文本进行OCR识别而得到的文本行，与该预设配置文件中对应该预设证件类型的多个条目类型的一级关键词进行匹配，从而可以准确的确定各个文本行所对应的条目类型；并通过对各个文本行中的无效内容进行删除，以及按照所确定的各个条目类型的预设文本格式来对相应的各个文本行的内容进行格式规范化处理，从而可以使得使用本发明实施例的方法得到的文本信息包括统一格式的条目类型以及有效文本内容，提升了文本的识别准确率，并简化了文本识别流程。

附图说明

图1是本发明的一种文本处理方法实施例的步骤流程图；

图2是本发明的一种纸质名片的示意图；

图3是本发明的一种文本处理装置实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明的一种文本处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101，采用OCR技术对预设证件类型的待检测纸质文本进行字符识别，确定识别到的多个文本行；

其中，该预设证件类型指代版式不固定的证件，例如名片、营业执照、获奖证书、资格证书等等证件。

这里以图2所示的名片为例进行文本识别。利用OCR(光学字符识别)技术可以对该名片进行字符识别，从而得到识别到的多个文本行：“演绎生活”、“新空间”、“安华名品”、“张延安”、“海西安华名品灯饰”、“地址：海西市人民中路443号”、“电话：0280-53023455302741”、“传真：0280-5303467”、“手机：13509092978”。

步骤102，将每个文本行与所述预设证件类型的预设配置文件中每个条目类型的一级关键词进行匹配，确定匹配到一级关键词的第一目标文本行所对应的第一目标条目类型；

其中，本发明实施例可以在同一个框架中实现所述预设配置文件和预设规则，且所述框架中的预设配置文件和所述预设规则能够根据文本处理需求进行灵活配置。

本发明实施例能够以关键词和规则方法作为主要实施手段，对于关键词、规则按照重要程度进行分级，并赋予它们属性，使其具备更好的针对性和排他性；此外，通过将用于条目分类的预设配置文件和用于结果修正的预设规则都放在同一个处理框架中来实现，在这个处理框架中可以灵活补充、编辑关键词和规则，使得整个组织简洁、高效。

其中，该预设规则可以包括正则表达式。

本发明实施例预先设置了配置文件，该配置文件包括多种非固定版式的证件类型(例如营业执照类型、名片类型)的证件的条目类型，其中，可以针对不同证件类型的证件分配设置相应的配置文件，其中，每种证件类型的配置文件的配置原理类似，都是针对某个类型的证件通常具有的条目类型进行配置，生成配置文件。

其中，所述预设配置文件可以包括针对名片类型而预设的多个条目类型、每个条目类型的属性信息、以及每个条目类型对应的一级关键词(下文称：引导关键词)，其中，所述一级关键词用于指示所述待检测纸质文本中包含所述一级关键词的文本行中有效内容的位置以及所述有效内容对应的条目类型；

可选地，所述预设配置文件还包括所述每个条目类型对应的二级关键词(下文称：首要关键词)，所述二级关键词用于指示所述待检测纸质文本中包含所述二级关键词的文本行中有效内容对应的条目类型；

可选地，所述预设配置文件还包括所述每个条目类型对应的三级关键词(下文称次要关键词)，其中，次要关键词只可能出现在多个条目类型的文本行中，但是也可以限定在一定条目类型范围内的词汇，例如“科技”、“发展”可能出现在单位条目中，也可能出现在地址条目中，也即，单位条目类型的次要关键词包括“科技”、“发展”；地址条目类型的次要关键词也包括“科技”、“发展”。

可选地，所述预设配置文件还包括所述每个条目类型对应的四级关键词(下文称辅助关键词)，其中，辅助关键词作为对文本行的条目类型进行判断的参考和补充，例如电话条目的辅助关键词包括“分机”、“--”。

其中，预设配置文件中对于每个条目类型可以包括上述四个级别的关键词中的一个或任意个级别的关键词，且同一个级别的关键词的数量可以是一个或多个；另外，四个级别的关键词的级别从高到低依次为引导关键词、首要关键词、次要关键词和辅助关键词。在对OCR识别到的多个文本行进行关键词匹配时也是按照级别从高到低的顺序进行匹配。因为，级别高的关键词对于条目分类的权重更高，从而可以提升条目分类的准确性。

下面为了便于读者理解本发明实施例的预设配置文件，以表1来示意性的示出本发明实施例的预设配置文件中各个信息的关系。

表1

本步骤102中，可以将识别到的多个文本行：“演绎生活”、“新空间”、“安华名品”、“张延安”、“海西安华名品灯饰”、“地址：海西市人民中路443号”、“电话：0280-53023455302741”、“传真：0280-5303467”、“手机：13509092978”分别与表1中的每个条目类型的引导关键词进行匹配，那么经过匹配发现，匹配到引导关键词的第一目标文本行包括：“地址：海西市人民中路443号”、“电话：0280-5302345 5302741”、“传真：0280-5303467”、“手机：13509092978”，它们所分别对应的第一目标条目类型为：地址、电话、传真和手机。

由此可以确定上述4个第一目标文本行所对应的条目类型。

其中，引导关键词，例如手机条目类型的“手机：”，用于指示名片文本中包含该“手机：”的文本行(“手机：13509092978”)中有效内容(13509092978)的位置，即与该引导关键词相邻的内容即为有效内容，所谓有效内容即属于名片中的个人信息的内容，针对其他类型的证件类型类似。

步骤103，按照预设规则确定并删除所述第一目标文本行中的无效内容；

所谓有效内容即不属于名片中的个人信息的内容(包括前缀以及条目类型不涉及的错误字符等)，针对其他类型的证件类型类似。

其中，在一个实施例中，在执行步骤103时，可以根据第一目标条目类型的属性信息，确定相应第一目标文本行中的无效内容；删除所述第一目标文本行中的无效内容。

其中，由于OCR识别出的多个文本行的结果会存在识别错误的情况，例如“电话：0280-5302345 5302741”识别为“电话：0280A-530B2345 5302741”，电话、传真、手机、邮编等条目类型的属性信息规定有这些条目类型的文本内容都是数字，因此，可以根据各个第一目标条目类型的属性信息，来确定相应第一目标文本行中的无效内容(即这里的非数字字符，例如汉字、英文字母等)；删除所述第一目标文本行中的无效内容。

而在另一个实施例中，该预设规则还可以包括如果在某个文本行的前半部分有冒号“：”的情况，则冒号及其之前的字符都要判定为无效内容。

这样，就可以将上述“地址：海西市人民中路443号”、“电话：0280-53023455302741”、“传真：0280-5303467”、“手机：13509092978”中的前缀清除，得到删除无效内容的多个第一目标文本行：“海西市人民中路443号”、“0280-5302345 5302741”、“0280-5303467”、“13509092978”。

步骤104，对删除无效内容的第一目标文本行，按照相应第一目标条目类型所对应的预设文本格式进行格式规范化处理，其中，规范化处理后的每个第一目标文本行包括格式规范化的第一目标条目类型和格式规范化的第一目标有效内容。

例如“电话”条目类型所对应的预设文本格式为“TEL：地区代号-电话号码”，则“0280-5302345 5302741”进行格式规范化处理后为“TEL：0280-5302345”和“TEL：0280-5302741”；

“手机”条目类型所对应的预设文本格式为“国家代号-电话号码”，则“13509092978”进行格式规范化处理后为“Phone：+86-13509092978”；

“地址”条目类型所对应的预设文本格式为“Address：具体地址”，则“海西市人民中路443号”进行格式规范化处理后为“Address：海西市人民中路443号”；

“传真”条目类型所对应的预设文本格式为“FAX：传真号”，则“0280-5303467”进行格式规范化处理后为“FAX：0280-5303467”。

借助于本发明上述实施例的技术方案，本发明通过单独设置预设配置文件，该预设配置文件中包括预设证件类型的多个条目类型、每个条目类型的属性信息，以及每个条目类型对应的一级关键词，从而可以通过将针对预设证件类型的待检测纸质文本进行OCR识别而得到的文本行，与该预设配置文件中对应该预设证件类型的多个条目类型的一级关键词进行匹配，从而可以准确的确定各个文本行所对应的条目类型；并通过对各个文本行中的无效内容进行删除，以及按照所确定的各个条目类型的预设文本格式来对相应的各个文本行的内容进行格式规范化处理，从而可以使得使用本发明实施例的方法得到的文本信息包括统一格式的条目类型以及有效内容，提升了文本的识别准确率，并简化了文本识别流程。

可选地，在一个实施例中，在步骤102之后，步骤103之前，当一个第一目标文本行(例如文本行1)对应有多个第一目标条目类型时，也就是说，某个文本行匹配到多个条目类型的引导关键词，则根据本发明实施例的方法还可以包括：

将对应多个第一目标条目类型的所述第一目标文本行，与所述多个第一目标条目类型中每个第一目标条目类型对应的四级关键词进行匹配，确定匹配到四级关键词数量最多的第一目标条目类型。

即，例如文本行1匹配到的条目类型包括“电话”和“手机”，则可以将文本行1再与“电话”条目类型的辅助关键词分别去匹配，匹配到一个辅助关键词“分机”，以及将文本行1再与“手机”条目类型的辅助关键词分别去匹配，未匹配到任何结果(即匹配到的辅助关键词的数量为0)，则说明该文本行1进一步匹配到了“电话”条目类型，所以，可以确定该文本行1的条目类型应该是“电话”而非“手机”。

相应的，在执行步骤103时，则可以根据“电话”条目类型的属性信息，来确定相应第一目标文本行中的无效内容以及删除所述第一目标文本行中的无效内容等等，这里不再赘述，参照上文。

这样，即便同一个文本行匹配到多个条目类型，本发明实施例的预设配置文件由于设置了重要程度不同的多个级别的关键词，因此，还可以利用辅助关键词来进一步判断该文本行的内容属于该多个条目类型中的哪个条目类型，提升对文本行的条目类型的识别准确度。

可选地，在一个实施例中，在步骤102之后，根据本发明实施例的方法还可以包括：

确定所述多个文本行中未匹配到一级关键词的一个或多个第二目标文本行；

如上所述，从图2所示的名片中通过OCR技术识别到了9个文本行，而其中只有4个文本行通过引导关键词确定了它们对应的条目类型，还有5个文本行未确定条目类型，因此，这里需要确定未匹配到引导关键词的第二目标文本行，这里包括：“演绎生活”、“新空间”、“安华名品”、“张延安”、“海西安华名品灯饰”。

将所述一个或多个第二目标文本行与所述预设配置文件中的每个条目类型的二级关键词进行匹配，确定所述一个或多个第二目标文本行中匹配到二级关键词的第二目标文本行所对应的第二目标条目类型；

其中，可以将这5个第二目标文本行“演绎生活”、“新空间”、“安华名品”、“张延安”、“海西安华名品灯饰”分别去与例如表1所示的预设配置文件中每个条目类型的首要关键词进行匹配，则可以确定“安华名品”匹配到“姓名”条目类型的首要关键词(首字符为百家姓，且字符数量为2～4个)、“张延安”也匹配到“姓名”条目类型的首要关键词，因此，“安华名品”、“张延安”均对应“姓名”条目类型。此外，“海西安华名品灯饰”匹配到了“单位”条目类型的首要关键词。

可选地，由于存在多个文本行对应同一个条目类型的问题，因此，根据本发明实施例的方法还可以包括：

对于名片类型的证件一般只有一个姓名条目，因此可以通过预先对姓名条目类型设定规则：

规则1.“姓名”条目的文字大小比“地址”、“电话”条目要大；

规则2.“姓名”条目的位置位于“职称”条目的左边或上方。

通过这样的规则，就可以在多个对应同一个条目类型的文本行中判定哪个文本行属于“姓名”条目类型。

那根据上述规则，就可以确定“张延安”为姓名条目类型的文本。

当然，这里只是针对名片类型的证件的“姓名”条目类型的规则进行一般性举例，而不用于限制本发明，针对其他类型的证件，则可能存在包括多个姓名条目类型的情况，则无需设定该规则，且不同类型的证件的条目的规则也不同。

按照预设规则确定并删除所述第二目标文本行中的无效内容；

其中，在一个实施例中，可以根据第二目标条目类型的属性信息，来确定相应第二目标文本行中的无效内容；删除所述第二目标文本行中的无效内容。

其中，由于OCR识别出的多个文本行的结果会存在识别错误的情况，例如文本行“张延安”的识别结果为“张延～安”，而姓名条目类型的属性信息规定有姓名条目类型的文本内容为2～4个汉字字符。所以，该“～”为无效内容需要删除，从而得到“张延安”。

针对“海西安华名品灯饰”中的无效内容的删除原理同上，这里不再赘述。

对删除无效内容的第二目标文本行，按照相应第二目标条目类型所对应的预设文本格式进行格式规范化处理，其中，规范化处理后的每个第二目标文本行包括格式规范化的第二目标条目类型和格式规范化的第二目标有效内容。

其中，可以对删除无效内容的第二目标文本行“张延安”，按照姓名条目所对应的预设文本格式(即姓名：姓名内容)进行格式规范化处理，使得规范化处理后的第二目标文本行“张延安”变为“姓名：张延安”。

并且，可以对删除无效内容的第二目标文本行“海西安华名品灯饰”，按照单位条目所对应的预设文本格式(即单位：单位名称内容)进行格式规范化处理，使得规范化处理后的第二目标文本行“海西安华名品灯饰”变为“单位：海西安华名品灯饰”。

可选地，在一个实施例中，当一个第二目标文本行对应多个第二目标条目类型时，也就是说，通过上述步骤的首要关键词进行匹配之后，使得某个第二目标文本行匹配到多个条目类型的首要关键词，则所述按照预设规则确定并删除所述第二目标文本行中的无效内容之前，所述方法还包括：

将对应多个第二目标条目类型的所述第二目标文本行，与所述多个第二目标条目类型中每个第二目标条目类型对应的四级关键词进行匹配，确定匹配到四级关键词数量最多的第二目标条目类型。

即，例如文本行2通过对名片类型的所有条目类型的首要关键词进行匹配时，发现该文本行2匹配到的条目类型包括“地址”和“单位”，则可以将文本行2再与“地址”条目类型的辅助关键词分别去匹配，例如匹配到3个辅助关键词，以及将文本行2再与“单位”条目类型的辅助关键词分别去匹配，例如匹配到5个辅助关键词，显然，该文本行2在辅助关键词方面与“单位”条目类型的辅助关键词匹配的数量更多，因此可以确定该文本行2的条目类型应该是“单位”而非“地址”。

相应的，则可以根据“单位”条目类型的属性信息，来确定相应第二目标文本行中的无效内容以及删除所述第二目标文本行中的无效内容等等，这里不再赘述，参照上文。

这样，当存在文本行未匹配到引导关键词时，本发明还设置了低于该引导关键词级别的首要关键词，从而通过匹配各个条目类型的首要关键词来确定这些文本行的条目类型，并且，在匹配时即便同一个文本行匹配到多个条目类型的首要关键词，本发明实施例的预设配置文件由于设置了重要程度不同的多个级别的关键词，因此，还可以利用该多个条目类型的辅助关键词来进一步判断该文本行的内容属于该多个条目类型中的哪个条目类型，提升对文本行的条目类型的识别准确度。

可选地，在一个实施例中，所述将所述一个或多个第二目标文本行与所述预设配置文件中的每个条目类型的二级关键词进行匹配之后，根据本发明实施例方法还可以包括：

确定所述一个或多个第二目标文本行中未通过匹配到二级关键词而确定条目类型的一个或多个第三目标文本行；

如上所述，从图2所示的名片中通过OCR技术识别到了9个文本行，而其中只有4个文本行通过引导关键词确定了它们对应的条目类型，剩下5个文本行中有2个文本行通过首要关键词确定了条目类型，还有3个文本行未确定条目类型，因此，这里需要确定5个文本行中未通过匹配到首要关键词而确定条目类型的第三目标文本行，这里包括：“演绎生活”、“新空间”、“安华名品”。

将所述一个或多个第三目标文本行与所述预设配置文件中的每个条目类型的三级关键词进行匹配，确定所述一个或多个第二目标文本行中匹配到三级关键词的第三目标文本行所对应的第三目标条目类型；

其中，可以将“演绎生活”、“新空间”、“安华名品”分别与例如表1所示的每个条目类型的次要关键词进行匹配，从而确定匹配到次要关键词的文本行所对应的条目类型，本例中不存在匹配到次要关键词的文本行，则直接将这剩余的三个文本行以“其他”条目类型来输出，即格式规范化处理后的结果为“其他：演绎生活”、“其他：新空间”、“其他：安华名品”。从而便于用户查找有用的信息。

相反，剩余的第三目标文本行中存在与次要关键词相匹配的情况时，则可以确定匹配到次要关键词的第三目标文本行所对应的条目类型。

按照预设规则确定并删除所述第三目标文本行中的无效内容；

具体确定和删除无效内容的预设规则参照上述实施例，方法类似，这里不再赘述。

对删除无效内容的第三目标文本行，按照相应第三目标条目类型所对应的预设文本格式进行格式规范化处理，其中，规范化处理后的每个第三目标文本行包括格式规范化的第三目标条目类型和格式规范化的第三目标有效内容。

其中，在一个实施例中，当经过次要关键词匹配后，一个第三目标文本行对应多个第三目标条目类型时，也即某个第三目标文本行匹配到多个条目类型的次要关键词的情况，则所述按照预设规则确定并删除所述第三目标文本行中的无效内容之前，所述方法还包括：

将对应多个第三目标条目类型的所述第三目标文本行，与所述多个第三目标条目类型中每个第三目标条目类型对应的四级关键词进行匹配，确定匹配到四级关键词数量最多的第三目标条目类型。

也就是说，当同一个文本行通过次要关键词匹配到多个条目类型时，则可以将该文本行与该多个条目类型的辅助关键词进行进一步匹配，从而确定该文本行与哪个条目类型的辅助关键词匹配到的辅助关键词的数量更多，从而将匹配到最多数量的辅助关键词的那个条目类型来确定为该文本行的条目类型。

借助于本发明实施例的上述技术方案，本发明以不同级别的关键词和分类规则作为主要实施手段，对于每个条目类型分配规则以及不同级别的关键词，并赋予每个条目类型以属性，使其具备更好的针对性和排他性。并且，通过将条目类型的设置、关键词的设置等都配置到一个预设配置文件中，从而提升了预设配置文件中内容的复用性，编辑起来也更加灵活，可以随时对不同条目类型的属性、关键词进行灵活调整，并且对各个条目类型进行高效管理；此外，将条目分类和结果修正都放在同一个处理框架中来实现，在这个处理框架中可以灵活补充、编辑关键词和规则，使得整个组织简洁、高效。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

与上述本发明实施例所提供的方法相对应，参照图3，示出了本发明一种文本处理装置实施例的结构框图，具体可以包括如下模块：

识别模块31，用于采用OCR技术对预设证件类型的待检测纸质文本进行字符识别，确定识别到的多个文本行；

第一匹配模块32，用于将每个文本行与所述预设证件类型的预设配置文件中每个条目类型的一级关键词进行匹配，确定匹配到一级关键词的第一目标文本行所对应的第一目标条目类型；

第一删除模块33，用于按照预设规则确定并删除所述第一目标文本行中的无效内容；

第一处理模块34，用于对删除无效内容的第一目标文本行，按照相应第一目标条目类型所对应的预设文本格式进行格式规范化处理，其中，规范化处理后的每个第一目标文本行包括格式规范化的第一目标条目类型和格式规范化的第一目标有效内容；

可选地，所述预设配置文件还包括所述每个条目类型对应的四级关键词，当一个第一目标文本行对应多个第一目标条目类型时，所述装置还包括：

第二匹配模块，用于将对应多个第一目标条目类型的所述第一目标文本行，与所述多个第一目标条目类型中每个第一目标条目类型对应的四级关键词进行匹配，确定匹配到四级关键词数量最多的第一目标条目类型。

可选地，所述预设配置文件还包括所述每个条目类型对应的二级关键词，所述二级关键词用于指示所述待检测纸质文本中包含所述二级关键词的文本行中有效内容对应的条目类型，所述装置还包括：

第一确定模块，用于确定所述多个文本行中未匹配到一级关键词的一个或多个第二目标文本行；

第三匹配模块，用于将所述一个或多个第二目标文本行与所述预设配置文件中的每个条目类型的二级关键词进行匹配，确定所述一个或多个第二目标文本行中匹配到二级关键词的第二目标文本行所对应的第二目标条目类型；

第二删除模块，用于按照预设规则确定并删除所述第二目标文本行中的无效内容；

第二处理模块，用于对删除无效内容的第二目标文本行，按照相应第二目标条目类型所对应的预设文本格式进行格式规范化处理，其中，规范化处理后的每个第二目标文本行包括格式规范化的第二目标条目类型和格式规范化的第二目标有效内容。

可选地，所述预设配置文件还包括所述每个条目类型对应的四级关键词，当一个第二目标文本行对应多个第二目标条目类型时，所述装置还包括：

第四匹配模块，用于将对应多个第二目标条目类型的所述第二目标文本行，与所述多个第二目标条目类型中每个第二目标条目类型对应的四级关键词进行匹配，确定匹配到四级关键词数量最多的第二目标条目类型。

可选地，所述预设配置文件还包括所述每个条目类型对应的三级关键词，所述装置还包括：

第二确定模块，用于确定所述一个或多个第二目标文本行中未通过匹配到二级关键词而确定条目类型的一个或多个第三目标文本行；

第五匹配模块，用于将所述一个或多个第三目标文本行与所述预设配置文件中的每个条目类型的三级关键词进行匹配，确定所述一个或多个第二目标文本行中匹配到三级关键词的第三目标文本行所对应的第三目标条目类型；

第三删除模块，用于按照预设规则确定并删除所述第三目标文本行中的无效内容；

第三处理模块，用于对删除无效内容的第三目标文本行，按照相应第三目标条目类型所对应的预设文本格式进行格式规范化处理，其中，规范化处理后的每个第三目标文本行包括格式规范化的第三目标条目类型和格式规范化的第三目标有效内容。

可选地，所述预设配置文件还包括所述每个条目类型对应的四级关键词，当一个第三目标文本行对应多个第三目标条目类型时，所述装置还包括：

第六匹配模块，用于将对应多个第三目标条目类型的所述第三目标文本行，与所述多个第三目标条目类型中每个第三目标条目类型对应的四级关键词进行匹配，确定匹配到四级关键词数量最多的第三目标条目类型。

可选地，所述第一删除模块33包括：

确定子模块，用于根据第一目标条目类型的属性信息，确定相应第一目标文本行中的无效内容；

删除子模块，用于删除所述第一目标文本行中的无效内容。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种文本处理方法和一种文本处理装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种文本处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述预设配置文件还包括所述每个条目类型对应的四级关键词，当一个第一目标文本行对应多个第一目标条目类型时，所述按照预设规则确定并删除所述第一目标文本行中的无效内容之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述预设配置文件还包括所述每个条目类型对应的二级关键词，所述二级关键词用于指示所述待检测纸质文本中包含所述二级关键词的文本行中有效内容对应的条目类型，所述将所述多个文本行分别与预设配置文件中每个条目类型的一级关键词进行匹配之后，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述预设配置文件还包括所述每个条目类型对应的四级关键词，当一个第二目标文本行对应多个第二目标条目类型时，所述按照预设规则确定并删除所述第二目标文本行中的无效内容之前，所述方法还包括：

5.根据权利要求3所述的方法，其特征在于，所述预设配置文件还包括所述每个条目类型对应的三级关键词，所述将所述一个或多个第二目标文本行与所述预设配置文件中的每个条目类型的二级关键词进行匹配之后，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述预设配置文件还包括所述每个条目类型对应的四级关键词，当一个第三目标文本行对应多个第三目标条目类型时，所述按照预设规则确定并删除所述第三目标文本行中的无效内容之前，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述按照预设规则确定并删除所述第一目标文本行中的无效内容，包括：

根据第一目标条目类型的属性信息，确定相应第一目标文本行中的无效内容；

删除所述第一目标文本行中的无效内容。

8.一种文本处理装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述预设配置文件还包括所述每个条目类型对应的四级关键词，当一个第一目标文本行对应多个第一目标条目类型时，所述装置还包括：

10.根据权利要求8所述的装置，其特征在于，所述预设配置文件还包括所述每个条目类型对应的二级关键词，所述二级关键词用于指示所述待检测纸质文本中包含所述二级关键词的文本行中有效内容对应的条目类型，所述装置还包括：