CN111144373A

CN111144373A - 一种信息识别方法、装置、计算机设备和存储介质

Info

Publication number: CN111144373A
Application number: CN201911420984.8A
Authority: CN
Inventors: 高宇明; 田兴林; 郭健; 甄智; 李科勇; 郑捷
Original assignee: Guangzhou Hoolinks Technologies Corp Ltd
Current assignee: Guangzhou Hoolinks Technologies Corp Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-12
Anticipated expiration: 2039-12-31
Also published as: CN111144373B

Abstract

本发明实施例公开了一种信息识别方法、装置、计算机设备和存储介质。该方法包括：接收原始文件；对所述原始文件进行光学字符识别，获得目标文件，所述目标文件中具有文本信息；查找与所述原始文件匹配的决策树模型；使用所述决策树模型，根据所述文本信息在所述目标文件中的位置关系、从所述文本信息中确定归属于指定类目的目标信息。自动化识别类目与目标信息之间的关系，大大减少用户手动浏览文本、筛选所需的信息并将该信息复制至可编辑的文档中的操作，从而提高了录入信息的操作的简便性，减少耗时。

Description

一种信息识别方法、装置、计算机设备和存储介质

技术领域

本发明实施例涉及自然语言处理的技术，尤其涉及一种信息识别方法、装置、计算机设备和存储介质。

背景技术

在报关、交易展会、技术交流会议等场合，会有许多厂家在已有的文件上印制新的信息。

目前，为了实现无纸化办公、数据归档、数据分析等需求，通过将纸质版的文件通过OCR(Optical Character Recognition，光学字符识别)识别文本，并录入其中所需的信息。

但是，这些文件的格式多种多样，在打印时信息也会产生偏移，录入的过程通常是用户手动浏览文本、筛选所需的信息，并将该信息复制至可编辑的文档中，录入信息的操作较为繁琐，耗时较长。

发明内容

本发明实施例提供一种信息识别方法、装置、计算机设备和存储介质，以解决录入多次印刷的纸质版文件中的信息较为繁琐，耗时较长的问题。

第一方面，本发明实施例提供了一种信息识别方法，包括：

接收原始文件；

对所述原始文件进行光学字符识别，获得目标文件，所述目标文件中具有文本信息；

查找与所述原始文件匹配的决策树模型；

使用所述决策树模型，根据所述文本信息在所述目标文件中的位置关系、从所述文本信息中确定归属于指定类目的目标信息。

可选地，所述查找与所述原始文件匹配的决策树模型，包括：

确定所述原始文件的维度，所述维度包括所述原始文件所属的企业与所述原始文件的类型；

查找对所述维度设置的决策树模型。

可选地，所述决策树模型中具有多个表示类目的层，每层中具有一个或多个节点，每个节点表示候选区域；

所述使用所述决策树模型，根据所述文本信息在所述目标文件中的位置关系、从所述文本信息中确定归属于指定类目的目标信息，包括：

确定作为本层节点的源节点，所述源节点为上一层中选定的节点，其中，本层初始为第一层；

查询在所述源节点的条件下，选定本层的节点的概率；

在所述目标文件中、基于所述概率从本层节点所表示的候选区域提取文本信息，作为归属本层所表示类目的目标信息；

判断是否具有下一层；

若是，则将下一层设置为本层，返回执行所述确定作为本层节点的源节点；

若否，则确定已完成提取归属于所述类目的目标信息。

可选地，所述在所述目标文件中、基于所述概率从本层节点所表示的候选区域提取文本信息，作为归属本层所表示类目的目标信息，包括：

对本层的节点按照所述概率进行降序排序；

在所述目标文件中、判断当前节点所表示的候选区域是否具有文本信息，当前节点初始为第一个节点；

若具有文本信息，则从所述目标文件中的所述候选区域提取文本信息，作为归属本层所表示类目的目标信息；

若不具有文本信息，则判断是否具有下一个节点；

若具有下一个节点，则将下一个节点设置为当前节点，返回执行所述在所述目标文件中、判断当前节点所表示的候选区域是否具有文本信息；

若不具有下一个节点，则将归属本层所表示类目的目标信息设置为空。

可选地，还包括：

接收纠正操作；

根据所述纠正操作，纠正归属某个类目的目标信息，返回执行所述使用所述决策树模型，根据所述文本信息在所述目标文件中的位置关系、从所述文本信息中确定归属于指定类目的目标信息；

根据所述纠正操作，更新所述决策树模型。

可选地，所述根据所述纠正操作，纠正归属某个类目的目标信息，包括：

确定所述纠正操作指示的类目，以及，在所述目标文件中指示的纠正区域；

在所述目标文件中提取位于所述纠正区域内的文本信息；

将所述文本信息设置为归属所述类目的目标信息。

所述根据所述纠正操作，更新所述决策树模型，包括：

对于所述类目表示的层，若所述纠正区域与所述层中一个节点表示的候选区域至少部分重叠，则基于所述纠正区域更新所述节点表示的候选区域；

对于所述类目表示的层，若所述纠正区域与所述层中所有节点表示的候选区域不重叠，或者，若所述纠正区域与所述层中两个或两个以上节点表示的候选区域部分重叠，则在所述层中新增节点，将所述纠正区域设置所述节点表示的候选区域。

可选地，所述基于所述纠正区域更新所述类目表示的候选区域，包括：

若所述纠正区域中的文本信息包含所述候选区域中的文本信息，则将所述纠正区域与所述候选区域进行合并操作，作为所述节点表示的候选区域；

或者，

若所述候选区域中的文本信息包含所述纠正区域中的文本信息，则将所述候选区域中的文本信息减去所述纠正区域中的文本信息，获得差异信息；

在所述候选区域中去除所述区域差异信息所处的区域，作为所述节点表示的候选区域；

或者，

若所述候选区域中的文本信息与所述纠正区域中的文本信息部分相同，则将所述候选区域中的文本信息减去所述纠正区域中的文本信息，获得差异信息；

在所述候选区域中去除所述区域差异信息所处的区域，作为差异区域；

将所述纠正区域与所述候选区域进行合并操作，作为所述节点表示的候选区域。

可选地，还包括：

在所述目标文件中确第一目标坐标、第二目标坐标，其中，所述第一目标坐标为所述文本信息中最小的横坐标、所述第二目标坐标为所述文本信息中最小的纵坐标；

在所述目标文件中忽略横坐标小于所述第一目标坐标的区域、以及纵坐标小于所述第二目标坐标的区域。

第二方面，本发明实施例还提供了一种信息识别装置，包括：

原始文件接收模块，用于接收原始文件；

光学字符识别模块，用于对所述原始文件进行光学字符识别，获得目标文件，所述目标文件中具有文本信息；

决策树模型查找模块，用于查找与所述原始文件匹配的决策树模型；

目标信息识别模块，用于使用所述决策树模型，根据所述文本信息在所述目标文件中的位置关系、从所述文本信息中确定归属于指定类目的目标信息。

可选地，所述决策树模型查找模块包括：

维度确定子模块，用于确定所述原始文件的维度，所述维度包括所述原始文件所属的企业与所述原始文件的类型；

维度查找子模块，用于查找对所述维度设置的决策树模型。

所述目标信息识别模块包括：

源节点确定子模块，用于确定作为本层节点的源节点，所述源节点为上一层中选定的节点，其中，本层初始为第一层；

概率查询子模块，用于查询在所述源节点的条件下，选定本层的节点的概率；

文本信息提取子模块，用于在所述目标文件中、基于所述概率从本层节点所表示的候选区域提取文本信息，作为归属本层所表示类目的目标信息；

下层判断子模块，用于判断是否具有下一层；若是，则调用本层设置子模块，若否，则调用完成确定子模块；

本层设置子模块，用于将下一层设置为本层，返回调用所述源节点确定子模块；

完成确定子模块，用于确定已完成提取归属于所述类目的目标信息。

在本发明的一个实施例中，所述文本信息提取子模块包括：

降序排序单元，用于对本层的节点按照所述概率进行降序排序；

区域判断单元，用于在所述目标文件中、判断当前节点所表示的候选区域是否具有文本信息，当前节点初始为第一个节点；

区域信息提取单元，用于若具有文本信息，则从所述目标文件中的所述候选区域提取文本信息，作为归属本层所表示类目的目标信息；

节点判断单元，用于若不具有文本信息，则判断是否具有下一个节点；

节点设置单元，用于若具有下一个节点，则将下一个节点设置为当前节点，返回调用所述区域判断单元；

空设置单元，用于若不具有下一个节点，则将归属本层所表示类目的目标信息设置为空。

可选地，还包括：

纠正操作接收模块，用于接收纠正操作；

目标信息纠正模块，用于根据所述纠正操作，纠正归属某个类目的目标信息，返回调用所述目标信息识别模块；

决策树模型更新模块，用于根据所述纠正操作，更新所述决策树模型。

在本发明的一个实施例中，所述目标信息纠正模块包括：

纠正指示确定子模块，用于确定所述纠正操作指示的类目，以及，在所述目标文件中指示的纠正区域；

纠正文本提取子模块，用于在所述目标文件中提取位于所述纠正区域内的文本信息；

目标信息设置子模块，用于将所述文本信息设置为归属所述类目的目标信息。

所述决策树模型更新模块包括：

纠正信息确定子模块，用于确定所述纠正操作指示的类目，以及，在所述目标文件中指示的纠正区域；

候选区域更新子模块，用于对于所述类目表示的层，若所述纠正区域与所述层中一个节点表示的候选区域至少部分重叠，则基于所述纠正区域更新所述节点表示的候选区域；

节点更新子模块，用于对于所述类目表示的层，若所述纠正区域与所述层中所有节点表示的候选区域不重叠，或者，若所述纠正区域与所述层中两个或两个以上节点表示的候选区域部分重叠，则在所述层中新增节点，将所述纠正区域设置所述节点表示的候选区域。

可选地，所述候选区域更新子模块包括：

第一合并单元，用于若所述纠正区域中的文本信息包含所述候选区域中的文本信息，则将所述纠正区域与所述候选区域进行合并操作，作为所述节点表示的候选区域；

或者，

第一差异确定单元，用于若所述候选区域中的文本信息包含所述纠正区域中的文本信息，则将所述候选区域中的文本信息减去所述纠正区域中的文本信息，获得差异信息；

第一去除单元，用于在所述候选区域中去除所述区域差异信息所处的区域，作为所述节点表示的候选区域；

或者，

第二差异确定单元，用于若所述候选区域中的文本信息与所述纠正区域中的文本信息部分相同，则将所述候选区域中的文本信息减去所述纠正区域中的文本信息，获得差异信息；

第二去除单元，用于在所述候选区域中去除所述区域差异信息所处的区域，作为差异区域；

第二合并单元，用于将所述纠正区域与所述候选区域进行合并操作，作为所述节点表示的候选区域。

可选地，还包括：

目标坐标确定模块，用于在所述目标文件中确第一目标坐标、第二目标坐标，其中，所述第一目标坐标为所述文本信息中最小的横坐标、所述第二目标坐标为所述文本信息中最小的纵坐标；

区域忽略模块，用于在所述目标文件中忽略横坐标小于所述第一目标坐标的区域、以及纵坐标小于所述第二目标坐标的区域。

第三方面，本发明实施例还提供了一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面中任一所述的信息识别方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如第一方面中任一所述的信息识别方法。

在本实施例中，接收原始文件，对原始文件进行光学字符识别，获得目标文件，目标文件中具有文本信息，查找与原始文件匹配的决策树模型，使用决策树模型，根据文本信息在目标文件中的位置关系、从文本信息中确定归属于指定类目的目标信息，基于原始文件中信息之间的位置相对固定的特性，通过决策树模型依赖文本信息之间的位置关系识别类目下的目标信息，可保证类目与目标信息之间关系的准确性，并且，自动化识别类目与目标信息之间的关系，大大减少用户手动浏览文本、筛选所需的信息并将该信息复制至可编辑的文档中的操作，从而提高了录入信息的操作的简便性，减少耗时。

附图说明

图1为本发明实施例一提供的一种信息识别方法的流程图；

图2A至图2E为本发明实施例一提供的一种识别目标信息的示例图；

图3是本发明实施例二提供的一种信息识别方法的流程图；

图4A至图4C为本发明实施例二提供的一种更新候选区域的示例图；

图5为本发明实施例三提供的一种信息识别装置的结构示意图；

图6为本发明实施例四提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种信息识别方法的流程图，本实施例可适用于根据决策树模型自动甄别指定类目的文本的情况，该方法可以由信息识别装置来执行，该信息识别装置可以由软件和/或硬件实现，可配置在计算机设备中，例如，个人电脑、移动终端(如手机、平板电脑等)、可穿戴设备(如智能手表等)，等等，该方法具体包括如下步骤：

S101、接收原始文件。

在本实施例中，可以在报关、交易展会、技术交流会议等场合，收集厂家纸质版的文件，通过扫描、拍照等方式，生成原始文件。

其中，该原始文件为不可编辑文本信息的文件，一般为图像数据，当然，该图像数据也可以写入其他格式的文件中，如PDF(Portable Document Format，便携式文档格式)文件、PPT(PowerPoint，演示文稿)文件、word(一个文字处理器应用程序)文件，等等。

S102、对所述原始文件进行光学字符识别，获得目标文件。

在本实施例中，对原始文件进行OCR处理，获得目标文件，其中，目标文件中具有可编辑的文本信息，该文本信息在原始文件中的位置与在目标文件中的位置是对应的。

其中，OCR是检查字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机可读文本的过程，通常包括如下处理：

图像预处理：主要包括图像二值化，噪声去除，倾斜较正等算法。

版面分析：将文档图片分段落，分行的算法就叫版面分析算法。

字符切割：字符切割算法主要处理因字符粘连、断笔造成字符难以简单切割的问题。

字符特征提取：对字符图像提取多维的特征用于后面的特征匹配模式识别算法。

字符识别：将当前字符提取的特征向量与特征模板库进行模板粗分类和模板细匹配，识别出字符的算法。

版面恢复：识别原文档的排版，按原排版格式将识别结果输出到word或PDF等格式文档，叫做版面恢复算法。

后处理校正:根据特定的语言上下文的关系，对识别结果进行较正的算法。

在本发明的一个实施例中，在S102之后，可进行预处理，以提高识别归属指定类目的目标信息的精确度。

在具体实现中，可在目标文件中确第一目标坐标、第二目标坐标。

其中，第一目标坐标为所述文本信息中最小的横坐标、第二目标坐标为所述文本信息中最小的纵坐标。

在目标文件中忽略横坐标小于第一目标坐标的区域、以及纵坐标小于第二目标坐标的区域。

在本实施例中，将纸质版的文件转换为原始文件时，可能存在偏移，为了保持文本信息之间相对位置的准确性，可以忽略横坐标小于第一目标坐标的区域、以及纵坐标小于第二目标坐标的区域。

所谓忽略，可以指裁去横坐标小于第一目标坐标的区域、以及纵坐标小于第二目标坐标的区域，或者，在保留横坐标小于第一目标坐标的区域、以及纵坐标小于第二目标坐标的区域的情况下，以第一目标坐标、第二目标坐标作为原点建立坐标系，本实施例中所指的区域(如候选区域、纠正区域等)的位置均建立在该坐标系上，等等，本实施例对此不加以限制。

例如，对一个报关单进行扫描，获得如图2A所示的图像数据(原始文件)，如图2B所示，对该图像数据进行OCR处理，获得可编辑的目标文件，在目标文件的上方、左侧存在空白的区域，此时，可以裁去位于线段201左侧的区域，以及，裁去位于线段202上方的区域，或者，以点O作为原点建立坐标系。

S103、查找与所述原始文件匹配的决策树模型。

在本实施例中，可以预先设置多个决策树模型(Decision Tree)，决策树模型是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。

在具体实现中，可以筛选出指定的维度，在该维度下，原始文件中的信息的位置关系较为固定，例如，原始文件所属的企业、原始文件的类型(如报关单、发货单等)，等等，因此，可以针对该维度设置决策树模型。

此时，可确定原始文件的维度，查找对维度设置的决策树模型。

当然，除了原始文件所属的企业、原始文件的类型之外，还可以设置其他维度，如时间，等等，本实施例对此不加以限制。

S104、使用所述决策树模型，根据所述文本信息在所述目标文件中的位置关系、从所述文本信息中确定归属于指定类目的目标信息。

在具体实现中，通过决策树模型统计文本信息之间的相对位置关系的概率，从文本信息中确定归属于指定类目的目标信息。

需要说明的是，针对不同的业务，类目有所不同，例如，对于报关单，该类目包括运输方式、运输工具名称、航次号、提运单号，等等。

在本发明的一个实施例中，决策树模型中具有多个表示类目的层，每层中具有一个或多个节点，每个节点表示候选区域。

例如，针对如图2B所示的目标文件，则可以设置如图2C所示的决策树模型，在图2C所示的决策树模型中显示前面三层，第一层表示的类目为“运输工具名称”、第二层表示的类目为“航次号”、第三层表示的类目为“提运单号”，在第一层中具有2个节点，分别为A1、A2，如图2D所示，A1表示候选区域203、A2表示候选区域204，在第一层中具有3个节点，分别为B1、B2、B3，如图2E所示，B1表示候选区域205、B2表示候选区域206、B3表示候选区域207，在第一层中具有4个节点，分别为C1、C2、C3、C4。

在本实施例中，S104具体可以包括如下步骤：

S1041、确定作为本层节点的源节点。

源节点为上一层中选定的节点，所谓选定，是指选择该节点所表示候选区域中的文本信息，作为归属上一层所表示类目的目标信息。

需要说明的是，在遍历决策树模型时，本层初始为第一层，后续依次递增。

此外，当遍历第一层时，即本层为第一层，源节点为空。

S1042、查询在所述源节点的条件下，选定本层的节点的概率。

在选定上层不同节点作为源节点时，源节点与本层的节点之间的位置关系发生变化，因此，选定本层的节点的概率也有所不同。

需要说明的是，当遍历第一层时，即本层为第一层，由于源节点固定为空，则选定第一层的节点的概率是固定的。

例如，对于如图2C所示的决策树模型，对于第一层，选定A1的概率为0.4、选定A2的概率为0.6，对于第二层，在选定A1的条件下，选定B1的概率为0.6、选定B2的概率为0.3、选定B3的概率为0.1，在选定A2的条件下，选定B1的概率为0.2、选定B2的概率为0.3、选定B3的概率为0.5。

在具体实现中，可以统计在先在选定源节点的条件下，选定本次各个节点的频次，计算该频次之和，作为总频次，对某个节点，计算该节点的频次与总频次之间的比值，作为选定该节点的概率。

需要说明的是，统计频次的选定，为有效的选定，即用户确认本实施例中选定的节点正确，或者，用户对本实施例中选定的节点进行纠正。

S1043、在所述目标文件中、基于所述概率从本层节点所表示的候选区域提取文本信息，作为归属本层所表示类目的目标信息。

在选定源节点的条件下，可以按照概率从本层的节点中选择有效的节点，从该有效的节点所表示的候选区域中提取文本信息，作为归属本层所表示类目的目标信息，从而构建key-value(键值对)，即类目为key，目标信息为value。

一般情况下，概率与选定为有效的节点的优先级正相关，即概率越大，越优先选定为有效的节点。

此外，所谓有效，指的是该节点所表示的候选区域具有文本信息，不为空。

例如，对于如图2C所示的决策树模型，在遍历第一层时，选定A1，在如图2D所示的目标文件中，从A1表示的候选区域203中提取“柏福228”，与第一层表示的“运输工具名称”构建键值对“运输工具名称：柏福228”，在选定A1的条件下，遍历第二层，选定B1，在如图2E所示的目标文件中，从B1表示的候选区域205中提取“520201712240”，与第二层表示的“航次号”构建键值对“航次号：520201712240”。

此外，假设第一层选择A2，在选定A2的条件下，遍历第二层，选定B3，由于在如图2E所示的目标文件中，B3表示的候选区域207为空，为无效的节点，此时，继续选定B2，即在如图2E所示的目标文件中，从B2表示的候选区域206中提取“目的港”，与第二层表示的“航次号”构建键值对“航次号：目的港”。

在具体实现中，可以对本层的节点按照概率进行降序排序，即概率越大，排序越前，反之，概率越小，排序越后。

此时，可按照排序遍历本层的节点，在目标文件中、判断当前节点所表示的候选区域是否具有文本信息，其中，当前节点初始为第一个节点，后续依次递增。

若具有文本信息，则从目标文件中的候选区域提取文本信息，作为归属本层所表示类目的目标信息。

若不具有文本信息，则判断是否具有下一个节点。

若具有下一个节点，则将下一个节点设置为当前节点，返回执行在目标文件中、判断当前节点所表示的候选区域是否具有文本信息的操作。

S1044、判断是否具有下一层；若是，则执行S1045，若否，则执行S1046。

S1045、将下一层设置为本层，返回执行S1041。

S1046、确定已完成提取归属于所述类目的目标信息。

在遍历完本层的节点，选定归属本层所表示类目的目标信息之后，继续使用相同的方式遍历下一层节点，直至遍历完所有层。

实施例二

图3为本发明实施例二提供的一种信息识别方法的流程图，本实施例以前述实施例为基础，进一步增加纠正操作，该方法具体包括如下步骤：

S301、接收原始文件。

S302、对所述原始文件进行光学字符识别，获得目标文件。

其中，目标文件中具有文本信息。

S303、查找与所述原始文件匹配的决策树模型。

S304、使用所述决策树模型，根据所述文本信息在所述目标文件中的位置关系、从所述文本信息中确定归属于指定类目的目标信息。

S305、接收纠正操作。

由于原始文件中各个文本信息的位置关系并不固定，因此，容易出现错误识别归属于指定类目的目标信息的情形，尤其是在决策树模型初期运用、数据积累稀疏的时段。

在识别归属于指定类目的目标信息错误时，用户可以触发操作对其进行纠正，该操作可以称之为纠正操作。

在一个示例中，用户可以确定待纠正的类目，删除归属该类目的目标信息，以及，在目标文件中选择一个区域，作为纠正区域，从而触发纠正操作，意图将该纠正区域中的文本信息设置为归属该类目的目标信息。

S306、根据所述纠正操作，纠正归属某个类目的目标信息，返回执行S304。

在接收到纠正操作之后，可以响应于该纠正操作，纠正归属某个类目的目标信息。

在具体实现中，可确定纠正操作指示的类目，以及，在目标文件中指示的纠正区域。

在目标文件中提取位于纠正区域内的文本信息，以及，将该文本信息设置为归属类目的目标信息。

在纠正归属某个类目的目标信息，相应地，需要重新选定归属剩余类目的的目标信息。

进一步而言，决策树模型中具有多个表示类目的层，每层中具有一个或多个节点，每个节点表示候选区域，在某一个层选定的节点出错时，后续层依赖选定该节点的条件下选定的节点也容易出错，此时，可将位于已纠正的层的下一层设置为本层，重新执行S1041-S1046，对后续的层自动进行纠错。

例如，对于如图2C所示的决策树模型，针对第二层的“航次号”，选定了B3，针对第三层的“提运单号”，在选定B3的条件下，选定C1，用户针对第二层的“航次号”，从B3纠正为B1，此时，针对第三层的“提运单号”，在选定B1的条件下，重新选定B2。

S307、根据所述纠正操作，更新所述决策树模型。

在纠正归属某个类目的目标信息之后，相应更新决策树模型，从而提高决策树模型的精度。

在具体实现中，决策树模型中具有多个表示类目的层，每层中具有一个或多个节点，每个节点表示候选区域。

此时，可确定纠正操作指示的类目，以及，在目标文件中指示的纠正区域。

对于类目表示的层，若纠正区域与层中一个节点表示的候选区域至少部分重叠，则基于纠正区域更新节点表示的候选区域。

在一种情况中，若纠正区域中的文本信息包含候选区域中的文本信息，即候选区域中的文本信息遗漏了一些正确的文本信息，则将纠正区域与候选区域进行合并操作，作为节点表示的候选区域。

进一步而言，合并操作之后的区域，多为不规则的图形，为了化简表述，在合并操作之后的区域的最小外接矩形不与其他候选区域重叠的情况下，可将合并操作之后的区域可以化简为该合并操作之后的区域的最小外接矩形。

当然，也可以直接将合并操作之后的区域作为候选区域，本实施例对此不加以限制。

例如，如图4A所示，在识别归属“航次号”的目标信息时，候选区域401中的文本信息为“0201712240”，遗漏了“52”，此时，用户针对“航次号”触发纠正操作，圈定纠正区域402，选定“520201712240”，此时，可合并候选区域401与纠正区域402。

在另一种情况中，若候选区域中的文本信息包含纠正区域中的文本信息，即候选区域中的文本信息多了一些无用的文本信息，则将候选区域中的文本信息减去纠正区域中的文本信息，获得差异信息。

在候选区域中去除区域差异信息所处的区域，作为节点表示的候选区域。

例如，如图4B所示，在识别归属“航次号”的目标信息时，候选区域401中的文本信息为“520201712240THREE(3)”，多了“THREE(3)”，此时，用户针对“航次号”触发纠正操作，圈定纠正区域402，选定“520201712240”，此时，可在候选区域401中去除“THREE(3)”所处的区域(即线段403右侧的区域)。

在又一种情况中，若候选区域中的文本信息与纠正区域中的文本信息部分相同，即候选区域中的文本信息既遗漏了一些正确的文本信息，又多了一些无用的文本信息，则将候选区域中的文本信息减去纠正区域中的文本信息，获得差异信息。

在候选区域中去除区域差异信息所处的区域，作为差异区域。

将纠正区域与候选区域进行合并操作，作为节点表示的候选区域。

例如，如图4C所示，在识别归属“航次号”的目标信息时，候选区域401中的文本信息为“0201712240THREE(3)”，遗漏了“52”并且多了“THREE(3)”，此时，用户针对“航次号”触发纠正操作，圈定纠正区域402，选定“520201712240”，此时，可在候选区域401中去除“THREE(3)”所处的区域(即线段403右侧的区域)，合并候选区域401剩余的区域(线段403左侧的区域)与纠正区域402。

对于类目表示的层，若纠正区域与层中所有节点表示的候选区域不重叠，或者，若纠正区域与层中两个或两个以上节点表示的候选区域部分重叠，则在层中新增节点，将纠正区域设置节点表示的候选区域。

在本实施例中，接收纠正操作，根据纠正操作，纠正归属某个类目的目标信息，一方面，重新使用决策树模型，根据文本信息在目标文件中的位置关系、从文本信息中确定归属于指定类目的目标信息，自动纠正其他目标信息，减少用户纠正的操作频次，提高识别目标信息的效率，另一方面，根据纠正操作，更新决策树模型，通过不断进行地积累，优化决策树模型，从而提高识别目标信息的精确度，使之达到95％以上。

实施例三

图5为本发明实施例三提供的一种信息识别装置的结构示意图，该装置具体可以包括如下模块：

原始文件接收模块501，用于接收原始文件；

光学字符识别模块502，用于对所述原始文件进行光学字符识别，获得目标文件，所述目标文件中具有文本信息；

决策树模型查找模块503，用于查找与所述原始文件匹配的决策树模型；

目标信息识别模块504，用于使用所述决策树模型，根据所述文本信息在所述目标文件中的位置关系、从所述文本信息中确定归属于指定类目的目标信息。

在本发明的一个实施例中，所述决策树模型查找模块503包括：

维度查找子模块，用于查找对所述维度设置的决策树模型。

在本发明的一个实施例中，所述决策树模型中具有多个表示类目的层，每层中具有一个或多个节点，每个节点表示候选区域；

所述目标信息识别模块504包括：

在本发明的一个实施例中，所述文本信息提取子模块包括：

在本发明的一个实施例中，还包括：

纠正操作接收模块，用于接收纠正操作；

目标信息纠正模块，用于根据所述纠正操作，纠正归属某个类目的目标信息，返回调用所述目标信息识别模块504；

在本发明的一个实施例中，所述目标信息纠正模块包括：

所述决策树模型更新模块包括：

在本发明实施例的一个示例中，所述候选区域更新子模块包括：

或者，

在本发明的一个实施例中，还包括：

本发明实施例所提供的信息识别装置可执行本发明任意实施例所提供的信息识别方法，具备执行方法相应的功能模块和有益效果。

实施例四

图6为本发明实施例四提供的一种计算机设备的结构示意图。如图6所示，该计算机设备包括处理器600、存储器601、通信模块602、输入装置603和输出装置604；计算机设备中处理器600的数量可以是一个或多个，图6中以一个处理器600为例；计算机设备中的处理器600、存储器601、通信模块602、输入装置603和输出装置604可以通过总线或其他方式连接，图6中以通过总线连接为例。

存储器601作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本实施例中的信息识别方法对应的模块(例如，如图5所示的信息识别装置中的原始文件接收模块501、光学字符识别模块502、决策树模型查找模块503和目标信息识别模块504)。处理器600通过运行存储在存储器601中的软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述的信息识别方法。

存储器601可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器601可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器601可进一步包括相对于处理器600远程设置的存储器，这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

通信模块602，用于与显示屏建立连接，并实现与显示屏的数据交互。

输入装置603可用于接收输入的数字或字符信息，以及产生与计算机设备的用户设置以及功能控制有关的键信号输入，还可以是用于获取图像的摄像头以及获取音频数据的拾音设备。

输出装置604可以包括扬声器等音频设备。

需要说明的是，输入装置603和输出装置604的具体组成可以根据实际情况设定。

处理器600通过运行存储在存储器601中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的电子白板的连接节点控制方法。

本实施例提供的计算机设备，可执行本发明任一实施例提供的信息识别方法，具体相应的功能和有益效果。

实施例五

本发明实施例五还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现一种信息识别方法，该方法包括：

接收原始文件；

查找与所述原始文件匹配的决策树模型；

当然,本发明实施例所提供的计算机可读存储介质,其计算机程序不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的信息识别方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述信息识别装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种信息识别方法，其特征在于，包括：

接收原始文件；

查找与所述原始文件匹配的决策树模型；

2.根据权利要求1所述的方法，其特征在于，所述查找与所述原始文件匹配的决策树模型，包括：

查找对所述维度设置的决策树模型。

3.根据权利要求1所述的方法，其特征在于，所述决策树模型中具有多个表示类目的层，每层中具有一个或多个节点，每个节点表示候选区域；

查询在所述源节点的条件下，选定本层的节点的概率；

判断是否具有下一层；

若否，则确定已完成提取归属于所述类目的目标信息。

4.根据权利要求3所述的方法，其特征在于，所述在所述目标文件中、基于所述概率从本层节点所表示的候选区域提取文本信息，作为归属本层所表示类目的目标信息，包括：

对本层的节点按照所述概率进行降序排序；

若不具有文本信息，则判断是否具有下一个节点；

5.根据权利要求1-4任一项所述的方法，其特征在于，还包括：

接收纠正操作；

根据所述纠正操作，更新所述决策树模型。

6.根据权利要求5所述的方法，其特征在于，所述决策树模型中具有多个表示类目的层，每层中具有一个或多个节点，每个节点表示候选区域；

所述根据所述纠正操作，更新所述决策树模型，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述纠正区域更新所述类目表示的候选区域，包括：

或者，

8.一种信息识别装置，其特征在于，包括：

原始文件接收模块，用于接收原始文件；

9.一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的信息识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-7中任一所述的信息识别方法。