CN111291742A

CN111291742A - 对象识别方法和装置、电子设备、存储介质

Info

Publication number: CN111291742A
Application number: CN202010085064.1A
Authority: CN
Inventors: 冯博豪; 张小帅
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-02-10
Filing date: 2020-02-10
Publication date: 2020-06-16
Anticipated expiration: 2040-02-10
Also published as: WO2021159843A1; EP3979129A1; JP2022536320A; KR102610456B1; CN111291742B; US20220130160A1; JP7389824B2; EP3979129A4; KR20210113620A; US11995905B2

Abstract

本公开实施例公开了一种对象识别方法和装置、电子设备、存储介质，涉及人工智能领域，包括：采集待识别对象，根据与待识别对象对应的目标文本检测模型，从待识别对象对应的全量文本信息中筛选并识别得到兴趣点文本信息，根据预设的文本识别模型对兴趣点文本信息进行识别，通过由目标文本检测模型从全量文本信息中筛选并识别得到兴趣点文本信息，避免了现有技术中对全量文本信息的识别，节约了识别的时间，提高了识别的效率。

Description

对象识别方法和装置、电子设备、存储介质

技术领域

本公开涉及数据处理技术领域，尤其涉及人工智能技术领域，具体涉及一种对象识别方法和装置、电子设备、存储介质。

背景技术

光学字符识别(Optical Character Recognition，OCR)主要通过对载体上显示的光学字符进行识别，生成文本输出。以纸质文件的OCR识别为例，通过采集纸质文件上的印刷体得到的光学字符，对其进行识别，即可得到文本信息等数据。例如，通过OCR识别方法定制不同的卡证、票据、报纸和教材等的OCR识别模版，基于OCR识别模版对相应的待识别对象(卡证、票据、报纸和教材等)进行识别。

在现有技术中，通过OCR识别模版中的文本检测模型对待识别对象的全量文本信息(如待识别对象对应的图像中的所有文本等)进行检测，得到检测结果，并基于OCR识别模版中的文本识别模型对检测结果进行识别。

然而，发明人在实现本公开的过程中，发现上述现有技术至少存在以下技术问题：由于文本检测模型对待识别对象对应的全量文本信息识别而导致的识别效率偏低。

发明内容

本公开实施例提供了一种对象识别方法和装置、电子设备、存储介质。

根据本公开实施例的一个方面，本公开实施例提供了一种对象识别方法，所述方法包括：

采集待识别对象；

根据与所述待识别对象对应的目标文本检测模型，从所述待识别对象对应的全量文本信息中筛选并识别得到兴趣点文本信息；

根据预设的文本识别模型对所述兴趣点文本信息进行识别。

在本公开实施例中，通过由目标文本检测模型从全量文本信息中筛选并识别得到兴趣点文本信息，避免了现有技术中对全量文本信息的识别，节约了识别的时间，提高了识别的效率。

在一些实施例中，在所述根据与所述待识别对象对应的目标文本检测模型，从所述待识别对象对应的全量文本信息中筛选并识别得到兴趣点文本信息之前，所述方法还包括：

采用初始文本检测模型生成与采集到的样本对象对应的检测框；

根据所述检测框确定与预设的兴趣点文本信息对应的检测框；

根据确定出的检测框对所述初始文本检测模型进行训练，生成所述目标文本检测模型。

在本公开实施例中，通过确定与兴趣点文本信息对应的检测框，以便基于确定出的检测框对初始文本检测模型进行训练，生成目标文本检测模型，可以得到能从全量文本信息中筛选并识别得到兴趣文本信息的目标文本检测模型，从而实现提高对待识别对象识别的效率。

在另一些实施例中，所述根据所述检测框确定与预设的兴趣点文本信息对应的检测框包括：

根据所述兴趣点文本信息对所述检测框进行修改操作和/或删除操作，其中，所述修改操作包括线段修改、文本修改和四角点位置修改中的至少一种。

在另一些实施例中，在所述根据所述检测框确定与预设的兴趣点文本信息对应的检测框之后，所述方法还包括：

根据预设的文本识别模型对确定出的检测框对应的文本信息进行识别，得到识别结果；

基于所述兴趣点文本信息对应的键值对对所述识别结果中的键值对进行复核；

以及，所述根据确定出的检测框对所述初始文本检测模块进行训练包括：

响应于所述识别结果的键值对与所述兴趣点文本信息对应的键值对相同，根据确定出的检测框对所述初始文本检测模块进行训练。

在本公开实施例中，基于键值对复核的方式作为训练的触发条件，可以确保训练数据的有效性和准确性，从而实现训练结果的可靠性，进而实现识别的精确性。

在一些实施例中，在所述根据与所述待识别对象对应的目标文本检测模型，从所述待识别对象对应的全量文本信息中筛选并识别得到兴趣点文本信息之后，所述方法还包括：

确定与所述兴趣点文本信息对应的文本类型；

以及所述根据预设的文本识别模型对所述兴趣点文本信息进行识别包括：

选取与所述文本类型对应的文本识别模型，根据选取出的文本识别模型对所述兴趣点文本信息进行识别。

在本公开实施例中，通过选择不同的文本识别模型对不同的文本类型的兴趣点文本信息进行识别，以实现有针对性的识别，从而可以提高识别的效率，还可以提高识别的准确性。

根据本公开实施例的另一个方面，本公开实施例还提供了一种对象识别装置，所述装置包括：

采集模块，用于采集待识别对象；

检测模块，用于根据与所述待识别对象对应的目标文本检测模型，从所述待识别对象对应的全量文本信息中筛选并识别得到兴趣点文本信息；

识别模块，用于根据预设的文本识别模型对所述兴趣点文本信息进行识别。

在一些实施例中，所述装置还包括：

训练模块，用于采用初始文本检测模型生成与采集到的样本对象对应的检测框，根据所述检测框确定与预设的兴趣点文本信息对应的检测框，根据确定出的检测框对所述初始文本检测模型进行训练，生成所述目标文本检测模型。

在一些实施例中，所述训练模块用于，根据所述兴趣点文本信息对所述检测框进行修改操作和/或删除操作，其中，所述修改操作包括线段修改、文本修改和四角点位置修改中的至少一种。

在一些实施例中，所述训练模块用于，根据预设的文本识别模型对确定出的检测框对应的文本信息进行识别，得到识别结果，基于所述兴趣点文本信息对应的键值对对所述识别结果中的键值对进行复核，以及，响应于所述识别结果的键值对与所述兴趣点文本信息对应的键值对相同，根据确定出的检测框对所述初始文本检测模块进行训练。

在一些实施例中，所述装置还包括：

确定模块，用于确定与所述兴趣点文本信息对应的文本类型；

以及，所述识别模块用于，选取与所述文本类型对应的文本识别模型，根据选取出的文本识别模型对所述兴趣点文本信息进行识别。

根据本公开实施例的另一个方面，本公开实施例还提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上任一实施例所述的方法。

根据本公开实施例的另一个方面，本公开实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如上任一实施例所述的方法。

本公开实施例提供了一种对象识别方法和装置、电子设备、存储介质，包括：采集待识别对象，根据与待识别对象对应的目标文本检测模型，从待识别对象对应的全量文本信息中筛选并识别得到兴趣点文本信息，根据预设的文本识别模型对兴趣点文本信息进行识别，在本公开实施例中，通过由目标文本检测模型从全量文本信息中筛选并识别得到兴趣点文本信息，避免了现有技术中对全量文本信息的识别，节约了识别的时间，提高了识别的效率。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开实施例的对象识别方法的流程示意图；

图2为本公开实施例的得到目标文本检测模型方法的流程示意图；

图3为本公开另一实施例的得到目标文本检测模型方法的流程示意图；

图4为本公开另一实施例的对象识别方法的流程示意图；

图5为本公开实施例的对象识别方法的应用场景的示意图；

图6为本公开实施例的界面显示的示意图；

图7为本公开实施例的对象识别装置的示意图；

图8为本公开另一实施例的对象识别装置的示意图；

图9为本公开另一实施例的对象识别装置的示意图；

图10为本公开实施例的电子设备的框图。

具体实施方式

以下结合附图对本公开实施例的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开实施例的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

结合上述背景技术可知，在现有技术中，为了对不同的卡证、票据、报纸和教材等进行高效快捷的识别，通常采用的方式为通过OCR识别方法制定相应的OCR识别模版，而在制定相应的OCR识别模版时，是通过采集对应的样本数据，对样本数据进行训练，进而生成OCR识别模版。且，在现有技术中，为了确保识别的可靠性，选取的样本数据的量会偏大，且在训练的过程中，采用的为全量文本信息的检测和识别。

而本公开的发明人在经过创造性的劳动后，想到基于部分文本信息实现对待识别对象的识别，如从全量文本信息中选取兴趣点文本信息，这样，样本数据可在一定程度上减少，且在识别过程中，由于待识别对象的文本信息相对减少，因此识别效率可以相对提高，且由于从全量文本信息中筛选出兴趣点文本信息，因此可以减少噪音信息，提高识别的准确性。

也就是说，在现有技术中，为了提高识别的准确性和效率，采用的构思是尽可能多的增加样本数据，且尽可能的对样本数据中的所有文本信息均进行识别。而本公开的发明人采用的构思是尽可能减少样本数据，且尽可能减少识别的文本信息。

下面以具体地实施例对本公开的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本公开的实施例进行描述。

根据本公开实施例的一个方面，本公开实施例提供了一种对象识别方法。

请参阅图1，图1为本公开实施例的对象识别方法的流程示意图。

如图1所示，该方法包括：

S101：采集待识别对象。

其中，待识别对象为能被OCR识别模版识别的对象。如，待识别对象包括卡证、票据、报纸和教材等。

在一些实施例中，可通过图像采集装置对待识别对象进行采集。其中，图像采集装置包括扫描仪和摄像机等。

S102：根据与待识别对象对应的目标文本检测模型，从待识别对象对应的全量文本信息中筛选并识别得到兴趣点文本信息。

该步骤可具体包括：确定与待识别对象对应的OCR识别模版，确定COR识别模版中的目标文本检测模型，基于目标文本检测模型从待识别对象对应的全量文本信息中筛选出兴趣点特征，并对兴趣点特征进行文本检测，得到兴趣点文本信息。

基于上述示例可知，不同的待识别对象对应不同的OCR识别模版，且OCR识别模版由两部分构成，一部分为文本检测模型，另一部分为文本识别模型。其中，文本检测模型用于对待识别对象的检测，得到待识别对象的文本信息；文本识别模型用于对文本信息进行识别，得到识别结果。

在本公开实施例中，可预先构建待识别对象与OCR识别模版的映射关系，如映射表和索引号等，以便在采集到待识别对象后，基于该映射关系确定出与待识别对象对应的OCR识别模版。

其中，目标文本检测模型是基于对兴趣点文本信息训练得到的，后续将进行详细阐述，此处不再赘述。

其中，全量文本信息，顾名思义，就是全部的文本的信息，即待识别对象对应的所有的文本的信息。而兴趣点文本信息是相对于全量文本信息的概念，是指部分文本信息，即待识别对象对应的部分的文本的信息，且该部分的文本的信息与兴趣点对应，而兴趣点是指待识别对象中受到关注的点的文本的信息。该兴趣点可以为基于用户选定的，如，以待识别对象为名片为例，则兴趣点可以为用户预先基于需求选定的公司信息和职位信息等；该兴趣点还可以为基于预先收集的关于待识别对象的调查数据确定的，即基于调查数据确定该名片被不同人群所关注的点，并进行聚类等处理后确定兴趣点，等等。

结合上述分析可知，在该步骤中，通过采用目标文本检测模型从待识别对象对应的全量文本信息中筛选并识别得到兴趣点文本信息，相较于现有技术中对全量文本信息进行识别，减少了噪音数据和识别的数据量，提高了识别的效率和可靠性。

S103：根据预设的文本识别模型对兴趣点文本信息进行识别。

基于S102可知，由于经过目标文本检测模型后，输出的兴趣点文本信息为全量文本信息中的部分文本信息。因此，在该步骤中，文本识别模型识别的数据量也相对较少，可进一步提高识别的效率。

基于上述示例可知，目标文本检测模型是基于对兴趣点文本信息训练得到的，现结合图2对本公开实施例的得到目标文本检测模型方法进行详细阐述。

如图2所示，得到目标文本检测模型的方法包括：

S01：采用初始文本检测模型生成与采集到的样本对象对应的检测框。

其中，初始文本检测模型为现有技术中的文本检测模型，可以基于神经网络模型和样本数据进行训练生成，此处不再赘述。

其中，检测框用于表征样本对象的检测区域和检测区域内的信息(如文本信息等)。

在S01之前，还包括采集样本对象的步骤。

在一些实施例中，可通过预设的图像集采装置对样本对象进行采集，包括如扫描仪和摄像机，也包括设置的上传窗口，用户可通过上传的形式将样本对象通过上传窗口进行上传。

为确保训练过程的可靠性，可优先对采集到的样本对象进行预处理。

例如，对样本对象进行主体提取，即将样本对象的主体与背景进行分离。具体地，可通过模型将样本对象的主体部分进行提取，去除背景的干扰。其中，主体提取的模型可以采用图像分割模型，如语义图像分割模型DeepLabV3+；又如，工业级分割模型库PaddleSeg，等等。

在进行主体提取后，可对主体提取后的样本对象进行倾斜矫正。

例如，由于拍摄角度等问题，样本对象可能存在一定的倾斜，则对倾斜进行矫正，具体可采用开源计算机视觉库Opencv的矫正算法，完成主体提取后的样本对象的矫正。

在进行矫正后，可对矫正后的样本对象进行缩放。

例如，通过缩放后，不同的样本对象的文本位置接近，以方便训练，并提高训练的可靠性，减少训练误差。具体地，放大可采用超分辨率算法SRCNN实现，而缩小可采用开源计算机视觉库Opencv的缩小算法实现。

在进行缩放后，可对缩放后的样本对象进行图像增强。

例如，为了让缩放后的样本对象的对比度更前，提高识别率，可对缩放后的样本对象进行图像增强。具体地，可采用开源计算机视觉库Opencv的锐化处理，让缩放后的样本对象的边缘更加清晰。更具体地，可采用二阶导数完成锐化，如利用Laplacian算子滤波加缩放后的样本对象的权重像素叠加完成锐化。

S02：根据检测框确定与预设的兴趣点文本信息对应的检测框。

在一些实施例中，该步骤可具体包括：根据兴趣点文本信息对检测框进行修改操作和/或删除操作，其中，修改操作包括线段修改、文本修改和四角点位置修改中的至少一种。

基于上述示例可知，兴趣点文本信息可以为用户选取的兴趣点对应的文本的信息，也可以为预先设置的兴趣点对应的文本信息，且预先设置的兴趣点可以基于调查数据生成的。现以兴趣点文本信息为用户选取的兴趣点对应的文本的信息为例对该步骤进行详细阐述。

在基于初始文本检测模型生成检测框时，可对检测框进行展示，如通过显示设备对检测框进行展示。

用户可基于兴趣点文本信息(即用户感兴趣的点的文本的信息)对检测框进行修改或者删除。

例如，某检测框内的文本存在倾斜文字，则用户可对该倾斜文字进行适应性调整；又如，某检测框中的部分文字已超出检测框，则用户可对该检测框的大小进行适应性的调整，具体可以对检测框的线段进行适应性调整，或者对检测框的四角点位置进行适应性的调整；又如，某检测框内的文本信息为非兴趣点信息文本，即该检测框内的文本信息为用户不感兴趣的文本信息，则用户可将该检测框进行删除，等等，此处不再一一列举。

S03：根据确定出的检测框对初始文本检测模型进行训练，生成目标文本检测模型。

在该步骤中，基于确定出的检测框对初始文本检测模型进行二次训练，以便生成目标文本检测模型。

值得说明的是，通过二次训练的方式生成目标文本检测模型，相对于重新训练可以提高生成目标文本检测模型的效率，节约训练成本。

结合图3可知，在一些实施例中，在S02之后，该方法还包括：

S02’：根据预设的文本识别模型对确定出的检测框对应的文本信息进行识别，得到识别结果。

在本公开实施例中，具体的识别方法可参见现有技术，此处不再赘述。

S03’：基于兴趣点文本信息对应的键值对对识别结果中的键值对进行复核。

基于兴趣点文本信息对应的键值对对识别结果中的键值对进行复核，可以确定出识别结果中的键值对和兴趣点文本信息对应的键值对是否相同。即，对两个键值对复核的过程可以理解为判断两个键值对是否相同的过程。

以及，S03包括：响应于识别结果的键值对与兴趣点文本信息对应的键值对相同，根据确定出的检测框对初始文本检测模块进行训练。

值得说明的是，基于识别结果的键值对对兴趣点文本信息对应的键值对进行复核，得到的复核结果可能为识别结果的键值对与兴趣点文本信息对应的键值对不同，如基于识别结果的键值对可知，A处为键(如姓等)，而基于兴趣点文本信息对应的键值对可知，A处为值(如名等)，则说明该识别结果对应的样本数据可能为异常样本数据，则可将该识别结果对应的检测框删除，或者对该识别结果对应的检测框进行适应性的修改，以便后续进行训练。

又如，若基于识别结果的键值对可知，A处为键(如姓等)，且基于兴趣点文本信息对应的键值对可知，A处为键(如姓等)，则说明该识别结果对应的样本数据为正常样本数据，则将该结果对应的检测框作为后续训练的输入信息。

在本公开实施例中，基于键值对的复核可对异常样本数据进行排除，以保留正常样本数据，以便基于正常样本数据对应的检测框进行训练，可以提高训练结果的可靠性和准确性，即可确保目标文本检测模型的可靠性和准确性，进而实现准确且有效的识别的技术效果。

在一些实施例中，结合图4可知，在S102之后，该方法还包括：

S102’：确定与兴趣点文本信息对应的文本类型。

值得说明的是，为了确保识别结果的可靠性和准确性，且提高识别的效率，在本公开实施例中，通过对兴趣点文本信息对应的文本类型确定，可基于不同的兴趣点文本信息选择与其各自对应的文本类型，以便后续基于不同的文本类型适应性地选择文本识别模型进行识别。

其中，文本类型包括但不限于文字、手写体和字母等。

在一些实施例中，可对兴趣点文本信息进行分析，得到与其对应的文本类型。

在另一些实施例中，结合上述示例，可基于与用户的交互而生成兴趣点文本信息。因此，也可以基于与用户的交互预先存储与兴趣点文本信息对应的文本类型。

例如，基于与用户的交互，将用户为检测框内的文本信息选择的文本类型进行存储，并当需要对兴趣点文本信息进行识别时，调用存储的文本类型对应的文本识别模型。

以及，S103包括：选取与文本类型对应的文本识别模型，根据选取出的文本识别模型对兴趣点文本信息进行识别。

例如，若兴趣点文本信息对应的文本类型为手写体，则基于手写体的文本识别模型对该兴趣点文本信息进行识别。

值得说明的是，兴趣点文本信息中不同的区域对应的文本类型可能不同，则针对不同区域，选取不同的文本识别模型，以便基于不同的文本识别模型对不同区域进行识别。

为是更加深刻的对本公开实施例的方案及效果进行理解，现结合图5(图5为本公开实施例的对象识别方法的应用场景的示意图)对本公开实施例的对象识别方法进行详细阐述。其中，本公开实施例的执行主体为对象识别装置，且如图5所示，对象识别装置可包括计算机100，且通过用户200与计算机100的交互实现本公开实施例的对象识别方法。

其中，本公开实施例可分为两个部分，一个部分为训练部分，另一个部分为识别部分。

具体地，训练部分包括对OCR识别模版进行训练，而OCR识别模版可包括文本检测模型和文本识别模型。其中，文本检测模型用于对待识别对象进行识别，得到待识别对象对应的文本信息。需要说明的是，在现有技术中，文本检测模型用于对待识别对象进行识别，得到待识别对象的全量文本信息。而在本公开实施例中，文本检测模型对待识别对象进行识别，得到待识别对象的兴趣点文本信息，而本公开实施例中的文本检测模型之所以能够实现经识别得到兴趣点文本信息，下面将结合训练的原理进行详细的解释。

为了区分训练过程中采集的识别对象与基于训练得到的OCR识别模版对识别对象进行识别，将训练过程中的识别对象称为样本对象，将识别过程中的对象称为待识别对象；以及为了区分训练过程中基于的训练模型与训练得到的模型的区别，在模型前增加用于区分的“初始”和“目标”等进行限定，等等。

如图5所示，计算机100对用户200输入的样本对象进行采集。

在一些实施例中，计算机100可设置并显示上传样本对象的窗口，用户200将样本对象通过该窗口传输至计算机100。

当然，在另一些实施例中，如图5所示，还可设置扫描仪300，扫描仪300与计算机100通信连接。用户100将样本对象放入扫描仪300(可参阅图5中的放置方式)，由扫描仪300对样本对象进行扫描，并将扫描后的样本对象传输至计算机100。

计算机100调用预先存储的初始文本检测模型，由初始文本检测模型对样本对象进行识别，生成并显示相应的检测框，请参阅图6中的6-1(用虚线框代表检测框)。

用户200对检测框执行适应性操作，以生成与兴趣点文本信息对应的检测框。

在该步骤中，由于涉及用户200与计算机100之间的交互，因此，用户执行的适应性操作可能为其基于需求执行的，即用户心里设定了兴趣点，并执行适应性操作，以便生成与兴趣点文本信息对应的检测框。

如图6中的6-1所示，用户对检测框“客户至上，诚信服务”进行了删除，并对检测框“电话：150XXXXXXXX”进行了四角点位置修改。修改后图可参见图6中的6-2。

将如图6中的6-2所示的数据作为二次训练的样本数据，基于该样本数据对初始文本检测模型进行二次训练，生成目标文本检测模型。

在一些实施例中，训练的样本对象的样本量可基于需求进行设置，若采用的为用户交互的方式，可采用相对较少的样本量，如将样本量可设置为十，则计算机100将用户200对十个样本对象进行适应性操作后生成的样本数据作为二次训练的数据。

且，用户200可选择与兴趣点文本信息对应的检测框的文字类型，如检测框“电话：150XXXXXXXX”，用户200可选择数字类型，以便在计算机100识别过程中，调用预先存储的与数字类型对应的文本识别模型，由该文本识别模型对该检测框进行识别，从而提高识别的效率。

若经过迭代训练后，识别的准确度达到了预设要求，则生成包括目标文本检测模型和文本识别模型的OCR识别模版。

至此，训练部分结束。

在识别部分中，用户200也通过上述方式将待识别对象输入至计算机100。

计算机100从经过上述方法训练得到的OCR识别模版中选取与待识别对象对应的OCR识别模版，以便基于该OCR识别模版对待识别对象进行识别。

具体地，计算机100先调用OCR识别模版中的目标文本检测模型对待识别对象进行识别，得到与待识别对象对应的兴趣点文本信息。

值得说明的是，由于在训练部分中，是基于兴趣点文本信息对初始文本检测模型进行二次训练得到目标文本检测模型，因此，基于目标文本检测模型可以识别出与待识别对象与兴趣点文本信息。从而实现减少识别量，提高识别效率。

在识别出兴趣点文本信息后，可通过对兴趣点文本信息进行分析，或者基于用户200选取的文本类型调用相应的文本识别模型，由该文本识别模型对该兴趣点文本信息进行识别。

至此，识别部分结束。

值得说明的是，上述示例只是结合应用场景对本公开实施例进行示范性的说明，而不能理解为对公开实施例的范围的限定。

根据本公开实施例的另一个方面，本公开实施例还提供了一种对象识别装置。

请参阅图7，图7为本公开实施例的对象识别装置的示意图。

如图7所示，该装置包括：

采集模块10，用于采集待识别对象；

检测模块20，用于根据与所述待识别对象对应的目标文本检测模型，从所述待识别对象对应的全量文本信息中筛选并识别得到兴趣点文本信息；

识别模块30，用于根据预设的文本识别模型对所述兴趣点文本信息进行识别。

在一些实施例中，结合图8可知，该装置还包括：

训练模块40，用于采用初始文本检测模型生成与采集到的样本对象对应的检测框，根据所述检测框确定与预设的兴趣点文本信息对应的检测框，根据确定出的检测框对所述初始文本检测模型进行训练，生成所述目标文本检测模型。

在一些实施例中，所述训练模块40用于，根据所述兴趣点文本信息对所述检测框进行修改操作和/或删除操作，其中，所述修改操作包括线段修改、文本修改和四角点位置修改中的至少一种。

在一些实施例中，所述训练模块40用于，根据预设的文本识别模型对确定出的检测框对应的文本信息进行识别，得到识别结果，基于所述兴趣点文本信息对应的键值对对所述识别结果中的键值对进行复核，以及，响应于所述识别结果的键值对与所述兴趣点文本信息对应的键值对相同，根据确定出的检测框对所述初始文本检测模块进行训练。

在一些实施例中，结合图9可知，该装置还包括：

确定模块50，用于确定与所述兴趣点文本信息对应的文本类型；

以及，所述识别模块30用于，选取与所述文本类型对应的文本识别模型，根据选取出的文本识别模型对所述兴趣点文本信息进行识别。

根据本公开实施例的另一个方面，本公开还提供了一种电子设备和一种可读存储介质。

根据本公开的实施例，本公开还提供了一种电子设备和一种可读存储介质。

如图10所示，图10为本公开实施例的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开实施例的实现。

如图10所示，该电子设备包括：一个或多个处理器101、存储器102，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图10中以一个处理器101为例。

存储器102即为本公开实施例所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本公开实施例所提供的对象识别方法。本公开实施例的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本公开实施例所提供的对象识别方法。

存储器102作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本公开实施例中的推荐对应的程序指令/模块。处理器101通过运行存储在存储器102中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的对象识别方法。

存储器102可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器102可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器102可选包括相对于处理器101远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、区块链服务网络(Block-chain-based Service Network，BSN)、移动通信网及其组合。

电子设备还可以包括：输入装置103和输出装置104。处理器101、存储器102、输入装置103和输出装置104可以通过总线或者其他方式连接，图10中以通过总线连接为例。

输入装置103可接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置104可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、区块链服务网络(Block-chain-based Service Network，BSN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种对象识别方法，其特征在于，所述方法包括：

采集待识别对象；

根据预设的文本识别模型对所述兴趣点文本信息进行识别。

2.根据权利要求1所述的方法，其特征在于，在所述根据与所述待识别对象对应的目标文本检测模型，从所述待识别对象对应的全量文本信息中筛选并识别得到兴趣点文本信息之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述检测框确定与预设的兴趣点文本信息对应的检测框包括：

4.根据权利要求2所述的方法，其特征在于，在所述根据所述检测框确定与预设的兴趣点文本信息对应的检测框之后，所述方法还包括：

5.根据权利要求1至4中任一项所述的方法，其特征在于，在所述根据与所述待识别对象对应的目标文本检测模型，从所述待识别对象对应的全量文本信息中筛选并识别得到兴趣点文本信息之后，所述方法还包括：

确定与所述兴趣点文本信息对应的文本类型；

6.一种对象识别装置，其特征在于，所述装置包括：

采集模块，用于采集待识别对象；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求7所述的装置，其特征在于，所述训练模块用于，根据所述兴趣点文本信息对所述检测框进行修改操作和/或删除操作，其中，所述修改操作包括线段修改、文本修改和四角点位置修改中的至少一种。

9.根据权利要求7所述的装置，其特征在于，所述训练模块用于，根据预设的文本识别模型对确定出的检测框对应的文本信息进行识别，得到识别结果，基于所述兴趣点文本信息对应的键值对对所述识别结果中的键值对进行复核，以及，响应于所述识别结果的键值对与所述兴趣点文本信息对应的键值对相同，根据确定出的检测框对所述初始文本检测模块进行训练。

10.根据权利要求6至9中任一项所述的装置，其特征在于，所述装置还包括：

11.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。