CN113705706A

CN113705706A - 基于图像识别的数据分类方法

Info

Publication number: CN113705706A
Application number: CN202111022955.3A
Authority: CN
Inventors: 田雪松; 陈天
Original assignee: Beijing Yundie Zhixue Technology Co ltd
Current assignee: Beijing Yundie Zhixue Technology Co ltd
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2021-11-26

Abstract

本发明涉及一种基于图像识别的数据分类方法，所述方法包括：用户终端根据用户输入的获取指令获取待识别图像数据；用户终端对待识别图像数据进行降噪处理，得到降噪后的待识别图像数据并发送至服务器；服务器根据神经网络模型对待识别图像数据进行识别处理，得到试题文本信息；分割试题文本信息，得到一个或多个字符串数据；对比字符串数据与试题特征数据库中的字符串特征参数，根据对比结果确定试题特征数据；根据试题特征数据确定试题存储数据库；将试题文本信息存储入试题存储数据库中。本发明实施例提供的基于图像识别的数据分类方法，有利于用户后续根据试题的知识点更有效、精准的查询试题。

Description

基于图像识别的数据分类方法

技术领域

本发明涉及数据处理技术领域，尤其涉及基于图像识别的数据分类方法。

背景技术

随着社会经济的快速稳定发展，以及国家对教育信息化大力支持，尤其是对基础教育信息化的资金扶持，加快了教育信息化的建设步伐。自教育踏上软件市场这个舞台之后，随着互联网技术的日新月异并逐步普及，以及国家对教育培训产业的重视和投资力度的加大，教育软件已经占领整个软件市场的三分之一份额，与办公软件、财务软件形成三分天下的局面。

在现有的教育软件中，软件中的试题都是无序存储在题库中的，在用户想要查询题库中的试题时，查询速度慢，且通常无法有效、精准的查询到用户所需的试题。

发明内容

本发明的目的是针对现有技术的缺陷，提供一种基于图像识别的数据分类方法，通过根据试题的知识点将试题存储入各个不同的试题存储数据库中，使得试题可以按知识点归类存储，有利于用户后续根据试题的知识点更有效、精准的查询试题。

为实现上述目的，本发明提供了基于图像识别的数据分类方法，所述基于图像识别的数据分类方法包括：

用户终端根据用户输入的获取指令获取待识别图像数据；

所述用户终端对所述待识别图像数据进行降噪处理，得到降噪后的待识别图像数据并发送至服务器；

所述服务器根据神经网络模型对所述待识别图像数据进行识别处理，得到试题文本信息；

分割所述试题文本信息，得到一个或多个字符串数据；

对比所述字符串数据与试题特征数据库中的字符串特征参数，根据对比结果确定试题特征数据；

根据所述试题特征数据确定试题存储数据库；

将所述试题文本信息存储入所述试题存储数据库中。

优选的，所述用户终端根据用户输入的获取指令获取待识别图像数据具体为：

所述用户终端根据所述用户输入的获取指令获取原始图像数据，并显示；

接收所述用户根据所述原始图像数据输入的区域选择指令，根据所述区域选择指令得到所述待识别图像数据。

优选的，所述降噪处理包括调整待识别图像数据大小和灰度处理。

优选的，一个所述试题文本信息对应一个或多个所述试题特征数据。

优选的，在所述将所述试题文本信息存储入所述试题存储数据库中之后，所述方法还包括：

所述用户终端获取所述用户输入的查询指令，并将所述查询指令发送至所述服务器；所述查询指令包括所述试题特征数据；

所述服务器根据所述试题特征数据得到一个或多个试题文本信息，并将所述一个或多个试题文本信息发送至所述用户终端，用以所述用户终端显示所述一个或多个试题文本信息。

优选的，在所述获取指令获取待识别图像数据之前，所述方法还包括：

所述用户终端获取所述用户终端中的摄像装置的使用权限。

本发明实施例提供的基于图像识别的数据分类方法，通过根据试题的知识点将试题存储入各个不同的试题存储数据库中，使得试题可以按知识点归类存储，有利于用户后续根据试题的知识点更有效、精准的查询试题。

附图说明

图1为本发明实施例提供的基于图像识别的数据分类方法的流程图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

本发明实施例提供的一种基于图像识别的数据分类方法，实现于可以连接到网络的智能终端中，用于对用户所上传的试题的进行归类存储。其方法流程图如图1所示，包括如下步骤：

步骤101，用户终端根据用户输入的获取指令获取待识别图像数据；

具体的，用户终端可以理解为具有联网功能的智能设备，例如智能手机。当用户需要上传试题到题库中时，首先要在用户终端中登录账户信息。用户账户信息包括用户的用户ID。用户的用户ID可以理解为用户的唯一身份标识。

用户在登录账户信息之后向用户终端输入获取指令。获取指令可以理解为获取待上传的试题的指令。待上传的试题可以是通过摄像装置拍摄下来的，也可以为用户在用户终端中手动输入的。但无论待上传的试题是拍照获取的还是手动输入的，待上传的试题都是图片形式的数据。

当待上传的试题是通过摄像装置拍摄下来的时，用户终端需要向用户获取摄像和麦克风等装置的使用权限。在用户终端获取到了摄像和麦克风等装置的使用权限后，用户终端根据用户输入的获取指令通过摄像装置获取原始图像数据，并将原始图像数据显示给用户。用户根据所述原始图像数据输入区域选择指令，用户终端接收到区域选择指令后，根据区域选择指令得到待识别图像数据。其中，原始图像数据可以理解为用户通过摄像装置拍照下的原始照片。待识别图像数据可以理解为用户对原始照片进行区域截取后原始照片中的待上传的试题部分。这一过程可以理解为用户选取已拍下的照片中内容的过程，有利于后续对照片内容进行更高效的识别。

同样，当待上传的试题为用户在用户终端中手动输入时，用户也可以对手动输入的内容进行选取。选取时，步骤同样为用户根据所述原始图像数据输入区域选择指令，用户终端接收到区域选择指令后，根据区域选择指令得到待识别图像数据。

步骤102，用户终端对待识别图像数据进行降噪处理，并将降噪后的待识别图像数据发送至服务器；

具体的，由于现在的摄像设备获取到的图像多为高分辨率的彩色图像，而高分辨率的彩色图像的数据存储量比较大，不利于后续对图像的处理。因此用户终端在获取到待识别图像数据后，首先对待识别图像数据进行降噪处理。优选的，降噪处理包括调整图像大小和灰度处理。用户终端将待识别图像数据缩放为预设的大小，且通道为单通道灰度图像。

然后，用户终端将降噪后的待识别图像数据进行压缩处理，并打包发送至服务器，以便服务器对降噪后的待识别图像数据进行后续处理。并且，降噪后的待识别图像数据携带有用户的用户ID，用以服务器区分当前待识别图像数据是由哪个用户发送的。

步骤103，服务器根据神经网络模型对待识别图像数据进行识别处理，得到试题文本信息；

具体的，神经网络模型(Neural Network，NN)是一种模拟人类实际神经网络的数据模型，它是由大量的、简单的处理单元广泛地互相连接而形成的复杂网络系统，也可以理解为一个高度复杂的非线性动力学习系统。NN模型具有自学习功能的优越性。例如，实现图像识别时，只在先把许多不同的图片和对应的识别的特征(识别结果)输入NN模型中，NN模型就会通过自学习功能，得出的一系列用于预测输出变量的新特征。

优选的，本发明实施例中采用卷积神经网络模型(Convolutional NeuralNetwork，CNN)和循环神经网络模型(Recurrent Neural Network，RNN)识别待识别图像数据。服务器先将接收到的待识别图像数据压缩包进行解压，释放出待识别图像数据，在根据CNN模型和RNN模型识别待识别图像数据上的文字信息，得到待识别图像数据中的试题文本信息。试题文本信息可以理解即为用户上传的试题的文字信息。

步骤104，分割所述试题文本信息，得到一个或多个字符串数据；

具体的，服务器根据预设的语法模型分割试题文本信息，从被分割的试题文本信息中提取一个或多个字符串信息。这一过程可以理解为去除题目中助词等没有价值的词汇，并提取出题目中对于答题具有关键作用的关键信息的过程。这里，字符串数据可以理解为试题的关键字。

在一个具体的例子中，当用户终端拍摄到的题目为：

“--Do you know Paul is___boy in Class 5？

--Yes.He is very good at playing basketball.

A.tall B.taller C.tallest D.the tallest”

则服务器根据预设的语法模型和预设的语义模型的到题目的字符串数据包括“tall、taller、tallest和the tallest”。

在一个具体的例子中，当用户终端拍摄到的题目为：

“若抛物线y＝x²+2x+c与x轴没有交点，写出一个满足条件c的值：___。”

则服务器根据预设的语法模型和预设的语义模型的到题目的字符串数据包括“抛物线、y＝x²+2x+c、交点和写出c值”。

步骤105，对比字符串数据与试题特征数据库中的字符串特征参数，根据对比结果确定试题特征数据；

具体的，服务器中存储有试题特征数据库。试题特征数据库可以理解为根据试题的知识点特征设置的库。试题特征数据库中存储有字符串特征参数和试题特征数据。

试题特征数据可以理解为试题的知识点。与字符串数据可以理解为试题的关键字相对应，字符串特征参数可以理解为预设的根据试题知识点的关键字。根据知识点的关键字可以确定试题的知识点。通常，一个试题的知识点可能会包括多个关键字，因此在试题特征数据库中，每个试题特征数据对应一个或多个字符串特征参数。

服务器首先对比字符串数据与试题特征数据库中的字符串特征参数，确定与当前字符串数据最接近的字符串特征参数，再根据这个与字符串数据最近似的字符串特征参数确定字符串特征参数所对应的试题特征数据。这一过程可以理解为对比试题的关键字与预设的知识点的关键字，确定试题的知识点的过程。

在一个具体的例子中，字符串数据为“抛物线、y＝x²+2x+c、交点和写出c值”。试题特征数据库中存储有“抛物线、y＝ax²+bx+c、写出c值”的字符串特征参数，且“抛物线、y＝ax²+bx+c、写出c值”的字符串特征参数所对应的试题特征数据为“二次函数图像与系数的关系”。则服务器在特征数据库中查询到与字符串数据“抛物线、y＝x²+2x+c、交点和写出c值”最接近的字符串特征参数为“抛物线、y＝ax²+bx+c、写出c值”，并确定“抛物线、y＝ax²+bx+c、写出c值”的字符串特征参数所对应的试题特征数据为“二次函数图像与系数的关系”，最终确定试题特征数据为“二次函数图像与系数的关系”。

步骤106，根据试题特征数据确定试题存储数据库；

具体的，服务器中除了存储有试题特征数据库，还存储有多个试题存储数据库。每个试题存储数据库所对应的试题特征数据不同。不同的试题存储数据库代表了存储的试题知识点不同，而存储在相同的试题存储数据库中的试题，试题的知识点至少有一点相同，试题的知识点即当前试题存储数据库所对应的试题特征数据。服务器根据已确定的当前试题的试题特征数据确定一个或多个当前试题对应的试题存储数据库。

在一个具体的例子中，服务器根据“二次函数图像与系数的关系”确定出的试题存储数据库为“二次函数图像与系数的关系试题数据库”。

步骤107，将试题文本信息存储入试题存储数据库中；

具体的，服务器将试题文本信息存储入已确定出的各个试题存储数据库中，实现试题归类存储。也就是说，一个试题文本信息会分别存储在多个不同的数据库中。

当用户想要查询某一个具体知识点的试题时，需要向用户终端输入的查询指令。查询指令包括试题特征数据，也就是包括用户想要查询的知识点。用户终端获取用户输入的查询指令后，将查询指令发送至服务器。

服务器根据试题类型信息从试题存储数据库中获取一个或多个试题文本信息，并将一个或多个试题文本信息发送至用户终端，用以用户终端向用户显示想要查询某一个具体知识点的试题。

在一个具体的例子中，服务器确定出的试题存储数据库为“二次函数图像与系数的关系试题数据库”，则服务器将“若抛物线y＝x²+2x+c与x轴没有交点，写出一个满足条件c的值：____。”存储入“二次函数图像与系数的关系试题数据库”中。

而当用户终端输入的查询“二次函数图像与系数的关系”的指令时，服务器在“二次函数图像与系数的关系试题数据库”试题存储数据库中查询数据库中的试题的文本信息，并将这些的试题的文本信息反馈至用户终端中，使得用户显示包括“若抛物线y＝x²+2x+c与x轴没有交点，写出一个满足条件c的值：___。”这道题在内的所有“二次函数图像与系数的关系”试题。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、用户终端执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于图像识别的数据分类方法，其特征在于，所述基于图像识别的数据分类方法包括：

用户终端根据用户输入的获取指令获取待识别图像数据；

分割所述试题文本信息，得到一个或多个字符串数据；

根据所述试题特征数据确定试题存储数据库；

将所述试题文本信息存储入所述试题存储数据库中。

2.根据权利要求1所述的基于图像识别的数据分类方法，其特征在于，所述用户终端根据用户输入的获取指令获取待识别图像数据具体为：

3.根据权利要求1所述的基于图像识别的数据分类方法，其特征在于，所述降噪处理包括调整待识别图像数据大小和灰度处理。

4.根据权利要求1所述的基于图像识别的数据分类方法，其特征在于，一个所述试题文本信息对应一个或多个所述试题特征数据。

5.根据权利要求1所述的基于图像识别的数据分类方法，其特征在于，在所述将所述试题文本信息存储入所述试题存储数据库中之后，所述方法还包括：

6.根据权利要求1所述的基于图像识别的数据分类方法，其特征在于，在所述获取指令获取待识别图像数据之前，所述方法还包括：

所述用户终端获取所述用户终端中的摄像装置的使用权限。