CN110377218B

CN110377218B - 数据处理方法、装置、计算机设备和存储介质

Info

Publication number: CN110377218B
Application number: CN201910562432.4A
Authority: CN
Inventors: 支堃
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2021-09-28
Anticipated expiration: 2039-06-26
Also published as: CN110377218A

Abstract

本申请涉及一种数据处理方法、装置、计算机设备和存储介质。所述方法包括：获取当前文件的展示界面和对应的触摸操作，根据触摸操作的位置信息从当前展示界面中确定目标区域，将目标区域输入当前文件对应的已训练的图像识别模型，识别目标区域中的目标对象，获取与目标对象对应的音频数据，播放音频数据。通过实时对文件的展示界面的触摸操作进行区域划分，确定目标对象所在的区域，并识别目标对象，获取与目标对象对应的音频数据，播放音频数据，通过自动识别目标对象，仅需要建立文件与模型的链接，以及各个目标对象与音频数据的链接，使得数据处理变得更为高效。

Description

数据处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据处理方法、装置、计算机设备和存储介质。

背景技术

现有的界面交互，基本都是通过触摸屏幕操作，根据触摸操作触发对应的控件，获取与控件对应的音频数据，播放音频数据，直接对音频数据进行简单的链接，直接通过链接获取对应的数据，需要对各个展示页面的中的控件进行数据链接设计，数据处理效率低下。

发明内容

为了解决上述技术问题，本申请提供了一种数据处理方法、装置、计算机设备和存储介质。

第一方面，本申请提供了一种数据处理方法，包括：

获取当前文件的展示界面和对应的触摸操作；

根据触摸操作的位置信息从当前展示界面中确定目标区域；

将目标区域输入当前文件对应的已训练的图像识别模型，识别目标区域中的目标对象；

获取与目标对象对应的音频数据，播放音频数据。

第二方面，本申请提供了一种数据处理装置，包括：

数据获取模块，用于获取当前文件的展示界面和对应的触摸操作；

目标区域确定模块，用于根据触摸操作的位置信息从当前展示界面中确定目标区域；

识别模块，将目标区域输入当前文件对应的已训练的图像识别模型，识别目标区域中的目标对象；

播放模块，用于获取与目标对象对应的音频数据，播放音频数据。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取当前文件的展示界面和对应的触摸操作；

根据触摸操作的位置信息从当前展示界面中确定目标区域；

获取与目标对象对应的音频数据，播放音频数据。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取当前文件的展示界面和对应的触摸操作；

根据触摸操作的位置信息从当前展示界面中确定目标区域；

获取与目标对象对应的音频数据，播放音频数据。

上述数据处理方法、装置、计算机设备和存储介质，所述方法包括：获取当前文件的展示界面和对应的触摸操作，根据触摸操作的位置信息从当前展示界面中确定目标区域，将目标区域输入当前文件对应的已训练的图像识别模型，识别目标区域中的目标对象，获取与目标对象对应的音频数据，播放音频数据。通过实时对文件的展示界面的触摸操作进行区域划分，确定目标对象所在的区域，并识别目标对象，获取与目标对象对应的音频数据，播放音频数据，通过自动识别目标对象，仅需要建立文件与模型的链接，以及各个目标对象与音频数据的链接，使得数据处理变得更为高效。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中数据处理方法的应用环境图；

图2为一个实施例中数据处理方法的流程示意图；

图3为一个实施例中数据处理装置的结构框图；

图4为一个实施例中计算机设备的内部结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为一个实施例中数据处理方法的应用环境图。参照图1，该数据处理方法应用于数据处理系统。该数据处理系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110获取当前文件的展示界面和对应的触摸操作，根据触摸操作的位置信息从当前展示界面中确定目标区域，将目标区域输入当前文件对应的已训练的图像识别模型，识别目标区域中的目标对象，获取与目标对象对应的音频数据，播放音频数据。其中，终端110具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

如图2所示，在一个实施例中，提供了一种数据处理方法。本实施例主要以该方法应用于上述图1中的终端110(或服务器120)来举例说明。参照图2，该数据处理方法具体包括如下步骤：

步骤S201，获取当前文件的展示界面和对应的触摸操作。

具体地，当前文件是指可以在终端进行播放的文件包括视频文件和文档。展示界面为文档在终端的展示页面和视频文件在终端播放的视频帧。触摸操作为用户在展示界面执行的操作，触摸操作可以为点击、滑动等等用于与终端界面执行交互的操作事件。

在一个实施例中，在步骤S201之前，还包括：绑定各个文件与已训练的图像识别模型，保存各个文件与已训练的图像识别模型的对应关系。

步骤S202，根据触摸操作的位置信息从当前展示界面中确定目标区域。

具体地，触摸操作的位置信息为触摸操作在展示界面上的触摸位置，位置信息包括至少一组坐标数据。目标区域为当前展示界面中的包含目标对象的区域，目标区域可以为当前展示界面的部分区域或全部区域，其中目标对象可以为真实的人、动物、水果、蔬菜、花草和树木，还可以为卡通形象，其中卡通形象为常见的动画片和动漫中的形象等等。

在一个实施例中，步骤S202，包括：获取预设窗口，预设窗口包括窗口尺寸，根据位置信息确定预设窗口在展示界面中的区域，将预设窗口对应的区域作为目标区域。

具体地，预设窗口为预先配置的窗口，包括窗口的尺寸，窗口的尺寸用户可以自定义，也可以是服务器定义好的窗口，其中同一个文件中，各个目标区域的区域面积可以相同也可以不相同。如可以根据各个文件中的最大的目标对象所占的区域面积定义目标区域面积，也可以预先定义存储各个触摸位置对应的目标区域的窗口大小定义目标区域大小。如在同一文件中的可以设置预设窗口的尺寸为A*B，其中A*B是根据文件中的面积占比最大的目标对象确定的。也可以设置展示页面A中的位置A1对应的预设窗口的尺寸为C*D，位置A2对应的预设窗口的尺寸为E*F。根据位置信息确定预设窗口在展示界面中的目标区域时的具体确定方式可以自定义设置，如可以将位置信息作为预设窗口的中心，或目标区域的其中一个顶点等等，根据位置信息和预设窗口确定目标区域。

在一个实施例中，展示界面中包含输入窗口信息预设控件，获取预设窗口之前，还包括：接收用户在预设控件中输入的窗口尺寸信息，根据窗口尺寸信息自动生成预设窗口。

具体地，预设控件是用于接收用户输入的自定义窗口信息的控件。预设窗口为根据用户通过预设控件自定义的窗口信息自动生成的窗口，其中窗口信息包括窗口的窗口尺寸，如窗口的长度和宽度，根据长度和宽度信息生成预设窗口。如用户在预设空间中定义的窗口长度为A，宽度为B。生成预设窗口后，用户还更改预设窗口的尺寸信息，通过滑动窗口和更改预设窗口的尺寸信息，使得目标对象在预设窗口对应的区域。

在一个实施例中，检测用户的触摸操作对应的位置信息，其中位置信息可以为一个触摸操作确定的，还可以是通过多个触摸操作确定的。如用户在文档的展示页面的四个不同的位置上点击四次，得到四个位置的坐标数据，根据四个坐标数据确定一个区域。

在一个实施例中，步骤S202，包括：根据滑动操作的位置信息确定滑动操作对应的闭合区域，将闭合区域作为目标区域。

具体地，滑动操作包含至少一个操作，执行滑动操作后划定的区域可能存在不规则，或则不闭合的情况，当出现不规则或不闭合的情况时，对划定的区域进行预处理，得到一个闭合的规则的矩形区域，将闭合的规则的矩形区域作为目标区域。

步骤S203，将目标区域输入当前文件对应的已训练的图像识别模型，识别目标区域中的目标对象。

具体地，已训练的图像识别模型是指通过大量的携带目标对象标签的图像进行训练后得到的图像识别模型。在对图像模型进行训练时，一个图像模型可以识别多个目标对象，如识别猫、狗、兔子等动物，其中动物包括真实动物进行拍摄的图像和卡特动物形象。

在一个实施例中，在步骤S203之前，还包括：生成已训练的图像识别模型的步骤，具体步骤包括：构建初始图像识别模型，获取包含多个训练图像的训练集合，各个训练图像包含待识别对象和对应的标签，将各个训练图像输入初始图像识别模型，得到各个训练图像的识别结果，根据各个训练图像的识别结果和对应的标签，判断初始图像识别模型是否满足模型收敛条件，当初始图像识别模型满足模型收敛条件时，得到已训练的图像识别模型，当初始图像识别模型未满足模型收敛条件时，更新初始图像识别模型的参数，直至初始图像识别模型满足模型收敛条件，得到已训练的图像识别模型。

具体地，初始图像识别模型为预先构建的，用于识别图像中的待识别对象的数学模型。数学模型为常见的深度学习网络模型、神经网络模型等等。训练图像包括但不限于拍摄设备采集的图像、设计者的设计图像等等。标签用于标识待识别对象的标签数据，标签数据可以自定义，如使用不同的状态位对应不同的待识别对象，如模型可以识别的对象包括3种，则包含3个状态位，如定义后的排序为{猫、狗、兔子}，则{1，0，0}表示猫，{0，1，0}表示狗，则{0，0，1}表示兔子。也可以直接用数字进行标定，如数字1表示猫、数字2表示狗、数字3表示兔子。

将各个训练图像输入初始图像识别模型，通过初始图像识别模型对各个训练图像进行识别，得到各个训练图像对应的识别结果，判断各个训练图像的识别结果是否与标签匹配，匹配表示识别成功，失败表示识别错误。收敛条件适用于判断模型的收敛状态的，收敛状态可以是通过模型的识别准确率确定的，也可以根据模型的损失值确定的，其中损失值的函数可以自定义，如可以定义计算图像特征的方差的公式作为损失函数，还可以定义计算图像特征的方差的对数的公式作为损失函数。将损失值为最小时的初始图像识别模型作为已训练的图像识别模型。

初始图像识别模型未满足收敛条件，模型未收敛时，更新模型的参数，模型的参数更新时采用常见的模型更新方法，如采用最小梯度下降法更新模型参数。

在一个实施例中，将模型的训练次数作为模型收敛条件，如当模型的训练次数达到10000次时，将训练1000次后的初始图像识别模型作为已训练的图像识别模型。当模型的训练次数未达到10000次时，继续训练模型，更新模型参数，直到模型的训练次数达到1000次。

在一个实施例中，统计各个训练图像的识别结果和对应的标签的匹配结果，得到正确识别率，判断正确识别率是否大于预设正确识别率，当正确识别率大于或等于预设正确识别率，得到已训练的图像识别模型，当正确识别率小于预设正确识别率时，进入更新初始图像识别模型的参数。

具体地，正确识别率为初始图像识别模型对训练图像进行识别后，统计识别结果得到的识别率，识别结果与对应的标签相匹配的，识别正确，识别结果与对应的标签不匹配的，识别错误，通过统计错误率和/或正确率，得到正确识别率，判断正确识别率是否大于预先设置的预设正确识别率，当大于预设正确识别率时，模型收敛，得到已训练的图像识别模型，反之，模型未收敛，更新模型参数，直至模型收敛，得到已训练的图像识别模型。

在一个实施例中，已训练的图像识别模型为TensorFlow深度学习模型。

在一个实施例中，获取云配置文件和本地配置文件，其中配置文件包括各个文件和已训练的图像识别模型对应关系，当云配置文件和本地配置文件中的相同的文件对应的已训练的图像识别模型不相同时，采用相同的文件在云配置文件中对应的已训练的图像识别模型，替换在本地配置文件中对应的已训练的图像识别模型。

具体地，云配置文件和本地配置文件为用于存储文件和已训练的图像识别模型的对应关系文件。本地配置文件中可以用来查找终端上下载的各个文件和对应的已训练的图像识别模型，云配置文件是服务器中存储的各个文件和对应的已训练的图像识别模型的文件。服务器中的云配置文件随着服务器中的数据更新而更新，本地配置文件中的更新随着终端上的数据的更新而更新。当云配置文件更新时，与本地配置文件中各个文件对应的已训练的图像识别模型是否进行了更新，若存在更新，则下载云配置文件中相同的文件对应的已训练的图像识别模型，采用下载后的已训练的图像识别模型替换原来的已训练的图像识别模型，并更新本地配置文件中该文件对应的已训练的图像识别模型的对应关系。其中判断云配置文件是否更新可以通过判断配置文件的生成时间、生成版本号等等用于标识不同云配置文件的信息是否不同，当生成时间或生成版本号等不同时，云配置文件进行了更新。同理可以判断云配置文件中的模型的是否更新。更新图像识别模型，使得识别结果更符合用户需求或识别准确度更高。

在一个实施例中，更新图像识别模型，当引入新的训练数据时，对已训练的图像识别模型进行进一步的训练，得到更新后的已训练的图像识别模型。更新已训练的图像识别模型可以更准确的识别图像，从而提升用户体验。

步骤S204，获取与目标对象对应的音频数据，播放音频数据。

具体地，音频数据为预先存储在服务器中的与各个目标对象对应的音频数据，其中音频数据可以自定义，如包括目标对象的中文名称、英文翻译、目标对象的详细解释等等。如目标对象为一只小狗，则可以返回的音频数据包括中文名称“狗”，英文名称“dog”，叫声“汪汪”，以及相关介绍中的至少一种。

上述数据处理方法，包括：获取当前文件的展示界面和对应的触摸操作，根据触摸操作的位置信息从当前展示界面中确定目标区域；将目标区域输入当前文件对应的已训练的图像识别模型，识别目标区域中的目标对象，获取与目标对象对应的音频数据，播放音频数据。通过实时识别终端展示界面中的文件的目标对象，实时获取目标对应的音频数据，减少了对各个目标对象进行链接的过程，当文件中的各个目标对象出现的频率较高且较快时，链接过程复杂，而本申请只需要将展示界面中的全部或部分区域输入已训练的图像识别模型，即可根据识别结果确定对应的音频数据，数据的映射关系更为简单，减少了数据的内存容量的同时提高数据处理效率。

在一个具体的实施例中，上述数据处理方法，包括：

为了方便说明，本实施例中的已训练的图像识别模型为TensorFlow深度学习模型、文件为绘本。

在服务器端生成各种已训练的TensorFlow Lite模型，可以用于识别动物、植物等等目标对应的已训练的图像识别模型。在模型训练过程中，还可以加入各种绘本中的卡通形象，以增加模型识别的准确率。对训练模型，可以定期进行训练更新，将新生产的一些绘本卡通形象加入训练集，使模型识别的准确率持续提高。

在一个实施例中，用大量图片在服务端进行模型训练，比如训练一个动物模型，用各种动物的图片，真实的和卡通的动物图片，进行训练。需要准备一个训练集，比如把猫的各种图片放在一个文件夹中，并把该文件夹命名为猫，训练的时候，旨在模型学习到该文件夹下的所有图片样式均为猫，另外再建一个文件夹，命名为狗，原理同。这样的图片集，用现有很成熟TensorFlow训练得到的模型即可以识别出绘本中的物种。

在生产绘本时，将绘本中可能用到的已训练的TensorFlow模型以绘本进行绑定，例如龟兔赛跑的绘本，与兔子和乌龟相关，将能够识别兔子、识别乌龟或其它相关的动物的已训练的TensorFlow模型和该绘本进行绑定，将模型ID记录到绘本信息中，得到配置文件。

在一个实施例中，对于模型的训练，可以将一大类物种对应一个训练模型，比如动物类对应一个模型，植物类对应一个模型，建筑类对应一个模型，如果一个绘本里包含动物和植物，就把动物和植物对应的模型与绘本进行绑定。

用户使用绘本APP时，选择任意一本绘本，下载该绘本的同时，下载与该绘本绑定的已训练的TensorFlow模型，当点击某个物体时，APP可用已下载的已训练的TensorFlow模型进行图像识别，识别到物体具体ID或名称之后，调用服务端接口获取相关音频信息，音频信息中即包含对该物体的详细解释，APP进行音频播放。

在一个实施例中，用户点击图片，程序识别到点击的坐标点，以及当前页，将当前页和坐标点传输至识别程序，识别程序可根据TensorFlow模型识别出当前图片中所有可识别物体的坐标范围，查找点击坐标点的范围所包含的识别物体，最后将识别物体返回给程序。

在一个实施例中，模型更新时，不需要更新APP，模型定时更新，当有新的绘本下载时，则下载的是更新后的模型，对于之前下载的绘本中绑定的模型，客户端可以支持主动更新模型的功能。

在一个实施例中，更新都是后台操作，当有一个新的绘本生产出来时，将其中的卡通形象的图片加入训练集图库中，对模型进行再次训练，以提升模型的准确度。当客户端再次下载该模型时，将获取到的是准确度更高的训练模型。考虑到如果每一个新绘本生产都进行再次模型训练的话，比较耗费资源，因此，提出定时更新，比如一个月更新一次，当然，具体的更新时间可以依据需求确定。对更新时间段内所有新生产绘本中截取出来的图片集加入图库中，统一进行训练。

在实际使用过程中，由于部分卡通形象比较抽象，导致识别结果准确率下降，为了提高识别准确率，需要对模型进行及时的更新。如对猫的形象有各种改造，识别算法对于物种的识别完全依赖于训练集的覆盖度，比如对于猫的训练集，我们包含了真实的猫的图片，hellokitty的图片，用这样的训练集训练出的模型去识别加菲猫，可能准确度会略有下降，若在生产加菲猫的绘本时，将加菲猫的卡通形象加入训练集中，再次训练，则可以提升模型的识别准确率。

图2为一个实施例中数据处理方法的流程示意图。应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图3所示，提供了一种数据处理装置，包括：

数据获取模块201，用于获取当前文件的展示界面和对应的触摸操作。

目标区域确定模块202，用于根据触摸操作的位置信息从当前展示界面中确定目标区域。

识别模块203，用于将目标区域输入当前文件对应的已训练的图像识别模型，识别目标区域中的目标对象。

播放模块204，用于获取与目标对象对应的音频数据，播放音频数据。

在一个实施例中，上述数据处理装置，还包括：模型生成模块，其中模型生成模块，包括：

模型构建单元，用于构建初始图像识别模型；

训练数据获取单元，用于获取包含多个训练图像的训练集合，各个训练图像包含待识别对象和对应的标签；

识别单元，用于将各个训练图像输入初始图像识别模型，得到各个训练图像的识别结果；

模型收敛判断单元，用于根据各个训练图像的识别结果和对应的标签，判断初始图像识别模型是否满足模型收敛条件；

模型生成单元，用于当初始图像识别模型满足模型收敛条件时，得到已训练的图像识别模型，当初始图像识别模型未满足模型收敛条件时，更新初始图像识别模型的参数，直至初始图像识别模型是否满足模型收敛条件，得到已训练的图像识别模型。

在一个实施例中，上述模型收敛判断单元还用于统计各个训练图像的识别结果和对应的标签的匹配结果，得到正确识别率，判断正确识别率是否大于预设正确识别率。

模型生成单元还用于当正确识别率大于或等于预设正确识别率，得到已训练的图像识别模型，当正确识别率小于预设正确识别率时，进入更新初始图像识别模型的参数。

在一个实施例中，上述目标区域确定模块具体用于获取预设窗口，预设窗口包括窗口尺寸，根据位置信息确定预设窗口，在所展示界面中的区域，将预设窗口对应的区域作为目标区域。

在一个实施例中，目标区域确定模块还用于接收用户在预设控件中输入的窗口尺寸信息，根据窗口尺寸信息自动生成预设窗口，其中展示界面中包含输入窗口信息的预设控件。

在一个实施例中，上述目标区域确定模块还用于根据滑动操作的位置信息确定滑动操作对应的闭合区域，将闭合区域作为目标区域。

在一个实施例中，上述数据处理装置，还包括：

配置文件获取模块，用于获取云配置文件和本地配置文件，其中配置文件包括各个文件和已训练的图像识别模型对应关系；

模型更新模块，用于当云配置文件和本地配置文件中的相同的文件对应的已训练的图像识别模型不相同时，采用相同的文件在云配置文件中对应的已训练的图像识别模型，替换在本地配置文件中对应的已训练的图像识别模型。

图4示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110(或服务器120)。如图4所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现数据处理方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行数据处理方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的数据处理装置可以实现为一种计算机程序的形式，计算机程序可在如图4所示的计算机设备上运行。计算机设备的存储器中可存储组成该数据处理装置的各个程序模块，比如，图3所示的数据获取模块201、目标区域确定模块202A、识别模块203和播放模块204。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的数据处理方法中的步骤。

例如，图4所示的计算机设备可以通过如图3所示的数据处理装置中的数据获取模块201执行获取当前文件的展示界面和对应的触摸操作。计算机设备可以通过目标区域确定模块202执行根据触摸操作的位置信息从当前展示界面中确定目标区域。计算机设备可以通过识别模块203执行将目标区域输入当前文件对应的已训练的图像识别模型，识别目标区域中的目标对象。计算机设备可以通过播放模块204执行获取与目标对象对应的音频数据，播放音频数据。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：获取当前文件的展示界面和对应的触摸操作；根据触摸操作的位置信息从当前展示界面中确定目标区域；将目标区域输入当前文件对应的已训练的图像识别模型，识别目标区域中的目标对象；获取与目标对象对应的音频数据，播放音频数据。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：生成已训练的图像识别模型方法包括：构建初始图像识别模型；获取包含多个训练图像的训练集合，各个训练图像包含待识别对象和对应的标签；将各个训练图像输入初始图像识别模型，得到各个训练图像的识别结果；根据各个训练图像的识别结果和对应的标签，判断初始图像识别模型是否满足模型收敛条件；当初始图像识别模型满足模型收敛条件时，得到已训练的图像识别模型；当初始图像识别模型未满足模型收敛条件时，更新初始图像识别模型的参数，直至初始图像识别模型是否满足模型收敛条件，得到已训练的图像识别模型。

在一个实施例中，模型收敛条件包括预设正确识别率，根据各个训练图像的识别结果和对应的标签，判断初始图像识别模型是否满足模型收敛条件，包括：统计各个训练图像的识别结果和对应的标签的匹配结果，得到正确识别率；判断正确识别率是否大于预设正确识别率；当正确识别率大于或等于预设正确识别率，得到已训练的图像识别模型；当正确识别率小于预设正确识别率时，进入初始图像识别模型的参数。

在一个实施例中，根据触摸操作的位置信息从展示界面中确定目标区域，包括：获取预设窗口，预设窗口包括窗口尺寸；根据位置信息确定预设窗口，在展示界面中的区域；将预设窗口对应的区域作为目标区域。

在一个实施例中，展示界面中包含输入窗口信息的预设控件，获取预设窗口之前，处理器执行计算机程序时还实现以下步骤：接收用户在预设控件中输入的窗口尺寸信息，根据窗口尺寸信息自动生成预设窗口。

在一个实施例中，触摸操作为滑动操作，根据触摸操作的位置信息从展示界面中确定目标区域，包括：根据滑动操作的位置信息划定滑动操作对应的闭合区域；将闭合区域作为目标区域。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取云配置文件和本地配置文件，其中配置文件包括各个文件和已训练的图像识别模型对应关系；当云配置文件和本地配置文件中的相同的文件对应的已训练的图像识别模型不相同时，采用相同的文件在云配置文件中对应的已训练的图像识别模型，替换在本地配置文件中对应的已训练的图像识别模型。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取当前文件的展示界面和对应的触摸操作；根据触摸操作的位置信息从当前展示界面中确定目标区域；将目标区域输入当前文件对应的已训练的图像识别模型，识别目标区域中的目标对象；获取与目标对象对应的音频数据，播放音频数据。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：生成已训练的图像识别模型方法包括：构建初始图像识别模型；获取包含多个训练图像的训练集合，各个训练图像包含待识别对象和对应的标签；将各个训练图像输入初始图像识别模型，得到各个训练图像的识别结果；根据各个训练图像的识别结果和对应的标签，判断初始图像识别模型是否满足模型收敛条件；当初始图像识别模型满足模型收敛条件时，得到已训练的图像识别模型；当初始图像识别模型未满足模型收敛条件时，更新初始图像识别模型的参数，直至初始图像识别模型是否满足模型收敛条件，得到已训练的图像识别模型。

在一个实施例中，展示界面中包含输入窗口信息的预设控件，获取预设窗口之前，计算机程序被处理器执行时还实现以下步骤：接收用户在预设控件中输入的窗口尺寸信息，根据窗口尺寸信息自动生成预设窗口。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取云配置文件和本地配置文件，其中配置文件包括各个文件和已训练的图像识别模型对应关系；当云配置文件和本地配置文件中的相同的文件对应的已训练的图像识别模型不相同时，采用相同的文件在云配置文件中对应的已训练的图像识别模型，替换在本地配置文件中对应的已训练的图像识别模型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

绑定各个文件与已训练的图像识别模型，保存各个文件与已训练的图像识别模型的对应关系；

获取当前文件的展示界面和对应的触摸操作，其中，所述当前文件包括在终端进行播放的视频文件和文档，所述展示界面为文档在终端的展示页面和视频文件在终端播放的视频帧；

根据所述触摸操作的位置信息从当前展示界面中确定目标区域；

将所述目标区域输入所述当前文件对应的已训练的图像识别模型，识别所述目标区域中的目标对象；

获取与所述目标对象对应的音频数据，播放所述音频数据，所述音频数据为预先存储在服务器中的与各个目标对象对应的音频数据。

2.根据权利要求1所述的方法，其特征在于，所述根据所述触摸操作的位置信息从所述展示界面中确定目标区域，包括：

获取预设窗口，所述预设窗口包括窗口尺寸；

根据所述位置信息确定所述预设窗口在所述展示界面中的区域；

将所述预设窗口对应的区域作为所述目标区域。

3.根据权利要求2所述的方法，其特征在于，所述展示界面中包含输入窗口信息的预设控件，所述获取预设窗口之前，还包括：

接收用户在所述预设控件中输入的窗口尺寸信息；

根据所述窗口尺寸信息自动生成所述预设窗口。

4.根据权利要求1所述的方法，其特征在于，所述触摸操作为滑动操作，所述根据所述触摸操作的位置信息从所述展示界面中确定目标区域，包括：

根据所述滑动操作的位置信息确定所述滑动操作对应的闭合区域；

将所述闭合区域作为所述目标区域。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

获取云配置文件和本地配置文件，其中配置文件包括各个文件和已训练的图像识别模型对应关系；

当所述云配置文件和所述本地配置文件中的相同的文件对应的已训练的图像识别模型不相同时，采用相同的文件在所述云配置文件中对应的已训练的图像识别模型，替换在所述本地配置文件中对应的已训练的图像识别模型。

6.一种数据处理装置，其特征在于，所述装置包括：

模型更新模块，用于绑定各个文件与已训练的图像识别模型，保存各个文件与已训练的图像识别模型的对应关系；

数据获取模块，用于获取当前文件的展示界面和对应的触摸操作，其中，所述当前文件包括在终端进行播放的视频文件和文档，所述展示界面为文档在终端的展示页面和视频文件在终端播放的视频帧；

目标区域确定模块，用于根据所述触摸操作的位置信息从当前展示界面中确定目标区域；

识别模块，用于将所述目标区域输入所述当前文件对应的已训练的图像识别模型，识别所述目标区域中的目标对象；

播放模块，用于获取与所述目标对象对应的音频数据，播放所述音频数据，所述音频数据为预先存储在服务器中的与各个目标对象对应的音频数据。

7.根据权利要求6所述的装置，其特征在于，所述目标区域确定模块具体用于获取预设窗口，所述预设窗口包括窗口尺寸，根据所述位置信息确定所述预设窗口在所述展示界面中的区域，将所述预设窗口对应的区域作为所述目标区域。

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：

模型更新模块，用于当所述云配置文件和所述本地配置文件中的相同的文件对应的已训练的图像识别模型不相同时，采用相同的文件在所述云配置文件中对应的已训练的图像识别模型，替换在所述本地配置文件中对应的已训练的图像识别模型。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。