CN111523310A

CN111523310A - 数据处理方法、数据处理装置、存储介质和电子设备

Info

Publication number: CN111523310A
Application number: CN202010252275.XA
Authority: CN
Inventors: 李凯
Original assignee: Beijing Dami Future Technology Co ltd
Current assignee: Beijing Dami Future Technology Co ltd
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2020-08-11
Anticipated expiration: 2040-04-01
Also published as: CN111523310B

Abstract

本发明实施例公开了一种数据处理方法、数据处理装置、存储介质和电子设备。本发明实施例在获取视频文件集合以及音频文件集合后，确定音频文件集合对应的第一识别文本以及多个第二识别文本，并根据各词语在第一识别文本中的第一分数以及在对应的第二识别文本中的第二分数确定各词语的第一得分，进而根据各语句中各词语的第一得分确定对应的第二得分，从而选取第二得分满足预定条件的至少一个语句对应的目标视频片段以及目标音频片段。本发明实施例通过语音识别的方式，从视频文件以及音频文件中提取出至少一个关键语句对应的视频片段以及音频片段，在保证重点及难点内容提取的准确性的同时，提升了重点及难点内容的提取效率，并降低人力成本。

Description

数据处理方法、数据处理装置、存储介质和电子设备

技术领域

本发明公开涉及计算机技术领域，具体涉及一种数据处理方法、数据处理装置、存储介质和电子设备。

背景技术

随着互联网技术以及教育信息化的高速发展，移动多媒体教学平台的应用也变得越来越普及。教学者可以通过网络与学习者进行实时或非实时的知识分享，移动多媒体教学平台会通过视频以及音频的方式记录教学者的教学过程以方便学习者进行知识回顾。教学者在教学过程中通常会重点强调本次教学的难点及重点。在现有技术中，为了确定各次教学中的难点及重点内容，需要通过人工的方式从视频或音频中提取，在视频或音频的数量较多时，重点及难点内容的提取效率通常较低，且人力成本较高。

发明内容

有鉴于此,本发明实施例的目的在于提供一种数据处理方法、数据处理装置、存储介质和电子设备，用于提升重点及难点内容的提取效率，并降低人力成本。

根据本发明实施例的第一方面，提供一种数据处理方法，所述方法包括：

获取视频文件集合以及音频文件集合，所述视频文件集合中的各视频文件均对应所述音频文件集合中的至少一个音频文件；

确定所述音频文件集合对应的第一识别文本以及各音频文件组对应的第二识别文本，其中，所述音频文件组包括至少一个所述音频文件；

对于所述第一识别文本中的各词语，分别根据各词语对应的第一重要度参数以及第二重要度参数确定各词语对应的第一评估参数，所述第一重要度参数用于表征词语在所述第一识别文本中的重要程度，所述第二重要度参数用于表征词语在对应的所述第二识别文本中的重要程度；

对于各所述第二识别文本中的各语句，根据各语句中各词语的所述第一评估参数确定各语句在对应的所述第二识别文本中的第二评估参数；

获取至少一个所述第二评估参数满足预定条件的语句对应的视频片段作为目标视频片段，并获取至少一个所述第二评估参数满足预定条件的语句对应的音频片段作为目标音频片段。

优选地，所述确定所述音频文件集合对应的第一识别文本以及各音频文件组对应的第二识别文本包括：

分别对各所述音频文件进行语音识别，获取对应的第三识别文本；

根据各所述第三识别文本确定所述第一识别文本；

根据各所述音频文件对应的分组确定对应的所述第三识别文本的分组，并确定至少一个所述音频文件组；

根据属于同一分组的所述第三识别文本确定各所述音频文件组对应的所述第二识别文本。

优选地，所述分别根据各词语对应的第一重要度参数以及第二重要度参数确定各词语对应的第一评估参数包括：

分别根据各词语对应的所述第二重要度参数与所述第一重要度参数确定对应的比值；

分别根据各词语对应的所述比值，或者包括所述比值的函数确定对应的所述第一评估参数。

优选地，所述根据各语句中各词语的所述第一评估参数确定各语句在对应的所述第二识别文本中的第二评估参数包括：

分别根据各语句中各词语的所述第一评估参数确定各语句对应的平均值；

分别确定各语句的语句长度的对数值；

分别根据各语句对应的所述平均值与所述对数值的乘积，或者包括所述乘积的函数确定对应的所述第二评估参数。

优选地，所述获取至少一个所述第二评估参数满足预定条件的语句对应的视频片段作为目标视频片段包括：

获取至少一个目标语句的时间戳，所述目标语句为所述第二评估参数满足所述预定条件的语句；

分别根据各所述时间戳在所述目标语句对应的所述视频文件中进行截取操作，获取对应的所述目标视频片段。

优选地，所述第一重要度参数用于表征词语在所述第一识别文本中的tf-idf值，所述第二重要度参数用于表征词语在对应的所述第二识别文本中的tf-idf值。

根据本发明实施例的第二方面，提供一种数据处理装置，所述装置包括：

第一获取单元，用于获取视频文件集合以及音频文件集合，所述视频文件集合中的各视频文件均对应所述音频文件集合中的至少一个音频文件；

第一确定单元，用于通过语音识别确定所述音频文件集合对应的第一识别文本以及各音频文件组对应的第二识别文本，其中，所述音频文件组包括至少一个所述音频文件；

第二确定单元，用于对于所述第一识别文本中的各词语，分别根据各词语对应的第一重要度参数以及第二重要度参数确定各词语对应的第一评估参数，所述第一重要度参数用于表征词语在所述第一识别文本中的重要程度，所述第二重要度参数用于表征词语在对应的所述第二识别文本中的重要程度；

第三确定单元，用于对于各所述第二识别文本中的各语句，根据各语句中各词语的所述第一评估参数确定各语句在对应的所述第二识别文本中的第二评估参数；

第二获取单元，用于获取至少一个所述第二评估参数满足预定条件的语句对应的视频片段作为目标视频片段，并获取至少一个所述第二评估参数满足预定条件的语句对应的音频片段作为目标音频片段。

根据本发明实施例的第三方面，提供一种计算机可读存储介质，其上存储计算机程序指令，其中，所述计算机程序指令在被处理器执行时实现如第一方面中任一项所述的方法。

根据本发明实施例的第四方面，提供一种电子设备，包括存储器和处理器，其中，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面中任一项所述的方法。

本发明实施例在获取视频文件集合以及音频文件集合后，确定音频文件集合对应的第一识别文本以及多个第二识别文本，并根据各词语在第一识别文本中的重要度参数以及在对应的第二识别文本中的重要度参数确定各词语的第一评估参数，进而根据各语句中各词语的第一评估参数确定对应的第二评估参数，从而选取第二评估参数满足预定条件的至少一个语句对应的目标视频片段以及目标音频片段。本发明实施例通过语音识别的方式，从视频文件以及音频文件中提取出至少一个关键语句对应的视频片段以及音频片段，在保证重点及难点内容提取的准确性的同时，提升了重点及难点内容的提取效率，并降低人力成本。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明第一实施例的数据处理方法的流程图；

图2是本发明第一实施例的各语句的第二评估参数的示意图；

图3是本发明第一实施例的方法获取目标视频片段和目标音频片段的示意图；

图4是本发明第二实施例的数据处理装置的示意图；

图5是本发明第三实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明实施例，以教学过程中同步录制的教学视频文件和教学音频文件为例进行说明。但是本领域技术人员容易理解，在本实施例的方法同样适用于其他同步录制的视频文件和音频文件。

教学者在教学过程中通常会重点强调本次教学的难点及重点内容。有时，教学者会通过一些特定的关键词或关键句型等方式来表明难点及重点内容，例如“本节课的难点为……”、“……是常见的易错点”；但有时，教学者可能不会通过上述方式对难点及重点内容进行强调。因此在现有技术中，为了确定各次教学中的难点及重点内容，需要人工确认视频文件和/或音频文件中的难点及重点内容，并从原始的视频文件和/或音频文件中提取包括难点及重点内容的视频片段和/或音频片段。但在视频或音频的数量较多时，重点及难点内容的提取效率通常较低，且人力成本较高。

图1是本发明第一实施例的数据处理方法的流程图。如图1所示，本实施例的方法包括如下步骤：

步骤S100，获取视频文件集合以及音频文件集合。

在本实施例中，视频文件集合可以为一段时间(例如，一个月)内在教学过程中同步录制的视频文件的集合，音频文件集合可以为同一段时间内在教学过程中同步录制的音频文件的集合。

对于同步录制的视频文件和音频文件，为了尽可能缩小数据所占用的存储空间，服务器可以将音频数据中没有语音信号的部分去除掉，从而存储分段的、具有不同时间长度的音频文件。同时，视频文件也会被分段存储为多个不同的视频文件。也就是说，同一次教学过程可能对应于多个视频文件以及音频文件。且视频文件和音频文件的长度通常不完全相等，因此通常视频文件集合中的一个视频文件对应于音频文件集合中的至少一个音频文件。例如，若视频文件为教学过程中录制的00:00-40:00共40分钟的视频数据，则对应的音频文件可以包括00:00-10:00的音频数据，10:01-20:00的音频数据，20:01-30:00的音频数据以及30:01-40:00的音频数据。

可选地，服务器也可以将每次教学过程中同步录制的视频数据存储为一个视频文件，将每次教学过程中同步录制的音频数据存储为一个音频文件，使得视频文件与音频文件是一一对应的。

容易理解，在本实施例中，服务器已知视频文件与音频文件的时间戳的对应关系，或者可以通过例如《齐成明.音视频同步问题的研究与实现.哈尔滨工业大学.2009年硕士学位论文》中记载的方法对各视频文件与对应的音频文件进行时间轴同步，从而确定视频文件与音频文件的时间戳的对应关系。

步骤S200，通过语音识别确定音频文件集合对应的第一识别文本以及各音频文件组对应的第二识别文本。

根据学习者的思维结构或根据学科知识的逻辑体系的变化方式，教学内容通常呈现一定的规律性，因此教学者通常会将教学内容划分为多个教学单元。每个教学单元通常对应至少一次教学过程。因此在本实施例中，服务器可以根据预先标记的教学单元标识对音频文件集合中的各音频文件进行分组，或者根据自然周对音频文件进行分组，确定至少一个音频文件组，从而确定第二识别文本。容易理解，还可以通过其他方式进行分组，本实施例不做具体限定。

具体地，服务器可以对各音频文件进行语音识别，获取各音频文件对应的、用于表征教学内容的第三识别文本，并根据各第三识别文本确定音频文件集合对应的第一识别文本，同时，服务器根据各音频文件的分组确定对应的第三识别文本的分组，从而将属于同一分组的第三识别文本确定为该分组的音频文件组对应的第三识别文本。可选地，服务器可以采用各种现有的方式对各音频文件进行语音识别，例如通过《崔天宇.基于HMM的语音识别系统的研究与实现.吉林大学.2016年硕士学位论文》中记载的语音识别系统，本实施例不做具体限定。

容易理解，若存储的音频文件以及视频文件为去除无语音信号部分的音频数据和视频数据，则每个音频文件对应的第三识别文本可以看作一个语句。若存储的音频文件以及视频文件为一次教学过程对应的音频数据或者视频数据，则服务器在对音频文件进行语音识别时，可以根据各音频文件中有连续语音信号的部分识别得到第三识别文本中的一个语句，从而确定各音频文件对应的第三识别文本。

步骤S300，对于第一识别文本中的各词语，分别根据各词语对应的第一重要度参数以及第二重要度参数确定各词语对应的第一评估参数。

在确定第一识别文本、第二识别文本以及第三识别文本后，服务器可以通过现有的方式，例如结巴分词对分别对第一识别文本进行分词处理，得到多个词语。容易理解，也可以对第一识别文本、各第二识别文本以及各第三识别文本均进行分词处理，得到各语音识别文本(包括第一识别文本、第二识别文本以及第三识别文本)对应的至少一个词语，且在对各语音识别文本进行分词处理时，可以选择相同的分词模式(例如，精确模式)进行分词处理。

在本实施例中，第一重要度参数用于表征词语在第一识别文本中的重要程度，第二重要度参数用于表征词语在对应的第二识别文本中的重要程度，也可以理解为词语在对应的分组中的重要程度。在本实施例中，选择TF-IDF(Term Frequency–Inverse DocumentFrequency，词频-逆文本频率指数)作为词语的重要程度表示方式。TF-IDF的主要思想是：如果任一词语在一篇文章中出现的频率(也即，TF)高，并且在其他文章中很少出现，则认为该词语具有较好的类别区分能力，也即，能够较好的代表一篇文章。因此在本实施例中，TF-IDF能够准确反映一个词语是否能够较好地代表对应的第三识别文本。词语的TF-IDF值越高，表示对于第三识别文本，该词语在第一识别文本(或者第二识别文本)中的重要程度越高，越可以看作难点或重点内容的一部分。

具体地，词语对应的TF-IDF值可以通过如下公式计算获得：

TF-IDF＝TF×IDF；

其中，第i个词语在第j个第三识别文本中的TF值tf_i,j可以通过如下公式计算获得：

其中，n_i,j用于表征第i个词语在第j个第三识别文本中的出现的次数，n_k,j用于表征第k个词语在第j个第三识别文本中出现的次数，K为第j个第三识别文本中不重复的词语的总数。

第i个词语在第一识别文本(或者第二识别文本)中的IDF值idf_i可以通过如下公式计算获得：

其中，|D|用于表征第一识别文本(或者第二识别文本)对应的第三识别文本的总数量，t_i用于表征第i个词语，d_j用于表征第j个第三识别文本，|{j:t_i∈d_j}|用于表征包括第i个词语的第三识别文本的数量。

可选地，在本实施例中，服务器也可以根据词频等方式来确定各词语对应的第一重要度参数以及第二重要度参数。容易理解，在根据词频确定各词语对应的第一重要度参数和第二重要度参数时，需要预先去除第一识别文本、第二识别文本以及第三识别文本中“我”“你”“的”等无实际含义的词语。

容易理解，根据第三识别文本和/或第二识别文本的不同，同一个词语对应的TF-IDF值可能不同。例如，词语1在第三识别文本1中的TF值为0.2，在第二识别文本1中的IDF值为0.4，则对于第三识别文本1，词语1在第二识别文本1中对应的TF-IDF值为0.08；词语1在第三识别文本2中的TF值为0.3，在第二识别文本1中的IDF值为0.4，则对于第三识别文本2，词语1在第二识别文本1中对应的TF-IDF值为0.12。

在确定各词语对应的第一重要度参数以及第二重要度参数后，服务器可以根据第二重要度参数与第一重要度参数的比值，或者根据包括第二重要度参数与第一重要度参数的比值的函数确定第一评估参数。在任一词语的第一评估参数较高时，表示该词语在对应的第二识别文本(也即，分组)中重要程度较高，且在第一识别文本中重要程度较低，因此可以较为准确地反映该第二识别文本中的重点，也就是说，在这个分组中，该词语属于重点或难点内容的一部分。

具体地，第i个词语的第一评估参数s_i可以通过如下公式表示：

s_i＝M₁*(T_2,i/T_1,i)

其中，M₁为大于0的预定系数，T_1,i用于表征第i个词语对应的第一重要度参数，T_2,i用于表征第i个词语对应的第二重要度参数。

步骤S400，对于各第二识别文本中的各语句，根据各语句中各词语的第一评估参数确定各语句在对应的第二识别文本中的第二评估参数。

在得到各词语的第一评估参数后，服务器可以根据各语句包括的各词语的第一评估参数确定对应的第二评估参数，从而确定各语句是否为教学过程中的重点或难点内容。任一语句的第二评估参数越高，表示该语句在对应分组中的重要程度越高，该语句为教学过程中的重点或难点内容的可能性越高。

具体地，服务器分别根据各语句中各词语的第一评估参数确定各语句对应的平均值，并确定各语句的语句长度的对数值，从而根据各语句对应的平均值以及语句长度的对数值确定各语句对应的第二评估参数。其中，各语句的语句长度可以根据该语句中词语的数量确定。例如，语句1为“我喜欢学英语”，包括词语“我”、“喜欢”、“学”以及“英语”，则语句1的长度为4。

具体地，第j个第三识别文本中第p个语句对应的第二评估参数G_p,j可以通过如下公式表示：

其中，M2为大于0的预定系数，q用于表征第j个第三识别文本中第p个语句中词语的总数量，l_p,j用于表征第j个第三识别文本中第p个语句的语句长度。容易理解，在计算对数值时，上述公式以10为底数值，但是底数值不限于10，也可以为e(2.718281828459)、3等。

容易理解，对于同一词语，根据所属的第二识别文本和/或第三识别文本不同，对应的第一评估参数可能不同，因此在确定任一语句的第二评估参数时，服务器需要预先确定词语所属的语句与第二识别文本和/或第三识别文本的对应关系，从而获取对于该语句而言，词语在第二识别文本和/或第三识别文本中的第一评估参数。

例如，一节在线英语课程对应的第一文本中涉及词语“tiger”，该课程分为三个教学单元，每个教学单元对应一个第三识别文本，也即，具有三个第三识别文本X1、第三识别文本X2和第三识别文本X3，三个第三识别文本对应同一第二识别文本。词语“tiger”在三个第三识别文本中均存在，因此，词语“tiger”在不同的第三识别文本中均有对应的第一评估参数，具体地，在第二识别文本X1中的第一评估参数为2，在第二识别文本X2中的第一评估参数为3，在第二识别文本X3中的第一评估参数为1。句子“Tiger is huge.”(以下记为语句S1)对应于第三识别文本X3，也即，位于第二识别文本X3中。则在计算语句S1的第二评估参数时，服务器可以确定语句S1所属的第三识别文本为第三识别文本X3，则对于语句S1而言，确定词语“tiger”的第一评估参数为1。

图2是本发明第一实施例的各语句的第二评估参数的示意图。容易理解，图2所示的语句的数量以及各语句中各词语的第一评估参数以及数量仅仅是示意性的。如图2所示，第一识别文本中共包括m个语句。以语句1为例进行说明，语句1包括6个词语，各词语对应的第一评估参数分别为3,4,3,5,2,2。服务器可以计算得到语句1对应的平均值为3.17，对数值为lg6，从而计算语句1对应的第二评估参数为2.46。

步骤S500，获取至少一个第二评估参数满足预定条件的语句对应的视频片段作为目标视频片段，并获取至少一个第二评估参数满足预定条件的语句对应的音频片段作为目标音频片段。

在确定各语句对应的第二评估参数后，服务器可以将第二评估参数满足预定条件的语句确定为目标语句，并获取目标语句对应的时间戳，进而分别根据各目标语句的时间戳在目标语句对应的视频文件以及音频文件中进行截取操作，获取对应的目标视频片段以及目标音频片段。

在本实施例中，预定条件用于限定目标语句的选择范围，可以根据实际需求进行设定，例如，预定条件可以被设置为第二评估参数大于预定阈值、第二评估参数排序在最大的前s(s为大于等于1的预定整数)位等，本实施例不做具体限定。时间戳具体包括各语句在对应的视频文件中的时间戳以及在对应的音频文件中的时间戳，在视频文件与音频文件一一对应时，可以认为各语句在对应的视频文件中的时间戳以及在对应的音频文件中的时间戳是相同的。

图3是本发明第一实施例的方法获取目标视频片段和目标音频片段的示意图。容易理解，图3所示的视频文件与音频文件为一次教学过程中同步录制的教学视频文件与教学音频文件，也即，视频文件与音频文件是一一对应的关系。如图3所示，服务器可以获取各语句的第二评估参数，以及在对应的视频文件中的时间戳、音频文件中的时间戳，并以列表的形式进行存储，然后根据各语句的第二评估参数确定出目标语句：语句3。在确定目标语句后，服务器可以获取视频2(也即，语句3对应的视频文件)以及音频2(也即，语句3对应的音频文件)，并分别从视频2中截取2:30-2:35的部分(也即，语句3对应的时间戳)，也即虚线框31内的部分作为目标视频，从音频2中截取2:30-2:35的部分，也即虚线框32内的部分作为目标视频片段以及目标音频片段。

本实施例在获取视频文件集合以及音频文件集合后，确定音频文件集合对应的第一识别文本以及多个第二识别文本，并根据各词语在第一识别文本中的重要度参数以及在对应的第二识别文本中的重要度参数确定各词语的第一评估参数，进而根据各语句中各词语的第一评估参数确定对应的第二评估参数，从而选取第二评估参数满足预定条件的至少一个语句对应的目标视频片段以及目标音频片段。本实施例通过语音识别的方式，从视频文件以及音频文件中提取出至少一个关键语句对应的视频片段以及音频片段，在保证重点及难点内容提取的准确性的同时，提升了重点及难点内容的提取效率，并降低人力成本。

图4是本发明第二实施例的数据处理装置的示意图。如图4所示，本实施例的装置包括第一获取单元41、第一确定单元42、第二确定单元43、第三确定单元44和第二获取单元45。

其中，第一获取单元41用于获取视频文件集合以及音频文件集合，所述视频文件集合中的各视频文件均对应所述音频文件集合中的至少一个音频文件。第一确定单元42用于通过语音识别确定所述音频文件集合对应的第一识别文本以及各音频文件组对应的第二识别文本，其中，所述音频文件组包括至少一个所述音频文件。第二确定单元43用于对于所述第一识别文本中的各词语，分别根据各词语对应的第一重要度参数以及第二重要度参数确定各词语对应的第一评估参数，所述第一重要度参数用于表征词语在所述第一识别文本中的重要程度，所述第二重要度参数用于表征词语在对应的所述第二识别文本中的重要程度。第三确定单元44用于对于各所述第二识别文本中的各语句，根据各语句中各词语的所述第一评估参数确定各语句在对应的所述第二识别文本中的第二评估参数。第二获取单元45用于获取至少一个所述第二评估参数满足预定条件的语句对应的视频片段作为目标视频片段。

进一步地，所述第一确定单元42包括识别子单元、第一处理子单元、第二处理子单元和第三处理子单元。

其中，识别子单元用于分别对各所述音频文件进行语音识别，获取对应的第三识别文本。第一处理子单元用于根据各所述第三识别文本确定所述第一识别文本。第二处理子单元用于根据各所述音频文件对应的分组确定对应的所述第三识别文本的分组，并确定至少一个所述音频文件组。第三处理子单元用于根据属于同一分组的所述第三识别文本确定各所述音频文件组对应的所述第二识别文本。

图5是本发明第三实施例的电子设备的示意图。图5所示的电子设备为通用数据处理装置，具体可以为本发明实施例的第一终端、第二终端或服务器，其包括通用的计算机硬件结构，其至少包括处理器51和存储器52。处理器51和存储器52通过总线53连接。存储器52适于存储处理器51可执行的指令或程序。处理器51可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器51通过执行存储器52所存储的命令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其他装置的控制。总线53将上述多个组件连接在一起，同时将上述组件连接到显示控制器54和显示装置以及输入/输出(I/O)装置55。输入/输出(I/O)装置55可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出(I/O)装置55通过输入/输出(I/O)控制器56与系统相连。

其中，存储器52可以存储软件组件，例如操作系统、通信模块、交互模块以及应用程序。以上所述的每个模块和应用程序都对应于完成一个或多个功能和在发明实施例中描述的方法的一组可执行程序指令。

上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应理解，流程图和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器，以产生机器，使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。

同时，如本领域技术人员将意识到的，本发明实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此，本发明实施例的各个方面可以采取如下形式：完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实施方式。此外，本发明的方面可以采取如下形式：在一个或多个计算机可读介质中实现的计算机程序产品，计算机可读介质具有在其上实现的计算机可读程序代码。

可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置，或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项：具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中，计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。

计算机可读信号介质可以包括传播的数据信号，所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式，包括但不限于：电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质：不是计算机可读存储介质，并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。

用于执行针对本发明各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写，所述编程语言包括：面向对象的编程语言如Java、Smalltalk、C++、PHP、Python等；以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行；部分地在用户计算机上且部分地在远程计算机上执行；或者完全地在远程计算机或服务器上执行。在后一种情况下，可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机，或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

通过语音识别确定所述音频文件集合对应的第一识别文本以及各音频文件组对应的第二识别文本，其中，所述音频文件组包括至少一个所述音频文件；

2.根据权利要求1所述的方法，其特征在于，所述通过语音识别确定所述音频文件集合对应的第一识别文本以及各音频文件组对应的第二识别文本包括：

根据各所述第三识别文本确定所述第一识别文本；

3.根据权利要求1所述的方法，其特征在于，所述分别根据各词语对应的第一重要度参数以及第二重要度参数确定各词语对应的第一评估参数包括：

4.根据权利要求1所述的方法，其特征在于，所述根据各语句中各词语的所述第一评估参数确定各语句在对应的所述第二识别文本中的第二评估参数包括：

分别确定各语句的语句长度的对数值；

5.根据权利要求1所述的方法，其特征在于，所述获取至少一个所述第二评估参数满足预定条件的语句对应的视频片段作为目标视频片段，并获取至少一个所述第二评估参数满足预定条件的语句对应的音频片段作为目标音频片段包括：

分别根据各所述时间戳在所述目标语句对应的所述视频文件中进行截取操作，获取对应的所述目标视频片段；

分别根据各所述时间戳在所述目标语句对应的所述音频文件中进行截取操作，获取对应的所述目标音频片段。

6.根据权利要求1所述的方法，其特征在于，所述第一重要度参数用于表征词语在所述第一识别文本中的tf-idf值，所述第二重要度参数用于表征词语在对应的所述第二识别文本中的tf-idf值。

7.一种数据处理装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述第一确定单元包括：

识别子单元，用于分别对各所述音频文件进行语音识别，获取对应的第三识别文本；

第一处理子单元，用于根据各所述第三识别文本确定所述第一识别文本；

第二处理子单元，用于根据各所述音频文件对应的分组确定对应的所述第三识别文本的分组，并确定至少一个所述音频文件组；

第三处理子单元，用于根据属于同一分组的所述第三识别文本确定各所述音频文件组对应的所述第二识别文本。

9.一种计算机可读存储介质，其上存储计算机程序指令，其特征在于，所述计算机程序指令在被处理器执行时实现如权利要求1-6中任一项所述的方法。

10.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-6中任一项所述的方法。