CN108429932A

CN108429932A - 视频处理方法和装置

Info

Publication number: CN108429932A
Application number: CN201810376987.5A
Authority: CN
Inventors: 邓澍军; 王志伟; 陈孟阳; 曹月恬
Original assignee: Beijing Bit Intelligence Technology Co Ltd
Current assignee: Beijing Bit Intelligence Technology Co Ltd
Priority date: 2018-04-25
Filing date: 2018-04-25
Publication date: 2018-08-21

Abstract

本发明提出一种视频处理方法和装置，其中，方法包括：对第一视频段落进行展示，若第一视频段落存在关联问题，对关联问题进行展示后，进行音频采集，以得到用户语音数据，根据用户语音数据与关联问题对应的标准语音数据之间的语音差异程度，确定待展示的第二视频段落，将第二视频段落接续在第一视频段落之后展示。实现了根据采集到的用户语音数据和第一视频段落关联问题对应的标准语音数据之间的差异程度，确定用户是否对第一视频段落的内容已经接受，并根据用户的接受程度确定待播放的第二视频段落，解决了现有技术中，视频段落播放时采用固定的顺序播放，无法使得录制的视频匹配不同用户，灵活性较差的问题。

Description

视频处理方法和装置

技术领域

本发明涉及移动终端技术领域，尤其涉及一种视频处理方法和装置。

背景技术

随着网络技术的发展，通过网络进行知识的传播日益盛行，施教者通过网络进行内容和知识传播时，可预先录制视频，并放到网络上方便用户随时进行观看。

相关技术中，预先录制的视频片段顺序播放，而用户的个人能力存在个体差异，这种方式无法使得录制的视频匹配不同用户，灵活性较差，并使得用户无法达到预期的学习效果的问题。

发明内容

本发明提供一种视频处理方法和装置，能够解决视频内容灵活性差不能满足用户学习需求的技术问题。

为此，本发明实施例提出一种视频处理方法。

本发明实施例提出一种视频处理装置。

本发明实施例提出一种电子设备。

本发明实施例提出一种非暂时性计算机可读存储介质。

本发明一方面实施例提出了一种视频处理方法，包括：

对第一视频段落进行展示；

若所述第一视频段落存在关联问题，对所述关联问题进行展示后，进行音频采集，以得到用户语音数据；

根据所述用户语音数据与所述关联问题对应的标准语音数据之间的语音差异程度，确定待展示的第二视频段落；

将所述第二视频段落接续在所述第一视频段落之后展示。

本发明又一方面实施例提出了一种视频处理装置，包括：

展示模块，用于对第一视频段落进行展示；

采集模块，用于若所述第一视频段落存在关联问题，对所述关联问题进行展示后，进行音频采集，以得到用户语音数据；

确定模块，用于根据所述用户语音数据与所述关联问题对应的标准语音数据之间的语音差异程度，确定待展示的第二视频段落；

接续模块，将所述第二视频段落接续在所述第一视频段落之后展示。

本发明又一方面实施例提出了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如前述方法实施例所述的视频处理方法。

本发明又一方面实施例提出了一种非暂时性计算机可读存储介质，其上存储有计算机程序，当所述存储介质中的指令由处理器被执行时，实现如前述方法实施例所述的视频处理方法。

本申请实施例提供的技术方案可以包括以下的有益效果：

对第一视频段落进行展示，若第一视频段落存在关联问题，对关联问题进行展示后，进行音频采集，以得到用户语音数据，根据用户语音数据与关联问题对应的标准语音数据之间的语音差异程度，确定待展示的第二视频段落，将第二视频段落接续在第一视频段落之后展示。实现了根据采集到的用户语音数据和第一视频段落关联问题对应的标准语音数据之间的差异程度，确定用户是否对第一视频段落的内容已经接受，并根据用户的接受程度确定待播放的第二视频段落，使得录制的视频可以匹配不同用户，灵活性好，可以根据用户的学习水平播放对应的视频内容，提高了用户的学习效率。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所提供的一种视频处理方法的流程示意图；

图2为本发明实施例所提供的另一种视频处理方法的流程示意图；

图3为本发明实施例所提供的预设的视频段落的树形结构图；

图4为本发明实施例提供的一种视频处理装置的结构示意图；

图5为本发明实施例所提供的另一种视频处理装置的结构示意图；

图6是图示根据本发明的实施例的非暂时性计算机可读存储介质的示意图；以及

图7是图示根据本发明实施例的电子设备的硬件结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的视频处理方法和装置。

图1为本发明实施例所提供的一种视频处理方法的流程示意图。

步骤101，对第一视频段落进行展示。

具体地，视频段落分段设置，视频段落按照预先设定的播放顺序进行播放，为了便于区分，最先展示的视频段落称为第一视频段落，而依次展示的视频段落，称为第二视频段落，第三视频段落，依次类推。

步骤102，若第一视频段落存在关联问题，对关联问题进行展示后，进行音频采集，以得到用户语音数据。

具体地，在第一视频段落展示播放的过程中，若第一视频段落存在关联的问题，在关联问题展示完后，对用户的音频进行采集，以得到用户基于该关联问题的语音数据。

步骤103，根据用户语音数据与关联问题对应的标准语音数据之间的语音差异程度，确定待展示的第二视频段落。

具体地，根据用户的语音数据与关联问题对应的标准语音数据进行比对，确定用户的语音数据与关联问题对应的标准语音数据之间的语音差异程度。

进而，获取视频段落的预设的树形结构，树形结构中包含多个节点，各节点用于指示对应视频段落的内容以及展示条件，而树形结构中两节点之间的父子关系用于指示对应视频段落的展示顺序。在树形结构中，确定第一视频段落对应的节点，并查询将第一视频段落作为父节点的子节点，在查询到的各子节点中，查询语音差异程度满足对应展示条件的目标节点，将目标节点对应的视频段落作为第二展示段落。

步骤104，将第二视频段落接续在第一视频段落之后展示。

可选的，在一种实施方式中，接续指的是在第一视频段落播放完成立即播放第二视频段落，使多个视频段落作为一个完整的视频进行播放，提高用户观看体验；在另一种可选的实施方式中，接续可以是将两段视频段落进行连续播放，两段视频中间可存在一定的间隔帧或者空白帧，其中间隔帧的内容可根据用户的学习需求进行设定。

具体地，将确定的需要展示的第二视频段落接续在第一视频段落之后进行展示，作为一种可能的实现方式，若第一视频段落的末帧展示的画面和第二视频段落的首帧展示的画面的相似度大于阈值相似度，则将第二视频段落的首帧作为第一视频段落末帧的下一帧进行拼接，并在第一视频段落展示后，继续对拼接在第一视频段落之后的第二视频段落进行展示。实现了第二视频段落与第一视频段落的平滑过渡，使得第一视频段落与第二视频段落之间的衔接更为自然。

作为另一种可能的实现方式，对第二视频段落首帧以及第一视频段落末帧进行差值，以根据差值生成至少一个过渡帧，将至少一个过渡帧拼接在第一视频段落末帧位置之后，将第二视频段落拼接在至少一个过渡帧的末帧位置，在第一视频段落展示后，继续对拼接在第一视频段落之后的各过渡帧和第二视频段落进行展示。实现了第二视频段落与第一视频段落的平滑过渡，使得第一视频段落与第二视频段落之间的衔接更为自然。

本发明实施例的视频处理方法中，对第一视频段落进行展示，若第一视频段落存在关联问题，对关联问题进行展示后，进行音频采集，以得到用户语音数据，根据用户语音数据与关联问题对应的标准语音数据之间的语音差异程度，确定待展示的第二视频段落，将第二视频段落接续在第一视频段落之后展示。实现了根据采集到的用户语音数据和第一视频段落关联问题对应的标准语音数据之间的差异程度，确定用户是否对第一视频段落的内容已经接受，并根据用户的接受程度确定待播放的第二视频段落，使得录制的视频可以匹配不同用户，灵活性好，可以根据用户的学习水平播放对应的视频内容，提高了用户的学习效率，解决了现有技术中，视频段落播放时采用固定的顺序播放，不考虑用户对当前视频内容是否已接受，使得录制的视频无法匹配不同用户，灵活性较差，同时，使得用户对视频内容接受度不好的问题。

为了清楚说明上一实施例，本实施例提供了另一种视频处理方法的可能的实现方式，图2为本发明实施例所提供的另一种视频处理方法的流程示意图，本实施例中以英语教学视频学习的场景为例，对视频处理的方法进行详细的说明。

如图2所示，该方法可以包括以下步骤：

步骤201，对第一视频段落进行展示。

具体地，在英语教学视频学习的场景中，英语教学视频一般按照课程内容设置包含多个视频段落，最先播放的视频段落，称为第一视频段落，例如，对应课程中的第一节课程。

步骤202，若第一视频段落存在关联问题，对关联问题进行展示后，进行音频采集，以得到用户语音数据。

具体地，在第一视频段落播放过程中，根据视频段落播放的内容，可以设置关联的问题，其中，关联的问题可以是需要用户回答的问题，也可以是需要用户进行跟读的内容等。在对关联问题进行展示后，进行用户基于关联问题的音频采集，以得到用户语音数据。

例如，第一视频段落存在的关联问题为：what is the boy’s name？(这个男孩的名字叫什么？)，在该问题展示后，采集用户回答该问题的答案。

步骤203，确定用户语音数据和第一视频段落关联问题对应的标准语音数据之间的语音差异程度。

其中，语音差异程度可根据差异的大小，分为不同的等级，例如可分为3个等级：很好、好和不好，对于等级的划分方式本实施例中不做限定。

具体地，第一视频段落关联问题对应有标准语音数据，将获取得到的用户语音数据与标准语音数据进行比对，进而，根据语音数据与标准语音数据之间比对的结果，确定语音差异程度，作为一种可能的实现方式，可通过音节相似度来确定用户语音数据和标准语音数据之间的语音差异程度，具体地，对用户语音数据进行分析，得到音节序列，根据音节映射表以得到各音节的名称，提取各音节的特征参数，将各音节与第一视频段落关联问题对应的标准语音数据中的相应音节的特征参数进行比对，以确定单个音节的差异程度，根据各音节的差异程度，计算音节的均值差异程度，根据音节的均值差异程度，确定语音差异程度。

作为另一可能的实现方式，识别用户语音数据为对应的文本数据，识别文本中涉及的各词汇，其中，词汇包括单词和/或词组，将识别出的各词汇与标准语音数据中对应的词汇比较，以确定词汇差异，根据词汇差异，计算得到语音差异程度。

例如，标准语音数据对应的文本内容为：His name is Alex(他的名字叫艾利克斯)，采集到的用户语音数据对应的文本内容可以为：His name is Alex，或Alex，或Red(红色)等。若用户语音数据内容为His name is Alex，则用户回答和标准语音数据之间的差异程度较小，属于等级：很好；若用户语音数据内容为Alex，则用户回答和标准语音数据之间的差异程度较大，属于等级：好；语音数据内容为Red，则用户回答和标准语音数据之间的差异程度较大，属于等级：不好。

步骤204，获取预设的树形结构，在树形结构中确定第一视频段落对应的节点，并查询将第一视频段落对应节点作为父节点的子节点。

具体地，根据教学视频的课程安排，可生成视频段落的树形结构，图3为本发明实施例所提供的预设的视频段落的树形结构图，如图3所示，图中每个矩形框代表一个节点，每一个节点指示对应视频段落的内容以及展示条件，树形结构中的两节点之间的父子关系用于指示对应视频段落的展示顺序。例如，第一视频段落对应的节点为节点1，将节点1作为父节点的子节点有3个，分别为节点2、节点3以及节点4。

步骤205，在各子节点中，查询语音差异程度满足对应播放条件的目标节点，将目标节点对应的视频段落作为第二视频段落。

如图3中，以节点1为父节点对应的子节点为节点2、节点3和节点4，即节点1对应的视频段落1播放完后，会播放节点2，或者节点3，或者节点4中的一个节点对应的视频段落，各子节点分别指示了不同的播放条件，节点2的播放条件为语音差异程度的等级为很好，节点3的播放条件为语音差异程度的等级为好，以及视频段落4的播放条件为语音差异程度的等级为不好。查询语音差异程度的等级，若语音差异程度的等级是：很好，则将节点2作为目标节点，节点2对应的视频段落2则作为第二视频段落；若语音差异程度的等级是：好，则将节点3作为目标节点，节点3对应的视频段落3则为第二视频段落；若语音差异程度的等级是：不好，则将节点4作为目标节点，节点4对应的视频段落4则作为第二视频段落，实现了根据用户的学习能力和学习效果，播放不同的视频段落，提高了用户的学习效果。

需要说明的是，每个用户每次学习只对应树形结构中的一条路径，学习能力较好的用户对应的路径较短，学习能力不好的用户对应的路径则会较长，当经过学习后，用户的水平得到了提高，第二次进行学习对应的路径则会缩短。例如，当语音差异程度的等级是：不好，确定需要播放的第二视频段落中可针对第一视频段落中的问答内容进行强化培训，例如，进行进一步的解释，并将第一视频段落中的标准语音数据引导用户进行跟读，以强化用户的学习效果。

需要进一步说明的是，当用户的语音数据和标准语音数据之间的语音差异程度较小时，还可以进一步通过用户单词发音的准确度、用户语音数据的流利度等等，来判断用户的语音数据的准确度。

步骤206，将第二视频段落接续在第一视频段落之后展示。

本发明实施例的视频处理方法中，对第一视频段落进行展示，若第一视频段落存在关联问题，对关联问题进行展示后，进行音频采集，以得到用户语音数据，根据用户语音数据与关联问题对应的标准语音数据之间的语音差异程度，确定待展示的第二视频段落，将第二视频段落接续在第一视频段落之后展示。实现了根据采集到的用户语音数据和第一视频段落关联问题对应的标准语音数据之间的差异程度，确定用户是否对第一视频段落的内容已经接受，并根据用户的接受程度确定待播放的第二视频段落，使得录制的视频可以匹配不同用户，灵活性好，可以根据用户的学习水平播放对应的视频内容，提高了用户的学习效率。

为了实现上述实施例，本发明还提出一种视频处理装置。

图4为本发明实施例提供的一种视频处理装置的结构示意图。

如图4所示，该装置包括：展示模块41、采集模块42、确定模块43和拼接模块44。

展示模块41，用于对第一视频段落进行展示.

采集模块42，用于若第一视频段落存在关联问题，对关联问题进行展示后，进行音频采集，以得到用户语音数据。

确定模块43，用于根据用户语音数据与关联问题对应的标准语音数据之间的语音差异程度，确定待展示的第二视频段落。

接续模块44，将第二视频段落接续在第一视频段落之后展示。

需要说明的是，前述对方法实施例的解释说明也适用于该实施例的装置，实现原理相似，此处不再赘述。

本发明实施例的视频处理装置中，展示模块用于对第一视频段落进行展示，采集模块用于若第一视频段落存在关联问题，对关联问题进行展示后，进行音频采集，以得到用户语音数据，确定模块用于根据用户语音数据与关联问题对应的标准语音数据之间的语音差异程度，确定待展示的第二视频段落，接续模块用于将第二视频段落接续在第一视频段落之后展示。实现了根据采集到的用户语音数据和第一视频段落关联问题对应的标准语音数据之间的差异程度，确定用户是否对第一视频段落的内容已经接受，并根据用户的接受程度确定待播放的第二视频段落，使得录制的视频可以匹配不同用户，灵活性好，可以根据用户的学习水平播放对应的视频内容，提高了用户的学习效率。

基于上述实施例，本发明实施例还提供了一种视频处理装置的可能的实现方式，图5为本发明实施例所提供的另一种视频处理装置的结构示意图，在上一实施例的基础上，如图5所示，该装置还包括：计算模块45。

作为一种可能的实现方式，计算模块45，用于对用户语音数据进行分析，以得到各音节，将各音节与标准语音数据中的相应音节比对，以确定单个音节的差异程度，根据各音节的差异程度，计算得到语音差异程度。

作为另一种可能的实现方式，计算模块45，用于识别用户语音数据涉及的各词汇，其中，词汇包括单词和/或词组，将识别出的各词汇与标准语音数据中对应的词汇比较，以确定词汇差异，根据词汇差异，计算得到语音差异程度。

作为本实施例的一种可能的实现方式，确定模块43，还可以包括确定单元431和查询单元432。

确定单元431，用于获取预设的树形结构，在所述树形结构中，确定第一视频段落对应的节点，并查询将第一视频段落对应节点作为父节点的子节点，其中，树形结构包括多个节点，各节点用于指示对应视频段落的内容以及展示条件；树形结构中两节点之间的父子关系用于指示对应视频段落的展示顺序。

查询单元432，用于在各子节点中，查询语音差异程度满足对应展示条件的目标节点，将目标节点对应的视频段落作为第二视频段落。

作为一种可能的实现方式，查询单元332，还可以用于根据各子节点指示的展示条件，查询语音差异程度所属的等级与展示条件指示的等级匹配的目标子节点。

作为本实施例的一种可能的实现方式，接续模块44，具体可以用于：

将第二视频段落首帧作为第一视频段落末帧的下一帧进行拼接；其中，第一视频段落末帧展示的画面与第二视频段落首帧展示的画面之间的相似度高于阈值相似度；

在第一视频段落展示后，继续对拼接在第一视频段落之后的第二视频段落进行展示。作为本发明实施例另一种可能的实现方式，接续模块44，具体还可以用于：

对第二视频段落首帧以及第一视频段落末帧进行差值，以根据差值生成至少一个过渡帧；

将至少一个过渡帧拼接在第一视频段落末帧位置之后，将第二视频段落拼接在至少一个过渡帧的末帧位置；

在第一视频段落展示后，继续对拼接在第一视频段落之后的各过渡帧和第二视频段落进行展示。

为了实现上述实施例，本发明实施例还提出一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如前述方法实施例所述的视频处理方法。

为了实现上述实施例，本发明实施例还提出了一种非暂时性计算机可读存储介质，其上存储有计算机程序，当所述存储介质中的指令由处理器被执行时，实现如前述方法实施例所述的视频处理方法。

图6是图示根据本发明的实施例的非暂时性计算机可读存储介质的示意图。如图6所示，根据本发明实施例的非暂时性计算机可读存储介质300，其上存储有非暂时性计算机可读指令301。当该非暂时性计算机可读指令301由处理器运行时，执行前述的本发明各实施例的视频处理方法的全部或部分步骤。

图7是图示根据本发明实施例的电子设备的硬件结构示意图。电子设备可以以各种形式来实施，本发明中的电子设备可以包括但不限于诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置、车载终端设备、车载显示终端、车载电子后视镜等等的移动终端设备以及诸如数字TV、台式计算机等等的固定电子设备。

如图7所示，电子设备1100可以包括无线通信单元1110、A/V(音频/视频)输入单元1120、用户输入单元1130、感测单元1140、输出单元1150、存储器1160、接口单元1170、控制器1180和电源单元1190等等。图7示出了具有各种组件的电子设备，但是应理解的是，并不要求实施所有示出的组件。可以替代地实施更多或更少的组件。

其中，无线通信单元1110允许电子设备1100与无线通信系统或网络之间的无线电通信。A/V输入单元1120用于接收音频或视频信号。用户输入单元1130可以根据用户输入的命令生成键输入数据以控制电子设备1100的各种操作。感测单元1140检测电子设备1100的当前状态、电子设备1100的位置、用户对于电子设备1100的触摸输入的有无、电子设备1100的取向、电子设备1100的加速或减速移动和方向等等，并且生成用于控制电子设备1100的操作的命令或信号。接口单元1170用作至少一个外部装置与电子设备1100连接可以通过的接口。输出单元1150被构造为以视觉、音频和/或触觉方式提供输出信号。存储器1160可以存储由控制器1180执行的处理和控制操作的软件程序等等，或者可以暂时地存储己经输出或将要输出的数据。存储器1160可以包括至少一种类型的存储介质。而且，电子设备1100可以与通过网络连接执行存储器1160的存储功能的网络存储装置协作。控制器1180通常控制电子设备的总体操作。另外，控制器1180可以包括用于再现或回放多媒体数据的多媒体模块。控制器1180可以执行模式识别处理，以将在触摸屏上执行的手写输入或者图片绘制输入识别为字符或图像。电源单元1190在控制器1180的控制下接收外部电力或内部电力并且提供操作各元件和组件所需的适当的电力。

本发明提出的视频处理方法的各种实施方式可以以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施，本发明提出的视频处理方法的各种实施方式可以通过使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施，在一些情况下，本发明提出的视频处理方法的各种实施方式可以在控制器1180中实施。对于软件实施，本发明提出的视频处理方法的各种实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施，软件代码可以存储在存储器1160中并且由控制器1180执行。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频处理方法，其特征在于，所述方法包括以下步骤：

对第一视频段落进行展示；

若所述第一视频段落中存在关联问题，对所述关联问题进行展示后，进行音频采集，以得到用户语音数据；

将所述第二视频段落接续在所述第一视频段落之后展示。

2.根据权利要求1所述的视频处理方法，其特征在于，所述根据所述用户语音数据与所述关联问题对应的标准语音数据之间的语音差异程度，确定待展示的第二视频段落，包括：

获取预设的树形结构；其中，所述树形结构包括多个节点，各节点用于指示对应视频段落的内容以及展示条件；所述树形结构中两节点之间的父子关系用于指示对应视频段落的展示顺序；

在所述树形结构中，确定所述第一视频段落对应的节点，并查询将所述第一视频段落对应节点作为父节点的子节点；

在各子节点中，查询所述语音差异程度满足对应展示条件的目标节点；

将所述目标节点对应的视频段落作为所述第二视频段落。

3.根据权利要求2所述的视频处理方法，其特征在于，所述在各子节点中，查询所述语音差异程度满足对应展示条件的目标节点，包括：

根据各子节点指示的展示条件，查询所述语音差异程度所属的等级与所述展示条件指示的等级匹配的目标子节点。

4.根据权利要求1所述的视频处理方法，其特征在于，所述根据所述用户语音数据与所述关联问题对应的标准语音数据之间的语音差异程度，确定待展示的第二视频段落之前，还包括：

对所述用户语音数据进行分析，以得到各音节；

将各音节与所述标准语音数据中的相应音节比对，以确定单个音节的差异程度；

根据各音节的差异程度，计算得到所述语音差异程度。

5.根据权利要求1所述的视频处理方法，其特征在于，所述根据所述用户语音数据与所述关联问题对应的标准语音数据之间的语音差异程度，确定待展示的第二视频段落之前，还包括：

识别所述用户语音数据涉及的各词汇；所述词汇包括单词和/或词组；

将识别出的各词汇与所述标准语音数据中对应的词汇比较，以确定词汇差异；

根据所述词汇差异，计算得到所述语音差异程度。

6.根据权利要求1-5任一项所述的视频处理方法，其特征在于，所述将所述第二视频段落接续在所述第一视频段落之后展示，包括：

将所述第二视频段落首帧作为所述第一视频段落末帧的下一帧进行拼接；其中，所述第一视频段落末帧展示的画面与所述第二视频段落首帧展示的画面之间的相似度高于阈值相似度；

在所述第一视频段落展示后，继续对拼接在所述第一视频段落之后的所述第二视频段落进行展示。

7.根据权利要求1-5任一项所述的视频处理方法，其特征在于，所述将所述第二视频段落接续在所述第一视频段落之后展示，包括：

对所述第二视频段落首帧以及所述第一视频段落末帧进行差值，以根据所述差值生成至少一个过渡帧；

将所述至少一个过渡帧拼接在所述第一视频段落末帧位置之后，将所述第二视频段落拼接在所述至少一个过渡帧的末帧位置；

在所述第一视频段落展示后，继续对拼接在所述第一视频段落之后的各过渡帧和所述第二视频段落进行展示。

8.一种视频处理装置，其特征在于，所述装置包括：

展示模块，用于对第一视频段落进行展示；

采集模块，用于若所述第一视频段落中存在关联问题，对所述关联问题进行展示后，进行音频采集，以得到用户语音数据；

接续模块，用于将所述第二视频段落接续在所述第一视频段落之后展示。

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求1-7中任一所述的视频处理方法。

10.一种非暂时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的视频处理方法。