CN116012753A

CN116012753A - 视频处理方法、装置、计算机设备及计算机可读存储介质

Info

Publication number: CN116012753A
Application number: CN202211652229.4A
Authority: CN
Inventors: 李永钢
Original assignee: Ping An Bank Co Ltd
Current assignee: Ping An Bank Co Ltd
Priority date: 2022-12-21
Filing date: 2022-12-21
Publication date: 2023-04-25

Abstract

本申请实施例公开了一种视频处理方法、装置、计算机设备及计算机可读存储介质，方法包括：从视频文件库中获取待检测的目标视频文件；获取目标视频文件中的具有声音信息的多个目标视频片段，以及用于确定目标视频片段在目标视频文件的时间戳的目标时间信息；将多个目标视频片段拼接成目标拼接视频，获取目标拼接视频中每个目标视频片段的识别后文本和文本时间戳；基于每个目标视频片段的文本时间戳，和目标时间信息，还原识别后文本在目标视频文件中对应的视频时间戳；将目标视频文件的识别后文本和视频时间戳对应存储；本申请实施例使质检人员有针对性、选择性的对音频文件查阅并进行分析判断，可以节省大量时间，提高视频检阅的处理效率。

Description

视频处理方法、装置、计算机设备及计算机可读存储介质

技术领域

本申请实施例涉及智能化金融服务技术领域，尤其涉及一种视频处理方法、装置、计算机设备及计算机可读存储介质。

背景技术

随着银行自身业务的发展，可供客户办理的业务种类越来越多，而由于计算机通信技术的不断发展，智能手机、平板电脑及笔记本电脑等终端的大量普及应用，终端向着多样化、个性化的方向发展，日益成为人们在生活与工作中不可或缺的终端，客户可以在手机或电脑等终端上使用银行金融类应用程序进行银行业务预约或办理，银行也可以通过终端远程线上为客户进行业务办理或处理服务。

目前，通常是客户在银行应用程序上发起业务办理或业务咨询等事项，例如贷款业务、理财业务、移动支付业务或咨询业务等业务，业务员根据业务的相关信息按照指定时间与客户进行线上业务处理，例如通过语音或视频的方式进行业务办理后，然后将该语音或视频上传至银行质检系统，然后，银行质检人员可以通过银行质检系统针对业务员和客户在视频过程中沟通的语音或视频进行查阅，从而检查业务员在业务办理时的业务处理质量。然而，现有的处理方式通常是将业务员和客户进行业务办理时的整个音频文件上传至银行质检系统，银行质检人员通过查阅整个音频文件来对该业务的业务处理质量进行评价，由于音频文件中可能存在质检人员在评价时没有起到用处的静音片段，质检人员需要对整个音频文件查阅进行分析判断需要耗费大量时间，视频检阅的处理效率低。

发明内容

本发明实施例提供一种视频处理方法、装置、计算机设备及计算机可读存储介质，通过将音频文件中的非静音视频片段进行拼接处理，得到由多个非静音视频片段组成的拼接视频，然后再将拼接视频中的多个非静音视频片段转换为文本，并还原出在原始音频文件中的播放时间点，从而使质检人员在进行业务评价时可以通过点击文字跳转到对应音频文件对应的业务处理视频中，某一非静音视频片段在业务处理视频的进度条上的播放时间点，以使质检人员有针对性、选择性的对音频文件查阅，并进行分析判断，可以节省大量时间，提高视频检阅的处理效率。

本发明实施例提供一种视频处理方法，包括：

从视频文件库中获取待检测的目标视频文件；

获取所述目标视频文件中的具有声音信息的多个目标视频片段，以及用于确定所述目标视频片段在所述目标视频文件的时间戳的目标时间信息；

将所述多个目标视频片段拼接成目标拼接视频，获取所述目标拼接视频中每个目标视频片段的识别后文本和文本时间戳；

基于所述每个目标视频片段的文本时间戳，和所述目标时间信息，还原所述识别后文本在所述目标视频文件中对应的视频时间戳；

将所述目标视频文件的所述识别后文本和所述视频时间戳对应存储。

本发明实施例还提供一种视频处理装置，包括：

第一获取单元，用于从视频文件库中获取待检测的目标视频文件；

第二获取单元，用于获取所述目标视频文件中的具有声音信息的多个目标视频片段，以及用于确定所述目标视频片段在所述目标视频文件的时间戳的目标时间信息；

拼接单元，用于将所述多个目标视频片段拼接成目标拼接视频，获取所述目标拼接视频中每个目标视频片段的识别后文本和文本时间戳；

处理单元，用于基于所述每个目标视频片段的文本时间戳，和所述目标时间信息，还原所述识别后文本在所述目标视频文件中对应的视频时间戳；

存储单元，用于将所述目标视频文件的所述识别后文本和所述视频时间戳对应存储。

在本发明的一些实施例中，还可以提供一种计算机设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上所述方法的步骤。

在本发明的一些实施例中，还可以提供一种计算机可读存储介质，其上存储有计算机程序，当计算机程序在计算机上运行时，使得所述计算机执行如上所述方法的步骤。

采用本申请实施例，可以通过从视频文件库中获取待检测的目标视频文件；然后，获取所述目标视频文件中的具有声音信息的多个目标视频片段，以及用于确定所述目标视频片段在所述目标视频文件的时间戳的目标时间信息；接着，将所述多个目标视频片段拼接成目标拼接视频，获取所述目标拼接视频中每个目标视频片段的识别后文本和文本时间戳；之后，基于所述每个目标视频片段的文本时间戳，和所述目标时间信息，还原所述识别后文本在所述目标视频文件中对应的视频时间戳；最后，将所述目标视频文件的所述识别后文本和所述视频时间戳对应存储。本申请实施例通过将音频文件中的非静音视频片段进行拼接处理，得到由多个非静音视频片段组成的拼接视频，然后再将拼接视频中的多个非静音视频片段转换为文本，并还原出在原始音频文件中的播放时间点，从而使质检人员在进行业务评价时，可以通过点击文字跳转到音频文件对应的业务处理视频中某一非静音视频片段在业务处理视频的进度条上的播放时间点，以使质检人员有针对性、选择性的对音频文件查阅，并进行分析判断，可以节省大量时间，提高视频检阅的处理效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的视频处理方法的一种流程示意图；

图2是本发明实施例提供的视频处理方法的一种应用场景示意图；

图3是本发明实施例提供的视频处理方法的另一种流程示意图；

图4是本发明实施例提供的视频处理装置的结构示意图；

图5是本发明实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术中，银行质检人员可以通过银行质检系统针对业务员和客户在视频过程中沟通的语音或视频进行查阅，从而检查业务员在业务办理时的业务处理质量。现有的处理方式通常是将业务员和客户进行业务办理时的整个音频文件上传至银行质检系统，对整个音频文件进行存储，会造成存储资源的浪费，并且，银行质检人员通过查阅整个音频文件来对该业务的业务处理质量进行评价，由于音频文件中可能存在质检人员在评价时没有起到用处的静音片段，质检人员需要对整个音频文件查阅进行分析判断需要耗费大量时间，视频检阅的处理效率低。

为了解决上述问题，本申请实施例提供一种视频处理方法、装置、计算机设备及计算机可读存储介质，通过将音频文件中的非静音视频片段进行拼接处理，得到由多个非静音视频片段组成的拼接视频，然后再将拼接视频中的多个非静音视频片段转换为文本，并还原出在原始音频文件中的播放时间点，从而使质检人员在进行业务评价时可以通过点击文字跳转到对应音频文件对应的业务处理视频中，某一非静音视频片段在业务处理视频的进度条上的播放时间点，以使质检人员有针对性、选择性的对音频文件查阅，并进行分析判断，可以节省大量时间，提高视频检阅的处理效率。

本申请实施例提供一种视频处理方法、装置、计算机设备及计算机可读存储介质。具体地，本申请实施例的视频处理方法可以由计算机设备执行，其中，该计算机设备可以为终端或者服务器等设备。该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、个人计算机(PC，Personal Computer)、个人数字助理(Personal Digital Assistant，PDA)等终端设备，终端还可以包括客户端，该客户端可以是应用客户端、携带有控制程序的浏览器客户端或即时通信客户端等。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

本发明实施例提供一种视频处理方法、装置、计算机设备及计算机可读存储介质，该视频处理方法可以配合终端使用，如智能手机、平板电脑、笔记本电脑或个人计算机等。以下对该视频处理方法、装置、计算机设备及计算机可读存储介质进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

请参阅图1，图1为本申请实施例提供的一种视频处理方法的流程示意图，具体流程可以如下步骤101至步骤105：

101，从视频文件库中获取待检测的目标视频文件。

在本申请实施例中，该视频文件库中的视频文件可以是银行应用程序将音频文件发送给视频文件库，视频文件库将该音频文件进行存储从而得到多个视频文件。其中，客户在银行应用程序上发起业务办理或业务咨询等事项，例如贷款业务、理财业务、移动支付业务或咨询业务等业务，业务员根据业务的相关信息按照指定时间与客户进行线上业务处理，业务员可以与客户建立视频连接，业务员与客户进行业务办理时的声音和视频画面可以通过视频软件开发工具包(Software Development Kit，SDK)写入到音频文件中，当检测到业务员与客户之间建立的视频挂断后，银行应用程序将音频文件上传到视频系统，例如视频文件库中进行存储，以供后续银行质检人员通过查阅音频文件来对该业务的业务处理质量进行评价。

102，获取所述目标视频文件中的具有声音信息的多个目标视频片段，以及用于确定所述目标视频片段在所述目标视频文件的时间戳的目标时间信息。

在本申请实施例中，计算机设备可以获取所述目标视频文件中的具有声音信息的多个目标视频片段，该目标视频片段均为目标视频文件中的非静音片段，目标时间信息包括视频开始时间、视频结束时间以及视频时长，每一个目标视频片段都具有一个视频开始时间、一个视频结束时间以及视频时长。

103，将所述多个目标视频片段拼接成目标拼接视频，获取所述目标拼接视频中每个目标视频片段的识别后文本和文本时间戳。

在一具体实施例中，步骤“所述将所述多个目标视频片段拼接成目标拼接视频”，方法可以包括：

获取所述多个目标视频片段在所述目标视频中的播放顺序；

根据所述播放顺序以及预设静音片段，将所述多个目标视频片段拼接成目标拼接视频，其中，所述目标拼接视频中相邻的两个目标视频片段之间，设置有一个所述预设静音片段。

例如，计算机设备可以将从目标视频文件中截取的目标视频片段进行拼接处理，具体在，在相邻的两个目标视频片段之间设置一个1秒的静音片段，以使每相邻的两个目标视频片段之间间隔1秒，从而将多个目标视频片段合成到1个文件中，得到目标拼接视频。

104，基于所述每个目标视频片段的文本时间戳，和所述目标时间信息，还原所述识别后文本在所述目标视频文件中对应的视频时间戳。

105，将所述目标视频文件的所述识别后文本和所述视频时间戳对应存储。

为了使银行质检人员有针对性、选择性的对目标视频文件进行查阅，以快捷对该业务的业务处理质量进行评价，在步骤“将所述目标视频文件的所述识别后文本和所述视频时间戳对应存储”之后，方法可以包括：

响应于用户针对所述目标视频文件中所述识别后文本的选择操作，从多个识别后文本中确定目标识别后文本；

获取所述目标识别后文本的视频时间戳；

基于所述视频时间戳确定所述目标识别后文本的目标视频片段在所述目标视频文件中视频播放位置；

根据所述播放位置开始播放所述目标视频文件。

可选的，在步骤“响应于用户针对所述目标视频文件中所述识别后文本的选择操作，从多个识别后文本中确定目标识别后文本”之前，方法可以包括：

显示图形用户界面，所述图形用户界面包括视频播放区域和文本显示区域，其中，所述视频播放区域用于显示所述目标视频文件对应的视频画面，所述文本显示区域用于显示所述目标视频文件对应的所有识别后文本；

根据所述识别后文本在所述目标视频文件中对应的视频时间戳，在所述文本显示区域显示所述目标视频文件的所有识别后文本。

在一实施例中，步骤“所述基于所述视频时间戳确定所述目标识别后文本的目标视频片段在所述目标视频文件中视频播放位置”，方法可以包括：

基于所述视频时间戳确定所述目标识别后文本的目标视频片段在所述目标视频文件中视频播放位置以及视频结束位置；

根据所述播放位置开始播放所述目标视频文件，当检测到所述目标视频文件播放至所述视频结束位置时，停止所述目标视频文件的播放。

在一具体实施例中，所述视频播放区域还设置有视频进度条，在步骤“基于所述每个目标视频片段的文本时间戳，和所述目标时间信息，还原所述识别后文本在所述目标视频文件中对应的视频时间戳”之后，方法可以包括：

基于所述识别后文本在所述目标视频文件中对应的视频时间戳，在所述视频进度条上生成多个视频播放标识，其中，一个所述视频播放标识用于提示所述用户一个所述目标视频片段的播放起始时间点。

例如，请参阅图2，计算机设备可以显示有图形用户界面，该图形用户界面包括视频播放区域和文本显示区域，其中，视频播放区域用于显示所述目标视频文件对应的视频画面，视频画面中可以显示有客户画面以及显示与通话窗口中的业务员画面，所述文本显示区域用于显示所述目标视频文件对应的所有识别后文本，视频播放区域还设置有视频进度条，用于指示目标视频文件的播放进度，在视频进度条上还显示有当前播放标识和多个视频播放标识，视频播放标识包括第一视频播放标识和第二第一视频播放标识，一个所述视频播放标识用于提示所述用户一个所述目标视频片段的播放起始时间点。

进一步的，在步骤“基于所述识别后文本在所述目标视频文件中对应的视频时间戳，在所述视频进度条上生成多个视频播放标识”之后，方法可以包括：

响应于所述用户针对所述目标视频文件对应的视频进度条的触控操作，从多个视频播放标识中确定目标视频播放标识；

基于所述目标视频播放标识确定对应目标视频片段的播放起始时间点；

根据所述播放起始时间点播放所述目标视频文件。

综上所述，本申请实施例提供一种视频处理方法，通过从视频文件库中获取待检测的目标视频文件；然后，获取所述目标视频文件中的具有声音信息的多个目标视频片段，以及用于确定所述目标视频片段在所述目标视频文件的时间戳的目标时间信息；接着，将所述多个目标视频片段拼接成目标拼接视频，获取所述目标拼接视频中每个目标视频片段的识别后文本和文本时间戳；之后，基于所述每个目标视频片段的文本时间戳，和所述目标时间信息，还原所述识别后文本在所述目标视频文件中对应的视频时间戳；最后，将所述目标视频文件的所述识别后文本和所述视频时间戳对应存储。本申请实施例通过将音频文件中的非静音视频片段进行拼接处理，得到由多个非静音视频片段组成的拼接视频，然后再将拼接视频中的多个非静音视频片段转换为文本，并还原出在原始音频文件中的播放时间点，从而使质检人员在进行业务评价时，可以通过点击文字跳转到音频文件对应的业务处理视频中某一非静音视频片段在业务处理视频的进度条上的播放时间点，以使质检人员有针对性、选择性的对音频文件查阅，并进行分析判断，可以节省大量时间，提高视频检阅的处理效率。

根据上述介绍的内容，下面将举例来进一步说明本申请的视频处理方法。下面将以视频处理方法在具体实施场景中的应用为例进行说明，请参阅图3，具体应用场景如下所述：

201，业务员对应的客户端可以生成目标视频文件。

在本申请实施例中，当计算机设备检测到业务员与客户之间建立的视频挂断后，业务员对应的客户端可以生成目标视频文件。具体的，业务员可以与客户建立视频连接，业务员与客户进行业务办理时的声音和视频画面可以通过视频软件开发工具包(SoftwareDevelopment Kit，SDK)写入到音频文件中，当检测到业务员与客户之间建立的视频挂断后，银行应用程序将该视频的音频文件上传到视频文件库中进行存储，以供后续银行质检人员通过查阅整个音频文件来对该业务的业务处理质量进行评价，该音频文件作为目标视频文件。

202，分析出目标视频文件中的静音视频片段的时间起止点。

计算机设备可以从视频文件库中获取待检测的目标视频文件，并使用ffmpeg-i–af silencedetect-f/audio/1.wav，分析出目标视频文件中的静音视频片段的时间起止点，并进行记录，以得到多个静音视频片段以及对应的时间起始点。

203，截取出目标视频文件中的多个非静音视频片段。

计算机设备可以截取出目标视频文件中的多个非静音视频片段，具体采用命令：ffmpeg–vn–acodec copy–ss nonsilence_start–t nonsilence_duration/tmp/asr/trans/nonsilence/1.wav.x–y从目标视频文件截取出多个非静音视频片段，作为目标视频片段。

204，将从目标视频文件截取出多个非静音视频片段，以每段之间间隔1秒的形式合成到1个文件中，以得到目标拼接视频。

计算机设备可以将从目标视频文件中截取的目标视频片段进行拼接处理，在相邻的两个目标视频片段之间设置一个1秒的静音片段，以使每相邻的两个目标视频片段之间间隔1秒，从而将多个目标视频片段合成到1个文件中，得到目标拼接视频。具体的，计算机设备可以使用命令：ffmpeg–filter_complex concat＝n＝2:v＝0:a＝1[out]–map[out]/tmp/asr/trans/destFileName–y，将从目标视频文件截取出多个非静音视频片段，以每段之间间隔1秒的形式合成到1个文件中，以得到目标拼接视频。

205，采用ASR系统将目标拼接视频中的非静音视频片段转换为文本，作为识别后文本。

在本申请实施例中，可以将目标拼接视频发送至自动语音识别技术系统(Automatic Speech Recognition，ASR)，以使ASR系统将目标拼接视频中的非静音视频片段转换为文本，作为识别后文本。

206，采用ASR系统将目标拼接视频中的非静音视频片段转换为文本，并获取文本时间戳。

具体的，本申请实施例中ASR系统返回目标拼接视频中的非静音视频片段转换的多个识别后文本以及文本时间戳。

207，根据静音视频片段偏移量还原所述识别后文本在所述目标视频文件中对应的视频时间戳。

计算机设备可以根据基于所述每个目标视频片段的文本时间戳，和所述目标时间信息，还原所述识别后文本在所述目标视频文件中对应的视频时间戳，也即根据静音视频片段偏移量还原所述识别后文本在所述目标视频文件中对应的视频时间戳。

208，将所述目标视频文件的所述识别后文本和所述视频时间戳对应存储。

本申请实施例中可以将所述目标视频文件的所述识别后文本和所述视频时间戳对应存储，以供后续银行质检人员通过查阅整个音频文件来对该业务的业务处理质量进行评价。

可选的，下面将以视频处理方法在具体实施场景中的应用为例进行说明，具体应用场景如下所述：

(1)业务员根据业务的相关信息按照指定时间与客户进行线上业务处理，业务员可以与客户建立视频连接，业务员与客户进行业务办理时的声音和视频画面可以通过视频软件开发工具包(Software Development Kit，SDK)写入到音频文件中，当检测到业务员与客户之间建立的视频挂断后，银行应用程序将音频文件上传到视频系统，例如视频文件库中进行存储，以供后续银行质检人员通过查阅整个音频文件来对该业务的业务处理质量进行评价。

(2)计算机设备可以获取所述目标视频文件中的具有声音信息的多个目标视频片段，该目标视频片段均为目标视频文件中的非静音片段，目标时间信息包括视频开始时间、视频结束时间以及视频时长，每一个目标视频片段都具有一个视频开始时间、一个视频结束时间以及视频时长。

(3)计算机设备可以将从目标视频文件中截取的目标视频片段进行拼接处理，具体在，在相邻的两个目标视频片段之间设置一个1秒的静音片段，以使每相邻的两个目标视频片段之间间隔1秒，从而将多个目标视频片段合成到1个文件中，得到目标拼接视频。

(4)计算机设备可以基于所述每个目标视频片段的文本时间戳，和所述目标时间信息，还原所述识别后文本在所述目标视频文件中对应的视频时间戳。

(5)计算机设备可以将所述目标视频文件的所述识别后文本和所述视频时间戳对应存储。然后，在银行质检人员对目标视频文件进行检阅时，计算机设备可以显示有图形用户界面，该图形用户界面包括视频播放区域和文本显示区域，其中，视频播放区域用于显示所述目标视频文件对应的视频画面，视频画面中可以显示有客户画面以及显示与通话窗口中的业务员画面，所述文本显示区域用于显示所述目标视频文件对应的所有识别后文本，视频播放区域还设置有视频进度条，用于指示目标视频文件的播放进度，在视频进度条上还显示有当前播放标识和多个视频播放标识，视频播放标识包括第一视频播放标识和第二第一视频播放标识，一个所述视频播放标识用于提示所述用户一个所述目标视频片段的播放起始时间点。银行质检人员可以通过点击文本显示区域中多个识别后文本中的目标识别后文本，以在视频播放区域播放目标识别后文本对应的目标视频片段的视频画面，以供后续银行质检人员通过查阅具有声音的目标视频片段来对该业务的业务处理质量进行评价。又或者，银行质检人员可以通过点击视频进度条上的多个视频播放标识中的目标视频播放标识，以在视频播放区域播放目标视频播放标识对应的目标视频片段的视频画面，以供后续银行质检人员通过查阅具有声音的目标视频片段来对该业务的业务处理质量进行评价。

为了更好地实施以上方法，相应的，本发明实施例还提供一种视频处理装置，该视频处理装置具体集成在终端或服务器中。

请参阅图4，图4为本申请实施例提供的一种视频处理装置的结构示意图，该视频处理装置包括：

第一获取单元301，用于从视频文件库中获取待检测的目标视频文件；

第二获取单元302，用于获取所述目标视频文件中的具有声音信息的多个目标视频片段，以及用于确定所述目标视频片段在所述目标视频文件的时间戳的目标时间信息；

拼接单元303，用于将所述多个目标视频片段拼接成目标拼接视频，获取所述目标拼接视频中每个目标视频片段的识别后文本和文本时间戳；

处理单元304，用于基于所述每个目标视频片段的文本时间戳，和所述目标时间信息，还原所述识别后文本在所述目标视频文件中对应的视频时间戳；

存储单元305，用于将所述目标视频文件的所述识别后文本和所述视频时间戳对应存储。

在一些实施例中，该视频处理装置包括：

响应子单元，用于响应于用户针对所述目标视频文件中所述识别后文本的选择操作，从多个识别后文本中确定目标识别后文本；

第一获取子单元，用于获取所述目标识别后文本的视频时间戳；

第一确定子单元，用于基于所述视频时间戳确定所述目标识别后文本的目标视频片段在所述目标视频文件中视频播放位置；

第一播放子单元，用于根据所述播放位置开始播放所述目标视频文件。

在一些实施例中，该视频处理装置包括：

显示子单元，用于显示图形用户界面，所述图形用户界面包括视频播放区域和文本显示区域，其中，所述视频播放区域用于显示所述目标视频文件对应的视频画面，所述文本显示区域用于显示所述目标视频文件对应的所有识别后文本；

显示子单元，还用于根据所述识别后文本在所述目标视频文件中对应的视频时间戳，在所述文本显示区域显示所述目标视频文件的所有识别后文本。

在一些实施例中，该视频处理装置包括：

第二确定子单元，用于基于所述视频时间戳确定所述目标识别后文本的目标视频片段在所述目标视频文件中视频播放位置以及视频结束位置；

第二播放子单元，用于根据所述播放位置开始播放所述目标视频文件，当检测到所述目标视频文件播放至所述视频结束位置时，停止所述目标视频文件的播放。

在一些实施例中，该视频处理装置包括：

第二获取子单元，用于获取所述多个目标视频片段在所述目标视频中的播放顺序；

拼接子单元，用于根据所述播放顺序以及预设静音片段，将所述多个目标视频片段拼接成目标拼接视频，其中，所述目标拼接视频中相邻的两个目标视频片段之间，设置有一个所述预设静音片段。

在一些实施例中，该视频处理装置包括：

生成子单元，用于基于所述识别后文本在所述目标视频文件中对应的视频时间戳，在所述视频进度条上生成多个视频播放标识，其中，一个所述视频播放标识用于提示所述用户一个所述目标视频片段的播放起始时间点。

在一些实施例中，该视频处理装置包括：

第三确定子单元，用于响应于所述用户针对所述目标视频文件对应的视频进度条的触控操作，从多个视频播放标识中确定目标视频播放标识；

第三确定子单元，还用于基于所述目标视频播放标识确定对应目标视频片段的播放起始时间点；

第三播放子单元，用于根据所述播放起始时间点播放所述目标视频文件。

本申请实施例提供一种视频处理装置，通过第一获取单元301从视频文件库中获取待检测的目标视频文件；第二获取单元302获取所述目标视频文件中的具有声音信息的多个目标视频片段，以及用于确定所述目标视频片段在所述目标视频文件的时间戳的目标时间信息；拼接单元303将所述多个目标视频片段拼接成目标拼接视频，获取所述目标拼接视频中每个目标视频片段的识别后文本和文本时间戳；处理单元304基于所述每个目标视频片段的文本时间戳，和所述目标时间信息，还原所述识别后文本在所述目标视频文件中对应的视频时间戳；存储单元305将所述目标视频文件的所述识别后文本和所述视频时间戳对应存储。本申请实施例通过将音频文件中的非静音视频片段进行拼接处理，得到由多个非静音视频片段组成的拼接视频，然后再将拼接视频中的多个非静音视频片段转换为文本，并还原出在原始音频文件中的播放时间点，从而使质检人员在进行业务评价时，可以通过点击文字跳转到音频文件对应的业务处理视频中某一非静音视频片段在业务处理视频的进度条上的播放时间点，以使质检人员有针对性、选择性的对音频文件查阅，并进行分析判断，可以节省大量时间，提高视频检阅的处理效率。

此外，本发明实施例还提供一种计算机设备，该计算机设备可以为终端或者服务器，如图5所示，其示出了本发明实施例所涉及的计算机设备的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图5中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

计算机设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

从视频文件库中获取待检测的目标视频文件；

在一实施例中，在将所述目标视频文件的所述识别后文本和所述视频时间戳对应存储之后，还包括：

获取所述目标识别后文本的视频时间戳；

根据所述播放位置开始播放所述目标视频文件。

在一实施例中，在响应于用户针对所述目标视频文件中所述识别后文本的选择操作，从多个识别后文本中确定目标识别后文本之前，还包括：

在一实施例中，所述基于所述视频时间戳确定所述目标识别后文本的目标视频片段在所述目标视频文件中视频播放位置，包括：

在一实施例中，所述将所述多个目标视频片段拼接成目标拼接视频，包括：

获取所述多个目标视频片段在所述目标视频中的播放顺序；

在一实施例中，所述视频播放区域还设置有视频进度条；

在基于所述每个目标视频片段的文本时间戳，和所述目标时间信息，还原所述识别后文本在所述目标视频文件中对应的视频时间戳之后，还包括：

在一实施例中，在基于所述识别后文本在所述目标视频文件中对应的视频时间戳，在所述视频进度条上生成多个视频播放标识之后，还包括：

根据所述播放起始时间点播放所述目标视频文件。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例还提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例中的各种可选实现方式中提供的方法。

根据本申请的一个方面，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中的各种可选实现方式中提供的方法。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种视频处理方法中的步骤，因此，可以实现本申请实施例所提供的任一种视频处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

以上对本发明实施例所提供的一种视频处理方法、装置、计算机设备和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频处理方法，其特征在于，包括：

从视频文件库中获取待检测的目标视频文件；

2.根据权利要求1所述的视频处理方法，其特征在于，在将所述目标视频文件的所述识别后文本和所述视频时间戳对应存储之后，还包括：

获取所述目标识别后文本的视频时间戳；

根据所述播放位置开始播放所述目标视频文件。

3.根据权利要求2所述的视频处理方法，其特征在于，在响应于用户针对所述目标视频文件中所述识别后文本的选择操作，从多个识别后文本中确定目标识别后文本之前，还包括：

4.根据权利要求2所述的视频处理方法，其特征在于，所述基于所述视频时间戳确定所述目标识别后文本的目标视频片段在所述目标视频文件中视频播放位置，包括：

5.根据权利要求1所述的视频处理方法，其特征在于，所述将所述多个目标视频片段拼接成目标拼接视频，包括：

获取所述多个目标视频片段在所述目标视频中的播放顺序；

6.根据权利要求3所述的视频处理方法，其特征在于，所述视频播放区域还设置有视频进度条；

7.根据权利要求6所述的视频处理方法，其特征在于，在基于所述识别后文本在所述目标视频文件中对应的视频时间戳，在所述视频进度条上生成多个视频播放标识之后，还包括：

根据所述播放起始时间点播放所述目标视频文件。

8.一种视频处理装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述视频处理方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，当计算机程序在计算机上运行时，使得所述计算机执行如权利要求1至7中任一项所述视频处理方法的步骤。