CN113873191A

CN113873191A - 一种基于语音的视频回溯方法、装置及系统

Info

Publication number: CN113873191A
Application number: CN202111184995.8A
Authority: CN
Inventors: 吕建建; 赵坚钊; 周圣强; 黄岗
Original assignee: Suzhou Wandianzhang Software Technology Co ltd; OP Retail Suzhou Technology Co Ltd
Current assignee: Suzhou Wandianzhang Software Technology Co ltd; OP Retail Suzhou Technology Co Ltd
Priority date: 2021-10-12
Filing date: 2021-10-12
Publication date: 2021-12-31
Anticipated expiration: 2041-10-12
Also published as: CN113873191B

Abstract

本发明公开了一种基于语音的视频回溯方法、装置及系统，通过操作人员根据选取的目标音频段落生成并获取回溯指令，根据该回溯指令确定该目标音频段落产生的时间点并自动找寻生成该目标音频段落的录音设备所对应的录像设备，最终自动地从该录像设备产生的视频文件中确定与目标音频段落在同一时间点产生的目标视频段落，可以实现基于语音对视频进行回溯，针对不同的录音设备自动选择不同的回溯实现方式，更加系统地帮助用户进行视频回溯，能够快速定位需要回溯的场景，实现用户对企业门店的智能化管理。

Description

一种基于语音的视频回溯方法、装置及系统

技术领域

本发明涉及视频回溯技术领域，特别是涉及一种基于语音的视频回溯方法、一种基于语音的视频回溯装置以及一种基于语音的视频回溯系统。

背景技术

越来越多的门店需要分析店员与顾客之间的对话，目前市面的单纯的录制顾客和店员之前的音频进行分析店内客流多少，服务员的服务质量比较单一。现有语音识别厂商存在无法还原当时现场环境，只能去录音进行分析店员和顾客的对话，存在一定的缺陷。所以如何提供一种可以基于语音的视频回溯方案是本领域技术人员急需解决的问题。

发明内容

本发明的目的是提供一种基于语音的视频回溯方法，可以基于语音对视频进行回溯；本发明还提供了一种基于语音的视频回溯装置以及一种基于语音的视频回溯系统，可以基于语音对视频进行回溯。

为解决上述技术问题，本发明提供一种基于语音的视频回溯方法，包括：

获取回溯指令；所述回溯指令对应预先通过录音设备获取的音频文件中的目标音频段落；

根据所述回溯指令确定所述目标音频段落对应的时间点以及所述目标音频段落对应的所述录音设备的第一标识信息；

根据所述第一标识信息确定对应的录像设备的第二标识信息；所述录像设备与所述录音设备对应同一场景；

根据所述第二标识信息，确定所述录像设备拍摄的视频文件中对应所述时间点的目标视频段落。

可选的，在所述获取回溯指令之前，还包括：

将所述音频文件中的音频段落转换为文字进行展示。

可选的，所述第二标识信息为所述录像设备的MAC地址。

可选的，所述录像设备为网络摄像机。

可选的，所述录音设备为固定式录音设备；

所述根据所述第一标识信息确定对应的录像设备的第二标识信息包括：

根据预先绑定的所述第一标识信息与所述第二标识信息之间的对应关系，根据所述第一标识信息直接确定所述第二标识信息。

可选的，所述录音设备为移动式录音设备；

根据所述第一标识信息确定所述移动式录音设备所在目标区域的多个录像设备的第二标识信息。

可选的，所述根据所述第二标识信息，确定所述录像设备拍摄的视频文件中对应所述时间点的目标视频段落包括：

根据所述第一标识信息确定佩戴所述移动式录音设备的员工的生物特征信息；

根据所述第二标识信息确定对应的所述录像设备所拍摄的视频文件；

调用检测模型，从所述视频文件中在所述时间点对应的图像中，识别出包括所述生物特征信息的图像；

根据包括所述生物特征信息的图像确定对应所述时间点的目标视频段落。

可选的，在所述根据所述第二标识信息，确定所述录像设备拍摄的视频文件中对应所述时间点的目标视频段落之后，还包括：

展示所述目标视频段落。

本发明还提供了一种基于语音的视频回溯装置，包括：

获取模块，用于获取回溯指令；所述回溯指令对应预先通过录音设备获取的音频文件中的目标音频段落；

录音设备确定模块，用于根据所述回溯指令确定所述目标音频段落对应的时间点以及所述目标音频段落对应的所述录音设备的第一标识信息；

录像设备确定模块，用于根据所述第一标识信息确定对应的录像设备的第二标识信息；所述录像设备与所述录音设备对应同一场景；

视频确定模块，用于根据所述第二标识信息，确定所述录像设备拍摄的视频文件中对应所述时间点的目标视频段落。

本发明还提供了一种基于语音的视频回溯系统，包括处理器，录音设备和录像设备，所述录像设备与所述录音设备对应同一场景；

所述处理器用于：

获取回溯指令；所述回溯指令对应预先通过所述录音设备获取的音频文件中的目标音频段落；

根据所述第一标识信息确定对应的所述录像设备的第二标识信息；

本发明所提供的一种基于语音的视频回溯方法，包括获取回溯指令；回溯指令对应预先通过录音设备获取的音频文件中的目标音频段落；根据回溯指令确定目标音频段落对应的时间点以及目标音频段落对应的录音设备的第一标识信息；根据第一标识信息确定对应的录像设备的第二标识信息；录像设备与录音设备对应同一场景；根据第二标识信息，确定录像设备拍摄的视频文件中对应时间点的目标视频段落。

通过操作人员根据选取的目标音频段落生成并获取回溯指令，根据该回溯指令确定该目标音频段落产生的时间点并自动找寻生成该目标音频段落的录音设备所对应的录像设备，最终自动的从该录像设备产生的视频文件中确定与目标音频段落在同一时间点产生的目标视频段落，可以实现基于语音对视频进行回溯，便于检查人员根据该目标音频段落确定实际情况。本发明针对不同的录音设备自动选择不同的回溯实现方式，更加系统地帮助用户进行视频回溯，能够快速定位需要回溯的场景，实现用户对企业门店的智能化管理。

本发明还提供了一种基于语音的视频回溯装置以及一种基于语音的视频回溯系统，同样具有上述有益效果，在此不再进行赘述。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的一种基于语音的视频回溯方法的流程图；

图2为本发明实施例所提供的一种具体的基于语音的视频回溯方法的流程图；

图3为本发明实施例所提供的另一种具体的基于语音的视频回溯方法的流程图；

图4为本发明实施例所提供的一种基于语音的视频回溯装置的结构框图；

图5为本发明实施例所提供的一种基于语音的视频回溯系统的结构框图。

具体实施方式

本发明的核心是提供一种基于语音的视频回溯方法。现有语音识别厂商存在无法还原当时现场环境，只能去录音进行分析店员和顾客的对话，存在一定的缺陷。

而本发明所提供的一种基于语音的视频回溯方法，包括获取回溯指令；回溯指令对应预先通过录音设备获取的音频文件中的目标音频段落；根据回溯指令确定目标音频段落对应的时间点以及目标音频段落对应的录音设备的第一标识信息；根据第一标识信息确定对应的录像设备的第二标识信息；录像设备与录音设备对应同一场景；根据第二标识信息，确定录像设备拍摄的视频文件中对应时间点的目标视频段落。

通过操作人员根据选取的目标音频段落生成并获取回溯指令，根据该回溯指令确定该目标音频段落产生的时间点并自动找寻生成该目标音频段落的录音设备所对应的录像设备，最终自动的从该录像设备产生的视频文件中确定与目标音频段落在同一时间点产生的目标视频段落，可以实现基于语音对视频进行回溯，便于检查人员根据该目标音频段落确定实际情况。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明实施例所提供的一种基于语音的视频回溯方法的流程图。

参见图1，在本发明实施例中，基于语音的视频回溯方法包括：

S101：获取回溯指令。

在本发明实施例中，所述回溯指令对应预先通过录音设备获取的音频文件中的目标音频段落。通常情况下，当录音设备获取到声音信号之后，该录音设备会将该声音信号转换成音频文件并上传至云端，之后云端会返回一个公网可访问的HTTP音频连接，然后把该音频文件的唯一ID和该HTTP音频链接绑定存储在数据库中，该音频文件通常包括多个音频段落，当然该音频文件也可以仅包括一个音频段落。通常情况下，该音频文件还会包括有生成该音频文件的录音设备的标识信息，即第一标识信息。当然，该第一标识信息可以具体为该录音设备生成的音频文件的唯一ID，有关该第一标识信息的具体内容可以根据实际情况自行设定，在本申请中只需要根据该第一标识信息可以确定出其对应的录音设备以及该录音设备生成的音频文件即可。

在本发明实施例中，会有检查人员对上传的音频文件进行监听。作为优选的，在本步骤之前还可以包括：将所述音频文件中的音频段落转换为文字进行展示。即在本发明实施例中当录音设备上传音频文件之后，可以进一步的将音频文件中各个音频段落转换为文字并进行展示，即将各个音频段落翻译成文字，以便检查人员可以快速完成检查。有关将音频段落转换成文字的具体过程可以参考现有技术，在此不再进行赘述。

通常情况下当检查人员发现某一音频段落，即目标音频段落存在问题时，例如反映出当时发生争吵或异响等时，在本发明实施例中该检查人员会下发针对该目标音频段落的回溯指令，此时该回溯指令会与目标音频段落相互对应。有关回溯指令的具体内容可以根据实际情况自行设定，在此不做具体限定。

S102：根据回溯指令确定目标音频段落对应的时间点以及目标音频段落对应的录音设备的第一标识信息。

在本步骤中，会根据上述回溯指令确定出记录目标音频段落的时间点，即目标音频段落对应的时间点，该时间点可以通过时间戳或其他方式表示。在本步骤中，还可以进一步根据目标音频段落确定出上传该音频段落的录音设备的第一标识信息，以便在后续步骤中进一步根据该第一标识信息确定出对应的录像设备等内容。

S103：根据第一标识信息确定对应的录像设备的第二标识信息。

在本发明实施例中，所述录像设备与所述录音设备对应同一场景。即在本发明实施例中上述录像设备拍摄的场景，与录音设备获取声音的场景通常需要为同一场景，以便在回溯时可以根据录像设备拍摄的视频对收录声音时的具体情形进行回溯。需要说明的是，此处录像设备并不需要正对录音设备拍摄，两者之间只需要对应同一场景即可。

在本发明实施例中通常存储有第一标识信息与第二标识信息的对应关系，而在本步骤中，会根据第一标识信息确定出第二标识信息，而第二标识信息具体为录像设备的标识信息，因此在本步骤中可以具体找到上述获取到目标音频段落的录音设备处于同一场景的录像设备。有关本步骤的具体内容将在下述发明实施例中做详细介绍，在此不再进行赘述。

通常情况下，上述第二标识信息可以为所述录像设备的MAC（Media AccessControl Address）地址。而在本发明实施例中，可以预先将录音设备与录像设备的MAC地址相互绑定，已预先存储第一标识信息与第二标识信息的对应关系。具体的，后台在企业注册设备时，可以在后台将门店的录像设备与录音设备进行绑定，绑定的技术手段为通过录像设备的MAC地址关联，例如MAC地址为DD900Q3EEJJFASDLNFMWA90EW的录像设备与录音设备绑定，则将他们关联存储在一条数据记录，当通过录音设备进行回溯时，必然会跳到该MAC地址对应的录像设备。当然，录音设备可能绑定多台录像设备，当绑定了多台录像设备的具体内容将在下述发明实施例中做详细介绍。相应的，上述录像设备通常为网络摄像机IPC，同样地也可以将录像设备拍摄的视频上传至具有存储功能的NVR（Network VideoRecorder，网络视频录像机）进行存储；此外，需要说明的是，在不同需求的情况下，作为录像设备的网络摄像机IPC可以具备或携带网络视频录像机的功能，该实现视频存储功能的运行过程与网络摄像机结合网络视频录像机使用的运行过程相同。

S104：根据第二标识信息，确定录像设备拍摄的视频文件中对应时间点的目标视频段落。

在本步骤中，可以根据第二标识信息确定出其对应的录像设备，进一步可以确定该录像设备所拍摄的视频文件。之后，在本步骤中可以进一步确定该视频文件中对应上述时间点，即目标音频段落所对应时间点的目标视频段落。有关本步骤的具体内容将在下述发明实施例中做详细介绍，在此不再进行赘述。需要说明的是，上述目标视频段落并不仅仅包括上述时间点所对应的图像，通常具体为包括时间点前后一段时间内的视频图像，以便检查人员对现场进行回溯。具体的，上述目标视频段落可以具体为以上述时间点为中心，前后预设时间段内的视频图像，例如以上述时间点为中心，前后共15秒或30秒内的视频图像作为目标视频段落。有关上述目标视频段落具体的时长可以根据实际情况自行设定，在此不做具体限定。

在本步骤之后，通常需要展示所述目标视频段落，以便于检查人员对目标音频段落所对应的场景内具体情况进行视频回溯。有关具体的展示方法可以参考现有技术，其具体可以根据实际情况自行设定，在此不做具体限定。当然，在本发明实施例中在确定目标视频段落之后，还可以执行其他的操作，例如将目标视频段落保存等，在此不做具体限定。

为了方便在客户端展示目标视频段落，在本发明实施例中可以还包括：

申请一对应链接地址的通道。

之后，本步骤可以具体包括：

根据所述通道、所述第二标识信息以及所述时间点，将所述目标视频段落发送至所述通道。

再之后，为了向检查人员展示目标视频段落，即在本步骤之后可以将所述通道发送至客户端，以使检查人员对所述目标视频段落进行回溯。

具体的，在本发明实施例中，检查人员从客户端发送回溯请求，即回溯指令，通过绑定的IPC的MAC地址找到该IPC对应的NVR，客户端发送回溯请求的同时，业务服务器可以向回放服务器申请一个通道，该通道通常对应一个链接地址，业务服务器将该通道信息、IPC的MAC地址以及时间点参数一并发送给IPC对应的NVR，NVR将视频流发送至回放服务器申请的通道，NVR成功发送后通常会向业务服务器回复成功，业务服务器将通道对应的链接发送至客户端进行回溯播放。

本发明实施例所提供的一种基于语音的视频回溯方法，包括获取回溯指令；回溯指令对应预先通过录音设备获取的音频文件中的目标音频段落；根据回溯指令确定目标音频段落对应的时间点以及目标音频段落对应的录音设备的第一标识信息；根据第一标识信息确定对应的录像设备的第二标识信息；录像设备与录音设备对应同一场景；根据第二标识信息，确定录像设备拍摄的视频文件中对应时间点的目标视频段落。

有关本发明所提供的一种基于语音的视频回溯方法的矩体内容将在下述发明实施例中做详细介绍。

请参考图2，图2为本发明实施例所提供的一种具体的基于语音的视频回溯方法的流程图。

参见图2，在本发明实施例中，基于语音的视频回溯方法包括：

S201：获取回溯指令。

首先需要说明的是，本发明实施例所提供的一种录音设备具体为固定式录音设备，例如固定安装在柜台的麦克风等等，即在本发明实施例中录音设备具体为不会发生移动的固定式录音设备。而本步骤的其余内容已在上述发明实施例中S101做详细介绍，在此不再进行赘述。

S202：根据回溯指令确定目标音频段落对应的时间点以及目标音频段落对应的录音设备的第一标识信息。

本步骤与上述发明实施例中S102基本一致，详细内容请参考上述发明实施例，在此不再进行赘述。

S203：根据预先绑定的第一标识信息与第二标识信息之间的对应关系，根据第一标识信息直接确定第二标识信息。

由于在本发明实施例中录音设备具体为固定式录音设备，因为该固定式录音设备所对应的场景则不会发生移动。相应的，与该固定式录音设备相对应的，拍摄同一场景的录像设备也是固定不会发生变化的，此时录音设备与录像设备通常一一对应，当然该录音设备也可以对应多个录像设备，但是此时固定式录音设备与录像设备具体会对应同一不会发生移动的场景。

此时在本步骤中当确定出第一标识信息之后，可以直接确定出第二标识信息，即可以直接确定出与该固定式录音设备对应的录像设备，而不再需要经过检查人员的手动选择。本步骤的其余内容已在上述发明实施例中S103做详细介绍，在此不再进行赘述。

S204：根据第二标识信息，确定录像设备拍摄的视频文件中对应时间点的目标视频段落。

在本步骤中，同样由于录音设备为固定式录音设备，而固定式录音设备与录像设备之间具有明确的对应关系。因此在本步骤中可以根据第二标识信息，直接确定出该录像设备拍摄的视频文件，并进一步根据上述时间点直接确定出目标视频段落。而对于检查人员来说，当录音设备为固定式录音设备时，在输入回溯指令之后，可以直接确定出目标视频段落，从而可以直接展示该目标视频段落。本步骤的其余内容已在上述发明实施例中S104做详细介绍，在此不再进行赘述。

本发明实施例所提供的一种基于语音的视频回溯方法，通过操作人员根据选取的目标音频段落生成并获取回溯指令，根据该回溯指令确定该目标音频段落产生的时间点并自动找寻生成该目标音频段落的录音设备所对应的录像设备，最终自动的从该录像设备产生的视频文件中确定与目标音频段落在同一时间点产生的目标视频段落，可以实现基于语音对视频进行回溯，便于检查人员根据该目标音频段落确定实际情况。

请参考图3，图3为本发明实施例所提供的另一种具体的基于语音的视频回溯方法的流程图。

参见图3，在本发明实施例中，基于语音的视频回溯方法包括：

S301：获取回溯指令。

首先需要说明的是，本发明实施例所提供的一种录音设备具体为移动式录音设备，例如胸牌式录音设备等，具体由工作人员佩戴等等，即在本发明实施例中录音设备具体为会发生移动的移动式录音设备。而本步骤的其余内容已在上述发明实施例中S101做详细介绍，在此不再进行赘述。

S302：根据回溯指令确定目标音频段落对应的时间点以及目标音频段落对应的录音设备的第一标识信息。

S303：根据第一标识信息确定移动式录音设备所在目标区域的多个录像设备的第二标识信息。

由于在本发明实施例中录音设备具体为移动式录音设备，因此该移动式录音设备多对应的场景会发送改变。在本发明实施例中，该移动式录音设备具体可以在目标区域的多个场景之间移动。相应的，与该移动式录音设备相对应的，拍摄同一场景的录像设备通常也为目标区域中多个录像设备中的一个或几个录像设备。当移动式录音设备移动至某一场景中时，对应该场景的录像设备则会与该移动式录音设备具有对应关系。

需要说明的是，所述目标区域为录音设备可以活动的区域，例如门店等，该目标区域通常包括多个场景，例如吧台、收银台、服务区等等，而移动式录音设备对应的场景会随工作人员的移动而移动。

而在本步骤中，具体会根据第一标识信息确定出移动式录音设备可移动的目标区域所对应的多个录像设备的第二标识信息，从而确定出上述目标区域中的录像设备。此时，在本步骤中可以将确定出的目标区域的录像设备在检查人员的控制界面中进行展示，从而使得检查人员可以自主选择对应的录像设备，自主选择该录像设备对应的视频文件进行回溯。上述展示过程通常是将录像设备对应的MAC地址，以场景为划分标准进行展示，以便检查人员快速选择场景进行视频回溯。当检查人员自主选择了在本步骤中确定的某一录像设备之后，即相当于确定了该录像设备对应的第二标识信息。此时在后续步骤中即可以通过类似于上述S104以及S204的操作流程，展示对应上述时间点的目标视频段落。

S304：根据第一标识信息确定佩戴移动式录音设备的员工的生物特征信息。

进一步的，在本发明实施例中可以结合图像识别来自主从对应目标区域中的多个录像设备中选取与移动时录音设备对应同一场景的录像设备。即S304至S307具体可以是在检查人员不手动选取目标区域中的录像设备的前提下，可以执行下述操作。

具体的，在本发明实施例中对于移动式录音设备，在对该移动式录音设备进行注册时，可以将该移动式录音设备与佩戴该移动式录音设备的工作人员进行绑定，即可以将移动式录音设备与其佩戴者的生物特征信息进行绑定。需要说明的是，该生物特征信息需要与后续具体的检测模型相对应。即若后续所使用的检测模型为人脸识别模型，则此处生物特征信息可以为佩戴者的人脸特征信息；若后续所使用的检测模型仅为图像识别模型，则此处生物特征信息可以为拍摄佩戴者的图像的特征信息。有关该生物特征信息的具体内容可以根据实际情况自行设定，在此不做具体限定。

S305：根据第二标识信息确定对应的录像设备所拍摄的视频文件。

在本步骤中，需要根据上述第二标识信息确定目标区域内的录像设备所拍摄的视频文件，以便后续对该视频文件进行检测。

S306：调用检测模型，从视频文件中在时间点对应的图像中，识别出包括生物特征信息的图像。

上述检测模型即通过检测算法所构建的计算模型。在本步骤中，具体会调用检测模型，对上述S305中获取的视频文件进行识别，具体会在各个视频文件从视频文件中识别出包括上述生物特征信息的图像，具体需要从上述时间点对应的图像中识别出包括上述生物特征信息的图像。需要说明的是，此处识别过程中所使用的图像可以恰好为在上述时间点时刻所产生的图像，也可以是在上述时间点临近时刻产生的图像均可，只要能与上述时间点相关联即可，在此不做具体限定。

S307：根据包括生物特征信息的图像确定对应时间点的目标视频段落。

在本步骤中，会根据S307中检测出的图像确定出上述目标视频段落。具体的，在本步骤中可以是现根据S307中检测出的图像确定出该图像对应的录像设备，再从通过该录像设备拍摄的视频文件中查询出对应上述时间点的目标视频段落。当然，也可以是直接根据上述S307中检测出的图像为中心，截取该图像附近的视频作为目标视频段落亦可，视具体情况而定，在此不做具体限定。

需要说明的是，在本发明实施例中上述S306对视频文件的检测过程可以具体是在确定出目标区域之后再开始执行的，也可以是实时根据预先存储的全部生物特征信息，对全部视频文件进行实时检测所执行的均可，其中在确定出目标区域之后再开始执行可以有效节省运行资源，而实时检测可以极大的加快检测速度，即只需要根据获取的生物特征信息从实时检测的画面中筛选出对应的图像即可。其具体内容可以根据实际情况自行设定，在此不做具体限定。

需要说明的是，上述检测模型以及对应的调用方法可以直接嵌入到前端网络摄像机内部，调用门店安装的AI智能摄像机，使用摄像机中嵌入的检测模型，使用门店现场采集的图像，经过标注后的整理出的数据集进行训练，并最终移植到摄像机中的智能芯片中，对指定时间段内门店场景中的员工进行检测和识别，得到对应摄像机下门店员工检测和识别的结果，智能判断出在目标音频段落对应的该时间段内对员工进行录像的摄像机位置，使用视频回溯功能，还原现场环境。

需要强调的是，在本发明实施例中可以使用现有技术中的图像识别算法，也可以另外研发新的算法。此外，图像识别算法针对的是门店员工的检测，门店的员工相对较为固定，所以前期输入了学习数据之后，只需要使用识别精度较为可以的即能判断出员工所在位置，并不需要利用人脸识别等复杂的算法。

还需要说明的是，由于通常情况下在门店中不仅仅只会安装固定式录音设备或移动式录音设备，而是会同时安装固定式录音设备以及移动式录音设备，因此在本发明中可以先通过上述第一标识信息或其他信息确定出回溯指令对应的录音设备具体为固定式录音设备还是移动时录音设备，进而可以执行上述不同发明实施例所公开的操作流程。

本发明实施例所提供的一种基于语音的视频回溯方法，通过操作人员根据选取的目标音频段落生成并获取回溯指令，根据该回溯指令确定该目标音频段落产生的时间点并自动找寻生成该目标音频段落的录音设备所对应的录像设备，最终自动的从该录像设备产生的视频文件中确定与目标音频段落在同一时间点产生的目标视频段落，可以实现基于语音对视频进行回溯，便于检查人员根据该目标音频段落确定实际情况。本发明针对不同的录音设备自动选择不同的回溯实现方式，更加系统地帮助用户进行视频回溯，能够快速定位需要回溯的场景，实现用户对企业门店的智能化管理。

下面对本发明实施例所提供的一种基于语音的视频回溯装置进行介绍，下文描述的基于语音的视频回溯装置与上文描述的基于语音的视频回溯方法可相互对应参照。

请参考图4，图4为本发明实施例所提供的一种基于语音的视频回溯装置的结构框图。参照图4，基于语音的视频回溯装置可以包括：

获取模块100，用于获取回溯指令；所述回溯指令对应预先通过录音设备获取的音频文件中的目标音频段落。

录音设备确定模块200，用于根据所述回溯指令确定所述目标音频段落对应的时间点以及所述目标音频段落对应的所述录音设备的第一标识信息。

录像设备确定模块300，用于根据所述第一标识信息确定对应的录像设备的第二标识信息；所述录像设备与所述录音设备对应同一场景。

视频确定模块400，用于根据所述第二标识信息，确定所述录像设备拍摄的视频文件中对应所述时间点的目标视频段落。

作为优选的，在本发明实施例中，还包括：

音频展示模块，用于将所述音频文件中的音频段落转换为文字进行展示。

作为优选的，在本发明实施例中，所述第二标识信息为所述录像设备的MAC地址。

作为优选的，在本发明实施例中，所述录像设备为网络摄像机。

作为优选的，在本发明实施例中，所述录音设备为固定式录音设备。

所述录像设备确定模块300具体用于：

作为优选的，在本发明实施例中，所述录音设备为移动式录音设备。

所述录像设备确定模块300具体用于：

作为优选的，在本发明实施例中，视频确定模块400包括：

生物特征确定单元，用于根据所述第一标识信息确定佩戴所述移动式录音设备的员工的生物特征信息。

视频文件确定单元，用于根据所述第二标识信息确定对应的所述录像设备所拍摄的视频文件。

检测单元，用于调用检测模型，从所述视频文件中在所述时间点对应的图像中，识别出包括所述生物特征信息的图像。

视频确定单元，用于根据包括所述生物特征信息的图像确定对应所述时间点的目标视频段落。

作为优选的，在本发明实施例中，还包括：

视频展示模块，用于展示所述目标视频段落。

本实施例的基于语音的视频回溯装置用于实现前述的基于语音的视频回溯方法，因此基于语音的视频回溯装置中的具体实施方式可见前文中的基于语音的视频回溯方法的实施例部分，例如，获取模块100，录音设备确定模块200，录像设备确定模块300，视频确定模块400，分别用于实现上述基于语音的视频回溯方法中步骤S101至S104，所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再赘述。

下面对本发明实施例提供的一种基于语音的视频回溯系统进行介绍，下文描述的基于语音的视频回溯系统与上文描述的基于语音的视频回溯方法以及基于语音的视频回溯装置可相互对应参照。

请参考图5，图5为本发明实施例所提供的一种基于语音的视频回溯系统的结构框图。

参照图5，该基于语音的视频回溯系统可以包括处理器11，录音设备12和录像设备13，所述录像设备13与所述录音设12对应同一场景；

所述处理器11用于：

获取回溯指令；所述回溯指令对应预先通过所述录音设备12获取的音频文件中的目标音频段落；

根据所述回溯指令确定所述目标音频段落对应的时间点以及所述目标音频段落对应的所述录音设备12的第一标识信息；

根据所述第一标识信息确定对应的所述录像设备13的第二标识信息；

根据所述第二标识信息，确定所述录像设备13拍摄的视频文件中对应所述时间点的目标视频段落。

作为优选的，在本发明实施例中，所述处理器11还用于：

将所述音频文件中的音频段落转换为文字进行展示。

作为优选的，在本发明实施例中，所述第二标识信息为所述录像设备13的MAC地址。

作为优选的，在本发明实施例中，所述录像设备13为网络摄像机。

作为优选的，在本发明实施例中，所述录音设备12为固定式录音设备；

所述处理器11具体用于：

作为优选的，在本发明实施例中，所述录音设备12为移动式录音设备。

所述处理器11具体用于：

根据所述第一标识信息确定所述移动式录音设备所在目标区域的多个录像设备13的第二标识信息。

作为优选的，在本发明实施例中，所述处理器11具体用于：

根据所述第二标识信息确定对应的所述录像设备13所拍摄的视频文件；

作为优选的，在本发明实施例中，所述处理器11还用于：

展示所述目标视频段落。

本实施例的基于语音的视频回溯系统用于实现前述的基于语音的视频回溯方法，因此基于语音的视频回溯系统中的具体实施方式可见前文中的基于语音的视频回溯方法的实施例部分，所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种基于语音的视频回溯方法、一种基于语音的视频回溯装置以及一种基于语音的视频回溯系统进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种基于语音的视频回溯方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述获取回溯指令之前，还包括：

将所述音频文件中的音频段落转换为文字进行展示。

3.根据权利要求2所述的方法，其特征在于，所述第二标识信息为所述录像设备的MAC地址。

4.根据权利要求3所述的方法，其特征在于，所述录像设备为网络摄像机。

5.根据权利要求1至4任一项权利要求所述的方法，其特征在于，所述录音设备为固定式录音设备；

6.根据权利要求1至4任一项权利要求所述的方法，其特征在于，所述录音设备为移动式录音设备；

7.根据权利要求6所述的方法，其特征在于，所述根据所述第二标识信息，确定所述录像设备拍摄的视频文件中对应所述时间点的目标视频段落包括：

8.根据权利要求1所述的方法，其特征在于，在所述根据所述第二标识信息，确定所述录像设备拍摄的视频文件中对应所述时间点的目标视频段落之后，还包括：

展示所述目标视频段落。

9.一种基于语音的视频回溯装置，其特征在于，包括：

10.一种基于语音的视频回溯系统，其特征在于，包括处理器，录音设备和录像设备，所述录像设备与所述录音设备对应同一场景；

所述处理器用于：