CN110148418B

CN110148418B - 一种场景记录分析系统、方法及其装置

Info

Publication number: CN110148418B
Application number: CN201910513789.3A
Authority: CN
Inventors: 冯海洪; 毛德平; 朱国冉; 徐敏辉
Original assignee: Anhui Mimouse Technology Co ltd
Current assignee: Anhui Mimouse Technology Co ltd
Priority date: 2019-06-14
Filing date: 2019-06-14
Publication date: 2024-05-03
Anticipated expiration: 2039-06-14
Also published as: CN110148418A

Abstract

本发明公开了一种场景记录分析系统、方法及其装置，包括触发模块，所述触发模块分别和音频采集模块、视频图像采集模块电性连接，所述音频分析模块电性连接于声音识别示例模块，所述声音识别示例模块电性连接于容错案例示范模块，所述声音识别分类模块电性连接于音频文本转换模块。本发明提供了场景记录分析系统，能够对不同发言者的发言音频进行区分、通过动点追踪模块重点关注现场动态以及通过容错案例示范模块对口齿不清的发言者的音频转换文本进行自动纠正，本发明还公开了基于场景记录分析系统的使用方法，操作简单明了，本发明还公开了基于场景记录分析系统的装置，装置小巧精简，非常值得推广。

Description

一种场景记录分析系统、方法及其装置

技术领域

本发明涉及场景记录装置技术领域，具体为一种场景记录分析系统、方法及其装置。

背景技术

现有技术中，申请号为“201811505592.7”的一种记录方法、装置及设备，用于解决现有技术中的记录仪获得记录过程中的场景记录信息效果较差的技术问题，所述记录方法包括：获得触发指令；根据触发指令，将第一记录设备的工作模式调整为紧急记录模式；基于紧急记录模式，采集第一场景记录信息，以及接收第二记录设备发送的第二场景记录信息；将第一场景记录信息和第二场景记录信息进行同步处理，以获得一路记录文件。

但是，其在使用过程中，仍然存在较为明显的缺陷：1、上述装置不能进行声音识别，不能将不同发言者的发言词进行分类整理和独立的音频文本转换，容易导致多人的语言杂糅在一起，难以区分；2、上述装置不能进行动点追踪，而现实场景中人和物都较多，场景记录回放的重点应该是发生变化的人的行为和物的改变，上述装置缺少重点关注的功能；3、上述装置不具有容错设置和学习功能，现场的发言者可能因为口音较重或者口齿不清而表述不准确，缺少容错案例示范和学习模块的装置的话，在对音频进行文本转换的时候会出现较多的错误，影响语义的准确性。

发明内容

本发明的目的在于提供一种场景记录分析系统、方法及其装置，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种场景记录分析系统，包括触发模块，所述触发模块分别和音频采集模块、视频图像采集模块电性连接，所述音频采集模块电性连接于音频信号增强模块，所述音频信号增强模块电性连接于音频分析模块，所述音频分析模块包括音调监测模块和敏感词监测模块，所述音频分析模块电性连接于声音识别示例模块，所述声音识别示例模块电性连接于容错案例示范模块，所述容错案例示范模块电性连接于示例记忆模块，所述示例记忆模块电性连接于声音识别分类模块，所述声音识别分类模块电性连接于音频文本转换模块，所述音频文本转换模块电性连接于合成模块；

所述视频图像采集模块电性连接于面部信息采集模块，所述面部信息采集模块电性连接于视频图像分析模块，所述视频图像分析模块电性连接于动点追踪模块，所述动点追踪模块电性连接于放大处理模块，所述放大处理模块电性连接于合成模块；

所述合成模块电性连接于存储模块，所述存储模块电性连接于数据传输模块，所述存储模块可直接电性连接于回放显示模块，所述存储模块也可以分别电性连接于声音类别搜索模块和关键词搜索模块，所述声音类别搜索模块和关键词搜索模块电性连接于提取模块，所述提取模块电性连接于回放显示模块。

优选的，所述音频分析模块和视频图像分析模块为本地分析模块或云端分析模块。

优选的，所述数据传输模块为有线传输或无线传输。

一种基于场景记录分析系统的使用方法，包括以下步骤：

步骤一：使用时通过触发模块进行启动；

步骤二：音频采集模块和视频图像采集模块对现场的音频和视频信息进行收集和输入；

步骤三之一：采集到的音频信息首先经过音频信号增强模块进行强化处理，处理后的音频信息进入音频分析模块进行分析，对于需要区分发言者或说话者发音不标准时，声音识别示例模块用于对不同发言者的发言进行区分整理，容错案例示范模块用于提供容错案例的示范，即语音和实际文本的对应关系示例，操作后的信息由示例记忆模块进行更新设置，声音识别分类模块根据语音分类的结构，利用音频文本转换模块对不同发言者的话语进行文本翻译，翻译文本进入合成模块；

步骤三之二：面部信息采集模块对采集到的视频信息进行重点采集处理，采集到的面部信息经视频图像分析模块进行分析，依据分析结果，动点追踪模块对场景中的动点部位如发言者的面部表情、嘴巴等进行追踪采集，采集到的信息经过放大处理模块的处理，用于提高视频的清晰度，处理后的视频信息进入合成模块；

步骤四：合成模块将输入的音频文本和视频信息进行匹配合成，并将合成后的音视频信息输出至存储模块；

步骤五：存储模块将音视频信息通过数据传输模块进行上传和保存；

步骤六之一：存储模块中的音视频信息可以直接通过回放显示模块进行回放；

步骤六之二：存储模块中的音视频信息可以通过声音类别搜索模块进行针对特定发言者的搜索，提取模块对搜索结果所对应的音视频信息进行提取，并将提取的音视频通过通过回放显示模块进行回放；

步骤六之三：存储模块中的音视频信息可以通过关键词搜索模块进行针对特定关键词的搜索，提取模块对搜索结果所对应的音视频信息进行提取，并将提取的音视频通过通过回放显示模块进行回放。

优选的，所述步骤三之一中，音频分析模块对音频信息的处理包括利用音调监测模块对突然升高的音调的监测、以及利用敏感词监测模块对特定敏感词的监测。

一种基于场景记录分析系统的装置，包括触发模块和回放显示模块，所述触发模块和开关按钮电性连接，所述开关按钮设置在装置本体上，所述装置本体上设置有信号指示灯、摄像机、麦克风和显示屏，所述信号指示灯和开关按钮电性连接，所述显示屏和回放显示模块电性连接，所述装置本体中设置有电池板。

优选的，所述装置本体上设置有照明灯，所述照明灯和电池板电性连接。

与现有技术相比，本发明的有益效果是：

1、本装置具有声音识别功能，可以将不同发言者的发言进行区分，并对发言词分别进行音频文本的转换，因此在音频和视频合成的时候能够做到与人物相对应，在回放时也能够对某个人所有的发言进行针对性提取；

2、本装置中设置有动点追踪模块，能够对场景中做出行动的人物、发生改变的物品进行重点关注，在后期回放时对现场的还原更加具有针对性，便于对现场发生过的情况的真实反映；

3、本装置中设置有声音识别示例模块，若多个发言者的声音较为相似，可以通过此模块建立示例，便于后续对多个发言者发言音频的区分；

4、本装置具有容错案例示范和示例记忆的功能，若发言者口音较重或口齿不清、发音不标准时，可以通过容错案例示范模块建立音频和正确转换文本的对应示例，装置会通过示例记忆模块对示例进行记忆，以此达到学习的目的，进而自动会后续的音频转换文本进行修正。

本发明提供了场景记录分析系统，够通过声音识别功能对不同发言者的发言音频进行区分、通过动点追踪模块重点关注现场动态以及通过容错案例示范模块对口齿不清的发言者的音频转换文本进行自动纠正，本发明还公开了基于场景记录分析系统的使用方法，操作简单明了，本发明还公开了基于场景记录分析系统的装置，装置小巧精简，非常值得推广。

附图说明

图1为本发明的场景记录分析系统的架构图；

图2为本发明的场景记录分析装置的结构图。

图中：1开关按钮、2装置本体、3信号指示灯、4摄像机、5麦克风、6照明灯、7显示屏、8电池板。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-2，本发明提供一种技术方案：

一种场景记录分析系统，包括触发模块，触发模块和开关按钮1电性连接，开关按钮1可看作是开关的外部实体，而触发模块是内在的开关系统，可通过外部的开关按钮1带动内部触发模块的开启和关闭，触发模块分别和音频采集模块、视频图像采集模块电性连接，音频采集模块电性连接于音频信号增强模块，音频采集模块可使用深圳市金工宝贸易有限公司生产的GK-800C型号的监控专用拾音器，音频信号增强模块电性连接于音频分析模块，音频信号增强模块的作用是对音频信号进行增强和放大，可使用深圳市英锐芯电子科技有限公司生产的AD8803型号的音频放大器，音频分析模块包括音调监测模块和敏感词监测模块，音频分析模块的作用类似音频分析仪，可采用上海民仪电子有限公司提供的TES-1358型号的八音度实时音频分析仪，该音频分析仪可以对声音的分贝进行监测，该音频分析仪需要和可编程控制器进行组装使用，可编程控制器可采用西门子官方旗舰店提供的6ED10521FB080BA0型号，可编程控制器和音频分析仪组装使用，用于对突然升高的音调和敏感词进行监测，当音调突然升高和敏感词出现时，可以通过可编程控制器启动警示灯亮起或警示电铃响起，音频分析模块电性连接于声音识别示例模块，若多个发言者的声音较为相似，可以通过此声音识别示例模块建立示例，便于后续对多个发言者发言音频的区分，声音识别示例模块相当于谷歌智能音箱上的“Voice Match”或Windows 10设备上微软小娜(Cortana)的语音区分系统，声音识别示例模块电性连接于容错案例示范模块，容错案例示范模块电性连接于示例记忆模块，示例记忆模块电性连接于声音识别分类模块，声音识别分类模块电性连接于音频文本转换模块，若发言者口音较重或口齿不清、发音不标准时，可以通过容错案例示范模块建立音频和正确转换文本的对应示例，例如，有些人可能n、l部分，当这些人发出niulai的声音时，其实际要表述的是“牛奶”的意思，此时，可以通过容错案例示范模块建立示例模板“niulai＝niunai＝牛奶”，然后通过示例记忆模块对示例进行记忆，以此达到学习的目的，进而自动会后续的音频转换文本进行修正，音频文本转换模块电性连接于合成模块，其中，容错案例示范模块相当于于具有学习功能的AI智能系统，可采用AI芯片作为载体，AI芯片作可采用百度自主研发的中国首款云端全功能AI芯片——“昆仑”，示例记忆模块对容错案例进行记忆，相当于存储器，可采用深圳市电之都电子有限公司提供的AT24C32型号的存储器，声音识别分类模块根据声音识别示例模块对不同发言者的语音识别结构，将收集到的音频信息根据个人进行区分和分类，最后，音频文本转换模块用来将音频转换成对应的文字，相当于于常见的微信上的语音转文字系统，讯飞听见、录音宝和Google推出的Live Transcribe等软件系统也均可实现此功能。

视频图像采集模块电性连接于面部信息采集模块，视频图像采集模块相当于录像机，可采用深圳市泰康高科科技有限公司提供的TIK-9504-KIT-Backsight型号的录像机，面部信息采集模块重点对人的面部信息进行采集，便于识别人的表情和口型，面部信息采集模块可采用北京钱林恒兴科技股份有限公司提供的QL-FK型号的立式访客机的面部信息识别和实时拍照系统，面部信息采集模块电性连接于视频图像分析模块，视频图像分析模块基于DSP平台，支持多路视频输入，可实现对视频场景内的人脸进行捕捉和照片存档，可提供标准SDK接口协议，可通过RJ45、RS232\485等接口进行双向通讯，易于与其他设备进行集成应用，主要用来对采集到的视频进行处理和分析，可以对视频里的画面进行自动监控，从而对视频中的异常情况(如颜色、速度、常规形态突变等)进行实时监控，视频图像分析模块电性连接于动点追踪模块，动点追踪模块能够对场景中做出行动的人物、发生改变的物品进行重点关注，在后期回放时对现场的还原更加具有针对性，便于对现场发生过的情况的真实反映，动点追踪模块可以看作是对可编程控制器使用基于OpenCv的运动物体检测算法进行编程，可编程控制器可采用西门子提供的6ED10 521FB080BA0型号，与上述的音频分析模块可以在同一个可编程控制器上进行编程操作，动点追踪模块电性连接于放大处理模块，放大处理模块用来将收集到的视频信息进行缩放，缩放功能的实现可以以FPGA作为处理芯片，按照SMPTE协议进行涉及，具体而言，可以采用XILINX公司提供的Spartan6系列芯片XC6SLX45T，并使用Verilog HDL语言实现各模块功能，该算法使用流水线结构，能够在FPGA上稳定运行，流畅地实现视频缩放的效果，放大处理模块电性连接于合成模块，合成模块相当于超级转换秀APP所提供的音频和视频合并系统，用于将音频、视频和音频转换文本进行对应合成。

合成模块电性连接于存储模块，存储模块相当于存储器，可采用深圳市电之都电子有限公司提供的AT24C32型号的存储器，存储模块电性连接于数据传输模块，数据传输模块是借助DSP技术实现的高性能专业数据传输电台，可以传输包括遥控遥测数据、音频、动态图像等业务，可以根据实际运用场景的传输距离远近进行选择，近(3公里以内)则采用433MHz频段无线数据终端DTD433，远则选用GPRS透明传输数据终端DTP_S09F，音视频和文本信息在传输之后可以进行云端保存和回放，存储模块可直接电性连接于回放显示模块，回放显示模块用来对录制的音视频和翻译转换文本合成后的信息进行重放，回放显示模块可采用深圳市尔迪科技有限公司提供的AD800型号的行程记录仪的视频回放系统，存储模块也可以分别电性连接于声音类别搜索模块和关键词搜索模块，声音类别搜索模块是基于上述的声音识别示例模块将不同发言者的发言语音进行区分，相当于再加上一个搜索模块，搜索模块可通过上述的同一个6ED10 521FB080BA0型号的可编程控制器进行编程，当需要提取特定人物的音视频信息时，可以在声音类别搜索模块中进行特定提取，关键词搜索模块与之类似，也可通过上述的同一个6ED10 521FB080BA0型号的可编程控制器进行编程，可通过输入关键词来提取关键词出现前后的音视频信息，至于提取片段中关键词出现前后的时长可以通过可编程控制器进行设定，达到节约回放时间的目的，声音类别搜索模块和关键词搜索模块电性连接于提取模块，提取模块用来提取符合要求的音视频信息片段，提取模块提取的内容、片段时长等通过可编程控制器进行编程，提取模块电性连接于回放显示模块，也就是说，场景记录后可以直接全部进行回放，也可以进行针对特定发言者的提取回放，或针对特定关键词出现时前后的音视频回放。

作为一个优选，音频分析模块和视频图像分析模块为本地分析模块或云端分析模块，可根据现场情况选择本地分析或云端分析。

作为一个优选，数据传输模块为有线传输或无线传输，数据传输模块可以将合成后音视频和文本信息进行上传和保存。

一种基于场景记录分析系统的使用方法，包括以下步骤：

步骤一：使用时通过触发模块进行启动，此时，系统开始工作，触发模块和开关按钮1电性连接，开关按钮1可看作是开关的外部实体，而触发模块是内在的开关系统，因此可以通过按压开关按钮1的方式来启动内部的触发模块；

步骤二：音频采集模块和视频图像采集模块对现场的音频和视频信息进行收集和输入，音频采集模块可使用深圳市金工宝贸易有限公司生产的GK-800C型号的监控专用拾音器，视频图像采集模块相当于录像机，可采用深圳市泰康高科科技有限公司提供的TIK-9504-KIT-Backsight型号的录像机；

步骤三之一：采集到的音频信息首先经过音频信号增强模块进行强化处理，处理后的音频信息进入音频分析模块进行分析，声音识别示例模块用于对不同发言者的发言进行区分整理，容错案例示范模块用于提供容错案例的示范，即语音和实际文本的对应关系示例，操作后的信息由示例记忆模块进行更新设置，声音识别分类模块根据语音分类的结构，利用音频文本转换模块对不同发言者的话语进行文本翻译，翻译文本进入合成模块；

步骤四：合成模块将输入的音频文本和视频信息进行匹配合成，并将合成后的音视频信息输出至存储模块，存储模块相当于存储器，可采用深圳市电之都电子有限公司提供的AT24C32型号的存储器；

步骤五：存储模块将音视频信息通过数据传输模块进行上传和保存，数据传输模块是借助DSP技术实现的高性能专业数据传输电台，可以根据实际运用场景的传输距离远近进行选择，近(3公里以内)则采用433MHz频段无线数据终端DTD433，远则选用GPRS透明传输数据终端DTP_S09F，音视频和文本信息在传输之后可以进行云端保存和回放；

步骤六之一：存储模块中的音视频信息可以直接通过回放显示模块进行回放，回放显示模块可采用深圳市尔迪科技有限公司提供的AD800型号的行程记录仪的视频回放系统；

作为一个优选，步骤三之一中，音频分析模块对音频信息的处理包括利用音调监测模块对突然升高的音调的监测、以及利用敏感词监测模块对特定敏感词的监测。

一种基于场景记录分析系统的装置，包括触发模块和回放显示模块，触发模块和开关按钮1电性连接，开关按钮1设置在装置本体2上，装置本体2上设置有信号指示灯3、摄像机4、麦克风5和显示屏7，摄像机4可采用深圳昌宏微电子源头厂家提供的Y6A-WA型号的高清监控摄像机，麦克风5可采用潍坊旭坤电子有限公司提供的UMB1463AC1033-G2型号的传声器，信号指示灯3和开关按钮1电性连接，当开关按钮1启动触发模块时，信号指示灯3发亮说明装置处于工作状态，显示屏7和回放显示模块电性连接，装置本体2中设置有电池板8。

作为一个优选，装置本体2上设置有照明灯6，照明灯6和电池板8电性连接，照明灯6可以提供光源补充，便于提高黑暗处视频录制的清晰度。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种场景记录分析系统，包括触发模块，其特征在于：所述触发模块分别和音频采集模块、视频图像采集模块电性连接，所述音频采集模块电性连接于音频信号增强模块，所述音频信号增强模块电性连接于音频分析模块，所述音频分析模块包括音调监测模块和敏感词监测模块，所述音频分析模块电性连接于声音识别示例模块，所述声音识别示例模块电性连接于容错案例示范模块，所述容错案例示范模块电性连接于示例记忆模块，所述示例记忆模块电性连接于声音识别分类模块，所述声音识别分类模块电性连接于音频文本转换模块，所述音频文本转换模块电性连接于合成模块；

若发言者口音较重或口齿不清、发音不标准时，通过所述容错案例示范模块建立音频和正确转换文本的对应示例，所述声音识别示例模块用于对不同发言者的发言进行区分整理，声音识别分类模块根据声音识别示例模块对不同发言者的语音识别结构，将收集到的音频信息根据个人进行区分和分类，最后，音频文本转换模块对不同发言者的话语进行文本翻译，翻译文本进入合成模块，容错案例示范模块用于提供容错案例的示范，即语音和实际文本的对应关系示例，所述示例记忆模块为存储器，操作后的信息由示例记忆模块进行更新设置，进而自动对后续的音频转换文本进行修正；

2.根据权利要求1所述的一种场景记录分析系统，其特征在于：所述音频分析模块和视频图像分析模块为本地分析模块或云端分析模块。

3.根据权利要求1所述的一种场景记录分析系统，其特征在于：所述数据传输模块为有线传输或无线传输。

4.一种基于权利要求1所述的场景记录分析系统的使用方法，其特征在于：包括以下步骤：

步骤一：使用时通过触发模块进行启动；

步骤三之一：采集到的音频信息首先经过音频信号增强模块进行强化处理，处理后的音频信息进入音频分析模块进行分析，对于需要区分发言者或说话者发音不标准时，通过所述容错案例示范模块建立音频和正确转换文本的对应示例，声音识别示例模块用于对不同发言者的发言进行区分整理，容错案例示范模块用于提供容错案例的示范，即语音和实际文本的对应关系示例，声音识别分类模块根据声音识别示例模块对不同发言者的语音识别结构，将收集到的音频信息根据个人进行区分和分类，最后，音频文本转换模块对不同发言者的话语进行文本翻译，翻译文本进入合成模块，操作后的信息由示例记忆模块进行更新设置；

步骤六之三：存储模块中的音视频信息可以通过关键词搜索模块进行针对特定关键词的搜索，提取模块对搜索结果所对应的音视频信息进行提取，并将提取的音视频通过回放显示模块进行回放。

5.根据权利要求4所述的一种场景记录分析系统的使用方法，其特征在于：所述步骤三之一中，音频分析模块对音频信息的处理包括利用音调监测模块对突然升高的音调的监测、以及利用敏感词监测模块对特定敏感词的监测。

6.一种基于权利要求1所述的场景记录分析系统的装置，包括触发模块和回放显示模块，其特征在于：所述触发模块和开关按钮（1）电性连接，所述开关按钮（1）设置在装置本体（2）上，所述装置本体（2）上设置有信号指示灯（3）、摄像机（4）、麦克风（5）和显示屏（7），所述信号指示灯（3）和开关按钮（1）电性连接，所述显示屏（7）和回放显示模块电性连接，所述装置本体（2）中设置有电池板（8）。

7.根据权利要求6所述的一种场景记录分析系统的装置，其特征在于：所述装置本体（2）上设置有照明灯（6），所述照明灯（6）和电池板（8）电性连接。