CN108831456A

CN108831456A - 一种通过语音识别对视频标记的方法、装置及系统

Info

Publication number: CN108831456A
Application number: CN201810517440.2A
Authority: CN
Inventors: 崔乘刚; 袁良驰
Original assignee: Shenzhen Police Wing Smart Polytron Technologies Inc
Current assignee: Shenzhen Police Wing Smart Polytron Technologies Inc
Priority date: 2018-05-25
Filing date: 2018-05-25
Publication date: 2018-11-16
Anticipated expiration: 2038-05-25
Also published as: CN108831456B

Abstract

本发明提供一种通过语音识别对记录文件标记的方法、装置及系统，方法包括：准备好语音敏感词的数据特征库；采集语音信号将所述语音信号转换成语音模拟信号，进一步将所述语音模拟信号转换成数字信号；对所述数字信号进行过滤去除背景杂音，再提取目标对象语音的数据特征；将所述数据特征与所述数据特征库遍历对比查找是否有匹配的数据特征；若有匹配的数据特征则触发对当下情景的记录，生成记录文件；并在记录过程中通过生成标记名称完成对所述记录文件的标记。通过对语音内容中的敏感词进行识别从而触发对当下情景的记录，而不需要佩戴装置的人员作任何操作，启动方式便捷快速，能够有效记录当下的场景，方便后续取证使用。

Description

一种通过语音识别对视频标记的方法、装置及系统

技术领域

本发明涉及执法设备技术领域，尤其涉及一种通过语音识别对记录文件标记的方法、装置及系统。

背景技术

随着民众法治理念、民主需求、权利意识的不断提升，执法人员逐渐面临着更多的执法难题，不仅要文明执法保证执法的公正透明，同时也要有效保障执法人员的合法权利。因而，执法记录仪也成为了执法人员在执法过程中的有力助手，但在执法人员实际的工作中，很多时候也会遇到当事人不配合民警执法，甚至出现暴力抗法和辱骂执法人员的情况，除此之外，执法人员本身不文明执法，使用侮辱性语言的行为也难以得到有效的监督。

目前，市面上的执法记录仪已经带有重要视频标记功能，这类执法记录仪在摄像状态，遇到重要场景，按对应按键，所拍摄的文件进行重点标记，以便事后快速查找。

虽然此类执法记录仪已经具有重要视频标记功能按键，但只能在摄像的模式下进行重要视频标记。而在实际的执法活动中，当事人暴力抗法和辱骂执法人员的现象出现时，执法人员往往来不及手动按下重要视频标记功能按键，除此之外按下重要视频标记按键的动作也会引起当事人的警觉，使其有所收敛，执法记录仪也难以拍摄到最直接有效的证据。

同时，有的执法人员会在不文明执法的时候故意关闭执法记录仪的录像功能，这也使得执法人员的一些执法行为得不到有效的记录与监管，执法记录仪不能发挥作用。

目前市面上的执法记录仪后台管理软件也没有一个合适的重要视频筛选机制，大部分是通过以日期+IMP命名的方式来命名重要视频，故很多时候查找重要视频并不是很方便。

现有技术中缺乏一种通过语音识别来对重要视频进行主动标记的方法。

发明内容

本发明为了解决现有技术中的问题，提供一种通过语音识别对记录文件标记的方法、装置及系统。

为了解决上述问题，本发明采用的技术方案如下所述：

一种通过语音识别对记录文件标记的方法，包括如下步骤：S1：准备好语音敏感词的数据特征库；S2：采集语音信号将所述语音信号转换成语音模拟信号，进一步将所述语音模拟信号转换成数字信号；S3：对所述数字信号进行过滤去除背景杂音，再提取目标对象语音的数据特征；S4：将所述数据特征与所述数据特征库遍历对比查找是否有匹配的数据特征；S5：若有匹配的数据特征则触发对当下情景的记录，生成记录文件；并在记录过程中通过生成标记名称完成对所述记录文件的标记。

优选地，所述准备好语音敏感词的数据特征库包括：预先存储所述语音敏感词的数据特征库；或，与在线的所述语音敏感词的数据特征库进行连接。

优选地，所述语音敏感词的数据特征库定期或不定期更新。

优选地，所述更新包括对所述语音敏感词的数据特征库的数据特征进行添加和/或删除。

优选地，所述记录包括录音和/或录像，所述记录文件是音频文件、视频文件中的一种。

优选地，所述标记名称中至少包括一个敏感词。

优选地，所述敏感词是视频中第一个出现的敏感词。

本发明又提供一种通过语音识别对记录文件标记的装置，包括：拾音单元、数据特征提取单元、语音识别单元、控制单元、摄录单元和存储单元；所述拾音单元，用于获取所述通过语音识别对记录文件标记的装置周围的语音信号将所述语音信号转换成语音模拟信号，进一步将所述语音模拟信号转换成数字信号；得到目标对象语音的数据特征；所述语音识别单元，用于接收所述数据特征，将所述数据特征与所述数据特征库遍历对比查找是否有匹配的数据特征；所述控制单元，用于接收匹配结果，若有匹配的数据特征则触发摄录单元对当下情景的记录，生成记录文件；并在记录过程中通过生成标记名称完成对所述记录文件的标记；所述摄录单元，用于接收控制单元的触发并记录所述当下情景，生成所述记录文件；所述存储单元，用于存储所述记录文件和所述标记名称。

优选地，所述存储单元还用于存储语音敏感词的数据特征库。

本发明再提供一种通过语音识别对记录文件标记的系统，其特征在于，包括：如上所述的通过语音识别对记录文件标记的装置与管控平台；所述管控平台，用于实时接收所述通过语音识别对记录文件标记的装置的记录文件和所述标记名称。

本发明的有益效果为：提供一种通过语音识别对记录文件标记的方法、装置及系统，通过对语音内容中的敏感词进行识别从而触发对当下情景的记录，而不需要佩戴装置的人员作任何操作，启动方式便捷快速，能够有效记录当下的场景，方便后续取证使用。

附图说明

图1是本发明实施例1中通过语音识别对记录文件标记的方法的示意图。

图2是本发明实施例2中通过语音识别对记录文件标记的装置的示意图。

图3是本发明实施例2中通过语音识别对记录文件标记的装置的工作原理示意图。

图4是本发明实施例2中通过语音识别对记录文件标记的装置的工作流程示意图。

图5是本发明实施例2中通过语音识别对记录文件标记的装置的又一个工作流程示意图。

图6是本发明实施例3中通过语音识别对记录文件标记的系统的示意图。

具体实施方式

下面结合附图通过具体实施例对本发明进行详细的介绍，以使更好的理解本发明，但下述实施例并不限制本发明范围。另外，需要说明的是，下述实施例中所提供的图示仅以示意方式说明本发明的基本构思，附图中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的形状、数量及比例可为一种随意的改变，且其组件布局形态也可能更为复杂。

实施例1

如图1所示，本发明提供一种通过语音识别对记录文件标记的方法，包括如下步骤：

S1：准备好语音敏感词的数据特征库；

准备好语音敏感词的数据特征库包括：预先存储语音敏感词的数据特征库；或，与在线的语音敏感词的数据特征库进行连接；使用本发明方法的装置中可以自带存储单元用于存储数据特征库，需要占据一定的存储空间；也可以通过装置与网络连接在线的数据特征库，这种情况需要对网络信号有一定要求，在一种实施例中也可以同时存储数据特征库，在网络情况好的时候选择在线的数据特征库。

可以理解的是，不管是预先存储的还是在线的数据特征库都需要定期或不定期更新，这种更新包括对语音敏感词的数据特征库的数据特征进行添加和/或删除。更新的基础可以来源于方法具体实施过程中遇到的未收录在数据特征库中的敏感词，可以添加到数据特征库。

由于该类语音识别属于非特定人群的语音整词识别，这种需要预先采集好语音的相关数据特征，由于数据特征库的内存占用较大，不同的人群的具体需求不同，故可以通过后台管控平台的相关菜单对敏感关键词进行添加和删除。

S2：采集语音信号将所述语音信号转换成语音模拟信号，进一步将所述语音模拟信号转换成数字信号；

此步骤中采集语音信号转换成语音模拟信号，并对语音模拟信号的幅度进行适当的调整，使得输入的语音模拟信号的幅度不至于太大或太小，对调整好的语音模拟信号幅度进行处理得到语音数字信号。

S3：对所述数字信号进行处理；

在进行语音特征提取之前，需要语音数字信号进行一定的处理，滤除无用的环境噪声，提取有效的数字信号片段，再对其进行声音分帧、加窗、预加重等操作，得到更加清晰、可靠的分析语音段。其中，提取有效的数字信号片段的方法包括但不限于端点检测法。

S4：语音特征提取；

此步骤主要是对预处理过的信号进行一次变换，提取出用于语音识别的关键特征，去掉无关的冗余信息。常用的语音特征有常用的特征包括：短时平均能量或幅度、短时平均过零率、短时自相关函数、线性预测系数、基音频率、短时傅立叶变换、倒谱、共振峰等。特征提取方法包括但不限于LPCC(线性预测倒谱系数)、MFCC(梅尔频率倒谱系数)、小波分析、时频分析、人工神经网络分析等。

S5：将所述数据特征与所述数据特征库遍历对比查找是否有匹配的数据特征；

将上一步获得的目标对象的语音特征与数据特征库中的语音特征进行一一对比，根据一定的特征匹配算法，找出一系列最优的与输入的语音匹配的模板。

特征匹配算法包括但不限于HMM(隐马尔科夫模型)、DTW(动态时间规整)和ANN(人工神经网络)等。

S6：若数据特征识别成功则触发对当下情景的记录，生成记录文件；并在记录过程中通过生成标记名称完成对所述记录文件的标记。

记录包括录音和/或录像，对应的记录文件是音频文件、视频文件中的一种；标记名称中至少包括一个敏感词；敏感词是视频中第一个出现的敏感词。

在一种具体的实施例中，标记名称包括如下内容：敏感关键词+X年X月X日X分；管控平对标记的视频进行筛选可以通过如下层级筛选：

一级菜单：语音重要标记视频、语音敏感词设置；

二级菜单：类型分类：敏感关键词A、敏感关键词B；

三级菜单：类型分类下按时间排序。

实施例2

一种通过语音识别对记录文件标记的装置，包括：拾音单元、语音识别单元、控制单元、摄录单元和存储单元；

拾音单元，用于获取通过语音识别对记录文件标记的装置周围的语音信号将语音信号转换成语音模拟信号，进一步将所述语音模拟信号转换成数字信号；

在一种具体的实施例中，如图3所示，可编程增益放大器(PGA)对拾音单元获取的语音模拟信号的幅度进行适当的调整，使得输入的语音模拟信号的幅度不至于太大或太小，再通过音频模/数转换器(ADC)对调整好的语音模拟信号幅度进行采样，通过外设直接内存存取(PDMA)的方式将采样结果储存到语音识别单元的随机存取存储器(RAM)中，控制单元(Control Unit)将采样得到的数字信号进行特征提取，最后将其与内置的标准语音敏感词特征数据进行特征匹配，若两者匹配则发送相应的触发信号。

语音识别单元，用于接收所述数据特征，将数据特征与所述数据特征库遍历对比查找是否有匹配的数据特征；

控制单元，用于接收匹配结果，若有匹配的数据特征则触发摄录单元对当下情景的记录，生成记录文件；并在记录过程中通过生成标记名称完成对所述记录文件的标记；

摄录单元，用于接收控制单元的触发并记录所述当下情景，生成记录文件；

存储单元，用于存储所述记录文件和所述标记名称。在本发明的一种变通实施例中，存储单元还用于存储语音敏感词的数据特征库。

在本发明的另一种变通实施例中，拾音单元、语音识别单元、控制单元、摄录单元和存储单元可以集成为一个单元或者两个单元。在一种具体的实施例中，拾音单元为麦克风、语音识别单元为语音芯片，控制单元、摄录单元和存储单元集成于执法记录仪。

如图4所示的流程图，本实施例中通过语音识别对记录文件标记的装置可以通过如下方式实现：

(1)先是语音输入；

(2)预处理；

如图5所示，在进行语音特征提取之前，需要对对输入的原始语音信号进行处理，滤除掉其中不重要的信息以及背景噪声，尽可能保证后续语音处理得到的信号更均匀、平滑，为信号参数提取提供优质的参数，提高语音处理质量。

预处理的流程主要由ADC采样、端点检测、声音分帧、预加重、加窗组成。

ADC采样：主要是将拾音单元采集到的连续的语音模拟信号转换为离散的语音数字信号。

端点检测：从输入信号中提取一个或一系列的对比特征参数，然后将其和一个或一系列的门限阀值进行比较。如果超过门限则表示当前为有音段；否则表示当前为无音段。主要用于滤除背景噪声，找出有效语音信号的位置，确定其起始点、结束点及长度。

声音分帧：语音信号具有短时性，人在说话时清音和浊音交替出现，而且都只持续很短的一段时间，由于清音和浊音在波形上存在完全不同的特性，但在相对较短的时间范围(一般认为在10-30ms内)，其特征相对稳定，可以视为一个准平稳过程，可以用平稳过程的分析处理方法来分析处理语音信号。故将语音信号进行分帧处理，分割成相同长度的片段方便后期进行特征分析。

预加重：提升高频部分，使信号的频谱变得平坦。由于语音信号的幅度会在高频端迅速跌落，故采取高通滤波器的方式对语音信号进行预加重，增加语音的高频部分的幅度，以便于进行频谱分析或声道参数分析。

加窗：加窗的目的是可以认为对抽样n附近的语音波形加以强调而对波形的其余部分加以减弱。对语音信号的各个短段进行处理，实际上就是对各个短段进行某种变换或施以某种运算。

(3)语音特征提取

在语音信号中，包含着非常丰富的特征参数，不同的特征向量表征着不同的物理和声学意义。特征提取就是削减语音信号中与识别无关的信息的影响，提取出声音数字信号中最能表现说话人信息的特征参数。常用的语音特征参数有LPCC和MFCC等。LPCC参数是根据声管模型建立的特征参数，主要反映声道响应。MFCC参数是基于人的听觉特性利用人听觉的临界带效应，在Mel标度频率域提取出来的倒谱特征参数。

以提取MFCC特征的过程为例，

1)对每一个经过预处理的短时分析窗，通过FFT(快速傅里叶变换)得到对应的频谱；

2)将上面的频谱通过Mel滤波器组得到Mel频谱；

3)在Mel频谱上面进行倒谱分析，获得Mel频率倒谱系数MFCC，这个MFCC就是这帧语音的特征；

(4)语音特征匹配

由于语音信号本身具有随机性，即使同一个人在不同时刻发同一个音，发音的长短也会有所不同，而不同的人发音的习惯和方式都会有一定的区别。故即使是有标准语音特征库进行对比，但长短不一的发音也会影响语音识别率。

以DWT算法为例，它应用动态规划的方法成功解决了语音信号特征参数序列匹配时时长不等的难题，在孤立词语音识别中获得了良好的性能。

通过语音识别对记录文件标记的装置的整体流程如下：

(1)拾音预准备

a.初始化音频ADC，设置ADC采样频率等参数；

b.使能PDMA功能；

c.初始化PDMA，进行PDMA传输方向、传输数据大小、传输数据模式及传输通道等设置。

(2)提取标准库语音敏感词特征信息：从SRAM提取需要对比的标准语音敏感词特征数据；

(3)语音信号预处理

a.检测语音敏感词数据特征库是否加载成功；

b.ADC采样得到语音数字信号；

c.对语音数字信号进行端点检测、分帧、预加重、加窗等处理。

(4)语音特征提取

对得到的信号提取MFCC特征。

(5)语音特征匹配

采用DWT算法对MFCC特征进行匹配；若两者匹配，读取相应语音词条所对应的编号，根据对应的编号向下一级控制单元发送相应的触发信号，若不匹配则继续等待下一次特征匹配。

(6)标记敏感词重要视频

控制单元识别到相应的触发信号后，根据目前装置的工作状态执行相应的操作。如果摄录单元在预录状态则打开录像功能并添加重要视频标记；若处于录像状态，则添加重要视频标记.。重要视频标记根据相关编号以敏感关键词+X年X月X日X分的命名规则命名。

实施例3

如图6所示，是本发明的一种通过语音识别对记录文件标记的系统，包括：通过语音识别对记录文件标记的装置与管控平台；装置包括：拾音单元、语音识别单元、控制单元、摄录单元和存储单元；管控平台，用于实时接收所述通过语音识别对记录文件标记的装置的记录文件和所述标记名称。

系统具体的使用步骤如下所示：

1.使用者用超过60dB的声音说出包含语音敏感词的语音，拾音单元将拾取到语音信号转换成数字信号；

2.语音识别单元，用于对数字信号进行过滤去除背景杂音，提取的数据特征，将数据特征与数据特征库遍历对比查找是否有匹配的数据特征，对数据特征进行判断，确认数据特征库是否包含设置好的语音敏感词对应的数据特征。如果有，则发送相应的触发信号给控制单元，若数字信号不包含于设置好的语音敏感关键词库，则不发送相应的触发信号。这里所说的触发信号可以是相应的电平信号(如高电平或低电平)、边沿信号(上升沿或下降沿)固定的电压值、或串口信息等。

控制单元识别到相应的触发信号后，根据目前装置的工作状态执行相应的操作。如果摄录单元在预录状态则打开录像功能并添加重要视频标记；若处于录像状态，则添加重要视频标记。

存储单元内带重要视频标记的视频也可以通过WIFI、4G等方式直接传送到管控平台，后台人员可以通过管控平台及时地对标记的重要视频进行分类和筛选，做好备份与记录，规避执法过程中可能存在的相关视频遗失风险。

实施例5

结合本发明的方法、装置和系统，在一种具体的实施例中，执法人员携带通过语音识别对记录文件标记的装置进行执法，可以理解的是，本申请所说的装置内已经准备好一定量的语音敏感词的数据特征库；在执法记录仪开启相应敏感关键词语音识别功能后，如果出现被执法人员暴力抗法或执法人员不文明执法的现象，执法人员与被执法人员都难免会说出一些包含敏感词言语的言语，而执法记录仪内置的语音识别单元会对这些敏感词进行相应的识别，具体识别的过程如下：

采集被执法人员的语音信号将语音信号转换成语音模拟信号，进一步将语音模拟信号转换成数字信号，再通过对数字信号进行处理，进一步进行语音特征的提取，再将数据特征与相应的敏感词语音数据特征库遍历对比查找是否有匹配的数据特征。

若数据特征识别成功则触发执法记录仪对当下情景的进行视频记录，生成相应的记录文件；并在记录过程中通过生成标记名称完成对视频文件的重要标记处理，与此同时，相应的重要标记视频也会通过4G或者WIFI的方式传输给管控平台以保留证据。这样一来，执法人员可以直接通过管控平台的相应分类来快速筛选出对应的重要视频作为证据。

除此之外，即使在执法人员与被执法人员发生争执，执法记录仪损坏的情况下，后台的执法人员也能够通过管控平台筛选出对应的重要标记视频，还原事件的真相。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种通过语音识别对记录文件标记的方法，其特征在于，包括如下步骤：

S1：准备好语音敏感词的数据特征库；

S3：对所述数字信号进行过滤去除背景杂音，再提取目标对象语音的数据特征；

S4：将所述数据特征与所述数据特征库遍历对比查找是否有匹配的数据特征；

S5：若有匹配的数据特征则触发对当下情景的记录，生成记录文件；并在记录过程中通过生成标记名称完成对所述记录文件的标记。

2.如权利要求1所述的一种通过语音识别对记录文件标记的方法，其特征在于，所述准备好语音敏感词的数据特征库包括：预先存储所述语音敏感词的数据特征库；或，与在线的所述语音敏感词的数据特征库进行连接。

3.如权利要求1所述的一种通过语音识别对记录文件标记的方法，其特征在于，所述语音敏感词的数据特征库定期或不定期更新。

4.如权利要求3所述的一种通过语音识别对记录文件标记的方法，其特征在于，所述更新包括对所述语音敏感词的数据特征库的数据特征进行添加和/或删除。

5.如权利要求1所述的一种通过语音识别对记录文件标记的方法，其特征在于，所述记录包括录音和/或录像，所述记录文件是音频文件、视频文件中的一种。

6.如权利要求1所述的一种通过语音识别对记录文件标记的方法，其特征在于，所述标记名称中至少包括一个敏感词。

7.如权利要求6所述的一种通过语音识别对记录文件标记的方法，其特征在于，所述敏感词是视频中第一个出现的敏感词。

8.一种通过语音识别对记录文件标记的装置，其特征在于，包括：拾音单元、语音识别单元、控制单元、摄录单元和存储单元；

所述拾音单元，用于获取所述通过语音识别对记录文件标记的装置周围的语音信号将所述语音信号转换成语音模拟信号，

所述语音识别单元，用于接收语音模拟信号，提取其数据特征；将所述数据特征与所述数据特征库遍历对比查找是否有匹配的数据特征；

所述控制单元，用于接收匹配结果，若有匹配的数据特征则触发摄录单元对当下情景的记录，生成记录文件；并在记录过程中通过生成标记名称完成对所述记录文件的标记；

所述摄录单元，用于接收控制单元的触发并记录所述当下情景，生成所述记录文件；

所述存储单元，用于存储所述记录文件和所述标记名称。

9.如权利要求8所述的通过语音识别对记录文件标记的装置，其特征在于，所述存储单元还用于存储语音敏感词的数据特征库。

10.一种通过语音识别对记录文件标记的系统，其特征在于，包括：

权利要求8或9任一所述的通过语音识别对记录文件标记的装置与管控平台；

所述管控平台，用于实时接收所述通过语音识别对记录文件标记的装置的记录文件和所述标记名称。