CN110689906A

CN110689906A - 一种基于语音处理技术的执法检测方法及系统

Info

Publication number: CN110689906A
Application number: CN201910981151.2A
Authority: CN
Inventors: 李参宏
Original assignee: Jiangsu Net Into Polytron Technologies Inc
Current assignee: Jiangsu Net Into Polytron Technologies Inc
Priority date: 2019-11-05
Filing date: 2019-11-05
Publication date: 2020-01-14

Abstract

本发明提出一种基于语音处理技术的执法检测方法，用于识别执法记录仪录制的视频文件，所述方法包括：获取执法记录仪录制的视频文件中的音频文件；检测所述音频文件中是否有人在说话，提取所述音频文件中有人说话的语音片段；对提取的所述语音片段进行分段分析，使得每一个语音片段只包含一个说话人；提取语音片段中说话人的编码特征，利用谱聚类方法进行说话人数估计和聚类，使得同一说话人的语音片段聚类到一起，得到几个类聚而成的语音文件；识别每一个聚类而成的语音文件中属于执法人员的语音文件，便于协助开展文明执法的督导工作。

Description

一种基于语音处理技术的执法检测方法及系统

技术领域

本发明涉及执法设备领域，具体涉及一种基于语音处理技术的执法检测方法及系统。

背景技术

文明执法是对警察以及城管等公安系统的人员出警开展现场执法时的要求，是维护和谐社会的重要一环。出警人员需要按照规定佩戴执法记录仪，记录整个过程的音视频信号。出警归来后，该音视频信息如果通过人工检查，则费时费力，而且传统的人工形式的声音回放检查覆盖面小，并且评价结果不可避免地具有高度的主观性和不可重复性。因此，需要发明一款自动化的对执法记录仪采集语音的文明执法检测方法及系统。

中国专利201510409897.8揭示了一种语音识别执法记录仪及其识别方法，该专利中语音识别模块是识别语音信号对应的指令类别，并输出对执法记录仪相应的操作指令，而非出警人员的说话内容，且不含语种识别和声纹识别模块。

中国专利201720380624.X揭示了一种支持语音识别分类标注的智能执法记录仪，该专利中语音识别模块仅能识别0-9的数字串，是为了文件名存档使用，不能识别出警人员的自然语音，且不含语种识别和声纹识别模块。

中国专利201710957271.X揭示了一种智能执法记录仪，该专利使用语音识别芯片去识别警员的语音指令，以及警员的身份，不包含在服务器或计算机上对出警人员的自然语音识别，且不含语种方言识别模块，且其声纹识别是为了识别该人员是否为出警人，是用于身份验证。

因此，现有技术并不能识别处境人员是否是文明执法，即现有技术并为揭示说了不文明用语的人是否为出警人员，或者识别出警人员是否有说普通话。

发明内容

本发明所要解决的技术问题是提供一种文明执法检测方法和系统，既可以识别说了不文明用语的人是否为出警人员，或者识别出警人员是否有说普通话。为了解决上述问题，本发明提供了一种基于语音处理技术的执法检测方法，所述方法包括：获取执法记录仪录制的视频文件中的音频文件；检测所述音频文件中是否有人在说话，提取所述音频文件中有人说话的语音片段；对提取的所述语音片段进行分段分析，使得每一个语音片段只包含一个说话人；提取语音片段中说话人的编码特征，利用谱聚类方法进行说话人数估计和聚类，使得同一说话人的语音片段聚类到一起，得到几个类聚而成的语音文件；识别每一个聚类而成的语音文件中属于执法人员的语音文件。

优选的，所述检测所述音频文件中是否有人在说话，提取所述音频文件中有人说话的语音片段的步骤包括：利用语音端点检测模块检测每一时刻是否有人在说话，通过端点检测模块输出若干语音片段，提取所述音频文件中有人说话的语音片段。

优选的，所述识别每一个聚类而成的语音文件中属于执法人员的语音文件的步骤包括：利用声纹识别模块，识别每一个聚类而成的语音文件，找出与执法人员的声纹相匹配的语音文件。

优选的，所述方法还包括：识别属于执法人员的语音文件中的语音是否为普通话。

优选的，所述方法还包括：通过关键词检索判断属于执法人员的语音文件中的语音是否有不文明用语。

优选的，所述方法还包括：通过移动设备查看识别结果，并对所述结果进行纵向或横向比较。

优选的，所述方法还包括：当发生突发情况时自动发送报警信息。

本发明还提供一种基于音频语音处理技术的执法检测系统，所述系统包括：音频获取模块，用于获取执法记录仪录制的视频文件中的音频文件；语音检测模块，用于检测所述音频文件中是否有人在说话，提取所述音频文件中有人说话的语音片段；分段分析模块，对提取的所述语音片段进行分段分析，使得每一语音片段只包含一个说话人；聚类模块，提取语音片段中说话人的编码特征，利用谱聚类方法进行说话人数估计和聚类，使得同一说话人的语音片段聚类到一起，得到几个类聚而成的语音文件；识别模块，用于识别每一个聚类而成的语音文件中属于执法人员的语音文件。

优选的，所述识别模块为声纹识别模块。

优选的，所述语音检测模块为语音端点检测模块。

相对于现有技术中的方案，本发明的优点：本发明采用了语音端点检测模块，用于检测每一时刻是否有人在说话，提取音频文件中有人说话的片段，并通过聚类得到同一个说话人的语音片段，同时，本发明的识别模块还能识别出说话人是否为执法人员，并识别出执法人员是否文明执法，便于协助开展文明执法的督导工作。

附图说明

下面结合附图及实施例对本发明作进一步描述：

图1所示为本发明其中一实施例的一种基于音频语音处理技术的执法检测方法的流程示意图。

图2所示为本发明另一实施例的一种基于音频语音处理技术的执法检测方法的流程示意图。

图3所示为本发明语音查询项检索系统的结构示意图。

图4所示为本发明一种基于音频语音处理技术的执法检测系统的结构示意图。

具体实施方式

以下结合具体实施例对上述方案做进一步说明。应理解，这些实施例是用于说明本发明而不限于限制本发明的范围。实施例中采用的实施条件可以如具体厂家的条件做进一步调整，未注明的实施条件通常为常规实验中的条件。

请参考图1所示，本发明中提供一种基于语音处理技术的执法检测方法，所述方法包括：

步骤S1，获取执法记录仪录制的视频文件中的音频文件。具体的，导出执法记录仪录制的视频文件中的音频文件，并将所述音频文件存放于计算机或服务器上。

步骤S2，提取音频文件中有人说话的语音片段。在本发明的其中一实施例中，利用语音端点检测模块检测音频文件的每一时刻是否有人在说话，通过端点检测模块输出若干语音片段，并提取所述音频文件中有人说话的语音片段，同时删除静音及背景噪音部分，以防止背景噪音的干扰。

步骤S3，对提取的语音片段进行分段分析。本发明的其中一实施例中对步骤S2中端点检测模块输出的若干个语音片段，进行说话人分段分析，具体的，主要通过寻找说话人转折点，并把每个有可能是多人说话的片段切分成多个小片段，使得每一个语音片段只包含一个说话人。

步骤S4，利用谱聚类方法得到几个类聚而成的语音文件。具体的，对每一个只包含一个说话人的小语音片段，提取说话人编码特征，然后利用谱聚类方法进行总说话人个数估计和聚类，使得同一个说话人的片段聚类到一起，得到几个聚类而成的语音文件，每一个文件仅包含一位说话人。

提取说话人的小语音片段，使用基于神经网络的语音端点检测技术，神经网络结构如下表：

表1

当在网络中输入为39×帧数的MFCC语谱图时，输出为1×帧数的 01矩阵，静音为1，非静音为0。网络前5层均为卷积层，后三层为全链接层，损失函数选择交叉熵损失函数。

在本发明的其中一实施例中，当提取到每个说话人的语音片段后使用神经网络的声纹识别系统得到说话人的向量(Speaker embedding)。

具体的，由于音频转换为64维logmel-filterbank能量，帧长度为 25ms，在最多3秒的滑动窗口内进行均值归一化。帧级基于神经网络的语音边缘检测(VAD)选择对应于语音帧的特征。为了获得更高层次的抽象表示，本发明采用了如下表2所示的一个深度卷积神经网络 (CNN)。

表2

其次是前端深层CNN，本发明采用最简单的平均汇集层(average poolinglayer)，用于提取话语级别的平均统计数据。因此，给定形状为64×L的输入数据序列，其中L表示可变长度数据帧，本发明最终得到128维话语级别表示。

本发明的其中一实施例中，对深度卷积神经网络模型的训练采用 128的小批量训练，使用典型的随机梯度下降，动量为0.9，重量衰减为1e-4。学习率设定为0.1,0.01,0.001，并在训练失败时切换。对于每个训练步骤，随机生成[300,800]间隔内的整数L，并且将小批量中的每个数据裁剪或扩展到L帧。模型训练完成后，在倒数第二层神经网络后提取128维Speaker embedding。由于相同说话人的Speaker embedding距离相近，因此使用k-means聚类方法进行聚类，得到同一个人的一些语音片段。

步骤S5,识别每一个聚类而成的语音文件中属于执法人员的语音文件。利用声纹识别模块，识别每一个聚类而成的语音文件，找出与执法人员的声纹相匹配的语音文件。利用声纹识别模块，识别每一个聚类而成的语音文件是否为出警人员所说，找出与出警人员声纹相匹配的经过分段聚类模块得到的聚合而成语音文件。

本发明的一种基于语音处理技术的执法检测方法，该执法检测方法采用语音端点检测模块，检测每一时刻是否有人在说话，提取音频文件中有人说话的片段，并通过聚类得到同一说话人的语音片段，本发明通过识别模块识别出说话人是否为执法人员，便于执法人员文明执法检测。

在本发明的其中一实施例中，本发明的检测方法还能检测执法人员是否用普通话以及是否文明执法，请参考图2所示，本发明的检测方法还包括：

步骤S6,识别属于执法人员的语音文件中的语音是否为普通话。本发明还附加了语种方言识别模块用来判别是否说普通话，因为，出警人员被要求要使用普通话执法，且如果不是说普通话，则语音识别引擎的错误率大幅度提高，系统性能下降。另外，执法记录仪语音包含大量非出警人员的语音，需要加以区分，本发明只关注于检测出警人员的文明执法，所以，本发明加入了声纹识别的模块，用以识别是否为出警人员本人。

步骤S7,通过关键词检索判断属于执法人员的语音文件中的语音是否有不文明用语。关键词为各类脏话及其他自定义的不文明用语。

请参考图3所示为本发明语音查询项检索系统，其中，关键词检索系统包括两个部分：一个大型语音识别系统模块解码检索集合并且产生相应的网格(Lattice)，一个关键词模块生成网格索引并从索引中查找关键词。

本发明的基础大型语音识别系统是一个隐马尔科夫模型hmm+延神经网络tdnn的系统，使用标准的高纬度的梅尔频率倒谱系数 (MFCC)分析器抽取40维的语音特征，然后用一个典型的最大似然估计进行语音训练，以一个平滑的上下文无关的音素HMM做初始值开始，以说话人自适应(SAT)的状态集群三音素hmm-混合高斯模型 gmm做为输出结束。最后，所有的训练语音使用hmm-gmm系统进行解码对齐，然后对对齐的结果进行tdnn训练得到声学模型。所有这些系统都是对相同的检索集合进行解码并且生成网格，随后送到关键词检测模块进行索引和检索。

本发明在检索结果上而不是在网格上将这些系统组织起来。检索集语句中的网格都被从单一加权有限状态转换成一个单广义因数变送器结构，将每个词的开始时间，结束时间和网格后验概率这三维数据存储起来。输入一个词或短语，即可创建该词或短语的简单有限状态机，可以得到这个关键词/短语并且将其与因数变送器做合并运算得到关键词/短语在检索集合中所有出现过的地方，和一个语句的ID号，开始时间，结束时间，以及每个地方网格的后验概率。所有检索出来的结果以他们的后验概率进行排序，对每个实例判断是或否。

在本发明的其中一实施例中，所述检测方法还包括通过移动设备查看方言识别结果及关键词检索结果。本发明用户可通过网页客户端或者移动设备APP来查看语种、方言识别结果及关键词检索分析的结果，进行横向及纵向的比较，辅助开展文明执法的督导工作。在本发明的另一优选实施例中，系统还包括报警模块，当系统在有突发状况的情况下，报警模块自动发送短信和邮件向工作人员进行预警，辅助开展文明执法的督导工作。

请参考图4所示，本发明还提供一种基于音频语音处理技术的执法检测系统，所述系统包括音频获取模块，音频检测模块，分段分析模块，聚类模块和识别模块，其中，音频获取模块，用于获取执法记录仪录制的视频文件中的音频文件；语音检测模块，用于检测所述音频文件中是否有人在说话，提取所述音频文件中有人说话的语音片段；分段分析模块，对提取的所述语音片段进行分段分析，使得每一语音片段只包含一个说话人；聚类模块，提取语音片段中说话人的编码特征，利用谱聚类方法进行说话人数估计和聚类，使得同一说话人的语音片段聚类到一起，得到几个类聚而成的语音文件；识别模块，用于识别每一个聚类而成的语音文件中属于执法人员的语音文件。在本发明的其中一实施例中，所述识别模块为声纹识别模块，语音检测模块为语音端点检测模块。

在本发明的另一实施例还包括移动设备，用于查看分析后的指标，并对所述指标进行纵向或横向比较。用户可通过网页客户端或者移动设备APP来查看各种分析的结果，进行横向及纵向的比较，并将比较结果通过网页客户端或者移动设备APP进行显示，方便用户进行选择。

本发明的另一实施例中，还包括报警模块，用于当发生突发情况时自动发送报警信息。系统也将在有突发状况或潜在事故的情况下，自动发送短信和邮件进行预警，辅助开展文明执法的督导工作。

本发明基于音频语音处理技术的执法检测系统采用了语音端点检测模块检测每一时刻是否有人在说话，通过分段分析模块对语音进行分析，提取音频文件中有人说话的片段，通过聚类得到同一个说话人的语音片段，同时，本发明的识别模块还能识别出说话人是否为执法人员，并识别出执法人员是否文明执法，便于协助开展文明执法的督导工作。

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人是能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡如本发明精神实质所做的等效变换或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于语音处理技术的执法检测方法，用于识别执法记录仪录制的视频文件，其特征在于，所述方法包括：

获取执法记录仪录制的视频文件中的音频文件；

检测所述音频文件中是否有人在说话，提取所述音频文件中有人说话的语音片段；

对提取的所述语音片段进行分段分析，使得每一个语音片段只包含一个说话人；

提取语音片段中说话人的编码特征，利用谱聚类方法进行说话人数估计和聚类，使得同一说话人的语音片段聚类到一起，得到几个类聚而成的语音文件；

识别每一个聚类而成的语音文件中属于执法人员的语音文件。

2.根据权利要求1所述的基于语音处理技术的执法检测方法，其特征在于，所述检测所述音频文件中是否有人在说话，提取所述音频文件中有人说话的语音片段的步骤包括：

利用语音端点检测模块检测每一时刻是否有人在说话，通过端点检测模块输出若干语音片段，提取所述音频文件中有人说话的语音片段。

3.根据权利要求1所述的基于语音处理技术的执法检测方法，其特征在于，所述识别每一个聚类而成的语音文件中属于执法人员的语音文件的步骤包括：

利用声纹识别模块，识别每一个聚类而成的语音文件，找出与执法人员的声纹相匹配的语音文件。

4.根据权利要求1所述的基于语音处理技术的执法检测方法，其特征在于，所述方法还包括：

识别属于执法人员的语音文件中的语音是否为普通话。

5.根据权利要求4所述的基于语音处理技术的执法检测方法，其特征在于，所述方法还包括：

通过关键词检索判断属于执法人员的语音文件中的语音是否有不文明用语。

6.根据权利要求1所述的基于语音处理技术的执法检测方法，其特征在于，所述方法还包括：

通过移动设备查看识别结果，并对所述结果进行纵向或横向比较。

7.根据权利要求1所述的基于语音处理技术的执法检测方法，其特征在于，所述方法还包括：

当发生突发情况时自动发送报警信息。

8.一种基于语音处理技术的执法检测系统，其特征在于，所述系统包括：

音频获取模块，用于获取执法记录仪录制的视频文件中的音频文件；

语音检测模块，用于检测所述音频文件中是否有人在说话，提取所述音频文件中有人说话的语音片段；

分段分析模块，对提取的所述语音片段进行分段分析，使得每一语音片段只包含一个说话人；

聚类模块，提取语音片段中说话人的编码特征，利用谱聚类方法进行说话人数估计和聚类，使得同一说话人的语音片段聚类到一起，得到几个类聚而成的语音文件；

识别模块，用于识别每一个聚类而成的语音文件中属于执法人员的语音文件。

9.根据权利要求8所述的基于语音处理技术的执法检测系统，其特征在于，所述识别模块为声纹识别模块。

10.根据权利要求8所述的基于语音处理技术的执法检测系统，其特征在于，所述语音检测模块为语音端点检测模块。