CN110689906A - 一种基于语音处理技术的执法检测方法及系统 - Google Patents
一种基于语音处理技术的执法检测方法及系统 Download PDFInfo
- Publication number
- CN110689906A CN110689906A CN201910981151.2A CN201910981151A CN110689906A CN 110689906 A CN110689906 A CN 110689906A CN 201910981151 A CN201910981151 A CN 201910981151A CN 110689906 A CN110689906 A CN 110689906A
- Authority
- CN
- China
- Prior art keywords
- voice
- law enforcement
- file
- processing technology
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 49
- 238000005516 engineering process Methods 0.000 title claims abstract description 23
- 238000012545 processing Methods 0.000 title claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000004458 analytical method Methods 0.000 claims abstract description 15
- 230000011218 segmentation Effects 0.000 claims abstract description 14
- 230000003595 spectral effect Effects 0.000 claims abstract description 8
- 241001672694 Citrus reticulata Species 0.000 claims description 8
- 230000018109 developmental process Effects 0.000 abstract 1
- 238000012549 training Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/91—Television signal processing therefor
- H04N5/92—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
- H04N5/9201—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving the multiplexing of an additional signal and the video signal
- H04N5/9202—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving the multiplexing of an additional signal and the video signal the additional signal being a sound signal
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提出一种基于语音处理技术的执法检测方法,用于识别执法记录仪录制的视频文件,所述方法包括:获取执法记录仪录制的视频文件中的音频文件;检测所述音频文件中是否有人在说话,提取所述音频文件中有人说话的语音片段;对提取的所述语音片段进行分段分析,使得每一个语音片段只包含一个说话人;提取语音片段中说话人的编码特征,利用谱聚类方法进行说话人数估计和聚类,使得同一说话人的语音片段聚类到一起,得到几个类聚而成的语音文件;识别每一个聚类而成的语音文件中属于执法人员的语音文件,便于协助开展文明执法的督导工作。
Description
技术领域
本发明涉及执法设备领域,具体涉及一种基于语音处理技术的执法检测方法及系统。
背景技术
文明执法是对警察以及城管等公安系统的人员出警开展现场执法时的要求,是维护和谐社会的重要一环。出警人员需要按照规定佩戴执法记录仪,记录整个过程的音视频信号。出警归来后,该音视频信息如果通过人工检查,则费时费力,而且传统的人工形式的声音回放检查覆盖面小,并且评价结果不可避免地具有高度的主观性和不可重复性。因此,需要发明一款自动化的对执法记录仪采集语音的文明执法检测方法及系统。
中国专利201510409897.8揭示了一种语音识别执法记录仪及其识别方法,该专利中语音识别模块是识别语音信号对应的指令类别,并输出对执法记录仪相应的操作指令,而非出警人员的说话内容,且不含语种识别和声纹识别模块。
中国专利201720380624.X揭示了一种支持语音识别分类标注的智能执法记录仪,该专利中语音识别模块仅能识别0-9的数字串,是为了文件名存档使用,不能识别出警人员的自然语音,且不含语种识别和声纹识别模块。
中国专利201710957271.X揭示了一种智能执法记录仪,该专利使用语音识别芯片去识别警员的语音指令,以及警员的身份,不包含在服务器或计算机上对出警人员的自然语音识别,且不含语种方言识别模块,且其声纹识别是为了识别该人员是否为出警人,是用于身份验证。
因此,现有技术并不能识别处境人员是否是文明执法,即现有技术并为揭示说了不文明用语的人是否为出警人员,或者识别出警人员是否有说普通话。
发明内容
本发明所要解决的技术问题是提供一种文明执法检测方法和系统,既可以识别说了不文明用语的人是否为出警人员,或者识别出警人员是否有说普通话。为了解决上述问题,本发明提供了一种基于语音处理技术的执法检测方法,所述方法包括:获取执法记录仪录制的视频文件中的音频文件;检测所述音频文件中是否有人在说话,提取所述音频文件中有人说话的语音片段;对提取的所述语音片段进行分段分析,使得每一个语音片段只包含一个说话人;提取语音片段中说话人的编码特征,利用谱聚类方法进行说话人数估计和聚类,使得同一说话人的语音片段聚类到一起,得到几个类聚而成的语音文件;识别每一个聚类而成的语音文件中属于执法人员的语音文件。
优选的,所述检测所述音频文件中是否有人在说话,提取所述音频文件中有人说话的语音片段的步骤包括:利用语音端点检测模块检测每一时刻是否有人在说话,通过端点检测模块输出若干语音片段,提取所述音频文件中有人说话的语音片段。
优选的,所述识别每一个聚类而成的语音文件中属于执法人员的语音文件的步骤包括:利用声纹识别模块,识别每一个聚类而成的语音文件,找出与执法人员的声纹相匹配的语音文件。
优选的,所述方法还包括:识别属于执法人员的语音文件中的语音是否为普通话。
优选的,所述方法还包括:通过关键词检索判断属于执法人员的语音文件中的语音是否有不文明用语。
优选的,所述方法还包括:通过移动设备查看识别结果,并对所述结果进行纵向或横向比较。
优选的,所述方法还包括:当发生突发情况时自动发送报警信息。
本发明还提供一种基于音频语音处理技术的执法检测系统,所述系统包括:音频获取模块,用于获取执法记录仪录制的视频文件中的音频文件;语音检测模块,用于检测所述音频文件中是否有人在说话,提取所述音频文件中有人说话的语音片段;分段分析模块,对提取的所述语音片段进行分段分析,使得每一语音片段只包含一个说话人;聚类模块,提取语音片段中说话人的编码特征,利用谱聚类方法进行说话人数估计和聚类,使得同一说话人的语音片段聚类到一起,得到几个类聚而成的语音文件;识别模块,用于识别每一个聚类而成的语音文件中属于执法人员的语音文件。
优选的,所述识别模块为声纹识别模块。
优选的,所述语音检测模块为语音端点检测模块。
相对于现有技术中的方案,本发明的优点:本发明采用了语音端点检测模块,用于检测每一时刻是否有人在说话,提取音频文件中有人说话的片段,并通过聚类得到同一个说话人的语音片段,同时,本发明的识别模块还能识别出说话人是否为执法人员,并识别出执法人员是否文明执法,便于协助开展文明执法的督导工作。
附图说明
下面结合附图及实施例对本发明作进一步描述:
图1所示为本发明其中一实施例的一种基于音频语音处理技术的执法检测方法的流程示意图。
图2所示为本发明另一实施例的一种基于音频语音处理技术的执法检测方法的流程示意图。
图3所示为本发明语音查询项检索系统的结构示意图。
图4所示为本发明一种基于音频语音处理技术的执法检测系统的结构示意图。
具体实施方式
以下结合具体实施例对上述方案做进一步说明。应理解,这些实施例是用于说明本发明而不限于限制本发明的范围。实施例中采用的实施条件可以如具体厂家的条件做进一步调整,未注明的实施条件通常为常规实验中的条件。
请参考图1所示,本发明中提供一种基于语音处理技术的执法检测方法,所述方法包括:
步骤S1,获取执法记录仪录制的视频文件中的音频文件。具体的,导出执法记录仪录制的视频文件中的音频文件,并将所述音频文件存放于计算机或服务器上。
步骤S2,提取音频文件中有人说话的语音片段。在本发明的其中一实施例中,利用语音端点检测模块检测音频文件的每一时刻是否有人在说话,通过端点检测模块输出若干语音片段,并提取所述音频文件中有人说话的语音片段,同时删除静音及背景噪音部分,以防止背景噪音的干扰。
步骤S3,对提取的语音片段进行分段分析。本发明的其中一实施例中对步骤S2中端点检测模块输出的若干个语音片段,进行说话人分段分析,具体的,主要通过寻找说话人转折点,并把每个有可能是多人说话的片段切分成多个小片段,使得每一个语音片段只包含一个说话人。
步骤S4,利用谱聚类方法得到几个类聚而成的语音文件。具体的,对每一个只包含一个说话人的小语音片段,提取说话人编码特征,然后利用谱聚类方法进行总说话人个数估计和聚类,使得同一个说话人的片段聚类到一起,得到几个聚类而成的语音文件,每一个文件仅包含一位说话人。
提取说话人的小语音片段,使用基于神经网络的语音端点检测技术,神经网络结构如下表:
表1
当在网络中输入为39×帧数的MFCC语谱图时,输出为1×帧数的 01矩阵,静音为1,非静音为0。网络前5层均为卷积层,后三层为全链接层,损失函数选择交叉熵损失函数。
在本发明的其中一实施例中,当提取到每个说话人的语音片段后使用神经网络的声纹识别系统得到说话人的向量(Speaker embedding)。
具体的,由于音频转换为64维logmel-filterbank能量,帧长度为 25ms,在最多3秒的滑动窗口内进行均值归一化。帧级基于神经网络的语音边缘检测(VAD)选择对应于语音帧的特征。为了获得更高层次的抽象表示,本发明采用了如下表2所示的一个深度卷积神经网络 (CNN)。
表2
其次是前端深层CNN,本发明采用最简单的平均汇集层(average poolinglayer),用于提取话语级别的平均统计数据。因此,给定形状为64×L的输入数据序列,其中L表示可变长度数据帧,本发明最终得到128维话语级别表示。
本发明的其中一实施例中,对深度卷积神经网络模型的训练采用 128的小批量训练,使用典型的随机梯度下降,动量为0.9,重量衰减为1e-4。学习率设定为0.1,0.01,0.001,并在训练失败时切换。对于每个训练步骤,随机生成[300,800]间隔内的整数L,并且将小批量中的每个数据裁剪或扩展到L帧。模型训练完成后,在倒数第二层神经网络后提取128维Speaker embedding。由于相同说话人的Speaker embedding距离相近,因此使用k-means聚类方法进行聚类,得到同一个人的一些语音片段。
步骤S5,识别每一个聚类而成的语音文件中属于执法人员的语音文件。利用声纹识别模块,识别每一个聚类而成的语音文件,找出与执法人员的声纹相匹配的语音文件。利用声纹识别模块,识别每一个聚类而成的语音文件是否为出警人员所说,找出与出警人员声纹相匹配的经过分段聚类模块得到的聚合而成语音文件。
本发明的一种基于语音处理技术的执法检测方法,该执法检测方法采用语音端点检测模块,检测每一时刻是否有人在说话,提取音频文件中有人说话的片段,并通过聚类得到同一说话人的语音片段,本发明通过识别模块识别出说话人是否为执法人员,便于执法人员文明执法检测。
在本发明的其中一实施例中,本发明的检测方法还能检测执法人员是否用普通话以及是否文明执法,请参考图2所示,本发明的检测方法还包括:
步骤S6,识别属于执法人员的语音文件中的语音是否为普通话。本发明还附加了语种方言识别模块用来判别是否说普通话,因为,出警人员被要求要使用普通话执法,且如果不是说普通话,则语音识别引擎的错误率大幅度提高,系统性能下降。另外,执法记录仪语音包含大量非出警人员的语音,需要加以区分,本发明只关注于检测出警人员的文明执法,所以,本发明加入了声纹识别的模块,用以识别是否为出警人员本人。
步骤S7,通过关键词检索判断属于执法人员的语音文件中的语音是否有不文明用语。关键词为各类脏话及其他自定义的不文明用语。
请参考图3所示为本发明语音查询项检索系统,其中,关键词检索系统包括两个部分:一个大型语音识别系统模块解码检索集合并且产生相应的网格(Lattice),一个关键词模块生成网格索引并从索引中查找关键词。
本发明的基础大型语音识别系统是一个隐马尔科夫模型hmm+延神经网络tdnn的系统,使用标准的高纬度的梅尔频率倒谱系数 (MFCC)分析器抽取40维的语音特征,然后用一个典型的最大似然估计进行语音训练,以一个平滑的上下文无关的音素HMM做初始值开始,以说话人自适应(SAT)的状态集群三音素hmm-混合高斯模型 gmm做为输出结束。最后,所有的训练语音使用hmm-gmm系统进行解码对齐,然后对对齐的结果进行tdnn训练得到声学模型。所有这些系统都是对相同的检索集合进行解码并且生成网格,随后送到关键词检测模块进行索引和检索。
本发明在检索结果上而不是在网格上将这些系统组织起来。检索集语句中的网格都被从单一加权有限状态转换成一个单广义因数变送器结构,将每个词的开始时间,结束时间和网格后验概率这三维数据存储起来。输入一个词或短语,即可创建该词或短语的简单有限状态机,可以得到这个关键词/短语并且将其与因数变送器做合并运算得到关键词/短语在检索集合中所有出现过的地方,和一个语句的ID号,开始时间,结束时间,以及每个地方网格的后验概率。所有检索出来的结果以他们的后验概率进行排序,对每个实例判断是或否。
在本发明的其中一实施例中,所述检测方法还包括通过移动设备查看方言识别结果及关键词检索结果。本发明用户可通过网页客户端或者移动设备APP来查看语种、方言识别结果及关键词检索分析的结果,进行横向及纵向的比较,辅助开展文明执法的督导工作。在本发明的另一优选实施例中,系统还包括报警模块,当系统在有突发状况的情况下,报警模块自动发送短信和邮件向工作人员进行预警,辅助开展文明执法的督导工作。
请参考图4所示,本发明还提供一种基于音频语音处理技术的执法检测系统,所述系统包括音频获取模块,音频检测模块,分段分析模块,聚类模块和识别模块,其中,音频获取模块,用于获取执法记录仪录制的视频文件中的音频文件;语音检测模块,用于检测所述音频文件中是否有人在说话,提取所述音频文件中有人说话的语音片段;分段分析模块,对提取的所述语音片段进行分段分析,使得每一语音片段只包含一个说话人;聚类模块,提取语音片段中说话人的编码特征,利用谱聚类方法进行说话人数估计和聚类,使得同一说话人的语音片段聚类到一起,得到几个类聚而成的语音文件;识别模块,用于识别每一个聚类而成的语音文件中属于执法人员的语音文件。在本发明的其中一实施例中,所述识别模块为声纹识别模块,语音检测模块为语音端点检测模块。
在本发明的另一实施例还包括移动设备,用于查看分析后的指标,并对所述指标进行纵向或横向比较。用户可通过网页客户端或者移动设备APP来查看各种分析的结果,进行横向及纵向的比较,并将比较结果通过网页客户端或者移动设备APP进行显示,方便用户进行选择。
本发明的另一实施例中,还包括报警模块,用于当发生突发情况时自动发送报警信息。系统也将在有突发状况或潜在事故的情况下,自动发送短信和邮件进行预警,辅助开展文明执法的督导工作。
本发明基于音频语音处理技术的执法检测系统采用了语音端点检测模块检测每一时刻是否有人在说话,通过分段分析模块对语音进行分析,提取音频文件中有人说话的片段,通过聚类得到同一个说话人的语音片段,同时,本发明的识别模块还能识别出说话人是否为执法人员,并识别出执法人员是否文明执法,便于协助开展文明执法的督导工作。
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人是能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡如本发明精神实质所做的等效变换或修饰,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于语音处理技术的执法检测方法,用于识别执法记录仪录制的视频文件,其特征在于,所述方法包括:
获取执法记录仪录制的视频文件中的音频文件;
检测所述音频文件中是否有人在说话,提取所述音频文件中有人说话的语音片段;
对提取的所述语音片段进行分段分析,使得每一个语音片段只包含一个说话人;
提取语音片段中说话人的编码特征,利用谱聚类方法进行说话人数估计和聚类,使得同一说话人的语音片段聚类到一起,得到几个类聚而成的语音文件;
识别每一个聚类而成的语音文件中属于执法人员的语音文件。
2.根据权利要求1所述的基于语音处理技术的执法检测方法,其特征在于,所述检测所述音频文件中是否有人在说话,提取所述音频文件中有人说话的语音片段的步骤包括:
利用语音端点检测模块检测每一时刻是否有人在说话,通过端点检测模块输出若干语音片段,提取所述音频文件中有人说话的语音片段。
3.根据权利要求1所述的基于语音处理技术的执法检测方法,其特征在于,所述识别每一个聚类而成的语音文件中属于执法人员的语音文件的步骤包括:
利用声纹识别模块,识别每一个聚类而成的语音文件,找出与执法人员的声纹相匹配的语音文件。
4.根据权利要求1所述的基于语音处理技术的执法检测方法,其特征在于,所述方法还包括:
识别属于执法人员的语音文件中的语音是否为普通话。
5.根据权利要求4所述的基于语音处理技术的执法检测方法,其特征在于,所述方法还包括:
通过关键词检索判断属于执法人员的语音文件中的语音是否有不文明用语。
6.根据权利要求1所述的基于语音处理技术的执法检测方法,其特征在于,所述方法还包括:
通过移动设备查看识别结果,并对所述结果进行纵向或横向比较。
7.根据权利要求1所述的基于语音处理技术的执法检测方法,其特征在于,所述方法还包括:
当发生突发情况时自动发送报警信息。
8.一种基于语音处理技术的执法检测系统,其特征在于,所述系统包括:
音频获取模块,用于获取执法记录仪录制的视频文件中的音频文件;
语音检测模块,用于检测所述音频文件中是否有人在说话,提取所述音频文件中有人说话的语音片段;
分段分析模块,对提取的所述语音片段进行分段分析,使得每一语音片段只包含一个说话人;
聚类模块,提取语音片段中说话人的编码特征,利用谱聚类方法进行说话人数估计和聚类,使得同一说话人的语音片段聚类到一起,得到几个类聚而成的语音文件;
识别模块,用于识别每一个聚类而成的语音文件中属于执法人员的语音文件。
9.根据权利要求8所述的基于语音处理技术的执法检测系统,其特征在于,所述识别模块为声纹识别模块。
10.根据权利要求8所述的基于语音处理技术的执法检测系统,其特征在于,所述语音检测模块为语音端点检测模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910981151.2A CN110689906A (zh) | 2019-11-05 | 2019-11-05 | 一种基于语音处理技术的执法检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910981151.2A CN110689906A (zh) | 2019-11-05 | 2019-11-05 | 一种基于语音处理技术的执法检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110689906A true CN110689906A (zh) | 2020-01-14 |
Family
ID=69112926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910981151.2A Pending CN110689906A (zh) | 2019-11-05 | 2019-11-05 | 一种基于语音处理技术的执法检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110689906A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112420069A (zh) * | 2020-11-18 | 2021-02-26 | 北京云从科技有限公司 | 一种语音处理方法、装置、机器可读介质及设备 |
CN112735385A (zh) * | 2020-12-30 | 2021-04-30 | 科大讯飞股份有限公司 | 语音端点检测方法、装置、计算机设备及存储介质 |
CN113077817A (zh) * | 2021-03-31 | 2021-07-06 | 重庆风云际会智慧科技有限公司 | 单兵执法行为智能分析设备 |
CN114021910A (zh) * | 2021-10-21 | 2022-02-08 | 江苏无线飞翔科技有限公司 | 一种城市停车收费员一体化收费监管方法和系统 |
CN114463934A (zh) * | 2022-01-27 | 2022-05-10 | 深圳市蓝鲸智联科技有限公司 | 一种汽车锁车检测报警系统 |
CN115019804A (zh) * | 2022-08-03 | 2022-09-06 | 北京惠朗时代科技有限公司 | 一种多员工密集签到的多重校验式声纹识别方法及系统 |
CN118173104A (zh) * | 2024-05-15 | 2024-06-11 | 百鸟数据科技(北京)有限责任公司 | 基于声源定位的分布式场景空间声场再现方法及装置 |
CN118173104B (zh) * | 2024-05-15 | 2024-07-05 | 百鸟数据科技(北京)有限责任公司 | 基于声源定位的分布式场景空间声场再现方法及装置 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103530432A (zh) * | 2013-09-24 | 2014-01-22 | 华南理工大学 | 一种具有语音提取功能的会议记录器及语音提取方法 |
US20140220526A1 (en) * | 2013-02-07 | 2014-08-07 | Verizon Patent And Licensing Inc. | Customer sentiment analysis using recorded conversation |
CN104821934A (zh) * | 2015-03-20 | 2015-08-05 | 百度在线网络技术(北京)有限公司 | 基于人工智能的声纹登录方法和装置 |
GB201703310D0 (en) * | 2017-03-01 | 2017-04-12 | Toshiba Kk | A feature extraction system, an automatic speech recognition system, a feature extraction method, an automatic speech recognition method and a method of train |
CN106803423A (zh) * | 2016-12-27 | 2017-06-06 | 智车优行科技(北京)有限公司 | 基于用户情绪状态的人机交互语音控制方法、装置及车辆 |
CN106960290A (zh) * | 2017-04-11 | 2017-07-18 | 西华大学 | 一种汽车4s店团队销售服务质量评价系统及评价方法 |
GB201814121D0 (en) * | 2018-08-30 | 2018-10-17 | Liopa Ltd | Liopa |
CN108831456A (zh) * | 2018-05-25 | 2018-11-16 | 深圳警翼智能科技股份有限公司 | 一种通过语音识别对视频标记的方法、装置及系统 |
CN109147774A (zh) * | 2018-09-19 | 2019-01-04 | 华南理工大学 | 一种改进的延时神经网络声学模型 |
CN109327632A (zh) * | 2018-11-23 | 2019-02-12 | 深圳前海微众银行股份有限公司 | 客服录音的智能质检系统、方法及计算机可读存储介质 |
CN109446524A (zh) * | 2018-10-25 | 2019-03-08 | 第四范式(北京)技术有限公司 | 一种语音质检方法及装置 |
CN110189746A (zh) * | 2019-03-20 | 2019-08-30 | 成都天奥信息科技有限公司 | 一种应用于地空通信的话音识别方法 |
-
2019
- 2019-11-05 CN CN201910981151.2A patent/CN110689906A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140220526A1 (en) * | 2013-02-07 | 2014-08-07 | Verizon Patent And Licensing Inc. | Customer sentiment analysis using recorded conversation |
CN103530432A (zh) * | 2013-09-24 | 2014-01-22 | 华南理工大学 | 一种具有语音提取功能的会议记录器及语音提取方法 |
CN104821934A (zh) * | 2015-03-20 | 2015-08-05 | 百度在线网络技术(北京)有限公司 | 基于人工智能的声纹登录方法和装置 |
CN106803423A (zh) * | 2016-12-27 | 2017-06-06 | 智车优行科技(北京)有限公司 | 基于用户情绪状态的人机交互语音控制方法、装置及车辆 |
GB201703310D0 (en) * | 2017-03-01 | 2017-04-12 | Toshiba Kk | A feature extraction system, an automatic speech recognition system, a feature extraction method, an automatic speech recognition method and a method of train |
CN106960290A (zh) * | 2017-04-11 | 2017-07-18 | 西华大学 | 一种汽车4s店团队销售服务质量评价系统及评价方法 |
CN108831456A (zh) * | 2018-05-25 | 2018-11-16 | 深圳警翼智能科技股份有限公司 | 一种通过语音识别对视频标记的方法、装置及系统 |
GB201814121D0 (en) * | 2018-08-30 | 2018-10-17 | Liopa Ltd | Liopa |
CN109147774A (zh) * | 2018-09-19 | 2019-01-04 | 华南理工大学 | 一种改进的延时神经网络声学模型 |
CN109446524A (zh) * | 2018-10-25 | 2019-03-08 | 第四范式(北京)技术有限公司 | 一种语音质检方法及装置 |
CN109327632A (zh) * | 2018-11-23 | 2019-02-12 | 深圳前海微众银行股份有限公司 | 客服录音的智能质检系统、方法及计算机可读存储介质 |
CN110189746A (zh) * | 2019-03-20 | 2019-08-30 | 成都天奥信息科技有限公司 | 一种应用于地空通信的话音识别方法 |
Non-Patent Citations (2)
Title |
---|
林可希: "智能语音技术在热线服务质检中的应用探讨", 《无线互联科技》 * |
王勇和等: "基于TDNN-FSMN的蒙古语语音识别技术研究", 《中文信息学报》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112420069A (zh) * | 2020-11-18 | 2021-02-26 | 北京云从科技有限公司 | 一种语音处理方法、装置、机器可读介质及设备 |
CN112735385A (zh) * | 2020-12-30 | 2021-04-30 | 科大讯飞股份有限公司 | 语音端点检测方法、装置、计算机设备及存储介质 |
CN112735385B (zh) * | 2020-12-30 | 2024-05-31 | 中国科学技术大学 | 语音端点检测方法、装置、计算机设备及存储介质 |
CN113077817A (zh) * | 2021-03-31 | 2021-07-06 | 重庆风云际会智慧科技有限公司 | 单兵执法行为智能分析设备 |
CN114021910A (zh) * | 2021-10-21 | 2022-02-08 | 江苏无线飞翔科技有限公司 | 一种城市停车收费员一体化收费监管方法和系统 |
CN114463934A (zh) * | 2022-01-27 | 2022-05-10 | 深圳市蓝鲸智联科技有限公司 | 一种汽车锁车检测报警系统 |
CN115019804A (zh) * | 2022-08-03 | 2022-09-06 | 北京惠朗时代科技有限公司 | 一种多员工密集签到的多重校验式声纹识别方法及系统 |
CN118173104A (zh) * | 2024-05-15 | 2024-06-11 | 百鸟数据科技(北京)有限责任公司 | 基于声源定位的分布式场景空间声场再现方法及装置 |
CN118173104B (zh) * | 2024-05-15 | 2024-07-05 | 百鸟数据科技(北京)有限责任公司 | 基于声源定位的分布式场景空间声场再现方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110689906A (zh) | 一种基于语音处理技术的执法检测方法及系统 | |
US6434520B1 (en) | System and method for indexing and querying audio archives | |
US6618702B1 (en) | Method of and device for phone-based speaker recognition | |
EP0708960B1 (en) | Topic discriminator | |
CN103179122B (zh) | 一种基于语音语义内容分析的防电信电话诈骗方法和系统 | |
EP1800293B1 (en) | Spoken language identification system and methods for training and operating same | |
US20140207457A1 (en) | False alarm reduction in speech recognition systems using contextual information | |
US20040204939A1 (en) | Systems and methods for speaker change detection | |
CN112750465A (zh) | 一种云端语言能力评测系统及可穿戴录音终端 | |
JP2000348064A (ja) | 内容情報と話者情報を使用して音声情報を検索するための方法および装置 | |
CN112735383A (zh) | 语音信号的处理方法、装置、设备及存储介质 | |
CN102915729B (zh) | 语音关键词检出系统、创建用于其的词典的系统和方法 | |
US20130289987A1 (en) | Negative Example (Anti-Word) Based Performance Improvement For Speech Recognition | |
CN113129895B (zh) | 一种语音检测处理系统 | |
Lecouteux et al. | Combined low level and high level features for out-of-vocabulary word detection | |
CN114373453B (zh) | 一种基于运动轨迹和区分性信息的语音关键词检测方法 | |
Ramabhadran et al. | Fast decoding for open vocabulary spoken term detection | |
Norouzian et al. | An efficient approach for two-stage open vocabulary spoken term detection | |
Feki et al. | Audio stream analysis for environmental sound classification | |
CN114168885A (zh) | 一种基于语音识别和nl2sql模型的智能类案检索的方法 | |
Tumminia et al. | Diarization of legal proceedings. Identifying and transcribing judicial speech from recorded court audio | |
WO2014155652A1 (ja) | 話者検索システム、プログラム | |
Kaur et al. | Speech based retrieval system for Punjabi language | |
Zhu et al. | Sensitive keyword spotting for voice alarm systems | |
EP2948943B1 (en) | False alarm reduction in speech recognition systems using contextual information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200114 |