CN110689906A - 一种基于语音处理技术的执法检测方法及系统 - Google Patents

一种基于语音处理技术的执法检测方法及系统 Download PDF

Info

Publication number
CN110689906A
CN110689906A CN201910981151.2A CN201910981151A CN110689906A CN 110689906 A CN110689906 A CN 110689906A CN 201910981151 A CN201910981151 A CN 201910981151A CN 110689906 A CN110689906 A CN 110689906A
Authority
CN
China
Prior art keywords
voice
law enforcement
file
processing technology
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910981151.2A
Other languages
English (en)
Inventor
李参宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Net Into Polytron Technologies Inc
Original Assignee
Jiangsu Net Into Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Net Into Polytron Technologies Inc filed Critical Jiangsu Net Into Polytron Technologies Inc
Priority to CN201910981151.2A priority Critical patent/CN110689906A/zh
Publication of CN110689906A publication Critical patent/CN110689906A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N5/9201Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving the multiplexing of an additional signal and the video signal
    • H04N5/9202Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving the multiplexing of an additional signal and the video signal the additional signal being a sound signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提出一种基于语音处理技术的执法检测方法,用于识别执法记录仪录制的视频文件,所述方法包括:获取执法记录仪录制的视频文件中的音频文件;检测所述音频文件中是否有人在说话,提取所述音频文件中有人说话的语音片段;对提取的所述语音片段进行分段分析,使得每一个语音片段只包含一个说话人;提取语音片段中说话人的编码特征,利用谱聚类方法进行说话人数估计和聚类,使得同一说话人的语音片段聚类到一起,得到几个类聚而成的语音文件;识别每一个聚类而成的语音文件中属于执法人员的语音文件,便于协助开展文明执法的督导工作。

Description

一种基于语音处理技术的执法检测方法及系统
技术领域
本发明涉及执法设备领域,具体涉及一种基于语音处理技术的执法检测方法及系统。
背景技术
文明执法是对警察以及城管等公安系统的人员出警开展现场执法时的要求,是维护和谐社会的重要一环。出警人员需要按照规定佩戴执法记录仪,记录整个过程的音视频信号。出警归来后,该音视频信息如果通过人工检查,则费时费力,而且传统的人工形式的声音回放检查覆盖面小,并且评价结果不可避免地具有高度的主观性和不可重复性。因此,需要发明一款自动化的对执法记录仪采集语音的文明执法检测方法及系统。
中国专利201510409897.8揭示了一种语音识别执法记录仪及其识别方法,该专利中语音识别模块是识别语音信号对应的指令类别,并输出对执法记录仪相应的操作指令,而非出警人员的说话内容,且不含语种识别和声纹识别模块。
中国专利201720380624.X揭示了一种支持语音识别分类标注的智能执法记录仪,该专利中语音识别模块仅能识别0-9的数字串,是为了文件名存档使用,不能识别出警人员的自然语音,且不含语种识别和声纹识别模块。
中国专利201710957271.X揭示了一种智能执法记录仪,该专利使用语音识别芯片去识别警员的语音指令,以及警员的身份,不包含在服务器或计算机上对出警人员的自然语音识别,且不含语种方言识别模块,且其声纹识别是为了识别该人员是否为出警人,是用于身份验证。
因此,现有技术并不能识别处境人员是否是文明执法,即现有技术并为揭示说了不文明用语的人是否为出警人员,或者识别出警人员是否有说普通话。
发明内容
本发明所要解决的技术问题是提供一种文明执法检测方法和系统,既可以识别说了不文明用语的人是否为出警人员,或者识别出警人员是否有说普通话。为了解决上述问题,本发明提供了一种基于语音处理技术的执法检测方法,所述方法包括:获取执法记录仪录制的视频文件中的音频文件;检测所述音频文件中是否有人在说话,提取所述音频文件中有人说话的语音片段;对提取的所述语音片段进行分段分析,使得每一个语音片段只包含一个说话人;提取语音片段中说话人的编码特征,利用谱聚类方法进行说话人数估计和聚类,使得同一说话人的语音片段聚类到一起,得到几个类聚而成的语音文件;识别每一个聚类而成的语音文件中属于执法人员的语音文件。
优选的,所述检测所述音频文件中是否有人在说话,提取所述音频文件中有人说话的语音片段的步骤包括:利用语音端点检测模块检测每一时刻是否有人在说话,通过端点检测模块输出若干语音片段,提取所述音频文件中有人说话的语音片段。
优选的,所述识别每一个聚类而成的语音文件中属于执法人员的语音文件的步骤包括:利用声纹识别模块,识别每一个聚类而成的语音文件,找出与执法人员的声纹相匹配的语音文件。
优选的,所述方法还包括:识别属于执法人员的语音文件中的语音是否为普通话。
优选的,所述方法还包括:通过关键词检索判断属于执法人员的语音文件中的语音是否有不文明用语。
优选的,所述方法还包括:通过移动设备查看识别结果,并对所述结果进行纵向或横向比较。
优选的,所述方法还包括:当发生突发情况时自动发送报警信息。
本发明还提供一种基于音频语音处理技术的执法检测系统,所述系统包括:音频获取模块,用于获取执法记录仪录制的视频文件中的音频文件;语音检测模块,用于检测所述音频文件中是否有人在说话,提取所述音频文件中有人说话的语音片段;分段分析模块,对提取的所述语音片段进行分段分析,使得每一语音片段只包含一个说话人;聚类模块,提取语音片段中说话人的编码特征,利用谱聚类方法进行说话人数估计和聚类,使得同一说话人的语音片段聚类到一起,得到几个类聚而成的语音文件;识别模块,用于识别每一个聚类而成的语音文件中属于执法人员的语音文件。
优选的,所述识别模块为声纹识别模块。
优选的,所述语音检测模块为语音端点检测模块。
相对于现有技术中的方案,本发明的优点:本发明采用了语音端点检测模块,用于检测每一时刻是否有人在说话,提取音频文件中有人说话的片段,并通过聚类得到同一个说话人的语音片段,同时,本发明的识别模块还能识别出说话人是否为执法人员,并识别出执法人员是否文明执法,便于协助开展文明执法的督导工作。
附图说明
下面结合附图及实施例对本发明作进一步描述:
图1所示为本发明其中一实施例的一种基于音频语音处理技术的执法检测方法的流程示意图。
图2所示为本发明另一实施例的一种基于音频语音处理技术的执法检测方法的流程示意图。
图3所示为本发明语音查询项检索系统的结构示意图。
图4所示为本发明一种基于音频语音处理技术的执法检测系统的结构示意图。
具体实施方式
以下结合具体实施例对上述方案做进一步说明。应理解,这些实施例是用于说明本发明而不限于限制本发明的范围。实施例中采用的实施条件可以如具体厂家的条件做进一步调整,未注明的实施条件通常为常规实验中的条件。
请参考图1所示,本发明中提供一种基于语音处理技术的执法检测方法,所述方法包括:
步骤S1,获取执法记录仪录制的视频文件中的音频文件。具体的,导出执法记录仪录制的视频文件中的音频文件,并将所述音频文件存放于计算机或服务器上。
步骤S2,提取音频文件中有人说话的语音片段。在本发明的其中一实施例中,利用语音端点检测模块检测音频文件的每一时刻是否有人在说话,通过端点检测模块输出若干语音片段,并提取所述音频文件中有人说话的语音片段,同时删除静音及背景噪音部分,以防止背景噪音的干扰。
步骤S3,对提取的语音片段进行分段分析。本发明的其中一实施例中对步骤S2中端点检测模块输出的若干个语音片段,进行说话人分段分析,具体的,主要通过寻找说话人转折点,并把每个有可能是多人说话的片段切分成多个小片段,使得每一个语音片段只包含一个说话人。
步骤S4,利用谱聚类方法得到几个类聚而成的语音文件。具体的,对每一个只包含一个说话人的小语音片段,提取说话人编码特征,然后利用谱聚类方法进行总说话人个数估计和聚类,使得同一个说话人的片段聚类到一起,得到几个聚类而成的语音文件,每一个文件仅包含一位说话人。
提取说话人的小语音片段,使用基于神经网络的语音端点检测技术,神经网络结构如下表:
Figure RE-GDA0002260165560000051
表1
当在网络中输入为39×帧数的MFCC语谱图时,输出为1×帧数的 01矩阵,静音为1,非静音为0。网络前5层均为卷积层,后三层为全链接层,损失函数选择交叉熵损失函数。
在本发明的其中一实施例中,当提取到每个说话人的语音片段后使用神经网络的声纹识别系统得到说话人的向量(Speaker embedding)。
具体的,由于音频转换为64维logmel-filterbank能量,帧长度为 25ms,在最多3秒的滑动窗口内进行均值归一化。帧级基于神经网络的语音边缘检测(VAD)选择对应于语音帧的特征。为了获得更高层次的抽象表示,本发明采用了如下表2所示的一个深度卷积神经网络 (CNN)。
Figure RE-GDA0002260165560000062
表2
其次是前端深层CNN,本发明采用最简单的平均汇集层(average poolinglayer),用于提取话语级别的平均统计数据。因此,给定形状为64×L的输入数据序列,其中L表示可变长度数据帧,本发明最终得到128维话语级别表示。
本发明的其中一实施例中,对深度卷积神经网络模型的训练采用 128的小批量训练,使用典型的随机梯度下降,动量为0.9,重量衰减为1e-4。学习率设定为0.1,0.01,0.001,并在训练失败时切换。对于每个训练步骤,随机生成[300,800]间隔内的整数L,并且将小批量中的每个数据裁剪或扩展到L帧。模型训练完成后,在倒数第二层神经网络后提取128维Speaker embedding。由于相同说话人的Speaker embedding距离相近,因此使用k-means聚类方法进行聚类,得到同一个人的一些语音片段。
步骤S5,识别每一个聚类而成的语音文件中属于执法人员的语音文件。利用声纹识别模块,识别每一个聚类而成的语音文件,找出与执法人员的声纹相匹配的语音文件。利用声纹识别模块,识别每一个聚类而成的语音文件是否为出警人员所说,找出与出警人员声纹相匹配的经过分段聚类模块得到的聚合而成语音文件。
本发明的一种基于语音处理技术的执法检测方法,该执法检测方法采用语音端点检测模块,检测每一时刻是否有人在说话,提取音频文件中有人说话的片段,并通过聚类得到同一说话人的语音片段,本发明通过识别模块识别出说话人是否为执法人员,便于执法人员文明执法检测。
在本发明的其中一实施例中,本发明的检测方法还能检测执法人员是否用普通话以及是否文明执法,请参考图2所示,本发明的检测方法还包括:
步骤S6,识别属于执法人员的语音文件中的语音是否为普通话。本发明还附加了语种方言识别模块用来判别是否说普通话,因为,出警人员被要求要使用普通话执法,且如果不是说普通话,则语音识别引擎的错误率大幅度提高,系统性能下降。另外,执法记录仪语音包含大量非出警人员的语音,需要加以区分,本发明只关注于检测出警人员的文明执法,所以,本发明加入了声纹识别的模块,用以识别是否为出警人员本人。
步骤S7,通过关键词检索判断属于执法人员的语音文件中的语音是否有不文明用语。关键词为各类脏话及其他自定义的不文明用语。
请参考图3所示为本发明语音查询项检索系统,其中,关键词检索系统包括两个部分:一个大型语音识别系统模块解码检索集合并且产生相应的网格(Lattice),一个关键词模块生成网格索引并从索引中查找关键词。
本发明的基础大型语音识别系统是一个隐马尔科夫模型hmm+延神经网络tdnn的系统,使用标准的高纬度的梅尔频率倒谱系数 (MFCC)分析器抽取40维的语音特征,然后用一个典型的最大似然估计进行语音训练,以一个平滑的上下文无关的音素HMM做初始值开始,以说话人自适应(SAT)的状态集群三音素hmm-混合高斯模型 gmm做为输出结束。最后,所有的训练语音使用hmm-gmm系统进行解码对齐,然后对对齐的结果进行tdnn训练得到声学模型。所有这些系统都是对相同的检索集合进行解码并且生成网格,随后送到关键词检测模块进行索引和检索。
本发明在检索结果上而不是在网格上将这些系统组织起来。检索集语句中的网格都被从单一加权有限状态转换成一个单广义因数变送器结构,将每个词的开始时间,结束时间和网格后验概率这三维数据存储起来。输入一个词或短语,即可创建该词或短语的简单有限状态机,可以得到这个关键词/短语并且将其与因数变送器做合并运算得到关键词/短语在检索集合中所有出现过的地方,和一个语句的ID号,开始时间,结束时间,以及每个地方网格的后验概率。所有检索出来的结果以他们的后验概率进行排序,对每个实例判断是或否。
在本发明的其中一实施例中,所述检测方法还包括通过移动设备查看方言识别结果及关键词检索结果。本发明用户可通过网页客户端或者移动设备APP来查看语种、方言识别结果及关键词检索分析的结果,进行横向及纵向的比较,辅助开展文明执法的督导工作。在本发明的另一优选实施例中,系统还包括报警模块,当系统在有突发状况的情况下,报警模块自动发送短信和邮件向工作人员进行预警,辅助开展文明执法的督导工作。
请参考图4所示,本发明还提供一种基于音频语音处理技术的执法检测系统,所述系统包括音频获取模块,音频检测模块,分段分析模块,聚类模块和识别模块,其中,音频获取模块,用于获取执法记录仪录制的视频文件中的音频文件;语音检测模块,用于检测所述音频文件中是否有人在说话,提取所述音频文件中有人说话的语音片段;分段分析模块,对提取的所述语音片段进行分段分析,使得每一语音片段只包含一个说话人;聚类模块,提取语音片段中说话人的编码特征,利用谱聚类方法进行说话人数估计和聚类,使得同一说话人的语音片段聚类到一起,得到几个类聚而成的语音文件;识别模块,用于识别每一个聚类而成的语音文件中属于执法人员的语音文件。在本发明的其中一实施例中,所述识别模块为声纹识别模块,语音检测模块为语音端点检测模块。
在本发明的另一实施例还包括移动设备,用于查看分析后的指标,并对所述指标进行纵向或横向比较。用户可通过网页客户端或者移动设备APP来查看各种分析的结果,进行横向及纵向的比较,并将比较结果通过网页客户端或者移动设备APP进行显示,方便用户进行选择。
本发明的另一实施例中,还包括报警模块,用于当发生突发情况时自动发送报警信息。系统也将在有突发状况或潜在事故的情况下,自动发送短信和邮件进行预警,辅助开展文明执法的督导工作。
本发明基于音频语音处理技术的执法检测系统采用了语音端点检测模块检测每一时刻是否有人在说话,通过分段分析模块对语音进行分析,提取音频文件中有人说话的片段,通过聚类得到同一个说话人的语音片段,同时,本发明的识别模块还能识别出说话人是否为执法人员,并识别出执法人员是否文明执法,便于协助开展文明执法的督导工作。
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人是能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡如本发明精神实质所做的等效变换或修饰,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于语音处理技术的执法检测方法,用于识别执法记录仪录制的视频文件,其特征在于,所述方法包括:
获取执法记录仪录制的视频文件中的音频文件;
检测所述音频文件中是否有人在说话,提取所述音频文件中有人说话的语音片段;
对提取的所述语音片段进行分段分析,使得每一个语音片段只包含一个说话人;
提取语音片段中说话人的编码特征,利用谱聚类方法进行说话人数估计和聚类,使得同一说话人的语音片段聚类到一起,得到几个类聚而成的语音文件;
识别每一个聚类而成的语音文件中属于执法人员的语音文件。
2.根据权利要求1所述的基于语音处理技术的执法检测方法,其特征在于,所述检测所述音频文件中是否有人在说话,提取所述音频文件中有人说话的语音片段的步骤包括:
利用语音端点检测模块检测每一时刻是否有人在说话,通过端点检测模块输出若干语音片段,提取所述音频文件中有人说话的语音片段。
3.根据权利要求1所述的基于语音处理技术的执法检测方法,其特征在于,所述识别每一个聚类而成的语音文件中属于执法人员的语音文件的步骤包括:
利用声纹识别模块,识别每一个聚类而成的语音文件,找出与执法人员的声纹相匹配的语音文件。
4.根据权利要求1所述的基于语音处理技术的执法检测方法,其特征在于,所述方法还包括:
识别属于执法人员的语音文件中的语音是否为普通话。
5.根据权利要求4所述的基于语音处理技术的执法检测方法,其特征在于,所述方法还包括:
通过关键词检索判断属于执法人员的语音文件中的语音是否有不文明用语。
6.根据权利要求1所述的基于语音处理技术的执法检测方法,其特征在于,所述方法还包括:
通过移动设备查看识别结果,并对所述结果进行纵向或横向比较。
7.根据权利要求1所述的基于语音处理技术的执法检测方法,其特征在于,所述方法还包括:
当发生突发情况时自动发送报警信息。
8.一种基于语音处理技术的执法检测系统,其特征在于,所述系统包括:
音频获取模块,用于获取执法记录仪录制的视频文件中的音频文件;
语音检测模块,用于检测所述音频文件中是否有人在说话,提取所述音频文件中有人说话的语音片段;
分段分析模块,对提取的所述语音片段进行分段分析,使得每一语音片段只包含一个说话人;
聚类模块,提取语音片段中说话人的编码特征,利用谱聚类方法进行说话人数估计和聚类,使得同一说话人的语音片段聚类到一起,得到几个类聚而成的语音文件;
识别模块,用于识别每一个聚类而成的语音文件中属于执法人员的语音文件。
9.根据权利要求8所述的基于语音处理技术的执法检测系统,其特征在于,所述识别模块为声纹识别模块。
10.根据权利要求8所述的基于语音处理技术的执法检测系统,其特征在于,所述语音检测模块为语音端点检测模块。
CN201910981151.2A 2019-11-05 2019-11-05 一种基于语音处理技术的执法检测方法及系统 Pending CN110689906A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910981151.2A CN110689906A (zh) 2019-11-05 2019-11-05 一种基于语音处理技术的执法检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910981151.2A CN110689906A (zh) 2019-11-05 2019-11-05 一种基于语音处理技术的执法检测方法及系统

Publications (1)

Publication Number Publication Date
CN110689906A true CN110689906A (zh) 2020-01-14

Family

ID=69112926

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910981151.2A Pending CN110689906A (zh) 2019-11-05 2019-11-05 一种基于语音处理技术的执法检测方法及系统

Country Status (1)

Country Link
CN (1) CN110689906A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112420069A (zh) * 2020-11-18 2021-02-26 北京云从科技有限公司 一种语音处理方法、装置、机器可读介质及设备
CN112735385A (zh) * 2020-12-30 2021-04-30 科大讯飞股份有限公司 语音端点检测方法、装置、计算机设备及存储介质
CN113077817A (zh) * 2021-03-31 2021-07-06 重庆风云际会智慧科技有限公司 单兵执法行为智能分析设备
CN114021910A (zh) * 2021-10-21 2022-02-08 江苏无线飞翔科技有限公司 一种城市停车收费员一体化收费监管方法和系统
CN114463934A (zh) * 2022-01-27 2022-05-10 深圳市蓝鲸智联科技有限公司 一种汽车锁车检测报警系统
CN115019804A (zh) * 2022-08-03 2022-09-06 北京惠朗时代科技有限公司 一种多员工密集签到的多重校验式声纹识别方法及系统
CN118173104A (zh) * 2024-05-15 2024-06-11 百鸟数据科技(北京)有限责任公司 基于声源定位的分布式场景空间声场再现方法及装置
CN118173104B (zh) * 2024-05-15 2024-07-05 百鸟数据科技(北京)有限责任公司 基于声源定位的分布式场景空间声场再现方法及装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530432A (zh) * 2013-09-24 2014-01-22 华南理工大学 一种具有语音提取功能的会议记录器及语音提取方法
US20140220526A1 (en) * 2013-02-07 2014-08-07 Verizon Patent And Licensing Inc. Customer sentiment analysis using recorded conversation
CN104821934A (zh) * 2015-03-20 2015-08-05 百度在线网络技术(北京)有限公司 基于人工智能的声纹登录方法和装置
GB201703310D0 (en) * 2017-03-01 2017-04-12 Toshiba Kk A feature extraction system, an automatic speech recognition system, a feature extraction method, an automatic speech recognition method and a method of train
CN106803423A (zh) * 2016-12-27 2017-06-06 智车优行科技(北京)有限公司 基于用户情绪状态的人机交互语音控制方法、装置及车辆
CN106960290A (zh) * 2017-04-11 2017-07-18 西华大学 一种汽车4s店团队销售服务质量评价系统及评价方法
GB201814121D0 (en) * 2018-08-30 2018-10-17 Liopa Ltd Liopa
CN108831456A (zh) * 2018-05-25 2018-11-16 深圳警翼智能科技股份有限公司 一种通过语音识别对视频标记的方法、装置及系统
CN109147774A (zh) * 2018-09-19 2019-01-04 华南理工大学 一种改进的延时神经网络声学模型
CN109327632A (zh) * 2018-11-23 2019-02-12 深圳前海微众银行股份有限公司 客服录音的智能质检系统、方法及计算机可读存储介质
CN109446524A (zh) * 2018-10-25 2019-03-08 第四范式(北京)技术有限公司 一种语音质检方法及装置
CN110189746A (zh) * 2019-03-20 2019-08-30 成都天奥信息科技有限公司 一种应用于地空通信的话音识别方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140220526A1 (en) * 2013-02-07 2014-08-07 Verizon Patent And Licensing Inc. Customer sentiment analysis using recorded conversation
CN103530432A (zh) * 2013-09-24 2014-01-22 华南理工大学 一种具有语音提取功能的会议记录器及语音提取方法
CN104821934A (zh) * 2015-03-20 2015-08-05 百度在线网络技术(北京)有限公司 基于人工智能的声纹登录方法和装置
CN106803423A (zh) * 2016-12-27 2017-06-06 智车优行科技(北京)有限公司 基于用户情绪状态的人机交互语音控制方法、装置及车辆
GB201703310D0 (en) * 2017-03-01 2017-04-12 Toshiba Kk A feature extraction system, an automatic speech recognition system, a feature extraction method, an automatic speech recognition method and a method of train
CN106960290A (zh) * 2017-04-11 2017-07-18 西华大学 一种汽车4s店团队销售服务质量评价系统及评价方法
CN108831456A (zh) * 2018-05-25 2018-11-16 深圳警翼智能科技股份有限公司 一种通过语音识别对视频标记的方法、装置及系统
GB201814121D0 (en) * 2018-08-30 2018-10-17 Liopa Ltd Liopa
CN109147774A (zh) * 2018-09-19 2019-01-04 华南理工大学 一种改进的延时神经网络声学模型
CN109446524A (zh) * 2018-10-25 2019-03-08 第四范式(北京)技术有限公司 一种语音质检方法及装置
CN109327632A (zh) * 2018-11-23 2019-02-12 深圳前海微众银行股份有限公司 客服录音的智能质检系统、方法及计算机可读存储介质
CN110189746A (zh) * 2019-03-20 2019-08-30 成都天奥信息科技有限公司 一种应用于地空通信的话音识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
林可希: "智能语音技术在热线服务质检中的应用探讨", 《无线互联科技》 *
王勇和等: "基于TDNN-FSMN的蒙古语语音识别技术研究", 《中文信息学报》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112420069A (zh) * 2020-11-18 2021-02-26 北京云从科技有限公司 一种语音处理方法、装置、机器可读介质及设备
CN112735385A (zh) * 2020-12-30 2021-04-30 科大讯飞股份有限公司 语音端点检测方法、装置、计算机设备及存储介质
CN112735385B (zh) * 2020-12-30 2024-05-31 中国科学技术大学 语音端点检测方法、装置、计算机设备及存储介质
CN113077817A (zh) * 2021-03-31 2021-07-06 重庆风云际会智慧科技有限公司 单兵执法行为智能分析设备
CN114021910A (zh) * 2021-10-21 2022-02-08 江苏无线飞翔科技有限公司 一种城市停车收费员一体化收费监管方法和系统
CN114463934A (zh) * 2022-01-27 2022-05-10 深圳市蓝鲸智联科技有限公司 一种汽车锁车检测报警系统
CN115019804A (zh) * 2022-08-03 2022-09-06 北京惠朗时代科技有限公司 一种多员工密集签到的多重校验式声纹识别方法及系统
CN118173104A (zh) * 2024-05-15 2024-06-11 百鸟数据科技(北京)有限责任公司 基于声源定位的分布式场景空间声场再现方法及装置
CN118173104B (zh) * 2024-05-15 2024-07-05 百鸟数据科技(北京)有限责任公司 基于声源定位的分布式场景空间声场再现方法及装置

Similar Documents

Publication Publication Date Title
CN110689906A (zh) 一种基于语音处理技术的执法检测方法及系统
US6434520B1 (en) System and method for indexing and querying audio archives
US6618702B1 (en) Method of and device for phone-based speaker recognition
EP0708960B1 (en) Topic discriminator
CN103179122B (zh) 一种基于语音语义内容分析的防电信电话诈骗方法和系统
EP1800293B1 (en) Spoken language identification system and methods for training and operating same
US20140207457A1 (en) False alarm reduction in speech recognition systems using contextual information
US20040204939A1 (en) Systems and methods for speaker change detection
CN112750465A (zh) 一种云端语言能力评测系统及可穿戴录音终端
JP2000348064A (ja) 内容情報と話者情報を使用して音声情報を検索するための方法および装置
CN112735383A (zh) 语音信号的处理方法、装置、设备及存储介质
CN102915729B (zh) 语音关键词检出系统、创建用于其的词典的系统和方法
US20130289987A1 (en) Negative Example (Anti-Word) Based Performance Improvement For Speech Recognition
CN113129895B (zh) 一种语音检测处理系统
Lecouteux et al. Combined low level and high level features for out-of-vocabulary word detection
CN114373453B (zh) 一种基于运动轨迹和区分性信息的语音关键词检测方法
Ramabhadran et al. Fast decoding for open vocabulary spoken term detection
Norouzian et al. An efficient approach for two-stage open vocabulary spoken term detection
Feki et al. Audio stream analysis for environmental sound classification
CN114168885A (zh) 一种基于语音识别和nl2sql模型的智能类案检索的方法
Tumminia et al. Diarization of legal proceedings. Identifying and transcribing judicial speech from recorded court audio
WO2014155652A1 (ja) 話者検索システム、プログラム
Kaur et al. Speech based retrieval system for Punjabi language
Zhu et al. Sensitive keyword spotting for voice alarm systems
EP2948943B1 (en) False alarm reduction in speech recognition systems using contextual information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200114