CN113506584B - 数据处理方法以及设备 - Google Patents
数据处理方法以及设备 Download PDFInfo
- Publication number
- CN113506584B CN113506584B CN202110763906.9A CN202110763906A CN113506584B CN 113506584 B CN113506584 B CN 113506584B CN 202110763906 A CN202110763906 A CN 202110763906A CN 113506584 B CN113506584 B CN 113506584B
- Authority
- CN
- China
- Prior art keywords
- audio file
- target
- keyword
- pinyin sequence
- generate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 17
- 239000013598 vector Substances 0.000 claims abstract description 96
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000001914 filtration Methods 0.000 claims abstract description 30
- 238000001514 detection method Methods 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims description 47
- 238000013527 convolutional neural network Methods 0.000 claims description 16
- 239000012634 fragment Substances 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000000926 separation method Methods 0.000 claims description 7
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 238000010008 shearing Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000012552 review Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开一种数据处理方法以及设备,其中方法包括如下步骤:对目标音频文件进行音频过滤,生成有效音频文件;提取所述有效音频文件的声学特征向量;对所述声学特征向量进行解码识别,生成所述目标音频文件对应的目标拼音序列和所述目标拼音序列对应的置信度得分;通过关键词检索库对所述目标拼音序列进行检索,生成所述目标音频文件的检索结果,所述检索结果用于表示是否命中所述关键词检索库中的关键词;根据所述置信度得分和所述检索结果对所述待处理音频文件是否为正常音频进行分析。采用本申请,可以提高对音频文件中关键词的检测效率。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及一种数据处理方法以及设备。
背景技术
在对音频敏感关键词的检测上,目前主要是通过人工检测以及利用技术进行机器鉴别,但在现有技术中,人工检测的方式主要依靠人耳进行辨别,基于人工审核识别的方法,在互联网产品海量的音视频环境下,需要花费大量的人工成本和时间成本,效率低下,长时间听音频容易造成听觉疲劳导致误判现象。利用技术进行机器鉴别主要有两个方案,第一个是将音频进行音转文(语音识别)后再进行关键词的检索和匹配判断,判断输入音频是否包含敏感关键词内容,从而判断音频是否为恶意音频,该方法需要大量的时间和计算资源。第二个是从关键词唤醒的方案出发,一般是训练一个指定关键词的声学模型,采用该方案一般只能针对特定的关键词,可扩展性较差。
发明内容
本申请实施例提供一种数据处理方法以及设备,可以提高对音频文件中关键词的检测效率和准确率,增强可扩展性。
本申请实施例一方面提供了一种数据处理方法,可包括:
对目标音频文件进行音频过滤,生成有效音频文件;
提取有效音频文件的声学特征向量;
对声学特征向量进行解码识别,生成目标音频文件对应的目标拼音序列和目标拼音序列对应的置信度得分;
通过关键词检索库对目标拼音序列进行检索,生成目标音频文件的检索结果,检索结果用于表示是否命中关键词检索库中的关键词;
根据置信度得分和检索结果对待处理音频文件是否为正常音频进行分析。
在一种可行的实施方式中,上述数据处理方法还包括:
确定至少一个关键词,将至少一个关键词进行拼音转换生成每个关键词对应的拼音序列;
将至少一个关键词和关键词对应的拼音序列存储入关键词检索库。
在一种可行的实施方式中,对目标音频文件进行音频过滤之前,还包括:
采用第一网络模型对待处理音频文件进行检测,确定待处理音频文件的音频类型;
若待处理音频文件为纯人声音频,则将待处理文件确定为目标音频文件,并执行对目标音频文件进行音频过滤的步骤;
若待处理音频文件为人声伴奏音频,则采用第二网络模型对待处理音频文件进行伴奏分离处理,将去除伴奏后的干声音频文件作为目标音频文件,并执行对目标音频文件进行音频过滤的步骤。
在一种可行的实施方式中,对目标音频文件进行音频过滤,生成有效音频文件,包括:
通过语音端点检测技术确定目标音频文件中的非有效片段,对目标音频文件中的非有效片段进行剪切后得到至少一个有效片段;
将至少一个有效片段进行拼接,得到有效音频文件。
在一种可行的实施方式中,对声学特征向量进行解码识别,生成目标音频文件对应的目标拼音序列和目标拼音序列对应的置信度得分,包括:
将声学特征向量输入卷积神经网络,生成目标音频文件对应的第一特征向量;
将第一特征向量输入深度前馈序列记忆网络,生成目标音频文件对应的第二特征向量;
通过线性预测层对第二特征进行解码生成至少一个类别向量,每个类别向量具有置信度得分;
根据至少一个类别向量生成目标音频文件对应的至少一个拼音序列,并基于拼音序列对应的类别向量的置信度得分得到拼音序列对应的置信度得分;
采用连接性时序分类器对至少一个拼音序列进行重复字母识别,并去除重复字母生成去重拼音序列,将置信度得分最大的去重拼音序列作为目标音频文件对应的目标拼音序列。
在一种可行的实施方式中,通过关键词检索库对目标拼音序列进行检索,生成目标音频文件的检索结果,包括:
将关键词检索库中关键词对应的拼音序列与目标拼音序列进行对比;
若目标拼音序列中存在关键词对应的拼音序列,生成目标音频文件的检索结果为命中关键词;
若目标拼音序列中不存在关键词对应的拼音序列,生成目标音频文件的检索结果为未命中关键词。
在一种可行的实施方式中,根据置信度得分和检索结果对待处理音频文件是否为正常音频进行分析,包括:
若检索结果为命中关键词且置信度得分大于或等于得分阈值,将待处理音频文件确定为非正常音频;
若检索结果为命中关键词且置信度得分小于得分阈值,将待处理音频文件确定为疑似正常音频;
若检索结果为未命中关键词,将待处理音频文件确定为正常音频。
本申请实施例一方面提供了一种数据处理设备,可包括:
音频过滤单元,用于对目标音频文件进行音频过滤,生成有效音频文件;
特征提取单元,用于提取有效音频文件的声学特征向量;
拼音序列生成单元,用于对声学特征向量进行解码识别,生成目标音频文件对应的目标拼音序列和目标拼音序列对应的置信度得分;
信息检索单元,用于通过关键词检索库对目标拼音序列进行检索,生成目标音频文件的检索结果,检索结果用于表示是否命中关键词检索库中的关键词;
结果分析单元,用于根据置信度得分和检索结果对待处理音频文件是否为正常音频进行分析。
在一种可行的实施方式中,上述数据处理设备还包括:
检索库生成单元,用于确定至少一个关键词,将至少一个关键词进行拼音转换生成每个关键词对应的拼音序列;
将至少一个关键词和关键词对应的拼音序列存储入关键词检索库。
在一种可行的实施方式中,上述数据处理设备还包括:
音频检测单元,用于采用第一网络模型对待处理音频文件进行检测,确定待处理音频文件的音频类型;
若待处理音频文件为纯人声音频,则将待处理文件确定为目标音频文件,并执行对目标音频文件进行音频过滤的步骤;
若待处理音频文件为人声伴奏音频,则采用第二网络模型对待处理音频文件进行伴奏分离处理,将去除伴奏后的干声音频文件作为目标音频文件,并执行对目标音频文件进行音频过滤的步骤。
在一种可行的实施方式中,音频过滤单元具体用于:
通过语音端点检测技术确定目标音频文件中的非有效片段,对目标音频文件中的非有效片段进行剪切后得到至少一个有效片段;
将至少一个有效片段进行拼接,得到有效音频文件。
在一种可行的实施方式中,拼音序列生成单元具体用于:
将声学特征向量输入卷积神经网络,生成目标音频文件对应的第一特征向量;
将第一特征向量输入深度前馈序列记忆网络,生成目标音频文件对应的第二特征向量;
通过线性预测层对第二特征进行解码生成至少一个类别向量,每个类别向量具有置信度得分;
根据至少一个类别向量生成目标音频文件对应的至少一个拼音序列,并基于拼音序列对应的类别向量的置信度得分得到拼音序列对应的置信度得分;
采用连接性时序分类器对至少一个拼音序列进行重复字母识别,并去除重复字母生成去重拼音序列,将置信度得分最大的去重拼音序列作为目标音频文件对应的目标拼音序列。
在一种可行的实施方式中,信息检索单元具体用于:
将关键词检索库中关键词对应的拼音序列与目标拼音序列进行对比;
若目标拼音序列中存在关键词对应的拼音序列,生成目标音频文件的检索结果为命中关键词;
若目标拼音序列中不存在关键词对应的拼音序列,生成目标音频文件的检索结果为未命中关键词。
在一种可行的实施方式中,结果分析单元具体用于:
若检索结果为命中关键词且置信度得分大于或等于得分阈值,将待处理音频文件确定为非正常音频;
若检索结果为命中关键词且置信度得分小于得分阈值,将待处理音频文件确定为疑似正常音频;
若检索结果为未命中关键词,将待处理音频文件确定为正常音频。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序适于由处理器加载并执行上述的方法步骤。
本申请实施例一方面提供了一种计算机设备,包括处理器和存储器;其中,存储器存储有计算机程序,计算机程序适于由处理器加载并执行上述的方法步骤。
本申请实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的方法步骤。
在本申请实施例中,通过对目标音频文件进行音频过滤,生成有效音频文件,进一步提取有效音频文件的声学特征向量,并对声学特征向量进行解码识别,生成目标音频文件对应的目标拼音序列和目标拼音序列对应的置信度得分,进一步的,通过关键词检索库对目标拼音序列进行检索,生成目标音频文件的检索结果,检索结果用于表示是否命中关键词检索库中的关键词,最后根据置信度得分和检索结果对待处理音频文件是否为正常音频进行分析。采用上述方法,避免了人工审核效率低下以及听觉疲劳导致误判的问题,且检索对象可针对任意关键词,提高了音频文件依据关键词进行视频检测的应用范围。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据处理的系统架构图;
图2是本申请实施例提供的一种数据处理方法的流程示意图;
图3是本申请实施例提供的一种数据处理方法的流程示意图;
图4a是本申请实施例提供的一种数据处理方法的举例示意图;
图4b是本申请实施例提供的一种字母和字符去重的举例示意图;
图4c是本申请实施例提供的一种音频分析的举例示意图;
图5是本申请实施例提供的一种数据处理设备的结构示意图;
图6是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参见图1,是本发明实施例提供的一种数据处理的系统架构图。服务器10f通过交换机10e和通信总线10d与用户终端集群建立连接,用户终端集群可包括:用户终端10a、用户终端10b...用户终端10c。数据库10g中存储了关键词检索库,关键词检索库中包括多个关键词和关键词对应的拼音序列,数据库10g中还存储了用于提取声学特征向量和对声学特征向量进行解码识别的网络模型,服务器10f对目标音频文件进行音频过滤,生成有效音频文件,进一步采用数据库10g中的网络模型提取有效音频文件的声学特征向量,并对声学特征向量进行解码识别,生成目标音频文件对应的目标拼音序列和目标拼音序列对应的置信度得分,进一步的,服务器10f通过关键词检索库对目标拼音序列进行检索,生成目标音频文件的检索结果,检索结果用于表示是否命中关键词检索库中的关键词,最后服务器10f根据置信度得分和检索结果对待处理音频文件是否为正常音频进行分析。
本申请实施例涉及的用户终端包括:平板电脑、智能手机、个人电脑(PC)、笔记本电脑、掌上电脑等终端设备。
请参见图2,为本申请实施例提供了一种数据处理方法的流程示意图。如图2所示,本申请实施例的方法可以应用于数据处理设备,具体包括以下步骤S101-步骤S105。
S101,对目标音频文件进行音频过滤,生成有效音频文件。
具体的,本实施例提供的数据处理方法可以应用于数据处理设备,数据处理设备获取待处理音频文件,数据处理设备可以是图1中的服务器10f,待处理音频文件是待进行原创性检测的音频文件,音频文件的格式包括但不限于MP3、MIDI、WMA等,待处理音频文件也可以是从视频文件中提取的音频文件。进一步的,数据处理设备对待处理音频文件进行预处理生成目标音频文件,其中预处理包括对音频文件的转码、采样率、编码格式等进行统一,格式转换,音频通道的归一化处理,以及编码调制等,例如将MP3、MIDI或者WMA等格式的音频文件统一转码成WAV格式,使用pcm16bit小端对音频文件进行编码,将音频文件的采样率调整为16k,将双通道音频归一化为单通道音频。
进一步的,数据处理设备对目标音频文件进行音频过滤,生成有效音频文件。可以理解的是,音频过滤是为了减小静音片段和噪声片段对检测结果的影响,具体的,对目标音频文件进行音频端点检测,计算目标音频文件的音频信号的幅度、能量、过零率和基频等信息,进而进行有效语音的判断和检测,去除静音片段和噪声片段,截取有效的语音片段作为有效音频文件。
S102,提取有效音频文件的声学特征向量。
具体的,数据处理设备提取有效音频文件的声学特征向量,例如,通过傅里叶变换提取有效音频文件的声学特征向量。
S103,对声学特征向量进行解码识别,生成目标音频文件对应的目标拼音序列和目标拼音序列对应的置信度得分。
具体的,数据处理设备采用声学模型对声学特征向量进行解码识别,生成目标音频文件对应的目标拼音序列和目标拼音序列对应的置信度得分。声学模型可以是CNN-DFSMN-CTC模型,CNN-DFSMN-CTC模型可以由卷积神经网络(Convolutional NeuralNetworks,CNN)、深度前馈序列记忆网络(Deep Feed-forward Sequential MemoryNetwork,DFSMN)和连接性时序分类器(Connectionist Temporal Classification,CTC)组成,其中,声学模型可以串联多个CNN,DFSMN由多个DFSMN单元组成,DFSMN单元由隐藏层(或称ReLU层)、投射层和记忆模块,其中记忆模块之间通过跳转连接方式连接。对声学特征向量进行解码识别可以得到多个拼音序列以及每个拼音序列的概率,概率可以直接作为或进一步转化为置信度得分,进而将置信度得分最大的拼音序列确定为目标拼音序列。
S104,通过关键词检索库对目标拼音序列进行检索,生成目标音频文件的检索结果。
具体的,关键词检索库存储有关键词以及关键词对应的拼音序列,数据处理设备将关键词检索库中关键词的拼音序列与目标拼音序列进行对比,以检测目标拼音序列是否包含关键词的拼音序列。若目标拼音序列存在关键词对应的拼音序列,则确定目标音频文件的检索结果为命中关键词,当若目标拼音序列中不存在任何关键词对应的拼音序列,则确定目标音频文件的检索结果为未命中关键词。针对多个关键词的情况,可以设定阈值,当目标拼音序列中存在的关键词数量达到阈值时,即可确定目标音频文件的检索结果为命中关键词,需要说明的是,根据命中关键词在关键词检索库中的类别,可以确定命中的关键词类别。另外,关键词检索库中的关键词可以增加和删除。
S105,根据置信度得分和检索结果对待处理音频文件是否为正常音频进行分析。
具体的,数据处理设备根据置信度得分和检索结果对待处理音频文件是否为正常音频进行分析。当检索结果为命中关键词且置信度得分大于或等于得分阈值时,将待处理音频文件确定为非正常音频;当检索结果为命中关键词且置信度得分小于得分阈值时,将待处理音频文件确定为疑似正常音频,进一步地,可以对待处理音频文件进行复审处理,复审处理可以通过人工检测;当检索结果为未命中关键词时,将待处理音频文件确定为正常音频。需要说明的是,得分阈值可以是本领域技术人员根据检测经验预先设定的任意数值,本申请并不做具体限定。
在本申请实施例中,通过对目标音频文件进行音频过滤,生成有效音频文件,进一步提取有效音频文件的声学特征向量,并对声学特征向量进行解码识别,生成目标音频文件对应的目标拼音序列和目标拼音序列对应的置信度得分,进一步的,通过关键词检索库对目标拼音序列进行检索,生成目标音频文件的检索结果,检索结果用于表示是否命中关键词检索库中的关键词,最后根据置信度得分和检索结果对待处理音频文件是否为正常音频进行分析。采用上述方法,避免了人工审核效率低下以及听觉疲劳导致误判的问题,且检索对象可针对任意关键词,提高了音频文件依据关键词进行视频检测的应用范围。
请参见图3,为本申请实施例提供了一种数据处理方法的流程示意图。如图3所示,本申请实施例的方法可以包括以下步骤S201-步骤S207。
S201,确定至少一个关键词,将至少一个关键词进行拼音转换生成每个关键词对应的拼音序列;将至少一个关键词和每个关键词对应的拼音序列的集合确定为关键词检索库。
具体的,数据处理设备获取多个关键词,关键词一般是敏感性的词语,例如不符合网络规范的用语、是危害用户财产安全的词语等。将至少一个关键词进行拼音转换生成每个关键词对应的拼音序列,每个关键词对应一个拼音序列,将至少一个关键词和每个关键词对应的拼音序列的集合确定为关键词检索库。需要说明的是,可以对关键词检索库中的关键词进行分类,每个类别下可以对应多个关键词,在对待处理音频文件进行关键词检索后确定包含敏感词,则可以进一步确定该音频文件的敏感词类别。
S202,获取待处理音频文件,采用第一网络模型对待处理音频文件进行检测,确定待处理音频文件的音频类型。
具体的,数据处理设备获取待处理音频文件,进一步采用第一网络模型对待处理音频文件进行检测,确定待处理音频文件的音频类型。可以理解的是,音频类型包括纯伴奏音频、纯人声音频和人声伴奏音频,纯伴奏音频中只包括伴奏,纯人声音频中只包括人声,人声伴奏音频包括伴奏和人声,大部分的歌曲为人声伴奏音频。
若待处理音频文件为纯伴奏音频,则不执行步骤S203;若待处理音频文件为纯人声音频,则执行步骤S203对待处理音频文件进行预处理生成目标音频文件;若待处理音频文件为人声伴奏音频,则采用第二网络模型对待处理音频文件进行伴奏分离处理,并按照步骤S203对伴奏分离处理后的待处理音频文件进行预处理生成目标音频文件。其中第二网络模型可以具体为U-net神经网络框架,U-net神经网络框架是通过对大量的音频文件进行训练后得到的,训练完成的U-net神经网络框架可以学习到纯人声和纯伴奏的掩膜。在对音频文件进行伴奏分离处理时,U-net神经网络框架将掩膜与输入音频在时频谱上进行乘积计算,从而得到去除伴奏后的纯人声音频。
S203,对待处理音频文件进行预处理生成目标音频文件。
具体的,数据处理设备确定待处理音频文件的音频类型后,对待处理音频文件进行预处理生成目标音频文件,具体过程如下:
数据处理设备将待处理音频文件的文件格式转换为预设文件格式,预设文件格式包括但不限于MP3、MIDI、WMA等,进一步将待处理音频文件的音频通道进行归一化,具体的,将双通道音频归一化为单通道音频,进一步对待处理音频文件进行脉码编码调制,具体的,使用pcm16bit小端对音频文件进行编码,将格式转化、音频通道归一化和编码调制后的待处理音频文件确定为目标音频文件。
S204,通过语音端点检测确定目标音频文件中的非有效片段,对非有效片段进行剪切,生成至少一个有效片段;将至少一个有效片段进行拼接,生成有效音频文件,通过傅里叶变换提取有效音频文件的声学特征向量。
具体的,非有效片段包括静音片段和噪声片段,数据处理设备对音频进行音频端点检测,计算目标音频文件的音频信号的幅度、能量、过零率和基频等信息,进而确定目标音频文件中的非有效片段。进一步地,对目标音频文件中的非有效片段进行剪切,以生成至少一个有效片段。有效片段为去除非有效片段后的音频片段,将至少一个有效片段进行拼接,生成有效音频文件。需要说明的是,对有效片段的拼接可以按照音频片段的时间顺序执行。进一步地,对有效音频文件进行短时傅里叶变换处理,提取有效音频文件的声学特征向量,声学特征向量包括梅尔对数倒谱、Fbank、MFCC等一种或多种特征。
S205,对声学特征向量进行解码识别,生成目标音频文件对应的目标拼音序列和目标拼音序列对应的置信度得分。
具体的,数据处理设备采用声学模型对声学特征向量进行解码识别,生成目标音频文件对应的目标拼音序列和目标拼音序列对应的置信度得分,声学模型可以是CNN-DFSMN-CTC模型,CNN-DFSMN-CTC模型由卷积神经网络(Convolutional Neural Networks,CNN)、深度前馈序列记忆网络(Deep Feed-forward Sequential Memory Network,DFSMN)和连接性时序分类器(Connectionist Temporal Classification,CTC)组成。
请参见图4a,本申请实施例提供了一种数据处理方法的举例示意图,如图4a所示,将声学特征向量输入卷积神经网络CNN,高层次抽象特征学习后,生成目标音频文件对应的第一特征向量,第一特征向量为局部特征,上述卷积神经网络可以为多个串联的卷积神经网络。
进一步的,将第一特征向量输入DFSMN,生成目标音频文件对应的第二特征向量,DFSMN由多个DFSMN单元组成,DFSMN单元由隐藏层(或称ReLU层)、投射层和记忆模块,其中记忆模块之间通过跳转连接方式连接。对于一个DFSMN单元,其各部分的输出表达式如下:
其中,和/>表示隐藏层和投射层的输出,/>表示第n个记忆模块的输出,/>和/>分别表示第n个记忆模块的后向序列和前向序列,/>和/>的大小控制模型对历史信息和未来信息的上下相关信息的建模,/>控制模型的时延大小;wn,/>为隐藏层和投射层之间转换系数;/>分别为记忆模块中对历史和未来的时序信息进行建模的初始向量;s1,s2分别表示前向和后向滤波器的步长,步长设置用于消除相邻帧之间的冗余信息,从而加快模型的训练。
通过在两个隐藏层之间加入矩阵低秩分解的投射层,并在投射层上增加记忆模块,将记忆模块的输出作为下一个隐藏层的输入,且在记忆模块之间添加跳转连接,从而实现对音频的上下文信息进行建模,可以克服网络深度造成的梯度消失问题。
需要说明的是,DFSMN中的跳转连接可以是相邻记忆模块之间的连接,也可以是不相邻记忆模块之间的连接。跳转连接的具体实现方式可以是线性变换,也可以是非线性变换。
通过DFSMN生成第二特征向量,进一步的,通过DNN全连接层和线性预测层对第二特征向量进行解码,生成至少一个类别向量,类别向量为一个多维向量,每个类别向量的各个维度携带有置信度得分,每个类别向量的维度携带。
根据至少一个类别向量生成目标音频文件对应的至少一个拼音序列和每个拼音序列对应的置信度得分。具体的,根据至少一个类别向量生成多个拼音序列的路径和该路径对应的置信度得分,每条路径对应一个拼音序列,路径的置信度得分为拼音序列的置信度得分,路径的置信度得分为路径中各个类别向量的置信度得分通过权重系数加权得到,例如,第二特征向量解码生成3个10维的类别向量,根据上述类别向量可以生成10*10*10条路径,每条路径对应一个拼音序列和置信度得分。
进一步的,采用CTC对至少一个拼音序列进行重复字母识别,并去除重复字母生成去重拼音序列,将置信度得分最大的去重拼音序列作为目标音频文件对应的目标拼音序列。需要说明的是,CTC中引入了空白字符∈,例如,语音识别中的停顿即表示为∈,CTC的去重涉及重复字母和空白字符。请参见图4b,为本申请实施例提供了一种字母和字符去重的举例示意图,如图4b所示,未去重前的拼音序列(包含空白字符)为“hhe∈∈lll∈llo”,去重后的拼音序列(包含空白字符)为“he∈l∈lo”,最后去除空白字符的拼音序列为“hello”。
S206,通过关键词检索库对目标拼音序列进行检索,生成目标音频文件的检索结果。
具体的,关键词检索库存储有关键词以及关键词对应的拼音序列,数据处理设备将关键词检索库中关键词的拼音序列与目标拼音序列进行对比,以检测目标拼音序列是否包含关键词的拼音序列。若目标拼音序列存在关键词对应的拼音序列,则确定目标音频文件的检索结果为命中关键词,当若目标拼音序列中不存在任何关键词对应的拼音序列,则确定目标音频文件的检索结果为未命中关键词。同时,针对多个关键词的情况,可以设定阈值,当目标拼音序列中存在的关键词数量达到阈值时,即可确定目标音频文件的检索结果为命中关键词,需要说明的是,根据命中关键词在关键词检索库中的类别,可以确定命中的关键词类别。另外,关键词检索库中的关键词可以增加和删除。
S207,根据置信度得分和检索结果对待处理音频文件是否为正常音频进行分析。
具体的,数据处理设备根据置信度得分和检索结果对待处理音频文件是否为正常音频进行分析。请参见图4c,本申请实施例提供了一种音频分析的举例示意图,如图4c所示,对拼音序列进行检索生成检索结果,当检索结果为命中关键词且置信度得分大于或等于得分阈值时,将待处理音频文件确定为非正常音频,得分阈值为预先设定,当检索结果为命中关键词且置信度得分小于得分阈值时,将待处理音频文件确定为疑似正常音频,对待处理音频文件进行复审处理,复审处理可以通过人工检测;当检索结果为未命中关键词时,将待处理音频文件确定为正常音频。
在本申请实施例中,通过对目标音频文件进行音频过滤,生成有效音频文件,进一步提取有效音频文件的声学特征向量,并对声学特征向量进行解码识别,生成目标音频文件对应的目标拼音序列和目标拼音序列对应的置信度得分,进一步的,通过关键词检索库对目标拼音序列进行检索,生成目标音频文件的检索结果,检索结果用于表示是否命中关键词检索库中的关键词,最后根据置信度得分和检索结果对待处理音频文件是否为正常音频进行分析。采用上述方法,避免了人工审核效率低下以及听觉疲劳导致误判的问题,且检索对象可针对任意关键词,提高了音频文件依据关键词进行视频检测的应用范围。
请参见图5,为本申请实施例提供了一种数据处理设备的结构示意图。数据处理设备可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理设备为一个应用软件;该设备可以用于执行本申请实施例提供的方法中的相应步骤。如图5所示,本申请实施例的数据处理设备1可以包括:音频过滤单元11、特征提取单元12、拼音序列生成单元13、信息检索单元14、结果分析单元15。
音频过滤单元11,用于对目标音频文件进行音频过滤,生成有效音频文件;
特征提取单元12,用于提取有效音频文件的声学特征向量;
拼音序列生成单元13,用于对声学特征向量进行解码识别,生成目标音频文件对应的目标拼音序列和目标拼音序列对应的置信度得分;
信息检索单元14,用于通过关键词检索库对目标拼音序列进行检索,生成目标音频文件的检索结果,检索结果用于表示是否命中关键词检索库中的关键词;
结果分析单元15,用于根据置信度得分和检索结果对待处理音频文件是否为正常音频进行分析。
请参见图5,本申请实施例的数据处理设备1可以还包括:检索库生成单元16;
检索库生成单元16,用于确定至少一个关键词,将至少一个关键词进行拼音转换生成每个关键词对应的拼音序列;
将至少一个关键词和关键词对应的拼音序列存储入关键词检索库。
请参见图5,本申请实施例的数据处理设备1可以还包括:音频检测单元17;
音频检测单元17,用于采用第一网络模型对待处理音频文件进行检测,确定待处理音频文件的音频类型;
若待处理音频文件为纯人声音频,则将待处理文件确定为目标音频文件,并执行对目标音频文件进行音频过滤的步骤;
若待处理音频文件为人声伴奏音频,则采用第二网络模型对待处理音频文件进行伴奏分离处理,将去除伴奏后的干声音频文件作为目标音频文件,并执行对目标音频文件进行音频过滤的步骤。
在一种可行的实施方式中,音频过滤单元11具体用于:
通过语音端点检测技术确定目标音频文件中的非有效片段,对目标音频文件中的非有效片段进行剪切后得到至少一个有效片段;
将至少一个有效片段进行拼接,得到有效音频文件。
在一种可行的实施方式中,拼音序列生成单元13具体用于:
将声学特征向量输入卷积神经网络,生成目标音频文件对应的第一特征向量;
将第一特征向量输入深度前馈序列记忆网络,生成目标音频文件对应的第二特征向量;
通过线性预测层对第二特征进行解码生成至少一个类别向量,每个类别向量具有置信度得分;
根据至少一个类别向量生成目标音频文件对应的至少一个拼音序列,并基于拼音序列对应的类别向量的置信度得分得到拼音序列对应的置信度得分;
采用连接性时序分类器对至少一个拼音序列进行重复字母识别,并去除重复字母生成去重拼音序列,将置信度得分最大的去重拼音序列作为目标音频文件对应的目标拼音序列。
在一种可行的实施方式中,信息检索单元14具体用于:
将关键词检索库中关键词对应的拼音序列与目标拼音序列进行对比;
若目标拼音序列中存在关键词对应的拼音序列,生成目标音频文件的检索结果为命中关键词;
若目标拼音序列中不存在关键词对应的拼音序列,生成目标音频文件的检索结果为未命中关键词。
在一种可行的实施方式中,结果分析单元15具体用于:
若检索结果为命中关键词且置信度得分大于或等于得分阈值,将待处理音频文件确定为非正常音频;
若检索结果为命中关键词且置信度得分小于得分阈值,将待处理音频文件确定为疑似正常音频;
若检索结果为未命中关键词,将待处理音频文件确定为正常音频。
在本申请实施例中,通过对目标音频文件进行音频过滤,生成有效音频文件,进一步提取有效音频文件的声学特征向量,并对声学特征向量进行解码识别,生成目标音频文件对应的目标拼音序列和目标拼音序列对应的置信度得分,进一步的,通过关键词检索库对目标拼音序列进行检索,生成目标音频文件的检索结果,检索结果用于表示是否命中关键词检索库中的关键词,最后根据置信度得分和检索结果对待处理音频文件是否为正常音频进行分析。采用上述方法,避免了人工审核效率低下以及听觉疲劳导致误判的问题,且检索对象可针对任意关键词,提高了音频文件依据关键词进行视频检测的应用范围。
请参见图6,为本申请实施例提供了一种计算机设备的结构示意图。如图6所示,所述计算机设备1000可以包括:至少一个处理器1001,例如CPU,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是随机存取存储器(Random Access Memory,RAM),也可以是非易失性存储器(non-volatile memory,NVM),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图6所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据处理应用程序。
在图6所示的计算机设备1000中,网络接口1004可提供网络通讯功能,用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的数据处理应用程序,以实现上述图2-图4c任一个所对应实施例中对所述数据处理方法的描述,在此不再赘述。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图2-图4c任一个所对应实施例中对所述数据处理方法的描述,也可执行前文图5所对应实施例中对所述数据处理设备的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且所述计算机可读存储介质中存储有前文提及的数据处理设备所执行的计算机程序,且所述计算机程序包括程序指令,当所述处理器执行所述程序指令时,能够执行前文图2-图4c任一个所对应实施例中对所述数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行,分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、NVM或RAM等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (9)
1.一种数据处理方法,其特征在于,包括:
对目标音频文件进行音频过滤,生成有效音频文件;
提取所述有效音频文件的声学特征向量;
对所述声学特征向量进行解码识别,生成所述目标音频文件对应的目标拼音序列和所述目标拼音序列对应的置信度得分,包括:将所述声学特征向量输入卷积神经网络,生成目标音频文件对应的第一特征向量;将所述第一特征向量输入深度前馈序列记忆网络,生成目标音频文件对应的第二特征向量;通过线性预测层对所述第二特征向量进行解码生成至少一个类别向量,每个类别向量具有置信度得分;根据所述至少一个类别向量生成所述目标音频文件对应的至少一个拼音序列,并基于所述拼音序列对应的类别向量的置信度得分得到所述拼音序列对应的置信度得分;采用连接性时序分类器对所述至少一个拼音序列进行重复字母识别,并去除所述重复字母生成去重拼音序列,将置信度得分最大的去重拼音序列作为所述目标音频文件对应的目标拼音序列;
通过关键词检索库对所述目标拼音序列进行检索,生成所述目标音频文件的检索结果,所述检索结果用于表示是否命中所述关键词检索库中的关键词;
根据所述置信度得分和所述检索结果对所述目标音频文件是否为正常音频进行分析。
2.根据权利要求1所述的方法,其特征在于,还包括:
确定至少一个关键词,将所述至少一个关键词进行拼音转换生成每个关键词对应的拼音序列;
将所述至少一个关键词和所述关键词对应的拼音序列存储入关键词检索库。
3.根据权利要求1所述的方法,其特征在于,所述对目标音频文件进行音频过滤之前,还包括:
采用第一网络模型对待处理音频文件进行检测,确定所述待处理音频文件的音频类型;
若所述待处理音频文件为纯人声音频,则将所述待处理音频文件确定为目标音频文件,并执行对所述目标音频文件进行音频过滤的步骤;
若所述待处理音频文件为人声伴奏音频,则采用第二网络模型对所述待处理音频文件进行伴奏分离处理,将去除伴奏后的干声音频文件作为目标音频文件,并执行对所述目标音频文件进行音频过滤的步骤。
4.根据权利要求1所述的方法,其特征在于,所述对所述目标音频文件进行音频过滤,生成有效音频文件,包括:
通过语音端点检测技术确定所述目标音频文件中的非有效片段,对所述目标音频文件中的非有效片段进行剪切后得到至少一个有效片段;
将所述至少一个有效片段进行拼接,得到有效音频文件。
5.根据权利要求1所述的方法,其特征在于,所述通过关键词检索库对所述目标拼音序列进行检索,生成所述目标音频文件的检索结果,包括:
将所述关键词检索库中关键词对应的拼音序列与所述目标拼音序列进行对比;
若所述目标拼音序列中存在关键词对应的拼音序列,生成所述目标音频文件的检索结果为命中关键词;
若所述目标拼音序列中不存在关键词对应的拼音序列,生成所述目标音频文件的检索结果为未命中关键词。
6.根据权利要求1所述的方法,其特征在于,所述根据所述置信度得分和所述检索结果对所述目标音频文件是否为正常音频进行分析,包括:
若所述检索结果为命中关键词且置信度得分大于或等于得分阈值,将所述目标音频文件确定为非正常音频;
若所述检索结果为命中关键词且置信度得分小于得分阈值,将所述目标音频文件确定为疑似正常音频;
若所述检索结果为未命中关键词,将所述目标音频文件确定为正常音频。
7.一种数据处理设备,其特征在于,包括:
音频过滤单元,用于对目标音频文件进行音频过滤,生成有效音频文件;
特征提取单元,用于提取所述有效音频文件的声学特征向量;
拼音序列生成单元,用于对所述声学特征向量进行解码识别,生成所述目标音频文件对应的目标拼音序列和所述目标拼音序列对应的置信度得分,包括:将所述声学特征向量输入卷积神经网络,生成目标音频文件对应的第一特征向量;将所述第一特征向量输入深度前馈序列记忆网络,生成目标音频文件对应的第二特征向量;通过线性预测层对所述第二特征向量进行解码生成至少一个类别向量,每个类别向量具有置信度得分;根据所述至少一个类别向量生成所述目标音频文件对应的至少一个拼音序列,并基于所述拼音序列对应的类别向量的置信度得分得到所述拼音序列对应的置信度得分;采用连接性时序分类器对所述至少一个拼音序列进行重复字母识别,并去除所述重复字母生成去重拼音序列,将置信度得分最大的去重拼音序列作为所述目标音频文件对应的目标拼音序列;
信息检索单元,用于通过关键词检索库对所述目标拼音序列进行检索,生成所述目标音频文件的检索结果,所述检索结果用于表示是否命中所述关键词检索库中的关键词;
结果分析单元,用于根据所述置信度得分和所述检索结果对所述目标音频文件是否为正常音频进行分析。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序适于由处理器加载并执行权利要求1-6任意一项所述的方法。
9.一种计算机设备,其特征在于,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行权利要求1-6任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110763906.9A CN113506584B (zh) | 2021-07-06 | 2021-07-06 | 数据处理方法以及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110763906.9A CN113506584B (zh) | 2021-07-06 | 2021-07-06 | 数据处理方法以及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113506584A CN113506584A (zh) | 2021-10-15 |
CN113506584B true CN113506584B (zh) | 2024-05-14 |
Family
ID=78011742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110763906.9A Active CN113506584B (zh) | 2021-07-06 | 2021-07-06 | 数据处理方法以及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113506584B (zh) |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101021854A (zh) * | 2006-10-11 | 2007-08-22 | 鲍东山 | 基于内容的音频分析系统 |
JP2008287210A (ja) * | 2007-04-16 | 2008-11-27 | Sony Corp | 音声チャットシステム、情報処理装置、音声認識方法およびプログラム |
CN103730115A (zh) * | 2013-12-27 | 2014-04-16 | 北京捷成世纪科技股份有限公司 | 一种语音中检测关键词的方法和装置 |
CN104679729A (zh) * | 2015-02-13 | 2015-06-03 | 广州市讯飞樽鸿信息技术有限公司 | 录音留言有效性处理方法及系统 |
JP2016021044A (ja) * | 2014-06-16 | 2016-02-04 | パナソニックIpマネジメント株式会社 | 接客評価装置、接客評価システム及び接客評価方法 |
CN106847259A (zh) * | 2015-12-03 | 2017-06-13 | 中国科学院声学研究所 | 一种音频关键词模板的筛选和优化方法 |
CN107480152A (zh) * | 2016-06-08 | 2017-12-15 | 北京新岸线网络技术有限公司 | 一种音频分析及检索方法和系统 |
JP2019008771A (ja) * | 2017-06-23 | 2019-01-17 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | 情報入力方法 |
CN109949814A (zh) * | 2017-12-20 | 2019-06-28 | 北京京东尚科信息技术有限公司 | 语音识别方法、系统、计算机系统及计算机可读存储介质 |
CN110277105A (zh) * | 2019-07-05 | 2019-09-24 | 广州酷狗计算机科技有限公司 | 消除背景音频数据的方法、装置和系统 |
CN110853629A (zh) * | 2019-11-21 | 2020-02-28 | 中科智云科技有限公司 | 一种基于深度学习的语音识别数字的方法 |
CN110853648A (zh) * | 2019-10-30 | 2020-02-28 | 广州多益网络股份有限公司 | 一种不良语音检测方法、装置、电子设备及存储介质 |
CN110853669A (zh) * | 2019-11-08 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 音频识别方法、装置及设备 |
CN111128233A (zh) * | 2019-10-12 | 2020-05-08 | 中国平安财产保险股份有限公司 | 录音检测方法、装置、电子设备及存储介质 |
CN111477219A (zh) * | 2020-05-08 | 2020-07-31 | 合肥讯飞数码科技有限公司 | 关键词区分方法、装置、电子设备和可读存储介质 |
CN111611349A (zh) * | 2020-05-26 | 2020-09-01 | 深圳壹账通智能科技有限公司 | 语音查询方法、装置、计算机设备及存储介质 |
CN111933129A (zh) * | 2020-09-11 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 音频处理方法、语言模型的训练方法、装置及计算机设备 |
CN112767925A (zh) * | 2020-12-24 | 2021-05-07 | 贝壳技术有限公司 | 语音信息识别方法及装置 |
WO2021103712A1 (zh) * | 2019-11-26 | 2021-06-03 | 苏宁云计算有限公司 | 一种基于神经网络的语音关键词检测方法、装置及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104143328B (zh) * | 2013-08-15 | 2015-11-25 | 腾讯科技(深圳)有限公司 | 一种关键词检测方法和装置 |
CN106683677B (zh) * | 2015-11-06 | 2021-11-12 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
CN108615526B (zh) * | 2018-05-08 | 2020-07-07 | 腾讯科技(深圳)有限公司 | 语音信号中关键词的检测方法、装置、终端及存储介质 |
-
2021
- 2021-07-06 CN CN202110763906.9A patent/CN113506584B/zh active Active
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101021854A (zh) * | 2006-10-11 | 2007-08-22 | 鲍东山 | 基于内容的音频分析系统 |
JP2008287210A (ja) * | 2007-04-16 | 2008-11-27 | Sony Corp | 音声チャットシステム、情報処理装置、音声認識方法およびプログラム |
CN103730115A (zh) * | 2013-12-27 | 2014-04-16 | 北京捷成世纪科技股份有限公司 | 一种语音中检测关键词的方法和装置 |
JP2016021044A (ja) * | 2014-06-16 | 2016-02-04 | パナソニックIpマネジメント株式会社 | 接客評価装置、接客評価システム及び接客評価方法 |
CN104679729A (zh) * | 2015-02-13 | 2015-06-03 | 广州市讯飞樽鸿信息技术有限公司 | 录音留言有效性处理方法及系统 |
CN106847259A (zh) * | 2015-12-03 | 2017-06-13 | 中国科学院声学研究所 | 一种音频关键词模板的筛选和优化方法 |
CN107480152A (zh) * | 2016-06-08 | 2017-12-15 | 北京新岸线网络技术有限公司 | 一种音频分析及检索方法和系统 |
JP2019008771A (ja) * | 2017-06-23 | 2019-01-17 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | 情報入力方法 |
CN109949814A (zh) * | 2017-12-20 | 2019-06-28 | 北京京东尚科信息技术有限公司 | 语音识别方法、系统、计算机系统及计算机可读存储介质 |
CN110277105A (zh) * | 2019-07-05 | 2019-09-24 | 广州酷狗计算机科技有限公司 | 消除背景音频数据的方法、装置和系统 |
CN111128233A (zh) * | 2019-10-12 | 2020-05-08 | 中国平安财产保险股份有限公司 | 录音检测方法、装置、电子设备及存储介质 |
CN110853648A (zh) * | 2019-10-30 | 2020-02-28 | 广州多益网络股份有限公司 | 一种不良语音检测方法、装置、电子设备及存储介质 |
CN110853669A (zh) * | 2019-11-08 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 音频识别方法、装置及设备 |
CN110853629A (zh) * | 2019-11-21 | 2020-02-28 | 中科智云科技有限公司 | 一种基于深度学习的语音识别数字的方法 |
WO2021103712A1 (zh) * | 2019-11-26 | 2021-06-03 | 苏宁云计算有限公司 | 一种基于神经网络的语音关键词检测方法、装置及系统 |
CN111477219A (zh) * | 2020-05-08 | 2020-07-31 | 合肥讯飞数码科技有限公司 | 关键词区分方法、装置、电子设备和可读存储介质 |
CN111611349A (zh) * | 2020-05-26 | 2020-09-01 | 深圳壹账通智能科技有限公司 | 语音查询方法、装置、计算机设备及存储介质 |
CN111933129A (zh) * | 2020-09-11 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 音频处理方法、语言模型的训练方法、装置及计算机设备 |
CN112767925A (zh) * | 2020-12-24 | 2021-05-07 | 贝壳技术有限公司 | 语音信息识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113506584A (zh) | 2021-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111933129B (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
KR102315732B1 (ko) | 음성 인식 방법, 디바이스, 장치, 및 저장 매체 | |
US20240028837A1 (en) | Device and method for machine reading comprehension question and answer | |
US10930301B1 (en) | Sequence models for audio scene recognition | |
CN112735383A (zh) | 语音信号的处理方法、装置、设备及存储介质 | |
Langari et al. | Efficient speech emotion recognition using modified feature extraction | |
KR20170063037A (ko) | 음성 인식 장치 및 방법 | |
US20100057452A1 (en) | Speech interfaces | |
US8670983B2 (en) | Speech signal similarity | |
Rawat et al. | Robust audio-codebooks for large-scale event detection in consumer videos. | |
Wallace et al. | Optimising figure of merit for phonetic spoken term detection | |
CN115148211A (zh) | 音频敏感内容检测方法、计算机设备和计算机程序产品 | |
Birla | A robust unsupervised pattern discovery and clustering of speech signals | |
US12020697B2 (en) | Systems and methods for fast filtering of audio keyword search | |
CN113420178A (zh) | 一种数据处理方法以及设备 | |
CN112037772B (zh) | 基于多模态的响应义务检测方法、系统及装置 | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
CN113506584B (zh) | 数据处理方法以及设备 | |
CN116541551A (zh) | 音乐分类方法、音乐分类装置、电子设备及存储介质 | |
Hajihashemi et al. | Novel time-frequency based scheme for detecting sound events from sound background in audio segments | |
Chakroun et al. | A hybrid system based on GMM-SVM for speaker identification | |
CN115132170A (zh) | 语种分类方法、装置及计算机可读存储介质 | |
CN111506764B (zh) | 音频数据筛选方法、计算机设备和存储介质 | |
CN114064899A (zh) | 文本检测方法、装置、电子设备及存储介质 | |
CN116529812A (zh) | 用于针对由自动语音识别系统处理的语音命令检测音频对抗性攻击的方法、对应的设备、计算机程序产品和计算机可读载体介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |