CN109859745A - 一种音频处理方法、设备及计算机可读介质 - Google Patents

一种音频处理方法、设备及计算机可读介质 Download PDF

Info

Publication number
CN109859745A
CN109859745A CN201910236110.0A CN201910236110A CN109859745A CN 109859745 A CN109859745 A CN 109859745A CN 201910236110 A CN201910236110 A CN 201910236110A CN 109859745 A CN109859745 A CN 109859745A
Authority
CN
China
Prior art keywords
audio
audio signal
signal
detection
carried out
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910236110.0A
Other languages
English (en)
Inventor
张晴晴
刘天宇
杨金富
罗磊
马光谦
汪洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING WISDOM TECHNOLOGY Co Ltd
Original Assignee
BEIJING WISDOM TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING WISDOM TECHNOLOGY Co Ltd filed Critical BEIJING WISDOM TECHNOLOGY Co Ltd
Priority to CN201910236110.0A priority Critical patent/CN109859745A/zh
Publication of CN109859745A publication Critical patent/CN109859745A/zh
Priority to CN201910693845.6A priority patent/CN110264999B/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种音频处理方法、设备及计算机可读介质,所述方法包括:接收待处理的音频文件;对所述音频文件中的音频信号进行完整性检测;若所述音频信号完整,对所述音频信号进行音频质量检测;若所述音频信号的音频质量满足预设条件,则确定所述音频文件为待识别音频文件。本申请实施例可以从音频信号层面确定音频完整性及音频质量,进而筛选出音频完整且音频质量满足预设条件的音频文件作为待识别音频文件,减少待识别音频文件的数据量,提高效率、降低服务器资源消耗。

Description

一种音频处理方法、设备及计算机可读介质
技术领域
本申请涉及语音识别技术领域,尤其涉及一种音频处理方法、设备及计算机可读介质。
背景技术
目前,目前语音识别技术所遇到的挑战:在低信噪比、有混响等真实条件下的识别性能;多人会话中的声源分离和识别;对方言或有口音语音的识别等。
在改进算法的同时,更需要大量的数据来支撑研究工作、提高模型性能。在语音采集中,如何筛选出符合要求的合格语音会极大的影响到采集系统的效率和成本。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种音频处理方法、设备及计算机可读介质。
第一方面,本申请提供了一种音频处理方法,包括:
接收待处理的音频文件;
对所述音频文件中的音频信号进行完整性检测;
若所述音频信号完整,对所述音频信号进行音频质量检测;
若所述音频信号的音频质量满足预设条件,则确定所述音频文件为待识别音频文件。
可选地,所述对所述音频文件中的音频信号进行完整性检测,包括:
对所述音频信号进行切音检测;
若所述音频信号不为切音,则对所述音频信号进行丢帧检测;
若所述音频信号未丢帧,则确定所述音频信号完整。
可选地,所述对所述音频信号进行切音检测,包括:
对所述音频信号进行端点检测;
若所述音频信号的起始端点或截止端点与所述音频信号中语音部分的时间差小于预设切音阈值,确定所述音频信号为切音;否则,不为切音。
可选地,所述对所述音频信号进行丢帧检测,包括:
对所述音频信号中的多个采样点进行二进制编码转换,得到音频编码;
若所述音频编码中多个编码位的编码值为0且编码位的数量超过1个语音帧的长度,则确定所述音频信号丢帧。
可选地,所述对所述音频信号进行音频质量检测,包括:
对所述音频信号进行截幅检测;
若所述音频信号未截幅,则对所述音频信号进行信噪比检测;
若所述音频信号的信噪比超过预设合格阈值,则确定所述音频信号的音频质量满足预设条件。
可选地,所述对所述音频信号进行截幅检测,包括:
计算所述音频信号中幅值最大的N个采样点的均方差,所述N大于或者等于2;
若所述均方差大于或者等于预设截幅阈值,则确定所述音频信号未截幅。
可选地,所述对所述音频信号进行信噪比检测,包括:
计算所述音频信号中语音部分的语音功率和噪音部分的噪音功率;
基于所述语音功率和所述噪音功率计算所述音频信号的信噪比。
可选地,所述方法还包括:
对所述待识别音频文件进行语音识别,得到识别文本及置信度;
计算所述识别文本和所述音频信号中录音文本的相似度;
基于所述相似度和所述置信度计算所述音频文件的分数;
将分数大于预设合格分数阈值的音频文件存入数据库。
第二方面,本申请提供了一种音频处理设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法的步骤。
第三方面,本申请提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行所述第一方面所述的方法。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本申请实施例可以从音频信号层面确定音频完整性及音频质量,进而筛选出音频完整且音频质量满足预设条件的音频文件作为待识别音频文件(也即将存在切音、丢帧、截幅、信噪比过低等问题的音频筛除掉),减少待识别音频文件的数据量,提高效率、降低服务器资源消耗。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种音频处理方法的流程图;
图2为本申请实施例提供的步骤S102的流程图;
图3为本申请实施例提供的步骤S103的流程图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
由于在语音采集中,如何筛选出符合要求的合格语音会极大的影响到采集系统的效率和成本。所以需要一种能够在语音采集的过程中,高效自动化的筛选语音的方案。为此,本申请实施例提供一种音频处理方法、设备及计算机可读介质,如图1所示,所述音频处理方法可以包括以下步骤:
步骤S101,接收待处理的音频文件;
步骤S102,对所述音频文件中的音频信号进行完整性检测;
在步骤S102中,如图2所示,可以包括以下步骤:
步骤S201,对所述音频信号进行切音检测;
在该步骤中,可以首先对所述音频信号进行端点检测;若所述音频信号的起始端点或截止端点与所述音频信号中语音部分的时间差小于预设切音阈值,确定所述音频信号为切音;否则,不为切音。
步骤S202,若所述音频信号不为切音,则对所述音频信号进行丢帧检测;
在该步骤中,可以对所述音频信号中的多个采样点进行二进制编码转换,得到音频编码;若所述音频编码中多个连续采样点的编码值为0且所述多个连续采样点的数量超过1个语音帧的长度,则确定所述音频信号丢帧,否则,不丢帧。
步骤S203,若所述音频信号未丢帧,则确定所述音频信号完整。
步骤S103,若所述音频信号完整,对所述音频信号进行音频质量检测;
在步骤S103中,如图3所示,可以包括以下步骤:
步骤S301,对所述音频信号进行截幅检测;
在该步骤中,可以计算所述音频信号中幅值最大的N个采样点的均方差,所述N大于或者等于40;若所述均方差大于或者等于预设截幅阈值,则确定所述音频信号未截幅。
步骤S302,若所述音频信号未截幅,则对所述音频信号进行信噪比检测;
在该步骤中,可以计算所述音频信号中语音部分的语音功率和噪音部分的噪音功率;
计算功率的公式为:
其中,Xi是每个采样点的数值,n是采样点个数。
基于所述语音功率和所述噪音功率计算所述音频信号的信噪比。
计算信噪比SNR(dB)可以使用如下公式:
其中,Psignal为语音功率,Pnoise为噪音功率。
步骤S303,若所述音频信号的信噪比超过预设合格阈值,则确定所述音频信号的音频质量满足预设条件。
步骤S104,若所述音频信号的音频质量满足预设条件,则确定所述音频文件为待识别音频文件。
本申请实施例可以从音频信号层面确定音频完整性及音频质量,进而筛选出音频完整且音频质量满足预设条件的音频文件作为待识别音频文件(也即将存在切音、丢帧、截幅、信噪比过低等问题的音频筛除掉),减少待识别音频文件的数据量,提高效率、降低服务器资源消耗。
在步骤S104之后,所述方法还包括:
对所述待识别音频文件进行语音识别,得到识别文本及置信度;
计算所述识别文本和所述音频信号中录音文本的相似度;
基于所述相似度和所述置信度计算所述音频文件的分数;
将分数大于预设合格分数阈值的音频文件存入数据库。
本申请还可以将通过前一步筛选的音频做语音识别,把识别过程中得到的置信度、贝叶斯风险,与识别文本相似度一并记录下来,作为语音内容的打分;进而根据上一步的打分,将语音分为三部分:不合格(舍弃),达标(保存),完全合格(保存,并且用于更新模型以继续提高识别率)。
基于以上,本申请使用快速信号检测的方法,于识别前筛除掉一部分不合格音频,提高了约15%的识别效率;信号检测+识别检测的方法,提高了采集到的音频的整体质量;将系统判断完全合格的数据自动用于模型更新,迭代地提高模型识别率和系统的整体效率。
在本申请的又一实施例中,还提供一种音频处理设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法实施例所述的方法的步骤。
在本申请的又一实施例中,还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行所述方法实施例所述的方法。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种音频处理方法,其特征在于,包括:
接收待处理的音频文件;
对所述音频文件中的音频信号进行完整性检测;
若所述音频信号完整,对所述音频信号进行音频质量检测;
若所述音频信号的音频质量满足预设条件,则确定所述音频文件为待识别音频文件。
2.根据权利要求1所述的音频处理方法,其特征在于,所述对所述音频文件中的音频信号进行完整性检测,包括:
对所述音频信号进行切音检测;
若所述音频信号不为切音,则对所述音频信号进行丢帧检测;
若所述音频信号未丢帧,则确定所述音频信号完整。
3.根据权利要求2所述的音频处理方法,其特征在于,所述对所述音频信号进行切音检测,包括:
对所述音频信号进行端点检测;
若所述音频信号的起始端点或截止端点与所述音频信号中语音部分的时间差小于预设切音阈值,确定所述音频信号为切音;否则,不为切音。
4.根据权利要求2所述的音频处理方法,其特征在于,所述对所述音频信号进行丢帧检测,包括:
对所述音频信号中的多个采样点进行二进制编码转换,得到音频编码;
若所述音频编码中多个编码位的编码值为0且编码位的数量超过1个语音帧的长度,则确定所述音频信号丢帧。
5.根据权利要求1所述的音频处理方法,其特征在于,所述对所述音频信号进行音频质量检测,包括:
对所述音频信号进行截幅检测;
若所述音频信号未截幅,则对所述音频信号进行信噪比检测;
若所述音频信号的信噪比超过预设合格阈值,则确定所述音频信号的音频质量满足预设条件。
6.根据权利要求5所述的音频处理方法,其特征在于,所述对所述音频信号进行截幅检测,包括:
计算所述音频信号中幅值最大的N个采样点的均方差,所述N大于或者等于2;
若所述均方差大于或者等于预设截幅阈值,则确定所述音频信号未截幅。
7.根据权利要求5所述的音频处理方法,其特征在于,所述对所述音频信号进行信噪比检测,包括:
计算所述音频信号中语音部分的语音功率和噪音部分的噪音功率;
基于所述语音功率和所述噪音功率计算所述音频信号的信噪比。
8.根据权利要求1所述的音频处理方法,其特征在于,所述方法还包括:
对所述待识别音频文件进行语音识别,得到识别文本及置信度;
计算所述识别文本和所述音频信号中录音文本的相似度;
基于所述相似度和所述置信度计算所述音频文件的分数;
将分数大于预设合格分数阈值的音频文件存入数据库。
9.一种音频处理设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至8任一项所述的方法的步骤。
10.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行所述权利要求1-8任一所述方法。
CN201910236110.0A 2019-03-27 2019-03-27 一种音频处理方法、设备及计算机可读介质 Withdrawn CN109859745A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910236110.0A CN109859745A (zh) 2019-03-27 2019-03-27 一种音频处理方法、设备及计算机可读介质
CN201910693845.6A CN110264999B (zh) 2019-03-27 2019-07-30 一种音频处理方法、设备及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910236110.0A CN109859745A (zh) 2019-03-27 2019-03-27 一种音频处理方法、设备及计算机可读介质

Publications (1)

Publication Number Publication Date
CN109859745A true CN109859745A (zh) 2019-06-07

Family

ID=66902082

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201910236110.0A Withdrawn CN109859745A (zh) 2019-03-27 2019-03-27 一种音频处理方法、设备及计算机可读介质
CN201910693845.6A Active CN110264999B (zh) 2019-03-27 2019-07-30 一种音频处理方法、设备及计算机可读介质

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201910693845.6A Active CN110264999B (zh) 2019-03-27 2019-07-30 一种音频处理方法、设备及计算机可读介质

Country Status (1)

Country Link
CN (2) CN109859745A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110931021A (zh) * 2019-10-29 2020-03-27 平安科技(深圳)有限公司 一种音频信号处理方法及装置
CN111653283A (zh) * 2020-06-28 2020-09-11 讯飞智元信息科技有限公司 一种跨场景声纹比对方法、装置、设备及存储介质
CN111770413A (zh) * 2020-06-30 2020-10-13 浙江大华技术股份有限公司 一种多音源混音方法、装置及存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110782902A (zh) * 2019-11-06 2020-02-11 北京远鉴信息技术有限公司 音频数据确定方法、装置、设备和介质
CN111081264B (zh) * 2019-12-06 2022-03-29 北京明略软件系统有限公司 一种语音信号处理方法、装置、设备及存储介质
CN113488068B (zh) * 2021-07-19 2024-03-08 歌尔科技有限公司 音频异常检测方法、装置及计算机可读存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100514446C (zh) * 2004-09-16 2009-07-15 北京中科信利技术有限公司 一种基于语音识别及语音分析的发音评估方法
CN103578470B (zh) * 2012-08-09 2019-10-18 科大讯飞股份有限公司 一种电话录音数据的处理方法及系统
DE102013111784B4 (de) * 2013-10-25 2019-11-14 Intel IP Corporation Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren
CN105989836B (zh) * 2015-03-06 2020-12-01 腾讯科技(深圳)有限公司 一种语音采集方法、装置及终端设备
US9865249B2 (en) * 2016-03-22 2018-01-09 GM Global Technology Operations LLC Realtime assessment of TTS quality using single ended audio quality measurement
CN107305774B (zh) * 2016-04-22 2020-11-03 腾讯科技(深圳)有限公司 语音检测方法和装置
CN108010539A (zh) * 2017-12-05 2018-05-08 广州势必可赢网络科技有限公司 一种基于语音激活检测的语音质量评估方法及装置
CN108597498B (zh) * 2018-04-10 2020-09-01 广州势必可赢网络科技有限公司 一种多麦克风语音采集方法及装置
CN108986830B (zh) * 2018-08-28 2021-02-09 安徽淘云科技有限公司 一种音频语料筛选方法及装置
CN109036384B (zh) * 2018-09-06 2019-11-15 百度在线网络技术(北京)有限公司 语音识别方法和装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110931021A (zh) * 2019-10-29 2020-03-27 平安科技(深圳)有限公司 一种音频信号处理方法及装置
WO2021082083A1 (zh) * 2019-10-29 2021-05-06 平安科技(深圳)有限公司 音频信号处理方法及装置
CN110931021B (zh) * 2019-10-29 2023-10-13 平安科技(深圳)有限公司 一种音频信号处理方法及装置
CN111653283A (zh) * 2020-06-28 2020-09-11 讯飞智元信息科技有限公司 一种跨场景声纹比对方法、装置、设备及存储介质
CN111653283B (zh) * 2020-06-28 2024-03-01 讯飞智元信息科技有限公司 一种跨场景声纹比对方法、装置、设备及存储介质
CN111770413A (zh) * 2020-06-30 2020-10-13 浙江大华技术股份有限公司 一种多音源混音方法、装置及存储介质
CN111770413B (zh) * 2020-06-30 2021-08-27 浙江大华技术股份有限公司 一种多音源混音方法、装置及存储介质

Also Published As

Publication number Publication date
CN110264999A (zh) 2019-09-20
CN110264999B (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
CN110264999A (zh) 一种音频处理方法、设备及计算机可读介质
JP7177185B2 (ja) 信号分類方法および信号分類デバイス、ならびに符号化/復号化方法および符号化/復号化デバイス
CN103548081B (zh) 噪声稳健语音译码模式分类
CN111312219B (zh) 电话录音标注方法、系统、存储介质和电子设备
Towsey The calculation of acoustic indices derived from long-duration recordings of the natural environment
EP2702585B1 (en) Frame based audio signal classification
CN107331386B (zh) 音频信号的端点检测方法、装置、处理系统及计算机设备
CN105009209A (zh) 用于降低时域解码器中的量化噪声的装置和方法
CN109545242A (zh) 一种音频数据处理方法、系统、装置及可读存储介质
CN105261357A (zh) 基于统计模型的语音端点检测方法及装置
CN101689369A (zh) 用于编码和解码分音的幅度的方法和装置
EP2927906B1 (en) Method and apparatus for detecting voice signal
JP6616470B2 (ja) 符号化方法、復号化方法、符号化装置及び復号化装置
CN103716470A (zh) 语音质量监控的方法和装置
EP1564720A2 (en) Apparatus and method for detecting voiced sound and unvoiced sound
RU2666337C2 (ru) Способ обнаружения звукового сигнала и устройство
US6983242B1 (en) Method for robust classification in speech coding
Towsey Noise removal from wave-forms and spectrograms derived from natural recordings of the environment
Chandra et al. Usable speech detection using the modified spectral autocorrelation peak to valley ratio using the LPC residual
CN109065076B (zh) 音频标签的设置方法、装置、设备和存储介质
CN109903775A (zh) 一种音频爆音检测方法和装置
CN111445924B (zh) 基于自回归模型系数检测定位语音片段内平滑处理的方法
CN113035160A (zh) 基于相似矩阵的音乐自动剪辑实现方法、装置及存储介质
CN111866289B (zh) 外呼号码状态检测方法及装置、智能外呼方法及系统
US20130226573A1 (en) Noise removing system in voice communication, apparatus and method thereof

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20190607

WW01 Invention patent application withdrawn after publication