CN111696529A - 一种音频处理方法、音频处理装置及可读存储介质 - Google Patents
一种音频处理方法、音频处理装置及可读存储介质 Download PDFInfo
- Publication number
- CN111696529A CN111696529A CN202010600929.3A CN202010600929A CN111696529A CN 111696529 A CN111696529 A CN 111696529A CN 202010600929 A CN202010600929 A CN 202010600929A CN 111696529 A CN111696529 A CN 111696529A
- Authority
- CN
- China
- Prior art keywords
- speech
- voice
- energy
- determining
- qualified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000012545 processing Methods 0.000 title claims abstract description 71
- 238000003672 processing method Methods 0.000 title claims abstract description 30
- 239000012634 fragment Substances 0.000 claims abstract description 150
- 238000012216 screening Methods 0.000 claims abstract description 27
- 238000001514 detection method Methods 0.000 claims abstract description 18
- 238000006243 chemical reaction Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000000926 separation method Methods 0.000 claims description 4
- 238000000034 method Methods 0.000 abstract description 29
- 230000008569 process Effects 0.000 abstract description 20
- 238000010586 diagram Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请提供了一种音频处理方法、音频处理装置及可读存储介质,通过从获取到的原始音频中分离出多个有效语音片段;对每一个有效语音片段进行能量检测,确定出能量位于标准能量范围内的至少一个第一合格语音片段;基于每一个第一合格语音片段对应的信噪比,确定出信噪比高于标准信噪比的至少一个第二合格语音片段;基于每一个第二合格语音片段的语速,从至少一个第二合格语音片段中筛选出语速位于预设语速范围内的至少一个目标语音片段。这样,可以从原始音频中筛选出多个目标语音片段,在后续语音处理过程中,直接处理目标语音片段,减少了语音处理数量,有助于提高语音处理的效率。
Description
技术领域
本申请涉及语音处理技术领域,尤其是涉及一种音频处理方法、音频处理装置及可读存储介质。
背景技术
随着语音识别技术的飞速发展,对语音进行识别的相关技术也应运而生,语音识别可以应用于服务行业,对线下工作人员的语音的采集,通过对工作人员的语音进行分析,确定出工作人员的工作开展情况,从而有针对性的解决服务过程中的问题,提高客户的满意度。
现阶段,工作人员一般是在线下门店直面客户进行服务的,在采集工作人员服务过程中的语音时,采集到的音频中通常含有大量的语音片段、大量的噪音或是大量的静默语音片段,在对采集到的这些音频进行处理时,数据处理量过大,导致对音频的处理效率低。
发明内容
有鉴于此,本申请的目的在于提供一种音频处理方法、音频处理装置及可读存储介质,从原始音频中筛选出多个目标语音片段,在后续语音处理过程中,直接处理目标语音片段,减少了语音处理数量,有助于提高语音处理的效率。
本申请实施例提供了一种音频处理方法,所述音频处理方法包括:
从获取到的原始音频中分离出多个有效语音片段;
对每一个有效语音片段进行能量检测,确定出能量位于标准能量范围内的至少一个第一合格语音片段;
基于每一个第一合格语音片段对应的信噪比,确定出信噪比高于标准信噪比的至少一个第二合格语音片段;
基于每一个第二合格语音片段的语速,从至少一个第二合格语音片段中筛选出语速位于预设语速范围内的至少一个目标语音片段。
进一步的,通过以下步骤确定所述标准能量范围:
确定出每一个历史有效语音片段对应的标准能量;
在确定出的多个标准能量中,确定出标准能量最大的第一标准能量以及标准能量最小的第二标准能量;
将所述第二标准能量以及所述第一标准能量确定的能量范围,确定为所述标准能量范围。
进一步的,所述基于每一个第一合格语音片段对应的信噪比,确定出信噪比高于标准信噪比的至少一个第二合格语音片段,包括:
基于获取到的多个历史无效语音片段的能量,确定出多个历史无效语音片段的第一平均能量;
确定获取到的每一个历史有效语音片段的能量与所述第一平均能量之间的第一比值;
将确定出的多个第一比值的平均值,确定为标准信噪比;
基于所述原始音频中每个无效语音片段的能量,确定多个无效语音片段的第二平均能量;
确定每一个第一合格语音片段的能量与所述第二平均能量之间的第二比值;
将第二比值大于所述标准信噪比的至少一个第一合格语音片段,确定为至少一个第二合格语音片段。
进一步的,通过以下步骤确定所述预设语速范围,包括:
将多个历史有效语音片段进行文本转换,得到多个历史识别文本;
针对于每一个历史有效语音片段,基于该历史有效语音片段对应的历史识别文本的字数以及该历史有效语音片段的时长,确定出该历史有效语音片段的语速;
在确定出的多个语速中,确定出语速最大的第一语速以及语速最小的第二语速;
将所述第二语速以及所述第一语速确定的语速范围,确定为所述预设语速范围。
进一步的,在所述基于每一个第二合格语音片段的语速,从至少一个第二合格语音片段中筛选出语速位于预设语速范围内的至少一个目标语音片段之后,所述音频处理方法还包括:
将每一个目标语音片段进行文本转换,确定出多个目标文本;
将每个目标文本按照预设的多个关键词进行关键词提取,确定出每个目标文本的关键词使用总次数以及每个关键词的使用频率;
针对每个目标文本,基于所述关键词使用总次数以及所述每个关键词的使用频率,评估该目标文本对应的工作人员的服务质量。
本申请实施例还提供了一种音频处理装置,所述音频处理装置包括:
语音分离模块,用于从获取到的原始音频中分离出多个有效语音片段;
第一确定模块,用于对每一个有效语音片段进行能量检测,确定出能量位于标准能量范围内的至少一个第一合格语音片段;
第二确定模块,用于基于每一个第一合格语音片段对应的信噪比,确定出信噪比高于标准信噪比的至少一个第二合格语音片段;
语段筛选模块,用于基于每一个第二合格语音片段的语速,从至少一个第二合格语音片段中筛选出语速位于预设语速范围内的至少一个目标语音片段。
进一步的,所述第一确定模块用于通过以下步骤确定所述标准能量范围:
确定出每一个历史有效语音片段对应的标准能量;
在确定出的多个标准能量中,确定出标准能量最大的第一标准能量以及标准能量最小的第二标准能量;
将所述第二标准能量以及所述第一标准能量确定的能量范围,确定为所述标准能量范围。
进一步的,所述第二确定模块在用于基于每一个第一合格语音片段对应的信噪比,确定出信噪比高于标准信噪比的至少一个第二合格语音片段时,所述第二确定模块用于:
基于获取到的多个历史无效语音片段的能量,确定出多个历史无效语音片段的第一平均能量;
确定获取到的每一个历史有效语音片段的能量与所述第一平均能量之间的第一比值;
将确定出的多个第一比值的平均值,确定为标准信噪比;
基于所述原始音频中每个无效语音片段的能量,确定多个无效语音片段的第二平均能量;
确定每一个第一合格语音片段的能量与所述第二平均能量之间的第二比值;
将第二比值大于所述标准信噪比的至少一个第一合格语音片段,确定为至少一个第二合格语音片段。
进一步的,所述语段筛选模块用于通过以下步骤确定所述预设语速范围:
将多个历史有效语音片段进行文本转换,得到多个历史识别文本;
针对于每一个历史有效语音片段,基于该历史有效语音片段对应的历史识别文本的字数以及该历史有效语音片段的时长,确定出该历史有效语音片段的语速;
在确定出的多个语速中,确定出语速最大的第一语速以及语速最小的第二语速;
将所述第二语速以及所述第一语速确定的语速范围,确定为所述预设语速范围。
进一步的,所述音频处理装置还包括服务评估模块,所述服务评估模块用于:
将每一个目标语音片段进行文本转换,确定出多个目标文本;
将每个目标文本按照预设的多个关键词进行关键词提取,确定出每个目标文本的关键词使用总次数以及每个关键词的使用频率;
针对每个目标文本,基于所述关键词使用总次数以及所述每个关键词的使用频率,评估该目标文本对应的工作人员的服务质量。
本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的音频处理方法的步骤。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上述的音频处理方法的步骤。
本申请实施例提供的音频处理方法、音频处理装置及可读存储介质,从获取到的原始音频中分离出多个有效语音片段;对每一个有效语音片段进行能量检测,确定出能量位于标准能量范围内的至少一个第一合格语音片段;基于每一个第一合格语音片段对应的信噪比,确定出信噪比高于标准信噪比的至少一个第二合格语音片段;基于每一个第二合格语音片段的语速,从至少一个第二合格语音片段中筛选出语速位于预设语速范围内的至少一个目标语音片段。
这样,从获取到的原始音频中分离出多个有效语音片段,从每个有效语音片段中筛选出能量位于标准能量范围内的至少一个第一合格语音片段;从确定出的至少一个第一合格语音片段中筛选出信噪比高于标准信噪比的至少一个第二合格语音片段,在根据每一个第二合格语音片段的语速,确定出至少一个目标语音片段,在后续语音处理过程中,直接处理目标语音片段,减少了语音处理数量,有助于提高语音处理的效率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为一种可能的应用场景下的系统结构图;
图2为本申请实施例所提供的一种音频处理方法的流程图;
图3为本申请另一实施例提供的音频处理方法的流程图;
图4为本申请实施例所提供的一种音频处理装置的结构示意图之一;
图5为本申请实施例所提供的一种音频处理装置的结构示意图之二;
图6为本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
首先,对本申请可适用的应用场景进行介绍。本申请可应用于语音处理技术领域,从获取到的原始音频中分离出多个有效语音片段,将分离出的有效语音片段经过能量检测、信噪比检测以及语速检测,确定出符合标准的目标语音片段,并在后续处理过程中,直接处理目标语音片段,减少了语音处理数量,有助于提高语音处理的效率,请参阅图1,图1为一种可能的应用场景下的系统结构图,如图1中所示,所述系统包括音频采集装置和音频处理装置,所述音频采集装置采集对应的工作人员的原始音频,所述音频处理装置在接收到原始音频后,从原始音频中分离出多个有效语音片段,并将多个有效语音片段中经过多维度筛选,确定出多个目标语音片段,从而减少后续语音处理过程中的语音处理数量,提高语音处理效率。
这里,音频采集装置可以是录音设备,该录音设备可以单独佩戴在工作人员身上,也可以是内嵌入工作人员的工牌中。
经研究发现,现阶段,工作人员一般是在线下门店直面客户进行服务的,在采集工作人员服务过程中的语音时,采集到的音频中通常含有大量的语音片段、大量的噪音或是大量的静默语音片段,在对采集到的这些音频进行处理时,数据处理量过大,导致对音频的处理效率低。
基于此,本申请的目的在于提供一种音频处理方法,从原始音频中筛选出多个目标语音片段,在后续语音处理过程中,直接处理目标语音片段,减少了语音处理数量,有助于提高语音处理的效率。
请参阅图2,图2为本申请实施例所提供的一种音频处理方法的流程图。如图2中所示,本申请实施例提供的音频处理方法,包括:
S201、从获取到的原始音频中分离出多个有效语音片段。
该步骤中,在获取到音频采集设备采集的原始音频中分离出多个包含可用的语音信息的有效语音片段。
这里,在音频采集的过程中,由于采集设备所处的环境以及采集过程中采集范围的局限性,在采集到的原始音频中会存在大量的噪音以及静默的空白语音片段,这些语音片段对后续语音分析毫无意义,需要进行滤除,以从原始音频中获取到有效语音片段。
其中,在本申请实施例中对噪音的界定,是与工作人员的工作过程无关的语音都将被界定为噪音,例如,在工作人员的工作环境中的背景音乐、客户的语音等。
这里,从原始音频中分离出有效语音片段的方式,可以是通过语音活动检测(Voice Activity Detection,VAD)进行分离,语音活动检测又称语音端点检测,语音边界检测。目的是从声音信号流里识别和消除长时间的静音期,进而达到在不降低业务质量的情况下节省话路资源的作用。
这样,可以有效滤除原始音频中的后续语音处理中用不到的无效语音片段,减少后续语音处理数量。
S202、对每一个有效语音片段进行能量检测,确定出能量位于标准能量范围内的至少一个第一合格语音片段。
该步骤中,在步骤S201确定出多个有效语音片段之后,针对每一个有效语音片段,确定每一个有效语音片段的能量,从多个有效语音片段中筛选出能量位于标准能量范围内的至少一个第一合格语音片段。
这里,标准能量范围内的设定可以是根据多段历史有效语音片段的平均能量来确定的,由于语音信号的能量随时间而变化,清音和浊音之间的能量差别相当显著,因此对短时能量和短时平均幅度进行分析,可以描述语音的这种特征变换情况。
S203、基于每一个第一合格语音片段对应的信噪比,确定出信噪比高于标准信噪比的至少一个第二合格语音片段。
该步骤中,在步骤S202根据语音片段的能量确定出多个第一合格语音片段后,针对每一个第一合格语音片段,计算每一个第一合格语音片段的信噪比,并将每一个第一合格语音片段的信噪比与标准信噪比进行比较,确定出信噪比高于标准信噪比的至少一个第二合格语音片段。
这里,信噪比是描述信号中有效成分与噪声成分的比例关系参数;在不同领域中的具体含义不同,较为常见的一种是:额定最大信号功率与无信号时静态噪声功率之比;另一种是:信号中有效成分的功率与噪声成分功率之比,本申请实施例中是利用的第二种定义。无论在任何领域,信噪比的单位都是一致的是,都为:dB。
这里,对于标准信噪比的界定,是根据多段临时语音段的信噪比的平均值一起计算平均值得到的。
S204、基于每一个第二合格语音片段的语速,从至少一个第二合格语音片段中筛选出语速位于预设语速范围内的至少一个目标语音片段。
该步骤中,在步骤S203根据第一合格语音片段的信噪比确定出多个第二合格语音片段后,计算每个第二合格语音片段的语速,从至少一个第二合格语音片段中确定出语速位于预设语速范围内的至少一个目标语音片段。
这样,经过步骤S201-S204的处理后,从原始音频中筛选出能量、信噪比以及语速均符合预设标准的多个目标语音片段,有效地减少了后续在语音处理过程中的语音段数量,提高了后续语音处理工作的效率。
本申请实施例提供的音频处理方法,从获取到的原始音频中分离出多个有效语音片段;对每一个有效语音片段进行能量检测,确定出能量位于标准能量范围内的至少一个第一合格语音片段;基于每一个第一合格语音片段对应的信噪比,确定出信噪比高于标准信噪比的至少一个第二合格语音片段;基于每一个第二合格语音片段的语速,从至少一个第二合格语音片段中筛选出语速位于预设语速范围内的至少一个目标语音片段。
这样,从获取到的原始音频中分离出多个有效语音片段,从每个有效语音片段中筛选出能量位于标准能量范围内的至少一个第一合格语音片段;从确定出的至少一个第一合格语音片段中筛选出信噪比高于标准信噪比的至少一个第二合格语音片段,在根据每一个第二合格语音片段的语速,确定出至少一个目标语音片段,在后续语音处理过程中,直接处理目标语音片段,减少了语音处理数量,有助于提高语音处理的效率。
请参阅图3,图3为本申请另一实施例提供的音频处理方法的流程图。如图3中所示,本申请实施例提供的音频处理方法,包括:
S301、从获取到的原始音频中分离出多个有效语音片段。
S302、对每一个有效语音片段进行能量检测,确定出能量位于标准能量范围内的至少一个第一合格语音片段。
S303、基于每一个第一合格语音片段对应的信噪比,确定出信噪比高于标准信噪比的至少一个第二合格语音片段。
S304、基于每一个第二合格语音片段的语速,从至少一个第二合格语音片段中筛选出语速位于预设语速范围内的至少一个目标语音片段。
其中,S301至S304的描述可以参照S201至S204的描述,并且能达到相同的技术效果,对此不做赘述。
S305、将每一个目标语音片段进行文本转换,确定出多个目标文本。
该步骤中,针对于步骤S304确定的每一个目标语音片段,将每一个目标语音片段转换为文本,确定出多个目标文本。
这里,对于语音转文本的过程可以通过ASR(Automatic Speech Recognition)转写将语音片段转化成对应的文本。
S306、将每个目标文本按照预设的多个关键词进行关键词提取,确定出每个目标文本的关键词使用总次数以及每个关键词的使用频率。
该步骤中,在步骤S305确定出多个目标文本后,按照预设的多个关键词进行关键词提取,确定出在每个目标文本中预设的关键词的使用总次数以及每个关键词的使用频率。
其中,关键词可以是针对于采集到的原始音频所处的工作环境来制定的关键词,可以是相应的行业工作人员在进行工作时,较为常规使用的行业关键词。
例如,对餐饮服务业的工作人员的服务态度进行评价时,可以将关键词设置为“您好”、“欢迎光临”、“请就座”等服务类关键词。
S307、针对每个目标文本,基于所述关键词使用总次数以及所述每个关键词的使用频率,评估该目标文本对应的工作人员的服务质量。
该步骤中,针对每个目标文本,根据步骤S306确定出的关键词使用总次数以及关键词的使用频率,按照预设的分数计算规则,评估该目标文本对应的工作人员的服务质量。
这里,对于关键词的使用频率的计算,可以是工作人员在说一句话或是几句话中相应的关键词的出现次数,或是在对应的一个目标语音段中相应的关键词的出现次数。
这里,在对工作人员进行评估时,可以根据评估的侧重点,分别设置关键词使用总次数以及关键词的使用频率对应的权重,根据加权计算,得出工作人员的服务质量得分,并根据工作人员的服务质量得分对工作人员进行评分。
进一步的,通过以下步骤确定所述标准能量范围:确定出每一个历史有效语音片段对应的标准能量;在确定出的多个标准能量中,确定出标准能量最大的第一标准能量以及标准能量最小的第二标准能量;将所述第二标准能量以及所述第一标准能量确定的能量范围,确定为所述标准能量范围。
该步骤中,确定每个历史有效语音片段对应的标准能量;在确定出的多个标准能量中,筛选出在多个标准能量中,能量值最大的第一标准能量,以及在多个标准能量中,能量值最小的第二标准能量,将第二标准能量以及第一标准能量确定的能量范围,确定为标准能量范围。
这里,每个历史有效语音片段的振幅可以认为是该历史有效语音片段对应的标准能量,单位是分贝(dB);每个历史有效语音片段都是在历史语音处理过程中确定出的可以进行语音处理的有效语音片段,也就是说每个历史有效语音片段对应的标准能量都是合理的能量,确定出多个历史有效语音片段的能量范围,可以用于对第一合格语音片段进行筛选的标准能量范围,在一个实施中,标准能量范围可以是1000dB-3000dB。
这里,在本申请实施例中,是根据多个历史有效语音片段对应的标准能量,确定出一个标准能量范围,将能量位于该标准能量范围的有效语音片段确定为第一合格语音片段;在其他实施例中,还可以是根据多个历史有效语音片段对应的标准能量,确定出多个标准能量的平均能量,将该平均能量作为能量阈值,在多个有效语音片段中,能量小于该能量阈值的有效语音片段为第一合格语音片段;能量大于该能量阈值的有效语音片段为不合格语音片段,将被滤除。
进一步的,步骤S303包括:基于获取到的多个历史无效语音片段的能量,确定出多个历史无效语音片段的第一平均能量;确定获取到的每一个历史有效语音片段的能量与所述第一平均能量之间的第一比值;将确定出的多个第一比值的平均值,确定为标准信噪比;基于所述原始音频中每个无效语音片段的能量,确定多个无效语音片段的第二平均能量;确定每一个第一合格语音片段的能量与所述第二平均能量之间的第二比值;将第二比值大于所述标准信噪比的至少一个第一合格语音片段,确定为至少一个第二合格语音片段。
该步骤中,根据获取到的多个历史无效语音片段的能量,确定出多个历史无效语音片段对应的第一平均能量;确定获取到的每一个历史有效语音片段的能量与第一平均能量之间的第一比值,并将确定出的多个第一比值的平均值,确定为标准信噪比;根据从获取到的原始音频中分离出的每个无效语音片段的能量,确定出多个无效语音片段的第二平均能量,将每一个第一合格语音片段的能量与确定出的第二平均能量相比,确定出每一个第一合格语音片段的能量对应的第二比值;将第二比值大于确定出的标准信噪比的第一合格语音片段,确定为第二合格语音片段。
这里,用于确定标准信噪比的多个历史有效音频片段与用于确定标准能量的多个历史有效音频片段是一致的,并且历史有效音频片段以及历史无效音频片段属于同一在历史音频片段。
这里,信噪比是指一个电子设备或是电子系统中信号与噪声的比例,实质上是正常声音信号与信号噪声信号的比值,单位用dB表示。一般来说,信噪比越大,说明混在信号里的噪声越小,语音片段质量越高,在一个实施中,标准信噪比可以是20dB。
进一步的,通过以下步骤确定所述预设语速范围:将多个历史有效语音片段进行文本转换,得到多个历史识别文本;针对于每一个历史有效语音片段,基于该历史有效语音片段对应的历史识别文本的字数以及该历史有效语音片段的时长,确定出该历史有效语音片段的语速;在确定出的多个语速中,确定出语速最大的第一语速以及语速最小的第二语速;将所述第二语速以及所述第一语速确定的语速范围,确定为所述预设语速范围。
该步骤中,将获取到的多个历史有效语音片段进行文本转换,确定出每一个历史有效语音片段对应的历史识别文本;针对于每一个历史有效语音片段,根据该历史有效语音片段对应的历史识别文本的字数以及该历史有效语音片段的时长,确定出该历史有效语音片段对应的语速;在确定出的多个语速中,语速最快的第一语速以及语速最慢的第二语速;将第二语速以及第一语速确定的语速范围,确定为预设语速范围。
这里,用于确定预设语速范围的多个历史有效音频片段与确定标准信噪比的多个历史有效音频片段以及用于确定标准能量的多个历史有效音频片段是一致的。
这里,每个历史有效语音片段都是在历史语音处理过程中确定出的可以进行语音处理的有效语音片段,也就是说每个历史有效语音片段对应的语速都是合理的语速,确定出多个历史有效语音片段的语速范围,可以用于对第二合格语音片段进行筛选的预设语速范围,在一个实施中,预设语速范围可以是1字/秒-8字/秒。
这里,在本申请实施例中,是根据多个历史有效语音片段对应的语速,确定出一个预设语速范围,将语速位于该预设语速范围的有效语音片段确定为目标语音片段;在其他实施例中,还可以是根据多个历史有效语音片段对应的语速,确定出多个语速的平均能量,将该平均能量作为语速阈值,在多个有效语音片段中,语速与该语速阈值的差值在预设差值范围内的第二合格语音片段,将被确定为目标语音片段。
本申请实施例提供的音频处理方法,从获取到的原始音频中分离出多个有效语音片段;对每一个有效语音片段进行能量检测,确定出能量位于标准能量范围内的至少一个第一合格语音片段;基于每一个第一合格语音片段对应的信噪比,确定出信噪比高于标准信噪比的至少一个第二合格语音片段;基于每一个第二合格语音片段的语速,从至少一个第二合格语音片段中筛选出语速位于预设语速范围内的至少一个目标语音片段;将每一个目标语音片段进行文本转换,确定出多个目标文本;将每个目标文本按照预设的多个关键词进行关键词提取,确定出每个目标文本的关键词使用总次数以及每个关键词的使用频率;针对每个目标文本,基于所述关键词使用总次数以及所述每个关键词的使用频率,评估该目标文本对应的工作人员的服务质量。
这样,从获取到的原始音频中分离出多个有效语音片段,从每个有效语音片段中筛选出能量位于标准能量范围内的至少一个第一合格语音片段;从确定出的至少一个第一合格语音片段中筛选出信噪比高于标准信噪比的至少一个第二合格语音片段,在根据每一个第二合格语音片段的语速,确定出至少一个目标语音片段;将每一个目标语音片段进行文本转换,确定出多个目标文本,并对每一个目标文本进行关键词提取,基于每一个目标文本的关键词使用次数以及使用频率,评估工作人员的服务质量,直接处理目标语音片段,减少了语音处理数量,有助于提高评估工作人员的服务质量的效率。
请参阅图4、图5,图4为本申请实施例所提供的一种音频处理装置的结构示意图之一,图5为本申请实施例所提供的一种音频处理装置的结构示意图之二。如图4中所示,所述音频处理装置400包括:
语音分离模块410,用于从获取到的原始音频中分离出多个有效语音片段。
第一确定模块420,用于对每一个有效语音片段进行能量检测,确定出能量位于标准能量范围内的至少一个第一合格语音片段。
第二确定模块430,用于基于每一个第一合格语音片段对应的信噪比,确定出信噪比高于标准信噪比的至少一个第二合格语音片段。
语段筛选模块440,用于基于每一个第二合格语音片段的语速,从至少一个第二合格语音片段中筛选出语速位于预设语速范围内的至少一个目标语音片段。
进一步的,如图5所示,所述音频处理装置400还包括服务评估模块450,所述服务评估模块450用于:
将每一个目标语音片段进行文本转换,确定出多个目标文本;
将每个目标文本按照预设的多个关键词进行关键词提取,确定出每个目标文本的关键词使用总次数以及每个关键词的使用频率;
针对每个目标文本,基于所述关键词使用总次数以及所述每个关键词的使用频率,评估该目标文本对应的工作人员的服务质量。
进一步的,所述第一确定模块420用于通过以下步骤确定所述标准能量范围:
确定出每一个历史有效语音片段对应的标准能量;
在确定出的多个标准能量中,确定出标准能量最大的第一标准能量以及标准能量最小的第二标准能量;
将所述第二标准能量以及所述第一标准能量确定的能量范围,确定为所述标准能量范围。
进一步的,所述第二确定模块430在用于基于每一个第一合格语音片段对应的信噪比,确定出信噪比高于标准信噪比的至少一个第二合格语音片段时,所述第二确定模块430用于:
基于获取到的多个历史无效语音片段的能量,确定出多个历史无效语音片段的第一平均能量;
确定获取到的每一个历史有效语音片段的能量与所述第一平均能量之间的第一比值;
将确定出的多个第一比值的平均值,确定为标准信噪比;
基于所述原始音频中每个无效语音片段的能量,确定多个无效语音片段的第二平均能量;
确定每一个第一合格语音片段的能量与所述第二平均能量之间的第二比值;
将第二比值大于所述标准信噪比的至少一个第一合格语音片段,确定为至少一个第二合格语音片段。
进一步的,所述语段筛选模块440用于通过以下步骤确定所述预设语速范围:
将多个历史有效语音片段进行文本转换,得到多个历史识别文本;
针对于每一个历史有效语音片段,基于该历史有效语音片段对应的历史识别文本的字数以及该历史有效语音片段的时长,确定出该历史有效语音片段的语速;
在确定出的多个语速中,确定出语速最大的第一语速以及语速最小的第二语速;
将所述第二语速以及所述第一语速确定的语速范围,确定为所述预设语速范围。
本申请实施例提供的音频处理装置,从获取到的原始音频中分离出多个有效语音片段;对每一个有效语音片段进行能量检测,确定出能量位于标准能量范围内的至少一个第一合格语音片段;基于每一个第一合格语音片段对应的信噪比,确定出信噪比高于标准信噪比的至少一个第二合格语音片段;基于每一个第二合格语音片段的语速,从至少一个第二合格语音片段中筛选出语速位于预设语速范围内的至少一个目标语音片段。
这样,从获取到的原始音频中分离出多个有效语音片段,从每个有效语音片段中筛选出能量位于标准能量范围内的至少一个第一合格语音片段;从确定出的至少一个第一合格语音片段中筛选出信噪比高于标准信噪比的至少一个第二合格语音片段,在根据每一个第二合格语音片段的语速,确定出至少一个目标语音片段,在后续语音处理过程中,直接处理目标语音片段,减少了语音处理数量,有助于提高语音处理的效率。
请参阅图6,图6为本申请实施例所提供的一种电子设备的结构示意图。如图6中所示,所述电子设备600包括处理器610、存储器620和总线630。
所述存储器620存储有所述处理器610可执行的机器可读指令,当电子设备600运行时,所述处理器610与所述存储器620之间通过总线630通信,所述机器可读指令被所述处理器610执行时,可以执行如上述图2以及图3所示方法实施例中的音频处理方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时可以执行如上述图2以及图3所示方法实施例中的音频处理方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种音频处理方法,其特征在于,所述音频处理方法包括:
从获取到的原始音频中分离出多个有效语音片段;
对每一个有效语音片段进行能量检测,确定出能量位于标准能量范围内的至少一个第一合格语音片段;
基于每一个第一合格语音片段对应的信噪比,确定出信噪比高于标准信噪比的至少一个第二合格语音片段;
基于每一个第二合格语音片段的语速,从至少一个第二合格语音片段中筛选出语速位于预设语速范围内的至少一个目标语音片段。
2.根据权利要求1所述的音频处理方法,其特征在于,通过以下步骤确定所述标准能量范围:
确定出每一个历史有效语音片段对应的标准能量;
在确定出的多个标准能量中,确定出标准能量最大的第一标准能量以及标准能量最小的第二标准能量;
将所述第二标准能量以及所述第一标准能量确定的能量范围,确定为所述标准能量范围。
3.根据权利要求1所述的音频处理方法,其特征在于,所述基于每一个第一合格语音片段对应的信噪比,确定出信噪比高于标准信噪比的至少一个第二合格语音片段,包括:
基于获取到的多个历史无效语音片段的能量,确定出多个历史无效语音片段的第一平均能量;
确定获取到的每一个历史有效语音片段的能量与所述第一平均能量之间的第一比值;
将确定出的多个第一比值的平均值,确定为标准信噪比;
基于所述原始音频中每个无效语音片段的能量,确定多个无效语音片段的第二平均能量;
确定每一个第一合格语音片段的能量与所述第二平均能量之间的第二比值;
将第二比值大于所述标准信噪比的至少一个第一合格语音片段,确定为至少一个第二合格语音片段。
4.根据权利要求1所述的音频处理方法,其特征在于,通过以下步骤确定所述预设语速范围,包括:
将多个历史有效语音片段进行文本转换,得到多个历史识别文本;
针对于每一个历史有效语音片段,基于该历史有效语音片段对应的历史识别文本的字数以及该历史有效语音片段的时长,确定出该历史有效语音片段的语速;
在确定出的多个语速中,确定出语速最大的第一语速以及语速最小的第二语速;
将所述第二语速以及所述第一语速确定的语速范围,确定为所述预设语速范围。
5.根据权利要求1所述的音频处理方法,其特征在于,在所述基于每一个第二合格语音片段的语速,从至少一个第二合格语音片段中筛选出语速位于预设语速范围内的至少一个目标语音片段之后,所述音频处理方法还包括:
将每一个目标语音片段进行文本转换,确定出多个目标文本;
将每个目标文本按照预设的多个关键词进行关键词提取,确定出每个目标文本的关键词使用总次数以及每个关键词的使用频率;
针对每个目标文本,基于所述关键词使用总次数以及所述每个关键词的使用频率,评估该目标文本对应的工作人员的服务质量。
6.一种音频处理装置,其特征在于,所述音频处理装置包括:
语音分离模块,用于从获取到的原始音频中分离出多个有效语音片段;
第一确定模块,用于对每一个有效语音片段进行能量检测,确定出能量位于标准能量范围内的至少一个第一合格语音片段;
第二确定模块,用于基于每一个第一合格语音片段对应的信噪比,确定出信噪比高于标准信噪比的至少一个第二合格语音片段;
语段筛选模块,用于基于每一个第二合格语音片段的语速,从至少一个第二合格语音片段中筛选出语速位于预设语速范围内的至少一个目标语音片段。
7.根据权利要求6所述的音频处理装置,其特征在于,所述第一确定模块用于通过以下步骤确定所述标准能量范围:
确定出每一个历史有效语音片段对应的标准能量;
在确定出的多个标准能量中,确定出标准能量最大的第一标准能量以及标准能量最小的第二标准能量;
将所述第二标准能量以及所述第一标准能量确定的能量范围,确定为所述标准能量范围。
8.根据权利要求6所述的音频处理装置,其特征在于,所述音频处理装置还包括服务评估模块,所述服务评估模块用于:
将每一个目标语音片段进行文本转换,确定出多个目标文本;
将每个目标文本按照预设的多个关键词进行关键词提取,确定出每个目标文本的关键词使用总次数以及每个关键词的使用频率;
针对每个目标文本,基于所述关键词使用总次数以及所述每个关键词的使用频率,评估该目标文本对应的工作人员的服务质量。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至5中任一所述的音频处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至5中任一所述的音频处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010600929.3A CN111696529A (zh) | 2020-06-28 | 2020-06-28 | 一种音频处理方法、音频处理装置及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010600929.3A CN111696529A (zh) | 2020-06-28 | 2020-06-28 | 一种音频处理方法、音频处理装置及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111696529A true CN111696529A (zh) | 2020-09-22 |
Family
ID=72484203
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010600929.3A Withdrawn CN111696529A (zh) | 2020-06-28 | 2020-06-28 | 一种音频处理方法、音频处理装置及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111696529A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112687273A (zh) * | 2020-12-26 | 2021-04-20 | 科大讯飞股份有限公司 | 一种语音转写方法及装置 |
CN115910024A (zh) * | 2022-12-08 | 2023-04-04 | 广州赛灵力科技有限公司 | 一种语音清洗及合成方法、系统、装置及存储介质 |
-
2020
- 2020-06-28 CN CN202010600929.3A patent/CN111696529A/zh not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112687273A (zh) * | 2020-12-26 | 2021-04-20 | 科大讯飞股份有限公司 | 一种语音转写方法及装置 |
CN112687273B (zh) * | 2020-12-26 | 2024-04-16 | 科大讯飞股份有限公司 | 一种语音转写方法及装置 |
CN115910024A (zh) * | 2022-12-08 | 2023-04-04 | 广州赛灵力科技有限公司 | 一种语音清洗及合成方法、系统、装置及存储介质 |
CN115910024B (zh) * | 2022-12-08 | 2023-08-29 | 广州赛灵力科技有限公司 | 一种语音清洗及合成方法、系统、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10878823B2 (en) | Voiceprint recognition method, device, terminal apparatus and storage medium | |
CN109473123B (zh) | 语音活动检测方法及装置 | |
JP4568371B2 (ja) | 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム | |
US7133826B2 (en) | Method and apparatus using spectral addition for speaker recognition | |
CN111739559B (zh) | 一种话语预警方法、装置、设备及存储介质 | |
US20160111112A1 (en) | Speaker change detection device and speaker change detection method | |
JP2007041593A (ja) | 音声信号のハーモニック成分を用いた有声音/無声音分離情報を抽出する方法及び装置 | |
CN108039181B (zh) | 一种声音信号的情感信息分析方法和装置 | |
CN111696529A (zh) | 一种音频处理方法、音频处理装置及可读存储介质 | |
CN112966082A (zh) | 音频质检方法、装置、设备以及存储介质 | |
CN110807093A (zh) | 语音处理方法、装置及终端设备 | |
CN113707173B (zh) | 基于音频切分的语音分离方法、装置、设备及存储介质 | |
JP7407190B2 (ja) | 発話解析装置、発話解析方法及びプログラム | |
CN111276124B (zh) | 一种关键词识别方法、装置、设备及可读存储介质 | |
CN113823293A (zh) | 一种基于语音增强的说话人识别方法及系统 | |
JP5282523B2 (ja) | 基本周波数抽出方法、基本周波数抽出装置、およびプログラム | |
CN112885379A (zh) | 客服语音评估方法、系统、设备及存储介质 | |
CN115831125A (zh) | 语音识别方法、装置、设备、存储介质及产品 | |
CN111354365B (zh) | 一种纯语音数据采样率识别方法、装置、系统 | |
CN115440192A (zh) | 一种语音识别系统的测试方法、装置、设备及存储介质 | |
CN114678040B (zh) | 语音一致性检测方法、装置、设备及存储介质 | |
KR100574883B1 (ko) | 비음성 제거에 의한 음성 추출 방법 | |
JPH05173592A (ja) | 音声/非音声判別方法および判別装置 | |
CN113870841A (zh) | 语音数据的处理方法、装置、电子设备及存储介质 | |
CN113592559B (zh) | 口音识别模型建立方法、装置及存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200922 |
|
WW01 | Invention patent application withdrawn after publication |