CN111341302A - 一种语音流采样率确定方法及装置 - Google Patents
一种语音流采样率确定方法及装置 Download PDFInfo
- Publication number
- CN111341302A CN111341302A CN202010137066.0A CN202010137066A CN111341302A CN 111341302 A CN111341302 A CN 111341302A CN 202010137066 A CN202010137066 A CN 202010137066A CN 111341302 A CN111341302 A CN 111341302A
- Authority
- CN
- China
- Prior art keywords
- sampling rate
- noise
- preset
- crossing times
- zero
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005070 sampling Methods 0.000 title claims abstract description 287
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000004364 calculation method Methods 0.000 claims description 12
- 125000004122 cyclic group Chemical group 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 235000008429 bread Nutrition 0.000 description 1
- 235000021152 breakfast Nutrition 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 235000013311 vegetables Nutrition 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种语音流采样率确定方法及装置,包括:获取语音流的噪声片段;根据预定采样率区间,在所述噪声片段中分别对应所述预定采样率区间中的每一采样率进行第一预定数量数据点随机选取,并计算每一采样率对应的平均过零次数;对所述噪声片段进行预定噪声类别匹配,从包括所述预定噪声类别及其对应音频的噪声数据库获得匹配的相应噪声类别音频,并根据所述预定采样率区间,在所述噪声类别音频中分别对应所述预定采样率区间中的每一采样率进行第二预定数量数据点随机选取,并计算每一采样率对应的平均过零次数;根据所述噪声片段的每一采样率对应的平均过零次数与所述噪声类别音频的每一采样率对应的平均过零次数,确定所述语音流的采样率。
Description
技术领域
本发明涉及语音信息识别技术领域,特别涉及一种语音流采样率确定方法及装置。
背景技术
语音识别技术已经在诸多领域有应用,一般来说,语音识别需要庞大的计算资源,因此复杂的语音识别系统几乎都搭建在大型服务器集群上,通过客户端发送语音流在服务器上进行识别。语音流是由语音数据构成,对于常见的WAV、MP3格式的语音流,在每一段语音的头部均带有该段语音的各项特征,包括采样率,但是对于类似pcm格式的语音流,并无头部数据,即不包含语音的采样率等信息,可视为纯数据流,而采样率作为语音识别中最为核心的参数之一,发挥着重要作用,只有输入正确的采样率,语音识别系统才可以有效的识别语音。
目前,对大规模语音流进行语音识别时采样率主要通过以下方式获得:人工标注采样率并输入系统;或者根据特定要求双方约定采样率。这些方式本质上均为人为指定或标注,不仅效率低,还会受到很多人为因素限制,不利于语音识别系统的迁移运用。因此,如何通过无头文件信息的纯语音数据流来判断语音的采样率是大规模语音识别领域中亟待解决的问题。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种语音流采样率确定方法及装置,实现了高效的自动识别和确定纯数据流类语音的采样率,无需头文件信息、人工指定或约定,降低了对待处理数据的格式要求,去除了耗费资源的人工标注环节。所述技术方案如下:
一方面,提供了一种语音流采样率确定方法,所述方法包括:
获取语音流的噪声片段;
根据预定采样率区间,在所述噪声片段中分别对应所述预定采样率区间中的每一采样率进行第一预定数量数据点随机选取,并计算每一采样率对应的平均过零次数;
对所述噪声片段进行预定噪声类别匹配,从包括所述预定噪声类别及其对应音频的噪声数据库获得匹配的相应噪声类别音频,并根据所述预定采样率区间,在所述噪声类别音频中分别对应所述预定采样率区间中的每一采样率进行第二预定数量数据点随机选取,并计算每一采样率对应的平均过零次数;
根据所述噪声片段的每一采样率对应的平均过零次数与所述噪声类别音频的每一采样率对应的平均过零次数,确定所述语音流的采样率。
进一步地,获取语音流的噪声片段,包括:
切分所述语音流头部和/或尾部的所述第一预定数量的数据点,获得短时噪声数据;其中,所述第一预定数量均不小于所述预定采样率区间中每一采样率下的单位采样数。
进一步地,所述第一预定数量、第二预定数量均不小于441000。
进一步地,根据预定采样率区间,在所述噪声片段中分别对应所述预定采样率区间中的每一采样率进行相应数据点随机选取,并计算每一采样率对应的平均过零次数,包括:
根据所述预定采样率区间,分别以预定次数从所述噪声片段中的所述第一预定数量数据点中,选取每一采样率对应的每秒采样个数为数量的数据点,然后分别计算所述预定次数中每次的过零次数,再分别计算得到所述噪声片段每一采样率对应的平均过零次数。
进一步地,根据所述预定采样率区间,在所述噪声类别音频中分别对应所述预定采样率区间中的每一采样率进行第二预定数量数据点随机选取,并计算每一采样率对应的平均过零次数,包括:
根据所述预定采样率区间,分别以所述预定次数从所述噪声类别音频中的所述第二预定数量数据点中,选取每一采样率对应的每秒采样个数为数量的数据点,然后分别计算所述预定次数中每次的过零次数,再分别计算得到所述噪声类别音频每一采样率对应的平均过零次数。
进一步地,对所述噪声片段进行预定噪声类别匹配,从包括所述预定噪声类别及其对应音频的噪声数据库获得匹配的相应噪声类别音频,包括:
通过预设相似度匹配方法对所述噪声片段进行预定噪声类别匹配,从包括所述预定噪声类别及其对应音频的噪声数据库获得匹配的相应噪声类别音频。
进一步地,所述方法还包括:构建所述噪声数据库,所述噪声数据库包括多个噪声类别的带有时间轴和头部信息的噪声数据,每种噪声数据均选取采样率已知的音频数据,且每条音频数据长度不小于1秒钟。
进一步地,根据所述噪声片段的每一采样率对应的平均过零次数与所述噪声类别音频的每一采样率对应的平均过零次数,确定所述语音流的采样率,包括:
将所述噪声片段的每一采样率对应的平均过零次数分别减去所述噪声类别音频的每一采样率对应的平均过零次数,然后再分别除以所述噪声类别音频的每一采样率对应的平均过零次数,获得所述每一采样率对应的相对偏差率,然后将最小相对偏差率对应的采样率确定为所述语音流的采样率。
进一步地,重复循环操作以下步骤:
根据预定采样率区间,在所述噪声片段中分别对应所述预定采样率区间中的每一采样率进行第一预定数量数据点随机选取,并计算每一采样率对应的平均过零次数;
对所述噪声片段进行预定噪声类别匹配,从包括所述预定噪声类别及其对应音频的噪声数据库获得匹配的相应噪声类别音频,并根据所述预定采样率区间,在所述噪声类别音频中分别对应所述预定采样率区间中的每一采样率进行第二预定数量数据点随机选取,并计算每一采样率对应的平均过零次数;
根据所述噪声片段的每一采样率对应的平均过零次数与所述噪声类别音频的每一采样率对应的平均过零次数,确定所述语音流的采样率。
另一方面,提供了一种根据上述方案任一项所述的语音流采样率确定装置,包括:
获取模块,用于获取语音流的噪声片段;
第一计算模块,用于:根据预定采样率区间,在所述噪声片段中分别对应所述预定采样率区间中的每一采样率进行第一预定数量数据点随机选取,并计算每一采样率对应的平均过零次数;
第二计算模块,用于:对所述噪声片段进行预定噪声类别匹配,从包括所述预定噪声类别及其对应音频的噪声数据库获得匹配的相应噪声类别音频,并根据所述预定采样率区间,在所述噪声类别音频中分别对应所述预定采样率区间中的每一采样率进行第二预定数量数据点随机选取,并计算每一采样率对应的平均过零次数;
确定模块,用于:根据所述噪声片段的每一采样率对应的平均过零次数与所述噪声类别音频的每一采样率对应的平均过零次数,确定所述语音流的采样率。
本发明实施例提供的技术方案带来的有益效果是:
通过采样率未知的纯数据流类语音流中获取具有采样率代表性的噪声片段,通过计算该噪声片段在预定采样率区间内的每一采样率对应的平均过零次数,将该噪声片段与采样率已知的噪声类别音频进行噪声类别匹配,然后再通过在该确定噪声类别内计算得到的每一采样率对应的平均过零次数,与噪声片段的每一采样率对应的平均过零次数进行相对偏差计算,最终较高准确度地确定噪声片段的采样率,即上述采样率未知的纯数据流类语音流的采样率,克服现有技术中存在的缺陷,实现了高效的自动识别和确定纯数据流类语音的采样率,无需头文件信息、人工指定或约定,排除了人为限制因素的影响,不仅去除了耗费资源的人工标注环节,节约了人工标注成本,还降低了对待处理数据的格式要求。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的语音流采样率确定方法流程图;
图2是本发明实施例提供的语音流采样率确定装置结构示意图;
图3是应用实施例1的语音流采样率确定业务流程图;
图4是噪声数据库示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。在本发明的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。
本发明实施例提供的语音流采样率确定方法及装置,通过采样率未知的纯数据流类语音流中获取具有采样率代表性的噪声片段,通过计算该噪声片段在预定采样率区间内的每一采样率对应的平均过零次数,将该噪声片段与采样率已知的噪声类别音频进行噪声类别匹配,然后再通过在该确定噪声类别内计算得到的每一采样率对应的平均过零次数,与噪声片段的每一采样率对应的平均过零次数进行相对偏差计算,最终较高准确度地确定噪声片段的采样率,即上述采样率未知的纯数据流类语音流的采样率,克服现有技术中存在的缺陷,实现了高效的自动识别和确定纯数据流类语音的采样率,无需头文件信息、人工指定或约定,排除了人为限制因素的影响,不仅去除了耗费资源的人工标注环节,节约了人工标注成本,还降低了对待处理数据的格式要求。因此,该语音流采样率确定方法及装置适用于涉及需要确定采样率的各种纯数据流类语音流应用场景,尤其适用于pcm格式语音流的采样率确定场景。
下面结合具体实施例及附图,对本发明实施例提供的语音流采样率确定方法及装置详细说明。
图1是本发明实施例提供的语音流采样率确定方法流程图,如图1所示,本发明实施例提供的语音流采样率确定方法,包括以下步骤:
S1、获取语音流的噪声片段。
优选地,切分语音流头部和/或尾部的第一预定数量的数据点,获得短时噪声数据;其中,所述第一预定数量均不小于预定采样率区间中每一采样率下的单位采样数。由于在一个语音流中,头部或尾部背景噪声短时片段的采样率与整个语音流的采样率相同,因此可以从语音流中截取具有代表性的噪声片段,为后续计算确认采样率作准备,显然只要能够确定短时噪声数据的采样率,即确定了整段语音流的采样率。这里的预定采样率区间可以根据具体业务场景需要来定,例如在某一业务场景中,预定采样率区间包括8k、11.025k、16k、22.05k、32k和44.1k,此时这里的第一预定数量可以设定为不小于44.1k的单位采样数,方便地以每秒单位记,以下均同,那么第一预定数量可以设定为441000这样设置的目的是为了满足预定采样率区间中每一采样率下进行相应数据点的选取。
值得注意的是,步骤S1的过程,除了上述步骤所述的方式之外,在不脱离本发明发明构思的情况下,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
S2、根据预定采样率区间,在噪声片段中分别对应预定采样率区间中的每一采样率进行第一预定数量数据点随机选取,并计算每一采样率对应的平均过零次数。
优选地,根据预定采样率区间,分别以预定次数从噪声片段中的第一预定数量数据点中,选取每一采样率对应的每秒采样个数为数量的数据点,然后分别计算预定次数中每次的过零次数,再分别计算得到噪声片段每一采样率对应的平均过零次数。这里的预定次数可以根据具体情况进行选择,如10次,目的在于通过多次数据点选取计算,保障计算的精确度。
例如,根据包括8k、11.025k、16k、22.05k、32k和44.1k的预定采样率区间,分别以10次从噪声片段中的50000个数据点中,对应8k以10次随机选取8000个数据点,然后分别计算10次中每次的过零次数,计算得到噪声片段的8k平均过零次数;对应11.025k以10次随机选取11025个数据点,然后分别计算10次中每次的过零次数,计算得到噪声片段的11.025k平均过零次数;对应16k以10次随机选取16000个数据点,然后分别计算10次中每次的过零次数,计算得到噪声片段的16k平均过零次数;对应22.05k以10次随机选取22050个数据点,然后分别计算10次中每次的过零次数,计算得到噪声片段的22.05k平均过零次数;对应32k以10次随机选取32000个数据点,然后分别计算10次中每次的过零次数,计算得到噪声片段的32k平均过零次数;对应44.1k以10次随机选取44100个数据点,然后分别计算10次中每次的过零次数,计算得到噪声片段的44.1k平均过零次数。
值得注意的是,步骤S2的过程,除了上述步骤所述的方式之外,在不脱离本发明发明构思的情况下,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
S3、对噪声片段进行预定噪声类别匹配,从包括预定噪声类别及其对应音频的噪声数据库获得匹配的相应噪声类别音频,并根据预定采样率区间,在噪声类别音频中分别对应预定采样率区间中的每一采样率进行第二预定数量数据点随机选取,并计算每一采样率对应的平均过零次数。
优选地,通过预设相似度匹配方法对噪声片段进行预定噪声类别匹配,从包括预定噪声类别及其对应音频的噪声数据库获得匹配的相应噪声类别音频;根据预定采样率区间,分别以预定次数从噪声类别音频中的第二预定数量数据点中,选取每一采样率对应的每秒采样个数为数量的数据点,然后分别计算预定次数中每次的过零次数,再分别计算得到噪声类别音频每一采样率对应的平均过零次数。
进一步优选地,上述预设相似度匹配方法可以采用基于机器学习的噪声相似度匹配方法,匹配过程其实就是分类过程,即确定语音流噪声片段背景噪声属于噪声数据库中哪一噪声类别。在进行噪声片段的数据点选取时,取当前背景噪声数据,可以任意点数,不能太少,例如可以取2048个点,提取其频谱特征,在没有时间信息的情况下也是可以提取频谱的,不过频谱的横轴对应的频率是没有的,从噪声数据库中各个噪声同样分别提取它们的频谱特征,后续的数据输入将使用这些特征。示例性地,基于机器学习的噪声相似度匹配方法进行如下选择:1、基于机器学习的方法,比如使用SVM(支持向量机),比较老一点的方法;2、基于深度学习的方法,构建深度神经网络,可以构建为1层全连接输入层,3层CNN网络,1层softmax输出层。注意:对于没有优化过的SVM,只支持二分类问题,也就是说,只能将背景噪声和数据库中的噪声一个一个的对比,对于深度学习网络,可以多分类,即可以一次确定背景噪声属于噪声数据库中哪一种。另外优选地,这里的第一预定数量、第二预定数量均不小于441000。
例如,根据包括8k、11.025k、16k、22.05k、32k和44.1k的预定采样率区间,在噪声类别音频中,对应8k以20次随机选取8000个数据点,然后分别计算20次中每次的过零次数,计算得到噪声类别音频的8k平均过零次数,并添加8k标签;对应11.025k以20次随机选取11025个数据点,然后分别计算20次中每次的过零次数,计算得到噪声类别音频的11.025k平均过零次数,并添加11.025k标签;对应16k以20次随机选取16000个数据点,然后分别计算20次中每次的过零次数,计算得到噪声类别音频的16k平均过零次数,并添加16k标签;对应22.05k以20次随机选取22050个数据点,然后分别计算20次中每次的过零次数,计算得到噪声类别音频的22.05k平均过零次数,并添加22.05k标签;对应32k以20次随机选取32000个数据点,然后分别计算20次中每次的过零次数,计算得到噪声类别音频的32k平均过零次数,并添加32k标签;对应44.1k以20次随机选取44100个数据点,然后分别计算20次中每次的过零次数,计算得到噪声类别音频的44.1k平均过零次数,并添加44.1k标签。
值得注意的是,步骤S3的过程,除了上述步骤所述的方式之外,在不脱离本发明发明构思的情况下,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
S4、根据噪声片段的每一采样率对应的平均过零次数与噪声类别音频的每一采样率对应的平均过零次数,确定语音流的采样率。
优选地,将噪声片段的每一采样率对应的平均过零次数分别减去噪声类别音频的每一采样率对应的平均过零次数,然后再分别除以噪声类别音频的每一采样率对应的平均过零次数,获得每一采样率对应的相对偏差率,然后将最小相对偏差率对应的采样率确定为语音流的采样率。
值得注意的是,步骤S4的过程,除了上述步骤所述的方式之外,在不脱离本发明发明构思的情况下,还可以通过其他方式实现该过程,本发明实施例对具体的方式不加以限定。
另外,优选地,本发明实施例提供的语音流采样率确定方法还包括以下步骤:构建噪声数据库,噪声数据库包括多个噪声类别的带有时间轴和头部信息的噪声数据,每种噪声数据均选取采样率已知的音频数据,且每条音频数据长度不小于1秒钟,例如设定为10秒钟。
另外,优选地,重复循环操作S2至S4步骤,以进一步提高确定采样率的精确度。
图2是本发明实施例提供的语音流采样率确定装置结构示意图。如图2所示,本发明实施例提供的语音流采样率确定装置包括:
获取模块21,用于获取语音流的噪声片段;
第一计算模块22,用于:根据预定采样率区间,在噪声片段中分别对应预定采样率区间中的每一采样率进行第一预定数量数据点随机选取,并计算每一采样率对应的平均过零次数;
第二计算模块23,用于:对噪声片段进行预定噪声类别匹配,从包括预定噪声类别及其对应音频的噪声数据库获得匹配的相应噪声类别音频,并根据预定采样率区间,在噪声类别音频中分别对应预定采样率区间中的每一采样率进行第二预定数量数据点随机选取,并计算每一采样率对应的平均过零次数;
确定模块24,用于:根据噪声片段的每一采样率对应的平均过零次数与噪声类别音频的每一采样率对应的平均过零次数,确定语音流的采样率。
需要说明的是:上述实施例提供的语音流采样率确定装置在触发语音流采样率确定业务时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语音流采样率确定装置与语音流采样率确定方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
下面两个具体应用实施例,对本发明实施例提供的语音流采样率确定方案进一步说明。
应用实施例1
先简单介绍一下应用场景,在客服质检项目中,生产服务器会不断获取当前客服的通话录音,发送至语音识别引擎,该录音的格式为pcm,即无采样率等头部信息的纯数据流语音,在送入识别引擎识别之前,需要先判断采样率。这里,预定采样率区间包括8k、11.025k、16k、22.05k、32k和44.1k。
图3是应用实施例1的语音流采样率确定业务流程图。图4是噪声数据库示意图。如图3所示,语音流采样率确定业务操作过程,具体包括以下步骤:
S10:如图4所示,构建噪声数据库,包含常见类型噪声的常见采样率的不同音频。具体地,其中包含常见的各种类型的带有时间轴和头部信息的噪声数据,每种噪声数据均根据取常见不同采样率已知下的音频,每条音频数据长度不小于1秒,格式上不限制,包含头部信息等,然后共同构成噪声数据库。可根据业务场景的具体需要,示例性地,选择常见噪声的白噪声、粉红噪声、橙色噪声、蓝噪声、紫噪声、灰色噪声、棕色噪声和黑噪声,每种噪声分别使用8k、11.025k、16k、22.05k、32k和44.1k采样率的10秒有效噪声数据,共48条噪声数据构成噪声数据库。
S11:切分语音流头部或尾部数据点视为语音流的噪声片段。示例性地,获取业务方传输至服务器的一段pcm格式纯数据语音流,切分该语音流头部50000个数据点,数据点视为该语音流的短时噪声数据,显然只要能够判断短时噪声数据的采样率即为整段语音流的采样率。
S12:依据常见采样率,在噪声片段中多次随机连续选取不同采样率数值大小的1000倍个数的点,分别计算平均过零次数。以8k采样率为例,从所述短时噪声数据中多次随机连续选取8000个数据点,分别求取过零次数并计算均值,得到8000个数据点的平均过零次数,对其他常见采样率,同样的多次随机连续数据点,同样的方法计算得到各自的平均过零次数。示例性地,从上述50000个数据点中连续的随机选择8000个数据点,选择10次,计算其中过零次数为分别为3878、3893、3939、3895、3919、3980、3855、3900、3861和3915次,计算得到平均过零次数为3903.5次。同样的,分别计算得到11025、16000、22050、32000、44100个数据点的平均过零次数为5421.5、8096.6、10908.7、16146.2、22230.9次。
S13:在噪声数据库中对噪声片段进行相似度匹配,取匹配成功类型噪声的常见采样率的音频,计算所有的匹配平均过零次数,加上采样率标签。具体地,在噪声数据库中匹配噪声类型,对匹配成功后的噪声,取对应的该类型噪声的常见采样率的音频,以一秒钟为单位时间间隔,分别计算各个音频每一秒钟的过零次数并取均值,记为匹配平均过零次数,并带上采样率标签。示例性地,使用预设相似度匹配方法进行匹配,确认为白噪声。
S14:依次将S12中的平均过零次数与S13中的匹配平均过零次数求差值的绝对值,并除以相应的匹配平均过零次数得到相对偏差率,打上相应的采样率标签。具体地,分别计算S12中平均过零次数与S13中匹配平均过零次数之间的相对偏差率,即取平均过零次数与匹配平均过零次数之间差值的绝对值除以匹配平均过零次数,对每一个相对偏差率均打上S13中对应的匹配平均过零次数的采样率标签。示例性地,取噪声数据库中的8k的白噪声音频,由于采样率为8k,因此从白噪声的有效数据开始,每8000个点取一次,计算每一次的匹配过零次数,分别为:3914、3889、3912、3863、3876、3929、3888、3892、3886、3966次,对它们计算平均值,得到匹配平均过零次数为3901.5次。同样的方法,分别计算11.025k、16k、22.05k、32k和44.1k采样率的匹配平均过零此时为5233.8、7642.7、10184.2、14900.8和20148.3次。计算8k的偏差率为0.0512%;11.025k的偏差率为3.5863%;16k的偏差率为5.9390%;22.025k的偏差率为7.1140%;32k的偏差率为8.3579%;44.1k的偏差率为10.3364%。
S15:多次循环S12至S14,寻找最小的相对偏差率,其对应的采样率标签即为语音流的采样率。具体地,将所有保存的相对偏差率的最小值取出,此时该相对偏差率的采样率标签即为纯数据流语音的采样率。示例性地,最终偏差率最小的情况为0.0507%,对应的采样率标签为8k,因此可以判断这段pcm格式的语音流的采样率为8k。成功完成了对纯数据流语音采样率的确定。将该段pcm语音添加8k采样率标签,送入语音识别引擎识别,得到该段语音对应的文字为:“是的,这个您放心”。
应用实施例2
在某电商检测店员服务是否规范的应用场景中,通过各个小店的终端设备不断采录店员语音并送往生成服务器,生产服务器规整录音后发送至语音识别引擎,为了降低数据量,数据格式采用pcm,即无头部信息的纯数据语音流。因此需要判断语音流的采样率后,识别引擎根据采样率才能进行语音识别。
建立噪声数据库时,由于该电商业务版本具有餐厅、咖啡厅、便利店、社区服务等功能。因此,对于该项目的噪声难以用简单类型进行分类,需要根据实际采集。首先对10个小店在营业时间内采集噪声,通过处理和归类,共有19种(小店实地查看,大概是:拿取货物、取快递、取线上购买的蔬菜、开关冰柜、取快递、自助收费、收银台收费、喝咖啡、吃简餐、购买早餐、厨师做饭、交谈、打电话、金融推广、二手房推广、设备机器噪音、开关面包柜、开关门、外面街道汽车鸣笛等)。除了上述噪声数据库噪声类别分类维度上不同以满足具体业务应用场景外,其他语音流采样率确定业务操作流程均与应用实施例1相同,在此不再赘述。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
综上所述,本发明实施例提供的语音流采样率确定方法及装置,相比现有技术,具有以下有益效果:
通过采样率未知的纯数据流类语音流中获取具有采样率代表性的噪声片段,通过计算该噪声片段在预定采样率区间内的每一采样率对应的平均过零次数,将该噪声片段与采样率已知的噪声类别音频进行噪声类别匹配,然后再通过在该确定噪声类别内计算得到的每一采样率对应的平均过零次数,与噪声片段的每一采样率对应的平均过零次数进行相对偏差计算,最终较高准确度地确定噪声片段的采样率,即上述采样率未知的纯数据流类语音流的采样率,克服现有技术中存在的缺陷,实现了高效的自动识别和确定纯数据流类语音的采样率,无需头文件信息、人工指定或约定,排除了人为限制因素的影响,不仅去除了耗费资源的人工标注环节,节约了人工标注成本,还降低了对待处理数据的格式要求。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
本申请实施例中是参照根据本申请实施例中实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
Claims (10)
1.一种语音流采样率确定方法,其特征在于,所述方法包括:
获取语音流的噪声片段;
根据预定采样率区间,在所述噪声片段中分别对应所述预定采样率区间中的每一采样率进行第一预定数量数据点随机选取,并计算每一采样率对应的平均过零次数;
对所述噪声片段进行预定噪声类别匹配,从包括所述预定噪声类别及其对应音频的噪声数据库获得匹配的相应噪声类别音频,并根据所述预定采样率区间,在所述噪声类别音频中分别对应所述预定采样率区间中的每一采样率进行第二预定数量数据点随机选取,并计算每一采样率对应的平均过零次数;
根据所述噪声片段的每一采样率对应的平均过零次数与所述噪声类别音频的每一采样率对应的平均过零次数,确定所述语音流的采样率。
2.根据权利要求1所述的方法,其特征在于,获取语音流的噪声片段,包括:
切分所述语音流头部和/或尾部的所述第一预定数量的数据点,获得短时噪声数据;其中,所述第一预定数量均不小于所述预定采样率区间中每一采样率下的单位采样数。
3.根据权利要求2所述的方法,其特征在于,所述第一预定数量、第二预定数量均不小于441000。
4.根据权利要求1至3任一项所述的方法,其特征在于,根据预定采样率区间,在所述噪声片段中分别对应所述预定采样率区间中的每一采样率进行相应数据点随机选取,并计算每一采样率对应的平均过零次数,包括:
根据所述预定采样率区间,分别以预定次数从所述噪声片段中的所述第一预定数量数据点中,选取每一采样率对应的每秒采样个数为数量的数据点,然后分别计算所述预定次数中每次的过零次数,再分别计算得到所述噪声片段每一采样率对应的平均过零次数。
5.根据权利要求4所述的方法,其特征在于,根据所述预定采样率区间,在所述噪声类别音频中分别对应所述预定采样率区间中的每一采样率进行第二预定数量数据点随机选取,并计算每一采样率对应的平均过零次数,包括:
根据所述预定采样率区间,分别以所述预定次数从所述噪声类别音频中的所述第二预定数量数据点中,选取每一采样率对应的每秒采样个数为数量的数据点,然后分别计算所述预定次数中每次的过零次数,再分别计算得到所述噪声类别音频每一采样率对应的平均过零次数。
6.根据权利要求1所述的方法,其特征在于,对所述噪声片段进行预定噪声类别匹配,从包括所述预定噪声类别及其对应音频的噪声数据库获得匹配的相应噪声类别音频,包括:
通过预设相似度匹配方法对所述噪声片段进行预定噪声类别匹配,从包括所述预定噪声类别及其对应音频的噪声数据库获得匹配的相应噪声类别音频。
7.根据权利要求1、2、3或6任一项所述的方法,其特征在于,所述方法还包括:构建所述噪声数据库,所述噪声数据库包括多个噪声类别的带有时间轴和头部信息的噪声数据,每种噪声数据均选取采样率已知的音频数据,且每条音频数据长度不小于1秒钟。
8.根据权利要求1、2、3或6任一项所述的方法,其特征在于,根据所述噪声片段的每一采样率对应的平均过零次数与所述噪声类别音频的每一采样率对应的平均过零次数,确定所述语音流的采样率,包括:
将所述噪声片段的每一采样率对应的平均过零次数分别减去所述噪声类别音频的每一采样率对应的平均过零次数,然后再分别除以所述噪声类别音频的每一采样率对应的平均过零次数,获得所述每一采样率对应的相对偏差率,然后将最小相对偏差率对应的采样率确定为所述语音流的采样率。
9.根据权利要求1、2、3或6任一项所述的方法,其特征在于,重复循环操作以下步骤:
根据预定采样率区间,在所述噪声片段中分别对应所述预定采样率区间中的每一采样率进行第一预定数量数据点随机选取,并计算每一采样率对应的平均过零次数;
对所述噪声片段进行预定噪声类别匹配,从包括所述预定噪声类别及其对应音频的噪声数据库获得匹配的相应噪声类别音频,并根据所述预定采样率区间,在所述噪声类别音频中分别对应所述预定采样率区间中的每一采样率进行第二预定数量数据点随机选取,并计算每一采样率对应的平均过零次数;
根据所述噪声片段的每一采样率对应的平均过零次数与所述噪声类别音频的每一采样率对应的平均过零次数,确定所述语音流的采样率。
10.一种根据权利要求1至9任一项所述的语音流采样率确定装置,其特征在于,
获取模块,用于获取语音流的噪声片段;
第一计算模块,用于:根据预定采样率区间,在所述噪声片段中分别对应所述预定采样率区间中的每一采样率进行第一预定数量数据点随机选取,并计算每一采样率对应的平均过零次数;
第二计算模块,用于:对所述噪声片段进行预定噪声类别匹配,从包括所述预定噪声类别及其对应音频的噪声数据库获得匹配的相应噪声类别音频,并根据所述预定采样率区间,在所述噪声类别音频中分别对应所述预定采样率区间中的每一采样率进行第二预定数量数据点随机选取,并计算每一采样率对应的平均过零次数;
确定模块,用于:根据所述噪声片段的每一采样率对应的平均过零次数与所述噪声类别音频的每一采样率对应的平均过零次数,确定所述语音流的采样率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010137066.0A CN111341302B (zh) | 2020-03-02 | 2020-03-02 | 一种语音流采样率确定方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010137066.0A CN111341302B (zh) | 2020-03-02 | 2020-03-02 | 一种语音流采样率确定方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111341302A true CN111341302A (zh) | 2020-06-26 |
CN111341302B CN111341302B (zh) | 2023-10-31 |
Family
ID=71179780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010137066.0A Active CN111341302B (zh) | 2020-03-02 | 2020-03-02 | 一种语音流采样率确定方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111341302B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113936694A (zh) * | 2021-12-17 | 2022-01-14 | 珠海普林芯驰科技有限公司 | 人声实时检测方法、计算机装置及计算机可读存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101557443A (zh) * | 2009-05-11 | 2009-10-14 | 重庆金美通信有限责任公司 | 数字电话会议的桥路运算方法 |
CN101894564A (zh) * | 2010-07-09 | 2010-11-24 | 中国科学院声学研究所 | 一种采样率差异估计与校正方法 |
US20130236032A1 (en) * | 2012-03-06 | 2013-09-12 | Ati Technologies Ulc | Adjusting a data rate of a digital audio stream based on dynamically determined audio playback system capabilities |
CN103745726A (zh) * | 2013-11-07 | 2014-04-23 | 中国电子科技集团公司第四十一研究所 | 一种自适应的变采样率音频采样方法 |
CN103886860A (zh) * | 2014-02-21 | 2014-06-25 | 联想(北京)有限公司 | 一种信息处理方法和电子设备 |
US20140330415A1 (en) * | 2011-11-10 | 2014-11-06 | Nokia Corporation | Method and apparatus for detecting audio sampling rate |
US9191260B1 (en) * | 1999-04-05 | 2015-11-17 | Lightworks Ii, Llc | Method and apparatus to determine a match between signals |
CN107919136A (zh) * | 2017-11-13 | 2018-04-17 | 河海大学 | 一种基于高斯混合模型的数字语音采样频率估计方法 |
CN109478198A (zh) * | 2016-05-20 | 2019-03-15 | 弗劳恩霍夫应用研究促进协会 | 用于确定相似度信息的装置、用于确定相似度信息的方法、用于确定自相关信息的装置、用于确定互相关信息的装置以及计算机程序 |
US10332543B1 (en) * | 2018-03-12 | 2019-06-25 | Cypress Semiconductor Corporation | Systems and methods for capturing noise for pattern recognition processing |
CN110265046A (zh) * | 2019-07-25 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 一种编码参数调控方法、装置、设备及存储介质 |
-
2020
- 2020-03-02 CN CN202010137066.0A patent/CN111341302B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9191260B1 (en) * | 1999-04-05 | 2015-11-17 | Lightworks Ii, Llc | Method and apparatus to determine a match between signals |
CN101557443A (zh) * | 2009-05-11 | 2009-10-14 | 重庆金美通信有限责任公司 | 数字电话会议的桥路运算方法 |
CN101894564A (zh) * | 2010-07-09 | 2010-11-24 | 中国科学院声学研究所 | 一种采样率差异估计与校正方法 |
US20140330415A1 (en) * | 2011-11-10 | 2014-11-06 | Nokia Corporation | Method and apparatus for detecting audio sampling rate |
US20130236032A1 (en) * | 2012-03-06 | 2013-09-12 | Ati Technologies Ulc | Adjusting a data rate of a digital audio stream based on dynamically determined audio playback system capabilities |
CN103745726A (zh) * | 2013-11-07 | 2014-04-23 | 中国电子科技集团公司第四十一研究所 | 一种自适应的变采样率音频采样方法 |
CN103886860A (zh) * | 2014-02-21 | 2014-06-25 | 联想(北京)有限公司 | 一种信息处理方法和电子设备 |
CN109478198A (zh) * | 2016-05-20 | 2019-03-15 | 弗劳恩霍夫应用研究促进协会 | 用于确定相似度信息的装置、用于确定相似度信息的方法、用于确定自相关信息的装置、用于确定互相关信息的装置以及计算机程序 |
CN107919136A (zh) * | 2017-11-13 | 2018-04-17 | 河海大学 | 一种基于高斯混合模型的数字语音采样频率估计方法 |
US10332543B1 (en) * | 2018-03-12 | 2019-06-25 | Cypress Semiconductor Corporation | Systems and methods for capturing noise for pattern recognition processing |
CN110265046A (zh) * | 2019-07-25 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 一种编码参数调控方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
MUBARAK OBAID ALQAHTANI 等: "Environment Sound Recognition using Zero Crossing Features and MPEG-7" * |
张婷 等: "基于小波及能量熵的带噪语音端点检测算法" * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113936694A (zh) * | 2021-12-17 | 2022-01-14 | 珠海普林芯驰科技有限公司 | 人声实时检测方法、计算机装置及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111341302B (zh) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109117777A (zh) | 生成信息的方法和装置 | |
CN103117903B (zh) | 上网流量异常检测方法及装置 | |
CN112510841B (zh) | 配电自动化的拓扑识别方法及装置 | |
CN111681681A (zh) | 语音情绪识别方法、装置、电子设备及存储介质 | |
CN109388697A (zh) | 处理问答语料的方法、装置及电子终端 | |
CN112307472A (zh) | 基于智能决策的异常用户识别方法、装置及计算机设备 | |
CN112258254B (zh) | 基于大数据架构的互联网广告风险监测方法及系统 | |
CN109285011A (zh) | 一种智能客户回访方法、装置及设备 | |
CN109189902A (zh) | 自动应答咨询的方法及装置 | |
CN111932130A (zh) | 业务类型识别方法及装置 | |
Phan et al. | Multi-view audio and music classification | |
CN107515852A (zh) | 特定类型信息识别方法及装置 | |
CN111027838A (zh) | 一种众包任务推送方法、装置、设备及其存储介质 | |
CN113282623A (zh) | 数据处理方法及装置 | |
CN111341302A (zh) | 一种语音流采样率确定方法及装置 | |
CN108492132A (zh) | 一种利用音频特征识别的广告监播投放系统及方法 | |
CN108460633A (zh) | 一种广告音频采集识别系统的建立方法及其用途 | |
CN113627547B (zh) | 训练方法、电弧检测方法、装置、电子设备及存储介质 | |
CN111401478B (zh) | 数据异常识别方法以及装置 | |
CN109615458A (zh) | 客户管理方法、装置、终端设备及计算机可读存储介质 | |
CN109933784B (zh) | 一种文本识别方法和装置 | |
JP2022534160A (ja) | 情報を出力するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム | |
CN111368131A (zh) | 用户关系识别方法、装置、电子设备及存储介质 | |
CN113554438B (zh) | 账号的识别方法、装置、电子设备及计算机可读介质 | |
CN109885668A (zh) | 一种可扩展的领域人机对话系统状态跟踪方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |