CN113284514B - 音频处理方法和装置 - Google Patents
音频处理方法和装置 Download PDFInfo
- Publication number
- CN113284514B CN113284514B CN202110547979.4A CN202110547979A CN113284514B CN 113284514 B CN113284514 B CN 113284514B CN 202110547979 A CN202110547979 A CN 202110547979A CN 113284514 B CN113284514 B CN 113284514B
- Authority
- CN
- China
- Prior art keywords
- audio
- sequence
- frame
- detected
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 11
- 239000012634 fragment Substances 0.000 claims abstract description 25
- 238000000034 method Methods 0.000 claims description 47
- 238000012545 processing Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 12
- 238000009432 framing Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 abstract description 4
- 238000001514 detection method Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 13
- 238000000605 extraction Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 241001672694 Citrus reticulata Species 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000033764 rhythmic process Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 230000003238 somatosensory effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种音频处理方法和装置,通过确定待检测音频和对应的标准文本,对待检测音频对应的音频片段进行特征提取确定对应的音频特征。并行对各所述音频特征解码,得到对应于至少一个根据表征文本确定的语音单位序列的解码概率序列,以根据述解码概率序列计算待检测音频对应的至少一个发音特征,评价待检测音频的可靠性。本发明实施例通过将待检测音频划分为多个音频片段,并行对各音频片段提取得到的音频特征进行解码,以确定待检测音频的可靠性,提升了音频检测效率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种音频处理方法和装置。
背景技术
目前语音处理被广泛应用在语音学习领域中,对人机交互过程中获取的语音进行测评,以评价用户发音的流畅程度和准确程度。现有技术中对语音测评服务的处理速度较慢,测评效率低下且使用者实时体验效果不佳。
发明内容
有鉴于此,本发明实施例提供了一种音频处理方法和装置,旨在提高语音测评过程中的处理效率,提高使用者的实时交互体验。
第一方面,本发明实施例提供了一种音频处理方法,所述方法包括:
确定待检测音频和对应的标准文本;
确定所述待检测音频对应的音频片段;
对各所述音频片段进行特征提取,以确定对应的音频特征,所述音频特征中包括多个按顺序排列的帧特征;
并行对各所述音频特征解码,得到对应于至少一个语音单位序列的解码概率序列,各所述语音单位序列根据标准文本确定,包括多个按顺序排列的语音元素,所述解码概率序列中包括多个解码概率,各所述解码概率用于表征音频特征中的对应帧特征对应于各所述语音元素的概率;
根据各所述解码概率序列计算待检测音频对应的至少一个发音特征;
根据各所述发音特征确定待检测音频的可靠性。
进一步地,所述确定所述待检测音频对应的音频片段包括:
按预定分割规则分割待检测音频,得到多个按顺序排列的音频片段。
进一步地,所述对各所述音频片段进行特征提取,以确定对应的音频特征包括:
在各所述音频片段中确定目标音频片段;
对所述目标音频片段进行分帧处理以确定对应的帧序列;
依次确定所述帧序列中各帧的帧特征;
根据顺序排列的各所述帧特征确定所述目标音频片段对应的音频特征。
进一步地,所述依次确定所述帧序列中各帧的帧特征包括:
依次提取所述帧序列中各帧的Fbank特征、能量特征和基频特征;
根据各帧对应的Fbank特征、能量特征和基频特征确定帧特征。
进一步地,所述方法还包括:
根据对应音频片段的顺序将各所述音频特征依次加入特征队列。
进一步地,所述并行对各所述音频特征解码包括:
根据预设规则从所述特征队列中依次获取多个音频特征;
通过多个线程并行对各所述音频特征进行特征解码。
进一步地,所述并行对各所述音频特征解码包括:
确定所述标准文本对应的语音单位序列,所述语音单位序列中的各所述语音元素中包括至少一个语音单位,所述语音单位为音素、单词、句子以及段落中的一个;
对各所述音频特征进行解码,以确定各所述帧特征对应于各所述语音元素的解码概率;
根据各所述音频特征对应的多个解码概率确定对应的解码概率序列。
进一步地,所述发音特征包括流利特征、发音特征、节奏特征和准确特征中的至少一个。
进一步地,所述根据各所述发音特征确定待检测音频的可靠性包括:
将各所述发音特征输入预先训练得到的可靠性模型,以输出对应的可靠性。
第二方面,本发明实施例提供了一种计算机可读存储介质,用于存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面中任一项所述的方法。
第三方面,本发明实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面中任一项所述的方法。
本发明实施例通过确定待检测音频和对应的标准文本,对待检测音频对应的音频片段进行特征提取确定对应的音频特征。并行对各所述音频特征解码,得到对应于至少一个根据表征文本确定的语音单位序列的解码概率序列,以根据述解码概率序列计算待检测音频对应的至少一个发音特征,评价待检测音频的可靠性。本发明实施例通过将待检测音频划分为多个音频片段,并行对各音频片段提取得到的音频特征进行解码,以确定待检测音频的可靠性,提升了音频检测效率。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1为本发明实施例的音频处理方法的流程图;
图2为本发明实施例的确定音频片段过程的示意图;
图3为本发明实施例的提取音频特征过程的示意图;
图4为本发明实施例的音频解码过程的示意图;
图5为本发明实施例的计算发音特征过程的示意图;
图6为本发明实施例的确定待检测音频可靠性过程的示意图;
图7为本发明实施例的电子设备的示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本发明实施例的音频处理方法可以通过服务器或具有音频处理功能的终端设备实现,用于对语音交互过程中接收到的语音信息进行检测,从流畅度、准确度、韵律以及发音等维度判断语音信息的可靠性。其中,服务器可以为单个的服务器、多个服务器组成的服务器集群。服务器中包括用于执行本发明实施例数据处理方法的处理器。终端设备可以为用于具有通信功能和音频处理功能的通用终端,例如计算机和智能手机等。可选地,服务器中包括的处理器可以包括GPU(Graphics Processing Unit,图形处理器)。
图1为本发明实施例的音频处理方法的流程图。如图1所示,本发明实施例的音频处理方法包括以下步骤:
步骤S100、确定待检测音频和对应的标准文本。
具体地,待检测音频和对应的标准文本通过服务器确定,以根据对应得到标准文本对待检测音频进行音频处理,得到待检测音频对应的可靠性。其中,待检测音频的确定方式可以为,通过与服务器通信连接的终端设备采集,并在采集后上传至服务器。以本发明实施例的服务器为英语学习平台服务器为例进行说明。英语学习平台的注册用户通过与安装对应英语学习软件的终端设备进行语音交互的方式进行英语学习,例如根据阅读英语学习软件提供的语句,或者回答英语学习软件提供的问题等。终端设备采集用户阅读语句生成的音频信息作为待检测音频,发送至服务器。
进一步地,标准文本为内容与待检测音频对应的文本,可以通过与服务器连接的终端设备发送。以本发明实施例的服务器为英语学习平台服务器为例进行说明。当待检测音频为用户阅读英语学习平台提供的英文语句时,该英文语句即为待检测音频对应的标准文本。可选地,终端设备可以在上传待检测音频的同时直接将对应的标准文本也上传至服务器。例如,当英文学习平台要求用户阅读英文语句“I am a student”时,终端设备采集用户阅读“I am a student”生成的音频信息作为待检测音频,同时确定“I am a student”为标准文本,将待检测音频和标准文本一同上传至服务器。
另一方面,服务器中还可以存储多个文本信息,在确定待检测音频后,服务器直接根据待检测音频的内容在存储的多个文本信息中搜索确定标准文本。例如,在语言学习软件中,服务器的存储器中可以存储多个语言文本信息。当服务器接收到待检测音频后,服务器可以根据与其一同发送的文本标识在语言文本信息中搜索对应的标准文本。例如,当待检测音频为用户阅读语言学习软件提供的文章A的第五段第一句话生成的音频信息时,终端设备还可以在上传待检测音频的同时上传对应的文本标识“文章A第五段第一句”,服务器可以直接根据文本标识在存储的多个语音文本信息中确定标识文本。可选地,服务器还可以直接获取待检测音频中包括的内容,即将待检测音频转换成文本信息,再根据转换得到的文本在存储的多个文本信息中搜索确定标准文本。
在本发明实施例中,服务器确定待检测音频和对应的标准文本的方式可以根据不同应用场景进行设定,包括但不限于上述确定方式。
步骤S200、确定所述待检测音频对应的音频片段。
具体地,服务器在确定待检测音频后,进一步确定其对应的至少一个音频片段,各音频片段为待检测音频中的一部分。可选地,各音频片段可以具有对应的执行顺序,以通过服务器按对应的顺序对各音频片段进行处理。在本发明实施例中,服务器可以按预定分割规则分割待检测音频,得到多个按顺序排列的音频片段。预定分割规则可以根据应用场景以及需要设定。可选地,服务器中可以维护一个音频片段队列,以将各音频片段按顺序存储在音频片段队列中,服务器依次从音频片段队列中取出至少一个音频片段进行处理。
可选地,服务器预先确定一个片段长度,从待检测音频的第一帧开始由前到后,每经过一个片段长度切割一次待检测音频以确定一个音频片段,直到切割到待检测音频的最后一帧。例如,当待检测音频长度为200帧,且预设的片段长度为70帧时,服务器在待检测音频的第70帧和第140帧的位置切割待检测音频,以得到按顺序排列的音频片段1、音频片段2和音频片段3三个音频片段。其中,音频片段1为待检测音频第1帧到第70帧的波形信息,音频片段2为待检测音频第71帧到140帧的波形信息,音频片段3为待检测音频第141帧到200帧的波形信息。
或者,服务器还可以设定音频片段数量,将待检测音频切割为预设数量个差异在预设帧数范围内的音频片段。以音频片段数量为3,预设帧数范围为1帧为例进行说明。当待检测音频长度为200帧时,服务器可以在待检测音频的第63帧和126帧的位置切割待检测音频,以得到按顺序排列的音频片段1、音频片段2和音频片段3三个音频片段。其中,音频片段1为待检测音频第1帧到第63帧的波形信息,音频片段2为待检测音频第64帧到126帧的波形信息,音频片段3为待检测音频第127帧到200帧的波形信息。当待检测音频长度为210帧时,服务器可以在待检测音频的第70帧和140帧的位置切割待检测音频,以得到按顺序排列的音频片段1、音频片段2和音频片段3三个音频片段。其中,音频片段1为待检测音频第1帧到第70帧的波形信息,音频片段2为待检测音频第71帧到140帧的波形信息,音频片段3为待检测音频第141帧到210帧的波形信息。
图2为本发明实施例的确定音频片段过程的示意图。如图2所示,本发明实施例的待检测音频20为一段波形信息,服务器根据预定分割规则在时域上分割待检测音频20的波形,得到多个按顺序排列的音频片段21。各音频片段21的顺序根据其波形信息在待检测音频20中的位置确定。
步骤S300、对各所述音频片段进行特征提取,以确定对应的音频特征。
具体地,服务器分别对待检测音频对应的各音频片段进行特征提取,得到对应于各音频片段的音频特征。在本发明实施例中,服务器对各音频片段进行特征提取的过程可以为,先在多个音频片段中确定至少一个目标音频片段,对目标音频片段进行特征提取后,再重新在未进行特征提取的音频片段中确定目标音频片段进行特征提取,直到完成待检测音频对应的全部音频片段的特征提取过程。
例如,当服务器中维护音频片段队列时,服务器从音频片段队列中按顺序获取2个音频片段作为目标音频片段,并行进行特征提取。进一步地,在完成目标音频片段的特征提取后,再从音频片段队列中重新获取2个音频片段作为新的目标音频片段进行特征提取,直到音频片段队列中存储的全部音频片段均完成特征提取过程。
进一步地,服务器对目标音频片段进行特征提取的过程为先对目标音频片段进行分帧处理,得到由按顺序排列的多帧波形组成的帧序列。进一步地,依次提取帧序列中各帧的帧特征,以根据顺序排列的各帧特征确定目标音频片段对应的音频特征。也就是说,音频特征相当于一个帧特征序列,包括多个按顺序排列的帧特征,各帧特征的排序位置与其对应的帧在帧序列中的位置相同。其中,各帧的帧特征为一个多维向量,可以包括对应帧的Fbank特征、能量特征和基频特征中的至少一种。
可选地,本发明实施例服务器确定各帧对应帧特征的过程为提取对应帧的Fbank特征、能量特征和基频特征,再根据各帧对应的Fbank特征、能量特征和基频特征确定帧特征。其中,Fbank特征的提取方式可以为通过对帧的波形进行傅里叶变化的方式,将对应帧由时域信号转换为频域信号,再计算频域信号的能量谱后进行梅尔滤波得到对应帧的Fbank特征。能量特征(energy)的提取方式可以为对对应帧进行傅里叶变换,然后对复平面中的幅值求均方根。基频特征(pitch)可以通过YIN算法处理对应帧得到。
进一步地,通过对一个帧提取的Fbank特征、能量特征和基频特征中的至少一种确定帧向量的方式可以为,直接拼接Fbank特征、能量特征和基频特征对应的向量,得到帧向量。例如,当服务器对一帧波形信号进行特征提取得到的Fbank特征为(特征1,特征2,…,特征N),能量特征为“特征P”,基频特征为“特征Q”时,服务器确定对应的帧特征为(特征1,特征2,…,特征N,特征P,特征Q)。
图3为本发明实施例的提取音频特征过程的示意图。如图3所示,本发明实施例提取音频特征的过程为先确定目标音频片段30,再对目标音频片段30进行分帧处理得到其中包括的多个音频帧31。例如,当目标音频片段30的长度为20帧时,服务器分帧后得到20个音频帧31。进一步地,服务器对各音频帧31进行特征提取,得到与各音频帧31对应的帧特征32。服务器根据各帧特征32对应音频帧31的位置对各帧特征32进行排序,以确定对应的帧特征序列为音频特征。例如,当服务器确定了1-N个音频帧时,音频特征为(帧特征1,帧特征2,…,帧特征N)。
进一步地,服务器中还维护一个用于缓存音频特征的特征队列。在确定各音频片段对应的音频特征后,服务器根据对应音频片段的顺序依次将各音频特征加入特征队列,以按顺序获取特征队列中的音频特征进行处理,保证各音频特征执行顺序。
步骤S400、并行对各所述音频特征解码,得到对应于至少一个语音单位序列的解码概率序列。
具体地,服务器通过多个线程并行对各音频特征进行解码,得到各音频特征对应于至少一个语音单位序列的解码概率序列。在本发明实施例中,各语音单位序列根据标准文本确定,包括多个按顺序排列的语音元素,例如音素、单词、句子以及段落。也就是说,各语音单位序列可以为标准文本对应的音素序列、单词序列、句子序列或段落序列。解码序列中包括多个解码概率,分别用于表征对应音频特征中的每一帧对应于语音单位序列中的各语音元素的概率。
可选地,当服务器中维护用于缓存音频特征的特征队列时,服务器依次从特征队列中获取多个音频特征,以通过多个线程并行对各音频特征进行解码。进一步地,在解码之后再从特征队列中依次获取音频特征进行解码,直到特征队列中的音频特征均被解码完成。
在本发明实施例中,服务器确定语音单位序列的方式可以为通过N-gram构图方式处理标准文本,得到语音单位序列,或者,服务器还可以直接通过对标准文本进行强制对齐的方式确定语音单位序列。语音单位序列包括多个按顺序排列的语音元素,各语音元素中包括至少一个语音单位,其中语音单位为音素、单词、句子以及段落中的一个。
以本发明实施例的标准文本为“普通话”为例进行说明。服务器在确定标准文本对应的音素序列为语音单位序列时,确定标准文本中的文字“普”对应的音节为“pu”,文字“通”对应的音节为“tong”,文字“话”对应的音节为“hua”。同时,音节“pu”对应的音素依次为“p”和“u”,音节“tong”对应的音素依次为“t”、“o”和“ng”,音节“hua”对应的音素依次为“h”、“u”和“a”。因此,各语音元素分别为各音节对应音素组成的音素向量,即“普”对应的语音元素为(“p”,“u”),“通”对应的语音元素为(“t”,“o”,“ng”),“话”对应的语音元素为(“h”,“u”,“a”),即最终确定的语音单位序列为{(“p”,“u”),(“t”,“o”,“ng”),(“h”,“u”,“a”)}。
另一方面,当服务器确定标准文本对应的单词序列为语音单位序列时,直接确定标准文本“普通话”中各文字“普”、“通”和“话”分别为语音元素,组成的语音单位序列为{“普”,“通”,“话”}。
进一步地,服务器在确定标准文本对应的至少一个语音单位序列后,将各语音单位序列作为解码图,分别对各音频特征进行解码,得到音频特征中各帧特征对应于语音单位序列中各语音元素的概率作为解码概率。或者,确定各帧特征对应于语音单位序列中各语音单位的概率作为解码概率。再根据各解码概率确定音频特征的解码概率序列。
以本发明实施例的标准文本为“普通话”,对应的语音单位序列包括音素序列{(“p”,“u”),(“t”,“o”,“ng”),(“h”,“u”,“a”)}和单词序列{“普”,“通”,“话”}为例进行说明。对于包括“帧特征1”,“帧特征2”和“帧特征3”的目标音频特征,服务器对目标音频特征解码后得到分别对应于音素序列的解码概率序列1和对应于单词序列的解码概率序列2。其中,解码概率序列1为{(0.8,0.12,0.03,0.05,0,0,0,0),(0.15,0.76,0.04,0.05,0,0),(0,0,0,0.01,0.03,0.91,0.06,0)},其中包括的八维解码概率中的每一个维度分别表征帧特征对应于音素序列中的各音素的概率。例如,(0.8,0.12,0.03,0.05,0,0,0,0)中的各值由前到后分别表征帧特征1对应帧的内容为“p”、“u”、“t”、“o”、“ng”、“h”、“u”和“a”的概率。
另一方面,解码概率序列2{(0.8,0.2,0),(0.1,0.8,0.1),(0.01,0.09,0.9)},其中包括的三维解码概率中的每一个维度分别表征帧特征对应于单词序列中的各单词的概率。例如,(0.8,0.2,0)中的各值由前到后分别表征帧特征1对应帧的内容为“普”,“通”和“话”的概率。
图4为本发明实施例的音频解码过程的示意图。如图4所示,本发明实施例的服务器中可以维护特征队列40,服务器在进行特征提取后将音频特征41按顺序存入特征队列40中。进一步地,服务器分配多个线程42,用于根据一个语音单位序列对特征队列40中的各音频特征41进行并行解码,得到对应的解码概率序列43。例如,当服务器分配3个线程42进行音频特征41解码时,服务器先从特征队列40中顺序获取三个音频特征41,通过3个线程42并行对音频特征41进行处理,并且每个线程42在处理完成后在特征队列40中获取下一个音频特征41进行解码,直到将特征队列40中的全部音频特征41解码完成。
步骤S500、根据各所述解码概率序列计算待检测音频对应的至少一个发音特征。
具体地,由于各解码概率序列用于表征对应各帧特征对应于各语音单位的概率,即音频片段中的各帧包含的内容为对应语音单位的概率。服务器在确定音频特征对应的解码概率序列后,可以通过向量合并等方式得到待检测音频中各帧内容表征标准文本对应至少一个语音单位序列中语音单位的概率。例如,当标准文本为“普通话”,语音单位序列为音素序列时,服务器得到待检测语音中各帧的内容对应于“p”、“u”、“t”、“o”、“ng”、“h”、“u”和“a”的概率。
因此,服务器可以根据各解码概率序列计算得到待检测音频的发音特征,其中包括流利特征、发音特征、节奏特征和准确特征中的至少一个。可选地,服务器确定至少一个发音特征的方式可以为将对应于同一语音单位序列的各解码概率序列输入预设的特征模型中,输出对应的至少一个发音特征评分。进一步地,还可以计算基于各语音单位序列确定的至少一个发音特征评分的加权和,得到待检测音频对应的至少一个发音特征。或者,服务器将对应于同一语音单位序列的各解码概率序列拼接后输入预设的特征模型中,输出对应的至少一个发音特征评分,直接作为待检测音频对应的至少一个发音特征。或者,服务器还可以采用现有技术中任意根据解码概率确定发音特征的方式,得到待检测音频的流利特征、发音特征、节奏特征和准确特征中的至少一个,在此不做限制。
图5为本发明实施例的计算发音特征过程的示意图。如图5所示,服务器在确定待检测音频中各音频片段对应的多个解码概率序列50后,计算各解码概率序列50得到对应于待检测音频对应的至少一个发音特征51,用于评价待检测音频的发音是否流利、准确。
步骤S600、根据各所述发音特征确定待检测音频的可靠性。
具体地,由于各发音特征用于从不同方向评价待检测音频的是否可靠,服务器在确定待检测音频对应的各发音特征后,根据各发音特征一同评价待检测音频的整体可靠性。可选地,服务器可以将各发音特征输入预先训练得到的可靠性模型,以输出待检测音频对应的可靠性。或者,服务器还可以通过计算各发音特征的加权和确定待检测音频对应的可靠性。可选地,本发明实施例的可靠性模型为xgboost模型,相对于传统的打分方法具有更强的信道鲁棒性。
图6为本发明实施例的确定待检测音频可靠性过程的示意图。如图6所示,本发明实施例确定可靠性的方式为由服务器确定待检测音频对应的多个发音特征60,将各所述发音特征60一同输入训练得到的可靠性模型61,输出待检测音频的可靠性62。
本发明实施例通过确定待检测音频和对应的标准文本,对待检测音频对应的音频片段进行特征提取确定对应的音频特征。并行对各所述音频特征解码,得到对应于至少一个根据表征文本确定的语音单位序列的解码概率序列,以根据述解码概率序列计算待检测音频对应的至少一个发音特征,评价待检测音频的可靠性。本发明实施例通过将待检测音频划分为多个音频片段,并行对各音频片段提取得到的音频特征进行解码,以确定待检测音频的可靠性,提升了音频检测效率。
图7是本发明实施例的电子设备的示意图。如图7所示,图7所示的电子设备为通用地址查询装置,其包括通用的计算机硬件结构,其至少包括处理器70和存储器71。处理器70和存储器71通过总线72连接。存储器71适于存储处理器70可执行的指令或程序。处理器70可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器70通过执行存储器71所存储的指令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线72将上述多个组件连接在一起,同时将上述组件连接到显示控制器73和显示装置以及输入/输出(I/O)装置74。输入/输出(I/O)装置74可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置74通过输入/输出(I/O)控制器75与系统相连。
本领域的技术人员应明白,本申请的实施例可提供为方法、装置(设备)或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。
本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。
这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现流程图一个流程或多个流程中指定的功能。
也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。
本发明的另一实施例涉及一种非易失性存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (11)
1.一种音频处理方法,其特征在于,所述方法包括:
确定待检测音频和对应的标准文本,所述标准文本为内容与待检测音频对应的文本;
确定所述待检测音频对应的音频片段;
对各所述音频片段进行特征提取,以确定对应的音频特征,所述音频特征中包括多个按顺序排列的帧特征;
并行对各所述音频特征解码,得到对应于至少一个语音单位序列的解码概率序列,各所述语音单位序列根据标准文本确定,包括多个按顺序排列的语音元素,所述解码概率序列中包括多个解码概率,各所述解码概率用于表征音频特征中的对应帧特征对应于各所述语音元素的概率,所述语音单位序列中的各所述语音元素中包括至少一个语音单位,所述语音单位为音素、单词、句子以及段落中的一个;
根据各所述解码概率序列计算待检测音频对应的至少一个发音特征;
根据各所述发音特征确定待检测音频的可靠性。
2.根据权利要求1所述的方法,其特征在于,所述确定所述待检测音频对应的音频片段包括:
按预定分割规则分割所述待检测音频,得到多个按顺序排列的音频片段。
3.根据权利要求1所述的方法,其特征在于,所述对各所述音频片段进行特征提取,以确定对应的音频特征包括:
在各所述音频片段中确定目标音频片段;
对所述目标音频片段进行分帧处理以确定对应的帧序列;
依次确定所述帧序列中各帧的帧特征;
根据顺序排列的各所述帧特征确定所述目标音频片段对应的音频特征。
4.根据权利要求3所述的方法,其特征在于,所述依次确定所述帧序列中各帧的帧特征包括:
依次提取所述帧序列中各帧的Fbank特征、能量特征和基频特征;
根据各帧对应的Fbank特征、能量特征和基频特征确定帧特征。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
根据对应音频片段的顺序将各所述音频特征依次加入特征队列。
6.根据权利要求5所述的方法,其特征在于,所述并行对各所述音频特征解码包括:
根据预设规则从所述特征队列中依次获取多个音频特征;
通过多个线程并行对各所述音频特征进行特征解码。
7.根据权利要求1所述的方法,其特征在于,所述并行对各所述音频特征解码包括:
确定所述标准文本对应的语音单位序列;
对各所述音频特征进行解码,以确定各所述帧特征对应于各所述语音元素的解码概率;
根据各所述音频特征对应的多个解码概率确定对应的解码概率序列。
8.根据权利要求1所述的方法,其特征在于,所述发音特征包括流利特征、发音特征、节奏特征和准确特征中的至少一个。
9.根据权利要求1所述的方法,其特征在于,所述根据各所述发音特征确定待检测音频的可靠性包括:
将各所述发音特征输入预先训练得到的可靠性模型,以输出对应的可靠性。
10.一种计算机可读存储介质,用于存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-9中任一项所述的方法。
11.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110547979.4A CN113284514B (zh) | 2021-05-19 | 2021-05-19 | 音频处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110547979.4A CN113284514B (zh) | 2021-05-19 | 2021-05-19 | 音频处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113284514A CN113284514A (zh) | 2021-08-20 |
CN113284514B true CN113284514B (zh) | 2023-06-16 |
Family
ID=77280045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110547979.4A Active CN113284514B (zh) | 2021-05-19 | 2021-05-19 | 音频处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113284514B (zh) |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100842754B1 (ko) * | 2006-12-08 | 2008-07-01 | 한국전자통신연구원 | 조음 특징의 신뢰도를 이용한 음성 인식 방법 및 장치 |
CN103035238B (zh) * | 2012-11-27 | 2014-09-17 | 中国科学院自动化研究所 | 音频数据的编码方法及解码方法 |
FR3041140B1 (fr) * | 2015-09-15 | 2017-10-20 | Dassault Aviat | Reconnaissance vocale automatique avec detection d'au moins un element contextuel, et application au pilotage et a la maintenance d'un aeronef |
CN105976812B (zh) * | 2016-04-28 | 2019-04-26 | 腾讯科技(深圳)有限公司 | 一种语音识别方法及其设备 |
CN107944316B (zh) * | 2017-10-16 | 2019-08-02 | 西北大学 | 一种反向散射协议中多标签信号并行解码方法及系统 |
CN109473123B (zh) * | 2018-12-05 | 2022-05-31 | 百度在线网络技术(北京)有限公司 | 语音活动检测方法及装置 |
CN109743731B (zh) * | 2019-03-05 | 2020-01-10 | 深圳大学 | 基于物理层认证的urllc系统的性能评估方法及系统 |
CN112562676B (zh) * | 2020-11-13 | 2023-12-29 | 北京捷通华声科技股份有限公司 | 一种语音解码方法、装置、设备及存储介质 |
CN112614514B (zh) * | 2020-12-15 | 2024-02-13 | 中国科学技术大学 | 有效语音片段检测方法、相关设备及可读存储介质 |
-
2021
- 2021-05-19 CN CN202110547979.4A patent/CN113284514B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113284514A (zh) | 2021-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106575502B (zh) | 用于在合成语音中提供非词汇线索的系统和方法 | |
US11810471B2 (en) | Computer implemented method and apparatus for recognition of speech patterns and feedback | |
CN109686383B (zh) | 一种语音分析方法、装置及存储介质 | |
WO2019056500A1 (zh) | 电子装置、语音合成方法和计算机可读存储介质 | |
EP3349125A1 (en) | Language model generation device, language model generation method and program therefor, voice recognition device, and voice recognition method and program therefor | |
CN110459202B (zh) | 一种韵律标注方法、装置、设备、介质 | |
JP5824829B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP5561123B2 (ja) | 音声検索装置と音声検索方法 | |
CN111369974B (zh) | 一种方言发音标注方法、语言识别方法及相关装置 | |
US20160071511A1 (en) | Method and apparatus of smart text reader for converting web page through text-to-speech | |
KR20210016767A (ko) | 음성 인식 방법 및 음성 인식 장치 | |
CN109166569B (zh) | 音素误标注的检测方法和装置 | |
CN113327574A (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
CN110853669B (zh) | 音频识别方法、装置及设备 | |
CN112927677B (zh) | 语音合成方法和装置 | |
CN114627896A (zh) | 语音评测方法、装置、设备及存储介质 | |
CN112735379B (zh) | 语音合成方法、装置、电子设备和可读存储介质 | |
US9928754B2 (en) | Systems and methods for generating recitation items | |
JP4859125B2 (ja) | 発音評定装置、およびプログラム | |
CN113284514B (zh) | 音频处理方法和装置 | |
JP6366179B2 (ja) | 発話評価装置、発話評価方法、及びプログラム | |
CN116052655A (zh) | 音频处理方法、装置、电子设备和可读存储介质 | |
CN112634861B (zh) | 数据处理方法、装置、电子设备和可读存储介质 | |
JP6009396B2 (ja) | 発音付与方法とその装置とプログラム | |
CN112951204B (zh) | 语音合成方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |