CN117351928A - 语音数据处理方法、装置、计算机设备和存储介质 - Google Patents
语音数据处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN117351928A CN117351928A CN202210762067.3A CN202210762067A CN117351928A CN 117351928 A CN117351928 A CN 117351928A CN 202210762067 A CN202210762067 A CN 202210762067A CN 117351928 A CN117351928 A CN 117351928A
- Authority
- CN
- China
- Prior art keywords
- voice
- voice data
- data
- speech
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 9
- 239000012634 fragment Substances 0.000 claims abstract description 50
- 238000012545 processing Methods 0.000 claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 36
- 108091026890 Coding region Proteins 0.000 claims description 35
- 238000006243 chemical reaction Methods 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 28
- 238000000605 extraction Methods 0.000 claims description 13
- 230000000873 masking effect Effects 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000005316 response function Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000009827 uniform distribution Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0356—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for synchronising with other signals, e.g. video signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L2013/021—Overlap-add techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种语音数据处理方法、装置、计算机设备和存储介质。该方法包括:获取相同语音说话者对应的至少两个语音数据和对应的语音文本内容;从各语音数据中提取得到对应的语音特征;根据各语音特征与对应的语音文本内容得到各语音数据中各语音字词段对应的对齐结果;根据各对齐结果从对应的语音数据中获取各语音字词段对应的语音片段;将各语音片段进行拼接,得到语音说话者对应的目标语音数据。采用本方法能够利用语音数据拼接的方式,通过对至少两种不同的语音数据的内容进行拼接,产生了具有新的文本内容的语音数据,提高语音数据的多样性。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种语音数据处理方法、装置、计算机设备和存储介质。
背景技术
自动语音识别是人工智能应用的一个重要方向,并发展成为一个具有广阔前景的新兴高技术产业。随着移动互联网时代的到来,人们对智能化的需求促进智能语音技术获得了很大的发展,越来越多的智能设备开始使用语音识别技术来完成交互,比如智能汽车,智能手机以及智能音箱等。在进行对音频的语音识别处理时往往需要先进行模型训练。不管针对哪种语音识别模型,训练样本的数据量始终与模型训练的好坏相关联。所使用的训练样本越多越丰富多样,那么训练得到的语音识别模型的泛化能力越强,且精度越高。
目前,主流的语音数据增强技术包括音量变换、音高变换、音频加噪、时域掩码、频域掩码及语音合成(tts)生成等技术。其中,音量变换、音高变换、音频加噪、时域掩码及频域掩码这五种技术只能进行音频特性的变换,不能改变语音数据具体描述的内容,因此,使得产生的语音数据对应的内容比较单一。
发明内容
基于此,有必要针对上述技术问题,提供一种语音数据处理方法、装置、计算机设备和存储介质,能够利用语音数据拼接的方式,通过对至少两种不同的语音数据的内容进行拼接,产生了具有新的文本内容的语音数据,提高语音数据的多样性。
一种语音数据处理方法,该方法包括:
获取相同语音说话者对应的至少两个语音数据和对应的语音文本内容;
从各语音数据中提取得到对应的语音特征;
根据各语音特征与对应的语音文本内容得到各语音数据中各语音字词段对应的对齐结果;
根据各对齐结果从对应的语音数据中获取各语音字词段对应的语音片段;
将各语音片段进行拼接,得到语音说话者对应的目标语音数据。
在其中一个实施例中,从各语音数据中提取得到对应的语音特征,包括:获取目标维度的滤波器组,将各语音数据输入至目标维度的滤波器组,通过滤波器组对各语音数据进行特征提取,得到各语音数据对应的语音特征。
在其中一个实施例中,根据各语音特征与对应的语音文本内容得到各语音数据中各语音字词段对应的对齐结果,包括:将各语音特征输入至目标语音对齐网络中,得到各语音特征对应的语音特征编码序列,根据各语音特征编码序列与对应的语音文本内容进行对齐处理,得到各语音数据中各语音字词段对应的对齐结果。
在其中一个实施例中,根据各语音特征编码序列与对应的语音文本内容进行对齐处理,得到各语音数据中各语音字词段对应的对齐结果,包括:对各语音特征编码序列对应的语音文本内容进行分割处理,得到对应的多个语音字词段,根据各语音特征编码序列获取相应的各语音字词段对应的语音时间分割点,将各语音字词段与对应的语音时间分割点进行对齐,得到各语音数据中各语音字词段对应的对齐结果。
在其中一个实施例中,根据各对齐结果从对应的语音数据中获取各语音字词段对应的语音片段,包括:获取各对齐结果对应的语音数据,根据各对齐结果中的各语音字词段对匹配的语音数据进行分割,得到各语音字词段对应的语音片段。
在其中一个实施例中,将各语音片段进行拼接,得到语音说话者对应的目标语音数据,包括:获取各语音片段对应的语音片段文本内容,根据语音片段文本内容将各语音片段进行拼接,得到语音说话者对应的目标语音数据。
在其中一个实施例中,将各语音片段进行拼接,得到语音说话者对应的目标语音数据之后,还包括:对目标语音数据进行第一操作,得到处理后的第一目标语音数据,其中,第一操作包括音频加噪变换和/或音频加混响变换;对第一目标语音数据进行第二操作,得到处理后的第二目标语音数据,其中,第二操作包括音量变换、音高变换、时域掩码、频域掩码、速度扰动、声道长度扰动中的任一种或几种。
一种语音数据处理装置,该装置包括:
第一获取模块,用于获取相同语音说话者对应的至少两个语音数据和对应的语音文本内容;
提取模块,用于从各语音数据中提取得到对应的语音特征;
处理模块,用于根据各语音特征与对应的语音文本内容得到各语音数据中各语音字词段对应的对齐结果;
第二获取模块,用于根据各对齐结果从对应的语音数据中获取各语音字词段对应的语音片段;
拼接模块,用于将各语音片段进行拼接,得到语音说话者对应的目标语音数据。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取相同语音说话者对应的至少两个语音数据和对应的语音文本内容;
从各语音数据中提取得到对应的语音特征;
根据各语音特征与对应的语音文本内容得到各语音数据中各语音字词段对应的对齐结果;
根据各对齐结果从对应的语音数据中获取各语音字词段对应的语音片段;
将各语音片段进行拼接,得到语音说话者对应的目标语音数据。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取相同语音说话者对应的至少两个语音数据和对应的语音文本内容;
从各语音数据中提取得到对应的语音特征;
根据各语音特征与对应的语音文本内容得到各语音数据中各语音字词段对应的对齐结果;
根据各对齐结果从对应的语音数据中获取各语音字词段对应的语音片段;
将各语音片段进行拼接,得到语音说话者对应的目标语音数据。
上述语音数据处理方法、装置、计算机设备和存储介质,获取相同语音说话者对应的至少两个语音数据和对应的语音文本内容,从各语音数据中提取得到对应的语音特征,根据各语音特征与对应的语音文本内容得到各语音数据中各语音字词段对应的对齐结果,根据各对齐结果从对应的语音数据中获取各语音字词段对应的语音片段,将各语音片段进行拼接,得到语音说话者对应的目标语音数据。因此,通过语音数据拼接的方式,对相同语音说话者的至少两种不同语音数据的内容进行拼接,产生具有新的文本内容的目标语音数据,提高语音数据的多样性。
附图说明
图1为一个实施例中语音数据处理方法的应用环境图;
图2为一个实施例中语音数据处理方法的流程示意图;
图3为一个实施例中语音数据特征提取步骤的流程示意图;
图4为一个实施例中语音数据对齐步骤的流程示意图;
图5为一个实施例中对齐结果获取步骤的流程示意图;
图6为一个实施例中语音片段获取步骤的流程示意图;
图7为一个实施例中语音片段拼接步骤的流程示意图;
图8为一个实施例中目标语音数据处理步骤的流程示意图;
图9为一个实施例中语音数据处理装置的结构框图;
图10为一个实施例中计算机设备的内部结构图;
图11为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的语音数据处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备或智能车辆的智能车机设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
具体地,终端102获取相同语音说话者对应的至少两个语音数据和对应的语音文本内容,并发送至服务器104。服务器104从各语音数据中提取得到对应的语音特征,根据各语音特征与对应的语音文本内容得到各语音数据中各语音字词段对应的对齐结果,根据各对齐结果从对应的语音数据中获取各语音字词段对应的语音片段,将各语音片段进行拼接,得到语音说话者对应的目标语音数据。
在另一个实施例中,终端102获取相同语音说话者对应的至少两个语音数据和对应的语音文本内容,从各语音数据中提取得到对应的语音特征,根据各语音特征与对应的语音文本内容得到各语音数据中各语音字词段对应的对齐结果,根据各对齐结果从对应的语音数据中获取各语音字词段对应的语音片段,将各语音片段进行拼接,得到语音说话者对应的目标语音数据。
在一个实施例中,如图2所示,提供了一种语音数据处理方法,以该方法应用于图1中的终端或服务器为例进行说明,包括以下步骤:
步骤202,获取相同语音说话者对应的至少两个语音数据和对应的语音文本内容。
其中,可以通过音频方式记录各语音说话者对应的语音数据,每一语音说话者对应的语音数据都关联着对应的语音文本内容,其中语音数据包括音频数据,语音文本内容是以文字的形式描述语音数据所表达的具体的内容。具体地,获取语音说话者标识,根据语音说话者标识从原始语音库中的候选语音数据集中获取相同语音说话者对应的至少两个语音数据,各语音数据关联有对应的语音文本内容。也就是说,至少两个语音数据是同一语音说话者发出的,语音数据都存在对应的语音文本内容。其中,原始语音库是用来存储各语音说话者对应的语音数据的,可以通过语音采集设备采集各语音说话者对应的语音数据,将语音数据与语音说话者的语音说话者标识进行关联存储至原始语音库中,
步骤204,从各语音数据中提取得到对应的语音特征。
其中,语音特征是语音数据对应的特征数据,可以从语音数据中提取得到,即语音特征是描述语音数据特征相关的数据。具体可以是,获取语音特征提取算法,根据语音特征提取算法对各语音数据进行语音特征计算,得到各语音数据对应的语音特征。或者还可以是,借助语音特征提取设备,例如滤波器组,通过语音特征提取设备对各语音数据进行特征提取,得到各语音数据对应的语音特征。其中,这里的语音特征可以是fbank滤波器组特征。
步骤206,根据各语音特征与对应的语音文本内容得到各语音数据中各语音字词段对应的对齐结果。
具体地,在得到各语音数据对应的语音特征后,根据各语音特征与对应的语音文本内容可以得到各语音数据中的各语音字词段对应的对齐结果。其中,语音字词段是组成语音文本内容的语音词语。
具体可以是获取预先训练好的目标语音对齐网络,将各语音特征与对应的语音文本内容输入至目标语音对齐网络,通过目标语音对齐网络对各语音特征与对应的语音文本内容进行处理,强制对齐语音特征与对应的语音文本内容,进一步地获取各语音字词段对应的对齐结果。其中,对齐结果可以是语音字词段与对应的语音时间分割点的对齐,可以理解为:对齐结果描述了语音字词段与对应的语音时间分割点的对齐关系。而所谓语音时间分割点是语音字词段在所处语音数据中的具体时间段。例如,语音字词段为:今天,对应的语音时间分割点为:0.8s-1.234s。
其中,还可以是对语音文本内容进行分割,得到多个语音字词段,根据各语音词语与对应的语音特征进行对齐,得到各语音字词段对应的对齐结果。具体可以是,先对语音文本内容进行分割,可以是根据语音文本内容中词语的搭配习惯或者语法习惯等进行分割,得到多个语音字词段,再根据多个语音字词段到所在的语音数据中获取对应的语音时间分割点。例如,语音字词段为:“今天”,语音字词段“今天”在所处的语音数据中的具体时间段为:0.8s-1.2s,即对齐结果为:
今天0.8s-1.2s。
步骤208,根据各对齐结果从对应的语音数据中获取各语音字词段对应的语音片段。
其中,对齐结果中描述语音数据中各语音字词段对应的语音特征,可以通过对齐结果中的各语音字词段对应的语音特征,从对应的语音数据中提取出匹配的语音片段。具体地,获取各对齐结果中描述的各语音字词段对应的语音特征,根据语音特征从匹配的语音数据中提取出该语音字词段对应的语音频段。
步骤210,将各语音片段进行拼接,得到语音说话者对应的目标语音数据。
具体地,在得到各语音片段后,可以将各语音片段进行拼接,得到语音说话者对应的目标语音数据,其中,目标语音数据与原始的语音数据属于同一语音说话者,但是文本内容是完全不一样的,目标语音数据对应的目标语音文本内容是全新的,是根据原始的语音数据以及对应的语音文本内容进行衍生得到的。也就是说,可以将同一语音说话者对应的语音数据以及语音文本内容进行上述方法描述的拼接处理方式,能够产生具有新的语音文本内容的目标语音数据。
例如:相同语音说话者的两个语音数据以及对应的语音文本内容为:
原始语音数据1:有没有去中国人民大学的公交车。
原始语音数据2:北京理工大学现在的交通状况是怎样的。
产生的新语音数据句子:有没有去北京理工大学的公交车。
上述语音数据处理方法中,获取相同语音说话者对应的至少两个语音数据和对应的语音文本内容,从各语音数据中提取得到对应的语音特征,根据各语音特征与对应的语音文本内容得到各语音数据中各语音字词段对应的对齐结果,根据各对齐结果从对应的语音数据中获取各语音字词段对应的语音片段,将各语音片段进行拼接,得到语音说话者对应的目标语音数据。因此,通过语音数据拼接的方式,对相同语音说话者的至少两种不同语音数据的内容进行拼接,产生具有新的文本内容的目标语音数据,提高语音数据的多样性。
在一个实施例中,如图3所示,从各语音数据中提取得到对应的语音特征,包括:
步骤302,获取目标维度的滤波器组。
步骤304,将各语音数据输入至目标维度的滤波器组,通过滤波器组对各语音数据进行特征提取,得到各语音数据对应的语音特征。
其中,目标维度可以预先根据实际业务需求、实际产品需求或实际应用场景进行确定得到的,也可以根据大量样本数据进行确定得到。例如,目标维度可以是40维。
具体地,获取目标维度的滤波器组,如,获取40维的滤波器组,通过目标维度的滤波器组对各语音数据进行语音特征提取,即将各语音数据输入至目标维度的滤波器组,通过目标维度的滤波器组对各语音数据进行语音特征提取,得到各语音数据对应的语音特征。例如,目标维度为40维,则最终提取出40维的滤波器组特征,即语音特征。
在一个实施例中,如图4所示,根据各语音特征与对应的语音文本内容得到各语音数据中各语音字词段对应的对齐结果,包括:
步骤402,将各语音特征输入至目标语音对齐网络中,得到各语音特征对应的语音特征编码序列。
步骤404,根据各语音特征编码序列与对应的语音文本内容进行对齐处理,得到各语音数据中各语音字词段对应的对齐结果。
其中,目标语音对齐网络可以是DNN-HMM语音识别网络,可以预先训练得到。具体地,获取预先训练好的目标语音对齐网络,将提取出的各语音特征输入至目标语音对齐网络中,通过目标语音对齐网络对各语音特征进行解码处理,得到各语音特征对应的语音特征编码序列。其中,语音特征编码序列是更好地应用产生对齐结果的,语音特征编码序列是判断哪一帧语音数据(音频数据)属于哪一个因素的概率,因素可以是语音文本内容的语音字词段,例如,第一帧音频数据(0.8s-0.9s)属于语音字词段“今”的概率最大为99%,第一帧音频数据(0.8s-0.9s)属于语音字词段“气”的概率为15%。因此,可以通过语音特征编码序列与语音文本内容进行对齐,可以得到对齐结果。
进一步地,再根据语音特征对应的语音特征编码序列与对应的语音文本内容进行对齐处理,得到各语音数据中各语音字词段对应的对齐结果。其中,具体可以是,根据语音特征编码序列获取语音文本内容中各语音字词段对应的语音时间分割点,将语音时间分割点与对应的语音字词段进行对齐,得到对应的对齐结果。例如,语音特征编码序列中描述了第一帧音频数据(0.8s-1.2s)属于语音字词段“今天”的概率最大为99%,语音字词段是从语音文本内容中分割得到的,因此,语音字词段“今天”与第一帧音频数据所在的语音时间分割点(0.8s-1.2s)进行对齐,得到对齐结果:
今天0.8s-1.2s。
在一个实施例中,如图5所示,根据各语音特征编码序列与对应的语音文本内容进行对齐处理,得到各语音数据中各语音字词段对应的对齐结果,包括:
步骤502,对各语音特征编码序列对应的语音文本内容进行分割处理,得到对应的多个语音字词段。
步骤504,根据各语音特征编码序列获取相应的各语音字词段对应的语音时间分割点。
步骤506,将各语音字词段与对应的语音时间分割点进行对齐,得到各语音数据中各语音字词段对应的对齐结果。
具体地,对各语音特征编码序列对应的语音文本内容进行分割处理,分割处理可以根据语音文本内容中各词语之间的搭配习惯、语法结构等进行分割,得到各语音文本内容对应的多个语音字词段,即语音字词段可以理解为组成语音文本内容对应的词语。
进一步地,根据各语音特征编码序列获取相应的各语音字词段对应的语音时间分割点,语音时间分割点是各语音字词段在语音数据中所播放的时间段,可以根据语音特征编码序列中获取得到。最后,再将各语音字词段与对应的语音时间分割点进行对齐,得到各语音数据中各语音字词段对应的对齐结果。其中,对齐可以是,将各语音字词段与对应的语音时间分割点进行绑定,将绑定后的各语音字词段与对应的语音时间分割点作为对齐结果。
例如,对齐结果可以是:
今天0.8001.234
天气1.2341.627
如何1.7501.900
就是说,0.8s到1.234s音频说的是“今天”,以此类推。
在一个实施例中,如图6所示,根据各对齐结果从对应的语音数据中获取各语音字词段对应的语音片段,包括:
步骤602,获取各对齐结果对应的语音数据。
步骤604,根据各对齐结果中的各语音字词段对匹配的语音数据进行分割,得到各语音字词段对应的语音片段。
具体地,获取各对齐结果对应的语音数据,由于对齐结果中描述了各语音字词段与对应的语音时间分割点,因此,可以根据对齐结果中描述的语音时间分割点对语音数据进行分割,得到各语音字词段对应的语音片段。例如,对齐结果为:
今天0.8001.234
天气1.2341.627
如何1.7501.900
因此,可以根据各语音字词段对应的时间分割点对语音数据“今天天气如何”进行语音片段分割,得到各语音字词段对应的语音片段,如“今天”对应的语音片段为原始语音数据中的0.8s至1.234s,以此类推,得到各语音数据中各语音字词段对应的语音片段。
在一个实施例中,如图7所示,将各语音片段进行拼接,得到语音说话者对应的目标语音数据,包括:
步骤702,获取各语音片段对应的语音片段文本内容。
步骤704,根据语音片段文本内容将各语音片段进行拼接,得到语音说话者对应的目标语音数据。
其中,在得到各语音数据中各语音字词段对应的语音片段后,可以将各语音片段进行拼接,得到具有新的文本内容的目标语音数据。具体地,获取各语音片段对应的语音片段文本内容,根据语音片段文本内容的词性、语法、具体描述内容等对各语音片段进行拼接,得到新的文本内容的目标语音数据。其中,词性可以是名词、动词、形容词等,语法可以是主语、谓语、宾语等。
例如:各语音片段对应的语音片段文本内容:有没有/去/中国人民大学/的/公交车,北京理工大学/现在/的/交通状况/是/怎样/的,根据语音片段文本内容的词性进行拼接,可以得到目标语音数据对应的目标语音文本为:有没有去北京理工大学的公交车,和中国人民大学现在的交通状况是怎样的,即最后得到两种新的不同于原始语音数据的语音文本内容的目标语音数据。
在一个实施例中,如图8所示,将各语音片段进行拼接,得到语音说话者对应的目标语音数据之后,还包括:
步骤802,对目标语音数据进行第一操作,得到处理后的第一目标语音数据,其中,第一操作包括音频加噪变换和/或音频加混响变换。
步骤804,对第一目标语音数据进行第二操作,得到处理后的第二目标语音数据,其中,第二操作包括音量变换、音高变换、时域掩码、频域掩码、速度扰动、声道长度扰动中的任一种或几种。
其中,在得到目标语音数据后,可以对目标语音数据进行处理,具体可以是,获取第一操作,第一操作可以是音频加噪变换和/或音频加混响变换,根据第一操作对目标语音数据进行语音处理,得到处理后的第一目标语音数据。其中第一操作可以是音频加噪变换、音频加混响变换中的至少一种,具体可以根据实际业务需求、实际产品需求或实际应用场景确定。
进一步地,在得到处理后的第一目标语音数据后,获取第二操作,第二操作可以是音量变换、音高变换、时域掩码、频域掩码、速度扰动、声道长度扰动中的任一种或几种,再根据第二操作对处理后的第一目标语音数据进行语音处理,得到处理后的第二目标语音数据。其中,第二操作可以是音量变换、音高变换、时域掩码、频域掩码、速度扰动、声道长度扰动中的至少一种。
例如,对目标语音数据进行音频加噪变换,采用随机选择噪声及信噪比的方式,得到带噪的音频数据集,公式如下:
y[t]=x[t]+n[t]
其中,x[t]为目标语音数据,n[t]为噪声信号,y[t]为带噪的音频信号。
对目标语音数据进行音频加混响变换,,随机选择房间冲激响应函数,得到带混响的音频数据集,公式如下:
y[n]=x[n]*h[n]
其中,x[n]为目标语音数据,h[n]为房间冲激响应函数,y[n]为加混响后产生的音频信号。
例如,对第一目标语音数据进行音量变换处理,公式如下:
y=x·gain
其中x为第一目标语音数据,gain为增益因子,y为音量变换后的音频采样。
对第一目标语音数据进行音高变换处理,音调发生变化,时长保持不变。
对第一目标语音数据进行时域掩码处理,t个连续的时间步[t_0,t_0+t]被屏蔽,t选自从0到时间掩码参数T的均匀分布,并且t_0选自[0,T-t)。其中T是音频时长按分帧手段获取的长度。
对第一目标语音数据进行频域掩码处理频域[f,f_0+f)被屏蔽。f是从0到频率掩码参数F的均匀分布中选择的,f_0是从(0,v-f)中选择的,其中v是频率通道的数量,比如80维的FBank特征。
对第一目标语音数据进行速度扰动处理,采用线形插值法。
对第一目标语音数据进行声道长度扰动处理,作用在滤波器组特征上面的。首先,第i个滤波器的中心频率可以表示为:
其中,Fmin=0Hz,Fmax=8000Hz。然后,设置一个弯折因子α,中心频率f被映射为新的频率f',公式如下:
其中,S为采样频率,Fhi=4800Hz。在这些弯折的新频率点上产生三角滤波组响应即为新的滤波器组特征fbank。
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图9所示,提供了一种语音数据处理装置900,包括:第一获取模块902、提取模块904、处理模块906、第二获取模块908和拼接模块910,其中:
第一获取模块902,用于获取相同语音说话者对应的至少两个语音数据和对应的语音文本内容。
提取模块904,用于从各语音数据中提取得到对应的语音特征。
处理模块906,用于根据各语音特征与对应的语音文本内容得到各语音数据中各语音字词段对应的对齐结果。
第二获取模块908,用于根据各对齐结果从对应的语音数据中获取各语音字词段对应的语音片段。
拼接模块910,用于将各语音片段进行拼接,得到语音说话者对应的目标语音数据。
在一个实施例中,提取模块904获取目标维度的滤波器组,将各语音数据输入至目标维度的滤波器组,通过滤波器组对各语音数据进行特征提取,得到各语音数据对应的语音特征。
在一个实施例中,处理模块906将各语音特征输入至目标语音对齐网络中,得到各语音特征对应的语音特征编码序列,根据各语音特征编码序列与对应的语音文本内容进行对齐处理,得到各语音数据中各语音字词段对应的对齐结果。
在一个实施例中,处理模块906对各语音特征编码序列对应的语音文本内容进行分割处理,得到对应的多个语音字词段,根据各语音特征编码序列获取相应的各语音字词段对应的语音时间分割点,将各语音字词段与对应的语音时间分割点进行对齐,得到各语音数据中各语音字词段对应的对齐结果。
在一个实施例中,第二获取模块908获取各对齐结果对应的语音数据,根据各对齐结果中的各语音字词段对匹配的语音数据进行分割,得到各语音字词段对应的语音片段。
在一个实施例中,拼接模块910获取各语音片段对应的语音片段文本内容,根据语音片段文本内容将各语音片段进行拼接,得到语音说话者对应的目标语音数据。
在一个实施例中,语音数据处理装置900对目标语音数据进行第一操作,得到处理后的第一目标语音数据,其中,第一操作包括音频加噪变换和/或音频加混响变换,对第一目标语音数据进行第二操作,得到处理后的第二目标语音数据,其中,第二操作包括音量变换、音高变换、时域掩码、频域掩码、速度扰动、声道长度扰动中的任一种或几种。
关于语音数据处理装置的具体限定可以参见上文中对于语音数据处理方法的限定,在此不再赘述。上述语音数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音数据处理方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音数据处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图10或图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取相同语音说话者对应的至少两个语音数据和对应的语音文本内容;从各语音数据中提取得到对应的语音特征;根据各语音特征与对应的语音文本内容得到各语音数据中各语音字词段对应的对齐结果;根据各对齐结果从对应的语音数据中获取各语音字词段对应的语音片段;将各语音片段进行拼接,得到语音说话者对应的目标语音数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取目标维度的滤波器组,将各语音数据输入至目标维度的滤波器组,通过滤波器组对各语音数据进行特征提取,得到各语音数据对应的语音特征。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将各语音特征输入至目标语音对齐网络中,得到各语音特征对应的语音特征编码序列,根据各语音特征编码序列与对应的语音文本内容进行对齐处理,得到各语音数据中各语音字词段对应的对齐结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对各语音特征编码序列对应的语音文本内容进行分割处理,得到对应的多个语音字词段,根据各语音特征编码序列获取相应的各语音字词段对应的语音时间分割点,将各语音字词段与对应的语音时间分割点进行对齐,得到各语音数据中各语音字词段对应的对齐结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取各对齐结果对应的语音数据,根据各对齐结果中的各语音字词段对匹配的语音数据进行分割,得到各语音字词段对应的语音片段。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取各语音片段对应的语音片段文本内容,根据语音片段文本内容将各语音片段进行拼接,得到语音说话者对应的目标语音数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对目标语音数据进行第一操作,得到处理后的第一目标语音数据,其中,第一操作包括音频加噪变换和/或音频加混响变换,对第一目标语音数据进行第二操作,得到处理后的第二目标语音数据,其中,第二操作包括音量变换、音高变换、时域掩码、频域掩码、速度扰动、声道长度扰动中的任一种或几种。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取相同语音说话者对应的至少两个语音数据和对应的语音文本内容;从各语音数据中提取得到对应的语音特征;根据各语音特征与对应的语音文本内容得到各语音数据中各语音字词段对应的对齐结果;根据各对齐结果从对应的语音数据中获取各语音字词段对应的语音片段;将各语音片段进行拼接,得到语音说话者对应的目标语音数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取目标维度的滤波器组,将各语音数据输入至目标维度的滤波器组,通过滤波器组对各语音数据进行特征提取,得到各语音数据对应的语音特征。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将各语音特征输入至目标语音对齐网络中,得到各语音特征对应的语音特征编码序列,根据各语音特征编码序列与对应的语音文本内容进行对齐处理,得到各语音数据中各语音字词段对应的对齐结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对各语音特征编码序列对应的语音文本内容进行分割处理,得到对应的多个语音字词段,根据各语音特征编码序列获取相应的各语音字词段对应的语音时间分割点,将各语音字词段与对应的语音时间分割点进行对齐,得到各语音数据中各语音字词段对应的对齐结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取各对齐结果对应的语音数据,根据各对齐结果中的各语音字词段对匹配的语音数据进行分割,得到各语音字词段对应的语音片段。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取各语音片段对应的语音片段文本内容,根据语音片段文本内容将各语音片段进行拼接,得到语音说话者对应的目标语音数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对目标语音数据进行第一操作,得到处理后的第一目标语音数据,其中,第一操作包括音频加噪变换和/或音频加混响变换,对第一目标语音数据进行第二操作,得到处理后的第二目标语音数据,其中,第二操作包括音量变换、音高变换、时域掩码、频域掩码、速度扰动、声道长度扰动中的任一种或几种。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种语音数据处理方法,所述方法包括:
获取相同语音说话者对应的至少两个语音数据和对应的语音文本内容;
从各所述语音数据中提取得到对应的语音特征;
根据各所述语音特征与对应的语音文本内容得到各所述语音数据中各语音字词段对应的对齐结果;
根据各所述对齐结果从对应的语音数据中获取各所述语音字词段对应的语音片段;
将各所述语音片段进行拼接,得到所述语音说话者对应的目标语音数据。
2.根据权利要求1所述的方法,其特征在于,所述从各所述语音数据中提取得到对应的语音特征,包括:
获取目标维度的滤波器组;
将各所述语音数据输入至所述目标维度的滤波器组,通过所述滤波器组对各所述语音数据进行特征提取,得到各所述语音数据对应的语音特征。
3.根据权利要求1所述的方法,其特征在于,所述根据各所述语音特征与对应的语音文本内容得到各所述语音数据中各语音字词段对应的对齐结果,包括:
将各所述语音特征输入至目标语音对齐网络中,得到各所述语音特征对应的语音特征编码序列;
根据各所述语音特征编码序列与对应的语音文本内容进行对齐处理,得到各所述语音数据中各语音字词段对应的对齐结果。
4.根据权利要求3所述的方法,其特征在于,所述根据各所述语音特征编码序列与对应的语音文本内容进行对齐处理,得到各所述语音数据中各语音字词段对应的对齐结果,包括:
对各所述语音特征编码序列对应的语音文本内容进行分割处理,得到对应的多个语音字词段;
根据各所述语音特征编码序列获取相应的各所述语音字词段对应的语音时间分割点;
将各所述语音字词段与对应的语音时间分割点进行对齐,得到各所述语音数据中各语音字词段对应的对齐结果。
5.根据权利要求1所述的方法,其特征在于,所述根据各所述对齐结果从对应的语音数据中获取各所述语音字词段对应的语音片段,包括:
获取各所述对齐结果对应的语音数据;
根据各所述对齐结果中的各所述语音字词段对匹配的语音数据进行分割,得到各所述语音字词段对应的语音片段。
6.根据权利要求1所述的方法,其特征在于,所述将各所述语音片段进行拼接,得到所述语音说话者对应的目标语音数据,包括:
获取各所述语音片段对应的语音片段文本内容;
根据所述语音片段文本内容将各所述语音片段进行拼接,得到所述语音说话者对应的目标语音数据。
7.根据权利要求1所述的方法,其特征在于,所述将各所述语音片段进行拼接,得到所述语音说话者对应的目标语音数据之后,还包括:
对所述目标语音数据进行第一操作,得到处理后的第一目标语音数据,其中,所述第一操作包括音频加噪变换和/或音频加混响变换;
对所述第一目标语音数据进行第二操作,得到处理后的第二目标语音数据,其中,所述第二操作包括音量变换、音高变换、时域掩码、频域掩码、速度扰动、声道长度扰动中的任一种或几种。
8.一种语音数据处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取相同语音说话者对应的至少两个语音数据和对应的语音文本内容;
提取模块,用于从各所述语音数据中提取得到对应的语音特征;
处理模块,用于根据各所述语音特征与对应的语音文本内容得到各所述语音数据中各语音字词段对应的对齐结果;
第二获取模块,用于根据各所述对齐结果从对应的语音数据中获取各所述语音字词段对应的语音片段;
拼接模块,用于将各所述语音片段进行拼接,得到所述语音说话者对应的目标语音数据。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210762067.3A CN117351928A (zh) | 2022-06-29 | 2022-06-29 | 语音数据处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210762067.3A CN117351928A (zh) | 2022-06-29 | 2022-06-29 | 语音数据处理方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117351928A true CN117351928A (zh) | 2024-01-05 |
Family
ID=89367906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210762067.3A Pending CN117351928A (zh) | 2022-06-29 | 2022-06-29 | 语音数据处理方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117351928A (zh) |
-
2022
- 2022-06-29 CN CN202210762067.3A patent/CN117351928A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111145786A (zh) | 语音情感识别方法和装置、服务器、计算机可读存储介质 | |
US20240021202A1 (en) | Method and apparatus for recognizing voice, electronic device and medium | |
CN111739521B (zh) | 电子设备唤醒方法、装置、电子设备及存储介质 | |
CN110797002B (zh) | 语音合成方法、装置、电子设备及存储介质 | |
CN112712813B (zh) | 语音处理方法、装置、设备及存储介质 | |
CN107562760B (zh) | 一种语音数据处理方法及装置 | |
US11417316B2 (en) | Speech synthesis method and apparatus and computer readable storage medium using the same | |
CN109801638B (zh) | 语音验证方法、装置、计算机设备及存储介质 | |
CN110570876B (zh) | 歌声合成方法、装置、计算机设备和存储介质 | |
CN112786007A (zh) | 语音合成方法、装置、可读介质及电子设备 | |
CN109714608B (zh) | 视频数据处理方法、装置、计算机设备和存储介质 | |
CN112786008A (zh) | 语音合成方法、装置、可读介质及电子设备 | |
CN112712789A (zh) | 跨语言音频转换方法、装置、计算机设备和存储介质 | |
CN116994553A (zh) | 语音合成模型的训练方法、语音合成方法、装置及设备 | |
CN110674634A (zh) | 一种文字交互方法及服务端设备 | |
CN113506586A (zh) | 用户情绪识别的方法和系统 | |
CN117354557A (zh) | 视频处理方法、装置、设备和介质 | |
CN116129881A (zh) | 语音任务处理方法、装置、电子设备及存储介质 | |
CN117351928A (zh) | 语音数据处理方法、装置、计算机设备和存储介质 | |
CN113505612B (zh) | 多人对话语音实时翻译方法、装置、设备及存储介质 | |
CN116959421B (zh) | 处理音频数据的方法及装置、音频数据处理设备和介质 | |
WO2023173966A1 (zh) | 语音识别方法、终端设备及计算机可读存储介质 | |
CN115394284B (zh) | 语音合成方法、系统、设备及存储介质 | |
CN117912470A (zh) | 声纹识别方法、装置、计算机设备和存储介质 | |
Li et al. | Anime Audio Retrieval Based on Audio Separation and Feature Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |