CN1049062C - 转换语音的方法 - Google Patents

转换语音的方法 Download PDF

Info

Publication number
CN1049062C
CN1049062C CN94190055A CN94190055A CN1049062C CN 1049062 C CN1049062 C CN 1049062C CN 94190055 A CN94190055 A CN 94190055A CN 94190055 A CN94190055 A CN 94190055A CN 1049062 C CN1049062 C CN 1049062C
Authority
CN
China
Prior art keywords
speaker
sound
sectional area
feature
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN94190055A
Other languages
English (en)
Other versions
CN1102291A (zh
Inventor
马科·万斯卡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Telecommunications Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Telecommunications Oy filed Critical Nokia Telecommunications Oy
Publication of CN1102291A publication Critical patent/CN1102291A/zh
Application granted granted Critical
Publication of CN1049062C publication Critical patent/CN1049062C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Abstract

本发明涉及语音转换的方法,其中根据说话人的语音信号计算反射系数,从中计算模拟说话人声管的无损耗管的圆柱部分的横截面积的特征,从所述特征中识别声音并提供识别符。而后,计算代表所述声音的特征与代表同一声音的后序特征之差,根据识别符在存储器中查寻对同一声音模拟那个说话者的声道的第二说话人的说话者特定特征,通过把所述差值和第二说话者的特定特征相加得到和值,算出新的反射系数,产生新的语音信号。

Description

转换语音的方法
本发明涉及转换语音的方法,该方法中,由第一说话者产生的语音信号被取样用于计算反射系数。
有语音障碍的人的语音通常不清楚,而且听起来很难识别。语音障碍人的语音质量会产生问题,尤其是当用通信装置或通信网把语音障碍人产生的语音信号发送并转换到接收机。由于通信网有限的传输容量和声学特性,所以语音障碍人产生的语音对听者来说仍较难识别和听懂。另一方面,无论是否用通信装置或通信网传送语音信号,对听者来说总是很难识别并明白语音障碍人的语音。
此外,在需要改变说话者产生的语音时,即校正语言声音为更好的声音格式或把说话者产生的语音转换成另一说话者的声音,这样,第一说话者的语音听起来就和第二说话者的语音一样。
本发明的目的是提供一种方法,使说话者的语音能以这样的方式被改变或校正,即使听者听到的语音或校正或改变后的话音信号对应于另一说话者产生的语音,或以某一希望的方式校正的同一说话者的语音。
这种新颖的转换语音的方式就是根据本发明所提供的方法,其特征包括下列步骤:根据反射系数计算模拟第一说话者声道(vocal tract)的无损耗管的圆柱部分的截面积的特征,第一说话者的无损耗管的圆柱部分的截面积的所述特征与至少一个以前的讲话者各个存储的模拟该说话者声道的无损耗管的圆柱部分的截面积的特定声音特征相比较,以识别声音。为给所识别的声音提供各自的识别符,计算对所述声音模拟说话者声道的无损耗管的圆柱部分的截面积地存储的特性和同一声音的各自的后序特性之间的差值,根据所识别的声音的识别符,在存储器中检索模拟同样声音的那个说话者的声道的无损耗管的圆柱部分的截面积的第二说话者的特定说话特性,通过把所述差值和模拟同样声音的那个说话者的声道的无损耗管的圆柱部分的截面积的第二说话者的特定说话特征相加构成一个和值,根据该和值计算出新的反射系数,从新的反射系数中产生新的语音信号。
本发明基于下列思想,通过LPC(线性预测编码)的方法分析语音信号,产生一套模拟说话者声道的参数,这些参数通常为反射系数的特征。根据本发明,声音是通过比较从要转换的声音的反射系数中计算出的无损耗管的圆柱部分的截面积和几个说话者以前接收的各自对同一声音计算的圆柱的截面积,从要转变的语音中识别的。此后,对每个说话者,每个声音的截面积计算某个特征,通常是平均值。然后,从这个特征中减去对应于每个声音的声音参数,即说话者的无损耗声道的圆柱的截面积,提供要传送到下一转换步的差值以及该声音的识别符。在此之前,对应于要模拟的说话者(即,目标人)的每个声音识别符的声音参数的特征已经确定,从而通过把所述差值和在存储器中检索到的目标人的同一声音的声音参数的特征相加,原始声音就可以被再现,就好象是目标人发出的声音。通过把那个差值相加,语言的声音,即不包括在基于识别符的声音中的声音间的信息被产生,其中对应于那些声音,即通常为说话者声道的无损耗管的圆柱的截面积的平均值的特征已在存储器中被找到。
这种转换语音的方法的优点是有可能以一种方式校正在语言声音中发生的以及由说话者的物理特性引起的错误和不准确,使语音能更容易地被听者听懂。
而且,根据本发明的方法,有可能把一个说话者的语音转换成听起来象另一说话人的语音。
本发明所使用的无损耗管模型的圆柱部分的截面积可很容易地以常规的语音编码规则从所谓反射系数中计算出来。自然,该面积的其它截面尺寸,如半径或直径也可确定为一个参考参数。另一方面,除圆形之外,管的横截面也可以是其它形状。
下面将参照附图详细说明本发明。其中
图1和2通过包括模拟说话者声管的无损耗管的顺序的圆柱部分的无损耗管说明说话者声道的模型;
图3说明了说话期间无损耗管是如何改变的,
图4示出了声音是如何被识别并转换到与所希望的参数一致的流程图;
图5a是说明在语言转换器的声级(sound level)上根据本发明的语音编码的框图,
图5b是通过语音信号转换方法说明根据本发明在一个声级上语音信号的再现步骤的处理图,
图6是实现根据本发明的方法的一个实施例的语音转换器的功能和简化的框图。
图1示出了包括顺序的圆柱部分C1到C8且构成人的声道的粗模型的无损耗管模型的透视图。图1的无损耗管模型的侧视图示于图2。人的声道通常指由人的声带、喉、咽和唇限定的声音通道,通过该通道人产生语音声音。在图1和2中,圆柱部分C1说明了紧接在声带间声门后的声道部分的形状,圆柱部分C8指示出在唇部声道的形状,圆柱部分C2到C7说明声门和唇间离散的声道部分的形状。当产生不同的声音时,声道的形状在说话时通常是变化的。同样,代表声道的各个部分的离散的圆柱C1到C8的直径和面积在说话期间也是变化的。但是,同一发明人以前的国际申请Wo.92/20064中公开了这种特征,从大量的瞬时声道形状计算出的声道的平均形状是每个说话者的一个不变的特征,该不变的特征用于在电信系统中声音更紧凑地传输,用于识别说话者或用于转换说话者的语音。因此,长时间内从声道的无损耗管模型的圆柱C1到C8的截面积的瞬时值计算的圆柱部分C1到C8的截面积的平均值也是相当准确的常数。而且,圆柱的截面尺寸的值也是由实示声道的值确定的,因此是说话者相当准确的常数特征。
根据本发明的方法利用在现有技术中线性预测编码(LPC)中作为临时结果产生的所谓反射系数,即具有与声道的形状和结构有特定联系的所谓PARCOR—系数rk。声道的无损耗管模型的圆柱部分Ck的反射系数rk和面积Ak间的联系遵循公式(1) - r ( k ) = A ( k + 1 ) - A ( k ) A ( k + 1 ) + A ( k ) - - - - - - ( 1 ) 其中K=1,2,3……
产生用于本发明的反射系数的LPC分析也被用在许多已知的语音编码方法中。
接下来将参阅图4总的说明对理解本发明很重要的那部分方法的步骤。在图4中,输入信号IN在方框10中以8KHz的取样频率被取样,形成一个8比特的取样序列S0。在方框11中,从样值中抽取直流(DC)分量,以消除编码中可能出现的干扰侧音。此后,取样信号在方框12中由第一阶FIR(有限脉冲响应)滤波器通过加权高信号频率进行预加重。在方框13中,样值被分割成每帧有160个样值的帧,每帧的持续期为20ms。
在方框14中,通过自相关的方法在每帧上进行LPC分析来模拟语音信号谱,特征级为P=8,然后,用下列公式(2)从帧中计算自相关函数ACF的P+1值: ACF ( k ) = Σ i = 1 s ( i ) s ( i - k ) 160 - - - - - - ( 2 ) 其中K=0,1,…8
除自相关函数外,也可能用其它合适的函数,如协方差函数。用舒尔递推或其它合适的递推方法从所得到的自相关函数的值中计算出语音编码器中使用的短期分析滤波器的8个所谓反射系数rk的值。舒尔递推每20ms产生新的反射系数。在本发明的一个实施例中,所述系数包括16比特,它们的数目为8。如果需要,可通过较长时间地使用舒尔递推,使反射系数的数目增加。
在第16步,通过圆柱部分模拟说话者声道的无损耗管的每个圆柱部分Ck的截面积AK从每帧算出的反射系数rk中得出。由于舒尔递推每20ms产生新的反射系数,所以对每个圆柱部分CK每秒将获得50个截面积。算出无损耗管的圆柱的截面积后,在第17步通过比较这些算出的圆柱体的截面积和参数存储器中所存的圆柱的截面积的值,识别语音信号的声音。这一比较操作在结合图5a中的标号60、60A、61A将详细给出。在第18步,在存储器中查找第一说话者对同一声音的以前的参数的平均值,从这些平均值中减去从同一说话者收到的样值的瞬时参数,从而产生一个差值,存在存储器中。
然后,在第19步,在存储器中查找预存储的目标人的有关声音的几个样值的圆柱体截面积的平均值,目标人是其语音将被模仿的人。目标人也可以是例如第一个说话者,但用这种方法说话者的发音错误通过用这种转换步骤,以及新的更精确的参数被校正,通过上述参数,说话者的语音可被转换成例如更清楚或更容易识别。
此后在第20步,在上述第18步中计算出的差值加到该目标人的同一声音的圆柱体截面积的平均值上。在第21步,从该和值中计算反射系数,该反射系数在步22中进行LPC解码,解码产生的电语音信号加到例如麦克风或数据通信系统上。
在图5a所示的本发明的实施例中,以这样的方式描述用于在一个声级上编码语音的分析,即根据在要分析的语音信号的预定的声音中产生的瞬时无损耗管模型的圆柱部分的面积计算模拟声道的无损耗管的圆柱部分的截面积的平均值。一个声音的持续时间很长,所以从语音信号中出现的单个声音可计算出几个甚至数十个暂时连续的无损耗管模型。这示于图3,示出了4个暂时连续的瞬时无损耗管模型S1到S4。从图3中可清楚地看出无损耗管的单个圆柱体的半径和截面积随时间的变化。例如,瞬时模型S1、S2和S3可在同一声音期间被粗分类产生,从中计算出平均值。而模型S4明显不同且与另一声音相联,因此在平均时不予考虑。
接下来,将参照图5a的框图描述在一个声级上的语音转换。虽然语音可借助于单个声音被编码并转换,但在转换中用所有这些声音也是合理的,这种转换希望以这样的方式进行,即这些声音听起来是新的声音。例如,把语音转换成听起来象是另一个说话者说的,而不是实际说话者说的,或者例如以这样的方式提高语音质量,和原始的未转换的语音相比,使听者更清楚地区别被转换的语音的声音。在语音中,转换可用于例如所有的远音和辅音。
如果瞬时无损耗管59的每个圆柱部分的截面的尺寸在一个已知的说话者的各个声音的预定存储的有限值内,语音信号中产生的瞬时无损耗管模型59(图5a)可在方框52中被识别以对应一个特定声音。这些特定声音和特定圆柱有限值被存在产生一个所谓声音伪装(mask)的所谓量化表54中。在图5a中,标号60和61说明所述特定声音和特定圆柱有限值是如何在要识别的瞬时声道模型59需适合的允许区域60A和61A(无阴影区域)中为每个声音产生一个伪装或模型。在图5a中,瞬时声道模型59适合声音伪装60,而显然不适合声音伪装61。这样,方框52用作一类声滤波器,它把声道模型分成正确的声音组a、e、i等。声音被识别后,根据在图5a的框52中识别的声音的识别符53在参数存储器55中查找对应于每个声音,如a、e、i、k的参数,这些参数是无损耗管的圆柱的截面积的特定声音特征,如平均值。在声音识别方框52中,通过在参数存储器55中查找对应于每个瞬时声音的参数,已可能对每个要识别的声音提供一个识别符53。这些参数可输入到一个减法装置,根据图5a的方框56,借助声音识别符,即无损耗管圆柱的截面积的特征,通常是平均值,计算在参数存储器中查找的声音参数和所述声音的瞬时值之间的差值。这个差值进而被送去以图5b的方式相加并解码,这将结合所述附图详细描述。
图5b是说明在本发明的语音转换方法中,在一个声级上再现语音信号的处理图,接收被识别的声音的识别符500,并根据该声音参数500在参数存储器501中查寻与该声音相应的参数,并在502处提供给求和器503,通过对该差值和参数求和产生新的反射系数。通过解码新的反射系数计算新的语音信号。这种通过相加产生语音信号将在图6和相应的解释中更详细地介绍。
图6是实现根据本发明的方法的一个实施例的语音转换器600的功能的和简化的框图。第一个说话者(即将被模仿的说话者)的语音通过麦克风601到达语音转换器601。转换器也可连接到某个数据通信系统,从而使要被转换的语音信号作为一个电信号输入。由麦克风601转换的语音信号在602处进行LPC编码(编码),并从中为每个声音计算反射系数。信号的其它部分在603处被发出以供后面在615处的解码。所计算的反射系数被发送到一个单元604,用于特征计算,该单元根据反射系数为每个声音计算模拟说话者的声道的无损耗管的圆柱的截面积的特征,声音识别单元605通过把根据第一说话者(即要被模仿的说话者)产生的声音的反射系数计算的说话声道的无损耗管模型的圆柱部分的截面积与存在某存储器中的至少一个以前的说话者的各个以前识别的特定声音值相比较来识别声音。比较的结果得到所识别的声音的识别符、借助所识别的声音的识别符,在607和609处,在说话者的参数表608中寻找参数,在表中已存储了该第一说话人(要被模仿的)对同一声音的各个参数,如平均值,减法装置606从中减去仅从同一说话人得到的样值的瞬时参数。这样就产生了一个差值,被存在存储器中。
此外,借助在方框605中识别的声音的识别符,在610、612处从目标人,即第一说话人的语音要转换成的第二人的参数表611中查寻对应于那个识别的声音的特征,例如根据反射系数计算的模拟说话人声道的无损耗管的截面积的特定声音平均值,并提供给加法器613。对于加法器也已在617处从减法装置606输入由减法装置计算的差值,该差值通过加法器617加到在目标人的参数表611中查寻到的特征上,例如加到根据说话者声道的反射系数计算的模拟说话者声道的无损耗管的圆柱的截面积的声音特定平均值。然后产生一个总和,在反射系数的再现方框614中计算反射系数。而且,从反射系数中产生一个信号,其中第一说话者的语音信号以这样的方式被转换成声结构,使听者相信他听到了第二说话者的语音,虽然实际的说话者是其语音已被转换的第一说话者,所以其语音听起来和第二说话者一样。这个语音信号进一步加到LPC解码器615,其中这一语音信号被LPC解码并与该语音信号的LPC未编码部分相加,产生最终的语音信号,该信号在扬声器616中被转换成声结构。在这一步,该语音信号也可仅保留电结构,并被转送到某个数据或电信系统,以进一步发送或转送。
根据本发明的上述方法,在实际中例如可以用软件通过常规信号处理器来实现。
附图和相关的解释仅仅意在说明本发明的思想。致于具体细节,根据本发明的转换语音的方法可在权利要求的范围内变化。显然,上述本发明是主要结合语音模仿进行描述的,但所述语音转换器也可用于某种语音转换。

Claims (2)

1.一种转换语音的方法,其中由第一说话人产生的语音信号(1N)被取样,以计算反射系数(rk),该方法的特征在于下列步骤:
从反射系数(rk)中计算(16;51;604)模拟第一说话人声道的无损耗管(图1和2)的截面积的特征,
第一说话者的无损耗管(图1和2)的圆柱部分的截面积(图2;AK)的所述特征与用于声音识别的模拟说话者的声道的无损耗管的圆柱部分的截面积(AK)的至少一个以前说话者的各个存储的特定声音特征相比较(17;52;605),以给所识别的声音提供各自的识别符,
对所述声音计算模拟说话者声道的无损耗管的圆柱部分的截面积(图2;AK)的存储的特征与同一声音的后序各个特征的差;
根据所识别的声音的识别符在存储器(611)中查找对同一声音的模拟说话者的声道的无损耗管的圆柱部分的截面积(图2;AK)的第二说话者的特定说话的特征,
通过把所述差值(617)与对同一声音的模拟那个说话者的声道的无损耗管的圆柱部分的截面积的第二说话者的说话者特定特征(612)相加构成(20;613)一个和值;
根据该和值计算新的反射系数,以及
从所述新的反射系数中产生(615)一个新的语音信号(616)。
2.根据权利要求1的方法,其特征在于对代表第一说话人的同一声音的无损耗管的物理尺寸计算一个特征,并存在存储器(608)中。
CN94190055A 1993-02-12 1994-02-10 转换语音的方法 Expired - Fee Related CN1049062C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FI930629A FI96247C (fi) 1993-02-12 1993-02-12 Menetelmä puheen muuntamiseksi
FI930629 1993-02-12

Publications (2)

Publication Number Publication Date
CN1102291A CN1102291A (zh) 1995-05-03
CN1049062C true CN1049062C (zh) 2000-02-02

Family

ID=8537362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN94190055A Expired - Fee Related CN1049062C (zh) 1993-02-12 1994-02-10 转换语音的方法

Country Status (9)

Country Link
US (1) US5659658A (zh)
EP (1) EP0640237B1 (zh)
JP (1) JPH07509077A (zh)
CN (1) CN1049062C (zh)
AT (1) ATE172317T1 (zh)
AU (1) AU668022B2 (zh)
DE (1) DE69413912T2 (zh)
FI (1) FI96247C (zh)
WO (1) WO1994018669A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1303582C (zh) * 2003-09-09 2007-03-07 摩托罗拉公司 自动语音归类方法

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9419388D0 (en) 1994-09-26 1994-11-09 Canon Kk Speech analysis
JP3522012B2 (ja) * 1995-08-23 2004-04-26 沖電気工業株式会社 コード励振線形予測符号化装置
US6240384B1 (en) 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
JP3481027B2 (ja) * 1995-12-18 2003-12-22 沖電気工業株式会社 音声符号化装置
US6377919B1 (en) * 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
US6542857B1 (en) * 1996-02-06 2003-04-01 The Regents Of The University Of California System and method for characterizing synthesizing and/or canceling out acoustic signals from inanimate sound sources
DE10034236C1 (de) * 2000-07-14 2001-12-20 Siemens Ag Sprachkorrekturverfahren
US7016833B2 (en) * 2000-11-21 2006-03-21 The Regents Of The University Of California Speaker verification system using acoustic data and non-acoustic data
US6876968B2 (en) * 2001-03-08 2005-04-05 Matsushita Electric Industrial Co., Ltd. Run time synthesizer adaptation to improve intelligibility of synthesized speech
KR101015522B1 (ko) * 2005-12-02 2011-02-16 아사히 가세이 가부시키가이샤 음질 변환 시스템
US8251924B2 (en) * 2006-07-07 2012-08-28 Ambient Corporation Neural translator
GB2466668A (en) * 2009-01-06 2010-07-07 Skype Ltd Speech filtering
CN105654941A (zh) * 2016-01-20 2016-06-08 华南理工大学 一种基于指向目标人变声比例参数的语音变声方法及装置
CN110335630B (zh) * 2019-07-08 2020-08-28 北京达佳互联信息技术有限公司 虚拟道具显示方法、装置、电子设备及存储介质
US11514924B2 (en) * 2020-02-21 2022-11-29 International Business Machines Corporation Dynamic creation and insertion of content

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CH581878A5 (zh) * 1974-07-22 1976-11-15 Gretag Ag
US4624012A (en) * 1982-05-06 1986-11-18 Texas Instruments Incorporated Method and apparatus for converting voice characteristics of synthesized speech
CA1334868C (en) * 1987-04-14 1995-03-21 Norio Suda Sound synthesizing method and apparatus
FR2632725B1 (fr) * 1988-06-14 1990-09-28 Centre Nat Rech Scient Procede et dispositif d'analyse, synthese, codage de la parole
US5054083A (en) * 1989-05-09 1991-10-01 Texas Instruments Incorporated Voice verification circuit for validating the identity of an unknown person
US5522013A (en) * 1991-04-30 1996-05-28 Nokia Telecommunications Oy Method for speaker recognition using a lossless tube model of the speaker's
FI91925C (fi) * 1991-04-30 1994-08-25 Nokia Telecommunications Oy Menetelmä puhujan tunnistamiseksi
US5165008A (en) * 1991-09-18 1992-11-17 U S West Advanced Technologies, Inc. Speech synthesis using perceptual linear prediction parameters
US5528726A (en) * 1992-01-27 1996-06-18 The Board Of Trustees Of The Leland Stanford Junior University Digital waveguide speech synthesis system and method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1303582C (zh) * 2003-09-09 2007-03-07 摩托罗拉公司 自动语音归类方法

Also Published As

Publication number Publication date
FI930629A0 (fi) 1993-02-12
US5659658A (en) 1997-08-19
JPH07509077A (ja) 1995-10-05
FI96247C (fi) 1996-05-27
EP0640237B1 (en) 1998-10-14
DE69413912T2 (de) 1999-04-01
WO1994018669A1 (en) 1994-08-18
FI930629A (fi) 1994-08-13
EP0640237A1 (en) 1995-03-01
CN1102291A (zh) 1995-05-03
ATE172317T1 (de) 1998-10-15
DE69413912D1 (de) 1998-11-19
FI96247B (fi) 1996-02-15
AU668022B2 (en) 1996-04-18
AU5973094A (en) 1994-08-29

Similar Documents

Publication Publication Date Title
CN1049062C (zh) 转换语音的方法
CN1121680C (zh) 语音识别
CN1119794C (zh) 分布式话音识别系统
JP3189598B2 (ja) 信号合成方法および信号合成装置
CN111951796A (zh) 语音识别方法及装置、电子设备、存储介质
US5828993A (en) Apparatus and method of coding and decoding vocal sound data based on phoneme
CN116631412A (zh) 一种通过声纹匹配判断语音机器人的方法
CN111785303A (zh) 模型训练方法、模仿音检测方法、装置、设备及存储介质
CN111724809A (zh) 一种基于变分自编码器的声码器实现方法及装置
CN111460094A (zh) 一种基于tts的音频拼接优化的方法及其装置
CN109346104A (zh) 一种基于谱聚类的音频特征降维方法
CN1113586A (zh) 从基于celp的语音编码器中去除回旋噪声的系统和方法
CN1062365C (zh) 发送和接收编码话音的方法
CN115240645A (zh) 基于注意力重打分的流式语音识别方法
CN111402887A (zh) 一种语音转义文字的方法及装置
CN113160796B (zh) 一种广播音频的语种识别方法、装置、设备及存储介质
CN114724589A (zh) 语音质检的方法、装置、电子设备和存储介质
Aso et al. Speakbysinging: Converting singing voices to speaking voices while retaining voice timbre
CN113269305B (zh) 一种加强记忆的反馈语音强化方法
KR960015861B1 (ko) 선 스펙트럼 주파수 벡터의 양자화 방법 및 양자화기
CN111833897B (zh) 一种用于交互式教育的语音增强方法
CN117524259A (zh) 音频处理方法及系统
CN113851116A (zh) 一种巡检场景下的电力设备语音识别方法及系统
JPH0792990A (ja) 音声認識方法
CN117041430A (zh) 一种提高智能协调外呼系统的外呼质量及鲁棒方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee