JPH05307399A - 音声分析方式 - Google Patents
音声分析方式Info
- Publication number
- JPH05307399A JPH05307399A JP4112627A JP11262792A JPH05307399A JP H05307399 A JPH05307399 A JP H05307399A JP 4112627 A JP4112627 A JP 4112627A JP 11262792 A JP11262792 A JP 11262792A JP H05307399 A JPH05307399 A JP H05307399A
- Authority
- JP
- Japan
- Prior art keywords
- analysis
- voice
- phase information
- information
- pitch period
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 62
- 238000001228 spectrum Methods 0.000 claims abstract description 27
- 238000000605 extraction Methods 0.000 abstract description 13
- 230000015572 biosynthetic process Effects 0.000 abstract description 5
- 238000003786 synthesis reaction Methods 0.000 abstract description 5
- 238000000034 method Methods 0.000 description 12
- 230000003595 spectral effect Effects 0.000 description 9
- 230000002194 synthesizing effect Effects 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 6
- 230000006866 deterioration Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000001308 synthesis method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
(57)【要約】
【目的】 音声信号の分析合成において、ピッチ変更時
にスペクトル歪みの発生を軽減して品質の良好な合成音
を得ることができるようにするために、音声信号の位相
情報に関する欠落の無い音声分析方式を提供する。 【構成】 スペクトル包絡/位相情報抽出部4により分
析音声信号X(n)の振幅情報A(ω)と位相情報Px
(ω)を求めるとともに、音声信号の時間軸に対して音
源情報となるパルス列S(n)をパルス設定部5におい
て分析音声信号X(n)のピッチ周期に対応するように
設定し、そのパルス列S(n)の位相情報Ps (ω)と
上記分析音声信号の位相情報Px (ω)との差分P
(ω)を差分抽出部7において求め、この差分P(ω)
を分析音声信号内の所望の1ピッチ周期分の位相情報と
する。
にスペクトル歪みの発生を軽減して品質の良好な合成音
を得ることができるようにするために、音声信号の位相
情報に関する欠落の無い音声分析方式を提供する。 【構成】 スペクトル包絡/位相情報抽出部4により分
析音声信号X(n)の振幅情報A(ω)と位相情報Px
(ω)を求めるとともに、音声信号の時間軸に対して音
源情報となるパルス列S(n)をパルス設定部5におい
て分析音声信号X(n)のピッチ周期に対応するように
設定し、そのパルス列S(n)の位相情報Ps (ω)と
上記分析音声信号の位相情報Px (ω)との差分P
(ω)を差分抽出部7において求め、この差分P(ω)
を分析音声信号内の所望の1ピッチ周期分の位相情報と
する。
Description
【0001】
【産業上の利用分野】本発明は、音声分析合成システム
に適用される音声分析方式に関する。
に適用される音声分析方式に関する。
【0002】
【従来の技術】人間の聴覚は一種のスペクトル分析器で
あって、パワースペクトルが等しければ同じ音として聞
こえるという性質がある。この性質を利用して合成音を
得る方法が音声の分析合成法である。
あって、パワースペクトルが等しければ同じ音として聞
こえるという性質がある。この性質を利用して合成音を
得る方法が音声の分析合成法である。
【0003】上記合成音を得るには、分析側で入力信号
を分析し、ピッチ情報、有声音/無声音の判別情報、振
幅情報等を抽出あるいは検出し、合成側でそれらの情報
を基に人工的に音声を作り出す。特に、合成側は、その
合成の方式により、音声編集方式、パラメータ編集方
式、規則合成方式等に分類されている。
を分析し、ピッチ情報、有声音/無声音の判別情報、振
幅情報等を抽出あるいは検出し、合成側でそれらの情報
を基に人工的に音声を作り出す。特に、合成側は、その
合成の方式により、音声編集方式、パラメータ編集方
式、規則合成方式等に分類されている。
【0004】上記音声編集方式は、予め人が発生した音
声波形を単語や文節等を単位としてそのままあるいは波
形符号化して蓄積(録音)しておき、必要に応じてそれ
らを読み出して接続(編集)することにより、音声を合
成するものである。
声波形を単語や文節等を単位としてそのままあるいは波
形符号化して蓄積(録音)しておき、必要に応じてそれ
らを読み出して接続(編集)することにより、音声を合
成するものである。
【0005】上記パラメータ編集方式は、上記音声編集
方式と同様に単語や文節等を単位とするが、予め人が発
生した音声波形を音声生成モデルに基づいて分析して、
パラメータ時系列の形で蓄え、必要に応じて接続したパ
ラメータ時系列を用いて音声合成器を駆動することによ
り、音声を合成するものである。
方式と同様に単語や文節等を単位とするが、予め人が発
生した音声波形を音声生成モデルに基づいて分析して、
パラメータ時系列の形で蓄え、必要に応じて接続したパ
ラメータ時系列を用いて音声合成器を駆動することによ
り、音声を合成するものである。
【0006】上記規則合成方式は、文字や音声記号など
の離散的記号で表現された系列を、連続的に変換する技
術である。変換の過程で、音声生成の普遍的諸性質や人
為的諸性質が合成規則として適用される。
の離散的記号で表現された系列を、連続的に変換する技
術である。変換の過程で、音声生成の普遍的諸性質や人
為的諸性質が合成規則として適用される。
【0007】上記各合成方式は、いずれも何らかの形で
音道特性を模擬し、すれに音源波とほぼ同じスペクトル
を持つ信号を使って合成音を得ている。
音道特性を模擬し、すれに音源波とほぼ同じスペクトル
を持つ信号を使って合成音を得ている。
【0008】
【発明が解決しようとする課題】ところで、音声信号の
分析合成において高品質な制御を行う場合、従来は残差
駆動型の分析合成方式が多く用いられているが、音源情
報と音道情報の分離が不完全であるため、ピッチ変更時
にスペクトル歪みを発生させ、合成音の品質劣化の原因
となっている。
分析合成において高品質な制御を行う場合、従来は残差
駆動型の分析合成方式が多く用いられているが、音源情
報と音道情報の分離が不完全であるため、ピッチ変更時
にスペクトル歪みを発生させ、合成音の品質劣化の原因
となっている。
【0009】そこで、本発明は、上述の如き従来の問題
点に鑑み、ピッチ変更時にスペクトル歪みの発生を軽減
して品質の良好な合成音を得ることができるようにする
ことを目的とする。
点に鑑み、ピッチ変更時にスペクトル歪みの発生を軽減
して品質の良好な合成音を得ることができるようにする
ことを目的とする。
【0010】
【課題を解決するための手段】本発明に係る音声分析方
式は、上述の課題を解決するために、分析音声信号の時
間軸に対して音源情報となるパルス列を音声信号のピッ
チ周期に対応するように設定し、そのパルス列の位相情
報と分析音声信号の位相情報との差分を求め、この差分
を分析音声信号内の所望の1ピッチ周期分の位相情報と
し、この位相情報と振幅情報を所望の1ピッチ周期分の
データとすることを特徴とする。
式は、上述の課題を解決するために、分析音声信号の時
間軸に対して音源情報となるパルス列を音声信号のピッ
チ周期に対応するように設定し、そのパルス列の位相情
報と分析音声信号の位相情報との差分を求め、この差分
を分析音声信号内の所望の1ピッチ周期分の位相情報と
し、この位相情報と振幅情報を所望の1ピッチ周期分の
データとすることを特徴とする。
【0011】また、本発明に係る音声分析方式は、上述
の課題を解決するために、分析音声信号の時間軸に対し
て音源情報となるパルス列を音声信号のピッチ周期に対
応するように設定し、そのパルス列の位相情報と分析音
声信号の位相情報との差分を求め、この差分を分析音声
信号内の所望の1ピッチ周期分の位相情報とし、分析音
声信号の高速フーリエ変換処理を施して、そのスペクト
ラム成分からケプストラムを求め、このケプストラムか
ら1ピッチ周期内の低次の成分を切り出し、これから1
ピッチ周期に対応したスペクトル情報を求め、このスペ
クトル情報を上記位相情報とともに逆高速フーリエ変換
して1ピッチ周期分のインパルス応答を求め、このイン
パルス応答を所望の1ピッチ周期分のデータとすること
を特徴とする。
の課題を解決するために、分析音声信号の時間軸に対し
て音源情報となるパルス列を音声信号のピッチ周期に対
応するように設定し、そのパルス列の位相情報と分析音
声信号の位相情報との差分を求め、この差分を分析音声
信号内の所望の1ピッチ周期分の位相情報とし、分析音
声信号の高速フーリエ変換処理を施して、そのスペクト
ラム成分からケプストラムを求め、このケプストラムか
ら1ピッチ周期内の低次の成分を切り出し、これから1
ピッチ周期に対応したスペクトル情報を求め、このスペ
クトル情報を上記位相情報とともに逆高速フーリエ変換
して1ピッチ周期分のインパルス応答を求め、このイン
パルス応答を所望の1ピッチ周期分のデータとすること
を特徴とする。
【0012】
【作用】本発明に係る音声分析方式では、音声信号の音
道情報として振幅情報のみならずその位相情報も保存す
る。また、本発明に係る音声分析方式では、音声信号の
音道情報としてスペクトル包絡情報及び位相情報を保存
する。
道情報として振幅情報のみならずその位相情報も保存す
る。また、本発明に係る音声分析方式では、音声信号の
音道情報としてスペクトル包絡情報及び位相情報を保存
する。
【0013】
【実施例】以下、本発明に係る音声分析方式の一実施例
について図面を参照しながら詳細に説明する。
について図面を参照しながら詳細に説明する。
【0014】本発明に係る音声分析方式では、例えば図
1に示すような構成のシステムにより、所望の1ピッチ
周期分の位相情報を得る。
1に示すような構成のシステムにより、所望の1ピッチ
周期分の位相情報を得る。
【0015】すなわち、図1に示すシステムにおいて、
分析音声信号はアナログ・ディジタル(A/D)変換器
1を介して有音部/無音部・識別部2に供給される。
分析音声信号はアナログ・ディジタル(A/D)変換器
1を介して有音部/無音部・識別部2に供給される。
【0016】上記有声部/無声部識別部2は、上記A/
D変換器1によりディジタル変換された音声信号X
(n)を有声部分と無声部分とに分離する。この有声部
/無声部識別部2により分離された無声部分は、そのま
ま波形が切り出され、データとして保存される。
D変換器1によりディジタル変換された音声信号X
(n)を有声部分と無声部分とに分離する。この有声部
/無声部識別部2により分離された無声部分は、そのま
ま波形が切り出され、データとして保存される。
【0017】そして、この有声部/無声部識別部2によ
り分離された有声部分Xvoiced(n)について、まず、
ピッチ検出部3により自己相関法などによりピッチ周期
を求める。また、上記有声部分Xvoiced(n)について
スペクトル包絡/位相情報抽出部4において高速フーリ
エ変換(FFT)処理によりスペクトル包絡成分A
(ω)と位相成分Px (ω)を求める。この位相成分P
x (ω)は分析波形中の1ピッチ周期分に相当するもの
が求められる。
り分離された有声部分Xvoiced(n)について、まず、
ピッチ検出部3により自己相関法などによりピッチ周期
を求める。また、上記有声部分Xvoiced(n)について
スペクトル包絡/位相情報抽出部4において高速フーリ
エ変換(FFT)処理によりスペクトル包絡成分A
(ω)と位相成分Px (ω)を求める。この位相成分P
x (ω)は分析波形中の1ピッチ周期分に相当するもの
が求められる。
【0018】また、この分析波形とは別に、パルス設定
部5において、上記ピッチ検出部3で求められたピッチ
周期を用いて時間軸上で分析波形のピッチ周期と対応す
るようにパルス列S(n)を設定する。そして、このパ
ルス列S(n)について位相情報抽出部5において高速
フーリエ変換(FFT)処理により位相成分PS (ω)
を求める。
部5において、上記ピッチ検出部3で求められたピッチ
周期を用いて時間軸上で分析波形のピッチ周期と対応す
るようにパルス列S(n)を設定する。そして、このパ
ルス列S(n)について位相情報抽出部5において高速
フーリエ変換(FFT)処理により位相成分PS (ω)
を求める。
【0019】次に、差分抽出部6において、分析波形の
位相成分Px (ω)とパルス列S(n)の位相成分PS
(ω)との差分P(ω)=Px (ω)−PS (ω)を求
め、その結果P(ω)を所望の1ピッチ周期の音声波形
の位相成分として上記スペクトル包絡成分A(ω)とと
も分析結果として出力する。
位相成分Px (ω)とパルス列S(n)の位相成分PS
(ω)との差分P(ω)=Px (ω)−PS (ω)を求
め、その結果P(ω)を所望の1ピッチ周期の音声波形
の位相成分として上記スペクトル包絡成分A(ω)とと
も分析結果として出力する。
【0020】すなわち、この第1の実施例では、分析音
声信号の時間軸に対して音源情報となるパルス列S
(n)を音声信号のピッチ周期に対応するように設定
し、そのパルス列(n)の位相情報PS (ω)と分析音
声信号X(n)の位相情報Px (ω)との差分P(ω)
=Px (ω)−PS (ω)を求め、この差分P(ω)を
分析音声信号内の所望の1ピッチ周期分の位相情報と
し、この位相情報と振幅情報を所望の1ピッチ周期分の
データとする。
声信号の時間軸に対して音源情報となるパルス列S
(n)を音声信号のピッチ周期に対応するように設定
し、そのパルス列(n)の位相情報PS (ω)と分析音
声信号X(n)の位相情報Px (ω)との差分P(ω)
=Px (ω)−PS (ω)を求め、この差分P(ω)を
分析音声信号内の所望の1ピッチ周期分の位相情報と
し、この位相情報と振幅情報を所望の1ピッチ周期分の
データとする。
【0021】この実施例の音声分析方式では分析の際に
音声信号の位相情報に関しては欠落が無いので、保存さ
れたデータから音声を合成する際に大幅なピッチ変換を
行っても品質劣化を軽減することが可能である。また、
音源情報がパルス列であるため、保存された情報から音
声を合成する際にパルス列の周期を変えてピッチを変更
しても、それによる合成音声のスペクトル歪みがかなり
軽減できる。
音声信号の位相情報に関しては欠落が無いので、保存さ
れたデータから音声を合成する際に大幅なピッチ変換を
行っても品質劣化を軽減することが可能である。また、
音源情報がパルス列であるため、保存された情報から音
声を合成する際にパルス列の周期を変えてピッチを変更
しても、それによる合成音声のスペクトル歪みがかなり
軽減できる。
【0022】次に、本発明に係る音声分析方式の第2の
実施例について、図2乃至図4を参照して詳細に説明す
る。
実施例について、図2乃至図4を参照して詳細に説明す
る。
【0023】この第2の実施例においても、図2に示す
ように、分析音声信号はアナログ・ディジタル(A/
D)変換器11を介して有音部/無音部・識別部12に
供給される。
ように、分析音声信号はアナログ・ディジタル(A/
D)変換器11を介して有音部/無音部・識別部12に
供給される。
【0024】上記有声部/無声部識別部12は、上記A
/D変換器11によりディジタル変換された音声信号X
(n)を有声部分と無声部分とに分離する。この有声部
/無声部識別部12により分離された無声部分は、その
まま波形が切り出され、データとして保存される。
/D変換器11によりディジタル変換された音声信号X
(n)を有声部分と無声部分とに分離する。この有声部
/無声部識別部12により分離された無声部分は、その
まま波形が切り出され、データとして保存される。
【0025】そして、この有声部/無声部識別部12に
より分離された有声部分Xvoiced(n)について、ま
ず、ピッチ検出部13により自己相関法などによりピッ
チ周期を求める。また、上記有声部分Xvoiced(n)か
らスペクトル包絡/位相情報抽出部14においてスペク
トル包絡成分A(ω)と位相成分Px (ω)を求める。
より分離された有声部分Xvoiced(n)について、ま
ず、ピッチ検出部13により自己相関法などによりピッ
チ周期を求める。また、上記有声部分Xvoiced(n)か
らスペクトル包絡/位相情報抽出部14においてスペク
トル包絡成分A(ω)と位相成分Px (ω)を求める。
【0026】この第2の実施例において上記スペクトル
包絡/位相情報抽出部14は、図3に示すように、上記
有声部分Xvoiced(n)について先ず第1の高速フーリ
エ変換(FFT)処理部41においてFFT処理により
スペクトル包絡成分AX (ω)と位相成分Px (ω)を
求める。このFFT処理部41により得られた位相成分
Px (ω)は、このまま位相情報抽出出力とされる。
包絡/位相情報抽出部14は、図3に示すように、上記
有声部分Xvoiced(n)について先ず第1の高速フーリ
エ変換(FFT)処理部41においてFFT処理により
スペクトル包絡成分AX (ω)と位相成分Px (ω)を
求める。このFFT処理部41により得られた位相成分
Px (ω)は、このまま位相情報抽出出力とされる。
【0027】また、上記FFT処理部41により得られ
たスペクトル包絡成分AX (ω)は、対数スペクトル変
換部42において対数変換され、さらに、逆高速フーリ
エ変換(IFFT)処理部41においてIFFT処理が
施される。これにより、図4に示すように、分析音声信
号X(n)のケプストラムCX (ω)が求められる。こ
のケプストラムCX (ω)から低域通過リフタ44によ
り1ピッチ周期内の低次のケプストラムC(ω)を取り
出す。この低次のケプストラムC(ω)に第2の高速フ
ーリエ変換(FFT)処理部45においてFFT処理が
施され、さらに、指数変換部46において指数変換処理
を施される。これにより、所望の1ピッチ周期のスペク
トル包絡成分A(ω)を求められる。上記指数変換部4
6において得られるスペクトル包絡成分A(ω)はスペ
クトル包絡情報抽出出力とされる。
たスペクトル包絡成分AX (ω)は、対数スペクトル変
換部42において対数変換され、さらに、逆高速フーリ
エ変換(IFFT)処理部41においてIFFT処理が
施される。これにより、図4に示すように、分析音声信
号X(n)のケプストラムCX (ω)が求められる。こ
のケプストラムCX (ω)から低域通過リフタ44によ
り1ピッチ周期内の低次のケプストラムC(ω)を取り
出す。この低次のケプストラムC(ω)に第2の高速フ
ーリエ変換(FFT)処理部45においてFFT処理が
施され、さらに、指数変換部46において指数変換処理
を施される。これにより、所望の1ピッチ周期のスペク
トル包絡成分A(ω)を求められる。上記指数変換部4
6において得られるスペクトル包絡成分A(ω)はスペ
クトル包絡情報抽出出力とされる。
【0028】また、この分析波形とは別に、パルス設定
部15において、上記ピッチ検出部13で求められたピ
ッチ周期を用いて時間軸上で分析波形のピッチ周期と対
応するようにパルス列S(n)を設定する。そして、こ
のパルス列S(n)について位相情報抽出部16におい
て高速フーリエ変換(FFT)処理により位相成分P S
(ω)を求める。
部15において、上記ピッチ検出部13で求められたピ
ッチ周期を用いて時間軸上で分析波形のピッチ周期と対
応するようにパルス列S(n)を設定する。そして、こ
のパルス列S(n)について位相情報抽出部16におい
て高速フーリエ変換(FFT)処理により位相成分P S
(ω)を求める。
【0029】次に、差分抽出部17において、分析波形
の位相成分Px (ω)とパルス列S(n)の位相成分P
S (ω)との差分P(ω)=Px (ω)−PS (ω)を
求めその結果P(ω)を上記スペクトル包絡成分A
(ω)に対応する所望の1ピッチに対応するインパルス
応答の位相成分とする。
の位相成分Px (ω)とパルス列S(n)の位相成分P
S (ω)との差分P(ω)=Px (ω)−PS (ω)を
求めその結果P(ω)を上記スペクトル包絡成分A
(ω)に対応する所望の1ピッチに対応するインパルス
応答の位相成分とする。
【0030】そして、上記スペクトル包絡成分A(ω)
と位相成分P(ω)の両者を用いて逆高速フーリエ変換
(IFFT)処理部18においてIFFT処理を施すこ
とにより所望の1ピッチに対応したインパルス応答R
(ω)を求め、これを分析結果として出力する。
と位相成分P(ω)の両者を用いて逆高速フーリエ変換
(IFFT)処理部18においてIFFT処理を施すこ
とにより所望の1ピッチに対応したインパルス応答R
(ω)を求め、これを分析結果として出力する。
【0031】すなわち、この第2の実施例では、分析音
声信号の時間軸に対して音源情報となるパルス列S
(n)を音声信号のピッチ周期に対応するように設定
し、そのパルス列(n)の位相情報PS (ω)と分析音
声信号X(n)の位相情報Px (ω)との差分P(ω)
=Px (ω)−PS (ω)を求め、この差分P(ω)を
分析音声信号内の所望の1ピッチ周期分の位相情報と
し、分析音声信号の高速フーリエ変換処理により得られ
るスペクトル包絡成分A(ω)から分析音声信号X
(n)のケプストラムCX (ω)を求め、このケプスト
ラムCX (ω)から1ピッチ周期内の低次の成分C
(ω)を切り出し、これから1ピッチ周期に対応したス
ペクトル包絡成分A(ω)を求め、このスペクトル包絡
成分A(ω)と位相成分P(ω)を逆高速フーリエ変換
して1ピッチ周期分のインパルス応答R(ω)を求め、
このインパルス応答R(ω)を所望の1ピッチ周期分の
データとする。
声信号の時間軸に対して音源情報となるパルス列S
(n)を音声信号のピッチ周期に対応するように設定
し、そのパルス列(n)の位相情報PS (ω)と分析音
声信号X(n)の位相情報Px (ω)との差分P(ω)
=Px (ω)−PS (ω)を求め、この差分P(ω)を
分析音声信号内の所望の1ピッチ周期分の位相情報と
し、分析音声信号の高速フーリエ変換処理により得られ
るスペクトル包絡成分A(ω)から分析音声信号X
(n)のケプストラムCX (ω)を求め、このケプスト
ラムCX (ω)から1ピッチ周期内の低次の成分C
(ω)を切り出し、これから1ピッチ周期に対応したス
ペクトル包絡成分A(ω)を求め、このスペクトル包絡
成分A(ω)と位相成分P(ω)を逆高速フーリエ変換
して1ピッチ周期分のインパルス応答R(ω)を求め、
このインパルス応答R(ω)を所望の1ピッチ周期分の
データとする。
【0032】この第2の実施例の音声分析方式でも分析
の際に音声信号の位相情報に関しては欠落が無いので、
保存されたデータから音声を合成する際に大幅なピッチ
変換を行っても品質劣化を軽減することが可能である。
また、音源情報がパルス列であるため、保存された情報
から音声を合成する際にパルス列の周期を変えてピッチ
を変更しても、それによる合成音声のスペクトル歪みが
かなり軽減できる。
の際に音声信号の位相情報に関しては欠落が無いので、
保存されたデータから音声を合成する際に大幅なピッチ
変換を行っても品質劣化を軽減することが可能である。
また、音源情報がパルス列であるため、保存された情報
から音声を合成する際にパルス列の周期を変えてピッチ
を変更しても、それによる合成音声のスペクトル歪みが
かなり軽減できる。
【0033】
【発明の効果】以上のように、本発明に係る音声分析方
式では、分析の際に音声信号の位相情報に関しては欠落
が無いので、保存されたデータから音声を合成する際に
大幅なピッチ変換を行っても品質劣化を軽減することが
可能である。また、音源情報がパルス列であるため、保
存された情報から音声を合成する際にパルス列の周期を
変えてピッチを変更しても、それによる合成音声のスペ
クトル歪みがかなり軽減できる。
式では、分析の際に音声信号の位相情報に関しては欠落
が無いので、保存されたデータから音声を合成する際に
大幅なピッチ変換を行っても品質劣化を軽減することが
可能である。また、音源情報がパルス列であるため、保
存された情報から音声を合成する際にパルス列の周期を
変えてピッチを変更しても、それによる合成音声のスペ
クトル歪みがかなり軽減できる。
【図1】本発明に係る音声分析方式の第1の実施例とな
るシステムの構成を示すブロック図である。
るシステムの構成を示すブロック図である。
【図2】本発明に係る音声分析方式の第2の実施例とな
るシステムの構成を示すブロック図である。
るシステムの構成を示すブロック図である。
【図3】図2に示した第2の実施例におけるスペクトラ
ム包絡/位相情報検出部の具体的な構成を示すブロック
図である。
ム包絡/位相情報検出部の具体的な構成を示すブロック
図である。
【図4】図2に示した第2の実施例の動作説明に供する
信号波形図である。
信号波形図である。
1,11・・・A/D変換器 2,12・・・有声部/無声部識別部 3,13・・・ピッチ検出部 4,14・・・スペクトル包絡/位相情報抽出部 5,15・・・パルス設定部 6,16・・・位相情報抽出部 7,17・・・差分抽出部 18・・・・・IFFT処理部
Claims (2)
- 【請求項1】 分析音声信号の時間軸に対して音源情報
となるパルス列を音声信号のピッチ周期に対応するよう
に設定し、 そのパルス列の位相情報と分析音声信号の位相情報との
差分を求め、 この差分を分析音声信号内の所望の1ピッチ周期分の位
相情報とし、 この位相情報と振幅情報を所望の1ピッチ周期分のデー
タとすることを特徴とする音声分析方式。 - 【請求項2】 分析音声信号の時間軸に対して音源情報
となるパルス列を音声信号のピッチ周期に対応するよう
に設定し、 そのパルス列の位相情報と分析音声信号の位相情報との
差分を求め、 この差分を分析音声信号内の所望の1ピッチ周期分の位
相情報とし、 分析音声信号の高速フーリエ変換処理を施して、そのス
ペクトラム成分からケプストラムを求め、 このケプストラムから1ピッチ周期内の低次の成分を切
り出し、これから1ピッチ周期に対応したスペクトル情
報を求め、 このスペクトル情報を上記位相情報とともに逆高速フー
リエ変換して1ピッチ周期分のインパルス応答を求め、
このインパルス応答を所望の1ピッチ周期分のデータと
することを特徴とする音声分析方式。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4112627A JPH05307399A (ja) | 1992-05-01 | 1992-05-01 | 音声分析方式 |
US08/056,416 US5452398A (en) | 1992-05-01 | 1993-05-03 | Speech analysis method and device for suppyling data to synthesize speech with diminished spectral distortion at the time of pitch change |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4112627A JPH05307399A (ja) | 1992-05-01 | 1992-05-01 | 音声分析方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH05307399A true JPH05307399A (ja) | 1993-11-19 |
Family
ID=14591470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4112627A Pending JPH05307399A (ja) | 1992-05-01 | 1992-05-01 | 音声分析方式 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5452398A (ja) |
JP (1) | JPH05307399A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7970609B2 (en) | 2006-08-09 | 2011-06-28 | Fujitsu Limited | Method of estimating sound arrival direction, sound arrival direction estimating apparatus, and computer program product |
US9257131B2 (en) | 2012-11-15 | 2016-02-09 | Fujitsu Limited | Speech signal processing apparatus and method |
CN118646823A (zh) * | 2024-08-15 | 2024-09-13 | 杭州贵禾科技有限公司 | 通话质量智能检测方法、装置及存储介质 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5701390A (en) * | 1995-02-22 | 1997-12-23 | Digital Voice Systems, Inc. | Synthesis of MBE-based coded speech using regenerated phase information |
DE69939086D1 (de) * | 1998-09-17 | 2008-08-28 | British Telecomm | Audiosignalverarbeitung |
US7423983B1 (en) | 1999-09-20 | 2008-09-09 | Broadcom Corporation | Voice and data exchange over a packet based network |
US6765931B1 (en) * | 1999-04-13 | 2004-07-20 | Broadcom Corporation | Gateway with voice |
ATE388542T1 (de) * | 1999-12-13 | 2008-03-15 | Broadcom Corp | Sprach-durchgangsvorrichtung mit sprachsynchronisierung in abwärtsrichtung |
US6587816B1 (en) | 2000-07-14 | 2003-07-01 | International Business Machines Corporation | Fast frequency-domain pitch estimation |
US20020010715A1 (en) * | 2001-07-26 | 2002-01-24 | Garry Chinn | System and method for browsing using a limited display device |
EP1422693B1 (en) * | 2001-08-31 | 2008-11-05 | Kenwood Corporation | Pitch waveform signal generation apparatus; pitch waveform signal generation method; and program |
US20080249776A1 (en) * | 2005-03-07 | 2008-10-09 | Linguatec Sprachtechnologien Gmbh | Methods and Arrangements for Enhancing Machine Processable Text Information |
ES2374008B1 (es) | 2009-12-21 | 2012-12-28 | Telefónica, S.A. | Codificación, modificación y síntesis de segmentos de voz. |
EP2360680B1 (en) * | 2009-12-30 | 2012-12-26 | Synvo GmbH | Pitch period segmentation of speech signals |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4559602A (en) * | 1983-01-27 | 1985-12-17 | Bates Jr John K | Signal processing and synthesizing method and apparatus |
US4817155A (en) * | 1983-05-05 | 1989-03-28 | Briar Herman P | Method and apparatus for speech analysis |
EP0163829B1 (en) * | 1984-03-21 | 1989-08-23 | Nippon Telegraph And Telephone Corporation | Speech signal processing system |
JPH0754440B2 (ja) * | 1986-06-09 | 1995-06-07 | 日本電気株式会社 | 音声分析合成装置 |
US5179626A (en) * | 1988-04-08 | 1993-01-12 | At&T Bell Laboratories | Harmonic speech coding arrangement where a set of parameters for a continuous magnitude spectrum is determined by a speech analyzer and the parameters are used by a synthesizer to determine a spectrum which is used to determine senusoids for synthesis |
US5029211A (en) * | 1988-05-30 | 1991-07-02 | Nec Corporation | Speech analysis and synthesis system |
US5091946A (en) * | 1988-12-23 | 1992-02-25 | Nec Corporation | Communication system capable of improving a speech quality by effectively calculating excitation multipulses |
US5293449A (en) * | 1990-11-23 | 1994-03-08 | Comsat Corporation | Analysis-by-synthesis 2,4 kbps linear predictive speech codec |
US5133449A (en) * | 1990-11-30 | 1992-07-28 | The Cambridge Wire Cloth Company | Frictional drive spiral conveyor system |
US5327518A (en) * | 1991-08-22 | 1994-07-05 | Georgia Tech Research Corporation | Audio analysis/synthesis system |
-
1992
- 1992-05-01 JP JP4112627A patent/JPH05307399A/ja active Pending
-
1993
- 1993-05-03 US US08/056,416 patent/US5452398A/en not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7970609B2 (en) | 2006-08-09 | 2011-06-28 | Fujitsu Limited | Method of estimating sound arrival direction, sound arrival direction estimating apparatus, and computer program product |
US9257131B2 (en) | 2012-11-15 | 2016-02-09 | Fujitsu Limited | Speech signal processing apparatus and method |
CN118646823A (zh) * | 2024-08-15 | 2024-09-13 | 杭州贵禾科技有限公司 | 通话质量智能检测方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US5452398A (en) | 1995-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Schroeder | Vocoders: Analysis and synthesis of speech | |
Childers et al. | Voice conversion: Factors responsible for quality | |
JP3078205B2 (ja) | 波形の連結及び部分的重複化による音声合成方法 | |
JP3294604B2 (ja) | 波形の加算重畳による音声合成のための処理装置 | |
US5884260A (en) | Method and system for detecting and generating transient conditions in auditory signals | |
JPH031200A (ja) | 規則型音声合成装置 | |
JPH05307399A (ja) | 音声分析方式 | |
EP0391545B1 (en) | Speech synthesizer | |
EP0191531B1 (en) | A method and an arrangement for the segmentation of speech | |
JP3576800B2 (ja) | 音声分析方法、及びプログラム記録媒体 | |
US5369730A (en) | Speech synthesizer | |
JP2841797B2 (ja) | 音声分析・合成装置 | |
JPH05307395A (ja) | 音声合成装置 | |
JPH09244693A (ja) | 音声合成方法及び装置 | |
JP3197975B2 (ja) | ピッチ制御方法及び装置 | |
US7822599B2 (en) | Method for synthesizing speech | |
JP3035939B2 (ja) | 音声分析合成装置 | |
JP2866086B2 (ja) | 残差駆動型音声合成方式 | |
JP3949828B2 (ja) | 音声変換装置及び音声変換方法 | |
JP2560277B2 (ja) | 音声合成方式 | |
JPH0690638B2 (ja) | 音声分析方式 | |
CN114974271A (zh) | 一种基于声道滤波和声门激励的语音重构方法 | |
KR100322704B1 (ko) | 음성신호의지속시간변경방법 | |
JP3263136B2 (ja) | 信号のピッチ同期位置抽出方式及び信号合成方式 | |
JPS6159397A (ja) | 音声入力再生装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20020604 |