JP3240908B2 - 声質変換方法 - Google Patents

声質変換方法

Info

Publication number
JP3240908B2
JP3240908B2 JP4742396A JP4742396A JP3240908B2 JP 3240908 B2 JP3240908 B2 JP 3240908B2 JP 4742396 A JP4742396 A JP 4742396A JP 4742396 A JP4742396 A JP 4742396A JP 3240908 B2 JP3240908 B2 JP 3240908B2
Authority
JP
Japan
Prior art keywords
conversion
voice
spectrum
speech
divided
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP4742396A
Other languages
English (en)
Other versions
JPH09244694A (ja
Inventor
匡伸 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP4742396A priority Critical patent/JP3240908B2/ja
Publication of JPH09244694A publication Critical patent/JPH09244694A/ja
Application granted granted Critical
Publication of JP3240908B2 publication Critical patent/JP3240908B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明はある話者の発声し
た音声を入力して、その音声をあたかも特定の別人が発
声したかのように変形する声質変換方法に関する。
【0002】
【従来の技術】例えば駅の構内放送、自動応答サービス
などでは、あらかじめ人間が発声した音声を録音してお
き、その録音音声をサービス時に再生している。この場
合、その1つの音声(メッセージ)内に異なる人の音声
が混在していると、これを聞いた者は混乱を来すので一
つの音声メッセージは同一人物によって発声されること
が好ましい。一方、駅名の追加、サービスの変更などは
頻繁に起こる。従って音声メッセージの追加修正は頻繁
に生じる。この場合、既存の音声を発声した人物が、追
加乃至変更の発声をできない場合がある。一方、音声メ
ッセージの一部の変更又は追加のために全メッセージを
発声し直すことは、多大な時間と費用を費やすことが多
い。このような場合、その一部の追加、変更音声を原音
声メッセージを発声した人物があたかも発声したかのよ
うに声質を変換できれば頗る便利である。このような場
合に限らず、ある人が発声した音声をあたかも他の特定
の人物が発声したかのように声質を変換できれば便利な
場合もある。
【0003】声質を変換する従来の方法として、スペク
トル包絡からフォルマント周波数を抽出して変換する方
法(例えば、文献1)と、スペクトル包絡を1つのベク
トルと考え、ベクトルのマッピングによって変換する方
法(例えば、文献2)がある。前者は、フォルマントの
間での相関関係があるため、必ずしも希望するフォルマ
ントが実現できるわけでは無く、高品質な変換音声を得
ることは困難である。また、後者は、スペクトルの包絡
の全体の歪を扱っているため、変換の効率が上がらず、
高品質な音声を得るには至っていない。
【0004】(文献1)桑原、大串、“ホルマント周波
数、バンド幅の独立制御と個人性判断、”電子通信学会
論文誌、Vol.J69−A No.4,pp.509
−517(1986) (文献2)M.Abe,S.Nakamura,K.S
hikano,H.Kuwabara,“Voice
conversion through vector
quantization,”J.Acoust.S
oc.Jpn.(E)11,2,pp.71−76(1
990)
【0005】
【発明が解決しようとする課題】上記のように、従来の
声質変換方法は、声質の変換性能の点において、十分で
あるとは言えない。この発明の目的は、より精度良く声
質を変換することができる声質変換方法を提供すること
にある。
【0006】
【課題を解決するための手段】この発明によれば第1、
第2話者がそれぞれ発声した第1、第2音声から第1、
第2スペクトル包絡をそれぞれ抽出し、これら抽出した
第1、第2スペクトル包絡を、そのエネルギーの集中し
た周波数を基準としてそれぞれ複数の周波数帯域に分割
し、これら分割された帯域ごとに第1スペクトル包絡を
第2スペクトル包絡に変換する。
【0007】この変換は分割された帯域ごとに第1、第
2スペクトル包絡の変換規則を生成し、この変換規則を
参照して行う。この変換規則は第1、第2スペクトル包
絡の差分を用いることができる。音声のスペクトル空間
をクラスタリングにより複数に分割し、その各分割され
た空間ごとに前記帯域分割されたスペクトル包絡の変換
規則を用意して前記変換を行う。
【0008】時間的に連続する変換要素の各変換規則間
を線形変換して、これら間における変換規則とする。
【0009】
【発明の実施の形態】次にこの発明の実施例を説明す
る。この実施例においてはまず変換テーブルを作成し、
その変換テーブルを用いて、声質変換を行う。図1に変
換テーブルの作成方法の処理手順を示す。変換元話者
A、変換先話者Bがそれぞれ発声した定常各母音をそれ
ぞれPSE分析部101,102でPSE分析してスペ
クトル包絡をそれぞれ抽出する。このスペクトル包絡の
抽出はPSE分析による場合に限らず、LPC分析、ケ
プストラム分析などスペクトル包絡を抽出できる方法で
あればどのようなものでもよい。
【0010】次にローカルピーク抽出部103,104
で、分析部101,102でそれぞれ抽出されたスペク
トル包絡のピークを見つけ、そのピークにおける周波数
をローカルピーク周波数と呼ぶ。このピークの抽出は、
両入力音声をLPC分析して極周波数を求め、そのバン
ド幅の狭い極を選択し、この周波数近傍における(例え
ばその前後10ポイント)PSEスペクトル包絡上のピ
ークをそれぞれ求めて行ってもよい。また各母音ごとに
有音区間におけるスペクトル包絡とローカルピーク周波
数の各平均値を求め、これらを用いることができる。
【0011】スペクトル包絡分割及び近似部105,1
06でこれら抽出されたローカルピーク周波数をそれぞ
れ基準として、対応スペクトル包絡を分割する。即ち図
2Aに示すようにスペクトル包絡11を、その各ローカ
ルピーク周波数fp1,fp2…fp5の位置で帯域分割して
部分包絡111 ,112 ,…115 とする。これら帯域
分割された部分包絡111 ,112 ,…115 をそれぞ
れN点の代表値で近似する。つまり各部分包絡をそれぞ
れその周波数帯域をN+1等分し、その各分割周波数に
おける包絡値をそれぞれ代表値とする。
【0012】このようにして変換元話者Aのスペクトル
の部分包絡11a1 ,11a2 ,…変換先話者Bのスペ
クトルの部分包絡11b1 ,11b2 ,…について、ロ
ーカルピーク間差分計算部107でローカルピークf
pa1 ,fpa2 …とfpb1 ,fpb 2 ,…との各対応するス
ペクトル周波数の差fpa1 −fpb1 ,fpa2 −fpb,…
と、そのスペクトル強度の差とを計算して変換テーブル
109に格納する。またN割ポイント間差分計算部10
8で、対応する部分包絡ごとの各N点の分割点ごとのス
ペクトル強度の差をそれぞれ計算して変換テーブル10
9に格納する。つまり例えば図2Bに示すようにスペク
トル包絡11a,11bの対応ローカルピーク点12a
3 ,12b3 の周波数差Δf3 と強度差ΔE3 を計算
し、これを各ローカルピーク点について求めてテーブル
109に格納し、同様に例えば部分包絡11a4 ,11
4 の各2番目の代表点13a42、13b42のスペクト
ル強度差ΔE42を計算し、これを各対応代表点ごとに行
ってテーブル109に格納する。なお各部分包絡の代表
点をN点によって等分割して近似したが、2次関数、3
次関数、スプライン関数などの近似によってもよい。
【0013】上述したように母音ごとに作られた変換テ
ーブル109を用いて変換元話者Aの音声を変換先話者
Bの音声に声質変換を行う手順を図3を参照して説明す
る。入力された変換元話者Aの音声をPSE分析部40
1でPSE分析を行いスペクトル包絡、基本周波数、有
声、無声判別を求める。その求めたスペクトル包絡のロ
ーカルピークをローカルピーク抽出部402で抽出す
る。この抽出は図1中のローカルピーク抽出部103,
104と同様の処理により行えばよい。
【0014】この抽出されたローカルピークの情報を用
いて、母音識別部403で何れの母音であるか識別を行
い、その識別された母音に対する変換テーブルをテーブ
ル検索部404により変換テーブル109中から取り出
す。入力音声中で母音が連続する場合は、その両母音の
変換テーブルをそれぞれ取り出し、変換テーブル変更部
405でこれら変換テーブル間を線形変換して、両変換
されるべき母音のスペクトル包絡に対する変形処理の各
演算フレームにおいて用いる変換テーブルを得る。例え
ば入力音声がaからiと連続入力されると、図4に示す
ように母音aの変換テーブル21と母音iの変換テーブ
ル22とをその入力母音a,iの入力時点t1 ,t2
間隔をもって配し、両変換テーブル21,22の各対応
するローカルピーク周波数点、また対応する分割点の値
間を直線で結び、時点t1 ,t2間の各演算フレームF
1 ,F2 ,F3 ,…における前記結んだ直線上の値を求
めて、それぞれそのフレームにおける変換テーブルとす
る。
【0015】ローカルピーク抽出部402で抽出したロ
ーカルピークにより、その変換元話者音声のスペクトル
包絡を図1中の分割近似部105,106と同様にロー
カルピーク周波数を基準として複数の部分包絡に分割す
ると共にその各分割されて得られた各部分包絡をN点で
近似する。この各部分包絡の各ローカルピーク点を、ロ
ーカルピーク変形部407で変換テーブル変更部405
よりの変換テーブルを参照し、対応するローカルピーク
点の周波数差と強度差をそれで加減算して変形する。ま
た分割ポイント変形部408で、分割及び近似部406
よりの各分割点に対し、変換テーブル変更部405より
の変換テーブルを参照して対応する点の強度を加減算し
て変形する。
【0016】次に線形補間部409で、先に求められた
ローカルピークが変形され、かつN分割点が変形された
各部分包絡が線形補間されて連続した変形されたスペク
トル包絡を得る。このようなことが入力音声の各母音、
又は連続する母音に対して行われ、このようにして変形
されたスペクトルに包絡と分析部401で得られた部分
パラメータとを用いて音声合成部410で音声合成す
る。この音声合成法は、スペクトル包絡をゼロ位相化し
て、基本周波数毎に重ね合わせる方法や、スペクトル包
絡から基本周波数の高周波数にわたるスペクトル強度を
求め、この大きさで正弦波重量法で音声を合成する方法
などで実現できる。
【0017】音声を12kHzで標本化し、16bit
量子化し、PSE分析25次フレーム周期を8.0m
s、正弦波重量法で合成し、変換された音声のケプスト
ラムと変換先音声のケプストラムとの距離を求め、変換
元音声を各種変換先音声に声質変換した時の、分割点数
Nに対する前記距離の変化状態をピッチが150Hzの
時の実験により求めた所、図5Aに示す結果となった。
この結果からNを6程度、好ましくは15程度にすれ
ば、十分であることがわかる。他のピッチ周波数の時も
同様な結果が得られた。
【0018】また発話者をよく知っている10名の者
(発話者5名を含む)を被験者として、聴取音声がどの
発話者のものであるか、発話者を発声者6名(発声者と
被験者が同じ場合は本人を除く)選んでもらった。実際
の発話者と選択話者とが一致した数を総数で割ることに
よって話者識別率を求め、主観評価結果とした。定常5
母音音声の実験結果を図5Bに示す。ここで実際の正解
率は合成音声の時の話者識別率が上限であると考えられ
るので、合成音声の時を100%とし、正解率を求めた
ものを相対比として示す。客観評価実験結果(ケプスト
ラム距離による)を図5Cに示す。これら実験結果から
この声質変換方法が有効であることが特に基本周波数が
150Hzの時には、原音声の実験と変わらない結果が
得られており、この発明方法が有効であることがわか
る。基本周波数が200Hzの時の結果は若干良くない
が、合成音声の時に個人性に対して劣化が起こってお
り、それに起因するものであると考えられる。特に分析
条件におけるフレーム長やフレーム周期の値をすべての
音声で一定にして分析、合成を行ったので、その影響が
でたものと考えられる。
【0019】上述において、分割により得られた部分包
絡を1つのベクトルとみなして、ベクトルのマッピング
により変換してもよい。つまり、前述した変換テーブル
による変形のみならず、分割帯域ごとにスペクトル包絡
の変換規則を作り、これを参照して入力音声のスペクト
ル包絡を変形するようにしてもよい。更に、ベクトル量
子化に用いるコードブックのように、音声のスペクトル
空間を適切にクラスタリングして複数の空間に分割し、
その分割されたスペクトル空間ごとに、帯域分割された
スペクトル包絡の変換規則を用意して入力音声のスペク
トル包絡を変形するようにしてもよい。変換テーブルを
作成のための入力音声は定常母音のみならず、例えば発
声単語から抽出したものでもよい。
【0020】
【発明の効果】音声のスペクトル包絡上でをエネルギー
が大きい部分は、聴覚的に良く聞こえる部分であり、音
声を特徴づける上で重要である。これまでの研究によれ
ば、音声の個人性に重要であると考えられる音源の特徴
も、このスペクトル包絡に反映されている。この発明で
は音声スペクトル包絡上でエネルギーが大きい周波数を
音声の特徴量の1つとして利用し、この特徴量は、フォ
ルマントといわれている特徴量も包含しているため、従
来のフォルマント周波数のみの変換に較べて、声質変換
の性能を向上させることができ、さらに、この周波数を
規準として、スペクトル包絡を分割し、分割された包絡
毎に変形規則を適用する。従って、スペクトル包絡を1
つのベクトルとして扱って声質を変換する方式に較べ、
局所的な特徴を変換することが可能となり、個人性の変
換を詳細に行なうことができる。
【図面の簡単な説明】
【図1】この発明に用いる変換テーブルの作成方法を示
す図。
【図2】Aはスペクトル包絡の分割の方法を示す図、B
は変換テーブルを作成するためのスペクトル包絡間の差
分の計算方法を示す図である。
【図3】この発明による各声質変換方法の実施例を示す
図。
【図4】連続する母音の間に用いるため、両母音の変換
テーブルによりテーブル変形方法を示す図。
【図5】Aは部分包絡の分割点数に対する声質変換音声
及び変換先音声間のケプストラム距離との関係の実験結
果を示す図、Bは主観評価実験結果を示す図、Cは客観
評価実験結果を示す図である。
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 13/00

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】 第1話者の音声を入力して、その音声を
    第2話者の音声へと変換する方法において、 上記第1、第2話者がそれぞれ発声した第1、第2音声
    から第1、第2スペクトル包絡をそれぞれ抽出するステ
    ップと、 これら抽出した第1、第2スペクトル包絡を、そのエネ
    ルギーの集中した周波数を基準にして、それぞれ複数の
    周波数帯域に分割するステップと、 これら分割された帯域ごとに上記第1スペクトル包絡を
    上記第2スペクトルへ変換するステップとを有すること
    を特徴とする声質変換方法。
  2. 【請求項2】 上記変換するステップは上記分割された
    帯域ごとに上記第1、第2スペクトル包絡の変換規則を
    生成し、この変換規則を参照して上記第1話者の入力音
    声のスペクトル包絡を変形することであることを特徴と
    する請求項1記載の声質変換方法。
  3. 【請求項3】 上記変換するステップは音声のスペクト
    ル空間を分割し、その分割された空間ごとに前記帯域分
    離されたスペクトル包絡の変換規則を用意して前記変形
    を行うことを特徴とする請求項2記載の声質変換方法。
  4. 【請求項4】 上記変換規則は上記第1、第2スペクト
    ル包絡の差分であることを特徴とする請求項2又は3記
    載の声質変換方法。
  5. 【請求項5】 上記変換するステップにおいて、時間的
    に連続する変換要素を示す各上記変換規則の間を線形変
    換してこれら間の変換規則とする請求項2乃至4の何れ
    かに記載の声質変換方法。
JP4742396A 1996-03-05 1996-03-05 声質変換方法 Expired - Lifetime JP3240908B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4742396A JP3240908B2 (ja) 1996-03-05 1996-03-05 声質変換方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4742396A JP3240908B2 (ja) 1996-03-05 1996-03-05 声質変換方法

Publications (2)

Publication Number Publication Date
JPH09244694A JPH09244694A (ja) 1997-09-19
JP3240908B2 true JP3240908B2 (ja) 2001-12-25

Family

ID=12774755

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4742396A Expired - Lifetime JP3240908B2 (ja) 1996-03-05 1996-03-05 声質変換方法

Country Status (1)

Country Link
JP (1) JP3240908B2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60122397T2 (de) 2000-06-14 2006-12-07 Kabushiki Kaisha Kenwood, Hachiouji Frequenzinterpolationseinrichtung und Frequenzinterpolationsverfahren
JP3895758B2 (ja) 2004-01-27 2007-03-22 松下電器産業株式会社 音声合成装置
JP4654621B2 (ja) * 2004-06-30 2011-03-23 ヤマハ株式会社 音声処理装置およびプログラム
WO2006046761A1 (ja) * 2004-10-27 2006-05-04 Yamaha Corporation ピッチ変換装置
JP4966048B2 (ja) * 2007-02-20 2012-07-04 株式会社東芝 声質変換装置及び音声合成装置
JP4294724B2 (ja) * 2007-08-10 2009-07-15 パナソニック株式会社 音声分離装置、音声合成装置および声質変換装置
EP2357646B1 (en) * 2009-05-28 2013-08-07 International Business Machines Corporation Apparatus, method and program for generating a synthesised voice based on a speaker-adaptive technique.
JP5545935B2 (ja) * 2009-09-04 2014-07-09 国立大学法人 和歌山大学 音声変換装置および音声変換方法
US8924222B2 (en) 2010-07-30 2014-12-30 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coding of harmonic signals
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
JP6201332B2 (ja) * 2013-02-15 2017-09-27 セイコーエプソン株式会社 音処理装置
JP6386237B2 (ja) * 2014-02-28 2018-09-05 国立研究開発法人情報通信研究機構 音声明瞭化装置及びそのためのコンピュータプログラム
JP7139628B2 (ja) * 2018-03-09 2022-09-21 ヤマハ株式会社 音処理方法および音処理装置

Also Published As

Publication number Publication date
JPH09244694A (ja) 1997-09-19

Similar Documents

Publication Publication Date Title
JP2956548B2 (ja) 音声帯域拡大装置
Childers et al. Voice conversion: Factors responsible for quality
KR101213840B1 (ko) 복호화 장치 및 복호화 방법, 및 복호화 장치를 구비하는 통신 단말 장치 및 기지국 장치
US7792672B2 (en) Method and system for the quick conversion of a voice signal
US7765101B2 (en) Voice signal conversation method and system
JP2779886B2 (ja) 広帯域音声信号復元方法
JP3653826B2 (ja) 音声復号化方法及び装置
JP3240908B2 (ja) 声質変換方法
US20070185715A1 (en) Method and apparatus for generating a frequency warping function and for frequency warping
EP1686564B1 (en) Bandwidth extension of bandlimited acoustic signals
CN101141533B (zh) 用于提供具有扩展带宽的声音信号的方法和系统
JP2002528775A (ja) 広帯域信号の符号化における適応帯域ピッチ探索のための方法および装置
JP3189598B2 (ja) 信号合成方法および信号合成装置
EP2372707B1 (en) Adaptive spectral transformation for acoustic speech signals
Morise et al. Low-Dimensional Representation of Spectral Envelope Without Deterioration for Full-Band Speech Analysis/Synthesis System.
JP2003157100A (ja) 音声通信方法及び装置、並びに音声通信プログラム
KR100715013B1 (ko) 대역확장장치 및 방법
JPH07121197A (ja) 学習式音声認識方法
JPH06214592A (ja) 耐雑音音韻モデルの作成方式
JP3230791B2 (ja) 広帯域音声信号復元方法
JP2899533B2 (ja) 音質改善装置
JP3921416B2 (ja) 音声合成装置及び音声明瞭化方法
Pols Analysis and synthesis of speech using a broad-band spectral representation
KR100346790B1 (ko) 음소분할 후처리 방법
Sharifzadeh et al. Spectral enhancement of whispered speech based on probability mass function

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071019

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081019

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091019

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101019

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101019

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111019

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111019

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121019

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121019

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131019

Year of fee payment: 12

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term