JP2012088392A

JP2012088392A - 話速変換装置及びプログラム

Info

Publication number: JP2012088392A
Application number: JP2010232822A
Authority: JP
Inventors: Toru Tsugi; 徹都木; Atsushi Imai; 篤今井; Nobumasa Seiyama; 信正清山; Reiko Saito; 礼子齋藤
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2010-10-15
Filing date: 2010-10-15
Publication date: 2012-05-10
Anticipated expiration: 2030-10-15
Also published as: JP5723568B2

Abstract

【課題】入力信号の話速変換を行う話速変換装置及びプログラムを提供する。
【解決手段】本発明の話速変換装置１００は、入力音声について区分した各区間について所定の倍率で時間伸縮を施す時間伸縮部１２２，１２４と、入力音声について区分した各区間における基本周波数の変化量を算出し、該変化量を基に、前記時間伸縮した各区間の音声に対して基本周波数を変換する基本周波数変換部２０６，２０８及び／又はパワーを変換するパワー変換部３０６を備える。
【選択図】図１

Description

本発明は、入力信号の話速を変換する話速変換技術に関し、話速を一様にゆっくりにしたり速めたりする場合や、話速に緩急をつけるため適応的に変換する話速変換装置及びプログラムに関する。

従来、話速変換を行う方法として、様々な方式が提案されている（例えば、特許文献１〜８、非特許文献１〜３参照）。重複加算法を基本原理とする、ＴＤＨＳ方式（Time-Domain Harmonic Scaling) 、ＰＩＣＯＬＡ方式（Pointer Interval Control OverLap and Add)、ＰＳＯＬＡ方式（Pitch Synchronous OverLap-Add）などとして知られる非特許文献１〜３及び特許文献１，２に開示される技術は、話速変換の基本方式であり、特許文献３〜８に開示される技術は、適応的な話速変換として、入力音声全体にわたって一様な倍率ｒ倍で速度を変えるのではなく、入力音声の各部分によってｒより大きい倍率や小さい倍率で速度を変えることで、全体としては一様な倍率ｒで話速変換したのと同じ時間で再生する方式である。

これらの全ての方式に共通していることは、変換音声の品質を入力音声と同じに保つため、入力音声の各部分の基本周期（声の場合、声帯の振動周期に相当）を変えずに、入力音声波形の長さを伸縮することを特徴としている。

特許第２６１２８６８号明細書特許第２９５５２４７号明細書特許第３２４９５６７号明細書特許第３２１９８９２号明細書特許第３２２００４３号明細書特許第３３５７７４２号明細書特許第３３７３９３３号明細書特許第３６１９９４６号明細書

D. Malah：“Time-domain algorithms for harmonic bandwidth reduction amd time scaling of speech signals”，IEEE Trans. Acoust.， Speech & Signal Process.，vol. ASSP-27，no.2，pp.121-133 , 1979 森田直孝、板倉文忠：“自己相関法による音声の時問軸での伸縮方式とその評価”，信学技報，vo1.86，no.25，EA86-5, 1986 E. Moulines and F. Charpentier：“Pitch-synchronous wave-form processing techniques for text-to-speech synthesis using diphones”，Speech Communication，vo1.9， nos. 5/6，pp.453-467, 1990

しかしながら、入力音声の各部分の基本周期を保つということは、言い換えれば、入力音声の各部分の声の高さを保つことと同じである。しかし、このように入力音声の各部分の声の高さを保った場合、例えば話速をゆっくりにした際には、メリハリのないだらけた感じの喋り方になったり、話速を速くした際には、切迫したとげとげしい感じの喋り方になったりするといった、不自然なしゃべり方になることがしばしば起こる。

音声のメリハリ感や切迫感に影響する物理量としては、イントネーションを決定する“基本周波数の時間変化”や、ストレスを決定する“音の強さの時間変化”が知られている。したがって、不自然なしゃべり方になる原因のひとつとして、声の高さの時間変化であるイントネーションやそれと連動して変化する声の強さの時間変化が、目的とする話速に相応しくない時間変化の仕方になっていることが考えられる。

実際に、人がお年寄りに対して、ゆっくりと明瞭に話しかける場合を想定してみると、話速がゆっくりになっているだけでなく、イントネーションや声の強さの時間変化も強調されて、“ゆっくり”且つ“はっきり”話していることが多い。また、逆に早口で話す場合を考えると、短時間のうちに、のどや口、舌といった発声器官の形を変化させていかなければならず、声の高さの変化の幅や声の強さの変化の幅を十分に付けることが難しくなり、結果としてイントネーションや声の強さの変化は抑圧されることが一般的である。

しかるに、先に例に挙げた従来の話速変換方法では、入力音声の各部分の声の高さや強さを保つようにしているため、実際に人が話速を変えて喋った場合に対応するイントネーションや声の強さの変化になっていない可能性が高い。

そこで、本発明は、話速の変化量に応じてこれらの物理量も適切に制御することにより、“聞こえの不自然さ”を改善する話速変換装置及びプログラムを提供することを目的とする。

上記課題を解決するために、本発明は、入力音声の話速（話す速さ）を変換するにあたり、話速を変換した場合に生じる“聞こえの不自然さ”を改善して、より聞きやすい話速変換を行なう技法を提供する。尚、 “聞こえの不自然さ”とは、例えば話速をゆっくりにした際には、メリハリのないだらけた感じの喋り方になったり、話速を速くした際には、切迫したとげとげしい感じの喋り方になったりすることを云う。

音声のメリハリ感や切迫感に影響する物理量としては、抑揚を決定する“基本周波数の時間変化”や、ストレスを決定する“音の強さの時間変化”が知られており、本発明においては、話速の変化量に応じてこれらの物理量も適切に制御することにより、“聞こえの不自然さ”を改善する。

即ち、本発明の話速変換装置は、入力された音声に対して話速変換を行う話速変換装置であって、入力音声について区分した各区間について所定の倍率で時間伸縮を施す時間伸縮手段と、入力音声について区分した各区間における前記時間伸縮による話速変換前の、所定の時間当たりの基本周波数の変化量を算出し、該変化量を基に、前記時間伸縮した各区間の音声に対して基本周波数も変換する基本周波数変換手段と、を備えることを特徴とする。

また、本発明の話速変換装置において、前記基本周波数変換手段は、有声音区間と無声音区間のそれぞれの区間における、所定の時間当たりの基本周波数の変化量を算出し、前記時間伸縮した各区間の音声に対して基本周波数を変換する手段を有することを特徴とする。

なお、本発明の話速変換装置において、前記基本周波数変換手段は、前記時間伸縮による話速変換前の値に対して、基本周波数の周波数比で求めた単位時間当たりの変化量が、当該時間伸縮前の値に対して、正の値をとる係数αを指数とした冪乗値となるよう、当該基本周波数を変換するように構成することができる。
また、本発明の話速変換装置において、前記基本周波数変換手段は、前記時間伸縮による話速変換前の値に対して、基本周波数の周波数差で求めた単位時間当たりの変化量が、当該時間伸縮前の値に対して、正の値をとる係数βを乗じた値となるよう、当該基本周波数を変換するように構成することができる。

また、本発明の話速変換装置において、入力音声について区分した各区間におけるパワーの変化量を算出し、前記時間伸縮による話速変換前の、所定の時間当たりのパワーの変化量に応じて、前記時間伸縮した各区間の音声に対して、音声のパワーを変換するパワー変換手段を更に備えることを特徴とする。

さらに、本発明による話速変換装置は、入力された音声に対して話速変換を行う話速変換装置であって、入力音声について区分した各区間について所定の倍率で時間伸縮を施す時間伸縮手段と、入力音声について区分した各区間における前記時間伸縮による話速変換前の、所定の時間当たりのパワーの変化量に応じて、前記時間伸縮した各区間の音声に対して、音声のパワーを変換するパワー変換手段と、を備えることを特徴とする。

また、本発明の話速変換装置において、前記パワー変換手段は、当該音声の各区間におけるパワー比の単位時間当たりの変化量が、前記時間伸縮による話速変換前の値に対して、正の値をとる係数αを指数とした冪乗値となるよう、当該時間伸縮前の値に対して音声のパワーを変換するように構成することができる。
なお、本発明の話速変換装置において、前記パワー変換手段は、当該音声の各区間におけるパワー差の単位時間当たりの変化量が、前記時間伸縮による話速変換前の値に対して、正の値をとる係数βを乗じた値となるよう、当該時間伸縮前の値に対して音声のパワーを変換するように構成することができる。

また、本発明の話速変換装置において、前記基本周波数変換手段は、入力音声について区分した各区間における基本周波数の変化量を算出するにあたり、一定の時間間隔で実際に抽出された基本周波数の時間変化を平滑化して、前記一定の時間間隔で定義される基本周波数の時間変化の概形を用いて、当該基本周波数の所定の時間当たりの変化量を求める手段を有することを特徴とする。

また、本発明の話速変換装置において、前記基本周波数変換手段は、入力音声について区分した各区間におけるパワーの変化量を算出するにあたり、一定の時間間隔で実際に抽出されたパワーの時間変化を平滑化して、前記一定の時間間隔で定義されるパワーの時間変化の概形を用いて、当該パワーの所定の時間当たりの変化量を求める手段を有することを特徴とする。

さらに、本発明のプログラムは、入力された音声に対して話速変換を行う話速変換装置として構成するコンピュータに、入力音声について区分した各区間について所定の倍率で時間伸縮を施すステップと、入力音声について区分した各区間における前記時間伸縮による話速変換前の基本周波数の変化量を算出し、該変化量を基に、前記時間伸縮した各区間の音声に対して基本周波数を変換するステップと、を実行させるためのプログラムである。

さらに、本発明のプログラムは、入力された音声に対して話速変換を行うとして構成するコンピュータに、入力音声について区分した各区間について所定の倍率で時間伸縮を施すステップと、入力音声について区分した各区間における前記時間伸縮による話速変換前のパワーの変化量を算出し、該変化量を基に、前記時間伸縮した各区間の音声に対して音声のパワーを変換するステップと、を実行させるためのプログラムである。
さらに、本発明のプログラムは、入力された音声に対して話速変換を行う話速変換装置として構成するコンピュータに、入力音声について区分した各区間について所定の倍率で時間伸縮を施すステップと、入力音声について区分した各区間における前記時間伸縮による話速変換前の基本周波数の変化量を算出し、該変化量を基に、前記時間伸縮した各区間の音声に対して基本周波数を変換するステップと、入力音声について区分した各区間における前記時間伸縮による話速変換前のパワーの変化量を算出し、該変化量を基に、前記時間伸縮した各区間の音声に対して音声のパワーを変換するステップと、を実行させるためのプログラムである。

本発明の提案する入力音声の単位時間当たりの基本周波数の変化量やパワーの変化量を保つようにして、話速変換を行えば、従来の話速変換方式で、話速をゆっくりにした場合に生じていたメリハリのないだらけた感じの喋り方になったり、話速を速くした際に生じていた切迫したとげとげしい感じの喋り方になったりすることを避けることができる。
また、基本周波数の変化量やパワーの変化量に制限を設けることで、音質の劣化を抑えることもできる。

本発明による一実施例の話速変換装置のブロック図である。本発明による一実施例の話速変換装置の動作を示すフローチャートである。本発明による一実施例の話速変換装置における入力音声波形例とその基本周波数を抽出した結果を示す図である。本発明による一実施例の話速変換装置によって、図３に示す入力音声に対して、前半は時間長が１．２倍になるように波形を伸張（ゆっくりに変換）し、後半は時間長が０．８倍になるように波形を短縮（早口に変換）した音声波形例とその基本周波数を抽出した結果を示す図である。

以下、本発明による一実施例の話速変換装置を説明する。本実施例の話速変換装置は、
本発明に係る要素を全て包含する態様であるが、幾つかの変形例があることは後述の説明から明らかになる。

[装置構成]
図１に、本発明による一実施例の話速変換装置のブロック図を示す。本実施例の話速変換装置１００は、入力波形について、音声区間の波形と無音区間の波形に分離する音声／無音判定部１０２と、無音区間波形用の処理系統の時間伸縮（話速変換）部１２６と、「音声区間波形用の処理系統の処理部群」（後述する）と、時間伸縮した無音区間波形及び音声区間波形を接続する波形接続部１３４とから構成される。尚、無音区間波形について処理しない場合には、話速変換装置１００を「音声区間波形用処理系統の処理部群」のみから構成することができる。

「音声区間波形用処理系統の処理部群」は、入力音声の有声音区間（無声音区間を含めても良い）の各々について、基本周波数の周波数比で求めた単位時間当たりの変化量が、話速変換前の値に対して、正の値をとる係数αを指数とした冪乗値となるよう、或いは又、基本周波数の周波数差で求めた単位時間当たりの変化量が、話速変換前の値に対して、正の値をとる係数βを乗じた値となるよう適応的に基本周波数を変換する基本周波数制御部２００と、入力音声に対して話速変換を行う際、入力音声の有声音区間（無声音区間を含めても良い）の各々について、当該パワー比又はパワー差で求めたパワーの単位時間当たりの変化量を求めるパワー制御部３００と、入力音声に対して話速変換を行う際、入力音声の有声音区間（無声音区間を含めても良い）の各々について、当該パワー比で求めたパワーの単位時間当たりの変化量が、話速変換前の値に対して、正の値をとる係数αを指数とした冪乗値となるよう、或いは又、当該パワー差で求めたパワーの単位時間当たりの変化量が、話速変換前の値に対して、正の値をとる係数βを乗じた値となるよう、適応的にパワーを変換するパワー変換部３０６からなる。

基本周波数制御部２００は、音声区間の波形について、有声音区間の波形と無声音区間の波形に分離する有声音／無声音判定部１０４と、有声音区間の波形から基本周波数を抽出する基本周波数抽出部１０６と、有声音区間の波形に対して時間伸縮を行なう時間伸縮（話速変換）部１２２と、有声音区間の波形について時間伸縮した際の基本周波数変化量を算出する基本周波数変化量算出部２０２と、算出した基本周波数変化量を基に時間伸縮した有声音区間の波形の基本周波数を修正する基本周波数変換部２０６と、無声音区間の波形から基本周波数（以下、無声音区間の波形で算出する基本周波数を「擬似基本周波数」と称する）を算出する擬似基本周波数算出部１０８と、無声音区間の波形に対して時間伸縮を行なう時間伸縮（話速変換）部１２４と、無声音区間の波形について時間伸縮した際の擬似基本周波数変化量を算出する擬似基本周波数変化量算出部２０４と、算出した擬似基本周波数変化量を基に時間伸縮した無声音区間の波形の擬似基本周波数を修正する擬似基本周波数変換部２０８と、基本周波数を修正した有声音区間の波形と、擬似基本周波数を修正した無声音区間の波形とを波形接続する波形接続部１３２とを備える。

尚、基本周波数変化量算出部２０２は、一定の時間間隔Ｔで実際に抽出された基本周波数の時間変化を平滑化して得られる、一定の時間間隔Ｔで定義される基本周波数の時間変化の概形を用いて、基本周波数の比または差で求めた単位時間当たりの変化量を求める。尚、擬似基本周波数変化量算出部２０４の動作も、基本周波数変化量算出部２０２と同様である。

パワー制御部３００は、音声区間の波形について、各有声音区間の波形と各無声音区間の波形におけるそれぞれのパワーを算出するパワー算出部３０２と、算出したパワーの変化量を算出するパワー変化量算出部３０４とを備え、パワー変化量算出部３０４は、一定の時間間隔Ｔで実際に抽出されたパワーの時間変化を平滑化して得られる、一定の時間間隔Ｔで定義されるパワーの時間変化の概形を用いて、パワー比又はパワー差で求めた単位時間当たりのパワー変化量を求める。尚、パワーは、波形に２０ｍｓ程度の時間幅のハミング窓などを掛けたあとの各標本値の二乗和で求めることができ、実際の波形処理においてパワーを変換する際に、例えばパワーをＰ倍にするには各標本値にＰ^1/2を乗じることで行う。

パワー変換部３０６は、パワー制御部３００から得られる音声区間の波形におけるパワー変化量を基に、基本周波数制御部２００における波形接続部１３２から得られる時間伸縮した音声区間の波形におけるパワーを修正し、パワー修正した時間伸縮後の音声区間の波形を波形接続部１３４に送出する。

波形接続部１３４は、時間伸縮した無音区間波形及び音声区間波形を接続し、出力信号を生成する。

尚、「時間伸縮(話速変換)倍率」とは、入力信号の単位時間当たりの音声区間に対する時間的な伸縮率の逆数に相当する。また、以下に具体的に説明する例では、入力信号を冒頭から、例えば５ｍｓ毎に区切って基本周波数や擬似基本周波数を抽出し、この場合の何番目の位置かを示す整数値で、単位時間あたりのセグメント（区間）を定義することができる。

また、本例における「時間伸縮倍率」や「係数」などのパラメータは、以下の用に定義される。
Ｒｓ（ｔ）：時刻ｔにおける無音区間の時間伸縮倍率である。
Ｒｖ（ｔ）：時刻ｔにおける有声音区間の時間伸縮倍率である。
Ｒｕ（ｔ）：時刻ｔにおける無声音区間の時間伸縮倍率である。
αｖ，βｖ：有声音区間の基本周波数変換用の周波数比算出時の係数αまたは周波数差算出時の係数βである。
αｕ，βｕ：無声音区間の基本周波数変換用の周波数比を利用する場合の係数αまたは周波数差を利用する場合の係数βである。
αｐ，βｐ：パワー変換用のパワー比を利用する場合の係数αまたはパワー差を利用する場合の係数βである。
また、話速変換前の値に対する変換量に、上限または下限をパラメータとして設定する。

更に、本発明の一態様として、本実施例の話速変換装置１００をコンピュータとして構成させることができる。コンピュータに、前述した各構成要素を実現させるためのプログラムは、コンピュータの内部又は外部に備えられる記憶部に記憶される。そのような記憶部は、外付けハードディスクなどの外部記憶装置、或いはＲＯＭ又はＲＡＭなどの内部記憶装置で実現することができる。コンピュータに備えられる制御部は、中央演算処理装置（ＣＰＵ）などの制御で実現することができる。即ち、ＣＰＵが、各構成要素の機能を実現するための処理内容が記述されたプログラムを、適宜、記憶部から読み込んで、各構成要素の機能をコンピュータ上で実現させることができる。ここで、各構成要素の機能をハードウェアの全部又は一部で実現しても良い。

次に、本発明による一実施例の話速変換装置の動作を説明する。

[装置動作]
図２は、本発明による一実施例の話速変換装置の動作を示すフローチャートである。まず、話速変換装置１００は、話速調整を行なう信号を入力するとともに、各パラメータを入力する（ステップＳ１）。次に、話速変換装置１００は、音声／無音判定部１０２によって、入力波形について音声区間の波形と無音区間の波形に分離する（ステップＳ２）。尚、音声区間は声帯が振動して発せられる有声音の区間と、声帯が振動せずに発せられる無声音の区間があるが、必ずしも無声音区間についは処理しなくともよい。

次に、話速変換装置１００は、パワー制御部３００によって、音声区間の波形について各有声音区間の波形と各無声音区間の波形におけるそれぞれのパワーを算出し、算出したパワーの変化量を算出して所定の記憶部（図示せず）に記憶保持する（ステップＳ３）。

次に、話速変換装置１００は、有声音／無声音判定部１０４によって、音声区間の波形について、有声音区間の波形と無声音区間の波形に分離する（ステップＳ４）。

次に、話速変換装置１００は、基本周波数抽出部１０６及び擬似基本周波数算出部１０８によって、有声音区間の基本周波数と無声音区間の擬似基本周波数をそれぞれ抽出し、続いて、時間伸縮（話速変換）部１２２及び時間伸縮（話速変換）部１２４によって、各パラメータに基づいて、有声音区間の波形及び無声音区間の波形に対してそれぞれ時間伸縮を行なう（ステップＳ５）。

ここで、図３に、本発明による一実施例の話速変換装置における入力音声波形例とその基本周波数を抽出した結果を示している。図３の上部は入力音声波形、図３の下部の小さな白い丸は５ｍｓ毎に基本周波数を抽出した結果である。これをf₀(n)とする。基本周波数を抽出する方法としては、例えば特許第３２１９８６８号などで開示される技術を利用できる。そして、f₀(n)に対して、有声音区間において、カットオフ周波数３〜６Ｈｚ程度のローパスフィルタを用いて平滑化してf₁(n)を得る。その結果を例えばスプライン関数を用いて線で結んだのが同図の実線である。尚、図３では、音声区間は声帯が振動して発せられる有声音の区間と、声帯が振動せずに発せられる無声音の区間があるが、本実施例では無声音区間の声の高さ及びパワーはそのままとして扱っている。

無声音区間の声の高さも含めて時間伸縮の制御を行なう場合、本実施例の話速変換装置１００では、無声音区間では一般に基本周波数が明確でないことから、自己相関関数などにより擬似的な基本周波数を求め、無声音区間の声の高さも含めて制御する。無声音区間の声の高さも含めて時間伸縮の制御を行なうことにより、発声ばらつきをより低減させた高精度の話速変換が実現できる。例えば、比較的継続時間が長い/f/、/h/、/s/等の子音が多く含まれる声を扱う場合（ドイツ語などではそのような傾向が強い。また日本語でも発声者の個性で、一般人よりも/f/、/h/、/s/等の継続時間が長い人がいる。）がある。また、放送番組のように、背景に小さめの音楽が流れている場合には、有声音区間を無声音区間として誤って判定してしまうことがあり、その場合には無声音も含めて声の高さを制御するほうが安定した変換結果となるためである。

次に、話速変換装置１００は、基本周波数変化量算出部２０２及び擬似基本周波数変化量算出部２０４によって、有声音区間の波形及び無声音区間の波形について時間伸縮した際の基本周波数変化量及び擬似基本周波数変化量をそれぞれ算出し、算出した基本周波数変化量及び擬似基本周波数変化量を基に、時間伸縮した有声音区間の波形の基本周波数及び無声音区間の波形の擬似基本周波数をそれぞれ修正した波形に変換する（ステップＳ６）。

次に、話速変換装置１００は、波形接続部１３２によって、基本周波数を修正した新たな有声音区間の波形と、擬似基本周波数を修正した新たな無声音区間の波形とを波形接続する（ステップＳ７）。

次に、話速変換装置１００は、パワー変換部３０６によって、パワー制御部３００の演算によって得られている音声区間の波形におけるパワー変化量を基に、波形接続部１３２によって波形接続した新たな音声区間の波形におけるパワーを修正して正規化し、パワー正規化した時間伸縮した音声区間の波形に変換する（ステップＳ８）。

話速変換装置１００は、無音区間波形について時間伸縮するように構成することができ、この場合、時間伸縮（話速変換）部１２６によって、各パラメータに基づいて、無音区間波形に対して時間伸縮を行ない、新たな無音区間波形を生成する（ステップＳ９）。

最終的に、話速変換装置１００は、波形接続部１３４によって、時間伸縮し、且つ声の高さとパワーを制御した音声区間波形と時間伸縮した無音区間波形とを接続し、出力信号を生成する（ステップＳ１０）。

図４には、本実施例の話速変換装置１００によって、図３に示す入力音声に対して、前半は時間長が１．２倍になるように波形を伸張（ゆっくりに変換）し、後半は時間長が０．８倍になるように波形を短縮（早口に変換）した音声波形例とその基本周波数を抽出した結果を示している。このときの平滑化された基本周波数の時間変化は同図の細い実線のようになり、図３の実線に比較して、単位時間当たりの変化量が、入力音声の前半は小さくなり、後半は大きくなっていることがわかる。

つまり、本実施例の話速変換装置１００では、図３の実線において５ｍｓごとにシフトしながら、ある時刻の値f₁(n)とその５ｍｓ後の値f₁(n+1)を用いて、周波数比で求めた単位時間（１ｍｓ）当たりの変化量R₁(n) = f₁(n+1)／f₁(n)／５を求めていく。

次に、本実施例の話速変換装置１００は、図４の例では、その変換音声の前半に関して波形を１．２倍に伸張させていることから、５×１．２＝６ｍｓごとにシフトしながら、ある時刻の値f₂(n)とその６ｍｓ後の値f₂(n+1)を用いて、例えば周波数比で求めた単位時間（１ｍｓ）当たりの変化量R₂(n) ＝ f₂(n+1)／f₂(n)／６を求めていく。そして単位時間当たりの変化量R₂(n)がR₁(n)^αに等しくなるように変換したものをR’₂(n)＝ f’₂(n+1)／f’₂(n)／６とすると、R’₂(n)＝R₁(n)^α＝{f₁(n+1)／f₁(n)／５}^αとするのが目的であるので、f’₂(n+1)／f’₂(n)／６＝ {f₁(n+1)／f₁(n)／５}^α、さらに式を変形して、f’₂(n+1) ＝ f’₂(n)×{f₁(n+1)／f₁(n)／５}^α×６となり、f’₂(n)は各有声音区間の開始点から逐次的に計算する。但し、本実施例では、各有声区間の開始点においては、f’₂(n)＝f₂(n)とするが、各有声音区間の中間点や終了点においてf’₂(n)＝f₂(n)とする方法や、各有声音区間のf₂(n)の平均値にf’₂(n)の平均値を合わせるなどの方法も考えられる。α＝１として、f’₂(n)を計算していき、その結果を例えばスプライン関数を用いて線で結んだのが、図４の太い実線である。

本実施例の話速変換装置１００により、最終的な変換後の基本周波数f₃(n)は、f₃(n)＝f’₀(n)×{f’₂(n)／f₂(n)}で得られる。ここで、f’₀(n)は、５ｍｓごとに抽出されたf₀(n)を、一度直線やスプライン関数で補間して連続な線とし、それを各部分に与えられた時間伸縮倍率で伸縮した後に、６ｍｓごとに標本化しなおしたものである。本実施例の場合、変換音声の前半に関しては、各部分の時間伸縮率が１．２で一定なので、結果的にはf’₀(n)＝f₀(n)である。基本周波数の変換方法としては、前述した先行技術文献に開示される非特許文献３のＰＳＯＬＡ法や特許第２６１２８６７号などを利用することができる。

同様に、本実施例の話速変換装置１００は、図４の例で、その変換音声の後半に関して波形が０．８倍に短縮させていることから、５×０．８＝４ｍｓごとにシフトしながら、ある時刻の値f₂(n)とその４ｍｓ後の値f₂(n+1)を用いて、周波数比で求めた単位時間（１ｍｓ）当たりの変化量R₂(n) = f₂(n+1)／f₂(n)／４を求めていく。以下同様にして、f’₂(n+1) ＝ f’₂(n)×{f₁(n+1)／f₁(n)／5}^α×４となり、その結果を例えばスプライン関数を用いて線で結ぶことにより、図４の太い実線を描くことができる。最終的な変換後の基本周波数f₃(n)は、f₃(n)＝f’₀(n)×{f’₂(n)／f₂(n)}で得られることも同様である。ここで、f’₀(n)は、５ｍｓごとに抽出されたf₀(n)を、一度直線やスプライン関数で補間して連続な線とし、それを各部分に与えられた時間伸縮倍率で伸縮した後に、４ｍｓごとに標本化しなおしたものである。本実施例の場合、変換音声の後半に関しては、各部分の時間伸縮率が０．８で一定なので、結果的にはf’₀(n)＝f₀(n)である。

このようにして、話速変換を行う際に、基本周波数の比で求めた単位時間当たりの変化量をたもつように基本周波数も変換すると、波形の前半の話速をゆっくりにした部分では、基本周波数の変化幅が広がり、後半の話速を速くした部分では、基本周波数の変化幅が圧縮されることになる。

より具体的な例では、本発明の第１の態様の話速変換装置は、入力された音声に対して話速変換を行う際、入力音声の有声音区間（無声音区間を含めても良い）の各々について、基本周波数の周波数比で求めた単位時間当たりの変化量が、話速変換前の値に対して、正の値をとる係数αを指数とした冪乗値となるよう、適宜基本周波数も変換する。

通常、話速をゆっくりにする場合、言い換えれば音声波形の時間長を伸ばす場合には、イントネーションのパターン、すなわち声の高さの時間変化パターンも時間方向に伸びてしまい、単位時間当たりの声の高さの変化量が少なくなってしまうことが考えられる。これは一般的に言う“抑揚”がゆっくりとする変化することを意味しており、メリハリのないだらけた感じの喋り方に聞こえると考えられる。また。話速を速くする場合、言い換えれば音声波形の時間長を縮める場合には、イントネーションのパターン、すなわち声の高さの時間変化パターンも時間方向に縮んでしまい、単位時間当たりの声の高さの変化量が多くなってしまうことが考えられる。これは一般的に言う“抑揚”が速く変化することを意味しており、切迫したとげとげしい感じの喋り方に聞こえると考えられる。そこで、第１の態様によれば、基本周波数の周波数比で求めた単位時間当たりの変化量を保つことで、“抑揚”の変化を入力音声と同じ感じの聞こえ方にすることができる。これは係数αを１とした場合である。

一方で、話速をゆっくりにする場合においては、αを１より大きくすれば、よりメリハリのある抑揚とすることができる。また、入力音声がもともとかなりメリハリのある喋り方である場合には、αを１より小さく設定したほうが良い場合もあると考えられる。さらに、話速を速くする場合においては、αを１より小さくすれば、切迫したとげとげしい感じを、より抑えることができる。また、入力音声がもともとかなりメリハリのないだらけた喋り方である場合には、αを１より大きく設定したほうが良い場合もあると考えられる。

また、本発明の第２の態様の話速変換装置は、入力された音声に対して話速変換を行う際、入力音声の有声音区間（無声音区間を含めても良い）の各々について、基本周波数の周波数差で求めた単位時間当たりの変化量が、話速変換前の値に対して、正の値をとる係数βを乗じた値となるよう、適宜基本周波数も変換する。

第２の態様によれば、βを１とした場合には、その効果としては、第１の態様でαを１とした場合と同じである。一方で、話速をゆっくりにする場合においては、βを１より大きくすれば、よりメリハリのある抑揚とすることができる。また、入力音声がもともとかなりメリハリのある喋り方である場合には、βを１より小さく設定したほうが良い場合もあると考えられる。さらに、話速を速くする場合においては、βを１より小さくすれば、切迫したとげとげしい感じを、より抑えることができる。また、入力音声がもともとかなりメリハリのないだらけた喋り方である場合には、βを１より大きく設定したほうが良い場合もあると考えられる。

尚、入力音声の有声音区間（無声音区間を含めても良い）の各々について、基本周波数を変換する際、変換前の値に対する変換量に、上限または下限を設定する。

入力音声の有声音区間（無声音区間を含めても良い）の各々について、基本周波数を変化させるにあたり、基本周波数を大きく変化させすぎると、音が歪んだり、非人間的な声質になったりする。そこで、基本周波数を変換する際、変換前の値に対する変換量に、上限または下限を設定することで、“抑揚”を保つ効果は減少するが、音質劣化を避けることができる。

本発明の第３の態様の話速変換装置は、入力された音声に対して話速変換を行う際、音声の各部分について、比で求めたパワーの単位時間当たりの変化量が、話速変換前の値に対して、正の値をとる係数αを指数とした冪乗値となるよう、適宜パワーも変換する。

通常、話速をゆっくりにする場合、言い換えれば音声波形の時間長を伸ばす場合には、声の強さの時間変化パターンも時間方向に伸びてしまい、単位時間当たりの声の強さの変化量が少なくなってしまうことが考えられる。これは一般的に言う声の“ストレス”がゆっくりとする変化することを意味しており、メリハリのないだらけた感じの喋り方に聞こえると考えられる。また。話速を速くする場合、言い換えれば音声波形の時間長を縮める場合には、声の強さの時間変化パターンも時間方向に縮んでしまい、単位時間当たりの声の強さの変化量が多くなってしまうことが考えられる。これは一般的に言う声の“ストレス”が速く変化することを意味しており、切迫したとげとげしい感じの喋り方に聞こえると考えられる。

そこで、第３の態様によれば、比で求めたパワーの単位時間当たりの変化量を保つことで、“ストレス”の変化を入力音声と同じ感じの聞こえ方にすることができる。これは係数αを１とした場合である。

一方で、話速をゆっくりにする場合においては、αを１より大きくすれば、よりメリハリのあるストレス変化が大きな音声とすることができる。また、入力音声がもともとかなりメリハリのある喋り方である場合には、αを１より小さく設定したほうが良い場合もあると考えられる。

さらに、話速を速くする場合においては、αを１より小さくすれば、ストレスの変化が小さくなり、切迫したとげとげしい感じを、より抑えることができる。また、入力音声がもともとかなりメリハリのないだらけた喋り方である場合には、αを１より大きく設定したほうが良い場合もあると考えられる。

本発明の第４の態様の話速変換装置は、入力された音声に対して話速変換を行う際、音声の各部分について、差で求めたパワーの単位時間当たりの変化量が、話速変換前の値に対して、正の値をとる係数βを乗じた値となるよう、適宜パワーも変換する。

第４の態様によれば、βを１とした場合には、その効果としては、第３の態様でαを１とした場合と同じである。一方で、話速をゆっくりにする場合においては、βを１より大きくすれば、よりメリハリのあるストレス変化とすることができる。また、入力音声がもともとかなりメリハリのある喋り方である場合には、βを１より小さく設定したほうが良い場合もあると考えられる。さらに、話速を速くする場合においては、βを１より小さくすれば、ストレスの変化が小さくなり、切迫したとげとげしい感じを、より抑えることができる。また、入力音声がもともとかなりメリハリのないだらけた喋り方である場合には、βを１より大きく設定したほうが良い場合もあると考えられる。

尚、音声の各部分のパワーを変換する際、変換前の値に対する変換量に、上限または下限を設定する。

入力音声のパワーを変化させる方式においては、デジタル音声処理の場合も、アナログ信号処理の場合も、ハードウェアが扱える信号の大きさには限界があり、それを超えるほどパワーを大きくすると音質が劣化する。そこで、パワーを変換する際、変換前の値に対する変換量に、上限または下限を設定することで、“ストレス”の変化の強さを保つ効果は減少するが、音質劣化を避けることができる。

本発明の第５の態様の話速変換装置は、基本周波数の比または差で求めた単位時間当たりの変化量を求めるのに際して、一定の時間間隔Ｔで実際に抽出された基本周波数の時間変化を平滑化して、一定の時間間隔Ｔで定義される基本周波数の時間変化の概形を用いる。

一般的に、人が感じる音声のイントネーションには、基本周波数の細かな時間変化はあまり影響せず、１単語にひとつの山を持つような緩やかな基本周波数の時間変化が大きく寄与している。しかし、例えば５ミリ秒毎に抽出される実際の基本周波数には、１単語内において細かな変動があることが多い。本発明考案の目的に照らした場合、そのような細かな変動は考慮する必要がないため、５ミリ秒毎に実際に抽出された基本周波数の時間変化を平滑化したのち、その単位時間当たりの変化量を求め、これを基本周波数変換の量を求めるための値として用いるほうが、より聴感的に合った処理が可能となると考えられる。

本発明の第６の態様の話速変換装置は、比または差で求めた単位時間当たりのパワー変化量を求めるのに際して、一定の時間間隔Ｔで実際に抽出されたパワーの時間変化を平滑化して、一定の時間間隔Ｔで定義されるパワーの時間変化の概形を用いる。

一般的に、人が感じる音声のストレスの変化には、パワーの細かな時間変化はあまり影響せず、１単語にひとつかふたつの山を持つような緩やかなパワーの時間変化が大きく寄与している。しかし、例えば５ミリ秒毎に抽出される実際のパワーには、１単語内において細かな変動があることが多い。本発明の目的に照らした場合、そのような細かな変動は考慮する必要がないため、５ミリ秒毎に実際に抽出されたパワーの時間変化を平滑化したのち、その単位時間当たりの変化量を求め、これをパワー変換の量を求めるための値として用いるほうが、より聴感的に合った処理が可能となると考えられる。

尚、これらの各態様を適宜組み合わせることができる。

以上、具体例を挙げて本発明の実施例を詳細に説明したが、本発明の特許請求の範囲から逸脱しない限りにおいて、あらゆる変形や変更が可能であることは当業者に明らかである。従って、本発明は上記の実施例に限定されるものではない。

本発明の話速変換装置及びそのプログラムは、テレビやラジオの音声をリアルタイムでゆっくり聞いたり、ハードディスクレコーダなどに一度記録して、ゆっくり又ははやく視聴したりする話速変換技術のあらゆる用途に適用することができる。

１００話速変換装置
１０２音声／無音判定部
１０４有声音／無声音判定部
１０６基本周波数抽出部
１０８擬似基本周波数算出部
１２２時間伸縮（話速変換）部
１２４時間伸縮（話速変換）部
１２６時間伸縮（話速変換）部
１３２波形接続部
１３４波形接続部
２００基本周波数制御部
２０２基本周波数変化量算出部
２０４擬似基本周波数変化量算出部
２０６基本周波数変換部
２０８擬似基本周波数変換部
３００パワー制御部
３０２パワー算出部
３０４パワー変化量算出部
３０６パワー変換部

Claims

入力された音声に対して話速変換を行う話速変換装置であって、
入力音声について区分した各区間について所定の倍率で時間伸縮を施す時間伸縮手段と、
入力音声について区分した各区間における前記時間伸縮による話速変換前の、所定の時間当たりの基本周波数の変化量を算出し、該変化量を基に、前記時間伸縮した各区間の音声に対して基本周波数を変換する基本周波数変換手段と、
を備えることを特徴とする、話速変換装置。
前記基本周波数変換手段は、有声音区間と無声音区間のそれぞれの区間における、所定の時間当たりの基本周波数の変化量を算出し、前記時間伸縮した各区間の音声に対して基本周波数を変換する手段を有することを特徴とする、請求項１に記載の話速変換装置。
入力音声について区分した各区間におけるパワーの変化量を算出し、前記時間伸縮による話速変換前の、所定の時間当たりのパワーの変化量に応じて、前記時間伸縮した各区間の音声に対して、音声のパワーを変換するパワー変換手段を更に備えることを特徴とする、請求項１又は２に記載の話速変換装置。
入力された音声に対して話速変換を行う話速変換装置であって、
入力音声について区分した各区間について所定の倍率で時間伸縮を施す時間伸縮手段と、
入力音声について区分した各区間における前記時間伸縮による話速変換前の、所定の時間当たりのパワーの変化量に応じて、前記時間伸縮した各区間の音声に対して、音声のパワーを変換するパワー変換手段と、
を備えることを特徴とする、話速変換装置。
入力音声について区分した各区間における基本周波数の変化量を算出するにあたり、一定の時間間隔で実際に抽出された基本周波数の時間変化を平滑化して、前記一定の時間間隔で定義される基本周波数の時間変化の概形を用いて、当該基本周波数の所定の時間当たりの変化量を求める手段を有することを特徴とする、請求項１〜３のいずれか一項に記載の話速変換装置。
前記基本周波数変換手段は、入力音声について区分した各区間におけるパワーの変化量を算出するにあたり、一定の時間間隔で実際に抽出されたパワーの時間変化を平滑化して、前記一定の時間間隔で定義されるパワーの時間変化の概形を用いて、当該パワーの所定の時間当たりの変化量を求める手段を有することを特徴とする、請求項３または４に記載の話速変換装置。
入力された音声に対して話速変換を行う話速変換装置として構成するコンピュータに、
入力音声について区分した各区間について所定の倍率で時間伸縮を施すステップと、
入力音声について区分した各区間における前記時間伸縮による話速変換前の基本周波数の変化量を算出し、該変化量を基に、前記時間伸縮した各区間の音声に対して基本周波数を変換するステップと、
を実行させるためのプログラム。
入力された音声に対して話速変換を行う話速変換装置として構成するコンピュータに、
入力音声について区分した各区間について所定の倍率で時間伸縮を施すステップと、
入力音声について区分した各区間における前記時間伸縮による話速変換前のパワーの変化量を算出し、該変化量を基に、前記時間伸縮した各区間の音声に対して音声のパワーを変換するステップと、
を実行させるためのプログラム。
入力された音声に対して話速変換を行う話速変換装置として構成するコンピュータに、
入力音声について区分した各区間について所定の倍率で時間伸縮を施すステップと、
入力音声について区分した各区間における前記時間伸縮による話速変換前の基本周波数の変化量を算出し、該変化量を基に、前記時間伸縮した各区間の音声に対して基本周波数を変換するステップと、
入力音声について区分した各区間における前記時間伸縮による話速変換前のパワーの変化量を算出し、該変化量を基に、前記時間伸縮した各区間の音声に対して音声のパワーを変換するステップと、
を実行させるためのプログラム。