JP2012088392A - 話速変換装置及びプログラム - Google Patents

話速変換装置及びプログラム Download PDF

Info

Publication number
JP2012088392A
JP2012088392A JP2010232822A JP2010232822A JP2012088392A JP 2012088392 A JP2012088392 A JP 2012088392A JP 2010232822 A JP2010232822 A JP 2010232822A JP 2010232822 A JP2010232822 A JP 2010232822A JP 2012088392 A JP2012088392 A JP 2012088392A
Authority
JP
Japan
Prior art keywords
speech
time
fundamental frequency
change
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010232822A
Other languages
English (en)
Other versions
JP5723568B2 (ja
Inventor
Toru Tsugi
徹 都木
Atsushi Imai
篤 今井
Nobumasa Seiyama
信正 清山
Reiko Saito
礼子 齋藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2010232822A priority Critical patent/JP5723568B2/ja
Publication of JP2012088392A publication Critical patent/JP2012088392A/ja
Application granted granted Critical
Publication of JP5723568B2 publication Critical patent/JP5723568B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】入力信号の話速変換を行う話速変換装置及びプログラムを提供する。
【解決手段】本発明の話速変換装置100は、入力音声について区分した各区間について所定の倍率で時間伸縮を施す時間伸縮部122,124と、入力音声について区分した各区間における基本周波数の変化量を算出し、該変化量を基に、前記時間伸縮した各区間の音声に対して基本周波数を変換する基本周波数変換部206,208及び/又はパワーを変換するパワー変換部306を備える。
【選択図】図1

Description

本発明は、入力信号の話速を変換する話速変換技術に関し、話速を一様にゆっくりにしたり速めたりする場合や、話速に緩急をつけるため適応的に変換する話速変換装置及びプログラムに関する。
従来、話速変換を行う方法として、様々な方式が提案されている(例えば、特許文献1〜8、非特許文献1〜3参照)。重複加算法を基本原理とする、TDHS方式(Time-Domain Harmonic Scaling) 、PICOLA方式(Pointer Interval Control OverLap and Add)、PSOLA方式(Pitch Synchronous OverLap-Add)などとして知られる非特許文献1〜3及び特許文献1,2に開示される技術は、話速変換の基本方式であり、特許文献3〜8に開示される技術は、適応的な話速変換として、入力音声全体にわたって一様な倍率r倍で速度を変えるのではなく、入力音声の各部分によってrより大きい倍率や小さい倍率で速度を変えることで、全体としては一様な倍率rで話速変換したのと同じ時間で再生する方式である。
これらの全ての方式に共通していることは、変換音声の品質を入力音声と同じに保つため、入力音声の各部分の基本周期(声の場合、声帯の振動周期に相当)を変えずに、入力音声波形の長さを伸縮することを特徴としている。
特許第2612868号明細書 特許第2955247号明細書 特許第3249567号明細書 特許第3219892号明細書 特許第3220043号明細書 特許第3357742号明細書 特許第3373933号明細書 特許第3619946号明細書
D. Malah:“Time-domain algorithms for harmonic bandwidth reduction amd time scaling of speech signals”,IEEE Trans. Acoust., Speech & Signal Process.,vol. ASSP-27,no.2,pp.121-133 , 1979 森田直孝、板倉文忠:“自己相関法による音声の時問軸での伸縮方式とその評価”,信学技報,vo1.86,no.25,EA86-5, 1986 E. Moulines and F. Charpentier:“Pitch-synchronous wave-form processing techniques for text-to-speech synthesis using diphones”,Speech Communication,vo1.9, nos. 5/6,pp.453-467, 1990
しかしながら、入力音声の各部分の基本周期を保つということは、言い換えれば、入力音声の各部分の声の高さを保つことと同じである。しかし、このように入力音声の各部分の声の高さを保った場合、例えば話速をゆっくりにした際には、メリハリのないだらけた感じの喋り方になったり、話速を速くした際には、切迫したとげとげしい感じの喋り方になったりするといった、不自然なしゃべり方になることがしばしば起こる。
音声のメリハリ感や切迫感に影響する物理量としては、イントネーションを決定する“基本周波数の時間変化”や、ストレスを決定する“音の強さの時間変化”が知られている。したがって、不自然なしゃべり方になる原因のひとつとして、声の高さの時間変化であるイントネーションやそれと連動して変化する声の強さの時間変化が、目的とする話速に相応しくない時間変化の仕方になっていることが考えられる。
実際に、人がお年寄りに対して、ゆっくりと明瞭に話しかける場合を想定してみると、話速がゆっくりになっているだけでなく、イントネーションや声の強さの時間変化も強調されて、“ゆっくり”且つ“はっきり”話していることが多い。また、逆に早口で話す場合を考えると、短時間のうちに、のどや口、舌といった発声器官の形を変化させていかなければならず、声の高さの変化の幅や声の強さの変化の幅を十分に付けることが難しくなり、結果としてイントネーションや声の強さの変化は抑圧されることが一般的である。
しかるに、先に例に挙げた従来の話速変換方法では、入力音声の各部分の声の高さや強さを保つようにしているため、実際に人が話速を変えて喋った場合に対応するイントネーションや声の強さの変化になっていない可能性が高い。
そこで、本発明は、話速の変化量に応じてこれらの物理量も適切に制御することにより、“聞こえの不自然さ”を改善する話速変換装置及びプログラムを提供することを目的とする。
上記課題を解決するために、本発明は、入力音声の話速(話す速さ)を変換するにあたり、話速を変換した場合に生じる“聞こえの不自然さ”を改善して、より聞きやすい話速変換を行なう技法を提供する。尚、 “聞こえの不自然さ”とは、例えば話速をゆっくりにした際には、メリハリのないだらけた感じの喋り方になったり、話速を速くした際には、切迫したとげとげしい感じの喋り方になったりすることを云う。
音声のメリハリ感や切迫感に影響する物理量としては、抑揚を決定する“基本周波数の時間変化”や、ストレスを決定する“音の強さの時間変化”が知られており、本発明においては、話速の変化量に応じてこれらの物理量も適切に制御することにより、“聞こえの不自然さ”を改善する。
即ち、本発明の話速変換装置は、入力された音声に対して話速変換を行う話速変換装置であって、入力音声について区分した各区間について所定の倍率で時間伸縮を施す時間伸縮手段と、入力音声について区分した各区間における前記時間伸縮による話速変換前の、所定の時間当たりの基本周波数の変化量を算出し、該変化量を基に、前記時間伸縮した各区間の音声に対して基本周波数も変換する基本周波数変換手段と、を備えることを特徴とする。
また、本発明の話速変換装置において、前記基本周波数変換手段は、有声音区間と無声音区間のそれぞれの区間における、所定の時間当たりの基本周波数の変化量を算出し、前記時間伸縮した各区間の音声に対して基本周波数を変換する手段を有することを特徴とする。
なお、本発明の話速変換装置において、前記基本周波数変換手段は、前記時間伸縮による話速変換前の値に対して、基本周波数の周波数比で求めた単位時間当たりの変化量が、当該時間伸縮前の値に対して、正の値をとる係数αを指数とした冪乗値となるよう、当該基本周波数を変換するように構成することができる。
また、本発明の話速変換装置において、前記基本周波数変換手段は、前記時間伸縮による話速変換前の値に対して、基本周波数の周波数差で求めた単位時間当たりの変化量が、当該時間伸縮前の値に対して、正の値をとる係数βを乗じた値となるよう、当該基本周波数を変換するように構成することができる。
また、本発明の話速変換装置において、入力音声について区分した各区間におけるパワーの変化量を算出し、前記時間伸縮による話速変換前の、所定の時間当たりのパワーの変化量に応じて、前記時間伸縮した各区間の音声に対して、音声のパワーを変換するパワー変換手段を更に備えることを特徴とする。
さらに、本発明による話速変換装置は、入力された音声に対して話速変換を行う話速変換装置であって、入力音声について区分した各区間について所定の倍率で時間伸縮を施す時間伸縮手段と、入力音声について区分した各区間における前記時間伸縮による話速変換前の、所定の時間当たりのパワーの変化量に応じて、前記時間伸縮した各区間の音声に対して、音声のパワーを変換するパワー変換手段と、を備えることを特徴とする。
また、本発明の話速変換装置において、前記パワー変換手段は、当該音声の各区間におけるパワー比の単位時間当たりの変化量が、前記時間伸縮による話速変換前の値に対して、正の値をとる係数αを指数とした冪乗値となるよう、当該時間伸縮前の値に対して音声のパワーを変換するように構成することができる。
なお、本発明の話速変換装置において、前記パワー変換手段は、当該音声の各区間におけるパワー差の単位時間当たりの変化量が、前記時間伸縮による話速変換前の値に対して、正の値をとる係数βを乗じた値となるよう、当該時間伸縮前の値に対して音声のパワーを変換するように構成することができる。
また、本発明の話速変換装置において、前記基本周波数変換手段は、入力音声について区分した各区間における基本周波数の変化量を算出するにあたり、一定の時間間隔で実際に抽出された基本周波数の時間変化を平滑化して、前記一定の時間間隔で定義される基本周波数の時間変化の概形を用いて、当該基本周波数の所定の時間当たりの変化量を求める手段を有することを特徴とする。
また、本発明の話速変換装置において、前記基本周波数変換手段は、入力音声について区分した各区間におけるパワーの変化量を算出するにあたり、一定の時間間隔で実際に抽出されたパワーの時間変化を平滑化して、前記一定の時間間隔で定義されるパワーの時間変化の概形を用いて、当該パワーの所定の時間当たりの変化量を求める手段を有することを特徴とする。
さらに、本発明のプログラムは、入力された音声に対して話速変換を行う話速変換装置として構成するコンピュータに、入力音声について区分した各区間について所定の倍率で時間伸縮を施すステップと、入力音声について区分した各区間における前記時間伸縮による話速変換前の基本周波数の変化量を算出し、該変化量を基に、前記時間伸縮した各区間の音声に対して基本周波数を変換するステップと、を実行させるためのプログラムである。
さらに、本発明のプログラムは、入力された音声に対して話速変換を行うとして構成するコンピュータに、入力音声について区分した各区間について所定の倍率で時間伸縮を施すステップと、入力音声について区分した各区間における前記時間伸縮による話速変換前のパワーの変化量を算出し、該変化量を基に、前記時間伸縮した各区間の音声に対して音声のパワーを変換するステップと、を実行させるためのプログラムである。
さらに、本発明のプログラムは、入力された音声に対して話速変換を行う話速変換装置として構成するコンピュータに、入力音声について区分した各区間について所定の倍率で時間伸縮を施すステップと、入力音声について区分した各区間における前記時間伸縮による話速変換前の基本周波数の変化量を算出し、該変化量を基に、前記時間伸縮した各区間の音声に対して基本周波数を変換するステップと、入力音声について区分した各区間における前記時間伸縮による話速変換前のパワーの変化量を算出し、該変化量を基に、前記時間伸縮した各区間の音声に対して音声のパワーを変換するステップと、を実行させるためのプログラムである。
本発明の提案する入力音声の単位時間当たりの基本周波数の変化量やパワーの変化量を保つようにして、話速変換を行えば、従来の話速変換方式で、話速をゆっくりにした場合に生じていたメリハリのないだらけた感じの喋り方になったり、話速を速くした際に生じていた切迫したとげとげしい感じの喋り方になったりすることを避けることができる。
また、基本周波数の変化量やパワーの変化量に制限を設けることで、音質の劣化を抑えることもできる。
本発明による一実施例の話速変換装置のブロック図である。 本発明による一実施例の話速変換装置の動作を示すフローチャートである。 本発明による一実施例の話速変換装置における入力音声波形例とその基本周波数を抽出した結果を示す図である。 本発明による一実施例の話速変換装置によって、図3に示す入力音声に対して、前半は時間長が1.2倍になるように波形を伸張(ゆっくりに変換)し、後半は時間長が0.8倍になるように波形を短縮(早口に変換)した音声波形例とその基本周波数を抽出した結果を示す図である。
以下、本発明による一実施例の話速変換装置を説明する。本実施例の話速変換装置は、
本発明に係る要素を全て包含する態様であるが、幾つかの変形例があることは後述の説明から明らかになる。
[装置構成]
図1に、本発明による一実施例の話速変換装置のブロック図を示す。本実施例の話速変換装置100は、入力波形について、音声区間の波形と無音区間の波形に分離する音声/無音判定部102と、無音区間波形用の処理系統の時間伸縮(話速変換)部126と、「音声区間波形用の処理系統の処理部群」(後述する)と、時間伸縮した無音区間波形及び音声区間波形を接続する波形接続部134とから構成される。尚、無音区間波形について処理しない場合には、話速変換装置100を「音声区間波形用処理系統の処理部群」のみから構成することができる。
「音声区間波形用処理系統の処理部群」は、入力音声の有声音区間(無声音区間を含めても良い)の各々について、基本周波数の周波数比で求めた単位時間当たりの変化量が、話速変換前の値に対して、正の値をとる係数αを指数とした冪乗値となるよう、或いは又、基本周波数の周波数差で求めた単位時間当たりの変化量が、話速変換前の値に対して、正の値をとる係数βを乗じた値となるよう適応的に基本周波数を変換する基本周波数制御部200と、入力音声に対して話速変換を行う際、入力音声の有声音区間(無声音区間を含めても良い)の各々について、当該パワー比又はパワー差で求めたパワーの単位時間当たりの変化量を求めるパワー制御部300と、入力音声に対して話速変換を行う際、入力音声の有声音区間(無声音区間を含めても良い)の各々について、当該パワー比で求めたパワーの単位時間当たりの変化量が、話速変換前の値に対して、正の値をとる係数αを指数とした冪乗値となるよう、或いは又、当該パワー差で求めたパワーの単位時間当たりの変化量が、話速変換前の値に対して、正の値をとる係数βを乗じた値となるよう、適応的にパワーを変換するパワー変換部306からなる。
基本周波数制御部200は、音声区間の波形について、有声音区間の波形と無声音区間の波形に分離する有声音/無声音判定部104と、有声音区間の波形から基本周波数を抽出する基本周波数抽出部106と、有声音区間の波形に対して時間伸縮を行なう時間伸縮(話速変換)部122と、有声音区間の波形について時間伸縮した際の基本周波数変化量を算出する基本周波数変化量算出部202と、算出した基本周波数変化量を基に時間伸縮した有声音区間の波形の基本周波数を修正する基本周波数変換部206と、無声音区間の波形から基本周波数(以下、無声音区間の波形で算出する基本周波数を「擬似基本周波数」と称する)を算出する擬似基本周波数算出部108と、無声音区間の波形に対して時間伸縮を行なう時間伸縮(話速変換)部124と、無声音区間の波形について時間伸縮した際の擬似基本周波数変化量を算出する擬似基本周波数変化量算出部204と、算出した擬似基本周波数変化量を基に時間伸縮した無声音区間の波形の擬似基本周波数を修正する擬似基本周波数変換部208と、基本周波数を修正した有声音区間の波形と、擬似基本周波数を修正した無声音区間の波形とを波形接続する波形接続部132とを備える。
尚、基本周波数変化量算出部202は、一定の時間間隔Tで実際に抽出された基本周波数の時間変化を平滑化して得られる、一定の時間間隔Tで定義される基本周波数の時間変化の概形を用いて、基本周波数の比または差で求めた単位時間当たりの変化量を求める。尚、擬似基本周波数変化量算出部204の動作も、基本周波数変化量算出部202と同様である。
パワー制御部300は、音声区間の波形について、各有声音区間の波形と各無声音区間の波形におけるそれぞれのパワーを算出するパワー算出部302と、算出したパワーの変化量を算出するパワー変化量算出部304とを備え、パワー変化量算出部304は、一定の時間間隔Tで実際に抽出されたパワーの時間変化を平滑化して得られる、一定の時間間隔Tで定義されるパワーの時間変化の概形を用いて、パワー比又はパワー差で求めた単位時間当たりのパワー変化量を求める。尚、パワーは、波形に20ms程度の時間幅のハミング窓などを掛けたあとの各標本値の二乗和で求めることができ、実際の波形処理においてパワーを変換する際に、例えばパワーをP倍にするには各標本値にP1/2を乗じることで行う。
パワー変換部306は、パワー制御部300から得られる音声区間の波形におけるパワー変化量を基に、基本周波数制御部200における波形接続部132から得られる時間伸縮した音声区間の波形におけるパワーを修正し、パワー修正した時間伸縮後の音声区間の波形を波形接続部134に送出する。
波形接続部134は、時間伸縮した無音区間波形及び音声区間波形を接続し、出力信号を生成する。
尚、「時間伸縮(話速変換)倍率」とは、入力信号の単位時間当たりの音声区間に対する時間的な伸縮率の逆数に相当する。また、以下に具体的に説明する例では、入力信号を冒頭から、例えば5ms毎に区切って基本周波数や擬似基本周波数を抽出し、この場合の何番目の位置かを示す整数値で、単位時間あたりのセグメント(区間)を定義することができる。
また、本例における「時間伸縮倍率」や「係数」などのパラメータは、以下の用に定義される。
Rs(t):時刻tにおける無音区間の時間伸縮倍率である。
Rv(t):時刻tにおける有声音区間の時間伸縮倍率である。
Ru(t):時刻tにおける無声音区間の時間伸縮倍率である。
αv,βv:有声音区間の基本周波数変換用の周波数比算出時の係数αまたは周波数差算出時の係数βである。
αu,βu:無声音区間の基本周波数変換用の周波数比を利用する場合の係数αまたは周波数差を利用する場合の係数βである。
αp,βp:パワー変換用のパワー比を利用する場合の係数αまたはパワー差を利用する場合の係数βである。
また、話速変換前の値に対する変換量に、上限または下限をパラメータとして設定する。
更に、本発明の一態様として、本実施例の話速変換装置100をコンピュータとして構成させることができる。コンピュータに、前述した各構成要素を実現させるためのプログラムは、コンピュータの内部又は外部に備えられる記憶部に記憶される。そのような記憶部は、外付けハードディスクなどの外部記憶装置、或いはROM又はRAMなどの内部記憶装置で実現することができる。コンピュータに備えられる制御部は、中央演算処理装置(CPU)などの制御で実現することができる。即ち、CPUが、各構成要素の機能を実現するための処理内容が記述されたプログラムを、適宜、記憶部から読み込んで、各構成要素の機能をコンピュータ上で実現させることができる。ここで、各構成要素の機能をハードウェアの全部又は一部で実現しても良い。
次に、本発明による一実施例の話速変換装置の動作を説明する。
[装置動作]
図2は、本発明による一実施例の話速変換装置の動作を示すフローチャートである。まず、話速変換装置100は、話速調整を行なう信号を入力するとともに、各パラメータを入力する(ステップS1)。次に、話速変換装置100は、音声/無音判定部102によって、入力波形について音声区間の波形と無音区間の波形に分離する(ステップS2)。尚、音声区間は声帯が振動して発せられる有声音の区間と、声帯が振動せずに発せられる無声音の区間があるが、必ずしも無声音区間についは処理しなくともよい。
次に、話速変換装置100は、パワー制御部300によって、音声区間の波形について各有声音区間の波形と各無声音区間の波形におけるそれぞれのパワーを算出し、算出したパワーの変化量を算出して所定の記憶部(図示せず)に記憶保持する(ステップS3)。
次に、話速変換装置100は、有声音/無声音判定部104によって、音声区間の波形について、有声音区間の波形と無声音区間の波形に分離する(ステップS4)。
次に、話速変換装置100は、基本周波数抽出部106及び擬似基本周波数算出部108によって、有声音区間の基本周波数と無声音区間の擬似基本周波数をそれぞれ抽出し、続いて、時間伸縮(話速変換)部122及び時間伸縮(話速変換)部124によって、各パラメータに基づいて、有声音区間の波形及び無声音区間の波形に対してそれぞれ時間伸縮を行なう(ステップS5)。
ここで、図3に、本発明による一実施例の話速変換装置における入力音声波形例とその基本周波数を抽出した結果を示している。図3の上部は入力音声波形、図3の下部の小さな白い丸は5ms毎に基本周波数を抽出した結果である。これをf0(n)とする。基本周波数を抽出する方法としては、例えば特許第3219868号などで開示される技術を利用できる。そして、f0(n)に対して、有声音区間において、カットオフ周波数3〜6Hz程度のローパスフィルタを用いて平滑化してf1(n)を得る。その結果を例えばスプライン関数を用いて線で結んだのが同図の実線である。尚、図3では、音声区間は声帯が振動して発せられる有声音の区間と、声帯が振動せずに発せられる無声音の区間があるが、本実施例では無声音区間の声の高さ及びパワーはそのままとして扱っている。
無声音区間の声の高さも含めて時間伸縮の制御を行なう場合、本実施例の話速変換装置100では、無声音区間では一般に基本周波数が明確でないことから、自己相関関数などにより擬似的な基本周波数を求め、無声音区間の声の高さも含めて制御する。無声音区間の声の高さも含めて時間伸縮の制御を行なうことにより、発声ばらつきをより低減させた高精度の話速変換が実現できる。例えば、比較的継続時間が長い/f/、/h/、/s/等の子音が多く含まれる声を扱う場合(ドイツ語などではそのような傾向が強い。また日本語でも発声者の個性で、一般人よりも/f/、/h/、/s/等の継続時間が長い人がいる。)がある。また、放送番組のように、背景に小さめの音楽が流れている場合には、有声音区間を無声音区間として誤って判定してしまうことがあり、その場合には無声音も含めて声の高さを制御するほうが安定した変換結果となるためである。
次に、話速変換装置100は、基本周波数変化量算出部202及び擬似基本周波数変化量算出部204によって、有声音区間の波形及び無声音区間の波形について時間伸縮した際の基本周波数変化量及び擬似基本周波数変化量をそれぞれ算出し、算出した基本周波数変化量及び擬似基本周波数変化量を基に、時間伸縮した有声音区間の波形の基本周波数及び無声音区間の波形の擬似基本周波数をそれぞれ修正した波形に変換する(ステップS6)。
次に、話速変換装置100は、波形接続部132によって、基本周波数を修正した新たな有声音区間の波形と、擬似基本周波数を修正した新たな無声音区間の波形とを波形接続する(ステップS7)。
次に、話速変換装置100は、パワー変換部306によって、パワー制御部300の演算によって得られている音声区間の波形におけるパワー変化量を基に、波形接続部132によって波形接続した新たな音声区間の波形におけるパワーを修正して正規化し、パワー正規化した時間伸縮した音声区間の波形に変換する(ステップS8)。
話速変換装置100は、無音区間波形について時間伸縮するように構成することができ、この場合、時間伸縮(話速変換)部126によって、各パラメータに基づいて、無音区間波形に対して時間伸縮を行ない、新たな無音区間波形を生成する(ステップS9)。
最終的に、話速変換装置100は、波形接続部134によって、時間伸縮し、且つ声の高さとパワーを制御した音声区間波形と時間伸縮した無音区間波形とを接続し、出力信号を生成する(ステップS10)。
図4には、本実施例の話速変換装置100によって、図3に示す入力音声に対して、前半は時間長が1.2倍になるように波形を伸張(ゆっくりに変換)し、後半は時間長が0.8倍になるように波形を短縮(早口に変換)した音声波形例とその基本周波数を抽出した結果を示している。このときの平滑化された基本周波数の時間変化は同図の細い実線のようになり、図3の実線に比較して、単位時間当たりの変化量が、入力音声の前半は小さくなり、後半は大きくなっていることがわかる。
つまり、本実施例の話速変換装置100では、図3の実線において5msごとにシフトしながら、ある時刻の値f1(n)とその5ms後の値f1(n+1)を用いて、周波数比で求めた単位時間(1ms)当たりの変化量R1(n) = f1(n+1)/f1(n)/5を求めていく。
次に、本実施例の話速変換装置100は、図4の例では、その変換音声の前半に関して波形を1.2倍に伸張させていることから、5×1.2 =6msごとにシフトしながら、ある時刻の値f2(n)とその6ms後の値f2(n+1)を用いて、例えば周波数比で求めた単位時間(1ms)当たりの変化量R2(n) = f2(n+1)/f2(n)/6を求めていく。そして単位時間当たりの変化量R2(n)がR1(n)αに等しくなるように変換したものをR’2(n)= f’2(n+1)/f’2(n)/6とすると、R’2(n)=R1(n)α={f1(n+1)/f1(n)/5}αとするのが目的であるので、f’2(n+1)/f’2(n)/6 = {f1(n+1)/f1(n)/5}α、さらに式を変形して、f’2(n+1) = f’2(n)×{f1(n+1)/f1(n)/5}α×6 となり、f’2(n)は各有声音区間の開始点から逐次的に計算する。但し、本実施例では、各有声区間の開始点においては、f’2(n)=f2(n)とするが、各有声音区間の中間点や終了点においてf’2(n)=f2(n)とする方法や、各有声音区間のf2(n)の平均値にf’2(n)の平均値を合わせるなどの方法も考えられる。α=1として、f’2(n)を計算していき、その結果を例えばスプライン関数を用いて線で結んだのが、図4の太い実線である。
本実施例の話速変換装置100により、最終的な変換後の基本周波数f3(n)は、f3(n)=f’0(n)×{f’2(n)/f2(n)}で得られる。ここで、f’0(n)は、5msごとに抽出されたf0(n)を、一度直線やスプライン関数で補間して連続な線とし、それを各部分に与えられた時間伸縮倍率で伸縮した後に、6msごとに標本化しなおしたものである。本実施例の場合、変換音声の前半に関しては、各部分の時間伸縮率が1.2で一定なので、結果的にはf’0(n)=f0(n)である。基本周波数の変換方法としては、前述した先行技術文献に開示される非特許文献3のPSOLA法や特許第2612867号などを利用することができる。
同様に、本実施例の話速変換装置100は、図4の例で、その変換音声の後半に関して波形が0.8倍に短縮させていることから、5×0.8 =4msごとにシフトしながら、ある時刻の値f2(n)とその4ms後の値f2(n+1)を用いて、周波数比で求めた単位時間(1ms)当たりの変化量R2(n) = f2(n+1)/f2(n)/4を求めていく。以下同様にして、f’2(n+1) = f’2(n)×{f1(n+1)/f1(n)/5}α×4 となり、その結果を例えばスプライン関数を用いて線で結ぶことにより、図4の太い実線を描くことができる。最終的な変換後の基本周波数f3(n)は、f3(n)=f’0(n)×{f’2(n)/f2(n)}で得られることも同様である。ここで、f’0(n)は、5msごとに抽出されたf0(n)を、一度直線やスプライン関数で補間して連続な線とし、それを各部分に与えられた時間伸縮倍率で伸縮した後に、4msごとに標本化しなおしたものである。本実施例の場合、変換音声の後半に関しては、各部分の時間伸縮率が0.8で一定なので、結果的にはf’0(n)=f0(n)である。
このようにして、話速変換を行う際に、基本周波数の比で求めた単位時間当たりの変化量をたもつように基本周波数も変換すると、波形の前半の話速をゆっくりにした部分では、基本周波数の変化幅が広がり、後半の話速を速くした部分では、基本周波数の変化幅が圧縮されることになる。
より具体的な例では、本発明の第1の態様の話速変換装置は、入力された音声に対して話速変換を行う際、入力音声の有声音区間(無声音区間を含めても良い)の各々について、基本周波数の周波数比で求めた単位時間当たりの変化量が、話速変換前の値に対して、正の値をとる係数αを指数とした冪乗値となるよう、適宜基本周波数も変換する。
通常、話速をゆっくりにする場合、言い換えれば音声波形の時間長を伸ばす場合には、イントネーションのパターン、すなわち声の高さの時間変化パターンも時間方向に伸びてしまい、単位時間当たりの声の高さの変化量が少なくなってしまうことが考えられる。これは一般的に言う“抑揚”がゆっくりとする変化することを意味しており、メリハリのないだらけた感じの喋り方に聞こえると考えられる。また。話速を速くする場合、言い換えれば音声波形の時間長を縮める場合には、イントネーションのパターン、すなわち声の高さの時間変化パターンも時間方向に縮んでしまい、単位時間当たりの声の高さの変化量が多くなってしまうことが考えられる。これは一般的に言う“抑揚”が速く変化することを意味しており、切迫したとげとげしい感じの喋り方に聞こえると考えられる。そこで、第1の態様によれば、基本周波数の周波数比で求めた単位時間当たりの変化量を保つことで、“抑揚”の変化を入力音声と同じ感じの聞こえ方にすることができる。これは係数αを1とした場合である。
一方で、話速をゆっくりにする場合においては、αを1より大きくすれば、よりメリハリのある抑揚とすることができる。また、入力音声がもともとかなりメリハリのある喋り方である場合には、αを1より小さく設定したほうが良い場合もあると考えられる。さらに、話速を速くする場合においては、αを1より小さくすれば、切迫したとげとげしい感じを、より抑えることができる。また、入力音声がもともとかなりメリハリのないだらけた喋り方である場合には、αを1より大きく設定したほうが良い場合もあると考えられる。
また、本発明の第2の態様の話速変換装置は、入力された音声に対して話速変換を行う際、入力音声の有声音区間(無声音区間を含めても良い)の各々について、基本周波数の周波数差で求めた単位時間当たりの変化量が、話速変換前の値に対して、正の値をとる係数βを乗じた値となるよう、適宜基本周波数も変換する。
第2の態様によれば、βを1とした場合には、その効果としては、第1の態様でαを1とした場合と同じである。一方で、話速をゆっくりにする場合においては、βを1より大きくすれば、よりメリハリのある抑揚とすることができる。また、入力音声がもともとかなりメリハリのある喋り方である場合には、βを1より小さく設定したほうが良い場合もあると考えられる。さらに、話速を速くする場合においては、βを1より小さくすれば、切迫したとげとげしい感じを、より抑えることができる。また、入力音声がもともとかなりメリハリのないだらけた喋り方である場合には、βを1より大きく設定したほうが良い場合もあると考えられる。
尚、入力音声の有声音区間(無声音区間を含めても良い)の各々について、基本周波数を変換する際、変換前の値に対する変換量に、上限または下限を設定する。
入力音声の有声音区間(無声音区間を含めても良い)の各々について、基本周波数を変化させるにあたり、基本周波数を大きく変化させすぎると、音が歪んだり、非人間的な声質になったりする。そこで、基本周波数を変換する際、変換前の値に対する変換量に、上限または下限を設定することで、“抑揚”を保つ効果は減少するが、音質劣化を避けることができる。
本発明の第3の態様の話速変換装置は、入力された音声に対して話速変換を行う際、音声の各部分について、比で求めたパワーの単位時間当たりの変化量が、話速変換前の値に対して、正の値をとる係数αを指数とした冪乗値となるよう、適宜パワーも変換する。
通常、話速をゆっくりにする場合、言い換えれば音声波形の時間長を伸ばす場合には、声の強さの時間変化パターンも時間方向に伸びてしまい、単位時間当たりの声の強さの変化量が少なくなってしまうことが考えられる。これは一般的に言う声の“ストレス”がゆっくりとする変化することを意味しており、メリハリのないだらけた感じの喋り方に聞こえると考えられる。また。話速を速くする場合、言い換えれば音声波形の時間長を縮める場合には、声の強さの時間変化パターンも時間方向に縮んでしまい、単位時間当たりの声の強さの変化量が多くなってしまうことが考えられる。これは一般的に言う声の“ストレス”が速く変化することを意味しており、切迫したとげとげしい感じの喋り方に聞こえると考えられる。
そこで、第3の態様によれば、比で求めたパワーの単位時間当たりの変化量を保つことで、“ストレス”の変化を入力音声と同じ感じの聞こえ方にすることができる。これは係数αを1とした場合である。
一方で、話速をゆっくりにする場合においては、αを1より大きくすれば、よりメリハリのあるストレス変化が大きな音声とすることができる。また、入力音声がもともとかなりメリハリのある喋り方である場合には、αを1より小さく設定したほうが良い場合もあると考えられる。
さらに、話速を速くする場合においては、αを1より小さくすれば、ストレスの変化が小さくなり、切迫したとげとげしい感じを、より抑えることができる。また、入力音声がもともとかなりメリハリのないだらけた喋り方である場合には、αを1より大きく設定したほうが良い場合もあると考えられる。
本発明の第4の態様の話速変換装置は、入力された音声に対して話速変換を行う際、音声の各部分について、差で求めたパワーの単位時間当たりの変化量が、話速変換前の値に対して、正の値をとる係数βを乗じた値となるよう、適宜パワーも変換する。
第4の態様によれば、βを1とした場合には、その効果としては、第3の態様でαを1とした場合と同じである。一方で、話速をゆっくりにする場合においては、βを1より大きくすれば、よりメリハリのあるストレス変化とすることができる。また、入力音声がもともとかなりメリハリのある喋り方である場合には、βを1より小さく設定したほうが良い場合もあると考えられる。さらに、話速を速くする場合においては、βを1より小さくすれば、ストレスの変化が小さくなり、切迫したとげとげしい感じを、より抑えることができる。また、入力音声がもともとかなりメリハリのないだらけた喋り方である場合には、βを1より大きく設定したほうが良い場合もあると考えられる。
尚、音声の各部分のパワーを変換する際、変換前の値に対する変換量に、上限または下限を設定する。
入力音声のパワーを変化させる方式においては、デジタル音声処理の場合も、アナログ信号処理の場合も、ハードウェアが扱える信号の大きさには限界があり、それを超えるほどパワーを大きくすると音質が劣化する。そこで、パワーを変換する際、変換前の値に対する変換量に、上限または下限を設定することで、“ストレス”の変化の強さを保つ効果は減少するが、音質劣化を避けることができる。
本発明の第5の態様の話速変換装置は、基本周波数の比または差で求めた単位時間当たりの変化量を求めるのに際して、一定の時間間隔Tで実際に抽出された基本周波数の時間変化を平滑化して、一定の時間間隔Tで定義される基本周波数の時間変化の概形を用いる。
一般的に、人が感じる音声のイントネーションには、基本周波数の細かな時間変化はあまり影響せず、1単語にひとつの山を持つような緩やかな基本周波数の時間変化が大きく寄与している。しかし、例えば5ミリ秒毎に抽出される実際の基本周波数には、1単語内において細かな変動があることが多い。本発明考案の目的に照らした場合、そのような細かな変動は考慮する必要がないため、5ミリ秒毎に実際に抽出された基本周波数の時間変化を平滑化したのち、その単位時間当たりの変化量を求め、これを基本周波数変換の量を求めるための値として用いるほうが、より聴感的に合った処理が可能となると考えられる。
本発明の第6の態様の話速変換装置は、比または差で求めた単位時間当たりのパワー変化量を求めるのに際して、一定の時間間隔Tで実際に抽出されたパワーの時間変化を平滑化して、一定の時間間隔Tで定義されるパワーの時間変化の概形を用いる。
一般的に、人が感じる音声のストレスの変化には、パワーの細かな時間変化はあまり影響せず、1単語にひとつかふたつの山を持つような緩やかなパワーの時間変化が大きく寄与している。しかし、例えば5ミリ秒毎に抽出される実際のパワーには、1単語内において細かな変動があることが多い。本発明の目的に照らした場合、そのような細かな変動は考慮する必要がないため、5ミリ秒毎に実際に抽出されたパワーの時間変化を平滑化したのち、その単位時間当たりの変化量を求め、これをパワー変換の量を求めるための値として用いるほうが、より聴感的に合った処理が可能となると考えられる。
尚、これらの各態様を適宜組み合わせることができる。
以上、具体例を挙げて本発明の実施例を詳細に説明したが、本発明の特許請求の範囲から逸脱しない限りにおいて、あらゆる変形や変更が可能であることは当業者に明らかである。従って、本発明は上記の実施例に限定されるものではない。
本発明の話速変換装置及びそのプログラムは、テレビやラジオの音声をリアルタイムでゆっくり聞いたり、ハードディスクレコーダなどに一度記録して、ゆっくり又ははやく視聴したりする話速変換技術のあらゆる用途に適用することができる。
100 話速変換装置
102 音声/無音判定部
104 有声音/無声音判定部
106 基本周波数抽出部
108 擬似基本周波数算出部
122 時間伸縮(話速変換)部
124 時間伸縮(話速変換)部
126 時間伸縮(話速変換)部
132 波形接続部
134 波形接続部
200 基本周波数制御部
202 基本周波数変化量算出部
204 擬似基本周波数変化量算出部
206 基本周波数変換部
208 擬似基本周波数変換部
300 パワー制御部
302 パワー算出部
304 パワー変化量算出部
306 パワー変換部

Claims (9)

  1. 入力された音声に対して話速変換を行う話速変換装置であって、
    入力音声について区分した各区間について所定の倍率で時間伸縮を施す時間伸縮手段と、
    入力音声について区分した各区間における前記時間伸縮による話速変換前の、所定の時間当たりの基本周波数の変化量を算出し、該変化量を基に、前記時間伸縮した各区間の音声に対して基本周波数を変換する基本周波数変換手段と、
    を備えることを特徴とする、話速変換装置。
  2. 前記基本周波数変換手段は、有声音区間と無声音区間のそれぞれの区間における、所定の時間当たりの基本周波数の変化量を算出し、前記時間伸縮した各区間の音声に対して基本周波数を変換する手段を有することを特徴とする、請求項1に記載の話速変換装置。
  3. 入力音声について区分した各区間におけるパワーの変化量を算出し、前記時間伸縮による話速変換前の、所定の時間当たりのパワーの変化量に応じて、前記時間伸縮した各区間の音声に対して、音声のパワーを変換するパワー変換手段を更に備えることを特徴とする、請求項1又は2に記載の話速変換装置。
  4. 入力された音声に対して話速変換を行う話速変換装置であって、
    入力音声について区分した各区間について所定の倍率で時間伸縮を施す時間伸縮手段と、
    入力音声について区分した各区間における前記時間伸縮による話速変換前の、所定の時間当たりのパワーの変化量に応じて、前記時間伸縮した各区間の音声に対して、音声のパワーを変換するパワー変換手段と、
    を備えることを特徴とする、話速変換装置。
  5. 入力音声について区分した各区間における基本周波数の変化量を算出するにあたり、一定の時間間隔で実際に抽出された基本周波数の時間変化を平滑化して、前記一定の時間間隔で定義される基本周波数の時間変化の概形を用いて、当該基本周波数の所定の時間当たりの変化量を求める手段を有することを特徴とする、請求項1〜3のいずれか一項に記載の話速変換装置。
  6. 前記基本周波数変換手段は、入力音声について区分した各区間におけるパワーの変化量を算出するにあたり、一定の時間間隔で実際に抽出されたパワーの時間変化を平滑化して、前記一定の時間間隔で定義されるパワーの時間変化の概形を用いて、当該パワーの所定の時間当たりの変化量を求める手段を有することを特徴とする、請求項3または4に記載の話速変換装置。
  7. 入力された音声に対して話速変換を行う話速変換装置として構成するコンピュータに、
    入力音声について区分した各区間について所定の倍率で時間伸縮を施すステップと、
    入力音声について区分した各区間における前記時間伸縮による話速変換前の基本周波数の変化量を算出し、該変化量を基に、前記時間伸縮した各区間の音声に対して基本周波数を変換するステップと、
    を実行させるためのプログラム。
  8. 入力された音声に対して話速変換を行う話速変換装置として構成するコンピュータに、
    入力音声について区分した各区間について所定の倍率で時間伸縮を施すステップと、
    入力音声について区分した各区間における前記時間伸縮による話速変換前のパワーの変化量を算出し、該変化量を基に、前記時間伸縮した各区間の音声に対して音声のパワーを変換するステップと、
    を実行させるためのプログラム。
  9. 入力された音声に対して話速変換を行う話速変換装置として構成するコンピュータに、
    入力音声について区分した各区間について所定の倍率で時間伸縮を施すステップと、
    入力音声について区分した各区間における前記時間伸縮による話速変換前の基本周波数の変化量を算出し、該変化量を基に、前記時間伸縮した各区間の音声に対して基本周波数を変換するステップと、
    入力音声について区分した各区間における前記時間伸縮による話速変換前のパワーの変化量を算出し、該変化量を基に、前記時間伸縮した各区間の音声に対して音声のパワーを変換するステップと、
    を実行させるためのプログラム。


JP2010232822A 2010-10-15 2010-10-15 話速変換装置及びプログラム Active JP5723568B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010232822A JP5723568B2 (ja) 2010-10-15 2010-10-15 話速変換装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010232822A JP5723568B2 (ja) 2010-10-15 2010-10-15 話速変換装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2012088392A true JP2012088392A (ja) 2012-05-10
JP5723568B2 JP5723568B2 (ja) 2015-05-27

Family

ID=46260109

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010232822A Active JP5723568B2 (ja) 2010-10-15 2010-10-15 話速変換装置及びプログラム

Country Status (1)

Country Link
JP (1) JP5723568B2 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0193795A (ja) * 1987-10-06 1989-04-12 Nippon Hoso Kyokai <Nhk> 音声の発声速度変換方法
JPH06289895A (ja) * 1993-04-05 1994-10-18 Nippon Hoso Kyokai <Nhk> リアルタイム話速変換方法
JPH1097291A (ja) * 1996-09-20 1998-04-14 Matsushita Electric Ind Co Ltd Vcv波形接続音声のピッチ変換方法及び音声合成装置
JP2006301464A (ja) * 2005-04-22 2006-11-02 Kyushu Institute Of Technology ピッチ周期等化装置及びピッチ周期等化方法、並びに音声符号化装置、音声復号装置及び音声符号化方法
JP2009075280A (ja) * 2007-09-20 2009-04-09 Nippon Hoso Kyokai <Nhk> コンテンツ再生装置
JP2010014955A (ja) * 2008-07-03 2010-01-21 Panasonic Corp ディジタル音声処理装置および音声処理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0193795A (ja) * 1987-10-06 1989-04-12 Nippon Hoso Kyokai <Nhk> 音声の発声速度変換方法
JPH06289895A (ja) * 1993-04-05 1994-10-18 Nippon Hoso Kyokai <Nhk> リアルタイム話速変換方法
JPH1097291A (ja) * 1996-09-20 1998-04-14 Matsushita Electric Ind Co Ltd Vcv波形接続音声のピッチ変換方法及び音声合成装置
JP2006301464A (ja) * 2005-04-22 2006-11-02 Kyushu Institute Of Technology ピッチ周期等化装置及びピッチ周期等化方法、並びに音声符号化装置、音声復号装置及び音声符号化方法
JP2009075280A (ja) * 2007-09-20 2009-04-09 Nippon Hoso Kyokai <Nhk> コンテンツ再生装置
JP2010014955A (ja) * 2008-07-03 2010-01-21 Panasonic Corp ディジタル音声処理装置および音声処理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6014029488; 中村章他: '"リアルタイム話速変換型受聴システム"' 日本音響学会誌 Vol.50,No.7, 199407, pp.509-520 *

Also Published As

Publication number Publication date
JP5723568B2 (ja) 2015-05-27

Similar Documents

Publication Publication Date Title
JP4355772B2 (ja) 力み変換装置、音声変換装置、音声合成装置、音声変換方法、音声合成方法およびプログラム
US8255222B2 (en) Speech separating apparatus, speech synthesizing apparatus, and voice quality conversion apparatus
JP4705203B2 (ja) 声質変換装置、音高変換装置および声質変換方法
US8311842B2 (en) Method and apparatus for expanding bandwidth of voice signal
JP5593244B2 (ja) 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体
JP2001249677A (ja) テキスト音声変換装置におけるピッチパタン制御方法
US8370153B2 (en) Speech analyzer and speech analysis method
JPH086592A (ja) 音声合成方法及び装置
JP5039865B2 (ja) 声質変換装置及びその方法
US20100217584A1 (en) Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program
JP2020507819A (ja) スペクトル包絡線のフォルマントの周波数シフトによって声の音質を動的に修正するための方法および装置
JP3732793B2 (ja) 音声合成方法、音声合成装置及び記録媒体
JP2004272292A (ja) 音信号加工方法
JP2904279B2 (ja) 音声合成方法および装置
JP2007079606A (ja) 音信号加工方法
JP5723568B2 (ja) 話速変換装置及びプログラム
JP2013033103A (ja) 声質変換装置および声質変換方法
CN112420062A (zh) 一种音频信号处理方法及设备
JP4963345B2 (ja) 音声合成方法及び音声合成プログラム
JP5106274B2 (ja) 音声処理装置、音声処理方法及びプログラム
JP2612867B2 (ja) 音声ピッチ変換方法
JP5935545B2 (ja) 音声合成装置
JP2011141470A (ja) 素片情報生成装置、音声合成システム、音声合成方法、及び、プログラム
JPH08110796A (ja) 音声強調方法および装置
JPH08254992A (ja) 話速変換装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130806

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140715

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140903

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150303

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150330

R150 Certificate of patent or registration of utility model

Ref document number: 5723568

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250