JP2014157331A - 話速変換装置、方法及びプログラム - Google Patents

話速変換装置、方法及びプログラム Download PDF

Info

Publication number
JP2014157331A
JP2014157331A JP2013029111A JP2013029111A JP2014157331A JP 2014157331 A JP2014157331 A JP 2014157331A JP 2013029111 A JP2013029111 A JP 2013029111A JP 2013029111 A JP2013029111 A JP 2013029111A JP 2014157331 A JP2014157331 A JP 2014157331A
Authority
JP
Japan
Prior art keywords
contraction
expansion
speech
function
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013029111A
Other languages
English (en)
Other versions
JP6224325B2 (ja
Inventor
Atsushi Imai
篤 今井
Nobumasa Seiyama
信正 清山
Tatsu Ikezawa
龍 池沢
Toru Tsugi
徹 都木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
NHK Engineering System Inc
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
NHK Engineering System Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp, NHK Engineering System Inc filed Critical Nippon Hoso Kyokai NHK
Priority to JP2013029111A priority Critical patent/JP6224325B2/ja
Publication of JP2014157331A publication Critical patent/JP2014157331A/ja
Application granted granted Critical
Publication of JP6224325B2 publication Critical patent/JP6224325B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephone Function (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

【課題】リアルタイムで発話速度を変換する際に、多様な発話の原音声に対して、ゆっくりと感じるように聞こえる話速変換を実現する。
【解決手段】話速変換装置1−1の特徴量算出部11は、観測期間毎に、音声信号の基本周波数Pt及びパワーPoを用いて音響特徴量Sを算出する。波形伸縮関数決定部12は、音響特徴量Sの特性として、呼気段落毎の回帰直線の傾きa1,a2,a3を算出し、テーブル21を参照して傾きa1,a2,a3の条件を満たす波形伸縮関数Yを決定し、決定した波形伸縮関数Y及び時間データTをDB13から読み出し、波形伸縮関数Yを用いて伸縮倍率r(t)を算出する。話速変換部14は、観測期間の開始時点から時間データTの示す時間が経過するまでの間、直前の観測期間において波形伸縮関数決定部12により算出された伸縮倍率r(t)を用いて、音声信号を話速変換する。
【選択図】図1

Description

本発明は、音声信号処理技術に関し、特に、リアルタイムの音声信号の発話速度を変換する話速変換装置、方法及びプログラムに関する。
従来、放送音声が早口に感じられて聞き辛い場合があるという、特に高齢者からの要望に応えるために、リアルタイムの放送音声を、時間遅れを蓄積することなく、ゆっくりと感じるように再生する話速変換方式が提案されている(例えば、特許文献1,2を参照)。この話速変換方式は、リアルタイムの放送視聴を目的として、一定の割合で伸縮倍率が変化する静的な関数に基づいて、逐次処理にて音声を機械的に波形伸縮し、話速に緩急を与える方式である。
特許文献1の話速変換方式は、音声のイントネーション(ピッチ周波数)の変化を検出し、静的な関数として話速の伸縮倍率を定める減少関数である余弦関数を用い、休止区間(発声音の息継ぎ区間)直後のピッチ周波数の高い重要な部分の話速を遅くし、それ以外の部分の話速を速くするものである。これにより、原音声を、ゆっくりと感じるような速度の音声に変換することができる。
また、特許文献2の話速変換方式は、発話者の音声データの属性に基づく分析を行い、静的な関数として分析情報に応じた所望の関数を用い、音声データを合成する際に、入力音声のデータ長と、静的な関数として所定の伸縮倍率を定める変換関数を用いて算出した目標データ長と、実際の出力音声のデータ長とを比較しながら、話速を変換するものである。これにより、伸縮倍率の変化に対して音声情報が欠落しないようにすることができる。また、入力音声データの原音声と出力音声データの変換音声との間の時間差を監視し、時間差が小さい場合に伸縮倍率を上昇させ、時間差が大きい場合に伸縮倍率を下降させる余弦関数を用いることにより、所定の時間枠内で話速変換を行う。これにより、所定の時間枠内で、原音声を、ゆっくりと感じるような速度の音声に変換することができる。
特許第3219892号公報 特許第3220043号公報
前述のとおり、従来の話速変換方式は、一定の割合で伸縮倍率が変化する静的な関数に基づいて話速変換を行うことを基本とし、休止区間直後のピッチ周波数の高い部分に着目して話速を変換したり、入力音声及び出力音声の各データ、並びに静的な関数を用いて算出した目標データ値を比較して話速を変換したり、入力音声と出力音声との間の時間差に応じて話速を変換したりするものである。このため、例えば、アナウンサーによるニュース音声のような理想的な日本語発話に対して、十分な効果を得ることができる。すなわち、従来の話速変換方式によれば、理想的な日本語発話の音声を話速変換する場合に、時間遅れを蓄積することなく、ゆっくりと感じるように変換することができる。
しかしながら、従来の話速変換方式は、静的な関数に基づくものであり、動的な処理に適応するものでないことから、ニュース音声とは特徴が大きく異なる日常会話等の発話、または外国語等の発話の音声を話速変換する場合には、期待されるゆっくり感が得られないことがあり、安定した効果を得ることができないという問題があった。これは、従来の話速変換方式では、発話の特徴の違い及び変化、発話者の違い、並びに言語の違い等について、十分に考慮されていないからであると考えられる。
前述の特許文献1,2の話速変換方式に用いる関数は、話速の伸縮倍率を時間の増加に従って減少させる余弦関数である。本願の発明者らの実験によれば、前述の特許文献1,2の話速変換方式の関数を用いた場合に、理想的な日本語発話を話速変換するときに効果的であるが、英語等の外国語発話を話速変換するときには必ずしも効果的でないという結果が得られている。理想的な日本語発話を話速変換するときには、特許文献1,2に記載された関数を用いればよいが、英語等の外国語発話を話速変換するときには、その言語の特徴に適用できる他の関数を用いることが望ましい。
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、リアルタイムで発話速度を変換する際に、多様な発話に適用可能な話速変換装置、方法及びプログラムを提供することにある。
前記目的を達成するために、請求項1の話速変換装置は、時系列の音声信号を入力し、所定の波形伸縮ルールによって前記音声信号の話速を変換する話速変換装置において、前記入力した時系列の音声信号から、音響的な特徴を示す特徴量を算出する特徴量算出部と、前記特徴量算出部により算出された特徴量に基づいて、話速変換の際に用いる音声波形の伸縮倍率を定める関数を決定する波形伸縮関数決定部と、前記波形伸縮関数決定部により決定された関数による伸縮倍率を用いて、前記音声信号の話速を変換する話速変換部と、を備え、所定時間毎に、前記特徴量算出部が特徴量を算出し、前記波形伸縮関数決定部が関数を決定し、前記話速変換部が、前記波形伸縮関数決定部により直前の所定時間にて決定された関数による伸縮倍率を用いて、現在の所定時間における音声信号の話速を変換する、ことを特徴とする。
また、請求項2の話速変換装置は、請求項1に記載の話速変換装置において、前記波形伸縮関数決定部が、前記入力した時系列の音声信号と、前記話速変換部により話速が変換された時系列の音声信号との間の時間遅れを算出し、前記時間遅れが所定のしきい値以下になるように、前記決定した関数を修正して新たな関数を決定する、ことを特徴とする。
また、請求項3の話速変換装置は、請求項1または2に記載の話速変換装置において、前記所定時間を、予め設定された一定時間とするか、または、発声音の息継ぎ区間に相当する休止区間に挟まれた呼気段落を単位として、予め設定された整数倍の数の呼気段落を含む期間とする、ことを特徴とする。
また、請求項4の話速変換装置は、請求項1から3までのいずれか一項に記載の話速変換装置において、前記波形伸縮関数決定部が、前記特徴量算出部により算出された特徴量の回帰直線を求め、前記回帰直線の傾きを、前記音声信号の特性として算出する特性算出部と、前記回帰直線の傾きの条件と関数とが対応して格納されたテーブルと、前記特性算出部により算出された傾きの条件を満たす関数を前記テーブルから読み出し、前記読み出した関数を、前記話速変換の際に用いる音声波形の伸縮倍率を定める関数として決定する関数決定部と、を備えたことを特徴とする。
また、請求項5の話速変換装置は、請求項1から4までのいずれか一項に記載の話速変換装置において、前記波形伸縮関数決定部により決定される関数を、発声音の息継ぎ区間に相当する休止区間に挟まれた呼気段落の開始時点から予め設定された時間までの間で定義される関数とし、前記話速変換部が、前記所定時間の開始時点から前記予め設定された時間が経過するまでの間、前記波形伸縮関数決定部により決定された関数による伸縮倍率を用いて前記音声信号の話速を変換し、前記所定時間の開始時点から前記予め設定された時間が経過した後、予め設定された新たな伸縮倍率を用いて前記音声信号の話速を変換する、ことを特徴とする。
さらに、請求項6の話速変換方法は、時系列の音声信号を入力し、所定の波形伸縮ルールによって前記音声信号の話速を変換する話速変換方法において、前記入力した時系列の音声信号の時系列データから、音響的な特徴を示す特徴量を算出する第1のステップと、前記算出した特徴量に基づいて、話速変換の際に用いる音声波形の伸縮倍率を定める関数を決定する第2のステップと、前記決定した関数による伸縮倍率を用いて、前記音声信号の話速を変換する第3のステップと、を有し、前記第1及び第2のステップは所定時間毎に行われ、前記第3のステップが、前記第2のステップにて直前の所定時間にて決定した関数による伸縮倍率を用いて、現在の所定時間における音声信号の話速を変換するステップである、ことを特徴とする。
さらに、請求項7の話速変換プログラムは、コンピュータを、請求項1から5までのいずれか一項に記載の話速変換装置として機能させる。
以上のように、本発明によれば、リアルタイムで発話速度を変換する際に、多様な発話の原音声に対して、ゆっくりと感じるように聞こえる話速変換を実現することができる。
実施例1による話速変換装置の構成を示すブロック図である。 (1)は、3呼気段落分の入力音声の波形を示す図である。(2)は、3呼気段落分の音響特徴量Sの時間変化を示す図である。 観測期間、呼気段落、休止区間、有声区間、無声区間及び無音区間を説明する図である。 決定した波形伸縮関数Yと話速変換処理の関係を説明する図である。 実施例1による波形伸縮関数決定部の構成を示すブロック図である。 テーブルの構成を示す図である。 実施例1による波形伸縮関数決定部の処理を示すフローチャートである。 話速変換部の構成を示すブロック図である。 話速変換部の処理を示すフローチャートである。 観測期間と波形伸縮関数Yにおける時間データTの関係を説明する図である。 実施例2による話速変換装置の構成を示すブロック図である。 実施例2による波形伸縮関数決定部の構成を示すブロック図である。 実施例2による波形伸縮関数決定部の処理を示すフローチャートである。
以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明は、時々刻々入力される音声の音響的な特徴量を求め、所定時間の特徴量に基づいて音声の波形伸縮ルールを決定し、決定した波形伸縮ルールを用いて話速変換を行うことを特徴とする。これにより、発話の特徴の違い及び変化、発話者の違い、並びに言語の違い等が特徴量に反映され、適切な波形伸縮ルールが決定されるから、多様な発話の原音声に対し、ゆっくりと感じるように聞こえる話速変換を実現することができる。ここで、話速変換の対象となる音声は、ファイル音声ではなく、放送視聴等の際に逐次入力されるリアルタイムの音声とする。
〔実施例1〕
まず、実施例1による話速変換装置について説明する。図1は、実施例1による話速変換装置の構成を示すブロック図である。この話速変換装置1−1は、音声信号分析部10、特徴量算出部11、波形伸縮関数決定部12、DB13及び話速変換部14を備えている。
音声信号分析部10は、音声信号を入力し、入力した音声信号の音響分析を行って、音声の高さを示す基本周波数Pt及び音声の強さを示すパワーPoを抽出し、一定時間長(例えば3.3ms)のフレーム毎に、有声、無声または無音を識別し、入力した時系列の音声信号について有声区間、無声区間及び無音区間を判定する。有声区間、無声区間及び無音区間を判定する音声信号分析手法は既知であり、例えば、自己相関分析法、零交差分析法が用いられる。また、音声信号分析部10は、判定した無音区間の時間長が所定時間(例えば250ms)以上の場合、その時間長の区間を休止区間と判定する。休止区間は、発声音の息継ぎ区間に相当する。また、音声信号分析部10は、連続する2つの休止区間の間の期間を、呼気段落(発話区間)と判定する。呼気段落は、一息で発声される区間に相当する。また、音声信号分析部10は、後述する特徴量算出部11及び波形伸縮関数決定部12において音響特徴量S及び波形伸縮関数Yを更新する所定時間として、呼気段落の開始時点から連続する3呼気段落を含む期間を観測期間に設定する。
尚、音声信号分析部10は、所定時間として、呼気段落の開始時点から連続する3呼気段落を含む期間を観測期間に設定するようにしたが、呼気段落の開始時点から、呼気段落を単位としてその整数倍の数の連続する呼気段落を含む期間を観測期間に設定するようにしてもよいし、呼気段落の開始時点から、予め設定された任意の一定期間を観測期間に設定するようにしてもよい。実施例2についても同様である。この場合、観測期間を、呼気段落の開始時点から、予め設定された任意の一定期間とすることにより、後述する特徴量算出部11により算出される音響特徴量S及び波形伸縮関数決定部12により決定される波形伸縮関数Yが固定された一定時間毎に更新されるから、呼気段落の時間長に関係なく一定時間で発話の特徴を分類し、話速変換に必要なルールを決定することができる。例えば、呼気段落の時間長が極端に長くなった場合であっても、音響特徴量S及び波形伸縮関数Yは一定時間毎に更新されるから、安定した話速変換を実現することができる。
音声信号分析部10により各種区間(観測期間、呼気段落、休止区間、有声区間、無声区間及び無音区間)が判定された時系列の音声信号は、話速変換部14に出力される。また、音声信号分析部10により算出された音声信号の基本周波数Pt及びパワーPoは、各種区間の時系列の音声信号に対応したデータとして特徴量算出部11に出力される。
図2(1)は、3呼気段落分の入力音声の波形を示す図であり、図3は、観測期間、呼気段落、休止区間、有声区間、無声区間及び無音区間を説明する図である。図2(1)及び図3の横軸は時間を示す。音声信号分析部10により、図2(1)に示すような時系列の音声信号が入力され、図3に示すように、時系列の音声信号に対する有声区間、無声区間及び無音区間が判定され、所定時間以上の無音区間が休止区間として判定され、連続する2つの休止区間の間の期間が呼気段落として判定され、呼気段落の開始時点から連続する3呼気段落及び2休止区間の期間が観測期間として設定される。
特徴量算出部11は、音声信号分析部10から各種区間の時系列の音声信号に対応した基本周波数Pt及びパワーPoを入力し、音声信号の基本周波数Pt及びパワーPoの時間変化を、それぞれ10Hz程度でローパスフィルタにてスムージングし、振幅を対数変換することにより、中央値を1とした0〜2に正規化する。そして、特徴量算出部11は、正規化した音声信号の基本周波数Pt及びパワーPoを用いて、以下の式のように、同じ重み付けで対数軸上の加算を行い、音声信号から得られる発話の音響的な特徴を反映した音響特徴量Sを算出する。
〔数式1〕
S=Pt0.5×Po0.5 ・・・(1)
特徴量算出部11により算出された音響特徴量Sは、波形伸縮関数決定部12に出力される。この音響特徴量Sは、観測期間毎に更新される。
図2(2)は、3呼気段落分の音響特徴量Sの時間変化を示す図である。横軸は時間を示す。特徴量算出部11により、図2(2)に示す音響特徴量Sが、図2(1)に示した音声信号の時系列データから算出される。
尚、特徴量算出部11は、音声信号の基本周波数Pt及びパワーPoの時間変化から音響特徴量Sを算出するようにしたが、基本周波数Pt及びパワーPoのうちのいずれか一方の時間変化から音響特徴量Sを算出するようにしてもよい。また、音声信号から得られる発話の音響的な特徴を表現した音響特徴量Sを算出することができれば、基本周波数Pt及びパワーPo以外のデータを用いるようにしてもよい。実施例2についても同様である。
波形伸縮関数決定部12は、特徴量算出部11から観測期間毎の音響特徴量Sを入力し、観測期間における音声信号の特徴を1つの指標で表した特性(音響特徴量Sの特性)を算出する。音響特徴量Sの特性は、観測期間における音響特徴量Sがどのようになっているか、または、観測期間内でどのように変化しているかの性質を示す。例えば、波形伸縮関数決定部12は、観測期間内の呼気段落毎に、開始時刻toから終了時刻tnまでを定義域として、この定義域における回帰直線を例えば最小自乗法にて求め、回帰直線の傾きa1,a2,a3を音響特徴量Sの特性として算出する。図2(2)に示した音響特徴量Sの時間変化の例では、呼気段落毎に回帰直線(図2(2)に示した3本の直線)が求められ、傾きa1,a2,a3が算出される。これにより、観測期間における発話の特徴を、音響特徴量Sの特性である傾きa1,a2,a3の振る舞いによって一意にクラスタリングすることができる。
波形伸縮関数決定部12は、算出した音響特徴量Sの特性である傾きa1,a2,a3に基づいて、波形伸縮のルールを与える波形伸縮関数Yを決定する。具体的には、波形伸縮関数決定部12は、音響特徴量Sの特性である傾きa1,a2,a3の振る舞いと、その振る舞いの概形を予めクラスタリングしたテンプレートとを照合し、複数の波形伸縮関数の中から1つの波形伸縮関数Yを決定する。そして、波形伸縮関数決定部12は、決定した波形伸縮関数Y及び時間データTをDB13から読み出し、読み出した波形伸縮関数Yを用いて、音声波形の伸縮倍率r(t)を算出する。時間データTは、波形伸縮関数Yが有効に機能する時間期間を示す。つまり、波形伸縮関数Yから算出された伸縮倍率r(t)は、後述する話速変換部14において、時間データTの示す時間が経過する前まで用いられ、時間データTの示す時間が経過した後は用いられない。波形伸縮関数決定部12により算出された伸縮倍率r(t)及びDB13から読み出された時間データTは、話速変換部14に出力される。波形伸縮関数決定部12の構成及び処理の詳細については後述する。また、波形伸縮関数Y及び時間データTの詳細については、後述する図10において詳細に説明する。
DB13には、波形伸縮関数群(波形伸縮関数A,B,C,・・・)及び各波形伸縮関数における時間データTが格納されている。これらの波形伸縮関数は、最大値rs及び最小値reをそれぞれ有し、時間変化に応じた波形伸縮のルールを示す伸縮倍率が定義されている。例えば、後述する図10(1)(2)に示すように、話速の伸縮倍率を、最大値rsから時間データTが示す時間後の最小値reまで、時間の増加に従って減少させる余弦関数が定義されている。
話速変換部14は、音声信号分析部10から各種区間の時系列の音声信号を入力すると共に、波形伸縮関数決定部12から伸縮倍率r(t)及び時間データTを入力し、観測期間の開始時点から時間データTの示す時間が経過するまでの間、直前の観測期間において算出された伸縮倍率r(t)を用いて、現在の観測期間における話速を変換することで音声信号を伸縮し、変換後の音声信号を出力する。また、話速変換部14は、観測期間の開始時点から時間データTの示す時間が経過した後、発話が継続している場合、話速を変換しないで(音声信号の伸縮を行わないで)音声信号を出力するか、または、伸縮倍率r(t)の代わりに所定の伸縮倍率を用いて、話速を変換することで音声信号を伸縮し、変換後の音声信号を出力する。発話が継続していない場合は処理を行わない。話速変換部14の構成及び処理の詳細については後述する。
図4は、波形伸縮関数決定部12にて決定した波形伸縮関数Yと話速変換部14における話速変換処理の関係を説明する図である。図4に示すように、波形伸縮関数決定部12は、0,1,・・・,n,n+1,・・・番目の観測期間(以下、観測期間0,1,・・・,n,n+1,・・・という。)の音声信号から、波形伸縮関数Y0,Y1,・・・,Yn,Yn+1,・・・をそれぞれ決定する。また、話速変換部14は、観測期間0の音声信号に対し、予め設定された初期関数に従って伸縮処理を施し、話速を変換し、観測期間1,・・・,n,n+1,・・・の音声信号に対し、波形伸縮関数決定部12により決定された波形伸縮関数Y0,・・・,Yn−1,Yn,・・・に従って伸縮処理を施し、話速を変換する。つまり、話速変換部14は、観測期間n+1における音声信号の特徴が、その直前の観測期間nにおける音声信号の特徴と同じであって、さほど変化しないことを前提として、観測期間n+1の音声信号の伸縮変換処理を行う際に、波形伸縮関数決定部12によりその直前の観測期間nの音声信号から決定された波形伸縮関数Ynを用いる。
これにより、波形伸縮関数決定部12により、観測期間毎に、音声信号から得られる発話の特徴における大まかな傾向が求められ、その特徴の傾向に適用する波形伸縮関数Yが更新され逐次切り替わることになる。そして、話速変換部14により、観測期間毎に切り替えられる波形伸縮関数Yに従った伸縮倍率r(t)にて話速変換が行われる。したがって、発話の特徴の違い及び変化、発話者の違い、並びに言語の違い等に応じた波形伸縮関数Yに切り替わると共に、発話の途中で特徴に変化があったとしても、その変化に応じた波形伸縮関数Yに切り替わるから、多様な発話の原音声に対し、ゆっくりと感じるように聞こえる話速変換を実現することができる。
また、波形伸縮関数決定部12は、図4に示した観測期間0において、観測期間0の音声信号から波形伸縮関数Y0を決定している間、予め設定された初期関数による伸縮倍率r(t)として、例えばr(t)=1.0等の固定値を話速変換部14に出力すると共に、予め設定された時間データTも出力する。尚、波形伸縮関数決定部12は、観測期間0において、DB13に格納された波形伸縮関数群のうち、予め設定された波形伸縮関数による伸縮倍率r(t)及び時間データTを話速変換部14に出力するようにしてもよい。これにより、話速変換部14は、観測期間0の開始時点から間断なく話速変換を行うことができる。
(波形伸縮関数決定部)
次に、図1に示した実施例1による話速変換装置1−1の波形伸縮関数決定部12について詳細に説明する。図5は、波形伸縮関数決定部12の構成を示すブロック図であり、図7は、波形伸縮関数決定部12の処理を示すフローチャートである。波形伸縮関数決定部12は、前述のとおり、特徴量算出部11から入力した音響特徴量Sに基づいてその特性を算出し、算出した音響特徴量Sの特性に基づいて波形伸縮関数Yを決定し、決定した波形伸縮関数Y及び時間データTをDB13から読み出し、波形伸縮関数Yから算出した伸縮倍率r(t)及び時間データTを話速変換部14に出力する。
この波形伸縮関数決定部12は、特性算出部20、テーブル21、関数決定部22及び伸縮倍率出力部23を備えている。特性算出部20は、特徴量算出部11から音響特徴量Sを入力し(ステップS701)、音声特徴量Sに基づいて、音響特徴量Sの特性として、観測期間内の呼気段落毎に、例えば回帰直線の傾きa1,a2,a3を算出し、算出した傾きa1,a2,a3を関数決定部22に出力する(ステップS702)。
尚、特性算出部20は、音響特徴量Sの特性として、呼気段落毎に音響特徴量Sの時間変化における極大点または極小点の数を算出するようにしてもよい。回帰直線の傾きa1,a2,a3は一例であり、音響特徴量Sから得られる発話の特徴を示す特性であれば何でもよい。実施例2についても同様である。
関数決定部22は、特性算出部20から音響特徴量Sの特性である傾きa1,a2,a3を入力し、テーブル21を参照して、傾きa1,a2,a3の条件を満たす波形伸縮関数Yを決定する(ステップS703)。
図6は、テーブル21の構成を示す図である。図6に示すように、テーブル21には、音響特徴量Sの特性である傾きa1,a2,a3の条件と、その条件を満たすときの波形伸縮関数の種類(波形伸縮関数を識別するためのデータ)とが対応して格納されている。例えば、傾きa1<0またはa2<0またはa3<0の条件(a1,a2,a3のうちいずれかが負である条件)と波形伸縮関数Aとが対応して格納され、傾きa1≧0かつ・・・の条件と波形伸縮関数Bとが対応して格納されている。このテーブル21には、実験結果により予め得られた条件及び波形伸縮関数の種類が格納されている。つまり、テーブル21には、その条件が示す特性を有する音声信号が実際に話速変換された場合に、好適な話速変換が実現されるような波形伸縮関数の種類が格納されている。
図2(2)に示した例では、傾きa1,a2,a3が全て負であるから、図6に示したテーブル21において、傾きa1<0またはa2<0またはa3<0の条件を満たす。この場合、関数決定部22は、傾きa1,a2,a3がテーブル21において第1番目の条件を満たすから、波形伸縮関数Yとして波形伸縮関数Aを決定する。図2(2)に示した例のように、全ての傾きa1,a2,a3が負である場合には、日本語発話である可能性が高い。このため、関数決定部22は、日本語の話速変換に適応する波形伸縮関数Yを決定することが望ましい。また、関数決定部22は、傾きa1,a2,a3がテーブル21において第2番目の条件を満たす場合には、波形伸縮関数Yとして波形伸縮関数Bを決定する。
図5及び図7に戻って、関数決定部22は、ステップS703にて決定した波形伸縮関数Yについての時間変化に応じた波形伸縮のルールを示す伸縮倍率が定義されたデータ(以下、波形伸縮関数Yという。)、及び当該波形伸縮関数Yの時間データTをDB13から読み出し、伸縮倍率出力部23に出力する(ステップS704)。伸縮倍率出力部23は、関数決定部22から波形伸縮関数Y及び時間データTを入力し、波形伸縮関数Yを用いて伸縮倍率r(t)を算出し(ステップS705)、ステップS705にて算出した伸縮倍率r(t)及びステップS704にて読み出した時間データTを話速変換部14に出力する(ステップS706)。これにより、波形伸縮関数Yから算出された時系列の伸縮倍率r(t)が、時間データTと共に話速変換部14に出力される。
尚、関数決定部22は、テーブル21を参照して、音響特徴量Sの特性である傾きa1,a2,a3の条件を満たす波形伸縮関数Yをテーブル21から読み出して決定するようにしたが、さらに、決定した波形伸縮関数Yに対し、その波形伸縮関数Yがとり得る伸縮倍率のレンジ等を、外部からの設定に従って変更するようにしてもよい。具体的には、波形伸縮関数決定部12は、さらに外部設定部を備え、外部設定部は、外部からレンジを入力し、関数決定部22は、決定した波形伸縮関数Yのレンジが外部設定部にて入力したレンジとなるように、波形伸縮関数Yを新たな波形伸縮関数Yに変形する。例えば、関数決定部22は、後述する図10(1)のような波形伸縮関数Y1を決定し、この波形伸縮関数Y1の最大値がrs、最小値がre、時間データがT1であるとし、外部設定部は、レンジとして最大値rs’及び最小値re’を入力したとする。関数決定部22は、同じ時間データT1の時間期間において、元の波形伸縮関数Y1を、最大値をrs’とし、最小値をre’とした新たな波形伸縮関数Y1に変形する。そして、伸縮倍率出力部23は、関数決定部22により変形された新たな波形伸縮関数Y1を用いて伸縮倍率r(t)を算出する。この場合、外部設定部が最大値rs’のみを入力し、関数決定部22が、最大値rs’のみを反映した新たな波形伸縮関数Y1に変形するようにしてもよいし、外部設定部がレンジに加えて時間データT1’も入力し、関数決定部22が、レンジを変更すると共に時間データTをT’に変更した新たな波形伸縮関数Y1に変形するようにしてもよいし、外部設定部が時間データT’のみを入力し、関数決定部22が、最大値rs及び最小値reを変更しないで、時間データTをT’に変更した新たな波形伸縮関数Y1に変形するようにしてもよい。これにより、関数決定部22により決定された波形伸縮関数Yを外部から変形することができ、結果として音声信号の伸縮倍率を、外部からの設定に従って変更することができる。実施例2についても同様である。
(話速変換部)
次に、図1に示した実施例1による話速変換装置1−1の話速変換部14について詳細に説明する。図8は、話速変換部14の構成を示すブロック図であり、図9は、話速変換部14の処理を示すフローチャートである。話速変換部14は、前述のとおり、音声信号分析部10から各種区間の時系列の音声信号を入力すると共に、波形伸縮関数決定部12から伸縮倍率r(t)及び時間データTを入力し、観測期間の開始時点から時間データTの示す時間が経過するまでの間、直前の観測期間において算出された伸縮倍率r(t)を用いて音声信号の話速変換を行い、観測期間の開始時点から時間データTの示す時間が経過した後、発話が継続している場合、音声信号の話速変換を行うことなくそのまま出力するか、または、伸縮倍率r(t)の代わりに所定の伸縮倍率を用いて話速変換を行う。この場合、話速変換部14は、音声信号の話速変換を行うことなくそのまま出力することにより、または、音声信号を伸縮倍率1.0にて話速変換を行って出力することにより、結果として、入力した音声信号と同じ速度の音声信号が出力されることになる。
この話速変換部14は、2つの変換部30,31を備えている。変換部30は、音声信号分析部10から各種区間の時系列の音声信号を入力すると共に、波形伸縮関数決定部12から伸縮倍率r(t)及び時間データTを入力する(ステップS901)。以下、観測期間n+1の音声信号について話速変換を行うものとして説明する。
変換部30は、観測期間n+1の開始時点からの時間が、波形伸縮関数決定部12から入力した時間データTが示す一定時間(一定時間T)を経過しているか否かを判定する(ステップS902)。変換部30は、ステップS902において、観測期間n+1の開始時点から一定時間Tを経過していないと判定した場合(ステップS902:N)、波形伸縮関数決定部12から入力した伸縮倍率r(t)を用いて、観測期間n+1における一定時間T経過前の音声信号の話速を変換し(ステップS903)、変換した音声信号を出力する(ステップS906)。これにより、観測期間n+1の開始時点から一定時間Tまでの間、波形伸縮関数決定部12により決定された波形伸縮関数Yによる伸縮倍率r(t)にて変換された音声信号が出力される。
一方、変換部30は、ステップS902において、観測期間n+1の開始時点から一定時間Tを経過していると判定した場合(ステップS902:Y)、一定時間Tを経過していることを示す指示を変換部31に出力する。そして、変換部31は、音声信号分析部10から各種区間の時系列の音声信号を入力すると共に、変換部30から一定時間Tを経過していることを示す指示を入力し、前記指示を入力したときに発話が継続している場合、新たな伸縮倍率rT(t)を決定する(ステップS904)。発話が継続しているか否かは、入力した音声信号が休止区間の音声信号であるか否かにより判定される。休止区間の音声信号でない場合(休止区間以外の区間(例えば有声区間)の音声信号である場合)、発話が継続していると判定され、休止区間の音声信号である場合、発話が継続していないと判定される。
変換部31は、ステップS904において、例えば、観測期間n+1の開始時点から一定時間T経過後の新たな伸縮倍率rT(t)として、予め設定された一定の伸縮倍率rT(t)=1.0を決定する。この伸縮倍率rT(t)=1.0は、入力した音声信号の話速変換を行うことなく、そのまま出力することを意味する。
尚、変換部31は、新たな伸縮倍率rT(t)として、伸縮倍率rT(t)=re(一定時間T経過前まで用いた伸縮倍率r(t)における最小値re(=r(T)))を決定するようにしてもよい(後述する図10を参照)。また、変換部31は、一定時間T経過前まで用いた伸縮倍率r(t)における時刻0≦t≦Tの平均倍率を算出し、その平均倍率を下回る任意の固定値を、新たな伸縮倍率rT(t)として決定するようにしてもよい。また、変換部31は、一定時間T経過前まで用いた伸縮倍率r(t)における時刻0≦t≦Tの平均倍率を算出し、その平均倍率を下回る平均倍率を有する伸縮倍率rT(t)を、新たな伸縮倍率rT(t)として決定するようにしてもよい。この場合、変換部31は、予め複数の波形伸縮関数を保持しており、これらの波形伸縮関数による伸縮倍率における時刻0≦t≦Tの平均倍率をそれぞれ算出し、一定時間T経過前まで用いた伸縮倍率r(t)における時刻0≦t≦Tの平均倍率を下回る平均倍率を有する波形伸縮関数を選定し、選定した波形伸縮関数による伸縮倍率を新たな伸縮倍率rT(t)として決定する。
変換部31は、ステップS904にて決定した新たな伸縮倍率rT(t)を用いて、観測期間n+1における一定時間T経過後の音声信号の話速を変換し(ステップS905)、変換した音声信号を出力する(ステップS906)。これにより、観測期間n+1の開始時点から一定時間Tを経過した後、発話が継続している場合、変換部31により新たに決定された伸縮倍率rT(t)にて変換された音声信号が出力される。
変換部31は、ステップS904において、変換部30から一定時間Tを経過していることを示す指示を入力したときに、発話が継続していない場合、新たな伸縮倍率rT(t)を決定することなく、入力した音声信号をそのまま出力する。
図10は、観測期間と波形伸縮関数Yにおける時間データTの関係を説明する図である。話速変換部14が、波形伸縮関数決定部12から図10(1)に示す波形伸縮関数Y1による伸縮倍率r1(t)及び時間データT1を入力した場合、時間データT1が示す一定時間(一定時間T1)は観測期間よりも長いから、ステップS902において、観測期間n+1の開始時点からの時間が一定時間T1を経過することがない。したがって、話速変換部14は、図9に示した処理のうち、ステップS901,ステップS902、ステップS903及びステップS906の処理を行い、ステップS904及びステップS905の処理を行うことはない。
また、話速変換部14が、波形伸縮関数決定部12から図10(2)に示す波形伸縮関数Y2による伸縮倍率r2(t)及び時間データT2を入力した場合、時間データT2が示す一定時間(一定時間T2)は観測期間よりも短いから、ステップS902において、観測期間n+1の開始時点からの時間が一定時間T2を経過することがあり得る。したがって、話速変換部14は、図9に示した全ての処理を行う。この場合、話速変換部14は、図10(2)に示したr2Tの期間について、すなわち、一定時間T2が経過してから観測期間が終了するまでの間の期間について、発話が継続している場合、ステップS904にて新たな伸縮倍率r2T(t)を決定する。
尚、波形伸縮関数は、開始時点から時間データTが示す一定時間(一定時間T)までの間で伸縮倍率が定義されるような関数としたが、一定時間Tに関係なく伸縮倍率が定義される関数としてもよい。この場合、図9に示した処理のうちステップS904及びステップS905の処理は行われず、観測期間の間、ステップS903にて伸縮倍率r(t)を用いた変換処理が常に行われる。
以上のように、実施例1による話速変換装置1−1によれば、特徴量算出部11は、観測期間毎に、音声信号の基本周波数Pt及びパワーPoを用いて音響特徴量Sを算出し、波形伸縮関数決定部12は、観測期間毎に、音響特徴量Sの特性として、呼気段落毎の回帰直線の傾きa1,a2,a3を算出し、テーブル21を参照して傾きa1,a2,a3の条件を満たす波形伸縮関数Yを決定し、決定した波形伸縮関数Y及び時間データTをDB13から読み出し、波形伸縮関数Yを用いて伸縮倍率r(t)を算出するようにした。そして、話速変換部14は、観測期間の開始時点から時間データTの示す時間が経過するまでの間、直前の観測期間において波形伸縮関数決定部12により算出された伸縮倍率r(t)を用いて音声信号を話速変換するようにした。これにより、発話の特徴の違い及び変化、発話者の違い、並びに言語の違い等が音声信号の音響特徴量Sに反映され、適切な波形伸縮関数Yが決定され、この波形伸縮関数Yによる伸縮倍率r(t)にて音声信号が話速変換される。したがって、多様な発話の原音声に対し、ゆっくりと感じるように聞こえる話速変換を実現することができる。また、音響特徴量S、波形伸縮関数Y及び伸縮倍率r(t)は、観測期間毎に更新されるから、発話の特徴が変化した場合であっても、その変化に追従した音響特徴量S、波形伸縮関数Y及び伸縮倍率r(t)が求められ、多様な発話の原音声の変化に追従して、ゆっくりと感じるように聞こえる話速変換を実現することができる。
また、話速変換部14は、観測期間の開始時点から時間データTの示す時間が経過した後、発話が継続している場合、伸縮倍率r(t)の代わりに所定の伸縮倍率rT(t)を用いて音声信号を話速変換するようにした。これにより、観測期間の開始時点から時間データTの示す時間後も発話が継続している場合であっても、途切れることのない話速変換を実現することができる。
〔実施例2〕
次に、実施例2による話速変換装置について説明する。図11は、実施例2による話速変換装置の構成を示すブロック図である。この話速変換装置1−2は、音声信号分析部10、特徴量算出部11、波形伸縮関数決定部15、DB13及び話速変換部16を備えている。図1に示した実施例1による話速変換装置1−1と図11に示す実施例2による話速変換装置1−2とを比較すると、両話速変換装置1−1,1−2は、音声信号分析部10、特徴量算出部11、DB13を備えている点で同一である。一方、話速変換装置1−2は、話速変換装置1−1の波形伸縮関数決定部12及び話速変換部14とは異なる波形伸縮関数決定部15及び話速変換部16を備えている点で相違する。音声信号分析部10、特徴量算出部11及びDB13については、図1に示した実施例1による話速変換装置1−1にて説明済みであるから、ここでは説明を省略する。
話速変換部16は、図1の話速変換部14と同様の処理に加え、変換後の音声信号である各種区間の時系列の音声信号(出力音声)を波形伸縮関数決定部15に出力する。
波形伸縮関数決定部15は、特徴量算出部11から観測期間毎の音響特徴量Sを入力すると共に、音声信号分析部10から各種区間の時系列の音声信号(入力音声)を入力し、話速変換部16から各種区間の時系列の音声信号(出力音声)を入力し、図1の波形伸縮関数決定部12と同様の処理を行って波形伸縮関数Yを決定する。話速変換部16から入力する各種区間の時系列の音声信号(出力音声)は、音声信号分析部10から入力する各種区間の時系列の音声信号(入力音声)に対応する音声信号であり、音声信号分析部10から入力する観測期間の音声信号に対応して、その観測期間において話速変換部16にて変換された音声信号である。
波形伸縮関数決定部15は、音声信号分析部10から入力した音声信号と話速変換部16から入力した音声信号との間の時間遅れを算出し、算出した時間遅れが予め設定されたしきい値以下でない場合(しきい値を超えている場合)、算出した時間遅れに基づいて、波形伸縮関数Yの最大値rsを小さい値に修正し、新たな波形伸縮関数Y’を設定する。例えば、波形伸縮関数決定部15は、波形伸縮関数Yの最大値rsが1.4の場合、最大値rsを下方修正し、最大値rsが1.2になるような新たな波形伸縮関数Y’を設定する。そして、波形伸縮関数決定部15は、新たな波形伸縮関数Y’を用いて伸縮倍率r’(t)を算出し、伸縮倍率r’(t)及び時間データT(DB13から読み出された波形伸縮関数Yの時間データT)を話速変換部16に出力する。ここで、波形伸縮関数決定部15は、時間遅れがしきい値以下である場合、波形伸縮関数Yをそのまま新たな波形伸縮関数Y’に設定する。
(波形伸縮関数決定部)
次に、図11に示した実施例2による話速変換装置1−2の波形伸縮関数決定部15について詳細に説明する。図12は、波形伸縮関数決定部15の構成を示すブロック図であり、図13は、波形伸縮関数決定部15の処理を示すフローチャートである。この波形伸縮関数決定部15は、特性算出部20、テーブル21、関数決定部22、関数修正部24及び伸縮倍率出力部23を備えている。図5に示した波形伸縮関数決定部12と図12に示す波形伸縮関数決定部15とを比較すると、両波形伸縮関数決定部12,15は、特性算出部20、テーブル21、関数決定部22及び伸縮倍率出力部23を備えている点で同一である。一方、波形伸縮関数決定部15は、波形伸縮関数決定部12の各構成部に加え、さらに関数修正部24を備えている点で相違する。
図12において、特性算出部20、テーブル21、関数決定部22及び伸縮倍率出力部23については、図5に示した波形伸縮関数決定部12にて説明済みであるから、ここでは説明を省略する。また、図13において、ステップS1301〜ステップS1304の処理は、図7に示したステップS701〜ステップS704の処理と同一であるから、ここでは説明を省略する。
関数決定部22は、ステップS1304にて読み出した波形伸縮関数Y及び時間データTを関数修正部24に出力する。関数修正部24は、関数決定部22から波形伸縮関数Y及び時間データTを入力すると共に、音声信号分析部10から各種区間の時系列の音声信号(入力音声)を入力し、話速変換部16から各種区間の時系列の音声信号(出力音声)を入力する(ステップS1305)。そして、関数修正部24は、音声信号分析部10から入力した音声信号(入力音声)と話速変換部16から入力した音声信号(出力音声)との間の時間遅れを算出する(ステップS1306)。関数修正部24は、観測期間において、入力音声の経過時間を観測すると共に、入力音声の経過時間に対応する出力音声の経過時間も観測しており、これらの経過時間の差を時間遅れとして算出する。入力音声の経過時間に対応する出力音声の経過時間とは、話速変換部16により入力音声が話速変換されたときの、入力音声の時刻情報に対応する出力音声の時刻情報を示す。この場合、関数修正部24は、入力音声の観測期間と、この観測期間に対応する出力音声の時間期間との差を算出し、これを時間遅れとするようにしてもよい。
尚、関数修正部24は、観測期間の代わりに、呼気段落の時間長に着目し、入力音声の呼気段落の時間長と、この呼気段落に対応する出力音声の呼気段落における時間長との間の差を算出し、これを時間遅れとしてもよい。また、関数修正部24は、有声区間の時間長に着目し、入力音声の有声区間の時間長と、この有声区間に対応する出力音声の有声区間における時間長との間の差を算出し、これを時間遅れとしてもよい。
関数修正部24は、ステップS1306にて算出した時間遅れと、予め設定されたしきい値とを比較し、時間遅れがしきい値以下であるか否かを判定する(ステップS1307)。関数修正部24は、ステップS1307において、時間遅れがしきい値以下でないと判定した場合(ステップS1307:N)、ステップS1304にて読み出した波形伸縮関数Yの最大値rsを、その最大値rsよりも小さい値に修正して新たな波形伸縮関数Y’を設定する(ステップS1308)。一方、関数修正部24は、ステップS1307において、時間遅れがしきい値以下であると判定した場合(ステップS1308:Y)、ステップS1304にて読み出した波形伸縮関数Yを、最大値rs等を変更することなく、新たな波形伸縮関数Y’に設定する(ステップS1309)。
この場合、関数修正部24は、ステップS1307において、時間遅れがしきい値以下になるまでの間(時間遅れがしきい値以下でない限り)、ステップS1308において、最大値rsを一定の割合で徐々に小さい値に修正し、新たな波形伸縮関数Y’を更新する。これにより、時間遅れがしきい値を超えている間、時間の経過に従って、波形伸縮関数Y’の最大値rsが徐々に小さい値になるから、伸縮倍率出力部23により出力される伸縮倍率r’(t)も通常の伸縮倍率r(t)よりも徐々に小さい値になり、結果として、時間遅れが小さくなってしきい値以下となる。したがって、時間遅れは、しきい値の時間を超えて蓄積されることがない。
伸縮倍率出力部23は、関数修正部24から波形伸縮関数Y’を入力し、入力した波形伸縮関数Y’を用いて伸縮倍率r’(t)を算出し(ステップS1310)、ステップS1310にて算出した伸縮倍率r’(t)及びステップS1304にて読み出した時間データTを話速変換部16に出力する(ステップS1311)。
以上のように、実施例2による話速変換装置1−2によれば、特徴量算出部11は、観測期間毎に、音声信号の音響特徴量Sを算出し、波形伸縮関数決定部15は、観測期間毎に、音響特徴量Sの特性である呼気段落毎の回帰直線の傾きa1,a2,a3を算出し、テーブル21を参照して傾きa1,a2,a3の条件を満たす波形伸縮関数Yを決定し、決定した波形伸縮関数Y及び時間データTをDB13から読み出すようにした。そして、波形伸縮関数決定部15は、入力音声と話速変換後の出力音声との間の時間遅れを算出し、算出した時間遅れがしきい値以下でない場合、算出した時間遅れに基づいて、波形伸縮関数Yの最大値rsを小さい値に修正して新たな波形伸縮関数Y’を設定し、算出した時間遅れがしきい値以下である場合、波形伸縮関数Yをそのまま新たな波形伸縮関数Y’に設定し、新たな波形伸縮関数Y’を用いて伸縮倍率r’(t)を算出するようにした。そして、話速変換部16は、新たな波形伸縮関数Y’による伸縮倍率r’(t)を用いて音声信号を話速変換するようにした。これにより、実施例1の効果に加え、入力音声と出力音声との間の時間遅れがしきい値を超えて蓄積されないように、適切な波形伸縮関数Y’が決定され、この波形伸縮関数Y’による伸縮倍率r’(t)にて音声信号が話速変換される。したがって、多様な発話の原音声に対し、時間遅れが蓄積されることなく、安定的にゆっくりと感じるように聞こえる話速変換を実現することができる。
尚、実施例1,2による話速変換装置1−1,1−2のハードウェア構成としては、通常のコンピュータを使用することができる。話速変換装置1−1,1−2は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。話速変換装置1−1に備えた音声信号分析部10、特徴量算出部11、波形伸縮関数決定部12及び話速変換部14の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。また、話速変換装置1−2に備えた音声信号分析部10、特徴量算出部11、波形伸縮関数決定部15及び話速変換部16の各機能も、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
1 話速変換装置
10 音声信号分析部
11 特徴量算出部
12,15 波形伸縮関数決定部
13 DB
14,16 話速変換部
20 特性算出部
21 テーブル
22 関数決定部
23 伸縮倍率出力部
24 関数修正部
30,31 変換部

Claims (7)

  1. 時系列の音声信号を入力し、所定の波形伸縮ルールによって前記音声信号の話速を変換する話速変換装置において、
    前記入力した時系列の音声信号から、音響的な特徴を示す特徴量を算出する特徴量算出部と、
    前記特徴量算出部により算出された特徴量に基づいて、話速変換の際に用いる音声波形の伸縮倍率を定める関数を決定する波形伸縮関数決定部と、
    前記波形伸縮関数決定部により決定された関数による伸縮倍率を用いて、前記音声信号の話速を変換する話速変換部と、を備え、
    所定時間毎に、前記特徴量算出部が特徴量を算出し、前記波形伸縮関数決定部が関数を決定し、
    前記話速変換部は、前記波形伸縮関数決定部により直前の所定時間にて決定された関数による伸縮倍率を用いて、現在の所定時間における音声信号の話速を変換する、ことを特徴とする話速変換装置。
  2. 請求項1に記載の話速変換装置において、
    前記波形伸縮関数決定部は、
    前記入力した時系列の音声信号と、前記話速変換部により話速が変換された時系列の音声信号との間の時間遅れを算出し、前記時間遅れが所定のしきい値以下になるように、前記決定した関数を修正して新たな関数を決定する、ことを特徴とする話速変換装置。
  3. 請求項1または2に記載の話速変換装置において、
    前記所定時間を、予め設定された一定時間とするか、または、発声音の息継ぎ区間に相当する休止区間に挟まれた呼気段落を単位として、予め設定された整数倍の数の呼気段落を含む期間とする、ことを特徴とする話速変換装置。
  4. 請求項1から3までのいずれか一項に記載の話速変換装置において、
    前記波形伸縮関数決定部は、
    前記特徴量算出部により算出された特徴量の回帰直線を求め、前記回帰直線の傾きを、前記音声信号の特性として算出する特性算出部と、
    前記回帰直線の傾きの条件と関数とが対応して格納されたテーブルと、
    前記特性算出部により算出された傾きの条件を満たす関数を前記テーブルから読み出し、前記読み出した関数を、前記話速変換の際に用いる音声波形の伸縮倍率を定める関数として決定する関数決定部と、
    を備えたことを特徴とする話速変換装置。
  5. 請求項1から4までのいずれか一項に記載の話速変換装置において、
    前記波形伸縮関数決定部により決定される関数を、発声音の息継ぎ区間に相当する休止区間に挟まれた呼気段落の開始時点から予め設定された時間までの間で定義される関数とし、
    前記話速変換部は、
    前記所定時間の開始時点から前記予め設定された時間が経過するまでの間、前記波形伸縮関数決定部により決定された関数による伸縮倍率を用いて前記音声信号の話速を変換し、前記所定時間の開始時点から前記予め設定された時間が経過した後、予め設定された新たな伸縮倍率を用いて前記音声信号の話速を変換する、ことを特徴とする話速変換装置。
  6. 時系列の音声信号を入力し、所定の波形伸縮ルールによって前記音声信号の話速を変換する話速変換方法において、
    前記入力した時系列の音声信号の時系列データから、音響的な特徴を示す特徴量を算出する第1のステップと、
    前記算出した特徴量に基づいて、話速変換の際に用いる音声波形の伸縮倍率を定める関数を決定する第2のステップと、
    前記決定した関数による伸縮倍率を用いて、前記音声信号の話速を変換する第3のステップと、を有し、
    前記第1及び第2のステップは所定時間毎に行われ、
    前記第3のステップは、前記第2のステップにて直前の所定時間にて決定した関数による伸縮倍率を用いて、現在の所定時間における音声信号の話速を変換するステップである、ことを特徴とする話速変換方法。
  7. コンピュータを、請求項1から5までのいずれか一項に記載の話速変換装置として機能させるための話速変換プログラム。
JP2013029111A 2013-02-18 2013-02-18 話速変換装置、及びプログラム Active JP6224325B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013029111A JP6224325B2 (ja) 2013-02-18 2013-02-18 話速変換装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013029111A JP6224325B2 (ja) 2013-02-18 2013-02-18 話速変換装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2014157331A true JP2014157331A (ja) 2014-08-28
JP6224325B2 JP6224325B2 (ja) 2017-11-01

Family

ID=51578214

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013029111A Active JP6224325B2 (ja) 2013-02-18 2013-02-18 話速変換装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP6224325B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112908302A (zh) * 2021-01-26 2021-06-04 腾讯音乐娱乐科技(深圳)有限公司 一种音频处理方法、装置、设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10301598A (ja) * 1997-04-30 1998-11-13 Nippon Hoso Kyokai <Nhk> 話速変換方法およびその装置
JP2003223200A (ja) * 2002-01-28 2003-08-08 Telecommunication Advancement Organization Of Japan 話速変換による書き起こし支援システム及び半自動型字幕番組制作システム
WO2006077626A1 (ja) * 2005-01-18 2006-07-27 Fujitsu Limited 話速変換方法及び話速変換装置
JP2010026243A (ja) * 2008-07-18 2010-02-04 Panasonic Electric Works Co Ltd 自動話速変換装置
JP2011033789A (ja) * 2009-07-31 2011-02-17 Nippon Hoso Kyokai <Nhk> 適応的な話速変換装置及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10301598A (ja) * 1997-04-30 1998-11-13 Nippon Hoso Kyokai <Nhk> 話速変換方法およびその装置
JP2003223200A (ja) * 2002-01-28 2003-08-08 Telecommunication Advancement Organization Of Japan 話速変換による書き起こし支援システム及び半自動型字幕番組制作システム
WO2006077626A1 (ja) * 2005-01-18 2006-07-27 Fujitsu Limited 話速変換方法及び話速変換装置
JP2010026243A (ja) * 2008-07-18 2010-02-04 Panasonic Electric Works Co Ltd 自動話速変換装置
JP2011033789A (ja) * 2009-07-31 2011-02-17 Nippon Hoso Kyokai <Nhk> 適応的な話速変換装置及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
今井 篤: "ゆっくり話せば話がはやい 話速変換技術", 電子情報通信学会技術研究報告, vol. Vol.107 No.134, JPN6017004290, 5 July 2007 (2007-07-05), JP, pages 85 - 89 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112908302A (zh) * 2021-01-26 2021-06-04 腾讯音乐娱乐科技(深圳)有限公司 一种音频处理方法、装置、设备及可读存储介质
CN112908302B (zh) * 2021-01-26 2024-03-15 腾讯音乐娱乐科技(深圳)有限公司 一种音频处理方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
JP6224325B2 (ja) 2017-11-01

Similar Documents

Publication Publication Date Title
JP5593244B2 (ja) 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体
US8484035B2 (en) Modification of voice waveforms to change social signaling
JP6263868B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
US20210335364A1 (en) Computer program, server, terminal, and speech signal processing method
JP6758890B2 (ja) 音声判別装置、音声判別方法、コンピュータプログラム
JP6224325B2 (ja) 話速変換装置、及びプログラム
Matassini et al. Analysis of vocal disorders in a feature space
JP6433063B2 (ja) 音声加工装置、及びプログラム
JP6343895B2 (ja) 音声制御装置、音声制御方法およびプログラム
JP5412204B2 (ja) 適応的な話速変換装置及びプログラム
JP5830364B2 (ja) 韻律変換装置およびそのプログラム
JPWO2011077924A1 (ja) 音声検出装置、音声検出方法、および音声検出プログラム
JP6314879B2 (ja) 音読評価装置、音読評価方法、及びプログラム
JP2018072368A (ja) 音響解析方法および音響解析装置
JP2015064480A (ja) 音声合成装置およびプログラム
JP2015069037A (ja) 音声合成装置およびプログラム
JP5954348B2 (ja) 音声合成装置および音声合成方法
JP6784137B2 (ja) 音響解析方法および音響解析装置
JP5272141B2 (ja) 音声処理装置およびプログラム
JP2018180482A (ja) 音声検出装置及び音声検出プログラム
JP5677137B2 (ja) 韻律変換装置およびプログラム
JP2006038956A (ja) 音声速度遅延装置及び方法
JP6371531B2 (ja) 音声信号処理装置及びプログラム
JP6232892B2 (ja) 音声合成装置およびプログラム
JP5863472B2 (ja) 話速変換装置およびそのプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160104

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170413

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170911

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171005

R150 Certificate of patent or registration of utility model

Ref document number: 6224325

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250