JP2011007959A

JP2011007959A - 音声データ処理装置、磁気共鳴イメージング装置、音声データ処理方法、およびプログラム

Info

Publication number: JP2011007959A
Application number: JP2009150228A
Authority: JP
Inventors: Yoshihiro Oda; 善洋尾田
Original assignee: GE Medical Systems Global Technology Co LLC
Current assignee: GE Medical Systems Global Technology Co LLC
Priority date: 2009-06-24
Filing date: 2009-06-24
Publication date: 2011-01-13
Anticipated expiration: 2029-06-24
Also published as: JP5405206B2

Abstract

【課題】変速再生する音声の音質を向上させることが可能な音声データ処理装置，音声データ処理方法、および、イメージング装置を提供する。
【解決手段】第１フォルマント周波数算出手段５８が、音声データブロックＥｉにおける周波数特性を解析し、第１フォルマント周波数Ｆｉを算出する。第１フォルマント周波数Ｆｉを算出した後、Ｆｉの逆数に比例するよう、第１の領域ＲＢｉの幅ＷＢｉおよび第２の領域ＲＡi+1の幅ＷＡi+1を算出する。その後、第１の領域ＲＢｉおよび第２の領域ＲＡi+1を設定し、類似度ＳＩＭの値に基づいて、第２の領域ＲＡi+1の位置を決定し、セグメントＳｉおよびＳi+1を結合する。
【選択図】図１

Description

本発明は、音声データを所定の再生速度で再生される音声再生データに変換する音声データ処理装置、磁気共鳴イメージング装置、音声データ処理方法、およびプログラムに関する。

磁気共鳴イメージング装置で被検体を撮影する場合、被検体に音声で指示を与えることがある。音声で指示を与える方法として、被検体に与える指示の内容を表す音声データを自動的に再生するオートボイス（Auto Voice）機能が知られている。

オートボイス機能によって音声データを再生する場合、音声データの再生速度の倍率を変更したい場合がある。そこで、音声データの再生速度の倍率を変更する方法として、ＯＬＡ法が知られている（特許文献１参照）。

特開2005-266571号公報

しかし、特許文献１の方法では、再生された音声が不自然になる場合がある。

本発明は、上記の事情に鑑み、再生する音声の音質を向上させることが可能な音声データ処理装置、磁気共鳴イメージング装置、音声データ処理方法、およびプログラムを提供することを目的とする。

上記の問題を解決する本発明の音声データ処理装置は、
時間軸を有する音声データに複数のセグメントを設定し、上記複数のセグメントのうちの互いに隣接するセグメントを結合することによって、上記音声データを所定の再生速度で再生される音声再生データに変換する音声データ処理装置であって、
上記音声データに、時間軸方向の異なる位置に第１の領域および第２の領域を設定する領域設定手段と、
上記第２の領域の時間軸方向における位置を調整する領域位置調整手段と、
上記第１の領域における音声データと、上記第２の領域における音声データとの類似度を算出するとともに、上記第１の領域における音声データと、上記領域位置調整手段により位置が調整された上記第２の領域における音声データとの類似度を算出する類似度算出手段と、
上記類似度算出手段が算出した類似度に基づいて、上記第２の領域の位置を決定する領域位置決定手段と、
上記第１の領域を含む第１のセグメントと、上記領域位置決定手段により位置が決定された上記第２の領域を含む第２のセグメントとを結合するセグメント結合手段と、
を有し、
上記領域設定手段は、
上記音声データの第１フォルマント周波数に基づいて、上記第１の領域の幅および上記第２の領域の幅を算出する。
本発明の磁気共鳴イメージング装置は、上記の本発明の音声データ処理装置を備えている。

また、本発明の別の音声データ処理装置は、
時間軸を有する音声データに複数のセグメントを設定し、上記複数のセグメントのうちの互いに隣接するセグメントを結合することによって、上記音声データを所定の再生速度で再生される音声再生データに変換する音声データ処理装置であって、
上記音声データに、時間軸方向の異なる位置に第１の領域および第２の領域を設定する領域設定手段と、
上記第１の領域の時間軸方向における位置と、上記第２の領域の時間軸方向における位置とを調整する領域位置調整手段と、
上記第１の領域における音声データと、上記第２の領域における音声データとの類似度を算出するとともに、上記領域位置調整手段により位置が調整された上記第１の領域における音声データと、上記領域位置調整手段により位置が調整された上記第２の領域における音声データとの類似度を算出する類似度算出手段と、
上記類似度算出手段が算出した類似度に基づいて、上記第１の領域および上記第２の領域の位置を決定する領域位置決定手段と、
上記領域位置決定手段により位置が決定された上記第１の領域を含む第１のセグメントと、上記領域位置決定手段により位置が決定された上記第２の領域を含む第２のセグメントとを結合するセグメント結合手段と、
を有し、
上記領域設定手段は、
上記音声データの第１フォルマント周波数に基づいて、上記第１の領域の幅および上記第２の領域の幅を算出する。
本発明の別の磁気共鳴イメージング装置は、上記の本発明の別の音声データ処理装置を備えている。

また、本発明の音声データ処理方法は、
時間軸を有する音声データに複数のセグメントを設定し、上記複数のセグメントのうちの互いに隣接するセグメントを結合することによって、上記音声データを所定の再生速度で再生される音声再生データに変換する音声データ処理方法であって、
上記音声データに、時間軸方向の異なる位置に第１の領域および第２の領域を設定する領域設定ステップと、
上記第２の領域の時間軸方向における位置を調整する領域位置調整ステップと、
上記第１の領域における音声データと、上記第２の領域における音声データとの類似度を算出するとともに、上記第１の領域における音声データと、上記領域位置調整ステップにより位置が調整された上記第２の領域における音声データとの類似度を算出する類似度算出ステップと、
上記類似度算出ステップにより算出された類似度に基づいて、上記第２の領域の位置を決定する領域位置決定ステップと、
上記第１の領域を含む第１のセグメントと、上記領域位置決定ステップにより位置が決定された上記第２の領域を含む第２のセグメントとを結合するセグメント結合ステップと、
を有し、
上記領域設定ステップは、
上記音声データの第１フォルマント周波数に基づいて、上記第１の領域の幅および上記第２の領域の幅を算出する。

また、本発明の別の音声データ処理方法は、
時間軸を有する音声データに複数のセグメントを設定し、上記複数のセグメントのうちの互いに隣接するセグメントを結合することによって、上記音声データを所定の再生速度で再生される音声再生データに変換する音声データ処理方法であって、
上記音声データに、時間軸方向の異なる位置に第１の領域および第２の領域を設定する領域設定ステップと、
上記第１の領域の時間軸方向における位置と、上記第２の領域の時間軸方向における位置とを調整する領域位置調整ステップと、
上記第１の領域における音声データと、上記第２の領域における音声データとの類似度を算出するとともに、上記領域位置調整ステップにより位置が調整された上記第１の領域における音声データと、上記領域位置調整ステップにより位置が調整された上記第２の領域における音声データとの類似度を算出する類似度算出ステップと、
上記類似度算出ステップにより算出された類似度に基づいて、上記第１の領域および上記第２の領域の位置を決定する領域位置決定ステップと、
上記領域位置決定ステップにより位置が決定された上記第１の領域を含む第１のセグメントと、上記領域位置決定ステップにより位置が決定された上記第２の領域を含む第２のセグメントとを結合するセグメント結合ステップと、
を有し、
上記領域設定ステップは、
上記音声データの第１フォルマント周波数に基づいて、上記第１の領域の幅および上記第２の領域の幅を算出する。

また、本発明のプログラムは、
時間軸を有する音声データに複数のセグメントを設定し、上記複数のセグメントのうちの互いに隣接するセグメントを結合することによって、上記音声データを所定の再生速度で再生される音声再生データに変換するためのプログラムであって、
上記音声データに、時間軸方向の異なる位置に第１の領域および第２の領域を設定する領域設定処理であって、上記音声データの第１フォルマント周波数に基づいて、上記第１の領域の幅および上記第２の領域の幅を算出する領域設定処理と、
上記第２の領域の時間軸方向における位置を調整する領域位置調整処理と、
上記第１の領域における音声データと、上記第２の領域における音声データとの類似度を算出するとともに、上記第１の領域における音声データと、上記領域位置調整処理により位置が調整された上記第２の領域における音声データとの類似度を算出する類似度算出処理と、
上記類似度算出処理により算出された類似度に基づいて、上記第２の領域の位置を決定する領域位置決定処理と、
上記第１の領域を含む第１のセグメントと、上記領域位置決定処理により位置が決定された上記第２の領域を含む第２のセグメントとを結合するセグメント結合処理と、
を計算機に実行させるためのプログラムである。

また、本発明の別のプログラムは、
時間軸を有する音声データに複数のセグメントを設定し、上記複数のセグメントのうちの互いに隣接するセグメントを結合することによって、上記音声データを所定の再生速度で再生される音声再生データに変換するためのプログラムであって、
上記音声データに、時間軸方向の異なる位置に第１の領域および第２の領域を設定する領域設定処理であって、上記音声データの第１フォルマント周波数に基づいて、上記第１の領域の幅および上記第２の領域の幅を算出する領域設定処理と、
上記第１の領域の時間軸方向における位置と、上記第２の領域の時間軸方向における位置とを調整する領域位置調整処理と、
上記第１の領域における音声データと、上記第２の領域における音声データとの類似度を算出するとともに、上記領域位置調整処理により位置が調整された上記第１の領域における音声データと、上記領域位置調整処理により位置が調整された上記第２の領域における音声データとの類似度を算出する類似度算出処理と、
上記類似度算出処理により算出された類似度に基づいて、上記第１の領域および上記第２の領域の位置を決定する領域位置決定処理と、
上記領域位置決定処理により位置が決定された上記第１の領域を含む第１のセグメントと、上記領域位置決定処理により位置が決定された上記第２の領域を含む第２のセグメントとを結合するセグメント結合処理と、
を計算機に実行させるためのプログラムである。

本発明では、第１フォルマント周波数に基づいて、第１の領域の幅と第２の領域の幅とを決定している。第１フォルマント周波数は母音の識別に非常に重要な周波数であるので、第１フォルマント周波数に基づいて第１の領域の幅と第２の領域の幅とを決定することによって、母音が識別しやすい音声再生データを得ることができ、再生する音声の音質を向上させることができる。

本発明の一実施形態の磁気共鳴イメージング装置の概略図である。ＭＲＩ装置１が音声データを再生するときの処理フローを示す図である。図２に示す処理フローによって実行されるデータ処理の内容を概略的に示す図である。音声データブロックＥ１の領域ｒ１における周波数特性を概略的に示す図である。図２に示す処理フローによって実行されるデータ処理の内容を概略的に示す図である。ステップＳ１１およびＳ１２において算出された類似度ＳＩＭを示す図である。図２に示す処理フローによって実行されるデータ処理の内容を概略的に示す図である。図２に示す処理フローによって実行されるデータ処理の内容を概略的に示す図である。図２に示す処理フローによって実行されるデータ処理の内容を概略的に示す図である。図２に示す処理フローによって実行されるデータ処理の内容を概略的に示す図である。第１の領域ＲＢｉおよび第２の領域ＲＡi+1のオーバーラップ量の変形例である。

以下、本発明の実施形態について説明するが、本発明は、以下の実施形態に限定されることはない。

図１は、本発明の一実施形態の磁気共鳴イメージング装置の概略図である。

磁気共鳴イメージング装置（以下、ＭＲＩ（Magnetic Resonance Imaging）装置と呼ぶ）１は、コイルアセンブリ２と、テーブル３と、受信コイル４と、制御装置５と、入力装置６と、表示装置７とを有している。

コイルアセンブリ２は、被検体８が収容されるボア２１と、超伝導コイル２２と、勾配コイル２３と、送信コイル２４とを有している。超伝導コイル２２は静磁場Ｂ0を印加し、勾配コイル２３は勾配パルスを印加し、送信コイル２４はＲＦパルスを送信する。

テーブル３は、クレードル３１を有している。クレードル３１は、ｚ方向および−ｚ方向に移動するように構成されている。クレードル３１がｚ方向に移動することによって、被検体８がボア２１に搬送される。クレードル３１が−ｚ方向に移動することによって、ボア２１に搬送された被検体８は、ボア２１から搬出される。

受信コイル４は、被検体８の頭部に取り付けられている。受信コイル４が受信したＭＲ（Magnetic
Resonance）信号は、制御装置５に伝送される。

制御装置５は、コイル制御手段５１〜領域位置決定手段６２を有している。

コイル制御手段５１は、パルスシーケンスが実行されるように、勾配コイル２３および送信コイル２４を制御する。

信号処理手段５２は、受信コイル４が受信したＭＲ信号を処理する。

記憶部５３は、音声データＤ（図３（ａ）参照）を記憶する。記憶部５３は、例えば、ハードディスクやリームーバブルディスクである。

音声データ読出手段５４は、記憶部５３に記憶されている音声データＤを読み出す。

再生時間設定手段５５は、コイル制御手段５１から、被検体を撮影するときに使用されるパルスシーケンスの情報を受け取り、この情報に基づいて、音声データＤの再生時間Ｔを設定する。

再生速度倍率算出手段５６は、音声データＤの再生速度の倍率Ｖを算出する。

音声データブロック設定手段５７は、音声データＤに対して音声データブロックを設定する（図３（ｂ）参照）。

第１フォルマント周波数算出手段５８は、音声データブロックＥｉの周波数特性を解析して、周波数特性にピークが現れるときの周波数を検出し、検出した周波数の中から一番低い周波数である第１フォルマント周波数Ｆｉを算出する。

領域設定手段５９は、音声データＤに、第１フォルマント周波数Ｆｉに基づいて、時間軸方向の異なる位置に第１の領域ＲＢｉおよび第２の領域ＲＡi+1を設定する。また、領域設定手段５９は、音声データブロックＥ１に領域Ｒ１を設定する（図３（ｃ）参照）。更に、領域設定手段５９は領域ＲＣi+1を設定する（例えば図７（ｋ）参照）。

領域位置調整手段６０は、第２の領域ＲＡi+1の位置を、最初に設定された初期位置とは異なる別の位置に調整する。

類似度算出手段６１は、第１の領域ＲＢｉにおける音声データと、第２の領域ＲＡi+1における音声データとの類似度ＳＩＭを算出する。また、第１の領域ＲＢ１に含まれる音声データと、別の位置に調整された第２の領域ＲＡ２に含まれる音声データとの類似度ＳＩＭを算出する。

領域位置決定手段６２は、類似度ＳＩＭの値に基づいて、第２の領域ＲＡi+1の位置を決定する。

セグメント結合手段６３は、互いに隣接するセグメントＳｉおよびＳi+1を結合する。

尚、コイル制御手段５１〜セグメント結合手段６３は、各手段を実行するためのプログラムを制御装置５にインストールすることにより実現されている。ただし、プログラムを用いずに、ハードウェアのみで実現してもよい。制御装置５に含まれる記憶部５３〜セグメント結合手段６３が、本発明の一実施形態の音声データ処理装置に相当する。

入力装置６は、オペレータ９の操作に応じて、種々の命令を制御装置５に入力する。

表示装置７は、種々の情報を表示する。

ＭＲＩ装置１は、上記のように構成されている。次に、上記のように構成されたＭＲＩ装置１の動作について説明する。

図２は、ＭＲＩ装置１が音声データを再生するときの処理フローを示す図、図３〜図１０は、図２に示す処理フローによって実行されるデータ処理の内容を概略的に示す図である。

以下の処理フローでは、被検体に息止めを指示する場合の動作について説明する。

ステップＳ１では、音声データ読出手段５４が、記憶部５３に記憶されている音声データを読み出す（図３（ａ）参照）。

図３（ａ）は、読み出された音声データＤを概略的に示す図である。

音声データＤの再生時間Ｔは、音声データＤが標準の再生速度で再生された場合、Ｔ＝Ｔｓである。Ｔｓは、例えば１０秒である。音声データＤは、例えば、呼吸指示（被検体に対して息を吸う指示、息止めの指示、息を吐く指示など）を表すものである。音声データＤを読み出した後、ステップＳ２に進む。

ステップＳ２では、再生時間設定手段５５が、音声データＤの再生時間を設定する。

本実施形態では、再生時間設定手段５５は、コイル制御手段５１から、被検体を撮影するときに使用されるパルスシーケンスの情報を受け取り、この情報に基づいて、音声データＤの再生時間Ｔを設定する。本実施形態では、再生時間設定手段５５は、再生時間Ｔ＝Ｔｅに設定する。Ｔｅは、例えば５秒である。再生時間Ｔ＝Ｔｅを設定した後、ステップＳ３に進む。

ステップＳ３では、再生速度倍率算出手段５６が、音声データＤの再生時間Ｔを、Ｔ＝Ｔｓ（標準の再生速度で再生されるときの再生時間）からＴ＝Ｔｅ（ステップＳ２で設定された再生時間）に変更するために必要な再生速度の倍率Ｖを算出する。再生速度の倍率Ｖは、以下の式（１）で表される。
Ｖ＝Ｔｓ／Ｔｅ・・・（１）

再生速度倍率算出手段５６は、式（１）に従って再生速度倍率Ｖを算出する。例えば、Ｔｓ＝１０秒、Ｔｅ＝５秒の場合、再生速度倍率Ｖ＝２である。本実施形態では、Ｖ＝Ｖ１であるとする。尚、以下の説明では、Ｖ１＞１の場合（即ち、音声データＤを、標準の再生速度で再生されるときの再生時間Ｔｓよりも短い時間で再生する場合）について説明する。しかし、本発明は、Ｖ１＜１（即ち、音声データＤを、標準の再生速度で再生されるときの再生時間Ｔｓよりも長い時間で再生する場合）にも適用することができる。再生速度倍率Ｖ＝Ｖ１を算出した後、ステップＳ４に進む。

ステップＳ４では、音声データブロック設定手段５７が、音声データＤに対して音声データブロックを設定する（図３（ｂ）参照）。

図３（ｂ）は、音声データブロックが設定された後の音声データＤを示す図である。

音声データブロック設定手段５７は、図３（ｂ）に示すように、音声データＤを等しい時間間隔で区画することによって、ｎ個の音声データブロックＥ１〜Ｅｎを設定する。図３（ｂ）には、代表して、５つの音声データブロックＥ１、Ｅ２、Ｅ３、Ｅn-1、およびＥｎが具体的に示されている。

本実施形態では、音声データＤは、複数の音声データブロックＥ１〜Ｅｎの時間軸ｔにおける長さ（時間長）Ｔｂが互いに同じ値になるように区画される。したがって、音声データＤを標準の再生速度で再生するときの再生時間Ｔｓは、音声データブロックＥ１〜Ｅｎの時間長Ｔｂを用いて、以下の式で表される。
Ｔｓ＝ｎ×Ｔｂ・・・（２）

尚、本実施形態では、音声データブロックＥ１〜Ｅｎの時間長Ｔｂは、再生速度倍率Ｖ＝Ｖ１を用いて、以下の式（３）で表される。
Ｔｂ＝Ｔｘ×Ｖ１・・・（３）
Ｔｘ：定数

したがって、式（３）を式（２）に代入すると、Ｔｓは、以下のように変形される。
Ｔｓ＝ｎ×Ｔｂ
＝ｎ×（Ｔｘ×Ｖ１）・・・（４）

複数の音声データブロックＥ１〜Ｅｎを設定した後、ステップＳ５に進む。

ステップＳ５では、ステップＳ６〜Ｓ１８の説明で使用される符号「Ｅｉ」、「Ｅi+1」「ＲＡi+1」、「ＲＢｉ」、「ＲＣi+1」、「ＷＡi+1」、「ＷＢｉ」、「Ｆｉ」、「Ｓｉ」、および「Ｓi+1」の添え字に使用されているパラメータｉを、ｉ＝１に初期化する。尚、各符号「Ｅｉ」、「Ｅi+1」「ＲＡi+1」、「ＲＢｉ」、「ＲＣi+1」、「ＷＡi+1」、「ＷＢｉ」、「Ｆｉ」、「Ｓｉ」、および「Ｓi+1」が表す内容については、ステップＳ６〜Ｓ１８の中で後述する。パラメータｉを初期化した後、ステップＳ６に進む。

ステップＳ６では、領域設定手段５９（図１参照）が、音声データブロックＥ１に、領域Ｒ１を設定する（図３（ｃ）参照）。

図３（ｃ）は、音声データブロックＥ１に設定された領域Ｒ１を示す図である。

領域Ｒ１は、時間長Ｔｘを有するように設定される。領域Ｒ１を設定した後、ステップＳ７に進む。

ステップＳ７では、第１フォルマント周波数算出手段５８（図１参照）が、音声データブロックＥｉの周波数特性を解析して、周波数特性にピークが現れるときの周波数を検出し、検出した周波数の中から一番低い周波数である第１フォルマント周波数Ｆｉを算出する。第１フォルマント周波数Ｆｉは、後述するステップＳ８において第１の領域ＲＢｉの幅を算出するために使用される値である。

本実施形態では、ステップＳ５において、パラメータｉがｉ＝１に初期化されているので、第１フォルマント周波数算出手段５８は、先ず、音声データブロックＥ１における周波数特性を解析し、音声データブロックＥ１における第１フォルマント周波数Ｆ１を算出する。ただし、音声データブロックＥ１における第１フォルマント周波数Ｆ１を算出する場合、領域Ｒ１における周波数特性は解析せずに、領域Ｒ１の右側に位置する領域ｒ１（図３（ｃ）参照）における周波数特性のみを解析し、第１フォルマント周波数Ｆ１を算出する。

図４は、音声データブロックＥ１の領域ｒ１における周波数特性を概略的に示す図である。

第１フォルマント周波数算出手段５８は、周波数特性の解析結果から、音声データブロックＥ１の領域ｒ１における第１フォルマント周波数Ｆ１を算出する。第１フォルマント周波数Ｆ１を算出した後、ステップＳ８に進む。

ステップＳ８では、領域設定手段５９が、ステップＳ７で算出した第１フォルマント周波数Ｆｉに基づいて、音声データＤの中に、第１の領域ＲＢｉを設定する。本実施形態では、ステップＳ５において、パラメータｉがｉ＝１に初期化されているので、領域設定手段５９は、第１の領域ＲＢ１を設定する（図３（ｄ）参照）。

図３（ｄ）は、第１の領域ＲＢ１を示す図である。

第１の領域ＲＢ１は、領域Ｒ１に隣接するように設定される。尚、本実施形態では、第１の領域ＲＢｉの幅ＷＢｉは、ステップＳ７で算出した第１フォルマント周波数Ｆｉを用いた以下の式（５）によって算出される。
ＷＢｉ＝ｋ／Ｆｉ・・・（５）
ｋ：定数

したがって、第１の領域ＲＢ１の幅ＷＢ１は、ＷＢ１＝ｋ／Ｆ１となる。尚、本実施形態では、定数ｋ＝２に設定されている。しかし、定数ｋの値は、必ずしもｋ＝２である必要はなく、必要に応じて、別の値を採用してもよい。本実施形態において、第１フォルマント周波数Ｆｉを含む式（５）を用いて第１の領域ＲＢｉの幅ＷＢｉを算出する理由については後述する。

図３（ｄ）に示すように、第１の領域ＲＢ１を設定することによって、音声データブロックＥ１に対応するセグメントＳ１が得られる。セグメントＳ１は、領域Ｒ１およびＲＢ１によって構成されている。

第１の領域ＲＢ１を設定した後、ステップＳ９に進む。

ステップＳ９では、領域設定手段５９が、ステップＳ８において設定された第１の領域ＲＢｉが、第１の領域ＲＢ１（ｉ＝１）であるか否かを判断する。ステップＳ８において設定された第１の領域ＲＢｉが第１の領域ＲＢ１（ｉ＝１）ではないと判断された場合、ステップＳ１７に進む。一方、ステップＳ８において設定された第１の領域ＲＢｉが第１の領域ＲＢ１（ｉ＝１）であると判断した場合、ステップＳ１０に進む。図３（ｄ）に示すように、ステップＳ８において設定された第１の領域ＲＢｉは、第１の領域ＲＢ１（ｉ＝１）である。したがって、領域設定手段５９は、ステップＳ８において設定された第１の領域ＲＢｉは、第１の領域ＲＢ１（ｉ＝１）であると判断し、ステップＳ１０に進む。

ステップＳ１０では、領域設定手段５９が、音声データブロックＥi+1に第２の領域ＲＡi+1を設定する。パラメータｉは、ｉ＝１であるので、領域設定手段５９は、音声データブロックＥ２に第２の領域ＲＡ２を設定する（図５（ｅ）参照）。

図５（ｅ）は、音声データブロックＥ２に設定された第２の領域ＲＡ２を示す図である。設定する（図５（ｅ）参照）。

第２の領域ＲＡ２は、第２の領域ＲＡ２の始端が、音声データブロックＥ２の始端に一致するように設定される。尚、本実施形態では、第２の領域ＲＡi+1の幅ＷＡi+1は、以下の式（６）によって算出される。
ＷＡi+1＝ＷＢｉ
＝ｋ／Ｆｉ・・・（６）

式（６）に示すように、第２の領域ＲＡi+1の幅ＷＡi+1は、第１の領域ＲＢｉの幅ＷＢｉと同じ値に設定される。したがって、第２の領域ＲＡ２の幅ＷＡ２は、第１の領域ＲＢ１の幅ＷＢ１と同じ値に設定される。本実施形態において、第１フォルマント周波数Ｆｉを含む式（６）を用いて第２の領域ＲＡi+1の幅ＷＡi+1を算出する理由については後述する。

第２の領域ＲＡ２を設定した後、ステップＳ１１に進む。

ステップＳ１１では、類似度算出手段６１（図１参照）が、第１の領域ＲＢｉにおける音声データと、第２の領域ＲＡi+1における音声データとの類似度ＳＩＭを算出する。類似度は、例えば、第１の領域ＲＢｉに含まれる音声データと、第２の領域ＲＡi+1に含まれる音声データとの間の相関を表す相互相関関数を用いて計算される値である。

図５（ｅ）を参照すると、第１の領域ＲＢ１および第２の領域ＲＡ２が設定されているので、類似度算出手段６１（図１参照）は、先ず、第１の領域ＲＢ１における音声データと、第２の領域ＲＡ２における音声データとの類似度ＳＩＭを算出する。

類似度ＳＩＭを算出した後、ステップＳ１２に進む。

ステップＳ１２では、領域位置調整手段６０（図１参照）が、第２の領域ＲＡi+1の位置を、最初に設定された初期位置とは異なる別の位置に調整する。その後、類似度算出手段６１が、第１の領域ＲＢｉにおける音声データと、別の位置に調整された第２の領域ＲＡi+1における音声データとの類似度ＳＩＭを算出する。パラメータｉは、ｉ＝１であるので、領域位置調整手段６０は、第２の領域ＲＡ２の位置を初期位置とは異なる別の位置に調整し、その後、類似度算出手段６１が、第１の領域ＲＢ１における音声データと、別の位置に調整された第２の領域ＲＡ２における音声データとの類似度ＳＩＭを算出する（図５（ｆ）〜（ｉ）参照）。

図５（ｆ）〜（ｉ）は、第２の領域ＲＡ２を、図５（ｅ）に示す初期位置とは異なる別の位置に調整した様子を示す図である。

図５（ｆ）〜（ｉ）は、領域位置調整手段６０が、第２の領域ＲＡ２の位置を、図５（ｄ）に示す初期位置に対して、−Δｔ1、−Δｔ2、＋Δｔ3、および＋Δｔ4だけずれた位置に調整された様子を示している。領域位置調整手段６０が、図５（ｆ）〜（ｉ）に示すように、第２の領域ＲＡ２の位置を別の位置に調整した後、類似度算出手段６１は、第１の領域ＲＢ１に含まれる音声データと、別の位置に調整された第２の領域ＲＡ２に含まれる音声データとの類似度ＳＩＭを算出する。

図６は、ステップＳ１１およびＳ１２において算出された類似度ＳＩＭを示す図である。

図６に示すように、類似度ＳＩＭは、第２の領域ＲＡ２の位置に応じて、ＳＩＭ２、ＳＩＭ２１、ＳＩＭ２２、ＳＩＭ２３、およびＳＩＭ２４となる。類似度ＳＩＭ２は、第２の領域ＲＡ２が初期位置（図５（ｅ）参照）に位置している場合の類似度である。一方、類似度ＳＩＭ２１、ＳＩＭ２２、ＳＩＭ２３、およびＳＩＭ２４は、第２の領域ＲＡ２が初期位置（図５（ｅ）参照）から−Δｔ1、−Δｔ2、＋Δｔ3、および＋Δｔ4だけずれた場合の類似度である。これらの類似度ＳＩＭを算出した後、ステップＳ１３に進む。

ステップＳ１３では、領域位置決定手段６２（図１参照）が、類似度ＳＩＭの値が最大となるときの第２の領域ＲＡi+1の位置を決定する。パラメータｉは、ｉ＝１であるので、領域位置決定手段６２は、類似度ＳＩＭの値が最大となるときの第２の領域ＲＡ２の位置を決定する。第２の領域ＲＡ２を決定する場合、領域位置決定手段６２は、図５（ｆ）〜（ｉ）の中から、類似度ＳＩＭの値が最大となるときの第２の領域ＲＡ２の位置を決定する。本実施形態では、図６に示す類似度ＳＩＭの値のうち、ＳＩＭ２１が最大であるとする。したがって、領域位置決定手段６２は、図５（ｆ）に示される第２の領域ＲＡ２の位置を、類似度ＳＩＭの値が最大となるときの第２の領域ＲＡ２の位置と決定する（図７（ｊ）参照）。

図７（ｊ）は、類似度ＳＩＭの値が最大（ＳＩＭ２１）となるときの第２の領域ＲＡ２の位置を示す図である。

第２の領域ＲＡ２の位置を決定した後、ステップＳ１４に進む。

ステップＳ１４では、領域設定手段５９が、第２の領域ＲＡi+1に隣接する領域ＲＣi+1を設定する。パラメータｉは、ｉ＝１であるので、領域設定手段５９は、第２の領域ＲＡ２に隣接する領域ＲＣ２を設定する（図７（ｋ）参照）。

図７（ｋ）は、第２の領域ＲＡ２に隣接するように設定された領域ＲＣ２を示す図である。

領域設定手段５９は、第２の領域ＲＡi+1の時間長ＷＡi+1と、領域ＲＣi+1の時間長ＷＣi+1との合計が、時間長Ｔｘになるように、領域ＲＣi+1を設定する。したがって、第２の領域ＲＡ２の時間長ＷＡ２と、領域ＲＣ２の時間長ＷＣ２との合計は、時間長Ｔｘになる。領域ＲＣ２を設定した後、ステップＳ１５に進む。

ステップＳ１５では、領域設定手段５９が、ステップＳ１４において設定された領域ＲＣi+1が、領域ＲＣｎ（図１０（ｙ）参照）であるか否かを判断する。領域設定手段５９が、ステップＳ６において設定された領域ＲＣi+1が領域ＲＣｎではないと判断した場合、ステップＳ１６に進む。一方、領域設定手段５９が、ステップＳ１４において設定された領域ＲＣi+1が領域ＲＣｎであると判断した場合、ステップＳ１７に進む。図７（ｋ）に示すように、ステップＳ１４において設定された領域ＲＣi+1は、領域ＲＣ２である。したがって、領域設定手段５９は、ステップＳ１４において設定された領域ＲＣi+1は領域ＲＣｎではないと判断し、ステップＳ１６に進む。

ステップＳ１６では、パラメータｉをインクリメントする。パラメータｉはｉ＝１に初期化されていたので、ステップＳ１６を実行することによって、ｉ＝２に設定される。パラメータｉをインクリメントした後、ステップＳ７に戻る。

ステップＳ７では、第１フォルマント周波数算出手段５８（図１参照）が、音声データブロックＥｉにおける周波数特性を解析し、第１フォルマント周波数Ｆｉを算出する。パラメータｉは、ｉ＝２であるので、第１フォルマント周波数算出手段５８は、音声データブロックＥ２における周波数特性を解析し、第１フォルマント周波数Ｆ２を算出する。ただし、音声データブロックＥ２における第１フォルマント周波数Ｆ２を算出する場合、領域ＲＡ２およびＲＣ２における周波数特性は解析せずに、領域ＲＣ２の右側の領域ｒ２における周波数特性のみを解析し、第１フォルマント周波数Ｆ２を算出する。音声データブロックＥ２の領域ｒ２における第１フォルマント周波数Ｆ２を算出した後、ステップＳ８に進む。

ステップＳ８では、領域設定手段５９が、ステップＳ７で算出した第１フォルマント周波数Ｆｉに基づいて、音声データＤの中に、第１の領域ＲＢｉを設定する。パラメータｉは、ｉ＝２であるので、領域設定手段５９は、ステップＳ７で算出した第１フォルマント周波数Ｆ２に基づいて、音声データＤの中に、第１の領域ＲＢ２を設定する（図７（ｍ）参照）。

図７（ｍ）は、第１の領域ＲＢ２を示す図である。

第１の領域ＲＢ２は、領域ＲＣ２に隣接するように設定される。第１の領域ＲＢ２の幅ＷＢ２は、上述した式（５）を用いて、ＷＢ２＝ｋ／Ｆ２となる。

第１の領域ＲＢ２を設定することによって、音声データブロックＥ２に対応するセグメントＳ２が得られる。セグメントＳ２は、領域ＲＡ２、ＲＣ２、およびＲＢ２によって構成されている。

第１の領域ＲＢ２を設定した後、ステップＳ９に進む。

ステップＳ９では、領域設定手段５９が、ステップＳ８において設定された第１の領域ＲＢｉが、第１の領域ＲＢ１（ｉ＝１）であるか否かを判断する。図７（ｍ）に示すように、ステップＳ８において設定された領域ＲＢｉは、領域ＲＢ２である。したがって、領域設定手段５９は、ステップＳ８において設定された領域ＲＢｉは、領域ＲＢ１ではないと判断し、ステップＳ１７に進む。

ステップＳ１７では、セグメント結合手段６３（図１参照）が、互いに隣接するセグメントＳｉおよびＳi+1を結合する。パラメータｉは、ｉ＝１であるので、セグメント結合手段６３は、セグメントＳ１およびＳ２を結合する（図７（ｎ）参照）。

図７（ｎ）は、結合された２つのセグメントＳ１およびＳ２を示す図である。

本実施形態では、セグメントＳｉおよびＳi+1は、セグメントＳｉの第１の領域ＲＢｉと、セグメントＳi+1の第２の領域ＲＡi+1とがオーバーラップするように結合される。したがって、セグメントＳ１およびＳ２は、セグメントＳ１の第１の領域ＲＢ１と、セグメントＳ２の第２の領域ＲＡ２とがオーバーラップするように結合される。セグメントＳ１およびＳ２を結合した後、ステップＳ１８に進む。

ステップＳ１８では、セグメント結合手段６３が、最後の音声データブロックＥｎに対応するセグメントＳｎ（図１０（ｚ）参照）の結合が終了しているか否かを判断する。最後の音声データブロックＥｎに対応するセグメントＳｎの結合が終了していると判断された場合、図２に示すフローは終了する。一方、最後の音声データブロックＥｎに対応するセグメントＳｎの結合が終了していないと判断された場合、ステップＳ１０に戻る。図７（ｎ）を参照すると、音声データブロックＥ２に対応するセグメントＳ２の結合は終了しているが、最後の音声データブロックＥｎに対応するセグメントＳｎの結合は終了していない。したがって、ステップＳ１０に戻る。

ステップＳ１０では、領域設定手段５９が、音声データブロックＥi+1に第２の領域ＲＡi+1を設定する。パラメータｉは、ｉ＝２であるので、領域設定手段５９は、音声データブロックＥ３に第２の領域ＲＡ３を設定する（図８（ｏ）参照）。

図８（ｏ）は、音声データブロックＥ３に設定された第２の領域ＲＡ３を示す図である。設定する（図５（ｅ）参照）。

第２の領域ＲＡ３は、第２の領域ＲＡ３の始端が、音声データブロックＥ３の始端に一致するように設定される。第２の領域ＲＡ３の幅ＷＡ３は、式（６）を用いて、ＷＡ３＝ＷＢ２＝ｋ／Ｆ２となる。第２の領域ＲＡ３を設定した後、ステップＳ１１に進む。

ステップＳ１１では、類似度算出手段６１（図１参照）が、第１の領域ＲＢｉにおける音声データと、第２の領域ＲＡi+1における音声データとの類似度ＳＩＭを算出する。パラメータｉは、ｉ＝２であるので、類似度算出手段６１（図１参照）は、第１の領域ＲＢ２における音声データと、第２の領域ＲＡ３における音声データとの類似度ＳＩＭを算出する。

類似度ＳＩＭを算出した後、ステップＳ１２に進む。

ステップＳ１２では、領域位置調整手段６０（図１参照）が、第２の領域ＲＡi+1の位置を、最初に設定された初期位置とは異なる別の位置に調整する。その後、類似度算出手段６１が、第１の領域ＲＢｉにおける音声データと、別の位置に調整された第２の領域ＲＡi+1における音声データとの類似度ＳＩＭを算出する。パラメータｉは、ｉ＝２であるので、領域位置調整手段６０は、第２の領域ＲＡ３の位置を初期位置とは異なる別の位置に調整し、その後、類似度算出手段６１が、第１の領域ＲＢ２における音声データと、別の位置に調整された第２の領域ＲＡ３における音声データとの類似度ＳＩＭを算出する（図８（ｐ）〜（ｓ）参照）。

図８（ｐ）〜（ｓ）は、第２の領域ＲＡ３を、図８（ｏ）に示す初期位置とは異なる別の位置に調整した様子を示す図である。

図８（ｐ）〜（ｓ）は、領域位置調整手段６０が、第２の領域ＲＡ３の位置を、図８（ｏ）に示す初期位置に対して、−Δｔ1、−Δｔ2、＋Δｔ3、および＋Δｔ4だけずれた位置に調整された様子を示している。領域位置調整手段６０が、図８（ｐ）〜（ｓ）に示すように、第２の領域ＲＡ３の位置を別の位置に調整した後、類似度算出手段６１は、第１の領域ＲＢ２に含まれる音声データと、別の位置に調整された第２の領域ＲＡ３に含まれる音声データとの類似度ＳＩＭを算出する。これらの類似度ＳＩＭを算出した後、ステップＳ１３に進む。

ステップＳ１３では、領域位置決定手段６２（図１参照）が、図８（ｏ）〜（ｓ）の中から、類似度ＳＩＭの値が最大となるときの類似度算出用領域ＲＡ３の位置を決定する。本実施形態では、類似度算出用領域ＲＡ３が、図８（ｒ）に示される位置に存在しているときに、類似度ＳＩＭが最大になるとする。したがって、領域位置決定手段６２は、図８（ｒ）に示される類似度算出用領域ＲＡ３の位置を、類似度ＳＩＭの値が最大となるときの類似度算出用領域ＲＡ３の位置と決定する（図９（ｔ）参照）。

図９（ｔ）は、類似度ＳＩＭの値が最大となるときの第２の領域ＲＡ３の位置を示す図である。

第２の領域ＲＡ３の位置を決定した後、ステップＳ１４に進む。

ステップＳ１４では、領域設定手段５９が、第２の領域ＲＡi+1に隣接する領域ＲＣi+1を設定する。パラメータｉは、ｉ＝２であるので、領域設定手段５９は、第２の領域ＲＡ３に隣接する領域ＲＣ３を設定する（図９（ｕ）参照）。

図９（ｕ）は、第２の領域ＲＡ３に隣接するように設定された領域ＲＣ３を示す図である。

領域設定手段５９は、第２の領域ＲＡi+1の時間長ＷＡi+1と、領域ＲＣi+1の時間長ＷＣi+1との合計が、時間長Ｔｘになるように、領域ＲＣi+1を設定する。したがって、第２の領域ＲＡ３の時間長ＷＡ３と、領域ＲＣ３の時間長ＷＣ３との合計は、時間長Ｔｘになる。領域ＲＣ３を設定した後、ステップＳ１５に進む。

ステップＳ１５では、領域設定手段５９が、ステップＳ１４において設定された領域ＲＣi+1が、領域ＲＣｎ（図１０（ｙ）参照）であるか否かを判断する。図９（ｕ）に示すように、ステップＳ１４において設定された領域ＲＣi+1は、領域ＲＣ３である。したがって、領域設定手段５９は、ステップＳ１４において設定された領域ＲＣi+1は領域ＲＣｎではないと判断し、ステップＳ１６に進む。

ステップＳ１６では、パラメータｉをインクリメントする。パラメータｉはｉ＝２に設定されていたので、ステップＳ１６を実行することによって、ｉ＝３に設定される。パラメータｉをインクリメントした後、ステップＳ７に戻る。

ステップＳ７では、第１フォルマント周波数算出手段５８（図１参照）が、音声データブロックＥｉにおける周波数特性を解析し、第１フォルマント周波数Ｆｉを算出する。パラメータｉは、ｉ＝３であるので、第１フォルマント周波数算出手段５８は、音声データブロックＥ３における周波数特性を解析し、第１フォルマント周波数Ｆ３を算出する。ただし、音声データブロックＥ３における第１フォルマント周波数Ｆ２を算出する場合、領域ＲＡ３およびＲＣ３における周波数特性は解析せずに、領域ＲＣ３の右側の領域ｒ３における周波数特性のみを解析し、第１フォルマント周波数Ｆ３を算出する。音声データブロックＥ３の領域ｒ３における第１フォルマント周波数Ｆ３を算出した後、ステップＳ８に進む。

ステップＳ８では、領域設定手段５９が、ステップＳ７で算出した第１フォルマント周波数Ｆｉに基づいて、音声データＤの中に、第１の領域ＲＢｉを設定する。パラメータｉは、ｉ＝３であるので、領域設定手段５９は、ステップＳ７で算出した第１フォルマント周波数Ｆ３に基づいて、音声データＤの中に、第１の領域ＲＢ３を設定する（図９（ｖ）参照）。

図９（ｖ）は、第１の領域ＲＢ３を示す図である。

第１の領域ＲＢ３は、領域ＲＣ３に隣接するように設定される。第１の領域ＲＢ３の幅ＷＢ３は、上述した式（５）を用いて、ＷＢ３＝ｋ／Ｆ３となる。

第１の領域ＲＢ３を設定することによって、音声データブロックＥ３に対応するセグメントＳ３が得られる。セグメントＳ３は、領域ＲＡ３、ＲＣ３、およびＲＢ３によって構成されている。

第１の領域ＲＢ３を設定した後、ステップＳ９に進む。

ステップＳ９では、領域設定手段５９が、ステップＳ８において設定された第１の領域ＲＢｉが、第１の領域ＲＢ１（ｉ＝１）であるか否かを判断する。図９（ｖ）に示すように、ステップＳ８において設定された領域ＲＢｉは、領域ＲＢ３である。したがって、領域設定手段５９は、ステップＳ８において設定された領域ＲＢｉは、領域ＲＢ１ではないと判断し、ステップＳ１７に進む。

ステップＳ１７では、セグメント結合手段６３（図１参照）が、互いに隣接するセグメントＳｉおよびＳi+1を結合する。パラメータｉは、ｉ＝２であるので、セグメント結合手段６３は、セグメントＳ２にセグメントＳ３を結合する（図９（ｗ）参照）。

図９（ｗ）は、セグメントＳ２にセグメントＳ３が結合された様子を示す図である。

本実施形態では、セグメントＳｉおよびＳi+1は、セグメントＳｉの第１の領域ＲＢｉと、セグメントＳi+1の第２の領域ＲＡi+1とがオーバーラップするように結合される。したがって、セグメントＳ３は、セグメントＳ２に対して、セグメントＳ２の第１の領域ＲＢ２と、セグメントＳ３の第２の領域ＲＡ３とがオーバーラップするように結合される。セグメントＳ２にセグメントＳ３を結合した後、ステップＳ１８に進む。

ステップＳ１８では、セグメント結合手段６３が、最後の音声データブロックＥｎに対応するセグメントＳｎ（図１０（ｚ）参照）の結合が終了しているか否かを判断する。図９（ｗ）を参照すると、音声データブロックＥ３に対応するセグメントＳ３の結合は終了しているが、最後の音声データブロックＥｎに対応するセグメントＳｎの結合は終了していない。したがって、ステップＳ１０に戻る。

ステップＳ１０に戻ると、同様の手順で、ステップＳ１０〜Ｓ１６が実行される。パラメータｉは、ｉ＝３であるので、ステップＳ１０〜Ｓ１６を実行することによって、音声データブロックＥ４に領域ＲＡ４およびＲＣ４が設定される（図示せず）。ステップＳ１６においてパラメータｉがインクリメントされると、ステップＳ７に戻る。

ステップＳ７に戻ると、以下同様の手順で、ステップＳ７〜Ｓ１８が繰り返し実行される。この結果、ステップＳ１７に進むたびに、音声データブロックに対応するセグメントが順次結合される。

図１０（ｘ）は、音声データブロックＥn-1に対応するセグメントＳn-1が結合された様子を示す図である。

ステップＳ１７においてセグメントＳn-1が結合された後、ステップＳ１８に進む。

ステップＳ１８では、セグメント結合手段６３が、最後の音声データブロックＥｎに対応するセグメントＳｎ（図１０（ｚ）参照）の結合が終了しているか否かを判断する。図１０（ｘ）を参照すると、音声データブロックＥn-1に対応するセグメントＳn-1の結合は終了しているが、最後の音声データブロックＥｎに対応するセグメントＳｎの結合は終了していない。したがって、ステップＳ１０に戻る。

ステップＳ１０に戻ると、ステップＳ１０〜Ｓ１４が実行されることによって、最後の音声データブロックＥｎに領域ＲＡｎおよびＲＣｎが設定される（図１０（ｙ）参照）。

図１０（ｙ）は、音声データブロックＥｎに設定された領域ＲＡｎおよびＲＣｎを示す図である。

ステップＳ１４において、領域ＲＣｎが設定された後、ステップＳ１５に進む。

ステップＳ１５では、領域設定手段５９が、ステップＳ１４において設定された領域ＲＣi+1が、領域ＲＣｎであるか否かを判断する。図１０（ｙ）に示すように、ステップＳ１４において設定された領域ＲＣi+1は、領域ＲＣｎである。したがって、領域設定手段５９は、ステップＳ１４において設定された領域ＲＣi+1は領域ＲＣｎであると判断し、ステップＳ１７に進む。尚、最後の音声データブロックＥｎに対応するセグメントＳｎは、領域ＲＡｎおよびＲＣｎによって構成される。

ステップＳ１７では、セグメント結合手段６３（図１参照）が、セグメントＳn-1に、セグメントＳｎを結合する（図１０（ｚ）参照）。図１０（ｚ）に示す結合されたセグメントＳ１〜Ｓｎが、音声再生データＤＢとして使用される。セグメントＳn-1にセグメントＳｎを結合した後、ステップＳ１８に進む。

ステップＳ１８では、セグメント結合手段６３が、最後の音声データブロックＥｎに対応するセグメントＳｎの結合が終了しているか否かを判断する。図１０（ｚ）を参照すると、音声データブロックＥn-1に対応するセグメントＳn-1の結合が終了しているので、図２に示すフローを終了する。

図１０（ｚ）に示す音声再生データＤＢの再生速度Ｔｅは、以下の式（７）で表される。
Ｔｅ＝ｎ×Ｔｘ・・・（７）

式（７）および式（４）を、式（１）に代入すると、式（１）は、以下のように表される。
Ｖ＝Ｔｓ／Ｔｅ
＝ｎ×（Ｔｘ×Ｖ１）／ｎ×Ｔｘ
＝Ｖ１・・・（８）

式（８）を参照すると、Ｖ＝Ｖ１であるので、ステップＳ３で設定した再生速度の倍率Ｖ＝Ｖ１に一致していることがわかる。したがって、音声再生データＤＢは、ステップＳ３で設定した再生速度の倍率Ｖ＝Ｖ１に従って再生されることがわかる。

本実施形態では、第１の領域ＲＢｉに対して第２の領域ＲＡi+1の位置を別の位置に調整しながら、類似度ＳＩＭを算出し、類似度ＳＩＭが最大となるときの第２の領域ＲＡi+1の位置を決定している。第１の領域ＲＢｉの幅ＷＢｉおよび第２の領域ＲＡi+1の幅ＷＡi+1を計算するために用いられる式（５）および（２）は、第１フォルマント周波数Ｆｉを用いた式（６）によって計算される。第１フォルマント周波数は母音の識別に重要な周波数であるので、第１フォルマント周波数を用いた式（５）および（２）を使って第１の領域ＲＢｉの幅ＷＢｉと第２の領域ＲＡi+1の幅ＷＡi+1とを決定し、類似度ＳＩＭの値が大きくなる位置を第２の領域ＲＡi+1の位置として決定することによって、母音が識別しやすい音声再生データＤＳを得ることができる。ただし、式（５）および（２）に含まれる係数ｋの値が大きすぎると、母音が識別しやすい音声再生データＤＳを得ることができなくなるので、係数ｋの値は、あまり大きすぎないことが望ましい。係数ｋは、例えば、１＜ｋ＜３の範囲であることが望ましい。

尚、本実施形態では、第１の領域ＲＢ１〜ＲＢn-1の幅ＷＢ１〜ＷＢn-1を算出するために、ステップＳ７において、音声データブロックＥ１〜Ｅｎの各々における第１フォルマント周波数Ｆ１〜Ｆｎを算出している。しかし、音声データブロックＥ１〜Ｅｎのうちの特定の音声データブロックＥｋにおける第１フォルマント周波数Ｆｋを算出し、この第１フォルマント周波数Ｆｋを用いて、全ての第１の領域ＲＢ１〜ＲＢn-1の幅ＷＢ１〜ＷＢn-1を算出してもよい。また、音声データブロックＥ１〜Ｅｎごとに第１フォルマント周波数を算出する代わりに、音声データＤの全体を周波数解析して第１フォルマント周波数Ｆｄを算出し、この第１フォルマント周波数Ｆｄを用いて、全ての第１の領域ＲＢ１〜ＲＢn-1の幅ＷＢ１〜ＷＢn-1を算出してもよい。

本実施形態では、第２の領域ＲＡi+1の位置を調整しているが、第２の領域ＲＡi+1の位置を調整する代わりに第１の領域ＲＢｉの位置を調整して類似度ＳＩＭを算出し、類似度ＳＩＭの値に基づいて、第１の領域ＲＢｉの位置を決定してもよい。また、第１の領域ＲＢｉの位置と第２の領域ＲＡi+1の位置との両方を調整して類似度ＳＩＭを算出し、類似度ＳＩＭの値に基づいて、第１の領域ＲＢｉの位置と第２の領域ＲＡi+1との両方を決定してもよい。

本実施形態では、第２の領域ＲＡi+1の位置を初期位置とは別の位置に調整する場合、調整後の別の位置として、４箇所（初期位置から、−Δｔ１、−Δｔ２、＋Δｔ３、および＋Δｔ４だけずれた位置）が示されている。しかし、調整後の別の位置は、５箇所以上であってもよいし、３箇所以下であってもよい。

本実施形態においては、相互相関関数を用いて類似度ＳＩＭを算出しているが、例えば、ＡＭＤＦ（Average Magnitude
Difference Function）を用いて類似度ＳＩＭを算出してもよい。

本実施形態においては、セグメントＳｉとセグメントＳi+1を結合する場合、第１の領域ＲＢｉと第２の領域ＲＡi+1とがオーバーラップするように結合している。しかし、第１の領域ＲＢｉよりも狭い領域と第２の領域ＲＡi+1よりも狭い領域とがオーバーラップするように結合してもよく（図１１（ａ）参照）、第１の領域ＲＢｉよりも広い領域と第２の領域ＲＡi+1よりも広い領域とがオーバーラップするように結合してもよい（図１１（ｂ）参照）。ただし、第１の領域ＲＢｉと第２の領域ＲＡi+1との間に、ずれ量Δｖ１又はΔｖ２が現れるので、このようなずれ量Δｖ１又はΔｖ２が存在しても、再生速度の倍率ＶがＶ＝Ｖ１となるように（式（８）参照）、領域ＲＣi+1の長さを調整する必要がある。また、ずれ量Δｖ１又はΔｖ２の値が大きすぎると、再生される音声の音質を十分に向上させることが困難になるので、ずれ量Δｖ１又はΔｖ２の値は、できるだけ小さいことが望ましい。

本実施形態では、音声データＤを、標準の再生速度で再生されるときの再生時間Ｔｓよりも短い時間で再生する場合について説明されている。しかし、本発明は、例えば領域ＲＣi+1の時間長を長くすることによって、音声データＤを標準の再生時間Ｔｓよりも長い時間で再生する場合にも適用することができる。

本実施形態においては、磁気共鳴イメージング装置について説明しているが、本発明は、Ｘ線ＣＴ装置など、他のイメージング装置に適用してもよい。

１ＭＲＩ装置
２コイルアセンブリ
３テーブル
４受信コイル
５制御装置
６入力装置
７表示装置
８被検体
８ａ頭部
８ｂ脳
８ｃ大脳縦裂
８ｄ脳梁
８ｅ脳幹
８ｆ小脳
９オペレータ
２１ボア
２２超伝導コイル
２３勾配コイル
２４送信コイル
３１クレードル
５１コイル制御手段
５２信号処理手段
５３記憶部
５４音声データ読出手段
５５再生時間設定手段
５６再生速度倍率算出手段
５７音声データブロック設定手段
５８第１フォルマント周波数算出手段
５９領域設定手段
６０領域位置調整手段
６１類似度算出手段
６２領域位置決定手段
６３セグメント結合手段

Claims

時間軸を有する音声データに複数のセグメントを設定し、前記複数のセグメントのうちの互いに隣接するセグメントを結合することによって、前記音声データを所定の再生速度で再生される音声再生データに変換する音声データ処理装置であって、
前記音声データに、時間軸方向の異なる位置に第１の領域および第２の領域を設定する領域設定手段と、
前記第２の領域の時間軸方向における位置を調整する領域位置調整手段と、
前記第１の領域における音声データと、前記第２の領域における音声データとの類似度を算出するとともに、前記第１の領域における音声データと、前記領域位置調整手段により位置が調整された前記第２の領域における音声データとの類似度を算出する類似度算出手段と、
前記類似度算出手段が算出した類似度に基づいて、前記第２の領域の位置を決定する領域位置決定手段と、
前記第１の領域を含む第１のセグメントと、前記領域位置決定手段により位置が決定された前記第２の領域を含む第２のセグメントとを結合するセグメント結合手段と、
を有し、
前記領域設定手段は、
前記音声データの第１フォルマント周波数に基づいて、前記第１の領域の幅および前記第２の領域の幅を算出する、音声データ処理装置。
前記領域設定手段は、
前記音声データの第１フォルマント周波数の逆数に所定の係数を乗算することにより得られる値を、前記第１の領域の幅および前記第２の領域の幅として算出する、請求項１に記載の音声データ処理装置。
前記音声データの第１フォルマント周波数を算出する第１フォルマント周波数算出手段を有する、請求項１又は２に記載の音声データ処理装置。
前記音声データに複数の音声データブロックを設定する音声データブロック設定手段を有し、
前記第１フォルマント周波数算出手段は、前記複数の音声データブロックの各々における第１フォルマント周波数を算出する、請求項３に記載の音声データ処理装置。
前記セグメント結合手段は、
前記第１のセグメントの前記第１の領域と、前記第２のセグメントの前記第２の領域とがオーバーラップするように、前記第１のセグメントと前記第２のセグメントとを結合する、請求項１〜４のうちのいずれか一項に記載の音声データ処理装置。
時間軸を有する音声データに複数のセグメントを設定し、前記複数のセグメントのうちの互いに隣接するセグメントを結合することによって、前記音声データを所定の再生速度で再生される音声再生データに変換する音声データ処理装置であって、
前記音声データに、時間軸方向の異なる位置に第１の領域および第２の領域を設定する領域設定手段と、
前記第１の領域の時間軸方向における位置と、前記第２の領域の時間軸方向における位置とを調整する領域位置調整手段と、
前記第１の領域における音声データと、前記第２の領域における音声データとの類似度を算出するとともに、前記領域位置調整手段により位置が調整された前記第１の領域における音声データと、前記領域位置調整手段により位置が調整された前記第２の領域における音声データとの類似度を算出する類似度算出手段と、
前記類似度算出手段が算出した類似度に基づいて、前記第１の領域および前記第２の領域の位置を決定する領域位置決定手段と、
前記領域位置決定手段により位置が決定された前記第１の領域を含む第１のセグメントと、前記領域位置決定手段により位置が決定された前記第２の領域を含む第２のセグメントとを結合するセグメント結合手段と、
を有し、
前記領域設定手段は、
前記音声データの第１フォルマント周波数に基づいて、前記第１の領域の幅および前記第２の領域の幅を算出する、音声データ処理装置。
請求項１〜６のうちのいずれか一項に記載の音声データ処理装置を有する磁気共鳴イメージング装置。
時間軸を有する音声データに複数のセグメントを設定し、前記複数のセグメントのうちの互いに隣接するセグメントを結合することによって、前記音声データを所定の再生速度で再生される音声再生データに変換する音声データ処理方法であって、
前記音声データに、時間軸方向の異なる位置に第１の領域および第２の領域を設定する領域設定ステップと、
前記第２の領域の時間軸方向における位置を調整する領域位置調整ステップと、
前記第１の領域における音声データと、前記第２の領域における音声データとの類似度を算出するとともに、前記第１の領域における音声データと、前記領域位置調整ステップにより位置が調整された前記第２の領域における音声データとの類似度を算出する類似度算出ステップと、
前記類似度算出ステップにより算出された類似度に基づいて、前記第２の領域の位置を決定する領域位置決定ステップと、
前記第１の領域を含む第１のセグメントと、前記領域位置決定ステップにより位置が決定された前記第２の領域を含む第２のセグメントとを結合するセグメント結合ステップと、
を有し、
前記領域設定ステップは、
前記音声データの第１フォルマント周波数に基づいて、前記第１の領域の幅および前記第２の領域の幅を算出する、音声データ処理方法。
時間軸を有する音声データに複数のセグメントを設定し、前記複数のセグメントのうちの互いに隣接するセグメントを結合することによって、前記音声データを所定の再生速度で再生される音声再生データに変換する音声データ処理方法であって、
前記音声データに、時間軸方向の異なる位置に第１の領域および第２の領域を設定する領域設定ステップと、
前記第１の領域の時間軸方向における位置と、前記第２の領域の時間軸方向における位置とを調整する領域位置調整ステップと、
前記第１の領域における音声データと、前記第２の領域における音声データとの類似度を算出するとともに、前記領域位置調整ステップにより位置が調整された前記第１の領域における音声データと、前記領域位置調整ステップにより位置が調整された前記第２の領域における音声データとの類似度を算出する類似度算出ステップと、
前記類似度算出ステップにより算出された類似度に基づいて、前記第１の領域および前記第２の領域の位置を決定する領域位置決定ステップと、
前記領域位置決定ステップにより位置が決定された前記第１の領域を含む第１のセグメントと、前記領域位置決定ステップにより位置が決定された前記第２の領域を含む第２のセグメントとを結合するセグメント結合ステップと、
を有し、
前記領域設定ステップは、
前記音声データの第１フォルマント周波数に基づいて、前記第１の領域の幅および前記第２の領域の幅を算出する、音声データ処理方法。
時間軸を有する音声データに複数のセグメントを設定し、前記複数のセグメントのうちの互いに隣接するセグメントを結合することによって、前記音声データを所定の再生速度で再生される音声再生データに変換するためのプログラムであって、
前記音声データに、時間軸方向の異なる位置に第１の領域および第２の領域を設定する領域設定処理であって、前記音声データの第１フォルマント周波数に基づいて、前記第１の領域の幅および前記第２の領域の幅を算出する領域設定処理と、
前記第２の領域の時間軸方向における位置を調整する領域位置調整処理と、
前記第１の領域における音声データと、前記第２の領域における音声データとの類似度を算出するとともに、前記第１の領域における音声データと、前記領域位置調整処理により位置が調整された前記第２の領域における音声データとの類似度を算出する類似度算出処理と、
前記類似度算出処理により算出された類似度に基づいて、前記第２の領域の位置を決定する領域位置決定処理と、
前記第１の領域を含む第１のセグメントと、前記領域位置決定処理により位置が決定された前記第２の領域を含む第２のセグメントとを結合するセグメント結合処理と、
を計算機に実行させるためのプログラム。
時間軸を有する音声データに複数のセグメントを設定し、前記複数のセグメントのうちの互いに隣接するセグメントを結合することによって、前記音声データを所定の再生速度で再生される音声再生データに変換するためのプログラムであって、
前記音声データに、時間軸方向の異なる位置に第１の領域および第２の領域を設定する領域設定処理であって、前記音声データの第１フォルマント周波数に基づいて、前記第１の領域の幅および前記第２の領域の幅を算出する領域設定処理と、
前記第１の領域の時間軸方向における位置と、前記第２の領域の時間軸方向における位置とを調整する領域位置調整処理と、
前記第１の領域における音声データと、前記第２の領域における音声データとの類似度を算出するとともに、前記領域位置調整処理により位置が調整された前記第１の領域における音声データと、前記領域位置調整処理により位置が調整された前記第２の領域における音声データとの類似度を算出する類似度算出処理と、
前記類似度算出処理により算出された類似度に基づいて、前記第１の領域および前記第２の領域の位置を決定する領域位置決定処理と、
前記領域位置決定処理により位置が決定された前記第１の領域を含む第１のセグメントと、前記領域位置決定処理により位置が決定された前記第２の領域を含む第２のセグメントとを結合するセグメント結合処理と、
を計算機に実行させるためのプログラム。