JP2011007959A - 音声データ処理装置、磁気共鳴イメージング装置、音声データ処理方法、およびプログラム - Google Patents

音声データ処理装置、磁気共鳴イメージング装置、音声データ処理方法、およびプログラム Download PDF

Info

Publication number
JP2011007959A
JP2011007959A JP2009150228A JP2009150228A JP2011007959A JP 2011007959 A JP2011007959 A JP 2011007959A JP 2009150228 A JP2009150228 A JP 2009150228A JP 2009150228 A JP2009150228 A JP 2009150228A JP 2011007959 A JP2011007959 A JP 2011007959A
Authority
JP
Japan
Prior art keywords
area
audio data
region
similarity
setting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009150228A
Other languages
English (en)
Other versions
JP5405206B2 (ja
Inventor
Yoshihiro Oda
善洋 尾田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GE Medical Systems Global Technology Co LLC
Original Assignee
GE Medical Systems Global Technology Co LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GE Medical Systems Global Technology Co LLC filed Critical GE Medical Systems Global Technology Co LLC
Priority to JP2009150228A priority Critical patent/JP5405206B2/ja
Publication of JP2011007959A publication Critical patent/JP2011007959A/ja
Application granted granted Critical
Publication of JP5405206B2 publication Critical patent/JP5405206B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Magnetic Resonance Imaging Apparatus (AREA)

Abstract

【課題】変速再生する音声の音質を向上させることが可能な音声データ処理装置,音声データ処理方法、および、イメージング装置を提供する。
【解決手段】第1フォルマント周波数算出手段58が、音声データブロックEiにおける周波数特性を解析し、第1フォルマント周波数Fiを算出する。第1フォルマント周波数Fiを算出した後、Fiの逆数に比例するよう、第1の領域RBiの幅WBiおよび第2の領域RAi+1の幅WAi+1を算出する。その後、第1の領域RBiおよび第2の領域RAi+1を設定し、類似度SIMの値に基づいて、第2の領域RAi+1の位置を決定し、セグメントSiおよびSi+1を結合する。
【選択図】図1

Description

本発明は、音声データを所定の再生速度で再生される音声再生データに変換する音声データ処理装置、磁気共鳴イメージング装置、音声データ処理方法、およびプログラムに関する。
磁気共鳴イメージング装置で被検体を撮影する場合、被検体に音声で指示を与えることがある。音声で指示を与える方法として、被検体に与える指示の内容を表す音声データを自動的に再生するオートボイス(Auto Voice)機能が知られている。
オートボイス機能によって音声データを再生する場合、音声データの再生速度の倍率を変更したい場合がある。そこで、音声データの再生速度の倍率を変更する方法として、OLA法が知られている(特許文献1参照)。
特開2005-266571号公報
しかし、特許文献1の方法では、再生された音声が不自然になる場合がある。
本発明は、上記の事情に鑑み、再生する音声の音質を向上させることが可能な音声データ処理装置、磁気共鳴イメージング装置、音声データ処理方法、およびプログラムを提供することを目的とする。
上記の問題を解決する本発明の音声データ処理装置は、
時間軸を有する音声データに複数のセグメントを設定し、上記複数のセグメントのうちの互いに隣接するセグメントを結合することによって、上記音声データを所定の再生速度で再生される音声再生データに変換する音声データ処理装置であって、
上記音声データに、時間軸方向の異なる位置に第1の領域および第2の領域を設定する領域設定手段と、
上記第2の領域の時間軸方向における位置を調整する領域位置調整手段と、
上記第1の領域における音声データと、上記第2の領域における音声データとの類似度を算出するとともに、上記第1の領域における音声データと、上記領域位置調整手段により位置が調整された上記第2の領域における音声データとの類似度を算出する類似度算出手段と、
上記類似度算出手段が算出した類似度に基づいて、上記第2の領域の位置を決定する領域位置決定手段と、
上記第1の領域を含む第1のセグメントと、上記領域位置決定手段により位置が決定された上記第2の領域を含む第2のセグメントとを結合するセグメント結合手段と、
を有し、
上記領域設定手段は、
上記音声データの第1フォルマント周波数に基づいて、上記第1の領域の幅および上記第2の領域の幅を算出する。
本発明の磁気共鳴イメージング装置は、上記の本発明の音声データ処理装置を備えている。
また、本発明の別の音声データ処理装置は、
時間軸を有する音声データに複数のセグメントを設定し、上記複数のセグメントのうちの互いに隣接するセグメントを結合することによって、上記音声データを所定の再生速度で再生される音声再生データに変換する音声データ処理装置であって、
上記音声データに、時間軸方向の異なる位置に第1の領域および第2の領域を設定する領域設定手段と、
上記第1の領域の時間軸方向における位置と、上記第2の領域の時間軸方向における位置とを調整する領域位置調整手段と、
上記第1の領域における音声データと、上記第2の領域における音声データとの類似度を算出するとともに、上記領域位置調整手段により位置が調整された上記第1の領域における音声データと、上記領域位置調整手段により位置が調整された上記第2の領域における音声データとの類似度を算出する類似度算出手段と、
上記類似度算出手段が算出した類似度に基づいて、上記第1の領域および上記第2の領域の位置を決定する領域位置決定手段と、
上記領域位置決定手段により位置が決定された上記第1の領域を含む第1のセグメントと、上記領域位置決定手段により位置が決定された上記第2の領域を含む第2のセグメントとを結合するセグメント結合手段と、
を有し、
上記領域設定手段は、
上記音声データの第1フォルマント周波数に基づいて、上記第1の領域の幅および上記第2の領域の幅を算出する。
本発明の別の磁気共鳴イメージング装置は、上記の本発明の別の音声データ処理装置を備えている。
また、本発明の音声データ処理方法は、
時間軸を有する音声データに複数のセグメントを設定し、上記複数のセグメントのうちの互いに隣接するセグメントを結合することによって、上記音声データを所定の再生速度で再生される音声再生データに変換する音声データ処理方法であって、
上記音声データに、時間軸方向の異なる位置に第1の領域および第2の領域を設定する領域設定ステップと、
上記第2の領域の時間軸方向における位置を調整する領域位置調整ステップと、
上記第1の領域における音声データと、上記第2の領域における音声データとの類似度を算出するとともに、上記第1の領域における音声データと、上記領域位置調整ステップにより位置が調整された上記第2の領域における音声データとの類似度を算出する類似度算出ステップと、
上記類似度算出ステップにより算出された類似度に基づいて、上記第2の領域の位置を決定する領域位置決定ステップと、
上記第1の領域を含む第1のセグメントと、上記領域位置決定ステップにより位置が決定された上記第2の領域を含む第2のセグメントとを結合するセグメント結合ステップと、
を有し、
上記領域設定ステップは、
上記音声データの第1フォルマント周波数に基づいて、上記第1の領域の幅および上記第2の領域の幅を算出する。
また、本発明の別の音声データ処理方法は、
時間軸を有する音声データに複数のセグメントを設定し、上記複数のセグメントのうちの互いに隣接するセグメントを結合することによって、上記音声データを所定の再生速度で再生される音声再生データに変換する音声データ処理方法であって、
上記音声データに、時間軸方向の異なる位置に第1の領域および第2の領域を設定する領域設定ステップと、
上記第1の領域の時間軸方向における位置と、上記第2の領域の時間軸方向における位置とを調整する領域位置調整ステップと、
上記第1の領域における音声データと、上記第2の領域における音声データとの類似度を算出するとともに、上記領域位置調整ステップにより位置が調整された上記第1の領域における音声データと、上記領域位置調整ステップにより位置が調整された上記第2の領域における音声データとの類似度を算出する類似度算出ステップと、
上記類似度算出ステップにより算出された類似度に基づいて、上記第1の領域および上記第2の領域の位置を決定する領域位置決定ステップと、
上記領域位置決定ステップにより位置が決定された上記第1の領域を含む第1のセグメントと、上記領域位置決定ステップにより位置が決定された上記第2の領域を含む第2のセグメントとを結合するセグメント結合ステップと、
を有し、
上記領域設定ステップは、
上記音声データの第1フォルマント周波数に基づいて、上記第1の領域の幅および上記第2の領域の幅を算出する。
また、本発明のプログラムは、
時間軸を有する音声データに複数のセグメントを設定し、上記複数のセグメントのうちの互いに隣接するセグメントを結合することによって、上記音声データを所定の再生速度で再生される音声再生データに変換するためのプログラムであって、
上記音声データに、時間軸方向の異なる位置に第1の領域および第2の領域を設定する領域設定処理であって、上記音声データの第1フォルマント周波数に基づいて、上記第1の領域の幅および上記第2の領域の幅を算出する領域設定処理と、
上記第2の領域の時間軸方向における位置を調整する領域位置調整処理と、
上記第1の領域における音声データと、上記第2の領域における音声データとの類似度を算出するとともに、上記第1の領域における音声データと、上記領域位置調整処理により位置が調整された上記第2の領域における音声データとの類似度を算出する類似度算出処理と、
上記類似度算出処理により算出された類似度に基づいて、上記第2の領域の位置を決定する領域位置決定処理と、
上記第1の領域を含む第1のセグメントと、上記領域位置決定処理により位置が決定された上記第2の領域を含む第2のセグメントとを結合するセグメント結合処理と、
を計算機に実行させるためのプログラムである。
また、本発明の別のプログラムは、
時間軸を有する音声データに複数のセグメントを設定し、上記複数のセグメントのうちの互いに隣接するセグメントを結合することによって、上記音声データを所定の再生速度で再生される音声再生データに変換するためのプログラムであって、
上記音声データに、時間軸方向の異なる位置に第1の領域および第2の領域を設定する領域設定処理であって、上記音声データの第1フォルマント周波数に基づいて、上記第1の領域の幅および上記第2の領域の幅を算出する領域設定処理と、
上記第1の領域の時間軸方向における位置と、上記第2の領域の時間軸方向における位置とを調整する領域位置調整処理と、
上記第1の領域における音声データと、上記第2の領域における音声データとの類似度を算出するとともに、上記領域位置調整処理により位置が調整された上記第1の領域における音声データと、上記領域位置調整処理により位置が調整された上記第2の領域における音声データとの類似度を算出する類似度算出処理と、
上記類似度算出処理により算出された類似度に基づいて、上記第1の領域および上記第2の領域の位置を決定する領域位置決定処理と、
上記領域位置決定処理により位置が決定された上記第1の領域を含む第1のセグメントと、上記領域位置決定処理により位置が決定された上記第2の領域を含む第2のセグメントとを結合するセグメント結合処理と、
を計算機に実行させるためのプログラムである。
本発明では、第1フォルマント周波数に基づいて、第1の領域の幅と第2の領域の幅とを決定している。第1フォルマント周波数は母音の識別に非常に重要な周波数であるので、第1フォルマント周波数に基づいて第1の領域の幅と第2の領域の幅とを決定することによって、母音が識別しやすい音声再生データを得ることができ、再生する音声の音質を向上させることができる。
本発明の一実施形態の磁気共鳴イメージング装置の概略図である。 MRI装置1が音声データを再生するときの処理フローを示す図である。 図2に示す処理フローによって実行されるデータ処理の内容を概略的に示す図である。 音声データブロックE1の領域r1における周波数特性を概略的に示す図である。 図2に示す処理フローによって実行されるデータ処理の内容を概略的に示す図である。 ステップS11およびS12において算出された類似度SIMを示す図である。 図2に示す処理フローによって実行されるデータ処理の内容を概略的に示す図である。 図2に示す処理フローによって実行されるデータ処理の内容を概略的に示す図である。 図2に示す処理フローによって実行されるデータ処理の内容を概略的に示す図である。 図2に示す処理フローによって実行されるデータ処理の内容を概略的に示す図である。 第1の領域RBiおよび第2の領域RAi+1のオーバーラップ量の変形例である。
以下、本発明の実施形態について説明するが、本発明は、以下の実施形態に限定されることはない。
図1は、本発明の一実施形態の磁気共鳴イメージング装置の概略図である。
磁気共鳴イメージング装置(以下、MRI(Magnetic Resonance Imaging)装置と呼ぶ)1は、コイルアセンブリ2と、テーブル3と、受信コイル4と、制御装置5と、入力装置6と、表示装置7とを有している。
コイルアセンブリ2は、被検体8が収容されるボア21と、超伝導コイル22と、勾配コイル23と、送信コイル24とを有している。超伝導コイル22は静磁場B0を印加し、勾配コイル23は勾配パルスを印加し、送信コイル24はRFパルスを送信する。
テーブル3は、クレードル31を有している。クレードル31は、z方向および−z方向に移動するように構成されている。クレードル31がz方向に移動することによって、被検体8がボア21に搬送される。クレードル31が−z方向に移動することによって、ボア21に搬送された被検体8は、ボア21から搬出される。
受信コイル4は、被検体8の頭部に取り付けられている。受信コイル4が受信したMR(Magnetic
Resonance)信号は、制御装置5に伝送される。
制御装置5は、コイル制御手段51〜領域位置決定手段62を有している。
コイル制御手段51は、パルスシーケンスが実行されるように、勾配コイル23および送信コイル24を制御する。
信号処理手段52は、受信コイル4が受信したMR信号を処理する。
記憶部53は、音声データD(図3(a)参照)を記憶する。記憶部53は、例えば、ハードディスクやリームーバブルディスクである。
音声データ読出手段54は、記憶部53に記憶されている音声データDを読み出す。
再生時間設定手段55は、コイル制御手段51から、被検体を撮影するときに使用されるパルスシーケンスの情報を受け取り、この情報に基づいて、音声データDの再生時間Tを設定する。
再生速度倍率算出手段56は、音声データDの再生速度の倍率Vを算出する。
音声データブロック設定手段57は、音声データDに対して音声データブロックを設定する(図3(b)参照)。
第1フォルマント周波数算出手段58は、音声データブロックEiの周波数特性を解析して、周波数特性にピークが現れるときの周波数を検出し、検出した周波数の中から一番低い周波数である第1フォルマント周波数Fiを算出する。
領域設定手段59は、音声データDに、第1フォルマント周波数Fiに基づいて、時間軸方向の異なる位置に第1の領域RBiおよび第2の領域RAi+1を設定する。また、領域設定手段59は、音声データブロックE1に領域R1を設定する(図3(c)参照)。更に、領域設定手段59は領域RCi+1を設定する(例えば図7(k)参照)。
領域位置調整手段60は、第2の領域RAi+1の位置を、最初に設定された初期位置とは異なる別の位置に調整する。
類似度算出手段61は、第1の領域RBiにおける音声データと、第2の領域RAi+1における音声データとの類似度SIMを算出する。また、第1の領域RB1に含まれる音声データと、別の位置に調整された第2の領域RA2に含まれる音声データとの類似度SIMを算出する。
領域位置決定手段62は、類似度SIMの値に基づいて、第2の領域RAi+1の位置を決定する。
セグメント結合手段63は、互いに隣接するセグメントSiおよびSi+1を結合する。
尚、コイル制御手段51〜セグメント結合手段63は、各手段を実行するためのプログラムを制御装置5にインストールすることにより実現されている。ただし、プログラムを用いずに、ハードウェアのみで実現してもよい。制御装置5に含まれる記憶部53〜セグメント結合手段63が、本発明の一実施形態の音声データ処理装置に相当する。
入力装置6は、オペレータ9の操作に応じて、種々の命令を制御装置5に入力する。
表示装置7は、種々の情報を表示する。
MRI装置1は、上記のように構成されている。次に、上記のように構成されたMRI装置1の動作について説明する。
図2は、MRI装置1が音声データを再生するときの処理フローを示す図、図3〜図10は、図2に示す処理フローによって実行されるデータ処理の内容を概略的に示す図である。
以下の処理フローでは、被検体に息止めを指示する場合の動作について説明する。
ステップS1では、音声データ読出手段54が、記憶部53に記憶されている音声データを読み出す(図3(a)参照)。
図3(a)は、読み出された音声データDを概略的に示す図である。
音声データDの再生時間Tは、音声データDが標準の再生速度で再生された場合、T=Tsである。Tsは、例えば10秒である。音声データDは、例えば、呼吸指示(被検体に対して息を吸う指示、息止めの指示、息を吐く指示など)を表すものである。音声データDを読み出した後、ステップS2に進む。
ステップS2では、再生時間設定手段55が、音声データDの再生時間を設定する。
本実施形態では、再生時間設定手段55は、コイル制御手段51から、被検体を撮影するときに使用されるパルスシーケンスの情報を受け取り、この情報に基づいて、音声データDの再生時間Tを設定する。本実施形態では、再生時間設定手段55は、再生時間T=Teに設定する。Teは、例えば5秒である。再生時間T=Teを設定した後、ステップS3に進む。
ステップS3では、再生速度倍率算出手段56が、音声データDの再生時間Tを、T=Ts(標準の再生速度で再生されるときの再生時間)からT=Te(ステップS2で設定された再生時間)に変更するために必要な再生速度の倍率Vを算出する。再生速度の倍率Vは、以下の式(1)で表される。
V=Ts/Te ・・・(1)
再生速度倍率算出手段56は、式(1)に従って再生速度倍率Vを算出する。例えば、Ts=10秒、Te=5秒の場合、再生速度倍率V=2である。本実施形態では、V=V1であるとする。尚、以下の説明では、V1>1の場合(即ち、音声データDを、標準の再生速度で再生されるときの再生時間Tsよりも短い時間で再生する場合)について説明する。しかし、本発明は、V1<1(即ち、音声データDを、標準の再生速度で再生されるときの再生時間Tsよりも長い時間で再生する場合)にも適用することができる。再生速度倍率V=V1を算出した後、ステップS4に進む。
ステップS4では、音声データブロック設定手段57が、音声データDに対して音声データブロックを設定する(図3(b)参照)。
図3(b)は、音声データブロックが設定された後の音声データDを示す図である。
音声データブロック設定手段57は、図3(b)に示すように、音声データDを等しい時間間隔で区画することによって、n個の音声データブロックE1〜Enを設定する。図3(b)には、代表して、5つの音声データブロックE1、E2、E3、En-1、およびEnが具体的に示されている。
本実施形態では、音声データDは、複数の音声データブロックE1〜Enの時間軸tにおける長さ(時間長)Tbが互いに同じ値になるように区画される。したがって、音声データDを標準の再生速度で再生するときの再生時間Tsは、音声データブロックE1〜Enの時間長Tbを用いて、以下の式で表される。
Ts=n×Tb ・・・(2)
尚、本実施形態では、音声データブロックE1〜Enの時間長Tbは、再生速度倍率V=V1を用いて、以下の式(3)で表される。
Tb=Tx×V1 ・・・(3)
Tx:定数
したがって、式(3)を式(2)に代入すると、Tsは、以下のように変形される。
Ts=n×Tb
=n×(Tx×V1) ・・・(4)
複数の音声データブロックE1〜Enを設定した後、ステップS5に進む。
ステップS5では、ステップS6〜S18の説明で使用される符号「Ei」、「Ei+1」「RAi+1」、「RBi」、「RCi+1」、「WAi+1」、「WBi」、「Fi」、「Si」、および「Si+1」の添え字に使用されているパラメータiを、i=1に初期化する。尚、各符号「Ei」、「Ei+1」「RAi+1」、「RBi」、「RCi+1」、「WAi+1」、「WBi」、「Fi」、「Si」、および「Si+1」が表す内容については、ステップS6〜S18の中で後述する。パラメータiを初期化した後、ステップS6に進む。
ステップS6では、領域設定手段59(図1参照)が、音声データブロックE1に、領域R1を設定する(図3(c)参照)。
図3(c)は、音声データブロックE1に設定された領域R1を示す図である。
領域R1は、時間長Txを有するように設定される。領域R1を設定した後、ステップS7に進む。
ステップS7では、第1フォルマント周波数算出手段58(図1参照)が、音声データブロックEiの周波数特性を解析して、周波数特性にピークが現れるときの周波数を検出し、検出した周波数の中から一番低い周波数である第1フォルマント周波数Fiを算出する。第1フォルマント周波数Fiは、後述するステップS8において第1の領域RBiの幅を算出するために使用される値である。
本実施形態では、ステップS5において、パラメータiがi=1に初期化されているので、第1フォルマント周波数算出手段58は、先ず、音声データブロックE1における周波数特性を解析し、音声データブロックE1における第1フォルマント周波数F1を算出する。ただし、音声データブロックE1における第1フォルマント周波数F1を算出する場合、領域R1における周波数特性は解析せずに、領域R1の右側に位置する領域r1(図3(c)参照)における周波数特性のみを解析し、第1フォルマント周波数F1を算出する。
図4は、音声データブロックE1の領域r1における周波数特性を概略的に示す図である。
第1フォルマント周波数算出手段58は、周波数特性の解析結果から、音声データブロックE1の領域r1における第1フォルマント周波数F1を算出する。第1フォルマント周波数F1を算出した後、ステップS8に進む。
ステップS8では、領域設定手段59が、ステップS7で算出した第1フォルマント周波数Fiに基づいて、音声データDの中に、第1の領域RBiを設定する。本実施形態では、ステップS5において、パラメータiがi=1に初期化されているので、領域設定手段59は、第1の領域RB1を設定する(図3(d)参照)。
図3(d)は、第1の領域RB1を示す図である。
第1の領域RB1は、領域R1に隣接するように設定される。尚、本実施形態では、第1の領域RBiの幅WBiは、ステップS7で算出した第1フォルマント周波数Fiを用いた以下の式(5)によって算出される。
WBi=k/Fi ・・・(5)
k:定数
したがって、第1の領域RB1の幅WB1は、WB1=k/F1となる。尚、本実施形態では、定数k=2に設定されている。しかし、定数kの値は、必ずしもk=2である必要はなく、必要に応じて、別の値を採用してもよい。本実施形態において、第1フォルマント周波数Fiを含む式(5)を用いて第1の領域RBiの幅WBiを算出する理由については後述する。
図3(d)に示すように、第1の領域RB1を設定することによって、音声データブロックE1に対応するセグメントS1が得られる。セグメントS1は、領域R1およびRB1によって構成されている。
第1の領域RB1を設定した後、ステップS9に進む。
ステップS9では、領域設定手段59が、ステップS8において設定された第1の領域RBiが、第1の領域RB1(i=1)であるか否かを判断する。ステップS8において設定された第1の領域RBiが第1の領域RB1(i=1)ではないと判断された場合、ステップS17に進む。一方、ステップS8において設定された第1の領域RBiが第1の領域RB1(i=1)であると判断した場合、ステップS10に進む。図3(d)に示すように、ステップS8において設定された第1の領域RBiは、第1の領域RB1(i=1)である。したがって、領域設定手段59は、ステップS8において設定された第1の領域RBiは、第1の領域RB1(i=1)であると判断し、ステップS10に進む。
ステップS10では、領域設定手段59が、音声データブロックEi+1に第2の領域RAi+1を設定する。パラメータiは、i=1であるので、領域設定手段59は、音声データブロックE2に第2の領域RA2を設定する(図5(e)参照)。
図5(e)は、音声データブロックE2に設定された第2の領域RA2を示す図である。設定する(図5(e)参照)。
第2の領域RA2は、第2の領域RA2の始端が、音声データブロックE2の始端に一致するように設定される。尚、本実施形態では、第2の領域RAi+1の幅WAi+1は、以下の式(6)によって算出される。
WAi+1=WBi
=k/Fi ・・・(6)
式(6)に示すように、第2の領域RAi+1の幅WAi+1は、第1の領域RBiの幅WBiと同じ値に設定される。したがって、第2の領域RA2の幅WA2は、第1の領域RB1の幅WB1と同じ値に設定される。本実施形態において、第1フォルマント周波数Fiを含む式(6)を用いて第2の領域RAi+1の幅WAi+1を算出する理由については後述する。
第2の領域RA2を設定した後、ステップS11に進む。
ステップS11では、類似度算出手段61(図1参照)が、第1の領域RBiにおける音声データと、第2の領域RAi+1における音声データとの類似度SIMを算出する。類似度は、例えば、第1の領域RBiに含まれる音声データと、第2の領域RAi+1に含まれる音声データとの間の相関を表す相互相関関数を用いて計算される値である。
図5(e)を参照すると、第1の領域RB1および第2の領域RA2が設定されているので、類似度算出手段61(図1参照)は、先ず、第1の領域RB1における音声データと、第2の領域RA2における音声データとの類似度SIMを算出する。
類似度SIMを算出した後、ステップS12に進む。
ステップS12では、領域位置調整手段60(図1参照)が、第2の領域RAi+1の位置を、最初に設定された初期位置とは異なる別の位置に調整する。その後、類似度算出手段61が、第1の領域RBiにおける音声データと、別の位置に調整された第2の領域RAi+1における音声データとの類似度SIMを算出する。パラメータiは、i=1であるので、領域位置調整手段60は、第2の領域RA2の位置を初期位置とは異なる別の位置に調整し、その後、類似度算出手段61が、第1の領域RB1における音声データと、別の位置に調整された第2の領域RA2における音声データとの類似度SIMを算出する(図5(f)〜(i)参照)。
図5(f)〜(i)は、第2の領域RA2を、図5(e)に示す初期位置とは異なる別の位置に調整した様子を示す図である。
図5(f)〜(i)は、領域位置調整手段60が、第2の領域RA2の位置を、図5(d)に示す初期位置に対して、−Δt1、−Δt2、+Δt3、および+Δt4だけずれた位置に調整された様子を示している。領域位置調整手段60が、図5(f)〜(i)に示すように、第2の領域RA2の位置を別の位置に調整した後、類似度算出手段61は、第1の領域RB1に含まれる音声データと、別の位置に調整された第2の領域RA2に含まれる音声データとの類似度SIMを算出する。
図6は、ステップS11およびS12において算出された類似度SIMを示す図である。
図6に示すように、類似度SIMは、第2の領域RA2の位置に応じて、SIM2、SIM21、SIM22、SIM23、およびSIM24となる。類似度SIM2は、第2の領域RA2が初期位置(図5(e)参照)に位置している場合の類似度である。一方、類似度SIM21、SIM22、SIM23、およびSIM24は、第2の領域RA2が初期位置(図5(e)参照)から−Δt1、−Δt2、+Δt3、および+Δt4だけずれた場合の類似度である。これらの類似度SIMを算出した後、ステップS13に進む。
ステップS13では、領域位置決定手段62(図1参照)が、類似度SIMの値が最大となるときの第2の領域RAi+1の位置を決定する。パラメータiは、i=1であるので、領域位置決定手段62は、類似度SIMの値が最大となるときの第2の領域RA2の位置を決定する。第2の領域RA2を決定する場合、領域位置決定手段62は、図5(f)〜(i)の中から、類似度SIMの値が最大となるときの第2の領域RA2の位置を決定する。本実施形態では、図6に示す類似度SIMの値のうち、SIM21が最大であるとする。したがって、領域位置決定手段62は、図5(f)に示される第2の領域RA2の位置を、類似度SIMの値が最大となるときの第2の領域RA2の位置と決定する(図7(j)参照)。
図7(j)は、類似度SIMの値が最大(SIM21)となるときの第2の領域RA2の位置を示す図である。
第2の領域RA2の位置を決定した後、ステップS14に進む。
ステップS14では、領域設定手段59が、第2の領域RAi+1に隣接する領域RCi+1を設定する。パラメータiは、i=1であるので、領域設定手段59は、第2の領域RA2に隣接する領域RC2を設定する(図7(k)参照)。
図7(k)は、第2の領域RA2に隣接するように設定された領域RC2を示す図である。
領域設定手段59は、第2の領域RAi+1の時間長WAi+1と、領域RCi+1の時間長WCi+1との合計が、時間長Txになるように、領域RCi+1を設定する。したがって、第2の領域RA2の時間長WA2と、領域RC2の時間長WC2との合計は、時間長Txになる。領域RC2を設定した後、ステップS15に進む。
ステップS15では、領域設定手段59が、ステップS14において設定された領域RCi+1が、領域RCn(図10(y)参照)であるか否かを判断する。領域設定手段59が、ステップS6において設定された領域RCi+1が領域RCnではないと判断した場合、ステップS16に進む。一方、領域設定手段59が、ステップS14において設定された領域RCi+1が領域RCnであると判断した場合、ステップS17に進む。図7(k)に示すように、ステップS14において設定された領域RCi+1は、領域RC2である。したがって、領域設定手段59は、ステップS14において設定された領域RCi+1は領域RCnではないと判断し、ステップS16に進む。
ステップS16では、パラメータiをインクリメントする。パラメータiはi=1に初期化されていたので、ステップS16を実行することによって、i=2に設定される。パラメータiをインクリメントした後、ステップS7に戻る。
ステップS7では、第1フォルマント周波数算出手段58(図1参照)が、音声データブロックEiにおける周波数特性を解析し、第1フォルマント周波数Fiを算出する。パラメータiは、i=2であるので、第1フォルマント周波数算出手段58は、音声データブロックE2における周波数特性を解析し、第1フォルマント周波数F2を算出する。ただし、音声データブロックE2における第1フォルマント周波数F2を算出する場合、領域RA2およびRC2における周波数特性は解析せずに、領域RC2の右側の領域r2における周波数特性のみを解析し、第1フォルマント周波数F2を算出する。音声データブロックE2の領域r2における第1フォルマント周波数F2を算出した後、ステップS8に進む。
ステップS8では、領域設定手段59が、ステップS7で算出した第1フォルマント周波数Fiに基づいて、音声データDの中に、第1の領域RBiを設定する。パラメータiは、i=2であるので、領域設定手段59は、ステップS7で算出した第1フォルマント周波数F2に基づいて、音声データDの中に、第1の領域RB2を設定する(図7(m)参照)。
図7(m)は、第1の領域RB2を示す図である。
第1の領域RB2は、領域RC2に隣接するように設定される。第1の領域RB2の幅WB2は、上述した式(5)を用いて、WB2=k/F2となる。
第1の領域RB2を設定することによって、音声データブロックE2に対応するセグメントS2が得られる。セグメントS2は、領域RA2、RC2、およびRB2によって構成されている。
第1の領域RB2を設定した後、ステップS9に進む。
ステップS9では、領域設定手段59が、ステップS8において設定された第1の領域RBiが、第1の領域RB1(i=1)であるか否かを判断する。図7(m)に示すように、ステップS8において設定された領域RBiは、領域RB2である。したがって、領域設定手段59は、ステップS8において設定された領域RBiは、領域RB1ではないと判断し、ステップS17に進む。
ステップS17では、セグメント結合手段63(図1参照)が、互いに隣接するセグメントSiおよびSi+1を結合する。パラメータiは、i=1であるので、セグメント結合手段63は、セグメントS1およびS2を結合する(図7(n)参照)。
図7(n)は、結合された2つのセグメントS1およびS2を示す図である。
本実施形態では、セグメントSiおよびSi+1は、セグメントSiの第1の領域RBiと、セグメントSi+1の第2の領域RAi+1とがオーバーラップするように結合される。したがって、セグメントS1およびS2は、セグメントS1の第1の領域RB1と、セグメントS2の第2の領域RA2とがオーバーラップするように結合される。セグメントS1およびS2を結合した後、ステップS18に進む。
ステップS18では、セグメント結合手段63が、最後の音声データブロックEnに対応するセグメントSn(図10(z)参照)の結合が終了しているか否かを判断する。最後の音声データブロックEnに対応するセグメントSnの結合が終了していると判断された場合、図2に示すフローは終了する。一方、最後の音声データブロックEnに対応するセグメントSnの結合が終了していないと判断された場合、ステップS10に戻る。図7(n)を参照すると、音声データブロックE2に対応するセグメントS2の結合は終了しているが、最後の音声データブロックEnに対応するセグメントSnの結合は終了していない。したがって、ステップS10に戻る。
ステップS10では、領域設定手段59が、音声データブロックEi+1に第2の領域RAi+1を設定する。パラメータiは、i=2であるので、領域設定手段59は、音声データブロックE3に第2の領域RA3を設定する(図8(o)参照)。
図8(o)は、音声データブロックE3に設定された第2の領域RA3を示す図である。設定する(図5(e)参照)。
第2の領域RA3は、第2の領域RA3の始端が、音声データブロックE3の始端に一致するように設定される。第2の領域RA3の幅WA3は、式(6)を用いて、WA3=WB2=k/F2となる。第2の領域RA3を設定した後、ステップS11に進む。
ステップS11では、類似度算出手段61(図1参照)が、第1の領域RBiにおける音声データと、第2の領域RAi+1における音声データとの類似度SIMを算出する。パラメータiは、i=2であるので、類似度算出手段61(図1参照)は、第1の領域RB2における音声データと、第2の領域RA3における音声データとの類似度SIMを算出する。
類似度SIMを算出した後、ステップS12に進む。
ステップS12では、領域位置調整手段60(図1参照)が、第2の領域RAi+1の位置を、最初に設定された初期位置とは異なる別の位置に調整する。その後、類似度算出手段61が、第1の領域RBiにおける音声データと、別の位置に調整された第2の領域RAi+1における音声データとの類似度SIMを算出する。パラメータiは、i=2であるので、領域位置調整手段60は、第2の領域RA3の位置を初期位置とは異なる別の位置に調整し、その後、類似度算出手段61が、第1の領域RB2における音声データと、別の位置に調整された第2の領域RA3における音声データとの類似度SIMを算出する(図8(p)〜(s)参照)。
図8(p)〜(s)は、第2の領域RA3を、図8(o)に示す初期位置とは異なる別の位置に調整した様子を示す図である。
図8(p)〜(s)は、領域位置調整手段60が、第2の領域RA3の位置を、図8(o)に示す初期位置に対して、−Δt1、−Δt2、+Δt3、および+Δt4だけずれた位置に調整された様子を示している。領域位置調整手段60が、図8(p)〜(s)に示すように、第2の領域RA3の位置を別の位置に調整した後、類似度算出手段61は、第1の領域RB2に含まれる音声データと、別の位置に調整された第2の領域RA3に含まれる音声データとの類似度SIMを算出する。これらの類似度SIMを算出した後、ステップS13に進む。
ステップS13では、領域位置決定手段62(図1参照)が、図8(o)〜(s)の中から、類似度SIMの値が最大となるときの類似度算出用領域RA3の位置を決定する。本実施形態では、類似度算出用領域RA3が、図8(r)に示される位置に存在しているときに、類似度SIMが最大になるとする。したがって、領域位置決定手段62は、図8(r)に示される類似度算出用領域RA3の位置を、類似度SIMの値が最大となるときの類似度算出用領域RA3の位置と決定する(図9(t)参照)。
図9(t)は、類似度SIMの値が最大となるときの第2の領域RA3の位置を示す図である。
第2の領域RA3の位置を決定した後、ステップS14に進む。
ステップS14では、領域設定手段59が、第2の領域RAi+1に隣接する領域RCi+1を設定する。パラメータiは、i=2であるので、領域設定手段59は、第2の領域RA3に隣接する領域RC3を設定する(図9(u)参照)。
図9(u)は、第2の領域RA3に隣接するように設定された領域RC3を示す図である。
領域設定手段59は、第2の領域RAi+1の時間長WAi+1と、領域RCi+1の時間長WCi+1との合計が、時間長Txになるように、領域RCi+1を設定する。したがって、第2の領域RA3の時間長WA3と、領域RC3の時間長WC3との合計は、時間長Txになる。領域RC3を設定した後、ステップS15に進む。
ステップS15では、領域設定手段59が、ステップS14において設定された領域RCi+1が、領域RCn(図10(y)参照)であるか否かを判断する。図9(u)に示すように、ステップS14において設定された領域RCi+1は、領域RC3である。したがって、領域設定手段59は、ステップS14において設定された領域RCi+1は領域RCnではないと判断し、ステップS16に進む。
ステップS16では、パラメータiをインクリメントする。パラメータiはi=2に設定されていたので、ステップS16を実行することによって、i=3に設定される。パラメータiをインクリメントした後、ステップS7に戻る。
ステップS7では、第1フォルマント周波数算出手段58(図1参照)が、音声データブロックEiにおける周波数特性を解析し、第1フォルマント周波数Fiを算出する。パラメータiは、i=3であるので、第1フォルマント周波数算出手段58は、音声データブロックE3における周波数特性を解析し、第1フォルマント周波数F3を算出する。ただし、音声データブロックE3における第1フォルマント周波数F2を算出する場合、領域RA3およびRC3における周波数特性は解析せずに、領域RC3の右側の領域r3における周波数特性のみを解析し、第1フォルマント周波数F3を算出する。音声データブロックE3の領域r3における第1フォルマント周波数F3を算出した後、ステップS8に進む。
ステップS8では、領域設定手段59が、ステップS7で算出した第1フォルマント周波数Fiに基づいて、音声データDの中に、第1の領域RBiを設定する。パラメータiは、i=3であるので、領域設定手段59は、ステップS7で算出した第1フォルマント周波数F3に基づいて、音声データDの中に、第1の領域RB3を設定する(図9(v)参照)。
図9(v)は、第1の領域RB3を示す図である。
第1の領域RB3は、領域RC3に隣接するように設定される。第1の領域RB3の幅WB3は、上述した式(5)を用いて、WB3=k/F3となる。
第1の領域RB3を設定することによって、音声データブロックE3に対応するセグメントS3が得られる。セグメントS3は、領域RA3、RC3、およびRB3によって構成されている。
第1の領域RB3を設定した後、ステップS9に進む。
ステップS9では、領域設定手段59が、ステップS8において設定された第1の領域RBiが、第1の領域RB1(i=1)であるか否かを判断する。図9(v)に示すように、ステップS8において設定された領域RBiは、領域RB3である。したがって、領域設定手段59は、ステップS8において設定された領域RBiは、領域RB1ではないと判断し、ステップS17に進む。
ステップS17では、セグメント結合手段63(図1参照)が、互いに隣接するセグメントSiおよびSi+1を結合する。パラメータiは、i=2であるので、セグメント結合手段63は、セグメントS2にセグメントS3を結合する(図9(w)参照)。
図9(w)は、セグメントS2にセグメントS3が結合された様子を示す図である。
本実施形態では、セグメントSiおよびSi+1は、セグメントSiの第1の領域RBiと、セグメントSi+1の第2の領域RAi+1とがオーバーラップするように結合される。したがって、セグメントS3は、セグメントS2に対して、セグメントS2の第1の領域RB2と、セグメントS3の第2の領域RA3とがオーバーラップするように結合される。セグメントS2にセグメントS3を結合した後、ステップS18に進む。
ステップS18では、セグメント結合手段63が、最後の音声データブロックEnに対応するセグメントSn(図10(z)参照)の結合が終了しているか否かを判断する。図9(w)を参照すると、音声データブロックE3に対応するセグメントS3の結合は終了しているが、最後の音声データブロックEnに対応するセグメントSnの結合は終了していない。したがって、ステップS10に戻る。
ステップS10に戻ると、同様の手順で、ステップS10〜S16が実行される。パラメータiは、i=3であるので、ステップS10〜S16を実行することによって、音声データブロックE4に領域RA4およびRC4が設定される(図示せず)。ステップS16においてパラメータiがインクリメントされると、ステップS7に戻る。
ステップS7に戻ると、以下同様の手順で、ステップS7〜S18が繰り返し実行される。この結果、ステップS17に進むたびに、音声データブロックに対応するセグメントが順次結合される。
図10(x)は、音声データブロックEn-1に対応するセグメントSn-1が結合された様子を示す図である。
ステップS17においてセグメントSn-1が結合された後、ステップS18に進む。
ステップS18では、セグメント結合手段63が、最後の音声データブロックEnに対応するセグメントSn(図10(z)参照)の結合が終了しているか否かを判断する。図10(x)を参照すると、音声データブロックEn-1に対応するセグメントSn-1の結合は終了しているが、最後の音声データブロックEnに対応するセグメントSnの結合は終了していない。したがって、ステップS10に戻る。
ステップS10に戻ると、ステップS10〜S14が実行されることによって、最後の音声データブロックEnに領域RAnおよびRCnが設定される(図10(y)参照)。
図10(y)は、音声データブロックEnに設定された領域RAnおよびRCnを示す図である。
ステップS14において、領域RCnが設定された後、ステップS15に進む。
ステップS15では、領域設定手段59が、ステップS14において設定された領域RCi+1が、領域RCnであるか否かを判断する。図10(y)に示すように、ステップS14において設定された領域RCi+1は、領域RCnである。したがって、領域設定手段59は、ステップS14において設定された領域RCi+1は領域RCnであると判断し、ステップS17に進む。尚、最後の音声データブロックEnに対応するセグメントSnは、領域RAnおよびRCnによって構成される。
ステップS17では、セグメント結合手段63(図1参照)が、セグメントSn-1に、セグメントSnを結合する(図10(z)参照)。図10(z)に示す結合されたセグメントS1〜Snが、音声再生データDBとして使用される。セグメントSn-1にセグメントSnを結合した後、ステップS18に進む。
ステップS18では、セグメント結合手段63が、最後の音声データブロックEnに対応するセグメントSnの結合が終了しているか否かを判断する。図10(z)を参照すると、音声データブロックEn-1に対応するセグメントSn-1の結合が終了しているので、図2に示すフローを終了する。
図10(z)に示す音声再生データDBの再生速度Teは、以下の式(7)で表される。
Te=n×Tx ・・・(7)
式(7)および式(4)を、式(1)に代入すると、式(1)は、以下のように表される。
V=Ts/Te
=n×(Tx×V1)/n×Tx
=V1 ・・・(8)
式(8)を参照すると、V=V1であるので、ステップS3で設定した再生速度の倍率V=V1に一致していることがわかる。したがって、音声再生データDBは、ステップS3で設定した再生速度の倍率V=V1に従って再生されることがわかる。
本実施形態では、第1の領域RBiに対して第2の領域RAi+1の位置を別の位置に調整しながら、類似度SIMを算出し、類似度SIMが最大となるときの第2の領域RAi+1の位置を決定している。第1の領域RBiの幅WBiおよび第2の領域RAi+1の幅WAi+1を計算するために用いられる式(5)および(2)は、第1フォルマント周波数Fiを用いた式(6)によって計算される。第1フォルマント周波数は母音の識別に重要な周波数であるので、第1フォルマント周波数を用いた式(5)および(2)を使って第1の領域RBiの幅WBiと第2の領域RAi+1の幅WAi+1とを決定し、類似度SIMの値が大きくなる位置を第2の領域RAi+1の位置として決定することによって、母音が識別しやすい音声再生データDSを得ることができる。ただし、式(5)および(2)に含まれる係数kの値が大きすぎると、母音が識別しやすい音声再生データDSを得ることができなくなるので、係数kの値は、あまり大きすぎないことが望ましい。係数kは、例えば、1<k<3の範囲であることが望ましい。
尚、本実施形態では、第1の領域RB1〜RBn-1の幅WB1〜WBn-1を算出するために、ステップS7において、音声データブロックE1〜Enの各々における第1フォルマント周波数F1〜Fnを算出している。しかし、音声データブロックE1〜Enのうちの特定の音声データブロックEkにおける第1フォルマント周波数Fkを算出し、この第1フォルマント周波数Fkを用いて、全ての第1の領域RB1〜RBn-1の幅WB1〜WBn-1を算出してもよい。また、音声データブロックE1〜Enごとに第1フォルマント周波数を算出する代わりに、音声データDの全体を周波数解析して第1フォルマント周波数Fdを算出し、この第1フォルマント周波数Fdを用いて、全ての第1の領域RB1〜RBn-1の幅WB1〜WBn-1を算出してもよい。
本実施形態では、第2の領域RAi+1の位置を調整しているが、第2の領域RAi+1の位置を調整する代わりに第1の領域RBiの位置を調整して類似度SIMを算出し、類似度SIMの値に基づいて、第1の領域RBiの位置を決定してもよい。また、第1の領域RBiの位置と第2の領域RAi+1の位置との両方を調整して類似度SIMを算出し、類似度SIMの値に基づいて、第1の領域RBiの位置と第2の領域RAi+1との両方を決定してもよい。
本実施形態では、第2の領域RAi+1の位置を初期位置とは別の位置に調整する場合、調整後の別の位置として、4箇所(初期位置から、−Δt1、−Δt2、+Δt3、および+Δt4だけずれた位置)が示されている。しかし、調整後の別の位置は、5箇所以上であってもよいし、3箇所以下であってもよい。
本実施形態においては、相互相関関数を用いて類似度SIMを算出しているが、例えば、AMDF(Average Magnitude
Difference Function)を用いて類似度SIMを算出してもよい。
本実施形態においては、セグメントSiとセグメントSi+1を結合する場合、第1の領域RBiと第2の領域RAi+1とがオーバーラップするように結合している。しかし、第1の領域RBiよりも狭い領域と第2の領域RAi+1よりも狭い領域とがオーバーラップするように結合してもよく(図11(a)参照)、第1の領域RBiよりも広い領域と第2の領域RAi+1よりも広い領域とがオーバーラップするように結合してもよい(図11(b)参照)。ただし、第1の領域RBiと第2の領域RAi+1との間に、ずれ量Δv1又はΔv2が現れるので、このようなずれ量Δv1又はΔv2が存在しても、再生速度の倍率VがV=V1となるように(式(8)参照)、領域RCi+1の長さを調整する必要がある。また、ずれ量Δv1又はΔv2の値が大きすぎると、再生される音声の音質を十分に向上させることが困難になるので、ずれ量Δv1又はΔv2の値は、できるだけ小さいことが望ましい。
本実施形態では、音声データDを、標準の再生速度で再生されるときの再生時間Tsよりも短い時間で再生する場合について説明されている。しかし、本発明は、例えば領域RCi+1の時間長を長くすることによって、音声データDを標準の再生時間Tsよりも長い時間で再生する場合にも適用することができる。
本実施形態においては、磁気共鳴イメージング装置について説明しているが、本発明は、X線CT装置など、他のイメージング装置に適用してもよい。
1 MRI装置
2 コイルアセンブリ
3 テーブル
4 受信コイル
5 制御装置
6 入力装置
7 表示装置
8 被検体
8a 頭部
8b 脳
8c 大脳縦裂
8d 脳梁
8e 脳幹
8f 小脳
9 オペレータ
21 ボア
22 超伝導コイル
23 勾配コイル
24 送信コイル
31 クレードル
51 コイル制御手段
52 信号処理手段
53 記憶部
54 音声データ読出手段
55 再生時間設定手段
56 再生速度倍率算出手段
57 音声データブロック設定手段
58 第1フォルマント周波数算出手段
59 領域設定手段
60 領域位置調整手段
61 類似度算出手段
62 領域位置決定手段
63 セグメント結合手段

Claims (11)

  1. 時間軸を有する音声データに複数のセグメントを設定し、前記複数のセグメントのうちの互いに隣接するセグメントを結合することによって、前記音声データを所定の再生速度で再生される音声再生データに変換する音声データ処理装置であって、
    前記音声データに、時間軸方向の異なる位置に第1の領域および第2の領域を設定する領域設定手段と、
    前記第2の領域の時間軸方向における位置を調整する領域位置調整手段と、
    前記第1の領域における音声データと、前記第2の領域における音声データとの類似度を算出するとともに、前記第1の領域における音声データと、前記領域位置調整手段により位置が調整された前記第2の領域における音声データとの類似度を算出する類似度算出手段と、
    前記類似度算出手段が算出した類似度に基づいて、前記第2の領域の位置を決定する領域位置決定手段と、
    前記第1の領域を含む第1のセグメントと、前記領域位置決定手段により位置が決定された前記第2の領域を含む第2のセグメントとを結合するセグメント結合手段と、
    を有し、
    前記領域設定手段は、
    前記音声データの第1フォルマント周波数に基づいて、前記第1の領域の幅および前記第2の領域の幅を算出する、音声データ処理装置。
  2. 前記領域設定手段は、
    前記音声データの第1フォルマント周波数の逆数に所定の係数を乗算することにより得られる値を、前記第1の領域の幅および前記第2の領域の幅として算出する、請求項1に記載の音声データ処理装置。
  3. 前記音声データの第1フォルマント周波数を算出する第1フォルマント周波数算出手段を有する、請求項1又は2に記載の音声データ処理装置。
  4. 前記音声データに複数の音声データブロックを設定する音声データブロック設定手段を有し、
    前記第1フォルマント周波数算出手段は、前記複数の音声データブロックの各々における第1フォルマント周波数を算出する、請求項3に記載の音声データ処理装置。
  5. 前記セグメント結合手段は、
    前記第1のセグメントの前記第1の領域と、前記第2のセグメントの前記第2の領域とがオーバーラップするように、前記第1のセグメントと前記第2のセグメントとを結合する、請求項1〜4のうちのいずれか一項に記載の音声データ処理装置。
  6. 時間軸を有する音声データに複数のセグメントを設定し、前記複数のセグメントのうちの互いに隣接するセグメントを結合することによって、前記音声データを所定の再生速度で再生される音声再生データに変換する音声データ処理装置であって、
    前記音声データに、時間軸方向の異なる位置に第1の領域および第2の領域を設定する領域設定手段と、
    前記第1の領域の時間軸方向における位置と、前記第2の領域の時間軸方向における位置とを調整する領域位置調整手段と、
    前記第1の領域における音声データと、前記第2の領域における音声データとの類似度を算出するとともに、前記領域位置調整手段により位置が調整された前記第1の領域における音声データと、前記領域位置調整手段により位置が調整された前記第2の領域における音声データとの類似度を算出する類似度算出手段と、
    前記類似度算出手段が算出した類似度に基づいて、前記第1の領域および前記第2の領域の位置を決定する領域位置決定手段と、
    前記領域位置決定手段により位置が決定された前記第1の領域を含む第1のセグメントと、前記領域位置決定手段により位置が決定された前記第2の領域を含む第2のセグメントとを結合するセグメント結合手段と、
    を有し、
    前記領域設定手段は、
    前記音声データの第1フォルマント周波数に基づいて、前記第1の領域の幅および前記第2の領域の幅を算出する、音声データ処理装置。
  7. 請求項1〜6のうちのいずれか一項に記載の音声データ処理装置を有する磁気共鳴イメージング装置。
  8. 時間軸を有する音声データに複数のセグメントを設定し、前記複数のセグメントのうちの互いに隣接するセグメントを結合することによって、前記音声データを所定の再生速度で再生される音声再生データに変換する音声データ処理方法であって、
    前記音声データに、時間軸方向の異なる位置に第1の領域および第2の領域を設定する領域設定ステップと、
    前記第2の領域の時間軸方向における位置を調整する領域位置調整ステップと、
    前記第1の領域における音声データと、前記第2の領域における音声データとの類似度を算出するとともに、前記第1の領域における音声データと、前記領域位置調整ステップにより位置が調整された前記第2の領域における音声データとの類似度を算出する類似度算出ステップと、
    前記類似度算出ステップにより算出された類似度に基づいて、前記第2の領域の位置を決定する領域位置決定ステップと、
    前記第1の領域を含む第1のセグメントと、前記領域位置決定ステップにより位置が決定された前記第2の領域を含む第2のセグメントとを結合するセグメント結合ステップと、
    を有し、
    前記領域設定ステップは、
    前記音声データの第1フォルマント周波数に基づいて、前記第1の領域の幅および前記第2の領域の幅を算出する、音声データ処理方法。
  9. 時間軸を有する音声データに複数のセグメントを設定し、前記複数のセグメントのうちの互いに隣接するセグメントを結合することによって、前記音声データを所定の再生速度で再生される音声再生データに変換する音声データ処理方法であって、
    前記音声データに、時間軸方向の異なる位置に第1の領域および第2の領域を設定する領域設定ステップと、
    前記第1の領域の時間軸方向における位置と、前記第2の領域の時間軸方向における位置とを調整する領域位置調整ステップと、
    前記第1の領域における音声データと、前記第2の領域における音声データとの類似度を算出するとともに、前記領域位置調整ステップにより位置が調整された前記第1の領域における音声データと、前記領域位置調整ステップにより位置が調整された前記第2の領域における音声データとの類似度を算出する類似度算出ステップと、
    前記類似度算出ステップにより算出された類似度に基づいて、前記第1の領域および前記第2の領域の位置を決定する領域位置決定ステップと、
    前記領域位置決定ステップにより位置が決定された前記第1の領域を含む第1のセグメントと、前記領域位置決定ステップにより位置が決定された前記第2の領域を含む第2のセグメントとを結合するセグメント結合ステップと、
    を有し、
    前記領域設定ステップは、
    前記音声データの第1フォルマント周波数に基づいて、前記第1の領域の幅および前記第2の領域の幅を算出する、音声データ処理方法。
  10. 時間軸を有する音声データに複数のセグメントを設定し、前記複数のセグメントのうちの互いに隣接するセグメントを結合することによって、前記音声データを所定の再生速度で再生される音声再生データに変換するためのプログラムであって、
    前記音声データに、時間軸方向の異なる位置に第1の領域および第2の領域を設定する領域設定処理であって、前記音声データの第1フォルマント周波数に基づいて、前記第1の領域の幅および前記第2の領域の幅を算出する領域設定処理と、
    前記第2の領域の時間軸方向における位置を調整する領域位置調整処理と、
    前記第1の領域における音声データと、前記第2の領域における音声データとの類似度を算出するとともに、前記第1の領域における音声データと、前記領域位置調整処理により位置が調整された前記第2の領域における音声データとの類似度を算出する類似度算出処理と、
    前記類似度算出処理により算出された類似度に基づいて、前記第2の領域の位置を決定する領域位置決定処理と、
    前記第1の領域を含む第1のセグメントと、前記領域位置決定処理により位置が決定された前記第2の領域を含む第2のセグメントとを結合するセグメント結合処理と、
    を計算機に実行させるためのプログラム。
  11. 時間軸を有する音声データに複数のセグメントを設定し、前記複数のセグメントのうちの互いに隣接するセグメントを結合することによって、前記音声データを所定の再生速度で再生される音声再生データに変換するためのプログラムであって、
    前記音声データに、時間軸方向の異なる位置に第1の領域および第2の領域を設定する領域設定処理であって、前記音声データの第1フォルマント周波数に基づいて、前記第1の領域の幅および前記第2の領域の幅を算出する領域設定処理と、
    前記第1の領域の時間軸方向における位置と、前記第2の領域の時間軸方向における位置とを調整する領域位置調整処理と、
    前記第1の領域における音声データと、前記第2の領域における音声データとの類似度を算出するとともに、前記領域位置調整処理により位置が調整された前記第1の領域における音声データと、前記領域位置調整処理により位置が調整された前記第2の領域における音声データとの類似度を算出する類似度算出処理と、
    前記類似度算出処理により算出された類似度に基づいて、前記第1の領域および前記第2の領域の位置を決定する領域位置決定処理と、
    前記領域位置決定処理により位置が決定された前記第1の領域を含む第1のセグメントと、前記領域位置決定処理により位置が決定された前記第2の領域を含む第2のセグメントとを結合するセグメント結合処理と、
    を計算機に実行させるためのプログラム。
JP2009150228A 2009-06-24 2009-06-24 音声データ処理装置、磁気共鳴イメージング装置、音声データ処理方法、およびプログラム Active JP5405206B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009150228A JP5405206B2 (ja) 2009-06-24 2009-06-24 音声データ処理装置、磁気共鳴イメージング装置、音声データ処理方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009150228A JP5405206B2 (ja) 2009-06-24 2009-06-24 音声データ処理装置、磁気共鳴イメージング装置、音声データ処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2011007959A true JP2011007959A (ja) 2011-01-13
JP5405206B2 JP5405206B2 (ja) 2014-02-05

Family

ID=43564714

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009150228A Active JP5405206B2 (ja) 2009-06-24 2009-06-24 音声データ処理装置、磁気共鳴イメージング装置、音声データ処理方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP5405206B2 (ja)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS50153805A (ja) * 1974-05-30 1975-12-11
JPH0218598A (ja) * 1988-07-06 1990-01-22 Hitachi Ltd 音声分析装置
JPH0854895A (ja) * 1994-08-11 1996-02-27 Matsushita Electric Ind Co Ltd 再生装置
JP2000214877A (ja) * 1999-01-26 2000-08-04 Oki Electric Ind Co Ltd 音声素片作成方法及び装置
JP2000322100A (ja) * 1999-05-06 2000-11-24 Yamaha Corp ディジタル信号の時間軸圧伸方法及び装置
JP2000342563A (ja) * 1999-06-09 2000-12-12 Toshiba Corp 音声選択装置
JP2005221811A (ja) * 2004-02-06 2005-08-18 Matsushita Electric Ind Co Ltd 音声速度変換装置と音声速度変換方法
JP2005230434A (ja) * 2004-02-23 2005-09-02 Hitachi Medical Corp 医用画像診断装置
JP2005266571A (ja) * 2004-03-19 2005-09-29 Sony Corp 変速再生方法及び装置、並びにプログラム
JP2005535915A (ja) * 2002-08-08 2005-11-24 コスモタン インク 可変長さ合成と相関度計算減縮技法を利用したオーディオ信号の時間スケール修正方法
JP2006149622A (ja) * 2004-11-29 2006-06-15 Toshiba Corp 磁気共鳴画像診断装置
JP2007167283A (ja) * 2005-12-21 2007-07-05 Hitachi Medical Corp 磁気共鳴イメージング装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS50153805A (ja) * 1974-05-30 1975-12-11
JPH0218598A (ja) * 1988-07-06 1990-01-22 Hitachi Ltd 音声分析装置
JPH0854895A (ja) * 1994-08-11 1996-02-27 Matsushita Electric Ind Co Ltd 再生装置
JP2000214877A (ja) * 1999-01-26 2000-08-04 Oki Electric Ind Co Ltd 音声素片作成方法及び装置
JP2000322100A (ja) * 1999-05-06 2000-11-24 Yamaha Corp ディジタル信号の時間軸圧伸方法及び装置
JP2000342563A (ja) * 1999-06-09 2000-12-12 Toshiba Corp 音声選択装置
JP2005535915A (ja) * 2002-08-08 2005-11-24 コスモタン インク 可変長さ合成と相関度計算減縮技法を利用したオーディオ信号の時間スケール修正方法
JP2005221811A (ja) * 2004-02-06 2005-08-18 Matsushita Electric Ind Co Ltd 音声速度変換装置と音声速度変換方法
JP2005230434A (ja) * 2004-02-23 2005-09-02 Hitachi Medical Corp 医用画像診断装置
JP2005266571A (ja) * 2004-03-19 2005-09-29 Sony Corp 変速再生方法及び装置、並びにプログラム
JP2006149622A (ja) * 2004-11-29 2006-06-15 Toshiba Corp 磁気共鳴画像診断装置
JP2007167283A (ja) * 2005-12-21 2007-07-05 Hitachi Medical Corp 磁気共鳴イメージング装置

Also Published As

Publication number Publication date
JP5405206B2 (ja) 2014-02-05

Similar Documents

Publication Publication Date Title
US8027487B2 (en) Method of setting equalizer for audio file and method of reproducing audio file
US9060190B2 (en) Iteratively locating a position corresponding to a desired seek time
CA2989099C (en) Encoding apparatus, encoding method, decoding apparatus, decoding method, and program
JP5032314B2 (ja) オーディオ符号化装置、オーディオ復号化装置およびオーディオ符号化情報伝送装置
US9530396B2 (en) Visually-assisted mixing of audio using a spectral analyzer
US20150213836A1 (en) Apparatus and method for editing
EP1278134A2 (en) Apparatus and method for summarizing video information and processing program for summarizing video information
US20130330062A1 (en) Automatic creation of movie with images synchronized to music
JP2005535915A (ja) 可変長さ合成と相関度計算減縮技法を利用したオーディオ信号の時間スケール修正方法
KR20070050838A (ko) 음성신호처리장치 및 음성신호처리방법
KR102391744B1 (ko) 비대칭 트랜스오럴 오디오 재생을 위한 이득 위상 등화(gpeq) 필터 및 튜닝 방법
US7580761B2 (en) Fixed-size cross-correlation computation method for audio time scale modification
US8885841B2 (en) Audio processing apparatus and method, and program
GB2293741A (en) Speed-variable audio play-back apparatus
US20180091871A1 (en) Apparatus for embedding digital watermark and method for embedding digital watermark
CN103843064A (zh) 在特技模式中播放音频
JP6125857B2 (ja) マルチメディアコンテンツのフレーム検索方法及び装置
JP5405206B2 (ja) 音声データ処理装置、磁気共鳴イメージング装置、音声データ処理方法、およびプログラム
CN110933459B (zh) 赛事视频的剪辑方法、装置、服务器以及可读存储介质
EP2393084B1 (en) Apparatus for playing AVI (Audio Visual Interleaving) files
US11195551B1 (en) Manipulation of video time remapping
KR20080014604A (ko) 오디오 파일의 길이 측정방법 및 장치
US10891966B2 (en) Audio processing method and audio processing device for expanding or compressing audio signals
WO2017028658A1 (zh) 一种语音数据的调整方法及装置
JP2010017216A (ja) 音声データ処理装置,音声データ処理方法、および、イメージング装置

Legal Events

Date Code Title Description
A625 Written request for application examination (by other person)

Free format text: JAPANESE INTERMEDIATE CODE: A625

Effective date: 20120413

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130826

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130906

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130930

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131030

R150 Certificate of patent or registration of utility model

Ref document number: 5405206

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250