JP4460580B2 - 速度変換装置、速度変換方法及びプログラム - Google Patents

速度変換装置、速度変換方法及びプログラム Download PDF

Info

Publication number
JP4460580B2
JP4460580B2 JP2006527702A JP2006527702A JP4460580B2 JP 4460580 B2 JP4460580 B2 JP 4460580B2 JP 2006527702 A JP2006527702 A JP 2006527702A JP 2006527702 A JP2006527702 A JP 2006527702A JP 4460580 B2 JP4460580 B2 JP 4460580B2
Authority
JP
Japan
Prior art keywords
silence
speech speed
speed
audio signal
playback speed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006527702A
Other languages
English (en)
Other versions
JPWO2006008810A1 (ja
Inventor
均 佐々木
浩 片山
理香 西池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2006008810A1 publication Critical patent/JPWO2006008810A1/ja
Application granted granted Critical
Publication of JP4460580B2 publication Critical patent/JP4460580B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/005Reproducing at a different information rate from the information rate of recording
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Description

本発明は、音の高さを変化させることなく音声の再生速度を変化させる装置や方法やプログラムなどに適用されて有効な技術に関する。
従来から、相手の声の高さを変化させることなく会話の速度(以下、「話速」と呼ぶ)を遅くさせることにより、会話の内容を聞き取りやすくするための技術が提案されている。このとき、単純に話速を遅くさせるのみでは、遅くさせた分の遅延が生じてしまう。このような問題を解決するため、会話の途中に存在する無音区間(人の声などの音が無い区間)を詰めることや無音区間における話速を早くさせることで、遅延を解消する技術が提案されている(特許文献1,2参照)。
図25は、従来の話速変換装置P1の機能ブロックの例を示す図である。従来の話速変換装置P1では、有音無音判定部P2が無音であると判定した区間(即ち無音区間)について、その区間の継続時間を継続時間算出部P3が計算する。そして、話速決定部P4が無音区間の継続時間に従って話速を速くすべきか否か決定し、話速変換部P5が無音区間の話速を変換する。
図26は、従来の話速変換の仕組みを説明するための図である。図26において、t1は無音継続時間閾値を示す。無音区間の始まりからt1までの区間を保護区間と呼ぶ。保護区間では、図26に示されるように、話速はほとんど高速化されることはなく、例えば1倍とされる。継続時間算出部P3によって取得された無音区間の継続時間(無音継続時間)がt1を超えた場合に、話速決定部P4は話速を2倍にすることを決定する。そして、話速変換部P5がこの値(2倍)に従って話速変換を行う。ここで、2倍という具体的な数値は例であり、他の値(3倍,5倍など)であっても良い。このような処理により遅延が解消される。
特開2003−216200号公報 特開平08−292796号公報 特開2000−244972号公報
しかしながら、無音区間を詰める処理や無音区間における話速を速める処理を行う際には、有音無音判定の精度を考慮する必要がある。例えば、雑音環境下では有音無音判定において誤判定が生じる場合がある。図27は、雑音の無い環境下での入力音声の例を示す図である。図28は、雑音のある環境下での入力音声の例を示す図である。図27,28では、上方の図がパワー値を示し、下方の図が有音無音の判定結果例を示す。雑音の無い環境下では、話頭や話尾においても正確に有音無音の判定が行われる。しかし、雑音環境下では、雑音レベルが話頭や話尾におけるパワー値と近い値又は超える値となってしまう場合があり、その場合は話頭や話尾が雑音に埋もれてしまう。このため、雑音環境下では、有音無音の判定を正確に実現することが困難となる。例えば、雑音環境下では、話頭や話尾のように音声パワーが小さい部分は、有音であるにも関わらず無音と誤判定される可能性が高くなってしまう(例えば、図28下方の点線で示される部分)。音声パワーが小さい部分の例として、話尾・話頭の他にも、無声子音などがある。
上記のような誤判定に基づいて無音区間を詰める処理や話速を速める処理が実行されると、音切れの発生や、無音継続長が過度に短縮されるなどの問題が生じてしまう。図29は、誤判定に基づいて無音区間を詰める処理や無音区間の話速を速くする処理が実行された場合に生じる問題を説明するための図である。図29(a)では、雑音が無いため話尾と話頭との判定が正確に行われる。このため、話尾と話頭との間にある無音区間を詰める処理や話速を高速化する処理が適切に実施される。一方、図29(b)では、雑音があるため話尾と話頭とが誤判定されてしまう。このため、図29(b)の場合は、無音区間と判定された話尾(点線で示される話尾の波形)と、無音区間と判定された話頭(点線で示される話頭の二つの波形:語尾の波形と重ねて表示している)とが考慮されることなく無音区間を詰める処理が行われる。この結果、点線で示された話尾と話頭との間の無音区間が過度に短くなるという問題が生じ、例示の場合には話尾や話頭のどちらか(または両方)が削られることによる音切れが発生してしまう。また、無音区間の話速の高速化が行われる場合は、無音区間を詰める場合に比べて話尾や話頭が喪失されるという問題は防止される。しかし、依然として話尾や話頭が聞き取りにくくなるという問題は解決されない。
このような問題は、特に話尾については、保護区間を設けることによりある程度解消することができる。図30は、保護区間を設けた場合の話速の制御例を示す図である。しかし、保護区間を超えて話尾の誤判定が発生した場合、話尾が聞き取りにくくなるという問題は解消されない。この場合、保護区間を長く設定することも考えられる。しかし、保護区間では基本的に話速が高速化されないため、過度に保護区間を長くすることは遅延の解消を妨げることとなり好ましくない。
そこで本発明はこれらの問題を解決し、雑音環境下などにおいて、特に話尾が無音区間として誤判定された場合にも、話尾を聞き取ることを容易とするとともに遅延を解消することが可能となる装置を提供することを目的とする。
上記問題を解決するため、本発明は以下のような構成をとる。本発明の第一の態様は、速度変換装置であって、有音無音判定手段,無音継続長取得手段,決定手段,及び変更手段を含む。有音無音判定手段は、入力された音声信号のうち処理の対象となる部分が有音であるか無音であるか判定する。無音継続長取得手段は、有音無音判定手段において無音であると継続的に判定されている音声信号の長さを示す無音継続長を取得する。無音継続長とは、音声信号の長さを示す単位であればどのような単位を用いて表されても良い。例えば、無音継続長は、通常速度で再生された場合の時間を用いて表されても良いし、複数フレームに分けられた音声信号のフレーム数を用いて表されても良い。決定手段は、無音継続長取得手段によって取得された無音継続長の長さに応じて、無音継続長が長いほど再生速度が速くなるように、無音継続長が短いほど再生速度の高速化が抑えられるように、音声信号のうち処理の対象となる部分の再生速度を決定する。変更手段は、決定手段によって決定された再生速度に従って、音声信号の再生速度を変更する。
一般的に、話尾は、音声パワーが小さいなどの理由により雑音環境下では無音と誤判定され易い。従って、従来は、話尾周辺の音声信号において、無音と判定された後に話速が急激に高速化されると、誤判定されてしまった話尾部分が急激に高速化されてしまい音切れなどの悪影響が生じていた。このような問題に対し本発明の第一の態様では、無音継続長が取得され、その長さに応じて、無音と判定された部分の再生速度が決定される。このとき、無音継続時間が短いほど再生速度の高速化が抑えられるように、話速が決定される。このため、無音継続時間が短い部分、即ち話尾の存在する可能性の高い部分については、高速化の程度が抑えられる。このため、話尾についての音切れなどの悪影響を防止又は軽減することが可能となる。一方で、無音継続長が長いほど再生速度は速い速度として決定される。従って、無音継続時間が長い部分、即ち話尾の存在する可能性の低い部分については、高速化を重視することにより、遅延を効率よく解消することが可能となる。
本発明の第一の態様は、有音無音判定手段において有音であると判定された場合に、音声信号の再生速度を通常の再生速度よりも遅くする低速化手段と、低速化手段によって生じる遅延量を累積的に取得する遅延量取得手段とをさらに含むように構成されても良い。このように構成された場合、決定手段は、遅延量取得手段によって取得された遅延量の累積値に基づいて、遅延量の累積値が大きいほど再生速度の最大値が大きくなるように、再生速度の最大値を決定し、この最大値及び無音継続長の長さに応じて、音声信号の処理の対象となる部分の再生速度を決定する。
このように構成された本発明の第一の態様では、有音と判定された部分については低速化手段によって低速再生が実施されるため、ユーザが有音と判定された部分(有音部分)の音声を聞き取りやすくなる。そして、決定手段や変更手段によって無音と判定された部分(無音部分)の再生速度が高速化されることにより、低速化手段によって生じる遅延が解消される。このとき、決定手段は、低速化手段における低速化に伴って生じる遅延量の累積値に応じて、再生速度を決定する際の最大値を決定する。このため、遅延量の累積値が大きいほど再生速度は高速として決定され、累積された遅延が効果的に解消される。一方で、遅延量の累積値が小さい場合は再生速度の高速化は抑えられるため、特に必要のない高速化よりも音飛びなどの悪影響を防止することが優先される。
本発明の第一の態様における有音無音判定手段は、入力された音声信号のうち処理の対象となる部分から未来方向にある所定の各部分の前記判定とをさらに行うように構成されても良い。この場合、無音継続長取得手段は、未来方向について、処理の対象となる部分から継続して無音であると判定されている信号の長さを示す未来方向継続長を取得するように構成される。また、決定手段は、未来方向継続長が閾値よりも小さい場合には、未来方向継続長の長さに応じて、未来方向継続長が短いほど再生速度が遅くなるように、対象となる部分の再生速度を決定する。
このように構成された本発明の第一の態様では、無音と判定された部分の話速が、未来方向の無音継続長にも基づいて決定される。具体的には、決定手段は、未来方向の無音継続長が短いほど話速が遅くなるように話速を決定する。このため、有音と判定された部分に近い無音部分の話速は、高速化が抑えられる。このため、話頭において無音と誤判定された場合の悪影響(音切れなど)を防止又は軽減することが可能となる。
本発明の第一の態様における有音無音判定手段は、判定を行う各部分について、判定結果の信頼度をさらに取得するように構成されても良い。この場合、決定手段は、信頼度に応じて、信頼度が高いほど再生速度の最大値が大きくなるように再生速度の最大値を決定し、この最大値及び無音継続長の長さに応じて、音声信号の処理の対象となる部分の再生速度を決定する音声信号のうち処理の対象となる部分の再生速度を決定する。
このように構成された本発明の第一の態様では、判定結果の信頼度に基づいて最大話速が決定される。具体的には、判定結果の信頼度が高いほど無音部分の話速を決定する際の最大話速が高速となる。このため、無音という判定結果の信頼度が低い場合は最大話速を低く抑えられる。従って、誤判定が生じた際の音飛びなどの悪影響を軽減することが可能となる。一方、無音という判定結果の信頼度が高い場合は最大話速が高く設定される。従って、誤判定の場合の悪影響よりも話速を高速にすることを優先し、遅延の累積を効果的に削減することが可能となる。
本発明の第一の態様における有音無音判定手段は、処理の対象となる部分における音声信号のパワー値から、過去に無音と判定された部分における音声信号のパワー値の平均を減算し、この減算結果に基づいて、減算結果の値が低いほど高い信頼度を取得し、減算結果の値が高いほど低い信頼度を取得するように構成されても良い。
本発明の第一の態様は、音声信号のうち処理の対象となる部分について、信号雑音比を取得する信号雑音比取得手段をさらに備えるように構成されても良い。この場合、決定手段は、信号雑音比取得手段によって取得された信号雑音比に応じて、信号雑音比が高いほど再生速度の最大値が大きくなるように、信号雑音比が低いほど再生速度の最大値が小さくなるように再生速度の最大値を決定し、この最大値及び無音継続長の長さに応じて、音声信号の処理の対象となる部分の再生速度を決定する。
このように構成された本発明の第一の態様では、信号雑音比に応じて最大話速が決定される。信号雑音比が高い場合、即ち信号が良好な場合には、有音無音判定において誤判定の生じる可能性が低いため、高速化の最大値が高く設定され遅延の解消が図られる。一方で、信号雑音比が低い場合、即ち信号が良好でない場合には、有音無音判定において誤判定の生じる可能性が高いため、高速化の最大値は低く設定され、悪影響の発生が防止される。
本発明の第二の態様は、速度変換装置であって、有音無音判定手段,低速化手段,遅延量取得手段,決定手段,及び変更手段を含む。有音無音判定手段は、入力された音声信号のうち処理の対象となる部分が有音であるか無音であるか判定する。低速化手段は、有音無音判定手段において有音であると判定された場合に、音声信号の再生速度を通常の再生速度よりも遅くする。遅延量取得手段は、低速化手段によって生じる遅延量を累積的に取得する。決定手段は、遅延量取得手段によって取得される累積された遅延量に基づいて、遅延量が多いほど再生速度が速くなるように、音声信号のうち処理の対象となる部分の再生速度を決定する。変更手段は、決定手段によって決定された再生速度に従って、音声信号の再生速度を変更する。
このように構成された本発明の第二の態様では、無音継続長ではなく遅延量の累積値に基づいて再生速度の高速化が実現され、実質的に本発明の第一の態様と同様の効果を奏する。
本発明の第三の態様は、速度変換装置であって、入力された音声信号が有音であるか無音であるか判定する手段と、有音である期間の再生速度を遅くするとともに、無音である期間を詰める、又無音である期間の再生速度を速くする手段とを有する。
第一の態様〜第三の態様は、プログラムが情報処理装置によって実行されることによって実現されても良い。即ち、本発明は、上記した第一の態様から第三の態様における各手段が実行する処理を、情報処理装置に対して実行させるためのプログラム、或いは当該プログラムを記録した記録媒体として特定することができる。また、本発明は、上記した各手段が実行する処理を情報処理装置が実行する方法をもって特定されても良い。
本発明によれば、話尾についての音切れなどの悪影響を防止又は軽減することが可能となる。一方で、話尾の存在する可能性の低い部分については、高速化を重視することにより、遅延を効率よく解消することが可能となる。
話速変換装置の第一実施形態の機能ブロック例を示す図である。 入力信号の例を示す図である。 無音と判定された場合に話速決定部が行う話速の制御例を示す図である。 無音と判定された場合に話速決定部が行う話速の制御例を示す図である。 話速変換装置の第一実地形態の動作例を示すフローチャートである。 話速変換装置の第一実施形態による話速の制御例を示す図である。 話速変換装置の第一実施形態による効果の例を示す図である。 話速変換装置の第二実施形態の機能ブロック例を示す図である。 累積遅延量と話速との関係を示す図である。 無音継続時間と話速との関係を示す図である。 無音継続時間と話速との関係を示す図である。 話速変換装置の第二実施形態の動作例を示すフローチャートである。 話速変換装置の第三実施形態の機能ブロック例を示す図である。 第三実施形態における有音無音判定部が有音無音判定の結果を取得するフレームの例を示す図である。 第三実施形態における話速決定部が決定する話速と無音継続時間との関係を示すグラフである。 話速変換装置の第三実施形態の動作例を示すフローチャートである。 話速変換装置の第三実施形態における話速の制御例を示す図である。 話速変換装置の第四実施形態の機能ブロック例を示す図である。 信頼度と減算結果との関係例を示す表である。 信頼度と最大話速との関係例を示す表である。 話速変換装置の第四実施形態の動作例を示すフローチャートである。 話速変換装置の第五実施形態の機能ブロック例を示す図である。 信号雑音比と最大話速との関係例を示すグラフである。 話速変換装置の第五実施形態の動作例を示すフローチャートである。 従来の話速変換装置の機能ブロックの例を示す図である。 従来の話速変換の仕組みを説明するための図である。 雑音の無い環境下での入力音声の例を示す図である。 雑音の有る環境下での入力音声の例を示す図である。 誤判定に基づいて無音区間を詰める処理や無音区間の話速を速くする処理が実行された場合に生じる問題を説明するための図である。 保護区間を設けた場合の話速の制御例を示す図である。
符号の説明
1a,1b,1c,1d,1e 話速変換装置
2a,2c,2d 有音無音判定部
3a,3c 継続時間算出部
4a,4b,4c,4d,4e 話速決定部
5a,5b 話速変換部
6 遅延量取得部
7 信号雑音比取得部
P1 話速変換装置
P2 有音無音判定部
P3 継続時間算出手段
P4 話速決定部
P5 話速変換部
[第一実施形態]
〔システム構成〕
まず、話速変換装置1の第一実施形態である話速変換装置1aの構成例について説明する。話速変換装置1aは、ハードウェア的には、バスを介して接続されたCPU(中央演算処理装置),主記憶装置(RAM),補助記憶装置などを備える。補助記憶装置は、不揮発性記憶装置を用いて構成される。ここで言う不揮発性記憶装置とは、いわゆるROM(Read−Only Memory:EPROM(Erasable Programmable Read−Only Memory),EEPROM(Electrically Erasable Programmable Read−Only Memory),マスクROM等を含む),FRAM(Ferroelectric RAM),ハードディスク等を指す。
図1は、話速変換装置1aの機能ブロックの例を示す図である。話速変換装置1aは、補助記憶装置に記憶された各種のプログラム(OS,アプリケーション等)が主記憶装置にロードされCPUにより実行されることによって、有音無音判定部2a,継続時間算出部3a,話速決定部4a,及び話速変換部5a等を含む装置として機能する。有音無音判定部2a,継続時間算出部3a,話速決定部4a,及び話速変換部5aは、プログラムがCPUによって実行されることにより実現される。また、有音無音判定部2a,継続時間算出部3a,話速決定部4a,及び話速変換部5aは専用のチップとして構成されても良い。次に、話速変換装置1aが含む各機能部について説明する。
〈有音無音判定部〉
有音無音判定部2aは、話速変換装置1aに入力された入力信号のうち処理の対象となる部分について、有音であるか無音であるかを判定する(この処理を「有音無音判定」と呼ぶ)。有音無音判定部2aには、既存のどのような有音無音判定技術が適用されても良い。以下、有音無音判定部2aが行う処理の具体例について説明する。
図2は、入力信号の例を示す図である。図2は、20ms(サンプルレート8kHz時の160サンプル)を1フレームとしてフレーム単位ごとに処理を行う場合の入力信号の例を示す。即ち、この場合は、図2のような各フレームが処理の対象となる。例えば、有音無音判定部2aは、入力信号のパワー値に基づいて有音であるか無音であるかを判定できる。処理対象のフレームを入力信号(n)とした場合、まず、有音無音判定部2aは、入力信号(n)のパワー値(例えば入力信号(n)の2乗和平均の値)を算出する。次に、有音無音判定部2aは、過去のフレーム(入力信号(n−1),入力信号(n−2),・・・)における無音時の平均パワー値(dB単位での平均)の算出を行う。次に、有音無音判定部2aは、入力信号(n)のパワー値から過去のフレームにおける無音時の平均パワー値の減算を行う。そして、有音無音判定部2aは、その減算結果が閾値よりも大きいか否かに応じて、有音無音判定を行う。
なお、上記の有音無音判定の処理内容は一例であり、他の処理が適用されることにより有音無音判定が実現されても良い。有音無音判定部2aは、判定の結果を継続時間算出部3aへ渡す。
〈継続時間算出部〉
継続時間算出部3aは、入力信号において無音状態が継続している信号の長さとして、その信号が通常の速度で再生される際の時間(無音継続時間)を算出する。即ち、継続時間算出部3aは、有音無音判定部2aが継続的に無音と判定し続けている時間を算出する。継続時間算出部3aは、算出した無音継続時間を話速決定部4aへ渡す。
なお、入力信号において無音状態が継続している信号の長さとして、無音と判定されたフレームの数や振幅数など、他の値を用いるように構成されても良い。
〈話速決定部〉
話速決定部4aは、有音無音判定部2aによる判定結果が無音である場合には、継続時間算出部3aによって算出された無音継続時間に応じて話速を決定する。図3,4は、無音と判定された場合に話速決定部4aが行う話速の制御例を示す図である。図3,4において、太い破線によって示されるグラフが、話速決定部4aによって決定される話速と無音継続時間との関係を示す。話速決定部4aは、無音継続時間が長いほど話速が速くなるように話速を決定する。例えば、話速決定部4aは、無音継続時間が閾値t2を超えた時点から閾値t3に至るまで、話速の倍率を無音継続時間の増大に従って直線的に2倍まで増加させても良い(図3参照)。この場合、例えば、話速決定部4aは、無音継続時間と話速との関係を示す数式に基づいて、無音継続時間から話速を算出しても良い。このとき、t2からt3にかけて話速が線形に増加するように設定されても良いし、話速が非線形に増加するように設定されても良い。
また、話速決定部4aは、無音継続時間に応じて多段階(図4では5段階)で話速を2倍まで増加させても良い(図4参照)。この場合、話速決定部4aは、無音継続時間について設けられた複数の閾値(t1〜t5)に従って多段階で話速を決定しても良い。話速決定部4aは、決定した話速を話速変換部5aへ渡す。
また、話速決定部4aは、有音無音判定部2aによって有音であると判断された場合には、有音区間の話速を決定する。例えば、話速決定部4aは、有音区間の話速を通常の話速よりも遅く(例えば1倍未満)決定する。このように構成されることにより、有音区間の音声をユーザが聞き取りやすくなる。
〈話速変換部〉
話速変換部5aは、話速決定部4aによって決定された話速に従って、入力信号の話速を変換する。具体的には、話速変換部5aは、処理対象となっているフレーム、即ち有音無音判定部2aによる有音無音判定が実施されたフレームにおける話速を変換する。そして、話速変換部5aは、話速が変換された後の信号を話速変換信号として出力する。
〔動作例〕
図5は、話速変換装置1aの動作例を示すフローチャートである。以下、図5を用いて話速変換装置1aの動作例について説明する。処理が開始されると、まず、話速変換装置1aに入力信号が入力される。そして、入力信号のうちの処理の対象となるフレームについて、有音無音判定部2aは、有音無音判定を実施する(S01)。この判定の結果、処理の対象となっているフレームが無音であると判定された場合(S02−無音)、継続時間算出部3aは、無音継続時間を算出する(S03)。次に、話速決定部4aは、この無音継続時間に基づいて、無音区間の話速を決定する(S04)。一方、S02において、処理の対象となっているフレームが有音であると判定された場合(S02−有音)、話速決定部4aは、処理の対象となっているフレームについて有音区間としての話速を決定する(S07)。そして、話速変換部5aは、話速決定部4aによって決定された話速に従って、処理の対象となっているフレームについて話速変換処理を行い(S05)、話速変換信号を出力する(S06)。
〔作用/効果〕
話速変換装置1aでは、無音区間の話速が、無音継続時間の長さに従ってより高速となるように決定される。図6は、話速変換装置1aによる話速の制御例を示す図である。上記のように構成されることにより、話速変換装置1aでは、例え保護区間を超えて話尾の誤判定が発生したとしても、そのような話尾の部分については急激に高速化されることはなく、高速化の程度が抑えられている(例えば1倍に近い話速に変換される)。このため、話尾の音が聞き取りにくくなるという問題や話尾において音切れが生じるという問題を解消することができる。また、無音継続時間の長さに応じて話速が高速化するため、遅延の解消が妨げられることもない。さらに、図6のように、場合によっては次の話頭(又は話頭の一部分)についても高速化を抑え、従来に比べて聞き取りやすくすることも可能である。
また、話速変換装置1aにおいて、保護区間の長さや、保護区間後の話速変化率の勾配を変更することにより、遅延量をあまり増大させることなく音切れなどの問題を解消することも可能となる。言い換えれば、話速を細かく制御することが可能となり、誤判定が発生した場合の悪影響を最小限にすることができる。例えば、リアルタイム処理を重視する場合は、保護区間を短くし、上記勾配を大きくすることが有効である。また、例えば図3においては、従来技術における保護区間がt1までだったものを、それよりも短いt2までというように短縮している。図3においては、t2からt1までの時間とt1からt3までの時間とを同じとすることにより、従来までの遅延の解消量と話速変換装置1aにおける遅延の解消量とを同一にしつつ、話尾の音切れなどを防止することが可能となる。
また、図7は、話速変換装置1aの効果の例を示す図である。図7(a)〜(d)は、「新たに発掘し」と発生された音声の波形を示す図である。図7(a)は、有音区間・無音区間ともになんら処理を行わない波形、即ち入力信号そのものの波形を示す。図7(b)〜(d)は有音区間において話速を遅くしている。図7(b)は、無音区間を詰める従来技術を施した場合の出力波形を示す。図7(c)は、無音区間の話速を速める従来技術を施した場合の出力波形を示す。そして、図7(d)は、話速変換装置1aにより無音区間の話速が速められた場合の出力波形(話速変換信号の波形)を示す。図7(a)からわかるように、「はっくつし」の話尾である「つ」の部分のパワー値が小さい。このため、この「つ」の部分が無音であると誤判定されてしまう。この誤判定の影響により、図7(b),(c)では音切れが生じてしまっていることがわかる。一方、図7(d)では、上記の「つ」の部分が無音であると誤判定されていたとしても、無音区間の話速の急激な高速化が防止されるため、音切れが生じていないことがわかる。
また、従来は、遅延時間については、双方向通信の場合において、再生速度を変化させると、変化前と変化後とでは遅延が大きくなり通信が困難となる又は通信が成立しなくなるという問題も生じていたが、このような問題についても解決することが可能となる。
〔変形例〕
話速変換装置1aでは、図6に示されるように有音区間については話速を遅くする処理が実施されるが、話速変換装置1aはこのような処理を行わないように構成されても良い。即ち、話速変換装置1aは、無音区間については話速を速める処理を実行するが、有音区間については話速を遅らせる処理を実行しないように構成されても良い。例えば、IP電話(Internet Protocol電話)などのように、特に有音区間について話速を遅くする処理を行わなくとも遅延が生じてしまうシステムに話速変換装置1aを適用することが有効である。この場合、IP電話において話速変換とは別の原因により生じる遅延を解消することが可能となる。
また、話速変換装置1aは、有音区間における話速を遅くする場合に、有音区間の継続時間を算出し、この継続時間に応じて有音区間の話速を決定するように構成されても良い。
[第二実施形態]
〔システム構成〕
次に、話速変換装置1の第二実施形態である話速変換装置1bの構成例について説明する。図8は、話速変換装置1bの機能ブロックの例を示す図である。話速変換装置1bは、遅延量取得部6を含む点、話速決定部4aに代えて話速決定部4bを含む点、及び話速変換部5aに代えて話速変換部5bを含む点で、話速変換装置1aと異なる。他の構成については、話速変換装置1bは、基本的に話速変換装置1aと同じである。以下、話速変換装置1bについて、話速変換装置1aと異なる点について説明する。
〈話速変換部〉
話速変換部5bは、有音無音判定部2aによる判定結果が有音である場合には、処理の対象となっているフレームの話速を遅らせる。このとき、話速変換部5bは、話速決定部4bによって決定された有音区間における話速に基づいて話速を遅らせても良いし、話速決定部4bの決定に関わらず有音区間における話速を所定の話速に遅らせても良い。
また、話速変換部5bは、話速変換の度に生じる遅延量を、遅延量取得部6へ通知する。例えば、話速変換部5bは、有音区間に対して話速を遅らせる話速変換が実施された場合には正の値の遅延量を取得し、無音区間に対して話速を速める話速変換が実施された場合には負の値の遅延量を取得し、それぞれの値を遅延量取得部6に通知しても良い。
〈遅延量取得部〉
遅延量取得部6は、話速変換部5bが有音区間に対して話速を遅らせたことにより生じる遅延量を累積することにより、各処理時点における累積された遅延量(以下、「累積遅延量」と呼ぶ)を取得する。例えば、遅延量取得部6は、話速変換部5bから話速の変換処理により生じた遅延量を処理の度に取得しそれを蓄積することにより累積遅延量を取得しても良い。遅延量取得部6は、各処理時点における累積遅延量を話速決定部4bに渡す。
〈話速決定部〉
話速決定部4bは、無音区間の話速を決定する際に、継続時間算出部3aによって得られた無音継続時間と遅延量取得部6によって取得された累積遅延量とに基づいて話速を決定する点で話速決定部4aと異なる。図9は、累積遅延量と話速との関係を示す図である。話速決定部4bは、累積遅延量に基づき、最大話速を決定する。話速決定部4bは、例えば累積遅延量が閾値d1から閾値d2の間である場合に、図9に示されるように累積遅延量の増加に従って最大話速話速を増加させる。図10,11は、無音継続時間と話速との関係を示す図である。話速決定部4bは、累積遅延量に従って決定した最大話速と無音継続時間とに基づき、図10や図11に示されるようなグラフによって話速を決定する。即ち、話速決定部4bは、累積遅延量に従って決定した最大話速を上限として、無音継続時間が長いほど話速が高速となるように話速を決定する。
〔動作例〕
図12は、話速変換装置1bの動作例を示すフローチャートである。なお、図12において、図5のフローチャートに示された処理と同様の処理については図5と同じ符号を付す。以下、図12を用いて、話速変換装置1bの動作例について、話速変換装置1aとは異なる処理についてのみ説明する。
処理が開始されると、まず、話速変換装置1bに入力信号が入力され、その時点での累積遅延量を遅延量取得部6が取得する(S08)。その後、有音無音判定部2aによる有音無音判定が実施される。そして、継続時間算出部3aが無音継続時間を算出した後(S03の後)、話速決定部4bは、遅延量取得部6によって取得された累積遅延量と継続時間算出部3aによって取得された無音継続時間とに基づいて、無音区間の話速を決定する(S09)。この処理の後、話速変換装置1aの場合と同様に、話速変換装置1bの話速変換部5bはS05,S06の処理を実行する。また、有音無音判定部2aによる判定結果が有音であった場合の処理は、話速変換装置1aの場合と同様の処理となる(S07参照)。
〔作用/効果〕
話速変換装置1が無音区間の話速を高速化させる一つの理由は、有音区間の話速を遅く変換することにより生じる遅延を解消することである。このため、遅延がほとんど生じていない場合には、無音区間の話速をほとんど高速化させる必要はない。従って、蓄積している遅延の量に応じて無音区間の話速を制御することも有効である。このような視点に従い、話速変換装置1bは、遅延量の蓄積状況に応じて、無音区間の話速を決定する際に基準となる最大話速を決定する。このように構成されることにより、累積遅延量が少ない場合に不必要に話速が高速化されることを防止することが可能となる。言い換えれば、累積遅延量が少ない場合の音切れを、話速変換装置1aに比べてより効果的に緩和することが可能となる。
〔変形例〕
話速変換装置1bにおいては、継続時間算出部3aは、無音区間における継続時間、即ち無音継続時間を算出しないように構成されても良い。このように構成された場合、話速決定部4bは、累積遅延量のみに基づいて話速を決定する。具体的には、このように構成された話速決定部4bは、図9に示されるグラフにおいて、累積遅延量に基づき最大話速を決定するのではなく、累積遅延量に基づき話速を決定する。例えば、このような構成は、図9に示されるグラフにおいて、縦軸の値を話速とすることで実現できる。
また、話速変換装置1bにおける話速変換部5bは、S05やS06の処理の後に、遅延量取得部6に遅延量を通知しても良い。
また、話速変換部5bではなく、話速決定部4bが遅延量を取得し遅延量取得部6へ通知を行っても良い。
[第三実施形態]
〔システム構成〕
次に、話速変換装置1の第三実施形態である話速変換装置1cの構成例について説明する。図13は、話速変換装置1cの機能ブロックの例を示す図である。話速変換装置1cは、有音無音判定部2aに代えて有音無音判定部2cを含む点、継続時間算出部3aに代えて継続時間算出部3cを含む点、及び話速決定部4aに代えて話速決定部4cを含む点で話速変換装置1aと異なる。他の構成については、話速変換装置1cは、基本的に話速変換装置1aと同じである。以下、話速変換装置1cについて、話速変換装置1aと異なる点について説明する。
〈有音無音判定部〉
有音無音判定部2cは、処理の対象としているフレームのみではなく、処理の対象としているフレームよりも前のフレーム(過去方向のフレーム)及び後のフレーム(未来方向のフレーム)についても有音無音判定の結果を取得する点で、有音無音判定部2aと異なる。図14は、有音無音判定部2cが有音無音判定の結果を取得するフレームの例を示す図である。有音無音判定部2cは、処理対象となるフレームと、その前のL個のフレームと、その後のM個のフレームとにおける有音無音判定の結果を取得する。即ち、有音無音判定部2cは、(1+L+M)フレーム分の有音無音判定の結果を取得する。有音無音判定部2cは、これらの各フレームについて有音無音判定を毎回実行することにより有音無音判定の結果を取得しても良い。また、有音無音判定部2cは、既に有音無音判定の済んでいるフレームについては、その判定結果を記憶しておき、新たに有音無音判定の実施が必要なフレームについてのみ有音無音判定を行うことにより上記の各フレームについての結果を取得しても良い。有音無音判定部2cは、各フレームにおける有音無音判定の結果を、継続時間算出部3cに渡す。
〈継続時間算出部〉
継続時間算出部3cは、有音無音判定部2cにおいて、処理の対象となるフレームが無音と判定された場合に、処理対象となるフレームから過去方向に向けて連続して無音と判定されたフレーム数と、未来方向に向けて連続して無音と判定された連続フレーム数とを取得する。
具体的には、継続時間算出部3cは、過去方向であれば入力信号(n−1),入力信号(n−2),入力信号(n−3)と順に入力信号(n−L)までの有音無音判定の結果を順に参照し、処理対象のフレームから連続して無音と判定されたフレームの数を取得する。未来方向の場合は、継続時間算出部3cは、入力信号(n+1),入力信号(n+2),入力信号(n+3)と順に入力信号(n+M)までの有音無音判定の結果を順に参照し、処理対象のフレームから連続して無音と判定されたフレームの数を取得する。そして、継続時間算出部3cは、取得されたフレームの数に基づいて、処理対象となっているフレームから過去方向と未来方向へのそれぞれの無音継続時間を取得する。継続時間算出部3cは、処理対象となっているフレームから過去方向への無音継続時間と、処理対象となっているフレームから未来方向への無音継続時間とを話速決定部4cへ渡す。
〈話速決定部〉
話速決定部4cは、無音区間の話速を決定する際に、処理対象となっているフレームから過去方向への無音継続時間及び未来方向への無音継続時間に基づいて話速を決定する点で、話速決定部4aと異なる。話速決定部4cは、未来方向への無音継続時間が所定の閾値よりも短い場合には、未来方向への無音継続時間に基づき話速を決定する。このとき、話速決定部4cは、未来方向への無音継続時間が短いほど話速が遅くなるように話速を決定する。以下、話速決定部4cの具体的な処理について説明する。
図15は、話速決定部4cが決定する話速と無音継続時間との関係を示すグラフである。図15(a)は、未来方向への無音継続時間と話速との関係を示すグラフであり、図15(b)は、過去方向への無音継続時間と話速との関係を示すグラフである。話速決定部4cは、まず、未来方向への無音継続時間を基に、図15(a)に示されるグラフに基づいて話速を取得する。話速決定部4cは、このときの話速が2倍未満の場合、言い換えれば未来方向への無音継続時間が閾値t7よりも短い場合は、このときの話速を処理対象のフレームの話速として決定する。一方、話速決定部4cは、このときの話速が2倍である場合は、言い換えれば未来方向への無音継続時間が閾値t7よりも長い場合は、さらに過去方向への無音継続時間を基に図15(b)に示されるグラフに基づいて話速を取得する。そして、話速決定部4cは、過去方向への無音継続時間に基づいて取得した話速を、処理対象のフレームの話速として決定する。
話速決定部4cは、以下のように処理を行っても良い。まず、話速決定部4cは、未来方向への無音継続時間が閾値t7以上であるか否か判断する。次に、話速決定部4cは、未来方向への無音継続時間が閾値t7未満である場合には、図15(a)のグラフに基づき、未来方向への無音継続時間を用いて話速を決定する。そして、話速決定部4cは、未来方向への無音継続時間が閾値t7以上である場合には、図15(b)のグラフに基づき、過去方向への無音継続時間を用いて話速を決定する。
話速決定部4cは、以下のように処理を行っても良い。まず、図15(a)のグラフに基づき、未来方向への無音継続時間を用いて話速を決定する。次に、図15(b)のグラフに基づき、過去方向への無音継続時間を用いて話速を決定する。話速決定部4cは、これら2つの話速の遅い方の話速を処理対象のフレームの話速として決定する。
話速決定部4cは、未来方向への無音継続時間を用いて処理を行うことにより、無音区間から有音区間へ移行する際の話速を緩やかに減速させることを特徴とする。従って、上記のような方法に限らず、未来方向への無音継続時間を用いることにより有音区間への移行のタイミングを判断し話速を緩やかに減速させる他の方法が話速決定部4cに適用されても良い。
〔動作例〕
図16は、話速決定装置1cの動作例を示すフローチャートである。図16では、閾値t7を用いて過去方向と未来方向とのいずれの無音継続時間を用いて処理を行うか判断する方法が話速決定部4cに適用された場合のフローチャートを示す。以下、図16を用いて話速決定装置1cの動作例について説明する。
処理が開始されると、まず、話速変換装置1cに入力信号が入力される。そして、入力信号のうちの処理の対象となるフレーム、及びその前後に位置する各フレームについて、有音無音判定部2cが有音無音判定を行う(S10)。この判定の結果、処理対象のフレームが無音であると判定された場合(S11−無音)、継続時間算出部3cは、過去方向の無音継続時間及び未来方向の無音継続時間を算出する(S12,S13)。次に、話速決定部4cは、未来方向の無音継続時間が閾値t7以上(閾値t7よりも長い)か否か判断する。この値が閾値t7以上である場合(S14−YES)、話速決定部4cは、過去方向の無音継続時間を用いて、図15(b)に示されるグラフに基づき、話速を決定する(S15)。一方、この値が閾値t7未満である場合(S14−NO)、話速決定部4cは、未来方向の無音継続時間を用いて、図15(a)に示されるグラフに基づき、話速を決定する(S16)。一方、有音無音判定において、処理対象のフレームが有音であると判定された場合(S11−有音)、話速決定部4cは、有音区間としての話速を決定する(S19)。そして、話速変換部5aは、話速決定部4cによって決定された話速に従って、処理の対象となっているフレームについて話速変換処理を行い(S17)、話速変換信号を出力する(S18)。
〔作用/効果〕
図17は、話速変換装置1cにおける話速の制御例を示す図である。話速変換装置1cでは、無音区間の話速が、過去方向の無音継続時間のみならず、未来方向の無音継続時間にも基づいて決定される。具体的には、話速決定部4cは、未来方向の無音継続時間が短いほど話速が遅くなるように話速を決定する。このため、有音区間に近い無音区間のフレームの話速は、早読みの状態ではなく例えば1倍などの通常の話速又は0.5倍などの遅い話速として制御される。このため、話頭において無音と誤判定された場合の悪影響(音切れなど)を防止又は軽減することが可能となる。
〔変形例〕
話速変換装置1cは、遅延量取得部6をさらに含むように構成されても良い。このように構成された場合、話速変換装置1cにおける話速決定部4cは、話速決定部4bのように累積遅延量に基づいて最高話速を決定しても良い。そして、話速決定部4cは、過去方向への無音継続時間又は未来方向への無音継続時間に基づいて話速を決定する際に、最高話速を基に話速を決定しても良い。
[第四実施形態]
〔システム構成〕
次に、話速変換装置1の第四実施形態である話速変換装置1dの構成例について説明する。図18は、話速変換装置1dの機能ブロックの例を示す図である。話速変換装置1dは、有音無音判定部2aに代えて有音無音判定部2dを含む点、及び話速決定部4aに代えて話速決定部4dを含む点で話速変換装置1aと異なる。以下、話速変換装置1dについて、話速変換装置1aと異なる点について説明する。
〈有音無音判定部〉
有音無音判定部2dは、有音無音判定において、処理対象のフレームが有音であるか無音であるかの判定のみならず、無音と判定した場合の判定の信頼度を取得する点で、有音無音判定部2aと異なる。有音無音判定部2dは、有音無音判定部2aと同様の処理によって、入力信号(n)のパワー値から過去信号における無音時の平均パワー値の減算を行う。そして、有音無音判定部2aは、その減算結果に基づいて、信頼性を示す値(信頼度)を取得する。図19は、信頼度と減算結果との関係例を示す表である。有音無音判定部2dは、上記減算の結果と図19の表とに基づいて信頼度を取得する。そして、有音無音判定部2dは、取得した信頼度を話速決定部4dへ渡す。
〈話速決定部〉
話速決定部4dは話速決定部4aよりも話速決定部4bに構成が似ているため、話速決定部4bと比較することにより話速決定部4dについて説明する。話速決定部4dは、累積遅延量ではなく信頼度に基づいて最大話速を決定する点で話速決定部4bと異なる。話速決定部4dは、有音無音判定部2dにおける無音判定の信頼度が高いほど最大話速を高速として決定し、信頼度が低いほど最大話速を低速として決定する。図20は、信頼度と最大話速との関係例を示す表である。話速決定部4bは、例えば、有音無音判定部2dから受け取った信頼度と図20に示される表とに基づいて最大話速を決定する。そして、話速決定部4dは、話速決定部4bと同様に、例えば図10,11に示されるグラフに従って、最大話速と無音継続時間とに基づき話速を決定する。
〔動作例〕
図21は、話速変換装置1dの動作例を示すフローチャートである。なお、図21において、図5のフローチャートに示された処理と同様の処理については図5と同じ符号を付す。以下、図21を用いて、話速変換装置1dの動作例について、話速変換装置1aとは異なる処理についてのみ説明する。
処理が開始されると、有音無音判定部2dは、有音無音判定の後(S01の後)に、その判定における信頼度を取得する(S20)。このとき、有音無音判定部2dは、有音と判定した場合には信頼度を取得しないように構成されても良い。
そして、継続時間算出部3aが無音継続時間を算出した後(S03の後)、話速決定部4dは、有音無音判定部2dによって取得された信頼度と継続時間算出部3aによって取得された無音継続時間とに基づいて、無音区間の話速を決定する(S21)。この処理の後、話速変換装置1aの場合と同様に、話速変換装置1dの話速変換部5aはS05,S06の処理を実行する。また、有音無音判定部2dによる判定結果が有音であった場合の処理は、話速変換装置1aの場合と同様の処理となる(S07参照)。
〔作用/効果〕
話速変換装置1dでは、有音無音判定部2dにおいて無音と判定された場合の判定の信頼度に基づいて最大話速が決定される。具体的には、話速変更装置1dでは、有音無音判定部2dにおける無音判定の信頼度が高いほど最大話速が高速となり、信頼度が低いほど最大話速が低速となる。このため、無音という判定の信頼度が低い場合、即ち有音である可能性もある場合には最大話速を低く抑えることで、誤判定が生じた際の音飛びなどの悪影響を軽減することが可能となる。一方で、無音という判定の信頼度が高い場合、即ち有音である可能性が低い場合には、最大話速を高く設定することで、誤判定の場合の悪影響よりも話速を高速にすることを優先し、遅延の累積を効果的に削減することが可能となる。
〔変形例〕
話速変換装置1dは、第二実施形態における遅延量取得部6をさらに含むように構成されても良い。このように構成された場合、話速決定部4dは、信頼度のみならず累積遅延量にもさらに基づいて最大話速を決定するように構成されても良い。例えば、話速決定部4dは、信頼度と累積遅延量と最大話速との3軸により構成される表などに基づいて最大話速を決定しても良い。
[第五実施形態]
〔システム構成〕
次に、話速変換装置1の第五実施形態である話速変換装置1eの構成例について説明する。図22は、話速変換装置1eの機能ブロックの例を示す図である。話速変換装置1eは、話速決定部4aに代えて話速決定部4eを含む点、及び信号雑音比取得部7をさらに含む点で話速変換装置1aと異なる。他の構成については、話速変換装置1eは、基本的に話速変換装置1aと同じである。以下、話速変換装置1eについて、話速変換装置1aと異なる点について説明する。
〈信号雑音比取得部〉
信号雑音比取得部7は、話速変換装置1eに入力された入力信号のうち、有音無音判定部2aの処理対象となっているフレームについて、信号雑音比(SN比)を取得する。信号雑音比取得部7には、信号雑音比を取得するためのどのような技術が適用されても良い。信号雑音比を取得するための具体的な処理についての説明は省略する。信号雑音比取得部7は、取得した信号雑音比を話速決定部4eへ渡す。
〈話速決定部〉
話速決定部4eは話速決定部4aよりも話速決定部4bに構成が似ているため、話速決定部4bと比較することにより話速決定部4eについて説明する。話速決定部4eは、累積遅延量ではなく信号雑音比に基づいて最大話速を決定する点で話速決定部4bと異なる。話速決定部4eは、信号雑音比取得部7において取得される信号雑音比が高いほど最大話速を高速に決定し、信号雑音比が低いほど最大話速を低速に決定する。図23は、信号雑音比と最大話速との関係例を示すグラフである。話速決定部4eは、例えば、信号雑音比取得部7から受け取った信号雑音比と図23に示されるグラフとに基づいて最大話速を決定する。そして、話速決定部4eは、話速決定部4bと同様に、例えば図10,11に示されるグラフに従って、最大話速と無音継続時間とに基づき話速を決定する。
〔動作例〕
図24は、話速決定装置1eの動作例を示すフローチャートである。なお、図24において、図5のフローチャートに示された処理と同様の処理については図5と同じ符号を付す。以下、図24を用いて、話速変換装置1eの動作例について、話速変換装置1aとは異なる処理についてのみ説明する。
処理が開始されると、信号雑音比取得部7は、有音無音判定部2aによる有音無音判定の処理(S01の処理)と並行して信号雑音比を取得する(S22)。そして、継続時間算出部3aが無音継続時間を算出した後(S03の後)、話速決定部4eは、信号雑音比取得部7によって取得された信号雑音比と継続時間算出部3aによって取得された無音継続時間とに基づいて、無音区間の話速を決定する(S23)。この処理の後、話速変換装置1aの場合と同様に、話速変換装置1eの話速変換部5aはS05,S06の処理を実行する。また、有音無音判定部2aによる判定結果が有音であった場合の処理は、話速変換装置1aの場合と同様の処理となる(S07参照)。
〔作用/効果〕
話速変換装置1eでは、信号雑音比取得部7によって取得される信号雑音比に基づいて最大話速が決定される。具体的には、話速変更装置1eでは、信号雑音比が高いほど最大話速が高速となり、信号雑音比が低いほど最大話速が低速となる。一般的に、信号雑音比が高い場合には、信号(ここでは入力信号)における雑音量が少なく良好な状態であることを示し、その信頼性が高いことを示す。従って、信号雑音比が低い場合、即ち有音無音判定において誤判定がなされてしまう可能性が高い場合には最大話速を低く抑えることで、誤判定が生じた際の音飛びなどの悪影響を軽減することが可能となる。一方で、信号雑音比が高い場合、即ち誤判定が生じている可能性が低い場合には、最大話速を高く設定することで、誤判定の場合の悪影響よりも話速を高速にすることを優先し、遅延の累積を効果的に削減することが可能となる。
〔変形例〕
話速変換装置1eは、第二実施形態における遅延量取得部6をさらに含むように構成されても良い。このように構成された場合、話速決定部4eは、信頼度のみならず累積遅延量にもさらに基づいて最大話速を決定するように構成されても良い。例えば、話速決定部4eは、信頼度と累積遅延量と最大話速との3軸により構成される表などに基づいて最大話速を決定しても良い。
本発明は、音声再生時に遅延を生じる装置に対して利用することにより、効果を得ることができる。

Claims (6)

  1. 入力された音声信号のうち処理の対象となる部分が有音か無音か判定する有音無音判定手段と、
    前記有音無音判定手段において無音であると継続的に判定されている前記音声信号の長さを示す無音継続長を取得する無音継続長取得手段と、
    前記無音継続長取得手段によって取得された無音継続長の長さに応じて、前記無音継続長が長いほど再生速度が速くなるように、前記無音継続長が短いほど再生速度の高速化が抑えられるように、前記音声信号のうち処理の対象となる部分の再生速度を決定する決定手段と、
    前記決定手段によって決定された再生速度に従って、前記音声信号の再生速度を変更する変更手段と、
    前記有音無音判定手段において有音であると判定された場合に、前記音声信号の再生速度を通常の再生速度よりも遅くする低速化手段と、
    前記低速化手段によって生じる遅延量を累積的に取得する遅延量取得手段と、
    を含み、
    前記決定手段は、前記遅延量取得手段によって取得された遅延量の累積値に基づいて、前記遅延量の累積値が大きいほど再生速度の最大値が大きくなるように、前記再生速度の最大値を決定し、この最大値及び前記無音継続長の長さに応じて、前記音声信号の処理の対象となる部分の再生速度を決定する
    速度変換装置。
  2. 入力された音声信号のうち処理の対象となる部分が有音か無音か判定する有音無音判定手段と、
    前記有音無音判定手段において無音であると継続的に判定されている前記音声信号の長さを示す無音継続長を取得する無音継続長取得手段と、
    前記無音継続長取得手段によって取得された無音継続長の長さに応じて、前記無音継続長が長いほど再生速度が速くなるように、前記無音継続長が短いほど再生速度の高速化が抑えられるように、前記音声信号のうち処理の対象となる部分の再生速度を決定する決定手段と、
    前記決定手段によって決定された再生速度に従って、前記音声信号の再生速度を変更する変更手段とを含み、
    前記有音無音判定手段は、前記判定を行う各部分について、判定結果の信頼度をさらに取得し、
    前記決定手段は、前記信頼度に応じて、前記信頼度が高いほど再生速度の最大値が大きくなるように前記再生速度の最大値を決定し、この最大値及び前記無音継続長の長さに応じて、前記音声信号の処理の対象となる部分の再生速度を決定する
    速度変換装置。
  3. 入力された音声信号のうち処理の対象となる部分が有音か無音か判定する有音無音判定手段と、
    前記有音無音判定手段において無音であると継続的に判定されている前記音声信号の長さを示す無音継続長を取得する無音継続長取得手段と、
    前記無音継続長取得手段によって取得された無音継続長の長さに応じて、前記無音継続長が長いほど再生速度が速くなるように、前記無音継続長が短いほど再生速度の高速化が抑えられるように、前記音声信号のうち処理の対象となる部分の再生速度を決定する決定手段と、
    前記決定手段によって決定された再生速度に従って、前記音声信号の再生速度を変更する変更手段とを含み、
    前記有音無音判定手段は、前記判定を行う各部分について、判定結果の信頼度をさらに取得し、
    前記決定手段は、前記信頼度に応じて、前記信頼度が高いほど再生速度の最大値が大きくなるように前記再生速度の最大値を決定し、この最大値及び前記無音継続長の長さに応じて、前記音声信号の処理の対象となる部分の再生速度を決定し、
    前記有音無音判定手段は、処理の対象となる部分における音声信号のパワー値から、過去に無音と判定された部分における音声信号のパワー値の平均を減算し、この減算結果に基づいて、減算結果の値が低いほど高い信頼度を取得し、減算結果の値が高いほど低い信頼度を取得する
    速度変換装置。
  4. 入力された音声信号のうち処理の対象となる部分が有音か無音か判定する有音無音判定手段と、
    前記有音無音判定手段において無音であると継続的に判定されている前記音声信号の長さを示す無音継続長を取得する無音継続長取得手段と、
    前記無音継続長取得手段によって取得された無音継続長の長さに応じて、前記無音継続長が長いほど再生速度が速くなるように、前記無音継続長が短いほど再生速度の高速化が抑えられるように、前記音声信号のうち処理の対象となる部分の再生速度を決定する決定手段と、
    前記決定手段によって決定された再生速度に従って、前記音声信号の再生速度を変更する変更手段と、
    前記音声信号のうち処理の対象となる部分について、信号雑音比を取得する信号雑音比取得手段とを含み、
    前記決定手段は、前記信号雑音比取得手段によって取得された信号雑音比に応じて、信号雑音比が高いほど再生速度の最大値が大きくなるように、信号雑音比が低い程再生速度の最大値が小さくなるように前記再生速度の最大値を決定し、この最大値及び前記無音継続長の長さに応じて、前記音声信号の処理の対象となる部分の再生速度を決定する
    速度変換装置。
  5. 入力された音声信号のうち処理の対象となる部分が有音か無音か判定するステップと、
    無音であると継続的に判定されている前記音声信号の長さを示す無音継続長を取得するステップと、
    取得された無音継続長の長さに応じて、前記無音継続長が長いほど再生速度が速くなるように、前記無音継続長が短いほど再生速度の高速化が抑えられるように、前記音声信号のうち処理の対象となる部分の再生速度を決定するステップと、
    決定された再生速度に従って、前記音声信号の再生速度を変更するステップと
    前記判定するステップにおいて有音であると判定された場合に、前記音声信号の再生速度を通常の再生速度よりも低速化するステップと、
    前記低速化によって生じる遅延量を累積的に取得するステップと、
    取得された遅延量の累積値に基づいて、前記遅延量の累積値が大きいほど再生速度の最大値が大きくなるように、前記再生速度の最大値を決定し、この最大値及び前記無音継続長の長さに応じて、前記音声信号の処理の対象となる部分の再生速度を決定するステップと
    を情報処理装置に実行させるためのプログラム。
  6. 情報処理装置が、入力された音声信号のうち処理の対象となる部分が有音であるか無音であるか判定するステップと、
    情報処理装置が、無音であると継続的に判定されている前記音声信号の長さを示す無音継続長を取得するステップと、
    情報処理装置が、取得された無音継続長の長さに応じて、前記無音継続長が長いほど再生速度が速くなるように、前記無音継続長が短いほど再生速度の高速化が抑えられるように、前記音声信号のうち処理の対象となる部分の再生速度を決定するステップと、
    情報処理装置が、決定された再生速度に従って、前記音声信号の再生速度を変更するステップと、
    情報処理装置が、前記判定するステップにおいて有音であると判定された場合に、前記音声信号の再生速度を通常の再生速度よりも低速化するステップと、
    情報処理装置が、前記低速化によって生じる遅延量を累積的に取得するステップと、
    情報処理装置が、取得された遅延量の累積値に基づいて、前記遅延量の累積値が大きいほど再生速度の最大値が大きくなるように、前記再生速度の最大値を決定し、この最大値及び前記無音継続長の長さに応じて、前記音声信号の処理の対象となる部分の再生速度を決定するステップと
    を含む速度変換方法。
JP2006527702A 2004-07-21 2004-07-21 速度変換装置、速度変換方法及びプログラム Expired - Fee Related JP4460580B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2004/010340 WO2006008810A1 (ja) 2004-07-21 2004-07-21 速度変換装置、速度変換方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2006008810A1 JPWO2006008810A1 (ja) 2008-05-01
JP4460580B2 true JP4460580B2 (ja) 2010-05-12

Family

ID=35784946

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006527702A Expired - Fee Related JP4460580B2 (ja) 2004-07-21 2004-07-21 速度変換装置、速度変換方法及びプログラム

Country Status (4)

Country Link
US (1) US7672840B2 (ja)
EP (1) EP1770688B1 (ja)
JP (1) JP4460580B2 (ja)
WO (1) WO2006008810A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2743923A1 (en) 2012-12-12 2014-06-18 Fujitsu Limited Voice processing device, voice processing method

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006077626A1 (ja) * 2005-01-18 2006-07-27 Fujitsu Limited 話速変換方法及び話速変換装置
US20080267224A1 (en) * 2007-04-24 2008-10-30 Rohit Kapoor Method and apparatus for modifying playback timing of talkspurts within a sentence without affecting intelligibility
US20090157396A1 (en) * 2007-12-17 2009-06-18 Infineon Technologies Ag Voice data signal recording and retrieving
US8315398B2 (en) 2007-12-21 2012-11-20 Dts Llc System for adjusting perceived loudness of audio signals
JP5076974B2 (ja) * 2008-03-03 2012-11-21 ヤマハ株式会社 音処理装置およびプログラム
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
US8204742B2 (en) 2009-09-14 2012-06-19 Srs Labs, Inc. System for processing an audio signal to enhance speech intelligibility
EP2388780A1 (en) * 2010-05-19 2011-11-23 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for extending or compressing time sections of an audio signal
KR102060208B1 (ko) 2011-07-29 2019-12-27 디티에스 엘엘씨 적응적 음성 명료도 처리기
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
US10638221B2 (en) 2012-11-13 2020-04-28 Adobe Inc. Time interval sound alignment
US10249321B2 (en) * 2012-11-20 2019-04-02 Adobe Inc. Sound rate modification
US10455219B2 (en) 2012-11-30 2019-10-22 Adobe Inc. Stereo correspondence and depth sensors
US10249052B2 (en) 2012-12-19 2019-04-02 Adobe Systems Incorporated Stereo correspondence model fitting
US9514747B1 (en) * 2013-08-28 2016-12-06 Amazon Technologies, Inc. Reducing speech recognition latency
KR102329888B1 (ko) * 2017-01-09 2021-11-23 현대자동차주식회사 음성 인식 장치, 이를 포함하는 차량, 및 음성 인식 장치의 제어방법
CN108962283B (zh) * 2018-01-29 2020-11-06 北京猎户星空科技有限公司 一种发问结束静音时间的确定方法、装置及电子设备
KR20210032809A (ko) * 2019-09-17 2021-03-25 삼성전자주식회사 동시 통역 방법 및 장치

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5305420A (en) * 1991-09-25 1994-04-19 Nippon Hoso Kyokai Method and apparatus for hearing assistance with speech speed control function
EP0552051A2 (en) * 1992-01-17 1993-07-21 Hitachi, Ltd. Radio paging system with voice transfer function and radio pager
US5611018A (en) * 1993-09-18 1997-03-11 Sanyo Electric Co., Ltd. System for controlling voice speed of an input signal
JPH08292796A (ja) * 1995-04-20 1996-11-05 Sanyo Electric Co Ltd 再生装置
US5699481A (en) * 1995-05-18 1997-12-16 Rockwell International Corporation Timing recovery scheme for packet speech in multiplexing environment of voice with data applications
JP3594409B2 (ja) * 1995-06-30 2004-12-02 三洋電機株式会社 Mpegオーディオ再生装置およびmpeg再生装置
US5809454A (en) 1995-06-30 1998-09-15 Sanyo Electric Co., Ltd. Audio reproducing apparatus having voice speed converting function
JPH09147472A (ja) * 1995-11-27 1997-06-06 Sanyo Electric Co Ltd 映像・音声再生装置
JP3439307B2 (ja) * 1996-09-17 2003-08-25 Necエレクトロニクス株式会社 発声速度変換装置
EP1517299A3 (en) * 1997-04-30 2012-08-29 Nippon Hoso Kyokai Speech interval detecting method and system, and speech speed converting method and system using the speech interval detecting method and system
US6711536B2 (en) * 1998-10-20 2004-03-23 Canon Kabushiki Kaisha Speech processing apparatus and method
US6324509B1 (en) * 1999-02-08 2001-11-27 Qualcomm Incorporated Method and apparatus for accurate endpointing of speech in the presence of noise
JP3235584B2 (ja) 1999-02-18 2001-12-04 日本電気株式会社 車載可能な携帯無線電話機
JP3691304B2 (ja) 1999-08-03 2005-09-07 三洋電機株式会社 話速変換装置
US6377931B1 (en) * 1999-09-28 2002-04-23 Mindspeed Technologies Speech manipulation for continuous speech playback over a packet network
JP2001154684A (ja) 1999-11-24 2001-06-08 Anritsu Corp 話速変換装置
JP2001184100A (ja) * 1999-12-24 2001-07-06 Anritsu Corp 話速変換装置
JP2001318700A (ja) * 2000-02-28 2001-11-16 Sanyo Electric Co Ltd 話速変換装置
US20020004722A1 (en) * 2000-02-28 2002-01-10 Takeo Inoue Voice speed converting apparatus
JP2001255894A (ja) * 2000-03-13 2001-09-21 Sony Corp 再生速度変換装置及び方法
US6782363B2 (en) * 2001-05-04 2004-08-24 Lucent Technologies Inc. Method and apparatus for performing real-time endpoint detection in automatic speech recognition
DE10138408A1 (de) * 2001-08-04 2003-02-20 Philips Corp Intellectual Pty Verfahren zur Unterstützung des Korrekturlesens eines spracherkannten Textes mit an die Erkennungszuverlässigkeit angepasstem Wiedergabegeschwindigkeitsverlauf
JP2003216200A (ja) 2002-01-28 2003-07-30 Telecommunication Advancement Organization Of Japan 字幕用書き起こしテキストの作成支援システム及び半自動型字幕番組制作システム
US7412376B2 (en) * 2003-09-10 2008-08-12 Microsoft Corporation System and method for real-time detection and preservation of speech onset in a signal
WO2006077626A1 (ja) * 2005-01-18 2006-07-27 Fujitsu Limited 話速変換方法及び話速変換装置
EP2013871A4 (en) * 2006-04-27 2011-08-24 Technologies Humanware Inc METHOD FOR TEMPORALLY NORMALIZING AN AUDIO SIGNAL

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2743923A1 (en) 2012-12-12 2014-06-18 Fujitsu Limited Voice processing device, voice processing method
US9330679B2 (en) 2012-12-12 2016-05-03 Fujitsu Limited Voice processing device, voice processing method

Also Published As

Publication number Publication date
US20070118363A1 (en) 2007-05-24
EP1770688A4 (en) 2008-09-24
EP1770688A1 (en) 2007-04-04
EP1770688B1 (en) 2013-03-06
US7672840B2 (en) 2010-03-02
JPWO2006008810A1 (ja) 2008-05-01
WO2006008810A1 (ja) 2006-01-26

Similar Documents

Publication Publication Date Title
JP4460580B2 (ja) 速度変換装置、速度変換方法及びプログラム
US6205420B1 (en) Method and device for instantly changing the speed of a speech
WO2006077626A1 (ja) 話速変換方法及び話速変換装置
US5617508A (en) Speech detection device for the detection of speech end points based on variance of frequency band limited energy
KR101952192B1 (ko) 품질 제어를 이용하는 오디오 디코더, 방법 및 컴퓨터 프로그램
JP4798601B2 (ja) 音声区間検出装置および音声区間検出プログラム
KR100350562B1 (ko) 음성기록장치및그방법
JP3255584B2 (ja) 有音検知装置および方法
KR20160021886A (ko) 지터 버퍼 제어부, 오디오 디코더, 방법 및 컴퓨터 프로그램
JP2004126595A (ja) 信号エネルギーに基づく非一様時間領域音声信号処理方法
KR20030018072A (ko) 오디오 속도 변환을 가능하게 하는 방법 및 시스템
JP3378672B2 (ja) 話速変換装置
JP2019139146A (ja) 音声認識システム、及び、音声認識方法
KR20120061862A (ko) 음성 재생 장치 및 음성 재생 방법
KR100574883B1 (ko) 비음성 제거에 의한 음성 추출 방법
JP3298188B2 (ja) 音声検出方法
JPH07191695A (ja) 話速変換装置
JP5326796B2 (ja) 再生装置
JPH08147874A (ja) 話速変換装置
JP2006343642A (ja) 音声認識方法、音声認識装置、プログラム、記録媒体
JP4745837B2 (ja) 音響分析装置及びコンピュータプログラム、音声認識システム
JP2000349822A (ja) 通信装置、音声パケット制御方法及び記憶媒体
JP2002271397A (ja) パケット損失復旧器、及び、パケット損失復旧方法
CN114513576A (zh) 播放语音信号的方法及装置
JP2005266411A (ja) 音声圧縮方法および電話器

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090728

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100202

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100212

R150 Certificate of patent or registration of utility model

Ref document number: 4460580

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130219

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140219

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees