JP2010026438A

JP2010026438A - 話速変換装置

Info

Publication number: JP2010026438A
Application number: JP2008190868A
Authority: JP
Inventors: Takahiro Kawashima; 隆宏川嶋
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2008-07-24
Filing date: 2008-07-24
Publication date: 2010-02-04
Anticipated expiration: 2028-07-24
Also published as: JP5228669B2

Abstract

【課題】音声と背景音とが混ざっている場合においても適切に話速変換処理を行う。
【解決手段】音響信号に含まれる音声帯域のレベルを検出する第２レベル検出部１３８と、音響信号の右成分と左成分からその差分のレベルを検出する第１レベル検出部１３４と、音響信号を話速変換する話速変換部１４と、検出された差分のレベルが大きいほど閾値を大きく設定して、検出された音声帯域のレベルが設定された閾値より大きい場合に話速変換部１４に話速変換を実施させ該閾値より小さい場合に話速変換を停止させる話速変換制御部１３９と、を備える。
【選択図】図１

Description

本発明は音声を含んだ音響信号に話速変換を施す話速変換装置に関する。

話速変換は、人の話す声の声質（フォルマント）を変えずに再生スピードを遅く或いは速くして音声データの再生を行う技術であり、電話機や音声メディアの再生装置等に利用されている。例えば音声をゆっくり再生する際に、話速変換ではない単なる再生速度変換を行うと音声が低音にシフトして聞きづらくなってしまうが、話速変換を用いた場合、音声をゆっくり再生させても元の声質が維持されるので聞きやすいという利点がある。

話速変換を行うには、音声データを一旦バッファに溜め、変換すべき話速に応じたスピードでバッファから音声データを取り出して再生を行うことになる。そのため、例えば話速を遅くする場合は、音声区間と無音区間を判別して、音声区間ではバッファへ音声を取り込みつつ話速変換を行い、一方無音区間では、バッファへの新たな音声の取り込みを停止するとともに、音声区間の間にバッファへ蓄えられた音声データを取り出して話速変換を行う（特許文献１参照）。
特開平７−１９１６９５号公報特開２００５−２０８１７３号公報

ここで、バッファの容量には限りがあるため、音声区間と無音区間を的確に認識して、音声区間で取り込まれた音声を無音区間中にバッファから出力することで、バッファが溢れないようにする必要がある。しかしながら、話速変換の対象となる音響信号に音声のほか背景音が混ざっている状況の下では、背景音の存在により音声区間と無音区間とを的確に判別することができず、バッファから音声データが溢れて話速変換処理が破綻してしまう、という問題がある。特許文献２には、背景音を含んだステレオの入力音声信号から左右同相である話者の音声を分離することが開示されているが、分離された左右同相の成分には背景音のうちの左右同相の成分が含まれるため、上記の問題に対する有効な解決策にはならない。

本発明はこのような点に鑑みてなされたものであり、その目的は、音声と背景音とが混ざっている場合においても適切に話速変換処理を行うことが可能な話速変換装置を提供することにある。

本発明は上記の課題を解決するためになされたものであり、音響信号に含まれる音声帯域のレベルを検出する第１のレベル検出手段と、前記音響信号の右成分と左成分からその差分のレベルを検出する第２のレベル検出手段と、前記音響信号を話速変換する話速変換手段と、前記検出された音声帯域のレベルと前記検出された差分のレベルとに基づいて前記話速変換手段に話速変換を実施させる話速変換制御手段と、を備えることを特徴とする。
また、上記の話速変換装置において、前記話速変換制御手段は、前記検出された差分のレベルが大きいほど閾値を大きく設定して、前記検出された音声帯域のレベルが前記設定された閾値より大きい場合に前記話速変換手段に話速変換を実施させ該閾値より小さい場合に話速変換を停止させることを特徴とする。

この構成によれば、左右の成分に差を有する音声以外の音（背景音）のレベルが大きいほど、話速変換の実施と停止を切り換える閾値を大きく設定するようにしたので、音声と背景音の両方が存在している状態と音声が無くなり背景音だけが存在する状態とを適切に区別し、話速変換を行うことができる。
即ち、本発明では、音声はステレオマイクの中央で収音され、背景音はステレオマイクの左右いずれかに偏った方向から発せられることを前提としている。したがって、背景音が大きい場合には第２のレベル検出手段により検出されるレベルが大きくなり、閾値が大きく設定される。ここで、背景音は音声帯域の成分も有しているので、背景音が大きいほど、音声が無い状態で第１のレベル検出手段で検出される音声帯域のレベルは大きい値となる。このとき、閾値が大きく設定されているので、音声が無くなった状態となったことをこの閾値により判別可能である。これにより、背景音が音声に混ざっている場合でも、背景音の大きさによらず、適切に話速変換の実施と停止を切り換えることができる。

また、本発明は、上記の話速変換装置において、前記話速変換制御手段は、前記検出された差分のレベルに応じて変換後の話速を制御することを特徴とする。

この構成によれば、背景音のレベルに応じて話速を変化させることで環境に合った話速変換を実現することができる。例えば、背景音が大きいと音声は聞き取りづらいので、背景音が大きい場合は背景音が小さい場合より話速を遅くすることで、音声を聞き取りやすくすることができる。

また、本発明は、上記の話速変換装置において、前記話速変換制御手段は、前記検出された音声帯域のレベルに応じて変換後の話速を制御することを特徴とする。

この構成によれば、音声のレベルに応じて話速を変化させることで最適な話速を得ることができる。

また、本発明は、上記の話速変換装置において、前記第２のレベル検出手段は、前記音響信号に含まれる音声の右成分と左成分が同レベルとなるように前記音響信号の右成分と左成分に重み付けをし、該重み付け後の音響信号の右成分と左成分から差分のレベルを検出することを特徴とする。

この構成によれば、音声がステレオマイクの中央で収音されていない場合でも、中央で収音されたのと同じ効果が得られる重み付けの補正をすることで、常に適正な話速変換を行うことができる。

本発明によれば、音声と背景音とが混ざっている場合においても適切に話速変換処理を行うことが可能である。

（第１の実施形態）
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
図１は、本発明の一実施形態による話速変換装置の構成を示す機能ブロック図である。図１において、話速変換装置１０は、ステレオマイク１１と、Ａ／Ｄコンバータ１２と、制御部１３と、話速変換部１４と、Ｄ／Ａコンバータ１５と、スピーカ１６と、を含んで構成されている。また、制御部１３は、帯域除去フィルタ１３１と、乗算部１３２と、加算部１３３と、第１レベル検出部１３４と、帯域通過フィルタ１３５と、乗算部１３６と、加算部１３７と、第２レベル検出部１３８と、話速変換制御部１３９と、を含んで構成されている。

ステレオマイク１１は、音声と背景音とを含んだ音をステレオで収音し、アナログの音響信号を出力する。Ａ／Ｄコンバータ１２は、ステレオマイク１１から出力されたアナログの音響信号をアナログ・デジタル変換して、デジタルの音響信号を話速変換部１４と制御部１３へ出力する。ここで、話者とステレオマイク１１が左右対称の位置関係にある場合、音響信号に含まれる話者からの音声は右チャネルと左チャネルで等しくなるが、以下では話者とステレオマイク１１が左右対称でない場合も考慮し、音声の右チャネルと左チャネルは等しくないものとする。一方、背景音は通常、ステレオマイク１１に対して左右対称になっているとは限らないため、音響信号に含まれる背景音は右チャネルと左チャネルで等しくない。

話速変換部１４は、話速変換制御部１３９による制御を受けて、Ａ／Ｄコンバータ１２から入力される音響信号に話速変換を施し、話速変換後の音響信号をＤ／Ａコンバータ１５へ出力する。話速変換は音声の声質（フォルマント）を変えずに再生スピードを遅く或いは速くして再生を行う処理であり、例えば周知のＰＩＣＯＬＡ（Pointer Interval Controlled Overlap and Add）やＴＤＨＳ（Time Domain Harmonic Scaling）等のアルゴリズムを用いることができる。

Ｄ／Ａコンバータ１５は、話速変換部１４から出力されるデジタルの音響信号をデジタル・アナログ変換しアナログの音響信号を出力する。スピーカ１６は、入力されたアナログ音響信号に従って音を放音する。

制御部１３は、Ａ／Ｄコンバータ１２から入力される音響信号を分析し、その分析結果に基づいて話速変換部１４における話速変換を制御する。話速変換の制御には、話速変換処理の実施と停止を切り換えることや、話速変換処理を実施する場合に変換後の話速を設定すること等が含まれる。以下、制御部１３を構成する各要素の機能及び動作を詳しく説明する。

帯域通過フィルタ１３５は、入力された音響信号（上述したように音声と背景音とを含んでいる）のうち、音声の帯域成分のみを通過させ、音声の帯域以外の成分を遮断する。フィルタ帯域内であれば、全ての音響信号が帯域通過フィルタ１３５を通過する。つまり、帯域通過フィルタ１３５の出力は、当該フィルタ帯域内の音声と背景音の両方である。なお、音声の帯域は、例えば人の会話のほとんどが行われる周波数帯である２００〜８，０００Ｈｚの帯域に設定すればよい。

帯域通過フィルタ１３５から出力される音響信号の右成分は、乗算部１３６により定数（＋α）を乗じられてから加算部１３７へ入力され、左成分は、そのまま加算部１３７へ入力される。加算部１３７は、両者を加算して出力する。乗算部１３６が乗じる定数の＋αは、加算部１３７へ入力される右成分（即ち、乗算部１３６の出力）に含まれる音声と左成分（即ち、帯域通過フィルタ１３５の左出力）に含まれる音声とが同じレベルとなるような値に予め設定しておく。これにより、話者とステレオマイク１１が左右対称の位置関係にない場合にも、加算部１３７から出力される音響信号は、右成分と左成分が同じレベルになる。なお、上記αの設定は、例えば、背景音が存在しない状況で加算部１３７への２つの入力をモニタすることによって行うことができる。また、話者とステレオマイク１１が左右対称の位置関係にある場合には、α＝１と設定すればよい。

第２レベル検出部１３８は、加算部１３７から入力される音響信号、即ち音声帯域内の音声と背景音とを含んだ音響信号のレベル（音の大きさ、音量）を検出し、検出したレベル値Ｌを話速変換制御部１３９へ出力する。第２レベル検出部１３８により検出されるレベル値Ｌは、例えば図３に示すようなものとなる。同図において、話者が声を発していない時は音響信号には背景音だけが含まれるので、検出レベル値Ｌは背景音と同じレベルになる（区間Ｂ，Ｄ，Ｆ）。また、話者が声を発している時は音響信号には音声と背景音の両方が含まれるので、検出レベル値Ｌは背景音のレベルに音声のレベルが加算された値となる（区間Ａ，Ｃ，Ｅ，Ｇ）。

一方、帯域除去フィルタ１３１は、音声と背景音とを含む入力された音響信号のうち、音声の帯域成分を遮断し、音声の帯域以外の成分のみを通過させる。帯域除去フィルタ１３１の出力は、背景音（但し、音声帯域の成分は含まれない）のみとなる。以下では、この背景音を帯域外背景音と称することとする。

帯域除去フィルタ１３１から出力される音響信号の右成分は、乗算部１３２により定数（−α）を乗じられてから加算部１３３へ入力され、左成分は、そのまま加算部１３３へ入力される。加算部１３３は、両者を加算して出力する。乗算部１３２が乗じる定数は、上述した音声帯域側の乗算部１３６が乗じる定数と絶対値が同じで符号がマイナスである。したがって、もし帯域除去フィルタ１３１による音声帯域の減衰が十分でなく、帯域除去フィルタ１３１からの出力に音声帯域の成分が残留していたとしても、加算部１３３へ入力される右成分と左成分にそれぞれ残留する音声帯域の音声は、大きさが等しく符号が反対であるので、加算部１３３で加算されることにより互いにキャンセルし合う。これにより、加算部１３３から出力される音響信号は、音声を含まず、帯域外背景音のみを含んだものとなる。

第１レベル検出部１３４は、加算部１３３から入力される音響信号、即ち帯域外背景音のみを含んだ音響信号のレベルを検出し、検出したレベル値Ｍを話速変換制御部１３９へ出力する。

話速変換制御部１３９には、上記のとおり、音声帯域内の音響信号のレベル値Ｌと、帯域外背景音のレベル値Ｍとが入力される。話速変換制御部１３９は、入力された音声帯域のレベル値Ｌが閾値Ｌ_ｔｈより大きい場合、話速変換部１４に話速変換処理を実施する指示を行い、レベル値Ｌが閾値Ｌ_ｔｈより小さい場合、話速変換部１４に話速変換処理を停止する指示を行う。つまり閾値Ｌ_ｔｈに基づき、話速変換部１４では話速変換処理の実施と停止を切り換える制御が行われる。また話速変換制御部１３９は、上記閾値Ｌ_ｔｈを、入力された帯域外背景音のレベル値Ｍが大きいほど大きい値に設定する。

具体例で説明する。図２は、帯域外背景音の各レベル値Ｍに対する閾値Ｌ_ｔｈの設定例を示した図であり、図３は、図２の設定例に従って行われた話速変換の制御結果を示した図である。図２において、帯域外背景音のレベル値がＭ_１の時、閾値はＬ_ｔｈ１に設定され、帯域外背景音のレベル値がＭ_１より大きいＭ_２の時、閾値はＬ_ｔｈ１より大きいＬ_ｔｈ２に設定されている。帯域外背景音のレベル値がＭ_１とＭ_２の間など他の領域についても同様に、閾値Ｌ_ｔｈは、帯域外背景音の各レベル値Ｍに対して図中の境界線Ｃで示すような増加関数となるように設定される。但し、閾値Ｌ_ｔｈ１は、帯域外背景音のレベル値がＭ_１であって話者が発話をしていない時の音声帯域（この時音声帯域には背景音しか存在しない）のレベル値より大きい値とし、閾値Ｌ_ｔｈ２は、同様に帯域外背景音のレベル値がＭ_２であって話者が発話をしていない時の音声帯域（同様に背景音のみ存在）のレベル値より大きい値とし、その他の領域の閾値Ｌ_ｔｈについても同様であるとする（なお、この条件は、以下で説明するように話者が発話を止めたことを検知するための条件である）。なお、上記の境界線Ｃは、最適な話速変換が実行されるように、例えば話速変換装置の使用状況等を考慮して設定すればよい。

さて、ここで、帯域外背景音のレベル値がＭ_１（一定）である状況を考える。この場合、話速変換制御部１３９は、閾値をＬ_ｔｈ１に設定する。すると、話者が発話を行い第２レベル検出部１３８で検出された音声帯域のレベル値Ｌが閾値Ｌ_ｔｈ１を上回っていれば、話速変換制御部１３９は、話速変換部１４に話速変換処理を実施する指示を行う。これにより、話速変換部１４は入力音響信号に対して話速変換を実施する（話速変換オン）。また、話者が発話を止めると、第２レベル検出部１３８へ入力される音響信号は音声帯域内の背景音のみとなってレベル値Ｌが閾値Ｌ_ｔｈ１を下回るので、話速変換制御部１３９は、話速変換部１４に話速変換処理を停止する指示を行う。これにより、話速変換部１４は入力音響信号に対する話速変換を停止する（話速変換オフ）。

したがって、図２において、閾値Ｌ_ｔｈを表す境界線Ｃよりも音声帯域のレベル値Ｌが大きい領域（同図では境界線Ｃより右下の領域）では話速変換オンの制御が行われ、境界線Ｃよりもレベル値Ｌが小さい領域（境界線Ｃより左上の領域）では話速変換オフの制御が行われることになる。また、図３（Ａ）において、時間ｔの経過とともに話者が発話を行ったり止めたりすると、話者が発話を止めている区間では、音声帯域内には背景音のみが存在するのでレベル値Ｌは閾値Ｌ_ｔｈ１を下回って話速変換をオフとする制御が行われ（同図の区間Ｂ，Ｄ，Ｆ）、話者が発話を行っている区間では、音声帯域内には背景音に加えて音声が存在し、レベル値Ｌが閾値Ｌ_ｔｈ１を上回って話速変換をオンとする制御が行われる（同図の区間Ａ，Ｃ，Ｅ，Ｇ）。

次に、帯域外背景音のレベル値が上昇してＭ_２（一定）となった状況を考える。このとき、もし仮に閾値を同一の値Ｌ_ｔｈ１のままに設定したとすると、背景音が大きくなったことにより話者が発話をしていない時の音声帯域（背景音のみが存在している）のレベルが上昇し、そのレベルが背景音の大きさによっては閾値Ｌ_ｔｈ１を上回ってしまう状況が起こり得る。そうなると、話者が発話を止めても音声帯域のレベル値Ｌが閾値Ｌ_ｔｈ１を下回らないため、話速変換は停止されず、常時、話速変換をオンとする制御が継続してしまうことになる。

しかし本発明の話速変換装置１０では、帯域外背景音のレベル値がＭ_２となった場合に話速変換制御部１３９が閾値をＬ_ｔｈ１より大きいＬ_ｔｈ２に設定するので、そのような事態を避けることができる。即ち、話者が発話を止めた状態で第２レベル検出部１３８に検出される音声帯域のレベル値Ｌは、（上記した閾値Ｌ_ｔｈ２の定義から）設定された閾値Ｌ_ｔｈ２より小さくなり、話速変換制御部１３９は、話速変換部１４に話速変換処理を停止する指示を行う。これにより、話速変換部１４は入力音響信号に対する話速変換を停止する。また、話者が発話を行い音声帯域のレベル値Ｌが閾値Ｌ_ｔｈ１より大きくなれば、話速変換制御部１３９は、話速変換部１４に話速変換処理を実施する指示を行う。これにより、話速変換部１４は入力音響信号に対して話速変換を実施する。

こうして、背景音が大きくなった場合にも、適切に話速変換の実施と停止の切り換え制御を実現することができる。したがって、図３（Ｂ）に示すように、話者が発話を行っている区間Ａ，Ｃ，Ｅ，Ｇでは話速変換をオンとし、話者が発話を止めている区間Ｂ，Ｄ，Ｆでは、話速変換をオフとすることができる。

なお、上記の説明では帯域外背景音のレベル値がＭ_１とＭ_２の２つの状況を考えたが、帯域外背景音のレベル値が時々刻々変化しているときにも、同様に適切な話速変換制御を行えることは上記の説明から明らかである。つまり、話速変換制御部１３９は、入力された音声帯域のレベル値Ｌと帯域外背景音のレベル値Ｍとによって決まる座標点（Ｌ，Ｍ）を図２のＬＭ座標平面にマッピングし、その座標点（Ｌ，Ｍ）が境界線Ｃより右下の領域にあるか左上の領域にあるかに応じて、それぞれ話速変換のオンとオフを切り換えればよい。

次に、話速変換部１４の具体的構成を説明する。図４（Ａ）は、話速変換部１４のブロック図であり、図４（Ｂ）は、話速変換部１４の入出力の関係を時間軸で表したチャート図である。

図４（Ａ）において、切換えスイッチ１４１へは、Ａ／Ｄコンバータ１２からの音響信号が入力される。切換えスイッチ１４１は、話速変換制御部１３９による制御に従い、入力された音響信号を、入力バッファ１４２，変換部１４３，及び出力バッファ１４４を順次経由して切換えスイッチ１４５へ繋がる経路と直接切換えスイッチ１４５へ繋がる経路とで切り換えて出力する。入力バッファ１４２は先入れ先出し（ＦＩＦＯ）型のメモリであり、切換えスイッチ１４１を経由して入力された音響信号を入力順に記憶するとともに、記憶された順に音響信号を変換部１４３へ出力する。変換部１４３は、前述したＰＩＣＯＬＡやＴＤＨＳ等のアルゴリズムを用いて音響信号を話速変換し出力バッファ１４４へ出力する。出力バッファ１４４は、入力バッファ１４２と同様先入れ先出し（ＦＩＦＯ）型のメモリであり、話速変換されて入力された音響信号を入力順に記憶するとともに、記憶された順に音響信号を切換えスイッチ１４５へ出力する。切換えスイッチ１４５は、話速変換制御部１３９による制御に従って、且つ、出力バッファ１４４が空になったか否かに応じて、切換えスイッチ１４１からの経路と出力バッファ１４４からの経路を切り換え、切り換えられた方の経路から音響信号を入力して出力する。

ここで、図４（Ｂ）に示されるように、時刻ｔ１で話者が発話を開始して音声帯域のレベル値Ｌが閾値Ｌ_ｔｈを上回ると、話速変換制御部１３９から話速変換（話速を遅くするものであるとする）を実施するとの指示がなされて、切換えスイッチ１４１は経路を入力バッファ１４２の側へ切り換える。これにより、入力バッファ１４２へ音響信号のバッファリングが開始されて（図中Ａ）、変換部１４３により話速変換が行われ、出力バッファ１４４へ話速変換後の音響信号がバッファリングされ始める（図中Ｂ）。このとき、話速を遅くするので、出力バッファ１４４へは時間の経過とともに未出力の音響信号が溜まっていくことになる。

話者が時刻ｔ２で発話を止めると、音声帯域のレベル値Ｌは閾値Ｌ_ｔｈを下回り、話速変換制御部１３９から話速変換を停止するとの指示がなされて、切換えスイッチ１４１は経路を入力バッファ１４２の側から切換えスイッチ１４５の側へ切り換える。これにより、入力バッファ１４２への音響信号のバッファリングが停止される（図中Ｃ）。但し、このとき出力バッファ１４４には未出力の音響信号が溜まっており、バッファが空になっていないので、切換えスイッチ１４５は経路の切り換えをまだ行わない。この結果、出力バッファ１４４から切換えスイッチ１４５を介して、溜まっている音響信号の出力が引き続き行われる。

出力バッファ１４４からの音響信号の出力は、音響信号が出力し尽くされて出力バッファ１４４が空になるまで続けられる。時刻ｔ３で出力バッファ１４４が空になると、切換えスイッチ１４５は、経路を出力バッファ１４４の側から切換えスイッチ１４１の側へ切り換える（図中Ｄ）。こうして、時刻ｔ１から時刻ｔ２までの間の音響信号を話速変換した音響信号が時刻ｔ１から時刻ｔ３にかけて出力され、時刻ｔ３以降は、切換えスイッチ１４１から直接切換えスイッチ１４５へ入力される話速変換が施されていない通常の音響信号が出力される。その後、時刻ｔ４で話者が発話を再開した以降も、同様の動作が行われる。

本発明の話速変換装置１０は、上述したように背景音が存在する場合であっても適切に話速変換の実施と停止の切り換え制御を行うことができる、即ち、話者が発話を止めた際に切換えスイッチ１４１により入力バッファ１４２への音響信号のバッファリングを停止させることができるため、出力バッファ１４４に延々と話速変換後の音響信号が入力され続けて出力バッファ１４４が溢れてしまう、という事態を避けることができる。

（第２の実施形態）
次に、本発明の第２の実施形態を説明する。本実施形態は、話速変換を実施する場合における変換後の話速を可変とした点のみが上述した第１の実施形態と異なり、その他の点は第１の実施形態と同じである。

図５は、本実施形態における話速の設定例を示した図である。同図において、帯域外背景音の各レベル値Ｍと閾値Ｌ_ｔｈとの関係は、第１の実施形態と同様、閾値Ｌ_ｔｈが帯域外背景音の各レベル値Ｍに対して増加関数（図中の境界線Ｃ）となるように設定されている。上述した第１の実施形態では、境界線Ｃより右下側の領域において単純に話速変換をオンにすることとしたが、本実施形態では、当該領域において話速を可変とする。即ち、図５において、境界線Ｃより右下側に第２の境界線Ｃ１を設け、この境界線Ｃ１より更に右下側に第３の境界線Ｃ２を設ける。そして、境界線Ｃと境界線Ｃ１の間の領域では話速を９０％と設定し、境界線Ｃ１と境界線Ｃ２の間の領域では話速を８０％と設定し、境界線Ｃ２より右下側の領域では話速を７０％と設定する。ここで、例えば話速が７０％であるとは、話速変換後の話速が通常時（話速変換オフ）の話速を基準として７０％の再生スピードであることを意味する（話速変換がオフの場合の話速が１００％）。

本実施形態における話速変換制御部１３９は、第２レベル検出部１３８によって検出される音声帯域のレベル値Ｌと第１レベル検出部１３４によって検出される帯域外背景音のレベル値Ｍとによって決まる座標点（Ｌ，Ｍ）が、図５の境界線Ｃより右下の領域にあるか左上の領域にあるかに応じてそれぞれ話速変換のオンとオフを切り換える制御（この制御は第１の実施形態と同じである）を行うとともに、話速変換をオンとする場合には、図５において座標点（Ｌ，Ｍ）が位置する領域に設定されている話速の設定値（９０％，８０％，７０％）を話速変換部１４に指示し、当該指示された話速で話速変換部１４に話速変換を実施させる制御を行う。

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

例えば、ステレオマイク１１に代えて、２つのモノラルマイクを用いる構成としてもよい。具体的には、話速変換装置１０を携帯電話端末に搭載することを想定した場合、携帯電話端末に元々備わっている通常のモノラルマイク（メインマイク）の他に、新たにモノラルのサブマイクを携帯電話端末の側面や背面に設けた構成とすることができる。なお、このとき、制御部１３への入力は２つのモノラルマイクで収音した音響信号とする必要があるが、話速変換部１４への入力（話速変換の対象）はメインマイクで収音した音響信号だけでよい。

また、本発明は、マイクで収音した音響信号を直接取り扱う図１の構成に限定されず、種々のメディア（例えば、地上デジタル放送の放送波や、ＤＶＤに収録されたコンテンツ等）からのステレオの音響信号を制御部１３及び話速変換部１４へ入力する構成としてもよい。

また、図２において、境界線Ｃは直線でも曲線でもよい。
また、図５の数値例とは逆に、境界線Ｃと境界線Ｃ１の間の領域の話速を７０％、境界線Ｃ２より右下側の領域の話速を９０％、と設定してもよい。その他、話速変換をオンとする領域内における話速の設定値や境界線Ｃ１，Ｃ２の設け方は、自由に変更することができる。例えば、背景音が大きいと音声は聞き取りづらいので、背景音が大きい場合は背景音が小さい場合より話速を遅くすることで、音声を聞き取りやすくすることができる。

また、制御部１３や話速変換部１４は、専用のハードウェアとして構成してもよいし、ＣＰＵ等のコンピュータにソフトウェアを読み込ませて実行させることにより実現した機能であってもよい。

本発明の一実施形態による話速変換装置の構成を示す機能ブロック図である。帯域外背景音の各レベル値Ｍに対する閾値Ｌ_ｔｈの設定例を示した図である。図２の設定例に従って行われた話速変換の制御結果を示した図である。話速変換部のブロック図、及び、話速変換部の入出力の関係を時間軸で表したチャート図である。話速を可変に設定した設定例を示した図である。

符号の説明

１０…話速変換装置１１…ステレオマイク１２…Ａ／Ｄコンバータ１３…制御部１４…話速変換部１５…Ｄ／Ａコンバータ１６…スピーカ１３１…帯域除去フィルタ１３２…乗算部１３３…加算部１３４…第１レベル検出部１３５…帯域通過フィルタ１３６…乗算部１３７…加算部１３８…第２レベル検出部１３９…話速変換制御部１４１…切換えスイッチ１４２…入力バッファ１４３…変換部１４４…出力バッファ１４５…切換えスイッチ

Claims

音響信号に含まれる音声帯域のレベルを検出する第１のレベル検出手段と、
前記音響信号の右成分と左成分からその差分のレベルを検出する第２のレベル検出手段と、
前記音響信号を話速変換する話速変換手段と、
前記検出された音声帯域のレベルと前記検出された差分のレベルとに基づいて前記話速変換手段に話速変換を実施させる話速変換制御手段と、
を備えることを特徴とする話速変換装置。
前記話速変換制御手段は、前記検出された差分のレベルが大きいほど閾値を大きく設定して、前記検出された音声帯域のレベルが前記設定された閾値より大きい場合に前記話速変換手段に話速変換を実施させ該閾値より小さい場合に話速変換を停止させることを特徴とする請求項１に記載の話速変換装置。
前記話速変換制御手段は、前記検出された差分のレベルに応じて変換後の話速を制御することを特徴とする請求項２に記載の話速変換装置。
前記話速変換制御手段は、前記検出された音声帯域のレベルに応じて変換後の話速を制御することを特徴とする請求項１から請求項３のいずれか１の項に記載の話速変換装置。
前記第２のレベル検出手段は、前記音響信号に含まれる音声の右成分と左成分が同レベルとなるように前記音響信号の右成分と左成分に重み付けをし、該重み付け後の音響信号の右成分と左成分から差分のレベルを検出することを特徴とする請求項１から請求項４のいずれか１の項に記載の話速変換装置。