JP2010026438A - 話速変換装置 - Google Patents

話速変換装置 Download PDF

Info

Publication number
JP2010026438A
JP2010026438A JP2008190868A JP2008190868A JP2010026438A JP 2010026438 A JP2010026438 A JP 2010026438A JP 2008190868 A JP2008190868 A JP 2008190868A JP 2008190868 A JP2008190868 A JP 2008190868A JP 2010026438 A JP2010026438 A JP 2010026438A
Authority
JP
Japan
Prior art keywords
speech speed
speed conversion
level
speech
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008190868A
Other languages
English (en)
Other versions
JP5228669B2 (ja
Inventor
Takahiro Kawashima
隆宏 川嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2008190868A priority Critical patent/JP5228669B2/ja
Publication of JP2010026438A publication Critical patent/JP2010026438A/ja
Application granted granted Critical
Publication of JP5228669B2 publication Critical patent/JP5228669B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephone Function (AREA)

Abstract

【課題】音声と背景音とが混ざっている場合においても適切に話速変換処理を行う。
【解決手段】音響信号に含まれる音声帯域のレベルを検出する第2レベル検出部138と、音響信号の右成分と左成分からその差分のレベルを検出する第1レベル検出部134と、音響信号を話速変換する話速変換部14と、検出された差分のレベルが大きいほど閾値を大きく設定して、検出された音声帯域のレベルが設定された閾値より大きい場合に話速変換部14に話速変換を実施させ該閾値より小さい場合に話速変換を停止させる話速変換制御部139と、を備える。
【選択図】図1

Description

本発明は音声を含んだ音響信号に話速変換を施す話速変換装置に関する。
話速変換は、人の話す声の声質(フォルマント)を変えずに再生スピードを遅く或いは速くして音声データの再生を行う技術であり、電話機や音声メディアの再生装置等に利用されている。例えば音声をゆっくり再生する際に、話速変換ではない単なる再生速度変換を行うと音声が低音にシフトして聞きづらくなってしまうが、話速変換を用いた場合、音声をゆっくり再生させても元の声質が維持されるので聞きやすいという利点がある。
話速変換を行うには、音声データを一旦バッファに溜め、変換すべき話速に応じたスピードでバッファから音声データを取り出して再生を行うことになる。そのため、例えば話速を遅くする場合は、音声区間と無音区間を判別して、音声区間ではバッファへ音声を取り込みつつ話速変換を行い、一方無音区間では、バッファへの新たな音声の取り込みを停止するとともに、音声区間の間にバッファへ蓄えられた音声データを取り出して話速変換を行う(特許文献1参照)。
特開平7−191695号公報 特開2005−208173号公報
ここで、バッファの容量には限りがあるため、音声区間と無音区間を的確に認識して、音声区間で取り込まれた音声を無音区間中にバッファから出力することで、バッファが溢れないようにする必要がある。しかしながら、話速変換の対象となる音響信号に音声のほか背景音が混ざっている状況の下では、背景音の存在により音声区間と無音区間とを的確に判別することができず、バッファから音声データが溢れて話速変換処理が破綻してしまう、という問題がある。特許文献2には、背景音を含んだステレオの入力音声信号から左右同相である話者の音声を分離することが開示されているが、分離された左右同相の成分には背景音のうちの左右同相の成分が含まれるため、上記の問題に対する有効な解決策にはならない。
本発明はこのような点に鑑みてなされたものであり、その目的は、音声と背景音とが混ざっている場合においても適切に話速変換処理を行うことが可能な話速変換装置を提供することにある。
本発明は上記の課題を解決するためになされたものであり、音響信号に含まれる音声帯域のレベルを検出する第1のレベル検出手段と、前記音響信号の右成分と左成分からその差分のレベルを検出する第2のレベル検出手段と、前記音響信号を話速変換する話速変換手段と、前記検出された音声帯域のレベルと前記検出された差分のレベルとに基づいて前記話速変換手段に話速変換を実施させる話速変換制御手段と、を備えることを特徴とする。
また、上記の話速変換装置において、前記話速変換制御手段は、前記検出された差分のレベルが大きいほど閾値を大きく設定して、前記検出された音声帯域のレベルが前記設定された閾値より大きい場合に前記話速変換手段に話速変換を実施させ該閾値より小さい場合に話速変換を停止させることを特徴とする。
この構成によれば、左右の成分に差を有する音声以外の音(背景音)のレベルが大きいほど、話速変換の実施と停止を切り換える閾値を大きく設定するようにしたので、音声と背景音の両方が存在している状態と音声が無くなり背景音だけが存在する状態とを適切に区別し、話速変換を行うことができる。
即ち、本発明では、音声はステレオマイクの中央で収音され、背景音はステレオマイクの左右いずれかに偏った方向から発せられることを前提としている。したがって、背景音が大きい場合には第2のレベル検出手段により検出されるレベルが大きくなり、閾値が大きく設定される。ここで、背景音は音声帯域の成分も有しているので、背景音が大きいほど、音声が無い状態で第1のレベル検出手段で検出される音声帯域のレベルは大きい値となる。このとき、閾値が大きく設定されているので、音声が無くなった状態となったことをこの閾値により判別可能である。これにより、背景音が音声に混ざっている場合でも、背景音の大きさによらず、適切に話速変換の実施と停止を切り換えることができる。
また、本発明は、上記の話速変換装置において、前記話速変換制御手段は、前記検出された差分のレベルに応じて変換後の話速を制御することを特徴とする。
この構成によれば、背景音のレベルに応じて話速を変化させることで環境に合った話速変換を実現することができる。例えば、背景音が大きいと音声は聞き取りづらいので、背景音が大きい場合は背景音が小さい場合より話速を遅くすることで、音声を聞き取りやすくすることができる。
また、本発明は、上記の話速変換装置において、前記話速変換制御手段は、前記検出された音声帯域のレベルに応じて変換後の話速を制御することを特徴とする。
この構成によれば、音声のレベルに応じて話速を変化させることで最適な話速を得ることができる。
また、本発明は、上記の話速変換装置において、前記第2のレベル検出手段は、前記音響信号に含まれる音声の右成分と左成分が同レベルとなるように前記音響信号の右成分と左成分に重み付けをし、該重み付け後の音響信号の右成分と左成分から差分のレベルを検出することを特徴とする。
この構成によれば、音声がステレオマイクの中央で収音されていない場合でも、中央で収音されたのと同じ効果が得られる重み付けの補正をすることで、常に適正な話速変換を行うことができる。
本発明によれば、音声と背景音とが混ざっている場合においても適切に話速変換処理を行うことが可能である。
(第1の実施形態)
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
図1は、本発明の一実施形態による話速変換装置の構成を示す機能ブロック図である。図1において、話速変換装置10は、ステレオマイク11と、A/Dコンバータ12と、制御部13と、話速変換部14と、D/Aコンバータ15と、スピーカ16と、を含んで構成されている。また、制御部13は、帯域除去フィルタ131と、乗算部132と、加算部133と、第1レベル検出部134と、帯域通過フィルタ135と、乗算部136と、加算部137と、第2レベル検出部138と、話速変換制御部139と、を含んで構成されている。
ステレオマイク11は、音声と背景音とを含んだ音をステレオで収音し、アナログの音響信号を出力する。A/Dコンバータ12は、ステレオマイク11から出力されたアナログの音響信号をアナログ・デジタル変換して、デジタルの音響信号を話速変換部14と制御部13へ出力する。ここで、話者とステレオマイク11が左右対称の位置関係にある場合、音響信号に含まれる話者からの音声は右チャネルと左チャネルで等しくなるが、以下では話者とステレオマイク11が左右対称でない場合も考慮し、音声の右チャネルと左チャネルは等しくないものとする。一方、背景音は通常、ステレオマイク11に対して左右対称になっているとは限らないため、音響信号に含まれる背景音は右チャネルと左チャネルで等しくない。
話速変換部14は、話速変換制御部139による制御を受けて、A/Dコンバータ12から入力される音響信号に話速変換を施し、話速変換後の音響信号をD/Aコンバータ15へ出力する。話速変換は音声の声質(フォルマント)を変えずに再生スピードを遅く或いは速くして再生を行う処理であり、例えば周知のPICOLA(Pointer Interval Controlled Overlap and Add)やTDHS(Time Domain Harmonic Scaling)等のアルゴリズムを用いることができる。
D/Aコンバータ15は、話速変換部14から出力されるデジタルの音響信号をデジタル・アナログ変換しアナログの音響信号を出力する。スピーカ16は、入力されたアナログ音響信号に従って音を放音する。
制御部13は、A/Dコンバータ12から入力される音響信号を分析し、その分析結果に基づいて話速変換部14における話速変換を制御する。話速変換の制御には、話速変換処理の実施と停止を切り換えることや、話速変換処理を実施する場合に変換後の話速を設定すること等が含まれる。以下、制御部13を構成する各要素の機能及び動作を詳しく説明する。
帯域通過フィルタ135は、入力された音響信号(上述したように音声と背景音とを含んでいる)のうち、音声の帯域成分のみを通過させ、音声の帯域以外の成分を遮断する。フィルタ帯域内であれば、全ての音響信号が帯域通過フィルタ135を通過する。つまり、帯域通過フィルタ135の出力は、当該フィルタ帯域内の音声と背景音の両方である。なお、音声の帯域は、例えば人の会話のほとんどが行われる周波数帯である200〜8,000Hzの帯域に設定すればよい。
帯域通過フィルタ135から出力される音響信号の右成分は、乗算部136により定数(+α)を乗じられてから加算部137へ入力され、左成分は、そのまま加算部137へ入力される。加算部137は、両者を加算して出力する。乗算部136が乗じる定数の+αは、加算部137へ入力される右成分(即ち、乗算部136の出力)に含まれる音声と左成分(即ち、帯域通過フィルタ135の左出力)に含まれる音声とが同じレベルとなるような値に予め設定しておく。これにより、話者とステレオマイク11が左右対称の位置関係にない場合にも、加算部137から出力される音響信号は、右成分と左成分が同じレベルになる。なお、上記αの設定は、例えば、背景音が存在しない状況で加算部137への2つの入力をモニタすることによって行うことができる。また、話者とステレオマイク11が左右対称の位置関係にある場合には、α=1と設定すればよい。
第2レベル検出部138は、加算部137から入力される音響信号、即ち音声帯域内の音声と背景音とを含んだ音響信号のレベル(音の大きさ、音量)を検出し、検出したレベル値Lを話速変換制御部139へ出力する。第2レベル検出部138により検出されるレベル値Lは、例えば図3に示すようなものとなる。同図において、話者が声を発していない時は音響信号には背景音だけが含まれるので、検出レベル値Lは背景音と同じレベルになる(区間B,D,F)。また、話者が声を発している時は音響信号には音声と背景音の両方が含まれるので、検出レベル値Lは背景音のレベルに音声のレベルが加算された値となる(区間A,C,E,G)。
一方、帯域除去フィルタ131は、音声と背景音とを含む入力された音響信号のうち、音声の帯域成分を遮断し、音声の帯域以外の成分のみを通過させる。帯域除去フィルタ131の出力は、背景音(但し、音声帯域の成分は含まれない)のみとなる。以下では、この背景音を帯域外背景音と称することとする。
帯域除去フィルタ131から出力される音響信号の右成分は、乗算部132により定数(−α)を乗じられてから加算部133へ入力され、左成分は、そのまま加算部133へ入力される。加算部133は、両者を加算して出力する。乗算部132が乗じる定数は、上述した音声帯域側の乗算部136が乗じる定数と絶対値が同じで符号がマイナスである。したがって、もし帯域除去フィルタ131による音声帯域の減衰が十分でなく、帯域除去フィルタ131からの出力に音声帯域の成分が残留していたとしても、加算部133へ入力される右成分と左成分にそれぞれ残留する音声帯域の音声は、大きさが等しく符号が反対であるので、加算部133で加算されることにより互いにキャンセルし合う。これにより、加算部133から出力される音響信号は、音声を含まず、帯域外背景音のみを含んだものとなる。
第1レベル検出部134は、加算部133から入力される音響信号、即ち帯域外背景音のみを含んだ音響信号のレベルを検出し、検出したレベル値Mを話速変換制御部139へ出力する。
話速変換制御部139には、上記のとおり、音声帯域内の音響信号のレベル値Lと、帯域外背景音のレベル値Mとが入力される。話速変換制御部139は、入力された音声帯域のレベル値Lが閾値Lthより大きい場合、話速変換部14に話速変換処理を実施する指示を行い、レベル値Lが閾値Lthより小さい場合、話速変換部14に話速変換処理を停止する指示を行う。つまり閾値Lthに基づき、話速変換部14では話速変換処理の実施と停止を切り換える制御が行われる。また話速変換制御部139は、上記閾値Lthを、入力された帯域外背景音のレベル値Mが大きいほど大きい値に設定する。
具体例で説明する。図2は、帯域外背景音の各レベル値Mに対する閾値Lthの設定例を示した図であり、図3は、図2の設定例に従って行われた話速変換の制御結果を示した図である。図2において、帯域外背景音のレベル値がMの時、閾値はLth1に設定され、帯域外背景音のレベル値がMより大きいMの時、閾値はLth1より大きいLth2に設定されている。帯域外背景音のレベル値がMとMの間など他の領域についても同様に、閾値Lthは、帯域外背景音の各レベル値Mに対して図中の境界線Cで示すような増加関数となるように設定される。但し、閾値Lth1は、帯域外背景音のレベル値がMであって話者が発話をしていない時の音声帯域(この時音声帯域には背景音しか存在しない)のレベル値より大きい値とし、閾値Lth2は、同様に帯域外背景音のレベル値がMであって話者が発話をしていない時の音声帯域(同様に背景音のみ存在)のレベル値より大きい値とし、その他の領域の閾値Lthについても同様であるとする(なお、この条件は、以下で説明するように話者が発話を止めたことを検知するための条件である)。なお、上記の境界線Cは、最適な話速変換が実行されるように、例えば話速変換装置の使用状況等を考慮して設定すればよい。
さて、ここで、帯域外背景音のレベル値がM(一定)である状況を考える。この場合、話速変換制御部139は、閾値をLth1に設定する。すると、話者が発話を行い第2レベル検出部138で検出された音声帯域のレベル値Lが閾値Lth1を上回っていれば、話速変換制御部139は、話速変換部14に話速変換処理を実施する指示を行う。これにより、話速変換部14は入力音響信号に対して話速変換を実施する(話速変換オン)。また、話者が発話を止めると、第2レベル検出部138へ入力される音響信号は音声帯域内の背景音のみとなってレベル値Lが閾値Lth1を下回るので、話速変換制御部139は、話速変換部14に話速変換処理を停止する指示を行う。これにより、話速変換部14は入力音響信号に対する話速変換を停止する(話速変換オフ)。
したがって、図2において、閾値Lthを表す境界線Cよりも音声帯域のレベル値Lが大きい領域(同図では境界線Cより右下の領域)では話速変換オンの制御が行われ、境界線Cよりもレベル値Lが小さい領域(境界線Cより左上の領域)では話速変換オフの制御が行われることになる。また、図3(A)において、時間tの経過とともに話者が発話を行ったり止めたりすると、話者が発話を止めている区間では、音声帯域内には背景音のみが存在するのでレベル値Lは閾値Lth1を下回って話速変換をオフとする制御が行われ(同図の区間B,D,F)、話者が発話を行っている区間では、音声帯域内には背景音に加えて音声が存在し、レベル値Lが閾値Lth1を上回って話速変換をオンとする制御が行われる(同図の区間A,C,E,G)。
次に、帯域外背景音のレベル値が上昇してM(一定)となった状況を考える。このとき、もし仮に閾値を同一の値Lth1のままに設定したとすると、背景音が大きくなったことにより話者が発話をしていない時の音声帯域(背景音のみが存在している)のレベルが上昇し、そのレベルが背景音の大きさによっては閾値Lth1を上回ってしまう状況が起こり得る。そうなると、話者が発話を止めても音声帯域のレベル値Lが閾値Lth1を下回らないため、話速変換は停止されず、常時、話速変換をオンとする制御が継続してしまうことになる。
しかし本発明の話速変換装置10では、帯域外背景音のレベル値がMとなった場合に話速変換制御部139が閾値をLth1より大きいLth2に設定するので、そのような事態を避けることができる。即ち、話者が発話を止めた状態で第2レベル検出部138に検出される音声帯域のレベル値Lは、(上記した閾値Lth2の定義から)設定された閾値Lth2より小さくなり、話速変換制御部139は、話速変換部14に話速変換処理を停止する指示を行う。これにより、話速変換部14は入力音響信号に対する話速変換を停止する。また、話者が発話を行い音声帯域のレベル値Lが閾値Lth1より大きくなれば、話速変換制御部139は、話速変換部14に話速変換処理を実施する指示を行う。これにより、話速変換部14は入力音響信号に対して話速変換を実施する。
こうして、背景音が大きくなった場合にも、適切に話速変換の実施と停止の切り換え制御を実現することができる。したがって、図3(B)に示すように、話者が発話を行っている区間A,C,E,Gでは話速変換をオンとし、話者が発話を止めている区間B,D,Fでは、話速変換をオフとすることができる。
なお、上記の説明では帯域外背景音のレベル値がMとMの2つの状況を考えたが、帯域外背景音のレベル値が時々刻々変化しているときにも、同様に適切な話速変換制御を行えることは上記の説明から明らかである。つまり、話速変換制御部139は、入力された音声帯域のレベル値Lと帯域外背景音のレベル値Mとによって決まる座標点(L,M)を図2のLM座標平面にマッピングし、その座標点(L,M)が境界線Cより右下の領域にあるか左上の領域にあるかに応じて、それぞれ話速変換のオンとオフを切り換えればよい。
次に、話速変換部14の具体的構成を説明する。図4(A)は、話速変換部14のブロック図であり、図4(B)は、話速変換部14の入出力の関係を時間軸で表したチャート図である。
図4(A)において、切換えスイッチ141へは、A/Dコンバータ12からの音響信号が入力される。切換えスイッチ141は、話速変換制御部139による制御に従い、入力された音響信号を、入力バッファ142,変換部143,及び出力バッファ144を順次経由して切換えスイッチ145へ繋がる経路と直接切換えスイッチ145へ繋がる経路とで切り換えて出力する。入力バッファ142は先入れ先出し(FIFO)型のメモリであり、切換えスイッチ141を経由して入力された音響信号を入力順に記憶するとともに、記憶された順に音響信号を変換部143へ出力する。変換部143は、前述したPICOLAやTDHS等のアルゴリズムを用いて音響信号を話速変換し出力バッファ144へ出力する。出力バッファ144は、入力バッファ142と同様先入れ先出し(FIFO)型のメモリであり、話速変換されて入力された音響信号を入力順に記憶するとともに、記憶された順に音響信号を切換えスイッチ145へ出力する。切換えスイッチ145は、話速変換制御部139による制御に従って、且つ、出力バッファ144が空になったか否かに応じて、切換えスイッチ141からの経路と出力バッファ144からの経路を切り換え、切り換えられた方の経路から音響信号を入力して出力する。
ここで、図4(B)に示されるように、時刻t1で話者が発話を開始して音声帯域のレベル値Lが閾値Lthを上回ると、話速変換制御部139から話速変換(話速を遅くするものであるとする)を実施するとの指示がなされて、切換えスイッチ141は経路を入力バッファ142の側へ切り換える。これにより、入力バッファ142へ音響信号のバッファリングが開始されて(図中A)、変換部143により話速変換が行われ、出力バッファ144へ話速変換後の音響信号がバッファリングされ始める(図中B)。このとき、話速を遅くするので、出力バッファ144へは時間の経過とともに未出力の音響信号が溜まっていくことになる。
話者が時刻t2で発話を止めると、音声帯域のレベル値Lは閾値Lthを下回り、話速変換制御部139から話速変換を停止するとの指示がなされて、切換えスイッチ141は経路を入力バッファ142の側から切換えスイッチ145の側へ切り換える。これにより、入力バッファ142への音響信号のバッファリングが停止される(図中C)。但し、このとき出力バッファ144には未出力の音響信号が溜まっており、バッファが空になっていないので、切換えスイッチ145は経路の切り換えをまだ行わない。この結果、出力バッファ144から切換えスイッチ145を介して、溜まっている音響信号の出力が引き続き行われる。
出力バッファ144からの音響信号の出力は、音響信号が出力し尽くされて出力バッファ144が空になるまで続けられる。時刻t3で出力バッファ144が空になると、切換えスイッチ145は、経路を出力バッファ144の側から切換えスイッチ141の側へ切り換える(図中D)。こうして、時刻t1から時刻t2までの間の音響信号を話速変換した音響信号が時刻t1から時刻t3にかけて出力され、時刻t3以降は、切換えスイッチ141から直接切換えスイッチ145へ入力される話速変換が施されていない通常の音響信号が出力される。その後、時刻t4で話者が発話を再開した以降も、同様の動作が行われる。
本発明の話速変換装置10は、上述したように背景音が存在する場合であっても適切に話速変換の実施と停止の切り換え制御を行うことができる、即ち、話者が発話を止めた際に切換えスイッチ141により入力バッファ142への音響信号のバッファリングを停止させることができるため、出力バッファ144に延々と話速変換後の音響信号が入力され続けて出力バッファ144が溢れてしまう、という事態を避けることができる。
(第2の実施形態)
次に、本発明の第2の実施形態を説明する。本実施形態は、話速変換を実施する場合における変換後の話速を可変とした点のみが上述した第1の実施形態と異なり、その他の点は第1の実施形態と同じである。
図5は、本実施形態における話速の設定例を示した図である。同図において、帯域外背景音の各レベル値Mと閾値Lthとの関係は、第1の実施形態と同様、閾値Lthが帯域外背景音の各レベル値Mに対して増加関数(図中の境界線C)となるように設定されている。上述した第1の実施形態では、境界線Cより右下側の領域において単純に話速変換をオンにすることとしたが、本実施形態では、当該領域において話速を可変とする。即ち、図5において、境界線Cより右下側に第2の境界線C1を設け、この境界線C1より更に右下側に第3の境界線C2を設ける。そして、境界線Cと境界線C1の間の領域では話速を90%と設定し、境界線C1と境界線C2の間の領域では話速を80%と設定し、境界線C2より右下側の領域では話速を70%と設定する。ここで、例えば話速が70%であるとは、話速変換後の話速が通常時(話速変換オフ)の話速を基準として70%の再生スピードであることを意味する(話速変換がオフの場合の話速が100%)。
本実施形態における話速変換制御部139は、第2レベル検出部138によって検出される音声帯域のレベル値Lと第1レベル検出部134によって検出される帯域外背景音のレベル値Mとによって決まる座標点(L,M)が、図5の境界線Cより右下の領域にあるか左上の領域にあるかに応じてそれぞれ話速変換のオンとオフを切り換える制御(この制御は第1の実施形態と同じである)を行うとともに、話速変換をオンとする場合には、図5において座標点(L,M)が位置する領域に設定されている話速の設定値(90%,80%,70%)を話速変換部14に指示し、当該指示された話速で話速変換部14に話速変換を実施させる制御を行う。
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、ステレオマイク11に代えて、2つのモノラルマイクを用いる構成としてもよい。具体的には、話速変換装置10を携帯電話端末に搭載することを想定した場合、携帯電話端末に元々備わっている通常のモノラルマイク(メインマイク)の他に、新たにモノラルのサブマイクを携帯電話端末の側面や背面に設けた構成とすることができる。なお、このとき、制御部13への入力は2つのモノラルマイクで収音した音響信号とする必要があるが、話速変換部14への入力(話速変換の対象)はメインマイクで収音した音響信号だけでよい。
また、本発明は、マイクで収音した音響信号を直接取り扱う図1の構成に限定されず、種々のメディア(例えば、地上デジタル放送の放送波や、DVDに収録されたコンテンツ等)からのステレオの音響信号を制御部13及び話速変換部14へ入力する構成としてもよい。
また、図2において、境界線Cは直線でも曲線でもよい。
また、図5の数値例とは逆に、境界線Cと境界線C1の間の領域の話速を70%、境界線C2より右下側の領域の話速を90%、と設定してもよい。その他、話速変換をオンとする領域内における話速の設定値や境界線C1,C2の設け方は、自由に変更することができる。例えば、背景音が大きいと音声は聞き取りづらいので、背景音が大きい場合は背景音が小さい場合より話速を遅くすることで、音声を聞き取りやすくすることができる。
また、制御部13や話速変換部14は、専用のハードウェアとして構成してもよいし、CPU等のコンピュータにソフトウェアを読み込ませて実行させることにより実現した機能であってもよい。
本発明の一実施形態による話速変換装置の構成を示す機能ブロック図である。 帯域外背景音の各レベル値Mに対する閾値Lthの設定例を示した図である。 図2の設定例に従って行われた話速変換の制御結果を示した図である。 話速変換部のブロック図、及び、話速変換部の入出力の関係を時間軸で表したチャート図である。 話速を可変に設定した設定例を示した図である。
符号の説明
10…話速変換装置 11…ステレオマイク 12…A/Dコンバータ 13…制御部 14…話速変換部 15…D/Aコンバータ 16…スピーカ 131…帯域除去フィルタ 132…乗算部 133…加算部 134…第1レベル検出部 135…帯域通過フィルタ 136…乗算部 137…加算部 138…第2レベル検出部 139…話速変換制御部 141…切換えスイッチ 142…入力バッファ 143…変換部 144…出力バッファ 145…切換えスイッチ

Claims (5)

  1. 音響信号に含まれる音声帯域のレベルを検出する第1のレベル検出手段と、
    前記音響信号の右成分と左成分からその差分のレベルを検出する第2のレベル検出手段と、
    前記音響信号を話速変換する話速変換手段と、
    前記検出された音声帯域のレベルと前記検出された差分のレベルとに基づいて前記話速変換手段に話速変換を実施させる話速変換制御手段と、
    を備えることを特徴とする話速変換装置。
  2. 前記話速変換制御手段は、前記検出された差分のレベルが大きいほど閾値を大きく設定して、前記検出された音声帯域のレベルが前記設定された閾値より大きい場合に前記話速変換手段に話速変換を実施させ該閾値より小さい場合に話速変換を停止させることを特徴とする請求項1に記載の話速変換装置。
  3. 前記話速変換制御手段は、前記検出された差分のレベルに応じて変換後の話速を制御することを特徴とする請求項2に記載の話速変換装置。
  4. 前記話速変換制御手段は、前記検出された音声帯域のレベルに応じて変換後の話速を制御することを特徴とする請求項1から請求項3のいずれか1の項に記載の話速変換装置。
  5. 前記第2のレベル検出手段は、前記音響信号に含まれる音声の右成分と左成分が同レベルとなるように前記音響信号の右成分と左成分に重み付けをし、該重み付け後の音響信号の右成分と左成分から差分のレベルを検出することを特徴とする請求項1から請求項4のいずれか1の項に記載の話速変換装置。
JP2008190868A 2008-07-24 2008-07-24 話速変換装置 Active JP5228669B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008190868A JP5228669B2 (ja) 2008-07-24 2008-07-24 話速変換装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008190868A JP5228669B2 (ja) 2008-07-24 2008-07-24 話速変換装置

Publications (2)

Publication Number Publication Date
JP2010026438A true JP2010026438A (ja) 2010-02-04
JP5228669B2 JP5228669B2 (ja) 2013-07-03

Family

ID=41732300

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008190868A Active JP5228669B2 (ja) 2008-07-24 2008-07-24 話速変換装置

Country Status (1)

Country Link
JP (1) JP5228669B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10260694A (ja) * 1997-03-19 1998-09-29 Fujitsu Ltd 話速変換装置、話速変換方法及び記録媒体
JP2007293214A (ja) * 2006-04-27 2007-11-08 Mitsubishi Electric Corp 話速変換装置及びテレビジョン受像機並びに話速変換方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10260694A (ja) * 1997-03-19 1998-09-29 Fujitsu Ltd 話速変換装置、話速変換方法及び記録媒体
JP2007293214A (ja) * 2006-04-27 2007-11-08 Mitsubishi Electric Corp 話速変換装置及びテレビジョン受像機並びに話速変換方法

Also Published As

Publication number Publication date
JP5228669B2 (ja) 2013-07-03

Similar Documents

Publication Publication Date Title
JP5562309B2 (ja) エコーキャンセラ
JP4631939B2 (ja) ノイズ低減音声再生装置およびノイズ低減音声再生方法
US9479883B2 (en) Audio signal processing apparatus, audio signal processing method, and program
US9531338B2 (en) Signal processing apparatus, signal processing method, program, signal processing system, and communication terminal
JP2015173369A (ja) 信号処理装置、信号処理方法、およびプログラム
JP2011097268A (ja) 再生装置、ヘッドホン及び再生方法
US10510361B2 (en) Audio processing apparatus that outputs, among sounds surrounding user, sound to be provided to user
JP2004226656A (ja) マイクロホンアレイを用いた話者距離検出装置及び方法並びに当該装置を用いた音声入出力装置
CN101903942A (zh) 具有基于噪声水平的增益控制的噪声消除系统
JP2008141507A (ja) 情報処理装置、およびプログラム
US8761386B2 (en) Sound processing apparatus, method, and program
WO2022140928A1 (zh) 用于抑制回声的音频信号处理方法和系统
EP2996352A1 (en) Audio system and method using a loudspeaker output signal for wind noise reduction
WO2019239977A1 (ja) エコー抑圧装置、エコー抑圧方法およびエコー抑圧プログラム
JP5349062B2 (ja) 音響処理装置及びそれを備えた電子機器並びに音響処理方法
JP2011150060A (ja) 録音装置
JP6878776B2 (ja) 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム
JP2007174011A (ja) 収音装置
JP5228669B2 (ja) 話速変換装置
JP2009265422A (ja) 情報処理装置及び情報処理方法
JP4999797B2 (ja) 対話型ハンズフリー話速変換通話装置
JP5359744B2 (ja) 音処理装置及びプログラム
JP2006126841A (ja) 周期信号増強システム
WO2023119764A1 (ja) 耳装着型デバイス、及び、再生方法
JP4134844B2 (ja) 聴覚補助装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110520

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120522

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120529

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120712

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121211

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130304

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160329

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150