JP5977528B2 - 話速変換装置、話速変換方法及びプログラム - Google Patents

話速変換装置、話速変換方法及びプログラム Download PDF

Info

Publication number
JP5977528B2
JP5977528B2 JP2012018711A JP2012018711A JP5977528B2 JP 5977528 B2 JP5977528 B2 JP 5977528B2 JP 2012018711 A JP2012018711 A JP 2012018711A JP 2012018711 A JP2012018711 A JP 2012018711A JP 5977528 B2 JP5977528 B2 JP 5977528B2
Authority
JP
Japan
Prior art keywords
data
buffer
silence
silent
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012018711A
Other languages
English (en)
Other versions
JP2013156552A (ja
Inventor
内藤 昌行
昌行 内藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2012018711A priority Critical patent/JP5977528B2/ja
Publication of JP2013156552A publication Critical patent/JP2013156552A/ja
Application granted granted Critical
Publication of JP5977528B2 publication Critical patent/JP5977528B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Telephone Function (AREA)

Description

本発明は、話速変換装置等に関する。
従来から、相手の声の高さを変化させることなく音声の再生速度すなわち話速を遅くさせることにより、会話の内容を聞き取りやすくするための技術が提案されている。このとき、単純に話速を遅くさせるのみでは、音声補聴装置や、電話等においては遅くさせた分の遅延が蓄積されていき、会話が成立しなくなってしまう。このような問題を解決するため、会話の途中に存在する無音区間(人の声などの音が無い区間)を詰めることや無音区間における話速を早くさせることで、遅延を解消する技術が提案されている。
この遅延を解消する技術は実際の装置においては、有限のバッファにデータを貯めることで、音声の再生速度すなわち話速を遅くすることを実現している。そのため、有限のバッファが一杯になってしまうと音声の再生速度すなわち話速を遅くすることが出来ない。
そこで無音区間(人の声などの音が無い区間)を詰めることや無音区間における話速を早くさせることで削減した無音期間分に相当する期間のデータを貯めてあったバッファのデータから出力するようにすることでバッファの空きを増やし、次の音声の再生速度すなわち話速を遅くするようにしている。
例えば、特許文献1では、無音区間の削除時に音声の最初の部分である「話頭」について話頭保護区間を儲け、話速変換部のバッファに蓄積されている蓄積量を計算して、話速決定部及び話頭保護区間決定部に供給し、次のフレームの話速を決定するのに用いられる技術が開示されている(削除であれば、削除するフレーム数だけ蓄積量及び遅延は減少し、話速を0.5倍にすれば1フレームにつき20ms分だけ蓄積量が増加することになる)。
そして、話頭保護区間決定部は、蓄積量に応じて話頭保護区間(可変のフレーム数)を決定する。例えば、蓄積量(話速変換での遅延に対応)が所定のフレーム以下の場合は、蓄積量(蓄積フレーム数)を話頭保護区間とする。蓄積量が10フレーム以上の場合には話頭保護区間を10フレームとすることで、遅延を解消する方法が提案されている。
特許第4630876号
しかし、上述した特許文献1の方法においては、フレーム数での設定により行っていることから、無音区間における削減する無音期間が、本来削減できる無音期間より増えてしまう。これは、次の音声の再生速度すなわち話速を遅くすることが出来る期間が少なくなることになり、話速変換されない期間の頻度が上がる課題があった。
上述した課題に鑑み、本発明が目的とするところは、音の高さを変えずに音声の再生速度を変換する話速変換装置等に関し、特に聴覚障害者や高齢者等の音声補聴装置や、電話等において、話速変換による補助的聴取を行う際の聞き取り易さの向上を実現するリアルタイム式の話速変換装置を提供することを目的とする。
上述した課題を解決するために、本発明の話速変換装置は、
入力音声データのサンプリング単位毎に音声信号のパワーが所定の閾値を超える有音区間と、当該閾値以下を無音区間とを判定する無音判定部と、
前記有音区間について、前記入力音声データを伸張又はそのまま出力バッファに出力する話速変換部と、
前記話速変換部により、前記入力音声データが伸張されたことによる増加分のデータ量を判定する増加分判定部と、
前記入力音声データから単位データを読み出し、当該単位データが無音データの場合に、前記増加分のデータ量以内の前記無音データは無音バッファに出力し、前記増加分のデータ量以上の前記無音データは前記出力バッファに出力する制御を行うバッファ制御部と、
を備え、
前記バッファ制御部は、
前記無音判定部により、前記無音区間から前記有音区間が判定された場合には、前記判定された位置から保護区間分の前記無音データを遡って前記無音バッファから読み出し、前記出力バッファに出力する制御を行うことを特徴とする。
また、本発明の話速変換装置において、
前記バッファ制御部は、前記無音判定部により、前記有音区間から前記無音区間が判定された場合には、前記無音データと判定された分が連続して保護区間分検出されたときには、保護区間分の前記無音データを前記無音バッファから読み出して前記出力バッファに出力する制御を行うことを特徴とする。
また、本発明の話速変換装置において、
前記バッファ制御部は、前記話速変換部により音声データを伸張していない場合には、前記無音データは、出力バッファに出力することを特徴とする。
また、本発明の話速変換装置において、
前記無音バッファは、リングバッファを構成していることを特徴とする。
本発明の話速変換方法は、
入力音声データのサンプリング単位毎に音声信号のパワーが所定の閾値を超える有音区間と、当該閾値以下を無音区間とを判定する無音判定ステップと、
前記有音区間について、前記入力音声データを伸張又はそのまま出力バッファに出力する話速変換ステップと、
前記話速変換ステップにより、前記入力音声データが伸張されたことによる増加分のデータ量を判定する増加分判定ステップと、
前記入力音声データから単位データを読み出し、当該単位データが無音データの場合に、前記増加分のデータ量以内の前記無音データは無音バッファに出力し、前記増加分のデータ量以上の前記無音データは前記出力バッファに出力する制御を行うバッファ制御ステップと、
を有し、
前記バッファ制御ステップは、
前記無音判定ステップにより、前記無音区間から前記有音区間が判定された場合には、前記判定された位置から保護区間分の前記無音データを遡って前記無音バッファから読み出し、前記出力バッファに出力する制御を行うことを特徴とする。
本発明のプログラムは、
コンピュータに、
入力音声データのサンプリング単位毎に音声信号のパワーが所定の閾値を超える有音区間と、当該閾値以下を無音区間とを判定する無音判定機能と、
前記有音区間について、前記入力音声データを伸張又はそのまま出力バッファに出力する話速変換機能と、
前記話速変換機能により、前記入力音声データが伸張されたことによる増加分のデータ量を判定する増加分判定機能と、
前記入力音声データから単位データを読み出し、当該単位データが無音データの場合に、前記増加分のデータ量以内の前記無音データは無音バッファに出力し、前記増加分のデータ量以上の前記無音データは前記出力バッファに出力する制御を行うバッファ制御機能と、
を有し、
前記バッファ制御機能は、
前記無音判定機能により、前記無音区間から前記有音区間が判定された場合には、前記判定された位置から保護区間分の前記無音データを遡って前記無音バッファから読み出し、前記出力バッファに出力する制御を行う、
ことを実現させることを特徴とする。
本発明によれば、サンプリング単位毎に音声信号のパワーが所定の閾値を超える有音区間と、当該閾値以下の無音区間とを判定し、有音区間について、音声データを伸張又はそのまま出力バッファに出力する。そして、音声データのうち、無音区間について、無音バッファに無音データとして記憶し、無音判定部により、無音区間から有音区間が判定された場合には、当該判定された位置から、保護区間分の無音データを遡って無音バッファから読み出して出力バッファに出力する。これにより、例えば話頭保護に必要な区間だけ保護されることになり、サンプリング単位毎に適切な範囲で保護され、不要な無音データを削除可能となる。
話速変換装置の機能構成を説明するための図である。 話速変換装置の概要を説明するための図である。 話速変換装置の概要を説明するための図である。 話速変換装置の概要を説明するための図である。 話速変換装置の概要を説明するための図である。 話速変換装置の処理について説明するための図である。 話速変換装置の処理について説明するための図である。 話速変換装置の処理について説明するための図である。 第1実施例について説明するための図である。 第2実施例について説明するための図である。 第2実施例について説明するための図である。 第3実施例について説明するための図である。 適用例について説明するための図である。 適用例について説明するための図である。
以下、本発明を適用した話速変換装置について図を用いて説明する。なお、以下の実施形態については、本発明を説明するための一形態であり、本発明の内容が以下の実施形態に限定して解釈されないことは勿論である。
[1.機能構成]
まず、話速変換装置1の機能構成から説明する。図1に示すように、話速変換装置1は、バッファ制御部10と、無音判定部20と、話速変換部30と、無音バッファ40と、出力バッファ50とを含んで構成されている。また、図1において、実線はデータの流れを示しており、点線は制御信号の流れを示している。
ここで、話速変換装置1は、外部から入力された音声信号がAD変換部(不図示)により入力音声データとして入力され、話速変換処理が実行される。そして、話速変換処理を施した出力音声データを出力する装置である。
バッファ制御部10は、話速変換装置1の全体を制御するための機能部である。特に、無音バッファ40に記憶される無音データについて、話速変換部30により増加した増加データ量等に基づいて、無音バッファ40の制御を行うことをする。
無音判定部20は、入力された入力音声データのレベルが、所定の閾値未満の場合については、無音区間と判定して「無音データ」として無音バッファ40に出力し、それ以上の場合には有音区間と判定して「有音データ」として話速変換部30に出力する機能部である。ここで、有音データについては話速変換部30に出力され、無音データについては無音バッファ40に出力される。
話速変換部30は、無音判定部20から入力された有音データに基づいて、そのまま出力したり、ピッチの抽出や話速変換(伸張、データ追加)等を行う機能部である。話速変換部30により、有音データの話速(音の速度)を変換することができる。なお、話速を変換するために、データが追加されるが、当該データの追加量はバッファ制御部10に通知される。また、データの追加量は、後述する出力バッファ50の最大出力サイズである。
ここで、変換される話速については、利用者から入力されても良いし、予め定められた分だけ話速変換されても良い。例えば、話速変換する場合には、入力音声に対して75%話速を落とすこととしても良いし、利用者により定められた範囲(例えば50%〜99%)において決められた分話速を落とすこととしても良い。更に、入力音声を検知し、可変することとしてもよい。
無音バッファ40は、無音判定部20により「無音データ」と判定されたデータが、一時的に記憶される領域である。ここで、「無音データ」とは、例えば音声信号のレベルが所定の閾値未満の場合に判定される。
また、無音バッファ40は、本実施形態において2つの領域に分けて構成されている。すなわち、第1無音バッファ42と、第2無音バッファ44との領域に分かれている。この第1無音バッファ42と、第2無音バッファ44とは、論理的にはループを構成しており、第1無音バッファ42の最初から記憶された無音データは、第1無音バッファ42の記憶領域が無くなると、第2無音バッファ44の先頭から記憶される。また、第2無音バッファ44の記憶領域が無くなると、第1無音バッファ42の先頭から記憶される。
また、無音バッファ40(第1無音バッファ42と第2無音バッファ44)のバッファサイズ(記憶容量)としては、センテンスとセンテンスとの間の「間」として保護するのに十分な時間(すなわち、話頭保護期間と、話尾保護期間との合計)により決定される。すなわち、無音バッファ40は、音声データの保護区間となる。第1無音バッファ42(の記憶容量)は、話尾保護のための保護区間であり、第2無音バッファ44(の記憶容量)は、話頭保護のための保護区間である。
本実施形態では、説明の都合上、一例として0.4秒分(1領域分は0.2秒分)の無音データが記憶出来るバッファサイズを確保するとするが、それ以上であってもよいし、例えば可変サイズとしても良い。
出力バッファ50は、話速変換部30から有音データと、無音バッファ40から無音データとが入力され、出力音声データとして出力する機能部である。ここで、出力バッファ50のバッファサイズは、許容される遅延量に応じて決定される。本実施形態においては、約1秒分の音声データが記憶できるバッファサイズを確保するとする。
[2.動作概要]
続いて、本実施形態における話速変換装置1における話速変換の動作について、図を用いて概要を説明する。
図2(a)は、話速変換装置1に入力される入力音声信号の波形を示した図である。図2(a)における入力音声信号を、量子化して入力音声データとして簡略的に示したのが図2(b)である。
このとき、入力音声データのうち、所定の音量レベル未満については無音データ、所定の音量レベル以上については有音データと判定する。例えば、図2(c)に示すように、音量レベルがr1の範囲内の場合には無音データと判定され(区間t2、t4、t6及びt8)、音量レベルがr1を超えた場合には有音データと判定される(区間t1、t3、t5、t7及びt9)。
ここで、所定の閾値は、予め決められているものであっても良いし、入力音声データに基づいて算出されるものであっても良い。また、閾値は一定値であっても良いし、時間と共に変化することとしても良い。
例えば、16bit階調であれば、その1%である±328を閾値とし、入力音声データが+328より小さく、−328より大きい場合は無音データとして判定する。
無音判定部20より判定された有音データは話速変換部30に、無音データは無音バッファ40にそれぞれ出力される。
話速変換部30では、入力音声データを変換する。例えば、図3(a)は、話速変換部30に入力された音声データの一部を示した図である。このとき、入力音声データからピッチを抽出する。ピッチとは、音声の繰り返し周期の基本周波数であり、例えば、図3(a)のp1の部分である。
そして、抽出されたピッチ単位のデータを追加する。追加した状態を示した図が図3(b)である。図3(b)では、図3(a)のピッチp1と同じデータが、ピッチp2として追加(挿入)されている。なお、データの追加手法としては、上述したようにピッチ単位の波形を繰り返しても良いし、TDHS(Time Domain Harmonic Scaling)やPICOLA(Pointer Interval Controlled OverLap and Add)といった他の公知の手法を用いても良い。
また、無音データについては、無音バッファ40に出力される。無音バッファ40は、第1無音バッファ42と、第2無音バッファ44に分かれて構成されている。本実施形態においては、説明の都合上、無音バッファ40として0.4秒分の無音データが記憶出来る分の領域が確保されている。
ここで、図4を用いて説明する。図4は、図2におけるt4の領域の無音データが記憶された場合の無音バッファ40を模式的に示している。
まず、第1無音バッファ42に、無音データが記憶されていく(図4(a))。このとき、第1無音バッファ42の記憶容量の残りが無くなった場合には、連続して第2無音バッファ44に無音データが記憶される。
このとき、第2無音バッファ44が記憶されている間に、第1無音バッファ42に記憶されている無音データを、出力バッファ50に出力する。この動作により、話尾の保護がなされることとなる。
同様に、第2無音バッファ44にデータが記憶され、記憶容量の残りが無くなった場合には、第1無音バッファ42の先頭から無音データが上書きされる。そして、これが繰り返されることとなる。すなわち、話速変換部30で有音データを追加したときは追加した分、又は、有音データと判定されるまでの間、第1無音バッファ42、第2無音バッファ44は上書きされることとなる。
このとき、無音判定部20において入力音声データが有音データと判定されると、無音バッファの出力を終了し、バッファ制御部10により終了時の処理が実行される。すなわち、有音データの判定がされた場合、第2無音バッファ44と同量のデータが出力される様に無音データを読み出す。例えば、図4(b)において、p3の領域の無音データが読み出され、出力バッファ50に出力される。
この動作により、無音データが設定値以上あった場合に、無音データの真ん中(サイズが違う場合はサイズ比率にあった場所)で、1サンプル単位で無音データを削除することが出来る。すなわち、無音データの真ん中が削除されることにより、話頭及び話尾が保護されることとなる。
図5は、入力音声データ及び出力音声データを模式的に示した図である。上側が入力音声データを示しており、下側が出力音声データを示している。ここで、t20の領域の無音データは、無音バッファの0.4秒分を超えていないため、そのまま出力されている。他方、領域t22、t24及びt26は、話速変換部30でデータが追加されており、無音データが無音バッファの0.4秒分を超えているため、追加データ分迄の範囲の無音データが削除されている。
[3.処理の流れ]
続いて、話速変換装置1において実行される話速変換処理の流れについて図を用いて説明する。
まず、入力音声データのうち、単位分のデータ(単位データ)を読み出す(図6のステップS102)。ここで、単位データとしては、例えばサンプリング単位のデータといった、すなわち処理の単位のデータをいう。
続いて、読み出されたデータが無音データか否かを判定する(ステップS104)。ここで、無音データで無い場合(有音データの場合)には(ステップS104;No)、図8のステップS302から処理が実行される。
無音データである場合(ステップS104;Yes)、話速変換部30で、データの増加分があるか否かを判定する(ステップS106)。ここで、話速変換部30において、データが増加されていない場合には(ステップS106;No)、出力バッファ50に無音データをそのまま出力し(ステップS120)、次の単位データを読み出す(ステップS102)。
話速変換部30において、増加分があった場合には(ステップS106;Yes)、1つ前の単位データが有音データか否かを判定する(ステップS108)。ここで、1つ前の単位データが有音データの場合(ステップS108;Yes)、第1無音バッファ42の最初に無音データを出力する(ステップS122)。そして、次の単位データを読み出す(ステップS102)。
他方、1つ前の単位データが有音データではない場合(すなわち無音データの場合)(ステップS108;No)、1つ前の単位データ(無音データ)に続けて無音バッファ40に出力する(ステップS110)。この場合、無音データは、上述したように第1無音バッファ42又は第2無音バッファ44に出力されることになる。
続いて、話尾保護分のデータ数があり、かつ、話尾保護フラグが0か否かを判定する(ステップS112)。両方の条件を満たす場合には、話尾の保護分のデータ量を出力バッファ50に出力し(ステップS114)、話尾保護フラグを「1」とする(ステップS116)。
他方、ステップS112において、何れかの要件を満たさない場合(ステップS112;No)、話頭保護フラグ=「1」、かつ、話頭の保護分の単位データ(無音データ)のデータ数が無音バッファ40に記憶されているか否か判定する(ステップS124)。ここで、話頭保護フラグが「1」以外又は話頭の保護分のデータ数が記憶されていない場合には(ステップS124;No)、ステップS102から処理を繰り返し実行する。
ステップS124において、話頭保護フラグ=「1」、かつ、話頭の保護分の単位データ(無音データ)のデータ数が、無音バッファ40に記憶されている場合には(ステップS124;Yes)、削除可能カウンタを1加算する(図7のステップS202)。
ここで、削除可能カウンタは、本処理において利用するカウンタであり、処理が実行される最初の段階(話速変換処理が開始される段階)で初期化されるものとする。
続いて、話速変換部30での増加データ数と、削除可能カウンタとを比較する(ステップS204)。ここで、話速変換部30での増加データ数が、削除可能カウンタより大きい場合には(ステップS204;Yes)、ステップS102から処理を繰り返し実行する。すなわち、話速変換部30での増加分に余裕があり、無音データを削除可能な状態を判定している。
続いて、話速変換部30での増加データ数が、削除可能カウンタより大きくない場合、すなわち、削除可能カウンタが話速変換部30での増加データ数以上となった場合には(ステップS204;No)、話速変換部30での増加データ数と、削除可能カウンタの数が等しいか否かを判定する(ステップS206)。
ここで、話速変換部30での増加データ数と、削除可能カウンタが同数の場合には(ステップS206;Yes)、無音バッファ40から、無音バッファ40の1領域分(保護区間分)遡った無音データを読み出して出力バッファ50に出力する(ステップS208)。その後、ステップS102から処理を繰り返し実行する。
他方、ステップS206において、話速変換部30での増加データ数と、削除カウンタの数が等しくない場合には(ステップS206;No)、無音データを出力バッファ50に出力する(ステップS210)。その後、ステップS102から処理を繰り返し実行する。
図6のステップS104に戻り説明すると、今度は話速変換部30において、入力音声データが有音データと判定された場合には(ステップS104;No)、1つ前の(単位)データが無音データであるか否かを判定する(図8のステップS302)。ここで、1つ前の(単位)データが無音データで無い場合(ステップS302;No)、ステップS102から処理を繰り返し実行する。
他方、1つ前の(単位)データが無音データの場合には(ステップS302;Yes)、削除可能カウンタが「0」か否かを判定する(ステップS304)。ここで、削除可能カウンタが「0」の場合には(ステップS304;Yes)、無音バッファ40の無音データを出力バッファ50に出力し(ステップS306)、話尾保護フラグを0とする(ステップS308)。その後、ステップS102から処理を繰り返し実行する。
また、ステップS304において、削除可能カウンタが「0」以外の場合には(ステップS304;No)、話速変換部30での増加データ数と、削除可能カウンタとを比較する(ステップS310)。
ここで、話速変換部30での増加データ数が、削除可能カウンタ以上の場合には、(ステップS310;Yes)、話尾保護フラグを「0」とし、ステップS102から処理を繰り返し実行する。
他方、話速変換部30での増加データ数が、削除可能カウンタ未満の場合には(ステップS310;No)、無音バッファ40の1領域分の無音データを出力バッファ50に出力する(ステップS312)。具体的には、図4(b)において、現在記憶されている箇所から、無音バッファ40の1領域分であるp3分の無音データが出力バッファ50に出力される。そして、話尾保護フラグを0とし(ステップS314)、ステップS102から処理を繰り返し実行する。
なお、本実施形態においては、無音バッファ40の1領域分としているが、例えば第1無音バッファ42と、第2無音バッファ44の記憶容量が異なる場合には、第2無音バッファ44の記憶容量に基づいて処理が行われることとなる。
[4.実施例]
上述した話速変換装置について、図面を用いて実施例について説明する。
[4.1 第1実施例]
第1実施例は、無音データが無音バッファの領域分以下の場合、例えば領域が0.4秒分確保されている場合に、無音データが0.4秒未満となる場合について説明する。なお、この領域は図5の領域t20の領域となる。また、本実施例における無音バッファ40の様子を図9に模式的に示し、以下図6〜図8の処理の流れを用いて説明する。
(1)まず、有音データの後、無音データと判定された場合、バッファ制御部10が処理を実行することにより、第1無音バッファ42に無音データが記憶される(図9のp100、ステップS102→S104;Yes→S106;Yes→S108;Yes→S122)。
(2)続いて、第1無音バッファ42の記憶領域が一杯になるまで、第1無音バッファ42に無音データが記憶される(図9のp102、ステップS102→S104;Yes→S106;Yes→S108;No→S110→S112;No→S124;No)。
(3)第1無音バッファ42の記憶領域が一杯になると、第2無音バッファに続けて無音データが記憶される(図9のp104、ステップS102→S104;Yes→S106;Yes→S108;No→S110→S112;Yes→S114→S116)。
(4)続いて、第2無音バッファ44の記憶領域が一杯になるまで、第2無音バッファ44に無音データが記憶される(図9のp106、ステップS102→S104;Yes→S106;Yes→S108;No→S110→S112;No→S124;No)。
(5)有音データと判定されたら、無音バッファ40の無音データを出力バッファに出力する(図9のp108、ステップS102→S104;No→S302;Yes→S304;Yes→S306→S308)。
[4.2 第2実施例]
続いて第2実施例について説明する。第2実施例は、話速変換部30での増加データ量が、出力バッファ50の記憶容量分以下(例えば、1秒分未満)であり、無音データが「無音バッファ40の記憶容量+話速変換部30での増加データ量」未満の場合について説明する。なお、この領域は図5のt24の領域となる。また、本実施例における無音バッファ40の遷移を図10、図11に模式的に示し、以下図6〜図8の処理の流れを用いて説明する。
(1)まず、有音データの後、無音データと判定された場合、バッファ制御部10が処理を実行することにより、第1無音バッファ42に無音データが記憶される(図10(a)のp200、ステップS102→S104;Yes→S106;Yes→S108;Yes→S122)。
(2)続いて、第1無音バッファ42の記憶領域が一杯になるまで、第1無音バッファ42に無音データが記憶される(図10(a)のp202、ステップS102→S104;Yes→S106;Yes→S108;No→S110→S112;No→S124;No)。
(3)第1無音バッファ42の記憶領域が一杯になると、第2無音バッファ44に続けて無音データが記憶される(図10(a)のp204、ステップS102→S104;Yes→S106;Yes→S108;No→S110→S112;Yes→S114→S116→S118)。
(4)続いて、第2無音バッファ44の記憶領域が一杯になるまで、第2無音バッファ44に無音データが記憶される(図10(b)のp206、ステップS102→S104;Yes→S106;Yes→S108;No→S110→S112;No→S124;No)。
(5)第2無音バッファ44の記憶領域が一杯になると、削除可能カウンタが1加算される。すなわち、削除可能カウンタがスタートする(図10(b)のp208、ステップS102→S104;Yes→S106;Yes→S108;No→S110→S112;No→S124;Yes→S202→S204;Yes)。
(6)削除可能カウンタが、話速変換部30での増加データ数未満の間、無音データが無音バッファ40に記憶される(図11(a)のp210、ステップS102→S104;Yes→S106;Yes→S108;No→S110→S112;No→S124;Yes→S202→S204;Yes)。
(7)有音データと判定されたら、無音バッファ40の無音データを無音バッファの1領域分だけ出力バッファ50に出力する(図9のp212、ステップS102→S104;No→S302;Yes→S304;No→S310;Yes)。すなわち、図11(b)におけるp214の無音データは削除されることとなる。
[4.3 第3実施例]
続いて第3実施例について説明する。第3実施例は、話速変換部30での増加データ量が、出力バッファ50の記憶容量分以下(例えば、1秒分未満)であり、無音データが「無音バッファ40の記憶容量+話速変換部30での増加データ量」以上の場合について説明する。なお、この領域は図5のt22の領域となる。また、第2実施例において説明した(1)〜(5)までの処理の流れ(図10の無音バッファ40の状態)については同じであるため、その後の状態から説明する。なお、本実施例における無音バッファ40の遷移を図12に模式的に示し、以下図6〜図8の処理の流れを用いて説明する。
(6)削除可能カウンタが、話速変換部30での増加データ数未満の間、無音データが無音バッファ40に記憶される(図12(a)のp300、ステップS102→S104;Yes→S106;Yes→S108;No→S110→S112;No→S124;Yes→S202→S204;Yes)。
(7)削除可能カウンタが、話速変換部30での増加データ数と同じになると、無音バッファのうち、話速変換部30での増加データ数分削除して(図12(b)のp302)、出力バッファ50に出力する(ステップS102→S104;Yes→S106;Yes→S108;No→S110→S112;No→S124;Yes→S202→S204;No→S206;Yes→S208)。
(8)削除可能カウンタが、話速変換部30での増加データ数を超えた場合、無音データを出力バッファ50に出力する(図12(c)のp304、ステップS102→S104;Yes→S106;Yes→S108;No→S110→S112;No→S124;Yes→S202→S204;No→S206;No→S210)。
(9)有音データと判定されたら、無音バッファ40の無音データのうち、未出力分を出力バッファ50に出力する(ステップS102→S104;No→S302;Yes→S304;No→S310;No→S312)。
[5.適用例]
続いて、本発明の話速変換処理を他の装置に適用した場合について説明する。例えば、本明細書においては、携帯電話装置に適用した場合について説明する。図13に示すように、携帯電話装置1000及び携帯電話装置2000は、基地局装置3000に無線を解して接続されている。
携帯電話装置1000は、携帯電話装置2000からの受話音声にたいして話速変換処理を行うことにより、話速変換装置としての機能も実現できる。なお、本実施形態においては、携帯電話装置1000と、携帯電話装置2000とは同一の機能構成として説明する。
ここで、携帯電話装置1000における機能構成について、図14を用いて説明する。図14に示すように、携帯電話装置1000は、制御部100と、アンテナ250が接続された通信部200と、記憶部300と、音声処理部400と、音声入力部500と、音声出力部550と、表示部600と、操作部650とが含まれて構成されている。
制御部100は、携帯電話装置1000の全体を制御するための機能部である。制御部100は、記憶部300に記憶されている各種プログラムを読み出して実行することにより各種機能を実現しており、例えばCPU(Central Process Unit)等により構成されている。
通信部200は、アンテナ250を介して基地局装置2000と接続するためのインタフェース部である。例えば、PDC、CDMA、LTEといったいわゆる携帯電話用回線を利用したり、WiFi等の無線LANを利用したりしても良い。
記憶部300は、携帯電話装置1000の動作に必要な各種プログラムや、各種データが記憶されている機能部である。記憶部300は、例えば、半導体メモリ等により構成されている。
音声処理部400は、音声入力部500から入力される音声を音声データとしてエンコードする送話音声エンコーダ部410と、音声出力部550に出力する音声を音声データからデコードする受話音声デコーダ部420とが含まれている。更に、上述した話速変換装置の機能を実現するための話速変換部430が含まれている。
話速変換部430は、受話音声デコーダ部420において、受話音声を音声出力部550が出力するときに、話速を適切に落として出力可能とするために処理を実行する。
また、利用者に携帯電話装置1000の状態等の報知を行う表示部600と、利用者が携帯電話装置1000に対して各種操作・指示を行う操作部650とを更に備えている。
このように、本実施形態における話速変換装置を、他の装置に適用することにより、当該装置から出力される音声を聞きやすくするために、話速を適切に落とすことが可能となる。
[6.変形例]
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も特許請求の範囲に含まれる。
また、上述した適用例として、携帯電話装置を例にとって説明したが、他の装置、例えばインターフォンや、音声出力可能なコンピュータ、カーナビゲーション、電子辞書といった種々の装置に適用可能なことは勿論である。
また、上述した無音バッファ40や、出力バッファ50については、一例であることは勿論である。例えば、無音バッファの40の記憶容量を0.5秒分、出力バッファを2秒分といった異なる値としても良い。
また、無音バッファ40については、一定値ではなく、可変値としても良いし、第1無音バッファ42と、第2無音バッファ44とで記憶容量を異なることとしても良い。例えば、第1無音バッファ42の記憶容量より、第2無音バッファ44の記憶容量を大きくすることにより、話頭に関する音声の方がより長く保護されることとなる。
また、上述した話速変換装置で動作するプログラムは、上述した実施形態の機能を実現するように、CPU等を制御するプログラム(コンピュータを機能させるプログラム)で実現可能である。そして、これら装置で取り扱われる情報は、その処理時に一時的に一時記憶装置(例えば、RAM)に蓄積され、その後、各種ROMやHDDの記憶装置に格納され、必要に応じてCPUによって読み出し、修正・書き込みが行なわれる。
ここで、プログラムを格納する記録媒体としては、半導体媒体(例えば、ROMや、不揮発性のメモリカード等)、光記録媒体・光磁気記録媒体(例えば、DVD(Digital Versatile Disc)、MO(Magneto Optical Disc)、MD(Mini Disc)、CD(Compact Disc)、BD等)、磁気記録媒体(例えば、磁気テープ、フレキシブルディスク等)等のいずれであってもよい。また、ロードしたプログラムを実行することにより、上述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、オペレーティングシステムあるいは他のアプリケーションプログラム等と共同して処理することにより、本発明の機能が実現される場合もある。
また、市場に流通させる場合には、可搬型の記録媒体にプログラムを格納して流通させたり、インターネット等のネットワークを介して接続されたサーバコンピュータに転送したりすることができる。この場合、サーバコンピュータの記憶装置も本発明に含まれるのは勿論である。
また、上述した実施形態における装置の一部又は全部を典型的には集積回路であるLSI(Large Scale Integration)として実現してもよい。各装置の各機能ブロックは個別にチップ化してもよいし、一部、または全部を集積してチップ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いることも可能であることは勿論である。
1 話速変換装置
10 バッファ制御部
20 無音判定部
30 話速変換部
40 無音バッファ
42 第1無音バッファ
44 第2無音バッファ
50 出力バッファ
1000、2000 携帯電話装置
3000 基地局装置

Claims (5)

  1. 入力音声データのサンプリング単位毎に音声信号のパワーが所定の閾値を超える有音区間と、当該閾値以下を無音区間とを判定する無音判定部と、
    前記有音区間について、前記入力音声データを伸張又はそのまま出力バッファに出力する話速変換部と、
    前記話速変換部により、前記入力音声データが伸張されたことによる増加分のデータ量を判定する増加分判定部と、
    前記入力音声データから単位データを読み出し、当該単位データが無音データの場合に、前記増加分のデータ量以内の前記無音データは無音バッファに出力し、前記増加分のデータ量以上の前記無音データは前記出力バッファに出力する制御を行うバッファ制御部と、
    を備え、
    前記バッファ制御部は、
    前記無音判定部により、前記無音区間から前記有音区間が判定された場合には、前記判定された位置から保護区間分の前記無音データを遡って前記無音バッファから読み出し、前記出力バッファに出力する制御を行うことを特徴とする話速変換装置。
  2. 前記バッファ制御部は、前記無音判定部により、前記有音区間から前記無音区間が判定された場合には、前記無音データと判定された分が連続して保護区間分検出されたときには、保護区間分の前記無音データを前記無音バッファから読み出して前記出力バッファに出力する制御を行うことを特徴とする請求項1に記載の話速変換装置。
  3. 前記無音バッファは、リングバッファを構成していることを特徴とする請求項1又は2に記載の話速変換装置。
  4. 入力音声データのサンプリング単位毎に音声信号のパワーが所定の閾値を超える有音区間と、当該閾値以下を無音区間とを判定する無音判定ステップと、
    前記有音区間について、前記入力音声データを伸張又はそのまま出力バッファに出力する話速変換ステップと、
    前記話速変換ステップにより、前記入力音声データが伸張されたことによる増加分のデータ量を判定する増加分判定ステップと、
    前記入力音声データから単位データを読み出し、当該単位データが無音データの場合に、前記増加分のデータ量以内の前記無音データは無音バッファに出力し、前記増加分のデータ量以上の前記無音データは前記出力バッファに出力する制御を行うバッファ制御ステップと、
    を有し、
    前記バッファ制御ステップは、
    前記無音判定ステップにより、前記無音区間から前記有音区間が判定された場合には、前記判定された位置から保護区間分の前記無音データを遡って前記無音バッファから読み出し、前記出力バッファに出力する制御を行うことを特徴とする話速変換方法。
  5. コンピュータに、
    入力音声データのサンプリング単位毎に音声信号のパワーが所定の閾値を超える有音区間と、当該閾値以下を無音区間とを判定する無音判定機能と、
    前記有音区間について、前記入力音声データを伸張又はそのまま出力バッファに出力する話速変換機能と、
    前記話速変換機能により、前記入力音声データが伸張されたことによる増加分のデータ量を判定する増加分判定機能と、
    前記入力音声データから単位データを読み出し、当該単位データが無音データの場合に、前記増加分のデータ量以内の前記無音データは無音バッファに出力し、前記増加分のデータ量以上の前記無音データは前記出力バッファに出力する制御を行うバッファ制御機能と、
    を有し、
    前記バッファ制御機能は、
    前記無音判定機能により、前記無音区間から前記有音区間が判定された場合には、前記判定された位置から保護区間分の前記無音データを遡って前記無音バッファから読み出し、前記出力バッファに出力する制御を行う、
    ことを実現させるためのプログラム。
JP2012018711A 2012-01-31 2012-01-31 話速変換装置、話速変換方法及びプログラム Expired - Fee Related JP5977528B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012018711A JP5977528B2 (ja) 2012-01-31 2012-01-31 話速変換装置、話速変換方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012018711A JP5977528B2 (ja) 2012-01-31 2012-01-31 話速変換装置、話速変換方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2013156552A JP2013156552A (ja) 2013-08-15
JP5977528B2 true JP5977528B2 (ja) 2016-08-24

Family

ID=49051753

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012018711A Expired - Fee Related JP5977528B2 (ja) 2012-01-31 2012-01-31 話速変換装置、話速変換方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5977528B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107135452B (zh) * 2017-05-31 2020-11-20 北京小米移动软件有限公司 助听器适配方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH033199A (ja) * 1989-05-31 1991-01-09 Mitsubishi Electric Corp 半導体メモリ録音装置
JPH07254922A (ja) * 1994-03-15 1995-10-03 Matsushita Electric Ind Co Ltd 音声蓄積装置
JPH08328586A (ja) * 1995-05-29 1996-12-13 Matsushita Electric Ind Co Ltd 音声時間軸変換装置
JP4630876B2 (ja) * 2005-01-18 2011-02-09 富士通株式会社 話速変換方法及び話速変換装置
JP2006208482A (ja) * 2005-01-25 2006-08-10 Sony Corp 会議の活性化を支援する装置,方法,プログラム及び記録媒体
JP4117301B2 (ja) * 2005-03-08 2008-07-16 株式会社エイビット 音声データ補間装置と音声データ補間方法

Also Published As

Publication number Publication date
JP2013156552A (ja) 2013-08-15

Similar Documents

Publication Publication Date Title
US9208766B2 (en) Computer program product for adaptive audio signal shaping for improved playback in a noisy environment
KR101608671B1 (ko) 휴대 단말기의 프로세서 간 데이터 통신 방법 및 장치
JP4630876B2 (ja) 話速変換方法及び話速変換装置
CN109144463B (zh) 传输控制方法、装置以及电子设备
US9704497B2 (en) Method and system of audio power reduction and thermal mitigation using psychoacoustic techniques
US20160080537A1 (en) Modifying sound output in personal communication device
WO2017059678A1 (zh) 实时语音通话中的实时语音接收设备及降低延迟的方法
JP5977528B2 (ja) 話速変換装置、話速変換方法及びプログラム
WO2018076265A1 (zh) 一种通话音频节点的调节方法及终端设备
JP2008147939A (ja) 携帯端末
TWI545891B (zh) 防止在擴音器中電氣和機械飽和之波形整型系統
JPWO2008142874A1 (ja) 音声符号化及び再生装置
US20200265856A1 (en) Speech-to-text conversion based on quality metric
US8457955B2 (en) Voice reproduction with playback time delay and speed based on background noise and speech characteristics
JPWO2007049696A1 (ja) 電話端末および信号処理方法
JP4959935B2 (ja) 復号装置
CN106293607B (zh) 自动切换音频输出模式的方法及系统
TW201931353A (zh) 音訊處理方法、裝置及非暫時性電腦可讀媒體
KR20170100500A (ko) 신호 처리 장치 및 신호 처리 방법, 및 프로그램
WO2005104125A1 (ja) 記録再生装置、同時記録再生制御方法、および同時記録再生制御プログラム
KR101098763B1 (ko) 잡음 제거 방법 및 시스템
GB2559858A (en) Audio processing apparatus and method of controlling same
JP4529859B2 (ja) 音声再生装置
JP2008084382A (ja) 圧縮データ再生方法
TWI825034B (zh) 用於重新取樣音頻訊號的方法、設備及電腦可讀媒體

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140918

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150714

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150904

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160628

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160722

R150 Certificate of patent or registration of utility model

Ref document number: 5977528

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees