JP2010026243A - 自動話速変換装置 - Google Patents
自動話速変換装置 Download PDFInfo
- Publication number
- JP2010026243A JP2010026243A JP2008187473A JP2008187473A JP2010026243A JP 2010026243 A JP2010026243 A JP 2010026243A JP 2008187473 A JP2008187473 A JP 2008187473A JP 2008187473 A JP2008187473 A JP 2008187473A JP 2010026243 A JP2010026243 A JP 2010026243A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- sentence
- section
- speed parameter
- speech speed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Telephone Function (AREA)
Abstract
【課題】リアルタイム型の通話装置に使用可能な自動話速変換装置を提供する。
【解決手段】入力される音声信号から音声区間を検出する音声区間検出部11と、音声区間中の文章の開始を検出する文章開始検出部12と、音声信号から音節特徴量を検出する音節特徴量検出部13と、文章の終了を検出する文章終了検出部14と、音節特徴量から文章区間中の文章内話速パラメータを演算し、最初の文章区間についてはその文章内話速パラメータを現在話速パラメータとし、第2番目以降の文章区間については、新たに演算された文章内話速パラメータと現在話速パラメータにそれぞれ所定の寄与率を掛けて足し算したものを新たな現在話速パラメータとする話速パラメータ演算部15と、現在話速パラメータに基づいて音声伸長率を決定する音声伸長率決定部16と、音声伸長率に基づいて音声信号の話速変換を行う話速変換部17を備える。
【選択図】図1
【解決手段】入力される音声信号から音声区間を検出する音声区間検出部11と、音声区間中の文章の開始を検出する文章開始検出部12と、音声信号から音節特徴量を検出する音節特徴量検出部13と、文章の終了を検出する文章終了検出部14と、音節特徴量から文章区間中の文章内話速パラメータを演算し、最初の文章区間についてはその文章内話速パラメータを現在話速パラメータとし、第2番目以降の文章区間については、新たに演算された文章内話速パラメータと現在話速パラメータにそれぞれ所定の寄与率を掛けて足し算したものを新たな現在話速パラメータとする話速パラメータ演算部15と、現在話速パラメータに基づいて音声伸長率を決定する音声伸長率決定部16と、音声伸長率に基づいて音声信号の話速変換を行う話速変換部17を備える。
【選択図】図1
Description
本発明は、インターホンなどのリアルタイム型の通話装置に用いられ、話者の話す速度(話速)に応じた圧縮/伸長率で音声の速度を変換する自動話速変換装置に関する。
従来から、ICレコーダなどの分野において、ディジタル化された音声信号を時間軸上で圧縮/伸長処理を行い、圧縮/伸長された音声信号をアナログ信号に変換してスピーカから出力することにより、音声速度を変換することが行われている。周知のように、話者によって話速はさまざまであり、同じ話者が話している場合であっても、その間の話速は一定ではない。そのため、音声信号に対して一定の圧縮/伸長率で話速変換を行うと、再生される音声はユーザ(聴者)が所望する話速よりも速く又は遅くなり、ユーザにとって聞き取りにくくなる可能性がある。
そのため、実際の話者の話速を検出し、検出した話速に応じて圧縮/伸長率を設定して話速変換を行う方法が提案されている(特許文献1又は2参照)。特許文献1では、音声の時間軸波形のエンベロープにスムージング処理を施し、単位時間あたりの波形のピークの数をカウントして話速を演算し、その値に応じて話速変換を行っている。一方、特許文献2では、音声信号に含まれる無音区間の長さの統計的データを用いて話速を検出し、その値に応じて話速変換を行っている。
ところで、インターホンなどのようにリアルタイムで通話を行うような装置の場合、通話を行う両者が互いに面識がなく、相手がどのような話速で話すのか予測がつかない場合が多い。そのため、通話開始時において、相手の話の内容を聞き逃す可能性が高く、リアルタイム型の通話装置において、話者の話速が一定の基準よりも速い場合(いわゆる早口な場合)、聞き取りやすくするために話速変換を行うことが提案されている。そこで、リアルタイム型の通話装置に特許文献1の方法を応用したとすると、沈黙などによって単位時間あたりの波形のピーク数にばらつきが生じると、再生される音声の話速が急激に変化し、かえって不自然に聞こえる場合がある。また、特許文献2の方法を応用したとすると、音声信号に含まれている無音区間の統計的データを用いるため、音声信号の初期に検出される話速の精度が低く、適切に話速変換が行われるという保障がない。
なお、特許文献3には、入力される音声信号の中から音声区間と非音声区間を識別する技術が開示されている。
特開平7−64597号公報
特開2006−154531号公報
特開2005−156887号公報
本発明は、上記従来例の問題を解決するためになされたものであり、リアルタイム型の通話装置に使用可能であり、安定した話速で音声の再生が可能な自動話速変換装置を提供することを目的とする。
上記目的を達成するために請求項1の発明は、自動話速変換装置において、入力される音声信号から音声区間を検出し、さらに、該音声区間から文章の開始及び終了を検出し、前記文章の開始から終了までの文章区間中の音声信号から音節特徴量を検出し、得られた音節特徴量から前記文章区間中の文章内話速パラメータを演算し、最初の文章区間については、その最初の文章区間中の文章内話速パラメータを現在話速パラメータとして、その現在話速パラメータに基づいて前記文章区間中の音声信号を再生する際の音声圧縮/伸長率を決定し、該音声圧縮/伸長率に基づいて前記文章区間中の音声信号の話速変換を行い、第2番目以降の文章区間中の文章内話速パラメータが演算された場合に、新たに演算された文章内話速パラメータと、現在話速パラメータに、それぞれ所定の寄与率を掛けて足し算して得られた新たな現在話速パラメータを用いて、次に再生する文章区間中の音声信号の音声圧縮/伸長率を決定し、該音声圧縮/伸長率に基づいて次に再生する文章区間中の音声信号の話速変換を行うことを特徴とする。
請求項2の発明は、自動話速変換装置において、入力される音声信号から音声区間を検出する音声区間検出手段と、検出された音声区間から、文章の開始を検出する文章開始検出手段と、音声区間中の音声信号から音節特徴量を検出する音節特徴量検出手段と、検出された音声区間から、文章の終了を検出する文章終了検出手段と、前記文章の開始から終了までの文章区間中に検出された音節特徴量から前記文章区間中の文章内話速パラメータを演算する文章内話速パラメータ演算手段と、前記音声区間に含まれる最初の文章区間については、その最初の文章区間中の文章内話速パラメータを現在話速パラメータとし、前記音声区間に含まれる第2番目以降の文章区間については、新たに演算された文章内話速パラメータと現在話速パラメータにそれぞれ所定の寄与率を掛けて足し算したものを新たな現在話速パラメータとする話速パラメータ演算手段と、現在話速パラメータに基づいて前記文章区間中の音声信号を再生する際の音声伸長率を決定する音声伸長率決定手段と、前記音声伸長率に基づいて前記文章区間中の音声信号の話速変換を行う話速変換手段を備えたことを特徴とする。
請求項3の発明は、請求項2に記載の自動話速変換装置において、前記話速パラメータ演算手段は、新たに演算された文章内話速パラメータと現在話速パラメータを比較し、前記文章内話速パラメータと前記現在話速パラメータの差が所定の設定値以下である場合、前記文章内話速パラメータと前記現在話速パラメータの平均値を新たな現在話速パラメータとし、前記文章内話速パラメータと前記現在話速パラメータの差が前記所定の設定値よりも大きい場合、前記文章内話速パラメータと前記現在話速パラメータの差と前記所定の設定値の差に応じた所定の寄与率を掛けて足し算したものを新たな現在話速パラメータとすることを特徴とする。
請求項4の発明は、請求項2に記載の自動話速変換装置において、前記音節特徴量検出手段は、入力される音声信号の絶対値のエンベロープをとり、文章区間中のエンベロープにおける単位時間あたりのピーク数を前記文章内話速パラメータとすることを特徴とする。
請求項5の発明は、請求項2に記載の自動話速変換装置において、前記音節特徴量検出手段は、入力される音声信号に対して線形予測分析を行い、得られた予測係数の変動値総和のエンベロープを求め、文章区間中のエンベロープにおける単位時間あたりのピーク数を前記文章内話速パラメータとすることを特徴とする。
請求項6の発明は、請求項2に記載の自動話速変換装置において、前記文章開始検出手段は、前記音声区間検出手段により音声区間であると判断された音声サンプル数列が第1所定区間以上であれば文章の開始であると判断し、複数の音声サンプル数列の間に前記音声区間検出手段により非音声区間であると判断される非音声サンプル数列が含まれていても、該非音声サンプル数列が前記第1所定区間よりも短い第2所定区間以下であるときは、該非音声サンプル数列を無視して文章区間が連続していると判断することを特徴とする。
請求項7の発明は、請求項2又は請求項6に記載の自動話速変換装置において、前記文章終了検出手段は、前記音声区間検出手段により非音声区間であると判断された非音声サンプル数列が第3所定区間以上であれば文章の終了であると判断し、複数の非音声サンプル数列の間に前記音声区間検出手段により音声区間であると判断される音声サンプル数列が含まれていても、該音声サンプル数列が前記第3所定区間よりも短い第4所定区間以下であるときは、該音声サンプル数列を無視して非文章区間が連続していると判断することを特徴とする。
請求項8の発明は、請求項2に記載の自動話速変換装置において、前記音声伸長率決定手段は、前記文章終了検出手段が文章の終了であると判断したときに、前記話速パラメータ演算手段により得られた現在話速パラメータに基づいて音声伸長率の初期値を設定し、音声信号を再生する際、所定のサンプル数列ごとに音声伸長率を前記初期値から徐々に小さくすることを特徴とする。
請求項9の発明は、請求項2に記載の自動話速変換装置において、前記話速変換手段は、前記文章終了検出手段により文章の終了であると判断され、且つ、前記音声区間検出手段により非音声区間であると判断された時に、該非音声区間の音声信号を破棄することを特徴とする。
請求項10の発明は、請求項2に記載の自動話速変換装置において、前記話速変換手段は、話速変換処理後の信号に対してエンコードを行い、エンコードされた信号をバッファに蓄積し、バッファに蓄積された信号をデコードして出力することを特徴とする。
請求項11の発明は、請求項2に記載の自動話速変換装置において、前記音声伸長率決定手段は、現在話速パラメータの設定値を複数の段階に分割し、段階ごとに音声伸長率を決定することを特徴とする。
請求項1の発明によれば、1つの文章ごとに文章内話速パラメータが求められ、第2番目以降の文章区間については、その文章区間中の文章内話速パラメータと、現在話速パラメータに、それぞれ所定の寄与率を掛けて足し算して得られた新たな現在話速パラメータを用いて、次に再生する文章区間中の音声信号の音声圧縮/伸長率が決定され、該音声圧縮/伸長率に基づいて次に再生する文章区間中の音声信号の話速変換が行われるので、複数の文章が連続して再生される場合、各文章を再生する際の現在話速パラメータが互いに関連しており、急激な話速の変化は生じない。そのため、リアルタイム型の通話装置に使用可能にしても、安定した話速で音声の再生が可能である。
請求項2の発明によれば、請求項1の場合と同様に、1つの文章ごとに文章内話速パラメータが求められ、第2番目以降の文章区間については、その文章区間中の文章内話速パラメータと、現在話速パラメータに、それぞれ所定の寄与率を掛けて足し算して得られた新たな現在話速パラメータを用いて、次に再生する文章区間中の音声信号の音声伸長率が決定され、該音声伸長率に基づいて次に再生する文章区間中の音声信号の話速変換が行われるので、複数の文章が連続して再生される場合、各文章を再生する際の現在話速パラメータが互いに関連しており、急激な話速の変化は生じない。そのため、リアルタイム型の通話装置に使用可能にしても、安定した話速で音声の再生が可能である。なお、請求項2では、音声の伸長だけを行うので、回路構成及び演算処理が簡単になり、低コストで自動話速変換装置を実現することができる。
請求項3の発明によれば、請求項2に記載の自動話速変換装置において、新たに演算された文章内話速パラメータと現在話速パラメータを比較して、さらに文章内話速パラメータと現在話速パラメータの差を所定の設定値と比較して、その差に応じて新たな現在話速パラメータの値を変化させているので、同じ話者による話速が急激に変化した場合でも、その変化に追従して、安定した話速変換を実現することができる。
請求項4の発明によれば、入力される音声信号の絶対値のエンベロープをとり、文章区間中のエンベロープにおける単位時間あたりのピーク数を文章内話速パラメータとしているので、少ない演算処理量で音声の音節情報と相関の高い音節特徴量を抽出することができ、処理速度の遅いCPUなどを用いて低コストで自動話速変換装置を実現することが可能である。
請求項5の発明によれば、入力される音声信号に対して線形予測分析を行い、得られた予測係数の変動値総和のエンベロープを求め、文章区間中のエンベロープにおける単位時間あたりのピーク数を文章内話速パラメータとしているので、定常的な信号に対する線形予測分析を行った場合、得られた線形予測係数は時間により変化せず、定常的な雑音環境下でも音声の音節情報と相関の高い音節特徴量を抽出することができ、雑音環境下でも安定した話速検出が可能である。
請求項6の発明によれば、音声区間の間に挟まれた短い非音声区間は無視され、文章区間が連続していると判断されるので、短い非音声区間の影響をうけず、文章の開始の検出精度を向上させることができる。
請求項7の発明によれば、文章の終了後に突発的な雑音などの影響によって短い音声区間が検出されたとしても無視され、文章が終了し、非文章区間が連続していると判断されるので、突発的な雑音の影響を受けず、文章の終了の検出精度を向上させることができる。
請求項8の発明によれば、1つの文章のはじめを比較的ゆっくりと再生し、後の方ほど速く再生するので、入力される音声信号の終端と、出力される話速変換後の音声信号の終端との時間差を小さくすることができる。そのため、リアルタイムに使用される電話やインターホンなどの対話型の通信機器にこの自動話速変換装置を応用した場合に、話者と聴者が、互いに違和感なく自然な会話を行うことができる。
請求項9の発明によれば、文章が終了し、且つ、非音声区間の音声信号が破棄されるので、1つの文章の再生が終了してから次の文章の再生が開始するまでの時間差を小さくすることができ、リアルタイムに使用される電話やインターホンなどの対話型の通信機器にこの自動話速変換装置を応用した場合に、話者と聴者が、互いに違和感なく自然な会話を行うことができる。
請求項10の発明によれば、話速変換処理中の音声信号が圧縮されてバッファに蓄積されるので、バッファのメモリ容量を小さくすることができ、低コストで自動話速変換装置を実現することができる。
請求項11の発明によれば、話者の話速に応じた段階的な話速変換が可能となり、話者の話速に応じて、話者と聴者が、互いに違和感なく自然な会話を行うことができる。
本発明の一実施形態に係る自動話速変換装置について、図面を参照しつつ説明する。図1は、本実施形態に係る自動話速変換装置1のブロック構成を示す。自動話速変換装置1は、例えばマイクロホン(図示せず)などから入力される音声信号から音声区間と非音声区間とを区別して、音声区間を検出する音声区間検出部11と、検出された音声区間から文章の開始を検出する文章開始検出部12と、音声区間中の音声信号から音節特徴量を検出する音節特徴量検出部13と、検出された音声区間から文章の終了を検出する文章終了検出部14と、文章の開始から終了までの文章区間中に検出された音節特徴量から文章区間中の文章内話速パラメータを演算すると共に、文章内話速パラメータを用いて話速パラメータを演算する話速パラメータ演算部15と、話速パラメータに基づいて文章区間中の音声信号を再生する際の音声伸長率を決定する音声伸長率決定部16と、音声伸長率に基づいて文章区間中の音声信号の話速変換を行う話速変換部17と、話速変換された音声信号を音声に変換して出力するスピーカ18を備えている。
これら音声区間検出部11、文章開始検出部12、音節特徴量検出部13、文章終了検出部14、話速パラメータ演算部15、音声伸長率決定部16及び話速変換部17は、例えば同一のCPU、ROM及びRAMなどで構成され、ディジタル化された音声信号に所定の処理を行う。また、音声区間検出部11は、上記特許文献3に記載された方法などにより、音声区間と非音声区間の区別及び音声区間の検出を行うものとし、その詳細な説明は省略する。
文章開始検出部12は、音声区間検出部11からの情報(サンプル数列)に基づいて、文章の開始を検出する。例えば図2(a)又は図2(b)に示すように、音声区間検出部11が入力された音声信号から音声区間と非音声区間とを区別し、音声区間に関する情報と非音声区間に関する情報を出力しているとする。文章開始検出部12は、図2(a)に示すように、音声区間検出部11からの音声区間に関する情報(1つのサンプル数列)が第1所定時間T1以上連続して出力されている場合に、文章の開始と判断する。また、図2(b)に示すように、音声区間検出部11からの複数の音声区間に関する情報(複数の音声サンプル数列)の間に非音声区間に関する情報(非音声サンプル数列)が含まれている場合であっても、非音声区間に関する情報が第1所定区間T1よりも短い第2所定区間T2以下であるときは、文章開始検出部12は、非音声区間に関する情報を無視して文章区間が連続していると判断する。それによって、短い非音声区間の影響を受けず、文章の開始の検出精度を向上させることができる。
音節特徴量検出部13は、入力される音声信号から音節特徴量を検出する。音節特徴量を検出する第1の方法としては、入力される音声信号の絶対値のエンベロープをとり、音節特徴量としてエンベロープピーク数をカウントする。話速パラメータ演算部15は、文章区間中のエンベロープにおける単位時間あたりのピーク数を、一時的に文章内話速パラメータとして使用する。図3(a)に入力信号の時間波形を、図3(b)に入力信号の時間波形の信号絶対値にエンベロープをかけた波形の一例を示す。この方法は、少ない演算処理量で音声の音節情報と相関の高い音節特徴量を抽出することができ、処理速度の遅いCPUなどを用いて低コストで自動話速変換装置に適する。
また、音節特徴量を検出する第2の方法としては、入力される音声信号に対して線形予測分析を行い、得られた予測係数の変動値総和のエンベロープを求め、音節特徴量としてエンベロープピーク数をカウントする。話速パラメータ演算部15は、同様に、文章区間中のエンベロープにおける単位時間あたりのピーク数を、一時的に文章内話速パラメータとして使用する。図3(c)に、入力信号の時間波形と線形予測係数の時間変化量の総和に対してエンベロープをかけた波形の一例を示す。
線形予測係数は、FIRフィルタに音声信号を入力し、フィルタ係数に対してLMSアルゴリズムなどを用いることで簡単に求められる。時刻nでのM次線形予測フィルタにおける線形予測係数の時間変化量の総和he(n)は、以下の式から求まる。hm(n)は、時刻nでのm番目の線形予測係数である。
定常的な信号に対する線形予測分析を行った場合、得られた線形予測係数は時間により変化せず一定の値になるので、入力信号が音声信号に定常雑音が重畳したものであっても、音節特徴量を抽出することができるので、雑音環境下でも安定して話速を検出することができる。
文章終了検出部14は、音声区間検出部11からの情報(サンプル数列)に基づいて、文章の終了を検出する。文章終了検出部14は、図4(a)に示すように、音声区間検出部11からの非音声区間に関する情報(1つのサンプル数列)が第3所定時間T3以上連続して出力されている場合に、文章の終了と判断する。また、図4(b)に示すように、音声区間検出部11からの複数の非音声区間に関する情報(複数の非音声サンプル数列)の間に音声区間に関する情報(音声サンプル数列)が含まれている場合であっても、音声区間に関する情報が第3所定区間T3よりも短い第4所定区間T4以下であるときは、文章終了検出部14は、音声区間に関する情報を無視して非文章区間が連続していると判断する。それによって、文章の終了後に突発的な雑音などの影響を受けず、文章の終了の検出精度を向上させることができる。
話速パラメータ演算部15は、図5に示すように、文章内話速パラメータ演算部151と、話速パラメータ比較部152と、現在話速パラメータ演算部153と、現在話速パラメータ記憶部154で構成されている。本実施形態では、入力される信号に含まれる音声信号を解析し、1つの文章ごとに文章内話速パラメータを求めているが、その文章区間中の音声信号を再生する際に、その文章区間から得られた文章内話速パラメータをそのまま用いて話速変換を行うのではなく、直前の音声信号の話速変換に用いた現在話速パラメータを考慮して、新たな音声信号の再生を行う際に用いる現在話速パラメータを決定している。
文章内話速パラメータ演算部151は、文章開始検出部12が検出した文章の開始から文章終了検出部14が検出した文章の終了までの間の文章区間において、音節特徴量検出部13により検出された音節特徴量から、その文章区間における文章内話速パラメータを演算する。具体的には、文章内話速パラメータ演算部151は、文章区間中に音節特徴量検出部13により検出された音声特徴量、すなわち文章区間中のエンベロープにおける単位時間あたりのピーク数を計数し、その値を文章区間中の文章内話速パラメータPsとする。一般的に、単位時間あたりのピーク数がある基準値よりも多ければ、話速が速い、すなわち早口であると判断することができる。
はじめに、直前の音声信号の話速変換に用いられ、現在話速パラメータ記憶部154に記憶された現在話速パラメータをPbとし、次の音声信号の話速変換に用いられる新たな現在話速パラメータをPaとする。一連の音声区間における最初の文章区間については、直前の音声信号の話速変換に用いた現在話速パラメータPbが存在しないので、話速パラメータ比較部152及び現在話速パラメータ演算部153は演算処理を行わず、その最初の文章区間中の文章内話速パラメータPsを現在話速パラメータPaとし、その値を現在話速パラメータ記憶部154に記憶させる。
第2番目以降の文章区間については、話速パラメータ比較部152は、その文章区間中の文章内話速パラメータPsと、現在話速パラメータ記憶部154に記憶されている現在話速パラメータPbを比較する。文章内話速パラメータPsと現在話速パラメータPbの差(絶対値差分)ΔPが所定の第1設定値以下である場合、すなわち、話速の変化が小さい場合、現在話速パラメータ演算部153は、文章内話速パラメータPsと現在話速パラメータPbの平均値(Ps+Pb)/2を新たな現在話速パラメータPaとする。この場合、寄与率k1:k2=5:5となる。このように、話速の変化が小さい場合は、実際の話速の変化量よりも、再生される音声信号の話速変換量を小さくすることにより、聴者に話速が変化したことをほとんど気づかせることなく、自然な会話を実現することができる。
一方、文章内話速パラメータPsと現在話速パラメータPbの差ΔPが第1設定値よりも大きい場合、すなわち、話速の変化が大きい場合、現在話速パラメータ演算部153は、文章内話速パラメータPsと現在話速パラメータPbの差ΔPと所定の設定値の差に応じた所定の寄与率k1及びk2を掛けて足し算したものを新たな現在話速パラメータPaとする。寄与率k1:k2の具体例としては、4:6、3:7、2:8、0:10などが挙げられる。文章内話速パラメータPsと現在話速パラメータPbの差ΔPが第1設定値よりも大きな第2設定値を超える場合には、現在話速パラメータPbをそのまま新たな現在話速パラメータPaとしてもよい。その場合、寄与率は0:10となる。また、現在話速パラメータPbの値に上限値及び下限値を設定し、文章内話速パラメータPsと現在話速パラメータPbの差ΔPが第2設定値を超える場合には、現在話速パラメータPbの上限値を新たな現在話速パラメータPaとし、文章内話速パラメータPsと現在話速パラメータPbの差ΔPが第2設定値よりも小さな第3設定値よりも小さい場合には、現在話速パラメータPbの下限値を新たな現在話速パラメータPaとしてもよい。なお、新たな現在話速パラメータPaは、現在話速パラメータ記憶部154に記憶され、現在話速パラメータPbに置き換えられることはいうまでもない。
音声伸長率決定部16は、話速パラメータ演算部15により演算された現在話速パラメータPaに基づいて文章区間中の音声信号を再生する際の音声伸長率を決定する。図6に示すように、音声伸長率決定部16を音声伸長率更新部161と音声伸長率演算部162で構成してもよい。音声伸長率更新部161は、話速パラメータ演算部15により演算された現在話速パラメータPaに基づいて、音声伸長率(の初期値)を設定又は更新する。音声伸長率演算部162は、音声区間検出部11から情報、具体的には音声区間検出部11が音声サンプル数列を検出するごとに、音声伸長率の値を初期値から徐々に小さくするように構成してもよい。それにより、1つの文章のはじめを比較的ゆっくりと再生し、後の方ほど速く再生することができ、入力される音声信号の終端と、出力される話速変換後の音声信号の終端との時間差を小さくすることができる。従って、リアルタイムに使用される電話やインターホンなどの対話型の通信機器にこの自動話速変換装置を応用した場合に、話者と聴者が、互いに違和感なく自然な会話を行うことができる。
話速変換部17は、音声伸長率決定部16により決定された音声伸長率に基づいて、文章区間中の音声信号の話速変換を行う。図7に示すように、話速変換部17を破棄データ選択部171と話速変換演算部172で構成してもよい。破棄データ選択部171は、文章終了検出部14により文章の終了であると判断され、且つ、音声区間検出部11により非音声区間であると判断された時に、非音声区間の音声信号を破棄する。なお、音声信号を破棄すると出力信号がなくなる場合には、そのまま非音声区間の音声信号を出力するように構成してもよい。話速変換演算部172は、実際の話速演算処理を行う。話速演算アルゴリズムには、例えばPICOLA(Pointer Interval Controlled OverLap and Add)アルゴリズムなどを用いることができる。
話速変換演算部172で話速変換を行う際、入力信号と出力信号の遅延が避けられない。そのため、話速変換演算部172はバッファを備えている。バッファメモリの容量を小さくするために、話速変換演算部172を、話速変換処理後の信号に対してμ−lowやADPCMなどのエンコードを行い、エンコードされた信号をバッファに蓄積し、バッファに蓄積された信号をデコードして出力するように構成してもよい。このようにして話速変換処理が施された信号は、スピーカ18から出力される。
以上説明したように、本実施形態に係る自動話速変換装置によれば、1つの文章ごとに文章内話速パラメータが求められ、第2番目以降の文章区間については、その文章区間中の文章内話速パラメータと、現在話速パラメータに、それぞれ所定の寄与率を掛けて足し算して得られた新たな現在話速パラメータを用いて、次に再生する文章区間中の音声信号の音声伸長率が決定され、該音声伸長率に基づいて次に再生する文章区間中の音声信号の話速変換が行われるので、複数の文章が連続して再生される場合、各文章を再生する際の現在話速パラメータが互いに関連しており、話速の変化画小さい。そのため、電話やインターホンなどのリアルタイム型の通話装置に使用可能しても、安定した話速で音声の再生が可能であり、誰にでも聞き取りやすい話速変換を実現することができる。
また、上記実施形態では、話速を遅くする場合についてだけ説明したが、本発明はその場合だけに限定されるものではなく、話速を速くする場合にも応用することができる。すなわち、本発明の自動話速変換装置は、入力される音声信号から音声区間を検出し、さらに、該音声区間から文章の開始及び終了を検出し、文章の開始から終了までの文章区間中の音声信号から音節特徴量を検出し、得られた音節特徴量から文章区間中の文章内話速パラメータを演算し、最初の文章区間については、その最初の文章区間中の文章内話速パラメータを現在話速パラメータとして、その現在話速パラメータに基づいて文章区間中の音声信号を再生する際の音声圧縮/伸長率を決定し、該音声圧縮/伸長率に基づいて文章区間中の音声信号の話速変換を行い、第2番目以降の文章区間中の文章内話速パラメータが演算された場合に、新たに演算された文章内話速パラメータと、現在話速パラメータに、それぞれ所定の寄与率を掛けて足し算して得られた新たな現在話速パラメータを用いて、次に再生する文章区間中の音声信号の音声圧縮/伸長率を決定し、該音声圧縮/伸長率に基づいて次に再生する文章区間中の音声信号の話速変換を行うように構成されていればよい。
1 自動話速変換装置
11 音声区間検出部(音声区間検出手段)
12 文章開始検出部(文章開始検出手段)
13 音節特徴量検出部(音節特徴量検出手段)
14 文章終了検出部(文章終了検出手段)
15 話速パラメータ演算部(話速パラメータ演算手段)
16 音声伸長率決定部(音声伸長率決定手段)
17 話速変換部(話速変換手段)
18 スピーカ
151 文章内話速パラメータ演算部(文章内話速パラメータ演算手段)
152 話速パラメータ比較部(話速パラメータ演算手段)
153 現在話速パラメータ演算部(話速パラメータ演算手段)
154 現在話速パラメータ記憶部(話速パラメータ演算手段)
161 音声伸長率更新部(音声伸長率決定手段)
162 音声伸長率演算部(音声伸長率決定手段)
171 破棄データ選択部(話速変換手段)
172 話速変換演算部(話速変換手段)
11 音声区間検出部(音声区間検出手段)
12 文章開始検出部(文章開始検出手段)
13 音節特徴量検出部(音節特徴量検出手段)
14 文章終了検出部(文章終了検出手段)
15 話速パラメータ演算部(話速パラメータ演算手段)
16 音声伸長率決定部(音声伸長率決定手段)
17 話速変換部(話速変換手段)
18 スピーカ
151 文章内話速パラメータ演算部(文章内話速パラメータ演算手段)
152 話速パラメータ比較部(話速パラメータ演算手段)
153 現在話速パラメータ演算部(話速パラメータ演算手段)
154 現在話速パラメータ記憶部(話速パラメータ演算手段)
161 音声伸長率更新部(音声伸長率決定手段)
162 音声伸長率演算部(音声伸長率決定手段)
171 破棄データ選択部(話速変換手段)
172 話速変換演算部(話速変換手段)
Claims (11)
- 入力される音声信号から音声区間を検出し、さらに、該音声区間から文章の開始及び終了を検出し、
前記文章の開始から終了までの文章区間中の音声信号から音節特徴量を検出し、
得られた音節特徴量から前記文章区間中の文章内話速パラメータを演算し、
最初の文章区間については、その最初の文章区間中の文章内話速パラメータを現在話速パラメータとして、その現在話速パラメータに基づいて前記文章区間中の音声信号を再生する際の音声圧縮/伸長率を決定し、該音声圧縮/伸長率に基づいて前記文章区間中の音声信号の話速変換を行い、
第2番目以降の文章区間中の文章内話速パラメータが演算された場合に、新たに演算された文章内話速パラメータと、現在話速パラメータに、それぞれ所定の寄与率を掛けて足し算して得られた新たな現在話速パラメータを用いて、次に再生する文章区間中の音声信号の音声圧縮/伸長率を決定し、該音声圧縮/伸長率に基づいて次に再生する文章区間中の音声信号の話速変換を行うことを特徴とする自動話速変換装置。 - 入力される音声信号から音声区間を検出する音声区間検出手段と、
検出された音声区間から、文章の開始を検出する文章開始検出手段と、
音声区間中の音声信号から音節特徴量を検出する音節特徴量検出手段と、
検出された音声区間から、文章の終了を検出する文章終了検出手段と、
前記文章の開始から終了までの文章区間中に検出された音節特徴量から前記文章区間中の文章内話速パラメータを演算する文章内話速パラメータ演算手段と、
前記音声区間に含まれる最初の文章区間については、その最初の文章区間中の文章内話速パラメータを現在話速パラメータとし、前記音声区間に含まれる第2番目以降の文章区間については、新たに演算された文章内話速パラメータと現在話速パラメータにそれぞれ所定の寄与率を掛けて足し算したものを新たな現在話速パラメータとする話速パラメータ演算手段と、
現在話速パラメータに基づいて前記文章区間中の音声信号を再生する際の音声伸長率を決定する音声伸長率決定手段と、
前記音声伸長率に基づいて前記文章区間中の音声信号の話速変換を行う話速変換手段を備えたことを特徴とする自動話速変換装置。 - 前記話速パラメータ演算手段は、新たに演算された文章内話速パラメータと現在話速パラメータを比較し、前記文章内話速パラメータと前記現在話速パラメータの差が所定の設定値以下である場合、前記文章内話速パラメータと前記現在話速パラメータの平均値を新たな現在話速パラメータとし、前記文章内話速パラメータと前記現在話速パラメータの差が前記所定の設定値よりも大きい場合、前記文章内話速パラメータと前記現在話速パラメータの差と前記所定の設定値の差に応じた所定の寄与率を掛けて足し算したものを新たな現在話速パラメータとすることを特徴とする請求項2に記載の自動話速変換装置。
- 前記音節特徴量検出手段は、入力される音声信号の絶対値のエンベロープをとり、文章区間中のエンベロープにおける単位時間あたりのピーク数を前記文章内話速パラメータとすることを特徴とする請求項2に記載の自動話速変換装置。
- 前記音節特徴量検出手段は、入力される音声信号に対して線形予測分析を行い、得られた予測係数の変動値総和のエンベロープを求め、文章区間中のエンベロープにおける単位時間あたりのピーク数を前記文章内話速パラメータとすることを特徴とする請求項2に記載の自動話速変換装置。
- 前記文章開始検出手段は、前記音声区間検出手段により音声区間であると判断された音声サンプル数列が第1所定区間以上であれば文章の開始であると判断し、複数の音声サンプル数列の間に前記音声区間検出手段により非音声区間であると判断される非音声サンプル数列が含まれていても、該非音声サンプル数列が前記第1所定区間よりも短い第2所定区間以下であるときは、該非音声サンプル数列を無視して文章区間が連続していると判断することを特徴とする請求項2に記載の自動話速変換装置。
- 前記文章終了検出手段は、前記音声区間検出手段により非音声区間であると判断された非音声サンプル数列が第3所定区間以上であれば文章の終了であると判断し、複数の非音声サンプル数列の間に前記音声区間検出手段により音声区間であると判断される音声サンプル数列が含まれていても、該音声サンプル数列が前記第3所定区間よりも短い第4所定区間以下であるときは、該音声サンプル数列を無視して非文章区間が連続していると判断することを特徴とする請求項2又は請求項6に記載の自動話速変換装置。
- 前記音声伸長率決定手段は、前記文章終了検出手段が文章の終了であると判断したときに、前記話速パラメータ演算手段により得られた現在話速パラメータに基づいて音声伸長率の初期値を設定し、音声信号を再生する際、所定のサンプル数列ごとに音声伸長率を前記初期値から徐々に小さくすることを特徴とする請求項2に記載の自動話速変換装置。
- 前記話速変換手段は、前記文章終了検出手段により文章の終了であると判断され、且つ、前記音声区間検出手段により非音声区間であると判断された時に、該非音声区間の音声信号を破棄することを特徴とする請求項2に記載の自動話速変換装置。
- 前記話速変換手段は、話速変換処理後の信号に対してエンコードを行い、エンコードされた信号をバッファに蓄積し、バッファに蓄積された信号をデコードして出力することを特徴とする請求項2に記載の自動話速変換装置。
- 前記音声伸長率決定手段は、現在話速パラメータの設定値を複数の段階に分割し、段階ごとに音声伸長率を決定することを特徴とする請求項2に記載の自動話速変換装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008187473A JP2010026243A (ja) | 2008-07-18 | 2008-07-18 | 自動話速変換装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008187473A JP2010026243A (ja) | 2008-07-18 | 2008-07-18 | 自動話速変換装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010026243A true JP2010026243A (ja) | 2010-02-04 |
Family
ID=41732136
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008187473A Withdrawn JP2010026243A (ja) | 2008-07-18 | 2008-07-18 | 自動話速変換装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010026243A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014157331A (ja) * | 2013-02-18 | 2014-08-28 | Nippon Hoso Kyokai <Nhk> | 話速変換装置、方法及びプログラム |
-
2008
- 2008-07-18 JP JP2008187473A patent/JP2010026243A/ja not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014157331A (ja) * | 2013-02-18 | 2014-08-28 | Nippon Hoso Kyokai <Nhk> | 話速変換装置、方法及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4146489B2 (ja) | 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体 | |
CN110072021B (zh) | 一种在音频电话会议混合系统中的方法、装置和计算机可读介质 | |
US20100169082A1 (en) | Enhancing Receiver Intelligibility in Voice Communication Devices | |
JP2007003682A (ja) | 話速変換装置 | |
KR20010014352A (ko) | 음성 통신 시스템에서 음성 강화를 위한 방법 및 장치 | |
GB2480538A (en) | Real time correction of mispronunciation of a non-native speaker | |
KR20060131851A (ko) | 통신 장치 및 신호 부호화/복호화 방법 | |
JP2002237785A (ja) | 人間の聴覚補償によりsidフレームを検出する方法 | |
WO2006077626A1 (ja) | 話速変換方法及び話速変換装置 | |
EP1554717B1 (en) | Preprocessing of digital audio data for mobile audio codecs | |
WO1998049673A1 (fr) | Procede et dispositif destines a detecter des parties vocales, procede de conversion du debit de parole et dispositif utilisant ce procede et ce dispositif | |
JP5326533B2 (ja) | 音声加工装置及び音声加工方法 | |
US20180324293A1 (en) | Call recording | |
JPH0644195B2 (ja) | エネルギ正規化および無声フレーム抑制機能を有する音声分析合成システムおよびその方法 | |
JP2008309955A (ja) | ノイズサプレス装置 | |
JP2010026323A (ja) | 話速検出装置 | |
CN101557443B (zh) | 数字电话会议的桥路运算方法 | |
JP2010026243A (ja) | 自動話速変換装置 | |
JP6197367B2 (ja) | 通話装置及びマスキング音生成プログラム | |
US20080059161A1 (en) | Adaptive Comfort Noise Generation | |
JP2004252085A (ja) | 音声変換システム及び音声変換プログラム | |
JP6313619B2 (ja) | 音声信号処理装置及びプログラム | |
KR101151746B1 (ko) | 오디오 신호용 잡음제거 방법 및 장치 | |
JP2007086592A (ja) | 音声出力装置および音声出力方法 | |
JP5321687B2 (ja) | 音声通話装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20111004 |