JP2010026243A

JP2010026243A - 自動話速変換装置

Info

Publication number: JP2010026243A
Application number: JP2008187473A
Authority: JP
Inventors: Teppei Washi; 哲平鷲; Keiichi Yoshida; 恵一吉田; Katsuhiko Kimura; 克彦木村
Original assignee: Panasonic Electric Works Co Ltd
Current assignee: Panasonic Electric Works Co Ltd
Priority date: 2008-07-18
Filing date: 2008-07-18
Publication date: 2010-02-04

Abstract

【課題】リアルタイム型の通話装置に使用可能な自動話速変換装置を提供する。
【解決手段】入力される音声信号から音声区間を検出する音声区間検出部１１と、音声区間中の文章の開始を検出する文章開始検出部１２と、音声信号から音節特徴量を検出する音節特徴量検出部１３と、文章の終了を検出する文章終了検出部１４と、音節特徴量から文章区間中の文章内話速パラメータを演算し、最初の文章区間についてはその文章内話速パラメータを現在話速パラメータとし、第２番目以降の文章区間については、新たに演算された文章内話速パラメータと現在話速パラメータにそれぞれ所定の寄与率を掛けて足し算したものを新たな現在話速パラメータとする話速パラメータ演算部１５と、現在話速パラメータに基づいて音声伸長率を決定する音声伸長率決定部１６と、音声伸長率に基づいて音声信号の話速変換を行う話速変換部１７を備える。
【選択図】図１

Description

本発明は、インターホンなどのリアルタイム型の通話装置に用いられ、話者の話す速度（話速）に応じた圧縮／伸長率で音声の速度を変換する自動話速変換装置に関する。

従来から、ＩＣレコーダなどの分野において、ディジタル化された音声信号を時間軸上で圧縮／伸長処理を行い、圧縮／伸長された音声信号をアナログ信号に変換してスピーカから出力することにより、音声速度を変換することが行われている。周知のように、話者によって話速はさまざまであり、同じ話者が話している場合であっても、その間の話速は一定ではない。そのため、音声信号に対して一定の圧縮／伸長率で話速変換を行うと、再生される音声はユーザ（聴者）が所望する話速よりも速く又は遅くなり、ユーザにとって聞き取りにくくなる可能性がある。

そのため、実際の話者の話速を検出し、検出した話速に応じて圧縮／伸長率を設定して話速変換を行う方法が提案されている（特許文献１又は２参照）。特許文献１では、音声の時間軸波形のエンベロープにスムージング処理を施し、単位時間あたりの波形のピークの数をカウントして話速を演算し、その値に応じて話速変換を行っている。一方、特許文献２では、音声信号に含まれる無音区間の長さの統計的データを用いて話速を検出し、その値に応じて話速変換を行っている。

ところで、インターホンなどのようにリアルタイムで通話を行うような装置の場合、通話を行う両者が互いに面識がなく、相手がどのような話速で話すのか予測がつかない場合が多い。そのため、通話開始時において、相手の話の内容を聞き逃す可能性が高く、リアルタイム型の通話装置において、話者の話速が一定の基準よりも速い場合（いわゆる早口な場合）、聞き取りやすくするために話速変換を行うことが提案されている。そこで、リアルタイム型の通話装置に特許文献１の方法を応用したとすると、沈黙などによって単位時間あたりの波形のピーク数にばらつきが生じると、再生される音声の話速が急激に変化し、かえって不自然に聞こえる場合がある。また、特許文献２の方法を応用したとすると、音声信号に含まれている無音区間の統計的データを用いるため、音声信号の初期に検出される話速の精度が低く、適切に話速変換が行われるという保障がない。

なお、特許文献３には、入力される音声信号の中から音声区間と非音声区間を識別する技術が開示されている。
特開平７−６４５９７号公報特開２００６−１５４５３１号公報特開２００５−１５６８８７号公報

本発明は、上記従来例の問題を解決するためになされたものであり、リアルタイム型の通話装置に使用可能であり、安定した話速で音声の再生が可能な自動話速変換装置を提供することを目的とする。

上記目的を達成するために請求項１の発明は、自動話速変換装置において、入力される音声信号から音声区間を検出し、さらに、該音声区間から文章の開始及び終了を検出し、前記文章の開始から終了までの文章区間中の音声信号から音節特徴量を検出し、得られた音節特徴量から前記文章区間中の文章内話速パラメータを演算し、最初の文章区間については、その最初の文章区間中の文章内話速パラメータを現在話速パラメータとして、その現在話速パラメータに基づいて前記文章区間中の音声信号を再生する際の音声圧縮／伸長率を決定し、該音声圧縮／伸長率に基づいて前記文章区間中の音声信号の話速変換を行い、第２番目以降の文章区間中の文章内話速パラメータが演算された場合に、新たに演算された文章内話速パラメータと、現在話速パラメータに、それぞれ所定の寄与率を掛けて足し算して得られた新たな現在話速パラメータを用いて、次に再生する文章区間中の音声信号の音声圧縮／伸長率を決定し、該音声圧縮／伸長率に基づいて次に再生する文章区間中の音声信号の話速変換を行うことを特徴とする。

請求項２の発明は、自動話速変換装置において、入力される音声信号から音声区間を検出する音声区間検出手段と、検出された音声区間から、文章の開始を検出する文章開始検出手段と、音声区間中の音声信号から音節特徴量を検出する音節特徴量検出手段と、検出された音声区間から、文章の終了を検出する文章終了検出手段と、前記文章の開始から終了までの文章区間中に検出された音節特徴量から前記文章区間中の文章内話速パラメータを演算する文章内話速パラメータ演算手段と、前記音声区間に含まれる最初の文章区間については、その最初の文章区間中の文章内話速パラメータを現在話速パラメータとし、前記音声区間に含まれる第２番目以降の文章区間については、新たに演算された文章内話速パラメータと現在話速パラメータにそれぞれ所定の寄与率を掛けて足し算したものを新たな現在話速パラメータとする話速パラメータ演算手段と、現在話速パラメータに基づいて前記文章区間中の音声信号を再生する際の音声伸長率を決定する音声伸長率決定手段と、前記音声伸長率に基づいて前記文章区間中の音声信号の話速変換を行う話速変換手段を備えたことを特徴とする。

請求項３の発明は、請求項２に記載の自動話速変換装置において、前記話速パラメータ演算手段は、新たに演算された文章内話速パラメータと現在話速パラメータを比較し、前記文章内話速パラメータと前記現在話速パラメータの差が所定の設定値以下である場合、前記文章内話速パラメータと前記現在話速パラメータの平均値を新たな現在話速パラメータとし、前記文章内話速パラメータと前記現在話速パラメータの差が前記所定の設定値よりも大きい場合、前記文章内話速パラメータと前記現在話速パラメータの差と前記所定の設定値の差に応じた所定の寄与率を掛けて足し算したものを新たな現在話速パラメータとすることを特徴とする。

請求項４の発明は、請求項２に記載の自動話速変換装置において、前記音節特徴量検出手段は、入力される音声信号の絶対値のエンベロープをとり、文章区間中のエンベロープにおける単位時間あたりのピーク数を前記文章内話速パラメータとすることを特徴とする。

請求項５の発明は、請求項２に記載の自動話速変換装置において、前記音節特徴量検出手段は、入力される音声信号に対して線形予測分析を行い、得られた予測係数の変動値総和のエンベロープを求め、文章区間中のエンベロープにおける単位時間あたりのピーク数を前記文章内話速パラメータとすることを特徴とする。

請求項６の発明は、請求項２に記載の自動話速変換装置において、前記文章開始検出手段は、前記音声区間検出手段により音声区間であると判断された音声サンプル数列が第１所定区間以上であれば文章の開始であると判断し、複数の音声サンプル数列の間に前記音声区間検出手段により非音声区間であると判断される非音声サンプル数列が含まれていても、該非音声サンプル数列が前記第１所定区間よりも短い第２所定区間以下であるときは、該非音声サンプル数列を無視して文章区間が連続していると判断することを特徴とする。

請求項７の発明は、請求項２又は請求項６に記載の自動話速変換装置において、前記文章終了検出手段は、前記音声区間検出手段により非音声区間であると判断された非音声サンプル数列が第３所定区間以上であれば文章の終了であると判断し、複数の非音声サンプル数列の間に前記音声区間検出手段により音声区間であると判断される音声サンプル数列が含まれていても、該音声サンプル数列が前記第３所定区間よりも短い第４所定区間以下であるときは、該音声サンプル数列を無視して非文章区間が連続していると判断することを特徴とする。

請求項８の発明は、請求項２に記載の自動話速変換装置において、前記音声伸長率決定手段は、前記文章終了検出手段が文章の終了であると判断したときに、前記話速パラメータ演算手段により得られた現在話速パラメータに基づいて音声伸長率の初期値を設定し、音声信号を再生する際、所定のサンプル数列ごとに音声伸長率を前記初期値から徐々に小さくすることを特徴とする。

請求項９の発明は、請求項２に記載の自動話速変換装置において、前記話速変換手段は、前記文章終了検出手段により文章の終了であると判断され、且つ、前記音声区間検出手段により非音声区間であると判断された時に、該非音声区間の音声信号を破棄することを特徴とする。

請求項１０の発明は、請求項２に記載の自動話速変換装置において、前記話速変換手段は、話速変換処理後の信号に対してエンコードを行い、エンコードされた信号をバッファに蓄積し、バッファに蓄積された信号をデコードして出力することを特徴とする。

請求項１１の発明は、請求項２に記載の自動話速変換装置において、前記音声伸長率決定手段は、現在話速パラメータの設定値を複数の段階に分割し、段階ごとに音声伸長率を決定することを特徴とする。

請求項１の発明によれば、１つの文章ごとに文章内話速パラメータが求められ、第２番目以降の文章区間については、その文章区間中の文章内話速パラメータと、現在話速パラメータに、それぞれ所定の寄与率を掛けて足し算して得られた新たな現在話速パラメータを用いて、次に再生する文章区間中の音声信号の音声圧縮／伸長率が決定され、該音声圧縮／伸長率に基づいて次に再生する文章区間中の音声信号の話速変換が行われるので、複数の文章が連続して再生される場合、各文章を再生する際の現在話速パラメータが互いに関連しており、急激な話速の変化は生じない。そのため、リアルタイム型の通話装置に使用可能にしても、安定した話速で音声の再生が可能である。

請求項２の発明によれば、請求項１の場合と同様に、１つの文章ごとに文章内話速パラメータが求められ、第２番目以降の文章区間については、その文章区間中の文章内話速パラメータと、現在話速パラメータに、それぞれ所定の寄与率を掛けて足し算して得られた新たな現在話速パラメータを用いて、次に再生する文章区間中の音声信号の音声伸長率が決定され、該音声伸長率に基づいて次に再生する文章区間中の音声信号の話速変換が行われるので、複数の文章が連続して再生される場合、各文章を再生する際の現在話速パラメータが互いに関連しており、急激な話速の変化は生じない。そのため、リアルタイム型の通話装置に使用可能にしても、安定した話速で音声の再生が可能である。なお、請求項２では、音声の伸長だけを行うので、回路構成及び演算処理が簡単になり、低コストで自動話速変換装置を実現することができる。

請求項３の発明によれば、請求項２に記載の自動話速変換装置において、新たに演算された文章内話速パラメータと現在話速パラメータを比較して、さらに文章内話速パラメータと現在話速パラメータの差を所定の設定値と比較して、その差に応じて新たな現在話速パラメータの値を変化させているので、同じ話者による話速が急激に変化した場合でも、その変化に追従して、安定した話速変換を実現することができる。

請求項４の発明によれば、入力される音声信号の絶対値のエンベロープをとり、文章区間中のエンベロープにおける単位時間あたりのピーク数を文章内話速パラメータとしているので、少ない演算処理量で音声の音節情報と相関の高い音節特徴量を抽出することができ、処理速度の遅いＣＰＵなどを用いて低コストで自動話速変換装置を実現することが可能である。

請求項５の発明によれば、入力される音声信号に対して線形予測分析を行い、得られた予測係数の変動値総和のエンベロープを求め、文章区間中のエンベロープにおける単位時間あたりのピーク数を文章内話速パラメータとしているので、定常的な信号に対する線形予測分析を行った場合、得られた線形予測係数は時間により変化せず、定常的な雑音環境下でも音声の音節情報と相関の高い音節特徴量を抽出することができ、雑音環境下でも安定した話速検出が可能である。

請求項６の発明によれば、音声区間の間に挟まれた短い非音声区間は無視され、文章区間が連続していると判断されるので、短い非音声区間の影響をうけず、文章の開始の検出精度を向上させることができる。

請求項７の発明によれば、文章の終了後に突発的な雑音などの影響によって短い音声区間が検出されたとしても無視され、文章が終了し、非文章区間が連続していると判断されるので、突発的な雑音の影響を受けず、文章の終了の検出精度を向上させることができる。

請求項８の発明によれば、１つの文章のはじめを比較的ゆっくりと再生し、後の方ほど速く再生するので、入力される音声信号の終端と、出力される話速変換後の音声信号の終端との時間差を小さくすることができる。そのため、リアルタイムに使用される電話やインターホンなどの対話型の通信機器にこの自動話速変換装置を応用した場合に、話者と聴者が、互いに違和感なく自然な会話を行うことができる。

請求項９の発明によれば、文章が終了し、且つ、非音声区間の音声信号が破棄されるので、１つの文章の再生が終了してから次の文章の再生が開始するまでの時間差を小さくすることができ、リアルタイムに使用される電話やインターホンなどの対話型の通信機器にこの自動話速変換装置を応用した場合に、話者と聴者が、互いに違和感なく自然な会話を行うことができる。

請求項１０の発明によれば、話速変換処理中の音声信号が圧縮されてバッファに蓄積されるので、バッファのメモリ容量を小さくすることができ、低コストで自動話速変換装置を実現することができる。

請求項１１の発明によれば、話者の話速に応じた段階的な話速変換が可能となり、話者の話速に応じて、話者と聴者が、互いに違和感なく自然な会話を行うことができる。

本発明の一実施形態に係る自動話速変換装置について、図面を参照しつつ説明する。図１は、本実施形態に係る自動話速変換装置１のブロック構成を示す。自動話速変換装置１は、例えばマイクロホン（図示せず）などから入力される音声信号から音声区間と非音声区間とを区別して、音声区間を検出する音声区間検出部１１と、検出された音声区間から文章の開始を検出する文章開始検出部１２と、音声区間中の音声信号から音節特徴量を検出する音節特徴量検出部１３と、検出された音声区間から文章の終了を検出する文章終了検出部１４と、文章の開始から終了までの文章区間中に検出された音節特徴量から文章区間中の文章内話速パラメータを演算すると共に、文章内話速パラメータを用いて話速パラメータを演算する話速パラメータ演算部１５と、話速パラメータに基づいて文章区間中の音声信号を再生する際の音声伸長率を決定する音声伸長率決定部１６と、音声伸長率に基づいて文章区間中の音声信号の話速変換を行う話速変換部１７と、話速変換された音声信号を音声に変換して出力するスピーカ１８を備えている。

これら音声区間検出部１１、文章開始検出部１２、音節特徴量検出部１３、文章終了検出部１４、話速パラメータ演算部１５、音声伸長率決定部１６及び話速変換部１７は、例えば同一のＣＰＵ、ＲＯＭ及びＲＡＭなどで構成され、ディジタル化された音声信号に所定の処理を行う。また、音声区間検出部１１は、上記特許文献３に記載された方法などにより、音声区間と非音声区間の区別及び音声区間の検出を行うものとし、その詳細な説明は省略する。

文章開始検出部１２は、音声区間検出部１１からの情報（サンプル数列）に基づいて、文章の開始を検出する。例えば図２（ａ）又は図２（ｂ）に示すように、音声区間検出部１１が入力された音声信号から音声区間と非音声区間とを区別し、音声区間に関する情報と非音声区間に関する情報を出力しているとする。文章開始検出部１２は、図２（ａ）に示すように、音声区間検出部１１からの音声区間に関する情報（１つのサンプル数列）が第１所定時間Ｔ１以上連続して出力されている場合に、文章の開始と判断する。また、図２（ｂ）に示すように、音声区間検出部１１からの複数の音声区間に関する情報（複数の音声サンプル数列）の間に非音声区間に関する情報（非音声サンプル数列）が含まれている場合であっても、非音声区間に関する情報が第１所定区間Ｔ１よりも短い第２所定区間Ｔ２以下であるときは、文章開始検出部１２は、非音声区間に関する情報を無視して文章区間が連続していると判断する。それによって、短い非音声区間の影響を受けず、文章の開始の検出精度を向上させることができる。

音節特徴量検出部１３は、入力される音声信号から音節特徴量を検出する。音節特徴量を検出する第１の方法としては、入力される音声信号の絶対値のエンベロープをとり、音節特徴量としてエンベロープピーク数をカウントする。話速パラメータ演算部１５は、文章区間中のエンベロープにおける単位時間あたりのピーク数を、一時的に文章内話速パラメータとして使用する。図３（ａ）に入力信号の時間波形を、図３（ｂ）に入力信号の時間波形の信号絶対値にエンベロープをかけた波形の一例を示す。この方法は、少ない演算処理量で音声の音節情報と相関の高い音節特徴量を抽出することができ、処理速度の遅いＣＰＵなどを用いて低コストで自動話速変換装置に適する。

また、音節特徴量を検出する第２の方法としては、入力される音声信号に対して線形予測分析を行い、得られた予測係数の変動値総和のエンベロープを求め、音節特徴量としてエンベロープピーク数をカウントする。話速パラメータ演算部１５は、同様に、文章区間中のエンベロープにおける単位時間あたりのピーク数を、一時的に文章内話速パラメータとして使用する。図３（ｃ）に、入力信号の時間波形と線形予測係数の時間変化量の総和に対してエンベロープをかけた波形の一例を示す。

線形予測係数は、ＦＩＲフィルタに音声信号を入力し、フィルタ係数に対してＬＭＳアルゴリズムなどを用いることで簡単に求められる。時刻ｎでのＭ次線形予測フィルタにおける線形予測係数の時間変化量の総和ｈｅ(n)は、以下の式から求まる。ｈｍ（ｎ）は、時刻ｎでのｍ番目の線形予測係数である。

定常的な信号に対する線形予測分析を行った場合、得られた線形予測係数は時間により変化せず一定の値になるので、入力信号が音声信号に定常雑音が重畳したものであっても、音節特徴量を抽出することができるので、雑音環境下でも安定して話速を検出することができる。

文章終了検出部１４は、音声区間検出部１１からの情報（サンプル数列）に基づいて、文章の終了を検出する。文章終了検出部１４は、図４（ａ）に示すように、音声区間検出部１１からの非音声区間に関する情報（１つのサンプル数列）が第３所定時間Ｔ３以上連続して出力されている場合に、文章の終了と判断する。また、図４（ｂ）に示すように、音声区間検出部１１からの複数の非音声区間に関する情報（複数の非音声サンプル数列）の間に音声区間に関する情報（音声サンプル数列）が含まれている場合であっても、音声区間に関する情報が第３所定区間Ｔ３よりも短い第４所定区間Ｔ４以下であるときは、文章終了検出部１４は、音声区間に関する情報を無視して非文章区間が連続していると判断する。それによって、文章の終了後に突発的な雑音などの影響を受けず、文章の終了の検出精度を向上させることができる。

話速パラメータ演算部１５は、図５に示すように、文章内話速パラメータ演算部１５１と、話速パラメータ比較部１５２と、現在話速パラメータ演算部１５３と、現在話速パラメータ記憶部１５４で構成されている。本実施形態では、入力される信号に含まれる音声信号を解析し、１つの文章ごとに文章内話速パラメータを求めているが、その文章区間中の音声信号を再生する際に、その文章区間から得られた文章内話速パラメータをそのまま用いて話速変換を行うのではなく、直前の音声信号の話速変換に用いた現在話速パラメータを考慮して、新たな音声信号の再生を行う際に用いる現在話速パラメータを決定している。

文章内話速パラメータ演算部１５１は、文章開始検出部１２が検出した文章の開始から文章終了検出部１４が検出した文章の終了までの間の文章区間において、音節特徴量検出部１３により検出された音節特徴量から、その文章区間における文章内話速パラメータを演算する。具体的には、文章内話速パラメータ演算部１５１は、文章区間中に音節特徴量検出部１３により検出された音声特徴量、すなわち文章区間中のエンベロープにおける単位時間あたりのピーク数を計数し、その値を文章区間中の文章内話速パラメータＰｓとする。一般的に、単位時間あたりのピーク数がある基準値よりも多ければ、話速が速い、すなわち早口であると判断することができる。

はじめに、直前の音声信号の話速変換に用いられ、現在話速パラメータ記憶部１５４に記憶された現在話速パラメータをＰｂとし、次の音声信号の話速変換に用いられる新たな現在話速パラメータをＰａとする。一連の音声区間における最初の文章区間については、直前の音声信号の話速変換に用いた現在話速パラメータＰｂが存在しないので、話速パラメータ比較部１５２及び現在話速パラメータ演算部１５３は演算処理を行わず、その最初の文章区間中の文章内話速パラメータＰｓを現在話速パラメータＰａとし、その値を現在話速パラメータ記憶部１５４に記憶させる。

第２番目以降の文章区間については、話速パラメータ比較部１５２は、その文章区間中の文章内話速パラメータＰｓと、現在話速パラメータ記憶部１５４に記憶されている現在話速パラメータＰｂを比較する。文章内話速パラメータＰｓと現在話速パラメータＰｂの差（絶対値差分）ΔＰが所定の第１設定値以下である場合、すなわち、話速の変化が小さい場合、現在話速パラメータ演算部１５３は、文章内話速パラメータＰｓと現在話速パラメータＰｂの平均値（Ｐｓ＋Ｐｂ）／２を新たな現在話速パラメータＰａとする。この場合、寄与率ｋ１：ｋ２＝５：５となる。このように、話速の変化が小さい場合は、実際の話速の変化量よりも、再生される音声信号の話速変換量を小さくすることにより、聴者に話速が変化したことをほとんど気づかせることなく、自然な会話を実現することができる。

一方、文章内話速パラメータＰｓと現在話速パラメータＰｂの差ΔＰが第１設定値よりも大きい場合、すなわち、話速の変化が大きい場合、現在話速パラメータ演算部１５３は、文章内話速パラメータＰｓと現在話速パラメータＰｂの差ΔＰと所定の設定値の差に応じた所定の寄与率ｋ１及びｋ２を掛けて足し算したものを新たな現在話速パラメータＰａとする。寄与率ｋ１：ｋ２の具体例としては、４：６、３：７、２：８、０：１０などが挙げられる。文章内話速パラメータＰｓと現在話速パラメータＰｂの差ΔＰが第１設定値よりも大きな第２設定値を超える場合には、現在話速パラメータＰｂをそのまま新たな現在話速パラメータＰａとしてもよい。その場合、寄与率は０：１０となる。また、現在話速パラメータＰｂの値に上限値及び下限値を設定し、文章内話速パラメータＰｓと現在話速パラメータＰｂの差ΔＰが第２設定値を超える場合には、現在話速パラメータＰｂの上限値を新たな現在話速パラメータＰａとし、文章内話速パラメータＰｓと現在話速パラメータＰｂの差ΔＰが第２設定値よりも小さな第３設定値よりも小さい場合には、現在話速パラメータＰｂの下限値を新たな現在話速パラメータＰａとしてもよい。なお、新たな現在話速パラメータＰａは、現在話速パラメータ記憶部１５４に記憶され、現在話速パラメータＰｂに置き換えられることはいうまでもない。

音声伸長率決定部１６は、話速パラメータ演算部１５により演算された現在話速パラメータＰａに基づいて文章区間中の音声信号を再生する際の音声伸長率を決定する。図６に示すように、音声伸長率決定部１６を音声伸長率更新部１６１と音声伸長率演算部１６２で構成してもよい。音声伸長率更新部１６１は、話速パラメータ演算部１５により演算された現在話速パラメータＰａに基づいて、音声伸長率（の初期値）を設定又は更新する。音声伸長率演算部１６２は、音声区間検出部１１から情報、具体的には音声区間検出部１１が音声サンプル数列を検出するごとに、音声伸長率の値を初期値から徐々に小さくするように構成してもよい。それにより、１つの文章のはじめを比較的ゆっくりと再生し、後の方ほど速く再生することができ、入力される音声信号の終端と、出力される話速変換後の音声信号の終端との時間差を小さくすることができる。従って、リアルタイムに使用される電話やインターホンなどの対話型の通信機器にこの自動話速変換装置を応用した場合に、話者と聴者が、互いに違和感なく自然な会話を行うことができる。

話速変換部１７は、音声伸長率決定部１６により決定された音声伸長率に基づいて、文章区間中の音声信号の話速変換を行う。図７に示すように、話速変換部１７を破棄データ選択部１７１と話速変換演算部１７２で構成してもよい。破棄データ選択部１７１は、文章終了検出部１４により文章の終了であると判断され、且つ、音声区間検出部１１により非音声区間であると判断された時に、非音声区間の音声信号を破棄する。なお、音声信号を破棄すると出力信号がなくなる場合には、そのまま非音声区間の音声信号を出力するように構成してもよい。話速変換演算部１７２は、実際の話速演算処理を行う。話速演算アルゴリズムには、例えばＰＩＣＯＬＡ(Pointer Interval Controlled OverLap and Add)アルゴリズムなどを用いることができる。

話速変換演算部１７２で話速変換を行う際、入力信号と出力信号の遅延が避けられない。そのため、話速変換演算部１７２はバッファを備えている。バッファメモリの容量を小さくするために、話速変換演算部１７２を、話速変換処理後の信号に対してμ−ｌｏｗやＡＤＰＣＭなどのエンコードを行い、エンコードされた信号をバッファに蓄積し、バッファに蓄積された信号をデコードして出力するように構成してもよい。このようにして話速変換処理が施された信号は、スピーカ１８から出力される。

以上説明したように、本実施形態に係る自動話速変換装置によれば、１つの文章ごとに文章内話速パラメータが求められ、第２番目以降の文章区間については、その文章区間中の文章内話速パラメータと、現在話速パラメータに、それぞれ所定の寄与率を掛けて足し算して得られた新たな現在話速パラメータを用いて、次に再生する文章区間中の音声信号の音声伸長率が決定され、該音声伸長率に基づいて次に再生する文章区間中の音声信号の話速変換が行われるので、複数の文章が連続して再生される場合、各文章を再生する際の現在話速パラメータが互いに関連しており、話速の変化画小さい。そのため、電話やインターホンなどのリアルタイム型の通話装置に使用可能しても、安定した話速で音声の再生が可能であり、誰にでも聞き取りやすい話速変換を実現することができる。

また、上記実施形態では、話速を遅くする場合についてだけ説明したが、本発明はその場合だけに限定されるものではなく、話速を速くする場合にも応用することができる。すなわち、本発明の自動話速変換装置は、入力される音声信号から音声区間を検出し、さらに、該音声区間から文章の開始及び終了を検出し、文章の開始から終了までの文章区間中の音声信号から音節特徴量を検出し、得られた音節特徴量から文章区間中の文章内話速パラメータを演算し、最初の文章区間については、その最初の文章区間中の文章内話速パラメータを現在話速パラメータとして、その現在話速パラメータに基づいて文章区間中の音声信号を再生する際の音声圧縮／伸長率を決定し、該音声圧縮／伸長率に基づいて文章区間中の音声信号の話速変換を行い、第２番目以降の文章区間中の文章内話速パラメータが演算された場合に、新たに演算された文章内話速パラメータと、現在話速パラメータに、それぞれ所定の寄与率を掛けて足し算して得られた新たな現在話速パラメータを用いて、次に再生する文章区間中の音声信号の音声圧縮／伸長率を決定し、該音声圧縮／伸長率に基づいて次に再生する文章区間中の音声信号の話速変換を行うように構成されていればよい。

本発明の一実施形態に係る自動話速変換装置の構成を示すブロック図。上記自動話速変換装置において、音声区間検出部から出力される音声区間情報と非音声区間情報、及びそれらに基づく文章開始検出部による文章の開始の判断を示す波形図。（ａ）は入力信号の時間波形を示す図、（ｂ）は入力信号の時間波形にエンベロープをかけた波形の一例を示す図、（ｃ）は入力信号の時間波形と線形予測係数の時間変化量の総和に対してエンベロープをかけた波形の一例を示す図。上記自動話速変換装置において、音声区間検出部から出力される音声区間情報と非音声区間情報、及びそれらに基づく文章終了検出部による文章の終了の判断を示す波形図。上記自動話速変換装置における話速パラメータ演算部のさらに詳細な構成を示すブロック図。上記自動話速変換装置における音声伸長率決定部のさらに詳細な構成を示すブロック図。上記自動話速変換装置における話速変換部のさらに詳細な構成を示すブロック図。

符号の説明

１自動話速変換装置
１１音声区間検出部（音声区間検出手段）
１２文章開始検出部（文章開始検出手段）
１３音節特徴量検出部（音節特徴量検出手段）
１４文章終了検出部（文章終了検出手段）
１５話速パラメータ演算部（話速パラメータ演算手段）
１６音声伸長率決定部（音声伸長率決定手段）
１７話速変換部（話速変換手段）
１８スピーカ
１５１文章内話速パラメータ演算部（文章内話速パラメータ演算手段）
１５２話速パラメータ比較部（話速パラメータ演算手段）
１５３現在話速パラメータ演算部（話速パラメータ演算手段）
１５４現在話速パラメータ記憶部（話速パラメータ演算手段）
１６１音声伸長率更新部（音声伸長率決定手段）
１６２音声伸長率演算部（音声伸長率決定手段）
１７１破棄データ選択部（話速変換手段）
１７２話速変換演算部（話速変換手段）

Claims

入力される音声信号から音声区間を検出し、さらに、該音声区間から文章の開始及び終了を検出し、
前記文章の開始から終了までの文章区間中の音声信号から音節特徴量を検出し、
得られた音節特徴量から前記文章区間中の文章内話速パラメータを演算し、
最初の文章区間については、その最初の文章区間中の文章内話速パラメータを現在話速パラメータとして、その現在話速パラメータに基づいて前記文章区間中の音声信号を再生する際の音声圧縮／伸長率を決定し、該音声圧縮／伸長率に基づいて前記文章区間中の音声信号の話速変換を行い、
第２番目以降の文章区間中の文章内話速パラメータが演算された場合に、新たに演算された文章内話速パラメータと、現在話速パラメータに、それぞれ所定の寄与率を掛けて足し算して得られた新たな現在話速パラメータを用いて、次に再生する文章区間中の音声信号の音声圧縮／伸長率を決定し、該音声圧縮／伸長率に基づいて次に再生する文章区間中の音声信号の話速変換を行うことを特徴とする自動話速変換装置。
入力される音声信号から音声区間を検出する音声区間検出手段と、
検出された音声区間から、文章の開始を検出する文章開始検出手段と、
音声区間中の音声信号から音節特徴量を検出する音節特徴量検出手段と、
検出された音声区間から、文章の終了を検出する文章終了検出手段と、
前記文章の開始から終了までの文章区間中に検出された音節特徴量から前記文章区間中の文章内話速パラメータを演算する文章内話速パラメータ演算手段と、
前記音声区間に含まれる最初の文章区間については、その最初の文章区間中の文章内話速パラメータを現在話速パラメータとし、前記音声区間に含まれる第２番目以降の文章区間については、新たに演算された文章内話速パラメータと現在話速パラメータにそれぞれ所定の寄与率を掛けて足し算したものを新たな現在話速パラメータとする話速パラメータ演算手段と、
現在話速パラメータに基づいて前記文章区間中の音声信号を再生する際の音声伸長率を決定する音声伸長率決定手段と、
前記音声伸長率に基づいて前記文章区間中の音声信号の話速変換を行う話速変換手段を備えたことを特徴とする自動話速変換装置。
前記話速パラメータ演算手段は、新たに演算された文章内話速パラメータと現在話速パラメータを比較し、前記文章内話速パラメータと前記現在話速パラメータの差が所定の設定値以下である場合、前記文章内話速パラメータと前記現在話速パラメータの平均値を新たな現在話速パラメータとし、前記文章内話速パラメータと前記現在話速パラメータの差が前記所定の設定値よりも大きい場合、前記文章内話速パラメータと前記現在話速パラメータの差と前記所定の設定値の差に応じた所定の寄与率を掛けて足し算したものを新たな現在話速パラメータとすることを特徴とする請求項２に記載の自動話速変換装置。
前記音節特徴量検出手段は、入力される音声信号の絶対値のエンベロープをとり、文章区間中のエンベロープにおける単位時間あたりのピーク数を前記文章内話速パラメータとすることを特徴とする請求項２に記載の自動話速変換装置。
前記音節特徴量検出手段は、入力される音声信号に対して線形予測分析を行い、得られた予測係数の変動値総和のエンベロープを求め、文章区間中のエンベロープにおける単位時間あたりのピーク数を前記文章内話速パラメータとすることを特徴とする請求項２に記載の自動話速変換装置。
前記文章開始検出手段は、前記音声区間検出手段により音声区間であると判断された音声サンプル数列が第１所定区間以上であれば文章の開始であると判断し、複数の音声サンプル数列の間に前記音声区間検出手段により非音声区間であると判断される非音声サンプル数列が含まれていても、該非音声サンプル数列が前記第１所定区間よりも短い第２所定区間以下であるときは、該非音声サンプル数列を無視して文章区間が連続していると判断することを特徴とする請求項２に記載の自動話速変換装置。
前記文章終了検出手段は、前記音声区間検出手段により非音声区間であると判断された非音声サンプル数列が第３所定区間以上であれば文章の終了であると判断し、複数の非音声サンプル数列の間に前記音声区間検出手段により音声区間であると判断される音声サンプル数列が含まれていても、該音声サンプル数列が前記第３所定区間よりも短い第４所定区間以下であるときは、該音声サンプル数列を無視して非文章区間が連続していると判断することを特徴とする請求項２又は請求項６に記載の自動話速変換装置。
前記音声伸長率決定手段は、前記文章終了検出手段が文章の終了であると判断したときに、前記話速パラメータ演算手段により得られた現在話速パラメータに基づいて音声伸長率の初期値を設定し、音声信号を再生する際、所定のサンプル数列ごとに音声伸長率を前記初期値から徐々に小さくすることを特徴とする請求項２に記載の自動話速変換装置。
前記話速変換手段は、前記文章終了検出手段により文章の終了であると判断され、且つ、前記音声区間検出手段により非音声区間であると判断された時に、該非音声区間の音声信号を破棄することを特徴とする請求項２に記載の自動話速変換装置。
前記話速変換手段は、話速変換処理後の信号に対してエンコードを行い、エンコードされた信号をバッファに蓄積し、バッファに蓄積された信号をデコードして出力することを特徴とする請求項２に記載の自動話速変換装置。
前記音声伸長率決定手段は、現在話速パラメータの設定値を複数の段階に分割し、段階ごとに音声伸長率を決定することを特徴とする請求項２に記載の自動話速変換装置。