JP4882152B2 - 話速検出方法および音声信号処理装置 - Google Patents

話速検出方法および音声信号処理装置 Download PDF

Info

Publication number
JP4882152B2
JP4882152B2 JP2001015927A JP2001015927A JP4882152B2 JP 4882152 B2 JP4882152 B2 JP 4882152B2 JP 2001015927 A JP2001015927 A JP 2001015927A JP 2001015927 A JP2001015927 A JP 2001015927A JP 4882152 B2 JP4882152 B2 JP 4882152B2
Authority
JP
Japan
Prior art keywords
speech
correlation value
waveform
waveform correlation
correspondence information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001015927A
Other languages
English (en)
Other versions
JP2002221976A (ja
Inventor
克文 近藤
浩 大脇
晃 三木
晃一 河本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2001015927A priority Critical patent/JP4882152B2/ja
Publication of JP2002221976A publication Critical patent/JP2002221976A/ja
Application granted granted Critical
Publication of JP4882152B2 publication Critical patent/JP4882152B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
この発明は、話速変換機能を備えた補聴器などの装置において、入力された発話音声の話速を検出する方法およびその装置に関する。
【0002】
【従来の技術】
聴覚神経および言語理解能力が衰えた高齢者を補助するために、話速変換機能を備えた補聴器が提案されている。発話音声をゆっくりに変換すればするほど高齢者にとって理解度が向上するというものではなく、適正な速度に変換したとき最も理解度が向上し、それよりもゆっくりに変換した場合には却って理解度が低下することが知られている。また、発話音声をゆっくりに変換するためにはその速度に応じたメモリが必要になるという問題点がある。そこで、入力された発話音声の話速を検出し、検出された話速に応じて変換処理を行い、入力された発話音声を適正な話速に変換する必要がある。
【0003】
話速を検出する方法として、従来より、特開平5−289691号、特開平10−70790号、特開平11−353468号に示す方式などが既に提案されている。
【0004】
【発明が解決しようとする課題】
しかし、これらの方式は、話速検出を高精度に検出できるものの、検出に時間がかかり、補聴器など小型でリアルタイム処理が要求される装置には適さないものであった。
【0005】
この発明は、簡略な処理で話速変換等に必要十分な精度で発話速度を検出することができる話速検出方法および装置を提供することを目的とする。
【0006】
【課題を解決するための手段】
請求項1の発明は、発話音声波形の自己相関を示す波形相関値と発話速度の対応関係を表す対応情報を記憶しておき、入力された音声信号の波形相関値を求め、この波形相関値で前記対応情報を参照することによって発話速度を推定し、前記対応情報が表す前記波形相関値と前記発話速度の対応関係は、負の相関関係であることを特徴とする。
請求項2の発明は、記波形相関値は、フレーム長が異なる複数の音声信号から算出された複数の波形相関値のうち、最大となる波形相関値であることを特徴とする。
【0007】
請求項の発明は、請求項1または2において、前記対応情報は、波形相関値と発話速度とを対応づけたテーブルであることを特徴とする。
【0008】
請求項の発明は、請求項1または2において、前記対応情報は、波形相関値から発話速度を求める演算式であることを特徴とする。
【0009】
請求項の発明は、発話音声波形の自己相関を示す波形相関値と発話速度の対応関係を表す対応情報を記憶した記憶手段と、入力された音声信号の波形相関値を求め、この波形相関値で前記対応情報を参照することによって発話速度を推定する処理手段と、を備え、前記対応情報が表す前記波形相関値と前記発話速度の対応関係は、負の相関関係であることを特徴とする。
請求項6の発明は、前記波形相関値は、フレーム長が異なる複数の音声信号から算出された複数の波形相関値のうち、最大となる波形相関値であることを特徴とする。
【0010】
請求項の発明は、請求項5または6において、前記記憶手段は、波形相関値と発話速度とを対応づけたテーブルを対応情報として記憶したことを特徴とする。
【0011】
請求項の発明は、請求項5または6において、前記記憶手段は、波形相関値から発話速度を求める演算式を対応情報として記憶したことを特徴とする。
【0012】
一般的に、発話速度(話速)と音声信号の周期性の度合いを示す相関値とは負の相関関係がある。すなわち、ゆっくり話す場合には、発話音声信号は正確に同じ形状の波形の繰り返しになるが、速く話した場合には発話音声信号の波形がくずれてきて、前後区間の波形を比較したとき若干のずれが生じて相関値が低下する。この発話速度と相関値との関係を示すグラフを図1に示す。
これは話速に応じて音声波形相関値がどのように変化するかを実測したグラフである。実験に使用した文章は5〜6音節で構成される20文であり、A、B、C、3名の被験者にゆっくり、中くらいの速さ、早口など複数種類の話速で発話させた。この発話の発生時間と文を構成する母音数から発話速度を算出し、連続する2区間の類似度を相関値として算出した。これによると、話速が5mora/s程度のときは相関値は0.88〜0.9であるが、話速が10more/sになると相関値は0.83程度に低下する。このように発話速度と波形相関値とは負の相関があることに基づき、入力された発話音声の波形相関値を求めることにより、速やかに話速を推定する。
【0013】
波形相関値から発話速度を求めるためには、波形相関値−発話速度対応テーブルを設け、割り出された波形相関値でこのテーブルを参照して発話速度を推定する方式、波形相関値と発話速度の相関を近似する方程式を求めておき、割り出された波形相関値を変数としてこの方程式に入力することによって発話速度を推定する方式などを採用することができる。
【0014】
【発明の実施の形態】
図2はこの発明が適用される音声信号処理装置のブロック図である。この音声信号処理装置は、話速変換機能を有する補聴器などに適用されるものであり、入力された発音音声信号の話速を検出するほか、検出された話速に基づいてその発話音声信号の話速を目標話速に変換して出力する機能も有している。ここでは、話速検出機能について説明する。
【0015】
図2において、入力された発話音声信号はDSP2に入力される。アナログの発話音声信号はA/D変換器1に入力され、A/D変換器1がこれをデジタル信号に変換する。また、デジタル化された発話音声信号は、そのまま入力される。入力された(デジタル化された)発話音声信号はフィルタ2によって特定の周波数帯域成分のみがろ波され、その周波数成分のみがDSP3に入力される。フィルタ2がろ波する周波数帯域成分は、入力された発話音声信号の基本周波数および数次倍音程度の周波数帯域であり、80〜800Hz程度が適当である。この周波数帯域はDSP3によって制御される。DSP3にはRAM4およびROM5が接続されており、入力された発話音声信号をバッファしながら、話速検出・話速変換を行う。話速変換された音声信号は出力端子から出力される。ROM5には後述の波形相関値−発話速度対応テーブルが記憶されている。また、RAM4は入力された音声信号を数フレーム分バッファする。1フレームの時間は30ms程度である。
【0016】
処理された音声信号は、digital out端子およびanalog out端子から出力される。digital out端子からはデジタルの音声信号が出力され、analog out端子からはD/A変換器6でアナログ信号に変換された音声信号が出力される。なお、D/A変換器6はバッファメモリを内蔵しており、DSP3が話速変換した場合でも、その話速変換された音声信号データをバッファしながらD/A変換を行う。
【0017】
以下、図3〜図6のフローチャートおよび図7,図8の説明図を参照して、DSP3の話速検出処理について説明する。
図3は話速検出処理を示すフローチャートである。動作がスタートすると入力された音声信号を取り込み、この音声信号から発話音声がいつスタートするかを監視して発話音声の先頭(文頭)を検出する(s1)。文頭は音声信号のパワーおよび波形相関値に基づいて検出する(詳細は図4のフローチャートで説明する)。発話音声の先頭である文頭を検出すると、それに続いて入力される発話音声信号の1フレームを切り出して、このフレームの信号波形に基づいて発話速度を推定する。この発話速度の推定のためにまず波形相関値を計算する(s2)。波形相関値は、連続する同じ長さの区間の波形を比較することで求めるが、詳細は図5のフローチャートおよび図7の相関計算区間説明図を用いて後で説明する。波形相関値が求めるときに発話音声の周波数が求められるため(s3)、この求められた周波数でフィルタ2のろ波周波数帯域を設定する(s4)。これにより、以後入力される音声信号の処理精度が向上する。そして、求められた波形相関値で図8(A)に示す波形相関値−発話速度対応テーブル(対応テーブル)を参照してこの波形相関値に対応する発話速度を割り出す(s5)。適当な波形相関値が求まり、対応テーブルから発話速度を割り出すことができた場合には、s7に進み、この発話速度が目標の話速に変換されるように発話音声信号の話速を変換する。そして発話音声が終了して文間が検出された場合には(s8)、処理を終了して、次の発話音声の文頭検出に備える(s1)。一方、波形相関値が対応テーブルの範囲外の値であって発話速度を推定できなかった場合には、もう一度発話速度の推定をやり直すためにs1に戻る。
【0018】
ここで、図8(A)に示す波形相関値−発話速度対応テーブルは、図1で説明した発話速度と波形相関値との相関関係を示すグラフをモデル化したテーブルであり、この実験結果を図8(B)に示すように直線で近似し、それらの中心値をとってテーブルにしている。たとえば、相関値はa=0.8から0.02刻みにb=0.82、c=0.84というように区分され、それぞれその相関値の区分に対応する発話速度がA=無効データ、B=12(more/秒)、C=10などのように記憶されている。ここで、求められた波形相関値Xが例えば0.83であったとするとb<X≦cであり、Cの区分に属するため、対応する発話速度としてC=10が出力される。
【0019】
以下、文頭検出処理、波形相関値計算処理、文間検出処理等について詳細に説明する。
図4は図3のs1で実行される文頭検出処理の詳細を示すフローチャートである。入力された音声信号を取り込み(s11)、音声パワーを計算する(s12)。音声パワーは、各サンプルデータの2乗値を所定時間分加算した値を用いる。この音声パワーが一定値以上の場合には発話音声が入力されている可能性があるため、この区間の波形相関値を計算する(s13)。この波形相関値の計算は図3のs2で行う計算とほぼ同じものである。音声パワーが一定値以上であり且つ波形相関値が一定値以上の場合には発話音声が入力されていると考えられるため文頭を検出したとして(s14)、処理を終了する。一方、音声パワーが一定値以下、または、音声パワーが一定値以上であっても波形相関値が一定値以下の場合には、発話音声区間でなく無音部であるとしてs11にもどる。
【0020】
図5は波形相関値計算処理を示すフローチャートである。この処理は図3のs2、図4のs13および図6のs33で実行される処理である。まず入力された音声信号の先頭から図7に示すように同じ長さの区間を2つ切り出す。最初は短い区間長Wa(1)、Wb(1)を選択する(s21)。この2つの区間の相関値を計算する(s22)。相関値は、
【0021】
【数1】
Figure 0004882152
【0022】
の演算式で算出する。この値が大きいほど相関が高い、すなわち2つの区間の波形が同じような形状をしているといえる。なお、相関値の算出式はこれに限定されるものではない。
【0023】
つぎに波形の相関を比較する区間を図7に示すように、Wa(1)、Wb(1)のnに1を加えてWa(1)をWa(2)、Wb(1)をWb(2)にして(s23)、s22の相関値を計算する。この処理をそれぞれ区間が所定の長さ(Wa(N),Wb(N))になるまで繰り返し行う(s24)。なお、Nはあらかじめ定めた設定値であって波形相関値計算の分析回数である。また、Wa(N)、Wb(N)のそれぞれの区間の長さは、最も周期が長い音声波形を想定し、例えば、男性音声で想定される一番低い周波数(80Hz程度)をカバーできる長さ程度に設定しておく。そして、Wa(1)、Wb(1)からWa(N)、Wb(N)までの区間のなかに区間のなかに発話音声の波形周期の長さと一致する区間が存在し、この一致する区間の相関値は、他のそれぞれの区間の相関値に比較して最大となる。その相関値を求め、これを波形相関値としてメインルーチンに返して(s25)、処理を終了する。
【0024】
図6は文間検出処理動作を示すフローチャートである。この処理は、文間すなわち発話音声が入力されていない無音区間を検出する処理である。入力された音声信号を取り込み(s31)、音声パワーを計算する(s32)。この音声パワーが一定値以上の場合には発話音声が入力されている可能性があるため、この区間の波形相関値を計算する(s33)。音声パワーが所定値以下の場合または音声パワーが所定値以上であっても波形相関値が所定値以下の場合には発話音声が入力されていない無音部であると判定し(s34)、無音部の継続時間を積算する(s35)。無音部の継続時間がt以上であった場合には発話音声の一瞬の切れ目ではなく、発話された文と次の文との境目である文間と判断して(s36)、図3のs6にこれを通知して処理を終了する。s34で発話音声区間と判断された場合、またはs36で無音部の継続時間がt未満の場合にはs31にもどり、更に無音部を検出する。なお、tは150ms以上の適当な値に設定することが好ましい。
【0025】
なお、波形相関値−発話速度対応テーブルは、汎用的なものを1つ設けてもよいが、特定の話者または特定の話者グループ(男性,女性,大人,子供,一般話者,アナウンサなど)に対応して複数設けるようにしてもよい。その場合、話者に応じて自動または手動で対応テーブルを選択するようにすればよい。
またこの場合において、上記特定の話者または特定の話者グループ毎に文間を検出するためのしきい値tを別々に設定するようにしてもよい。
【0026】
また、対応情報としては上記対応テーブル以外に、図8(B)の図を近似する方程式y=f(x)を記憶しておき、割り出された波形相関値を変数xとしてこの方程式に入力することによって発話速度yを算出するようにしてもよい。
【0027】
【発明の効果】
以上のようにこの発明によれば、波形相関値に基づいて発話速度を推定することができるため、発話音声の先頭区間を用いた簡略な処理で発話速度を推定することができ、その後の話速変換などの処理を的確且つ迅速に行うことが可能になる。
【図面の簡単な説明】
【図1】この発明の前提となる波形相関値と発話速度の相関関係を示す図
【図2】この発明の実施形態である音声信号処理装置のブロック図
【図3】同音声信号処理装置の動作を示すフローチャート
【図4】同音声信号処理装置の動作を示すフローチャート
【図5】同音声信号処理装置の動作を示すフローチャート
【図6】同音声信号処理装置の動作を示すフローチャート
【図7】同波形相関値を算出する区間を説明する図
【図8】波形相関値−発話速度の対応テーブルの例を示す図
【符号の説明】
1…A/D変換器、2…フィルタ、3…DSP、4…RAM、5…ROM、6…D/A変換器

Claims (8)

  1. 発話音声波形の自己相関を示す波形相関値と発話速度の対応関係を表す対応情報を記憶しておき、
    入力された音声信号の波形相関値を求め、この波形相関値で前記対応情報を参照することによって発話速度を推定する話速検出方法であって、
    前記対応情報が表す前記波形相関値と前記発話速度の対応関係は、負の相関関係であることを特徴とする話速検出方法。
  2. 前記波形相関値は、フレーム長が異なる複数の音声信号から算出された複数の波形相関値のうち、最大となる波形相関値であることを特徴とする請求項1に記載の話速検出方法。
  3. 前記対応情報は、波形相関値と発話速度とを対応づけたテーブルである請求項1または2に記載の話速検出方法。
  4. 前記対応情報は、波形相関値から発話速度を求める演算式である請求項1または2に記載の話速検出方法。
  5. 発話音声波形の自己相関を示す波形相関値と発話速度の対応関係を表す対応情報を記憶した記憶手段と、
    入力された音声信号の波形相関値を求め、この波形相関値で前記対応情報を参照することによって発話速度を推定する処理手段と、
    を備えた音声信号処理装置であって、
    前記対応情報が表す前記波形相関値と前記発話速度の対応関係は、負の相関関係であることを特徴とする音声信号処理装置。
  6. 前記波形相関値は、フレーム長が異なる複数の音声信号から算出された複数の波形相関値のうち、最大となる波形相関値であることを特徴とする請求項5に記載の音声信号処理装置。
  7. 前記記憶手段は、波形相関値と発話速度とを対応づけたテーブルを対応情報として記憶している請求項5または6に記載の音声信号処理装置。
  8. 前記記憶手段は、波形相関値から発話速度を求める演算式を対応情報として記憶している請求項5または6に記載の音声信号処理装置。
JP2001015927A 2001-01-24 2001-01-24 話速検出方法および音声信号処理装置 Expired - Fee Related JP4882152B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001015927A JP4882152B2 (ja) 2001-01-24 2001-01-24 話速検出方法および音声信号処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001015927A JP4882152B2 (ja) 2001-01-24 2001-01-24 話速検出方法および音声信号処理装置

Publications (2)

Publication Number Publication Date
JP2002221976A JP2002221976A (ja) 2002-08-09
JP4882152B2 true JP4882152B2 (ja) 2012-02-22

Family

ID=18882388

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001015927A Expired - Fee Related JP4882152B2 (ja) 2001-01-24 2001-01-24 話速検出方法および音声信号処理装置

Country Status (1)

Country Link
JP (1) JP4882152B2 (ja)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61190400A (ja) * 1985-02-20 1986-08-25 富士通株式会社 発声速度推定装置
JPH01244498A (ja) * 1988-03-25 1989-09-28 Tomio Watanabe 音声対話速度の適応化方法
JP2892397B2 (ja) * 1989-09-18 1999-05-17 シャープ株式会社 認識結果判定装置
JP2976998B2 (ja) * 1992-04-10 1999-11-10 日本電信電話株式会社 発話速度測定装置
JPH0731508B2 (ja) * 1992-05-29 1995-04-10 株式会社東芝 音声認識応答装置
JPH07295588A (ja) * 1994-04-21 1995-11-10 Nippon Hoso Kyokai <Nhk> 発話速度推定方法
JP3961616B2 (ja) * 1996-05-22 2007-08-22 ヤマハ株式会社 話速変換方法および話速変換機能付補聴器
JP3422716B2 (ja) * 1999-03-11 2003-06-30 日本電信電話株式会社 話速変換方法および装置および話速変換プログラムを格納した記録媒体

Also Published As

Publication number Publication date
JP2002221976A (ja) 2002-08-09

Similar Documents

Publication Publication Date Title
JP2763322B2 (ja) 音声処理方法
US6691090B1 (en) Speech recognition system including dimensionality reduction of baseband frequency signals
JP4516157B2 (ja) 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
CN112767963A (zh) 一种语音增强方法、装置、系统及计算机可读存储介质
Deb et al. A novel breathiness feature for analysis and classification of speech under stress
KR100827097B1 (ko) 음성신호 전처리를 위한 가변 길이의 프레임 결정 방법과이를 이용한 음성신호 전처리 방법 및 장치
JP4858663B2 (ja) 音声認識方法及び音声認識装置
JP2006234888A (ja) 残響除去装置、残響除去方法、残響除去プログラムおよび記録媒体
JP3961616B2 (ja) 話速変換方法および話速変換機能付補聴器
JP4882152B2 (ja) 話速検出方法および音声信号処理装置
JPH0229232B2 (ja)
JP4127155B2 (ja) 聴覚補助装置
JP4517457B2 (ja) 音声認識装置、及び音声認識方法
JP3916834B2 (ja) 雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法
JP4449380B2 (ja) 話者正規化方法及びそれを用いた音声認識装置
JPH08254992A (ja) 話速変換装置
JP2004341340A (ja) 話者認識装置
JP3937688B2 (ja) 話速変換方法および話速変換装置
Jyotishi et al. A novel feature for nasalised vowels and characteristic analysis of nasal filter
JP4313740B2 (ja) 残響除去方法、プログラムおよび記録媒体
JP2006038956A (ja) 音声速度遅延装置及び方法
JP4007628B2 (ja) 音声ピッチの周期の正規化を行う音声合成装置
JP2004258422A (ja) 音源情報を用いた音源分離・抽出方法および装置
Inbanila et al. Investigation of Speech Synthesis, Speech Processing Techniques and Challenges for Enhancements
JPH07210192A (ja) 出力データ制御方法及び装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100525

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100601

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100729

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20100729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111108

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111121

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141216

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4882152

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees