JP2976998B2 - 発話速度測定装置 - Google Patents

発話速度測定装置

Info

Publication number
JP2976998B2
JP2976998B2 JP4090994A JP9099492A JP2976998B2 JP 2976998 B2 JP2976998 B2 JP 2976998B2 JP 4090994 A JP4090994 A JP 4090994A JP 9099492 A JP9099492 A JP 9099492A JP 2976998 B2 JP2976998 B2 JP 2976998B2
Authority
JP
Japan
Prior art keywords
speech rate
circuit
speech
counting
coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP4090994A
Other languages
English (en)
Other versions
JPH05289691A (ja
Inventor
憲三 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP4090994A priority Critical patent/JP2976998B2/ja
Publication of JPH05289691A publication Critical patent/JPH05289691A/ja
Application granted granted Critical
Publication of JP2976998B2 publication Critical patent/JP2976998B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、人間の口の動きに対
応する音声信号の動的な特徴量を積極的に利用し、発声
内容の分からない音声信号に対して、その発話速度、例
えば単位時間当たりのモーラ数を、人手を介さずに自動
的に推定できる発話速度測定装置に関するものである。
【0002】
【従来の技術】発話速度を自動的に推定する方法とし
て、音声信号パワーの包絡のフーリエ展開係数を用いる
方法(古井、音声研究会資料、S81−62、昭和56
年12月)がある。この方法では、音節を孤立に発声し
た単語音声に適用したもので、自然に発声した文章音声
や会話音声に適用した場合の効果は不明である。
【0003】また、従来、発話速度を正確に測定する場
合には、発声された音声を人間が聞き取り、それを文字
化することによって求めていた。あるいは、音声信号波
形やサウンドスペクトログラムなどを用いて、視察によ
り人間が音韻等に対応する数を数えて発声速度に変換を
していた。このような方法では、実時間における測定は
不可能であった。
【0004】一方、音声信号の動的特徴量を音韻のセグ
メンテーション等に利用することは公知の事実である
が、人間の口の動きに対応する特徴量を積極的に用いて
「発話速度」の自動推定に応用した例はこれまで無い。
この発明の目的は、前述したように発声内容の全く分か
らない音声信号の発話速度を、人手の介入無しに、音声
信号の物理的特徴量のみから計算によって実時間で求め
ることができる発話速度測定装置を提供することにあ
る。
【0005】
【課題を解決するための手段】この発明によれば、動的
特徴量分析回路で音声信号の動的特徴量として、口の動
きに対応する音声信号のLPCケプストラム係数の時間
変化特性が求められ、その動的特徴量の時間変化特性を
もとにして発話速度係数が発話速度係数計数回路で計数
され、その発話速度係数をもとに上記音声信号の発話速
度が発話速度計算回路で計算される。前記動的特徴量の
時間変化特性をもとにして、発話速度係数の計数として
は、動的特徴量の変化の極大点の単位時間当たりの係数
を計数し、または動的特徴量の単位時間当たりの変化率
を計数し、あるいは動的特徴量の単位時間当たりの変化
面積を計数する。人間が音声を発生する場合、早口のと
きは発生に必要な調音機構を早く動かし、ゆっくり話す
ときはその逆の調整をしている。従って、音声信号から
その発話速度を測定する場合には、発生のために使われ
た機構の動きに良く対応する物理量、例えば口の動きに
対応する量を測定すればよい。そこでこの発明では、こ
の発生機構の動きに良く対応する音声の、スペクトル包
絡特性の動きとしてLPCケプストラム係数の時間方向
での動きに着目し、この動的特徴量を用いることによっ
て音声信号の発話速度を測定する。
【0006】
【実施例】図1Aに、この発明の実施例を示す。入力端
子11からの音声信号からまず音声の動的特徴量が動的
特徴量分析回路12で計算される。次に、その計算され
た動的特徴量の時間変化特性パタンにおける極大点の単
位時間当たりの個数が「発話速度係数」として発話速度
係数計数回路13で求められる。その発話速度係数で、
関係式メモリ14にあらかじめ蓄えてある発話速度係数
と発話速度との関係を発話速度計算回路15において参
照して発話速度が推定される。
【0007】動的特徴量分析回路12で計算される動的
特徴量としては、口の動きに対応するような音声信号特
徴量の時間あるいは周波数領域における時間変化特性を
表すようなものであればよいが、この発明では音声信号
のスペクトル包絡特性の時間的変化に対応する動的特徴
量が用いられる。すなわち、音声信号から一定フレーム
周期(例えば10ms)でLPCケプストラム係数C1
(t),……,Ck(t)を抽出し、これらの時系列か
ら次式によって動的特徴量Di(t)を求める。
【0008】 Di(t)=Σi=1 k〔{Σf=t-f0 t+f0 f×Ci (t)}/(Σf=t-f0 t+f0 2)〕2 (1) ここで、f 0 はフレーム数で例えば3,kはLPCケプ
ストラム係数の次数であり、i=1,2,…,kであ
る。図1Bに、Di(t) の分析結果の一例を示した。こ
の例は、男性1名が「ゆっくり」、「普通」および「は
やく」の3つの速度で発生した短い文章音声である。同
図から、発話速度の変化に伴ってDi(t) の時間的な特
性が変化している様子が分かる。すなわち、発話速度が
はやくなるに従って、観測時間窓内にあるピークの数が
増加している様子が分かる。
【0009】上述では発話速度係数の一例として、Di
(t)の変化の極大点の単位時間当たりの個数を示した
が、この他、Di (t)の単位時間当たりの変化率や単
位時間当たりの変化面積、つまりスペクトル包絡特性の
時間に対する変化波形の所定時間ごとの波形面積の変化
状態などが利用できる。単位時間としては例えば2〜6
秒、あるいは1〜6分、1〜6分の場合は2〜6秒の各
計数値を平均してもよい。前述したように、この発明の
装置によれば人手を介することなく発声内容の分からな
い音声信号の発話速度を簡単な装置構成で測定できるた
め、次のような適用例が考えられる。
【0010】(1)この装置を、通話路(電話回線等)
に接続するだけで、その通話路の伝送情報量がおおよそ
推定可能であり、伝送系の利用計画等に際して非常に有
益である。 (2)発話速度を自動的に推定可能であるため、種々の
マン/マシンインターフェイス(例えば音声認識や合成
を用いる音声応答システム等)を構築する上で、マシン
側からの快適な応答を使用者の発話テンポ等に合わせて
適応的に制御できるため、このようなシステムに極めて
有効に利用できる。その例を図2に示す。入力端子11
からの入力音声は音声認識回路21へ供給されると共
に、この発明による発話速度測定装置22へ供給され
る。音声認識回路21で認識された内容に応じて応答文
が応答文作成回路23で作成され、その応答文は音声合
成回路24で音声合成されて出力端子25へ出力される
が、発話速度測定装置22で推定された発話速度に応じ
て合成音発声速度制御回路26により合成音の発声速度
が制御され、また前記推定発話速度と、音声認識回路2
1の認識終了とに応じて応答時間制御回路27で応答時
間が制御される。
【0011】(3)音声認識装置の前処理に適用するこ
とによって実際の音韻認識処理に先だって発話速度が推
定できるので、認識性能の向上に役立つと考えられる。
例えば図3に示すように、入力端子11からの音声信号
はこの発明の発話速度測定装置22へ供給されると共に
音韻認識回路28へ供給される。発話速度測定装置22
で測定された発話速度と、動的特徴量分析回路12より
の動的特徴量とから音韻セグメント位置決定回路29で
音韻セグメント位置が決定される。この決定された音韻
セグメント位置を利用して音韻認識回路28で音韻特徴
辞書メモリ31を参照して音韻が認識され、その認識結
果から、単語、文節、文章特徴辞書メモリ32を参照し
て単語、文節、文章の認識が回路33で行われる。
【0012】(4)衛星を利用した電話やその他の国際
電話では伝送路遅延が比較的大きいが、この遅延が会話
に与える影響は、会話の状態により異なる。つまり急い
で会話しようとし、従って発話速度が速い状態では伝送
路遅延は大きく悪影響するが、ゆっくりした会話では影
響が比較的小さい。また相手の応答速度、相槌の入れ方
などにより影響が異なる。従って、図4に示すように、
入力端子11からの音声を発話速度測定装置22と会話
時間パタン分析回路34へ供給し、分析した会話時間パ
タンから回路35で会話パタンの時間特徴量を抽出し、
これと発話速度と、端子36からの伝送路遅延量とか
ら、回路37で、例えばあらかじめ作られた対応表を参
照してその会話音声に対するその伝送路遅延量の主観的
遅延品質を推定する。
【0013】
【発明の効果】図5に、この発明の効果を示すための実
験結果の一例を示した。この例は、男女各5名が発声し
た短い文章音声を用い、前述のDi (t)の極大点から
毎分の音素数を推定し、正解と比較した結果である。両
者の間の相関係数は0.89と高い相関関係となっている
ことが分かる。補正係数をあらかじめ求め、関係式メモ
リ14に関係式と一緒に蓄えておくことによって、両者
の関係を対角線上にプロットすることができ、発話速度
を簡単に推定することができる。
【0014】以上のように、この発明によれば比較的簡
単な構成で、実時間で発声内容の全くわからない音声信
号でも比較的正確に発話速度を推定することができる。
【図面の簡単な説明】
【図1】Aはこの発明装置の実施例を示すブロック図、
Bはこの発明装置に用いる音声の動的特徴量の一例を示
す図である。
【図2】この発明装置を適用した音声応答システムを示
すブロック図。
【図3】この発明装置を適用した音声認識装置を示すブ
ッロク図。
【図4】この発明装置を適用した遅延品質客観測定装置
を示すブッロク図。
【図5】この発明装置の実施例による、発話速度の測定
結果の一例を示す図。
フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 - 9/20

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力された音声信号から、LPCケプス
    トラム係数の時間変化特性を、その音声信号の動的特徴
    量として求める動的特徴量分析回路と、 前記動的特徴量の時間変化特性をもとにして発話速度係
    数を計数する発話速度係数計数回路と、 前記発話速度係数をもとに前記音声信号の発話速度を計
    算する発話速度計算回路とを具備する発話速度測定装
    置。
  2. 【請求項2】 前記発話速度係数計数回路は、前記動的
    特徴量の変化の極大点の単位時間当たりの個数を前記発
    話速度係数として計数する回路であることを特徴とする
    請求項1記載の発話速度測定装置。
  3. 【請求項3】 前記発話速度係数計数回路は、前記動的
    特徴量の単位時間当たりの変化率を前記発話速度係数と
    して計数する回路であることを特徴とする請求項1記
    の発話速度測定装置。
  4. 【請求項4】 前記発話速度係数計数回路は、前記動的
    特徴量の単位時間当たりの変化面積を前記発話速度係数
    として計数する回路であることを特徴とする請求項1記
    載の発話速度測定装置。
JP4090994A 1992-04-10 1992-04-10 発話速度測定装置 Expired - Fee Related JP2976998B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4090994A JP2976998B2 (ja) 1992-04-10 1992-04-10 発話速度測定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4090994A JP2976998B2 (ja) 1992-04-10 1992-04-10 発話速度測定装置

Publications (2)

Publication Number Publication Date
JPH05289691A JPH05289691A (ja) 1993-11-05
JP2976998B2 true JP2976998B2 (ja) 1999-11-10

Family

ID=14014067

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4090994A Expired - Fee Related JP2976998B2 (ja) 1992-04-10 1992-04-10 発話速度測定装置

Country Status (1)

Country Link
JP (1) JP2976998B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4882152B2 (ja) * 2001-01-24 2012-02-22 ヤマハ株式会社 話速検出方法および音声信号処理装置
JP4128916B2 (ja) 2003-08-15 2008-07-30 株式会社東芝 字幕制御装置および方法ならびにプログラム
JP2008026463A (ja) * 2006-07-19 2008-02-07 Denso Corp 音声対話装置
JP2012128440A (ja) * 2012-02-06 2012-07-05 Denso Corp 音声対話装置
EP3007165B1 (en) 2013-05-31 2018-08-01 Yamaha Corporation Technology for responding to remarks using speech synthesis
JP6424419B2 (ja) * 2013-09-30 2018-11-21 ヤマハ株式会社 音声制御装置、音声制御方法およびプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61190400A (ja) * 1985-02-20 1986-08-25 富士通株式会社 発声速度推定装置
JPH01244498A (ja) * 1988-03-25 1989-09-28 Tomio Watanabe 音声対話速度の適応化方法
JPH0750400B2 (ja) * 1988-10-22 1995-05-31 株式会社エイ・ティ・アール自動翻訳電話研究所 Hmm音声認識装置

Also Published As

Publication number Publication date
JPH05289691A (ja) 1993-11-05

Similar Documents

Publication Publication Date Title
Goto et al. A real-time filled pause detection system for spontaneous speech recognition
US5828994A (en) Non-uniform time scale modification of recorded audio
US5459815A (en) Speech recognition method using time-frequency masking mechanism
Weintraub et al. Effect of speaking style on LVCSR performance
JP2003514260A (ja) スピーチ認識のための音調特徴
Raitio et al. Analysis and synthesis of shouted speech.
JPH02242298A (ja) 声門波形に基づく話者識別装置
US7797157B2 (en) Automatic speech recognition channel normalization based on measured statistics from initial portions of speech utterances
JP2001166789A (ja) 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
JP2976998B2 (ja) 発話速度測定装置
JP3673507B2 (ja) 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム
Hansen et al. Robust speech recognition training via duration and spectral-based stress token generation
JP3376487B2 (ja) 言い淀み検出方法及び装置
JP2003316378A (ja) 音声処理方法及びその方法を使用した装置及びそのプログラム
Beulen et al. Experiments with linear feature extraction in speech recognition.
JP2797861B2 (ja) 音声検出方法および音声検出装置
Aikawa et al. Cepstral representation of speech motivated by time–frequency masking: An application to speech recognition
Kasap et al. A unified approach to speech enhancement and voice activity detection
Maddela et al. Durational and Formantshift characteristics of Telugu alveolar and bilabial nasal phonemes
Tolba et al. Speech recognition by intelligent machines
JP3034279B2 (ja) 有音検出装置および有音検出方法
JPH08110796A (ja) 音声強調方法および装置
Siddiq et al. Intonational speaker verification: a study on parameters and performance under noisy conditions
JPS60129796A (ja) 音声入力装置
JP4778613B2 (ja) スピーチプロセシング

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070910

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080910

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080910

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090910

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090910

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100910

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100910

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110910

Year of fee payment: 12

LAPS Cancellation because of no payment of annual fees