JPH10111697A - 音声反応装置と音声認識装置 - Google Patents

音声反応装置と音声認識装置

Info

Publication number
JPH10111697A
JPH10111697A JP8264275A JP26427596A JPH10111697A JP H10111697 A JPH10111697 A JP H10111697A JP 8264275 A JP8264275 A JP 8264275A JP 26427596 A JP26427596 A JP 26427596A JP H10111697 A JPH10111697 A JP H10111697A
Authority
JP
Japan
Prior art keywords
voice
speech
time
detection device
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8264275A
Other languages
English (en)
Inventor
Hidetsugu Maekawa
英嗣 前川
Yoshihiko Matsukawa
善彦 松川
Kazuhiro Kayashima
一弘 萱嶋
Makoto Fujimoto
眞 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP8264275A priority Critical patent/JPH10111697A/ja
Publication of JPH10111697A publication Critical patent/JPH10111697A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Toys (AREA)

Abstract

(57)【要約】 【課題】 音声を用いた直接的なマン・マシンインター
フェイスを用い、音声で対話できる音声反応装置を提供
する。 【解決手段】 音声終了点検出装置1101と音声検出
装置1102が発声部を切り出し、音声認識装置120
1が音声の認識を、音声時間検出装置1202が発声時
間の検出を行い、それらの結果から音声選択装置102
が返答を選択する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は人が呼びかけると音
声で応答を返す音声反応装置と音声認識装置に関する。
【0002】
【従来の技術】従来の音声反応装置としては、特許xx
に開示されたものが知られている。従来の音声反応装置
は、呼びかける人の音声を認識して、予めプログラムさ
れた言葉を返すように構成されていた。
【0003】
【発明が解決しようとする課題】しかし、従来の音声反
応装置に利用される音声認識技術は、玩具というシステ
ムの制約からゼロ交差数等の簡易なアルゴリズムで実現
されているため、認識精度が低く面白味に欠けるという
問題があった。
【0004】
【課題を解決するための手段】そこで、本発明は呼びか
けた音声の長さを積極的に利用した音声反応装置を提供
する。そこで、以下のような手段を用いて上記の問題を
解決する。
【0005】人の発する音声を認識する音声認識装置と
発声された時間を検出する音声時間検出装置と音声認識
結果と音声時間検出結果に応じて返答を選択する音声選
択装置とからなる。
【0006】本発明は上記した構成により、音声の長さ
が予め定められた長さより短い場合に、例えば「だーれ
?」「なーに?」といった返したり、予め定められた長
さより長い場合に、例えば「うるさい」などの反応を返
す。音声の長さは簡易なアルゴリズムでも高い精度で検
出できるため、ユーザーが期待した反応が気持ちよく返
ってくるため、面白味を増すことができる。システムが
高価になるという問題も回避できる。
【0007】
【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照して説明する。まず、音声選択装置、音声
終了点検出装置、音声検出装置、特徴量抽出装置、音声
認識装置、音声時間検出装置について述べ、最後にこれ
らの組み合せによる各装置について説明する。
【0008】音声選択装置102は、状態sにおける入
力x(非負の整数)とn(s)個の出力音声sp(x,
i)(0≦i<n(s))とからなる入出力状態105
と、乱数発生装置101と、入出力状態メモリ103と
を持っている(図2参照)。最初入出力状態メモリ10
3には図3の初期状態201が格納されているとする。
ここで、入力xがあった場合、それに対応する出力音声
の集合sp(x,i)が選択され、この中からiを乱数
発声装置101r(n(s))(ただし、0≦r(n
(s))<n(s))で決定し、音声を出力する。この
時、状態遷移装置104はその出力を観測しており、入
出力状態メモリを書き変える。
【0009】例えば、初期状態201において「元気
?」が出力された場合、入出力状態105を参照して、
この出力に対する状態202に書き変えられる。このよ
うにして、簡単な対話システムを構築することが可能と
なる。また、図4のような簡単な構成にして、一回だけ
の応答をさせるようにもできる。また、図3において各
入力に対する出力音声の候補を各状態で全く変更しなけ
れば、毎回同じ反応を返すことが可能であり、また候補
を様々に変更すれば多様な応答を返すようにすることも
可能である。
【0010】次に音声認識に関する装置、すなわち、音
声終了点検出装置、音声検出装置、特徴量抽出装置につ
いて述べる。まずマイクから入力された音声信号の微分
信号を作成する。実際、音声信号v(t)の微分v’
(t)(=s(t))を作成するが、マイク信号に微分
回路を挿入する方法や、サンプリングした信号の差分信
号を作る等の既存の方法で可能である。これにより、マ
イクのばらつきによる音声信号のオフセット部分のばら
つきを解消することが可能となる。音声微分信号s
(t)をフレームf(i)(iは非負の整数、また、フ
レームの間隔は例えば16ms)に分割し、このフレー
ム内のエネルギーをe(i)802とする(図5参
照)。
【0011】ここで、フレーム単位の音声が入力される
度に、それから一定期間遡ったフレームまでのエネルギ
ーの分散を求め、この分散が予め実験的に求めた閾値T
hvを大きい方から小さい方へ交差した時点を音声終了
点とする。
【0012】ここで一定期間のフレーム毎のエネルギー
から分散を求める方法について述べる。まず、循環メモ
リを使う方法であるが、フレーム毎に求まるエネルギー
を順次、長さlの循環メモリ803に格納していく。そ
して、フレームのエネルギーが求まる度に、それから一
定期間遡ったエネルギーを循環メモリから参照し、分散
を求めることができる。もう一つは循環メモリを使わな
い方法である。
【0013】過去のエネルギーの平均m(i−1)と分
散v(i−1)を保持し、新しく求まったエネルギーe
(i)と過去のエネルギーの平均との重みづけした和を
新しいエネルギーの平均m(i)とし、同じく過去の分
散v(i−1)と|e(i)−m(i)|との重みづけ
和を新しい分散v(i)とすることにより、擬似的なエ
ネルギーの分散を求めることができる。ここで、重みづ
けには減衰定数αを用い、次式で示される方法で分散を
求める。αとしては1.02を用いている。
【0014】
【数1】
【0015】このようにすることにより、循環メモリを
必要とせず、メモリの節約につながり、新しいエネルギ
ーが求まる度に一定期間内のエネルギーの総和を求める
等の手間が省け、処理時間の短縮にもつながる。
【0016】図7は音声検出方法の説明図、図8は音声
認識装置の構成図である。そして、エネルギー用の循環
メモリMe803と平滑化エネルギー用の循環メモリM
se902を用意し、フレームのエネルギーが求まる度
にメモリMeにはそのエネルギー802を、メモリMs
eには平滑化エネルギー901を蓄えてゆく。上述した
終了点903が求まった時点で、これらの循環メモリに
はエネルギーの履歴が残っており、循環メモリの長さを
十分な長さ(例えば2秒に相当する長さ)にしておけ
ば、一単語分のエネルギーは残されていることになる。
そこで、このメモリから音声が発音された区間を抽出す
る。この区間を抽出する方法とは、ある閾値Thを求
め、循環メモリMe内のエネルギーを観察した場合に、
過去からその閾値を初めて越える点を音声の始点とし、
逆に音声終了点から過去に遡った時にその閾値を交差す
る点を音声の終点とし、これら始点と終点との間を音声
が発音された区間とするものである。ここで閾値Thの
求め方は、音声終了点が検出された時点のメモリMe内
のエネルギー最大値max1001とメモリMse内の
平滑化エネルギーの最小値min1002とを求め、次
式で示される値をThとするものである。
【0017】
【数2】
【0018】ただし、βとしては0.07程度の値とし
た。また、平滑化の方法としては一定ウインドウ内のメ
ディアン値を採用したが、これに限定されるものではな
く平均値でもかまわない。このように、閾値を求める際
に上記の最大値としてエネルギーを用いたのは、平滑化
エネルギーであると単語の長さが変動した場合に最大値
が大幅に変動し、それに伴なって閾値も変動し、良好な
音声検出ができないためである。
【0019】次に、検出された音声から認識のための特
徴量を抽出する。特徴量もエネルギー同様、フレーム毎
に求めるものとし、循環メモリに蓄えていくものとす
る。ここで特徴量とは、微分信号のゼロ交差数からなる
特徴量ベクトルとする。
【0020】このように音声終了点検出装置1101、
音声検出装置1102、特徴量抽出装置1103を経て
得られた音声の特徴量ベクトルと、事前に登録した音声
の特徴量ベクトルの辞書1105とを距離計算装置11
04を用いて照合し、最もスコアが良かったものを認識
結果として出力する。ただし、照合の方法は単純にベク
トル間のユークリッド距離を取ってもよいし、DPマッ
チング法を用いてもよい。
【0021】音声時間検出装置は、音声検出装置の出力
結果である音声の始点と終点の差から音声時間を検出す
る。上記で説明した音声検出装置の検出精度は、通常の
家庭内での使用状況では90%以上である。このため、
音声時間検出精度は非常に高くできる。また、音声時間
検出装置は、予め設定された音声長よりも長いか短いか
等を検出する。
【0022】図1は音声反応装置の構成図である。次
に、以上の装置を用いた応用装置について述べる。上記
のような音声認識装置1201と音声時間検出装置12
02と音声選択装置1203とを組み合せた音声反応装
置1204について述べる(図1参照)。音声認識装置
1201は複数の音声を登録でき、入力した音声がどの
登録音声に近かったかを出力する。この出力として、例
えば登録された音声に一意に付けられた登録番号を設定
する。一方、音声時間検出装置は予め定められた音声長
よりも長かったか、短かったかを出力する。例えば、
0.2秒よりも短い時、1.5秒よりも長い時にそれぞ
れ短い、長いといった状態を登録番号として出力する。
これらの出力結果を受け、音声選択装置1202にはそ
の登録番号に対して複数の音声を登録しておき、ある登
録番号が入力された時にこれら複数の音声のうちからラ
ンダムに選択し、出力させる。
【0023】例えば、一例として下表のように複数の音
声を登録したとする。
【0024】
【表1】
【0025】本実施の形態では、音声長が長い、短いと
判定された時には音声認識結果の如何に関わらず、音声
長の結果に応じた応答を返す。例えば、速いスピードで
「おはよう」と言った場合には、「なーに?」といった
返答を返す。
【0026】なお、音声長の判定結果と、音声認識結果
とをランダムに選択することも可能である。
【0027】
【発明の効果】以上説明したように、本発明における音
声反応装置は、検出精度の高い音声の長さを積極的に利
用している。このため、ユーザーが期待した反応が気持
ちよく返ってくるため、面白味を増すことができる。
【図面の簡単な説明】
【図1】本発明の一実施の形態における音声認識装置、
音声選択装置を用いた音声反応装置の構成図
【図2】音声選択装置の構成図
【図3】音声選択装置における入出力状態を示す図
【図4】音声選択装置の構成図
【図5】音声波形、エネルギー、循環メモリを示す図
【図6】音声終了点検出方法を示す図
【図7】音声検出方法を示す図
【図8】音声認識装置の構成図
【符号の説明】
101 乱数発生装置 102 音声選択装置 103 入出力状態メモリ 104 状態遷移装置 105 入出力状態 1101 音声終了点検出装置 1102 音声検出装置 1103 特徴量抽出装置 1104 距離計算装置 1105 辞書 1201 音声認識装置 1202 音声時間検出装置
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 FI G10L 9/00 301 G10L 9/00 301B (72)発明者 藤本 眞 大阪府門真市大字門真1006番地 松下電器 産業株式会社内

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】音声終了点検出装置と、音声検出装置と、
    音声認識装置と、音声時間検出装置と音声選択装置とを
    具備し、前記音声認識装置が入力された音声を認識し、
    前記音声時間検出装置が音声の発声時間を検出し、前記
    音声選択装置が、音声認識結果と発声時間結果から適当
    な返答を返す音声反応装置。
  2. 【請求項2】前記音声選択装置は、音声時間検出結果が
    予め設定された基準時間より短い場合に、音声認識結果
    に関係なく、予め定められた応答をすることを特徴とす
    る請求項1記載の音声反応装置。
  3. 【請求項3】前記音声選択装置は、音声時間検出結果が
    予め設定された基準時間より長い場合に、音声認識結果
    に関係なく、予め定められた応答をすることを特徴とす
    る請求項1記載の音声反応装置。
  4. 【請求項4】音声選択装置は、入力の集合とそれぞれの
    入力に対する複数の音声とからなる入出力の状態を複数
    有し、一つの入力に対して音声を選択・出力した後に前
    記複数の入出力の状態のうちの一つに状態が遷移され、
    過去の入出力の履歴により次の入出力が決定されること
    を特徴とする請求項1記載の音声反応装置。
  5. 【請求項5】音声選択装置は、前記入出力の状態が一つ
    だけであり、入力があった時に前記複数の音声から一つ
    選択し、出力することを特徴とする請求項4記載の音声
    反応装置。
  6. 【請求項6】複数の音声から一つの音声を選択する方法
    は、乱数を用いることを特徴とする請求項4記載の音声
    反応装置。
  7. 【請求項7】入力集合が、音声の長さ情報を含むことを
    特徴とする請求項4記載の音声反応装置。
  8. 【請求項8】音声終了点検出装置は、音声の微分信号を
    入力とし、フレームに分割し、各フレーム毎のエネルギ
    ーからなるエネルギー列を求め、前記エネルギー列の分
    散が予め実験的に設定した閾値よりも小さくなった点を
    音声の終了点とする請求項1記載の音声反応装置。
  9. 【請求項9】音声検出装置は、音声終了点検出装置と一
    定時間の循環メモリとを具備し、前記循環メモリにはフ
    レーム毎のエネルギーを順次蓄え、前記音声終了検出装
    置により音声終了点が検出されると、前記循環メモリに
    蓄えられたエネルギー列内の最大値と、前記エネルギー
    列を平滑化した平滑化エネルギー列内の最小値とを求
    め、前記最大値と前記最小値から閾値を導出し、前記エ
    ネルギー列を参照し前記閾値よりも大きくなる最初の部
    分と最後の部分の間を音声が発声された区間であるとす
    る請求項1記載の音声反応装置。
  10. 【請求項10】音声認識装置は、音声の波形の特徴を解
    析する特徴量抽出装置を具備し、音声終了点検出装置と
    音声検出装置から出力された音声波形から前記特徴量抽
    出装置を用いて予め登録したい音声の特徴量を辞書とし
    て保存し、前記特徴量抽出装置を用いて認識したい音声
    の特徴量を求め、前記辞書内の特徴量との距離を求め、
    最も近い前記辞書内の音声を認識結果とする請求項1記
    載の音声反応装置。
  11. 【請求項11】音声時間検出装置は、音声検出装置から
    出力された音声波形から発声開始時間と発声終了時間の
    差から音声の発声時間を検出する請求項1記載の音声反
    応装置。
  12. 【請求項12】音声の波形の特徴を解析する特徴量抽出
    装置と、音声の微分信号を入力とし、フレームに分割
    し、各フレーム毎のエネルギーからなるエネルギー列を
    求め、前記エネルギー列の分散が予め実験的に設定した
    閾値よりも小さくなった点を音声の終了点とする音声終
    了点検出装置と、一定時間の循環メモリを備え、前記循
    環メモリにはフレーム毎のエネルギーを順次蓄え、前記
    音声終了検出装置により音声終了点が検出されると、前
    記循環メモリに蓄えられたエネルギー列内の最大値と、
    前記エネルギー列を平滑化した平滑化エネルギー列内の
    最小値とを求め、前記最大値と前記最小値から閾値を導
    出し、前記エネルギー列を参照し前記閾値よりも大きく
    なる最初の部分と最後の部分の間を音声が発声された区
    間であるとする音声検出装置とを備え、前記音声検出装
    置から出力された音声波形から前記特徴量抽出装置を用
    いて予め登録したい音声の特徴量を辞書として保存し、
    前記特徴量抽出装置を用いて認識したい音声の特徴量を
    求め、前記辞書内の特徴量との距離を求め、最も近い前
    記辞書内の音声を認識結果とする音声認識装置。
JP8264275A 1996-10-04 1996-10-04 音声反応装置と音声認識装置 Pending JPH10111697A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8264275A JPH10111697A (ja) 1996-10-04 1996-10-04 音声反応装置と音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8264275A JPH10111697A (ja) 1996-10-04 1996-10-04 音声反応装置と音声認識装置

Publications (1)

Publication Number Publication Date
JPH10111697A true JPH10111697A (ja) 1998-04-28

Family

ID=17400913

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8264275A Pending JPH10111697A (ja) 1996-10-04 1996-10-04 音声反応装置と音声認識装置

Country Status (1)

Country Link
JP (1) JPH10111697A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006209069A (ja) * 2004-12-28 2006-08-10 Advanced Telecommunication Research Institute International 音声区間検出装置および音声区間検出プログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60247697A (ja) * 1984-05-24 1985-12-07 株式会社東芝 音声対話装置
JPS62294297A (ja) * 1986-06-13 1987-12-21 松下電器産業株式会社 音声入力装置
JPH0222398A (ja) * 1988-03-14 1990-01-25 Procter & Gamble Co:The 洗剤用の光活性化剤染料組成物
JPH0594197A (ja) * 1991-10-01 1993-04-16 Sanyo Electric Co Ltd 音声パターン作成方法
JPH0539594U (ja) * 1991-10-31 1993-05-28 株式会社タカラ 動作玩具
JPH06175689A (ja) * 1992-12-07 1994-06-24 Ricoh Co Ltd 音声認識反応装置
JPH08187368A (ja) * 1994-05-13 1996-07-23 Matsushita Electric Ind Co Ltd ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置
JPH08266747A (ja) * 1995-03-31 1996-10-15 Matsushita Electric Ind Co Ltd 音声認識装置、反応装置、反応選択装置及びこれらを用いた反応玩具

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60247697A (ja) * 1984-05-24 1985-12-07 株式会社東芝 音声対話装置
JPS62294297A (ja) * 1986-06-13 1987-12-21 松下電器産業株式会社 音声入力装置
JPH0222398A (ja) * 1988-03-14 1990-01-25 Procter & Gamble Co:The 洗剤用の光活性化剤染料組成物
JPH0594197A (ja) * 1991-10-01 1993-04-16 Sanyo Electric Co Ltd 音声パターン作成方法
JPH0539594U (ja) * 1991-10-31 1993-05-28 株式会社タカラ 動作玩具
JPH06175689A (ja) * 1992-12-07 1994-06-24 Ricoh Co Ltd 音声認識反応装置
JPH08187368A (ja) * 1994-05-13 1996-07-23 Matsushita Electric Ind Co Ltd ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置
JPH08266747A (ja) * 1995-03-31 1996-10-15 Matsushita Electric Ind Co Ltd 音声認識装置、反応装置、反応選択装置及びこれらを用いた反応玩具

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006209069A (ja) * 2004-12-28 2006-08-10 Advanced Telecommunication Research Institute International 音声区間検出装置および音声区間検出プログラム

Similar Documents

Publication Publication Date Title
JP3691511B2 (ja) 休止検出を行う音声認識
JP3284832B2 (ja) 音声認識対話処理方法および音声認識対話装置
US6922668B1 (en) Speaker recognition
JP2004528595A (ja) 話者音声のバックグランド学習
EP1022725A1 (en) Selection of acoustic models using speaker verification
JPH10254475A (ja) 音声認識方法
US7031923B1 (en) Verbal utterance rejection using a labeller with grammatical constraints
JP2003208196A (ja) 音声対話方法および装置
JPH09166995A (ja) 音声認識装置及び音声認識方法
JP4393648B2 (ja) 音声認識装置
JPH07219579A (ja) 音声認識装置
JPH10111697A (ja) 音声反応装置と音声認識装置
JPH10187181A (ja) 音声認識装置
JPH08263092A (ja) 応答音声生成方法および音声対話システム
JP2003044085A (ja) コマンド入力機能つきディクテーション装置
KR100931790B1 (ko) 음성인식 시스템에서 발음명칭목록을 이용한 인식사전 생성 방법 및 그를 이용한 유사발음명칭 처리 방법
JPH06161488A (ja) 音声認識装置
JPH02300800A (ja) 音声認識装置
JP2665543B2 (ja) 音声認識装置
JP3100208B2 (ja) 音声認識装置
JP2002196789A (ja) 音声対話装置
JPH06289893A (ja) 音声認識装置
JPH0247758B2 (ja)
JPH11184492A (ja) 話者認識装置及びその方法
JPH0115079B2 (ja)

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050602

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20050623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050712

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060110