JP3524370B2 - 音声起動システム - Google Patents
音声起動システムInfo
- Publication number
- JP3524370B2 JP3524370B2 JP03737498A JP3737498A JP3524370B2 JP 3524370 B2 JP3524370 B2 JP 3524370B2 JP 03737498 A JP03737498 A JP 03737498A JP 3737498 A JP3737498 A JP 3737498A JP 3524370 B2 JP3524370 B2 JP 3524370B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- keyword
- input
- activation system
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
関し、より詳細には、音声認識によって各種機器の操作
制御を行なう、いわゆる音声制御装置の音声起動システ
ムに関する。
(ハンズフリー)、また視線移動を必要としない(アイ
ズフリー)ので、別の動作をしながらでも音声によって
機器の操作制御を行なうことができる。例えば、車両運
転中に、前方への視線を移動させたり、ハンドルから手
を離さずとも、機器の操作制御を行なうことができ、車
両運転中の安全性の確保が容易となる。
常の制御モード(音声認識による操作制御の可能でない
状態)から音声制御モード(音声認識による操作制御の
可能な状態)へ切り替わるのが普通であり、その切換方
法として、通常では音声キーワードが発声された否かと
いった音声認識方法が採用されている。
制御装置はその利点(ハンズフリー、アイズフリー)か
ら車両機器制御への利用に大変効果がある。しかしなが
ら、車両内では周囲の物音や、話し声等を登録されてい
る音声キーワードと誤認し、必要のないときに音声制御
モードへ切り替わってしまうといった不具合が生じやす
い状況にある。
御装置とで音声入力手段、すなわちマイク等を共有する
システムを使用する場合、通話中における音声制御モー
ドへの切り替えは困難を極める。それは、通話中の話し
声を登録されている音声キーワードと誤認してしまう可
能性が極めて高いからである。
って、音声キーワードを用いた音声制御装置の起動制御
であったとしても、誤認を招くおそれの少ない音声起動
システムを提供することを目的としている。
達成するために本発明に係る音声起動システム(1)
は、入力された音声が登録されている音声キーワードで
あるか否かを判断するキーワード判断手段を備えると共
に、その判断結果に基づいて音声制御装置の起動制御を
行なう音声起動システムにおいて、入力音声と音声キー
ワードとの類似値を計測し、計測された類似値が所定値
以下であれば、前記入力音声が前記音声キーワードであ
ると判断するように、前記キーワード判断手段が構成さ
れ、さらに、音声キーワードとの類似値が所定値以下で
ある入力音声の入力前後の所定時間が無音状態であった
か否かを判断する第1の無音状態判断手段を備えると共
に、前記所定時間が無音状態でなかったならば、前記入
力音声が前記音声キーワードでないと判断するように、
前記キーワード判断手段が構成されていることを特徴と
している。また、本発明に係る音声起動システム(2)
は、入力された音声が登録されている音声キーワードで
あるか否かを判断するキーワード判断手段を備えると共
に、その判断結果に基づいて音声制御装置の起動制御を
行なう音声起動システムにおいて、入力音声と音声キー
ワードとの類似値を計測し、計測された類似値が所定値
以下であれば、前記入力音声が前記音声キーワードであ
ると判断するように、前記キーワード判断手段が構成さ
れ、さらに、入力された音声と通話先からの音声とを比
較し、同一と判断すれば、前記入力音声を前記キーワー
ド判断手段に出力しないようにする比較手段を備えてい
ることを特徴としている。
よれば、入力音声と登録されている音声キーワードとの
類似度が低ければ、前記音声制御装置を起動させないの
で、周囲の物音や、話し声等で誤って前記音声制御装置
が起動する可能性、すなわち音声制御モードへ切り替わ
る可能性を低減させることができる。従って、従来では
通話中においては誤認する可能性の高かった、車載用ハ
ンズフリー電話機と音声制御装置とでマイク等を共有さ
せたシステムであっても、上記音声起動システム(1)
又は(2)を採用することによって、その誤認の可能性
を大幅に低減させることができる。さらに、上記音声起
動システム(1)によれば、入力音声と登録されている
音声キーワードとの類似値が所定値以下であっても、前
記入力音声における入力前後の所定時間が無音状態でな
ければ、前記入力音声は通常の会話中における音声等で
あるとみなして、音声制御モードに切り替わらないよう
にすることができる。従って、音声キーワード以外の発
声音で誤って音声制御モードに切り替わることをほとん
どなくすことができる。 また、上記音声起動システム
(2)によれば、通話先からの音声によって誤って音声
制御モードに切り替わることをなくすことができる。
(2)において、入力された音声パターンと予め記憶さ
せておいた音素標準パターンとから、パターンマッチン
グ処理によって計測されたパターン間距離に基づいて、
前記類似値を決定するような構成とすることによって、
下記のような効果が得られる。
距離に基づいて決定された値を類似値として採用するの
で、システムの信頼性を向上させることができる。
(2)において、入力された音声が音声キーワードであ
ると判断された場合の過去の最大類似値に基づいて、所
定値を設定する第1の設定手段を備えることによって、
下記のような効果が得られる。
実績(過去の最大類似値)に基づいて、所定値を設定す
るので、より一層、誤認の可能性を低減させることがで
きる。例えば、入力音声が音声キーワードであると判断
された場合の類似値(過去の実績)が40、20、3
0、50、20、10である場合、過去の実績から入力
音声が音声キーワードであると判断する類似値は50
(最大類似値)以下で良いことが分かる。このときに設
定されている所定値が200であれば50〜200は不
要であり、むしろ誤認の可能性を高めてしまう。そこ
で、誤認の可能性を低減させるためには、所定値を最大
類似値に基づいて設定し直すのが効果的である。例え
ば、所定値を70{=50(最大類似値)+20
(幅)}に設定する。これにより、特定の使用者に対し
て、通常の会話音や周囲の物音等で誤って音声制御モー
ドに切り替わることをほとんどなくすことができる。
(2)において、前記第1の設定手段を備えるだけでな
く、さらに、前記第1の設定手段により設定された所定
値ではなく、予め設定しておいた所定値に設定し直す第
2の設定手段と、該第2の設定手段を稼働させるための
第1の入力手段とを備えることによって、下記のような
効果が得られる。
定した所定値では、他の使用者にとって不具合が生じる
といった問題が考えられるが、上記構成とすることによ
って、前記問題は解決される。
(2)において、所定値をより大きな値に設定し直す第
3の設定手段と、該第3の設定手段を稼働させるための
第2の入力手段とを備えることによって、下記のような
効果が得られる。
記第2の入力手段を用いて、所定値をより大きな値に設
定することができるので、音声キーワードを何度発声し
ても音声制御モードに切り替わらないといった場合に、
大変有効である。
(2)において、前記音声制御装置の起動後から引き続
いて所定時間、無音状態であったか否かを判断する第2
の無音状態判断手段を備えると共に、前記所定時間の間
が連続的に無音状態であれば、前記音声制御装置の起動
を解除するように制御する解除制御手段を備えることに
よって、下記のような効果が得られる。
御装置が起動したとしても、すなわち音声制御モードに
切り替わったとしても、切り替わった(起動)後から前
記所定時間の間が連続的に無音状態であれば、前記起動
は誤認によるものとみなして、前記音声制御装置の起動
を解除することができる。従って、音声キーワード以外
の発声音で誤って音声制御モードに切り替わったとして
も、自動的に通常の制御モードに戻すことができる。
テムの実施の形態を図面に基づいて説明する。図1は、
実施の形態に係る音声起動システム(1)の要部を概略
的に示したブロック図である。図中1はアンテナを示
し、アンテナ1は電話本体部2に接続されている。ま
た、スピーカ4、及び車載用ハンドフリー電話機と音声
制御装置9とで共有されるマイク5はアンプ3を介し
て、電話本体部2と音声認識手段6とにそれぞれ接続さ
れている。
音声認識手段6は、音声制御装置9の起動制御を行なう
起動制御手段8に接続され、起動制御手段8は音声制御
装置9に接続されている。
におけるキーワード判断手段7の動作を、図2に示した
フローチャートに基づいて説明する。まず、ステップ1
において、マイク5より入力された音声を取り込み、次
にステップ2において、入力音声と登録されている音声
キーワードとの類似値dを計測し、そしてステップ3に
移る。
されると、入力された音声パターン(以下、入力パター
ンと記す)と予め記憶させておいた音素標準パターンと
のパターン間距離(類似度)をDPマッチング法等のパ
ターンマッチングによって計測し、入力パターンが記憶
されている標準パターンのうちのどれに属するかを決定
し、そのときのパターン間距離を類似値dとする方法等
がある。また、パターン間距離としてはユークリッド距
離等が挙げられる。
であるか否かを判断し、所定値t以下であると判断すれ
ば、ステップ4に移って、音声制御装置9を起動させる
ように起動制御手段8に信号を出力し、一方、所定値t
以下でないと判断すれば、ステップ1に戻る。
(1)によれば、入力音声と登録されている音声キーワ
ードとの類似度が低ければ、音声制御装置9を起動させ
ないので、周囲の物音や、話し声等で誤って音声制御装
置9が起動する可能性、すなわち音声制御モードへ切り
替わる可能性を低減させることができる。従って、従来
では通話中においては誤認する可能性の高かった、車載
用ハンズフリー電話機と音声制御装置9とでマイク5を
共有させたシステムであっても、その誤認の可能性を大
幅に低減させることができる。
ム(2)の要部を概略的に示したブロック図である。こ
こでは、図1に示した音声起動システムと同様の構成に
ついては、その説明を省略する。
定し直す第1の設定手段10、第2の設定手段11、及
び第3の設定手段13が接続され、また第2の設定手段
11、第3の設定手段13にはそれぞれ第1の入力手段
12、第2の入力手段14が接続されている。
における第1の設定手段10の動作を、図4に示したフ
ローチャートに基づいて説明する。まず、ステップ11
において、初期設定として最大類似値dMAX を0とし、
カウンタnを0とする。次にステップ12において、キ
ーワード判断手段7によって算出された類似値d(図2
のステップ2参照)を取り込み、そしてステップ13に
進む。
dMAX よりも大であるか否かを判断し、大であると判断
すれば、ステップ14に移り、最大類似値dMAX を類似
値dとして、ステップ15に進む。一方、大でないと判
断すれば、ステップ14を飛ばしてそのままステップ1
5に進む。
て、ステップ16に進み、ステップ16では、カウンタ
nが所定回数N以上であるか否かを判断する。所定回数
N以上であると判断すれば、ステップ17に移り、最大
類似値dMAX に所定幅αを加えたものを値t1 として、
ステップ18に進む。一方、所定回数N未満であると判
断すれば、ステップ12に戻る。ステップ18では、キ
ーワード判断手段7に設定されている所定値tを値t1
にして、ステップ12に戻る。
2の設定手段11は、第1の設定手段10により設定さ
れた所定値t1 を、予め設定しておいた所定値t0 に設
定し直すものであり、第1の入力手段12からの信号に
基づいて稼働するように構成されている。
第3の設定手段13は、所定距離tをより大きな値に設
定するものであり、例えば、所定距離t0 を1.5倍し
たものを所定距離tとするものである。また、第2の入
力手段14からの信号に基づいて稼働するように構成さ
れている。
(2)によれば、過去の判断実績(過去の最大類似値d
MAX )に基づいて、所定値tを設定するので、より一
層、誤認の可能性を低減させることができる。例えば、
入力音声が音声キーワードであると判断された場合の類
似値が40、20、30、50、20、10である場
合、過去の実績から入力音声が音声キーワードであると
判断する類似値は50(最大類似値dMAX )以下で良い
ことが分かる。このときに設定されている所定値t0 が
200であれば50〜200は不要であり、むしろ誤認
の可能性を高めてしまう。そこで、誤認の可能性を低減
させるためには所定値t0 を最大類似値dMAX に基づい
て、設定し直すのが効果的である。例えば、所定値tを
70{=50(最大類似値dMAX )+20(幅α)}に
設定する。これにより、特定の使用者に対して、通常の
会話音や周囲の物音等で誤って音声制御モードに切り替
わることをほとんどなくすことができる。
うに設定した所定値tでは、他の使用者にとって不具合
が生じるといった問題があるが、第2の設定手段11を
稼働させることによって、前記問題は解決される。
いることによって、所定値tを大きく設定することがで
きるので、音声キーワードを何度発声しても、音声制御
装置9が起動しない場合に、すなわち音声制御モードに
切り替わらないといった場合に、大変有効である。
か否かを判断する処理(ステップ15)を行なっている
のは、所定回数Nに満たない過去の実績からでは適切な
所定値tを設定することが困難であるからである。
ム(3)の要部を概略的に示したブロック図である。こ
こでは、図1に示した音声起動システムと同様の構成に
ついては、その説明を省略する。
判断手段7に接続され、キーワード判断手段7にて判断
対象となる音声の入力前後における音声情報を取り込ん
で、前記音声の入力前後の所定時間が無音状態であった
か否かを判断し、その判断結果をキーワード判断手段7
に出力するように構成されている。
におけるキーワード判断手段7の動作を、図6に示した
フローチャートに基づいて説明する。
り入力された音声を取り込み、次にステップ22におい
て、入力音声と登録されている音声キーワードとの類似
値dを算出し、そしてステップ23に移る。ステップ2
3では、類似値dが所定値t以下であるか否かを判断
し、所定値t以下であると判断すれば、ステップ24に
移り、一方、所定値t以下でないと判断すれば、ステッ
プ21に戻る。
段15における判断結果を取り込み、そしてステップ2
5に進み、取り込んだ判断結果が前記入力音声の入力前
後が無音状態であったことを示すものであれば、ステッ
プ26に移り、音声制御装置9を起動させるように起動
制御手段8に信号を出力し、一方、無音状態を示すもの
でなければ、ステップ21に戻る。
(3)によれば、入力音声と登録されている音声キーワ
ードとの類似値dが所定値t以下であっても、前記入力
音声における入力前後の所定時間が無音状態でなけれ
ば、前記入力音声は通常の会話中における音声等である
とみなして、音声制御装置9を起動させないように、す
なわち音声制御モードに切り替わらないようにすること
ができる。従って、音声キーワード以外の発声音で誤っ
て音声制御モードに切り替わることをほとんどなくすこ
とができる。
ム(4)の要部を概略的に示したブロック図である。こ
こでは、図1に示した音声起動システムと同様の構成に
ついては、その説明を省略する。図中16は、第2の無
音状態判断手段を示しており、第2の無音状態判断手段
16は音声認識手段6、及び起動制御手段8に接続され
ている。
における第2の無音状態判断手段16の動作を、図8に
示したフローチャートに基づいて説明する。まず、ステ
ップ31において、マイク5より入力された音声のう
ち、音声制御装置9の起動後から所定時間、音声情報を
取り込み、次にステップ32において、前記所定時間の
間が無音状態であったか否かを判断する。無音状態であ
ったと判断すれば、ステップ33に移って、音声制御装
置9の起動を解除するように起動制御手段8に信号を出
力し、一方、無音状態ではなかったと判断すれば、前記
動作は終了する。
(4)によれば、音声制御装置9が起動したとしても、
すなわち音声制御モードに切り替わったとしても、切り
替わった(起動)後から所定時間の間が連続的に無音状
態であれば、前記起動は誤認によるものとみなして、音
声制御装置9の起動を解除することができる。従って、
音声キーワード以外の発声音で誤って音声制御モードに
切り替わったとしても、自動的に通常の制御モードに戻
すことができる。
ム(5)の要部を概略的に示したブロック図である。こ
こでは、図1に示した音声起動システムと同様の構成に
ついては、その説明を省略する。図中17は、比較手段
を示している。電話本体部2、及びアンプ3は比較手段
17に接続され、比較手段17は音声認識手段6に接続
されている。
イク5より入力された音声との相関係数を算出し、相関
係数が所定値以上であれば、マイク5より入力された音
声がスピーカ4より出力された通話先からの音声とみな
して、入力された音声を音声認識手段6に出力しないよ
うにするように構成されている。また、比較手段17と
しては、エコーキャンセル装置等が挙げられる。
(5)によれば、通話先からの音声によって誤って音声
制御モードに切り替わることをなくすことができる。
(1)の要部を概略的に示したブロック図である。
けるキーワード判断手段の動作を示したフローチャート
である。
部を概略的に示したブロック図である。
ける第1の設定手段の動作を示したフローチャートであ
る。
部を概略的に示したブロック図である。
けるキーワード判断手段の動作を示したフローチャート
である。
部を概略的に示したブロック図である。
ける第2の無音状態判断手段の動作を示したフローチャ
ートである。
部を概略的に示したブロック図である。
Claims (2)
- 【請求項1】 入力された音声が登録されている音声キ
ーワードであるか否かを判断するキーワード判断手段を
備えると共に、その判断結果に基づいて音声制御装置の
起動制御を行なう音声起動システムにおいて、 入力音声と音声キーワードとの類似値を計測し、計測さ
れた類似値が所定値以下であれば、前記入力音声が前記
音声キーワードであると判断するように、前記キーワー
ド判断手段が構成され、 さらに、音声キーワードとの類似値が所定値以下である
入力音声の入力前後の所定時間が無音状態であったか否
かを判断する第1の無音状態判断手段を備えると共に、
前記所定時間が無音状態でなかったならば、前記入力音
声が前記音声キーワードでないと判断するように、前記
キーワード判断手段が構成され ていることを特徴とする
音声起動システム。 - 【請求項2】 入力された音声が登録されている音声キ
ーワードであるか否かを判断するキーワード判断手段を
備えると共に、その判断結果に基づいて音声制御装置の
起動制御を行なう音声起動システムにおいて、 入力音声と音声キーワードとの類似値を計測し、計測さ
れた類似値が所定値以下であれば、前記入力音声が前記
音声キーワードであると判断するように、前記キーワー
ド判断手段が構成され、 さらに、入力された音声と通話先からの音声とを比較
し、同一と判断すれば、前記入力音声を前記キーワード
判断手段に出力しないようにする比較手段を備えている
ことを特徴とする 音声起動システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP03737498A JP3524370B2 (ja) | 1998-02-19 | 1998-02-19 | 音声起動システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP03737498A JP3524370B2 (ja) | 1998-02-19 | 1998-02-19 | 音声起動システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11231896A JPH11231896A (ja) | 1999-08-27 |
JP3524370B2 true JP3524370B2 (ja) | 2004-05-10 |
Family
ID=12495753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP03737498A Expired - Fee Related JP3524370B2 (ja) | 1998-02-19 | 1998-02-19 | 音声起動システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3524370B2 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015052745A (ja) * | 2013-09-09 | 2015-03-19 | Necパーソナルコンピュータ株式会社 | 情報処理装置、制御方法、及びプログラム |
JP2015052743A (ja) * | 2013-09-09 | 2015-03-19 | Necパーソナルコンピュータ株式会社 | 情報処理装置、情報処理装置の制御方法、及びプログラム |
JP2015052744A (ja) * | 2013-09-09 | 2015-03-19 | Necパーソナルコンピュータ株式会社 | 情報処理装置、制御方法、及びプログラム |
JP6233650B2 (ja) | 2014-05-20 | 2017-11-22 | パナソニックIpマネジメント株式会社 | 操作補助装置および操作補助方法 |
US11676608B2 (en) | 2021-04-02 | 2023-06-13 | Google Llc | Speaker verification using co-location information |
US11942095B2 (en) | 2014-07-18 | 2024-03-26 | Google Llc | Speaker verification using co-location information |
US9257120B1 (en) | 2014-07-18 | 2016-02-09 | Google Inc. | Speaker verification using co-location information |
US9318107B1 (en) * | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
US9972320B2 (en) | 2016-08-24 | 2018-05-15 | Google Llc | Hotword detection on multiple devices |
EP3430617B1 (en) | 2016-11-07 | 2019-10-23 | Google LLC | Recorded media hotword trigger suppression |
KR20240008405A (ko) | 2017-04-20 | 2024-01-18 | 구글 엘엘씨 | 장치에 대한 다중 사용자 인증 |
KR101986354B1 (ko) * | 2017-05-19 | 2019-09-30 | 네이버 주식회사 | 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법 |
US10395650B2 (en) | 2017-06-05 | 2019-08-27 | Google Llc | Recorded media hotword trigger suppression |
US10692496B2 (en) | 2018-05-22 | 2020-06-23 | Google Llc | Hotword suppression |
-
1998
- 1998-02-19 JP JP03737498A patent/JP3524370B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH11231896A (ja) | 1999-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7050550B2 (en) | Method for the training or adaptation of a speech recognition device | |
JP3524370B2 (ja) | 音声起動システム | |
US9571617B2 (en) | Controlling mute function on telephone | |
US20050216271A1 (en) | Speech dialogue system for controlling an electronic device | |
JPH0782351B2 (ja) | 音声コマンドによりデジットシーケンスを入力するための方法 | |
US20080249779A1 (en) | Speech dialog system | |
JPH09106296A (ja) | 音声認識装置及び方法 | |
EP1494208A1 (en) | Method for controlling a speech dialog system and speech dialog system | |
KR20080107376A (ko) | 화자 독립 음성 인식을 구비한 통신 장치 | |
JP4520596B2 (ja) | 音声認識方法および音声認識装置 | |
US20070118380A1 (en) | Method and device for controlling a speech dialog system | |
WO2022151657A1 (zh) | 降噪方法、装置、音频设备和计算机可读存储介质 | |
JPH1152976A (ja) | 音声認識装置 | |
JPH11126092A (ja) | 音声認識装置および車両用音声認識装置 | |
JP2016061888A (ja) | 音声認識装置、音声認識対象区間設定方法、及び音声認識区間設定プログラム | |
JP2001154694A (ja) | 音声認識装置及び方法 | |
JP2002091489A (ja) | 音声認識装置 | |
WO2014141574A1 (ja) | 音声制御システム、音声制御方法、音声制御用プログラムおよび耐雑音音声出力用プログラム | |
JP3727927B2 (ja) | 話者照合装置 | |
JPH11109987A (ja) | 音声認識装置 | |
JP2021173881A (ja) | 音声処理装置および音声処理方法 | |
JP4765394B2 (ja) | 音声対話装置 | |
JP2007194833A (ja) | ハンズフリー機能を備えた携帯電話 | |
JP2002297186A (ja) | 音声認識装置 | |
JPH11298382A (ja) | ハンズフリー装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040120 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040212 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080220 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090220 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090220 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100220 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |