JP2001067091A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2001067091A
JP2001067091A JP23881399A JP23881399A JP2001067091A JP 2001067091 A JP2001067091 A JP 2001067091A JP 23881399 A JP23881399 A JP 23881399A JP 23881399 A JP23881399 A JP 23881399A JP 2001067091 A JP2001067091 A JP 2001067091A
Authority
JP
Japan
Prior art keywords
speech
voice
voice recognition
utterance section
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP23881399A
Other languages
English (en)
Inventor
Hiroyuki Matsuki
宏之 松木
Makoto Akaha
誠 赤羽
Yoshikazu Takahashi
良和 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP23881399A priority Critical patent/JP2001067091A/ja
Publication of JP2001067091A publication Critical patent/JP2001067091A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声認識を行う発話区間の特定方法としてキ
ーワード方式、トリガ方式、PTT方式のうち少なくと
も2方式を兼用して利便性を向上する。 【解決手段】 音声認識動作が開始されると、キーワー
ドが発話されたか、トークボタン1が操作されたかを判
定する。ここで、キーワードが発話された場合には、キ
ーワード方式の音声認識処理に分岐し、音声区間検出部
7による発話区間の開始点の推定と、発話区間の終了点
の推定を行う。また、トークボタン1が操作された場合
には、その時点で発話区間の開始点を特定する。そし
て、その操作が瞬間的なものか否かを判断し、瞬間的な
ものであれば、トリガ方式の音声認識処理に分岐し、音
声区間検出部7による発話区間の終了点の推定を行う。
また、トークボタン1の操作が継続的なものであれば、
PTT方式の音声認識処理に分岐し、トークボタン1の
操作解除時点で発話区間の終了点を特定する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力された音声を
認識して文字列情報に変換する音声認識装置に関する。
【0002】
【従来の技術】従来より、マイクロホン等から入力され
た音声を認識して文字列情報に変換し、その認識結果を
表示や音声で出力する音声認識装置においては、まず、
音声の入力に対して音声認識を行うための区間(以下、
発話区間という)を特定し、この発話区間内の音声入力
信号を分析することにより、文字列情報への変換を行う
ようになっている。そして、このような音声入力に対す
る発話区間を特定する方法としては、 (1)キーワード方式 (2)トリガ方式 (3)PTT(Press To Talk)方式 の3つが知られている。
【0003】このうち、(1)のキーワード方式は、予
めユーザが発話区間の推定作業を開始するためのキーワ
ードを設定しておき、このキーワードがマイクロホンか
ら入力されたことを音声認識によって検出することによ
り、発話区間の推定作業を開始するものである。なお、
発話区間の推定作業としては、キーワードに続く音声入
力を監視することにより、例えば、一定の閾値以上のレ
ベルの音声入力が一定時間以上継続することを認識して
発話区間の開始点を推定し、また、一定の閾値以上のレ
ベルの音声入力が一定時間以上中断することを認識して
発話区間の終了点を推定するような処理を行う。
【0004】また、(2)のトリガ方式は、例えばトー
クボタンと呼ばれる操作ボタンをユーザが瞬間的に押下
することによって発話区間の開始点を特定する。そし
て、発話区間の終了点の推定処理を起動するものであ
る。つまり、発話区間の開始点はキー入力によって特定
し、発話区間の終了点は、音声入力の状況から推定処理
によって特定するものである。なお、発話区間の終了点
の推定処理は、キーワード方式の場合と同様に、例えば
一定の閾値以上のレベルの音声入力が一定時間以上中断
することを認識して発話区間の終了点を推定するような
処理である。また、トークボタンの形態としては、操作
パネル等に設けられた押しボタン式のものの他に、表示
画面上にGUIで表示されるアイコンをマウス等のポイ
ンティングデバイスで指示するものがあり、この場合に
は、アイコンを1度クリックすることにより、上述した
発話区間の開始点の特定と、発話区間の終了点の推定処
理の起動とを実行する。
【0005】また、(3)のPTT方式は、上述したト
ークボタンの連続操作期間を発話区間とするものであ
り、例えば押しボタン式のトークボタンである場合に
は、トークボタンの押下開始によって発話区間の開始点
を特定し、トークボタンの押下終了(操作解除)によっ
て発話区間の終了点を特定する。
【0006】
【発明が解決しようとする課題】ところで、従来の音声
認識装置では、上述した発話区間を特定する方法に、キ
ーワード方式、トリガ方式、PTT方式のいずれか1つ
を採用しており、ユーザにとっては、操作しようとして
いる機器が、どの方式を採用しているものか判断がつき
にくく、異なった方式で操作させたために認識機能が正
常に動作しない場合があり、使い勝手が悪いという問題
があった。
【0007】また、上述のような3つの方式は、発話区
間を特定する上での精度と操作性において、それぞれ長
所と短所を含むものである。すなわち、(1)のキーワ
ード方式は、キーワードの認識後に発話区間の推定処理
を行うものであるため、発話区間を特定する精度はあま
り高くないが、ボタン等の操作を行う必要がないので操
作は簡単である。一方、(3)のPTT方式は、トーク
ボタンからの入力で発話区間の開始点と終了点の両方を
特定でき、発話区間を特定する精度は最も高いものとな
るが、発話区間中はトークボタンの操作し続けなければ
ならず、操作は煩雑となる。また、(2)のトリガ方式
は、キーワード方式とPTT方式との中間的な性格を有
している。すなわち、トリガ方式では、発話区間の開始
点については正確に特定できる一方、発話区間の終了点
は推定処理を行うため、発話区間を特定する精度は、キ
ーワード方式とPTT方式との中間となる。また、発話
区間の開始点についてはトークボタンの操作が必要とな
るが、その後はトークボタンの操作が不要となり、操作
性についてもキーワード方式とPTT方式との中間とな
る。
【0008】したがって、このような各方式の性格か
ら、例えば認識対象となる文章の難易度(認識率)等に
より、最適な方式が異なってくることになる。例えば、
認識率の低い認識対象については、できるだけ発話区間
を明確に特定して認識率を上げるべく、PTT方式を用
いることが好ましい。一方、認識率の高い認識対象につ
いては、キーワード方式やトリガ方式を採用して、でき
るだけハンズフリー等の手軽な音声認識作業を行うこと
が好ましい。しかしながら、従来の音声認識装置では、
これらのキーワード方式、トリガ方式、PTT方式のい
ずれか1つしか用いていないため、それぞれ異なる特性
の方式をユーザの希望や認識対象の難易度等によって選
択することができないという問題があった。
【0009】そこで本発明の目的は、音声認識を行うた
めの発話区間を特定する方法としてキーワード方式、ト
リガ方式、PTT方式をユーザが戸惑うケースを少なく
することができ、かつ、これらの方式をユーザの希望や
認識対象の難易度等によって選択することが可能な音声
認識装置を提供することにある。
【0010】
【課題を解決するための手段】本発明は前記目的を達成
するため、音声入力手段によって入力された音声を認識
して文字列情報に変換する音声認識装置において、前記
音声入力手段によって入力された音声を認識する音声認
識手段と、ユーザが発話区間を特定するための入力操作
を行うための操作手段と、前記音声入力手段から入力さ
れる音声に対して音声認識を行うための発話区間を特定
することにより、この発話区間における入力音声を前記
音声認識手段によって音声認識し、その音声認識結果を
出力する音声認識制御手段とを有し、前記音声認識制御
手段は、前記音声入力手段によって入力されたキーワー
ドを前記音声認識手段によって認識することにより、そ
のキーワード入力に続く発話区間の開始点と終了点の推
定処理を行うキーワード方式と、前記操作手段の瞬間的
操作によって発話区間の開始点を特定するとともに、そ
の発話区間の終了点の推定処理を行うトリガ方式と、前
記操作手段の連続的操作及び操作解除によって発話区間
の開始点と終了点とを特定するPTT方式の3方式のう
ち少なくとも2方式を組み合わせることにより、発話区
間を特定するようにしたものである。
【0011】本発明の音声認識装置において、音声認識
制御手段は、音声入力手段から入力される音声に対して
音声認識を行うための発話区間を特定することにより、
この発話区間における入力音声を音声認識手段によって
音声認識し、その音声認識結果を出力する処理を制御す
る。そして、この音声認識制御手段において発話区間を
特定する方法としては、キーワード方式、トリガ方式、
及びPTT方式の3つの方式のうち少なくとも2方式を
組み合わせた方法を採用する。すなわち、キーワード方
式は、音声入力手段によって入力されたキーワードを音
声認識手段によって認識することにより、そのキーワー
ド入力に続く発話区間の開始点と終了点の推定処理を行
う方式であり、トリガ方式は、操作手段の瞬間的操作に
よって発話区間の開始点を特定するとともに、その発話
区間の終了点の推定処理を行う方式である。また、PT
T方式は、操作手段の連続的操作及び操作解除によって
発話区間の開始点と終了点とを特定する方式である。
【0012】そして、音声認識制御手段では、音声認識
作業が開始されると、音声認識手段によるキーワードの
検出と操作手段による操作とを監視し、音声認識手段に
よるキーワードの検出があった場合には、キーワード方
式による音声認識制御モードに移行し、操作手段による
操作があった場合には、その操作が瞬間的操作か連続的
操作かを判断し、瞬間的操作であれば、トリガ方式によ
る音声認識制御モードに移行し、連続的操作であれば、
PTT方式による音声認識制御モードに移行する。した
がって、本発明の音声認識装置では、音声認識を行うた
めの発話区間を特定する方法としてキーワード方式、ト
リガ方式、PTT方式をユーザが戸惑うケースを少なく
することができ、かつ、これらの方式をユーザの希望や
認識対象の難易度等によって選択することが可能とな
る。
【0013】
【発明の実施の形態】以下、本発明による音声認識装置
の実施の形態について説明する。図1は、本発明の実施
の形態による音声認識装置の構成例を示すブロック図で
あり、図2は、図1に示す音声認識装置における音声認
識作業の動作例を示すフローチャートである。本形態の
音声認識装置は、音声の入力に対して音声認識を行うた
めの区間(以下、発話区間という)を特定し、この発話
区間内の音声入力信号を分析することにより、文字列情
報への変換を行うようにしたものであり、音声認識を行
うための発話区間を特定する方法としてキーワード方
式、トリガ方式、PTT方式の3つの方式をユーザが無
意識あるいは意識的に用いることができるようにしたも
のである。
【0014】なお、キーワード方式は、予めユーザが発
話区間の推定作業を開始するためのキーワードを設定し
ておき、このキーワードがマイクロホン2から入力され
たことを音声認識によって検出することにより、発話区
間の推定作業を開始するものである。また、トリガ方式
は、押しボタン式のトークボタンやマウス等のポインテ
ィングデバイスを用いてユーザが瞬間的な入力を行うこ
とにより、発話区間の開始点を特定し、その後、発話区
間の終了点の推定処理を起動するものである。さらに、
PTT方式は、上述したトークボタンやポインティング
デバイスによる連続操作期間を発話区間とするものであ
る。
【0015】図1に示すように、本形態の音声認識装置
は、トークボタン/ポインティングデバイス1、マイク
ロホン2、アナログ回路3、A/D変換器4、演算器
5、単語辞書9、モニタ11、及びスピーカ12を有す
るものである。また、演算器5には、音響分析部6、音
声区間検出部7、音声認識部8、キーワード探索部1
0、及び音声認識制御部13の各機能が設けられてい
る。以下、本形態の音声認識装置の構成について順次説
明する。なお、以下の説明は、本発明に係る音声認識装
置を構成するための機能を中心に説明するが、本例の音
声認識装置は、音声認識以外の機能を有する例えば汎用
のパーソナルコンピュータ等によって構成されるもので
あり、以下に説明するような音声認識以外の機能を実現
するための各種の機能を合わせもつものであり、音声認
識用の専用装置には限定されないものとする。
【0016】トークボタン/ポインティングデバイス1
は、本例においては、ユーザが発話区間を特定するため
の入力操作を行うための操作手段であり、トリガ方式ま
たはPTT方式を用いる場合に操作するものである。押
しボタン式のトークボタンは、短く押せば、トリガ方式
による発話区間の開始点を特定する操作となり、長く押
し続ければ、PTT方式による発話区間の開始点と終了
点を特定する操作となる。また、マウス等のポインティ
ングデバイスは、モニタ11の表示画面にGUIによっ
て表示された発話区間を特定するためのアイコンを指示
するものであり、このアイコン等の選択肢を1度クリッ
クすれば、トリガ方式による発話区間の開始点を特定す
る操作となり、長く指示し続ければ、PTT方式による
発話区間の開始点と終了点を特定する操作となる。
【0017】なお、押しボタン式のトークボタンは、発
話区間を特定するための専用ボタンとして設けることも
可能であるが、他の機能を選択するためのボタンと兼用
するような構成とすることも可能である。また、マウス
等のポインティングデバイスは、発話区間を特定するた
めのアイコンに限らず、他のGUIによるアイコンを指
定するのに用いるものであることは言うまでもない。そ
して、このようなトークボタン/ポインティングデバイ
ス1からの操作信号は、演算器5に入力される。
【0018】マイクロホン2は、音声入力手段であり、
このマイクロホン2から入力された音声は、アナログ回
路3によってゲインや特性を調整された後、A/D変換
器4でデジタル信号に変換され、演算器5に入力され
る。単語辞書9は、音声認識の際に用いる単語情報を得
るための辞書であり、半導体メモリやディスク等の各種
記憶器によって構成されている。モニタ11は、音声認
識後の結果である文字列情報を表示したり、音声入力等
の際の各種ガイダンス表示を行うものである。スピーカ
12は、音声認識後の結果である文字列情報を音声出力
したり、音声入力等の際の各種ガイダンスメッセージの
音声出力を行うものである。
【0019】また、演算器5は、例えばMPU、CP
U、DSP等によって構成され、本例における音声認識
を実現するための以下のような各種演算処理機能を実行
するものである。音響分析部6は、マイクロホン2から
入力された音声の特徴抽出処理を行うものである。この
特徴抽出処理の方法には、帯域フィルタ群による方法、
FFT(高速フーリエ変換)による方法、相関関数によ
る方法、LPC(線形予測分析)による方法が一般的で
ある。ここでは、FFTによる方法を採用し、さらに周
波数軸をメルスケールに変換したスペクトルのケプスト
ラムを用いて短時間スペクトルを求めている。
【0020】音声区間検出部7は、発話区間の開始点と
終了点の推定を行うものである。これは、例えば一定の
閾値以上のレベルの音声入力(短時間パワー)が一定時
間以上継続することを認識して発話区間の開始点を推定
し、一定の閾値以上のレベルの音声入力(短時間パワ
ー)が一定時間以上中断することを認識して発話区間の
終了点を推定する。なお、本例では、このような音声入
力パワーによる推定に加えて、音響分析部6における特
徴抽出の過程で算出されたパラメータを用いて推定する
ことによって、より正確な推定を行えるような構成とな
っている。
【0021】また、本形態の音声区間検出部7では、ト
ークボタン/ポインティングデバイス1からのオン/オ
フ情報を用いて、発話区間の開始点と終了点を特定する
ようになっている。具体的には後述するが、発話区間の
開始点を推定する前に、トークボタン/ポインティング
デバイス1からオン情報が入力された場合には、その時
点を発話区間の開始点として特定し、開始点の推定を終
了する。また、トークボタン/ポインティングデバイス
1からのオン情報が連続的に入力された場合には、発話
区間の終了点の推定動作は行わず、トークボタン/ポイ
ンティングデバイス1からオフ情報が入力された時点を
発話区間の終了点として特定する。
【0022】音声認識部8は、音響分析部6からの入力
データに基づいて、単語辞書9を用いた入力音声の単語
認識を行う。この方法としては、DP(動的計画法)マ
ッチングを用いる方法やHMM(隠れマルコフモデル)
を用いる方法が一般的である。ここではHMMによる方
法で、音響分析部6で抽出された観測系列と予め学習し
てあるモデル構造から、最大確率となるシンボル系列を
求め、認識結果としている。このように求められた認識
結果は、上述のようにモニタ11による画面表示やスピ
ーカ12からの音声出力によってフィードバックされ、
ユーザによる確認作業のために提供される。キーワード
探索部10は、キーワードの発話の有無を判断するもの
である。ここでは、音声認識部8の認識結果を使い、予
め定めたキーワードだけを自動的に抽出し、他の不要音
は無視する方法を用いている。音声認識制御部13は、
以上のような演算器5における各部の機能を制御し、図
2に示すような音声認識手順を司るものである。
【0023】次に、図2に基づいて、キーワード方式、
トリガ方式、PTT方式の3つの方式を兼用した発話確
定処理を含む音声認識動作について説明する。まず、音
声認識装置の起動等により、音声認識動作が開始される
と(ステップ101)、演算器5において直ちにキーワ
ード探索プログラムが実行され(ステップS102)、
キーワードが発話されたかどうか(ステップS10
3)、及びトークボタン/ポインティングデバイス1が
操作されたかどうか(ステップS104)を判定するル
ープに入る。
【0024】ここで、キーワードが発話された場合に
は、キーワード方式の音声認識処理に分岐し、上述した
音声区間検出部7による発話区間の開始点の推定(ステ
ップS105、S106)と、発話区間の終了点の推定
(ステップS107、108)を行う。そして、それぞ
れ推定された発話区間の開始点と終了点により、発話区
間を特定し(ステップS113)、音声認識結果の算出
処理に移行する(ステップS114)。
【0025】また、トークボタン/ポインティングデバ
イス1が操作された場合には、その時点で発話区間の開
始点を特定する(ステップS109)。そして、その操
作が瞬間的なもの(クリック)か否かを判断し(ステッ
プS110)、瞬間的なものであれば、トリガ方式の音
声認識処理に分岐し、上述した音声区間検出部7による
発話区間の終了点の推定(ステップS107、108)
を行う。そして、特定された発話区間の開始点と推定さ
れた発話区間の終了点により、発話区間を特定し(ステ
ップS113)、音声認識結果の算出処理に移行する
(ステップS114)。
【0026】また、トークボタン/ポインティングデバ
イス1の操作が継続的なものであれば、PTT方式の音
声認識処理に分岐し、トークボタン/ポインティングデ
バイス1の操作解除時点で発話区間の終了点を特定する
(ステップS112)。そして、それぞれ特定された発
話区間の開始点と終了点により、発話区間を特定し(ス
テップS113)、音声認識結果の算出処理に移行する
(ステップS114)。
【0027】以上のようにして、キーワード方式、トリ
ガ方式、PTT方式の3つの方式を組み合わせた発話確
定処理を行うことができる。したがって、ユーザが好む
方式、あるいはユーザが慣れ親しんだ方式で、発話区間
を確定させ、音声認識装置を稼働させることができ、従
来のように、システムに搭載してある方式と異なった方
式を用いたために、音声認識装置が正常に動作しないと
いうような事態を回避することができる。
【0028】また、3つの方式の特徴を知っているユー
ザにとっては、例えば認識率の悪い状態では、PTT方
式を使用して認識率を高め、難易度の低いタスク(認識
対象)では、キーワード方式を使用して簡易なユーザイ
ンタフェースを得るといった使い分けを行うことも可能
となり、また、その中間的な性格のトリガ方式を採用し
た処理も可能であり、便利な音声認識装置を提供するこ
とが可能となる。
【0029】また、本発明の応用例として、3つの方式
のどれが採用されたかにより、システムの応答を変化さ
せることも可能である。例えば、システム応答として音
声認識作業に関するガイダンス表示や音声メッセージを
出力する場合に、キーワード方式やトリガ方式の場合に
は、詳しいガイダンスを出力し、PTT方式の場合に
は、例えばビープ音だけを出力するような切り換えを行
うようにしてもよい。また、以上の例では、キーワード
方式、トリガ方式、PTT方式の3方式を組み合わせた
場合について説明したが、本発明は、これらの3方式の
うちの2方式だけを組み合わせるものであってもよい。
例えば、キーワード方式とトリガ方式、あるいはキーワ
ード方式とPTT方式、あるいはトリガ方式とPTT方
式を組み合わせることにより、3方式を組み合わせた場
合ほどではないものの、十分な効果を得ることができる
ものである。
【0030】
【発明の効果】以上説明したように本発明の音声認識装
置では、音声入力手段によって入力されたキーワードを
音声認識手段によって認識することにより、そのキーワ
ード入力に続く発話区間の開始点と終了点の推定処理を
行うキーワード方式と、操作手段の瞬間的操作によって
発話区間の開始点を特定するとともに、その発話区間の
終了点の推定処理を行うトリガ方式と、操作手段の連続
的操作及び操作解除によって発話区間の開始点と終了点
とを特定するPTT方式の3方式のうち少なくとも2方
式を組み合わせることにより、発話区間を特定するよう
にした。したがって、音声認識を行うための発話区間を
特定する方法としてキーワード方式、トリガ方式、PT
T方式をユーザが戸惑うケースを少なくすることがで
き、かつ、これらの方式をユーザの希望や認識対象の難
易度等によって選択することが可能となり、便利な音声
認識装置を提供できる効果がある。
【図面の簡単な説明】
【図1】本発明の実施の形態による音声認識装置の構成
例を示すブロック図である。
【図2】図1に示す音声認識装置における音声認識作業
の動作例を示すフローチャートである。
【符号の説明】
1……トークボタン/ポインティングデバイス、2……
マイクロホン、3……アナログ回路、4……A/D変換
器、5……演算器、6……音響分析部、7……音声区間
検出部、8……音声認識部、9……単語辞書、10……
キーワード探索部、11……モニタ、12……スピー
カ、13……音声認識制御部。

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 音声入力手段によって入力された音声を
    認識して文字列情報に変換する音声認識装置において、 前記音声入力手段によって入力された音声を認識する音
    声認識手段と、 ユーザが発話区間を特定するための入力操作を行うため
    の操作手段と、 前記音声入力手段から入力される音声に対して音声認識
    を行うための発話区間を特定することにより、この発話
    区間における入力音声を前記音声認識手段によって音声
    認識し、その音声認識結果を出力する音声認識制御手段
    とを有し、 前記音声認識制御手段は、 前記音声入力手段によって入力されたキーワードを前記
    音声認識手段によって認識することにより、そのキーワ
    ード入力に続く発話区間の開始点と終了点の推定処理を
    行うキーワード方式と、 前記操作手段の瞬間的操作によって発話区間の開始点を
    特定するとともに、その発話区間の終了点の推定処理を
    行うトリガ方式と、 前記操作手段の連続的操作及び操作解除によって発話区
    間の開始点と終了点とを特定するPTT方式の3方式の
    うち少なくとも2方式を組み合わせることにより、発話
    区間を特定するようにした、 ことを特徴とする音声認識装置。
  2. 【請求項2】 前記発話区間の開始点を推定する処理
    は、一定の閾値以上のレベルの音声入力が一定時間以上
    継続することを認識して発話区間の開始点を推定する処
    理であることを特徴とする請求項1記載の音声認識装
    置。
  3. 【請求項3】 前記発話区間の終了点を推定する処理
    は、一定の閾値以上のレベルの音声入力が一定時間以上
    中断することを認識して発話区間の終了点を推定する処
    理であることを特徴とする請求項1記載の音声認識装
    置。
  4. 【請求項4】 前記操作手段は、押しボタンスイッチで
    あることを特徴とする請求項1記載の音声認識装置。
  5. 【請求項5】 前記操作手段は、表示画面上に表示され
    る選択用のアイコンと、前記アイコンを指示するポイン
    ティングデバイスとから構成されることを特徴とする請
    求項1記載の音声認識装置。
  6. 【請求項6】 前記音声認識制御手段は、音声認識作業
    が開始されると、前記音声認識手段によるキーワードの
    検出と前記操作手段による操作とを監視し、前記音声認
    識手段によるキーワードの検出があった場合には、前記
    キーワード方式による音声認識制御モードに移行し、前
    記操作手段による操作があった場合には、その操作が瞬
    間的操作か連続的操作かを判断し、瞬間的操作であれ
    ば、前記トリガ方式による音声認識制御モードに移行
    し、連続的操作であれば、前記PTT方式による音声認
    識制御モードに移行することを特徴とする請求項1記載
    の音声認識装置。
  7. 【請求項7】 前記音声認識作業時に、ユーザに対して
    作業のガイダンスを行うガイダンス手段を有し、前記キ
    ーワード方式、トリガ方式、及びPTT方式の選択結果
    に応じて異なるガイダンスを行うようにしたことを特徴
    とする請求項6記載の音声認識装置。
  8. 【請求項8】 前記音声認識制御手段は、前記音声認識
    結果を表示画面による表示出力及びスピーカによる音声
    出力の少なくとも一方によって出力することを特徴とす
    る請求項1記載の音声認識装置。
JP23881399A 1999-08-25 1999-08-25 音声認識装置 Pending JP2001067091A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP23881399A JP2001067091A (ja) 1999-08-25 1999-08-25 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP23881399A JP2001067091A (ja) 1999-08-25 1999-08-25 音声認識装置

Publications (1)

Publication Number Publication Date
JP2001067091A true JP2001067091A (ja) 2001-03-16

Family

ID=17035678

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23881399A Pending JP2001067091A (ja) 1999-08-25 1999-08-25 音声認識装置

Country Status (1)

Country Link
JP (1) JP2001067091A (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002304192A (ja) * 2001-04-05 2002-10-18 Denso Corp 音声認識装置
JP2003067300A (ja) * 2001-08-29 2003-03-07 Nec Corp 音声認識処理による電子メール作成方法
JP2004302196A (ja) * 2003-03-31 2004-10-28 Nec Corp 音声認識装置、音声認識方法及び音声認識プログラム
JP2006215499A (ja) * 2005-02-07 2006-08-17 Toshiba Tec Corp 音声処理装置
JP2008170806A (ja) * 2007-01-12 2008-07-24 Yamaha Corp 発音期間を特定する音信号処理装置およびプログラム
JP2009175179A (ja) * 2008-01-21 2009-08-06 Denso Corp 音声認識装置、プログラム、及び発話信号抽出方法
JP2011248140A (ja) * 2010-05-27 2011-12-08 Fujitsu Toshiba Mobile Communications Ltd 音声認識装置
JP2012133243A (ja) * 2010-12-22 2012-07-12 Toshiba Corp 音声認識装置、音声認識方法および音声認識装置を搭載したテレビ受像機
CN104538030A (zh) * 2014-12-11 2015-04-22 科大讯飞股份有限公司 一种可以通过语音控制家电的控制系统与方法
US20170092298A1 (en) * 2015-09-28 2017-03-30 Honda Motor Co., Ltd. Speech-processing apparatus and speech-processing method
CN112735469A (zh) * 2020-10-28 2021-04-30 西安电子科技大学 低内存语音关键词检测方法、系统、介质、设备及终端
WO2022139124A1 (ko) * 2020-12-21 2022-06-30 삼성전자주식회사 전자 장치 및 그의 제어 방법
US11804241B2 (en) 2020-12-21 2023-10-31 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4724943B2 (ja) * 2001-04-05 2011-07-13 株式会社デンソー 音声認識装置
JP2002304192A (ja) * 2001-04-05 2002-10-18 Denso Corp 音声認識装置
JP2003067300A (ja) * 2001-08-29 2003-03-07 Nec Corp 音声認識処理による電子メール作成方法
JP2004302196A (ja) * 2003-03-31 2004-10-28 Nec Corp 音声認識装置、音声認識方法及び音声認識プログラム
JP2006215499A (ja) * 2005-02-07 2006-08-17 Toshiba Tec Corp 音声処理装置
JP2008170806A (ja) * 2007-01-12 2008-07-24 Yamaha Corp 発音期間を特定する音信号処理装置およびプログラム
JP2009175179A (ja) * 2008-01-21 2009-08-06 Denso Corp 音声認識装置、プログラム、及び発話信号抽出方法
JP2011248140A (ja) * 2010-05-27 2011-12-08 Fujitsu Toshiba Mobile Communications Ltd 音声認識装置
JP2012133243A (ja) * 2010-12-22 2012-07-12 Toshiba Corp 音声認識装置、音声認識方法および音声認識装置を搭載したテレビ受像機
CN104538030A (zh) * 2014-12-11 2015-04-22 科大讯飞股份有限公司 一种可以通过语音控制家电的控制系统与方法
US20170092298A1 (en) * 2015-09-28 2017-03-30 Honda Motor Co., Ltd. Speech-processing apparatus and speech-processing method
US10002623B2 (en) * 2015-09-28 2018-06-19 Honda Motor Co., Ltd. Speech-processing apparatus and speech-processing method
CN112735469A (zh) * 2020-10-28 2021-04-30 西安电子科技大学 低内存语音关键词检测方法、系统、介质、设备及终端
WO2022139124A1 (ko) * 2020-12-21 2022-06-30 삼성전자주식회사 전자 장치 및 그의 제어 방법
US11804241B2 (en) 2020-12-21 2023-10-31 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Similar Documents

Publication Publication Date Title
US11875820B1 (en) Context driven device arbitration
JP3674990B2 (ja) 音声認識対話装置および音声認識対話処理方法
JP7000268B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US11138977B1 (en) Determining device groups
EP3353677B1 (en) Device selection for providing a response
CN108346425B (zh) 一种语音活动检测的方法和装置、语音识别的方法和装置
TWI235358B (en) Interactive speech method and system thereof
KR20170032096A (ko) 전자장치, 전자장치의 구동방법, 음성인식장치, 음성인식장치의 구동 방법 및 컴퓨터 판독가능 기록매체
JPH096390A (ja) 音声認識対話処理方法および音声認識対話装置
JP2001067091A (ja) 音声認識装置
CN105448293B (zh) 语音监听及处理方法和设备
JP2006194959A (ja) 音声検出装置、自動撮像装置、および音声検出方法
CN108962241B (zh) 位置提示方法、装置、存储介质及电子设备
US10878812B1 (en) Determining devices to respond to user requests
CN111210829A (zh) 语音识别方法、装置、系统、设备和计算机可读存储介质
EP1110207B1 (en) A method and a system for voice dialling
US7177806B2 (en) Sound signal recognition system and sound signal recognition method, and dialog control system and dialog control method using sound signal recognition system
JP2004341033A (ja) 音声媒介起動装置およびその方法
CN111613223B (zh) 语音识别方法、系统、移动终端及存储介质
KR20190062369A (ko) 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법
CN110839169B (zh) 一种智能设备遥控装置及基于其的控制方法
JP2002108390A (ja) 音声認識装置及びコンピュータ読み取り可能な記録媒体
CN113314115A (zh) 终端设备的语音处理方法、终端设备及可读存储介质
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
CN113096651A (zh) 语音信号处理方法、装置、可读存储介质及电子设备