JPH0830290A - 音声入力可能な情報処理装置およびそれにおける誤処理検出方法 - Google Patents

音声入力可能な情報処理装置およびそれにおける誤処理検出方法

Info

Publication number
JPH0830290A
JPH0830290A JP6165457A JP16545794A JPH0830290A JP H0830290 A JPH0830290 A JP H0830290A JP 6165457 A JP6165457 A JP 6165457A JP 16545794 A JP16545794 A JP 16545794A JP H0830290 A JPH0830290 A JP H0830290A
Authority
JP
Japan
Prior art keywords
unit
threshold value
restoration
processing
erroneous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6165457A
Other languages
English (en)
Inventor
Hideaki Kikuchi
英明 菊池
Haru Andou
ハル 安藤
Nobuo Hataoka
信夫 畑岡
Yasumasa Matsuda
泰昌 松田
Shigeto Osuji
成人 大條
Tsukasa Hasegawa
司 長谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP6165457A priority Critical patent/JPH0830290A/ja
Publication of JPH0830290A publication Critical patent/JPH0830290A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】本発明は、音声認識機能を用いたインターフェ
ースに関し、誤認識時のユーザの操作負担を軽減するこ
とを可能にする。 【構成】誤処理対応判断部203に、しきい値1>しき
い値2となるピッチ周波数(またはパワー)の値を設定
しておく。誤処理対応判断部203で、「あっ」や「え
っ」などの特異的な発声のピッチ周波数(またはパワ
ー)の最高値を検出し、しきい値1およびしきい値2と
比較する。しきい値1より大きい場合には直前に行った
処理が誤処理である可能性が高いとして復元処理を行
い、しきい値1より小さくてしきい値2より大きい場合
には復元処理を行うか否かをユーザに問い合わせ、しき
い値2より小さい場合には直前に行った処理が誤処理で
ある可能性が低いとしてそのまま処理を続行する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、パソコン、ワークステ
ーション、ワープロ等の情報処理装置に搭載される音声
認識を利用したアプリケーションや音声応用システム等
の音声認識を利用したユーザインターフェースに関し、
特に、音声認識時に誤認識をした場合のエラー処理に関
する。
【0002】
【従来の技術】従来、情報処理装置に、音声認識を利用
したユーザインターフェースを搭載したシステムが知ら
れている。通常は、キーボードやマウス等の入力装置
と、音声入力用のユーザインタフェースとを併用して利
用している。この音声入力用のユーザインタフェースで
は、コマンドを音声により入力し、入力された音声を認
識し、認識した音声に対応するコマンドの処理を行って
いる。音声認識は、現状では認識率が100%ではない
ため誤認識することがあり、誤認識した場合には、誤認
識した音声に対応するコマンドの処理を行うので、ユー
ザの意図とは異なった処理を行う。システムが誤認識に
より誤った処理を行った場合、ユーザは、処理の結果や
途中経過から誤認識が生じたことに気付く。
【0003】従来、誤認識した場合の対処方法として、
誤った処理が行われた後や誤った処理が行われている途
中に、誤った処理が行われる前の状態へ復帰できるアン
ドゥ機能をシステムが備えている。この場合、システム
側では誤認識したことを検出できないので、ユーザがア
ンドゥの指示をすることにより前の状態へ復帰させ、復
帰後に再度、音声入力もしくはキーボードからのキー入
力を行うことにより、ユーザが意図した処理を行わせて
いる。
【0004】また、他の対処方法として、認識結果に対
して、処理が行われる前に認識結果の正誤をその都度尋
ねる確認機能を備えているものがある。この場合、誤認
識か否かにかかわらず、認識結果を表示してユーザから
の正誤の確認指示を受けなければならない。
【0005】
【発明が解決しようとする課題】上述した従来の誤認識
した場合の対処方法では、システム側の問題である音声
の誤認識に対してシステム側ではその誤認識を検出する
ことができないため、ユーザが、アンドゥの指示をした
り、または、処理が行われる度に確認指示の操作を要す
る。このことはスムーズな入力を阻むため、インターフ
ェースの効率が低下する要因となる。さらに、ユーザの
心理的負担の増大につながり、音声認識を利用したイン
ターフェースの欠点となりうる。
【0006】そこで、本発明は、音声入力可能な情報処
理装置において、誤認識時のユーザの操作負担を軽減す
ることを目的とする。
【0007】
【課題を解決するための手段】上記の問題を解決するた
めに、本発明は、音声情報を検知する音声情報検知手段
と、前記音声情報検知手段で検知した音声情報を音声認
識する音声認識手段と、前記音声認識手段で認識した音
声に対応する処理を実行する実行手段と、前記実行手段
における処理の実行時に当該実行の直前の状態を記憶す
る記憶手段と、前記記憶手段に記憶する実行直前の状態
を読みだして直前の状態に復元する復元処理を行う復元
手段とを有する音声入力可能な情報処理装置において、
前記音声認識手段による音声情報の誤認識に対応する前
記実行手段による誤処理を、前記音声情報検知手段によ
り検知された、ユーザの音声情報のピッチ周波数もしく
はパワーに基づいて検出する誤処理検出部と、前記誤処
理検出部により前記誤処理を検出したときに、前記復元
手段により前記復元処理を行わせる誤処理対応判断部と
を有する。
【0008】また、音声情報を音声認識し、認識した音
声に対応する処理を実行する情報処理装置における誤処
理の検出方法としては、音声情報を検知し、検知された
音声情報のピッチ周波数を抽出し、前記抽出されたピッ
チ周波数の最高値もしくは平均値があらかじめ定めたし
きい値より大きいか否かを判定し、前記抽出されたピッ
チ周波数の最高値もしくは平均値があらかじめ定めたし
きい値より大きいと判定されたときに、当該判定におけ
る音声情報の検知の直前の処理の実行が誤処理であった
と検出する。
【0009】さらに、他の誤処理の検出方法としては、
音声情報を検知し、検知された音声情報のパワーを抽出
し、前記抽出されたパワーの最高値もしくは平均値があ
らかじめ定めたしきい値より大きいか否かを判定し、前
記抽出されたパワーの最高値もしくは平均値があらかじ
め定めたしきい値より大きいと判定されたときに、当該
判定における音声情報の検知の直前の処理の実行が誤処
理であったと検出する。
【0010】
【作用】音声情報検知手段は、音声情報を検知し、音声
認識手段は、前記音声情報検知手段で検知した音声情報
を音声認識する。実行手段は、音声認識手段で認識した
音声に対応する処理を実行する。記憶手段では、前記実
行手段における処理の実行時に当該実行の直前の状態を
記憶しておく。
【0011】音声情報を誤認識した場合、実行手段によ
る実行中もしくは実行後に、ユーザは「あっ」や「え
っ」などの特異的な発声を行うと考えられるので、本発
明においては、誤処理検出手段において、これらの特異
的な発声をユーザの音声情報のピッチ周波数もしくはパ
ワーに基づいて検出する。すなわち、誤処理検出手段で
は、音声認識手段による音声情報の誤認識に対応する前
記実行手段による誤処理を、前記音声情報検知手段によ
り検知された、ユーザの音声情報のピッチ周波数もしく
はパワーに基づいて検出する。
【0012】誤処理対応判断部では、前記誤処理検出部
により前記誤処理を検出したときに、前記復元手段によ
り前記復元処理を行わせる。復元手段では、前記記憶手
段に記憶する実行直前の状態を読みだして復元処理を行
う。
【0013】このように、誤処理を行ったことをユーザ
の特異的な発声から検出して復元処理を行うので、誤認
識時のユーザの操作負担を軽減することができる。
【0014】
【実施例】以下、図面を参照して実施例を詳細に説明す
る。
【0015】図1は、本発明の一実施例を示すシステム
構成図を示している。図1において、マイク100は、
アナログ信号の音声情報を検知して入力する。A/D変換
装置101は、マイク100より入力されたアナログ信
号をディジタル信号に変換する装置である。入力装置1
02は、キーボード、電子ペン、マウスなどの音声入力
以外の方法によって文字やコマンド等を入力する装置で
ある。情報処理装置103は、例えば、文書作成装置な
どであり、入力された音声情報を検出し、音声認識を行
い、認識した音声に対応するコマンドやキー入力に従っ
て、処理を実行する。また、情報処理装置103は、文
書作成装置に限らず、データベース検索、図形編集など
の一般への応用が可能である。情報処理装置103で処
理された情報は、画面制御装置104を介してディスプ
レイ等の表示装置105に表示される。
【0016】情報処理装置103における機能を図2を
参照して説明する。図2は、本発明の一実施例を示すブ
ロック図を示している。図2において、音声入力部20
0は、音声を入力するのに用いられる、図1に示すマイ
ク100などである。図1に示す情報処理装置103
は、図2に示す音声情報検知部201、音声認識部20
2、誤処理対応判断部203、処理再開部204、処理
復元部205および直前の処理の状態を記憶する文書バ
ッファ206を備える。音声情報検知部201は、音声
入力部200により入力された情報から、利用者の音声
区間を検出する部である。音声認識部202は、検出さ
れた音声を分析し、相当する単語列およびその他の分析
結果を出力する部である。誤処理対応判断部203は、
音声情報検知部201において検出された音声情報から
ピッチを抽出し、ピッチの高さなどを判定することによ
り誤処理か否かを検出し、処理の復元あるいは再開(も
しくは処理の実行)などの複数の処理を行わせる。一般
に、振動音源である声帯波のもつ情報は、スペクトルの
微細構造として表され、この情報を表現する音源パラメ
ータは、声帯振動の有無(有声/無声)、有声の場合に
は振動の基本周波数(ピッチ周波数)の2つのパラメー
タに集約され、これらの音源パラメータの抽出はピッチ
抽出とよばれている。誤処理対応判断部203について
は後述する。処理再開部204は、誤処理対応判断部2
03の判断に従って、音声認識されたコマンドの処理を
実行するとともに、誤処理を検出していないときには処
理を続行し、また、誤処理を検出したときには処理を中
断する。処理復元部205は、誤処理対応判断部203
の判断に従って、処理を復元するために用いられる。
【0017】利用者は一般に、音声によりコマンドを発
声し、その音声がシステムで誤認識されたことがわかっ
た場合、「あっ」や「えっ」などの特異的な発声を行う
と考えられるので、本実施例においては、誤処理対応判
断部203でこの特異的な発声を検出することにより、
システムで誤認識して誤処理を行ったことを検出する。
【0018】つぎに、図2に示す各ブロックの動作を詳
細に説明する。
【0019】図2において、音声入力部200を用いて
入力された情報のうち、利用者の音声を音声情報検知部
201により検出する。音声情報検知部201では、利
用者の音声として、文書作成に関わるコマンド発声だけ
でなく、「あっ」や「えっ」などの冗長語も同時に検出
する。
【0020】図3に、図2に示す音声認識部202のブ
ロック図を示す。図3において、音声分析部300は、
検出された音声情報を音響的に分析する。パタン照合部
301は、音声分析部300から得られる特徴ベクトル
の時系列パタンと、あらかじめ辞書として持つ標準パタ
ン302とを照合する。標準パタン302には、特定話
者による複数のコマンドのパタンがあらかじめ記憶され
ている。音声情報検知部201により検出された音声情
報は、音声分析部300において、一定時間間隔ごとに
音響的な分析が行われ、時系列パタンが結果として出力
される。つぎに、音声分析部300の結果は、検出され
た音声が、標準パタン302に記憶するコマンドのうち
どのコマンドであるかを判定するために、パタン照合部
301において、標準パタン302に記憶する全てのコ
マンドの標準パタンと照合され、各標準パタンに対する
スコアがそれぞれ算出される。算出されたスコアの最も
高い標準パタンに対応した一つのコマンド候補が認識結
果として、パタン照合部301から出力される。また、
音声認識部202では、音声分析部300において分析
された時系列パタンがパタン照合部301から後段の誤
処理対応判断部203に対して出力される。
【0021】誤処理対応判断部203では、検出した音
声が誤処理時に特有な特異的発声であるかどうかを判定
するために、音声認識部202のパタン照合部301か
ら出力された時系列パタンから音声のピッチ情報を抽出
し、ピッチ周波数の高さを判定する。図4に、誤処理対
応判断部203のブロック図を示す。図4において、ピ
ッチ抽出部400は、図2に示す音声認識部202にお
ける音声情報の分析結果からピッチ情報を抽出する。ピ
ッチ判定部401は、ピッチ抽出部400において抽出
されたピッチパタンに基づいて誤認識したか否かを判定
し、判定結果に応じて処理を復元させるかあるいは処理
を続行させるかの対応を判断する。
【0022】図4において、ピッチ抽出部400では、
図2に示す音声認識部202により分析された音声のパ
ワースペクトルから、ケプストラム法を用いてピッチ情
報を抽出する。ケプストラム分析により、スペクトル包
絡構造と、スペクトル微細構造とが分離されるから、有
声音の場合のスペクトラムはピッチ抽出に相当するケフ
レンシにおいて強いピークを持ち、ピッチ周期が抽出さ
れる。また、他のピッチ抽出方法であるピリオドヒスト
グラムも音声スペクトルに着目したピッチ抽出法であ
る。この方法は、ピッチ周波数の高調波成分のヒストグ
ラムを求め、このヒストグラムに基づいて、高調波周波
数の公約数として基本周波数を求める方法である。
【0023】なお、ケプストラム法については、”小池
恒彦他、音声情報工学、NTT技術移転株式会社、pp42
-43、1987”に詳しく説明されている。また、ピッチ抽
出部400で用いるピッチ抽出方法に関しては、ケプス
トラム法に限らず、同書のpp56に挙げられているよう
に、波形処理、相関処理、スペクトル処理等の各手法の
適用が可能である。
【0024】つぎに、ピッチ判定部401では、ピッチ
抽出部400において抽出されたピッチパタンにおける
ピッチ周波数の最高値または平均値と、あらかじめ設定
されているしきい値との比較を行う。比較の結果から、
ピッチ判定部401において、処理再開部402により
処理再開を行うか、処理復元部403により処理復元を
行うかを判断する。
【0025】ここで、図5を参照して誤処理対応判断部
203における処理フローを説明する。図5において
は、ピッチパタンを判定する要素として、ピッチ周波数
の最高値を用いる場合を例にし、しきい値1としきい値
2とをあらかじめ設定しておく。ここで、しきい値1>
しきい値2であり、しきい値1は、認識した音声が誤処
理時の発声である可能性がより高いピッチパタンを検出
するために設定され、しきい値2は、認識した音声が誤
処理時の発声である可能性が高いとは言えないが、可能
性があると判断するために設定される。本実施例におい
ては、入力された音声のピッチパタンにおけるピッチ周
波数の最高値が、しきい値1より大きい場合には直前に
行った処理が誤処理である可能性が高いとして復元処理
を行い、しきい値1より小さくてしきい値2より大きい
場合には復元処理を行うか否かをユーザに問い合わせ、
しきい値2より小さい場合には直前に行った処理が誤処
理である可能性が低いとしてそのまま処理を続行する。
【0026】図5において、まず、誤処理対応判断部2
03では、利用者の音声について、図4に示すピッチ抽
出部400においてピッチパタンを抽出する(s50
0)。つぎに、図4に示すピッチ判定部401におい
て、抽出されたピッチパタンにおけるピッチ周波数の最
高値を判定する。誤処理時の特異的な発声か否かを判定
するために、認識された音声のピッチ周波数の最高値
と、あらかじめ設定されたしきい値1を越えているか否
かを判定する(s501)。ピッチ周波数の最高値がし
きい値1を越えている場合には、認識した音声が誤処理
時の発声である可能性が高いと判断し、つまり誤認識に
より誤った処理を行ったととらえ、図4に示す処理復元
部403により処理前の状態を復元させる(s50
2)。処理復元部205では、処理前の状態に復帰する
際に、あらかじめ処理前の文書が記憶されている文書バ
ッファ206中の文書を画面に表示することにより復元
を行う。
【0027】一方、s501において、認識された音声
のピッチ周波数の最高値が、あらかじめ設定されたしき
い値1より低い場合には、つぎに、このピッチ周波数の
最高値があらかじめしきい値1より低い値で設定された
しきい値2を越えているか否かを判断する(s50
3)。最高値がしきい値2を越えている場合は、認識し
た音声が誤処理時の発声である可能性が高いとは言えな
いが、誤処理の可能性があると判断し、つまり誤認識に
より誤った処理が行われた恐れがあるととらえ、実行中
の処理を中断するとともに、中断した処理の再開の確認
を促すような確認メッセージを出力する(s504)。
確認メッセージとしては、図7に示すように、「処理を
続けてよいですか。」というようなメッセージを画面上
に表示するようにできる。このメッセージに対して、処
理の再開を要求する回答が利用者から入力された場合
(この入力は、音声による入力でもよいし、キーボード
からのキー入力でもよい)(s505)、図4に示す処
理再開部402により処理を再開する(s506)。ま
た、s505において、一定時間の間に、利用者から処
理の再開を要求する回答が入力されなかった場合には、
処理復元部403において、特異的な発声の直前の発声
(コマンド)に対する処理を行う前の状態に復元する
(s502)。もしくは、確認メッセージとして、「復
元処理を行いますか」というメッセージにより問い合わ
せを行う場合には、利用者から復元処理を要求する回答
が入力されればs502に移行し、一定時間の間に、回
答が入力されなければs506に移行するようにしても
よい。または、確認メッセージとして、「復元処理を
行いますか処理を続行しますか」というメッセージに
より問い合わせを行うようにして、もしくはの入力
を受け付けるようにしてもよい。
【0028】また、s503において、認識された音声
のピッチ周波数の最高値が、しきい値2よりも低い場合
には、認識した音声が誤処理時の発声である可能性が低
いと判断し、つまり誤認識は発生せず誤った処理も行わ
れなかったととらえ、図4に示す処理再開部402によ
り処理を続行する(s506)。
【0029】また、図6を参照し、ピッチ周波数の最高
値としきい値との比較の具体例を説明する。図6におい
て、音声区間1は、文書の移動を指示する音声コマンド
である「移動」という発話にあたり、音声区間2は、誤
処理への反応の特異的な発声である「あっ」という発話
にあたる。ここでは、しきい値1を150[Hz]とし、し
きい値2を140[Hz]としている。まず、音声区間1の
ピッチ最高値は135[Hz]であり、しきい値1の150
[Hz]およびしきい値2の140[Hz]を下回る。このた
め、音声区間1の発話は特異的な発声とは判断されず、
処理が続行され、「移動」コマンドに対応する処理が行
われる。このとき、文書バッファ206には、「移動」
コマンドに対応する処理の前の状態が記憶されている。
また、音声区間2のピッチ最高値は170[Hz]であり、
しきい値1の150[Hz]を上回る。この場合、音声区間
2の発話は特異的な発声と判断され、音声区間1の「移
動」に対する処理が誤処理であると判断されて、「移
動」に対する処理の前の状態が文書バッファ206より
読みだされて復元される。
【0030】なお、本実施例においては、しきい値を2
つ設けているが、しきい値を一つだけにして、そのしき
い値より大きい場合に復元処理をして、それより小さい
場合には復元処理を行わないようにしてもよい。あるい
は、しきい値を一つだけにして、そのしきい値より大き
い場合に復元処理を行うか否かの問い合わせを行い、そ
れより小さい場合にはそのまま処理を続行するようにし
てもよい。この場合にも、しきい値より大きい場合にだ
け確認の問い合わせを行うので、従来のように処理の度
に問い合わせをするということが無くなる。
【0031】また、判断の要素として、ピッチ周波数の
最高値に限らず、ピッチ周波数の平均値の比較でも、上
述したような判定は可能である。
【0032】また、上記実施例においては、入力された
音声のピッチを抽出することにより、特異的な発声を検
出して誤認識したことを検出しているが、ピッチの代わ
りに音声のパワー(音声信号の振幅値)を検出すること
にり、特異的な発声を検出して誤認識したことを検出す
るようにしてもよい。この場合、誤処理対応判断部にお
いて、ピッチ抽出部400とピッチ判定部401との代
わりに、図2に示す音声認識部202における音声情報
の分析結果からパワーを抽出するパワー抽出部と、パワ
ー抽出部において抽出されたパワーの最高値もしくは平
均値に基づいて誤認識したか否かを判定し、判定結果に
応じて処理を復元させるかあるいは中断/再開させるか
の対応を判断するパワー判定部とを設ける。
【0033】上記実施例によれば、システムにおいて誤
認識をしたことを検出して復元処理を行うので、ユーザ
は復元処理のためのアンドゥの指示をする必要が無くな
る。さらに、異なるしきい値を2つ設けておくことによ
り、誤認識をした可能性が高い場合と低い場合とで、復
元処理をすぐに行う場合と、ユーザに復元処理を行うか
否かの問い合わせをする場合とに分けることができる。
【0034】また、実際の画面例を図7を参照して説明
する。図7においては、利用者が前述した文書作成の情
報処理装置を利用しているところを示す。図7におい
て、ディスプレイ700は、文書作成の情報処理装置で
処理された情報を出力する表示出力部であり、図1に示
す表示装置105である。ディスプレイ700は、複数
のウィンドウを表示することができる。ウインドウ70
1は、一つの文書を表示する領域であり、ウインドウ7
02は、装置の現在の状態を示す情報を表示する領域で
あり、ウインドウ703は、利用者への情報入力要求を
促すメッセージを表示する領域である。
【0035】図7において、利用者が「ファイル印刷」
と音声によりコマンド命令したところ、装置が「ファイ
ル検索」と誤認識し、ファイル検索処理を開始している
状況を示す。利用者は、ウインドウ702に表示された
「検索中」という情報から誤った処理が行われたことを
認識し、その時、利用者が反射的に「あっ」と発声す
る。この「あっ」という特異的な発声を情報処理装置は
検出する。例えば、検出した音声のピッチ最高値が、図
5に示すしきい値1より小さくしきい値2より大きい場
合には、実行中の処理を中断し、処理の再開を確認する
メッセージをウインドウ703に出力する。利用者は、
処理の再開を要求する回答を入力しなければ、復元処理
がなされ、音声により入力を行うようにできる。
【0036】つぎに、第2の実施例を図8および図9を
参照して説明する。第2の実施例においては、図5に示
すしきい値1およびしきい値2を、入力された音声と誤
処理後の処理とにより学習する機能を備える。
【0037】図8に示すように、本実施例においては、
しきい値自動学習部800を備える。しきい値自動学習
部800は、設定したしきい値が不適当なために誤処理
対応判断部において誤処理への対応を誤ったことを判断
し、しきい値を修正する。図9に、図8におけるしきい
値自動学習部800のフローチャートを示す。
【0038】図8において、図2に示す誤処理対応判断
部203と同様に、誤処理対応判断部203では、検出
した音声が誤処理時に特有な特異的発声であるかどうか
を判定するために、音声のピッチ情報を抽出し、ピッチ
の高さを判定する機能を持つ。誤処理対応判断部203
で、誤処理時に特有な特異的発声が入力されたと判定す
ると、そのピッチ周波数の最高値の大きさに応じて、直
前に行った処理が誤処理である可能性が低いとして現在
の状態を継続するために処理再開部204を用いるか、
あるいは、直前に行った処理が誤処理である可能性が高
いとして、処理前の状態に復帰するために、処理復元部
205を用いるかを判断する。処理復元部205では、
処理前の状態に復帰する際に、あらかじめ処理前の文書
が記憶されている文書バッファ206中の文書を画面に
表示する。さらに、しきい値自動学習部800では、処
理再開部204によって再開された処理、あるいは、処
理復元部205によって復元された処理の後の利用者の
操作に基づいて、あらかじめ設定されているしきい値を
修正する。
【0039】図9に示すフローチャートを参照してしき
い値自動学習部800の動作を説明する。
【0040】図9において、まず、利用者の音声につい
て、図4に示すピッチ抽出部400においてピッチパタ
ンを抽出する(s900)。つぎに、図4に示すピッチ
判定部401において、抽出されたピッチパタンを判定
する。ここでは、ピッチパタンを判定する要素として、
ピッチ周波数の最高値を用いて説明する。まず、誤処理
時の特異的な発声か否かを判定するために、認識された
音声のピッチ周波数の最高値と、あらかじめ初期値が設
定されたしきい値1を越えているか否かを判断する(s
901)。ピッチ周波数の最高値がしきい値1を越えて
いる場合には、認識した音声が誤処理時の発声である可
能性が高いと判断し、つまり誤認識により誤った処理を
行ったととらえ、図4に示す処理復元部403により処
理前の状態を復元させる(s902)。この後、復元前
に行なわれ中断された処理を利用者が再度指示した場合
(s903)、しきい値自動学習部において、処理の復
元は誤りであったと判断し、しきい値1の値を、s90
1で比較された音声のピッチ周波数の最高値と同じ値
(もしくはこの同じ値からあらかじめ定めた値分低い
値)に修正する(s904)。すなわち、復元処理を行
った後に、再度利用者が中断した処理を実行するように
音声入力している場合には、音声認識が正しく行われて
いた可能性があり、特異的な発声は、誤認識に対するも
のではないのでしきい値1を大きくするようにしてい
る。
【0041】一方、s901において、認識された音声
のピッチ周波数の最高値が、あらかじめ設定されたしき
い値1より低い場合には、つぎに、このピッチ周波数の
最高値があらかじめしきい値1より低い値で設定された
しきい値2を越えているか否かを判断する(s90
5)。最高値がしきい値2を越えている場合は、認識し
た音声が誤処理時の発声である可能性が高いとは言えな
いが、可能性があると判断し、つまり誤認識により誤っ
た処理が行われた恐れがあるととらえ、実行中の処理を
中断するとともに、中断した処理の再開の確認を促す確
認メッセージを出力する(s906)。このメッセージ
に対して、処理の再開を要求する回答が利用者から入力
された場合(s907)、図4に示す処理再開部402
により処理を再開する(s908)。処理を再開した
後、利用者の処理再開要求に対して、しきい値自動学習
部においては、処理の再開により、認識メッセージを出
力したことは正しかったと判断し、しきい値2の値を、
比較されたピッチ周波数の最高値と同じ値に修正する
(s909)。
【0042】また、s907において、利用者から処理
の再開を要求する回答が入力されなかった場合には、処
理前の状態を復元する(s910)。処理を復元した
後、利用者の処理復元要求に対して、しきい値自動学習
部800では、処理の再開の確認は不要であったと判断
し、しきい値1の値をピッチ最高値と同じ値に修正する
(s911)。
【0043】また、s905において、認識された音声
のピッチ周波数の最高値が、しきい値2よりも低い場合
には、認識した音声が誤処理時の発声である可能性が低
いと判断し、つまり誤認識は発生せず、誤った処理も行
われなかったととらえ、図4の処理再開部402により
処理を続行する(s912)。この後、再開した処理を
利用者が中断させた場合(s913)、しきい値自動学
習部において、処理の再開は誤りであったと判断し、し
きい値2の値を比較されたピッチ周波数の最高値と同じ
値に修正する(s914)。
【0044】なお、判断の要素として、ピッチ周波数の
最高値に限らず、平均値の比較でも、上記のような判定
は可能である。
【0045】また、図9に示す処理において、図5に示
す処理と重複する部分は、しきい値自動学習部におい
て、誤処理対応判断部における処理結果を参照すること
により重複した処理を行わないようにできる。
【0046】このように、しきい値を、利用者の特異的
な発声のくせに合わせて変更していくことにより、誤認
識の検出をより確実に行えることができる。
【0047】上記各実施例によれば、検知した音声の特
徴量から誤処理時に生じる特異的な発声を検出し、判定
結果に応じて復元、再開などの複数の処理方式に対応さ
せる誤処理対応判断部を備えることにより、誤認識時の
誤った処理に対するユーザの反応から誤認識の発生を判
断し、自動的に復元あるいは再開などの対処を行い、誤
認識時のユーザの操作負担を軽減することができる。
【0048】
【発明の効果】本発明によれば、音声入力可能な情報処
理装置において、誤認識時の誤った処理に対するユーザ
の反応から誤認識を判断し、処理前の状態に復元するこ
とができる。これにより、誤認識時のユーザの操作負担
を軽減することができる。
【図面の簡単な説明】
【図1】本発明の一実施例を示すシステム構成図
【図2】本発明の情報処理装置の一実施例を示すブロッ
ク図
【図3】音声認識部の一実施例を示すブロック図
【図4】誤処理対応判断部の一実施例を示すブロック図
【図5】誤処理対応判断部の一実施例を示すフローチャ
ート
【図6】ピッチパタンの最高値としきい値の比較を示す
説明図
【図7】本発明装置の一実施例の利用形態を現す説明図
【図8】本発明の情報処理装置の一実施例を示すブロッ
ク図
【図9】しきい値自動学習部の一実施例を示すフローチ
ャート
【符号の説明】
100…マイク、101…A/D変換装置、102…入
力装置、103…情報処理装置、104…画面制御装
置、105…ディスプレイ、200…音声入力部、20
1…音声情報検知部、202…音声認識部、203…誤
認識対応判断部、204…処理再開部、205…処理復
元部、206…文書バッファ。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 松田 泰昌 神奈川県横浜市戸塚区吉田町292番地 株 式会社日立製作所映像メディア研究所内 (72)発明者 大條 成人 神奈川県横浜市戸塚区吉田町292番地 株 式会社日立製作所映像メディア研究所内 (72)発明者 長谷川 司 神奈川県横浜市戸塚区吉田町292番地 株 式会社日立製作所映像メディア研究所内

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】音声情報を検知する音声情報検知手段と、
    前記音声情報検知手段で検知した音声情報を音声認識す
    る音声認識手段と、前記音声認識手段で認識した音声に
    対応する処理を実行する実行手段と、前記実行手段にお
    ける処理の実行時に当該実行の直前の状態を記憶する記
    憶手段と、前記記憶手段に記憶する実行直前の状態を読
    みだして直前の状態に復元する復元処理を行う復元手段
    とを有する音声入力可能な情報処理装置において、 前記音声認識手段による音声情報の誤認識に対応する前
    記実行手段による誤処理を、前記音声情報検知手段によ
    り検知された、ユーザの音声情報のピッチ周波数もしく
    はパワーに基づいて検出する誤処理検出部と、 前記誤処理検出部により前記誤処理を検出したときに、
    前記復元手段により前記復元処理を行わせる誤処理対応
    判断部とを有することを特徴とする音声入力可能な情報
    処理装置。
  2. 【請求項2】請求項1において、前記誤処理検出部は、 前記音声情報検知手段により検知された音声情報のピッ
    チ周波数を抽出するピッチ抽出手段と、 前記ピッチ抽出手段により抽出されたピッチ周波数の最
    高値もしくは平均値があらかじめ定めたしきい値より大
    きいか否かを判定するピッチ判定手段と、 前記ピッチ判定手段により、前記ピッチ抽出手段により
    抽出されたピッチ周波数の最高値もしくは平均値があら
    かじめ定めたしきい値より大きいと判定されたときに、
    前記誤処理が行われたと検出する検出手段とを備えるこ
    とを特徴とする音声入力可能な情報処理装置。
  3. 【請求項3】請求項1において、前記誤処理検出部は、 前記音声情報検知手段により検知された音声情報のパワ
    ーを抽出するパワー抽出手段と、 前記パワー抽出手段により抽出されたパワーの最高値も
    しくは平均値があらかじめ定めたしきい値より大きいか
    否かを判定するパワー判定手段と、 前記パワー判定手段により、前記パワー抽出手段により
    抽出されたパワーが、あらかじめ定めたしきい値より大
    きいと判定されたときに、前記誤処理が行われたと検出
    する検出手段とを有することを特徴とする音声入力可能
    な情報処理装置。
  4. 【請求項4】請求項1において、前記誤処理検出部によ
    る前記誤処理の検出があったときに、前記復元手段によ
    る復元を行わせるか否かをユーザに問い合わせる問い合
    わせ手段と、 前記問い合わせ手段で問い合わせをしたときにユーザか
    らの前記復元を行わせるか否かの指示を受け付ける受付
    手段とをさらに有し、 前記誤処理対応判断部は、前記誤処理検出部により前記
    誤処理を検出したときに、前記復元手段により前記復元
    処理を行わせる代わりに、前記受付手段で前記復元を行
    わせる旨の指示を受け付けたときに、前記復元手段によ
    り前記復元処理を行わせ、前記受付手段で前記復元を行
    わない旨の指示を受け付けたときに、前記復元を行わせ
    ないで前記実行手段により処理を実行させることを特徴
    とする音声入力可能な情報処理装置。
  5. 【請求項5】請求項2において、前記ピッチ判定手段
    は、前記ピッチ抽出手段により抽出されたピッチ周波数
    の最高値もしくは平均値が、前記あらかじめ定めたしき
    い値より値が小さい第2のしきい値より大きいか否かを
    さらに判定し、 前記ピッチ抽出手段により抽出されたピッチ周波数の最
    高値もしくは平均値が、前記あらかじめ定めたしきい値
    より小さく、前記第2のしきい値より大きい場合に、前
    記復元手段による復元を行わせるか否かをユーザに問い
    合わせる問い合わせ手段と、 前記問い合わせ手段で問い合わせをしたときにユーザか
    らの前記復元を行わせるか否かの指示を受け付ける受付
    手段とをさらに有し、 前記誤処理対応判断部は、前記受付手段で前記復元を行
    わせる旨の指示を受け付けたときに、前記復元手段によ
    り前記復元処理を行わせ、前記受付手段で前記復元を行
    わない旨の指示を受け付けたときに、前記復元を行わせ
    ないで前記実行手段により処理を実行させることを特徴
    とする音声入力可能な情報処理装置。
  6. 【請求項6】請求項3において、前記パワー判定手段
    は、前記パワー抽出手段により抽出されたパワーの最高
    値もしくは平均値があらかじめ定めたしきい値より大き
    くない場合に、前記パワー抽出手段により抽出されたパ
    ワーの最高値もしくは平均値が、前記あらかじめ定めた
    しきい値より値が小さい第2のしきい値より大きいか否
    かをさらに判定し、 前記パワー抽出手段により抽出されたパワーの最高値も
    しくは平均値が、前記第2のしきい値より大きい場合
    に、前記復元手段による復元を行わせるか否かをユーザ
    に問い合わせる問い合わせ手段と、 前記問い合わせ手段で問い合わせをしたときにユーザか
    らの前記復元を行わせるか否かの指示を受け付ける受付
    手段とをさらに有し、 前記誤処理対応判断部は、前記受付手段で前記復元を行
    わせる旨の指示を受け付けたときに、前記復元手段によ
    り前記復元処理を行わせ、前記受付手段で前記復元を行
    わない旨の指示を受け付けたときに、前記復元を行わせ
    ないで前記実行手段により処理を実行させることを特徴
    とする音声入力可能な情報処理装置。
  7. 【請求項7】請求項2または3において、前記復元手段
    による復元処理後に、前記誤処理と同一の処理を前記実
    行手段が再実行したときに、前記あらかじめ定めたしき
    い値を修正するしきい値学習部をさらに有することを特
    徴とする音声入力可能な情報処理装置。
  8. 【請求項8】請求項2において、前記あらかじめ定めた
    しきい値を修正するしきい値学習部をさらに有し、 前記しきい値学習部は、前記復元手段による復元処理後
    に、前記誤処理と同一の処理を前記実行手段が再実行し
    たときに、前記あらかじめ定めたしきい値を、前記誤処
    理の検出をしたときの、前記ピッチ判定手段で判定し
    た、前記ピッチ抽出手段により抽出されたピッチ周波数
    の最高値もしくは平均値に更新することにより前記修正
    を行うことを特徴とする音声入力可能な情報処理装置。
  9. 【請求項9】請求項3において、前記あらかじめ定めた
    しきい値を修正するしきい値学習部をさらに有し、 前記しきい値学習部は、前記復元手段による復元処理後
    に、前記誤処理と同一の処理を前記実行手段が再実行し
    たときに、前記あらかじめ定めたしきい値を、前記誤処
    理の検出をしたときの、前記パワー判定手段で判定し
    た、前記パワー抽出手段により抽出されたパワーの最高
    値もしくは平均値に更新することにより前記修正を行う
    ことを特徴とする音声入力可能な情報処理装置。
  10. 【請求項10】請求項5または6において、前記あらか
    じめ定めたしきい値と前記第2のしきい値とを、前記復
    元手段による復元処理後の実行と前記受付手段による受
    け付けた指示とに従って修正するしきい値学習部をさら
    に有することを特徴とする音声入力可能な情報処理装
    置。
  11. 【請求項11】請求項5において、前記あらかじめ定め
    たしきい値と前記第2のしきい値とを修正するしきい値
    学習部をさらに有し、 前記しきい値学習部は、前記復元手段による復元処理後
    に、前記誤処理と同一の処理を前記実行手段が再実行し
    たときと、前記問い合わせ手段による問い合わせ後に、
    前記受付手段で前記復元を行わせる指示を受け付けたと
    きとに、前記あらかじめ定めたしきい値を、前記誤処理
    の検出をしたときの、前記ピッチ判定手段で判定した、
    前記ピッチ抽出手段により抽出されたピッチ周波数の最
    高値もしくは平均値に更新し、また、前記問い合わせ手
    段による問い合わせ後に、前記受付手段で前記復元を行
    わせない旨の指示を受け付けたときと、前記ピッチ判定
    手段において、前記ピッチ抽出手段により抽出されたピ
    ッチ周波数の最高値もしくは平均値が第2のしきい値よ
    り小さいと判定されたときとに、前記第2のしきい値
    を、前記誤処理の検出をしたときの、前記ピッチ判定手
    段で判定した、前記ピッチ抽出手段により抽出されたピ
    ッチ周波数の最高値もしくは平均値に更新することを特
    徴とする音声入力可能な情報処理装置。
  12. 【請求項12】請求項6において、前記あらかじめ定め
    たしきい値と前記第2のしきい値とを修正するしきい値
    学習部をさらに有し、 前記しきい値学習部は、前記復元手段による復元処理後
    に、前記誤処理と同一の処理を前記実行手段が再実行し
    たときと、前記問い合わせ手段による問い合わせ後に、
    前記受付手段で前記復元を行わせる指示を受け付けたと
    きとに、前記あらかじめ定めたしきい値を、前記誤処理
    の検出をしたときの、前記パワー判定手段で判定した、
    前記パワー抽出手段により抽出されたパワーの最高値も
    しくは平均値に更新し、また、前記問い合わせ手段によ
    る問い合わせ後に、前記受付手段で前記復元を行わせな
    い旨の指示を受け付けたときと、前記パワー判定手段に
    おいて、前記パワー抽出手段により抽出されたパワーの
    最高値もしくは平均値が第2のしきい値より小さいと判
    定されたときとに、前記第2のしきい値を、前記誤処理
    の検出をしたときの、前記パワー判定手段で判定した、
    前記パワー抽出手段により抽出されたパワーの最高値も
    しくは平均値に更新することを特徴とする音声入力可能
    な情報処理装置。
  13. 【請求項13】音声情報を音声認識し、認識した音声に
    対応する処理を実行する情報処理装置における誤処理の
    検出方法であって、 音声情報を検知し、検知された音声情報のピッチ周波数
    を抽出し、 前記抽出されたピッチ周波数の最高値もしくは平均値が
    あらかじめ定めたしきい値より大きいか否かを判定し、 前記抽出されたピッチ周波数の最高値もしくは平均値が
    あらかじめ定めたしきい値より大きいと判定されたとき
    に、当該判定における音声情報の検知の直前の処理の実
    行が誤処理であったと検出することを特徴とする誤処理
    検出方法。
  14. 【請求項14】音声情報を音声認識し、認識した音声に
    対応する処理を実行する情報処理装置における誤処理の
    検出方法であって、 音声情報を検知し、検知された音声情報のパワーを抽出
    し、 前記抽出されたパワーの最高値もしくは平均値があらか
    じめ定めたしきい値より大きいか否かを判定し、 前記抽出されたパワーの最高値もしくは平均値があらか
    じめ定めたしきい値より大きいと判定されたときに、当
    該判定における音声情報の検知の直前の処理の実行が誤
    処理であったと検出することを特徴とする誤処理検出方
    法。
JP6165457A 1994-07-18 1994-07-18 音声入力可能な情報処理装置およびそれにおける誤処理検出方法 Pending JPH0830290A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6165457A JPH0830290A (ja) 1994-07-18 1994-07-18 音声入力可能な情報処理装置およびそれにおける誤処理検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6165457A JPH0830290A (ja) 1994-07-18 1994-07-18 音声入力可能な情報処理装置およびそれにおける誤処理検出方法

Publications (1)

Publication Number Publication Date
JPH0830290A true JPH0830290A (ja) 1996-02-02

Family

ID=15812787

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6165457A Pending JPH0830290A (ja) 1994-07-18 1994-07-18 音声入力可能な情報処理装置およびそれにおける誤処理検出方法

Country Status (1)

Country Link
JP (1) JPH0830290A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001236091A (ja) * 2000-02-23 2001-08-31 Nippon Telegr & Teleph Corp <Ntt> 音声認識結果の誤り訂正方法およびその装置
US6719103B1 (en) * 1999-11-23 2004-04-13 Skf Engineering And Research Actuator with misalignment compensation
JP2006243006A (ja) * 2005-02-28 2006-09-14 Casio Comput Co Ltd 音響効果付与装置、基音抽出装置、及びプログラム
JP2008033198A (ja) * 2006-08-01 2008-02-14 Nec System Technologies Ltd 音声対話システム、音声対話方法、音声入力装置、プログラム
JP2010191474A (ja) * 2010-06-07 2010-09-02 Casio Computer Co Ltd 基音抽出装置、及びプログラム
US9020820B2 (en) 2011-06-30 2015-04-28 Fujitsu Limited State detecting apparatus, communication apparatus, and storage medium storing state detecting program
JP2017032844A (ja) * 2015-08-04 2017-02-09 富士ゼロックス株式会社 処理装置
JP2017102522A (ja) * 2015-11-30 2017-06-08 京セラドキュメントソリューションズ株式会社 電子機器

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6719103B1 (en) * 1999-11-23 2004-04-13 Skf Engineering And Research Actuator with misalignment compensation
JP2001236091A (ja) * 2000-02-23 2001-08-31 Nippon Telegr & Teleph Corp <Ntt> 音声認識結果の誤り訂正方法およびその装置
JP2006243006A (ja) * 2005-02-28 2006-09-14 Casio Comput Co Ltd 音響効果付与装置、基音抽出装置、及びプログラム
JP2008033198A (ja) * 2006-08-01 2008-02-14 Nec System Technologies Ltd 音声対話システム、音声対話方法、音声入力装置、プログラム
JP2010191474A (ja) * 2010-06-07 2010-09-02 Casio Computer Co Ltd 基音抽出装置、及びプログラム
US9020820B2 (en) 2011-06-30 2015-04-28 Fujitsu Limited State detecting apparatus, communication apparatus, and storage medium storing state detecting program
JP2017032844A (ja) * 2015-08-04 2017-02-09 富士ゼロックス株式会社 処理装置
JP2017102522A (ja) * 2015-11-30 2017-06-08 京セラドキュメントソリューションズ株式会社 電子機器

Similar Documents

Publication Publication Date Title
JP3284832B2 (ja) 音声認識対話処理方法および音声認識対話装置
US5855000A (en) Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input
JP3662780B2 (ja) 自然言語を用いた対話システム
KR101312849B1 (ko) 이동 장치에 대한 조합된 음성 및 교체 입력 양식을 위한정보 입력 방법, 이동 장치 및 사용자 인터페이스
EP1094445B1 (en) Command versus dictation mode errors correction in speech recognition
US6751595B2 (en) Multi-stage large vocabulary speech recognition system and method
US6332122B1 (en) Transcription system for multiple speakers, using and establishing identification
EP0376501A2 (en) Speech recognition system
US20090157405A1 (en) Using partial information to improve dialog in automatic speech recognition systems
JP3886024B2 (ja) 音声認識装置及びそれを用いた情報処理装置
US20020188454A1 (en) Interactive command recognition enhancement system and method
WO2006054724A1 (ja) 音声認識装置及び方法ならびにプログラム
JP2006351028A (ja) 音声認識中に可変数の代替ワードを表示する方法及びシステム
US7177810B2 (en) Method and apparatus for performing prosody-based endpointing of a speech signal
JP2011002656A (ja) 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム
JP2002132287A (ja) 音声収録方法および音声収録装置および記憶媒体
JP2991178B2 (ja) 音声ワープロ
JPH0830290A (ja) 音声入力可能な情報処理装置およびそれにおける誤処理検出方法
JP2008033198A (ja) 音声対話システム、音声対話方法、音声入力装置、プログラム
JP3926242B2 (ja) 音声対話システム、音声対話のためのプログラムおよび音声対話方法
KR101122591B1 (ko) 핵심어 인식에 의한 음성 인식 장치 및 방법
KR20120046627A (ko) 화자 적응 방법 및 장치
JP2006039382A (ja) 音声認識装置
US6438521B1 (en) Speech recognition method and apparatus and computer-readable memory
JP3006496B2 (ja) 音声認識装置