JP2000187497A - 音声による言語入力装置 - Google Patents

音声による言語入力装置

Info

Publication number
JP2000187497A
JP2000187497A JP10364066A JP36406698A JP2000187497A JP 2000187497 A JP2000187497 A JP 2000187497A JP 10364066 A JP10364066 A JP 10364066A JP 36406698 A JP36406698 A JP 36406698A JP 2000187497 A JP2000187497 A JP 2000187497A
Authority
JP
Japan
Prior art keywords
character
words
recognition
input
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP10364066A
Other languages
English (en)
Inventor
Yasunari Obuchi
康成 大淵
Atsuko Koizumi
敦子 小泉
Makoto Tanaka
田中  誠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Hitachi Solutions Technology Ltd
Original Assignee
Hitachi Ltd
Hitachi ULSI Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, Hitachi ULSI Systems Co Ltd filed Critical Hitachi Ltd
Priority to JP10364066A priority Critical patent/JP2000187497A/ja
Publication of JP2000187497A publication Critical patent/JP2000187497A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 (修正有) 【課題】 多数の語句を含む辞書を用いる音声認識によ
る入力において、計算時間を短縮し認識精度を向上させ
る。 【解決手段】 最初の認識は、重要語辞書のみを用いて
行なう。入力音声に対応する単語が重要語辞書に含まれ
ていない場合には、最初の認識結果が正解にならないと
いう問題が生じるが、認識結果に修正を加える段階で非
重要語も用いて再度認識を行なう。このようなシステム
により、ユーザの手間を最小限に押さえた入力装置が実
現可能となる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、多数の語句から成
る辞書が設定されている状態で、音声を入力することに
よってその辞書に含まれる任意の語句を特定し、さらに
入力を試みた語句が辞書に含まれない場合には含まれな
いという結果を出力するために用いる、音声認識装置に
関する。
【0002】
【従来の技術】音声認識装置は、入力された音声を非常
に短かい時間ごとに切りわけ、信号処理の手法に基づき
分析し、いくつかの特徴量の組に変換する。一方、認識
対象となるすべての語句は、それぞれ対応する特徴量の
組から成る標準パターンに変換されて保持されている。
それぞれの標準パターンは入力音声から得られた特徴量
と比較され、類似度をスコアとして保持する。入力が進
むにつれてこのスコアが累積され、入力が終了した時点
で最大スコアを持つ標準パターンに対応する語句が認識
結果として出力される。
【0003】
【発明が解決しようとする課題】従来の音声認識装置で
は、すべての認識対象語句の標準パターンに対する類似
度を計算しなければならないため、認識対象語句の数が
増えるにつれ、処理量もそれに比例して増大するという
問題が生じる。例えば、市販されている国語辞典の収録
単語すべてを認識しようとすると、5万から10万単語
程度の認識を行なわなければならないが、これを安価な
計算機でリアルタイムで実行することは非常に困難であ
る。また、認識対象語句の数が増えるにつれ、似通った
音を持つ語句の組み合わせも増えることから、認識誤り
も生じやすくなる。特に、めったに使われない語句の存
在によって、非常によく使う語句の認識率までもが低く
なってしまうといったような弊害が生じることもある。
本発明の目的は、このような状況において、よく使われ
る単語を確実に認識するとともに、あまり使われない単
語であっても無駄な計算時間を消費することなく認識す
ることができるような装置を提供することである。
【0004】
【課題を解決するための手段】本発明においては、最初
の認識実行時には重要語のみを認識対象とすることによ
って、計算時間と認識精度の両者を適正な範囲に収める
ことができる。ただし、ユーザにとっては自分の入力し
ようとしている単語が重要語に含まれているかどうかを
知ることができないので、非重要語を入力しようとした
場合の救済手段を用意しておく必要がある。一方、音声
認識では多少なりとも認識誤りが生じることが避けられ
ないため、これを修正する手段が必要となる。そこで、
非重要語が入力された場合には、認識誤りを修正する作
業のあいだに認識対象語句を入れ替え、非重要語も含む
ようにする。これによって、ユーザから見ると、非重要
語であったが故に一回目の認識で認識誤りが生じただけ
のように見え、わずかな修正作業だけであたかも最初か
らすべての語句を候補とした認識を行なったかのような
結果が得られることになる。
【0005】
【発明の実施の形態】以下、図を用いて本発明の実施例
を説明する。本発明の音声による言語入力装置は、一般
的な装置構成、すなわち、マイク等の音声入力装置を含
み、マウス、タッチパネルまたは入力ボタンなどの入力
装置、認識の途中結果や最終結果を出力するスピーカや
表示装置などの出力装置、入力された音声を処理(後述
のプログラムを実行)する処置装置、処理装置に読み出
されて認識処理を行うプログラム、処理プログラムの実
行に伴い必要な音声特徴リスト、認識辞書、認識途中の
及び最終結果等を記憶するメモリ等を有している。本発
明では、処理の手順に特徴を有している。
【0006】図1は、本発明を用いた音声認識装置の一
実施例における処理の概要を表わしている。ユーザはま
ず初めに、自分の入力したい語句を音声によって入力す
る(102)。入力された音声は、大語彙辞書に含まれ
る語句のうち重要な語句だけを含む重要語辞書を用いて
認識される(104)。このとき、入力された音声波
形、もしくはそこから抽出された特徴量は記憶装置に保
持される。認識結果は画面に表示され、カーソルもしく
は反転表示などの手段で修正位置が示される。最初の認
識の直後には修正位置は1文字目とすることが標準的で
あるが、認識結果の1文字目の信頼度が非常に高いとき
には修正位置を2文字目として開始するなど、各文字の
信頼度に基づき修正モードを開始することも可能であ
る。認識結果と修正位置が表示された状態で、ユーザは
修正の有無を指定する(108)。認識結果が入力しよ
うとした語句と全く違わない場合には、すべてOKであ
るということを、ボタンもしくは音声などによって入力
することにより、入力語句を確定させる(118)。修
正位置として表示されている文字はあっているが、それ
より後の文字に誤りがある場合には、修正位置を移動さ
せるボタンを押す、もしくは修正位置の移動に対応した
音声を入力することなどにより、修正位置を移動させる
(116)。修正位置を移動させると、再びユーザの指
示を待つ(108)状態に戻る。修正位置として表示さ
れている文字が誤っている場合には、正しい文字を音声
等で入力する(110)。入力された文字が確定した段
階で、その文字より手前の文字はすべて確定したと見な
すことができる。そこで、すべての認識対象語句のう
ち、既に確定している文字と合致するもののみを抽出
し、新たな認識用辞書としてロードする(112)。先
頭からの何文字かが限定されるため、新たにロードされ
る辞書は認識対象語句全体に比べて非常に小さいものに
なるため、計算時間と認識精度の両面で高い性能を出し
うるものとなる。こうしてロードした辞書をもとに、最
初の認識(104)のときに保持されていた入力音声の
特徴量を使って再び音声認識を行ない、認識結果を表示
する(114)。このとき、修正モードで確定された部
分が正解と共通であることは明らかなので、修正位置を
一つだけずらし(116)、再び認識結果の修正モード
に入る(108)。以下、同様の作業を繰り返し、入力
語句と表示が一致した段階で入力語句確定(118)と
なる。
【0007】図2は、重要語辞書の作成方法の一例を表
わしている。重要語辞書の基本重要語領域(202)
は、あらかじめ指定された一般的な重要語を列挙したも
ので、常に用いられる。一方、ユーザが一度入力した単
語は再び用いられることが多いので、これらの単語を重
要語辞書に含んでおくことが望ましい場合がある。この
ような場合、ユーザ辞書領域(204)を確保してお
き、ユーザが入力した単語を順次登録する。この例で
は、ユーザが「にんしき」と入力したのを受けて、その
単語がユーザ辞書領域の先頭に登録される。このとき、
ユーザ辞書領域の先頭にあった「おんせい」という単語
は一つ下に移り、以下すべての単語がひとつずつシフト
する。最も下に登録されていた単語(この例でいうと
「じしょ」という単語)は、ユーザ辞書領域から抹消さ
れる。ここで述べた方法は最も単純なものであるが、こ
の他に、各単語に重要度のスコアを付けておき、使用頻
度とスコアの両者を懸案してユーザ辞書領域の登録単語
を決めるといった方法も可能である。
【0008】図3は、最初の音声認識を終了し、修正モ
ードに移った直後の画面の例である。表示画面(30
2)には、ユーザの発声に対する認識結果が表示され、
修正位置がカーソル(304)によって示されている。
例えばユーザが「せんぷうき」と発声し、図のように表
示された場合には、認識結果を修正する必要がないた
め、認識確定ボタン(306)を押すことによって入力
を確定させる。認識確定ボタンを用いる代わりに、「に
んしきかくてい」などの音声によって入力を確定させる
こともできる。次に、ユーザが、例えば「せいひょう
き」と発声して、図のように表示された場合を考える。
この場合、一文字目の「せ」は正しいので、カーソル移
動ボタン(308)を押すことによって、修正位置を右
に一文字分移動させる。カーソル移動ボタンを用いる代
わりに、「カーソルいどう」などの音声によって修正位
置を移動させることもできる。修正位置が二文字目とな
った段階で、本来入力したい単語の二文字目は「い」で
あるので、ユーザは「い」と発声する。この発声が認識
されると、二文字目の表示が「い」に変化する。ただ
し、単音節の音声認識性能が低い場合においては、この
「い」という音声の認識に対し、結果を一文字もしくは
複数候補表示し、ボタン操作等による選択、確定の動作
がなされた段階で二文字目の「い」を確定させることに
してもよい。こうして二文字目が確定した段階で、すべ
ての認識対象単語の中から、「せい」で始まる単語のみ
が抽出され、それらを対象にして、最初に入力した音声
が再び認識される。その結果として、「せいひょうき」
という単語が認識され、出力される。仮にこの段階でも
音声認識誤りが生じた場合には、ユーザは更に修正位置
を移動させ、誤りの生じている場所で正しい文字を発声
して修正を行なう。また、修正作業によって確定した部
分を含む単語を抽出しようとして、そのような単語が一
つも登録されていない場合には、その旨を画面に表示す
ることによって、ユーザはその単語が認識対象として登
録されていないことを知ることができる。
【0009】図4は、修正モードの画面の別の実施形態
を表わす図である。仮に修正位置が二文字目であるとし
て、カーソルをその位置に移動させた状態で、候補文字
表示ボタン(402)を押すことによって、候補文字表
示ウィンドウ(404)を表示させる。候補文字表示ボ
タンを用いる代わりに、「こうほもじひょうじ」などの
音声によって候補文字表示ウィンドウを表示させること
もできる。候補文字表示ウィンドウには、修正のために
置き換えられる可能性の高い候補文字がいくつか表示さ
れる。必要であれば、それらの文字には番号を付与させ
ることもできる。ユーザは、候補文字選択ボタン(40
6)を使ってこれらの中からある文字を選ぶか、変換し
たい文字を音声で入力するか、もしくは変換したい文字
に付与されている番号を音声で入力するなどの手段によ
って変換する文字を確定する。
【0010】
【発明の効果】数万から数十万にのぼる語句を含む辞書
に対する音声入力は、計算時間と認識精度の両面で非常
に困難である。しかしながら、そのような大語彙辞書に
対する入力を、キーボードなどの操作を用いずに簡便に
行ないたいという需要は大きい。本発明では、重要語に
対する認識を第一段階で行なうことによって、重要語に
対する入力の手間を最小限に押さえ、同時に非重要語の
存在に起因する認識率劣化を防止する。その一方で、認
識誤りの修正作業と非重要語辞書のロードを同時に行な
うことにより、非重要語の入力に際して重要語に比べて
著しい不便が生じることを避け、ユーザはあたかも最初
からすべての語句に対する入力が自然に行なわれている
ように感じることができる。
【図面の簡単な説明】
【図1】本発明による装置における処理の概要。
【図2】本発明で用いる重要語辞書の作成例。
【図3】本発明による装置の修正モードにおける画面出
力の例(1)。
【図4】本発明による装置の修正モードにおける画面出
力の例(2)。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 小泉 敦子 東京都国分寺市東恋ケ窪一丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 田中 誠 東京都小平市上水本町5丁目20番1号 株 式会社日立超エル・エス・アイ・システム ズ内 Fターム(参考) 5D015 LL04 LL05 LL09 LL10

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】あらかじめ用意された認識対象語句リスト
    をもとに、入力音声を認識する装置において、 認識対象語句のうち、その一部のみを認識処理の対象と
    して限定する手段と、 入力音声、もしくは入力音声から抽出した特徴量を記憶
    しておく手段と、 前段階での認識結果をユーザが部分的に修正することを
    可能にする手段と、 前段階での認識結果の修正をもとに、前段階では使用さ
    れなかった認識対象語句をあらたに認識処理の対象とし
    て追加する手段と、 追加された認識対象語句に対し、記憶されている入力音
    声、もしくは入力音声から抽出した特徴量をもとに、認
    識処理を実行する手段と、 を有することを特徴とする音声による言語入力装置。
  2. 【請求項2】認識対象語句を限定する手段において、ユ
    ーザが過去に入力したことのある語句を一定数だけ含む
    ようにするための手段を有することを特徴とする、請求
    項1記載の音声による言語入力装置。
  3. 【請求項3】認識対象語句を限定する手段において、 各認識対象語句に重要度に相当する値を付与する手段
    と、 ユーザーが過去に入力したことのある語句についてはこ
    の重要度に一定の値を加算もしくは乗算した値を付与す
    る手段と、 両者の値を比較して、限定すべき認識対象語句を決定す
    る手段と、 を有することを特徴とする、請求項2記載の音声による
    言語入力装置。
  4. 【請求項4】認識対象語句を限定する手段において、限
    定する語句のリストを複数保持しておき、状況に応じて
    使い分けるための手段を有することを特徴とする、請求
    項1記載の音声による言語入力装置。
  5. 【請求項5】認識結果をユーザが修正することを可能に
    する手段において、 認識結果、もしくは認識結果に何らかの修正を施した結
    果を文字で表示する手段と、 表示された文字の中で、修正したい文字を特定するため
    の手段と、 修正したい文字に変わって、正しい文字を入力する手段
    と、 を有することを特徴とする、請求項1記載の音声による
    言語入力装置。
  6. 【請求項6】修正したい文字を特定するための手段にお
    いて、 認識結果の各文字の信頼度を推定する手段と、 各文字の信頼度の推定値に基づき、ユーザの負担を最も
    軽くするために最適な修正位置を推定する手段と、 推定された修正位置をユーザに示す手段と、 を有することを特徴とする、請求項5記載の音声による
    言語入力装置。
  7. 【請求項7】正しい文字を入力する手段において、文字
    を音声で読み上げることによって入力することを可能に
    する手段を有することを特徴とする、請求項5記載の音
    声による言語入力装置。
  8. 【請求項8】正しい文字を入力する手段において、文字
    に関連する単語を音声で読み上げることによって入力す
    ることを可能にする手段を有することを特徴とする、請
    求項5記載の音声による言語入力装置。
  9. 【請求項9】正しい文字を入力する手段において、 現在表示されている文字に代わって入力される可能性の
    高い文字を推定する手段と、 推定された候補文字を表示する手段と、 表示された候補の中からユーザが正しい文字を選択する
    ことを可能にする手段と、 を有することを特徴とする、請求項5記載の音声による
    言語入力装置。
  10. 【請求項10】候補の中から正しい文字を選択する手段
    において、正しい文字に該当する番号を音声で読み上げ
    ることによって入力することを可能にする手段を有する
    ことを特徴とする、請求項9記載の音声による言語入力
    装置。
  11. 【請求項11】認識結果の修正をもとに、認識対象語句
    を追加する手段において、 認識結果に対して、最後の修正が行なわれた位置、もし
    くは次の修正が行なわれようとしている位置を検出する
    手段と、 検出された位置よりも前の部分の内容を特定し、その内
    容に矛盾しない認識対象語句のみを追加することを可能
    にする手段と、 を有することを特徴とする、請求項1記載の音声による
    言語入力装置。
JP10364066A 1998-12-22 1998-12-22 音声による言語入力装置 Withdrawn JP2000187497A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10364066A JP2000187497A (ja) 1998-12-22 1998-12-22 音声による言語入力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10364066A JP2000187497A (ja) 1998-12-22 1998-12-22 音声による言語入力装置

Publications (1)

Publication Number Publication Date
JP2000187497A true JP2000187497A (ja) 2000-07-04

Family

ID=18480894

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10364066A Withdrawn JP2000187497A (ja) 1998-12-22 1998-12-22 音声による言語入力装置

Country Status (1)

Country Link
JP (1) JP2000187497A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008134502A (ja) * 2006-11-29 2008-06-12 Nissan Motor Co Ltd 音声認識装置、および音声認識方法
JP2008203296A (ja) * 2007-02-16 2008-09-04 Denso Corp 音声認識装置及びナビゲーション装置
WO2021075065A1 (ja) * 2019-10-15 2021-04-22 菊一 西 音声入力機器

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008134502A (ja) * 2006-11-29 2008-06-12 Nissan Motor Co Ltd 音声認識装置、および音声認識方法
US8108215B2 (en) 2006-11-29 2012-01-31 Nissan Motor Co., Ltd. Speech recognition apparatus and method
JP2008203296A (ja) * 2007-02-16 2008-09-04 Denso Corp 音声認識装置及びナビゲーション装置
JP4672686B2 (ja) * 2007-02-16 2011-04-20 株式会社デンソー 音声認識装置及びナビゲーション装置
US8145487B2 (en) 2007-02-16 2012-03-27 Denso Corporation Voice recognition apparatus and navigation apparatus
WO2021075065A1 (ja) * 2019-10-15 2021-04-22 菊一 西 音声入力機器

Similar Documents

Publication Publication Date Title
US5428707A (en) Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance
US5864805A (en) Method and apparatus for error correction in a continuous dictation system
US5794189A (en) Continuous speech recognition
US7529678B2 (en) Using a spoken utterance for disambiguation of spelling inputs into a speech recognition system
RU2379767C2 (ru) Коррекция ошибок для систем распознавания речи
US5983179A (en) Speech recognition system which turns its voice response on for confirmation when it has been turned off without confirmation
US6363347B1 (en) Method and system for displaying a variable number of alternative words during speech recognition
JP4604178B2 (ja) 音声認識装置及び方法ならびにプログラム
US6088671A (en) Continuous speech recognition of text and commands
US5970448A (en) Historical database storing relationships of successively spoken words
JP3333123B2 (ja) 音声認識中に認識されたワードをバッファする方法及びシステム
US20020123894A1 (en) Processing speech recognition errors in an embedded speech recognition system
JP4680714B2 (ja) 音声認識装置および音声認識方法
JPH10133684A (ja) 音声認識中に代替ワードを選択する方法及びシステム
JP3476007B2 (ja) 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体
JPH10133685A (ja) 連続音声認識中にフレーズを編集する方法及びシステム
US6963834B2 (en) Method of speech recognition using empirically determined word candidates
JP4967519B2 (ja) 音声認識装置
JP2006189730A (ja) 音声対話方法および音声対話装置
JP2000187497A (ja) 音声による言語入力装置
JP4220151B2 (ja) 音声対話装置
JP4296290B2 (ja) 音声認識装置、音声認識方法及びプログラム
JP2005234236A (ja) 音声認識装置、音声認識方法、記憶媒体およびプログラム
JP2000056795A (ja) 音声認識装置
JP2003202886A (ja) テキスト入力処理装置及び方法並びにプログラム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060307