JPH086940A - 音声入力方式およびそれを用いた情報処理装置 - Google Patents

音声入力方式およびそれを用いた情報処理装置

Info

Publication number
JPH086940A
JPH086940A JP6134483A JP13448394A JPH086940A JP H086940 A JPH086940 A JP H086940A JP 6134483 A JP6134483 A JP 6134483A JP 13448394 A JP13448394 A JP 13448394A JP H086940 A JPH086940 A JP H086940A
Authority
JP
Japan
Prior art keywords
voice
pattern
input
word
voice pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6134483A
Other languages
English (en)
Inventor
Masayoshi Kuroda
昌芳 黒田
Tsukasa Hasegawa
司 長谷川
Shigeto Osuji
成人 大條
Tomoko Tsuchiya
知子 土屋
Hajime Asuma
肇 飛鳥馬
Yukari Matsubara
ゆかり 松原
Tsukasa Yamauchi
司 山内
Yasumasa Matsuda
泰昌 松田
Nobuo Hataoka
信夫 畑岡
Hideaki Kikuchi
英明 菊池
Haru Andou
ハル 安藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP6134483A priority Critical patent/JPH086940A/ja
Publication of JPH086940A publication Critical patent/JPH086940A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 入力した音声を認識したとき複数の候補が発
生した場合に、別の音声パターンを入力して認識し、候
補の中から希望のものを選択し得るようにすること。 【構成】 複数の単語が同じ音声パターンを持っている
場合は、それぞれの単語が異なる第2の音声パターンを
持っていて、第1の音声パターンが入力された後の候補
選択のときは、第2の音声パターンを用いて認識し、候
補を特定する。 【効果】 音声入力した結果、複数の候補が発生した場
合でも再び音声を入力することで候補を特定できる。ま
た、1つの単語などを音声を入力して認識させるとき、
複数の情報を入力することで確実性が高まる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声入力方式およびそ
れを用いた情報処理装置に係り、特に、ワープロ(ワー
ドプロセッサー)やパソコン(パーソナルコンピュー
タ)などの情報処理装置で用いる音声入力装置における
同音異義語の候補選択方式に関する。
【0002】
【従来の技術】音声を利用した従来の音声入力システム
としては、特開平3−70027号公報に開示されたよ
うに、操作コマンドを入力するようにしたものや、特開
平1−95322号公報に開示されたように、単語など
の文字情報を入力するようにしたものが知られている。
【0003】このような従来の音声入力システムにおけ
る音声を認識する仕組みは、予め同じ発音の単語等は含
めないように音声パターンを登録しておき、音声を入力
すると、登録してある音声パターンのそれぞれと比較を
行い、最も一致している音声パターンに対応するデータ
を出力するものであった。
【0004】あるいまた、認識した結果、いくつかの候
補が発生した場合は、その候補を表示しキーボードなど
他の入力手段で1つに特定するものであった。
【0005】
【発明が解決しようとする課題】上記した従来技術で
は、入力する音声を識別できるように音声パターンが類
似している単語を排除するなど、使用できる単語の種類
に制約が生じたり、同じ発音の単語を用いる場合は、候
補になる単語を表示し、該候補の中から希望のものを指
定するために他の入力手段を使用する必要があった。
【0006】本発明の目的は、音声で単語やコマンドを
入力して認識処理を行ったとき、複数の認識結果の候補
が発生した場合は、該候補を区別するための別の音声を
入力することで候補を特定し、音声入力だけで候補選択
までを行うことのできる音声入力方式を提供することに
ある。
【0007】
【課題を解決するための手段】上記目的を達成するため
に、本発明は、認識結果として出力したい単語のそれぞ
れが、対応する第1の音声パターンを持っているだけで
なく、複数の単語が同じ第1の音声パターンを持ってい
る場合は、それぞれの単語が第1の音声パターンとは異
なりかつ互いに識別可能な第2の音声パターンを持って
いて、第1の音声パターンが入力された後の候補選択の
ときは、第2の音声パターンを用いて認識し、候補を特
定するものである。
【0008】
【作用】本発明は、認識結果として出力したい単語のそ
れぞれが、対応する第1の音声パターンを持っている
が、複数の単語が同じ音声パターンを持っている場合
は、それぞれの単語が異なる第2の音声パターンを持っ
ている。そして、第1の音声パターンが入力されたとき
に、該音声パターンから認識結果として出力される候補
が複数ある場合は、第2の音声パターンを入力し、該第
2の音声パターンの認識結果を用いて候補を1つに特定
するようになっている。
【0009】
【実施例】以下、本発明の実施例を図を用いて説明す
る。図1は、本発明による音声入力方式を適用する情報
処理装置の外観図の1例を示したものである。図1にお
いて、10は情報処理装置本体であり、11は外付けマ
イクロフォンであり、12は内蔵マイクロフォンである
が、11,12は少なくとも一方を備えていればよい。
また、13は液晶表示装置などの表示装置であり、14
はフロッピディスク装置のような外部記憶装置である。
【0010】なお図1の構成に、必要に応じて、キーボ
ード装置や、マウス,タッチパネルのようなポインティ
ングデバイスなど他の入力装置を設けてもよい。
【0011】図2は、本発明の実施例による音声入力方
式を適用する情報処理装置のハードウェア構成の1例を
示したものである。図2において、20はシステム間で
データなどのやり取りをするためのシステムバス、21
は全体の動作制御を司る中央演算装置(CPU)、22
は装置を動作させるプログラムや入力されたデータや表
示データなどを記憶するメモリである。
【0012】23は音声を入力するマイクロフォン、2
4はマイクロフォン23で入力されたアナログの音声信
号をデジタルデータに変換するA/D変換器である。ま
た、25は音声認識部、26は多数の音声パターンに対
応するデータを格納した認識パターン辞書(音声パター
ン辞書)であり、音声認識部25は、A/D変換器24
からの音声データを認識パターン辞書26に格納されて
いるデータと比較して認識し、最も一致度が高い候補を
出力する。
【0013】27は文書データなどを表示する表示装
置、28は該表示装置27に表示する内容を制御する表
示制御装置である。なお、本実施例では、表示装置27
として液晶表示装置を用いているが、CRTなど他の表
示方式の装置を用いてもよい。
【0014】次に、本発明の実施例による音声入力の認
識方法および認識処理手順を、1例として入力した音声
を漢字の表記に変換する処理を用いて、図3に示すフロ
ーチャートに従い説明する。
【0015】まず、マイクロフォン23を通して音声が
入力されると(ステップ301)、A/D変換器24で
デジタルデータに変換される(ステップ302)。次
に、登録されている認識パターン辞書26のデータ番号
を示すカウンタnの値、および、類似度が最も高い音声
パターンの番号pとその類似度の値Sを初期化する(ス
テップ303)。次に、入力された音声データと上記認
識パターン辞書26のn番目のデータとを比較して、類
似度Stを算出する(ステップ304)。なお、ここで
用いている類似度は、2データ間の差を計算し、このと
きの値が小さいほど一致度が高いとする。
【0016】ここで、認識パターン辞書(音声パターン
辞書)26の構成は、例えば図5のようになっていて、
カウンタnは、音声データの項目501の位置を示して
いる。なお、図5においては、501および503の音
声データを説明のため、ひらがなで表記しているが、実
際は標準パターンとなる音声をA/D変換しデジタル化
されたデータ列が格納されていて、同じくA/D変換さ
れデジタル化された入力データとマッチングを行うよう
になっている。
【0017】次に、算出された類似度Stと記憶されて
いる類似度Sとを比較し(ステップ305)、Stの方
が小さい場合はSの値をStに更新するとともに、音声
パターンの番号pの値をnに更新する(ステップ30
6)。次に、カウンタnの値を1増やし(ステップ30
7)、nが認識パターン辞書26の音声データ数(第1
の音声パターンデータとしての図5の501の項目の音
声パターン数)を超えるか否かを判定し(ステップ30
8)、超えない場合はステップ304に戻る。また、ス
テップ305でStの値がSの値以上となった場合は、
カウンタnの値を1増やし(ステップ307)、nが認
識パターン辞書26の上記の音声データ数を超えるか否
かを判定し(ステップ308)、超えない場合は同様に
ステップ304に戻る。
【0018】ステップ308で、nが認識パターン辞書
26の音声データ数(第1の音声パターンデータとして
の図5の501の項目の音声パターン数)を超えた場合
は、p番目の音声パターンデータに対応する表記の候補
502を取り出す(ステップ309)。そして、この取
り出した表記の候補数が1個かどうかを調べ(ステップ
310)、1個だけである場合は、得られたただ1つの
表記データを表示して(ステップ312)、この入力さ
れた音声データを認識して漢字の表記に変換する処理を
終了する。また、ステップ310で表記の候補数が1個
だけでない場合は、表記の候補の表示・選択処理を行
い、表記をただ1つに特定し(ステップ311)、この
ステップ311の処理で得られたただ1つの表記データ
を表示して(ステップ312)、処理を終了する。
【0019】次に、上記したステップ311の処理(表
記の候補の表示・選択処理)の詳細を、図4に示すフロ
ーチャートを用いて説明する。
【0020】表記の候補の表示・選択処理においては、
まず、候補となる複数の表記を表示する(ステップ40
1)。例えば、「寒」と言う文字を入力しようと思い
「かん」と音声で入力したとすると、表示装置28の画
面上に「間」,「寒」,「缶」などの候補となる表記
を、例えば図6のような形態で表示し、ユーザ(オペレ
ータ)にどのような候補があるかを知らせる。次に、マ
イクロフォン23を通して図5の第2の音声パターン5
03に含まれる読み、例えば「さむい」を音声で入力す
る(ステップ402)。なお、第2の読み(第2の音声
パターンデータ)は、表記1つに対し1つだけでもよい
が、図5の第2の音声パターンデータ503の例のよう
に、表記1つに対し複数のデータを格納し、それぞれと
比較するようにしてもよい。また、ここで用いる第2の
音声パターンは、表記502に対して、505のような
音・訓読みの他の読み方、504のような他の表記と区
別できる部首名、読みが1つしかない場合は、506の
ように上記表記の文字を含む単語あるいは熟語の読みを
登録するようにしてもよい。
【0021】次に、上記ステップ402での入力音声
を、A/D変換器24でデジタルデータに変換し(ステ
ップ403)、登録されている認識パターン辞書(音声
パターン辞書)26の第2の音声パターンのデータ番号
を示すカウンタmの値、および、類似度が最も高い音声
パターンの番号qとその類似度の値Sを初期化する(ス
テップ404)。次に、入力された第2の音声データと
上記認識パターン辞書26のm番目のデータとを比較し
て、類似度Stを算出する(ステップ405)。
【0022】次に、算出された類似度Stと記憶されて
いる類似度Sとを比較し(ステップ406)、Stの方
が小さい場合はSの値をStに更新するとともに、音声
パターンの番号qの値をmに更新する(ステップ40
7)。次に、カウンタmの値を1増やし(ステップ40
8)、mが認識パターン辞書26の音声データ数(第2
の音声パターンデータとしての図5の503の項目の音
声パターン数)を超える否かを判定し(ステップ40
9)、超えない場合はステップ405に戻る。また、ス
テップ406でStの値がSの値以上となった場合は、
カウンタmの値を1増やし(ステップ408)、mが認
識パターン辞書26の上記音声データ数を超える否かを
判定し(ステップ409)、超えない場合は同様にステ
ップ405に戻る。
【0023】ステップ409で、mが認識パターン辞書
26の音声データ数(第2の音声パターンデータとして
の図5の503の項目の音声パターン数)を超えた場合
は、q番目の音声パターンデータに対応する表記の候補
(本例の場合は「寒」)を取り出し、これをただ1つの
表記データして設定して、前記した図3のステップ31
2へ進む。
【0024】なお、上述した実施例では、第1の音声デ
ータを入力および認識した後、第2の音声データを入力
および認識するようにしていたが、構文解析部を設け
て、例えば「さんずいのかわ」や「さむいのかん」のよ
うに続けて入力した音声を解析し、それぞれ「さんず
い」と「かわ」、「さむい」と「かん」のように修飾関
係で接続されていることが認識できれば、被修飾語の方
を第1の音声パターン、修飾語の方を第2の音声パター
ンとして認識処理を行い、それぞれ「河」、「寒」を出
力するようにしてもよい。
【0025】なおまた、入力した1つの音声データに対
応する複数の表記を表示する場合、図6で用いた手法の
他に、図7の701の項目のように、表記に加え第2の
音声パターンの読みを表示するようにしてもよい。この
場合には、第2の音声パターンとして登録されている内
容を覚えていなくても、画面に表示されているとおりに
発音すればよいという利点がある。
【0026】またこれまで、音声入力によるかな漢字変
換を例にとって説明したが、図5の前記501の音声パ
ターンデータ(第1の音声パターンデータ)に、コマン
ド名を設定し、前記502の表記にあたる出力に、実行
する操作や処理などのコマンド名やコードを設定し、前
記503の第2の音声パターンデータに、操作モードや
属性など対象を限定する語を設定すれば、コマンド入力
などにも使え、例えば、「削除」と入力した後に「領
域」や「ページ」などの処理対象を入力したり、「領域
の削除」または「領域を削除」と入力して、対象領域を
削除する動作をシステムに実行させることも可能であ
る。
【0027】
【発明の効果】以上のように本発明によれば、音声入力
した結果、複数の候補が発生した場合でも、再び音声を
入力することで候補を特定できるので、従来のように使
用できる単語に制約が生じたり、複数の候補が発生した
際に使用する音声入力装置以外の他の入力手段を必要と
しない、という効果がある。
【0028】また、1つの単語などを音声を入力して認
識させるとき、複数の情報を入力することで、確実性が
高まるという効果もある。
【図面の簡単な説明】
【図1】本発明の実施例による音声入力方式が適用され
る情報処理装置の1例を示す外観図である。
【図2】本発明の実施例による音声入力方式が適用され
る情報処理装置のハードウェアの1例を示す構成図であ
る。
【図3】本発明の実施例による音声入力および認識処理
のフローチャート図である。
【図4】図3のステップ311の詳細を示すフローチャ
ート図である。
【図5】本発明の実施例による音声パターン辞書の構成
例を示す説明図である。
【図6】本発明の実施例による表記候補の画面表示の1
例を示す説明図である。
【図7】本発明の実施例による表記候補の画面表示の他
の1例を示す説明図である。
【符号の説明】
10 情報処理装置本体 11 外付けマイクロフォン 12 内蔵マイクロフォン 13 表示装置 14 外部記憶装置 20 システムバス 21 中央演算装置(CPU) 22 メモリ 23 マイクロフォン 24 A/D変換器 25 音声認識部 26 認識パターン辞書(音声パターン辞書) 27 表示装置 28 表示制御装置
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 G10L 3/00 521 E 571 H (72)発明者 土屋 知子 神奈川県横浜市戸塚区吉田町292番地 株 式会社日立製作所映像メディア研究所内 (72)発明者 飛鳥馬 肇 神奈川県横浜市戸塚区吉田町292番地 株 式会社日立製作所映像メディア研究所内 (72)発明者 松原 ゆかり 神奈川県横浜市戸塚区吉田町292番地 株 式会社日立製作所映像メディア研究所内 (72)発明者 山内 司 神奈川県横浜市戸塚区吉田町292番地 株 式会社日立製作所映像メディア研究所内 (72)発明者 松田 泰昌 神奈川県横浜市戸塚区吉田町292番地 株 式会社日立製作所映像メディア研究所内 (72)発明者 畑岡 信夫 東京都国分寺市東恋ケ窪一丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 菊池 英明 東京都国分寺市東恋ケ窪一丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 安藤 ハル 東京都国分寺市東恋ケ窪一丁目280番地 株式会社日立製作所中央研究所内

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 入力した音声を認識して文字コードなど
    他の形態の情報に変換する音声入力方式において、 発音が同一であり音声で入力すると区別ができない複数
    の単語がある場合、第1の音声パターンとは異なる音声
    で、互いに識別可能な第2の音声パターンをそれぞれの
    単語に設け、前記第1の音声パターンの入力で識別でき
    ない場合は続いて前記第2の音声パターンで入力し、こ
    の第2の音声パターンを認識することにより1つの単語
    を特定するようにしたことを特徴とする音声入力方式。
  2. 【請求項2】 請求項1記載において、 前記第1の音声パターンを、認識結果として出力する漢
    字などの表記に対応する読みの1つとして登録し、前記
    第2の音声パターンを、前記表記を他の表記を用いる語
    と区別するための別の読み、あるいは、部首または熟語
    などの読みとして登録し、前記入力した第1の音声の読
    みをかな漢字変換した結果を、表示装置などに出力する
    ことを特徴とする音声入力方式。
  3. 【請求項3】 入力した音声を認識して文字コードなど
    他の形態の情報に変換する音声入力方式において、 発音が同一であり音声で入力すると区別ができない複数
    の単語がある場合、第1の音声パターンとは異なる音声
    で、互いに識別可能な第2の音声パターンをそれぞれの
    単語に設け、前記第1の音声パターンと前記第2の音声
    パターンとを組み合わせて入力した音声を、構文解析を
    行って2つの音声パターンとして抽出し、2つの音声パ
    ターン情報を利用することにより、1つの単語を特定す
    るようにしたことを特徴とする音声入力方式。
  4. 【請求項4】 請求項1または2または3記載におい
    て、 前記第1の音声パターンとして動作の指示を行うコマン
    ド名を登録し、前記第2の音声パターンとして前記コマ
    ンドが対象とする対象物や対象範囲を登録したことを特
    徴とする音声入力方式。
  5. 【請求項5】 請求項1または2または3または4記載
    の音声入力方式を用い、少なくとも音声入力手段と、音
    声認識部と、音声パターン辞書と、表示装置とを具備し
    たことを特徴とする情報処理装置。
JP6134483A 1994-06-16 1994-06-16 音声入力方式およびそれを用いた情報処理装置 Pending JPH086940A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6134483A JPH086940A (ja) 1994-06-16 1994-06-16 音声入力方式およびそれを用いた情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6134483A JPH086940A (ja) 1994-06-16 1994-06-16 音声入力方式およびそれを用いた情報処理装置

Publications (1)

Publication Number Publication Date
JPH086940A true JPH086940A (ja) 1996-01-12

Family

ID=15129388

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6134483A Pending JPH086940A (ja) 1994-06-16 1994-06-16 音声入力方式およびそれを用いた情報処理装置

Country Status (1)

Country Link
JP (1) JPH086940A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250585A (ja) * 1999-02-25 2000-09-14 Nippon Telegr & Teleph Corp <Ntt> 対話型データベース検索方法、装置及び対話型データベース検索プログラムを記録した記録媒体
JP2001109492A (ja) * 1999-10-07 2001-04-20 Alpine Electronics Inc 音声認識方法
JP2005267399A (ja) * 2004-03-19 2005-09-29 Nec Personal Products Co Ltd 音声辞書検索システム及び音声辞書検索プログラム
JP2006503328A (ja) * 2002-10-16 2006-01-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ディレクトリアシスタント方法及び装置
JP2007333778A (ja) * 2006-06-12 2007-12-27 Toshiichi Shinshi 商品売買システムとそれを実現するためのコンピュータプログラムとその方法
JP2015095002A (ja) * 2013-11-08 2015-05-18 株式会社ソニー・コンピュータエンタテインメント 表示制御装置、表示制御方法、プログラム及び情報記憶媒体

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250585A (ja) * 1999-02-25 2000-09-14 Nippon Telegr & Teleph Corp <Ntt> 対話型データベース検索方法、装置及び対話型データベース検索プログラムを記録した記録媒体
JP2001109492A (ja) * 1999-10-07 2001-04-20 Alpine Electronics Inc 音声認識方法
JP2006503328A (ja) * 2002-10-16 2006-01-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ディレクトリアシスタント方法及び装置
JP2005267399A (ja) * 2004-03-19 2005-09-29 Nec Personal Products Co Ltd 音声辞書検索システム及び音声辞書検索プログラム
JP2007333778A (ja) * 2006-06-12 2007-12-27 Toshiichi Shinshi 商品売買システムとそれを実現するためのコンピュータプログラムとその方法
JP2015095002A (ja) * 2013-11-08 2015-05-18 株式会社ソニー・コンピュータエンタテインメント 表示制御装置、表示制御方法、プログラム及び情報記憶媒体
US9519412B2 (en) 2013-11-08 2016-12-13 Sony Corporation Display control apparatus, display control method, program, and information storage medium

Similar Documents

Publication Publication Date Title
JP3962763B2 (ja) 対話支援装置
US20150039318A1 (en) Apparatus and method for selecting control object through voice recognition
KR101474854B1 (ko) 음성인식을 통해 컨트롤 객체를 선택하기 위한 장치 및 방법
KR20070098904A (ko) 수동 입력된 불명확한 텍스트 입력을 해석하기 위해 음성입력을 활용하는 방법 및 장치
JP5703491B2 (ja) 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置
JP3476007B2 (ja) 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体
JPH07114558A (ja) 漢字変換訂正処理方式
JPH086940A (ja) 音声入力方式およびそれを用いた情報処理装置
JP3762191B2 (ja) 情報入力方法、情報入力装置及び記憶媒体
JPH08166966A (ja) 辞書検索装置、データベース装置、文字認識装置、音声認識装置、および文章修正装置
JPH11238051A (ja) 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
JPH07311656A (ja) マルチモーダル文字入力装置
JPH07271774A (ja) 文章入力装置
JP3006497B2 (ja) 音声認識装置
JP4012228B2 (ja) 情報入力方法、情報入力装置及び記憶媒体
JPH10269210A (ja) 文字入力装置
JP5169602B2 (ja) 形態素解析装置、形態素解析方法及びコンピュータプログラム
JPH10320399A (ja) 言語識別装置,言語識別方法および言語識別のプログラムを記録した記録媒体
JPS6091435A (ja) 文字入力装置
JPH08221408A (ja) 文字認識方法、仮名漢字変換方法及び情報処理装置
JPS60205594A (ja) 認識結果表示方式
JP2000020085A (ja) 音声認識装置及び音声認識プログラムを記録した記録媒体
JPH04232997A (ja) 音声認識装置における認識結果表示方式
JPH08287192A (ja) テキスト解析装置