JP2003202886A

JP2003202886A - テキスト入力処理装置及び方法並びにプログラム

Info

Publication number: JP2003202886A
Application number: JP2001401299A
Authority: JP
Inventors: Kohei Momozaki; 浩平桃崎
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2001-12-28
Filing date: 2001-12-28
Publication date: 2003-07-18
Anticipated expiration: 2021-12-28
Also published as: JP3762300B2

Abstract

(57)【要約】【課題】音声認識結果に基づく入力テキストの編集をユ
ーザが適切且つ容易に行えるユーザインタフェースを備
えたテキスト入力装置、方法、およびプログラムを提供
することを目的とする【解決手段】音声認識を利用したテキストの入力を行う
ディクテーション機能を提供するテキスト入力処理装置
において、見出しと発音文字列とを対応させ、併記す
る。見出しを指定した候補一覧において発音が同じ候補
を表示する。一方、発音文字列を指定した候補一覧では
発音の異なる候補を表示する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、広くは自然言語処
理に関し、特に、音声でテキスト（文章）の入力を行う
ディクテーション機能を提供する音声認識技術を利用し
たテキスト入力処理装置及び方法並びにプログラムに関
する。

【０００２】

【従来の技術】音声認識技術を利用したテキスト入力処
理装置の従来例では、単純な漢字仮名混じり表記のテキ
スト形式で音声認識結果を表示するようにしている。こ
のような音声認識に基づく入力テキストを修正する際、
修正対象を選択して候補表示する操作を行うと、従来例
では、表記が違う候補や発音が違う候補などが全て表示
されるものとなっていた。このような従来例では、音声
認識結果に基づいて表示された入力テキストがユーザの
想定していたものと異なる場合に、それが同音語内の表
記の違いなのか、それとも音の違いなのか、あるいは単
語等の分割単位の違いなのか、といったことの判別が難
しいという問題点がある。特に、ユーザが知らない単語
や読めない単語が表示されてしまい、それがテキスト修
正を困難にするということは、キーボード等によるテキ
スト入力とは違った音声認識に基づくテキスト入力に特
有の問題点である。

【０００３】また、修正候補の選択において、表記が違
う候補や発音が違う候補など複数の要因による認識候補
が全て表示されるので、目的の候補を見つけだすのに時
間がかかり、操作が煩雑になるという問題点もある。ま
た、候補選択状態に移行した後に、新たな操作ステップ
を経て初めて表示がなされるよう構成されている場合な
ども、ユーザが目的とする候補が得られるまでの操作が
煩雑になる。

【０００４】このように、音声認識技術を利用したテキ
スト入力処理装置の従来例には、入力音声テキストの修
正（広義には編集）操作を容易に行えるようなユーザイ
ンターフェースが提供されることが望まれている。

【０００５】

【発明が解決しようとする課題】本発明は、かかる事情
を考慮してなされたものであり、音声認識結果に基づく
入力テキストの編集をユーザが適切且つ容易に行えるユ
ーザインタフェースを備えたテキスト入力装置、方法、
及びプログラムを提供することを目的とする。

【０００６】

【課題を解決するための手段】上記課題を解決し目的を
達成するために本発明は次のように構成されている。

【０００７】本発明に係る第１のテキスト入力処理装置
は、音声認識を利用してテキストを入力処理するテキス
ト入力処理装置であって、前記テキストを構成する複数
の文節のいずれか一つが、複数の異音語を含む発音文字
列の候補を有する音声認識結果を記憶する記憶手段と、
前記複数の文節のそれぞれの発音文字列を組み合わせて
表示する表示手段と、前記いずれか一つの文節につい
て、前記発音文字列の候補を一覧表示する候補表示手段
と、一覧表示された前記候補のなかから、いずれか一つ
の異音語をユーザに選択させるための選択手段と、を具
備することを特徴とするテキスト入力処理装置である。

【０００８】また、本発明に係る第２のテキスト入力処
理装置は、音声認識を利用してテキストを入力処理する
テキスト入力処理装置であって、前記テキストを構成す
る複数の文節のいずれか一つが、複数の異音語を含む発
音文字列の候補、および、表記が異なる複数の同音語を
含む漢字仮名混じり文字列の候補を有する音声認識結果
を記憶する記憶手段と、前記複数の文節のそれぞれの発
音文字列の一つを組み合わせて表示する第１表示手段
と、前記複数の文節のそれぞれの漢字仮名混じり文字列
の一つを組み合わせて表示する第２表示手段と、前記い
ずれか一つの文節について、前記発音文字列の候補を一
覧表示する第１候補表示手段と、前記いずれか一つの文
節について、前記漢字仮名混じり文字列の候補を一覧表
示する第２候補表示手段と、一覧表示された前記発音文
字列の候補のなかから、いずれか一つの異音語をユーザ
に選択させるための第１選択手段と、一覧表示された前
記漢字仮名混じり文字列の候補のなかから、いずれか一
つの同音語をユーザに選択させるための第２選択手段
と、を具備することを特徴とするテキスト入力処理装置
である。

【０００９】本発明に係る第１のテキスト入力処理方法
は、音声認識を利用してテキストを入力処理するテキス
ト入力処理方法であって、前記テキストを構成する複数
の文節のいずれか一つが、複数の異音語を含む発音文字
列の候補を有する音声認識結果を記憶する記憶ステップ
と、前記複数の文節のそれぞれの発音文字列を組み合わ
せて表示する表示ステップと、前記いずれか一つの文節
について、前記発音文字列の候補を一覧表示する候補表
示ステップと、一覧表示された前記候補のなかから、い
ずれか一つの異音語をユーザに選択させるための選択ス
テップと、具備することを特徴とするテキスト入力処理
方法である。

【００１０】また、本発明に係る第２のテキスト入力処
理方法は、音声認識を利用してテキストを入力処理する
テキスト入力処理方法であって、前記テキストを構成す
る複数の文節のいずれか一つが、複数の異音語を含む発
音文字列の候補、および、表記が異なる複数の同音語を
含む漢字仮名混じり文字列の候補を有する音声認識結果
を記憶する記憶ステップと、前記複数の文節のそれぞれ
の発音文字列の一つを組み合わせて表示する第１表示ス
テップと、前記複数の文節のそれぞれの漢字仮名混じり
文字列の一つを組み合わせて表示する第２表示ステップ
と、前記いずれか一つの文節について、前記発音文字列
の候補を一覧表示する第１候補表示ステップと、前記い
ずれか一つの文節について、前記漢字仮名混じり文字列
の候補を一覧表示する第２候補表示ステップと、一覧表
示された前記発音文字列の候補のなかから、いずれか一
つの異音語をユーザに選択させるための第１選択ステッ
プと、一覧表示された前記漢字仮名混じり文字列の候補
のなかから、いずれか一つの同音語をユーザに選択させ
るための第２選択ステップと、を具備することを特徴と
するテキスト入力処理方法である。

【００１１】本発明に係る第１のプログラムは、音声認
識を利用したテキストの入力を処理するプログラムであ
って、コンピュータを、前記テキストを構成する複数の
文節のいずれか一つが、複数の異音語を含む発音文字列
の候補を有する音声認識結果を記憶する記憶手段、前記
複数の文節のそれぞれの発音文字列を組み合わせて表示
する表示手段、前記いずれか一つの文節について、前記
発音文字列の候補を一覧表示する候補表示手段、一覧表
示された前記候補のなかから、いずれか一つの異音語を
ユーザに選択させるための選択手段、として機能させる
ためのプログラムである。

【００１２】また、本発明に係る第２のプログラムは、
音声認識を利用したテキストの入力を処理するプログラ
ムであって、コンピュータを、前記テキストを構成する
複数の文節のいずれか一つが、複数の異音語を含む発音
文字列の候補、および、表記が異なる複数の同音語を含
む漢字仮名混じり文字列の候補を有する音声認識結果を
記憶する記憶手段、前記複数の文節のそれぞれの発音文
字列の一つを組み合わせて表示する第１表示手段、前記
複数の文節のそれぞれの漢字仮名混じり文字列の一つを
組み合わせて表示する第２表示手段、前記いずれか一つ
の文節について、前記発音文字列の候補を一覧表示する
第１候補表示手段、前記いずれか一つの文節について、
前記漢字仮名混じり文字列の候補を一覧表示する第２候
補表示手段、一覧表示された前記発音文字列の候補のな
かから、いずれか一つの異音語をユーザに選択させるた
めの第１選択手段、一覧表示された前記漢字仮名混じり
文字列の候補のなかから、いずれか一つの同音語をユー
ザに選択させるための第２選択手段、として機能させる
ためのプログラムである。

【００１３】

【発明の実施の形態】以下、図面を参照しながら本発明
の実施形態を説明する。

【００１４】図１は、本発明に係るテキスト入力装置の
一実施形態の概略構成を示すブロック図である。本実施
形態のテキスト入力装置は、例えば汎用のコンピュータ
に、音声認識に係るデバイスを設けたものをベースとし
て構成することができ、マイクロホン等の音声入力デバ
イスに結合され、ユーザが発した音声を入力する音声入
力部１１と、音声入力部１１に入力された音声を認識す
る音声認識部１２と、音声認識部１２による音声認識結
果を保持する候補情報保持部１３と、キーボードやマウ
ス等の入力デバイスに結合され、ユーザが行った候補選
択操作についての情報を入力する候補選択操作部１４
と、選択的な候補表示の制御を司る本実施形態の主要部
であって、候補選択操作部１４から入力される操作情報
に従い、候補情報保持部１３が保持する認識結果の情報
から、適切な候補表示情報を作成する候補表示制御部１
５と、候補表示制御部１５において作成された候補表示
情報をディスプレイ上に表示する表示部１６と、から構
成されている。

【００１５】本発明に対応する主要な構成要素は、候補
情報保持部１３、候補表示制御部１５、および候補選択
操作部１４であり、これらの構成要素は例えばコンピュ
ータソフトウェアによって実現することができる。

【００１６】図２は、図１における音声認識部１２の概
略構成を示すブロック図である。図２に示すように、音
声認識部１２は、音声データを入力する音声入力部２１
と、音声入力部２１を介して入力された音声データに対
して、信号処理及び分析を行い、発声部分を検出して切
り出したり、特徴量を抽出してパラメータ化する等の音
響的な処理を行う音響処理部２２と、音響処理部２２に
よってパラメータ化された音声情報を、単語辞書２６に
登録されている単語で構成される単語列と照合する照合
部２３と、照合部２３における照合処理において参照さ
れ、ＨＭＭ（隠れマルコフモデル）等から構成される音
響辞書２４と、同じく照合部２３における照合処理にお
いて参照され、統計的言語モデル（ｎ−ｇｒａｍ）等か
ら構成される言語辞書２５と、照合部２３における照合
処理の結果として得られる単語列を解析し、これを文節
単位に再構成したり、同音語の展開を行ったりする言語
処理部２７と、言語処理部２７における言語処理におい
て参照され、単語についての種々の情報を格納してなる
単語辞書２８と、言語処理部２７における言語処理結果
についての履歴を管理し、候補出力を行う候補出力部２
９と、によって構成されている。

【００１７】以上のように構成された本実施形態におい
て、ユーザが発声した音声が音声入力部１１に入力さ
れ、発声終了直後に音声認識部１２においてその一回の
発声が認識されたとする。ここで、音声認識部１２によ
り図３又は図４のような候補情報が出力され、候補情報
保持部１３に格納された場合を例に挙げて説明する。

【００１８】認識結果の候補情報を候補情報保持部１３
から受け取ると、候補表示制御部１５は、直ちに、最も
適切と判定された読み（発音）と見出しの組を使用し、
表示部１６に図５に示すような「読み（発音）」を併記
した候補表示を行わせる。かかる「読み」は、いわゆる
「ルビ（読み仮名）」と同様の情報である。

【００１９】ここで、候補選択操作部１４は、表示部１
６の表示に対し、ユーザがキーボードやマウス等で候補
選択の対象とする部分を選択指定したり、候補表示を実
行する操作を行ったり、表示された複数候補の中から別
の候補を選択指定したりするための操作インターフェー
スを提供する。その詳細については後述する。

【００２０】次に、音声認識部１２が出力する候補情報
について説明する。

【００２１】図３は、音声認識部１２が出力する候補情
報の一例を示している。候補情報には、音声認識部１２
により複数得られた音声認識結果について、最も適切と
判定された（一位）系列のほか、文節の境界が同じにな
る複数の候補が格納される。各々の候補は、読み（発音
文字列）と見出し（漢字仮名混じりの表記）の情報を有
する。また、候補情報には、同一の読み（発音）で異な
る表記の（同音語）候補や、読み（発音）の異なる（異
音語、異なり語）候補も格納される。

【００２２】図３に示すように、文節番号１として、音
声中の位置０から４０までの区間で認識された「こころ
から」の発音の候補が同音語を含めて２つ格納されてい
る。この中で最も適切と判定されている表記は「心か
ら」である。

【００２３】また、文節番号２として、文節番号１に続
く位置４０から６０までの区間で認識された「あつく」
「あつくも」の２つの発音の候補が同音語を含めて計１
０個格納されている。この中では「熱く」が最も適切と
判定されている。同音語としては「厚く」などがある。

【００２４】さらに、文節番号３として、文節番号２に
続く位置６０から８８までの区間で認識された「おれ
い」「おんれい」「おんで」「おれへ」の４つの発音の
候補が同音語を含めて計１１個格納されている。この中
で「お礼」が最も適切と判定されている。同じ区間の異
音語の各々の発音の候補中では、「御礼（おんれい）」
「恩で（おんで）」「俺へ（おれへ）」が最も適切と判
定されている。

【００２５】図４は、音声認識部１２が出力する候補情
報の他の例を示している。この候補情報は、文節番号１
乃至３は図３のものと同様である。そして、文節番号４
として、音声中の位置０から３６までの区間で認識され
た「ここのか」が格納され、文節番号７として、これに
続く位置３６から５２までの区間で認識された「だす」
が格納され、文節番号９として、これに続く位置５２か
ら８８までの区間で認識された「こんれい」が、各々、
同音語を含めて格納されている。これらの候補中では
「９日」「出す」「婚礼」が最も適切と判定されてい
る。

【００２６】さらにこの図４の候補情報では、文節番号
５として、音声中の位置０から３２までの区間で認識さ
れた「ここも」、文節番号６として、これに続く位置３
２から４６までの区間で認識された「ただ」、文節番号
８として、これに続く位置４６から８８までの区間で認
識された「すっとんで」が、各々、同音語を含めて格納
されている。これらの候補中では「ここも」「ただ」
「すっ飛んで」が最も適切と判定されている。

【００２７】すなわち、文節番号１乃至３の「心から」
「熱く」「お礼」が一位系列であり、文節の境界が異な
る他の系列として、文節番号４及び７並びに９の「９日
（ここのか）」「出す」「婚礼」や、文節番号５及び６
並びに８の「ここも」「ただ」「すっ飛んで」が格納さ
れている。

【００２８】ここで、候補選択操作部１４及び候補表示
制御部１５並びに表示部１６の動作について説明する。

【００２９】表示部１６では、初期状態では図５に示す
ように、「こころから／心から」「あつく／熱く」「お
れい／お礼」「もうしあげます／申し上げます」が表示
されているとする。

【００３０】先ず、ユーザにより、「見出し」に対する
候補表示指示が行われた場合、例えば「熱く」を選択し
て候補表示指示が行われた場合について説明する。かか
る操作が行われると、その操作情報が候補選択操作部１
４を通じて候補表示制御部１５に与えられる。候補表示
制御部１５は、候補情報保持部１３に保持されている候
補情報中の「熱く」に対応する候補のうち、「熱く」の
同音語である候補を図６のように表示部１６に表示させ
る。

【００３１】ここで、本実施形態は、候補表示制御部１
５に所定のモード切替操作が与えられると、候補表示制
御部１５は、図６に示した表示情報に代えて、図７のよ
うに、読み（発音）の異なる候補（異音語、異なり語）
までをも含めた候補表示を行うよう構成される。図６及
び図７の候補表示は、上記モード切替操作に応じて相互
に切り替え可能に構成されることが好ましい。

【００３２】さらに、ここで、図６（又は図７）の表示
候補のうち、「厚く」を選択指定する操作が行われる
と、表示部１６は選択された「厚く」を図８のように表
示する。また、図７で表示された候補のうち、「厚く
も」を選択指定する操作を行うと、表示部１６は選択さ
れた「厚くも」とその読み（発音）「あつくも」を図９
のように表示する。

【００３３】次に、ユーザにより「読み」に対する候補
表示指示が行われた場合、例えば「おれい」選択して候
補表示の指示が与えられた場合について説明する。かか
る操作が行われた場合は、候補情報の中の「お礼」に対
応する候補のうち、「おれい」と異なる読み（発音）を
図１０のように表示する。このとき、図１１のように、
読み（発音）の他に表記を合わせて表示するモードとの
切り替えを可能にしておくことが好ましい。表記は、そ
の読み（発音）に対応する候補の中で最も適切と判定さ
れた表記を表示するとよい。

【００３４】ここで、図１０の表示候補のうち、「おん
れい」を選択指定する操作が行われると、表示部１６は
選択された「おんれい」と、それに対応する表記「御
礼」を図１２のように表示する。なお、図１１で表示さ
れた候補のうち、「おんれい／御礼」を選択する操作を
行った場合も同様である。

【００３５】以上のような本実施形態によれば、ユーザ
は、「見出し」及び「読み」についての選択的な候補表
示に基づき、読み（発音）及び表記の適切な組み合わせ
を容易に得て、所望のテキストを入力処理（修正など）
することができる。

【００３６】ここで、上述した構成に基づく他の候補表
示処理について説明する。他の候補表示処理は、見出し
の表示を行わず、「読み」のみの表示を行うというもの
である。

【００３７】候補表示制御部１５は、最も適切と判定さ
れた読み（発音）のみを使用して、表示部１６に、図１
３に示すような読み（発音）のみの候補表示を行わせ
る。

【００３８】この場合、「おれい」の読み（発音）を選
択して候補表示する指示が候補選択操作部１４を介して
ユーザから与えられた場合には、候補情報の中の「お
礼」に対応する候補のうち、「おれい」と異なる読み
（発音）を含めて図１４のように表示する。このとき、
図１５のように、読み（発音）の他に、対応する最も適
切な表記を合わせて表示するモードとの切り替えを可能
にしてくことが好ましい。

【００３９】さらにここで、図１４で表示された候補の
うち、「おんれい」を選択指定する操作がユーザにより
行われると、表示部１６は、選択された「おんれい」を
図１６のように表示する。図１５で表示された候補のう
ち、「おんれい／御礼」を選択する操作を行った場合に
ついても同様である。

【００４０】次に、候補表示制御部１５における処理内
容について、図１７のフローチャートを参照して説明す
る。

【００４１】候補表示制御部１５では、音声認識部１２
から候補情報が入力されると、候補情報保持部１３にそ
の候補情報を保持する（ステップＳ３１）。

【００４２】次に、候補情報の中で最も適切と判定され
ている一位系列の候補情報を候補情報保持部１３から取
得し（ステップＳ３２）、見出しを表示するか否かの設
定情報を判定する（ステップＳ３３）。この設定情報
を、ユーザが設定できるよう構成してもよい。

【００４３】見出しを表示する設定の場合は、読み（発
音）と見出しの組を使用した表示情報を作成する（ステ
ップＳ３４）。一方、見出しを表示しない設定の場合
は、読み（発音）のみを使用した表示情報を作成し（ス
テップＳ３５）、表示部１６における表示を行わせる
（ステップＳ３６）。なお、ステップＳ３６における表
示は、一位系列の候補情報の表示である。

【００４４】その後、候補表示制御部１５は、ユーザか
らの候補表示指示を受け付けるための待機状態に移行す
る（ステップＳ３７）。

【００４５】ここで、候補表示の指示がユーザから与え
られると、候補選択用候補の表示情報が作成（ステップ
Ｓ３８）され、表示部１６により表示が行われる。同ス
テップＳ３８の処理内容については後述する。この候補
表示動作に続いて、ユーザからの候補選択操作を受け入
れるための待機状態に移行する（ステップＳ３９）。

【００４６】ここで、候補選択する操作が行われると、
指定された候補の読み（発音）と見出しの組を使用し
て、表示部１６の表示を更新し（ステップＳ４０）、再
びユーザからの候補表示操作を受け入れるための待機状
態に入る（ステップＳ３７）。

【００４７】次に、候補表示制御部１５における候補選
択用の候補表示処理（ステップＳ３８）の詳細につい
て、図１８のフローチャートを参照して説明する。

【００４８】先ず、候補表示する旨のユーザからの指示
操作（例えばマウスクリックなど）を検知すると、指定
された箇所が見出しであるか、読み（発音）であるかを
判定する（ステップＳ４１）。見出しが指定された場合
は、全候補を表示するか否かについての所定の設定内容
を参照する（ステップＳ４２）。全候補を表示しない設
定の場合は、候補情報保持部１３から例えば同音語の候
補のみを抽出する（ステップＳ４３）。全候補を表示す
る設定の場合は、同じ区間内の全ての候補を抽出する
（ステップＳ４４）。これら設定に応じて抽出された候
補は、ステップＳ４５において表示部１６に表示され
る。

【００４９】一方、上記ステップＳ４１において、指定
箇所が読み（発音）であった旨判定された場合は、候補
情報保持部１３から、異なる読み（発音）の候補であっ
て、読み（発音）ごとに最も適切と判定された表記の候
補をステップＳ４６において抽出する。さらに、見出し
表示を併用するか否かについての所定の設定内容を参照
する（ステップＳ４７）。かかる設定内容に応じて、読
み（発音）のみを候補表示する（ステップＳ４８）か、
読み（発音）と表記（見出し）を合わせて候補表示する
（ステップＳ４９）かについて、処理動作が選択され
る。かかる動作ののち、ステップＳ４５において、表示
部１６に候補表示がなされる。

【００５０】ここで、上記実施形態の変形例について説
明する。

【００５１】上記実施形態では、見出しと組み合わせて
表示される発音文字列として平仮名の「読み」を使用し
たが、片仮名やローマ字を使用してもよい。また、「お
礼」に対して「おれい」ではなく「おれー」というよう
な実際の発音に近い表記を使用してもよい。さらにアク
セント型を表す表示を付加してもよい。

【００５２】また、上記実施形態では、日本語を対象と
しているが、他の言語でもよい。例えば中国語を対象と
し、発音文字列としてピンインや注音符号を使用しても
よい。また、声調の表示を付加してもよい。

【００５３】また、上記実施形態では、候補表示を文節
単位で行っているが、単語その他の単位で行ってもよ
い。

【００５４】また、候補選択操作の方法については、キ
ーボードやマウスのほか、ペン、音声操作等を利用して
行ってもよく、選択対象を指定して実行を指示すること
のできる任意のデバイスについて、本発明は適用可能で
ある。

【００５５】また、上記実施形態は、いわゆるポップア
ップウィンドウによって候補表示しているが、画面の下
端などの別領域に列挙表示するなどの方法としてもよ
い。

【００５６】また、上記実施形態では、同一の読み（発
音）で異なる表記の候補を、予め音声認識処理の中で生
成しているが、音声認識処理の中では読み（発音）の異
なるものを扱い、異なる表記の候補に展開する言語処理
を別途行うように構成してもよい。異なる表記の候補展
開は、例えば候補表示操作がなされたときに行えばよ
い。

【００５７】また、上記実施形態では、音声認識部１２
中に言語処理部２７が含まれる構成としているが、同処
理部２７に代えて、主にキーボード入力を処理する仮名
漢字変換等の言語処理部を使用することとし、音声認識
部１２に外付けする構成としてもよい。

【００５８】なお、本発明は上述した実施形態及び変形
例に限定されず、さらに種々変形して実施可能である。
本発明は、各種情報処理装置におけるテキスト入力のた
めの手段の構成方法として有効であり、パーソナルコン
ピュータのソフトウェア、ワードプロセッサ装置、携帯
情報機器等に幅広く利用可能である。

【００５９】

【発明の効果】以上説明したように、本発明によれば、
音声認識結果に基づく入力テキストの編集をユーザが適
切且つ容易に行えるユーザインタフェースを備えたテキ
スト入力装置、方法、およびプログラムを提供できる。

【図面の簡単な説明】

【図１】本発明に係るテキスト入力装置の一実施形態の
概略構成を示すブロック図

【図２】図１に示す音声認識部１２の概略構成を示すブ
ロック図

【図３】音声認識部１２が出力する候補情報の一例を示
す図

【図４】音声認識部１２が出力する候補情報の他の例を
示す図

【図５】初期状態における音声入力テキストを示す図

【図６】「見出し」に対する候補表示指示が行われた場
合を説明するための図

【図７】図６の表示内容に加え、読み（発音）の異なる
候補（異音語、異なり語）までをも含めた候補表示を行
う場合を示す図

【図８】図６の表示候補に対する選択操作後を示す図

【図９】図７の表示候補に対する選択操作後を示す図

【図１０】「読み」に対する候補表示指示が行われた場
合を説明するための図

【図１１】読み（発音）の他に、表記を合わせて候補表
示する場合を説明するための図

【図１２】図１０の表示候補に対する選択操作後を示す
図

【図１３】見出しの表示を行わず、「読み」のみの表示
を行う実施形態を説明するための図

【図１４】図１３の表示に対して、ある「読み」に対し
て候補表示する旨の指示がなされた場合を説明するため
の図

【図１５】読み（発音）の他に、対応する最も適切な表
記を合わせて候補表示する場合を説明するための図

【図１６】図１４の表示候補に対する選択操作後を示す
図

【図１７】候補表示制御部１５における処理内容の一例
を示すフローチャート

【図１８】図１７のフローチャートにおける候補選択用
表示処理（ステップＳ３８）の内容を示すフローチャー
ト

【符号の説明】

１１…音声入力部１２…音声認識部１３…候補情報保持部１４…候補選択操作部１５…候補表示制御部１６…表示部２１…音声入力部２２…音響処理部２３…照合部２４…音響辞書（ＨＭＭ）２５…言語辞書（ｎ−ｇｒａｍ）２６…単語辞書２７…言語処理部２８…単語辞書２９…候補出力部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/18 Ｇ１０Ｌ 3/00 ５３７Ｄ 15/22 ５６１Ｃ

Claims

【特許請求の範囲】

【請求項１】音声認識を利用してテキストを入力処理
するテキスト入力処理装置であって、前記テキストを構成する複数の文節のいずれか一つが、
複数の異音語を含む発音文字列の候補を有する音声認識
結果を記憶する記憶手段と、前記複数の文節のそれぞれの発音文字列を組み合わせて
表示する表示手段と、前記いずれか一つの文節について、前記発音文字列の候
補を一覧表示する候補表示手段と、一覧表示された前記候補のなかから、いずれか一つの異
音語をユーザに選択させるための選択手段と、を具備す
ることを特徴とするテキスト入力処理装置。
【請求項２】音声認識を利用してテキストを入力処理
するテキスト入力処理装置であって、前記テキストを構成する複数の文節のいずれか一つが、
複数の異音語を含む発音文字列の候補、および、表記が
異なる複数の同音語を含む漢字仮名混じり文字列の候補
を有する音声認識結果を記憶する記憶手段と、前記複数の文節のそれぞれの発音文字列の一つを組み合
わせて表示する第１表示手段と、前記複数の文節のそれぞれの漢字仮名混じり文字列の一
つを組み合わせて表示する第２表示手段と、前記いずれか一つの文節について、前記発音文字列の候
補を一覧表示する第１候補表示手段と、前記いずれか一つの文節について、前記漢字仮名混じり
文字列の候補を一覧表示する第２候補表示手段と、一覧表示された前記発音文字列の候補のなかから、いず
れか一つの異音語をユーザに選択させるための第１選択
手段と、一覧表示された前記漢字仮名混じり文字列の候補のなか
から、いずれか一つの同音語をユーザに選択させるため
の第２選択手段と、を具備することを特徴とするテキス
ト入力処理装置。
【請求項３】前記音声認識は日本語を対象とし、前記
発音文字列は、平仮名、片仮名、ローマ字のいずれかで
あることを特徴とする請求項１又は２のいずれか一項に
記載のテキスト入力処理装置。
【請求項４】前記漢字仮名混じり文字列の候補は、前
記同音語に加えて異音語をも含むことを特徴とする請求
項２又は３のいずれか一項に記載のテキスト入力処理装
置。
【請求項５】前記第１選択手段により選択された異音
語の発音文字列によって、前記第１表示手段により表示
されている発音文字列を置き換えることを特徴とする請
求項１乃至４のいずれか一項に記載のテキスト入力処理
装置。
【請求項６】前記第２選択手段により選択された同音
語又は異音語の漢字仮名混じり文字列によって、前記第
２表示手段により表示されている漢字仮名混じり文字列
を置き換えることを特徴とする請求項２乃至５のいずれ
か一項に記載のテキスト入力処理装置。
【請求項７】前記第１選択手段により選択された異音
語に対応する漢字仮名混じり文字列によって、前記第２
表示手段により表示されている漢字仮名混じり文字列を
置き換えることを特徴とする請求項２乃至６のいずれか
一項に記載のテキスト入力処理装置。
【請求項８】音声認識を利用してテキストを入力処理
するテキスト入力処理方法であって、前記テキストを構成する複数の文節のいずれか一つが、
複数の異音語を含む発音文字列の候補を有する音声認識
結果を記憶する記憶ステップと、前記複数の文節のそれぞれの発音文字列を組み合わせて
表示する表示ステップと、前記いずれか一つの文節について、前記発音文字列の候
補を一覧表示する候補表示ステップと、一覧表示された前記候補のなかから、いずれか一つの異
音語をユーザに選択させるための選択ステップと、を具
備することを特徴とするテキスト入力処理方法。
【請求項９】音声認識を利用してテキストを入力処理
するテキスト入力処理方法であって、前記テキストを構成する複数の文節のいずれか一つが、
複数の異音語を含む発音文字列の候補、および、表記が
異なる複数の同音語を含む漢字仮名混じり文字列の候補
を有する音声認識結果を記憶する記憶ステップと、前記複数の文節のそれぞれの発音文字列の一つを組み合
わせて表示する第１表示ステップと、前記複数の文節のそれぞれの漢字仮名混じり文字列の一
つを組み合わせて表示する第２表示ステップと、前記いずれか一つの文節について、前記発音文字列の候
補を一覧表示する第１候補表示ステップと、前記いずれか一つの文節について、前記漢字仮名混じり
文字列の候補を一覧表示する第２候補表示ステップと、一覧表示された前記発音文字列の候補のなかから、いず
れか一つの異音語をユーザに選択させるための第１選択
ステップと、一覧表示された前記漢字仮名混じり文字列の候補のなか
から、いずれか一つの同音語をユーザに選択させるため
の第２選択ステップと、を具備することを特徴とするテ
キスト入力処理方法。
【請求項１０】音声認識を利用したテキストの入力を
処理するプログラムであって、コンピュータを、前記テキストを構成する複数の文節のいずれか一つが、
複数の異音語を含む発音文字列の候補を有する音声認識
結果を記憶する記憶手段、前記複数の文節のそれぞれの発音文字列を組み合わせて
表示する表示手段、前記いずれか一つの文節について、前記発音文字列の候
補を一覧表示する候補表示手段、一覧表示された前記候補のなかから、いずれか一つの異
音語をユーザに選択させるための選択手段、として機能
させるためのプログラム。
【請求項１１】音声認識を利用したテキストの入力を
処理するプログラムであって、コンピュータを、前記テキストを構成する複数の文節のいずれか一つが、
複数の異音語を含む発音文字列の候補、および、表記が
異なる複数の同音語を含む漢字仮名混じり文字列の候補
を有する音声認識結果を記憶する記憶手段、前記複数の文節のそれぞれの発音文字列の一つを組み合
わせて表示する第１表示手段、前記複数の文節のそれぞれの漢字仮名混じり文字列の一
つを組み合わせて表示する第２表示手段、前記いずれか一つの文節について、前記発音文字列の候
補を一覧表示する第１候補表示手段、前記いずれか一つの文節について、前記漢字仮名混じり
文字列の候補を一覧表示する第２候補表示手段、一覧表示された前記発音文字列の候補のなかから、いず
れか一つの異音語をユーザに選択させるための第１選択
手段、一覧表示された前記漢字仮名混じり文字列の候補のなか
から、いずれか一つの同音語をユーザに選択させるため
の第２選択手段、として機能させるためのプログラム。