JP2003202886A - テキスト入力処理装置及び方法並びにプログラム - Google Patents

テキスト入力処理装置及び方法並びにプログラム

Info

Publication number
JP2003202886A
JP2003202886A JP2001401299A JP2001401299A JP2003202886A JP 2003202886 A JP2003202886 A JP 2003202886A JP 2001401299 A JP2001401299 A JP 2001401299A JP 2001401299 A JP2001401299 A JP 2001401299A JP 2003202886 A JP2003202886 A JP 2003202886A
Authority
JP
Japan
Prior art keywords
character string
candidate
candidates
clauses
displaying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001401299A
Other languages
English (en)
Other versions
JP3762300B2 (ja
Inventor
Kohei Momozaki
浩平 桃崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2001401299A priority Critical patent/JP3762300B2/ja
Publication of JP2003202886A publication Critical patent/JP2003202886A/ja
Application granted granted Critical
Publication of JP3762300B2 publication Critical patent/JP3762300B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】音声認識結果に基づく入力テキストの編集をユ
ーザが適切且つ容易に行えるユーザインタフェースを備
えたテキスト入力装置、方法、およびプログラムを提供
することを目的とする 【解決手段】音声認識を利用したテキストの入力を行う
ディクテーション機能を提供するテキスト入力処理装置
において、見出しと発音文字列とを対応させ、併記す
る。見出しを指定した候補一覧において発音が同じ候補
を表示する。一方、発音文字列を指定した候補一覧では
発音の異なる候補を表示する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、広くは自然言語処
理に関し、特に、音声でテキスト(文章)の入力を行う
ディクテーション機能を提供する音声認識技術を利用し
たテキスト入力処理装置及び方法並びにプログラムに関
する。
【0002】
【従来の技術】音声認識技術を利用したテキスト入力処
理装置の従来例では、単純な漢字仮名混じり表記のテキ
スト形式で音声認識結果を表示するようにしている。こ
のような音声認識に基づく入力テキストを修正する際、
修正対象を選択して候補表示する操作を行うと、従来例
では、表記が違う候補や発音が違う候補などが全て表示
されるものとなっていた。このような従来例では、音声
認識結果に基づいて表示された入力テキストがユーザの
想定していたものと異なる場合に、それが同音語内の表
記の違いなのか、それとも音の違いなのか、あるいは単
語等の分割単位の違いなのか、といったことの判別が難
しいという問題点がある。特に、ユーザが知らない単語
や読めない単語が表示されてしまい、それがテキスト修
正を困難にするということは、キーボード等によるテキ
スト入力とは違った音声認識に基づくテキスト入力に特
有の問題点である。
【0003】また、修正候補の選択において、表記が違
う候補や発音が違う候補など複数の要因による認識候補
が全て表示されるので、目的の候補を見つけだすのに時
間がかかり、操作が煩雑になるという問題点もある。ま
た、候補選択状態に移行した後に、新たな操作ステップ
を経て初めて表示がなされるよう構成されている場合な
ども、ユーザが目的とする候補が得られるまでの操作が
煩雑になる。
【0004】このように、音声認識技術を利用したテキ
スト入力処理装置の従来例には、入力音声テキストの修
正(広義には編集)操作を容易に行えるようなユーザイ
ンターフェースが提供されることが望まれている。
【0005】
【発明が解決しようとする課題】本発明は、かかる事情
を考慮してなされたものであり、音声認識結果に基づく
入力テキストの編集をユーザが適切且つ容易に行えるユ
ーザインタフェースを備えたテキスト入力装置、方法、
及びプログラムを提供することを目的とする。
【0006】
【課題を解決するための手段】上記課題を解決し目的を
達成するために本発明は次のように構成されている。
【0007】本発明に係る第1のテキスト入力処理装置
は、音声認識を利用してテキストを入力処理するテキス
ト入力処理装置であって、前記テキストを構成する複数
の文節のいずれか一つが、複数の異音語を含む発音文字
列の候補を有する音声認識結果を記憶する記憶手段と、
前記複数の文節のそれぞれの発音文字列を組み合わせて
表示する表示手段と、前記いずれか一つの文節につい
て、前記発音文字列の候補を一覧表示する候補表示手段
と、一覧表示された前記候補のなかから、いずれか一つ
の異音語をユーザに選択させるための選択手段と、を具
備することを特徴とするテキスト入力処理装置である。
【0008】また、本発明に係る第2のテキスト入力処
理装置は、音声認識を利用してテキストを入力処理する
テキスト入力処理装置であって、前記テキストを構成す
る複数の文節のいずれか一つが、複数の異音語を含む発
音文字列の候補、および、表記が異なる複数の同音語を
含む漢字仮名混じり文字列の候補を有する音声認識結果
を記憶する記憶手段と、前記複数の文節のそれぞれの発
音文字列の一つを組み合わせて表示する第1表示手段
と、前記複数の文節のそれぞれの漢字仮名混じり文字列
の一つを組み合わせて表示する第2表示手段と、前記い
ずれか一つの文節について、前記発音文字列の候補を一
覧表示する第1候補表示手段と、前記いずれか一つの文
節について、前記漢字仮名混じり文字列の候補を一覧表
示する第2候補表示手段と、一覧表示された前記発音文
字列の候補のなかから、いずれか一つの異音語をユーザ
に選択させるための第1選択手段と、一覧表示された前
記漢字仮名混じり文字列の候補のなかから、いずれか一
つの同音語をユーザに選択させるための第2選択手段
と、を具備することを特徴とするテキスト入力処理装置
である。
【0009】本発明に係る第1のテキスト入力処理方法
は、音声認識を利用してテキストを入力処理するテキス
ト入力処理方法であって、前記テキストを構成する複数
の文節のいずれか一つが、複数の異音語を含む発音文字
列の候補を有する音声認識結果を記憶する記憶ステップ
と、前記複数の文節のそれぞれの発音文字列を組み合わ
せて表示する表示ステップと、前記いずれか一つの文節
について、前記発音文字列の候補を一覧表示する候補表
示ステップと、一覧表示された前記候補のなかから、い
ずれか一つの異音語をユーザに選択させるための選択ス
テップと、具備することを特徴とするテキスト入力処理
方法である。
【0010】また、本発明に係る第2のテキスト入力処
理方法は、音声認識を利用してテキストを入力処理する
テキスト入力処理方法であって、前記テキストを構成す
る複数の文節のいずれか一つが、複数の異音語を含む発
音文字列の候補、および、表記が異なる複数の同音語を
含む漢字仮名混じり文字列の候補を有する音声認識結果
を記憶する記憶ステップと、前記複数の文節のそれぞれ
の発音文字列の一つを組み合わせて表示する第1表示ス
テップと、前記複数の文節のそれぞれの漢字仮名混じり
文字列の一つを組み合わせて表示する第2表示ステップ
と、前記いずれか一つの文節について、前記発音文字列
の候補を一覧表示する第1候補表示ステップと、前記い
ずれか一つの文節について、前記漢字仮名混じり文字列
の候補を一覧表示する第2候補表示ステップと、一覧表
示された前記発音文字列の候補のなかから、いずれか一
つの異音語をユーザに選択させるための第1選択ステッ
プと、一覧表示された前記漢字仮名混じり文字列の候補
のなかから、いずれか一つの同音語をユーザに選択させ
るための第2選択ステップと、を具備することを特徴と
するテキスト入力処理方法である。
【0011】本発明に係る第1のプログラムは、音声認
識を利用したテキストの入力を処理するプログラムであ
って、コンピュータを、前記テキストを構成する複数の
文節のいずれか一つが、複数の異音語を含む発音文字列
の候補を有する音声認識結果を記憶する記憶手段、前記
複数の文節のそれぞれの発音文字列を組み合わせて表示
する表示手段、前記いずれか一つの文節について、前記
発音文字列の候補を一覧表示する候補表示手段、一覧表
示された前記候補のなかから、いずれか一つの異音語を
ユーザに選択させるための選択手段、として機能させる
ためのプログラムである。
【0012】また、本発明に係る第2のプログラムは、
音声認識を利用したテキストの入力を処理するプログラ
ムであって、コンピュータを、前記テキストを構成する
複数の文節のいずれか一つが、複数の異音語を含む発音
文字列の候補、および、表記が異なる複数の同音語を含
む漢字仮名混じり文字列の候補を有する音声認識結果を
記憶する記憶手段、前記複数の文節のそれぞれの発音文
字列の一つを組み合わせて表示する第1表示手段、前記
複数の文節のそれぞれの漢字仮名混じり文字列の一つを
組み合わせて表示する第2表示手段、前記いずれか一つ
の文節について、前記発音文字列の候補を一覧表示する
第1候補表示手段、前記いずれか一つの文節について、
前記漢字仮名混じり文字列の候補を一覧表示する第2候
補表示手段、一覧表示された前記発音文字列の候補のな
かから、いずれか一つの異音語をユーザに選択させるた
めの第1選択手段、一覧表示された前記漢字仮名混じり
文字列の候補のなかから、いずれか一つの同音語をユー
ザに選択させるための第2選択手段、として機能させる
ためのプログラムである。
【0013】
【発明の実施の形態】以下、図面を参照しながら本発明
の実施形態を説明する。
【0014】図1は、本発明に係るテキスト入力装置の
一実施形態の概略構成を示すブロック図である。本実施
形態のテキスト入力装置は、例えば汎用のコンピュータ
に、音声認識に係るデバイスを設けたものをベースとし
て構成することができ、マイクロホン等の音声入力デバ
イスに結合され、ユーザが発した音声を入力する音声入
力部11と、音声入力部11に入力された音声を認識す
る音声認識部12と、音声認識部12による音声認識結
果を保持する候補情報保持部13と、キーボードやマウ
ス等の入力デバイスに結合され、ユーザが行った候補選
択操作についての情報を入力する候補選択操作部14
と、選択的な候補表示の制御を司る本実施形態の主要部
であって、候補選択操作部14から入力される操作情報
に従い、候補情報保持部13が保持する認識結果の情報
から、適切な候補表示情報を作成する候補表示制御部1
5と、候補表示制御部15において作成された候補表示
情報をディスプレイ上に表示する表示部16と、から構
成されている。
【0015】本発明に対応する主要な構成要素は、候補
情報保持部13、候補表示制御部15、および候補選択
操作部14であり、これらの構成要素は例えばコンピュ
ータソフトウェアによって実現することができる。
【0016】図2は、図1における音声認識部12の概
略構成を示すブロック図である。図2に示すように、音
声認識部12は、音声データを入力する音声入力部21
と、音声入力部21を介して入力された音声データに対
して、信号処理及び分析を行い、発声部分を検出して切
り出したり、特徴量を抽出してパラメータ化する等の音
響的な処理を行う音響処理部22と、音響処理部22に
よってパラメータ化された音声情報を、単語辞書26に
登録されている単語で構成される単語列と照合する照合
部23と、照合部23における照合処理において参照さ
れ、HMM(隠れマルコフモデル)等から構成される音
響辞書24と、同じく照合部23における照合処理にお
いて参照され、統計的言語モデル(n−gram)等か
ら構成される言語辞書25と、照合部23における照合
処理の結果として得られる単語列を解析し、これを文節
単位に再構成したり、同音語の展開を行ったりする言語
処理部27と、言語処理部27における言語処理におい
て参照され、単語についての種々の情報を格納してなる
単語辞書28と、言語処理部27における言語処理結果
についての履歴を管理し、候補出力を行う候補出力部2
9と、によって構成されている。
【0017】以上のように構成された本実施形態におい
て、ユーザが発声した音声が音声入力部11に入力さ
れ、発声終了直後に音声認識部12においてその一回の
発声が認識されたとする。ここで、音声認識部12によ
り図3又は図4のような候補情報が出力され、候補情報
保持部13に格納された場合を例に挙げて説明する。
【0018】認識結果の候補情報を候補情報保持部13
から受け取ると、候補表示制御部15は、直ちに、最も
適切と判定された読み(発音)と見出しの組を使用し、
表示部16に図5に示すような「読み(発音)」を併記
した候補表示を行わせる。かかる「読み」は、いわゆる
「ルビ(読み仮名)」と同様の情報である。
【0019】ここで、候補選択操作部14は、表示部1
6の表示に対し、ユーザがキーボードやマウス等で候補
選択の対象とする部分を選択指定したり、候補表示を実
行する操作を行ったり、表示された複数候補の中から別
の候補を選択指定したりするための操作インターフェー
スを提供する。その詳細については後述する。
【0020】次に、音声認識部12が出力する候補情報
について説明する。
【0021】図3は、音声認識部12が出力する候補情
報の一例を示している。候補情報には、音声認識部12
により複数得られた音声認識結果について、最も適切と
判定された(一位)系列のほか、文節の境界が同じにな
る複数の候補が格納される。各々の候補は、読み(発音
文字列)と見出し(漢字仮名混じりの表記)の情報を有
する。また、候補情報には、同一の読み(発音)で異な
る表記の(同音語)候補や、読み(発音)の異なる(異
音語、異なり語)候補も格納される。
【0022】図3に示すように、文節番号1として、音
声中の位置0から40までの区間で認識された「こころ
から」の発音の候補が同音語を含めて2つ格納されてい
る。この中で最も適切と判定されている表記は「心か
ら」である。
【0023】また、文節番号2として、文節番号1に続
く位置40から60までの区間で認識された「あつく」
「あつくも」の2つの発音の候補が同音語を含めて計1
0個格納されている。この中では「熱く」が最も適切と
判定されている。同音語としては「厚く」などがある。
【0024】さらに、文節番号3として、文節番号2に
続く位置60から88までの区間で認識された「おれ
い」「おんれい」「おんで」「おれへ」の4つの発音の
候補が同音語を含めて計11個格納されている。この中
で「お礼」が最も適切と判定されている。同じ区間の異
音語の各々の発音の候補中では、「御礼(おんれい)」
「恩で(おんで)」「俺へ(おれへ)」が最も適切と判
定されている。
【0025】図4は、音声認識部12が出力する候補情
報の他の例を示している。この候補情報は、文節番号1
乃至3は図3のものと同様である。そして、文節番号4
として、音声中の位置0から36までの区間で認識され
た「ここのか」が格納され、文節番号7として、これに
続く位置36から52までの区間で認識された「だす」
が格納され、文節番号9として、これに続く位置52か
ら88までの区間で認識された「こんれい」が、各々、
同音語を含めて格納されている。これらの候補中では
「9日」「出す」「婚礼」が最も適切と判定されてい
る。
【0026】さらにこの図4の候補情報では、文節番号
5として、音声中の位置0から32までの区間で認識さ
れた「ここも」、文節番号6として、これに続く位置3
2から46までの区間で認識された「ただ」、文節番号
8として、これに続く位置46から88までの区間で認
識された「すっとんで」が、各々、同音語を含めて格納
されている。これらの候補中では「ここも」「ただ」
「すっ飛んで」が最も適切と判定されている。
【0027】すなわち、文節番号1乃至3の「心から」
「熱く」「お礼」が一位系列であり、文節の境界が異な
る他の系列として、文節番号4及び7並びに9の「9日
(ここのか)」「出す」「婚礼」や、文節番号5及び6
並びに8の「ここも」「ただ」「すっ飛んで」が格納さ
れている。
【0028】ここで、候補選択操作部14及び候補表示
制御部15並びに表示部16の動作について説明する。
【0029】表示部16では、初期状態では図5に示す
ように、「こころから/心から」「あつく/熱く」「お
れい/お礼」「もうしあげます/申し上げます」が表示
されているとする。
【0030】先ず、ユーザにより、「見出し」に対する
候補表示指示が行われた場合、例えば「熱く」を選択し
て候補表示指示が行われた場合について説明する。かか
る操作が行われると、その操作情報が候補選択操作部1
4を通じて候補表示制御部15に与えられる。候補表示
制御部15は、候補情報保持部13に保持されている候
補情報中の「熱く」に対応する候補のうち、「熱く」の
同音語である候補を図6のように表示部16に表示させ
る。
【0031】ここで、本実施形態は、候補表示制御部1
5に所定のモード切替操作が与えられると、候補表示制
御部15は、図6に示した表示情報に代えて、図7のよ
うに、読み(発音)の異なる候補(異音語、異なり語)
までをも含めた候補表示を行うよう構成される。図6及
び図7の候補表示は、上記モード切替操作に応じて相互
に切り替え可能に構成されることが好ましい。
【0032】さらに、ここで、図6(又は図7)の表示
候補のうち、「厚く」を選択指定する操作が行われる
と、表示部16は選択された「厚く」を図8のように表
示する。また、図7で表示された候補のうち、「厚く
も」を選択指定する操作を行うと、表示部16は選択さ
れた「厚くも」とその読み(発音)「あつくも」を図9
のように表示する。
【0033】次に、ユーザにより「読み」に対する候補
表示指示が行われた場合、例えば「おれい」選択して候
補表示の指示が与えられた場合について説明する。かか
る操作が行われた場合は、候補情報の中の「お礼」に対
応する候補のうち、「おれい」と異なる読み(発音)を
図10のように表示する。このとき、図11のように、
読み(発音)の他に表記を合わせて表示するモードとの
切り替えを可能にしておくことが好ましい。表記は、そ
の読み(発音)に対応する候補の中で最も適切と判定さ
れた表記を表示するとよい。
【0034】ここで、図10の表示候補のうち、「おん
れい」を選択指定する操作が行われると、表示部16は
選択された「おんれい」と、それに対応する表記「御
礼」を図12のように表示する。なお、図11で表示さ
れた候補のうち、「おんれい/御礼」を選択する操作を
行った場合も同様である。
【0035】以上のような本実施形態によれば、ユーザ
は、「見出し」及び「読み」についての選択的な候補表
示に基づき、読み(発音)及び表記の適切な組み合わせ
を容易に得て、所望のテキストを入力処理(修正など)
することができる。
【0036】ここで、上述した構成に基づく他の候補表
示処理について説明する。他の候補表示処理は、見出し
の表示を行わず、「読み」のみの表示を行うというもの
である。
【0037】候補表示制御部15は、最も適切と判定さ
れた読み(発音)のみを使用して、表示部16に、図1
3に示すような読み(発音)のみの候補表示を行わせ
る。
【0038】この場合、「おれい」の読み(発音)を選
択して候補表示する指示が候補選択操作部14を介して
ユーザから与えられた場合には、候補情報の中の「お
礼」に対応する候補のうち、「おれい」と異なる読み
(発音)を含めて図14のように表示する。このとき、
図15のように、読み(発音)の他に、対応する最も適
切な表記を合わせて表示するモードとの切り替えを可能
にしてくことが好ましい。
【0039】さらにここで、図14で表示された候補の
うち、「おんれい」を選択指定する操作がユーザにより
行われると、表示部16は、選択された「おんれい」を
図16のように表示する。図15で表示された候補のう
ち、「おんれい/御礼」を選択する操作を行った場合に
ついても同様である。
【0040】次に、候補表示制御部15における処理内
容について、図17のフローチャートを参照して説明す
る。
【0041】候補表示制御部15では、音声認識部12
から候補情報が入力されると、候補情報保持部13にそ
の候補情報を保持する(ステップS31)。
【0042】次に、候補情報の中で最も適切と判定され
ている一位系列の候補情報を候補情報保持部13から取
得し(ステップS32)、見出しを表示するか否かの設
定情報を判定する(ステップS33)。この設定情報
を、ユーザが設定できるよう構成してもよい。
【0043】見出しを表示する設定の場合は、読み(発
音)と見出しの組を使用した表示情報を作成する(ステ
ップS34)。一方、見出しを表示しない設定の場合
は、読み(発音)のみを使用した表示情報を作成し(ス
テップS35)、表示部16における表示を行わせる
(ステップS36)。なお、ステップS36における表
示は、一位系列の候補情報の表示である。
【0044】その後、候補表示制御部15は、ユーザか
らの候補表示指示を受け付けるための待機状態に移行す
る(ステップS37)。
【0045】ここで、候補表示の指示がユーザから与え
られると、候補選択用候補の表示情報が作成(ステップ
S38)され、表示部16により表示が行われる。同ス
テップS38の処理内容については後述する。この候補
表示動作に続いて、ユーザからの候補選択操作を受け入
れるための待機状態に移行する(ステップS39)。
【0046】ここで、候補選択する操作が行われると、
指定された候補の読み(発音)と見出しの組を使用し
て、表示部16の表示を更新し(ステップS40)、再
びユーザからの候補表示操作を受け入れるための待機状
態に入る(ステップS37)。
【0047】次に、候補表示制御部15における候補選
択用の候補表示処理(ステップS38)の詳細につい
て、図18のフローチャートを参照して説明する。
【0048】先ず、候補表示する旨のユーザからの指示
操作(例えばマウスクリックなど)を検知すると、指定
された箇所が見出しであるか、読み(発音)であるかを
判定する(ステップS41)。見出しが指定された場合
は、全候補を表示するか否かについての所定の設定内容
を参照する(ステップS42)。全候補を表示しない設
定の場合は、候補情報保持部13から例えば同音語の候
補のみを抽出する(ステップS43)。全候補を表示す
る設定の場合は、同じ区間内の全ての候補を抽出する
(ステップS44)。これら設定に応じて抽出された候
補は、ステップS45において表示部16に表示され
る。
【0049】一方、上記ステップS41において、指定
箇所が読み(発音)であった旨判定された場合は、候補
情報保持部13から、異なる読み(発音)の候補であっ
て、読み(発音)ごとに最も適切と判定された表記の候
補をステップS46において抽出する。さらに、見出し
表示を併用するか否かについての所定の設定内容を参照
する(ステップS47)。かかる設定内容に応じて、読
み(発音)のみを候補表示する(ステップS48)か、
読み(発音)と表記(見出し)を合わせて候補表示する
(ステップS49)かについて、処理動作が選択され
る。かかる動作ののち、ステップS45において、表示
部16に候補表示がなされる。
【0050】ここで、上記実施形態の変形例について説
明する。
【0051】上記実施形態では、見出しと組み合わせて
表示される発音文字列として平仮名の「読み」を使用し
たが、片仮名やローマ字を使用してもよい。また、「お
礼」に対して「おれい」ではなく「おれー」というよう
な実際の発音に近い表記を使用してもよい。さらにアク
セント型を表す表示を付加してもよい。
【0052】また、上記実施形態では、日本語を対象と
しているが、他の言語でもよい。例えば中国語を対象と
し、発音文字列としてピンインや注音符号を使用しても
よい。また、声調の表示を付加してもよい。
【0053】また、上記実施形態では、候補表示を文節
単位で行っているが、単語その他の単位で行ってもよ
い。
【0054】また、候補選択操作の方法については、キ
ーボードやマウスのほか、ペン、音声操作等を利用して
行ってもよく、選択対象を指定して実行を指示すること
のできる任意のデバイスについて、本発明は適用可能で
ある。
【0055】また、上記実施形態は、いわゆるポップア
ップウィンドウによって候補表示しているが、画面の下
端などの別領域に列挙表示するなどの方法としてもよ
い。
【0056】また、上記実施形態では、同一の読み(発
音)で異なる表記の候補を、予め音声認識処理の中で生
成しているが、音声認識処理の中では読み(発音)の異
なるものを扱い、異なる表記の候補に展開する言語処理
を別途行うように構成してもよい。異なる表記の候補展
開は、例えば候補表示操作がなされたときに行えばよ
い。
【0057】また、上記実施形態では、音声認識部12
中に言語処理部27が含まれる構成としているが、同処
理部27に代えて、主にキーボード入力を処理する仮名
漢字変換等の言語処理部を使用することとし、音声認識
部12に外付けする構成としてもよい。
【0058】なお、本発明は上述した実施形態及び変形
例に限定されず、さらに種々変形して実施可能である。
本発明は、各種情報処理装置におけるテキスト入力のた
めの手段の構成方法として有効であり、パーソナルコン
ピュータのソフトウェア、ワードプロセッサ装置、携帯
情報機器等に幅広く利用可能である。
【0059】
【発明の効果】以上説明したように、本発明によれば、
音声認識結果に基づく入力テキストの編集をユーザが適
切且つ容易に行えるユーザインタフェースを備えたテキ
スト入力装置、方法、およびプログラムを提供できる。
【図面の簡単な説明】
【図1】本発明に係るテキスト入力装置の一実施形態の
概略構成を示すブロック図
【図2】図1に示す音声認識部12の概略構成を示すブ
ロック図
【図3】音声認識部12が出力する候補情報の一例を示
す図
【図4】音声認識部12が出力する候補情報の他の例を
示す図
【図5】初期状態における音声入力テキストを示す図
【図6】「見出し」に対する候補表示指示が行われた場
合を説明するための図
【図7】図6の表示内容に加え、読み(発音)の異なる
候補(異音語、異なり語)までをも含めた候補表示を行
う場合を示す図
【図8】図6の表示候補に対する選択操作後を示す図
【図9】図7の表示候補に対する選択操作後を示す図
【図10】「読み」に対する候補表示指示が行われた場
合を説明するための図
【図11】読み(発音)の他に、表記を合わせて候補表
示する場合を説明するための図
【図12】図10の表示候補に対する選択操作後を示す
【図13】見出しの表示を行わず、「読み」のみの表示
を行う実施形態を説明するための図
【図14】図13の表示に対して、ある「読み」に対し
て候補表示する旨の指示がなされた場合を説明するため
の図
【図15】読み(発音)の他に、対応する最も適切な表
記を合わせて候補表示する場合を説明するための図
【図16】図14の表示候補に対する選択操作後を示す
【図17】候補表示制御部15における処理内容の一例
を示すフローチャート
【図18】図17のフローチャートにおける候補選択用
表示処理(ステップS38)の内容を示すフローチャー
【符号の説明】
11…音声入力部 12…音声認識部 13…候補情報保持部 14…候補選択操作部 15…候補表示制御部 16…表示部 21…音声入力部 22…音響処理部 23…照合部 24…音響辞書(HMM) 25…言語辞書(n−gram) 26…単語辞書 27…言語処理部 28…単語辞書 29…候補出力部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/18 G10L 3/00 537D 15/22 561C

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 音声認識を利用してテキストを入力処理
    するテキスト入力処理装置であって、 前記テキストを構成する複数の文節のいずれか一つが、
    複数の異音語を含む発音文字列の候補を有する音声認識
    結果を記憶する記憶手段と、 前記複数の文節のそれぞれの発音文字列を組み合わせて
    表示する表示手段と、 前記いずれか一つの文節について、前記発音文字列の候
    補を一覧表示する候補表示手段と、 一覧表示された前記候補のなかから、いずれか一つの異
    音語をユーザに選択させるための選択手段と、を具備す
    ることを特徴とするテキスト入力処理装置。
  2. 【請求項2】 音声認識を利用してテキストを入力処理
    するテキスト入力処理装置であって、 前記テキストを構成する複数の文節のいずれか一つが、
    複数の異音語を含む発音文字列の候補、および、表記が
    異なる複数の同音語を含む漢字仮名混じり文字列の候補
    を有する音声認識結果を記憶する記憶手段と、 前記複数の文節のそれぞれの発音文字列の一つを組み合
    わせて表示する第1表示手段と、 前記複数の文節のそれぞれの漢字仮名混じり文字列の一
    つを組み合わせて表示する第2表示手段と、 前記いずれか一つの文節について、前記発音文字列の候
    補を一覧表示する第1候補表示手段と、 前記いずれか一つの文節について、前記漢字仮名混じり
    文字列の候補を一覧表示する第2候補表示手段と、 一覧表示された前記発音文字列の候補のなかから、いず
    れか一つの異音語をユーザに選択させるための第1選択
    手段と、 一覧表示された前記漢字仮名混じり文字列の候補のなか
    から、いずれか一つの同音語をユーザに選択させるため
    の第2選択手段と、を具備することを特徴とするテキス
    ト入力処理装置。
  3. 【請求項3】 前記音声認識は日本語を対象とし、前記
    発音文字列は、平仮名、片仮名、ローマ字のいずれかで
    あることを特徴とする請求項1又は2のいずれか一項に
    記載のテキスト入力処理装置。
  4. 【請求項4】 前記漢字仮名混じり文字列の候補は、前
    記同音語に加えて異音語をも含むことを特徴とする請求
    項2又は3のいずれか一項に記載のテキスト入力処理装
    置。
  5. 【請求項5】 前記第1選択手段により選択された異音
    語の発音文字列によって、前記第1表示手段により表示
    されている発音文字列を置き換えることを特徴とする請
    求項1乃至4のいずれか一項に記載のテキスト入力処理
    装置。
  6. 【請求項6】 前記第2選択手段により選択された同音
    語又は異音語の漢字仮名混じり文字列によって、前記第
    2表示手段により表示されている漢字仮名混じり文字列
    を置き換えることを特徴とする請求項2乃至5のいずれ
    か一項に記載のテキスト入力処理装置。
  7. 【請求項7】 前記第1選択手段により選択された異音
    語に対応する漢字仮名混じり文字列によって、前記第2
    表示手段により表示されている漢字仮名混じり文字列を
    置き換えることを特徴とする請求項2乃至6のいずれか
    一項に記載のテキスト入力処理装置。
  8. 【請求項8】 音声認識を利用してテキストを入力処理
    するテキスト入力処理方法であって、 前記テキストを構成する複数の文節のいずれか一つが、
    複数の異音語を含む発音文字列の候補を有する音声認識
    結果を記憶する記憶ステップと、 前記複数の文節のそれぞれの発音文字列を組み合わせて
    表示する表示ステップと、 前記いずれか一つの文節について、前記発音文字列の候
    補を一覧表示する候補表示ステップと、 一覧表示された前記候補のなかから、いずれか一つの異
    音語をユーザに選択させるための選択ステップと、を具
    備することを特徴とするテキスト入力処理方法。
  9. 【請求項9】 音声認識を利用してテキストを入力処理
    するテキスト入力処理方法であって、 前記テキストを構成する複数の文節のいずれか一つが、
    複数の異音語を含む発音文字列の候補、および、表記が
    異なる複数の同音語を含む漢字仮名混じり文字列の候補
    を有する音声認識結果を記憶する記憶ステップと、 前記複数の文節のそれぞれの発音文字列の一つを組み合
    わせて表示する第1表示ステップと、 前記複数の文節のそれぞれの漢字仮名混じり文字列の一
    つを組み合わせて表示する第2表示ステップと、 前記いずれか一つの文節について、前記発音文字列の候
    補を一覧表示する第1候補表示ステップと、 前記いずれか一つの文節について、前記漢字仮名混じり
    文字列の候補を一覧表示する第2候補表示ステップと、 一覧表示された前記発音文字列の候補のなかから、いず
    れか一つの異音語をユーザに選択させるための第1選択
    ステップと、 一覧表示された前記漢字仮名混じり文字列の候補のなか
    から、いずれか一つの同音語をユーザに選択させるため
    の第2選択ステップと、を具備することを特徴とするテ
    キスト入力処理方法。
  10. 【請求項10】 音声認識を利用したテキストの入力を
    処理するプログラムであって、 コンピュータを、 前記テキストを構成する複数の文節のいずれか一つが、
    複数の異音語を含む発音文字列の候補を有する音声認識
    結果を記憶する記憶手段、 前記複数の文節のそれぞれの発音文字列を組み合わせて
    表示する表示手段、 前記いずれか一つの文節について、前記発音文字列の候
    補を一覧表示する候補表示手段、 一覧表示された前記候補のなかから、いずれか一つの異
    音語をユーザに選択させるための選択手段、として機能
    させるためのプログラム。
  11. 【請求項11】 音声認識を利用したテキストの入力を
    処理するプログラムであって、 コンピュータを、 前記テキストを構成する複数の文節のいずれか一つが、
    複数の異音語を含む発音文字列の候補、および、表記が
    異なる複数の同音語を含む漢字仮名混じり文字列の候補
    を有する音声認識結果を記憶する記憶手段、 前記複数の文節のそれぞれの発音文字列の一つを組み合
    わせて表示する第1表示手段、 前記複数の文節のそれぞれの漢字仮名混じり文字列の一
    つを組み合わせて表示する第2表示手段、 前記いずれか一つの文節について、前記発音文字列の候
    補を一覧表示する第1候補表示手段、 前記いずれか一つの文節について、前記漢字仮名混じり
    文字列の候補を一覧表示する第2候補表示手段、 一覧表示された前記発音文字列の候補のなかから、いず
    れか一つの異音語をユーザに選択させるための第1選択
    手段、 一覧表示された前記漢字仮名混じり文字列の候補のなか
    から、いずれか一つの同音語をユーザに選択させるため
    の第2選択手段、として機能させるためのプログラム。
JP2001401299A 2001-12-28 2001-12-28 テキスト入力処理装置及び方法並びにプログラム Expired - Fee Related JP3762300B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001401299A JP3762300B2 (ja) 2001-12-28 2001-12-28 テキスト入力処理装置及び方法並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001401299A JP3762300B2 (ja) 2001-12-28 2001-12-28 テキスト入力処理装置及び方法並びにプログラム

Publications (2)

Publication Number Publication Date
JP2003202886A true JP2003202886A (ja) 2003-07-18
JP3762300B2 JP3762300B2 (ja) 2006-04-05

Family

ID=27640108

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001401299A Expired - Fee Related JP3762300B2 (ja) 2001-12-28 2001-12-28 テキスト入力処理装置及び方法並びにプログラム

Country Status (1)

Country Link
JP (1) JP3762300B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006053906A (ja) * 2004-07-13 2006-02-23 Microsoft Corp コンピューティングデバイスへの入力を提供するための効率的なマルチモーダル方法
JP2009075263A (ja) * 2007-09-19 2009-04-09 Kddi Corp 音声認識装置およびコンピュータプログラム
JP2009271117A (ja) * 2008-04-30 2009-11-19 Mitsubishi Electric Corp 音声検索装置および音声検索方法
JP2014178567A (ja) * 2013-03-15 2014-09-25 Yahoo Japan Corp 音声認識装置、音声認識方法、およびプログラム
JP2019532318A (ja) * 2016-09-22 2019-11-07 浙江吉利控股集団有限公司Zhejiang Geely Holding Group Co.,Ltd. 音声処理方法及び装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006053906A (ja) * 2004-07-13 2006-02-23 Microsoft Corp コンピューティングデバイスへの入力を提供するための効率的なマルチモーダル方法
JP2009075263A (ja) * 2007-09-19 2009-04-09 Kddi Corp 音声認識装置およびコンピュータプログラム
JP2009271117A (ja) * 2008-04-30 2009-11-19 Mitsubishi Electric Corp 音声検索装置および音声検索方法
JP2014178567A (ja) * 2013-03-15 2014-09-25 Yahoo Japan Corp 音声認識装置、音声認識方法、およびプログラム
JP2019532318A (ja) * 2016-09-22 2019-11-07 浙江吉利控股集団有限公司Zhejiang Geely Holding Group Co.,Ltd. 音声処理方法及び装置
US11011170B2 (en) 2016-09-22 2021-05-18 Zhejiang Geely Holding Group Co., Ltd. Speech processing method and device

Also Published As

Publication number Publication date
JP3762300B2 (ja) 2006-04-05

Similar Documents

Publication Publication Date Title
US6490563B2 (en) Proofreading with text to speech feedback
JP4829901B2 (ja) マニュアルでエントリされた不確定なテキスト入力を音声入力を使用して確定する方法および装置
EP1096472B1 (en) Audio playback of a multi-source written document
JP2004046807A (ja) 表意文字言語のマルチモーダル入力
JP3476007B2 (ja) 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体
JP2002116796A (ja) 音声処理装置、音声処理方法及び記憶媒体
JP2008268477A (ja) 韻律調整可能な音声合成装置
JP2004259269A (ja) 中国語表意文字をローマ字化する方法及びステム、及び、中国語表意文字をローマ字化するソフトウェアコードを有するコンピュータ記録媒体
JP3795692B2 (ja) 文字処理装置および方法
JP3762300B2 (ja) テキスト入力処理装置及び方法並びにプログラム
JP2004326367A (ja) テキスト解析装置及びテキスト解析方法、ならびにテキスト音声合成装置
JPH09171392A (ja) 発音情報作成方法およびその装置
JPH06195326A (ja) 文書入力方法及び装置
JPH06282290A (ja) 自然言語処理装置およびその方法
JP2002207728A (ja) 表音文字生成装置及びそれを実現するためのプログラムを記録した記録媒体
JP6232724B2 (ja) 音声合成装置及び言語辞書登録方法
JP2580565B2 (ja) 音声情報辞書作成装置
JP2001306293A (ja) 情報入力方法、情報入力装置及び記憶媒体
JP5169602B2 (ja) 形態素解析装置、形態素解析方法及びコンピュータプログラム
JP3284976B2 (ja) 音声合成装置及びコンピュータ可読記録媒体
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法
JP5125404B2 (ja) 省略語判定装置、コンピュータプログラム、テキスト解析装置及び音声合成装置
JP4208819B2 (ja) 音声合成辞書登録方法および装置
JP2003288098A (ja) ディクテーション装置、方法及びプログラム
JP4797307B2 (ja) 音声認識装置及び音声認識方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050601

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050628

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060112

R151 Written notification of patent or utility model registration

Ref document number: 3762300

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100120

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110120

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120120

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130120

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130120

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140120

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees