JP2006106621A

JP2006106621A - 文字列入力装置およびその制御方法

Info

Publication number: JP2006106621A
Application number: JP2004296691A
Authority: JP
Inventors: Katsuhiko Kawasaki; 勝彦川崎; Makoto Hirota; 誠廣田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2004-10-08
Filing date: 2004-10-08
Publication date: 2006-04-20
Anticipated expiration: 2024-10-08
Also published as: US20060095263A1; JP4027357B2

Abstract

【課題】キー操作と音声入力を併用して効率的にテキスト入力を行う。
【解決手段】一連のキー入力に基づいて文字列の接続の仮説を生成し（Ｓ４０４）、その一連のキー入力の後に音声を入力する。その後、入力された音声に対する音声認識文法を、前記一連のキー入力に基づき生成して（Ｓ４０７）、前記入力された音声に対して、生成された音声認識文法を用いて音声認識を行う（Ｓ４０８）。そして、生成された前記仮説の各パスについて、音声認識の過程で得られた音声認識スコアを加味した尤度を計算し（Ｓ４１０）、その尤度に基づく文字列候補を、ユーザに選択させるべく表示する（Ｓ４１１）。
【選択図】図４

Description

本発明は、文字列入力装置およびその制御方法に関し、特に、キー操作と音声入力とを併用して文字列の入力を行う文字列入力装置およびその制御方法に関する。

携帯電話、ＰＤＡ、カーナビゲーションシステム、デジタルテレビ、ファクシミリ装置など、情報機器の多様化が進んでいる。またこうした機器の多くは、インターネット接続などの通信機能を備えるようになり、電子メール、ウェブをはじめとするテキスト情報のやり取りを行うための機器として利用されるケースが増えてきた。

こうした機器は、通常キーボードを持たず、テキストの入力には困難を伴う。携帯電話やファクシミリ装置は通常テンキーを備えており、このテンキーの操作によってテキストの入力を行う方式が普及している。日本語の場合、最も普及している方式は、あ行、か行、・・・ごとにキーを割り当て、キーを１回以上押下することで所望の文字を入力するというものである。例えば、テンキーの“２”を２回押下することで、か行の２番目の文字「き」を入力することができる。

こうした入力方式にはさまざまな改良が加えられている。その一つの例は、先頭の数文字を入力すると後続文字列を予測して提示する予測入力方式である。子音だけを入力することでテキストの入力を可能とする方式も考案されている。

一方、不便なキー操作に対する代替手段として、音声入力が注目されている。音声入力により任意のテキストを入力する方式としては、ＩＢＭ社のViaVoiceなどがある。また、キー入力と音声入力を組み合わせた方式もある。例えば、特開２０００−０５６７９６号公報（特許文献１）や特開平９−２８８４９５号公報（特許文献２）は、キー入力と同時に音声入力を行うことでテキスト入力を可能にする技術を開示している。

特開２０００−０５６７９６号公報特開平９−２８８４９５号公報

従来の技術では、キー入力単独の方式は、予測機能や子音入力などの改良により利便性は向上しているものの、まだ問題が多い。予測機能はその予測精度が悪ければ、従来の方法に対するメリットは少なくなる。また、子音入力は、子音列に対応する文字列候補が多く、その中から選択する操作が効率を下げるという問題がある。

一方、ViaVoiceのような音声認識による方法は、一般に多くのメモリやＣＰＵパワーを必要とするため、携帯電話、ファクシミリ装置などの小型機器上で動作させることは現時点では困難である。

これに対し、特許文献１または特許文献２の、キー入力と同時に音声入力を行う手法は、上述の従来技術の問題点を補完する有効な手段になる可能性がある。しかし、いずれも、キー入力に対応する入力音声が、個々のキー押下それぞれに対して明確に区別されているという前提に基づいている。例えば、“１”、“２”とキー押下しながら「いか」と発声するケースでは、キー押下“１”に対応する「い」の音声と、キー押下“２”に対応する「か」の音声が何らかの方法で事前に区別されていることが前提になっている。これを可能にする一つの方法は、キー“１”の押下とキー“２”の押下との間に十分な時間間隔をとり、それぞれに合わせて「い」と「か」を区切って発声することである。しかし、これではテキスト入力の効率が下がり、操作の自然性が低下してしまうという問題がある。

したがって、操作の効率や自然性を上げるためには、キー“１”、“２”の押下を連続的に行い、「いか」と区切らずに連続的に発声することを可能にする必要がある。

本発明は上記のような技術的背景によってなされた。つまり本発明は、キー操作と音声入力とを併用して文字列の入力を行う文字列入力装置において、文字列入力の操作効率や自然性を向上させることを目的としている。

この目的を達成するために、例えば本発明の一側面に係る文字列入力装置は、以下の構成を備える。すなわち、文字列のカテゴリを指示する指示手段と、音声を受信する音声受信手段とを備え、前記指示手段による指示入力と前記音声受信手段で受信した音声とに基づいて文字列を入力する文字列入力装置であって、前記指示手段による一連の指示入力に基づいて、文字列の接続の仮説を生成する仮説生成手段と、前記一連の指示入力に続いて前記音声受信手段で受信した音声に対する音声認識文法を、前記一連の指示入力に基づき生成する音声認識文法生成手段と、前記一連の指示入力に続いて前記音声入力手段により入力された前記音声に対して、前記音声認識文法生成手段により生成された音声認識文法を用いて音声認識を行う音声認識手段と、前記仮説生成手段により生成された前記仮説の各パスについて、前記音声認識手段による音声認識の過程で得られた音声認識スコアを加味した尤度を計算し、その尤度に基づき文字列候補を生成する文字列候補生成手段と、前記文字列候補生成手段により生成された文字列候補を、ユーザに選択させるために表示する表示手段とを有する。

本発明によれば、キー操作と音声入力とを併用して文字列の入力を行う文字列入力装置における、文字列入力の操作効率や自然性が向上する。具体的には例えば、（１）キー操作によるテキスト入力におけるキー操作回数が減る、（２）リソースの少ない機器でも音声入力が可能になる、という効果が生まれる。

以下、図面を参照して本発明の好適な実施形態について詳細に説明する。

（第１の実施形態）
本実施形態では、図１に示すような、ファクシミリ装置（以下「ＦＡＸ」という。）１０１に対してテキスト入力を行うケースで説明する。

図１において、１０２はテンキーである。１０３はいわゆる十字キーであり、上下左右の方向キーと中央のＳＥＴキーからなる。１０４は液晶画面である。１０５は受話器である。音声入力は、この受話器１０５を通して行う。

図２は、本実施形態におけるＦＡＸ１０１のテキスト入力方式に係る機能構成を示すブロック図である。

同図に示すように、ＦＡＸ１０１は、テンキー１０２や十字キー１０３によるキー入力を受け付けるキー入力部２０１、キー入力のシーケンスに従って単語辞書２０３から単語を検索する単語辞書検索部２０２、単語辞書検索の結果からキー入力シーケンスに応じた単語ラティスを生成するラティス生成部２０４、単語間の接続コストを収納した接続コストテーブル２０６、単語コストと接続コストとから言語コストを計算する言語コスト計算部２０５、受話器１０５から入ってくる音声信号からテキスト入力のための入力音声をキー長押しからその長押し解除までに録音された音声データとして切り出す音声切り出し部２０７、単語ラティスから音声認識文法を生成する音声認識文法生成部２０８、音声認識文法に基づいて音声認識を行う音声認識部２０９、音声認識結果をスコア順に並べるＮ−ｂｅｓｔ生成部２１０、言語コストと音声認識スコア（音声コスト）とから総コストを計算する総コスト計算部２１１、総コスト順に入力候補を表示する結果表示部２１３、とから構成されている。

図３は、本実施形態に係るＦＡＸ１０１のハードウエア構成を示す構成図である。

３０１はＣＰＵであり、後述するＦＡＸ１０１の動作手順を実現するためのプログラムに従って動作する。
３０２はＲＡＭであり、主記憶装置として、ＣＰＵ３０１の動作に必要な記憶領域を提供する。
３０３はＲＯＭであり、本発明に係る動作手順を実現するための制御プログラムや単語辞書２０３、接続コストテーブル２１０を保持する。
３０４はＬＣＤであり、液晶画面１０４を構成する。
３０５は物理ボタンであり、テンキー１０２、十字キー１０３を含む。
３０６はＡ／Ｄコンバータであり、入力音声をデジタル信号に変換する。
３０７はマイクであり、受話器１０５を構成する。
３０８はバスである。

以下、本実施形態に係るＦＡＸ１０１の具体的な動作を説明する。

まず、入力対象の各文字列は例えば１１のカテゴリに分類され、テンキー１０２の各キーに各カテゴリが割り当てられる。つまり、テンキー１０２は文字列のカテゴリを指示する指示手段として機能する。例えば、各文字列は、モーラ単位で以下のように割り当てられる。なお、モーラとは、「拍」とも呼ばれ、基本的には日本語の各仮名文字が一つのモーラになるが、これに加え、「きゃ」「きゅ」「きょ」などの拗音、長音「ー」、促音「っ」はそれぞれ一つのモーラとなる。

“１”・・・「あ」「い」「う」「え」「お」
“２”・・・「か」「き」「く」「け」「こ」「きゃ」「きゅ」「きょ」
「が」「ぎ」「ぐ」「げ」「ご」「ぎゃ」「ぎゅ」「ぎょ」
“３”・・・「さ」「し」「す」「せ」「そ」「しゃ」「しゅ」「しょ」
「ざ」「じ」「ず」「ぜ」「ぞ」「じゃ」「じゅ」「じょ」
“４”・・・「た」「ち」「つ」「て」「と」「ちゃ」「ちゅ」「ちょ」「っ」
「だ」「ぢ」「づ」「で」「ど」「でゃ」「でゅ」「でょ」
“５”・・・「な」「に」「ぬ」「ね」「の」「にゃ」「にゅ」「にょ」
“６”・・・「は」「ひ」「ふ」「へ」「ほ」「ひゃ」「ひゅ」「ひょ」
「ば」「び」「ぶ」「べ」「ぼ」「びゃ」「びゅ」「びょ」
「ぱ」「ぴ」「ぷ」「ぺ」「ぽ」「ぴゃ」「ぴゅ」「ぴょ」
“７”・・・「ま」「み」「む」「め」「も」「みゃ」「みゅ」「みょ」
“８”・・・「や」「ゆ」「よ」
“９”・・・「ら」「り」「る」「れ」「ろ」「りゃ」「りゅ」「りょ」
“０”・・・「わ」「を」「ん」
“＊”・・・「ー」

図１１は、すでに文字列「この技術は、」を入力した状態を示している。以下では、この状態から本テキスト入力方式を用いて、「マルチモーダル」という文字列を入力する場合の例を説明する。本実施形態では、ユーザはまず、「マルチモーダル」に対応するテンキー列、
“７”、“９”、“４”、“７”、“＊ ”、“４”、“９”
を押し、その後「マルチモーダル」と発声する、という入力操作手順を踏む。ここで、本実施形態におけるＦＡＸ１０１は例えば、テンキーが継続して所定時間（例えば２秒間）以上押されると、「長押し」と判断され、これにより音声入力（録音）が開始され、その長押しが解除されるとその音声入力が終了するように構成されている。したがって、上記の「マルチモーダル」に対応するテンキー列の入力に際しては、７”、“９”、“４”、…と順次、通常のキー操作（短押し）を行い、最後の“９”のキーだけを長押しするようにすれば、「マルチモーダル」の音声入力に移行することができる。

単語辞書検索部２０２は、ユーザからのキー入力に対応する単語を単語辞書２０３から検索する。

ここで、単語辞書２０３のデータ構造を説明する。図５は、単語辞書２０３の中身の一部を表している。単語辞書はこのように、テンキー列の逆順をキーとするトライ構造をなしている。例えば、テンキー列“７”が入力された場合、読みがこの“７”に対応する「ま」「み」「む」「め」「も」「みゃ」「みゅ」「みょ」で終わる単語が検索できるようになっている。すなわち、rootノードから“７”のラベルのついた枝を辿り、さらに、空文字を意味する“φ”の枝を辿ることで、読みが「ま」「み」「む」「め」「も」「みゃ」「みゅ」「みょ」で終わる単語に辿り着くことができる。図５の例では、「目」「間」「未」「無」・・・などの単語に辿り着ける。

テンキー列“７”、“９”が入力された場合は、同様にして、“９”、もしくは、“７”、“９”に対応する読みで終わる単語を検索できる。すなわち、rootノードから“９”のラベルのついた枝を辿り、さらに、空文字を意味する”φ”の枝を辿ることで、読みが「ら」「り」「る」「れ」「ろ」「りゃ」「りゅ」「りょ」で終わる単語「ら」「等」「利」「炉」・・・に辿り着くことができる。“９”の枝を辿ったノードには別の枝があり、“７”の枝を辿ることで、“７”、“９”に対応する読みで終わる単語「村」「森」「真理」・・・などを検索できる。

図６は、各単語に付与されている情報の例を示している。図示のように、各単語には少なくとも、その単語の表記、読み、単語コストが付与されている。単語コストとは、その単語の出現頻度が大きいほど小さな値をとるデータである。

ラティス生成部２０４は、こうして検索された単語の列からなるラティス構造を生成する。

図８は、“７”、“９”、“４”とテンキー列が入力された時点で生成されるラティス構造の例である。各位置には、その位置までのテンキー列に対し、読みが右部分一致する単語がリストアップされ、隣接する単語同士が接続される。“Ｈ”は文頭ノードを意味する。また、上記の“７”、“９”、“４”に続けてさらに、“７”、“＊”、“４”、“９”とキー入力した時点で生成されるラティス構造の例を、図９に示す。

認識されるべき音声は、上記のキー入力“７”、“９”、“４”、“７”、“＊”、“４”、“９”に対応する単語の接続の仮説に含まれるはずなので、音声認識文法生成部２０８は、図９のラティス構造に基づいて、図１０に示すような音声認識文法を生成する。

前述したとおり、ユーザがテンキー列の最後のキーを長押しすると音声の録音が開始され、その長押しが解除されると音声の録音が終了する。キーを長押しすると、図１２のようにユーザに発声を促すナビゲーションがディスプレイに表示される。ここで、この長押し中にユーザが、「マルチモーダル」と発声したとする。音声切り出し部２０７は、録音された音声から、入力音声の切り出しを行う。音声認識部２０９では、音声認識文法生成部２０８において生成された文法（図１０を参照）を用いて音声認識を行う。

言語コスト計算部２０５では、テンキー入力列に対応する図９のラティスに対し、次式で表される各パスの言語コストＡを計算する。

Ａ=Σ_i ( C(W_i) + C(W_i-1,W_i) )

ただし、
C(W_i) ：単語W_iの単語コスト、
C(W_i-1,W_i) ： W_i-1とW_iの接続コスト
である。

接続コストは、単語と単語のつながりにくさを示す数値である。接続コストは、接続コストテーブル２０６に、図７のようなデータとして保持されている。例えば、名詞「村」は助詞「と」とは接続コストが1でつながりやすいが、助動詞「た」とは接続コスト5でつながりにくいことを表している。

Ｎ−ｂｅｓｔ生成部２１０では、図１０に示したような音声認識文法を用いて、次のような各パスの音声コストＢを計算する。

Ｂ（“まるちもーだる”）＝０．８１、
Ｂ（“むらとめーとる”）＝０．７８、
・・・・・

総コスト計算部２１１では、各パスの総コストＥを次式により計算する。

Ｅ＝Ａ−Ｂ

図１３は、総コストＥの小さい順に入力候補を画面表示した図である。この状態で十字キーを操作して所望の「マルチモーダル」を選択すると、表示は図１４のようになる。

ここまでの動作を図４のフローチャートを用いて説明する。

まずステップＳ４０１においてテンキーの入力を待機する。テンキー入力があった場合にはステップＳ４０２に進み、そのテンキー入力が長押しかどうか判定する。キー入力が短押しならば、ステップＳ４０３において単語辞書２０３を検索し、ステップＳ４０４において図８や図９に示したような単語ラティスを生成する。さらにステップＳ４０５において、単語コスト（図６）と接続コスト（図７）を用いて各パスの言語コストを計算する。

一方、ステップＳ４０２においてキーが長押しと判定された場合には、上記したステップＳ４０３〜Ｓ４０５を同様に実行した後、ステップＳ４０６において、ユーザに発声を促す（図１２）とともにキーの押下中にユーザの発声を録音して、音声区間の切り出しを行う。

次にステップＳ４０７において、音声認識文法（図１０）を生成し、ステップＳ４０８において、その音声認識文法を用いて音声認識を行い、ステップＳ４０９において各パスの音声コストを計算してＮ−ｂｅｓｔを生成する。そして、ステップＳ４１０において言語コストと音声コストとから総コストを計算し、ステップＳ４１１において総コストの小さい順に候補をディスプレイに表示する（図１３）。これにより、ユーザは所望の候補を選択することになる（図１４）。

（第２の実施形態）
次に、本発明の第２の実施形態を示す。本実施形態でも、図１のＦＡＸに対してテキスト入力を行う際に、ユーザが「マルチモーダル」に対応する一連のテンキー列“７”、“９”、“４”、“７”、“＊ ”、“４”、“９”を押し、その後「マルチモーダル」と発声する、という入力操作手順を踏む場合を想定して説明する。

図１５は、本実施形態におけるＦＡＸのテキスト入力方式に係る機能構成を示すブロック図である。

同図に示すように、ＦＡＸ１０１は、テンキー１０２や十字キー１０３によるキー入力を受け付けるキー入力部５０１、キー入力シーケンスに応じたモーラのラティスを生成するモーララティス生成部５０２、モーラコストおよびモーラ接続コストの情報を保持するモーラコスト情報保持部５０４、モーラコスト情報からラティスコストを計算するラティスコスト計算部５０３、受話器１０５から入ってくる音声信号からテキスト入力のための入力音声をキー長押しからその長押し解除までに録音された音声データとして切り出す音声切り出し部５０６、モーララティスから音声認識文法を生成する音声認識文法生成部５０５、音声認識文法に基づいて音声認識を行う音声認識部５０７、音声認識結果をスコア順に並べるＮ−ｂｅｓｔ生成部５０８、ラティスコストと音声認識スコア（音声コスト）とから総コストを計算する総コスト計算部５０９、総コスト順に入力候補を表示する結果表示部５１０、とから構成されている。

図１７は、各モーラに付与されている情報の例を示している。図示のように各モーラにはモーラコストが付与されており、このような構造でモーラコスト情報保持部５０４に保持される。モーラコストとは、その単語の出現頻度が大きいほど小さな値をとるデータである。

図１９は、上記の“７”、“９”、“４”、…、“９”とキー入力した時点で生成されるラティス構造の例を示している。ラティスコスト計算部５０３では、テンキー入力列に対応する図１９のラティスに対し、各パスの言語コストＭＡを次式により計算する。

ＭＡ=Σ_i ( C(Ｍ_i) + C(Ｍ_i-1,Ｍ_i) )

ただし、C(Ｍ_i)とC(Ｍ_i-1,Ｍ_i)は以下のようなものである。
C(Ｍ_i) ：モーラＭiのモーラコスト、
C(Ｍ_i-1,Ｍ_i) ：Ｍ_i-1とＭ_iのモーラ接続コスト。

モーラ接続コストは、モーラとモーラのつながりにくさを示す数値である。モーラ接続コストは、モーラコスト情報保持部５０４によって図１８に示すようなデータとして保持されている。

Ｎ−ｂｅｓｔ生成部５０８では、図１９のラティス構造を音声認識文法として用いて、次のような各パスの音声コストＭＢを計算する。

ＭＢ（“まるちもーだる”）＝０．８１、
ＭＢ（“むらとめーとる”）＝０．７８、
・・・・・

総コスト計算部５０９では、各パスの総コストＭＥを次式により計算する。

ＭE＝ＭＡ−ＭＢ

結果表示部５１０では、総コストＭＥの小さい順に入力候補を画面表示する。

図１６は、本実施形態に係るＦＡＸ１０１の動作を説明するフローチャートである。まずステップＳ６０１においてテンキーの入力を待機する。テンキー入力があった場合にはステップＳ６０２に進み、そのテンキー入力が長押しかどうか判定する。キー入力が短押しならば、ステップＳ６０３において図１９に示したようなモーララティスを生成する。さらにステップＳ６０４において、図１７に示すようなモーラコストと図１８に示すようなモーラ接続コストを用いて、各パスにおけるラティスコストを計算する。

一方、ステップＳ６０２においてキーが長押しと判定された場合には、上記したステップＳ６０３，Ｓ６０４を同様に実行した後、ステップＳ６０５において、ユーザに発声を促すとともにキーの押下中にユーザの発声を録音して、音声区間の切り出しを行う。

次にステップＳ６０６において音声認識文法（図１９）を生成し、ステップＳ６０７において音声認識文法を用いて音声認識を行い、ステップＳ６０８において各パスの音声コストを計算してＮ−ｂｅｓｔを生成する。そして、ステップＳ６０９においてラティスコストと音声コストとから総コストを計算し、ステップＳ６１０において総コストの小さい順に候補をディスプレイに表示する。これにより、ユーザは表示された候補の中から所望の候補を選択することになる。

（第３の実施形態）
上述の実施形態は日本語テキスト入力の例であったが、本発明は英語など他の言語にも適用可能である。本実施形態ではこの点を明らかにする。

図２０は本実施形態におけるＦＡＸ１０１の外観を示す図である。このＦＡＸ１０１は英単語を入力するものでありキー“１”〜“９”のそれぞれに対しては、以下のように文字が割り当てられている。

“１”・・・空白（スペース）
“２”・・・「Ａ」「Ｂ」「Ｃ」
“３”・・・「Ｄ」「Ｅ」「Ｆ」
“４”・・・「Ｇ」「Ｈ」「Ｉ」
“５”・・・「Ｊ」「Ｋ」「Ｌ」
“６”・・・「Ｍ」「Ｎ」「Ｏ」
“７”・・・「Ｐ」「Ｑ」「Ｒ」「Ｓ」
“８”・・・「Ｔ」「Ｕ」「Ｖ」
“９”・・・「Ｗ」「Ｘ」「Ｙ」「Ｚ」

図２１は、本実施形態におけるＦＡＸのテキスト入力方式に係る機能構成を示すブロック図である。

同図に示すように、ＦＡＸ１０１は、テンキー１０２や十字キー１０３によるキー入力を受け付けるキー入力部７０１、キー入力シーケンスに応じた文字列のラティスを生成する文字ラティス生成部７０２、文字コストと文字接続コストの情報を保持するコスト情報保持部７０４、コスト情報から文字列ラティスのラティスコストを計算するラティスコスト計算部７０３、受話器１０５から入ってくる音声信号からテキスト入力のための入力音声をキー長押しからその長押し解除までに録音された音声データとして切り出す音声切り出し部７０６、文字ラティスから音声認識文法を生成する音声認識文法生成部７０５、音声認識文法に基づいて音声認識を行う音声認識部７０７、音声認識結果をスコア順に並べるＮ−ｂｅｓｔ生成部７０８、ラティスコストと音声認識スコア（音声コスト）とから総コストを計算する総コスト計算部７０９、総コスト順に入力候補を表示する結果表示部７１０、とから構成されている。

図２２は、各文字に付与されている情報の例を示している。図示のように各文字には文字コストが付与されており、このような構造でコスト情報保持部７０４に保持される。モーラコストとは、その単語の出現頻度が大きいほど小さな値をとるデータである。

図２４は、“２”、“２”、“８”とキー入力した時点で生成されるラティス構造の例を示している。ラティスコスト計算部７０３では、テンキー入力列“２”、“２”、“８”に対応する図２４のラティスに対し、各パスの言語コストＮＡを次式により計算する。

ＮＡ=Σ_i ( C(Ｎ_i) + C(Ｎ_i-1,Ｎ_i) )

ただし、C(Ｎ_i)とC(Ｎ_i-1,Ｎ_i)は以下のようなものである。
C(Ｎ_i) ：文字Ｎiの文字コスト、
C(Ｎ_i-1,Ｎ_i) ：Ｎ_i-1とＮ_iの文字接続コスト。

文字接続コストは、文字と文字のつながりにくさを示す数値である。文字接続コストは、コスト情報保持部７０４によって図２３に示すようなデータとして保持されている。

次に、図２４の文字列ラティスから文字のつながりから生じうる全ての発音記号からなる、図２５に示すような音声認識文法を生成する。例えば文字“Ｃ”に対する発音記号としては、“ｋ”、“ｋｙ”などがある。文字“Ａ”に対する発音記号と下は、“ｅｉ”、“ａ”などがある。Ｎ−ｂｅｓｔ生成部７０８では、図２５の音声認識文法を用いて、各パスの音声コストＮＢを計算する。

ＮＢ（“ｋｙａＱｔ”）＝０．８２、
ＮＢ（“ａｋｔ”）＝０．５１、
・・・・・

総コスト計算部７０９では、各パスの総コストＮＥを次式により計算する。

ＮE＝ＮＡ−ＮＢ

結果表示部７１０では、総コストＮＥの小さい順に入力候補を画面表示する。

なお、本実施形態における動作の流れは、第２の実施形態に係る図１６のフローチャートに示したものと同様である。

（その他の実施形態）
以上、本発明のさまざまな実施形態を詳述した。上記の各実施形態では、音声区間の切り出しおよび、それに続く音声認識文法の生成、ならびに音声認識は、キーの長押しをトリガとして行うようにしたが、これとは別に、「発声」ボタン等を設けておき、一連のテンキー列の入力後にこの「発声」ボタンが押下されたことをトリガとして、音声区間の切り出しおよび、それに続く音声認識文法の生成、ならびに音声認識を行うようにしても良い。

また、上記の各実施形態では、単語コスト、単語間接続コスト等を用いてコスト計算を行うようにしたが、単語列に対して言語としての尤もらしさを評価できるものであれば、他の評価基準を用いてもよい。例えば、単語辞書の各単語に品詞情報を付与し、単語間接続コストの代わりに品詞間接続コストを用いてもかまわない。また、品詞に限らず、単語をなんらかのクラスに分類し、そのクラス情報を単語辞書の各単語に付与し、単語間接続コストの代わりにクラス間接続コストを用いてもかまわない。

さらに、本発明は、上記各実施形態で用いたパス選択のための特定のコスト計算式に限定されるものではない。単語コスト、単語間接続コスト（あるいは、品詞間接続コスト、クラス間接続コスト）、音声認識スコアが適切に反映されていれば、他の計算式を用いてもかまわない。あるいは、各モーラのコスト、モーラ間の接続コスト、音声認識スコアが適切に反映されていれば、他の計算式でもかまわない。

くわえて、上記実施形態では、テンキーに対してモーラ単位（“２”キーに対して“きゃ”、“きゅ”、“きょ”等）の文字列を割り当てていたが、モーラ単位ではなく文字単位（“２”キー＋“８”キーに対して“き”+“や”、“き”+“ゃ”等）で割り振ってもよい。あるいは、その他のいかなる割り当てでもかまわない。

また、上記各実施形態では、対象デバイスとしてＦＡＸを扱ったが、音声入力機能と、グラフィックユーザインタフェースもしくは操作ボタンを有する任意のデバイスに適用可能であることは言うまでもない。

本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。

なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータがその供給されたプログラムコードを読み出して実行することによっても達成される。その場合、プログラムの機能を有していれば、その形態はプログラムである必要はない。

従って、本発明の機能処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体およびそのプログラムを格納した記憶媒体も本発明を構成することになる。つまり、本発明の特許請求の範囲には、本発明の機能処理を実現するためのコンピュータプログラム自体、およびそのプログラムを格納した記憶媒体も含まれる。

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等、プログラムの形態を問わない。

プログラムを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ、ＤＶＤ−Ｒ）などがある。

その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、そのホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記憶媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明のクレームに含まれるものである。

また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。

さらに、記憶媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。

本発明の第１の実施形態に係るＦＡＸの外観構成を示す図である。本発明の第１の実施形態におけるＦＡＸのテキスト入力に係る機能構成を示すブロック図である。本発明の第１の実施形態に係るＦＡＸのハードウエア構成を示す図である。本発明の第１の実施形態に係るＦＡＸの動作を説明するフローチャートである。本発明の第１の実施形態に係る単語辞書の構造例を示す図である。本発明の第１の実施形態に係る単語辞書に含まれる各単語に付与された情報の例を示す図である。本発明の第１の実施形態に係る接続コストテーブルの内容の例を示す図である。、本発明の第１の実施形態に係るキー入力に対応するラティス構造の例を示す図である。本発明の第１の実施形態に係る音声認識文法生成部により生成される音声認識文法を模式的に示す図である。、、、、本発明の第１の実施形態に係るキー入力途中のＦＡＸの画面表示を示す図である。本発明の第２の実施形態におけるＦＡＸのテキスト入力に係る機能構成を示すブロック図である。本発明の第２の実施形態に係るＦＡＸの動作を説明するフローチャートである。本発明の第２の実施形態に係る各モーラに付与されている情報の例を示す図である。本発明の第２の実施形態に係るモーラ接続コストデータの例を示す図である。本発明の第２の実施形態に係るキー入力に対応するラティス構造または音声認識文法の例を示す図である。本発明の第３の実施形態に係るＦＡＸの外観構成を示す図である。本発明の第３の実施形態におけるＦＡＸのテキスト入力に係る機能構成を示すブロック図である。本発明の第３の実施形態に係る各文字に付与されている情報の例を示す図である。本発明の第３の実施形態に係る文字接続コストデータの例を示す図である。本発明の第３の実施形態に係るキー入力に対応するラティス構造の例を示す図である。本発明の第３の実施形態に係る音声認識文法の例を示す図である。

Claims

文字列のカテゴリを指示する指示手段と、音声を受信する音声受信手段とを備え、前記指示手段による指示入力と前記音声受信手段で受信した音声とに基づいて文字列を入力する文字列入力装置であって、
前記指示手段による一連の指示入力に基づいて、文字列の接続の仮説を生成する仮説生成手段と、
前記一連の指示入力に続いて前記音声受信手段で受信した音声に対する音声認識文法を、前記一連の指示入力に基づき生成する音声認識文法生成手段と、
前記一連の指示入力に続いて前記音声入力手段により入力された前記音声に対して、前記音声認識文法生成手段により生成された音声認識文法を用いて音声認識を行う音声認識手段と、
前記仮説生成手段により生成された前記仮説の各パスについて、前記音声認識手段による音声認識の過程で得られた音声認識スコアを加味した尤度を計算し、その尤度に基づき文字列候補を生成する文字列候補生成手段と、
前記文字列候補生成手段により生成された文字列候補を、ユーザに選択させるために表示する表示手段と、
を有することを特徴とする文字列入力装置。
前記指示手段による指示入力に基づく検索が可能に構成された単語辞書を更に有し、
前記仮説生成手段は、前記一連の指示入力に対応する単語を前記単語辞書から検索し、検索された単語の接続の仮説を前記文字列の接続の仮説として生成する
ことを特徴とする請求項１に記載の文字列入力装置。
前記単語辞書は、前記一連の指示入力を過去に遡って辿ることで、各々の指示入力に対応する読みの単語に辿り着くことができるトライ構造をなすことを特徴とする請求項２に記載の文字列入力装置。
前記仮説生成手段は、前記一連の指示入力に対応するモーラを用いて、モーラの接続の仮説を前記文字列の接続の仮説として生成することを特徴とする請求項１に記載の文字列入力装置。
文字列のカテゴリを指示する指示手段と、音声を受信する音声受信手段とを備え、前記指示手段による指示入力と前記音声受信手段で受信した音声とに基づいて文字列を入力する文字列入力装置の制御方法であって、
（ａ）前記指示手段による一連の指示入力を受け付けるステップと、
（ｂ）前記一連の指示入力に基づいて、文字列の接続の仮説を生成するステップと、
（ｃ）前記一連の指示入力の後に前記音声入力手段により音声を入力するステップと、
（ｄ）上記ステップ（ｃ）で入力された音声に対する音声認識文法を、前記一連の指示入力に基づき生成するステップと、
（ｄ）上記ステップ（ｃ）で入力された音声に対して、上記ステップ（ｄ）で生成された音声認識文法を用いて音声認識を行うステップと、
（ｅ）上記ステップ（ｂ）で生成された前記仮説の各パスについて、上記ステップ（ｃ）による音声認識の過程で得られた音声認識スコアを加味した尤度を計算し、その尤度に基づき文字列候補を生成するステップと、
（ｆ）上記ステップ（ｅ）で生成された文字列候補を、ユーザに選択させるために表示するステップと、
を有することを特徴とする文字列入力装置の制御方法。
請求項５に記載の文字列入力装置の制御方法を実現するためのプログラム。