JP2006106620A - 文字列入力装置およびその制御方法 - Google Patents

文字列入力装置およびその制御方法 Download PDF

Info

Publication number
JP2006106620A
JP2006106620A JP2004296690A JP2004296690A JP2006106620A JP 2006106620 A JP2006106620 A JP 2006106620A JP 2004296690 A JP2004296690 A JP 2004296690A JP 2004296690 A JP2004296690 A JP 2004296690A JP 2006106620 A JP2006106620 A JP 2006106620A
Authority
JP
Japan
Prior art keywords
character string
voice
input
instruction
instruction input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004296690A
Other languages
English (en)
Other versions
JP4027356B2 (ja
Inventor
Makoto Hirota
誠 廣田
Hiroki Yamamoto
寛樹 山本
Masaaki Yamada
雅章 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2004296690A priority Critical patent/JP4027356B2/ja
Publication of JP2006106620A publication Critical patent/JP2006106620A/ja
Application granted granted Critical
Publication of JP4027356B2 publication Critical patent/JP4027356B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】 キー操作と音声入力を併用して効率的にテキスト入力を行う。
【解決手段】 連続的になされたキー入力に対応する文字列候補を生成し(S2203〜S2205)、生成された文字列候補をユーザに選択させるために表示する(S2206)一方で、一のキー入力に対応する音声を切り出し(S2207)、切り出された音声に対する音声認識文法を、当該一のキー入力に基づき生成し(S2208)、その音声認識文法を用いて音声認識を行う(S2209)。そして、上記の文字列候補の生成(S2203〜S2205)では、その実行時点で完了している音声認識の結果を加味して文字列候補を生成する。
【選択図】 図22

Description

本発明は、文字列入力装置およびその制御方法に関し、特に、キー操作と音声入力とを併用して文字列の入力を行う文字列入力装置およびその制御方法に関する。
携帯電話、PDA、カーナビゲーションシステム、デジタルテレビ、ファクシミリ装置など、情報機器の多様化が進んでいる。またこうした機器の多くは、インターネット接続などの通信機能を備えるようになり、電子メール、ウェブをはじめとするテキスト情報のやり取りを行うための機器として利用されるケースが増えてきた。
こうした機器は、通常キーボードを持たず、テキストの入力には困難を伴う。携帯電話やファクシミリ装置は通常テンキーを備えており、このテンキーの操作によってテキストの入力を行う方式が普及している。日本語の場合、最も普及している方式は、あ行、か行、・・・ごとにキーを割り当て、キーを1回以上押下することで所望の文字を入力するというものである。例えば、テンキーの“2”を2回押下することで、か行の2番目の文字「き」を入力することができる。
こうした入力方式にはさまざまな改良が加えられている。その一つの例は、先頭の数文字を入力すると後続文字列を予測して提示する予測入力方式である。子音だけを入力することでテキストの入力を可能とする方式も考案されている。
一方、不便なキー操作に対する代替手段として、音声入力が注目されている。音声入力により任意のテキストを入力する方式としては、IBM社のViaVoiceなどがある。また、キー入力と音声入力を組み合わせた方式もある。例えば、特開2000−056796号公報(特許文献1)や特開平9−288495号公報(特許文献2)は、キー入力と同時に音声入力を行うことでテキスト入力を可能にする技術を開示している。
特開2000−056796号公報 特開平9−288495号公報
従来の技術では、キー入力単独の方式は、予測機能や子音入力などの改良により利便性は向上しているものの、まだ問題が多い。予測機能はその予測精度が悪ければ、従来の方法に対するメリットは少なくなる。また、子音入力は、子音列に対応する文字列候補が多く、その中から選択する操作が効率を下げるという問題がある。
一方、ViaVoiceのような音声認識による方法は、一般に多くのメモリやCPUパワーを必要とするため、携帯電話、ファクシミリ装置などの小型機器上で動作させることは現時点では困難である。
これに対し、特許文献1または特許文献2の、キー入力と同時に音声入力を行う手法は、上述の従来技術の問題点を補完する有効な手段になる可能性がある。しかし、いずれも、キー入力に対応する入力音声が、個々のキー押下それぞれに対して明確に区別されているという前提に基づいている。例えば、“1”、“2”とキー押下しながら「いか」と発声するケースでは、キー押下“1”に対応する「い」の音声と、キー押下“2”に対応する「か」の音声が何らかの方法で事前に区別されていることが前提になっている。これを可能にする一つの方法は、キー“1”の押下とキー“2”の押下との間に十分な時間間隔をとり、それぞれに合わせて「い」と「か」を区切って発声することである。しかし、これではテキスト入力の効率が下がり、操作の自然性が低下してしまうという問題がある。
したがって、操作の効率や自然性を上げるためには、キー“1”、“2”の押下を連続的に行い、「いか」と区切らずに連続的に発声することを可能にする必要がある。
本発明は上記のような技術的背景によってなされた。つまり本発明は、キー操作と音声入力とを併用して文字列の入力を行う文字列入力装置において、文字列入力の操作効率や自然性を向上させることを目的としている。
この目的を達成するために、例えば本発明の一側面に係る文字列入力装置は、以下の構成を備える。すなわち、文字列のカテゴリを指示する指示手段と、音声を受信する音声受信手段とを備え、前記指示手段による指示入力とその指示入力と並行して前記音声受信手段で受信した音声とに基づいて文字列を入力する文字列入力装置であって、前記指示手段による一の指示入力およびそれまで連続的になされた指示入力に対応する文字列候補を生成する文字列候補生成手段と、前記文字列候補生成手段により生成された文字列候補を、ユーザに選択させるために表示する表示手段と、前記音声受信手段で受信した連続的に発声された音声を認識し、その認識結果を出力する音声認識手段と、前記文字列候補生成手段および前記表示手段による処理と並行して前記音声認識手段による処理を実行させる制御手段とを有し、前記文字列候補生成手段は、その実行時点で完了している前記音声認識手段による音声認識の過程で得られる音声認識スコアを加味して前記文字列候補を生成することを特徴とする。
本発明によれば、キー操作と音声入力とを併用して文字列の入力を行う文字列入力装置における、文字列入力の操作効率や自然性が向上する。具体的には例えば、(1)キー操作によるテキスト入力におけるキー操作回数が減る、(2)リソースの少ない機器でも音声入力が可能になる、という効果が生まれる。
以下、図面を参照して本発明の好適な実施形態について詳細に説明する。
(第1の実施形態)
本実施形態では、図1に示すような、ファクシミリ装置(以下「FAX」という。)101に対してテキスト入力を行うケースで説明する。
図1において、102はテンキーである。103はいわゆる十字キーであり、上下左右の方向キーと中央のSETキーからなる。104は液晶画面である。105は受話器である。音声入力は、この受話器105を通して行う。
図2は、本実施形態に係るFAX101のテキスト入力に係る機能構成を示すブロック図である。
201は、テンキー102や十字キー103によるキー入力を受け付けるキー入力部である。
202は、受話器105を通じて入ってくる音声信号から、テキスト入力のための入力音声を切り出す音声切り出し部である。
203は、音声認識文法生成部である。
204は、音声認識部であり、音声切り出し部202で切り出された入力音声を、音声認識文法生成部203で生成された音声認識文法に基づいて認識する。
205は、N-best生成部であり、音声認識部204の認識結果を、スコアの高い上位N個の結果をそれぞれにスコアを付与した形で生成する。
206は、単語辞書である。
207は、キー入力部201で受け付けたキー入力に対応する単語を単語辞書206から検索する単語辞書検索部である。
208は、単語辞書検索部207によって検索された単語の列を用いて、単語の接続の仮説を表現するラティスを生成するラティス生成部である。
209は、ラティス生成部208が生成するラティス構造から、N-best生成部205が生成する音声認識結果を加味して最適な単語列を探索する解探索部である。
210は、接続コストテーブルである。
211は、解探索部209が出力する最適な単語列を液晶画面104上に表示する結果表示部である。
図3は、本実施形態に係るFAX101のハードウエア構成を示す構成図である。
301はCPUであり、後述するFAX101の動作手順を実現するためのプログラムに従って動作する。
302はRAMであり、主記憶装置として、CPU301の動作に必要な記憶領域を提供する。
303はROMであり、本発明に係る動作手順を実現するための制御プログラムや単語辞書206、接続コストテーブル210を保持する。
304はLCDであり、液晶画面104を構成する。
305はテンキー102、十字キー103を含む物理ボタンである。
306はA/Dコンバータであり、入力音声をデジタル信号に変換する。
307はマイクであり、受話器105を構成する。
308はバスである。
以下、本実施形態に係るFAX101の具体的な動作を説明する。
まず、入力対象の各文字列は例えば11のカテゴリに分類され、テンキー102の各キーに各カテゴリが割り当てられる。つまり、テンキー102は文字列のカテゴリを指示する指示手段として機能する。例えば、各文字列は、モーラ単位で以下のように割り当てられる。なお、モーラとは、「拍」とも呼ばれ、基本的には日本語の各仮名文字が一つのモーラになるが、これに加え、「きゃ」「きゅ」「きょ」などの拗音、長音「ー」、促音「っ」はそれぞれ一つのモーラとなる。
“1”・・・「あ」「い」「う」「え」「お」
“2”・・・「か」「き」「く」「け」「こ」「きゃ」「きゅ」「きょ」
「が」「ぎ」「ぐ」「げ」「ご」「ぎゃ」「ぎゅ」「ぎょ」
“3”・・・「さ」「し」「す」「せ」「そ」「しゃ」「しゅ」「しょ」
「ざ」「じ」「ず」「ぜ」「ぞ」「じゃ」「じゅ」「じょ」
“4”・・・「た」「ち」「つ」「て」「と」「ちゃ」「ちゅ」「ちょ」「っ」
「だ」「ぢ」「づ」「で」「ど」「でゃ」「でゅ」「でょ」
“5”・・・「な」「に」「ぬ」「ね」「の」「にゃ」「にゅ」「にょ」
“6”・・・「は」「ひ」「ふ」「へ」「ほ」「ひゃ」「ひゅ」「ひょ」
「ば」「び」「ぶ」「べ」「ぼ」「びゃ」「びゅ」「びょ」
「ぱ」「ぴ」「ぷ」「ぺ」「ぽ」「ぴゃ」「ぴゅ」「ぴょ」
“7”・・・「ま」「み」「む」「め」「も」「みゃ」「みゅ」「みょ」
“8”・・・「や」「ゆ」「よ」
“9”・・・「ら」「り」「る」「れ」「ろ」「りゃ」「りゅ」「りょ」
“0”・・・「わ」「を」「ん」
“*”・・・「ー」
図15は、すでに文字列「この技術は、」を入力した状態を示している。以下では、この状態から本テキスト入力方式を用いて、「マルチモーダル」という文字列を入力する場合の例を説明する。本実施形態では、ユーザは、「マルチモーダル」に対応するテンキー列、
“7”、“9”、“4”、“7”、“* ”、“4”、“9”
を押しながら、これと並行して「マルチモーダル」と発声する。
単語辞書検索部207は、ユーザからのキー入力に対応する単語を単語辞書206から検索する。
ここで、単語辞書206のデータ構造を説明する。図4は、単語辞書206の中身の一部を表している。単語辞書はこのように、テンキー列の逆順をキーとするトライ構造をなしている。例えば、テンキー列“7”が入力された場合、読みがこの“7”に対応する「ま」「み」「む」「め」「も」「みゃ」「みゅ」「みょ」で終わる単語が検索できるようになっている。すなわち、rootノードから“7”のラベルのついた枝を辿り、さらに、空文字を意味する“φ”の枝を辿ることで、読みが「ま」「み」「む」「め」「も」「みゃ」「みゅ」「みょ」で終わる単語に辿り着くことができる。図4の例では、「目」「間」「未」「無」・・・などの単語に辿り着ける。
テンキー列“7”、“9”が入力された場合は、同様にして、“9”、もしくは、“7”、“9”に対応する読みで終わる単語を検索できる。すなわち、rootノードから“9”のラベルのついた枝を辿り、さらに、空文字を意味する”φ”の枝を辿ることで、読みが「ら」「り」「る」「れ」「ろ」「りゃ」「りゅ」「りょ」で終わる単語「ら」「等」「利」「炉」・・・に辿り着くことができる。“9”の枝を辿ったノードには別の枝があり、“7”の枝を辿ることで、“7”、“9”に対応する読みで終わる単語「村」「森」「真理」・・・などを検索できる。
図5は、各単語に付与されている情報の例を示している。図示のように、各単語には少なくとも、その単語の表記、読み、単語コストが付与されている。単語コストとは、その単語の出現頻度が大きいほど小さな値をとるデータである。
ラティス生成部208は、こうして検索された単語の列を用いて、単語接続の仮説を構成するラティスを生成する。
図7は、“7”、“9”、“4”とテンキー列が入力された時点で生成されるラティス構造の例である。各位置には、その位置までのテンキー列に対し、読みが右部分一致する単語がリストアップされ、隣接する単語同士が接続される。“H”は文頭ノードを意味する。また、上記の“7”、“9”、“4”に続けてさらに、“7”、“*”、“4”、“9”とキー入力した時点で生成されるラティス構造の例を、図8に示す。
一方、音声入力の処理は以下のようになる。音声切り出し部202は、ユーザがテンキー102の押下に応じて発声した入力音声に対し、各キーに対応する音声信号を切り出そうとする。例えば、“7”、“9”、“4”、・・・とキー入力された場合、“7”に対応する音声信号、“9”に対応する音声信号、“4”に対応する音声信号をそれぞれ切り出そうとする。
図9はその様子を表している。最初に“7”がキー入力され、その後“9”がキー入力された時点で“7”に対応する音声信号を切り出す。たとえば、“7”に対応する音声信号の先頭は“7”キー押下時刻より所定時間T以内にあり、また、その末尾は“7”キー押下時刻と“9”キー押下時刻の間にあると考えられる。音声切り出し部202は、この範囲内で音声信号のパワーの強さなどを考慮して、“7”に対応する音声信号を切り出す。
続いてキー“4”が押下された時点で、1つ前の“9”に対応する音声信号を切り出す。“9”に対応する音声信号の先頭は先ほどの“7”に対応する音声信号の末尾位置であり、その末尾は、“9”キー押下時刻と“4”キー押下時刻の間にあると考えられるので、音声切り出し部202は、この範囲内で“9”に対応する音声信号を切り出す。
音声認識文法生成部203は、音声切り出し部202で切り出された各音声信号を音声認識するための音声認識文法を動的に生成する。キー入力“9”に対応する音声信号を音声認識する場合、この音声は、キー“9”に対応する読み、「ら」「り」「る」「れ」「ろ」「りゃ」「りゅ」「りょ」のいずれかであるはずなので、この中から認識結果を出力するための文法を生成する。
図10は、キー“9”に対応する音声認識文法の例を示す図である。点線で囲まれた個所は、「ら」「り」「る」「れ」「ろ」「りゃ」「りゅ」「りょ」の音素系列であり、その前に母音音素、後ろに子音音素を接続した構成になっている。切り出された音声信号は、連続音声の中から切り出されているので、このように、直前の母音、直後の子音を含んだ文法にすることで、連続音声の前後の音素とのつながりに対応できるようにする。音声認識部204は、この音声認識文法に基づいて、キー入力“9”に対応する音声信号を音声認識する。他のキー入力に対する音声信号についても同様である。
N-best生成部205は、音声認識部204の出力結果から、キー入力に対応する読みのスコア付きN-bestを生成する。図11は、キー入力“9”に対して生成されたN-bestの例である。ここで、“り”に対するスコアは、図10の文法の点線内の“r”→“i”のパスを含むすべての認識結果のスコアの和として計算される。
続いて、解探索部209の処理を説明するために、まず、図12を用いて、ここまで説明した処理の時間関係を整理しておく。処理は、大きく分けて、単語辞書検索部207、ラティス生成部208からなる言語処理と、音声切り出し部202、音声認識文法生成部203、音声認識部204、N-best生成部205からなる音声処理の2つからなる。最初のキー入力“7”に対する言語処理L1は、そのキー入力後直ちに開始されるのに対し、音声処理S1は、前述の通り、音声切り出しが次のキー入力“9”をトリガに開始される。仮に図12のように処理が推移した場合、音声処理S1の結果は、キー入力“4”に対応する言語処理L3と統合できることになる。もちろんS1の処理が十分短ければ、言語処理L2に間に合ってこれと統合できる可能性があり、逆にS1の処理に時間がかかれば、言語処理L3にも間に合わずL4とやっと統合できる、ということもありうる。
さて、“7”、“9”、“4”とキー入力され、キー入力“4”に対する言語処理が終わった時点で、ラティス構造は図13のようになっている。図12から、この時点で、キー入力“7”に対応する音声信号の認識結果が得られている。解探索部209は、図13のラティスに対し、キー入力“4”の位置を末尾とする各パスのコストを計算する。パスのコストは、次式により計算される。
E=Σi ( C(Wi) + C(Wi-1,Wi) - S(Wi) ) ・・・(1)
ただし、
C(Wi) : 単語Wiの単語コスト、
C(Wi-1,Wi) : Wi-1とWiの接続コスト、
S(Wi) : Wiに関連する音声認識スコア
である。
接続コストは、単語と単語のつながりにくさを示す数値である。接続コストは、接続コストテーブル210に、図6のようなデータとして保持されている。例えば、名詞「村」は助詞「と」とは接続コストが1でつながりやすいが、助動詞「た」とは接続コスト5でつながりにくいことを表している。一方、Wiに関連する音声認識スコアとは、次のようなものである。例えば、Wiが図13の単語「村」だとすると、この時点で、音声処理の結果は、キー入力“7”に対応する音声の認識結果が得られている。「村」のキー入力“7”の位置に対応する読みは、「む」であるので、S(“村”)は、「む」のスコア0.42となる。同様に、図13の単語「森」の場合、S(“森”)=「も」のスコア=0.15となる。図13の「と」「た」・・「理知」「拉致」などのように、キー入力“7”の位置をカバーしない単語については、S(Wi)=0となる。
このコスト計算を、キー入力“4”の位置を末尾とする全パスに対して行う。この全パスの中で、
[文頭]−「村」−「と」
のコストが小さかった場合、これを、“7”、“9”、“4”とキー入力された時点での最も尤度の高いパスとして選択し、その読み列“むらと”を図16のように画面表示する。図14は、さらに続いて“7”がキー入力された時点のラティス構造である。この時点では、さらにキー入力“9”に対応する音声信号の認識結果も得られている。この情報を加味すると、「村」のキー入力“9”に対応する読みは、「ら」であるので、S(“村”)は、「む」のスコア0.42と「ら」のスコア0.30の和=0.72なる。同様に、S(“理知”)=「り」のスコア=0.80となる。こうした情報を加味して、式(1)に従って、4番目のキー入力“7”の位置を末尾とする全パスに対してコスト計算を行う。その結果、[文頭]−「真理」−「と」−「目」のコストが最小であった場合は、その読み列“まりとめ”を図17のように画面表示する。
図18は、さらにキー入力を進めて、“7”、“9”、“4”、“7”、“*”、“4”、“9”とキー入力した時点での画面表示の例を示している([文頭]−「目」−「理知」−「モーダル」が最小コストであった場合)。ユーザがこれに続いて「SET」ボタンを押すと、その最小コストパス、[文頭]−「目」−「理知」−「モーダル」の表記列“目理知モーダル”を、図19のように画面表示する。ただし、「SET」ボタンを押した場合は、最後のキー入力“9”と「SET」押下の間で、無音やパワーを手がかりに、キー入力“9”に対応する音声を切り出すことができるので(図9)、その音声認識結果を待って、これをパスのコスト評価に反映させているものとする。
さて、図19の表記は、ユーザが意図した「マルチモーダル」ではないので、他の候補を探す必要がある。そこで、十字キーの下方向キーを押すと、図20のように他の候補リストが表示される。この候補リストは、ラティスに含まれる全パス(末尾まで辿り着いているもの)に対応する表記列を、パスのコストの低い順に並べたものである。ユーザは、このリストに対し、十字キーの上方向キーと下方向キーを押すことで、望みの候補を選択し、「SET」ボタンを押すことで、確定させる。図21は、候補リストから「マルチモーダル」を選択して確定させたときの画面表示である。以上のようにして、キー入力と音声を組み合わせた文字入力を行うことができる。
ここまでの動作を、図22のフローチャートを用いて整理する。
まず、キー入力があれば(ステップS2201)、それが「SET」ボタンか否かを判定し(ステップS2202)、「SET」ボタンでなければ、ここで、処理が言語処理と音声処理の並列処理になる。
言語処理では、まず、図4のトライ辞書にアクセスし、ここまでの入力キー列の逆順にトライの木を辿り、単語を検索する(ステップS2203)。次に、検索された単語をラティスに反映させる(ステップS2204)。その後、このラティスに含まれるパスの中で、最後尾まで辿り着いているすべてのパス(今検索されラティスに反映された単語を末尾にするパス)それぞれについて、コストを計算し、コストの最も小さいパスを選択する(ステップS2205)。そして、そのパスに対応する読み列を画面表示する(ステップS2206)。コスト計算は、すでに説明したとおり、パス上の単語の単語コストと単語間の接続コスト、さらに、その時点で得られている音声処理の結果スコアを用いる。
一方の音声処理は、まず、入力音声から音声切り出しを行う(ステップS2207)。前述の通り、切り出される音声は、その一つ前のキー入力に対応する音声である。この切り出された音声に対する音声認識を行うための文法を生成する(ステップS2208)。文法は、一つ前のキー入力に対応して、図10のような形で生成される。この文法に基づいて音声認識し(ステップS2209)、スコア付きN-bestの形で結果出力する(ステップS2210)。結果は、そのキー入力に対応づけて保持され、ステップS2205でのコスト計算に利用される。
ステップS2202において、入力キーが「SET」であった場合は、一つ前のキー入力に対応する音声に対する音声認識結果を待ち、これをコスト計算に反映させて、再度、最後尾まで辿り着いているすべてのパスに対するコスト計算を行う(ステップS2211)。次に、ユーザの十字キー操作による他候補選択を行い(ステップS2212)、入力を確定させる(ステップS2213)。
最後に、文字列入力の終了を示すユーザ操作等(終了を示すキーの押下等)の所定の終了条件により(ステップS2214)、全処理を終了する。
以上のようにして、ユーザは、入力したい文字列の音声を発声しながら、発声の各モーラに対応して、対応するキーを1回ずつ押下するだけの操作により、キー入力に対応する文字列の中で、その音声の情報を反映し、かつ言語としての尤もらしさを反映した文字列が上位にリストアップされ、この中からの簡単な選択操作により、望みの文字列を入力することができる。
(第2の実施形態)
次に、本発明の第2の実施形態を示す。本実施形態でも、図1のFAXに対してテキスト入力を行うケースで説明する。
図23は、本実施形態におけるFAX101のテキスト入力方式の機能構成を示すブロック図である。
2301は、テンキー102や十字キー103によるキー入力を受け付けるキー入力部である。
2302は、受話器105を通じて入ってくる音声信号から、テキスト入力のための入力音声を切り出す音声切り出し部である。
2303は、音声認識文法生成部である。
2304は、音声認識部であり、音声切り出し部2302で切り出された入力音声を、音声認識文法生成部2303で生成された音声認識文法に基づいて認識する。
2305は、N-best生成部であり、音声認識部2304の認識結果を、スコアの高い上位N個の結果をそれぞれにスコアを付与した形で生成する。
2306は、キー入力に対応するモーラの列からなるラティス構造を生成するモーララティス生成部である。
2307は、ラティス生成部2306が生成するラティス構造から、N-best生成部2305が生成する音声認識結果を加味して最適なモーラ列を探索する解探索部である。
2308は、モーラコスト情報保持部である。
2309は、解探索部2307が出力する最適なモーラ列に対応する読み文字列を液晶画面104上に表示する結果表示部である。
なお、本実施形態に係るFAXの構成は、図1および図3に示した構成と同様であるので、本実施形態はこれらの図1および図3を援用して説明する。ただし本実施形態では、ROM303は、本発明に係る動作手順を実現するための制御プログラムやモーラコスト情報保持部2308を保持する。
以下、本実施形態に係るFAX101の具体的な動作を説明する。まず、テンキー102の各キーに対しては、上記第1の実施形態と同様に、文字列がモーラ単位で対応づけられている。また、やはり上記第1の実施形態と同様に、図15の状態から、本テキスト入力方式を用いて、「マルチモーダル」という文字列を入力しようとするものとする。ユーザは、「マルチモーダル」に対応するテンキー列、
“7”、“9”、“4”、“7”、“*”、“4”、“9”
を押しながら、これに合わせて「マルチモーダル」と発声する。
モーララティス生成部2306は、キー入力に対応するモーラの列からなるラティス構造を生成する。
図26は、“7”、“9”、“4”とテンキー列が入力された時点で生成されるモーラのラティス構造の例を示す図である。各位置には、その位置の入力キーに対応するモーラのノードがリストアップされ、隣接するモーラのノード同士が接続される。
図27は、“7”、“9”、“4”、“7”、“*”、“4”、“9”とキー入力した時点で生成されるラティス構造の例を示す図である。一方の、音声入力の処理は、上記第1の実施形態と全く同じである。
続いて、解探索部2307の処理を説明する。“7”、“9”、“4”とキー入力された時点で、ラティス構造は図28のようになっている。図12の例によれば、この時点で、最初のキー入力“7”に対応する音声信号の認識結果が得られている。解探索部2307は、図28のラティスに対し、キー入力“4”の位置を末尾とする各パスのコストを計算する。パスのコストは、次式で計算される。
E=Σi ( C(Mi) + C(Mi-1,Mi) - S(Mi) ) ・・・(2)
ただし、
C(Mi) : モーラMiのコスト、
C(Mi-1,Mi) : Mi-1とMiのモーラ接続コスト、
S(Mi) : モーラMiの音声認識スコア
である。
モーラのコストは、そのモーラの出現しにくさを示す数値であり、モーラコスト情報保持部2308に、図24のようなデータとして保持されている。モーラ接続コストは、モーラとモーラのつながりにくさを示す数値である。接続コストは、モーラコスト情報保持部2308に、図25のようなデータとして保持されている。例えば、モーラ「ん」はモーラ「と」とは接続コストが2でつながりやすいが、モーラ「あ」とは接続コスト5でつながりにくいことを表している。一方、Miの音声認識スコアS(Mi) は、N-best生成部2305が出力するN-bestに含まれるデータそのものである。例えば、図28の場合、モーラ「ま」の音声認識スコアは、0.75である。この時点でキー入力“9”以降の音声認識結果はまだ得られていないので、例えば、キー入力“9”の位置のモーラノード「ら」に対する音声認識スコアは、S(“ら”)=0として計算する。
このコスト計算を、キー入力“4”の位置を末尾とする全パスに対して行う。この全パスの中で、
[文頭]−「ま」−「る」−「ち」
のコストが小さかった場合、これを、“7”、“9”、“4”とキー入力された時点での最も尤度の高いパスとして選択し、その読み列“まるち”を図30のように画面表示する。
図29は、さらに続いて“7”がキー入力された時点のラティス構造である。この時点では、さらにキー入力“9”に対応する音声信号の認識結果も得られているので、例えばキー入力“9”の位置のモーラノード「ら」に対する音声認識スコアは、S(“ら”)=0.30となる。こうした情報を加味して、式(2)に従って、4番目のキー入力“7”の位置を末尾とする全パスに対してコスト計算を行う。[文頭]−「ま」−「る」−「ち」−「も」のコストが最小であった場合は、その読み列“まるちも”を図31のように画面表示する。さらにキー入力を進めて、“7”、“9”、“4”、“7”、“*”、“4”、“9”とキー入力し、「SET」ボタンと十字キー操作で所望の候補の選択と確定を行う動作は、上記第1の実施形態と同じである。ただし、本実施形態では、得られる文字列が仮名文字列なので、その後、別の手段で仮名漢字変換を行う必要がある。
ここまでの動作を、図32のフローチャートで整理する。
まず、キー入力があれば(ステップS3201)、それが「SET」ボタンか否かを判定し(ステップS3202)、「SET」ボタンでなければ、ここで、処理が言語処理と音声処理の並列処理になる。
言語処理では、キー入力に対応するモーラをラティスに反映させる(ステップS3203)。このラティスに含まれるパスの中で、最後尾まで辿り着いているすべてのパス(今のキュー入力に対応するモーラノードを末尾にするパス)それぞれについて、コストを計算し、コストの最も小さいパスを選択する(ステップS3204)。次に、そのパスに対応する読み列を画面表示する(ステップS3205)。コスト計算は、すでに説明したとおり、パス上のモーラノードのコストとモーラ間のモーラ接続コスト、さらに、その時点で得られている音声処理の結果スコアを用いる。
一方の音声処理は、まず、入力音声から音声切り出しを行う(ステップS3206)。前述の通り、切り出される音声は、その一つ前のキー入力に対応する音声である。この切り出された音声に対する音声認識を行うための文法を生成する(ステップS3207)。文法は、一つ前のキー入力に対応して、図10のような形で生成される。この文法に基づいて音声認識し(ステップS3208)、スコア付きN-bestの形で結果出力する(ステップS3209)。結果は、そのキー入力に対応づけて保持され、ステップS3204でのコスト計算に利用される。
ステップS3201において、入力キーが「SET」であった場合は、一つ前のキー入力に対応する音声に対する音声認識結果を待ち、これをコスト計算に反映させて、再度、最後尾まで辿り着いているすべてのパスに対するコスト計算を行う(ステップS3210)。次に、ユーザの十字キー操作による他候補選択を行い(ステップS3211)、入力を確定させる(ステップS3212)。
最後に、所定の終了条件により(ステップS3213)、全処理を終了する。
以上のようにして、ユーザは、入力したい文字列の音声を発声しながら、発声の各モーラに対応して、対応するキーを1回ずつ押下するだけの操作により、キー入力に対応する文字列の中で、その音声の情報を反映し、かつモーラの並びとしての尤もらしさを反映した文字列が上位にリストアップされ、この中からの簡単な選択操作により、望みの文字列を入力することができる。
(第3の実施形態)
以下、本発明の第3の実施形態を示す。本実施形態でも、図1のFAXに対してテキスト入力を行うケースで説明する。
図33は、本実施形態に係るFAX101におけるテキスト入力方式のブロック図である。
3301は、テンキー102や十字キー103によるキー入力を受け付けるキー入力部である。
3302は、受話器105を通じて入ってくる音声信号から、テキスト入力のための入力音声を切り出す音声切り出し部である。
3303は、重み係数計算部である。
3304は、音声認識部であり、音声切り出し部3302で切り出された入力音声を、重み係数計算部3303で生成された重み係数を反映させて認識する。
3305は、N-best生成部であり、音声認識部3304の認識結果を、スコアの高い上位N個の結果をそれぞれにスコアを付与した形で生成する。
3306は、単語辞書である。
3307は、キー入力部3301で受け付けたキー入力に対応する単語を単語辞書3306から検索する単語辞書検索部である。
3308は、単語辞書検索部3307によって検索された単語の列からなるラティス構造を生成するラティス生成部である。
3309は、ラティス生成部3308が生成するラティス構造から、N-best生成部3305が生成する音声認識結果を加味して最適な単語列を探索する解探索部である。
3310は、接続コストテーブルである。
3311は、解探索部209が出力する最適な単語列を液晶画面104上に表示する結果表示部である。
なお、本実施形態に係るFAXの構成は、図1および図3に示した構成と同様であるので、本実施形態でも図1および図3を援用して説明する。
以下、本実施形態に係るFAX101の具体的な動作を説明する。まず、テンキー102の各キーに対しては、上記第1の実施形態と同様に、文字列がモーラ単位で対応づけられている。また、やはり上記第1の実施形態と同様に、図15の状態から、本テキスト入力方式を用いて、「マルチモーダル」という文字列を入力しようとするものとする。ユーザは、「マルチモーダル」に対応するテンキー列、
“7”、“9”、“4”、“7”、“*”、“4”、“9”
を押しながら、これに合わせて「マルチモーダル」と発声する。
単語辞書3306、単語辞書検索部3307、ラティス生成部3308は、上記第1の実施形態における単語辞書206、単語辞書検索部207、ラティス生成部208と全く同じであるので、ここでは説明を省略する。
一方、音声入力の処理は以下のようになる。
音声切り出し部3302は、ユーザの発声開始、発声終了を検出する処理を行う。音声切り出しは、入力音声のパワー情報などに基づく既存の方法も適用可能であるが、本実施形態では、発声開始の検出に関しては、キー入力情報を手がかりにした方法を用いる。具体的には、図34のように、発声開始は、最初のキー入力“7”より過去の所定時間T [ms] 以内にあると仮定し、その中で、入力音声のパワー情報などに基づいて発声開始位置を決定し、それ以降を認識対象とする。こうすることにより、図34に示すような雑音3401を誤って認識対象にしてしまう危険性を減らすことができる。
音声認識部3304は、特定の音声認識文法を用いず、任意の音節列を認識する方式で実現される。これは、任意の音節列を受理できる音声認識文法を書くことと等価であり、既存の音声認識方法で実現可能である。
まず、既存の方法を図35を用いて説明する。音声認識では、一般に、まず入力音声から各時刻単位で特徴量を計算する。図35では、時刻tにおける特徴量をF(t)と表している。図35は、横軸に時間、縦軸に音素モデルを並べたマトリックスになっている。音素モデルとは、各音素(母音a,i,u,e,o,と子音k,s,t,・・・)を、その音素の開始状態、中間状態、終了状態の3状態に分けたものである(何状態に分けるかはさまざまであるが、ここでは3状態とする)。図35は、各時刻の各音素の各状態にノードを1つ配置したものになっている。
音声認識部3304は、各時刻の特徴量F(t)が、各音素モデルSk(k=1,2,・・・音素モデル数)にどれくらい近いかという尤度L( Sk(t) )を計算する。さらに、各音素モデルから音素モデルへ遷移する尤度L(Sj,Si)が事前に計算され保持されている。こうした値を用いて、
スコア E = Σt ( L( Si(t) ) + L( Sj(t-1),Si(t) ) )
が最大になるようなパスを求める。図35のようなパスが求められた場合、その音素モデル列は、
m1→m3→a1→a2→a3→r1→・・・
であるので、音素列 “m a ・・・” すなわち、“ま・・・”と認識されたことになる。
本実施形態では、上述の方式に、キー入力情報を加味した方式を用いる。図36のように、時刻t3において、キー入力“7”があったとする。キー入力部3301は、重み係数計算部3303にこれを伝える。キー入力“7”は、前述のとおり、モーラ「ま」「み」「む」「め」「も」「みゃ」「みゅ」「みょ」が割り当てられているので、ユーザは、この付近でこれらのモーラのいずれかを発声している可能性が高い。すなわち、時刻t3の周辺では、
●音素m、y、a、i、u、e、oの各状態 ・・・(3)
●音素遷移 m→m、m→y、m→a、m→i、m→u、m→e、m→o、y→a、y→i、y→u、y→e、y→o (正確には、状態レベルでは、m2→m1のように若い状態インデックスに遷移するものは含まれない) ・・・(4)
が含まれる確率が高く、それ以外の音素や音素遷移は含まれない確率が高い。そこで、重み係数計算部3303は、図37のような時間tに対する正規分布関数q(t)(最大値が1になるよう係数倍したもの)を用い、キー入力時刻t*(図36では、t*=t3)に対し、各時刻tに対する各音素モデルに対する重み係数Cp( S(t) )、音素モデル遷移に対する重み係数Ct( Si(t-1)、Sj(t) )を以下のように計算する。
Cp( S(t) ) = 1+q(t−t*) :( S(t)が上記(3)の音素モデルのいずれかである場合)
1−q(t−t*) :(それ以外)
Ct( Sj(t-1)、Si(t) ) = 1+q(t−t*) :(Sj→Siが上記(4)の音素モデル遷移のいずれかである場合)
1−q(t−t*) :(それ以外)
キー入力が複数あった場合は、それぞれのキー入力時刻に対するq(t-t*)を重み係数に反映する必要がある。この場合は、最大値を取る、平均値を取るなどの処理をすればよい。また、ここでは関数q(t)として、図37のような正規分布関数を用いたが、これに限定したものではなく、キー入力と発声の関係を考慮した適当な関数を用いればよい。
音声認識部3304は、この係数を用いて、次式によるスコアEが最大になるようなパスを求める。
スコア E = Σt (Cp( s(t) )×L( Si(t) ) + Ct( Sj(t-1)、Si(t) )×L( Sj(t-1),Si(t) ) ) ・・・(5)
N-best生成部3305は、音声認識部3304の出力結果を受け、発声開始から現在時刻までの音声認識結果に対応する読み列のスコア付きN-bestを生成する。例えば図35においてt6が現在時刻の場合、この時点で求められた最大パスは、
m1→m3→a1→a2→a3→r1
である。このうち、最後の音素モデルr1は、その後の母音が未確定であるため、この段階で確定している読み列は、“ま”となる。同様に、音素モデル列
m1→m3→e1→e3→r1→u1
に対して確定した読み列は、“める”となる。
N-best生成部3305は、音声認識部3304で得られた音素モデル列のN-bestを上述のような読み列に変換し、それぞれにスコアを付けた形のものを生成する。
続いて、解探索部209の処理を説明するために、まず、図38を用いて、ここまで説明した処理の時間関係を整理しておく。上記第1、第2の実施形態と同様、処理は、大きく分けて、単語辞書検索部3307、ラティス生成部3308からなる言語処理と、音声切り出し部3302、重み係数計算部3303、音声認識部3304、N-best生成部3305からなる音声処理の2つからなる。本実施形態では、上記第1、第2の実施形態とは異なり、音声処理は、音声切り出し部3302によるユーザの発声開始を認識した後は、常に現在時刻における音声認識結果のN-bestを生成し続ける。
例えば、図39は、“7”、“9”、“4”とキー入力され、キー入力“4”に対する言語処理が終わった時点のラティス構造と、その時点でN-best生成部3305が生成した読み列のスコア付きN-bestの例を表している。
解探索部3309は、図39のラティスに対し、キー入力“4”の位置を末尾とする各パスのコストを計算する。パスのコストは、次式で計算される。
E=Σi ( C(Wi) + C(Wi-1,Wi) - S(Wi) ) ・・・(6)
ただし、
C(Wi) : 単語Wiの単語コスト、
C(Wi-1,Wi) : Wi-1とWiの接続コスト、
S(Wi) : Wiに関連する音声認識スコア
である。
単語コスト、接続コストは、上記第1の実施形態と同じものである。一方、Wiに関連する音声認識スコアとは、次のようなものである。例えば、Wiが図39の単語「村」だとする。この時点で、発声開始から現時刻に至るまでの入力音声に対する音声認識結果が、図39に示すようなスコア付きN-bestの形で得られている。ただし、音声処理の処理速度によっては、この時点で音声処理結果のN-bestに含まれる読み列が、先頭からキー入力“4”の位置までに対応しているとは限らない。図39の場合は、キー入力列“7”、“9”に対応する読み列が得られている。ここで、「村」のキー入力列“7”、“9”に対応する読みは、「むら」であるので、S(“村”)は、「むら」のスコア0.31となる。同様に、図39の単語「森田」の場合、S(“森田”)=「もり」のスコア=0.10となる。図13の「と」「た」「戸」「他」などのように、キー入力列“7”、“9”の位置をカバーしない単語については、S(Wi)=0となる。
このコスト計算を、キー入力“4”の位置を末尾とする全パスに対して行う。この全パスの中で、
[文頭]−「村」−「と」
のコストが小さかった場合、これを、“7”、“9”、“4”とキー入力された時点での最も尤度の高いパスとして選択し、その読み列“むらと”を図16のように画面表示する。さらにキー入力を進めて、“7”、“9”、“4”、“7”、“*”、“4”、“9”とキー入力し、「SET」ボタンと十字キー操作で所望の候補の選択と確定を行う動作は、上記第1の実施形態と同じである。以上のようにして、キー入力と音声を組み合わせた文字入力を行うことができる。
ここまでの動作を、図40のフローチャートを用いて整理する。
まず、キー入力があり(ステップS4001)、それが最初のキー入力であれば(ステップS4002)、音声切り出し部3302が入力音声の開始位置を探し、それ以降を入力音声と認識する(ステップS4003)。ここで、処理が言語処理と音声処理の並列処理になる。
次にそのキーが「SET」ボタンか否かを判定し(ステップS4004)、「SET」ボタンでなければ、言語処理では、まず、図4のトライ辞書にアクセスし、ここまでの入力キー列の逆順にトライの木を辿り、単語を検索する(ステップS4005)。続いて、検索された単語をラティスに反映させる(ステップS4006)。次に、このラティスに含まれるパスの中で、最後尾まで辿り着いているすべてのパス(今検索されラティスに反映された単語を末尾にするパス)それぞれについて、コストを計算し、コストの最も小さいパスを選択する(ステップS4007)。そして、そのパスに対応する読み列を画面表示する(ステップS4008)。コスト計算は、すでに説明したとおり、パス上の単語の単語コストと単語間の接続コスト、さらに、その時点で得られている音声処理の結果スコアを用いる。
一方の音声処理は、ステップS4003で切り出された音声に対して行う。重み係数計算部3303は、キー入力に応じて重み係数を計算し(ステップS4009)、音声認識部3304がこの重み係数を用いて音声認識し(ステップS4010)、スコア付きN-bestの形で結果出力する(ステップS4011)。結果は、ステップS4007でのコスト計算に利用される。音声切り出し部3302によって入力音声のパワーなどから発声の終了位置が検出され、あるいは、「SET」ボタンが押された場合は、音声処理は終了する(ステップS4012)。
ステップS4004で、「SET」ボタンが押された場合は、さらに、音声処理からの音声認識結果を待ち、これをコスト計算に反映させて、再度、最後尾まで辿り着いているすべてのパスに対するコスト計算を行う(ステップS4013)。さらに、ユーザの十字キー操作による他候補選択を行い(ステップS4014)、入力を確定させる(ステップS4015)。
最後に、所定の終了条件により(ステップS4016)、全処理を終了する。
以上のようにして、ユーザは、入力したい文字列の音声を発声しながら、発声の各モーラに対応して、対応するキーを1回ずつ押下するだけの操作により、キー入力に対応する文字列の中で、その音声の情報を反映し、かつ言語としての尤もらしさを反映した文字列が上位にリストアップされ、この中からの簡単な選択操作により、望みの文字列を入力することができる。
(第4の実施形態)
上記第3の実施形態は、上記第1の実施形態と同じ言語処理を用い、上記第1の実施形態とは異なる音声処理を組み合わせたものであった。これに加え、上記第2の実施形態の言語処理と上記第3の実施形態の音声処理を組み合わせた方法も可能である。その方式を実現するブロック図は図41のようになる。
4101は、テンキー102や十字キー103によるキー入力を受け付けるキー入力部である。
4102は、受話器105を通じて入ってくる音声信号から、テキスト入力のための入力音声を切り出す音声切り出し部である。
4103は、重み係数計算部である。
4104は、音声認識部であり、音声切り出し部4102で切り出された入力音声を、重み係数計算部4103で生成された重み係数を反映させて認識する。
4105は、N-best生成部であり、音声認識部4104の認識結果を、スコアの高い上位N個の結果をそれぞれにスコアを付与した形で生成する。
4106は、キー入力に対応するモーラの列からなるラティス構造を生成するモーララティス生成部である。
4107は、ラティス生成部4106が生成するラティス構造から、N-best生成部4105が生成する音声認識結果を加味して最適なモーラ列を探索する解探索部である。
4108は、モーラコスト情報保持部である。
4109は、解探索部4107が出力する最適なモーラ列に対応する読み文字列を液晶画面104上に表示する結果表示部である。
本実施形態の動作を、図42のフローチャートを用いて説明する。
まず、キー入力があり(ステップS4201)、それが最初のキー入力であれば(ステップS4202)、音声切り出し部4102が入力音声の開始位置を探し、それ以降を入力音声と認識する(ステップS4203)。ここで、処理が言語処理と音声処理の並列処理になる。
次にそのキーが「SET」ボタンか否かを判定し(ステップS4204)、「SET」ボタンでなければ、言語処理では、キー入力に対応するモーラをラティスに反映させる(ステップS4205)。このラティスに含まれるパスの中で、最後尾まで辿り着いているすべてのパス(今のキュー入力に対応するモーラノードを末尾にするパス)それぞれについて、コストを計算し、コストの最も小さいパスを選択する(ステップS4206)。そのパスに対応する読み列を画面表示する(ステップS4207)。コスト計算は、すでに説明したとおり、パス上のモーラノードのコストとモーラ間のモーラ接続コスト、さらに、その時点で得られている音声処理の結果スコアを用いる。
一方の音声処理は、ステップS4203で切り出された音声に対して行う。重み係数計算部4103は、キー入力に応じて重み係数を計算し、音声認識部4104がこの重み係数を用いて音声認識し(ステップS4209)、スコア付きN-bestの形で結果出力する(ステップS4210)。結果は、ステップS4206でのコスト計算に利用される。音声切り出し部4102によって入力音声のパワーなどから発声の終了位置が検出され、あるいは、「SET」ボタンが押された場合は、音声処理は終了する(ステップS4211)。
ステップS4204で、「SET」ボタンが押された場合は、さらに、音声処理からの音声認識結果を待ち、これをコスト計算に反映させて、再度、最後尾まで辿り着いているすべてのパスに対するコスト計算を行う(ステップS4212)。さらに、ユーザの十字キー操作による他候補選択を行い(ステップS4213)、入力を確定させる(ステップS4214)。
最後に、所定の終了条件により(ステップS4215)、全処理を終了する。
(その他の実施形態)
以上、本発明のさまざまな実施形態を詳述した。上記第1、第3の実施形態では、単語コスト、単語間接続コストを用いてコスト計算を行なっていたが、単語列に対して言語としての尤もらしさを評価できるものであれば、他の方法でもかまわない。例えば、単語辞書の各単語に品詞情報を付与し、単語間接続コストの代わりに品詞間接続コストを用いてもかまわない。また、品詞に限らず、単語をなんらかのクラスに分類し、そのクラス情報を単語辞書の各単語に付与し、単語間接続コストの代わりにクラス間接続コストを用いてもかまわない。
また、上記実施形態で用いた、パス選択のためのコスト計算式(1)、(2)、(6)は、これらに限定されるものではない。上記第1、第2の実施形態の場合は、単語コスト、単語間接続コスト(あるいは、品詞間接続コスト、クラス間接続コスト)、音声認識スコアが適切に反映されていれば、他の計算式でもかまわない。上記第2、第4の実施形態の場合は、各モーラのコスト、モーラ間の接続コスト、音声認識スコアが適切に反映されていれば、他の計算式でもかまわない。
また、上記実施形態では、テンキーに対してモーラ単位の文字列を割り当てていたが、モーラ単位ではなく文字単位で割り振ってもよい。あるいは、その他のいかなる割り当てでもかまわない。
また、上記実施形態では、対象デバイスとしてFAXを扱ったが、音声入力機能と、グラフィックユーザインタフェースもしくは操作ボタンを有する任意のデバイスに適用可能であることは言うまでもない。
また、上記実施形態においては、プログラムをROMに保持する場合について説明したが、これに限定されるものではなく、任意の記憶媒体を用いて実現してもよい。また、同様の動作をする回路で実現してもよい。
本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータがその供給されたプログラムコードを読み出して実行することによっても達成される。その場合、プログラムの機能を有していれば、その形態はプログラムである必要はない。
従って、本発明の機能処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体およびそのプログラムを格納した記憶媒体も本発明を構成することになる。つまり、本発明の特許請求の範囲には、本発明の機能処理を実現するためのコンピュータプログラム自体、およびそのプログラムを格納した記憶媒体も含まれる。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。
プログラムを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM、DVD−R)などがある。
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、そのホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記憶媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明のクレームに含まれるものである。
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
さらに、記憶媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。
本発明の第1の実施形態に係るFAXの外観構成を示す図である。 本発明の第1の実施形態に係るFAXのテキスト入力に係る機能構成を示すブロック図である。 本発明の第1の実施形態に係るFAXのハードウエア構成を示す図である。 本発明の第1の実施形態に係る単語辞書の構造例を示す図である。 本発明の第1の実施形態に係る単語辞書に含まれる各単語に付与された情報の例を示す図である。 本発明の第1の実施形態に係る接続コストテーブルの内容の例を示す図である。 本発明の第1の実施形態に係るキー入力途中のラティス構造を示す図である。 本発明の第1の実施形態に係る音声切り出し部の動作を説明する図である。 本発明の第1の実施形態に係る音声認識文法生成部が生成する音声認識文法の例を示す図である。 本発明の第1の実施形態に係るN-best生成部が生成するスコア付きN-bestデータの例を示す図である。 本発明の第1の実施形態に係る言語処理と音声処理の時間関係を示す図である。 本発明の第1の実施形態に係るキー入力に対応するラティス構造とその時点でN-best生成部から得られている音声認識結果を示す図である。 本発明の第1の実施形態に係るキー入力途中のFAXの画面表示を示す図である。 本発明の第1の実施形態に係る候補選択を行う時のFAXの画面表示を示す図である。 本発明の第1の実施形態に係る入力テキストを確定した時のFAXの画面表示を示す図である。 本発明の第1の実施形態に係るFAXの動作を説明するフローチャートである。 本発明の第2の実施形態に係るFAXの機能構成を示すブロック図である。 本発明の第2の実施形態に係るモーラコスト情報保持部に保持されるコストデータの例を示す図である。 本発明の第2の実施形態に係るモーラコスト情報保持部に保持されるモーラ接続コストテーブルの例を示す図である。 本発明の第2の実施形態に係るキー入力途中のラティス構造を示す図である。 本発明の第2の実施形態に係るキー入力途中のラティス構造とその時点でN-best生成部から得られている音声認識結果を示す図である。 本発明の第2の実施形態に係るキー入力途中のFAXの画面表示を示す図である。 本発明の第2の実施形態の動作を説明するフローチャートである。 本発明の第3の実施形態に係るFAXの構成を示すブロック図である。 本発明の第3の実施形態に係る音声切り出し部の動作を説明する図である。 本発明の第3の実施形態に係る音声認識部における処理を説明する図である。 本発明の第3の実施形態に係る重み係数計算部が利用する重み関数の例を示す図である。 本発明の第3の実施形態に係る言語処理と音声処理の時間関係を示す図である。 本発明の第3の実施形態に係るキー入力途中のラティス構造を示す図である。 本発明の第3の実施形態の動作を説明するフローチャートである。 本発明の第4の実施形態に係るFAXの構成を示すブロック図である。 本発明の第4の実施形態の動作を説明するフローチャートである。

Claims (12)

  1. 文字列のカテゴリを指示する指示手段と、音声を受信する音声受信手段とを備え、前記指示手段による指示入力とその指示入力と並行して前記音声受信手段で受信した音声とに基づいて文字列を入力する文字列入力装置であって、
    前記指示手段による一の指示入力およびそれまで連続的になされた指示入力に対応する文字列候補を生成する文字列候補生成手段と、
    前記文字列候補生成手段により生成された文字列候補を、ユーザに選択させるために表示する表示手段と、
    前記音声受信手段で受信した連続的に発声された音声を認識し、その認識結果を出力する音声認識手段と、
    前記文字列候補生成手段および前記表示手段による処理と並行して前記音声認識手段による処理を実行させる制御手段と、
    を有し、
    前記文字列候補生成手段は、その実行時点で完了している前記音声認識手段による音声認識の過程で得られる音声認識スコアを加味して前記文字列候補を生成することを特徴とする文字列入力装置。
  2. 前記音声受信手段で受信した音声の過去一定時間分を保持する保持手段と、
    前記保持手段に保持された音声のうち、前記指示手段による最初の指示入力の時刻から遡って所定時間以内のデータから、発声開始位置を特定する音声切り出し手段と、
    を更に有することを特徴とする請求項1に記載の文字列入力装置。
  3. 前記音声受信手段で受信した音声から、前記指示手段による個々の指示入力に対応する部分音声を切り出す音声切り出し手段と、
    前記個々の指示入力に応じて、前記音声切り出し手段で切り出された部分音声を認識するための音声認識文法を生成する音声認識文法生成手段と、
    を更に備え、
    前記音声認識手段は、音声認識文法生成手段によって生成された音声認識文法に基づいて前記音声切り出し手段で切り出された部分音声を認識し、その認識結果を尤度情報とともに出力することを特徴とする請求項1に記載の文字列入力装置。
  4. 前記音声認識手段は、任意の音節列を受理可能な音声認識文法に基づいて前記音声受信手段で受信した音声を認識するように構成され、
    前記指示手段による個々の指示入力に対して、入力音声の中のその指示時刻に近い部分が、その指示入力に対応する前記カテゴリに属する文字列として認識されやすくなるような重み係数を算出する重み係数算出手段を更に有し、
    前記音声認識手段は、前記重み係数算出手段による重み係数を用いて音声認識を行うことを特徴とする請求項1に記載の文字列入力装置。
  5. 前記文字列候補生成手段は、
    前記一の指示入力およびそれまで連続的になされた指示入力に基づいて、文字列の接続の仮説を生成する仮説生成手段と、
    前記仮説生成手段により生成された前記仮説の各パスについて、現時点で完了している前記音声認識手段による音声認識で得られた音声認識スコアを加味して尤度を計算する尤度計算手段と、
    前記尤度計算手段により計算された各パスの尤度に基づいて、前記文字列候補を抽出する抽出手段と、
    を含むことを特徴とする請求項1に記載の文字列入力装置。
  6. 前記指示手段による指示入力に基づく検索が可能に構成された単語辞書を更に有し、
    前記仮説生成手段は、前記一の指示入力に対応する単語を、当該一の指示入力およびそれまで連続的になされた指示入力に基づいて前記単語辞書から検索し、検索された単語の接続の仮説を前記文字列の接続の仮説として生成する
    ことを特徴とする請求項5に記載の文字列入力装置。
  7. 前記単語辞書は、前記一の指示入力およびそれまで連続的になされた一連の指示入力を過去に遡って辿ることで、各々の指示入力に対応する読みの単語に辿り着くことができるトライ構造をなすことを特徴とする請求項6に記載の文字列入力装置。
  8. 前記単語辞書に含まれる各単語にはその単語の出現しにくさを示す単語コスト情報が付与され、
    単語と単語のつながりにくさを表す接続コスト情報を保持する接続コスト情報保持手段を更に備えることを特徴とする請求項6に記載の文字列入力装置。
  9. 前記仮説生成手段は、前記一の指示入力に対応するモーラもしくは文字列およびそれまで連続的になされた指示入力にそれぞれ対応するモーラもしくは文字列を用いて、モーラもしくは文字列の接続の仮説を前記モーラもしくは文字列の接続の仮説として生成することを特徴とする請求項5に記載の文字列入力装置。
  10. モーラもしくは文字列の出現しにくさを示すコスト情報を保持する文字列コスト情報保持手段と、
    モーラもしくは文字列同士の接続しにくさを示す文字列間接続コスト情報を保持する文字列接続間コスト情報保持手段と、
    更にを備えることを特徴とする請求項1に記載の文字列入力装置。
  11. 文字列のカテゴリを指示する指示手段と、音声を受信する音声受信手段とを備え、前記指示手段による指示入力とその指示入力と並行して前記音声受信手段で受信した音声とに基づいて文字列を入力する文字列入力装置の制御方法であって、
    (a)前記指示手段による一の指示入力およびそれまで連続的になされた指示入力に対応する文字列候補を生成するステップと、
    (b)上記ステップ(a)で生成された文字列候補を、ユーザに選択させるために表示するステップと、
    (c)前記一の指示入力に続けて新たな指示入力がなされた場合、当該新たな指示入力について、上記ステップ(a)および(b)を繰り返すよう制御するステップと、
    を有する一方、
    (d)前記音声受信手段で受信した連続的に発声された音声に対し音声認識を行い、その認識結果を出力するステップと、
    (e)前記一の指示入力に続けてなされた新たな指示入力に対応する音声について、上記ステップ(d)を繰り返すよう制御するステップと、
    を有し、
    上記ステップ(a)は、その実行時点で完了しているステップ(d)による音声認識の過程で得られる音声認識スコアを加味して前記文字列候補を生成することを特徴とする文字列入力装置の制御方法。
  12. 請求項11に記載の文字列入力装置の制御方法をコンピュータによって実現するためのプログラム。
JP2004296690A 2004-10-08 2004-10-08 文字列入力装置およびその制御方法 Expired - Fee Related JP4027356B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004296690A JP4027356B2 (ja) 2004-10-08 2004-10-08 文字列入力装置およびその制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004296690A JP4027356B2 (ja) 2004-10-08 2004-10-08 文字列入力装置およびその制御方法

Publications (2)

Publication Number Publication Date
JP2006106620A true JP2006106620A (ja) 2006-04-20
JP4027356B2 JP4027356B2 (ja) 2007-12-26

Family

ID=36376406

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004296690A Expired - Fee Related JP4027356B2 (ja) 2004-10-08 2004-10-08 文字列入力装置およびその制御方法

Country Status (1)

Country Link
JP (1) JP4027356B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008249807A (ja) * 2007-03-29 2008-10-16 Kddi Corp 音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体
JP2009075263A (ja) * 2007-09-19 2009-04-09 Kddi Corp 音声認識装置およびコンピュータプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008249807A (ja) * 2007-03-29 2008-10-16 Kddi Corp 音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体
JP2009075263A (ja) * 2007-09-19 2009-04-09 Kddi Corp 音声認識装置およびコンピュータプログラム

Also Published As

Publication number Publication date
JP4027356B2 (ja) 2007-12-26

Similar Documents

Publication Publication Date Title
CN107077841B (zh) 用于文本到语音的超结构循环神经网络
TWI266280B (en) Multimodal disambiguation of speech recognition
JP4416643B2 (ja) マルチモーダル入力方法
US8571862B2 (en) Multimodal interface for input of text
CN105283914B (zh) 用于识别语音的系统和方法
JP4012143B2 (ja) 情報処理装置およびデータ入力方法
US8290775B2 (en) Pronunciation correction of text-to-speech systems between different spoken languages
JP5166255B2 (ja) データ入力システム
KR100769029B1 (ko) 다언어의 이름들의 음성 인식을 위한 방법 및 시스템
US20130090921A1 (en) Pronunciation learning from user correction
US20080133228A1 (en) Multimodal speech recognition system
JP3581881B2 (ja) 音声補完方法、装置および記録媒体
JP2011254553A (ja) 小型キーパッド用日本語入力メカニズム
KR20080063471A (ko) 이동 장치에 대한 조합된 음성 및 교체 입력 양식을 위한정보 입력 방법, 이동 장치 및 사용자 인터페이스
KR20050071334A (ko) 텍스트 입력 방법
WO2004036939A1 (fr) Appareil de communication mobile numerique portable, procede de commande vocale et systeme
JP2002116796A (ja) 音声処理装置、音声処理方法及び記憶媒体
JP5323652B2 (ja) 類似語決定方法およびシステム
US20060095263A1 (en) Character string input apparatus and method of controlling same
JP4027356B2 (ja) 文字列入力装置およびその制御方法
CN112580335A (zh) 多音字消歧方法及装置
KR102091684B1 (ko) 음성 인식 텍스트 수정 방법 및 이 방법을 구현한 장치
JP2010231149A (ja) 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム
Moore Modeling data entry rates for ASR and alternative input methods.
JP3790038B2 (ja) サブワード型不特定話者音声認識装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061211

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070312

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070509

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070928

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071009

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101019

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101019

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111019

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111019

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121019

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131019

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees