JP2006106620A - 文字列入力装置およびその制御方法 - Google Patents
文字列入力装置およびその制御方法 Download PDFInfo
- Publication number
- JP2006106620A JP2006106620A JP2004296690A JP2004296690A JP2006106620A JP 2006106620 A JP2006106620 A JP 2006106620A JP 2004296690 A JP2004296690 A JP 2004296690A JP 2004296690 A JP2004296690 A JP 2004296690A JP 2006106620 A JP2006106620 A JP 2006106620A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- voice
- input
- instruction
- instruction input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】 連続的になされたキー入力に対応する文字列候補を生成し(S2203〜S2205)、生成された文字列候補をユーザに選択させるために表示する(S2206)一方で、一のキー入力に対応する音声を切り出し(S2207)、切り出された音声に対する音声認識文法を、当該一のキー入力に基づき生成し(S2208)、その音声認識文法を用いて音声認識を行う(S2209)。そして、上記の文字列候補の生成(S2203〜S2205)では、その実行時点で完了している音声認識の結果を加味して文字列候補を生成する。
【選択図】 図22
Description
本実施形態では、図1に示すような、ファクシミリ装置(以下「FAX」という。)101に対してテキスト入力を行うケースで説明する。
202は、受話器105を通じて入ってくる音声信号から、テキスト入力のための入力音声を切り出す音声切り出し部である。
203は、音声認識文法生成部である。
204は、音声認識部であり、音声切り出し部202で切り出された入力音声を、音声認識文法生成部203で生成された音声認識文法に基づいて認識する。
205は、N-best生成部であり、音声認識部204の認識結果を、スコアの高い上位N個の結果をそれぞれにスコアを付与した形で生成する。
206は、単語辞書である。
207は、キー入力部201で受け付けたキー入力に対応する単語を単語辞書206から検索する単語辞書検索部である。
208は、単語辞書検索部207によって検索された単語の列を用いて、単語の接続の仮説を表現するラティスを生成するラティス生成部である。
209は、ラティス生成部208が生成するラティス構造から、N-best生成部205が生成する音声認識結果を加味して最適な単語列を探索する解探索部である。
210は、接続コストテーブルである。
211は、解探索部209が出力する最適な単語列を液晶画面104上に表示する結果表示部である。
302はRAMであり、主記憶装置として、CPU301の動作に必要な記憶領域を提供する。
303はROMであり、本発明に係る動作手順を実現するための制御プログラムや単語辞書206、接続コストテーブル210を保持する。
304はLCDであり、液晶画面104を構成する。
305はテンキー102、十字キー103を含む物理ボタンである。
306はA/Dコンバータであり、入力音声をデジタル信号に変換する。
307はマイクであり、受話器105を構成する。
308はバスである。
“2”・・・「か」「き」「く」「け」「こ」「きゃ」「きゅ」「きょ」
「が」「ぎ」「ぐ」「げ」「ご」「ぎゃ」「ぎゅ」「ぎょ」
“3”・・・「さ」「し」「す」「せ」「そ」「しゃ」「しゅ」「しょ」
「ざ」「じ」「ず」「ぜ」「ぞ」「じゃ」「じゅ」「じょ」
“4”・・・「た」「ち」「つ」「て」「と」「ちゃ」「ちゅ」「ちょ」「っ」
「だ」「ぢ」「づ」「で」「ど」「でゃ」「でゅ」「でょ」
“5”・・・「な」「に」「ぬ」「ね」「の」「にゃ」「にゅ」「にょ」
“6”・・・「は」「ひ」「ふ」「へ」「ほ」「ひゃ」「ひゅ」「ひょ」
「ば」「び」「ぶ」「べ」「ぼ」「びゃ」「びゅ」「びょ」
「ぱ」「ぴ」「ぷ」「ぺ」「ぽ」「ぴゃ」「ぴゅ」「ぴょ」
“7”・・・「ま」「み」「む」「め」「も」「みゃ」「みゅ」「みょ」
“8”・・・「や」「ゆ」「よ」
“9”・・・「ら」「り」「る」「れ」「ろ」「りゃ」「りゅ」「りょ」
“0”・・・「わ」「を」「ん」
“*”・・・「ー」
“7”、“9”、“4”、“7”、“* ”、“4”、“9”
を押しながら、これと並行して「マルチモーダル」と発声する。
C(Wi) : 単語Wiの単語コスト、
C(Wi-1,Wi) : Wi-1とWiの接続コスト、
S(Wi) : Wiに関連する音声認識スコア
である。
[文頭]−「村」−「と」
のコストが小さかった場合、これを、“7”、“9”、“4”とキー入力された時点での最も尤度の高いパスとして選択し、その読み列“むらと”を図16のように画面表示する。図14は、さらに続いて“7”がキー入力された時点のラティス構造である。この時点では、さらにキー入力“9”に対応する音声信号の認識結果も得られている。この情報を加味すると、「村」のキー入力“9”に対応する読みは、「ら」であるので、S(“村”)は、「む」のスコア0.42と「ら」のスコア0.30の和=0.72なる。同様に、S(“理知”)=「り」のスコア=0.80となる。こうした情報を加味して、式(1)に従って、4番目のキー入力“7”の位置を末尾とする全パスに対してコスト計算を行う。その結果、[文頭]−「真理」−「と」−「目」のコストが最小であった場合は、その読み列“まりとめ”を図17のように画面表示する。
次に、本発明の第2の実施形態を示す。本実施形態でも、図1のFAXに対してテキスト入力を行うケースで説明する。
2302は、受話器105を通じて入ってくる音声信号から、テキスト入力のための入力音声を切り出す音声切り出し部である。
2303は、音声認識文法生成部である。
2304は、音声認識部であり、音声切り出し部2302で切り出された入力音声を、音声認識文法生成部2303で生成された音声認識文法に基づいて認識する。
2305は、N-best生成部であり、音声認識部2304の認識結果を、スコアの高い上位N個の結果をそれぞれにスコアを付与した形で生成する。
2306は、キー入力に対応するモーラの列からなるラティス構造を生成するモーララティス生成部である。
2307は、ラティス生成部2306が生成するラティス構造から、N-best生成部2305が生成する音声認識結果を加味して最適なモーラ列を探索する解探索部である。
2308は、モーラコスト情報保持部である。
2309は、解探索部2307が出力する最適なモーラ列に対応する読み文字列を液晶画面104上に表示する結果表示部である。
“7”、“9”、“4”、“7”、“*”、“4”、“9”
を押しながら、これに合わせて「マルチモーダル」と発声する。
C(Mi) : モーラMiのコスト、
C(Mi-1,Mi) : Mi-1とMiのモーラ接続コスト、
S(Mi) : モーラMiの音声認識スコア
である。
[文頭]−「ま」−「る」−「ち」
のコストが小さかった場合、これを、“7”、“9”、“4”とキー入力された時点での最も尤度の高いパスとして選択し、その読み列“まるち”を図30のように画面表示する。
以下、本発明の第3の実施形態を示す。本実施形態でも、図1のFAXに対してテキスト入力を行うケースで説明する。
3302は、受話器105を通じて入ってくる音声信号から、テキスト入力のための入力音声を切り出す音声切り出し部である。
3303は、重み係数計算部である。
3304は、音声認識部であり、音声切り出し部3302で切り出された入力音声を、重み係数計算部3303で生成された重み係数を反映させて認識する。
3305は、N-best生成部であり、音声認識部3304の認識結果を、スコアの高い上位N個の結果をそれぞれにスコアを付与した形で生成する。
3306は、単語辞書である。
3307は、キー入力部3301で受け付けたキー入力に対応する単語を単語辞書3306から検索する単語辞書検索部である。
3308は、単語辞書検索部3307によって検索された単語の列からなるラティス構造を生成するラティス生成部である。
3309は、ラティス生成部3308が生成するラティス構造から、N-best生成部3305が生成する音声認識結果を加味して最適な単語列を探索する解探索部である。
3310は、接続コストテーブルである。
3311は、解探索部209が出力する最適な単語列を液晶画面104上に表示する結果表示部である。
“7”、“9”、“4”、“7”、“*”、“4”、“9”
を押しながら、これに合わせて「マルチモーダル」と発声する。
スコア E = Σt ( L( Si(t) ) + L( Sj(t-1),Si(t) ) )
が最大になるようなパスを求める。図35のようなパスが求められた場合、その音素モデル列は、
m1→m3→a1→a2→a3→r1→・・・
であるので、音素列 “m a ・・・” すなわち、“ま・・・”と認識されたことになる。
●音素m、y、a、i、u、e、oの各状態 ・・・(3)
●音素遷移 m→m、m→y、m→a、m→i、m→u、m→e、m→o、y→a、y→i、y→u、y→e、y→o (正確には、状態レベルでは、m2→m1のように若い状態インデックスに遷移するものは含まれない) ・・・(4)
が含まれる確率が高く、それ以外の音素や音素遷移は含まれない確率が高い。そこで、重み係数計算部3303は、図37のような時間tに対する正規分布関数q(t)(最大値が1になるよう係数倍したもの)を用い、キー入力時刻t*(図36では、t*=t3)に対し、各時刻tに対する各音素モデルに対する重み係数Cp( S(t) )、音素モデル遷移に対する重み係数Ct( Si(t-1)、Sj(t) )を以下のように計算する。
1−q(t−t*) :(それ以外)
Ct( Sj(t-1)、Si(t) ) = 1+q(t−t*) :(Sj→Siが上記(4)の音素モデル遷移のいずれかである場合)
1−q(t−t*) :(それ以外)
m1→m3→a1→a2→a3→r1
である。このうち、最後の音素モデルr1は、その後の母音が未確定であるため、この段階で確定している読み列は、“ま”となる。同様に、音素モデル列
m1→m3→e1→e3→r1→u1
に対して確定した読み列は、“める”となる。
C(Wi) : 単語Wiの単語コスト、
C(Wi-1,Wi) : Wi-1とWiの接続コスト、
S(Wi) : Wiに関連する音声認識スコア
である。
[文頭]−「村」−「と」
のコストが小さかった場合、これを、“7”、“9”、“4”とキー入力された時点での最も尤度の高いパスとして選択し、その読み列“むらと”を図16のように画面表示する。さらにキー入力を進めて、“7”、“9”、“4”、“7”、“*”、“4”、“9”とキー入力し、「SET」ボタンと十字キー操作で所望の候補の選択と確定を行う動作は、上記第1の実施形態と同じである。以上のようにして、キー入力と音声を組み合わせた文字入力を行うことができる。
上記第3の実施形態は、上記第1の実施形態と同じ言語処理を用い、上記第1の実施形態とは異なる音声処理を組み合わせたものであった。これに加え、上記第2の実施形態の言語処理と上記第3の実施形態の音声処理を組み合わせた方法も可能である。その方式を実現するブロック図は図41のようになる。
4102は、受話器105を通じて入ってくる音声信号から、テキスト入力のための入力音声を切り出す音声切り出し部である。
4103は、重み係数計算部である。
4104は、音声認識部であり、音声切り出し部4102で切り出された入力音声を、重み係数計算部4103で生成された重み係数を反映させて認識する。
4105は、N-best生成部であり、音声認識部4104の認識結果を、スコアの高い上位N個の結果をそれぞれにスコアを付与した形で生成する。
4106は、キー入力に対応するモーラの列からなるラティス構造を生成するモーララティス生成部である。
4107は、ラティス生成部4106が生成するラティス構造から、N-best生成部4105が生成する音声認識結果を加味して最適なモーラ列を探索する解探索部である。
4108は、モーラコスト情報保持部である。
4109は、解探索部4107が出力する最適なモーラ列に対応する読み文字列を液晶画面104上に表示する結果表示部である。
以上、本発明のさまざまな実施形態を詳述した。上記第1、第3の実施形態では、単語コスト、単語間接続コストを用いてコスト計算を行なっていたが、単語列に対して言語としての尤もらしさを評価できるものであれば、他の方法でもかまわない。例えば、単語辞書の各単語に品詞情報を付与し、単語間接続コストの代わりに品詞間接続コストを用いてもかまわない。また、品詞に限らず、単語をなんらかのクラスに分類し、そのクラス情報を単語辞書の各単語に付与し、単語間接続コストの代わりにクラス間接続コストを用いてもかまわない。
Claims (12)
- 文字列のカテゴリを指示する指示手段と、音声を受信する音声受信手段とを備え、前記指示手段による指示入力とその指示入力と並行して前記音声受信手段で受信した音声とに基づいて文字列を入力する文字列入力装置であって、
前記指示手段による一の指示入力およびそれまで連続的になされた指示入力に対応する文字列候補を生成する文字列候補生成手段と、
前記文字列候補生成手段により生成された文字列候補を、ユーザに選択させるために表示する表示手段と、
前記音声受信手段で受信した連続的に発声された音声を認識し、その認識結果を出力する音声認識手段と、
前記文字列候補生成手段および前記表示手段による処理と並行して前記音声認識手段による処理を実行させる制御手段と、
を有し、
前記文字列候補生成手段は、その実行時点で完了している前記音声認識手段による音声認識の過程で得られる音声認識スコアを加味して前記文字列候補を生成することを特徴とする文字列入力装置。 - 前記音声受信手段で受信した音声の過去一定時間分を保持する保持手段と、
前記保持手段に保持された音声のうち、前記指示手段による最初の指示入力の時刻から遡って所定時間以内のデータから、発声開始位置を特定する音声切り出し手段と、
を更に有することを特徴とする請求項1に記載の文字列入力装置。 - 前記音声受信手段で受信した音声から、前記指示手段による個々の指示入力に対応する部分音声を切り出す音声切り出し手段と、
前記個々の指示入力に応じて、前記音声切り出し手段で切り出された部分音声を認識するための音声認識文法を生成する音声認識文法生成手段と、
を更に備え、
前記音声認識手段は、音声認識文法生成手段によって生成された音声認識文法に基づいて前記音声切り出し手段で切り出された部分音声を認識し、その認識結果を尤度情報とともに出力することを特徴とする請求項1に記載の文字列入力装置。 - 前記音声認識手段は、任意の音節列を受理可能な音声認識文法に基づいて前記音声受信手段で受信した音声を認識するように構成され、
前記指示手段による個々の指示入力に対して、入力音声の中のその指示時刻に近い部分が、その指示入力に対応する前記カテゴリに属する文字列として認識されやすくなるような重み係数を算出する重み係数算出手段を更に有し、
前記音声認識手段は、前記重み係数算出手段による重み係数を用いて音声認識を行うことを特徴とする請求項1に記載の文字列入力装置。 - 前記文字列候補生成手段は、
前記一の指示入力およびそれまで連続的になされた指示入力に基づいて、文字列の接続の仮説を生成する仮説生成手段と、
前記仮説生成手段により生成された前記仮説の各パスについて、現時点で完了している前記音声認識手段による音声認識で得られた音声認識スコアを加味して尤度を計算する尤度計算手段と、
前記尤度計算手段により計算された各パスの尤度に基づいて、前記文字列候補を抽出する抽出手段と、
を含むことを特徴とする請求項1に記載の文字列入力装置。 - 前記指示手段による指示入力に基づく検索が可能に構成された単語辞書を更に有し、
前記仮説生成手段は、前記一の指示入力に対応する単語を、当該一の指示入力およびそれまで連続的になされた指示入力に基づいて前記単語辞書から検索し、検索された単語の接続の仮説を前記文字列の接続の仮説として生成する
ことを特徴とする請求項5に記載の文字列入力装置。 - 前記単語辞書は、前記一の指示入力およびそれまで連続的になされた一連の指示入力を過去に遡って辿ることで、各々の指示入力に対応する読みの単語に辿り着くことができるトライ構造をなすことを特徴とする請求項6に記載の文字列入力装置。
- 前記単語辞書に含まれる各単語にはその単語の出現しにくさを示す単語コスト情報が付与され、
単語と単語のつながりにくさを表す接続コスト情報を保持する接続コスト情報保持手段を更に備えることを特徴とする請求項6に記載の文字列入力装置。 - 前記仮説生成手段は、前記一の指示入力に対応するモーラもしくは文字列およびそれまで連続的になされた指示入力にそれぞれ対応するモーラもしくは文字列を用いて、モーラもしくは文字列の接続の仮説を前記モーラもしくは文字列の接続の仮説として生成することを特徴とする請求項5に記載の文字列入力装置。
- モーラもしくは文字列の出現しにくさを示すコスト情報を保持する文字列コスト情報保持手段と、
モーラもしくは文字列同士の接続しにくさを示す文字列間接続コスト情報を保持する文字列接続間コスト情報保持手段と、
更にを備えることを特徴とする請求項1に記載の文字列入力装置。 - 文字列のカテゴリを指示する指示手段と、音声を受信する音声受信手段とを備え、前記指示手段による指示入力とその指示入力と並行して前記音声受信手段で受信した音声とに基づいて文字列を入力する文字列入力装置の制御方法であって、
(a)前記指示手段による一の指示入力およびそれまで連続的になされた指示入力に対応する文字列候補を生成するステップと、
(b)上記ステップ(a)で生成された文字列候補を、ユーザに選択させるために表示するステップと、
(c)前記一の指示入力に続けて新たな指示入力がなされた場合、当該新たな指示入力について、上記ステップ(a)および(b)を繰り返すよう制御するステップと、
を有する一方、
(d)前記音声受信手段で受信した連続的に発声された音声に対し音声認識を行い、その認識結果を出力するステップと、
(e)前記一の指示入力に続けてなされた新たな指示入力に対応する音声について、上記ステップ(d)を繰り返すよう制御するステップと、
を有し、
上記ステップ(a)は、その実行時点で完了しているステップ(d)による音声認識の過程で得られる音声認識スコアを加味して前記文字列候補を生成することを特徴とする文字列入力装置の制御方法。 - 請求項11に記載の文字列入力装置の制御方法をコンピュータによって実現するためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004296690A JP4027356B2 (ja) | 2004-10-08 | 2004-10-08 | 文字列入力装置およびその制御方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004296690A JP4027356B2 (ja) | 2004-10-08 | 2004-10-08 | 文字列入力装置およびその制御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006106620A true JP2006106620A (ja) | 2006-04-20 |
JP4027356B2 JP4027356B2 (ja) | 2007-12-26 |
Family
ID=36376406
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004296690A Expired - Fee Related JP4027356B2 (ja) | 2004-10-08 | 2004-10-08 | 文字列入力装置およびその制御方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4027356B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008249807A (ja) * | 2007-03-29 | 2008-10-16 | Kddi Corp | 音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体 |
JP2009075263A (ja) * | 2007-09-19 | 2009-04-09 | Kddi Corp | 音声認識装置およびコンピュータプログラム |
-
2004
- 2004-10-08 JP JP2004296690A patent/JP4027356B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008249807A (ja) * | 2007-03-29 | 2008-10-16 | Kddi Corp | 音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体 |
JP2009075263A (ja) * | 2007-09-19 | 2009-04-09 | Kddi Corp | 音声認識装置およびコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4027356B2 (ja) | 2007-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107077841B (zh) | 用于文本到语音的超结构循环神经网络 | |
TWI266280B (en) | Multimodal disambiguation of speech recognition | |
JP4416643B2 (ja) | マルチモーダル入力方法 | |
US8571862B2 (en) | Multimodal interface for input of text | |
CN105283914B (zh) | 用于识别语音的系统和方法 | |
JP4012143B2 (ja) | 情報処理装置およびデータ入力方法 | |
US8290775B2 (en) | Pronunciation correction of text-to-speech systems between different spoken languages | |
JP5166255B2 (ja) | データ入力システム | |
KR100769029B1 (ko) | 다언어의 이름들의 음성 인식을 위한 방법 및 시스템 | |
US20130090921A1 (en) | Pronunciation learning from user correction | |
US20080133228A1 (en) | Multimodal speech recognition system | |
JP3581881B2 (ja) | 音声補完方法、装置および記録媒体 | |
JP2011254553A (ja) | 小型キーパッド用日本語入力メカニズム | |
KR20080063471A (ko) | 이동 장치에 대한 조합된 음성 및 교체 입력 양식을 위한정보 입력 방법, 이동 장치 및 사용자 인터페이스 | |
KR20050071334A (ko) | 텍스트 입력 방법 | |
WO2004036939A1 (fr) | Appareil de communication mobile numerique portable, procede de commande vocale et systeme | |
JP2002116796A (ja) | 音声処理装置、音声処理方法及び記憶媒体 | |
JP5323652B2 (ja) | 類似語決定方法およびシステム | |
US20060095263A1 (en) | Character string input apparatus and method of controlling same | |
JP4027356B2 (ja) | 文字列入力装置およびその制御方法 | |
CN112580335A (zh) | 多音字消歧方法及装置 | |
KR102091684B1 (ko) | 음성 인식 텍스트 수정 방법 및 이 방법을 구현한 장치 | |
JP2010231149A (ja) | 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム | |
Moore | Modeling data entry rates for ASR and alternative input methods. | |
JP3790038B2 (ja) | サブワード型不特定話者音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20061211 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061218 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070312 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070509 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070928 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071009 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101019 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101019 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111019 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111019 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121019 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131019 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |