JP2006106621A - 文字列入力装置およびその制御方法 - Google Patents

文字列入力装置およびその制御方法 Download PDF

Info

Publication number
JP2006106621A
JP2006106621A JP2004296691A JP2004296691A JP2006106621A JP 2006106621 A JP2006106621 A JP 2006106621A JP 2004296691 A JP2004296691 A JP 2004296691A JP 2004296691 A JP2004296691 A JP 2004296691A JP 2006106621 A JP2006106621 A JP 2006106621A
Authority
JP
Japan
Prior art keywords
character string
input
speech recognition
instruction
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004296691A
Other languages
English (en)
Other versions
JP4027357B2 (ja
Inventor
Katsuhiko Kawasaki
勝彦 川崎
Makoto Hirota
誠 廣田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2004296691A priority Critical patent/JP4027357B2/ja
Priority to US11/246,977 priority patent/US20060095263A1/en
Publication of JP2006106621A publication Critical patent/JP2006106621A/ja
Application granted granted Critical
Publication of JP4027357B2 publication Critical patent/JP4027357B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72436User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for text messaging, e.g. SMS or e-mail
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/70Details of telephonic subscriber devices methods for entering alphabetical characters, e.g. multi-tap or dictionary disambiguation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Abstract

【課題】 キー操作と音声入力を併用して効率的にテキスト入力を行う。
【解決手段】 一連のキー入力に基づいて文字列の接続の仮説を生成し(S404)、その一連のキー入力の後に音声を入力する。その後、入力された音声に対する音声認識文法を、前記一連のキー入力に基づき生成して(S407)、前記入力された音声に対して、生成された音声認識文法を用いて音声認識を行う(S408)。そして、生成された前記仮説の各パスについて、音声認識の過程で得られた音声認識スコアを加味した尤度を計算し(S410)、その尤度に基づく文字列候補を、ユーザに選択させるべく表示する(S411)。
【選択図】 図4

Description

本発明は、文字列入力装置およびその制御方法に関し、特に、キー操作と音声入力とを併用して文字列の入力を行う文字列入力装置およびその制御方法に関する。
携帯電話、PDA、カーナビゲーションシステム、デジタルテレビ、ファクシミリ装置など、情報機器の多様化が進んでいる。またこうした機器の多くは、インターネット接続などの通信機能を備えるようになり、電子メール、ウェブをはじめとするテキスト情報のやり取りを行うための機器として利用されるケースが増えてきた。
こうした機器は、通常キーボードを持たず、テキストの入力には困難を伴う。携帯電話やファクシミリ装置は通常テンキーを備えており、このテンキーの操作によってテキストの入力を行う方式が普及している。日本語の場合、最も普及している方式は、あ行、か行、・・・ごとにキーを割り当て、キーを1回以上押下することで所望の文字を入力するというものである。例えば、テンキーの“2”を2回押下することで、か行の2番目の文字「き」を入力することができる。
こうした入力方式にはさまざまな改良が加えられている。その一つの例は、先頭の数文字を入力すると後続文字列を予測して提示する予測入力方式である。子音だけを入力することでテキストの入力を可能とする方式も考案されている。
一方、不便なキー操作に対する代替手段として、音声入力が注目されている。音声入力により任意のテキストを入力する方式としては、IBM社のViaVoiceなどがある。また、キー入力と音声入力を組み合わせた方式もある。例えば、特開2000−056796号公報(特許文献1)や特開平9−288495号公報(特許文献2)は、キー入力と同時に音声入力を行うことでテキスト入力を可能にする技術を開示している。
特開2000−056796号公報 特開平9−288495号公報
従来の技術では、キー入力単独の方式は、予測機能や子音入力などの改良により利便性は向上しているものの、まだ問題が多い。予測機能はその予測精度が悪ければ、従来の方法に対するメリットは少なくなる。また、子音入力は、子音列に対応する文字列候補が多く、その中から選択する操作が効率を下げるという問題がある。
一方、ViaVoiceのような音声認識による方法は、一般に多くのメモリやCPUパワーを必要とするため、携帯電話、ファクシミリ装置などの小型機器上で動作させることは現時点では困難である。
これに対し、特許文献1または特許文献2の、キー入力と同時に音声入力を行う手法は、上述の従来技術の問題点を補完する有効な手段になる可能性がある。しかし、いずれも、キー入力に対応する入力音声が、個々のキー押下それぞれに対して明確に区別されているという前提に基づいている。例えば、“1”、“2”とキー押下しながら「いか」と発声するケースでは、キー押下“1”に対応する「い」の音声と、キー押下“2”に対応する「か」の音声が何らかの方法で事前に区別されていることが前提になっている。これを可能にする一つの方法は、キー“1”の押下とキー“2”の押下との間に十分な時間間隔をとり、それぞれに合わせて「い」と「か」を区切って発声することである。しかし、これではテキスト入力の効率が下がり、操作の自然性が低下してしまうという問題がある。
したがって、操作の効率や自然性を上げるためには、キー“1”、“2”の押下を連続的に行い、「いか」と区切らずに連続的に発声することを可能にする必要がある。
本発明は上記のような技術的背景によってなされた。つまり本発明は、キー操作と音声入力とを併用して文字列の入力を行う文字列入力装置において、文字列入力の操作効率や自然性を向上させることを目的としている。
この目的を達成するために、例えば本発明の一側面に係る文字列入力装置は、以下の構成を備える。すなわち、文字列のカテゴリを指示する指示手段と、音声を受信する音声受信手段とを備え、前記指示手段による指示入力と前記音声受信手段で受信した音声とに基づいて文字列を入力する文字列入力装置であって、前記指示手段による一連の指示入力に基づいて、文字列の接続の仮説を生成する仮説生成手段と、前記一連の指示入力に続いて前記音声受信手段で受信した音声に対する音声認識文法を、前記一連の指示入力に基づき生成する音声認識文法生成手段と、前記一連の指示入力に続いて前記音声入力手段により入力された前記音声に対して、前記音声認識文法生成手段により生成された音声認識文法を用いて音声認識を行う音声認識手段と、前記仮説生成手段により生成された前記仮説の各パスについて、前記音声認識手段による音声認識の過程で得られた音声認識スコアを加味した尤度を計算し、その尤度に基づき文字列候補を生成する文字列候補生成手段と、前記文字列候補生成手段により生成された文字列候補を、ユーザに選択させるために表示する表示手段とを有する。
本発明によれば、キー操作と音声入力とを併用して文字列の入力を行う文字列入力装置における、文字列入力の操作効率や自然性が向上する。具体的には例えば、(1)キー操作によるテキスト入力におけるキー操作回数が減る、(2)リソースの少ない機器でも音声入力が可能になる、という効果が生まれる。
以下、図面を参照して本発明の好適な実施形態について詳細に説明する。
(第1の実施形態)
本実施形態では、図1に示すような、ファクシミリ装置(以下「FAX」という。)101に対してテキスト入力を行うケースで説明する。
図1において、102はテンキーである。103はいわゆる十字キーであり、上下左右の方向キーと中央のSETキーからなる。104は液晶画面である。105は受話器である。音声入力は、この受話器105を通して行う。
図2は、本実施形態におけるFAX101のテキスト入力方式に係る機能構成を示すブロック図である。
同図に示すように、FAX101は、テンキー102や十字キー103によるキー入力を受け付けるキー入力部201、キー入力のシーケンスに従って単語辞書203から単語を検索する単語辞書検索部202、単語辞書検索の結果からキー入力シーケンスに応じた単語ラティスを生成するラティス生成部204、単語間の接続コストを収納した接続コストテーブル206、単語コストと接続コストとから言語コストを計算する言語コスト計算部205、受話器105から入ってくる音声信号からテキスト入力のための入力音声をキー長押しからその長押し解除までに録音された音声データとして切り出す音声切り出し部207、単語ラティスから音声認識文法を生成する音声認識文法生成部208、音声認識文法に基づいて音声認識を行う音声認識部209、音声認識結果をスコア順に並べるN−best生成部210、言語コストと音声認識スコア(音声コスト)とから総コストを計算する総コスト計算部211、総コスト順に入力候補を表示する結果表示部213、とから構成されている。
図3は、本実施形態に係るFAX101のハードウエア構成を示す構成図である。
301はCPUであり、後述するFAX101の動作手順を実現するためのプログラムに従って動作する。
302はRAMであり、主記憶装置として、CPU301の動作に必要な記憶領域を提供する。
303はROMであり、本発明に係る動作手順を実現するための制御プログラムや単語辞書203、接続コストテーブル210を保持する。
304はLCDであり、液晶画面104を構成する。
305は物理ボタンであり、テンキー102、十字キー103を含む。
306はA/Dコンバータであり、入力音声をデジタル信号に変換する。
307はマイクであり、受話器105を構成する。
308はバスである。
以下、本実施形態に係るFAX101の具体的な動作を説明する。
まず、入力対象の各文字列は例えば11のカテゴリに分類され、テンキー102の各キーに各カテゴリが割り当てられる。つまり、テンキー102は文字列のカテゴリを指示する指示手段として機能する。例えば、各文字列は、モーラ単位で以下のように割り当てられる。なお、モーラとは、「拍」とも呼ばれ、基本的には日本語の各仮名文字が一つのモーラになるが、これに加え、「きゃ」「きゅ」「きょ」などの拗音、長音「ー」、促音「っ」はそれぞれ一つのモーラとなる。
“1”・・・「あ」「い」「う」「え」「お」
“2”・・・「か」「き」「く」「け」「こ」「きゃ」「きゅ」「きょ」
「が」「ぎ」「ぐ」「げ」「ご」「ぎゃ」「ぎゅ」「ぎょ」
“3”・・・「さ」「し」「す」「せ」「そ」「しゃ」「しゅ」「しょ」
「ざ」「じ」「ず」「ぜ」「ぞ」「じゃ」「じゅ」「じょ」
“4”・・・「た」「ち」「つ」「て」「と」「ちゃ」「ちゅ」「ちょ」「っ」
「だ」「ぢ」「づ」「で」「ど」「でゃ」「でゅ」「でょ」
“5”・・・「な」「に」「ぬ」「ね」「の」「にゃ」「にゅ」「にょ」
“6”・・・「は」「ひ」「ふ」「へ」「ほ」「ひゃ」「ひゅ」「ひょ」
「ば」「び」「ぶ」「べ」「ぼ」「びゃ」「びゅ」「びょ」
「ぱ」「ぴ」「ぷ」「ぺ」「ぽ」「ぴゃ」「ぴゅ」「ぴょ」
“7”・・・「ま」「み」「む」「め」「も」「みゃ」「みゅ」「みょ」
“8”・・・「や」「ゆ」「よ」
“9”・・・「ら」「り」「る」「れ」「ろ」「りゃ」「りゅ」「りょ」
“0”・・・「わ」「を」「ん」
“*”・・・「ー」
図11は、すでに文字列「この技術は、」を入力した状態を示している。以下では、この状態から本テキスト入力方式を用いて、「マルチモーダル」という文字列を入力する場合の例を説明する。本実施形態では、ユーザはまず、「マルチモーダル」に対応するテンキー列、
“7”、“9”、“4”、“7”、“* ”、“4”、“9”
を押し、その後「マルチモーダル」と発声する、という入力操作手順を踏む。ここで、本実施形態におけるFAX101は例えば、テンキーが継続して所定時間(例えば2秒間)以上押されると、「長押し」と判断され、これにより音声入力(録音)が開始され、その長押しが解除されるとその音声入力が終了するように構成されている。したがって、上記の「マルチモーダル」に対応するテンキー列の入力に際しては、7”、“9”、“4”、…と順次、通常のキー操作(短押し)を行い、最後の“9”のキーだけを長押しするようにすれば、「マルチモーダル」の音声入力に移行することができる。
単語辞書検索部202は、ユーザからのキー入力に対応する単語を単語辞書203から検索する。
ここで、単語辞書203のデータ構造を説明する。図5は、単語辞書203の中身の一部を表している。単語辞書はこのように、テンキー列の逆順をキーとするトライ構造をなしている。例えば、テンキー列“7”が入力された場合、読みがこの“7”に対応する「ま」「み」「む」「め」「も」「みゃ」「みゅ」「みょ」で終わる単語が検索できるようになっている。すなわち、rootノードから“7”のラベルのついた枝を辿り、さらに、空文字を意味する“φ”の枝を辿ることで、読みが「ま」「み」「む」「め」「も」「みゃ」「みゅ」「みょ」で終わる単語に辿り着くことができる。図5の例では、「目」「間」「未」「無」・・・などの単語に辿り着ける。
テンキー列“7”、“9”が入力された場合は、同様にして、“9”、もしくは、“7”、“9”に対応する読みで終わる単語を検索できる。すなわち、rootノードから“9”のラベルのついた枝を辿り、さらに、空文字を意味する”φ”の枝を辿ることで、読みが「ら」「り」「る」「れ」「ろ」「りゃ」「りゅ」「りょ」で終わる単語「ら」「等」「利」「炉」・・・に辿り着くことができる。“9”の枝を辿ったノードには別の枝があり、“7”の枝を辿ることで、“7”、“9”に対応する読みで終わる単語「村」「森」「真理」・・・などを検索できる。
図6は、各単語に付与されている情報の例を示している。図示のように、各単語には少なくとも、その単語の表記、読み、単語コストが付与されている。単語コストとは、その単語の出現頻度が大きいほど小さな値をとるデータである。
ラティス生成部204は、こうして検索された単語の列からなるラティス構造を生成する。
図8は、“7”、“9”、“4”とテンキー列が入力された時点で生成されるラティス構造の例である。各位置には、その位置までのテンキー列に対し、読みが右部分一致する単語がリストアップされ、隣接する単語同士が接続される。“H”は文頭ノードを意味する。また、上記の“7”、“9”、“4”に続けてさらに、“7”、“*”、“4”、“9”とキー入力した時点で生成されるラティス構造の例を、図9に示す。
認識されるべき音声は、上記のキー入力“7”、“9”、“4”、“7”、“*”、“4”、“9”に対応する単語の接続の仮説に含まれるはずなので、音声認識文法生成部208は、図9のラティス構造に基づいて、図10に示すような音声認識文法を生成する。
前述したとおり、ユーザがテンキー列の最後のキーを長押しすると音声の録音が開始され、その長押しが解除されると音声の録音が終了する。キーを長押しすると、図12のようにユーザに発声を促すナビゲーションがディスプレイに表示される。ここで、この長押し中にユーザが、「マルチモーダル」と発声したとする。音声切り出し部207は、録音された音声から、入力音声の切り出しを行う。音声認識部209では、音声認識文法生成部208において生成された文法(図10を参照)を用いて音声認識を行う。
言語コスト計算部205では、テンキー入力列に対応する図9のラティスに対し、次式で表される各パスの言語コストAを計算する。
A=Σi ( C(Wi) + C(Wi-1,Wi) )
ただし、
C(Wi) : 単語Wiの単語コスト、
C(Wi-1,Wi) : Wi-1とWiの接続コスト
である。
接続コストは、単語と単語のつながりにくさを示す数値である。接続コストは、接続コストテーブル206に、図7のようなデータとして保持されている。例えば、名詞「村」は助詞「と」とは接続コストが1でつながりやすいが、助動詞「た」とは接続コスト5でつながりにくいことを表している。
N−best生成部210では、図10に示したような音声認識文法を用いて、次のような各パスの音声コストBを計算する。
B(“まるちもーだる”)=0.81、
B(“むらとめーとる”)=0.78、
・・・・・
総コスト計算部211では、各パスの総コストEを次式により計算する。
E=A−B
図13は、総コストEの小さい順に入力候補を画面表示した図である。この状態で十字キーを操作して所望の「マルチモーダル」を選択すると、表示は図14のようになる。
ここまでの動作を図4のフローチャートを用いて説明する。
まずステップS401においてテンキーの入力を待機する。テンキー入力があった場合にはステップS402に進み、そのテンキー入力が長押しかどうか判定する。キー入力が短押しならば、ステップS403において単語辞書203を検索し、ステップS404において図8や図9に示したような単語ラティスを生成する。さらにステップS405において、単語コスト(図6)と接続コスト(図7)を用いて各パスの言語コストを計算する。
一方、ステップS402においてキーが長押しと判定された場合には、上記したステップS403〜S405を同様に実行した後、ステップS406において、ユーザに発声を促す(図12)とともにキーの押下中にユーザの発声を録音して、音声区間の切り出しを行う。
次にステップS407において、音声認識文法(図10)を生成し、ステップS408において、その音声認識文法を用いて音声認識を行い、ステップS409において各パスの音声コストを計算してN−bestを生成する。そして、ステップS410において言語コストと音声コストとから総コストを計算し、ステップS411において総コストの小さい順に候補をディスプレイに表示する(図13)。これにより、ユーザは所望の候補を選択することになる(図14)。
(第2の実施形態)
次に、本発明の第2の実施形態を示す。本実施形態でも、図1のFAXに対してテキスト入力を行う際に、ユーザが「マルチモーダル」に対応する一連のテンキー列“7”、“9”、“4”、“7”、“* ”、“4”、“9”を押し、その後「マルチモーダル」と発声する、という入力操作手順を踏む場合を想定して説明する。
図15は、本実施形態におけるFAXのテキスト入力方式に係る機能構成を示すブロック図である。
同図に示すように、FAX101は、テンキー102や十字キー103によるキー入力を受け付けるキー入力部501、キー入力シーケンスに応じたモーラのラティスを生成するモーララティス生成部502、モーラコストおよびモーラ接続コストの情報を保持するモーラコスト情報保持部504、モーラコスト情報からラティスコストを計算するラティスコスト計算部503、受話器105から入ってくる音声信号からテキスト入力のための入力音声をキー長押しからその長押し解除までに録音された音声データとして切り出す音声切り出し部506、モーララティスから音声認識文法を生成する音声認識文法生成部505、音声認識文法に基づいて音声認識を行う音声認識部507、音声認識結果をスコア順に並べるN−best生成部508、ラティスコストと音声認識スコア(音声コスト)とから総コストを計算する総コスト計算部509、総コスト順に入力候補を表示する結果表示部510、とから構成されている。
図17は、各モーラに付与されている情報の例を示している。図示のように各モーラにはモーラコストが付与されており、このような構造でモーラコスト情報保持部504に保持される。モーラコストとは、その単語の出現頻度が大きいほど小さな値をとるデータである。
図19は、上記の“7”、“9”、“4”、…、“9”とキー入力した時点で生成されるラティス構造の例を示している。ラティスコスト計算部503では、テンキー入力列に対応する図19のラティスに対し、各パスの言語コストMAを次式により計算する。
MA=Σi ( C(Mi) + C(Mi-1,Mi) )
ただし、C(Mi)とC(Mi-1,Mi)は以下のようなものである。
C(Mi) : モーラMiのモーラコスト、
C(Mi-1,Mi) : Mi-1とMiのモーラ接続コスト。
モーラ接続コストは、モーラとモーラのつながりにくさを示す数値である。モーラ接続コストは、モーラコスト情報保持部504によって図18に示すようなデータとして保持されている。
N−best生成部508では、図19のラティス構造を音声認識文法として用いて、次のような各パスの音声コストMBを計算する。
MB(“まるちもーだる”)=0.81、
MB(“むらとめーとる”)=0.78、
・・・・・
総コスト計算部509では、各パスの総コストMEを次式により計算する。
ME=MA−MB
結果表示部510では、総コストMEの小さい順に入力候補を画面表示する。
図16は、本実施形態に係るFAX101の動作を説明するフローチャートである。まずステップS601においてテンキーの入力を待機する。テンキー入力があった場合にはステップS602に進み、そのテンキー入力が長押しかどうか判定する。キー入力が短押しならば、ステップS603において図19に示したようなモーララティスを生成する。さらにステップS604において、図17に示すようなモーラコストと図18に示すようなモーラ接続コストを用いて、各パスにおけるラティスコストを計算する。
一方、ステップS602においてキーが長押しと判定された場合には、上記したステップS603,S604を同様に実行した後、ステップS605において、ユーザに発声を促すとともにキーの押下中にユーザの発声を録音して、音声区間の切り出しを行う。
次にステップS606において音声認識文法(図19)を生成し、ステップS607において音声認識文法を用いて音声認識を行い、ステップS608において各パスの音声コストを計算してN−bestを生成する。そして、ステップS609においてラティスコストと音声コストとから総コストを計算し、ステップS610において総コストの小さい順に候補をディスプレイに表示する。これにより、ユーザは表示された候補の中から所望の候補を選択することになる。
(第3の実施形態)
上述の実施形態は日本語テキスト入力の例であったが、本発明は英語など他の言語にも適用可能である。本実施形態ではこの点を明らかにする。
図20は本実施形態におけるFAX101の外観を示す図である。このFAX101は英単語を入力するものでありキー“1”〜“9”のそれぞれに対しては、以下のように文字が割り当てられている。
“1”・・・空白(スペース)
“2”・・・「A」「B」「C」
“3”・・・「D」「E」「F」
“4”・・・「G」「H」「I」
“5”・・・「J」「K」「L」
“6”・・・「M」「N」「O」
“7”・・・「P」「Q」「R」「S」
“8”・・・「T」「U」「V」
“9”・・・「W」「X」「Y」「Z」
図21は、本実施形態におけるFAXのテキスト入力方式に係る機能構成を示すブロック図である。
同図に示すように、FAX101は、テンキー102や十字キー103によるキー入力を受け付けるキー入力部701、キー入力シーケンスに応じた文字列のラティスを生成する文字ラティス生成部702、文字コストと文字接続コストの情報を保持するコスト情報保持部704、コスト情報から文字列ラティスのラティスコストを計算するラティスコスト計算部703、受話器105から入ってくる音声信号からテキスト入力のための入力音声をキー長押しからその長押し解除までに録音された音声データとして切り出す音声切り出し部706、文字ラティスから音声認識文法を生成する音声認識文法生成部705、音声認識文法に基づいて音声認識を行う音声認識部707、音声認識結果をスコア順に並べるN−best生成部708、ラティスコストと音声認識スコア(音声コスト)とから総コストを計算する総コスト計算部709、総コスト順に入力候補を表示する結果表示部710、とから構成されている。
図22は、各文字に付与されている情報の例を示している。図示のように各文字には文字コストが付与されており、このような構造でコスト情報保持部704に保持される。モーラコストとは、その単語の出現頻度が大きいほど小さな値をとるデータである。
図24は、“2”、“2”、“8”とキー入力した時点で生成されるラティス構造の例を示している。ラティスコスト計算部703では、テンキー入力列“2”、“2”、“8”に対応する図24のラティスに対し、各パスの言語コストNAを次式により計算する。
NA=Σi ( C(Ni) + C(Ni-1,Ni) )
ただし、C(Ni)とC(Ni-1,Ni)は以下のようなものである。
C(Ni) : 文字Niの文字コスト、
C(Ni-1,Ni) : Ni-1とNiの文字接続コスト。
文字接続コストは、文字と文字のつながりにくさを示す数値である。文字接続コストは、コスト情報保持部704によって図23に示すようなデータとして保持されている。
次に、図24の文字列ラティスから文字のつながりから生じうる全ての発音記号からなる、図25に示すような音声認識文法を生成する。例えば文字“C”に対する発音記号としては、“k”、“ky”などがある。文字“A”に対する発音記号と下は、“ei”、“a”などがある。N−best生成部708では、図25の音声認識文法を用いて、各パスの音声コストNBを計算する。
NB(“kyaQt”)=0.82、
NB(“akt”)=0.51、
・・・・・
総コスト計算部709では、各パスの総コストNEを次式により計算する。
NE=NA−NB
結果表示部710では、総コストNEの小さい順に入力候補を画面表示する。
なお、本実施形態における動作の流れは、第2の実施形態に係る図16のフローチャートに示したものと同様である。
(その他の実施形態)
以上、本発明のさまざまな実施形態を詳述した。上記の各実施形態では、音声区間の切り出しおよび、それに続く音声認識文法の生成、ならびに音声認識は、キーの長押しをトリガとして行うようにしたが、これとは別に、「発声」ボタン等を設けておき、一連のテンキー列の入力後にこの「発声」ボタンが押下されたことをトリガとして、音声区間の切り出しおよび、それに続く音声認識文法の生成、ならびに音声認識を行うようにしても良い。
また、上記の各実施形態では、単語コスト、単語間接続コスト等を用いてコスト計算を行うようにしたが、単語列に対して言語としての尤もらしさを評価できるものであれば、他の評価基準を用いてもよい。例えば、単語辞書の各単語に品詞情報を付与し、単語間接続コストの代わりに品詞間接続コストを用いてもかまわない。また、品詞に限らず、単語をなんらかのクラスに分類し、そのクラス情報を単語辞書の各単語に付与し、単語間接続コストの代わりにクラス間接続コストを用いてもかまわない。
さらに、本発明は、上記各実施形態で用いたパス選択のための特定のコスト計算式に限定されるものではない。単語コスト、単語間接続コスト(あるいは、品詞間接続コスト、クラス間接続コスト)、音声認識スコアが適切に反映されていれば、他の計算式を用いてもかまわない。あるいは、各モーラのコスト、モーラ間の接続コスト、音声認識スコアが適切に反映されていれば、他の計算式でもかまわない。
くわえて、上記実施形態では、テンキーに対してモーラ単位(“2”キーに対して“きゃ”、“きゅ”、“きょ”等)の文字列を割り当てていたが、モーラ単位ではなく文字単位(“2”キー+“8”キーに対して“き”+“や”、“き”+“ゃ”等)で割り振ってもよい。あるいは、その他のいかなる割り当てでもかまわない。
また、上記各実施形態では、対象デバイスとしてFAXを扱ったが、音声入力機能と、グラフィックユーザインタフェースもしくは操作ボタンを有する任意のデバイスに適用可能であることは言うまでもない。
本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータがその供給されたプログラムコードを読み出して実行することによっても達成される。その場合、プログラムの機能を有していれば、その形態はプログラムである必要はない。
従って、本発明の機能処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体およびそのプログラムを格納した記憶媒体も本発明を構成することになる。つまり、本発明の特許請求の範囲には、本発明の機能処理を実現するためのコンピュータプログラム自体、およびそのプログラムを格納した記憶媒体も含まれる。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。
プログラムを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM、DVD−R)などがある。
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、そのホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記憶媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明のクレームに含まれるものである。
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
さらに、記憶媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。
本発明の第1の実施形態に係るFAXの外観構成を示す図である。 本発明の第1の実施形態におけるFAXのテキスト入力に係る機能構成を示すブロック図である。 本発明の第1の実施形態に係るFAXのハードウエア構成を示す図である。 本発明の第1の実施形態に係るFAXの動作を説明するフローチャートである。 本発明の第1の実施形態に係る単語辞書の構造例を示す図である。 本発明の第1の実施形態に係る単語辞書に含まれる各単語に付与された情報の例を示す図である。 本発明の第1の実施形態に係る接続コストテーブルの内容の例を示す図である。 本発明の第1の実施形態に係るキー入力に対応するラティス構造の例を示す図である。 本発明の第1の実施形態に係る音声認識文法生成部により生成される音声認識文法を模式的に示す図である。 、本発明の第1の実施形態に係るキー入力途中のFAXの画面表示を示す図である。 本発明の第2の実施形態におけるFAXのテキスト入力に係る機能構成を示すブロック図である。 本発明の第2の実施形態に係るFAXの動作を説明するフローチャートである。 本発明の第2の実施形態に係る各モーラに付与されている情報の例を示す図である。 本発明の第2の実施形態に係るモーラ接続コストデータの例を示す図である。 本発明の第2の実施形態に係るキー入力に対応するラティス構造または音声認識文法の例を示す図である。 本発明の第3の実施形態に係るFAXの外観構成を示す図である。 本発明の第3の実施形態におけるFAXのテキスト入力に係る機能構成を示すブロック図である。 本発明の第3の実施形態に係る各文字に付与されている情報の例を示す図である。 本発明の第3の実施形態に係る文字接続コストデータの例を示す図である。 本発明の第3の実施形態に係るキー入力に対応するラティス構造の例を示す図である。 本発明の第3の実施形態に係る音声認識文法の例を示す図である。

Claims (6)

  1. 文字列のカテゴリを指示する指示手段と、音声を受信する音声受信手段とを備え、前記指示手段による指示入力と前記音声受信手段で受信した音声とに基づいて文字列を入力する文字列入力装置であって、
    前記指示手段による一連の指示入力に基づいて、文字列の接続の仮説を生成する仮説生成手段と、
    前記一連の指示入力に続いて前記音声受信手段で受信した音声に対する音声認識文法を、前記一連の指示入力に基づき生成する音声認識文法生成手段と、
    前記一連の指示入力に続いて前記音声入力手段により入力された前記音声に対して、前記音声認識文法生成手段により生成された音声認識文法を用いて音声認識を行う音声認識手段と、
    前記仮説生成手段により生成された前記仮説の各パスについて、前記音声認識手段による音声認識の過程で得られた音声認識スコアを加味した尤度を計算し、その尤度に基づき文字列候補を生成する文字列候補生成手段と、
    前記文字列候補生成手段により生成された文字列候補を、ユーザに選択させるために表示する表示手段と、
    を有することを特徴とする文字列入力装置。
  2. 前記指示手段による指示入力に基づく検索が可能に構成された単語辞書を更に有し、
    前記仮説生成手段は、前記一連の指示入力に対応する単語を前記単語辞書から検索し、検索された単語の接続の仮説を前記文字列の接続の仮説として生成する
    ことを特徴とする請求項1に記載の文字列入力装置。
  3. 前記単語辞書は、前記一連の指示入力を過去に遡って辿ることで、各々の指示入力に対応する読みの単語に辿り着くことができるトライ構造をなすことを特徴とする請求項2に記載の文字列入力装置。
  4. 前記仮説生成手段は、前記一連の指示入力に対応するモーラを用いて、モーラの接続の仮説を前記文字列の接続の仮説として生成することを特徴とする請求項1に記載の文字列入力装置。
  5. 文字列のカテゴリを指示する指示手段と、音声を受信する音声受信手段とを備え、前記指示手段による指示入力と前記音声受信手段で受信した音声とに基づいて文字列を入力する文字列入力装置の制御方法であって、
    (a)前記指示手段による一連の指示入力を受け付けるステップと、
    (b)前記一連の指示入力に基づいて、文字列の接続の仮説を生成するステップと、
    (c)前記一連の指示入力の後に前記音声入力手段により音声を入力するステップと、
    (d)上記ステップ(c)で入力された音声に対する音声認識文法を、前記一連の指示入力に基づき生成するステップと、
    (d)上記ステップ(c)で入力された音声に対して、上記ステップ(d)で生成された音声認識文法を用いて音声認識を行うステップと、
    (e)上記ステップ(b)で生成された前記仮説の各パスについて、上記ステップ(c)による音声認識の過程で得られた音声認識スコアを加味した尤度を計算し、その尤度に基づき文字列候補を生成するステップと、
    (f)上記ステップ(e)で生成された文字列候補を、ユーザに選択させるために表示するステップと、
    を有することを特徴とする文字列入力装置の制御方法。
  6. 請求項5に記載の文字列入力装置の制御方法を実現するためのプログラム。
JP2004296691A 2004-10-08 2004-10-08 文字列入力装置およびその制御方法 Expired - Fee Related JP4027357B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004296691A JP4027357B2 (ja) 2004-10-08 2004-10-08 文字列入力装置およびその制御方法
US11/246,977 US20060095263A1 (en) 2004-10-08 2005-10-07 Character string input apparatus and method of controlling same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004296691A JP4027357B2 (ja) 2004-10-08 2004-10-08 文字列入力装置およびその制御方法

Publications (2)

Publication Number Publication Date
JP2006106621A true JP2006106621A (ja) 2006-04-20
JP4027357B2 JP4027357B2 (ja) 2007-12-26

Family

ID=36263177

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004296691A Expired - Fee Related JP4027357B2 (ja) 2004-10-08 2004-10-08 文字列入力装置およびその制御方法

Country Status (2)

Country Link
US (1) US20060095263A1 (ja)
JP (1) JP4027357B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009075263A (ja) * 2007-09-19 2009-04-09 Kddi Corp 音声認識装置およびコンピュータプログラム

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4285704B2 (ja) * 2006-08-16 2009-06-24 ソニー・エリクソン・モバイルコミュニケーションズ株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
US8255216B2 (en) 2006-10-30 2012-08-28 Nuance Communications, Inc. Speech recognition of character sequences
US9047268B2 (en) * 2013-01-31 2015-06-02 Google Inc. Character and word level language models for out-of-vocabulary text input
US9454240B2 (en) 2013-02-05 2016-09-27 Google Inc. Gesture keyboard input of non-dictionary character strings
CN106875948B (zh) * 2017-02-22 2019-10-29 中国电子科技集团公司第二十八研究所 一种基于管制语音的冲突告警方法
CN109101475B (zh) * 2017-06-20 2021-07-27 北京嘀嘀无限科技发展有限公司 出行语音识别方法、系统和计算机设备
CN110770819B (zh) 2017-06-15 2023-05-12 北京嘀嘀无限科技发展有限公司 语音识别系统和方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7143043B1 (en) * 2000-04-26 2006-11-28 Openwave Systems Inc. Constrained keyboard disambiguation using voice recognition
US6728348B2 (en) * 2000-11-30 2004-04-27 Comverse, Inc. System for storing voice recognizable identifiers using a limited input device such as a telephone key pad
US7577569B2 (en) * 2001-09-05 2009-08-18 Voice Signal Technologies, Inc. Combined speech recognition and text-to-speech generation
US7124085B2 (en) * 2001-12-13 2006-10-17 Matsushita Electric Industrial Co., Ltd. Constraint-based speech recognition system and method
JP4012143B2 (ja) * 2003-12-16 2007-11-21 キヤノン株式会社 情報処理装置およびデータ入力方法
JP3944159B2 (ja) * 2003-12-25 2007-07-11 株式会社東芝 質問応答システムおよびプログラム
US7363224B2 (en) * 2003-12-30 2008-04-22 Microsoft Corporation Method for entering text
US8200475B2 (en) * 2004-02-13 2012-06-12 Microsoft Corporation Phonetic-based text input method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009075263A (ja) * 2007-09-19 2009-04-09 Kddi Corp 音声認識装置およびコンピュータプログラム

Also Published As

Publication number Publication date
US20060095263A1 (en) 2006-05-04
JP4027357B2 (ja) 2007-12-26

Similar Documents

Publication Publication Date Title
JP4012143B2 (ja) 情報処理装置およびデータ入力方法
JP4829901B2 (ja) マニュアルでエントリされた不確定なテキスト入力を音声入力を使用して確定する方法および装置
RU2379767C2 (ru) Коррекция ошибок для систем распознавания речи
US8275618B2 (en) Mobile dictation correction user interface
JP5166255B2 (ja) データ入力システム
KR100996212B1 (ko) 음성인식을 위한 방법, 시스템 및 프로그램
US20040153975A1 (en) Text entry mechanism for small keypads
JP2011254553A (ja) 小型キーパッド用日本語入力メカニズム
KR20080063471A (ko) 이동 장치에 대한 조합된 음성 및 교체 입력 양식을 위한정보 입력 방법, 이동 장치 및 사용자 인터페이스
CN101682662B (zh) 终端、功能启动方法以及终端用程序
US20060095263A1 (en) Character string input apparatus and method of controlling same
KR100947401B1 (ko) 전자 통신 장치로의 텍스트 입력
JP2014202848A (ja) テキスト生成装置、方法、及びプログラム
CN102893238B (zh) 用于字符录入的方法和设备
US7197184B2 (en) ZhuYin symbol and tone mark input method, and electronic device
JP4241423B2 (ja) 文章作成装置
JP6499228B2 (ja) テキスト生成装置、方法、及びプログラム
JP2002297577A (ja) 中国語入力変換処理装置、中国語入力変換処理方法及びプログラム
KR101645674B1 (ko) 자동완성 후보 단어 제공 방법 및 장치
JP4027356B2 (ja) 文字列入力装置およびその制御方法
KR100910302B1 (ko) 멀티모달 기반의 정보 검색 장치 및 방법
KR20090020265A (ko) 휴대 단말기 및 그 메시지 작성 방법
JP7476960B2 (ja) 文字列入力装置、文字列入力方法、および文字列入力プログラム
JP2004072274A (ja) 音声処理システム及びその制御方法
KR101312875B1 (ko) 데이터 입력 시스템

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061211

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070312

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070509

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070928

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071009

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101019

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101019

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111019

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111019

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121019

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131019

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees