JP2007334665A

JP2007334665A - 文字入力装置及び携帯情報端末

Info

Publication number: JP2007334665A
Application number: JP2006166366A
Authority: JP
Inventors: Takeshi Inoue; 武史井上
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2006-06-15
Filing date: 2006-06-15
Publication date: 2007-12-27

Abstract

【課題】大規模な音声認識辞書を用意することなく、文字入力の操作を軽減することができる文字入力装置及び携帯情報端末を得ることを目的とする。
【解決手段】音声入力部１により入力が受け付けられた音声を音節単位に認識して、各音節の母音を特定する音声認識部２と、５０音の行を指定する行指定文字の入力を受け付ける行指定文字入力部３とを設け、音声認識部２により特定された母音と行指定文字入力部３により入力が受け付けられた行指定文字から入力文字を確定する。
【選択図】図１

Description

この発明は、少ない操作で文字を入力することが可能な文字入力装置と、その文字入力装置を搭載している携帯電話機などの携帯情報端末に関するものである。

携帯電話機などの携帯情報端末では、用意されているボタンが少ないため、同じボタンに複数の文字が割り当てられている。そのため、文字入力を行う場合、１文字の入力を確定するまでに、何度も同じボタンを押下する必要がある。
例えば、「おはよう」を入力する場合には、“あ”ボタンを５回、“は”ボタンを１回、“や”ボタンを３回、“あ”ボタンを３回押す必要があり、操作が繁雑になる。

そのため、文字入力の容易化を図る入力補助機能を実装している携帯電話機が開発されている。
携帯電話機の入力補助機能としては、例えば、次のようなものがある。
ある単語の頭文字が入力されると、その頭文字に関連する単語を類推し、使用頻度が高い順に単語の候補を表示する。
これにより、複数の単語の候補の中から該当する単語を選択すれば、単語を構成する文字の全てを入力する必要がなくなるため、ボタンの押下回数を減らすことができる。
しかしながら、単語の候補数が多い場合、該当単語を探す手間が増えるため、必ずしも効率的に文字入力を行えない場合がある。

ボタンを押下する以外の方法で文字入力を行う方式として音声入力方式がある（例えば、特許文献１参照）。
音声入力方式は、携帯電話機が音声認識処理装置などを搭載することにより実現するものである。
携帯電話機が音声認識処理装置を搭載していれば、音声認識処理装置が音声を認識して、その認識結果を入力文字として取り扱うことができるので、ボタンを押下することなく、文字入力を行うことができる。

しかしながら、音声認識処理装置の音声認識結果に誤りがある場合、ボタンを押下して、その音声認識結果である入力文字を修正する必要があり、必ずしも効率的に文字入力を行えない場合がある。
したがって、効率的に文字入力を行えるようにするには、音声認識処理装置の音声認識率を高める必要がある。
音声認識処理装置の音声認識率を高めるには、文章から単語を類推したり、韻律を用いて単語を類推したりする必要があり、大規模な音声認識辞書（データベース）を用意する必要がある。

特開２００１−１８６２６９号公報（段落番号［００１０］から［００１２］、図１）

従来の携帯情報端末は以上のように構成されているので、音声認識処理装置の音声認識率を高めれば、入力文字の修正操作を減らすことができる。しかし、音声認識処理装置の音声認識率を高めるには、大規模な音声認識辞書を用意する必要があるなどの課題があった。

この発明は上記のような課題を解決するためになされたもので、大規模な音声認識辞書を用意することなく、文字入力の操作を軽減することができる文字入力装置及び携帯情報端末を得ることを目的とする。

この発明に係る文字入力装置は、音声入力手段により入力が受け付けられた音声を音節単位に認識して、各音節の母音を特定する母音特定手段と、５０音の行を指定する行指定文字の入力を受け付ける文字入力手段とを設け、母音特定手段により特定された母音と文字入力手段により入力が受け付けられた行指定文字から入力文字を確定するようにしたものである。

この発明によれば、音声入力手段により入力が受け付けられた音声を音節単位に認識して、各音節の母音を特定する母音特定手段と、５０音の行を指定する行指定文字の入力を受け付ける文字入力手段とを設け、母音特定手段により特定された母音と文字入力手段により入力が受け付けられた行指定文字から入力文字を確定するように構成したので、大規模な音声認識辞書を用意することなく、文字入力の操作を軽減することができる効果がある。

実施の形態１．
図１はこの発明の実施の形態１による携帯情報端末を示す構成図であり、図１の例では、携帯情報端末が携帯電話機であるものを示している。
図１の携帯電話機は、メール送受信機能（文字のデータを送受信する機能）を実装しており、文字の入力を受け付ける文字入力装置を搭載している。
図２はこの発明の実施の形態１による文字入力装置を示す構成図であり、図において、音声入力部１は例えばマイク１ａなどから構成されており、音声入力部１はユーザが発する音声を集音して、その音声を示す音声データを音声認識部２に出力する処理を実施する。なお、音声入力部１は音声入力手段を構成している。

音声認識部２は音声を音節単位に認識するための音声認識辞書を搭載しており、音声認識部２は音声入力部１から出力された音声データを解析して、ユーザの音声を音節単位に認識し、各音節の母音（“あ”、“い”、“う”、“え”、“お”）を特定する処理を実施する。なお、音声認識部２は母音特定手段を構成している。
行指定文字入力部３は５０音の行を指定する行指定文字（“あ”、“か”、“さ”、・・・、“わ”）が割り付けられているボタン３ａ（あ行を指定するボタン、か行を指定するボタン、さ行を指定するボタン、・・・、わ行を指定するボタン）などから構成されており、５０音の行（あ行、か行、さ行、・・・、わ行）を指定する行指定文字の入力を受け付ける処理を実施する。なお、行指定文字入力部３は文字入力手段を構成している。

入力文字確定部４は音声認識部２により特定された母音と行指定文字入力部３により入力が受け付けられた行指定文字から入力文字を確定する処理を実施する。なお、入力文字確定部４は入力文字確定手段を構成している。
文字表示部５は例えば液晶ディスプレイ５ａなどから構成されており、入力文字確定部４により確定された入力文字を表示する処理を実施する。

図１の例では、文字入力装置の構成要素である音声認識部２及び入力文字確定部４が専用のハードウェア（例えば、ＭＰＵを搭載している半導体集積回路）で構成されているものを想定しているが、文字入力装置がコンピュータで構成される場合、音声認識部２及び入力文字確定部４の処理内容が記述されているプログラムをコンピュータのメモリに格納し、そのコンピュータのＣＰＵが当該メモリに格納されているプログラムを実行するようにしてもよい。
図３はこの発明の実施の形態１による文字入力装置の概略の処理内容を示すフローチャートであり、図４はこの発明の実施の形態１による文字入力装置の具体的な処理内容を示すフローチャートである。

次に動作について説明する。
例えば、ユーザが携帯電話機を使用してメールを送信する場合、携帯電話機を操作して、メール作成画面である文字入力画面の表示要求を入力する。
文字入力装置の文字表示部５は、文字入力画面の表示要求を受けると、文字の入力を促す文字入力画面を携帯電話機の液晶ディスプレイ５ａに表示する（ステップＳＴ１）。

文字入力装置の音声入力部１は、文字表示部５が文字入力画面を携帯電話機の液晶ディスプレイ５ａに表示すると、音声の集音処理を開始し、ユーザが音声を発すると（ステップＳＴ２）、ユーザの音声を集音して、その音声を示す音声データを音声認識部２に出力する（ステップＳＴ３）。
例えば、入力文字が「おはよう」である場合、ユーザが音声「おはよう」を発し、音声入力部１が音声「おはよう」を集音して、その音声を示す音声データを音声認識部２に出力する。

文字入力装置の音声認識部２は、音声入力部１から音声「おはよう」を示す音声データを受けると、その音声データを解析して、ユーザの音声を音節単位に認識し、各音節の母音（“あ”、“い”、“う”、“え”、“お”）を特定する（ステップＳＴ４）。
ユーザの音声が「おはよう」である場合、下記に示すように、“お”、“は”、“よ”、“う”の母音を特定する。
音節母音
“お” → “お”
“は” → “あ”
“よ” → “お”
“う” → “う”

文字入力装置の行指定文字入力部３は、文字表示部５が文字入力画面を携帯電話機のディスプレイに表示すると、５０音の行を指定する行指定文字（“あ”、“か”、“さ”、・・・、“わ”）の入力処理を開始し、ユーザが行指定文字が割り付けられているボタン３ａ（あ行を指定するボタン、か行を指定するボタン、さ行を指定するボタン、・・・、わ行を指定するボタン）を押すと（ステップＳＴ５）、行指定文字の入力を受け付ける処理を実施する（ステップＳＴ６）。
入力文字が「おはよう」である場合、次の順番でボタン３ａを押すことになるが、入力文字が「おはよう」であれば、ボタン３ａを４回押すだけでよい。
あ行が割り付けられているボタン（図１では左から１番目、上から１番目のボタン）
↓
は行が割り付けられているボタン（図１では左から３番目、上から２番目のボタン）
↓
や行が割り付けられているボタン（図１では左から２番目、上から３番目のボタン）
↓
あ行が割り付けられているボタン（図１では左から１番目、上から１番目のボタン）

文字入力装置の入力文字確定部４は、上記のようにして、音声認識部２が各音節の母音を特定し、行指定文字入力部３が行指定文字の入力を受け付けると（ステップＳＴ７）、下記に示すように、順番に、各音節の母音と行指定文字を組み合わせることにより、入力文字を確定する（ステップＳＴ８）。
行指定文字音節の母音入力文字
“あ” ＋ “お” → “お”
“は” ＋ “あ” → “は”
“や” ＋ “お” → “よ”
“あ” ＋ “う” → “う”

文字入力装置の文字表示部５は、入力文字確定部４が入力文字を確定すると、その入力文字を携帯電話機の液晶ディスプレイ５ａに表示する（ステップＳＴ９）。
携帯電話機の液晶ディスプレイ５ａに表示されている入力文字に誤りがある場合、ユーザが携帯電話機のクリアボタン（図示せず）を押すと、入力文字確定部４により確定された入力文字が削除される。

この実施の形態１では、入力文字が「おはよう」である場合について示したが、例えば、入力文字が「きょう」のように、小文字の“ょ”が含まれている場合、や行が割り付けられているボタン３ａを２回押せば、小文字のや行を指定することができる。
また、入力文字が「ばすてい」のように、濁音“ば”が含まれている場合、は行が割り付けられているボタン３ａを２回押せば、濁音のは行を指定することができる。
また、入力文字が「ぱん」のように、半濁音“ぱ”が含まれている場合、は行が割り付けられているボタン３ａを３回押せば、半濁音のは行を指定することができる。
さらに、入力文字が「きゃらめる」のように、拗音“きゃ”が含まれている場合、か行が割り付けられているボタン３ａを２回押せば、拗音のか行を指定することができる。
また、入力文字が「はんどばっぐ」のように、促音“ばっ”が含まれている場合、は行が割り付けられているボタン３ａを４回押せば、促音のは行を指定することができる。

以上で明らかなように、この実施の形態１によれば、音声入力部１により入力が受け付けられた音声を音節単位に認識して、各音節の母音を特定する音声認識部２と、５０音の行を指定する行指定文字の入力を受け付ける行指定文字入力部３とを設け、音声認識部２により特定された母音と行指定文字入力部３により入力が受け付けられた行指定文字から入力文字を確定するように構成したので、大規模な音声認識辞書を用意することなく（音節の母音を特定するだけの音声認識辞書を用意すればよい）、文字入力の操作を軽減することができる効果を奏する。

実施の形態２．
上記実施の形態１では、入力文字に清音以外の音（濁音、半濁音、拗音、促音）が含まれている場合、ユーザが同じボタン３ａを複数回押すものについて示したが、この実施の形態２では、入力文字に清音以外の音（濁音、半濁音、拗音、促音）が含まれている場合でも、清音の場合と同様に、ユーザが１音節につきボタン３ａを１回押すだけで済むようにしている。

具体的には、以下の通りである。
文字入力装置の音声入力部１は、ユーザが音声を発すると、上記実施の形態１と同様に、ユーザの音声を集音して、その音声を示す音声データを音声認識部２に出力する。
例えば、入力文字が「ばすてい」である場合、ユーザが音声「ばすてい」を発し、音声入力部１が音声「ばすてい」を集音して、その音声を示す音声データを音声認識部２に出力する。
この例では、音声「ばすてい」の中に濁音“ば”が含まれている。

文字入力装置の音声認識部２は、音声入力部１から音声「ばすてい」を示す音声データを受けると、上記実施の形態１と同様に、その音声データを解析して、ユーザの音声を音節単位に認識し、各音節の母音を特定する。
ユーザの音声が「ばすてい」である場合、下記に示すように、“ば”、“す”、“て”、“い”の母音を特定する。
音節母音
“ば” → “あ”
“す” → “う”
“て” → “え”
“い” → “い”

また、文字入力装置の音声認識部２は、各音節の音種を特定する。即ち、各音節が清音であるのか、濁音であるのか、半濁音であるのか、拗音であるのか、促音であるのかを特定する。
ユーザの音声が「ばすてい」である場合、“ば”以外の音節は清音であると特定し、“ば”は濁音であると特定する。
この場合、音声認識部２は、音節の母音を特定する音声認識辞書の他に、音節の音種を特定する音声認識辞書を用意する必要があるが、従来例のように、子音を特定する必要がないので、大規模な音声認識辞書は必要ない。

文字入力装置の行指定文字入力部３は、文字表示部５が文字入力画面を携帯電話機のディスプレイに表示すると、上記実施の形態１と同様に、５０音の行を指定する行指定文字の入力処理を開始し、ユーザが行指定文字が割り付けられているボタン３ａを押すと、行指定文字の入力を受け付ける処理を実施する。
入力文字が「ばすてい」である場合、次の順番でボタン３ａを押すことになるが、入力文字が「ばすてい」であれば、ボタン３ａを４回押すだけでよい。
は行が割り付けられているボタン（図１では左から３番目、上から２番目のボタン）
↓
さ行が割り付けられているボタン（図１では左から３番目、上から１番目のボタン）
↓
た行が割り付けられているボタン（図１では左から１番目、上から２番目のボタン）
↓
あ行が割り付けられているボタン（図１では左から１番目、上から１番目のボタン）

文字入力装置の入力文字確定部４は、上記のようにして、音声認識部２が各音節の母音と音種を特定し、行指定文字入力部３が行指定文字の入力を受け付けると、下記に示すように、順番に、各音節の母音及び音種（濁音、半濁音、拗音、促音）と、行指定文字を組み合わせることにより、入力文字を確定する。
行指定文字音節の母音音種入力文字
“は” ＋ “あ” ＋濁音 → “ば”
“さ” ＋ “う” ＋清音 → “す”
“た” ＋ “え” ＋清音 → “て”
“あ” ＋ “い” ＋清音 → “い”

文字入力装置の文字表示部５は、入力文字確定部４が入力文字を確定すると、上記実施の形態１と同様に、その入力文字を携帯電話機の液晶ディスプレイ５ａに表示する。
携帯電話機の液晶ディスプレイ５ａに表示されている入力文字に誤りがある場合、ユーザが携帯電話機のクリアボタン（図示せず）を押すと、入力文字確定部４により確定された入力文字が削除される。

以上で明らかなように、この実施の形態２によれば、音声認識部２が各音節の母音を特定する他に各音節の音種を特定し、入力文字確定部４が音声認識部２により特定された母音及び音種と、行指定文字入力部３により入力が受け付けられた行指定文字とから入力文字を確定するように構成したので、入力文字に清音以外の音（濁音、半濁音、拗音、促音）が含まれている場合でも、清音の場合と同様に、ユーザが１音節につきボタン３ａを１回押すだけで入力処理を終えることができる効果を奏する。

実施の形態３．
上記実施の形態１，２では、携帯電話機の液晶ディスプレイ５ａに表示されている入力文字に誤りがある場合、ユーザが携帯電話機のクリアボタン（図示せず）を押すと、入力文字確定部４により確定された入力文字が削除されるものについて示したが、入力文字に誤りが発生している原因の一つである音声認識辞書の音声認識パラメータの不適正は是正されない。
即ち、ユーザの発音と音声認識パラメータの整合性が取れていない場合、音声認識率が低下して、音声認識結果に誤りが生じることがあるが、上記実施の形態１では、入力文字に誤りがある場合でも、音声認識辞書の音声認識パラメータが修正されることはない。

そこで、この実施の形態３では、携帯電話機の液晶ディスプレイ５ａに表示されている入力文字に誤りがある場合、ユーザが携帯電話機の修正ボタン（図示せず）を操作して、正しい入力文字を入力すると、パラメータ更新手段を構成する音声認識部２が、音声認識辞書の音声認識パラメータを正しい入力文字に合わせて更新する。
図５は音声認識辞書の一例を示し、例えば、正しい文字が「き」であるとき、「か」と誤認識された場合、ユーザの入力音声の特徴を考慮して、以後、同じ音声が入力されたときは、文字「き」が文字「か」より選択される可能性が高くなるように、文字「き」と文字「か」の音声認識パラメータを更新する。
なお、音声認識パラメータの更新処理自体は、公知の技術であるため、詳細な説明を省略する。

以上で明らかなように、この実施の形態３によれば、入力文字確定部４により確定された入力文字に誤りがある場合、音声認識部２が音声認識処理を実施する際に使用する音声認識パラメータを正しい入力文字に合わせて更新するように構成したので、以降の音声認識処理の音声認識率を高めて、入力文字の誤りを低減することができる効果を奏する。

この発明の実施の形態１による携帯情報端末を示す構成図である。この発明の実施の形態１による文字入力装置を示す構成図である。この発明の実施の形態１による文字入力装置の概略の処理内容を示すフローチャートである。この発明の実施の形態１による文字入力装置の具体的な処理内容を示すフローチャートである。音声認識辞書の一例を示す説明図である。

符号の説明

１音声入力部（音声入力手段）、１ａマイク、２音声認識部（母音特定手段、パラメータ更新手段）、３行指定文字入力部（文字入力手段）、３ａボタン、４入力文字確定部（入力文字確定手段）、５文字表示部、５ａ液晶ディスプレイ。

Claims

音声の入力を受け付ける音声入力手段と、上記音声入力手段により入力が受け付けられた音声を音節単位に認識して、各音節の母音を特定する母音特定手段と、５０音の行を指定する行指定文字の入力を受け付ける文字入力手段と、上記母音特定手段により特定された母音と上記文字入力手段により入力が受け付けられた行指定文字から入力文字を確定する入力文字確定手段とを備えた文字入力装置。
母音特定手段が各音節の母音を特定する他に各音節の音種を特定し、入力文字確定手段が上記母音特定手段により特定された母音及び音種と、文字入力手段により入力が受け付けられた行指定文字とから入力文字を確定することを特徴とする請求項１記載の文字入力装置。
入力文字確定手段により確定された入力文字に誤りがある場合、母音特定手段が音声認識処理を実施する際に使用する音声認識パラメータを正しい入力文字に合わせて更新するパラメータ更新手段を設けたことを特徴とする請求項１または請求項２記載の文字入力装置。
文字のデータを送受信する機能を備えている携帯情報端末において、音声の入力を受け付ける音声入力手段と、上記音声入力手段により入力が受け付けられた音声を音節単位に認識して、各音節の母音を特定する母音特定手段と、５０音の行を指定する行指定文字の入力を受け付ける文字入力手段と、上記母音特定手段により特定された母音と上記文字入力手段により入力が受け付けられた行指定文字から入力文字を確定する入力文字確定手段とを備えた文字入力装置を搭載していることを特徴とする携帯情報端末。