JP2014229091A

JP2014229091A - 文字入力用のプログラム

Info

Publication number: JP2014229091A
Application number: JP2013108629A
Authority: JP
Inventors: 昂志太田; Takashi Ota
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 2013-05-23
Filing date: 2013-05-23
Publication date: 2014-12-08
Also published as: EP2806336A1; US20140348400A1; CN104182381A

Abstract

【課題】文字入力システムにおける入力予測の精度及び利便性を向上するための技術を提供する。
【解決手段】文字入力システム１は、画像を取り扱うアプリケーションプログラムＡＰに対して文字入力を行う際に、当該画像に含まれている対象（人物、文字列、物体等）を認識し、その認識された対象に関連する関連語句を入力予測の語句の候補群に加える。
【選択図】図１

Description

本発明は、電子機器における文字入力を支援する技術に関し、特に、入力予測機能の改良に関するものである。

電子機器に対して文字入力を行う際には、通常、文字入力システム（インプットメソッド（ＩＭ）ともいう）と呼ばれるソフトウェアが利用される。最近では、ユーザによる入力操作を補助する「入力予測」機能を搭載した文字入力システムも多い。入力予測とは、ユーザの入力する語句を予測して複数の候補を提示し、その中からユーザに目的の語句を選択させることで文字入力を可能にする機能である（候補を提示する際に仮名漢字変換等の文字変換も併せて行うので「予測変換」とも呼ばれる。）。入力予測の利用によりキーストロークの大幅な削減と入力ミスの回避が可能となるので、携帯電話のように少ないキーで文字入力を行う場合や、スマートフォンやタブレット型端末のようにタッチパネル上のソフトウェアキーボードにより文字入力を行う場合などに特に有用である。

一般的な入力予測では、予め登録された予測辞書とユーザの入力履歴に基づき、使用頻度の高い語句が上位になるよう、提示する候補群を決定する。この方法は、多くのケースで良好な結果を得ることができるものの、少なからず、ユーザの意図する語句が候補群に現れない（又は、下位の方に表示される）こともあり得る。それゆえ、入力予測の精度を向上させるための改良が望まれている。

例えば特許文献１では、カメラや画像編集ソフトで画像に文字情報を付加する際に、画像を撮影した位置や画像のシーンに関連する語句を文字変換候補の上位に提示する方法が提案されている。しかしこの方法は、撮影位置の情報が記録されていない画像には適用できない（位置記録機能をもつカメラに限られる）ため、汎用性に欠けるという不利がある。また、シーン解析で得られる情報は、山の写真、人物写真、夜景、といった概要的な情報にとどまるため、被写体固有の属性に関連する語句（例えば、人物の名前など）を予測候補として提示することはできない。

特開２０１０−１５２６０８号公報

本発明は、上記実情に鑑みてなされたものであり、文字入力システムにおける入力予測の精度及び利便性を向上するための技術を提供することを目的とする。

上記目的を達成するために本発明では、画像を取り扱うアプリケーションプログラムに対して文字入力を行う際に、当該画像に含まれている対象（人物、文字列、物体等）を認識し、その認識された対象に関連する関連語句を入力予測の語句の候補群に加える、という構成を採用する。

具体的には、本発明の第１態様は、ユーザにより入力されると予測される語句の候補群をユーザに提示する入力予測機能を有する文字入力用のプログラムであって、画像を取り扱うアプリケーションプログラムに対して文字入力を行う際に、画像認識により前記画像
に含まれている人物を認識する画像認識ステップと、前記画像から認識された人物に関連する関連語句を、前記アプリケーションプログラムに対して文字入力を行う際に提示する語句の候補群に加える候補追加ステップと、をコンピュータに実行させることを特徴とする文字入力用のプログラムである。

入力予測機能は、ユーザの入力を補完する機能だけを提供するものでもよいし、入力の補完に加えて、仮名漢字変換等の文字変換機能を提供するもの（いわゆる予測変換機能）でもよい。また、入力予測機能は、入力中の文字（確定前の文字）に基づいて候補群を作成・提示してもよいし、直前に入力した（確定した）語句やユーザによる直前の操作等に基づいて候補群を作成・提示してもよい。

画像を取り扱うアプリケーションプログラムとは、画像を添付、挿入、表示、又は編集する機能などを有するアプリケーションプログラムをいい、例えば、メールソフト、ＳＮＳブラウザ、Ｗｅｂブラウザ、ワープロソフト、表計算ソフト、画像ビューワ、画像編集ソフトなどが該当する。

画像認識とは、画像に含まれている対象を識別し特定する処理である。すなわち、画像認識ステップでは、画像から対象（人物等）を検出するにとどまらず、その検出された対象が誰であるかを識別し特定するのである。

なお、本明細書では特に断りの無い限り、「文字」という用語は「一つ以上の文字」という意味で用い、「文字」には、英文字、数字、平仮名、片仮名、漢字、その他の特殊文字などいかなる種類の文字も含まれる。また、「文字列」と「語句」という用語はどちらも「一つ以上の文字から構成される文字の集合」という意味で用いるが、画像から得られる文字情報を「文字列」と呼び、文字入力や予測候補の単位を「語句」と呼ぶことで、両者を区別する。

以上述べた第１態様に係るプログラムによれば、ユーザが文字入力を行う際に、画像中の人物に関連する関連語句が入力予測の候補として提示される。したがって、ユーザが、画像中の人物に関連する文章を入力しようとしている場合には、ユーザの意図に合致した候補を提示できる可能性が高まり、入力予測の精度及び利便性を向上することができる。

本発明の第２態様は、ユーザにより入力されると予測される語句の候補群をユーザに提示する入力予測機能を有する文字入力用のプログラムであって、画像を取り扱うアプリケーションプログラムに対して文字入力を行う際に、画像認識により前記画像に含まれている文字列を認識する画像認識ステップと、前記画像から認識された文字列に関連する関連語句を、前記アプリケーションプログラムに対して文字入力を行う際に提示する語句の候補群に加える候補追加ステップと、をコンピュータに実行させることを特徴とする文字入力用のプログラムである。

この第２態様に係るプログラムによれば、ユーザが文字入力を行う際に、画像中の文字列に関連する関連語句（文字列そのものも関連語句の一つである）が入力予測の候補として提示される。したがって、ユーザが、画像中の文字列そのものやそれに関連する文章を入力しようとしている場合には、ユーザの意図に合致した候補を提示できる可能性が高まり、入力予測の精度及び利便性を向上することができる。

画像認識ステップにおいて、画像認識により画像に含まれている人物と文字列の両方の認識を行い、候補追加ステップにおいて、画像から認識された人物と文字列それぞれの関連語句を候補群に加えてもよい。さらに、画像認識ステップにおいて、画像認識により画像に含まれている特定の物体の認識も行い、候補追加ステップにおいて、画像から認識さ
れた特定の物体に関連する関連語句を候補群に加えてもよい。「特定の物体」とは、人物と文字列以外の物体のうち、本プログラムによって認識可能な物体をいう。なお、異なる種類の対象（例えば、人物と文字列、人物と特定物体、文字列と特定物体、人物と文字列と特定物体）に対する認識処理を行う場合には、各対象の認識処理を同時に（並列に）実行してもよいし、順次に（シーケンシャルに）実行してもよい。また、各対象の認識処理には、同じプログラムモジュールを使用してもよいし、対象ごとに異なるプログラムモジュールを使用してもよい。

候補追加ステップでは、画像認識により認識し得る対象ごとに一つ以上の関連語句が予め登録されているデータベースを参照することにより、前記画像から認識された対象に関連する関連語句を取得するとよい。このようなデータベースを利用することで、関連語句の予測処理を簡易に実現できるとともに、高速な処理が可能となる。

画像認識ステップにおいて複数の対象が認識された場合、前記候補追加ステップでは、前記認識された複数の対象それぞれの関連語句を前記候補群に加えるとよい。「複数の対象が認識され」る場合には、一つの画像から複数の対象が認識される場合と、複数の画像から複数の対象が認識される場合の両方が含まれる。また、「複数の対象」は、同じ種類の複数の対象（例えば、複数の人物、複数の文字列等）でもよいし、異なる種類の複数の対象（例えば、人物と文字列、人物と文字列と特定の物体等）でもよい。このように、複数の対象が認識された場合はそれらすべての関連語句を候補群に加えるようにすることで、ユーザの意図する語句を提示できる可能性を高めることができる。

候補追加ステップでは、一つの対象にのみ関連する関連語句よりも複数の対象に関連する関連語句の方が優先的に提示されるように、前記候補群に加える関連語句の順番を決定するとよい。複数の対象に関連する語句の方がユーザの意図に合致する可能性が高いと思われるため、上記のように提示順を調整し又は提示する候補を絞り込むことで、入力予測の精度及び利便性の向上を期待できる。

なお、本発明は、上記処理の少なくとも一部を有する文字入力用のプログラム、又は、そのプログラムを記憶したコンピュータ読取可能な記録媒体として捉えることができる。また、本発明は、上記処理の少なくとも一部を有する文字入力用のプログラムを記憶する記憶装置と、その記憶装置からプログラムを読み込んで実行するプロセッサとを有する電子機器（又は電子機器に内蔵されるコンピュータ）として捉えることができる。さらに、本発明は、上記電子機器等が文字入力用のプログラムを実行することで実現される文字入力システム、又は、文字入力支援方法として捉えることもできる。上記電子機器には、例えば、パーソナルコンピュータ、携帯電話、スマートフォン、タブレット型端末（スレート型端末）、携帯情報端末、ゲーム装置、テレビジョン装置、撮像装置などが含まれる。上記構成および処理の各々は技術的な矛盾が生じない限り互いに組み合わせて本発明を構成することができる。

本発明によれば、文字入力システムにおける入力予測の精度及び利便性を向上することができる。

第１実施形態に係る文字入力システムの機能構成を模式的に示す図。特徴量データベースと関連語句データベースのデータ構造の例。新規登録者を追加する場合のユーザインタフェースの例。第１実施形態に係る文字入力システムのフローチャート。第１実施形態に係る文字入力システムの動作例。第２実施形態に係る文字入力システムの動作例。第４実施形態に係る文字入力システムの動作例。

以下、図面を参照して本発明の好適な実施の形態について説明する。以下の実施形態では、本発明に係る文字入力用のプログラムを電子機器（具体的にはスマートフォン）の文字入力システム（インプットメソッド）に適用し、スマートフォンで動作するアプリケーションプログラムの一つであるメールソフトに対し日本語を入力するケースを例に挙げる。ただし、これらは本発明の適用例の一つを示したものであり、本発明に係るプログラムが動作する電子機器の種類や、文字入力対象となるアプリケーションプログラムの種類は、特に限定されない。また、日本語入力に限らず、いかなる言語の文字入力にも本発明を適用可能である。

＜第１実施形態＞
（システム構成）
図１は、本発明の第１実施形態に係る文字入力システムの機能構成を模式的に示す図である。この文字入力システム１は、スマートフォン上で動作する各種のアプリケーションプログラムＡＰ（略してアプリとも呼ばれる）に対して文字を入力するためのものであり、入力受付部１０、辞書１１、候補作成部１２、候補表示部１３、入力語句確定部１４、画像取得部１５、画像認識部１６、関連語句抽出部１７、特徴量データベース１８、関連語句データベース１９などを含む。これらの機能は、スマートフォンのメモリ（記憶装置）に格納された文字入力用のプログラムがプロセッサによって実行されることで実現されるものである。辞書１１、特徴量データベース１８、関連語句データベース１９は、スマートフォンが有する不揮発性の記憶装置に構築されてもよいし、その一部又は全部のデータが外部の（ＬＡＮ上又はクラウド上の）コンピュータや記憶装置に置かれてもよい。後者の構成の場合、文字入力システム１は必要に応じてネットワークを介し辞書１１やデータベース１８，１９の情報を取得又は参照する。

入力受付部１０は、ユーザからの入力操作を受け付ける機能である。入力操作としては、文字の入力、入力する文字種の変更、文字の削除、入力予測により提示された候補群からの語句選択などがある。ユーザは、例えば、指又はスタイラスペンなどでタッチパネルディスプレイをタップ／フリック／ドラッグ等することでこれらの入力操作が可能である。候補作成部１２は、ユーザが入力した文字に基づいて変換候補や予測候補などの語句の候補群を作成する機能であり、候補表示部１３は、語句の候補群をユーザに提示する機能である。入力語句確定部１４は、入力語句を確定する機能である。

辞書１１は、文字の入力、変換、予測を行う際に参照する各種の辞書データ（辞書ファイル）を有するデータベースである。辞書１１には、例えば、仮名漢字変換を行うための変換辞書、ユーザの入力履歴に応じた語句の優先度を記憶する学習辞書、ユーザが登録した語句を記憶するユーザ辞書、入力予測の候補を抽出するために利用される予測辞書などが含まれる。予測辞書では、例えば、多数の語句がその読み（平仮名表記）に対応づけられて登録されている。

画像取得部１５は、スマートフォンの記憶装置や外部（ＬＡＮ上やクラウド上）の装置から画像データを読み込む機能である。また画像取得部１５は、内蔵カメラで撮像した画像データを直接取り込むこともできる。画像認識部１６は、画像取得部１５で読み込んだ画像データに対し画像認識処理を適用し、画像に含まれている人物を認識する機能である。人物認識処理については数多くの方法が提案されているが、本実施形態ではいずれの方法を用いてもよい。例えば、顔特徴に基づく人物認識では、元画像に対して必要な前処理を行った後、顔領域の検出が行われ、検出された顔領域からＨａａｒ−Ｌｉｋｅ特徴量な
どの特徴量が抽出される。そして、画像から抽出された特徴量と、特徴量データベース１８に予め登録されている各登録者の特徴量との類似度を評価することにより、画像に含まれている顔がいずれかの登録者の顔に一致するかどうか判定する。一致する登録者が見つかれば、画像中の人物が誰であるかを識別（特定）できる。関連語句抽出部１７は、認識された人物に関連する関連語句を関連語句データベース１９から抽出する機能である。

図２は、特徴量データベース１８と関連語句データベース１９のデータ構造の一例を模式的に示している。特徴量データベース１８は、画像認識に利用されるデータベースであり、多数の登録者それぞれの特徴量をキーワードに対応付けて記憶している。また、関連語句データベース１９は、画像認識に基づく入力予測に利用されるデータベースであり、キーワードと、それに対応する一つ以上の関連語句とを記憶している。各々の関連語句には、付随する情報として、関連語句の平仮名表記である「読み」が関連付けられている。特徴量データベース１８と関連語句データベース１９のデータの追加、編集、削除はユーザ自身で行うことが可能である。

図３は、新規登録者を追加する場合のユーザインタフェースの一例を示している。スマートフォンの内蔵カメラで新規登録者を撮影すると、その撮影画像から顔検出及び特徴量の抽出が実行される。画面の指示に従い、登録者に関連付けるキーワードと一つ以上の関連語句を入力し、登録ボタンをタップすると、特徴量とキーワードのデータが特徴量データベース１８に新規登録され、キーワードと関連語句のデータが関連語句データベース１９に新規登録される。なお、キーワードは、人物（登録者）と関連語句とをリンクするための情報である。

（文字入力処理）
次に、図４及び図５を参照して、アプリケーションプログラムＡＰの一つであるメールソフトに文字入力を行う場合の動作例を説明する。図４は文字入力システム１によって実行される処理のフローチャートであり、図５は動作例を説明するための図である。

図５の例では、ユーザが、映画のポスターを撮影した画像５０（ファイル名：image.jpg）を新規メール５１に添付し、映画に関する感想を文字入力する場面を想定している。
画像５０には、映画に登場する俳優の写真、映画のタイトルやキャッチコピー、キャスト名などが写っているものとする。

ユーザがメール５１の文字入力ウィンドウ５２をタップすると、文字入力システム１がアクティブとなり、タッチパネルディスプレイ上にソフトウェアキーボード５３が表示される（ステップＳ４０）。図５の表示例では、画面下端にテンキー形式のソフトウェアキーボード５３が表示されている。なお、文字入力のインタフェースは、図５の例に限られず、フルキーボードや手書き入力などのどのようなインタフェースでも構わない。

メール５１に画像が添付されていた場合には、その画像５０の情報がメールソフトから文字入力システム１に引き渡される（ステップＳ４１）。画像の情報とは、画像データの取得先を特定するための情報（例えば、ローカルに格納されている画像データであれば保存先のパスとファイル名、ネットワーク上の画像データであればＵＲＩなど）である。メール５１に複数の画像が添付されている場合は、それぞれの画像の情報が文字入力システム１に引き渡される。

画像の情報を受け取った場合（ステップＳ４１；ＹＥＳ）、画像取得部１５は画像データの読み込みを行う（ステップＳ４２）。そして、画像認識部１６が各画像に対し画像認識処理を適用し、各画像に含まれている人物の認識を試みる（ステップＳ４３）。画像認識部１６は、人物の認識に成功すると（つまり、画像中の人物が特徴量データベース１８
に登録されているいずれかの登録者に一致していると判定すると）、その人物に対応付けられているキーワードを関連語句抽出部１７に引き渡す。関連語句抽出部１７は、キーワードに関連付けられた関連語句を関連語句データベース１９から抽出する（ステップＳ４４）。キーワードそれ自体を関連語句の一つに加えてもよい。画像から複数の人物が認識された場合には、それぞれの人物に関連する関連語句を抽出する。画像中のすべての情報（人物）を網羅するほうが、ユーザの意図する語句を提示できる可能性を高めることができるからである。なお、画像から人物が認識できなかった場合（例えば、画像中に人物が写っていない場合や、未知の人物（すなわち特徴量データベース１８に登録されていない人物）しか写っていない場合など）には、ステップＳ４４の処理はスキップされる。図５では、画像５０に写っている人物の認識に成功し、その人物の関連語句として、「阿部太郎」（あべたろう）、「アベちゃん」（あべちゃん）、「俳優」（はいゆう）、「明日の空」（あしたのそら）、「東京」（とうきょう）などの語句が取得された例を示している。

ユーザが文字を入力すると（ステップＳ４５；ＹＥＳ）、候補作成部１２は、辞書１１を参照して、入力中の文字（確定前の文字）に対応する語句の候補群を作成する（ステップＳ４６）。語句の候補としては、入力中の文字を変換辞書やユーザ辞書に基づき変換した結果である変換候補に加え、予測辞書を用いて入力中の文字を補完し変換した結果である予測候補も抽出される。さらに、ステップＳ４４において画像中の人物に関連する関連語句が抽出されていた場合には、候補作成部１２は、それらの関連語句のうち入力中の文字に対応するもの（例えば、読みが前方一致する語句など）も予測候補に追加する。例えば、入力中の文字が「あ」である場合には、「阿部太郎」、「アベちゃん」、「明日の空」など「あ」から始まる関連語句が予測候補に追加されるのである。

候補群を作成する際には、ユーザの過去の入力履歴に基づいて各候補の順番（提示順）を決定するとよい。入力履歴を利用する方法には、例えば、ユーザが過去に入力した回数の多い語句を優先的に提示したり、ユーザが直近に入力した語句を優先的に提示したり、ユーザが既に入力（確定）した文章との接続（品詞、文脈、コロケーション等）がよい語句を優先的に提示するなどがある。いずれの方法を利用してもよいし、複数の方法を組み合わせることもできる。

あるいは、予測辞書から抽出された一般的な予測候補よりも、画像中の人物に関連する関連語句の方が上位になるように（優先的に提示されるように）、各候補の順番を決定することも好ましい。画像に関連する文章が入力される可能性が高いと期待できるからである。

候補表示部１３は、ステップＳ４６で作成された語句の候補群をユーザに提示する（ステップＳ４７）。図５の表示例では、ソフトウェアキーボード５３の上側に候補群５４が表示されている。入力中の文字「あ」に対応する予測候補の中に、画像中の人物に関連する語句（「阿部太郎」、「アベちゃん」、「明日の空」など）が現れていることがわかる。ユーザが候補群５４の中のいずれかの語句を選択すると（ステップＳ４８；ＹＥＳ）、入力語句確定部１４は、選択された語句を入力文字として確定し、その入力文字の情報をメールソフトに引き渡す（ステップＳ４９）。これによりメール５１の文字入力ウィンドウ５２に文字が入力される。図５では「明日の空」という語句が選択、入力された状態を示している。

例えば、メール本文に「映画『明日の空』を観たよ！阿部太郎さんという俳優の演技が素晴らしかった。」という文章を入力する場合を考えると、この文章のうち「明日の空」、「阿部太郎」、「俳優」などの語句は添付画像の関連語句として予測候補の上位に現れる。したがって、少ないキーストロークで簡単に文章を入力することができ、非常に便利
である。

（本実施形態の利点）
以上述べた第１実施形態の文字入力システムによれば、ユーザが文字入力を行う際に、画像中の人物に関連する関連語句が入力予測の候補として提示される。したがって、ユーザが、画像中の人物に関連する文章を入力しようとしている場合には、ユーザの意図に合致した候補を提示できる可能性が高まり、入力予測の精度及び利便性を向上することができる。

従来の予測辞書に基づく入力予測や、シーン解析（特許文献１参照）に基づく入力予測では、使用頻度の高い一般的な語句しか予測候補として提示することができない。これに対し、画像認識を利用した本実施形態の入力予測によれば、認識対象ごとに特化した（つまりあまり一般的でない）語句も予測候補に挙げることが可能になるという利点がある。

また、本実施形態では、画像認識により認識し得る対象（登録者）ごとに関連語句が登録された関連語句データベース１９を用いて、画像の関連語句を取得する構成を採用したので、関連語句の予測処理を簡易に実現できるとともに、高速な処理が可能となるという利点がある。

＜第２実施形態＞
次に、本発明の第２実施形態に係る文字入力システムについて説明する。第１実施形態では、画像から人物（顔）を認識し、その人物に関連する語句を予測候補に加えたのに対し、第２実施形態では、画像から文字列を認識する点が異なる。基本的な構成は第１実施形態のものと同じであるため、以下では、第２実施形態に特有の構成を主に説明する。

本実施形態の画像認識部１６は、画像取得部１５で読み込んだ画像データに対し画像認識処理を適用し、画像に含まれている「文字列」を認識する。文字認識処理について数多くの方法が提案されているが、本実施形態ではいずれの方法を用いてもよい。例えば、パターンマッチングを利用する方法や、前述した顔認識と同じように文字ごとの特徴量を比較する方法などを好ましく採用できる。特徴量データベース１８には、英文字、数字、平仮名、片仮名、漢字の一文字ごとのテンプレートや特徴量が登録されている。関連語句データベース１９としては、第１実施形態のものと同じ構造のデータベースを用いることができる。

図４及び図６を参照して、メールソフトに文字入力を行う場合の動作例を説明する。図６は第２実施形態の動作例を説明するための図である。図６に示すように、メール５１に添付した画像５０には、映画のタイトルやキャッチコピー、キャスト名など、複数の文字列が含まれている。第２実施形態ではこれらの文字列を認識し、入力予測に利用する。

ステップＳ４０〜Ｓ４２の処理内容は第１実施形態と同様である。ステップＳ４３の画像認識では、画像認識部１６がメールに添付された各画像から文字列の認識を試みる。図６の例では、「明日の空」、「阿部太郎」、「感動作」などの文字列が認識されたことを示している。次に、関連語句抽出部１７が、ステップＳ４３で得られた文字列（第１実施形態での「キーワード」に相当）に関連付けられた関連語句を関連語句データベース１９から抽出する（ステップＳ４４）。このとき、「明日の空」、「阿部太郎」などの画像から認識した文字列それ自体も関連語句の一つに加える。また、必要に応じて、認識した文字列を形態素解析して、「明日」、「空」、「阿部」、「感動」などの自立語を抽出し、それらの自立語やその関連語句を追加することも好ましい。これ以降の処理内容は第１実施形態と同様である。

第２実施形態の文字入力システムによれば、ユーザが文字入力を行う際に、画像中の文字列やそれに関連する語句が入力予測の候補として提示される。したがって、ユーザが、画像中の文字列そのものやそれに関連する文章を入力しようとしている場合には、ユーザの意図に合致した候補を提示できる可能性が高まり、入力予測の精度及び利便性を向上することができる。

＜第３実施形態＞
次に、本発明の第３実施形態に係る文字入力システムについて説明する。第１実施形態では「人物（顔）」、第２実施形態では「文字列」をそれぞれ画像認識の対象としたが、第３実施形態では、複数種類の対象を画像認識の対象とする。

例えば、第１実施形態と第２実施形態を組み合わせてもよい。すなわち、画像認識部１６が、人物認識と文字列認識の両方の処理を実行し、認識できた対象（人物、文字列）に関連する関連語句を予測候補として提示するのである。さらに、画像認識部１６が、画像に含まれている「特定の物体」の認識を行い、特定の物体の関連語句を予測候補に加えることも好ましい。「特定の物体」とは、「人物」と「文字列」以外の物体のうち、画像認識部１６の画像認識処理によって認識可能な（つまり予め特徴量データが登録されている）物体をいう。動物、植物、工業製品、建造物、企業その他の団体を表すロゴマークなどいかなる種類の物体を登録してもよい。このように、認識できる対象の種類を増やすほど、画像から取得できる情報の種類や情報量が増えるので、入力予測の精度や利便性をさらに向上できるものと期待される。

＜第４実施形態＞
次に、本発明の第４実施形態に係る文字入力システムについて説明する。第４実施形態では、画像認識の結果として複数の関連語句が抽出された場合に、それらの関連語句の提示順（優先順位）を調整する方法について説明する。基本的な構成は上述した実施形態のものと同じであるため、以下では、第４実施形態に特有の構成を主に説明する。

図７に示すように、画像から二人の人物７０、７１と一つの文字列７２が認識され、人物７１の関連語句として、「安田二郎」、「安田」、「山梨県」、「弁護士」が、人物７０の関連語句として、「安田三郎」、「安田」、「山梨県」、「警察官」が、文字列７２の関連語句として、「富士山」、「山梨県」、「静岡県」、「山」が抽出されたものとする。

候補作成部１２は、それぞれの関連語句について、画像との関連度を計算する。関連度とは、関連語句と画像との関連性の強さを表す指標であり、本実施形態では、関連語句が関連する対象（人物、文字列）の数を関連度として用いる。「山梨県」という語句は３つの対象７０，７１，７２と関連を有しているので、関連度は「３」、「安田」という語句は２つの対象７０，７１と関連を有しているので関連度は「２」、それ以外の語句は関連度「１」である。候補作成部１２は、関連語句を予測候補に加える際、画像との関連度が高い関連語句の方が優先的に提示されるように順番を調整する。すなわち、ユーザが「や」という文字を入力すると、その予測候補として、「山梨県」及び「安田」という語句が、「安田二郎」、「安田三郎」、「山」などの語句よりも先に提示されるようにするのである。

画像との関連度が高い語句の方がユーザの意図に合致する可能性が高いと思われるため、本実施形態のように提示順を調整し又は提示する候補を絞り込むことで、入力予測の精度及び利便性の向上を期待できる。図７の例では関連語句の数が十数個であるが、画像から認識される対象の数や関連語句データベース１９の語彙数によっては数十から数百の関連語句が抽出されることも想定される。そのように膨大な数の関連語句が得られた場合に
は、本実施形態のような提示順の調整や絞り込みは非常に有効となる。

＜その他の実施形態＞
上述した各実施形態は本発明の一具体例を示したものにすぎない。例えば、本発明の実施形態として以下のような構成も採り得る。

（１）第２実施形態では、画像から認識した文字列だけでなく、その文字列から派生する関連語句も予測候補として提示するようにしたが、よりシンプルな構成として、画像から認識した文字列のみ（あるいは、認識した文字列とそれを形態素解析したもの）を予測候補として提示する構成でもよい。画像に含まれている文字列をメール本文等にテキスト入力する場合には、このような予測候補が提示されるだけでも非常に便利である。なお、この構成の場合は、関連語句データベース１９及び図４のステップＳ４４の処理は不要となる。

（２）第４実施形態では、複数の対象と関連性を有する語句を優先的に提示するようにしたが、他の基準で関連語句の提示順を決定してもよい。一つは、ユーザの過去の入力履歴に基づき関連語句の提示順を決定する方法である。例えば、関連語句データベース１９において、それぞれの関連語句の選択頻度を記録し、頻度が高い語句ほど優先的に提示されるようにするとよい。なお、入力履歴を利用する方法としては、ユーザが直近に入力した語句の優先順位を上げたり、ユーザが既に入力（確定）した文章との接続がよい語句の優先順位を上げるなど、様々な方法があるが、いかなる方法を採用してもよいし、それらを組み合わせてもよい。このように入力履歴に基づいて関連語句の順番を調整することで、ユーザの意図に合致する可能性が高い語句を上位に提示できるようになる。

（３）関連語句データベース１９において、それぞれの関連語句をその属性とともに記憶することも好ましい。属性とは、関連語句を分類（種類を判別）するために利用するための情報である。例えば、人物に関連する関連語句として、その人物の名前、ニックネーム、出身地、メールアドレスなどの項目に対応する語句が登録されているとしたら、「名前」、「ニックネーム」、「出身地」、「メールアドレス」などの項目名が属性に該当する。このように、関連語句を属性とともに管理すると、属性の情報を入力予測に利用することが可能となるなど、利便性が増す。

例えば、ユーザの入力履歴として属性ごとの選択頻度を学習し、ユーザの選択頻度（確率）の高い属性をもつ関連語句を上位に提示するようにしてもよい。この方法は、例えば、集合写真を見ながら写真中の複数の人物の名前を文字入力するケースのように、同じ属性に関わる情報をつづけて入力する際に、同じ属性の語句が優先的に提示されるようになるため、便利である。

（４）上記実施形態では、ユーザが入力中の文字（確定前の文字）に基づいて予測候補を作成・提示したが、予測候補を提示するタイミングはこれに限られない。例えば、直前に入力した（確定した）語句との接続に基づいて予測候補を作成・提示してもよい。また、ユーザによる直前の操作（例えば、文字入力ウィンドウに画像をドラッグアンドドロップするなど）等に基づいて予測候補を作成・提示してもよい。

１：文字入力システム
１０：入力受付部
１１：辞書
１２：候補作成部
１３：候補表示部
１４：入力語句確定部
１５：画像取得部
１６：画像認識部
１７：関連語句抽出部
１８：特徴量データベース
１９：関連語句データベース

Claims

ユーザにより入力されると予測される語句の候補群をユーザに提示する入力予測機能を有する文字入力用のプログラムであって、
画像を取り扱うアプリケーションプログラムに対して文字入力を行う際に、画像認識により前記画像に含まれている人物を認識する画像認識ステップと、
前記画像から認識された人物に関連する関連語句を、前記アプリケーションプログラムに対して文字入力を行う際に提示する語句の候補群に加える候補追加ステップと、
をコンピュータに実行させることを特徴とする文字入力用のプログラム。
ユーザにより入力されると予測される語句の候補群をユーザに提示する入力予測機能を有する文字入力用のプログラムであって、
画像を取り扱うアプリケーションプログラムに対して文字入力を行う際に、画像認識により前記画像に含まれている文字列を認識する画像認識ステップと、
前記画像から認識された文字列に関連する関連語句を、前記アプリケーションプログラムに対して文字入力を行う際に提示する語句の候補群に加える候補追加ステップと、
をコンピュータに実行させることを特徴とする文字入力用のプログラム。
前記画像認識ステップでは、画像認識により前記画像に含まれている文字列も認識し、
前記候補追加ステップでは、前記画像から認識された文字列に関連する関連語句も前記候補群に加える
ことを特徴とする請求項１に記載の文字入力用のプログラム。
前記画像認識ステップでは、画像認識により前記画像に含まれている特定の物体も認識し、
前記候補追加ステップでは、前記画像から認識された特定の物体に関連する関連語句も前記候補群に加える
ことを特徴とする請求項１〜３のうちいずれか１項に記載の文字入力用のプログラム。
前記候補追加ステップでは、画像認識により認識し得る対象ごとに一つ以上の関連語句が予め登録されているデータベースを参照することにより、前記画像から認識された対象に関連する関連語句を取得する
ことを特徴とする請求項１〜４のうちいずれか１項に記載の文字入力用のプログラム。
前記画像認識ステップにおいて複数の対象が認識された場合、前記候補追加ステップでは、前記認識された複数の対象それぞれの関連語句を前記候補群に加える
ことを特徴とする請求項１〜５のうちいずれか１項に記載の文字入力用のプログラム。
前記候補追加ステップでは、一つの対象にのみ関連する関連語句よりも複数の対象に関連する関連語句の方が優先的に提示されるように、前記候補群に加える関連語句の順番を決定する
ことを特徴とする請求項６に記載の文字入力用のプログラム。
請求項１〜７のうちいずれか１項に記載のプログラムを記憶したコンピュータ読取可能な記録媒体。
請求項１〜７のうちいずれか１項に記載のプログラムを記憶する記憶装置と、
前記記憶装置から前記プログラムを読み込んで実行するプロセッサと、を有する
ことを特徴とする電子機器。
ユーザにより入力されると予測される語句の候補群をユーザに提示することによって、ユーザの文字入力を支援する文字入力支援方法であって、
画像を取り扱うアプリケーションプログラムに対して文字入力を行う際に、画像認識により前記画像に含まれている人物を認識する画像認識ステップと、
前記画像から認識された人物に関連する関連語句を、前記アプリケーションプログラムに対して文字入力を行う際に提示する語句の候補群に加える候補追加ステップと、
をコンピュータが実行することを特徴とする文字入力支援方法。
ユーザにより入力されると予測される語句の候補群をユーザに提示することによって、ユーザの文字入力を支援する文字入力支援方法であって、
画像を取り扱うアプリケーションプログラムに対して文字入力を行う際に、画像認識により前記画像に含まれている文字列を認識する画像認識ステップと、
前記画像から認識された文字列に関連する関連語句を、前記アプリケーションプログラムに対して文字入力を行う際に提示する語句の候補群に加える候補追加ステップと、
をコンピュータが実行することを特徴とする文字入力支援方法。