JP2014229091A - 文字入力用のプログラム - Google Patents

文字入力用のプログラム Download PDF

Info

Publication number
JP2014229091A
JP2014229091A JP2013108629A JP2013108629A JP2014229091A JP 2014229091 A JP2014229091 A JP 2014229091A JP 2013108629 A JP2013108629 A JP 2013108629A JP 2013108629 A JP2013108629 A JP 2013108629A JP 2014229091 A JP2014229091 A JP 2014229091A
Authority
JP
Japan
Prior art keywords
image
input
character input
program
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013108629A
Other languages
English (en)
Inventor
昂志 太田
Takashi Ota
昂志 太田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, Omron Tateisi Electronics Co filed Critical Omron Corp
Priority to JP2013108629A priority Critical patent/JP2014229091A/ja
Priority to CN201410171420.6A priority patent/CN104182381A/zh
Priority to EP14166193.4A priority patent/EP2806336A1/en
Priority to US14/264,802 priority patent/US20140348400A1/en
Publication of JP2014229091A publication Critical patent/JP2014229091A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】文字入力システムにおける入力予測の精度及び利便性を向上するための技術を提供する。
【解決手段】文字入力システム1は、画像を取り扱うアプリケーションプログラムAPに対して文字入力を行う際に、当該画像に含まれている対象(人物、文字列、物体等)を認識し、その認識された対象に関連する関連語句を入力予測の語句の候補群に加える。
【選択図】図1

Description

本発明は、電子機器における文字入力を支援する技術に関し、特に、入力予測機能の改良に関するものである。
電子機器に対して文字入力を行う際には、通常、文字入力システム(インプットメソッド(IM)ともいう)と呼ばれるソフトウェアが利用される。最近では、ユーザによる入力操作を補助する「入力予測」機能を搭載した文字入力システムも多い。入力予測とは、ユーザの入力する語句を予測して複数の候補を提示し、その中からユーザに目的の語句を選択させることで文字入力を可能にする機能である(候補を提示する際に仮名漢字変換等の文字変換も併せて行うので「予測変換」とも呼ばれる。)。入力予測の利用によりキーストロークの大幅な削減と入力ミスの回避が可能となるので、携帯電話のように少ないキーで文字入力を行う場合や、スマートフォンやタブレット型端末のようにタッチパネル上のソフトウェアキーボードにより文字入力を行う場合などに特に有用である。
一般的な入力予測では、予め登録された予測辞書とユーザの入力履歴に基づき、使用頻度の高い語句が上位になるよう、提示する候補群を決定する。この方法は、多くのケースで良好な結果を得ることができるものの、少なからず、ユーザの意図する語句が候補群に現れない(又は、下位の方に表示される)こともあり得る。それゆえ、入力予測の精度を向上させるための改良が望まれている。
例えば特許文献1では、カメラや画像編集ソフトで画像に文字情報を付加する際に、画像を撮影した位置や画像のシーンに関連する語句を文字変換候補の上位に提示する方法が提案されている。しかしこの方法は、撮影位置の情報が記録されていない画像には適用できない(位置記録機能をもつカメラに限られる)ため、汎用性に欠けるという不利がある。また、シーン解析で得られる情報は、山の写真、人物写真、夜景、といった概要的な情報にとどまるため、被写体固有の属性に関連する語句(例えば、人物の名前など)を予測候補として提示することはできない。
特開2010−152608号公報
本発明は、上記実情に鑑みてなされたものであり、文字入力システムにおける入力予測の精度及び利便性を向上するための技術を提供することを目的とする。
上記目的を達成するために本発明では、画像を取り扱うアプリケーションプログラムに対して文字入力を行う際に、当該画像に含まれている対象(人物、文字列、物体等)を認識し、その認識された対象に関連する関連語句を入力予測の語句の候補群に加える、という構成を採用する。
具体的には、本発明の第1態様は、ユーザにより入力されると予測される語句の候補群をユーザに提示する入力予測機能を有する文字入力用のプログラムであって、画像を取り扱うアプリケーションプログラムに対して文字入力を行う際に、画像認識により前記画像
に含まれている人物を認識する画像認識ステップと、前記画像から認識された人物に関連する関連語句を、前記アプリケーションプログラムに対して文字入力を行う際に提示する語句の候補群に加える候補追加ステップと、をコンピュータに実行させることを特徴とする文字入力用のプログラムである。
入力予測機能は、ユーザの入力を補完する機能だけを提供するものでもよいし、入力の補完に加えて、仮名漢字変換等の文字変換機能を提供するもの(いわゆる予測変換機能)でもよい。また、入力予測機能は、入力中の文字(確定前の文字)に基づいて候補群を作成・提示してもよいし、直前に入力した(確定した)語句やユーザによる直前の操作等に基づいて候補群を作成・提示してもよい。
画像を取り扱うアプリケーションプログラムとは、画像を添付、挿入、表示、又は編集する機能などを有するアプリケーションプログラムをいい、例えば、メールソフト、SNSブラウザ、Webブラウザ、ワープロソフト、表計算ソフト、画像ビューワ、画像編集ソフトなどが該当する。
画像認識とは、画像に含まれている対象を識別し特定する処理である。すなわち、画像認識ステップでは、画像から対象(人物等)を検出するにとどまらず、その検出された対象が誰であるかを識別し特定するのである。
なお、本明細書では特に断りの無い限り、「文字」という用語は「一つ以上の文字」という意味で用い、「文字」には、英文字、数字、平仮名、片仮名、漢字、その他の特殊文字などいかなる種類の文字も含まれる。また、「文字列」と「語句」という用語はどちらも「一つ以上の文字から構成される文字の集合」という意味で用いるが、画像から得られる文字情報を「文字列」と呼び、文字入力や予測候補の単位を「語句」と呼ぶことで、両者を区別する。
以上述べた第1態様に係るプログラムによれば、ユーザが文字入力を行う際に、画像中の人物に関連する関連語句が入力予測の候補として提示される。したがって、ユーザが、画像中の人物に関連する文章を入力しようとしている場合には、ユーザの意図に合致した候補を提示できる可能性が高まり、入力予測の精度及び利便性を向上することができる。
本発明の第2態様は、ユーザにより入力されると予測される語句の候補群をユーザに提示する入力予測機能を有する文字入力用のプログラムであって、画像を取り扱うアプリケーションプログラムに対して文字入力を行う際に、画像認識により前記画像に含まれている文字列を認識する画像認識ステップと、前記画像から認識された文字列に関連する関連語句を、前記アプリケーションプログラムに対して文字入力を行う際に提示する語句の候補群に加える候補追加ステップと、をコンピュータに実行させることを特徴とする文字入力用のプログラムである。
この第2態様に係るプログラムによれば、ユーザが文字入力を行う際に、画像中の文字列に関連する関連語句(文字列そのものも関連語句の一つである)が入力予測の候補として提示される。したがって、ユーザが、画像中の文字列そのものやそれに関連する文章を入力しようとしている場合には、ユーザの意図に合致した候補を提示できる可能性が高まり、入力予測の精度及び利便性を向上することができる。
画像認識ステップにおいて、画像認識により画像に含まれている人物と文字列の両方の認識を行い、候補追加ステップにおいて、画像から認識された人物と文字列それぞれの関連語句を候補群に加えてもよい。さらに、画像認識ステップにおいて、画像認識により画像に含まれている特定の物体の認識も行い、候補追加ステップにおいて、画像から認識さ
れた特定の物体に関連する関連語句を候補群に加えてもよい。「特定の物体」とは、人物と文字列以外の物体のうち、本プログラムによって認識可能な物体をいう。なお、異なる種類の対象(例えば、人物と文字列、人物と特定物体、文字列と特定物体、人物と文字列と特定物体)に対する認識処理を行う場合には、各対象の認識処理を同時に(並列に)実行してもよいし、順次に(シーケンシャルに)実行してもよい。また、各対象の認識処理には、同じプログラムモジュールを使用してもよいし、対象ごとに異なるプログラムモジュールを使用してもよい。
候補追加ステップでは、画像認識により認識し得る対象ごとに一つ以上の関連語句が予め登録されているデータベースを参照することにより、前記画像から認識された対象に関連する関連語句を取得するとよい。このようなデータベースを利用することで、関連語句の予測処理を簡易に実現できるとともに、高速な処理が可能となる。
画像認識ステップにおいて複数の対象が認識された場合、前記候補追加ステップでは、前記認識された複数の対象それぞれの関連語句を前記候補群に加えるとよい。「複数の対象が認識され」る場合には、一つの画像から複数の対象が認識される場合と、複数の画像から複数の対象が認識される場合の両方が含まれる。また、「複数の対象」は、同じ種類の複数の対象(例えば、複数の人物、複数の文字列等)でもよいし、異なる種類の複数の対象(例えば、人物と文字列、人物と文字列と特定の物体等)でもよい。このように、複数の対象が認識された場合はそれらすべての関連語句を候補群に加えるようにすることで、ユーザの意図する語句を提示できる可能性を高めることができる。
候補追加ステップでは、一つの対象にのみ関連する関連語句よりも複数の対象に関連する関連語句の方が優先的に提示されるように、前記候補群に加える関連語句の順番を決定するとよい。複数の対象に関連する語句の方がユーザの意図に合致する可能性が高いと思われるため、上記のように提示順を調整し又は提示する候補を絞り込むことで、入力予測の精度及び利便性の向上を期待できる。
なお、本発明は、上記処理の少なくとも一部を有する文字入力用のプログラム、又は、そのプログラムを記憶したコンピュータ読取可能な記録媒体として捉えることができる。また、本発明は、上記処理の少なくとも一部を有する文字入力用のプログラムを記憶する記憶装置と、その記憶装置からプログラムを読み込んで実行するプロセッサとを有する電子機器(又は電子機器に内蔵されるコンピュータ)として捉えることができる。さらに、本発明は、上記電子機器等が文字入力用のプログラムを実行することで実現される文字入力システム、又は、文字入力支援方法として捉えることもできる。上記電子機器には、例えば、パーソナルコンピュータ、携帯電話、スマートフォン、タブレット型端末(スレート型端末)、携帯情報端末、ゲーム装置、テレビジョン装置、撮像装置などが含まれる。上記構成および処理の各々は技術的な矛盾が生じない限り互いに組み合わせて本発明を構成することができる。
本発明によれば、文字入力システムにおける入力予測の精度及び利便性を向上することができる。
第1実施形態に係る文字入力システムの機能構成を模式的に示す図。 特徴量データベースと関連語句データベースのデータ構造の例。 新規登録者を追加する場合のユーザインタフェースの例。 第1実施形態に係る文字入力システムのフローチャート。 第1実施形態に係る文字入力システムの動作例。 第2実施形態に係る文字入力システムの動作例。 第4実施形態に係る文字入力システムの動作例。
以下、図面を参照して本発明の好適な実施の形態について説明する。以下の実施形態では、本発明に係る文字入力用のプログラムを電子機器(具体的にはスマートフォン)の文字入力システム(インプットメソッド)に適用し、スマートフォンで動作するアプリケーションプログラムの一つであるメールソフトに対し日本語を入力するケースを例に挙げる。ただし、これらは本発明の適用例の一つを示したものであり、本発明に係るプログラムが動作する電子機器の種類や、文字入力対象となるアプリケーションプログラムの種類は、特に限定されない。また、日本語入力に限らず、いかなる言語の文字入力にも本発明を適用可能である。
<第1実施形態>
(システム構成)
図1は、本発明の第1実施形態に係る文字入力システムの機能構成を模式的に示す図である。この文字入力システム1は、スマートフォン上で動作する各種のアプリケーションプログラムAP(略してアプリとも呼ばれる)に対して文字を入力するためのものであり、入力受付部10、辞書11、候補作成部12、候補表示部13、入力語句確定部14、画像取得部15、画像認識部16、関連語句抽出部17、特徴量データベース18、関連語句データベース19などを含む。これらの機能は、スマートフォンのメモリ(記憶装置)に格納された文字入力用のプログラムがプロセッサによって実行されることで実現されるものである。辞書11、特徴量データベース18、関連語句データベース19は、スマートフォンが有する不揮発性の記憶装置に構築されてもよいし、その一部又は全部のデータが外部の(LAN上又はクラウド上の)コンピュータや記憶装置に置かれてもよい。後者の構成の場合、文字入力システム1は必要に応じてネットワークを介し辞書11やデータベース18,19の情報を取得又は参照する。
入力受付部10は、ユーザからの入力操作を受け付ける機能である。入力操作としては、文字の入力、入力する文字種の変更、文字の削除、入力予測により提示された候補群からの語句選択などがある。ユーザは、例えば、指又はスタイラスペンなどでタッチパネルディスプレイをタップ/フリック/ドラッグ等することでこれらの入力操作が可能である。候補作成部12は、ユーザが入力した文字に基づいて変換候補や予測候補などの語句の候補群を作成する機能であり、候補表示部13は、語句の候補群をユーザに提示する機能である。入力語句確定部14は、入力語句を確定する機能である。
辞書11は、文字の入力、変換、予測を行う際に参照する各種の辞書データ(辞書ファイル)を有するデータベースである。辞書11には、例えば、仮名漢字変換を行うための変換辞書、ユーザの入力履歴に応じた語句の優先度を記憶する学習辞書、ユーザが登録した語句を記憶するユーザ辞書、入力予測の候補を抽出するために利用される予測辞書などが含まれる。予測辞書では、例えば、多数の語句がその読み(平仮名表記)に対応づけられて登録されている。
画像取得部15は、スマートフォンの記憶装置や外部(LAN上やクラウド上)の装置から画像データを読み込む機能である。また画像取得部15は、内蔵カメラで撮像した画像データを直接取り込むこともできる。画像認識部16は、画像取得部15で読み込んだ画像データに対し画像認識処理を適用し、画像に含まれている人物を認識する機能である。人物認識処理については数多くの方法が提案されているが、本実施形態ではいずれの方法を用いてもよい。例えば、顔特徴に基づく人物認識では、元画像に対して必要な前処理を行った後、顔領域の検出が行われ、検出された顔領域からHaar−Like特徴量な
どの特徴量が抽出される。そして、画像から抽出された特徴量と、特徴量データベース18に予め登録されている各登録者の特徴量との類似度を評価することにより、画像に含まれている顔がいずれかの登録者の顔に一致するかどうか判定する。一致する登録者が見つかれば、画像中の人物が誰であるかを識別(特定)できる。関連語句抽出部17は、認識された人物に関連する関連語句を関連語句データベース19から抽出する機能である。
図2は、特徴量データベース18と関連語句データベース19のデータ構造の一例を模式的に示している。特徴量データベース18は、画像認識に利用されるデータベースであり、多数の登録者それぞれの特徴量をキーワードに対応付けて記憶している。また、関連語句データベース19は、画像認識に基づく入力予測に利用されるデータベースであり、キーワードと、それに対応する一つ以上の関連語句とを記憶している。各々の関連語句には、付随する情報として、関連語句の平仮名表記である「読み」が関連付けられている。特徴量データベース18と関連語句データベース19のデータの追加、編集、削除はユーザ自身で行うことが可能である。
図3は、新規登録者を追加する場合のユーザインタフェースの一例を示している。スマートフォンの内蔵カメラで新規登録者を撮影すると、その撮影画像から顔検出及び特徴量の抽出が実行される。画面の指示に従い、登録者に関連付けるキーワードと一つ以上の関連語句を入力し、登録ボタンをタップすると、特徴量とキーワードのデータが特徴量データベース18に新規登録され、キーワードと関連語句のデータが関連語句データベース19に新規登録される。なお、キーワードは、人物(登録者)と関連語句とをリンクするための情報である。
(文字入力処理)
次に、図4及び図5を参照して、アプリケーションプログラムAPの一つであるメールソフトに文字入力を行う場合の動作例を説明する。図4は文字入力システム1によって実行される処理のフローチャートであり、図5は動作例を説明するための図である。
図5の例では、ユーザが、映画のポスターを撮影した画像50(ファイル名:image.jpg)を新規メール51に添付し、映画に関する感想を文字入力する場面を想定している。
画像50には、映画に登場する俳優の写真、映画のタイトルやキャッチコピー、キャスト名などが写っているものとする。
ユーザがメール51の文字入力ウィンドウ52をタップすると、文字入力システム1がアクティブとなり、タッチパネルディスプレイ上にソフトウェアキーボード53が表示される(ステップS40)。図5の表示例では、画面下端にテンキー形式のソフトウェアキーボード53が表示されている。なお、文字入力のインタフェースは、図5の例に限られず、フルキーボードや手書き入力などのどのようなインタフェースでも構わない。
メール51に画像が添付されていた場合には、その画像50の情報がメールソフトから文字入力システム1に引き渡される(ステップS41)。画像の情報とは、画像データの取得先を特定するための情報(例えば、ローカルに格納されている画像データであれば保存先のパスとファイル名、ネットワーク上の画像データであればURIなど)である。メール51に複数の画像が添付されている場合は、それぞれの画像の情報が文字入力システム1に引き渡される。
画像の情報を受け取った場合(ステップS41;YES)、画像取得部15は画像データの読み込みを行う(ステップS42)。そして、画像認識部16が各画像に対し画像認識処理を適用し、各画像に含まれている人物の認識を試みる(ステップS43)。画像認識部16は、人物の認識に成功すると(つまり、画像中の人物が特徴量データベース18
に登録されているいずれかの登録者に一致していると判定すると)、その人物に対応付けられているキーワードを関連語句抽出部17に引き渡す。関連語句抽出部17は、キーワードに関連付けられた関連語句を関連語句データベース19から抽出する(ステップS44)。キーワードそれ自体を関連語句の一つに加えてもよい。画像から複数の人物が認識された場合には、それぞれの人物に関連する関連語句を抽出する。画像中のすべての情報(人物)を網羅するほうが、ユーザの意図する語句を提示できる可能性を高めることができるからである。なお、画像から人物が認識できなかった場合(例えば、画像中に人物が写っていない場合や、未知の人物(すなわち特徴量データベース18に登録されていない人物)しか写っていない場合など)には、ステップS44の処理はスキップされる。図5では、画像50に写っている人物の認識に成功し、その人物の関連語句として、「阿部太郎」(あべたろう)、「アベちゃん」(あべちゃん)、「俳優」(はいゆう)、「明日の空」(あしたのそら)、「東京」(とうきょう)などの語句が取得された例を示している。
ユーザが文字を入力すると(ステップS45;YES)、候補作成部12は、辞書11を参照して、入力中の文字(確定前の文字)に対応する語句の候補群を作成する(ステップS46)。語句の候補としては、入力中の文字を変換辞書やユーザ辞書に基づき変換した結果である変換候補に加え、予測辞書を用いて入力中の文字を補完し変換した結果である予測候補も抽出される。さらに、ステップS44において画像中の人物に関連する関連語句が抽出されていた場合には、候補作成部12は、それらの関連語句のうち入力中の文字に対応するもの(例えば、読みが前方一致する語句など)も予測候補に追加する。例えば、入力中の文字が「あ」である場合には、「阿部太郎」、「アベちゃん」、「明日の空」など「あ」から始まる関連語句が予測候補に追加されるのである。
候補群を作成する際には、ユーザの過去の入力履歴に基づいて各候補の順番(提示順)を決定するとよい。入力履歴を利用する方法には、例えば、ユーザが過去に入力した回数の多い語句を優先的に提示したり、ユーザが直近に入力した語句を優先的に提示したり、ユーザが既に入力(確定)した文章との接続(品詞、文脈、コロケーション等)がよい語句を優先的に提示するなどがある。いずれの方法を利用してもよいし、複数の方法を組み合わせることもできる。
あるいは、予測辞書から抽出された一般的な予測候補よりも、画像中の人物に関連する関連語句の方が上位になるように(優先的に提示されるように)、各候補の順番を決定することも好ましい。画像に関連する文章が入力される可能性が高いと期待できるからである。
候補表示部13は、ステップS46で作成された語句の候補群をユーザに提示する(ステップS47)。図5の表示例では、ソフトウェアキーボード53の上側に候補群54が表示されている。入力中の文字「あ」に対応する予測候補の中に、画像中の人物に関連する語句(「阿部太郎」、「アベちゃん」、「明日の空」など)が現れていることがわかる。ユーザが候補群54の中のいずれかの語句を選択すると(ステップS48;YES)、入力語句確定部14は、選択された語句を入力文字として確定し、その入力文字の情報をメールソフトに引き渡す(ステップS49)。これによりメール51の文字入力ウィンドウ52に文字が入力される。図5では「明日の空」という語句が選択、入力された状態を示している。
例えば、メール本文に「映画『明日の空』を観たよ!阿部太郎さんという俳優の演技が素晴らしかった。」という文章を入力する場合を考えると、この文章のうち「明日の空」、「阿部太郎」、「俳優」などの語句は添付画像の関連語句として予測候補の上位に現れる。したがって、少ないキーストロークで簡単に文章を入力することができ、非常に便利
である。
(本実施形態の利点)
以上述べた第1実施形態の文字入力システムによれば、ユーザが文字入力を行う際に、画像中の人物に関連する関連語句が入力予測の候補として提示される。したがって、ユーザが、画像中の人物に関連する文章を入力しようとしている場合には、ユーザの意図に合致した候補を提示できる可能性が高まり、入力予測の精度及び利便性を向上することができる。
従来の予測辞書に基づく入力予測や、シーン解析(特許文献1参照)に基づく入力予測では、使用頻度の高い一般的な語句しか予測候補として提示することができない。これに対し、画像認識を利用した本実施形態の入力予測によれば、認識対象ごとに特化した(つまりあまり一般的でない)語句も予測候補に挙げることが可能になるという利点がある。
また、本実施形態では、画像認識により認識し得る対象(登録者)ごとに関連語句が登録された関連語句データベース19を用いて、画像の関連語句を取得する構成を採用したので、関連語句の予測処理を簡易に実現できるとともに、高速な処理が可能となるという利点がある。
<第2実施形態>
次に、本発明の第2実施形態に係る文字入力システムについて説明する。第1実施形態では、画像から人物(顔)を認識し、その人物に関連する語句を予測候補に加えたのに対し、第2実施形態では、画像から文字列を認識する点が異なる。基本的な構成は第1実施形態のものと同じであるため、以下では、第2実施形態に特有の構成を主に説明する。
本実施形態の画像認識部16は、画像取得部15で読み込んだ画像データに対し画像認識処理を適用し、画像に含まれている「文字列」を認識する。文字認識処理について数多くの方法が提案されているが、本実施形態ではいずれの方法を用いてもよい。例えば、パターンマッチングを利用する方法や、前述した顔認識と同じように文字ごとの特徴量を比較する方法などを好ましく採用できる。特徴量データベース18には、英文字、数字、平仮名、片仮名、漢字の一文字ごとのテンプレートや特徴量が登録されている。関連語句データベース19としては、第1実施形態のものと同じ構造のデータベースを用いることができる。
図4及び図6を参照して、メールソフトに文字入力を行う場合の動作例を説明する。図6は第2実施形態の動作例を説明するための図である。図6に示すように、メール51に添付した画像50には、映画のタイトルやキャッチコピー、キャスト名など、複数の文字列が含まれている。第2実施形態ではこれらの文字列を認識し、入力予測に利用する。
ステップS40〜S42の処理内容は第1実施形態と同様である。ステップS43の画像認識では、画像認識部16がメールに添付された各画像から文字列の認識を試みる。図6の例では、「明日の空」、「阿部太郎」、「感動作」などの文字列が認識されたことを示している。次に、関連語句抽出部17が、ステップS43で得られた文字列(第1実施形態での「キーワード」に相当)に関連付けられた関連語句を関連語句データベース19から抽出する(ステップS44)。このとき、「明日の空」、「阿部太郎」などの画像から認識した文字列それ自体も関連語句の一つに加える。また、必要に応じて、認識した文字列を形態素解析して、「明日」、「空」、「阿部」、「感動」などの自立語を抽出し、それらの自立語やその関連語句を追加することも好ましい。これ以降の処理内容は第1実施形態と同様である。
第2実施形態の文字入力システムによれば、ユーザが文字入力を行う際に、画像中の文字列やそれに関連する語句が入力予測の候補として提示される。したがって、ユーザが、画像中の文字列そのものやそれに関連する文章を入力しようとしている場合には、ユーザの意図に合致した候補を提示できる可能性が高まり、入力予測の精度及び利便性を向上することができる。
<第3実施形態>
次に、本発明の第3実施形態に係る文字入力システムについて説明する。第1実施形態では「人物(顔)」、第2実施形態では「文字列」をそれぞれ画像認識の対象としたが、第3実施形態では、複数種類の対象を画像認識の対象とする。
例えば、第1実施形態と第2実施形態を組み合わせてもよい。すなわち、画像認識部16が、人物認識と文字列認識の両方の処理を実行し、認識できた対象(人物、文字列)に関連する関連語句を予測候補として提示するのである。さらに、画像認識部16が、画像に含まれている「特定の物体」の認識を行い、特定の物体の関連語句を予測候補に加えることも好ましい。「特定の物体」とは、「人物」と「文字列」以外の物体のうち、画像認識部16の画像認識処理によって認識可能な(つまり予め特徴量データが登録されている)物体をいう。動物、植物、工業製品、建造物、企業その他の団体を表すロゴマークなどいかなる種類の物体を登録してもよい。このように、認識できる対象の種類を増やすほど、画像から取得できる情報の種類や情報量が増えるので、入力予測の精度や利便性をさらに向上できるものと期待される。
<第4実施形態>
次に、本発明の第4実施形態に係る文字入力システムについて説明する。第4実施形態では、画像認識の結果として複数の関連語句が抽出された場合に、それらの関連語句の提示順(優先順位)を調整する方法について説明する。基本的な構成は上述した実施形態のものと同じであるため、以下では、第4実施形態に特有の構成を主に説明する。
図7に示すように、画像から二人の人物70、71と一つの文字列72が認識され、人物71の関連語句として、「安田二郎」、「安田」、「山梨県」、「弁護士」が、人物70の関連語句として、「安田三郎」、「安田」、「山梨県」、「警察官」が、文字列72の関連語句として、「富士山」、「山梨県」、「静岡県」、「山」が抽出されたものとする。
候補作成部12は、それぞれの関連語句について、画像との関連度を計算する。関連度とは、関連語句と画像との関連性の強さを表す指標であり、本実施形態では、関連語句が関連する対象(人物、文字列)の数を関連度として用いる。「山梨県」という語句は3つの対象70,71,72と関連を有しているので、関連度は「3」、「安田」という語句は2つの対象70,71と関連を有しているので関連度は「2」、それ以外の語句は関連度「1」である。候補作成部12は、関連語句を予測候補に加える際、画像との関連度が高い関連語句の方が優先的に提示されるように順番を調整する。すなわち、ユーザが「や」という文字を入力すると、その予測候補として、「山梨県」及び「安田」という語句が、「安田二郎」、「安田三郎」、「山」などの語句よりも先に提示されるようにするのである。
画像との関連度が高い語句の方がユーザの意図に合致する可能性が高いと思われるため、本実施形態のように提示順を調整し又は提示する候補を絞り込むことで、入力予測の精度及び利便性の向上を期待できる。図7の例では関連語句の数が十数個であるが、画像から認識される対象の数や関連語句データベース19の語彙数によっては数十から数百の関連語句が抽出されることも想定される。そのように膨大な数の関連語句が得られた場合に
は、本実施形態のような提示順の調整や絞り込みは非常に有効となる。
<その他の実施形態>
上述した各実施形態は本発明の一具体例を示したものにすぎない。例えば、本発明の実施形態として以下のような構成も採り得る。
(1)第2実施形態では、画像から認識した文字列だけでなく、その文字列から派生する関連語句も予測候補として提示するようにしたが、よりシンプルな構成として、画像から認識した文字列のみ(あるいは、認識した文字列とそれを形態素解析したもの)を予測候補として提示する構成でもよい。画像に含まれている文字列をメール本文等にテキスト入力する場合には、このような予測候補が提示されるだけでも非常に便利である。なお、この構成の場合は、関連語句データベース19及び図4のステップS44の処理は不要となる。
(2)第4実施形態では、複数の対象と関連性を有する語句を優先的に提示するようにしたが、他の基準で関連語句の提示順を決定してもよい。一つは、ユーザの過去の入力履歴に基づき関連語句の提示順を決定する方法である。例えば、関連語句データベース19において、それぞれの関連語句の選択頻度を記録し、頻度が高い語句ほど優先的に提示されるようにするとよい。なお、入力履歴を利用する方法としては、ユーザが直近に入力した語句の優先順位を上げたり、ユーザが既に入力(確定)した文章との接続がよい語句の優先順位を上げるなど、様々な方法があるが、いかなる方法を採用してもよいし、それらを組み合わせてもよい。このように入力履歴に基づいて関連語句の順番を調整することで、ユーザの意図に合致する可能性が高い語句を上位に提示できるようになる。
(3)関連語句データベース19において、それぞれの関連語句をその属性とともに記憶することも好ましい。属性とは、関連語句を分類(種類を判別)するために利用するための情報である。例えば、人物に関連する関連語句として、その人物の名前、ニックネーム、出身地、メールアドレスなどの項目に対応する語句が登録されているとしたら、「名前」、「ニックネーム」、「出身地」、「メールアドレス」などの項目名が属性に該当する。このように、関連語句を属性とともに管理すると、属性の情報を入力予測に利用することが可能となるなど、利便性が増す。
例えば、ユーザの入力履歴として属性ごとの選択頻度を学習し、ユーザの選択頻度(確率)の高い属性をもつ関連語句を上位に提示するようにしてもよい。この方法は、例えば、集合写真を見ながら写真中の複数の人物の名前を文字入力するケースのように、同じ属性に関わる情報をつづけて入力する際に、同じ属性の語句が優先的に提示されるようになるため、便利である。
(4)上記実施形態では、ユーザが入力中の文字(確定前の文字)に基づいて予測候補を作成・提示したが、予測候補を提示するタイミングはこれに限られない。例えば、直前に入力した(確定した)語句との接続に基づいて予測候補を作成・提示してもよい。また、ユーザによる直前の操作(例えば、文字入力ウィンドウに画像をドラッグアンドドロップするなど)等に基づいて予測候補を作成・提示してもよい。
1:文字入力システム
10:入力受付部
11:辞書
12:候補作成部
13:候補表示部
14:入力語句確定部
15:画像取得部
16:画像認識部
17:関連語句抽出部
18:特徴量データベース
19:関連語句データベース

Claims (11)

  1. ユーザにより入力されると予測される語句の候補群をユーザに提示する入力予測機能を有する文字入力用のプログラムであって、
    画像を取り扱うアプリケーションプログラムに対して文字入力を行う際に、画像認識により前記画像に含まれている人物を認識する画像認識ステップと、
    前記画像から認識された人物に関連する関連語句を、前記アプリケーションプログラムに対して文字入力を行う際に提示する語句の候補群に加える候補追加ステップと、
    をコンピュータに実行させることを特徴とする文字入力用のプログラム。
  2. ユーザにより入力されると予測される語句の候補群をユーザに提示する入力予測機能を有する文字入力用のプログラムであって、
    画像を取り扱うアプリケーションプログラムに対して文字入力を行う際に、画像認識により前記画像に含まれている文字列を認識する画像認識ステップと、
    前記画像から認識された文字列に関連する関連語句を、前記アプリケーションプログラムに対して文字入力を行う際に提示する語句の候補群に加える候補追加ステップと、
    をコンピュータに実行させることを特徴とする文字入力用のプログラム。
  3. 前記画像認識ステップでは、画像認識により前記画像に含まれている文字列も認識し、
    前記候補追加ステップでは、前記画像から認識された文字列に関連する関連語句も前記候補群に加える
    ことを特徴とする請求項1に記載の文字入力用のプログラム。
  4. 前記画像認識ステップでは、画像認識により前記画像に含まれている特定の物体も認識し、
    前記候補追加ステップでは、前記画像から認識された特定の物体に関連する関連語句も前記候補群に加える
    ことを特徴とする請求項1〜3のうちいずれか1項に記載の文字入力用のプログラム。
  5. 前記候補追加ステップでは、画像認識により認識し得る対象ごとに一つ以上の関連語句が予め登録されているデータベースを参照することにより、前記画像から認識された対象に関連する関連語句を取得する
    ことを特徴とする請求項1〜4のうちいずれか1項に記載の文字入力用のプログラム。
  6. 前記画像認識ステップにおいて複数の対象が認識された場合、前記候補追加ステップでは、前記認識された複数の対象それぞれの関連語句を前記候補群に加える
    ことを特徴とする請求項1〜5のうちいずれか1項に記載の文字入力用のプログラム。
  7. 前記候補追加ステップでは、一つの対象にのみ関連する関連語句よりも複数の対象に関連する関連語句の方が優先的に提示されるように、前記候補群に加える関連語句の順番を決定する
    ことを特徴とする請求項6に記載の文字入力用のプログラム。
  8. 請求項1〜7のうちいずれか1項に記載のプログラムを記憶したコンピュータ読取可能な記録媒体。
  9. 請求項1〜7のうちいずれか1項に記載のプログラムを記憶する記憶装置と、
    前記記憶装置から前記プログラムを読み込んで実行するプロセッサと、を有する
    ことを特徴とする電子機器。
  10. ユーザにより入力されると予測される語句の候補群をユーザに提示することによって、ユーザの文字入力を支援する文字入力支援方法であって、
    画像を取り扱うアプリケーションプログラムに対して文字入力を行う際に、画像認識により前記画像に含まれている人物を認識する画像認識ステップと、
    前記画像から認識された人物に関連する関連語句を、前記アプリケーションプログラムに対して文字入力を行う際に提示する語句の候補群に加える候補追加ステップと、
    をコンピュータが実行することを特徴とする文字入力支援方法。
  11. ユーザにより入力されると予測される語句の候補群をユーザに提示することによって、ユーザの文字入力を支援する文字入力支援方法であって、
    画像を取り扱うアプリケーションプログラムに対して文字入力を行う際に、画像認識により前記画像に含まれている文字列を認識する画像認識ステップと、
    前記画像から認識された文字列に関連する関連語句を、前記アプリケーションプログラムに対して文字入力を行う際に提示する語句の候補群に加える候補追加ステップと、
    をコンピュータが実行することを特徴とする文字入力支援方法。
JP2013108629A 2013-05-23 2013-05-23 文字入力用のプログラム Pending JP2014229091A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2013108629A JP2014229091A (ja) 2013-05-23 2013-05-23 文字入力用のプログラム
CN201410171420.6A CN104182381A (zh) 2013-05-23 2014-04-25 文字输入用方法和系统
EP14166193.4A EP2806336A1 (en) 2013-05-23 2014-04-28 Text prediction in a text input associated with an image
US14/264,802 US20140348400A1 (en) 2013-05-23 2014-04-29 Computer-readable recording medium storing program for character input

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013108629A JP2014229091A (ja) 2013-05-23 2013-05-23 文字入力用のプログラム

Publications (1)

Publication Number Publication Date
JP2014229091A true JP2014229091A (ja) 2014-12-08

Family

ID=50624466

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013108629A Pending JP2014229091A (ja) 2013-05-23 2013-05-23 文字入力用のプログラム

Country Status (4)

Country Link
US (1) US20140348400A1 (ja)
EP (1) EP2806336A1 (ja)
JP (1) JP2014229091A (ja)
CN (1) CN104182381A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016173797A (ja) * 2015-03-18 2016-09-29 カシオ計算機株式会社 文字変換支援装置、日記作成支援装置、文字変換支援方法、及び、プログラム
JP2020042427A (ja) * 2018-09-07 2020-03-19 キヤノン株式会社 情報処理装置、その制御方法およびプログラム
WO2020067532A1 (ja) * 2018-09-28 2020-04-02 株式会社ブロードリーフ 車両整備支援装置、車両整備支援方法及び車両整備支援プログラム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5617627B2 (ja) * 2010-12-28 2014-11-05 オムロン株式会社 監視装置および方法、並びにプログラム
CN106293111A (zh) * 2015-05-18 2017-01-04 洪永川 一种文字输入系统及输入方法
JP6677415B2 (ja) * 2016-03-03 2020-04-08 富士通コネクテッドテクノロジーズ株式会社 文字入力装置及び文字入力プログラム
JPWO2018190128A1 (ja) * 2017-04-11 2020-02-27 ソニー株式会社 情報処理装置および情報処理方法
CN111192241B (zh) * 2019-12-23 2024-02-13 深圳市优必选科技股份有限公司 一种人脸图像的质量评估方法、装置及计算机存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010514023A (ja) * 2006-12-19 2010-04-30 イーストマン コダック カンパニー マルチメディアメッセージ関連テキストの入力中に語を自動先取りする方法
JP2013077243A (ja) * 2011-09-30 2013-04-25 Ntt Docomo Inc 文字入力装置、文字入力システム及び文字入力方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7630980B2 (en) * 2005-01-21 2009-12-08 Prashant Parikh Automatic dynamic contextual data entry completion system
US7783135B2 (en) * 2005-05-09 2010-08-24 Like.Com System and method for providing objectified image renderings using recognition information from images
JP2007183821A (ja) * 2006-01-06 2007-07-19 Seiko Epson Corp 画像に関連した文の設定
CN101059840A (zh) * 2007-05-24 2007-10-24 深圳市杰特电信控股有限公司 一种用手机拍照方式的文字输入方法
CN101751202A (zh) * 2008-12-17 2010-06-23 爱思开电讯投资(中国)有限公司 一种基于环境信息进行文字关联输入的方法和装置
JP2010152608A (ja) * 2008-12-25 2010-07-08 Nikon Corp 文字入力変換装置および撮像装置
JP2010170501A (ja) * 2009-01-26 2010-08-05 Sharp Corp 携帯装置
JP5423052B2 (ja) * 2009-02-27 2014-02-19 株式会社ニコン 画像処理装置、撮像装置及びプログラム
JP2013012933A (ja) * 2011-06-29 2013-01-17 Sanyo Electric Co Ltd 撮影メモ作成装置
CN102520843B (zh) * 2011-11-19 2016-06-22 上海量明科技发展有限公司 一种采集图像作为候选项的输入法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010514023A (ja) * 2006-12-19 2010-04-30 イーストマン コダック カンパニー マルチメディアメッセージ関連テキストの入力中に語を自動先取りする方法
JP2013077243A (ja) * 2011-09-30 2013-04-25 Ntt Docomo Inc 文字入力装置、文字入力システム及び文字入力方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016173797A (ja) * 2015-03-18 2016-09-29 カシオ計算機株式会社 文字変換支援装置、日記作成支援装置、文字変換支援方法、及び、プログラム
JP2020042427A (ja) * 2018-09-07 2020-03-19 キヤノン株式会社 情報処理装置、その制御方法およびプログラム
WO2020067532A1 (ja) * 2018-09-28 2020-04-02 株式会社ブロードリーフ 車両整備支援装置、車両整備支援方法及び車両整備支援プログラム
JP2020052952A (ja) * 2018-09-28 2020-04-02 株式会社ブロードリーフ 車両整備支援装置、車両整備支援方法及び車両整備支援プログラム
JP7283880B2 (ja) 2018-09-28 2023-05-30 株式会社ブロードリーフ 車両整備支援装置、車両整備支援方法及び車両整備支援プログラム

Also Published As

Publication number Publication date
EP2806336A1 (en) 2014-11-26
US20140348400A1 (en) 2014-11-27
CN104182381A (zh) 2014-12-03

Similar Documents

Publication Publication Date Title
JP2014229091A (ja) 文字入力用のプログラム
US9411801B2 (en) General dictionary for all languages
US20070098263A1 (en) Data entry apparatus and program therefor
US20140081619A1 (en) Photography Recognition Translation
US11640503B2 (en) Input method, input device and apparatus for input
JP5270027B1 (ja) 情報処理装置および手書き文書検索方法
US20140289632A1 (en) Picture drawing support apparatus and method
JP2007265251A (ja) 情報検索装置
US20050268231A1 (en) Method and device for inputting Chinese phrases
US20220222292A1 (en) Method and system for ideogram character analysis
JP6464504B6 (ja) 電子機器、処理方法およびプログラム
KR102373884B1 (ko) 텍스트 기반 이미지 검색을 위한 이미지 데이터 처리 방법
KR20090068380A (ko) 개선된 이동 통신 단말
CN112631437A (zh) 信息推荐方法、装置及电子设备
CN108803890B (zh) 一种输入方法、输入装置和用于输入的装置
CN107797676B (zh) 一种单字输入方法及装置
Ramnath et al. AutoCaption: Automatic caption generation for personal photos
WO2016131425A1 (zh) 滑行输入方法及装置
JP5484113B2 (ja) 文書画像関連情報提供装置、及び文書画像関連情報取得システム
JP2007328713A (ja) 関連語表示装置、検索装置、その方法及びプログラム
US20210374189A1 (en) Document search device, document search program, and document search method
CN113094538A (zh) 图像的检索方法、装置和计算机可读存储介质
US10127478B2 (en) Electronic apparatus and method
CN110633017A (zh) 一种输入方法、装置和用于输入的装置
JP2008225676A (ja) 辞書検索装置及びその制御プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160304

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170124

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170620