JP6771259B2 - 画像および関連するテキストを処理するためのコンピュータ実装される方法、コンピュータ・プログラム製品、ならびにコンピュータ・システム - Google Patents

画像および関連するテキストを処理するためのコンピュータ実装される方法、コンピュータ・プログラム製品、ならびにコンピュータ・システム Download PDF

Info

Publication number
JP6771259B2
JP6771259B2 JP2016185368A JP2016185368A JP6771259B2 JP 6771259 B2 JP6771259 B2 JP 6771259B2 JP 2016185368 A JP2016185368 A JP 2016185368A JP 2016185368 A JP2016185368 A JP 2016185368A JP 6771259 B2 JP6771259 B2 JP 6771259B2
Authority
JP
Japan
Prior art keywords
image
text
objects
tag
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016185368A
Other languages
English (en)
Other versions
JP2017068841A (ja
Inventor
知宏 塩谷
知宏 塩谷
政美 多田
政美 多田
将一郎 渡邊
将一郎 渡邊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2017068841A publication Critical patent/JP2017068841A/ja
Application granted granted Critical
Publication of JP6771259B2 publication Critical patent/JP6771259B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Processing Or Creating Images (AREA)
  • Document Processing Apparatus (AREA)
  • Editing Of Facsimile Originals (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、一般的に画像編集に関し、特に、ソーシャル・ネットワーキング・アプリケーションで表示するため、関連するテキストを有する画像を編集することに関する。
インターネット上のブログ、マイクロブログ、およびソーシャル・ネットワーキング・サイトの普及に伴い、キャプションした画像などの、関連するテキストを有する画像のポスティングあるいは共有は、一般に普及した通信手段になった。キャプションした画像に加えて、画像ファイルは、画像を分類することおよび処理することの両方のために使用できる、タグまたはキーワードなどの記述的メタデータをさらに含む場合がある。しかし、画像のどの部分が望ましく、何のテキストを画像に添付するべきなのかを、ユーザだけが分かっている場合がある。さらに、システムが、ユーザの意図を知らずに画像を分類または処理することはできない。こうして、ユーザが関連するテキストを有する画像を生成、処理、および編集する機能は、次第に負担になってきた。
本発明の課題は、画像および関連するテキストを処理するためのコンピュータ実装される方法、コンピュータ・プログラム製品、ならびにコンピュータ・システムを提供することである。
コンピュータ実装される方法は、画像を受信するステップを含む。画像は、1つまたは複数のオブジェクトおよび1つまたは複数のテキスト部分を含む。コンピュータ実装される方法は、画像の1つまたは複数のオブジェクトを識別するステップをさらに含む。コンピュータ実装される方法は、識別された1つまたは複数のオブジェクトの各々について、オブジェクト・タグを抽出するステップをさらに含む。コンピュータ実装される方法は、1つまたは複数のテキスト部分の各々について、テキスト・タグを抽出するステップをさらに含む。コンピュータ実装される方法は、各テキスト・タグについて、決定をもたらすために1つまたは複数のオブジェクトの各々から抽出されたオブジェクト・タグに基づいて、テキスト・タグが1つまたは複数のオブジェクトのいずれかを記述するかどうかを決定するステップをさらに含む。コンピュータ実装される方法は、決定に応じて、1つまたは複数のオブジェクトに画像処理を行うステップをさらに含む。コンピュータ実装される方法は、決定に応じて、1つまたは複数のテキスト部分にテキスト処理を行うステップをさらに含む。対応するコンピュータ・プログラム製品およびコンピュータ・システムも開示される。
本発明の少なくとも1つの実施形態に従う動作に好適なコンピュータ・システム環境のブロック図である。 本発明の少なくとも1つの実施形態に従う動作に好適な動作環境のネットワーク図である。 本発明の少なくとも1つの実施形態に従う画像修正プログラム101のための動作ステップを描くフローチャート図である。 本発明の少なくとも1つの実施形態に従う画像修正プログラム101の加工例の一部についての例示的な図である。 本発明の少なくとも1つの実施形態に従う画像修正プログラム101の加工例の一部についての例示的な図である。 本発明の少なくとも1つの実施形態に従う画像修正プログラム101の加工例の一部についての例示的な図である。 本発明の少なくとも1つの実施形態に従う画像処理110のための動作ステップを描くフローチャート図である。 本発明の少なくとも1つの実施形態に従う画像修正プログラム101の加工例の一部についての例示的な図である。 本発明の少なくとも1つの実施形態に従う画像修正プログラム101の加工例の一部についての例示的な図である。 本発明の少なくとも1つの実施形態に従う画像修正プログラム101のための動作ステップを描くフローチャート図である。 本発明の少なくとも1つの実施形態に従う画像修正プログラム101の加工例の一部についての例示的な図である。 本発明の少なくとも1つの実施形態に従う画像修正プログラム101の加工例の一部についての例示的な図である。 本発明の少なくとも1つの実施形態に従う画像修正プログラム101を実行するのに好適なコンピュータ1300のブロック図である。
より詳細に本発明の様々な実施形態をここで参照すると、図1は、本発明の少なくとも1つの実施形態に従う動作に好適なコンピュータ・システム環境のブロック図である。コンピュータ・システム100内で、画像修正プログラム101が、画像102を受信することができる。画像102は、1つまたは複数のオブジェクト103および1つまたは複数のテキスト部分104を含むことができる。画像修正プログラム101は、画像102の1つまたは複数のオブジェクト103をさらに識別することができる。画像修正プログラム101は、さらに、識別された1つまたは複数のオブジェクト103の各々について、オブジェクト・タグ106を抽出することができる。各オブジェクト・タグ106は、タグ・リスト109の中に一緒に表示することができる。画像修正プログラム101は、さらに、1つまたは複数のテキスト部分104の各々について、テキスト・タグ107を抽出することができる。
画像修正プログラム101は、さらに、各テキスト・タグ107について、決定をもたらすために1つまたは複数のオブジェクト103の各々から抽出されたオブジェクト・タグ106に基づいて、テキスト・タグ107が1つまたは複数のオブジェクト103のいずれかを記述するかどうかを決定することができる。テキスト・タグ107が画像102のオブジェクト103を記載するかどうかを決定するために、各テキスト・タグ107を各オブジェクト・タグ106と、逐語的に、意味的に、または概念的に、あるいはそれらの組合せで比較することができる。テキスト・タグ107がオブジェクト・タグ106と一致する場合、テキスト・タグ107が画像102のオブジェクト103を記述すると決定することができる。テキスト・タグ107が1つまたは複数のオブジェクト103のいずれかを記述すると首尾よく決定するのに応じて、オブジェクト103から抽出されたオブジェクト・タグ106を、タグ・リスト109の中に視覚的強調を行って表示することができる。
画像修正プログラム101は、決定に応じて、画像102の1つまたは複数のオブジェクト103のものに画像処理110をさらに行うことができる。たとえば、画像処理110は、ぼかし処理、ピクシレーション、モザイク処理、トリミング、またはクロッピング技法を使用して、画像102の1つまたは複数のオブジェクト103を、除去または隠すことを含むことができる。加えて、画像処理110は、たとえば、縁取りによって、画像102の1つまたは複数のオブジェクト103を強調することを含むことができる。画像修正プログラム101は、決定に応じて、画像102の1つまたは複数のテキスト部分104のものに対してテキスト処理111をさらに行うことができる。たとえば、テキスト処理111は、画像102に関連する1つまたは複数のテキスト部分104の書式、すなわちフォント、色、下線、太字または斜体を修正することを含むことができる。
図2は、本発明の少なくとも1つの実施形態に従う動作に好適な動作環境のネットワーク図である。図2において、画像修正プログラム101は、ユーザ・デバイス201を介してユーザ200と通信することができる。より詳細には、画像修正プログラム101は、ユーザ200により選択される画像102を受信することができる。画像102は、1つまたは複数のオブジェクト103および1つまたは複数のテキスト部分104を含むことができる。画像102は、インターネットなどのネットワーク202、デスクトップ・コンピュータもしくはモバイル・デバイスなどのユーザ・デバイス201上のローカルに記憶されたデータ、またはサーバ203などの離れた場所からを含む、いくつかの環境を介してユーザ200がアクセスすることができる。
加えて、画像修正プログラム101は、オブジェクト・データベース204と通信することができる。オブジェクト・データベース204は、画像102中に見つかるオブジェクト103についての文脈上の情報を記憶することができる。たとえば、オブジェクト103についての文脈上の情報には、すべての人々、政治的なもしくは地理的な領域の人の集団、人口統計上のグループ、または写真家などといった関心事のグループといった人のグループによってオブジェクトに添付される任意の意味または文脈が挙げられる。文脈上の情報は、ユーザ200が画像102中のオブジェクト103を遮蔽しそうかどうかを示す値の形で、オブジェクト・データベース204中に記憶することができる。ここで、画像修正プログラム101は、オブジェクト・データベース204と通信して、オブジェクト・データベース204中に記憶された同様の、または同一のオブジェクトについての文脈上の情報に基づいて、1つまたは複数のオブジェクト103を画像102中で遮蔽するべきかどうかを決定することができる。
画像修正プログラム101は、履歴データベース205と通信することがさらにできる。履歴データベース205は、各オブジェクト103の選択データまたはタグ・リスト109からのオブジェクト・タグ106を記憶することができる。ここで、画像修正プログラム101は、履歴データベース205と通信して、履歴データベース205中に記憶された同様のまたは同一のオブジェクトの、ユーザ200の選択または非選択に基づいて、1つまたは複数のオブジェクト103を画像102中で遮蔽するべきかどうかを決定することができる。
一般的に、本発明の実施形態は、ネットワーク202、ユーザ・デバイス201、またはサーバ203などの離れた場所を含む1つまたは複数の環境に画像102を転送することができる。ここで、画像処理110またはテキスト処理111が完了すると、ユーザ200が、画像102を保存する、または他の人々と共有することを望む場合がある。より詳細には、画像修正プログラム101は、画像102を保存することまたは共有することに関する1つまたは複数のサービスを実行できるサーバ203などの離れた場所に、画像102を転送することができる。たとえば、サーバ203は、ソーシャル・ネットワーキング・サービス(「SNS」)、電子メール送達サービス、ウェブサイト作成サービス、ファイル転送サービス、データ記憶サービス、印刷サービス、または写真アルバム作成サービスを実行することができる。
図3は、本発明の少なくとも1つの実施形態に従う画像修正プログラムのための動作ステップを描くフローチャート図である。描かれる実施形態によれば、ステップ300において、画像修正プログラム101は、画像102を受信することができる。たとえば、画像102は、写真またはスキャンした画像などの、任意のデジタル的にキャプチャした画像であってよい。画像102は、1つまたは複数のオブジェクト103および1つまたは複数のテキスト部分104を含むことができる。より詳細には、1つまたは複数のオブジェクト103は、画像102内の任意の物理的なオブジェクトならびに1つまたは複数のオブジェクト・タグ106などのメタデータを含むことができる。1つまたは複数のテキスト部分104は、キャプションなどの画像102に関連する任意の既存のテキストならびに1つまたは複数のテキスト・タグ107などのメタデータを含むことができる。
ステップ301において、画像修正プログラム101は、画像102の1つまたは複数のオブジェクト103を識別することができる。オブジェクト103は、建造物、人、樹木、川もしくは車などの物理的なオブジェクトに対応する画像102の任意の部分、顔、手、もしくは庭園の花、もしくは車のタイヤなどの物理的なオブジェクトの部分に対応する画像102の任意の部分、桜の花、交通渋滞などの物理的なオブジェクトの組に対応する画像102の部分、またはより一般的に、任意の視覚的に観察できる現象に対応する画像102の部分であってよい。1つまたは複数のオブジェクト103は、エッジ検出などの任意の一般的に知られている識別法によって、画像102から識別することができる。
ステップ302において、画像修正プログラム101は、識別された1つまたは複数のオブジェクト103の各々について、オブジェクト・タグ106を抽出することができる。各オブジェクト・タグ106は、タグ・リスト109の中に一緒に表示することができる。オブジェクト・タグ106は、画像認識などの任意の一般的に知られているタグ抽出法によって、1つまたは複数のオブジェクト103から抽出することができる。ここで、画像認識を行い、たとえば、実際の世界において、1つまたは複数のオブジェクト103がどんな物理的なオブジェクトまたは物理的なオブジェクトの範疇に対応するのかを決定することができる。さらに、画像認識は、外見ベースの方法または特徴ベースの方法など、任意の一般的に知られている認識法に基づいてよい。
より詳細には、オブジェクト・タグ106は、オブジェクトもしくはオブジェクトのタイプを記述または示す言葉もしくは語句を表すメタデータの形であってよい。たとえば、「建造物」を表すオブジェクト・タグ106が画像102のオブジェクト103から抽出される場合、オブジェクト・タグ「建造物」が画像102から抽出されたと単純に想定することができる。オブジェクト・タグ106は、オブジェクトまたはオブジェクトのタイプに与えられる名前であってもよい。加えて、オブジェクト・タグ106は、オブジェクト・タグ106が対応するオブジェクト103についての情報を含むことができる。たとえば、「建造物」というオブジェクト・タグが画像102のオブジェクト103から抽出される場合、オブジェクト・タグ106は、(x、y)座標など、画像102の中の1つまたは複数の建造物の位置についての情報を含有することができる。同様に、「建造物」というオブジェクト・タグが、建造物の形状またはサイズについての情報を含むことができる。さらに、オブジェクト・タグ106を、抽象化の上位レベルなど、異なる抽象化の程度で割り当てることができる。たとえば、「樹木」というオブジェクト・タグを、「桜の花」というオブジェクトに対応して抽出することができ、「水」というオブジェクト・タグを、「川」というオブジェクトに対応して抽出することができる。
ステップ303において、画像修正プログラム101は、1つまたは複数のテキスト部分104の各々について、テキスト・タグ107を抽出することができる。テキスト・タグ107は、自然言語処理(「NLP」)などの、任意の一般的に知られているテキスト抽出法によって抽出することができる。たとえば、画像修正プログラム101は、任意の知られている形態素解析法を使用して、文を複数の言葉に分離することができる。画像修正プログラム101は、次いで、任意の一般的に知られている構文解析法を使用して、分離された言葉または言葉のグループの各々に品詞を割り当てることができる。画像修正プログラム101は、名詞である、1つまたは複数の分離された言葉または言葉のグループをさらに選択し、たとえば、単純に言葉または言葉のグループをテキスト・タグ107として使用することによって、各言葉または言葉のグループについてテキスト・タグ107を生成することができる。あるいは、たとえば、言葉または言葉のグループを識別する総称的な名前を割り当てることによって、言葉または言葉のグループについてテキスト・タグ107を生成することができる。
より詳細には、テキスト・タグ107は、言葉もしくは語句を表す、またはさもなければ1つまたは複数のテキスト部分104に対応する言葉もしくは語句を表すメタデータの形であってよい。さらに、テキスト・タグ107は、1つもしくは複数のテキスト部分104の同義語である言葉もしくは語句を表してもよく、または1つもしくは複数のテキスト部分104よりも大きい普遍性もしくは小さい普遍性を有する概念であってよい。
ステップ304において、画像修正プログラム101は、各テキスト・タグ107について、決定をもたらすために1つまたは複数のオブジェクト103の各々から抽出されたオブジェクト・タグ106に基づいて、テキスト・タグ107が1つまたは複数のオブジェクト103のいずれかを記述するかどうかを決定することができる。テキスト・タグ107が画像102のオブジェクト103を記述するかどうかを決定するために、各テキスト・タグ107を各オブジェクト・タグ106と、逐語的に、意味的に、または概念的に、あるいはそれらの組合せで比較することができる。画像修正プログラム101は、任意の一般的に知られている比較法を使用することができる。たとえば、WordNet(R)などの概念辞書を使用して、テキスト・タグ107の根底にある概念が、オブジェクト・タグ106の根底にある概念と一致するかどうかを決定することができる。テキスト・タグ107が1つまたは複数のオブジェクト103のいずれかを記述すると首尾よく決定するのに応じて、オブジェクト103から抽出されたオブジェクト・タグ106を、タグ・リスト109の中に視覚的強調を行って表示することができる。オブジェクト・タグ106は、オブジェクト・タグ106を太字にすること、斜体にすること、または下線を付けることなどの任意の一般的に知られている手段によって視覚的に強調して表示することができる。
ステップ305において、ステップ304の決定に応じて、画像修正プログラム101は、画像102の1つまたは複数のオブジェクト103のものに画像処理110を行うことができる。画像処理110は、画像102の1つまたは複数のオブジェクト103を修正する、任意の一般的に知られている手段であってよい。たとえば、テキスト・タグ107がオブジェクト・タグ106に一致しない場合、画像修正プログラム101は、オブジェクト103を除去または隠すことによって画像102中のオブジェクト103を遮蔽することができる。別の例では、テキスト・タグ107がオブジェクト・タグ106に一致する場合、画像修正プログラム101は、画像102中のオブジェクト103を強調することができる。画像処理110の他の例としては、画像102のオブジェクト103の周りの境界もしくは形状を描くステップ、または画像102のオブジェクト103を明るくするもしくは強調表示するステップが挙げられる。
ステップ306において、ステップ304の決定に応じて、画像修正プログラム101は、画像102に関連する1つまたは複数のテキスト部分104に対してテキスト処理111を行うことができる。テキスト処理111は、画像102に関連する1つまたは複数のテキスト部分104を修正する、任意の一般的に知られている手段であってよい。たとえば、テキスト・タグ107がオブジェクト・タグ106に一致する場合、画像修正プログラム101は、テキスト・タグ107に対応する1つまたは複数のテキスト部分104を強調表示または太字にすることによって、1つまたは複数のテキスト部分104の書式を変えることができる。前に述べた画像処理110およびテキスト処理111によって、画像102に関連する1つもしくは複数のオブジェクト103または1つもしくは複数のテキスト部分104を閲覧しているユーザ200が、画像102に関連する1つまたは複数のオブジェクト103と1つまたは複数のテキスト部分104の間の関係を容易に理解することが可能になることを諒解されたい。
本発明の別の実施形態では、画像修正プログラム101は、少なくとも1つもしくは複数のオブジェクト103または1つもしくは複数のオブジェクト・タグ106を選択することに応じて、画像102の1つまたは複数のオブジェクト103に画像処理を行うことができる。ここで、オブジェクト103またはオブジェクト・タグ106の選択は、特定のタイプの画像処理110またはテキスト処理111を示すこともできる。さらに、タグ・リスト109からの選択は、示されたタイプの画像処理110またはテキスト処理111の、任意の選択可能なパラメータの値を指定することができる。たとえば、ユーザ200は、マウスの使用によって、画像102のオブジェクト103またはタグ・リスト109からのオブジェクト・タグ106を選択することができる。一度、オブジェクト103またはオブジェクト・タグ106のいずれかが選択されたら、画像修正プログラム101は、ユーザ200に画像処理メニューまたはテキスト処理メニューを提示することができる。
たとえば、画像処理メニューまたはテキスト処理メニューは、その後のメニュー選択部を備える、ポップアップ・ウィンドウまたはパネルの形でユーザ200に表示することができる。ここで、特定のタイプの画像処理110またはテキスト処理111は、ユーザ200による、その後のマウス・クリックまたはキーストロークによって達成することができる。たとえば、特定のタイプの画像処理110またはテキスト処理111は、画像102の1つもしくは複数のオブジェクト103のぼかし処理をすること、または画像処理110またはテキスト処理111に関連する特定のパラメータの値を指定することであってよい。オブジェクト103またはオブジェクト・タグ106の選択は、マウス入力、キーボード入力、タッチ・スクリーン入力、視線追跡入力、音声コマンドまたはジェスチャーなどの、任意の一般的に知られている選択法により達成できることを諒解されたい。
本発明の別の実施形態では、画像修正プログラム101は、オブジェクト・タグ106を選択することに応じて、画像102に関連する1つまたは複数のテキスト部分104に対してテキスト処理111を行うことができる。各オブジェクト・タグ106の選択は、画像102に関連する1つまたは複数のテキスト部分104に対する所望の変化を示すことができる。たとえば、画像102が既存のテキストを含む場合、所望の変化は、既存のテキストを訂正することである場合がある。別の例では、画像102が既存のテキストを含まない場合、所望の変化は、最初からテキストを作成すること、または最初から作成されたテキストを訂正することである場合がある。
本発明の別の実施形態では、画像修正プログラム101は、オブジェクト103を選択することに応じて、画像102に関連する1つまたは複数のテキスト部分104に対してテキスト処理111を行うことができる。たとえば、画像102のオブジェクト103が選択される場合、画像修正プログラムは、オブジェクト103に対応する1つまたは複数のテキスト部分104を生成することができる。
図4は、本発明の少なくとも1つの実施形態に従う画像修正プログラム101の加工例の一部についての例示的な図である。図4において、ユーザ200は、デスクトップ・コンピュータ、または電話などのモバイル・デバイスなどのユーザ・デバイス201を介して、画像修正プログラム101にアクセスすることができる。ユーザ200に、画像102、1つまたは複数のテキスト部分104(「川の近くの桜の花!とても、きれい!」)、およびタグ・リスト109の中の視覚的強調(「桜の花」および「川」)を行って表示される各オブジェクト・タグ106を表示するための領域を含むスクリーンを提示することができる。
図4において、画像修正プログラム101は、決定をもたらすために1つまたは複数のオブジェクト103の各々から抽出されたオブジェクト・タグ106に基づいて、テキスト・タグ107が1つまたは複数のオブジェクト103のいずれかを記述するかどうかを決定することができる。たとえば、画像修正プログラム101は、「花」というオブジェクトの画像認識を実行することにより、画像102から「花」というオブジェクト・タグを抽出することができる。ここで、画像修正プログラム101は、「桜の花」というテキスト・タグが「花」というオブジェクト・タグを記述すると決定することができる。「桜の花」というテキスト・タグが「花」というオブジェクト・タグを記述するので、画像修正プログラム101は、「桜の花」というテキスト・タグおよび「花」というオブジェクト・タグの両方を表すオブジェクト・タグ106を生成することができる。言い換えると、画像修正プログラム101は、たとえば、「桜の花」および「花」というオブジェクト・タグの両方ではなく、「桜の花」というオブジェクト・タグだけといった、単一のタグを生成することができる。
テキスト・タグ107が1つまたは複数のオブジェクト103のいずれかを記述すると首尾よく決定するのに応じて、オブジェクト103から抽出されたオブジェクト・タグ106を、タグ・リスト109の中に視覚的強調を行って表示することができる。図4に見られるように、「桜の花」および「川」というオブジェクト・タグに対し、これらの言葉を太字にして斜体にすることによって、視覚的強調が適用されている。テキスト・タグ107がオブジェクト・タグ106を記述するかどうかを決定することに加えて、画像修正プログラム101は、追加の基準に基づいて視覚的強調を適用するべきかどうかを決定することができる。
画像修正プログラム101は、タグ・リスト109の中の各オブジェクト・タグ106が、画像102の中で焦点が合っているかどうか、さらに決定することができる。ここで、画像修正プログラム101は、各オブジェクト・タグ106に関連する1つまたは複数のオブジェクト103が、画像102の中で焦点が合っているかどうかに基づいて、各オブジェクト・タグ106に視覚的強調を与えるかどうかを決定することができる。1つまたは複数のオブジェクト103が、画像102の中で焦点が合っているかどうかの決定は、画像102の1つまたは複数のオブジェクト103の関連性を決定する追加手段である。
より詳細には、画像修正プログラム101は、画像102中の合焦情報を含有するメタデータを参照することにより、1つまたは複数のオブジェクト103は焦点が合っているかどうかを決定することができる。写真がカメラにより撮られるとき、カメラのレンズは、自動または手動のいずれかで、目標オブジェクト上に合焦するように調節することができる。画像102がキャプチャされた時間における合焦状態は、画像102中の合焦情報としてカメラにより記憶することができる。そのような合焦情報は、たとえば、画像102中の目標オブジェクトの座標の形をとることができる。
図5は、本発明の少なくとも1つの実施形態に従う画像修正プログラム101の加工例の一部についての例示的な図である。図5は、画像102の下部の「トリミング」という画像処理を図5が追加で描くことを除けば、図4と同一である。図5では、各テキスト・タグ107は、「建造物」、「人々」、「遠くの人々」、および「シャツを着ていない人」というオブジェクトを記述しなかったと想定することができる。結果として、画像修正プログラム101は、画像102の不一致オブジェクトを遮蔽したことが分かる。加えて、画像修正プログラム101は、そのようなプロセスが各テキスト・タグ107により記述される1つまたは複数のオブジェクト103のいずれかを同様に除去しない限り、画像102からこれらの1つまたは複数のオブジェクト103をトリミングまたは除去することができる。ここで、画像修正プログラム101は、画像102の中に「雲」および「建造物」というオブジェクトを残した。というのは、トリミングによってそれらを除去すると、記述された「桜の花」および「川」というオブジェクトを同様に除去させることになるからである。
図6は、本発明の少なくとも1つの実施形態に従う画像修正プログラム101の加工例の一部についての例示的な図である。図6は、図6が画像102の下部の「トリミング」の代わりに、1つまたは複数のオブジェクト103のぼかし処理を描くことを除けば、図5と同一である。この方法では、画像修正プログラム101は、テキスト・タグ107により記述される「桜の花」および「川」というオブジェクトを除去することなく、各テキスト・タグ107により記述されない1つまたは複数のオブジェクト103のすべてを除去することができる。
図7は、本発明の少なくとも1つの実施形態に従う画像処理110のための動作ステップを描くフローチャート図である。ステップ700において、画像修正プログラム101は、テキスト・タグ107が1つまたは複数のオブジェクト103のいずれかを記述するかどうかを決定することに応じて、画像102上に画像処理110を行うことができる。テキスト・タグ107がオブジェクト103を記述する場合、オブジェクト103を画像102の中で遮蔽するべきでないことを、最初に想定することができる。一方、テキスト・タグ107がオブジェクト103を記述しない場合、オブジェクト103を画像102の中で遮蔽するべきであることを、最初に想定することができる。
ステップ701において、画像修正プログラム101は、オブジェクト103が画像102中で焦点が合っているかどうかに基づいて、画像102上で画像処理110を行うこともできる。たとえば、画像修正プログラム101は、画像102中の合焦情報を含有するメタデータを参照することができる。オブジェクト103が画像102の中で焦点が合っている場合、オブジェクト103を遮蔽するべきでないことを、最初に想定することができる。一方、オブジェクト103が画像102の中で焦点が合っていない場合、オブジェクト103を遮蔽するべきであることを、最初に想定することができる。
ステップ702において、テキスト・タグ107によりオブジェクト103を記述することができ、オブジェクト103の焦点が合っているにもかかわらず、画像修正プログラム101は、ユーザ200がオブジェクト103またはオブジェクト・タグ106を選択したかどうかを決定し、それによって、画像修正プログラム101に、画像102のオブジェクト103の遮蔽を実行することを示すことができる。オブジェクト103またはオブジェクト・タグ106を選択することによって、デフォルトでは、ユーザ200による選択が、画像102の中のオブジェクト103を「オフ」にするように、オブジェクト103を画像102の中で遮蔽するべきであることを示すことができる。あるいは、オブジェクト103またはオブジェクト・タグ106を選択することによって、デフォルトでは、ユーザ200による選択が、画像102の中のオブジェクト103を「オン」にするように、オブジェクト103を画像102の中で遮蔽するべきでないことを示すことができる。いずれの場合でも、オブジェクト103を遮蔽するべきか遮蔽しないべきかは、ユーザ200によって、オブジェクト103またはオブジェクト・タグ106を選択することにより、具体的に指定することができる。
ステップ703において、検討中のオブジェクト103が、テキスト・タグ107により記載されず、画像102の中で焦点が合ってもいないことを想定することができる。したがって、最初の想定は、画像修正プログラム101がオブジェクト103を遮蔽するべきであるということであってよい。しかし、オブジェクト103を遮蔽する前に、画像修正プログラム101は、オブジェクト・データベース204中に記憶されるオブジェクト103についての文脈上の情報、または履歴データベース205中に記憶される選択データをさらに参照することができる。より詳細には、オブジェクト103についての文脈上の情報は、ユーザ200がオブジェクト103を遮蔽しそうかどうかを示すことができ、選択データは、ユーザ200が、同様または同一のオブジェクトを典型的には遮蔽してきたかどうかを示すことができる。
たとえば、人々の顔についての文脈上の情報は、匿名の人々のプライバシーを保護するために、ユーザ200が、人々の顔を遮蔽するであろうと示すことができる。したがって、ユーザ200の友人と認識されない顔を画像102が含有する場合、画像修正プログラム101は、そのような文脈上の情報を基準として、顔を遮蔽するべきであると決定することができる。一方、ユーザ200の友人の場合には、ユーザ200が典型的にはある種の顔を遮蔽しないことを選択データが示すことができる。したがって、文脈上の情報および選択データを基準として、画像修正プログラム101は、ある種の知っている顔を遮蔽するべきでなく、一方他の知らない顔を遮蔽するべきであると決定することができる。
ステップ704において、文脈上の情報または選択データを考慮すると、画像修正プログラム101は、1つまたは複数のユーザ設定に基づいて、オブジェクト103を遮蔽するべきであるかどうかを決定することができる。たとえば、画像修正プログラム101は、ユーザ200がオブジェクト103を遮蔽するであろうと文脈上の情報が示す場合またはユーザ200が典型的には同様のまたは同一のオブジェクトを遮蔽すると選択データが示す場合のいずれかの場合で、オブジェクト103を遮蔽するべきであると決定するように構成することができる。別の例では、画像修正プログラム101は、ユーザ200がオブジェクト103を遮蔽しないであろうと文脈上の情報が示すことができず、ユーザ200が典型的には同様のまたは同一のオブジェクトを遮蔽すると選択データが示すことができない場合に、オブジェクト103を遮蔽するべきであると決定するように構成することができる。ここで、画像修正プログラム101は、何らかの例外的な状況でなければ、テキスト・タグ107により記述されず、焦点が合っていないオブジェクト103を遮蔽することができる。
他の設定では、画像修正プログラム101は、文脈上の情報または選択データのいずれかを考慮することによって、オブジェクト103を遮蔽するべきであるかどうかを決定することができる。ここで、オブジェクト103を遮蔽するべきであると文脈上の情報または選択データが示す場合、最初の想定が当てはまり、オブジェクト103を画像102中で遮蔽する。そうでない場合、オブジェクト103を遮蔽しない。
図7から分かるように、画像修正プログラム101は、テキスト・タグ107がオブジェクト103を記述するかどうかを決定することに応じて、オブジェクト103を遮蔽するかどうかを決定するように構成することができる。画像修正プログラム101は、ユーザ200がオブジェクト103またはオブジェクト・タグ106を選択したか選択しなかったかを基準として、オブジェクト103を遮蔽するべきであるかどうかを決定するようにも構成することができる。さらに、画像修正プログラム101は、オブジェクト・データベース204の中に記憶されるオブジェクト103についての文脈上の情報または履歴データベース205の中に記憶される選択データのいずれかを考慮することによって、オブジェクト103を遮蔽するべきであるかどうかを決定するように構成することができる。画像修正プログラム101が任意の数の前に述べた設定を含むことができることを諒解されたい。したがって、これらの設定のいずれかが、ユーザ200に対するオブジェクト103の関連性の表示を与えるので、画像修正プログラム101は、1つまたは複数のテキスト部分104に関連した、画像102を編集することに関するユーザ200の意図を遂行することができる。
図8は、本発明の少なくとも1つの実施形態に従う画像修正プログラム101の加工例の一部についての例示的な図である。図8では、画像修正プログラム101は、記述されないオブジェクトから、「人々」および「シャツを着ていない人」というオブジェクトを遮蔽するべきであると決定した。一方、画像修正プログラム101は、「雲」、「建造物」、および「遠くの人々」というオブジェクトを遮蔽するべきでないと決定した。
「雲」および「建造物」というオブジェクトを遮蔽しないという決定は、画像修正プログラム101が各オブジェクト103についての文脈上の情報を参照できる方法を説明する。上で前に説明したように、文脈上の情報は、人々のグループ(たとえば、すべての人々)によってオブジェクト103に添付される意味または文脈を含むことができ、ユーザ200がオブジェクト103を遮蔽しそうかどうかを示すことができる。「雲」および「建造物」というオブジェクトの場合には、典型的には、ユーザ200の画像102の中でこれらのオブジェクト103を遮蔽しない場合である可能性がある。「雲」は美しいと考えることができ、多くの画像102の背景の重要な部分であると考察することができる。「建造物」は、画像102の場所を規定する働きをすることができる。さらに、それらは動かないので、「建造物」が、画像102の意図された主題の邪魔をすると見なされることは、めったにない可能性がある。そのような考察に起因して、画像修正プログラム101は、文脈上の情報を基準として、ユーザ200が「雲」または「建造物」というオブジェクトを遮蔽しないであろうと決定した。
一方、「遠くの人々」というオブジェクトを遮蔽しない決定は、画像修正プログラム101が、オブジェクト103またはオブジェクト・タグ106の、ユーザ200の過去の選択の履歴データベース205から、選択データを参照できる方法を説明する。履歴データベース205は、ユーザ200が過去において「遠くの人々」と同一の、または同様の選択を行ったか、または過去において「遠くの人々」と同一の、または同様の選択を行わなかったかのいずれかを示す1つまたは複数のエントリーを有することができる。ここで、画像修正プログラム101は、選択データを基準として、ユーザ200が典型的には「遠くの人々」というオブジェクトを遮蔽しないことを決定した。
図9は、本発明の少なくとも1つの実施形態に従う画像修正プログラム101の加工例の一部についての例示的な図である。図9において、ユーザ200は、「シャツを着ていない人」というオブジェクト・タグを、タグ・リスト109の中で、オブジェクト・タグの上をクリックすることによって選択した。「シャツを着ていない人」というオブジェクト・タグを選択することにより、ユーザ200は、画像102中の「シャツを着ていない人」というオブジェクトのぼかし処理をすることによって遮蔽することを画像修正プログラム101が実行するべきであることを示した。ここで、「シャツを着ていない人」というオブジェクト・タグを選択することによって、画像102の中の対応するオブジェクト103を単純にオフにする(すなわち、遮蔽する)ように、ぼかし処理によって遮蔽する指定がデフォルトにされている。
図10は、本発明の少なくとも1つの実施形態に従う画像修正プログラム101のための動作ステップを描くフローチャート図である。ステップ1000において、画像修正プログラム101は、画像102を受信することができる。画像102は、1つまたは複数のオブジェクト103および1つまたは複数のテキスト部分104を含むことができる。ステップ1001において、画像修正プログラム101は、画像102の1つまたは複数のオブジェクト103を識別することができる。ステップ1002において、ユーザ200は、画像102の中で識別された1つまたは複数のオブジェクト103を選択することができる。ステップ1003において、ユーザ200は、タグ・リスト109から1つまたは複数のオブジェクト・タグ106を選択することができる。
ステップ1004において、画像修正プログラム101は、テキスト処理を行うことができ、ここでテキスト処理は、1つまたは複数のオブジェクト103または1つまたは複数のオブジェクト・タグ106から、少なくとも1つのユーザ選択に基づいてテキストを生成するステップを含むことができる。テキストは、任意の一般的に知られている発見的方法またはメッセージ・テンプレートを使用して生成することができる。たとえば、画像修正プログラム101は、画像102の中のオブジェクト103の選択を基準として、オブジェクト103に関連するテキストを生成することができる。画像102のオブジェクト103を選択することによって、画像修正プログラム101が特定の雰囲気のテキストを生成するように、さらに指示することができる。たとえば、画像102のオブジェクト103を選択することによって、生成されるテキストのための異なる書式オプションを含むドロップ・ダウン・メニューからさらなる選択をするようにユーザ200を促すことができる。
加えて、1つまたは複数のオブジェクト103または1つまたは複数のオブジェクト・タグ106からのユーザ選択は、選択順序に基づいて、各オブジェクト103に対する品詞の割当てを示すことができる。たとえば、オブジェクト103がテキストの文法的主語として働くべきであり、一方別のオブジェクト103が直接目的語として働くべきであるように指定することをユーザ200が望む場合がある。ここで、画像修正プログラム101は、ユーザ200の意図をより正確に反映するようにテキストを生成することができる。たとえば、ユーザ200が、タグ・リスト109から一連のオブジェクト・タグ106の選択を行う場合に、選択される各オブジェクト・タグ106の順序によって、各オブジェクト103に対応して生成されるべきテキストの各部に対する品詞の割当てを決定することができる。同様に、ユーザ200が、画像102の中のオブジェクト103を囲む一連の可視領域の選択を行う場合に、選択される各オブジェクト103の順序によって、選択される各オブジェクト103に対応して生成されるべきテキストの各部に対する品詞の割当てを決定することができる。
さらに、画像修正プログラム101は、画像102の1つもしくは複数のオブジェクト103についての、位置、サイズまたは文脈上の情報に基づいてテキストを生成することができる。たとえば、1つまたは複数のオブジェクト103が選択される場合、そのうちのいくつかは互いに近接しており、画像修正プログラム101は、互いに近接しているそれらのオブジェクト103に「近い」という言葉を関連付けることができる。
同様に、オブジェクト・データベース204中に記憶される文脈上の情報は、上に説明されたようにオブジェクト103に添付される意味または文脈を含むことができ、これも、画像修正プログラム101が考慮に入れることができる。たとえば、「樹木」というオブジェクトについての文脈上の情報は、その典型的なサイズについての情報を含むことができる。そのような情報を用いて、画像102中の「樹木」のサイズについての情報と組み合わせて、画像修正プログラム101は、「大きい」という言葉を「樹木」という言葉と関連付けることができる。
図11は、本発明の少なくとも1つの実施形態に従う画像修正プログラム101の加工例の一部についての例示的な図である。図11において、画像102、1つまたは複数のテキスト部分104(「人々が川の近くで花を見る」)、およびタグ・リスト109を見ることができる。ここで、ユーザ200は、タグ・リスト109から「川」、「花」、および「人々」というオブジェクト・タグを選択した。さらに、ユーザ200は、「人々」が、生成されるべきテキストの文法的主語として働くべきであることを示した。たとえば、ユーザ200は、マウスで、最初に「人々」というオブジェクト・タグを、その後、任意の後続する順序で、「川」および「花」というオブジェクト・タグをクリックした可能性がある。ユーザ200による選択順序に基づいて、画像修正プログラム101は、「人々」を文法的主語として割り当てることに従って、「人々が川の近くで花を見る」というテキストを生成した。
図12は、本発明の少なくとも1つの実施形態に従う画像修正プログラム101の加工例の一部についての例示的な図である。図12において、タグ・リスト109は描かれず、画像修正プログラム101によって識別されたオブジェクト103の各々の周りに枠が引かれた。ここで、ユーザ200は、一連の選択を通して、画像102の中の「川」、「花」、および「人々」というオブジェクトを選択した。さらに、ユーザ200は、「人々」が、生成されるべきテキストの文法的主語として働くべきであることを示した。たとえば、ユーザ200は、マウスで、最初に「人々」というオブジェクトを囲む枠、その後、任意の後続する順序で、「川」および「花」というオブジェクトを囲む枠をクリックした可能性がある。ユーザ200による選択順序に基づいて、画像修正プログラム101は、「人々」を文法的主語として割り当てることに従って、「人々が川の近くで花を見る」というテキストを生成した。
ここで、図11および図12の両方を参照して、画像修正プログラム101は、選択されたオブジェクトの位置、選択されたオブジェクトのサイズ、またはオブジェクト・データベース204中に記憶された選択されたオブジェクトについての文脈上の情報に基づいて、「見る」および「近い」という言葉を生成した可能性がある。たとえば、「川」というオブジェクトへの「人々」というオブジェクトの「近接度」は、オブジェクト103の位置またはサイズから導かれる近接情報に基づいて、画像修正プログラム101によって生成された可能性がある。同様に、「見る」という動詞は、「花」または「人々」についての文脈上の情報に基づいて、画像修正プログラム101によって生成された可能性がある。そのようなオブジェクト103についての文脈上の情報は、ユーザ200が、「人々」と「花」の間に「見る」という動詞を含むことが多いことを示すことができる。
図13は、本発明の少なくとも1つの実施形態に従う画像修正プログラム101を実行するのに好適なコンピュータ1300のブロック図である。図13は、コンピュータ1300、(1つまたは複数のコンピュータ・プロセッサを含む)1つまたは複数のプロセッサ1304、通信機構1302、メモリ1306、RAM、キャッシュ1318、持続的記憶装置1308、通信ユニット1312、I/Oインターフェイス1314、ディスプレイ1322、および外部デバイス1320を表示する。図13は、一実施形態の説明だけを提供し、異なる実施形態が実装され得る環境に関して、何ら制限することを意図していないことを諒解されたい。描かれた環境に対し、多くの変更を行うことができる。
描かれるように、コンピュータ1300は、プロセッサ1304、メモリ1306、持続的記憶装置1308、通信ユニット1312、およびI/Oインターフェイス1314の間に通信を実現する、通信機構1302を介して動作する。通信機構1302は、プロセッサ1304(たとえば、マイクロプロセッサ、通信プロセッサ、およびネットワーク・プロセッサ)、メモリ1306、外部デバイス1320、およびシステム内の任意の他のハードウェア構成要素の間で、データまたは制御情報を渡すために好適な任意のアーキテクチャで実装することができる。たとえば、通信機構1302は、1つまたは複数のバスで実装することができる。
メモリ1306および持続的記憶装置1308は、コンピュータ可読記憶媒体である。描かれる実施形態では、メモリ1306は、ランダム・アクセス・メモリ(RAM)およびキャッシュ1318を備える。一般的に、メモリ1306は、任意の好適な、揮発性または不揮発性の、1つまたは複数のコンピュータ可読記憶媒体を備えることができる。
画像修正プログラム101のためのプログラム命令は、メモリ1306の1つまたは複数のメモリを介して、それぞれのプロセッサ1304のうちの1つまたは複数が実行するために、持続的記憶装置1308、またはより一般的には、任意のコンピュータ可読記憶媒体の中に記憶することができる。持続的記憶装置1308は、磁気ハード・ディスク・ドライブ、固体ディスク・ドライブ、半導体記憶デバイス、読取り専用メモリ(ROM)、電気的消去可能プログラム可能読取り専用メモリ(EEPROM)、フラッシュ・メモリ、またはプログラム命令もしくはデジタル情報を記憶することが可能な、任意の他のコンピュータ可読記憶媒体であってよい。
持続的記憶装置1308により使用される媒体は、取外し可能であってもよい。たとえば、取外し可能ハード・ドライブを、持続的記憶装置1308のために使用することができる。他の例としては、やはり持続的記憶装置1308の部分である別のコンピュータ可読記憶媒体上に転送するためドライブの中に挿入される、光学的および磁気的ディスク、サム・ドライブ、およびスマート・カードが挙げられる。
これらの例では、通信ユニット1312が他のデータ処理システムまたはデバイスとの通信を実現する。これらの例では、通信ユニット1312は、1つまたは複数のネットワーク・インターフェイス・カードを備えることができる。通信ユニット1312は、物理的な通信リンクまたはワイヤレス通信リンクあるいはその両方の使用を介して通信を実現することができる。本発明のいくつかの実施形態の文脈では、入力データを受信でき、出力が同様に通信ユニット1312を介して送信できるように、様々な入力データの発生源は、コンピュータ1300と物理的に離れていてよい。
I/Oインターフェイス1314は、コンピュータ1300と一緒に動作できる他のデバイスとのデータの入出力を可能にする。たとえば、I/Oインターフェイス1314は、キーボード、キーパッド、タッチ・スクリーン、または他の好適な入力デバイスなどであってよい、外部デバイス1320との接続を実現することができる。外部デバイス1320としては、たとえばサム・ドライブ、携帯型光学または磁気ディスク、およびメモリ・カードといった、携帯型のコンピュータ可読記憶媒体も挙げられる。本発明の実施形態を実施するために使用されるソフトウェアおよびデータは、そのような携帯型のコンピュータ可読記憶媒体上に記憶することができ、I/Oインターフェイス1314を介して持続的記憶装置1308上にロードすることができる。I/Oインターフェイス1314は、同様に、ディスプレイ1322に接続することができる。ディスプレイ1322は、ユーザにデータを表示するための機構を提供し、たとえば、コンピュータ・モニタであってよい。
本発明は、システム、方法、またはコンピュータ・プログラム製品、あるいはそれらの組合せであってよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるため、コンピュータ可読プログラム命令を有する、1つまたは複数のコンピュータ可読記憶媒体を含むことができる。
コンピュータ可読記憶媒体は、命令実行デバイスにより使用するための命令を保持および記憶できる有形のデバイスであってよい。コンピュータ可読記憶媒体は、たとえば、限定するものではないが、電子的記憶デバイス、磁気的記憶デバイス、光学的記憶デバイス、電磁的記憶デバイス、半導体記憶デバイス、または上記の任意の好適な組合せであってよい。コンピュータ可読記憶媒体のより具体的な例の、網羅的でないリストは以下、すなわち、携帯型コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読取り専用メモリ(ROM)、消去可能プログラム可能読取り専用メモリ(EPROMまたはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、携帯型コンパクト・ディスク読取り専用メモリ(CD−ROM)、デジタル多用途ディスク(DVD)、メモリ・スティック、フロッピー(R)・ディスク、命令を記録させたパンチカードまたは溝の中の隆起構造などの機械的に符号化されたデバイス、あるいは上記の任意の好適な組合せを含む。本明細書で使用するコンピュータ可読記憶媒体は、電波もしくは他の自由に伝播する電磁波、導波路もしくは他の伝送媒体を通って伝播する電磁波(たとえば、光ファイバ・ケーブルを通過する光パルス)、またはワイヤを通って伝送される電気信号など、一時的な信号自体であると解釈されるべきでない。
本明細書で記載されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスに、またはたとえば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、またはワイヤレス・ネットワーク、あるいはそれらの組合せといったネットワークを介して、外部コンピュータまたは外部記憶デバイスにダウンロードすることができる。ネットワークは、銅製伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはそれらの組合せを含むことができる。各コンピューティング/処理デバイス中のネットワーク・アダプタ・カードまたはネットワーク・インターフェイスは、ネットワークから、コンピュータ可読プログラム命令を受け取り、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体中で記憶するため、コンピュータ可読プログラム命令を転送する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、Smalltalk(R)、C++などのオブジェクト指向プログラミング言語、および「C」プログラミング言語または同様のプログラミング言語などの従来の手続き型プログラミング言語を含む、1つまたは複数のプログラミング言語の任意の組合せで書かれる、アセンブラ命令、インストラクション・セット・アーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはソース・コードもしくはオブジェクト・コードであってよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、スタンドアロン・ソフトウェア・パッケージとして部分的にユーザのコンピュータ上で、部分的にはユーザのコンピュータ上でおよび部分的にはリモート・コンピュータ上で、または完全にリモート・コンピュータもしくはサーバ上で実行することができる。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)もしくはワイド・エリア・ネットワーク(WAN)を含む、任意のタイプのネットワークを通してユーザのコンピュータに接続することができ、または、外部コンピュータに(たとえば、インターネット・サービス・プロバイダを使用してインターネットを通して)接続をすることができる。いくつかの実施形態では、本発明の態様を実施するために、たとえば、プログラム可能論理回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル・ロジック・アレイ(PLA)を含む電子回路が、電子回路を個別化するため、コンピュータ可読プログラム命令の状態情報を利用することによりコンピュータ可読プログラム命令を実行することができる。
本発明の態様は、本発明の実施形態に従う、方法、装置(システム)およびコンピュータ・プログラム製品の、フローチャート図またはブロック図あるいはその両方を参照して本明細書で記載される。フローチャート図またはブロック図あるいはその両方の各ブロック、およびフローチャート図またはブロック図あるいはその両方中のブロックの組合せは、コンピュータ可読プログラム命令により実装することが可能であることが理解されよう。
これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラム可能データ処理装置のプロセッサを介して実行する命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロック中で指定される機能/動作を実装するための手段を生み出すように、汎用コンピュータ、専用コンピュータ、または他のプログラム可能データ処理装置のプロセッサに提供されてマシンを作り出すものであってよい。これらのコンピュータ可読プログラム命令は、命令を記憶させたコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロック中で指定される機能/動作の態様を実装する命令を含む製造品を含むように、可読記憶媒体中に記憶され、コンピュータ、プログラム可能データ処理装置、または他のデバイス、あるいはそれらの組合せに特定の方法で機能するように指示することができるものであってもよい。
コンピュータ可読プログラム命令は、コンピュータ、他のプログラム可能装置、または他のデバイス上で実行する命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロック中で指定される機能/動作を実装するように、コンピュータ実装されたプロセスを作り出すべく、コンピュータ、他のプログラム可能データ処理装置、または他のデバイス上にロードされて、コンピュータ、他のプログラム可能装置、または他のデバイス上で一連の動作ステップを実行させるものであってもよい。
図中のフローチャートおよびブロック図は、本発明の様々な実施形態に従うシステム、方法、およびコンピュータ・プログラム製品の可能な実装の、アーキテクチャ、機能性、および動作を図示する。この点に関連し、フローチャートまたはブロック図中の各ブロックは、指定された論理的機能を実装するための1つまたは複数の実行可能命令を含む、モジュール、セグメント、またはコンピュータ・プログラム命令の部分を表すことができる。いくつかの代替実装形態において、ブロック内に言及される機能は、図中で言及される順序から外れて生じる場合がある。たとえば、含まれる機能性に依存して、連続して示される2つのブロックを、実際には、実質的に同時に実行することができ、またはブロックを、場合によって逆の順序で実行することができる。ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方中のブロックの組合せは、指定される機能もしくは動作を実行する専用ハードウェアベースのシステムにより実装でき、または専用ハードウェアとコンピュータ命令の組合せにより実行できることも留意されよう。
本発明の様々な実施形態の記載は、説明のために提示されたが、網羅的であること、または、開示された実施形態に限定することを意図していない。記載された実施形態の範囲および思想から逸脱することなく、多くの変更形態および変形形態が、当業者には明らかになるであろう。本明細書に使用される用語は、実施形態の原理、市場で見いだされる技術への実践的な適用または技術的な改良を最良に説明するため、または当業者が本明細書に開示される実施形態を理解することを可能にするために選択された。
100 コンピュータ・システム
101 画像修正プログラム
102 画像
103 オブジェクト
104 テキスト部分
106 オブジェクト・タグ
107 テキスト・タグ
109 タグ・リスト
110 画像処理
111 テキスト処理
200 ユーザ
201 ユーザ・デバイス
202 ネットワーク
203 サーバ
204 オブジェクト・データベース
205 履歴データベース
1300 コンピュータ
1302 通信機構
1304 プロセッサ
1306 メモリ
1308 持続的記憶装置
1312 通信ユニット
1314 I/Oインターフェイス
1318 キャッシュ
1320 外部デバイス
1322 ディスプレイ

Claims (11)

  1. コンピュータ実装される方法であって、
    画像を受信するステップであって、前記画像が1つまたは複数のオブジェクトを含み、さらに、1つまたは複数のテキスト部分に関連している、前記受信するステップと、
    前記画像の前記1つまたは複数のオブジェクトを識別するステップと、
    識別された前記1つまたは複数のオブジェクトの各々について、オブジェクト・タグを抽出するステップと、
    前記1つまたは複数のテキスト部分の各々について、テキスト・タグを抽出するステップと、
    各前記テキスト・タグについて、
    決定をもたらすために前記1つまたは複数のオブジェクトの各々から抽出された前記オブジェクト・タグに基づいて、前記テキスト・タグが前記1つまたは複数のオブジェクトのいずれかを記述するかどうかを決定するステップと、
    前記決定に応じて、
    前記画像に対し、前記画像において前記1つまたは複数のオブジェクトのうちの前記テキスト・タグが記述しないと決定された少なくとも1つを遮蔽する画像処理を行うステップと、
    前記1つまたは複数のテキスト部分のものにテキスト処理を行うステップと
    を含む、方法。
  2. 前記画像に対し画像処理を行うステップが、前記オブジェクトまたは前記オブジェクト・タグのうちの少なくとも1つを選択することに応じる、請求項1に記載のコンピュータ実装される方法。
  3. 前記画像に関連する前記1つまたは複数のテキスト部分にテキスト処理を行うステップが、前記オブジェクトまたは前記オブジェクト・タグのうちの少なくとも1つを選択することに応じる、請求項1または2に記載のコンピュータ実装される方法。
  4. 前記画像に対し画像処理を行うステップが、前記画像の前記1つまたは複数のオブジェクトの文脈上の情報に基づく、請求項1〜3のいずれか1項に記載のコンピュータ実装される方法。
  5. 前記画像に対し画像処理を行うステップが、各前記オブジェクトまたは各前記オブジェクト・タグの選択データに基づく、請求項1〜4のいずれか1項に記載のコンピュータ実装される方法。
  6. コンピュータ実装される方法であって、
    画像を受信するステップであって、前記画像が、1つまたは複数のオブジェクトを含み、さらに、1つまたは複数のテキスト部分に関連している、前記受信するステップと、
    前記画像の前記1つまたは複数のオブジェクトを識別するステップと、
    識別された前記1つまたは複数のオブジェクトの各々について、オブジェクト・タグを抽出するステップと、
    前記1つまたは複数のテキスト部分の各々について、テキスト・タグを抽出するステップと、
    各前記テキスト・タグについて、
    決定をもたらすために前記1つまたは複数のオブジェクトの各々から抽出された前記オブジェクト・タグに基づいて、前記テキスト・タグが前記1つまたは複数のオブジェクトのいずれかを記述するかどうかを決定するステップと、
    前記決定に応じて、
    前記1つまたは複数のオブジェクトのものに画像処理を行うステップと、
    前記1つまたは複数のテキスト部分のものにテキスト処理を行うステップと
    を含み、各前記オブジェクト・タグがタグ・リストの中に表示され、前記テキスト・タグが前記1つまたは複数のオブジェクトのいずれかを記述することを首尾よく決定することに応じて、前記オブジェクトから抽出された前記オブジェクト・タグが前記タグ・リストの中で視覚的強調を行って表示される方法。
  7. コンピュータ実装される方法であって、
    画像を受信するステップであって、前記画像が、1つまたは複数のオブジェクトを含み、さらに、1つまたは複数のテキスト部分に関連している、前記受信するステップと、
    前記画像の前記1つまたは複数のオブジェクトを識別するステップと、
    識別された前記1つまたは複数のオブジェクトの各々について、オブジェクト・タグを抽出するステップと、
    前記1つまたは複数のテキスト部分の各々について、テキスト・タグを抽出するステップと、
    各前記テキスト・タグについて、
    決定をもたらすために前記1つまたは複数のオブジェクトの各々から抽出された前記オブジェクト・タグに基づいて、前記テキスト・タグが前記1つまたは複数のオブジェクトのいずれかを記述するかどうかを決定するステップと、
    前記決定に応じて、
    前記1つまたは複数のオブジェクトのものに画像処理を行うステップと、
    前記1つまたは複数のテキスト部分のものにテキスト処理を行うステップと
    を含み、前記テキスト処理が、前記1つもしくは複数のオブジェクトまたは前記1つもしくは複数のオブジェクト・タグからの少なくとも1つのユーザ選択に基づいてテキストを生成するステップを含み、前記ユーザ選択が、選択順序に基づく各前記オブジェクトに対する品詞の割当てを示す方法。
  8. 請求項1〜の何れか1項に記載の方法の各ステップをコンピュータに実行させる、コンピュータ・プログラム。
  9. 請求項に記載の前記コンピュータ・プログラムを、コンピュータ可読記憶媒体に記録した、コンピュータ可読記憶媒体。
  10. 請求項1〜の何れか1項に記載の方法の各ステップを、コンピュータ・ハードウェアによる手段として構成した、コンピュータ・システム。
  11. コンピュータ実装される方法であって、
    画像を受信するステップであって、前記画像が1つまたは複数のオブジェクトを含む、前記受信するステップと、
    前記画像の前記1つまたは複数のオブジェクトを識別するステップと、
    前記画像に関連してテキスト処理を行うステップと
    を含み、前記テキスト処理が、前記1つまたは複数のオブジェクトからの少なくとも1つのユーザ選択に基づいてテキストを生成するステップを含み、前記ユーザ選択が、選択順序に基づく各前記オブジェクトに対する品詞の割当てを少なくとも部分的に示す、方法。
JP2016185368A 2015-09-29 2016-09-23 画像および関連するテキストを処理するためのコンピュータ実装される方法、コンピュータ・プログラム製品、ならびにコンピュータ・システム Active JP6771259B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/868,726 US9984100B2 (en) 2015-09-29 2015-09-29 Modification of images and associated text
US14/868726 2015-09-29

Publications (2)

Publication Number Publication Date
JP2017068841A JP2017068841A (ja) 2017-04-06
JP6771259B2 true JP6771259B2 (ja) 2020-10-21

Family

ID=58409602

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016185368A Active JP6771259B2 (ja) 2015-09-29 2016-09-23 画像および関連するテキストを処理するためのコンピュータ実装される方法、コンピュータ・プログラム製品、ならびにコンピュータ・システム

Country Status (2)

Country Link
US (2) US9984100B2 (ja)
JP (1) JP6771259B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106549793B (zh) * 2015-09-23 2020-08-07 华为技术有限公司 流量控制方法及设备
US9984100B2 (en) 2015-09-29 2018-05-29 International Business Machines Corporation Modification of images and associated text
US11029836B2 (en) * 2016-03-25 2021-06-08 Microsoft Technology Licensing, Llc Cross-platform interactivity architecture
CN108259315A (zh) * 2017-01-16 2018-07-06 广州市动景计算机科技有限公司 在线图片分享方法、设备、客户端及电子设备
US10679669B2 (en) * 2017-01-18 2020-06-09 Microsoft Technology Licensing, Llc Automatic narration of signal segment
CN107862239A (zh) * 2017-09-15 2018-03-30 广州唯品会研究院有限公司 一种结合文本与图片进行图片识别的方法及其装置
JP7042167B2 (ja) * 2018-06-13 2022-03-25 本田技研工業株式会社 車両制御装置、車両制御方法、およびプログラム
US11842729B1 (en) * 2019-05-08 2023-12-12 Apple Inc. Method and device for presenting a CGR environment based on audio data and lyric data
JP2021149716A (ja) * 2020-03-19 2021-09-27 ヤフー株式会社 生成装置、生成方法及び生成プログラム
US20230222281A1 (en) * 2022-01-07 2023-07-13 Google Llc Modifying the presentation of drawing objects based on associated content objects in an electronic document

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3067966B2 (ja) * 1993-12-06 2000-07-24 松下電器産業株式会社 画像部品を検索する装置及びその方法
US5801685A (en) 1996-04-08 1998-09-01 Tektronix, Inc. Automatic editing of recorded video elements sychronized with a script text read or displayed
US6826727B1 (en) * 1999-11-24 2004-11-30 Bitstream Inc. Apparatus, methods, programming for automatically laying out documents
US7624123B2 (en) * 2004-02-26 2009-11-24 Ati Technologies, Inc. Image processing system and method
US7657100B2 (en) * 2005-05-09 2010-02-02 Like.Com System and method for enabling image recognition and searching of images
US7519200B2 (en) * 2005-05-09 2009-04-14 Like.Com System and method for enabling the use of captured images through recognition
US8136028B1 (en) * 2007-02-02 2012-03-13 Loeb Enterprises Llc System and method for providing viewers of a digital image information about identifiable objects and scenes within the image
US8516365B2 (en) * 2007-06-15 2013-08-20 Microsoft Corporation Dynamically laying out images and associated text using pre-defined layouts
US20090006471A1 (en) * 2007-06-29 2009-01-01 Microsoft Corporation Exposing Specific Metadata in Digital Images
JP2009081635A (ja) 2007-09-26 2009-04-16 Fujifilm Corp デジタルカメラ、及びデジタルカメラの個人情報保護方法
US8300953B2 (en) * 2008-06-05 2012-10-30 Apple Inc. Categorization of digital media based on media characteristics
WO2010000074A1 (en) * 2008-07-03 2010-01-07 Germann Stephen R Method and system for applying metadata to data sets of file objects
JP5366562B2 (ja) * 2009-01-13 2013-12-11 キヤノン株式会社 情報処理装置および情報処理装置の制御方法およびプログラム
US20100238323A1 (en) * 2009-03-23 2010-09-23 Sony Ericsson Mobile Communications Ab Voice-controlled image editing
US20110161792A1 (en) * 2009-12-31 2011-06-30 Edward Florence Producing interactive documents
US8442827B2 (en) * 2010-06-18 2013-05-14 At&T Intellectual Property I, L.P. System and method for customized voice response
US20120075490A1 (en) * 2010-09-27 2012-03-29 Johney Tsai Systems and methods for determining positioning of objects within a scene in video content
US8935199B2 (en) 2010-12-14 2015-01-13 Xerox Corporation Method and system for linking textual concepts and physical concepts
JP5772353B2 (ja) * 2011-07-29 2015-09-02 株式会社リコー 画像処理システム及び画像処理方法
US8929615B2 (en) * 2011-11-03 2015-01-06 Facebook, Inc. Feature-extraction-based image scoring
JP5845988B2 (ja) * 2012-03-16 2016-01-20 大日本印刷株式会社 画像処理システム、画像処理方法、サーバおよびプログラム
JP5895756B2 (ja) * 2012-07-17 2016-03-30 富士ゼロックス株式会社 情報分類プログラム及び情報処理装置
US20140047413A1 (en) * 2012-08-09 2014-02-13 Modit, Inc. Developing, Modifying, and Using Applications
US9141335B2 (en) * 2012-09-18 2015-09-22 Adobe Systems Incorporated Natural language image tags
US20140122479A1 (en) * 2012-10-26 2014-05-01 Abbyy Software Ltd. Automated file name generation
US10402407B2 (en) * 2013-06-17 2019-09-03 Lenovo (Singapore) Pte. Ltd. Contextual smart tags for content retrieval
US9646613B2 (en) * 2013-11-29 2017-05-09 Daon Holdings Limited Methods and systems for splitting a digital signal
KR102156440B1 (ko) * 2013-12-10 2020-09-17 한국전자통신연구원 시각언어 기반의 영상주석 자동 생성 장치 및 방법
US11222044B2 (en) * 2014-05-16 2022-01-11 Microsoft Technology Licensing, Llc Natural language image search
US9311568B1 (en) * 2014-05-21 2016-04-12 Yummly, Inc. Recipe text and image extraction
US20160364374A1 (en) * 2015-06-09 2016-12-15 International Business Machines Corporation Visual indication for images in a question-answering system
US9984100B2 (en) 2015-09-29 2018-05-29 International Business Machines Corporation Modification of images and associated text

Also Published As

Publication number Publication date
US9984100B2 (en) 2018-05-29
US20170270142A1 (en) 2017-09-21
US20170091224A1 (en) 2017-03-30
US9996556B2 (en) 2018-06-12
JP2017068841A (ja) 2017-04-06

Similar Documents

Publication Publication Date Title
JP6771259B2 (ja) 画像および関連するテキストを処理するためのコンピュータ実装される方法、コンピュータ・プログラム製品、ならびにコンピュータ・システム
US11232641B2 (en) Mixing virtual image data and physical image data
US10289727B2 (en) Incorporation of semantic attributes within social media
US20150156147A1 (en) Method, system and apparatus for adding network comment information
US9600134B2 (en) Selecting portions of computer-accessible documents for post-selection processing
CN116382554A (zh) 移动设备上的改进的拖放操作
WO2021114500A1 (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
JP5642890B2 (ja) 生成された画像中に含まれるオブジェクトの収集をサポートするための方法、端末およびコンピュータ可読記録媒体
CN104866308A (zh) 一种场景图像的生成方法及装置
KR101567555B1 (ko) 이미지가 이용되는 소셜 네트워크 서비스 시스템 및 방법
US10706312B2 (en) Automated filtering of item comments
US20190227634A1 (en) Contextual gesture-based image searching
CN113255377A (zh) 一种翻译方法、装置、电子设备及存储介质
US9607216B2 (en) Identifying updated content in images
WO2015043532A1 (en) Information processing method, apparatus, and system
CN111491209A (zh) 视频封面确定方法、装置、电子设备和存储介质
KR20170055345A (ko) 만화에서의 이미지 추출과 변형 시스템을 활용한 소셜 네트워크 서비스 및 방법
JP2018500696A5 (ja)
US11621000B2 (en) Systems and methods for associating a voice command with a search image
WO2016101768A1 (zh) 终端以及基于触摸操作的搜索方法和装置
US11074735B2 (en) Multistep interactive image generation utilizing knowledge store
AU2021210221B2 (en) Performing search based on position information
US20240126807A1 (en) Visual Search Determination for Text-To-Image Replacement
KR101770724B1 (ko) 소셜 네트워크 서비스에 사용하는 이미지 제공 시스템 및 방법
CN117892023A (zh) 页面显示方法、装置、设备及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200602

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20200807

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200826

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200923

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20200925

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200925

R150 Certificate of patent or registration of utility model

Ref document number: 6771259

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150