JP2014186372A - 図絵描画支援装置、方法、及びプログラム - Google Patents
図絵描画支援装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2014186372A JP2014186372A JP2013058941A JP2013058941A JP2014186372A JP 2014186372 A JP2014186372 A JP 2014186372A JP 2013058941 A JP2013058941 A JP 2013058941A JP 2013058941 A JP2013058941 A JP 2013058941A JP 2014186372 A JP2014186372 A JP 2014186372A
- Authority
- JP
- Japan
- Prior art keywords
- image
- picture
- unit
- images
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Abandoned
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
- Processing Or Creating Images (AREA)
Abstract
【課題】 ユーザが簡単に所望の図絵を描画できるようにユーザの描画作成を支援する図絵描画支援装置を提供する。
【解決手段】 一実施形態に係る図絵描画支援装置は、特徴抽出部、音声認識部、キーワード抽出部、画像検索部、画像選択部、画像変形部、及び提示部を備える。特徴抽出部は、ユーザが描画した図絵から特徴量を抽出する。音声認識部は、前記ユーザが発した音声に対して音声認識行う。キーワード抽出部は、前記音声認識の結果から少なくとも1つのキーワードを抽出する。画像検索部は、予め用意される画像の中から、前記少なくとも1つのキーワードに対応する1以上の画像を検索する。画像選択部は、前記特徴量に基づいて、前記検索された1以上の画像の中から前記図絵に合う画像を選択する。画像変形部は、前記特徴量に基づいて前記選択された画像を変形して出力画像を生成する。提示部は、前記出力画像を提示する。
【選択図】図1
【解決手段】 一実施形態に係る図絵描画支援装置は、特徴抽出部、音声認識部、キーワード抽出部、画像検索部、画像選択部、画像変形部、及び提示部を備える。特徴抽出部は、ユーザが描画した図絵から特徴量を抽出する。音声認識部は、前記ユーザが発した音声に対して音声認識行う。キーワード抽出部は、前記音声認識の結果から少なくとも1つのキーワードを抽出する。画像検索部は、予め用意される画像の中から、前記少なくとも1つのキーワードに対応する1以上の画像を検索する。画像選択部は、前記特徴量に基づいて、前記検索された1以上の画像の中から前記図絵に合う画像を選択する。画像変形部は、前記特徴量に基づいて前記選択された画像を変形して出力画像を生成する。提示部は、前記出力画像を提示する。
【選択図】図1
Description
本発明の実施形態は、図絵描画支援装置、方法、及びプログラムに関する。
手書きによる図絵の描画を支援する図絵描画支援装置がある。従来の図絵描画支援装置は、ユーザによって描画された図絵に対して図形認識を行い、認識結果に基づいた図絵を生成している。
上述したような図絵描画支援装置では、ユーザによって描画された図絵を正しく図形認識できた場合にしか描画支援が成功しないという問題がある。具体的には、四角形などの単純な図形や文字以外の対象(オブジェクト)に対応することが難しく、また、複雑な形状の図形に対応するためには図形認識できる程度にユーザが詳細な図絵を描画する必要がある。
図絵描画支援装置においては、ユーザが簡単に所望の図絵を描画できるようにユーザの描画作成を支援できることが求められている。
本発明が解決しようとする課題は、ユーザが簡単に所望の図絵を描画できるようにユーザの描画作成を支援する図絵描画支援装置、方法、及びプログラムを提供することである。
一実施形態に係る図絵描画支援装置は、特徴抽出部、音声認識部、キーワード抽出部、画像検索部、画像選択部、画像変形部、及び提示部を備える。特徴抽出部は、ユーザが描画した図絵から特徴量を抽出する。音声認識部は、前記ユーザが発した音声に対して音声認識行う。キーワード抽出部は、前記音声認識の結果から少なくとも1つのキーワードを抽出する。画像検索部は、予め用意される画像の中から、前記少なくとも1つのキーワードに対応する1以上の画像を検索する。画像選択部は、前記特徴量に基づいて、前記検索された1以上の画像の中から前記図絵に合う画像を選択する。画像変形部は、前記特徴量に基づいて前記選択された画像を変形して出力画像を生成する。提示部は、前記出力画像を提示する。
以下、図面を参照しながら種々の実施形態について説明する。
図1は、一実施形態に係る図絵描画支援装置を概略的に示している。この図絵描画支援装置は、PC(Personal computer)、タブレットPC、スマートフォンなどのように、ペンや指による手書き入力を可能にする手書き入力インタフェースを備える端末装置に適用することができる。本実施形態では、手書き入力インタフェースとして、ディスプレイ装置の表示画面に設けられるタッチパネルとタッチパネルを操作するためのペンとを含むペン入力装置を想定する。
図1に示す図絵描画支援装置は、音声認識を利用してユーザが図絵を描画するのを支援するものである。具体的には、図絵描画支援装置は、音声認識部101、キーワード抽出部102、画像蓄積部103、画像検索部104、特徴抽出部105、画像選択部106、画像変形部107、及び表示部(提示部ともいう)108を備える。
音声認識部101は、ユーザが発した音声に対して音声認識を行い、認識結果をテキストとして出力する。具体的には、ユーザの発話は、マイクロホンなどの音声入力装置によって集音され、音声データとして音声認識部101に与えられる。音声認識部101は、音声データに対して音声認識を行うことで、ユーザの発話(音声)をテキストに変換する。音声認識は、公知の又は今後開発され得る任意の音声認識技術により実行することができる。なお、認識結果が一意に定まらない場合には、音声認識部101は、複数の認識結果候補を確信度付きで出力してもよく、或いは、単語ごとの認識結果候補の系列をラティスなどのデータ構造として出力してもよい。
キーワード抽出部102は、音声認識部101が出力したテキストからキーワードを抽出する。キーワード抽出の手法としては、例えば、テキストを形態素解析して自立語を抽出する手法を利用することができる。音声認識部101の認識結果が助詞を含む文である場合などでは、キーワード抽出部102は、複数のキーワードを抽出することもある。
画像蓄積部103には、事前に登録された画像のデータがタグ情報と対応付けて蓄積すなわち格納されている。なお、画像蓄積部103は、図絵作成支援装置内に設けられる例に限らず、図絵作成支援装置と通信する他の装置(例えばサーバ)に備わっていてもよい。
画像検索部104は、キーワード抽出部102によって抽出されたキーワードを検索キーとして、タグ情報に基づいて、画像蓄積部103に格納されている画像を検索する。1つの画像が検索されてもよく、複数の画像が検索されてもよい。
特徴抽出部105は、ユーザが発声しながら描画した図絵から特徴量を抽出する。なお、発声と描画は、必ずしも同時に行われる必要はなく、時間的にずれた動作であってもよい。例えば、ユーザは、図絵を描画した後に、その図絵に対応する(すなわち、その図絵を表現する)音声を入力してもよく、或いは、音声入力後に対応する図絵を描画してもよい。
さらに、特徴抽出部105は、画像検索部104によって検索された画像から特徴量を抽出する。なお、検索された画像に対する特徴抽出処理は、必ずしも検索後に実行される必要はない。例えば、特徴抽出部105において予め用意された画像に対して特徴抽出処理を行い、画像を処理結果(すなわち、特徴量)及びタグ情報に対応付けて画像蓄積部103に格納しておいてもよい。
画像選択部106は、描画された図絵の特徴量と検索された画像の特徴量とに基づいて、検索された画像の中からその図絵に合う画像を選択する。ここで、「合う」は、「合致する」若しくは「類似する」の意味である。画像変形部107は、描画された図絵の特徴量に従って、画像選択部106によって選択された画像を変形して、ユーザによって描画された図絵に対応する出力画像(出力図絵ともいう)を生成する。表示部108は、画像変形部107によって生成された出力画像をユーザに提示するために表示する。
本実施形態に係る図絵作成支援装置は、音声認識を利用して、予め用意された複数の画像の中からユーザによって描画された図絵に合った画像を選択し、この画像に基づいて出力画像を生成している。これにより、ユーザが所望の図絵を簡単に描画できるように描画作成の支援を行うことが可能になる。
次に、本実施形態に係る図絵描画支援装置の動作について説明する。
図2は、本実施形態に係る図絵描画支援装置の動作例を概略的に示している。ステップS201では、ユーザは、ペンで図絵を描画するとともに、この図絵に対応する音声を発する。ステップS202では、特徴抽出部105は、ユーザによって描画された図絵から特徴量を抽出する。ステップS203では、音声認識部101は、ユーザの音声に対して音声認識を行う。ステップS204では、キーワード抽出部102は、音声認識結果からキーワードを抽出する。ステップS205では、キーワード抽出部102によって抽出されたキーワードが複数個であるか否かが判断される。1つのキーワードが抽出された場合、ステップS208に進み、複数のキーワードが抽出された場合、ステップS206に進む。ステップS206では、画像検索部104は、画像蓄積部103から、タグ情報がこれらのキーワードを全て含む画像を検索する。ステップS207では、画像が検索されたか否かが判断される。画像が検索された場合、ステップS210に進み、画像が検索されない場合、ステップS208に進む。
図2は、本実施形態に係る図絵描画支援装置の動作例を概略的に示している。ステップS201では、ユーザは、ペンで図絵を描画するとともに、この図絵に対応する音声を発する。ステップS202では、特徴抽出部105は、ユーザによって描画された図絵から特徴量を抽出する。ステップS203では、音声認識部101は、ユーザの音声に対して音声認識を行う。ステップS204では、キーワード抽出部102は、音声認識結果からキーワードを抽出する。ステップS205では、キーワード抽出部102によって抽出されたキーワードが複数個であるか否かが判断される。1つのキーワードが抽出された場合、ステップS208に進み、複数のキーワードが抽出された場合、ステップS206に進む。ステップS206では、画像検索部104は、画像蓄積部103から、タグ情報がこれらのキーワードを全て含む画像を検索する。ステップS207では、画像が検索されたか否かが判断される。画像が検索された場合、ステップS210に進み、画像が検索されない場合、ステップS208に進む。
ステップS208では、画像検索部104は、キーワードごとに、そのキーワードを含む画像を検索する。ステップS209では、全てのキーワードそれぞれに対して画像が検索されたか否かが判断される。全てのキーワードに対し画像が検索された場合は、ステップS210に進み、そうでなければ処理終了となる。
ステップS210では、特徴抽出部105は、検索された画像から特徴量を抽出する。複数の画像が検索されている場合、画像ごとに特徴量が抽出される。ステップS211では、画像選択部106は、描画された図絵の特徴量と検索された画像の特徴量とに基づいて、その図絵に合った画像を選択する。
ステップS212では、画像変形部107は、ユーザによって描画された図絵の特徴量に従って、画像選択部106によって選択された画像を変形する。ステップS213では、表示部108は、画像変形部107によって変形された画像を表示する。
図2に示す処理手順では、ステップS202に示される入力絵図に対する処理の後に、ステップS203〜S210に示される音声に対する処理が実行されているが、入力音声に対する処理の後に絵図に対する処理が実行されてもよく、入力絵図に対する処理と入力音声に対する処理とが並列に実行されてもよい。
本実施形態では、図2に示すようにステップS209において全てのキーワードに対し画像が検索された場合を除いて処理終了となる。他の実施形態に係る図絵描画支援装置は、一部のキーワードに対し画像が検索された場合には、検索された画像に対してステップS210〜S213の処理を行い、画像が検索されなかったキーワードに対応する、手書き入力された図絵をそのまま表示してもよい。
次に、本実施形態に係る図絵描画支援装置の動作を具体的に説明する。ここでは、ユーザが「富士山を背景に女性が立っていて」と発話しながら図3に示す図絵(図形)を描画する場合を例に挙げて説明する。図3の図絵は3つのストローク301、302、303からなり、ユーザはストローク301、302、303をこの順番で描いたものとする。図3では、ストローク301で富士山が描かれ、ストローク302及び303で立っている女性が描かれている。本実施形態では、このような複数のオブジェクトを含む図絵であっても描画作成を支援することができる。ユーザの発話は、音声入力装置を通じて音声認識部101に与えられ、ユーザによって描画された図絵は、入力インタフェースを通じて特徴抽出部105に与えられる。
ユーザの発話は、音声認識部101によって「富士山を背景に女性が立っていて」というテキストに変換される。次に、キーワード抽出部102は、音声認識部101の認識結果であるテキストからキーワードを抽出する。
図4は、キーワード抽出部102の処理手順の一例を示している。ステップS401では、キーワード抽出部102は、音声認識部101から受け取ったテキストを、公知の又は今後開発され得る任意の形態素解析技術により形態素解析する。本実施形態の例では、「富士山を背景に女性が立っていて」というテキストが、「富士山<名詞>+を<助詞>/背景<名詞>+に<助詞>/女性<名詞>+が<助詞>/立っ<動詞>+て<助詞>+い<助動詞>+て<助詞>」と解析されたものとする。ここで、“○○<××>”という記載は単語“○○”の品詞が“××”であることを表し、“/”は文節の切れ目を表し、“+”は単語の切れ目を表す。
ステップS402では、キーワード抽出部102は、図5に例示される配置フレーズ抽出辞書を参照して形態素解析結果から配置フレーズを抽出し、さらに、形態素解析結果からその配置フレーズを取り除く。図5の配置フレーズ抽出辞書には、複数の配置フレーズが配置条件に対応付けて登録されている。本実施形態の例では、配置フレーズ抽出辞書の欄501を参照して「+を<助詞>/背景<名詞>+に<助詞>」という配置フレーズが抽出され、形態素解析結果が「富士山<名詞>/女性<名詞>+が<助詞>/立っ<動詞>+て<助詞>+い<助動詞>+て<助詞>」に書き換えられる。このとき、配置条件として「prefix: layer=lower, suffix: layer=upper」が得られる。配置条件については後述する。
ステップS403では、キーワード抽出部102は、配置フレーズ除去後の形態素解析結果から、品詞が名詞である単語を抽出する。本実施形態の例では、「富士山」及び「女性」が抽出される。
このようにして、音声認識結果からキーワード及び配置フレーズがキーワード抽出部102によって抽出される。
このようにして、音声認識結果からキーワード及び配置フレーズがキーワード抽出部102によって抽出される。
続いて、画像検索部104が、キーワード抽出部102の出力である単語「富士山」及び「女性」を検索語として画像蓄積部103を検索する。画像蓄積部103及び画像検索部104は、公知の又は今後開発され得る任意のリレーショナルデータベースシステムによって実施することができる。
図6は、画像蓄積部103に蓄積されている画像とタグ情報の例を示す。図6には、5つの画像601〜605が示されている。画像601は、富士登山中の女性の写真であり、この画像601のタグ情報は、「富士山」及び「女性」という2つの単語を含む。画像602は、富士山を背景にポーズをとっている女性の写真であり、この画像602のタグ情報は、「富士山」及び「女性」という2つの単語を含む。画像603は、富士山の写真であり、この画像603のタグ情報は、単語「富士山」を含む。画像604は、女性の顔写真であり、この画像604のタグ情報は、単語「女性」を含む。画像605は、立っている女性の写真であり、この画像605のタグ情報は、単語「女性」を含む。なお、画像蓄積部103に蓄積されている画像は、写真に限定されず、図絵などのいかなる形態の画像であってもよい。
この例では、検索語「富士山」及び「女性」の両方をタグ情報に含む画像601及び602が検索される。検索された画像601及び602のデータは特徴抽出部105に送られる。特徴抽出部105は、画像601及び602それぞれから、輪郭及び輪郭線それぞれの長さなどの特徴量を抽出する。画像から特徴量を抽出する手法としては、例えば特開2002−215627号公報に記載された技術を利用することができる。ここでは、特徴抽出手法の一例を簡単に説明する。一例の特徴抽出手法は、画像を格子状に複数の領域に分割し、各領域に含まれる線分(手書きのストローク又は画像から抽出された輪郭線)を「━」、「┏」、「┓」、「┃」、「┗」、「┛」、「╋」、「┣」、「┫」、「┳」、「┻」、「/」、「\」などの単純な基本形に量子化し、どの基本形がどれだけ含まれるか、どの基本形がどの基本形と隣り合っているかなどを抽出する。
さらに、特徴抽出部105は、図3に示されるユーザによって描画された図絵から、特徴量を抽出する。描画された図絵の特徴量及び検索された画像の特徴量は、画像選択部106に送られる。画像選択部106は、画像検索部104によって検索された画像から、描画された図絵に合う画像を選択する。
図7は、画像選択部106の処理手順の一例を示している。ステップS701では、画像選択部106は、描画された図絵の特徴量lhを取り出す。ステップS702では、検索された画像の中で未処理の画像(すなわち、処理対象画像としてまだ選択されていない画像)があるか否かが判断される。未処理の画像がある場合、未処理の画像の中から1つの画像が処理対象画像として選択され、ステップS703に進む。
ステップS703では、画像選択部106は、処理対象画像の特徴量liを取り出す。ステップS704では、図絵の特徴量lhと処理対象画像の特徴量liとから、図絵と処理対象画像との間の類似度Siを求める。ステップS705では、類似度Siが値Smax以上か否かが判断される。なお、図7の処理開始時には値Smaxは、初期化され、例えば、ゼロに設定される。類似度Siが値Smaxより小さい場合、ステップS702に戻る。一方、類似度Siが値Smax以上である場合、ステップS706に進む。ステップS706では、画像選択部106は、処理対象画像を仮選択し、値Smaxを類似度Siの値に設定する。その後ステップS702に戻る。
検索された画像それぞれに対してステップS703〜S706に示した処理が行われる。ステップS702において全ての画像が処理されたと判断されると、ステップS706に進む。ステップS706では、値Smaxが予め定められる閾値Sthr以上か否かが判断される。値Smaxが閾値Sthr未満である場合、画像選択部106において画像は選択されないこととなる。値Smaxが閾値Sthr以上である場合、ステップS708において、仮選択された画像が、ユーザが描画した図絵に合う画像として選択される。
図7の例では、画像検索部104によって検索された全ての画像の中から、ユーザが描画した図絵と最も類似した画像が選択されるが、画像選択処理はこの例に限定されない。例えば、画像検索部104の検索結果が確信度付きで出力される場合、検索された画像を確信度順に処理して、ユーザが描画した図絵との類似度が閾値Sthrより大きい画像が見つかった時点で、当該画像を選択して出力し、画像選択処理を終了してもよい。
キーワード抽出部102で抽出されたキーワードが単一であった場合、図7の画像選択処理を開始するにあたり閾値Sthrを小さい値に設定してもよい。閾値Sthrを小さい値に設定することにより、画像が選択されない状況を減らし、あまり類似していない画像であっても参考として出力するように動作させることもできる。これは、後述するような、複数のキーワードを分割してそれぞれのキーワードで画像を検索した場合も同様である。
画像選択部106によって画像が選択されるか否かは予め定められる閾値Sthrに依存する。ここでは、画像選択部106によって図6の画像601が棄却され、画像602が選択されたとする。画像選択部106によって選択された画像602は、画像変形部107に送られる。選択された画像602の特徴量及び描画された図絵の特徴量もまた画像変形部107に送られる。
図8は、画像変形部107の処理手順の一例を示している。ステップS801では、画像変形部107は、描画された図絵の特徴点を探索する。ステップS802では、i番目の画像Piが取り出される。変形処理開始時には、iは初期化される。すなわち、iは1に設定される。ここでは、変形処理の対象となる画像は1つ(画像602)である。
ステップS803では、画像変形部107は、画像Piから、図絵の特徴点に対応する画像Piの特徴点を探索する。図絵の特徴点に対応する画像Pi中の特徴点を対応点と呼ぶ。ステップS804では、画像変形部107は、画像Piの対応点に対応する図絵の特徴点間の平均距離Dhを計算する。ステップS805では、画像変形部107は画像Piの対応点間の平均距離Dsを計算する。ステップS806では、画像変形部107は画像PiをDh/Ds倍にリサイズする。
画像変形部107は、ステップS807において画像Piの対応点に対応する図絵の特徴点の重心Chを計算し、ステップS808において画像Piの対応点の重心Ciを計算する(ステップS808)。続いて、画像変形部107は、重心Chと重心Ciが一致するように画像Piを移動する(ステップS809)。
ステップS810では、全ての画像に対し変形処理を施したか否かが判断される。ここでは、変形処理の対象となる画像が1つであるので、変形処理が終了となる。
画像変形部107は、変形した画像を出力画像として表示部108に送る。表示部108は、画像変形部107から受け取った画像を表示画面に表示する。本実施形態では、表示部108は、ユーザによって描画された図絵と画像変形部107によって変形された画像とをそれぞれ異なるレイヤに重畳して表示する。この場合、いずれかのレイヤの透過度を上げて薄く表示する処理、描画された図絵を消去して表示する処理などの様々な処理を行うことができる。
次に、画像選択部106が画像検索部104によって検索された全ての画像(例えば画像601及び602の両方)を棄却した場合、及び抽出されたキーワード全てをタグ情報に含む画像が見つからない場合の支援処理について説明する。なお、上述した支援処理に代えて、以下に説明する支援処理を標準の支援処理としてもよい。
画像選択部106が全ての画像を棄却した場合、キーワード抽出部102によって抽出されたキーワードの数が2以上であれば、画像検索部104は、これらのキーワードそれぞれに対応する画像を画像蓄積部103から取得する。この場合、最初の画像検索処理で検索された画像は再度検索されることがないようにする。ここでは、「富士山」というキーワードに対し図6の画像603が検索され、「女性」というキーワードに対し図6の画像604及び605が検索されたとする。
続いて、画像選択部106は、キーワードそれぞれに対応して、ユーザによって描画された図絵に合った画像を選択する。このとき、それぞれの画像は、描画された図絵の一部に対応すると考えられるため、キーワードの個数N(Nは自然数である。)によって閾値Sthrを1/N倍するなどして閾値Sthrを小さくし、画像選択部106を動作させることでキーワードに対応する画像が適切に選択されるようにする。ここでは、キーワード「富士山」に対応する画像として図6の画像603が選択され、キーワード「女性」に対応する画像として画像605が選択されたとする。
次に、画像変形部107は、画像603及び605それぞれを変形する。図8を再び参照すると、ステップS801では、画像変形部107は、描画された図絵の特徴点を探索する。ステップS802では、i番目の画像Piが取り出される。変形処理開始時には、iは1に設定される。この例では、1番目の画像P1は画像603であり、2番目の画像P2は画像605である。
ステップS803〜S809の処理は前述したものと同じであるので、ステップS803〜S809の処理についての説明を省略する。ステップS810では、全ての画像に対し変形処理を施したか否かが判断される。未処理の画像がある場合、ステップS811においてiがインクリメントされる。その後ステップS802に戻り、次の画像(例えば2番目の画像605)に対してステップS802〜S809の処理を実行する。全ての画像に対し変形処理を施すと、変形処理を終了する。
このようにして、図3のストローク301にサイズと位置を合わせて図6の画像603が変形され、図3のストローク302及び303にサイズと位置を合わせて図6の画像605が変形される。
図8の変形処理手順では、画像の位置とサイズを変形しているが、後述の合成処理の結果がより自然な画像になるように、例えば、図絵に対応する対応点よりも外側の領域の透明度を上げたり、ぼかし処理を施したりしてもよい。
変形された画像の例を図9(a)及び(b)に示す。図9(a)の画像901が図6の画像603の変形結果であり、図9(b)の画像902が図6の画像605の変形結果である。
次に、表示部108が変形画像(例えば画像901及び902)を合成して出力画像を生成する。一例では、表示部108は、キーワード抽出部102によって取得された配置条件に従って画像を合成する。ここでは、配置条件として「prefix: layer=lower, suffix: layer=upper」が得られているので、抽出されたキーワードのうち前方にある「富士山」に対応する変形画像901(画像603)が下位のレイヤ、後方にある「女性」に対応する変形画像902(画像605)が上位のレイヤになるように合成される。取得された配置条件に従って変形画像901及び902を合成した結果を図10に示す。
このようにして、本実施形態に係る図絵作成支援装置は、タグ情報が抽出されたキーワード全てを含む画像(例えば画像601及び602)が棄却された場合にも、個々のキーワードに基づいて検索された画像を利用して、ユーザの描画を支援することができる。
なお、ユーザが描画した図絵の複雑さを評価し、単純な図絵が入力された場合には画像選択部106で使用される閾値Sthrを小さくしてもよい。図形の複雑さを評価する方法としては、特徴抽出部105で得られた特徴量のうち輪郭線の長さが長いほど複雑と判断する手法、量子化された基本形のうち「╋」、「┣」、「┫」、「┳」、「┻」が多く含まれるほど複雑と判定する手法などを利用することができる。このように図絵の複雑さによって閾値Sthrを変化させることで、ユーザが単純な図絵を描画したとしても、ユーザの意図に沿った画像を表示することができる。例えばユーザが「車の上を飛行機が飛んでいる」と言いながら、車及び飛行機の位置及び大きさを示すために図11に示すような図絵を描いた場合に、図絵の詳細にかかわらずに「車」及び「飛行機」の画像を配置して図12に示すような画像を合成して表示することができる。
また、ユーザの発話に形容詞や副詞などの修飾語が含まれる場合には、キーワード抽出部102が、修飾語とキーワードとの間の係り受け関係を示す関係情報を生成し、画像変形部107が、関係情報に基づいて合成方法を制御してもよい。例えば、ユーザの発話内容が「霞んだ富士山を背景に女性が立っていて」である場合、画像変形部107は、富士山に対応する変形画像901をぼかして、変形画像901及び902を合成することができる。
さらに、画像蓄積部103は、画像それぞれに対応付けてその画像の使用回数(例えば、画像が画像選択部106で選択された回数)を格納していてもよい。画像の使用回数は、ユーザが描画する図絵についての傾向、すなわち、ユーザの嗜好に関連する。画像選択部106において、描画された図絵との類似度が同じ程度の画像が複数あった場合に、使用回数が多い画像を選択することにより、描画支援にユーザの嗜好を反映することができる。
以上のように、本実施形態に係る図絵作成支援装置は、音声認識を利用してユーザによって描画された図絵に合った画像を選択し、この画像を図絵に合わせて変形することで、出力画像を生成している。これにより、ユーザが所望の図絵を簡単に描画できるように描画作成の支援を行うことが可能になる。さらに、ユーザは、複数の対象(オブジェクト)を含む図絵であっても連続的に自然な動作で描くことができる。
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した実施形態の図絵作成支援装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RWなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータ又は組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の図絵作成支援装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶又は一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶又は一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
なお、本実施形態におけるコンピュータ又は組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
101…音声認識部、102…キーワード抽出部、103…画像蓄積部、104…画像検索部、105…特徴抽出部、106…画像選択部、107…画像変形部、108…表示部、301〜303…ストローク、601〜605…画像、901,902…変形画像。
Claims (10)
- ユーザが描画した図絵から特徴量を抽出する特徴抽出部と、
前記ユーザが発した音声に対して音声認識行う音声認識部と、
前記音声認識の結果から少なくとも1つのキーワードを抽出するキーワード抽出部と、
予め用意される画像の中から、前記少なくとも1つのキーワードに対応する1以上の画像を検索する画像検索部と、
前記特徴量に基づいて、前記検索された1以上の画像の中から前記図絵に合う画像を選択する画像選択部と、
前記特徴量に基づいて前記選択された画像を変形して出力画像を生成する画像変形部と、
前記出力画像を提示する提示部と、
を具備する図絵描画支援装置。 - 前記画像選択部は、前記特徴量に基づいて前記図絵と前記検索された1以上の画像それぞれとの間の類似度を計算し、前記類似度と所定の閾値との比較に基づいて前記図絵に類似する画像を選択する、請求項1に記載の図絵描画支援装置。
- 前記キーワード抽出部が複数のキーワードを抽出し、かつ、前記画像選択部が前記比較に基づいて前記検索された画像の中に前記図絵に類似する画像がないと判断した場合、前記画像検索部は、前記複数のキーワードの各々について、該キーワードに対応する1以上の画像を検索し、前記画像選択部は、前記検索された1以上の画像の中から前記図絵の一部に類似する画像を選択し、前記画像変形部は、前記複数のキーワードそれぞれに対応する複数の画像を合成する、請求項2に記載の図絵描画支援装置。
- 前記図絵が単純な図形であり、かつ、前記画像選択部が前記比較に基づいて前記検索された画像の中に前記図絵に類似する画像がないと判断した場合、前記画像選択部は、前記検索された1以上の画像の中から前記図絵との類似度が最も大きい画像を選択し、前記画像変形部は、前記図絵の大きさ及び位置に基づいて、前記選択された画像を変形する、請求項2に記載の図絵描画支援装置。
- 前記特徴抽出部は、前記音声から他の特徴量を抽出し、前記特徴量及び前記他の特徴量に基づいて前記類似度を計算する、請求項2に記載の図絵描画支援装置。
- 前記キーワード抽出部が複数のキーワードを抽出し場合、前記画像変形部は、前記複数のキーワードそれぞれについて選択される複数の画像を変形して複数の変形画像を生成し、前記複数の変形画像を合成して出力画像を生成する、請求項1に記載の図絵描画支援装置。
- 前記キーワード抽出部は、前記音声認識の結果における係り受け関係を示す関係情報を取得し、
前記画像変形部は、前記関係情報に従って前記複数の変形画像の合成方式を制御する、請求項6に記載の図絵描画支援装置。 - 前記関係情報は、前記キーワードと該キーワードを修飾する修飾語との係り受け関係を示す、請求項7に記載の図絵描画支援装置。
- ユーザが描画した図絵から特徴量を抽出することと、
前記ユーザが発した音声に対して音声認識行うことと、
前記音声認識の結果から少なくとも1つのキーワードを抽出することと、
予め用意される画像の中から、前記少なくとも1つのキーワードに対応する1以上の画像を検索することと、
前記特徴量に基づいて、前記検索された1以上の画像の中から前記図絵に合う画像を選択することと、
前記特徴量に基づいて前記選択された画像を変形して出力画像を生成することと、
前記出力画像を提示することと、
を具備する図絵描画支援方法。 - コンピュータを、
ユーザが描画した図絵から特徴量を抽出する特徴抽出手段、
前記ユーザが発した音声に対して音声認識行う音声認識手段、
前記音声認識の結果から少なくとも1つのキーワードを抽出するキーワード抽出手段、
予め用意される画像の中から、前記少なくとも1つのキーワードに対応する1以上の画像を検索する画像検索手段、
前記特徴量に基づいて、前記検索された1以上の画像の中から前記図絵に合う画像を選択する画像選択手段、
前記特徴量に基づいて前記選択された画像を変形して出力画像を生成する画像変形手段、及び
前記出力画像を提示する提示手段として機能させるための図絵描画支援プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013058941A JP2014186372A (ja) | 2013-03-21 | 2013-03-21 | 図絵描画支援装置、方法、及びプログラム |
US14/196,435 US20140289632A1 (en) | 2013-03-21 | 2014-03-04 | Picture drawing support apparatus and method |
CN201410092971.3A CN104063417A (zh) | 2013-03-21 | 2014-03-13 | 图画描绘支援装置、方法、以及程序 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013058941A JP2014186372A (ja) | 2013-03-21 | 2013-03-21 | 図絵描画支援装置、方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014186372A true JP2014186372A (ja) | 2014-10-02 |
Family
ID=51551132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013058941A Abandoned JP2014186372A (ja) | 2013-03-21 | 2013-03-21 | 図絵描画支援装置、方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20140289632A1 (ja) |
JP (1) | JP2014186372A (ja) |
CN (1) | CN104063417A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018518764A (ja) * | 2015-08-07 | 2018-07-12 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | オブジェクト検索方法、装置およびサーバ |
KR101986292B1 (ko) * | 2017-12-26 | 2019-06-05 | 이혁준 | 오토 스케치 단말기 |
KR20220061728A (ko) * | 2020-11-06 | 2022-05-13 | 윤경 | 태몽과 관련된 이미지를 획득하는 방법 및 디바이스 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014109889A (ja) * | 2012-11-30 | 2014-06-12 | Toshiba Corp | コンテンツ検索装置、コンテンツ検索方法及び制御プログラム |
JP6419560B2 (ja) * | 2014-12-05 | 2018-11-07 | 株式会社東芝 | 検索装置、方法及びプログラム |
US10474672B2 (en) * | 2015-08-25 | 2019-11-12 | Schlafender Hase GmbH Software & Communications | Method for comparing text files with differently arranged text sections in documents |
CN109034055B (zh) * | 2018-07-24 | 2021-10-01 | 北京旷视科技有限公司 | 肖像描绘方法、装置及电子设备 |
KR20200049020A (ko) * | 2018-10-31 | 2020-05-08 | 삼성전자주식회사 | 음성 명령에 응답하여 컨텐츠를 표시하기 위한 방법 및 그 전자 장치 |
KR102657519B1 (ko) * | 2019-02-08 | 2024-04-15 | 삼성전자주식회사 | 음성을 기반으로 그래픽 데이터를 제공하는 전자 장치 및 그의 동작 방법 |
KR20210070029A (ko) | 2019-12-04 | 2021-06-14 | 삼성전자주식회사 | 반복적 생성을 통해 출력 콘텐트를 향상시키기 위한 디바이스, 방법, 및 프로그램 |
CN111897511A (zh) * | 2020-07-31 | 2020-11-06 | 科大讯飞股份有限公司 | 一种语音绘图方法、装置、设备及存储介质 |
CN112527179B (zh) * | 2020-12-03 | 2023-01-31 | 深圳市优必选科技股份有限公司 | 涂鸦图像识别方法、装置及终端设备 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3877385B2 (ja) * | 1997-07-04 | 2007-02-07 | 大日本スクリーン製造株式会社 | 画像処理パラメータ決定装置およびその方法 |
US6813395B1 (en) * | 1999-07-14 | 2004-11-02 | Fuji Photo Film Co., Ltd. | Image searching method and image processing method |
JP4708913B2 (ja) * | 2005-08-12 | 2011-06-22 | キヤノン株式会社 | 情報処理方法及び情報処理装置 |
US7917514B2 (en) * | 2006-06-28 | 2011-03-29 | Microsoft Corporation | Visual and multi-dimensional search |
US8352465B1 (en) * | 2009-09-03 | 2013-01-08 | Google Inc. | Grouping of image search results |
CN102202147A (zh) * | 2010-03-26 | 2011-09-28 | 株式会社东芝 | 图像形成装置、图像形成处理系统以及图像形成处理方法 |
US8589410B2 (en) * | 2011-10-18 | 2013-11-19 | Microsoft Corporation | Visual search using multiple visual input modalities |
US9411830B2 (en) * | 2011-11-24 | 2016-08-09 | Microsoft Technology Licensing, Llc | Interactive multi-modal image search |
CN103870516B (zh) * | 2012-12-18 | 2019-10-25 | 北京三星通信技术研究有限公司 | 检索图像的方法、实时绘画提示方法及其装置 |
-
2013
- 2013-03-21 JP JP2013058941A patent/JP2014186372A/ja not_active Abandoned
-
2014
- 2014-03-04 US US14/196,435 patent/US20140289632A1/en not_active Abandoned
- 2014-03-13 CN CN201410092971.3A patent/CN104063417A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018518764A (ja) * | 2015-08-07 | 2018-07-12 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | オブジェクト検索方法、装置およびサーバ |
KR101986292B1 (ko) * | 2017-12-26 | 2019-06-05 | 이혁준 | 오토 스케치 단말기 |
KR20220061728A (ko) * | 2020-11-06 | 2022-05-13 | 윤경 | 태몽과 관련된 이미지를 획득하는 방법 및 디바이스 |
KR102559006B1 (ko) | 2020-11-06 | 2023-07-25 | 윤경 | 태몽과 관련된 이미지를 획득하는 방법 및 디바이스 |
Also Published As
Publication number | Publication date |
---|---|
US20140289632A1 (en) | 2014-09-25 |
CN104063417A (zh) | 2014-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2014186372A (ja) | 図絵描画支援装置、方法、及びプログラム | |
JP5257071B2 (ja) | 類似度計算装置及び情報検索装置 | |
CN107016994B (zh) | 语音识别的方法及装置 | |
JP6278893B2 (ja) | 対話型マルチモード画像検索 | |
JP3848319B2 (ja) | 情報処理方法及び情報処理装置 | |
KR102241972B1 (ko) | 환경 콘텍스트를 이용한 질문 답변 | |
JP2018005218A (ja) | 自動通訳方法及び装置 | |
JP6361351B2 (ja) | 発話ワードをランク付けする方法、プログラム及び計算処理システム | |
WO2016151700A1 (ja) | 意図理解装置、方法およびプログラム | |
US9082404B2 (en) | Recognizing device, computer-readable recording medium, recognizing method, generating device, and generating method | |
US20090083026A1 (en) | Summarizing document with marked points | |
JP5221768B2 (ja) | 翻訳装置、及びプログラム | |
KR20200109239A (ko) | 이미지를 처리하는 방법, 장치, 서버 및 저장 매체 | |
JP2015125499A (ja) | 音声通訳装置、音声通訳方法及び音声通訳プログラム | |
JP6301664B2 (ja) | 変換装置、パターン認識システム、変換方法およびプログラム | |
JP2014229091A (ja) | 文字入力用のプログラム | |
JP6389296B1 (ja) | 映像データ処理装置、映像データ処理方法、及びコンピュータプログラム | |
CN106653006B (zh) | 基于语音交互的搜索方法和装置 | |
JP2006243673A (ja) | データ検索装置および方法 | |
WO2024114389A1 (zh) | 用于交互的方法、装置、设备和存储介质 | |
TWI782436B (zh) | 顯示系統以及與顯示系統互動之方法 | |
KR102251513B1 (ko) | 기계학습을 이용한 셀럽의 소셜미디어 정보 기반 학습용 콘텐츠 생성 방법 및 장치 | |
JP2006031385A (ja) | 音声入力による検索システムと方法並びにプログラム | |
JP2018170001A (ja) | 映像データ処理装置、映像データ処理方法、及びコンピュータプログラム | |
WO2023273702A1 (zh) | 一种语音信息与演示信息同步的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150915 |
|
A762 | Written abandonment of application |
Free format text: JAPANESE INTERMEDIATE CODE: A762 Effective date: 20160316 |