JP2014186372A

JP2014186372A - 図絵描画支援装置、方法、及びプログラム

Info

Publication number: JP2014186372A
Application number: JP2013058941A
Authority: JP
Inventors: Masaru Suzuki; 優鈴木; Masayuki Okamoto; 昌之岡本; Kenta Cho; 健太長; Mitsuo Nunome; 光生布目
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2013-03-21
Filing date: 2013-03-21
Publication date: 2014-10-02
Also published as: CN104063417A; US20140289632A1

Abstract

【課題】ユーザが簡単に所望の図絵を描画できるようにユーザの描画作成を支援する図絵描画支援装置を提供する。
【解決手段】一実施形態に係る図絵描画支援装置は、特徴抽出部、音声認識部、キーワード抽出部、画像検索部、画像選択部、画像変形部、及び提示部を備える。特徴抽出部は、ユーザが描画した図絵から特徴量を抽出する。音声認識部は、前記ユーザが発した音声に対して音声認識行う。キーワード抽出部は、前記音声認識の結果から少なくとも１つのキーワードを抽出する。画像検索部は、予め用意される画像の中から、前記少なくとも１つのキーワードに対応する１以上の画像を検索する。画像選択部は、前記特徴量に基づいて、前記検索された１以上の画像の中から前記図絵に合う画像を選択する。画像変形部は、前記特徴量に基づいて前記選択された画像を変形して出力画像を生成する。提示部は、前記出力画像を提示する。
【選択図】図１

Description

本発明の実施形態は、図絵描画支援装置、方法、及びプログラムに関する。

手書きによる図絵の描画を支援する図絵描画支援装置がある。従来の図絵描画支援装置は、ユーザによって描画された図絵に対して図形認識を行い、認識結果に基づいた図絵を生成している。

特許第４７０８９１３号特開２００２−２１５６２７号公報

上述したような図絵描画支援装置では、ユーザによって描画された図絵を正しく図形認識できた場合にしか描画支援が成功しないという問題がある。具体的には、四角形などの単純な図形や文字以外の対象（オブジェクト）に対応することが難しく、また、複雑な形状の図形に対応するためには図形認識できる程度にユーザが詳細な図絵を描画する必要がある。

図絵描画支援装置においては、ユーザが簡単に所望の図絵を描画できるようにユーザの描画作成を支援できることが求められている。

本発明が解決しようとする課題は、ユーザが簡単に所望の図絵を描画できるようにユーザの描画作成を支援する図絵描画支援装置、方法、及びプログラムを提供することである。

一実施形態に係る図絵描画支援装置は、特徴抽出部、音声認識部、キーワード抽出部、画像検索部、画像選択部、画像変形部、及び提示部を備える。特徴抽出部は、ユーザが描画した図絵から特徴量を抽出する。音声認識部は、前記ユーザが発した音声に対して音声認識行う。キーワード抽出部は、前記音声認識の結果から少なくとも１つのキーワードを抽出する。画像検索部は、予め用意される画像の中から、前記少なくとも１つのキーワードに対応する１以上の画像を検索する。画像選択部は、前記特徴量に基づいて、前記検索された１以上の画像の中から前記図絵に合う画像を選択する。画像変形部は、前記特徴量に基づいて前記選択された画像を変形して出力画像を生成する。提示部は、前記出力画像を提示する。

一実施形態に係る図絵描画支援装置を概略的に示すブロック図。図１の図絵描画支援装置の処理手順例を示すフローチャート。ユーザによって描画された図絵の一例を示す図。図１に示したキーワード抽出部の処理手順例を示すフローチャート。図１に示したキーワード抽出部が保持する配置フレーズ抽出辞書の一例を示す図。図１に示した画像蓄積部に蓄積されている画像の例を示す図。図１に示した画像選択部の処理手順例を示すフローチャート。図１に示した画像変形部の処理手順例を示すフローチャート。（ａ）及び（ｂ）は図１に示した画像変形部によって生成された変形画像の例を示す図である。図１に示した画像変形部が図９（ａ）の変形画像と図９（ｂ）の変形画像とを合成して作成した出力画像を示す図。ユーザによって描画された図絵の他の例を示す図。図１の図絵描画支援装置が図１１の図絵に基づいて作成した出力画像の一例を示す図。

以下、図面を参照しながら種々の実施形態について説明する。

図１は、一実施形態に係る図絵描画支援装置を概略的に示している。この図絵描画支援装置は、ＰＣ（Ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ）、タブレットＰＣ、スマートフォンなどのように、ペンや指による手書き入力を可能にする手書き入力インタフェースを備える端末装置に適用することができる。本実施形態では、手書き入力インタフェースとして、ディスプレイ装置の表示画面に設けられるタッチパネルとタッチパネルを操作するためのペンとを含むペン入力装置を想定する。

図１に示す図絵描画支援装置は、音声認識を利用してユーザが図絵を描画するのを支援するものである。具体的には、図絵描画支援装置は、音声認識部１０１、キーワード抽出部１０２、画像蓄積部１０３、画像検索部１０４、特徴抽出部１０５、画像選択部１０６、画像変形部１０７、及び表示部（提示部ともいう）１０８を備える。

音声認識部１０１は、ユーザが発した音声に対して音声認識を行い、認識結果をテキストとして出力する。具体的には、ユーザの発話は、マイクロホンなどの音声入力装置によって集音され、音声データとして音声認識部１０１に与えられる。音声認識部１０１は、音声データに対して音声認識を行うことで、ユーザの発話（音声）をテキストに変換する。音声認識は、公知の又は今後開発され得る任意の音声認識技術により実行することができる。なお、認識結果が一意に定まらない場合には、音声認識部１０１は、複数の認識結果候補を確信度付きで出力してもよく、或いは、単語ごとの認識結果候補の系列をラティスなどのデータ構造として出力してもよい。

キーワード抽出部１０２は、音声認識部１０１が出力したテキストからキーワードを抽出する。キーワード抽出の手法としては、例えば、テキストを形態素解析して自立語を抽出する手法を利用することができる。音声認識部１０１の認識結果が助詞を含む文である場合などでは、キーワード抽出部１０２は、複数のキーワードを抽出することもある。

画像蓄積部１０３には、事前に登録された画像のデータがタグ情報と対応付けて蓄積すなわち格納されている。なお、画像蓄積部１０３は、図絵作成支援装置内に設けられる例に限らず、図絵作成支援装置と通信する他の装置（例えばサーバ）に備わっていてもよい。

画像検索部１０４は、キーワード抽出部１０２によって抽出されたキーワードを検索キーとして、タグ情報に基づいて、画像蓄積部１０３に格納されている画像を検索する。１つの画像が検索されてもよく、複数の画像が検索されてもよい。

特徴抽出部１０５は、ユーザが発声しながら描画した図絵から特徴量を抽出する。なお、発声と描画は、必ずしも同時に行われる必要はなく、時間的にずれた動作であってもよい。例えば、ユーザは、図絵を描画した後に、その図絵に対応する（すなわち、その図絵を表現する）音声を入力してもよく、或いは、音声入力後に対応する図絵を描画してもよい。

さらに、特徴抽出部１０５は、画像検索部１０４によって検索された画像から特徴量を抽出する。なお、検索された画像に対する特徴抽出処理は、必ずしも検索後に実行される必要はない。例えば、特徴抽出部１０５において予め用意された画像に対して特徴抽出処理を行い、画像を処理結果（すなわち、特徴量）及びタグ情報に対応付けて画像蓄積部１０３に格納しておいてもよい。

画像選択部１０６は、描画された図絵の特徴量と検索された画像の特徴量とに基づいて、検索された画像の中からその図絵に合う画像を選択する。ここで、「合う」は、「合致する」若しくは「類似する」の意味である。画像変形部１０７は、描画された図絵の特徴量に従って、画像選択部１０６によって選択された画像を変形して、ユーザによって描画された図絵に対応する出力画像（出力図絵ともいう）を生成する。表示部１０８は、画像変形部１０７によって生成された出力画像をユーザに提示するために表示する。

本実施形態に係る図絵作成支援装置は、音声認識を利用して、予め用意された複数の画像の中からユーザによって描画された図絵に合った画像を選択し、この画像に基づいて出力画像を生成している。これにより、ユーザが所望の図絵を簡単に描画できるように描画作成の支援を行うことが可能になる。

次に、本実施形態に係る図絵描画支援装置の動作について説明する。
図２は、本実施形態に係る図絵描画支援装置の動作例を概略的に示している。ステップＳ２０１では、ユーザは、ペンで図絵を描画するとともに、この図絵に対応する音声を発する。ステップＳ２０２では、特徴抽出部１０５は、ユーザによって描画された図絵から特徴量を抽出する。ステップＳ２０３では、音声認識部１０１は、ユーザの音声に対して音声認識を行う。ステップＳ２０４では、キーワード抽出部１０２は、音声認識結果からキーワードを抽出する。ステップＳ２０５では、キーワード抽出部１０２によって抽出されたキーワードが複数個であるか否かが判断される。１つのキーワードが抽出された場合、ステップＳ２０８に進み、複数のキーワードが抽出された場合、ステップＳ２０６に進む。ステップＳ２０６では、画像検索部１０４は、画像蓄積部１０３から、タグ情報がこれらのキーワードを全て含む画像を検索する。ステップＳ２０７では、画像が検索されたか否かが判断される。画像が検索された場合、ステップＳ２１０に進み、画像が検索されない場合、ステップＳ２０８に進む。

ステップＳ２０８では、画像検索部１０４は、キーワードごとに、そのキーワードを含む画像を検索する。ステップＳ２０９では、全てのキーワードそれぞれに対して画像が検索されたか否かが判断される。全てのキーワードに対し画像が検索された場合は、ステップＳ２１０に進み、そうでなければ処理終了となる。

ステップＳ２１０では、特徴抽出部１０５は、検索された画像から特徴量を抽出する。複数の画像が検索されている場合、画像ごとに特徴量が抽出される。ステップＳ２１１では、画像選択部１０６は、描画された図絵の特徴量と検索された画像の特徴量とに基づいて、その図絵に合った画像を選択する。

ステップＳ２１２では、画像変形部１０７は、ユーザによって描画された図絵の特徴量に従って、画像選択部１０６によって選択された画像を変形する。ステップＳ２１３では、表示部１０８は、画像変形部１０７によって変形された画像を表示する。

図２に示す処理手順では、ステップＳ２０２に示される入力絵図に対する処理の後に、ステップＳ２０３〜Ｓ２１０に示される音声に対する処理が実行されているが、入力音声に対する処理の後に絵図に対する処理が実行されてもよく、入力絵図に対する処理と入力音声に対する処理とが並列に実行されてもよい。

本実施形態では、図２に示すようにステップＳ２０９において全てのキーワードに対し画像が検索された場合を除いて処理終了となる。他の実施形態に係る図絵描画支援装置は、一部のキーワードに対し画像が検索された場合には、検索された画像に対してステップＳ２１０〜Ｓ２１３の処理を行い、画像が検索されなかったキーワードに対応する、手書き入力された図絵をそのまま表示してもよい。

次に、本実施形態に係る図絵描画支援装置の動作を具体的に説明する。ここでは、ユーザが「富士山を背景に女性が立っていて」と発話しながら図３に示す図絵（図形）を描画する場合を例に挙げて説明する。図３の図絵は３つのストローク３０１、３０２、３０３からなり、ユーザはストローク３０１、３０２、３０３をこの順番で描いたものとする。図３では、ストローク３０１で富士山が描かれ、ストローク３０２及び３０３で立っている女性が描かれている。本実施形態では、このような複数のオブジェクトを含む図絵であっても描画作成を支援することができる。ユーザの発話は、音声入力装置を通じて音声認識部１０１に与えられ、ユーザによって描画された図絵は、入力インタフェースを通じて特徴抽出部１０５に与えられる。

ユーザの発話は、音声認識部１０１によって「富士山を背景に女性が立っていて」というテキストに変換される。次に、キーワード抽出部１０２は、音声認識部１０１の認識結果であるテキストからキーワードを抽出する。

図４は、キーワード抽出部１０２の処理手順の一例を示している。ステップＳ４０１では、キーワード抽出部１０２は、音声認識部１０１から受け取ったテキストを、公知の又は今後開発され得る任意の形態素解析技術により形態素解析する。本実施形態の例では、「富士山を背景に女性が立っていて」というテキストが、「富士山＜名詞＞＋を＜助詞＞／背景＜名詞＞＋に＜助詞＞／女性＜名詞＞＋が＜助詞＞／立っ＜動詞＞＋て＜助詞＞＋い＜助動詞＞＋て＜助詞＞」と解析されたものとする。ここで、“○○＜××＞”という記載は単語“○○”の品詞が“××”であることを表し、“／”は文節の切れ目を表し、“＋”は単語の切れ目を表す。

ステップＳ４０２では、キーワード抽出部１０２は、図５に例示される配置フレーズ抽出辞書を参照して形態素解析結果から配置フレーズを抽出し、さらに、形態素解析結果からその配置フレーズを取り除く。図５の配置フレーズ抽出辞書には、複数の配置フレーズが配置条件に対応付けて登録されている。本実施形態の例では、配置フレーズ抽出辞書の欄５０１を参照して「＋を＜助詞＞／背景＜名詞＞＋に＜助詞＞」という配置フレーズが抽出され、形態素解析結果が「富士山＜名詞＞／女性＜名詞＞＋が＜助詞＞／立っ＜動詞＞＋て＜助詞＞＋い＜助動詞＞＋て＜助詞＞」に書き換えられる。このとき、配置条件として「prefix: layer=lower, suffix: layer=upper」が得られる。配置条件については後述する。

ステップＳ４０３では、キーワード抽出部１０２は、配置フレーズ除去後の形態素解析結果から、品詞が名詞である単語を抽出する。本実施形態の例では、「富士山」及び「女性」が抽出される。
このようにして、音声認識結果からキーワード及び配置フレーズがキーワード抽出部１０２によって抽出される。

続いて、画像検索部１０４が、キーワード抽出部１０２の出力である単語「富士山」及び「女性」を検索語として画像蓄積部１０３を検索する。画像蓄積部１０３及び画像検索部１０４は、公知の又は今後開発され得る任意のリレーショナルデータベースシステムによって実施することができる。

図６は、画像蓄積部１０３に蓄積されている画像とタグ情報の例を示す。図６には、５つの画像６０１〜６０５が示されている。画像６０１は、富士登山中の女性の写真であり、この画像６０１のタグ情報は、「富士山」及び「女性」という２つの単語を含む。画像６０２は、富士山を背景にポーズをとっている女性の写真であり、この画像６０２のタグ情報は、「富士山」及び「女性」という２つの単語を含む。画像６０３は、富士山の写真であり、この画像６０３のタグ情報は、単語「富士山」を含む。画像６０４は、女性の顔写真であり、この画像６０４のタグ情報は、単語「女性」を含む。画像６０５は、立っている女性の写真であり、この画像６０５のタグ情報は、単語「女性」を含む。なお、画像蓄積部１０３に蓄積されている画像は、写真に限定されず、図絵などのいかなる形態の画像であってもよい。

この例では、検索語「富士山」及び「女性」の両方をタグ情報に含む画像６０１及び６０２が検索される。検索された画像６０１及び６０２のデータは特徴抽出部１０５に送られる。特徴抽出部１０５は、画像６０１及び６０２それぞれから、輪郭及び輪郭線それぞれの長さなどの特徴量を抽出する。画像から特徴量を抽出する手法としては、例えば特開２００２−２１５６２７号公報に記載された技術を利用することができる。ここでは、特徴抽出手法の一例を簡単に説明する。一例の特徴抽出手法は、画像を格子状に複数の領域に分割し、各領域に含まれる線分（手書きのストローク又は画像から抽出された輪郭線）を「━」、「┏」、「┓」、「┃」、「┗」、「┛」、「╋」、「┣」、「┫」、「┳」、「┻」、「／」、「＼」などの単純な基本形に量子化し、どの基本形がどれだけ含まれるか、どの基本形がどの基本形と隣り合っているかなどを抽出する。

さらに、特徴抽出部１０５は、図３に示されるユーザによって描画された図絵から、特徴量を抽出する。描画された図絵の特徴量及び検索された画像の特徴量は、画像選択部１０６に送られる。画像選択部１０６は、画像検索部１０４によって検索された画像から、描画された図絵に合う画像を選択する。

図７は、画像選択部１０６の処理手順の一例を示している。ステップＳ７０１では、画像選択部１０６は、描画された図絵の特徴量ｌｈを取り出す。ステップＳ７０２では、検索された画像の中で未処理の画像（すなわち、処理対象画像としてまだ選択されていない画像）があるか否かが判断される。未処理の画像がある場合、未処理の画像の中から１つの画像が処理対象画像として選択され、ステップＳ７０３に進む。

ステップＳ７０３では、画像選択部１０６は、処理対象画像の特徴量ｌｉを取り出す。ステップＳ７０４では、図絵の特徴量ｌｈと処理対象画像の特徴量ｌｉとから、図絵と処理対象画像との間の類似度Ｓｉを求める。ステップＳ７０５では、類似度Ｓｉが値Ｓｍａｘ以上か否かが判断される。なお、図７の処理開始時には値Ｓｍａｘは、初期化され、例えば、ゼロに設定される。類似度Ｓｉが値Ｓｍａｘより小さい場合、ステップＳ７０２に戻る。一方、類似度Ｓｉが値Ｓｍａｘ以上である場合、ステップＳ７０６に進む。ステップＳ７０６では、画像選択部１０６は、処理対象画像を仮選択し、値Ｓｍａｘを類似度Ｓｉの値に設定する。その後ステップＳ７０２に戻る。

検索された画像それぞれに対してステップＳ７０３〜Ｓ７０６に示した処理が行われる。ステップＳ７０２において全ての画像が処理されたと判断されると、ステップＳ７０６に進む。ステップＳ７０６では、値Ｓｍａｘが予め定められる閾値Ｓｔｈｒ以上か否かが判断される。値Ｓｍａｘが閾値Ｓｔｈｒ未満である場合、画像選択部１０６において画像は選択されないこととなる。値Ｓｍａｘが閾値Ｓｔｈｒ以上である場合、ステップＳ７０８において、仮選択された画像が、ユーザが描画した図絵に合う画像として選択される。

図７の例では、画像検索部１０４によって検索された全ての画像の中から、ユーザが描画した図絵と最も類似した画像が選択されるが、画像選択処理はこの例に限定されない。例えば、画像検索部１０４の検索結果が確信度付きで出力される場合、検索された画像を確信度順に処理して、ユーザが描画した図絵との類似度が閾値Ｓｔｈｒより大きい画像が見つかった時点で、当該画像を選択して出力し、画像選択処理を終了してもよい。

キーワード抽出部１０２で抽出されたキーワードが単一であった場合、図７の画像選択処理を開始するにあたり閾値Ｓｔｈｒを小さい値に設定してもよい。閾値Ｓｔｈｒを小さい値に設定することにより、画像が選択されない状況を減らし、あまり類似していない画像であっても参考として出力するように動作させることもできる。これは、後述するような、複数のキーワードを分割してそれぞれのキーワードで画像を検索した場合も同様である。

画像選択部１０６によって画像が選択されるか否かは予め定められる閾値Ｓｔｈｒに依存する。ここでは、画像選択部１０６によって図６の画像６０１が棄却され、画像６０２が選択されたとする。画像選択部１０６によって選択された画像６０２は、画像変形部１０７に送られる。選択された画像６０２の特徴量及び描画された図絵の特徴量もまた画像変形部１０７に送られる。

図８は、画像変形部１０７の処理手順の一例を示している。ステップＳ８０１では、画像変形部１０７は、描画された図絵の特徴点を探索する。ステップＳ８０２では、ｉ番目の画像Ｐｉが取り出される。変形処理開始時には、ｉは初期化される。すなわち、ｉは１に設定される。ここでは、変形処理の対象となる画像は１つ（画像６０２）である。

ステップＳ８０３では、画像変形部１０７は、画像Ｐｉから、図絵の特徴点に対応する画像Ｐｉの特徴点を探索する。図絵の特徴点に対応する画像Ｐｉ中の特徴点を対応点と呼ぶ。ステップＳ８０４では、画像変形部１０７は、画像Ｐｉの対応点に対応する図絵の特徴点間の平均距離Ｄｈを計算する。ステップＳ８０５では、画像変形部１０７は画像Ｐｉの対応点間の平均距離Ｄｓを計算する。ステップＳ８０６では、画像変形部１０７は画像ＰｉをＤｈ／Ｄｓ倍にリサイズする。

画像変形部１０７は、ステップＳ８０７において画像Ｐｉの対応点に対応する図絵の特徴点の重心Ｃｈを計算し、ステップＳ８０８において画像Ｐｉの対応点の重心Ｃｉを計算する（ステップＳ８０８）。続いて、画像変形部１０７は、重心Ｃｈと重心Ｃｉが一致するように画像Ｐｉを移動する（ステップＳ８０９）。

ステップＳ８１０では、全ての画像に対し変形処理を施したか否かが判断される。ここでは、変形処理の対象となる画像が１つであるので、変形処理が終了となる。

画像変形部１０７は、変形した画像を出力画像として表示部１０８に送る。表示部１０８は、画像変形部１０７から受け取った画像を表示画面に表示する。本実施形態では、表示部１０８は、ユーザによって描画された図絵と画像変形部１０７によって変形された画像とをそれぞれ異なるレイヤに重畳して表示する。この場合、いずれかのレイヤの透過度を上げて薄く表示する処理、描画された図絵を消去して表示する処理などの様々な処理を行うことができる。

次に、画像選択部１０６が画像検索部１０４によって検索された全ての画像（例えば画像６０１及び６０２の両方）を棄却した場合、及び抽出されたキーワード全てをタグ情報に含む画像が見つからない場合の支援処理について説明する。なお、上述した支援処理に代えて、以下に説明する支援処理を標準の支援処理としてもよい。

画像選択部１０６が全ての画像を棄却した場合、キーワード抽出部１０２によって抽出されたキーワードの数が２以上であれば、画像検索部１０４は、これらのキーワードそれぞれに対応する画像を画像蓄積部１０３から取得する。この場合、最初の画像検索処理で検索された画像は再度検索されることがないようにする。ここでは、「富士山」というキーワードに対し図６の画像６０３が検索され、「女性」というキーワードに対し図６の画像６０４及び６０５が検索されたとする。

続いて、画像選択部１０６は、キーワードそれぞれに対応して、ユーザによって描画された図絵に合った画像を選択する。このとき、それぞれの画像は、描画された図絵の一部に対応すると考えられるため、キーワードの個数Ｎ（Ｎは自然数である。）によって閾値Ｓｔｈｒを１／Ｎ倍するなどして閾値Ｓｔｈｒを小さくし、画像選択部１０６を動作させることでキーワードに対応する画像が適切に選択されるようにする。ここでは、キーワード「富士山」に対応する画像として図６の画像６０３が選択され、キーワード「女性」に対応する画像として画像６０５が選択されたとする。

次に、画像変形部１０７は、画像６０３及び６０５それぞれを変形する。図８を再び参照すると、ステップＳ８０１では、画像変形部１０７は、描画された図絵の特徴点を探索する。ステップＳ８０２では、ｉ番目の画像Ｐｉが取り出される。変形処理開始時には、ｉは１に設定される。この例では、１番目の画像Ｐ１は画像６０３であり、２番目の画像Ｐ２は画像６０５である。

ステップＳ８０３〜Ｓ８０９の処理は前述したものと同じであるので、ステップＳ８０３〜Ｓ８０９の処理についての説明を省略する。ステップＳ８１０では、全ての画像に対し変形処理を施したか否かが判断される。未処理の画像がある場合、ステップＳ８１１においてiがインクリメントされる。その後ステップＳ８０２に戻り、次の画像（例えば２番目の画像６０５）に対してステップＳ８０２〜Ｓ８０９の処理を実行する。全ての画像に対し変形処理を施すと、変形処理を終了する。

このようにして、図３のストローク３０１にサイズと位置を合わせて図６の画像６０３が変形され、図３のストローク３０２及び３０３にサイズと位置を合わせて図６の画像６０５が変形される。

図８の変形処理手順では、画像の位置とサイズを変形しているが、後述の合成処理の結果がより自然な画像になるように、例えば、図絵に対応する対応点よりも外側の領域の透明度を上げたり、ぼかし処理を施したりしてもよい。

変形された画像の例を図９（ａ）及び（ｂ）に示す。図９（ａ）の画像９０１が図６の画像６０３の変形結果であり、図９（ｂ）の画像９０２が図６の画像６０５の変形結果である。

次に、表示部１０８が変形画像（例えば画像９０１及び９０２）を合成して出力画像を生成する。一例では、表示部１０８は、キーワード抽出部１０２によって取得された配置条件に従って画像を合成する。ここでは、配置条件として「prefix: layer=lower, suffix: layer=upper」が得られているので、抽出されたキーワードのうち前方にある「富士山」に対応する変形画像９０１（画像６０３）が下位のレイヤ、後方にある「女性」に対応する変形画像９０２（画像６０５）が上位のレイヤになるように合成される。取得された配置条件に従って変形画像９０１及び９０２を合成した結果を図１０に示す。

このようにして、本実施形態に係る図絵作成支援装置は、タグ情報が抽出されたキーワード全てを含む画像（例えば画像６０１及び６０２）が棄却された場合にも、個々のキーワードに基づいて検索された画像を利用して、ユーザの描画を支援することができる。

なお、ユーザが描画した図絵の複雑さを評価し、単純な図絵が入力された場合には画像選択部１０６で使用される閾値Ｓｔｈｒを小さくしてもよい。図形の複雑さを評価する方法としては、特徴抽出部１０５で得られた特徴量のうち輪郭線の長さが長いほど複雑と判断する手法、量子化された基本形のうち「╋」、「┣」、「┫」、「┳」、「┻」が多く含まれるほど複雑と判定する手法などを利用することができる。このように図絵の複雑さによって閾値Ｓｔｈｒを変化させることで、ユーザが単純な図絵を描画したとしても、ユーザの意図に沿った画像を表示することができる。例えばユーザが「車の上を飛行機が飛んでいる」と言いながら、車及び飛行機の位置及び大きさを示すために図１１に示すような図絵を描いた場合に、図絵の詳細にかかわらずに「車」及び「飛行機」の画像を配置して図１２に示すような画像を合成して表示することができる。

また、ユーザの発話に形容詞や副詞などの修飾語が含まれる場合には、キーワード抽出部１０２が、修飾語とキーワードとの間の係り受け関係を示す関係情報を生成し、画像変形部１０７が、関係情報に基づいて合成方法を制御してもよい。例えば、ユーザの発話内容が「霞んだ富士山を背景に女性が立っていて」である場合、画像変形部１０７は、富士山に対応する変形画像９０１をぼかして、変形画像９０１及び９０２を合成することができる。

さらに、画像蓄積部１０３は、画像それぞれに対応付けてその画像の使用回数（例えば、画像が画像選択部１０６で選択された回数）を格納していてもよい。画像の使用回数は、ユーザが描画する図絵についての傾向、すなわち、ユーザの嗜好に関連する。画像選択部１０６において、描画された図絵との類似度が同じ程度の画像が複数あった場合に、使用回数が多い画像を選択することにより、描画支援にユーザの嗜好を反映することができる。

以上のように、本実施形態に係る図絵作成支援装置は、音声認識を利用してユーザによって描画された図絵に合った画像を選択し、この画像を図絵に合わせて変形することで、出力画像を生成している。これにより、ユーザが所望の図絵を簡単に描画できるように描画作成の支援を行うことが可能になる。さらに、ユーザは、複数の対象（オブジェクト）を含む図絵であっても連続的に自然な動作で描くことができる。

上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した実施形態の図絵作成支援装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷなど）、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータ又は組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態の図絵作成支援装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。

また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶又は一時記憶した記録媒体も含まれる。
また、記録媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。

なお、本実施形態におけるコンピュータ又は組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０１…音声認識部、１０２…キーワード抽出部、１０３…画像蓄積部、１０４…画像検索部、１０５…特徴抽出部、１０６…画像選択部、１０７…画像変形部、１０８…表示部、３０１〜３０３…ストローク、６０１〜６０５…画像、９０１，９０２…変形画像。

Claims

ユーザが描画した図絵から特徴量を抽出する特徴抽出部と、
前記ユーザが発した音声に対して音声認識行う音声認識部と、
前記音声認識の結果から少なくとも１つのキーワードを抽出するキーワード抽出部と、
予め用意される画像の中から、前記少なくとも１つのキーワードに対応する１以上の画像を検索する画像検索部と、
前記特徴量に基づいて、前記検索された１以上の画像の中から前記図絵に合う画像を選択する画像選択部と、
前記特徴量に基づいて前記選択された画像を変形して出力画像を生成する画像変形部と、
前記出力画像を提示する提示部と、
を具備する図絵描画支援装置。
前記画像選択部は、前記特徴量に基づいて前記図絵と前記検索された１以上の画像それぞれとの間の類似度を計算し、前記類似度と所定の閾値との比較に基づいて前記図絵に類似する画像を選択する、請求項１に記載の図絵描画支援装置。
前記キーワード抽出部が複数のキーワードを抽出し、かつ、前記画像選択部が前記比較に基づいて前記検索された画像の中に前記図絵に類似する画像がないと判断した場合、前記画像検索部は、前記複数のキーワードの各々について、該キーワードに対応する１以上の画像を検索し、前記画像選択部は、前記検索された１以上の画像の中から前記図絵の一部に類似する画像を選択し、前記画像変形部は、前記複数のキーワードそれぞれに対応する複数の画像を合成する、請求項２に記載の図絵描画支援装置。
前記図絵が単純な図形であり、かつ、前記画像選択部が前記比較に基づいて前記検索された画像の中に前記図絵に類似する画像がないと判断した場合、前記画像選択部は、前記検索された１以上の画像の中から前記図絵との類似度が最も大きい画像を選択し、前記画像変形部は、前記図絵の大きさ及び位置に基づいて、前記選択された画像を変形する、請求項２に記載の図絵描画支援装置。
前記特徴抽出部は、前記音声から他の特徴量を抽出し、前記特徴量及び前記他の特徴量に基づいて前記類似度を計算する、請求項２に記載の図絵描画支援装置。
前記キーワード抽出部が複数のキーワードを抽出し場合、前記画像変形部は、前記複数のキーワードそれぞれについて選択される複数の画像を変形して複数の変形画像を生成し、前記複数の変形画像を合成して出力画像を生成する、請求項１に記載の図絵描画支援装置。
前記キーワード抽出部は、前記音声認識の結果における係り受け関係を示す関係情報を取得し、
前記画像変形部は、前記関係情報に従って前記複数の変形画像の合成方式を制御する、請求項６に記載の図絵描画支援装置。
前記関係情報は、前記キーワードと該キーワードを修飾する修飾語との係り受け関係を示す、請求項７に記載の図絵描画支援装置。
ユーザが描画した図絵から特徴量を抽出することと、
前記ユーザが発した音声に対して音声認識行うことと、
前記音声認識の結果から少なくとも１つのキーワードを抽出することと、
予め用意される画像の中から、前記少なくとも１つのキーワードに対応する１以上の画像を検索することと、
前記特徴量に基づいて、前記検索された１以上の画像の中から前記図絵に合う画像を選択することと、
前記特徴量に基づいて前記選択された画像を変形して出力画像を生成することと、
前記出力画像を提示することと、
を具備する図絵描画支援方法。
コンピュータを、
ユーザが描画した図絵から特徴量を抽出する特徴抽出手段、
前記ユーザが発した音声に対して音声認識行う音声認識手段、
前記音声認識の結果から少なくとも１つのキーワードを抽出するキーワード抽出手段、
予め用意される画像の中から、前記少なくとも１つのキーワードに対応する１以上の画像を検索する画像検索手段、
前記特徴量に基づいて、前記検索された１以上の画像の中から前記図絵に合う画像を選択する画像選択手段、
前記特徴量に基づいて前記選択された画像を変形して出力画像を生成する画像変形手段、及び
前記出力画像を提示する提示手段として機能させるための図絵描画支援プログラム。