JP6441142B2 - 検索装置、方法及びプログラム - Google Patents

検索装置、方法及びプログラム Download PDF

Info

Publication number
JP6441142B2
JP6441142B2 JP2015059922A JP2015059922A JP6441142B2 JP 6441142 B2 JP6441142 B2 JP 6441142B2 JP 2015059922 A JP2015059922 A JP 2015059922A JP 2015059922 A JP2015059922 A JP 2015059922A JP 6441142 B2 JP6441142 B2 JP 6441142B2
Authority
JP
Japan
Prior art keywords
component
weight
item
unit
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015059922A
Other languages
English (en)
Other versions
JP2016181042A (ja
Inventor
雄土 山地
雄土 山地
俊信 中洲
俊信 中洲
智行 柴田
智行 柴田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2015059922A priority Critical patent/JP6441142B2/ja
Priority to US15/076,429 priority patent/US20160283520A1/en
Publication of JP2016181042A publication Critical patent/JP2016181042A/ja
Application granted granted Critical
Publication of JP6441142B2 publication Critical patent/JP6441142B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明の実施形態は、検索装置、方法及びプログラムに関する。
従来から、ユーザが指定した1以上のキーワードをクエリに用いてコンテンツを検索する技術が知られている。例えば、特許文献1には、ユーザが1以上のキーワードの中から重きを置きたいキーワードの重要度を変更して、コンテンツを検索する技術が開示されている。
特開平9−153061号公報
しかしながら、上述したような従来技術では、検索に用いる1以上の項目のうち重きを置きたい項目の重みをユーザ自身で設定しなければならないため、操作が煩雑となり、ユーザの負荷が増加する傾向にある。
本発明が解決しようとする課題は、検索に用いられる1以上の構成要素それぞれの1以上の項目の重みに、ユーザの意図を簡易に反映してコンテンツを検索することができる検索装置、方法及びプログラムを提供することである。
実施形態の検索装置は、受付部と、抽出部と、変更部と、検索部と、表示制御部と、を備える。受付部は、1以上の構成要素それぞれの領域、属性、色、及びキーワードの少なくともいずれかの項目を指定する第1指定データの入力を受け付けるとともに、当該第1指定データを受け付けた後に、当該第1指定データを修正した第2指定データの入力を受け付ける。抽出部は、前記第1指定データに対し前記第2指定データにおいて差分が生じた構成要素である第1構成要素を抽出する。変更部は、抽出された前記第1構成要素の差分となる項目の重みを変更する。検索部は、前記第1構成要素の項目と、当該項目の変更後の重みと、前記第1指定データに対し前記第2指定データにおいて差分が生じていない構成要素である第2構成要素の項目と、当該項目の重みと、に基づいて、コンテンツを検索する。表示制御部は、前記コンテンツを表示部に表示する。
第1実施形態の検索装置の例を示す構成図。 第1実施形態の指定データの入力例の説明図。 第1実施形態の指定データの例を示す図。 第1実施形態の指定データ及び重み情報の例を示す図。 第1実施形態の時系列の指定データの例を示す図。 第1実施形態の第1構成要素の例を示す図。 第1実施形態の第1指定データの例を示す図。 第1実施形態の第2指定データの例を示す図。 第1実施形態の第2指定データの例を示す図。 第1実施形態の第2指定データの例を示す図。 第1実施形態の第2指定データの例を示す図。 第1実施形態の第2指定データの例を示す図。 第1実施形態の表示色の決定手法例の説明図。 第1実施形態の第2指定データの例を示す図。 第1実施形態の検索結果の表示例を示す図。 第1実施形態の検索結果の表示例を示す図。 第1実施形態の検索結果の表示例を示す図。 第1実施形態の処理例を示すフローチャート。 第1実施形態の指定データの例を示す図。 第1実施形態の検索結果例を示す図。 第1実施形態の指定データの例を示す図。 第1実施形態の検索結果例を示す図。 変形例2の指定データの入力例の説明図。 第2実施形態の検索装置の例を示す構成図。 第2実施形態の認識前の構成要素の例を示す図。 第2実施形態の認識後の構成要素の例を示す図。 第2実施形態の検索結果の表示例を示す図。 各実施形態及び各変形例の検索装置のハードウェア構成例を示す図。
以下、添付図面を参照しながら、実施形態を詳細に説明する。
(第1実施形態)
図1は、第1実施形態の検索装置10の一例を示す構成図である。図1に示すように、検索装置10は、入力部11と、受付部13と、第1記憶部15と、抽出部17と、変更部19と、第2記憶部21と、検索部23と、表示制御部25と、表示部27と、を備える。
検索装置10は、例えば、タブレット端末、スマートフォン、又はPC(Personal Computer)などにより実現できる。
入力部11は、例えば、デジタルペン、タッチパネルディスプレイ、マウス、及びキーボードなどの入力装置により実現できる。受付部13、抽出部17、変更部19、検索部23、及び表示制御部25は、例えば、CPU(Central Processing Unit)などの処理装置にプログラムを実行させること、即ち、ソフトウェアにより実現してもよいし、IC(Integrated Circuit)などのハードウェアにより実現してもよいし、ソフトウェア及びハードウェアを併用して実現してもよい。
第1記憶部15、及び第2記憶部21は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、メモリカード、光ディスク、RAM(Random Access Memory)、及びROM(Read Only Memory)などの磁気的、光学的、又は電気的に記憶可能な記憶装置により実現できる。表示部27は、例えば、タッチパネルディスプレイや液晶ディスプレイなどの表示装置により実現できる。
入力部11は、1以上の構成要素それぞれの領域、属性、色、及びキーワードの少なくともいずれかの項目を指定する指定データを入力する。指定データは、検索対象のコンテンツを検索するためのクエリであり、1以上の構成要素は、検索対象のコンテンツを構成する構成要素であり、領域、属性、色、及びキーワードにより当該構成要素の内容が特定される。つまり、指定データは、1以上の構成要素で構成されるレイアウトを有するコンテンツを検索対象のコンテンツとして検索するためのクエリである。
領域は、ページ上における構成要素の領域(位置及び大きさ)を示す。属性は、構成要素が文字、図、表、及び写真のいずれであるかを示すが、これに限定されるものではない。例えば、文字であればタイトルや箇条書き、図であればグラフ、フローチャート、ブロック図、又は地図、表であれば線表や押し取り表、写真であれば、自然や人工物などと属性を細分化してもよい。色は、構成要素の色を示す。キーワードは、構成要素で使用されているキーワードを示す。第1実施形態では、構成要素に対し、領域、属性、色、及びキーワードの全ての項目を指定可能であるものとするが、これに限定されるものではない。
検索対象のコンテンツは、文書作成ソフトウェア、表計算ソフトウェア、プレゼンテーションソフトウェア、及び文書閲覧ソフトウェア等で作成された文書やWebページなどのデジタル文書や、ユーザが手書きデータを入力することで作成された手書き文書などを想定しているが、これに限定されるものではなく、静止画や動画などであってもよい。例えば、検索対象のコンテンツを動画データのサムネイル画像や音楽データのアルバム画像などとすれば、動画データや音楽データを検索することもできる。
図2は、第1実施形態の指定データの入力例の説明図である。図2に示す例では、表示部27が表示する表示画面100に、入力窓101、文字ボタン102A、図ボタン102B、表ボタン102C、写真ボタン102D、色ボタン103、テキストボックス105、キーワードボタン106、検索ボタン107、及び検索結果表示領域108が配置されている。
ユーザは、入力部11からカーソル104を操作する入力を行うことで、入力窓101上に構成要素の領域、属性、色、及びキーワードを入力でき、指定データを入力できる。
例えば、ユーザは、カーソル104を操作して入力窓101上に矩形や自由曲線で描かれた閉ループを入力することで、構成要素の領域を入力する。
また例えば、ユーザは、カーソル104を操作して、入力窓101上の構成要素を選択し、文字ボタン102A、図ボタン102B、表ボタン102C、及び写真ボタン102Dのいずれかを選択することで、当該構成要素の属性を入力する。第1実施形態では、文字ボタン102Aを選択すると構成要素の属性は文字となり、図ボタン102Bを選択すると構成要素の属性は図となり、表ボタン102Cを選択すると構成要素の属性は表となり、写真ボタン102Dを選択すると構成要素の属性は写真となる。
また例えば、ユーザは、カーソル104を操作して、入力窓101上の構成要素を選択し、色ボタン103のカラーパレットのいずれかを選択することで、当該構成要素の色を入力する。
また例えば、ユーザは、カーソル104を操作して、入力窓101上の構成要素を選択し、テキストボックス105にキーワードを入力してキーワードボタン106を選択することで、当該構成要素のキーワードを入力する。
図2に示す例では、入力窓101上に、構成要素110A、構成要素110Bが入力されている。なお、構成要素110Aの属性は文字、色は黒、キーワードは無であり、構成要素110Bの属性は図、色は赤、キーワードは無である。
そして、ユーザは、カーソル104を操作して検索ボタン107を選択することで、入力窓101上に入力された指定データをクエリとして検索対象のコンテンツが検索され、検索結果が検索結果表示領域108に表示される。
受付部13は、入力部11から指定データの入力を受け付け、第1記憶部15に記憶する。例えば、受付部13は、検索ボタン107が選択される毎に、入力窓101上に入力された指定データを受け付け(図2参照)、第1記憶部15に記憶する。
一般的にコンテンツ検索では、ユーザは、所望するコンテンツが検索されるまで、クエリを修正しながら検索を繰り返す。このため第1実施形態では、受付部13は、前回の指定データから修正された指定データを時系列の順に受け付け、第1記憶部15に記憶する。この結果、第1記憶部15は、前回の指定データから修正された指定データが時系列の順に記憶される。
なお、受付部13は、入力窓101上に入力された指定データ(図2参照)を全消去する入力を受け付けた場合、第1記憶部15に時系列で記憶されている指定データを全て削除する。これは、ユーザが所望するコンテンツの検索が終了したか、最初から検索をやり直すと判断できるためである。
以下では、受付部13が受け付けた最新の指定データを第2指定データ、第2指定データ以前に受付部13が受け付けた指定データを第1指定データと称する。第1実施形態では、第1指定データが受付部13により第2指定データの1つ前に受け付けられた指定データである場合、即ち、第1指定データの入力の次に第2指定データの入力が受け付けられた場合を例に取り説明するが、これに限定されるものではない。
第1記憶部15は、第1指定データと、当該第1指定データの1以上の構成要素それぞれの項目の重みを示す重み情報と、を対応付けて記憶する。
例えば、図3に示すように、第1指定データが構成要素110D及び構成要素110Eで構成されている場合、第1指定データ及び重み情報は、図4に示すような態様で第1記憶部15に記憶される。
検索クエリ群ID:1は第1指定データのIDであり、検索クエリID:1は構成要素110DのIDであり、検索クエリID:2は構成要素110EのIDである。
領域は、中心座標(x,y)、幅(wide)、高さ(height)で表され、属性は、文字、図、表、写真、及びNullのいずれかで表され、色は、RGBで表され、キーワードは、キーワードそのもの、又はNullで表される。なお、Nullは無を表す。
領域、属性、色、及びキーワードの各重みは、図4に示す例では、デフォルト値の1.0が設定されているが、後述の変更部19により重みが変更された場合には、変更後の重みが設定される。
なお第1記憶部15には、第2指定データも上述の態様で記憶されているが、第2指定データの重み情報については、後述の変更部19により記憶される。
抽出部17は、第1指定データに対し第2指定データにおいて差分が生じた構成要素である第1構成要素を抽出する。
例えば、抽出部17は、第1指定データの構成要素の検索クエリIDと第2指定データの構成要素の検索クエリIDとを比較し、第1指定データに存在しない検索クエリIDの構成要素が第2指定データに存在すれば、当該構成要素を第1構成要素として抽出する。
また例えば、抽出部17は、検索クエリIDが一致する第1指定データの構成要素と第2指定データの構成要素との領域、属性、色、キーワードをそれぞれ比較し、いずれかの項目が一致しなければ、当該構成要素を第1構成要素として抽出する。
例えば、図5に示す例において、構成要素110F及び構成要素110Gで構成されている指定データが第1指定データであり、構成要素110F及び構成要素110Hで構成されている指定データが第2指定データであり、構成要素110Gの色を黒から赤に修正したものが構成要素110Hであるとする。この場合、構成要素110Gと構成要素110Hの検索クエリIDは一致するが、色が一致しないため、抽出部17は、図6に示すように、構成要素110Hを第1構成要素として抽出する。
なお、抽出部17は、第1指定データの構成要素の検索クエリIDと第2指定データの構成要素の検索クエリIDとを比較し、第2指定データに存在しない検索クエリIDの構成要素が第1指定データに存在しても、当該構成要素を第1構成要素として抽出しない。これは、ユーザが、第2指定データにおいて当該構成要素を検索に使用しないという意図で削除しているためである。
変更部19は、抽出部17により抽出された第1構成要素の差分となる項目の重みを変更する。変更部19は、第1構成要素の差分となる項目が領域の場合、当該領域の重みを変更し、第1構成要素の差分となる項目が属性の場合、当該属性の重みを変更し、第1構成要素の差分となる項目が色の場合、当該色の重みを変更し、第1構成要素の差分となる項目がキーワードの場合、当該キーワードの重みを変更する。
例えば、第1指定データが、図7に示すように、構成要素110I及び構成要素110Jで構成されている指定データであり、第2指定データが、図8に示すように、構成要素110I及び構成要素110Kで構成されている指定データであり、構成要素110Jの色を黒から赤に修正したものが構成要素110Kであるとする。この場合、構成要素110Kの色が第1構成要素の差分となる項目として抽出部17により抽出されるので、変更部19は、構成要素110Kの色の重みを変更する。
また例えば、第1指定データが、図7に示す指定データであり、第2指定データが、図9に示すように、構成要素110I及び構成要素110Lで構成されている指定データであり、構成要素110Jの領域を修正したものが構成要素110Lであるとする。この場合、構成要素110Lの領域が第1構成要素の差分となる項目として抽出部17により抽出されるので、変更部19は、構成要素110Lの領域の重みを変更する。
また例えば、第1指定データが、図7に示す指定データであり、第2指定データが、図10に示すように、構成要素110I及び構成要素110Mで構成されている指定データであり、構成要素110Jの属性を写真から図に修正したものが構成要素110Mであるとする。この場合、構成要素110Mの属性が第1構成要素の差分となる項目として抽出部17により抽出されるので、変更部19は、構成要素110Mの属性の重みを変更する。
また例えば、第1指定データが、図7に示す指定データであり、第2指定データが、図11に示すように、構成要素110N及び構成要素110Jで構成されている指定データであり、構成要素110Iのキーワードをワードからワード2に修正したものが構成要素110Nであるとする。この場合、構成要素110Nのキーワードが第1構成要素の差分となる項目として抽出部17により抽出されるので、変更部19は、構成要素110Nのキーワードの重みを変更する。
また例えば、第1指定データが、図7に示す指定データであり、第2指定データが、図12に示すように、構成要素110I及び構成要素110Oで構成されている指定データであり、構成要素110Jを2重入力したものが構成要素110Oであるとする。この場合、構成要素110Oの領域、属性、色、及びキーワードの全ての項目が第1構成要素の差分となる項目として抽出部17により抽出されるので、変更部19は、構成要素110Oの各項目の重みを変更する。
なお、抽出部17により第1指定データに存在しない構成要素が第1構成要素として抽出された場合、第1構成要素の差分となる項目は、領域、属性、色、及びキーワードのうち値がNullでない項目であり、変更部19は、当該項目の重みを変更する。
具体的には、変更部19は、第1記憶部15から第1指定データの重み情報を取得して第2指定データの重み情報とし、当該重み情報が第1構成要素の差分となる項目の重みを示す場合、当該重みを変更し、当該重み情報が第1構成要素の差分となる項目の重みを示さない場合、デフォルトの重みを変更する。
なお、変更部19は、抽出部17により抽出された第1構成要素の差分となる項目の重みを変更する場合、当該項目の重みを一定値変更する。従って、変更部19は、第2指定データの重み情報が第1構成要素の差分となる項目の重みを示す場合、当該重みに一定値を加算した重みを当該項目の重みとし、当該重み情報が第1構成要素の差分となる項目の重みを示さない場合、デフォルトの重みに一定値を加算した重みを当該項目の重みとする。
そして、変更部19は、変更後の重み情報を第2指定データに対応付けて、第1記憶部15に記憶する。
このように、第1指定データの重み情報を第2指定データの重み情報とし、当該重み情報が示す重みを変更するため、過去の指定データの重みも最新の指定データの重みに反映できる。
例えば、図5に示す例の場合、前述したように、構成要素110Hの色が第1構成要素の差分となる項目として抽出部17により抽出されるので、変更部19は、構成要素110Hの色の重みを変更する。
ここで、構成要素110Fで構成されている指定データをt−2の時点の第1指定データ、構成要素110F及び構成要素110Gで構成されている指定データをt−1の時点の第1指定データとすると、t−1の時点の第1指定データは、t−2の時点の第1指定データに対し、構成要素110Gが追加されている。なお、構成要素110Gでは、キーワードはNullであるとする。
このため、t−2の時点の第1指定データと第2指定データとを比較した場合、差分は、構成要素110Gの領域、属性、及び色×2となるが、t−1の時点の第1指定データの重み情報には、構成要素110Gの領域、属性、及び色の重みの変更が反映されている。
従って、変更部19は、t−1の時点の第1指定データの重み情報を第2指定データの重み情報とし、構成要素110Hの色の重みを変更すれば、t−2の時点の第1指定データから第2指定データまでの差分の重みを全て第2指定データの重み情報に反映できる。
なお、ここでは、第1構成要素の差分となる項目の重みの変更として一定値変更する例について説明したが、これに限定されず、第1構成要素の差分となる項目の重みを当該項目の修正度合いに応じて変更するようにしてもよい。
例えば、変更部19は、第1構成要素の差分となる項目が領域の場合、第1指定データの第1構成要素の領域と第2指定データの第1構成要素の領域との差分を、重なり率、重心距離、面積比、及び形状変化(縦横比等)などの情報を用いて算出し、算出した値を0.0〜1.0に正規化する。そして、変更部19は、第2指定データの重み情報が第1構成要素の領域の重みを示す場合、当該重みに正規化した値を加算した重みを当該領域の重みとし、当該重み情報が第1構成要素の領域の重みを示さない場合、デフォルトの重みに正規化した値を加算した重みを当該領域の重みとしてもよい。
また例えば、変更部19は、第1構成要素の差分となる項目が属性の場合、第1指定データの第1構成要素の属性と第2指定データの第1構成要素の属性との差分を、属性間の関連性などの情報を用いて算出し、算出した値を0.0〜1.0に正規化する。属性間の関連性は、近いほど値が小さい。例えば、表には文字が多く含まれているので、表と文字との関連性は近く、写真には文字や罫線が含まれていないので、表と写真との関連性は遠いなどとすることができる。なお単純に、属性が一致すれば、正規化した値は0.0、属性が一致しなければ、正規化した値は1.0、などとしてもよい。そして、変更部19は、第2指定データの重み情報が第1構成要素の属性の重みを示す場合、当該重みに正規化した値を加算した重みを当該属性の重みとし、当該重み情報が第1構成要素の属性の重みを示さない場合、デフォルトの重みに正規化した値を加算した重みを当該属性の重みとしてもよい。
また例えば、変更部19は、第1構成要素の差分となる項目が色の場合、第1指定データの第1構成要素の色と第2指定データの第1構成要素の色との差分を、RGB色空間上の距離、HSV色空間上の距離、又はL*a*b*色空間上の距離などの情報を用いて算出し、算出した値を0.0〜1.0に正規化する。そして、変更部19は、第2指定データの重み情報が第1構成要素の色の重みを示す場合、当該重みに正規化した値を加算した重みを当該色の重みとし、当該重み情報が第1構成要素の色の重みを示さない場合、デフォルトの重みに正規化した値を加算した重みを当該色の重みとしてもよい。
また例えば、変更部19は、第1構成要素の差分となる項目がキーワードの場合、第1指定データの第1構成要素のキーワードと第2指定データの第1構成要素のキーワードとの差分を、変更された文字数の割合や意味の類似性などの情報を用いて算出し、算出した値を0.0〜1.0に正規化する。そして、変更部19は、第2指定データの重み情報が第1構成要素のキーワードの重みを示す場合、当該重みに正規化した値を加算した重みを当該キーワードの重みとし、当該重み情報が第1構成要素のキーワードの重みを示さない場合、デフォルトの重みに正規化した値を加算した重みを当該キーワードの重みとしてもよい。
なお、意味の類似性の算出手法については、例えば、グエン・ベト・ハー他:“単語の意味の類似性判別のための大規模概念ベース”,情報処理学会論文誌 Vo.23 No.10、2002.に開示されている。
第2記憶部21は、複数のコンテンツを記憶する。コンテンツは、前述の通り、文書やWebページなどのデジタル文書、及び手書き文書などが挙げられる。
検索部23は、第1構成要素の項目と、当該項目の変更後の重みと、第1指定データに対し第2指定データにおいて差分が生じていない構成要素である第2構成要素の項目と、当該項目の重みと、に基づいて、コンテンツを検索する。
第2構成要素の項目の重みは、第2指定データの重み情報が示す第2構成要素の項目の重みである。なお、第2構成要素の項目の重みは、変更部19により変更されていないため、第2指定データの重み情報が示す第2構成要素の項目の重みは、第1指定データの重み情報が示す第2構成要素の項目の重みと同一である。
具体的には、検索部23は、第2記憶部21に記憶されている複数のコンテンツそれぞれ毎に、第1構成要素の項目との第1類似度を算出して当該第1構成要素の項目の変更後の重みを乗じ第1重み付き類似度を算出するとともに、第2構成要素の項目との第2類似度を算出して当該第2構成要素の項目の重みを乗じ第2重み付き類似度を算出して、第1重み付き類似度と第2重み付き類似度とを平均化した尤度を算出する。そして検索部23は、複数のコンテンツの中から尤度が閾値(第1閾値の一例)を超えるコンテンツを検索する。
なお、第2記憶部21に記憶されているコンテンツがデジタル文書の場合、メタ情報などとして、当該コンテンツの構成要素の領域、属性、色、及びキーワードを特定可能な情報を含んでいる。このため、コンテンツがデジタル文書の場合、当該コンテンツを解析することで、構成要素の領域、属性、色、及びキーワードを特定できる。
但し、構成要素が写真などラスタライズされたオブジェクトの場合、当該オブジェクトを解析して色を特定する。例えば、色空間を等分したビンを用意し、オブジェクトの各ピクセルの色情報を最も近いビンに投票をしていくことで色ヒストグラムを生成し、この色ヒストグラムを構成要素の色に用いてもよい。なお、色ヒストグラムの各ビンに対して、値が閾値以上であれば当該値を1、値が閾値以上であれば当該値を0に変更してもよい。このようにすれば、色ヒストグラムが背景色に支配されにくく、ワンポイントの色を特定しやすくなる。
また、第2記憶部21に記憶されているコンテンツが手書き文書の場合も、手書きデータを構成するストロークそれぞれが属するクラスや位置を解析することで、当該コンテンツの構成要素の領域、属性、色、及びキーワードを特定できる。クラスは、例えば、文字、図形、表、画像、絵、数式、地図、及びユーザが追記したメモなどの少なくともいずれかである。
なお、ストロークが属するクラスは、ストロークの集合を空間的又は時間的まとまりで構造化し、構造化した構造単位で、当該構造に帰属するストロークが属するクラスを決定する手法や、ストローク毎に、当該ストロークの周囲に存在する1以上の周辺ストロークを抽出し、当該ストロークと抽出した1以上の周辺ストロークとの組合せの特徴に関する組合せ特徴量を算出し、算出した組合せ特徴量で当該ストロークが属するクラスを決定する手法などで決定しておけばよい。
組合せ特徴量は、対象ストロークと1以上の周辺ストロークの少なくともいずれかとの関係を示す第1特徴量を含む。また、組合せ特徴量は、対象ストロークの形状に関する特徴量と1以上の周辺ストロークそれぞれの形状に関する特徴量との総和である総和値を用いた第2特徴量を含む。
第1特徴量は、対象ストロークと1以上の周辺ストロークの少なくともいずれかとの形状の類似度、及び対象ストロークと1以上の周辺ストロークの少なくともいずれかとの位置関係を特定する特定値の少なくとも一方である。
形状の類似度は、例えば、対象ストロークと1以上の周辺ストロークの少なくともいずれかとの長さ、曲率総和、主成分方向、外接矩形面積、外接矩形長、外接矩形縦横比、始点・終点距離、方向密度ヒストグラム、及び屈曲点数の少なくともいずれかの類似度である。つまり、形状の類似度は、例えば、対象ストロークのストローク特徴量と1以上の周辺ストロークの少なくともいずれかのストローク特徴量との類似度とすることができる。
特定値は、例えば、対象ストロークと1以上の周辺ストロークの少なくともいずれかとの外接矩形の重なり率、重心距離、重心距離の方向、端点距離、端点距離の方向、及び交差点数の少なくともいずれかである。
第2特徴量は、例えば、組合せの外接矩形長に対する対象ストロークの長さと1以上の周辺ストロークそれぞれの長さとの総和の比、対象ストローク及び1以上の周辺ストロークの方向密度ヒストグラムの総和値、及び組合せの外接矩形面積に対する対象ストロークの外接矩形面積と1以上の周辺ストロークそれぞれの外接矩形面積との総和の比の少なくともいずれかである。
ここで、コンテンツの検索手法について説明する。
まず、検索部23は、第2記憶部21から尤度を未算出のコンテンツを取得し、第1構成要素と、当該コンテンツを構成する各構成要素との領域の類似度を算出する。領域の類似度は、重なり率、重心距離、面積比、及び形状変化(縦横比等)などを用いて算出する。
次に、検索部23は、第1構成要素と、各構成要素のうち第1構成要素との領域の類似度が最も高い構成要素(以下、「対応構成要素」と称する)との属性、色、及びキーワードの類似度を算出する。
色の類似度は、第1構成要素のRGBに対応する色ヒストグラムの所定のビンと対応構成要素のRGBに対応する色ヒストグラムの所定のビンとの類似度とすることができる。所定のビンは、例えば、指定データで指定された色のビンなどとできる。なお、指定データで複数色が指定された場合、指定された各色のビンをヒストグラムにして類似度とすればよい。ヒストグラム間の類似度は、Bhattacharyya距離を算出することで求められる。
属性の類似度は、一致すれば、1.0、属性が一致しなければ、0.0などとすることができる。なお、変更部19で説明したように、属性間の関連性などの情報を用いて類似度を求めてもよい。
キーワードの類似度は、第1構成要素のキーワードが対応構成要素内の文字列に含まれていれば、1.0、含まれていなければ、0.0などとしてもよいし、対応構成要素内の文字列を構成する各単語と第1構成要素とのキーワードの類似度を算出し、最も値の大きい類似度などとしてもよい。類似度の算出は、変更部19で説明した方法を用いればよい。
そして、検索部23は、第1構成要素の領域の類似度、色の類似度、属性の類似度、キーワードの類似度に、それぞれ、第1指定データの重み情報が示す第1構成要素の領域の重み、色の重み、属性の重み、キーワードの重みを掛け合わせ、合算することで、第1重み付き類似度を算出する。
更に、検索部23は、第2重み付き類似度についても第1重み付き類似度と同様の手法で算出し、第1重み付き類似度と第2重み付き類似度とを平均化した尤度を算出する。
検索部23は、第2記憶部21に記憶された各コンテンツに対し、上述の手法で尤度を求め、尤度が閾値を超えるコンテンツを検索する。
なお検索部23は、第1類似度を算出する場合、差分となる項目の修正度合いに応じた類似度算出手法で算出してもよい。具体的には、検索部23は、修正度合いが閾値(第2閾値の一例)未満の場合、類似度が高くなりにくい類似度算出手法で算出し、修正度合いが閾値(第2閾値の一例)以上の場合、類似度が高くなりやすい類似度算出手法で算出してもよい。なお、修正度合いについては、変更部19で説明した方法で求めることができる。
類似度が高くなりにくい類似度算出手法とは、具体的には、類似性を詳細に判断する手法が挙げられる。この場合、領域であれば、形状変化を重視して領域の類似度を求めればよい。また、属性であれば、対応構成要素の内容を用いて、属性の類似度を求めればよい。また、色であれば、色ヒストグラムの色割合を用いて、色の類似度を求めればよい。また、キーワードであれば、対応構成要素に含まれる当該キーワードの位置を考慮してキーワードの類似度を求めればよい。
類似度が高くなりやすい類似度算出手法とは、具体的には、類似性を簡易に判断する手法が挙げられる。この場合、領域であれば、第1構成要素の領域を一定割合変倍して領域の類似度を求めればよい。また、属性であれば、属性間の関連性を広げて、属性の類似度を求めればよい。また、色であれば、色空間上で近接する色ヒストグラムのビンを用いて、色の類似度を求めればよい。また、キーワードであれば、単語間の関連性を広げて、キーワードの類似度を求めればよい。
表示制御部25は、検索部23により検索されたコンテンツを表示部27(例えば、図2の検索結果表示領域108)に表示する。なお表示制御部25は、第1構成要素及び第2構成要素の少なくともいずれかを、検索されたコンテンツに重畳して表示してもよい。
例えば、第1構成要素及び第2構成要素のうち最も領域の類似度が高い構成要素に対応するオブジェクトを、検索されたコンテンツに重畳して表示してもよいし、第1構成要素及び第2構成要素それぞれに対応するオブジェクトを、検索されたコンテンツに重畳して表示してもよい。
また、重畳するオブジェクトの色を検索部23により算出された領域の類似度、属性の類似度、色の類似度、及びキーワードの類似度に応じて変更してもよい。例えば、図13に示すように、領域一致度(領域の類似度)、色一致度(色の類似度)、内容一致度(属性の類似度とキーワードの類似度との平均値)を、それぞれ、RGBに対応させることで定まる色にオブジェクトの色を変更してもよい。
例えば、第2指定データが、図14に示すように、構成要素110P及び構成要素110Qで構成されている指定データであり、最も領域一致度が高い構成要素が構成要素110Pであるとする。この場合、表示制御部25は、図15に示すように、検索されたコンテンツ160に対し、構成要素110Pに対応するオブジェクト151Pを重畳して表示し、オブジェクト151Pの色を、上述の手法で定まる色としている。
また例えば、図13に示すように、領域一致度(領域の類似度)、色一致度(色の類似度)、内容一致度(属性の類似度とキーワードの類似度との平均値)で定まる三角形の面積に応じて、オブジェクトの色を変更してもよい。
例えば、第2指定データが、図14に示すように、構成要素110P及び構成要素110Qで構成されている指定データであるとする。この場合、表示制御部25は、図16に示すように、検索されたコンテンツ160に対し、構成要素110Pに対応するオブジェクト151Pを重畳するとともに、構成要素110Qに対応するオブジェクト151Qを重畳して表示し、オブジェクト151P及びオブジェクト151Qの色を、上述の手法で定まる色としている。
また例えば、図13に示すように、領域一致度(領域の類似度)、色一致度(色の類似度)、内容一致度(属性の類似度とキーワードの類似度との平均値)で定まる三角形をオブジェクトに合成して重畳してもよい。
例えば、第2指定データが、図14に示すように、構成要素110P及び構成要素110Qで構成されている指定データであるとする。この場合、表示制御部25は、図17に示すように、検索されたコンテンツ160に対し、構成要素110Pに対応するオブジェクト152Pを重畳するとともに、構成要素110Qに対応するオブジェクト152Qを重畳して表示し、オブジェクト152P及びオブジェクト152Qに、上述の手法で定まる三角形を合成している。
なお、重畳するオブジェクトの色を、各項目の類似度ではなく各項目の重みに応じて変更してもよい。この場合、上述した手法における各項目の類似度を各項目の重みに置き換えればよい。
また、表示制御部25は、検索部23により複数のコンテンツが検索された場合、検索されたコンテンツを尤度の高い順に、検索結果表示領域108(図2参照)に表示する。また、表示制御部25は、最新の指定データ(第2指定データ)だけでなく、過去の指定データ(第1指定データ)も考慮して検索されている旨を更に表示してもよい。
図18は、第1実施形態の検索装置10で行われる処理の手順の流れの一例を示すフローチャートである。
まず、受付部13は、入力部11から今回の指定データの入力を受け付け、第1記憶部15に記憶する(ステップS101)。
続いて、抽出部17は、第1記憶部15から前回の指定データを取得し(ステップS103)、前回の指定データに対し今回の指定データにおいて差分が生じた構成要素である第1構成要素を抽出する(ステップS105)。
続いて、変更部19は、第1記憶部15から前回の指定データの重み情報を取得して今回の指定データの重み情報とし、当該重み情報が第1構成要素の差分となる項目の重みを示す場合、当該重みを変更し、当該重み情報が第1構成要素の差分となる項目の重みを示さない場合、デフォルトの重みを変更し、変更後の重み情報を今回の指定データに対応付けて、第1記憶部15に記憶する(ステップS107)。
続いて、検索部23は、第2記憶部21に記憶されている複数のコンテンツそれぞれ毎に、第1構成要素の項目との第1類似度を算出して当該第1構成要素の項目の変更後の重みを乗じ第1重み付き類似度を算出するとともに、第2構成要素の項目との第2類似度を算出して当該第2構成要素の項目の重みを乗じ第2重み付き類似度を算出して、第1重み付き類似度と第2重み付き類似度とを平均化した尤度を算出し、複数のコンテンツの中から尤度が閾値を超えるコンテンツを検索する(ステップS109)。
続いて、表示制御部25は、検索部23により検索されたコンテンツを表示部27に表示する(ステップS111)。
続いて、処理が終了されず、再検索が行われる場合(ステップS113でNo)、ステップS101へ戻り、再検索が行われない場合(ステップS113でYes)、処理を終了する。
以上のように第1実施形態によれば、クエリである指定データを修正すると、修正された構成要素の項目の重みが自動的に変更されるため、構成要素の項目の重みにユーザ検索意図を簡易に反映してコンテンツを検索することができる。
例えば、図19に示すように、構成要素110R及び構成要素110Sで構成されている指定データでコンテンツを検索した結果、図20に示す各コンテンツが検索されたとする。構成要素110Sの色は黒であるため、図20に示す各コンテンツにおいて構成要素110Sに対応する構成要素161〜163は、いずれも黒や紺など黒に近い色の構成要素となる。
ここで、ユーザが所望するコンテンツの構成要素110Sに対応する構成要素の色は、赤であるため、図21に示すように、構成要素110Rと、構成要素110Sの色を黒から赤に変更した構成要素110Tで構成されている指定データでコンテンツを再検索したとする。
この場合、第1実施形態では、構成要素110Tの色の重みが大きくなるため、再検索では、構成要素110Tの色に重きを置いた検索が行われ、図22に示すように、再検索された各コンテンツにおいて構成要素110Tに対応する構成要素164〜166は、いずれも赤色の構成要素となる。
なお、構成要素110Tの色に重きを置かずに検索が行われた場合、再検索された各コンテンツにおいて構成要素110Tに対応する構成要素は、赤色以外の構成要素も含まれることが想定され、図22に示すような再検索結果は得られない。
(変形例1)
上記実施形態では、第1構成要素の差分となる項目の重みを増やす例について説明したが、増減を指定できるようにしてもよい。この場合、図2に示す画面において、増減を指定するボタンを追加すればよい。そして、変更部19は、増が指定されている場合、第1構成要素の差分となる項目の重みを増やし、減が指定されている場合、第1構成要素の差分となる項目の重みを減らせばよい。
(変形例2)
上記実施形態において、検索結果から指定データの構成要素を指定できるようにしてもよい。例えば、図23に示す例において、検索結果表示領域108に表示されているコンテンツ120内の下部の図形を選択することで、入力窓101に構成要素110Cを入力できるようにしてもよい。
(第2実施形態)
第2実施形態では、指定データを手書き入力する例について説明する。以下では、第1実施形態との相違点の説明を主に行い、第1実施形態と同様の機能を有する構成要素については、第1実施形態と同様の名称・符号を付し、その説明を省略する。
図24は、第2実施形態の検索装置1010の一例を示す構成図である。図24に示すように、第2実施形態では、検索装置1010は、認識部1014、抽出部1017、変更部1019、及び表示制御部1025が、第1実施形態と相違する。
入力部11は、指定データを手書きして入力する。例えば、入力部11は、図2に示す入力窓101にデジタルペンなどで手書きされた指定データを入力する。
認識部1014は、受付部13により受け付けられた指定データを認識し、認識前の指定データと認識後の指定データとを対応付けて第1記憶部15に記憶する。
指定データが手書きされる場合、指定データは、ペンダウンからペンアップまでのストロークの時系列の集合で表される。各ストロークは、時系列に並ぶ(x,y)の2次元の点情報の集合、当該ストロークの色、及び当該ストロークの筆圧などで表される。
認識部1014は、指定データから閉ループを構成するストローク群を、構成要素の領域に認識する。また認識部1014は、閉ループを構成するストローク群に内包されるストローク群を文字認識し、文字、図、表、及び写真など属性を表す単語であれば、当該構成要素の属性を文字認識された単語の属性とし、属性以外を表す単語であれば、当該構成要素のキーワードを文字認識された単語とする。
例えば、図25に示すように、指定データ内に、閉ループを構成するストローク群171と当該ストローク群171に内包されるストローク群172とがある場合、認識部1014は、図26に示すように、ストローク群171を構成要素の領域173に認識し、ストローク群172を構成要素の属性(文字)174に認識する。
また認識部1014は、閉ループを構成するストローク群及び当該ストローク群に内包されるストローク群の色をヒストグラム化し、当該構成要素の色に認識する。ストローク群が複数色を含んでいる場合、同一色のストロークの本数を色ヒストグラムのビンに投票をしてもよいし、ストロークの長さに応じて投票する値を変えてもよい。
また認識部1014は、ストロークの筆圧から変形例1で説明した重みの増減の指定を認識してもよい。この場合、閉ループを構成するストローク群及び当該ストローク群に内包されるストローク群の各ストロークに筆圧を平均化し、閾値以上であれば、閉ループを構成するストローク群及び当該ストローク群に内包されるストローク群から認識される構成要素に対し重みの増が指定されていると認識し、閾値未満であれば当該構成要素に対し重みの減が指定されていると認識すればよい。
また認識部1014は、閉ループを構成するストローク群及び当該ストローク群に内包されるストローク群が2度書きされている場合や、内包されるストローク群に丸囲いや下線のストロークが含まれる場合、閉ループを構成するストローク群及び当該ストローク群に内包されるストローク群から認識される構成要素に対し重みの増が指定されていると認識してもよい。
2度書きについては、互いのストロークの一致する割合が閾値以上なら、2度書きと認識すればよい。
丸囲いについては、閉ループを構成するストローク群に内包されるストローク群に、始点と終点が一定距離以内、かつ、長さが外接矩形の対角長の一定倍以上のストロークがあり、当該ストローク内に更にストローク群があれば、当該ストロークを丸囲いと認識すればよい。なお、外接矩形は当該ストロークに外接する矩形である。
なお、丸囲いが一筆書きで何重にも繰り返されている場合、繰り返し回数により重みの変更量の指定を認識するようにしてもよい。この場合、自ストロークとの交点の数が閾値以上であれば丸囲いが一筆書きで何重にも繰り返されていると認識し、始点の近くを通った回数を繰り返し回数として認識すればよい。
下線については、閉ループを構成するストローク群に内包されるストローク群に、始点と終点が一定距離以上、かつ曲率が一定以内のストロークがあり、当該ストローク外接矩形を上方向に一定の幅拡張した矩形内に更にストローク群があれば、当該ストロークを下線と認識すればよい。
また認識部1014は、閉ループを構成するストローク群に内包されるストローク群から“!”という文字を認識した場合には、閉ループを構成するストローク群及び当該ストローク群に内包されるストローク群から認識される構成要素に対し重みの増が指定されていると認識し、閉ループを構成するストローク群に内包されるストローク群から“?”という文字を認識した場合には、閉ループを構成するストローク群及び当該ストローク群に内包されるストローク群から認識される構成要素に対し重みの減が指定されていると認識してもよい。
抽出部1017は、認識部1014により認識された第1指定データに対し認識部1014により認識された第2指定データから第1構成要素を抽出する。なお抽出部1017は、差分が認識部1014の認識誤りに伴う修正により生じた場合、当該差分が生じた構成要素を第1構成要素として抽出しない。
例えば、指定データにおいて手書きした構成要素が、ユーザの意図通りに認識されなかったため、当該構成要素を書き直した結果ユーザの意図通りに認識されたとする。この場合、第1指定データの構成要素がユーザの意図通りに認識されなかった構成要素、第2指定データの構成要素がユーザの意図通りに認識された構成要素として、差分が抽出されることは好ましくない。
このため、抽出部1017は、まず、第1指定データの構成要素であるユーザの意図通りに認識されなかった構成要素のストローク群と第2指定データの構成要素であるユーザの意図通りに認識された構成要素のストローク群との類似度を算出し、類似度が閾値以上であれば、この差分が生じた構成要素を第1構成要素として抽出しない。
つまり、差分が生じた構成要素の類似度が閾値以上であれば、差分が認識部1014の認識誤りに伴う修正により生じたと判断し、ユーザの意図通りに認識されなかった構成要素が入力される前の指定データを第1指定データとして、第1構成要素の抽出をやり直す。
なお、ストローク群間の類似度の算出は例えば、Tomoyuki Shibata et.al.: “Fast and Memory Efficient Online Handwritten Strokes Retrieval Using Binary Descriptor”, ACPR2013, 2013.に開示されている。
変更部1019は、抽出部1017により抽出された第1構成要素の差分となる項目の重みを変更する。なお変更部1019は、第1構成要素への増の指定が認識部1014により認識されている場合、当該第1構成要素の差分となる項目の重みを増やし、第1構成要素への減の指定が認識部1014により認識されている場合、当該第1構成要素の差分となる項目の重みを減らす。
また変更部1019は、抽出部1017により領域、属性、色、及びキーワードのうち2以上の項目が修正された第1構成要素が抽出されている場合、当該2以上の項目のうち修正度合いが閾値(第3閾値の一例)を超えている項目の重みを変更する。
例えば、第1指定データの構成要素の属性を第2指定データにおいて修正する際に、当該構成要素の属性だけでなく領域の一部も削除してしまったため、当該構成要素の属性及び領域の一部を書き直したとする。この場合、当該構成要素の領域についても重みを変更することは、ユーザの意図に反する。このため、変更部1019は、2以上の項目が修正された第1構成要素が抽出されている場合、当該2以上の項目のうち修正度合いが閾値を超えている項目の重みを変更する。これにより、書き直しが修正とみなされてしまうことを防止できる。なお、修正度合いは、第1実施形態で説明した通り、正規化されているため、閾値は、各項目共通で用いることができる。
表示制御部1025は、検索部23により検索されたコンテンツを表示部27(例えば、図2の検索結果表示領域108)に表示する。なお表示制御部1025は、図27に示すように、手書きの構成要素を、検索されたコンテンツに重畳して表示してもよい。図27に示す例では、構成要素181及び182で構成されるコンテンツに対し、手書きの構成要素110R及び110Sが重畳して表示されている。
以上のように第2実施形態においても第1実施形態と同様の効果を奏することができる。
(変形例3)
上記第2実施形態で説明した重みの変更量の指定や書き直しを修正とみなさないための処理などを上記第1実施形態で行うようにしてもよい。
(変形例4)
上記各実施形態では、検索装置が第2記憶部を備える例について説明したが、検索装置の外部(例えば、クラウド上)に第2記憶部を設けるようにしてもよい。また、検索装置が備える第2記憶部以外の構成をクラウド化してもよいし、複数の装置に分散して検索装置を実現してもよい。
(ハードウェア構成)
図28は、上記各実施形態及び各変形例の検索装置のハードウェア構成の一例を示す図である。上記実施形態及び各変形例の検索装置は、CPUなどの制御装置901と、ROMやRAMなどの記憶装置902と、HDDなどの外部記憶装置903と、ディスプレイなどの表示装置904と、キーボードやマウスなどの入力装置905と、通信インタフェースなどの通信装置906と、を備えており、通常のコンピュータを利用したハードウェア構成となっている。
上記各実施形態及び各変形例の検索装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、CD−R、メモリカード、DVD(Digital Versatile Disk)、フレキシブルディスク(FD)等のコンピュータで読み取り可能な記憶媒体に記憶されて提供される。
また、上記各実施形態及び各変形例の検索装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するようにしてもよい。また、上記各実施形態及び各変形例の検索装置で実行されるプログラムを、インターネット等のネットワーク経由で提供または配布するようにしてもよい。また、上記各実施形態及び各変形例の検索装置で実行されるプログラムを、ROM等に予め組み込んで提供するようにしてもよい。
上記各実施形態及び各変形例の検索装置で実行されるプログラムは、上述した各部をコンピュータ上で実現させるためのモジュール構成となっている。実際のハードウェアとしては、CPUがHDDからプログラムをRAM上に読み出して実行することにより、上記各部がコンピュータ上で実現されるようになっている。
なお、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせても良い。
例えば、上記第1実施形態のフローチャートにおける各ステップを、その性質に反しない限り、実行順序を変更し、複数同時に実施し、あるいは実施毎に異なった順序で実施してもよい。
以上のように、上記各実施形態及び各変形例によれば、検索に用いられる1以上の構成要素それぞれの1以上の項目の重みに、ユーザの意図を簡易に反映してコンテンツを検索することができる。
10、1010 検索装置
11 入力部
13 受付部
15 第1記憶部
17 抽出部
19 変更部
21 第2記憶部
23 検索部
25 表示制御部
27 表示部
1014 認識部

Claims (20)

  1. 1以上の構成要素それぞれの領域、属性、色、及びキーワードの少なくともいずれかの項目を指定する第1指定データの入力を受け付けるとともに、当該第1指定データを受け付けた後に、当該第1指定データを修正した第2指定データの入力を受け付ける受付部と、
    前記第1指定データに対し前記第2指定データにおいて差分が生じた構成要素である第1構成要素を抽出する抽出部と、
    抽出された前記第1構成要素の差分となる項目の重みを変更する変更部と、
    前記第1構成要素の項目と、当該項目の変更後の重みと、前記第1指定データに対し前記第2指定データにおいて差分が生じていない構成要素である第2構成要素の項目と、当該項目の重みと、に基づいて、コンテンツを検索する検索部と、
    前記コンテンツを表示部に表示する表示制御部と、
    を備える検索装置。
  2. 前記第1指定データと、前記1以上の構成要素それぞれの項目の重みを示す重み情報と、を記憶する第1記憶部を更に備え、
    前記受付部は、前記第1指定データの入力の次に前記第2指定データの入力を受け付け、
    前記変更部は、前記重み情報が前記第1構成要素の差分となる項目の重みを示す場合、当該重みを変更し、前記重み情報が前記第1構成要素の差分となる項目の重みを示さない場合、デフォルトの重みを変更し、
    前記第2構成要素の項目の重みは、前記重み情報が示す前記第2構成要素の項目の重みである請求項1に記載の検索装置。
  3. 前記変更部は、抽出された前記第1構成要素の差分となる項目が領域の場合、当該領域の重みを変更する請求項1に記載の検索装置。
  4. 前記変更部は、抽出された前記第1構成要素の差分となる項目が属性の場合、当該属性の重みを変更する請求項1に記載の検索装置。
  5. 前記変更部は、抽出された前記第1構成要素の差分となる項目が色の場合、当該色の重みを変更する請求項1に記載の検索装置。
  6. 前記変更部は、抽出された前記第1構成要素の差分となる項目がキーワードの場合、当該キーワードの重みを変更する請求項1に記載の検索装置。
  7. 前記変更部は、抽出された前記第1構成要素の差分となる項目の重みを一定値変更する請求項1に記載の検索装置。
  8. 前記変更部は、抽出された前記第1構成要素の差分となる項目の重みを当該項目の修正度合いに応じて変更する請求項1に記載の検索装置。
  9. 前記第2指定データは、増減を更に指定し、
    前記変更部は、前記増が指定されている場合、抽出された前記第1構成要素の差分となる項目の重みを増やし、前記減が指定されている場合、抽出された前記第1構成要素の差分となる項目の重みを減らす請求項1に記載の検索装置。
  10. 複数のコンテンツを記憶する第2記憶部を更に備え、
    前記検索部は、前記複数のコンテンツそれぞれ毎に、前記第1構成要素の項目との第1類似度を算出して当該第1構成要素の項目の変更後の重みを乗じ第1重み付き類似度を算出するとともに、前記第2構成要素の項目との第2類似度を算出して当該第2構成要素の項目の重みを乗じ第2重み付き類似度を算出して、前記第1重み付き類似度と前記第2重み付き類似度とを平均化した尤度を算出し、前記複数のコンテンツの中から前記尤度が第1閾値を超えるコンテンツを検索する請求項1に記載の検索装置。
  11. 前記検索部は、前記第1構成要素の項目との前記第1類似度を算出する場合、当該項目の修正度合いに応じた類似度算出手法で算出する請求項10に記載の検索装置。
  12. 前記検索部は、前記修正度合いが第2閾値未満の場合、類似度が高くなりにくい類似度算出手法で前記第1類似度を算出する請求項11に記載の検索装置。
  13. 前記検索部は、前記修正度合いが第2閾値以上の場合、類似度が高くなりやすい類似度算出手法で前記第1類似度を算出する請求項12に記載の検索装置。
  14. 前記表示制御部は、前記第1構成要素及び前記第2構成要素の少なくともいずれかを前記コンテンツに重畳して表示する請求項10に記載の検索装置
  15. 前記第1指定データ及び前記第2指定データは、手書きデータであり、
    前記受付部により受け付けられた前記第1指定データ及び前記第2指定データを認識する認識部を更に備え、
    前記抽出部は、認識された前記第1指定データに対し認識された前記第2指定データから前記第1構成要素を抽出する請求項1に記載の検索装置。
  16. 前記認識部は、前記1以上の構成要素それぞれへの増減の指定を更に認識し、
    前記変更部は、前記第1構成要素への前記増の指定が認識されている場合、当該第1構成要素の差分となる項目の重みを増やし、前記第1構成要素への前記減の指定が認識されている場合、当該第1構成要素の差分となる項目の重みを減らす請求項15に記載の検索装置。
  17. 前記抽出部は、前記差分が前記認識部の認識誤りに伴う修正により生じた場合、当該差分が生じた構成要素を前記第1構成要素として抽出しない請求項15に記載の検索装置。
  18. 前記変更部は、前記抽出部により領域、属性、色、及びキーワードのうち2以上の項目が修正された第1構成要素が抽出されている場合、当該2以上の項目のうち修正度合いが第3閾値を超えている項目の重みを変更する請求項15に記載の検索装置。
  19. コンピュータが、1以上の構成要素それぞれの領域、属性、色、及びキーワードの少なくともいずれかの項目を指定する第1指定データの入力を受け付けるとともに、当該第1指定データを受け付けた後に、当該第1指定データを修正した第2指定データの入力を受け付ける受付ステップと、
    前記コンピュータが、前記第1指定データに対し前記第2指定データにおいて差分が生じた構成要素である第1構成要素を抽出する抽出ステップと、
    前記コンピュータが、抽出された前記第1構成要素の差分となる項目の重みを変更する変更ステップと、
    前記コンピュータが、前記第1構成要素の項目と、当該項目の変更後の重みと、前記第1指定データに対し前記第2指定データにおいて差分が生じていない構成要素である第2構成要素の項目と、当該項目の重みと、に基づいて、コンテンツを検索する検索ステップと、
    前記コンピュータが、前記コンテンツを表示部に表示する表示制御ステップと、
    を含む検索方法。
  20. 1以上の構成要素それぞれの領域、属性、色、及びキーワードの少なくともいずれかの項目を指定する第1指定データの入力を受け付けるとともに、当該第1指定データを受け付けた後に、当該第1指定データを修正した第2指定データの入力を受け付ける受付ステップと、
    前記第1指定データに対し前記第2指定データにおいて差分が生じた構成要素である第1構成要素を抽出する抽出ステップと、
    抽出された前記第1構成要素の差分となる項目の重みを変更する変更ステップと、
    前記第1構成要素の項目と、当該項目の変更後の重みと、前記第1指定データに対し前記第2指定データにおいて差分が生じていない構成要素である第2構成要素の項目と、当該項目の重みと、に基づいて、コンテンツを検索する検索ステップと、
    前記コンテンツを表示部に表示する表示制御ステップと、
    をコンピュータに実行させるためのプログラム。
JP2015059922A 2015-03-23 2015-03-23 検索装置、方法及びプログラム Expired - Fee Related JP6441142B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015059922A JP6441142B2 (ja) 2015-03-23 2015-03-23 検索装置、方法及びプログラム
US15/076,429 US20160283520A1 (en) 2015-03-23 2016-03-21 Search device, search method, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015059922A JP6441142B2 (ja) 2015-03-23 2015-03-23 検索装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2016181042A JP2016181042A (ja) 2016-10-13
JP6441142B2 true JP6441142B2 (ja) 2018-12-19

Family

ID=56975109

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015059922A Expired - Fee Related JP6441142B2 (ja) 2015-03-23 2015-03-23 検索装置、方法及びプログラム

Country Status (2)

Country Link
US (1) US20160283520A1 (ja)
JP (1) JP6441142B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9740310B2 (en) * 2015-05-22 2017-08-22 Adobe Systems Incorporated Intuitive control of pressure-sensitive stroke attributes
US10275828B2 (en) * 2016-11-02 2019-04-30 Experian Health, Inc Expanded data processing for improved entity matching
US11194829B2 (en) 2017-03-24 2021-12-07 Experian Health, Inc. Methods and system for entity matching

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003316804A (ja) * 2002-04-23 2003-11-07 Canon Inc 画像検索装置、画像検索方法、プログラムおよび記憶媒体
JP2004240750A (ja) * 2003-02-06 2004-08-26 Canon Inc 画像検索装置
JP2004334339A (ja) * 2003-04-30 2004-11-25 Canon Inc 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム

Also Published As

Publication number Publication date
US20160283520A1 (en) 2016-09-29
JP2016181042A (ja) 2016-10-13

Similar Documents

Publication Publication Date Title
US10984295B2 (en) Font recognition using text localization
US10699166B2 (en) Font attributes for font recognition and similarity
US10958796B2 (en) Image processing apparatus, image processing method, and storage medium
KR101955732B1 (ko) 캡처된 이미지 데이터를 스프레드시트와 연관시키는 방법
JP6328761B2 (ja) 画像ベース検索
US9696873B2 (en) System and method for processing sliding operations on portable terminal devices
US10127199B2 (en) Automatic measure of visual similarity between fonts
US9824304B2 (en) Determination of font similarity
JP4945813B2 (ja) 印刷構造化文書
US10528649B2 (en) Recognizing unseen fonts based on visual similarity
US20150199567A1 (en) Document classification assisting apparatus, method and program
US8917957B2 (en) Apparatus for adding data to editing target data and displaying data
JP2018156517A (ja) 情報処理装置
JP6441142B2 (ja) 検索装置、方法及びプログラム
Diem et al. Semi-automated document image clustering and retrieval
US20210182477A1 (en) Information processing apparatus and non-transitory computer readable medium storing program
KR20150097250A (ko) 태그 정보를 이용한 스케치 검색 시스템, 사용자 장치, 서비스 제공 장치, 그 서비스 방법 및 컴퓨터 프로그램이 기록된 기록매체
US20160162752A1 (en) Retrieval apparatus, retrieval method, and computer program product
KR20150101846A (ko) 스케치를 기반으로 하는 영상 분류 서비스 시스템, 사용자 장치, 서비스 제공 장치, 그 서비스 방법 및 컴퓨터 프로그램이 기록된 기록매체
US20120079404A1 (en) Method for creating and searching a folder in a computer system
US10509543B2 (en) Control method for ordering of a displayed list, and control apparatus and storage medium provided therewith
JP6609181B2 (ja) 文字属性推定装置、及び文字属性推定プログラム
JPWO2020044537A1 (ja) 画像照合装置、画像照合方法、及びプログラム
US20150142784A1 (en) Retrieval device and method and computer program product
JPWO2019181441A1 (ja) 情報処理装置、及び制御方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181002

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180928

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181010

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181023

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181121

R151 Written notification of patent or utility model registration

Ref document number: 6441142

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees