JP6540268B2 - オブジェクト分類装置及びプログラム - Google Patents

オブジェクト分類装置及びプログラム Download PDF

Info

Publication number
JP6540268B2
JP6540268B2 JP2015126922A JP2015126922A JP6540268B2 JP 6540268 B2 JP6540268 B2 JP 6540268B2 JP 2015126922 A JP2015126922 A JP 2015126922A JP 2015126922 A JP2015126922 A JP 2015126922A JP 6540268 B2 JP6540268 B2 JP 6540268B2
Authority
JP
Japan
Prior art keywords
keyword
keywords
hierarchy
objects
conceptual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015126922A
Other languages
English (en)
Other versions
JP2017010395A (ja
Inventor
鈴木 星児
星児 鈴木
基行 鷹合
基行 鷹合
岡本 洋
洋 岡本
奈実 徳永
奈実 徳永
宏 梅基
宏 梅基
永峯 猛志
猛志 永峯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2015126922A priority Critical patent/JP6540268B2/ja
Priority to US14/959,708 priority patent/US20160378857A1/en
Priority to SG10201600053TA priority patent/SG10201600053TA/en
Priority to AU2016200163A priority patent/AU2016200163B2/en
Priority to EP16153066.2A priority patent/EP3109777B1/en
Publication of JP2017010395A publication Critical patent/JP2017010395A/ja
Application granted granted Critical
Publication of JP6540268B2 publication Critical patent/JP6540268B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • G06F16/3323Query formulation using system suggestions using document space presentation or visualization, e.g. category, hierarchy or range presentation and selection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、オブジェクト分類装置及びプログラムに関する。
文書群から抽出された複数のキーワードを2次元マップに可視化する技術がある。特許文献1は、トピックが分散している場合であってもキーワード間の関連度を適切に表現する方法について開示している。
特開2010−224625号公報
しかし、特許文献1に開示されるような2次元マップにおいて隣接するキーワードに概念的な繋がりは考慮されていない。そこで、隣接するキーワードに概念的な繋がりがあれば、連続するキーワードの分布に意味を持たせることができる。
本発明の目的の一つは、概念的に繋がりのあるキーワードに従ってオブジェクトを分類するオブジェクト分類装置を提供することにある。
請求項1に記載の発明は、オブジェクト分類装置であって、1または複数のオブジェクトに対するキーワードを決定するキーワード決定手段と、複数の前記決定されたキーワードを、語句の概念を階層的に示す構造である概念階層構造に基づいて順序付けるキーワード順序付け手段と、前記順序付けられた前記キーワードに関連付けて前記オブジェクトを分類する分類手段と、を含み、前記キーワード順序付け手段は、複数の前記語句が配置される前記概念階層構造における最上位階層から順に各階層において、語句毎に当該語句の下位概念として関連付けられる一群の語句が、当該一群の語句の上の階層に配置される語句との関連性に基づいて並び替えられた前記概念階層構造に基づいて前記キーワードを順序付ける、ことを特徴とする。
請求項2に記載の発明は、請求項1に記載のオブジェクト分類装置であって、前記キーワード順序付け手段は、複数の前記語句が配置される前記概念階層構造における最上位階層から順に各階層において、語句毎に当該語句の下位概念として関連付けられる一群の語句を、当該一群の語句の1つ上位の階層に配置される複数の語句との関連性に基づいて並び替えられた前記概念階層構造に基づいて前記キーワードを順序付ける、ことを特徴とする。
請求項3に記載の発明は、請求項2に記載のオブジェクト分類装置であって、前記キーワード順序付け手段は、並び替えられた前記概念階層構造における前記複数のキーワードの並び順に対応させて、当該複数のキーワードを順序づける、ことを特徴とする。
請求項4に記載の発明は、請求項1から3のいずれか一項に記載のオブジェクト分類装置であって、前記キーワード決定手段は、前記1または複数のオブジェクトに対するキーワードの候補である複数の候補キーワードのうち、最も出現頻度が高い前記候補キーワードを前記キーワードとして決定する、ことを特徴とする。
請求項5に記載の発明は、請求項2に記載のオブジェクト分類装置であって、前記キーワード決定手段は、前記1または複数のオブジェクトに対するキーワードの候補である複数の候補キーワードのうち、前記複数の候補キーワードの並び替えられた前記概念階層構造における位置と各候補キーワードの出現頻度とに基づく並び替えられた前記概念階層構造における平均位置に最も近い前記候補キーワードを前記キーワードとして決定する、ことを特徴とする。
請求項6に記載の発明は、請求項2に記載のオブジェクト分類装置であって、前記キーワード決定手段は、前記1または複数のオブジェクトに対するキーワードの候補である複数の候補キーワードのうち、並び替えられた前記概念階層構造において前記複数の候補キーワードに共通する上位概念を示す語句を前記キーワードとして決定する、ことを特徴とする。
請求項7に記載の発明は、請求項1から6のいずれか一項に記載のオブジェクト分類装置であって、行列の一方に前記順序付けられた前記キーワードを配列し、前記キーワードに関連付けられて分類された前記オブジェクトを要素に配置した2次元表を表示部に表示させる表示手段と、をさらに含む、ことを特徴とする。
請求項8に記載の発明は、請求項7に記載のオブジェクト分類装置であって、利用者の操作に応じて前記2次元表から1以上のオブジェクトを含む範囲を指定する範囲指定部、をさらに含み、前記分類手段は、前記範囲に含まれるオブジェクトと類似するオブジェクトを前記キーワードのいずれかに分類し、前記表示手段は、前記範囲に含まれるオブジェクトと、当該範囲に含まれるオブジェクトに類似する類似オブジェクトと、を要素に配置した前記2次元表を表示部に表示させる、ことを特徴とする。
請求項9に記載の発明は、請求項8に記載のオブジェクト分類装置であって、前記分類手段は、前記類似オブジェクトが分類される前記キーワードが、前記範囲より所定の閾値以上離れている場合に当該類似オブジェクトを分類しない、ことを特徴とする。
請求項10に記載の発明は、請求項7から9のいずれか一項に記載のオブジェクト分類装置であって、前記2次元表は、前記行列の他方に前記オブジェクトのコンテクストが並び替えられた前記概念階層構造に基づく順序で配列される、ことを特徴とする。
請求項11に記載の発明は、プログラムであって、1または複数のオブジェクトに対するキーワードを決定するキーワード決定手段、複数の前記決定されたキーワードを、概念を階層的に示す構造である概念階層構造に基づいて順序付けるキーワード順序付け手段、
前記順序付けられた前記キーワードに関連付けて前記オブジェクトを分類する分類手段、
としてコンピュータを機能させ、前記キーワード順序付け手段は、複数の前記語句が配置される前記概念階層構造における最上位階層から順に各階層において、語句毎に当該語句の下位概念として関連付けられる一群の語句が、当該一群の語句の上の階層に配置される語句との関連性に基づいて並び替えられた前記概念階層構造に基づいて前記キーワードを順序付ける、ことを特徴とする。
請求項1及び11に記載の発明によれば、概念的に繋がりのあるキーワードに従ってオブジェクトを分類することができる。
請求項2及び3に記載の発明によれば、横方向に概念的な繋がりのある概念階層構造に基づいて、概念的な連続性を有するキーワードの順序付けができる。
請求項4に記載の発明によれば、オブジェクトを代表するキーワードに基づいてオブジェクトを分類することができる。
請求項5に記載の発明によれば、オブジェクトを代表するキーワードを、複数の候補からそれらの概念を加味して選択することができる。
請求項6に記載の発明によれば、オブジェクトを代表するキーワードとして、複数の候補の概念を含むキーワードを選択することができる。
請求項7に記載の発明によれば、概念的に繋がりのあるキーワードに従って分類されたオブジェクトを可視化することができる。
請求項8に記載の発明によれば、概念的に繋がりのあるキーワードに従って分類されたオブジェクトを可視化した2次元表における指定された範囲に基づいて、類似オブジェクトを再検索することができる。
請求項9に記載の発明によれば、概念的に繋がりのあるキーワードに従って分類されたオブジェクトを可視化した2次元表における指定された範囲の周辺の類似オブジェクトを再検索することができる。
請求項10に記載の発明によれば、概念的に繋がりのあるキーワードと、概念的に繋がりのあるコンテクストと、が行列に配列された2次元表を表示することができる。
本実施形態に係るオブジェクト分類装置のハードウェア構成の一例を示す図である。 本実施形態に係るオブジェクト分類装置が実現する機能の一例を示す機能ブロック図である。 一般的な概念階層構造の一例を示す図である。 一般的な概念階層構造を模式的に示す図である。 本実施形態に係る横方向に概念的な順序付けがなされた概念階層構造の一例である。 本実施形態に係るオブジェクト分類表の一例を示す図である。 本実施形態に係るオブジェクト分類装置が実行するオブジェクト分類処理の流れの一例を示すフロー図である。 本実施形態に係るオブジェクト分類装置が実行するオブジェクトの再検索処理の流れの一例を示すフロー図である。 本実施形態に係る再検索処理時のオブジェクト分類表の一例を示す図である。 本実施形態に係る再検索処理後のオブジェクト分類表の一例を示す図である。
以下、本発明の一実施形態について、図面を参照しながら説明する。
[ハードウェア構成]
本実施形態に係るオブジェクト分類装置10は、例えばパーソナルコンピュータ等の情報処理装置として実現でき、図1に、本実施形態に係るオブジェクト分類装置10のハードウェア構成の一例を示す。図1に示すように、本実施形態に係るオブジェクト分類装置は、制御部11、記憶部12、通信部13、表示部14、及び操作部15を含んで構成される。
制御部11は、CPU等のプログラム制御デバイスを含み、記憶部12に記憶されたプログラムに従って各種の情報処理を実行する。
記憶部12は、RAMやROM等のメモリ素子、ハードディスク等を含み、制御部11が実行するプログラム等を記憶する。また、記憶部12は制御部11のワークメモリとしても機能する。
通信部13は、LANカード等のネットワークインタフェースであって、LANや無線通信網などの通信手段を介して、他の情報処理装置との間で情報の送受信を行う。
表示部14は、液晶ディスプレイ等の表示デバイスであって、制御部11から入力される指示に従って情報を表示する。
操作部15は、マウス、キーボード、タッチパネル等であって、ユーザの操作を受け付けて操作信号を制御部11に出力する。
[機能ブロック図]
図2は、本実施形態に係るオブジェクト分類装置10が実現する機能の一例を示す機能ブロック図である。図2に示すように、本実施形態に係るオブジェクト分類装置10は、オブジェクト取得部21、キーワード決定部22、キーワード順序付け部23、オブジェクト分類部24、及びグラフ表示部25を含んで構成される。これらの機能は、記憶部12に記憶されたプログラムを制御部11が実行することで実現される。このプログラムは、例えば光ディスク等のコンピュータ読み取り可能な各種の情報記憶媒体に格納されて提供されてもよいし、インターネット等の通信ネットワークを介してオブジェクト分類装置10に提供されてもよい。
オブジェクト取得部21は、オブジェクトデータが格納されたハードディスク等の記憶装置からオブジェクトを取得する。ここで取得されるオブジェクトは、電子文書、図、表等であってよい。なお、オブジェクト取得部21は、ネットワークを介してオブジェクトをダウンロードして取得してもよいし、スキャナにより得られたオブジェクト画像をOCR処理してオブジェクトを取得することとしてもよい。
本実施形態においてオブジェクト取得部21が取得するオブジェクトには、特定の条件により検索されるオブジェクト(検索オブジェクトとする)と、検索オブジェクトと類似するオブジェクト(類似オブジェクトとする)と、が含まれることとする。検索オブジェクトは、例えば、ユーザが入力した検索条件に基づいて検索されるオブジェクトであり、本実施形態においてオブジェクト取得部21は、ユーザが入力した検索条件に属する1以上のオブジェクトを検索オブジェクトとして取得する。類似オブジェクトは、検索オブジェクトと類似するオブジェクトであり、本実施形態においてオブジェクト取得部21は、検索オブジェクト毎に当該検索オブジェクトと類似する1以上のオブジェクトを類似オブジェクトとして取得する。例えば、オブジェクト取得部21は、検索オブジェクトに含まれる語句等の要素に基づいて、検索オブジェクトと他のオブジェクトとの類似度を算出し、算出した類似度が所定の類似度レベルを超えるオブジェクトを類似オブジェクトとして取得する。ここで、類似度レベルは設定変更可能であり、類似度レベルが高く設定されれば、検索オブジェクトとより類似している限定された類似オブジェクトが取得され、類似度レベルが低く設定されれば、検索オブジェクトとある程度類似している幅広い類似オブジェクトが取得される。本実施形態では、オブジェクト取得部21が取得した、1以上の検索オブジェクトと1以上の類似オブジェクトと、が複数のオブジェクト群に分割されることとする。例えば、1つの検索オブジェクトと、当該検索オブジェクトと類似する1以上の類似オブジェクトと、の集合を1つのオブジェクト群と記すこととする。
キーワード決定部22は、オブジェクト取得部21により取得されたオブジェクト群を代表する1つのキーワードを決定する。ここで、キーワード決定部22は、複数のオブジェクト群それぞれについて、オブジェクト群を代表する1つのキーワードを決定することとする。具体的には、キーワード決定部22は、取得されたオブジェクト群に含まれるオブジェクトにおいて出現頻度が高い語句を抽出してキーワードとして決定してもよいし、オブジェクトの構造や構文上の重要度をさらに加味してキーワードを決定することとしてもよい。
また、キーワード決定部22が上述の手法によりキーワードを決定する際、オブジェクト群に含まれるオブジェクトにおいて出現頻度が高い複数の語句が抽出される場合もある。このようなキーワードの候補となる複数の語句(候補キーワードとする)が抽出される場合は、キーワード決定部22は、概念階層構造と複数の候補キーワードとに基づいてオブジェクト群を代表する1つのキーワードを決定することとする。キーワード決定部22によるオブジェクト群を代表するキーワードの決定処理については後述する。
まず、概念階層構造は、語句の概念を階層的に示す構造である。図3は、一般的な概念階層構造の一例を示す図である。図3に示すように、一般的な概念階層構造は、例えば、最も上位概念の語句が配置される第1階層に「自然物」が配置されるとする。すると、第2階層には、「自然物」の下位概念として、例えば「地形」及び「動物」が関連付けられる。そして、第3階層には、「地形」の下位概念として、例えば「川」、「谷」及び「山」が関連付けられ、「動物」の下位概念として、例えば「人間」及び「家畜」が関連付けられる。このように一般的な概念階層構造は、第1階層に最も上位概念の語句が配置され、下層に行くほど下位概念の語句が配置されることとなる。なお、概念階層構造は、汎用の辞書を用いて生成されてもよいし、例えば記憶装置に記憶されているオブジェクトに含まれる語句から概念階層構造が生成されることとしてもよい。
図3に示す一般的な概念階層構造において、階層間の語句の関連付けは上位下位概念の繋がりを意味しているが、同一の語句の下位概念として関連付けられる一群の語句についてその階層内の並び順に概念的な繋がりは考慮されていない。例えば、図3に示す概念階層構造の第4階層に配置される「犬」、「馬」、「牛」及び「豚」は、上位概念の語句「家畜」に関連付けられる一群の語句である。しかし、これら一群の語句の第4階層内での並び順、つまりは横方向の並び順に概念的な繋がりは考慮されていない。
そこで、本実施形態では、概念階層構造における同一階層の語句について概念的な順序付けを行うことで、概念階層構造における横方向の並び順に概念的な連続性を持たせることとする。
概念階層構造における語句の横方向の順序付けについて、図4に示す一般的な概念階層構造を模式的に示した図を用いて説明する。図4に示す概念階層構造は、複数の語句が配置される一般的な概念階層構造であり、最上位階層(ここでは、第k−3階層とする)に最も上位概念の語句(ここでは、語句(W−3)とする)が配置され、下層に行くほど下位概念の語句が配置される。なお図4に示す概念階層構造は第k階層までを示しているが、第k+1階層以降が存在していてもよい。ここでは、第k階層の一群の語句W={W、W、W10、W11}について順序付けを行う場合について説明する。具体的には、語句Wが配置される階層より1つ上位の階層(ここでは、第k−1階層)に配置される語句(W−1)={(W−1)、(W−1)、(W−1)、(W−1)}の各語句と、語句W={W、W、W10、W11}の各語句と、の関連性を評価し、関連性が高い語句同士がより近くに位置するように横方向の順序付けを行う。つまり、語句(W−1)との関連性が高い語句は、語句(W−1)に近い左方向に配置され、語句(W−1)や語句(W−1)と関連性が高い語句は、語句(W−1)や語句(W−1)とに近い右方向に配置されるよう各語句が並び替えられる。なお、語句Wの上位概念として関連付けられている語句(W−1)(ここでは、語句(W−1))については関連性の評価の対象から除くこととする。
語句(W−1)と、語句Wとの関連性の評価方法としては、例えば、記憶装置に記憶されているオブジェクトのうち語句Wを含むオブジェクト群と、記憶装置に記憶されているオブジェクトのうち語句(W−1)の下位概念として関連付けられる一群の語句を含むオブジェクト群と、の類似度を算出することで関連性を評価することができる。この場合、語句Wを含むオブジェクト群の特徴ベクトルをdとし、語句(W−1)の下位概念として関連付けられる一群の語句を含むオブジェクト群の特徴ベクトルをdとし、特徴ベクトルdと特徴ベクトルdとの内積を類似度として算出する。つまり、語句Wと語句(W−1)との関連性は、類似度S(n、m)=d・dにより評価され、類似度S(n、m)が高いほど関連性が高く、類似度S(n、m)が低いほど関連性が低いと評価される。なお、特徴ベクトルd、特徴ベクトルdは、それぞれオブジェクト群に含まれる各オブジェクトの特徴ベクトルの和であってよい。ここで、オブジェクトの特徴ベクトルは、例えばオブジェクト数Nのオブジェクト群から要素数tからなるキーワードKi(i=1,2,....,t)が抽出されたとすると、オブジェクト群に含まれる各オブジェクトEj(j=1,2,3,....,N)について、Kiが含まれている場合「1」と、含まれていない場合「0」とすることにより、t次元のベクトル(0,1,1.....,0)として表現されることとする。
このようにして算出された類似度S(n、m)と、概念階層構造における位置と、に応じて語句Wとの関連性が高いと評価された語句(W−1)の近くに語句Wが位置するように語句W={W、W、W10、W11}の各語句を並び替えて順序付けを行う。このような手法により、最上位階層から順に各階層において語句の並び替えにより順序付けを行うことで、横方向の並び順に概念的な連続性を有する概念階層構造を構築することができる。図5に、本実施形態に係る横方向に概念的な順序付けがなされた概念階層構造の一例を示す。図5においては、図4に示した一般的な概念階層構造における第k階層の一群の語句W={W、W、W10、W11}の各語句が概念的な順序付けに従って並び替えられたことを示している。そして、図5に示すその他の語句についても、最上位階層から順に各階層において語句が並び替えられたことにより概念的な順序付けに従って横方向に並んでいることとする。また、横方向の概念的な連続性を距離として示すことで概念階層構造の各語句を座標平面上に表すこともできる。これにより、語句の概念的な順序付けだけでなく、その語句同士の概念的な近さも表現することができる。
また、類似度S(n、m)の算出方法として、語句Wの上位概念として関連付けられている語句(W−1)と語句(W−1)との関連性を加味して類似度を算出することとしてもよい。例えば、類似度S(n、m)は、語句(W−1)と語句(W−1)との関連性をRmとすると、類似度S(n、m)=Rm・d・dとして算出されることとする。ここで、関連性Rmは、語句(W−1)と語句(W−1)との概念的な関連性を数値化したものとすればよい。例えば、関連性Rmを、語句(W−1)から語句(W−1)までの概念階層構造における横方向のステップ数としてもよい。つまり、図4においては、語句(W−1)から、語句(W−1)及び語句(W−1)までを1ステップとし、語句(W−1)から語句(W−1)までを2ステップとして、語句(W−1)と語句(W−1)との概念的な関連性を数値化する。ここでは、上位階層から順に語句の順序付けを行っているので、第k−1階層においては既に概念的な順序付けに従って横方向に語句が並んでいる。したがって、第k−1階層においては横方向の位置が近いほど関連性が高く、横方向の位置が遠いほど関連性が低いといえる。これを利用することで、語句(W−1)と語句(W−1)との概念的な関連性を、語句(W−1)から語句(W−1)までのステップ数として簡易的に示すことができる。また、横方向の概念的な連続性を距離として示したものを利用すれば、語句(W−1)と語句(W−1)との概念的な関連性Rmをその距離を用いて数値化することもできる。このような語句(W−1)と語句(W−1)との概念的な関連性を距離で示すことで、語句同士の関連性をより詳細に示すことができる。
そして、キーワード決定部22が、横方向に概念的な順序付けがなされた概念階層構造に基づいてオブジェクト群を代表する1つのキーワードを決定する手法の一例について説明する。例えば、図5に示す横方向に概念的な順序付けがなされた概念階層構造において、複数の候補キーワードがそれぞれ「W」、「W」、「W」、「W10」に位置しているとする。図5に示す概念階層構造は概念的な順序付けに従って横方向に語句が並んでいるので、複数の候補キーワード(ここでは、「W」、「W」、「W」、「W10」)の横方向の位置と、各候補キーワードの出現頻度と、により候補キーワードの概念的な分布傾向が示される。つまり、オブジェクト群を代表するキーワードは、概念階層構造における候補キーワードの分布の代表値とすることができる。そこで、キーワード決定部22は、各候補キーワードの出現頻度を重みとする概念階層構造における位置の加重平均を算出する。そして、キーワード決定部22は、算出された加重平均位置に最も近い候補キーワードを、オブジェクト群を代表するキーワードとして決定する。
また、キーワード決定部22が、横方向に概念的な順序付けがなされた概念階層構造に基づいてオブジェクト群を代表する1つのキーワードを決定する他の手法について説明する。例えば、図5に示す横方向に概念的な順序付けがなされた概念階層構造において、複数の候補キーワードがそれぞれ「W」、「W11」、「W12」に位置しているとする。このとき、キーワード決定部22は、複数の候補キーワード「W」、「W11」、「W12」に共通する上位概念の語句である「(W−2)」に位置する語句を、オブジェクト群を代表するキーワードとして決定する。なお、この手法を用いる場合は、複数のオブジェクト群において、各オブジェクト群を代表するキーワードが同一のものとなる可能性があるため、概念階層構造の階層が十分深く構築されていることが条件となる。
キーワード順序付け部23は、キーワード決定部22が複数のオブジェクト群それぞれにおいて決定したキーワードを、概念階層構造に基づいて順序付けする。具体的には、キーワード順序付け部23は、各オブジェクト群を代表するキーワードを、上述した横方向に概念的な順序付けがなされた概念階層構造における位置に基づいて順序付けする。キーワード順序付け部23は、概念的な順序付けに従って横方向に語句が並んでいる概念階層構造における各キーワードの位置を取得しその横方向の並び順に対応させて順序付けすることで、各キーワードを、概念的に連続性を有する順に順序付けすることができる。
オブジェクト分類部24は、オブジェクト取得部21が取得するオブジェクトを、キーワード決定部22が決定したいずれかのキーワードに関連付けて分類する。
グラフ表示部25は、キーワード順序付け部23により順序付けされたキーワードをその順序で行列の一方に配列し、各キーワードに関連付けられて分類されたオブジェクトを要素に配置した2次元表を表示部14に表示させる。本実施形態では、グラフ表示部25は、表示部14に2次元表を表示させることとするが、この例に限定されず、例えば、座標平面、3次元表等を表示させてもよい。
図6は、本実施形態に係るオブジェクト分類表の一例を示す図である。図6に示すように、本実施形態に係るオブジェクト分類表は、行方向にキーワード(ここでは、W、W、W11、W12、W14とする)が配列され、列方向にコンテクスト(ここでは、C、C、C、C、C)が配列される2次元表であり、オブジェクト分類表の各要素に対応するオブジェクトが配置される。行方向のキーワードがキーワード順序付け部23により順序付けされた順に配列されることで、オブジェクト分類表の行方向の並び順に概念的な連続性が表現される。これにより、連続する複数行に含まれる要素の集合は、概念的に繋がりのある集合と見ることができる。また、列方向に配列されるコンテクストは、キーワードとは異なる、オブジェクトを分類する情報であり、例えばオブジェクトの作成者、作成日時、といったオブジェクトの背景を示す情報である。なお、列方向のコンテクストについてもキーワードと同様に概念的な順序付けがなされてもよい。これにより、連続する複数列に含まれる要素の集合も、概念的な繋がりのある集合と見ることができる。そして、行列の両方について概念的な順序付けがなされていれば、複数行、複数列からなる範囲に含まれる要素の集合は概念的な繋がりのある集合と見ることができる。
[オブジェクト分類処理]
ここで、本実施形態に係るオブジェクト分類装置が実行するオブジェクト分類処理の流れの一例を図7に示すフロー図を参照して説明する。
まず、利用者が検索条件を入力することで、オブジェクト取得部21が、入力された検索条件に基づいて検索される検索オブジェクトを取得する(S101)。ここで、オブジェクト取得部21は、入力された検索条件に基づいて検索される複数の検索オブジェクトを取得することとする。
そして、オブジェクト取得部21は、処理S101にて取得された複数の検索オブジェクトそれぞれについて、当該検索オブジェクトと類似する類似オブジェクトを取得する(S102)。ここで、オブジェクト取得部21は、検索オブジェクト毎に、所定の類似度レベルに応じて1以上の類似オブジェクトを取得することとする。そして、1つの検索オブジェクトと当該検索オブジェクトに類似する類似オブジェクトとの集合を1つのオブジェクト群とする。
キーワード決定部22は、オブジェクト群毎に、当該オブジェクト群のオブジェクト(検索オブジェクト及び類似オブジェクト)に含まれる語句に基づいて、当該オブジェクト群を代表するキーワードを決定する(S103)。
キーワード順序付け部23は、キーワード決定部22がオブジェクト群毎に決定したキーワードを概念階層構造に基づいて順序付けする(S104)。
オブジェクト分類部24は、オブジェクト取得部21が取得したオブジェクト群に含まれる各オブジェクトを、いずれかのキーワードに関連付けて分類する(S105)。
グラフ表示部25は、キーワード順序付け部23により順序付けされたキーワードがその順序で行列の一方に配列され、各要素にオブジェクト分類部24が分類したオブジェクトが配置されるオブジェクト分類表を表示部14に表示させ(S106)、オブジェクト分類処理が終了する。
[オブジェクト分類表による再検索処理]
オブジェクト分類表を用いて実行されるオブジェクトの再検索処理について説明する。図6に示すオブジェクト分類表において、オブジェクト分類表のある範囲に含まれるオブジェクト群は概念的な繋がりのある1つの集合と捉えることができることを上述した。このように、オブジェクト分類表のある範囲を1つの集合と捉えた場合に、当該集合に関連する他のオブジェクトを再検索することが可能となる。例えば、オブジェクト分類表に分類された1以上のオブジェクトを含む範囲を指定して、当該範囲に含まれるオブジェクトに類似する他のオブジェクトを再検索したり、オブジェクト分類表に示されたキーワードのいずれかを指定して、当該キーワードに関連する他のオブジェクトを再検索したりすることが可能となる。ここで、再検索されるオブジェクトは、指定した範囲に含まれるオブジェクトと類似するオブジェクトであるため、指定した範囲の周辺に分類されやすい。つまり、利用者は、オブジェクト分類表の所望の範囲を指定することで当該範囲の周辺に位置するオブジェクトを取得することができる。
ここで、本実施形態に係るオブジェクト分類装置が実行するオブジェクトの再検索処理の流れの一例を図8に示すフロー図を参照して説明する。
まず、利用者のマウス操作等に応じてオブジェクト分類表から1以上のオブジェクトを含む範囲が指定される(S201)。ここで、利用者がオブジェクト分類表の所望の範囲を選択することで範囲が指定されてもよいし、利用者がキーワードを選択することで選択したキーワードの行が範囲として指定されてもよい。図9は、本実施形態に係る再検索処理時のオブジェクト分類表の一例を示す図である。図9は、図6に示したオブジェクト分類表を用いて利用者がオブジェクトE2,2及びオブジェクトE3,2を含む範囲Rを指定したことを示している。
そして、オブジェクト取得部21が、処理S201で指定された範囲に含まれるオブジェクト毎に当該オブジェクトに類似する類似オブジェクトを取得する(S202)。具体的には、オブジェクト取得部21は、図9において指定された範囲Rに含まれるオブジェクトE2,2に類似する類似オブジェクトを取得する。そして、オブジェクト取得部21は、範囲Rに含まれるオブジェクトE3,2に類似する類似オブジェクトを取得する。ここで、オブジェクト取得部21が類似オブジェクトを取得するための類似度レベルとしては、オブジェクト分類処理における処理S102において類似オブジェクトを取得するための所定の類似度レベルとは異なる類似度レベルが設定されることとする。具体的には、再検索処理における類似度レベルは、オブジェクト分類処理における所定の類似度レベルより低いレベルに設定される。ここで類似度レベルを下げることにより、オブジェクト分類処理時より多くの類似オブジェクトを範囲Rの周辺に取得することができる。つまりは、図9のオブジェクト分類表における範囲R周辺の空要素にオブジェクトが分類されやすくなる。
そして、オブジェクト分類部24は、処理S202で取得された類似オブジェクトをオブジェクト分類表に示されるキーワードのいずれかに関連付けて分類する(S203)。
そして、グラフ表示部25は、処理S101で指定された範囲に含まれるオブジェクトと、処理S202で取得された類似オブジェクトと、が配置されたオブジェクト分類表を表示部14に表示させる(S204)。
図10は、本実施形態に係る再検索処理後のオブジェクト分類表の一例を示す図である。図10に示すように、再検索されたオブジェクト(ここでは、E1,2、E2,3、E2,5、E3,3、E3,4、E3,5、E4,2とする)が対応する要素に表示され、特に範囲Rの周辺に集中的に分類されて表示される。これにより、利用者は指定した範囲Rが示す概念に近いオブジェクトを取得することができる。
ここで、処理S202にてオブジェクト取得部21が類似度レベルを下げて類似オブジェクトを取得すると、範囲Rから離れた位置に分類され得る類似オブジェクトが取得される可能性がある。例えば、範囲Rに含まれるオブジェクトとは類似するが、範囲Rに対応するキーワードには関連付けられないオブジェクトが取得される場合がある。その場合、取得されたオブジェクトは、例えばキーワードW14等といった範囲Rから離れたキーワードに関連付けられて分類されてしまう。本来、範囲Rの周辺のオブジェクトを検索したい利用者にとって、範囲Rから離れた位置に分類されるオブジェクトが取得されるのは望ましくない。そこで、オブジェクト分類部24は、指定された範囲から所定の閾値以上離れたキーワードに関連付けられる類似オブジェクトを分類しないこととする。ここで、所定の閾値は、キーワードの概念的な連続性に応じた距離に応じて定められることとすればよい。なお、グラフ表示部25が、指定された範囲から所定の閾値以上離れた位置のキーワードに分類されているオブジェクトを表示しないこととしてもよい。これにより、再検索により利用者が所望するオブジェクトをオブジェクト分類表に表示することができる。
10 オブジェクト分類装置、11 制御部、12 記憶部、13 通信部、14 表示部、15 操作部、21 オブジェクト取得部、22 キーワード決定部、23 キーワード順序付け部、24 オブジェクト分類部、25 グラフ表示部。

Claims (11)

  1. 1または複数のオブジェクトに対するキーワードを決定するキーワード決定手段と、
    複数の前記決定されたキーワードを、語句の概念を階層的に示す構造である概念階層構造に基づいて順序付けるキーワード順序付け手段と、
    前記順序付けられた前記キーワードに関連付けて前記オブジェクトを分類する分類手段と、
    を含み、
    前記キーワード順序付け手段は、複数の前記語句が配置される前記概念階層構造における最上位階層から順に各階層において、語句毎に当該語句の下位概念として関連付けられる一群の語句が、当該一群の語句の上位の階層に配置される語句との関連性に基づいて並び替えられた前記概念階層構造に基づいて前記キーワードを順序付ける、
    ブジェクト分類装置。
  2. 前記キーワード順序付け手段は、複数の前記語句が配置される前記概念階層構造における最上位階層から順に各階層において、語句毎に当該語句の下位概念として関連付けられる一群の語句、当該一群の語句の1つ上位の階層に配置される複数の語句との関連性に基づいて並び替えられた前記概念階層構造に基づいて前記キーワードを順序付ける、
    ことを特徴とする請求項1に記載のオブジェクト分類装置。
  3. 前記キーワード順序付け手段は、
    並び替えられた前記概念階層構造における前記複数のキーワードの並び順に対応させて、当該複数のキーワードを順序付ける、
    ことを特徴とする請求項2に記載のオブジェクト分類装置。
  4. 前記キーワード決定手段は、前記1または複数のオブジェクトに対するキーワードの候補である複数の候補キーワードのうち、最も出現頻度が高い前記候補キーワードを前記キーワードとして決定する、
    ことを特徴とする請求項1から3のいずれか一項に記載のオブジェクト分類装置。
  5. 前記キーワード決定手段は、前記1または複数のオブジェクトに対するキーワードの候補である複数の候補キーワードのうち、前記複数の候補キーワードの並び替えられた前記概念階層構造における位置と各候補キーワードの出現頻度とに基づく並び替えられた前記概念階層構造における平均位置に最も近い前記候補キーワードを前記キーワードとして決定する、
    ことを特徴とする請求項2に記載のオブジェクト分類装置。
  6. 前記キーワード決定手段は、前記1または複数のオブジェクトに対するキーワードの候補である複数の候補キーワードのうち、並び替えられた前記概念階層構造において前記複数の候補キーワードに共通する上位概念を示す語句を前記キーワードとして決定する、
    ことを特徴とする請求項2に記載のオブジェクト分類装置。
  7. 行列の一方に前記順序付けられた前記キーワードを配列し、前記キーワードに関連付けられて分類された前記オブジェクトを要素に配置した2次元表を表示部に表示させる表示手段と、をさらに含む、
    ことを特徴とする請求項1から6のいずれか一項に記載のオブジェクト分類装置。
  8. 利用者の操作に応じて前記2次元表から1以上のオブジェクトを含む範囲を指定する範囲指定部、をさらに含み、
    前記分類手段は、前記範囲に含まれるオブジェクトと類似するオブジェクトを前記キーワードのいずれかに分類し、
    前記表示手段は、前記範囲に含まれるオブジェクトと、当該範囲に含まれるオブジェクトに類似する類似オブジェクトと、を要素に配置した前記2次元表を表示部に表示させる、
    ことを特徴とする請求項7に記載のオブジェクト分類装置。
  9. 前記分類手段は、前記類似オブジェクトが分類される前記キーワードが、前記範囲より所定の閾値以上離れている場合に当該類似オブジェクトを分類しない、
    ことを特徴とする請求項8に記載のオブジェクト分類装置。
  10. 前記2次元表は、前記行列の他方に前記オブジェクトのコンテクストが並び替えられた前記概念階層構造に基づく順序で配列される、
    ことを特徴とする請求項7から9のいずれか一項に記載のオブジェクト分類装置。
  11. 1または複数のオブジェクトに対するキーワードを決定するキーワード決定手段、
    複数の前記決定されたキーワードを、概念を階層的に示す構造である概念階層構造に基づいて順序付けるキーワード順序付け手段、
    前記順序付けられた前記キーワードに関連付けて前記オブジェクトを分類する分類手段、
    としてコンピュータを機能させるプログラムであって、
    前記キーワード順序付け手段は、複数の前記語句が配置される前記概念階層構造における最上位階層から順に各階層において、語句毎に当該語句の下位概念として関連付けられる一群の語句が、当該一群の語句の上の階層に配置される語句との関連性に基づいて並び替えられた前記概念階層構造に基づいて前記キーワードを順序付ける、プログラム
JP2015126922A 2015-06-24 2015-06-24 オブジェクト分類装置及びプログラム Expired - Fee Related JP6540268B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2015126922A JP6540268B2 (ja) 2015-06-24 2015-06-24 オブジェクト分類装置及びプログラム
US14/959,708 US20160378857A1 (en) 2015-06-24 2015-12-04 Object classification device and non-transitory computer readable medium
SG10201600053TA SG10201600053TA (en) 2015-06-24 2016-01-05 Object classification device and program
AU2016200163A AU2016200163B2 (en) 2015-06-24 2016-01-12 Object Classification Device and Program
EP16153066.2A EP3109777B1 (en) 2015-06-24 2016-01-28 Object classification device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015126922A JP6540268B2 (ja) 2015-06-24 2015-06-24 オブジェクト分類装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2017010395A JP2017010395A (ja) 2017-01-12
JP6540268B2 true JP6540268B2 (ja) 2019-07-10

Family

ID=55299247

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015126922A Expired - Fee Related JP6540268B2 (ja) 2015-06-24 2015-06-24 オブジェクト分類装置及びプログラム

Country Status (5)

Country Link
US (1) US20160378857A1 (ja)
EP (1) EP3109777B1 (ja)
JP (1) JP6540268B2 (ja)
AU (1) AU2016200163B2 (ja)
SG (1) SG10201600053TA (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200341977A1 (en) * 2019-04-25 2020-10-29 Mycelebs Co., Ltd. Method and apparatus for managing attribute language

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05324726A (ja) * 1992-05-25 1993-12-07 Fujitsu Ltd 文書データ分類装置及び文書分類機能構築装置
JP3669016B2 (ja) * 1994-09-30 2005-07-06 株式会社日立製作所 文書情報分類装置
JPH08255166A (ja) * 1995-03-17 1996-10-01 Canon Inc データ管理方法及びそのシステム
JPH08320881A (ja) * 1995-05-25 1996-12-03 Tokyo Gas Co Ltd 文書検索システム
JP3001460B2 (ja) * 1997-05-21 2000-01-24 株式会社エヌイーシー情報システムズ 文書分類装置
AU5490000A (en) * 1999-06-15 2001-01-02 Kanisa Inc. System and method for document management based on a plurality of knowledge taxonomies
KR100427603B1 (ko) * 2000-12-01 2004-04-30 (주)코어로직스 데이터 분류체계 구축방법
US7194483B1 (en) * 2001-05-07 2007-03-20 Intelligenxia, Inc. Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information
US6871556B2 (en) * 2001-07-27 2005-03-29 The Regents Of The University Of California Porous protective solid phase micro-extractor sheath
US7085771B2 (en) * 2002-05-17 2006-08-01 Verity, Inc System and method for automatically discovering a hierarchy of concepts from a corpus of documents
US7765208B2 (en) * 2005-06-06 2010-07-27 Microsoft Corporation Keyword analysis and arrangement
JP2008204444A (ja) * 2007-01-23 2008-09-04 Just Syst Corp データ処理装置、データ処理方法及び検索装置
JP2010224625A (ja) 2009-03-19 2010-10-07 Nomura Research Institute Ltd キーワード二次元可視化方法およびキーワード二次元可視化プログラム
JP5474455B2 (ja) * 2009-09-07 2014-04-16 日本電信電話株式会社 文書群処理装置、文書群処理方法および文書群処理プログラム
JP5791909B2 (ja) * 2011-01-26 2015-10-07 オリンパス株式会社 キーワード付与装置
US20130159104A1 (en) * 2011-12-17 2013-06-20 Microsoft Corporation Hierarchical folders for keyword management
US8782051B2 (en) * 2012-02-07 2014-07-15 South Eastern Publishers Inc. System and method for text categorization based on ontologies
JP5450699B2 (ja) * 2012-03-13 2014-03-26 株式会社東芝 文書分析装置および文書分析プログラム

Also Published As

Publication number Publication date
EP3109777B1 (en) 2021-01-20
EP3109777A1 (en) 2016-12-28
JP2017010395A (ja) 2017-01-12
US20160378857A1 (en) 2016-12-29
AU2016200163A1 (en) 2017-01-19
AU2016200163B2 (en) 2017-06-08
SG10201600053TA (en) 2017-01-27

Similar Documents

Publication Publication Date Title
KR102235051B1 (ko) 이미지-텍스트 매칭 모델을 위한 트레이닝 방법, 양방향 검색 방법 및 관련 장치
CN110362723B (zh) 一种题目特征表示方法、装置及存储介质
JP6448207B2 (ja) ビジュアル検索の構築、文書のトリアージおよびカバレッジの追跡
JP4972358B2 (ja) 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体。
US20150331908A1 (en) Visual interactive search
JP5621773B2 (ja) 分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム
US20150356623A1 (en) System And Method For Recommending Customized Tourism Content Based On Collecting And Structurizing Of Unstructured Tourism Data
WO2014050774A1 (en) Document classification assisting apparatus, method and program
JP2014093058A (ja) 画像管理装置、画像管理方法、プログラム及び集積回路
JP6668892B2 (ja) アイテム推薦プログラム、アイテム推薦方法およびアイテム推薦装置
US11372914B2 (en) Image annotation
JP6856557B2 (ja) 最適化装置及びハイパーパラメータの最適化方法
JP4769151B2 (ja) 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体
Bergomi et al. Homological persistence in time series: an application to music classification
Waumans et al. Genealogical trees of scientific papers
KR20210055534A (ko) 문서 분류, 검색 또는 추천할 수 있는 전자 장치
CN108446378B (zh) 基于用户搜索的方法、系统及计算机存储介质
Huang et al. Detailed placement and global routing co-optimization with complex constraints
JP6540268B2 (ja) オブジェクト分類装置及びプログラム
JP5282880B2 (ja) 検索システム、検索方法、およびプログラム
JP2008305268A (ja) 文書分類装置及び分類方法
KR101035037B1 (ko) 동적 임계값이 적용된 유사문서 분류화 장치 및 방법
JP5298616B2 (ja) 情報提示装置、情報提示方法および情報提示用プログラム
Ufer et al. Large-scale interactive retrieval in art collections using multi-style feature aggregation
Tortelli Portela et al. HiPerMovelets: high-performance movelet extraction for trajectory classification

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190419

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190514

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190527

R150 Certificate of patent or registration of utility model

Ref document number: 6540268

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees