JP2016110256A - 情報処理装置及び情報処理プログラム - Google Patents

情報処理装置及び情報処理プログラム Download PDF

Info

Publication number
JP2016110256A
JP2016110256A JP2014244773A JP2014244773A JP2016110256A JP 2016110256 A JP2016110256 A JP 2016110256A JP 2014244773 A JP2014244773 A JP 2014244773A JP 2014244773 A JP2014244773 A JP 2014244773A JP 2016110256 A JP2016110256 A JP 2016110256A
Authority
JP
Japan
Prior art keywords
vector
document
module
information
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014244773A
Other languages
English (en)
Inventor
鈴木 星児
Seiji Suzuki
星児 鈴木
基行 鷹合
Motoyuki Takaai
基行 鷹合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2014244773A priority Critical patent/JP2016110256A/ja
Priority to US14/716,224 priority patent/US9400927B2/en
Priority to SG10201505545PA priority patent/SG10201505545PA/en
Priority to AU2015204339A priority patent/AU2015204339B2/en
Publication of JP2016110256A publication Critical patent/JP2016110256A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】特徴空間に配置された文書の集合から、その文書の集合の意味することを検索するようにした情報処理装置を提供する。【解決手段】情報処理装置の配置手段は、文書の特徴に応じて、多次元空間内に該文書を配置し、切出手段は、前記配置手段によって文書が配置された多次元空間から、該文書が分布している領域を切り出し、抽出手段は、前記切出手段によって切り出された領域である閉曲面を示すベクトルを抽出し、検索手段は、前記多次元空間におけるベクトルと該ベクトルの意味を示す情報を対応させて記憶した記憶手段から、前記抽出手段によって抽出されたベクトルに対応する情報を検索する。【選択図】図1

Description

本発明は、情報処理装置及び情報処理プログラムに関する。
特許文献1には、コンテンツを低次元空間内にマッピングする場合に、各コンテンツに予め付与されたメタ情報をマッピングの結果に的確に反映することを目的とし、予め分類体系等のメタ情報が付与されたコンテンツを、2次元平面等の低次元空間にマッピングする場合、高次元マッピング過程において、各コンテンツに概念ベクトルを割り当て、次いで低次元マッピング過程において、その概念ベクトルに基づいて、各コンテンツに低次元空間における位置情報を割り当て、このとき、各コンテンツに予め付与された分類カテゴリー情報が近いほど、低次元空間における位置情報が近くなるように概念ベクトル間の距離を補正することによって、前記複数のコンテンツがメタ情報を反映するようにクラスタ化することが可能となることが開示されている。
特許文献2には、大量の情報を情報間の内容的類似性に基づいて2次元に分類配置するときに、短い時間で分類配置を行えるようにすることを目的とし、情報に付与されたメタ情報にしたがって情報の持つ概念ベクトル間の距離を補正し、その補正した距離にしたがって多次元尺度法などを用いて基準マップを作成した後、未配置の情報が与えられると、その未配置情報の持つ概念ベクトルと基準マップを構成する情報の持つ概念ベクトルとの間の距離(あるいは、その距離を補正した距離)の構造を保存するような形で、その未配置情報の基準マップ上における配置座標を算出することで、基準マップ上に配置されていない情報を基準マップに逐次的に分類配置し、このようにして、個々の情報を基準マップに逐次的に分類配置できるようになることから、情報の数が増大したり、新たに情報が追加される場合にも、短い時間で分類配置を行えるようになることが開示されている。
特許文献3には、文書を意味的な内容の遠近に応じて一定の次元の空間に高速に配置することを課題とし、ベクトル化手段によってベクトル化した文書に対して、まずクラスタリング手段によって適当な数のベクトルをまとめ、次にクラスタ中心抽出手段によって各々のクラスタを代表する点を抽出し、それらクラスタ中心に対してのみマッピング手段を適用し、クラスタリング手段とマッピング手段の結果からクラスタ展開手段により各クラスタに含まれるベクトルの配置場所を決定することが開示されている。
特許文献4には、データの集合をそのデータの集合に適した形で空間上へ分類配置して表示するには、大きな計算量が必要であり、しかも結果が見づらいことを課題とし、行列で表現されるデータの組において、行か列の、より少ないデータの方を空間上に自己組織化手法などにより配置し、この配置結果のみを用いて他方のデータを配置することで、少ない計算量で分類配置することが可能となり、しかも両方のデータを表示することで片方のデータをラベルとして利用できるため、わかりやすい結果を得ることができることが開示されている。
特開2003−323454号公報 特開2004−086262号公報 特開平10−171823号公報 特開2003−288352号公報
ところで、文書の集合が意味することを人間が理解するにあたって、一般的に、文書を特徴空間に配置することが行われる。それらの文書の内容を熟知している専門家は、文書の配置から意味を抽出することができるが、専門家以外の者にとっては、その配置から意味を抽出することは困難である。また、文書の配置から意味を抽出することができるものはない。
本発明は、特徴空間に配置された文書の集合から、その文書の集合の意味することを検索するようにした情報処理装置及び情報処理プログラムを提供することを目的としている。
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項1の発明は、文書の特徴に応じて、多次元空間内に該文書を配置する配置手段と、前記配置手段によって文書が配置された多次元空間から、該文書が分布している領域を切り出す切出手段と、前記切出手段によって切り出された領域である閉曲面を示すベクトルを抽出する抽出手段と、前記多次元空間におけるベクトルと該ベクトルの意味を示す情報を対応させて記憶した記憶手段から、前記抽出手段によって抽出されたベクトルに対応する情報を検索する検索手段を具備する情報処理装置である。
請求項2の発明は、前記検索手段によって検索された情報を提示する提示手段をさらに具備する請求項1に記載の情報処理装置である。
請求項3の発明は、前記抽出手段は、前記切出手段によって切り出された領域である閉曲面を示す式を生成し、該式の係数を前記ベクトルの要素として取り出し、前記ベクトルを正規化する、請求項1又は2に記載の情報処理装置である。
請求項4の発明は、前記ベクトルに対応する情報を受け付け、前記記憶手段に該ベクトルに対応する情報を登録する登録手段をさらに具備する請求項1〜3のいずれか1項に記載の情報処理装置である。
請求項5の発明は、コンピュータを、文書の特徴に応じて、多次元空間内に該文書を配置する配置手段、前記配置手段によって文書が配置された多次元空間から、該文書が分布している領域を切り出す切出手段、前記切出手段によって切り出された領域である閉曲面を示すベクトルを抽出する抽出手段、前記多次元空間におけるベクトルと該ベクトルの意味を示す情報を対応させて記憶した記憶手段から、前記抽出手段によって抽出されたベクトルに対応する情報を検索する検索手段、として機能させるための情報処理プログラムである。
請求項1の情報処理装置によれば、特徴空間に配置された文書の集合から、その文書の集合の意味することを検索することができる。
請求項2の情報処理装置によれば、文書の集合の意味することを提示することができる。
請求項3の情報処理装置によれば、文書が分布している領域を示す閉曲面を正規化することができる。
請求項4の情報処理装置によれば、検索手段によってベクトルに対応する情報を検索できなかった場合や、ユーザが検索結果とは異なる解釈を追加したい場合は、そのベクトルに対応する情報を登録することができる。
請求項5の情報処理プログラムによれば、特徴空間に配置された文書の集合から、その文書の集合の意味することを検索することができる。
本実施の形態の構成例についての概念的なモジュール構成図である。 本実施の形態を利用したシステム構成例を示す説明図である。 本実施の形態による処理例を示すフローチャートである。 本実施の形態による処理例を示す説明図である。 本実施の形態による処理例を示す説明図である。 本実施の形態による処理例を示す説明図である。 本実施の形態による処理例を示す説明図である。 本実施の形態による処理例を示す説明図である。 本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。
以下、図面に基づき本発明を実現するにあたっての好適な一実施の形態の例を説明する。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続のほか、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、全ての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という意味を有する記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
本実施の形態である情報処理装置100は、特徴空間に配置された文書の集合から、その文書の集合の意味することを検索するものであって、図1の例に示すように、文書受付モジュール105、文書特徴抽出モジュール110、分布領域処理モジュール115、検索モジュール145、意味データベース150、提示モジュール155、登録モジュール160を有している。
文書受付モジュール105は、文書特徴抽出モジュール110と接続されている。文書受付モジュール105は、文書の集合(文書数が1以上の文書群)を受け付ける。ここで、文書とは、文字が書かれた文書以外にも図形、動画、音声等を含んでいても良い。なお、受け付ける文書の集合は、記憶装置(コンピュータに内蔵されているもののほかに、ネットワークを介して接続されているもの等を含む)に蓄積された文書集合、フォルダー内の文書集合、ユーザが指定した検索式による検索結果等であってもよい。
文書特徴抽出モジュール110は、文書受付モジュール105、分布領域処理モジュール115と接続されている。文書特徴抽出モジュール110は、文書受付モジュール105が受け付けた文書から、その文書の特徴を抽出する。文書の特徴として、作成日、作成者、作成者が所属する部署等の文書の属性であってもよいし、文書内の単語等の文言(例えば、文書を形態素解析した結果等)であってもよいし、文書の構造(例えば、図面数、段落数等)等であってもよい。
分布領域処理モジュール115は、特徴空間配置モジュール120、分布測定モジュール125、領域切出モジュール130、閉曲面抽出モジュール135、閉曲面特徴ベクトル抽出モジュール140を有しており、文書特徴抽出モジュール110、検索モジュール145と接続されている。分布領域処理モジュール115は、特徴空間に配置された文書の分布を抽出する。
特徴空間配置モジュール120は、分布測定モジュール125と接続されている。特徴空間配置モジュール120は、文書特徴抽出モジュール110によって抽出された特徴に応じて、多次元空間である特徴空間内に文書を配置する。特徴空間における軸は、予め定められた特徴を軸としてもよいし、クラスタリング手法を用いて軸を生成してもよいし、文書受付モジュール105が受け付けた文書を収集した際に用いた検索におけるファセット等を軸として採用するようにしてもよい。具体的には、その軸数の次元を有する多次元空間配列を用意し、その多次元空間配列における配置(マッピング)は、前述した特許文献に記載された技術等を用いればよい。なお、ファセットを軸として用いる場合、ファセットによっては予め定められた基準によりソートする必要がある場合がある。例えば、作成日時等の時刻情報が該当する。また、少なくとも軸上のファセットの配置は再現性がある必要がある。例えば、時刻情報が昇順・降順で変更されることはあるがランダムになることはない。
分布測定モジュール125は、特徴空間配置モジュール120、領域切出モジュール130と接続されている。分布測定モジュール125は、特徴空間配置モジュール120によって文書が配置された特徴空間から、その文書の分布を測定する。具体的には、例えば、その特徴空間の単位空間における分布密度を測定する。
領域切出モジュール130は、分布測定モジュール125、閉曲面抽出モジュール135と接続されている。領域切出モジュール130は、特徴空間配置モジュール120によって文書が配置された特徴空間から、その文書が分布している領域(以下、クラスタともいう)を切り出す。具体的には、例えば、分布測定モジュール125によって測定された分布密度が予め定められた条件を満たす場合に、その文書が存在する分布であるとしてもよい。ここで予め定められた条件として、例えば、分布密度が予め定められた閾値より大きい又は以上であることを条件としてもよいし、周囲の分布密度と比較して、予め定められた差分より大きい又は以上である箇所を分布の境界として抽出する条件等としてもよい。
なお、分布測定モジュール125、領域切出モジュール130による処理として、画像処理でいうところのぼかし処理(フィルタによるコンボリューション処理等)、二値化処理を用いるようにしてもよい。これらは、既存の同等技術が利用できる。なお、二値化処理には単純な閾値による二値化のほかにプリンタ等で使用されている高度な二値化(誤差拡散法等)、3Dグラフィックスなどで利用されるメタボール等を利用するようにしてもよい。
閉曲面抽出モジュール135は、領域切出モジュール130、閉曲面特徴ベクトル抽出モジュール140と接続されている。閉曲面抽出モジュール135は、領域切出モジュール130によって切り出された領域を表すn次閉曲面を算出する。
閉曲面特徴ベクトル抽出モジュール140は、閉曲面抽出モジュール135と接続されている。閉曲面特徴ベクトル抽出モジュール140は、閉曲面抽出モジュール135によって算出されたn次閉曲面から特徴ベクトルを抽出する。
また、閉曲面特徴ベクトル抽出モジュール140は、領域切出モジュール130によって切り出された領域であるn次閉曲面を示す式を生成し、その式の係数を特徴ベクトルの要素として取り出し、その特徴ベクトルを正規化(例えば、各変数の係数の比とする処理等)するようにしてもよい。後段の意味データベース150との照合をするときに、形状を何らかの形で数値化し、それによって意味データベース150を参照する。そのため、形状を概ね特定できる数式モデルを用意し、その係数をフィッティング(回帰分析などと同様)により求める。かかる処理により、式の係数は配置空間の次元数に応じた固定長の数列になる。正規化処理は、大きさは異なるが分布が同等である文書の集合を同じ特徴であるとして認識するようにするためである。
なお、閉曲面抽出モジュール135、閉曲面特徴ベクトル抽出モジュール140による処理として、画像認識技術を用いるようにしてもよい。例えば、顔画像認識技術を用いて、領域切出モジュール130によって切り出された領域を示す特徴ベクトルを抽出するようにしてもよい。
検索モジュール145は、分布領域処理モジュール115、意味データベース150、提示モジュール155、登録モジュール160と接続されている。検索モジュール145は、意味データベース150から、閉曲面特徴ベクトル抽出モジュール140によって抽出された特徴ベクトルに対応する情報を検索する。なお、特徴ベクトルをキーとした検索において、完全一致による検索であってもよいし、完全一致ではなく近い値で検索し、複数の候補を抽出するようにしてもよい。例えば、意味データベース150に登録されている特徴ベクトルと比較対象の特徴ベクトルの内積を取り、大きなものから順番に高スコアとするようにしてもよい。
意味データベース150は、検索モジュール145、登録モジュール160と接続されている。意味データベース150は、対象としている多次元空間における特徴ベクトルとその特徴ベクトルの意味を示す情報を対応させて記憶している。つまり、特徴ベクトルをキーとして、その特徴ベクトルに対応する意味情報を検索できるようになっており、具体的には、特徴ベクトルと意味情報を対として記憶しているテーブル等で構成する。
提示モジュール155は、検索モジュール145と接続されている。提示モジュール155は、検索モジュール145によって検索された情報を提示する。
登録モジュール160は、検索モジュール145、意味データベース150と接続されている。登録モジュール160は、検索モジュール145によってベクトルに対応する情報を検索できなかった場合や、ユーザが意味情報を新たに追加したい場合にそのベクトルに対応する情報を受け付け、意味データベース150にそのベクトルに対応する情報を登録する。ベクトルに対応する情報は、ユーザが入力する。ユーザは、キーボード、マウス、タッチパネル、音声、視線、ジェスチャ等を用いた操作によって、対象となっている領域の意味情報を入力する。また、その際に、意味データベース150に登録された最も近い値(意味情報)を候補としてユーザに提示することも可能である。ユーザは、その意味情報を参照して、意味情報を入力することになる。
図2は、本実施の形態を利用したシステム構成例を示す説明図である。
情報処理装置100、ユーザ端末210A、ユーザ端末210Bは、通信回線290を介してそれぞれ接続されている。通信回線290は、無線、有線、これらの組み合わせであってもよく、例えば、通信インフラとしてのインターネット等であってもよい。
ユーザ端末210に対してユーザが検索等の操作をすることによって、文書の集合を情報処理装置100に渡す。情報処理装置100は、文書の集合の意味を抽出し、ユーザ端末210へ渡す。ユーザ端末210は、その結果をユーザに提示する。
また、専門家であるユーザがユーザ端末210Aを用いて、文書の集合の意味情報を登録することを事前に行って、その後に、一般的なユーザがユーザ端末210Bを用いて、文書の集合の意味情報を抽出させるようにしてもよい。
なお、情報処理装置100を、ユーザ端末210に内蔵させて、スタンドアローンとしての構成としてもよい。情報処理装置100をクラウドとして構築し、文書検索とその検索結果からの解析情報を提示する文書整理サービス等を提供するようにしてもよい。
図3は、本実施の形態による処理例を示すフローチャートである。
ステップS302では、文書受付モジュール105は、文書の集合を受け付ける。
ステップS304では、文書特徴抽出モジュール110は、文書の特徴を抽出する。
ステップS306では、特徴空間配置モジュール120は、多次元配列を用意する。
ステップS308では、特徴空間配置モジュール120は、文書を多次元配列内に配置する。図4は、公開特許公報(文書)の集合を、特徴空間である多次元空間に配置した例を示したものである。この例では、ファセットである権利者、キーワード、技術分野、出願日を軸とした4次元空間を構成しており、公開特許公報を配置したものである。
ステップS310では、分布測定モジュール125は、配置した文書群の分布を測定する。
ステップS312では、領域切出モジュール130は、予め定めた閾値以上の密度を有する領域を切り出す。図5は、切り出した領域の例を示したものである。ここでは、領域510、520、530を3次元形状で示しているが、特徴空間の次元における形状となる。多次元空間に配置した分布に対して、ぼかし処理、二値化処理と同等の処理を行い、領域510、520、530を抽出する。
ステップS314では、閉曲面抽出モジュール135は、切り出した領域を表すn次元閉曲面を抽出する。ステップS312で切り出した領域の形状を表す数式を作成する。例えば、回帰分析等の公知の技術を用いればよい。図6(b)は、図6(a)に示す領域530の形状を数式化した例を示すものである。
ステップS316では、閉曲面特徴ベクトル抽出モジュール140は、n次元閉曲面を表す特徴ベクトルを抽出する。特徴ベクトルとして、数式の各軸を示す変数(x、y、z等)の係数を抽出する。図6(c)は、数式から各係数を抽出した例を示すものである。この例では、xの係数である「5.247」、yの係数である「3.11」、zの係数である「1.53」等を抽出している。そして、これをベクトルとして扱い、図6(d)の例に示すように、長さ1の単位ベクトルに正規化する。
ステップS318では、検索モジュール145は、図6(e)の例に示すように、特徴ベクトルを検索対象として、意味データベース150を検索する。
ステップS320では、検索モジュール145は、意味データベース150内に検索結果があるか否かを判断し、ある場合はステップS322へ進み、ない場合はステップS324へ進む。
ステップS322では、提示モジュール155は、検索結果を提示する。図6(f)の例に示すように、検索結果である「同じ技術分野ですが権利者によって表現がばらつきます」というようなクラスタ(分布)の意味を説明する表示を行う。
ステップS324では、登録モジュール160は、ユーザから自然言語による説明文(意味情報)を受け付ける。図6(g)の例に示すように、クラスタの意味を入力する。なお、この入力ができるユーザは、専門家だけとしてもよい。例えば、説明入力許可されている職階の属性を有しているユーザか否かを判断してもよい。
ステップS326では、登録モジュール160は、特徴ベクトルと説明文を対応付ける。
ステップS328では、登録モジュール160は、対応付けから説明文のテンプレートを作成する。
ステップS330では、登録モジュール160は、対応付け結果、説明文のテンプレートを意味データベース150に登録する。
ステップS332では、登録モジュール160は、ユーザから説明文の追加指示があるか否かを判断する。追加指示がある場合はステップS324へ進み、それ以外の場合は終了(ステップS399)する。検索には成功する(ステップS320でYesの場合)が、その検索結果(文書の分布に対する解釈)に不満がある場合に新しい解釈を追加できるようにしたものである。
意味データベース150は、特徴ベクトル(文書分布のパターン)と自然言語による説明文とを対応させる辞書を有している。例えば、特徴ベクトルと説明文のテンプレートを対応させるようにしてもよい。このテンプレートは、軸の名前(ファセット)の部分が引数となっており、その部分にファセットを埋め込んで説明文とするものである。
ここで、例えば特許検索の場合は、次のようになる。
特徴ベクトル(0.789,0.467,0.230,0.326,.......)
この特徴ベクトルに対応する説明文は、『同じ<技術分野>ですが<権利者>によって<表現>がばらつきます』となる。
この<〜>内は、別の検索分野では別のキーワードになる。<〜>以外の周辺の部分は固定したテンプレートになる。例えば、工場の性能評価レポートの検索であれば、同様の特徴ベクトルに対して、
『同じ<製品型番:xxx−yyy−12345>ですが<作業者>によって<何々の性能>がばらつきます』
という説明文を提示する。なお、この場合、特徴空間の軸として、製品型番、作業者、性能、仕入先等がある。
図7は、本実施の形態による別の処理例を示す説明図である。前述した図6等の例に、機械学習によるフィードバックを行うようにしたものである。又は、初期の段階で意味データベース150内のデータを生成するための処理である。
図7(a)〜(e)は、図6(a)〜(e)と同じ処理である。図7(f)では、クラスタの意味が入力される。その際に、図7(g)の例に示すように、抽出された特徴ベクトルと類似する特徴ベクトルに対応する説明分を提示する。例えば、特徴ベクトルと意味データベース150に登録された特徴ベクトルとの内積等により評価し、スコアの順に上位の予め定められた個数の説明文を出力する。これらの説明文は、対象としている文書のクラスタに関するありそうな解釈を列挙したことになる。
この中からユーザが最終的に選択した解釈又は新たに入力された解釈を元にして、機械学習を行い、意味データベースの重み付けを調整する(図7(h))。例えば、次のように、特徴ベクトル、重み、説明分を関連付けて、意味データベース150に記憶する。
特徴ベクトル(0.784,0.50,0.213,…)、重み0.8、テンプレート文「同じ<%1>ですが<%2>によって<%3>がばらつきます」
特徴ベクトル(0.245,0.432,0.33,…)、重み0.4、テンプレート文「肯定的な<%1>と批判的な<%1>を対比しているようです」
ここで、<%1>、<%2>、<%3>はそれぞれ任意のキーワードを表す。
図8は、本実施の形態による処理例を示す説明図である。マッピング空間800は、本実施の形態による処理例を示したものである。マッピング空間800は、横軸に文書に含まれているキーワード(キーワード軸820、図8では「1」、「2」等)と、縦軸にその文書の登録者(登録者軸810、図8では「A」、「B」等)で2次元の特徴空間を構成している。
この例では、「甲」というキーワードを含む文書とその類似文書を2次元空間にマッピングしている。クラスタ850のように横長の領域が現れている。クラスタ850の中心を成しているD氏は上司であり、部下から「甲」に関する多くの報告を受け、文書を作成している。しかし、部分的に抜けがあることがわかる。そこで、このクラスタ850の特徴と軸の特徴から、本実施の形態は、意味情報として「Dさんが登録している文書には、『1』、『5』、『8』、『9』、『10』、『11』、『13』、『17』の観点が抜けている恐れがあります。」等と検索結果である説明文を提示する。この説明文により実際に抜けがあるのか、それとも意図して除外しているのかといったチェックを行うことができるようになる。
なお、本実施の形態としてのプログラムが実行されるコンピュータのハードウェア構成は、図9に例示するように、一般的なコンピュータであり、具体的にはパーソナルコンピュータ、サーバーとなり得るコンピュータ等である。つまり、具体例として、処理部(演算部)としてCPU901を用い、記憶装置としてRAM902、ROM903、HD904を用いている。HD904として、例えばハードディスク、SSD(Solid State Drive)を用いてもよい。文書受付モジュール105、文書特徴抽出モジュール110、分布領域処理モジュール115、特徴空間配置モジュール120、分布測定モジュール125、領域切出モジュール130、閉曲面抽出モジュール135、閉曲面特徴ベクトル抽出モジュール140、検索モジュール145、提示モジュール155、登録モジュール160等のプログラムを実行するCPU901と、そのプログラムやデータを記憶するRAM902と、本コンピュータを起動するためのプログラム等が格納されているROM903と、意味データベース150としての機能を有する補助記憶装置(フラッシュメモリ等であってもよい)であるHD904と、キーボード、マウス、タッチパネル等に対するユーザの操作に基づいてデータを受け付ける受付装置906と、CRT、液晶ディスプレイ等の出力装置905と、ネットワークインタフェースカード等の通信ネットワークと接続するための通信回線インタフェース907、そして、それらをつないでデータのやりとりをするためのバス908により構成されている。これらのコンピュータが複数台互いにネットワークによって接続されていてもよい。
前述の実施の形態のうち、コンピュータ・プログラムによるものについては、本ハードウェア構成のシステムにソフトウェアであるコンピュータ・プログラムを読み込ませ、ソフトウェアとハードウェア資源とが協働して、前述の実施の形態が実現される。
なお、図9に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図9に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えば特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図9に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータのほか、情報家電、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
前述の実施の形態においては、多次元空間を表現するのに、多次元配列を用いたが、これに限定されるものではなく、異なるデータ構造を有していてもよい。例えば、グラフ構造、ツリー構造等を用いてもよい。
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通等のために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray(登録商標) Disc)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、又は無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、又は別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して記録されていてもよい。また、圧縮や暗号化等、復元可能であればどのような態様で記録されていてもよい。
100…情報処理装置
105…文書受付モジュール
110…文書特徴抽出モジュール
115…分布領域処理モジュール
120…特徴空間配置モジュール
125…分布測定モジュール
130…領域切出モジュール
135…閉曲面抽出モジュール
140…閉曲面特徴ベクトル抽出モジュール
145…検索モジュール
150…意味データベース
155…提示モジュール
160…登録モジュール
210…ユーザ端末
290…通信回線

Claims (5)

  1. 文書の特徴に応じて、多次元空間内に該文書を配置する配置手段と、
    前記配置手段によって文書が配置された多次元空間から、該文書が分布している領域を切り出す切出手段と、
    前記切出手段によって切り出された領域である閉曲面を示すベクトルを抽出する抽出手段と、
    前記多次元空間におけるベクトルと該ベクトルの意味を示す情報を対応させて記憶した記憶手段から、前記抽出手段によって抽出されたベクトルに対応する情報を検索する検索手段と、
    を具備する情報処理装置。
  2. 前記検索手段によって検索された情報を提示する提示手段
    をさらに具備する請求項1に記載の情報処理装置。
  3. 前記抽出手段は、前記切出手段によって切り出された領域である閉曲面を示す式を生成し、該式の係数を前記ベクトルの要素として取り出し、前記ベクトルを正規化する、
    請求項1又は2に記載の情報処理装置。
  4. 前記ベクトルに対応する情報を受け付け、前記記憶手段に該ベクトルに対応する情報を登録する登録手段
    をさらに具備する請求項1〜3のいずれか1項に記載の情報処理装置。
  5. コンピュータを、
    文書の特徴に応じて、多次元空間内に該文書を配置する配置手段、
    前記配置手段によって文書が配置された多次元空間から、該文書が分布している領域を切り出す切出手段、
    前記切出手段によって切り出された領域である閉曲面を示すベクトルを抽出する抽出手段、
    前記多次元空間におけるベクトルと該ベクトルの意味を示す情報を対応させて記憶した記憶手段から、前記抽出手段によって抽出されたベクトルに対応する情報を検索する検索手段、
    として機能させるための情報処理プログラム。
JP2014244773A 2014-12-03 2014-12-03 情報処理装置及び情報処理プログラム Pending JP2016110256A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2014244773A JP2016110256A (ja) 2014-12-03 2014-12-03 情報処理装置及び情報処理プログラム
US14/716,224 US9400927B2 (en) 2014-12-03 2015-05-19 Information processing apparatus and non-transitory computer readable medium
SG10201505545PA SG10201505545PA (en) 2014-12-03 2015-07-15 Information processing apparatus and information processing program
AU2015204339A AU2015204339B2 (en) 2014-12-03 2015-07-16 Information processing apparatus and information processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014244773A JP2016110256A (ja) 2014-12-03 2014-12-03 情報処理装置及び情報処理プログラム

Publications (1)

Publication Number Publication Date
JP2016110256A true JP2016110256A (ja) 2016-06-20

Family

ID=56094599

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014244773A Pending JP2016110256A (ja) 2014-12-03 2014-12-03 情報処理装置及び情報処理プログラム

Country Status (4)

Country Link
US (1) US9400927B2 (ja)
JP (1) JP2016110256A (ja)
AU (1) AU2015204339B2 (ja)
SG (1) SG10201505545PA (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9652797B2 (en) 2013-01-18 2017-05-16 24/7 Customer, Inc. Intent prediction based recommendation system using data combined from multiple channels
US9591212B1 (en) * 2015-10-30 2017-03-07 Essential Products, Inc. System and method for reducing the number of ports associated with a mobile device
US9762712B2 (en) 2015-10-30 2017-09-12 Essential Products, Inc. System and method for reducing the number of ports associated with a mobile device
CN116934822B (zh) * 2023-09-15 2023-12-05 众芯汉创(江苏)科技有限公司 一种基于三维点云数据自主配准转化精细化模型的系统

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10171823A (ja) 1996-12-09 1998-06-26 Mitsubishi Electric Corp 文書の自動分類方法およびその装置
DE60044220D1 (de) 1999-01-26 2010-06-02 Xerox Corp Multimodaler Informationzugriff
KR100518781B1 (ko) * 2001-10-17 2005-10-06 한국과학기술원 하이퍼사각형 기반의 다차원 데이터 세그먼테이션 장치,클러스터링 장치 및 그 방법
JP2003323454A (ja) 2001-11-16 2003-11-14 Nippon Telegr & Teleph Corp <Ntt> メタ情報を有するコンテンツをマッピングする方法、装置、及びコンピュータプログラム
JP2003288352A (ja) 2002-01-23 2003-10-10 Matsushita Electric Ind Co Ltd 情報分析表示装置及び情報分析表示プログラム
JP4220182B2 (ja) * 2002-05-31 2009-02-04 株式会社東芝 高次元テクスチャ描画装置、高次元テクスチャ圧縮装置、高次元テクスチャ描画システム、高次元テクスチャ描画方法並びにプログラム
JP3996470B2 (ja) 2002-08-23 2007-10-24 日本電信電話株式会社 視覚的情報分類方法、視覚的情報分類装置、視覚的情報分類プログラムおよびそのプログラムを記録した記録媒体
WO2005059699A2 (en) * 2003-12-15 2005-06-30 Quantum Matrix Holdings, Llc System and method for multi-dimensional organization, management, and manipulation of data
CN101052987A (zh) * 2004-11-02 2007-10-10 丁勇皙 使用多维码来请求服务的方法和装置
US8046363B2 (en) 2006-04-13 2011-10-25 Lg Electronics Inc. System and method for clustering documents
US7751621B1 (en) * 2007-01-30 2010-07-06 Jacobsen Kenneth P Method and system for rapid object recall within images
US8171030B2 (en) * 2007-06-18 2012-05-01 Zeitera, Llc Method and apparatus for multi-dimensional content search and video identification

Also Published As

Publication number Publication date
AU2015204339A1 (en) 2016-06-23
US9400927B2 (en) 2016-07-26
US20160162732A1 (en) 2016-06-09
SG10201505545PA (en) 2016-07-28
AU2015204339B2 (en) 2017-03-30

Similar Documents

Publication Publication Date Title
JP5171962B2 (ja) 異種データセットからの知識移転を伴うテキスト分類
US20210406266A1 (en) Computerized information extraction from tables
US9483460B2 (en) Automated formation of specialized dictionaries
US11055338B2 (en) Dynamic facet tree generation
Smith et al. Evaluating visual representations for topic understanding and their effects on manually generated topic labels
US11023503B2 (en) Suggesting text in an electronic document
US10528649B2 (en) Recognizing unseen fonts based on visual similarity
JP2006252333A (ja) データ処理方法、データ処理装置およびそのプログラム
EP4040311A1 (en) Utilizing machine learning and natural language processing to extract and verify vaccination data
KR20160149050A (ko) 텍스트 마이닝을 활용한 순수 기업 선정 장치 및 방법
JP2015075993A (ja) 情報処理装置及び情報処理プログラム
JP2016110256A (ja) 情報処理装置及び情報処理プログラム
JP2006323517A (ja) テキスト分類装置およびプログラム
CN113722512A (zh) 基于语言模型的文本检索方法、装置、设备及存储介质
CN108733733B (zh) 基于机器学习的生物医学文本分类方法、系统和存储介质
Diem et al. Semi-automated document image clustering and retrieval
JP2016045552A (ja) 特徴抽出プログラム、特徴抽出方法、および特徴抽出装置
JP2019061522A (ja) 文書推薦システム、文書推薦方法および文書推薦プログラム
CN114020864A (zh) 搜索结果的展示方法、装置及设备
US20220261856A1 (en) Method for generating search results in an advertising widget
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
KR20210023453A (ko) 리뷰 광고 매칭 장치 및 방법
JP2021152751A (ja) 分析支援装置及び分析支援方法
JP2015203960A (ja) 部分情報抽出システム
JP7442430B2 (ja) 審査支援システム、及び審査支援方法