JP2015203960A - 部分情報抽出システム - Google Patents
部分情報抽出システム Download PDFInfo
- Publication number
- JP2015203960A JP2015203960A JP2014082779A JP2014082779A JP2015203960A JP 2015203960 A JP2015203960 A JP 2015203960A JP 2014082779 A JP2014082779 A JP 2014082779A JP 2014082779 A JP2014082779 A JP 2014082779A JP 2015203960 A JP2015203960 A JP 2015203960A
- Authority
- JP
- Japan
- Prior art keywords
- vector
- segment
- condition
- partial
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】短時間かつ高い精度の部分検索を実現する抽出システム及び方法を提供する。
【解決手段】検索対象の情報をあらかじめ定められた複数のセグメントに分割し、セグメント毎に特徴ベクトルを生成するベクトル生成手順S101と、条件の特徴ベクトルを条件ベクトルとして生成し、条件ベクトルと前記セグメントの特徴ベクトルの類似度を計算するベクトル判定手順S103と、条件ベクトルとセグメントの特徴ベクトルの類似度を用いて、予め定められた基準で条件に近いセグメントを抽出する部分抽出手順S104と、を順に実行する。
【選択図】図2
【解決手段】検索対象の情報をあらかじめ定められた複数のセグメントに分割し、セグメント毎に特徴ベクトルを生成するベクトル生成手順S101と、条件の特徴ベクトルを条件ベクトルとして生成し、条件ベクトルと前記セグメントの特徴ベクトルの類似度を計算するベクトル判定手順S103と、条件ベクトルとセグメントの特徴ベクトルの類似度を用いて、予め定められた基準で条件に近いセグメントを抽出する部分抽出手順S104と、を順に実行する。
【選択図】図2
Description
本発明は、複数の情報をさらに部分情報に分割し、そのなかから目標情報に近い部分情報を抽出する部分情報抽出システムに関する。
情報の一例として文書を取り上げる。これまで大量の文書のなかから内容の近い文書を検索するシステムが提案されている(例えば、特許文献1参照)。特許文献1は、検索対象となる文書に含まれるキーワードの出現頻度を段落ごとに算出し、出現頻度の高い段落を抽出する。
探し出したい記述内容を検索条件とし、その文章に近い部分的な記述内容を検索対象文章群から抽出する。特許文献1の発明では、条件文からインデックスを作成するための単語を抽出し、検索対象文書のページ毎のインデックスの単語単位の出現頻度を計算し、文書ページの重み付けを行う。しかし、この方法では、条件文によって生成されるインデックスが異なるため、対象文書のインデックスに基づく単語の出現頻度は、条件文を変える度に計算をやりなおす必要があり、計算時間がかかるといった問題がある。さらに、条件文が単なるインデックス抽出のためにのみ利用され、条件文での単語の出現頻度は計算されない。このため、条件文において繰り返し使われるような重要な単語の比重も他の1回しか現れない単語の比重と同じになってしまう。すなわち、条件文を詳しく記述しても検索精度が変わらない、あるいは低下させるという問題がある。さらに、インデックスが条件文だけから作成されるため、単語数が制限され、抽出された部分文書同士の類似性の計算精度が落ちるため、抽出結果の中から真に欲しい情報を探し出すのに、結局人が全て読む必要があり、そのために労力と時間がかかるといった問題もある。
このように、引用文献1の発明は、条件文を変える度にインデックスが変わるため、インデックスに基づく文書中の単語の出現頻度を都度再計算する必要があり、また条件を詳細化しても検索精度を向上させることができないといった問題もある。さらに、抽出結果から真に欲しい情報を探すのに手間がかかるといった問題があった。
本発明は、短時間かつ高い精度の部分検索を実現することを目的とする。
従来のキーワードベースの検索手法においては、キーワード以外の類義語などを使った文章は、内容的には重要な文章であっても検索できない、といった問題があった。これを防ぐために類義語辞書を利用するなどいろいろな方法が提案されているが、辞書の作成等開発者によって異なるため、検索結果の再現性がないなどの問題がある。
発明者らは、キーワードベースの検索手法ではなく、単語の出現頻度を元に条件と検索対象の文書群の単位文書の特徴ベクトルを生成し、両者を比較する方法が有効であることを見出した。すなわち、条件を詳細化することで、汎用的な単語でもキーワードに関連した単語が多く使われ、その結果類義語などの使用によるキーワードのゆらぎが緩和され、検索精度が向上することを見出した。
さらに、単語の出現頻度を計算する基本となるインデックスを条件から抽出すると、条件が変わる度にインデックスが変化するという問題が発生する。この問題を解決するため、検索対象文書全体からインデックスを抽出する。条件および部分文書(以下文書セグメントと呼ぶ)の特徴ベクトルもそのインデックスをベースに生成し、両者の類似度を計算する。この方法を用いることで、条件文を変えても文書セグメントの特徴ベクトルは変わらないため、文書セグメントの特徴ベクトルの計算は最初に一度だけ行うだけでよく、特徴ベクトルの生成をやり直す必要は無い。したがって、様々な条件文に対して、高速で類似文書セグメントを抽出することが可能となる。
さらに、このようにして生成された文書セグメントの特徴ベクトルを使えば、条件をベースに検索した結果に含まれる文書セグメント同士の類似度も計算でき、検索結果を内容別にクラスタリングすることが可能となる。
具体的には、本発明にかかる部分情報抽出方法は、
複数の情報のなかから条件の概念に近い部分的な情報を抽出する部分情報抽出方法であって、
特徴ベクトル生成部が、検索対象の情報群からインデックスを生成し、前記情報をあらかじめ定められた複数のセグメントに分割し、セグメント毎にインデックスに基づきベクトル空間モデルに基づく特徴ベクトルを生成するベクトル生成手順と、
ベクトル判定部が、前記条件の特徴ベクトルを条件ベクトルとして生成し、前記条件ベクトルと前記セグメントの特徴ベクトルの類似度を計算するベクトル判定手順と、
部分抽出部が、前記条件ベクトルと前記セグメントの特徴ベクトルの類似度を用いて、予め定められた基準で前記条件に近い前記セグメントを抽出する部分抽出手順と、
を順に有する。
複数の情報のなかから条件の概念に近い部分的な情報を抽出する部分情報抽出方法であって、
特徴ベクトル生成部が、検索対象の情報群からインデックスを生成し、前記情報をあらかじめ定められた複数のセグメントに分割し、セグメント毎にインデックスに基づきベクトル空間モデルに基づく特徴ベクトルを生成するベクトル生成手順と、
ベクトル判定部が、前記条件の特徴ベクトルを条件ベクトルとして生成し、前記条件ベクトルと前記セグメントの特徴ベクトルの類似度を計算するベクトル判定手順と、
部分抽出部が、前記条件ベクトルと前記セグメントの特徴ベクトルの類似度を用いて、予め定められた基準で前記条件に近い前記セグメントを抽出する部分抽出手順と、
を順に有する。
本発明にかかる部分情報抽出方法では、クラスタリング部が、前記部分抽出手順で抽出された前記セグメントの特徴ベクトルを用いて前記セグメント同士の類似度を計算し、前記セグメント同士の類似度に基づき、前記部分抽出手順で抽出された前記セグメントを複数の情報クラスタに分類するクラスタリング手順を、前記部分抽出手順の後にさらに有してもよい。
本発明にかかる部分情報抽出方法では、マップ化部が、前記部分抽出手順で抽出された前記セグメントを、前記セグメント同士の類似度に応じて、マップ上に配置するマップ化手順を、前記部分抽出手順の後にさらに有してもよい。
具体的には、本発明にかかる部分情報抽出システムは、
複数の文書のなかから条件の概念に近い部分的な情報を抽出する部分情報抽出システムであって、
検索対象の情報群からインデックスを生成し、前記情報をあらかじめ定められた複数のセグメントに分割し、セグメント毎にインデックスに基づきベクトル空間モデルに基づく特徴ベクトルを生成する特徴ベクトル生成部と、
前記条件の特徴ベクトルを条件ベクトルとして生成し、前記条件ベクトルと前記セグメントの特徴ベクトルの類似度を計算するベクトル判定部と、
前記条件ベクトルと前記セグメントの特徴ベクトルの類似度を用いて、予め定められた基準で前記条件に近い前記セグメントを抽出する部分抽出部と、
を備える。
複数の文書のなかから条件の概念に近い部分的な情報を抽出する部分情報抽出システムであって、
検索対象の情報群からインデックスを生成し、前記情報をあらかじめ定められた複数のセグメントに分割し、セグメント毎にインデックスに基づきベクトル空間モデルに基づく特徴ベクトルを生成する特徴ベクトル生成部と、
前記条件の特徴ベクトルを条件ベクトルとして生成し、前記条件ベクトルと前記セグメントの特徴ベクトルの類似度を計算するベクトル判定部と、
前記条件ベクトルと前記セグメントの特徴ベクトルの類似度を用いて、予め定められた基準で前記条件に近い前記セグメントを抽出する部分抽出部と、
を備える。
本発明にかかる部分情報抽出システムでは、前記部分抽出部の抽出した前記セグメントの特徴ベクトルを用いて前記セグメント同士の類似度を計算し、前記セグメント同士の類似度に基づき、前記部分抽出部の抽出した前記セグメントを複数の情報クラスタに分類するクラスタリング部を、さらに備えていてもよい。
本発明にかかる部分情報抽出システムでは、前記部分抽出部の抽出した前記セグメントを、前記セグメント同士の類似度に応じて、マップ上に配置するマップ化部を、さらに備えていてもよい。
本発明によれば、短時間かつ高い精度の部分検索を実現することができる。
以下、本発明の実施形態について、図面を参照しながら詳細に説明する。なお、本発明は、以下に示す実施形態に限定されるものではない。これらの実施の例は例示に過ぎず、本発明は当業者の知識に基づいて種々の変更、改良を施した形態で実施することができる。なお、本明細書及び図面において符号が同じ構成要素は、相互に同一のものを示すものとする。
(実施形態1)
図1に、本実施形態に係る部分情報抽出システムの構成例を示す。本実施形態に係る部分情報抽出システムは、サーバ10と、ストレージ20と、ユーザ端末30を備える。ストレージ20は、サーバ10からアクセス可能な任意の記憶媒体である。サーバ10及びユーザ端末30は、CPU(Central Processing Unit)及び記憶媒体などの計算機資源を備えたコンピュータであり、記憶媒体にはプログラムがインストールされている。サーバ10、ストレージ20及びユーザ端末30は、いずれも任意の数を採用しうるが、本実施形態では、サーバ10が1台、ストレージ20が2台、ユーザ端末30が1台の場合について示す。
図1に、本実施形態に係る部分情報抽出システムの構成例を示す。本実施形態に係る部分情報抽出システムは、サーバ10と、ストレージ20と、ユーザ端末30を備える。ストレージ20は、サーバ10からアクセス可能な任意の記憶媒体である。サーバ10及びユーザ端末30は、CPU(Central Processing Unit)及び記憶媒体などの計算機資源を備えたコンピュータであり、記憶媒体にはプログラムがインストールされている。サーバ10、ストレージ20及びユーザ端末30は、いずれも任意の数を採用しうるが、本実施形態では、サーバ10が1台、ストレージ20が2台、ユーザ端末30が1台の場合について示す。
ストレージ20は、情報群を保持する。情報群は、通信ネットワークを介して送受信される任意のデータを含み、例えば、文章、数値データ、ログデータ及び顧客情報を含む。文章は、例えば、特許、論文、書籍、レポート及びホームページが例示できる。数値データは、例えば、センサーデータ、測定データ、POS(Point Of Sales)データが例示できる。ログデータは、例えば、オンラインアクセスデータ、各種装置の状態データが例示できる。本実施形態では、一例として、情報が文書である場合について説明する。
図2に、本実施形態に係る部分情報抽出システムのシーケンスを示す。サーバ10は、ストレージ20から文書を取得し、取得した文書をあらかじめ定められた複数のセグメントに分割し、セグメント毎にインデックスに基づきベクトル空間モデルに基づく特徴ベクトルを生成する(S101)。各セグメントの特徴ベクトルは、元の情報群とは別に2次的なストレージ20に格納され、以後の類似度の計算に利用されることが好ましい。元の情報群は、計算ステージでは一切利用されず、最終段階で元の情報を表示する際にのみ、利用される。
ユーザ端末30は、通信ネットワークを介して条件を送信する(S102)。サーバ10は、ユーザ端末30から条件を受信すると、ストレージ20から各セグメントの特徴ベクトルを取得し(S102)、条件の特徴ベクトルに近い特徴ベクトルを有するセグメントを抽出し(S104)、抽出結果をユーザ端末30へ送信する(S105)。ユーザ端末30は、サーバ10から受信した抽出結果を表示する(S106)。
サーバ10は、通信ネットワークを介してユーザ端末30及びストレージ20と情報の送受信を行う通信機能部(不図示)と、セグメントを抽出するための構成を備える。セグメントを抽出するための構成は、例えば、特徴ベクトル生成部11と、ベクトル判定部12と、部分抽出部13と、を備える。サーバ10は、コンピュータを、特徴ベクトル生成部11、ベクトル判定部12及び部分抽出部13として機能させることで実現してもよい。この場合、サーバ10内のCPUが、記憶部(不図示)に記憶されたコンピュータプログラムを実行することで、各構成を実現する。
サーバ10は、セグメントを抽出するに際し、本実施形態に係る部分情報抽出方法を実行する。本実施形態に係る部分情報抽出方法は、ベクトル生成手順(S101)と、ベクトル判定手順(S103)と、部分抽出手順(S104)と、を順に有する。
ベクトル生成手順(S101)では、特徴ベクトル生成部11が、セグメント毎にベクトル空間モデルに基づく特徴ベクトルを生成する。特徴ベクトルを構成する要素すなわちインデックスは、条件文によって定められるものではなく、検索対象情報群から生成される。特徴ベクトルのインデックスが条件文に依存しないため、条件文の記載の仕方によって特徴ベクトルが劣化してしまうようなこともない。また、条件文が変化した場合であっても常に同じセグメントの特徴ベクトルを用いることができるため、サーバ10の処理負荷が少ない。
文書が文章を含む場合、セグメントは、例えば、段落又は文である。段落の場合、例えば、改行を検出することで段落単位を識別する。文の場合、句点「。」又は「.」、疑問符「?」及び感嘆符「!」を検出することで単位文を識別する。インデックスは、ベクトルの要素であり、例えば単語リストである。本実施形態では、一例として、セグメントが段落であり、インデックスが単語リストである場合について説明する。
ベクトル判定手順(S103)では、ベクトル判定部12が、セグメントdiごとに条件dkとの内容の近さを判定する。例えば、ベクトル判定部12は、ベクトル空間モデルに基づき条件dkをベクトル化する。そして、ベクトル判定部12が、条件ベクトル及び特徴ベクトルの近さを判定する。
情報diが、要素tjに対してマトリクス表記できる場合、情報diをベクトル空間モデルdi=(t1,t2,t3,……)で記述することができる。このため、条件は、条件に含まれる単語を要素とする条件ベクトルで記述することができる。またセグメントも、セグメントに含まれる単語を要素とするセグメントベクトルで記述することができる。
セグメントdi中に出現する要素tjの出現頻度をnijとすると、セグメントdiは概念ベクトルdi=(ni1,ni2,ni3,……)で表すことができる。例えば、セグメントd1における単語t1、t2、t3の出願回数がそれぞれ0、1、0であり、セグメントd2における単語t1、t2、t3の出願回数がそれぞれ2、1、0であり、セグメントd3における単語t1、t2、t3の出願回数がそれぞれ1、2、3である場合、セグメントの行列Mは以下のように表される。
セグメントdiと条件dkの内容の近さは、特徴ベクトルdiと条件ベクトルdkの演算によって数値化できる。数値化に用いる演算は、ベクトル相互間の距離であってもよいし、内積、外積等の任意の演算を用いてもよい。
ここで、どのセグメントにも共通に使用される単語は文書の内容の近さに影響を与えない。そこで、ベクトルの算出においては、各文書に特徴的な単語とそれ以外の単語のベクトルへの寄与に差を設けることが好ましい。例えば、tfidf(Term Frequency Inverse Document Frequency)法を使って重み付けを行う。これにより、セグメントの内容の近さの精度を向上することができる。どの文書にも同様に使われる単語の重み付けtfidfは小さく、文書によって使われる頻度が大きく異なる文書はtfidfが大きい。
内容の近さの判定は、例えば、条件に含まれる単語の有無に基づいて行ってもよい。条件に単数の単語が含まれる場合は、セグメント毎にキーワードを含むか含まないかの2値で判定する。条件に複数の単語がある場合は、論理式を構成し、セグメント毎にその論理式に適合するかしないかの2値で判定する。
部分抽出手順(S104)では、部分抽出部13が、複数のセグメントのうちの予め定められた条件からのベクトルの近いセグメントを抽出する。このとき、抽出するセグメントは、予め定められた数のセグメントであってもよいし、ベクトルが予め定められた近さの範囲内にあるセグメントであってもよい。このように、ベクトルの近いセグメントを抽出することで、検索条件によって構成される概念に近い部分のみを抽出することができる。
部分抽出手順(S104)では、クラスタリング処理をおこなってもよい。このとき、部分抽出部13は、条件ベクトルとセグメントの特徴ベクトルの類似度を用いて、セグメント同士の類似度に基づき、抽出されたセグメントを複数の情報クラスタに分類する。分類は、例えば、ベクトルの距離の近いものから順に共通のクラスタに分類する。このよういに、クラスタリング処理を行うことで、各セグメントに記載されている内容を階層化して分類した結果をユーザ端末10へ提供することができる。
なお、本実施形態では、文書が文章である例について説明したが、本発明における文書はこれに限らない。文書が数値データ又はログデータを含む場合、セグメントは、例えば、時刻若しくは時間、地域若しくは場所、又は帰属先である。文書が顧客データを含む場合、セグメントは、例えば、時刻若しくは時間、地域若しくは場所、帰属先、又は年齢である。時間の単位は任意であり、例えば、秒単位であってもよいし、年単位であってもよい。
また、文書が数値データ又はログデータを含む場合、ベクトル空間モデルに基づくベクトル化は以下のようにして行う。
文書がオンラインサービスにおけるユーザのアクセスログデータの場合、時刻di〜di+T(時間間隔T)の間における、ユーザtjのアクセス数をnijとする。時刻diはベクトルdi=(ni1,ni2,ni3,……)と表現できる。
文書がセンサーデータの場合、時刻di〜di+T(時間間隔T)の間における、センサーtjの出力数値をnijとする。時刻diはベクトルdi=(ni1,ni2,ni3,……)と表現できる。
文書が画像データの場合、画像diを周波数変換し、変換後の各周波数の成分tjの数値をnijとする。時刻diはベクトルdi=(ni1,ni2,ni3,……)と表現できる。
文書がオンラインサービスにおけるユーザのアクセスログデータの場合、時刻di〜di+T(時間間隔T)の間における、ユーザtjのアクセス数をnijとする。時刻diはベクトルdi=(ni1,ni2,ni3,……)と表現できる。
文書がセンサーデータの場合、時刻di〜di+T(時間間隔T)の間における、センサーtjの出力数値をnijとする。時刻diはベクトルdi=(ni1,ni2,ni3,……)と表現できる。
文書が画像データの場合、画像diを周波数変換し、変換後の各周波数の成分tjの数値をnijとする。時刻diはベクトルdi=(ni1,ni2,ni3,……)と表現できる。
また、文書が数値データ又はログデータを含む場合、重み付けtfidfは以下のようにして行う。
文書がオンラインサービスにおけるユーザのアクセスログデータの場合、始終平均的にアクセスするユーザの重み付けtfidfは小さくなり、アクセスのムラの大きいユーザの重み付けtfidfは大きくなる。
文書がセンサーデータの場合、出力数値のあまり変化しないセンサーの重み付けtfidfは小さくなり、出力数値の変化の大きいセンサーの重み付けtfidfは大きくなる。
文書が画像データの場合、画像間で成分値のバラツキの小さい周波数の重み付けtfidfは小さくなり、画像間で成分値のバラツキの大きい周波数の重み付けtfidfは大きくなる。
文書がオンラインサービスにおけるユーザのアクセスログデータの場合、始終平均的にアクセスするユーザの重み付けtfidfは小さくなり、アクセスのムラの大きいユーザの重み付けtfidfは大きくなる。
文書がセンサーデータの場合、出力数値のあまり変化しないセンサーの重み付けtfidfは小さくなり、出力数値の変化の大きいセンサーの重み付けtfidfは大きくなる。
文書が画像データの場合、画像間で成分値のバラツキの小さい周波数の重み付けtfidfは小さくなり、画像間で成分値のバラツキの大きい周波数の重み付けtfidfは大きくなる。
(実施形態2)
図3に、本実施形態に係る部分情報抽出システムの構成例を示す。本実施形態に係る部分情報抽出システムは、実施形態1の構成に加え、さらにマップ化部14を備える。
図3に、本実施形態に係る部分情報抽出システムの構成例を示す。本実施形態に係る部分情報抽出システムは、実施形態1の構成に加え、さらにマップ化部14を備える。
図4に、本実施形態に係る部分情報抽出システムのシーケンスを示す。本実施形態に係る部分情報抽出方法は、実施形態1で説明した部分抽出手順(S104)の後に、マップ化手順(S107)をさらに有する。サーバ10は、マップ化手順で作成したマップをユーザ端末30へ送信する(S108)。ユーザ端末30は、サーバ10から受信したマップを表示する(S109)。
マップ化手順(S107)では、部分抽出部13の抽出したセグメント及び条件を示す点を、ベクトル判定部12の作成したベクトル値に基づき、ベクトル同士の内容の近さに応じて、マップ上に配置する。
特徴ベクトル相互間の近さを計算し、ベクトル相互間の近さに基づいて、情報間の内容の近さすなわち「意味的距離」に基づくマップ化を行う。演算は、ベクトル相互間の距離であってもよいし、内積、外積等の任意の演算を用いてもよい。また、部分抽出部13がクラスタリング処理を行った場合、複数のセグメントを含む情報クラスタをマップ上に配置してもよい。得られた情報di相互間の内容の近さに基づいて、マップ化アルゴリズムを用いて図5に示すようなマップを作成することができる。
本実施形態に係るシステムは、概念検索を用いてセグメントを抽出し、概念検索を用いて算出されたベクトルを用いて各セグメントの内容の分布をマップ化することができる。
本発明は情報通信産業に適用することができる。
10:サーバ
11:特徴ベクトル生成部
12:ベクトル判定部
13:部分抽出部
14:マップ化部
20:ストレージ
30:ユーザ端末
31:クラスタリング部
11:特徴ベクトル生成部
12:ベクトル判定部
13:部分抽出部
14:マップ化部
20:ストレージ
30:ユーザ端末
31:クラスタリング部
Claims (6)
- 複数の情報のなかから条件の概念に近い部分的な情報を抽出する部分情報抽出方法であって、
特徴ベクトル生成部が、検索対象の情報群からインデックスを生成し、前記情報をあらかじめ定められた複数のセグメントに分割し、セグメント毎にインデックスに基づきベクトル空間モデルに基づく特徴ベクトルを生成するベクトル生成手順と、
ベクトル判定部が、前記条件の特徴ベクトルを条件ベクトルとして生成し、前記条件ベクトルと前記セグメントの特徴ベクトルの類似度を計算するベクトル判定手順と、
部分抽出部が、前記条件ベクトルと前記セグメントの特徴ベクトルの類似度を用いて、予め定められた基準で前記条件に近い前記セグメントを抽出する部分抽出手順と、
を順に有する部分情報抽出方法。 - 前記部分抽出手順において、前記条件ベクトルと前記セグメントの特徴ベクトルの類似度を用いて、前記セグメント同士の類似度に基づき、抽出された前記セグメントを複数の情報クラスタに分類することを特徴とする請求項1に記載の部分情報抽出方法。
- マップ化部が、前記部分抽出手順で抽出された前記セグメントを、前記セグメント同士の類似度に応じて、マップ上に配置するマップ化手順を、前記部分抽出手順の後にさらに有する請求項1又は2に記載の部分情報抽出方法。
- 複数の文書のなかから条件の概念に近い部分的な情報を抽出する部分情報抽出システムであって、
検索対象の情報群からインデックスを生成し、前記情報をあらかじめ定められた複数のセグメントに分割し、セグメント毎にインデックスに基づきベクトル空間モデルに基づく特徴ベクトルを生成する特徴ベクトル生成部と、
前記条件の特徴ベクトルを条件ベクトルとして生成し、前記条件ベクトルと前記セグメントの特徴ベクトルの類似度を計算するベクトル判定部と、
前記条件ベクトルと前記セグメントの特徴ベクトルの類似度を用いて、予め定められた基準で前記条件に近い前記セグメントを抽出する部分抽出部と、
を備える部分情報抽出システム。 - 前記部分抽出部は、前記条件ベクトルと前記セグメントの特徴ベクトルの類似度を用いて、前記セグメント同士の類似度に基づき、抽出された前記セグメントを複数の情報クラスタに分類することを特徴とする請求項4に記載の部分情報抽出システム。
- 前記部分抽出部の抽出した前記セグメントを、前記セグメント同士の類似度に応じて、マップ上に配置するマップ化部を、さらに備える請求項4又は5に記載の部分情報抽出システム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014082779A JP2015203960A (ja) | 2014-04-14 | 2014-04-14 | 部分情報抽出システム |
PCT/JP2015/060087 WO2015159702A1 (ja) | 2014-04-14 | 2015-03-31 | 部分情報抽出システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014082779A JP2015203960A (ja) | 2014-04-14 | 2014-04-14 | 部分情報抽出システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015203960A true JP2015203960A (ja) | 2015-11-16 |
Family
ID=54323913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014082779A Pending JP2015203960A (ja) | 2014-04-14 | 2014-04-14 | 部分情報抽出システム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2015203960A (ja) |
WO (1) | WO2015159702A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294733A (zh) * | 2016-08-10 | 2017-01-04 | 成都轻车快马网络科技有限公司 | 基于文本分析的网页检测方法 |
JP2020035036A (ja) * | 2018-08-28 | 2020-03-05 | 株式会社日立製作所 | 試験計画策定支援装置、試験計画策定支援方法及びプログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10207911A (ja) * | 1996-11-25 | 1998-08-07 | Fuji Xerox Co Ltd | 文書検索装置 |
JP2004213626A (ja) * | 2002-11-27 | 2004-07-29 | Sony United Kingdom Ltd | 情報の格納及び検索 |
JP2004295712A (ja) * | 2003-03-28 | 2004-10-21 | Hitachi Ltd | 類似文書検索方法および類似文書検索装置 |
JP2013182466A (ja) * | 2012-03-02 | 2013-09-12 | Kurimoto Ltd | Web検索システムおよびWeb検索方法 |
-
2014
- 2014-04-14 JP JP2014082779A patent/JP2015203960A/ja active Pending
-
2015
- 2015-03-31 WO PCT/JP2015/060087 patent/WO2015159702A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10207911A (ja) * | 1996-11-25 | 1998-08-07 | Fuji Xerox Co Ltd | 文書検索装置 |
JP2004213626A (ja) * | 2002-11-27 | 2004-07-29 | Sony United Kingdom Ltd | 情報の格納及び検索 |
JP2004295712A (ja) * | 2003-03-28 | 2004-10-21 | Hitachi Ltd | 類似文書検索方法および類似文書検索装置 |
JP2013182466A (ja) * | 2012-03-02 | 2013-09-12 | Kurimoto Ltd | Web検索システムおよびWeb検索方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294733A (zh) * | 2016-08-10 | 2017-01-04 | 成都轻车快马网络科技有限公司 | 基于文本分析的网页检测方法 |
CN106294733B (zh) * | 2016-08-10 | 2019-05-07 | 成都轻车快马网络科技有限公司 | 基于文本分析的网页检测方法 |
JP2020035036A (ja) * | 2018-08-28 | 2020-03-05 | 株式会社日立製作所 | 試験計画策定支援装置、試験計画策定支援方法及びプログラム |
JP7068106B2 (ja) | 2018-08-28 | 2022-05-16 | 株式会社日立製作所 | 試験計画策定支援装置、試験計画策定支援方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2015159702A1 (ja) | 2015-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102092691B1 (ko) | 웹페이지 트레이닝 방법 및 기기, 그리고 검색 의도 식별 방법 및 기기 | |
US10042896B2 (en) | Providing search recommendation | |
US9454602B2 (en) | Grouping semantically related natural language specifications of system requirements into clusters | |
Dey Sarkar et al. | A novel feature selection technique for text classification using Naive Bayes | |
JP5817531B2 (ja) | 文書クラスタリングシステム、文書クラスタリング方法およびプログラム | |
US20130060769A1 (en) | System and method for identifying social media interactions | |
US10380162B2 (en) | Item to vector based categorization | |
CN107688616B (zh) | 使实体的独特事实显现 | |
WO2020114100A1 (zh) | 一种信息处理方法、装置和计算机存储介质 | |
US11580119B2 (en) | System and method for automatic persona generation using small text components | |
US20150088910A1 (en) | Automatic prioritization of natural language text information | |
US10936806B2 (en) | Document processing apparatus, method, and program | |
US10055408B2 (en) | Method of extracting an important keyword and server performing the same | |
CN113343101B (zh) | 一种对象排序方法及系统 | |
KR20230142754A (ko) | 모델 교차들을 이용한 문서 분석 | |
Tabak et al. | Comparison of emotion lexicons | |
CN112528315A (zh) | 识别敏感数据的方法和装置 | |
WO2019093172A1 (ja) | 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム | |
JP2015203961A (ja) | 文書抽出システム | |
Al Mostakim et al. | Bangla content categorization using text based supervised learning methods | |
Balaguer et al. | CatSent: a Catalan sentiment analysis website | |
CN112487181B (zh) | 关键词确定方法和相关设备 | |
WO2015159702A1 (ja) | 部分情報抽出システム | |
JP2016110256A (ja) | 情報処理装置及び情報処理プログラム | |
CN111737607A (zh) | 数据处理方法、装置、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170413 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20170426 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180529 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20181120 |