JP2015203960A

JP2015203960A - 部分情報抽出システム

Info

Publication number: JP2015203960A
Application number: JP2014082779A
Authority: JP
Inventors: 佳男高枝; Yoshio Takaeda; 哲也金田; Tetsuya Kaneda; 弘海矢野; Hiromi Yano; 康生大原; Yasuo Ohara
Original assignee: TOOR Inc; Cybernet Systems Co Ltd
Current assignee: TOOR Inc; Cybernet Systems Co Ltd
Priority date: 2014-04-14
Filing date: 2014-04-14
Publication date: 2015-11-16
Also published as: WO2015159702A1

Abstract

【課題】短時間かつ高い精度の部分検索を実現する抽出システム及び方法を提供する。
【解決手段】検索対象の情報をあらかじめ定められた複数のセグメントに分割し、セグメント毎に特徴ベクトルを生成するベクトル生成手順Ｓ１０１と、条件の特徴ベクトルを条件ベクトルとして生成し、条件ベクトルと前記セグメントの特徴ベクトルの類似度を計算するベクトル判定手順Ｓ１０３と、条件ベクトルとセグメントの特徴ベクトルの類似度を用いて、予め定められた基準で条件に近いセグメントを抽出する部分抽出手順Ｓ１０４と、を順に実行する。
【選択図】図２

Description

本発明は、複数の情報をさらに部分情報に分割し、そのなかから目標情報に近い部分情報を抽出する部分情報抽出システムに関する。

情報の一例として文書を取り上げる。これまで大量の文書のなかから内容の近い文書を検索するシステムが提案されている（例えば、特許文献１参照）。特許文献１は、検索対象となる文書に含まれるキーワードの出現頻度を段落ごとに算出し、出現頻度の高い段落を抽出する。

特開２０１３−３００８９号公報

探し出したい記述内容を検索条件とし、その文章に近い部分的な記述内容を検索対象文章群から抽出する。特許文献１の発明では、条件文からインデックスを作成するための単語を抽出し、検索対象文書のページ毎のインデックスの単語単位の出現頻度を計算し、文書ページの重み付けを行う。しかし、この方法では、条件文によって生成されるインデックスが異なるため、対象文書のインデックスに基づく単語の出現頻度は、条件文を変える度に計算をやりなおす必要があり、計算時間がかかるといった問題がある。さらに、条件文が単なるインデックス抽出のためにのみ利用され、条件文での単語の出現頻度は計算されない。このため、条件文において繰り返し使われるような重要な単語の比重も他の１回しか現れない単語の比重と同じになってしまう。すなわち、条件文を詳しく記述しても検索精度が変わらない、あるいは低下させるという問題がある。さらに、インデックスが条件文だけから作成されるため、単語数が制限され、抽出された部分文書同士の類似性の計算精度が落ちるため、抽出結果の中から真に欲しい情報を探し出すのに、結局人が全て読む必要があり、そのために労力と時間がかかるといった問題もある。

このように、引用文献１の発明は、条件文を変える度にインデックスが変わるため、インデックスに基づく文書中の単語の出現頻度を都度再計算する必要があり、また条件を詳細化しても検索精度を向上させることができないといった問題もある。さらに、抽出結果から真に欲しい情報を探すのに手間がかかるといった問題があった。

本発明は、短時間かつ高い精度の部分検索を実現することを目的とする。

従来のキーワードベースの検索手法においては、キーワード以外の類義語などを使った文章は、内容的には重要な文章であっても検索できない、といった問題があった。これを防ぐために類義語辞書を利用するなどいろいろな方法が提案されているが、辞書の作成等開発者によって異なるため、検索結果の再現性がないなどの問題がある。

発明者らは、キーワードベースの検索手法ではなく、単語の出現頻度を元に条件と検索対象の文書群の単位文書の特徴ベクトルを生成し、両者を比較する方法が有効であることを見出した。すなわち、条件を詳細化することで、汎用的な単語でもキーワードに関連した単語が多く使われ、その結果類義語などの使用によるキーワードのゆらぎが緩和され、検索精度が向上することを見出した。

さらに、単語の出現頻度を計算する基本となるインデックスを条件から抽出すると、条件が変わる度にインデックスが変化するという問題が発生する。この問題を解決するため、検索対象文書全体からインデックスを抽出する。条件および部分文書（以下文書セグメントと呼ぶ）の特徴ベクトルもそのインデックスをベースに生成し、両者の類似度を計算する。この方法を用いることで、条件文を変えても文書セグメントの特徴ベクトルは変わらないため、文書セグメントの特徴ベクトルの計算は最初に一度だけ行うだけでよく、特徴ベクトルの生成をやり直す必要は無い。したがって、様々な条件文に対して、高速で類似文書セグメントを抽出することが可能となる。

さらに、このようにして生成された文書セグメントの特徴ベクトルを使えば、条件をベースに検索した結果に含まれる文書セグメント同士の類似度も計算でき、検索結果を内容別にクラスタリングすることが可能となる。

具体的には、本発明にかかる部分情報抽出方法は、
複数の情報のなかから条件の概念に近い部分的な情報を抽出する部分情報抽出方法であって、
特徴ベクトル生成部が、検索対象の情報群からインデックスを生成し、前記情報をあらかじめ定められた複数のセグメントに分割し、セグメント毎にインデックスに基づきベクトル空間モデルに基づく特徴ベクトルを生成するベクトル生成手順と、
ベクトル判定部が、前記条件の特徴ベクトルを条件ベクトルとして生成し、前記条件ベクトルと前記セグメントの特徴ベクトルの類似度を計算するベクトル判定手順と、
部分抽出部が、前記条件ベクトルと前記セグメントの特徴ベクトルの類似度を用いて、予め定められた基準で前記条件に近い前記セグメントを抽出する部分抽出手順と、
を順に有する。

本発明にかかる部分情報抽出方法では、クラスタリング部が、前記部分抽出手順で抽出された前記セグメントの特徴ベクトルを用いて前記セグメント同士の類似度を計算し、前記セグメント同士の類似度に基づき、前記部分抽出手順で抽出された前記セグメントを複数の情報クラスタに分類するクラスタリング手順を、前記部分抽出手順の後にさらに有してもよい。

本発明にかかる部分情報抽出方法では、マップ化部が、前記部分抽出手順で抽出された前記セグメントを、前記セグメント同士の類似度に応じて、マップ上に配置するマップ化手順を、前記部分抽出手順の後にさらに有してもよい。

具体的には、本発明にかかる部分情報抽出システムは、
複数の文書のなかから条件の概念に近い部分的な情報を抽出する部分情報抽出システムであって、
検索対象の情報群からインデックスを生成し、前記情報をあらかじめ定められた複数のセグメントに分割し、セグメント毎にインデックスに基づきベクトル空間モデルに基づく特徴ベクトルを生成する特徴ベクトル生成部と、
前記条件の特徴ベクトルを条件ベクトルとして生成し、前記条件ベクトルと前記セグメントの特徴ベクトルの類似度を計算するベクトル判定部と、
前記条件ベクトルと前記セグメントの特徴ベクトルの類似度を用いて、予め定められた基準で前記条件に近い前記セグメントを抽出する部分抽出部と、
を備える。

本発明にかかる部分情報抽出システムでは、前記部分抽出部の抽出した前記セグメントの特徴ベクトルを用いて前記セグメント同士の類似度を計算し、前記セグメント同士の類似度に基づき、前記部分抽出部の抽出した前記セグメントを複数の情報クラスタに分類するクラスタリング部を、さらに備えていてもよい。

本発明にかかる部分情報抽出システムでは、前記部分抽出部の抽出した前記セグメントを、前記セグメント同士の類似度に応じて、マップ上に配置するマップ化部を、さらに備えていてもよい。

本発明によれば、短時間かつ高い精度の部分検索を実現することができる。

実施形態１に係る部分情報抽出システムの構成例を示す。実施形態１に係る部分情報抽出システムのシーケンスを示す。実施形態２に係る部分情報抽出システムの構成例を示す。実施形態２に係る部分情報抽出システムのシーケンスを示す。マップの一例を示す。

以下、本発明の実施形態について、図面を参照しながら詳細に説明する。なお、本発明は、以下に示す実施形態に限定されるものではない。これらの実施の例は例示に過ぎず、本発明は当業者の知識に基づいて種々の変更、改良を施した形態で実施することができる。なお、本明細書及び図面において符号が同じ構成要素は、相互に同一のものを示すものとする。

（実施形態１）
図１に、本実施形態に係る部分情報抽出システムの構成例を示す。本実施形態に係る部分情報抽出システムは、サーバ１０と、ストレージ２０と、ユーザ端末３０を備える。ストレージ２０は、サーバ１０からアクセス可能な任意の記憶媒体である。サーバ１０及びユーザ端末３０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）及び記憶媒体などの計算機資源を備えたコンピュータであり、記憶媒体にはプログラムがインストールされている。サーバ１０、ストレージ２０及びユーザ端末３０は、いずれも任意の数を採用しうるが、本実施形態では、サーバ１０が１台、ストレージ２０が２台、ユーザ端末３０が１台の場合について示す。

ストレージ２０は、情報群を保持する。情報群は、通信ネットワークを介して送受信される任意のデータを含み、例えば、文章、数値データ、ログデータ及び顧客情報を含む。文章は、例えば、特許、論文、書籍、レポート及びホームページが例示できる。数値データは、例えば、センサーデータ、測定データ、ＰＯＳ（ＰｏｉｎｔＯｆＳａｌｅｓ）データが例示できる。ログデータは、例えば、オンラインアクセスデータ、各種装置の状態データが例示できる。本実施形態では、一例として、情報が文書である場合について説明する。

図２に、本実施形態に係る部分情報抽出システムのシーケンスを示す。サーバ１０は、ストレージ２０から文書を取得し、取得した文書をあらかじめ定められた複数のセグメントに分割し、セグメント毎にインデックスに基づきベクトル空間モデルに基づく特徴ベクトルを生成する（Ｓ１０１）。各セグメントの特徴ベクトルは、元の情報群とは別に２次的なストレージ２０に格納され、以後の類似度の計算に利用されることが好ましい。元の情報群は、計算ステージでは一切利用されず、最終段階で元の情報を表示する際にのみ、利用される。

ユーザ端末３０は、通信ネットワークを介して条件を送信する（Ｓ１０２）。サーバ１０は、ユーザ端末３０から条件を受信すると、ストレージ２０から各セグメントの特徴ベクトルを取得し（Ｓ１０２）、条件の特徴ベクトルに近い特徴ベクトルを有するセグメントを抽出し（Ｓ１０４）、抽出結果をユーザ端末３０へ送信する（Ｓ１０５）。ユーザ端末３０は、サーバ１０から受信した抽出結果を表示する（Ｓ１０６）。

サーバ１０は、通信ネットワークを介してユーザ端末３０及びストレージ２０と情報の送受信を行う通信機能部（不図示）と、セグメントを抽出するための構成を備える。セグメントを抽出するための構成は、例えば、特徴ベクトル生成部１１と、ベクトル判定部１２と、部分抽出部１３と、を備える。サーバ１０は、コンピュータを、特徴ベクトル生成部１１、ベクトル判定部１２及び部分抽出部１３として機能させることで実現してもよい。この場合、サーバ１０内のＣＰＵが、記憶部（不図示）に記憶されたコンピュータプログラムを実行することで、各構成を実現する。

サーバ１０は、セグメントを抽出するに際し、本実施形態に係る部分情報抽出方法を実行する。本実施形態に係る部分情報抽出方法は、ベクトル生成手順（Ｓ１０１）と、ベクトル判定手順（Ｓ１０３）と、部分抽出手順（Ｓ１０４）と、を順に有する。

ベクトル生成手順（Ｓ１０１）では、特徴ベクトル生成部１１が、セグメント毎にベクトル空間モデルに基づく特徴ベクトルを生成する。特徴ベクトルを構成する要素すなわちインデックスは、条件文によって定められるものではなく、検索対象情報群から生成される。特徴ベクトルのインデックスが条件文に依存しないため、条件文の記載の仕方によって特徴ベクトルが劣化してしまうようなこともない。また、条件文が変化した場合であっても常に同じセグメントの特徴ベクトルを用いることができるため、サーバ１０の処理負荷が少ない。

文書が文章を含む場合、セグメントは、例えば、段落又は文である。段落の場合、例えば、改行を検出することで段落単位を識別する。文の場合、句点「。」又は「．」、疑問符「？」及び感嘆符「！」を検出することで単位文を識別する。インデックスは、ベクトルの要素であり、例えば単語リストである。本実施形態では、一例として、セグメントが段落であり、インデックスが単語リストである場合について説明する。

ベクトル判定手順（Ｓ１０３）では、ベクトル判定部１２が、セグメントｄ_ｉごとに条件ｄ_ｋとの内容の近さを判定する。例えば、ベクトル判定部１２は、ベクトル空間モデルに基づき条件ｄ_ｋをベクトル化する。そして、ベクトル判定部１２が、条件ベクトル及び特徴ベクトルの近さを判定する。

情報ｄ_ｉが、要素ｔ_ｊに対してマトリクス表記できる場合、情報ｄ_ｉをベクトル空間モデルｄ_ｉ＝（ｔ_１，ｔ_２，ｔ_３，……）で記述することができる。このため、条件は、条件に含まれる単語を要素とする条件ベクトルで記述することができる。またセグメントも、セグメントに含まれる単語を要素とするセグメントベクトルで記述することができる。

セグメントｄ_ｉ中に出現する要素ｔ_ｊの出現頻度をｎ_ｉｊとすると、セグメントｄ_ｉは概念ベクトルｄ_ｉ＝（ｎ_ｉ１，ｎ_ｉ２，ｎ_ｉ３，……）で表すことができる。例えば、セグメントｄ_１における単語ｔ_１、ｔ_２、ｔ_３の出願回数がそれぞれ０、１、０であり、セグメントｄ_２における単語ｔ_１、ｔ_２、ｔ_３の出願回数がそれぞれ２、１、０であり、セグメントｄ_３における単語ｔ_１、ｔ_２、ｔ_３の出願回数がそれぞれ１、２、３である場合、セグメントの行列Ｍは以下のように表される。

セグメントｄ_ｉと条件ｄ_ｋの内容の近さは、特徴ベクトルｄ_ｉと条件ベクトルｄ_ｋの演算によって数値化できる。数値化に用いる演算は、ベクトル相互間の距離であってもよいし、内積、外積等の任意の演算を用いてもよい。

ここで、どのセグメントにも共通に使用される単語は文書の内容の近さに影響を与えない。そこで、ベクトルの算出においては、各文書に特徴的な単語とそれ以外の単語のベクトルへの寄与に差を設けることが好ましい。例えば、ｔｆｉｄｆ（ＴｅｒｍＦｒｅｑｕｅｎｃｙＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）法を使って重み付けを行う。これにより、セグメントの内容の近さの精度を向上することができる。どの文書にも同様に使われる単語の重み付けｔｆｉｄｆは小さく、文書によって使われる頻度が大きく異なる文書はｔｆｉｄｆが大きい。

内容の近さの判定は、例えば、条件に含まれる単語の有無に基づいて行ってもよい。条件に単数の単語が含まれる場合は、セグメント毎にキーワードを含むか含まないかの２値で判定する。条件に複数の単語がある場合は、論理式を構成し、セグメント毎にその論理式に適合するかしないかの２値で判定する。

部分抽出手順（Ｓ１０４）では、部分抽出部１３が、複数のセグメントのうちの予め定められた条件からのベクトルの近いセグメントを抽出する。このとき、抽出するセグメントは、予め定められた数のセグメントであってもよいし、ベクトルが予め定められた近さの範囲内にあるセグメントであってもよい。このように、ベクトルの近いセグメントを抽出することで、検索条件によって構成される概念に近い部分のみを抽出することができる。

部分抽出手順（Ｓ１０４）では、クラスタリング処理をおこなってもよい。このとき、部分抽出部１３は、条件ベクトルとセグメントの特徴ベクトルの類似度を用いて、セグメント同士の類似度に基づき、抽出されたセグメントを複数の情報クラスタに分類する。分類は、例えば、ベクトルの距離の近いものから順に共通のクラスタに分類する。このよういに、クラスタリング処理を行うことで、各セグメントに記載されている内容を階層化して分類した結果をユーザ端末１０へ提供することができる。

なお、本実施形態では、文書が文章である例について説明したが、本発明における文書はこれに限らない。文書が数値データ又はログデータを含む場合、セグメントは、例えば、時刻若しくは時間、地域若しくは場所、又は帰属先である。文書が顧客データを含む場合、セグメントは、例えば、時刻若しくは時間、地域若しくは場所、帰属先、又は年齢である。時間の単位は任意であり、例えば、秒単位であってもよいし、年単位であってもよい。

また、文書が数値データ又はログデータを含む場合、ベクトル空間モデルに基づくベクトル化は以下のようにして行う。
文書がオンラインサービスにおけるユーザのアクセスログデータの場合、時刻ｄ_ｉ〜ｄ_ｉ＋Ｔ（時間間隔Ｔ）の間における、ユーザｔ_ｊのアクセス数をｎ_ｉｊとする。時刻ｄ_ｉはベクトルｄ_ｉ＝（ｎ_ｉ１，ｎ_ｉ２，ｎ_ｉ３，……）と表現できる。
文書がセンサーデータの場合、時刻ｄ_ｉ〜ｄ_ｉ＋Ｔ（時間間隔Ｔ）の間における、センサーｔ_ｊの出力数値をｎ_ｉｊとする。時刻ｄ_ｉはベクトルｄ_ｉ＝（ｎ_ｉ１，ｎ_ｉ２，ｎ_ｉ３，……）と表現できる。
文書が画像データの場合、画像ｄ_ｉを周波数変換し、変換後の各周波数の成分ｔ_ｊの数値をｎ_ｉｊとする。時刻ｄ_ｉはベクトルｄ_ｉ＝（ｎ_ｉ１，ｎ_ｉ２，ｎ_ｉ３，……）と表現できる。

また、文書が数値データ又はログデータを含む場合、重み付けｔｆｉｄｆは以下のようにして行う。
文書がオンラインサービスにおけるユーザのアクセスログデータの場合、始終平均的にアクセスするユーザの重み付けｔｆｉｄｆは小さくなり、アクセスのムラの大きいユーザの重み付けｔｆｉｄｆは大きくなる。
文書がセンサーデータの場合、出力数値のあまり変化しないセンサーの重み付けｔｆｉｄｆは小さくなり、出力数値の変化の大きいセンサーの重み付けｔｆｉｄｆは大きくなる。
文書が画像データの場合、画像間で成分値のバラツキの小さい周波数の重み付けｔｆｉｄｆは小さくなり、画像間で成分値のバラツキの大きい周波数の重み付けｔｆｉｄｆは大きくなる。

（実施形態２）
図３に、本実施形態に係る部分情報抽出システムの構成例を示す。本実施形態に係る部分情報抽出システムは、実施形態１の構成に加え、さらにマップ化部１４を備える。

図４に、本実施形態に係る部分情報抽出システムのシーケンスを示す。本実施形態に係る部分情報抽出方法は、実施形態１で説明した部分抽出手順（Ｓ１０４）の後に、マップ化手順（Ｓ１０７）をさらに有する。サーバ１０は、マップ化手順で作成したマップをユーザ端末３０へ送信する（Ｓ１０８）。ユーザ端末３０は、サーバ１０から受信したマップを表示する（Ｓ１０９）。

マップ化手順（Ｓ１０７）では、部分抽出部１３の抽出したセグメント及び条件を示す点を、ベクトル判定部１２の作成したベクトル値に基づき、ベクトル同士の内容の近さに応じて、マップ上に配置する。

特徴ベクトル相互間の近さを計算し、ベクトル相互間の近さに基づいて、情報間の内容の近さすなわち「意味的距離」に基づくマップ化を行う。演算は、ベクトル相互間の距離であってもよいし、内積、外積等の任意の演算を用いてもよい。また、部分抽出部１３がクラスタリング処理を行った場合、複数のセグメントを含む情報クラスタをマップ上に配置してもよい。得られた情報ｄ_ｉ相互間の内容の近さに基づいて、マップ化アルゴリズムを用いて図５に示すようなマップを作成することができる。

本実施形態に係るシステムは、概念検索を用いてセグメントを抽出し、概念検索を用いて算出されたベクトルを用いて各セグメントの内容の分布をマップ化することができる。

本発明は情報通信産業に適用することができる。

１０：サーバ
１１：特徴ベクトル生成部
１２：ベクトル判定部
１３：部分抽出部
１４：マップ化部
２０：ストレージ
３０：ユーザ端末
３１：クラスタリング部

Claims

複数の情報のなかから条件の概念に近い部分的な情報を抽出する部分情報抽出方法であって、
特徴ベクトル生成部が、検索対象の情報群からインデックスを生成し、前記情報をあらかじめ定められた複数のセグメントに分割し、セグメント毎にインデックスに基づきベクトル空間モデルに基づく特徴ベクトルを生成するベクトル生成手順と、
ベクトル判定部が、前記条件の特徴ベクトルを条件ベクトルとして生成し、前記条件ベクトルと前記セグメントの特徴ベクトルの類似度を計算するベクトル判定手順と、
部分抽出部が、前記条件ベクトルと前記セグメントの特徴ベクトルの類似度を用いて、予め定められた基準で前記条件に近い前記セグメントを抽出する部分抽出手順と、
を順に有する部分情報抽出方法。
前記部分抽出手順において、前記条件ベクトルと前記セグメントの特徴ベクトルの類似度を用いて、前記セグメント同士の類似度に基づき、抽出された前記セグメントを複数の情報クラスタに分類することを特徴とする請求項１に記載の部分情報抽出方法。
マップ化部が、前記部分抽出手順で抽出された前記セグメントを、前記セグメント同士の類似度に応じて、マップ上に配置するマップ化手順を、前記部分抽出手順の後にさらに有する請求項１又は２に記載の部分情報抽出方法。
複数の文書のなかから条件の概念に近い部分的な情報を抽出する部分情報抽出システムであって、
検索対象の情報群からインデックスを生成し、前記情報をあらかじめ定められた複数のセグメントに分割し、セグメント毎にインデックスに基づきベクトル空間モデルに基づく特徴ベクトルを生成する特徴ベクトル生成部と、
前記条件の特徴ベクトルを条件ベクトルとして生成し、前記条件ベクトルと前記セグメントの特徴ベクトルの類似度を計算するベクトル判定部と、
前記条件ベクトルと前記セグメントの特徴ベクトルの類似度を用いて、予め定められた基準で前記条件に近い前記セグメントを抽出する部分抽出部と、
を備える部分情報抽出システム。
前記部分抽出部は、前記条件ベクトルと前記セグメントの特徴ベクトルの類似度を用いて、前記セグメント同士の類似度に基づき、抽出された前記セグメントを複数の情報クラスタに分類することを特徴とする請求項４に記載の部分情報抽出システム。
前記部分抽出部の抽出した前記セグメントを、前記セグメント同士の類似度に応じて、マップ上に配置するマップ化部を、さらに備える請求項４又は５に記載の部分情報抽出システム。