JP2015203960A - 部分情報抽出システム - Google Patents

部分情報抽出システム Download PDF

Info

Publication number
JP2015203960A
JP2015203960A JP2014082779A JP2014082779A JP2015203960A JP 2015203960 A JP2015203960 A JP 2015203960A JP 2014082779 A JP2014082779 A JP 2014082779A JP 2014082779 A JP2014082779 A JP 2014082779A JP 2015203960 A JP2015203960 A JP 2015203960A
Authority
JP
Japan
Prior art keywords
vector
segment
condition
partial
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014082779A
Other languages
English (en)
Inventor
佳男 高枝
Yoshio Takaeda
佳男 高枝
哲也 金田
Tetsuya Kaneda
哲也 金田
弘海 矢野
Hiromi Yano
弘海 矢野
康生 大原
Yasuo Ohara
康生 大原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TOOR Inc
Cybernet Systems Co Ltd
Original Assignee
TOOR Inc
Cybernet Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TOOR Inc, Cybernet Systems Co Ltd filed Critical TOOR Inc
Priority to JP2014082779A priority Critical patent/JP2015203960A/ja
Priority to PCT/JP2015/060087 priority patent/WO2015159702A1/ja
Publication of JP2015203960A publication Critical patent/JP2015203960A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】短時間かつ高い精度の部分検索を実現する抽出システム及び方法を提供する。
【解決手段】検索対象の情報をあらかじめ定められた複数のセグメントに分割し、セグメント毎に特徴ベクトルを生成するベクトル生成手順S101と、条件の特徴ベクトルを条件ベクトルとして生成し、条件ベクトルと前記セグメントの特徴ベクトルの類似度を計算するベクトル判定手順S103と、条件ベクトルとセグメントの特徴ベクトルの類似度を用いて、予め定められた基準で条件に近いセグメントを抽出する部分抽出手順S104と、を順に実行する。
【選択図】図2

Description

本発明は、複数の情報をさらに部分情報に分割し、そのなかから目標情報に近い部分情報を抽出する部分情報抽出システムに関する。
情報の一例として文書を取り上げる。これまで大量の文書のなかから内容の近い文書を検索するシステムが提案されている(例えば、特許文献1参照)。特許文献1は、検索対象となる文書に含まれるキーワードの出現頻度を段落ごとに算出し、出現頻度の高い段落を抽出する。
特開2013−30089号公報
探し出したい記述内容を検索条件とし、その文章に近い部分的な記述内容を検索対象文章群から抽出する。特許文献1の発明では、条件文からインデックスを作成するための単語を抽出し、検索対象文書のページ毎のインデックスの単語単位の出現頻度を計算し、文書ページの重み付けを行う。しかし、この方法では、条件文によって生成されるインデックスが異なるため、対象文書のインデックスに基づく単語の出現頻度は、条件文を変える度に計算をやりなおす必要があり、計算時間がかかるといった問題がある。さらに、条件文が単なるインデックス抽出のためにのみ利用され、条件文での単語の出現頻度は計算されない。このため、条件文において繰り返し使われるような重要な単語の比重も他の1回しか現れない単語の比重と同じになってしまう。すなわち、条件文を詳しく記述しても検索精度が変わらない、あるいは低下させるという問題がある。さらに、インデックスが条件文だけから作成されるため、単語数が制限され、抽出された部分文書同士の類似性の計算精度が落ちるため、抽出結果の中から真に欲しい情報を探し出すのに、結局人が全て読む必要があり、そのために労力と時間がかかるといった問題もある。
このように、引用文献1の発明は、条件文を変える度にインデックスが変わるため、インデックスに基づく文書中の単語の出現頻度を都度再計算する必要があり、また条件を詳細化しても検索精度を向上させることができないといった問題もある。さらに、抽出結果から真に欲しい情報を探すのに手間がかかるといった問題があった。
本発明は、短時間かつ高い精度の部分検索を実現することを目的とする。
従来のキーワードベースの検索手法においては、キーワード以外の類義語などを使った文章は、内容的には重要な文章であっても検索できない、といった問題があった。これを防ぐために類義語辞書を利用するなどいろいろな方法が提案されているが、辞書の作成等開発者によって異なるため、検索結果の再現性がないなどの問題がある。
発明者らは、キーワードベースの検索手法ではなく、単語の出現頻度を元に条件と検索対象の文書群の単位文書の特徴ベクトルを生成し、両者を比較する方法が有効であることを見出した。すなわち、条件を詳細化することで、汎用的な単語でもキーワードに関連した単語が多く使われ、その結果類義語などの使用によるキーワードのゆらぎが緩和され、検索精度が向上することを見出した。
さらに、単語の出現頻度を計算する基本となるインデックスを条件から抽出すると、条件が変わる度にインデックスが変化するという問題が発生する。この問題を解決するため、検索対象文書全体からインデックスを抽出する。条件および部分文書(以下文書セグメントと呼ぶ)の特徴ベクトルもそのインデックスをベースに生成し、両者の類似度を計算する。この方法を用いることで、条件文を変えても文書セグメントの特徴ベクトルは変わらないため、文書セグメントの特徴ベクトルの計算は最初に一度だけ行うだけでよく、特徴ベクトルの生成をやり直す必要は無い。したがって、様々な条件文に対して、高速で類似文書セグメントを抽出することが可能となる。
さらに、このようにして生成された文書セグメントの特徴ベクトルを使えば、条件をベースに検索した結果に含まれる文書セグメント同士の類似度も計算でき、検索結果を内容別にクラスタリングすることが可能となる。
具体的には、本発明にかかる部分情報抽出方法は、
複数の情報のなかから条件の概念に近い部分的な情報を抽出する部分情報抽出方法であって、
特徴ベクトル生成部が、検索対象の情報群からインデックスを生成し、前記情報をあらかじめ定められた複数のセグメントに分割し、セグメント毎にインデックスに基づきベクトル空間モデルに基づく特徴ベクトルを生成するベクトル生成手順と、
ベクトル判定部が、前記条件の特徴ベクトルを条件ベクトルとして生成し、前記条件ベクトルと前記セグメントの特徴ベクトルの類似度を計算するベクトル判定手順と、
部分抽出部が、前記条件ベクトルと前記セグメントの特徴ベクトルの類似度を用いて、予め定められた基準で前記条件に近い前記セグメントを抽出する部分抽出手順と、
を順に有する。
本発明にかかる部分情報抽出方法では、クラスタリング部が、前記部分抽出手順で抽出された前記セグメントの特徴ベクトルを用いて前記セグメント同士の類似度を計算し、前記セグメント同士の類似度に基づき、前記部分抽出手順で抽出された前記セグメントを複数の情報クラスタに分類するクラスタリング手順を、前記部分抽出手順の後にさらに有してもよい。
本発明にかかる部分情報抽出方法では、マップ化部が、前記部分抽出手順で抽出された前記セグメントを、前記セグメント同士の類似度に応じて、マップ上に配置するマップ化手順を、前記部分抽出手順の後にさらに有してもよい。
具体的には、本発明にかかる部分情報抽出システムは、
複数の文書のなかから条件の概念に近い部分的な情報を抽出する部分情報抽出システムであって、
検索対象の情報群からインデックスを生成し、前記情報をあらかじめ定められた複数のセグメントに分割し、セグメント毎にインデックスに基づきベクトル空間モデルに基づく特徴ベクトルを生成する特徴ベクトル生成部と、
前記条件の特徴ベクトルを条件ベクトルとして生成し、前記条件ベクトルと前記セグメントの特徴ベクトルの類似度を計算するベクトル判定部と、
前記条件ベクトルと前記セグメントの特徴ベクトルの類似度を用いて、予め定められた基準で前記条件に近い前記セグメントを抽出する部分抽出部と、
を備える。
本発明にかかる部分情報抽出システムでは、前記部分抽出部の抽出した前記セグメントの特徴ベクトルを用いて前記セグメント同士の類似度を計算し、前記セグメント同士の類似度に基づき、前記部分抽出部の抽出した前記セグメントを複数の情報クラスタに分類するクラスタリング部を、さらに備えていてもよい。
本発明にかかる部分情報抽出システムでは、前記部分抽出部の抽出した前記セグメントを、前記セグメント同士の類似度に応じて、マップ上に配置するマップ化部を、さらに備えていてもよい。
本発明によれば、短時間かつ高い精度の部分検索を実現することができる。
実施形態1に係る部分情報抽出システムの構成例を示す。 実施形態1に係る部分情報抽出システムのシーケンスを示す。 実施形態2に係る部分情報抽出システムの構成例を示す。 実施形態2に係る部分情報抽出システムのシーケンスを示す。 マップの一例を示す。
以下、本発明の実施形態について、図面を参照しながら詳細に説明する。なお、本発明は、以下に示す実施形態に限定されるものではない。これらの実施の例は例示に過ぎず、本発明は当業者の知識に基づいて種々の変更、改良を施した形態で実施することができる。なお、本明細書及び図面において符号が同じ構成要素は、相互に同一のものを示すものとする。
(実施形態1)
図1に、本実施形態に係る部分情報抽出システムの構成例を示す。本実施形態に係る部分情報抽出システムは、サーバ10と、ストレージ20と、ユーザ端末30を備える。ストレージ20は、サーバ10からアクセス可能な任意の記憶媒体である。サーバ10及びユーザ端末30は、CPU(Central Processing Unit)及び記憶媒体などの計算機資源を備えたコンピュータであり、記憶媒体にはプログラムがインストールされている。サーバ10、ストレージ20及びユーザ端末30は、いずれも任意の数を採用しうるが、本実施形態では、サーバ10が1台、ストレージ20が2台、ユーザ端末30が1台の場合について示す。
ストレージ20は、情報群を保持する。情報群は、通信ネットワークを介して送受信される任意のデータを含み、例えば、文章、数値データ、ログデータ及び顧客情報を含む。文章は、例えば、特許、論文、書籍、レポート及びホームページが例示できる。数値データは、例えば、センサーデータ、測定データ、POS(Point Of Sales)データが例示できる。ログデータは、例えば、オンラインアクセスデータ、各種装置の状態データが例示できる。本実施形態では、一例として、情報が文書である場合について説明する。
図2に、本実施形態に係る部分情報抽出システムのシーケンスを示す。サーバ10は、ストレージ20から文書を取得し、取得した文書をあらかじめ定められた複数のセグメントに分割し、セグメント毎にインデックスに基づきベクトル空間モデルに基づく特徴ベクトルを生成する(S101)。各セグメントの特徴ベクトルは、元の情報群とは別に2次的なストレージ20に格納され、以後の類似度の計算に利用されることが好ましい。元の情報群は、計算ステージでは一切利用されず、最終段階で元の情報を表示する際にのみ、利用される。
ユーザ端末30は、通信ネットワークを介して条件を送信する(S102)。サーバ10は、ユーザ端末30から条件を受信すると、ストレージ20から各セグメントの特徴ベクトルを取得し(S102)、条件の特徴ベクトルに近い特徴ベクトルを有するセグメントを抽出し(S104)、抽出結果をユーザ端末30へ送信する(S105)。ユーザ端末30は、サーバ10から受信した抽出結果を表示する(S106)。
サーバ10は、通信ネットワークを介してユーザ端末30及びストレージ20と情報の送受信を行う通信機能部(不図示)と、セグメントを抽出するための構成を備える。セグメントを抽出するための構成は、例えば、特徴ベクトル生成部11と、ベクトル判定部12と、部分抽出部13と、を備える。サーバ10は、コンピュータを、特徴ベクトル生成部11、ベクトル判定部12及び部分抽出部13として機能させることで実現してもよい。この場合、サーバ10内のCPUが、記憶部(不図示)に記憶されたコンピュータプログラムを実行することで、各構成を実現する。
サーバ10は、セグメントを抽出するに際し、本実施形態に係る部分情報抽出方法を実行する。本実施形態に係る部分情報抽出方法は、ベクトル生成手順(S101)と、ベクトル判定手順(S103)と、部分抽出手順(S104)と、を順に有する。
ベクトル生成手順(S101)では、特徴ベクトル生成部11が、セグメント毎にベクトル空間モデルに基づく特徴ベクトルを生成する。特徴ベクトルを構成する要素すなわちインデックスは、条件文によって定められるものではなく、検索対象情報群から生成される。特徴ベクトルのインデックスが条件文に依存しないため、条件文の記載の仕方によって特徴ベクトルが劣化してしまうようなこともない。また、条件文が変化した場合であっても常に同じセグメントの特徴ベクトルを用いることができるため、サーバ10の処理負荷が少ない。
文書が文章を含む場合、セグメントは、例えば、段落又は文である。段落の場合、例えば、改行を検出することで段落単位を識別する。文の場合、句点「。」又は「.」、疑問符「?」及び感嘆符「!」を検出することで単位文を識別する。インデックスは、ベクトルの要素であり、例えば単語リストである。本実施形態では、一例として、セグメントが段落であり、インデックスが単語リストである場合について説明する。
ベクトル判定手順(S103)では、ベクトル判定部12が、セグメントdごとに条件dとの内容の近さを判定する。例えば、ベクトル判定部12は、ベクトル空間モデルに基づき条件dをベクトル化する。そして、ベクトル判定部12が、条件ベクトル及び特徴ベクトルの近さを判定する。
情報dが、要素tに対してマトリクス表記できる場合、情報dをベクトル空間モデルd=(t,t,t,……)で記述することができる。このため、条件は、条件に含まれる単語を要素とする条件ベクトルで記述することができる。またセグメントも、セグメントに含まれる単語を要素とするセグメントベクトルで記述することができる。
セグメントd中に出現する要素tの出現頻度をnijとすると、セグメントdは概念ベクトルd=(ni1,ni2,ni3,……)で表すことができる。例えば、セグメントdにおける単語t、t、tの出願回数がそれぞれ0、1、0であり、セグメントdにおける単語t、t、tの出願回数がそれぞれ2、1、0であり、セグメントdにおける単語t、t、tの出願回数がそれぞれ1、2、3である場合、セグメントの行列Mは以下のように表される。
Figure 2015203960
セグメントdと条件dの内容の近さは、特徴ベクトルdと条件ベクトルdの演算によって数値化できる。数値化に用いる演算は、ベクトル相互間の距離であってもよいし、内積、外積等の任意の演算を用いてもよい。
ここで、どのセグメントにも共通に使用される単語は文書の内容の近さに影響を与えない。そこで、ベクトルの算出においては、各文書に特徴的な単語とそれ以外の単語のベクトルへの寄与に差を設けることが好ましい。例えば、tfidf(Term Frequency Inverse Document Frequency)法を使って重み付けを行う。これにより、セグメントの内容の近さの精度を向上することができる。どの文書にも同様に使われる単語の重み付けtfidfは小さく、文書によって使われる頻度が大きく異なる文書はtfidfが大きい。
内容の近さの判定は、例えば、条件に含まれる単語の有無に基づいて行ってもよい。条件に単数の単語が含まれる場合は、セグメント毎にキーワードを含むか含まないかの2値で判定する。条件に複数の単語がある場合は、論理式を構成し、セグメント毎にその論理式に適合するかしないかの2値で判定する。
部分抽出手順(S104)では、部分抽出部13が、複数のセグメントのうちの予め定められた条件からのベクトルの近いセグメントを抽出する。このとき、抽出するセグメントは、予め定められた数のセグメントであってもよいし、ベクトルが予め定められた近さの範囲内にあるセグメントであってもよい。このように、ベクトルの近いセグメントを抽出することで、検索条件によって構成される概念に近い部分のみを抽出することができる。
部分抽出手順(S104)では、クラスタリング処理をおこなってもよい。このとき、部分抽出部13は、条件ベクトルとセグメントの特徴ベクトルの類似度を用いて、セグメント同士の類似度に基づき、抽出されたセグメントを複数の情報クラスタに分類する。分類は、例えば、ベクトルの距離の近いものから順に共通のクラスタに分類する。このよういに、クラスタリング処理を行うことで、各セグメントに記載されている内容を階層化して分類した結果をユーザ端末10へ提供することができる。
なお、本実施形態では、文書が文章である例について説明したが、本発明における文書はこれに限らない。文書が数値データ又はログデータを含む場合、セグメントは、例えば、時刻若しくは時間、地域若しくは場所、又は帰属先である。文書が顧客データを含む場合、セグメントは、例えば、時刻若しくは時間、地域若しくは場所、帰属先、又は年齢である。時間の単位は任意であり、例えば、秒単位であってもよいし、年単位であってもよい。
また、文書が数値データ又はログデータを含む場合、ベクトル空間モデルに基づくベクトル化は以下のようにして行う。
文書がオンラインサービスにおけるユーザのアクセスログデータの場合、時刻d〜d+T(時間間隔T)の間における、ユーザtのアクセス数をnijとする。時刻dはベクトルd=(ni1,ni2,ni3,……)と表現できる。
文書がセンサーデータの場合、時刻d〜d+T(時間間隔T)の間における、センサーtの出力数値をnijとする。時刻dはベクトルd=(ni1,ni2,ni3,……)と表現できる。
文書が画像データの場合、画像dを周波数変換し、変換後の各周波数の成分tの数値をnijとする。時刻dはベクトルd=(ni1,ni2,ni3,……)と表現できる。
また、文書が数値データ又はログデータを含む場合、重み付けtfidfは以下のようにして行う。
文書がオンラインサービスにおけるユーザのアクセスログデータの場合、始終平均的にアクセスするユーザの重み付けtfidfは小さくなり、アクセスのムラの大きいユーザの重み付けtfidfは大きくなる。
文書がセンサーデータの場合、出力数値のあまり変化しないセンサーの重み付けtfidfは小さくなり、出力数値の変化の大きいセンサーの重み付けtfidfは大きくなる。
文書が画像データの場合、画像間で成分値のバラツキの小さい周波数の重み付けtfidfは小さくなり、画像間で成分値のバラツキの大きい周波数の重み付けtfidfは大きくなる。
(実施形態2)
図3に、本実施形態に係る部分情報抽出システムの構成例を示す。本実施形態に係る部分情報抽出システムは、実施形態1の構成に加え、さらにマップ化部14を備える。
図4に、本実施形態に係る部分情報抽出システムのシーケンスを示す。本実施形態に係る部分情報抽出方法は、実施形態1で説明した部分抽出手順(S104)の後に、マップ化手順(S107)をさらに有する。サーバ10は、マップ化手順で作成したマップをユーザ端末30へ送信する(S108)。ユーザ端末30は、サーバ10から受信したマップを表示する(S109)。
マップ化手順(S107)では、部分抽出部13の抽出したセグメント及び条件を示す点を、ベクトル判定部12の作成したベクトル値に基づき、ベクトル同士の内容の近さに応じて、マップ上に配置する。
特徴ベクトル相互間の近さを計算し、ベクトル相互間の近さに基づいて、情報間の内容の近さすなわち「意味的距離」に基づくマップ化を行う。演算は、ベクトル相互間の距離であってもよいし、内積、外積等の任意の演算を用いてもよい。また、部分抽出部13がクラスタリング処理を行った場合、複数のセグメントを含む情報クラスタをマップ上に配置してもよい。得られた情報d相互間の内容の近さに基づいて、マップ化アルゴリズムを用いて図5に示すようなマップを作成することができる。
本実施形態に係るシステムは、概念検索を用いてセグメントを抽出し、概念検索を用いて算出されたベクトルを用いて各セグメントの内容の分布をマップ化することができる。
本発明は情報通信産業に適用することができる。
10:サーバ
11:特徴ベクトル生成部
12:ベクトル判定部
13:部分抽出部
14:マップ化部
20:ストレージ
30:ユーザ端末
31:クラスタリング部

Claims (6)

  1. 複数の情報のなかから条件の概念に近い部分的な情報を抽出する部分情報抽出方法であって、
    特徴ベクトル生成部が、検索対象の情報群からインデックスを生成し、前記情報をあらかじめ定められた複数のセグメントに分割し、セグメント毎にインデックスに基づきベクトル空間モデルに基づく特徴ベクトルを生成するベクトル生成手順と、
    ベクトル判定部が、前記条件の特徴ベクトルを条件ベクトルとして生成し、前記条件ベクトルと前記セグメントの特徴ベクトルの類似度を計算するベクトル判定手順と、
    部分抽出部が、前記条件ベクトルと前記セグメントの特徴ベクトルの類似度を用いて、予め定められた基準で前記条件に近い前記セグメントを抽出する部分抽出手順と、
    を順に有する部分情報抽出方法。
  2. 前記部分抽出手順において、前記条件ベクトルと前記セグメントの特徴ベクトルの類似度を用いて、前記セグメント同士の類似度に基づき、抽出された前記セグメントを複数の情報クラスタに分類することを特徴とする請求項1に記載の部分情報抽出方法。
  3. マップ化部が、前記部分抽出手順で抽出された前記セグメントを、前記セグメント同士の類似度に応じて、マップ上に配置するマップ化手順を、前記部分抽出手順の後にさらに有する請求項1又は2に記載の部分情報抽出方法。
  4. 複数の文書のなかから条件の概念に近い部分的な情報を抽出する部分情報抽出システムであって、
    検索対象の情報群からインデックスを生成し、前記情報をあらかじめ定められた複数のセグメントに分割し、セグメント毎にインデックスに基づきベクトル空間モデルに基づく特徴ベクトルを生成する特徴ベクトル生成部と、
    前記条件の特徴ベクトルを条件ベクトルとして生成し、前記条件ベクトルと前記セグメントの特徴ベクトルの類似度を計算するベクトル判定部と、
    前記条件ベクトルと前記セグメントの特徴ベクトルの類似度を用いて、予め定められた基準で前記条件に近い前記セグメントを抽出する部分抽出部と、
    を備える部分情報抽出システム。
  5. 前記部分抽出部は、前記条件ベクトルと前記セグメントの特徴ベクトルの類似度を用いて、前記セグメント同士の類似度に基づき、抽出された前記セグメントを複数の情報クラスタに分類することを特徴とする請求項4に記載の部分情報抽出システム。
  6. 前記部分抽出部の抽出した前記セグメントを、前記セグメント同士の類似度に応じて、マップ上に配置するマップ化部を、さらに備える請求項4又は5に記載の部分情報抽出システム。
JP2014082779A 2014-04-14 2014-04-14 部分情報抽出システム Pending JP2015203960A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014082779A JP2015203960A (ja) 2014-04-14 2014-04-14 部分情報抽出システム
PCT/JP2015/060087 WO2015159702A1 (ja) 2014-04-14 2015-03-31 部分情報抽出システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014082779A JP2015203960A (ja) 2014-04-14 2014-04-14 部分情報抽出システム

Publications (1)

Publication Number Publication Date
JP2015203960A true JP2015203960A (ja) 2015-11-16

Family

ID=54323913

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014082779A Pending JP2015203960A (ja) 2014-04-14 2014-04-14 部分情報抽出システム

Country Status (2)

Country Link
JP (1) JP2015203960A (ja)
WO (1) WO2015159702A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294733A (zh) * 2016-08-10 2017-01-04 成都轻车快马网络科技有限公司 基于文本分析的网页检测方法
JP2020035036A (ja) * 2018-08-28 2020-03-05 株式会社日立製作所 試験計画策定支援装置、試験計画策定支援方法及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10207911A (ja) * 1996-11-25 1998-08-07 Fuji Xerox Co Ltd 文書検索装置
JP2004213626A (ja) * 2002-11-27 2004-07-29 Sony United Kingdom Ltd 情報の格納及び検索
JP2004295712A (ja) * 2003-03-28 2004-10-21 Hitachi Ltd 類似文書検索方法および類似文書検索装置
JP2013182466A (ja) * 2012-03-02 2013-09-12 Kurimoto Ltd Web検索システムおよびWeb検索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10207911A (ja) * 1996-11-25 1998-08-07 Fuji Xerox Co Ltd 文書検索装置
JP2004213626A (ja) * 2002-11-27 2004-07-29 Sony United Kingdom Ltd 情報の格納及び検索
JP2004295712A (ja) * 2003-03-28 2004-10-21 Hitachi Ltd 類似文書検索方法および類似文書検索装置
JP2013182466A (ja) * 2012-03-02 2013-09-12 Kurimoto Ltd Web検索システムおよびWeb検索方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294733A (zh) * 2016-08-10 2017-01-04 成都轻车快马网络科技有限公司 基于文本分析的网页检测方法
CN106294733B (zh) * 2016-08-10 2019-05-07 成都轻车快马网络科技有限公司 基于文本分析的网页检测方法
JP2020035036A (ja) * 2018-08-28 2020-03-05 株式会社日立製作所 試験計画策定支援装置、試験計画策定支援方法及びプログラム
JP7068106B2 (ja) 2018-08-28 2022-05-16 株式会社日立製作所 試験計画策定支援装置、試験計画策定支援方法及びプログラム

Also Published As

Publication number Publication date
WO2015159702A1 (ja) 2015-10-22

Similar Documents

Publication Publication Date Title
KR102092691B1 (ko) 웹페이지 트레이닝 방법 및 기기, 그리고 검색 의도 식별 방법 및 기기
US10042896B2 (en) Providing search recommendation
US9454602B2 (en) Grouping semantically related natural language specifications of system requirements into clusters
Dey Sarkar et al. A novel feature selection technique for text classification using Naive Bayes
JP5817531B2 (ja) 文書クラスタリングシステム、文書クラスタリング方法およびプログラム
US20130060769A1 (en) System and method for identifying social media interactions
US10380162B2 (en) Item to vector based categorization
CN107688616B (zh) 使实体的独特事实显现
WO2020114100A1 (zh) 一种信息处理方法、装置和计算机存储介质
US11580119B2 (en) System and method for automatic persona generation using small text components
US20150088910A1 (en) Automatic prioritization of natural language text information
US10936806B2 (en) Document processing apparatus, method, and program
US10055408B2 (en) Method of extracting an important keyword and server performing the same
CN113343101B (zh) 一种对象排序方法及系统
KR20230142754A (ko) 모델 교차들을 이용한 문서 분석
Tabak et al. Comparison of emotion lexicons
CN112528315A (zh) 识别敏感数据的方法和装置
WO2019093172A1 (ja) 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム
JP2015203961A (ja) 文書抽出システム
Al Mostakim et al. Bangla content categorization using text based supervised learning methods
Balaguer et al. CatSent: a Catalan sentiment analysis website
CN112487181B (zh) 关键词确定方法和相关设备
WO2015159702A1 (ja) 部分情報抽出システム
JP2016110256A (ja) 情報処理装置及び情報処理プログラム
CN111737607A (zh) 数据处理方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170413

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20170426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180529

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20181120