JP5226401B2 - 文書データの検索を支援する装置及び方法 - Google Patents
文書データの検索を支援する装置及び方法 Download PDFInfo
- Publication number
- JP5226401B2 JP5226401B2 JP2008166539A JP2008166539A JP5226401B2 JP 5226401 B2 JP5226401 B2 JP 5226401B2 JP 2008166539 A JP2008166539 A JP 2008166539A JP 2008166539 A JP2008166539 A JP 2008166539A JP 5226401 B2 JP5226401 B2 JP 5226401B2
- Authority
- JP
- Japan
- Prior art keywords
- cluster
- graph
- keywords
- condition
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
ユーザは、検索エンジンに入力として与えるべき検索語に関し、様々な観点から検討を行う必要がある。例えば、その検索語が本当に妥当なものであるか、欲しい情報に絞り込むために適切な検索語は何か、検索語の個数は幾つ程度が適切であるか、等である。このように、一般ユーザにとって、どのような検索語を検索エンジンに与えて検索すればよいかの判断は難しい。
しかしながら、非特許文献1の技術では、文書クラスタに対してユーザが適合を評価することによりクエリを修正しているに過ぎず、ユーザの要求に応えた検索を行うのに相応しいキーワードを指定することによりクエリを修正しているわけではない。また、非特許文献2の技術は、オントロジー情報等を用いて生成された検索経路に基づいてクエリ拡張を行うものであって、ユーザの要求に応えた検索を行うのに相応しいキーワードを含む検索経路に基づいてクエリ拡張を行うものではない。従って、何れの技術においても、ユーザの要求に応えた検索を行うのに相応しいキーワードを指定して検索を行うことはできないという問題点がある。
同様に、特許文献1、非特許文献3〜5の技術も、ユーザの要求に応えた検索を行うのに相応しいキーワードを指定して検索を行うための手段を提供するものではない。
また、抽出部は、検索対象の文書データに出現するキーワードのうち、特定のレベルの頻度で出現するキーワードを、特定のレベルに対応する複数のキーワードとして抽出し、グラフ生成部は、特定のレベルを指定するユーザ操作に応じて、特定のレベルに対応する複数のキーワードの各々を表す複数のオブジェクトを含み、複数のオブジェクトが複数のクラスタに分類されたグラフを生成する、ものであってよい。
更にまた、検索条件文生成部は、特定のクラスタに属するオブジェクトが表すキーワードを、AND条件及びOR条件のうちキーワードの出現頻度に応じて予め決められた条件として含む検索条件文を生成する、ものであってよいし、更に、特定のクラスタ以外のクラスタに属するオブジェクトが表すキーワードをNOT条件として含む検索条件文を生成する、ものであってもよい。
また、本発明は、キーワードに基づく文書データの検索を支援する方法であって、検索対象の文書データから複数のキーワードを抽出するステップと、抽出された複数のキーワードの各々を表す複数のオブジェクトを含み、複数のオブジェクトが複数のクラスタに分類されたグラフを生成するステップと、生成されたグラフに含まれる特定のオブジェクトに対するユーザ操作に応じて、特定のオブジェクトに関する変更をグラフに加えるステップと、変更後のグラフにおける複数のクラスタのうちの特定のクラスタを選択するユーザ操作に応じて、特定のクラスタに属するオブジェクトが表すキーワードを用いて検索条件文を生成するステップとを含む、方法も提供する。
まず、本実施の形態が適用されるコンピュータシステムについて説明する。
図1は、このようなコンピュータシステムの全体構成例を示した図である。
図示するように、このコンピュータシステムは、クライアント10と、検索サーバ20と、検索支援サーバ30とが、ネットワーク80を介して接続されている。
尚、ここでは、検索サーバ20と検索支援サーバ30とを別個のサーバコンピュータとして示したが、これらは1つのサーバコンピュータ内に設けられていてもよい。
ネットワーク80は、情報の送受信に用いる通信手段である。このネットワーク80としては、インターネットやLAN(Local Area Network)が例示される。
図2は、検索支援サーバ30の機能構成例を示したブロック図である。
図示するように、検索支援サーバ30は、受信部31と、関連語抽出部32と、頻度情報記憶部33と、共起情報記憶部34と、グラフ生成部35と、座標情報記憶部36と、クラスタ生成部37と、クラスタ定義情報記憶部38と、表示情報生成部39と、送信部41とを備える。また、操作判別部42と、クラスタ再生成部43と、検索クエリ生成部44とを備える。
関連語抽出部32は、検索結果のウェブページを形態素解析し、頻度分析やTF−IDF等を用いて、関連語群を生成し、これらの出現頻度に関する頻度情報を生成する。また、検索語及び関連語を含むキーワード間の共起度を求め、この共起度を行列の各セルに格納した共起行列からなる共起情報を生成する。尚、共起度は、公知の計算方法によって求めればよい。例えば、キーワードk1とキーワードk2の共起度C(k1,k2)は、「C(k1,k2)=P(k1,k2)/Pa」によって求めることができる。ここで、P(k1,k2)はキーワードk1とキーワードk2を共に含むページの数を、Paは全ページ数を、それぞれ表す。本実施の形態では、文書データから複数のキーワードを抽出する抽出部の一例として、関連語抽出部32を設けている。
頻度情報記憶部33は、関連語抽出部32が生成した頻度情報を記憶する。
共起情報記憶部34は、関連語抽出部32が生成した共起情報を記憶する。
座標情報記憶部36は、グラフ生成部35が生成したノード座標情報及びエッジ座標情報と、後述するクラスタ座標情報とを記憶する。
クラスタ定義情報記憶部38は、クラスタ生成部37が生成したクラスタ定義情報を記憶する。
表示情報生成部39は、座標情報記憶部36に記憶されたノード座標情報、エッジ座標情報、クラスタ座標情報に基づいて、クライアント10にバネグラフを表示するための表示情報(例えば、ウェブページの記述)を生成する。
送信部41は、表示情報生成部39が生成した表示情報をクライアント10に送信したり、検索クエリ生成部44が生成した検索クエリを検索サーバ20に送信したりする。
尚、本実施の形態では、複数のオブジェクトを含み、複数のオブジェクトが複数のクラスタに分類されたグラフを生成し、特定のオブジェクトに関する変更をグラフに加えるグラフ生成部の一例として、グラフ生成部35、クラスタ生成部37、クラスタ再生成部43を設けている。
図3は、このときの検索支援サーバ30の動作例を示したフローチャートである。
検索支援サーバ30では、まず、受信部31が、検索サーバ20から検索結果のウェブページを受信して関連語抽出部32に渡す(ステップ301)。
すると、送信部41が、表示情報生成部39から渡されたレベル1のバネグラフを表示するための表示情報をクライアント10に送信する(ステップ308)。これにより、バネグラフは、クライアント10の図示しないディスプレイに表示されることになる。
まず、ステップ302で生成される頻度情報について説明する。
図4は、頻度情報の具体例を示した図である。
図示するように、頻度情報は、キーワードと出現頻度と頻度レベルとを対応付けたものになっている。ここで、出現頻度は、公知の手法によって求めればよいが、最大値が100になるように正規化されているものとする。頻度レベルは、予め用意された複数のレベルのうち、出現頻度に応じて決まるレベルである。例えば、出現頻度が70以上100以下であれば頻度レベル1、出現頻度が40以上70未満であれば頻度レベル2、というような規則が予め決められているものとする。
図5は、共起情報に含まれる共起行列の具体例を示した図である。
図示するように、共起行列では、1行目の各セル及び1列目の各セルにキーワードが設定されている。そして、1行目のあるセルを含む列と1列目のあるセルを含む行とが交差するセルには、それらのセルに設定された2つのキーワードの共起度が設定されている。尚、図では、「20」以上の共起度が設定されたセルを太枠で示しているが、これは共起度が「20」以上のノード間にエッジを張ることを想定しているからである。
図6は、バネグラフの具体例を示した図である。このバネグラフは、頻度レベル1のキーワード間の関連性を表すバネグラフであり、図5に示したレベル1−レベル1共起行列から生成されたものである。バネグラフでは、共起度が高いほどノード間の距離が近くなるようにノード座標情報が設定される。例えば、ノード間の距離として、共起度の逆数を正規化したものを用いるとよい。
この例では、最初にユーザが「Ruby」、「Java」、「C++」という検索語を検索サーバ20に投入して検索を行った場合を想定している。このような検索により、従来通りの検索結果は表示されるが、本実施の形態では、それに加え、「Ruby」、「Java」、「C++」のそれぞれと共起度の高いキーワードが関連語として抽出される。具体的には、「Ruby」に関しては、「Perl」、「Python」等のスクリプト言語を表す関連語、「Java」に関しては、「html」等のウェブ系の言語を表す関連語、「C++」に関しては、「C」、「VC++」等のC言語系を表す関連語が抽出される。そして、これらのキーワード間の関連性が可視化される。
図7は、クラスタ定義情報の具体例を示した図である。
図示するように、クラスタ定義情報は、キーワードとそのキーワードが属するクラスタとを対応付けたものになっている。
ところで、図示したクラスタ定義情報は、図4に示した頻度情報からも明らかなように、頻度レベル1のキーワードと階層レベル1のバネグラフにおけるクラスタとを対応付けたものである。しかしながら、階層レベルごとのバネグラフを生成する場合は、より深い階層レベルについてのクラスタ定義情報も生成することが好ましい。例えば、階層レベル2のバネグラフにおいて、クラスタ3がクラスタ3−1、3−2、3−3に分けられるとする。この場合は、図示しないが、クラスタ3に属する頻度レベル1、2のキーワードと、クラスタ3−1、3−2、3−3とを対応付けたクラスタ定義情報を生成するとよい。
図8は、このようなバネグラフの具体例を示した図である。図示するように、バネグラフにおいては、類似するキーワード群を1つにまとめたクラスタが形成されている。
この例では、まず、階層レベル1のバネグラフであることが全体を囲む図形によって示されている(図では、単に「レベル1」と表記している)。また、図7に示したクラスタ定義情報から分かるように、「Perl」、「Ruby」、「Python」はクラスタ1に属し、「html」、「Java」はクラスタ2に属し、「C」、「C++」、「VC++」はクラスタ3に属する。従って、「Perl」、「Ruby」、「Python」を表すノードを囲むようにクラスタ1を示す図形が描画され、「html」、「Java」を表すノードを囲むようにクラスタ2を示す図形が描画され、「C」、「C++」、「VC++」を表すノードを囲むようにクラスタ3を示す図形が描画される。尚、このようにクラスタが決定されると、下位の階層レベルのバネグラフの元となる座標情報は、クラスタごとに記憶しておくとよい。
まず、以下に、ユーザがバネグラフを用いて行うことの可能な操作を列挙する。
第一に、検索サーバ20に投入するキーワード群を変更する操作である。この操作には、更に、クラスタの選択操作と、階層レベルの変更操作とがある。前者は、検索対象のカテゴリを決める場合の操作であり、後者は、より詳細なキーワード(専門分野等のキーワード)を知りたい場合の操作である。
第二に、バネグラフ自体を変更する操作である。この操作には、ノードのクラスタ間での移動、融合、削除の操作がある。ノードのクラスタ間での移動操作は、検索クエリにおけるAND条件やNOT条件を変更する場合の操作である。ノードの融合操作は、そのノードに対応するキーワードをORで連結する際の操作である。ノードの削除操作は、そのノードに対応するキーワードを無視する際の操作である。また、バネグラフ自体を変更する操作としては、特徴量の重みを変更する操作を行ってもよい。この操作は、キーワード間の共起度に影響を与えるため、クラスタを変更することになる。更に、バネグラフ自体を変更する操作として、エッジの追加、削除の操作を行ってもよい。
クライアント10から操作情報が送信されると、検索支援サーバ30では、まず、受信部31が操作情報を受信して操作判別部42に受け渡す(ステップ321)。
そして、操作判別部42が、受信部31が受信した操作情報に基づいて、ユーザによる指示内容を判別する(ステップ322)。
すると、送信部41が、表示情報をクライアント10に送信する(ステップ324)。これにより、バネグラフは、クライアント10の図示しないディスプレイに表示されることになる。
ここで、操作判別部42から渡された情報がノードの識別情報とノードの座標情報とを含んでいるとする。これは、あるノードを移動する操作が行われ、移動対象のノードの識別情報と、移動先の座標情報とが渡された場合である。
この場合、クラスタ再生成部43は、座標情報記憶部36を参照し、移動先の座標情報を含むクラスタを特定し、一方で、クラスタ定義情報記憶部38を参照し、移動対象のノードを元々含んでいるクラスタを特定し、これらを比較する。その結果、これらのクラスタが異なっていれば、ノードの変更内容はクラスタ間での移動であると判定する。すると、クラスタ再生成部43は、クラスタ定義情報記憶部38に記憶されたクラスタ定義情報において、移動対象のノードに対応するキーワードに対応付けられたクラスタの識別情報を移動先のクラスタの識別情報に書き換える(ステップ326)。
尚、ここでは、簡単のため、ノードのクラスタ間での移動と、ノードの融合とは同時に起こらないものとした。しかしながら、これらが同時に起こったことを判別し、その場合にステップ326〜328の処理を同時に行うようにしてもよい。
この場合、クラスタ再生成部43は、クラスタ定義情報記憶部38に記憶されたクラスタ定義情報において、削除対象のノードに対応するキーワードに関する情報を削除する(ステップ329)。そして、頻度情報記憶部33に記憶された頻度情報において、削除対象のノードに対応するキーワードに関する情報を削除する(ステップ330)。
すると、送信部41が、検索クエリを検索サーバ20に送信する(ステップ332)。これにより、検索サーバ20は、検索クエリに基づいてインターネット上を検索し、検索結果のウェブページを検索支援サーバ30に返す。そして、検索支援サーバ30がこの検索結果をクライアント10に送信し、検索結果がクライアント10の図示しないディスプレイに表示されることになる。或いは、検索サーバ20が検索結果を直接クライアント10に送信するようにしてもよい。
まず、ステップ322で指示内容が階層レベル変更指示であると判断される場合の動作の具体例を示す。
図10は、この場合のバネグラフの変化の具体例を示した図である。
(a)に示すように、階層レベル1のバネグラフは、クラスタ1、2、3を含んでいる。このバネグラフを見て、ユーザが、クラスタ3についてより専門的な知識を得たいと考えたとする。その場合、図示するように、クラスタ3の領域をクリックすることで、クラスタ3を選択することができる。尚、図では、クラスタ3を示す破線を太線で示すことにより、クラスタ3が選択されていることを示している。そして、クラスタ3を選択することにより、(b)に示すように、クラスタ3に含まれるキーワードに焦点を当てた階層レベル2のバネグラフを見ることができる。そして、このバネグラフにおいても、階層レベル1の場合と同様、クラスタ3について、更に下位のクラスタであるクラスタ3−1、3−2、3−3が生成されている。
尚、この階層レベル2のバネグラフにおいて、上位ノードは、それよりも下位のノードより大きく表示されている。キーワードの頻度レベルごとに共起行列を生成しており、座標情報記憶部36に記憶されたノード座標情報にノードが表すキーワードの頻度レベルを付与することができるので、このような表示は実現可能である。
例えば、図10(b)で、ユーザが、「C」、「main」、「scanf」、「printf」のクラスタについて検索をかけたいとする。この場合、ユーザは、クラスタ3−2を選択する。尚、図では、クラスタ3−2を示す破線を太線で示すことにより、クラスタ3−2が選択されていることを示している。ここで、クラスタ3−2の上位ノードに対応するキーワードは「C」である。従って、検索クエリ生成部44は、まず、「C」をAND条件として検索クエリに含める。また、クラスタ3−2の「C」の次に上位のノードに対応するキーワードは「main」、「scanf」、「printf」である。従って、検索クエリ生成部44は、次に、「main」、「scanf」、「printf」をORで連結した条件をAND条件として検索クエリに含める。更に、クラスタ3−2以外の同階層レベルのクラスタはクラスタ3−1及びクラスタ3−3であり、これらのクラスタに属するキーワードは「C++」、「template」、「class」、「VC++」、「windows」、「.net」である。従って、最後に、検索クエリ生成部44は、「C++」、「template」、「class」、「VC++」、「windows」、「.net」をORで連結した条件をNOT条件として検索クエリに含める。即ち、ここでの検索クエリとしては、
(C) & (scanf | main | printf) & !(C++ | class | template | VC++ | windows | .net)
となる。尚、ここでは、「and」を「&」、「not」を「!」で表わしている。
図11は、この場合のバネグラフの変化の具体例を示した図である。
この例では、図示するように、元々クラスタ1を示す図形内に表示されていた「Perl」を表すノードを、クラスタ2を示す図形内に移動させている。これにより、検索支援サーバ30は、図9のステップ326で、クラスタ定義情報記憶部38で管理されるクラスタ定義情報を更新する。尚、「Perl」を表すノードをクラスタ2に移動することにより、「Java」を表すノードとの間に元々存在しなかったエッジが張られている。これは、「Perl」を表すノードと「Java」を表すノードとの距離が、共起度「20」の場合の距離よりも近くなったためである。但し、このような新たなエッジの描画は行わなくてもよい。
「Perl」を表すノードをクラスタ2を示す図形内に移動する前は、図7に示したように、キーワード「Perl」に対応するクラスタはクラスタ1であった。しかしながら、図11に示したような操作を行うと、キーワード「Perl」に対応するクラスタは、図12の太枠内に示すように、クラスタ2となっている。
ところで、本実施の形態において、グラフ生成部35は、バネグラフを表示するための表示情報を座標情報のみに基づいて生成するようにした。これは、座標情報の元となる共起情報に各キーワードの頻度レベルが含まれており、座標情報にも頻度レベルの情報が付与されているためである。しかしながら、頻度レベルが共起情報に含まれず、座標情報にも含まれなかった場合には、グラフ生成部35がバネグラフを生成する際に、頻度情報記憶部33に記憶された頻度レベルを参照するようにしてもよい。
まず、検索結果のリストに加え、検索結果から抽出したキーワードに基づいて生成したバネグラフも返すようにした。これにより、ユーザは、その検索に用いた検索語の妥当性と次の検索に検索語として用いる関連語との関連性を知ることができる。
また、本実施の形態では、バネグラフを用いてキーワード間の関係を可視化し、ユーザにバネグラフを操作させるようにした。これにより、通常、ユーザが用いることが多いAND条件に加え、OR条件(同じ意味の語句)、NOT条件(関係ない分野の語句)もまた自動的に作成できるようになった。
更に、本実施の形態では、バネグラフに階層構造を持たせ、キーワードに上位下位概念を持たせるようにした。これにより、ユーザが検索したいページの内容の深さを調整できるようになった。
更にまた、AND条件に数多くの検索語を指定すると、本来有益なページであるのにも関わらず、どれか1つの検索語が含まれていなかったために、検索結果に含まれないという問題が生じることがある。ここで、バネグラフの特徴を利用し、NOT条件を数多く生成することで、AND条件に使う検索語数を抑えた形で、ユーザにとって、興味のあるページのみを検索することができる。尚、NOT条件を指定したために有益なページが検索されないという場合も考えられるが、検索対象のキーワードとの共起度がある一定以上のものはNOT条件としても除外することで対応できる。
第一は、検索語の妥当性が分からない場合である。この場合、ユーザはバネグラフにおいてその検索語の占める位置を見て、別の有用な検索語について知ることができる。
第二は、検索語に一般語が多く、検索結果が大量に存在し、複数の検索語を求められる場合である。ユーザは、検索語を簡単にかつ大量にAND、OR、NOT等の検索条件を気にすることなく、検索をかけることができる。その結果、ユーザは検索対象を容易に絞り込むことができる。AND条件の個数は必要ではあるが、検索語を自分で考える必要はなくなる。
Claims (12)
- キーワードに基づく文書データの検索を支援する装置であって、
検索対象の文書データから複数のキーワードを抽出する抽出部と、
前記抽出部により抽出された前記複数のキーワードの各々を表す複数のオブジェクトを含み、当該複数のオブジェクトが複数のクラスタに分類されたグラフを生成するグラフ生成部と、
前記グラフ生成部により生成された前記グラフにおける前記複数のクラスタのうちの特定のクラスタを選択するユーザ操作に応じて、当該特定のクラスタに属するオブジェクトが表すキーワードを、AND条件及びOR条件のうち当該キーワードの出現頻度に応じて予め決められた条件として含み、当該特定のクラスタ以外のクラスタに属するオブジェクトが表すキーワードをNOT条件として含む検索条件文を生成する検索条件文生成部と
を備えた、装置。 - 前記グラフ生成部は、前記複数のオブジェクトが、当該複数のオブジェクトのうちの2つのオブジェクト間の距離が当該2つのオブジェクトが表す2つのキーワードの共起度に応じたものとなるような位置に配置され、当該位置の情報に基づいて前記複数のクラスタに分類された前記グラフを生成する、請求項1の装置。
- 前記抽出部は、前記検索対象の文書データに出現するキーワードのうち、特定のレベルの頻度で出現するキーワードを、当該特定のレベルに対応する前記複数のキーワードとして抽出し、
前記グラフ生成部は、前記特定のレベルを指定するユーザ操作に応じて、当該特定のレベルに対応する前記複数のキーワードの各々を表す複数のオブジェクトを含み、当該複数のオブジェクトが複数のクラスタに分類された前記グラフを生成する、請求項1の装置。 - 前記グラフ生成部は、前記グラフに含まれる特定のオブジェクトに対するユーザ操作に応じて、当該特定のオブジェクトに関する変更を当該グラフに加える、請求項1の装置。
- 前記特定のオブジェクトに関する変更は、第1のクラスタに属する当該特定のオブジェクトを第2のクラスタに属するようにする変更である、請求項4の装置。
- 前記特定のオブジェクトに関する変更は、当該特定のオブジェクト及び当該特定のオブジェクト以外の他のオブジェクトをマージして、当該特定のオブジェクトが表すキーワード及び当該他のオブジェクトが表すキーワードを表す1つのオブジェクトとする変更である、請求項4の装置。
- 前記特定のオブジェクトに関する変更は、当該特定のオブジェクトを削除する変更である、請求項4の装置。
- キーワードに基づく文書データの検索を支援する装置であって、
検索対象の文書データから複数のキーワードを抽出する抽出部と、
前記抽出部により抽出された前記複数のキーワードの各々を表す複数のオブジェクトを含むグラフであって、当該複数のオブジェクトが、当該複数のオブジェクトのうちの2つのオブジェクト間の距離が当該2つのオブジェクトが表す2つのキーワードの共起度に応じたものとなるような位置に配置され、当該位置の情報に基づいて複数のクラスタに分類されたグラフを生成するグラフ生成部と、
前記グラフ生成部により生成された前記グラフにおける前記複数のクラスタのうちの特定のクラスタを選択するユーザ操作に応じて、当該特定のクラスタに属するオブジェクトが表すキーワードをAND条件及びOR条件の何れかの条件として含み、かつ、当該特定のクラスタ以外のクラスタに属するオブジェクトが表すキーワードをNOT条件として含む検索条件文を生成する検索条件文生成部と
を備えた、装置。 - コンピュータがキーワードに基づく文書データの検索を支援する方法であって、
前記コンピュータが、検索対象の文書データから複数のキーワードを抽出するステップと、
前記コンピュータが、抽出された前記複数のキーワードの各々を表す複数のオブジェクトを含み、当該複数のオブジェクトが複数のクラスタに分類されたグラフを生成するステップと、
前記コンピュータが、生成された前記グラフにおける前記複数のクラスタのうちの特定のクラスタを選択するユーザ操作に応じて、当該特定のクラスタに属するオブジェクトが表すキーワードを、AND条件及びOR条件のうち当該キーワードの出現頻度に応じて予め決められた条件として含み、当該特定のクラスタ以外のクラスタに属するオブジェクトが表すキーワードをNOT条件として含む検索条件文を生成するステップと
を含む、方法。 - コンピュータがキーワードに基づく文書データの検索を支援する方法であって、
前記コンピュータが、検索対象の文書データから複数のキーワードを抽出するステップと、
前記コンピュータが、抽出された前記複数のキーワードの各々を表す複数のオブジェクトを含むグラフであって、当該複数のオブジェクトが、当該複数のオブジェクトのうちの2つのオブジェクト間の距離が当該2つのオブジェクトが表す2つのキーワードの共起度に応じたものとなるような位置に配置され、当該位置の情報に基づいて複数のクラスタに分類されたグラフを生成するステップと、
前記コンピュータが、生成された前記グラフにおける前記複数のクラスタのうちの特定のクラスタを選択するユーザ操作に応じて、当該特定のクラスタに属するオブジェクトが表すキーワードをAND条件及びOR条件の何れかの条件として含み、かつ、当該特定のクラスタ以外のクラスタに属するオブジェクトが表すキーワードをNOT条件として含む検索条件文を生成するステップと
を含む、方法。 - キーワードに基づく文書データの検索を支援する装置としてコンピュータを機能させるプログラムであって、
前記コンピュータを、
検索対象の文書データから複数のキーワードを抽出する抽出部と、
前記抽出部により抽出された前記複数のキーワードの各々を表す複数のオブジェクトを含み、当該複数のオブジェクトが複数のクラスタに分類されたグラフを生成するグラフ生成部と、
前記グラフ生成部により生成された前記グラフにおける前記複数のクラスタのうちの特定のクラスタを選択するユーザ操作に応じて、当該特定のクラスタに属するオブジェクトが表すキーワードを、AND条件及びOR条件のうち当該キーワードの出現頻度に応じて予め決められた条件として含み、当該特定のクラスタ以外のクラスタに属するオブジェクトが表すキーワードをNOT条件として含む検索条件文を生成する検索条件文生成部と
して機能させる、プログラム。 - キーワードに基づく文書データの検索を支援する装置としてコンピュータを機能させるプログラムであって、
前記コンピュータを、
検索対象の文書データから複数のキーワードを抽出する抽出部と、
前記抽出部により抽出された前記複数のキーワードの各々を表す複数のオブジェクトを含むグラフであって、当該複数のオブジェクトが、当該複数のオブジェクトのうちの2つのオブジェクト間の距離が当該2つのオブジェクトが表す2つのキーワードの共起度に応じたものとなるような位置に配置され、当該位置の情報に基づいて複数のクラスタに分類されたグラフを生成するグラフ生成部と、
前記グラフ生成部により生成された前記グラフにおける前記複数のクラスタのうちの特定のクラスタを選択するユーザ操作に応じて、当該特定のクラスタに属するオブジェクトが表すキーワードをAND条件及びOR条件の何れかの条件として含み、かつ、当該特定のクラスタ以外のクラスタに属するオブジェクトが表すキーワードをNOT条件として含む検索条件文を生成する検索条件文生成部と
して機能させる、プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008166539A JP5226401B2 (ja) | 2008-06-25 | 2008-06-25 | 文書データの検索を支援する装置及び方法 |
US12/490,781 US8200672B2 (en) | 2008-06-25 | 2009-06-24 | Supporting document data search |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008166539A JP5226401B2 (ja) | 2008-06-25 | 2008-06-25 | 文書データの検索を支援する装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010009251A JP2010009251A (ja) | 2010-01-14 |
JP5226401B2 true JP5226401B2 (ja) | 2013-07-03 |
Family
ID=41448727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008166539A Active JP5226401B2 (ja) | 2008-06-25 | 2008-06-25 | 文書データの検索を支援する装置及び方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8200672B2 (ja) |
JP (1) | JP5226401B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190034490A (ko) * | 2016-07-29 | 2019-04-02 | 로비 가이드스, 인크. | 자연어 질의를 위한 실행 경로를 결정하기 위한 시스템 및 방법 |
Families Citing this family (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7752043B2 (en) | 2006-09-29 | 2010-07-06 | Verint Americas Inc. | Multi-pass speech analytics |
US20080243799A1 (en) * | 2007-03-30 | 2008-10-02 | Innography, Inc. | System and method of generating a set of search results |
JP5318190B2 (ja) * | 2009-02-27 | 2013-10-16 | 三菱電機株式会社 | 情報処理装置及び情報処理方法及びプログラム |
US8719016B1 (en) | 2009-04-07 | 2014-05-06 | Verint Americas Inc. | Speech analytics system and system and method for determining structured speech |
US10614134B2 (en) | 2009-10-30 | 2020-04-07 | Rakuten, Inc. | Characteristic content determination device, characteristic content determination method, and recording medium |
BR112012010120A2 (pt) * | 2009-10-30 | 2016-06-07 | Rakuten Inc | dispositivo e método de determinação de conteúdo característico |
US8494852B2 (en) * | 2010-01-05 | 2013-07-23 | Google Inc. | Word-level correction of speech input |
US8375061B2 (en) * | 2010-06-08 | 2013-02-12 | International Business Machines Corporation | Graphical models for representing text documents for computer analysis |
US8825649B2 (en) * | 2010-07-21 | 2014-09-02 | Microsoft Corporation | Smart defaults for data visualizations |
JP4712118B1 (ja) * | 2010-08-12 | 2011-06-29 | ヤフー株式会社 | 携帯端末、アプリケーション選択方法及びプログラム |
US8977538B2 (en) | 2010-09-13 | 2015-03-10 | Richard Salisbury | Constructing and analyzing a word graph |
JP5585472B2 (ja) * | 2011-01-28 | 2014-09-10 | 富士通株式会社 | 情報照合装置、情報照合方法および情報照合プログラム |
US8972240B2 (en) * | 2011-05-19 | 2015-03-03 | Microsoft Corporation | User-modifiable word lattice display for editing documents and search queries |
JP2012256176A (ja) * | 2011-06-08 | 2012-12-27 | Hitachi Solutions Ltd | 情報提示装置 |
US8666999B2 (en) * | 2011-08-02 | 2014-03-04 | Rockwell Automation Technologies, Inc. | Search utility program for software developers |
US9286391B1 (en) * | 2012-03-19 | 2016-03-15 | Amazon Technologies, Inc. | Clustering and recommending items based upon keyword analysis |
US9785404B2 (en) * | 2012-05-23 | 2017-10-10 | Infosys Limited | Method and system for analyzing data in artifacts and creating a modifiable data network |
KR101423560B1 (ko) | 2012-09-28 | 2014-08-08 | (주)오픈놀 | 키워드 기반 지식 맵 서비스 방법 |
US9146987B2 (en) | 2013-06-04 | 2015-09-29 | International Business Machines Corporation | Clustering based question set generation for training and testing of a question and answer system |
US9230009B2 (en) | 2013-06-04 | 2016-01-05 | International Business Machines Corporation | Routing of questions to appropriately trained question and answer system pipelines using clustering |
US9400839B2 (en) * | 2013-07-03 | 2016-07-26 | International Business Machines Corporation | Enhanced keyword find operation in a web page |
JP6573321B2 (ja) * | 2013-08-29 | 2019-09-11 | コグニティ株式会社 | 情報処理装置、情報処理方法およびプログラム |
KR101538998B1 (ko) * | 2013-09-13 | 2015-07-24 | 한국과학기술원 | 지식 구조를 기반으로 한 검색 서비스 제공 방법 및 장치 |
US9348900B2 (en) | 2013-12-11 | 2016-05-24 | International Business Machines Corporation | Generating an answer from multiple pipelines using clustering |
US9626455B2 (en) | 2014-05-01 | 2017-04-18 | Lexisnexis, A Division Of Reed Elsevier Inc. | Systems and methods for displaying estimated relevance indicators for result sets of documents and for displaying query visualizations |
US9563688B2 (en) | 2014-05-01 | 2017-02-07 | International Business Machines Corporation | Categorizing users based on similarity of posed questions, answers and supporting evidence |
US10915543B2 (en) | 2014-11-03 | 2021-02-09 | SavantX, Inc. | Systems and methods for enterprise data search and analysis |
CN104598629B (zh) * | 2015-02-05 | 2017-11-03 | 北京航空航天大学 | 基于流式图模型的社交网络突发事件检测方法 |
EP3089159B1 (en) | 2015-04-28 | 2019-08-28 | Google LLC | Correcting voice recognition using selective re-speak |
EP3151131A1 (en) * | 2015-09-30 | 2017-04-05 | Hitachi, Ltd. | Apparatus and method for executing an automated analysis of data, in particular social media data, for product failure detection |
US10528668B2 (en) * | 2017-02-28 | 2020-01-07 | SavantX, Inc. | System and method for analysis and navigation of data |
US11328128B2 (en) | 2017-02-28 | 2022-05-10 | SavantX, Inc. | System and method for analysis and navigation of data |
JP6739379B2 (ja) * | 2017-03-10 | 2020-08-12 | ヤフー株式会社 | 情報処理装置、情報処理方法、プログラム、および広告情報処理システム |
US10872107B2 (en) * | 2017-06-30 | 2020-12-22 | Keysight Technologies, Inc. | Document search system for specialized technical documents |
JP2019066979A (ja) * | 2017-09-29 | 2019-04-25 | キヤノンマーケティングジャパン株式会社 | 検索装置、その制御方法、及びプログラム、並びに、検索システム、その制御方法、及びプログラム |
GB201716304D0 (en) * | 2017-10-05 | 2017-11-22 | Palantir Technologies Inc | Data analysis system and method |
CN108132966A (zh) * | 2017-11-28 | 2018-06-08 | 北京洪泰同创信息技术有限公司 | 知识图谱生成方法及装置 |
US11244013B2 (en) * | 2018-06-01 | 2022-02-08 | International Business Machines Corporation | Tracking the evolution of topic rankings from contextual data |
JP7243196B2 (ja) * | 2019-01-11 | 2023-03-22 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
US10867338B2 (en) | 2019-01-22 | 2020-12-15 | Capital One Services, Llc | Offering automobile recommendations from generic features learned from natural language inputs |
US20200341977A1 (en) * | 2019-04-25 | 2020-10-29 | Mycelebs Co., Ltd. | Method and apparatus for managing attribute language |
US10489474B1 (en) | 2019-04-30 | 2019-11-26 | Capital One Services, Llc | Techniques to leverage machine learning for search engine optimization |
US10565639B1 (en) | 2019-05-02 | 2020-02-18 | Capital One Services, Llc | Techniques to facilitate online commerce by leveraging user activity |
US11232110B2 (en) * | 2019-08-23 | 2022-01-25 | Capital One Services, Llc | Natural language keyword tag extraction |
US10796355B1 (en) | 2019-12-27 | 2020-10-06 | Capital One Services, Llc | Personalized car recommendations based on customer web traffic |
JP7145247B2 (ja) * | 2021-01-19 | 2022-09-30 | ヤフー株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4223578B2 (ja) * | 1996-11-29 | 2009-02-12 | ソニー株式会社 | キーワード生成方法及びその装置 |
JP3437478B2 (ja) | 1999-03-01 | 2003-08-18 | 日本電信電話株式会社 | 分類木を用いた情報検索装置および方法と分類木を用いた情報検索プログラムを記録した記録媒体 |
US20030069873A1 (en) * | 1998-11-18 | 2003-04-10 | Kevin L. Fox | Multiple engine information retrieval and visualization system |
SG93868A1 (en) * | 2000-06-07 | 2003-01-21 | Kent Ridge Digital Labs | Method and system for user-configurable clustering of information |
US6678679B1 (en) * | 2000-10-10 | 2004-01-13 | Science Applications International Corporation | Method and system for facilitating the refinement of data queries |
US6925460B2 (en) * | 2001-03-23 | 2005-08-02 | International Business Machines Corporation | Clustering data including those with asymmetric relationships |
WO2003067471A1 (fr) * | 2002-02-04 | 2003-08-14 | Celestar Lexico-Sciences, Inc. | Appareil et procede permettant de traiter des connaissances dans des documents |
TWI273449B (en) * | 2004-06-18 | 2007-02-11 | Yi-Jie Wu | Computer data classification management system and method |
US8312034B2 (en) * | 2005-06-24 | 2012-11-13 | Purediscovery Corporation | Concept bridge and method of operating the same |
JP2007193380A (ja) * | 2006-01-16 | 2007-08-02 | So-Net Entertainment Corp | 情報処理装置,情報処理方法,およびコンピュータプログラム |
-
2008
- 2008-06-25 JP JP2008166539A patent/JP5226401B2/ja active Active
-
2009
- 2009-06-24 US US12/490,781 patent/US8200672B2/en active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190034490A (ko) * | 2016-07-29 | 2019-04-02 | 로비 가이드스, 인크. | 자연어 질의를 위한 실행 경로를 결정하기 위한 시스템 및 방법 |
KR102430625B1 (ko) | 2016-07-29 | 2022-08-08 | 로비 가이드스, 인크. | 자연어 질의를 위한 실행 경로를 결정하기 위한 시스템 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
JP2010009251A (ja) | 2010-01-14 |
US20090327279A1 (en) | 2009-12-31 |
US8200672B2 (en) | 2012-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5226401B2 (ja) | 文書データの検索を支援する装置及び方法 | |
US8150846B2 (en) | Content searching and configuration of search results | |
JP5110201B2 (ja) | 検索処理方法及び装置 | |
US10698956B2 (en) | Active knowledge guidance based on deep document analysis | |
US20090248707A1 (en) | Site-specific information-type detection methods and systems | |
KR20200019824A (ko) | 엔티티 관계 데이터 생성 방법, 장치, 기기 및 저장 매체 | |
TW200805092A (en) | Document-based information and uniform resource locator (URL) management | |
JP2008204453A (ja) | 文書に注釈を付するシステムと方法 | |
US20090083266A1 (en) | Techniques for tokenizing urls | |
US20090271388A1 (en) | Annotations of third party content | |
CN112749300B (zh) | 用于视频分类的方法、装置、设备、存储介质和程序产品 | |
CN112988784B (zh) | 数据查询方法、查询语句生成方法及其装置 | |
JP7172187B2 (ja) | 情報表示方法、情報表示プログラムおよび情報表示装置 | |
CN112000495B (zh) | 用于兴趣点信息管理的方法、电子设备和存储介质 | |
JP5179564B2 (ja) | クエリセグメント位置決定装置 | |
JP6079207B2 (ja) | キーワード提示プログラム、キーワード提示方法及びキーワード提示装置 | |
CN112989011A (zh) | 数据查询方法、数据查询装置和电子设备 | |
JP2010186296A (ja) | 画像検索装置 | |
JP6333306B2 (ja) | 検索データ管理装置、検索データ管理方法、および検索データ管理プログラム | |
JP5394512B2 (ja) | 教師データ生成装置、方法及びプログラム | |
US9898544B2 (en) | Guided web navigation tool | |
CN114154072A (zh) | 检索方法、装置、电子设备以及存储介质 | |
JP2023106724A (ja) | 支援装置、支援方法、支援プログラム | |
CN116186455A (zh) | 目录生成方法、目录操作方法、装置及设备 | |
US9152696B2 (en) | Linkage information output apparatus, linkage information output method and computer-readable recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110519 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120622 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120703 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120829 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121106 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130205 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130226 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20130226 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130314 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5226401 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160322 Year of fee payment: 3 |