JP4969209B2 - 検索システム - Google Patents

検索システム Download PDF

Info

Publication number
JP4969209B2
JP4969209B2 JP2006302503A JP2006302503A JP4969209B2 JP 4969209 B2 JP4969209 B2 JP 4969209B2 JP 2006302503 A JP2006302503 A JP 2006302503A JP 2006302503 A JP2006302503 A JP 2006302503A JP 4969209 B2 JP4969209 B2 JP 4969209B2
Authority
JP
Japan
Prior art keywords
keyword
document data
keywords
frequency
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006302503A
Other languages
English (en)
Other versions
JP2008117351A (ja
Inventor
修 大島
耕一 平野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2006302503A priority Critical patent/JP4969209B2/ja
Publication of JP2008117351A publication Critical patent/JP2008117351A/ja
Application granted granted Critical
Publication of JP4969209B2 publication Critical patent/JP4969209B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は検索システムに係り、特に、入力された検索語と関連の深い用語を連鎖的に抽出したり、抽出された用語と関連の深い企業や商品、人物等を提示可能な検索システムに関する。
膨大な情報の中から必要とする情報を抽出するために検索システムが用いられるが、一般的な検索システムの場合、入力された検索語と同一または類似の概念を含む情報を抽出する仕組みを備えている。例えば、多数の企業の情報を格納したデータベースに対して「富士」という検索語を与えると、検索システムは「富士」という文字列を名称中に含む企業のリストを正確に出力することができる。また、インターネットの検索サイトにおいて「環境問題」と入力すれば、「環境問題」という文字列を含んだWebページのリストがディスプレイに表示される。
この結果ユーザは、目的の情報に辿り着くことが可能となるのであるが、そこでの検索結果はあくまでも予想の範囲のものであり、検索結果リストを眺めても意外な発見を期待することはできなかった。もちろん、検索結果リスト中の個々のデータの詳細を検討する過程で新しい知見を得ることはできるが、検索語と関連の深い他の用語を含む情報を直接的に抽出することはできなかった。
この点に関し、特許文献1で開示された「連想検索システム」の場合には、各用語の関連用語を記憶した関連用語記憶手段と、各用語と共起性の高い(同一文書中に登場する確率が高い)企業名を記憶した共起企業名記憶手段を備えており、検索語が入力された場合にはこれと関連する用語を抽出し、各用語に対する共起性の高い企業名を抽出する仕組みを備えている。
特開2004−110386号
この結果ユーザは、検索語として「環境問題」を入力すると、環境問題に係る文書中に登場することの多い企業名をダイレクトにリストアップすることが可能となり、環境問題に積極的に取り組む企業を認識し、投資行動につなげることができるようになる。
しかしながら、この連想検索システムの場合、連想検索の対象が企業名(関連企業名を含む)に限定されるため、投資対象企業の検索以外に実用的な用途がない点で問題があった。
この発明は上記の問題を解決するために案出されたものであり、企業名を含めたあらゆる用語間の共起性に基づき、検索語と関連の深い情報を抽出可能な検索システムを実現することを目的としている。
上記の目的を達成するため、請求項1に記載した検索システムは、複数の文書データが格納された文書記憶手段と、上記の各文書データから複数のキーワードを抽出し、キーワード記憶手段に格納するキーワード抽出手段と、各キーワードの各文書データ中における出現頻度データを用いて、キーワード間の共起性に基づく関連度を算出し、キーワード関連度記憶手段に格納する関連度算出手段と、検索語が入力された場合に、上記キーワード関連度記憶手段を参照し、当該検索語に対して所定の関連度を有するキーワードのリストを生成する手段と、このキーワードのリストを出力する手段を備え、上記関連度算出手段が、(0) 各キーワードの出現頻度を、文書データ単位で集計したキーワード共起頻度表を生成する処理と、(1) 上記キーワード共起頻度表を参照して、文書データ単位で、当該文書中に出現実績があり、関連度算出の対象とすべきキーワードを選別する処理と、(2) 文書データ単位で、一対の選別キーワード間の出現頻度を乗算し、その積を選別キーワードの組合せ毎に記述したキーワード組合せ頻度総和表を生成する処理と、(3) 文書データ単位で、各選別キーワードの出現頻度を二乗し、その値を選別キーワード毎に記述したキーワード頻度総和表を生成する処理と、(4) 上記キーワード組合せ頻度総和表に記述された、各文書データにおける選別キーワードの組合せの積を、全文書データに亘って集計する処理と、(5) 上記キーワード頻度総和表に記述された、上記組合せを構成する各選別キーワードの各文書データにおける出現頻度の二乗値を、全文書データに亘って集計する処理と、(6) 上記(5)の集計値の平方根を算出する処理と、(7) 各選別キーワードの組合せ毎に、上記(6)の平方根同士を加算すると共に、その和で上記(4)の集計値を除することにより、当該選別キーワードの組合せ間の関連度を算出する処理を実行することを特徴としている。
なお、上記(2)〜(6)の各処理は、論理的に矛盾しない限り順不同であり、例えば (2)→(4)→(3)→(5)→(6)あるいは(3)→(5)→(6)→(2)→(4)の順序で処理を実行することもできる。
請求項2に記載した検索システムは、上記のキーワード抽出手段が、それぞれ固有の抽出基準に基づいてキーワード候補を抽出する複数のフィルタを備え、各フィルタによって抽出されたキーワード候補をマッチングし、少なくとも複数のフィルタによって抽出されたキーワード候補をキーワードとして認定することを特徴としている。
請求項3に記載した検索システムは、上記フィルタの一つが、各文書中に含まれる所定の係り受け表現を探索し、当該係り受け表現の少なくとも一部をキーワード候補として選定することを特徴としている。
請求項4に記載した検索システムは、上記フィルタの一つが、各文書中に含まれる所定の区切り文字を探索し、当該区切り文字で囲まれた文字列をキーワード候補として選定することを特徴としている。
請求項5に記載した検索システムは、上記フィルタの一つが、(1)各文書中に含まれる名詞を注目語として抽出し、(2)各注目語の全文書中における出現頻度を算出し、(3)各注目語の一つ前及び/又は一つ後の形態素に範囲を拡張し、この拡張範囲を含めた注目語の全文書中における出現頻度を算出し、(4)上記(3)の処理によって算出された出現頻度が所定数以上の場合には、さらにその一つ前あるいは後の形態素に範囲を拡張し、この拡張範囲を含めた注目語の全文書中における出現頻度を算出する処理を、その出現頻度が所定数未満となるまで繰り返し、(5)最初の注目語及び拡張範囲を含めた注目語の中で、所定範囲内の出現頻度を有するものをキーワード候補として選定することを特徴としている。
ここで「形態素」とは、意味を有する最小の言語単位を指す。例えば、「私の名前は鈴木です」を形態素に分解すると、「私(代名詞)」「の(助詞)」「名前(一般名詞)」「は(係助詞)」「鈴木(固有名詞)」「です(助動詞)」となる。
請求項に記載した検索システムは、少なくとも企業名、人物名、商品名等の固有名詞が格納された固有名詞データベースと、この固有名詞データベースを参照し、上記検索語に対して所定の関連度を有するキーワードのリスト中で、当該固有名詞データベースに記録された固有名詞と一致するキーワードを抽出し、そのリストを出力する手段とを備えたことを特徴としている。
請求項に記載した検索システムは、検索語及び特定のキーワードが入力された場合に、上記出現頻度データを参照し、当該検索語と共に上記キーワードが出現している文書データを特定する手段と、当該文書データのリストを生成し、出力する手段とを備えたことを特徴としている。
請求項1に記載した検索システムにあっては、キーワード抽出手段によって抽出された各キーワードについて、相互間の共起性に基づく関連度が算出され、検索処理時には入力された検索語に対して所定以上の関連度を備えたキーワードのリストが出力される仕組みを備えているため、従来のように企業名に限定されることなく、あらゆる分野の関連キーワードを提示可能となる。
しかも、キーワード間の共起性に基づく関連度の算出に際しては、まず文書データ単位で出現頻度がゼロのため他のキーワードとの関連度算出が不要なキーワードを事前に排除し、出現実績のあるキーワード間で関連度を算出した後、全文書単位に集計する手法を採用している結果、全体の計算処理を簡素化できる。
また、新規の文書データが文書記憶手段に追加された場合でも、この新規文書データ中の各キーワードに係るデータをキーワード組合せ頻度総和表及びキーワード頻度総和表に追加し、既存の集計値に追加分の値を加算することによって、簡単にキーワード間の関連度が再計算可能となる。
古くなった文書データの影響を排除する場合にも、当該文書データ中の各キーワードに係るデータをキーワード組合せ頻度総和表及びキーワード頻度総和表から削除し、既存の集計値から削除分の値を減算することによって、簡単にキーワード間の関連度を最新の状態に維持することが可能となる。
請求項2〜5に記載した検索システムの場合、複数のフィルタを用いて文書データ中からそれぞれ独自にキーワード候補を抽出させ、これらの中で少なくとも複数のフィルタによって抽出されたものを正式なキーワードと認定する仕組みを備えているため、重要なキーワードの取りこぼしを防止すると同時に、重要でないノイズがキーワード中に混入することを防止できる。
請求項に記載した検索システムによれば、ある検索語と関連の深い企業名はもとより、人物名や商品名といった他のカテゴリに属する固有名詞をも効率的に抽出可能となり、幅広い目的に利用できる。
請求項に記載した検索システムによれば、ある検索語とキーワードとが共起している文書データのリストが出力されるため、当該検索語とキーワードを関連付けた根拠を提示することが可能となる。

図1は、この発明に係る検索システム10の機能構成を示すブロック図であり、文書DB12と、キーワード抽出部14と、キーワードDB16と、関連度算出部18と、キーワード共起頻度表20と、キーワード組合せ頻度総和表22と、キーワード頻度総和表24と、キーワード関連度表26と、固有名詞DB28と、検索処理部30とを備えている。
上記のキーワード抽出部14、関連度算出部18及び検索処理部30は、コンピュータのCPUが、OS及び専用のアプリケーションプログラムに従い、必要な処理を実行することによって実現される。
上記の文書DB12、キーワードDB16、キーワード共起頻度表20、キーワード組合せ頻度総和表22、キーワード頻度総和表24、キーワード関連度表26及び固有名詞DB28は、同コンピュータのハードディスクに格納されている。
文書DB12には、新聞記事や学術雑誌、論文等の電子データ(テキストデータ)が予め多数蓄積されている。また、固有名詞DB28には、企業名、商品名、サービス名、人物名等の固有名詞がカテゴリ別に多数登録されている。
上記のキーワード抽出部14は、図2に示すように、係り受け表現抽出フィルタ32、区切り文字抽出フィルタ34、文字列頻度統計フィルタ36、TermExtractフィルタ38、多数決フィルタ40を備えている。
つぎに、図3のフローチャートに従い、キーワード抽出部14によるキーワード抽出工程について説明する。
まずキーワード抽出部14は、文書DB12内に蓄積された各文書データに係り受け表現抽出フィルタ32を適用し、各文書データから所定の係り受け表現を備えた文字列を抽出する(S10)。
すなわち、係り受け表現抽出フィルタ32には、「○○メーカー」、「○○が主力」、「○○を生産」という係り受け表現パターンが予め多数用意されており、キーワード抽出部14は、これに当てはまる表現パターンを検出した後、「○○」に相当する文字列をキーワード候補として抽出する。
つぎにキーワード抽出部14は、各文書データに区切り文字抽出フィルタ34を適用し、「○○」、"○○"、(○○)、[○○]、,○○,のように、カンマや括弧、スペース、タブ等の区切り文字で囲まれた○○の部分をキーワード候補として抽出する(S12)。
つぎにキーワード抽出部14は、各文書データに文字列頻度統計フィルタ36を適用し、各文書データに含まれる各文字列が他の文書も含めて何回登場するのかを集計し、一定範囲の出現頻度を備えた文字列をキーワード候補として抽出する(S14)。
まず文字列頻度統計フィルタ36は、図4に示すように、文書中の名詞(ここでは「DVD」)に注目し、このDVDという注目語が文書DB12内に蓄積された各文書データ中に出現する数を集計する。つぎに、文字列頻度統計フィルタ36は、この注目語の前後の形態素に範囲を拡張し、それぞれの全文書中に登場する頻度を集計し、出現頻度が一定以下(例えば20以下)となった時点で文字範囲拡張を停止する。
例えば、DVDの一つ前の形態素を含む「したDVD」の出現頻度は「2」と低いため、これ以上前の形態素に範囲が拡張されることはない。これに対し、DVDの一つ後の形態素を含む「DVDレコーダー」の出現頻度は「862」と多いため、その一つ後の形態素を含む「DVDレコーダーでは」の出現頻度を集計する。そして、この出現頻度は「5」と低いため、これ以降の形態素に範囲を拡張することが停止される。
つぎに文字列頻度統計フィルタ36は、「DVD」及び「DVDレコーダー」が所定範囲(例えば20〜5,000)内の出現頻度を備えていることを理由にキーワード候補として抽出する。これに対し、「したDVD」及び「DVDレコーダーでは」は上記の範囲外であるため、キーワード候補から除外される。
全文書中における出現頻度が20未満のものはそもそも重要語とはいえず、また5,000を越えるものは逆に特徴のない汎用語あるいは一般語と考えられるからであるが、この範囲設定は文書データの分量や検索システムの使用目的に応じて適宜調整される。
ところで、文書DB12内に蓄積された多量の文書データに含まれる各文字列に関して、それぞれの出現頻度を集計するには膨大な時間を要するため、図5に示すように、文書DB12内には予め全文書データに登場する各形態素が、個々の文書データ中に存在しているか否かを一覧表にまとめたインデックス(所謂転置インデックス)が生成されている。このため、キーワード抽出部14はこのインデックスを参照することにより、比較的短時間でその出現頻度を取得することが可能となる。
つぎにキーワード抽出部14は、文書DB12内に蓄積された文書データにTermExtractフィルタ38を適用し、各文書データから所定以上のスコアを備えた文字列をキーワード候補として抽出する(S16)。
このTermExtractは、専門分野のコーパス(主として研究目的で収集され、電子化された自然言語の文章からなる巨大なテキストデータ)から専門用語を自動抽出するために案出された文字列抽出アルゴリズムであり、文書データ中から単名詞及び複合名詞を候補語として抽出し、各候補語の出現頻度と連接頻度に基づいてそれぞれの重要度を算出する機能を備えている。このTermExtract自体は公知技術であるため、これ以上の説明は省略する。
つぎにキーワード抽出部14は、係り受け表現抽出フィルタ32、区切り文字抽出フィルタ34、文字列頻度統計フィルタ36、TermExtractフィルタ38によって抽出された各キーワード候補を多数決フィルタ40に入力し、キーワードを絞り込む。
多数決フィルタ40では、各フィルタによってリストアップされたキーワード候補同士をマッチングし、2以上のフィルタによってキーワード候補として挙げられているものを最終的なキーワードと認定し、キーワードDB16に格納する(S18)。
このように、係り受け表現抽出フィルタ32、区切り文字抽出フィルタ34、文字列頻度統計フィルタ36、TermExtractフィルタ38の4つのフィルタを用いることにより、文書データからキーワードを抽出する際に重要語が漏れ落ちることを防止すると共に、多数決フィルタ40を用いて絞り込むことにより、不要なキーワード(ノイズ)が混入することを防止できる。
上記のように4つのフィルタ中の2以上のフィルタによって選別されたキーワード候補を正式なキーワードと認定するのは一例であり、3以上のフィルタによって選別されることをキーワード認定の要件とすることもできる。
また、フィルタの数も上記に限定されるものではなく、他の有効なキーワード候補抽出フィルタをキーワード抽出部14に設けることもできる。
つぎに、図6のフローチャートに従い、関連度算出部18による各キーワード間の関連度算出工程について説明する。
まず関連度算出部18は、各キーワードの各文書データ中における共起頻度を集計し、キーワード共起頻度表20を生成する(S20)。
図7は、このキーワード共起頻度表20の具体例を示すものであり、文書DB12に格納された各文書D1〜Dnごとに、各キーワードKW-1〜nの出現頻度が記述されている。
ここで、あるキーワードXとYとの間の関連度は、数1のiにキーワード共起頻度表20に記載されたXとYの出現頻度を代入することにより、理論的には算出可能である。
Figure 0004969209
ただし、文書データの分量及びキーワードの総数が多い場合には膨大な計算量が発生し、多くの処理時間を要することとなる。
そこで、この実施の形態では、キーワード共起頻度表20に基づいてキーワード組合せ頻度総和表22及びキーワード頻度総和表24を生成することにより、計算工程の簡素化を図っている。
図8は、その要領を例示するものである。この場合、キーワード共起頻度表20にはキーワードKW-1〜KW-5の文書D1における出現頻度が記載されているが、この中KW-3及びKW-4の出現頻度は0であるため、実際に関連度を算出すべきキーワードの組合せは以下の3パターンで済むこととなる。
(KW-1, KW-2)、(KW-1, KW-5)、(KW-2, KW-5)
つぎに関連度算出部18は、各組合せ毎に出現頻度を乗じた値を記述したキーワード組合せ頻度総和表22と、各キーワードの出現頻度を二乗した値を記述したキーワード頻度総和表24を生成する(S22、S24)。
図8のキーワード組合せ頻度総和表では、文書D1についての値のみが記述されているが、同様の処理を各文書毎に実行し、その結果に基づいて値を加算していくことにより、各キーワードの値が数1の分子に相当する結果となる。
同じく、図8のキーワード頻度総和表では、文書D1についての値のみが記述されているが、各文書における各キーワードの出現頻度を二乗した値を足し込んでいき、各キーワードの最終的な値の平方根を求めることにより、数1の分母に相当する値が得られることになる。
この結果、図9に示すように、各キーワード間の関連度が比較的容易に算出でき、その値がキーワード関連度表26に記述される(S26)。
上記のように、文書毎に各キーワード間の組合せパターンを抽出し、それぞれの積及び各キーワードの二乗値を求めた上で、各文書の値を加算していくことにより、値が0のキーワードに係る計算処理を省くことが可能となる。
このため、特許文献1の検索システムのように企業名に限定することなく、全キーワード間における関連度を算出することが現実的になる。
また、文書DB12に新規の文書データが追加された場合には、この新規文書データ中の各キーワードに係るデータをキーワード組合せ頻度総和表22及びキーワード頻度総和表24に追加し、既存の集計値に追加分の値を加算することによって、簡単にキーワード間の関連度が再計算可能となる。
古くなった文書データの影響を排除する場合にも、当該文書データ中の各キーワードに係るデータをキーワード組合せ頻度総和表22及びキーワード頻度総和表24から削除し、既存の集計値から削除分の値を減算することによって、簡単にキーワード間の関連度を最新の状態に維持することが可能となる。
つぎに、図10のフローチャートに従い、このシステム10における検索処理手順について説明する。
まずユーザが端末装置αから検索語を入力すると、これを受け付けた検索処理部30は(S40)、図11に示すように、キーワード関連度表26を参照し、当該検索語と同一または一定範囲内の類似性を有するキーワードを特定すると共に、当該キーワードに対して所定以上の関連度を有するキーワードのリストを抽出する(S42)。
つぎに検索処理部30は、固有名詞DB28の中の例えば企業名DBを参照し、上記リスト中に含まれる企業名を抽出する(S44)。
この抽出された企業名のリストは、検索語に関連の深い企業リストとして端末装置αに送信される(S46)。
この結果ユーザは、入力した検索語(例えば時事用語)と関連の深い企業を認識することが可能となり、投資行動の判断材料に利用することができる。
また、固有名詞DB28として人物名DBを指定すれば、入力した検索語と関連の深い人物をピックアップできる。
もっとも、企業名DBや人物名DBとのマッチングを行うことなく、検索語と関連の深いキーワードのリストを、そのまま端末装置αに返すようにしてもよい。
この後、ユーザがキーワードリスト中の特定のキーワードを検索語として指定すると、そのキーワードと所定以上の関連性を備えたキーワードのリストが検索処理部30によってさらに抽出され、端末装置αに送信される。
この結果、ユーザは関連語から関連語へと、連鎖的に検索範囲を広げていくことが可能となり、予想外のキーワードに辿り着くことが期待できる。
ユーザが検索結果リスト中の特定のキーワードを指定し、その根拠となる文書の提示をリクエストすると、これを受け付けた検索処理部は(S48)、図12に示すように、検索語及び当該キーワードに基づいてキーワード共起頻度表20を検索し、両者間で共起の生じている文書番号のリストを生成する(S50)。
つぎに検索処理部30は、この文書番号リストに基づいて文書DB12を検索し、文書本文のリストを生成した後、端末装置αに送信する(S52、S54)。
この結果、端末装置αのディスプレイには、検索語と当該キーワードとが同時に出現している文書の番号、タイトル、抄録、年月日等がリスト表示される。
また、この中の一つをユーザが選択すると、検索処理部30は該当の文書データを文書DB12から抽出し、端末装置αに送信する。
この結果ユーザは、当該文書データの内容を閲覧し、検索語とキーワードとの関連性を個別に確認することが可能となる。
この発明に係る検索システムの機能構成を示すブロック図である。 キーワード抽出部の機能構成を示すブロック図である。 キーワード抽出工程を示すフローチャートである。 文字列頻度統計フィルタの動作を示す説明図である。 文書DB内に形態素インデックスが形成されている様子を示す説明図である。 キーワード間の関連度算出工程を示すフローチャートである。 キーワード共起頻度表の一例を示す説明図である。 関連度算出処理を簡略化する方法を示す説明図である。 キーワード組合せ頻度総和表及びキーワード頻度総和表に基づいてキーワード関連度表が生成される様子を示す説明図である。 検索処理の手順を示すフローチャートである。 検索語に基づき企業名リストを抽出する様子を示す説明図である。 検索語及び特定キーワード間の関連度の根拠を提示する様子を示す説明図である。
符号の説明
10 検索システム
12 文書DB
14 キーワード抽出部
16 キーワードDB
18 関連度算出部
20 キーワード共起頻度表
22 キーワード組合せ頻度総和表
24 キーワード頻度総和表
26 キーワード関連度表
28 固有名詞DB
30 検索処理部
32 係り受け表現抽出フィルタ
34 区切り文字抽出フィルタ
36 文字列頻度統計フィルタ
38 TermExtractフィルタ
40 多数決フィルタ

Claims (7)

  1. 複数の文書データが格納された文書記憶手段と、
    上記の各文書データから複数のキーワードを抽出し、キーワード記憶手段に格納するキーワード抽出手段と、
    各キーワードの各文書データ中における出現頻度データを用いて、キーワード間の共起性に基づく関連度を算出し、キーワード関連度記憶手段に格納する関連度算出手段と、
    検索語が入力された場合に、上記キーワード関連度記憶手段を参照し、当該検索語に対して所定の関連度を有するキーワードのリストを生成する手段と、
    このキーワードのリストを出力する手段を備え、
    上記関連度算出手段が、
    (0) 各キーワードの出現頻度を、文書データ単位で集計したキーワード共起頻度表を生成する処理と、
    (1) 上記キーワード共起頻度表を参照して、文書データ単位で、当該文書中に出現実績があり、関連度算出の対象とすべきキーワードを選別する処理と、
    (2) 文書データ単位で、一対の選別キーワード間の出現頻度を乗算し、その積を選別キーワードの組合せ毎に記述したキーワード組合せ頻度総和表を生成する処理と、
    (3) 文書データ単位で、各選別キーワードの出現頻度を二乗し、その値を選別キーワード毎に記述したキーワード頻度総和表を生成する処理と、
    (4) 上記キーワード組合せ頻度総和表に記述された、各文書データにおける選別キーワードの組合せの積を、全文書データに亘って集計する処理と、
    (5) 上記キーワード頻度総和表に記述された、上記組合せを構成する各選別キーワードの各文書データにおける出現頻度の二乗値を、全文書データに亘って集計する処理と、
    (6) 上記(5)の集計値の平方根を算出する処理と、
    (7) 各選別キーワードの組合せ毎に、上記(6)の平方根同士を加算すると共に、その和で上記(4)の集計値を除することにより、当該選別キーワードの組合せ間の関連度を算出する処理と、
    を実行することを特徴とする検索システム。
  2. 上記のキーワード抽出手段が、それぞれ固有の抽出基準に基づいてキーワード候補を抽出する複数のフィルタを備え、
    各フィルタによって抽出されたキーワード候補をマッチングし、少なくとも複数のフィルタによって抽出されたキーワード候補をキーワードとして認定することを特徴とする請求項1に記載の検索システム。
  3. 上記フィルタの一つが、
    各文書中に含まれる所定の係り受け表現を探索し、当該係り受け表現の少なくとも一部をキーワード候補として選定することを特徴とする請求項2に記載の検索システム。
  4. 上記フィルタの一つが、
    各文書中に含まれる所定の区切り文字を探索し、当該区切り文字で囲まれた文字列をキーワード候補として選定することを特徴とする請求項2または3に記載の検索システム。
  5. 上記フィルタの一つが、
    (1) 各文書中に含まれる名詞を注目語として抽出し、
    (2) 各注目語の全文書中における出現頻度を算出し、
    (3) 各注目語の一つ前及び/又は一つ後の形態素に範囲を拡張し、この拡張範囲を含めた注目語の全文書中における出現頻度を算出し、
    (4) 上記(3)の処理によって算出された出現頻度が所定数以上の場合には、さらにその一つ前あるいは後の形態素に範囲を拡張し、この拡張範囲を含めた注目語の全文書中における出現頻度を算出する処理を、その出現頻度が所定数未満となるまで繰り返し、
    (5) 最初の注目語及び拡張範囲を含めた注目語の中で、所定範囲内の出現頻度を有するものをキーワード候補として選定することを特徴とする請求項2〜4の何れかに記載の検索システム。
  6. 少なくとも企業名、人物名、商品名等の固有名詞が格納された固有名詞データベースと、
    この固有名詞データベースを参照し、上記検索語に対して所定の関連度を有するキーワードのリスト中で、当該固有名詞データベースに記録された固有名詞と一致するキーワードを抽出し、そのリストを出力する手段と、
    を備えたことを特徴とする請求項1〜の何れかに記載の検索システム。
  7. 検索語及び特定のキーワードが入力された場合に、上記出現頻度データを参照し、当該検索語と共に上記キーワードが出現している文書データを特定する手段と、
    当該文書データのリストを生成し、出力する手段と、
    を備えたことを特徴とする請求項1〜の何れかに記載の検索システム。
JP2006302503A 2006-11-08 2006-11-08 検索システム Active JP4969209B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006302503A JP4969209B2 (ja) 2006-11-08 2006-11-08 検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006302503A JP4969209B2 (ja) 2006-11-08 2006-11-08 検索システム

Publications (2)

Publication Number Publication Date
JP2008117351A JP2008117351A (ja) 2008-05-22
JP4969209B2 true JP4969209B2 (ja) 2012-07-04

Family

ID=39503186

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006302503A Active JP4969209B2 (ja) 2006-11-08 2006-11-08 検索システム

Country Status (1)

Country Link
JP (1) JP4969209B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200086574A (ko) * 2019-01-09 2020-07-17 네이버 주식회사 키워드 관계 구조를 이용한 신규 키워드 추출 방법 및 시스템

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4820888B2 (ja) * 2009-05-13 2011-11-24 デジタル・アドバタイジング・コンソーシアム株式会社 広告支援システム及び広告支援方法
CN102253936B (zh) * 2010-05-18 2013-07-24 阿里巴巴集团控股有限公司 记录用户访问商品信息的方法及搜索方法和服务器
JP5436356B2 (ja) * 2010-07-05 2014-03-05 日本電信電話株式会社 期間別主題語句抽出装置及び方法及びプログラム
CN102169495B (zh) * 2011-04-11 2014-04-02 趣拿开曼群岛有限公司 行业词典生成方法及装置
CN103368986B (zh) 2012-03-27 2017-04-26 阿里巴巴集团控股有限公司 一种信息推荐方法及信息推荐装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH043253A (ja) * 1990-04-20 1992-01-08 Ricoh Co Ltd キーワード関連度表作成方法
JPH08161344A (ja) * 1994-11-30 1996-06-21 Nippon Steel Corp ファイル検索管理用のキーワードデータベースファイル作成方法および装置
JP2000200281A (ja) * 1999-01-05 2000-07-18 Matsushita Electric Ind Co Ltd 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP2002269115A (ja) * 2001-03-08 2002-09-20 Ricoh Co Ltd キーワード抽出装置およびキーワード抽出方法
JP2003162639A (ja) * 2001-11-28 2003-06-06 Fujitsu Ltd 銘柄選択支援装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200086574A (ko) * 2019-01-09 2020-07-17 네이버 주식회사 키워드 관계 구조를 이용한 신규 키워드 추출 방법 및 시스템
KR102195191B1 (ko) * 2019-01-09 2020-12-28 네이버 주식회사 키워드 관계 구조를 이용한 신규 키워드 추출 방법 및 시스템

Also Published As

Publication number Publication date
JP2008117351A (ja) 2008-05-22

Similar Documents

Publication Publication Date Title
US7814099B2 (en) Method for ranking and sorting electronic documents in a search result list based on relevance
US8346795B2 (en) System and method for guiding entity-based searching
JP5273735B2 (ja) テキスト要約方法、その装置およびプログラム
JP2009271799A (ja) 企業相関情報抽出システム
JP4969209B2 (ja) 検索システム
JP2010287020A (ja) 同義語展開システム及び同義語展開方法
JP4631795B2 (ja) 情報検索支援システム、情報検索支援方法および情報検索支援プログラム
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
JP2009122807A (ja) 連想検索システム
JP2006178599A (ja) 文書検索装置および方法
JP2009086903A (ja) 検索サービス装置
JP2010123036A (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JP5191204B2 (ja) 連想検索システム
JP2009271798A (ja) 業界マップ生成システム
JP5180894B2 (ja) 属性表現獲得方法及び装置及びプログラム
Fareed et al. Syntactic open domain Arabic question/answering system for factoid questions
JP4128209B2 (ja) キーワード抽出システム
JP4959621B2 (ja) キーワード抽出システム
EP3203384A1 (en) Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases
JP2009271796A (ja) 文書データのノイズ除去システム
JP2012104051A (ja) 文書インデックス作成装置
JP2009098931A (ja) キーワード間の関連度算出システム及び関連度算出方法
Zheng et al. An improved focused crawler based on text keyword extraction
JPH10177575A (ja) 語句抽出装置および方法、情報記憶媒体
JP7312841B2 (ja) 法律分析装置、及び法律分析方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090911

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111115

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120327

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120403

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150413

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4969209

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250