JP2011186972A - 関連語辞書作成装置、関連語辞書作成方法、プログラム、及び、文書検索システム - Google Patents

関連語辞書作成装置、関連語辞書作成方法、プログラム、及び、文書検索システム Download PDF

Info

Publication number
JP2011186972A
JP2011186972A JP2010054002A JP2010054002A JP2011186972A JP 2011186972 A JP2011186972 A JP 2011186972A JP 2010054002 A JP2010054002 A JP 2010054002A JP 2010054002 A JP2010054002 A JP 2010054002A JP 2011186972 A JP2011186972 A JP 2011186972A
Authority
JP
Japan
Prior art keywords
related word
information
document
word
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010054002A
Other languages
English (en)
Other versions
JP5636700B2 (ja
Inventor
Yasuyuki Muroi
泰幸 室井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010054002A priority Critical patent/JP5636700B2/ja
Publication of JP2011186972A publication Critical patent/JP2011186972A/ja
Application granted granted Critical
Publication of JP5636700B2 publication Critical patent/JP5636700B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】関連語辞書作成装置の処理負荷を軽減することができるとともに、ユーザの手間を軽減しながら、ユーザが有する知識を反映した高い精度を有する関連語辞書情報を生成することが可能な関連語辞書作成装置を提供すること。
【解決手段】関連語辞書作成装置100は、検索語としての単語と、文書検索システムが当該検索語に基づいて複数の文書を検索した結果として出力する文書の一覧からユーザが選択した文書を特定するための文書特定情報と、を対応付けた関連語基礎情報に基づいて、互いに関連する複数の単語からなる関連単語群を抽出する関連単語群抽出部101と、上記抽出された関連単語群に含まれる複数の単語を互いに対応付けた関連語辞書情報を生成する関連語辞書情報生成部102と、を備える。
【選択図】図7

Description

本発明は、互いに関連する複数の単語を互いに対応付けた関連語辞書情報を生成する関連語辞書作成装置に関する。
互いに関連する複数の単語を互いに対応付けた関連語辞書情報を生成する関連語辞書作成装置が知られている。この種の関連語辞書作成装置の一つとして特許文献1に記載の関連語辞書作成装置は、複数の文書を入力し、入力された文書から単語を抽出する。更に、関連語辞書作成装置は、複数の単語が所定の範囲内に共に出現する頻度を取得する。
そして、関連語辞書作成装置は、頻度に基づいて互いに関連する複数の単語からなる関連単語群を抽出する。次いで、関連語辞書作成装置は、関連単語群に含まれる複数の単語を互いに対応付けた関連語辞書情報を生成する。
更に、関連語辞書作成装置は、関連語辞書情報を更新するための情報の入力をユーザから受け付ける。関連語辞書作成装置は、受け付けた情報に基づいて関連語辞書情報を更新する。これにより、関連語辞書作成装置は、ユーザが有する知識を反映した高い精度を有する関連語辞書情報を生成する。
特開2005−250762号公報
しかしながら、上記関連語辞書作成装置においては、関連語辞書情報を生成するための関連語辞書作成装置の処理負荷が比較的大きいという問題があった。また、関連語辞書情報を更新するための情報をユーザが入力する手間が煩雑であるという問題があった。
このため、本発明の目的は、上述した課題である「関連語辞書作成装置の処理負荷が比較的大きいこと、及び、ユーザの手間が煩雑であること」を解決することが可能な関連語辞書作成装置を提供することにある。
かかる目的を達成するため本発明の一形態である関連語辞書作成装置は、
検索語としての単語と、文書検索システムが当該検索語に基づいて複数の文書を検索した結果として出力する文書の一覧からユーザが選択した文書を特定するための文書特定情報と、を対応付けた関連語基礎情報に基づいて、互いに関連する複数の単語からなる関連単語群を抽出する関連単語群抽出手段と、
上記抽出された関連単語群に含まれる複数の単語を互いに対応付けた関連語辞書情報を生成する関連語辞書情報生成手段と、
を備える。
また、本発明の他の形態である関連語辞書作成方法は、
検索語としての単語と、文書検索システムが当該検索語に基づいて複数の文書を検索した結果として出力する文書の一覧からユーザが選択した文書を特定するための文書特定情報と、を対応付けた関連語基礎情報に基づいて、互いに関連する複数の単語からなる関連単語群を抽出し、
上記抽出された関連単語群に含まれる複数の単語を互いに対応付けた関連語辞書情報を生成する方法である。
また、本発明の他の形態であるプログラムは、
情報処理装置に、
検索語としての単語と、文書検索システムが当該検索語に基づいて複数の文書を検索した結果として出力する文書の一覧からユーザが選択した文書を特定するための文書特定情報と、を対応付けた関連語基礎情報に基づいて、互いに関連する複数の単語からなる関連単語群を抽出する関連単語群抽出手段と、
上記抽出された関連単語群に含まれる複数の単語を互いに対応付けた関連語辞書情報を生成する関連語辞書情報生成手段と、
を実現させるためのプログラムである。
また、本発明の他の形態である文書検索システムは、
検索語としての単語を受け付ける検索語受付手段と、
上記受け付けた単語に基づいて、複数の文書を検索し、当該検索の結果としての文書の一覧を出力する検索結果出力手段と、
上記出力した文書の一覧からユーザが選択した文書を特定するための文書特定情報を受け付ける文書特定情報受付手段と、
上記受け付けた単語と、上記受け付けた文書特定情報と、を対応付けた関連語基礎情報を記憶する関連語基礎情報記憶手段と、
上記記憶されている関連語基礎情報に基づいて、互いに関連する複数の単語からなる関連単語群を抽出する関連単語群抽出手段と、
上記抽出された関連単語群に含まれる複数の単語を互いに対応付けた関連語辞書情報を生成する関連語辞書情報生成手段と、
を備える。
本発明は、以上のように構成されることにより、関連語辞書作成装置の処理負荷を軽減することができるとともに、ユーザの手間を軽減しながら、ユーザが有する知識を反映した高い精度を有する関連語辞書情報を生成することができる。
本発明の第1実施形態に係る文書検索システムの概略構成を表す図である。 本発明の第1実施形態に係る文書検索システムの機能の概略を表すブロック図である。 本発明の第1実施形態に係る文書検索装置が実行する文書検索処理プログラムを示したフローチャートである。 本発明の第1実施形態に係る関連語辞書作成装置が実行する関連語辞書生成処理プログラムを示したフローチャートである。 本発明の第1実施形態に係る文書検索装置が記憶している組情報を表したテーブルである。 本発明の第1実施形態に係る関連語辞書作成装置が記憶している関連語辞書情報を表したテーブルである。 本発明の第2実施形態に係る関連語辞書作成装置の機能の概略を表すブロック図である。
以下、本発明に係る、関連語辞書作成装置、関連語辞書作成方法、プログラム、及び、文書検索システム、の各実施形態について図1〜図7を参照しながら説明する。
<第1実施形態>
(構成)
図1に示したように、第1実施形態に係る文書検索システム1は、文書検索装置10と、関連語辞書作成装置20と、を含む。文書検索装置10及び関連語辞書作成装置20は、互いに通信可能に接続されている。また、文書検索装置10と、クライアント装置30と、は、IP(Internet Protocol)網を構成する通信回線NWを介して、互いに通信可能に接続されている。
文書検索装置10及び関連語辞書作成装置20のそれぞれは、情報処理装置である。文書検索装置10及び関連語辞書作成装置20のそれぞれは、図示しない中央処理装置(CPU;Central Processing Unit)、及び、記憶装置(メモリ及びハードディスク駆動装置(HDD;Hard Disk Drive))を備える。
文書検索装置10及び関連語辞書作成装置20のそれぞれは、記憶装置に記憶されているプログラムをCPUが実行することにより、後述する機能を実現するように構成されている。
クライアント装置30は、パーソナル・コンピュータである。なお、クライアント装置30は、携帯電話端末、PHS(Personal Handyphone System)、PDA(Personal Data Assistance、Personal Digital Assistant)、カーナビゲーション端末、又は、ゲーム端末等であってもよい。クライアント装置30は、図示しないCPU、記憶装置(メモリ及びハードディスク駆動装置(HDD;Hard Disk Drive))、入力装置(本例では、キーボード及びマウス等)及び出力装置(本例では、ディスプレイ等)を備える。
クライアント装置30は、記憶装置に記憶されているプログラムをCPUが実行することにより、後述する機能を実現するように構成されている。
(機能)
図2は、上記のように構成された、文書検索システム1の機能と、クライアント装置30の機能と、を表すブロック図である。この機能の少なくとも一部は、文書検索装置10のCPUが後述する図3に示したフローチャートにより表されるプログラムを実行するとともに、関連語辞書作成装置20のCPUが後述する図4に示したフローチャートにより表されるプログラムを実行することにより、実現される。
文書検索装置10の機能は、検索語受付部(検索語受付手段)11と、文書情報記憶部(文書情報記憶手段)12と、検索結果出力部(検索結果出力手段)13と、文書特定情報受付部(文書特定情報受付手段)14と、関連語基礎情報記憶部(関連語基礎情報記憶手段)15と、を含む。
関連語辞書作成装置20の機能は、関連単語群抽出部(関連単語群抽出手段)21と、関連語辞書情報生成部(関連語辞書情報生成手段)22と、関連語辞書情報記憶部(関連語辞書情報記憶手段)23と、を含む。
クライアント装置30の機能は、検索語送信部(検索語送信手段)31と、検索結果受信部(検索結果受信手段)32と、文書特定情報送信部(文書特定情報送信手段)33と、を含む。
クライアント装置30の検索語送信部31は、クライアント装置30のユーザにより入力装置を介して入力された検索語としての単語(を表す情報)を受け付ける。検索語送信部31は、検索語を受け付けると、受け付けた検索語を含む文書検索処理要求を文書検索装置10へ送信する。文書検索処理要求は、当該検索語に基づいて複数の文書を検索する文書検索処理を実行する旨を要求する情報である。
文書検索装置10の検索語受付部11は、クライアント装置30から文書検索処理要求を受信する(受け付ける)。
文書検索装置10の文書情報記憶部12は、複数の文書を予め記憶している。本例では、文書情報記憶部12が記憶する複数の文書は、IP網を介して接続されたウェブサーバから取得され、且つ、HTML(HyperText Markup Language)に従って記述された文書である。なお、文書情報記憶部12が記憶する文書は、他の形式(例えば、文書を作成するアプリケーションプログラムによって定められた形式)に従った文書であってもよい。
文書検索装置10の検索結果出力部13は、検索語受付部11により文書検索処理要求が受け付けられた場合、当該文書検索処理要求に含まれる検索語(単語)に基づいて、文書情報記憶部12に記憶されている複数の文書を検索する文書検索処理を実行する。本例では、文書検索処理は、検索語を含む文書を抽出する処理である。
検索結果出力部13は、文書情報記憶部12が複数の文書を検索した結果(即ち、文書検索処理の実行結果)としての文書の一覧を取得する。本例では、検索結果出力部13は、検索語を含む文書の一覧を取得する。
そして、検索結果出力部13は、取得された文書の一覧を表す検索結果情報をクライアント装置30へ送信する。検索結果情報は、文書の一覧に含まれる各文書を特定するための文書特定情報を含む。
本例では、文書特定情報は、URI(Uniform Resource Identifier)を表す情報である。なお、文書特定情報は、ファイルシステムにおけるファイル名を表す情報であってもよい。
クライアント装置30の検索結果受信部32は、文書検索装置10から検索結果情報を受信する。検索結果受信部32は、検索結果情報を受信した場合、当該検索結果情報が表す文書の一覧を、出力装置を介して出力する(本例では、ディスプレイに表示させる)。
クライアント装置30の文書特定情報送信部33は、クライアント装置30のユーザにより入力装置を介して入力された情報であり、且つ、出力している文書の一覧から当該ユーザにより選択された文書を特定するための情報である文書特定情報を受け付ける。文書特定情報送信部33は、文書特定情報を受け付けた場合、当該文書特定情報を文書検索装置10へ送信する。
文書検索装置10の文書特定情報受付部14は、クライアント装置30から文書特定情報を受信する(受け付ける)。
文書検索装置10の関連語基礎情報記憶部15は、文書特定情報受付部14により文書特定情報が受け付けられた場合、当該受け付けられた文書特定情報と、検索語受付部11により受け付けられた検索語(単語)であり且つ当該文書特定情報の基となった検索語と、の組からなる組情報を新たに記憶する(蓄積する)。なお、関連語基礎情報記憶部15が記憶している組情報は、単語と文書特定情報とを対応付けた関連語基礎情報を構成している。
図5は、関連語基礎情報記憶部15が記憶している組情報を表したテーブルである。1つの組情報は、1つの単語(「AAA」、又は、「BBB」等)と、1つの文書特定情報(「URI#1」、又は、「URI#2」等)と、からなる。
関連語辞書作成装置20の関連単語群抽出部21は、予め設定された生成周期が経過する毎に、関連語基礎情報記憶部15に記憶されている関連語基礎情報を文書検索装置10から取得(受信)する。
関連単語群抽出部21は、取得された関連語基礎情報に基づいて、互いに関連する複数の単語からなる関連単語群を抽出する。例えば、互いに関連する複数の単語(関連単語群)は、同義語、反義語、類義語、広義語、又は、狭義語等である。
具体的には、関連単語群抽出部21は、取得された組情報のうちの、同一の組情報が予め設定された閾値数(例えば、5個)よりも多く存在する組情報を特定する。関連単語群抽出部21は、特定された組情報のうちの、同一の文書特定情報を含む組情報に含まれる単語(即ち、同一の文書特定情報と対応付けられた単語)を、1つの関連単語群として抽出する。
関連語辞書作成装置20の関連語辞書情報生成部22は、関連単語群抽出部21により関連単語群が抽出された場合に、当該関連単語群に含まれる複数の単語を互いに対応付けた関連語辞書情報を生成する。
関連語辞書作成装置20の関連語辞書情報記憶部23は、関連語辞書情報生成部22により生成された関連語辞書情報を記憶する。
図6は、関連語辞書情報記憶部23が記憶している関連語辞書情報を表したテーブルである。関連語辞書情報は、各関連単語群を構成する複数の単語(「AAA」、及び、「CCC」等)を互いに対応付けた情報である。
(作動)
次に、上述した文書検索システム1の作動について説明する。
文書検索装置10のCPUは、図3にフローチャートにより示した文書検索処理プログラムを、文書検索装置10の起動時に実行するようになっている。
具体的に述べると、文書検索装置10は、文書検索処理プログラムの処理を開始すると、ステップ101にて、文書検索処理要求を受け付けるまで待機する。
いま、クライアント装置30のユーザが検索語を入力した場合を想定して説明を続ける。この場合、クライアント装置30は、当該検索語を含む文書検索処理要求を文書検索装置10へ送信する。
従って、文書検索装置10は、文書検索処理要求を受け付け、「Yes」と判定してステップS102へ進み、文書検索処理を実行する。即ち、文書検索装置10は、文書検索処理要求に含まれる検索語に基づいて、複数の文書を検索した結果(即ち、文書検索処理の実行結果)としての文書の一覧を取得する。
そして、文書検索装置10は、取得された文書の一覧を表す検索結果情報をクライアント装置30へ送信する(ステップS102)。検索結果情報は、文書の一覧に含まれる各文書を特定するための文書特定情報を含む。
その後、文書検索装置10は、クライアント装置30から文書特定情報を受け付けるまで待機する(ステップS103)。
ところで、クライアント装置30は、文書検索装置10から検索結果情報を受信し、当該検索結果情報が表す文書の一覧を、出力装置を介して出力する(本例では、ディスプレイに表示させる)。
いま、クライアント装置30のユーザが、出力されている文書の一覧から1つの文書を選択し、選択した文書を特定するための文書特定情報を入力した場合を想定して説明を続ける。この場合、クライアント装置30は、入力された文書特定情報を受け付け、当該文書特定情報を文書検索装置10へ送信する。
従って、文書検索装置10は、文書特定情報を受け付け、「Yes」と判定してステップS104へ進み、当該文書特定情報と、上記ステップS101にて受け付けた検索語(単語)と、の組からなる組情報を、記憶装置に新たに記憶させる(蓄積する)。
その後、文書検索装置10は、ステップS101へ戻り、ステップS101〜ステップS104の処理を繰り返し実行する。
一方、関連語辞書作成装置20のCPUは、図4にフローチャートにより示した関連語辞書生成処理プログラムを、予め設定された生成周期が経過する毎に実行するようになっている。
具体的に述べると、関連語辞書作成装置20は、関連語辞書生成処理プログラムの処理を開始すると、ステップ201にて、文書検索装置10に記憶されている関連語基礎情報としての組情報のリスト(全リスト)を文書検索装置10から取得(受信)する。
そして、関連語辞書作成装置20は、取得した組情報のリストを複製し、複製したリストをループ用リストとして取得する。次に、関連語辞書作成装置20は、取得されたループ用リスト内に組情報が1つ以上存在しているか否かを判定する(ステップS202)。
いま、取得されたループ用リスト内に組情報が1つ以上存在している場合を想定して説明を続ける。
この場合、関連語辞書作成装置20は、「Yes」と判定してステップS203へ進み、上記ループ用リストから組情報を1つ取得するとともに、取得した組情報をループ用リストから削除する。そして、関連語辞書作成装置20は、上記全リストに含まれる組情報のうちの、当該取得した組情報と同一の組情報の数(同一組情報数)が、予め設定された閾値数(例えば、5個)よりも多いか否かを判定する(ステップS204)。
同一組情報数が閾値数よりも多い場合、関連語辞書作成装置20は、「Yes」と判定してステップS205へ進み、上記取得された組情報を抽出対象リストに追加する。その後、関連語辞書作成装置20は、ステップS202へ戻り、ループ用リスト内に組情報が存在しなくなるまで、ステップS202〜ステップS205の処理を繰り返し実行する。
なお、同一組情報数が閾値数以下である場合、関連語辞書作成装置20は、ステップS204にて「No」と判定して、関連単語群を抽出することなくステップS202へ戻る。
その後、ループ用リスト内に組情報が存在しなくなると、関連語辞書作成装置20は、ステップS202にて「No」と判定してステップS206へ進み、抽出対象リスト内に組情報が1つ以上存在しているか否かを判定する。
いま、抽出対象リスト内に組情報が1つ以上存在している場合を想定して説明を続ける。
この場合、関連語辞書作成装置20は、「Yes」と判定してステップS207へ進み、上記抽出対象リストから組情報を1つ取得するとともに、取得した組情報を抽出対象リストから削除する。
次いで、関連語辞書作成装置20は、上記全リストに含まれる組情報のうちの、上記取得された組情報と同一の文書特定情報を含む組情報を抽出する。そして、関連語辞書作成装置20は、抽出された組情報に含まれる単語(即ち、同一の文書特定情報と対応付けられた単語)を、1つの関連単語群として抽出する(ステップS208)。
その後、関連語辞書作成装置20は、ステップS209にて、抽出された関連単語群に含まれる複数の単語を互いに対応付けて記憶装置に新たに記憶させる(蓄積する)。このようにして、関連語辞書作成装置20は、関連語辞書情報を生成し、生成した関連語辞書情報を記憶装置に記憶させる。
その後、関連語辞書作成装置20は、ステップS206へ戻り、抽出対象リスト内に組情報が存在しなくなるまで、ステップS206〜ステップS209の処理を繰り返し実行する。
その後、抽出対象リスト内に組情報が存在しなくなると、関連語辞書作成装置20は、ステップS206にて「No」と判定して、関連語辞書生成処理プログラムの処理を終了する。
以上、説明したように、本発明の第1実施形態に係る関連語辞書作成装置20によれば、関連語辞書作成装置20の処理負荷を軽減することができる。更に、上記構成によれば、ユーザの手間を軽減しながら、ユーザが有する知識を反映した高い精度を有する関連語辞書情報を生成することができる。
更に、第1実施形態に係る関連語辞書作成装置20は、同一の組情報が予め設定された閾値数よりも多く存在する場合に、当該組情報に含まれる単語を関連単語群として抽出する。
これによれば、文書検索装置10が受け付けた単語及び文書特定情報の統計的なばらつきが関連語辞書情報に及ぼす影響を低減することができる。即ち、より一層高い精度を有する関連語辞書情報を生成することができる。
なお、第1実施形態の変形例に係る文書検索システム1において、文書検索装置10は、文書検索処理要求を受け付けた場合に、当該文書検索処理要求に含まれる検索語と関連する関連単語群(即ち、生成された関連語辞書情報にて当該検索語と対応付けられた単語である関連語)を関連語辞書作成装置20から取得(受信)するように構成されていてもよい。この場合、文書検索装置10は、受け付けた検索語と、取得された関連語と、に基づいて、複数の文書を検索する文書検索処理を実行するように構成されることが好適である。
この変形例によれば、文書検索装置10は、検索語と関連する関連語にも基づいて文書を検索した結果を出力することができる。この結果、ユーザが探していた情報を取得することができる可能性をより一層高めることができる。
<第2実施形態>
次に、本発明の第2実施形態に係る関連語辞書作成装置について図7を参照しながら説明する。
第2実施形態に係る関連語辞書作成装置100は、
検索語としての単語と、文書検索システムが当該検索語に基づいて複数の文書を検索した結果として出力する文書の一覧からユーザが選択した文書を特定するための文書特定情報と、を対応付けた関連語基礎情報に基づいて、互いに関連する複数の単語からなる関連単語群を抽出する関連単語群抽出部(関連単語群抽出手段)101と、
上記抽出された関連単語群に含まれる複数の単語を互いに対応付けた関連語辞書情報を生成する関連語辞書情報生成部(関連語辞書情報生成手段)102と、
を備える。
これによれば、関連語辞書作成装置100の処理負荷を軽減することができる。更に、上記構成によれば、ユーザの手間を軽減しながら、ユーザが有する知識を反映した高い精度を有する関連語辞書情報を生成することができる。
以上、上記実施形態を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成及び詳細に、本願発明の範囲内において当業者が理解し得る様々な変更をすることができる。
例えば、文書検索装置10及び関連語辞書作成装置20は、1つの情報処理装置を構成していてもよい。また、文書検索装置10、及び/又は、関連語辞書作成装置20は、複数の情報処理装置により構成されていてもよい。
なお、上記実施形態において文書検索システム1の各機能は、CPUがプログラム(ソフトウェア)を実行することにより実現されていたが、回路等のハードウェアにより実現されていてもよい。
また、上記実施形態においてプログラムは、記憶装置に記憶されていたが、コンピュータが読み取り可能な記録媒体に記憶されていてもよい。例えば、記録媒体は、フレキシブルディスク、光ディスク、光磁気ディスク、及び、半導体メモリ等の可搬性を有する媒体である。
また、上記実施形態の他の変形例として、上述した実施形態及び変形例の任意の組み合わせが採用されてもよい。
<付記>
上記実施形態の一部又は全部は、以下の付記のように記載され得るが、以下には限られない。
(付記1)
検索語としての単語と、文書検索システムが当該検索語に基づいて複数の文書を検索した結果として出力する文書の一覧からユーザが選択した文書を特定するための文書特定情報と、を対応付けた関連語基礎情報に基づいて、互いに関連する複数の単語からなる関連単語群を抽出する関連単語群抽出手段と、
前記抽出された関連単語群に含まれる複数の単語を互いに対応付けた関連語辞書情報を生成する関連語辞書情報生成手段と、
を備える関連語辞書作成装置。
これによれば、関連語辞書作成装置の処理負荷を軽減することができる。更に、上記構成によれば、ユーザの手間を軽減しながら、ユーザが有する知識を反映した高い精度を有する関連語辞書情報を生成することができる。
(付記2)
付記1に記載の関連語辞書作成装置であって、
前記関連単語群抽出手段は、同一の文書特定情報と対応付けられた前記単語を前記関連単語群として抽出するように構成された関連語辞書作成装置。
(付記3)
付記1又は付記2に記載の関連語辞書作成装置であって、
前記関連語基礎情報は、前記文書検索システムが、前記単語と、当該単語に基づく前記文書特定情報と、を受け付ける毎に蓄積した、当該単語及び当該文書特定情報の組からなる組情報を含み、
前記関連単語群抽出手段は、同一の組情報が予め設定された閾値数よりも多く存在する場合に、当該組情報に含まれる前記単語を前記関連単語群として抽出するように構成された関連語辞書作成装置。
これによれば、文書検索システムが受け付けた単語及び文書特定情報の統計的なばらつきが関連語辞書情報に及ぼす影響を低減することができる。即ち、より一層高い精度を有する関連語辞書情報を生成することができる。
(付記4)
付記1乃至付記3のいずれか一項に記載の関連語辞書作成装置であって、
前記文書特定情報は、URI(Uniform Resource Identifier)を表す情報である関連語辞書作成装置。
(付記5)
付記1乃至付記3のいずれか一項に記載の関連語辞書作成装置であって、
前記文書特定情報は、ファイルシステムにおけるファイル名を表す情報である関連語辞書作成装置。
(付記6)
検索語としての単語と、文書検索システムが当該検索語に基づいて複数の文書を検索した結果として出力する文書の一覧からユーザが選択した文書を特定するための文書特定情報と、を対応付けた関連語基礎情報に基づいて、互いに関連する複数の単語からなる関連単語群を抽出し、
前記抽出された関連単語群に含まれる複数の単語を互いに対応付けた関連語辞書情報を生成する、関連語辞書作成方法。
(付記7)
付記6に記載の関連語辞書作成方法であって、
同一の文書特定情報と対応付けられた前記単語を前記関連単語群として抽出する、関連語辞書作成方法。
(付記8)
付記6又は付記7に記載の関連語辞書作成方法であって、
前記関連語基礎情報は、前記文書検索システムが、前記単語と、当該単語に基づく前記文書特定情報と、を受け付ける毎に蓄積した、当該単語及び当該文書特定情報の組からなる組情報を含み、
同一の組情報が予め設定された閾値数よりも多く存在する場合に、当該組情報に含まれる前記単語を前記関連単語群として抽出する、関連語辞書作成方法。
(付記9)
情報処理装置に、
検索語としての単語と、文書検索システムが当該検索語に基づいて複数の文書を検索した結果として出力する文書の一覧からユーザが選択した文書を特定するための文書特定情報と、を対応付けた関連語基礎情報に基づいて、互いに関連する複数の単語からなる関連単語群を抽出する関連単語群抽出手段と、
前記抽出された関連単語群に含まれる複数の単語を互いに対応付けた関連語辞書情報を生成する関連語辞書情報生成手段と、
を実現させるためのプログラム。
(付記10)
付記9に記載のプログラムであって、
前記関連単語群抽出手段は、同一の文書特定情報と対応付けられた前記単語を前記関連単語群として抽出するように構成されたプログラム。
(付記11)
付記9又は付記10に記載のプログラムであって、
前記関連語基礎情報は、前記文書検索システムが、前記単語と、当該単語に基づく前記文書特定情報と、を受け付ける毎に蓄積した、当該単語及び当該文書特定情報の組からなる組情報を含み、
前記関連単語群抽出手段は、同一の組情報が予め設定された閾値数よりも多く存在する場合に、当該組情報に含まれる前記単語を前記関連単語群として抽出するように構成されたプログラム。
(付記12)
検索語としての単語を受け付ける検索語受付手段と、
前記受け付けた単語に基づいて、複数の文書を検索し、当該検索の結果としての文書の一覧を出力する検索結果出力手段と、
前記出力した文書の一覧からユーザが選択した文書を特定するための文書特定情報を受け付ける文書特定情報受付手段と、
前記受け付けた単語と、前記受け付けた文書特定情報と、を対応付けた関連語基礎情報を記憶する関連語基礎情報記憶手段と、
前記記憶されている関連語基礎情報に基づいて、互いに関連する複数の単語からなる関連単語群を抽出する関連単語群抽出手段と、
前記抽出された関連単語群に含まれる複数の単語を互いに対応付けた関連語辞書情報を生成する関連語辞書情報生成手段と、
を備える文書検索システム。
(付記13)
付記12に記載の文書検索システムであって、
前記関連単語群抽出手段は、同一の文書特定情報と対応付けられた前記単語を前記関連単語群として抽出するように構成された文書検索システム。
(付記14)
付記12又は付記13に記載の文書検索システムであって、
前記単語と、当該単語に基づく前記文書特定情報と、が受け付けられる毎に、当該単語及び当該文書特定情報の組からなる組情報を前記関連語基礎情報記憶手段に蓄積するように構成され、
前記関連単語群抽出手段は、同一の組情報が予め設定された閾値数よりも多く存在する場合に、当該組情報に含まれる前記単語を前記関連単語群として抽出するように構成された文書検索システム。
(付記15)
付記12乃至付記14のいずれか一項に記載の文書検索システムであって、
前記検索結果出力手段は、前記受け付けた単語と、前記生成された関連語辞書情報にて当該単語と対応付けられた単語である関連語と、に基づいて、前記複数の文書を検索するように構成された文書検索システム。
本発明は、互いに関連する複数の単語を互いに対応付けた関連語辞書情報を生成する関連語辞書作成装置、及び、検索語に基づいて複数の文書を検索する文書検索装置等に適用可能である。
1 文書検索システム
10 文書検索装置
11 検索語受付部
12 文書情報記憶部
13 検索結果出力部
14 文書特定情報受付部
15 関連語基礎情報記憶部
20 関連語辞書作成装置
21 関連単語群抽出部
22 関連語辞書情報生成部
23 関連語辞書情報記憶部
30 クライアント装置
31 検索語送信部
32 検索結果受信部
33 文書特定情報送信部
100 関連語辞書作成装置
101 関連単語群抽出部
102 関連語辞書情報生成部
NW 通信回線

Claims (10)

  1. 検索語としての単語と、文書検索システムが当該検索語に基づいて複数の文書を検索した結果として出力する文書の一覧からユーザが選択した文書を特定するための文書特定情報と、を対応付けた関連語基礎情報に基づいて、互いに関連する複数の単語からなる関連単語群を抽出する関連単語群抽出手段と、
    前記抽出された関連単語群に含まれる複数の単語を互いに対応付けた関連語辞書情報を生成する関連語辞書情報生成手段と、
    を備える関連語辞書作成装置。
  2. 請求項1に記載の関連語辞書作成装置であって、
    前記関連単語群抽出手段は、同一の文書特定情報と対応付けられた前記単語を前記関連単語群として抽出するように構成された関連語辞書作成装置。
  3. 請求項1又は請求項2に記載の関連語辞書作成装置であって、
    前記関連語基礎情報は、前記文書検索システムが、前記単語と、当該単語に基づく前記文書特定情報と、を受け付ける毎に蓄積した、当該単語及び当該文書特定情報の組からなる組情報を含み、
    前記関連単語群抽出手段は、同一の組情報が予め設定された閾値数よりも多く存在する場合に、当該組情報に含まれる前記単語を前記関連単語群として抽出するように構成された関連語辞書作成装置。
  4. 請求項1乃至請求項3のいずれか一項に記載の関連語辞書作成装置であって、
    前記文書特定情報は、URI(Uniform Resource Identifier)を表す情報である関連語辞書作成装置。
  5. 請求項1乃至請求項3のいずれか一項に記載の関連語辞書作成装置であって、
    前記文書特定情報は、ファイルシステムにおけるファイル名を表す情報である関連語辞書作成装置。
  6. 検索語としての単語と、文書検索システムが当該検索語に基づいて複数の文書を検索した結果として出力する文書の一覧からユーザが選択した文書を特定するための文書特定情報と、を対応付けた関連語基礎情報に基づいて、互いに関連する複数の単語からなる関連単語群を抽出し、
    前記抽出された関連単語群に含まれる複数の単語を互いに対応付けた関連語辞書情報を生成する、関連語辞書作成方法。
  7. 請求項6に記載の関連語辞書作成方法であって、
    同一の文書特定情報と対応付けられた前記単語を前記関連単語群として抽出する、関連語辞書作成方法。
  8. 情報処理装置に、
    検索語としての単語と、文書検索システムが当該検索語に基づいて複数の文書を検索した結果として出力する文書の一覧からユーザが選択した文書を特定するための文書特定情報と、を対応付けた関連語基礎情報に基づいて、互いに関連する複数の単語からなる関連単語群を抽出する関連単語群抽出手段と、
    前記抽出された関連単語群に含まれる複数の単語を互いに対応付けた関連語辞書情報を生成する関連語辞書情報生成手段と、
    を実現させるためのプログラム。
  9. 検索語としての単語を受け付ける検索語受付手段と、
    前記受け付けた単語に基づいて、複数の文書を検索し、当該検索の結果としての文書の一覧を出力する検索結果出力手段と、
    前記出力した文書の一覧からユーザが選択した文書を特定するための文書特定情報を受け付ける文書特定情報受付手段と、
    前記受け付けた単語と、前記受け付けた文書特定情報と、を対応付けた関連語基礎情報を記憶する関連語基礎情報記憶手段と、
    前記記憶されている関連語基礎情報に基づいて、互いに関連する複数の単語からなる関連単語群を抽出する関連単語群抽出手段と、
    前記抽出された関連単語群に含まれる複数の単語を互いに対応付けた関連語辞書情報を生成する関連語辞書情報生成手段と、
    を備える文書検索システム。
  10. 請求項9に記載の文書検索システムであって、
    前記検索結果出力手段は、前記受け付けた単語と、前記生成された関連語辞書情報にて当該単語と対応付けられた単語である関連語と、に基づいて、前記複数の文書を検索するように構成された文書検索システム。
JP2010054002A 2010-03-11 2010-03-11 関連語辞書作成装置、関連語辞書作成方法、プログラム、及び、文書検索システム Expired - Fee Related JP5636700B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010054002A JP5636700B2 (ja) 2010-03-11 2010-03-11 関連語辞書作成装置、関連語辞書作成方法、プログラム、及び、文書検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010054002A JP5636700B2 (ja) 2010-03-11 2010-03-11 関連語辞書作成装置、関連語辞書作成方法、プログラム、及び、文書検索システム

Publications (2)

Publication Number Publication Date
JP2011186972A true JP2011186972A (ja) 2011-09-22
JP5636700B2 JP5636700B2 (ja) 2014-12-10

Family

ID=44793126

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010054002A Expired - Fee Related JP5636700B2 (ja) 2010-03-11 2010-03-11 関連語辞書作成装置、関連語辞書作成方法、プログラム、及び、文書検索システム

Country Status (1)

Country Link
JP (1) JP5636700B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020160514A (ja) * 2019-03-25 2020-10-01 カシオ計算機株式会社 検索装置、辞書作成プログラム、辞書データ作成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005309998A (ja) * 2004-04-23 2005-11-04 Fujitsu Ltd コンテンツナビゲーションプログラム、コンテンツナビゲーション方法及びコンテンツナビゲーション装置
JP2008176746A (ja) * 2007-01-22 2008-07-31 Yafoo Japan Corp ページ移動操作の履歴情報に基づいてWebページへの参照元のWebページに関する情報を推薦する方法及びサーバ
JP2008242622A (ja) * 2007-03-26 2008-10-09 Fujitsu Ltd 検索候補語句提示装置、検索候補語句提示プログラムおよび検索候補語句提示方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005309998A (ja) * 2004-04-23 2005-11-04 Fujitsu Ltd コンテンツナビゲーションプログラム、コンテンツナビゲーション方法及びコンテンツナビゲーション装置
JP2008176746A (ja) * 2007-01-22 2008-07-31 Yafoo Japan Corp ページ移動操作の履歴情報に基づいてWebページへの参照元のWebページに関する情報を推薦する方法及びサーバ
JP2008242622A (ja) * 2007-03-26 2008-10-09 Fujitsu Ltd 検索候補語句提示装置、検索候補語句提示プログラムおよび検索候補語句提示方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020160514A (ja) * 2019-03-25 2020-10-01 カシオ計算機株式会社 検索装置、辞書作成プログラム、辞書データ作成方法
JP7443667B2 (ja) 2019-03-25 2024-03-06 カシオ計算機株式会社 検索装置、辞書検索プログラム、辞書検索方法

Also Published As

Publication number Publication date
JP5636700B2 (ja) 2014-12-10

Similar Documents

Publication Publication Date Title
KR102133951B1 (ko) 짧은 링크 처리 방법, 디바이스, 및 서버
JP6105094B2 (ja) アプリケーションへの状態リンクを含む検索結果の生成
JP5742506B2 (ja) 文書類似度算出装置
CN109815261B (zh) 全局搜索功能实现及数据实时同步方法、装置及电子设备
KR20120045017A (ko) 분산형 네트워크에서 다중 키워드 문의들을 효율적으로 프로세싱하기 위한 방법 및 장치
US20140286333A1 (en) Method and system for local calling via webpage
WO2013074514A1 (en) Providing a client interface for a server-based web application programming interface
CN113268955A (zh) 报文转换的方法和装置
CN102882988A (zh) 一种获得资源信息的地址信息的方法、装置及设备
CN113761565B (zh) 数据脱敏方法和装置
CN111797334B (zh) 一种网址访问方法、装置、电子设备及存储介质
US8738801B2 (en) Methods and apparatus for updating index information while adding and updating documents in a distributed network
JP5636700B2 (ja) 関連語辞書作成装置、関連語辞書作成方法、プログラム、及び、文書検索システム
JP2013054602A (ja) グラフパターンマッチングシステムおよびグラフパターンマッチング方法
JP5747128B2 (ja) マイクロブログベースのドキュメントファイルの共有の方法及び装置
JP2013214159A (ja) ログ管理方法、ログ管理システムおよび情報処理装置
JP5644558B2 (ja) 文書関連度算出装置
JP2011170813A (ja) Webサービス記憶プログラム、および、Webサービス記憶装置
CN106933826B (zh) 数据预处理方法及装置
US8381172B2 (en) Method, apparatus, mobile terminal and computer program product for employing a form engine as a script engine
JP5856905B2 (ja) 主題抽出装置およびそのプログラム
JP5640578B2 (ja) 文書処理装置、文書処理方法、及び、プログラム
JP2011248819A (ja) コンテンツ管理システム、コンテンツ管理方法、情報処理装置、及び、プログラム
JP5673051B2 (ja) 文書特徴量算出装置、文書特徴量算出方法、及び、文書特徴量算出プログラム
US20100153970A1 (en) Method, apparatus and computer program product for providing multi-dimensional manipulations to context models

Legal Events

Date Code Title Description
RD07 Notification of extinguishment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7427

Effective date: 20120717

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131105

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131216

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140430

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140730

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20140807

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140924

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141007

LAPS Cancellation because of no payment of annual fees