JP2004151855A - 電子文書検索システム - Google Patents
電子文書検索システム Download PDFInfo
- Publication number
- JP2004151855A JP2004151855A JP2002314614A JP2002314614A JP2004151855A JP 2004151855 A JP2004151855 A JP 2004151855A JP 2002314614 A JP2002314614 A JP 2002314614A JP 2002314614 A JP2002314614 A JP 2002314614A JP 2004151855 A JP2004151855 A JP 2004151855A
- Authority
- JP
- Japan
- Prior art keywords
- electronic document
- date
- search
- information
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】ネットワーク上で公開された電子文書に関し、公開日について日付範囲を指定した検索処理を可能とする情報検索システムを提供する。
【解決手段】情報収集部110は、ネットワーク140上でサーバ150により公開されている電子文書151を収集し、更新のされた電子文書151のコピー152と電子文書151についての公開期間とを記憶部130に格納する電子文書収集部111と、格納したコピー152から抽出した日付文字列等を記憶部130に格納する文書情報抽出部112とを備える。情報検索部120は、ユーザ端末160の入出力部161により入力された検索条件を解析する検索条件解析部121と、解析された検索条件に基づき指定された日付範囲と前記公開期間又は日付文字列とを比較することにより、公開日に基づく検索処理を行う公開情報検索部122と、検索処理結果を公開度に基づき並べ替えて表示する検索結果編集部123とを備える。
【選択図】 図1
【解決手段】情報収集部110は、ネットワーク140上でサーバ150により公開されている電子文書151を収集し、更新のされた電子文書151のコピー152と電子文書151についての公開期間とを記憶部130に格納する電子文書収集部111と、格納したコピー152から抽出した日付文字列等を記憶部130に格納する文書情報抽出部112とを備える。情報検索部120は、ユーザ端末160の入出力部161により入力された検索条件を解析する検索条件解析部121と、解析された検索条件に基づき指定された日付範囲と前記公開期間又は日付文字列とを比較することにより、公開日に基づく検索処理を行う公開情報検索部122と、検索処理結果を公開度に基づき並べ替えて表示する検索結果編集部123とを備える。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、ネットワーク上における電子文書の検索システムに関し、特に電子文書の公開日に基づく検索を可能とするシステムに関する。
【0002】
【従来の技術】
従来より、インターネットやイントラネット等のネットワーク上に公開された電子文書について、ユーザに入力されたキーワード又はキーワードを連結した検索式に基づき検索処理を行う検索エンジンを備えた電子文書検索システムが用いられている。例えば、ユーザにより入力されたキーワード又は検索式に基づき、キーワード対電子文書IDインデックスを検索して電子文書を取得する検索エンジンを備え、当該検索エンジンの取得した電子文書からキーワードを抽出して、キーワードの含まれる個数順にソートして表示する手段を備えたシステム(例えば、特許文献1参照。)や、前記検索エンジンの取得した電子文書について、予め設定されたキーワードを含む文字列を抽出し、抄録を作成して保存する手段と、前記電子文書を前記抄録に関連付けて表示可能なように改変する手段とを備えたシステム(例えば、特許文献2参照。)が公知となっている。
【0003】
【特許文献1】
特開平08−190564号公報(第5−6頁、図2−3)
【特許文献2】
特開平10−222520号公報(第5−11頁、図1−2,15−16)
【0004】
【発明が解決しようとする課題】
しかし、前記特許文献1,2のシステムで用いられる検索エンジンはキーワード又は検索式に基づく検索処理を可能とするが、電子文書の公開日を指定した検索処理については考慮されていなかった。前記検索エンジンとしては、各電子文書に関する日付として取得可能な最終更新日の情報に基づき検索処理を行うシステムも用いられているが、最終更新日は電子文書が格納されているサーバの保持する時計に依存することや、容易に改変が可能であることから、電子文書の公開日を示す情報としては信頼性が低いという問題があった。また、ネットワーク上で公開される電子文書は一意のアドレス(又はURL)によって指定されるが、同一のアドレスに存在する電子文書が更新された場合には、更新前の電子文書を取得する手段や、公開されていた期間を示す情報を取得する手段が無いため、公開日に基づき更新前の電子文書の検索処理を行うことができなかった。
また、新聞記事等、電子文書内の日付文字列として公開された日付が含まれている場合には、キーワードとして検索することも考えられるが、電子文書内では、「平成YY年MM月DD日」,「YYYY年MM月DD日」,「YYYY/MM/DD」等、様々な形式で日付が表記されるため、前記各システムではキーワードとして入力された日付文字列の形式と電子文書内の日付文字列の形式とが異なる場合、同一の日付であるか否かを判断することができなかった。また、キーワード検索の場合には、日付範囲を指定した検索を行うこともできなかった。
【0005】
本発明は前記課題を解決するためのものであり、ネットワーク上で公開された電子文書に関し、公開日について日付範囲を指定した検索処理を可能とする情報検索システムを提供することを目的とする。
【0006】
【課題を解決するための手段】
前記課題を解決するため本発明は、ネットワーク上に公開された電子文書の検索を行うシステムであって、定期的にネットワークを巡回して、予め登録されたアドレスに公開されている電子文書を収集して前記アドレス毎に公開された電子文書の更新の有無を判定し、各更新毎に電子文書のコピーを生成するとともに更新された電子文書の公開日を取得し、前記コピーと前記電子文書の公開日とを関連付けて記憶部に格納する情報収集手段と、ユーザにより指定された日付範囲に基づき、前記電子文書格納手段に格納された前記電子文書の公開日を検索し、前記日付範囲に含まれる公開日に関連付けられた前記コピーを検索結果として取得する情報検索手段とを備えることを特徴とする。
また、前記情報収集手段は、前記各更新毎の公開開始時期から公開終了時期までの期間を前記公開日として取得する手段をさらに備えたことを特徴とする。
また、前記情報収集手段は、前記電子文書について生成したコピーから日付文字列を抽出する手段を備え、前記日付文字列の示す日付を前記公開日として取得し所定の形式で記憶部に格納する手段をさらに備えたことを特徴とする。
【0007】
【発明の実施の形態】
以下、本発明の実施の形態について図面に基づき説明する。
図1は、本発明の一実施の形態に係る電子文書検索システムの概略構成を示すブロック図である。
本実施の形態に係る電子文書検索システムを構成する情報検索装置100は、ネットワーク上における電子文書の公開期間又は電子文書の記事等に含まれる日付文字列を公開日として各電子文書のコピーに関連付けて格納し、ユーザの指定した公開日に基づく電子文書の検索を可能とする。
情報検索装置100は、情報収集部110と、情報検索部120と、記憶部130とから構成され、ネットワーク140を介して、サーバ150及びユーザ端末160に接続されている。サーバ150は、電子文書151をネットワーク上に公開されている。ユーザ端末160には、入出力部161としてブラウザが備えられている。
情報収集部110は、ネットワーク140上でサーバ150により公開されている電子文書151を収集し、更新のされた電子文書151のコピー152と電子文書151についての公開期間の格納を行う電子文書収集部111と、格納したコピー152から日付文字列,キーワード等の情報を抽出する文書情報抽出部112とを備える。電子文書収集部111は、同一のURLにより公開された電子文書についての更新として一部又は全部の差し替えがされた場合には、異なる電子文書としてそれぞれのコピーを電子文書テーブル131に格納する。
情報検索部120は、ユーザ端末160の入出力部161により入力された検索条件を解析する検索条件解析部121と、指定された日付範囲と前記公開期間又は日付文字列とを比較することにより、公開日に基づく検索処理を行う公開情報検索部122と、検索結果として得られた電子文書を収集して並べ替えを行う検索結果編集部123とを備える。
記憶部130は、電子文書収集部111の収集した電子文書151のコピー152を格納する電子文書テーブル131と、文書情報抽出部112の抽出した公開日,キーワードを格納する公開期間テーブル132,日付文字列テーブル133,キーワードテーブル134を備える。ここで、公開日とは、各電子文書152がサーバ150によりネットワーク140上で公開されていた期間、または、各電子文書152が公開された日付を意味し、公開された日付としては各電子文書152から抽出した日付文字列を用いる。
【0008】
図2は、公開期間テーブル132のデータ構造の一例を示す図である。
公開期間テーブル132は、電子文書テーブル132に格納されたコピー152についての公開期間に関する情報を格納するものであり、電子文書152の公開先を示すURL201と、各電子文書の公開期間を示す公開開始日付202,公開終了日付203と、コピー152の保存先を示す保存先パス204と、公開度205の各情報を有している。
公開開始日付202及び公開終了日付203は、コピー152と同一内容の電子文書がURL201に示すアドレスに公開されていた期間を示しており、公開開始日付202は電子文書収集部111が予め登録されたURLにおいて新たな電子文書が公開された日付を示し、公開終了日付203は同一のURLにおいて別の新たな電子文書が公開された日付を示す。従って、少なくとも公開終了日付203の前日から公開終了日付203の間に、新たな電子文書に差し替えられたことが示される。
保存先パス204は、電子文書テーブル内の保存先を示すものであり、各電子文書は保存先パス204により識別される。
公開度205は、電子文書がどれだけ公知されたかという目安量を示す。本実施の形態では、登録されたURLに公開された他の電子文書におけるリンクの個数で公開度を判定しており、検索結果の表示においては公開度205の数値の大小により並べ替えを行う。
【0009】
図3は、日付文字列テーブル133のデータ構造の一例を示す図である。
日付文字列テーブル133は、電子文書テーブル132に格納されたコピー152から抽出した日付文字列に関する情報を格納するものであり、日付文字列301と、各日付文字列を含むコピー152の保存先パス302の各情報を有している。電子文書が新聞記事等の場合には、日付文字列が各記事を公開した日を示すことがあるため、各コピー152に含まれる日付文字列を抽出して格納し、日付文字列を電子文書の公開日として後述する検索処理を行う。
【0010】
図4は、キーワードテーブル134のデータ構造の一例を示す図である。
キーワードテーブル134は、電子文書テーブル132に格納されたコピー152から抽出したキーワードに関する情報を格納するものであり、キーワード401と、各キーワードを含むコピー152の保存先パス402の各情報を有している。
【0011】
以上のように構成された電子文書検索システムにより、公開日の日付範囲を指定した電子文書の検索処理を行う方法について説明する。
検索処理の前提として、電子文書検索システムでは、電子文書の収集処理及び各電子文書情報の抽出処理を行う。
図5は、各処理の対象となる電子文書の一例を示す図である。
電子文書500は、新製品開発状況を示すものであり、各記事毎に公開日を示す日付文字列501〜503が含まれている。
【0012】
図6〜9は、電子文書500について情報収集部110の行う各テーブルへの格納処理の概要を説明するためのブロック図であり、図6は電子文書テーブル131への格納処理、図7は公開期間テーブル132への格納処理、図8は日付文字列テーブル133への格納処理、図9はキーワードテーブル134への格納処理を示している。
サーバ150に存在する電子文書500は、ネットワーク上で一意となるURL(http://www.xxx.xxx/x1)において公開される。図6〜9の例では、前記URLにおいて、2020年5月18日から2020年6月18日までの期間に同一の電子文書が公開され、2020年6月18日に図5に示す電子文書500に差し替えられたものとする。
図6に示すように、電子文書収集部111は、予め登録されたURLを示すURLリスト601を有しており、1日おきにURLリスト601に基づきネットワーク140を介して接続されたサーバ150を巡回する。
電子文書収集部111は、サーバ150により公開されている電子文書500を取得し、電子文書テーブル131に格納されたコピー602と比較する。この場合、電子文書500の内容とコピー602の内容とが相違するため、電子文書500のコピーを生成し、電子文書テーブル131に格納する。
電子文書収集部111は、図7に示すように、生成したコピー701について公開期間テーブルに行702を追加し、URL201,公開開始日付202,公開終了日付203,保存先パス204を格納する。この場合、公開開始日付202及び公開終了日付203を電子文書500の取得日に設定する。
また、URLリスト601に基づきネットワーク140を介して接続されたサーバ150を巡回して、公開されている電子文書中にリンク先として含まれる電子文書500のURLの個数を計数し、計数結果を公開度205に格納する。
図8に示すように、文書情報抽出部112は、日付文字列フィルタ801を有しており、電子文書テーブル131に格納されたコピー701について、日付文字列フィルタ801に基づき「6月10日」「5月10日」「4月10日」「3月10日」等の各日付文字列を抽出する。抽出した各日付文字列については「YYYY/MM/DD」形式に変換して、日付文字列テーブル133に保存先パスと共に格納する。この場合、コピー701から抽出した日付文字列には「YYYY年」の項目が不足しているため、公開期間テーブル132の公開開始日付又は公開終了日付を参照して「2020年」を補完して格納する。
また、図9に示すように、文書情報抽出部112は、キーワードフィルタ901を有しており、電子文書テーブル131に格納されたコピーについて、キーワードフィルタ901に基づきタイトル部分902を抽出して、タイトル部分902を単語単位に分解することによりキーワードを抽出する。抽出した各キーワードについては、キーワードテーブル134に保存先パスと共に格納する。
【0013】
以上の格納処理の詳細について、図6〜図9の例に基づき、図10〜図12のフローチャートを用いて説明する。
図10は、電子文書500について情報収集部110の行う各テーブル131〜134への格納処理の概要を示すフローチャートである。
図10に示すように、情報収集部110の電子文書収集部111は、URLリスト601に基づき、各URLに公開されている電子文書151について後述する電子文書収集処理を行う(ステップ1001)。
文書情報抽出部112は、電子文書収集部111の収集した電子文書500について後述する日付文字列,キーワード抽出処理を行う(ステップ1002)。
電子文書収集部111は、URLリスト601に基づき、各URLに公開されている電子文書500中にリンク先として、電子文書テーブル131に格納されたコピー602のURLが含まれている個数を計数する(ステップ1003)。
公開期間テーブル132の公開度205の値に、計数した個数を加算する(ステップ1004)。
URLの個数の計数処理をURLリスト601に登録された全ての電子文書について行い(ステップ1005)、処理を終了する。
【0014】
図11は、電子文書収集部111の行う電子文書収集処理を示すフローチャートである。
図11に示すように、電子文書収集部111は、URLリスト601に登録されたURLに基づきネットワーク140を巡回し、各URLに公開されている電子文書500を取得する(ステップ1101)。取得した電子文書500のURLに基づき公開期間テーブル132のURL201、公開開始日付202、公開終了日付203、保存先パス204を調べ、電子文書テーブル131に同一URLの電子文書500のコピーの有無を判定する(ステップ1102)。
判定の結果、電子文書500のコピーが無い場合には、取得した電子文書500のコピー701を電子文書テーブル131に格納する(ステップ1103)。図6に示すように、コピー602が有る場合には、取得した電子文書500と、電子文書テーブル131内のコピー602とが不一致かどうかを判定し(ステップ1104)、不一致の場合には取得した電子文書500のコピー701を電子文書テーブル131に格納する(ステップ1103)。
電子文書収集部111は、電子文書テーブル131に格納した電子文書500のコピー701について、公開期間テーブル132にURLと保存先パスとを格納するとともに、公開開始日付及び公開終了日付を処理日に設定する(ステップ1105)。なお、コピー602についての公開終了日付も処理日に設定して、コピー602の公開期間を確定する。
一方、ステップ1103において、取得した電子文書500と電子文書テーブル131内のコピー602とが一致すると判定した場合には、当該コピー602について公開期間テーブル132の公開終了日付を処理日に設定する(ステップ1106)。
以上の処理をURLリスト601に登録された全ての電子文書について行い(ステップ1107)、処理を終了する。
【0015】
図12は、文書情報抽出部112の行う文書情報抽出処理を示すフローチャートである。
図12に示すように、文書情報抽出部112は、電子文書抽出部111が電子文書テーブル131に格納したコピー701について、日付文字列フィルタ801を用いて日付形式の文字列を全て抽出する(ステップ1201)。
抽出した日付文字列について、「年」・「月」・「日」の全ての項目が含まれているか否かを判定し(ステップ1202)、全ての項目が含まれている場合には、日付文字列テーブル133に抽出した日付文字列と保存先パスとを格納する(ステップ1203)。一方、「年」・「月」・「日」のいずれかの項目が不足している場合には、コピー701について公開期間テーブル132に格納された公開開始日付202又は公開終了日付203を参照して、最近接年,最近接月,最近接日等で不足項目を補完して(ステップ1204)、日付文字列テーブル133に格納する(ステップ1203)。例えば、抽出した文字列が「6月10日」の場合には、公開期間テーブル132を参照して「2020年」の項目を補完する。
文書情報抽出部112は日付文字列を格納した後、コピー701についてキーワードフィルタ134を用いてタイトル部分902を抽出し、タイトル部分902を単語単位に分割してキーワードを抽出し(ステップ1205)、抽出したキーワードをコピーの保存先パスとともにキーワードテーブル134に格納する(ステップ1206)。
以上の各処理を電子文書抽出部111が電子文書テーブル131に格納したコピーの全てについて行い(ステップ1207)、処理を終了する。
【0016】
次に、本実施の形態に係る電子文書検索システムにより、公開日の日付範囲を指定した検索処理の方法について説明する。
図13は文書情報抽出部112の行う文書情報抽出処理を示すフローチャートである。
情報検索装置100は、ユーザにより入力された公開日の日付範囲と、キーワードに関する検索条件式とを受付け、情報検索部120の検索条件解析部121が検索条件式の解析を行う(ステップ1301)。
公開情報検索部122は、解析された検索条件に含まれるキーワードに基づき、キーワードテーブル134からキーワードを含む電子文書を検索する(ステップ1302)。
キーワード検索の結果、検索条件式に該当する電子文書が有る場合には、キーワードテーブル134から該当電子文書の保存先パスを取得し、該当電子文書について、後述する公開日付とユーザにより指定された日付範囲との比較処理を行う(ステップ1304)。
比較処理の結果、ユーザにより指定された日付範囲に含まれる公開日付を有する電子文書が有る場合には(ステップ1305)、検索結果編集部123が該当する電子文書について公開度を取得して、公開度の高い順に並べ替えを行うとともに(ステップ1306)、公開期間テーブル132に格納されたURLが同一の電子文書については、URL毎にグループ分けして表示する(ステップ1307)。
一方、検索条件式に該当する電子文書が無い場合(ステップ1303)、又は、ユーザにより指定された日付範囲に該当する電子文書が無い場合には(ステップ1305)、「該当文書がありません。」等のメッセージを生成して表示する(ステップ1308)。
【0017】
図14は、公開情報検索部122が行う電子文書の公開日とユーザにより指定された日付範囲との比較処理を示すフローチャートである。
公開情報検索部122は、キーワード検索(図13のステップ1302,1303)の結果取得した該当電子文書について、保存先パスに基づき公開期間テーブル132から公開期間を取得する(ステップ1401)。
取得した公開期間が、ユーザにより指定された日付範囲に含まれるか否かを判定し(ステップ1402)、日付範囲に含まれる場合には、該当電子文書を検索結果としての電子文書の集合に追加する(ステップ1403)。一方、取得した公開期間が日付範囲に含まれない場合には、該当電子文書の保存先パスに基づき、日付文字列テーブル133から日付文字列を取得し(ステップ1404)、取得した日付文字列が日付範囲に含まれるか否かを判定する(ステップ1405)。
判定の結果、日付文字列が日付範囲に含まれる場合には、該当電子文書を検索結果としての電子文書の集合に追加する(ステップ1403)。一方、日付範囲に含まれない場合には、他の該当電子文書について日付範囲との比較処理を行う(ステップ1406)。
以上の処理を全ての該当電子文書についてい行った後(ステップ1404)、処理を終了する。
【0018】
図15は検索処理の際にユーザ端末160の入出力部161により表示される検索条件入力画面を示す図であり、図16は入出力部161により表示される検索結果表示画面を示す図である。
図15に示すように、検索条件入力画面1500は、日付範囲入力部としての開始日付入力部1501及び終了日付入力部1502と、検索条件式入力部1503と、検索ボタン1504とを有している。
ユーザにより各入力部1501〜1503に、日付範囲及び検索条件式が入力させ、検索ボタン1504が操作されると、情報検索装置100の情報検索部120が前記検索処理を行い、検索結果を入出力部161により検索結果表示画面に表示させる。
図16に示すように、検索結果表示画面1600は、検索処理の結果として、該当する電子文書の題名1601,公開先URL1602,公開日1603,公開度1604の各情報が表示されている。公開日1603には電子文書テーブル131に格納されたコピーに対するリンクが貼られている。
該当する複数の電子文書は、公開度1604の高い順に画面の上側から表示される。また、同一のURLにより公開された複数の電子文書については、題名1601,公開先URL1602を共通にした形でグループ分けして表示する。
【0019】
以上のように、本実施の形態に係る電子文書検索システムでは、ネットワーク上に公開された電子文書について、各電子文書の公開日と各電子文書コピーとを関連付けて格納することとしたので、ネットワーク上における公開日について日付範囲を指定した電子文書の検索を可能とすることができる。
この場合、公開日として同一URLにおける電子文書の更新日から次の更新日までを示す公開期間を用いることとしたため、現実にネットワーク上に公開された日に基づき電子文書の検索を行うことができる。
また、公開日として電子文書から抽出した日付文字列を用いることとしたため、新聞記事等のように公開日を示す日付文字列を含む電子文書について、公開日に基づく電子文書の検索を行うことができる。この場合、日付文字列について所定の形式で格納することとしたので、キーワード検索の場合と異なり日付範囲を指定した検索を行うことができる。
【0020】
なお、前記実施の形態では、電子文書の公開期間及び日付文字列の双方について日付範囲との比較を行うこととしているが、いずれか一方についてのみ日付範囲との比較を行うこととしてもよく、また、公開期間又は日付文字列のいずれかをユーザにより指定させることとしてもよい。
【0021】
また、前記実施の形態では、キーワード検索の結果得られた電子文書について、日付範囲との比較を行う際に、保存先パスに基づき日付文字列を取得することとしているが(図14のステップ1404参照)、これに限られるものではなく、保存パスとともに、各キーワード及び日付文字列に対応する抄録に基づき日付文字列を取得することとしてもよい。
図17は、日付文字列テーブル及びキーワードテーブルのデータ構造の他の例を示す図である。
図17(a),(b)に示すように、日付文字列テーブル1710は日付文字列1711,保存先パス1712と共に抄録1713を有し、キーワードテーブル1720はキーワード1721,保存先パス1722と共に抄録1723を有する。抄録1713,1723には、各日付文字列又はキーワードに対応した抄録として、例えば、キーワードフィルタ901により抽出されたタイトル部分902の一部を格納する。
このように、保存先パス1721,1722と共に抄録1713,1723に基づき日付文字列を取得した場合、新聞記事等のように、日付文字列とキーワードとの関係が重要な電子文書についても適切な検索処理が可能となる。
【0022】
【発明の効果】
以上のように、本発明によれば、予め登録されたURLに公開されている電子文書の公開日と各電子文書のコピーとを格納する手段と、前記公開日に基づきユーザにより指定された日付範囲に公開された電子文書を検索する手段とを備えたので、ネットワーク上に公開された電子文書について、公開日を指定した検索処理を行うことが可能となる。
【図面の簡単な説明】
【図1】本発明の一実施の形態に係る公開文書検索システムの概略構成を示すブロック図である。
【図2】公開期間テーブルのデータ構造の一例を示す図である。
【図3】日付文字列テーブルのデータ構造の一例を示す図である。
【図4】キーワードテーブルのデータ構造の一例を示す図である。
【図5】公開文書検索システムの検索対象となる電子文書の一例を示す図である。
【図6】情報収集部による電子文書テーブルへの格納処理の概要を説明するためのブロック図である。
【図7】情報収集部による公開期間テーブルへの格納処理の概要を説明するためのブロック図である。
【図8】情報収集部による日付文字列テーブルへの格納処理の概要を説明するためのブロック図である。
【図9】情報収集部によるキーワードテーブルへの格納処理の概要を説明するためのブロック図である。
【図10】情報収集部による各テーブルへの格納処理を示すフローチャートである。
【図11】電子文書収集部による電子文書収集処理を示すフローチャートである。
【図12】文書情報抽出部による文書情報抽出処理を示すフローチャートである。
【図13】文書情報抽出部による文書情報抽出処理を示すフローチャートである。
【図14】公開情報検索部による電子文書の公開日と日付範囲との比較処理を示すフローチャートである。
【図15】ユーザ端末の入出力部により表示される検索条件入力画面を示す図である。
【図16】ユーザ端末の入出力部により表示される検索結果表示画面を示す図である。
【図17】日付文字列テーブル及びキーワードテーブルのデータ構造の他の例を示す図である。
【符号の説明】
100 情報検索装置、110 情報収集部、111 電子文書収集部、112 文書情報抽出部、120 情報検索部、121 検索条件解析部、122 公開情報検索部、123 検索結果編集部、130 記憶部、131 電子文書テーブル、132 公開期間テーブル、133 日付文字列テーブル、134 キーワードテーブル、140 ネットワーク、150 サーバ、151 電子文書、152 コピー、160 ユーザ端末、161 入出力部、201 URL、202 公開開始日付、203 公開終了日付、204,302,402 保存先パス、205 公開度、301 日付文字列、401 キーワード、601URLリスト、801 日付文字列フィルタ、901 キーワードフィルタ。
【発明の属する技術分野】
本発明は、ネットワーク上における電子文書の検索システムに関し、特に電子文書の公開日に基づく検索を可能とするシステムに関する。
【0002】
【従来の技術】
従来より、インターネットやイントラネット等のネットワーク上に公開された電子文書について、ユーザに入力されたキーワード又はキーワードを連結した検索式に基づき検索処理を行う検索エンジンを備えた電子文書検索システムが用いられている。例えば、ユーザにより入力されたキーワード又は検索式に基づき、キーワード対電子文書IDインデックスを検索して電子文書を取得する検索エンジンを備え、当該検索エンジンの取得した電子文書からキーワードを抽出して、キーワードの含まれる個数順にソートして表示する手段を備えたシステム(例えば、特許文献1参照。)や、前記検索エンジンの取得した電子文書について、予め設定されたキーワードを含む文字列を抽出し、抄録を作成して保存する手段と、前記電子文書を前記抄録に関連付けて表示可能なように改変する手段とを備えたシステム(例えば、特許文献2参照。)が公知となっている。
【0003】
【特許文献1】
特開平08−190564号公報(第5−6頁、図2−3)
【特許文献2】
特開平10−222520号公報(第5−11頁、図1−2,15−16)
【0004】
【発明が解決しようとする課題】
しかし、前記特許文献1,2のシステムで用いられる検索エンジンはキーワード又は検索式に基づく検索処理を可能とするが、電子文書の公開日を指定した検索処理については考慮されていなかった。前記検索エンジンとしては、各電子文書に関する日付として取得可能な最終更新日の情報に基づき検索処理を行うシステムも用いられているが、最終更新日は電子文書が格納されているサーバの保持する時計に依存することや、容易に改変が可能であることから、電子文書の公開日を示す情報としては信頼性が低いという問題があった。また、ネットワーク上で公開される電子文書は一意のアドレス(又はURL)によって指定されるが、同一のアドレスに存在する電子文書が更新された場合には、更新前の電子文書を取得する手段や、公開されていた期間を示す情報を取得する手段が無いため、公開日に基づき更新前の電子文書の検索処理を行うことができなかった。
また、新聞記事等、電子文書内の日付文字列として公開された日付が含まれている場合には、キーワードとして検索することも考えられるが、電子文書内では、「平成YY年MM月DD日」,「YYYY年MM月DD日」,「YYYY/MM/DD」等、様々な形式で日付が表記されるため、前記各システムではキーワードとして入力された日付文字列の形式と電子文書内の日付文字列の形式とが異なる場合、同一の日付であるか否かを判断することができなかった。また、キーワード検索の場合には、日付範囲を指定した検索を行うこともできなかった。
【0005】
本発明は前記課題を解決するためのものであり、ネットワーク上で公開された電子文書に関し、公開日について日付範囲を指定した検索処理を可能とする情報検索システムを提供することを目的とする。
【0006】
【課題を解決するための手段】
前記課題を解決するため本発明は、ネットワーク上に公開された電子文書の検索を行うシステムであって、定期的にネットワークを巡回して、予め登録されたアドレスに公開されている電子文書を収集して前記アドレス毎に公開された電子文書の更新の有無を判定し、各更新毎に電子文書のコピーを生成するとともに更新された電子文書の公開日を取得し、前記コピーと前記電子文書の公開日とを関連付けて記憶部に格納する情報収集手段と、ユーザにより指定された日付範囲に基づき、前記電子文書格納手段に格納された前記電子文書の公開日を検索し、前記日付範囲に含まれる公開日に関連付けられた前記コピーを検索結果として取得する情報検索手段とを備えることを特徴とする。
また、前記情報収集手段は、前記各更新毎の公開開始時期から公開終了時期までの期間を前記公開日として取得する手段をさらに備えたことを特徴とする。
また、前記情報収集手段は、前記電子文書について生成したコピーから日付文字列を抽出する手段を備え、前記日付文字列の示す日付を前記公開日として取得し所定の形式で記憶部に格納する手段をさらに備えたことを特徴とする。
【0007】
【発明の実施の形態】
以下、本発明の実施の形態について図面に基づき説明する。
図1は、本発明の一実施の形態に係る電子文書検索システムの概略構成を示すブロック図である。
本実施の形態に係る電子文書検索システムを構成する情報検索装置100は、ネットワーク上における電子文書の公開期間又は電子文書の記事等に含まれる日付文字列を公開日として各電子文書のコピーに関連付けて格納し、ユーザの指定した公開日に基づく電子文書の検索を可能とする。
情報検索装置100は、情報収集部110と、情報検索部120と、記憶部130とから構成され、ネットワーク140を介して、サーバ150及びユーザ端末160に接続されている。サーバ150は、電子文書151をネットワーク上に公開されている。ユーザ端末160には、入出力部161としてブラウザが備えられている。
情報収集部110は、ネットワーク140上でサーバ150により公開されている電子文書151を収集し、更新のされた電子文書151のコピー152と電子文書151についての公開期間の格納を行う電子文書収集部111と、格納したコピー152から日付文字列,キーワード等の情報を抽出する文書情報抽出部112とを備える。電子文書収集部111は、同一のURLにより公開された電子文書についての更新として一部又は全部の差し替えがされた場合には、異なる電子文書としてそれぞれのコピーを電子文書テーブル131に格納する。
情報検索部120は、ユーザ端末160の入出力部161により入力された検索条件を解析する検索条件解析部121と、指定された日付範囲と前記公開期間又は日付文字列とを比較することにより、公開日に基づく検索処理を行う公開情報検索部122と、検索結果として得られた電子文書を収集して並べ替えを行う検索結果編集部123とを備える。
記憶部130は、電子文書収集部111の収集した電子文書151のコピー152を格納する電子文書テーブル131と、文書情報抽出部112の抽出した公開日,キーワードを格納する公開期間テーブル132,日付文字列テーブル133,キーワードテーブル134を備える。ここで、公開日とは、各電子文書152がサーバ150によりネットワーク140上で公開されていた期間、または、各電子文書152が公開された日付を意味し、公開された日付としては各電子文書152から抽出した日付文字列を用いる。
【0008】
図2は、公開期間テーブル132のデータ構造の一例を示す図である。
公開期間テーブル132は、電子文書テーブル132に格納されたコピー152についての公開期間に関する情報を格納するものであり、電子文書152の公開先を示すURL201と、各電子文書の公開期間を示す公開開始日付202,公開終了日付203と、コピー152の保存先を示す保存先パス204と、公開度205の各情報を有している。
公開開始日付202及び公開終了日付203は、コピー152と同一内容の電子文書がURL201に示すアドレスに公開されていた期間を示しており、公開開始日付202は電子文書収集部111が予め登録されたURLにおいて新たな電子文書が公開された日付を示し、公開終了日付203は同一のURLにおいて別の新たな電子文書が公開された日付を示す。従って、少なくとも公開終了日付203の前日から公開終了日付203の間に、新たな電子文書に差し替えられたことが示される。
保存先パス204は、電子文書テーブル内の保存先を示すものであり、各電子文書は保存先パス204により識別される。
公開度205は、電子文書がどれだけ公知されたかという目安量を示す。本実施の形態では、登録されたURLに公開された他の電子文書におけるリンクの個数で公開度を判定しており、検索結果の表示においては公開度205の数値の大小により並べ替えを行う。
【0009】
図3は、日付文字列テーブル133のデータ構造の一例を示す図である。
日付文字列テーブル133は、電子文書テーブル132に格納されたコピー152から抽出した日付文字列に関する情報を格納するものであり、日付文字列301と、各日付文字列を含むコピー152の保存先パス302の各情報を有している。電子文書が新聞記事等の場合には、日付文字列が各記事を公開した日を示すことがあるため、各コピー152に含まれる日付文字列を抽出して格納し、日付文字列を電子文書の公開日として後述する検索処理を行う。
【0010】
図4は、キーワードテーブル134のデータ構造の一例を示す図である。
キーワードテーブル134は、電子文書テーブル132に格納されたコピー152から抽出したキーワードに関する情報を格納するものであり、キーワード401と、各キーワードを含むコピー152の保存先パス402の各情報を有している。
【0011】
以上のように構成された電子文書検索システムにより、公開日の日付範囲を指定した電子文書の検索処理を行う方法について説明する。
検索処理の前提として、電子文書検索システムでは、電子文書の収集処理及び各電子文書情報の抽出処理を行う。
図5は、各処理の対象となる電子文書の一例を示す図である。
電子文書500は、新製品開発状況を示すものであり、各記事毎に公開日を示す日付文字列501〜503が含まれている。
【0012】
図6〜9は、電子文書500について情報収集部110の行う各テーブルへの格納処理の概要を説明するためのブロック図であり、図6は電子文書テーブル131への格納処理、図7は公開期間テーブル132への格納処理、図8は日付文字列テーブル133への格納処理、図9はキーワードテーブル134への格納処理を示している。
サーバ150に存在する電子文書500は、ネットワーク上で一意となるURL(http://www.xxx.xxx/x1)において公開される。図6〜9の例では、前記URLにおいて、2020年5月18日から2020年6月18日までの期間に同一の電子文書が公開され、2020年6月18日に図5に示す電子文書500に差し替えられたものとする。
図6に示すように、電子文書収集部111は、予め登録されたURLを示すURLリスト601を有しており、1日おきにURLリスト601に基づきネットワーク140を介して接続されたサーバ150を巡回する。
電子文書収集部111は、サーバ150により公開されている電子文書500を取得し、電子文書テーブル131に格納されたコピー602と比較する。この場合、電子文書500の内容とコピー602の内容とが相違するため、電子文書500のコピーを生成し、電子文書テーブル131に格納する。
電子文書収集部111は、図7に示すように、生成したコピー701について公開期間テーブルに行702を追加し、URL201,公開開始日付202,公開終了日付203,保存先パス204を格納する。この場合、公開開始日付202及び公開終了日付203を電子文書500の取得日に設定する。
また、URLリスト601に基づきネットワーク140を介して接続されたサーバ150を巡回して、公開されている電子文書中にリンク先として含まれる電子文書500のURLの個数を計数し、計数結果を公開度205に格納する。
図8に示すように、文書情報抽出部112は、日付文字列フィルタ801を有しており、電子文書テーブル131に格納されたコピー701について、日付文字列フィルタ801に基づき「6月10日」「5月10日」「4月10日」「3月10日」等の各日付文字列を抽出する。抽出した各日付文字列については「YYYY/MM/DD」形式に変換して、日付文字列テーブル133に保存先パスと共に格納する。この場合、コピー701から抽出した日付文字列には「YYYY年」の項目が不足しているため、公開期間テーブル132の公開開始日付又は公開終了日付を参照して「2020年」を補完して格納する。
また、図9に示すように、文書情報抽出部112は、キーワードフィルタ901を有しており、電子文書テーブル131に格納されたコピーについて、キーワードフィルタ901に基づきタイトル部分902を抽出して、タイトル部分902を単語単位に分解することによりキーワードを抽出する。抽出した各キーワードについては、キーワードテーブル134に保存先パスと共に格納する。
【0013】
以上の格納処理の詳細について、図6〜図9の例に基づき、図10〜図12のフローチャートを用いて説明する。
図10は、電子文書500について情報収集部110の行う各テーブル131〜134への格納処理の概要を示すフローチャートである。
図10に示すように、情報収集部110の電子文書収集部111は、URLリスト601に基づき、各URLに公開されている電子文書151について後述する電子文書収集処理を行う(ステップ1001)。
文書情報抽出部112は、電子文書収集部111の収集した電子文書500について後述する日付文字列,キーワード抽出処理を行う(ステップ1002)。
電子文書収集部111は、URLリスト601に基づき、各URLに公開されている電子文書500中にリンク先として、電子文書テーブル131に格納されたコピー602のURLが含まれている個数を計数する(ステップ1003)。
公開期間テーブル132の公開度205の値に、計数した個数を加算する(ステップ1004)。
URLの個数の計数処理をURLリスト601に登録された全ての電子文書について行い(ステップ1005)、処理を終了する。
【0014】
図11は、電子文書収集部111の行う電子文書収集処理を示すフローチャートである。
図11に示すように、電子文書収集部111は、URLリスト601に登録されたURLに基づきネットワーク140を巡回し、各URLに公開されている電子文書500を取得する(ステップ1101)。取得した電子文書500のURLに基づき公開期間テーブル132のURL201、公開開始日付202、公開終了日付203、保存先パス204を調べ、電子文書テーブル131に同一URLの電子文書500のコピーの有無を判定する(ステップ1102)。
判定の結果、電子文書500のコピーが無い場合には、取得した電子文書500のコピー701を電子文書テーブル131に格納する(ステップ1103)。図6に示すように、コピー602が有る場合には、取得した電子文書500と、電子文書テーブル131内のコピー602とが不一致かどうかを判定し(ステップ1104)、不一致の場合には取得した電子文書500のコピー701を電子文書テーブル131に格納する(ステップ1103)。
電子文書収集部111は、電子文書テーブル131に格納した電子文書500のコピー701について、公開期間テーブル132にURLと保存先パスとを格納するとともに、公開開始日付及び公開終了日付を処理日に設定する(ステップ1105)。なお、コピー602についての公開終了日付も処理日に設定して、コピー602の公開期間を確定する。
一方、ステップ1103において、取得した電子文書500と電子文書テーブル131内のコピー602とが一致すると判定した場合には、当該コピー602について公開期間テーブル132の公開終了日付を処理日に設定する(ステップ1106)。
以上の処理をURLリスト601に登録された全ての電子文書について行い(ステップ1107)、処理を終了する。
【0015】
図12は、文書情報抽出部112の行う文書情報抽出処理を示すフローチャートである。
図12に示すように、文書情報抽出部112は、電子文書抽出部111が電子文書テーブル131に格納したコピー701について、日付文字列フィルタ801を用いて日付形式の文字列を全て抽出する(ステップ1201)。
抽出した日付文字列について、「年」・「月」・「日」の全ての項目が含まれているか否かを判定し(ステップ1202)、全ての項目が含まれている場合には、日付文字列テーブル133に抽出した日付文字列と保存先パスとを格納する(ステップ1203)。一方、「年」・「月」・「日」のいずれかの項目が不足している場合には、コピー701について公開期間テーブル132に格納された公開開始日付202又は公開終了日付203を参照して、最近接年,最近接月,最近接日等で不足項目を補完して(ステップ1204)、日付文字列テーブル133に格納する(ステップ1203)。例えば、抽出した文字列が「6月10日」の場合には、公開期間テーブル132を参照して「2020年」の項目を補完する。
文書情報抽出部112は日付文字列を格納した後、コピー701についてキーワードフィルタ134を用いてタイトル部分902を抽出し、タイトル部分902を単語単位に分割してキーワードを抽出し(ステップ1205)、抽出したキーワードをコピーの保存先パスとともにキーワードテーブル134に格納する(ステップ1206)。
以上の各処理を電子文書抽出部111が電子文書テーブル131に格納したコピーの全てについて行い(ステップ1207)、処理を終了する。
【0016】
次に、本実施の形態に係る電子文書検索システムにより、公開日の日付範囲を指定した検索処理の方法について説明する。
図13は文書情報抽出部112の行う文書情報抽出処理を示すフローチャートである。
情報検索装置100は、ユーザにより入力された公開日の日付範囲と、キーワードに関する検索条件式とを受付け、情報検索部120の検索条件解析部121が検索条件式の解析を行う(ステップ1301)。
公開情報検索部122は、解析された検索条件に含まれるキーワードに基づき、キーワードテーブル134からキーワードを含む電子文書を検索する(ステップ1302)。
キーワード検索の結果、検索条件式に該当する電子文書が有る場合には、キーワードテーブル134から該当電子文書の保存先パスを取得し、該当電子文書について、後述する公開日付とユーザにより指定された日付範囲との比較処理を行う(ステップ1304)。
比較処理の結果、ユーザにより指定された日付範囲に含まれる公開日付を有する電子文書が有る場合には(ステップ1305)、検索結果編集部123が該当する電子文書について公開度を取得して、公開度の高い順に並べ替えを行うとともに(ステップ1306)、公開期間テーブル132に格納されたURLが同一の電子文書については、URL毎にグループ分けして表示する(ステップ1307)。
一方、検索条件式に該当する電子文書が無い場合(ステップ1303)、又は、ユーザにより指定された日付範囲に該当する電子文書が無い場合には(ステップ1305)、「該当文書がありません。」等のメッセージを生成して表示する(ステップ1308)。
【0017】
図14は、公開情報検索部122が行う電子文書の公開日とユーザにより指定された日付範囲との比較処理を示すフローチャートである。
公開情報検索部122は、キーワード検索(図13のステップ1302,1303)の結果取得した該当電子文書について、保存先パスに基づき公開期間テーブル132から公開期間を取得する(ステップ1401)。
取得した公開期間が、ユーザにより指定された日付範囲に含まれるか否かを判定し(ステップ1402)、日付範囲に含まれる場合には、該当電子文書を検索結果としての電子文書の集合に追加する(ステップ1403)。一方、取得した公開期間が日付範囲に含まれない場合には、該当電子文書の保存先パスに基づき、日付文字列テーブル133から日付文字列を取得し(ステップ1404)、取得した日付文字列が日付範囲に含まれるか否かを判定する(ステップ1405)。
判定の結果、日付文字列が日付範囲に含まれる場合には、該当電子文書を検索結果としての電子文書の集合に追加する(ステップ1403)。一方、日付範囲に含まれない場合には、他の該当電子文書について日付範囲との比較処理を行う(ステップ1406)。
以上の処理を全ての該当電子文書についてい行った後(ステップ1404)、処理を終了する。
【0018】
図15は検索処理の際にユーザ端末160の入出力部161により表示される検索条件入力画面を示す図であり、図16は入出力部161により表示される検索結果表示画面を示す図である。
図15に示すように、検索条件入力画面1500は、日付範囲入力部としての開始日付入力部1501及び終了日付入力部1502と、検索条件式入力部1503と、検索ボタン1504とを有している。
ユーザにより各入力部1501〜1503に、日付範囲及び検索条件式が入力させ、検索ボタン1504が操作されると、情報検索装置100の情報検索部120が前記検索処理を行い、検索結果を入出力部161により検索結果表示画面に表示させる。
図16に示すように、検索結果表示画面1600は、検索処理の結果として、該当する電子文書の題名1601,公開先URL1602,公開日1603,公開度1604の各情報が表示されている。公開日1603には電子文書テーブル131に格納されたコピーに対するリンクが貼られている。
該当する複数の電子文書は、公開度1604の高い順に画面の上側から表示される。また、同一のURLにより公開された複数の電子文書については、題名1601,公開先URL1602を共通にした形でグループ分けして表示する。
【0019】
以上のように、本実施の形態に係る電子文書検索システムでは、ネットワーク上に公開された電子文書について、各電子文書の公開日と各電子文書コピーとを関連付けて格納することとしたので、ネットワーク上における公開日について日付範囲を指定した電子文書の検索を可能とすることができる。
この場合、公開日として同一URLにおける電子文書の更新日から次の更新日までを示す公開期間を用いることとしたため、現実にネットワーク上に公開された日に基づき電子文書の検索を行うことができる。
また、公開日として電子文書から抽出した日付文字列を用いることとしたため、新聞記事等のように公開日を示す日付文字列を含む電子文書について、公開日に基づく電子文書の検索を行うことができる。この場合、日付文字列について所定の形式で格納することとしたので、キーワード検索の場合と異なり日付範囲を指定した検索を行うことができる。
【0020】
なお、前記実施の形態では、電子文書の公開期間及び日付文字列の双方について日付範囲との比較を行うこととしているが、いずれか一方についてのみ日付範囲との比較を行うこととしてもよく、また、公開期間又は日付文字列のいずれかをユーザにより指定させることとしてもよい。
【0021】
また、前記実施の形態では、キーワード検索の結果得られた電子文書について、日付範囲との比較を行う際に、保存先パスに基づき日付文字列を取得することとしているが(図14のステップ1404参照)、これに限られるものではなく、保存パスとともに、各キーワード及び日付文字列に対応する抄録に基づき日付文字列を取得することとしてもよい。
図17は、日付文字列テーブル及びキーワードテーブルのデータ構造の他の例を示す図である。
図17(a),(b)に示すように、日付文字列テーブル1710は日付文字列1711,保存先パス1712と共に抄録1713を有し、キーワードテーブル1720はキーワード1721,保存先パス1722と共に抄録1723を有する。抄録1713,1723には、各日付文字列又はキーワードに対応した抄録として、例えば、キーワードフィルタ901により抽出されたタイトル部分902の一部を格納する。
このように、保存先パス1721,1722と共に抄録1713,1723に基づき日付文字列を取得した場合、新聞記事等のように、日付文字列とキーワードとの関係が重要な電子文書についても適切な検索処理が可能となる。
【0022】
【発明の効果】
以上のように、本発明によれば、予め登録されたURLに公開されている電子文書の公開日と各電子文書のコピーとを格納する手段と、前記公開日に基づきユーザにより指定された日付範囲に公開された電子文書を検索する手段とを備えたので、ネットワーク上に公開された電子文書について、公開日を指定した検索処理を行うことが可能となる。
【図面の簡単な説明】
【図1】本発明の一実施の形態に係る公開文書検索システムの概略構成を示すブロック図である。
【図2】公開期間テーブルのデータ構造の一例を示す図である。
【図3】日付文字列テーブルのデータ構造の一例を示す図である。
【図4】キーワードテーブルのデータ構造の一例を示す図である。
【図5】公開文書検索システムの検索対象となる電子文書の一例を示す図である。
【図6】情報収集部による電子文書テーブルへの格納処理の概要を説明するためのブロック図である。
【図7】情報収集部による公開期間テーブルへの格納処理の概要を説明するためのブロック図である。
【図8】情報収集部による日付文字列テーブルへの格納処理の概要を説明するためのブロック図である。
【図9】情報収集部によるキーワードテーブルへの格納処理の概要を説明するためのブロック図である。
【図10】情報収集部による各テーブルへの格納処理を示すフローチャートである。
【図11】電子文書収集部による電子文書収集処理を示すフローチャートである。
【図12】文書情報抽出部による文書情報抽出処理を示すフローチャートである。
【図13】文書情報抽出部による文書情報抽出処理を示すフローチャートである。
【図14】公開情報検索部による電子文書の公開日と日付範囲との比較処理を示すフローチャートである。
【図15】ユーザ端末の入出力部により表示される検索条件入力画面を示す図である。
【図16】ユーザ端末の入出力部により表示される検索結果表示画面を示す図である。
【図17】日付文字列テーブル及びキーワードテーブルのデータ構造の他の例を示す図である。
【符号の説明】
100 情報検索装置、110 情報収集部、111 電子文書収集部、112 文書情報抽出部、120 情報検索部、121 検索条件解析部、122 公開情報検索部、123 検索結果編集部、130 記憶部、131 電子文書テーブル、132 公開期間テーブル、133 日付文字列テーブル、134 キーワードテーブル、140 ネットワーク、150 サーバ、151 電子文書、152 コピー、160 ユーザ端末、161 入出力部、201 URL、202 公開開始日付、203 公開終了日付、204,302,402 保存先パス、205 公開度、301 日付文字列、401 キーワード、601URLリスト、801 日付文字列フィルタ、901 キーワードフィルタ。
Claims (3)
- ネットワーク上に公開された電子文書の検索を行うシステムであって、
定期的にネットワークを巡回して、予め登録されたアドレスに公開されている電子文書を収集して前記アドレス毎に公開された電子文書の更新の有無を判定し、各更新毎に電子文書のコピーを生成するとともに更新された電子文書の公開日を取得し、前記コピーと前記電子文書の公開日とを関連付けて記憶部に格納する情報収集手段と、
ユーザにより指定された日付範囲に基づき、前記電子文書格納手段に格納された前記電子文書の公開日を検索し、前記日付範囲に含まれる公開日に関連付けられた前記コピーを検索結果として取得する情報検索手段と
を備えることを特徴とする電子文書検索システム。 - 前記情報収集手段は、前記各更新毎の公開開始時期から公開終了時期までの期間を前記公開日として取得する手段をさらに備えたことを特徴とする請求項1に記載の電子文書検索システム。
- 前記情報収集手段は、前記電子文書について生成したコピーから日付文字列を抽出する手段を備え、前記日付文字列の示す日付を前記公開日として取得し所定の形式で記憶部に格納する手段をさらに備えたことを特徴とする請求項1又は2に記載の電子文書検索システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002314614A JP2004151855A (ja) | 2002-10-29 | 2002-10-29 | 電子文書検索システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002314614A JP2004151855A (ja) | 2002-10-29 | 2002-10-29 | 電子文書検索システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004151855A true JP2004151855A (ja) | 2004-05-27 |
Family
ID=32458878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002314614A Pending JP2004151855A (ja) | 2002-10-29 | 2002-10-29 | 電子文書検索システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004151855A (ja) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007033603A1 (fr) * | 2005-09-23 | 2007-03-29 | Tencent Technology (Shenzhen) Company Limited | Systeme de recherche de reseau et son procede de mise en oeuvre |
US8027965B2 (en) | 2005-07-04 | 2011-09-27 | Sony Corporation | Content providing system, content providing apparatus and method, content distribution server, and content receiving terminal |
US8079962B2 (en) | 2005-01-20 | 2011-12-20 | Sony Corporation | Method and apparatus for reproducing content data |
US8135736B2 (en) | 2005-07-21 | 2012-03-13 | Sony Corporation | Content providing system, content providing apparatus and method, content distribution server, and content receiving terminal |
US8170003B2 (en) | 2005-03-28 | 2012-05-01 | Sony Corporation | Content recommendation system and method, and communication terminal device |
US8311654B2 (en) | 2006-02-17 | 2012-11-13 | Sony Corporation | Content reproducing apparatus, audio reproducing apparatus and content reproducing method |
US8451832B2 (en) | 2004-10-26 | 2013-05-28 | Sony Corporation | Content using apparatus, content using method, distribution server apparatus, information distribution method, and recording medium |
JP2013200743A (ja) * | 2012-03-26 | 2013-10-03 | Oki Electric Ind Co Ltd | サーバ、情報生成方法、および表示制御方法 |
JP2013200742A (ja) * | 2012-03-26 | 2013-10-03 | Oki Electric Ind Co Ltd | サーバ、データ管理方法、および表示制御方法 |
JP2013210701A (ja) * | 2012-03-30 | 2013-10-10 | Oki Electric Ind Co Ltd | サーバ、更新情報管理方法および表示制御方法 |
JP2015172808A (ja) * | 2014-03-11 | 2015-10-01 | 日本電気株式会社 | 検索装置、検索方法およびプログラム |
US10275497B2 (en) * | 2015-03-13 | 2019-04-30 | Nec Corporation | Electronic whiteboard system, search result display method of electronic whiteboard, and non-transitory computer readable medium storing program thereof |
-
2002
- 2002-10-29 JP JP2002314614A patent/JP2004151855A/ja active Pending
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8451832B2 (en) | 2004-10-26 | 2013-05-28 | Sony Corporation | Content using apparatus, content using method, distribution server apparatus, information distribution method, and recording medium |
US8079962B2 (en) | 2005-01-20 | 2011-12-20 | Sony Corporation | Method and apparatus for reproducing content data |
US8170003B2 (en) | 2005-03-28 | 2012-05-01 | Sony Corporation | Content recommendation system and method, and communication terminal device |
US8027965B2 (en) | 2005-07-04 | 2011-09-27 | Sony Corporation | Content providing system, content providing apparatus and method, content distribution server, and content receiving terminal |
US8135736B2 (en) | 2005-07-21 | 2012-03-13 | Sony Corporation | Content providing system, content providing apparatus and method, content distribution server, and content receiving terminal |
US8135700B2 (en) | 2005-07-21 | 2012-03-13 | Sony Corporation | Content providing system, content providing apparatus and method, content distribution server, and content receiving terminal |
WO2007033603A1 (fr) * | 2005-09-23 | 2007-03-29 | Tencent Technology (Shenzhen) Company Limited | Systeme de recherche de reseau et son procede de mise en oeuvre |
US7844593B2 (en) | 2005-09-23 | 2010-11-30 | Tecent Technology (Shenzhen) Company Limited | Method and system for network search |
US8311654B2 (en) | 2006-02-17 | 2012-11-13 | Sony Corporation | Content reproducing apparatus, audio reproducing apparatus and content reproducing method |
USRE46481E1 (en) | 2006-02-17 | 2017-07-18 | Sony Corporation | Content reproducing apparatus, audio reproducing apparatus and content reproducing method |
JP2013200743A (ja) * | 2012-03-26 | 2013-10-03 | Oki Electric Ind Co Ltd | サーバ、情報生成方法、および表示制御方法 |
JP2013200742A (ja) * | 2012-03-26 | 2013-10-03 | Oki Electric Ind Co Ltd | サーバ、データ管理方法、および表示制御方法 |
JP2013210701A (ja) * | 2012-03-30 | 2013-10-10 | Oki Electric Ind Co Ltd | サーバ、更新情報管理方法および表示制御方法 |
JP2015172808A (ja) * | 2014-03-11 | 2015-10-01 | 日本電気株式会社 | 検索装置、検索方法およびプログラム |
US10275497B2 (en) * | 2015-03-13 | 2019-04-30 | Nec Corporation | Electronic whiteboard system, search result display method of electronic whiteboard, and non-transitory computer readable medium storing program thereof |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4322887B2 (ja) | スレッド順位付け装置及び方法 | |
KR20040029895A (ko) | 검색 시스템 | |
JP2004062479A (ja) | 情報収集装置、方法及びプログラム | |
JP3803961B2 (ja) | データベース生成装置、データベース生成処理方法及びデータベース生成プログラム | |
US8433666B2 (en) | Link information extracting apparatus, link information extracting method, and recording medium | |
JP2004151855A (ja) | 電子文書検索システム | |
TW201415254A (zh) | 語意標註建議方法及其系統 | |
JP2006099341A (ja) | 更新履歴生成装置及びプログラム | |
JP2007256992A (ja) | コンテンツ特定方法及び装置 | |
JP2001060165A (ja) | 情報セット重要度判定システム及びその判定方法、及び情報セット重要度判定プログラムを記録した記録媒体 | |
US20080275877A1 (en) | Method and system for variable keyword processing based on content dates on a web page | |
JP2006331292A (ja) | Weblogコミュニティ検索支援方法、検索支援装置および検索支援方法のプログラムを記録した記録媒体 | |
JP2010134651A (ja) | 商品idサーバ装置、および商品idサーバ装置の制御方法 | |
JP2004070405A (ja) | Webページの風評情報抽出装置 | |
JP2006302024A (ja) | 関連文書表示方法及びプログラム | |
KR101556714B1 (ko) | 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체 | |
JP2000331020A (ja) | 情報参照方法,情報参照装置および情報参照プログラムを格納した記憶媒体 | |
JP4189387B2 (ja) | 知識検索システム、知識検索方法及びプログラム | |
JP2008015774A (ja) | 模倣文書検出システム及びプログラム | |
JP2004102818A (ja) | 検索支援方法および検索支援装置 | |
JP2011175486A (ja) | 名寄せチェック支援装置、名寄せチェック支援プログラム及び名寄せチェック支援方法 | |
US20040034626A1 (en) | Browsing method and apparatus | |
JP2003006221A (ja) | 予測分析型検索システム、予測分析型検索方法およびコンピュータプログラム | |
JP2004030428A (ja) | 情報サービス検索支援装置、情報サービス検索装置、情報サービス検索方法及び情報サービス検索プログラム | |
JP4767389B2 (ja) | ロギング装置および記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050614 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080606 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20081008 |