JP5959163B2 - 文書収集システムおよび方法 - Google Patents

文書収集システムおよび方法 Download PDF

Info

Publication number
JP5959163B2
JP5959163B2 JP2011135481A JP2011135481A JP5959163B2 JP 5959163 B2 JP5959163 B2 JP 5959163B2 JP 2011135481 A JP2011135481 A JP 2011135481A JP 2011135481 A JP2011135481 A JP 2011135481A JP 5959163 B2 JP5959163 B2 JP 5959163B2
Authority
JP
Japan
Prior art keywords
document
site
identification information
update information
update
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011135481A
Other languages
English (en)
Other versions
JP2012009024A (ja
Inventor
永 受 高
永 受 高
承 ▲華▼ 韓
承 ▲華▼ 韓
▲貞▼ 佑 徐
▲貞▼ 佑 徐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2012009024A publication Critical patent/JP2012009024A/ja
Application granted granted Critical
Publication of JP5959163B2 publication Critical patent/JP5959163B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/65Updates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Description

本発明は、サイトで文書を収集するシステムおよび方法に関し、より詳しくは、検索対象となる文書のうちアップデートが発生した文書を収集する文書収集システムおよび方法に関する。
一般に、検索サービスの業者はウェブロボットを用いてインターネット上に存在する複数のサイトで文書のコンテンツを収集する。このとき、ウェブロボットはランダムアクセス方式の巡回(crawler)方式を用いて文書に含まれたコンテンツを収集する。具体的には、検索サービスの業者はランダムにシードURLを抽出し、抽出されたシードURLに基づいてウェブロボットによって文書を収集する。これによって、各文書の固有URLとは関係なく文書が収集される。
上記のような方式によって文書が収集される場合、ウェブロボットのランダムアクセスによってウェブサイトに多くの負荷が発生する問題が存在する。また、ウェブロボットがランダムに収集することによって、検索サービスの業者は検索要求と関係のない文書を検索結果として提供していた。すなわち、定形化されていないURLと文書内容により、検索サービスの業者が文書収集の結果を分析することが困難であった。
したがって、ウェブサイトに負荷を与えることなく正確なウェブ文書を収集することのできるシステムおよび方法が求められている。
本発明の目的は、識別情報によってアップデートが発生した文書を収集することによって、ランダム巡回によるサイトの負荷を減らすことのできるシステムおよび方法を提供することにある。
本発明の目的は、コンテンツ提供者が文書のアップデートと関連する識別情報を検索業者に伝達することによって、コンテンツ提供者が希望する文書だけを検索結果に反映することのできるシステムおよび方法を提供することにある。
本発明の目的は、アップデートが発生した文書をXML形式で収集することによって、題名、内容、タグなどの文書の構造が検索結果として正確に反映できるシステムおよび方法を提供することにある。
本発明の一実施形態に係る文書収集システムは、文書のアップデートが発生したとき、少なくとも1つのサイトから前記文書のアップデート情報を収集するために動作し、前記サイトからアップデートが発生した文書の識別情報を受信する識別情報受信部と、前記サイトから前記識別情報を受信することによって前記サイトに前記識別情報に対応する前記文書のアップデート情報の収集要求を伝達する収集要求伝達部と、前記収集要求に対応して、前記サイトから前記文書のアップデート情報を収集するアップデート情報収集部と、を備え、前記アップデート情報収集部は、前記サイトから前記文書のアップデート情報を少なくとも1つの要素を含む文書形式で収集し、前記要素が複数である場合、要素グループに設定して収集する。
本発明の一実施形態に係る文書収集方法は、文書のアップデートが発生したとき、少なくとも1つのサイトから前記文書のアップデート情報を収集するために動作し、前記サイトからアップデートが発生した文書の識別情報を受信し、前記サイトから前記識別情報を受信することによって前記サイトに前記識別情報に対応する前記文書のアップデート情報の収集要求を伝達し、前記収集要求に対応して、前記サイトから文書のアップデート情報を少なくとも1つの要素を含む文書形式で収集し、前記要素が複数である場合、要素グループに設定して収集することを含む。
本発明の一実施形態によれば、識別情報によってアップデートが発生した文書を収集することによって、ランダム巡回によるサイトの負荷を減らすことができる。
本発明の一実施形態によれば、コンテンツ提供者が文書のアップデートと関連する識別情報を検索業者に伝達することによって、コンテンツ提供者が希望する文書だけを検索結果として反映することができる。
本発明の一実施形態によれば、アップデートが発生した文書をXML形式で収集することによって、題名、内容、タグなどの文書の構造が検索結果として正確に反映することができる。
本発明の一実施形態による文書を収集する過程を説明するための図である。 本発明の一実施形態に係る文書収集システムの細部の構成を示すブロックダイアグラムである。 本発明で用いられるリソースの構造を示す図である。 本発明の一実施形態に係る文書収集方法を示すフローチャートである。 本発明の他の実施形態による収集した文書を検索するシステムの一例である。
以下、本発明の実施形態を添付された図面を参照して詳細に説明する。本発明の一実施形態に係る文書収集方法は、文書収集システムによって行われてもよい。
図1は、本発明の一実施形態により文書を収集する過程を説明するための図である。
図1に示すように、サイト110は、文書のアップデートが発生した場合、pingプロトコルのような識別情報を文書収集システム120に送信してもよい。例えば、文書のアップデートは、文書に含まれたコンテンツに登録/修正/削除などが発生したことを意味する。また、pingとは、文書のアップデートが発生したという一種の信号を意味する。
ここで、文書収集システム120は、識別情報の受信に対応してサイト110にアップデートが発生した文書を要求する。このとき、文書収集システム120はAtom配信フォーマット(Atom Syndication Format)を満足するシンジケーション文書を要求する。
サイト110は、文書収集システム120の要求に応答してアップデートが発生した文書を文書収集システム120に伝達してもよい。具体的に、文書収集システム120は、XML構造で構成されたシンジケーション文書をサイト110から収集してもよい。
ここで、サイト110は、検索されたい文書と関連する識別情報を文書収集システム120に送信することによって、望まない文書が文書収集システム120に収集されることを防止することができる。このとき、検索されたい文書に、コンテンツの登録、削除、修正などのアップデートが発生すると、サイト110がpingのような識別情報を文書収集システム120に送信することによって、ランダムな巡回による負荷を減らすことができる。
図2は、本発明の一実施形態に係る文書収集システムの細部の構成を示すブロックダイアグラムである。
図2に示すように、文書収集システム120は、識別情報受信部210、収集要求伝達部220、アップデート情報収集部230、および検索結果提供部240を備えてもよい。
識別情報受信部210は、サイト110からアップデートが発生した文書の識別情報を受信してもよい。ここで、識別情報はコンテンツの登録/修正/削除のようなアップデートが発生した文書と関連するpingプロトコルを含んでもよい。
このとき、識別情報受信部210は、アップデートが発生した文書と関連するリンク情報を含む識別情報を受信してもよい。ここで、リンク情報はサイト110においてアップデートが発生した文書の位置を示すURLを含んでもよい。すなわち、サイト110は、収集されたい文書を、リンク情報を含む識別情報によって文書収集システム120に伝達してもよい。
収集要求伝達部220は、識別情報によってサイト110に文書の収集要求を伝達してもよい。具体的には、収集要求伝達部220は、識別情報に含まれたリンク情報に指定された経路を用いて、サイト110に文書の収集要求を伝達してもよい。一例として、収集要求伝達部220は、リンク情報を用いてXML形式で構成されたシンジケーション文書をサイト110に要求してもよい。
識別情報のpingプロトコルに含まれたリンク情報は次のように構成してもよい。
http://[DOMAIN]/atom.cgi?id=[RESOURCE_ID]&type=[RESOURCE_TYPE] &&start−time=[START_TIME]&end−time=[END_TIME]&max−entry=[MAX_ENTRY]&page=[PAGE]
一例として、リンク情報に含まれたパラメータは下記の表1によって定義されてもよい。
Figure 0005959163

また、表1において、idパラメータはAtom配信フォーマットで提案する「Tag URI」によって表現されてもよい。このとき、Tag URIにおいてchannel IDに「−」のセパレータ文字が含まれれば、Tag URIはURL符号化によって表現されてもよい。
Tag URIはリソースを含んでもよい。一例として、リソースはサイト(site)、チャネル(channel)、記事(article)を含んでもよい。リソースの種類別に実際のリソースリンクをTag URIに表現した一例は表2の通りである。
Figure 0005959163

また、収集要求伝達部202が要求するXML形式のシンジケーション(syndication)文書に含まれるリソースの範囲はidとtypeパラメータ値に応じて決定されてもよい。一例として、リソースの範囲は表3のように決定されてもよい。
Figure 0005959163

一例として、識別情報受信部210が受信した識別情報に含まれたidがsiteであり、タイプがchannelである場合、収集要求伝達部220はサイト110に含まれた全てのチャネルの情報を要求するシンジケーション文書の収集要求をサイト110に送信してもよい。このとき、サイト110は収集要求に応じて、サイト110に含まれた全てのチャネルのアップデート情報を文書収集システム120に送信してもよい。
アップデート情報収集部230は、文書の収集要求に対応してサイト110から送信された文書のアップデート情報を収集してもよい。
このとき、アップデート情報収集部230がサイト110から収集する文書のアップデート情報は、少なくとも1つの要素を含むXMLの文書形式であってもよい。具体的に、アップデート情報収集部230は、サイト110からXML形式に構成されたシンジケーション文書が伝達されて文書のアップデート情報を収集してもよい。
また、文書のアップデート情報は下記の表4のような要素を含んでもよい。
Figure 0005959163

このとき、リンク(link)要素のrel属性値は下記の表5のように指定してもよい。具体的に、表5に指定される値に応じてシンジケーション文書と関連するリソースは変わり得る。
Figure 0005959163

また、アップデート情報収集部230が受信するXML形式の文書のシンジケーション文書の最小単位はエントリ(entry)要素1つに構成されたエントリ文書である。
また、アップデート情報収集部230は要素が複数である場合、要素グループに設定して収集してもよい。具体的には、1つのシンジケーション文書に複数のエントリ要素を含む場合、アップデート情報収集部230は、複数のエントリ要素をフィード(feed)要素にグループ化して収集してもよい。このとき、フィード要素でグループ化された文書のアップデート情報はフィード文書の形式であってもよい。
一例として、1つのシンジケーション文書に複数のエントリ要素が含まれる場合、エントリ要素の他に下記の表6のような要素がフィード要素に追加的に含まれてもよい。
Figure 0005959163

また、アップデート情報収集部230は、識別情報に含まれた配布期間に基づいて文書のアップデート情報を収集してもよい。具体的には、アップデート情報収集部230は、識別情報に表1のstart−timeとend−timeが含まれた場合、識別情報に該当する文書はstart−timeに設定された時間からend−timeに設定された時間までアップデート情報を収集してもよい。
以上の構成はサイト110から文書のアップデート情報を収集する過程を説明したものである。文書収集システム120はサイト110から収集した文書のアップデート情報を検索に活用してもよい。
サイト110から検索要求を受信した場合、検索結果提供部240は検索要求に対応する検索結果をサイト110にリターンしてもよい。このとき、検索要求はキーワードとキーワードによるオプションを含んでもよい。
具体的には、検索結果提供部240は、アップデート情報収集部230が収集した文書のアップデート情報から検索要求に対応する検索結果を抽出してサイト110に提供してもよい。このとき、サイト110は、サイトインタフェースによって文書収集システム120から受信した検索結果をレンダリングして表示してもよい。すなわち、文書収集システム120はサイト110に対する個別の検索DBの役割を行ってもよい。
図3は、本発明で用いられるリソースの構造を示す図である。
本発明で用いられるリソースは、図3に示すようにサイト310、チャネル320、および記事330の階層的な構造を有してもよい。
具体的には、サイト310は、第1チャネル321、第2チャネル322〜第Nチャネル323のように複数のチャネル320から構成されてもよい。また、各チャネルは、第1記事331、第2記事332〜第n記事333のように複数の記事330により構成してもよい。このとき、記事は文書に対応する。
一例として、識別情報のidがsiteであり、タイプがarticleである場合、サイト110は、表3によってサイト310に含まれた全ての記事330のアップデート情報を文書収集システム120に送信してもよい。すなわち、サイト110は文書の収集範囲を表3のようなパラメータによって決定してもよい。
図4は、本発明の一実施形態に係る文書収集方法を示すフローチャートである。
ステップS410において、識別情報受信部210はサイト110からアップデートが発生した文書の識別情報を受信してもよい。このとき、識別情報は文書と関連するリンク情報を含んでもよい。
ステップS420において、収集要求伝達部220は、ステップS410で受信した識別情報によってサイト110に文書の収集要求を伝達してもよい。このとき、収集要求伝達部220は、識別情報に含まれたリンク情報に指定された経路を用いてサイト110に文書の収集要求を伝達してもよい。
ステップS430において、アップデート情報収集部230は、ステップS420で送信した文書の収集要求に対応してサイト110から文書のアップデート情報を収集してもよい。このとき、アップデート情報収集部230がサイト110から収集する文書のアップデート情報は少なくとも1つの要素を含むXML形式の文書であってもよい。
ステップS410〜ステップS430は、文書収集システム120がサイト110から文書のアップデート内容を収集する過程を示す。その後、ステップS440〜ステップS460は、文書収集システム120が文書のアップデート内容に基づいて検索結果を提供する過程を示す。
ステップS440において、検索結果提供部240はサイト110から検索要求を受信してもよい。
ステップS450において、検索結果提供部240は、ステップS440で受信した検索要求を用いてステップS430で収集した文書のアップデート情報から検索結果を抽出してもよい。
ステップS460において、検索結果提供部240は、ステップS450で抽出した検索結果をサイト110に送信してもよい。このとき、サイト110は、受信した検索結果をサイトインタフェースによってレンダリングして表示してもよい。
図5は、本発明の他の実施形態によって収集した文書を検索するシステムの一例である。
本発明に係る文書収集システム120は、図5に示すように収集した文書のアップデート情報を検索する検索サーバ500を別に分離してもよい。
このとき、文書収集システム120は、識別情報受信部210、収集要求伝達部220、およびアップデート情報収集部230を用いてサイト110で文書を収集し、検索サーバ510の要求に応じて収集された文書を検索し、検索結果を検索サーバ500に提供してもよい。
検索サーバ500は、サイト110から検索要求を受信した場合、文書収集システム120に検索要求を送信し、文書収集システム120から検索要求に対応する検索結果を受信してサイト110に提供してもよい。
このとき、検索サーバ500は、サイト受信部510、収集システム送信部520、収集システム受信部530、サイト送信部540を備えてもよい。
このとき、サイト受信部510はサイト110から検索要求を受信し、収集システム送信部520は文書収集システム120にサイト110から受信した検索要求を送信してもよい。
また、収集システム受信部530は文書収集システム120から送信した検索要求に対応する検索結果を受信し、サイト送信部540は受信した検索結果をサイト110に提供してもよい。
すなわち、本発明の一実施形態によれば、サイトから文書のアップデート情報と関連する識別情報に対応する文書だけを収集することによって検索されたくない文書が文書収集システムに収集されることを防止することができる。
本発明の実施形態に係る方法は、多様なコンピュータ手段を介して様々な処理を実行することができるプログラム命令の形態に実現され、コンピュータ読取可能な記録媒体に記録されてもよい。コンピュータ読取可能な媒体は、プログラム命令、データファイル、データ構造などの単独または組み合わせたものを含んでもよい。媒体に記録されるプログラム命令は、本発明の目的のために特別に設計されて構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、光ディスクのような光磁気媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令の例としては、コンパイラによって生成されるような機械語コード(machine code)だけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コード(higher level code)を含む。上述したハードウェア装置は、本発明の動作を行うために1つ以上のソフトウェア階層で作動するように構成されてもよい。
上述したように、本発明は、一例として限定された実施形態と図面とによって説明したが、本発明は、上記の実施形態に限定されることなく、本発明が属する分野における通常の知識を有する者であれば、このような記載から多様な修正および変形が可能である。
したがって、本発明の範囲は説明された実施形態に限定されてはならず、後述する特許請求の範囲だけでなく、この特許請求の範囲と均等なものなどによって定められなければならない。
210 識別情報受信部
220 収集要求伝達部
230 アップデート情報収集部
240 検索結果提供部

Claims (20)

  1. 文書収集システムであって、
    文書のアップデートが発生したとき、少なくとも1つのサイトから前記文書のアップデート情報を収集するために動作し、前記サイトからアップデートが発生した文書の識別情報を受信する識別情報受信部と、
    前記サイトから前記識別情報を受信することによって前記サイトに前記識別情報に対応する前記文書のアップデート情報の収集要求を伝達する収集要求伝達部と、
    前記収集要求に対応して、前記サイトから前記文書のアップデート情報を収集するアップデート情報収集部と、
    を備え
    前記アップデート情報収集部は、
    前記サイトから前記文書のアップデート情報を少なくとも1つの要素を含む文書形式で収集し、
    前記要素が複数である場合、要素グループに設定して収集することを特徴とする文書収集システム。
  2. 前記識別情報受信部は、前記文書と関連するリンク情報を含む識別情報を受信することを特徴とする請求項1に記載の文書収集システム。
  3. 前記アップデート情報収集部は、前記サイトから前記文書のアップデート情報を少なくとも1つの要素を含むXMLの文書形式で収集することを特徴とする請求項1に記載の文書収集システム。
  4. 前記アップデート情報収集部は、前記識別情報に含まれた配布期間に基づいて前記文書のアップデート情報を収集することを特徴とする請求項3に記載の文書収集システム。
  5. 前記サイトは、サイトインタフェースによって検索結果をレンダリングして表示することを特徴とする請求項1に記載の文書収集システム。
  6. 文書のアップデートが発生したとき、少なくとも1つのサイトから前記文書のアップデート情報を収集するために動作し、前記サイトからアップデートが発生した文書の識別情報を受信し、前記サイトから前記識別情報を受信することによって前記サイトに前記識別情報に対応する前記文書のアップデート情報の収集要求を伝達し、前記サイトから前記文書のアップデート情報を少なくとも1つの要素を含む文書形式で収集し、前記要素が複数である場合、要素グループに設定して収集する文書収集システムにサイトから受信した検索要求を送信する文書システム送信部と、
    前記文書収集システムから前記検索要求に対応する検索結果を受信する文書システム受信部と、
    前記検索結果を前記サイトに提供するサイト送信部と、
    を備えることを特徴とする検索サーバ。
  7. 前記サイトは、サイトインタフェースによって前記検索結果をレンダリングして表示することを特徴とする請求項に記載の検索サーバ。
  8. 前記前記文書収集システムは、前記サイトから前記文書のアップデート情報を少なくとも1つの要素を含むXMLの文書形式に収集することを特徴とする請求項に記載の検索サーバ。
  9. 前記文書収集システムは、前記識別情報に含まれた配布期間に基づいて前記文書のアップデート情報を収集することを特徴とする請求項に記載の検索サーバ。
  10. 文書のアップデートが発生したとき、少なくとも1つのサイトから前記文書のアップデート情報を収集するために動作し、前記サイトからアップデートが発生した文書の識別情報を受信し、
    前記サイトから前記識別情報を受信することによって前記サイトに前記識別情報に対応する前記文書のアップデート情報の収集要求を伝達し、
    前記収集要求に対応して、前記サイトから前記文書のアップデート情報を少なくとも1つの要素を含む文書形式で収集し、前記要素が複数である場合、要素グループに設定して収集すること、
    を含むことを特徴とする文書収集方法。
  11. 前記識別情報を受信することは、前記文書と関連するリンク情報を含む識別情報を受信することを特徴とする請求項10に記載の文書収集方法。
  12. 前記アップデート情報を収集することは、前記サイトから前記文書のアップデート情報を少なくとも1つの要素を含むXMLの文書形式で収集することを特徴とする請求項10に記載の文書収集方法。
  13. 前記アップデート情報を収集することは、前記要素が複数である場合、要素グループに設定して収集することを特徴とする請求項12に記載の文書収集方法。
  14. 前記アップデート情報を収集することは、前記識別情報に含まれた配布期間に基づいて前記文書のアップデート情報を収集することを特徴とする請求項12に記載の文書収集方法。
  15. 前記サイトがサイトインタフェースによって検索結果をレンダリングして表示することをさらに含むことを特徴とする請求項10に記載の文書収集方法。
  16. 文書のアップデートが発生したとき、少なくとも1つのサイトから前記文書のアップデート情報を収集するために動作し、前記サイトからアップデートが発生した文書の識別情報を受信し、前記サイトから前記識別情報を受信することによって前記サイトに前記識別情報に対応する前記文書のアップデート情報の収集要求を伝達し、前記サイトから前記文書のアップデート情報を少なくとも1つの要素を含む文書形式で収集し、前記要素が複数である場合、要素グループに設定して収集する文書収集システムにサイトから受信した検索要求を送信し、
    前記文書収集システムから前記検索要求に対応する検索結果を受信し、
    前記検索結果を前記サイトに提供すること、
    を含むことを特徴とする検索方法。
  17. 前記サイトは、サイトインタフェースによって前記検索結果をレンダリングして表示することを特徴とする請求項16に記載の検索方法。
  18. 前記文書収集システムは、前記サイトから前記文書のアップデート情報を少なくとも1つの要素を含むXMLの文書形式で収集することを特徴とする請求項16に記載の検索方法。
  19. 前記文書収集システムは、前記識別情報に含まれた配布期間に基づいて前記文書のアップデート情報を収集することを特徴とする請求項16に記載の検索方法。
  20. 請求項10乃至請求項19のいずれか1項の方法を実行するためのプログラムが記録されたコンピュータで読み出し可能な記録媒体。
JP2011135481A 2010-06-24 2011-06-17 文書収集システムおよび方法 Active JP5959163B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2010-0060185 2010-06-24
KR1020100060185A KR101120387B1 (ko) 2010-06-24 2010-06-24 문서 수집 시스템 및 방법

Publications (2)

Publication Number Publication Date
JP2012009024A JP2012009024A (ja) 2012-01-12
JP5959163B2 true JP5959163B2 (ja) 2016-08-02

Family

ID=44773211

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011135481A Active JP5959163B2 (ja) 2010-06-24 2011-06-17 文書収集システムおよび方法

Country Status (5)

Country Link
US (1) US8930343B2 (ja)
EP (1) EP2400409A3 (ja)
JP (1) JP5959163B2 (ja)
KR (1) KR101120387B1 (ja)
CN (1) CN102298609B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8713368B2 (en) * 2012-08-22 2014-04-29 Sap Ag Methods for testing OData services
JP5823943B2 (ja) * 2012-10-10 2015-11-25 株式会社Ubic フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
US9112790B2 (en) * 2013-06-25 2015-08-18 Google Inc. Fabric network
US9973299B2 (en) 2014-10-14 2018-05-15 At&T Intellectual Property I, L.P. Method and apparatus for adjusting a mode of communication in a communication network
KR20230143753A (ko) 2022-04-06 2023-10-13 주식회사 하나금융티아이 텍스트 검출 및 인식 학습을 위해 사용되는 문서 이미지의 수집 장치 및 방법

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001125823A (ja) * 1999-10-29 2001-05-11 Fujitsu Ltd プッシュサービスシステムおよびプッシュサービス処理方法
US9460414B2 (en) * 2001-08-28 2016-10-04 Eugene M. Lee Computer assisted and/or implemented process and system for annotating and/or linking documents and data, optionally in an intellectual property management system
US8676837B2 (en) * 2003-12-31 2014-03-18 Google Inc. Systems and methods for personalizing aggregated news content
US8086492B2 (en) * 2004-03-23 2011-12-27 Douglas Ashbaugh Frame-based network advertising and exchange therefor
US8131702B1 (en) * 2004-03-31 2012-03-06 Google Inc. Systems and methods for browsing historical content
JP2006099341A (ja) * 2004-09-29 2006-04-13 Bank Of Tokyo-Mitsubishi Ufj Ltd 更新履歴生成装置及びプログラム
CN101416173B (zh) * 2006-03-31 2010-12-15 STTWebOS股份有限公司 在基于万维网的环境下交换信息的方法及装置
JP4982139B2 (ja) * 2006-09-14 2012-07-25 ソフトバンクモバイル株式会社 中継サーバ及び情報提供システム
JP2008158589A (ja) * 2006-12-20 2008-07-10 Oki Electric Ind Co Ltd 更新情報通知装置及び更新情報通知プログラム
US8255382B2 (en) * 2007-06-20 2012-08-28 Boopsie, Inc. Dynamic menus for multi-prefix interactive mobile searches
JP2008257317A (ja) * 2007-04-02 2008-10-23 Fuji Xerox Co Ltd 情報処理装置、情報処理システム及びプログラム
JP2008262520A (ja) * 2007-04-11 2008-10-30 Dynasoft Corp インターネット情報検索システム及びその方法
US8255411B1 (en) * 2008-06-19 2012-08-28 Boopsie, Inc. Dynamic menus for multi-prefix interactive mobile searches
US9152942B2 (en) * 2007-08-03 2015-10-06 International Business Machines Corporation Using a group list server as a syndication feed server
CN101493828A (zh) * 2008-01-23 2009-07-29 孔雪 主动式自动订制web应用的系统和方法
US8768909B2 (en) * 2008-06-19 2014-07-01 Tropare, Inc. Dynamic menus for multi-prefix interactive mobile searches using predictive text to yield targeted advertisements
JP5163379B2 (ja) * 2008-09-11 2013-03-13 富士通株式会社 文書群検出方法及び文書群検出装置
JP5736638B2 (ja) * 2008-10-20 2015-06-17 株式会社リコー 画像処理装置
KR20100060185A (ko) 2008-11-27 2010-06-07 삼성전자주식회사 무선통신 시스템에서 간섭 제어 방법 및 장치
US8281233B2 (en) * 2009-06-15 2012-10-02 Microsoft Corporation Architecture to expose internal business data on a website
US20110173177A1 (en) * 2010-01-11 2011-07-14 Flavio Junqueira Sightful cache: efficient invalidation for search engine caching
US9116990B2 (en) * 2010-05-27 2015-08-25 Microsoft Technology Licensing, Llc Enhancing freshness of search results

Also Published As

Publication number Publication date
CN102298609A (zh) 2011-12-28
EP2400409A3 (en) 2012-12-26
KR20110140019A (ko) 2011-12-30
JP2012009024A (ja) 2012-01-12
CN102298609B (zh) 2016-05-18
EP2400409A2 (en) 2011-12-28
US8930343B2 (en) 2015-01-06
KR101120387B1 (ko) 2012-03-09
US20110320427A1 (en) 2011-12-29
EP2400409A8 (en) 2013-08-07

Similar Documents

Publication Publication Date Title
KR101105970B1 (ko) 다양한 포맷의 컨텐츠를 관리하는 미디어 미디에이터 시스템 및 방법
CN107273409B (zh) 一种网络数据采集、存储及处理方法及系统
US20110055352A1 (en) System and method for brokering content and metadata of content on network
CN102521251B (zh) 个性化搜索直达的方法、实现该方法的装置和搜索服务器
CN102164186B (zh) 一种实现云搜索服务的方法及系统
JP5959163B2 (ja) 文書収集システムおよび方法
CN101408877B (zh) 树节点加载系统及其方法
JP5600736B2 (ja) データベース管理方法およびシステム
CN102314455A (zh) 计算网页点击流量的方法及系统
CN103891247B (zh) 用于基于域名系统的设备和目标发现的方法和系统
CN102402589A (zh) 一种提供与搜索请求相关的参考搜索信息的方法与设备
JP5782937B2 (ja) タグ管理装置、タグ管理システムおよびタグ管理プログラム
CN102510536A (zh) 一种互联网音视频下载方法
JP2015052821A (ja) 通信装置および通信方法
CN104199893A (zh) 一种快速将全媒体内容发布的系统和方法
US9189546B2 (en) Semantic client, semantic information management server, method of generating semantic information, method of searching semantic information, and computer program recording medium for performing the methods
CN111159590A (zh) 一种基于前后端业务调用链路的串联方法及装置
JP3857078B2 (ja) 情報提供方法及び情報提供装置
JP4602104B2 (ja) サイト情報収集システム
KR102169930B1 (ko) M2M/IoT 플랫폼에서의 시맨틱 정보 관리 방법
JP2011039766A (ja) 情報配信サーバ、情報配信システム、情報配信プログラム、及び情報配信方法
JP2000122912A (ja) 資源収集方法及び資源収集装置
JP5610215B2 (ja) 検索装置、検索システム、検索方法及び検索プログラム
KR20150031083A (ko) 웹사이트 접속 시간 단축 방법 및 이를 위한 장치
CN103886075B (zh) 分布式网络感知信息存储和查询系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150317

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150617

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160509

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160531

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160621

R150 Certificate of patent or registration of utility model

Ref document number: 5959163

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250