JP4957796B2 - 差分算出プログラム、差分算出装置および差分算出方法 - Google Patents

差分算出プログラム、差分算出装置および差分算出方法 Download PDF

Info

Publication number
JP4957796B2
JP4957796B2 JP2009515059A JP2009515059A JP4957796B2 JP 4957796 B2 JP4957796 B2 JP 4957796B2 JP 2009515059 A JP2009515059 A JP 2009515059A JP 2009515059 A JP2009515059 A JP 2009515059A JP 4957796 B2 JP4957796 B2 JP 4957796B2
Authority
JP
Japan
Prior art keywords
information
extraction
difference calculation
store name
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009515059A
Other languages
English (en)
Other versions
JPWO2008142791A1 (ja
Inventor
友哉 岩倉
青史 岡本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2008142791A1 publication Critical patent/JPWO2008142791A1/ja
Application granted granted Critical
Publication of JP4957796B2 publication Critical patent/JP4957796B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、Webページの差分情報を算出するのに有用な差分算出プログラム、差分算出装置および差分算出方法に関し、特に、異なる時期のWebページに含まれる情報から、利用者が必要とする特定の情報のみを対象とした差分情報を算出させることができる差分算出プログラム、差分算出装置および差分算出方法に関する。
近年、インターネットのWebページを利用して様々な情報が世界中に発信されている。そして、Webページ上の情報は頻繁に更新されている。下記特許文献1には、Webページが更新された場合に、更新された情報を赤字で表示することによって、どの部分が更新されたのかを一目で判別できるようにした技術が開示されている。
特開2001−34525号公報
ところが、従来の技術では、Webページに含まれる全ての情報を判別の対象としているため、例えば、本文は更新されていないのに、利用者にとっては不要な情報となるバナー広告等が更新された場合にも更新情報として表示されてしまう。
この発明は、上述した従来技術による問題点を解消するためになされたものであり、異なる時期のWebページに含まれる情報から、利用者が必要とする特定の情報のみを対象とした差分情報を算出させることができる差分算出プログラム、差分算出装置および差分算出方法を提供することを目的とする。
上述した課題を解決し、目的を達成するため、本発明に係る差分算出プログラムは、検索キーに基づいてWebページを収集する収集手順と、収集手順によって収集されたWebページから店舗名および予め定められた当該店舗名に付随する特定の抽出対象を抽出情報として抽出する抽出手順と、抽出手順によって抽出された抽出情報、および当該抽出情報を表示するWebページを特定するページ特定情報を、当該抽出情報の抽出時を特定する日付情報に対応付けて記憶させる記憶手順と、2つの比較対象時期が設定された場合に、当該2つの比較対象時期に合致する日付情報に対応付けて記憶されている前記店舗名の項目、および、当該店舗名と前記抽出対象の全組み合わせとの組み合わせの項目それぞれにカウントされた件数の差分情報に基づいて新たに追加された件数を算出する差分算出手順と、をコンピュータに実行させることを特徴とする。
また、本発明に係る差分算出装置は、検索キーに基づいてWebページを収集する収集手段と、収集手段によって収集されたWebページから店舗名および予め定められた当該店舗名に付随する特定の抽出対象を抽出情報として抽出する抽出手段と、抽出手段によって抽出された抽出情報、および当該抽出情報を表示するWebページを特定するページ特定情報を、当該抽出情報の抽出時を特定する日付情報に対応付けて記憶させる記憶手段と、2つの比較対象時期が設定された場合に、当該2つの比較対象時期に合致する日付情報に対応付けて記憶されている前記店舗名の項目、および、当該店舗名と前記抽出対象の全組み合わせとの組み合わせの項目それぞれにカウントされた件数の差分情報に基づいて新たに追加された件数を算出する差分算出手段と、を備えることを特徴とする。
また、本発明に係る差分算出方法は、検索キーに基づいてWebページを収集する収集工程と、収集工程において収集されたWebページから店舗名および予め定められた当該店舗名に付随する特定の抽出対象を抽出情報として抽出する抽出工程と、抽出工程において抽出された抽出情報、および当該抽出情報を表示するWebページを特定するページ特定情報を、当該抽出情報の抽出時を特定する日付情報に対応付けて記憶させる記憶工程と、2つの比較対象時期が設定された場合に、当該2つの比較対象時期に合致する日付情報に対応付けて記憶されている前記店舗名の項目、および、当該店舗名と前記抽出対象の全組み合わせとの組み合わせの項目それぞれにカウントされた件数の差分情報に基づいて新たに追加された件数を算出する差分算出工程と、をコンピュータが実行することを特徴とする。
これらの発明によれば、検索キーに基づいて収集されたWebページから予め定められた特定の抽出対象を抽出情報として抽出させることができ、この抽出情報と、Webページを特定するページ特定情報とを、抽出情報の抽出時を特定する日付情報に対応付けて記憶させることができるため、複数の比較対象時期が設定された場合に、この比較対象時期に合致する日付情報に対応付けて記憶されている抽出情報とページ特定情報との組数を件数として上記比較対象時期ごとにカウントし、カウントされた件数間の差分情報を算出させることができる。これにより、異なる時期のWebページに含まれる情報から、予め定められた特定の抽出対象に関する差分情報を算出させることができる。
また、本発明は、上記発明において、上記抽出手順は、予め記憶されている抽出規則に従って、収集手順によって収集されたWebページから前記店舗名を含む抽出情報を抽出することを特徴とする。
また、本発明は、上記発明において、抽出対象を表示するWebページを収集し、収集されたWebページに含まれる抽出対象の一部または全部と、当該抽出対象の一部または全部の直前または直後にある語句との組み合わせごとに、抽出対象に該当するか否かを示す抽出規則を生成する抽出規則生成手順をさらにコンピュータに実行させることを特徴とする。
本発明によれば、検索キーに基づいて収集されたWebページから予め定められた特定の抽出対象を抽出情報として抽出させることができ、この抽出情報と、Webページを特定するページ特定情報とを、抽出情報の抽出時を特定する日付情報に対応付けて記憶させることができるため、複数の比較対象時期が設定された場合に、この比較対象時期に合致する日付情報に対応付けて記憶されている抽出情報とページ特定情報との組数を件数として上記比較対象時期ごとにカウントし、カウントされた件数間の差分情報を算出させることができる。
すなわち、本発明によれば、異なる時期のWebページに含まれる情報から、利用者が必要とする特定の情報のみを対象とした差分情報を算出させることができるという効果を奏する。
以下に添付図面を参照して、この発明に係る差分算出プログラム、差分算出装置および差分算出方法の好適な実施形態を詳細に説明する。
まず、本実施例における差分算出装置の機能構成について説明する。図1は、差分算出装置の機能構成図である。同図に示すように、差分算出装置10は、差分算出装置10を全体制御する制御部11と、制御部11での処理に用いられる抽出規則ファイル121や抽出情報ファイル122を記憶する記憶部12とを有する。
制御部11は、Webページ収集部111と、情報抽出部112と、抽出情報整合部113と、抽出情報格納部114と、差分算出部115と、算出結果表示部116と、抽出規則生成部117とを有する。
ここで、図2を参照して、抽出情報ファイル122のデータ構成について説明する。図2は、抽出情報ファイルのデータ構成図である。抽出情報ファイル122は、データ項目として、例えば、店舗名、住所、電話番号、抽出URL、抽出日を有する。店舗名には、例えば、“Aコンビニ新宿店”のように店舗を特定するための名称が格納され、住所には、店舗の所在地が格納され、電話番号には、店舗の電話番号が格納される。抽出URLには、店舗名、住所、電話番号を表示するWebページのURLが格納され、抽出日には、Webページから店舗名・住所・電話番号が抽出された日付情報が格納される。
図1に示すWebページ収集部111は、利用者によって指定された検索キーに基づいてWebページを収集する。例えば、検索エンジンを用いて検索キーを含む情報が表示されているWebページのURLを収集し、このURLに対応するWebページを収集する。検索キーとしては、例えば、“コンビニエンスストア”、“Aコンビニ”等が該当する。
情報抽出部112は、Webページ収集部111によって収集されたWebページから抽出対象を抽出する。この抽出対象は、利用者によって設定される情報であり、例えば、店舗に関する情報や、駐車場に関する情報等が該当する。抽出対象としては、一または複数の情報を設定することができる。本実施例では、抽出対象として、店舗名、住所、電話番号という三つの情報が設定されている場合について説明する。
なお、店舗名、住所、電話番号のうち、店舗名は必須の情報となり、住所と電話番号は店舗名に付随する情報となる。すなわち、収集されたWebページの中に、抽出対象となる店舗名が含まれている場合には、この店舗名に対応する住所や電話番号を抽出する。一方、収集されたWebページの中に、抽出対象となる店舗名が含まれていない場合には、住所や電話番号を抽出しない。また、情報抽出部112によって抽出される抽出情報には、少なくとも店舗名が含まれていればよい。
情報抽出部112が、抽出対象である店舗名、住所、電話番号をWebページから抽出するやり方について以下に説明する。最初に、通常のWebページから抽出対象を抽出するやり方について説明し、続いて、テーブルや箇条書き形式のWebページから抽出対象を抽出するやり方について説明する。
最初に、通常のWebページから抽出対象を抽出するやり方について説明する。この場合に、情報抽出部112は、抽出規則ファイル121に記憶されている抽出規則に従って、Webページ収集部111によって収集されたWebページから抽出対象である店舗名、住所、電話番号を抽出する。抽出規則とは、Webページに表示されている情報が、抽出対象に該当するか否かを判定する際に用いる規則や、Webページ内のどこを抽出するか否かを判定する際に用いる規則である。
ここで、例えば、店舗名には、“Aコンビニ新宿店”のように、“Aコンビニ”というコンビニエンスストアの店名を表す語と“新宿”というコンビニエンスストアの設置場所を表す語とを連結させているものがある。同じWebページ内に店名と場所とが分離して表示されている場合に、その表示が抽出対象である店舗名を表しているのか否かを一律に判定することは難しい。そこで、店舗名を含むWebページを収集し、店舗名や、店名、場所に関する表現を抽出する規則を作成した。そして、Webページに店名や場所が含まれている場合に、抽出規則を用いて、その表示が店舗名として表示されているのか否かを判定させることとした。
例えば、「Aコンビニ新宿店に行きました」という情報が表示されているWebページと、「新宿でAコンビニの看板を発見した」という情報が表示されているWebページとがあった場合に、前者のWebページには、“Aコンビニ新宿店”という店舗名が含まれているが、後者のWebページには、“Aコンビニ”という店名は含まれているものの店舗名までは含まれていないことになる。このような場合に、店舗名の抽出規則として、「“Aコンビニ+語句”であれば店舗名である」および「“Aコンビニ+の+語句”であれば店舗名ではない」という抽出規則を用意しておけば、前者の場合には、Webページから“Aコンビニ新宿店”という店舗名を抽出させることができ、後者の場合には、“Aコンビニ”を店舗名として抽出させないことができる。
抽出規則は、例えば、抽出規則生成部117によって生成される。抽出規則生成部117は、抽出対象である店舗名を含むWebページを収集し、収集したWebページに含まれる店舗名の一部または全部と、この店舗名の一部または全部の直前または直後にある語句との組み合わせごとに、店舗名に該当するか否かを示す抽出規則を生成する。抽出規則を生成する場合に、店名の同義語辞書と、店舗名のうちの場所部分からなる店舗名一覧とを用いる。店名の同義語辞書には、例えば、“Aコンビニ”、“Aconveni”等が格納され、店舗名一覧には、例えば、“新宿店”、“渋谷店”等が格納される。
具体的には、最初に、店名の同義語辞書を用いて、“Aコンビニ”を示す語を含む文章をWebページから抽出する。これにより、例えば、「Aコンビニ新宿店で買い物をした」、「Aコンビニ新宿店に行きました」、「新宿でAコンビニの看板を発見した」という文章が抽出される。続いて、抽出した文章に、店舗名一覧に含まれる店舗名と合致する情報があるか否かを判定する。これにより、例えば、「Aコンビニ新宿店でお買い物をした」、「Aコンビニ新宿店に行きました」には、店舗名“Aコンビニ新宿店”があり、「新宿でAコンビニの看板を発見した」には、店舗名がないと判定される。続いて、この判定結果を用いて、「<店舗名>Aコンビニ新宿店</店舗名>で買い物をした」、「<店舗名>Aコンビニ新宿店</店舗名>に行きました」、「新宿でAコンビニの看板を発見した」のような抽出箇所を「<店舗名>...</店舗名>」というタグで囲んだデータを用意し、教師あり学習手法を用いて抽出規則を生成する。これにより、例えば、「“Aコンビニ+語句”であれば店舗名である」、「“Aコンビニ+の+語句”であれば店舗名ではない」のような抽出規則が生成される。
続いて、テーブルを含むWebページから抽出対象を抽出するやり方について説明する。この場合に、情報抽出部112は、Webページ収集部111によって収集されたWebページにテーブルが含まれているか否かを判定し、テーブルが含まれている場合に、そのテーブルに表示されている抽出対象である店舗名、住所、電話番号を抽出する。具体的には、最初に、Webページ収集部111によって収集されたWebページから、テーブルを表示させるためのタグ情報であるテーブルタグ(例えば、<table>、</table>)が組み込まれているか否かを判定する。続いて、テーブルタグが組み込まれていると判定した場合に、テーブルタグに基づいて、テーブルがどのように構成されているのかを特定する。続いて、特定したテーブルから抽出対象である店舗名、住所、電話番号を抽出する。例えば、テーブルの表示属性として、店舗名、住所、電話番号を示す表示属性が設定されている場合には、これらの表示属性に従って格納されている店舗名、住所、電話番号を抽出する。一方、テーブルの表示属性として、店舗名、住所、電話番号を示す表示属性が設定されていない場合には、住所辞書および電話番号辞書を用いて、住所および電話番号の表示位置を特定し、この住所および電話番号の表示位置とテーブル構成とに基づいて店舗名の表示位置を予測して特定する。そして、各表示位置に格納されている店舗名、住所、電話番号を抽出する。
ここで、住所辞書を用いて、テーブル内に表示されている住所を特定するやり方について説明する。住所辞書には、住所一覧と丁番地規則とが含まれる。住所一覧には、住所から丁番地部分を除いた地名部分が格納される。丁番地規則には、丁番地として表示される形態の規則が格納される。丁番地規則としては、例えば、“<地名>¥d+−¥d+−¥d”、“<地名>¥d+丁目¥d+番地¥d+号”等が該当する。ここで、<地名>は住所一覧の地名部分を示し、¥dは数字列を示し、+は区切り記号を示す。このような住所規則を用意することで、例えば、テーブル内に表示されている情報が、住所一覧に合致する地名に続いて“4−1−1”や“4丁目1番地1号”である場合には、この情報が住所として特定される。
また、電話番号辞書を用いて、テーブル内に表示されている電話番号を特定するやり方について説明する。電話番号辞書には、電話番号規則が含まれる。電話番号規則には、電話番号として表示される形態の規則が格納される。電話番号規則としては、例えば、“0¥d{1}−¥d{4}−¥d{4}”、“0¥d{2}−¥d{3}−¥d{4}”等が該当する。ここで、¥dは{}内の数だけ連続する数字を示す。このような電話番号規則を用意することで、例えば、テーブル内に表示されている情報が“03−1111−1111”や“044−555−5555”である場合には、この情報が電話番号として特定される。
続いて、箇条書き形式のWebページから抽出対象を抽出するやり方について説明する。箇条書き形式としては、例えば、Webページのテキスト中に、抽出対象である店舗名、住所、電話番号が繰り返し表示されている場合が該当する。この場合に、情報抽出部112は、同一の店舗に関する店舗名、住所、電話番号同士を関連付けてから抽出する。店舗名、住所、電話番号がテキスト形式で繰り返し表示されている場合には、店舗ごとの情報がどこで区切られているのかを識別する必要があるため、同一の店舗に関する情報を関連付ける必要がある。この関連付けの方法としては、店舗名、住所、電話番号のそれぞれが表示されている位置関係を検出し、各表示位置間の距離に応じて関連付けを行う。すなわち、表示位置が近いほど関連性が高いと判定し、ある所定の距離内に出現する最も近い情報同士を同一の店舗に関する情報であるとして関連付ける。ここでいう距離は、抽出対象である店舗名、住所、電話番号の間に出現する単語数のことをいう。なお、Webページに含まれる情報が、店舗名、住所、電話番号のいずれかに該当するか否かは、例えば、店舗名一覧や住所辞書、電話番号辞書等を用いて判定する。
抽出情報整合部113は、情報抽出部112によって抽出された店舗名、住所、電話番号を含む抽出情報を、例えば、正規化処理、名寄せ処理、フィルタリング処理等することで整合化する。正規化処理としては、例えば、小文字のアルファベットを大文字のアルファベットに変換することや、ひらがなをカタカナに変換することや、漢数字を算用数字に変換することや、ハイフン・スペースを削除することや、同義語辞書を用いて意味が同じである語を同一の語に変換することや、住所を郵便番号に変換すること等が該当する。名寄せ処理としては、例えば、抽出された複数の抽出情報を比較して、抽出情報に含まれる店舗名、住所、電話番号のうちの一部の内容が異なっている場合であっても類似度が高い場合には、同一の抽出情報としてまとめること等が該当する。フィルタリング処理としては、例えば、抽出された複数の抽出情報から特定のキーワードを含む抽出情報のみをさらに抽出すること等が該当する。
抽出情報格納部114は、抽出情報整合部113によって整合化された抽出情報を、この抽出情報が表示されているWebページのURLおよび抽出情報が抽出された抽出日に対応付けて抽出情報ファイル122に記憶させる。
差分算出部115は、利用者によって二つの比較対象時期が設定された場合に、それぞれの比較対象時期に属する抽出情報間の差分を算出する差分算出処理を実行する。具体的には、最初に、各比較対象時期に合致する抽出日を有する抽出情報レコードを抽出情報ファイル122から抽出する。続いて、抽出情報レコードの店舗名、住所、電話番号と抽出URLとの組数を件数として、それぞれの比較対象時期ごとにカウントする。続いて、カウントした件数を用いて、二つの比較対象時期の差分情報を抽出することで、差分情報を算出する。この算出された差分情報を解析することで、二つの比較対象時期における店舗数の増減等を把握することができる。
また、差分算出部115は、それぞれの比較対象時期ごとに抽出された抽出情報に含まれる店舗名同士を比較して、新規に開店された店舗および閉店された店舗を特定する。具体的には、二つの比較対象時期のうちの後の比較対象時期で抽出された抽出情報に含まれる店舗名が、前の比較対象時期で抽出された抽出情報に含まれていない場合には、その店舗名に対応する店舗が新規に開店された店舗であると特定する。一方、前の比較対象時期で抽出された抽出情報に含まれる店舗名が、後の比較対象時期で抽出された抽出情報に含まれていない場合には、その店舗名に対応する店舗が閉店された店舗であると特定する。なお、利用者によって設定される比較対象時期は二つの比較対象時期に限定されず、三つ以上の複数の比較対象時期であってもよい。
算出結果表示部116は、2種類の差分算出結果をモニタに表示させる。一つめの差分算出結果は、差分算出部115によって特定された開店店舗および閉店店舗に関する差分算出結果であり、二つめの差分算出結果は、差分算出部115によって算出された差分情報に基づいて表示される差分算出結果である。
図3を参照して一つめの差分算出結果について説明する。図3は、差分算出結果のイメージ図である。同図は、差分算出部115によって特定された開店店舗および閉店店舗に関する情報を表示したものである。同図に示すように、Aコンビニ広尾店は、利用者によって設定された二つの比較対象時期のうちの前の比較対象時期から後の比較対象時期までの間に新規に開店された店舗であることが示されており、Aコンビニ上野店は、利用者によって設定された二つの比較対象時期のうちの前の比較対象時期から後の比較対象時期までに閉店された店舗であることが示されている。
図4を参照して二つめの差分算出結果について説明する。図4は、差分算出結果のイメージ図である。同図は、差分算出部115によって算出された2月1日と4月1日におけるAコンビニに関する抽出対象間の差分を表示したものである。同図を参照すると、Aコンビニの店舗名と住所と電話番号の全てが表示されているWebページは、2月は190件抽出されたのに対し、4月は175件となり、2月から4月の間で15件減少したことがわかる。そして、4月の175件の内訳として、150件が2月から継続して維持されているものであり、3件が2月には店舗名と住所が表示されているWebページから抽出されていたものであり、残りの22件が2月から4月の間に新規に開店されたものとして示されている。また、Aコンビニの店舗名と電話番号が表示されているWebページは、2月は40件抽出されたのに対し、4月は41件となり、2月から4月の間で1件増加したことがわかる。そして、4月の41件の内訳として、39件が2月から継続して維持されているものであり、残りの2件が2月から4月の間に新規に開店されたものとして示されている。
同様にして、Aコンビニの店舗名と住所が表示されているWebページは、2月は85件抽出されたのに対し、4月は98件となり、2月から4月の間で13件増加したことがわかる。そして、4月の98件の内訳として、1件が2月には店舗名と住所と電話番号の全てが表示されているWebページから抽出されていたものであり、80件が2月から継続して維持されているものであり、5件が2月には店舗名のみが表示されているWebページから抽出されていたものであり、残りの12件が2月から4月の間に新規に開店されたものとして示されている。また、Aコンビニの店舗名のみが表示されているWebページは、2月は77件抽出されたのに対し、4月は60件となり、2月から4月の間で17件減少したことがわかる。そして、4月の60件の内訳として、1件が2月には店舗名と電話番号が表示されているWebページから抽出されていたものであり、2件が2月には店舗名と住所が表示されているWebページから抽出されていたものであり、55件が2月から継続して維持されているものであり、残りの2件が2月から4月の間に新規に開店されたものとして示されている。
次に、図5を参照して、本実施例における差分算出装置10の処理手順のうち、抽出対象を抽出して記憶させるまでの処理手順について説明する。図5は、差分算出装置10の処理手順を示すフローチャートである。この処理手順では、検索キーとして“Aコンビニ”が指定され、抽出対象として店舗名、住所、電話番号が設定されている場合の手順について説明する。
最初に、差分算出装置10のWebページ収集部111は、利用者によって指定された“Aコンビニ”という検索キーに基づいて、“Aコンビニ”を含む情報が表示されているWebページのURLを収集し(ステップS101)、このURLに対応するWebページを収集する(ステップS102)。
続いて、差分算出装置10の情報抽出部112は、Webページ収集部111によって収集されたWebページから抽出対象である店舗名、住所、電話番号を抽出する(ステップS103)。
続いて、差分算出装置10の抽出情報整合部113は、情報抽出部112によって抽出された店舗名、住所、電話番号を含む抽出情報を、例えば、正規化処理、名寄せ処理、フィルタリング処理等することで整合化する(ステップS104)。
続いて、差分算出装置10の抽出情報格納部114は、抽出情報整合部113によって整合化された抽出情報を、抽出情報が表示されているWebページのURLおよび抽出情報が抽出された抽出日に対応付けて抽出情報ファイル122に記憶させる(ステップS105)。
次に、図6を参照して、本実施例における差分算出装置10の処理手順のうち、二つの比較対象時期を指定して算出結果を表示させるまでの処理手順について説明する。図6は、差分算出装置10の処理手順を示すフローチャートである。この処理手順では、二つの比較対象時期として“2月1日”と“4月1日”が指定され、抽出対象として店舗名、住所、電話番号が設定されている場合の手順について説明する。
最初に、差分算出装置10を利用する利用者の操作指示によって、二つの比較対象時期として“2月1日”と“4月1日”が指定された場合(ステップS201)に、差分算出装置10の差分算出部115は、それぞれの比較対象時期に属する抽出情報間の差分を算出する差分算出処理を実行する(ステップS202)。
続いて、差分算出装置10の算出結果表示部116は、差分算出部115によって算出された差分情報に基づいて、例えば、図4に示す差分算出結果をモニタに表示させる(ステップS203)。
上述してきたように、本実施例の差分算出装置10では、検索キーに基づいて収集されたWebページから予め定められた特定の抽出対象を抽出情報として抽出させることができ、この抽出情報と、Webページを特定するページ特定情報とを、抽出情報の抽出時を特定する日付情報に対応付けて記憶させることができる。また、複数の比較対象時期が設定された場合に、この比較対象時期に合致する日付情報に対応付けて記憶されている抽出情報とページ特定情報との組数を件数として上記比較対象時期ごとにカウントし、カウントされた件数間の差分情報を算出させることができる。これにより、異なる時期のWebページに含まれる情報から、予め定められた特定の抽出対象に関する差分情報を算出させることができる。
なお、図1に示した本実施例における差分算出装置10の構成は、本発明の要旨を逸脱しない範囲で種々に変更することができる。例えば、差分算出装置10の制御部11の機能をソフトウェアとして実装し、これをコンピュータで実行することにより、差分算出装置10と同等の機能を実現することもできる。以下に、制御部11の機能をソフトウェアとして実装した差分算出プログラム1071を実行するコンピュータの一例を示す。
図7は、このコンピュータ1000は、各種演算処理を実行するCPU(Central Processing Unit)1010と、利用差分算出プログラムを実行するコンピュータの機能構成図である。者からのデータの入力を受け付ける入力装置1020と、各種情報を表示するモニタ1030と、記録媒体からプログラム等を読み取る媒体読取装置1040と、ネットワークを介して他のコンピュータとの間でデータの授受をおこなう通信装置1050と、各種情報を一時記憶するRAM(Random Access Memory)1060と、ハードディスク装置1070とをバス1080で接続して構成される。
そして、ハードディスク装置1070には、図1に示した制御部11と同様の機能を有する差分算出プログラム1071と、図1に示した記憶部12に記憶される各種データに対応する差分算出用データ1072とが記憶される。なお、差分算出用データ1072を、適宜分散させ、ネットワークを介して接続された他のコンピュータに記憶させておくこともできる。
そして、CPU1010が差分算出プログラム1071をハードディスク装置1070から読み出してRAM1060に展開することにより、差分算出プログラム1071は、差分算出プロセス1061として機能するようになる。そして、差分算出プロセス1061は、差分算出用データ1072から読み出した情報等を適宜RAM1060上の自身に割り当てられた領域に展開し、この展開したデータ等に基づいて各種データ処理を実行する。
なお、差分算出プログラム1071は、必ずしもハードディスク装置1070に格納されている必要はなく、CD−ROM等の記憶媒体に記憶されたこのプログラムを、コンピュータ1000が読み出して実行するようにしてもよい。また、公衆回線、インターネット、LAN(Local Area Network)、WAN(Wide Area Network)等を介してコンピュータ1000に接続される他のコンピュータ(またはサーバ)等にこのプログラムを記憶させておき、コンピュータ1000がこれらからプログラムを読み出して実行するようにしてもよい。
以上のように、本発明にかかる差分算出プログラム、差分算出装置および差分算出方法は、Webページの差分情報を算出するのに有用な差分算出プログラム、差分算出装置および差分算出方法に関し、特に、異なる時期のWebページに含まれる情報から、利用者が必要とする特定の情報のみを対象とした差分情報を算出させることに適している。
図1は、差分算出装置の機能構成図である。 図2は、抽出情報ファイルのデータ構成図である。 図3は、差分算出結果のイメージ図である。 図4は、差分算出結果のイメージ図である。 図5は、差分算出装置の処理手順を示すフローチャートである。 図6は、差分算出装置10の処理手順を示すフローチャートである。 図7は、差分算出プログラムを実行するコンピュータの機能構成図である。
10 差分算出装置
11 制御部
12 記憶部
111 Webページ収集部
112 情報抽出部
113 抽出情報整合部
114 抽出情報格納部
115 差分算出部
116 算出結果表示部
117 抽出規則生成部
121 抽出規則ファイル
122 抽出情報ファイル
1000 コンピュータ
1010 CPU
1020 入力装置
1030 モニタ
1040 媒体読取装置
1050 通信装置
1060 RAM
1061 差分算出プロセス
1070 ハードディスク装置
1071 差分算出プログラム
1072 差分算出用データ
1080 バス

Claims (5)

  1. 検索キーに基づいてWebページを収集する収集手順と、
    前記収集手順によって収集されたWebページから店舗名および予め定められた当該店舗名に付随する特定の抽出対象を抽出情報として抽出する抽出手順と、
    前記抽出手順によって抽出された前記抽出情報、および当該抽出情報を含むWebページを特定するページ特定情報を、当該抽出情報の抽出時を特定する日付情報に対応付けて記憶させる記憶手順と、
    2つの比較対象時期が設定された場合に、当該2つの比較対象時期に合致する前記日付情報に対応付けて記憶されている前記店舗名の項目、および、当該店舗名と前記抽出対象の全組み合わせとの組み合わせの項目それぞれにカウントされた件数の差分情報に基づいて新たに追加された件数を算出する差分算出手順と、
    をコンピュータに実行させることを特徴とする差分算出プログラム。
  2. 前記抽出手順は、予め記憶されている抽出規則に従って、前記収集手順によって収集されたWebページから前記店舗名を含む抽出情報を抽出することを特徴とする請求項1記載の差分算出プログラム。
  3. 前記抽出対象を表示するWebページを収集し、収集されたWebページに含まれる前記抽出対象の一部または全部と、当該抽出対象の一部または全部の直前または直後にある語句との組み合わせごとに、前記抽出対象に該当するか否かを示す前記抽出規則を生成する抽出規則生成手順を、さらにコンピュータに実行させることを特徴とする請求項2記載の差分算出プログラム。
  4. 検索キーに基づいてWebページを収集する収集手段と、
    前記収集手段によって収集されたWebページから店舗名および予め定められた当該店舗名に付随する特定の抽出対象を抽出情報として抽出する抽出手段と、
    前記抽出手段によって抽出された前記抽出情報、および当該抽出情報を含むWebページを特定するページ特定情報を、当該抽出情報の抽出時を特定する日付情報に対応付けて記憶させる記憶手段と、
    2つの比較対象時期が設定された場合に、当該2つの比較対象時期に合致する前記日付情報に対応付けて記憶されている前記店舗名の項目、および、当該店舗名と前記抽出対象の全組み合わせとの組み合わせの項目それぞれにカウントされた件数の差分情報に基づいて新たに追加された件数を算出する差分算出手段と、
    を備えることを特徴とする差分算出装置。
  5. 検索キーに基づいてWebページを収集する収集工程と、
    前記収集工程において収集されたWebページから店舗名および予め定められた当該店舗名に付随する特定の抽出対象を抽出情報として抽出する抽出工程と、
    前記抽出工程において抽出された前記抽出情報、および当該抽出情報を含むWebページを特定するページ特定情報を、当該抽出情報の抽出時を特定する日付情報に対応付けて記憶させる記憶工程と、
    2つの比較対象時期が設定された場合に、当該2つの比較対象時期に合致する前記日付情報に対応付けて記憶されている前記店舗名の項目、および、当該店舗名と前記抽出対象の全組み合わせとの組み合わせの項目それぞれにカウントされた件数の差分情報に基づいて新たに追加された件数を算出する差分算出工程と、
    コンピュータが実行することを特徴とする差分算出方法。
JP2009515059A 2007-05-24 2007-05-24 差分算出プログラム、差分算出装置および差分算出方法 Expired - Fee Related JP4957796B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2007/060582 WO2008142791A1 (ja) 2007-05-24 2007-05-24 差分算出プログラム、差分算出装置および差分算出方法

Publications (2)

Publication Number Publication Date
JPWO2008142791A1 JPWO2008142791A1 (ja) 2010-08-05
JP4957796B2 true JP4957796B2 (ja) 2012-06-20

Family

ID=40031518

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009515059A Expired - Fee Related JP4957796B2 (ja) 2007-05-24 2007-05-24 差分算出プログラム、差分算出装置および差分算出方法

Country Status (2)

Country Link
JP (1) JP4957796B2 (ja)
WO (1) WO2008142791A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200029342A (ko) * 2018-09-10 2020-03-18 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법 및 장치

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5331084B2 (ja) * 2010-11-01 2013-10-30 日本電信電話株式会社 特定情報抽出装置および特定情報抽出プログラム
JP5221630B2 (ja) * 2010-12-07 2013-06-26 楽天株式会社 サーバ、情報管理方法、情報管理プログラム、及びそのプログラムを記録するコンピュータ読み取り可能な記録媒体
JP6601412B2 (ja) * 2014-11-14 2019-11-06 富士通株式会社 情報取得プログラム、情報取得方法および情報取得装置
JP6961987B2 (ja) * 2017-04-12 2021-11-05 富士通株式会社 日時情報抽出方法、日時情報抽出装置及び日時情報抽出プログラム
WO2022060809A1 (en) * 2020-09-17 2022-03-24 Mastercard International Incorporated Continuous learning for seller disambiguation, assessment, and onboarding to electronic marketplaces
JP7455162B2 (ja) 2022-07-08 2024-03-25 株式会社トヨタシステムズ 情報管理システム、情報管理装置、情報管理方法及び情報管理プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004220251A (ja) * 2003-01-14 2004-08-05 Nippon Telegr & Teleph Corp <Ntt> 情報抽出規則作成システム、情報抽出規則作成方法及び情報抽出規則作成プログラム
WO2006008919A1 (ja) * 2004-07-16 2006-01-26 The University Of Tokyo 情報処理装置およびプログラム
JP2006215689A (ja) * 2005-02-02 2006-08-17 Ajs Kk 情報提供システム
JP2007018153A (ja) * 2005-07-06 2007-01-25 Optim Corp 情報検索システム、情報検索装置、情報検索方法、記録媒体及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003256316A (ja) * 2002-02-26 2003-09-12 Mitsubishi Electric Corp 情報提供装置、情報提供システム及び情報提供方法並びにプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004220251A (ja) * 2003-01-14 2004-08-05 Nippon Telegr & Teleph Corp <Ntt> 情報抽出規則作成システム、情報抽出規則作成方法及び情報抽出規則作成プログラム
WO2006008919A1 (ja) * 2004-07-16 2006-01-26 The University Of Tokyo 情報処理装置およびプログラム
JP2006215689A (ja) * 2005-02-02 2006-08-17 Ajs Kk 情報提供システム
JP2007018153A (ja) * 2005-07-06 2007-01-25 Optim Corp 情報検索システム、情報検索装置、情報検索方法、記録媒体及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200029342A (ko) * 2018-09-10 2020-03-18 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법 및 장치
KR102302367B1 (ko) * 2018-09-10 2021-09-15 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법 및 장치
US11347782B2 (en) 2018-09-10 2022-05-31 Baidu Online Network Technology (Beijing) Co., Ltd. Internet text mining-based method and apparatus for judging validity of point of interest

Also Published As

Publication number Publication date
WO2008142791A1 (ja) 2008-11-27
JPWO2008142791A1 (ja) 2010-08-05

Similar Documents

Publication Publication Date Title
JP4957796B2 (ja) 差分算出プログラム、差分算出装置および差分算出方法
CN111209411B (zh) 一种文档分析的方法及装置
US20110246462A1 (en) Method and System for Prompting Changes of Electronic Document Content
WO2008043582A1 (en) Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in said dictionary
CN103678412A (zh) 一种文档检索的方法及装置
WO2012096388A1 (ja) 意外性判定システム、意外性判定方法およびプログラム
JP5135272B2 (ja) 構造化文書管理装置、及び方法
WO2019224891A1 (ja) 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
WO2008041367A1 (fr) Dispositif de recherche de document, procédé de recherche de document et programme de recherche de document
JP2007140603A (ja) アーリーアダプタ抽出方法及び装置及びプログラム及び話題語予測方法及び装置及びプログラム
JPWO2009048149A1 (ja) 電子文書の同等判定システムおよび同等判定方法
JP2008117351A (ja) 検索システム
JP2008226110A (ja) 情報処理装置、情報処理方法および制御プログラム
JP2009086903A (ja) 検索サービス装置
JP5423470B2 (ja) 名寄せチェック支援装置、名寄せチェック支援プログラム及び名寄せチェック支援方法
JP2005107931A (ja) 画像検索装置
JP4866603B2 (ja) 住所文字列取得方法および住所文字列取得システム
CN110674286A (zh) 一种文本摘要抽取方法、装置及存储设备
Matsuoka et al. Examination of effective features for CRF-based bibliography extraction from reference strings
JP2010272006A (ja) 関係抽出装置、関係抽出方法、及びプログラム
JP2004030202A (ja) 特徴語抽出システム
JP2005128872A (ja) 文書検索システム及び文書検索プログラム
JP6173990B2 (ja) 検索支援装置、方法およびプログラム
CN109923538A (zh) 文本检索装置、文本检索方法以及计算机程序
JP2008210229A (ja) 知的財産情報検索装置、知的財産情報検索方法及び知的財産情報検索プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110906

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111028

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120221

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120305

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150330

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees