JP4957796B2 - 差分算出プログラム、差分算出装置および差分算出方法 - Google Patents
差分算出プログラム、差分算出装置および差分算出方法 Download PDFInfo
- Publication number
- JP4957796B2 JP4957796B2 JP2009515059A JP2009515059A JP4957796B2 JP 4957796 B2 JP4957796 B2 JP 4957796B2 JP 2009515059 A JP2009515059 A JP 2009515059A JP 2009515059 A JP2009515059 A JP 2009515059A JP 4957796 B2 JP4957796 B2 JP 4957796B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- extraction
- difference calculation
- store name
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004364 calculation method Methods 0.000 title claims description 82
- 238000000605 extraction Methods 0.000 claims description 142
- 238000000034 method Methods 0.000 claims description 47
- 239000000284 extract Substances 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 10
- 230000015556 catabolic process Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
11 制御部
12 記憶部
111 Webページ収集部
112 情報抽出部
113 抽出情報整合部
114 抽出情報格納部
115 差分算出部
116 算出結果表示部
117 抽出規則生成部
121 抽出規則ファイル
122 抽出情報ファイル
1000 コンピュータ
1010 CPU
1020 入力装置
1030 モニタ
1040 媒体読取装置
1050 通信装置
1060 RAM
1061 差分算出プロセス
1070 ハードディスク装置
1071 差分算出プログラム
1072 差分算出用データ
1080 バス
Claims (5)
- 検索キーに基づいてWebページを収集する収集手順と、
前記収集手順によって収集されたWebページから店舗名および予め定められた当該店舗名に付随する特定の抽出対象を抽出情報として抽出する抽出手順と、
前記抽出手順によって抽出された前記抽出情報、および当該抽出情報を含むWebページを特定するページ特定情報を、当該抽出情報の抽出時を特定する日付情報に対応付けて記憶させる記憶手順と、
2つの比較対象時期が設定された場合に、当該2つの比較対象時期に合致する前記日付情報に対応付けて記憶されている前記店舗名の項目、および、当該店舗名と前記抽出対象の全組み合わせとの組み合わせの項目それぞれにカウントされた件数の差分情報に基づいて新たに追加された件数を算出する差分算出手順と、
をコンピュータに実行させることを特徴とする差分算出プログラム。 - 前記抽出手順は、予め記憶されている抽出規則に従って、前記収集手順によって収集されたWebページから前記店舗名を含む抽出情報を抽出することを特徴とする請求項1記載の差分算出プログラム。
- 前記抽出対象を表示するWebページを収集し、収集されたWebページに含まれる前記抽出対象の一部または全部と、当該抽出対象の一部または全部の直前または直後にある語句との組み合わせごとに、前記抽出対象に該当するか否かを示す前記抽出規則を生成する抽出規則生成手順を、さらにコンピュータに実行させることを特徴とする請求項2記載の差分算出プログラム。
- 検索キーに基づいてWebページを収集する収集手段と、
前記収集手段によって収集されたWebページから店舗名および予め定められた当該店舗名に付随する特定の抽出対象を抽出情報として抽出する抽出手段と、
前記抽出手段によって抽出された前記抽出情報、および当該抽出情報を含むWebページを特定するページ特定情報を、当該抽出情報の抽出時を特定する日付情報に対応付けて記憶させる記憶手段と、
2つの比較対象時期が設定された場合に、当該2つの比較対象時期に合致する前記日付情報に対応付けて記憶されている前記店舗名の項目、および、当該店舗名と前記抽出対象の全組み合わせとの組み合わせの項目それぞれにカウントされた件数の差分情報に基づいて新たに追加された件数を算出する差分算出手段と、
を備えることを特徴とする差分算出装置。 - 検索キーに基づいてWebページを収集する収集工程と、
前記収集工程において収集されたWebページから店舗名および予め定められた当該店舗名に付随する特定の抽出対象を抽出情報として抽出する抽出工程と、
前記抽出工程において抽出された前記抽出情報、および当該抽出情報を含むWebページを特定するページ特定情報を、当該抽出情報の抽出時を特定する日付情報に対応付けて記憶させる記憶工程と、
2つの比較対象時期が設定された場合に、当該2つの比較対象時期に合致する前記日付情報に対応付けて記憶されている前記店舗名の項目、および、当該店舗名と前記抽出対象の全組み合わせとの組み合わせの項目それぞれにカウントされた件数の差分情報に基づいて新たに追加された件数を算出する差分算出工程と、
をコンピュータが実行することを特徴とする差分算出方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2007/060582 WO2008142791A1 (ja) | 2007-05-24 | 2007-05-24 | 差分算出プログラム、差分算出装置および差分算出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2008142791A1 JPWO2008142791A1 (ja) | 2010-08-05 |
JP4957796B2 true JP4957796B2 (ja) | 2012-06-20 |
Family
ID=40031518
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009515059A Expired - Fee Related JP4957796B2 (ja) | 2007-05-24 | 2007-05-24 | 差分算出プログラム、差分算出装置および差分算出方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP4957796B2 (ja) |
WO (1) | WO2008142791A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200029342A (ko) * | 2018-09-10 | 2020-03-18 | 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 | 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법 및 장치 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5331084B2 (ja) * | 2010-11-01 | 2013-10-30 | 日本電信電話株式会社 | 特定情報抽出装置および特定情報抽出プログラム |
JP5221630B2 (ja) | 2010-12-07 | 2013-06-26 | 楽天株式会社 | サーバ、情報管理方法、情報管理プログラム、及びそのプログラムを記録するコンピュータ読み取り可能な記録媒体 |
EP3220287A4 (en) * | 2014-11-14 | 2017-10-11 | Fujitsu Limited | Information acquisition program, information acquisition method and information acquisition device |
JP6961987B2 (ja) * | 2017-04-12 | 2021-11-05 | 富士通株式会社 | 日時情報抽出方法、日時情報抽出装置及び日時情報抽出プログラム |
WO2022060809A1 (en) * | 2020-09-17 | 2022-03-24 | Mastercard International Incorporated | Continuous learning for seller disambiguation, assessment, and onboarding to electronic marketplaces |
JP7455162B2 (ja) | 2022-07-08 | 2024-03-25 | 株式会社トヨタシステムズ | 情報管理システム、情報管理装置、情報管理方法及び情報管理プログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004220251A (ja) * | 2003-01-14 | 2004-08-05 | Nippon Telegr & Teleph Corp <Ntt> | 情報抽出規則作成システム、情報抽出規則作成方法及び情報抽出規則作成プログラム |
WO2006008919A1 (ja) * | 2004-07-16 | 2006-01-26 | The University Of Tokyo | 情報処理装置およびプログラム |
JP2006215689A (ja) * | 2005-02-02 | 2006-08-17 | Ajs Kk | 情報提供システム |
JP2007018153A (ja) * | 2005-07-06 | 2007-01-25 | Optim Corp | 情報検索システム、情報検索装置、情報検索方法、記録媒体及びプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003256316A (ja) * | 2002-02-26 | 2003-09-12 | Mitsubishi Electric Corp | 情報提供装置、情報提供システム及び情報提供方法並びにプログラム |
-
2007
- 2007-05-24 JP JP2009515059A patent/JP4957796B2/ja not_active Expired - Fee Related
- 2007-05-24 WO PCT/JP2007/060582 patent/WO2008142791A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004220251A (ja) * | 2003-01-14 | 2004-08-05 | Nippon Telegr & Teleph Corp <Ntt> | 情報抽出規則作成システム、情報抽出規則作成方法及び情報抽出規則作成プログラム |
WO2006008919A1 (ja) * | 2004-07-16 | 2006-01-26 | The University Of Tokyo | 情報処理装置およびプログラム |
JP2006215689A (ja) * | 2005-02-02 | 2006-08-17 | Ajs Kk | 情報提供システム |
JP2007018153A (ja) * | 2005-07-06 | 2007-01-25 | Optim Corp | 情報検索システム、情報検索装置、情報検索方法、記録媒体及びプログラム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200029342A (ko) * | 2018-09-10 | 2020-03-18 | 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 | 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법 및 장치 |
KR102302367B1 (ko) * | 2018-09-10 | 2021-09-15 | 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 | 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법 및 장치 |
US11347782B2 (en) | 2018-09-10 | 2022-05-31 | Baidu Online Network Technology (Beijing) Co., Ltd. | Internet text mining-based method and apparatus for judging validity of point of interest |
Also Published As
Publication number | Publication date |
---|---|
WO2008142791A1 (ja) | 2008-11-27 |
JPWO2008142791A1 (ja) | 2010-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4957796B2 (ja) | 差分算出プログラム、差分算出装置および差分算出方法 | |
CN111209411B (zh) | 一种文档分析的方法及装置 | |
US20110246462A1 (en) | Method and System for Prompting Changes of Electronic Document Content | |
WO2008043582A1 (en) | Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in said dictionary | |
JP6462970B1 (ja) | 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム | |
JP2001125894A5 (ja) | ||
WO2012096388A1 (ja) | 意外性判定システム、意外性判定方法およびプログラム | |
JP2007140603A (ja) | アーリーアダプタ抽出方法及び装置及びプログラム及び話題語予測方法及び装置及びプログラム | |
JPWO2009048149A1 (ja) | 電子文書の同等判定システムおよび同等判定方法 | |
JP2008117351A (ja) | 検索システム | |
JP4866603B2 (ja) | 住所文字列取得方法および住所文字列取得システム | |
JP2009086903A (ja) | 検索サービス装置 | |
JP5423470B2 (ja) | 名寄せチェック支援装置、名寄せチェック支援プログラム及び名寄せチェック支援方法 | |
JP2005107931A (ja) | 画像検索装置 | |
CN111046173A (zh) | 通过机器学习及上下文词性发现重要名词标签的方法 | |
CN110674286A (zh) | 一种文本摘要抽取方法、装置及存储设备 | |
JP2004030202A (ja) | 特徴語抽出システム | |
JP2010272006A (ja) | 関係抽出装置、関係抽出方法、及びプログラム | |
JP2009265770A (ja) | 重要文提示システム | |
JP6173990B2 (ja) | 検索支援装置、方法およびプログラム | |
CN109923538A (zh) | 文本检索装置、文本检索方法以及计算机程序 | |
JP2017004074A (ja) | 関係検出システム、関係検出方法、及び、関係検出プログラム | |
WO2021038836A1 (ja) | 情報処理方法、情報処理プログラム、および情報処理装置 | |
JP2008210229A (ja) | 知的財産情報検索装置、知的財産情報検索方法及び知的財産情報検索プログラム | |
JP2003203091A (ja) | 文書速読支援装置、文書速読支援方法、文書速読支援プログラムおよび記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110906 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111028 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120221 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120305 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150330 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |