JP2018180874A - 日時情報抽出方法、日時情報抽出装置及び日時情報抽出プログラム - Google Patents
日時情報抽出方法、日時情報抽出装置及び日時情報抽出プログラム Download PDFInfo
- Publication number
- JP2018180874A JP2018180874A JP2017078835A JP2017078835A JP2018180874A JP 2018180874 A JP2018180874 A JP 2018180874A JP 2017078835 A JP2017078835 A JP 2017078835A JP 2017078835 A JP2017078835 A JP 2017078835A JP 2018180874 A JP2018180874 A JP 2018180874A
- Authority
- JP
- Japan
- Prior art keywords
- date
- time information
- time
- data
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
コンピュータに、
表の項目名および項目値を含むデータから、前記項目名または前記項目値に付加された第1の日時情報、または、前記第1の日時情報以外の第2の日時情報であって、前記表の記述範囲または前記表の記述範囲の直前或いは直後の所定範囲に含まれる前記第2の日時情報を抽出し、
抽出した前記第1の日時情報または前記第2の日時情報を、少なくとも前記項目値に対応付けて記憶装置に格納する、
処理を実行させる日時情報抽出プログラム。
前記第2の日時情報は、前記表の記述範囲に含まれ且つ前記表の説明を記述するためのタグで囲まれた日時情報である、
付記1記載の日時情報抽出プログラム。
前記第2の日時情報は、前記表の記述範囲の直前或いは直後の所定範囲に含まれ且つ所定の文字または所定の文字列が付加された日時情報である、
付記1記載の日時情報抽出プログラム。
前記第2の日時情報は、前記表の記述範囲の直前或いは直後の所定範囲に含まれ且つ前記表を記述するための表タグと同じ階層のタグに囲まれた日時情報、または、前記表の記述範囲に含まれ且つ前記表タグより下の階層のタグに囲まれた日時情報である、
付記1記載の日時情報抽出プログラム。
前記コンピュータに、
前記データにおける最初の所定タグまたは最後の前記所定タグに含まれ且つ前記データの発行日時を示す第3の日時情報を抽出する
処理をさらに実行させ、
前記記憶装置に格納する処理において、
抽出した前記第1の日時情報、前記第2の日時情報または前記第3の日時情報を、少なくとも前記項目値に対応付けて前記記憶装置に格納する、
付記1乃至4のいずれか1つ記載の日時情報抽出プログラム。
前記コンピュータに、
前記データのヘッダに含まれ且つ前記データの更新日時を示す第4の日時情報を抽出する
処理をさらに実行させ、
前記記憶装置に格納する処理において、
抽出した前記第1の日時情報、前記第2の日時情報または前記第4の日時情報を、少なくとも前記項目値に対応付けて前記記憶装置に格納する、
付記1乃至4のいずれか1つ記載の日時情報抽出プログラム。
前記コンピュータに、
前記データの取得日時を示す第5の日時情報を取得する
処理をさらに実行させ、
前記記憶装置に格納する処理において、
抽出した前記第1の日時情報、前記第2の日時情報または前記第5の日時情報を、少なくとも前記項目値に対応付けて前記記憶装置に格納する、
付記1乃至4のいずれか1つ記載の日時情報抽出プログラム。
前記所定範囲は、所定個数のタグを含む範囲である、
付記1乃至7のいずれか1つ記載の日時情報抽出プログラム。
前記データは、ウェブページのデータである、
付記1乃至8のいずれか1つ記載の日時情報抽出プログラム。
コンピュータが、
表の項目名および項目値を含むデータから、前記項目名または前記項目値に付加された第1の日時情報、または、前記第1の日時情報以外の第2の日時情報であって、前記表の記述範囲または前記表の記述範囲の直前或いは直後の所定範囲に含まれる前記第2の日時情報を抽出し、
抽出した前記第1の日時情報または前記第2の日時情報を、少なくとも前記項目値に対応付けて記憶装置に格納する、
処理を実行する日時情報抽出方法。
表の項目名および項目値を含むデータから、前記項目名または前記項目値に付加された第1の日時情報、または、前記第1の日時情報以外の第2の日時情報であって、前記表の記述範囲または前記表の記述範囲の直前或いは直後の所定範囲に含まれる前記第2の日時情報を抽出する抽出部と、
前記抽出部により抽出された前記第1の日時情報または前記第2の日時情報を、少なくとも前記項目値に対応付けて記憶装置に格納する格納処理部と、
を有する日時情報抽出装置。
103 抽出部 105 判定部
107 生成部 111 ページデータ格納部
113 処理データ格納部 3 ネットワーク
Claims (10)
- コンピュータに、
表の項目名および項目値を含むデータから、前記項目名または前記項目値に付加された第1の日時情報、または、前記第1の日時情報以外の第2の日時情報であって、前記表の記述範囲または前記表の記述範囲の直前或いは直後の所定範囲に含まれる前記第2の日時情報を抽出し、
抽出した前記第1の日時情報または前記第2の日時情報を、少なくとも前記項目値に対応付けて記憶装置に格納する、
処理を実行させる日時情報抽出プログラム。 - 前記第2の日時情報は、前記表の記述範囲に含まれ且つ前記表の説明を記述するためのタグで囲まれた日時情報である、
請求項1記載の日時情報抽出プログラム。 - 前記第2の日時情報は、前記表の記述範囲の直前或いは直後の所定範囲に含まれ且つ所定の文字または所定の文字列が付加された日時情報である、
請求項1記載の日時情報抽出プログラム。 - 前記第2の日時情報は、前記表の記述範囲の直前或いは直後の所定範囲に含まれ且つ前記表を記述するための表タグと同じ階層のタグに囲まれた日時情報、または、前記表の記述範囲に含まれ且つ前記表タグより下の階層のタグに囲まれた日時情報である、
請求項1記載の日時情報抽出プログラム。 - 前記コンピュータに、
前記データにおける最初の所定タグまたは最後の前記所定タグに含まれ且つ前記データの発行日時を示す第3の日時情報を抽出する
処理をさらに実行させ、
前記記憶装置に格納する処理において、
抽出した前記第1の日時情報、前記第2の日時情報または前記第3の日時情報を、少なくとも前記項目値に対応付けて前記記憶装置に格納する、
請求項1乃至4のいずれか1つ記載の日時情報抽出プログラム。 - 前記コンピュータに、
前記データのヘッダに含まれ且つ前記データの更新日時を示す第4の日時情報を抽出する
処理をさらに実行させ、
前記記憶装置に格納する処理において、
抽出した前記第1の日時情報、前記第2の日時情報または前記第4の日時情報を、少なくとも前記項目値に対応付けて前記記憶装置に格納する、
請求項1乃至4のいずれか1つ記載の日時情報抽出プログラム。 - 前記コンピュータに、
前記データの取得日時を示す第5の日時情報を取得する
処理をさらに実行させ、
前記記憶装置に格納する処理において、
抽出した前記第1の日時情報、前記第2の日時情報または前記第5の日時情報を、少なくとも前記項目値に対応付けて前記記憶装置に格納する、
請求項1乃至4のいずれか1つ記載の日時情報抽出プログラム。 - 前記所定範囲は、所定個数のタグを含む範囲である、
請求項1乃至7のいずれか1つ記載の日時情報抽出プログラム。 - コンピュータが、
表の項目名および項目値を含むデータから、前記項目名または前記項目値に付加された第1の日時情報、または、前記第1の日時情報以外の第2の日時情報であって、前記表の記述範囲または前記表の記述範囲の直前或いは直後の所定範囲に含まれる前記第2の日時情報を抽出し、
抽出した前記第1の日時情報または前記第2の日時情報を、少なくとも前記項目値に対応付けて記憶装置に格納する、
処理を実行する日時情報抽出方法。 - 表の項目名および項目値を含むデータから、前記項目名または前記項目値に付加された第1の日時情報、または、前記第1の日時情報以外の第2の日時情報であって、前記表の記述範囲または前記表の記述範囲の直前或いは直後の所定範囲に含まれる前記第2の日時情報を抽出する抽出部と、
前記抽出部により抽出された前記第1の日時情報または前記第2の日時情報を、少なくとも前記項目値に対応付けて記憶装置に格納する格納処理部と、
を有する日時情報抽出装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017078835A JP6961987B2 (ja) | 2017-04-12 | 2017-04-12 | 日時情報抽出方法、日時情報抽出装置及び日時情報抽出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017078835A JP6961987B2 (ja) | 2017-04-12 | 2017-04-12 | 日時情報抽出方法、日時情報抽出装置及び日時情報抽出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018180874A true JP2018180874A (ja) | 2018-11-15 |
JP6961987B2 JP6961987B2 (ja) | 2021-11-05 |
Family
ID=64275542
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017078835A Active JP6961987B2 (ja) | 2017-04-12 | 2017-04-12 | 日時情報抽出方法、日時情報抽出装置及び日時情報抽出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6961987B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020066828A1 (ja) | 2018-09-26 | 2020-04-02 | 横河電機株式会社 | 測定装置、および測定方法 |
CN114944174A (zh) * | 2022-06-16 | 2022-08-26 | 安徽瑞宣科技咨询有限公司 | 一种项目申报用信息智能存储系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001202283A (ja) * | 1999-11-09 | 2001-07-27 | Fujitsu Ltd | コンテンツ更新状況監視システム |
US20070011183A1 (en) * | 2005-07-05 | 2007-01-11 | Justin Langseth | Analysis and transformation tools for structured and unstructured data |
WO2008142791A1 (ja) * | 2007-05-24 | 2008-11-27 | Fujitsu Limited | 差分算出プログラム、差分算出装置および差分算出方法 |
JP2009075757A (ja) * | 2007-09-19 | 2009-04-09 | Kureo:Kk | 情報処理装置、およびプログラム |
JP2010015202A (ja) * | 2008-06-30 | 2010-01-21 | Yahoo Japan Corp | 情報収集方法、装置及びプログラム |
JP2011215912A (ja) * | 2010-03-31 | 2011-10-27 | Yahoo Japan Corp | クローラ管理システム及び方法 |
JP2012181786A (ja) * | 2011-03-03 | 2012-09-20 | Sky Co Ltd | 日付領域判定システムおよび日付領域判定プログラム |
-
2017
- 2017-04-12 JP JP2017078835A patent/JP6961987B2/ja active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001202283A (ja) * | 1999-11-09 | 2001-07-27 | Fujitsu Ltd | コンテンツ更新状況監視システム |
US20070011183A1 (en) * | 2005-07-05 | 2007-01-11 | Justin Langseth | Analysis and transformation tools for structured and unstructured data |
WO2008142791A1 (ja) * | 2007-05-24 | 2008-11-27 | Fujitsu Limited | 差分算出プログラム、差分算出装置および差分算出方法 |
JP2009075757A (ja) * | 2007-09-19 | 2009-04-09 | Kureo:Kk | 情報処理装置、およびプログラム |
JP2010015202A (ja) * | 2008-06-30 | 2010-01-21 | Yahoo Japan Corp | 情報収集方法、装置及びプログラム |
JP2011215912A (ja) * | 2010-03-31 | 2011-10-27 | Yahoo Japan Corp | クローラ管理システム及び方法 |
JP2012181786A (ja) * | 2011-03-03 | 2012-09-20 | Sky Co Ltd | 日付領域判定システムおよび日付領域判定プログラム |
Non-Patent Citations (2)
Title |
---|
南野 朋之、外3名: "blogの自動収集と監視", 情報処理学会研究報告, vol. 第2004巻,第23号, JPN6008023739, 5 March 2004 (2004-03-05), JP, pages 129 - 136, ISSN: 0004413765 * |
廣嶋 伸章、外3名: "文書の記述内容に関連する日時表現の抽出", 言語処理学会第17回年次大会発表論文集 チュートリアル 本会議 ワークショップ [CD−ROM], JPN6020049851, 10 March 2011 (2011-03-10), JP, pages 762 - 765, ISSN: 0004413766 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020066828A1 (ja) | 2018-09-26 | 2020-04-02 | 横河電機株式会社 | 測定装置、および測定方法 |
CN114944174A (zh) * | 2022-06-16 | 2022-08-26 | 安徽瑞宣科技咨询有限公司 | 一种项目申报用信息智能存储系统 |
Also Published As
Publication number | Publication date |
---|---|
JP6961987B2 (ja) | 2021-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9330179B2 (en) | Configuring web crawler to extract web page information | |
US20150067476A1 (en) | Title and body extraction from web page | |
US10366154B2 (en) | Information processing device, information processing method, and computer program product | |
CN108090104B (zh) | 用于获取网页信息的方法和装置 | |
CN105528416B (zh) | 一种网站更新内容的监测方法及系统 | |
CN103136259B (zh) | 一种基于内容块标识处理网页内容的方法与设备 | |
KR20170073693A (ko) | 유사 그룹 요소 추출 | |
JP6961987B2 (ja) | 日時情報抽出方法、日時情報抽出装置及び日時情報抽出プログラム | |
JP2008134906A (ja) | 業務プロセス定義生成方法、装置及びプログラム | |
JP2004220251A (ja) | 情報抽出規則作成システム、情報抽出規則作成方法及び情報抽出規則作成プログラム | |
JP2005174138A (ja) | コンテンツ検索方法およびシステム、プログラムおよびプログラム記録媒体 | |
CN110309364B (zh) | 一种信息抽取方法及装置 | |
JP5063877B2 (ja) | 情報処理装置およびコンピュータプログラム | |
CN104866489A (zh) | 一个将网站选定内容提取、存储并发布的系统 | |
KR102290380B1 (ko) | 페이지 구축방법, 장치, 디바이스 및 비발휘성 컴퓨터 기억매체 | |
CN103064943A (zh) | 一种客户端设备 | |
JP2008197976A (ja) | 連結情報生成プログラム及び連結情報生成方法 | |
CN108664511B (zh) | 获取网页信息方法和装置 | |
CN103577578B (zh) | 一种标记文件解析方法和装置 | |
JP2017091436A (ja) | 特徴語選択装置 | |
JP5380874B2 (ja) | 情報検索方法、プログラム及び装置 | |
JP6817246B2 (ja) | データ処理装置、データ処理方法及びデータ処理プログラム | |
JP5155351B2 (ja) | 地図データ処理装置及び方法 | |
JP3624248B2 (ja) | 入力データの取扱方法 | |
JP2016192067A (ja) | 検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200115 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210219 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210914 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210927 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6961987 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |