JP2018180874A - 日時情報抽出方法、日時情報抽出装置及び日時情報抽出プログラム - Google Patents

日時情報抽出方法、日時情報抽出装置及び日時情報抽出プログラム Download PDF

Info

Publication number
JP2018180874A
JP2018180874A JP2017078835A JP2017078835A JP2018180874A JP 2018180874 A JP2018180874 A JP 2018180874A JP 2017078835 A JP2017078835 A JP 2017078835A JP 2017078835 A JP2017078835 A JP 2017078835A JP 2018180874 A JP2018180874 A JP 2018180874A
Authority
JP
Japan
Prior art keywords
date
time information
time
data
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017078835A
Other languages
English (en)
Other versions
JP6961987B2 (ja
Inventor
佑介 小▲柳▼
Yusuke Koyanagi
佑介 小▲柳▼
井形 伸之
Nobuyuki Igata
伸之 井形
西野 文人
Fumito Nishino
文人 西野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017078835A priority Critical patent/JP6961987B2/ja
Publication of JP2018180874A publication Critical patent/JP2018180874A/ja
Application granted granted Critical
Publication of JP6961987B2 publication Critical patent/JP6961987B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】表に含まれる値がいつの時点の値であるかを決定する日時情報抽出方法、日時情報抽出装置及び日時情報抽出プログラムを提供する。【解決手段】日時情報抽出方法は、表の項目名および項目値を含むデータから、項目名または項目値に付加された第1の日時情報または表の記述範囲または表の記述範囲の直前或いは直後の所定範囲に含まれる第2の日時情報を抽出し、抽出した第1の日時情報または第2の日時情報を、少なくとも項目値に対応付けて記憶装置に格納する処理を含む。表に含まれる項目値が、いつの時点の値であるかを決定できるようになる。【選択図】図9

Description

本発明は、日時情報の抽出技術に関する。
様々な情報源(例えば、ウェブページやデータベース等)から収集された情報が、企業分析、研究戦略の立案あるいはデータ統合等に利用されている。収集される情報の中には、時間の経過によって値が変化する情報(例えば、従業員数および売上等)が含まれることがあり、このような情報を利用する場合には、どの時点の情報であるかを特定しておくことが重要である。
例えば或る文献は、ウェブニュースからトピックの時刻を抽出する技術を開示する。
但し、ウェブページのデータには表の形式で記述されたデータが含まれる場合がある。上記技術は、ニュースなどの文章のデータを対象とした技術であり、ウェブページ上に表の形式で記述されたデータに含まれる値がいつの時点の値であるか決定することには適していない。
Xujian Zhao、Peiquan Jin、Lihua Yue、"Discovering topic time from web news"、Information Processing & Management、平成27年11月、第51巻、第6号、pp.869−890、ISSN 0306−4573
本発明の目的は、1つの側面では、表に含まれる値がいつの時点の値であるかを決定できるようにするための技術を提供することである。
一態様に係る日時情報抽出方法は、表の項目名および項目値を含むデータから、項目名または項目値に付加された第1の日時情報、または、第1の日時情報以外の第2の日時情報であって、表の記述範囲または表の記述範囲の直前或いは直後の所定範囲に含まれる第2の日時情報を抽出し、抽出した第1の日時情報または第2の日時情報を、少なくとも項目値に対応付けて記憶装置に格納する処理を含む。
1つの側面では、表に含まれる値がいつの時点の値であるかを決定できるようになる。
図1は、ネットワーク構成を示す図である。 図2は、情報処理装置の機能ブロック図である。 図3は、ウェブページのデータの一例を示す図である。 図4は、tableタグで囲まれた部分の詳細を示す図である。 図5は、ウェブページのデータをブラウザで表示した場合の表示例を示す図である。 図6は、抽出データテーブルの一例を示す図である。 図7は、表関係テーブルの一例を示す図である。 図8は、ページ関係テーブルの一例を示す図である。 図9は、抽出部が実行する処理の処理フローを示す図である。 図10は、ページデータテーブルに格納されるデータの一例を示す図である。 図11は、所定のルールについて説明するための図である。 図12は、所定のルールについて説明するための図である。 図13は、所定のルールについて説明するための図である。 図14は、所定のルールについて説明するための図である。 図15は、所定のルールについて説明するための図である。 図16は、所定のルールについて説明するための図である。 図17は、所定のルールについて説明するための図である。 図18は、表テーブルの一例を示す図である。 図19は、抽出部が実行する処理の処理フローを示す図である。 図20は、記事発行に関する日時情報の抽出について説明するための図である。 図21は、ページデータテーブルに格納されるデータの一例を示す図である。 図22は、結果テーブルに格納されるデータの一例を示す図である。 図23は、判定部が実行する処理の処理フローを示す図である。 図24は、情報対象日時の決定を説明するための図である。 図25は、情報対象日時の決定を説明するための図である。 図26は、情報対象日時の決定を説明するための図である。 図27は、情報対象日時の決定を説明するための図である。 図28は、情報対象日時の決定を説明するための図である。 図29は、生成部が実行する処理の処理フローを示す図である。 図30は、時系列データの一例を示す図である。 図31は、時系列データを基にして生成されたグラフの一例を示す図である。 図32は、コンピュータの機能ブロック図である。
図1は、本実施の形態のネットワーク構成を示す図である。本実施の形態の主要な処理を実行する情報処理装置1は、例えばインターネットであるネットワーク3に接続される。情報処理装置1は、ネットワーク3に接続された装置からウェブページのデータを受信し、ウェブページのデータに対して処理を実行する。
図2は、情報処理装置1の機能ブロック図である。情報処理装置1は、データ処理部101と、抽出部103と、判定部105と、生成部107と、ページデータ格納部111と、処理データ格納部113とを含む。
データ処理部101、抽出部103、判定部105および生成部107は、例えば図32におけるメモリ2501に格納されたプログラムが図32におけるCPU(Central Processing Unit)2503により実行されることで実現される。ページデータ格納部111および処理データ格納部113は、例えばメモリ2501又はHDD(Hard Disk Drive)2505に設けられる。
ページデータ格納部111には、ネットワーク3に接続された装置から受信したウェブページのデータが格納される。データ処理部101は、ページデータ格納部111に格納されているデータを用いて処理を実行し、処理結果を処理データ格納部113に格納する。抽出部103は、ページデータ格納部111に格納されているデータ及びデータ処理部101による処理の結果を用いて処理を実行し、処理結果を処理データ格納部113に格納する。判定部105は、抽出部103による処理の結果を用いて処理を実行し、処理結果を処理データ格納部113に格納する。生成部107は、判定部105による処理の結果を用いて時系列データを生成し、生成した時系列データを処理データ格納部113に格納する。
図3は、ページデータ格納部111に格納されるウェブページのデータの一例を示す図である。図3の例においては、ウェブページのデータはHTML(HyperText Markup Language)で記述されている。また、図3の例においては、日時情報「2016年5月30日」と日時情報「2016年6月1日」とが含まれている。また、ページデータ格納部111には、ウェブページのデータを取得した際におけるHTTP(HyperText Transfer Protocol)レスポンスヘッダが格納される。
図4は、図3に示したウェブページのデータのうちtableタグで囲まれた部分の詳細を示す図である。図4の例においては、4行の表が定義されており、項目名「社名」および項目値「○△□株式会社」と、項目名「所在地」および項目値「神奈川県川崎市・・・」と、項目名「代表者」および項目値「代表取締役社長 田中太郎」と、項目名「資本金」および項目値「3246億円(2016年3月末時点)」とが含まれる。項目値「3246億円(2016年3月末時点)」には日時情報が含まれる。
図5は、図3及び図4に示したデータをブラウザで表示した場合の表示例を示す図である。
図6は、データ処理部101の処理によって処理データ格納部113に格納される抽出データテーブルの一例を示す図である。図6の例では、各項目名に付与されるデータID(IDentifier)と、項目名と、項目値と、情報対象日時とが格納される。情報対象日時とは、項目値がいつの時点の値であるかを示す日時情報である。但し、データ処理部101の処理においては、情報対象日時の欄には日時情報が格納されない。
図7は、データ処理部101の処理によって処理データ格納部113に格納される表関係テーブルの一例を示す図である。図7の例では、データIDと、各表に付与される表IDとが格納される。
図8は、データ処理部101の処理によって処理データ格納部113に格納されるページ関係テーブルの一例を示す図である。図8の例では、表IDと、各ウェブページに付与されるウェブページIDとが格納される。
次に、図9乃至図31を用いて、情報処理装置1が実行する処理を説明する。
まず、図9乃至図22を用いて、抽出部103が実行する処理を説明する。
抽出部103は、ページデータ格納部111に格納されているウェブページのデータを取得した際におけるHTTPレスポンスヘッダ及びHTMLファイルをページデータ格納部111から読み出す。また、抽出部103は、HTMLヘッダに含まれる、HTMLファイルの取得日時の情報をページデータ格納部111から読み出す(図9:ステップS1)。抽出部103は、読み出した取得日時の情報、ウェブページID及びウェブページのURL(Uniform Resource Locator)を処理データ格納部113におけるページデータテーブルに格納する。
図10は、ページデータテーブルに格納されるデータの一例を示す図である。図10の例では、ウェブページIDと、記事発行日時の情報と、更新日時の情報と、URLと、取得日時の情報とが格納される。ステップS1の処理の時点においては、記事発行日時の情報と更新日時の情報とは格納されない。
抽出部103は、ステップS1において読み出したHTMLファイルから、表記述部分Ti(i=1,2,...,N)を抽出する(ステップS3)。本実施の形態において、表記述部分とはHTMLファイルのうちtableタグで囲まれた部分のことである。NはHTMLファイルに含まれる表の数である。
抽出部103は、表を表す番号である変数iに1を設定する(ステップS5)。
抽出部103は、i≦Nが成立するか判定する(ステップS7)。
i≦Nが成立する場合(ステップS7:Yesルート)、抽出部103は、表記述部分Tiから項目名と項目値とのセットを抽出する(ステップS9)。表記述部分Tiに項目名と項目値とのセットが複数含まれる場合には、複数のセットがステップS9において抽出される。
抽出部103は、項目名と項目値とのセットに日時情報が付加されている場合には日時情報を抽出し、抽出した日時情報を抽出データテーブル(図6)の情報対象日時の欄に格納する(ステップS11)。例えば図4に示した例においては、項目値に日時情報が付加されているので、日時情報「2016年3月末」(或いは「2016年3月31日」)が情報対象日時の欄に格納される。図4の例においては項目値に日時情報が付加されているが、項目名に日時情報が付加されていてもよい。また、図4の例においては「時点」という文字列が日時情報に付加されているが、このような文字列(他には「現在」および「付け」など)が付加されていなくてもよい。
抽出部103は、ステップS1において読み出したHTMLファイルから、所定のルールに従って表記述部分Tiについての日時情報(以下、表日時と呼ぶ)を抽出する(ステップS13)。
図11乃至図17を用いて、所定のルールについて説明する。
図11は、captionタグを用いて日時情報が記述される例を示す図である。本実施の形態においては、図11に示すように、tableタグで囲まれた範囲に含まれるcaptionタグを用いて日時情報が記述されている場合、その日時情報が日時情報として抽出される。図11の例においては、日時情報「2016年3月末」が抽出される。
また、tableタグのn個前までのタグで囲まれた日時情報またはtableタグのn個後までのタグで囲まれた日時情報が抽出されてもよい。図12の例においては、tableタグの2個前までのタグで囲まれた日時情報「2016年3月末」が抽出されている。ここで、各行において最も外側にあるタグの内側に有るタグは除外してカウントされる。例えば図12の例においては、spanタグはカウントの対象から除外される。
また、或る一つのタグのみを含むタグを無いものとして取り扱ってもよい。例えば図13(a)においては、divタグの内側にはtableタグのみが含まれている。このような場合には、図13(b)に示すように、divタグが存在しないものとして取り扱ってもよい。また、例えば図14(a)においては、divタグの内側にはpタグのみが含まれている。このような場合には、図14(b)に示すように、divタグが存在しないものとして取り扱ってもよい。
また、日時情報の抽出の対象となるタグを、tableタグと同じ階層のタグまたはtableタグの階層より下の階層のタグに限定してもよい。例えば図15においては、n=2であり且つtableタグの後にあるpタグはtableタグと同じ階層に有るので、tableタグの後にあるpタグで囲まれた日時情報「2016年3月末」が抽出される。divタグより外側のタグは、日時情報の抽出対象から除外される。また、hタグ以降のタグは同じ階層のタグであると見做すようにしてもよい。この場合、図16において、tableタグの直前に有るh3タグおよびtableタグの直後に有るpタグをtableタグと同じ階層のタグであると見做すことができる。よって、tableタグの直前に有るh3タグで囲まれた日時情報「2016年3月末」は抽出される。一方、最後に有るpタグはtableタグと同じ階層のタグではないので、そのpタグで囲まれた日時情報「2016年3月末」は抽出されない。
また、特定のタグを無いものとして取り扱ってもよい。例えば図17(a)においてはpタグの内側にbrタグが含まれているが、図17(b)に示すように、brタグが無いものとして処理を行ってもよい。なお、図17の例においてはbrタグが示されているが、brタグ以外のタグに対して同様の取り扱いをしてもよい。
また、特定の文字又は文字列が付加された日時情報のみを抽出の対象としてもよい。特定の文字又は文字列とは、例えば、「現在」、「時点」あるいは「付け」等である。
なお、以上のルールは一例であるので、これらのルール以外のルールを使用してもよい。また、図11乃至図17を用いて説明した各ルールの優先度を情報処理装置1の操作者の指定等に基づき設定してもよい。
図9の説明に戻り、抽出部103は、処理データ格納部113に表テーブルのエントリを生成する。そして、抽出部103は、ステップS13において抽出した日時情報を、生成したエントリの表日時の欄に格納する(ステップS15)。
図18は、表テーブルの一例を示す図である。図18の例では、表IDと、表日時の情報とが格納される。なお、ステップS13において日時情報が抽出されなかった場合には表日時の欄は空である。
抽出部103は、iを1インクリメントする(ステップS17)。そして処理はステップS7に戻る。
一方、i≦Nが成立しない場合(ステップS7:Noルート)、処理は端子Aを介して図19のステップS19に移行する。
図19の説明に移行し、抽出部103は、ステップS1において読み出したHTMLファイルから、記事発行に関する日時情報を抽出する(図19:ステップS19)。ウェブページが発行された日時はウェブページの最初又は最後に記述されることがあるので、本実施の形態においては、HTMLファイルにおける最初或いは最後のdivタグ或いはpタグ等で囲まれた日付情報が抽出される。例えば図20の例においては、HTMLファイルにおいて最初に登場するpタグで囲まれた日時情報が抽出される。
抽出部103は、ステップS1において読み出したHTTPレスポンスヘッダから更新に関する日時情報を抽出する(ステップS21)。ウェブページが更新された日時の情報はHTTPレスポンスヘッダに含まれることがあるので、HTTPレスポンスヘッダから日時情報が抽出される。但し、抽出された日時情報が示す日時が後述の取得日時より後である場合或いは同時である場合、本実施の形態においてはステップS21の処理は失敗であると判定される。
抽出部103は、ステップS19において記事発行に関する日時情報の抽出に成功したか判定する(ステップS25)。
ステップS19において記事発行に関する日時情報の抽出に失敗した場合(ステップS25:Noルート)、処理はステップS29に移行する。
一方、ステップS19において記事発行に関する日時情報の抽出に成功した場合(ステップS25:Yesルート)、抽出部103は、以下の処理を実行する。具体的には、抽出部103は、記事発行に関する日時情報を、ページデータテーブル(図10)の記事発行日時の欄に格納する(ステップS27)。
抽出部103は、ページデータテーブル(図10)に格納されている取得日時は、ステップS21において抽出された日時情報が示す日時より後であるか判定する(ステップS29)。
ページデータテーブル(図10)に格納されている取得日時は、ステップS21において抽出された日時情報が示す日時より後ではない場合(ステップS29:Noルート)、処理はステップS35に移行する。
一方、ページデータテーブル(図10)に格納されている取得日時は、ステップS21において抽出された日時情報が示す日時より後である場合(ステップS29:Yesルート)、抽出部103は、以下の処理を実行する。具体的には、抽出部103は、更新に関する日時情報を、ページデータテーブル(図10)の更新日時の欄に格納する(ステップS31)。
図21は、ステップS31までの処理によりページデータテーブルに格納されるデータの一例を示す図である。図10と比較すると、記事発行日時の情報と、更新日時の情報とが新たにページデータテーブルに格納されている。
抽出部103は、処理データ格納部113に格納された結果テーブルに結果データを生成する(ステップS35)。ステップS35において、結果データは、処理対象のHTMLファイルに含まれる表の各項目値について生成される。
図22は、結果テーブルに格納されるデータの一例を示す図である。図22の例では、データIDと、表日時の情報と、記事発行日時の情報と、更新日時の情報と、取得日時の情報とが格納される。表日時の欄には、表テーブル(図18)に格納されている表日時の情報が格納される。記事発行日時の欄には、ページデータテーブル(図21)に格納されている記事発行日時の情報が格納される。更新日時の欄には、ページデータテーブル(図21)に格納されている更新日時の情報が格納される。取得日時の欄には、ページデータテーブル(図21)に格納されている取得日時の情報が格納される。なお、データIDに対応する表IDは表関係テーブル(図7)によって特定される。また、データIDに対応するウェブページIDは、表関係テーブル(図7)及びページ関係テーブル(図8)によって特定される。
以上のような処理を実行すれば、表の各項目値について、関係する日時情報を対応付けることができるようになる。
次に、図23乃至図28を用いて、判定部105が実行する処理を説明する。本処理は、抽出部103が処理を実行した後に実行される。なお、以下では抽出データテーブル(図6)における1つのデータIDについて処理を実行する例を示すが、抽出データテーブル(図6)における各データIDについて処理を実行してもよい。
判定部105は、抽出データテーブル(図6)に格納されているデータIDの中から1つデータIDを特定する(図23:ステップS41)。
判定部105は、抽出データテーブル(図6)から、ステップS41において特定したデータIDを有するエントリを読み出す(ステップS43)。
判定部105は、ステップS43において読み出したエントリに情報対象日時が含まれるか判定する(ステップS45)。
ステップS43において読み出したエントリに情報対象日時の情報が含まれる場合(ステップS45:Yesルート)、処理は終了する。
一方、ステップS43において読み出したエントリに情報対象日時が含まれない場合(ステップS45:Noルート)、判定部105は、ステップS41において特定したデータIDを有する結果データを結果テーブル(図22)から読み出す。そして、判定部105は、読み出した結果データに表日時の情報が含まれるか判定する(ステップS47)。
読み出した結果データに表日時の情報が含まれる場合(ステップS47:Yesルート)、判定部105は、読み出した結果データに含まれる表日時の情報を、抽出データテーブル(図6)における情報対象日時の欄に格納する(ステップS49)。そして処理は終了する。
一方、読み出した結果データに表日時の情報が含まれない場合(ステップS47:Noルート)、判定部105は、読み出した結果データに記事発行日時の情報が含まれるか判定する(ステップS51)。
読み出した結果データに記事発行日時の情報が含まれる場合(ステップS51:Yesルート)、判定部105は、読み出した結果データに含まれる記事発行日時の情報を、抽出データテーブル(図6)における情報対象日時の欄に格納する(ステップS53)。そして処理は終了する。
一方、読み出した結果データに記事発行日時の情報が含まれない場合(ステップS51:Noルート)、判定部105は、読み出した結果データに更新日時の情報が含まれるか判定する(ステップS55)。
読み出した結果データに更新日時の情報が含まれる場合(ステップS55:Yesルート)、判定部105は、読み出した結果データに含まれる更新日時の情報を、抽出データテーブル(図6)における情報対象日時の欄に格納する(ステップS57)。そして処理は終了する。一方、読み出した結果データに更新日時の情報が含まれない場合(ステップS55:Noルート)、判定部105は、読み出した結果データに含まれる取得日時の情報を、抽出データテーブル(図6)における情報対象日時の欄に格納する(ステップS59)。そして処理は終了する。
以上のような処理を実行すれば、表の項目値に対応付けられた日時情報のうちその項目値について適切な日時情報を決めることができるようになる。
図24乃至図28を用いて、情報対象日時の決定をより具体的に説明する。
例えば、図24に示すようなデータが結果テーブルに格納されているとする。このケースでは、データID「1234567890−0−0」について表日時の情報が格納されているので、抽出データテーブルに情報対象日時の情報が格納されていなければ、図25に示すように、情報対象日時の欄に表日時「2016/06/01」が格納される。
例えば、図26に示すようなデータが結果テーブルに格納されているとする。このケースでは、データID「1234567890−0−0」について表日時の情報が格納されておらず、記事発行日時の情報が格納されている。従って、抽出データテーブルに情報対象日時の情報が格納されていなければ、図27に示すように、情報対象日時の欄に記事発行日時「2016/05/30」が格納される。
例えば、図28に示すようなデータが結果テーブルに格納されているとする。このケースでは、データID「1234567890−0−3」について表日時の情報が格納されている。しかし、図27に示したように、データID「1234567890−0−3」について情報対象日時「2016/03/31」が格納されている場合、情報対象日時の欄に表日時の情報は格納されない。
次に、図29乃至図31を用いて、生成部107が実行する処理を説明する。
情報処理装置1が複数の情報源から取得したウェブページのデータに対して上で述べた処理を実行したとする。そして、生成部107は、例えば情報処理装置1の操作者が指定したデータIDについての項目値および情報対象日時を、抽出データテーブルから読み出す(図29:ステップS61)。
生成部107は、ステップS61において読み出した項目値および情報対象日時を含む時系列データを生成し(ステップS63)、処理データ格納部113に格納する。そして処理は終了する。
図30は、ステップS63において生成される時系列データの一例を示す図である。図30の例では、項目名「資本金」について、4つの時点における項目値が格納される。
図31は、図30に示した時系列データを基にして生成されたグラフの一例を示す図である。情報処理装置1の操作者は、このようなグラフを確認することで企業分析等を行うことができる。
以上本発明の一実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、上で説明した情報処理装置1の機能ブロック構成は実際のプログラムモジュール構成に一致しない場合もある。
また、上で説明した各テーブルの構成は一例であって、上記のような構成でなければならないわけではない。さらに、処理フローにおいても、処理結果が変わらなければ処理の順番を入れ替えることも可能である。さらに、並列に実行させるようにしても良い。
なお、上で述べた情報処理装置1は、コンピュータ装置であって、図32に示すように、メモリ2501とCPU2503とHDD2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。CPU2503は、アプリケーション・プログラムの処理内容に応じて表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ2501に格納されるが、HDD2505に格納されるようにしてもよい。本発明の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
以上述べた本発明の実施の形態をまとめると、以下のようになる。
本実施の形態の第1の態様に係る日時情報抽出方法は、(A)表の項目名および項目値を含むデータから、項目名または項目値に付加された第1の日時情報、または、第1の日時情報以外の第2の日時情報であって、表の記述範囲または表の記述範囲の直前或いは直後の所定範囲に含まれる第2の日時情報を抽出し、(B)抽出した第1の日時情報または第2の日時情報を、少なくとも項目値に対応付けて記憶装置に格納する処理を含む。
表に含まれる項目値がいつの時点の値であるかを決定できるようになる。
また、第2の日時情報は、表の記述範囲に含まれ且つ表の説明を記述するためのタグで囲まれた日時情報であってもよい。
例えばHTMLのCAPTIONタグ等を利用して第2の日時情報を抽出できるようになる。
また、第2の日時情報は、表の記述範囲の直前或いは直後の所定範囲に含まれ且つ所定の文字または所定の文字列が付加された日時情報であってもよい。
例えば「時点」、「現在」及び「付」等の文字または文字列を利用して第2の日時情報を抽出できるようになる。
また、第2の日時情報は、表の記述範囲の直前或いは直後の所定範囲に含まれ且つ表を記述するための表タグと同じ階層のタグに囲まれた日時情報、または、表の記述範囲に含まれ且つ表タグより下の階層のタグに囲まれた日時情報であってもよい。
日時情報の記述のされ方の特徴を利用して抽出を行うことができるようになる。
また、本日時情報抽出方法は、(C)データにおける最初の所定タグまたは最後の所定タグに含まれ且つデータの発行日時を示す第3の日時情報を抽出する処理をさらに含んでもよい。そして、記憶装置に格納する処理において、(b1)抽出した第1の日時情報、第2の日時情報または第3の日時情報を、少なくとも項目値に対応付けて記憶装置に格納してもよい。
項目値がデータの発行日時の時点における値であるとみなすことができる場合が有るので、上で述べたような処理を実行すれば、適切な日時情報を項目値に対応付けられるようになる。
また、本日時情報抽出方法は、(D)データのヘッダに含まれ且つデータの更新日時を示す第4の日時情報を抽出する処理をさらに含んでもよい。そして、記憶装置に格納する処理において、(b2)抽出した第1の日時情報、第2の日時情報または第4の日時情報を、少なくとも項目値に対応付けて記憶装置に格納してもよい。
項目値がデータの更新日時の時点における値であるとみなすことができる場合が有るので、上で述べたような処理を実行すれば、適切な日時情報を項目値に対応付けられるようになる。
また、本日時情報抽出方法は、(E)データの取得日時を示す第5の日時情報を取得する処理をさらに含んでもよい。そして、記憶装置に格納する処理において、(b3)抽出した第1の日時情報、第2の日時情報または第5の日時情報を、少なくとも項目値に対応付けて記憶装置に格納してもよい。
項目値がデータの取得日時の時点における値であるとみなすことができる場合が有るので、上で述べたような処理を実行すれば、適切な日時情報を項目値に対応付けられるようになる。
また、所定範囲は、所定個数のタグを含む範囲であってもよい。
タグが使用されたデータにおける範囲を適切に定めることができるようになる。
また、データは、ウェブページのデータであってもよい。
本実施の形態の第2の態様に係る日時情報抽出装置は、(F)表の項目名および項目値を含むデータから、項目名または項目値に付加された第1の日時情報、または、第1の日時情報以外の第2の日時情報であって、表の記述範囲または表の記述範囲の直前或いは直後の所定範囲に含まれる第2の日時情報を抽出する抽出部(実施の形態における抽出部103は抽出部の一例である)と、(G)抽出部により抽出された第1の日時情報または第2の日時情報を、少なくとも項目値に対応付けて記憶装置に格納する格納処理部(実施の形態における判定部105は格納処理部の一例である)とを有する。
なお、上記方法による処理をプロセッサに行わせるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)
コンピュータに、
表の項目名および項目値を含むデータから、前記項目名または前記項目値に付加された第1の日時情報、または、前記第1の日時情報以外の第2の日時情報であって、前記表の記述範囲または前記表の記述範囲の直前或いは直後の所定範囲に含まれる前記第2の日時情報を抽出し、
抽出した前記第1の日時情報または前記第2の日時情報を、少なくとも前記項目値に対応付けて記憶装置に格納する、
処理を実行させる日時情報抽出プログラム。
(付記2)
前記第2の日時情報は、前記表の記述範囲に含まれ且つ前記表の説明を記述するためのタグで囲まれた日時情報である、
付記1記載の日時情報抽出プログラム。
(付記3)
前記第2の日時情報は、前記表の記述範囲の直前或いは直後の所定範囲に含まれ且つ所定の文字または所定の文字列が付加された日時情報である、
付記1記載の日時情報抽出プログラム。
(付記4)
前記第2の日時情報は、前記表の記述範囲の直前或いは直後の所定範囲に含まれ且つ前記表を記述するための表タグと同じ階層のタグに囲まれた日時情報、または、前記表の記述範囲に含まれ且つ前記表タグより下の階層のタグに囲まれた日時情報である、
付記1記載の日時情報抽出プログラム。
(付記5)
前記コンピュータに、
前記データにおける最初の所定タグまたは最後の前記所定タグに含まれ且つ前記データの発行日時を示す第3の日時情報を抽出する
処理をさらに実行させ、
前記記憶装置に格納する処理において、
抽出した前記第1の日時情報、前記第2の日時情報または前記第3の日時情報を、少なくとも前記項目値に対応付けて前記記憶装置に格納する、
付記1乃至4のいずれか1つ記載の日時情報抽出プログラム。
(付記6)
前記コンピュータに、
前記データのヘッダに含まれ且つ前記データの更新日時を示す第4の日時情報を抽出する
処理をさらに実行させ、
前記記憶装置に格納する処理において、
抽出した前記第1の日時情報、前記第2の日時情報または前記第4の日時情報を、少なくとも前記項目値に対応付けて前記記憶装置に格納する、
付記1乃至4のいずれか1つ記載の日時情報抽出プログラム。
(付記7)
前記コンピュータに、
前記データの取得日時を示す第5の日時情報を取得する
処理をさらに実行させ、
前記記憶装置に格納する処理において、
抽出した前記第1の日時情報、前記第2の日時情報または前記第5の日時情報を、少なくとも前記項目値に対応付けて前記記憶装置に格納する、
付記1乃至4のいずれか1つ記載の日時情報抽出プログラム。
(付記8)
前記所定範囲は、所定個数のタグを含む範囲である、
付記1乃至7のいずれか1つ記載の日時情報抽出プログラム。
(付記9)
前記データは、ウェブページのデータである、
付記1乃至8のいずれか1つ記載の日時情報抽出プログラム。
(付記10)
コンピュータが、
表の項目名および項目値を含むデータから、前記項目名または前記項目値に付加された第1の日時情報、または、前記第1の日時情報以外の第2の日時情報であって、前記表の記述範囲または前記表の記述範囲の直前或いは直後の所定範囲に含まれる前記第2の日時情報を抽出し、
抽出した前記第1の日時情報または前記第2の日時情報を、少なくとも前記項目値に対応付けて記憶装置に格納する、
処理を実行する日時情報抽出方法。
(付記11)
表の項目名および項目値を含むデータから、前記項目名または前記項目値に付加された第1の日時情報、または、前記第1の日時情報以外の第2の日時情報であって、前記表の記述範囲または前記表の記述範囲の直前或いは直後の所定範囲に含まれる前記第2の日時情報を抽出する抽出部と、
前記抽出部により抽出された前記第1の日時情報または前記第2の日時情報を、少なくとも前記項目値に対応付けて記憶装置に格納する格納処理部と、
を有する日時情報抽出装置。
1 情報処理装置 101 データ処理部
103 抽出部 105 判定部
107 生成部 111 ページデータ格納部
113 処理データ格納部 3 ネットワーク

Claims (10)

  1. コンピュータに、
    表の項目名および項目値を含むデータから、前記項目名または前記項目値に付加された第1の日時情報、または、前記第1の日時情報以外の第2の日時情報であって、前記表の記述範囲または前記表の記述範囲の直前或いは直後の所定範囲に含まれる前記第2の日時情報を抽出し、
    抽出した前記第1の日時情報または前記第2の日時情報を、少なくとも前記項目値に対応付けて記憶装置に格納する、
    処理を実行させる日時情報抽出プログラム。
  2. 前記第2の日時情報は、前記表の記述範囲に含まれ且つ前記表の説明を記述するためのタグで囲まれた日時情報である、
    請求項1記載の日時情報抽出プログラム。
  3. 前記第2の日時情報は、前記表の記述範囲の直前或いは直後の所定範囲に含まれ且つ所定の文字または所定の文字列が付加された日時情報である、
    請求項1記載の日時情報抽出プログラム。
  4. 前記第2の日時情報は、前記表の記述範囲の直前或いは直後の所定範囲に含まれ且つ前記表を記述するための表タグと同じ階層のタグに囲まれた日時情報、または、前記表の記述範囲に含まれ且つ前記表タグより下の階層のタグに囲まれた日時情報である、
    請求項1記載の日時情報抽出プログラム。
  5. 前記コンピュータに、
    前記データにおける最初の所定タグまたは最後の前記所定タグに含まれ且つ前記データの発行日時を示す第3の日時情報を抽出する
    処理をさらに実行させ、
    前記記憶装置に格納する処理において、
    抽出した前記第1の日時情報、前記第2の日時情報または前記第3の日時情報を、少なくとも前記項目値に対応付けて前記記憶装置に格納する、
    請求項1乃至4のいずれか1つ記載の日時情報抽出プログラム。
  6. 前記コンピュータに、
    前記データのヘッダに含まれ且つ前記データの更新日時を示す第4の日時情報を抽出する
    処理をさらに実行させ、
    前記記憶装置に格納する処理において、
    抽出した前記第1の日時情報、前記第2の日時情報または前記第4の日時情報を、少なくとも前記項目値に対応付けて前記記憶装置に格納する、
    請求項1乃至4のいずれか1つ記載の日時情報抽出プログラム。
  7. 前記コンピュータに、
    前記データの取得日時を示す第5の日時情報を取得する
    処理をさらに実行させ、
    前記記憶装置に格納する処理において、
    抽出した前記第1の日時情報、前記第2の日時情報または前記第5の日時情報を、少なくとも前記項目値に対応付けて前記記憶装置に格納する、
    請求項1乃至4のいずれか1つ記載の日時情報抽出プログラム。
  8. 前記所定範囲は、所定個数のタグを含む範囲である、
    請求項1乃至7のいずれか1つ記載の日時情報抽出プログラム。
  9. コンピュータが、
    表の項目名および項目値を含むデータから、前記項目名または前記項目値に付加された第1の日時情報、または、前記第1の日時情報以外の第2の日時情報であって、前記表の記述範囲または前記表の記述範囲の直前或いは直後の所定範囲に含まれる前記第2の日時情報を抽出し、
    抽出した前記第1の日時情報または前記第2の日時情報を、少なくとも前記項目値に対応付けて記憶装置に格納する、
    処理を実行する日時情報抽出方法。
  10. 表の項目名および項目値を含むデータから、前記項目名または前記項目値に付加された第1の日時情報、または、前記第1の日時情報以外の第2の日時情報であって、前記表の記述範囲または前記表の記述範囲の直前或いは直後の所定範囲に含まれる前記第2の日時情報を抽出する抽出部と、
    前記抽出部により抽出された前記第1の日時情報または前記第2の日時情報を、少なくとも前記項目値に対応付けて記憶装置に格納する格納処理部と、
    を有する日時情報抽出装置。
JP2017078835A 2017-04-12 2017-04-12 日時情報抽出方法、日時情報抽出装置及び日時情報抽出プログラム Active JP6961987B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017078835A JP6961987B2 (ja) 2017-04-12 2017-04-12 日時情報抽出方法、日時情報抽出装置及び日時情報抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017078835A JP6961987B2 (ja) 2017-04-12 2017-04-12 日時情報抽出方法、日時情報抽出装置及び日時情報抽出プログラム

Publications (2)

Publication Number Publication Date
JP2018180874A true JP2018180874A (ja) 2018-11-15
JP6961987B2 JP6961987B2 (ja) 2021-11-05

Family

ID=64275542

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017078835A Active JP6961987B2 (ja) 2017-04-12 2017-04-12 日時情報抽出方法、日時情報抽出装置及び日時情報抽出プログラム

Country Status (1)

Country Link
JP (1) JP6961987B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020066828A1 (ja) 2018-09-26 2020-04-02 横河電機株式会社 測定装置、および測定方法
CN114944174A (zh) * 2022-06-16 2022-08-26 安徽瑞宣科技咨询有限公司 一种项目申报用信息智能存储系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001202283A (ja) * 1999-11-09 2001-07-27 Fujitsu Ltd コンテンツ更新状況監視システム
US20070011183A1 (en) * 2005-07-05 2007-01-11 Justin Langseth Analysis and transformation tools for structured and unstructured data
WO2008142791A1 (ja) * 2007-05-24 2008-11-27 Fujitsu Limited 差分算出プログラム、差分算出装置および差分算出方法
JP2009075757A (ja) * 2007-09-19 2009-04-09 Kureo:Kk 情報処理装置、およびプログラム
JP2010015202A (ja) * 2008-06-30 2010-01-21 Yahoo Japan Corp 情報収集方法、装置及びプログラム
JP2011215912A (ja) * 2010-03-31 2011-10-27 Yahoo Japan Corp クローラ管理システム及び方法
JP2012181786A (ja) * 2011-03-03 2012-09-20 Sky Co Ltd 日付領域判定システムおよび日付領域判定プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001202283A (ja) * 1999-11-09 2001-07-27 Fujitsu Ltd コンテンツ更新状況監視システム
US20070011183A1 (en) * 2005-07-05 2007-01-11 Justin Langseth Analysis and transformation tools for structured and unstructured data
WO2008142791A1 (ja) * 2007-05-24 2008-11-27 Fujitsu Limited 差分算出プログラム、差分算出装置および差分算出方法
JP2009075757A (ja) * 2007-09-19 2009-04-09 Kureo:Kk 情報処理装置、およびプログラム
JP2010015202A (ja) * 2008-06-30 2010-01-21 Yahoo Japan Corp 情報収集方法、装置及びプログラム
JP2011215912A (ja) * 2010-03-31 2011-10-27 Yahoo Japan Corp クローラ管理システム及び方法
JP2012181786A (ja) * 2011-03-03 2012-09-20 Sky Co Ltd 日付領域判定システムおよび日付領域判定プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
南野 朋之、外3名: "blogの自動収集と監視", 情報処理学会研究報告, vol. 第2004巻,第23号, JPN6008023739, 5 March 2004 (2004-03-05), JP, pages 129 - 136, ISSN: 0004413765 *
廣嶋 伸章、外3名: "文書の記述内容に関連する日時表現の抽出", 言語処理学会第17回年次大会発表論文集 チュートリアル 本会議 ワークショップ [CD−ROM], JPN6020049851, 10 March 2011 (2011-03-10), JP, pages 762 - 765, ISSN: 0004413766 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020066828A1 (ja) 2018-09-26 2020-04-02 横河電機株式会社 測定装置、および測定方法
CN114944174A (zh) * 2022-06-16 2022-08-26 安徽瑞宣科技咨询有限公司 一种项目申报用信息智能存储系统

Also Published As

Publication number Publication date
JP6961987B2 (ja) 2021-11-05

Similar Documents

Publication Publication Date Title
US9015144B2 (en) Configuring web crawler to extract web page information
US10366154B2 (en) Information processing device, information processing method, and computer program product
CN108090104B (zh) 用于获取网页信息的方法和装置
WO2015047920A1 (en) Title and body extraction from web page
JP6411800B2 (ja) 情報管理装置、情報管理システム、及び情報管理プログラム
CN102760150A (zh) 基于属性重现和标签路径的网页抽取方法
CN103136259B (zh) 一种基于内容块标识处理网页内容的方法与设备
CN108170843A (zh) 用于获取数据的方法和装置
JP6961987B2 (ja) 日時情報抽出方法、日時情報抽出装置及び日時情報抽出プログラム
US20140053053A1 (en) Methods and systems for real-time extraction of user-specified information
JP2004220251A (ja) 情報抽出規則作成システム、情報抽出規則作成方法及び情報抽出規則作成プログラム
JPWO2016075829A1 (ja) データ取得プログラム、データ取得方法及びデータ取得装置
JP5063877B2 (ja) 情報処理装置およびコンピュータプログラム
CN104866489A (zh) 一个将网站选定内容提取、存储并发布的系统
KR102290380B1 (ko) 페이지 구축방법, 장치, 디바이스 및 비발휘성 컴퓨터 기억매체
JP2008197976A (ja) 連結情報生成プログラム及び連結情報生成方法
CN108664511B (zh) 获取网页信息方法和装置
JP2006065467A (ja) データ抽出定義情報生成装置およびデータ抽出定義情報生成方法
JP2012059212A (ja) 抽出装置、抽出方法及び抽出プログラム
CN103577578B (zh) 一种标记文件解析方法和装置
JP2017091436A (ja) 特徴語選択装置
JP5380874B2 (ja) 情報検索方法、プログラム及び装置
CN106598933A (zh) 一种基于网页的排版文件校对方法及设备
JP5155351B2 (ja) 地図データ処理装置及び方法
JP6763433B2 (ja) 情報収集システム、情報収集方法、及び、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210914

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210927

R150 Certificate of patent or registration of utility model

Ref document number: 6961987

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150