JP2012014315A - 文書日時推定装置、文書日時推定方法、文書日時推定プログラム - Google Patents

文書日時推定装置、文書日時推定方法、文書日時推定プログラム Download PDF

Info

Publication number
JP2012014315A
JP2012014315A JP2010148593A JP2010148593A JP2012014315A JP 2012014315 A JP2012014315 A JP 2012014315A JP 2010148593 A JP2010148593 A JP 2010148593A JP 2010148593 A JP2010148593 A JP 2010148593A JP 2012014315 A JP2012014315 A JP 2012014315A
Authority
JP
Japan
Prior art keywords
date
time
document
candidate
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010148593A
Other languages
English (en)
Inventor
Toshiyuki Sakurai
俊之 櫻井
Yoshihiro Matsuo
義博 松尾
Genichiro Kikui
玄一郎 菊井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010148593A priority Critical patent/JP2012014315A/ja
Publication of JP2012014315A publication Critical patent/JP2012014315A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】日時メタ情報が取得できなかった場合でも文書日時を推定できるようにする。
【解決手段】本発明の文書日時推定装置は、第1日時推定部、第2日時推定部、第3日時推定部、日時表現記録部、日時修正部を備える。日時表現記録部は、あらかじめ絶対的な日時が特定できる日時表現を記録しておく。第1日時推定部は、日時メタ情報が含まれている場合には当該日時メタ情報の日時を文書日時とする。第2日時推定部は、文書または文書を特定する情報に含まれるファイル名などから日時表現記録部に記録された日時候補を求め、日時候補が年月日を完全に含んでいるときは当該日時候補を文書日時とする。第3日時推定部は、日時候補を当該文書を取得した日時を用いて補完して日時候補とする。日時修正部は、第3日時推定部が日時候補を求めた場合に、日時表現記録部が記録している日時表現に合致する日時表現を文書から探索し、特定できる日時を文書日時とする。
【選択図】図1

Description

本発明は、Webテキスト、テキストファイル等の様々な文書の基準となる日時(文書日時)を推定する文書日時推定装置、文書日時推定方法、文書日時推定プログラムに関する。
Webテキスト、テキストファイル等の様々な文書の基準となる日時を取得する方法としては、電子メールの送信日時を文書日時とする方法(特許文献1)が知られている。また、Webページのメタデータとして付与されている日時情報を取得する方法もある。Webページのメタデータとして付与されている日時情報としては、たとえばRFC2616で定められているLast-Modifiedヘッダ(RFC2616,[平成22年6月19日検索]、インターネット<URL: http://www.ietf.org/rfc/rfc2616.txt>)や、RSS2.0で定められているRSSフィード(RSS 2.0 Specification,[平成22年6月19日検索]、インターネット<URL: http://www.rssboard.org/rss-specification>)でファイルの更新情報を取得する方法などがある。このように、従来技術は日時に関するメタ情報(日時メタ情報)のいずれかにより文書日時が特定できることを前提としている。
特開平11−143864号公報
しかしながら、従来技術はいずれかの日時メタ情報が取得できることを前提としているため、これらの情報が取得できなかった場合に文書日時を決定することができないという課題がある。
本発明は、日時メタ情報が取得できなかった場合でも文書日時を推定できるようにすることを目的とする。
本発明の文書日時推定装置は、文書入力部、第1日時推定部、第2日時推定部、第3日時推定部、日時表現記録部、日時修正部、文書日時出力部を備える。日時表現記録部は、あらかじめ絶対的な日時が特定できる日時表現と当該日時表現の場合の日時の設定方法を記録しておく。文書入力部は、文書日時を推定する対象となる文書とその文書を特定する情報を取得する。第1日時推定部は、文書または文書を特定する情報に日時メタ情報が含まれているかを確認し、日時メタ情報が含まれている場合には当該日時メタ情報の日時を文書日時とする。第2日時推定部は、第1日時推定部が文書日時を求められなかった場合に、文書または前記文書を特定する情報に含まれるファイル名、文書のタイトル、または前記文書のソースの情報に日時を特定する情報が含まれているかを、日時表現記録部を参照して確認し、含まれている場合には当該日時表現の日時の設定方法に従って日時候補を求め、日時候補が年月日を含んでいるときは当該日時候補を文書日時とする。第3日時推定部は、第2日時推定部が文書日時を求められなかった場合に、日時候補があるときには当該日時候補を当該文書を取得した日時を用いて補完して新しい日時候補とし、日時候補がないときには当該文書を取得した日時を日時候補とする。日時修正部は、第3日時推定部が日時候補を求めた場合に、日時表現記録部に記録された日時表現に合致する日時表現であって所定の範囲の日時を文書から探索し、見つかったときには当該日時表現の日時の設定方法で定まる日時を文書日時とし、見つからなかったときには日時候補を文書日時とする。文書日時出力部は、文書日時と文書を特定する情報とを出力する。
本発明の文書日時推定装置によれば、日時メタ情報がない文書でも、ファイル名、タイトル、URL、クロール日時、文書の内容などから総合的に文書日時を推定できる。
本発明の文書日時推定装置の機能構成例を示す図。 本発明の文書日時推定装置の処理フロー例を示す図。 日時表現とその日時表現の場合の日時の設定方法の例を示す図。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
図1に本発明の文書日時推定装置の機能構成例を示す。また、図2に本発明の文書日時推定装置の処理フロー例を示す。文書日時推定装置100は、文書入力部110、第1日時推定部120、第2日時推定部130、第3日時推定部140、日時表現記録部190、日時修正部150、文書日時出力部160を備える。日時表現記録部190は、あらかじめ絶対的な日時が特定できる日時表現と当該日時表現の場合の日時の設定方法を記録しておく。図3は、日時表現とその日時表現の場合の日時の設定方法の例である。このような日時表現とその日時表現の場合の日時の設定方法の例は、人手で作成すればよい。文書入力部110は、文書日時を推定する対象となる文書とその文書を特定する情報(「文書ID」と呼ばれる)を取得する(S110)。第1日時推定部120は、文書または文書を特定する情報に日時メタ情報が含まれているかを確認し(S121)、日時メタ情報が含まれている場合(ステップS121がYesの場合)には当該日時メタ情報の日時を文書日時とする(S122)。
第2日時推定部130は、第1日時推定部120が文書日時を求められなかった場合(ステップS121がNoの場合)に、文書または文書を特定する情報に含まれるファイル名、文書のタイトル、または文書のソースの情報(例えば、Webテキストの場合であればURL)に日時を示す情報が含まれているかを、日時表現記録部190を参照して確認し、含まれている場合には当該日時表現の日時の設定方法に従って日時候補を求める(S131)。ファイル名やタイトルには、文書の作成者の日時表現が含まれていることがよくある。例えば、タイトルが「明細書案20100620」であれば、2010年6月20日版の明細書案であることが予測される。また、URLに日時表現(2010/05など)が含まれていることもある。このような日時表現を探し、日時候補を求める。日時表現が複数見つかった場合には、それらの日時表現で補完しあい、年月日を推定すればよい。例えば、1つの日時表現には年が記載されており、別の日時表現には月日が記載されていれば、それらを組み合わせればよい。そして、日時候補が年月日を完全に含んでいるかを確認する(S132)。日時候補が年月日を完全に含んでいるとき(ステップS132がYesのとき)は、当該日時候補を文書日時とする(S133)。なお、ファイル名、文書のタイトル、または文書のソースの情報から日時を示す情報が見つからなかった場合には日時候補は作成されない。日時候補が年月日を完全には含んでいないときや日時候補が作成されなかったとき(ステップS132がNoのとき)は、第3日時推定部140の処理に進む。
第3日時推定部140は、第2日時推定部130が文書日時を求められなかった場合に、日時候補があるときには当該日時候補を、当該文書を取得した日時(クロール日時)を用いて補完して新しい日時候補とする。また、日時候補がないときには当該文書を取得した日時(クロール日時)を日時候補とする(S140)。日時修正部150は、日時表現記録部190に記録された日時表現に合致する日時表現であって所定の範囲の日時を文書から探索する。そして、見つかったときには当該日時表現の日時の設定方法で定まる日時を文書日時とし、見つからなかったときには日時候補を文書日時とする(S150)。なお、「所定の範囲の日時」とは、クロール日時以前であって、文書を作成した可能性のある日時の範囲に設定すればよい。文書日時出力部160は、文書日時と文書を特定する情報とを出力する(S160)。
本発明の文書日時推定装置では、日時メタ情報がない場合でも、ファイル名、文書タイトル、URLを文書日時推定に用いることにより、従来よりも高度な文書日時推定が可能になった。また、ファイル名、文書タイトル、URLで年月日まで文書日時を推定できなかった場合でも、クロール日時や本文中の特定日時表現から文書日時を推定することで、年月日までの完全な文書日時を推定できるようになった。
[プログラム、記録媒体]
上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
100 文書日時推定装置 110 文書入力部
120 第1日時推定部 130 第2日時推定部
140 第3日時推定部 150 日時修正部
160 文書日時出力部 190 日時表現記録部

Claims (3)

  1. 絶対的な日時が特定できる日時表現と当該日時表現の場合の日時の設定方法を記録した日時表現記録部と、
    文書日時を推定する対象となる文書とその文書を特定する情報を取得する文書入力部と、
    前記文書または前記文書を特定する情報に日時メタ情報が含まれているかを確認し、日時メタ情報が含まれている場合には当該日時メタ情報の日時を文書日時とする第1日時推定部と、
    前記第1日時推定部が文書日時を求められなかった場合に、前記文書または前記文書を特定する情報に含まれるファイル名、文書のタイトル、または前記文書のソースの情報に日時を特定できる日時表現が含まれているかを、前記日時表現記録部を参照して確認し、含まれている場合には当該日時表現の日時の設定方法に従って日時候補を求め、前記日時候補が年月日を含んでいるときは当該日時候補を文書日時とする第2日時推定部と、
    前記第2日時推定部が文書日時を求められなかった場合に、前記日時候補があるときには当該日時候補を当該文書を取得した日時を用いて補完して新しい日時候補とし、前記日時候補がないときには当該文書を取得した日時を日時候補とする第3日時推定部と、
    前記第3日時推定部が日時候補を求めた場合に、前記日時表現記録部に記録された日時表現に合致する日時表現であって所定の範囲の日時を前記文書から探索し、見つかったときには当該日時表現の日時の設定方法で定まる日時を文書日時とし、見つからなかったときは前記日時候補を文書日時とする日時修正部と、
    前記文書日時と文書を特定する情報とを出力する文書日時出力部と
    を備える文書日時推定装置。
  2. あらかじめ絶対的な日時が特定できる日時表現と当該日時表現の場合の日時の設定方法を日時表現記録部に記録しておき、
    文書入力部が、文書日時を推定する対象となる文書とその文書を特定する情報を取得する文書入力ステップと、
    第1日時推定部が、前記文書または前記文書を特定する情報に日時メタ情報が含まれているかを確認し、日時メタ情報が含まれている場合には当該日時メタ情報の日時を文書日時とする第1日時推定ステップと、
    前記第1日時推定ステップで文書日時を求められなかった場合に、第2日時推定部が、前記文書または前記文書を特定する情報に含まれるファイル名、文書のタイトル、または前記文書のソースの情報に日時を特定できる日時表現が含まれているかを、前記日時表現記録部を参照して確認し、含まれている場合には当該日時表現の日時の設定方法に従って日時候補を求め、前記日時候補が年月日を含んでいるときは当該日時候補を文書日時とする第2日時推定ステップと、
    前記第2日時推定ステップで文書日時を求められなかった場合に、第3日時推定部が、前記日時候補があるときには当該日時候補を当該文書を取得した日時を用いて補完して新しい日時候補とし、前記日時候補がないときには当該文書を取得した日時を日時候補とする第3日時推定ステップと、
    前記第3日時推定ステップで日時候補を求めた場合に、日時修正部が、前記日時表現記録部に記録された日時表現に合致する日時表現であって所定の範囲の日時を前記文書から探索し、見つかったときには当該日時表現の日時の設定方法で定まる日時を文書日時とし、見つからなかったときは前記日時候補を文書日時とする日時修正ステップと、
    文書日時出力部が、前記文書日時と文書を特定する情報とを出力する文書日時出力ステップと
    を有する文書日時推定方法。
  3. 請求項1記載の文書日時推定装置としてコンピュータを機能させる文書日時推定プログラム。
JP2010148593A 2010-06-30 2010-06-30 文書日時推定装置、文書日時推定方法、文書日時推定プログラム Pending JP2012014315A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010148593A JP2012014315A (ja) 2010-06-30 2010-06-30 文書日時推定装置、文書日時推定方法、文書日時推定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010148593A JP2012014315A (ja) 2010-06-30 2010-06-30 文書日時推定装置、文書日時推定方法、文書日時推定プログラム

Publications (1)

Publication Number Publication Date
JP2012014315A true JP2012014315A (ja) 2012-01-19

Family

ID=45600694

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010148593A Pending JP2012014315A (ja) 2010-06-30 2010-06-30 文書日時推定装置、文書日時推定方法、文書日時推定プログラム

Country Status (1)

Country Link
JP (1) JP2012014315A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021079922A1 (ja) * 2019-10-25 2021-04-29

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021079922A1 (ja) * 2019-10-25 2021-04-29
JP7287483B2 (ja) 2019-10-25 2023-06-06 株式会社村田製作所 蓄電装置および充放電の制御方法

Similar Documents

Publication Publication Date Title
US8396938B2 (en) Providing direct access to distributed managed content
US8195608B2 (en) File synchronization between multiple nodes
US20150169741A1 (en) Methods And Systems For Eliminating Duplicate Events
US8732127B1 (en) Method and system for managing versioned structured documents in a database
US8140482B2 (en) Using RSS archives
JP2006178984A (ja) Webコンテンツを管理するためのシステムおよび方法
KR20060044561A (ko) 중첩된 표로 스키마 없는 데이터 매핑을 위한 시스템과방법
KR20080005491A (ko) 리소스들 간의 효율적 관계 설명
US8527480B1 (en) Method and system for managing versioned structured documents in a database
US20220029787A1 (en) Citation and Attribution Management Methods and Systems
US9069771B2 (en) Music recognition method and system based on socialized music server
JP2011108117A (ja) 話題特定システム、話題特定装置、クライアント端末、プログラム、話題特定方法、および情報処理方法
EP2024879A1 (en) Significant change search alerts
JP2009093349A (ja) 情報検索システム、情報検索用インデックスの登録装置、情報検索方法及びプログラム
US10452781B2 (en) Data provenance system
Jones et al. Interoperability for accessing versions of web resources with the memento protocol
US20130086083A1 (en) Transferring ranking signals from equivalent pages
JP2012014315A (ja) 文書日時推定装置、文書日時推定方法、文書日時推定プログラム
US10503773B2 (en) Tagging of documents and other resources to enhance their searchability
Burgess Provenance in digital libraries: Source, context, value and trust
US8082334B1 (en) Providing direct access to managed content
US20080270453A1 (en) Keyword-based content management
US8898122B1 (en) Method and system for managing versioned structured documents in a database
Flanagan Digital Preservation Considerations for the RFC Series
JP2007536614A (ja) メタデータの同期化方法、装置及びその方法を行うためのプログラムが保存された記録媒体