JP5741448B2 - 情報推定装置、情報推定方法、及びプログラム - Google Patents

情報推定装置、情報推定方法、及びプログラム Download PDF

Info

Publication number
JP5741448B2
JP5741448B2 JP2011547459A JP2011547459A JP5741448B2 JP 5741448 B2 JP5741448 B2 JP 5741448B2 JP 2011547459 A JP2011547459 A JP 2011547459A JP 2011547459 A JP2011547459 A JP 2011547459A JP 5741448 B2 JP5741448 B2 JP 5741448B2
Authority
JP
Japan
Prior art keywords
time
issue
candidate
issuance
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011547459A
Other languages
English (en)
Other versions
JPWO2011077957A1 (ja
Inventor
剛巨 河合
剛巨 河合
安藤 真一
真一 安藤
聡 中澤
聡 中澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2011547459A priority Critical patent/JP5741448B2/ja
Publication of JPWO2011077957A1 publication Critical patent/JPWO2011077957A1/ja
Application granted granted Critical
Publication of JP5741448B2 publication Critical patent/JP5741448B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、情報推定装置、情報推定方法、及びこれらを実現するためのプログラムに関し、特には、文書にメタデータを付与するための技術に関する。
一般に、文書に関する付加的な情報は、文書の「メタデータ(書誌情報)」と呼ばれる。例えば、発行時間、タイトル、著者、カテゴリといった情報などがある。このようなメタデータのうち、特に、発行時間は、文書から得られる情報がいつ発行されたかを示す時間的な情報である。発行時間は、文書から得られる情報の新しさを特定するために重要である。
但し、発行時間に関するメタデータは、全ての文書に付加されているとは限られず、メタデータの不明な文書は数多く存在する。通常、メタデータの記述書式及びスキーマが明確になっていない文書に対して、人手で発行時間を判断するためには、文書の中から必要な情報を探し出し、その上で発行時間かどうかを判断する必要がある。
つまり、メタデータが付与されていない文書から、発行時間に相当する情報を人手で判断することは、多彩な表現形式を持つ文書中から必要な情報を探し出すことに相当する。また、多数の時間情報を探し出せても、探し出せた時間情報の中から、発行時間を特定することは困難である。この結果、発行時間を人手で判断しようとした場合は、コストがかかるという問題が生じてしまう。
ここで、インターネット又はイントラネット上で公開されている文書を例に挙げて、このような文書の発行時間の特定について説明する。インターネット又はイントラネット上で公開されている文書の表現形式は様々であり、このような文書に対しては、必ずしも既定の書式及びスキーマに従ってメタデータが付与されるわけではない。なお、このような文書のメタデータを定義した例としては、W3Cにより規格化されているRDF(Resource Description Framework)が知られているが、全ての文書にRDFに従って情報が付与されているわけではなく、付与されていない文書の方が多いと考えられる。
また、インターネット又はイントラネット上で公開されている文書は、多くの場合、HTML(Hyper Text Markup Language)形式で記述されている。一般に、HTML形式は、文章の構造及び見栄え等の表現に優れており、HTML形式で記述された文書では、表現の自由度は高くなる。そのため、HTML文書は、玉石混合の表現形式で記載されている。
従って、HTML形式で記述された文書を対象として、いつ、誰が発行した、どのような種類の文書かといった情報を判断するためには、多彩な表現形式を解釈して、必要な情報を探し出す必要がある。このことから、HTML形式で記述された文書を対象として、発行時間に相当する情報を人手で判断することは困難であり、結果、上述したようにコストがかかるという問題が生じてしまう。
一方、インターネット又はイントラネット上で公開されている文書を収集し、収集時の時間を発行時間として代替的に用いることが考えられている。しかし、この手法によれば、発行時間の判断は簡単になるが、必ずしも発行された時点に遅延なく全ての文書を収集できるとは限られない。また、迅速、且つ、大量に文書を収集する必要があり、そのためのコストが高いことから、上述の問題の解決は困難である。
その他、ウェブサーバがHTTPの通信時において応答時に返すLast-Modifiedヘッダ等の時間情報を、発行時間とみなすことも考えられる。しかし、ウェブサーバが正確でない時間を返す場合、及びそもそもこれらのヘッダが付与されない場合も多いので、このような時間情報を、文書の発行時間に用いた場合は、多くの問題が生じてしまう。
このような背景のもと、例えば、特許文献1は、文書中の時間表現から発行時間を推定する方法を開示している。特許文献1に開示された方法では、先ず、文書中の時間表現のパターンを予め記述しているルールに従って、時間表現の抽出が行われ、最も抽出数の多いルールが特定される。そして、特定されたルールによって抽出された時間表現が表す発行日時が、発行時間と推定される。
特開2005-135198号公報
特許文献1に開示された方法によれば、効率良く、自動的に発行時間を推定でき、推定にかかるコストを低減できると考えられる。しかしながら、特許文献1に開示の方法では、結局のところ、最も多く抽出された同じ表記の時間表現から発行時間が推定されるため、発行時間が不正確になる可能性がある。以下に、理由について説明する。
一般に、文書中には、多くの場合、年、年月、年月日、月日、日、時刻等の様々な粒度の時間表現が多彩な形式で複数記述されている。また、これら時間表現には、文書の発行時間とは関係なく、文書中に記載されている出来事等に関するものもある。例えば、記事の発行日時、直近のイベントの起こった日付及び時刻、過去のイベントの発生日、将来のイベントの開催日及び予定、といったように多様な時間表現が文書には含まれている。つまり、文書中から最も多く抽出された同じ表記の時間表現が、その文書の発行時間に該当する可能性は高くないと考えられる。
一方、その他に、文書の最初に現れる日付が発行時間を表す確率が低くないことから、文書中の時間表現のうち、最初に現れる時間表現を特定し、この時間表現が表す日付を発行時間とする方法も考えられる。しかしながら、文書の中盤又は終盤に現れる時間表現が発行時間を表している可能性もあり、時間表現が現れる位置にのみ基づいて発行時間を特定した場合も、発行時間は不正確になってしまう。
このため、現在、人手によることなく、文書中に存在する多数の時間表現の中から、当該文書の発行時間に該当する時間表現を適切に推定するための手法が求められている。
本発明の目的は、上記問題を解消し、人手によることなく、文書中に記述された時間表現から適切な発行時間を推定し得る、情報推定装置、情報推定方法、及びプログラムを提供することにある。
上記目的を達成するため、本発明における情報推定装置は、対象となる文書の発行時間を推定する情報推定装置であって、
前記対象となる文書に記述された時間表現を抽出し、抽出した前記時間表現に基づいて、前記対象となる文書の発行時間に該当する可能性を有した複数の発行時間候補を生成する、候補生成部と、
前記複数の発行時間候補それぞれについて、当該発行時間候補と他の発行時間候補との時間的な近さを求め、求めた前記時間的な近さに基づいて、前記対象となる文書の発行時間を推定する、発行時間推定部と、
を備えていることを特徴とする。
また、上記目的を達成するため、本発明における情報推定方法は、対象となる文書の発行時間を推定するための方法であって、
(a)対象となる文書に記述された時間表現を抽出し、抽出した前記時間表現に基づいて、前記対象となる文書の発行時間に該当する可能性を有した複数の発行時間候補を生成する、ステップと、
(b)前記複数の発行時間候補それぞれについて、当該発行時間候補と他の発行時間候補との時間的な近さを求め、求めた前記時間的な近さに基づいて、前記対象となる文書の発行時間を推定する、ステップと、
を有することを特徴とする。
更に、上記目的を達成するため、本発明におけるプログラムは、コンピュータによって、対象となる文書の発行時間を推定するためのプログラムであって、
前記コンピュータに、
(a)対象となる文書に記述された時間表現を抽出し、抽出した前記時間表現に基づいて、前記対象となる文書の発行時間に該当する可能性を有した複数の発行時間候補を生成する、ステップと、
(b)前記複数の発行時間候補それぞれについて、当該発行時間候補と他の発行時間候補との時間的な近さを求め、求めた前記時間的な近さに基づいて、前記対象となる文書の発行時間を推定する、ステップと、
を実行させる、ことを特徴とする。
以上のように、本発明における、情報推定装置、情報推定方法、及びプログラムによれば、人手によることなく、文書中に記述された時間表現から適切な発行時間を推定することができる。
図1は、本発明の実施の形態における情報推定装置の構成を示すブロック図である。 図2は、本発明の実施の形態における情報推定装置の動作を示す流れ図である。 図3は、本発明の実施の形態におけるプログラムを実行可能なコンピュータを示すブロック図である。 図4は、実施例において対象となる文書の具体例を示す図である。 図5は、実施例において生成された、発行時間候補の具体例を示す図である。 図6は、実施例において求められた、発行時間候補間の重なり度合いの具体例を示す図である。 図7は、実施例において求められた、発行時間候補間の時間的な距離の具体例を示す図である。 図8は、実施例において求められた、発行時間候補間の時間的な離れ度合いの具体例を示す図である。
(実施の形態)
以下、本発明の実施の形態における情報推定装置、情報推定方法、及びプログラムについて、図1〜図3を参照しながら説明する。最初に、本実施の形態における情報推定装置の構成について図1を用いて説明する。図1は、本発明の実施の形態における情報推定装置の構成を示すブロック図である。
図1に示すように、本実施の形態における情報推定装置1は、対象となる文書(対象文書)の発行時間を推定する装置である。対象文書は、情報推定装置1の外部の入力装置2から入力される。情報推定装置1は、候補生成部11と、発行時間推定部12とを備えている。
候補生成部11は、対象文書に記述された時間表現を抽出し、抽出した時間表現に基づいて、対象文書の発行時間に該当する可能性を有した複数の発行時間候補を生成する。発行時間推定部12は、複数の発行時間候補それぞれについて、当該発行時間候補と他の発行時間候補との時間的な近さを求める。また、発行時間推定部12は、求められた時間的な近さに基づいて、対象文書の発行時間を推定する。
このように、情報推定装置1では、発行時間候補間の時間的な近さが求められる。よって、最も他の発行時間候補と時間的に近接した発行時間候補、最も他の発行時間候補から時間的に離れた発行時間候補といった、発行時間候補についての区別が可能となり、発行時間に該当する可能性が極めて高い発行時間候補の特定が可能となる。従って、情報推定装置1を用いれば、人手によることなく、対象文書の発行時間を推定でき、更に、推定された発行時間は適切な発行時間に該当する。
ここで、本実施の形態における情報推定装置1の構成について更に具体的に説明する。先ず、本実施の形態において、対象文書としては、インターネット上で公開されているHTML文書、データベースに登録されている各種文書が挙げられる。また、インターネット上で公開されているHTML文書の場合、HTML文書が、インターネット上に公開された時の時間(発信時間)が発行時間に相当する。更に、データベースに登録されている文書の場合は、文書が作成された時の時間、データベースに格納された時の時間が、発行時間に相当する。
また、本実施の形態では、情報推定装置1には、入力装置2が接続されており、文書は、入力装置2から入力される。入力装置2の具体例としては、キーボード又はマウスといった利用者が直接操作する入力機器、ネットワークを介して接続されたコンピュータ、記憶装置、文書を格納した記録ディスクがセットされたディスクドライブ装置等が挙げられる。
入力装置2の具体例のうち、記憶装置としては、メモリ、コンピュータ、ハードディスクドライブ(HDD:Hard Disk Drive)、ソリッドステートドライブ(SSD:Solid State Drive)等が挙げられる。なお、情報推定装置1が、後述するように、コンピュータによって実現される場合、上述の記憶装置、ディスクドライブ装置は、このコンピュータに備えられた装置であっても良い。また、上述の記憶装置、ディスクドライブ装置は、情報推定装置1にネットワークを介して接続されていても良く、この場合、これら装置は、候補生成部11の指示に応じて、文書を出力しても良い。
候補生成部11は、本実施の形態では、例えば、文書中の日付又は時刻について記載された部分、HTML文書のヘッダ情報、文書名、URI、ウェブページのURL中のテキスト、等から時間表現を抽出する。更に、抽出される時間表現としては、年、年月、年月日、月日、日、又は時刻等の時間情報の構成要素、これらの組み合わせが挙げられる。
本実施の形態では、発行時間推定部12は、上述した時間的な近さとして、各発行時間候補それぞれと他の発行時間候補との時間的な重なり度合い、及び各発行時間候補それぞれと他の発行時間候補との時間的な離れ度合い、のうち少なくとも一方を求めることができる。
具体的には、発行時間推定部12は、先ず、各発行時間候補について、それを構成する構成要素のうち最も時間粒度が小さい最小構成要素を特定し、特定した最小構成要素の開始から終了までの期間を、各発行時間候補の時間区間とする。時間粒度とは、「年」、「月」、「日」、「時間」、「秒」といった、時間を特定する際の単位である。
また、推定の対象となる「発行時間」に対しては、複数種類の粒度が考えられ、発行時間推定部12は、利用者が「発行時間」に対して求める粒度に合わせて、最小構成を特定するための粒度(最小単位)を設定することができる。例えば、利用者が、「年」と、「月」と、「日」との組み合わせによって発行時間を特定することを求めているのであれば、発行時間推定部12は、発行時間の最小単位を「日」に設定する。この場合、対象文書は、最小単位の時間軸において、時間区間の間に、つまり、「日」の始まりから終了の間に、発行されたものと考えられる。
更に、発行時間として、日付に加えて時刻までが求められているのであれば、最小単位は、時刻、即ち、「時」、「分」、又は「秒」に設定される。なお、このような場合の発行時間としては、例えば、「年」、「月」、「日」、「時」の組み合わせ、「年」、「月」、「日」、「時」、「分」の組み合わせ、「年」、「月」、「日」、「時」、「分」、「秒」の組み合わせ、等各種の粒度の組み合わせが挙げられる。
また、最小単位は、「時」、「分」、「秒」以外の「日」より短い粒度、例えば、12時間毎に日を区切る「午前」と「午後」、一日を3つの期間に分割する、「朝」、「昼」、「夜」等に設定されていても良い。これらの粒度も日付との組み合わせにより、時間軸上での発行時間の特定に利用可能である。その他、最小単位は、例えば、2000年5月第2週、又は2000年上半期等のように、「日」よりも長い粒度であっても良い。
そして、発行時間推定部12は、時間的な重なり度合いを、各発行時間候補それぞれの時間区間と他の発行時間候補の時間区間との重なりの程度から求めることができる。このとき、「重なりの程度」は、例えば、一の発行時間候補の時間区間と重なる時間区間を有する他の発行時間候補の数を求め、求めた各数から得ることができる。また、発行時間推定部12は、時間的な重なり度合いが大きい程、当該発行時間候補を発行時間として推定することができる。
また、発行時間推定部12は、時間的な離れ度合いを、各発行時間候補それぞれと他の発行時間候補との時間的な距離から求めることができる。時間的な距離は、例えば、上述した最小単位を基準にして表すことができる。また、発行時間推定部12は、時間的な離れ度合いが小さい程、当該発行時間候補を発行時間として推定することができる。
更に、本実施の形態では、発行時間推定部12は、各発行時間候補に対して、基準値を設定し、基準値を用いて対象文書の発行時間を推定することができる。基準値としては、他の発行時間候補との時間的な重なり度合が大きい程、値が増大するもの、他の発行時間候補との時間的な離れ度合いが小さい程、値が増大するもの、これらの組み合わせ、が挙げられる。また、発行時間推定部12は、発行時間候補の基準値が大きい程、当該発行時間候補を発行時間として推定することができる。
また、図1に示すように、本実施の形態では、情報推定装置1は、出力装置3に接続されている。情報推定装置1によって対象文書の発行時間が推定されると、発行時間を特定する情報が、出力装置3に送られる。出力装置3は、本実施の形態では、コンピュータ等の情報処理装置である。出力装置3は、推定された発行時間を用いて、各種情報処理を行う。また、出力装置は、ディスプレイ装置であっても良く、この場合は、推定された発行時間が表示画面に表示される。
次に、本発明の実施の形態における情報推定装置1の動作について図2を用いて説明する。図2は、本発明の実施の形態における情報推定装置の動作を示す流れ図である。また、以下の説明においては、適宜図1を参酌する。更に、本実施の形態では、情報推定装置1を動作させることによって、情報推定方法が実施されるので、情報推定方法の説明は、以下の情報推定装置1の動作説明に代える。
最初に、前提として、入力装置2から、候補生成部11に対して、対象文書の入力が行われる。これにより、図2に示すように、候補生成部11は、対象文書の入力を受け付ける(ステップA1)。ステップA1では、インターネット上に公開されたHTML文書の入力が受け付けられたとする。
次に候補生成部11は、入力された対象文書の中から、それに含まれる時間表現を抽出し、抽出した時間表現に基づいて、複数の発行時間候補を生成する(ステップA2)。ステップA2では、ステップA1で入力が受け付けられたHTML文書が含む時間表現が抽出される。また、ステップA2で生成される発行時間候補は、対象文書がインターネット上に発信された時間(発信時間)の候補である。更に、候補生成部11は、各発行時間候補の時間区間も求める。
続いて、発行時間推定部12は、ステップA2で生成された各発行時間候補について、それと他の発行時間候補との時間的な近さを求め、求めた時間的な近さに基づいて、対象文書の発行時間を推定する(ステップA3)。推定結果は、出力装置3に送信される。
ステップA3では、時間的な近さとして、複数の発行時間候補の間の時間的な重なり度合い、及び複数の発行時間候補の間の時間的な離れ度合いのうち、少なくとも一つが求められる。また、発行時間推定部12は、時間的な重なり度合いを、各発行時間候補それぞれの時間区間と他の発行時間候補の時間区間との重なりの程度から求め、時間的な離れ度合いを、各発行時間候補それぞれと他の発行時間候補との時間的な距離から求める。ステップA3の実行後、情報推定装置1における処理は終了する。
次に、本実施の形態におけるプログラムについて説明する。図3は、本発明の実施の形態におけるプログラムを実行可能なコンピュータを示すブロック図である。図3に示すコンピュータは、情報推定装置1をインプリメントした情報処理装置として機能する。
図3に示すように、コンピュータ10は、プロセッサ(CPU:Central Processing Unit)20と、メインメモリとなるRAM(Random Access Memory)21と、バス23と、ROM(Read Only Memory)24と、記憶装置25と、通信インターフェイス(IF)28と、データリーダ/ライタ29とを備えている。バス23は、コンピュータ10のコンポーネントの間の通信を許可する1つ以上の配線を含むことができる。また、コンピュータ10には、1又は2以上の入力装置2と、1又は2以上の出力装置3とが接続されている。
本実施の形態におけるプログラムは、ROM24、又は記憶装置25に格納されている。そして、当該プログラムは、プロセッサ20によって読み込まれ、RAMの記憶領域に展開される。プロセッサ20は、当該プログラムに従ってコンピュータ10を動作させる。本実施の形態におけるプログラムが、コンピュータ10に、図2に示すステップA1〜A3を実行させる命令を含むプログラムであれば、プロセッサ20は、候補生成部11及び発行時間推定部12として機能し、処理を行う。この結果、コンピュータ10によって、情報推定装置1及び情報推定方法が実現されることとなる。
また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体30に格納された状態で提供される。本実施の形態におけるプログラムは、インターネット上で流通するものであっても良い。データリーダ/ライタ29は、プロセッサ20と記録媒体30との間のデータ伝送を仲介し、記録媒体30からのプログラムの読み出し、及び処理結果の記録媒体30への書き込みを実行する。
記録媒体30の具体例としては、CF(Compact Flash)及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記憶媒体、又はCD-ROM(Compact Disk Read Only Memory)等の光学記憶媒体が挙げられる。
次に、実施の形態に示した情報推定装置1の実施例を、図4〜図8を用いて説明する。本実施例では、情報推定装置1は、図3に示したコンピュータ10によって実現されており、プロセッサ20が候補生成部11及び発行時間推定部12として機能し、処理を行う。また、対象文書は、インターネット上に公開されたHTML文書であるとする。更に、以下の説明は、図2に示したステップ毎に行う。
[ステップA1、A2]
先ず、候補生成部11は、図1及び図3に示した入力装置2から入力された対象文書を受け付ける。次に、候補生成部11は、入力された対象文書から複数の時間表現を抽出する。ここで、例えば、対象文書として図4に示す文書が入力されたとする。図4は、実施例において対象となる文書の具体例を示す図である。
候補生成部11は、図4に示した対象文書から、例えば「平成16年11月24日」、「2005年1月14日」、「2004-11-25」、「2004」といった時間表現を抽出できる。これらの時間表現の抽出は、例えば、「*年*月*日」、「(数字4桁)−(数字2桁)−(数字2桁)」といったパターンを表す正規表現等を用いることによって行うことができる。また、対象文書中のテキストを形態素解析した結果を用いて、特定の形態素列のパターンで表される時間表現を抽出しても良い。さらに、時間表現は、特定の時点の呼び名の表現も対象として良い。例えば、1月1日のことを「元旦」と表現する。特定の呼び名に対応する文字列のパターンや形態素列のパターンなどにより抽出することが可能である。
また、候補生成部11は、文書の内容に関する記述以外、例えば、文書名、ウェブページのURL等のテキストからも、時間表現を抽出することができる。候補生成部11は、URL中の数値の文字列、例えば、数字2桁が3つ連続するパターンをそれぞれ「年」、「月」、「日」とする時間表現として抽出することができる。具体的には、図4に示された文書のURLからは、「041125」の数値情報に基づき、時間表現として、2004年11月25日が抽出される。
更に、ある時間表現において日付の一部が不明の場合は、候補生成部11は、他の時間表現を用いて、不明の部分を補完することもできる。この場合の他の時間表現としては、文書内で当該時間表現の直前に出現する時間表現、当該時間表現との間に存在する文字数が一定以内である等の出現位置が当該時間表現から近い時間表現、が挙げられる。例えば、「年」が不明で「月」と「日」のみしか記述されてない時間表現があったとする。この場合、候補生成部11は、その時間表現の直前にある「年」に関する記述から「年」を補完することができる。
また、候補生成部11は、文書中の内容とは関係のないコンテンツ部分については除外し、除外した部分に含まれる時間表現については抽出の対象外とすることもできる。これにより、推定精度の向上が期待される。
次に、候補生成部11は、抽出した時間表現から、発行時間候補を生成する。例えば、候補生成部11は、抽出した時間表現そのものを発行時間候補とすることができる。また、候補生成部11は、例えば、時間表現の特定のパターンから、「年」、「月」、「日」、「時刻」といった時間情報の構成要素を特定し、特定した構成要素の組み合わせから発行時間候補を生成することもできる。具体的には、候補生成部11は、例えば「平成16年11月24日」といった和暦による時間表現を西暦に換算し、そして「2004年」、「11月」、「24日」という構成要素からなる「2004年11月24日」という正規化された発行時間候補を生成する。
本実施例では、候補生成部11は、図5に示すように、抽出した時間表現を構成する構成要素を特定し、特定した構成要素が各発行時間候補の構成要素となるように、発行時間候補を生成する。図5は、実施例において生成された、発行時間候補の具体例を示す図である。図5の例では、各発行時間候補は、「年」、「月」、「日」の構成要素で構成されている。なお、図5において、各発行時間候補には、識別子であるIDが付与されており、各IDは、抽出された時間表現の文字列、及び特定された構成要素(「年」、「月」、「日」)にひも付されている。
また、図5には、各発行時間候補の構成要素が「年」、「月」、「日」のみである例が示されているが、本実施例は、この態様に限定されることはなく、「時」、「分」、「秒」といった時間粒度が細かい構成要素、その他の時間粒度の構成要素が用いられていても良い。この場合、「時」及び「分」といった構成要素は、例えば、図5に示されたテーブルの新たな列として挿入される。
[ステップA3]
続いて、発行時間推定部12は、候補生成部11が生成した複数の発行時間候補それぞれについて、発行時間候補の間の時間的な近さを求め、求めた時間的な近さに基づいて、対象文書の発行時間を推定する。本実施例では、時間的な近さとして、各発行時間候補それぞれと他の発行時間候補との時間的な重なり度合い、及び各発行時間候補それぞれと他の発行時間候補との時間的な離れ度合いとが求められる。
また、本実施例では、各発行時間候補それぞれと他の発行時間候補との時間的な重なり度合いは、各発行時間候補が意味する時間区間の重なりの強さ、即ち、各発行時間候補それぞれの時間区間と他の発行時間候補の時間区間との重なりの程度に基づいて計算される。よって、発行時間推定部12は、先ず、各発行時間候補の時間区間を特定する。
時間区間は、例えば、発行時間候補において、「年」、「月」、「日」の組(構成要素の組み)が特定されているとすると、最小構成要素である「日」の始まりから終わりまでの期間となる。同様に、「年」と「月」との組までが特定されている発行時間候補であれば、その時間区間は、その「月」の始まりから終わりまでの期間となる。更に、「年」のみが特定されている発行時間候補であれば、その時間区間は、その年の始まりから終わりまでの期間となる。
また、発行時間推定部12は、利用者が「発行時間」に対して求める粒度に合わせて、最小構成を特定するための粒度(最小単位)を設定し、設定した粒度に基づいて最小構成要素の特定、及び時間区間の特定を行うこともできる。例えば、「年」が最小単位に設定されているのであれば、発行時間推定部12は、各発行時間候補の「年」の始まりから終わりまでの期間を一律に時間区間として特定する。同様に、「月」が最小単位に設定されているのであれば、発行時間推定部12は、各発行時間候補の「月」の始まりから終わりまでの期間を一律に時間区間として特定する。
また、発行時間推定部12は、例えば、一の発行時間候補の時間区間と他の発行時間候補とを比較し、一の発行時間候補の時間区間と重なる時間区間を有している、他の発行時間候補の数を求め、この数に基づいて、時間区間同士の重なりの強さを取得できる。更に、発行時間推定部12は、求めた発行時間候補の数に重みを加え、得られた値に基づいて、時間区間同士の重なりの強さを取得することもできる。
図6は、実施例において求められた、発行時間候補間の重なり度合いの具体例を示す図である。図6の例では、発行時間が同一の発行時間候補については、共通化されて重なり度合いが求められている(参照ID=4,6)。また、重なり度合いとして、発行時間候補毎に、時間区間が重なる他の発行時間候補の数が求められている。なお、図6の例では、発行時間候補の数は、他の発行時間候補の重なっている時間区間の粒度毎に、つまり、「年」、「月」、「日」の粒度毎に、求められている。
ID「1」の発行時間候補(時間表現:平成16年11月24日)を例に挙げて説明する。ID「1」と発行時間が同一の発行時間候補は存在していないので、共通化はされない。そして、ID「1」の時間区間は、ID「5」の時間区間に重なり、その粒度は「年」であるので、「年:Y」の重なりは1件となる。また、ID「1」の時間区間は、ID「3」の時間区間に重なり、その粒度は「月」であるので、「月:M」の重なりは1件となる。
更に、図6の例では、ID「1」と他のIDとの重なりに加えて、ID「1」とそれ自体との重なりも数として加算される。即ち、ID「1」の時間区間は、ID「1」自体の時間区間と重なり、その粒度は「日」であるので、「日:D」の重なりは1件と数えることができる。
また、図6に示すように、発行時間推定部12は、各発行時間候補について、粒度毎に求められた重なり数の合計を算出する。図6において、「OV_SUM」の列は、発行時間候補毎に、当該発行時間候補と時間区間において重なった発行時間候補の数の合計を示している。「OV_SUM」は、上述した「各発行時間候補と他の発行時間候補との時間的な重なり度合い」を示している。具体的には、ID「1」の場合、「年:Y」の重なりが1件、「月:M」の重なりが1件、「日:D」の重なりが1件であるから、「OV_SUM」列の値は3件となる。
上述したように、図6の例では、ID「4」とID「6」とでは、表す発行時間は同一の「2004年11月25日」を示すので、共通化されている。そして、ID「4」「6」の時間区間は、ID「5」の時間区間に重なり、その粒度は「年」であるので、「年:Y」の重なりは1件となる。また、ID「4」「6」の時間区間は、ID「3」の時間区間に重なり、その粒度は「月」であるので、「月:M」の重なりは1件となる。更に、ID「4」「6」の時間区間は、ID「4」自体、ID「6」自体の時間区間と重なり、その粒度は「日」であるので、「日:D」の重なりは2件と数えることができる。結果、合計は、図6の「OV_SUM」列に示すように「4」となる。なお、他のIDについても、同様にして数が求められる。
また、本実施例では、「各発行時間候補と他の発行時間候補との時間的な重なり度合い」を示す尺度として、更に、時間区間が重なる発行時間候補の数に重みを加えて得られた値を用いることもできる。図6の例では、「OV_WGH」が、重みを加えて得られた値に相当する。「OV_WGH」は、本実施例では、例えば、下記の(数1)から算出することができる。
(数1)
OV_WGH (T) = αY × FY (T) + αM × FM (T) + αD × FD (T)
上記(数1)において、「T」は、発行時間候補のIDを示している。OV_WGH(T)は、発行時間候補毎に、他の発行時間候補との時間的な重なり度合いを示す尺度であり、粒度毎に重みを変えて算出されている。上記(数1)において、関数FY(T)は「年」での重なりの数を示し、関数FM(T)は「月」での重なりの数を示し、関数FD(T)は「日」での重なりの数を示している。また、αYはFY(T)に設定された重み係数、αMはFM(T)に設定された重み係数、αDはFD(T)に設定された重み係数である。
一般に、同一の文書内に存在する発行時間候補同士の結びつきは、両者が狭い時間区間で重なるほど強くなり、広い時間区間で重なると弱くなる傾向にある。このため、αYはαMより小さく、αMはαDより小さく設定されるのが良い。例えば、図6の例では、「OV_WGH」列は、αY=1、αM=10、αD=100に設定されて算出されている。
また、本実施例では、各発行時間候補それぞれと他の発行時間候補との時間的な離れ度合いは、各発行時間候補が意味する時間の間隔、即ち、各発行時間候補それぞれと他の発行時間候補との時間的な距離に基づいて計算される。この計算において、各発行時間候補が意味する時間、即ち、計算の基準となる時点としては、例えば、その発行時間候補の意味する期間の開始の時点、中間の時点、又は終了の時点等の特定の時点が用いられる。
例えば、「2005年1月14日」であれば、その日の始まりを発行時間候補が意味する時間とすることができる。この時間の粒度について、「秒」、「分」等の最小の単位が設定されていても良い。例えば「分」が最小単位に設定されているのであれば、「2005年1月14日」の意味する時間は、その日の始まりにおける、「分」で特定される時間、即ち「2005年1月14日午前0時0分」となる。
また、「各発行時間候補が意味する時間の間隔」は、例えば、各発行時間候補が意味する時間同士を比較し、各発行時間候補それぞれについて、当該発行時間候補と他の発行時間候補との間の時間的な距離を求めることによって算出される。時間的な距離は、「年」、「月」、又は「日」等を基準として表わされる。また、求められた時間的な距離は、距離の基準となった発行時間候補毎に、積算され、その合計値、又は平均値が、上述した「時間的な離れ度合い」に相当する。
図7は、実施例において求められた、発行時間候補間の時間的な距離の具体例を示す図である。図7の例では、時間的な距離は、「日」又は「24時間」を基準の単位として求められている。また、図7では、各発行時間候補毎に、当該発行時間候補と他の発行時間候補との間の時間的な距離が計算されている。具体的には、各行は、当該行の発行時間候補を基準としたときに、これと各列の発行時間候補との間にどれだけの間隔があるかを示している。更に、図7において、距離の値がプラスの時は未来方向に、距離の値がマイナスの時は過去方向に、その値の絶対値相当の間隔が存在することを意味している。
そして、図7に示された時間的な距離に基づいて計算された「時間的な離れ度合い」の例が、図8に示されている。図8は、実施例において求められた、発行時間候補間の時間的な離れ度合いの具体例を示す図である。図8において、「SP_SUM」の列は、発行時間候補毎の、他の発行時間候補との時間的な距離の絶対値の合計を示している。また、図8において、「SP_AVR」の列は、発行時間候補毎の、他の発行時間候補との時間的な距離の絶対値の平均を示している。「SP_SUM」及び「SP_AVR」は、上述したように「時間的な離れ度合い」に相当する。これらのうちいずれかが、発行時間の推定に利用される。
最後に、発行時間推定部12は、複数の発行時間候補の間の時間的な重なり度合い、及び複数の発行時間候補の間の時間的な離れ度合いの少なくとも一方に基づき、適切な発行時間候補を選択し、それが示す発行時間を、対象文書の発行時間と推定する。具体的には、本実施例では、各発行時間候補に対して、発行時間らしさを表す基準値を設定し、基準値を用いて最も適切な発行時間候補を選択し、その発行時間を対象文書の発行時間として推定する。例えば、発行時間推定部12は、発行時間候補に対する基準値が大きい発行時間候補を発行時間として推定することができる。その他に、発行時間推定部12は、発行時間候補に対する基準値が小さい発行時間候補を除外するために用いることも可能である。
基準値としては、他の発行時間候補との時間的な重なり度合が大きい程、値が増大するもの、他の発行時間候補との時間的な離れ度合いが小さい程、値が増大するもの、これらの組み合わせ、が挙げられる。例えば、基準値は、複数の発行時間候補の間の時間的な重なり度合いそのもの、及び複数の発行時間候補の間の時間的な離れ度合いそのものであっても良いし、いずれかであっても良い。また、基準値は、時間的な重なり度合いの大きい順に発行時間候補をソートしたときの順位であっても良いし、時間的な離れ度合いの小さい順に発行時間候補をソートしたときの順位であっても良い。
更に、本実施例では、複数の発行時間候補の間の時間的な重なり度合いと、複数の発行時間候補の間の時間的な離れ度合いとのそれぞれに重みを設定し、各度合いと重みとを用いて演算を行い、そして、各演算値を和算し、得られた値を基準値とすることもできる。具体的には、下記の(数2)を用いて、基準値Z(T)を求めることができる。下記の(数2)において「T」は、対象となる発行時間候補のIDを示している。
(数2)
Z(T)=β×OV(T)/OV_MAX + γ×1/(SP(T)/SP_MAX)
上記(数2)において、「OV(T)」は、ID「T」の発行時間候補における他の発行時間候補との間の時間的な重なり度合いの値(OV_SUM 又はOV_WGH:図3参照)を示し、「OV_MAX」は、複数の発行時間候補における、時間的な重なり度合い「OV(T)」のうちの最大値を示している。また、「SP(T)」は、ID「T」の発行時間候補における他の発行時間候補との間の時間的な離れ度合いの値(図8参照)を示し、「SP_MAX」は、複数の発行時間候補における、時間的な離れ度合い「SP(T)」のうちの最大値を示している。
また、上記(数2)において、「β」は、時間的な重なり度合いに関する重み係数であり、「γ」は、時間的な離れ度合いに関する重み係数である。通常は、「β」と「γ」とのどちらに対しても「1」が用いられるが、他の値が用いられても良い。
また、本実施例では、上記(数2)から求めた基準値に対して、更に別の値を加え、得られた値を基準値として用いても良い。例えば、各発行時間候補の周辺のテキストに、特定の文字列が存在する場合に、上記の基準値に対して加点したり、減点したりしても良い。
そして、発行時間推定部12は、例えば、求めたられた発行時間候補毎の基準値から、最も値が大きい基準値を特定し、この基準値を持つ発行時間候補を、文書の発行時間と推定する。また、発行時間推定部12は、発行時間を特定する情報を、出力装置3に送信する。
更に、本実施例では、上記(数2)から求めた基準値を素性の1つに用い、これと他の素性と合わせて考慮した、発信日付の推定ルール又は推定の機械学習器が用いられても良い。他の素性としては、例えば、各発行時間候補の元となった時間表現の文書内での周辺の文字列、各発行時間候補の元となった時間表現の文書内での出現位置等が挙げられる。上記推定ルールの具体例としては、基準値が一定以上であって、且つ、対象の発行時間候補の元となった時間表現の前後に「Published」の文字が存在する場合に、対象の発行時間候補を文書の発行時間と推定するルールが挙げられる。
以上のように、本実施例によれば、発行時間候補のうち、最も他の発行時間候補と時間的に近接した発行時間候補、最も他の発行時間候補から時間的に離れた発行時間候補といった、発行時間に該当する可能性が極めて高い発行時間候補が、特定される。そして、このような情報は、実際の発行時間の特定に有用であることから、本実施例では、推定された発行時間は適切な発行時間となる。
また、上述した実施の形態及び実施例の一部又は全部は、以下に記載する(付記1)〜(付記21)によって表現することができるが、以下の記載に限定されるものではない。
(付記1)
対象となる文書の発行時間を推定する情報推定装置であって、
前記対象となる文書に記述された時間表現を抽出し、抽出した前記時間表現に基づいて、前記対象となる文書の発行時間に該当する可能性を有した複数の発行時間候補を生成する、候補生成部と、
前記複数の発行時間候補それぞれについて、当該発行時間候補と他の発行時間候補との時間的な近さを求め、求めた前記時間的な近さに基づいて、前記対象となる文書の発行時間を推定する発行時間推定部と、
を備えていることを特徴とする情報推定装置。
(付記2)
前記発行時間推定部が、前記時間的な近さとして、当該発行時間候補と他の発行時間候補との時間的な重なり度合い、及び当該発行時間候補と他の発行時間候補との時間的な離れ度合い、のうち少なくとも一方を求める、付記1に記載の情報推定装置。
(付記3)
前記発行時間推定部が、
前記複数の発行時間候補それぞれについて、当該発行時間候補を構成する構成要素のうち最も時間粒度が小さい最小構成要素を特定し、特定した前記最小構成要素の開始から終了までの期間を、当該発行時間候補の時間区間とし、
前記時間的な重なり度合いを、当該発行時間候補の時間区間と他の発行時間候補の時間区間との重なりの程度から求める、付記2に記載の情報推定装置。
(付記4)
前記発行時間推定部が、更に、前記重なりの程度として、当該発行時間候補の時間区間と重なる時間区間を有する他の発行時間候補の数を求め、求めた数に基づいて、前記時間的な重なりの度合いを求める、付記3に記載の情報推定装置。
(付記5)
前記発行時間推定部が、前記複数の発行時間候補それぞれに対して、前記時間的な重なり度合いが大きい程、値が増大する第1の基準値を設定し、前記第1の基準値を用いて、前記対象となる文書の発行時間を推定する、付記2〜4のいずれかに記載の情報推定装置。
(付記6)
前記発行時間推定部が、前記時間的な離れ度合いを、当該発行時間候補と他の発行時間候補との時間的な距離から求める、付記2〜5のいずれかに記載の情報推定装置。
(付記7)
前記発行時間推定部が、前記複数の発行時間候補それぞれに対して、前記時間的な離れ度合いが小さい程、値が増大する第2の基準値を設定し、前記第2の基準値を用いて、前記対象となる文書の発行時間を推定する、付記2〜6のいずれかに記載の情報推定装置。
(付記8)
対象となる文書の発行時間を推定するための方法であって、
(a)対象となる文書に記述された時間表現を抽出し、抽出した前記時間表現に基づいて、前記対象となる文書の発行時間に該当する可能性を有した複数の発行時間候補を生成する、ステップと、
(b)前記複数の発行時間候補それぞれについて、当該発行時間候補と他の発行時間候補との時間的な近さを求め、求めた前記時間的な近さに基づいて、前記対象となる文書の発行時間を推定する、ステップと、
を有することを特徴とする情報推定方法。
(付記9)
前記(b)のステップで、前記時間的な近さとして、当該発行時間候補と他の発行時間候補との時間的な重なり度合い、及び当該発行時間候補と他の発行時間候補との時間的な離れ度合い、のうち少なくとも一方を求める、上記付記8に記載の情報推定方法。
(付記10)
前記(b)のステップで、前記複数の発行時間候補それぞれについて、当該発行時間候補を構成する構成要素のうち最も時間粒度が小さい最小構成要素を特定し、特定した前記最小構成要素の開始から終了までの期間を、当該発行時間候補の時間区間とし、前記時間的な重なり度合いを、当該発行時間候補の時間区間と他の発行時間候補の時間区間との重なりの程度から求める、上記付記9に記載の情報推定方法。
(付記11)
前記(b)のステップで、更に、前記重なりの程度として、当該発行時間候補の時間区間と重なる時間区間を有する他の発行時間候補の数を求め、求めた数に基づいて、前記時間的な重なりの度合いを求める、上記付記10に記載の情報推定方法。
(付記12)
前記(b)のステップで、前記複数の発行時間候補それぞれに対して、前記時間的な重なり度合が大きい程、値が増大する第1の基準値を設定し、前記第1の基準値を用いて、前記対象となる文書の発行時間を推定する、上記付記9〜11のいずれかに記載の情報推定方法。
(付記13)
前記(b)のステップで、前記時間的な離れ度合いを、当該発行時間候補と他の発行時間候補との時間的な距離から求める、上記付記9〜12のいずれかに記載の情報推定方法。
(付記14)
前記(b)のステップで、前記複数の発行時間候補それぞれに対して、前記時間的な離れ度合いが小さい程、値が増大する第2の基準値を設定し、前記第2の基準値を用いて、前記対象となる文書の発行時間を推定する、上記付記9〜13のいずれかに記載の情報推定方法。
(付記15)
コンピュータによって、対象となる文書の発行時間を推定するためのプログラムであって、
前記コンピュータに、
(a)対象となる文書に記述された時間表現を抽出し、抽出した前記時間表現に基づいて、前記対象となる文書の発行時間に該当する可能性を有した複数の発行時間候補を生成する、ステップと、
(b)前記複数の発行時間候補それぞれについて、当該発行時間候補と他の発行時間候補との時間的な近さを求め、求めた前記時間的な近さに基づいて、前記対象となる文書の発行時間を推定する、ステップと、
を実行させる、プログラム。
(付記16)
前記(b)のステップで、前記時間的な近さとして、当該発行時間候補と他の発行時間候補との時間的な重なり度合い、及び当該発行時間候補と他の発行時間候補との時間的な離れ度合い、のうち少なくとも一方を求める、上記付記15に記載のプログラム
(付記17)
前記(b)のステップで、前記複数の発行時間候補それぞれについて、当該発行時間候補を構成する構成要素のうち最も時間粒度が小さい最小構成要素を特定し、特定した前記最小構成要素の開始から終了までの期間を、当該発行時間候補の時間区間とし、前記時間的な重なり度合いを、当該発行時間候補の時間区間と他の発行時間候補の時間区間との重なりの程度から求める、上記付記16に記載のプログラム
(付記18)
前記(b)のステップで、更に、前記重なりの程度として、当該発行時間候補の時間区間と重なる時間区間を有する他の発行時間候補の数を求め、求めた数に基づいて、前記時間的な重なりの度合いを求める、上記付記17に記載のプログラム
(付記19)
前記(b)のステップで、前記複数の発行時間候補それぞれに対して、前記時間的な重なり度合いが大きい程、値が増大する第1の基準値を設定し、前記第1の基準値を用いて、前記対象となる文書の発行時間を推定する、上記付記16〜18のいずれかに記載のプログラム
(付記20)
前記(b)のステップで、前記時間的な離れ度合いを、当該発行時間候補と他の発行時間候補との時間的な距離から求める、上記付記9〜12のいずれかに記載のプログラム
(付記21)
前記(b)のステップで、前記複数の発行時間候補それぞれに対して、前記時間的な離れ度合いが小さい程、値が増大する第2の基準値を設定し、前記第2の基準値を用いて、前記対象となる文書の発行時間を推定する、上記付記16〜20のいずれかに記載のプログラム
以上、実施の形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施の形態及び実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2009年12月21日に出願された日本出願特願2009−288563を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、インターネット又はイントラネットにある文書に発行時間を付与する装置、文書に発行時間を付与し、その文書の検索インデックスを作成する装置、収集したウェブページに発行時間を付与する装置、ウェブアーカイブシステム等に有用である。
また、本発明は、ネットワークを経由して、URLにより指定されたウェブページの発行時間の推定結果を返す、発行時間推定システム、及び発行時間を推定し、推定した発行時間を使用するRSSデータの提供システム等に有用である。その他、本発明は、閲覧したウェブページの発行時間を表示する機能を備えたウェブブラウザ、発行時間を用いた文書分析システム等にも有用である。
1 情報推定装置
2 入力装置
3 出力装置
10 コンピュータ
11 候補生成部
12 発行時間推定部
20 プロセッサ
21 RAM
23 バス
24 ROM
25 記憶装置
28 通信インターフェイス
29 データリーダ/ライタ
30 記録媒体

Claims (21)

  1. 発行時間及び前記発行時間との間に時間的な重なりを有する時間を含む文書を対象として、前記対象となる文書の前記発行時間を推定する情報推定装置であって、
    前記対象となる文書に記述された時間表現を抽出し、抽出した前記時間表現に基づいて、前記対象となる文書の発行時間に該当する可能性を有した複数の発行時間候補を生成する、候補生成部と、
    前記複数の発行時間候補それぞれについて、当該発行時間候補と他の発行時間候補との時間的な近さを求め、求めた前記時間的な近さに基づいて、前記対象となる文書の発行時間を推定する発行時間推定部と、
    を備えていることを特徴とする情報推定装置。
  2. 前記発行時間推定部が、前記時間的な近さとして、当該発行時間候補と他の発行時間候補との時間的な重なり度合い、及び当該発行時間候補と他の発行時間候補との時間的な離れ度合い、のうち少なくとも一方を求める、請求項1に記載の情報推定装置。
  3. 前記発行時間推定部が、
    前記複数の発行時間候補それぞれについて、当該発行時間候補を構成する構成要素のうち最も時間粒度が小さい最小構成要素を特定し、特定した前記最小構成要素の開始から終了までの期間を、当該発行時間候補の時間区間とし、
    前記時間的な重なり度合いを、当該発行時間候補の時間区間と他の発行時間候補の時間区間との重なりの程度から求める、請求項2に記載の情報推定装置。
  4. 前記発行時間推定部が、更に、前記重なりの程度として、当該発行時間候補の時間区間と重なる時間区間を有する他の発行時間候補の数を求め、求めた数に基づいて、前記時間的な重なりの度合いを求める、請求項3に記載の情報推定装置。
  5. 前記発行時間推定部が、前記複数の発行時間候補それぞれに対して、前記時間的な重なり度合いが大きい程、値が増大する第1の基準値を設定し、前記第1の基準値を用いて、前記対象となる文書の発行時間を推定する、請求項2〜4のいずれかに記載の情報推定装置。
  6. 前記発行時間推定部が、前記時間的な離れ度合いを、当該発行時間候補と他の発行時間候補との時間的な距離から求める、請求項2〜5のいずれかに記載の情報推定装置。
  7. 前記発行時間推定部が、前記複数の発行時間候補それぞれに対して、前記時間的な離れ度合いが小さい程、値が増大する第2の基準値を設定し、前記第2の基準値を用いて、前記対象となる文書の発行時間を推定する、請求項2〜6のいずれかに記載の情報推定装置。
  8. 発行時間及び前記発行時間との間に時間的な重なりを有する時間を含む文書を対象として、前記対象となる文書の前記発行時間を推定するための方法であって、
    (a)コンピュータによって、対象となる文書に記述された時間表現を抽出し、抽出した前記時間表現に基づいて、前記対象となる文書の発行時間に該当する可能性を有した複数の発行時間候補を生成する、ステップと、
    (b)前記コンピュータによって、前記複数の発行時間候補それぞれについて、当該発行時間候補と他の発行時間候補との時間的な近さを求め、求めた前記時間的な近さに基づいて、前記対象となる文書の発行時間を推定する、ステップと、
    を有することを特徴とする情報推定方法。
  9. 前記(b)のステップで、前記時間的な近さとして、当該発行時間候補と他の発行時間候補との時間的な重なり度合い、及び当該発行時間候補と他の発行時間候補との時間的な離れ度合い、のうち少なくとも一方を求める、請求項8に記載の情報推定方法。
  10. 前記(b)のステップで、前記複数の発行時間候補それぞれについて、当該発行時間候補を構成する構成要素のうち最も時間粒度が小さい最小構成要素を特定し、特定した前記最小構成要素の開始から終了までの期間を、当該発行時間候補の時間区間とし、前記時間的な重なり度合いを、当該発行時間候補の時間区間と他の発行時間候補の時間区間との重なりの程度から求める、請求項9に記載の情報推定方法。
  11. 前記(b)のステップで、更に、前記重なりの程度として、当該発行時間候補の時間区間と重なる時間区間を有する他の発行時間候補の数を求め、求めた数に基づいて、前記時間的な重なりの度合いを求める、請求項10に記載の情報推定方法。
  12. 前記(b)のステップで、前記複数の発行時間候補それぞれに対して、前記時間的な重なり度合が大きい程、値が増大する第1の基準値を設定し、前記第1の基準値を用いて、前記対象となる文書の発行時間を推定する、請求項9〜11のいずれかに記載の情報推定方法。
  13. 前記(b)のステップで、前記時間的な離れ度合いを、当該発行時間候補と他の発行時間候補との時間的な距離から求める、請求項9〜12のいずれかに記載の情報推定方法。
  14. 前記(b)のステップで、前記複数の発行時間候補それぞれに対して、前記時間的な離れ度合いが小さい程、値が増大する第2の基準値を設定し、前記第2の基準値を用いて、前記対象となる文書の発行時間を推定する、請求項9〜13のいずれかに記載の情報推定方法。
  15. コンピュータによって、発行時間及び前記発行時間との間に時間的な重なりを有する時間を含む文書を対象として、前記対象となる前記文書の発行時間を推定するためのプログラムであって、
    前記コンピュータに、
    (a)対象となる文書に記述された時間表現を抽出し、抽出した前記時間表現に基づいて、前記対象となる文書の発行時間に該当する可能性を有した複数の発行時間候補を生成する、ステップと、
    (b)前記複数の発行時間候補それぞれについて、当該発行時間候補と他の発行時間候補との時間的な近さを求め、求めた前記時間的な近さに基づいて、前記対象となる文書の発行時間を推定する、ステップと、
    を実行させる、プログラム。
  16. 前記(b)のステップで、前記時間的な近さとして、当該発行時間候補と他の発行時間候補との時間的な重なり度合い、及び当該発行時間候補と他の発行時間候補との時間的な離れ度合い、のうち少なくとも一方を求める、請求項15に記載のプログラム。
  17. 前記(b)のステップで、前記複数の発行時間候補それぞれについて、当該発行時間候補を構成する構成要素のうち最も時間粒度が小さい最小構成要素を特定し、特定した前記最小構成要素の開始から終了までの期間を、当該発行時間候補の時間区間とし、前記時間的な重なり度合いを、当該発行時間候補の時間区間と他の発行時間候補の時間区間との重なりの程度から求める、請求項16に記載のプログラム。
  18. 前記(b)のステップで、更に、前記重なりの程度として、当該発行時間候補の時間区間と重なる時間区間を有する他の発行時間候補の数を求め、求めた数に基づいて、前記時間的な重なりの度合いを求める、請求項17に記載のプログラム。
  19. 前記(b)のステップで、前記複数の発行時間候補それぞれに対して、前記時間的な重なり度合いが大きい程、値が増大する第1の基準値を設定し、前記第1の基準値を用いて、前記対象となる文書の発行時間を推定する、請求項16〜18のいずれかに記載のプログラム。
  20. 前記(b)のステップで、前記時間的な離れ度合いを、当該発行時間候補と他の発行時間候補との時間的な距離から求める、請求項16〜19のいずれかに記載のプログラム。
  21. 前記(b)のステップで、前記複数の発行時間候補それぞれに対して、前記時間的な離れ度合いが小さい程、値が増大する第2の基準値を設定し、前記第2の基準値を用いて、前記対象となる文書の発行時間を推定する、請求項16〜20のいずれかに記載のプログラム。
JP2011547459A 2009-12-21 2010-12-09 情報推定装置、情報推定方法、及びプログラム Active JP5741448B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011547459A JP5741448B2 (ja) 2009-12-21 2010-12-09 情報推定装置、情報推定方法、及びプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009288563 2009-12-21
JP2009288563 2009-12-21
PCT/JP2010/072082 WO2011077957A1 (ja) 2009-12-21 2010-12-09 情報推定装置
JP2011547459A JP5741448B2 (ja) 2009-12-21 2010-12-09 情報推定装置、情報推定方法、及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2011077957A1 JPWO2011077957A1 (ja) 2013-05-02
JP5741448B2 true JP5741448B2 (ja) 2015-07-01

Family

ID=44195491

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011547459A Active JP5741448B2 (ja) 2009-12-21 2010-12-09 情報推定装置、情報推定方法、及びプログラム

Country Status (3)

Country Link
US (1) US8832087B2 (ja)
JP (1) JP5741448B2 (ja)
WO (1) WO2011077957A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5583163B2 (ja) * 2012-03-29 2014-09-03 日本電信電話株式会社 時間条件提示方法及び装置及びプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09269940A (ja) * 1996-03-29 1997-10-14 Sharp Corp 日時等を抽出する装置
JP2004240488A (ja) * 2003-02-03 2004-08-26 Canon Inc 文書管理装置
JP2005135198A (ja) * 2003-10-30 2005-05-26 Nippon Telegr & Teleph Corp <Ntt> 文書収集装置および文書収集方法
JP2007047962A (ja) * 2005-08-09 2007-02-22 Seiko Epson Corp 編集装置
JP2007141033A (ja) * 2005-11-21 2007-06-07 Fujitsu Ltd コンテンツ作成日管理プログラム及び方法及び装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6044375A (en) * 1998-04-30 2000-03-28 Hewlett-Packard Company Automatic extraction of metadata using a neural network
US7178099B2 (en) * 2001-01-23 2007-02-13 Inxight Software, Inc. Meta-content analysis and annotation of email and other electronic documents
US20090319505A1 (en) * 2008-06-19 2009-12-24 Microsoft Corporation Techniques for extracting authorship dates of documents

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09269940A (ja) * 1996-03-29 1997-10-14 Sharp Corp 日時等を抽出する装置
JP2004240488A (ja) * 2003-02-03 2004-08-26 Canon Inc 文書管理装置
JP2005135198A (ja) * 2003-10-30 2005-05-26 Nippon Telegr & Teleph Corp <Ntt> 文書収集装置および文書収集方法
JP2007047962A (ja) * 2005-08-09 2007-02-22 Seiko Epson Corp 編集装置
JP2007141033A (ja) * 2005-11-21 2007-06-07 Fujitsu Ltd コンテンツ作成日管理プログラム及び方法及び装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200800024266; 奥田 奈央: '新聞記事とblogからの動向情報の抽出と可視化' 言語処理学会第13回年次大会発表論文集 , 20070319, 1129-1132, 言語処理学会 *
JPN6014025019; 奥田 奈央: '新聞記事とblogからの動向情報の抽出と可視化' 言語処理学会第13回年次大会発表論文集 , 20070319, 1129-1132, 言語処理学会 *

Also Published As

Publication number Publication date
JPWO2011077957A1 (ja) 2013-05-02
US8832087B2 (en) 2014-09-09
US20120259805A1 (en) 2012-10-11
WO2011077957A1 (ja) 2011-06-30

Similar Documents

Publication Publication Date Title
Campos et al. Survey of temporal information retrieval and related applications
US8738654B2 (en) Objective and subjective ranking of comments
EP3096277A1 (en) Enhanced online user-interaction tracking
US20150067476A1 (en) Title and body extraction from web page
US20090182723A1 (en) Ranking search results using author extraction
CN105069102A (zh) 信息推送方法和装置
US8577887B2 (en) Content grouping systems and methods
US20170192938A1 (en) User interface with navigation controls for the display or concealment of adjacent content
JP2011022705A (ja) 証跡管理方法、システム、及びプログラム
EP2462517A1 (en) Query suggestions from documents
CN105426514A (zh) 个性化的移动应用app推荐方法
US20100257177A1 (en) Document rating calculation system, document rating calculation method and program
JP2007249322A (ja) 文書視覚化装置及び文書視覚化プログラム
CN114579839B (zh) 一种基于网页的数据处理系统
JP4750628B2 (ja) 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
CN102257490A (zh) 文档信息选择方法和计算机程序产品
US8612431B2 (en) Multi-part record searches
JP4883644B2 (ja) リコメンド装置、リコメンドシステム、リコメンド装置の制御方法、およびリコメンドシステムの制御方法
JP2019128925A (ja) 事象提示システムおよび事象提示装置
JP5741448B2 (ja) 情報推定装置、情報推定方法、及びプログラム
JP5466133B2 (ja) 画像付文書検索装置及び画像付文書検索プログラム
JP5285491B2 (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
US20160092458A1 (en) System for automatically generating wrapper for entire websites
JP5389683B2 (ja) 重要キーワード抽出装置及び方法及びプログラム
JP2016134079A (ja) 分析プログラム、分析方法及び分析装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140618

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140812

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20150123

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150331

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150413

R150 Certificate of patent or registration of utility model

Ref document number: 5741448

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150