JP4193549B2 - Datetime expression normalization apparatus and method - Google Patents

Datetime expression normalization apparatus and method Download PDF

Info

Publication number
JP4193549B2
JP4193549B2 JP2003097974A JP2003097974A JP4193549B2 JP 4193549 B2 JP4193549 B2 JP 4193549B2 JP 2003097974 A JP2003097974 A JP 2003097974A JP 2003097974 A JP2003097974 A JP 2003097974A JP 4193549 B2 JP4193549 B2 JP 4193549B2
Authority
JP
Japan
Prior art keywords
date
time
quoted
expression
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003097974A
Other languages
Japanese (ja)
Other versions
JP2004303141A (en
Inventor
宏行 大沼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2003097974A priority Critical patent/JP4193549B2/en
Publication of JP2004303141A publication Critical patent/JP2004303141A/en
Application granted granted Critical
Publication of JP4193549B2 publication Critical patent/JP4193549B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Document Processing Apparatus (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、電子メールに記載された相対的なおよび省略された日時表現、特に、他の電子メールから引用された引用部分に記載された相対的なおよび省略された日時表現を絶対的な表現に変換する日時表現正規化装置に関する。
【0002】
【従来の技術】
従来、電子メールなどの電子文書から日時表現を抽出し、それらを検索に利用したり、スケジュール情報として利用したり、電子文書の重要度の決定に利用する装置が提案されていた。一般に、電子メールは連絡を目的として利用されるので、電子メール中には、「今日」、「来週金曜日」などの相対的な日時表現や、「26日」などの年月を省略した日時表現が多く見られる。しかし、そのような表現のままでは、検索やスケジュール情報として利用する場合に不都合が起こる。そこで、相対的な表現や省略した表現を絶対的で完全な表現に変換する装置が提案されていた(例えば、特許文献1、特許文献2、特許文献3参照)。
【0003】
相対的な表現や省略された表現を絶対的な表現に変換するためには、基準となる基準時刻が必要となる。特許文献1および特許文献2に記載されている装置では、処理対象の電子メールが送信された日時を基準時刻として採用している。また、特許文献3に記載されている装置では、電子メールの作成・変更日付に基づいて日付の省略部分の補完を行なっている。なお、電子メールの場合、処理対象となるメールのヘッダ情報に含まれる送信日時フィールド(Dateフィールド)の日時表現が上記の基準時刻となる。
【0004】
【特許文献1】
特開平10-69472号公報
【特許文献2】
特開平11-143864号公報
【特許文献3】
特開平11-134342号公報。
【0005】
【発明が解決しようとする課題】
しかしながら、上記の変換方法では、処理対象となる電子メールの本文中に他の電子メールから引用された引用部分が含まれている場合に、処理対象となる電子メールの送信日時を基準時刻として用いたのでは、その引用部分に含まれる相対的な日時表現や省略した日時表現を絶対的な日時表現に正しく変換することができないという問題があった。例えば、処理対象となる電子メールの引用部分の行に「今日」という日時表現が含まれる場合に、処理対象となる電子メールの送信日時を基準時刻としたのでは、その「今日」を絶対的な日時表現に正しく変換することはできない。
【0006】
本発明はこのような従来技術の欠点を解消し、他の電子メールから引用された引用部分に含まれる相対的な日時表現や省略した日時表現を絶対的な日時表現に正しく変換する日時表現正規化装置を提供することを目的とする。
【0007】
【課題を解決するための手段】
本発明による日時表現正規化装置は上記の問題を解決するために、電子メールをヘッダ部分と本文とに分割し、ヘッダ部分から送信日時を抽出して本文と送信日時とを出力する本文抽出手段と、本文抽出手段から出力される本文から、他の電子メールから引用された引用部分を抽出する引用部分抽出手段と、引用部分抽出手段により抽出された引用部分から日時情報を抽出し、この日時情報が示す送信日時を引用部分の基準時刻とし、本文抽出手段から出力される送信日時を引用部分以外の部分の基準時刻とする基準時刻決定手段と、本文抽出手段から出力される本文から日時表現を抽出する日時表現抽出手段と、日時表現抽出手段により抽出された日時表現を基準時刻決定手段により決定された基準時刻に基づいて絶対的な表現に変換する日時表現変換手段とを含むことを特徴とする。
【0008】
また、本発明による日時表現正規化装置は、電子メールをヘッダ部分と本文とに分割し、ヘッダ部分から送信日時を抽出して本文と送信日時とを出力する本文抽出手段と、本文抽出手段から出力される本文から、他の電子メールから引用された引用部分を抽出する引用部分抽出手段と、過去に送受信された電子メールを格納した文書記憶手段を備え、引用部分抽出手段により抽出された引用部分の引用元電子メールを文書記憶手段から抽出してこの引用元電子メールの送信日時を引用部分の基準時間とし、本文抽出手段により抽出された送信日時を引用部分以外の部分の基準時刻とする基準時刻決定手段と、本文抽出手段から出力される本文から日時表現を抽出する日時表現抽出手段と、日時表現抽出手段により抽出された日時表現を基準時刻決定手段により決定された基準時刻に基づいて絶対的な表現に変換する日時表現変換手段とを含むことを特徴とする。
【0009】
また、本発明による日時表現正規化方法は、電子メールをヘッダ部分と本文とに分割し、ヘッダ部分から送信日時を抽出する本文抽出工程と、本文抽出工程で電子メールから分割された本文から、他の電子メールから引用された引用部分を抽出する引用部分抽出工程と、引用部分抽出工程で抽出された引用部分から日時情報を抽出し、この日時情報が示す送信日時を引用部分の基準時刻とし、本文抽出工程で抽出された送信日時を引用部分以外の部分の基準時刻とする基準時刻決定工程と、本文抽出工程で電子メールから分割された本文から、日時表現を抽出する日時表現抽出工程と、日時表現抽出工程で抽出された日時表現を基準時刻決定工程で決定された基準時刻に基づいて絶対的な表現に変換する日時表現変換工程とを含むことを特徴とする。
【0010】
【発明の実施の形態】
次に添付図面を参照して本発明による日時表現正規化装置および方法の実施例を詳細に説明する。図1は、日時表現正規化装置の実施例を示すブロック図である。この日時表現正規化装置は、電子メールに現れる日時表現を正規化する装置であり、特に、電子メールに他の電子メールから引用された引用部分が含まれる場合に、その引用部分から送信日時を抽出し、その送信日時を引用部分の基準時刻として、引用部分に含まれる相対的な日時表現や省略した日時表現を絶対的な日時表現に変換するものである。
【0011】
本実施例の日時表現正規化装置は、図1に示すように、電子メール入力部10、本文抽出部12、引用部分抽出部14、基準時刻決定部16、日時表現抽出部18、日時表現変換部20、出力部22および各部を制御して日時表現正規化を実行する制御部(図示せず)から構成される。電子メール入力部10は、電子メールを入力するものである。
【0012】
電子メール入力部10に接続されている本文抽出部12は、電子メール入力部10から与えられる電子メールをヘッダ部分(ヘッダ情報)と本文とに分割し、ヘッダ情報のDateフィールドから、電子メールを送信した日時を表わす送信日時を抽出し、分割で得た本文と抽出で得た送信日時とを出力するものである。電子メールでは、ヘッダ部分と本文の位置関係があらかじめ決められているので、電子メールをヘッダ部分と本文とに分割することは容易である。なお、出力する本文にヘッダ部分のサブジェクト(Subject )を含めてもよい。
【0013】
本文抽出部12に接続されている引用部分抽出部14は、本文抽出部12からの本文本文から引用部分を抽出するものである。引用部分の各行頭には、文字列「> 」、「>>」、「| 」、「山田> 」などが引用記号として付加されているので、これらの引用記号が行頭に存在する行を引用部分(以下、引用部分Aと称する)と判断して抽出する。例えば、図2の電子メールの場合、17行目から20行目までの行頭には引用記号「> 」が存在するので、17行目から20行目までを引用部分Aと判断する。ただし、引用記号が異なる場合には別々の引用部分となる。
【0014】
また、メーラは、他の電子メールを引用する際に、特定の表現形式の文字列、例えば、図3(a) の文字列(タイプ1)、(b) の文字列(タイプ2)、あるいは(c) の文字列(タイプ3)を引用部分の先頭に自動的に付加する。引用部分抽出部14は、例えば、文字列「wrote:」が行末にあるかどうか、文字列「-----Original Message-----」が行中にあるかどうか、あるいは文字列「頃のメールにて」が行末にあるかどうかを文字列マッチングにより判断する。そして、文字列「wrote:」、「-----Original Message-----」、あるいは「頃のメールにて」がある行から、引用記号により抽出された引用部分Aの最後の行までを新たに引用部分(以下、引用部分Bと称する)とする。
【0015】
図2の電子メールでは、12行目の行に文字列「-----Original Message-----」が含まれ、12行目から16行目までの文字列は図3(a) のタイプ1の表現に該当するので、本実施例では、引用記号が付加された引用部分Aと合わせて、12行目から20行目までが引用部分B(図2では引用部分1)となる。なお、これらの文字列は、文字列マッチング法により判断できるが、他の方法により、例えば、引用部分が色分けして表示される場合には、その色に基づいて引用部分を判断し抽出してもよい。
【0016】
本文抽出部12および引用部分抽出部14に接続されている基準時刻決定部16は、引用部分Bの基準時刻および引用部分B以外の部分(本文から引用部分Bを除いた部分)の基準時刻を決定するものである。具体的には、引用部分抽出部14から入力される引用部分Bからメーラが自動的に挿入した日時情報を抽出し、その日時情報が示す送信日時を引用部分Bの基準時刻と決定する。日時情報が含まれるメール情報の形式は、図3のタイプ1〜タイプ3のようにようにある程度まで決まっているので、それに対応した日時抽出規則をあらかじめ用意しておくことで日時情報を抽出することができる。また、基準時刻決定部16は、本文抽出部12から入力される送信日時を引用部分B以外の部分の基準時刻と決定する。
【0017】
本文抽出部12に接続されている日時表現抽出部18は、本文抽出部12から入力される本文に含まれる日時表現を抽出すると共に、その日時表現が存在する位置を示す出現位置を決定するものである。なお、日時表現の抽出には、例えば、特開平11-143864 号公報に記載されているように文章解析等を行って抽出する方法を利用してもよいし、他の方法を利用してもよい。また、本文とサブジェクトとを日時表現抽出の対象としてもよい。なお、基準時刻決定部16により引用部分Bから抽出された日時情報は、日時表現抽出部18による日時表現抽出の対象とされない。
【0018】
基準時刻決定部16および日時表現抽出部18に接続されている日時表現変換部20は、日時表現抽出部18から入力される日時表現を、基準時刻決定部16で決定された基準時刻に基づいて絶対的な表現に変換するものである。具体的には、相対的な表現あるいは省略した表現の日時表現が入力された場合、その表現が引用部分Bに含まれるときはその引用部分Bの基準時刻に基づいて、その表現が引用部分B以外の部分に含まれるときはその引用部分B以外の部分の基準時刻に基づいて、その表現を絶対的な表現に変換する。
【0019】
相対的な表現から絶対的な表現への変換は、例えば、特開平11-143864 号公報に記載されているように、相対的な表現に対応する絶対的な表現を示す日付変換テーブルを利用して容易に実行することができる。なお、日時表現が引用部分Bに存在するかどうかは、日時表現抽出部18からその日時表現と共に入力される出現位置により判断する。また、絶対的な表現に変換する際、例えば、元号を使用した表現を西暦に統一したり、時間表現を24時間制に統一したりしてもよい。
【0020】
日時表現変換部20に接続されている出力部22は、日時表現変換部20から入力される絶対的な日時表現を出力するものである。電子メールの出力内容は限定されないが、例えば、相対的な表現を絶対的な表現に置換して出力してもよいし、相対的な表現の位置にタグを設定し、タグのパラメータとして絶対的な表現にしてもよい。なお、出力結果を他の装置の入力として利用してもよい。例えば、この出力結果をデータベースなどに格納してもよい。
【0021】
このように構成された図1の日時表現正規化装置の動作を、図2に示す電子メールが電子メール入力部10に入力された場合を例にとって、図4に示すフローチャートを参照しながら以下に説明すると、電子メール入力部10に入力された電子メールは本文抽出部12に入力される。
【0022】
本文抽出部12では、入力された電子メールをヘッダ部分(ヘッダ情報)と本文とに分割し、さらにヘッダ部分のDateフィールドから送信日時を抽出する(図4のステップ100 )。図2の電子メールの場合、1行目から6行目まではヘッダ部分、8行目以降は本文、3行目は送信日時が記載されているDateフィールドである。この場合、送信日時は「2002年8月3日 8時11分」である。
【0023】
本文抽出部12により電子メールから分割された本文は引用部分抽出部14と日時表現抽出部18とに、ヘッダ部分から抽出された送信日時は基準時刻決定部16にそれぞれ入力される。引用部分抽出部14では、本文抽出部12から入力される本文の各行について、行頭に引用記号が存在するかどうかを調べ、行頭に引用記号が存在する行を引用部分Aと判断してこれを抽出する(ステップ110 )。図2の電子メールの場合、17行目から20行目までの各行の先頭に引用記号「> 」が存在するので、17行目から20行目までが引用部分Aと判断される。なお、引用記号が異なる場合は、別々の引用部分となる。
【0024】
引用部分抽出部14では、さらに、本文抽出部12から入力される本文について、例えば、行末に文字列「wrote:」が存在する行、行中に文字列「-----Original Message-----」が存在する行、あるいは行末に文字列「頃のメールにて」が存在する行を調べ、その文字列が存在する行からステップ110 で抽出された、引用部分Aの最後の行までを引用部分Bとする(ステップ120 )。図2の電子メールの場合、12行目に文字列「-----Original Message-----」が存在するので、引用符号が付加された引用部分A(17行目から20行目)と合わせて、12行目から20行目までを引用部分B(図2では引用部分1)とする。引用部分抽出部14により抽出された引用部分Bは基準時刻決定部16に入力される。
【0025】
基準時刻決定部16では、引用部分抽出部14から入力される個々の引用部分Bに対して、その引用部分の基準時刻を決定する(ステップ130 〜ステップ140 )。まず、すべての引用部分Bに対して基準時刻が決定されているかどうかを判定し、基準時刻の決定されていない引用部分がある場合には、その1つを選択してステップ140 の処理に移行し、すべての引用部分の基準時刻を決定した場合には、ステップ150 の処理に移行する(ステップ130 )。
【0026】
ステップ140 では、ステップ130 で選択された引用部分Bから日時情報を抽出し、抽出した日時情報が示す日時をその引用部分Bの基準時刻と決定する。図2の場合、引用部分1の基準時刻は、14行目のSentフィールドの送信日時から、「2002年8月2日 9時28分」となる。ステップ130 からステップ140 までの処理を繰り返し実行することで、すべての引用部分の基準時刻を決定し、ステップ150 へ移行する。
【0027】
ステップ150 に移行すると基準時刻決定部16では、本文抽出部12から入力される送信日時を引用部分B以外の部分の基準時刻とする。図2の場合、3行目のDateフィールドの送信日時が、本文抽出部12から基準時刻決定部14へ入力されるので、引用部分1以外の部分に対する基準時刻は、「2002年8月3日8時11分」となる。図5は、ステップ130 から150 までの処理で決定された、図2の引用部分1および引用部分1以外の部分に対する基準時刻を示す。ステップ140 で決定された引用部分Bの基準時刻およびステップ150 で決定された引用部分B以外の基準時刻は、日時表現変換部20に入力される。
【0028】
一方、日時表現抽出部18では、本文抽出部12から入力される電子メールの本文から日時表現を抽出し、その位置を示す出現位置を決定する(ステップ160 )。図2の電子メールの場合、10行目の「14:00 」、18行目の「明日13:00 」、19行目の「本日」が日時表現として抽出され、それぞれの出現位置は、例えば、「引用部分以外」、「引用部分1」、「引用部分1」と決定される。ただし、ステップ160 の処理では、ステップ140 において基準時刻決定部16により抽出され、基準時刻とされた日時表現は、抽出の対象から除外される。日時情報およびその位置情報は日時表現変換部20に入力される。
【0029】
なお、図4のフローチャートでは、日時表現抽出部18による日時表現の抽出(ステップ160 )を、基準時刻決定部16による基準時刻の決定(ステップ130 〜150 )が実行された後に実行しているが、本文抽出部12による本文抽出(ステップ100 )が行なわれてから日時表現変換部20による日時表現の変換(ステップ170 )が開始されるまでの間に実行すればよい。
【0030】
日時表現変換部20では、日時表現抽出部18から入力される日時表現が相対的な表現または省略された表現であるかどうかを判定し、相対的な表現または省略された表現である場合には、その日時表現を、基準時刻決定部16から入力される基準時刻を利用して絶対的な表現に変換する(ステップ170 )。具体的には、図6のステップ1000からステップ1070までの処理を実行することによりステップ170 の処理が実行される。なお、入力される日時表現が絶対的な表現である場合には、図6のステップ1070へ移行する。
【0031】
まず、ステップ1000では、日時表現抽出部18から入力される日時表現の出現位置を確認し、その日時表現が引用部分Bに含まれる場合にはステップ1010へ移行し、引用部分B以外の部分に含まれる場合にはステップ1020へ移行する。図2の電子メールの場合、18行目の「明日13:00 」と19行目の「本日」は、引用部分1に含まれるのでステップ1010の処理に移行し、10行目の「14:00 」は、引用部分1以外の部分に含まれるのでステップ1010の処理に移行する。
【0032】
ステップ1010では、日時表現抽出部18から入力された日時表現に対して、その日時表現が含まれる引用部分Bの基準時刻を適用することを決定し、ステップ1020では、日時表現抽出部18から入力された日時表現に対して、その日時表現が含まれる引用部分B以外の部分の基準時刻(メールの送信日時)を適用することを決定する。図2の電子メールの場合、18行目の「明日13:00 」と19行目の「本日」に対しては、引用部分1の基準時刻「2002年8月2日 9時28分」が適用され、10行目の「14:00 」に対しては、引用部分1以外の部分の基準時刻「2002年8月3日 8時11分」が適用される。
【0033】
ステップ1010およびステップ1020からステップ1030の処理へ移行する。ステップ1030では、入力された日時表現が相対的な表現、例えば、「今日」、「明日」、「今週」、「先週」、「今月」、「先月」などの表現であるかどうかを調べ、相対的な表現である場合にはステップ1040へ移行し、相対的な表現以外の表現である場合にはステップ1050へ移行する。図2の電子メールの場合、18行目の「明日13:00 」および19行目の「本日」は相対的な表現であるので、ステップ1040の処理が実行される。
【0034】
ステップ1040では、例えば、あらかじめ用意した日付変換テーブルを利用して、相対的な日時表現を絶対的な表現に変換する。図2の電子メールの場合、18行目の「明日13:00 」と19行目の「本日」は引用部分1に含まれるので、引用部分1の基準時刻「2002年8月2日 9時28分」を基準にして、絶対的な表現に変換される。結果として、「明日13:00 」、「本日」は、それぞれ「2002年8月3日 13:00 」、「2002年8月2日」になる。ステップ1040からステップ1050へ移行する。
【0035】
ステップ1050では、ステップ1030で処理された日時表現が省略された表現であるかどうかを調べる。そして、省略された表現である場合にはステップ1060へ移行し、省略された表現以外の表現である場合にはステップ1070へ移行する。図2の電子メールの場合、10行目の「14:00」は年月日が省略された表現であるので、ステップ1060の処理に移行する。なお、ステップ1040で処理された日時表現は絶対的な表現に変換された表現であるので、ステップ150 では処理は加えられず、そのままステップ1070の処理の対象となる。
【0036】
ステップ1060では、省略された日時表現を補完して絶対的な表現に変換する。図2の電子メールの場合、10行目の「14:00」は引用部分1以外の部分に含まれるので、引用部分1以外の部分の基準時刻「2002年8月3日 8時11分」が適用される。この場合、省略された日時表現「14:00」は、基準時刻「2002年8月3日 8時11分」を基準として「2002年8月3日 14:00」に変換される。ステップ1060からステップ1070へ移行する。
【0037】
ステップ1070では、例えば、元号を使った表現を西暦に統一したり、時間表現を24時間制に統一したりして、日時表現を所定の表現に統一する。図4のステップ170 の処理(図6のステップ1000からステップ1070までの処理)が施された日時表現は出力部22に入力され、ステップ180 の処理が実行される。
【0038】
なお、図4のフローチャートでは、日時表現抽出部18によりステップ160 の処理が実行され、本文からすべての日時表現(ただし、ステップ140 において基準時刻決定部16により抽出され基準時刻とされた日時表現を除く)が抽出されてから、ステップ170 の処理が実行されているが、引用部分抽出部14による引用部分の抽出(ステップ110 〜120 )および基準時刻決定部16による基準時刻の決定(ステップ130 〜150 )を前もって実行し、日時表現抽出部18により日時表現が抽出されるたびに日時表現変換部20によるステップ160 の処理を逐次実行してもよい。
【0039】
ステップ180 に移行すると出力部22では、電子メール中の相対的な表現および省略された表現を、日時表現変換部16から入力される絶対的な日時表現で置換する。図2の電子メールの場合、10行目の「14:00 」を「2002年8月3日 14:00 」に、18行目の「明日13:00 」を「2002年8月3日 13:00 」に、19行目の「本日」を「2002年8月2日」に、それぞれ置換して出力する。なお、相対的な表現の位置にタグを設定し、そのタグのパラメータとして絶対表現にしてもよい。例えば、10行目の「14:00」の代わりに、「<DATE ABS=”200208031400>14:00</DATE」としてもよい。
【0040】
このように図1の実施例によれば、電子メールが他の電子メールを引用している場合にも、メーラが引用部分の先頭に自動的に付加する引用元のメール情報に含まれる日時表現、例えば送信日時を抽出しているので、この送信日時を引用部分の基準時刻として、引用部分の相対的な表現や省略された表現を絶対的な表現に変換することができる。
【0041】
図7は、日時表現正規化装置の他の実施例を示すブロック図である。図1の実施例では、メーラが他の電子メールを引用する際に引用部分の先頭に記載するメール情報から送信日時を抽出し、これを引用部分の基準時刻として使用していた。しかし、電子メールの本文にメール情報が記載されていない場合やメール情報に送信日時が含まれていない場合には、引用部分に送信日時が記載されていない限り、引用部分の基準時刻を決定することができず、引用部分の相対的な日時表現や省略された日時表現を絶対的な表現に変換することができない。
【0042】
本実施例による日時表現正規化装置は、引用部分に送信日時が記載されていない場合に、その引用部分の引用元の電子メールを文書記憶部に記憶されている過去に送受信されたメールの中から取り出し、その引用元電子メールの送信日時を抽出して基準時刻を決定するものであり、図1に示す日時表現正規化装置の基準時刻決定部16に替えて基準時刻決定部30を設け、基準時刻決定部30に文書記憶部30を接続したものである。なお、電子メール入力部10、本文抽出部12、引用部分抽出部14、日時表現抽出部18、日時表現変換部20および出力部22は、図1の同じ参照符号を付した各構成要素と同じものである。
【0043】
図7の引用部分抽出部14は、本文抽出部12から入力される本文中に、上記のメール情報を抽出した場合には、メール情報および引用記号に基づいて抽出した引用部分を引用部分(図1の実施例における引用部分Bに対応する)として出力し、メール情報が含まれていない場合には、引用記号に基づいて抽出した引用部分を出力する。図9の電子メールの場合、引用部分として引用部分2および引用部分3が出力される。
【0044】
引用部分抽出部14に接続されている基準時刻決定部30は、引用元メール特定部34と送信日時抽出部36とを含み、引用部分抽出部14から入力される各引用部分の基準時刻を決定し、決定した基準時刻を日時表現変換部20へ出力するものである。また、基準時刻決定部30に接続されている文書記憶部32は、電子文書を格納する電子文書記憶装置であり、今までに送受信された電子メールを格納するものである。なお、電子メールの他に、個々の電子メールの引用元がどのメールであるかを示す情報を格納してもよい。これにより、引用元電子メールを容易に抽出することができる。
【0045】
基準時刻決定部30についてさらに説明すると、基準時刻決定部30は、引用部分抽出部14から入力された引用部分の先頭の数行が、あらかじめ定められた特定の表現形式、例えば、図3のタイプ1〜タイプ3のいずれかに該当するかどうかを調べる。そして、該当する場合には、図1の基準時刻決定部16の場合と同様にして、その引用部分から日時情報を抽出し、その日時情報が示す送信日時を引用部分の基準時刻とする。しかし、該当しない場合には、引用部分から日時情報を抽出できないので、引用元メール特定部34および送信日時抽出部36を制御して引用部分の基準時刻を決定する。
【0046】
引用元メール特定部34は、引用部分抽出部14から入力された引用部分が、文書記憶部32に格納された電子メールのうち、どのメールの一部に該当するかを特定するものである。具体的には、電子メール入力部10に入力された電子メールと返信や転送関係にある電子メールのすべてを、引用元電子メールの候補として文書記憶部32から抽出する。例えば、電子メールのヘッダ情報のIn-Reply-To フィールドとReferencesフィールドにあるメッセージIDを抽出し、そのメッセージIDをMessage-IDフィールドに含むメールを文書記憶部32から抽出する処理を繰り返すことにより、返信や転送関係にあるメールをすべて抽出する。なお、他の方法、例えば、メールの相関関係を記憶したテーブルを参照して抽出してもよい(例えば、特開2002-197037 号公報)。
【0047】
また、引用元メール特定部34は、引用部分抽出部14から入力された引用部分が、文書記憶部32から抽出された電子メールのうち、どのメールの一部に該当するかを特定する。例えば、引用部分にある各行の文字列から引用記号を除いた部分文字列をその引用部分から抽出し、抽出した部分文字列ごとに、その部分文字列と文書記憶部32から抽出された電子メールの各行の文字列とを文字列マッチングにより順次比較し、文字列が一致したときその電子メールを引用元電子メールと判断する。なお、空行はマッチング処理の対象から除外する。
【0048】
引用元メール特定部34に接続されている送信日時抽出部36は、引用元メール特定部34により特定された引用元電子メールを入力とし、その引用元電子メールから送信日時を抽出してその送信日時を引用部分の基準時刻と決定するものである。このように、基準時刻決定部30は、入力された引用部分に日時情報が含まれる場合には、その日時情報に基づいて引用部分の基準時刻を決定し、引用部分に日時情報が含まれていない場合には、文書記憶部32から引用元電子メールを抽出し、その送信日時を引用部分の基準時刻に決定する。基準時刻決定部30により決定された基準時刻は日時表現変換部20に入力される。
【0049】
なお、電子メール入力部10、本文抽出部12、引用部分抽出部14、日時表現抽出部18、日時表現変換部20および出力部22は、図1における同じ参照符号を付した各構成要素と同じものであるので説明を省略する。
【0050】
このように構成された図7の日時表現正規化装置の動作を、図9に示す電子メールが電子メール入力部10に入力された場合を例にとって、図8に示すフローチャートを参照しながら以下に説明する。
【0051】
図8のステップ200 からテップ220 までの処理は、図4のステップ100 からステップ120 までの処理と同じである。すなわち、本文抽出部12では、入力された電子メールから本文と送信日時とを抽出し(ステップ200 )、引用部分抽出部14では、本文から引用部分を抽出する(ステップ210 〜220 )。図9の電子メールの場合、1行目から6行目まではヘッダ部分、8行目から12行目までは引用部分でない本文、13行目から14行目までは引用部分1(行頭に引用記号「aaa>」が付加されている部分)、15行目から18行目までは引用部分2(行頭に引用記号「aaa>> 」が付加されている部分)、19行目から22行目までは引用部分でない本文である。
【0052】
引用部分抽出部14により抽出された引用部分(引用部分1および引用部分2)は基準時刻決定部30に入力され、ステップ230 からステップ280 までの処理が実行される。基準時刻決定部30では、まず、すべての引用部分について基準時刻が決定されているかどうかを判定し、まだ基準時刻を決定していない引用部分がある場合にはその1つ選択してステップ240 の処理に移行し、すべての引用部分の基準時刻が決定されている場合にはステップ290 の処理に移行する(ステップ230 )。
【0053】
ステップ240 では、ステップ230 で選択された引用部分における先頭の数行の表現形式を調べ、その表現形式があらかじめ定められた表現形式、例えば、図3のタイプ1〜タイプ3のいずれかに該当するかどうかどうかを調べる。そして、該当する場合にはステップ250 へ移行し、いずれにも該当しない場合にはステップ260 へ移行する。図9の電子メールの場合、引用部分1および引用部分2の表現形式は、タイプ1〜タイプ3のいずれにも該当しないので、ステップ260 の処理が実行される。
【0054】
ステップ250 に移行した場合、基準時刻決定部30では、引用部分から日時情報、例えば送信日時を抽出し、その送信日時をその引用部分の基準時刻に決定してステップ230 へ戻る。しかし、引用部分から送信日時を抽出できない場合には、ステップ260 の処理へ移行する(ステップ250 )。なお、図9の電子メールの場合、ステップ240 の段階でステップ260 へ移行するので、ステップ250 の処理は実行されない。
【0055】
ステップ260 に移行すると、基準時刻決定部30の引用元メール特定部34では、処理対象である電子メールと返信や転送関係のある電子メールのすべてを、引用元電子メールの候補として文書記憶部32から抽出する。図9の電子メールの場合、In-Reply-To フィールドは「<A1.aaa@bbb.com」であるので、この値をMessage-IDフィールドに持つ電子メールを文書記憶部32から抽出する。例えば、図2の電子メールがこれに該当する。したがって、図9の電子メールは図2の電子メールへの返信メールである。さらに、図2の電子メールのIn-Reply-To フィールドは「<A0.aaa@bbb.com」であるので、この値をMessage-IDフィールドに持つ電子メールを文書記憶部32から抽出する。例えば、図10の電子メールがこれに該当する。したがって、図2の電子メールは図10の電子メールへの返信メールである。
【0056】
なお、文書記憶部32に電子メールの返信や転送関係を示す情報をあらかじめ記憶しておけば、返信や転送関係のある電子メールのすべてを容易に取り出すことができる。このようにして抽出された電子メールの送信日時の古い順に並べると、
(1) 図10のメール(送信日時:2002年8月2日 9時28分)
(2) 図2のメール(送信日時:2002年8月3日 8時11分)
となる。引用元メール特定部34では、文書記憶部32から抽出した図2の電子メールおよび図10の電子メールを内蔵するメモリに一時格納する。なお、ステップ260 の処理は、最初の引用部分が入力されたとき実行され、2番目以降の引用部分が入力されたときは省略される。ステップ260 からステップ270 へ移行する。
【0057】
ステップ270 において引用元メール特定部34では、引用部分1が入力されたとき、メモリから図2および図10の電子メールを読み出し、引用部分1が図2および図10の電子メールのうち、どのメールからの引用であるかをチェックする。チェックは、送信日時の古い電子メールから順に、本実施例では、図10の電子メール、図2の電子メールの順番で行なう。ただし、引用記号はチェック対象から除外される。
【0058】
引用部分1と図10のメールを比較すると、引用部分1の1行目(図9の13行目)は、図10の電子メールのどの行にも一致しない。しかし、引用部分1と図2の電子メールを比較すると、引用部分1の1行目は図2の10行目と一致する。したがって、引用部分1は、図2の電子メールから引用されたものと判断する。なお、空行は処理対象から除外される。引用元メール特定部34では、引用部分1の引用元電子メールとして図2の電子メールを送信日時抽出部36へ出力する。
【0059】
引用部分2が入力された場合にも、メモリから図2および図10の電子メールを読み出し、引用部分1の場合と同様にして、図10および図2の電子メールと比較して引用元電子メールを特定する。引用部分2と図10の電子メールを比較すると、引用部分2の2行目(図9の16行目)が図10の電子メールの10行目と一致し、引用部分2の3行目(図9の17行目)が図10の電子メールの11行目に一致する。したがって、図2の電子メールを調べるまでもなく、引用部分2は図10の電子メールから引用されたものと判断する。引用元メール特定部34では、引用部分2の引用元電子メールとして図10の電子メールを送信日時抽出部36へ出力する。ステップ270 からステップ280 へ移行する。
【0060】
ステップ280 に移行すると送信日時抽出部36では、入力された引用元電子メールからその送信日時を抽出し、これを引用部分の基準時刻に決定する。例えば、引用部分1の引用元電子メール(図2)が入力された場合、その電子メールから送信日時(2002年8月3日 8時11分)を抽出し、これを引用部分1の基準時刻とする。引用部分2の引用元電子メール(図10)が入力された場合も同様にして、送信日時(2002年8月2日 9時28分)を抽出し、これを引用部分2の基準時刻に決定する。ステップ280 からはステップ230 に戻る。
【0061】
ステップ230 からステップ280 までの処理により、すべての引用部分の基準時間が決定されるとステップ290 に移行する。なお、ステップ230 からステップ280 までの処理では、引用部分における先頭の数行の表現形式が特定の表現形式(例えば、図3に示す表現形式)に該当する場合と該当しない場合とに分けて処理しているが、ステップ240 および280 の処理を省略し、すべての引用部分に対してステップ260 からステップ280 までの処理を適用してもよい。
【0062】
ステップ290 からステップ320 までの処理は、図4のステップ150 からステップ180 までの処理と同じである。すなわち、基準時刻決定部30では、図9の電子メールの送信日時(2002年8月5日 18時23分)を抽出し、これを引用部分1および引用部分2を除く本文の基準時刻とする(ステップ290 )。図11は、図9に示す電子メールの引用部分1の基準時刻、引用部分2の基準時刻、および引用部分1および引用部分2を除く本文の基準時刻をそれぞれ示す。
【0063】
日時表現抽出部18では、本文抽出部12からの本文から日時表現を抽出して日時表現変換部20へ出力する(ステップ300 )。日時表現変換部20では、日時表現抽出部18から入力される日時表現が相対的な表現あるいは省略された表現である場合には、これを絶対的な表現に変換する(ステップ310 )。これにより、図9の10行目の「一昨日」は、本文の基準時刻「2002年8月5日 18時23分」を元に「2002年8月3日」に変換され、13行目の「14:00 」は、引用部分1の基準時刻「2002年8月3日 8時11分」を元に「2002年8月3日 14:00 」に変換され、16行目の「明日13:00 」および17行目の「本日」は、引用部分2の基準時刻「2002年8月2日 9時28分」を元にそれぞれ「2002年8月3日 13:00 」および「2002年8月2日」に変換される。
【0064】
このように図7の実施例によれば、電子メールの引用部分に送信日時を特定できる日時情報が含まれていない場合に、過去に送受信された電子メールを格納している文書記憶部から引用元の電子メールを抽出してそのメールの送信日時を特定しているので、引用部分に日時情報が含まれない場合でも、この送信日時を引用部分の基準時刻として引用部分の相対的な表現や省略された表現を絶対的な表現に変換できる。
【0065】
【発明の効果】
以上説明したように本発明による日時表現正規化装置によれば、電子メールの引用部分に含まれる日時情報を抽出し、この日時情報が示す送信日時を引用部分の基準時刻としているので、引用部分に含まれる相対的な表現や省略された表現を絶対的な表現に変換することができる。
【0066】
また、文書記憶手段により過去に送受信された電子メールを格納し、この文書記憶手段から引用元の電子メールを抽出し、その引用元電子メールの送信日時を引用部分の基準時刻としているので、電子メールの引用部分に送信日時を特定できる日時情報が含まれていない場合でも、引用部分に含まれる相対的な表現や省略された表現を絶対的な表現に変換できる。
【図面の簡単な説明】
【図1】本発明による日時表現正規化装置の実施例を示すブロック図である。
【図2】電子メールの例を示す図である。
【図3】メーラが他の電子メールを引用する際に引用部分の先頭に記載するメール情報の表現例を示す図である。
【図4】図1に示す日時表現正規化装置の動作を示すフローチャートである。
【図5】図2に示す電子メールの基準時刻を示す図である。
【図6】図4に示すフローチャートにおける日時表現の変換処理(ステップ170 )の詳細を示すフローチャートである。
【図7】本発明による日時表現正規化装置の他の実施例を示すブロック図である。
【図8】図7に示す日時表現正規化装置の動作を示すフローチャートである。
【図9】図3に示す電子メールに対する返信メールの例を示す図である。
【図10】電子メールの他の例を示す図である。
【図11】図9に示す電子メールの基準時刻を示す図である。
【符号の説明】
10 電子メール入力部
12 本文抽出部
14 引用部分抽出部
16、30 基準時刻決定部
18 日時表現抽出部
20 日時表現変換部
22 出力部
32 文書記憶部
[0001]
BACKGROUND OF THE INVENTION
The present invention provides an absolute representation of relative and abbreviated date and time expressions described in emails, and in particular relative and abbreviated date and time expressions described in quoted parts quoted from other emails. The present invention relates to a date / time expression normalization device for converting to a date / time expression.
[0002]
[Prior art]
Conventionally, an apparatus has been proposed in which date and time expressions are extracted from an electronic document such as an e-mail and used for searching, as schedule information, or for determining the importance of an electronic document. In general, e-mail is used for the purpose of communication, so in e-mail, relative date and time expressions such as “today” and “next Friday”, and date and time expressions such as “26th” are omitted. Many are seen. However, such an expression causes inconvenience when used as search or schedule information. In view of this, there has been proposed a device that converts relative expressions and omitted expressions into absolute and complete expressions (see, for example, Patent Document 1, Patent Document 2, and Patent Document 3).
[0003]
In order to convert a relative expression or an omitted expression into an absolute expression, a reference time as a reference is required. In the devices described in Patent Literature 1 and Patent Literature 2, the date and time when the electronic mail to be processed is transmitted is used as the reference time. Further, in the apparatus described in Patent Document 3, the date omission is complemented based on the creation / change date of the e-mail. In the case of electronic mail, the reference time is the date and time expression of the transmission date and time field (Date field) included in the header information of the mail to be processed.
[0004]
[Patent Document 1]
Japanese Patent Laid-Open No. 10-69472
[Patent Document 2]
Japanese Patent Laid-Open No. 11-143864
[Patent Document 3]
Japanese Patent Laid-Open No. 11-134342.
[0005]
[Problems to be solved by the invention]
However, in the above conversion method, when a quoted part quoted from another email is included in the body of the email to be processed, the transmission date and time of the email to be processed is used as the reference time. However, there was a problem that the relative date expression and the omitted date expression included in the quoted part could not be correctly converted into the absolute date expression. For example, if the date and time expression of “Today” is included in the line of the quoted part of the email to be processed, if the transmission date and time of the email to be processed is used as the reference time, that “Today” is absolutely Cannot be correctly converted into a date and time expression.
[0006]
The present invention eliminates the disadvantages of the prior art, and corrects the relative date / time expression or the omitted date / time expression included in the quoted part quoted from other e-mails to the correct date / time expression. An object of the present invention is to provide a device.
[0007]
[Means for Solving the Problems]
In order to solve the above problem, the date and time expression normalizing apparatus according to the present invention divides an e-mail into a header part and a text, extracts the transmission date and time from the header part, and outputs the text and the transmission date and time. And from the text output from the text extracting means, the date and time information is extracted from the quoted part extracting means for extracting a quoted part quoted from another e-mail and the quoted part extracted by the quoted part extracting means. Reference time determination means using the transmission date and time indicated by the information as the reference time of the quoted part and the transmission date and time output from the text extraction means as the reference time of the part other than the quoted part, and the date and time expression from the text output from the text extraction means A date and time expression extracting means for extracting the date and time and the date and time expression extracted by the date and time expression extracting means are converted into an absolute expression based on the reference time determined by the reference time determining means Characterized in that it comprises a time representation conversion unit.
[0008]
Further, the date and time expression normalization apparatus according to the present invention divides an electronic mail into a header part and a text, extracts a transmission date and time from the header part, and outputs a text and a transmission date and time. The citation extracted by the citation portion extraction means comprises a citation portion extraction means for extracting a citation portion quoted from another e-mail from the output text, and a document storage means for storing e-mails sent and received in the past. Extracting the quoted source e-mail from the document storage means, the transmission date and time of this quoted e-mail as the reference time for the quoted part, and the send date and time extracted by the text extracting means as the reference time for the part other than the quoted part Reference time determination means, date and time expression extraction means for extracting date and time expressions from the text output from the text extraction means, and date and time expressions extracted by the date and time expression extraction means Characterized in that it comprises a date expression conversion means for converting the absolute representation based on the determined reference time by determining means.
[0009]
Further, the date and time expression normalization method according to the present invention divides an email into a header part and a body, extracts a transmission date and time from the header part, and from the body text divided from the email in the body extraction step, Extract the quoted part quoted from other e-mails, extract the date / time information from the quoted part extracted in the quoted part extraction process, and use the transmission date / time indicated by this date / time information as the reference time of the quoted part A reference time determination step that uses the transmission date and time extracted in the text extraction step as a reference time for a portion other than the quoted portion; and a date and time expression extraction step that extracts a date and time expression from the text divided from the email in the text extraction step; A date and time expression conversion step for converting the date and time expression extracted in the date and time expression extraction step into an absolute expression based on the reference time determined in the reference time determination step. To.
[0010]
DETAILED DESCRIPTION OF THE INVENTION
Next, embodiments of a date expression normalizing apparatus and method according to the present invention will be described in detail with reference to the accompanying drawings. FIG. 1 is a block diagram showing an embodiment of a date expression normalizing apparatus. This date / time expression normalization device is a device that normalizes the date / time expression that appears in an email, and in particular, when an email contains a quoted portion quoted from another email, the transmission date / time is calculated from the quoted portion. Extraction is performed, and the transmission date / time is used as a reference time for the quoted part, and the relative date / time expression or the omitted date / time expression included in the quoted part is converted into an absolute date / time expression.
[0011]
As shown in FIG. 1, the date / time expression normalization apparatus according to the present embodiment includes an e-mail input unit 10, a text extraction unit 12, a quoted part extraction unit 14, a reference time determination unit 16, a date / time expression extraction unit 18, and a date / time expression conversion. The unit 20, the output unit 22, and a control unit (not shown) that controls each unit to perform date expression normalization. The e-mail input unit 10 inputs an e-mail.
[0012]
The text extraction unit 12 connected to the e-mail input unit 10 divides the e-mail given from the e-mail input unit 10 into a header part (header information) and a body, and sends the e-mail from the Date field of the header information. The transmission date and time representing the transmission date and time are extracted, and the text obtained by division and the transmission date and time obtained by extraction are output. In the electronic mail, since the positional relationship between the header part and the text is determined in advance, it is easy to divide the electronic mail into the header part and the text. Note that the output body may include a subject of the header part.
[0013]
The quoted part extracting unit 14 connected to the text extracting unit 12 extracts a quoted part from the text body from the text extracting unit 12. The character strings “>”, “>>”, “|”, “Yamada>”, etc. are added as quotation marks at the beginning of each quoted part, so quote the lines where these quotation marks are at the beginning of the line. A portion (hereinafter referred to as a quoted portion A) is determined and extracted. For example, in the case of the electronic mail shown in FIG. 2, since the quotation mark “>” exists at the beginning of the 17th to 20th lines, the 17th to 20th lines are determined as the citation part A. However, if the quotes are different, they will be separated.
[0014]
In addition, when quoting other e-mails, the mailer sends a character string in a specific expression format, for example, the character string (type 1) in FIG. 3 (a), the character string (type 2) in (b), or The character string (type 3) in (c) is automatically added to the beginning of the quoted part. The quoted part extraction unit 14 determines whether the character string “wrote:” is at the end of the line, whether the character string “----- Original Message -----” is in the line, or the character string “ It is judged by character string matching whether or not “in the mail of the time” is at the end of the line. And the last line of the quoted part A extracted from the line with the character string “wrote:”, “----- Original Message -----”, or “by email” Up to a new citation part (hereinafter referred to as citation part B).
[0015]
In the e-mail in Fig. 2, the character string "----- Original Message -----" is included in the 12th line, and the character strings from the 12th line to the 16th line are shown in Fig. 3 (a). In this embodiment, the quoting portion B (the quoting portion 1 in FIG. 2) is included in the 12th to 20th lines together with the quoting portion A to which the quoting symbol is added. . These character strings can be determined by the character string matching method. However, for example, when the citation part is displayed in different colors, the citation part is determined and extracted based on the color. Also good.
[0016]
The reference time determination unit 16 connected to the text extraction unit 12 and the quoted part extraction unit 14 calculates the reference time of the quoted part B and the reference time of the part other than the quoted part B (the part excluding the quoted part B from the text). To decide. Specifically, the date and time information automatically inserted by the mailer is extracted from the quoted part B input from the quoted part extracting unit 14, and the transmission date and time indicated by the date and time information is determined as the reference time of the quoted part B. The format of the mail information including the date / time information is determined to a certain extent as in type 1 to type 3 in FIG. 3, and the date / time information is extracted by preparing a date / time extraction rule corresponding to the format. be able to. In addition, the reference time determination unit 16 determines the transmission date and time input from the text extraction unit 12 as the reference time of a part other than the quoted part B.
[0017]
The date / time expression extracting unit 18 connected to the text extracting unit 12 extracts the date / time expression included in the text input from the text extracting unit 12 and determines an appearance position indicating the position where the date / time expression exists. It is. For the extraction of the date and time expression, for example, as described in Japanese Patent Application Laid-Open No. 11-143864, a method of extracting by performing sentence analysis or the like may be used, or other methods may be used. Good. The text and subject may be extracted from the date and time expression. The date / time information extracted from the quoted portion B by the reference time determination unit 16 is not subject to date / time expression extraction by the date / time expression extraction unit 18.
[0018]
The date / time expression conversion unit 20 connected to the reference time determination unit 16 and the date / time expression extraction unit 18 determines the date / time expression input from the date / time expression extraction unit 18 based on the reference time determined by the reference time determination unit 16. It converts to an absolute expression. Specifically, when a date expression of a relative expression or an abbreviated expression is input and the expression is included in the quoted part B, the expression is based on the reference time of the quoted part B. If it is included in a part other than, the expression is converted into an absolute expression based on the reference time of the part other than the quoted part B.
[0019]
The conversion from the relative expression to the absolute expression uses a date conversion table indicating the absolute expression corresponding to the relative expression as described in, for example, Japanese Patent Application Laid-Open No. 11-143864. Can be implemented easily. Whether or not the date expression is present in the quoted part B is determined by the appearance position input from the date expression extraction unit 18 together with the date expression. Further, when converting to an absolute expression, for example, an expression using an era may be unified into the Christian era, or a time expression may be unified into a 24-hour system.
[0020]
The output unit 22 connected to the date / time expression conversion unit 20 outputs an absolute date / time expression input from the date / time expression conversion unit 20. The output contents of the e-mail are not limited. For example, the relative expression may be replaced with an absolute expression and output, or a tag is set at the position of the relative expression, and the absolute parameter is set as the tag parameter. You may use any expression. Note that the output result may be used as an input of another device. For example, this output result may be stored in a database or the like.
[0021]
1 will be described below with reference to the flowchart shown in FIG. 4 by taking the case where the electronic mail shown in FIG. 2 is input to the electronic mail input unit 10 as an example. For example, the e-mail input to the e-mail input unit 10 is input to the text extraction unit 12.
[0022]
The body extracting unit 12 divides the input e-mail into a header part (header information) and a body, and further extracts the transmission date and time from the Date field of the header part (step 100 in FIG. 4). In the case of the electronic mail shown in FIG. 2, the first to sixth lines are the header part, the eighth and subsequent lines are the text, and the third line is a Date field in which the transmission date and time is described. In this case, the transmission date is “August 3, 2002 8:11”.
[0023]
The text divided from the e-mail by the text extracting unit 12 is input to the quoted part extracting unit 14 and the date and time expression extracting unit 18, and the transmission date and time extracted from the header part is input to the reference time determining unit 16, respectively. The quoting part extraction unit 14 checks whether or not a citation symbol exists at the beginning of each line of the body text input from the body extraction unit 12 and determines that the line having the citation symbol at the beginning of the line is a citation part A. Extract (step 110). In the case of the e-mail in FIG. 2, the quote symbol “>” is present at the head of each line from the 17th line to the 20th line, so that the 17th line to the 20th line are determined as the quote part A. In addition, when quotation marks differ, it becomes a separate quotation part.
[0024]
In the quoted part extraction unit 14, for the text input from the text extraction unit 12, for example, a line where the character string “wrote:” exists at the end of the line, and the character string “----- Original Message-- "---" or the line where the character string "Circle Mail" exists at the end of the line, and the last line of the quoted part A extracted from the line where the character string exists in step 110 Up to the quoted portion B (step 120). In the case of the e-mail shown in FIG. 2, since the character string “----- Original Message -----” exists on the 12th line, the citation part A (from the 17th line to the 20th line) is added. ) And the 12th to 20th lines are referred to as a quoted part B (quoted part 1 in FIG. 2). The quote part B extracted by the quote part extraction unit 14 is input to the reference time determination unit 16.
[0025]
The reference time determination unit 16 determines the reference time of each quoted part B input from the quoted part extracting unit 14 (steps 130 to 140). First, it is determined whether or not the reference time is determined for all the citation parts B. If there is a citation part for which the reference time is not determined, one of them is selected and the process proceeds to step 140. If the reference times for all the quoted parts are determined, the process proceeds to step 150 (step 130).
[0026]
In step 140, date and time information is extracted from the cited part B selected in step 130, and the date and time indicated by the extracted date and time information is determined as the reference time of the cited part B. In the case of FIG. 2, the reference time of the quoted portion 1 is “August 2, 2002, 9:28” from the transmission date and time of the Sent field on the 14th line. By repeatedly executing the processing from step 130 to step 140, the reference times of all the quoted portions are determined, and the routine proceeds to step 150.
[0027]
In step 150, the reference time determination unit 16 sets the transmission date and time input from the text extraction unit 12 as the reference time for the part other than the quoted part B. In the case of FIG. 2, since the transmission date and time of the Date field on the third line is input from the body extraction unit 12 to the reference time determination unit 14, the reference time for the parts other than the quoted part 1 is “August 3, 2002 8:11 ". FIG. 5 shows the reference times for the quoted portion 1 and the portions other than the quoted portion 1 in FIG. The reference time of the citation part B determined in step 140 and the reference time other than the citation part B determined in step 150 are input to the date / time expression conversion unit 20.
[0028]
On the other hand, the date / time expression extracting unit 18 extracts the date / time expression from the body of the electronic mail input from the body extracting unit 12, and determines the appearance position indicating the position (step 160). In the case of the e-mail in FIG. 2, “14:00” on the 10th line, “13:00” tomorrow on the 18th line, and “Today” on the 19th line are extracted as date and time expressions. , “Other than quoted portion”, “quoted portion 1”, and “quoted portion 1”. However, in the process of step 160, the date / time expression extracted by the reference time determination unit 16 and used as the reference time in step 140 is excluded from the extraction target. The date / time information and its position information are input to the date / time expression conversion unit 20.
[0029]
In the flowchart of FIG. 4, the date and time expression extraction by the date and time expression extraction unit 18 (step 160) is executed after the reference time determination by the reference time determination unit 16 (steps 130 to 150) is executed. It should be executed after the text extraction by the text extraction unit 12 (step 100) until the date / time expression conversion by the date / time expression conversion unit 20 (step 170) is started.
[0030]
The date / time expression conversion unit 20 determines whether the date / time expression input from the date / time expression extraction unit 18 is a relative expression or an abbreviated expression, and if it is a relative expression or an abbreviated expression, The date and time expression is converted into an absolute expression using the reference time input from the reference time determination unit 16 (step 170). Specifically, the processing of step 170 is executed by executing the processing from step 1000 to step 1070 of FIG. If the input date and time expression is an absolute expression, the process proceeds to step 1070 in FIG.
[0031]
First, in step 1000, the appearance position of the date expression that is input from the date expression extraction unit 18 is confirmed. If the date expression is included in the quote part B, the process proceeds to step 1010 and the part other than the quote part B is displayed. If included, the process proceeds to step 1020. In the case of the e-mail in FIG. 2, “Tomorrow 13:00” on the 18th line and “Today” on the 19th line are included in the quoted portion 1, so the process proceeds to Step 1010, and “14: Since “00” is included in the portion other than the quoted portion 1, the process proceeds to step 1010.
[0032]
In step 1010, it is determined that the reference time of the quoted part B including the date / time expression is applied to the date / time expression input from the date / time expression extraction unit 18. In step 1020, the input from the date / time expression extraction unit 18 is performed. It is determined that the reference time (mail transmission date and time) of the part other than the quote part B including the date and time expression is applied to the given date and time expression. In the case of the e-mail in FIG. 2, the reference time “August 2, 2002, 9:28” of the quote part 1 is used for “Tomorrow 13:00” on the 18th line and “Today” on the 19th line. Applied to “14:00” on the 10th line, the reference time “8:11 on August 3, 2002” of the portion other than the quoted portion 1 is applied.
[0033]
The process proceeds from step 1010 and step 1020 to step 1030. In step 1030, it is checked whether the input date and time expression is a relative expression, for example, “Today”, “Tomorrow”, “This week”, “Last week”, “This month”, “Last month”, etc. If it is a relative expression, the process proceeds to step 1040, and if it is an expression other than a relative expression, the process proceeds to step 1050. In the case of the electronic mail shown in FIG. 2, “Tomorrow 13:00” on the 18th line and “Today” on the 19th line are relative expressions, so the processing of Step 1040 is executed.
[0034]
In step 1040, for example, a relative date and time expression is converted into an absolute expression using a date conversion table prepared in advance. In the case of the email shown in FIG. 2, “Tomorrow 13:00” on the 18th line and “Today” on the 19th line are included in the quoted part 1, so the reference time of the quoted part 1 “August 2, 2002, 9:00 It is converted into an absolute expression based on “28 minutes”. As a result, “Tomorrow 13:00” and “Today” become “August 3, 2002 13:00” and “August 2, 2002”, respectively. The process proceeds from step 1040 to step 1050.
[0035]
In step 1050, it is checked whether or not the date and time expression processed in step 1030 is an omitted expression. If the expression is omitted, the process proceeds to step 1060. If the expression is other than the omitted expression, the process proceeds to step 1070. In the case of the e-mail in FIG. 2, “14:00” on the 10th line is an expression in which the date is omitted, and the process proceeds to step 1060. Since the date and time expression processed in step 1040 is an expression converted into an absolute expression, no processing is added in step 150 and it is directly subjected to the processing in step 1070.
[0036]
In step 1060, the omitted date expression is complemented and converted to an absolute expression. In the case of the e-mail in FIG. 2, “14:00” on the 10th line is included in the part other than the quoted part 1, so the reference time of the part other than the quoted part 1 “August 3, 2002 8:11” Applies. In this case, the omitted date expression “14:00” is converted to “August 3, 2002 14:00” with reference to the reference time “August 3, 2002 8:11”. The process proceeds from step 1060 to step 1070.
[0037]
In step 1070, for example, the expression using the era is unified to the year, or the time expression is unified to the 24-hour system, and the date expression is unified to a predetermined expression. The date and time expression subjected to the processing of step 170 in FIG. 4 (processing from step 1000 to step 1070 in FIG. 6) is input to the output unit 22 and the processing of step 180 is executed.
[0038]
In the flowchart of FIG. 4, the processing of step 160 is executed by the date / time expression extracting unit 18, and all the date / time expressions from the text (however, the date / time expression extracted by the reference time determining unit 16 in step 140 and used as the reference time) The processing of step 170 is performed after the extraction of the quoting portion, but the extraction of the citation portion by the citation portion extraction unit 14 (steps 110 to 120) and the determination of the reference time by the reference time determination unit 16 (steps 130 to 150) may be executed in advance, and the processing of step 160 by the date / time expression conversion unit 20 may be executed sequentially each time the date / time expression extraction unit 18 extracts the date / time expression.
[0039]
In step 180, the output unit 22 replaces the relative expression and the omitted expression in the electronic mail with the absolute date expression input from the date expression conversion unit 16. In the case of the e-mail shown in FIG. 2, “14:00” on the 10th line is changed to “14:00 on August 3, 2002”, and “Tomorrow 13:00” on the 18th line is changed to “August 3, 2002 13”. : 00 "," Today "on line 19 is replaced with" August 2, 2002 ", respectively, and output. A tag may be set at a position of relative expression, and absolute expression may be used as a parameter of the tag. For example, instead of “14:00” on line 10, <DATE ABS = ”200208031400> 14:00 </ DATE ".
[0040]
As described above, according to the embodiment of FIG. 1, even when an e-mail quotes another e-mail, the date and time expression included in the e-mail information of the citation source that the mailer automatically adds to the head of the citation part. For example, since the transmission date and time are extracted, the relative expression or the omitted expression of the quotation part can be converted into an absolute expression using the transmission date and time as the reference time of the quotation part.
[0041]
FIG. 7 is a block diagram showing another embodiment of the date expression normalizing apparatus. In the embodiment of FIG. 1, when the mailer cites another electronic mail, the transmission date and time is extracted from the mail information described at the head of the quoted part, and this is used as the reference time of the quoted part. However, if the email information is not listed in the body of the email or if the email information does not include the transmission date / time, the reference time for the quoted portion is determined unless the transmission date / time is listed in the quoted portion. It is not possible to convert the relative date / time expression of the quoted part or the abbreviated date / time expression into an absolute expression.
[0042]
The date and time expression normalization apparatus according to the present embodiment, when the transmission date and time is not described in the citation part, the e-mail of the citation part of the citation part of the mails sent and received in the past stored in the document storage unit The reference date is determined by extracting the transmission date and time of the citation source e-mail and providing a reference time determination unit 30 instead of the reference time determination unit 16 of the date expression normalizing apparatus shown in FIG. The document storage unit 30 is connected to the reference time determination unit 30. Note that the e-mail input unit 10, the text extraction unit 12, the quoted part extraction unit 14, the date / time expression extraction unit 18, the date / time expression conversion unit 20 and the output unit 22 are the same as the respective components having the same reference numerals in FIG. Is.
[0043]
When the mail information is extracted from the text input from the text extracting unit 12, the quoted part extracting unit 14 in FIG. 7 extracts the quoted part extracted based on the mail information and the quote symbol (see FIG. If the mail information is not included, the quoted portion extracted based on the quote symbol is output. In the case of the electronic mail in FIG. 9, the citation part 2 and the citation part 3 are output as the citation part.
[0044]
The reference time determining unit 30 connected to the cited part extracting unit 14 includes a citation source mail specifying unit 34 and a transmission date and time extracting unit 36, and determines the reference time of each cited part input from the cited part extracting unit 14. The determined reference time is output to the date / time expression conversion unit 20. The document storage unit 32 connected to the reference time determination unit 30 is an electronic document storage device that stores electronic documents, and stores electronic mails that have been sent and received so far. In addition to the e-mail, information indicating which e-mail is cited from each e-mail may be stored. Thereby, it is possible to easily extract the citation electronic mail.
[0045]
The reference time determination unit 30 will be further described. The reference time determination unit 30 is configured such that the first few lines of the quoted portion input from the quoted portion extraction unit 14 are defined in a specific expression format, for example, the type shown in FIG. Check whether it falls under any of 1 to 3 types. If applicable, date and time information is extracted from the quoted portion in the same manner as in the case of the reference time determining unit 16 in FIG. 1, and the transmission date and time indicated by the date and time information is set as the reference time of the quoted portion. However, if it is not applicable, the date / time information cannot be extracted from the quoted portion, so the reference time of the quoted portion is determined by controlling the citation source mail specifying unit 34 and the transmission date / time extracting unit 36.
[0046]
The citation source e-mail specifying unit 34 specifies which of the e-mails stored in the document storage unit 32 the citation part input from the citation part extraction unit 14 corresponds to. Specifically, all e-mails that have a reply or transfer relationship with the e-mail input to the e-mail input unit 10 are extracted from the document storage unit 32 as citation source e-mail candidates. For example, by extracting the message ID in the In-Reply-To field and References field of the header information of the email, and repeating the process of extracting the mail including the message ID in the Message-ID field from the document storage unit 32, Extract all replies and forwarded emails. In addition, you may extract by referring to the other method, for example, the table which memorize | stored the correlation of the mail (for example, Unexamined-Japanese-Patent No. 2002-197037).
[0047]
In addition, the citation source mail specifying unit 34 specifies which of the e-mails extracted from the document storage unit 32 the citation part input from the citation part extraction unit 14 corresponds to. For example, a partial character string obtained by removing the quotation mark from the character string of each line in the quoted part is extracted from the quoted part, and for each extracted partial character string, the partial character string and the e-mail extracted from the document storage unit 32 are extracted. Are sequentially compared by character string matching, and when the character strings match, the e-mail is determined to be the citation e-mail. Blank lines are excluded from matching processing.
[0048]
The transmission date and time extraction unit 36 connected to the citation source email identification unit 34 receives the citation source email specified by the citation source email specification unit 34, extracts the transmission date and time from the citation source email, and transmits it. The date and time are determined as the reference time for the quoted portion. As described above, the reference time determination unit 30 determines the reference time of the citation part based on the date information when the input citation part includes the date information, and the reference part includes the date information. If not, the citation source e-mail is extracted from the document storage unit 32, and the transmission date and time is determined as the reference time of the citation part. The reference time determined by the reference time determination unit 30 is input to the date / time expression conversion unit 20.
[0049]
Note that the e-mail input unit 10, the text extraction unit 12, the quoted part extraction unit 14, the date / time expression extraction unit 18, the date / time expression conversion unit 20 and the output unit 22 are the same as the respective constituent elements having the same reference numerals in FIG. Since it is a thing, description is abbreviate | omitted.
[0050]
The operation of the date / time expression normalization apparatus of FIG. 7 configured as described above will be described below with reference to the flowchart shown in FIG. 8 taking the case where the electronic mail shown in FIG. 9 is input to the electronic mail input unit 10 as an example. explain.
[0051]
The processing from step 200 to step 220 in FIG. 8 is the same as the processing from step 100 to step 120 in FIG. That is, the text extracting unit 12 extracts the text and the transmission date and time from the input electronic mail (step 200), and the quoted part extracting unit 14 extracts the quoted part from the text (steps 210 to 220). In the case of the email in FIG. 9, the first to sixth lines are the header part, the eighth to twelfth lines are the non-quoted text, and the thirteenth to fourteenth lines are the quoting part 1 (quoted at the beginning of the line) The part where the symbol “aaa>” is added), the 15th line to the 18th line are the quotation part 2 (the part where the quotation mark “aaa >>” is added at the beginning of the line), the 19th line to the 22nd line Up to this is the text that is not quoted.
[0052]
The quoted parts (quoted part 1 and quoted part 2) extracted by the cited part extracting unit 14 are input to the reference time determining unit 30, and the processing from step 230 to step 280 is executed. The reference time determination unit 30 first determines whether or not the reference time has been determined for all the citation parts. If there is a citation part for which the reference time has not yet been determined, one is selected and the step of step 240 is performed. The process proceeds to a process of step 290 if the reference time for all the quoted portions has been determined (step 230).
[0053]
In step 240, the expression format of the first few lines in the citation portion selected in step 230 is examined, and the expression format corresponds to a predetermined expression format, for example, any of type 1 to type 3 in FIG. Check whether or not. Then, if applicable, the process proceeds to step 250, and if neither corresponds, the process proceeds to step 260. In the case of the electronic mail shown in FIG. 9, the expression format of the citation part 1 and the citation part 2 does not correspond to any of type 1 to type 3, and therefore the processing of step 260 is executed.
[0054]
When the process proceeds to step 250, the reference time determination unit 30 extracts date and time information, for example, transmission date and time from the quoted portion, determines the transmission date and time as the reference time of the quoted portion, and returns to step 230. However, if the transmission date and time cannot be extracted from the quoted portion, the process proceeds to step 260 (step 250). In the case of the electronic mail shown in FIG. 9, the process proceeds to step 260 at the stage of step 240, so that the process of step 250 is not executed.
[0055]
When the process proceeds to step 260, the citation source mail specifying unit 34 of the reference time determining unit 30 sets all of the emails to be processed and replies and forwarding relationships as candidates for the citation source emails as the document storage unit 32. Extract from In the case of the email shown in Fig. 9, the In-Reply-To field is " Since <A1.aaa@bbb.com ”, an e-mail having this value in the Message-ID field is extracted from the document storage unit 32. For example, the email shown in FIG. 2 corresponds to this. Therefore, the electronic mail in FIG. 9 is a reply mail to the electronic mail in FIG. In addition, the In-Reply-To field of the email shown in FIG. Since <A0.aaa@bbb.com ”, an e-mail having this value in the Message-ID field is extracted from the document storage unit 32. For example, the email shown in FIG. 10 corresponds to this. Therefore, the electronic mail in FIG. 2 is a reply mail to the electronic mail in FIG.
[0056]
It should be noted that if information indicating the reply or transfer relationship of the e-mail is stored in advance in the document storage unit 32, all e-mails having a reply or transfer relationship can be easily retrieved. If you sort the emails extracted in this order from the oldest transmission date,
(1) Mail in Fig. 10 (Sent date: August 2, 2002, 9:28)
(2) Mail shown in Fig. 2 (Sent date: August 3, 2002, 8:11)
It becomes. The citation mail specifying unit 34 temporarily stores the e-mail of FIG. 2 extracted from the document storage unit 32 and the e-mail of FIG. 10 in a built-in memory. The process of step 260 is executed when the first quote part is input, and is omitted when the second and subsequent quote parts are input. The process proceeds from step 260 to step 270.
[0057]
In step 270, the citation source mail specifying unit 34 reads the e-mails of FIGS. 2 and 10 from the memory when the citation part 1 is input, and the citation part 1 is one of the e-mails of FIG. 2 and FIG. Check if it is a quote from In this embodiment, the check is performed in the order of the e-mail in FIG. 10 and the e-mail in FIG. However, quotation marks are excluded from the check target.
[0058]
Comparing the quoted part 1 and the mail of FIG. 10, the first line of the quoted part 1 (the 13th line of FIG. 9) does not match any line of the electronic mail of FIG. However, comparing the quoted portion 1 with the e-mail in FIG. 2, the first line of the quoted portion 1 matches the tenth line in FIG. Therefore, it is determined that the quoted portion 1 is quoted from the electronic mail in FIG. Blank lines are excluded from processing. The citation source e-mail specifying unit 34 outputs the e-mail in FIG. 2 to the transmission date and time extraction unit 36 as the citation source e-mail of the citation part 1.
[0059]
When the citation part 2 is input, the e-mails of FIGS. 2 and 10 are read from the memory, and the citation source e-mail is compared with the e-mails of FIGS. 10 and 2 in the same manner as the citation part 1. Is identified. Comparing the quoted part 2 and the email in FIG. 10, the second line of the quoted part 2 (line 16 in FIG. 9) matches the 10th line of the email in FIG. The 17th line in FIG. 9 corresponds to the 11th line of the e-mail in FIG. Therefore, it is determined that the quoted portion 2 is quoted from the email shown in FIG. 10 without checking the email shown in FIG. The citation source email specifying unit 34 outputs the email shown in FIG. 10 to the transmission date and time extraction unit 36 as the citation source email of the citation part 2. The process proceeds from step 270 to step 280.
[0060]
In step 280, the transmission date / time extraction unit 36 extracts the transmission date / time from the input citation source e-mail, and determines this as the reference time of the citation part. For example, when the citation part 1 e-mail (FIG. 2) is input, the transmission date and time (8:11 on August 3, 2002) is extracted from the e-mail, and this is extracted as the reference time of the citation part 1 And Similarly, when the citation source e-mail (Fig. 10) of the citation part 2 is input, the transmission date and time (August 2, 2002, 9:28) is extracted and determined as the reference time of the citation part 2. To do. From step 280, the process returns to step 230.
[0061]
When the reference times of all the quoted parts are determined by the processing from step 230 to step 280, the process proceeds to step 290. In the processing from step 230 to step 280, processing is divided into a case where the expression format of the first few lines in the quoted portion corresponds to a specific expression format (for example, the expression format shown in FIG. 3) and a case where it does not correspond. However, the processing of Steps 240 and 280 may be omitted, and the processing from Step 260 to Step 280 may be applied to all the cited parts.
[0062]
The processing from step 290 to step 320 is the same as the processing from step 150 to step 180 in FIG. That is, the reference time determination unit 30 extracts the e-mail transmission date and time (August 5, 2002, 18:23) of FIG. 9 and uses this as the reference time of the text excluding the quote part 1 and the quote part 2 (Step 290). FIG. 11 shows the reference time of the citation part 1 of the electronic mail shown in FIG. 9, the reference time of the citation part 2, and the reference time of the text excluding the citation part 1 and the citation part 2, respectively.
[0063]
The date expression extraction unit 18 extracts the date expression from the text from the text extraction unit 12 and outputs it to the date expression conversion unit 20 (step 300). If the date and time expression input from the date and time expression extraction unit 18 is a relative expression or an omitted expression, the date and time expression conversion unit 20 converts it into an absolute expression (step 310). As a result, “Yesterday” on line 10 in FIG. 9 is converted to “August 3, 2002” based on the reference time “August 5, 2002 18:23” in the main text. "14:00" is converted to "August 3, 2002 14:00" based on the reference time of the quoted part 1 "August 3, 2002 8:11", and "Tomorrow 13 : 00 "and" Today "on the 17th line are" August 3, 2002 13:00 "and" 2002 "based on the reference time of the quoted part 2" August 2, 2002 9:28 "respectively. August 2 ”.
[0064]
As described above, according to the embodiment of FIG. 7, when the date and time information that can specify the transmission date and time is not included in the quoted portion of the email, the quote is obtained from the document storage unit that stores the email sent and received in the past. Since the original e-mail is extracted and the transmission date and time of the e-mail is specified, even if the date and time information is not included in the quoted part, the relative date and time The abbreviated expression can be converted to an absolute expression.
[0065]
【The invention's effect】
As described above, according to the date and time expression normalization apparatus according to the present invention, the date and time information included in the quoted part of the e-mail is extracted, and the transmission date and time indicated by this date and time information is used as the reference time of the quoted part. Relative expressions and omitted expressions included in can be converted into absolute expressions.
[0066]
In addition, since the e-mail sent and received in the past by the document storage means is stored, the e-mail of the citation source is extracted from the document storage means, and the transmission date and time of the citation e-mail is used as the reference time of the citation part. Even when the date and time information that can specify the transmission date and time is not included in the quoted part of the email, the relative expression or omitted expression included in the quoted part can be converted into an absolute expression.
[Brief description of the drawings]
FIG. 1 is a block diagram showing an embodiment of a date expression normalizing apparatus according to the present invention.
FIG. 2 is a diagram illustrating an example of electronic mail.
FIG. 3 is a diagram illustrating a representation example of mail information described at the head of a quoted portion when a mailer cites another electronic mail.
FIG. 4 is a flowchart showing the operation of the date / time expression normalization apparatus shown in FIG. 1;
FIG. 5 is a diagram showing a reference time of the electronic mail shown in FIG.
FIG. 6 is a flowchart showing details of a date / time expression conversion process (step 170) in the flowchart shown in FIG. 4;
FIG. 7 is a block diagram showing another embodiment of a date expression normalizing apparatus according to the present invention.
FIG. 8 is a flowchart showing the operation of the date / time expression normalization apparatus shown in FIG. 7;
9 is a diagram showing an example of a reply mail to the electronic mail shown in FIG.
FIG. 10 is a diagram showing another example of electronic mail.
11 is a diagram showing a reference time of the electronic mail shown in FIG. 9;
[Explanation of symbols]
10 Email input section
12 Text extractor
14 Quoted part extractor
16, 30 Reference time determination section
18 Date and time expression extractor
20 Date / time expression converter
22 Output section
32 Document storage

Claims (4)

電子メールをヘッダ部分と本文とに分割し、ヘッダ部分から送信日時を抽出して本文と送信日時とを出力する本文抽出手段と、
該本文抽出手段から出力される本文から、他の電子メールから引用された引用部分を抽出する引用部分抽出手段と、
該引用部分抽出手段により抽出された引用部分から日時情報を抽出し、該日時情報が示す送信日時を引用部分の基準時刻とし、前記本文抽出手段から出力される送信日時を引用部分以外の部分の基準時刻とする基準時刻決定手段と、
前記本文抽出手段から出力される本文から日時表現を抽出する日時表現抽出手段と、
該日時表現抽出手段により抽出された日時表現を前記基準時刻決定手段により決定された基準時刻に基づいて絶対的な表現に変換する日時表現変換手段とを含む日時表現正規化装置において、
前記基準時刻決定手段は、過去に送受信された電子メールを格納した文書記憶手段を備え、前記引用部分抽出手段により抽出された引用部分に日時情報が含まれる場合には、該日時情報が示す送信日時を引用部分の基準時刻とし、引用部分に日時情報が含まれない場合には、引用部分の引用元電子メールを前記文書記憶手段から抽出して該引用元電子メールの送信日時を引用部分の基準時刻とすることを特徴とする日時表現正規化装置。
A text extraction unit that divides an email into a header part and a text, extracts a transmission date and time from the header part, and outputs the text and the transmission date and time;
A quoted part extracting means for extracting a quoted part quoted from another e-mail from the text output from the text extracting means;
Extract date and time information from the quoted part extracted by the quoted part extracting means, use the transmission date and time indicated by the date and time information as the reference time of the quoted part, and set the transmission date and time output from the text extracting means to the part other than the quoted part. A reference time determination means as a reference time;
Date and time expression extracting means for extracting a date and time expression from the text output from the text extracting means;
In a date and time expression normalization device including date and time expression conversion means for converting the date and time expression extracted by the date and time expression extraction means into an absolute expression based on the reference time determined by the reference time determination means ,
The reference time determination unit includes a document storage unit that stores e-mails transmitted and received in the past, and when date and time information is included in the quoted part extracted by the quoted part extraction unit, a transmission indicated by the date and time information When the date and time is set as the reference time of the quoted portion and the date and time information is not included in the quoted portion, the quoted source email is extracted from the document storage means, and the transmission date and time of the quoted source email is set as the quoted portion. A date and time expression normalizing apparatus characterized by being a reference time.
請求項1に記載の装置において、前記引用部分抽出手段により抽出された引用部分に日時情報が含まれる場合であって、前記基準時刻決定手段は、引用部分の先頭に記載された日時情報を抽出して該日時情報が示す送信日時を引用部分の基準時刻とすることを特徴とする日時表現正規化装置。2. The apparatus according to claim 1, wherein date and time information is included in the quoted part extracted by the quoted part extracting unit, and the reference time determining unit extracts the date and time information described at the head of the quoted part. Then, the date and time expression normalization apparatus characterized in that the transmission date and time indicated by the date and time information is used as the reference time of the quoted portion. 請求項1または2に記載の装置において、前記日時表現抽出手段は、前記本文抽出手段により電子メールから分割された本文および該電子メールから分割されたヘッダ部分のサブジェクトから日時表現を抽出することを特徴とする日時表現正規化装置。  3. The apparatus according to claim 1, wherein the date and time expression extracting unit extracts a date and time expression from a subject divided from an e-mail and a header part divided from the e-mail by the body extracting unit. Feature date and time expression normalization device. 電子メールをヘッダ部分と本文とに分割し、ヘッダ部分から送信日時を抽出する本文抽出工程と、
該本文抽出工程で電子メールから分割された本文から、他の電子メールから引用された引用部分を抽出する引用部分抽出工程と、
該引用部分抽出工程で抽出された引用部分から日時情報を抽出し、該日時情報が示す送信日時を引用部分の基準時刻とし、前記本文抽出工程で抽出された送信日時を引用部分以外の部分の基準時刻とする基準時刻決定工程と、
前記本文抽出工程で電子メールから分割された本文から、日時表現を抽出する日時表現抽出工程と、
該日時表現抽出工程で抽出された日時表現を前記基準時刻決定工程で決定された基準時刻に基づいて絶対的な表現に変換する日時表現変換工程とを含む日時表現正規化方法において、
前記基準時刻決定工程は、過去に送受信された電子メールを格納した文書記憶工程を備え、前記引用部分抽出工程により抽出された引用部分に日時情報が含まれる場合には、該日時情報が示す送信日時を引用部分の基準時刻とし、引用部分に日時情報が含まれない場合には、引用部分の引用元電子メールを前記文書記憶工程から抽出して該引用元電子メールの送信日時を引用部分の基準時刻とすることを特徴とする日時表現正規化方法。
A text extraction step of dividing an email into a header part and a body, and extracting a transmission date and time from the header part;
A quoted part extracting step for extracting a quoted part quoted from another email from the text divided from the email in the text extracting step;
Extract date and time information from the quote part extracted in the quote part extraction step, use the transmission date and time indicated by the date and time information as the reference time of the quote part, and set the transmission date and time extracted in the text extraction step A reference time determination step as a reference time;
A date and time expression extraction step of extracting a date and time expression from the text divided from the email in the text extraction step;
In a date and time expression normalization method including a date and time expression conversion step of converting the date and time expression extracted in the date and time expression extraction step into an absolute expression based on the reference time determined in the reference time determination step ,
The reference time determination step includes a document storage step that stores e-mails transmitted and received in the past, and when date and time information is included in the quoted portion extracted by the quoted portion extraction step, transmission indicated by the date and time information When the date and time is set as the reference time of the quoted portion and the date and time information is not included in the quoted portion, the quoted source email is extracted from the document storage step and the transmission date and time of the quoted source email is set as the quoted portion of the quoted portion. A date and time expression normalizing method, characterized in that a reference time is set.
JP2003097974A 2003-04-01 2003-04-01 Datetime expression normalization apparatus and method Expired - Fee Related JP4193549B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003097974A JP4193549B2 (en) 2003-04-01 2003-04-01 Datetime expression normalization apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003097974A JP4193549B2 (en) 2003-04-01 2003-04-01 Datetime expression normalization apparatus and method

Publications (2)

Publication Number Publication Date
JP2004303141A JP2004303141A (en) 2004-10-28
JP4193549B2 true JP4193549B2 (en) 2008-12-10

Family

ID=33409623

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003097974A Expired - Fee Related JP4193549B2 (en) 2003-04-01 2003-04-01 Datetime expression normalization apparatus and method

Country Status (1)

Country Link
JP (1) JP4193549B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5119693B2 (en) * 2007-03-19 2013-01-16 日本電気株式会社 Document reference relation extraction system, expression unification system, document transmission evaluation system, method and program
JP4920471B2 (en) * 2007-03-29 2012-04-18 三菱スペース・ソフトウエア株式会社 Mail data classification device, mail data classification program, and mail data classification method
JP5199449B2 (en) * 2011-12-14 2013-05-15 三菱スペース・ソフトウエア株式会社 Mail data classification device, mail data classification program, and mail data classification method
JP6507682B2 (en) * 2015-01-30 2019-05-08 富士通株式会社 Encoding program, encoding method and encoding apparatus
JP7098502B2 (en) * 2018-10-16 2022-07-11 株式会社東芝 Reporting equipment, methods, and programs

Also Published As

Publication number Publication date
JP2004303141A (en) 2004-10-28

Similar Documents

Publication Publication Date Title
US7245765B2 (en) Method and apparatus for capturing paper-based information on a mobile computing device
US7257637B2 (en) Method for transforming data between business protocols
EP2378476A1 (en) Method for calculating entity similarities
CN111508479B (en) Voice recognition method, device, equipment and storage medium
US20130179166A1 (en) Voice conversion device, portable telephone terminal, voice conversion method, and record medium
EP2682881A2 (en) Document Processing Apparatus, Image Processing Apparatus, Document Processing Method, and Medium
JP2003050795A (en) System for displaying time information
JP4193549B2 (en) Datetime expression normalization apparatus and method
CN112084748A (en) Text comparison method
CN110737629A (en) method and system for archiving electronic files
US7505903B2 (en) Speech recognition dictionary creation method and speech recognition dictionary creating device
US20160241502A1 (en) Method for Generating an Electronic Message on an Electronic Mail Client System, Computer Program Product for Executing the Method, Computer Readable Medium Having Code Stored Thereon that Defines the Method, and a Communications Device
CN117171331A (en) Professional field information interaction method, device and equipment based on large language model
JP3628160B2 (en) Date / time expression normalization device and recording medium recording date / time expression normalization program
JP2007219646A (en) Mail printing system and computer program
JP4872285B2 (en) Document management apparatus, document management system, and document management method
CN109643306B (en) Semiconductor element searching method using algorithm for removing last letter
JP2021086400A (en) Information processing device, instruction statement data producing method and program
KR101678773B1 (en) Apparatus and Method for Editing Email
JP4947843B2 (en) Translation apparatus, translation method, recording medium recording program, and program
US7984077B2 (en) Data management system, data registration device, data retrieval device, data management method and program
JPH11272442A (en) Speech synthesizer and medium stored with program
JP2006018698A (en) Electronic mail content address-based automatic conversion system
JP2003006190A (en) Device, method and program for preparing dictionary, device, method and program for automatic translation, computer-readable recording medium with dictionary preparation program recorded thereon, computer readable recording medium with automatic translation program recorded thereon and preparation of translation sentence
JP2005215772A (en) Character string recognition device, program therefor, computer-readable recording medium recording the program, image reader, dictionary information transmitting device, program therefor, and computer-readable recording medium with the program recorded thereon

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060203

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080521

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080610

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080811

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080902

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080915

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111003

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111003

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111003

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees