JP3628160B2 - Date / time expression normalization device and recording medium recording date / time expression normalization program - Google Patents
Date / time expression normalization device and recording medium recording date / time expression normalization program Download PDFInfo
- Publication number
- JP3628160B2 JP3628160B2 JP30475697A JP30475697A JP3628160B2 JP 3628160 B2 JP3628160 B2 JP 3628160B2 JP 30475697 A JP30475697 A JP 30475697A JP 30475697 A JP30475697 A JP 30475697A JP 3628160 B2 JP3628160 B2 JP 3628160B2
- Authority
- JP
- Japan
- Prior art keywords
- date
- time
- expression
- information
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
本発明は、電子メールやファクシミリ等の各種メッセージ(電子メッセージ)の文書中に記述された日時表現を正規化する技術に係り、詳しくは、相対的な日時表現から絶対的な日時表現に変換したり、不完全な日時表現から完全な日時表現へ補完したりする、日時情報の正規化装置及びその日時表現正規化プログラムを記録した記録媒体に関する。
【0002】
【従来の技術】
従来技術では、電子メールやファクシミリ等の電子メッセージの文書中から、形態素解析やパターンマッチングによって、数字や記号、「月」、「日」等の特定の文字列のみを検出することにより、日時表現を抽出していた。
【0003】
【発明が解決しようとする課題】
すべての文書に日時表現が絶対的かつ完全な形式で記述されているわけではない。特に公式でない文書には、相対的な表現や一部の情報を省略した日時表現が多く用いられる。そのような文書に対して、日時情報の自動抽出を行う場合、文書中の数字や記号、特定の文字列のみでの日時表現の抽出では、絶対的かつ完全な日時情報を得ることはできず、文書が伝達する正確な日時情報を特定することが難しい。
【0004】
本発明は、上記の点に鑑みなされたもので、電子メールやファクシミリのメッセージ(電子メッセージ)の文書中に記述された任意の日時表現から絶対的かつ完全な日時情報を抽出することを目的とする。
【0005】
【課題を解決するための手段】
本発明の日時表現正規化装置は、電子メッセージからヘッダ情報と文書情報を分離する手段と、前記文書情報中の任意に表現された日時表現を抽出する手段と、前記ヘッダ情報に付加されているメッセージ送信時の日時情報を抽出する手段と、前記文書情報中の日時表現を、前記メッセージ送信時の日時情報を参照して、絶対的な年月日と時刻によるかつ完全な形式の日時表現に正規化する手段とを有することを特徴とする。
【0006】
一実施形態では、正規化手段は、日時表現中の日付表現が相対的な表現の場合には、メッセージ送信時の日時情報を参照して絶対的な日付表現に変換し、日時表現中の日付表現が絶対的な表現でも、省略があり不完全な場合には、前記メッセージ送信時の日時情報の日付を参照して該不完全な部分を補完する。また、日時表現に日付表現がなく、時刻表現がある場合には、メッセージ送信時の日時情報の日付を参照して補完し、時刻表現が不完全な場合には、24時間制の絶対的な表現に補完する。
【0007】
本発明の電子メッセージの文書中に記述されている任意の日時表現を正規化するための日時表現正規化プログラムを記録したコンピュータ読み取り可能な記録媒体は、コンピュータが、文書中に記述されている日時表現を日付表現と時刻表現に分割する処理プロセス、日付表現が相対的な表現の場合、文書に付加されているヘッダ情報の当該文書の送信時の日時情報を参照して、絶対的な日付表現に変換する処理プロセス、日付表現が絶対的な表現でも、省略があり不完全な場合、前記ヘッダ情報の当該文書送信時の日時情報の日付を参照して該不完全部分を補完する処理プロセス、日付表現がなく、時刻表現がある場合、前記ヘッダ情報の当該文書送信時の日時情報の日付を参照して補完する処理プロセス、時刻表現が不完全な場合、24時間制の絶対的な表現に補完する処理プロセスを実行するための日時表現正規化プログラムを記録していることを特徴とする。
【0008】
【発明の実施の形態】
以下、本発明の実施の形態を図面により説明する。
図1は本発明の実施の形態を示す全体の構成図であり、パソコン等の所謂コンピュータ上に構築される。図1において、文書入力部10は電子メールやファクシミリ等のメッセージ(電子メッセージ)を入力する。文書区分部20は該入力メッセージからヘッダ情報と文書情報(文書本文)を分離し抽出する。電子メールやファクシミリ、その他、送受信メッセージにおいては、ヘッダやデータの位置があらかじめ定められているため、これらの位置を基準にしてヘッダ情報と文書情報(文書本文)を分離・抽出することは容易である。日時表現抽出部30は、文書区分部20から文書本文を受け取り、従来と同様の文章解析等を行って、該文書本文に含まれている日時表現を抽出する。ヘッダ情報参照部40は、文書区分部20からヘッダ情報を受け取り、該ヘッダ情報に含まれているメッセージ送信時の日時情報を得る。日時表現正規化部50は、日時表現抽出部30によって文書本文から抽出された日時表現と、ヘッダ参照部40によって得られた当該文書が送信された時刻の日時情報とを照合し、日付変換テーブル60の日付変換規則に従って、文書本文中に記述された日時表現から絶対的かつ完全な形式に正規化された日時表現を得る。該正規化された日時情報は日時情報蓄積部70に蓄積し、文書の修正等に利用する。
【0009】
次に、図2、図3により日時表現正規化部50の処理を詳述する。図2は日時表現正規化部50の処理フローの一例、図3は日付変換テーブル60の一例である。
【0010】
日時表現正規化部50は、日時表現抽出部30によって抽出された日時表現を日付表現と時刻表現に分割し(ステップ101)、日付表現があるかどうか判定する(ステップ102)。日付表現がある場合、該日付表現が相対的な表現かどうかを判定し(ステップ103)、相対的な表現であれば、ヘッダ情報参照部40によって得られた当該文書の送信時の日時情報を参照し、図3に示すような日付変換テーブル60を用いることよって絶対的な日付表現に変換する(ステップ104)。例えば、日時表現抽出部30によって得られた日時表現が「今日」、「本日」、「明日」、「今週の土曜日」等の相対的な日時表現の場合、ヘッダ情報参照部40によりメッセージが送信された日時が1997年10月1日10:00であった場合、図3の日時変換テーブル60を用いて、それぞれ10/1/1997,10/1/1997,10/2/1997,10/4/1997のように、絶対的な日時表現に変換する。
【0011】
抽出された日付表現が絶対的な表現であっても、省略があり不完全な場合、ヘッダ情報参照部40により得られた情報で補完する(ステップ105,106)。ここで、年月がない場合は、ヘッダ情報参照部40により得られた年月の情報を補完し、年がない場合は、ヘッダ情報参照部40により得られた年の情報を補完する。例えば、日時表現抽出部30によって得られた日時表現が「3日」等の日の情報しか得られない場合、へッダ情報参照部40で得られたメッセージの送信された日時を参照することによって、例えば、送信された日時が1997年10月1日 10:00であった場合、その年月を補完して、10/3/1997のように絶対的な表現に変換する。
【0012】
一方、日付表現がなく、時刻表現がある場合は、ヘッダ情報参照部40により得られた年月日の情報を補完する(ステップ107)。また、時刻表現が時のみで分がない場合は、00分を補完する(ステップ108,109)。時に「午後」が付随している場合は、抽出された時に12時間足しで24時間制に変換し(ステップ110,111)、それ以外の場合はそのままの時を採用する。例えば、日時表現抽出部30によって得られた日時表現が「午後5時」等の時刻情報しか得られない場合、ヘッダ情報参照部40で得られたメッセージの送信された日時を参照することによって、例えば、送信された日時が1997年10月1日 10:00であった場合、10/1/1997 17:00のように絶対的な表現に補完し、24時間制に変換する。
【0013】
図4に、電子メールの具体例を示す。この例の場合、文書本文中の日時表現「明日11時」が、ヘッダ情報中のメッセージ送信時の日時情報「18 Sep 1996 15:41:41」を参照することによって、「9/19/1996 11:00」の絶対的な表現に変換される。
【0014】
以上、本発明の一実施例を説明したが、図2の日時表現正規化処理フローは、日時表現正規化プログラムとして、FDもしくはCD−ROM等の記録媒体にコンピュータで読み取り可能な形式で記録し、ソフトウェア記録媒体単体として販売してもよい。
【0015】
【発明の効果】
以上のように、本発明によれば、電子メールやファクシミリ等によって日時表現を含んだ文書を受信する場合、ヘッダ情報に付加されている送信時の日時情報を参照することによって、文書中の任意の日時表現から絶対的かつ完全な正規化された日時情報を得ることが可能になる。
【図面の簡単な説明】
【図1】本発明の実施の形態を示す全体の構成図である。
【図2】図1の日時表現正規化部における処理フローの一例を示す図である。
【図3】図1の日付変換テーブルの一例を示す図である。
【図4】電子メールの具体例を示す図である。
【符号の説明】
10 文書入力部
20 文書区分部
30 日時表現抽出部
40 ヘッダ情報参照部
50 日時表現正規化部
60 日付変換テーブル
70 日時情報蓄積部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a technique for normalizing date and time expressions described in documents of various messages (electronic messages) such as e-mails and facsimiles. Specifically, the present invention converts relative date and time expressions into absolute date and time expressions. The present invention also relates to a date / time information normalization device that complements an incomplete date / time expression into a complete date / time expression and a recording medium recording the date / time expression normalization program.
[0002]
[Prior art]
In the prior art, date and time expression is obtained by detecting only specific character strings such as numbers, symbols, “month” and “day” from morphological analysis and pattern matching in electronic message documents such as e-mail and facsimile. Was extracted .
[0003]
[Problems to be solved by the invention]
Not all documents contain date and time expressions in absolute and complete form. Especially for non-official documents, date and time expressions in which relative expressions and some information are omitted are often used. When automatic date / time information extraction is performed for such a document, it is not possible to obtain absolute and complete date / time information by extracting the date / time expression using only numbers, symbols, and specific character strings in the document. It is difficult to specify the exact date and time information that the document conveys.
[0004]
The present invention has been made in view of the above points, and an object of the present invention is to extract absolute and complete date / time information from any date / time expression described in a document of an e-mail or facsimile message (electronic message). To do.
[0005]
[Means for Solving the Problems]
The date and time expression normalization apparatus of the present invention is attached to the header information, means for separating header information and document information from an electronic message, means for extracting an arbitrarily expressed date expression in the document information, and the header information. Means for extracting date and time information at the time of message transmission, and date and time expression in the document information, with reference to the date and time information at the time of message transmission, to a date and time expression in an absolute date and time and in a complete format And means for normalizing.
[0006]
In one embodiment, when the date expression in the date and time expression is a relative expression, the normalizing means refers to the date and time information at the time of message transmission and converts it to an absolute date expression, and the date in the date and time expression Even if the expression is an absolute expression, if it is omitted and is incomplete, the incomplete part is complemented by referring to the date of the date / time information at the time of message transmission. In addition, if there is no date expression in the date and time expression and there is a time expression, it is supplemented by referring to the date of the date and time information at the time of message transmission. If the time expression is incomplete, it is a 24-hour absolute Complement the expression.
[0007]
Computer readable recording medium recording a date expression normalization program for normalizing any date expression that are described in documents of the electronic messages present invention, a computer has been described in the document date Processing process that divides the expression into date expression and time expression . If the date expression is a relative expression, refer to the date and time information at the time of transmission of the document of the header information added to the document, and an absolute date expression A processing process for converting to date, and even if the date expression is an absolute expression, if there is omission and is incomplete, a process for referring to the date of the date and time information at the time of document transmission of the header information and complementing the incomplete part , no date expression, if there is a time representation, the treatment process to supplement with reference to the date of the date and time information at the time of the document transmission of the header information, time when expression is incomplete, 24 Characterized in that it records a date expression normalization program for executing a treatment process that complements the absolute expression of tense.
[0008]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is an overall configuration diagram showing an embodiment of the present invention, which is constructed on a so-called computer such as a personal computer. In FIG. 1, a
[0009]
Next, the processing of the date
[0010]
The date / time
[0011]
Even if the extracted date expression is an absolute expression, if the extracted date expression is incomplete and incomplete, it is complemented with information obtained by the header information reference unit 40 (
[0012]
On the other hand, if there is no date expression and there is a time expression, the date information obtained by the header information reference unit 40 is supplemented (step 107). If the time expression is only the hour and there is no minute, the 00 minute is complemented (
[0013]
FIG. 4 shows a specific example of electronic mail. In this example, the date and time expression “Tomorrow 11:00” in the text of the document refers to the date and time information “18 Sep 1996 15:41:41” at the time of message transmission in the header information, thereby “9/19/1996”. It is converted into an absolute expression of “11:00”.
[0014]
Although the embodiment of the present invention has been described above, the date expression normalization processing flow in FIG. 2 is recorded as a date expression normalization program in a computer-readable format on a recording medium such as an FD or a CD-ROM. The software recording medium may be sold as a single unit.
[0015]
【The invention's effect】
As described above, according to the present invention, when a document including a date and time expression is received by e-mail, facsimile, or the like, by referring to the date and time information at the time of transmission added to the header information, an arbitrary It is possible to obtain absolute and complete normalized date information from the date expression.
[Brief description of the drawings]
FIG. 1 is an overall configuration diagram showing an embodiment of the present invention.
FIG. 2 is a diagram illustrating an example of a processing flow in a date / time expression normalization unit in FIG. 1;
FIG. 3 is a diagram illustrating an example of a date conversion table in FIG. 1;
FIG. 4 is a diagram showing a specific example of electronic mail.
[Explanation of symbols]
DESCRIPTION OF
Claims (4)
電子メッセージからヘッダ情報と文書情報を分離する手段と、Means for separating header information and document information from an electronic message;
前記文書情報中の任意に表現された日時表現を抽出する手段と、Means for extracting an arbitrarily expressed date expression in the document information;
前記ヘッダ情報に付加されているメッセージ送信時の日時情報を抽出する手段と、Means for extracting date and time information at the time of message transmission added to the header information;
前記文書情報中の任意に表現された日時表現を、前記メッセージ送信時の日時情報を参照して、絶対的な年月日と時刻による完全な形式の日時表現に正規化する手段(以下、正規化手段)と、Means for normalizing the arbitrarily expressed date / time expression in the document information with reference to the date / time information at the time of message transmission into a complete date / time expression with absolute date and time (hereinafter referred to as normal ) And
を有することを特徴とする日時表現正規化装置。A date and time expression normalizing apparatus characterized by comprising:
文書中に記述されている日時表現を日付表現と時刻表現に分割する処理プロセス、A process that divides the date and time expressions described in the document into date and time expressions;
日付表現が相対的な表現の場合、文書に付加されているヘッダ情報の当該文書の送信時の日時情報を参照して、絶対的な日付表現に変換する処理プロセス、If the date expression is a relative expression, refer to the date and time information at the time of transmission of the document in the header information added to the document, and the process to convert it to an absolute date expression,
日付表現が絶対的な表現でも、省略があり不完全な場合、前記ヘッダ情報の当該文書送信時の日時情報の日付を参照して該不完全部分を補完する処理プロセス、Even if the date expression is an absolute expression, if there is omission and is incomplete, a processing process for complementing the incomplete part with reference to the date of the date and time information at the time of document transmission of the header information,
日付表現がなく、時刻表現がある場合、前記ヘッダ情報の当該文書送信時の日時情報の日付を参照して補完する処理プロセス、When there is no date expression and there is a time expression, a processing process for referring to the date of the date and time information at the time of document transmission of the header information and complementing the process,
時刻表現が不完全な場合、24時間制の絶対的な表現に補完する処理プロセス、If the time representation is incomplete, a process that complements the absolute representation of the 24-hour system,
をコンピュータが実行するための日時表現正規化プログラムを記録した記録媒体。A recording medium on which is recorded a date expression normalization program for the computer to execute.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP30475697A JP3628160B2 (en) | 1997-11-06 | 1997-11-06 | Date / time expression normalization device and recording medium recording date / time expression normalization program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP30475697A JP3628160B2 (en) | 1997-11-06 | 1997-11-06 | Date / time expression normalization device and recording medium recording date / time expression normalization program |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11143864A JPH11143864A (en) | 1999-05-28 |
JP3628160B2 true JP3628160B2 (en) | 2005-03-09 |
Family
ID=17936858
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP30475697A Expired - Fee Related JP3628160B2 (en) | 1997-11-06 | 1997-11-06 | Date / time expression normalization device and recording medium recording date / time expression normalization program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3628160B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9419649B1 (en) | 2015-01-30 | 2016-08-16 | Fujitsu Limited | Encoding method and encoding device |
US11526657B2 (en) * | 2020-12-25 | 2022-12-13 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for error correction of numerical contents in text, and storage medium |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003032390A (en) * | 2001-05-07 | 2003-01-31 | Katsutoshi Kitamura | Information-providing method |
JP2003050795A (en) * | 2001-08-06 | 2003-02-21 | Hitachi Ltd | System for displaying time information |
JP5245873B2 (en) * | 2009-02-02 | 2013-07-24 | 日本電気株式会社 | Date / time expression conversion device, electronic mail device, mail server, control method thereof, and program |
JP5838148B2 (en) * | 2012-11-16 | 2015-12-24 | 京セラドキュメントソリューションズ株式会社 | Display device and image forming apparatus having the same |
CN107729314B (en) * | 2017-09-29 | 2021-10-26 | 东软集团股份有限公司 | Chinese time identification method and device, storage medium and program product |
-
1997
- 1997-11-06 JP JP30475697A patent/JP3628160B2/en not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9419649B1 (en) | 2015-01-30 | 2016-08-16 | Fujitsu Limited | Encoding method and encoding device |
US11526657B2 (en) * | 2020-12-25 | 2022-12-13 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for error correction of numerical contents in text, and storage medium |
Also Published As
Publication number | Publication date |
---|---|
JPH11143864A (en) | 1999-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7245765B2 (en) | Method and apparatus for capturing paper-based information on a mobile computing device | |
US7860892B2 (en) | Information processing apparatus, history file generation method and program | |
US20080140698A1 (en) | System and method for creating xml files from an edited document | |
US7088859B1 (en) | Apparatus for processing machine-readable code printed on print medium together with human-readable information | |
JP2008527937A (en) | Method and apparatus for adding signature information to an electronic document | |
JPH1115755A (en) | Facsimile type electronic mail device | |
JP2006092027A (en) | Capital letter recognizing device, capital letter recognizing method and capital letter recognizing program | |
JP3628160B2 (en) | Date / time expression normalization device and recording medium recording date / time expression normalization program | |
WO2005057362A3 (en) | Systems and methods for data interchange among autonomous processing entities | |
JP2003050795A (en) | System for displaying time information | |
CN101236559A (en) | Document management apparatus and document management method | |
US20040202367A1 (en) | Systems and methods for automated template creation using scanned input | |
JP7379987B2 (en) | Information processing device and program | |
US8108351B2 (en) | File time stamping management apparatus, method, and program | |
EP1337104A3 (en) | Method, apparatus, and program for image processing | |
EP1202213A3 (en) | Document format identification apparatus and method | |
US20030133550A1 (en) | Incoming facsimile routing using text and image analysis | |
US20100182653A1 (en) | Electronic document update based on handwritten edits | |
JP2012049860A (en) | Image processor, image processing method and program | |
JP2004112524A (en) | Image information accumulating device, method therefor, and document output device | |
JP2004303141A (en) | Time and date expression normalizing device and method | |
US7446896B2 (en) | Method and apparatus for printing information on a page containing preprinted objects | |
Ball | Beyond data about data: The litigator’s guide to metadata | |
JPH11232304A (en) | Device for judging contents of sentence and electronic mail device using the judging device | |
CN107145530A (en) | A kind of document retrieval method and system based on additional data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040309 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040506 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20041207 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20041207 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071217 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081217 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091217 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101217 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101217 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111217 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111217 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121217 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121217 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131217 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |