JPH09244969A - パーソナル情報抽出方法及び装置 - Google Patents

パーソナル情報抽出方法及び装置

Info

Publication number
JPH09244969A
JPH09244969A JP8047789A JP4778996A JPH09244969A JP H09244969 A JPH09244969 A JP H09244969A JP 8047789 A JP8047789 A JP 8047789A JP 4778996 A JP4778996 A JP 4778996A JP H09244969 A JPH09244969 A JP H09244969A
Authority
JP
Japan
Prior art keywords
personal information
signature
header
extracting
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8047789A
Other languages
English (en)
Inventor
Hisako Asano
久子 浅野
Yoshiji Oyama
芳史 大山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP8047789A priority Critical patent/JPH09244969A/ja
Publication of JPH09244969A publication Critical patent/JPH09244969A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)

Abstract

(57)【要約】 【課題】 インターネット上の電子メールを対象に、ヘ
ッダ部とシグネイチャを自動的に検出し、検出したヘッ
ダ部、シグネイチャ部からパーソナル情報の自動抽出を
行うことが可能なパーソナル情報抽出方法及び装置を提
供することである。 【解決手段】 本発明のパーソナル情報抽出方法は、電
子メールデータから、該電子メールデータが持つべきフ
ォーマットを用いて、ヘッダ部及びシグネチャ部を判別
し、それらが、空でない場合には、該ヘッダ部及びシグ
ネチャ部に存在する少なくとも1つのパーソナル情報、
各パーソナル情報を構成すべき文字または文字列の種
別、または、複数の文字または、文字列同士の並び方の
特徴を利用してパーソナル情報を抽出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、パーソナル情報抽
出方法及び装置に係り、特に、電子メールからパーソナ
ル情報を抽出し、住所録等の作成支援を行うためのパー
ソナル情報抽出方法及び装置に関する。
【0002】
【従来の技術】従来、新聞記事等のプレインテキスト等
から、製品名、発売元等の属性値を抽出する内容抽出方
法が提案されている(松尾、木本:「抽出パターンの階
層的照合に基づく日本語テキストからの内容抽出方法」
情報処理学会論文誌,Vol.36,No.8, 1995)。
【0003】
【発明が解決しようとする課題】従来の内容抽出方法
は、抽出対象が定型的な文中に含まれている場合に、そ
の文字の助詞や述語の情報を利用して抽出を行うことが
できるが、対象テキストが新聞記事等の提携的な文章に
限定されており、外枠等の飾り用の文字が多用され、抽
出すべき内容(パーソナル情報)もデザイン的に配置さ
れる文字列となるシグネチャには適用できないという問
題がある。
【0004】本発明は、上記の点に鑑みなされたもの
で、インターネット上の電子メールを対象に、ヘッダ部
とシグネチャを自動的に検出し、検出したヘッダ部、シ
グネチャ部からの姓名、住所、電話番号、電子メールア
ドレス等のパーソナル情報の自動抽出を行うことが可能
なパーソナル情報抽出方法及び装置を提供することを目
的とする。
【0005】
【課題を解決するための手段】図1は、本発明の原理を
説明するための図である。本発明のパーソナル情報抽出
方法は、電子メールデータから、該電子メールデータが
持つべきフォーマットを用いて、ヘッダ部及びシグネチ
ャ部を判別し(ステップ1)、ヘッダ部及びシグネチャ
部が空でない場合には(ステップ2、Yes)、該ヘッ
ダ部及びシグネチャ部に存在する姓名、所属名、メール
アドレスに代表される少なくとも1つのパーソナル情報
を構成すべき文字または文字列の種別、または、複数の
文字または、文字列同士の並び方の特徴を利用してパー
ソナル情報を抽出する(ステップ3)。
【0006】本発明は、ステップ2において、パーソナ
ル情報を抽出する際に、電子メールデータの末尾の空
行、及び行末の空き文字を排除し、内容伝達の目的以外
に用いられる特定の文字、文字列及び行、または、該デ
ータベースのデータ中の空き行、句読点、引用記号、区
切り記号の配列状態を検索する。
【0007】また、本発明は、電子メールデータから、
該電子メールデータが持つべきフォーマットを用いて、
ヘッダ部及びシグネチャ部を判別し、ヘッダ部及びシグ
ネチャ部が空でない場合には、該ヘッダ部及びシグネチ
ャ部にある姓名、所属名、メールアドレスに代表される
少なくとも1つのパーソナル情報を、シグネチャを構成
し得る文字記号、または、該文字記号の特定の配列情報
を抽出することにより、該シグネチャの内容部分を同定
し、各パーソナル情報の属性に対応した属性値を格納し
た属性値辞書を参照して、該各パーソナル情報の属性に
対応するヘッダ部のフィールド及びシグネチャ部から、
それぞれの属性値を抽出し、抽出した属性値の存在を、
同定したシグネチャ内容部分から探すことによって取得
する。
【0008】また、本発明は、パーソナル情報の抽出に
おける属性を抽出する際に、属性値抽出の処理単位を、
一定エリア毎に区切り、各パーソナル情報を構成し得る
それぞれの語句の辞書を参照する。図2は、本発明の原
理構成図である。
【0009】本発明のパーソナル情報抽出装置は、電子
メールを入力する入力手段1と、入力手段から取得した
電子メールデータのうち、所定のデータフォーマットに
従って、ヘッダ及び電子メールの送信者の署名であるシ
グネチャとを抽出するヘッダ/シグネチャ検出手段2
と、ヘッダ/シグネチャ検出手段2により検出されたヘ
ッダ及びシグネチャ内に電子メールの送信者のパーソナ
ル情報の属性値が存在するかを判定し、存在する場合に
は、該パーソナル情報の属性値を抽出するパーソナル情
報抽出手段3とを有する。
【0010】また、上記のヘッダ/シグネチャ検出手段
2は、電子メールのヘッダフォーマットに従って、入力
された電子メールのヘッダを抽出するヘッダ抽出手段
と、電子メールの末尾の空行、空文字を処理対象から排
除する空行/空文字排除手段と、飾り用に用いられる情
報を用いて、シグネチャの境界を検出し、シグネチャを
抽出するシグネチャ抽出手段とを含む。
【0011】また、上記のパーソナル情報抽出手段3
は、ヘッダ/シグネチャ検出手段により、ヘッダ部及び
シグネチャ部が空でない場合には、該ヘッダ部及びシグ
ネチャ部にある姓名、所属名、メールアドレスに代表さ
れる少なくとも1つのパーソナル情報を、シグネチャを
構成し得る文字記号、または、該文字記号の特定の配列
情報を抽出することにより、該シグネチャの内容部分を
同定する配列情報抽出手段と、各パーソナル情報の属性
に対応した属性値を格納した属性値辞書と、属性値辞書
を参照して、該各パーソナル情報の属性に対応するヘッ
ダ部のフィールド及びシグネチャ部から、それぞれの属
性値を抽出する属性値抽出手段と、抽出した属性値の存
在を、配列情報抽出手段により同定したシグネチャ内容
部分から探すことによってパーソナル情報を取得するパ
ーソナル情報確認手段とを含む。
【0012】また、上記の属性値抽出手段は、各パーソ
ナル情報を構成し得るそれぞれの語句の辞書と、パーソ
ナル情報の抽出における属性を抽出する際に、属性値抽
出の単位を、一定エリア毎に区切り、語句の辞書を参照
する辞書参照手段とを含む。
【0013】また、上記のパーソナル情報確認手段は、
同定したパーソナル情報の補正を行う補正手段を含む。
また、上記のパーソナル情報確認手段は、同定したパー
ソナル情報の他の情報が存在する場合に、該他の情報を
参照して、同定したパーソナル情報を検証する検証手段
を含む。
【0014】また、上記の属性値抽出手段は、表現の定
型度の高い順に属性値の抽出を行う手段を含む。また、
上記の属性値抽出手段は、属性の依存関係に基づいて抽
出順序を決定する手段を含む。
【0015】これにより、入力されたインターネット上
の電子メールデータにおいて、ヘッダと電子メール送信
者の署名情報であるシグネチャを抽出し、当該ヘッダと
シグネチャから姓名、住所、電話番号、電子メールアド
レス等のパーソナル情報を抽出することができる。
【0016】上記のヘッダやシグネチャを取得した際
に、処理対象となるのは、空行や、空文字列、飾り用の
記号、タブ及び、スペースを除外したものであるため、
これらの処理対象とならないデータを排除することによ
り、無意味な検索処理を行う必要がない。
【0017】また、属性値を抽出する際に、表現の定型
度や属性の依存関係に基づいて抽出する順位を決定する
ことにより、例えば、会社名や姓名を取得する際に、会
社名を有しているにも関わらず、姓名が存在しないよう
な属性値の抽出を行わない。
【0018】
【発明の実施の形態】図3は、本発明のシステム構成図
である。同図に示すシステムは、電子メールデータを入
力してヘッダ/シグネチャを出力するヘッダ/シグネチ
ャ検出部100、ヘッダ/シグネチャを入力としてパー
ソナル情報の各属性を出力するパーソナル情報抽出部2
00より構成される。ヘッダ/シグネチャ検出部100
は、電子メールデータからヘッダフォーマットに、基づ
いてヘッダ部を検出するヘッダ検出部110と、電子メ
ールデータメールの末尾の空行や行末の空文字を排除す
る空行/空文字排除部121と、飾り用に用いられる文
字及び行、空行、句読点、引用記号の情報を用いて、シ
グネチャの境界を検出するシグネチャ境界検出部122
とを有するシグネチャ検出部120を有する。
【0019】パーソナル情報抽出部200は、ヘッダ/
シグネチャ検出部100により検出したヘッダ及びシグ
ネチャ内にパーソナル情報の姓名、会社名、所属名、メ
ールアドレス、ホームページURL,郵便番号、住所、
電話番号、ファクシミリ(以下、FAXと記す)番号等
の各個人が有する情報の各属性値が存在するか判定し、
存在する場合には、それを抽出する。境界を検出する。
【0020】パーソナル情報抽出部200は、図4に示
すように、パーソナル情報の各属性に対応するヘッダフ
ィールドからそれぞれの属性値を抽出するヘッダ情報抽
出部210と、ヘッダ情報抽出部210で抽出されたヘ
ッダの属性値をシグネチャ内で検索するヘッダ情報検索
部220と、シグネチャの飾り記号を抽出する飾り記号
抽出部230と、属性値抽出の処理単位を設定するスコ
ープ設定部240と、デザイン的に配置された文字を統
合する孤立文字統合部250と、属性キーワードパター
ン辞書270と属性値辞書280を用いてパーソナル情
報の属性値を抽出する属性値抽出部260から構成され
る。
【0021】属性キーワードパターン辞書270は、表
記や文字種からなるパターンを正規表現風に表現するキ
ーワードパターンを属性単位に持つ辞書である。また、
上記のパーソナル情報抽出部200は、電子メールのヘ
ッダとシグネチャ相当または、シグネチャ相当のテキス
ト内にパーソナル情報の姓名、会社名、所属名、メール
アドレス、ホームページURL、郵便番号、住所、電話
番号、FAX番号等の各属性の属性値が存在するか判定
し、存在する場合には、それを抽出する。このための、
パーソナル情報抽出部200の構成は、上記において説
明した図4の構成と同様である。
【0022】また、上記のパーソナル情報抽出部200
において、属性値抽出部260は、属性キーワードパタ
ーン辞書270より、メールアドレス、電話番号、FA
X番号、郵便番号、住所、社名、所属名の各属性の属性
キーワードを参照し、属性辞書値辞書280より姓名の
属性値を参照する。
【0023】図5は、本発明のパーソナル情報抽出方法
のフローチャートである。以下に説明は、1つの電子メ
ール単位に行われる処理である。 ステップ101) ヘッダ/シグネチャ検出部100
が、ネットワークを介してパーソナル情報の抽出対象と
なる電子メールデータを取得する。
【0024】ステップ102) ヘッダ/シグネチャ検
出部100は、入力された電子メールデータよりヘッダ
及びシグネチャをそれぞれ抽出してパーソナル情報抽出
部200に出力する。ここで、ヘッダは、電子メールデ
ータにおいて宛て先や送信者等の送信情報を表す。ま
た、シグネチャは、電子メール送信者の署名を表し、通
常電子メール本文末尾にある。このシグネチャは、姓名
や電話番号、所属名等のパーソナル情報に加えて、飾り
として用いる記号文字を多用するデザイン性の高い文字
列である場合が多い。
【0025】ステップ103) パーソナル情報抽出部
200は、ヘッダ/シグネチャ検出部100により出力
されたヘッダ及びシグネチャを属性キーワードパターン
辞書270と属性値辞書280を用いて、パーソナル情
報の各属性値を出力する。上記の属性キーワードパター
ン辞書270は、表現の定型度が高い属性に対して、そ
の表現パターンを利用して抽出を行うための辞書であ
る。例えば、電話番号は、 「FAX:03−2222−2222」 のように、FAX番号(電話番号などではなく)を表す
ための「FAX」、「ファックス」等の文字と共に限ら
れた数字パターン(上記例のような一般パターン、国際
表記パターン:+81−3−2222−2222、03
省略パターン(2222)2222、等)で表現されて
いる。そこで、FAXと同定するためのキーとなる「F
AX」、「ファックス」等の文字列、及び数種類のFA
X番号を表す数字パターンをFAX属性用のキーワード
パターンとして属性キーワード辞書270に登録すれば
よい。
【0026】属性値辞書280は、ある属性がもつ属性
値とその属性値に関する情報をもつ辞書である。この属
性値辞書は、表現の定型度が低い属性に対して辞書値と
のパターンマッチにより、シグネチャから属性値を抽出
するために利用する辞書である(但し、定型度が高い属
性に対しても利用可能である)。
【0027】例えば、姓名辞書280は、姓名という属
性の属性値(例:山田、佐藤、田中、泉、…)と、その
属性値の情報(例:山田=読み:ヤマダ、姓名情報=
姓、頻度=10000、泉=読み:イズミ、姓名情報=
姓or名、頻度500)を持つ。
【0028】図6は、本発明のヘッダ/シグネチャ検出
処理のフローチャートである。 ステップ201) ヘッダ/シグネチャ検出部100
は、電子メールの先頭から最初の空行までをヘッダとし
て検出する。これは、インターネット上の電子メールで
は、先頭から最初の空行までをヘッダとする規定がある
ためである。
【0029】ステップ202) シグネチャ検出部12
0の空行/空文字排除部121は、空行、空行排除する
ための処理を行う。排除処理としては、電子メール末尾
行から見て連続する空行、または、タブ、スペースのみ
からなる行を処理対象から除く。また、全行を対象とし
て、行末のタブ、スペースを処理対象から除く。
【0030】ステップ203) シグネチャ検出部12
0のシグネチャ境界検出部122は、ヘッダ/シグネチ
ャ検出部100で検出されたヘッダ、及び空行/空文字
排除部121により処理対象から除いた文字、行以外を
処理対象として、処理対象の末尾行から順に行単位に処
理を行い、シグネチャの有無を判定する。
【0031】シグネチャが存在すると判定した場合に
は、シグネチャの境界を検出する。シグネチャの有無と
境界の検出には、飾り用に用いられる文字及び行、空
行、句読点、引用記号の情報を用いるものとする。これ
により、ヘッダ/シグネチャ検出処理を終了する。
【0032】次に、パーソナル情報属性値抽出処理を説
明する。図7は、本発明のパーソナル情報属性値抽出処
理のフローチャートである。 ステップ301) ヘッダ情報抽出処理部210は、抽
出すべき属性に対応するヘッダフィールドからその属性
の属性値を抽出する。例えば、“From”フィールドは、
(送信者の)メールアドレスという属性を表すので、メ
ールアドレスの抽出を行う。更に、“From”フィールド
は、姓名の情報が付加されている場合がある。このよう
な場合には姓名情報も得る。
【0033】また、一般に、電子メールのヘッダは、日
本語表記(2バイト文字表記)されている場合が少な
く、ローマ字/英語表記が用いられる場合がある。この
ような場合には、ローマ字は、カナに変換し、以下に説
明する属性値抽出処理(ステップ306で、その属性値
の読み情報として利用する。英単語は、英和辞書により
日本語に直し、同じく、属性値抽出処理で、その属性の
補助情報として利用する。例えば、“Organization”フ
ィールドが、 「XYZ Information and Communication Systems Labora
tories」 である場合には、「XYZ 」はそのまま、「Information
」は、「情報、知識」、「and 」は、「と、及び」、
「Communication 」は、「通信、伝達」、「Systems]
は、「システム」、「Laboratories」は「研究所」に変
換して、会社名、所属名属性の補助情報として保持す
る。
【0034】ステップ302) 以降の処理は、ヘッダ
情報検索処理(ステップ302)、飾り記号抽出処理
(ステップ303)、スコープ設定処理(ステップ30
4)、孤立文字統合処理(ステップ305)、属性値抽
出処理(ステップ306)からなる。これらの処理にお
いて、シグネチャ検出部120のシグネチャ検出処理に
おいて、シグネチャが検出されなかった場合には、何も
行わないものとする。
【0035】また、以降の処理において、全角文字、半
角文字をそれぞれ1文字として扱い、特に指定しない限
り、全角文字と半角文字を同様に扱う。つまり、例え
ば、キーワードパターンの条件があった場合は、半角の
「?」と、全角の「?」のどちらが存在しても条件にマ
ッチしたと見なす。
【0036】ヘッダ情報検出部220は、ヘッダ情報抽
出部210において抽出した属性値の検出を行う。検出
した属性値は、以降の処理の処理対象から除き、ステッ
プ303に移行する。 ステップ303) 飾り記号抽出部230は、以下のい
ずれかの条件で文字が連続する場合、その文字を飾り記
号として特定し、以降の処理対象から除く。但し、スペ
ースは対象外とする。処理後は、ステップ304に移行
する。
【0037】・同一記号(スペース以外全文字対象)が
横に3つ以上連続する。
【0038】
【数1】
【0039】以外に記号が横に3つ以上連続する(同一
記号でなくても可)。 ・同一文字(スペース以外全文字対象)が横に5つ以上
連続する。
【0040】
【数2】
【0041】以外に記号が縦に3つ以上連続する(同一
記号でなくても可)。なお、縦の連続を検出するための
位置情報は全角文字=2、半角文字=1として計算す
る。 ・3文字以上の文字列パターンが、2回以上、縦または
横または、シグネチャの外延に沿って連続する。
【0042】ステップ304) スコープ設定部240
は、スペース(半角/全角)、改行、ステップ302、
ステップ303において処理対象から除いた文字、記号
(但し、「・」、「(」、「)」、「’」、
【0043】
【数3】
【0044】等の属性値に含まれる文字は除く)で区切
られる各文字を1スコープとして設定し、以降の処理単
位とする。処理後、ステップ305に移行する。 ステップ305) 孤立文字統合部250は、スペース
で区切られた、記号(長音は除く)以外の1文字からな
る処理スコープが同一行に2つ以上連続して存在した場
合、連続する全てのスコープを統合して1スコープとす
る。処理後、ステップ306に移行する。
【0045】ステップ306) 属性抽出部260は、
属性キーワードパターン辞書270と、属性値辞書28
0を用いて、各属性毎の抽出ルールにより、スコープ単
位に各属性値の抽出を行う。ここで、シグネチャにどの
属性が含まれるかは、多くのバリエーションがあり、処
理対象のシグネチャに存在しない属性が抽出対象となる
場合もある。このため、抽出ルールでは、まず、属性値
の有無の判定を行う。
【0046】処理効率を考え、表現の定型度の高い属性
から順に抽出を行う。また、属性の依存関係も考慮して
抽出順序を決定する。例えば、姓名があり、会社名がな
いシグネチャは存在するが、会社名があり姓名がないシ
グネチャは殆ど存在しない。ある属性値として抽出され
た文字列は、原則的に以降の処理では、処理対象としな
いので、異なる属性として(例えば、会社名を表してい
る文字列を姓名の属性値として抽出するなど)抽出しな
いために、会社名より先に姓名の抽出を行う方がよい。
【0047】これにより、パーソナル情報属性抽出処理
を終了する。
【0048】
【実施例】以下、本発明の実施例を具体的に図面と共に
説明する。図8は、本発明の一実施例の電子メールの例
を示す。同図において、左側に付与されている番号は、
説明のために電子メール先頭から付与した行番号であ
る。ここでは、メールアドレス、電話番号、FAX番
号、郵便番号、住所、社名、所属名、姓名、その他の情
報という9種類の属性を抽出対象とすることにする。こ
のうち、メールアドレス、電話番号、FAX番号、郵便
番号、住所、社名、所属名は、属性キーワードパターン
辞書270を参照し、姓名は属性値辞書280を参照す
る場合を考える。
【0049】以下の説明では、図5、図6、図7の各フ
ローチャートに沿って説明する。 (1) まず、図6のヘッダ検出処理において、ヘッダ
検出部110は、図8に示す第1行から第10行(空
行)までをヘッダとして検出する(ステップ201)。
【0050】(2) 空行、空文字排除処理において、
空行/空文字排除部121は、空行の第23行、24行
を検出対象から除く(ステップ202)。 (3) シグネチャ境界検出処理において、シグネチャ
境界検出部122は、第22行から順に処理を行い、第
22行の記号のみの行、第16行の空行、第15行の文
末行、第13行の文末行の情報を利用して、第16行か
ら第22行までをシグネチャとして検出する(ステップ
203)。
【0051】(4) 次に、パーソナル情報属性抽出処
理について説明する。図7に示すヘッダ情報抽出処理に
おいて、ヘッダ情報抽出部210は、図8の第5行の
“From”フィールドよりメールアドレスとして、
【0052】
【数4】
【0053】を抽出する。また、「Taroh 」、「YAMAD
A」、「yamada」(メールアドレスの
【0054】
【数5】
【0055】より前の文字列)に対してローマ字カナ変
換を行い、「タロー」、「ヤマダ」を得て、これらの姓
名の読み情報として保持する。 (5) シグネチャ内で
【0056】
【数6】
【0057】を検索し、第19行の下線部
【0058】
【数7】
【0059】がマッチする。この下線部を以降の処理対
象から除く(ステップ302)。 (6) 図9は、本発明の一実施例の飾り記号抽出例を
示す。飾り記号抽出処理において、飾り記号抽出部23
0は、下線が引かれている“*”を飾り記号として特定
し、以降の処理対象から除く(ステップ303)。
【0060】(7) スコープ処理において、スコープ
設定部240は、以下の文字がスコープとして設定され
る(ステップ304)。 第17行:「TAROH 」、「YAMADA」、「山」、「田」、
「太」、「郎」 第18行: 「ABC システムズ」、「CAI 開発グループ」 第19行: なし(処理対象外) 第20行:「TEL 」、「03-2222-4444」、「FAX 」、
「03-2222-5555」 第21行:
【0061】
【数8】
【0062】(8) 孤立文字統合処理において、孤立
文字統合部250は、「山」、「田」、「太」、「郎」
を統合して、「山田太郎」と1つのスコープにする(ス
テップ305)。 (9) 属性値抽出処理において、属性値抽出部260
は、まず、定型度の高い電話とFAX番号の抽出を行
う。第20行の「TEL 」スコープが電話属性のキーワー
ドパターンとマッチし、その直後、スコープ「03-2222-
4444」が電話番号の数字パターンを満たすので、これを
電話番号として抽出する。同様に、第20行の「FAX 」
スコープがFAX属性のキーワードパターンにマッチ
し、その直後、スコープ「03-2222-5555」がFAX番号
の数字パターンを満たすので、これをFAX番号として
抽出する。
【0063】次に、郵便番号、住所抽出処理を行う。第
21行の
【0064】
【数9】
【0065】
【数10】
【0066】が属性キーワード辞書270郵便番号属性
のキーワードパターンにマッチし、その直後の数字パタ
ーンも郵便番号の数字パターンにマッチするので、
【0067】
【数11】
【0068】を郵便番号として抽出する。また、第21
行の「千代田区一ツ橋000」の「区」が、属性キーワ
ード辞書270の住所属性のキーワードパターンにマッ
チし、同一スコープ内の後方に数字“000”を含むの
で、住所として抽出する。
【0069】ここで、残る未処理スコープは、 第17行」:「TAROH 」、「YAMADA」、「山田太郎」 第18行: 「ABC システムズ」、「CAI 開発グループ」 第19行: なし(処理対象外) 第20行:なし(処理対象外) 第21行:「ABCビル」 である。
【0070】次に、姓名の抽出を行う。未抽出スコープ
を対象として、姓名辞書とのマッチを行うと、第17行
の「山田太郎」が姓(山田)+名(太郎)にマッチし、
第18行の「CAI開発グループ」の「開」が名にマッ
チする。ここで、スコープ中の文字がすべてマッチして
残った文字がなく、『姓+名』のペアで検出された「山
田太郎」を姓名として抽出する。ここでは、『姓+名』
パターンにマッチしたものは、1つしかなかったが、複
数の『姓+名』パターンがマッチした場合には、ステッ
プ401で得た読み情報や、姓名辞書の頻度情報を利用
して姓名を特定する。
【0071】次に、会社名の抽出を行う。未処理スコー
プを対象に会社名のキーワードパターン(例:株式会
社、大学、(有)等)の検索を行うが、どのスコープ内
の文字列にもマッチしない。そこで、所属名のキーワー
ドパターンの検索を行うと、第18行の「CAI開発グ
ループ」の「グループ」がマッチする。ここで、会社名
と所属名は階層構造になっており、通常、日本語では、
所属名の前に会社名が存在する。そして、会社名は、ま
だ、抽出されていないので、その直前スコープ「ABC
システムズ」を会社名として、「CAI開発グループ」
を所属名として抽出する。
【0072】最後に、未処理スコープを対象に補正処理
を行う。住所として抽出した第21行「千代田区一ツ橋
000」の直後に未処理スコープ「ABCビル」が存在
するので、これを住所として追加する(ビル名等(ビル
名、アパート名等)として特定する)。さらに、残る未
処理スコープ「TAROH 」、「YAMADA」をその他の情報と
して抽出する。
【0073】その他の情報として抽出された文字列は、
既に抽出した属性値の情報を検証することも可能であ
る。例えば、姓名属性として「東( 姓、読み=ヒガシ、
アズマ)+花子(名、読み=ハナコ)」が既に抽出され
ていて、その他の情報として「Hanako」、「Higashi 」
が得られた場合、これをローマ字カナ変換して、「ハナ
コ」、「ヒガシ」を得ることにより、姓である「東」の
読みが「アズマ」ではなく「ヒガシ」であると特定する
ことができる。
【0074】上記の処理から抽出されたパーソナル情報
の例を図10に示す。これにより、電子メールからヘッ
ダ、シグネチャを検出するヘッダ/シグネチャ検出処理
と、検出されたヘッダとシグネチャ内にパーソナル情報
の姓名、会社名、所属名、メールアドレス、ホームペー
ジURL、郵便番号、住所、電話番号、FAX番号等の
各属性に属性値が存在するかを判定し、存在する場合に
はそれを抽出して、パーソナル情報属性値の抽出を行う
ことが可能である。
【0075】なお、本発明は、上記の実施例に限定され
ることなく、特許請求の範囲で種々変更・応用が可能で
ある。
【0076】
【発明の効果】上述のように、本発明によれば、属性キ
ーワードパターン辞書と属性値辞書を持ち、ヘッダとシ
グネチャの文字情報を利用することにより、電子メール
からパーソナル情報を得ることができるので、各個人の
属性の属性値を全て埋めていくのが煩雑な住所録生成等
の自動作成支援を行うことが可能となる。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明のシステム構成図である。
【図4】本発明のパーソナル情報抽出部の構成図であ
る。
【図5】本発明のパーソナル情報抽出方法のフローチャ
ートである。
【図6】本発明のヘッダ/シグネチャ検出処理のフロー
チャートである。
【図7】本発明のパーソナル情報属性値抽出処理のフロ
ーチャートである。
【図8】本発明の一実施例の電子メールの例を示す図で
ある。
【図9】本発明の一実施例の飾り記号抽出例を示す図で
ある。
【図10】本発明の一実施例のパーソナル情報の例を示
す図である。
【符号の説明】
1 入力手段 2 ヘッダ/シグネチャ検出手段 3 パーソナル情報抽出手段 100 ヘッダ/シグネチャ検出部 110 ヘッダ検出部 120 シグネチャ検出部 121 空行/空文字排除部 122 シグネチャ境界検出部 200 パーソナル情報抽出部 210 ヘッダ情報抽出部 220 ヘッダ情報検索部 230 飾り記号抽出部 240 スコープ設定部 250 孤立文字統合部 260 属性値抽出部 270 属性キーワードパターン辞書 280 属性値辞書

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 電子メールデータから、該電子メールデ
    ータが持つべきフォーマットを用いて、ヘッダ部及びシ
    グネチャ部を判別し、 前記ヘッダ部及びシグネチャ部が空でない場合には、該
    ヘッダ部及びシグネチャ部に存在する姓名、所属名、メ
    ールアドレスに代表される少なくとも1つのパーソナル
    情報を構成すべき文字または文字列の種別、または、複
    数の文字または、文字列同士の並び方の特徴を利用して
    抽出することを特徴とするパーソナル情報抽出方法。
  2. 【請求項2】 前記パーソナル情報を抽出する際に、 前記電子メールデータの末尾の空行、及び行末の空き文
    字を排除し、 内容伝達の目的以外に用いられる特定の文字、文字列及
    び行、または、該データベースのデータ中の空き行、句
    読点、引用記号、区切り記号の配列状態を検索する請求
    項1記載のパーソナル情報抽出方法。
  3. 【請求項3】 電子メールデータから、該電子メールデ
    ータが持つべきフォーマットを用いて、ヘッダ部及びシ
    グネチャ部を判別し、 前記ヘッダ部及びシグネチャ部が空でない場合には、該
    ヘッダ部及びシグネチャ部にある姓名、所属名、メール
    アドレスに代表される少なくとも1つのパーソナル情報
    を構成し得る文字記号、または、該文字記号の特定の配
    列情報を抽出することにより、該シグネチャの内容部分
    を同定し、 各パーソナル情報の属性に対応した属性値を格納した属
    性値辞書を参照して、該各パーソナル情報の属性に対応
    するヘッダ部のフィールド及びシグネチャ部から、それ
    ぞれの属性値を抽出し、 抽出した属性値の存在を、同定したシグネチャ内容部分
    から探すことによって取得することを特徴とするパーソ
    ナル情報抽出方法。
  4. 【請求項4】 前記パーソナル情報の抽出における属性
    を抽出する際に、 属性値抽出の処理単位を、一定エリア毎に区切り、 各パーソナル情報を構成し得るそれぞれの語句の辞書を
    参照する請求項3記載のパーソナル情報抽出方法。
  5. 【請求項5】 電子メールを入力する入力手段と、 前記入力手段から取得した電子メールデータのうち、所
    定のデータフォーマットに従って、ヘッダ及び前記電子
    メールの送信者の署名であるシグネチャとを抽出するヘ
    ッダ/シグネチャ検出手段と、 前記ヘッダ/シグネチャ検出手段により検出された前記
    ヘッダ及び前記シグネチャ内に前記電子メールの送信者
    のパーソナル情報の属性値が存在するかを判定し、存在
    する場合には、該パーソナル情報の属性値を抽出するパ
    ーソナル情報抽出手段とを有することを特徴とするパー
    ソナル情報抽出装置。
  6. 【請求項6】 前記ヘッダ/シグネチャ検出手段は、 電子メールのヘッダフォーマットに従って、入力された
    電子メールのヘッダを抽出するヘッダ抽出手段と、 前記電子メールの末尾の空行、空文字を処理対象から排
    除する空行/空文字排除手段と、飾り用に用いられる情
    報を用いて、シグネチャの境界を検出し、シグネチャを
    抽出するシグネチャ抽出手段とを含む請求項5記載のパ
    ーソナル情報抽出装置。
  7. 【請求項7】 前記パーソナル情報抽出手段は、 前記ヘッダ/シグネチャ検出手段により、前記ヘッダ部
    及びシグネチャ部が空でない場合には、該ヘッダ部及び
    シグネチャ部にある姓名、所属名、メールアドレスに代
    表される少なくとも1つのパーソナル情報を、シグネチ
    ャを構成し得る文字記号、または、該文字記号の特定の
    配列情報を抽出することにより、該シグネチャの内容部
    分を同定する配列情報抽出手段と、 各パーソナル情報の属性に対応した属性値を格納した属
    性値辞書と、 前記属性値辞書を参照して、該各パーソナル情報の属性
    に対応するヘッダ部のフィールド及びシグネチャ部か
    ら、それぞれの属性値を抽出する属性値抽出手段と、 抽出した属性値の存在を、前記配列情報抽出手段により
    同定したシグネチャ内容部分から探すことによってパー
    ソナル情報を取得するパーソナル情報確認手段とを含む
    パーソナル情報抽出装置。
  8. 【請求項8】 前記属性値抽出手段は、 各パーソナル情報を構成し得るそれぞれの語句の辞書
    と、 前記パーソナル情報の抽出における属性を抽出する際
    に、属性値抽出の単位を、一定エリア毎に区切り、前記
    語句の辞書を参照する辞書参照手段とを含む請求項7記
    載のパーソナル情報抽出装置。
  9. 【請求項9】 前記パーソナル情報確認手段は、 同定した前記パーソナル情報の補正を行う補正手段を含
    む請求項7記載のパーソナル情報抽出装置。
  10. 【請求項10】 前記パーソナル情報確認手段は、 同定した前記パーソナル情報の他の情報が存在する場合
    に、該他の情報を参照して、同定した前記パーソナル情
    報を検証する検証手段を含む請求項7記載のパーソナル
    情報抽出装置。
  11. 【請求項11】 前記属性値抽出手段は、 表現の定型度の高い順に前記属性値の抽出を行う手段を
    含む請求項7記載のパーソナル情報抽出装置。
  12. 【請求項12】 前記属性値抽出手段は、 属性の依存関係に基づいて抽出順序を決定する手段を含
    む請求項7記載のパーソナル情報抽出装置。
JP8047789A 1996-03-05 1996-03-05 パーソナル情報抽出方法及び装置 Pending JPH09244969A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8047789A JPH09244969A (ja) 1996-03-05 1996-03-05 パーソナル情報抽出方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8047789A JPH09244969A (ja) 1996-03-05 1996-03-05 パーソナル情報抽出方法及び装置

Publications (1)

Publication Number Publication Date
JPH09244969A true JPH09244969A (ja) 1997-09-19

Family

ID=12785151

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8047789A Pending JPH09244969A (ja) 1996-03-05 1996-03-05 パーソナル情報抽出方法及び装置

Country Status (1)

Country Link
JP (1) JPH09244969A (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1196178A (ja) * 1997-09-22 1999-04-09 Nippon Telegr & Teleph Corp <Ntt> 情報抽出方法、情報抽出装置及び情報抽出プログラムを記録した記録媒体
JPH11154157A (ja) * 1997-11-20 1999-06-08 Nippon Telegr & Teleph Corp <Ntt> パーソナル情報抽出方法及び装置及びパーソナル情報抽出プログラムを格納した記憶媒体及び住所録更新支援方法及び装置及び住所録更新支援プログラムを格納した記憶媒体
JP2000066970A (ja) * 1998-08-19 2000-03-03 Nec Corp 人脈情報管理システム、人脈情報管理方法および記録媒体
JP2002024144A (ja) * 2000-07-05 2002-01-25 Nippon Telegr & Teleph Corp <Ntt> 電子メール転送方法及び装置及び電子メール転送プログラムを格納した記憶媒体
WO2002025490A1 (fr) * 2000-09-20 2002-03-28 Cai Co.. Ltd. Procede et systeme de recherche automatique d'une page d'accueil sur internet
JP2003101716A (ja) * 2001-09-20 2003-04-04 Ricoh Co Ltd ネットワークファクシミリ装置
DE10024491C2 (de) * 1999-10-14 2003-06-26 Fujitsu Ltd Elektronische Vorrichtung und Verfahren zur Sprachausgabe der Sendequelle einer E-Mail
JP2010044592A (ja) * 2008-08-12 2010-02-25 Toshiba Corp 電子機器
JP2010218043A (ja) * 2009-03-13 2010-09-30 Omron Corp 文字情報取得装置、文字情報取得プログラム、および文字情報取得方法
JP2017520069A (ja) * 2014-05-30 2017-07-20 アップル インコーポレイテッド 構造化された提案
US10445425B2 (en) 2015-09-15 2019-10-15 Apple Inc. Emoji and canned responses
US10579212B2 (en) 2014-05-30 2020-03-03 Apple Inc. Structured suggestions
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1196178A (ja) * 1997-09-22 1999-04-09 Nippon Telegr & Teleph Corp <Ntt> 情報抽出方法、情報抽出装置及び情報抽出プログラムを記録した記録媒体
JPH11154157A (ja) * 1997-11-20 1999-06-08 Nippon Telegr & Teleph Corp <Ntt> パーソナル情報抽出方法及び装置及びパーソナル情報抽出プログラムを格納した記憶媒体及び住所録更新支援方法及び装置及び住所録更新支援プログラムを格納した記憶媒体
JP2000066970A (ja) * 1998-08-19 2000-03-03 Nec Corp 人脈情報管理システム、人脈情報管理方法および記録媒体
DE10024491C2 (de) * 1999-10-14 2003-06-26 Fujitsu Ltd Elektronische Vorrichtung und Verfahren zur Sprachausgabe der Sendequelle einer E-Mail
JP2002024144A (ja) * 2000-07-05 2002-01-25 Nippon Telegr & Teleph Corp <Ntt> 電子メール転送方法及び装置及び電子メール転送プログラムを格納した記憶媒体
WO2002025490A1 (fr) * 2000-09-20 2002-03-28 Cai Co.. Ltd. Procede et systeme de recherche automatique d'une page d'accueil sur internet
JP2003101716A (ja) * 2001-09-20 2003-04-04 Ricoh Co Ltd ネットワークファクシミリ装置
JP2010044592A (ja) * 2008-08-12 2010-02-25 Toshiba Corp 電子機器
JP2010218043A (ja) * 2009-03-13 2010-09-30 Omron Corp 文字情報取得装置、文字情報取得プログラム、および文字情報取得方法
JP2017520069A (ja) * 2014-05-30 2017-07-20 アップル インコーポレイテッド 構造化された提案
US10565219B2 (en) 2014-05-30 2020-02-18 Apple Inc. Techniques for automatically generating a suggested contact based on a received message
US10579212B2 (en) 2014-05-30 2020-03-03 Apple Inc. Structured suggestions
US10585559B2 (en) 2014-05-30 2020-03-10 Apple Inc. Identifying contact information suggestions from a received message
US10620787B2 (en) 2014-05-30 2020-04-14 Apple Inc. Techniques for structuring suggested contacts and calendar events from messages
US10747397B2 (en) 2014-05-30 2020-08-18 Apple Inc. Structured suggestions
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10445425B2 (en) 2015-09-15 2019-10-15 Apple Inc. Emoji and canned responses
US11048873B2 (en) 2015-09-15 2021-06-29 Apple Inc. Emoji and canned responses

Similar Documents

Publication Publication Date Title
US8055498B2 (en) Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in the dictionary
JP2007257644A (ja) 訳語候補文字列予測に基づく訳語取得のためのプログラム、方法および装置
US20050119875A1 (en) Identifying related names
JP2005251206A (ja) 単語分割で使用される新単語収集方法およびシステム
US20120109974A1 (en) Acronym Extraction
US20040139384A1 (en) Removal of extraneous text from electronic documents
JPH09244969A (ja) パーソナル情報抽出方法及び装置
US20200372215A1 (en) Document processing device, document processing method, and document processing program
US20100185438A1 (en) Method of creating a dictionary
CN111553155B (zh) 基于语义结构的口令分词系统及方法
KR100515698B1 (ko) 색인 및 형태소 분석에 이용되는 특정문서 고유사전의 작성방법 및 작성을 위한 장치
JP2009205499A (ja) ウェブページ特定装置、ウェブページ特定方法およびウェブページ特定用プログラム
JP2002251402A (ja) 文書検索方法及び文書検索装置
US20050154703A1 (en) Information partitioning apparatus, information partitioning method and information partitioning program
JP4266240B1 (ja) 項目判定システムおよび項目判定プログラム
JP2019508815A (ja) フレーズ抽出方法及び装置
Wei et al. Bibliographic attributes extraction with layer-upon-layer tagging
JP6373198B2 (ja) テキスト変換装置、方法、及びプログラム
Habeeb et al. Constructing Arabic language resources from Google N-gram dataset
JPS6394365A (ja) 日本文文書誤り検定装置
JP7022789B2 (ja) 文書検索装置、文書検索方法およびコンピュータプログラム
JPS63106074A (ja) 形態素解析における行末ハイフンの処理方式
KR100956413B1 (ko) 언어 교차 검색 방법 및 시스템
JPH07325837A (ja) 抽象単語による通信文検索装置及び抽象単語による通信文検索方法
JP3332142B2 (ja) 形態素解析装置とその方法