JPH10133853A - 電子メール書換え方法及び装置 - Google Patents

電子メール書換え方法及び装置

Info

Publication number
JPH10133853A
JPH10133853A JP8287128A JP28712896A JPH10133853A JP H10133853 A JPH10133853 A JP H10133853A JP 8287128 A JP8287128 A JP 8287128A JP 28712896 A JP28712896 A JP 28712896A JP H10133853 A JPH10133853 A JP H10133853A
Authority
JP
Japan
Prior art keywords
line
rewriting
mail
expression
english
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8287128A
Other languages
English (en)
Inventor
Hisako Asano
久子 浅野
Fusami Ichii
亮美 市井
Takeshi Fuchi
武志 渕
Koji Matsuoka
浩司 松岡
Shinichiro Takagi
伸一郎 高木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP8287128A priority Critical patent/JPH10133853A/ja
Publication of JPH10133853A publication Critical patent/JPH10133853A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 主に、日本語でやりとりされ、時には、電子
メールの一部に英文が含まれたり、全文が英文であった
りする、日本国内で最も一般的と考えられる電子メール
の利用状況を想定し、聞きやすく、分かりやすい音声合
成が可能なように電子メールを書き換える電子メール書
換え方法及び装置を提供する。 【解決手段】 本発明は、インターネット上の電子メー
ルのボディ部を対象に、正規表現により記述された文字
列のパターンマッチにより、電子メールから読み上げ不
要の部分を削除し、電子メールのボディ部の表現を読み
上げやすい表現に書換え、構造化することにより、電子
メールを書き換え、読み上げ用テキストを生成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、電子メール書換え
方法及び装置に係り、特に、電子メールを合成音声で読
み上げる際に、その読み上げ精度を向上させることが可
能な電子メール書換え方法及び装置を提供することを目
的とする。
【0002】
【従来の技術】一般に、任意のテキストを合成音声で自
動的に読み上げる音声合成装置が市販されている。この
音声合成装置は、テキスト解析処理と音声合成処理の各
機能を有し、入力されたテキストをテキスト解析処理に
より解析し、その結果を全て読み上げの対象として、音
声出力する。その音声合成装置は、種々の言語で処理す
るものがあり、日本語のみならず、英語用の音声合成装
置もある。
【0003】これらの、音声合成装置を電子メールを読
み上げる際に用いることにより、電子メールのテキスト
データを入力し、当該電子メールの内容を読み上げるこ
とが可能である。
【0004】
【発明が解決しようとする課題】しかしながら、上記従
来の音声合成装置は、入力されたテキスト全てを読み上
げ対象とするため、電子メール内の読み上げ不要部分
(引用記号、コメント記号、添付書類、ヘッダ、シグネ
チャ等)も忠実に読み上げてしまう。また、電子メール
では、他の電子メールを引用する場合があるが、従来の
音声合成装置では、同一音声で読み上げるために、どの
範囲が引用であるかわからず、聞きにくい場合がある。
【0005】通常、音声合成装置は、テキスト解析処理
と、音声合成処理からなる。テキスト解析処理では、文
字列を単語に分解し(形態素解析)、読みを付与し、ア
クセントやポーズといった韻律情報を付与する。音声合
成処理では、テキスト解析処理で得られた読み、韻律情
報を用いて合成音声を生成する。
【0006】従来の音声合成装置では、入力されたテキ
ストの全てを読み上げ対象としているが、電子メールに
は、読み上げる必要のない情報(引用記号、コメント記
号、添付書類、ヘッダ、シグネチャ等)も多く含まれて
おり、これらを忠実に読み上げると、意味のない音声が
続き、聞き疲れて、必要な情報を聞き逃す可能性があ
る。
【0007】また、電子メールは、1文の途中に改行が
挿入される場合が多い(これを画面制約による改行と呼
ぶことにする)が、音声合成装置は改行を1単位として
処理するものが一般的である。このため、1文途中の改
行により、不自然なポーズが挿入されたり、その改行付
近のテキスト解析処理を誤ったりして、読み上げ誤りの
ある音声が生成される場合がある。
【0008】また、日時や住所等が記号を用いて略記さ
れていると(例:10/1、栄町1−1)、適切な読み
が付与できない場合がある(例:「ジュー、スラッシ
ュ、イチ」、「サカエチョー、イチ、マイナス、イ
チ」)。さらに、他のメールの一部が引用されている場
合、同一音声で聞くと、どの部分が引用であるかが分か
らず、意味がつかみにくくなる。
【0009】また、通常、音声合成装置は、入力された
テキストを1つの言語で処理する。例えば、日本語用の
音声合成装置では、入力テキスト中に英単語が存在した
場合、読みを得ることができずに、アルファベットに展
開して読み上げてしまうので、理解できない。
【0010】この問題を以下に具体的に説明する。書換
え対象となる電子メールについて説明する。インターネ
ット上の電子メールは、ヘッダとボディで構成されるよ
う規定されている(RFC822:RFC=Request fo
r Comments, TCP/IPの規格集)。ヘッダは電子メ
ールを正しく配送するためにあり、これは、各フィール
ドに分けられている。ボティは、電子メールの本文に相
当し、フォーマットと特に規定されていない(但し、文
字コードの制限等はある)。
【0011】図14は、本発明の一実施例を説明するた
めのインターネット上の電子メールの例である。同図の
左端に記載されている数字は、説明用に付与した行番号
である。第1行から第7行までがヘッダである。行頭か
ら「:」まで(例えば、To)がそのフィールド名を表
し、(1フィールドが複数行に渡る場合には、行頭に空
白が存在し、フィールド名は省略される)、「:」以降
がフィールド値を表す。例えば、「To」は、メールの
送信先を表し、ここでは、
【0012】
【数1】
【0013】という電子メールアドレスに送付される。
第8行は、ヘッダとボディの境界を表す空行である。第
9行〜第43行までがボディである。このうち、第39
行から第43行までは、シグネチャと呼ばれる送信者の
署名である。シグネチャは通常、電子メール本文末尾に
あり、姓名や電話番号に加えて、飾りとして用いる記号
文字を多用するデザイン性が高い文字列である場合が多
い。また、シグネチャは、常に存在するとは限らない。
このシグネチャは、通常読み上げる必要がない。そこ
で、シグネチャの有無を検出し、存在する場合には削除
する処理が必要となる。
【0014】ここで、ボディのうち、シグネチャを除い
た部分を本文部と呼ぶことにする。本例では、第9行〜
第38行が本文部に相当する。本文部のうち、第25行
から第37行まで(網掛けした部分)は、添付書類と呼
ばれる部分であり、バイナリデータをASCIIコード
に変換した(エンコードした)ものである。(第26行
から出し35行までがエンコード部であるが、実際に
は、数十行に及ぶ。但し、説明及び本発明の処理には影
響を与えないので、ここでは、便宜的にエンコード部を
10行のみとした)。電子メールでは、バイナリデータ
を受渡しできないため、このような措置がとられてい
る。そこで、添付書類部分は、読み上げる必要はないた
め、添付書類部分を検出し、削除する処理が必要とな
る。
【0015】図14に示す添付書類部分を検出し、削除
する処理が必要となる。図14の添付書類は、デコード
する(ASCIIコードからバイナリデータに戻す)
と、矢印で示したような図情報となる。本文部の第19
行は、文の途中であるが、画面の右端に近いため、改行
を行っている。音声合成装置は、改行を処理の単位とし
ているものが多いので、この改行は、削除して第19、
第20行をまとめて1文とする必要がある。
【0016】また、第11行から第13行と第17行
は、引用と呼ばれており、他の人が書いたメールを引用
している。ここで、「>>」は引用記号と呼ばれ、この
ような記号を挿入することにより、その部分が引用であ
ることを表す。しかし、引用記号は、テキスト解析内の
形態素解析が誤る原因となり、引用記号前後の読みや韻
律を誤ったり、引用記号自体を読み上げてしまう場合が
あるので、削除する必要がある。
【0017】また、この第11行〜13行と第17行を
引用として認識して、音声合成処理で、引用部分の合成
音声の種類を変える(声のトーンを変える、性別を変え
る等)と、どの範囲が引用であるか音声だけでわかり、
理解し易くなる。第22行は、行頭に「#」がついてお
り、コメントと呼ばれる。これは、本題とは直接は関係
ない部分であることを表す。このコメント行を検出し、
音声合成の種類を変える(声のトーンを変える等)と、
どの範囲がコメントであるか音声だけでわかり、ニュア
ンスが伝わりやすくなる。
【0018】第11行の「10/29(日)」は、この
ままで、「ジュー、スラッシュ、ニジューキュー、ニ
チ」などと、忠実に読み上げて、読み誤る可能性があ
る。そこで、「10月29日(日曜日)」等そのまま読
み上げるべき表現に変換する必要がある。
【0019】第13行の「reply 」のように、日本語文
章中に数単語だけ英単語が混在する場合がある。しか
し、多くの日本語音声合成装置は、英単語を単純にアル
ファベト読み(この場合には「アール、イー、ピー、エ
ル、ワイ」)するだけである。そこで、このような英単
語は、読みに相当するカタカナに書き換える必要があ
る。
【0020】また、同図には出現しないが、純粋な英字
行が存在する場合には、そのままでは、前述するよう
に、すべてをアルファベット読みするので、その部分を
検出して、英日翻訳した後に、日本語音声合成装置で読
み上げる、または、英語用音声合成装置で読み上げる、
または、削除する必要がある。
【0021】本発明は、上記の点に鑑みなされたもの
で、主に、日本語でやりとりされ、時には、電子メール
の一部に英文が含まれたり、全文が英文であったりす
る、日本国内で最も一般的と考えられる電子メールの利
用状況を想定し、聞きやすく、分かりやすい音声合成が
可能なように電子メールを書き換える電子メール書換え
方法及び装置を提供することを目的とする。
【0022】
【課題を解決するための手段】図1は、本発明の原理を
説明するための図である。本発明は、入力された電子メ
ールのテキスト情報を日本語音声合成装置で読み上げ可
能な表現に書き換える電子メール書換え方法において、
インターネット上の電子メールのボディ部を対象に、正
規表現により記述された文字列のパターンマッチによ
り、電子メールから読み上げ不要の部分を削除し(ステ
ップ1)、電子メールのボディ部の表現を読み上げやす
い表現に書換え(ステップ2)、構造化する(ステップ
3)ことにより、電子メールを書き換え、読み上げ用テ
キストを生成する。
【0023】また、本発明は、電子メールの正規表現を
用いて書かれた添付書類テンプレートを用いて、添付書
類の検出を行い、削除し、行の長さと英字の割合によ
り、英字行を検出し、該英字行の性質により削除、また
は、日本語に変換して読みを付与し、連続する行の行頭
の文字列に着目して引用記号を格納する引用記号スタッ
クを用いて引用を検出して削除し、コメント記号を用い
てコメントを検出して、削除し、文末行、空行、表・図
形行、見出し行、記号行、デフォルト行の6種類の分類
を行い、メールの構造を用いて、画面制約による改行と
不要記号を検出して削除する。
【0024】また、本発明は、英字行を検出した際に、
日本語に翻訳して読み上げ対象とする。また、本発明
は、英字行を検出した際に、必要に応じて、検出された
英字行を削除して、読み上げ対象外とする。
【0025】また、本発明は、英字行を検出した際に、
必要に応じて、検出された英字行の情報を付加してその
部分のみを英語のまま読み上げる対象として設定する。
また、本発明は、文字列の正規表現を用いて書かれた曜
日表現テンプレート、年月日表現テンプレート、時間表
現テンプレートを用いて、日時表現の書換えを行う。
【0026】また、本発明は、前後の文字種により、
「〜」と「ー」(長音)をその性質により正しく読み上
げるように書換える。また、本発明は、「−」(マイナ
ス)を電話番号、ファクッス番号、住所、数式、郵便番
号、項番、範囲、その他のいずれかで用いられていると
して、文字列の正規化表現条件により書き換える。
【0027】図2は、本発明の原理構成図である。本発
明は、入力された電子メール10のテキスト情報を日本
語音声合成装置で読み上げ可能な表現に書き換える電子
メール書換え装置であって、インターネット上の電子メ
ール10のボディ部を対象に、正規表現により記述され
た文字列のパターンマッチにより、電子メールから読み
上げ不要の部分を削除し、表現を読み上げやすい表現に
書換え、構造化することにより、電子メールを読み上げ
用テキスト20に書き換える書換え手段100を有す
る。
【0028】また、上記の書換え手段100は、電子メ
ールの正規表現を用いて書かれた添付書類テンプレート
122と、添付書類テンプレート122を用いて、添付
書類の検出を行い、削除する添付書類検出・削除手段1
21と、行の長さと英字の割合により、英字行を検出
し、該英字行の性質により書換えを行う英字行書換え手
段123と、連続する行の行頭の文字列に着目して引用
記号を格納する引用記号スタック126と、引用記号ス
タック126を用いて引用を検出し、コメント記号を用
いてコメントを検出し、削除する引用行・コメント行書
換え手段125と、文末行、空行、表・図形行、見出し
行、記号行、デフォルト行の6種類の分類を行い、メー
ルの構造を用いて、画面制約による改行と不要記号を検
出して削除するメール構造解析・書換え手段127とを
有する。
【0029】上記の英字行書換え手段123は、必要に
応じて、英語から日本語に翻訳し、日本語化して読み上
げ対象とする翻訳手段を含む。上記の英字行書換え手段
123は、必要に応じて、検出された英字行を削除し
て、読み上げ対象外とする英字行削除手段を含む。
【0030】上記の英字行書換え手段123は、必要に
応じて、検出された英字行の情報を付加してその部分の
みを英語のまま読み上げる対象として設定する英語読み
上げ対象設定手段を含む。上記の書換え手段100は、
文字列の正規表現を用いて書かれた曜日表現テンプレー
ト、年月日表現テンプレート、時間表現テンプレートを
用いて、日時表現の書換えを行う日時表現書換え手段を
更に有する。
【0031】上記の書換え手段100は、前後の文字種
により、「〜」と「ー」(長音)を書換える長音書換え
手段を更に有する。上記の書換え手段100は、「−」
(マイナス)を電話番号、ファクッス番号、住所、数
式、郵便番号、項番、範囲、その他のいずれかで用いら
れているとして、文字列の正規化表現条件により書き換
えるマイナス記号書換え手段を更に有する。
【0032】これにより、本発明によれば、主に、日本
語でやりとりされ、時には、電子メールの一部の英文が
含まれたり、全文が英文であったりする、日本国内で最
も一般的と考えられる電子メールの利用状況を想定し、
インターネット上の電子メールのボディを対象に電子メ
ールから引用記号、コメント記号、添付書類、シグネチ
ャ、画面制約による改行等の読み上げ不要の部分を削除
し、日付、住所等を読み上げ易い表現に書換え、引用等
の電子メールの構造を把握し、構造情報を付加し、英文
を検出して、削除、または、日本語翻訳を行い、日本語
文章中の英単語に読みを付与する等の電子メールの書換
えを行うことが可能であるため、書換え後のテキストを
合成音声装置に入力した場合に、電子メールをそのまま
音声合成装置に入力するより、聞きやすく、分かりやす
い合成音声を出力することが可能となる。
【0033】
【発明の実施の形態】図3は、本発明の電子メール書換
え装置の構成を示す。同図に示す電子メール書換え装置
100は、ヘッダ・シグネチャ検出部110、メール構
造解析部120、表層書換え部130より構成される。
【0034】メール構造解析部120は、添付書類検出
・削除部121、添付書類テンプレート122、英字行
検出部123、英日翻訳部124、引用行、コメント行
検出部125、引用記号スタック126及び改行・不要
記号削除部127より構成される。
【0035】表層書換え部130は、日時書換え部13
1、記号書換え部132、アルファベット・カナ変換部
133、英単語読み辞書134、英字列カナ対応表13
5より構成される。上記の電子メール書換え装置100
の動作を以下に説明する。
【0036】図4は、本発明の電子メール書換え方法の
フローチャートである。 ステップ100) 書換えの対象となる電子メール10
を電子メール書換え装置100に入力すると、ヘッダ・
シグネチャ検出部110では、電子メール10のヘッダ
とシグネチャを検出する。この処理は、特願平8−47
789「パーソナル情報抽出方法及び装置」に開示され
ている「ヘッダ/シグネチャ検出手段」を用いることに
より検出することができる。
【0037】ステップ110) メール構造解析部12
0は、電子メール10の本文部の構造を解析する処理で
ある。処理の詳細は、図5において説明する。 ステップ120) 表層書換え部130は、そのままの
表現では読み誤ったり、分かりにくい表現を書き換え
て、読み上げ用テキスト20を生成し、音声合成装置の
入力とする。処理の詳細は、図7において説明する。
【0038】次に、上記のステップ110におけるメー
ル構造解析部120の処理を説明する。図5は、本発明
のメール構造解析部の処理のフローチャートである。 ステップ111) メール構造解析部120の添付書類
検出・削除部121は、“uuencode”、“BinHex”等で
エンコードされた添付書類を検出し、削除する。削除さ
れた部分には、「ここに添付書類○○がありましたの
で、削除しました」という文を挿入することができる。
【0039】添付書類の検出には、添付書類テンプレー
ト122を用いる。これは、それぞれの添付書類のフォ
ーマットを正規表現で表したものである。“uuencode”
の添付書類テンプレート122の例を図6に示す。 ステップ112) 英字行検出部123は、1行の長さ
と1行内に英字を含む割合に基づいて、英字行を検出す
る処理である。本処理で検出された英字行は、英字翻訳
部124を用いて日本語化して読み上げ対象としたり、
当該部分を削除して、読み上げ不要対象としたり、英字
行という情報を付加して、その部分のみ英語用音声合成
装置で読み上げたりすることができる。ここで、英日翻
訳部124は、任意の英日翻訳処理が適用可能である。
【0040】ステップ113) 引用行・コメント行検
出部125は、本文部の引用行とコメント行を検索し、
引用記号、コメント記号を削除する。連続する2行の先
頭文字(列)が同一であり、かつ、コメント記号でな
い、かつ、末尾が文章表現(ひらがな、漢字、カタカナ
からなる文字列と、それに付随する句読点、中点等の記
号類、英数字を含めた文字列(記号類、英数字は、存在
しなくても可。)飾り用の記号等ではない、読み上げ対
象となるべき文字列に相当)でない場合に、該当部分を
引用記号として検出し、本文部から削除し、引用記号ス
タック126に格納し、当該行を引用行とする。末尾が
文章表現であり、その他の条件を満たす場合には、文章
表現でない文字までを引用記号として検出する。
【0041】本文部全行を対象にこの処理を行った後、
本文部の各行頭と、引用記号スタック126との照合を
かけ、マッチする部分をさらに、本文部から削除する。
引用記号を削除した行を引用として認識する。ここで、
引用記号が同一となる行を、同一メールからの引用とし
て扱う。
【0042】また、コメント行は、行頭のコメント記号
(「#」(半角、全各共))により検出を行い、コメン
ト記号を削除して、該当行をコメントとして認識する。 ステップ114) 改行・不要記号削除部127は、画
面制約による改行、読み上げ不要の記号の削除を行う。
画面制約による改行の検出は、各行を、文末行、空行、
表・図形行、見出し行、記号行、デフォルト行に分類
し、デフォルト行であり、かつ、直後行が文末行、また
は、デフォルト行である、かつ、当該行と直後行が、引
用行・コメント行検出部125で判定された同一構造内
(同一メール引用行、コメント行、英字行、添付書類
(変換文章)、その他)である場合に改行を削除する。
また、空行、記号行も削除する。表・図形行は、文章表
現が殆どないと判断した場合、削除する。
【0043】各行の分類基準を図7に示す。次に、図4
のステップ120の表層書換え処理について説明する。
図8は、本発明の表層書換え処理のフローチャートであ
る。 ステップ121) 日時書換え部131は、記号等を用
いて表された日時表現を、そのまま読み上げられる文字
列表現に書き換える。本処理の詳細を図9のフローチャ
ートにより説明する。
【0044】ステップ1221) 日時書換え部131
における曜日検出処理では、略記されたり、英語表記さ
れた曜日表現を曜日表現テンプレートを用いて、通常の
表現に書き換える。曜日表現テンプレートは、正規表現
を用いて曜日表現を記述できる。例えば、「(月)」や
「(Mon )」を「月曜日」に書き換える。
【0045】ステップ1222) 日時書換え部131
における年月日検出処理では、略記されたり、英語表記
された年月日表現(年月日または、年月または、月日)
を年月日表現プレートを用いて、通常の表現に書き換え
る。年月日表現テンプレートでは、正規表現を用いて年
月日を記述でき、例えば、1〜12、01〜12までの
任意の数字を月表現として扱うことが可能である。
【0046】本処理には、例えば、「H8/8/8」
は、「平成8年8月8日」に書換えられ、「8/30」
は「8月30日」に書換えられる。但し、「15/3
0」や「x=8/30」は、年月日処理での書換えは行
なわれない。 ステップ1223) 日時書換え部131における時間
表現検出処理では、略記された時間表現を、時間表現テ
ンプレートを用いて、通常表現に書き換える。時間表現
テンプレートも正規表現で記述される。本処理により、
例えば、「09:00」は「9時」に、「PM10:0
0」は、「午後10時」に書換えられる。
【0047】ステップ123) 記号書換え部132
は、「〜」「−」(マイナス、半角全角共)、「ー」
(長音)を正しく読み上げるための書換えを行う。・
「〜」は、前後が記号でない、かつ、直前がひらがなで
ない場合に「から」に書換えを行う。・「ー」(長音)
は、直前文字がカタカナまたは、ひらがなでない場合に
は、「−」(マイナス)へ書換えを行う。ここで書換え
られた「−」(マイナス)も、後述する図10に示す
「−」(マイナス)書換え処理の対象とする。
【0048】ここで、「−」(マイナス)の書換え処理
を図10を用いて説明する。「−」(マイナス)は、電
話、ファクス番号、郵便番号、住所、数式、項番、範
囲、その他、のいずれかに使用されると想定して処理を
行う。図10は、本発明の「−」(マイナス)書換えの
フローチャートである。
【0049】以下の電話・ファクス番号検出処理(ステ
ップ1221)から項番検出処理(ステップ1225)
までは、「−」の前後が英数字列である場合に処理対象
となる。 ステップ1221) 電話・ファックス番号検出処理
は、「−」の前後の数字列パターンと、電話・ファック
スキーワード(「電話」、「TEL」等の電話やファッ
クスに関するキーワード)を用いて、電話・ファックス
番号の検出を行う。電話または、ファクス番号として検
出された場合には「−」(マイナス)を「の」に書換
え、前後の数字を棒読みするよう指定する。
【0050】本処理により、例えば、「03−3333
−3333」は、「03の3333の3333」(棒読
み)、「(電話)12−3456」は、「12の345
6」(棒読み)と書き換える。 ステップ1222) 住所検出処理は、「−」の前後の
数字列パターンと、住所キーワード(「市」、「区」、
「郡」、「町」、「村」など)を用いて住所の検出を行
う。住所として検出された場合には「−」(マイナス)
を「の」に書き換える。
【0051】本処理により、例えば、「横須賀市大滝町
1−1」は、「横須賀市大滝町1の1」に、「横須賀市
武1 山田アパート2−101」は、「横須賀市武1
山田アパート2の101」に書換える。 ステップ1223) 数式検出処理は、「−」の前後の
英数字列パターンと、数式記号キーワードには「−」の
書換えを行わない。
【0052】本処理により、例えば、「(x−y)/z
=123.456」は、数式として検出され、「−」の
書換えは行われない。 ステップ1224) 郵便番号検出処理は、「−」の前
後の数字列パターンと、郵便番号キーワード(「〒」、
「郵便番号」などの郵便番号に関するキーワード)を用
いて、郵便番号の検出を行う。郵便番号として検出され
た場合には「−」を「の」に書換え、前後の数字列は、
棒読みを行うよう指定する。
【0053】例えば、「〒238−03」は、「郵便番
号238の03」(棒読み)と書換えられる。 ステップ1225) 項番検出処理は、「−」の直前が
英数字列、直後が数字の場合、項番として検出する。項
番として検出された場合には、「−」を「の」に書き換
える。
【0054】ステップ1226) 範囲検出処理は、1
つの「−」のみが前後を数字で囲まれている際に「−」
が後方数字列の値が前方数字列の値よりも大きい場合
に、数字列直後にカタナカもしくは、漢字文字が接続す
る(カタカナ、漢字文字は、数字列と複合語を構成する
と判断する)、あるいは、前後の文字列に日時キーワー
ド(「年」、「月」、「日」「時」などの日時に関する
キーワード)を含むならば、範囲として検出し、「−」
を「から」に書き換える。
【0055】本処理により、例えば、「10−20倍」
は、「10から20倍」に、「10時−12時」は、
「10時から12時」に書き換える。 ステップ1227) デフォルト処理では、ステップ1
226までに処理対象にならなかった「−」のうち、2
個以上の「−」が数字列に囲まれて入る場合には「−」
を「の」に変換し、それ以外の場合には「−」をスペー
スに置き換える。
【0056】ステップ123) アルファベット・カナ
変換部133の処理は、日本語文章中に出現するアルフ
ァベット列に読みを付与するために、カタカナに変換す
る。本処理は、まず、英単語とその読み(カタカナ)か
らなる英単語読み辞書134を検索し、マッチした場合
には、英単語とその読みに書き換える。マッチしなかっ
た場合には、英字列カナ対応表135により、英単語の
部分文字列を順にローマ字変換し、全ての英字列の変換
後、ローマ字カナ変換を行い、カタカナの読みを得る。
【0057】最終的に、書換えられ、構造化された読み
上げテキスト20が得られる。構造の記述は、各音声合
成装置に依存した任意の形式で行うことが可能である。
【0058】
【実施例】以下、本発明の実施例を図面と共に説明す
る。以下の実施例では、図14の電子メールの例を用い
て、書換え処理の具体的な例を説明する。
【0059】まず、ヘッダ・シグネチャ検出部110に
おいて、第1〜7行のヘッダと、第8行のヘッダとボデ
ィの境界行、第39行〜43行までのシグネチャが取り
除かれる(ステップ100)。次に、メール構造解析部
120の添付書類検出・削除部121で、図6の“uuen
code”の添付書類テンプレート122が、第25行〜第
37行までにマッチする。そこで、第25行から第37
行までを削除し、その位置に、「ここに、添付書類pamp
hletがありましたので、削除しました」という文を挿入
する。
【0060】次の英字行検出部123においては、該当
行が当該電子メールには存在しないので、何も処理され
ない。引用行・コメント行検出部125で、まず、第1
1行〜第13行までが2行以上連続して先頭文字列が同
一(「>>」)であるので、第11行〜第13行までを
引用と認識し「>>」を引用記号として削除し、引用記
号スタック126に格納する。ここで、第11行、第1
2行では、「>>な」までが同一文字列であるが、
「な」は、文章表現の一部であると判断され、「>>」
までが対象となる。連続行のチェック終了後、各行先頭
部と引用記号スタック126との照合を行う。ここで、
第17行が引用記号スタック126にマッチするので、
引用と認識し、「>>」を削除する。
【0061】第22行は先頭文字が「#」であるので、
コメントと認識し、「#」を削除する(ステップ11
3)。次に、改行・不要記号削除部127において、行
を分類する(ステップ114)。
【0062】上記のステップ113までの書換え結果
と、ステップ114における行分類(行番号の右側)
と、メール構造(点線が境界を表す)を図11に示す。
行番号は振りなおしている。以降では、図11を参照し
ながら、説明する。第3行、第11行が改行を削除する
条件を満たす。また、第16行の記号行、第2、第6、
第8、第10、第15、第18行の空行も削除する。
【0063】ここまでの書換え結果を図12に示す。但
し、行番号は振りなおしている。以降では、図12を参
照しながら説明する。図9のステップ1221の曜日検
出処理において、第2行の「(日)」が、曜日表現テン
プレートにマッチし、「日曜日」に書換えられる。
【0064】次に、ステップ1222の年月日検出処理
で、第2行の「10/29」が、年月日表現テンプレー
トの月日表現にマッチし、「10月29日」に書換えら
れる。次に、ステップ1223の時間検出処理で、第2
行の「10:00」が、時間表現テンプレートにマッチ
し、「10時」に書換えられる。
【0065】次に、図8のステップ122の記号書換え
部132の「〜、−、ー」書換え処理で、第2行の
「〜」が「から」に書換えられる。「−」は存在しない
ので、図10の処理は行われない。次に、アルファベッ
トカナ変換部133のアルファベット・カナ変換処理
で、まず、第3行の「reply」が処理される。ここ
では、英単語読み辞書134に「reply」が登録さ
れていないとする。これにより、まず、英字列カナ対応
表135の「ply+単語境界→PURAI」がマッチ
する。次に、「単語境界+re→RI」がマッチする。
ここで、全てのアルファベットが英字列カナ対応表13
5によりローマ字に変換され、「RIPURAI」とな
る。これをローマ字カナ変換し、「リプライ」というカ
タカナが得られる。次に、第9行の「pamphle
t」がここでは、英単語読み辞書134に登録さている
とする。これにより、「pamphlet」に相当する
読み「パンフレット」が得られる。
【0066】最終的な書換え結果を図13に示す。な
お、本発明は、上記の実施例に限定されることなく、特
許請求の範囲内で種々変更・応用が可能である。
【0067】
【発明の効果】上述のように、本発明によれば、正規表
現により記述された文字列のパターンマッチにより、電
子メールの本文部の不要文字を削除し、分かりやすい表
現に書換え、構造化するので、より自然で分かり易い合
成音声で読み上げることができる。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の電子メール書換え装置の構成図であ
る。
【図4】本発明の電子メール書換え処理のフローチャー
トである。
【図5】本発明のメール構造解析処理のフローチャート
である。
【図6】本発明の添付書類テンプレートの例である。
【図7】本発明の画面制約による改行検出用行分類基準
の例である。
【図8】本発明の表層書換え処理のフローチャートであ
る。
【図9】本発明の日時書換え処理のフローチャートであ
る。
【図10】本発明の「−」(マイナス)書換え処理のフ
ローチャートである。
【図11】本発明の一実施例の電子メールの例(書換え
処理途中結果(1))である。
【図12】本発明の一実施例の電子メールの例(書換え
処理途中結果(2))である。
【図13】本発明の一実施例の電子メールの例(書換え
処理最終結果)である。
【図14】電子メールの例である。
【符号の説明】
10 電子メール 20 読み上げテキスト 100 電子メール書換え装置 110 ヘッダ・シグネチャ検出部 120 メール構造解析部 121 添付書類検出・削除部、添付書類検出・削除手
段 122 添付書類テンプレート 123 英字行検出部、英字行書換え手段 124 英日翻訳部 125 引用行・コメント行検出部、引用行・コメント
行書換え手段 126 引用記号スタック 127 改行・不要記号削除部、メール構造解析・書換
え手段 130 表層書換え部 131 日時書換え部 132 記号書換え部 133 アルファベット・カナ変換部 134 英単語読み辞書 135 英字列カナ対応表
───────────────────────────────────────────────────── フロントページの続き (72)発明者 松岡 浩司 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内 (72)発明者 高木 伸一郎 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 入力された電子メールのテキスト情報を
    日本語音声合成装置で読み上げ可能な表現に書き換える
    電子メール書換え方法において、 インターネット上の電子メールのボディ部を対象に、正
    規表現により記述された文字列のパターンマッチによ
    り、電子メールから読み上げ不要の部分を削除し、 前記電子メールのボディ部の表現を読み上げやすい表現
    に書換え、構造化することにより、前記電子メールを書
    き換え、前記日本語音声合成装置に入力する読み上げ用
    テキストを生成することを特徴とする電子メール書換え
    方法。
  2. 【請求項2】 前記電子メールの正規表現を用いて書か
    れた添付書類テンプレートを用いて、添付書類を検出し
    て削除し、 行の長さと英字の割合により、英字行を検出し、該英字
    行の性質により、書換えのパターンを決定して、書換
    え、 連続する行の行頭の文字列に着目して引用記号を格納す
    る引用記号スタックを用いて引用を検出して削除し、 コメント記号を用いてコメントを検出して削除し、 文末行、空行、表・図形行、見出し行、記号行、デフォ
    ルト行の6種類の分類を行い、メールの構造を用いて、
    画面制約による改行と不要記号を検出して削除する請求
    項1記載の電子メール書換え方法。
  3. 【請求項3】 前記英字行を検出した際に、日本語に翻
    訳して読み上げ対象とする請求項2記載の電子メール書
    換え方法。
  4. 【請求項4】 前記英字行を検出した際に、 必要に応じて、検出された英字行を削除して、読み上げ
    対象外とする請求項2記載の電子メール書換え方法。
  5. 【請求項5】 前記英字行を検出した際に、 必要に応じて、検出された英字行の情報を付加してその
    部分のみを英語のまま読み上げる対象として設定する請
    求項2記載の電子メール書換え方法。
  6. 【請求項6】 文字列の正規表現を用いて書かれた曜日
    表現テンプレート、年月日表現テンプレート、時間表現
    テンプレートを用いて、日時表現の書換えを行う請求項
    1記載の電子メール書換え方法。
  7. 【請求項7】 前後の文字種により、「〜」と「ー」
    (長音)を書換える請求項1記載の電子メール書換え方
    法。
  8. 【請求項8】 「−」(マイナス)を電話番号、ファク
    ッス番号、住所、数式、郵便番号、項番、範囲、その他
    のいずれかで用いられているとして、文字列の正規化表
    現条件により書き換える請求項1記載の電子メール書換
    え方法。
  9. 【請求項9】 入力された電子メールのテキスト情報を
    日本語音声合成装置で読み上げ可能な表現に書き換える
    電子メール書換え装置であって、 インターネット上の電子メールのボディ部を対象に、正
    規表現により記述された文字列のパターンマッチによ
    り、電子メールから読み上げ不要の部分を削除し、表現
    を読み上げやすい表現に書換え、構造化することによ
    り、前記電子メールを書き換える書換え手段を有するこ
    とを特徴とする電子メール書換え装置。
  10. 【請求項10】 前記書換え手段は、 前記電子メールの正規表現を用いて書かれた添付書類テ
    ンプレートと、 前記添付書類テンプレートを用いて、添付書類の検出を
    行い、削除する添付書類検出・削除手段と、 行の長さと英字の割合により、英字行を検出し、該英字
    行の性質により書換えを行う英字行書換え手段と、 連続する行の行頭の文字列に着目して引用記号を格納す
    る引用記号スタックと、 前記引用記号スタックを用いて引用を検出し、コメント
    記号を用いてコメントを検出し、削除する引用行・コメ
    ント行書換え手段と、 文末行、空行、表・図形行、見出し行、記号行、デフォ
    ルト行の6種類の分類を行い、メールの構造を用いて、
    画面制約による改行と不要記号を検出して削除するメー
    ル構造解析・書換え手段とを含む請求項9記載の電子メ
    ール書換え装置。
  11. 【請求項11】 前記英字行書換え手段は、 必要に応じて、英語から日本語に翻訳し、日本語化して
    読み上げ対象とする翻訳手段を含む請求項10記載の電
    子メール書換え装置。
  12. 【請求項12】 前記英字行書換え手段は、 必要に応じて、検出された英字行を削除して、読み上げ
    対象外とする英字行削除手段を含む請求項10記載の電
    子メール書換え装置。
  13. 【請求項13】 前記英字行書換え手段は、 必要に応じて、検出された英字行の情報を付加してその
    部分のみを英語のまま読み上げる対象として設定する英
    語読み上げ対象設定手段を含む請求項10記載の電子メ
    ール書換え装置。
  14. 【請求項14】 前記書換え手段は、文字列の正規表現
    を用いて書かれた曜日表現テンプレート、年月日表現テ
    ンプレート、時間表現テンプレートを用いて、日時表現
    の書換えを行う日時表現書換え手段を更に有する請求項
    9記載の電子メール書換え装置。
  15. 【請求項15】 前記書換え手段は、 前後の文字種により、「〜」と「ー」(長音)を書換え
    る長音書換え手段を更に有する請求項9記載の電子メー
    ル書換え装置。
  16. 【請求項16】 前記書換え手段は、 「−」(マイナス)を電話番号、ファクッス番号、住
    所、数式、郵便番号、項番、範囲、その他のいずれかで
    用いられているとして、文字列の正規化表現条件により
    書き換えるマイナス記号書換え手段を更に有する請求項
    9記載の電子メール書換え装置。
JP8287128A 1996-10-29 1996-10-29 電子メール書換え方法及び装置 Pending JPH10133853A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8287128A JPH10133853A (ja) 1996-10-29 1996-10-29 電子メール書換え方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8287128A JPH10133853A (ja) 1996-10-29 1996-10-29 電子メール書換え方法及び装置

Publications (1)

Publication Number Publication Date
JPH10133853A true JPH10133853A (ja) 1998-05-22

Family

ID=17713441

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8287128A Pending JPH10133853A (ja) 1996-10-29 1996-10-29 電子メール書換え方法及び装置

Country Status (1)

Country Link
JP (1) JPH10133853A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000082025A (ja) * 1998-09-04 2000-03-21 Toyota Motor Corp 電子メール装置
WO2001033549A1 (fr) * 1999-11-01 2001-05-10 Matsushita Electric Industrial Co., Ltd. Dispositif et procede de lecture de messages electroniques, et support enregistre de conversion de texte
JP2009145966A (ja) * 2007-12-11 2009-07-02 Nippon Telegr & Teleph Corp <Ntt> テキスト整形規則獲得装置、その方法、構造判定装置、それらのプログラム
JPWO2008114453A1 (ja) * 2007-03-20 2010-07-01 富士通株式会社 音声合成装置、音声合成システム、言語処理装置、音声合成方法及びコンピュータプログラム
JP2012068910A (ja) * 2010-09-24 2012-04-05 Toshiba Alpine Automotive Technology Corp 情報処理装置
JP2012099138A (ja) * 2005-03-02 2012-05-24 Google Inc 構造化情報の生成
WO2018061174A1 (ja) * 2016-09-30 2018-04-05 株式会社オプティム 電子書籍作成システム、電子書籍作成法及びプログラム
WO2018203388A1 (ja) * 2017-05-02 2018-11-08 三菱電機株式会社 読み推定装置
JP2019128943A (ja) * 2018-01-22 2019-08-01 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 多言語植字の表示方法、表示装置、ブラウザ、端末及びコンピュータ読み取り可能な記憶媒体

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000082025A (ja) * 1998-09-04 2000-03-21 Toyota Motor Corp 電子メール装置
WO2001033549A1 (fr) * 1999-11-01 2001-05-10 Matsushita Electric Industrial Co., Ltd. Dispositif et procede de lecture de messages electroniques, et support enregistre de conversion de texte
JP2012099138A (ja) * 2005-03-02 2012-05-24 Google Inc 構造化情報の生成
JPWO2008114453A1 (ja) * 2007-03-20 2010-07-01 富士通株式会社 音声合成装置、音声合成システム、言語処理装置、音声合成方法及びコンピュータプログラム
JP4930584B2 (ja) * 2007-03-20 2012-05-16 富士通株式会社 音声合成装置、音声合成システム、言語処理装置、音声合成方法及びコンピュータプログラム
JP2009145966A (ja) * 2007-12-11 2009-07-02 Nippon Telegr & Teleph Corp <Ntt> テキスト整形規則獲得装置、その方法、構造判定装置、それらのプログラム
JP2012068910A (ja) * 2010-09-24 2012-04-05 Toshiba Alpine Automotive Technology Corp 情報処理装置
WO2018061174A1 (ja) * 2016-09-30 2018-04-05 株式会社オプティム 電子書籍作成システム、電子書籍作成法及びプログラム
WO2018203388A1 (ja) * 2017-05-02 2018-11-08 三菱電機株式会社 読み推定装置
JP2019128943A (ja) * 2018-01-22 2019-08-01 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 多言語植字の表示方法、表示装置、ブラウザ、端末及びコンピュータ読み取り可能な記憶媒体

Similar Documents

Publication Publication Date Title
US7328404B2 (en) Method for predicting the readings of japanese ideographs
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
JPH10133853A (ja) 電子メール書換え方法及び装置
CN111401012A (zh) 文本纠错方法、电子设备及计算机可读存储介质
US7505903B2 (en) Speech recognition dictionary creation method and speech recognition dictionary creating device
Alghamdi et al. KACST Arabic diacritizer
JP6619932B2 (ja) 形態素解析装置およびプログラム
JP5448744B2 (ja) 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ
JP5339628B2 (ja) 未知語を含む文章を分類するための文章分類プログラム、方法及び文章解析サーバ
JP3648456B2 (ja) 音声合成装置
JP3029403B2 (ja) 文章データ音声変換システム
JP2765712B2 (ja) 文字認識入力装置
JP4407510B2 (ja) 音声合成装置及び音声合成プログラム
JPH11250063A (ja) 検索装置及び検索方法
JPH10312380A (ja) 電子メールサブジェクト生成方法及び装置及び電子メールサブジェクト生成プログラムを格納した記憶媒体
JP5252209B2 (ja) 読み生成装置
JP2575947B2 (ja) 文節切出し装置
JP3048793B2 (ja) 文字変換装置
JPH083718B2 (ja) 音声出力装置
JPH0262659A (ja) 日本文訂正候補文字抽出装置
JP2592995B2 (ja) 文節切出し装置
JPS6146557A (ja) 音声ワ−ドプロセツサ
JPH11212976A (ja) 形態素解析装置
JPH06337873A (ja) 文書読み上げ対象テキストの整形方法および装置
JPH0916575A (ja) 発音辞書装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041130

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050329