JP2003202885A

JP2003202885A - 情報処理装置及び方法

Info

Publication number: JP2003202885A
Application number: JP2001401424A
Authority: JP
Inventors: Yoji Sugito; 洋史杉戸
Original assignee: Canon Electronics Inc
Current assignee: Canon Electronics Inc
Priority date: 2001-12-28
Filing date: 2001-12-28
Publication date: 2003-07-18
Anticipated expiration: 2021-12-28
Also published as: JP3806030B2

Abstract

(57)【要約】【課題】複雑な登録操作をすることなく、受信されたメ
ッセージを、発信者本人の声で読み上げることを可能と
する。【解決手段】通信制御部２及び送受話器部３により音声
による通話を行うと、音声特徴抽出部７はこの通話で得
られる通話相手の音声から音声特徴データを生成する。
個人データ記憶部８は、音声特徴抽出部７で得られた音
声特徴データを、当該通話相手に対応付けて格納する。
電子メール受信部４がテキストデータを含むメッセージ
を受信すると、音声合成部１２は当該メッセージの送信
者に対応する通話相手の音声特徴データを個人データ記
憶部８より取得し、取得した音声特徴データを用いて、
当該メッセージに含まれるテキストデータに対する合成
音声データを生成する。生成された音声合成データは送
受話器部３に送られて、音声として出力される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声を用いてメッ
セージを処理することが可能な情報処理装置及び方法に
関する。更に詳しくは、受信したメッセージを音声にて
読み上げる、或いは送信すべきメッセージを音声認識を
用いて入力することが可能な装置に関するものである。

【０００２】

【従来の技術】電子メールの広がりに伴い、電子メール
に含まれるメッセージを音声にて読み上げ機能を持つ機
器が増えてきている。このような文書の読み上げにおい
て、その内容を聞き手に理解し易くする方法として、特
開２０００−１４８１７５には、発信者が、文章中に伝
えたいニュアンスや表情を表現する表情記号を挿入し、
読み上げ時には、その表情記号に応じた読み上げを行う
方法が示されている。また、ヒューマンＩ／Ｆの向上を
目的とし、コンピュータで人の感情を読み取る手法も多
数提案されている。例えば、特公平６−８２３７６で号
では日本語文章から作者の感情を抽出する方法が示され
ている。また、特開平５−１２０２３号では、音声から
音声認識を用いて感情を抽出する方法が示されている。

【０００３】

【発明が解決しようとする課題】しかしながら、上記特
開２０００−１４８１７５では、発信者側によって表情
記号を挿入する作業を行わなければならないというよう
な欠点がある。また、特公平６−８２３７６号と特開平
５−１２０２３号では、感情の抽出手段が示されている
だけで、その利用方法に及ぶ開示はない。

【０００４】また、メッセージを音声にて読み上げる場
合には、当該メッセージの発信者にかかわらず、ある特
定の声質を用いて行われるのが一般的であった。

【０００５】本発明は、受信されたメッセージを、発信
者本人の声で読み上げることを可能とすることを目的と
する。また、本発明の他の目的は、発信者本人の声、か
つ、感情のこもった読み上げを行うことにより、発信者
の意図をより正確に伝えることを可能とすることにあ
る。また、本発明の他の目的は、入力音声を音声認識処
理して得られる文字列に、その入力音声の感情を示す表
記を自動的に組み込んで送信メッセージを生成すること
を可能にすることにある。

【０００６】

【課題を解決するための手段】上記の目的を達成するた
めの本発明による情報処理装置は以下の構成を備える。
すなわち、音声による通話を行う通話手段と、前記通話
手段より得られる通話相手の音声から音声特徴データを
生成する生成手段と、前記生成手段で生成された音声特
徴データを前記通話相手に対応させて格納する格納手段
と、テキストデータを含むメッセージを受信する受信手
段と、前記受信手段で受信したメッセージの送信者に対
応する通話相手の音声特徴データを前記格納手段より取
得する取得手段と、前記取得手段で取得した音声特徴デ
ータを用いて、前記メッセージに含まれるテキストデー
タに対する合成音声データを生成する合成手段とを備え
る。

【０００７】また、上記の目的を達成するための本発明
の他の態様による情報処理装置は以下の構成を備える。
すなわち、音声を入力する入力手段と、前記入力手段で
入力された音声よりテキスト列を生成する音声認識手段
と、前記入力手段で入力された音声における発声状態の
変化を検出する検出手段と、前記検出手段で検出された
発声状態の変化に基づいて、前記音声認識手段で生成さ
れたテキスト列に付加的データを付与する付与手段と、
前記付与手段で付加的データが付与されたテキスト列を
含む送信メッセージを生成する生成手段とを備える。

【０００８】更に、上記の目的を達成するための本発明
の他の態様による情報処理装置は以下の構成を備える。
すなわち、音声を入力する入力手段と、前記入力手段で
入力された音声よりテキスト列を生成する音声認識手段
と、前記入力された音声を、複数の感情分類項目のいず
れかに分類する分類手段と、前記分類手段による分類結
果に基づいて、前記音声認識手段で生成されたテキスト
列に前記分類項目に対応する付加的データを付与する付
与手段と、前記付与手段で付加的データが付与されたテ
キスト列を含む送信メッセージを生成する生成手段とを
備える。

【０００９】更に、上記の目的を達成するための本発明
の他の態様による情報処理装置は以下の構成を備える。
すなわち、発声状態を表す付加データが付加されたテキ
スト列を含むメッセージを受信する受信手段と、前記受
信手段で受信されたメッセージのテキスト列に基づいて
音声データを生成する音声合成手段と、前記受信された
テキスト列より前記付加データを取得し、これに基づい
て前記音声データの発声状態を変更する変更手段とを備
える。

【００１０】更に、上記の目的を達成するための本発明
の他の態様による情報処理装置は以下の構成を備える。
すなわち、複数の感情分類項目のうちのどの感情分類に
属するかを表す付加データが付加されたテキスト列と、
該複数の感情分類項目のそれぞれに対応する音声特徴デ
ータを含むメッセージを受信する受信手段と、前記受信
手段で受信されたメッセージの付加データに基づいて、
テキスト列が属する感情分類項目に対応した音声特徴デ
ータを、該メッセージより取得する取得手段と、前記取
得手段で取得された音声特徴データを用いて、前記テキ
スト列に対する音声データを生成する音声合成手段とを
備える。

【００１１】

【発明の実施の形態】以下、添付の図面を参照して本発
明の好適な実施形態のいくつかについて詳細に説明す
る。

【００１２】＜実施形態１＞図１は実施形態１によるメ
ッセージ読み上げ装置の構成を示すブロック図である。

【００１３】１は主制御部であり、２は公衆回線と接続
する通信制御部である。３は音声による通話を行う送受
話器部である。以上の構成により、音声による通話が行
われる。すなわち、送話においては、送受話器部３によ
り、入力された音声信号をデジタル信号へ変換し、主制
御部１を介して通信制御部２より公衆回線に送信する。
受話は、公衆回線からの信号を通信制御部２により受信
してこれをデジタル信号に変換し、主制御部１を介して
送受話器部３で音声信号に変換する。これより音声の送
受による通話が成立する。

【００１４】４は、電子メール受信部であり通信制御部
２より受信した電子メールを格納する。ここで、主制御
部１は、通信制御部２より受信した信号がメッセージで
あるか音声通話であるかを判別し、メッセージであった
場合には電子メール受信部４に送り、音声通話であった
場合には送受話器部３に送る。

【００１５】５は入力部であり、操作者が電話番号のダ
イアルや、読み上げ指示等を行うときに使用する。６は
表示部であり、受信メッセージの表示等を行う。７は、
音声特徴抽出部であり、入力された音声の特徴を抽出す
る。本実施形態においては、音声通話時の受話側のデジ
タル信号（公衆回線より通信制御部２に受信された音声
信号をデジタル化した信号）を入力とする。８は個人デ
ータ記憶部であり、各個人の電話番号やメールアドレス
及び音声の特徴が保管されている。９は音声特徴データ
比較部であり、音声特徴抽出部７により抽出した音声特
徴と、個人データ記憶部８に保管されている音声の特徴
を比較し、必要に応じて個人データ記憶部８の内容を更
新する。

【００１６】１０はメールアドレス検索部であり、主制
御部１より入力されたメールアドレスが、誰のメールア
ドレスかを個人データ記憶部８から検索する。１１は電
話番号検索部であり、主制御部１より入力された電話番
号が、誰の電話番号かを個人データ記憶部８から検索す
る。１２は音声合成部であり、声質データを設定し、入
力されたテキスト文章の言語解析を行い、設定された声
質データを使用して音声データを作成する。音声合成部
１２で合成された音声データは、主制御部１を介して送
受話器部３に送られ、音声信号となる。後述するが、本
実施形態では、音声合成の対象は受信したメールのテキ
スト文章データであり、音声合成部１２では、当該メー
ルの送信元の話者の音声特徴データに対応した声質デー
タが設定される。

【００１７】図２は、個人データ記憶部８に保管されて
いるデータの構成例を示す図である。図２において、１
３は個人毎に割り振られる管理番号である。１４は名
前、１５は電話番号、１６はメールアドレスであり、こ
れらは操作者が入力したものである。また、１７は音声
特徴データであり、音声特徴抽出部７にて抽出された音
声特徴データ、或いは、音声特徴データ比較部９により
更新されたデータである。１８は学習回数であり、音声
特徴抽出部７にて抽出を行った回数（個人データ記憶部
８に記憶された音声特徴データに関する学習の回数）で
ある。尚、学習回数１８には、学習の対象者であるかど
うかの情報も含まれる。例えば学習回数データとして１
６bitを用いる場合、最上位bitを学習の対象者であるか
否かを表すフラグとして用いる。

【００１８】図３は、主制御部１による、音声特徴デー
タに対する学習処理を示すフローチャートである。本実
施形態では、音声通話時に、当該通話相手の音声特徴デ
ータについて学習が行われる。

【００１９】ステップＳ１０１で入力部５よりのダイア
ル入力を受けると、ステップＳ１０２で、通信制御部２
を用いて公衆回線に接続する。こうして送受話器部３に
より通話が可能となる。ステップＳ１０３では、電話番
号検索部１１によりステップＳ１０１で入力されたダイ
アル番号で個人データ記憶部８を検索する。ステップＳ
１０４では、この検索結果を受け、個人データ記憶部８
に該当者がいなかった場合または該当者が学習の対象者
でなかった場合にはステップＳ１０５へ進み、そのまま
学習処理を終了する。すなわち、学習処理は行われず、
通話のみが行われることになる。

【００２０】一方、ステップＳ１０３の検索の結果、該
当者があり、その該当者が学習の対象者あった場合には
ステップＳ１０６へ処理を移す。ステップＳ１０６では
公衆回線から送られてくる受話信号を音声特徴抽出部７
に送り、音声特徴の抽出を行う。ステップＳ１０７で
は、音声特徴抽出部７により抽出された音声特徴に基づ
いて、抽出音声特徴データを作成する。ステップＳ１０
８では、個人データ記憶部８の該当者の学習回数１８の
チェックを行う。ここで学習回数が０回でなければ、ス
テップＳ１０９へと移る。ステップＳ１０９では、音声
特徴データ比較部９により、個人データ記憶部８の該当
者欄に登録されている音声特徴データ１７と、ステップ
Ｓ１０７で作成した抽出音声特徴データの比較を行う。
尚、音声特徴データ比較部９では、２つのデータの差異
を検出し、差異のある部分に関して、登録されている音
声特徴データ１７に学習回数１８に応じた重み付けを行
い、抽出音声特徴データとの補完及び平均化を行う。ス
テップＳ１１０では、音声特徴データ比較部９の比較結
果に基づき新音声特徴データを作成し、ステップＳ１１
１にて個人データ記憶部８に登録する。

【００２１】尚、ステップＳ１０８で学習回数１８が０
回の場合には、比較すべき音声特徴データ１７がない。
従って、ステップＳ１０８からステップＳ１１２へ進
み、ステップＳ１０７で作成された抽出音声特徴データ
を個人データ記憶部８の音声特徴データ１７として登録
する。ステップＳ１１３では、学習回数１８を＋１して
ステップＳ１０５で終了する。

【００２２】なお、上記処理は発信による通話時の学習
を説明したが、着信による通話時においても、例えば番
号通知により通話相手の電話番号を特定できれば、通話
相手の音声特徴を学習できる。

【００２３】本実施形態のメッセージ読み上げ装置は、
以上のようにして生成、学習された音声特徴データを用
いてメールのメッセージを読み上げる。図４は、実施形
態１によるメール読み上げ時の主制御部１の処理を説明
するフローチャートである。

【００２４】ステップＳ２０１で入力部５より読み上げ
指示を受けると、ステップＳ２０２で、電子メール受信
部４より読み上げの対象とする電子メールを取り出す。
ステップＳ２０３では、この電子メールに付加されてい
る送信者メールアドレス情報を抽出する。次に、ステッ
プＳ２０４では、メールアドレス検索部１０により、こ
のメールアドレスを用いて個人データ記憶部８を検索す
る。

【００２５】この検索結果を受け、該当者がいる場合は
ステップＳ２０５からステップＳ２０６へ処理を移す。
ステップＳ２０６では、該当する個人データの学習回数
１８をチェックし、０回でなければステップＳ２０７へ
移る。ステップＳ２０７では、該当者の音声特徴データ
１７を読み出し、ステップＳ２０８で、音声合成部１２
に声質データとして設定する。尚、ステップＳ２０５で
該当者がない場合、或いは、ステップＳ２０６で学習回
数１８が０回の場合は、ステップＳ２０９で予め標準と
して設定している声質データを設定する。

【００２６】ステップＳ２１０では、音声合成部１２に
おいて、ステップＳ２０８或いはステップＳ２０９で設
定された声質データを用いて電子メールのメッセージを
音声データへと変換、合成する。そして、ステップＳ２
１１にて、ステップＳ２１０で変換された音声データを
送受話器部３にて音声とする。

【００２７】また、本実施形態のメッセージ読み上げ装
置では、主制御部１の制御により、入力部５、表示部６
を用いて個人データ記憶部８に格納されている音声特徴
データの調整を行うことができる。以下、この調整処理
について説明する。

【００２８】図５は、登録されている音声特徴データ１
７を調整する際の画面推移を示す図である。なお、本例
では、表示部６の上に入力部５としてタッチパネルが重
ねてある構成とするが、他の表示、入力形態であっても
よい。

【００２９】５０１は、調整モードの画面であり、個人
データ記憶部８に記憶されている名前と学習回数が表示
される。学習回数表示中の「○」は、学習回数０回を示
し、「◎」は、学習対象外を示している。５０２は、テ
スト発声文章の選択操作を示しており、「音声［自己紹
介］」をタッチすることによりプルダウンメニューが表
示され、発声文章を選ぶことができる。ここでは「自己
紹介」が選択されたものとする。５０３では、上下方向
キーにより名前の選択を行い、そこで「発声」をタッチ
すると、登録されている音声特徴データ１７を用いて５
０２で選択した定型文章の読み上げを行う。ここでは
「自己紹介」が選択されており、「私の名前は＊＊で
す。どうぞよろしく。」と発声する。

【００３０】音声の調整をする場合は、５０４に示すよ
うに、調整したい人にカーソルを合わせ「調整」をタッ
チすれば良い。５０５は調整画面である。調整画面にお
いては、ピッチ、トーン、語尾の調整が可能となってい
る。それぞれの項目をタッチすることにより選択し、左
右方向キーにて、ピッチの速さ、トーンの高低、語尾の
上下を調整する画面である。ここで「継続」をタッチす
ると、調整したデータを音声特徴データ１７として設定
するが今後も学習を継続することを意味している。「固
定」の時は、調整したデータを音声特徴データ１７と
し、５０６に示すように、学習回数欄の表示が◎とな
り、学習の対象外となり音声特徴データ１７は固定され
る。

【００３１】以上のように、実施形態１によれば、以下
のような効果がある。・相手の声でメッセージを読み上げることが可能とな
り、送信者の特定やイメージが明確になる。・メッセージの読み上げのための音声特徴データを生成
するにあたって、操作者が意識及び作業することなく相
手の声をサンプリングできる。・通話毎の学習により、より送信者の声に近づけること
ができる。・通話毎の学習により、送信者の声の変化に対応するこ
とが可能である。・音声の調整ができることにより、合成音声をより自分
のイメージする声に近づけることが可能である。

【００３２】＜実施形態２＞実施形態２では、感情要素
を加味したメッセージの読み上げを可能とするメッセー
ジ読み上げ装置を説明する。

【００３３】図６は実施形態２によるにメッセージ読み
上げ装置の構成を示すブロック図である。図６におい
て、参照番号１〜１２で示される構成は、図１に示した
実施形態１の各構成と同様の機能を有する。また、個人
データ記憶部８の中に記憶されている個人データの内容
も図２と概ね同様であるが、音声特徴データ１７が感情
別に構成される点が異なる。

【００３４】図７は実施形態２による音声特徴データの
内容を説明する図である。実施形態２における音声特徴
データ１７は、感情により大きな変化を生じない基本音
声データ２４と、感情に影響される感情影響音声データ
２５から構成されている。感情影響音声データ２５の構
成を説明する。２６は感情分類であり、本実施形態では
＜喜び：Ｈ＞＜期待：Ｅ＞＜通常：Ｕ＞＜悲しみ：Ｓ＞
＜怒り：Ａ＞に大別している。２７は、感情別データ２
８の「ピッチ」及び「トーン」が、音声から抽出したデ
ータであるか、予測・調整されたデータであるかを、＜
確定：Ｙ＞，＜暫定：Ｎ＞で示すサンプリング符号であ
る。

【００３５】再び図６において、１９は音声感情抽出部
であり、音声通話時の受話側のデジタル信号を入力と
し、入力された音声信号のピッチやアクセント等の「音
声律情報」に注目し、通話相手の感情を感情分類２６の
何れかに分類する。ここで分類された感情に、音声特徴
抽出部７の抽出結果に基づいて生成される音声特徴デー
タを、感情影響音声データ２５として記憶する。

【００３６】２０は感情データ調整部であり、音声特徴
データ２３の感情別データの内、検出できていない感
情、つまり、サンプリング符号２７が、＜暫定：Ｎ＞と
なっている感情別データ２８を、他の＜確定：Ｙ＞とな
っている感情別データ、及び予め定めた基準に沿って予
測・調整する。２１は文章感情抽出部であり、電子メー
ル受信部４にて受信したメッセージを入力とし、単語単
位で数量化した感情情報を予め辞書として持つことによ
り、単語列に含まれる感情情報を抽出し、単語または文
節毎に感情を判断する。２２は感情音声生成部であり、
音声合成部１２により作成された音声データに、文章感
情抽出部２１の結果に応じて、感情影響音声データ２５
の感情別データ２８を付加し、感情情報の加わった音声
データを生成する。

【００３７】図８は、及び図９は、実施形態２による音
声特徴データの作成例を示す図である。８０１は、初期
状態を示す。基本音声データ２４には標準音声データが
設定されている。また、感情影響音声データ２５にも標
準のデータが設定されている。すなわち、サンプリング
符号２７は全て＜暫定：Ｎ＞であり、感情別データ２８
もピッチ：a1〜a5，トーン：b1〜b5と標準の設定となっ
ている。この時点における学習回数１８は０回である。

【００３８】８０２は、音声の通話が行われた状態であ
る。音声は、音声特徴抽出部７と音声感情抽出部１９に
入力される。音声特徴抽出部７では、入力された音声か
ら基本音声データ２４ａ（Ｚ）と、感情別データ２８
（Ａ３，Ｂ３）を検出する。また、音声感情抽出部１９
では、入力された音声から感情を判断し、感情分類２６
（図ではＵに分類されている）として検出する。検出し
た基本音声データ２４（Ｚ）は、学習回数１８が０であ
ることより、音声特徴データ２３にそのまま基本音声デ
ータ２４として記憶される。これにより学習回数１８は
＋１され１回となる。

【００３９】一方、検出した感情影響音声データ２５
（Ａ３，Ｂ３）は、検出した感情分類２６ａがＵであ
り、感情影響音声データの＜通常：Ｕ＞のサンプリング
符号２７が＜暫定：Ｎ＞となっていることより、＜通
常：Ｕ＞の感情別データ２８として記憶する。また、サ
ンプリング符号２７は、＜暫定：Ｎ＞から＜確定：Ｙ＞
へと変更する。

【００４０】次に８０３では、８０２で感情影響音声デ
ータ２５が更新されたことにより感情データ調整部２０
が起動される。感情データ調整部２０は、サンプリング
符号２７が＜確定：Ｙ＞となっている感情別データ２８
の全てを用いて、サンプリング符号２７が＜暫定：Ｎ＞
となっているすべての感情別データを調整する。例え
ば、８０３の場合、サンプリング符号２７が＜確定：Ｙ
＞となっている＜通常：Ｕ＞の感情別データ２８を取り
込み、他の感情分類２６、つまりサンプリング符号２７
が＜暫定：Ｎ＞となっているすべて、Ｓ８０３では＜喜
び：Ｈ＞＜期待：Ｅ＞＜悲しみ：Ｓ＞＜怒り：Ａ＞の感
情別データ２８を、予め定めた感情分類２６の互いの相
関関係、例えば、ピッチの関係はＥ：Ｕ＝１．２：１と
いった相関関係から決定し、それらを更新する。

【００４１】８０４は、次の通話が行われた状態を示し
ている。８０１と同じ流れにより入力された音声から基
本音声データ２４ｂと、感情別データ２８（Ａ２，Ｂ
２）、感情分類２６（Ｅ）が検出される。検出された感
情別データ（Ａ２，Ｂ２）は、検出した感情分類２６ｂ
（Ｅ）に対応する＜期待：Ｅ＞のサンプリング符号２７
が＜暫定：Ｎ＞となっていることより、＜期待：Ｅ＞の
感情別データ２８として記憶する。そして、＜期待：Ｅ
＞のサンプリング符号２７を＜暫定：Ｎ＞から＜確定：
Ｙ＞へと変える。

【００４２】検出した基本音声データ２４（Ｙ）は、学
習回数１８が１であることより、８０５へと移り、音声
特徴データ比較部７に、検出した基本音声データ２４ｂ
（Ｙ）と、記憶されていた基本音声データ２４（Ｚ）
と、学習回数１８を入力する。音声特徴データ比較部７
では、記憶されていた基本音声データ２４（Ｚ）に学習
学習回数１８で重み付けを行い、検出した基本音声デー
タ２４（Ｙ）との平均をとり、新たな音声基本データ２
４ｃ（Ｘ）を作成し、音声特徴データ２３の基本音声デ
ータ２４として記憶する。続いて学習回数１８が＋１さ
れ、学習回数は２回となる。

【００４３】８０６では、感情影響音声データ２５が更
新されたことにより感情データ調整部２０が起動され
る。上述したように、感情データ調整部２０は、サンプ
リング符号２７が＜確定：Ｙ＞となっている感情別デー
タ２８の全て、８０６では＜通常：Ｕ＞と＜期待：Ｅ＞
の感情別データ２８を取り込み、サンプリング符号２７
が＜暫定：Ｎ＞となっているすべて、８０６では＜喜
び：Ｈ＞＜悲しみ：Ｓ＞＜怒り：Ａ＞の感情別データ２
８を、予め定めた感情分類２６の互いの相関関係に従っ
て更新する。なお、例えば、ピッチの関係の標準値を
Ｈ：Ｅ：Ｕ＝１．５：１．２：１といった関係に対し
て、実際に取り込んだ感情別データ２８ではＥ：Ｕ＝
１．０８：１となっており、サンプリング符号２７が＜
確定：Ｙ＞となっている感情別データ２８を再度検出し
た場合には、実施形態１で示した学習方法と同様に感情
データ２８を更新し、当更新時にも＜暫定：Ｎ＞のデー
タを更新しても良い。Ｅ：Ｕ＝１．０８：１となってい
た場合は、感情がピッチに反映される比率が低い人とい
う判断を行い、Ｈも標準より低くなると予想し、Ｈ＝
１．５×１．０８／１．２＝１．３５というように補正
を行ってデータを決定し、更新する。

【００４４】図１０は、実施形態２によるメッセージ読
み上げ時の音声データの作成経路を示す図である。

【００４５】２９は読み上げ対象となる受信メッセージ
であり、受信メッセージ２９は、文章感情抽出部２１と
音声合成部１２に渡される。また、基本音声データ２４
も音声合成部１２に渡される。文章感情抽出部２１で
は、受信メッセージ２９から、単語または文節毎に感情
を判断し、受信メッセージ２９に感情情報を付加した感
情メッセージデータ３０を作成する。音声合成部１２で
は、声質データとして基本音声データ２４を用いて、受
信メッセージ２９を音声合成し、音声データ３１を作成
する。

【００４６】感情メッセージデータ３０と音声データ３
１及び感情影響音声データ２５は、感情音声生成部２２
に渡される。感情音声生成部２２では、入力された音声
データ３１に対して、感情メッセージデータ３０に含ま
れる感情情報に対応した感情影響音声データ２５の感情
別データにて加工を行い、感情入り音声データ３２を作
成する。感情入り音声データ３２は、送受話器部３によ
って音声となる。

【００４７】以上説明したように、実施形態２によれば
以下の効果が得られる。・送信者の感情を読み上げ音声から知ることができ、よ
り正確に相手の意図を掴むことが可能である。・送信者の感情より緊急度を計ることが可能となる。・送信者が感情を表面に現さない人でも、その文面から
相手の感情を知ることにより相手への理解を深めること
ができる。

【００４８】＜実施形態３＞次に、入力された音声に対
して音声認識を行い、電子メールを生成し、これを送信
するメッセージ送信装置と、このような電子メールを受
信して読み上げるメッセージ読み上げ装置について説明
する。なお、送信対象は、電子メールに限らず、チャッ
トのようなメッセージ送信であってもかまわない。

【００４９】図１１は実施形態３によるメッセージ送信
装置の構成を示すブロック図である。実施形態１の装置
構成（図１）で説明した構成と同様の機能を有する構成
には同一の参照番号を付してある。

【００５０】３３は音声入力部であり、マイクにより操
作者の音声を電気信号として入力する。３４は電子メー
ル送信部である。３５は音声認識部であり、音声入力部
３３より入力された音声を音声認識して、テキストデー
タに変換する。３６は音量・速度検出部であり、音声入
力部３３より入力された音声の、音量と話す速度を検出
し、他の音声部分と比べ、予め定めた一定率以上に異な
る個所を検出する。３７は文章作成部であり、音声認識
部３５にて認識したテキストデータに、音声特徴データ
の付加と音量・速度検出部３６の検出結果の情報を含ん
だ送信メールを作成するものである。なお、音声入力部
３３は送受話器部３の通話部を用いてもよい。

【００５１】図１２は、実施形態３による送信メールの
データの作成経路を示す図である。３８は操作者の音声
であり、音声入力部３３から入力され、音声データ３１
となる。音声データ３１は音声特徴抽出部７と、音声認
識部３５と、音量・速度検出部３６に入力される。

【００５２】音声認識部３５では、入力された音声信号
３１を順次音声認識することによりテキストデータ３９
とし、これを文章作成部３７へ入力する。音量・速度検
出部３６では、音声データ３１において音量・速度に大
きな変化を生じた時にその内容を文章作成部３７に通知
する。文章作成部３７では、その通知を受け、テキスト
データ３９のその音声部分に対応する箇所に、予め定め
た情報付加方法に従って情報を付加する。情報付加方法
としては、テキスト文字に対してアンダーラインや斜め
文字等の装飾や、文字サイズ、フォント種別、また画面
上に表示されないデータとして付加するなどの方法があ
る。

【００５３】音声特徴抽出部７では入力された音声デー
タ３１から、音声特徴データ１７を作成し文章作成部３
７へと渡す。文章作成部３７では、情報を付加したテキ
スト文章に音声特徴データ１７及びその他の情報を付加
して送信メール４０を作成する。

【００５４】図１３に送信メール４０の構成例を示す。
４１は送信先の宛先情報であり、４２は送信者、つまり
自分の情報である。４３はメール種別情報であり、当メ
ールにおいては音声情報入りメールであることを示す
（音声情報入りメールとは、音声の音量や速度に応じて
フォント、サイズ、文字修飾等が変更されているメール
である）。次に入力時の音声特徴データ１７が格納され
ている。また、４４はSubjectであり、４５は音声情報
を含んだ文章例である。

【００５５】図１３の例において、文章４５では、「こ
んにちは＊＊です。」は通常音声であり、文字は標準と
して設定されている文字を使用している。「例の彼女の
写真ですが」では、ここで「彼女の写真」の入力時に音
量・速度検出部３６が、音量が小さいと検出したことよ
りフォントサイズは小さくなり、また同時に話す速度が
速いと検出したことより、さらに斜め文字修飾が行われ
ている。「今日中に必ずお願いします」では、音量・速
度検出部３６が、音量が著しく大きいと検出したことよ
り、フォントサイズを大きくし、また同時に話す速度が
遅いと検出したことより、太字となっている。さらに、
前記２つの検出の組み合わせ（音量が大きくゆっくりし
ていること）から重要部分として認識され、アンダーラ
インが付加されている。

【００５６】尚、送信メール４０を表示部６に表示し、
入力部５にて文字装飾の追加や修正を行った後に送信す
るようにすることも当然可能である。

【００５７】次に、以上のような音声情報入りメールを
読み上げる読み上げそう地に着いて説明する。図１４
は、実施形態３による音声情報入りメールに対応したメ
ール読み上げ装置の構成を示すブロック図である。

【００５８】送信メール４０は公衆回線を通して通信制
御部２で受信され、主制御部１を介して電子メール受信
部４へと送られる。入力部５からメールが指定される
と、表示部６にそのメール内容が表示される。このとき
の表示状態は、図１３の４５に示したように、音声状態
に応じて設定されたフォント、サイズ、文字修飾に従っ
たものとなる。

【００５９】また入力部５から読み上げを指示された場
合は、メールは電子メール受信部４から主制御部１へと
移り、主制御部１でメール種別情報４３により音声情報
入りメールであることを確認し、Subject４４と文章４
５が音声合成部１２に渡される。このとき、声質データ
として当該電子メールに含まれる音声特徴データ１７を
設定する。また、文章４５は音量・速度調整部４７へも
渡される。音声合成部１２では、声質データを元に音声
データを作成する。また、音量・速度調整部４７では、
入力された文章４５から文字の装飾や大きさに含まれて
いる付加情報を取り出し、この付加情報に基づいて、音
声合成部１２で作成された音声データに音量や速度等を
設定する加工を行い、最終読み上げデータを作成する。
最終読み上げデータは、主制御部１を介して音声出力部
４７に送られ、音声へと変換される。

【００６０】尚、本例においては、音声入力時の音声の
特徴を検出する例を示したが、実施形態１で示したよう
に、音声入力部３３を送受話器部３として、通話時に音
声特徴データ１７を作成しておき、送信メールに音声特
徴データ１７を付加するようにしても良い。この場合に
は当然、実施形態１に示した学習や音声の調整を行える
ものである。

【００６１】以上説明したように、実施形態３によれ
ば、以下のような効果が得られる。・声の大小や喋りかたにより意図的に文章に変化を入れ
ることが可能である。・受信者は送信者の声で聞くことができので、送信者を
特定でき、意図を理解し易くなる。・音声データとして送信するよりもデータ量が少なく、
通信料金が少ない。・受信者は視覚的にも送信者の意図を見ることが可能で
ある。

【００６２】＜実施形態４＞次に、実施形態４として、
実施形態３に感情要素を加味したメッセージ送信装置に
ついて説明する。

【００６３】図１５は実施形態４によるメッセージ送信
装置の構成を示すブロック図である。図１５に示される
構成は、実施形態３で示した構成図（図１１）に、感情
検出部４８が加わったものである。感情検出部４８は、
音声入力部３３から入力された音声データ３１より、話
者の感情を判断し、その結果が予め定めた「通常の感
情」の範囲以上の変化を示した時に、その結果を感情分
類２６として出力するものである。

【００６４】図１６は、実施形態４によるメッセージ送
信装置における、音声入力から感情情報を含むメッセー
ジを作成するまでの作成経路を示す図である。

【００６５】音声入力部３３に入力された話者の音声３
８は、音声データ３１となり、音声認識部３５、感情検
出部４８、音声特徴検出部７へと入力される。音声認識
部３５では、音声データ３１を順次音声認識することに
よりテキストデータ３９を作成し文章作成部３７へ渡
す。感情検出部４８では、音声データ３１から感情の判
断を行い、感情が設定範囲を超えた場合にその感情分類
２６を出力する。感情分類２６は、音声特徴抽出部７と
文章作成部３７に入力される。音声特徴抽出部７では、
音声データ３１より音声の特徴を抽出すると共に、入力
された感情分類２６により感情別の特徴も抽出し、これ
に基づいて基本音声データ２４と、感情影響音声データ
２５を作成する。

【００６６】文章作成部３７では、感情分類２６の通知
を受け、その時のテキストデータ３９に文節毎に、予め
感情分類２６毎に定めた情報付加方法に従って情報を付
加する。文章作成部３７では、情報を付加したテキスト
文章に基本音声データ２４、感情影響音声データ２５及
びその他の情報を付加して送信メール４９を作成する。

【００６７】図１７は実施形態４における送信メールの
構成例を示す図である。実施形態４の送信メール４９の
主な構成は図１３と同様であり、図１７には送信メール
４９の特徴的な部分が示されている。

【００６８】音声特徴データ１７は、基本音声データ２
４と感情影響音声データ２５とによって構成される。ま
た、Subject４４に続き感情情報入り文章データ５０が
格納される。図１７では、感情方法入り文章データの一
例が示されている。この文章例の中で、「こんにちは，
＊＊です。」は、感情検出部４８で感情分類２６で＜通
常＞と判断し、標準として設定してある文字にて記述さ
れる。「楽しかった」は、感情分類２６で＜喜び＞と判
断され、＜喜び＞に対応した文字として「（笑）」を加
えることにより＜喜び＞の情報を付加している。「誰も
いなかった」では、感情分類２６で＜悲しみ＞と判断
し、文節後に0003hという画面上表記されないデータを
加えることにより＜悲しみ＞の情報を付加している。
「頭にきた」では、感情分類２６で＜怒り＞と判断し、
「!!」を加えることにより＜怒り＞の情報を付加してい
る。「返事待ってます」では、感情分類２６で＜期待＞
と判断し、絵文字である「(^_^)」を加えることにより
＜期待＞の情報を付加している。前記情報付加の方法
は、方法として各種の方法を示したものであり、各感情
分類２６に対して特定した方法ではない。

【００６９】尚、作成した文章５０を編集する時には、
＜悲しみ＞の情報である０００３ｈも情報として表示さ
れ、編集することが可能となっている。

【００７０】このような送信メッセージを読み上げる装
置には、実施形態２で説明したような装置を用いること
ができる。すなわち、送信メールに含まれる基本音声デ
ータ２４、感情影響音声データ２５を用いて、図１０に
示すようにして音声合成を行う。ただし、実施形態４の
場合、文章感情抽出部２１では、予め決められた記号や
文字列（!!、(笑)等）、コード（0003h）等を読み上げ
対象のメッセージから取り出し、これに基づいて感情メ
ッセージデータ３０を生成することになる。

【００７１】以上のように、実施形態４によれば、以下
の効果がある。・感情要素が加わることにより、より送
信者の意図や気持ちを伝えることが可能となる。・受信
者は視覚的にも、送信者の感情を知ることが可能であ
る。

【００７２】

【発明の効果】以上説明したように、本発明によれば、
複雑な登録操作をすることなく、受信されたメッセージ
を、発信者本人の声で読み上げることが可能となる。ま
た、本発明によれば、発信者本人の声で、かつ、感情の
こもった読み上げを行うことが可能となり、発信者の意
図をより正確に伝えることができる。更に、本発明によ
れば、入力音声を音声認識処理して得られる文字列に、
その入力音声の感情を示す表記を自動的に組み込んで送
信メッセージを生成することが可能となり、感情表現豊
かなメッセージの送信を実現できる。

【図面の簡単な説明】

【図１】実施形態１によるメッセージ読み上げ装置の構
成を示すブロック図である。

【図２】個人データ記憶部８に保管されているデータの
構成例を示す図である。

【図３】主制御部１による、音声特徴データに対する学
習処理を示すフローチャートである。

【図４】実施形態１によるメール読み上げ時の主制御部
１の処理を説明するフローチャートである。

【図５】実施形態１において、登録されている音声特徴
データ１７を調整する際の画面推移を示す図である。

【図６】実施形態２によるにメッセージ読み上げ装置の
構成を示すブロック図である。

【図７】実施形態２による音声特徴データの内容を説明
する図である。

【図８】実施形態２による音声特徴データの作成例を示
す図である。

【図９】実施形態２による音声特徴データの作成例を示
す図である。

【図１０】実施形態２によるメッセージ読み上げ時の音
声データの作成経路を示すする図である。

【図１１】実施形態３によるメッセージ送信装置の構成
を示すブロック図である。

【図１２】実施形態３による送信メールのデータの作成
経路を示す図である。

【図１３】実施形態３による送信メール４０の構成例を
示す図である。

【図１４】実施形態３による音声情報入りメールに対応
したメール読み上げ装置の構成を示すブロック図であ
る。

【図１５】実施形態４によるメッセージ送信装置の構成
を示すブロック図である。

【図１６】実施形態４によるメッセージ送信装置におけ
る、音声入力から感情情報を含むメッセージを作成する
までの作成経路を示す図である。

【図１７】実施形態４における送信メールの構成例を示
す図である。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ０６Ｆ 17/30 ３６０Ｇ１０Ｌ 3/00 ＨＧ１０Ｌ 13/00 5/04 Ｆ 13/06 3/00 Ｒ 15/00 ５５１Ａ 15/10 ５３１Ｎ

Claims

【特許請求の範囲】

【請求項１】音声による通話を行う通話手段と、前記通話手段より得られる通話相手の音声から音声特徴
データを生成する生成手段と、前記生成手段で生成された音声特徴データを前記通話相
手に対応させて格納する格納手段と、テキストデータを含むメッセージを受信する受信手段
と、前記受信手段で受信したメッセージの送信者に対応する
通話相手の音声特徴データを前記格納手段より取得する
取得手段と、前記取得手段で取得した音声特徴データを用いて、前記
メッセージに含まれるテキストデータに対する合成音声
データを生成する合成手段とを備えることを特徴とする
情報処理装置。
【請求項２】前記通話手段による通話の間に前記生成
手段により得られた音声特徴データを用いて、前記格納
手段に既に格納されている、当該通話の通話相手に対応
する音声特徴データを更新する更新手段を更に備えるこ
とを特徴とする請求項１に記載の情報処理装置。
【請求項３】前記格納手段に格納された音声特徴デー
タをマニュアルで調整する調整手段を更に備えることを
特徴とする請求項１に記載の情報処理装置。
【請求項４】前記通話手段より得られる通話相手の音
声を、複数の感情分類項目のいずれかに分類する分類手
段を更に備え、前記生成手段は、前記分類手段によって分類された各感
情分類項目毎に音声特徴データを取得し、前記格納手段は、前記感情分類項目毎に音声特徴データ
を格納することを特徴とする請求項１に記載の情報処理
装置。
【請求項５】前記分類手段は、前記音声より検出され
るピッチ及びアクセント等の音声律情報に基づいて感情
分類を行うことを特徴とする請求項４に記載の情報処理
装置。
【請求項６】前記メッセージに含まれるテキストデー
タが前記複数の感情分類項目の何れに属するかを判定す
る判定手段を更に備え、前記取得手段は、前記受信手段で受信したメッセージの
送信者に対応する通話相手の、前記判定手段で判定され
た感情項目分類に対応する音声特徴データを前記格納手
段より取得することを特徴とする請求項４に記載の情報
処理装置。
【請求項７】前記生成手段においてある感情分類項目
に対応する音声特徴データが生成された場合、該音声特
徴データを用いて他の感情分類項目に対応する音声特徴
データを更新する更新手段を更に備えることを特徴とす
る請求項４に記載の情報処理装置。
【請求項８】音声を入力する入力手段と、前記入力手段で入力された音声よりテキスト列を生成す
る音声認識手段と、前記入力手段で入力された音声における発声状態の変化
を検出する検出手段と、前記検出手段で検出された発声状態の変化に基づいて、
前記音声認識手段で生成されたテキスト列に付加的デー
タを付与する付与手段と、前記付与手段で付加的データが付与されたテキスト列を
含む送信メッセージを生成する生成手段とを備えること
を特徴とする情報処理装置。
【請求項９】前記付加的データは、前記テキスト列の
属性であることを特徴とする請求項８に記載の情報処理
装置。
【請求項１０】前記検出手段は、前記入力された音声
の音量及び／又はスピードの変化を検出することを特徴
とする請求項８に記載の情報処理装置。
【請求項１１】前記入力された音声より音声特徴デー
タを取得する取得手段を更に備え、前記生成手段で生成される送信メッセージは前記音声特
徴データを含むことを特徴とする請求項８に記載の情報
処理装置。
【請求項１２】音声を入力する入力手段と、前記入力手段で入力された音声よりテキスト列を生成す
る音声認識手段と、前記入力された音声を、複数の感情分類項目のいずれか
に分類する分類手段と、前記分類手段による分類結果に基づいて、前記音声認識
手段で生成されたテキスト列に前記分類項目に対応する
付加的データを付与する付与手段と、前記付与手段で付加的データが付与されたテキスト列を
含む送信メッセージを生成する生成手段とを備えること
を特徴とする情報処理装置。
【請求項１３】前記分類手段は、前記入力された音声
の各文節を前記複数の感情分類項目のいずれかに分類す
ることを特徴とする請求項１２に記載の情報処理装置。
【請求項１４】前記分類手段で分類された各音声に基
づいて、感情分類項目毎の音声特徴データを取得する取
得手段を更に備え、前記生成手段で生成される送信メッセージは前記感情分
類項目毎の音声特徴データを含むことを特徴とする請求
項１２に記載の情報処理装置。
【請求項１５】発声状態を表す付加データが付加され
たテキスト列を含むメッセージを受信する受信手段と、前記受信手段で受信されたメッセージのテキスト列に基
づいて音声データを生成する音声合成手段と、前記受信されたテキスト列より前記付加データを取得
し、これに基づいて前記音声データの発声状態を変更す
る変更手段とを備えることを特徴とする情報処理装置。
【請求項１６】前記発声状態が発声の音量及びスピー
ドを含むことを特徴とする請求項１５に記載の情報処理
装置。
【請求項１７】前記メッセージは、音声特徴データを
含み、前記音声合成手段は、前記メッセージに含まれる音声特
徴データを用いてテキスト列に対する音声データを生成
することを特徴とする請求項１５に記載の情報処理装
置。
【請求項１８】複数の感情分類項目のうちのどの感情
分類に属するかを表す付加データが付加されたテキスト
列と、該複数の感情分類項目のそれぞれに対応する音声
特徴データを含むメッセージを受信する受信手段と、前記受信手段で受信されたメッセージの付加データに基
づいて、テキスト列が属する感情分類項目に対応した音
声特徴データを、該メッセージより取得する取得手段
と、前記取得手段で取得された音声特徴データを用いて、前
記テキスト列に対する音声データを生成する音声合成手
段とを備えることを特徴とする情報処理装置。
【請求項１９】音声による通話を行う通話工程と、前記通話工程より得られる通話相手の音声から音声特徴
データを生成する生成工程と、前記生成工程で生成された音声特徴データを前記通話相
手に対応させて格納手段に格納する格納工程と、テキストデータを含むメッセージを受信する受信工程
と、前記受信工程で受信したメッセージの送信者に対応する
通話相手の音声特徴データを前記格納手段より取得する
取得工程と、前記取得工程で取得した音声特徴データを用いて、前記
メッセージに含まれるテキストデータに対する合成音声
データを生成する合成工程とを備えることを特徴とする
情報処理方法。
【請求項２０】前記通話工程による通話の間に前記生
成工程により得られた音声特徴データを用いて、前記格
納工程に既に格納されている、当該通話の通話相手に対
応する音声特徴データを更新する更新工程を更に備える
ことを特徴とする請求項１９に記載の情報処理方法。
【請求項２１】前記格納工程に格納された音声特徴デ
ータをマニュアルで調整する調整工程を更に備えること
を特徴とする請求項１９に記載の情報処理方法。
【請求項２２】前記通話工程より得られる通話相手の
音声を、複数の感情分類項目のいずれかに分類する分類
工程を更に備え、前記生成工程は、前記分類工程によって分類された各感
情分類項目毎に音声特徴データを取得し、前記格納工程は、前記感情分類項目毎に音声特徴データ
を前記格納手段に格納することを特徴とする請求項１９
に記載の情報処理方法。
【請求項２３】前記分類工程は、前記音声より検出さ
れるピッチ及びアクセント等の音声律情報に基づいて感
情分類を行うことを特徴とする請求項２２に記載の情報
処理方法。
【請求項２４】前記メッセージに含まれるテキストデ
ータが前記複数の感情分類項目の何れに属するかを判定
する判定工程を更に備え、前記取得工程は、前記受信工程で受信したメッセージの
送信者に対応する通話相手の、前記判定工程で判定され
た感情項目分類に対応する音声特徴データを前記格納手
段より取得することを特徴とする請求項２２に記載の情
報処理方法。
【請求項２５】前記生成工程においてある感情分類項
目に対応する音声特徴データが生成された場合、該音声
特徴データを用いて他の感情分類項目に対応する音声特
徴データを更新する更新工程を更に備えることを特徴と
する請求項２２に記載の情報処理方法。
【請求項２６】音声を入力する入力工程と、前記入力工程で入力された音声よりテキスト列を生成す
る音声認識工程と、前記入力工程で入力された音声における発声状態の変化
を検出する検出工程と、前記検出工程で検出された発声状態の変化に基づいて、
前記音声認識工程で生成されたテキスト列に付加的デー
タを付与する付与工程と、前記付与工程で付加的データが付与されたテキスト列を
含む送信メッセージを生成する生成工程とを備えること
を特徴とする情報処理方法。
【請求項２７】前記付加的データは、前記テキスト列
の属性であることを特徴とする請求項２６に記載の情報
処理方法。
【請求項２８】前記検出工程は、前記入力された音声
の音量及び／又はスピードの変化を検出することを特徴
とする請求項２６に記載の情報処理方法。
【請求項２９】前記入力された音声より音声特徴デー
タを取得する取得工程を更に備え、前記生成工程で生成される送信メッセージは前記音声特
徴データを含むことを特徴とする請求項２６に記載の情
報処理方法。
【請求項３０】音声を入力する入力工程と、前記入力工程で入力された音声よりテキスト列を生成す
る音声認識工程と、前記入力された音声を、複数の感情分類項目のいずれか
に分類する分類工程と、前記分類工程による分類結果に基づいて、前記音声認識
工程で生成されたテキスト列に前記分類項目に対応する
付加的データを付与する付与工程と、前記付与工程で付加的データが付与されたテキスト列を
含む送信メッセージを生成する生成工程とを備えること
を特徴とする情報処理方法。
【請求項３１】前記分類工程は、前記入力された音声
の各文節を前記複数の感情分類項目のいずれかに分類す
ることを特徴とする請求項３０に記載の情報処理方法。
【請求項３２】前記分類工程で分類された各音声に基
づいて、感情分類項目毎の音声特徴データを取得する取
得工程を更に備え、前記生成工程で生成される送信メッセージは前記感情分
類項目毎の音声特徴データを含むことを特徴とする請求
項３０に記載の情報処理方法。
【請求項３３】発声状態を表す付加データが付加され
たテキスト列を含むメッセージを受信する受信工程と、前記受信工程で受信されたメッセージのテキスト列に基
づいて音声データを生成する音声合成工程と、前記受信されたテキスト列より前記付加データを取得
し、これに基づいて前記音声データの発声状態を変更す
る変更工程とを備えることを特徴とする情報処理方法。
【請求項３４】前記発声状態が発声の音量及びスピー
ドを含むことを特徴とする請求項３３に記載の情報処理
方法。
【請求項３５】前記メッセージは、音声特徴データを
含み、前記音声合成工程は、前記メッセージに含まれる音声特
徴データを用いてテキスト列に対する音声データを生成
することを特徴とする請求項３３に記載の情報処理方
法。
【請求項３６】複数の感情分類項目のうちのどの感情
分類に属するかを表す付加データが付加されたテキスト
列と、該複数の感情分類項目のそれぞれに対応する音声
特徴データを含むメッセージを受信する受信工程と、前記受信工程で受信されたメッセージの付加データに基
づいて、テキスト列が属する感情分類項目に対応した音
声特徴データを、該メッセージより取得する取得工程
と、前記取得工程で取得された音声特徴データを用いて、前
記テキスト列に対する音声データを生成する音声合成工
程とを備えることを特徴とする情報処理方法。
【請求項３７】請求項１９乃至３６のいずれかに記載
の情報処理方法をコンピュータに実行させるコンピュー
タプログラム。
【請求項３８】請求項１９乃至３６のいずれかに記載
の情報処理方法をコンピュータに実行させるコンピュー
タプログラムを格納する記憶媒体。