JP2006184921A

JP2006184921A - 情報処理装置及び方法

Info

Publication number: JP2006184921A
Application number: JP2006019733A
Authority: JP
Inventors: Yoji Sugito; 洋史杉戸
Original assignee: Canon Electronics Inc
Current assignee: Canon Electronics Inc
Priority date: 2006-01-27
Filing date: 2006-01-27
Publication date: 2006-07-13

Abstract

【課題】入力音声を音声認識処理して得られる文字列に、その入力音声の感情を示す表記を自動的に組み込んで送信メッセージを生成することを可能にする。
【解決手段】受信した音声より音声認識処理によりテキスト列を生成する。また、受信された音声における発声状態の変化を検出し、検出された発声状態の変化に基づいて、音声認識処理で生成されたテキスト列に付加的データを付与する。こうして、付加的データが付与されたテキスト列を含む送信メッセージを生成する。
【選択図】図１２

Description

本発明は、音声を用いてメッセージを処理することが可能な情報処理装置及び方法に関する。更に詳しくは、受信したメッセージを音声にて読み上げる、或いは送信すべきメッセージを音声認識を用いて入力することが可能な装置に関するものである。

電子メールの広がりに伴い、電子メールに含まれるメッセージを音声にて読み上げ機能を持つ機器が増えてきている。このような文書の読み上げにおいて、その内容を聞き手に理解し易くする方法として、特開２０００−１４８１７５（特許文献１）には、発信者が、文章中に伝えたいニュアンスや表情を表現する表情記号を挿入し、読み上げ時には、その表情記号に応じた読み上げを行う方法が示されている。また、ヒューマンＩ／Ｆの向上を目的とし、コンピュータで人の感情を読み取る手法も多数提案されている。例えば、特公平６−８２３７６号（特許文献２）では日本語文章から作者の感情を抽出する方法が示されている。また、特開平５−１２０２３号(特許文献３）では、音声から音声認識を用いて感情を抽出する方法が示されている。
特開２０００−１４８１７５公報特公平６−８２３７６号公報特開平５−１２０２３号公報

しかしながら、上記特開２０００−１４８１７５（特許文献１）では、発信者側によって表情記号を挿入する作業を行わなければならないというような欠点がある。また、特公平６−８２３７６号（特許文献２）と特開平５−１２０２３号（特許文献３）では、感情の抽出手段が示されているだけで、その利用方法に及ぶ開示はない。

また、メッセージを音声にて読み上げる場合には、当該メッセージの発信者にかかわらず、ある特定の声質を用いて行われるのが一般的であった。

本発明の目的は、入力音声を音声認識処理して得られる文字列に、その入力音声の感情を示す表記を自動的に組み込んで送信メッセージを生成することを可能にすることにある。

上記の目的を達成するための本発明による情報処理装置は以下の構成を備える。すなわち、
音声を受信する受信手段と、
前記受信手段で受信した音声よりテキスト列を生成する音声認識手段と、
前記受信手段で受信された音声における発声状態の変化を検出する検出手段と、
前記検出手段で検出された発声状態の変化に基づいて、前記音声認識手段で生成されたテキスト列に付加的データを付与する付与手段と、
前記付与手段で付加的データが付与されたテキスト列を含む送信メッセージを生成する生成手段とを備える。

また、上記の目的を達成するための本発明の他の態様による情報処理装置は以下の構成を備える。すなわち、
音声を受信する入力手段と、
前記受信手段で受信した音声よりテキスト列を生成する音声認識手段と、
前記受信した音声を、複数の感情分類項目のいずれかに分類する分類手段と、
前記分類手段による分類結果に基づいて、前記音声認識手段で生成されたテキスト列に前記分類項目に対応する付加的データを付与する付与手段と、
前記付与手段で付加的データが付与されたテキスト列を含む送信メッセージを生成する生成手段とを備える。

更に、上記の目的を達成するための本発明の他の態様による情報処理装置は以下の構成を備える。すなわち、
発声状態を表す付加データが付加されたテキスト列を含むメッセージを受信する受信手段と、
前記受信手段で受信されたメッセージのテキスト列に基づいて音声データを生成する音声合成手段と、
前記受信されたテキスト列より前記付加データを取得し、これに基づいて前記音声データの発声状態を変更する変更手段とを備える。

更に、上記の目的を達成するための本発明の他の態様による情報処理装置は以下の構成を備える。すなわち、
複数の感情分類項目のうちのどの感情分類に属するかを表す付加データが付加されたテキスト列と、該複数の感情分類項目のそれぞれに対応する音声特徴データを含むメッセージを受信する受信手段と、
前記受信手段で受信されたメッセージの付加データに基づいて、テキスト列が属する感情分類項目に対応した音声特徴データを、該メッセージより取得する取得手段と、
前記取得手段で取得された音声特徴データを用いて、前記テキスト列に対する音声データを生成する音声合成手段とを備える。

以上説明したように、本発明によれば、入力音声を音声認識処理して得られる文字列に、その入力音声の感情を示す表記を自動的に組み込んで送信メッセージを生成することが可能となり、感情表現豊かなメッセージの送信を実現できる。また、送信者の感情を読み上げ音声から知ることが可能となり、より正確に相手の意図を掴むことが可能となる。

以下、添付の図面を参照して本発明の好適な実施形態のいくつかについて詳細に説明する。

＜実施形態１＞
図１は実施形態１によるメッセージ読み上げ装置の構成を示すブロック図である。

１は主制御部であり、２は公衆回線と接続する通信制御部である。３は音声による通話を行う送受話器部である。以上の構成により、音声による通話が行われる。すなわち、送話においては、送受話器部３により、入力された音声信号をデジタル信号へ変換し、主制御部１を介して通信制御部２より公衆回線に送信する。受話は、公衆回線からの信号を通信制御部２により受信してこれをデジタル信号に変換し、主制御部１を介して送受話器部３で音声信号に変換する。これより音声の送受による通話が成立する。

４は、電子メール受信部であり通信制御部２より受信した電子メールを格納する。ここで、主制御部１は、通信制御部２より受信した信号がメッセージであるか音声通話であるかを判別し、メッセージであった場合には電子メール受信部４に送り、音声通話であった場合には送受話器部３に送る。

５は入力部であり、操作者が電話番号のダイアルや、読み上げ指示等を行うときに使用する。６は表示部であり、受信メッセージの表示等を行う。７は、音声特徴抽出部であり、入力された音声の特徴を抽出する。本実施形態においては、音声通話時の受話側のデジタル信号（公衆回線より通信制御部２に受信された音声信号をデジタル化した信号）を入力とする。８は個人データ記憶部であり、各個人の電話番号やメールアドレス及び音声の特徴が保管されている。９は音声特徴データ比較部であり、音声特徴抽出部７により抽出した音声特徴と、個人データ記憶部８に保管されている音声の特徴を比較し、必要に応じて個人データ記憶部８の内容を更新する。

１０はメールアドレス検索部であり、主制御部１より入力されたメールアドレスが、誰のメールアドレスかを個人データ記憶部８から検索する。１１は電話番号検索部であり、主制御部１より入力された電話番号が、誰の電話番号かを個人データ記憶部８から検索する。１２は音声合成部であり、声質データを設定し、入力されたテキスト文章の言語解析を行い、設定された声質データを使用して音声データを作成する。音声合成部１２で合成された音声データは、主制御部１を介して送受話器部３に送られ、音声信号となる。後述するが、本実施形態では、音声合成の対象は受信したメールのテキスト文章データであり、音声合成部１２では、当該メールの送信元の話者の音声特徴データに対応した声質データが設定される。

図２は、個人データ記憶部８に保管されているデータの構成例を示す図である。図２において、１３は個人毎に割り振られる管理番号である。１４は名前、１５は電話番号、１６はメールアドレスであり、これらは操作者が入力したものである。また、１７は音声特徴データであり、音声特徴抽出部７にて抽出された音声特徴データ、或いは、音声特徴データ比較部９により更新されたデータである。１８は学習回数であり、音声特徴抽出部７にて抽出を行った回数（個人データ記憶部８に記憶された音声特徴データに関する学習の回数）である。尚、学習回数１８には、学習の対象者であるかどうかの情報も含まれる。例えば学習回数データとして１６bitを用いる場合、最上位bitを学習の対象者であるか否かを表すフラグとして用いる。

図３は、主制御部１による、音声特徴データに対する学習処理を示すフローチャートである。本実施形態では、音声通話時に、当該通話相手の音声特徴データについて学習が行われる。

ステップＳ１０１で入力部５よりのダイアル入力を受けると、ステップＳ１０２で、通信制御部２を用いて公衆回線に接続する。こうして送受話器部３により通話が可能となる。ステップＳ１０３では、電話番号検索部１１によりステップＳ１０１で入力されたダイアル番号で個人データ記憶部８を検索する。ステップＳ１０４では、この検索結果を受け、個人データ記憶部８に該当者がいなかった場合または該当者が学習の対象者でなかった場合にはステップＳ１０５へ進み、そのまま学習処理を終了する。すなわち、学習処理は行われず、通話のみが行われることになる。

一方、ステップＳ１０３の検索の結果、該当者があり、その該当者が学習の対象者あった場合にはステップＳ１０６へ処理を移す。ステップＳ１０６では公衆回線から送られてくる受話信号を音声特徴抽出部７に送り、音声特徴の抽出を行う。ステップＳ１０７では、音声特徴抽出部７により抽出された音声特徴に基づいて、抽出音声特徴データを作成する。ステップＳ１０８では、個人データ記憶部８の該当者の学習回数１８のチェックを行う。ここで学習回数が０回でなければ、ステップＳ１０９へと移る。ステップＳ１０９では、音声特徴データ比較部９により、個人データ記憶部８の該当者欄に登録されている音声特徴データ１７と、ステップＳ１０７で作成した抽出音声特徴データの比較を行う。尚、音声特徴データ比較部９では、２つのデータの差異を検出し、差異のある部分に関して、登録されている音声特徴データ１７に学習回数１８に応じた重み付けを行い、抽出音声特徴データとの補完及び平均化を行う。ステップＳ１１０では、音声特徴データ比較部９の比較結果に基づき新音声特徴データを作成し、ステップＳ１１１にて個人データ記憶部８に登録する。

尚、ステップＳ１０８で学習回数１８が０回の場合には、比較すべき音声特徴データ１７がない。従って、ステップＳ１０８からステップＳ１１２へ進み、ステップＳ１０７で作成された抽出音声特徴データを個人データ記憶部８の音声特徴データ１７として登録する。ステップＳ１１３では、学習回数１８を＋１してステップＳ１０５で終了する。

なお、上記処理は発信による通話時の学習を説明したが、着信による通話時においても、例えば番号通知により通話相手の電話番号を特定できれば、通話相手の音声特徴を学習できる。

本実施形態のメッセージ読み上げ装置は、以上のようにして生成、学習された音声特徴データを用いてメールのメッセージを読み上げる。図４は、実施形態１によるメール読み上げ時の主制御部１の処理を説明するフローチャートである。

ステップＳ２０１で入力部５より読み上げ指示を受けると、ステップＳ２０２で、電子メール受信部４より読み上げの対象とする電子メールを取り出す。ステップＳ２０３では、この電子メールに付加されている送信者メールアドレス情報を抽出する。次に、ステップＳ２０４では、メールアドレス検索部１０により、このメールアドレスを用いて個人データ記憶部８を検索する。

この検索結果を受け、該当者がいる場合はステップＳ２０５からステップＳ２０６へ処理を移す。ステップＳ２０６では、該当する個人データの学習回数１８をチェックし、０回でなければステップＳ２０７へ移る。ステップＳ２０７では、該当者の音声特徴データ１７を読み出し、ステップＳ２０８で、音声合成部１２に声質データとして設定する。尚、ステップＳ２０５で該当者がない場合、或いは、ステップＳ２０６で学習回数１８が０回の場合は、ステップＳ２０９で予め標準として設定している声質データを設定する。

ステップＳ２１０では、音声合成部１２において、ステップＳ２０８或いはステップＳ２０９で設定された声質データを用いて電子メールのメッセージを音声データへと変換、合成する。そして、ステップＳ２１１にて、ステップＳ２１０で変換された音声データを送受話器部３にて音声とする。

また、本実施形態のメッセージ読み上げ装置では、主制御部１の制御により、入力部５、表示部６を用いて個人データ記憶部８に格納されている音声特徴データの調整を行うことができる。以下、この調整処理について説明する。

図５は、登録されている音声特徴データ１７を調整する際の画面推移を示す図である。なお、本例では、表示部６の上に入力部５としてタッチパネルが重ねてある構成とするが、他の表示、入力形態であってもよい。

５０１は、調整モードの画面であり、個人データ記憶部８に記憶されている名前と学習回数が表示される。学習回数表示中の「○」は、学習回数０回を示し、「◎」は、学習対象外を示している。５０２は、テスト発声文章の選択操作を示しており、「音声［自己紹介］」をタッチすることによりプルダウンメニューが表示され、発声文章を選ぶことができる。ここでは「自己紹介」が選択されたものとする。５０３では、上下方向キーにより名前の選択を行い、そこで「発声」をタッチすると、登録されている音声特徴データ１７を用いて５０２で選択した定型文章の読み上げを行う。ここでは「自己紹介」が選択されており、「私の名前は＊＊です。どうぞよろしく。」と発声する。

音声の調整をする場合は、５０４に示すように、調整したい人にカーソルを合わせ「調整」をタッチすれば良い。５０５は調整画面である。調整画面においては、ピッチ、トーン、語尾の調整が可能となっている。それぞれの項目をタッチすることにより選択し、左右方向キーにて、ピッチの速さ、トーンの高低、語尾の上下を調整する画面である。ここで「継続」をタッチすると、調整したデータを音声特徴データ１７として設定するが今後も学習を継続することを意味している。「固定」の時は、調整したデータを音声特徴データ１７とし、５０６に示すように、学習回数欄の表示が◎となり、学習の対象外となり音声特徴データ１７は固定される。

以上のように、実施形態１によれば、以下のような効果がある。
・相手の声でメッセージを読み上げることが可能となり、送信者の特定やイメージが明確になる。
・メッセージの読み上げのための音声特徴データを生成するにあたって、操作者が意識及び作業することなく相手の声をサンプリングできる。
・通話毎の学習により、より送信者の声に近づけることができる。
・通話毎の学習により、送信者の声の変化に対応することが可能である。
・音声の調整ができることにより、合成音声をより自分のイメージする声に近づけることが可能である。

＜実施形態２＞
実施形態２では、感情要素を加味したメッセージの読み上げを可能とするメッセージ読み上げ装置を説明する。

図６は実施形態２によるにメッセージ読み上げ装置の構成を示すブロック図である。図６において、参照番号１〜１２で示される構成は、図１に示した実施形態１の各構成と同様の機能を有する。また、個人データ記憶部８の中に記憶されている個人データの内容も図２と概ね同様であるが、音声特徴データ１７が感情別に構成される点が異なる。

図７は実施形態２による音声特徴データの内容を説明する図である。実施形態２における音声特徴データ１７は、感情により大きな変化を生じない基本音声データ２４と、感情に影響される感情影響音声データ２５から構成されている。感情影響音声データ２５の構成を説明する。２６は感情分類であり、本実施形態では＜喜び：Ｈ＞＜期待：Ｅ＞＜通常：Ｕ＞＜悲しみ：Ｓ＞＜怒り：Ａ＞に大別している。２７は、感情別データ２８の「ピッチ」及び「トーン」が、音声から抽出したデータであるか、予測・調整されたデータであるかを、＜確定：Ｙ＞，＜暫定：Ｎ＞で示すサンプリング符号である。

再び図６において、１９は音声感情抽出部であり、音声通話時の受話側のデジタル信号を入力とし、入力された音声信号のピッチやアクセント等の「音声律情報」に注目し、通話相手の感情を感情分類２６の何れかに分類する。ここで分類された感情に、音声特徴抽出部７の抽出結果に基づいて生成される音声特徴データを、感情影響音声データ２５として記憶する。

２０は感情データ調整部であり、音声特徴データ２３の感情別データの内、検出できていない感情、つまり、サンプリング符号２７が、＜暫定：Ｎ＞となっている感情別データ２８を、他の＜確定：Ｙ＞となっている感情別データ、及び予め定めた基準に沿って予測・調整する。２１は文章感情抽出部であり、電子メール受信部４にて受信したメッセージを入力とし、単語単位で数量化した感情情報を予め辞書として持つことにより、単語列に含まれる感情情報を抽出し、単語または文節毎に感情を判断する。２２は感情音声生成部であり、音声合成部１２により作成された音声データに、文章感情抽出部２１の結果に応じて、感情影響音声データ２５の感情別データ２８を付加し、感情情報の加わった音声データを生成する。

図８は、及び図９は、実施形態２による音声特徴データの作成例を示す図である。８０１は、初期状態を示す。基本音声データ２４には標準音声データが設定されている。また、感情影響音声データ２５にも標準のデータが設定されている。すなわち、サンプリング符号２７は全て＜暫定：Ｎ＞であり、感情別データ２８もピッチ：a1〜a5，トーン：b1〜b5と標準の設定となっている。この時点における学習回数１８は０回である。

８０２は、音声の通話が行われた状態である。音声は、音声特徴抽出部７と音声感情抽出部１９に入力される。音声特徴抽出部７では、入力された音声から基本音声データ２４ａ（Ｚ）と、感情別データ２８（Ａ３，Ｂ３）を検出する。また、音声感情抽出部１９では、入力された音声から感情を判断し、感情分類２６（図ではＵに分類されている）として検出する。検出した基本音声データ２４（Ｚ）は、学習回数１８が０であることより、音声特徴データ２３にそのまま基本音声データ２４として記憶される。これにより学習回数１８は＋１され１回となる。

一方、検出した感情影響音声データ２５（Ａ３，Ｂ３）は、検出した感情分類２６ａがＵであり、感情影響音声データの＜通常：Ｕ＞のサンプリング符号２７が＜暫定：Ｎ＞となっていることより、＜通常：Ｕ＞の感情別データ２８として記憶する。また、サンプリング符号２７は、＜暫定：Ｎ＞から＜確定：Ｙ＞へと変更する。

次に８０３では、８０２で感情影響音声データ２５が更新されたことにより感情データ調整部２０が起動される。感情データ調整部２０は、サンプリング符号２７が＜確定：Ｙ＞となっている感情別データ２８の全てを用いて、サンプリング符号２７が＜暫定：Ｎ＞となっているすべての感情別データを調整する。例えば、８０３の場合、サンプリング符号２７が＜確定：Ｙ＞となっている＜通常：Ｕ＞の感情別データ２８を取り込み、他の感情分類２６、つまりサンプリング符号２７が＜暫定：Ｎ＞となっているすべて、Ｓ８０３では＜喜び：Ｈ＞＜期待：Ｅ＞＜悲しみ：Ｓ＞＜怒り：Ａ＞の感情別データ２８を、予め定めた感情分類２６の互いの相関関係、例えば、ピッチの関係はＥ：Ｕ＝１．２：１といった相関関係から決定し、それらを更新する。

８０４は、次の通話が行われた状態を示している。８０１と同じ流れにより入力された音声から基本音声データ２４ｂと、感情別データ２８（Ａ２，Ｂ２）、感情分類２６（Ｅ）が検出される。検出された感情別データ（Ａ２，Ｂ２）は、検出した感情分類２６ｂ（Ｅ）に対応する＜期待：Ｅ＞のサンプリング符号２７が＜暫定：Ｎ＞となっていることより、＜期待：Ｅ＞の感情別データ２８として記憶する。そして、＜期待：Ｅ＞のサンプリング符号２７を＜暫定：Ｎ＞から＜確定：Ｙ＞へと変える。

検出した基本音声データ２４（Ｙ）は、学習回数１８が１であることより、８０５へと移り、音声特徴データ比較部７に、検出した基本音声データ２４ｂ（Ｙ）と、記憶されていた基本音声データ２４（Ｚ）と、学習回数１８を入力する。音声特徴データ比較部７では、記憶されていた基本音声データ２４（Ｚ）に学習学習回数１８で重み付けを行い、検出した基本音声データ２４（Ｙ）との平均をとり、新たな音声基本データ２４ｃ（Ｘ）を作成し、音声特徴データ２３の基本音声データ２４として記憶する。続いて学習回数１８が＋１され、学習回数は２回となる。

８０６では、感情影響音声データ２５が更新されたことにより感情データ調整部２０が起動される。上述したように、感情データ調整部２０は、サンプリング符号２７が＜確定：Ｙ＞となっている感情別データ２８の全て、８０６では＜通常：Ｕ＞と＜期待：Ｅ＞の感情別データ２８を取り込み、サンプリング符号２７が＜暫定：Ｎ＞となっているすべて、８０６では＜喜び：Ｈ＞＜悲しみ：Ｓ＞＜怒り：Ａ＞の感情別データ２８を、予め定めた感情分類２６の互いの相関関係に従って更新する。なお、例えば、ピッチの関係の標準値をＨ：Ｅ：Ｕ＝１．５：１．２：１といった関係に対して、実際に取り込んだ感情別データ２８ではＥ：Ｕ＝１．０８：１となっており、サンプリング符号２７が＜確定：Ｙ＞となっている感情別データ２８を再度検出した場合には、実施形態１で示した学習方法と同様に感情データ２８を更新し、当更新時にも＜暫定：Ｎ＞のデータを更新しても良い。Ｅ：Ｕ＝１．０８：１となっていた場合は、感情がピッチに反映される比率が低い人という判断を行い、Ｈも標準より低くなると予想し、Ｈ＝１．５×１．０８／１．２＝１．３５というように補正を行ってデータを決定し、更新する。

図１０は、実施形態２によるメッセージ読み上げ時の音声データの作成経路を示す図である。

２９は読み上げ対象となる受信メッセージであり、受信メッセージ２９は、文章感情抽出部２１と音声合成部１２に渡される。また、基本音声データ２４も音声合成部１２に渡される。文章感情抽出部２１では、受信メッセージ２９から、単語または文節毎に感情を判断し、受信メッセージ２９に感情情報を付加した感情メッセージデータ３０を作成する。音声合成部１２では、声質データとして基本音声データ２４を用いて、受信メッセージ２９を音声合成し、音声データ３１を作成する。

感情メッセージデータ３０と音声データ３１及び感情影響音声データ２５は、感情音声生成部２２に渡される。感情音声生成部２２では、入力された音声データ３１に対して、感情メッセージデータ３０に含まれる感情情報に対応した感情影響音声データ２５の感情別データにて加工を行い、感情入り音声データ３２を作成する。感情入り音声データ３２は、送受話器部３によって音声となる。

以上説明したように、実施形態２によれば以下の効果が得られる。
・送信者の感情を読み上げ音声から知ることができ、より正確に相手の意図を掴むことが可能である。
・送信者の感情より緊急度を計ることが可能となる。
・送信者が感情を表面に現さない人でも、その文面から相手の感情を知ることにより相手への理解を深めることができる。

＜実施形態３＞
次に、入力された音声に対して音声認識を行い、電子メールを生成し、これを送信するメッセージ送信装置と、このような電子メールを受信して読み上げるメッセージ読み上げ装置について説明する。なお、送信対象は、電子メールに限らず、チャットのようなメッセージ送信であってもかまわない。

図１１は実施形態３によるメッセージ送信装置の構成を示すブロック図である。実施形態１の装置構成（図１）で説明した構成と同様の機能を有する構成には同一の参照番号を付してある。

３３は音声入力部であり、マイクにより操作者の音声を電気信号として入力する。３４は電子メール送信部である。３５は音声認識部であり、音声入力部３３より入力された音声を音声認識して、テキストデータに変換する。３６は音量・速度検出部であり、音声入力部３３より入力された音声の、音量と話す速度を検出し、他の音声部分と比べ、予め定めた一定率以上に異なる個所を検出する。３７は文章作成部であり、音声認識部３５にて認識したテキストデータに、音声特徴データの付加と音量・速度検出部３６の検出結果の情報を含んだ送信メールを作成するものである。なお、音声入力部３３は送受話器部３の通話部を用いてもよい。

図１２は、実施形態３による送信メールのデータの作成経路を示す図である。３８は操作者の音声であり、音声入力部３３から入力され、音声データ３１となる。音声データ３１は音声特徴抽出部７と、音声認識部３５と、音量・速度検出部３６に入力される。

音声認識部３５では、入力された音声信号３１を順次音声認識することによりテキストデータ３９とし、これを文章作成部３７へ入力する。音量・速度検出部３６では、音声データ３１において音量・速度に大きな変化を生じた時にその内容を文章作成部３７に通知する。文章作成部３７では、その通知を受け、テキストデータ３９のその音声部分に対応する箇所に、予め定めた情報付加方法に従って情報を付加する。情報付加方法としては、テキスト文字に対してアンダーラインや斜め文字等の装飾や、文字サイズ、フォント種別、また画面上に表示されないデータとして付加するなどの方法がある。

音声特徴抽出部７では入力された音声データ３１から、音声特徴データ１７を作成し文章作成部３７へと渡す。文章作成部３７では、情報を付加したテキスト文章に音声特徴データ１７及びその他の情報を付加して送信メール４０を作成する。

図１３に送信メール４０の構成例を示す。４１は送信先の宛先情報であり、４２は送信者、つまり自分の情報である。４３はメール種別情報であり、当メールにおいては音声情報入りメールであることを示す（音声情報入りメールとは、音声の音量や速度に応じてフォント、サイズ、文字修飾等が変更されているメールである）。次に入力時の音声特徴データ１７が格納されている。また、４４はSubjectであり、４５は音声情報を含んだ文章例である。

図１３の例において、文章４５では、「こんにちは＊＊です。」は通常音声であり、文字は標準として設定されている文字を使用している。「例の彼女の写真ですが」では、ここで「彼女の写真」の入力時に音量・速度検出部３６が、音量が小さいと検出したことよりフォントサイズは小さくなり、また同時に話す速度が速いと検出したことより、さらに斜め文字修飾が行われている。「今日中に必ずお願いします」では、音量・速度検出部３６が、音量が著しく大きいと検出したことより、フォントサイズを大きくし、また同時に話す速度が遅いと検出したことより、太字となっている。さらに、前記２つの検出の組み合わせ（音量が大きくゆっくりしていること）から重要部分として認識され、アンダーラインが付加されている。

尚、送信メール４０を表示部６に表示し、入力部５にて文字装飾の追加や修正を行った後に送信するようにすることも当然可能である。

次に、以上のような音声情報入りメールを読み上げる読み上げ装置について説明する。図１４は、実施形態３による音声情報入りメールに対応したメール読み上げ装置の構成を示すブロック図である。

送信メール４０は公衆回線を通して通信制御部２で受信され、主制御部１を介して電子メール受信部４へと送られる。入力部５からメールが指定されると、表示部６にそのメール内容が表示される。このときの表示状態は、図１３の４５に示したように、音声状態に応じて設定されたフォント、サイズ、文字修飾に従ったものとなる。

また入力部５から読み上げを指示された場合は、メールは電子メール受信部４から主制御部１へと移り、主制御部１でメール種別情報４３により音声情報入りメールであることを確認し、Subject４４と文章４５が音声合成部１２に渡される。このとき、声質データとして当該電子メールに含まれる音声特徴データ１７を設定する。また、文章４５は音量・速度調整部４７へも渡される。音声合成部１２では、声質データを元に音声データを作成する。また、音量・速度調整部４７では、入力された文章４５から文字の装飾や大きさに含まれている付加情報を取り出し、この付加情報に基づいて、音声合成部１２で作成された音声データに音量や速度等を設定する加工を行い、最終読み上げデータを作成する。最終読み上げデータは、主制御部１を介して音声出力部４７に送られ、音声へと変換される。

尚、本例においては、音声入力時の音声の特徴を検出する例を示したが、実施形態１で示したように、音声入力部３３を送受話器部３として、通話時に音声特徴データ１７を作成しておき、送信メールに音声特徴データ１７を付加するようにしても良い。この場合には当然、実施形態１に示した学習や音声の調整を行えるものである。

以上説明したように、実施形態３によれば、以下のような効果が得られる。
・声の大小や喋りかたにより意図的に文章に変化を入れることが可能である。
・受信者は送信者の声で聞くことができので、送信者を特定でき、意図を理解し易くなる。
・音声データとして送信するよりもデータ量が少なく、通信料金が少ない。
・受信者は視覚的にも送信者の意図を見ることが可能である。

＜実施形態４＞
次に、実施形態４として、実施形態３に感情要素を加味したメッセージ送信装置について説明する。

図１５は実施形態４によるメッセージ送信装置の構成を示すブロック図である。図１５に示される構成は、実施形態３で示した構成図（図１１）に、感情検出部４８が加わったものである。感情検出部４８は、音声入力部３３から入力された音声データ３１より、話者の感情を判断し、その結果が予め定めた「通常の感情」の範囲以上の変化を示した時に、その結果を感情分類２６として出力するものである。

図１６は、実施形態４によるメッセージ送信装置における、音声入力から感情情報を含むメッセージを作成するまでの作成経路を示す図である。

音声入力部３３に入力された話者の音声３８は、音声データ３１となり、音声認識部３５、感情検出部４８、音声特徴検出部７へと入力される。音声認識部３５では、音声データ３１を順次音声認識することによりテキストデータ３９を作成し文章作成部３７へ渡す。感情検出部４８では、音声データ３１から感情の判断を行い、感情が設定範囲を超えた場合にその感情分類２６を出力する。感情分類２６は、音声特徴抽出部７と文章作成部３７に入力される。音声特徴抽出部７では、音声データ３１より音声の特徴を抽出すると共に、入力された感情分類２６により感情別の特徴も抽出し、これに基づいて基本音声データ２４と、感情影響音声データ２５を作成する。

文章作成部３７では、感情分類２６の通知を受け、その時のテキストデータ３９に文節毎に、予め感情分類２６毎に定めた情報付加方法に従って情報を付加する。文章作成部３７では、情報を付加したテキスト文章に基本音声データ２４、感情影響音声データ２５及びその他の情報を付加して送信メール４９を作成する。

図１７は実施形態４における送信メールの構成例を示す図である。実施形態４の送信メール４９の主な構成は図１３と同様であり、図１７には送信メール４９の特徴的な部分が示されている。

音声特徴データ１７は、基本音声データ２４と感情影響音声データ２５とによって構成される。また、Subject４４に続き感情情報入り文章データ５０が格納される。図１７では、感情方法入り文章データの一例が示されている。この文章例の中で、「こんにちは，＊＊です。」は、感情検出部４８で感情分類２６で＜通常＞と判断し、標準として設定してある文字にて記述される。「楽しかった」は、感情分類２６で＜喜び＞と判断され、＜喜び＞に対応した文字として「（笑）」を加えることにより＜喜び＞の情報を付加している。「誰もいなかった」では、感情分類２６で＜悲しみ＞と判断し、文節後に0003hという画面上表記されないデータを加えることにより＜悲しみ＞の情報を付加している。「頭にきた」では、感情分類２６で＜怒り＞と判断し、「!!」を加えることにより＜怒り＞の情報を付加している。「返事待ってます」では、感情分類２６で＜期待＞と判断し、絵文字である「(^_^)」を加えることにより＜期待＞の情報を付加している。前記情報付加の方法は、方法として各種の方法を示したものであり、各感情分類２６に対して特定した方法ではない。

尚、作成した文章５０を編集する時には、＜悲しみ＞の情報である０００３ｈも情報として表示され、編集することが可能となっている。

このような送信メッセージを読み上げる装置には、実施形態２で説明したような装置を用いることができる。すなわち、送信メールに含まれる基本音声データ２４、感情影響音声データ２５を用いて、図１０に示すようにして音声合成を行う。ただし、実施形態４の場合、文章感情抽出部２１では、予め決められた記号や文字列（!!、(笑)等）、コード（0003h）等を読み上げ対象のメッセージから取り出し、これに基づいて感情メッセージデータ３０を生成することになる。

以上のように、実施形態４によれば、以下の効果がある。
・感情要素が加わることにより、より送信者の意図や気持ちを伝えることが可能となる。
・受信者は視覚的にも、送信者の感情を知ることが可能である。

実施形態１によるメッセージ読み上げ装置の構成を示すブロック図である。個人データ記憶部８に保管されているデータの構成例を示す図である。主制御部１による、音声特徴データに対する学習処理を示すフローチャートである。実施形態１によるメール読み上げ時の主制御部１の処理を説明するフローチャートである。実施形態１において、登録されている音声特徴データ１７を調整する際の画面推移を示す図である。実施形態２によるにメッセージ読み上げ装置の構成を示すブロック図である。実施形態２による音声特徴データの内容を説明する図である。実施形態２による音声特徴データの作成例を示す図である。実施形態２による音声特徴データの作成例を示す図である。実施形態２によるメッセージ読み上げ時の音声データの作成経路を示す図である。実施形態３によるメッセージ送信装置の構成を示すブロック図である。実施形態３による送信メールのデータの作成経路を示す図である。実施形態３による送信メール４０の構成例を示す図である。実施形態３による音声情報入りメールに対応したメール読み上げ装置の構成を示すブロック図である。実施形態４によるメッセージ送信装置の構成を示すブロック図である。実施形態４によるメッセージ送信装置における、音声入力から感情情報を含むメッセージを作成するまでの作成経路を示す図である。実施形態４における送信メールの構成例を示す図である。

Claims

音声を受信する受信手段と、
前記受信手段で受信した音声よりテキスト列を生成する音声認識手段と、
前記受信手段で受信された音声における発声状態の変化を検出する検出手段と、
前記検出手段で検出された発声状態の変化に基づいて、前記音声認識手段で生成されたテキスト列に付加的データを付与する付与手段と、
前記付与手段で付加的データが付与されたテキスト列を含む送信メッセージを生成する生成手段とを備えることを特徴とする情報処理装置。
前記付加的データは、前記テキスト列の属性であることを特徴とする請求項１に記載の情報処理装置。
前記検出手段は、前記入力された音声の音量及び／又はスピードの変化を検出することを特徴とする請求項１に記載の情報処理装置。
前記受信した音声より音声特徴データを取得する取得手段を更に備え、
前記生成手段で生成される送信メッセージは前記音声特徴データを含むことを特徴とする請求項１に記載の情報処理装置。
音声を受信する入力手段と、
前記受信手段で受信した音声よりテキスト列を生成する音声認識手段と、
前記受信した音声を、複数の感情分類項目のいずれかに分類する分類手段と、
前記分類手段による分類結果に基づいて、前記音声認識手段で生成されたテキスト列に前記分類項目に対応する付加的データを付与する付与手段と、
前記付与手段で付加的データが付与されたテキスト列を含む送信メッセージを生成する生成手段とを備えることを特徴とする情報処理装置。
前記分類手段は、前記入力された音声の各文節を前記複数の感情分類項目のいずれかに分類することを特徴とする請求項５に記載の情報処理装置。
前記分類手段で分類された各音声に基づいて、感情分類項目毎の音声特徴データを取得する取得手段を更に備え、
前記生成手段で生成される送信メッセージは前記感情分類項目毎の音声特徴データを含むことを特徴とする請求項５に記載の情報処理装置。
発声状態を表す付加データが付加されたテキスト列を含むメッセージを受信する受信手段と、
前記受信手段で受信されたメッセージのテキスト列に基づいて音声データを生成する音声合成手段と、
前記受信されたテキスト列より前記付加データを取得し、これに基づいて前記音声データの発声状態を変更する変更手段とを備えることを特徴とする情報処理装置。
前記発声状態が発声の音量及びスピードを含むことを特徴とする請求項８に記載の情報処理装置。
前記メッセージは、音声特徴データを含み、
前記音声合成手段は、前記メッセージに含まれる音声特徴データを用いてテキスト列に対する音声データを生成することを特徴とする請求項８に記載の情報処理装置。
複数の感情分類項目のうちのどの感情分類に属するかを表す付加データが付加されたテキスト列と、該複数の感情分類項目のそれぞれに対応する音声特徴データを含むメッセージを受信する受信手段と、
前記受信手段で受信されたメッセージの付加データに基づいて、テキスト列が属する感情分類項目に対応した音声特徴データを、該メッセージより取得する取得手段と、
前記取得手段で取得された音声特徴データを用いて、前記テキスト列に対する音声データを生成する音声合成手段とを備えることを特徴とする情報処理装置。
音声を受信する受信工程と、
前記受信工程で受信した音声よりテキスト列を生成する音声認識工程と、
前記受信工程で受信した音声における発声状態の変化を検出する検出工程と、
前記検出工程で検出された発声状態の変化に基づいて、前記音声認識工程で生成されたテキスト列に付加的データを付与する付与工程と、
前記付与工程で付加的データが付与されたテキスト列を含む送信メッセージを生成する生成工程とを備えることを特徴とする情報処理方法。
前記付加的データは、前記テキスト列の属性であることを特徴とする請求項１２に記載の情報処理方法。
前記検出工程は、前記入力された音声の音量及び／又はスピードの変化を検出することを特徴とする請求項１２に記載の情報処理方法。
前記受信した音声より音声特徴データを取得する取得工程を更に備え、
前記生成工程で生成される送信メッセージは前記音声特徴データを含むことを特徴とする請求項１２に記載の情報処理方法。
音声を受信する受信工程と、
前記受信工程で受信した音声よりテキスト列を生成する音声認識工程と、
前記受信した音声を、複数の感情分類項目のいずれかに分類する分類工程と、
前記分類工程による分類結果に基づいて、前記音声認識工程で生成されたテキスト列に前記分類項目に対応する付加的データを付与する付与工程と、
前記付与工程で付加的データが付与されたテキスト列を含む送信メッセージを生成する生成工程とを備えることを特徴とする情報処理方法。
前記分類工程は、前記入力された音声の各文節を前記複数の感情分類項目のいずれかに分類することを特徴とする請求項１６に記載の情報処理方法。
前記分類工程で分類された各音声に基づいて、感情分類項目毎の音声特徴データを取得する取得工程を更に備え、
前記生成工程で生成される送信メッセージは前記感情分類項目毎の音声特徴データを含むことを特徴とする請求項１６に記載の情報処理方法。
発声状態を表す付加データが付加されたテキスト列を含むメッセージを受信する受信工程と、
前記受信工程で受信されたメッセージのテキスト列に基づいて音声データを生成する音声合成工程と、
前記受信されたテキスト列より前記付加データを取得し、これに基づいて前記音声データの発声状態を変更する変更工程とを備えることを特徴とする情報処理方法。
前記発声状態が発声の音量及びスピードを含むことを特徴とする請求項１９に記載の情報処理方法。
前記メッセージは、音声特徴データを含み、
前記音声合成工程は、前記メッセージに含まれる音声特徴データを用いてテキスト列に対する音声データを生成することを特徴とする請求項１９に記載の情報処理方法。
複数の感情分類項目のうちのどの感情分類に属するかを表す付加データが付加されたテキスト列と、該複数の感情分類項目のそれぞれに対応する音声特徴データを含むメッセージを受信する受信工程と、
前記受信工程で受信されたメッセージの付加データに基づいて、テキスト列が属する感情分類項目に対応した音声特徴データを、該メッセージより取得する取得工程と、
前記取得工程で取得された音声特徴データを用いて、前記テキスト列に対する音声データを生成する音声合成工程とを備えることを特徴とする情報処理方法。
請求項１２乃至２２のいずれかに記載の情報処理方法をコンピュータに実行させるコンピュータプログラムを格納する記憶媒体。