JP2006184921A - 情報処理装置及び方法 - Google Patents

情報処理装置及び方法 Download PDF

Info

Publication number
JP2006184921A
JP2006184921A JP2006019733A JP2006019733A JP2006184921A JP 2006184921 A JP2006184921 A JP 2006184921A JP 2006019733 A JP2006019733 A JP 2006019733A JP 2006019733 A JP2006019733 A JP 2006019733A JP 2006184921 A JP2006184921 A JP 2006184921A
Authority
JP
Japan
Prior art keywords
voice
data
text string
unit
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006019733A
Other languages
English (en)
Inventor
Yoji Sugito
洋史 杉戸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Electronics Inc
Original Assignee
Canon Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Electronics Inc filed Critical Canon Electronics Inc
Priority to JP2006019733A priority Critical patent/JP2006184921A/ja
Publication of JP2006184921A publication Critical patent/JP2006184921A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】入力音声を音声認識処理して得られる文字列に、その入力音声の感情を示す表記を自動的に組み込んで送信メッセージを生成することを可能にする。
【解決手段】受信した音声より音声認識処理によりテキスト列を生成する。また、受信された音声における発声状態の変化を検出し、検出された発声状態の変化に基づいて、音声認識処理で生成されたテキスト列に付加的データを付与する。こうして、付加的データが付与されたテキスト列を含む送信メッセージを生成する。
【選択図】 図12

Description

本発明は、音声を用いてメッセージを処理することが可能な情報処理装置及び方法に関する。更に詳しくは、受信したメッセージを音声にて読み上げる、或いは送信すべきメッセージを音声認識を用いて入力することが可能な装置に関するものである。
電子メールの広がりに伴い、電子メールに含まれるメッセージを音声にて読み上げ機能を持つ機器が増えてきている。このような文書の読み上げにおいて、その内容を聞き手に理解し易くする方法として、特開2000−148175(特許文献1)には、発信者が、文章中に伝えたいニュアンスや表情を表現する表情記号を挿入し、読み上げ時には、その表情記号に応じた読み上げを行う方法が示されている。また、ヒューマンI/Fの向上を目的とし、コンピュータで人の感情を読み取る手法も多数提案されている。例えば、特公平6−82376号(特許文献2)では日本語文章から作者の感情を抽出する方法が示されている。また、特開平5−12023号(特許文献3)では、音声から音声認識を用いて感情を抽出する方法が示されている。
特開2000−148175公報 特公平6−82376号公報 特開平5−12023号公報
しかしながら、上記特開2000−148175(特許文献1)では、発信者側によって表情記号を挿入する作業を行わなければならないというような欠点がある。また、特公平6−82376号(特許文献2)と特開平5−12023号(特許文献3)では、感情の抽出手段が示されているだけで、その利用方法に及ぶ開示はない。
また、メッセージを音声にて読み上げる場合には、当該メッセージの発信者にかかわらず、ある特定の声質を用いて行われるのが一般的であった。
本発明の目的は、入力音声を音声認識処理して得られる文字列に、その入力音声の感情を示す表記を自動的に組み込んで送信メッセージを生成することを可能にすることにある。
上記の目的を達成するための本発明による情報処理装置は以下の構成を備える。すなわち、
音声を受信する受信手段と、
前記受信手段で受信した音声よりテキスト列を生成する音声認識手段と、
前記受信手段で受信された音声における発声状態の変化を検出する検出手段と、
前記検出手段で検出された発声状態の変化に基づいて、前記音声認識手段で生成されたテキスト列に付加的データを付与する付与手段と、
前記付与手段で付加的データが付与されたテキスト列を含む送信メッセージを生成する生成手段とを備える。
また、上記の目的を達成するための本発明の他の態様による情報処理装置は以下の構成を備える。すなわち、
音声を受信する入力手段と、
前記受信手段で受信した音声よりテキスト列を生成する音声認識手段と、
前記受信した音声を、複数の感情分類項目のいずれかに分類する分類手段と、
前記分類手段による分類結果に基づいて、前記音声認識手段で生成されたテキスト列に 前記分類項目に対応する付加的データを付与する付与手段と、
前記付与手段で付加的データが付与されたテキスト列を含む送信メッセージを生成する生成手段とを備える。
更に、上記の目的を達成するための本発明の他の態様による情報処理装置は以下の構成を備える。すなわち、
発声状態を表す付加データが付加されたテキスト列を含むメッセージを受信する受信手段と、
前記受信手段で受信されたメッセージのテキスト列に基づいて音声データを生成する音声合成手段と、
前記受信されたテキスト列より前記付加データを取得し、これに基づいて前記音声データの発声状態を変更する変更手段とを備える。
更に、上記の目的を達成するための本発明の他の態様による情報処理装置は以下の構成を備える。すなわち、
複数の感情分類項目のうちのどの感情分類に属するかを表す付加データが付加されたテキスト列と、該複数の感情分類項目のそれぞれに対応する音声特徴データを含むメッセージを受信する受信手段と、
前記受信手段で受信されたメッセージの付加データに基づいて、テキスト列が属する感情分類項目に対応した音声特徴データを、該メッセージより取得する取得手段と、
前記取得手段で取得された音声特徴データを用いて、前記テキスト列に対する音声データを生成する音声合成手段とを備える。
以上説明したように、本発明によれば、入力音声を音声認識処理して得られる文字列に、その入力音声の感情を示す表記を自動的に組み込んで送信メッセージを生成することが可能となり、感情表現豊かなメッセージの送信を実現できる。また、送信者の感情を読み上げ音声から知ることが可能となり、より正確に相手の意図を掴むことが可能となる。
以下、添付の図面を参照して本発明の好適な実施形態のいくつかについて詳細に説明する。
<実施形態1>
図1は実施形態1によるメッセージ読み上げ装置の構成を示すブロック図である。
1は主制御部であり、2は公衆回線と接続する通信制御部である。3は音声による通話を行う送受話器部である。以上の構成により、音声による通話が行われる。すなわち、送話においては、送受話器部3により、入力された音声信号をデジタル信号へ変換し、主制御部1を介して通信制御部2より公衆回線に送信する。受話は、公衆回線からの信号を通信制御部2により受信してこれをデジタル信号に変換し、主制御部1を介して送受話器部3で音声信号に変換する。これより音声の送受による通話が成立する。
4は、電子メール受信部であり通信制御部2より受信した電子メールを格納する。ここで、主制御部1は、通信制御部2より受信した信号がメッセージであるか音声通話であるかを判別し、メッセージであった場合には電子メール受信部4に送り、音声通話であった場合には送受話器部3に送る。
5は入力部であり、操作者が電話番号のダイアルや、読み上げ指示等を行うときに使用する。6は表示部であり、受信メッセージの表示等を行う。7は、音声特徴抽出部であり、入力された音声の特徴を抽出する。本実施形態においては、音声通話時の受話側のデジタル信号(公衆回線より通信制御部2に受信された音声信号をデジタル化した信号)を入力とする。8は個人データ記憶部であり、各個人の電話番号やメールアドレス及び音声の特徴が保管されている。9は音声特徴データ比較部であり、音声特徴抽出部7により抽出した音声特徴と、個人データ記憶部8に保管されている音声の特徴を比較し、必要に応じて個人データ記憶部8の内容を更新する。
10はメールアドレス検索部であり、主制御部1より入力されたメールアドレスが、誰のメールアドレスかを個人データ記憶部8から検索する。11は電話番号検索部であり、主制御部1より入力された電話番号が、誰の電話番号かを個人データ記憶部8から検索する。12は音声合成部であり、声質データを設定し、入力されたテキスト文章の言語解析を行い、設定された声質データを使用して音声データを作成する。音声合成部12で合成された音声データは、主制御部1を介して送受話器部3に送られ、音声信号となる。後述するが、本実施形態では、音声合成の対象は受信したメールのテキスト文章データであり、音声合成部12では、当該メールの送信元の話者の音声特徴データに対応した声質データが設定される。
図2は、個人データ記憶部8に保管されているデータの構成例を示す図である。図2において、13は個人毎に割り振られる管理番号である。14は名前、15は電話番号、16はメールアドレスであり、これらは操作者が入力したものである。また、17は音声特徴データであり、音声特徴抽出部7にて抽出された音声特徴データ、或いは、音声特徴データ比較部9により更新されたデータである。18は学習回数であり、音声特徴抽出部7にて抽出を行った回数(個人データ記憶部8に記憶された音声特徴データに関する学習の回数)である。尚、学習回数18には、学習の対象者であるかどうかの情報も含まれる。例えば学習回数データとして16bitを用いる場合、最上位bitを学習の対象者であるか否かを表すフラグとして用いる。
図3は、主制御部1による、音声特徴データに対する学習処理を示すフローチャートである。本実施形態では、音声通話時に、当該通話相手の音声特徴データについて学習が行われる。
ステップS101で入力部5よりのダイアル入力を受けると、ステップS102で、通信制御部2を用いて公衆回線に接続する。こうして送受話器部3により通話が可能となる。ステップS103では、電話番号検索部11によりステップS101で入力されたダイアル番号で個人データ記憶部8を検索する。ステップS104では、この検索結果を受け、個人データ記憶部8に該当者がいなかった場合または該当者が学習の対象者でなかった場合にはステップS105へ進み、そのまま学習処理を終了する。すなわち、学習処理は行われず、通話のみが行われることになる。
一方、ステップS103の検索の結果、該当者があり、その該当者が学習の対象者あった場合にはステップS106へ処理を移す。ステップS106では公衆回線から送られてくる受話信号を音声特徴抽出部7に送り、音声特徴の抽出を行う。ステップS107では、音声特徴抽出部7により抽出された音声特徴に基づいて、抽出音声特徴データを作成する。ステップS108では、個人データ記憶部8の該当者の学習回数18のチェックを行う。ここで学習回数が0回でなければ、ステップS109へと移る。ステップS109では、音声特徴データ比較部9により、個人データ記憶部8の該当者欄に登録されている音声特徴データ17と、ステップS107で作成した抽出音声特徴データの比較を行う。尚、音声特徴データ比較部9では、2つのデータの差異を検出し、差異のある部分に関して、登録されている音声特徴データ17に学習回数18に応じた重み付けを行い、抽出音声特徴データとの補完及び平均化を行う。ステップS110では、音声特徴データ比較部9の比較結果に基づき新音声特徴データを作成し、ステップS111にて個人データ記憶部8に登録する。
尚、ステップS108で学習回数18が0回の場合には、比較すべき音声特徴データ17がない。従って、ステップS108からステップS112へ進み、ステップS107で作成された抽出音声特徴データを個人データ記憶部8の音声特徴データ17として登録する。ステップS113では、学習回数18を+1してステップS105で終了する。
なお、上記処理は発信による通話時の学習を説明したが、着信による通話時においても、例えば番号通知により通話相手の電話番号を特定できれば、通話相手の音声特徴を学習できる。
本実施形態のメッセージ読み上げ装置は、以上のようにして生成、学習された音声特徴データを用いてメールのメッセージを読み上げる。図4は、実施形態1によるメール読み上げ時の主制御部1の処理を説明するフローチャートである。
ステップS201で入力部5より読み上げ指示を受けると、ステップS202で、電子メール受信部4より読み上げの対象とする電子メールを取り出す。ステップS203では、この電子メールに付加されている送信者メールアドレス情報を抽出する。次に、ステップS204では、メールアドレス検索部10により、このメールアドレスを用いて個人データ記憶部8を検索する。
この検索結果を受け、該当者がいる場合はステップS205からステップS206へ処理を移す。ステップS206では、該当する個人データの学習回数18をチェックし、0回でなければステップS207へ移る。ステップS207では、該当者の音声特徴データ17を読み出し、ステップS208で、音声合成部12に声質データとして設定する。尚、ステップS205で該当者がない場合、或いは、ステップS206で学習回数18が0回の場合は、ステップS209で予め標準として設定している声質データを設定する。
ステップS210では、音声合成部12において、ステップS208或いはステップS209で設定された声質データを用いて電子メールのメッセージを音声データへと変換、合成する。そして、ステップS211にて、ステップS210で変換された音声データを送受話器部3にて音声とする。
また、本実施形態のメッセージ読み上げ装置では、主制御部1の制御により、入力部5、表示部6を用いて個人データ記憶部8に格納されている音声特徴データの調整を行うことができる。以下、この調整処理について説明する。
図5は、登録されている音声特徴データ17を調整する際の画面推移を示す図である。なお、本例では、表示部6の上に入力部5としてタッチパネルが重ねてある構成とするが、他の表示、入力形態であってもよい。
501は、調整モードの画面であり、個人データ記憶部8に記憶されている名前と学習回数が表示される。学習回数表示中の「○」は、学習回数0回を示し、「◎」は、学習対象外を示している。502は、テスト発声文章の選択操作を示しており、「音声[自己紹介]」をタッチすることによりプルダウンメニューが表示され、発声文章を選ぶことができる。ここでは「自己紹介」が選択されたものとする。503では、上下方向キーにより名前の選択を行い、そこで「発声」をタッチすると、登録されている音声特徴データ17を用いて502で選択した定型文章の読み上げを行う。ここでは「自己紹介」が選択されており、「私の名前は**です。どうぞよろしく。」と発声する。
音声の調整をする場合は、504に示すように、調整したい人にカーソルを合わせ「調整」をタッチすれば良い。505は調整画面である。調整画面においては、ピッチ、トーン、語尾の調整が可能となっている。それぞれの項目をタッチすることにより選択し、左右方向キーにて、ピッチの速さ、トーンの高低、語尾の上下を調整する画面である。ここで「継続」をタッチすると、調整したデータを音声特徴データ17として設定するが今後も学習を継続することを意味している。「固定」の時は、調整したデータを音声特徴データ17とし、506に示すように、学習回数欄の表示が◎となり、学習の対象外となり音声特徴データ17は固定される。
以上のように、実施形態1によれば、以下のような効果がある。
・相手の声でメッセージを読み上げることが可能となり、送信者の特定やイメージが明確になる。
・メッセージの読み上げのための音声特徴データを生成するにあたって、操作者が意識及び作業することなく相手の声をサンプリングできる。
・通話毎の学習により、より送信者の声に近づけることができる。
・通話毎の学習により、送信者の声の変化に対応することが可能である。
・音声の調整ができることにより、合成音声をより自分のイメージする声に近づけることが可能である。
<実施形態2>
実施形態2では、感情要素を加味したメッセージの読み上げを可能とするメッセージ読み上げ装置を説明する。
図6は実施形態2によるにメッセージ読み上げ装置の構成を示すブロック図である。図6において、参照番号1〜12で示される構成は、図1に示した実施形態1の各構成と同様の機能を有する。また、個人データ記憶部8の中に記憶されている個人データの内容も図2と概ね同様であるが、音声特徴データ17が感情別に構成される点が異なる。
図7は実施形態2による音声特徴データの内容を説明する図である。実施形態2における音声特徴データ17は、感情により大きな変化を生じない基本音声データ24と、感情に影響される感情影響音声データ25から構成されている。感情影響音声データ25の構成を説明する。26は感情分類であり、本実施形態では<喜び:H><期待:E><通常:U><悲しみ:S><怒り:A>に大別している。27は、感情別データ28の「ピッチ」及び「トーン」が、音声から抽出したデータであるか、予測・調整されたデータであるかを、<確定:Y>,<暫定:N>で示すサンプリング符号である。
再び図6において、19は音声感情抽出部であり、音声通話時の受話側のデジタル信号を入力とし、入力された音声信号のピッチやアクセント等の「音声律情報」に注目し、通話相手の感情を感情分類26の何れかに分類する。ここで分類された感情に、音声特徴抽出部7の抽出結果に基づいて生成される音声特徴データを、感情影響音声データ25として記憶する。
20は感情データ調整部であり、音声特徴データ23の感情別データの内、検出できていない感情、つまり、サンプリング符号27が、<暫定:N>となっている感情別データ28を、他の<確定:Y>となっている感情別データ、及び予め定めた基準に沿って予測・調整する。21は文章感情抽出部であり、電子メール受信部4にて受信したメッセージを入力とし、単語単位で数量化した感情情報を予め辞書として持つことにより、単語列に含まれる感情情報を抽出し、単語または文節毎に感情を判断する。22は感情音声生成部であり、音声合成部12により作成された音声データに、文章感情抽出部21の結果に応じて、感情影響音声データ25の感情別データ28を付加し、感情情報の加わった音声データを生成する。
図8は、及び図9は、実施形態2による音声特徴データの作成例を示す図である。801は、初期状態を示す。基本音声データ24には標準音声データが設定されている。また、感情影響音声データ25にも標準のデータが設定されている。すなわち、サンプリング符号27は全て<暫定:N>であり、感情別データ28もピッチ:a1〜a5,トーン:b1〜b5と標準の設定となっている。この時点における学習回数18は0回である。
802は、音声の通話が行われた状態である。音声は、音声特徴抽出部7と音声感情抽出部19に入力される。音声特徴抽出部7では、入力された音声から基本音声データ24a(Z)と、感情別データ28(A3,B3)を検出する。また、音声感情抽出部19では、入力された音声から感情を判断し、感情分類26(図ではUに分類されている)として検出する。検出した基本音声データ24(Z)は、学習回数18が0であることより、音声特徴データ23にそのまま基本音声データ24として記憶される。これにより学習回数18は+1され1回となる。
一方、検出した感情影響音声データ25(A3,B3)は、検出した感情分類26aがUであり、感情影響音声データの<通常:U>のサンプリング符号27が<暫定:N>となっていることより、<通常:U>の感情別データ28として記憶する。また、サンプリング符号27は、<暫定:N>から<確定:Y>へと変更する。
次に803では、802で感情影響音声データ25が更新されたことにより感情データ調整部20が起動される。感情データ調整部20は、サンプリング符号27が<確定:Y>となっている感情別データ28の全てを用いて、サンプリング符号27が<暫定:N>となっているすべての感情別データを調整する。例えば、803の場合、サンプリング符号27が<確定:Y>となっている<通常:U>の感情別データ28を取り込み、他の感情分類26、つまりサンプリング符号27が<暫定:N>となっているすべて、S803では<喜び:H><期待:E><悲しみ:S><怒り:A>の感情別データ28を、予め定めた感情分類26の互いの相関関係、例えば、ピッチの関係はE:U=1.2:1といった相関関係から決定し、それらを更新する。
804は、次の通話が行われた状態を示している。801と同じ流れにより入力された音声から基本音声データ24bと、感情別データ28(A2,B2)、感情分類26(E)が検出される。検出された感情別データ(A2,B2)は、検出した感情分類26b(E)に対応する<期待:E>のサンプリング符号27が<暫定:N>となっていることより、<期待:E>の感情別データ28として記憶する。そして、<期待:E>のサンプリング符号27を<暫定:N>から<確定:Y>へと変える。
検出した基本音声データ24(Y)は、学習回数18が1であることより、805へと移り、音声特徴データ比較部7に、検出した基本音声データ24b(Y)と、記憶されていた基本音声データ24(Z)と、学習回数18を入力する。音声特徴データ比較部7では、記憶されていた基本音声データ24(Z)に学習学習回数18で重み付けを行い、検出した基本音声データ24(Y)との平均をとり、新たな音声基本データ24c(X)を作成し、音声特徴データ23の基本音声データ24として記憶する。続いて学習回数18が+1され、学習回数は2回となる。
806では、感情影響音声データ25が更新されたことにより感情データ調整部20が起動される。上述したように、感情データ調整部20は、サンプリング符号27が<確定:Y>となっている感情別データ28の全て、806では<通常:U>と<期待:E>の感情別データ28を取り込み、サンプリング符号27が<暫定:N>となっているすべて、806では<喜び:H><悲しみ:S><怒り:A>の感情別データ28を、予め定めた感情分類26の互いの相関関係に従って更新する。なお、例えば、ピッチの関係の標準値をH:E:U=1.5:1.2:1といった関係に対して、実際に取り込んだ感情別データ28ではE:U=1.08:1となっており、サンプリング符号27が<確定:Y>となっている感情別データ28を再度検出した場合には、実施形態1で示した学習方法と同様に感情データ28を更新し、当更新時にも<暫定:N>のデータを更新しても良い。E:U=1.08:1となっていた場合は、感情がピッチに反映される比率が低い人という判断を行い、Hも標準より低くなると予想し、H=1.5×1.08/1.2=1.35というように補正を行ってデータを決定し、更新する。
図10は、実施形態2によるメッセージ読み上げ時の音声データの作成経路を示す図である。
29は読み上げ対象となる受信メッセージであり、受信メッセージ29は、文章感情抽出部21と音声合成部12に渡される。また、基本音声データ24も音声合成部12に渡される。文章感情抽出部21では、受信メッセージ29から、単語または文節毎に感情を判断し、受信メッセージ29に感情情報を付加した感情メッセージデータ30を作成する。音声合成部12では、声質データとして基本音声データ24を用いて、受信メッセージ29を音声合成し、音声データ31を作成する。
感情メッセージデータ30と音声データ31及び感情影響音声データ25は、感情音声生成部22に渡される。感情音声生成部22では、入力された音声データ31に対して、感情メッセージデータ30に含まれる感情情報に対応した感情影響音声データ25の感情別データにて加工を行い、感情入り音声データ32を作成する。感情入り音声データ32は、送受話器部3によって音声となる。
以上説明したように、実施形態2によれば以下の効果が得られる。
・送信者の感情を読み上げ音声から知ることができ、より正確に相手の意図を掴むことが可能である。
・送信者の感情より緊急度を計ることが可能となる。
・送信者が感情を表面に現さない人でも、その文面から相手の感情を知ることにより相手への理解を深めることができる。
<実施形態3>
次に、入力された音声に対して音声認識を行い、電子メールを生成し、これを送信するメッセージ送信装置と、このような電子メールを受信して読み上げるメッセージ読み上げ装置について説明する。なお、送信対象は、電子メールに限らず、チャットのようなメッセージ送信であってもかまわない。
図11は実施形態3によるメッセージ送信装置の構成を示すブロック図である。実施形態1の装置構成(図1)で説明した構成と同様の機能を有する構成には同一の参照番号を付してある。
33は音声入力部であり、マイクにより操作者の音声を電気信号として入力する。34は電子メール送信部である。35は音声認識部であり、音声入力部33より入力された音声を音声認識して、テキストデータに変換する。36は音量・速度検出部であり、音声入力部33より入力された音声の、音量と話す速度を検出し、他の音声部分と比べ、予め定めた一定率以上に異なる個所を検出する。37は文章作成部であり、音声認識部35にて認識したテキストデータに、音声特徴データの付加と音量・速度検出部36の検出結果の情報を含んだ送信メールを作成するものである。なお、音声入力部33は送受話器部3の通話部を用いてもよい。
図12は、実施形態3による送信メールのデータの作成経路を示す図である。38は操作者の音声であり、音声入力部33から入力され、音声データ31となる。音声データ31は音声特徴抽出部7と、音声認識部35と、音量・速度検出部36に入力される。
音声認識部35では、入力された音声信号31を順次音声認識することによりテキストデータ39とし、これを文章作成部37へ入力する。音量・速度検出部36では、音声データ31において音量・速度に大きな変化を生じた時にその内容を文章作成部37に通知する。文章作成部37では、その通知を受け、テキストデータ39のその音声部分に対応する箇所に、予め定めた情報付加方法に従って情報を付加する。情報付加方法としては、テキスト文字に対してアンダーラインや斜め文字等の装飾や、文字サイズ、フォント種別、また画面上に表示されないデータとして付加するなどの方法がある。
音声特徴抽出部7では入力された音声データ31から、音声特徴データ17を作成し文章作成部37へと渡す。文章作成部37では、情報を付加したテキスト文章に音声特徴データ17及びその他の情報を付加して送信メール40を作成する。
図13に送信メール40の構成例を示す。41は送信先の宛先情報であり、42は送信者、つまり自分の情報である。43はメール種別情報であり、当メールにおいては音声情報入りメールであることを示す(音声情報入りメールとは、音声の音量や速度に応じてフォント、サイズ、文字修飾等が変更されているメールである)。次に入力時の音声特徴データ17が格納されている。また、44はSubjectであり、45は音声情報を含んだ文章例である。
図13の例において、文章45では、「こんにちは**です。」は通常音声であり、文字は標準として設定されている文字を使用している。「例の彼女の写真ですが」では、ここで「彼女の写真」の入力時に音量・速度検出部36が、音量が小さいと検出したことよりフォントサイズは小さくなり、また同時に話す速度が速いと検出したことより、さらに斜め文字修飾が行われている。「今日中に必ずお願いします」では、音量・速度検出部36が、音量が著しく大きいと検出したことより、フォントサイズを大きくし、また同時に話す速度が遅いと検出したことより、太字となっている。さらに、前記2つの検出の組み合わせ(音量が大きくゆっくりしていること)から重要部分として認識され、アンダーラインが付加されている。
尚、送信メール40を表示部6に表示し、入力部5にて文字装飾の追加や修正を行った後に送信するようにすることも当然可能である。
次に、以上のような音声情報入りメールを読み上げる読み上げ装置について説明する。図14は、実施形態3による音声情報入りメールに対応したメール読み上げ装置の構成を示すブロック図である。
送信メール40は公衆回線を通して通信制御部2で受信され、主制御部1を介して電子メール受信部4へと送られる。入力部5からメールが指定されると、表示部6にそのメール内容が表示される。このときの表示状態は、図13の45に示したように、音声状態に応じて設定されたフォント、サイズ、文字修飾に従ったものとなる。
また入力部5から読み上げを指示された場合は、メールは電子メール受信部4から主制御部1へと移り、主制御部1でメール種別情報43により音声情報入りメールであることを確認し、Subject44と文章45が音声合成部12に渡される。このとき、声質データとして当該電子メールに含まれる音声特徴データ17を設定する。また、文章45は音量・速度調整部47へも渡される。音声合成部12では、声質データを元に音声データを作成する。また、音量・速度調整部47では、入力された文章45から文字の装飾や大きさに含まれている付加情報を取り出し、この付加情報に基づいて、音声合成部12で作成された音声データに音量や速度等を設定する加工を行い、最終読み上げデータを作成する。最終読み上げデータは、主制御部1を介して音声出力部47に送られ、音声へと変換される。
尚、本例においては、音声入力時の音声の特徴を検出する例を示したが、実施形態1で示したように、音声入力部33を送受話器部3として、通話時に音声特徴データ17を作成しておき、送信メールに音声特徴データ17を付加するようにしても良い。この場合には当然、実施形態1に示した学習や音声の調整を行えるものである。
以上説明したように、実施形態3によれば、以下のような効果が得られる。
・声の大小や喋りかたにより意図的に文章に変化を入れることが可能である。
・受信者は送信者の声で聞くことができので、送信者を特定でき、意図を理解し易くなる。
・音声データとして送信するよりもデータ量が少なく、通信料金が少ない。
・受信者は視覚的にも送信者の意図を見ることが可能である。
<実施形態4>
次に、実施形態4として、実施形態3に感情要素を加味したメッセージ送信装置について説明する。
図15は実施形態4によるメッセージ送信装置の構成を示すブロック図である。図15に示される構成は、実施形態3で示した構成図(図11)に、感情検出部48が加わったものである。感情検出部48は、音声入力部33から入力された音声データ31より、話者の感情を判断し、その結果が予め定めた「通常の感情」の範囲以上の変化を示した時に、その結果を感情分類26として出力するものである。
図16は、実施形態4によるメッセージ送信装置における、音声入力から感情情報を含むメッセージを作成するまでの作成経路を示す図である。
音声入力部33に入力された話者の音声38は、音声データ31となり、音声認識部35、感情検出部48、音声特徴検出部7へと入力される。音声認識部35では、音声データ31を順次音声認識することによりテキストデータ39を作成し文章作成部37へ渡す。感情検出部48では、音声データ31から感情の判断を行い、感情が設定範囲を超えた場合にその感情分類26を出力する。感情分類26は、音声特徴抽出部7と文章作成部37に入力される。音声特徴抽出部7では、音声データ31より音声の特徴を抽出すると共に、入力された感情分類26により感情別の特徴も抽出し、これに基づいて基本音声データ24と、感情影響音声データ25を作成する。
文章作成部37では、感情分類26の通知を受け、その時のテキストデータ39に文節毎に、予め感情分類26毎に定めた情報付加方法に従って情報を付加する。文章作成部37では、情報を付加したテキスト文章に基本音声データ24、感情影響音声データ25及びその他の情報を付加して送信メール49を作成する。
図17は実施形態4における送信メールの構成例を示す図である。実施形態4の送信メール49の主な構成は図13と同様であり、図17には送信メール49の特徴的な部分が示されている。
音声特徴データ17は、基本音声データ24と感情影響音声データ25とによって構成される。また、Subject44に続き感情情報入り文章データ50が格納される。図17では、感情方法入り文章データの一例が示されている。この文章例の中で、「こんにちは,**です。」は、感情検出部48で感情分類26で<通常>と判断し、標準として設定してある文字にて記述される。「楽しかった」は、感情分類26で<喜び>と判断され、<喜び>に対応した文字として「(笑)」を加えることにより<喜び>の情報を付加している。「誰もいなかった」では、感情分類26で<悲しみ>と判断し、文節後に0003hという画面上表記されないデータを加えることにより<悲しみ>の情報を付加している。「頭にきた」では、感情分類26で<怒り>と判断し、「!!」を加えることにより<怒り>の情報を付加している。「返事待ってます」では、感情分類26で<期待>と判断し、絵文字である「(^_^)」を加えることにより<期待>の情報を付加している。前記情報付加の方法は、方法として各種の方法を示したものであり、各感情分類26に対して特定した方法ではない。
尚、作成した文章50を編集する時には、<悲しみ>の情報である0003hも情報として表示され、編集することが可能となっている。
このような送信メッセージを読み上げる装置には、実施形態2で説明したような装置を用いることができる。すなわち、送信メールに含まれる基本音声データ24、感情影響音声データ25を用いて、図10に示すようにして音声合成を行う。ただし、実施形態4の場合、文章感情抽出部21では、予め決められた記号や文字列(!!、(笑)等)、コード(0003h)等を読み上げ対象のメッセージから取り出し、これに基づいて感情メッセージデータ30を生成することになる。
以上のように、実施形態4によれば、以下の効果がある。
・感情要素が加わることにより、より送信者の意図や気持ちを伝えることが可能となる。
・受信者は視覚的にも、送信者の感情を知ることが可能である。
実施形態1によるメッセージ読み上げ装置の構成を示すブロック図である。 個人データ記憶部8に保管されているデータの構成例を示す図である。 主制御部1による、音声特徴データに対する学習処理を示すフローチャートである。 実施形態1によるメール読み上げ時の主制御部1の処理を説明するフローチャートである。 実施形態1において、登録されている音声特徴データ17を調整する際の画面推移を示す図である。 実施形態2によるにメッセージ読み上げ装置の構成を示すブロック図である。 実施形態2による音声特徴データの内容を説明する図である。 実施形態2による音声特徴データの作成例を示す図である。 実施形態2による音声特徴データの作成例を示す図である。 実施形態2によるメッセージ読み上げ時の音声データの作成経路を示す図である。 実施形態3によるメッセージ送信装置の構成を示すブロック図である。 実施形態3による送信メールのデータの作成経路を示す図である。 実施形態3による送信メール40の構成例を示す図である。 実施形態3による音声情報入りメールに対応したメール読み上げ装置の構成を示すブロック図である。 実施形態4によるメッセージ送信装置の構成を示すブロック図である。 実施形態4によるメッセージ送信装置における、音声入力から感情情報を含むメッセージを作成するまでの作成経路を示す図である。 実施形態4における送信メールの構成例を示す図である。

Claims (23)

  1. 音声を受信する受信手段と、
    前記受信手段で受信した音声よりテキスト列を生成する音声認識手段と、
    前記受信手段で受信された音声における発声状態の変化を検出する検出手段と、
    前記検出手段で検出された発声状態の変化に基づいて、前記音声認識手段で生成されたテキスト列に付加的データを付与する付与手段と、
    前記付与手段で付加的データが付与されたテキスト列を含む送信メッセージを生成する生成手段とを備えることを特徴とする情報処理装置。
  2. 前記付加的データは、前記テキスト列の属性であることを特徴とする請求項1に記載の情報処理装置。
  3. 前記検出手段は、前記入力された音声の音量及び/又はスピードの変化を検出することを特徴とする請求項1に記載の情報処理装置。
  4. 前記受信した音声より音声特徴データを取得する取得手段を更に備え、
    前記生成手段で生成される送信メッセージは前記音声特徴データを含むことを特徴とする請求項1に記載の情報処理装置。
  5. 音声を受信する入力手段と、
    前記受信手段で受信した音声よりテキスト列を生成する音声認識手段と、
    前記受信した音声を、複数の感情分類項目のいずれかに分類する分類手段と、
    前記分類手段による分類結果に基づいて、前記音声認識手段で生成されたテキスト列に 前記分類項目に対応する付加的データを付与する付与手段と、
    前記付与手段で付加的データが付与されたテキスト列を含む送信メッセージを生成する生成手段とを備えることを特徴とする情報処理装置。
  6. 前記分類手段は、前記入力された音声の各文節を前記複数の感情分類項目のいずれかに分類することを特徴とする請求項5に記載の情報処理装置。
  7. 前記分類手段で分類された各音声に基づいて、感情分類項目毎の音声特徴データを取得する取得手段を更に備え、
    前記生成手段で生成される送信メッセージは前記感情分類項目毎の音声特徴データを含むことを特徴とする請求項5に記載の情報処理装置。
  8. 発声状態を表す付加データが付加されたテキスト列を含むメッセージを受信する受信手段と、
    前記受信手段で受信されたメッセージのテキスト列に基づいて音声データを生成する音声合成手段と、
    前記受信されたテキスト列より前記付加データを取得し、これに基づいて前記音声データの発声状態を変更する変更手段とを備えることを特徴とする情報処理装置。
  9. 前記発声状態が発声の音量及びスピードを含むことを特徴とする請求項8に記載の情報処理装置。
  10. 前記メッセージは、音声特徴データを含み、
    前記音声合成手段は、前記メッセージに含まれる音声特徴データを用いてテキスト列に対する音声データを生成することを特徴とする請求項8に記載の情報処理装置。
  11. 複数の感情分類項目のうちのどの感情分類に属するかを表す付加データが付加されたテキスト列と、該複数の感情分類項目のそれぞれに対応する音声特徴データを含むメッセージを受信する受信手段と、
    前記受信手段で受信されたメッセージの付加データに基づいて、テキスト列が属する感情分類項目に対応した音声特徴データを、該メッセージより取得する取得手段と、
    前記取得手段で取得された音声特徴データを用いて、前記テキスト列に対する音声データを生成する音声合成手段とを備えることを特徴とする情報処理装置。
  12. 音声を受信する受信工程と、
    前記受信工程で受信した音声よりテキスト列を生成する音声認識工程と、
    前記受信工程で受信した音声における発声状態の変化を検出する検出工程と、
    前記検出工程で検出された発声状態の変化に基づいて、前記音声認識工程で生成されたテキスト列に付加的データを付与する付与工程と、
    前記付与工程で付加的データが付与されたテキスト列を含む送信メッセージを生成する生成工程とを備えることを特徴とする情報処理方法。
  13. 前記付加的データは、前記テキスト列の属性であることを特徴とする請求項12に記載の情報処理方法。
  14. 前記検出工程は、前記入力された音声の音量及び/又はスピードの変化を検出することを特徴とする請求項12に記載の情報処理方法。
  15. 前記受信した音声より音声特徴データを取得する取得工程を更に備え、
    前記生成工程で生成される送信メッセージは前記音声特徴データを含むことを特徴とする請求項12に記載の情報処理方法。
  16. 音声を受信する受信工程と、
    前記受信工程で受信した音声よりテキスト列を生成する音声認識工程と、
    前記受信した音声を、複数の感情分類項目のいずれかに分類する分類工程と、
    前記分類工程による分類結果に基づいて、前記音声認識工程で生成されたテキスト列に前記分類項目に対応する付加的データを付与する付与工程と、
    前記付与工程で付加的データが付与されたテキスト列を含む送信メッセージを生成する生成工程とを備えることを特徴とする情報処理方法。
  17. 前記分類工程は、前記入力された音声の各文節を前記複数の感情分類項目のいずれかに分類することを特徴とする請求項16に記載の情報処理方法。
  18. 前記分類工程で分類された各音声に基づいて、感情分類項目毎の音声特徴データを取得する取得工程を更に備え、
    前記生成工程で生成される送信メッセージは前記感情分類項目毎の音声特徴データを含むことを特徴とする請求項16に記載の情報処理方法。
  19. 発声状態を表す付加データが付加されたテキスト列を含むメッセージを受信する受信工程と、
    前記受信工程で受信されたメッセージのテキスト列に基づいて音声データを生成する音声合成工程と、
    前記受信されたテキスト列より前記付加データを取得し、これに基づいて前記音声データの発声状態を変更する変更工程とを備えることを特徴とする情報処理方法。
  20. 前記発声状態が発声の音量及びスピードを含むことを特徴とする請求項19に記載の情報処理方法。
  21. 前記メッセージは、音声特徴データを含み、
    前記音声合成工程は、前記メッセージに含まれる音声特徴データを用いてテキスト列に対する音声データを生成することを特徴とする請求項19に記載の情報処理方法。
  22. 複数の感情分類項目のうちのどの感情分類に属するかを表す付加データが付加されたテキスト列と、該複数の感情分類項目のそれぞれに対応する音声特徴データを含むメッセージを受信する受信工程と、
    前記受信工程で受信されたメッセージの付加データに基づいて、テキスト列が属する感情分類項目に対応した音声特徴データを、該メッセージより取得する取得工程と、
    前記取得工程で取得された音声特徴データを用いて、前記テキスト列に対する音声データを生成する音声合成工程とを備えることを特徴とする情報処理方法。
  23. 請求項12乃至22のいずれかに記載の情報処理方法をコンピュータに実行させるコンピュータプログラムを格納する記憶媒体。
JP2006019733A 2006-01-27 2006-01-27 情報処理装置及び方法 Pending JP2006184921A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006019733A JP2006184921A (ja) 2006-01-27 2006-01-27 情報処理装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006019733A JP2006184921A (ja) 2006-01-27 2006-01-27 情報処理装置及び方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2001401424A Division JP3806030B2 (ja) 2001-12-28 2001-12-28 情報処理装置及び方法

Publications (1)

Publication Number Publication Date
JP2006184921A true JP2006184921A (ja) 2006-07-13

Family

ID=36738020

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006019733A Pending JP2006184921A (ja) 2006-01-27 2006-01-27 情報処理装置及び方法

Country Status (1)

Country Link
JP (1) JP2006184921A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012013915A (ja) * 2010-06-30 2012-01-19 Humminglish Academy Llc 学習用教材および教材情報出力装置
JP2014026222A (ja) * 2012-07-30 2014-02-06 Brother Ind Ltd データ生成装置、及びデータ生成方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04199098A (ja) * 1990-11-29 1992-07-20 Meidensha Corp 規則音声合成装置
JPH0561637A (ja) * 1991-09-02 1993-03-12 Toshiba Corp 音声合成メールシステム
JPH0916190A (ja) * 1995-06-26 1997-01-17 Matsushita Electric Ind Co Ltd 文章読上装置
JPH09138767A (ja) * 1995-11-14 1997-05-27 Fujitsu Ten Ltd 感情表現の通信装置
JPH10260692A (ja) * 1997-03-18 1998-09-29 Toshiba Corp 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
JPH11119791A (ja) * 1997-10-20 1999-04-30 Hitachi Ltd 音声感情認識システムおよび方法
JPH11215248A (ja) * 1998-01-28 1999-08-06 Uniden Corp 通信システムおよびこれに用いられる無線通信端末装置
JPH11231885A (ja) * 1998-02-19 1999-08-27 Fujitsu Ten Ltd 音声合成装置
JP2000075880A (ja) * 1998-09-01 2000-03-14 Nippon Telegr & Teleph Corp <Ntt> ピッチパタン変形方法及びその記録媒体
JP2000214764A (ja) * 1999-01-22 2000-08-04 Hitachi Ltd 手話メ―ル装置
JP2001147919A (ja) * 1999-11-24 2001-05-29 Sharp Corp 音声処理装置及び方法並びにこれに利用される記憶媒体
JP2001337688A (ja) * 2000-05-26 2001-12-07 Canon Inc 音声合成装置及び音声合成方法並びに記憶媒体

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04199098A (ja) * 1990-11-29 1992-07-20 Meidensha Corp 規則音声合成装置
JPH0561637A (ja) * 1991-09-02 1993-03-12 Toshiba Corp 音声合成メールシステム
JPH0916190A (ja) * 1995-06-26 1997-01-17 Matsushita Electric Ind Co Ltd 文章読上装置
JPH09138767A (ja) * 1995-11-14 1997-05-27 Fujitsu Ten Ltd 感情表現の通信装置
JPH10260692A (ja) * 1997-03-18 1998-09-29 Toshiba Corp 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
JPH11119791A (ja) * 1997-10-20 1999-04-30 Hitachi Ltd 音声感情認識システムおよび方法
JPH11215248A (ja) * 1998-01-28 1999-08-06 Uniden Corp 通信システムおよびこれに用いられる無線通信端末装置
JPH11231885A (ja) * 1998-02-19 1999-08-27 Fujitsu Ten Ltd 音声合成装置
JP2000075880A (ja) * 1998-09-01 2000-03-14 Nippon Telegr & Teleph Corp <Ntt> ピッチパタン変形方法及びその記録媒体
JP2000214764A (ja) * 1999-01-22 2000-08-04 Hitachi Ltd 手話メ―ル装置
JP2001147919A (ja) * 1999-11-24 2001-05-29 Sharp Corp 音声処理装置及び方法並びにこれに利用される記憶媒体
JP2001337688A (ja) * 2000-05-26 2001-12-07 Canon Inc 音声合成装置及び音声合成方法並びに記憶媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012013915A (ja) * 2010-06-30 2012-01-19 Humminglish Academy Llc 学習用教材および教材情報出力装置
JP2014026222A (ja) * 2012-07-30 2014-02-06 Brother Ind Ltd データ生成装置、及びデータ生成方法

Similar Documents

Publication Publication Date Title
JP3806030B2 (ja) 情報処理装置及び方法
CN100403828C (zh) 一种便携式数字移动通讯设备及其语音控制方法和系统
US20060145943A1 (en) Avatar control using a communication device
JP4930584B2 (ja) 音声合成装置、音声合成システム、言語処理装置、音声合成方法及びコンピュータプログラム
EP2385520A2 (en) Method and device for generating text from spoken word
JP2000056792A (ja) ユ―ザの発話を認識するための方法及び装置
KR20090085376A (ko) 문자 메시지의 음성 합성을 이용한 서비스 방법 및 장치
KR20100109034A (ko) 문자 메시지 작성 방법 및 이를 이용한 휴대 단말기
US20050131687A1 (en) Portable wire-less communication device
JP2001273283A (ja) 言語を識別しかつ音声再生装置を制御する方法及び通信デバイス
TW201606750A (zh) 使用外國字文法的語音辨識
KR20190029237A (ko) 통역장치 및 그 방법
US20060224385A1 (en) Text-to-speech conversion in electronic device field
JP2006185426A (ja) Htmlメール生成システム、通信装置、htmlメール生成方法、及び記録媒体
US20200320976A1 (en) Information processing apparatus, information processing method, and program
JP4787634B2 (ja) 音楽フォント出力装置、フォントデータベース及び言語入力フロントエンドプロセッサ
JP2005065252A (ja) 携帯電話機
JP2010197669A (ja) 携帯端末、編集誘導プログラムおよび編集装置
JP5031269B2 (ja) 文書表示装置及び文書読み上げ方法
JP2006344039A (ja) 電子メール装置、および、プログラム
JP2006184921A (ja) 情報処理装置及び方法
JP2013238880A (ja) 携帯端末、編集誘導プログラムおよび編集誘導方法
CN110827815A (zh) 一种语音识别方法、终端、系统以及计算机存储介质
KR100487446B1 (ko) 이동 통신 단말의 오디오 장치를 이용한 감정 표현 방법및 이를 위한 이동 통신 단말
KR100652580B1 (ko) 이동단말기의 텍스트/음성 변환 방법

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080916

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081014

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090410

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090608

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091113