JP2004015478A - 音声通信端末装置 - Google Patents
音声通信端末装置 Download PDFInfo
- Publication number
- JP2004015478A JP2004015478A JP2002166789A JP2002166789A JP2004015478A JP 2004015478 A JP2004015478 A JP 2004015478A JP 2002166789 A JP2002166789 A JP 2002166789A JP 2002166789 A JP2002166789 A JP 2002166789A JP 2004015478 A JP2004015478 A JP 2004015478A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- character
- character data
- unit
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】音声を文字情報に変換して送信する音声通信端末装置において、感情などの非言語的情報の伝達を可能とする。
【解決手段】本発明の音声通信端末装置は、マイクロホンより入力された音声信号を文字データに変換する文字データ生成部201と、音声信号から通話者の感情を自動判別し、判別した感情を感情データとして出力する音声解析部202と、撮像部が撮影した通話者の顔画像から通話者の感情を自動判別し、判別した感情を感情データとして出力する画像解析部203と、文字データ生成部201が生成した文字データを音声解析部202が検知した通話者の感情と画像解析部203が検知した通話者の感情とに基づいて修飾する文字修飾部204とを有する。
【選択図】 図2
【解決手段】本発明の音声通信端末装置は、マイクロホンより入力された音声信号を文字データに変換する文字データ生成部201と、音声信号から通話者の感情を自動判別し、判別した感情を感情データとして出力する音声解析部202と、撮像部が撮影した通話者の顔画像から通話者の感情を自動判別し、判別した感情を感情データとして出力する画像解析部203と、文字データ生成部201が生成した文字データを音声解析部202が検知した通話者の感情と画像解析部203が検知した通話者の感情とに基づいて修飾する文字修飾部204とを有する。
【選択図】 図2
Description
【0001】
【発明の属する技術分野】
本発明は音声通信端末装置に関し、特に入力された音声から文字データを生成し、音声とともに送信する音声通信端末装置に関する。
【0002】
【従来の技術】
近年、携帯電話機などの音声通信端末装置には通話機能だけでなく、電子メール機能をはじめとする様々な機能が付加されるようになってきており、新たな機能の提案も盛んになされている。これらの提案の1つとして、通話者の音声を文字データに変換して音声とともに送信する携帯電話機が提案されている。この携帯電話機によれば、通話相手の携帯電話機に通話者の話したことが文字で表示されるので、通常の携帯電話機では出力できない大音量にしなければ聞き取れない人や聴力障害者でも通話相手の話すことが理解できるようになる。また、通話者の音声から他言語の翻訳文を生成し音声とともに送信する翻訳文送信機能付き携帯電話機が提案されている。この携帯電話機によれば、通話先の携帯電話機に通話相手が話した内容の翻訳文が表示されるので、話す言語が異なる者と通話する場合でも、通話相手の話すことが理解できるようになる。
【0003】
【発明が解決しようとする課題】
しかしながら、これら従来の音声を文字情報に変換して送信する音声通信端末装置では、通話相手と円滑なコミュニケーションを図るという点では不十分であった。これは、通常の通話で交わされる音声情報には、言語的情報のほかに感情などの非言語的情報が含まれており、通話者は言語的情報と非言語的情報を合わせて通話相手とコミュニケーションを行っているのに対し、従来の文字情報には非言語的情報が含まれていないため、円滑なコミュニケーションを行うための情報が不足しているためである。
本発明は、このような状況に鑑みてなされたものであり、音声を文字情報に変換して送信する音声通信端末装置において、感情などの非言語的情報の伝達を可能とすることを目的とする。
【0004】
【課題を解決するための手段】
上述した課題を解決するために、本発明は、入力された音声から文字データを生成し、音声とともに通話先に送信する音声通信端末装置において、通話者の状態を示す情報を抽出する情報抽出手段と、この情報抽出手段が抽出した情報に基づいて文字データを修飾する文字修飾手段とを有することによって特徴づけられる。この発明の音声通信端末装置は、情報抽出手段が抽出した通話者の状態を示す情報に基づいて音声から生成した文字データを装飾して送信するので、文字データに通話者の状態に応じた情報を装飾データとして付加することができる。このため、通話相手は、文字データから言語的情報を得るとともに、装飾データから非言語的情報を得ることができる。
【0005】
この場合、情報抽出手段の一構成例は、入力された音声に表れる特徴を抽出する音声解析手段を有する。この音声解析手段は、音声から通話者の感情により変化する特徴量として抑揚を抽出する。また、情報抽出手段の別の構成例は、音声解析手段に加えて通話者の顔画像を撮像する撮像手段と、この撮像手段が撮像した通話者の顔画像に表れる特徴を抽出する画像解析手段とをさらに有する。この画像解析手段は、顔画像から通話者の感情により変化する特徴量として表情を抽出する。
【0006】
また、文字修飾手段の一構成例は、文字データを構成する文字の大きさ、フォント、色及び濃さの少なくとも1つを制御する。これにより、非言語的情報である通話者の感情を文字の大きさ、フォント、色及び濃さのいずれかあるいはこれらの組合せにより通話相手に伝達することが可能となる。
また、音声通信端末装置の一構成例は、文字データを他言語に翻訳する翻訳手段と、この翻訳手段で翻訳された翻訳文の文字データを対応する翻訳前の文字データの修飾情報に基づいて修飾する翻訳文修飾手段とをさらに有する。これにより、翻訳前の文字データに付加された非言語情報が翻訳後の文字データにも付加されるので、異なる言語を話す通話相手に言語情報と非言語情報が伝達される。
【0007】
【発明の実施の形態】
以下に図を用いて発明の実施の形態を説明する。
[実施の形態1]
図1は、本発明に係る携帯電話機のハードウェア構成の一例を示すブロック図であり、本発明の実施の形態1を示す。図1に示すように、実施の形態1に係る携帯電話機は、制御部101、無線部102、操作部103、マイクロホン104、スピーカ105、撮像部106およびアンテナ107を有しており、制御部101は、無線部102、操作部103、マイクロホン104、スピーカ105および撮像部106とそれぞれ接続され、無線部102はアンテナ107と接続されている。
【0008】
制御部101は演算処理装置と記憶装置と記憶装置に記録された処理プログラム(ソフトウェア)とから構成されており、処理プログラムが演算処理装置で実行されることにより携帯電話機の制御と後述するデータ処理を行う。無線部102は、アンテナ107を介した電波の送受信と信号の変復調を行う周知の無線回路である。操作部103は、表示画面108とテンキー109と選択スイッチ110とを有するマンマシンインタフェースである。この場合、表示画面108は階調表示の可能なカラー液晶表示器を用いる。テンキー109と選択スイッチ110は、従来の携帯電話機で用いられているものと同じものでよい。
【0009】
マイクロホン104とスピーカ105は、携帯電話機の音声入力と音声出力の機能を担う入力装置と出力装置であり、従来の携帯電話機で用いられているものと同じものである。撮像部106は、例えばCCDなどの撮像素子を用いた電子カメラで構成されており、通話時に通話者の顔を撮影可能なように配置されている。アンテナ107は、従来の携帯電話機で用いられているものと同じものである。
【0010】
図2は、制御部105の実施の形態1に係る部分の機能構成を示す機能ブロック図である。図2に示すように、制御部105は文字データ生成部201、音声解析部202、画像解析部203および文字修飾部204を有する。文字データ生成部201は、マイクロホン104より入力された音声信号を文字データに変換する機能を有する。この場合、文字データ生成部201は、入力された音声信号をあらかじめ通話者が選択スイッチ110で選択した入力言語の文字データを生成する。例えば、入力言語として日本語が選択されているときは、入力された音声信号を日本語として処理し、周知の日本語音声認識辞書と音声認識プログラムにより漢字仮名交じり文の文字データを生成する。また、入力言語として英語が選択されているときは、入力された音声信号を英語として処理し、周知の英語音声認識辞書と音声認識プログラムにより英文の文字データを生成する。
【0011】
図3は、音声解析部202の機能構成を示す機能ブロック図である。図3に示すように、音声解析部202は、特徴抽出部301と照合部302と抑揚パターンデータベース303とから構成されており、音声信号から通話者の感情を自動判別し、判別した感情を感情データとして出力する機能を有する。この場合、特徴抽出部301が音声信号から「怒り」、「悲しみ」、「喜び」、「平静」の4つの感情に特有の抑揚を示す特徴量を抽出し、照合部302が抽出された特徴量を抑揚パターンデータベース303に格納された抑揚パターンと照合し、「怒り」、「悲しみ」、「喜び」、「平静」の内、もっとも近い感情を出力する。なお、音声を用いた感情の判別方法は、抑揚に限られるものではない。
【0012】
例えば、感情の判別方法として、感情判別に重要な韻律的特徴量である基本周波数(ピッチ)を抽出する方法、声の大きさ(音圧)を用いる方法、発話時間を用いる方法、これらを組み合わせる方法など数々の感情判別方法が提案されており、これらの方法を用いてもよい。また、ここでは音声信号から「怒り」、「悲しみ」、「喜び」、「平静」の4つの感情を判別するとしたがこれに限られるものではなく、用いる判別方法によって4つより少なくしてもよいし、例えば「驚き」や「不満」などを加えて多くしてもよい。さらに、感情のほかにその度合いを加えてもよい。この場合、出力する感情は1つに限らず、判別する感情ごとにその度合いを出力するようにしてもよい。
【0013】
図4は、画像解析部203の機能構成を示す機能ブロック図である。図4に示すように、画像解析部203は、特徴抽出部401と照合部402と表情パターンデータベース403とから構成されており、撮像部106が撮影した通話者の顔画像から通話者の感情を自動判別し、判別した感情を感情データとして出力する機能を有する。この場合、特徴抽出部401が連続撮影された顔画像から「目」、「眉」、「鼻」、「口」などの各パーツ間の相対位置とその変化量を特徴量として抽出し、照合部402が抽出された特徴量を表情パターンデータベース403に格納された表情パターンと照合し、「怒り」、「悲しみ」、「喜び」、「平静」の内、もっとも近い感情を出力する。
【0014】
顔画像から表情を判別する方法は、各パーツ間の相対位置とその変化量を抽出する方法に限られるものではなく、他の方法を用いてもよい。また、判別する感情の種類も「怒り」、「悲しみ」、「喜び」、「平静」の4つに限られるものではなく、4つより少なくしてもよいし多くしてもよい。さらに、感情のほかにその度合いを加えてもよい。この場合、出力する感情は1つに限らず、判別する感情ごとにその度合いを出力するようにしてもよい。
【0015】
図5は、文字装飾部204の機能構成を示す機能ブロック図である。図5に示すように、文字装飾部204は、音声修飾部501と音声修飾情報データベース502と画像修飾部503と画像修飾情報データベース504とから構成されており、文字データ生成部201が生成した文字データを音声解析部202が検知した通話者の感情と画像解析部203が検知した通話者の感情とに基づいて修飾する機能を有する。
【0016】
この場合、音声修飾部501は、音声解析部202から入力された感情データをキーにして音声修飾情報データベース502を検索し、入力された感情データに関係づけられた修飾データを読み出し、この修飾データで文字データ生成部201から入力された文字データを修飾し、画像修飾部503へ出力する。ここで、音声修飾情報データベース502は、感情データごとに対応する修飾データを格納しており、修飾データとして文字フォントと文字の大きさの組合せを用いている。
【0017】
画像修飾部503は、画像解析部203から入力された感情データをキーにして画像修飾情報データベース504を検索し、入力された感情データに関係づけられた修飾データを読み出し、この修飾データで音声修飾部501から入力された文字データを修飾し、無線部102へ出力する。ここで、画像修飾情報データベース504は、感情データごとに対応する修飾データを格納しており、修飾データとして文字の色と濃さの組合せを用いている。
【0018】
この実施の形態の携帯電話機は、通話先の携帯電話機に表示される文字が通話者の感情に応じて修飾されるので、表示される文字でしか通話相手の話すことが理解できない、通常の携帯電話機では出力できない大音量にしなければ聞き取れない人や聴力障害者にも通話者の感情を伝達することができる。このため、単に文字を表示する場合に比べて、より円滑な通話を行うことが可能となる。
【0019】
この実施の形態では、文字装飾部204は通話者の音声の抑揚から検知した感情に基づいて文字のフォントと大きさを制御し、通話者の顔の表情から検知した感情に基づいて文字の色と濃さを制御するようにしたが、これに限られるものではない。例えば、音声と画像で制御する対象を入れ替えてもよいし、それぞれ組合せではなくフォントのみの制御や大きさのみの制御、色のみの制御や濃さのみの制御としてもよい。
【0020】
また、この実施の形態では、音声解析から求めた感情データと画像解析から求めた感情データとを用いて文字を修飾するように構成したが、音声解析から求めた感情データのみを用いて文字を修飾するようにしてもよい。この場合、ハードウェアとして撮像部106が、また機能ブロックとして画像解析部203が不要となるので、携帯電話機の開発コストや製造コストを低減することができる。
【0021】
[実施の形態2]
次に、本発明の実施の形態2を説明する。この実施の形態に係る携帯電話機のハードウェア構成は、図1で示したものと同じである。図6は、図1の制御部105の実施の形態2に係る機能構成を示す機能ブロック図である。この実施の形態の携帯電話機が実施の形態1で示した携帯電話機と異なる点は、制御部105が言語変換部205と修飾変換部206とをさらに備え、文字修飾部204から出力される修飾された文字データを言語変換部205が他言語に翻訳し、修飾変換部206が翻訳文の文字データを翻訳前の文字データに付加された装飾データに基づいて装飾し、無線部102に出力するように構成したことである。
【0022】
図6において、言語変換部205と修飾変換部206を除いた各部は実施の形態1と同じであるから説明を省略する。次に、図7を参照して言語変換部205と修飾変換部206の動作を説明する。図7は、言語変換部205と修飾変換部206の動作を説明する図である。言語変換部205は、文字修飾部204から入力される修飾された文字データから修飾データを除く。この場合、言語変換部205は、1つの文から単語ごとに文字データに付加されたフォントと文字サイズと文字色と色濃度とを含む装飾データを取り外し、一時保管する。このとき、文字データと装飾データのそれぞれに同じ識別子を付加する。
【0023】
次に、装飾データを取り外した文字データからなる1つの文をあらかじめ通話者が選択スイッチ110で選択した入力言語と出力言語からなる翻訳辞書と翻訳プログラムにより出力言語へ変換し、出力言語の文字データを生成する。このとき、入力言語の単語に付加されていた識別子を出力言語の単語に付加する。さらに、生成した文字データと入力文字データから除いた修飾データとを修飾変換部206に出力する。翻訳辞書と翻訳プログラムは、周知の翻訳手段を用いるので説明を省略する。
【0024】
修飾変換部206は、言語変換部205から文字データと修飾データが入力されると、修飾データを出力言語に対応した修飾データに変換した後、変換後の修飾データで文字データを修飾し、無線部102へ出力する。この場合、修飾データの変換は、文字フォントのような入力言語と出力言語で同じものがない修飾データについて、入力言語と出力言語が1対1で対応した変換テーブルを用いて行う。例えば、入力言語が日本語で出力言語が英語のときは、明朝体に対しTimes New Roman、ゴシック体に対しArialのようにあらかじめ設定された変換テーブルにより文字フォントの変換を行う。また、装飾データは、同じ識別子を持つ文字データに付加し、識別子を削除する。なお、翻訳処理により新たに生成した入力言語と直接対応しない出力言語の文字コードは、前後の単語の装飾データを付加するなどして文中で文字の装飾が唐突に変化するのを防止する。
【0025】
この実施の形態の携帯電話機は、通話先の携帯電話機に通話者の話した内容が翻訳されて表示されるとともに、表示される文字が通話者の感情に応じて修飾されるので、異なる言語を話す者同士の通話においても、通話者の感情を伝達することが可能となる。このため、単に文字を表示する場合に比べて、より円滑な通話を行うことが可能となる。
【0026】
実施の形態1と実施の形態2では、携帯電話機を例に説明したが、本発明は携帯電話機に限られるものではない。例えば、音声通信機能を有する携帯情報端末、インターネットや公衆回線を介して音声通信可能に構成されたコンピュータ、文字データ表示画面を備えた家庭用電話機や公衆電話機など、少なくとも音声通信機能と文字データ表示機能とを有する通信端末装置であれば、本発明を適用可能である。
【0027】
【発明の効果】
以上説明したように、本発明の音声通信端末装置は、音声を文字情報に変換して送信するとともに、感情などの非言語的情報を文字の装飾データとして送信するため、通話相手に言語的情報と非言語的情報の両方を伝達できるので、音声を用いた通話が難しい通話相手とより円滑なコミュニケーションを行うことが可能となる効果を有する。
【0028】
また、文字データを他言語に翻訳する翻訳手段と、この翻訳手段で翻訳された翻訳文の文字データを対応する翻訳前の文字データの修飾情報に基づいて修飾する翻訳文修飾手段とをさらに備えたので、異なる言語を話す者との通話においても、言語的情報と非言語的情報の両方を伝達できるので、通話相手とより円滑なコミュニケーションを行うことが可能となる効果を有する。
【図面の簡単な説明】
【図1】本発明に係る携帯電話機のハードウェア構成の一例を示すブロック図である。
【図2】図1の制御部の実施の形態1に係る部分の機能構成を示す機能ブロック図である。
【図3】図2の音声解析部の機能構成を示す機能ブロック図である。
【図4】図2の画像解析部の機能構成を示す機能ブロック図である。
【図5】図2の文字装飾部の機能構成を示す機能ブロック図である。
【図6】図1の制御部の実施の形態2に係る部分の機能構成を示す機能ブロック図である。
【図7】図6の言語変換部と修飾変換部の動作を説明する図である。
【符号の説明】
101…制御部、102…無線部、103…操作部、104…マイクロホン、105…スピーカ、106…撮像部、107…アンテナ、108…表示画面、109…テンキー、110…選択スイッチ、201…文字データ生成部、202…音声解析部、203…画像解析部、204…文字装飾部、205…言語変換部、206…修飾変換部、301…特徴抽出部、302…照合部、303…抑揚パターンデータベース、401…特徴抽出部、402…照合部、403…表情パターンデータベース、501…音声修飾部、502…音声修飾情報データベース、503…画像修飾部、504…画像修飾情報データベース。
【発明の属する技術分野】
本発明は音声通信端末装置に関し、特に入力された音声から文字データを生成し、音声とともに送信する音声通信端末装置に関する。
【0002】
【従来の技術】
近年、携帯電話機などの音声通信端末装置には通話機能だけでなく、電子メール機能をはじめとする様々な機能が付加されるようになってきており、新たな機能の提案も盛んになされている。これらの提案の1つとして、通話者の音声を文字データに変換して音声とともに送信する携帯電話機が提案されている。この携帯電話機によれば、通話相手の携帯電話機に通話者の話したことが文字で表示されるので、通常の携帯電話機では出力できない大音量にしなければ聞き取れない人や聴力障害者でも通話相手の話すことが理解できるようになる。また、通話者の音声から他言語の翻訳文を生成し音声とともに送信する翻訳文送信機能付き携帯電話機が提案されている。この携帯電話機によれば、通話先の携帯電話機に通話相手が話した内容の翻訳文が表示されるので、話す言語が異なる者と通話する場合でも、通話相手の話すことが理解できるようになる。
【0003】
【発明が解決しようとする課題】
しかしながら、これら従来の音声を文字情報に変換して送信する音声通信端末装置では、通話相手と円滑なコミュニケーションを図るという点では不十分であった。これは、通常の通話で交わされる音声情報には、言語的情報のほかに感情などの非言語的情報が含まれており、通話者は言語的情報と非言語的情報を合わせて通話相手とコミュニケーションを行っているのに対し、従来の文字情報には非言語的情報が含まれていないため、円滑なコミュニケーションを行うための情報が不足しているためである。
本発明は、このような状況に鑑みてなされたものであり、音声を文字情報に変換して送信する音声通信端末装置において、感情などの非言語的情報の伝達を可能とすることを目的とする。
【0004】
【課題を解決するための手段】
上述した課題を解決するために、本発明は、入力された音声から文字データを生成し、音声とともに通話先に送信する音声通信端末装置において、通話者の状態を示す情報を抽出する情報抽出手段と、この情報抽出手段が抽出した情報に基づいて文字データを修飾する文字修飾手段とを有することによって特徴づけられる。この発明の音声通信端末装置は、情報抽出手段が抽出した通話者の状態を示す情報に基づいて音声から生成した文字データを装飾して送信するので、文字データに通話者の状態に応じた情報を装飾データとして付加することができる。このため、通話相手は、文字データから言語的情報を得るとともに、装飾データから非言語的情報を得ることができる。
【0005】
この場合、情報抽出手段の一構成例は、入力された音声に表れる特徴を抽出する音声解析手段を有する。この音声解析手段は、音声から通話者の感情により変化する特徴量として抑揚を抽出する。また、情報抽出手段の別の構成例は、音声解析手段に加えて通話者の顔画像を撮像する撮像手段と、この撮像手段が撮像した通話者の顔画像に表れる特徴を抽出する画像解析手段とをさらに有する。この画像解析手段は、顔画像から通話者の感情により変化する特徴量として表情を抽出する。
【0006】
また、文字修飾手段の一構成例は、文字データを構成する文字の大きさ、フォント、色及び濃さの少なくとも1つを制御する。これにより、非言語的情報である通話者の感情を文字の大きさ、フォント、色及び濃さのいずれかあるいはこれらの組合せにより通話相手に伝達することが可能となる。
また、音声通信端末装置の一構成例は、文字データを他言語に翻訳する翻訳手段と、この翻訳手段で翻訳された翻訳文の文字データを対応する翻訳前の文字データの修飾情報に基づいて修飾する翻訳文修飾手段とをさらに有する。これにより、翻訳前の文字データに付加された非言語情報が翻訳後の文字データにも付加されるので、異なる言語を話す通話相手に言語情報と非言語情報が伝達される。
【0007】
【発明の実施の形態】
以下に図を用いて発明の実施の形態を説明する。
[実施の形態1]
図1は、本発明に係る携帯電話機のハードウェア構成の一例を示すブロック図であり、本発明の実施の形態1を示す。図1に示すように、実施の形態1に係る携帯電話機は、制御部101、無線部102、操作部103、マイクロホン104、スピーカ105、撮像部106およびアンテナ107を有しており、制御部101は、無線部102、操作部103、マイクロホン104、スピーカ105および撮像部106とそれぞれ接続され、無線部102はアンテナ107と接続されている。
【0008】
制御部101は演算処理装置と記憶装置と記憶装置に記録された処理プログラム(ソフトウェア)とから構成されており、処理プログラムが演算処理装置で実行されることにより携帯電話機の制御と後述するデータ処理を行う。無線部102は、アンテナ107を介した電波の送受信と信号の変復調を行う周知の無線回路である。操作部103は、表示画面108とテンキー109と選択スイッチ110とを有するマンマシンインタフェースである。この場合、表示画面108は階調表示の可能なカラー液晶表示器を用いる。テンキー109と選択スイッチ110は、従来の携帯電話機で用いられているものと同じものでよい。
【0009】
マイクロホン104とスピーカ105は、携帯電話機の音声入力と音声出力の機能を担う入力装置と出力装置であり、従来の携帯電話機で用いられているものと同じものである。撮像部106は、例えばCCDなどの撮像素子を用いた電子カメラで構成されており、通話時に通話者の顔を撮影可能なように配置されている。アンテナ107は、従来の携帯電話機で用いられているものと同じものである。
【0010】
図2は、制御部105の実施の形態1に係る部分の機能構成を示す機能ブロック図である。図2に示すように、制御部105は文字データ生成部201、音声解析部202、画像解析部203および文字修飾部204を有する。文字データ生成部201は、マイクロホン104より入力された音声信号を文字データに変換する機能を有する。この場合、文字データ生成部201は、入力された音声信号をあらかじめ通話者が選択スイッチ110で選択した入力言語の文字データを生成する。例えば、入力言語として日本語が選択されているときは、入力された音声信号を日本語として処理し、周知の日本語音声認識辞書と音声認識プログラムにより漢字仮名交じり文の文字データを生成する。また、入力言語として英語が選択されているときは、入力された音声信号を英語として処理し、周知の英語音声認識辞書と音声認識プログラムにより英文の文字データを生成する。
【0011】
図3は、音声解析部202の機能構成を示す機能ブロック図である。図3に示すように、音声解析部202は、特徴抽出部301と照合部302と抑揚パターンデータベース303とから構成されており、音声信号から通話者の感情を自動判別し、判別した感情を感情データとして出力する機能を有する。この場合、特徴抽出部301が音声信号から「怒り」、「悲しみ」、「喜び」、「平静」の4つの感情に特有の抑揚を示す特徴量を抽出し、照合部302が抽出された特徴量を抑揚パターンデータベース303に格納された抑揚パターンと照合し、「怒り」、「悲しみ」、「喜び」、「平静」の内、もっとも近い感情を出力する。なお、音声を用いた感情の判別方法は、抑揚に限られるものではない。
【0012】
例えば、感情の判別方法として、感情判別に重要な韻律的特徴量である基本周波数(ピッチ)を抽出する方法、声の大きさ(音圧)を用いる方法、発話時間を用いる方法、これらを組み合わせる方法など数々の感情判別方法が提案されており、これらの方法を用いてもよい。また、ここでは音声信号から「怒り」、「悲しみ」、「喜び」、「平静」の4つの感情を判別するとしたがこれに限られるものではなく、用いる判別方法によって4つより少なくしてもよいし、例えば「驚き」や「不満」などを加えて多くしてもよい。さらに、感情のほかにその度合いを加えてもよい。この場合、出力する感情は1つに限らず、判別する感情ごとにその度合いを出力するようにしてもよい。
【0013】
図4は、画像解析部203の機能構成を示す機能ブロック図である。図4に示すように、画像解析部203は、特徴抽出部401と照合部402と表情パターンデータベース403とから構成されており、撮像部106が撮影した通話者の顔画像から通話者の感情を自動判別し、判別した感情を感情データとして出力する機能を有する。この場合、特徴抽出部401が連続撮影された顔画像から「目」、「眉」、「鼻」、「口」などの各パーツ間の相対位置とその変化量を特徴量として抽出し、照合部402が抽出された特徴量を表情パターンデータベース403に格納された表情パターンと照合し、「怒り」、「悲しみ」、「喜び」、「平静」の内、もっとも近い感情を出力する。
【0014】
顔画像から表情を判別する方法は、各パーツ間の相対位置とその変化量を抽出する方法に限られるものではなく、他の方法を用いてもよい。また、判別する感情の種類も「怒り」、「悲しみ」、「喜び」、「平静」の4つに限られるものではなく、4つより少なくしてもよいし多くしてもよい。さらに、感情のほかにその度合いを加えてもよい。この場合、出力する感情は1つに限らず、判別する感情ごとにその度合いを出力するようにしてもよい。
【0015】
図5は、文字装飾部204の機能構成を示す機能ブロック図である。図5に示すように、文字装飾部204は、音声修飾部501と音声修飾情報データベース502と画像修飾部503と画像修飾情報データベース504とから構成されており、文字データ生成部201が生成した文字データを音声解析部202が検知した通話者の感情と画像解析部203が検知した通話者の感情とに基づいて修飾する機能を有する。
【0016】
この場合、音声修飾部501は、音声解析部202から入力された感情データをキーにして音声修飾情報データベース502を検索し、入力された感情データに関係づけられた修飾データを読み出し、この修飾データで文字データ生成部201から入力された文字データを修飾し、画像修飾部503へ出力する。ここで、音声修飾情報データベース502は、感情データごとに対応する修飾データを格納しており、修飾データとして文字フォントと文字の大きさの組合せを用いている。
【0017】
画像修飾部503は、画像解析部203から入力された感情データをキーにして画像修飾情報データベース504を検索し、入力された感情データに関係づけられた修飾データを読み出し、この修飾データで音声修飾部501から入力された文字データを修飾し、無線部102へ出力する。ここで、画像修飾情報データベース504は、感情データごとに対応する修飾データを格納しており、修飾データとして文字の色と濃さの組合せを用いている。
【0018】
この実施の形態の携帯電話機は、通話先の携帯電話機に表示される文字が通話者の感情に応じて修飾されるので、表示される文字でしか通話相手の話すことが理解できない、通常の携帯電話機では出力できない大音量にしなければ聞き取れない人や聴力障害者にも通話者の感情を伝達することができる。このため、単に文字を表示する場合に比べて、より円滑な通話を行うことが可能となる。
【0019】
この実施の形態では、文字装飾部204は通話者の音声の抑揚から検知した感情に基づいて文字のフォントと大きさを制御し、通話者の顔の表情から検知した感情に基づいて文字の色と濃さを制御するようにしたが、これに限られるものではない。例えば、音声と画像で制御する対象を入れ替えてもよいし、それぞれ組合せではなくフォントのみの制御や大きさのみの制御、色のみの制御や濃さのみの制御としてもよい。
【0020】
また、この実施の形態では、音声解析から求めた感情データと画像解析から求めた感情データとを用いて文字を修飾するように構成したが、音声解析から求めた感情データのみを用いて文字を修飾するようにしてもよい。この場合、ハードウェアとして撮像部106が、また機能ブロックとして画像解析部203が不要となるので、携帯電話機の開発コストや製造コストを低減することができる。
【0021】
[実施の形態2]
次に、本発明の実施の形態2を説明する。この実施の形態に係る携帯電話機のハードウェア構成は、図1で示したものと同じである。図6は、図1の制御部105の実施の形態2に係る機能構成を示す機能ブロック図である。この実施の形態の携帯電話機が実施の形態1で示した携帯電話機と異なる点は、制御部105が言語変換部205と修飾変換部206とをさらに備え、文字修飾部204から出力される修飾された文字データを言語変換部205が他言語に翻訳し、修飾変換部206が翻訳文の文字データを翻訳前の文字データに付加された装飾データに基づいて装飾し、無線部102に出力するように構成したことである。
【0022】
図6において、言語変換部205と修飾変換部206を除いた各部は実施の形態1と同じであるから説明を省略する。次に、図7を参照して言語変換部205と修飾変換部206の動作を説明する。図7は、言語変換部205と修飾変換部206の動作を説明する図である。言語変換部205は、文字修飾部204から入力される修飾された文字データから修飾データを除く。この場合、言語変換部205は、1つの文から単語ごとに文字データに付加されたフォントと文字サイズと文字色と色濃度とを含む装飾データを取り外し、一時保管する。このとき、文字データと装飾データのそれぞれに同じ識別子を付加する。
【0023】
次に、装飾データを取り外した文字データからなる1つの文をあらかじめ通話者が選択スイッチ110で選択した入力言語と出力言語からなる翻訳辞書と翻訳プログラムにより出力言語へ変換し、出力言語の文字データを生成する。このとき、入力言語の単語に付加されていた識別子を出力言語の単語に付加する。さらに、生成した文字データと入力文字データから除いた修飾データとを修飾変換部206に出力する。翻訳辞書と翻訳プログラムは、周知の翻訳手段を用いるので説明を省略する。
【0024】
修飾変換部206は、言語変換部205から文字データと修飾データが入力されると、修飾データを出力言語に対応した修飾データに変換した後、変換後の修飾データで文字データを修飾し、無線部102へ出力する。この場合、修飾データの変換は、文字フォントのような入力言語と出力言語で同じものがない修飾データについて、入力言語と出力言語が1対1で対応した変換テーブルを用いて行う。例えば、入力言語が日本語で出力言語が英語のときは、明朝体に対しTimes New Roman、ゴシック体に対しArialのようにあらかじめ設定された変換テーブルにより文字フォントの変換を行う。また、装飾データは、同じ識別子を持つ文字データに付加し、識別子を削除する。なお、翻訳処理により新たに生成した入力言語と直接対応しない出力言語の文字コードは、前後の単語の装飾データを付加するなどして文中で文字の装飾が唐突に変化するのを防止する。
【0025】
この実施の形態の携帯電話機は、通話先の携帯電話機に通話者の話した内容が翻訳されて表示されるとともに、表示される文字が通話者の感情に応じて修飾されるので、異なる言語を話す者同士の通話においても、通話者の感情を伝達することが可能となる。このため、単に文字を表示する場合に比べて、より円滑な通話を行うことが可能となる。
【0026】
実施の形態1と実施の形態2では、携帯電話機を例に説明したが、本発明は携帯電話機に限られるものではない。例えば、音声通信機能を有する携帯情報端末、インターネットや公衆回線を介して音声通信可能に構成されたコンピュータ、文字データ表示画面を備えた家庭用電話機や公衆電話機など、少なくとも音声通信機能と文字データ表示機能とを有する通信端末装置であれば、本発明を適用可能である。
【0027】
【発明の効果】
以上説明したように、本発明の音声通信端末装置は、音声を文字情報に変換して送信するとともに、感情などの非言語的情報を文字の装飾データとして送信するため、通話相手に言語的情報と非言語的情報の両方を伝達できるので、音声を用いた通話が難しい通話相手とより円滑なコミュニケーションを行うことが可能となる効果を有する。
【0028】
また、文字データを他言語に翻訳する翻訳手段と、この翻訳手段で翻訳された翻訳文の文字データを対応する翻訳前の文字データの修飾情報に基づいて修飾する翻訳文修飾手段とをさらに備えたので、異なる言語を話す者との通話においても、言語的情報と非言語的情報の両方を伝達できるので、通話相手とより円滑なコミュニケーションを行うことが可能となる効果を有する。
【図面の簡単な説明】
【図1】本発明に係る携帯電話機のハードウェア構成の一例を示すブロック図である。
【図2】図1の制御部の実施の形態1に係る部分の機能構成を示す機能ブロック図である。
【図3】図2の音声解析部の機能構成を示す機能ブロック図である。
【図4】図2の画像解析部の機能構成を示す機能ブロック図である。
【図5】図2の文字装飾部の機能構成を示す機能ブロック図である。
【図6】図1の制御部の実施の形態2に係る部分の機能構成を示す機能ブロック図である。
【図7】図6の言語変換部と修飾変換部の動作を説明する図である。
【符号の説明】
101…制御部、102…無線部、103…操作部、104…マイクロホン、105…スピーカ、106…撮像部、107…アンテナ、108…表示画面、109…テンキー、110…選択スイッチ、201…文字データ生成部、202…音声解析部、203…画像解析部、204…文字装飾部、205…言語変換部、206…修飾変換部、301…特徴抽出部、302…照合部、303…抑揚パターンデータベース、401…特徴抽出部、402…照合部、403…表情パターンデータベース、501…音声修飾部、502…音声修飾情報データベース、503…画像修飾部、504…画像修飾情報データベース。
Claims (5)
- 入力された音声から文字データを生成し、前記音声とともに通話先に送信する音声通信端末装置において、
通話者の状態を示す情報を抽出する情報抽出手段と、
この情報抽出手段が抽出した情報に基づいて前記文字データを修飾する文字修飾手段と
を有することを特徴とする音声通信端末装置。 - 前記情報抽出手段は、
入力された音声に表れる特徴を抽出する音声解析手段
を有することを特徴とする請求項1記載の音声通信端末装置。 - 前記情報抽出手段は、
通話者の顔画像を撮像する撮像手段と、
この撮像手段が撮像した通話者の顔画像に表れる特徴を抽出する画像解析手段と
をさらに有することを特徴とする請求項2記載の音声通信端末装置。 - 前記文字修飾手段は、
前記文字データを構成する文字の大きさ、フォント、色及び濃さの少なくとも1つを制御する
ことを特徴とする請求項1記載の音声通信端末装置。 - 前記文字データを他言語に翻訳する翻訳手段と、
この翻訳手段で翻訳された翻訳文の文字データを対応する翻訳前の文字データの修飾情報に基づいて修飾する翻訳文修飾手段と
をさらに有することを特徴とする請求項1記載の音声通信端末装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002166789A JP2004015478A (ja) | 2002-06-07 | 2002-06-07 | 音声通信端末装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002166789A JP2004015478A (ja) | 2002-06-07 | 2002-06-07 | 音声通信端末装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004015478A true JP2004015478A (ja) | 2004-01-15 |
Family
ID=30434237
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002166789A Pending JP2004015478A (ja) | 2002-06-07 | 2002-06-07 | 音声通信端末装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004015478A (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005348006A (ja) * | 2004-06-02 | 2005-12-15 | Nec Corp | 文字表示機能を有するテレビ電話装置及びテレビ電話装置における音声の文字変換表示方法 |
JP2006277567A (ja) * | 2005-03-30 | 2006-10-12 | Nec Corp | 音声感情認識によるメール作成機能付携帯端末、携帯端末システム、及び、音声感情認識によるメール作成方法 |
JP2008021058A (ja) | 2006-07-12 | 2008-01-31 | Nec Corp | 翻訳機能付き携帯電話装置、音声データ翻訳方法、音声データ翻訳プログラムおよびプログラム記録媒体 |
JP2009122498A (ja) * | 2007-11-16 | 2009-06-04 | Konami Digital Entertainment Co Ltd | 電子絵本システム及び電子絵本システム制御装置 |
JP2010176224A (ja) * | 2009-01-27 | 2010-08-12 | Nikon Corp | 画像処理装置およびデジタルカメラ |
JP2011253543A (ja) * | 2010-06-03 | 2011-12-15 | Electronics And Telecommunications Research Institute | 通訳端末及び通訳端末間の相互通信を用いた通訳方法 |
WO2013128715A1 (ja) * | 2012-03-01 | 2013-09-06 | 株式会社ニコン | 電子機器 |
JP2013183289A (ja) * | 2012-03-01 | 2013-09-12 | Nikon Corp | 電子機器 |
JP2015185172A (ja) * | 2014-03-24 | 2015-10-22 | 株式会社 ハイヂィープ | 感性伝達方法及びそのための端末機 |
JP2017510898A (ja) * | 2014-03-24 | 2017-04-13 | フェイスブック,インク. | 設定可能な電子通信要素 |
-
2002
- 2002-06-07 JP JP2002166789A patent/JP2004015478A/ja active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4600643B2 (ja) * | 2004-06-02 | 2010-12-15 | 日本電気株式会社 | 文字表示機能を有するテレビ電話装置及びテレビ電話装置における音声の文字変換表示方法 |
JP2005348006A (ja) * | 2004-06-02 | 2005-12-15 | Nec Corp | 文字表示機能を有するテレビ電話装置及びテレビ電話装置における音声の文字変換表示方法 |
JP2006277567A (ja) * | 2005-03-30 | 2006-10-12 | Nec Corp | 音声感情認識によるメール作成機能付携帯端末、携帯端末システム、及び、音声感情認識によるメール作成方法 |
JP4670431B2 (ja) * | 2005-03-30 | 2011-04-13 | 日本電気株式会社 | 音声感情認識によるメール作成機能付携帯端末、携帯端末システム、及び、音声感情認識によるメール作成方法 |
JP2008021058A (ja) | 2006-07-12 | 2008-01-31 | Nec Corp | 翻訳機能付き携帯電話装置、音声データ翻訳方法、音声データ翻訳プログラムおよびプログラム記録媒体 |
JP2009122498A (ja) * | 2007-11-16 | 2009-06-04 | Konami Digital Entertainment Co Ltd | 電子絵本システム及び電子絵本システム制御装置 |
JP2010176224A (ja) * | 2009-01-27 | 2010-08-12 | Nikon Corp | 画像処理装置およびデジタルカメラ |
JP2011253543A (ja) * | 2010-06-03 | 2011-12-15 | Electronics And Telecommunications Research Institute | 通訳端末及び通訳端末間の相互通信を用いた通訳方法 |
WO2013128715A1 (ja) * | 2012-03-01 | 2013-09-06 | 株式会社ニコン | 電子機器 |
JP2013183289A (ja) * | 2012-03-01 | 2013-09-12 | Nikon Corp | 電子機器 |
JP2015185172A (ja) * | 2014-03-24 | 2015-10-22 | 株式会社 ハイヂィープ | 感性伝達方法及びそのための端末機 |
JP2017510898A (ja) * | 2014-03-24 | 2017-04-13 | フェイスブック,インク. | 設定可能な電子通信要素 |
US10140001B2 (en) | 2014-03-24 | 2018-11-27 | Facebook, Inc. | Configurable electronic communication element |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2574220B1 (en) | Hand-held communication aid for individuals with auditory, speech and visual impairments | |
US7570814B2 (en) | Data processing device, data processing method, and electronic device | |
JP2023022150A (ja) | 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム | |
EP1486949A1 (en) | Audio video conversion apparatus and method, and audio video conversion program | |
JP2019208138A (ja) | 発話認識装置、及びコンピュータプログラム | |
WO2001045088A1 (en) | Electronic translator for assisting communications | |
JP2003345379A6 (ja) | 音声映像変換装置及び方法、音声映像変換プログラム | |
JP2005346252A (ja) | 情報伝達システムおよび情報伝達方法 | |
JP2007272773A (ja) | 対話型インターフェイス制御システム | |
JP2004015478A (ja) | 音声通信端末装置 | |
KR101981091B1 (ko) | 감정시각화자막 생성장치 | |
JP3260275B2 (ja) | 活字入力で通話が可能な通信通話装置 | |
KR100730573B1 (ko) | 수화 인식과 수화 발생을 구현한 양방향 수화 전화 시스템 | |
US20040012643A1 (en) | Systems and methods for visually communicating the meaning of information to the hearing impaired | |
KR20210073856A (ko) | 휴대용 수화 번역기 및 수화 번역 방법 | |
JP2004015250A (ja) | 携帯端末装置 | |
CN114708849A (zh) | 语音处理方法、装置、计算机设备及计算机可读存储介质 | |
JP2008021058A (ja) | 翻訳機能付き携帯電話装置、音声データ翻訳方法、音声データ翻訳プログラムおよびプログラム記録媒体 | |
KR20150060348A (ko) | 장애인 사이의 의사소통 장치 및 방법 | |
JPH11110389A (ja) | 携帯型翻訳機 | |
JPH10224520A (ja) | マルチメディア公衆電話システム | |
JP2004248022A (ja) | 携帯電話機およびそれを使用するコミュニケーション方法 | |
KR20050052943A (ko) | 여행자용 키워드 기반 음성번역 시스템 및 그 방법 | |
KR100553437B1 (ko) | 음성 합성을 이용한 음성 메시지 전송 기능을 가지는무선통신 단말기 및 그 방법 | |
JPH09116648A (ja) | 携帯用通信装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050517 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071016 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080129 |