JP2004015478A

JP2004015478A - 音声通信端末装置

Info

Publication number: JP2004015478A
Application number: JP2002166789A
Authority: JP
Inventors: Yoshiaki Tanaka; 田中　義明
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2002-06-07
Filing date: 2002-06-07
Publication date: 2004-01-15

Abstract

【課題】音声を文字情報に変換して送信する音声通信端末装置において、感情などの非言語的情報の伝達を可能とする。
【解決手段】本発明の音声通信端末装置は、マイクロホンより入力された音声信号を文字データに変換する文字データ生成部２０１と、音声信号から通話者の感情を自動判別し、判別した感情を感情データとして出力する音声解析部２０２と、撮像部が撮影した通話者の顔画像から通話者の感情を自動判別し、判別した感情を感情データとして出力する画像解析部２０３と、文字データ生成部２０１が生成した文字データを音声解析部２０２が検知した通話者の感情と画像解析部２０３が検知した通話者の感情とに基づいて修飾する文字修飾部２０４とを有する。
【選択図】　　　　図２

Description

【０００１】
【発明の属する技術分野】
本発明は音声通信端末装置に関し、特に入力された音声から文字データを生成し、音声とともに送信する音声通信端末装置に関する。
【０００２】
【従来の技術】
近年、携帯電話機などの音声通信端末装置には通話機能だけでなく、電子メール機能をはじめとする様々な機能が付加されるようになってきており、新たな機能の提案も盛んになされている。これらの提案の１つとして、通話者の音声を文字データに変換して音声とともに送信する携帯電話機が提案されている。この携帯電話機によれば、通話相手の携帯電話機に通話者の話したことが文字で表示されるので、通常の携帯電話機では出力できない大音量にしなければ聞き取れない人や聴力障害者でも通話相手の話すことが理解できるようになる。また、通話者の音声から他言語の翻訳文を生成し音声とともに送信する翻訳文送信機能付き携帯電話機が提案されている。この携帯電話機によれば、通話先の携帯電話機に通話相手が話した内容の翻訳文が表示されるので、話す言語が異なる者と通話する場合でも、通話相手の話すことが理解できるようになる。
【０００３】
【発明が解決しようとする課題】
しかしながら、これら従来の音声を文字情報に変換して送信する音声通信端末装置では、通話相手と円滑なコミュニケーションを図るという点では不十分であった。これは、通常の通話で交わされる音声情報には、言語的情報のほかに感情などの非言語的情報が含まれており、通話者は言語的情報と非言語的情報を合わせて通話相手とコミュニケーションを行っているのに対し、従来の文字情報には非言語的情報が含まれていないため、円滑なコミュニケーションを行うための情報が不足しているためである。
本発明は、このような状況に鑑みてなされたものであり、音声を文字情報に変換して送信する音声通信端末装置において、感情などの非言語的情報の伝達を可能とすることを目的とする。
【０００４】
【課題を解決するための手段】
上述した課題を解決するために、本発明は、入力された音声から文字データを生成し、音声とともに通話先に送信する音声通信端末装置において、通話者の状態を示す情報を抽出する情報抽出手段と、この情報抽出手段が抽出した情報に基づいて文字データを修飾する文字修飾手段とを有することによって特徴づけられる。この発明の音声通信端末装置は、情報抽出手段が抽出した通話者の状態を示す情報に基づいて音声から生成した文字データを装飾して送信するので、文字データに通話者の状態に応じた情報を装飾データとして付加することができる。このため、通話相手は、文字データから言語的情報を得るとともに、装飾データから非言語的情報を得ることができる。
【０００５】
この場合、情報抽出手段の一構成例は、入力された音声に表れる特徴を抽出する音声解析手段を有する。この音声解析手段は、音声から通話者の感情により変化する特徴量として抑揚を抽出する。また、情報抽出手段の別の構成例は、音声解析手段に加えて通話者の顔画像を撮像する撮像手段と、この撮像手段が撮像した通話者の顔画像に表れる特徴を抽出する画像解析手段とをさらに有する。この画像解析手段は、顔画像から通話者の感情により変化する特徴量として表情を抽出する。
【０００６】
また、文字修飾手段の一構成例は、文字データを構成する文字の大きさ、フォント、色及び濃さの少なくとも１つを制御する。これにより、非言語的情報である通話者の感情を文字の大きさ、フォント、色及び濃さのいずれかあるいはこれらの組合せにより通話相手に伝達することが可能となる。
また、音声通信端末装置の一構成例は、文字データを他言語に翻訳する翻訳手段と、この翻訳手段で翻訳された翻訳文の文字データを対応する翻訳前の文字データの修飾情報に基づいて修飾する翻訳文修飾手段とをさらに有する。これにより、翻訳前の文字データに付加された非言語情報が翻訳後の文字データにも付加されるので、異なる言語を話す通話相手に言語情報と非言語情報が伝達される。
【０００７】
【発明の実施の形態】
以下に図を用いて発明の実施の形態を説明する。
［実施の形態１］
図１は、本発明に係る携帯電話機のハードウェア構成の一例を示すブロック図であり、本発明の実施の形態１を示す。図１に示すように、実施の形態１に係る携帯電話機は、制御部１０１、無線部１０２、操作部１０３、マイクロホン１０４、スピーカ１０５、撮像部１０６およびアンテナ１０７を有しており、制御部１０１は、無線部１０２、操作部１０３、マイクロホン１０４、スピーカ１０５および撮像部１０６とそれぞれ接続され、無線部１０２はアンテナ１０７と接続されている。
【０００８】
制御部１０１は演算処理装置と記憶装置と記憶装置に記録された処理プログラム（ソフトウェア）とから構成されており、処理プログラムが演算処理装置で実行されることにより携帯電話機の制御と後述するデータ処理を行う。無線部１０２は、アンテナ１０７を介した電波の送受信と信号の変復調を行う周知の無線回路である。操作部１０３は、表示画面１０８とテンキー１０９と選択スイッチ１１０とを有するマンマシンインタフェースである。この場合、表示画面１０８は階調表示の可能なカラー液晶表示器を用いる。テンキー１０９と選択スイッチ１１０は、従来の携帯電話機で用いられているものと同じものでよい。
【０００９】
マイクロホン１０４とスピーカ１０５は、携帯電話機の音声入力と音声出力の機能を担う入力装置と出力装置であり、従来の携帯電話機で用いられているものと同じものである。撮像部１０６は、例えばＣＣＤなどの撮像素子を用いた電子カメラで構成されており、通話時に通話者の顔を撮影可能なように配置されている。アンテナ１０７は、従来の携帯電話機で用いられているものと同じものである。
【００１０】
図２は、制御部１０５の実施の形態１に係る部分の機能構成を示す機能ブロック図である。図２に示すように、制御部１０５は文字データ生成部２０１、音声解析部２０２、画像解析部２０３および文字修飾部２０４を有する。文字データ生成部２０１は、マイクロホン１０４より入力された音声信号を文字データに変換する機能を有する。この場合、文字データ生成部２０１は、入力された音声信号をあらかじめ通話者が選択スイッチ１１０で選択した入力言語の文字データを生成する。例えば、入力言語として日本語が選択されているときは、入力された音声信号を日本語として処理し、周知の日本語音声認識辞書と音声認識プログラムにより漢字仮名交じり文の文字データを生成する。また、入力言語として英語が選択されているときは、入力された音声信号を英語として処理し、周知の英語音声認識辞書と音声認識プログラムにより英文の文字データを生成する。
【００１１】
図３は、音声解析部２０２の機能構成を示す機能ブロック図である。図３に示すように、音声解析部２０２は、特徴抽出部３０１と照合部３０２と抑揚パターンデータベース３０３とから構成されており、音声信号から通話者の感情を自動判別し、判別した感情を感情データとして出力する機能を有する。この場合、特徴抽出部３０１が音声信号から「怒り」、「悲しみ」、「喜び」、「平静」の４つの感情に特有の抑揚を示す特徴量を抽出し、照合部３０２が抽出された特徴量を抑揚パターンデータベース３０３に格納された抑揚パターンと照合し、「怒り」、「悲しみ」、「喜び」、「平静」の内、もっとも近い感情を出力する。なお、音声を用いた感情の判別方法は、抑揚に限られるものではない。
【００１２】
例えば、感情の判別方法として、感情判別に重要な韻律的特徴量である基本周波数（ピッチ）を抽出する方法、声の大きさ（音圧）を用いる方法、発話時間を用いる方法、これらを組み合わせる方法など数々の感情判別方法が提案されており、これらの方法を用いてもよい。また、ここでは音声信号から「怒り」、「悲しみ」、「喜び」、「平静」の４つの感情を判別するとしたがこれに限られるものではなく、用いる判別方法によって４つより少なくしてもよいし、例えば「驚き」や「不満」などを加えて多くしてもよい。さらに、感情のほかにその度合いを加えてもよい。この場合、出力する感情は１つに限らず、判別する感情ごとにその度合いを出力するようにしてもよい。
【００１３】
図４は、画像解析部２０３の機能構成を示す機能ブロック図である。図４に示すように、画像解析部２０３は、特徴抽出部４０１と照合部４０２と表情パターンデータベース４０３とから構成されており、撮像部１０６が撮影した通話者の顔画像から通話者の感情を自動判別し、判別した感情を感情データとして出力する機能を有する。この場合、特徴抽出部４０１が連続撮影された顔画像から「目」、「眉」、「鼻」、「口」などの各パーツ間の相対位置とその変化量を特徴量として抽出し、照合部４０２が抽出された特徴量を表情パターンデータベース４０３に格納された表情パターンと照合し、「怒り」、「悲しみ」、「喜び」、「平静」の内、もっとも近い感情を出力する。
【００１４】
顔画像から表情を判別する方法は、各パーツ間の相対位置とその変化量を抽出する方法に限られるものではなく、他の方法を用いてもよい。また、判別する感情の種類も「怒り」、「悲しみ」、「喜び」、「平静」の４つに限られるものではなく、４つより少なくしてもよいし多くしてもよい。さらに、感情のほかにその度合いを加えてもよい。この場合、出力する感情は１つに限らず、判別する感情ごとにその度合いを出力するようにしてもよい。
【００１５】
図５は、文字装飾部２０４の機能構成を示す機能ブロック図である。図５に示すように、文字装飾部２０４は、音声修飾部５０１と音声修飾情報データベース５０２と画像修飾部５０３と画像修飾情報データベース５０４とから構成されており、文字データ生成部２０１が生成した文字データを音声解析部２０２が検知した通話者の感情と画像解析部２０３が検知した通話者の感情とに基づいて修飾する機能を有する。
【００１６】
この場合、音声修飾部５０１は、音声解析部２０２から入力された感情データをキーにして音声修飾情報データベース５０２を検索し、入力された感情データに関係づけられた修飾データを読み出し、この修飾データで文字データ生成部２０１から入力された文字データを修飾し、画像修飾部５０３へ出力する。ここで、音声修飾情報データベース５０２は、感情データごとに対応する修飾データを格納しており、修飾データとして文字フォントと文字の大きさの組合せを用いている。
【００１７】
画像修飾部５０３は、画像解析部２０３から入力された感情データをキーにして画像修飾情報データベース５０４を検索し、入力された感情データに関係づけられた修飾データを読み出し、この修飾データで音声修飾部５０１から入力された文字データを修飾し、無線部１０２へ出力する。ここで、画像修飾情報データベース５０４は、感情データごとに対応する修飾データを格納しており、修飾データとして文字の色と濃さの組合せを用いている。
【００１８】
この実施の形態の携帯電話機は、通話先の携帯電話機に表示される文字が通話者の感情に応じて修飾されるので、表示される文字でしか通話相手の話すことが理解できない、通常の携帯電話機では出力できない大音量にしなければ聞き取れない人や聴力障害者にも通話者の感情を伝達することができる。このため、単に文字を表示する場合に比べて、より円滑な通話を行うことが可能となる。
【００１９】
この実施の形態では、文字装飾部２０４は通話者の音声の抑揚から検知した感情に基づいて文字のフォントと大きさを制御し、通話者の顔の表情から検知した感情に基づいて文字の色と濃さを制御するようにしたが、これに限られるものではない。例えば、音声と画像で制御する対象を入れ替えてもよいし、それぞれ組合せではなくフォントのみの制御や大きさのみの制御、色のみの制御や濃さのみの制御としてもよい。
【００２０】
また、この実施の形態では、音声解析から求めた感情データと画像解析から求めた感情データとを用いて文字を修飾するように構成したが、音声解析から求めた感情データのみを用いて文字を修飾するようにしてもよい。この場合、ハードウェアとして撮像部１０６が、また機能ブロックとして画像解析部２０３が不要となるので、携帯電話機の開発コストや製造コストを低減することができる。
【００２１】
［実施の形態２］
次に、本発明の実施の形態２を説明する。この実施の形態に係る携帯電話機のハードウェア構成は、図１で示したものと同じである。図６は、図１の制御部１０５の実施の形態２に係る機能構成を示す機能ブロック図である。この実施の形態の携帯電話機が実施の形態１で示した携帯電話機と異なる点は、制御部１０５が言語変換部２０５と修飾変換部２０６とをさらに備え、文字修飾部２０４から出力される修飾された文字データを言語変換部２０５が他言語に翻訳し、修飾変換部２０６が翻訳文の文字データを翻訳前の文字データに付加された装飾データに基づいて装飾し、無線部１０２に出力するように構成したことである。
【００２２】
図６において、言語変換部２０５と修飾変換部２０６を除いた各部は実施の形態１と同じであるから説明を省略する。次に、図７を参照して言語変換部２０５と修飾変換部２０６の動作を説明する。図７は、言語変換部２０５と修飾変換部２０６の動作を説明する図である。言語変換部２０５は、文字修飾部２０４から入力される修飾された文字データから修飾データを除く。この場合、言語変換部２０５は、１つの文から単語ごとに文字データに付加されたフォントと文字サイズと文字色と色濃度とを含む装飾データを取り外し、一時保管する。このとき、文字データと装飾データのそれぞれに同じ識別子を付加する。
【００２３】
次に、装飾データを取り外した文字データからなる１つの文をあらかじめ通話者が選択スイッチ１１０で選択した入力言語と出力言語からなる翻訳辞書と翻訳プログラムにより出力言語へ変換し、出力言語の文字データを生成する。このとき、入力言語の単語に付加されていた識別子を出力言語の単語に付加する。さらに、生成した文字データと入力文字データから除いた修飾データとを修飾変換部２０６に出力する。翻訳辞書と翻訳プログラムは、周知の翻訳手段を用いるので説明を省略する。
【００２４】
修飾変換部２０６は、言語変換部２０５から文字データと修飾データが入力されると、修飾データを出力言語に対応した修飾データに変換した後、変換後の修飾データで文字データを修飾し、無線部１０２へ出力する。この場合、修飾データの変換は、文字フォントのような入力言語と出力言語で同じものがない修飾データについて、入力言語と出力言語が１対１で対応した変換テーブルを用いて行う。例えば、入力言語が日本語で出力言語が英語のときは、明朝体に対しＴｉｍｅｓ　Ｎｅｗ　Ｒｏｍａｎ、ゴシック体に対しＡｒｉａｌのようにあらかじめ設定された変換テーブルにより文字フォントの変換を行う。また、装飾データは、同じ識別子を持つ文字データに付加し、識別子を削除する。なお、翻訳処理により新たに生成した入力言語と直接対応しない出力言語の文字コードは、前後の単語の装飾データを付加するなどして文中で文字の装飾が唐突に変化するのを防止する。
【００２５】
この実施の形態の携帯電話機は、通話先の携帯電話機に通話者の話した内容が翻訳されて表示されるとともに、表示される文字が通話者の感情に応じて修飾されるので、異なる言語を話す者同士の通話においても、通話者の感情を伝達することが可能となる。このため、単に文字を表示する場合に比べて、より円滑な通話を行うことが可能となる。
【００２６】
実施の形態１と実施の形態２では、携帯電話機を例に説明したが、本発明は携帯電話機に限られるものではない。例えば、音声通信機能を有する携帯情報端末、インターネットや公衆回線を介して音声通信可能に構成されたコンピュータ、文字データ表示画面を備えた家庭用電話機や公衆電話機など、少なくとも音声通信機能と文字データ表示機能とを有する通信端末装置であれば、本発明を適用可能である。
【００２７】
【発明の効果】
以上説明したように、本発明の音声通信端末装置は、音声を文字情報に変換して送信するとともに、感情などの非言語的情報を文字の装飾データとして送信するため、通話相手に言語的情報と非言語的情報の両方を伝達できるので、音声を用いた通話が難しい通話相手とより円滑なコミュニケーションを行うことが可能となる効果を有する。
【００２８】
また、文字データを他言語に翻訳する翻訳手段と、この翻訳手段で翻訳された翻訳文の文字データを対応する翻訳前の文字データの修飾情報に基づいて修飾する翻訳文修飾手段とをさらに備えたので、異なる言語を話す者との通話においても、言語的情報と非言語的情報の両方を伝達できるので、通話相手とより円滑なコミュニケーションを行うことが可能となる効果を有する。
【図面の簡単な説明】
【図１】本発明に係る携帯電話機のハードウェア構成の一例を示すブロック図である。
【図２】図１の制御部の実施の形態１に係る部分の機能構成を示す機能ブロック図である。
【図３】図２の音声解析部の機能構成を示す機能ブロック図である。
【図４】図２の画像解析部の機能構成を示す機能ブロック図である。
【図５】図２の文字装飾部の機能構成を示す機能ブロック図である。
【図６】図１の制御部の実施の形態２に係る部分の機能構成を示す機能ブロック図である。
【図７】図６の言語変換部と修飾変換部の動作を説明する図である。
【符号の説明】
１０１…制御部、１０２…無線部、１０３…操作部、１０４…マイクロホン、１０５…スピーカ、１０６…撮像部、１０７…アンテナ、１０８…表示画面、１０９…テンキー、１１０…選択スイッチ、２０１…文字データ生成部、２０２…音声解析部、２０３…画像解析部、２０４…文字装飾部、２０５…言語変換部、２０６…修飾変換部、３０１…特徴抽出部、３０２…照合部、３０３…抑揚パターンデータベース、４０１…特徴抽出部、４０２…照合部、４０３…表情パターンデータベース、５０１…音声修飾部、５０２…音声修飾情報データベース、５０３…画像修飾部、５０４…画像修飾情報データベース。

Claims

入力された音声から文字データを生成し、前記音声とともに通話先に送信する音声通信端末装置において、
通話者の状態を示す情報を抽出する情報抽出手段と、
この情報抽出手段が抽出した情報に基づいて前記文字データを修飾する文字修飾手段と
を有することを特徴とする音声通信端末装置。
前記情報抽出手段は、
入力された音声に表れる特徴を抽出する音声解析手段
を有することを特徴とする請求項１記載の音声通信端末装置。
前記情報抽出手段は、
通話者の顔画像を撮像する撮像手段と、
この撮像手段が撮像した通話者の顔画像に表れる特徴を抽出する画像解析手段と
をさらに有することを特徴とする請求項２記載の音声通信端末装置。
前記文字修飾手段は、
前記文字データを構成する文字の大きさ、フォント、色及び濃さの少なくとも１つを制御する
ことを特徴とする請求項１記載の音声通信端末装置。
前記文字データを他言語に翻訳する翻訳手段と、
この翻訳手段で翻訳された翻訳文の文字データを対応する翻訳前の文字データの修飾情報に基づいて修飾する翻訳文修飾手段と
をさらに有することを特徴とする請求項１記載の音声通信端末装置。