JP2016127367A

JP2016127367A - 通話装置、通話システムおよび通話方法

Info

Publication number: JP2016127367A
Application number: JP2014265437A
Authority: JP
Inventors: 菊入　圭; Kei Kikuiri; 圭菊入; ブン　チュンセン; Chunsen Bun; チュンセンブン; 順也瀧上; Junya Takigami
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2014-12-26
Filing date: 2014-12-26
Publication date: 2016-07-11

Abstract

【課題】符号化処理におけるデータの品質の低下を防ぐことによって、通話品質が損なわれないように話者の音声（通話音声）と第３の音とを合成することを可能にする。【解決手段】通話装置（端末１００）は、話者の音声と、話者の音声（通話音声Ｖ１）とは異なる第３の音（第３音声Ｖ３）との合成データＢ１３を生成する合成手段（第１音声合成部１２１）と、話者の音声データ（通話音声Ｖ１）と、第３の音（第３音声Ｖ３）と、合成手段（第１音声合成部１２１）によって生成された合成データＢ１３と、のうち少なくとも一つの特徴に応じて話者の音声データおよび合成データを符号化する符号化手段（第１音声符号化部１２２）と、符号化手段によって符号化されたデータを出力する出力手段（第１音声送信部１３０）と、を備える。【選択図】図２

Description

本発明は、通話装置、通話システムおよび通話方法に関する。

従来より、携帯電話機などを用いた音声通話に、話者の音声（通話音声）とは別の第３の音を提供する技術が提案されている。たとえば下記特許文献１は、音声データ（通話音声）と効果音データ（第３の音）との合成音声データに対してコーデック処理（符号化など）を行う携帯電話機を開示する。符号化された合成音声データは、変調された後、アンテナから出力される。

特開２００２−５１１１６号公報

特許文献１の携帯電話機のように、通話音声と第３の音声とを合成し、単に符号化して出力するだけでは、符号化処理によってデータの品質が低下し、通話品質が損なわれるおそれがある。

本発明は、上記問題点に鑑みてなされたものであり、符号化処理におけるデータの品質の低下を防ぐことによって、通話品質が損なわれないように話者の音声と第３の音とを合成することが可能な通話装置、通話システムおよび通話方法を提供することを目的とする。

本発明の一態様に係る通話装置は、話者の音声を入力する入力手段と、ユーザ操作に基づいて、入力手段によって入力された話者の音声と、話者の音声とは異なる第３の音との合成データを生成する合成手段と、話者の音声データと、第３の音と、合成手段によって生成された合成データと、のうち少なくとも一つの特徴に応じて話者の音声データおよび合成データを符号化する符号化手段と、符号化手段によって符号化されたデータを出力する出力手段と、を備える。

本発明の一態様に係る通話方法は、通話装置によって実行される通話方法であって、話者の音声を入力するステップと、ユーザ操作に基づいて、入力するステップにおいて入力された話者の音声と、話者の音声とは異なる第３の音との合成データを生成するステップと、話者の音声データと、第３の音のデータと、生成するステップにおいて生成された合成データと、のうち少なくとも一つの特徴に応じて話者の音声データおよび合成データを符号化するステップと、符号化するステップにおいて符号化されたデータを出力するステップと、を備える。

上記の通話装置または通話方法によれば、話者の音声と第３の音との合成データが生成され、生成された合成データは符号化されて出力される。ここで、話者の音声データおよび合成データは、話者の音声データと、第３の音のデータと、合成データと、のうち少なくとも一つの特徴に応じて符号化される。たとえば、符号化に適したデータとなるように話者の音声データおよび合成データの大きさやサンプリングレートなどを調整することによって、符号化処理における話者の音声データおよび合成データの品質の劣化を抑制することができる。

また、前記符号化手段は、前記特徴に応じて、符号化するための複数の符号化モードのうち、実行すべき符号化モードを設定し、設定された符号化モードに基づき、前記話者の音声および前記合成データを符号化してもよい。このように複数の符号化モードを使い分けて、適切な符号化モードを用いて合成データを符号化することによっても、符号化処理における話者の音声データおよび合成データの品質の劣化を抑制することができる。

また、前記複数の符号化モードは、それぞれ異なる符号化アルゴリズムを用いた符号化に対応し、前記符号化手段は前記第３の音に応じて符号化モードを設定してもよい。これにより、第３の音に応じた適切な符号化アルゴリズムを用いることができる。

また、前記複数の符号化モードは、間欠送信を行うモードと連続送信を行うモードとに対応し、前記符号化手段は、前記第３の音が合成された場合には連続送信を行うモードを設定してもよい。これにより、無音または背景雑音の区間と誤判定されて間欠送信が行われることによる音質劣化を回避し、通話品質を向上させることができる。

また、前記出力手段は、前記符号化手段によって合成データが符号化された場合には連続送信を行ってもよい。このように符号化された合成データを連続送信することによって、無音または背景雑音の区間の少ない合成データに対して間欠送信が行われることによる音質劣化を回避し、通話品質を向上させることができる。

また、通話装置は、サーバにアクセスすることによって第３の音を取得する取得手段をさらに備えてもよい。第３の音をサーバが保持することによって、たとえば、通話装置が第３の音を保持しておく場合よりも、より多くの音を第３の音として選択することができる。

本発明の一態様に係る通話システムは、第１の通話装置と、第１の通話装置と音声通話を行う第２の通話装置と、第１の通話装置および第２の通話装置と通信可能に構成されたサーバと、を備え、サーバは、第１の通話装置から送信される話者の音声および第１の通話装置からの指示に基づいて、話者の音声とは異なる第３の音と話者の音声との合成データを生成する合成手段と、話者の音声データと、第３の音と、合成手段によって生成された合成データと、のうち少なくとも一つの特徴に応じて話者の音声データおよび合成データを符号化する符号化手段と、符号化手段によって符号化されたデータを第２の通話装置に出力する出力手段と、を有する。

上記の通話システムによれば、上述した通話装置および通話方法と同様に、たとえば、符号化に適したデータとなるように話者の音声データおよび合成データの大きさやサンプリングレートなどを調整することによって、符号化処理による話者の音声データおよび合成データの品質の劣化を抑制することができる。さらに、上記の通話システムでは、第３の音をサーバが合成することにより、たとえば、通話装置が第３の音を合成する場合よりも、通話装置の演算負荷を抑制して使用時間を延ばすことができる。

本発明によれば、符号化処理におけるデータの品質の低下を防ぐことによって、通話品質が損なわれないように話者の音声（通話音声）と第３の音とを合成することが可能になる。

各実施形態に共通する通話システムの概略構成を示す図である。第１実施形態に係る通話システムの機能ブロックを示す図である。端末のハードウェア構成図である。第１音声符号化部の詳細構成を示す図である。通話システムにおいて実行される処理の一例を示すフローチャートである。第１変形例に係る音声合成部の機能ブロックを示す図である。第２変形例に係る音声合成部の機能ブロックを示す図である。第１変形例に係る音声合成部によって実行される処理の一例を示すフローチャートである。第２変形例に係る音声合成部によって実行される処理の一例を示すフローチャートである。変形例に係る第１音声合成部の機能ブロックを示す図である。変形例に係る第２音声合成部の機能ブロックを示す図である。変形例に係る第１および第２音声合成部の機能ブロックを示す図である。変形例に係る第１音声合成部によって実行される処理の一例を示すフローチャートである。変形例に係る第２音声合成部によって実行される処理の一例を示すフローチャートである。第２実施形態に係る通話システムの機能ブロックを示す図である。通話システムにおいて実行される処理の一例を示すフローチャートである。変形例に係る合成指示受信部の機能ブロックを示す図である。変形例に係る合成指示受信部によって実行される処理の一例を示す図である。第３実施形態に係る通話システムの機能ブロックを示す図である。通話システムにおいて実行される処理の一例を示すフローチャートである。第１変形例に係る音声合成部の機能ブロックを示す図である。第２変形例に係る音声合成部の機能ブロックを示す図である。第１変形例に係る音声合成部によって実行される処理の一例を示すフローチャートである。第２変形例に係る音声合成部によって実行される処理の一例を示すフローチャートである。

以下、本発明の実施形態について、図面を参照しながら説明する。なお、図面の説明において同一要素には同一符号を付し、重複する説明は省略する。

図１は、各実施形態に共通する通話システムの概略構成を示す図である。図１に示すように、通話システム（後述の通話システム１０，１０Ａまたは１０Ｂ）において、ユーザ１とユーザ２との通話が行われる。通話システムでは、第１端末（後述の端末１００，１００Ａまたは１００Ｂ）および第２端末（後述の端末２００または２００Ｂ）が、通話装置として用いられる。ユーザ１が第１端末を利用し、ユーザ２が第２端末を利用することによって、ユーザ１とユーザ２との音声通話が実現される。

通話システムにおいて、たとえば端末１００および端末２００は、通信ネットワーク３を介して通信可能に構成されている。さらに、サーバ３００が、通信ネットワーク３を介して、端末１００および端末２００と通信可能に構成されていてもよい。

通話システムの動作概要の一例について説明する。たとえば、端末１００において一方の話者であるユーザ１の通話音声Ｖ１が入力されると、ユーザ１の端末１００の操作（ユーザ操作）によって選択された第３音声Ｖ３と、通話音声Ｖ１との合成データが生成される。合成データの生成は、端末１００で行われてもよいし、サーバ３００で行われてもよい。生成された合成データは符号化された後、符号化系列として出力されて端末２００へ送信される。

具体的に、図１では、操作によって、第３音声Ｖ３として、音データＳ１〜Ｓ３等の複数の音データから、ユーザ１の希望する音データが、第３音声Ｖ３として選択される。端末２００では、受信した符号化系列を復号することによって、通話音声Ｖ１と第３音声Ｖ３との合成データを取得することができる。取得した合成データに応じた音が出力されることによって、ユーザ２は、ユーザ１の通話音声Ｖ１だけでなく、第３音声Ｖ３も聞くことができる。同時に、ユーザ１も第３音声Ｖ３を聞くことができてもよい。

第３音声Ｖ３の例として、たとえばセリフなどの音声が挙げられる。ただし、第３音声Ｖ３は音声に限定されるものでなく、効果音や、ＢＧＭのような音楽であってもよい。

ここで、通話システムでは、通話音声Ｖ１と第３音声Ｖ３との合成データを調整するための調整処理が実行可能である。調整処理は、たとえば、符号化に適したデータとなるように合成データの大きさやサンプリングレートなどを調整する処理や、合成データを符号化するのに適切な符号化モードを設定する処理を含む。そのような調整処理の調整結果を受けた後に符号化処理が実行されることによって、通話音声Ｖ１と第３音声Ｖ３とを合成した場合でも、通話品質が損なわれないようにすることができる。

［第１実施形態］
図２は、第１実施形態に係る通話システム１０の機能ブロックを示す図である。通話システム１０では、第１の通話装置である端末１００（第１端末）と、第２の通話装置である端末２００（第２端末）とによって、ユーザ１とユーザ２との通話が行われる。

図２に示すように、端末１００は、第１音声入力部１１０と、音声合成部１２０と、第１音声送信部１３０と、第３音声保持部１４０と、第２音声受信部１５０と、第２音声出力部１６０とを含む。

まず、端末１００に含まれる部分のうち、第１音声入力部１１０と、音声合成部１２０の一部と、第１音声送信部１３０と、第３音声保持部１４０とについて説明する。

第１音声入力部１１０は、一方の話者（図１のユーザ１）の通話音声Ｖ１を入力する部分（入力手段）である。第１音声入力部１１０は、たとえばマイクロフォンを含んで構成される。

音声合成部１２０は、音声を合成する部分であり、第１音声合成部１２１と、第１音声符号化部１２２と、第２音声復号部１２６とを含む。

まず、音声合成部１２０に含まれる部分のうち、第１音声合成部１２１と、第１音声符号化部１２２について説明する。

第１音声合成部１２１は、ユーザ操作に基づいて、第１音声入力部１１０によって入力された通話音声Ｖ１と、通話音声Ｖ１とは異なる第３音声Ｖ３（第３の音）との合成データＢ１３を生成する部分（合成手段）である。ユーザ操作は、たとえばユーザ１（図１）が端末１００に設けられた操作盤やタッチパネルなどのデバイスを操作することによって行われる。ユーザ操作は、たとえば先に図１を参照して説明したように、種々の音データＳ１〜Ｓ３等から、ユーザ１が希望する音を第３音声Ｖ３として選択する操作や、通話音声Ｖ１と第３音声Ｖ３との合成時の音量バランスを選択する操作や、第３音声Ｖ３の合成を停止する操作を含む。さらに、また、上記の操作盤やタッチパネルなどのデバイスが、ユーザ操作に応じて合成指示信号ＣＭを発生させ、その合成指示信号ＣＭが第１音声合成部１２１に入力されることによって、第１音声合成部１２１は、ユーザ操作に基づく合成処理を行うことができる。

合成データＢ１３は、たとえば、通話音声Ｖ１の音声データ（以下、単に「通話音声Ｖ１」という）と第３音声Ｖ３の音声データ（以下、単に「第３音声Ｖ３」という）とを時間軸上で重畳することによって生成することができる。あるいは、合成データＢ１３は、通話音声Ｖ１の途中に第３音声Ｖ３を挿入することによって生成してもよい。

第１音声合成部１２１によって合成された合成データＢ１３は、第１音声符号化部１２２に送信される。なお、合成指示信号ＣＭが第１音声合成部１２１に入力されない場合には、第１音声合成部１２１は、合成データＢ１３を生成することなく、通話音声Ｖ１を第１音声符号化部１２２に送信する。

第１音声符号化部１２２は、第１音声合成部１２１によって生成された合成データＢ１３を符号化する部分である。合成データＢ１３でなく、通話音声Ｖ１が第１音声合成部１２１から送信された場合には、第１音声符号化部１２２は、通話音声Ｖ１を符号化する。

ここで、図４を参照して、第１音声符号化部１２２の詳細について説明する。図４に示すように、第１音声符号化部１２２は、データ調整部１２２ａと、音声信号符号化部１２２ｂとを含む。

データ調整部１２２ａは、合成データＢ１３（あるいは通話音声Ｖ１）を調整するための調整処理を実行する部分（データ調整手段）である。データ調整部１２２ａは、符号化モード設定部１２２ａｘの機能を用いて調整処理を実行することもできるし、音声調整部１２２ａｙの機能を用いて調整処理を実行することもできる。

符号化モード設定部１２２ａｘは、合成データＢ１３（あるいは通話音声Ｖ１）を符号化するための複数の符号化モードのうち、実行すべき符号化モードを設定する部分（モード設定手段）である。

たとえば、複数の符号化アルゴリズムを持ったコーデックの場合、第３音声Ｖ３の特徴に応じて特定のアルゴリズムを設定するとよい。すなわち、複数の符号化モードでは、異なる符号化アルゴリズムを用いた符号化が行われ、符号化モード設定部１２２ａｘは、第３音声Ｖ３の特徴に応じて符号化モードを設定することができる。たとえば、コーデックが音声の符号化に適した符号化アルゴリズムと、音楽に適した符号化アルゴリズムとで構成されている場合、第３音声Ｖ３がセリフのような音声であれば、音声の符号化に適した符号化アルゴリズムを用いることができる。また、第３音声Ｖ３が効果音やＢＧＭのような音楽であれば、音楽に適した符号化アルゴリズムを用いることができる。その場合、第３音声Ｖ３のカテゴリ（例えば、音声であるか否か、音楽であるか否か、音声であるか音楽であるか、等）を記述したテーブルを含むデータベースを予め用意しておけば、そのデータベースを参照することによって、符号化モード設定部１２２ａｘは、第３音声Ｖ３のカテゴリという特徴に応じて適切な符号化モードを設定することができる。なお、第３音声Ｖ３と符号化アルゴリズムとの組合せを記述したデータテーブルを含むデータベースを予め用意しておいてもよく、同様に、そのデータベースを参照することによって、符号化モード設定部１２２ａｘは、第３音声Ｖ３に応じて適切な符号化モードを設定することができる。そのようなデータベースは、たとえば端末１００の記憶装置（後述の図３の補助記憶装置２７など）に記憶させておくことができる。

また、前述のコーデックがＥＶＳ（Enhanced Voice Services）コーデックの場合、前述の音声の符号化に適した符号化アルゴリズムとしてＡＣＥＬＰを用いたアルゴリズムを、音楽に適した符号化アルゴリズムとしてＭＤＣＴを用いたアルゴリズムを設定してもよい。

また、ＤＴＸ（間欠送信）をオフにしてデータ送信を行うモードも、符号化モードの一つとすることができる。たとえば、通話音声Ｖ１のみを符号化する場合には、無音または背景雑音と判定された区間のデータレートを下げる間欠送信であっても通話品質を維持することができる。すなわち、通話音声Ｖ１が合成音声ではないという特徴に応じて、符号化モードを間欠送信に設定する。これに対し、通話音声Ｖ１および第３音声Ｖ３を符号化してデータ送信を行う場合には、通話音声Ｖ１のみを符号化してデータ送信を行う場合よりも、無音または背景雑音の区間が含まれる可能性が小さくなる。その場合、連続送信を行い、無音または背景雑音の区間と誤判定されて間欠送信が行われることによる音質劣化を回避し、通話品質を向上させることができる。すなわち、合成データＢ１３が通話音声Ｖ１および第３音声Ｖ３を合成した合成音声であるという特徴に応じて、符号化モードを連続送信に設定する。さらに例えば、通話音声Ｖ１および第３音声Ｖ３を符号化してデータ送信を行う場合においても、第３音声Ｖ３が音声である場合には間欠送信であっても通話品質を維持することができ、第３音声Ｖ３が音楽である場合には連続送信することで無音または背景雑音の区間と誤判定されて間欠送信が行われることによる音質劣化を回避できる。すなわち、第３音声Ｖ３の特徴（例えば、音声あるか否か、音楽であるか否か、音声か音楽かという特徴）に応じて、符号化モードを間欠送信または連続送信に設定する。間欠送信または連続送信を切り替えてデータ送信を行う処理は、後述の第１音声送信部１３０との協働によって実現してもよい。

以上説明した符号化モードの例を組み合わせた構成についても、符号化モードの一つとすることができる。たとえば、先に説明したように第３音声Ｖ３の特徴に応じた特定のアルゴリズムを設定するとともに、上述のように間欠送信をオフにしてデータ送信を行うモードも、符号化モードの一つとすることができる。

音声調整部１２２ａｙは、合成データＢ１３（あるいは通話音声Ｖ１）を調整する部分である。

たとえば、合成データＢ１３（あるいは通話音声Ｖ１）が音声信号符号化部１２２ｂの入力信号として適切になるように、合成データＢ１３（あるいは通話音声Ｖ１）の特徴に応じて調整する。たとえば、音声信号符号化部１２２ｂの入力信号の大きさに応じて、音声信号符号化部１２２ｂの入力信号の大きさを調整する。この場合、例えば、音声信号符号化部１２２ｂの入力信号が非常に大きい場合、音声信号符号化部１２２ｂの入力信号を小さくするように調整する。また、音声信号符号化部１２２ｂの入力信号のサンプリングレートに応じて、音声信号符号化部１２２ｂの入力信号のサンプリングレートを調整してもよい。この場合、例えば、音声信号符号化部１２２ｂの入力信号のサンプリングレートが音声信号符号化部１２２ｂで対応可能なサンプリングレートでない場合に、音声信号符号化部１２２ｂで対応可能なサンプリングレートに変換する。もちろん、入力信号の大きさを調整するとともに入力信号のサンプリングレートを調整することもできる。

音声調整部１２２ａｙで音声信号符号化部１２２ｂの入力信号として適切になるように調整することにより、音声信号符号化部１２２ｂでの符号化処理による合成データＢ１３（あるいは通話音声Ｖ１）の品質の劣化を抑制することができる。

音声信号符号化部１２２ｂは、データ調整部１２２ａの調整結果を受けて、通話音声Ｖ１および合成データＢ１３を符号化する部分（符号化手段）である。たとえば、音声信号符号化部１２２ｂは、符号化モード設定部１２２ａｘにより設定された符号化モードに基づき、通話音声Ｖ１および合成データＢ１３を符号化する。あるいは、音声信号符号化部１２２ｂは、音声調整部１２２ａｙにより調整された通話音声Ｖ１および合成データＢ１３を符号化する。具体的に、音声信号符号化部１２２ｂは、合成データＢ１３を符号化し、符号化系列Ｃ１３とする。あるいは、音声信号符号化部１２２ｂは、通話音声Ｖ１を符号化し、符号化系列Ｃ１とする。以下では、主に、音声信号符号化部１２２ｂによって合成データＢ１３が符号化されるものとして説明する。

再び図２に戻り、第１音声送信部１３０は、音声信号符号化部１２２ｂ（図４）によって符号化された合成データＢ１３（つまり符号化系列Ｃ１３）を出力する部分（出力手段）である。具体的に、第１音声送信部１３０は、符号化系列Ｃ１３を、後述の端末２００の第１音声受信部２１０に送信する。

また、第１音声送信部１３０は、間欠送信および連続送信のいずれをも実行することができる。間欠送信および連続送信は、先に説明した符号化モード設定部１２２ａｘの設定する符号化モードに応じて切り替えることができる。たとえば、第１音声送信部１３０は、音声信号符号化部１２２ｂによって通話音声Ｖ１が符号化された場合には、そのデータ（つまり符号化系列Ｃ１）の間欠送信を行う。また、音声信号符号化部１２２ｂによって合成データＢ１３が符号化された場合には、そのデータ（つまり符号化系列Ｃ１３）の連続送信を行う。間欠送信を行う場合において、音声信号符号化部１２２ｂが入力される信号に応じてデータレートを制御した（つまりデータレートを上げ下げした）データ（つまり符号化系列Ｃ１３）を生成していれば、第１音声送信部１３０は音声信号符号化部１２２ｂから入力されるデータ（つまり符号化系列Ｃ１３）をそのまま送信することで、間欠送信を実現できる。

第３音声保持部１４０は、種々の第３音声Ｖ３を保持（記憶）する部分（記憶手段）である。第３音声Ｖ３は、あらかじめ第３音声保持部１４０に記憶しておくことができ、さらに、端末１００がサーバ３００にアクセスして新たな音データを取得する等によって更新することができる。さらに、第３音声Ｖ３は、通話音声Ｖ１および後述する通話音声Ｖ２のうち少なくとも一方に加工処理などを施した音声を利用してもよい。加工処理などを施される通話音声は、現在の通話音声でもよく、過去の通話音声でもよい。

次に、端末２００について説明すると、端末２００は、第１音声受信部２１０と、第１音声復号部２２０と、第１音声出力部２３０と、第２音声入力部２４０と、第２音声符号化部２５０と、第２音声送信部２６０とを含む。

第１音声受信部２１０は、端末１００の第１音声送信部１３０から送信された符号化系列Ｃ１３を受信する部分である。

第１音声復号部２２０は、第１音声受信部２１０が受信した符号化系列Ｃ１３を復号する部分である。先に説明したように、符号化系列Ｃ１３は、端末１００において、符号化モード設定部１２２ａｘによって設定された符号化モードで符号化されている場合もある。その場合には、第１音声復号部２２０は、符号化モード設定部１２２ａｘによって設定された符号化モードに対応する復号モードを実行する。たとえば、符号化モードに関する情報を、符号化系列Ｃ１３と同様にして、端末１００から端末２００に送信することによって、第１音声復号部２２０は、対応する復号モードを実行することができる。また、符号化モードに関する情報は符号化系列Ｃ１３に含まれていてもよい。

第１音声出力部２３０は、第１音声復号部２２０によって復号された符号化系列Ｃ１３（つまり合成データＢ１３）に応じた音を出力する部分である。第１音声出力部２３０は、たとえばスピーカを含んで構成される。具体的に、第１音声出力部２３０は、通話音声Ｖ１および第３音声Ｖ３を出力する。これにより、ユーザ２（図１）は、ユーザ１の通話音声Ｖ１および第３音声Ｖ３を聞くことができる。

第２音声入力部２４０は、他方の話者（図１のユーザ２）の通話音声Ｖ２を入力する部分であり、たとえばマイクロフォンを含んで構成される。

第２音声符号化部２５０は、第２音声入力部２４０に入力された通話音声Ｖ２を符号化する部分である。符号化された通話音声Ｖ２は、符号化系列Ｃ２とされる。なお、第２音声符号化部２５０が実行する符号化モードは、たとえば、あらかじめ定められた符号化モードであってもよいし、先に説明した第１音声符号化部１２２のように、複数の符号化モードから選択して設定してもよい。

第２音声送信部２６０は、第２音声符号化部２５０によって符号化された通話音声Ｖ２（つまり符号化系列Ｃ２）を出力する部分である。具体的に、第２音声送信部２６０は、符号化系列Ｃ２を、後述の端末１００の第２音声受信部１５０に送信する。

次に、端末１００に含まれる部分のうち、第２音声受信部１５０と、音声合成部１２０の第２音声復号部１２６と、第２音声出力部１６０とについて説明する。

第２音声受信部１５０は、端末２００の第２音声送信部２６０から送信された符号化系列Ｃ２を受信する部分である。

第２音声復号部１２６は、第２音声受信部１５０が受信した符号化系列Ｃ２を復号する部分である。第２音声復号部１２６は、端末２００の第２音声符号化部２５０が実行する符号化モードに対応した復号モードを実行する。

第２音声出力部１６０は、第２音声復号部１２６によって復号された符号化系列Ｃ２（つまり通話音声Ｖ２）に応じた音を出力する部分である。第２音声出力部１６０は、たとえばスピーカを含んで構成される。具体的に、第２音声出力部１６０は、通話音声Ｖ２を出力する。これにより、ユーザ１（図１）は、ユーザ２の通話音声Ｖ２を聞くことができる。

ここで、図３を参照して、端末１００のハードウェア構成について説明する。図３は、端末１００のハードウェア構成図である。図３に示されるように、端末１００は、物理的には、１または複数のＣＰＵ（Central Processing unit）２１、主記憶装置であるＲＡＭ（Random Access Memory）２２およびＲＯＭ（Read Only Memory)２３、データ送受信デバイスである通信モジュール２６、半導体メモリなどの補助記憶装置２７、操作盤（操作ボタンを含む）やタッチパネルなどのユーザの入力を受け付ける入力装置２８、ディスプレイなどの出力装置２９、などのハードウェアを備えるコンピュータとして構成することができる。図２における端末１００の各機能は、たとえば、ＣＰＵ２１、ＲＡＭ２２などのハードウェア上に１または複数の所定のコンピュータソフトウェアを読み込ませることにより、ＣＰＵ１０１の制御のもとで通信モジュール２６、入力装置２８、出力装置２９を動作させるとともに、ＲＡＭ２２および補助記憶装置２７におけるデータの読み出しおよび書き込みを行うことで実現することができる。なお、端末２００についても、端末１００と同様のハードウェア構成とすることができる。また、後述の実施形態で説明する端末やサーバについても、端末１００と同様のハードウェア構成とすることができる。

次に、図５を参照して、通話システム１０の動作（とくに端末１００によって実行される通話方法）について説明する。図５は、通話システム１０において実行される処理の一例を示すフローチャートである。このフローチャートの処理は、端末１００を利用するユーザ１（図１）と、端末２００を利用するユーザ２との通話中に実行される。

はじめに、端末１００において、第１の音声を入力する（ステップＳ１０１）。具体的に、端末１００の第１音声入力部１１０が、ユーザ１の通話音声Ｖ１を入力する。

また、端末１００において、合成指示を入力する（ステップＳ１０２）。具体的に、第１音声合成部１２１が、ユーザ操作に応じた合成指示信号ＣＭを受ける。

さらに、端末１００は、第３の音声を読み込む（ステップＳ１０３）。具体的に、第１音声合成部１２１が、第３音声保持部１４０に記憶されている第３音声のうち、ユーザ操作によって選択された第３音声Ｖ３を、第３音声保持部１４０から取得する。

なお、上記ステップＳ１０１〜Ｓ１０３の処理については、ステップＳ１０１の処理が実行された後にステップＳ１０２およびステップＳ１０３の処理が実行されてもよいし、ステップＳ１０２およびステップＳ１０３の処理が実行された後にステップＳ１０１の処理が実行されてもよい。

次に、端末１００は、第１の音声と第３の音声を合成する（ステップＳ１０４ａ）。具体的に、第１音声合成部１２１が、通話音声Ｖ１と第３音声Ｖ３との合成データＢ１３を生成する。

次に、端末１００は、調整処理を実行する（ステップＳ１０４ｂ）。具体的に、データ調整部１２２ａが、合成データＢ１３を調整するための調整処理を実行する。たとえば、符号化モード設定部１２２ａｘが、合成データＢ１３を符号化するために実行すべき符号化モードを設定する。あるいは、音声調整部１２２ａｙが、合成データＢ１３を調整する。

次に、端末１００は、合成した音声を符号化する（ステップＳ１０４ｃ）。具体的に、音声信号符号化部１２２ｂが、先のステップＳ１０４ｂにおける調整結果を受けて、合成データＢ１３を符号化し、符号化系列Ｃ１３とする。

そして、端末１００は、符号化系列を送信する（ステップＳ１０５）。具体的に、第１音声送信部１３０が、符号化系列Ｃ１３を、端末２００の第１音声受信部２１０に出力（送信）する。

次に、端末２００は、符号化系列を受信する（ステップＳ２０１）。具体的に、第１音声受信部２１０が、端末１００の第１音声送信部１３０によって送信された符号化系列Ｃ１３を受信する。

次に、端末２００は、合成した音声の符号化系列を復号する（ステップＳ２０２）。具体的に、第１音声復号部２２０が、符号化系列Ｃ１３を復号し、合成データＢ１３とする。

そして、端末２００は、音声を出力する（ステップＳ２０３）。具体的に、第１音声出力部２３０が、合成データＢ１３に応じた音、つまり通話音声Ｖ１および第３音声Ｖ３を出力する。出力された通話音声Ｖ１および第３音声Ｖ３をユーザ２が聞くことによって、ユーザ２は通話音声Ｖ２を発する。

これにより、端末２００は、第２の音声を符号化する（ステップＳ２０４）。具体的に、第２音声符号化部２５０が、第２音声入力部２４０によって入力された通話音声Ｖ２を符号化し、符号化系列Ｃ２とする。

次に、端末２００は、符号化系列を送信する（ステップＳ２０５）。具体的に、第２音声送信部２６０が、符号化系列Ｃ２を、端末１００の第２音声受信部１５０に出力（送信）する。

次に、端末１００は、符号化系列を受信する（ステップＳ１０６）。具体的に、第２音声受信部１５０が、端末２００の第２音声送信部２６０によって送信された符号化系列Ｃ２を受信する。

次に、端末１００は、第２の音声の符号化系列を復号する（ステップＳ１０７ａ）。具体的に、第２音声復号部１２６が、符号化系列Ｃ２を復号し、通話音声Ｖ２とする。

そして、端末１００は、音声を出力する（ステップＳ１０８）。具体的に、第２音声出力部１６０が、通話音声Ｖ２を出力する。これにより、ユーザ１は、通話音声Ｖ２を聞くことができる。これにより、ユーザ１は通話音声Ｖ１を発する。そして、端末１００は、ステップＳ１０１の処理を再び実行する。このようにして図５のフローチャートの処理が繰り返し実行されることによって、ユーザ１とユーザ２との通話が進められる。

次に、端末１００の作用効果について説明する。端末１００では、第１音声入力部１１０がユーザ１の通話音声Ｖ１を入力し（ステップＳ１０１）、第１音声合成部１２１がユーザ操作に基づいて、通話音声Ｖ１と第３音声Ｖ３との合成データＢ１３を生成し（ステップＳ１０４ａ）、データ調整部１２２ａが、通話音声Ｖ１および合成データＢ１３を調整するための調整処理を実行し（ステップＳ１０４ｂ）、音声信号符号化部１２２ｂが、通話音声Ｖ１および合成データＢ１３を符号化して符号化系列Ｃ１３とし（ステップＳ１０４ｃ）、第１音声送信部１３０が、符号化系列Ｃ１３を出力（送信）する（ステップＳ１０５）。データ調整部１２２ａおよび音声信号符号化部１２２ｂによって実行される処理（ステップＳ１０４ｂ，Ｓ１０４ｃ）は、通話音声Ｖ１と、第３音声Ｖ３と、合成データＢ１３と、のうち少なくとも一つの特徴に応じて合成データＢ１３（あるいは通話音声Ｖ１）を符号化する処理である。端末１００によれば、たとえば、データ調整部１２２ａの音声調整部１２２ａｙが、符号化に適したデータとなるように話者の音声データおよび合成データの大きさやサンプリングレートなどを調整することによって、符号化処理による話者の音声データおよび合成データの品質の劣化を抑制することができる。

また、たとえば、データ調整部１２２ａの符号化モード設定部１２２ａｘが、符号化するための複数の符号化モードのうち、実行すべき符号化モードを設定し、音声信号符号化部１２２ｂが、符号化モード設定部１２２ａｘによって設定された符号化モードに基づき、通話音声Ｖ１および合成データＢ１３を符号化することもできる。このように、複数の符号化モードを使い分けることによって、適切な符号化モードを用いて合成データを符号化することができる。適切な符号化モードに設定することによって、通話品質が損なわれないようにユーザ１の通話音声Ｖ１と第３音声Ｖ３とを合成することが可能になる。

たとえば、複数の符号化モードは、それぞれ異なる符号化アルゴリズムを用いた符号化に対応し、符号化モード設定部１２２ａｘは、第３音声Ｖ３の特徴に応じて符号化モードを設定する。これにより、第３音声Ｖ３の特徴に応じた適切な符号化アルゴリズムを用いることができる。

たとえば、複数の符号化モードは、間欠送信を行うモードと連続送信を行うモードとに対応し、符号化モード設定部１２２ａｘは、第３音声Ｖ３が合成された場合には連続送信を行うモードを設定する。すなわち、通話音声Ｖ１および合成データＢ１３の特徴に応じて、間欠送信を行うモードまたは連続送信を行うモードに設定する。これにより、無音または背景雑音の区間と誤判定されて間欠送信が行われることによる音質劣化を回避し、通話品質を向上させることができる。

また、間欠送信と連続送信の切り替えは第１音声送信部１３０で実施されてもよい。このとき、第１音声送信部１３０は、符号化モード設定部１２２ａｘによって合成データＢ１３が符号化された場合には連続送信を行う。なお、連続送信を行わない場合には、間欠送信が行われる。このように符号化された合成データ（符号化系列Ｃ１３）を連続送信することによって、無音または背景雑音の区間と誤判定されて間欠送信が行われることによる音質劣化を回避し、通話品質を向上させることができる。

［音声合成部の第１変形例］
図６は、音声合成部１２０（図２）の変形例を示す図である。図６に示す音声合成部１２０Ａは、音声合成部１２０（図２）と比較して、第１音声合成部１２１を含まない一方で第２音声合成部１２７を含む点で相違する。

第２音声合成部１２７は、ユーザ操作（合成指示信号ＣＭ）に基づいて、通話音声Ｖ２と第３音声Ｖ３との合成データＢ２３を生成する部分である。

第２音声合成部１２７によって生成された合成データＢ２３は、第２音声出力部１６０（図２）に送信され、通話音声Ｖ２および第３音声Ｖ３として出力される。

音声合成部１２０Ａを採用した場合には、たとえば、先に説明した図５に示すフローチャートのステップＳ１０４およびステップＳ１０７において、図８に示す処理が実行される。

ステップＳ１０４において、先に図５を参照して説明したステップＳ１０４ｂの処理が実行される。すなわち、端末１００は、調整処理を実行する（ステップＳ１０４ｂ）。次に、端末１００は、第１の音声を符号化する（ステップＳ１０４ｄ）。具体的に、音声信号符号化部１２２ｂが、通話音声Ｖ１を符号化し、符号化系列Ｃ１とする。

また、ステップＳ１０７において、先に図５を参照して説明したステップＳ１０７ａの処理が実行される。すなわち、端末１００は、第２の音声の符号化系列を復号する（ステップＳ１０７ａ）。そして、端末１００は、復号した第２の音声と第３の音声を合成する（ステップＳ１０７ｂ）。具体的に、第２音声合成部１２７が、通話音声Ｖ２と第３音声Ｖ３との合成データＢ２３を生成する。

音声合成部１２０Ａによれば、ユーザ１は、ユーザ２の通話音声Ｖ２だけでなく、第３音声Ｖ３も聞くことができる。これにより、ユーザ１は、自身が選択した第３音声Ｖ３を確認することができる。たとえば、音声合成部１２０と音声合成部１２０Ａを切り替えて使用することで、ユーザ１が通話音声Ｖ１に第３音声Ｖ３を合成する前に、第３音声Ｖ３をプレビューすることができる。

［音声合成部の第２変形例］
図７は、音声合成部１２０（図２）の別の変形例を示す図である。図７に示す音声合成部１２０Ｂは、音声合成部１２０（図２）と比較して、第２音声合成部１２７をさらに含む点において相違する。

音声合成部１２０Ｂでは、第１音声合成部１２１によって通話音声Ｖ１と第３音声Ｖ３との合成データＢ１３が生成され、さらに、第２音声合成部１２７によって通話音声Ｖ２と第３音声Ｖ３との合成データＢ２３が生成される。

音声合成部１２０Ｂを採用した場合には、たとえば、先に説明した図５に示すフローチャートのステップＳ１０４およびステップＳ１０７において、図９に示す処理が実行される。

ステップＳ１０４において、先に図５を参照して説明したステップＳ１０３ａ〜Ｓ１０３ｃの処理が実行される。すなわち、端末１００は、第１の音声と第３の音声を合成し（ステップＳ１０４ａ）、調整処理を実行し（ステップＳ１０４ｂ）、合成した音声を符号化する（ステップＳ１０４ｃ）。

また、ステップＳ１０７において、先に図５および図８を参照して説明したステップＳ１０７ａおよびステップＳ１０７ｂの処理が実行される。すなわち、端末１００は、第２の音声の符号化系列を復号し（ステップＳ１０７ａ）、復号した第２の音声と第３の音声を合成する（ステップＳ１０７ｂ）。

音声合成部１２０Ｂによれば、ユーザ２はユーザ１の通話音声Ｖ１および第３音声Ｖ３を聞くことができ、さらに、ユーザ１はユーザ２の通話音声Ｖ２および第３音声Ｖ３を聞くことができる。

［第１音声合成部の変形例］
図１０は、第１音声合成部１２１（図２）の変形例を示す図である。図１０に示す第１音声合成部１２１Ａは、第１音声合成可否判断部１２１Ａａの判断結果に応じて、合成データＢ１３を生成する。

第１音声合成可否判断部１２１Ａａは、通話音声Ｖ１と第３音声Ｖ３との合成データＢ１３を生成すべきか否かを判断する。具体的に、第１音声合成部１２１Ａに合成指示信号ＣＭが入力された場合、第１音声合成可否判断部１２１Ａａは、ユーザ認証処理を実行する。たとえば、端末１００のディスプレイ（図３の出力装置２９など）に、ユーザ認証に必要な情報（ユーザＩＤやパスワードなど）を問い合わせる表示が出力される。ユーザ認証に必要な情報が入力されると、ユーザ認証が完了し、第１音声合成可否判断部１２１Ａａは、合成データＢ１３を生成すべきと判断する。そして、第１音声合成部１２１Ａは、合成データＢ１３を生成する。一方、ユーザ認証が完了しなければ、第１音声合成可否判断部１２１Ａａは、合成データＢ１３を生成すべきでないと判断する。そして、第１音声合成部１２１Ａは、合成データＢ１３を生成しない。

たとえば、ユーザ認証に必要な情報を記憶したデータベースを用意しておけば、そのデータベースを参照することによって、ユーザ認証を行うことができる。そのようなデータベースは、たとえば端末１００の記憶装置（図３の補助記憶装置２７など）に記憶させておくことができる。

第１音声合成部１２１Ａを採用した場合には、たとえば、先に説明した図５に示すフローチャートのステップＳ１０４において、図１３に示す処理が実行される。

まず、ステップＳ１０４において、端末１００は、第３の音声の合成可否を判断する（ステップＳ１０４ｅ）。具体的に、第１音声合成可否判断部１２１Ａａが、ユーザ認証が完了したか否かに基づいて、通話音声Ｖ１と第３音声Ｖ３との合成データＢ１３を合成すべきか否か判断する。そして、合成データＢ１３を合成すべきと判断された場合には、先に図５を参照して説明したステップＳ１０４ａの処理（第１の音声と第３の音声を合成する）が実行される。なお、合成データＢ１３を生成すべきでないと判断された場合には、ステップＳ１０４ａの処理はスキップしてよい。その場合、ステップＳ１０４ｃにおいては、通話音声Ｖ１のみが符号化される。

第１音声合成部１２１Ａによれば、ユーザ認証が完了した場合にのみ、通話音声Ｖ１と第３音声Ｖ３との合成データＢ１３を生成することができる。そのため、たとえば、通話中に不用意に第３音声Ｖ３を発生させてしまうことを防ぐことができる。

［第２音声合成部の変形例］
図１１は、第２音声合成部１２７（図６）の変形例を示す図である。図１１に示す第２音声合成部１２７Ａは、第２音声合成可否判断部１２７Ａａの判断結果に応じて、合成データＢ２３を生成する。

第２音声合成可否判断部１２７Ａａの基本的な機能は、先に図１０を参照して説明した第１音声合成可否判断部１２１Ａａと同様である。すなわち、ユーザ認証が完了すると、第２音声合成可否判断部１２７Ａａは、合成データＢ２３を生成すべきと判断する。そして、第２音声合成部１２７Ａは、合成データＢ２３を生成する。一方、ユーザ認証が完了しなければ、第２音声合成可否判断部１２７Ａａは、合成データＢ２３を生成すべきでないと判断する。そして、第２音声合成部１２７Ａは、合成データＢ２３を生成しない。

第２音声合成部１２７Ａを採用した場合には、たとえば、先に説明した図５に示すフローチャートのステップＳ１０７において、図１４に示す処理が実行される。

ステップＳ１０７において、先に図５を参照して説明したステップＳ１０７ａの処理が実行される。具体的に、端末１００は、第２の音声の符号化系列を復号する（ステップＳ１０７ａ）。

次に、端末１００は、第３の音声の合成可否を判断する（ステップＳ１０７ｃ）。具体的に、第２音声合成可否判断部１２７Ａａが、ユーザ認証が完了したか否かに基づいて、通話音声Ｖ２と第３音声Ｖ３との合成データＢ２３を合成すべきか否か判断する。そして、合成データＢ２３を合成すべきと判断された場合には、先に図８を参照して説明したステップＳ１０７ｂの処理（復号した第２の音声と第３の音声を合成する）が実行される。すなわち、端末１００は、復号した第２の音声と第３の音声を合成する（ステップＳ１０７ｂ）。なお、合成データＢ２３を生成すべきでないと判断された場合には、ステップＳ１０７ｂの処理はスキップしてよい。その場合、その後のステップＳ１０８（図５）において、通話音声Ｖ２のみが出力される。

第２音声合成部１２７Ａによれば、ユーザ認証が完了した場合にのみ、通話音声Ｖ２と第３音声Ｖ３との合成データＢ２３を生成することができる。これによっても、たとえば、通話中に不用意に第３音声Ｖ３を発生させてしまうことを防ぐことができる。

［第１および第２音声合成部の変形例］
図１２は、第１音声合成部１２１（図２）および第２音声合成部１２７（図６）の変形例を示す図である。

図１２に示す第１音声合成部１２１Ａは、第１音声合成可否判断部１２１Ａａの判断結果に応じて合成データＢ１３を生成し、第２音声合成部１２７Ａは、第２音声合成可否判断部１２７Ａａの判断結果に応じて合成データＢ２３を生成する。第１音声合成部１２１Ａについては先に図１０を参照して説明したとおりであり、第２音声合成部１２７Ａについては先に図１１を参照して説明したとおりである。

ここで、第１音声合成可否判断部１２１Ａａおよび第２音声合成可否判断部１２７Ａａは、合成データ（Ｂ１３またはＢ２３）を生成すべきか判断する機能を有する点で共通する。したがって、第１音声合成可否判断部１２１Ａａおよび第２音声合成可否判断部１２７Ａａの一方の機能を、他方の機能に包含させてもよい。これにより、第１音声合成可否判断部１２１Ａａおよび第２音声合成可否判断部１２７Ａａのいずれかを省略した構成とすることができる。

また、第１音声合成可否判断部１２１Ａａおよび第２音声合成可否判断部１２７Ａａは、端末１００の外部に設けられてもよい。たとえば、第１音声合成可否判断部１２１Ａａおよび第２音声合成可否判断部１２７Ａａの機能を、外部サーバで実現してもよい。その場合には、端末１００が外部サーバにアクセスすることによって、合成データ（Ｂ１３またはＢ２３）を生成すべきか否かが判断される。

第１音声合成部１２１Ａおよび第２音声合成部１２７Ａを採用した場合には、たとえば、先に説明した図５に示すフローチャートのステップＳ１０４において、先に説明した図１３に示すフローチャートが実行される。また、図５に示すフローチャートのステップＳ１０７において、先に説明した図１４に示すフローチャートが実行される。

図１２に示す第１音声合成部１２１Ａおよび第２音声合成部１２７Ａの構成によっても、たとえば、通話中に不用意に第３音声Ｖ３を発生させてしまうことを防ぐことができる。

上述の第１音声合成部１２１および１２１Ａ、第２音声合成部１２７および１２７Ａは、第３音声Ｖ３を合成した際に、合成が行われたことを通知する音声をさらに合成してもよい。あるいは、合成が行われたことを通知する情報を第２の端末に送信してもよい。

上述の第１音声合成可否判断部１２１Ａａ、および第２音声合成可否判断部１２７Ａａは、第３音声Ｖ３を解析し、法的あるいは倫理的に問題があるパターン、あるいは特定のユーザに不適切なパターンを含まない音声のみを合成すべきと判断しても良い。さらに、上述の第１音声合成部１２１Ａ、第２音声合成部１２７Ａは、合成データを生成すべきでないと判断された場合、合成処理をスキップする代わりに、警告音を合成してもよい。

［第２実施形態］
図１５は、第２実施形態に係る通話システム１０Ａの機能ブロックを示す図である。通話システム１０Ａでは、第１の通話装置である端末１００Ａ（第１端末）と、サーバ３００と、第２の通話装置である端末２００（第２端末）とによって、ユーザ１とユーザ２との音声通話が実現される。この通話システム１０Ａでは、第３音声Ｖ３がサーバ３００で保持される。

端末１００Ａは、端末１００（図２）と比較して、第３音声保持部１４０を含まない一方で、合成指示送信部１７０と、第３音声受信部１８０と、第３音声復号部１９０とを含む点において相違する。合成指示送信部１７０、第３音声受信部１８０、および第３音声復号部１９０は、サーバ３００にアクセスすることによって第３音声Ｖ３を取得する取得手段として機能する。

まず、端末１００に含まれる部分のうち、合成指示送信部１７０について説明する。

合成指示送信部１７０は、合成指示信号ＣＭを、サーバ３００の合成指示受信部３１０に送信する部分である。なお、合成指示送信部１７０は、合成指示信号ＣＭに対して符号化等の処理を実行してから送信してもよい。

次に、サーバ３００について説明すると、サーバ３００は、合成指示受信部３１０と、第３音声符号化部３２０と、第３音声送信部３３０と、第３音声保持部３４０とを含む。

合成指示受信部３１０は、端末１００Ａの合成指示送信部１７０から送信された合成指示信号ＣＭを受信する部分である。受信した合成指示信号ＣＭは、第３音声符号化部３２０に送信される。なお、合成指示送信部１７０が合成指示信号ＣＭに対して符号化等の処理を実行してから送信した場合は、合成指示受信部３１０は、それに対応する復号等の処理も実行する。

第３音声符号化部３２０は、合成指示受信部３１０が受信した合成指示信号ＣＭに応じた第３音声Ｖ３を後述の第３音声保持部３４０から取得し、取得した第３音声Ｖ３を符号化する部分である。

第３音声送信部３３０は、第３音声符号化部３２０によって符号化された第３音声Ｖ３（つまり符号化系列Ｃ３）を、端末１００Ａの第３音声受信部１８０に送信する部分である。

第３音声保持部３４０は、先に図２を参照して説明した第３音声保持部１４０と同様に、種々の第３音声Ｖ３のデータを保持（記憶）する部分（記憶手段）である。

次に、端末１００Ａに含まれる部分のうち、第３音声受信部１８０と、第３音声復号部１９０とについて説明する。

第３音声受信部１８０は、サーバ３００の第３音声送信部３３０から送信された符号化系列Ｃ３を受信する部分である。

第３音声復号部１９０は、第３音声受信部１８０が受信した符号化系列Ｃ３を復号する部分である。復号された符号化系列Ｃ３（つまり第３音声Ｖ３）は、第１音声合成部１２１に送信される。

通話システム１０Ａのその他の部分については、先に図２を参照して説明した通話システム１０の対応する部分と同様であるので、説明を省略する。

次に、図１６を参照して、通話システム１０Ａの動作について説明する。図１６は、通話システム１０Ａにおいて実行される処理の一例を示すフローチャートである。このフローチャートの処理は、端末１００Ａのユーザ１と、端末２００のユーザ２との通話中に実行される。

はじめに、先に図５を参照して説明したステップＳ１０１およびステップＳ１０２と同様の処理が実行される。すなわち、端末１００Ａにおいて、第１の音声を入力し（ステップＳ３０１）、合成指示を入力する（ステップＳ３０２）。

さらに、端末１００Ａは、合成指示を送信する（ステップＳ３０３）。具体的に、合成指示送信部１７０が、合成指示信号ＣＭを、サーバ３００の合成指示受信部３１０に送信する。

なお、上記ステップＳ３０１〜Ｓ３０３の処理については、ステップＳ３０１の処理が実行された後にステップＳ３０２およびステップＳ３０３の処理が実行されてもよいし、ステップＳ３０２およびステップＳ３０３の処理が実行された後に、ステップＳ３０１の処理が実行されてもよい。

次に、サーバ３００は、合成指示を受信する（ステップＳ４０１ａ）。具体的に、合成指示受信部３１０が、端末１００Ａの合成指示送信部１７０から送信された合成指示信号ＣＭを受信する。

次に、サーバ３００は、第３の音声を読み込む（ステップＳ４０２）。具体的に、第３音声符号化部３２０が、合成指示信号ＣＭに応じた第３音声Ｖ３を、第３音声保持部３４０から取得する。

次に、サーバ３００は、第３の音声を符号化する（ステップＳ４０３）。具体的に、第３音声符号化部３２０が、第３音声Ｖ３を符号化し、符号化系列Ｃ３とする。

次に、サーバ３００は、符号化系列を送信する（ステップＳ４０４）。具体的に、第３音声送信部３３０が、符号化系列Ｃ３を、端末１００Ａの第３音声受信部１８０に送信する。

次に、端末１００Ａは、符号化系列を受信する（ステップＳ３０４）。具体的に、第３音声受信部１８０が、サーバ３００の第３音声送信部３３０から送信された符号化系列Ｃ３を受信する。

次に、端末１００Ａは、第３の音声の符号化系列を復号する（ステップＳ３０５）。具体的に、第３音声復号部１９０が、符号化系列Ｃ３を復号する。

次に、先に図５を参照して説明したステップＳ１０４ａ〜Ｓ１０４ｃおよびステップＳ１０５と同様の処理が実行される。すなわち、端末１００Ａは、第１の音声と復号した第３の音声を合成し（ステップＳ３０６ａ）、調整処理を実行し（ステップＳ３０６ｂ）、合成した音声を符号化し（ステップＳ３０６ｃ）、符号化系列を送信する（ステップＳ３０７）。

次に、先に図５を参照して説明したステップＳ２０１〜Ｓ２０５の処理が実行される。すなわち、端末２００は、符号化系列を受信し（ステップＳ２０１）、合成した音声の符号化系列を復号し（ステップＳ２０２）、音声を出力し（ステップＳ２０３）、第２の音声を符号化し（ステップＳ２０４）、符号化系列を送信する（ステップＳ２０５）。

次に、先に図５を参照して説明したステップＳ１０６〜Ｓ１０８と同様の処理が実行される。すなわち、端末１００Ａは、符号化系列を受信し（ステップＳ３０８）、第２の音声の符号化系列を復号し（Ｓ３０９ａ）、音声を出力する（ステップＳ３１０）。

次に、端末１００Ａの作用効果について説明する。端末１００Ａは、サーバ３００にアクセスすることによって、第３音声Ｖ３を取得する（ステップＳ３０３，Ｓ３０４）。この処理は、合成指示送信部１７０、第３音声受信部１８０および第３音声復号部１９０等の取得手段によって実行される。サーバ３００では、端末１００Ａよりも多くのデータを保持することが容易である。第３音声Ｖ３をサーバ３００が保持することによって、たとえば、端末１００Ａが第３音声Ｖ３を保持しておく場合よりも、より多くの音を第３音声Ｖ３として選択することができる。

［合成指示受信部の変形例］
図１７は、合成指示受信部３１０（図１５）の変形例を示す図である。図１７に示す合成指示受信部３１０Ａは、合成可否判断部３１０Ａａの判断結果に応じて、合成指示信号ＣＭを第３音声符号化部３２０に送信する。

合成可否判断部３１０Ａａは、第３音声Ｖ３を端末１００Ａに送信すべきか否かを判断する。この判断は、先に説明した図１０の第１音声合成可否判断部１２１Ａａと同様に、ユーザ認証の完了の有無に応じて行うことができる。ユーザ認証が完了すると、合成可否判断部３１０Ａａは、第３音声Ｖ３を端末１００Ａに送信すべきと判断する。そして、合成指示受信部３１０Ａは、合成指示信号ＣＭを第３音声符号化部３２０に送信する。一方、ユーザ認証が完了しなければ、合成可否判断部３１０Ａａは、第３音声Ｖ３を端末１００Ａに送信すべきでないと判断する。そして、合成指示受信部３１０Ａは、合成指示信号ＣＭを第３音声符号化部３２０に送信しない。なお、ユーザ認証のための情報（ユーザＩＤなど）は、たとえば合成指示信号ＣＭと同様にして、端末１００Ａからサーバ３００に送信することができる。

上述の合成可否判断部３１０Ａａは、第３音声Ｖ３を解析し、法的あるいは倫理的に問題があるパターン、あるいは特定のユーザに不適切なパターンを含まない音声のみを合成すべきと判断しても良い。さらに、上述の合成指示受信部３１０Ａは、合成データを生成すべきでないと判断された場合、合成指示信号ＣＭを第３音声符号化部３２０に送信しない代わりに、警告音等の第３音声Ｖ３を合成しないことを示す音を合成するための指示を行ってもよい。

この変形例の合成指示受信部３１０Ａによれば、たとえば、先に説明した図１６に示すフローチャートのステップＳ４０１において、図１８に示す処理が実行される。

ステップＳ４０１において、先に説明した図１８のステップＳ４０１ａの処理が実行される。すなわち、サーバ３００は、合成信号を受信する（ステップＳ４０１ａ）。この処理は、合成指示受信部３１０Ａによって実行される。

そして、サーバ３００は、第３の音声の合成可否を判断する（ステップＳ４０１ｂ）。具体的に、合成可否判断部３１０Ａａが、ユーザ認証が完了したか否かに基づいて、第３音声Ｖ３を端末１００Ａに送信すべきか否かを判断する。送信すべきと判断された場合には、先に図１６を参照して説明したステップＳ４０２以降の処理が実行される。すなわち、サーバ３００は、第３の音声を読み込み（ステップＳ４０２）、第３の音声を符号化し（ステップＳ４０３）、符号化系列を送信する（ステップＳ４０４）。なお、第３音声Ｖ３を端末１００Ａにすべきでないと判断された場合には、サーバ３００から端末１００Ａには第３音声Ｖ３は送信されない。その場合には、たとえば後のステップＳ３０６ｃ（図１６）において通話音声Ｖ１のみが符号化される。

この変形例の合成指示受信部３１０Ａによれば、ユーザ認証が完了した場合にのみ、通話音声Ｖ１と第３音声Ｖ３との合成データを生成することができる。そのため、たとえば、通話中に不用意に第３音声Ｖ３を発生させてしまうことを防ぐことができる。

［音声合成部の第１変形例］
端末１００Ａにおいても、先に図６を参照して説明した音声合成部１２０Ａを採用することもできる。音声合成部１２０Ａの詳細については、先に図６および図８を参照して説明したので、ここでは説明を省略する。

［音声合成部の第２変形例］
また、端末１００Ａにおいても、先に図７を参照して説明した音声合成部１２０Ｂを採用することもできる。音声合成部１２０Ｂの詳細については、先に図７および図９を参照して説明したので、ここでは説明を省略する。

［第１音声合成部の変形例］
また、端末１００Ａにおいても、先に図１０を参照して説明した第１音声合成部１２１Ａを採用することもできる。第１音声合成部１２１Ａの詳細については、先に図１０および図１３を参照して説明したので、ここでは説明を省略する。

［第２音声合成部の変形例］
また、端末１００Ａにおいても、先に図１１を参照して説明した第２音声合成部１２７Ａを採用することもできる。第２音声合成部１２７Ａの詳細については、先に図１１および図１４を参照して説明したので、ここでは説明を省略する。

［第１および第２音声合成部の変形例］
また、端末１００Ａにおいても、先に図１２を参照して説明した第１音声合成部１２１Ａおよび第２音声合成部１２７Ａを採用することもできる。これについても先に図１２を参照して説明したので、ここでは説明を省略する。

［第３実施形態］
図１９は、第３実施形態に係る通話システム１０Ｂの機能ブロックを示す図である。通話システム１０Ｂでは、第１の通話装置である端末１００Ｂ（第１端末）と、サーバ４００と、第２の通話装置である端末２００Ｂ（第２端末）とによって、ユーザ１とユーザ２との音声通話が実現される。通話システム１０Ｂでは、通話音声Ｖ１と第３音声Ｖ３との合成データＢ１３を生成するための処理が、主にサーバ４００で実行される。

端末１００Ｂは、端末１００（図２）と比較して、第１音声合成部１２１を含まない一方で、第２音声受信部１５０に代えて第４音声受信部１９５を含み、さらに合成指示送信部１７０を含む点において相違する。

まず、端末１００Ｂに含まれる部分のうち、合成指示送信部１７０について説明する。通話システム１０Ｂにおいて、合成指示送信部１７０は、合成指示信号ＣＭを、サーバ４００の合成指示受信部４１０に送信する。

次に、サーバ４００について説明すると、サーバ４００は、合成指示受信部４１０と、第１音声受信部４２０と、音声合成部４３０と、第３音声保持部４４０と、第３音声送信部４５０と、第２音声受信部４６０と、第４音声送信部４７０とを含む。

まず、サーバ４００に含まれる部分のうち、合成指示受信部４１０、第１音声受信部４２０、音声合成部４３０、第３音声保持部４４０、および第３音声送信部４５０について説明する。

合成指示受信部４１０は、端末１００Ｂの合成指示送信部１７０から送信された合成指示信号ＣＭを受信する部分である。

第１音声受信部４２０は、端末１００Ｂの第１音声送信部１３０から送信された符号化系列Ｃ１を受信する部分である。

音声合成部４３０は、音声を合成する部分であり、第１音声復号部４３１と、第１音声合成部４３２と、第３音声符号化部４３３とを含む。

第１音声復号部４３１は、第１音声受信部４２０が受信した符号化系列Ｃ１を復号する部分である。

第１音声合成部４３２は、合成指示信号ＣＭに基づいて、第３音声Ｖ３を後述の第３音声保持部４４０から取得し、通話音声Ｖ１と第３音声Ｖ３との合成データＢ１３を生成する部分（合成手段）である。

第３音声符号化部４３３は、第１音声合成部４３２によって生成された合成データＢ１３を符号化する部分である。ここで、図４を参照して、第３音声符号化部４３３の詳細について説明すると、図４に示すように、第３音声符号化部４３３は、データ調整部４３３ａと、音声信号符号化部４３３ｂとを含む。データ調整部４３３ａは、合成データＢ１３（あるいは通話音声Ｖ１）を調整するための調整処理を実行する部分（データ調整手段）である。データ調整部４３３ａによる調整処理は、先に説明したデータ調整部１２２ａと同様に実行される。すなわち、データ調整部４３３ａは、符号化モード設定部４３３ａｘおよび音声調整部４３３ａｙを含み、それらは、先に説明した符号化モード設定部１２２ａｘおよび音声調整部１２２ａｙと同様の機能を有する。また、音声信号符号化部４３３ｂは、データ調整部４３３ａの調整結果を受けて通話音声Ｖ１および合成データＢ１３を符号化する部分（符号化手段）である。

再び図１９に戻り、第３音声保持部４４０は、先に図２を参照して説明した第３音声保持部１４０と同様に、種々の第３音声Ｖ３のデータを保持（記憶）する部分（記憶手段）である。したがって、第３音声Ｖ３は、通話音声Ｖ１および通話音声Ｖ２のうち少なくとも一方に加工処理などを施した音声を利用してもよい。加工処理などを施される通話音声は、現在の通話音声でもよく、過去の通話音声でもよい。

第３音声送信部４５０は、第３音声符号化部４３３によって符号化された合成データＢ１３（符号化系列Ｃ１３）を、端末２００の第３音声受信部２７０に送信する部分である。

次に、端末２００Ｂについて説明すると、端末２００Ｂは、端末２００（図２，図１５）と比較して、第１音声受信部２１０に代えて第３音声受信部２７０を含む点において相違する。

第３音声受信部２７０は、サーバ４００の第３音声送信部４５０から送信される符号化系列Ｃ１３を受信する部分である。第３音声受信部２７０が受信した符号化系列Ｃ１３は、第１音声復号部２２０によって復号されて合成データＢ１３とされる。合成データＢ１３は第１音声出力部２３０によって、通話音声Ｖ１および第３音声Ｖ３として出力される。

また、端末２００Ｂにおいて、第２音声入力部２４０に通話音声Ｖ２が入力されると、通話音声Ｖ２が第２音声符号化部２５０によって符号化されて符号化系列Ｃ２とされる。符号化系列Ｃ２は、第２音声送信部２６０によって、サーバ４００の第２音声受信部４６０に送信される。

次に、サーバ４００に含まれる部分のうち、第２音声受信部４６０および第４音声送信部４７０について説明する。

第２音声受信部４６０は、端末２００Ｂの第２音声送信部２６０から送信された符号化系列Ｃ２を受信する部分である。

第４音声送信部４７０は、第２音声受信部４６０が受信した第２音声のデータを、符号化系列Ｃ４として端末１００Ｂの第４音声受信部１９５に送信する部分である。なお、符号化系列Ｃ２および符号化系列Ｃ４は同じあってもよいし、異なっていてもよい。符号化系列Ｃ２および符号化系列Ｃ４が同じである場合には、第３音声送信部４５０は、第２音声受信部４６０が受信した符号化系列Ｃ２をそのまま端末１００Ｂの第４音声受信部１９５に送信する。符号化系列Ｃ２と符号化系列Ｃ４とが異なる例については、後に図２１〜図２４を参照して説明する。

本実施形態においては、第２音声受信部４６０および第４音声送信部４７０はサーバ４００になくてもよい。すなわち、サーバ４００とは異なるサーバにあってもよいし、第２音声送信部２６０から送信された符号化系列Ｃ２を、そのまま端末１００Ｂの第４音声受信部１９５が受信してもよい。

次に、端末１００Ｂに含まれる部分のうち、第４音声受信部１９５について説明する。

第４音声受信部１９５は、後述のサーバ４００の第４音声送信部４７０からの音声データを受信する部分である。

次に、図２０を参照して、通話システム１０Ｂの動作について説明する。図２０は、通話システム１０Ｂにおいて実行される処理の一例を示すフローチャートである。このフローチャートの処理は、端末１００Ｂのユーザ１と、端末２００Ｂのユーザ２との通話中に実行される。

はじめに、先に図５を参照して説明したステップＳ１０１と同様の処理が実行される。すなわち、端末１００Ｂにおいて、第１の音声を入力する（ステップＳ５０１）。

次に、端末１００Ｂは、第１の音声を符号化する（ステップＳ５０２）。具体的に、第１音声符号化部１２２が、先のステップＳ５０１において入力された通話音声Ｖ１を符号化する。

次に、符号化系列を送信する（ステップＳ５０３）。具体的に、第１音声送信部１３０が、符号化系列Ｃ１を、サーバ４００の合成指示受信部４１０に送信する。

また、先に図５を参照して説明したステップＳ１０２と同様の処理が実行される。具体的に、端末１００Ｂにおいて、合成指示を入力する（ステップＳ５０４）。

次に、端末１００Ｂは、合成指示を送信する（ステップＳ５０５）。具体的に、合成指示送信部１７０が、合成指示信号ＣＭを、サーバ４００の合成指示受信部４１０に送信する。

なお、上記ステップＳ５０１〜Ｓ５０５の処理については、ステップＳ５０１〜Ｓ５０３の処理が実行された後にステップＳ５０４およびステップＳ５０５の処理が実行されてもよいし、ステップＳ５０４およびステップＳ５０５の処理が実行された後に、ステップＳ５０１〜Ｓ５０３の処理が実行されてもよい。

次に、サーバ４００は、符号化系列を受信する（ステップＳ６０１）。具体的に、第１音声受信部４２０が、端末１００Ｂの第１音声送信部１３０から送信された符号化系列Ｃ１を受信する。

また、サーバ４００は、合成指示を受信する（ステップＳ６０２）。具体的に、合成指示受信部４１０が、端末１００Ｂの合成指示送信部１７０から送信された合成指示信号ＣＭを受信する。

次に、サーバ４００は、第３の音声を読み込む（ステップＳ６０３）。具体的に、第１音声合成部４３２が、合成指示信号ＣＭに基づいて、第３音声Ｖ３を第３音声保持部４４０から取得する。

次に、サーバ４００は、第１の音声の符号化系列を復号する（ステップＳ６０４ａ）。具体的に、第１音声復号部４３１が、符号化系列Ｃ１を復号する。

次に、サーバ４００は、復号した第１の音声と第３の音声を合成する（ステップＳ６０４ｂ）。具体的に、第１音声合成部４３２が、通話音声Ｖ１と第３音声Ｖ３との合成データＢ１３を生成する。

次に、サーバ４００は、調整処理を実行する（ステップＳ６０４ｃ）。具体的に、データ調整部４３３ａ（図４）が、合成データＢ１３を調整するための調整処理を実行する。

次に、サーバ４００は、合成した音声を復号化する（ステップＳ６０４ｄ）。具体的に、第３音声符号化部４３３が、先のステップＳ６０４ｃにおける調整結果を受けて、合成データＢ１３を符号化する。

そして、サーバ４００は、符号化系列を送信する（ステップＳ６０５）。具体的に、第３音声送信部４５０が、符号化系列Ｃ１３を、端末２００Ｂの第３音声受信部２７０に送信する。

次に、端末２００Ｂは、符号化系列を受信する（ステップＳ７０１）。具体的に、第３音声受信部２７０が、符号化系列Ｃ１３を受信する。

次に、先に図５を参照して説明したステップＳ２０２〜Ｓ２０５と同様の処理が実行される。すなわち、端末２００Ｂは、合成した音声の符号化系列を復号し（ステップＳ７０２）、音声を出力する（ステップＳ７０３）。また、端末２００Ｂは、第２の音声を符号化し（ステップＳ７０４）、符号化系列を送信する（ステップＳ７０５）。

次に、サーバ４００は、符号化系列を受信する（ステップＳ６０６）。具体的に、第２音声受信部４６０が、符号化系列Ｃ２を受信する。

そして、サーバ４００は、符号化系列を送信する（ステップＳ６０８）。具体的に、第４音声送信部４７０が、符号化系列Ｃ４を、端末１００Ｂの第４音声受信部１９５に送信する。

その後、先に図５を参照して説明したステップＳ１０６〜Ｓ１０８と同様の処理が実行される。すなわち、端末１００Ｂは、符号化系列を受信し（ステップＳ５０６）、第２の音声の符号化系列を復号し（ステップＳ５０７）、音声を出力する（ステップＳ５０７）。

次に、通話システム１０Ｂの作用効果について説明する。通話システム１０Ｂでは、サーバ４００において、第１音声合成部４３２が、端末１００Ｂから送信される通話音声Ｖ１および合成指示信号ＣＭに基づいて、第３音声Ｖ３と通話音声Ｖ１との合成データＢ１３を生成し（ステップＳ６０４ｂ）、データ調整部４３３ａが、通話音声Ｖ１および合成データＢ１３を調整するための調整処理を実行し（ステップＳ６０４ｃ）、音声信号符号化部４３３ｂが、データ調整部４３３ａの調整結果を受けて通話音声Ｖ１および合成データＢ１３を符号化して符号化系列Ｃ１３とし（ステップＳ６０４ｄ）、第３音声送信部４５０が、符号化系列Ｃ１３を出力（送信）する（ステップＳ６０５）。通話システム１０Ｂによれば、合成データＢ１３を生成するための合成処理をサーバ３００で実行するので、たとえば、端末１００Ｂで合成処理を実行する場合よりも、端末１００Ｂにおける第３音声Ｖ３の受信や合成にかかる演算負荷を抑制して使用時間を延ばすことができる。また、合成前に第３音声Ｖ３を送信するために必要な符号化処理に伴う音質低下を避けることができ、これにより高音質なまま第３音声の合成を行うことができる。

［音声合成部の第１変形例］
図２１は、音声合成部４３０（図１９）の変形例を示す図である。図１９に示す音声合成部４３０Ａは、音声合成部４３０（図１９）と比較して、第１音声復号部４３１と、第１音声合成部４３２と、第３音声符号化部４３３とを含まない一方で、第２音声復号部４３６と、第２音声合成部４３７と、第４音声符号化部４３８とを含む点において相違する。

第２音声復号部４３６は、第２音声受信部４６０が受信した符号化された通話音声Ｖ２（つまり符号化系列Ｃ２）を復号する部分である。

第２音声合成部４３７は、通話音声Ｖ２と、第３音声Ｖ３との合成データＢ２３を生成する部分である。

第４音声符号化部４３８は、第２音声合成部４３７によって生成された合成データＢ２３を符号化する部分である。ここで、図４を参照して、第４音声符号化部４３８の詳細について説明すると、図４に示すように、第４音声符号化部４３８は、データ調整部４３８ａと、音声信号符号化部４３８ｂとを含む。データ調整部４３８ａは、合成データＢ２３（あるいは通話音声Ｖ２）を調整するための調整処理を実行する部分（データ調整手段）である。データ調整部４３８ａによる調整処理は、先に説明したデータ調整部１２２ａと同様に実行される。すなわち、データ調整部４３８ａは、符号化モード設定部４３８ａｘおよび音声調整部４３８ａｙを含み、それらは、先に説明した符号化モード設定部１２２ａｘおよび音声調整部１２２ａｙと同様の機能を有する。

本変形例においては、第１音声受信部４２０および第３音声送信部４５０はサーバ４００になくてもよい。すなわち、サーバ４００とは異なるサーバにあってもよいし、第１音声送信部１３０から送信された符号化系列Ｃ１を、そのまま端末２００Ｂの第３音声受信部２７０が受信してもよい。

この変形例の音声合成部４３０Ａによれば、たとえば、先に説明した図２０に示すフローチャートのステップＳ６０３およびステップＳ６０７において、図２３に示す処理が実行される。

ステップＳ６０３においてサーバ４００が第３の音声を読み込むと、サーバ４００は、ステップＳ６０５に処理を進める。つまり、ステップＳ６０４では何ら処理が実行されない。また、ステップＳ６０３において読み込まれた第３の音声は、その後のステップＳ６０７において用いられる。

ステップＳ６０７において、まず、サーバ４００は、第２の音声の符号化系列を復号する（ステップＳ６０７ａ）。具体的に、第２音声復号部４３６が、符号化系列Ｃ２を復号する。

次に、サーバ４００は、復号した第２の音声と第３の音声を合成する（ステップＳ６０７ｂ）。具体的に、第２音声合成部４３７が、通話音声Ｖ２と、先のステップＳ６０３において読み込まれた第３音声Ｖ３との合成データＢ２３を生成する。

次に、サーバ４００は、調整処理を実行する（ステップＳ６０７ｃ）。具体的に、データ調整部４３８ａが、合成データＢ２３を調整するための調整処理を実行する。

次に、サーバ４００は、合成した音声を符号化する（ステップＳ６０７ｄ）。具体的に、音声信号符号化部４３８ｂが、データ調整部４３８ａの調整結果を受けて、合成データＢ２３を符号化する。

この変形例の音声合成部４３０Ａによれば、ユーザ１は、ユーザ２の通話音声Ｖ２だけでなく、第３音声Ｖ３も聞くことができる。これにより、ユーザ１は、自身が選択した第３音声Ｖ３を確認することができる。たとえば、音声合成部４３０と音声合成部４３０Ａを切り替えて使用することで、ユーザ１が通話音声Ｖ１に第３音声Ｖ３を合成する前に、第３音声Ｖ３をプレビューすることができる。

［音声合成部の第２変形例］
図２２は、音声合成部４３０（図１９）の別の変形例を示す図である。図２２に示す音声合成部４３０Ｂは、先に図１９を参照して説明した音声合成部４３０の構成要素である第１音声復号部４３１と、第１音声合成部４３２と、第３音声符号化部４３３とを含み、さらに、先に図２１を参照して説明した音声合成部４３０Ａの構成要素である第２音声復号部４３６と、第２音声合成部４３７と、第４音声符号化部４３８とを含む。

この変形例の音声合成部４３０Ｂによれば、たとえば、先に説明した図２０に示すフローチャートのステップＳ６０４およびステップＳ６０７において、図２４に示す処理が実行される。

ステップＳ６０４において、まず、サーバ４００は、第１の音声の符号化系列を復号する（ステップＳ６０４ａ）。具体的に、第１音声復号部４３１が、符号化系列Ｃ１を復号する。

次に、サーバ４００は、復号した第１の音声と第３の音声を合成する（ステップＳ６０４ｂ）。具体的に、第１音声合成部４３２が、通話音声Ｖ１と第３音声Ｖ３との合成データを生成する。

次に、サーバ４００は、合成した音声を符号化する（ステップＳ６０４ｄ）。具体的に、第３音声符号化部４３３が、データ調整部４３３ａの調整結果を受けて、合成データＢ１３を符号化する。

また、ステップＳ６０７において、先に図２３を参照して説明したステップＳ６０７ａ〜Ｓ６０７ｄの処理が実行される。すなわち、サーバ４００は、第２の音声の符号化系列を復号し（ステップＳ６０７ａ）、復号した第２の音声と第３の音声を合成し（ステップＳ６０７ｂ）、調整処理を実行し（ステップＳ６０７ｃ）、合成した音声を符号化する（ステップＳ６０７ｄ）。

この変形例の音声合成部４３０Ｂによれば、ユーザ２はユーザ１の通話音声Ｖ１および第３音声Ｖ３を聞くことができ、また、ユーザ１はユーザ２の通話音声Ｖ２および第３音声Ｖ３を聞くことができる。

［第１音声合成部の変形例］
サーバ４００において、第１音声合成部４３２（図１９）の変形例として図１０に示す第１音声合成部４３２Ａを採用することができる。すなわち、第１音声合成部４３２Ａは、第１音声合成可否判断部４３２Ａａの判断結果に応じて、合成データＢ１３を生成する。詳細については、先に図１０および図１３を参照して説明した第１音声合成部１２１Ａおよび第１音声合成可否判断部１２１Ａａと同様であるので、ここでは説明を省略する。

［第２音声合成部の変形例］
また、サーバ４００において、図１１に示す第２音声合成部４３７Ａを採用することもできる。すなわち、第２音声合成部４３７Ａは、第２音声合成可否判断部４３７Ａａの判断結果に応じて、合成データＢ２３を生成する。詳細については、先に図１１および図１４を参照して説明した第２音声合成部１２７Ａおよび第２音声合成可否判断部１２７Ａａと同様であるので、ここでは説明を省略する。

［第２音声合成部の変形例］
また、サーバ４００において、図１２に示すように、第１音声合成部４３２Ａおよび第２音声合成部４３７Ａを採用することもできる。詳細については、先に図１１〜図１４を参照して説明した第１音声合成部１２１Ａおよび第２音声合成部１２７Ａと同様であるので、ここでは説明を省略する。

本発明は、上述した実施形態に限定されるものではない。各実施形態および各変形例の特徴部分を適宜組み合わせた構成についても、本発明の実施形態とすることができる。

１０，１０Ａ，１０Ｂ…通話システム、１００，１００Ａ，１００Ｂ，２００，２００Ｂ…端末、１２０，１２０Ａ，１２０Ｂ，４３０，４３０Ａ，４３０Ｂ…音声合成部、３００，４００…サーバ。

Claims

話者の音声を入力する入力手段と、
ユーザ操作に基づいて、前記入力手段によって入力された話者の音声と、前記話者の音声とは異なる第３の音との合成データを生成する合成手段と、
前記話者の音声データと、前記第３の音のデータと、前記合成手段によって生成された合成データと、のうち少なくとも一つの特徴に応じて前記話者の音声データおよび前記合成データを符号化する符号化手段と、
前記符号化手段によって符号化されたデータを出力する出力手段と、
を備える、通話装置。
前記符号化手段は、前記特徴に応じて、符号化するための複数の符号化モードのうち、実行すべき符号化モードを設定し、設定された符号化モードに基づき、前記話者の音声および前記合成データを符号化する、
請求項１に記載の通話装置。
前記複数の符号化モードは、それぞれ異なる符号化アルゴリズムを用いた符号化に対応し、
前記符号化手段は、前記第３の音に応じて前記符号化モードを設定する、
請求項２に記載の通話装置。
前記複数の符号化モードは、間欠送信を行うモードと連続送信を行うモードとに対応し、
前記符号化手段は、前記第３の音が合成された場合には連続送信を行うモードを設定する、
請求項２に記載の通話装置。
前記出力手段は、前記符号化手段によって前記合成データが符号化された場合には連続送信を行う、請求項１〜４のいずれか１項に記載の通話装置。
サーバにアクセスすることによって前記第３の音を取得する取得手段をさらに備える、請求項１〜５のいずれか１項に記載の通話装置。
第１の通話装置と、
前記第１の通話装置と音声通話を行う第２の通話装置と、
前記第１の通話装置および前記第２の通話装置と通信可能に構成されたサーバと、
を備え、
前記サーバは、
前記第１の通話装置から送信される話者の音声および前記第１の通話装置からの指示に基づいて、前記話者の音声とは異なる第３の音と前記話者の音声との合成データを生成する合成手段と、
前記話者の音声データと、前記第３の音のデータと、前記合成手段によって生成された合成データと、のうち少なくとも一つの特徴に応じて前記話者の音声データおよび前記合成データを符号化する符号化手段と、
前記符号化手段によって符号化されたデータを前記第２の通話装置に出力する出力手段と、
を有する、
通話システム。
通話装置によって実行される通話方法であって、
話者の音声を入力するステップと、
ユーザ操作に基づいて、前記入力するステップにおいて入力された話者の音声と、前記話者の音声とは異なる第３の音との合成データを生成するステップと、
前記話者の音声データと、前記第３の音のデータと、前記生成するステップにおいて生成された合成データと、のうち少なくとも一つの特徴に応じて前記話者の音声データおよび前記合成データを符号化するステップと、
前記符号化するステップにおいて符号化されたデータを出力するステップと、
を備える、通話方法。