JP2016127367A - 通話装置、通話システムおよび通話方法 - Google Patents

通話装置、通話システムおよび通話方法 Download PDF

Info

Publication number
JP2016127367A
JP2016127367A JP2014265437A JP2014265437A JP2016127367A JP 2016127367 A JP2016127367 A JP 2016127367A JP 2014265437 A JP2014265437 A JP 2014265437A JP 2014265437 A JP2014265437 A JP 2014265437A JP 2016127367 A JP2016127367 A JP 2016127367A
Authority
JP
Japan
Prior art keywords
voice
unit
data
encoding
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014265437A
Other languages
English (en)
Inventor
菊入 圭
Kei Kikuiri
圭 菊入
ブン チュンセン
Chunsen Bun
チュンセン ブン
順也 瀧上
Junya Takigami
順也 瀧上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2014265437A priority Critical patent/JP2016127367A/ja
Publication of JP2016127367A publication Critical patent/JP2016127367A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】符号化処理におけるデータの品質の低下を防ぐことによって、通話品質が損なわれないように話者の音声(通話音声)と第3の音とを合成することを可能にする。【解決手段】通話装置(端末100)は、話者の音声と、話者の音声(通話音声V1)とは異なる第3の音(第3音声V3)との合成データB13を生成する合成手段(第1音声合成部121)と、話者の音声データ(通話音声V1)と、第3の音(第3音声V3)と、合成手段(第1音声合成部121)によって生成された合成データB13と、のうち少なくとも一つの特徴に応じて話者の音声データおよび合成データを符号化する符号化手段(第1音声符号化部122)と、符号化手段によって符号化されたデータを出力する出力手段(第1音声送信部130)と、を備える。【選択図】図2

Description

本発明は、通話装置、通話システムおよび通話方法に関する。
従来より、携帯電話機などを用いた音声通話に、話者の音声(通話音声)とは別の第3の音を提供する技術が提案されている。たとえば下記特許文献1は、音声データ(通話音声)と効果音データ(第3の音)との合成音声データに対してコーデック処理(符号化など)を行う携帯電話機を開示する。符号化された合成音声データは、変調された後、アンテナから出力される。
特開2002−51116号公報
特許文献1の携帯電話機のように、通話音声と第3の音声とを合成し、単に符号化して出力するだけでは、符号化処理によってデータの品質が低下し、通話品質が損なわれるおそれがある。
本発明は、上記問題点に鑑みてなされたものであり、符号化処理におけるデータの品質の低下を防ぐことによって、通話品質が損なわれないように話者の音声と第3の音とを合成することが可能な通話装置、通話システムおよび通話方法を提供することを目的とする。
本発明の一態様に係る通話装置は、話者の音声を入力する入力手段と、ユーザ操作に基づいて、入力手段によって入力された話者の音声と、話者の音声とは異なる第3の音との合成データを生成する合成手段と、話者の音声データと、第3の音と、合成手段によって生成された合成データと、のうち少なくとも一つの特徴に応じて話者の音声データおよび合成データを符号化する符号化手段と、符号化手段によって符号化されたデータを出力する出力手段と、を備える。
本発明の一態様に係る通話方法は、通話装置によって実行される通話方法であって、話者の音声を入力するステップと、ユーザ操作に基づいて、入力するステップにおいて入力された話者の音声と、話者の音声とは異なる第3の音との合成データを生成するステップと、話者の音声データと、第3の音のデータと、生成するステップにおいて生成された合成データと、のうち少なくとも一つの特徴に応じて話者の音声データおよび合成データを符号化するステップと、符号化するステップにおいて符号化されたデータを出力するステップと、を備える。
上記の通話装置または通話方法によれば、話者の音声と第3の音との合成データが生成され、生成された合成データは符号化されて出力される。ここで、話者の音声データおよび合成データは、話者の音声データと、第3の音のデータと、合成データと、のうち少なくとも一つの特徴に応じて符号化される。たとえば、符号化に適したデータとなるように話者の音声データおよび合成データの大きさやサンプリングレートなどを調整することによって、符号化処理における話者の音声データおよび合成データの品質の劣化を抑制することができる。
また、前記符号化手段は、前記特徴に応じて、符号化するための複数の符号化モードのうち、実行すべき符号化モードを設定し、設定された符号化モードに基づき、前記話者の音声および前記合成データを符号化してもよい。このように複数の符号化モードを使い分けて、適切な符号化モードを用いて合成データを符号化することによっても、符号化処理における話者の音声データおよび合成データの品質の劣化を抑制することができる。
また、前記複数の符号化モードは、それぞれ異なる符号化アルゴリズムを用いた符号化に対応し、前記符号化手段は前記第3の音に応じて符号化モードを設定してもよい。これにより、第3の音に応じた適切な符号化アルゴリズムを用いることができる。
また、前記複数の符号化モードは、間欠送信を行うモードと連続送信を行うモードとに対応し、前記符号化手段は、前記第3の音が合成された場合には連続送信を行うモードを設定してもよい。これにより、無音または背景雑音の区間と誤判定されて間欠送信が行われることによる音質劣化を回避し、通話品質を向上させることができる。
また、前記出力手段は、前記符号化手段によって合成データが符号化された場合には連続送信を行ってもよい。このように符号化された合成データを連続送信することによって、無音または背景雑音の区間の少ない合成データに対して間欠送信が行われることによる音質劣化を回避し、通話品質を向上させることができる。
また、通話装置は、サーバにアクセスすることによって第3の音を取得する取得手段をさらに備えてもよい。第3の音をサーバが保持することによって、たとえば、通話装置が第3の音を保持しておく場合よりも、より多くの音を第3の音として選択することができる。
本発明の一態様に係る通話システムは、第1の通話装置と、第1の通話装置と音声通話を行う第2の通話装置と、第1の通話装置および第2の通話装置と通信可能に構成されたサーバと、を備え、サーバは、第1の通話装置から送信される話者の音声および第1の通話装置からの指示に基づいて、話者の音声とは異なる第3の音と話者の音声との合成データを生成する合成手段と、話者の音声データと、第3の音と、合成手段によって生成された合成データと、のうち少なくとも一つの特徴に応じて話者の音声データおよび合成データを符号化する符号化手段と、符号化手段によって符号化されたデータを第2の通話装置に出力する出力手段と、を有する。
上記の通話システムによれば、上述した通話装置および通話方法と同様に、たとえば、符号化に適したデータとなるように話者の音声データおよび合成データの大きさやサンプリングレートなどを調整することによって、符号化処理による話者の音声データおよび合成データの品質の劣化を抑制することができる。さらに、上記の通話システムでは、第3の音をサーバが合成することにより、たとえば、通話装置が第3の音を合成する場合よりも、通話装置の演算負荷を抑制して使用時間を延ばすことができる。
本発明によれば、符号化処理におけるデータの品質の低下を防ぐことによって、通話品質が損なわれないように話者の音声(通話音声)と第3の音とを合成することが可能になる。
各実施形態に共通する通話システムの概略構成を示す図である。 第1実施形態に係る通話システムの機能ブロックを示す図である。 端末のハードウェア構成図である。 第1音声符号化部の詳細構成を示す図である。 通話システムにおいて実行される処理の一例を示すフローチャートである。 第1変形例に係る音声合成部の機能ブロックを示す図である。 第2変形例に係る音声合成部の機能ブロックを示す図である。 第1変形例に係る音声合成部によって実行される処理の一例を示すフローチャートである。 第2変形例に係る音声合成部によって実行される処理の一例を示すフローチャートである。 変形例に係る第1音声合成部の機能ブロックを示す図である。 変形例に係る第2音声合成部の機能ブロックを示す図である。 変形例に係る第1および第2音声合成部の機能ブロックを示す図である。 変形例に係る第1音声合成部によって実行される処理の一例を示すフローチャートである。 変形例に係る第2音声合成部によって実行される処理の一例を示すフローチャートである。 第2実施形態に係る通話システムの機能ブロックを示す図である。 通話システムにおいて実行される処理の一例を示すフローチャートである。 変形例に係る合成指示受信部の機能ブロックを示す図である。 変形例に係る合成指示受信部によって実行される処理の一例を示す図である。 第3実施形態に係る通話システムの機能ブロックを示す図である。 通話システムにおいて実行される処理の一例を示すフローチャートである。 第1変形例に係る音声合成部の機能ブロックを示す図である。 第2変形例に係る音声合成部の機能ブロックを示す図である。 第1変形例に係る音声合成部によって実行される処理の一例を示すフローチャートである。 第2変形例に係る音声合成部によって実行される処理の一例を示すフローチャートである。
以下、本発明の実施形態について、図面を参照しながら説明する。なお、図面の説明において同一要素には同一符号を付し、重複する説明は省略する。
図1は、各実施形態に共通する通話システムの概略構成を示す図である。図1に示すように、通話システム(後述の通話システム10,10Aまたは10B)において、ユーザ1とユーザ2との通話が行われる。通話システムでは、第1端末(後述の端末100,100Aまたは100B)および第2端末(後述の端末200または200B)が、通話装置として用いられる。ユーザ1が第1端末を利用し、ユーザ2が第2端末を利用することによって、ユーザ1とユーザ2との音声通話が実現される。
通話システムにおいて、たとえば端末100および端末200は、通信ネットワーク3を介して通信可能に構成されている。さらに、サーバ300が、通信ネットワーク3を介して、端末100および端末200と通信可能に構成されていてもよい。
通話システムの動作概要の一例について説明する。たとえば、端末100において一方の話者であるユーザ1の通話音声V1が入力されると、ユーザ1の端末100の操作(ユーザ操作)によって選択された第3音声V3と、通話音声V1との合成データが生成される。合成データの生成は、端末100で行われてもよいし、サーバ300で行われてもよい。生成された合成データは符号化された後、符号化系列として出力されて端末200へ送信される。
具体的に、図1では、操作によって、第3音声V3として、音データS1〜S3等の複数の音データから、ユーザ1の希望する音データが、第3音声V3として選択される。端末200では、受信した符号化系列を復号することによって、通話音声V1と第3音声V3との合成データを取得することができる。取得した合成データに応じた音が出力されることによって、ユーザ2は、ユーザ1の通話音声V1だけでなく、第3音声V3も聞くことができる。同時に、ユーザ1も第3音声V3を聞くことができてもよい。
第3音声V3の例として、たとえばセリフなどの音声が挙げられる。ただし、第3音声V3は音声に限定されるものでなく、効果音や、BGMのような音楽であってもよい。
ここで、通話システムでは、通話音声V1と第3音声V3との合成データを調整するための調整処理が実行可能である。調整処理は、たとえば、符号化に適したデータとなるように合成データの大きさやサンプリングレートなどを調整する処理や、合成データを符号化するのに適切な符号化モードを設定する処理を含む。そのような調整処理の調整結果を受けた後に符号化処理が実行されることによって、通話音声V1と第3音声V3とを合成した場合でも、通話品質が損なわれないようにすることができる。
[第1実施形態]
図2は、第1実施形態に係る通話システム10の機能ブロックを示す図である。通話システム10では、第1の通話装置である端末100(第1端末)と、第2の通話装置である端末200(第2端末)とによって、ユーザ1とユーザ2との通話が行われる。
図2に示すように、端末100は、第1音声入力部110と、音声合成部120と、第1音声送信部130と、第3音声保持部140と、第2音声受信部150と、第2音声出力部160とを含む。
まず、端末100に含まれる部分のうち、第1音声入力部110と、音声合成部120の一部と、第1音声送信部130と、第3音声保持部140とについて説明する。
第1音声入力部110は、一方の話者(図1のユーザ1)の通話音声V1を入力する部分(入力手段)である。第1音声入力部110は、たとえばマイクロフォンを含んで構成される。
音声合成部120は、音声を合成する部分であり、第1音声合成部121と、第1音声符号化部122と、第2音声復号部126とを含む。
まず、音声合成部120に含まれる部分のうち、第1音声合成部121と、第1音声符号化部122について説明する。
第1音声合成部121は、ユーザ操作に基づいて、第1音声入力部110によって入力された通話音声V1と、通話音声V1とは異なる第3音声V3(第3の音)との合成データB13を生成する部分(合成手段)である。ユーザ操作は、たとえばユーザ1(図1)が端末100に設けられた操作盤やタッチパネルなどのデバイスを操作することによって行われる。ユーザ操作は、たとえば先に図1を参照して説明したように、種々の音データS1〜S3等から、ユーザ1が希望する音を第3音声V3として選択する操作や、通話音声V1と第3音声V3との合成時の音量バランスを選択する操作や、第3音声V3の合成を停止する操作を含む。さらに、また、上記の操作盤やタッチパネルなどのデバイスが、ユーザ操作に応じて合成指示信号CMを発生させ、その合成指示信号CMが第1音声合成部121に入力されることによって、第1音声合成部121は、ユーザ操作に基づく合成処理を行うことができる。
合成データB13は、たとえば、通話音声V1の音声データ(以下、単に「通話音声V1」という)と第3音声V3の音声データ(以下、単に「第3音声V3」という)とを時間軸上で重畳することによって生成することができる。あるいは、合成データB13は、通話音声V1の途中に第3音声V3を挿入することによって生成してもよい。
第1音声合成部121によって合成された合成データB13は、第1音声符号化部122に送信される。なお、合成指示信号CMが第1音声合成部121に入力されない場合には、第1音声合成部121は、合成データB13を生成することなく、通話音声V1を第1音声符号化部122に送信する。
第1音声符号化部122は、第1音声合成部121によって生成された合成データB13を符号化する部分である。合成データB13でなく、通話音声V1が第1音声合成部121から送信された場合には、第1音声符号化部122は、通話音声V1を符号化する。
ここで、図4を参照して、第1音声符号化部122の詳細について説明する。図4に示すように、第1音声符号化部122は、データ調整部122aと、音声信号符号化部122bとを含む。
データ調整部122aは、合成データB13(あるいは通話音声V1)を調整するための調整処理を実行する部分(データ調整手段)である。データ調整部122aは、符号化モード設定部122axの機能を用いて調整処理を実行することもできるし、音声調整部122ayの機能を用いて調整処理を実行することもできる。
符号化モード設定部122axは、合成データB13(あるいは通話音声V1)を符号化するための複数の符号化モードのうち、実行すべき符号化モードを設定する部分(モード設定手段)である。
たとえば、複数の符号化アルゴリズムを持ったコーデックの場合、第3音声V3の特徴に応じて特定のアルゴリズムを設定するとよい。すなわち、複数の符号化モードでは、異なる符号化アルゴリズムを用いた符号化が行われ、符号化モード設定部122axは、第3音声V3の特徴に応じて符号化モードを設定することができる。たとえば、コーデックが音声の符号化に適した符号化アルゴリズムと、音楽に適した符号化アルゴリズムとで構成されている場合、第3音声V3がセリフのような音声であれば、音声の符号化に適した符号化アルゴリズムを用いることができる。また、第3音声V3が効果音やBGMのような音楽であれば、音楽に適した符号化アルゴリズムを用いることができる。その場合、第3音声V3のカテゴリ(例えば、音声であるか否か、音楽であるか否か、音声であるか音楽であるか、等)を記述したテーブルを含むデータベースを予め用意しておけば、そのデータベースを参照することによって、符号化モード設定部122axは、第3音声V3のカテゴリという特徴に応じて適切な符号化モードを設定することができる。なお、第3音声V3と符号化アルゴリズムとの組合せを記述したデータテーブルを含むデータベースを予め用意しておいてもよく、同様に、そのデータベースを参照することによって、符号化モード設定部122axは、第3音声V3に応じて適切な符号化モードを設定することができる。そのようなデータベースは、たとえば端末100の記憶装置(後述の図3の補助記憶装置27など)に記憶させておくことができる。
また、前述のコーデックがEVS(Enhanced Voice Services)コーデックの場合、前述の音声の符号化に適した符号化アルゴリズムとしてACELPを用いたアルゴリズムを、音楽に適した符号化アルゴリズムとしてMDCTを用いたアルゴリズムを設定してもよい。
また、DTX(間欠送信)をオフにしてデータ送信を行うモードも、符号化モードの一つとすることができる。たとえば、通話音声V1のみを符号化する場合には、無音または背景雑音と判定された区間のデータレートを下げる間欠送信であっても通話品質を維持することができる。すなわち、通話音声V1が合成音声ではないという特徴に応じて、符号化モードを間欠送信に設定する。これに対し、通話音声V1および第3音声V3を符号化してデータ送信を行う場合には、通話音声V1のみを符号化してデータ送信を行う場合よりも、無音または背景雑音の区間が含まれる可能性が小さくなる。その場合、連続送信を行い、無音または背景雑音の区間と誤判定されて間欠送信が行われることによる音質劣化を回避し、通話品質を向上させることができる。すなわち、合成データB13が通話音声V1および第3音声V3を合成した合成音声であるという特徴に応じて、符号化モードを連続送信に設定する。さらに例えば、通話音声V1および第3音声V3を符号化してデータ送信を行う場合においても、第3音声V3が音声である場合には間欠送信であっても通話品質を維持することができ、第3音声V3が音楽である場合には連続送信することで無音または背景雑音の区間と誤判定されて間欠送信が行われることによる音質劣化を回避できる。すなわち、第3音声V3の特徴(例えば、音声あるか否か、音楽であるか否か、音声か音楽かという特徴)に応じて、符号化モードを間欠送信または連続送信に設定する。間欠送信または連続送信を切り替えてデータ送信を行う処理は、後述の第1音声送信部130との協働によって実現してもよい。
以上説明した符号化モードの例を組み合わせた構成についても、符号化モードの一つとすることができる。たとえば、先に説明したように第3音声V3の特徴に応じた特定のアルゴリズムを設定するとともに、上述のように間欠送信をオフにしてデータ送信を行うモードも、符号化モードの一つとすることができる。
音声調整部122ayは、合成データB13(あるいは通話音声V1)を調整する部分である。
たとえば、合成データB13(あるいは通話音声V1)が音声信号符号化部122bの入力信号として適切になるように、合成データB13(あるいは通話音声V1)の特徴に応じて調整する。たとえば、音声信号符号化部122bの入力信号の大きさに応じて、音声信号符号化部122bの入力信号の大きさを調整する。この場合、例えば、音声信号符号化部122bの入力信号が非常に大きい場合、音声信号符号化部122bの入力信号を小さくするように調整する。また、音声信号符号化部122bの入力信号のサンプリングレートに応じて、音声信号符号化部122bの入力信号のサンプリングレートを調整してもよい。この場合、例えば、音声信号符号化部122bの入力信号のサンプリングレートが音声信号符号化部122bで対応可能なサンプリングレートでない場合に、音声信号符号化部122bで対応可能なサンプリングレートに変換する。もちろん、入力信号の大きさを調整するとともに入力信号のサンプリングレートを調整することもできる。
音声調整部122ayで音声信号符号化部122bの入力信号として適切になるように調整することにより、音声信号符号化部122bでの符号化処理による合成データB13(あるいは通話音声V1)の品質の劣化を抑制することができる。
音声信号符号化部122bは、データ調整部122aの調整結果を受けて、通話音声V1および合成データB13を符号化する部分(符号化手段)である。たとえば、音声信号符号化部122bは、符号化モード設定部122axにより設定された符号化モードに基づき、通話音声V1および合成データB13を符号化する。あるいは、音声信号符号化部122bは、音声調整部122ayにより調整された通話音声V1および合成データB13を符号化する。具体的に、音声信号符号化部122bは、合成データB13を符号化し、符号化系列C13とする。あるいは、音声信号符号化部122bは、通話音声V1を符号化し、符号化系列C1とする。以下では、主に、音声信号符号化部122bによって合成データB13が符号化されるものとして説明する。
再び図2に戻り、第1音声送信部130は、音声信号符号化部122b(図4)によって符号化された合成データB13(つまり符号化系列C13)を出力する部分(出力手段)である。具体的に、第1音声送信部130は、符号化系列C13を、後述の端末200の第1音声受信部210に送信する。
また、第1音声送信部130は、間欠送信および連続送信のいずれをも実行することができる。間欠送信および連続送信は、先に説明した符号化モード設定部122axの設定する符号化モードに応じて切り替えることができる。たとえば、第1音声送信部130は、音声信号符号化部122bによって通話音声V1が符号化された場合には、そのデータ(つまり符号化系列C1)の間欠送信を行う。また、音声信号符号化部122bによって合成データB13が符号化された場合には、そのデータ(つまり符号化系列C13)の連続送信を行う。間欠送信を行う場合において、音声信号符号化部122bが入力される信号に応じてデータレートを制御した(つまりデータレートを上げ下げした)データ(つまり符号化系列C13)を生成していれば、第1音声送信部130は音声信号符号化部122bから入力されるデータ(つまり符号化系列C13)をそのまま送信することで、間欠送信を実現できる。
第3音声保持部140は、種々の第3音声V3を保持(記憶)する部分(記憶手段)である。第3音声V3は、あらかじめ第3音声保持部140に記憶しておくことができ、さらに、端末100がサーバ300にアクセスして新たな音データを取得する等によって更新することができる。さらに、第3音声V3は、通話音声V1および後述する通話音声V2のうち少なくとも一方に加工処理などを施した音声を利用してもよい。加工処理などを施される通話音声は、現在の通話音声でもよく、過去の通話音声でもよい。
次に、端末200について説明すると、端末200は、第1音声受信部210と、第1音声復号部220と、第1音声出力部230と、第2音声入力部240と、第2音声符号化部250と、第2音声送信部260とを含む。
第1音声受信部210は、端末100の第1音声送信部130から送信された符号化系列C13を受信する部分である。
第1音声復号部220は、第1音声受信部210が受信した符号化系列C13を復号する部分である。先に説明したように、符号化系列C13は、端末100において、符号化モード設定部122axによって設定された符号化モードで符号化されている場合もある。その場合には、第1音声復号部220は、符号化モード設定部122axによって設定された符号化モードに対応する復号モードを実行する。たとえば、符号化モードに関する情報を、符号化系列C13と同様にして、端末100から端末200に送信することによって、第1音声復号部220は、対応する復号モードを実行することができる。また、符号化モードに関する情報は符号化系列C13に含まれていてもよい。
第1音声出力部230は、第1音声復号部220によって復号された符号化系列C13(つまり合成データB13)に応じた音を出力する部分である。第1音声出力部230は、たとえばスピーカを含んで構成される。具体的に、第1音声出力部230は、通話音声V1および第3音声V3を出力する。これにより、ユーザ2(図1)は、ユーザ1の通話音声V1および第3音声V3を聞くことができる。
第2音声入力部240は、他方の話者(図1のユーザ2)の通話音声V2を入力する部分であり、たとえばマイクロフォンを含んで構成される。
第2音声符号化部250は、第2音声入力部240に入力された通話音声V2を符号化する部分である。符号化された通話音声V2は、符号化系列C2とされる。なお、第2音声符号化部250が実行する符号化モードは、たとえば、あらかじめ定められた符号化モードであってもよいし、先に説明した第1音声符号化部122のように、複数の符号化モードから選択して設定してもよい。
第2音声送信部260は、第2音声符号化部250によって符号化された通話音声V2(つまり符号化系列C2)を出力する部分である。具体的に、第2音声送信部260は、符号化系列C2を、後述の端末100の第2音声受信部150に送信する。
次に、端末100に含まれる部分のうち、第2音声受信部150と、音声合成部120の第2音声復号部126と、第2音声出力部160とについて説明する。
第2音声受信部150は、端末200の第2音声送信部260から送信された符号化系列C2を受信する部分である。
第2音声復号部126は、第2音声受信部150が受信した符号化系列C2を復号する部分である。第2音声復号部126は、端末200の第2音声符号化部250が実行する符号化モードに対応した復号モードを実行する。
第2音声出力部160は、第2音声復号部126によって復号された符号化系列C2(つまり通話音声V2)に応じた音を出力する部分である。第2音声出力部160は、たとえばスピーカを含んで構成される。具体的に、第2音声出力部160は、通話音声V2を出力する。これにより、ユーザ1(図1)は、ユーザ2の通話音声V2を聞くことができる。
ここで、図3を参照して、端末100のハードウェア構成について説明する。図3は、端末100のハードウェア構成図である。図3に示されるように、端末100は、物理的には、1または複数のCPU(Central Processing unit)21、主記憶装置であるRAM(Random Access Memory)22およびROM(Read Only Memory)23、データ送受信デバイスである通信モジュール26、半導体メモリなどの補助記憶装置27、操作盤(操作ボタンを含む)やタッチパネルなどのユーザの入力を受け付ける入力装置28、ディスプレイなどの出力装置29、などのハードウェアを備えるコンピュータとして構成することができる。図2における端末100の各機能は、たとえば、CPU21、RAM22などのハードウェア上に1または複数の所定のコンピュータソフトウェアを読み込ませることにより、CPU101の制御のもとで通信モジュール26、入力装置28、出力装置29を動作させるとともに、RAM22および補助記憶装置27におけるデータの読み出しおよび書き込みを行うことで実現することができる。なお、端末200についても、端末100と同様のハードウェア構成とすることができる。また、後述の実施形態で説明する端末やサーバについても、端末100と同様のハードウェア構成とすることができる。
次に、図5を参照して、通話システム10の動作(とくに端末100によって実行される通話方法)について説明する。図5は、通話システム10において実行される処理の一例を示すフローチャートである。このフローチャートの処理は、端末100を利用するユーザ1(図1)と、端末200を利用するユーザ2との通話中に実行される。
はじめに、端末100において、第1の音声を入力する(ステップS101)。具体的に、端末100の第1音声入力部110が、ユーザ1の通話音声V1を入力する。
また、端末100において、合成指示を入力する(ステップS102)。具体的に、第1音声合成部121が、ユーザ操作に応じた合成指示信号CMを受ける。
さらに、端末100は、第3の音声を読み込む(ステップS103)。具体的に、第1音声合成部121が、第3音声保持部140に記憶されている第3音声のうち、ユーザ操作によって選択された第3音声V3を、第3音声保持部140から取得する。
なお、上記ステップS101〜S103の処理については、ステップS101の処理が実行された後にステップS102およびステップS103の処理が実行されてもよいし、ステップS102およびステップS103の処理が実行された後にステップS101の処理が実行されてもよい。
次に、端末100は、第1の音声と第3の音声を合成する(ステップS104a)。具体的に、第1音声合成部121が、通話音声V1と第3音声V3との合成データB13を生成する。
次に、端末100は、調整処理を実行する(ステップS104b)。具体的に、データ調整部122aが、合成データB13を調整するための調整処理を実行する。たとえば、符号化モード設定部122axが、合成データB13を符号化するために実行すべき符号化モードを設定する。あるいは、音声調整部122ayが、合成データB13を調整する。
次に、端末100は、合成した音声を符号化する(ステップS104c)。具体的に、音声信号符号化部122bが、先のステップS104bにおける調整結果を受けて、合成データB13を符号化し、符号化系列C13とする。
そして、端末100は、符号化系列を送信する(ステップS105)。具体的に、第1音声送信部130が、符号化系列C13を、端末200の第1音声受信部210に出力(送信)する。
次に、端末200は、符号化系列を受信する(ステップS201)。具体的に、第1音声受信部210が、端末100の第1音声送信部130によって送信された符号化系列C13を受信する。
次に、端末200は、合成した音声の符号化系列を復号する(ステップS202)。具体的に、第1音声復号部220が、符号化系列C13を復号し、合成データB13とする。
そして、端末200は、音声を出力する(ステップS203)。具体的に、第1音声出力部230が、合成データB13に応じた音、つまり通話音声V1および第3音声V3を出力する。出力された通話音声V1および第3音声V3をユーザ2が聞くことによって、ユーザ2は通話音声V2を発する。
これにより、端末200は、第2の音声を符号化する(ステップS204)。具体的に、第2音声符号化部250が、第2音声入力部240によって入力された通話音声V2を符号化し、符号化系列C2とする。
次に、端末200は、符号化系列を送信する(ステップS205)。具体的に、第2音声送信部260が、符号化系列C2を、端末100の第2音声受信部150に出力(送信)する。
次に、端末100は、符号化系列を受信する(ステップS106)。具体的に、第2音声受信部150が、端末200の第2音声送信部260によって送信された符号化系列C2を受信する。
次に、端末100は、第2の音声の符号化系列を復号する(ステップS107a)。具体的に、第2音声復号部126が、符号化系列C2を復号し、通話音声V2とする。
そして、端末100は、音声を出力する(ステップS108)。具体的に、第2音声出力部160が、通話音声V2を出力する。これにより、ユーザ1は、通話音声V2を聞くことができる。これにより、ユーザ1は通話音声V1を発する。そして、端末100は、ステップS101の処理を再び実行する。このようにして図5のフローチャートの処理が繰り返し実行されることによって、ユーザ1とユーザ2との通話が進められる。
次に、端末100の作用効果について説明する。端末100では、第1音声入力部110がユーザ1の通話音声V1を入力し(ステップS101)、第1音声合成部121がユーザ操作に基づいて、通話音声V1と第3音声V3との合成データB13を生成し(ステップS104a)、データ調整部122aが、通話音声V1および合成データB13を調整するための調整処理を実行し(ステップS104b)、音声信号符号化部122bが、通話音声V1および合成データB13を符号化して符号化系列C13とし(ステップS104c)、第1音声送信部130が、符号化系列C13を出力(送信)する(ステップS105)。データ調整部122aおよび音声信号符号化部122bによって実行される処理(ステップS104b,S104c)は、通話音声V1と、第3音声V3と、合成データB13と、のうち少なくとも一つの特徴に応じて合成データB13(あるいは通話音声V1)を符号化する処理である。端末100によれば、たとえば、データ調整部122aの音声調整部122ayが、符号化に適したデータとなるように話者の音声データおよび合成データの大きさやサンプリングレートなどを調整することによって、符号化処理による話者の音声データおよび合成データの品質の劣化を抑制することができる。
また、たとえば、データ調整部122aの符号化モード設定部122axが、符号化するための複数の符号化モードのうち、実行すべき符号化モードを設定し、音声信号符号化部122bが、符号化モード設定部122axによって設定された符号化モードに基づき、通話音声V1および合成データB13を符号化することもできる。このように、複数の符号化モードを使い分けることによって、適切な符号化モードを用いて合成データを符号化することができる。適切な符号化モードに設定することによって、通話品質が損なわれないようにユーザ1の通話音声V1と第3音声V3とを合成することが可能になる。
たとえば、複数の符号化モードは、それぞれ異なる符号化アルゴリズムを用いた符号化に対応し、符号化モード設定部122axは、第3音声V3の特徴に応じて符号化モードを設定する。これにより、第3音声V3の特徴に応じた適切な符号化アルゴリズムを用いることができる。
たとえば、複数の符号化モードは、間欠送信を行うモードと連続送信を行うモードとに対応し、符号化モード設定部122axは、第3音声V3が合成された場合には連続送信を行うモードを設定する。すなわち、通話音声V1および合成データB13の特徴に応じて、間欠送信を行うモードまたは連続送信を行うモードに設定する。これにより、無音または背景雑音の区間と誤判定されて間欠送信が行われることによる音質劣化を回避し、通話品質を向上させることができる。
また、間欠送信と連続送信の切り替えは第1音声送信部130で実施されてもよい。このとき、第1音声送信部130は、符号化モード設定部122axによって合成データB13が符号化された場合には連続送信を行う。なお、連続送信を行わない場合には、間欠送信が行われる。このように符号化された合成データ(符号化系列C13)を連続送信することによって、無音または背景雑音の区間と誤判定されて間欠送信が行われることによる音質劣化を回避し、通話品質を向上させることができる。
[音声合成部の第1変形例]
図6は、音声合成部120(図2)の変形例を示す図である。図6に示す音声合成部120Aは、音声合成部120(図2)と比較して、第1音声合成部121を含まない一方で第2音声合成部127を含む点で相違する。
第2音声合成部127は、ユーザ操作(合成指示信号CM)に基づいて、通話音声V2と第3音声V3との合成データB23を生成する部分である。
第2音声合成部127によって生成された合成データB23は、第2音声出力部160(図2)に送信され、通話音声V2および第3音声V3として出力される。
音声合成部120Aを採用した場合には、たとえば、先に説明した図5に示すフローチャートのステップS104およびステップS107において、図8に示す処理が実行される。
ステップS104において、先に図5を参照して説明したステップS104bの処理が実行される。すなわち、端末100は、調整処理を実行する(ステップS104b)。次に、端末100は、第1の音声を符号化する(ステップS104d)。具体的に、音声信号符号化部122bが、通話音声V1を符号化し、符号化系列C1とする。
また、ステップS107において、先に図5を参照して説明したステップS107aの処理が実行される。すなわち、端末100は、第2の音声の符号化系列を復号する(ステップS107a)。そして、端末100は、復号した第2の音声と第3の音声を合成する(ステップS107b)。具体的に、第2音声合成部127が、通話音声V2と第3音声V3との合成データB23を生成する。
音声合成部120Aによれば、ユーザ1は、ユーザ2の通話音声V2だけでなく、第3音声V3も聞くことができる。これにより、ユーザ1は、自身が選択した第3音声V3を確認することができる。たとえば、音声合成部120と音声合成部120Aを切り替えて使用することで、ユーザ1が通話音声V1に第3音声V3を合成する前に、第3音声V3をプレビューすることができる。
[音声合成部の第2変形例]
図7は、音声合成部120(図2)の別の変形例を示す図である。図7に示す音声合成部120Bは、音声合成部120(図2)と比較して、第2音声合成部127をさらに含む点において相違する。
音声合成部120Bでは、第1音声合成部121によって通話音声V1と第3音声V3との合成データB13が生成され、さらに、第2音声合成部127によって通話音声V2と第3音声V3との合成データB23が生成される。
音声合成部120Bを採用した場合には、たとえば、先に説明した図5に示すフローチャートのステップS104およびステップS107において、図9に示す処理が実行される。
ステップS104において、先に図5を参照して説明したステップS103a〜S103cの処理が実行される。すなわち、端末100は、第1の音声と第3の音声を合成し(ステップS104a)、調整処理を実行し(ステップS104b)、合成した音声を符号化する(ステップS104c)。
また、ステップS107において、先に図5および図8を参照して説明したステップS107aおよびステップS107bの処理が実行される。すなわち、端末100は、第2の音声の符号化系列を復号し(ステップS107a)、復号した第2の音声と第3の音声を合成する(ステップS107b)。
音声合成部120Bによれば、ユーザ2はユーザ1の通話音声V1および第3音声V3を聞くことができ、さらに、ユーザ1はユーザ2の通話音声V2および第3音声V3を聞くことができる。
[第1音声合成部の変形例]
図10は、第1音声合成部121(図2)の変形例を示す図である。図10に示す第1音声合成部121Aは、第1音声合成可否判断部121Aaの判断結果に応じて、合成データB13を生成する。
第1音声合成可否判断部121Aaは、通話音声V1と第3音声V3との合成データB13を生成すべきか否かを判断する。具体的に、第1音声合成部121Aに合成指示信号CMが入力された場合、第1音声合成可否判断部121Aaは、ユーザ認証処理を実行する。たとえば、端末100のディスプレイ(図3の出力装置29など)に、ユーザ認証に必要な情報(ユーザIDやパスワードなど)を問い合わせる表示が出力される。ユーザ認証に必要な情報が入力されると、ユーザ認証が完了し、第1音声合成可否判断部121Aaは、合成データB13を生成すべきと判断する。そして、第1音声合成部121Aは、合成データB13を生成する。一方、ユーザ認証が完了しなければ、第1音声合成可否判断部121Aaは、合成データB13を生成すべきでないと判断する。そして、第1音声合成部121Aは、合成データB13を生成しない。
たとえば、ユーザ認証に必要な情報を記憶したデータベースを用意しておけば、そのデータベースを参照することによって、ユーザ認証を行うことができる。そのようなデータベースは、たとえば端末100の記憶装置(図3の補助記憶装置27など)に記憶させておくことができる。
第1音声合成部121Aを採用した場合には、たとえば、先に説明した図5に示すフローチャートのステップS104において、図13に示す処理が実行される。
まず、ステップS104において、端末100は、第3の音声の合成可否を判断する(ステップS104e)。具体的に、第1音声合成可否判断部121Aaが、ユーザ認証が完了したか否かに基づいて、通話音声V1と第3音声V3との合成データB13を合成すべきか否か判断する。そして、合成データB13を合成すべきと判断された場合には、先に図5を参照して説明したステップS104aの処理(第1の音声と第3の音声を合成する)が実行される。なお、合成データB13を生成すべきでないと判断された場合には、ステップS104aの処理はスキップしてよい。その場合、ステップS104cにおいては、通話音声V1のみが符号化される。
第1音声合成部121Aによれば、ユーザ認証が完了した場合にのみ、通話音声V1と第3音声V3との合成データB13を生成することができる。そのため、たとえば、通話中に不用意に第3音声V3を発生させてしまうことを防ぐことができる。
[第2音声合成部の変形例]
図11は、第2音声合成部127(図6)の変形例を示す図である。図11に示す第2音声合成部127Aは、第2音声合成可否判断部127Aaの判断結果に応じて、合成データB23を生成する。
第2音声合成可否判断部127Aaの基本的な機能は、先に図10を参照して説明した第1音声合成可否判断部121Aaと同様である。すなわち、ユーザ認証が完了すると、第2音声合成可否判断部127Aaは、合成データB23を生成すべきと判断する。そして、第2音声合成部127Aは、合成データB23を生成する。一方、ユーザ認証が完了しなければ、第2音声合成可否判断部127Aaは、合成データB23を生成すべきでないと判断する。そして、第2音声合成部127Aは、合成データB23を生成しない。
第2音声合成部127Aを採用した場合には、たとえば、先に説明した図5に示すフローチャートのステップS107において、図14に示す処理が実行される。
ステップS107において、先に図5を参照して説明したステップS107aの処理が実行される。具体的に、端末100は、第2の音声の符号化系列を復号する(ステップS107a)。
次に、端末100は、第3の音声の合成可否を判断する(ステップS107c)。具体的に、第2音声合成可否判断部127Aaが、ユーザ認証が完了したか否かに基づいて、通話音声V2と第3音声V3との合成データB23を合成すべきか否か判断する。そして、合成データB23を合成すべきと判断された場合には、先に図8を参照して説明したステップS107bの処理(復号した第2の音声と第3の音声を合成する)が実行される。すなわち、端末100は、復号した第2の音声と第3の音声を合成する(ステップS107b)。なお、合成データB23を生成すべきでないと判断された場合には、ステップS107bの処理はスキップしてよい。その場合、その後のステップS108(図5)において、通話音声V2のみが出力される。
第2音声合成部127Aによれば、ユーザ認証が完了した場合にのみ、通話音声V2と第3音声V3との合成データB23を生成することができる。これによっても、たとえば、通話中に不用意に第3音声V3を発生させてしまうことを防ぐことができる。
[第1および第2音声合成部の変形例]
図12は、第1音声合成部121(図2)および第2音声合成部127(図6)の変形例を示す図である。
図12に示す第1音声合成部121Aは、第1音声合成可否判断部121Aaの判断結果に応じて合成データB13を生成し、第2音声合成部127Aは、第2音声合成可否判断部127Aaの判断結果に応じて合成データB23を生成する。第1音声合成部121Aについては先に図10を参照して説明したとおりであり、第2音声合成部127Aについては先に図11を参照して説明したとおりである。
ここで、第1音声合成可否判断部121Aaおよび第2音声合成可否判断部127Aaは、合成データ(B13またはB23)を生成すべきか判断する機能を有する点で共通する。したがって、第1音声合成可否判断部121Aaおよび第2音声合成可否判断部127Aaの一方の機能を、他方の機能に包含させてもよい。これにより、第1音声合成可否判断部121Aaおよび第2音声合成可否判断部127Aaのいずれかを省略した構成とすることができる。
また、第1音声合成可否判断部121Aaおよび第2音声合成可否判断部127Aaは、端末100の外部に設けられてもよい。たとえば、第1音声合成可否判断部121Aaおよび第2音声合成可否判断部127Aaの機能を、外部サーバで実現してもよい。その場合には、端末100が外部サーバにアクセスすることによって、合成データ(B13またはB23)を生成すべきか否かが判断される。
第1音声合成部121Aおよび第2音声合成部127Aを採用した場合には、たとえば、先に説明した図5に示すフローチャートのステップS104において、先に説明した図13に示すフローチャートが実行される。また、図5に示すフローチャートのステップS107において、先に説明した図14に示すフローチャートが実行される。
図12に示す第1音声合成部121Aおよび第2音声合成部127Aの構成によっても、たとえば、通話中に不用意に第3音声V3を発生させてしまうことを防ぐことができる。
上述の第1音声合成部121および121A、第2音声合成部127および127Aは、第3音声V3を合成した際に、合成が行われたことを通知する音声をさらに合成してもよい。あるいは、合成が行われたことを通知する情報を第2の端末に送信してもよい。
上述の第1音声合成可否判断部121Aa、および第2音声合成可否判断部127Aaは、第3音声V3を解析し、法的あるいは倫理的に問題があるパターン、あるいは特定のユーザに不適切なパターンを含まない音声のみを合成すべきと判断しても良い。さらに、上述の第1音声合成部121A、第2音声合成部127Aは、合成データを生成すべきでないと判断された場合、合成処理をスキップする代わりに、警告音を合成してもよい。
[第2実施形態]
図15は、第2実施形態に係る通話システム10Aの機能ブロックを示す図である。通話システム10Aでは、第1の通話装置である端末100A(第1端末)と、サーバ300と、第2の通話装置である端末200(第2端末)とによって、ユーザ1とユーザ2との音声通話が実現される。この通話システム10Aでは、第3音声V3がサーバ300で保持される。
端末100Aは、端末100(図2)と比較して、第3音声保持部140を含まない一方で、合成指示送信部170と、第3音声受信部180と、第3音声復号部190とを含む点において相違する。合成指示送信部170、第3音声受信部180、および第3音声復号部190は、サーバ300にアクセスすることによって第3音声V3を取得する取得手段として機能する。
まず、端末100に含まれる部分のうち、合成指示送信部170について説明する。
合成指示送信部170は、合成指示信号CMを、サーバ300の合成指示受信部310に送信する部分である。なお、合成指示送信部170は、合成指示信号CMに対して符号化等の処理を実行してから送信してもよい。
次に、サーバ300について説明すると、サーバ300は、合成指示受信部310と、第3音声符号化部320と、第3音声送信部330と、第3音声保持部340とを含む。
合成指示受信部310は、端末100Aの合成指示送信部170から送信された合成指示信号CMを受信する部分である。受信した合成指示信号CMは、第3音声符号化部320に送信される。なお、合成指示送信部170が合成指示信号CMに対して符号化等の処理を実行してから送信した場合は、合成指示受信部310は、それに対応する復号等の処理も実行する。
第3音声符号化部320は、合成指示受信部310が受信した合成指示信号CMに応じた第3音声V3を後述の第3音声保持部340から取得し、取得した第3音声V3を符号化する部分である。
第3音声送信部330は、第3音声符号化部320によって符号化された第3音声V3(つまり符号化系列C3)を、端末100Aの第3音声受信部180に送信する部分である。
第3音声保持部340は、先に図2を参照して説明した第3音声保持部140と同様に、種々の第3音声V3のデータを保持(記憶)する部分(記憶手段)である。
次に、端末100Aに含まれる部分のうち、第3音声受信部180と、第3音声復号部190とについて説明する。
第3音声受信部180は、サーバ300の第3音声送信部330から送信された符号化系列C3を受信する部分である。
第3音声復号部190は、第3音声受信部180が受信した符号化系列C3を復号する部分である。復号された符号化系列C3(つまり第3音声V3)は、第1音声合成部121に送信される。
通話システム10Aのその他の部分については、先に図2を参照して説明した通話システム10の対応する部分と同様であるので、説明を省略する。
次に、図16を参照して、通話システム10Aの動作について説明する。図16は、通話システム10Aにおいて実行される処理の一例を示すフローチャートである。このフローチャートの処理は、端末100Aのユーザ1と、端末200のユーザ2との通話中に実行される。
はじめに、先に図5を参照して説明したステップS101およびステップS102と同様の処理が実行される。すなわち、端末100Aにおいて、第1の音声を入力し(ステップS301)、合成指示を入力する(ステップS302)。
さらに、端末100Aは、合成指示を送信する(ステップS303)。具体的に、合成指示送信部170が、合成指示信号CMを、サーバ300の合成指示受信部310に送信する。
なお、上記ステップS301〜S303の処理については、ステップS301の処理が実行された後にステップS302およびステップS303の処理が実行されてもよいし、ステップS302およびステップS303の処理が実行された後に、ステップS301の処理が実行されてもよい。
次に、サーバ300は、合成指示を受信する(ステップS401a)。具体的に、合成指示受信部310が、端末100Aの合成指示送信部170から送信された合成指示信号CMを受信する。
次に、サーバ300は、第3の音声を読み込む(ステップS402)。具体的に、第3音声符号化部320が、合成指示信号CMに応じた第3音声V3を、第3音声保持部340から取得する。
次に、サーバ300は、第3の音声を符号化する(ステップS403)。具体的に、第3音声符号化部320が、第3音声V3を符号化し、符号化系列C3とする。
次に、サーバ300は、符号化系列を送信する(ステップS404)。具体的に、第3音声送信部330が、符号化系列C3を、端末100Aの第3音声受信部180に送信する。
次に、端末100Aは、符号化系列を受信する(ステップS304)。具体的に、第3音声受信部180が、サーバ300の第3音声送信部330から送信された符号化系列C3を受信する。
次に、端末100Aは、第3の音声の符号化系列を復号する(ステップS305)。具体的に、第3音声復号部190が、符号化系列C3を復号する。
次に、先に図5を参照して説明したステップS104a〜S104cおよびステップS105と同様の処理が実行される。すなわち、端末100Aは、第1の音声と復号した第3の音声を合成し(ステップS306a)、調整処理を実行し(ステップS306b)、合成した音声を符号化し(ステップS306c)、符号化系列を送信する(ステップS307)。
次に、先に図5を参照して説明したステップS201〜S205の処理が実行される。すなわち、端末200は、符号化系列を受信し(ステップS201)、合成した音声の符号化系列を復号し(ステップS202)、音声を出力し(ステップS203)、第2の音声を符号化し(ステップS204)、符号化系列を送信する(ステップS205)。
次に、先に図5を参照して説明したステップS106〜S108と同様の処理が実行される。すなわち、端末100Aは、符号化系列を受信し(ステップS308)、第2の音声の符号化系列を復号し(S309a)、音声を出力する(ステップS310)。
次に、端末100Aの作用効果について説明する。端末100Aは、サーバ300にアクセスすることによって、第3音声V3を取得する(ステップS303,S304)。この処理は、合成指示送信部170、第3音声受信部180および第3音声復号部190等の取得手段によって実行される。サーバ300では、端末100Aよりも多くのデータを保持することが容易である。第3音声V3をサーバ300が保持することによって、たとえば、端末100Aが第3音声V3を保持しておく場合よりも、より多くの音を第3音声V3として選択することができる。
[合成指示受信部の変形例]
図17は、合成指示受信部310(図15)の変形例を示す図である。図17に示す合成指示受信部310Aは、合成可否判断部310Aaの判断結果に応じて、合成指示信号CMを第3音声符号化部320に送信する。
合成可否判断部310Aaは、第3音声V3を端末100Aに送信すべきか否かを判断する。この判断は、先に説明した図10の第1音声合成可否判断部121Aaと同様に、ユーザ認証の完了の有無に応じて行うことができる。ユーザ認証が完了すると、合成可否判断部310Aaは、第3音声V3を端末100Aに送信すべきと判断する。そして、合成指示受信部310Aは、合成指示信号CMを第3音声符号化部320に送信する。一方、ユーザ認証が完了しなければ、合成可否判断部310Aaは、第3音声V3を端末100Aに送信すべきでないと判断する。そして、合成指示受信部310Aは、合成指示信号CMを第3音声符号化部320に送信しない。なお、ユーザ認証のための情報(ユーザIDなど)は、たとえば合成指示信号CMと同様にして、端末100Aからサーバ300に送信することができる。
上述の合成可否判断部310Aaは、第3音声V3を解析し、法的あるいは倫理的に問題があるパターン、あるいは特定のユーザに不適切なパターンを含まない音声のみを合成すべきと判断しても良い。さらに、上述の合成指示受信部310Aは、合成データを生成すべきでないと判断された場合、合成指示信号CMを第3音声符号化部320に送信しない代わりに、警告音等の第3音声V3を合成しないことを示す音を合成するための指示を行ってもよい。
この変形例の合成指示受信部310Aによれば、たとえば、先に説明した図16に示すフローチャートのステップS401において、図18に示す処理が実行される。
ステップS401において、先に説明した図18のステップS401aの処理が実行される。すなわち、サーバ300は、合成信号を受信する(ステップS401a)。この処理は、合成指示受信部310Aによって実行される。
そして、サーバ300は、第3の音声の合成可否を判断する(ステップS401b)。具体的に、合成可否判断部310Aaが、ユーザ認証が完了したか否かに基づいて、第3音声V3を端末100Aに送信すべきか否かを判断する。送信すべきと判断された場合には、先に図16を参照して説明したステップS402以降の処理が実行される。すなわち、サーバ300は、第3の音声を読み込み(ステップS402)、第3の音声を符号化し(ステップS403)、符号化系列を送信する(ステップS404)。なお、第3音声V3を端末100Aにすべきでないと判断された場合には、サーバ300から端末100Aには第3音声V3は送信されない。その場合には、たとえば後のステップS306c(図16)において通話音声V1のみが符号化される。
この変形例の合成指示受信部310Aによれば、ユーザ認証が完了した場合にのみ、通話音声V1と第3音声V3との合成データを生成することができる。そのため、たとえば、通話中に不用意に第3音声V3を発生させてしまうことを防ぐことができる。
[音声合成部の第1変形例]
端末100Aにおいても、先に図6を参照して説明した音声合成部120Aを採用することもできる。音声合成部120Aの詳細については、先に図6および図8を参照して説明したので、ここでは説明を省略する。
[音声合成部の第2変形例]
また、端末100Aにおいても、先に図7を参照して説明した音声合成部120Bを採用することもできる。音声合成部120Bの詳細については、先に図7および図9を参照して説明したので、ここでは説明を省略する。
[第1音声合成部の変形例]
また、端末100Aにおいても、先に図10を参照して説明した第1音声合成部121Aを採用することもできる。第1音声合成部121Aの詳細については、先に図10および図13を参照して説明したので、ここでは説明を省略する。
[第2音声合成部の変形例]
また、端末100Aにおいても、先に図11を参照して説明した第2音声合成部127Aを採用することもできる。第2音声合成部127Aの詳細については、先に図11および図14を参照して説明したので、ここでは説明を省略する。
[第1および第2音声合成部の変形例]
また、端末100Aにおいても、先に図12を参照して説明した第1音声合成部121Aおよび第2音声合成部127Aを採用することもできる。これについても先に図12を参照して説明したので、ここでは説明を省略する。
[第3実施形態]
図19は、第3実施形態に係る通話システム10Bの機能ブロックを示す図である。通話システム10Bでは、第1の通話装置である端末100B(第1端末)と、サーバ400と、第2の通話装置である端末200B(第2端末)とによって、ユーザ1とユーザ2との音声通話が実現される。通話システム10Bでは、通話音声V1と第3音声V3との合成データB13を生成するための処理が、主にサーバ400で実行される。
端末100Bは、端末100(図2)と比較して、第1音声合成部121を含まない一方で、第2音声受信部150に代えて第4音声受信部195を含み、さらに合成指示送信部170を含む点において相違する。
まず、端末100Bに含まれる部分のうち、合成指示送信部170について説明する。通話システム10Bにおいて、合成指示送信部170は、合成指示信号CMを、サーバ400の合成指示受信部410に送信する。
次に、サーバ400について説明すると、サーバ400は、合成指示受信部410と、第1音声受信部420と、音声合成部430と、第3音声保持部440と、第3音声送信部450と、第2音声受信部460と、第4音声送信部470とを含む。
まず、サーバ400に含まれる部分のうち、合成指示受信部410、第1音声受信部420、音声合成部430、第3音声保持部440、および第3音声送信部450について説明する。
合成指示受信部410は、端末100Bの合成指示送信部170から送信された合成指示信号CMを受信する部分である。
第1音声受信部420は、端末100Bの第1音声送信部130から送信された符号化系列C1を受信する部分である。
音声合成部430は、音声を合成する部分であり、第1音声復号部431と、第1音声合成部432と、第3音声符号化部433とを含む。
第1音声復号部431は、第1音声受信部420が受信した符号化系列C1を復号する部分である。
第1音声合成部432は、合成指示信号CMに基づいて、第3音声V3を後述の第3音声保持部440から取得し、通話音声V1と第3音声V3との合成データB13を生成する部分(合成手段)である。
第3音声符号化部433は、第1音声合成部432によって生成された合成データB13を符号化する部分である。ここで、図4を参照して、第3音声符号化部433の詳細について説明すると、図4に示すように、第3音声符号化部433は、データ調整部433aと、音声信号符号化部433bとを含む。データ調整部433aは、合成データB13(あるいは通話音声V1)を調整するための調整処理を実行する部分(データ調整手段)である。データ調整部433aによる調整処理は、先に説明したデータ調整部122aと同様に実行される。すなわち、データ調整部433aは、符号化モード設定部433axおよび音声調整部433ayを含み、それらは、先に説明した符号化モード設定部122axおよび音声調整部122ayと同様の機能を有する。また、音声信号符号化部433bは、データ調整部433aの調整結果を受けて通話音声V1および合成データB13を符号化する部分(符号化手段)である。
再び図19に戻り、第3音声保持部440は、先に図2を参照して説明した第3音声保持部140と同様に、種々の第3音声V3のデータを保持(記憶)する部分(記憶手段)である。したがって、第3音声V3は、通話音声V1および通話音声V2のうち少なくとも一方に加工処理などを施した音声を利用してもよい。加工処理などを施される通話音声は、現在の通話音声でもよく、過去の通話音声でもよい。
第3音声送信部450は、第3音声符号化部433によって符号化された合成データB13(符号化系列C13)を、端末200の第3音声受信部270に送信する部分である。
次に、端末200Bについて説明すると、端末200Bは、端末200(図2,図15)と比較して、第1音声受信部210に代えて第3音声受信部270を含む点において相違する。
第3音声受信部270は、サーバ400の第3音声送信部450から送信される符号化系列C13を受信する部分である。第3音声受信部270が受信した符号化系列C13は、第1音声復号部220によって復号されて合成データB13とされる。合成データB13は第1音声出力部230によって、通話音声V1および第3音声V3として出力される。
また、端末200Bにおいて、第2音声入力部240に通話音声V2が入力されると、通話音声V2が第2音声符号化部250によって符号化されて符号化系列C2とされる。符号化系列C2は、第2音声送信部260によって、サーバ400の第2音声受信部460に送信される。
次に、サーバ400に含まれる部分のうち、第2音声受信部460および第4音声送信部470について説明する。
第2音声受信部460は、端末200Bの第2音声送信部260から送信された符号化系列C2を受信する部分である。
第4音声送信部470は、第2音声受信部460が受信した第2音声のデータを、符号化系列C4として端末100Bの第4音声受信部195に送信する部分である。なお、符号化系列C2および符号化系列C4は同じあってもよいし、異なっていてもよい。符号化系列C2および符号化系列C4が同じである場合には、第3音声送信部450は、第2音声受信部460が受信した符号化系列C2をそのまま端末100Bの第4音声受信部195に送信する。符号化系列C2と符号化系列C4とが異なる例については、後に図21〜図24を参照して説明する。
本実施形態においては、第2音声受信部460および第4音声送信部470はサーバ400になくてもよい。すなわち、サーバ400とは異なるサーバにあってもよいし、第2音声送信部260から送信された符号化系列C2を、そのまま端末100Bの第4音声受信部195が受信してもよい。
次に、端末100Bに含まれる部分のうち、第4音声受信部195について説明する。
第4音声受信部195は、後述のサーバ400の第4音声送信部470からの音声データを受信する部分である。
次に、図20を参照して、通話システム10Bの動作について説明する。図20は、通話システム10Bにおいて実行される処理の一例を示すフローチャートである。このフローチャートの処理は、端末100Bのユーザ1と、端末200Bのユーザ2との通話中に実行される。
はじめに、先に図5を参照して説明したステップS101と同様の処理が実行される。すなわち、端末100Bにおいて、第1の音声を入力する(ステップS501)。
次に、端末100Bは、第1の音声を符号化する(ステップS502)。具体的に、第1音声符号化部122が、先のステップS501において入力された通話音声V1を符号化する。
次に、符号化系列を送信する(ステップS503)。具体的に、第1音声送信部130が、符号化系列C1を、サーバ400の合成指示受信部410に送信する。
また、先に図5を参照して説明したステップS102と同様の処理が実行される。具体的に、端末100Bにおいて、合成指示を入力する(ステップS504)。
次に、端末100Bは、合成指示を送信する(ステップS505)。具体的に、合成指示送信部170が、合成指示信号CMを、サーバ400の合成指示受信部410に送信する。
なお、上記ステップS501〜S505の処理については、ステップS501〜S503の処理が実行された後にステップS504およびステップS505の処理が実行されてもよいし、ステップS504およびステップS505の処理が実行された後に、ステップS501〜S503の処理が実行されてもよい。
次に、サーバ400は、符号化系列を受信する(ステップS601)。具体的に、第1音声受信部420が、端末100Bの第1音声送信部130から送信された符号化系列C1を受信する。
また、サーバ400は、合成指示を受信する(ステップS602)。具体的に、合成指示受信部410が、端末100Bの合成指示送信部170から送信された合成指示信号CMを受信する。
次に、サーバ400は、第3の音声を読み込む(ステップS603)。具体的に、第1音声合成部432が、合成指示信号CMに基づいて、第3音声V3を第3音声保持部440から取得する。
次に、サーバ400は、第1の音声の符号化系列を復号する(ステップS604a)。具体的に、第1音声復号部431が、符号化系列C1を復号する。
次に、サーバ400は、復号した第1の音声と第3の音声を合成する(ステップS604b)。具体的に、第1音声合成部432が、通話音声V1と第3音声V3との合成データB13を生成する。
次に、サーバ400は、調整処理を実行する(ステップS604c)。具体的に、データ調整部433a(図4)が、合成データB13を調整するための調整処理を実行する。
次に、サーバ400は、合成した音声を復号化する(ステップS604d)。具体的に、第3音声符号化部433が、先のステップS604cにおける調整結果を受けて、合成データB13を符号化する。
そして、サーバ400は、符号化系列を送信する(ステップS605)。具体的に、第3音声送信部450が、符号化系列C13を、端末200Bの第3音声受信部270に送信する。
次に、端末200Bは、符号化系列を受信する(ステップS701)。具体的に、第3音声受信部270が、符号化系列C13を受信する。
次に、先に図5を参照して説明したステップS202〜S205と同様の処理が実行される。すなわち、端末200Bは、合成した音声の符号化系列を復号し(ステップS702)、音声を出力する(ステップS703)。また、端末200Bは、第2の音声を符号化し(ステップS704)、符号化系列を送信する(ステップS705)。
次に、サーバ400は、符号化系列を受信する(ステップS606)。具体的に、第2音声受信部460が、符号化系列C2を受信する。
そして、サーバ400は、符号化系列を送信する(ステップS608)。具体的に、第4音声送信部470が、符号化系列C4を、端末100Bの第4音声受信部195に送信する。
その後、先に図5を参照して説明したステップS106〜S108と同様の処理が実行される。すなわち、端末100Bは、符号化系列を受信し(ステップS506)、第2の音声の符号化系列を復号し(ステップS507)、音声を出力する(ステップS507)。
次に、通話システム10Bの作用効果について説明する。通話システム10Bでは、サーバ400において、第1音声合成部432が、端末100Bから送信される通話音声V1および合成指示信号CMに基づいて、第3音声V3と通話音声V1との合成データB13を生成し(ステップS604b)、データ調整部433aが、通話音声V1および合成データB13を調整するための調整処理を実行し(ステップS604c)、音声信号符号化部433bが、データ調整部433aの調整結果を受けて通話音声V1および合成データB13を符号化して符号化系列C13とし(ステップS604d)、第3音声送信部450が、符号化系列C13を出力(送信)する(ステップS605)。通話システム10Bによれば、合成データB13を生成するための合成処理をサーバ300で実行するので、たとえば、端末100Bで合成処理を実行する場合よりも、端末100Bにおける第3音声V3の受信や合成にかかる演算負荷を抑制して使用時間を延ばすことができる。また、合成前に第3音声V3を送信するために必要な符号化処理に伴う音質低下を避けることができ、これにより高音質なまま第3音声の合成を行うことができる。
[音声合成部の第1変形例]
図21は、音声合成部430(図19)の変形例を示す図である。図19に示す音声合成部430Aは、音声合成部430(図19)と比較して、第1音声復号部431と、第1音声合成部432と、第3音声符号化部433とを含まない一方で、第2音声復号部436と、第2音声合成部437と、第4音声符号化部438とを含む点において相違する。
第2音声復号部436は、第2音声受信部460が受信した符号化された通話音声V2(つまり符号化系列C2)を復号する部分である。
第2音声合成部437は、通話音声V2と、第3音声V3との合成データB23を生成する部分である。
第4音声符号化部438は、第2音声合成部437によって生成された合成データB23を符号化する部分である。ここで、図4を参照して、第4音声符号化部438の詳細について説明すると、図4に示すように、第4音声符号化部438は、データ調整部438aと、音声信号符号化部438bとを含む。データ調整部438aは、合成データB23(あるいは通話音声V2)を調整するための調整処理を実行する部分(データ調整手段)である。データ調整部438aによる調整処理は、先に説明したデータ調整部122aと同様に実行される。すなわち、データ調整部438aは、符号化モード設定部438axおよび音声調整部438ayを含み、それらは、先に説明した符号化モード設定部122axおよび音声調整部122ayと同様の機能を有する。
本変形例においては、第1音声受信部420および第3音声送信部450はサーバ400になくてもよい。すなわち、サーバ400とは異なるサーバにあってもよいし、第1音声送信部130から送信された符号化系列C1を、そのまま端末200Bの第3音声受信部270が受信してもよい。
この変形例の音声合成部430Aによれば、たとえば、先に説明した図20に示すフローチャートのステップS603およびステップS607において、図23に示す処理が実行される。
ステップS603においてサーバ400が第3の音声を読み込むと、サーバ400は、ステップS605に処理を進める。つまり、ステップS604では何ら処理が実行されない。また、ステップS603において読み込まれた第3の音声は、その後のステップS607において用いられる。
ステップS607において、まず、サーバ400は、第2の音声の符号化系列を復号する(ステップS607a)。具体的に、第2音声復号部436が、符号化系列C2を復号する。
次に、サーバ400は、復号した第2の音声と第3の音声を合成する(ステップS607b)。具体的に、第2音声合成部437が、通話音声V2と、先のステップS603において読み込まれた第3音声V3との合成データB23を生成する。
次に、サーバ400は、調整処理を実行する(ステップS607c)。具体的に、データ調整部438aが、合成データB23を調整するための調整処理を実行する。
次に、サーバ400は、合成した音声を符号化する(ステップS607d)。具体的に、音声信号符号化部438bが、データ調整部438aの調整結果を受けて、合成データB23を符号化する。
この変形例の音声合成部430Aによれば、ユーザ1は、ユーザ2の通話音声V2だけでなく、第3音声V3も聞くことができる。これにより、ユーザ1は、自身が選択した第3音声V3を確認することができる。たとえば、音声合成部430と音声合成部430Aを切り替えて使用することで、ユーザ1が通話音声V1に第3音声V3を合成する前に、第3音声V3をプレビューすることができる。
[音声合成部の第2変形例]
図22は、音声合成部430(図19)の別の変形例を示す図である。図22に示す音声合成部430Bは、先に図19を参照して説明した音声合成部430の構成要素である第1音声復号部431と、第1音声合成部432と、第3音声符号化部433とを含み、さらに、先に図21を参照して説明した音声合成部430Aの構成要素である第2音声復号部436と、第2音声合成部437と、第4音声符号化部438とを含む。
この変形例の音声合成部430Bによれば、たとえば、先に説明した図20に示すフローチャートのステップS604およびステップS607において、図24に示す処理が実行される。
ステップS604において、まず、サーバ400は、第1の音声の符号化系列を復号する(ステップS604a)。具体的に、第1音声復号部431が、符号化系列C1を復号する。
次に、サーバ400は、復号した第1の音声と第3の音声を合成する(ステップS604b)。具体的に、第1音声合成部432が、通話音声V1と第3音声V3との合成データを生成する。
次に、サーバ400は、調整処理を実行する(ステップS604c)。具体的に、データ調整部433a(図4)が、合成データB13を調整するための調整処理を実行する。
次に、サーバ400は、合成した音声を符号化する(ステップS604d)。具体的に、第3音声符号化部433が、データ調整部433aの調整結果を受けて、合成データB13を符号化する。
また、ステップS607において、先に図23を参照して説明したステップS607a〜S607dの処理が実行される。すなわち、サーバ400は、第2の音声の符号化系列を復号し(ステップS607a)、復号した第2の音声と第3の音声を合成し(ステップS607b)、調整処理を実行し(ステップS607c)、合成した音声を符号化する(ステップS607d)。
この変形例の音声合成部430Bによれば、ユーザ2はユーザ1の通話音声V1および第3音声V3を聞くことができ、また、ユーザ1はユーザ2の通話音声V2および第3音声V3を聞くことができる。
[第1音声合成部の変形例]
サーバ400において、第1音声合成部432(図19)の変形例として図10に示す第1音声合成部432Aを採用することができる。すなわち、第1音声合成部432Aは、第1音声合成可否判断部432Aaの判断結果に応じて、合成データB13を生成する。詳細については、先に図10および図13を参照して説明した第1音声合成部121Aおよび第1音声合成可否判断部121Aaと同様であるので、ここでは説明を省略する。
[第2音声合成部の変形例]
また、サーバ400において、図11に示す第2音声合成部437Aを採用することもできる。すなわち、第2音声合成部437Aは、第2音声合成可否判断部437Aaの判断結果に応じて、合成データB23を生成する。詳細については、先に図11および図14を参照して説明した第2音声合成部127Aおよび第2音声合成可否判断部127Aaと同様であるので、ここでは説明を省略する。
[第2音声合成部の変形例]
また、サーバ400において、図12に示すように、第1音声合成部432Aおよび第2音声合成部437Aを採用することもできる。詳細については、先に図11〜図14を参照して説明した第1音声合成部121Aおよび第2音声合成部127Aと同様であるので、ここでは説明を省略する。
本発明は、上述した実施形態に限定されるものではない。各実施形態および各変形例の特徴部分を適宜組み合わせた構成についても、本発明の実施形態とすることができる。
10,10A,10B…通話システム、100,100A,100B,200,200B…端末、120,120A,120B,430,430A,430B…音声合成部、300,400…サーバ。

Claims (8)

  1. 話者の音声を入力する入力手段と、
    ユーザ操作に基づいて、前記入力手段によって入力された話者の音声と、前記話者の音声とは異なる第3の音との合成データを生成する合成手段と、
    前記話者の音声データと、前記第3の音のデータと、前記合成手段によって生成された合成データと、のうち少なくとも一つの特徴に応じて前記話者の音声データおよび前記合成データを符号化する符号化手段と、
    前記符号化手段によって符号化されたデータを出力する出力手段と、
    を備える、通話装置。
  2. 前記符号化手段は、前記特徴に応じて、符号化するための複数の符号化モードのうち、実行すべき符号化モードを設定し、設定された符号化モードに基づき、前記話者の音声および前記合成データを符号化する、
    請求項1に記載の通話装置。
  3. 前記複数の符号化モードは、それぞれ異なる符号化アルゴリズムを用いた符号化に対応し、
    前記符号化手段は、前記第3の音に応じて前記符号化モードを設定する、
    請求項2に記載の通話装置。
  4. 前記複数の符号化モードは、間欠送信を行うモードと連続送信を行うモードとに対応し、
    前記符号化手段は、前記第3の音が合成された場合には連続送信を行うモードを設定する、
    請求項2に記載の通話装置。
  5. 前記出力手段は、前記符号化手段によって前記合成データが符号化された場合には連続送信を行う、請求項1〜4のいずれか1項に記載の通話装置。
  6. サーバにアクセスすることによって前記第3の音を取得する取得手段をさらに備える、請求項1〜5のいずれか1項に記載の通話装置。
  7. 第1の通話装置と、
    前記第1の通話装置と音声通話を行う第2の通話装置と、
    前記第1の通話装置および前記第2の通話装置と通信可能に構成されたサーバと、
    を備え、
    前記サーバは、
    前記第1の通話装置から送信される話者の音声および前記第1の通話装置からの指示に基づいて、前記話者の音声とは異なる第3の音と前記話者の音声との合成データを生成する合成手段と、
    前記話者の音声データと、前記第3の音のデータと、前記合成手段によって生成された合成データと、のうち少なくとも一つの特徴に応じて前記話者の音声データおよび前記合成データを符号化する符号化手段と、
    前記符号化手段によって符号化されたデータを前記第2の通話装置に出力する出力手段と、
    を有する、
    通話システム。
  8. 通話装置によって実行される通話方法であって、
    話者の音声を入力するステップと、
    ユーザ操作に基づいて、前記入力するステップにおいて入力された話者の音声と、前記話者の音声とは異なる第3の音との合成データを生成するステップと、
    前記話者の音声データと、前記第3の音のデータと、前記生成するステップにおいて生成された合成データと、のうち少なくとも一つの特徴に応じて前記話者の音声データおよび前記合成データを符号化するステップと、
    前記符号化するステップにおいて符号化されたデータを出力するステップと、
    を備える、通話方法。
JP2014265437A 2014-12-26 2014-12-26 通話装置、通話システムおよび通話方法 Pending JP2016127367A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014265437A JP2016127367A (ja) 2014-12-26 2014-12-26 通話装置、通話システムおよび通話方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014265437A JP2016127367A (ja) 2014-12-26 2014-12-26 通話装置、通話システムおよび通話方法

Publications (1)

Publication Number Publication Date
JP2016127367A true JP2016127367A (ja) 2016-07-11

Family

ID=56358182

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014265437A Pending JP2016127367A (ja) 2014-12-26 2014-12-26 通話装置、通話システムおよび通話方法

Country Status (1)

Country Link
JP (1) JP2016127367A (ja)

Similar Documents

Publication Publication Date Title
US9940923B2 (en) Voice and text communication system, method and apparatus
JP4110726B2 (ja) 聴力補正式の携帯電話機
US7974392B2 (en) System and method for personalized text-to-voice synthesis
JP2009020291A (ja) 音声処理装置および通信端末装置
CN102067210B (zh) 用于对音频信号进行编码和解码的设备和方法
US20080183755A1 (en) Methods for storing an alert file by converting the alert file to a lower complexity file format and using the converted alert file to generate an alert and related electronic devices and computer program products
US8213985B2 (en) Mobile communication terminal supporting TTY device for hard-of-hearing or speech-disabled person and communication method thereof
US20070282613A1 (en) Audio buddy lists for speech communication
US20020111705A1 (en) Audio System
JP2016127367A (ja) 通話装置、通話システムおよび通話方法
KR20090027817A (ko) 배경음 출력 방법 및 이를 이용하는 이동통신 단말기
JP5136823B2 (ja) 定型メッセージ機能付きPoCシステム、通信方法、通信プログラム、端末、PoCサーバ
KR100918571B1 (ko) 통화중 배경음악을 P2P 방식으로 제공하는 VoIP통신 시스템
KR20040075441A (ko) 음성 출력의 스위칭이 가능한 이동통신 단말기와 그에따른 동시 서비스 이용시의 음성 처리 방법
JP2016146526A (ja) 通話装置、通話システムおよび通話方法
JP2010109609A (ja) 通信装置、効果音出力制御プログラム及び効果音出力制御方法
CN113571072B (zh) 一种语音编码方法、装置、设备、存储介质及产品
JP2004343566A (ja) 移動電話端末及びプログラム
US20150327035A1 (en) Far-end context dependent pre-processing
JP4127274B2 (ja) 電話音声認識システム
US20040266487A1 (en) Voice signal processing methods and systems
JPWO2007049777A1 (ja) 携帯電話機、該携帯電話機に用いられるコーデック回路及び受話音量自動調整方法
CN116261127A (zh) 一种耳机间的通信方法、装置、电子设备及存储介质
JP2017188776A (ja) 通信装置
KR20060107711A (ko) 이동 단말의 통화 배경음 제공 방법 및 시스템