JP2008040431A

JP2008040431A - 音声加工装置

Info

Publication number: JP2008040431A
Application number: JP2006218420A
Authority: JP
Inventors: Akane Noguchi; あかね野口; Takuro Sone; 卓朗曽根
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2006-08-10
Filing date: 2006-08-10
Publication date: 2008-02-21

Abstract

【課題】話者の意思の伝達を補うことのできる技術を提供する。
【解決手段】端末装置１の指示データ記憶領域１２２には、音声データの加工内容を示す指示データが記憶される。端末装置１の使用者は、操作部１４を操作してこの指示データの内容を更新することができる。制御部１１は、この指示データに基づいて、音声データを加工する。具体的には、制御部１１は、指示データの「抑揚」の項目の値に基づいて、音声データの各音素毎のピッチについて、所定の基準値に対する各ピッチの振れ幅が増幅するように、ピッチの変更量を音素毎に決定する。次いで、制御部１１は、決定した音素毎のピッチの変更量に基づいて、音声データのピッチを音素毎に変更し、出力する。
【選択図】図１

Description

本発明は、音声加工装置に関する。

近年、ネットワークを介した電話会議システムが普及している。このようなシステムによれば、遠隔地にいる者同士で会議を行うことができる。このように音声伝達を行うシステムにおいて、話し方に抑揚のついたより自然な音声レベルでの会話を行うことを目的として、特許文献１には、音声のレベル（音量）を調節する方法が提案されている。
特開平１０−３１２６７２号公報

ところで、人間の会話では、論理的な内容よりもそれ以外の部分で受け取られる部分が多いと言われている。しかし、全ての人がスピーキングの訓練を積んでいるわけではないため、上述した会議システムでの会話では、イントネーションの無い発話などで、論理的な内容が伝わりにくくなることがある。
本発明は上述した背景の下になされたものであり、話者の意思の伝達を補うことのできる技術を提供することを目的とする。

本発明の好適な態様である音声加工装置は、収音する収音手段から出力される音声データから、該音声データの表す音声のピッチを、該音声に含まれる音素毎に検出するピッチ検出手段と、前記ピッチ検出手段により検出された各音素毎のピッチについて、所定の基準値に対する各ピッチの振れ幅が増幅するように、ピッチの変更量を各音素毎に決定するピッチ変更量決定手段と、前記ピッチ変更量決定手段により決定された音素毎のピッチの変更量に基づいて、前記音声データのピッチを音素毎に変更するピッチ変更手段と、前記ピッチ変更手段により音素毎のピッチが変更された音声データを出力する出力手段とを備える。

また、本発明の好適な態様である音声加工装置は、メジャーコード又はマイナーコードの音階を表す音階データを記憶する音階データ記憶手段と、収音する収音手段から出力される音声データから、該音声データの表す音声のピッチを、該音声に含まれる音素毎に検出するピッチ検出手段と、前記ピッチ検出手段により検出された各音素毎のピッチを、前記音階データ記憶手段に記憶された音階データの表す音階にマッピングし、該マッピング結果に応じて、ピッチの変更量を該音素毎に決定するピッチ変更量決定手段と、前記ピッチ変更量決定手段により決定された音素毎のピッチの変更量に基づいて、前記音声データのピッチを音素毎に変更するピッチ変更手段と、前記ピッチ変更手段により音素毎のピッチが変更された音声データを出力する出力手段とを備える。
また、本発明の好適な態様である音声加工装置は、収音する収音手段から出力される音声データから、該音声データの表す音声のピッチを、該音声に含まれている音素毎に検出するピッチ検出手段と、前記収音手段から出力される音声データから長音の区間を検出する長音検出手段と、前記ピッチ検出手段によってピッチが検出されなくなった時点の直前の区間であって、前記長音検出手段によって長音の区間と検出されている区間を特定する区間特定手段と、前記区間特定手段により特定された区間に対応する音声データを削除する特定区間削除手段と、前記特定区間削除手段により特定区間が削除された音声データを出力する出力手段とを備える。

また、本発明の好適な態様である音声加工装置は、ダイナミックレンジを拡大する程度をダイナミックレンジ拡大値として設定するダイナミックレンジ拡大設定手段と、前記音声データの振幅値を一定のサンプリングタイミングで検出する振幅値検出手段と、前記振幅値検出手段が検出した振幅値と前記ダイナミックレンジ拡大設定手段が設定したダイナミックレンジ拡大値に基づいて、前記振幅値の変更量を算出する変更量算出手段と、前記変更量算出手段が算出した変更量に基づいて前記音声データの振幅値を変更する振幅値変更手段と、前記振幅値変更手段によって振幅値が変更された音声データを出力する出力手段とを備える。

また、本発明の好適な態様である音声加工装置は、収音する収音手段から出力される音声データの特徴と予め定められた特徴とを照合し、該照合結果に応じて、音声データのうちの前記予め定められた特徴に対応する区間の音声データを削除する区間削除手段と、前記区間削除手段により前記区間が削除された音声データを出力する出力手段とを備える。
また、上述した態様において、前記収音手段から出力される音声データの倍音成分を増幅させる倍音成分増幅手段と、前記倍音成分増幅手段により倍音成分が増幅された音声データを出力する音声データ出力手段とを備えてもよい。

本発明によれば、話者の意思の伝達を補うことができる。

以下、図面を参照して、本発明の実施形態について説明する。
＜Ａ：構成＞
まず、図１を参照して、本発明に係る音声加工装置を電話会議のために用いた形態について説明する。図１は、電話会議システムの構成の一例を示すブロック図である。この電話会議システムは、各地に設置された複数の端末装置１，１，…がネットワーク３に接続されて構成される。端末装置１は、電話会議に係る音声を加工する音声加工装置として機能する。電話会議システムの使用者は、端末装置１を用いて他の地点と電話会議を行うことができる。なお、図１においては、３つの端末装置１を図示しているが、ネットワーク３に接続される端末装置１の数は３に限定されるものではなく、これより多くても少なくてもよい。

次に、図２は、端末装置１のハードウェア構成の一例を示すブロック図である。図において、制御部１１は、ＣＰＵ（Central Processing Unit）やＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）を備え、ＲＯＭ又は記憶部１２に記憶されているコンピュータプログラムを読み出して実行することにより、端末装置１の各部を制御する。記憶部１２は、制御部１１によって実行されるプログラムやその実行時に使用されるデータを記憶するための記憶手段であり、例えばハードディスク装置である。表示部１３は、ＣＲＴ（Cathode Ray Tube）や液晶表示パネルを備え、制御部１１による制御のもとに各種の画像を表示する。操作部１４は、マウスなどのポインティングデバイスと、文字や記号を入力するためのキーボードとを備え、利用者による操作に応じた操作信号を制御部１１に出力する。通信部１８は、各端末装置１との間でネットワーク３を介した通信を行うための通信手段である。すなわち、通信部１８は、他の端末装置１から送信された音声データを受信してこれを制御部１１に出力する一方、制御部１１から供給された音声データを他の端末装置１に送信する。マイクロフォン１５は、会議に参加している者が発声した音声を収音し、音声信号（アナログデータ）を出力する。音声処理部１６は、マイクロフォン１５が出力する音声信号（アナログデータ）をデジタルデータに変換して制御部１１に出力する。スピーカ１７は、音声処理部１６でデジタルデータからアナログデータに変換され出力される音声信号に応じた強度で放音する。

記憶部１２は、図示のように、音声データ記憶領域１２１と指示データ記憶領域１２２と音階データ記憶領域１２３と無意味語音声データ記憶領域１２４とを備えている。音声データ記憶領域１２１は更に、送話音声データ記憶領域１２１ａと受話音声データ記憶領域１２１ｂとを有している。送話音声データ記憶領域１２１ａには、マイクロフォン１５から音声処理部１６を経てＡ／Ｄ変換された音声データ（以下、「送話音声データ」という）が、例えばＷＡＶＥ形式やＭＰ３（MPEG1 Audio Layer-3）形式で時系列に記憶される。受話音声データ記憶領域１２１ｂには、通信部１８によって他の端末装置１から受信された音声データ（以下、「受話音声データ」という）が記憶される。受話音声データは、例えばＷＡＶＥ形式やＭＰ３形式などの音声データである。

次に、指示データ記憶領域１２２は、送話用指示データ記憶領域１２２ａと、受話用指示データ記憶領域１２２ｂとを有している。送話用指示データ記憶領域１２２ａには、送話音声データの加工の内容を指示するための送話用指示データが記憶される。
図３は、送話用指示データの内容の一例を示す図である。送話用指示データは、図示のように、「抑揚」と「調」と「声質」と「速度」と「歯切れ」と「音量」と「無意味語削除」などの各項目を有している。これらの各項目には、利用者が操作部１４を操作することによって入力される加工の程度を示すデータ（図３に示す例では１〜５の数値）が記憶される。これらの項目のうち、「抑揚」の項目には、音声の抑揚についての加工の程度を示すデータが記憶される。「調」の項目には、調を短調に合わせるか長調に合わせるかを示すデータが記憶される。「声質」の項目には、声質についての加工の程度を示すデータが記憶される。「速度」の項目には、発話速度についての加工の程度を示すデータが記憶される。「歯切れ」の項目には、歯切れについての加工の程度を示すデータが記憶される。「音量」の項目には、音量についての加工の程度を示すデータが記憶される。「無意味語削除」の項目には、無意味語を削除するか否かを示すデータが記憶される。制御部１１は、送話用指示データ記憶領域１２２ａに記憶されている送話用指示データに基づいて、送話音声データの加工処理を行う。
また、受話用指示データ記憶領域１２２ｂには、受話音声データの加工を指示するための受話用指示データが記憶される。この受話用指示データの構成は、上述した送話用指示データのそれと同様であり、その説明を省略する。
端末装置１の利用者は、会議の最中であっても、操作部１４を操作することによって、指示データの内容をリアルタイムに変更することができる。

次に、音階データ記憶領域１２３には、メジャーコード（Ｃメジャー）の音階を表す音階データが記憶されている。この音階データは、制御部１１が音声データに対する調調整処理を行う際に参照される。
なお、この実施形態においては、Ｃメジャーの音階を表すデータを音階データとして用いた。音階データはＣメジャーに限らず、他のメジャーコードの音階を表すデータであってもよい。また、本実施形態においては、メジャーコードの音階を表す音階データを用いたが、音階データは、マイナーコードの音階を表すデータであってもよい。

次に、無意味語データ記憶領域１２４には、例えば「あー」や「えー」といった無意味語の音声を表すデータ（以下、「無意味語データ」という）が記憶されている。この無意味語データは、制御部１１が音声データに対する無意味語削除処理を行う際に参照される。

次に、図４乃至図５を参照しながら、端末装置１のソフトウェア構成について説明する。
図４は、送話音声データと受話音声データの流れを説明するための図である。図４に示す送話音声変換部１００ａ，受話音声変換部１００ｂは、制御部１１がＲＯＭ又は記憶部１２に記憶されたコンピュータプログラムを実行することによって実現される。なお、図中の矢印は、データの流れを概略的に示したものである。

図４において、送話音声変換部１００ａは、マイクロフォン１５から音声処理部１６を経てＡ／Ｄ変換された送話音声データを加工し、通信部１８に出力する。通信部１８は、加工された送話音声データを、ネットワーク３を介して他の端末装置１に送信する。
受話音声変換部１００ｂは、通信部１８が受信した受話音声データを加工し、音声処理部１６に出力する。音声処理部１６は、受話音声変換部１００ｂから出力されるデータをアナログデータに変換し、スピーカ１７に出力する。スピーカ１７は、音声処理部１６から出力される音声信号に応じた強度で放音する。
送話音声変換部１００ａ，受話音声変換部１００ｂが行う加工処理は、その処理対象となるデータが送話音声データであるか受話音声データであるかで異なるものの、音声データに対して施す処理は同様である。そのため、以下の説明においては、送話音声変換部１００ａと受話音声変換部１００ｂとを各々区別する必要がない場合には、これらを「音声変換部１００」と称して説明する。また、以下の説明においては、送話音声データと受話音声データとを各々区別する必要がない場合には、これらを「音声データ」と称して説明する。

図４に示すように、話者の音声データは、送話音声変換部１００ａで加工されて他の端末装置１に送信され、一方、他の端末装置１から受信した音声データは、受話音声変換部１００ｂで加工されて、加工された音声データに応じた音声がスピーカ１７から放音される。会議の間、これらの動作が連続して繰り返し行われる。

次に、図５に示すブロック図を参照しながら、音声変換部１００（送話音声変換部１００ａ，受話音声変換部１００ｂ）のソフトウェア構成について説明する。図５に示した分析部１１１，加工パラメータ生成部１１２，加工処理部１１３，出力部１１４は、制御部１１がＲＯＭ又は記憶部１２に記憶されたコンピュータプログラムを実行することによって実現される。なお、図中の矢印は、データの流れを概略的に示したものである。

分析部１１１は、音声データ記憶領域１２１から読み出された音声データを、所定時間長のフレーム単位でピッチ、パワー及びスペクトルを検出する。スペクトルの検出にはＦＦＴ（Fast Fourier Transform）が用いられる。また、分析部１１１は、検出したフレーム毎のピッチ、パワー及びスペクトルに基づいて、音声データを音素毎に区切り、音素毎のピッチを検出する。また、分析部１１１は、複数の音素をまとめて音節を認識する。

加工パラメータ生成部１１２は、指示データ記憶領域１２２から読み出された指示データと分析部１１１により検出された音声データのピッチ、パワー及びスペクトルとに基づいて、音声データをどのように加工するかを示す加工パラメータを生成する。
ここで、加工パラメータ生成部１１２が行う処理について、以下に詳細に説明する。
まず、「抑揚」についての加工パラメータ生成処理について説明する。加工パラメータ生成部１１２は、分析部１１１により検出された音声データのピッチについて、所定時間区間毎にモニタリングを行い、中心周波数を検出する。次いで、加工処理部１１３は、指示データに含まれる「抑揚」のパラメータに基づいて、検出した中心周波数を中心として、分析部１１１が認識した音声を構成する各音素の周波数の平均値を元に、各音素のピッチの振れ幅が大きくなるように、音素毎のピッチの変更量を決定する。すなわち、加工パラメータ生成部１１２は、分析部１１１で検出された各音素毎の周波数（ピッチ）について、中心周波数（所定の基準値）に対する各ピッチの振れ幅が増幅するように、ピッチの変更量を各音素毎に決定し、決定したピッチの変更量を示す加工パラメータを生成する。振れ幅の大きさの程度は、指示データの「抑揚」の項目が示す程度に応じて決定される。

図６（ａ）は、加工パラメータ生成部１１２が生成する加工パラメータの内容の一例を示す図である。図において、折れ線Ｌ１は元の音声のピッチ（周波数）を示し、折れ線Ｌ２は、加工パラメータ生成部１１２によって決定される変更量だけピッチが変更された状態を示す。この場合、「おはようございます」という音声において、各音素「お」，「は」，・・・の平均ピッチが４４０Ｈｚである場合には、加工パラメータ生成部１１２は、各音素のピッチが４４０Ｈｚを中心として広がるようにピッチ変更量を決定する。

なお、この場合に辞書機能を設け、辞書機能にイントネーションの変化パターンを記憶させ、音節の言葉に対応する適切なイントネーションパターンとなるように各音素のピッチを変更してもよい。

なお、この実施形態においては、ピッチの振れ幅を大きくするための所定の基準値として、所定時間区間のモニタリングを行って検出される中心周波数を用いた。基準値はこの中心周波数に限らず、例えば、図６（ｂ）に示すように、音節毎にモニタリングを行って音節毎の下限周波数を検出し、該下限周波数を基準値として周波数の振れ幅が大きくなるようにピッチの変更量を決定してもよい。

次に、「調」についての加工パラメータ生成処理について説明する。加工パラメータ生成部１１２は、指示データに含まれる「調」の項目に基づいて、分析部１１１によって検出された各音素毎のピッチを、音階データ記憶領域１２３に記憶された音階データの表す音階にマッピングし、該マッピング結果に応じて、ピッチの変更量を音素毎に決定する。
図７は、加工パラメータ生成部１１２が行うマッピング処理の一例を示す図である。図示のように、加工パラメータ生成部１１２は、音階データの表す音階（図７においてはＣメジャーコードの音階）に、音声データのピッチをマッピングする。図７において、Ａ１，Ａ２，Ａ３，…は加工前の音声データのピッチを示し、Ｂ１，Ｂ２，Ｂ４，…はピッチのマッピング結果を示す。

また、加工パラメータ生成部１１２は、指示データに含まれる「声質」のパラメータに基づいて、音声データの倍音成分の高域側のパワーを上げる。パワーを上げる程度は、指示データの「声質」のパラメータが示す程度に応じて決定される。
なお、本実施形態においては、倍音成分の高域側のパワーを上げることによって声質を調整するようにしたが、これに代えて、倍音成分を足してもよい。

また、加工パラメータ生成部１１２は、指示データに含まれる「速度」のパラメータに基づいて、音声データを時間軸に圧縮又は伸長させることによって音声の速度を変更する。また、加工パラメータ生成部１１２は、無音部分の時間長を先に検出して速度変動を制御する。

次に、「歯切れ」についての加工パラメータ生成処理について説明する。加工パラメータ生成部１１２は、音声データから長音の区間を検出する。この長音の区間の検出方法としては、同じスペクトルが連続して検出された場合に長音であると判断し、判断した区間を長音の区間として検出する。次いで、加工パラメータ生成部１１２は、分析部１１１によってピッチが検出されなくなった時点の直前の区間であって、長音の区間と検出されている区間を特定し、特定した区間を示す加工パラメータを生成する。具体的には、例えば、「あるじてんにおいてー、その・・・」という音声の場合には、「てー」という伸ばし部分にあたる区間が特定される。特定する区間の区間長は、指示データの「歯切れ」のパラメータが示す程度に応じて決定される。加工パラメータ生成部１１２は、特定した区間の音声データを削除する旨を示す加工パラメータを生成する。

また、加工パラメータ生成部１１２は、指示データに含まれる「音量」のパラメータに基づいて、加工パラメータ生成部１１２は、ダイナミックレンジを拡大する程度を示す「音量」パラメータをダイナミックレンジ拡大値として設定する。また、加工パラメータ生成部１１２は、音声データの振幅値を一定のサンプリングタイミングで検出し、検出した振幅値とダイナミックレンジ拡大値（「音量」パラメータ）とに基づいて、振幅値の変動量を算出し、算出した変動量を示すパラメータを生成する。例えば、加工パラメータ生成部１１２は、図８（ａ），（ｂ）に示すような、ダイナミックレンジＤ２をダイナミックレンジＤ１に変更するための変更量を示すパラメータを生成する。変更量の算出は、例えば、ある閾値よりも振幅値が小さい場合には３倍にするといったような、予め定められたアルゴリズムに基づいて行われる。加工パラメータ生成部１１２は、レベル検出をしながら、検出したレベルに応じた変更量を決定する。

また、加工パラメータ生成部１１２は、指示データに含まれる「無意味語削除」のパラメータに基づいて、音声データを無意味語音声データ記憶領域１２４に記憶された無意味語データとのマッチングを行い、無意味語であると判定された区間の音声データを削除する旨を示す加工パラメータを生成する。
以上が、加工パラメータ生成部１１２が行う加工処理の詳細の説明である。

加工処理部１１３は、加工パラメータ生成部１１２によって生成された加工パラメータに基づいて音声データを加工し、加工音声データを生成する。すなわち、加工処理部１１３は、加工パラメータがピッチの変更量を示すものである場合には、その加工パラメータが示す変更量に基づいて、音声データのピッチを音素毎に変更する。また、加工パラメータが区間を削除する旨を示すデータである場合には、加工処理部１１３は、その加工パラメータが示す区間に対応する音声データを削除する。また、加工処理部１１３は、加工パラメータがパワーの変更量を示すデータである場合には、その加工パラメータに基づいて、音声データのパワーを変更する。

出力部１１４は、加工処理部１１３によって生成された加工音声データを出力する。ここで、入力された音声データが送話音声データである場合は、出力部１１４は、加工送話音声データを通信部１８に出力し、一方、入力された音声データが受話音声データである場合には、出力部１１４は、加工受話音声データを音声処理部１６に出力する。

＜Ｂ：実施形態の動作＞
次に、この実施形態の動作を説明する。
まず、端末装置１の制御部１１は、送話指示データと受話指示データとの入力を促す画面を表示部１３に表示させる。
図９は、表示部１３に表示される画面の一例を示す図である。図において、Ａ１は送話音声に対する加工処理を調整するための画面であり、Ａ２は、受話音声に対する加工処理を調整するための画面である。これらの画面には、送話音声と受話音声のそれぞれについて、加工の程度を調整するためのボタンＢ１１，Ｂ１２，Ｂ１３，Ｂ１４，Ｂ１５，Ｂ１６，Ｂ１７が表示される。端末装置１の使用者は、端末装置１の操作部１４を操作して、加工内容を指示する。
操作部１４は、操作された内容に応じた操作信号を制御部１１に出力する。制御部１１は、操作部１４から出力される信号に応じて、送話用指示データを送話用指示データ記憶領域１２２ａに記憶するとともに、受話用指示データを受話用指示データ記憶領域１２２ｂに記憶する。

ここで、会議が開始されると、マイクロフォン１５は音声を収音し、また、スピーカ１７は、ネットワークを介して受信された音声データの示す音声を放音する。

ここで、まず、マイクロフォン１５で収音される音声についての処理について、図１０に示すフローチャートを参照しつつ以下に説明する。
端末装置１の利用者は、会議を行う。このとき、会議の参加者の音声はマイクロフォン１５によって収音されて音声信号に変換され、音声処理部１６へと出力される。音声処理部１６によってＡ／Ｄ変換された送話音声データは、時刻を示す情報と共に、送話音声データ記憶領域１２１ａに時系列に記憶されていく（ステップＳ１）。

送話音声データ記憶領域１２１ａに所定量の送話音声データが記憶されると、制御部１１は、送話用指示データ記憶領域１２２ａに記憶された送話用指示データに基づいて、送話音声データを加工する（ステップＳ２）。次いで、制御部１１は、加工した送話音声データを通信部１８に出力する（ステップＳ３）。通信部１８は、制御部１１から供給される送話音声データを、ネットワーク３を介して他の端末装置１に送信する。

次に、音声データの受信処理について、図１１に示すフローチャートを参照しつつ以下に説明する。
通信部１８は、他の端末装置１から送信される音声データを受信する（ステップＳ１１）。制御部１１は、通信部１８が受信した音声データを受話音声データとして受話音声データ記憶領域１２１ｂに記憶する。制御部１１は、受話用指示データ記憶領域１２２ｂに記憶された受話用指示データに基づいて、受話音声データを加工する（ステップＳ１２）。次いで、制御部１１は、加工した受話音声データを音声処理部１６に出力し、音声処理部１６は、制御部１１から供給される受話音声データをアナログ信号に変換してスピーカ１７に放音させる（ステップＳ１３）。

このように本実施形態においては、指示データに応じて音声データを加工するから、話者の意思の伝達を補うことができる。
具体的には、制御部１１が、「抑揚」のパラメータに応じて、ピッチの振れ幅を大きくするように音素毎のピッチを変更するから、音声データは、より抑揚のある音声となる。また、制御部１１が、「調」のパラメータに応じて、各音素のピッチをメジャーコード上にマッピングすることによって、音声の印象を楽しい雰囲気のものに加工することができる。逆に、各音声のピッチをマイナーコード上にマッピングすることによって、音声の印象を悲しい雰囲気のものに加工することができる。
また、制御部１１が、「声質」のパラメータに応じて、音声データの倍音成分の高域側のパワーを上げるから、伸びの良い声とすることができる。
また、制御部１１が、「音量」のパラメータに基づいてダイナミックレンジを変更するから、これにより、例えば突然大きな声を発する送話者音声を受話する場合などの音声を聴きやすくすることができる。
また、制御部１１が、「無意味語削除」の項目に応じて、「えー」、「あー」といった無意味語を音声から削除するから、より聞き取りやすい音声とすることができる。

＜Ｃ：変形例＞
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。
（１）上述した実施形態においては、音声加工装置を電話会議のために用いた形態について説明した。本発明を用いる形態はこれに限らず、例えばメガホン、マイク、イヤホンなど、単体の装置として用いてもよい。例えば本発明に係る音声加工装置をメガホンとして用いる場合には、マイクロフォンで収音された音声を加工して、スピーカで増幅して出力する。この場合であっても、マイクロフォンで収音された音声が加工されるから、より聞き取りやすい音声がスピーカから放音されるから、話者の意思の伝達を補うことができる。

また、上述した実施形態においては、端末装置１は、送話音声データを加工するとともに、受話音声データを加工した。端末装置が加工する音声データは、送話音声データと受話音声データとのいずれか一方であってもよい。すなわち、聞き手の意思で加工してもいいし、話し手の都合で加工してもいい。

（２）上述した実施形態では、送話音声変換部１００ａと受話音声変換部１００ｂとをひとつずつ設けるようにしたが、複数人数との会話で相手の音声を個別に変換したい場合、通話数分の変換部（送話音声変換部，受話音声変換部）を備えてもよい。
また、主に同時に話をしていないことを前提としておくことができれば、ユーザ指示は人数分行うが、主に送話している話者を認識して、図１２に示すように、変換部のパラメータを動的に変更してもよい。これは、送話と受話の切替についても言える。

（３）上述した実施形態では、端末装置１が、本実施形態に係る機能の全てを実現するようになっていた。これに対し、通信ネットワークで接続された２以上の装置が上記機能を分担するようにし、それら複数の装置を備えるシステムが同実施形態の端末装置１を実現するようにしてもよい。例えば、マイクロフォンやスピーカを備える電話端末と、加工機能を備える専用のコンピュータ装置とが通信ネットワークで接続されたシステムとして構成されていてもよい。

（４）上述した実施形態における端末装置１の制御部１１によって実行されるプログラムは、磁気テープ、磁気ディスク、フレキシブルディスク、光記録媒体、光磁気記録媒体、ＲＡＭ、ＲＯＭなどの記録媒体に記憶した状態で提供し得る。また、インターネットのようなネットワーク経由で端末装置１にダウンロードさせることも可能である。

会議システムの構成の一例を示すブロック図である。端末装置１のハードウェア構成の一例を示すブロック図である。送話用指示データの内容の一例を示す図である。端末装置１のソフトウェア構成を示すブロック図である。端末装置１のソフトウェア構成を示すブロック図である。加工パラメータの内容を説明するための図である。加工パラメータの内容を説明するための図である。加工パラメータの内容を説明するための図である。表示部１３に表示される画面の一例を示す図である。制御部１１が行う処理の流れを示すフローチャートである。制御部１１が行う処理の流れを示すフローチャートである。端末装置１のソフトウェア構成を示すブロック図である。

符号の説明

１…端末装置、３…ネットワーク、１１…制御部、１２…記憶部、１３…表示部、１４…操作部、１５…マイクロフォン、１６…音声処理部、１７…スピーカ、１８…通信部、１００…音声変換部、１１１…分析部、１１２…加工パラメータ生成部、１１３…加工処理部、１１４…出力部、１２１…音声データ記憶領域、１２２…指示データ記憶領域。

Claims

収音する収音手段から出力される音声データから、該音声データの表す音声のピッチを、該音声に含まれる音素毎に検出するピッチ検出手段と、
前記ピッチ検出手段により検出された各音素毎のピッチについて、所定の基準値に対する各ピッチの振れ幅が増幅するように、ピッチの変更量を各音素毎に決定するピッチ変更量決定手段と、
前記ピッチ変更量決定手段により決定された音素毎のピッチの変更量に基づいて、前記音声データのピッチを音素毎に変更するピッチ変更手段と、
前記ピッチ変更手段により音素毎のピッチが変更された音声データを出力する出力手段と
を備えることを特徴とする音声加工装置。
メジャーコード又はマイナーコードの音階を表す音階データを記憶する音階データ記憶手段と、
収音する収音手段から出力される音声データから、該音声データの表す音声のピッチを、該音声に含まれる音素毎に検出するピッチ検出手段と、
前記ピッチ検出手段により検出された各音素毎のピッチを、前記音階データ記憶手段に記憶された音階データの表す音階にマッピングし、該マッピング結果に応じて、ピッチの変更量を該音素毎に決定するピッチ変更量決定手段と、
前記ピッチ変更量決定手段により決定された音素毎のピッチの変更量に基づいて、前記音声データのピッチを音素毎に変更するピッチ変更手段と、
前記ピッチ変更手段により音素毎のピッチが変更された音声データを出力する出力手段と
を備えることを特徴とする音声加工装置。
収音する収音手段から出力される音声データから、該音声データの表す音声のピッチを、該音声に含まれている音素毎に検出するピッチ検出手段と、
前記収音手段から出力される音声データから長音の区間を検出する長音検出手段と、
前記ピッチ検出手段によってピッチが検出されなくなった時点の直前の区間であって、前記長音検出手段によって長音の区間と検出されている区間を特定する区間特定手段と、
前記区間特定手段により特定された区間に対応する音声データを削除する特定区間削除手段と、
前記特定区間削除手段により特定区間が削除された音声データを出力する出力手段と
を備えることを特徴とする音声加工装置。
ダイナミックレンジを拡大する程度をダイナミックレンジ拡大値として設定するダイナミックレンジ拡大設定手段と、
前記音声データの振幅値を一定のサンプリングタイミングで検出する振幅値検出手段と、
前記振幅値検出手段が検出した振幅値と前記ダイナミックレンジ拡大設定手段が設定したダイナミックレンジ拡大値に基づいて、前記振幅値の変更量を算出する変更量算出手段と、
前記変更量算出手段が算出した変更量に基づいて前記音声データの振幅値を変更する振幅値変更手段と、
前記振幅値変更手段によって振幅値が変更された音声データを出力する出力手段と
を備えることを特徴とする音声加工装置。
収音する収音手段から出力される音声データの特徴と予め定められた特徴とを照合し、該照合結果に応じて、音声データのうちの前記予め定められた特徴に対応する区間の音声データを削除する区間削除手段と、
前記区間削除手段により前記区間が削除された音声データを出力する出力手段と
を備えることを特徴とする音声加工装置。
前記収音手段から出力される音声データの倍音成分を増幅させる倍音成分増幅手段と、
前記倍音成分増幅手段により倍音成分が増幅された音声データを出力する音声データ出力手段と
を備えることを特徴とする請求項１乃至５のいずれかに記載の音声加工装置。