JP2008040431A - 音声加工装置 - Google Patents
音声加工装置 Download PDFInfo
- Publication number
- JP2008040431A JP2008040431A JP2006218420A JP2006218420A JP2008040431A JP 2008040431 A JP2008040431 A JP 2008040431A JP 2006218420 A JP2006218420 A JP 2006218420A JP 2006218420 A JP2006218420 A JP 2006218420A JP 2008040431 A JP2008040431 A JP 2008040431A
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- voice
- data
- phoneme
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
【課題】話者の意思の伝達を補うことのできる技術を提供する。
【解決手段】端末装置1の指示データ記憶領域122には、音声データの加工内容を示す指示データが記憶される。端末装置1の使用者は、操作部14を操作してこの指示データの内容を更新することができる。制御部11は、この指示データに基づいて、音声データを加工する。具体的には、制御部11は、指示データの「抑揚」の項目の値に基づいて、音声データの各音素毎のピッチについて、所定の基準値に対する各ピッチの振れ幅が増幅するように、ピッチの変更量を音素毎に決定する。次いで、制御部11は、決定した音素毎のピッチの変更量に基づいて、音声データのピッチを音素毎に変更し、出力する。
【選択図】図1
【解決手段】端末装置1の指示データ記憶領域122には、音声データの加工内容を示す指示データが記憶される。端末装置1の使用者は、操作部14を操作してこの指示データの内容を更新することができる。制御部11は、この指示データに基づいて、音声データを加工する。具体的には、制御部11は、指示データの「抑揚」の項目の値に基づいて、音声データの各音素毎のピッチについて、所定の基準値に対する各ピッチの振れ幅が増幅するように、ピッチの変更量を音素毎に決定する。次いで、制御部11は、決定した音素毎のピッチの変更量に基づいて、音声データのピッチを音素毎に変更し、出力する。
【選択図】図1
Description
本発明は、音声加工装置に関する。
近年、ネットワークを介した電話会議システムが普及している。このようなシステムによれば、遠隔地にいる者同士で会議を行うことができる。このように音声伝達を行うシステムにおいて、話し方に抑揚のついたより自然な音声レベルでの会話を行うことを目的として、特許文献1には、音声のレベル(音量)を調節する方法が提案されている。
特開平10−312672号公報
ところで、人間の会話では、論理的な内容よりもそれ以外の部分で受け取られる部分が多いと言われている。しかし、全ての人がスピーキングの訓練を積んでいるわけではないため、上述した会議システムでの会話では、イントネーションの無い発話などで、論理的な内容が伝わりにくくなることがある。
本発明は上述した背景の下になされたものであり、話者の意思の伝達を補うことのできる技術を提供することを目的とする。
本発明は上述した背景の下になされたものであり、話者の意思の伝達を補うことのできる技術を提供することを目的とする。
本発明の好適な態様である音声加工装置は、収音する収音手段から出力される音声データから、該音声データの表す音声のピッチを、該音声に含まれる音素毎に検出するピッチ検出手段と、前記ピッチ検出手段により検出された各音素毎のピッチについて、所定の基準値に対する各ピッチの振れ幅が増幅するように、ピッチの変更量を各音素毎に決定するピッチ変更量決定手段と、前記ピッチ変更量決定手段により決定された音素毎のピッチの変更量に基づいて、前記音声データのピッチを音素毎に変更するピッチ変更手段と、前記ピッチ変更手段により音素毎のピッチが変更された音声データを出力する出力手段とを備える。
また、本発明の好適な態様である音声加工装置は、メジャーコード又はマイナーコードの音階を表す音階データを記憶する音階データ記憶手段と、収音する収音手段から出力される音声データから、該音声データの表す音声のピッチを、該音声に含まれる音素毎に検出するピッチ検出手段と、前記ピッチ検出手段により検出された各音素毎のピッチを、前記音階データ記憶手段に記憶された音階データの表す音階にマッピングし、該マッピング結果に応じて、ピッチの変更量を該音素毎に決定するピッチ変更量決定手段と、前記ピッチ変更量決定手段により決定された音素毎のピッチの変更量に基づいて、前記音声データのピッチを音素毎に変更するピッチ変更手段と、前記ピッチ変更手段により音素毎のピッチが変更された音声データを出力する出力手段とを備える。
また、本発明の好適な態様である音声加工装置は、収音する収音手段から出力される音声データから、該音声データの表す音声のピッチを、該音声に含まれている音素毎に検出するピッチ検出手段と、前記収音手段から出力される音声データから長音の区間を検出する長音検出手段と、前記ピッチ検出手段によってピッチが検出されなくなった時点の直前の区間であって、前記長音検出手段によって長音の区間と検出されている区間を特定する区間特定手段と、前記区間特定手段により特定された区間に対応する音声データを削除する特定区間削除手段と、前記特定区間削除手段により特定区間が削除された音声データを出力する出力手段とを備える。
また、本発明の好適な態様である音声加工装置は、収音する収音手段から出力される音声データから、該音声データの表す音声のピッチを、該音声に含まれている音素毎に検出するピッチ検出手段と、前記収音手段から出力される音声データから長音の区間を検出する長音検出手段と、前記ピッチ検出手段によってピッチが検出されなくなった時点の直前の区間であって、前記長音検出手段によって長音の区間と検出されている区間を特定する区間特定手段と、前記区間特定手段により特定された区間に対応する音声データを削除する特定区間削除手段と、前記特定区間削除手段により特定区間が削除された音声データを出力する出力手段とを備える。
また、本発明の好適な態様である音声加工装置は、ダイナミックレンジを拡大する程度をダイナミックレンジ拡大値として設定するダイナミックレンジ拡大設定手段と、前記音声データの振幅値を一定のサンプリングタイミングで検出する振幅値検出手段と、前記振幅値検出手段が検出した振幅値と前記ダイナミックレンジ拡大設定手段が設定したダイナミックレンジ拡大値に基づいて、前記振幅値の変更量を算出する変更量算出手段と、前記変更量算出手段が算出した変更量に基づいて前記音声データの振幅値を変更する振幅値変更手段と、前記振幅値変更手段によって振幅値が変更された音声データを出力する出力手段とを備える。
また、本発明の好適な態様である音声加工装置は、収音する収音手段から出力される音声データの特徴と予め定められた特徴とを照合し、該照合結果に応じて、音声データのうちの前記予め定められた特徴に対応する区間の音声データを削除する区間削除手段と、前記区間削除手段により前記区間が削除された音声データを出力する出力手段とを備える。
また、上述した態様において、前記収音手段から出力される音声データの倍音成分を増幅させる倍音成分増幅手段と、前記倍音成分増幅手段により倍音成分が増幅された音声データを出力する音声データ出力手段とを備えてもよい。
また、上述した態様において、前記収音手段から出力される音声データの倍音成分を増幅させる倍音成分増幅手段と、前記倍音成分増幅手段により倍音成分が増幅された音声データを出力する音声データ出力手段とを備えてもよい。
本発明によれば、話者の意思の伝達を補うことができる。
以下、図面を参照して、本発明の実施形態について説明する。
<A:構成>
まず、図1を参照して、本発明に係る音声加工装置を電話会議のために用いた形態について説明する。図1は、電話会議システムの構成の一例を示すブロック図である。この電話会議システムは、各地に設置された複数の端末装置1,1,…がネットワーク3に接続されて構成される。端末装置1は、電話会議に係る音声を加工する音声加工装置として機能する。電話会議システムの使用者は、端末装置1を用いて他の地点と電話会議を行うことができる。なお、図1においては、3つの端末装置1を図示しているが、ネットワーク3に接続される端末装置1の数は3に限定されるものではなく、これより多くても少なくてもよい。
<A:構成>
まず、図1を参照して、本発明に係る音声加工装置を電話会議のために用いた形態について説明する。図1は、電話会議システムの構成の一例を示すブロック図である。この電話会議システムは、各地に設置された複数の端末装置1,1,…がネットワーク3に接続されて構成される。端末装置1は、電話会議に係る音声を加工する音声加工装置として機能する。電話会議システムの使用者は、端末装置1を用いて他の地点と電話会議を行うことができる。なお、図1においては、3つの端末装置1を図示しているが、ネットワーク3に接続される端末装置1の数は3に限定されるものではなく、これより多くても少なくてもよい。
次に、図2は、端末装置1のハードウェア構成の一例を示すブロック図である。図において、制御部11は、CPU(Central Processing Unit)やROM(Read Only Memory)、RAM(Random Access Memory)を備え、ROM又は記憶部12に記憶されているコンピュータプログラムを読み出して実行することにより、端末装置1の各部を制御する。記憶部12は、制御部11によって実行されるプログラムやその実行時に使用されるデータを記憶するための記憶手段であり、例えばハードディスク装置である。表示部13は、CRT(Cathode Ray Tube)や液晶表示パネルを備え、制御部11による制御のもとに各種の画像を表示する。操作部14は、マウスなどのポインティングデバイスと、文字や記号を入力するためのキーボードとを備え、利用者による操作に応じた操作信号を制御部11に出力する。通信部18は、各端末装置1との間でネットワーク3を介した通信を行うための通信手段である。すなわち、通信部18は、他の端末装置1から送信された音声データを受信してこれを制御部11に出力する一方、制御部11から供給された音声データを他の端末装置1に送信する。マイクロフォン15は、会議に参加している者が発声した音声を収音し、音声信号(アナログデータ)を出力する。音声処理部16は、マイクロフォン15が出力する音声信号(アナログデータ)をデジタルデータに変換して制御部11に出力する。スピーカ17は、音声処理部16でデジタルデータからアナログデータに変換され出力される音声信号に応じた強度で放音する。
記憶部12は、図示のように、音声データ記憶領域121と指示データ記憶領域122と音階データ記憶領域123と無意味語音声データ記憶領域124とを備えている。音声データ記憶領域121は更に、送話音声データ記憶領域121aと受話音声データ記憶領域121bとを有している。送話音声データ記憶領域121aには、マイクロフォン15から音声処理部16を経てA/D変換された音声データ(以下、「送話音声データ」という)が、例えばWAVE形式やMP3(MPEG1 Audio Layer-3)形式で時系列に記憶される。受話音声データ記憶領域121bには、通信部18によって他の端末装置1から受信された音声データ(以下、「受話音声データ」という)が記憶される。受話音声データは、例えばWAVE形式やMP3形式などの音声データである。
次に、指示データ記憶領域122は、送話用指示データ記憶領域122aと、受話用指示データ記憶領域122bとを有している。送話用指示データ記憶領域122aには、送話音声データの加工の内容を指示するための送話用指示データが記憶される。
図3は、送話用指示データの内容の一例を示す図である。送話用指示データは、図示のように、「抑揚」と「調」と「声質」と「速度」と「歯切れ」と「音量」と「無意味語削除」などの各項目を有している。これらの各項目には、利用者が操作部14を操作することによって入力される加工の程度を示すデータ(図3に示す例では1〜5の数値)が記憶される。これらの項目のうち、「抑揚」の項目には、音声の抑揚についての加工の程度を示すデータが記憶される。「調」の項目には、調を短調に合わせるか長調に合わせるかを示すデータが記憶される。「声質」の項目には、声質についての加工の程度を示すデータが記憶される。「速度」の項目には、発話速度についての加工の程度を示すデータが記憶される。「歯切れ」の項目には、歯切れについての加工の程度を示すデータが記憶される。「音量」の項目には、音量についての加工の程度を示すデータが記憶される。「無意味語削除」の項目には、無意味語を削除するか否かを示すデータが記憶される。制御部11は、送話用指示データ記憶領域122aに記憶されている送話用指示データに基づいて、送話音声データの加工処理を行う。
また、受話用指示データ記憶領域122bには、受話音声データの加工を指示するための受話用指示データが記憶される。この受話用指示データの構成は、上述した送話用指示データのそれと同様であり、その説明を省略する。
端末装置1の利用者は、会議の最中であっても、操作部14を操作することによって、指示データの内容をリアルタイムに変更することができる。
図3は、送話用指示データの内容の一例を示す図である。送話用指示データは、図示のように、「抑揚」と「調」と「声質」と「速度」と「歯切れ」と「音量」と「無意味語削除」などの各項目を有している。これらの各項目には、利用者が操作部14を操作することによって入力される加工の程度を示すデータ(図3に示す例では1〜5の数値)が記憶される。これらの項目のうち、「抑揚」の項目には、音声の抑揚についての加工の程度を示すデータが記憶される。「調」の項目には、調を短調に合わせるか長調に合わせるかを示すデータが記憶される。「声質」の項目には、声質についての加工の程度を示すデータが記憶される。「速度」の項目には、発話速度についての加工の程度を示すデータが記憶される。「歯切れ」の項目には、歯切れについての加工の程度を示すデータが記憶される。「音量」の項目には、音量についての加工の程度を示すデータが記憶される。「無意味語削除」の項目には、無意味語を削除するか否かを示すデータが記憶される。制御部11は、送話用指示データ記憶領域122aに記憶されている送話用指示データに基づいて、送話音声データの加工処理を行う。
また、受話用指示データ記憶領域122bには、受話音声データの加工を指示するための受話用指示データが記憶される。この受話用指示データの構成は、上述した送話用指示データのそれと同様であり、その説明を省略する。
端末装置1の利用者は、会議の最中であっても、操作部14を操作することによって、指示データの内容をリアルタイムに変更することができる。
次に、音階データ記憶領域123には、メジャーコード(Cメジャー)の音階を表す音階データが記憶されている。この音階データは、制御部11が音声データに対する調調整処理を行う際に参照される。
なお、この実施形態においては、Cメジャーの音階を表すデータを音階データとして用いた。音階データはCメジャーに限らず、他のメジャーコードの音階を表すデータであってもよい。また、本実施形態においては、メジャーコードの音階を表す音階データを用いたが、音階データは、マイナーコードの音階を表すデータであってもよい。
なお、この実施形態においては、Cメジャーの音階を表すデータを音階データとして用いた。音階データはCメジャーに限らず、他のメジャーコードの音階を表すデータであってもよい。また、本実施形態においては、メジャーコードの音階を表す音階データを用いたが、音階データは、マイナーコードの音階を表すデータであってもよい。
次に、無意味語データ記憶領域124には、例えば「あー」や「えー」といった無意味語の音声を表すデータ(以下、「無意味語データ」という)が記憶されている。この無意味語データは、制御部11が音声データに対する無意味語削除処理を行う際に参照される。
次に、図4乃至図5を参照しながら、端末装置1のソフトウェア構成について説明する。
図4は、送話音声データと受話音声データの流れを説明するための図である。図4に示す送話音声変換部100a,受話音声変換部100bは、制御部11がROM又は記憶部12に記憶されたコンピュータプログラムを実行することによって実現される。なお、図中の矢印は、データの流れを概略的に示したものである。
図4は、送話音声データと受話音声データの流れを説明するための図である。図4に示す送話音声変換部100a,受話音声変換部100bは、制御部11がROM又は記憶部12に記憶されたコンピュータプログラムを実行することによって実現される。なお、図中の矢印は、データの流れを概略的に示したものである。
図4において、送話音声変換部100aは、マイクロフォン15から音声処理部16を経てA/D変換された送話音声データを加工し、通信部18に出力する。通信部18は、加工された送話音声データを、ネットワーク3を介して他の端末装置1に送信する。
受話音声変換部100bは、通信部18が受信した受話音声データを加工し、音声処理部16に出力する。音声処理部16は、受話音声変換部100bから出力されるデータをアナログデータに変換し、スピーカ17に出力する。スピーカ17は、音声処理部16から出力される音声信号に応じた強度で放音する。
送話音声変換部100a,受話音声変換部100bが行う加工処理は、その処理対象となるデータが送話音声データであるか受話音声データであるかで異なるものの、音声データに対して施す処理は同様である。そのため、以下の説明においては、送話音声変換部100aと受話音声変換部100bとを各々区別する必要がない場合には、これらを「音声変換部100」と称して説明する。また、以下の説明においては、送話音声データと受話音声データとを各々区別する必要がない場合には、これらを「音声データ」と称して説明する。
受話音声変換部100bは、通信部18が受信した受話音声データを加工し、音声処理部16に出力する。音声処理部16は、受話音声変換部100bから出力されるデータをアナログデータに変換し、スピーカ17に出力する。スピーカ17は、音声処理部16から出力される音声信号に応じた強度で放音する。
送話音声変換部100a,受話音声変換部100bが行う加工処理は、その処理対象となるデータが送話音声データであるか受話音声データであるかで異なるものの、音声データに対して施す処理は同様である。そのため、以下の説明においては、送話音声変換部100aと受話音声変換部100bとを各々区別する必要がない場合には、これらを「音声変換部100」と称して説明する。また、以下の説明においては、送話音声データと受話音声データとを各々区別する必要がない場合には、これらを「音声データ」と称して説明する。
図4に示すように、話者の音声データは、送話音声変換部100aで加工されて他の端末装置1に送信され、一方、他の端末装置1から受信した音声データは、受話音声変換部100bで加工されて、加工された音声データに応じた音声がスピーカ17から放音される。会議の間、これらの動作が連続して繰り返し行われる。
次に、図5に示すブロック図を参照しながら、音声変換部100(送話音声変換部100a,受話音声変換部100b)のソフトウェア構成について説明する。図5に示した分析部111,加工パラメータ生成部112,加工処理部113,出力部114は、制御部11がROM又は記憶部12に記憶されたコンピュータプログラムを実行することによって実現される。なお、図中の矢印は、データの流れを概略的に示したものである。
分析部111は、音声データ記憶領域121から読み出された音声データを、所定時間長のフレーム単位でピッチ、パワー及びスペクトルを検出する。スペクトルの検出にはFFT(Fast Fourier Transform)が用いられる。また、分析部111は、検出したフレーム毎のピッチ、パワー及びスペクトルに基づいて、音声データを音素毎に区切り、音素毎のピッチを検出する。また、分析部111は、複数の音素をまとめて音節を認識する。
加工パラメータ生成部112は、指示データ記憶領域122から読み出された指示データと分析部111により検出された音声データのピッチ、パワー及びスペクトルとに基づいて、音声データをどのように加工するかを示す加工パラメータを生成する。
ここで、加工パラメータ生成部112が行う処理について、以下に詳細に説明する。
まず、「抑揚」についての加工パラメータ生成処理について説明する。加工パラメータ生成部112は、分析部111により検出された音声データのピッチについて、所定時間区間毎にモニタリングを行い、中心周波数を検出する。次いで、加工処理部113は、指示データに含まれる「抑揚」のパラメータに基づいて、検出した中心周波数を中心として、分析部111が認識した音声を構成する各音素の周波数の平均値を元に、各音素のピッチの振れ幅が大きくなるように、音素毎のピッチの変更量を決定する。すなわち、加工パラメータ生成部112は、分析部111で検出された各音素毎の周波数(ピッチ)について、中心周波数(所定の基準値)に対する各ピッチの振れ幅が増幅するように、ピッチの変更量を各音素毎に決定し、決定したピッチの変更量を示す加工パラメータを生成する。振れ幅の大きさの程度は、指示データの「抑揚」の項目が示す程度に応じて決定される。
ここで、加工パラメータ生成部112が行う処理について、以下に詳細に説明する。
まず、「抑揚」についての加工パラメータ生成処理について説明する。加工パラメータ生成部112は、分析部111により検出された音声データのピッチについて、所定時間区間毎にモニタリングを行い、中心周波数を検出する。次いで、加工処理部113は、指示データに含まれる「抑揚」のパラメータに基づいて、検出した中心周波数を中心として、分析部111が認識した音声を構成する各音素の周波数の平均値を元に、各音素のピッチの振れ幅が大きくなるように、音素毎のピッチの変更量を決定する。すなわち、加工パラメータ生成部112は、分析部111で検出された各音素毎の周波数(ピッチ)について、中心周波数(所定の基準値)に対する各ピッチの振れ幅が増幅するように、ピッチの変更量を各音素毎に決定し、決定したピッチの変更量を示す加工パラメータを生成する。振れ幅の大きさの程度は、指示データの「抑揚」の項目が示す程度に応じて決定される。
図6(a)は、加工パラメータ生成部112が生成する加工パラメータの内容の一例を示す図である。図において、折れ線L1は元の音声のピッチ(周波数)を示し、折れ線L2は、加工パラメータ生成部112によって決定される変更量だけピッチが変更された状態を示す。この場合、「おはようございます」という音声において、各音素「お」,「は」,・・・の平均ピッチが440Hzである場合には、加工パラメータ生成部112は、各音素のピッチが440Hzを中心として広がるようにピッチ変更量を決定する。
なお、この場合に辞書機能を設け、辞書機能にイントネーションの変化パターンを記憶させ、音節の言葉に対応する適切なイントネーションパターンとなるように各音素のピッチを変更してもよい。
なお、この実施形態においては、ピッチの振れ幅を大きくするための所定の基準値として、所定時間区間のモニタリングを行って検出される中心周波数を用いた。基準値はこの中心周波数に限らず、例えば、図6(b)に示すように、音節毎にモニタリングを行って音節毎の下限周波数を検出し、該下限周波数を基準値として周波数の振れ幅が大きくなるようにピッチの変更量を決定してもよい。
次に、「調」についての加工パラメータ生成処理について説明する。加工パラメータ生成部112は、指示データに含まれる「調」の項目に基づいて、分析部111によって検出された各音素毎のピッチを、音階データ記憶領域123に記憶された音階データの表す音階にマッピングし、該マッピング結果に応じて、ピッチの変更量を音素毎に決定する。
図7は、加工パラメータ生成部112が行うマッピング処理の一例を示す図である。図示のように、加工パラメータ生成部112は、音階データの表す音階(図7においてはCメジャーコードの音階)に、音声データのピッチをマッピングする。図7において、A1,A2,A3,…は加工前の音声データのピッチを示し、B1,B2,B4,…はピッチのマッピング結果を示す。
図7は、加工パラメータ生成部112が行うマッピング処理の一例を示す図である。図示のように、加工パラメータ生成部112は、音階データの表す音階(図7においてはCメジャーコードの音階)に、音声データのピッチをマッピングする。図7において、A1,A2,A3,…は加工前の音声データのピッチを示し、B1,B2,B4,…はピッチのマッピング結果を示す。
また、加工パラメータ生成部112は、指示データに含まれる「声質」のパラメータに基づいて、音声データの倍音成分の高域側のパワーを上げる。パワーを上げる程度は、指示データの「声質」のパラメータが示す程度に応じて決定される。
なお、本実施形態においては、倍音成分の高域側のパワーを上げることによって声質を調整するようにしたが、これに代えて、倍音成分を足してもよい。
なお、本実施形態においては、倍音成分の高域側のパワーを上げることによって声質を調整するようにしたが、これに代えて、倍音成分を足してもよい。
また、加工パラメータ生成部112は、指示データに含まれる「速度」のパラメータに基づいて、音声データを時間軸に圧縮又は伸長させることによって音声の速度を変更する。また、加工パラメータ生成部112は、無音部分の時間長を先に検出して速度変動を制御する。
次に、「歯切れ」についての加工パラメータ生成処理について説明する。加工パラメータ生成部112は、音声データから長音の区間を検出する。この長音の区間の検出方法としては、同じスペクトルが連続して検出された場合に長音であると判断し、判断した区間を長音の区間として検出する。次いで、加工パラメータ生成部112は、分析部111によってピッチが検出されなくなった時点の直前の区間であって、長音の区間と検出されている区間を特定し、特定した区間を示す加工パラメータを生成する。具体的には、例えば、「あるじてんにおいてー、その・・・」という音声の場合には、「てー」という伸ばし部分にあたる区間が特定される。特定する区間の区間長は、指示データの「歯切れ」のパラメータが示す程度に応じて決定される。加工パラメータ生成部112は、特定した区間の音声データを削除する旨を示す加工パラメータを生成する。
また、加工パラメータ生成部112は、指示データに含まれる「音量」のパラメータに基づいて、加工パラメータ生成部112は、ダイナミックレンジを拡大する程度を示す「音量」パラメータをダイナミックレンジ拡大値として設定する。また、加工パラメータ生成部112は、音声データの振幅値を一定のサンプリングタイミングで検出し、検出した振幅値とダイナミックレンジ拡大値(「音量」パラメータ)とに基づいて、振幅値の変動量を算出し、算出した変動量を示すパラメータを生成する。例えば、加工パラメータ生成部112は、図8(a),(b)に示すような、ダイナミックレンジD2をダイナミックレンジD1に変更するための変更量を示すパラメータを生成する。変更量の算出は、例えば、ある閾値よりも振幅値が小さい場合には3倍にするといったような、予め定められたアルゴリズムに基づいて行われる。加工パラメータ生成部112は、レベル検出をしながら、検出したレベルに応じた変更量を決定する。
また、加工パラメータ生成部112は、指示データに含まれる「無意味語削除」のパラメータに基づいて、音声データを無意味語音声データ記憶領域124に記憶された無意味語データとのマッチングを行い、無意味語であると判定された区間の音声データを削除する旨を示す加工パラメータを生成する。
以上が、加工パラメータ生成部112が行う加工処理の詳細の説明である。
以上が、加工パラメータ生成部112が行う加工処理の詳細の説明である。
加工処理部113は、加工パラメータ生成部112によって生成された加工パラメータに基づいて音声データを加工し、加工音声データを生成する。すなわち、加工処理部113は、加工パラメータがピッチの変更量を示すものである場合には、その加工パラメータが示す変更量に基づいて、音声データのピッチを音素毎に変更する。また、加工パラメータが区間を削除する旨を示すデータである場合には、加工処理部113は、その加工パラメータが示す区間に対応する音声データを削除する。また、加工処理部113は、加工パラメータがパワーの変更量を示すデータである場合には、その加工パラメータに基づいて、音声データのパワーを変更する。
出力部114は、加工処理部113によって生成された加工音声データを出力する。ここで、入力された音声データが送話音声データである場合は、出力部114は、加工送話音声データを通信部18に出力し、一方、入力された音声データが受話音声データである場合には、出力部114は、加工受話音声データを音声処理部16に出力する。
<B:実施形態の動作>
次に、この実施形態の動作を説明する。
まず、端末装置1の制御部11は、送話指示データと受話指示データとの入力を促す画面を表示部13に表示させる。
図9は、表示部13に表示される画面の一例を示す図である。図において、A1は送話音声に対する加工処理を調整するための画面であり、A2は、受話音声に対する加工処理を調整するための画面である。これらの画面には、送話音声と受話音声のそれぞれについて、加工の程度を調整するためのボタンB11,B12,B13,B14,B15,B16,B17が表示される。端末装置1の使用者は、端末装置1の操作部14を操作して、加工内容を指示する。
操作部14は、操作された内容に応じた操作信号を制御部11に出力する。制御部11は、操作部14から出力される信号に応じて、送話用指示データを送話用指示データ記憶領域122aに記憶するとともに、受話用指示データを受話用指示データ記憶領域122bに記憶する。
次に、この実施形態の動作を説明する。
まず、端末装置1の制御部11は、送話指示データと受話指示データとの入力を促す画面を表示部13に表示させる。
図9は、表示部13に表示される画面の一例を示す図である。図において、A1は送話音声に対する加工処理を調整するための画面であり、A2は、受話音声に対する加工処理を調整するための画面である。これらの画面には、送話音声と受話音声のそれぞれについて、加工の程度を調整するためのボタンB11,B12,B13,B14,B15,B16,B17が表示される。端末装置1の使用者は、端末装置1の操作部14を操作して、加工内容を指示する。
操作部14は、操作された内容に応じた操作信号を制御部11に出力する。制御部11は、操作部14から出力される信号に応じて、送話用指示データを送話用指示データ記憶領域122aに記憶するとともに、受話用指示データを受話用指示データ記憶領域122bに記憶する。
ここで、会議が開始されると、マイクロフォン15は音声を収音し、また、スピーカ17は、ネットワークを介して受信された音声データの示す音声を放音する。
ここで、まず、マイクロフォン15で収音される音声についての処理について、図10に示すフローチャートを参照しつつ以下に説明する。
端末装置1の利用者は、会議を行う。このとき、会議の参加者の音声はマイクロフォン15によって収音されて音声信号に変換され、音声処理部16へと出力される。音声処理部16によってA/D変換された送話音声データは、時刻を示す情報と共に、送話音声データ記憶領域121aに時系列に記憶されていく(ステップS1)。
端末装置1の利用者は、会議を行う。このとき、会議の参加者の音声はマイクロフォン15によって収音されて音声信号に変換され、音声処理部16へと出力される。音声処理部16によってA/D変換された送話音声データは、時刻を示す情報と共に、送話音声データ記憶領域121aに時系列に記憶されていく(ステップS1)。
送話音声データ記憶領域121aに所定量の送話音声データが記憶されると、制御部11は、送話用指示データ記憶領域122aに記憶された送話用指示データに基づいて、送話音声データを加工する(ステップS2)。次いで、制御部11は、加工した送話音声データを通信部18に出力する(ステップS3)。通信部18は、制御部11から供給される送話音声データを、ネットワーク3を介して他の端末装置1に送信する。
次に、音声データの受信処理について、図11に示すフローチャートを参照しつつ以下に説明する。
通信部18は、他の端末装置1から送信される音声データを受信する(ステップS11)。制御部11は、通信部18が受信した音声データを受話音声データとして受話音声データ記憶領域121bに記憶する。制御部11は、受話用指示データ記憶領域122bに記憶された受話用指示データに基づいて、受話音声データを加工する(ステップS12)。次いで、制御部11は、加工した受話音声データを音声処理部16に出力し、音声処理部16は、制御部11から供給される受話音声データをアナログ信号に変換してスピーカ17に放音させる(ステップS13)。
通信部18は、他の端末装置1から送信される音声データを受信する(ステップS11)。制御部11は、通信部18が受信した音声データを受話音声データとして受話音声データ記憶領域121bに記憶する。制御部11は、受話用指示データ記憶領域122bに記憶された受話用指示データに基づいて、受話音声データを加工する(ステップS12)。次いで、制御部11は、加工した受話音声データを音声処理部16に出力し、音声処理部16は、制御部11から供給される受話音声データをアナログ信号に変換してスピーカ17に放音させる(ステップS13)。
このように本実施形態においては、指示データに応じて音声データを加工するから、話者の意思の伝達を補うことができる。
具体的には、制御部11が、「抑揚」のパラメータに応じて、ピッチの振れ幅を大きくするように音素毎のピッチを変更するから、音声データは、より抑揚のある音声となる。また、制御部11が、「調」のパラメータに応じて、各音素のピッチをメジャーコード上にマッピングすることによって、音声の印象を楽しい雰囲気のものに加工することができる。逆に、各音声のピッチをマイナーコード上にマッピングすることによって、音声の印象を悲しい雰囲気のものに加工することができる。
また、制御部11が、「声質」のパラメータに応じて、音声データの倍音成分の高域側のパワーを上げるから、伸びの良い声とすることができる。
また、制御部11が、「音量」のパラメータに基づいてダイナミックレンジを変更するから、これにより、例えば突然大きな声を発する送話者音声を受話する場合などの音声を聴きやすくすることができる。
また、制御部11が、「無意味語削除」の項目に応じて、「えー」、「あー」といった無意味語を音声から削除するから、より聞き取りやすい音声とすることができる。
具体的には、制御部11が、「抑揚」のパラメータに応じて、ピッチの振れ幅を大きくするように音素毎のピッチを変更するから、音声データは、より抑揚のある音声となる。また、制御部11が、「調」のパラメータに応じて、各音素のピッチをメジャーコード上にマッピングすることによって、音声の印象を楽しい雰囲気のものに加工することができる。逆に、各音声のピッチをマイナーコード上にマッピングすることによって、音声の印象を悲しい雰囲気のものに加工することができる。
また、制御部11が、「声質」のパラメータに応じて、音声データの倍音成分の高域側のパワーを上げるから、伸びの良い声とすることができる。
また、制御部11が、「音量」のパラメータに基づいてダイナミックレンジを変更するから、これにより、例えば突然大きな声を発する送話者音声を受話する場合などの音声を聴きやすくすることができる。
また、制御部11が、「無意味語削除」の項目に応じて、「えー」、「あー」といった無意味語を音声から削除するから、より聞き取りやすい音声とすることができる。
<C:変形例>
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。
(1)上述した実施形態においては、音声加工装置を電話会議のために用いた形態について説明した。本発明を用いる形態はこれに限らず、例えばメガホン、マイク、イヤホンなど、単体の装置として用いてもよい。例えば本発明に係る音声加工装置をメガホンとして用いる場合には、マイクロフォンで収音された音声を加工して、スピーカで増幅して出力する。この場合であっても、マイクロフォンで収音された音声が加工されるから、より聞き取りやすい音声がスピーカから放音されるから、話者の意思の伝達を補うことができる。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。
(1)上述した実施形態においては、音声加工装置を電話会議のために用いた形態について説明した。本発明を用いる形態はこれに限らず、例えばメガホン、マイク、イヤホンなど、単体の装置として用いてもよい。例えば本発明に係る音声加工装置をメガホンとして用いる場合には、マイクロフォンで収音された音声を加工して、スピーカで増幅して出力する。この場合であっても、マイクロフォンで収音された音声が加工されるから、より聞き取りやすい音声がスピーカから放音されるから、話者の意思の伝達を補うことができる。
また、上述した実施形態においては、端末装置1は、送話音声データを加工するとともに、受話音声データを加工した。端末装置が加工する音声データは、送話音声データと受話音声データとのいずれか一方であってもよい。すなわち、聞き手の意思で加工してもいいし、話し手の都合で加工してもいい。
(2)上述した実施形態では、送話音声変換部100aと受話音声変換部100bとをひとつずつ設けるようにしたが、複数人数との会話で相手の音声を個別に変換したい場合、通話数分の変換部(送話音声変換部,受話音声変換部)を備えてもよい。
また、主に同時に話をしていないことを前提としておくことができれば、ユーザ指示は人数分行うが、主に送話している話者を認識して、図12に示すように、変換部のパラメータを動的に変更してもよい。これは、送話と受話の切替についても言える。
また、主に同時に話をしていないことを前提としておくことができれば、ユーザ指示は人数分行うが、主に送話している話者を認識して、図12に示すように、変換部のパラメータを動的に変更してもよい。これは、送話と受話の切替についても言える。
(3)上述した実施形態では、端末装置1が、本実施形態に係る機能の全てを実現するようになっていた。これに対し、通信ネットワークで接続された2以上の装置が上記機能を分担するようにし、それら複数の装置を備えるシステムが同実施形態の端末装置1を実現するようにしてもよい。例えば、マイクロフォンやスピーカを備える電話端末と、加工機能を備える専用のコンピュータ装置とが通信ネットワークで接続されたシステムとして構成されていてもよい。
(4)上述した実施形態における端末装置1の制御部11によって実行されるプログラムは、磁気テープ、磁気ディスク、フレキシブルディスク、光記録媒体、光磁気記録媒体、RAM、ROMなどの記録媒体に記憶した状態で提供し得る。また、インターネットのようなネットワーク経由で端末装置1にダウンロードさせることも可能である。
1…端末装置、3…ネットワーク、11…制御部、12…記憶部、13…表示部、14…操作部、15…マイクロフォン、16…音声処理部、17…スピーカ、18…通信部、100…音声変換部、111…分析部、112…加工パラメータ生成部、113…加工処理部、114…出力部、121…音声データ記憶領域、122…指示データ記憶領域。
Claims (6)
- 収音する収音手段から出力される音声データから、該音声データの表す音声のピッチを、該音声に含まれる音素毎に検出するピッチ検出手段と、
前記ピッチ検出手段により検出された各音素毎のピッチについて、所定の基準値に対する各ピッチの振れ幅が増幅するように、ピッチの変更量を各音素毎に決定するピッチ変更量決定手段と、
前記ピッチ変更量決定手段により決定された音素毎のピッチの変更量に基づいて、前記音声データのピッチを音素毎に変更するピッチ変更手段と、
前記ピッチ変更手段により音素毎のピッチが変更された音声データを出力する出力手段と
を備えることを特徴とする音声加工装置。 - メジャーコード又はマイナーコードの音階を表す音階データを記憶する音階データ記憶手段と、
収音する収音手段から出力される音声データから、該音声データの表す音声のピッチを、該音声に含まれる音素毎に検出するピッチ検出手段と、
前記ピッチ検出手段により検出された各音素毎のピッチを、前記音階データ記憶手段に記憶された音階データの表す音階にマッピングし、該マッピング結果に応じて、ピッチの変更量を該音素毎に決定するピッチ変更量決定手段と、
前記ピッチ変更量決定手段により決定された音素毎のピッチの変更量に基づいて、前記音声データのピッチを音素毎に変更するピッチ変更手段と、
前記ピッチ変更手段により音素毎のピッチが変更された音声データを出力する出力手段と
を備えることを特徴とする音声加工装置。 - 収音する収音手段から出力される音声データから、該音声データの表す音声のピッチを、該音声に含まれている音素毎に検出するピッチ検出手段と、
前記収音手段から出力される音声データから長音の区間を検出する長音検出手段と、
前記ピッチ検出手段によってピッチが検出されなくなった時点の直前の区間であって、前記長音検出手段によって長音の区間と検出されている区間を特定する区間特定手段と、
前記区間特定手段により特定された区間に対応する音声データを削除する特定区間削除手段と、
前記特定区間削除手段により特定区間が削除された音声データを出力する出力手段と
を備えることを特徴とする音声加工装置。 - ダイナミックレンジを拡大する程度をダイナミックレンジ拡大値として設定するダイナミックレンジ拡大設定手段と、
前記音声データの振幅値を一定のサンプリングタイミングで検出する振幅値検出手段と、
前記振幅値検出手段が検出した振幅値と前記ダイナミックレンジ拡大設定手段が設定したダイナミックレンジ拡大値に基づいて、前記振幅値の変更量を算出する変更量算出手段と、
前記変更量算出手段が算出した変更量に基づいて前記音声データの振幅値を変更する振幅値変更手段と、
前記振幅値変更手段によって振幅値が変更された音声データを出力する出力手段と
を備えることを特徴とする音声加工装置。 - 収音する収音手段から出力される音声データの特徴と予め定められた特徴とを照合し、該照合結果に応じて、音声データのうちの前記予め定められた特徴に対応する区間の音声データを削除する区間削除手段と、
前記区間削除手段により前記区間が削除された音声データを出力する出力手段と
を備えることを特徴とする音声加工装置。 - 前記収音手段から出力される音声データの倍音成分を増幅させる倍音成分増幅手段と、
前記倍音成分増幅手段により倍音成分が増幅された音声データを出力する音声データ出力手段と
を備えることを特徴とする請求項1乃至5のいずれかに記載の音声加工装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006218420A JP2008040431A (ja) | 2006-08-10 | 2006-08-10 | 音声加工装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006218420A JP2008040431A (ja) | 2006-08-10 | 2006-08-10 | 音声加工装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008040431A true JP2008040431A (ja) | 2008-02-21 |
Family
ID=39175456
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006218420A Pending JP2008040431A (ja) | 2006-08-10 | 2006-08-10 | 音声加工装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008040431A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014527648A (ja) * | 2011-08-31 | 2014-10-16 | アルカテル−ルーセント | デジタルオーディオ信号を低速化するための方法およびデバイス |
CN105765654A (zh) * | 2013-11-28 | 2016-07-13 | 弗劳恩霍夫应用研究促进协会 | 具有基频修改的助听装置 |
WO2017056640A1 (ja) * | 2015-09-29 | 2017-04-06 | ヤマハ株式会社 | 音信号処理方法及び音信号処理装置 |
WO2023276539A1 (ja) * | 2021-06-30 | 2023-01-05 | 株式会社ドワンゴ | 音声変換装置、音声変換方法、プログラム、および記録媒体 |
-
2006
- 2006-08-10 JP JP2006218420A patent/JP2008040431A/ja active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014527648A (ja) * | 2011-08-31 | 2014-10-16 | アルカテル−ルーセント | デジタルオーディオ信号を低速化するための方法およびデバイス |
US9928849B2 (en) | 2011-08-31 | 2018-03-27 | Wsou Investments, Llc | Method and device for slowing a digital audio signal |
CN105765654A (zh) * | 2013-11-28 | 2016-07-13 | 弗劳恩霍夫应用研究促进协会 | 具有基频修改的助听装置 |
JP2016540432A (ja) * | 2013-11-28 | 2016-12-22 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 基本周波数修正を用いた補聴装置 |
US9936308B2 (en) | 2013-11-28 | 2018-04-03 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Hearing aid apparatus with fundamental frequency modification |
WO2017056640A1 (ja) * | 2015-09-29 | 2017-04-06 | ヤマハ株式会社 | 音信号処理方法及び音信号処理装置 |
US10354631B2 (en) | 2015-09-29 | 2019-07-16 | Yamaha Corporation | Sound signal processing method and sound signal processing apparatus |
WO2023276539A1 (ja) * | 2021-06-30 | 2023-01-05 | 株式会社ドワンゴ | 音声変換装置、音声変換方法、プログラム、および記録媒体 |
JP2023006218A (ja) * | 2021-06-30 | 2023-01-18 | 株式会社ドワンゴ | 音声変換装置、音声変換方法、プログラム、および記録媒体 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7974392B2 (en) | System and method for personalized text-to-voice synthesis | |
US20210375303A1 (en) | Natural Ear | |
US20210104222A1 (en) | Wearable electronic device for emitting a masking signal | |
US9564114B2 (en) | Electronic musical instrument, method of controlling sound generation, and computer readable recording medium | |
US7031924B2 (en) | Voice synthesizing apparatus, voice synthesizing system, voice synthesizing method and storage medium | |
US20110264453A1 (en) | Method and system for adapting communications | |
JP2010139571A (ja) | 音声加工装置及び音声加工方法 | |
JP6098149B2 (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
JPWO2008007616A1 (ja) | 無音声発声の入力警告装置と方法並びにプログラム | |
JP2008040431A (ja) | 音声加工装置 | |
JPWO2011122522A1 (ja) | 感性表現語選択システム、感性表現語選択方法及びプログラム | |
JP2005070430A (ja) | 音声出力装置および方法 | |
US9355648B2 (en) | Voice input/output device, method and programme for preventing howling | |
JP2837639B2 (ja) | リモートコントローラ | |
JP2022105402A (ja) | 聴覚機能訓練装置、聴覚機能訓練方法、及び、聴覚機能訓練プログラム | |
JP2004252085A (ja) | 音声変換システム及び音声変換プログラム | |
CN111179943A (zh) | 一种对话辅助设备及获取信息的方法 | |
JP2905112B2 (ja) | 環境音分析装置 | |
US11610596B2 (en) | Adjustment method of sound output and electronic device performing the same | |
TWI824424B (zh) | 語意評估之助聽調整裝置及其方法 | |
JP3102553B2 (ja) | 音声信号処理装置 | |
CN112399004B (zh) | 声音输出的调整方法及执行该调整方法的电子装置 | |
KR102350890B1 (ko) | 휴대용 청력검사장치 | |
US20080147394A1 (en) | System and method for improving an interactive experience with a speech-enabled system through the use of artificially generated white noise | |
RU66103U1 (ru) | Устройство обработки речевой информации для модуляции входного голосового сигнала путем его преобразования в выходной голосовой сигнал |