JP2004205624A

JP2004205624A - 音声処理システム

Info

Publication number: JP2004205624A
Application number: JP2002371999A
Authority: JP
Inventors: Akihiro Shindo; 晶弘進藤; Noriko Shindo; 典子進藤
Original assignee: MegaChips System Solutions Inc
Current assignee: MegaChips System Solutions Inc
Priority date: 2002-12-24
Filing date: 2002-12-24
Publication date: 2004-07-22

Abstract

【課題】様々な音声信号を簡易に生成できる音声処理システムを提供する。
【解決手段】基地局４では、入力端末から入力された音声入力に対して、音声認識部４１で音声認識を行い、テキスト情報を変換する。このテキスト情報に基づき音声合成部４２で辞書ＤＢ４４を参照しつつ音素片を合成して、合成音声信号を生成する。そして、音声変調部４３において、合成音声信号に対して入力端末から入力されるユーザの要求に基づく音声変調を行い、変調音声信号を出力する。また、基地局４では、入力端末から入力されるテキスト情報に基づく音声合成および音声変調を行って、変調音声信号を出力できる。このように変調音声信号を生成することにより、様々な音声信号を簡易に生成できることとなる。
【選択図】図２

Description

【０００１】
【発明の属する技術分野】
本発明は、入力端末と音声処理サーバとを有する音声処理システムに関する。
【０００２】
【従来の技術】
音声処理技術については、音声合成や音声変調など各種の処理がある。
【０００３】
音声合成技術としては、入力された文字情報について文節・文章解析を行い、データベースから適切な音素片を検索・合成して音声信号を生成する技術がある。この音声合成技術は、例えばArcadia社のSpeecanなどで利用されている。また、上記の構文解析と音素片合成とを用いる音声合成技術は、例えば特許文献１に開示されている。
【０００４】
音声変調技術としては、ピッチ変換やフォルマント変換に関する技術があり、例えば特許文献２や特許文献３などに開示されている。なお、フォルマントとは、人声を特徴づけさせる周波数強調成分のことで、図２３に示す第１フォルマントＦＭ１や第２フォルマントＦＭ２のように、複数の周波数帯域で構成される。
【０００５】
【特許文献１】
特開平６−３４２２９７号公報
【特許文献２】
特開２００１−２８２２６７号公報
【特許文献３】
特開２００２−１６９６００号公報
【０００６】
【発明が解決しようとする課題】
しかしながら、上記の音声合成技術では、データベースから抽出される音素片や文章(フレーズ)を合成して合成音声信号を生成するため、様々なキャラクターの音声(声色)を作るには不向きである。なお、膨大な容量のデータベースがあれば、様々な声色を合成することは可能であるが、現実的でない。
【０００７】
また、上記の音声変調技術、すなわちピッチ変換およびフォルマント変調技術では、入力音声を直接加工することが前提であるため、変調可能な声色の範囲が限定されたり、話者の話し方のクセがそのまま変調されてしまい、多少声色を変更しても元の話者の特徴を完全に消去することは困難である。その結果、話者が誰であるかの特定が容易となってしまう。
【０００８】
さらに、上記の音声変調技術により、アバターやＣＧ・アニメなどの動画に音声を付加する場合、いわゆるアフレコ（アテレコ）が必要となる。すなわち、動画の動きに合わせて声優が発音しなければならず、経験やテクニックが要求され、容易な作業でない。
【０００９】
本発明は、上記課題に鑑みてなされたものであり、様々な音声信号を簡易に生成できる音声処理システムを提供することを目的とする。
【００１０】
【課題を解決するための手段】
上記の課題を解決するため、請求項１の発明は、入力端末と音声処理サーバとを含む情報処理要素群が相互にデータ伝送可能に結合された音声処理システムであって、前記情報処理要素群が、前記入力端末に入力された入力音声信号を、音声認識により文字情報に変換する音声認識手段と、前記文字情報に基づく音声合成により、合成音声信号を生成する音声合成手段と、前記合成音声信号に対して音声変調を行い、変調音声信号を生成する音声変調手段とを備える。
【００１１】
また、請求項２の発明は、入力端末と音声処理サーバとを含む情報処理要素群が相互にデータ伝送可能に結合された音声処理システムであって、前記情報処理要素群が、前記入力端末に入力された文字情報に基づく音声合成により、合成音声信号を生成する音声合成手段と、前記合成音声信号に対して音声変調を行い、変調音声信号を生成する音声変調手段とを備える。
【００１２】
また、請求項３の発明は、請求項１または請求項２の発明に係る音声処理システムにおいて、前記変調音声信号は、前記入力端末と異なる出力端末で受信される。
【００１３】
また、請求項４の発明は、請求項１または請求項２の発明に係る音声処理システムにおいて、前記変調音声信号は、前記入力端末で受信される。
【００１４】
【発明の実施の形態】
＜音声処理システムの要部構成＞
図１は、本発明の実施形態に係る音声処理システム１の要部構成を示す図である。
【００１５】
音声処理システム１は、入力端末２および出力端末３と、これらの端末２、３と例えばインターネットで通信可能に接続する基地局４とを備えている。すなわち、音声処理システム１は、入力端末２と出力端末３と基地局４とを含む情報処理要素群が相互にデータ伝送可能に結合されている。
【００１６】
入力端末２は、例えばパーソナルコンピュータとして構成され、マイクを有して音声入力を受付ける音声入力部２１を備えている。
【００１７】
出力端末３は、例えばパーソナルコンピュータとして構成され、スピーカを有して音声出力を行う音声出力部３１を備えている。
【００１８】
基地局４は、音声処理サーバとして機能し、音声認識部４１と、音声合成部４２と、音声変調部４３とを備えている。基地局４の各部については、以下で詳述する。
【００１９】
図２は、基地局４の要部構成を示すブロック図である。
【００２０】
音声認識部４１は、入力端末２に入力された入力音声信号を音声認識により文字情報に変換する音声認識手段として機能する。この音声認識部４１は、音声音声解析部４１１と、構文予測部４１２と、ＦＦＴ演算部４１３とを有している。
【００２１】
音声認識部４１における音声認識手法としては、車両やカーナビをはじめ、ＰＣやＩＣレコーダなどで採用されている、例えば隠れマルコフ法を利用する。
【００２２】
音声解析部４１１は、入力端末２の音声入力部２１から入力音声信号を解析する。
【００２３】
構文予測部４１２は、辞書データベース(ＤＢ)４４を参照して構文を予測し、入力音声信号を文字情報に変換する。
【００２４】
ＦＦＴ演算部４１３は、高速フーリエ変換(ＦＦＴ)によって、入力音声信号を周波数領域に変換する部位である。
【００２５】
音声合成部４２は、音声認識部４１で生成された文字情報、または入力端末２に入力された文字情報に基づく音声合成により、合成音声信号を生成する音声合成手段として機能する。この音声合成部４２は、主に構文解釈部４２１と音素片合成部４２２とを有している。
【００２６】
構文解釈部４２１は、端末２や音声認識部４１から入力されるテキスト情報の構文を解釈する部位である。
【００２７】
音素片合成部４２２は、辞書ＤＢ４４に記憶される音素片を合成して、合成音声信号を生成する部位である。
【００２８】
音声変調部４３は、音声合成部４２で合成された合成音声信号に対して音声変調を行い、変調音声信号を生成する音声変調手段として機能する。この音声変調部４３は、デジタルフィルタ４３１と、デジタルディレイ４３２と、オシレータ４３３とを有しており、これらの各部を協働して動作させることにより、後述する音声変調処理が行われる。
【００２９】
音声変調部４３に対しては、例えば高い声で音声出力を行う旨の要求など、入力端末２から入力される変調係数等の制御パラメータに基づく制御が、制御部４５内の動作プログラムによって実行される。また、音声変調部４３での音声変調処理の際には、ワークメモリとして働くＲＡＭ４６が適宜使用される。
【００３０】
＜音声合成処理について＞
音声合成部４２では、音声合成処理が行われるが、この処理の詳細について以下で説明する。なお、この処理では、辞書ＤＢ４４内の文節辞書４４ａと音素片辞書４４ｂが活用される。
【００３１】
図３は、音声合成処理を説明するための図である。
【００３２】
まず、入力端末２や音声認識部４１からテキストが入力されると、構文解釈部４２１で構文の解釈が行われ(ステップＳ１)、句読点で分解される(ステップＳ２)。
【００３３】
次に、文節辞書４４ａを参照しつつ文節ごとに分解し(ステップＳ３)、分解された文節に対応する音素片を音素片辞書４４ｂから検索する(ステップＳ４)。
【００３４】
そして、音素片辞書４４ｂから検索された音素片を合成し(ステップＳ５)、バファメモリ４２３に格納する。
【００３５】
最後に、合成された音素片をバッファメモリ４２３から読出して、合成音声信号を生成する(ステップＳ６)。
【００３６】
以上の音声合成処理により、テキスト情報を音声信号に変換して出力できることとなる。
【００３７】
＜音声変調処理について＞
音声変調部４３では、音声変調処理を行うが、この処理の詳細について以下で説明する。
【００３８】
図４は、音声変調処理の概念を説明するための図である。
【００３９】
音声変調部４３は、特徴抽出部４３５と変調部４３６とを備えている。
【００４０】
特徴抽出部４３５から抽出されるピッチやフォルマントの情報と、入力端末２で設定される制御パラメータとに基づき、変換規則ＤＢ４３７内の規則データを参照して変換(制御)規則が設定されるが、この変換規則に応じて変調部４３６で音声変調が行われる。
【００４１】
変換規則ＤＢ４３７には、女声や男声、動物の鳴き声などの各種音声信号の特徴成分の情報が蓄積されている。
【００４２】
特徴抽出部４３５は、フォルマント(formant)抽出部４３５ａと、ピッチ抽出部４３５ｂとを備えている。
【００４３】
フォルマント抽出部４３５ａは、人声を特徴付けさせる周波数強調成分であるフォルマントを抽出する部位である。
【００４４】
フォルマントは、通常、第１フォルマントや第２フォルマントなど複数の周波数帯域からなり、口蓋などの発声器官の振動数などにより概略決定される。一般に男性のフォルマント成分は周波数が低いところにあり、女性のフォルマント成分は周波数が高いところに存在する。このフォルマントの周波数特性を変化させると、他の人物が話をしているような音声に変調できる。
【００４５】
このフォルマント特性を抽出するには、以下で説明する方法がある。
【００４６】
図５に示すバイクワッド(Biquad)型フィルタを各々の中心周波数をずらして複数個並列に並べると、図６に示すような周波数特性を有するボコーダ方式のフィルタが形成される。ここで、これら個々のフィルターＦ１〜７を通った音声レベルを測定することにより、フォルマント特性の抽出が可能となる。すなわち、フィルタＦ１〜Ｆ７のうちレベルの高い出力が得られる周波数帯域がフォルマントに対応することとなる。
【００４７】
なお、フォルマント特性を抽出するのに、状態変数(State Variable)型の２次フィルタを複数並列に並べるようにしても良い。また、これらのフィルタを用いずに、ＦＦＴ(高速フーリエ変換)を利用して入力音声信号の周波数特性を直接算出することによりフォルマント特性を抽出しても良いが、一定の処理時間が必要となる。
【００４８】
また、フォルマント抽出部４３５ａにて、抽出されたフォルマントに基づき、入力音声信号からフォルマント特性を消去しても良い。つまり、図７に示すように、第１フォルマントＦＭ１、および第２フォルマントＦＭ２(それより高次の第３フォルマント・・・)の周波数位置は、発声者の人体的な特徴によりほぼ決定される。すなわち、話者がピッチＰＴ１で発声する場合や、ピッチＰＴ１より高周波のピッチＰＴ２で発声する場合でも、フォルマント特性ＦＭ１、ＦＭ２は変化しない。よって、変調部４３６には、このフォルマント特性をキャンセルさせる逆特性により、フォルマントが事前に除去された音声信号を入力するのが、音声変調の自由度向上を図れることとなる。以下では、このフォルマントをキャンセルさせる逆特性について説明する。
【００４９】
フォルマント成分を補正するには、イコライザーと呼ばれる、２次バンドパスフィルタ(ＢＰＦ)を複数用いて、周波数特性を変換する。デジタル処理においては、例えば双一次変換を行い係数を決定するバイクワッド型アルゴリズムや、状態変数型アルゴリズムなどが利用できる。この状態変数型アルゴリズムは、例えば図８に示す２次状態変数型フィルタで実現できる。この場合、乗算器Ｍ１の係数Ｆを調整することで中心周波数Ｆ０(図９)が変更でき、乗算器Ｍ２の係数Ｑを調整することでフィルタの傾き特性Ｑ(図９)が変更できる。
【００５０】
また、図１０に示す信号処理回路のように、２次ＢＰＦの出力と原音つまり入力音声信号とをミキシング(加算)することで、特定周波数Ｆ０の近傍において原音レベル(０ｄＢ)から強調する割合Ｌ(図１１)を設定できる。
【００５１】
なお、このようなＩＩＲ(無限長巡回型)フィルタを用いるのは必須でなく、有限インパルス応答を持つＦＩＲフィルタを利用しても良い。
【００５２】
次に、図１２のように、２次ＢＭＰの出口に乗算器Ｍ３を配置し、この乗算器Ｍ３で係数(−Ａ)が乗算された信号と、乗算器Ｍ４で適切な係数Ｂが乗算された原音の信号とを加算器Ａ１でミキシング(加算)することで、図１３に示すような特定周波数Ｆ０の近傍を減衰させる周波数特性を得ることができる。
【００５３】
そして、図１２に示すフィルターを複数直列に接続した信号処理回路(図１４)により、図１５に示すように、第１フォルマントＦＭ１および第２フォルマントＦＭ２をキャンセルさせる周波数特性が得られることとなる。
【００５４】
ピッチ抽出部４３５ｂは、入力音声信号のピッチ(基準周波数)を抽出する部位である。このピッチを抽出するには、入力音声信号をローパスフィルタ(Low Pass Filter)などである程度滑らかにし、これの信号周期を計測することでピッチが得られる。このピッチ抽出処理について、以下で説明する。
【００５５】
図１６は、ピッチ抽出処理を説明するための図である。
【００５６】
まず、例えば１次のＩＩＲフィルタを用いるエンベロープフォロアにより入力音声信号を平滑化する、つまり入力信号レベルの時間的変化すなわちエンベロープ(包絡線)信号を検出する(ステップＳ１１)。
【００５７】
そして、平滑化された入力信号のピークを検出して(ステップＳ１２)、波形成分のゼロクロス点の周期を演算することによりピッチを抽出する(ステップＳ１３)。これにより、入力音声信号のピッチが抽出されることとなる。
【００５８】
変調部４３６では、例えばピッチ変換やフォルマント変換などの音声変調処理を行うが、これらを以下で説明する。
【００５９】
図１７は、ピッチ変換を行うフィルタを説明するための図である。
【００６０】
ディレイラインＤＬでは、Ｗ点から遅延素子Ｚ^-nに書込まれる信号について、読出し点Ｒの位置が変更可能となっている。つまり、ｎの値の増減によって読出し点Ｒの位置をずらすことで、Ｙより出力される信号のサンプリング周波数が変化する。すなわち、ｎの値が大きいほど、格納されるデータの過去に遡る程度が増えることとなるため、出力される変換音声Ｙのピッチが低くなる一方、ｎの値が小さいほど格納されるデータの過去に遡る程度が減ることとなるため、出力される変換音声Ｙのピッチは高くなる。これにより、入力信号Ｘに対してＹより出力される信号のピッチ(周波数)が変化する。なお、図１７中の乗算器の係数Ｂは音質（周波数特性）の補正用であり、特に用いずとも良い。また、読出し点Ｒのアドレスを低周波オシレータ（図示せず）でわずかに変調することで、ゆらぎ（ビブラート）の効果を得ることができる。
【００６１】
フォルマント変換については、上述した図８の２次状態変数型フィルタを利用することで、乗算器Ｍ１の係数Ｆで設定される周波数について調整された出力Ｙを得ることができる。この２次状態変数型フィルタの伝達関数は、次の数１で表される。
【００６２】
【数１】

【００６３】
上式において、係数Ｆを１次関数的に変化させることにより、バンドパスフィルタの中心周波数を対数的に変化できる。つまり、係数Ｆが直線的に変化すれば、出力特性も聴感上直線的に変化することとなる。例えば、入力音声の周波数データに適当な倍数値(例えば２倍や３倍など)と係数とを掛けたものを係数Ｆに代入すれば、近似的に２倍音や３倍音などを強調するフィルター特性が実現できる。
【００６４】
すなわち、上記の２次状態変数型フィルタを利用することにより、音声信号においてフォルマントの追加や変更を自在に行えることとなる。
【００６５】
次に、音声変調に関する２つの具体例を説明する。
【００６６】
図１８は、音声変調の一例を説明するための図である。
【００６７】
図１７のフィルタを利用したピッチシフトによって、入力音声信号における元のピッチＰＴ１より高周波数のピッチＰＴ２(波線部)に変調する(つまり声を高くする)。この場合には、入力音声信号のピッチを抽出しながら、図８に示す２次状態変数型フィルタ(以下では「ピッチ追従型フィルタ」ともいう)を２基利用して、元の入力音声信号における第１フォルマントＦＭ１と第２フォルマントＦＭ２との周波数位置を同時に高周波側の位置ＦＰ１、ＦＰ２(波線部)にシフトすることも可能である。
【００６８】
これにより、例えば入力音声を高くするとともにフォルマント位置も高周波側にシフトすることで、まるで話者の体格がそのまま小さくなったようなスケール感を得られる。
【００６９】
図１９は、音声変調の他の例を説明するための図である。
【００７０】
この音声変調方式では、図１８に示す例と異なり、ピッチシフトにより本来発生するフォルマントのシフトを抑制する。具体的には、図８に示すピッチ追従型フィルタにおける乗算器Ｍ１の係数Ｆを、入力音声信号におけるフォルマントに対応した周波数位置に固定することにより、フォルマントのシフトが抑制される。また、ピッチ追従型フィルタに入力される音声信号のピッチの逆数に比例するように乗算器Ｍ１の係数Ｆを制御しても、フォルマントのシフトを抑えることができる。
【００７１】
例えば、元の入力音声におけるピッチＰＴ１より高周波数のピッチＰＴ２(波線部)に変調させる一方、ピッチ追従型フィルタにおける乗算器Ｍ１の係数Ｆを、入力音声信号から抽出されるフォルマントＦＭ１、ＦＭ２に対応する周波数に設定することにより、入力音声のフォルマント位置と同等のフォルマントＦＱ１、ＦＱ２(波線部)を有する出力音声を得られることとなる。
【００７２】
以上のような音声変調により、入力音声と出力音声とのフォルマントのずれが少ないため、現実離れした架空のキャラクターの如き極端な声とならず、男性の声を女性の声に変更したり、本人と若干相違する人物の発声音声とする効果が得られる。
【００７３】
以上では、入力音声信号から音声信号を生成する概念を説明したが、入力端末２や音声認識部１から入力されたテキスト情報に基づき音声合成部４２で合成された合成音声信号を変調する場合にも、上述したピッチ変換やフォルマント調整が行われる。この場合、フォルマントは、制御パラメータに基づき設定される基本周波数特性に対してフォルマントが付加されることとなる。
【００７４】
＜音声処理システム１の利用について＞
以上で説明した音声処理システム１について、以下で具体的な利用形態を説明する。
【００７５】
図２０は、音声処理システム１の利用例を説明するための図である。以下では、入力される映像やＣＧなどの動画データに対して、ナレーションを挿入する利用例を説明する。
【００７６】
基地局４の制御部４４(図２)は、再生速度制御部４４ａを有している。この再生速度制御部４４ａは、例えば入力端末２から入力される映像データやＣＧデータなどの動画の再生速度を調整する部位である。
【００７７】
また、基地局４のＲＡＭ４５(図２)は、バッファメモリ４５ａとして機能する領域を有している。このバッファメモリ４５ａは、再生速度制御部４４ａから出力される動画と、音声変調部４３から出力される音声とを合成するためのメモリとして働く。
【００７８】
音声変調部４３から出力される音声では、上述したように入力端末２からの入力音声のピッチ変換や音声合成部４２から出力される合成音声のピッチ変換とともに、フォルマントＦＭ１、ＦＭ２の周波数位置の調整を行うことができる。その結果、例えば
▲１▼30秒の映像シーンに適合するようにナレーションの音声を生成できる。
【００７９】
▲２▼ＣＧ・アニメの動きに合わせて、セリフを容易に挿入できる。
【００８０】
▲３▼セリフやナレーションの意味に応じて音声変調部４３で音声変調を行うことにより、感情などを表現できる。
【００８１】
▲４▼異なる登場人物ごとにフォルマント特性を設定することで、基礎となる入力音声信号が同一でも、登場人物ごとに特徴のある音声を容易に生成できる。
などの効果が期待できる。
【００８２】
図２１は、音声処理システム１の他の利用例を説明するための図である。
【００８３】
基地局４の映像同期部４０は、図２０に示す再生速度制御部４４ａに対応するもので、音声と映像との同期を図る部位である。
【００８４】
このような音声処理システムでは、入力端末に相当する音声配信局２ａから音声データおよび変調規則を基地局４に送信し、基地局４では変調規則に基づき、音声データを変調する。そして、基地局４で変調された音声を、出力端末に相当する視聴端末３ａに送信する。このようなメッセージサービス(音声変調サービス)では、音声配信局２ａに入力された音声と特徴の異なる音声を、入力端末２ａと異なる出力端末である視聴端末３ａで受信できることとなる。
【００８５】
また、入力端末に相当する音声(映像)利用局２ｂから送信された音声データ(および映像データ)を基地局４に送信し、基地局では、音声データを変調した(および映像データと同期した)コンテンツを生成する。そして、生成されたコンテンツを再び音声(映像)利用局２ｂで受信する。このようなＳＳＡ(Server Side Authoring)サービスでは、音声(映像)利用局２ｂにおいて基地局４に送ったコンテンツを再利用できるため、ユーザの利便性が向上する。
【００８６】
以上説明した音声処理システム１では、音声認識と音声合成と音声変調とを組合わせて出力音声信号を生成するため、様々な音声信号を簡易に生成できる。すなわち、音声変調部４３においてフォルマント処理およびピッチシフト処理を行うため、男性・女性を始め子供から老人やキャラクターまで様々な音声のバリエーションが得られることができる。
【００８７】
なお、音声処理システム１については、図１に示す構成を有するのは必須でなく、次で説明する音声処理システム１Ａ〜１Ｆの構成を有しても良い。すなわち、音声処理システム１の各機能を、入力端末、出力端末および基地局に任意に割り振っても良い。
【００８８】
図２２は、音声処理システム１の他の構成を説明するための図である。
【００８９】
音声処理システム１Ａでは、図２２(ａ)に示すように、入力端末２Ａが音声入力部２１と音声認識部４１とを備え、出力端末３Ｂが音声変調部４３と音声出力部３１とを備えるとともに、基地局４Ａには音声合成部４２が設けられている。
【００９０】
音声処理システム１Ｂでは、図２２(ｂ)に示すように、入力端末２Ｂが音声入力部２１と音声認識部４１とを備え、出力端末３Ｂが音声出力部３１とを備えるとともに、基地局４Ａには音声合成部４２と音声変調部４３とが設けられている。
【００９１】
音声処理システム１Ｃでは、図２２(ｃ)に示すように、入力端末２Ｃが音声入力部２１を備え、出力端末３Ｃが音声変調部４３と音声出力部３１とを備えるとともに、基地局４Ｃには音声認識部４１と音声合成部４２とが設けられている。
【００９２】
また、音声処理システム１から音声認識部４１を削除した音声処理システム１Ｄでも良い。すなわち、音声処理システム１Ｄは、入力端末２Ｄが文字入力部２２を備え、出力端末３Ｄが音声出力部３１を備えるとともに、基地局４Ｄには音声合成部４２と音声変調部４３とが設けられている。
【００９３】
さらに、音声処理システム１Ｄから音声合成部４２を削除し、文字入力部２２の替わりに音声入力部２１とした音声処理システム１Ｅでも良い。すなわち、音声処理システム１Ｅは、入力端末２Ｅが音声入力部２１を備え、出力端末３Ｅが音声出力部３１を備えるとともに、基地局４Ｅには音声変調部４３が設けられている。
【００９４】
また、図１に示す音声処理システム１における入力端末２と出力端末３とを共有化し、図２２(ｆ)に示す音声処理システム１Ｆの構成としても良い。この音声処理システム１Ｆでは、上述したＳＳＡサービスと同等に、自らが基地局に発信した音声信号に付加価値が付いて戻ってくることとなる。
【００９５】
＜変形例＞
◎上記の実施形態における音声変調処理においては、ピッチ追従型フィルタを使用するのは必須でなく、効果の種類に応じて不必要な場合には省略しても良い。
【００９６】
◎上記の実施形態における入力端末および出力端末については、携帯電話やＰＤＡなどを利用しても良い。
【００９７】
【発明の効果】
以上説明したように、請求項１の発明によれば、入力端末に入力された入力音声信号を音声認識により変換した文字情報に基づく音声合成により合成音声信号を生成し、この合成音声信号に対して音声変調を行って変調音声信号を生成する。その結果、様々な音声信号を簡易に生成できる。すなわち、音声認識、音声合成および音声変調をシーケンシャルに組み合わせることにより、音声入力を一旦文字情報に変換した後に合成・変調できるため、話者の特徴を完全に消去して別のキャラクターの音声を生成できる。また、文字情報に変換した時点で、入力音声の速度(テンポやデュレーション)に依存しなくなるため、その後の合成・変調でユーザのニーズにそった速度での音声再生が可能になり、映像シーンとの時間同期やＣＧとのシンクロ再生に適することとなる。さらに、音声処理サーバ上に音声処理を集中する場合には、入力端末や出力端末の仕様や処理速度・処理能力に依存しないシステムを構築できる。
【００９８】
また、請求項２の発明によれば、入力端末に入力された文字情報に基づく音声合成によって合成音声信号を生成する。その結果、様々な音声信号を簡易に生成できる。すなわち、音声合成処理のみでは得られない多くの音声バリエーションを得ることができる。また、メールやストリーミング・テキスト入力の文字をユーザが視認できる状況でない場合(例えば車の運転中)でも、音声で情報を伝えることが可能となる。特に、音声変調により状況に応じた音声バリエーション、例えば怒りを表現する文字情報の場合には語気を荒げる発声が行える。
【００９９】
また、請求項３の発明においては、変調音声信号が入力端末と異なる出力端末で受信されるため、変調音声信号の配信を適切に行える。
【０１００】
また、請求項４の発明においては、変調音声信号が入力端末で受信されるため、入力端末を使うユーザの利便性が向上する。
【図面の簡単な説明】
【図１】本発明の実施形態に係る音声処理システム１の要部構成を示す図である。
【図２】基地局４の要部構成を示すブロック図である。
【図３】音声合成処理を説明するための図である。
【図４】音声変調処理の概念を説明するための図である。
【図５】バイクワッド型フィルタを説明するための図である。
【図６】ボコーダ方式のフィルタを説明するための図である。
【図７】ピッチとフォルマントとを説明する図である。
【図８】２次状態変数型フィルタを示す図である。
【図９】２次状態変数型フィルタの周波数特性を説明するための図である。
【図１０】２次ＢＰＦの出力と原音とのミキシングについて説明する図である。
【図１１】図１０の信号処理回路に関する周波数特性を説明するための図である。
【図１２】２次ＢＰＦの出力に負の係数が乗算された信号と原音とのミキシングについて説明する図である。
【図１３】図１２の信号処理回路に関する周波数特性を説明するための図である。
【図１４】図１２のフィルタを複数直列に接続した信号処理回路を示す図である。
【図１５】図１４の信号処理回路に関する周波数特性を説明するための図である。
【図１６】ピッチ抽出処理を説明するための図である。
【図１７】ピッチ変換を行うフィルタを説明するための図である。
【図１８】音声変調の一例を説明するための図である。
【図１９】音声変調の他の例を説明するための図である。
【図２０】音声処理システム１の利用例を説明するための図である。
【図２１】音声処理システム１の他の利用例を説明するための図である。
【図２２】音声処理システム１の他の構成を説明するための図である。
【図２３】従来技術に係るフォルマントを説明するための図である。
【符号の説明】
１、１Ａ〜１Ｆ音声処理システム
２、２Ａ〜２Ｆ入力端末
３、３Ａ〜３Ｆ出力端末
４、４Ａ〜４Ｆ基地局
４１音声認識部
４２音声合成部
４３音声変調部
４３５特徴抽出部
４３６変調部
ＰＴ１、ＰＴ２ピッチ
ＦＭ１、ＦＭ２、ＦＰ１、ＦＰ２、ＦＱ１、ＦＱ２フォルマント

Claims

入力端末と音声処理サーバとを含む情報処理要素群が相互にデータ伝送可能に結合された音声処理システムであって、
前記情報処理要素群が、
前記入力端末に入力された入力音声信号を、音声認識により文字情報に変換する音声認識手段と、
前記文字情報に基づく音声合成により、合成音声信号を生成する音声合成手段と、
前記合成音声信号に対して音声変調を行い、変調音声信号を生成する音声変調手段と、
を備えることを特徴とする音声処理システム。
入力端末と音声処理サーバとを含む情報処理要素群が相互にデータ伝送可能に結合された音声処理システムであって、
前記情報処理要素群が、
前記入力端末に入力された文字情報に基づく音声合成により、合成音声信号を生成する音声合成手段と、
前記合成音声信号に対して音声変調を行い、変調音声信号を生成する音声変調手段と、
を備えることを特徴とする音声処理システム。
請求項１または請求項２に記載の音声処理システムにおいて、
前記変調音声信号は、前記入力端末と異なる出力端末で受信されることを特徴とする音声処理システム。
請求項１または請求項２に記載の音声処理システムにおいて、
前記変調音声信号は、前記入力端末で受信されることを特徴とする音声処理システム。