JP2004205624A - 音声処理システム - Google Patents
音声処理システム Download PDFInfo
- Publication number
- JP2004205624A JP2004205624A JP2002371999A JP2002371999A JP2004205624A JP 2004205624 A JP2004205624 A JP 2004205624A JP 2002371999 A JP2002371999 A JP 2002371999A JP 2002371999 A JP2002371999 A JP 2002371999A JP 2004205624 A JP2004205624 A JP 2004205624A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- speech
- audio
- signal
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】様々な音声信号を簡易に生成できる音声処理システムを提供する。
【解決手段】基地局4では、入力端末から入力された音声入力に対して、音声認識部41で音声認識を行い、テキスト情報を変換する。このテキスト情報に基づき音声合成部42で辞書DB44を参照しつつ音素片を合成して、合成音声信号を生成する。そして、音声変調部43において、合成音声信号に対して入力端末から入力されるユーザの要求に基づく音声変調を行い、変調音声信号を出力する。また、基地局4では、入力端末から入力されるテキスト情報に基づく音声合成および音声変調を行って、変調音声信号を出力できる。このように変調音声信号を生成することにより、様々な音声信号を簡易に生成できることとなる。
【選択図】 図2
【解決手段】基地局4では、入力端末から入力された音声入力に対して、音声認識部41で音声認識を行い、テキスト情報を変換する。このテキスト情報に基づき音声合成部42で辞書DB44を参照しつつ音素片を合成して、合成音声信号を生成する。そして、音声変調部43において、合成音声信号に対して入力端末から入力されるユーザの要求に基づく音声変調を行い、変調音声信号を出力する。また、基地局4では、入力端末から入力されるテキスト情報に基づく音声合成および音声変調を行って、変調音声信号を出力できる。このように変調音声信号を生成することにより、様々な音声信号を簡易に生成できることとなる。
【選択図】 図2
Description
【0001】
【発明の属する技術分野】
本発明は、入力端末と音声処理サーバとを有する音声処理システムに関する。
【0002】
【従来の技術】
音声処理技術については、音声合成や音声変調など各種の処理がある。
【0003】
音声合成技術としては、入力された文字情報について文節・文章解析を行い、データベースから適切な音素片を検索・合成して音声信号を生成する技術がある。この音声合成技術は、例えばArcadia社のSpeecanなどで利用されている。また、上記の構文解析と音素片合成とを用いる音声合成技術は、例えば特許文献1に開示されている。
【0004】
音声変調技術としては、ピッチ変換やフォルマント変換に関する技術があり、例えば特許文献2や特許文献3などに開示されている。なお、フォルマントとは、人声を特徴づけさせる周波数強調成分のことで、図23に示す第1フォルマントFM1や第2フォルマントFM2のように、複数の周波数帯域で構成される。
【0005】
【特許文献1】
特開平6−342297号公報
【特許文献2】
特開2001−282267号公報
【特許文献3】
特開2002−169600号公報
【0006】
【発明が解決しようとする課題】
しかしながら、上記の音声合成技術では、データベースから抽出される音素片や文章(フレーズ)を合成して合成音声信号を生成するため、様々なキャラクターの音声(声色)を作るには不向きである。なお、膨大な容量のデータベースがあれば、様々な声色を合成することは可能であるが、現実的でない。
【0007】
また、上記の音声変調技術、すなわちピッチ変換およびフォルマント変調技術では、入力音声を直接加工することが前提であるため、変調可能な声色の範囲が限定されたり、話者の話し方のクセがそのまま変調されてしまい、多少声色を変更しても元の話者の特徴を完全に消去することは困難である。その結果、話者が誰であるかの特定が容易となってしまう。
【0008】
さらに、上記の音声変調技術により、アバターやCG・アニメなどの動画に音声を付加する場合、いわゆるアフレコ(アテレコ)が必要となる。すなわち、動画の動きに合わせて声優が発音しなければならず、経験やテクニックが要求され、容易な作業でない。
【0009】
本発明は、上記課題に鑑みてなされたものであり、様々な音声信号を簡易に生成できる音声処理システムを提供することを目的とする。
【0010】
【課題を解決するための手段】
上記の課題を解決するため、請求項1の発明は、入力端末と音声処理サーバとを含む情報処理要素群が相互にデータ伝送可能に結合された音声処理システムであって、前記情報処理要素群が、前記入力端末に入力された入力音声信号を、音声認識により文字情報に変換する音声認識手段と、前記文字情報に基づく音声合成により、合成音声信号を生成する音声合成手段と、前記合成音声信号に対して音声変調を行い、変調音声信号を生成する音声変調手段とを備える。
【0011】
また、請求項2の発明は、入力端末と音声処理サーバとを含む情報処理要素群が相互にデータ伝送可能に結合された音声処理システムであって、前記情報処理要素群が、前記入力端末に入力された文字情報に基づく音声合成により、合成音声信号を生成する音声合成手段と、前記合成音声信号に対して音声変調を行い、変調音声信号を生成する音声変調手段とを備える。
【0012】
また、請求項3の発明は、請求項1または請求項2の発明に係る音声処理システムにおいて、前記変調音声信号は、前記入力端末と異なる出力端末で受信される。
【0013】
また、請求項4の発明は、請求項1または請求項2の発明に係る音声処理システムにおいて、前記変調音声信号は、前記入力端末で受信される。
【0014】
【発明の実施の形態】
<音声処理システムの要部構成>
図1は、本発明の実施形態に係る音声処理システム1の要部構成を示す図である。
【0015】
音声処理システム1は、入力端末2および出力端末3と、これらの端末2、3と例えばインターネットで通信可能に接続する基地局4とを備えている。すなわち、音声処理システム1は、入力端末2と出力端末3と基地局4とを含む情報処理要素群が相互にデータ伝送可能に結合されている。
【0016】
入力端末2は、例えばパーソナルコンピュータとして構成され、マイクを有して音声入力を受付ける音声入力部21を備えている。
【0017】
出力端末3は、例えばパーソナルコンピュータとして構成され、スピーカを有して音声出力を行う音声出力部31を備えている。
【0018】
基地局4は、音声処理サーバとして機能し、音声認識部41と、音声合成部42と、音声変調部43とを備えている。基地局4の各部については、以下で詳述する。
【0019】
図2は、基地局4の要部構成を示すブロック図である。
【0020】
音声認識部41は、入力端末2に入力された入力音声信号を音声認識により文字情報に変換する音声認識手段として機能する。この音声認識部41は、音声音声解析部411と、構文予測部412と、FFT演算部413とを有している。
【0021】
音声認識部41における音声認識手法としては、車両やカーナビをはじめ、PCやICレコーダなどで採用されている、例えば隠れマルコフ法を利用する。
【0022】
音声解析部411は、入力端末2の音声入力部21から入力音声信号を解析する。
【0023】
構文予測部412は、辞書データベース(DB)44を参照して構文を予測し、入力音声信号を文字情報に変換する。
【0024】
FFT演算部413は、高速フーリエ変換(FFT)によって、入力音声信号を周波数領域に変換する部位である。
【0025】
音声合成部42は、音声認識部41で生成された文字情報、または入力端末2に入力された文字情報に基づく音声合成により、合成音声信号を生成する音声合成手段として機能する。この音声合成部42は、主に構文解釈部421と音素片合成部422とを有している。
【0026】
構文解釈部421は、端末2や音声認識部41から入力されるテキスト情報の構文を解釈する部位である。
【0027】
音素片合成部422は、辞書DB44に記憶される音素片を合成して、合成音声信号を生成する部位である。
【0028】
音声変調部43は、音声合成部42で合成された合成音声信号に対して音声変調を行い、変調音声信号を生成する音声変調手段として機能する。この音声変調部43は、デジタルフィルタ431と、デジタルディレイ432と、オシレータ433とを有しており、これらの各部を協働して動作させることにより、後述する音声変調処理が行われる。
【0029】
音声変調部43に対しては、例えば高い声で音声出力を行う旨の要求など、入力端末2から入力される変調係数等の制御パラメータに基づく制御が、制御部45内の動作プログラムによって実行される。また、音声変調部43での音声変調処理の際には、ワークメモリとして働くRAM46が適宜使用される。
【0030】
<音声合成処理について>
音声合成部42では、音声合成処理が行われるが、この処理の詳細について以下で説明する。なお、この処理では、辞書DB44内の文節辞書44aと音素片辞書44bが活用される。
【0031】
図3は、音声合成処理を説明するための図である。
【0032】
まず、入力端末2や音声認識部41からテキストが入力されると、構文解釈部421で構文の解釈が行われ(ステップS1)、句読点で分解される(ステップS2)。
【0033】
次に、文節辞書44aを参照しつつ文節ごとに分解し(ステップS3)、分解された文節に対応する音素片を音素片辞書44bから検索する(ステップS4)。
【0034】
そして、音素片辞書44bから検索された音素片を合成し(ステップS5)、バファメモリ423に格納する。
【0035】
最後に、合成された音素片をバッファメモリ423から読出して、合成音声信号を生成する(ステップS6)。
【0036】
以上の音声合成処理により、テキスト情報を音声信号に変換して出力できることとなる。
【0037】
<音声変調処理について>
音声変調部43では、音声変調処理を行うが、この処理の詳細について以下で説明する。
【0038】
図4は、音声変調処理の概念を説明するための図である。
【0039】
音声変調部43は、特徴抽出部435と変調部436とを備えている。
【0040】
特徴抽出部435から抽出されるピッチやフォルマントの情報と、入力端末2で設定される制御パラメータとに基づき、変換規則DB437内の規則データを参照して変換(制御)規則が設定されるが、この変換規則に応じて変調部436で音声変調が行われる。
【0041】
変換規則DB437には、女声や男声、動物の鳴き声などの各種音声信号の特徴成分の情報が蓄積されている。
【0042】
特徴抽出部435は、フォルマント(formant)抽出部435aと、ピッチ抽出部435bとを備えている。
【0043】
フォルマント抽出部435aは、人声を特徴付けさせる周波数強調成分であるフォルマントを抽出する部位である。
【0044】
フォルマントは、通常、第1フォルマントや第2フォルマントなど複数の周波数帯域からなり、口蓋などの発声器官の振動数などにより概略決定される。一般に男性のフォルマント成分は周波数が低いところにあり、女性のフォルマント成分は周波数が高いところに存在する。このフォルマントの周波数特性を変化させると、他の人物が話をしているような音声に変調できる。
【0045】
このフォルマント特性を抽出するには、以下で説明する方法がある。
【0046】
図5に示すバイクワッド(Biquad)型フィルタを各々の中心周波数をずらして複数個並列に並べると、図6に示すような周波数特性を有するボコーダ方式のフィルタが形成される。ここで、これら個々のフィルターF1〜7を通った音声レベルを測定することにより、フォルマント特性の抽出が可能となる。すなわち、フィルタF1〜F7のうちレベルの高い出力が得られる周波数帯域がフォルマントに対応することとなる。
【0047】
なお、フォルマント特性を抽出するのに、状態変数(State Variable)型の2次フィルタを複数並列に並べるようにしても良い。また、これらのフィルタを用いずに、FFT(高速フーリエ変換)を利用して入力音声信号の周波数特性を直接算出することによりフォルマント特性を抽出しても良いが、一定の処理時間が必要となる。
【0048】
また、フォルマント抽出部435aにて、抽出されたフォルマントに基づき、入力音声信号からフォルマント特性を消去しても良い。つまり、図7に示すように、第1フォルマントFM1、および第2フォルマントFM2(それより高次の第3フォルマント・・・)の周波数位置は、発声者の人体的な特徴によりほぼ決定される。すなわち、話者がピッチPT1で発声する場合や、ピッチPT1より高周波のピッチPT2で発声する場合でも、フォルマント特性FM1、FM2は変化しない。よって、変調部436には、このフォルマント特性をキャンセルさせる逆特性により、フォルマントが事前に除去された音声信号を入力するのが、音声変調の自由度向上を図れることとなる。以下では、このフォルマントをキャンセルさせる逆特性について説明する。
【0049】
フォルマント成分を補正するには、イコライザーと呼ばれる、2次バンドパスフィルタ(BPF)を複数用いて、周波数特性を変換する。デジタル処理においては、例えば双一次変換を行い係数を決定するバイクワッド型アルゴリズムや、状態変数型アルゴリズムなどが利用できる。この状態変数型アルゴリズムは、例えば図8に示す2次状態変数型フィルタで実現できる。この場合、乗算器M1の係数Fを調整することで中心周波数F0(図9)が変更でき、乗算器M2の係数Qを調整することでフィルタの傾き特性Q(図9)が変更できる。
【0050】
また、図10に示す信号処理回路のように、2次BPFの出力と原音つまり入力音声信号とをミキシング(加算)することで、特定周波数F0の近傍において原音レベル(0dB)から強調する割合L(図11)を設定できる。
【0051】
なお、このようなIIR(無限長巡回型)フィルタを用いるのは必須でなく、有限インパルス応答を持つFIRフィルタを利用しても良い。
【0052】
次に、図12のように、2次BMPの出口に乗算器M3を配置し、この乗算器M3で係数(−A)が乗算された信号と、乗算器M4で適切な係数Bが乗算された原音の信号とを加算器A1でミキシング(加算)することで、図13に示すような特定周波数F0の近傍を減衰させる周波数特性を得ることができる。
【0053】
そして、図12に示すフィルターを複数直列に接続した信号処理回路(図14)により、図15に示すように、第1フォルマントFM1および第2フォルマントFM2をキャンセルさせる周波数特性が得られることとなる。
【0054】
ピッチ抽出部435bは、入力音声信号のピッチ(基準周波数)を抽出する部位である。このピッチを抽出するには、入力音声信号をローパスフィルタ(Low Pass Filter)などである程度滑らかにし、これの信号周期を計測することでピッチが得られる。このピッチ抽出処理について、以下で説明する。
【0055】
図16は、ピッチ抽出処理を説明するための図である。
【0056】
まず、例えば1次のIIRフィルタを用いるエンベロープフォロアにより入力音声信号を平滑化する、つまり入力信号レベルの時間的変化すなわちエンベロープ(包絡線)信号を検出する(ステップS11)。
【0057】
そして、平滑化された入力信号のピークを検出して(ステップS12)、波形成分のゼロクロス点の周期を演算することによりピッチを抽出する(ステップS13)。これにより、入力音声信号のピッチが抽出されることとなる。
【0058】
変調部436では、例えばピッチ変換やフォルマント変換などの音声変調処理を行うが、これらを以下で説明する。
【0059】
図17は、ピッチ変換を行うフィルタを説明するための図である。
【0060】
ディレイラインDLでは、W点から遅延素子Z-nに書込まれる信号について、読出し点Rの位置が変更可能となっている。つまり、nの値の増減によって読出し点Rの位置をずらすことで、Yより出力される信号のサンプリング周波数が変化する。すなわち、nの値が大きいほど、格納されるデータの過去に遡る程度が増えることとなるため、出力される変換音声Yのピッチが低くなる一方、nの値が小さいほど格納されるデータの過去に遡る程度が減ることとなるため、出力される変換音声Yのピッチは高くなる。これにより、入力信号Xに対してYより出力される信号のピッチ(周波数)が変化する。なお、図17中の乗算器の係数Bは音質(周波数特性)の補正用であり、特に用いずとも良い。また、読出し点Rのアドレスを低周波オシレータ(図示せず)でわずかに変調することで、ゆらぎ(ビブラート)の効果を得ることができる。
【0061】
フォルマント変換については、上述した図8の2次状態変数型フィルタを利用することで、乗算器M1の係数Fで設定される周波数について調整された出力Yを得ることができる。この2次状態変数型フィルタの伝達関数は、次の数1で表される。
【0062】
【数1】
【0063】
上式において、係数Fを1次関数的に変化させることにより、バンドパスフィルタの中心周波数を対数的に変化できる。つまり、係数Fが直線的に変化すれば、出力特性も聴感上直線的に変化することとなる。例えば、入力音声の周波数データに適当な倍数値(例えば2倍や3倍など)と係数とを掛けたものを係数Fに代入すれば、近似的に2倍音や3倍音などを強調するフィルター特性が実現できる。
【0064】
すなわち、上記の2次状態変数型フィルタを利用することにより、音声信号においてフォルマントの追加や変更を自在に行えることとなる。
【0065】
次に、音声変調に関する2つの具体例を説明する。
【0066】
図18は、音声変調の一例を説明するための図である。
【0067】
図17のフィルタを利用したピッチシフトによって、入力音声信号における元のピッチPT1より高周波数のピッチPT2(波線部)に変調する(つまり声を高くする)。この場合には、入力音声信号のピッチを抽出しながら、図8に示す2次状態変数型フィルタ(以下では「ピッチ追従型フィルタ」ともいう)を2基利用して、元の入力音声信号における第1フォルマントFM1と第2フォルマントFM2との周波数位置を同時に高周波側の位置FP1、FP2(波線部)にシフトすることも可能である。
【0068】
これにより、例えば入力音声を高くするとともにフォルマント位置も高周波側にシフトすることで、まるで話者の体格がそのまま小さくなったようなスケール感を得られる。
【0069】
図19は、音声変調の他の例を説明するための図である。
【0070】
この音声変調方式では、図18に示す例と異なり、ピッチシフトにより本来発生するフォルマントのシフトを抑制する。具体的には、図8に示すピッチ追従型フィルタにおける乗算器M1の係数Fを、入力音声信号におけるフォルマントに対応した周波数位置に固定することにより、フォルマントのシフトが抑制される。また、ピッチ追従型フィルタに入力される音声信号のピッチの逆数に比例するように乗算器M1の係数Fを制御しても、フォルマントのシフトを抑えることができる。
【0071】
例えば、元の入力音声におけるピッチPT1より高周波数のピッチPT2(波線部)に変調させる一方、ピッチ追従型フィルタにおける乗算器M1の係数Fを、入力音声信号から抽出されるフォルマントFM1、FM2に対応する周波数に設定することにより、入力音声のフォルマント位置と同等のフォルマントFQ1、FQ2(波線部)を有する出力音声を得られることとなる。
【0072】
以上のような音声変調により、入力音声と出力音声とのフォルマントのずれが少ないため、現実離れした架空のキャラクターの如き極端な声とならず、男性の声を女性の声に変更したり、本人と若干相違する人物の発声音声とする効果が得られる。
【0073】
以上では、入力音声信号から音声信号を生成する概念を説明したが、入力端末2や音声認識部1から入力されたテキスト情報に基づき音声合成部42で合成された合成音声信号を変調する場合にも、上述したピッチ変換やフォルマント調整が行われる。この場合、フォルマントは、制御パラメータに基づき設定される基本周波数特性に対してフォルマントが付加されることとなる。
【0074】
<音声処理システム1の利用について>
以上で説明した音声処理システム1について、以下で具体的な利用形態を説明する。
【0075】
図20は、音声処理システム1の利用例を説明するための図である。以下では、入力される映像やCGなどの動画データに対して、ナレーションを挿入する利用例を説明する。
【0076】
基地局4の制御部44(図2)は、再生速度制御部44aを有している。この再生速度制御部44aは、例えば入力端末2から入力される映像データやCGデータなどの動画の再生速度を調整する部位である。
【0077】
また、基地局4のRAM45(図2)は、バッファメモリ45aとして機能する領域を有している。このバッファメモリ45aは、再生速度制御部44aから出力される動画と、音声変調部43から出力される音声とを合成するためのメモリとして働く。
【0078】
音声変調部43から出力される音声では、上述したように入力端末2からの入力音声のピッチ変換や音声合成部42から出力される合成音声のピッチ変換とともに、フォルマントFM1、FM2の周波数位置の調整を行うことができる。その結果、例えば
▲1▼30秒の映像シーンに適合するようにナレーションの音声を生成できる。
【0079】
▲2▼CG・アニメの動きに合わせて、セリフを容易に挿入できる。
【0080】
▲3▼セリフやナレーションの意味に応じて音声変調部43で音声変調を行うことにより、感情などを表現できる。
【0081】
▲4▼異なる登場人物ごとにフォルマント特性を設定することで、基礎となる入力音声信号が同一でも、登場人物ごとに特徴のある音声を容易に生成できる。
などの効果が期待できる。
【0082】
図21は、音声処理システム1の他の利用例を説明するための図である。
【0083】
基地局4の映像同期部40は、図20に示す再生速度制御部44aに対応するもので、音声と映像との同期を図る部位である。
【0084】
このような音声処理システムでは、入力端末に相当する音声配信局2aから音声データおよび変調規則を基地局4に送信し、基地局4では変調規則に基づき、音声データを変調する。そして、基地局4で変調された音声を、出力端末に相当する視聴端末3aに送信する。このようなメッセージサービス(音声変調サービス)では、音声配信局2aに入力された音声と特徴の異なる音声を、入力端末2aと異なる出力端末である視聴端末3aで受信できることとなる。
【0085】
また、入力端末に相当する音声(映像)利用局2bから送信された音声データ(および映像データ)を基地局4に送信し、基地局では、音声データを変調した(および映像データと同期した)コンテンツを生成する。そして、生成されたコンテンツを再び音声(映像)利用局2bで受信する。このようなSSA(Server Side Authoring)サービスでは、音声(映像)利用局2bにおいて基地局4に送ったコンテンツを再利用できるため、ユーザの利便性が向上する。
【0086】
以上説明した音声処理システム1では、音声認識と音声合成と音声変調とを組合わせて出力音声信号を生成するため、様々な音声信号を簡易に生成できる。すなわち、音声変調部43においてフォルマント処理およびピッチシフト処理を行うため、男性・女性を始め子供から老人やキャラクターまで様々な音声のバリエーションが得られることができる。
【0087】
なお、音声処理システム1については、図1に示す構成を有するのは必須でなく、次で説明する音声処理システム1A〜1Fの構成を有しても良い。すなわち、音声処理システム1の各機能を、入力端末、出力端末および基地局に任意に割り振っても良い。
【0088】
図22は、音声処理システム1の他の構成を説明するための図である。
【0089】
音声処理システム1Aでは、図22(a)に示すように、入力端末2Aが音声入力部21と音声認識部41とを備え、出力端末3Bが音声変調部43と音声出力部31とを備えるとともに、基地局4Aには音声合成部42が設けられている。
【0090】
音声処理システム1Bでは、図22(b)に示すように、入力端末2Bが音声入力部21と音声認識部41とを備え、出力端末3Bが音声出力部31とを備えるとともに、基地局4Aには音声合成部42と音声変調部43とが設けられている。
【0091】
音声処理システム1Cでは、図22(c)に示すように、入力端末2Cが音声入力部21を備え、出力端末3Cが音声変調部43と音声出力部31とを備えるとともに、基地局4Cには音声認識部41と音声合成部42とが設けられている。
【0092】
また、音声処理システム1から音声認識部41を削除した音声処理システム1Dでも良い。すなわち、音声処理システム1Dは、入力端末2Dが文字入力部22を備え、出力端末3Dが音声出力部31を備えるとともに、基地局4Dには音声合成部42と音声変調部43とが設けられている。
【0093】
さらに、音声処理システム1Dから音声合成部42を削除し、文字入力部22の替わりに音声入力部21とした音声処理システム1Eでも良い。すなわち、音声処理システム1Eは、入力端末2Eが音声入力部21を備え、出力端末3Eが音声出力部31を備えるとともに、基地局4Eには音声変調部43が設けられている。
【0094】
また、図1に示す音声処理システム1における入力端末2と出力端末3とを共有化し、図22(f)に示す音声処理システム1Fの構成としても良い。この音声処理システム1Fでは、上述したSSAサービスと同等に、自らが基地局に発信した音声信号に付加価値が付いて戻ってくることとなる。
【0095】
<変形例>
◎上記の実施形態における音声変調処理においては、ピッチ追従型フィルタを使用するのは必須でなく、効果の種類に応じて不必要な場合には省略しても良い。
【0096】
◎上記の実施形態における入力端末および出力端末については、携帯電話やPDAなどを利用しても良い。
【0097】
【発明の効果】
以上説明したように、請求項1の発明によれば、入力端末に入力された入力音声信号を音声認識により変換した文字情報に基づく音声合成により合成音声信号を生成し、この合成音声信号に対して音声変調を行って変調音声信号を生成する。その結果、様々な音声信号を簡易に生成できる。すなわち、音声認識、音声合成および音声変調をシーケンシャルに組み合わせることにより、音声入力を一旦文字情報に変換した後に合成・変調できるため、話者の特徴を完全に消去して別のキャラクターの音声を生成できる。また、文字情報に変換した時点で、入力音声の速度(テンポやデュレーション)に依存しなくなるため、その後の合成・変調でユーザのニーズにそった速度での音声再生が可能になり、映像シーンとの時間同期やCGとのシンクロ再生に適することとなる。さらに、音声処理サーバ上に音声処理を集中する場合には、入力端末や出力端末の仕様や処理速度・処理能力に依存しないシステムを構築できる。
【0098】
また、請求項2の発明によれば、入力端末に入力された文字情報に基づく音声合成によって合成音声信号を生成する。その結果、様々な音声信号を簡易に生成できる。すなわち、音声合成処理のみでは得られない多くの音声バリエーションを得ることができる。また、メールやストリーミング・テキスト入力の文字をユーザが視認できる状況でない場合(例えば車の運転中)でも、音声で情報を伝えることが可能となる。特に、音声変調により状況に応じた音声バリエーション、例えば怒りを表現する文字情報の場合には語気を荒げる発声が行える。
【0099】
また、請求項3の発明においては、変調音声信号が入力端末と異なる出力端末で受信されるため、変調音声信号の配信を適切に行える。
【0100】
また、請求項4の発明においては、変調音声信号が入力端末で受信されるため、入力端末を使うユーザの利便性が向上する。
【図面の簡単な説明】
【図1】本発明の実施形態に係る音声処理システム1の要部構成を示す図である。
【図2】基地局4の要部構成を示すブロック図である。
【図3】音声合成処理を説明するための図である。
【図4】音声変調処理の概念を説明するための図である。
【図5】バイクワッド型フィルタを説明するための図である。
【図6】ボコーダ方式のフィルタを説明するための図である。
【図7】ピッチとフォルマントとを説明する図である。
【図8】2次状態変数型フィルタを示す図である。
【図9】2次状態変数型フィルタの周波数特性を説明するための図である。
【図10】2次BPFの出力と原音とのミキシングについて説明する図である。
【図11】図10の信号処理回路に関する周波数特性を説明するための図である。
【図12】2次BPFの出力に負の係数が乗算された信号と原音とのミキシングについて説明する図である。
【図13】図12の信号処理回路に関する周波数特性を説明するための図である。
【図14】図12のフィルタを複数直列に接続した信号処理回路を示す図である。
【図15】図14の信号処理回路に関する周波数特性を説明するための図である。
【図16】ピッチ抽出処理を説明するための図である。
【図17】ピッチ変換を行うフィルタを説明するための図である。
【図18】音声変調の一例を説明するための図である。
【図19】音声変調の他の例を説明するための図である。
【図20】音声処理システム1の利用例を説明するための図である。
【図21】音声処理システム1の他の利用例を説明するための図である。
【図22】音声処理システム1の他の構成を説明するための図である。
【図23】従来技術に係るフォルマントを説明するための図である。
【符号の説明】
1、1A〜1F 音声処理システム
2、2A〜2F 入力端末
3、3A〜3F 出力端末
4、4A〜4F 基地局
41 音声認識部
42 音声合成部
43 音声変調部
435 特徴抽出部
436 変調部
PT1、PT2 ピッチ
FM1、FM2、FP1、FP2、FQ1、FQ2 フォルマント
【発明の属する技術分野】
本発明は、入力端末と音声処理サーバとを有する音声処理システムに関する。
【0002】
【従来の技術】
音声処理技術については、音声合成や音声変調など各種の処理がある。
【0003】
音声合成技術としては、入力された文字情報について文節・文章解析を行い、データベースから適切な音素片を検索・合成して音声信号を生成する技術がある。この音声合成技術は、例えばArcadia社のSpeecanなどで利用されている。また、上記の構文解析と音素片合成とを用いる音声合成技術は、例えば特許文献1に開示されている。
【0004】
音声変調技術としては、ピッチ変換やフォルマント変換に関する技術があり、例えば特許文献2や特許文献3などに開示されている。なお、フォルマントとは、人声を特徴づけさせる周波数強調成分のことで、図23に示す第1フォルマントFM1や第2フォルマントFM2のように、複数の周波数帯域で構成される。
【0005】
【特許文献1】
特開平6−342297号公報
【特許文献2】
特開2001−282267号公報
【特許文献3】
特開2002−169600号公報
【0006】
【発明が解決しようとする課題】
しかしながら、上記の音声合成技術では、データベースから抽出される音素片や文章(フレーズ)を合成して合成音声信号を生成するため、様々なキャラクターの音声(声色)を作るには不向きである。なお、膨大な容量のデータベースがあれば、様々な声色を合成することは可能であるが、現実的でない。
【0007】
また、上記の音声変調技術、すなわちピッチ変換およびフォルマント変調技術では、入力音声を直接加工することが前提であるため、変調可能な声色の範囲が限定されたり、話者の話し方のクセがそのまま変調されてしまい、多少声色を変更しても元の話者の特徴を完全に消去することは困難である。その結果、話者が誰であるかの特定が容易となってしまう。
【0008】
さらに、上記の音声変調技術により、アバターやCG・アニメなどの動画に音声を付加する場合、いわゆるアフレコ(アテレコ)が必要となる。すなわち、動画の動きに合わせて声優が発音しなければならず、経験やテクニックが要求され、容易な作業でない。
【0009】
本発明は、上記課題に鑑みてなされたものであり、様々な音声信号を簡易に生成できる音声処理システムを提供することを目的とする。
【0010】
【課題を解決するための手段】
上記の課題を解決するため、請求項1の発明は、入力端末と音声処理サーバとを含む情報処理要素群が相互にデータ伝送可能に結合された音声処理システムであって、前記情報処理要素群が、前記入力端末に入力された入力音声信号を、音声認識により文字情報に変換する音声認識手段と、前記文字情報に基づく音声合成により、合成音声信号を生成する音声合成手段と、前記合成音声信号に対して音声変調を行い、変調音声信号を生成する音声変調手段とを備える。
【0011】
また、請求項2の発明は、入力端末と音声処理サーバとを含む情報処理要素群が相互にデータ伝送可能に結合された音声処理システムであって、前記情報処理要素群が、前記入力端末に入力された文字情報に基づく音声合成により、合成音声信号を生成する音声合成手段と、前記合成音声信号に対して音声変調を行い、変調音声信号を生成する音声変調手段とを備える。
【0012】
また、請求項3の発明は、請求項1または請求項2の発明に係る音声処理システムにおいて、前記変調音声信号は、前記入力端末と異なる出力端末で受信される。
【0013】
また、請求項4の発明は、請求項1または請求項2の発明に係る音声処理システムにおいて、前記変調音声信号は、前記入力端末で受信される。
【0014】
【発明の実施の形態】
<音声処理システムの要部構成>
図1は、本発明の実施形態に係る音声処理システム1の要部構成を示す図である。
【0015】
音声処理システム1は、入力端末2および出力端末3と、これらの端末2、3と例えばインターネットで通信可能に接続する基地局4とを備えている。すなわち、音声処理システム1は、入力端末2と出力端末3と基地局4とを含む情報処理要素群が相互にデータ伝送可能に結合されている。
【0016】
入力端末2は、例えばパーソナルコンピュータとして構成され、マイクを有して音声入力を受付ける音声入力部21を備えている。
【0017】
出力端末3は、例えばパーソナルコンピュータとして構成され、スピーカを有して音声出力を行う音声出力部31を備えている。
【0018】
基地局4は、音声処理サーバとして機能し、音声認識部41と、音声合成部42と、音声変調部43とを備えている。基地局4の各部については、以下で詳述する。
【0019】
図2は、基地局4の要部構成を示すブロック図である。
【0020】
音声認識部41は、入力端末2に入力された入力音声信号を音声認識により文字情報に変換する音声認識手段として機能する。この音声認識部41は、音声音声解析部411と、構文予測部412と、FFT演算部413とを有している。
【0021】
音声認識部41における音声認識手法としては、車両やカーナビをはじめ、PCやICレコーダなどで採用されている、例えば隠れマルコフ法を利用する。
【0022】
音声解析部411は、入力端末2の音声入力部21から入力音声信号を解析する。
【0023】
構文予測部412は、辞書データベース(DB)44を参照して構文を予測し、入力音声信号を文字情報に変換する。
【0024】
FFT演算部413は、高速フーリエ変換(FFT)によって、入力音声信号を周波数領域に変換する部位である。
【0025】
音声合成部42は、音声認識部41で生成された文字情報、または入力端末2に入力された文字情報に基づく音声合成により、合成音声信号を生成する音声合成手段として機能する。この音声合成部42は、主に構文解釈部421と音素片合成部422とを有している。
【0026】
構文解釈部421は、端末2や音声認識部41から入力されるテキスト情報の構文を解釈する部位である。
【0027】
音素片合成部422は、辞書DB44に記憶される音素片を合成して、合成音声信号を生成する部位である。
【0028】
音声変調部43は、音声合成部42で合成された合成音声信号に対して音声変調を行い、変調音声信号を生成する音声変調手段として機能する。この音声変調部43は、デジタルフィルタ431と、デジタルディレイ432と、オシレータ433とを有しており、これらの各部を協働して動作させることにより、後述する音声変調処理が行われる。
【0029】
音声変調部43に対しては、例えば高い声で音声出力を行う旨の要求など、入力端末2から入力される変調係数等の制御パラメータに基づく制御が、制御部45内の動作プログラムによって実行される。また、音声変調部43での音声変調処理の際には、ワークメモリとして働くRAM46が適宜使用される。
【0030】
<音声合成処理について>
音声合成部42では、音声合成処理が行われるが、この処理の詳細について以下で説明する。なお、この処理では、辞書DB44内の文節辞書44aと音素片辞書44bが活用される。
【0031】
図3は、音声合成処理を説明するための図である。
【0032】
まず、入力端末2や音声認識部41からテキストが入力されると、構文解釈部421で構文の解釈が行われ(ステップS1)、句読点で分解される(ステップS2)。
【0033】
次に、文節辞書44aを参照しつつ文節ごとに分解し(ステップS3)、分解された文節に対応する音素片を音素片辞書44bから検索する(ステップS4)。
【0034】
そして、音素片辞書44bから検索された音素片を合成し(ステップS5)、バファメモリ423に格納する。
【0035】
最後に、合成された音素片をバッファメモリ423から読出して、合成音声信号を生成する(ステップS6)。
【0036】
以上の音声合成処理により、テキスト情報を音声信号に変換して出力できることとなる。
【0037】
<音声変調処理について>
音声変調部43では、音声変調処理を行うが、この処理の詳細について以下で説明する。
【0038】
図4は、音声変調処理の概念を説明するための図である。
【0039】
音声変調部43は、特徴抽出部435と変調部436とを備えている。
【0040】
特徴抽出部435から抽出されるピッチやフォルマントの情報と、入力端末2で設定される制御パラメータとに基づき、変換規則DB437内の規則データを参照して変換(制御)規則が設定されるが、この変換規則に応じて変調部436で音声変調が行われる。
【0041】
変換規則DB437には、女声や男声、動物の鳴き声などの各種音声信号の特徴成分の情報が蓄積されている。
【0042】
特徴抽出部435は、フォルマント(formant)抽出部435aと、ピッチ抽出部435bとを備えている。
【0043】
フォルマント抽出部435aは、人声を特徴付けさせる周波数強調成分であるフォルマントを抽出する部位である。
【0044】
フォルマントは、通常、第1フォルマントや第2フォルマントなど複数の周波数帯域からなり、口蓋などの発声器官の振動数などにより概略決定される。一般に男性のフォルマント成分は周波数が低いところにあり、女性のフォルマント成分は周波数が高いところに存在する。このフォルマントの周波数特性を変化させると、他の人物が話をしているような音声に変調できる。
【0045】
このフォルマント特性を抽出するには、以下で説明する方法がある。
【0046】
図5に示すバイクワッド(Biquad)型フィルタを各々の中心周波数をずらして複数個並列に並べると、図6に示すような周波数特性を有するボコーダ方式のフィルタが形成される。ここで、これら個々のフィルターF1〜7を通った音声レベルを測定することにより、フォルマント特性の抽出が可能となる。すなわち、フィルタF1〜F7のうちレベルの高い出力が得られる周波数帯域がフォルマントに対応することとなる。
【0047】
なお、フォルマント特性を抽出するのに、状態変数(State Variable)型の2次フィルタを複数並列に並べるようにしても良い。また、これらのフィルタを用いずに、FFT(高速フーリエ変換)を利用して入力音声信号の周波数特性を直接算出することによりフォルマント特性を抽出しても良いが、一定の処理時間が必要となる。
【0048】
また、フォルマント抽出部435aにて、抽出されたフォルマントに基づき、入力音声信号からフォルマント特性を消去しても良い。つまり、図7に示すように、第1フォルマントFM1、および第2フォルマントFM2(それより高次の第3フォルマント・・・)の周波数位置は、発声者の人体的な特徴によりほぼ決定される。すなわち、話者がピッチPT1で発声する場合や、ピッチPT1より高周波のピッチPT2で発声する場合でも、フォルマント特性FM1、FM2は変化しない。よって、変調部436には、このフォルマント特性をキャンセルさせる逆特性により、フォルマントが事前に除去された音声信号を入力するのが、音声変調の自由度向上を図れることとなる。以下では、このフォルマントをキャンセルさせる逆特性について説明する。
【0049】
フォルマント成分を補正するには、イコライザーと呼ばれる、2次バンドパスフィルタ(BPF)を複数用いて、周波数特性を変換する。デジタル処理においては、例えば双一次変換を行い係数を決定するバイクワッド型アルゴリズムや、状態変数型アルゴリズムなどが利用できる。この状態変数型アルゴリズムは、例えば図8に示す2次状態変数型フィルタで実現できる。この場合、乗算器M1の係数Fを調整することで中心周波数F0(図9)が変更でき、乗算器M2の係数Qを調整することでフィルタの傾き特性Q(図9)が変更できる。
【0050】
また、図10に示す信号処理回路のように、2次BPFの出力と原音つまり入力音声信号とをミキシング(加算)することで、特定周波数F0の近傍において原音レベル(0dB)から強調する割合L(図11)を設定できる。
【0051】
なお、このようなIIR(無限長巡回型)フィルタを用いるのは必須でなく、有限インパルス応答を持つFIRフィルタを利用しても良い。
【0052】
次に、図12のように、2次BMPの出口に乗算器M3を配置し、この乗算器M3で係数(−A)が乗算された信号と、乗算器M4で適切な係数Bが乗算された原音の信号とを加算器A1でミキシング(加算)することで、図13に示すような特定周波数F0の近傍を減衰させる周波数特性を得ることができる。
【0053】
そして、図12に示すフィルターを複数直列に接続した信号処理回路(図14)により、図15に示すように、第1フォルマントFM1および第2フォルマントFM2をキャンセルさせる周波数特性が得られることとなる。
【0054】
ピッチ抽出部435bは、入力音声信号のピッチ(基準周波数)を抽出する部位である。このピッチを抽出するには、入力音声信号をローパスフィルタ(Low Pass Filter)などである程度滑らかにし、これの信号周期を計測することでピッチが得られる。このピッチ抽出処理について、以下で説明する。
【0055】
図16は、ピッチ抽出処理を説明するための図である。
【0056】
まず、例えば1次のIIRフィルタを用いるエンベロープフォロアにより入力音声信号を平滑化する、つまり入力信号レベルの時間的変化すなわちエンベロープ(包絡線)信号を検出する(ステップS11)。
【0057】
そして、平滑化された入力信号のピークを検出して(ステップS12)、波形成分のゼロクロス点の周期を演算することによりピッチを抽出する(ステップS13)。これにより、入力音声信号のピッチが抽出されることとなる。
【0058】
変調部436では、例えばピッチ変換やフォルマント変換などの音声変調処理を行うが、これらを以下で説明する。
【0059】
図17は、ピッチ変換を行うフィルタを説明するための図である。
【0060】
ディレイラインDLでは、W点から遅延素子Z-nに書込まれる信号について、読出し点Rの位置が変更可能となっている。つまり、nの値の増減によって読出し点Rの位置をずらすことで、Yより出力される信号のサンプリング周波数が変化する。すなわち、nの値が大きいほど、格納されるデータの過去に遡る程度が増えることとなるため、出力される変換音声Yのピッチが低くなる一方、nの値が小さいほど格納されるデータの過去に遡る程度が減ることとなるため、出力される変換音声Yのピッチは高くなる。これにより、入力信号Xに対してYより出力される信号のピッチ(周波数)が変化する。なお、図17中の乗算器の係数Bは音質(周波数特性)の補正用であり、特に用いずとも良い。また、読出し点Rのアドレスを低周波オシレータ(図示せず)でわずかに変調することで、ゆらぎ(ビブラート)の効果を得ることができる。
【0061】
フォルマント変換については、上述した図8の2次状態変数型フィルタを利用することで、乗算器M1の係数Fで設定される周波数について調整された出力Yを得ることができる。この2次状態変数型フィルタの伝達関数は、次の数1で表される。
【0062】
【数1】
【0063】
上式において、係数Fを1次関数的に変化させることにより、バンドパスフィルタの中心周波数を対数的に変化できる。つまり、係数Fが直線的に変化すれば、出力特性も聴感上直線的に変化することとなる。例えば、入力音声の周波数データに適当な倍数値(例えば2倍や3倍など)と係数とを掛けたものを係数Fに代入すれば、近似的に2倍音や3倍音などを強調するフィルター特性が実現できる。
【0064】
すなわち、上記の2次状態変数型フィルタを利用することにより、音声信号においてフォルマントの追加や変更を自在に行えることとなる。
【0065】
次に、音声変調に関する2つの具体例を説明する。
【0066】
図18は、音声変調の一例を説明するための図である。
【0067】
図17のフィルタを利用したピッチシフトによって、入力音声信号における元のピッチPT1より高周波数のピッチPT2(波線部)に変調する(つまり声を高くする)。この場合には、入力音声信号のピッチを抽出しながら、図8に示す2次状態変数型フィルタ(以下では「ピッチ追従型フィルタ」ともいう)を2基利用して、元の入力音声信号における第1フォルマントFM1と第2フォルマントFM2との周波数位置を同時に高周波側の位置FP1、FP2(波線部)にシフトすることも可能である。
【0068】
これにより、例えば入力音声を高くするとともにフォルマント位置も高周波側にシフトすることで、まるで話者の体格がそのまま小さくなったようなスケール感を得られる。
【0069】
図19は、音声変調の他の例を説明するための図である。
【0070】
この音声変調方式では、図18に示す例と異なり、ピッチシフトにより本来発生するフォルマントのシフトを抑制する。具体的には、図8に示すピッチ追従型フィルタにおける乗算器M1の係数Fを、入力音声信号におけるフォルマントに対応した周波数位置に固定することにより、フォルマントのシフトが抑制される。また、ピッチ追従型フィルタに入力される音声信号のピッチの逆数に比例するように乗算器M1の係数Fを制御しても、フォルマントのシフトを抑えることができる。
【0071】
例えば、元の入力音声におけるピッチPT1より高周波数のピッチPT2(波線部)に変調させる一方、ピッチ追従型フィルタにおける乗算器M1の係数Fを、入力音声信号から抽出されるフォルマントFM1、FM2に対応する周波数に設定することにより、入力音声のフォルマント位置と同等のフォルマントFQ1、FQ2(波線部)を有する出力音声を得られることとなる。
【0072】
以上のような音声変調により、入力音声と出力音声とのフォルマントのずれが少ないため、現実離れした架空のキャラクターの如き極端な声とならず、男性の声を女性の声に変更したり、本人と若干相違する人物の発声音声とする効果が得られる。
【0073】
以上では、入力音声信号から音声信号を生成する概念を説明したが、入力端末2や音声認識部1から入力されたテキスト情報に基づき音声合成部42で合成された合成音声信号を変調する場合にも、上述したピッチ変換やフォルマント調整が行われる。この場合、フォルマントは、制御パラメータに基づき設定される基本周波数特性に対してフォルマントが付加されることとなる。
【0074】
<音声処理システム1の利用について>
以上で説明した音声処理システム1について、以下で具体的な利用形態を説明する。
【0075】
図20は、音声処理システム1の利用例を説明するための図である。以下では、入力される映像やCGなどの動画データに対して、ナレーションを挿入する利用例を説明する。
【0076】
基地局4の制御部44(図2)は、再生速度制御部44aを有している。この再生速度制御部44aは、例えば入力端末2から入力される映像データやCGデータなどの動画の再生速度を調整する部位である。
【0077】
また、基地局4のRAM45(図2)は、バッファメモリ45aとして機能する領域を有している。このバッファメモリ45aは、再生速度制御部44aから出力される動画と、音声変調部43から出力される音声とを合成するためのメモリとして働く。
【0078】
音声変調部43から出力される音声では、上述したように入力端末2からの入力音声のピッチ変換や音声合成部42から出力される合成音声のピッチ変換とともに、フォルマントFM1、FM2の周波数位置の調整を行うことができる。その結果、例えば
▲1▼30秒の映像シーンに適合するようにナレーションの音声を生成できる。
【0079】
▲2▼CG・アニメの動きに合わせて、セリフを容易に挿入できる。
【0080】
▲3▼セリフやナレーションの意味に応じて音声変調部43で音声変調を行うことにより、感情などを表現できる。
【0081】
▲4▼異なる登場人物ごとにフォルマント特性を設定することで、基礎となる入力音声信号が同一でも、登場人物ごとに特徴のある音声を容易に生成できる。
などの効果が期待できる。
【0082】
図21は、音声処理システム1の他の利用例を説明するための図である。
【0083】
基地局4の映像同期部40は、図20に示す再生速度制御部44aに対応するもので、音声と映像との同期を図る部位である。
【0084】
このような音声処理システムでは、入力端末に相当する音声配信局2aから音声データおよび変調規則を基地局4に送信し、基地局4では変調規則に基づき、音声データを変調する。そして、基地局4で変調された音声を、出力端末に相当する視聴端末3aに送信する。このようなメッセージサービス(音声変調サービス)では、音声配信局2aに入力された音声と特徴の異なる音声を、入力端末2aと異なる出力端末である視聴端末3aで受信できることとなる。
【0085】
また、入力端末に相当する音声(映像)利用局2bから送信された音声データ(および映像データ)を基地局4に送信し、基地局では、音声データを変調した(および映像データと同期した)コンテンツを生成する。そして、生成されたコンテンツを再び音声(映像)利用局2bで受信する。このようなSSA(Server Side Authoring)サービスでは、音声(映像)利用局2bにおいて基地局4に送ったコンテンツを再利用できるため、ユーザの利便性が向上する。
【0086】
以上説明した音声処理システム1では、音声認識と音声合成と音声変調とを組合わせて出力音声信号を生成するため、様々な音声信号を簡易に生成できる。すなわち、音声変調部43においてフォルマント処理およびピッチシフト処理を行うため、男性・女性を始め子供から老人やキャラクターまで様々な音声のバリエーションが得られることができる。
【0087】
なお、音声処理システム1については、図1に示す構成を有するのは必須でなく、次で説明する音声処理システム1A〜1Fの構成を有しても良い。すなわち、音声処理システム1の各機能を、入力端末、出力端末および基地局に任意に割り振っても良い。
【0088】
図22は、音声処理システム1の他の構成を説明するための図である。
【0089】
音声処理システム1Aでは、図22(a)に示すように、入力端末2Aが音声入力部21と音声認識部41とを備え、出力端末3Bが音声変調部43と音声出力部31とを備えるとともに、基地局4Aには音声合成部42が設けられている。
【0090】
音声処理システム1Bでは、図22(b)に示すように、入力端末2Bが音声入力部21と音声認識部41とを備え、出力端末3Bが音声出力部31とを備えるとともに、基地局4Aには音声合成部42と音声変調部43とが設けられている。
【0091】
音声処理システム1Cでは、図22(c)に示すように、入力端末2Cが音声入力部21を備え、出力端末3Cが音声変調部43と音声出力部31とを備えるとともに、基地局4Cには音声認識部41と音声合成部42とが設けられている。
【0092】
また、音声処理システム1から音声認識部41を削除した音声処理システム1Dでも良い。すなわち、音声処理システム1Dは、入力端末2Dが文字入力部22を備え、出力端末3Dが音声出力部31を備えるとともに、基地局4Dには音声合成部42と音声変調部43とが設けられている。
【0093】
さらに、音声処理システム1Dから音声合成部42を削除し、文字入力部22の替わりに音声入力部21とした音声処理システム1Eでも良い。すなわち、音声処理システム1Eは、入力端末2Eが音声入力部21を備え、出力端末3Eが音声出力部31を備えるとともに、基地局4Eには音声変調部43が設けられている。
【0094】
また、図1に示す音声処理システム1における入力端末2と出力端末3とを共有化し、図22(f)に示す音声処理システム1Fの構成としても良い。この音声処理システム1Fでは、上述したSSAサービスと同等に、自らが基地局に発信した音声信号に付加価値が付いて戻ってくることとなる。
【0095】
<変形例>
◎上記の実施形態における音声変調処理においては、ピッチ追従型フィルタを使用するのは必須でなく、効果の種類に応じて不必要な場合には省略しても良い。
【0096】
◎上記の実施形態における入力端末および出力端末については、携帯電話やPDAなどを利用しても良い。
【0097】
【発明の効果】
以上説明したように、請求項1の発明によれば、入力端末に入力された入力音声信号を音声認識により変換した文字情報に基づく音声合成により合成音声信号を生成し、この合成音声信号に対して音声変調を行って変調音声信号を生成する。その結果、様々な音声信号を簡易に生成できる。すなわち、音声認識、音声合成および音声変調をシーケンシャルに組み合わせることにより、音声入力を一旦文字情報に変換した後に合成・変調できるため、話者の特徴を完全に消去して別のキャラクターの音声を生成できる。また、文字情報に変換した時点で、入力音声の速度(テンポやデュレーション)に依存しなくなるため、その後の合成・変調でユーザのニーズにそった速度での音声再生が可能になり、映像シーンとの時間同期やCGとのシンクロ再生に適することとなる。さらに、音声処理サーバ上に音声処理を集中する場合には、入力端末や出力端末の仕様や処理速度・処理能力に依存しないシステムを構築できる。
【0098】
また、請求項2の発明によれば、入力端末に入力された文字情報に基づく音声合成によって合成音声信号を生成する。その結果、様々な音声信号を簡易に生成できる。すなわち、音声合成処理のみでは得られない多くの音声バリエーションを得ることができる。また、メールやストリーミング・テキスト入力の文字をユーザが視認できる状況でない場合(例えば車の運転中)でも、音声で情報を伝えることが可能となる。特に、音声変調により状況に応じた音声バリエーション、例えば怒りを表現する文字情報の場合には語気を荒げる発声が行える。
【0099】
また、請求項3の発明においては、変調音声信号が入力端末と異なる出力端末で受信されるため、変調音声信号の配信を適切に行える。
【0100】
また、請求項4の発明においては、変調音声信号が入力端末で受信されるため、入力端末を使うユーザの利便性が向上する。
【図面の簡単な説明】
【図1】本発明の実施形態に係る音声処理システム1の要部構成を示す図である。
【図2】基地局4の要部構成を示すブロック図である。
【図3】音声合成処理を説明するための図である。
【図4】音声変調処理の概念を説明するための図である。
【図5】バイクワッド型フィルタを説明するための図である。
【図6】ボコーダ方式のフィルタを説明するための図である。
【図7】ピッチとフォルマントとを説明する図である。
【図8】2次状態変数型フィルタを示す図である。
【図9】2次状態変数型フィルタの周波数特性を説明するための図である。
【図10】2次BPFの出力と原音とのミキシングについて説明する図である。
【図11】図10の信号処理回路に関する周波数特性を説明するための図である。
【図12】2次BPFの出力に負の係数が乗算された信号と原音とのミキシングについて説明する図である。
【図13】図12の信号処理回路に関する周波数特性を説明するための図である。
【図14】図12のフィルタを複数直列に接続した信号処理回路を示す図である。
【図15】図14の信号処理回路に関する周波数特性を説明するための図である。
【図16】ピッチ抽出処理を説明するための図である。
【図17】ピッチ変換を行うフィルタを説明するための図である。
【図18】音声変調の一例を説明するための図である。
【図19】音声変調の他の例を説明するための図である。
【図20】音声処理システム1の利用例を説明するための図である。
【図21】音声処理システム1の他の利用例を説明するための図である。
【図22】音声処理システム1の他の構成を説明するための図である。
【図23】従来技術に係るフォルマントを説明するための図である。
【符号の説明】
1、1A〜1F 音声処理システム
2、2A〜2F 入力端末
3、3A〜3F 出力端末
4、4A〜4F 基地局
41 音声認識部
42 音声合成部
43 音声変調部
435 特徴抽出部
436 変調部
PT1、PT2 ピッチ
FM1、FM2、FP1、FP2、FQ1、FQ2 フォルマント
Claims (4)
- 入力端末と音声処理サーバとを含む情報処理要素群が相互にデータ伝送可能に結合された音声処理システムであって、
前記情報処理要素群が、
前記入力端末に入力された入力音声信号を、音声認識により文字情報に変換する音声認識手段と、
前記文字情報に基づく音声合成により、合成音声信号を生成する音声合成手段と、
前記合成音声信号に対して音声変調を行い、変調音声信号を生成する音声変調手段と、
を備えることを特徴とする音声処理システム。 - 入力端末と音声処理サーバとを含む情報処理要素群が相互にデータ伝送可能に結合された音声処理システムであって、
前記情報処理要素群が、
前記入力端末に入力された文字情報に基づく音声合成により、合成音声信号を生成する音声合成手段と、
前記合成音声信号に対して音声変調を行い、変調音声信号を生成する音声変調手段と、
を備えることを特徴とする音声処理システム。 - 請求項1または請求項2に記載の音声処理システムにおいて、
前記変調音声信号は、前記入力端末と異なる出力端末で受信されることを特徴とする音声処理システム。 - 請求項1または請求項2に記載の音声処理システムにおいて、
前記変調音声信号は、前記入力端末で受信されることを特徴とする音声処理システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002371999A JP2004205624A (ja) | 2002-12-24 | 2002-12-24 | 音声処理システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002371999A JP2004205624A (ja) | 2002-12-24 | 2002-12-24 | 音声処理システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004205624A true JP2004205624A (ja) | 2004-07-22 |
Family
ID=32810729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002371999A Pending JP2004205624A (ja) | 2002-12-24 | 2002-12-24 | 音声処理システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004205624A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014164241A (ja) * | 2013-02-27 | 2014-09-08 | Nippon Telegraph & Telephone East Corp | 中継システム、中継方法及びプログラム |
JP2020140178A (ja) * | 2019-03-01 | 2020-09-03 | 富士通クライアントコンピューティング株式会社 | 音声変換装置、音声変換システム及びプログラム |
CN114900767A (zh) * | 2022-04-28 | 2022-08-12 | 歌尔股份有限公司 | 听力的保护方法、装置、终端设备及存储介质 |
-
2002
- 2002-12-24 JP JP2002371999A patent/JP2004205624A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014164241A (ja) * | 2013-02-27 | 2014-09-08 | Nippon Telegraph & Telephone East Corp | 中継システム、中継方法及びプログラム |
JP2020140178A (ja) * | 2019-03-01 | 2020-09-03 | 富士通クライアントコンピューティング株式会社 | 音声変換装置、音声変換システム及びプログラム |
CN114900767A (zh) * | 2022-04-28 | 2022-08-12 | 歌尔股份有限公司 | 听力的保护方法、装置、终端设备及存储介质 |
CN114900767B (zh) * | 2022-04-28 | 2023-06-13 | 歌尔股份有限公司 | 听力的保护方法、装置、终端设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Verfaille et al. | Adaptive digital audio effects (A-DAFx): A new class of sound transformations | |
US5943648A (en) | Speech signal distribution system providing supplemental parameter associated data | |
JP4705203B2 (ja) | 声質変換装置、音高変換装置および声質変換方法 | |
EP0860811A2 (en) | Automated speech alignment for image synthesis | |
JP2018005048A (ja) | 声質変換システム | |
Bonada et al. | Sample-based singing voice synthesizer by spectral concatenation | |
JP2010014913A (ja) | 声質変換音声生成装置および声質変換音声生成システム | |
JP2005070430A (ja) | 音声出力装置および方法 | |
JP2012208177A (ja) | 帯域拡張装置及び音声補正装置 | |
WO2023276539A1 (ja) | 音声変換装置、音声変換方法、プログラム、および記録媒体 | |
JP2004205624A (ja) | 音声処理システム | |
US7418388B2 (en) | Voice synthesizing method using independent sampling frequencies and apparatus therefor | |
JP5830364B2 (ja) | 韻律変換装置およびそのプログラム | |
JPH11259066A (ja) | 音楽音響信号分離方法、その装置およびそのプログラム記録媒体 | |
JPH05307395A (ja) | 音声合成装置 | |
JPH11338500A (ja) | フォルマント・シフト補償音響シンセサイザおよびその操作方法 | |
JPH1078791A (ja) | ピッチ変換器 | |
KR100359988B1 (ko) | 실시간 화속 변환 장치 | |
WO2018179209A1 (ja) | 電子機器、音声制御方法、およびプログラム | |
WO2021255831A1 (ja) | 送信装置、コミュニケーション方法、及びプログラム | |
JP4644879B2 (ja) | 調音パラメータ補間用データ生成装置及びコンピュータプログラム | |
JP2004271620A (ja) | 携帯端末 | |
JP2001142477A (ja) | 有声音形成装置とそれを用いた音声認識装置 | |
JPH10187180A (ja) | 楽音発生装置 | |
CN114765029A (zh) | 语音至歌声的实时转换技术 |