JPH1074098A

JPH1074098A - 音声変換装置

Info

Publication number: JPH1074098A
Application number: JP8232095A
Authority: JP
Inventors: Shuichi Matsumoto; 秀一松本
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 1996-09-02
Filing date: 1996-09-02
Publication date: 1998-03-17
Also published as: US5963907A

Abstract

(57)【要約】【課題】入力音声の特性の相違による音声変換のムラ
を補償する。【解決手段】可聴フィルタ３２５は、入力音声信号の
音量レベルを抽出し、これを音量データＶ１として出力
する。一方、可聴フィルタ３２６は、出力音声信号の音
量レベルを抽出し、これを音量データＶ２として出力す
る。差分判定回路３２２は、可聴フィルタ３２５，３２
６から各々出力される音量データＶ１，Ｖ２を比較し、
入力音声と出力音声の音量差に応じてディストーション
回路３２１へ供給すべき音量ゲインＧと加歪率Ｄを決定
する。例えば、入力音声の音量に対して変換後の出力音
声の音量が小さい場合には音量ゲインＧを大きくする。
また、入力音声を高音側へシフトする場合に、入力音声
の音量に対して変換後の出力音声の音量が小さい場合に
は高音域の音量が不足しているとみなし、入力音声に付
加すべき高調波の量を増すべく加歪率Ｄを大きくする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、例えばカラオケ
装置に用いて好適な音声変換装置に関する。

【０００２】

【従来の技術】近年、カラオケ等の分野においては、入
力音声に周波数変換等の処理を施して様々な効果を得る
音声変換の技術が各種開発されている。例えば、入力音
声の音程を所定度数シフトさせてこれを元の音声に付加
することによって、いわゆるハモリの効果を得たり、あ
るいは、入力音声を１オクターブ高音側へシフトさせた
りそのフォルマント（声道の共振周波数）をシフトさせ
たりして、男性の声を女性の声に変換する、といった技
術が知られている。

【０００３】

【発明が解決しようとする課題】ところで、従来の音声
変換においては、通常、入力音声にピッチシフトやフォ
ルマントシフトを施してそのフォルマントを単に周波数
軸上で上下に移動させるのみであった。このため、入力
音声の周波数特性（すなわち、声質）によっては、適当
な音声変換がなされる場合もあれば、変換後の音量が極
端に小さくなったり、あるいは不自然な音声になるなど
適当な音声変換がなされない場合もあり、ムラが多いと
いう問題があった。また、このようなムラが生じるため
に変換可能な範囲が極めて制限されるという問題もあっ
た。

【０００４】この発明は、このような背景の下になされ
たもので、入力音声の特性の相違による音声変換のムラ
を補償することができる音声変換装置を提供することを
目的としている。

【０００５】

【課題を解決するための手段】上述した課題を解決する
ために、請求項１記載の発明は、入力音声から第１のパ
ラメータを抽出する第１の抽出手段と、前記入力音声を
異なる周波数特性をもつ音声に変換して出力する音声変
換手段と、前記音声変換手段の出力音声から第２のパラ
メータを抽出する第２の抽出手段と、前記第１および第
２のパラメータを比較する比較手段と、前記比較手段の
比較結果に基づき前記音声変換手段による変換処理を制
御する制御手段とを具備することを特徴としている。

【０００６】また、請求項２記載の発明は、入力音声の
音量を抽出する第１の抽出手段と、前記入力音声を異な
る周波数特性をもつ音声に変換して出力する音声変換手
段と、前記音声変換手段の出力音声の音量を抽出する第
２の抽出手段と、前記第１および第２の抽出手段によっ
て抽出される音量を比較しこれらの差を出力する比較手
段と、前記比較手段によって出力される音量差に応じて
前記音声変換手段に供給すべき入力音声の音量を増幅す
る音量付加手段とを具備することを特徴としている。

【０００７】また、請求項３記載の発明は、入力音声の
音量を抽出する第１の抽出手段と、前記入力音声を異な
る周波数特性をもつ音声に変換して出力する音声変換手
段と、前記音声変換手段の出力音声の音量を抽出する第
２の抽出手段と、前記第１および第２の抽出手段によっ
て抽出される音量を比較しこれらの差を出力する比較手
段と、前記比較手段によって出力される音量差に応じて
前記音声変換手段に供給すべき入力音声に歪みを与えて
該音声に高調波を付加する高調波付加手段とを具備する
ことを特徴としている。

【０００８】また、請求項４記載の発明は、請求項１な
いし３のいずれかに記載の発明において、前記音声変換
手段による変換は、ピッチシフトを含むことを特徴とし
ている。

【０００９】また、請求項５記載の発明は、請求項１な
いし４のいずれかに記載の発明において、前記音声変換
手段による変換は、フォルマントシフトを含むことを特
徴としている。

【００１０】

【発明の実施の形態】以下、図面を参照して、この発明
の実施形態について説明する。なお、以下の実施形態
は、本発明を通信カラオケ装置に適用したものである
が、本発明はかかるカラオケ装置への適用に限らず、そ
の他のカラオケ装置あるいは音声変換装置にも適用可能
である。

【００１１】Ａ：実施形態の構成（１）全体構成図１はこの発明の一実施形態の全体構成を示すブロック
図である。同図において、１はセンタ局に設置されたホ
ストコンピュータであり、カラオケの楽曲データを蓄積
したデータベースを有している。このホストコンピュー
タ１には、通信回線（公衆電話回線またはＩＳＤＮ）を
介し、各カラオケ店舗に設置された複数のカラオケ端末
２が接続されており、定期的に楽曲データを各カラオケ
端末２に配信するようになっている。以下、このカラオ
ケ端末２を構成する各部を説明する。

【００１２】２１はＣＰＵ（中央処理装置）であり、バ
スＢＵＳを介し接続される端末各部を制御する。また、
２２はＲＯＭ(Read Only Memory)であり、ＣＰＵ２１が
実行する制御プログラムおよび楽曲データに含まれる歌
詞コードに対応したフォントデータを記憶する。さら
に、２３はＲＡＭ(Random Access Memory)であり、ＣＰ
Ｕ２１のワークエリアとして用いられる。

【００１３】また、２４はハードディスクであり、ホス
トコンピュータ１から配信される楽曲データを記憶す
る。すなわち、カラオケ端末２においては、ホストコン
ピュータ１から供給される楽曲データを一旦ハードディ
スク２４に蓄積し、これを読み出して用いるようになっ
ている。２５は通信コントローラであり、ホストコンピ
ュータ１から送信される楽曲データを受信しこれをハー
ドディスク２４へ転送する。

【００１４】また、２６はパネルスイッチであり、カラ
オケ装置本体の操作パネル（図示略）に設けられ、例え
ば演奏の開始または中止を指示する操作の他、ボリュー
ム、テンポ、キーコントロールあるいは後述する音声変
換のためのピッチシフトおよび声質等の設定操作がなさ
れる。パネルスイッチ２６は、こうした指示操作や設定
状態に対応した入力値あるいは設定値をＣＰＵ２１へ出
力する。また、２７はリモコン受信部であり、リモコン
端末ＲＭＣから入力される曲番号や演奏の開始または中
止などの指示操作に対応した信号を受信し、これを入力
値としてＣＰＵ２１へ出力する。さらに、２８はＬＣＤ
(Liquid Crystal Display)等で構成された表示パネルで
あり、リクエスト中の曲番号や各種設定状態等のメッセ
ージを表示する。

【００１５】次に、２９は音源であり、ＣＰＵ２１によ
り供給される楽音制御データ（楽曲データに含まれ
る。）に対応した楽音信号を合成しこれを効果用ＤＳＰ
(DigitalSignal Processor)３０へ出力する。３１は音
声デコーダであり、ＣＰＵ２１により供給されるＡＤＰ
ＣＭデータ（楽曲データに含まれるバックコーラス等の
音声データ）に対応した音声信号を生成しこれを効果用
ＤＳＰ３０へ出力する。

【００１６】また、３２は音声変換部であり、マイクア
ンプ３３によって増幅されＡ／Ｄ変換器３４によってデ
ィジタル信号に変換されたマイクＭからの入力音声に対
し所定の音声変換処理を施す。この変換後の音声信号
は、効果用ＤＳＰ３０および採点機３５へ各々供給され
る。なお、音声変換部３２の詳細については後述する。

【００１７】効果用ＤＳＰ３０は、ＣＰＵ２１から供給
される効果付与制御データ（楽曲データに含まれる。）
に基づき、音源２９から供給される楽音信号、音声デコ
ーダ３１から供給されるバックコーラス等の音声信号、
および音声変換部３２によって変換処理を施されたマイ
ク入力に対し、エコー、リバーブ、ディレイ等の各種効
果を付与する。こうして効果付与された楽音は、Ｄ／Ａ
変換器３７によってアナログ信号に変換された後、サウ
ンドシステム３６に送られ、スピーカより放音される。

【００１８】また、採点機３５は、音声変換部３２にお
けるマイク入力の分析結果に基づき歌唱者の歌唱力を評
価し、その採点結果を数値データとして出力する。

【００１９】次に、３８は表示制御部であり、モニタ３
９の表示制御を行う。この表示制御部３８は、カラオケ
の演奏中、動画ＣＤ等の映像記憶装置４０から供給され
るカラオケの背景映像を表示するための映像データに、
ＲＯＭ２２から読み出される歌詞のフォントデータをス
ーパーインポーズし、その合成画像をモニタ３９に表示
させる。また、表示制御部３８は、カラオケの演奏終了
後、採点機３５の採点結果をモニタ３９に表示させる。

【００２０】（２）音声変換部３２の詳細次に、音声変換部３２の詳細について説明する。図２
は、音声変換部３２の構成を示すブロック図である。同
図において、３２１は、マイクＭからの入力音声に歪み
を与えるディストーション回路である。このディストー
ション回路３２１は、差分判定回路３２２から与えられ
る音量ゲインＧに応じて入力音声信号を増幅し、また、
該回路３２２から与えられる加歪率Ｄに応じて増幅後の
入力音声信号に歪みを与える。これにより、入力音声信
号に加歪率Ｄに応じた量の高調波（すなわち、高音域の
成分）が付加される。

【００２１】３２３はピッチシフト回路であり、パネル
スイッチ２６において設定されたシフト量に応じて入力
音声信号のピッチ（すなわち、周波数）をシフトさせ
る。このピッチシフト回路３２３によって、例えば入力
音声が男性の声の場合にこれを１オクターブだけ高音側
へシフトするなどして女性の声に変換することが可能に
なる。

【００２２】また、３２４はフォルマントシフト回路で
あり、パネルスイッチ２６において設定された声質（例
えば、声の太さの度合い）に応じて入力音声のフォルマ
ントをシフトする。このフォルマントシフト回路３２４
によって、入力音声の声道特性を変えることにより、例
えば同じ男性の声であってもあたかも別人の声のように
変換することが可能になる。

【００２３】次に、３２５，３２６は可聴フィルタであ
る。可聴フィルタ３２５は、入力音声信号の音量レベル
を抽出し、これを音量データＶ１として出力する。一
方、可聴フィルタ３２６は、出力音声信号の音量レベル
を抽出し、これを音量データＶ２として出力する。

【００２４】次に、差分判定回路３２２は、可聴フィル
タ３２５，３２６から各々出力される音量データＶ１，
Ｖ２を比較し、入力音声と出力音声の音量差に応じてデ
ィストーション回路３２１へ供給すべき音量ゲインＧと
加歪率Ｄを決定する。例えば、入力音声の音量に対して
変換後の出力音声の音量が小さい場合には音量ゲインＧ
を大きくする。また、入力音声を高音側へシフトする場
合に、入力音声の音量に対して変換後の出力音声の音量
が小さい場合には高音域の音量が不足しているとみな
し、入力音声に付加すべき高調波の量を増すべく加歪率
Ｄを大きくする。

【００２５】さらに、３２７はハウリング検出回路であ
り、出力音声信号のハウリングを検出する。このハウリ
ング検出回路３２７の検出結果に基づき、出力音声信号
のハウリングを抑制すべくディストーション回路３２１
に与えられる音量ゲインＧが調整される。

【００２６】Ｂ：実施形態の動作次に、上記構成からなる実施形態の動作を説明する。（１）カラオケ装置の全体動作はじめに、本実施形態にかかるカラオケ装置の全体動作
を説明する。ただし、楽曲データは、既にホストコンピ
ュータ１からカラオケ端末２へ配信されており、ハード
ディスク２４に格納されているものとする。

【００２７】まずカラオケ端末２に電源が投入され、リ
モコン端末ＲＭＣより曲番号が指定されると、この曲番
号はリモコン受信部２７によって受信される。これによ
りＣＰＵ２１が指定された曲番号を識別すると、この曲
番号に対応する楽曲データをハードディスク２４から読
み出し、該データの再生を開始する。これにより、楽曲
データに含まれるノートデータ、デュレーションデータ
等の楽音制御データが音源２９に供給され、カラオケの
演奏が行われる。一方、楽曲データのヘッダ部に含まれ
るジャンル情報（その曲の音楽ジャンルや季節等を示す
情報）が読み取られ、これに対応する背景映像が映像記
憶装置４０より再生され、モニタ３９に表示される。ま
た、モニタ３９に映し出される背景映像には、楽曲デー
タに含まれる歌詞コードに対応したフォント画像がスー
パーインポーズされる。

【００２８】一方、利用者の歌唱音声は、マイクＭより
入力され、効果用ＤＳＰ３０にて、音源２９から出力さ
れるカラオケの楽音および音声デコーダ３１から出力さ
れるバックコーラス音とともにエコー、リバーブ等の各
種効果が付与された後、サウンドシステム３６へ送ら
れ、スピーカより放音される。

【００２９】（２）音声変換の動作次に、上述したカラオケ演奏において、利用者がパネル
スイッチ２６より音声変換の動作モードを指示した場合
の動作を説明する。利用者がパネルスイッチ２６より音
声変換モードを指示し、所望のピッチシフト量と声質と
を設定すると、ピッチシフト量の設定値がピッチシフト
回路３２３へ供給されるとともに、声質に対応したフォ
ルマントシフト量の設定値がフォルマントシフト回路３
２４へ供給される。これにより、変換後の目標となる出
力音声の周波数特性が決定され、以後、これと周波数特
性が一致するよう入力音声の音声変換が行われる。

【００３０】例えば図３に示すように、入力音声が男性
の声で、高音域の成分が元々少ないにもかかわらず、女
性の声の周波数特性（変換目標）になるよう変換する場
合（同図（ａ）参照）、入力音声の大部分を占める低音
域がカットされてしまうために出力音声全体としての音
量が入力音声のそれと比較して小さくなる。

【００３１】この場合、差分判定回路３２２において
は、音量データＶ１，Ｖ２の差が大きくなることから音
量ゲインＧを大きくするよう制御がなされる。これによ
って、入力音声信号が全体的に増幅され高音側成分の不
足が補われた上で（同図（ｂ）参照）、目標の周波数特
性に一致するようピッチシフトおよびフォルマントシフ
トが施される（同図（ｃ）参照）。

【００３２】また、音量ゲインＧによる増幅のみでは高
音域の成分を十分に補えない場合をも考慮して、例えば
図４に示すように、ディストーション回路３２１にて入
力音声信号に歪みを加えることにより高調波（高音域の
成分）を付加する（同図（ａ）参照）。このとき付加さ
れる高調波の量は、加歪率Ｄの大きさによって制御され
る。すなわち、音量データＶ１，Ｖ２の差が大きい場
合、加歪率Ｄを大きくすることにより高調波の量が増加
され、音量データＶ１，Ｖ２の差が小さい場合、加歪率
Ｄを小さくすることにより高調波の量が減少される。そ
して、上記のように高調波が付加され高音側成分の不足
が補われた上、目標の周波数特性に一致するようピッチ
シフトおよびフォルマントシフトが施され、音声変換が
行われる（同図（ｂ）参照）。

【００３３】このように、本実施形態による音声変換に
おいては、出力音声を入力側にフィードバックし、入力
音声と出力音声の音量差が大きい場合には、この差を補
正すべく入力音声を増幅して音声変換を行う。特に、高
音域の音量が小さい場合には、ディストーションの加歪
率Ｄを大きくすることにより入力音声に高調波を付加
し、高音域の音量を補って音声変換を行う。また、ハウ
リング検出回路３２７の検出結果に基づき音量ゲインＧ
が調整され、出力音声信号のハウリングが抑制される。
これによって、音声変換に伴う音量の低下や不自然さ等
のムラを補償することができる。

【００３４】Ｃ：変形例なお、本発明は、上記実施形態に限らず、例えば以下の
ような種々の変形が可能である。（１）実施形態では、ディストーション回路３２１によ
って入力音声の増幅後、高調波を補うべく歪みを加える
ようにしたが、これに限らず、単に増幅器によって音量
のみを付加するようにしても、出力音声の音量低減を補
償する効果を得ることは可能である。すなわち、高調波
の付加は、男性の声から女性の声への変換の場合ように
高音域の成分が足りなくなるような音声変換の場合に有
効となる。

【００３５】（２）また、実施形態では、音量の補正を
例としたが、これに限らず、例えば音程の補正などその
他のパラメータを補正の対象としてもよい。（３）また、実施形態では、音声変換手段としてピッチ
シフトとフォルマントシフトを併用する構成を採用した
が、これに限らず、いずれか一方のみの構成としてもよ
く、あるいはこれらをイコライザに置き換えてもよい。

【００３６】（４）さらに、採点機３５では、入力音声
から抽出される音量のみならず、音程をも抽出して、歌
唱力の採点に利用するようにしてもよい。また、入力音
声に限らず、音声変換後の出力音声について音量、音程
等のパラメータを抽出して採点を行うようにしてもよ
い。

【００３７】

【発明の効果】以上説明したように、この発明によれ
ば、変換結果を入力側へフィードバックして入力音声の
特性に応じた適切な音声変換を施すことができるので、
入力音声の特性の相違による音声変換のムラを補償する
ことが可能になる。また、この結果、積極的な音声変換
を行うことができ、かつ、変換可能な範囲も広げること
ができる。

【図面の簡単な説明】

【図１】本実施形態の全体構成を示すブロック図であ
る。

【図２】同実施形態における音声変換部の構成を示す
ブロック図である。

【図３】同実施形態における音量付加を説明するため
の図である。

【図４】同実施形態における高調波付加を説明するた
めの図である。

【符号の説明】

１…ホストコンピュータ、２…カラオケ端末、２１…Ｃ
ＰＵ、２２…ＲＯＭ、２３…ＲＡＭ、２４…ハードディ
スク、２５…通信コントローラ、２６…パネルスイッ
チ、２７…リモコン受信部、２８…表示パネル、２９…
音源、３０…効果用ＤＳＰ、３１…音声デコーダ、３２
…音声変換部、３３…マイクアンプ、３４…Ａ／Ｄ変換
器、３５…採点機、３６…サウンドシステム、３７…Ｄ
／Ａ変換器、３８…表示制御部、３９…モニタ、４０…
映像記憶装置、３２１…ディストーション回路（音量付
加手段、高調波付加手段）、３２２…差分判定回路（比
較手段、制御手段）、３２３…ピッチシフト回路（音声
変換手段）、３２４…フォルマントシフト回路（音声変
換手段）、３２５，３２６…可聴フィルタ（第１および
第２の抽出手段）、３２７…ハウリング検出回路。

Claims

【特許請求の範囲】

【請求項１】入力音声から第１のパラメータを抽出す
る第１の抽出手段と、前記入力音声を異なる周波数特性をもつ音声に変換して
出力する音声変換手段と、前記音声変換手段の出力音声から第２のパラメータを抽
出する第２の抽出手段と、前記第１および第２のパラメータを比較する比較手段
と、前記比較手段の比較結果に基づき前記音声変換手段によ
る変換処理を制御する制御手段とを具備することを特徴
とする音声変換装置。
【請求項２】入力音声の音量を抽出する第１の抽出手
段と、前記入力音声を異なる周波数特性をもつ音声に変換して
出力する音声変換手段と、前記音声変換手段の出力音声の音量を抽出する第２の抽
出手段と、前記第１および第２の抽出手段によって抽出される音量
を比較しこれらの差を出力する比較手段と、前記比較手段によって出力される音量差に応じて前記音
声変換手段に供給すべき入力音声の音量を増幅する音量
付加手段とを具備することを特徴とする音声変換装置。
【請求項３】入力音声の音量を抽出する第１の抽出手
段と、前記入力音声を異なる周波数特性をもつ音声に変換して
出力する音声変換手段と、前記音声変換手段の出力音声の音量を抽出する第２の抽
出手段と、前記第１および第２の抽出手段によって抽出される音量
を比較しこれらの差を出力する比較手段と、前記比較手段によって出力される音量差に応じて前記音
声変換手段に供給すべき入力音声に歪みを与えて該音声
に高調波を付加する高調波付加手段とを具備することを
特徴とする音声変換装置。
【請求項４】前記音声変換手段による変換は、ピッチ
シフトを含むことを特徴とする請求項１ないし３のいず
れかに記載の音声変換装置。
【請求項５】前記音声変換手段による変換は、フォル
マントシフトを含むことを特徴とする請求項１ないし４
のいずれかに記載の音声変換装置。