JP3931901B2 - 音声変換装置 - Google Patents

音声変換装置 Download PDF

Info

Publication number
JP3931901B2
JP3931901B2 JP2004308553A JP2004308553A JP3931901B2 JP 3931901 B2 JP3931901 B2 JP 3931901B2 JP 2004308553 A JP2004308553 A JP 2004308553A JP 2004308553 A JP2004308553 A JP 2004308553A JP 3931901 B2 JP3931901 B2 JP 3931901B2
Authority
JP
Japan
Prior art keywords
voice
volume
conversion
input
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004308553A
Other languages
English (en)
Other versions
JP2005025234A (ja
Inventor
秀一 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2004308553A priority Critical patent/JP3931901B2/ja
Publication of JP2005025234A publication Critical patent/JP2005025234A/ja
Application granted granted Critical
Publication of JP3931901B2 publication Critical patent/JP3931901B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)

Description

この発明は、例えばカラオケ装置に用いて好適な音声変換装置に関する。
近年、カラオケ等の分野においては、入力音声に周波数変換等の処理を施して様々な効果を得る音声変換の技術が各種開発されている。例えば、入力音声の音程を所定度数シフトさせてこれを元の音声に付加することによって、いわゆるハモリの効果を得たり、あるいは、入力音声を1オクターブ高音側へシフトさせたりそのフォルマント(声道の共振周波数)をシフトさせたりして、男性の声を女性の声に変換する、といった技術が知られている。
ところで、従来の音声変換においては、通常、入力音声にピッチシフトやフォルマントシフトを施してそのフォルマントを単に周波数軸上で上下に移動させるのみであった。このため、入力音声の周波数特性(すなわち、声質)によっては、適当な音声変換がなされる場合もあれば、変換後の音量が極端に小さくなったり、あるいは不自然な音声になるなど適当な音声変換がなされない場合もあり、ムラが多いという問題があった。また、このようなムラが生じるために変換可能な範囲が極めて制限されるという問題もあった。
この発明は、このような背景の下になされたもので、入力音声の特性の相違による音声変換のムラを補償することができる音声変換装置を提供することを目的としている。
上述した課題を解決するために、本発明に係る音声変換装置の第の特徴は、入力音声から第1のパラメータを抽出する第1の抽出手段と、前記入力音声の周波数特性を変化させて出力する音声変換手段と、前記音声変換手段の出力音声から第2のパラメータを抽出する第2の抽出手段と、前記第1および第2のパラメータを比較する比較手段と、前記比較手段による比較の結果に基づいて前記音声変換手段による変換処理を制御する制御手段と、前記音声変換手段の出力音声からパラメータを抽出し、当該パラメータに基づいて前記出力音声を採点する採点手段とを具備することにある。
本発明に係る音声変換装置の第の特徴は、入力音声の音量を抽出する第1の抽出手段と、前記入力音声の周波数特性を変化させて出力する音声変換手段と、前記音声変換手段の出力音声の音量を抽出する第2の抽出手段と、前記第1および第2の抽出手段が抽出した音量を比較する比較手段と、前記音声変換手段に供給すべき入力音声の音量を前記比較手段による比較の結果に応じて増幅する音量付加手段と、前記音声変換手段の出力音声の音量を抽出し、当該音量に基づいて前記出力音声を採点する採点手段とを具備することにある。
また、本発明に係る音声変換装置の第の特徴は、入力音声の音量を抽出する第1の抽出手段と、前記入力音声の周波数特性を変化させて出力する音声変換手段と、前記音声変換手段の出力音声の音量を抽出する第2の抽出手段と、前記第1および第2の抽出手段が抽出した音量を比較する比較手段と、前記音声変換手段に供給すべき入力音声に対して前記比較手段による比較の結果に応じた歪みを与えて当該音声に高調波を付加する高調波付加手段と、前記音声変換手段の出力音声の音量を抽出し、当該音量に基づいて前記出力音声を採点する採点手段とを具備することにある。
以下、図面を参照して、この発明の実施形態について説明する。なお、以下の実施形態は、本発明を通信カラオケ装置に適用したものであるが、本発明はかかるカラオケ装置への適用に限らず、その他のカラオケ装置あるいは音声変換装置にも適用可能である。
A:実施形態の構成
(1)全体構成
図1はこの発明の一実施形態の全体構成を示すブロック図である。同図において、1はセンタ局に設置されたホストコンピュータであり、カラオケの楽曲データを蓄積したデータベースを有している。このホストコンピュータ1には、通信回線(公衆電話回線またはISDN)を介し、各カラオケ店舗に設置された複数のカラオケ端末2が接続されており、定期的に楽曲データを各カラオケ端末2に配信するようになっている。以下、このカラオケ端末2を構成する各部を説明する。
21はCPU(中央処理装置)であり、バスBUSを介し接続される端末各部を制御する。また、22はROM(Read Only Memory)であり、CPU21が実行する制御プログラムおよび楽曲データに含まれる歌詞コードに対応したフォントデータを記憶する。さらに、23はRAM(Random Access Memory)であり、CPU21のワークエリアとして用いられる。
また、24はハードディスクであり、ホストコンピュータ1から配信される楽曲データを記憶する。すなわち、カラオケ端末2においては、ホストコンピュータ1から供給される楽曲データを一旦ハードディスク24に蓄積し、これを読み出して用いるようになっている。25は通信コントローラであり、ホストコンピュータ1から送信される楽曲データを受信しこれをハードディスク24へ転送する。
また、26はパネルスイッチであり、カラオケ装置本体の操作パネル(図示略)に設けられ、例えば演奏の開始または中止を指示する操作の他、ボリューム、テンポ、キーコントロールあるいは後述する音声変換のためのピッチシフトおよび声質等の設定操作がなされる。パネルスイッチ26は、こうした指示操作や設定状態に対応した入力値あるいは設定値をCPU21へ出力する。また、27はリモコン受信部であり、リモコン端末RMCから入力される曲番号や演奏の開始または中止などの指示操作に対応した信号を受信し、これを入力値としてCPU21へ出力する。さらに、28はLCD(Liquid Crystal Display)等で構成された表示パネルであり、リクエスト中の曲番号や各種設定状態等のメッセージを表示する。
次に、29は音源であり、CPU21により供給される楽音制御データ(楽曲データに含まれる。)に対応した楽音信号を合成しこれを効果用DSP(Digital Signal Processor)30へ出力する。31は音声デコーダであり、CPU21により供給されるADPCMデータ(楽曲データに含まれるバックコーラス等の音声データ)に対応した音声信号を生成しこれを効果用DSP30へ出力する。
また、32は音声変換部であり、マイクアンプ33によって増幅されA/D変換器34によってディジタル信号に変換されたマイクMからの入力音声に対し所定の音声変換処理を施す。この変換後の音声信号は、効果用DSP30および採点機35へ各々供給される。なお、音声変換部32の詳細については後述する。
効果用DSP30は、CPU21から供給される効果付与制御データ(楽曲データに含まれる。)に基づき、音源29から供給される楽音信号、音声デコーダ31から供給されるバックコーラス等の音声信号、および音声変換部32によって変換処理を施されたマイク入力に対し、エコー、リバーブ、ディレイ等の各種効果を付与する。こうして効果付与された楽音は、D/A変換器37によってアナログ信号に変換された後、サウンドシステム36に送られ、スピーカより放音される。
また、採点機35は、音声変換部32におけるマイク入力の分析結果に基づき歌唱者の歌唱力を評価し、その採点結果を数値データとして出力する。
次に、38は表示制御部であり、モニタ39の表示制御を行う。この表示制御部38は、カラオケの演奏中、動画CD等の映像記憶装置40から供給されるカラオケの背景映像を表示するための映像データに、ROM22から読み出される歌詞のフォントデータをスーパーインポーズし、その合成画像をモニタ39に表示させる。また、表示制御部38は、カラオケの演奏終了後、採点機35の採点結果をモニタ39に表示させる。
(2)音声変換部32の詳細
次に、音声変換部32の詳細について説明する。図2は、音声変換部32の構成を示すブロック図である。同図において、321は、マイクMからの入力音声に歪みを与えるディストーション回路である。このディストーション回路321は、差分判定回路322から与えられる音量ゲインGに応じて入力音声信号を増幅し、また、該回路322から与えられる加歪率Dに応じて増幅後の入力音声信号に歪みを与える。これにより、入力音声信号に加歪率Dに応じた量の高調波(すなわち、高音域の成分)が付加される。
323はピッチシフト回路であり、パネルスイッチ26において設定されたシフト量に応じて入力音声信号のピッチ(すなわち、周波数)をシフトさせる。このピッチシフト回路323によって、例えば入力音声が男性の声の場合にこれを1オクターブだけ高音側へシフトするなどして女性の声に変換することが可能になる。
また、324はフォルマントシフト回路であり、パネルスイッチ26において設定された声質(例えば、声の太さの度合い)に応じて入力音声のフォルマントをシフトする。このフォルマントシフト回路324によって、入力音声の声道特性を変えることにより、例えば同じ男性の声であってもあたかも別人の声のように変換することが可能になる。
次に、325,326は可聴フィルタである。可聴フィルタ325は、入力音声信号の音量レベルを抽出し、これを音量データV1として出力する。一方、可聴フィルタ326は、出力音声信号の音量レベルを抽出し、これを音量データV2として出力する。
次に、差分判定回路322は、可聴フィルタ325,326から各々出力される音量データV1,V2を比較し、入力音声と出力音声の音量差に応じてディストーション回路321へ供給すべき音量ゲインGと加歪率Dを決定する。例えば、入力音声の音量に対して変換後の出力音声の音量が小さい場合には音量ゲインGを大きくする。また、入力音声を高音側へシフトする場合に、入力音声の音量に対して変換後の出力音声の音量が小さい場合には高音域の音量が不足しているとみなし、入力音声に付加すべき高調波の量を増すべく加歪率Dを大きくする。
さらに、327はハウリング検出回路であり、出力音声信号のハウリングを検出する。このハウリング検出回路327の検出結果に基づき、出力音声信号のハウリングを抑制すべくディストーション回路321に与えられる音量ゲインGが調整される。
B:実施形態の動作
次に、上記構成からなる実施形態の動作を説明する。
(1)カラオケ装置の全体動作
はじめに、本実施形態にかかるカラオケ装置の全体動作を説明する。ただし、楽曲データは、既にホストコンピュータ1からカラオケ端末2へ配信されており、ハードディスク24に格納されているものとする。
まずカラオケ端末2に電源が投入され、リモコン端末RMCより曲番号が指定されると、この曲番号はリモコン受信部27によって受信される。これによりCPU21が指定された曲番号を識別すると、この曲番号に対応する楽曲データをハードディスク24から読み出し、該データの再生を開始する。これにより、楽曲データに含まれるノートデータ、デュレーションデータ等の楽音制御データが音源29に供給され、カラオケの演奏が行われる。一方、楽曲データのヘッダ部に含まれるジャンル情報(その曲の音楽ジャンルや季節等を示す情報)が読み取られ、これに対応する背景映像が映像記憶装置40より再生され、モニタ39に表示される。また、モニタ39に映し出される背景映像には、楽曲データに含まれる歌詞コードに対応したフォント画像がスーパーインポーズされる。
一方、利用者の歌唱音声は、マイクMより入力され、効果用DSP30にて、音源29から出力されるカラオケの楽音および音声デコーダ31から出力されるバックコーラス音とともにエコー、リバーブ等の各種効果が付与された後、サウンドシステム36へ送られ、スピーカより放音される。
(2)音声変換の動作
次に、上述したカラオケ演奏において、利用者がパネルスイッチ26より音声変換の動作モードを指示した場合の動作を説明する。利用者がパネルスイッチ26より音声変換モードを指示し、所望のピッチシフト量と声質とを設定すると、ピッチシフト量の設定値がピッチシフト回路323へ供給されるとともに、声質に対応したフォルマントシフト量の設定値がフォルマントシフト回路324へ供給される。これにより、変換後の目標となる出力音声の周波数特性が決定され、以後、これと周波数特性が一致するよう入力音声の音声変換が行われる。
例えば図3に示すように、入力音声が男性の声で、高音域の成分が元々少ないにもかかわらず、女性の声の周波数特性(変換目標)になるよう変換する場合(同図(a)参照)、入力音声の大部分を占める低音域がカットされてしまうために出力音声全体としての音量が入力音声のそれと比較して小さくなる。
この場合、差分判定回路322においては、音量データV1,V2の差が大きくなることから音量ゲインGを大きくするよう制御がなされる。これによって、入力音声信号が全体的に増幅され高音側成分の不足が補われた上で(同図(b)参照)、目標の周波数特性に一致するようピッチシフトおよびフォルマントシフトが施される(同図(c)参照)。
また、音量ゲインGによる増幅のみでは高音域の成分を十分に補えない場合をも考慮して、例えば図4に示すように、ディストーション回路321にて入力音声信号に歪みを加えることにより高調波(高音域の成分)を付加する(同図(a)参照)。このとき付加される高調波の量は、加歪率Dの大きさによって制御される。すなわち、音量データV1,V2の差が大きい場合、加歪率Dを大きくすることにより高調波の量が増加され、音量データV1,V2の差が小さい場合、加歪率Dを小さくすることにより高調波の量が減少される。そして、上記のように高調波が付加され高音側成分の不足が補われた上、目標の周波数特性に一致するようピッチシフトおよびフォルマントシフトが施され、音声変換が行われる(同図(b)参照)。
このように、本実施形態による音声変換においては、出力音声を入力側にフィードバックし、入力音声と出力音声の音量差が大きい場合には、この差を補正すべく入力音声を増幅して音声変換を行う。特に、高音域の音量が小さい場合には、ディストーションの加歪率Dを大きくすることにより入力音声に高調波を付加し、高音域の音量を補って音声変換を行う。また、ハウリング検出回路327の検出結果に基づき音量ゲインGが調整され、出力音声信号のハウリングが抑制される。これによって、音声変換に伴う音量の低下や不自然さ等のムラを補償することができる。
C:変形例
なお、本発明は、上記実施形態に限らず、例えば以下のような種々の変形が可能である。
(1)実施形態では、ディストーション回路321によって入力音声の増幅後、高調波を補うべく歪みを加えるようにしたが、これに限らず、単に増幅器によって音量のみを付加するようにしても、出力音声の音量低減を補償する効果を得ることは可能である。すなわち、高調波の付加は、男性の声から女性の声への変換の場合ように高音域の成分が足りなくなるような音声変換の場合に有効となる。
(2)また、実施形態では、音量の補正を例としたが、これに限らず、例えば音程の補正などその他のパラメータを補正の対象としてもよい。
(3)また、実施形態では、音声変換手段としてピッチシフトとフォルマントシフトを併用する構成を採用したが、これに限らず、いずれか一方のみの構成としてもよく、あるいはこれらをイコライザに置き換えてもよい。
(4)さらに、採点機35では、入力音声から抽出される音量のみならず、音程をも抽出して、歌唱力の採点に利用するようにしてもよい。また、入力音声に限らず、音声変換後の出力音声について音量、音程等のパラメータを抽出して採点を行うようにしてもよい。
本実施形態の全体構成を示すブロック図である。 同実施形態における音声変換部の構成を示すブロック図である。 同実施形態における音量付加を説明するための図である。 同実施形態における高調波付加を説明するための図である。
符号の説明
1…ホストコンピュータ、2…カラオケ端末、21…CPU、22…ROM、23…RAM、24…ハードディスク、25…通信コントローラ、26…パネルスイッチ、27…リモコン受信部、28…表示パネル、29…音源、30…効果用DSP、31…音声デコーダ、32…音声変換部、33…マイクアンプ、34…A/D変換器、35…採点機、36…サウンドシステム、37…D/A変換器、38…表示制御部、39…モニタ、40…映像記憶装置、321…ディストーション回路(音量付加手段、高調波付加手段)、322…差分判定回路(比較手段、制御手段)、323…ピッチシフト回路(音声変換手段)、324…フォルマントシフト回路(音声変換手段)、325,326…可聴フィルタ(第1および第2の抽出手段)、327…ハウリング検出回路。

Claims (3)

  1. 入力音声から第1のパラメータを抽出する第1の抽出手段と、
    前記入力音声の周波数特性を変化させて出力する音声変換手段と、
    前記音声変換手段の出力音声から第2のパラメータを抽出する第2の抽出手段と、
    前記第1および第2のパラメータを比較する比較手段と、
    前記比較手段による比較の結果に基づいて前記音声変換手段による変換処理を制御する制御手段と、
    前記音声変換手段の出力音声からパラメータを抽出し、当該パラメータに基づいて前記出力音声を採点する採点手段と
    を具備することを特徴とする音声変換装置。
  2. 入力音声の音量を抽出する第1の抽出手段と、
    前記入力音声の周波数特性を変化させて出力する音声変換手段と、
    前記音声変換手段の出力音声の音量を抽出する第2の抽出手段と、
    前記第1および第2の抽出手段が抽出した音量を比較する比較手段と、
    前記音声変換手段に供給すべき入力音声の音量を前記比較手段による比較の結果に応じて増幅する音量付加手段と、
    前記音声変換手段の出力音声の音量を抽出し、当該音量に基づいて前記出力音声を採点する採点手段と
    を具備することを特徴とする音声変換装置。
  3. 入力音声の音量を抽出する第1の抽出手段と、
    前記入力音声の周波数特性を変化させて出力する音声変換手段と、
    前記音声変換手段の出力音声の音量を抽出する第2の抽出手段と、
    前記第1および第2の抽出手段が抽出した音量を比較する比較手段と、
    前記音声変換手段に供給すべき入力音声に対して前記比較手段による比較の結果に応じた歪みを与えて当該音声に高調波を付加する高調波付加手段と、
    前記音声変換手段の出力音声の音量を抽出し、当該音量に基づいて前記出力音声を採点する採点手段と
    を具備することを特徴とする音声変換装置。
JP2004308553A 2004-10-22 2004-10-22 音声変換装置 Expired - Fee Related JP3931901B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004308553A JP3931901B2 (ja) 2004-10-22 2004-10-22 音声変換装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004308553A JP3931901B2 (ja) 2004-10-22 2004-10-22 音声変換装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP8232095A Division JPH1074098A (ja) 1996-09-02 1996-09-02 音声変換装置

Publications (2)

Publication Number Publication Date
JP2005025234A JP2005025234A (ja) 2005-01-27
JP3931901B2 true JP3931901B2 (ja) 2007-06-20

Family

ID=34191939

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004308553A Expired - Fee Related JP3931901B2 (ja) 2004-10-22 2004-10-22 音声変換装置

Country Status (1)

Country Link
JP (1) JP3931901B2 (ja)

Also Published As

Publication number Publication date
JP2005025234A (ja) 2005-01-27

Similar Documents

Publication Publication Date Title
JP3900580B2 (ja) カラオケ装置
JP2014071138A (ja) カラオケ装置
US5753845A (en) Karaoke apparatus creating vocal effect matching music piece
US5963907A (en) Voice converter
JP4237768B2 (ja) 音声処理装置、音声処理プログラム
JP5144333B2 (ja) カラオケ装置
JPH1152966A (ja) 音楽演奏システム
JP3931901B2 (ja) 音声変換装置
JP2014197082A (ja) 楽器音出力装置
JP4171680B2 (ja) 音楽再生装置の情報設定装置、情報設定方法、及び情報設定プログラム
JPH10282992A (ja) 音声処理装置
JP3562068B2 (ja) カラオケ装置
CN102044238B (zh) 音乐再现系统
JP3659138B2 (ja) カラオケ装置
JP2007011090A (ja) カラオケ装置
JP2011215292A (ja) 歌唱判定装置およびカラオケ装置
JP2001022364A (ja) 自動移調装置を具備したカラオケ装置
JPH04298793A (ja) 自動演奏切替え機能付き音楽再生装置
JPH10319977A (ja) カラオケ演奏装置およびカラオケ用携帯型試聴端末
JP3166621B2 (ja) カラオケ用プロセッサおよび楽器練習用プロセッサ
JP4168391B2 (ja) カラオケ装置、音声処理方法及びプログラム
JP4360212B2 (ja) カラオケ装置
JPH11212555A (ja) 音楽再生装置
JP3363667B2 (ja) カラオケ装置
WO2024107342A1 (en) Dynamic effects karaoke

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041022

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070305

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110323

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110323

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120323

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130323

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140323

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees