JPH1074098A - 音声変換装置 - Google Patents
音声変換装置Info
- Publication number
- JPH1074098A JPH1074098A JP8232095A JP23209596A JPH1074098A JP H1074098 A JPH1074098 A JP H1074098A JP 8232095 A JP8232095 A JP 8232095A JP 23209596 A JP23209596 A JP 23209596A JP H1074098 A JPH1074098 A JP H1074098A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- conversion
- sound
- volume
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000006243 chemical reaction Methods 0.000 claims abstract description 71
- 238000000605 extraction Methods 0.000 claims description 9
- 238000000034 method Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 abstract description 5
- 230000000694 effects Effects 0.000 description 13
- 230000005236 sound signal Effects 0.000 description 13
- 238000001514 detection method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 241001342895 Chorus Species 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/361—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
- G10H1/365—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems the accompaniment information being stored on a host computer and transmitted to a reproducing terminal by means of a network, e.g. public telephone lines
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/361—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
- G10H1/366—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems with means for modifying or correcting the external signal, e.g. pitch correction, reverberation, changing a singer's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/171—Transmission of musical instrument data, control or status information; Transmission, remote access or control of music data for electrophonic musical instruments
- G10H2240/201—Physical layer or hardware aspects of transmission to or from an electrophonic musical instrument, e.g. voltage levels, bit streams, code words or symbols over a physical link connecting network nodes or instruments
- G10H2240/241—Telephone transmission, i.e. using twisted pair telephone lines or any type of telephone network
- G10H2240/245—ISDN [Integrated Services Digital Network]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/471—General musical sound synthesis principles, i.e. sound category-independent synthesis methods
- G10H2250/481—Formant synthesis, i.e. simulating the human speech production mechanism by exciting formant resonators, e.g. mimicking vocal tract filtering as in LPC synthesis vocoders, wherein musical instruments may be used as excitation signal to the time-varying filter estimated from a singer's speech
- G10H2250/501—Formant frequency shifting, sliding formants
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
(57)【要約】
【課題】 入力音声の特性の相違による音声変換のムラ
を補償する。 【解決手段】 可聴フィルタ325は、入力音声信号の
音量レベルを抽出し、これを音量データV1として出力
する。一方、可聴フィルタ326は、出力音声信号の音
量レベルを抽出し、これを音量データV2として出力す
る。差分判定回路322は、可聴フィルタ325,32
6から各々出力される音量データV1,V2を比較し、
入力音声と出力音声の音量差に応じてディストーション
回路321へ供給すべき音量ゲインGと加歪率Dを決定
する。例えば、入力音声の音量に対して変換後の出力音
声の音量が小さい場合には音量ゲインGを大きくする。
また、入力音声を高音側へシフトする場合に、入力音声
の音量に対して変換後の出力音声の音量が小さい場合に
は高音域の音量が不足しているとみなし、入力音声に付
加すべき高調波の量を増すべく加歪率Dを大きくする。
を補償する。 【解決手段】 可聴フィルタ325は、入力音声信号の
音量レベルを抽出し、これを音量データV1として出力
する。一方、可聴フィルタ326は、出力音声信号の音
量レベルを抽出し、これを音量データV2として出力す
る。差分判定回路322は、可聴フィルタ325,32
6から各々出力される音量データV1,V2を比較し、
入力音声と出力音声の音量差に応じてディストーション
回路321へ供給すべき音量ゲインGと加歪率Dを決定
する。例えば、入力音声の音量に対して変換後の出力音
声の音量が小さい場合には音量ゲインGを大きくする。
また、入力音声を高音側へシフトする場合に、入力音声
の音量に対して変換後の出力音声の音量が小さい場合に
は高音域の音量が不足しているとみなし、入力音声に付
加すべき高調波の量を増すべく加歪率Dを大きくする。
Description
【0001】
【発明の属する技術分野】この発明は、例えばカラオケ
装置に用いて好適な音声変換装置に関する。
装置に用いて好適な音声変換装置に関する。
【0002】
【従来の技術】近年、カラオケ等の分野においては、入
力音声に周波数変換等の処理を施して様々な効果を得る
音声変換の技術が各種開発されている。例えば、入力音
声の音程を所定度数シフトさせてこれを元の音声に付加
することによって、いわゆるハモリの効果を得たり、あ
るいは、入力音声を1オクターブ高音側へシフトさせた
りそのフォルマント(声道の共振周波数)をシフトさせ
たりして、男性の声を女性の声に変換する、といった技
術が知られている。
力音声に周波数変換等の処理を施して様々な効果を得る
音声変換の技術が各種開発されている。例えば、入力音
声の音程を所定度数シフトさせてこれを元の音声に付加
することによって、いわゆるハモリの効果を得たり、あ
るいは、入力音声を1オクターブ高音側へシフトさせた
りそのフォルマント(声道の共振周波数)をシフトさせ
たりして、男性の声を女性の声に変換する、といった技
術が知られている。
【0003】
【発明が解決しようとする課題】ところで、従来の音声
変換においては、通常、入力音声にピッチシフトやフォ
ルマントシフトを施してそのフォルマントを単に周波数
軸上で上下に移動させるのみであった。このため、入力
音声の周波数特性(すなわち、声質)によっては、適当
な音声変換がなされる場合もあれば、変換後の音量が極
端に小さくなったり、あるいは不自然な音声になるなど
適当な音声変換がなされない場合もあり、ムラが多いと
いう問題があった。また、このようなムラが生じるため
に変換可能な範囲が極めて制限されるという問題もあっ
た。
変換においては、通常、入力音声にピッチシフトやフォ
ルマントシフトを施してそのフォルマントを単に周波数
軸上で上下に移動させるのみであった。このため、入力
音声の周波数特性(すなわち、声質)によっては、適当
な音声変換がなされる場合もあれば、変換後の音量が極
端に小さくなったり、あるいは不自然な音声になるなど
適当な音声変換がなされない場合もあり、ムラが多いと
いう問題があった。また、このようなムラが生じるため
に変換可能な範囲が極めて制限されるという問題もあっ
た。
【0004】この発明は、このような背景の下になされ
たもので、入力音声の特性の相違による音声変換のムラ
を補償することができる音声変換装置を提供することを
目的としている。
たもので、入力音声の特性の相違による音声変換のムラ
を補償することができる音声変換装置を提供することを
目的としている。
【0005】
【課題を解決するための手段】上述した課題を解決する
ために、請求項1記載の発明は、入力音声から第1のパ
ラメータを抽出する第1の抽出手段と、前記入力音声を
異なる周波数特性をもつ音声に変換して出力する音声変
換手段と、前記音声変換手段の出力音声から第2のパラ
メータを抽出する第2の抽出手段と、前記第1および第
2のパラメータを比較する比較手段と、前記比較手段の
比較結果に基づき前記音声変換手段による変換処理を制
御する制御手段とを具備することを特徴としている。
ために、請求項1記載の発明は、入力音声から第1のパ
ラメータを抽出する第1の抽出手段と、前記入力音声を
異なる周波数特性をもつ音声に変換して出力する音声変
換手段と、前記音声変換手段の出力音声から第2のパラ
メータを抽出する第2の抽出手段と、前記第1および第
2のパラメータを比較する比較手段と、前記比較手段の
比較結果に基づき前記音声変換手段による変換処理を制
御する制御手段とを具備することを特徴としている。
【0006】また、請求項2記載の発明は、入力音声の
音量を抽出する第1の抽出手段と、前記入力音声を異な
る周波数特性をもつ音声に変換して出力する音声変換手
段と、前記音声変換手段の出力音声の音量を抽出する第
2の抽出手段と、前記第1および第2の抽出手段によっ
て抽出される音量を比較しこれらの差を出力する比較手
段と、前記比較手段によって出力される音量差に応じて
前記音声変換手段に供給すべき入力音声の音量を増幅す
る音量付加手段とを具備することを特徴としている。
音量を抽出する第1の抽出手段と、前記入力音声を異な
る周波数特性をもつ音声に変換して出力する音声変換手
段と、前記音声変換手段の出力音声の音量を抽出する第
2の抽出手段と、前記第1および第2の抽出手段によっ
て抽出される音量を比較しこれらの差を出力する比較手
段と、前記比較手段によって出力される音量差に応じて
前記音声変換手段に供給すべき入力音声の音量を増幅す
る音量付加手段とを具備することを特徴としている。
【0007】また、請求項3記載の発明は、入力音声の
音量を抽出する第1の抽出手段と、前記入力音声を異な
る周波数特性をもつ音声に変換して出力する音声変換手
段と、前記音声変換手段の出力音声の音量を抽出する第
2の抽出手段と、前記第1および第2の抽出手段によっ
て抽出される音量を比較しこれらの差を出力する比較手
段と、前記比較手段によって出力される音量差に応じて
前記音声変換手段に供給すべき入力音声に歪みを与えて
該音声に高調波を付加する高調波付加手段とを具備する
ことを特徴としている。
音量を抽出する第1の抽出手段と、前記入力音声を異な
る周波数特性をもつ音声に変換して出力する音声変換手
段と、前記音声変換手段の出力音声の音量を抽出する第
2の抽出手段と、前記第1および第2の抽出手段によっ
て抽出される音量を比較しこれらの差を出力する比較手
段と、前記比較手段によって出力される音量差に応じて
前記音声変換手段に供給すべき入力音声に歪みを与えて
該音声に高調波を付加する高調波付加手段とを具備する
ことを特徴としている。
【0008】また、請求項4記載の発明は、請求項1な
いし3のいずれかに記載の発明において、前記音声変換
手段による変換は、ピッチシフトを含むことを特徴とし
ている。
いし3のいずれかに記載の発明において、前記音声変換
手段による変換は、ピッチシフトを含むことを特徴とし
ている。
【0009】また、請求項5記載の発明は、請求項1な
いし4のいずれかに記載の発明において、前記音声変換
手段による変換は、フォルマントシフトを含むことを特
徴としている。
いし4のいずれかに記載の発明において、前記音声変換
手段による変換は、フォルマントシフトを含むことを特
徴としている。
【0010】
【発明の実施の形態】以下、図面を参照して、この発明
の実施形態について説明する。なお、以下の実施形態
は、本発明を通信カラオケ装置に適用したものである
が、本発明はかかるカラオケ装置への適用に限らず、そ
の他のカラオケ装置あるいは音声変換装置にも適用可能
である。
の実施形態について説明する。なお、以下の実施形態
は、本発明を通信カラオケ装置に適用したものである
が、本発明はかかるカラオケ装置への適用に限らず、そ
の他のカラオケ装置あるいは音声変換装置にも適用可能
である。
【0011】A:実施形態の構成 (1)全体構成 図1はこの発明の一実施形態の全体構成を示すブロック
図である。同図において、1はセンタ局に設置されたホ
ストコンピュータであり、カラオケの楽曲データを蓄積
したデータベースを有している。このホストコンピュー
タ1には、通信回線(公衆電話回線またはISDN)を
介し、各カラオケ店舗に設置された複数のカラオケ端末
2が接続されており、定期的に楽曲データを各カラオケ
端末2に配信するようになっている。以下、このカラオ
ケ端末2を構成する各部を説明する。
図である。同図において、1はセンタ局に設置されたホ
ストコンピュータであり、カラオケの楽曲データを蓄積
したデータベースを有している。このホストコンピュー
タ1には、通信回線(公衆電話回線またはISDN)を
介し、各カラオケ店舗に設置された複数のカラオケ端末
2が接続されており、定期的に楽曲データを各カラオケ
端末2に配信するようになっている。以下、このカラオ
ケ端末2を構成する各部を説明する。
【0012】21はCPU(中央処理装置)であり、バ
スBUSを介し接続される端末各部を制御する。また、
22はROM(Read Only Memory)であり、CPU21が
実行する制御プログラムおよび楽曲データに含まれる歌
詞コードに対応したフォントデータを記憶する。さら
に、23はRAM(Random Access Memory)であり、CP
U21のワークエリアとして用いられる。
スBUSを介し接続される端末各部を制御する。また、
22はROM(Read Only Memory)であり、CPU21が
実行する制御プログラムおよび楽曲データに含まれる歌
詞コードに対応したフォントデータを記憶する。さら
に、23はRAM(Random Access Memory)であり、CP
U21のワークエリアとして用いられる。
【0013】また、24はハードディスクであり、ホス
トコンピュータ1から配信される楽曲データを記憶す
る。すなわち、カラオケ端末2においては、ホストコン
ピュータ1から供給される楽曲データを一旦ハードディ
スク24に蓄積し、これを読み出して用いるようになっ
ている。25は通信コントローラであり、ホストコンピ
ュータ1から送信される楽曲データを受信しこれをハー
ドディスク24へ転送する。
トコンピュータ1から配信される楽曲データを記憶す
る。すなわち、カラオケ端末2においては、ホストコン
ピュータ1から供給される楽曲データを一旦ハードディ
スク24に蓄積し、これを読み出して用いるようになっ
ている。25は通信コントローラであり、ホストコンピ
ュータ1から送信される楽曲データを受信しこれをハー
ドディスク24へ転送する。
【0014】また、26はパネルスイッチであり、カラ
オケ装置本体の操作パネル(図示略)に設けられ、例え
ば演奏の開始または中止を指示する操作の他、ボリュー
ム、テンポ、キーコントロールあるいは後述する音声変
換のためのピッチシフトおよび声質等の設定操作がなさ
れる。パネルスイッチ26は、こうした指示操作や設定
状態に対応した入力値あるいは設定値をCPU21へ出
力する。また、27はリモコン受信部であり、リモコン
端末RMCから入力される曲番号や演奏の開始または中
止などの指示操作に対応した信号を受信し、これを入力
値としてCPU21へ出力する。さらに、28はLCD
(Liquid Crystal Display)等で構成された表示パネルで
あり、リクエスト中の曲番号や各種設定状態等のメッセ
ージを表示する。
オケ装置本体の操作パネル(図示略)に設けられ、例え
ば演奏の開始または中止を指示する操作の他、ボリュー
ム、テンポ、キーコントロールあるいは後述する音声変
換のためのピッチシフトおよび声質等の設定操作がなさ
れる。パネルスイッチ26は、こうした指示操作や設定
状態に対応した入力値あるいは設定値をCPU21へ出
力する。また、27はリモコン受信部であり、リモコン
端末RMCから入力される曲番号や演奏の開始または中
止などの指示操作に対応した信号を受信し、これを入力
値としてCPU21へ出力する。さらに、28はLCD
(Liquid Crystal Display)等で構成された表示パネルで
あり、リクエスト中の曲番号や各種設定状態等のメッセ
ージを表示する。
【0015】次に、29は音源であり、CPU21によ
り供給される楽音制御データ(楽曲データに含まれ
る。)に対応した楽音信号を合成しこれを効果用DSP
(DigitalSignal Processor)30へ出力する。31は音
声デコーダであり、CPU21により供給されるADP
CMデータ(楽曲データに含まれるバックコーラス等の
音声データ)に対応した音声信号を生成しこれを効果用
DSP30へ出力する。
り供給される楽音制御データ(楽曲データに含まれ
る。)に対応した楽音信号を合成しこれを効果用DSP
(DigitalSignal Processor)30へ出力する。31は音
声デコーダであり、CPU21により供給されるADP
CMデータ(楽曲データに含まれるバックコーラス等の
音声データ)に対応した音声信号を生成しこれを効果用
DSP30へ出力する。
【0016】また、32は音声変換部であり、マイクア
ンプ33によって増幅されA/D変換器34によってデ
ィジタル信号に変換されたマイクMからの入力音声に対
し所定の音声変換処理を施す。この変換後の音声信号
は、効果用DSP30および採点機35へ各々供給され
る。なお、音声変換部32の詳細については後述する。
ンプ33によって増幅されA/D変換器34によってデ
ィジタル信号に変換されたマイクMからの入力音声に対
し所定の音声変換処理を施す。この変換後の音声信号
は、効果用DSP30および採点機35へ各々供給され
る。なお、音声変換部32の詳細については後述する。
【0017】効果用DSP30は、CPU21から供給
される効果付与制御データ(楽曲データに含まれる。)
に基づき、音源29から供給される楽音信号、音声デコ
ーダ31から供給されるバックコーラス等の音声信号、
および音声変換部32によって変換処理を施されたマイ
ク入力に対し、エコー、リバーブ、ディレイ等の各種効
果を付与する。こうして効果付与された楽音は、D/A
変換器37によってアナログ信号に変換された後、サウ
ンドシステム36に送られ、スピーカより放音される。
される効果付与制御データ(楽曲データに含まれる。)
に基づき、音源29から供給される楽音信号、音声デコ
ーダ31から供給されるバックコーラス等の音声信号、
および音声変換部32によって変換処理を施されたマイ
ク入力に対し、エコー、リバーブ、ディレイ等の各種効
果を付与する。こうして効果付与された楽音は、D/A
変換器37によってアナログ信号に変換された後、サウ
ンドシステム36に送られ、スピーカより放音される。
【0018】また、採点機35は、音声変換部32にお
けるマイク入力の分析結果に基づき歌唱者の歌唱力を評
価し、その採点結果を数値データとして出力する。
けるマイク入力の分析結果に基づき歌唱者の歌唱力を評
価し、その採点結果を数値データとして出力する。
【0019】次に、38は表示制御部であり、モニタ3
9の表示制御を行う。この表示制御部38は、カラオケ
の演奏中、動画CD等の映像記憶装置40から供給され
るカラオケの背景映像を表示するための映像データに、
ROM22から読み出される歌詞のフォントデータをス
ーパーインポーズし、その合成画像をモニタ39に表示
させる。また、表示制御部38は、カラオケの演奏終了
後、採点機35の採点結果をモニタ39に表示させる。
9の表示制御を行う。この表示制御部38は、カラオケ
の演奏中、動画CD等の映像記憶装置40から供給され
るカラオケの背景映像を表示するための映像データに、
ROM22から読み出される歌詞のフォントデータをス
ーパーインポーズし、その合成画像をモニタ39に表示
させる。また、表示制御部38は、カラオケの演奏終了
後、採点機35の採点結果をモニタ39に表示させる。
【0020】(2)音声変換部32の詳細 次に、音声変換部32の詳細について説明する。図2
は、音声変換部32の構成を示すブロック図である。同
図において、321は、マイクMからの入力音声に歪み
を与えるディストーション回路である。このディストー
ション回路321は、差分判定回路322から与えられ
る音量ゲインGに応じて入力音声信号を増幅し、また、
該回路322から与えられる加歪率Dに応じて増幅後の
入力音声信号に歪みを与える。これにより、入力音声信
号に加歪率Dに応じた量の高調波(すなわち、高音域の
成分)が付加される。
は、音声変換部32の構成を示すブロック図である。同
図において、321は、マイクMからの入力音声に歪み
を与えるディストーション回路である。このディストー
ション回路321は、差分判定回路322から与えられ
る音量ゲインGに応じて入力音声信号を増幅し、また、
該回路322から与えられる加歪率Dに応じて増幅後の
入力音声信号に歪みを与える。これにより、入力音声信
号に加歪率Dに応じた量の高調波(すなわち、高音域の
成分)が付加される。
【0021】323はピッチシフト回路であり、パネル
スイッチ26において設定されたシフト量に応じて入力
音声信号のピッチ(すなわち、周波数)をシフトさせ
る。このピッチシフト回路323によって、例えば入力
音声が男性の声の場合にこれを1オクターブだけ高音側
へシフトするなどして女性の声に変換することが可能に
なる。
スイッチ26において設定されたシフト量に応じて入力
音声信号のピッチ(すなわち、周波数)をシフトさせ
る。このピッチシフト回路323によって、例えば入力
音声が男性の声の場合にこれを1オクターブだけ高音側
へシフトするなどして女性の声に変換することが可能に
なる。
【0022】また、324はフォルマントシフト回路で
あり、パネルスイッチ26において設定された声質(例
えば、声の太さの度合い)に応じて入力音声のフォルマ
ントをシフトする。このフォルマントシフト回路324
によって、入力音声の声道特性を変えることにより、例
えば同じ男性の声であってもあたかも別人の声のように
変換することが可能になる。
あり、パネルスイッチ26において設定された声質(例
えば、声の太さの度合い)に応じて入力音声のフォルマ
ントをシフトする。このフォルマントシフト回路324
によって、入力音声の声道特性を変えることにより、例
えば同じ男性の声であってもあたかも別人の声のように
変換することが可能になる。
【0023】次に、325,326は可聴フィルタであ
る。可聴フィルタ325は、入力音声信号の音量レベル
を抽出し、これを音量データV1として出力する。一
方、可聴フィルタ326は、出力音声信号の音量レベル
を抽出し、これを音量データV2として出力する。
る。可聴フィルタ325は、入力音声信号の音量レベル
を抽出し、これを音量データV1として出力する。一
方、可聴フィルタ326は、出力音声信号の音量レベル
を抽出し、これを音量データV2として出力する。
【0024】次に、差分判定回路322は、可聴フィル
タ325,326から各々出力される音量データV1,
V2を比較し、入力音声と出力音声の音量差に応じてデ
ィストーション回路321へ供給すべき音量ゲインGと
加歪率Dを決定する。例えば、入力音声の音量に対して
変換後の出力音声の音量が小さい場合には音量ゲインG
を大きくする。また、入力音声を高音側へシフトする場
合に、入力音声の音量に対して変換後の出力音声の音量
が小さい場合には高音域の音量が不足しているとみな
し、入力音声に付加すべき高調波の量を増すべく加歪率
Dを大きくする。
タ325,326から各々出力される音量データV1,
V2を比較し、入力音声と出力音声の音量差に応じてデ
ィストーション回路321へ供給すべき音量ゲインGと
加歪率Dを決定する。例えば、入力音声の音量に対して
変換後の出力音声の音量が小さい場合には音量ゲインG
を大きくする。また、入力音声を高音側へシフトする場
合に、入力音声の音量に対して変換後の出力音声の音量
が小さい場合には高音域の音量が不足しているとみな
し、入力音声に付加すべき高調波の量を増すべく加歪率
Dを大きくする。
【0025】さらに、327はハウリング検出回路であ
り、出力音声信号のハウリングを検出する。このハウリ
ング検出回路327の検出結果に基づき、出力音声信号
のハウリングを抑制すべくディストーション回路321
に与えられる音量ゲインGが調整される。
り、出力音声信号のハウリングを検出する。このハウリ
ング検出回路327の検出結果に基づき、出力音声信号
のハウリングを抑制すべくディストーション回路321
に与えられる音量ゲインGが調整される。
【0026】B:実施形態の動作 次に、上記構成からなる実施形態の動作を説明する。 (1)カラオケ装置の全体動作 はじめに、本実施形態にかかるカラオケ装置の全体動作
を説明する。ただし、楽曲データは、既にホストコンピ
ュータ1からカラオケ端末2へ配信されており、ハード
ディスク24に格納されているものとする。
を説明する。ただし、楽曲データは、既にホストコンピ
ュータ1からカラオケ端末2へ配信されており、ハード
ディスク24に格納されているものとする。
【0027】まずカラオケ端末2に電源が投入され、リ
モコン端末RMCより曲番号が指定されると、この曲番
号はリモコン受信部27によって受信される。これによ
りCPU21が指定された曲番号を識別すると、この曲
番号に対応する楽曲データをハードディスク24から読
み出し、該データの再生を開始する。これにより、楽曲
データに含まれるノートデータ、デュレーションデータ
等の楽音制御データが音源29に供給され、カラオケの
演奏が行われる。一方、楽曲データのヘッダ部に含まれ
るジャンル情報(その曲の音楽ジャンルや季節等を示す
情報)が読み取られ、これに対応する背景映像が映像記
憶装置40より再生され、モニタ39に表示される。ま
た、モニタ39に映し出される背景映像には、楽曲デー
タに含まれる歌詞コードに対応したフォント画像がスー
パーインポーズされる。
モコン端末RMCより曲番号が指定されると、この曲番
号はリモコン受信部27によって受信される。これによ
りCPU21が指定された曲番号を識別すると、この曲
番号に対応する楽曲データをハードディスク24から読
み出し、該データの再生を開始する。これにより、楽曲
データに含まれるノートデータ、デュレーションデータ
等の楽音制御データが音源29に供給され、カラオケの
演奏が行われる。一方、楽曲データのヘッダ部に含まれ
るジャンル情報(その曲の音楽ジャンルや季節等を示す
情報)が読み取られ、これに対応する背景映像が映像記
憶装置40より再生され、モニタ39に表示される。ま
た、モニタ39に映し出される背景映像には、楽曲デー
タに含まれる歌詞コードに対応したフォント画像がスー
パーインポーズされる。
【0028】一方、利用者の歌唱音声は、マイクMより
入力され、効果用DSP30にて、音源29から出力さ
れるカラオケの楽音および音声デコーダ31から出力さ
れるバックコーラス音とともにエコー、リバーブ等の各
種効果が付与された後、サウンドシステム36へ送ら
れ、スピーカより放音される。
入力され、効果用DSP30にて、音源29から出力さ
れるカラオケの楽音および音声デコーダ31から出力さ
れるバックコーラス音とともにエコー、リバーブ等の各
種効果が付与された後、サウンドシステム36へ送ら
れ、スピーカより放音される。
【0029】(2)音声変換の動作 次に、上述したカラオケ演奏において、利用者がパネル
スイッチ26より音声変換の動作モードを指示した場合
の動作を説明する。利用者がパネルスイッチ26より音
声変換モードを指示し、所望のピッチシフト量と声質と
を設定すると、ピッチシフト量の設定値がピッチシフト
回路323へ供給されるとともに、声質に対応したフォ
ルマントシフト量の設定値がフォルマントシフト回路3
24へ供給される。これにより、変換後の目標となる出
力音声の周波数特性が決定され、以後、これと周波数特
性が一致するよう入力音声の音声変換が行われる。
スイッチ26より音声変換の動作モードを指示した場合
の動作を説明する。利用者がパネルスイッチ26より音
声変換モードを指示し、所望のピッチシフト量と声質と
を設定すると、ピッチシフト量の設定値がピッチシフト
回路323へ供給されるとともに、声質に対応したフォ
ルマントシフト量の設定値がフォルマントシフト回路3
24へ供給される。これにより、変換後の目標となる出
力音声の周波数特性が決定され、以後、これと周波数特
性が一致するよう入力音声の音声変換が行われる。
【0030】例えば図3に示すように、入力音声が男性
の声で、高音域の成分が元々少ないにもかかわらず、女
性の声の周波数特性(変換目標)になるよう変換する場
合(同図(a)参照)、入力音声の大部分を占める低音
域がカットされてしまうために出力音声全体としての音
量が入力音声のそれと比較して小さくなる。
の声で、高音域の成分が元々少ないにもかかわらず、女
性の声の周波数特性(変換目標)になるよう変換する場
合(同図(a)参照)、入力音声の大部分を占める低音
域がカットされてしまうために出力音声全体としての音
量が入力音声のそれと比較して小さくなる。
【0031】この場合、差分判定回路322において
は、音量データV1,V2の差が大きくなることから音
量ゲインGを大きくするよう制御がなされる。これによ
って、入力音声信号が全体的に増幅され高音側成分の不
足が補われた上で(同図(b)参照)、目標の周波数特
性に一致するようピッチシフトおよびフォルマントシフ
トが施される(同図(c)参照)。
は、音量データV1,V2の差が大きくなることから音
量ゲインGを大きくするよう制御がなされる。これによ
って、入力音声信号が全体的に増幅され高音側成分の不
足が補われた上で(同図(b)参照)、目標の周波数特
性に一致するようピッチシフトおよびフォルマントシフ
トが施される(同図(c)参照)。
【0032】また、音量ゲインGによる増幅のみでは高
音域の成分を十分に補えない場合をも考慮して、例えば
図4に示すように、ディストーション回路321にて入
力音声信号に歪みを加えることにより高調波(高音域の
成分)を付加する(同図(a)参照)。このとき付加さ
れる高調波の量は、加歪率Dの大きさによって制御され
る。すなわち、音量データV1,V2の差が大きい場
合、加歪率Dを大きくすることにより高調波の量が増加
され、音量データV1,V2の差が小さい場合、加歪率
Dを小さくすることにより高調波の量が減少される。そ
して、上記のように高調波が付加され高音側成分の不足
が補われた上、目標の周波数特性に一致するようピッチ
シフトおよびフォルマントシフトが施され、音声変換が
行われる(同図(b)参照)。
音域の成分を十分に補えない場合をも考慮して、例えば
図4に示すように、ディストーション回路321にて入
力音声信号に歪みを加えることにより高調波(高音域の
成分)を付加する(同図(a)参照)。このとき付加さ
れる高調波の量は、加歪率Dの大きさによって制御され
る。すなわち、音量データV1,V2の差が大きい場
合、加歪率Dを大きくすることにより高調波の量が増加
され、音量データV1,V2の差が小さい場合、加歪率
Dを小さくすることにより高調波の量が減少される。そ
して、上記のように高調波が付加され高音側成分の不足
が補われた上、目標の周波数特性に一致するようピッチ
シフトおよびフォルマントシフトが施され、音声変換が
行われる(同図(b)参照)。
【0033】このように、本実施形態による音声変換に
おいては、出力音声を入力側にフィードバックし、入力
音声と出力音声の音量差が大きい場合には、この差を補
正すべく入力音声を増幅して音声変換を行う。特に、高
音域の音量が小さい場合には、ディストーションの加歪
率Dを大きくすることにより入力音声に高調波を付加
し、高音域の音量を補って音声変換を行う。また、ハウ
リング検出回路327の検出結果に基づき音量ゲインG
が調整され、出力音声信号のハウリングが抑制される。
これによって、音声変換に伴う音量の低下や不自然さ等
のムラを補償することができる。
おいては、出力音声を入力側にフィードバックし、入力
音声と出力音声の音量差が大きい場合には、この差を補
正すべく入力音声を増幅して音声変換を行う。特に、高
音域の音量が小さい場合には、ディストーションの加歪
率Dを大きくすることにより入力音声に高調波を付加
し、高音域の音量を補って音声変換を行う。また、ハウ
リング検出回路327の検出結果に基づき音量ゲインG
が調整され、出力音声信号のハウリングが抑制される。
これによって、音声変換に伴う音量の低下や不自然さ等
のムラを補償することができる。
【0034】C:変形例 なお、本発明は、上記実施形態に限らず、例えば以下の
ような種々の変形が可能である。 (1)実施形態では、ディストーション回路321によ
って入力音声の増幅後、高調波を補うべく歪みを加える
ようにしたが、これに限らず、単に増幅器によって音量
のみを付加するようにしても、出力音声の音量低減を補
償する効果を得ることは可能である。すなわち、高調波
の付加は、男性の声から女性の声への変換の場合ように
高音域の成分が足りなくなるような音声変換の場合に有
効となる。
ような種々の変形が可能である。 (1)実施形態では、ディストーション回路321によ
って入力音声の増幅後、高調波を補うべく歪みを加える
ようにしたが、これに限らず、単に増幅器によって音量
のみを付加するようにしても、出力音声の音量低減を補
償する効果を得ることは可能である。すなわち、高調波
の付加は、男性の声から女性の声への変換の場合ように
高音域の成分が足りなくなるような音声変換の場合に有
効となる。
【0035】(2)また、実施形態では、音量の補正を
例としたが、これに限らず、例えば音程の補正などその
他のパラメータを補正の対象としてもよい。 (3)また、実施形態では、音声変換手段としてピッチ
シフトとフォルマントシフトを併用する構成を採用した
が、これに限らず、いずれか一方のみの構成としてもよ
く、あるいはこれらをイコライザに置き換えてもよい。
例としたが、これに限らず、例えば音程の補正などその
他のパラメータを補正の対象としてもよい。 (3)また、実施形態では、音声変換手段としてピッチ
シフトとフォルマントシフトを併用する構成を採用した
が、これに限らず、いずれか一方のみの構成としてもよ
く、あるいはこれらをイコライザに置き換えてもよい。
【0036】(4)さらに、採点機35では、入力音声
から抽出される音量のみならず、音程をも抽出して、歌
唱力の採点に利用するようにしてもよい。また、入力音
声に限らず、音声変換後の出力音声について音量、音程
等のパラメータを抽出して採点を行うようにしてもよ
い。
から抽出される音量のみならず、音程をも抽出して、歌
唱力の採点に利用するようにしてもよい。また、入力音
声に限らず、音声変換後の出力音声について音量、音程
等のパラメータを抽出して採点を行うようにしてもよ
い。
【0037】
【発明の効果】以上説明したように、この発明によれ
ば、変換結果を入力側へフィードバックして入力音声の
特性に応じた適切な音声変換を施すことができるので、
入力音声の特性の相違による音声変換のムラを補償する
ことが可能になる。また、この結果、積極的な音声変換
を行うことができ、かつ、変換可能な範囲も広げること
ができる。
ば、変換結果を入力側へフィードバックして入力音声の
特性に応じた適切な音声変換を施すことができるので、
入力音声の特性の相違による音声変換のムラを補償する
ことが可能になる。また、この結果、積極的な音声変換
を行うことができ、かつ、変換可能な範囲も広げること
ができる。
【図1】 本実施形態の全体構成を示すブロック図であ
る。
る。
【図2】 同実施形態における音声変換部の構成を示す
ブロック図である。
ブロック図である。
【図3】 同実施形態における音量付加を説明するため
の図である。
の図である。
【図4】 同実施形態における高調波付加を説明するた
めの図である。
めの図である。
1…ホストコンピュータ、2…カラオケ端末、21…C
PU、22…ROM、23…RAM、24…ハードディ
スク、25…通信コントローラ、26…パネルスイッ
チ、27…リモコン受信部、28…表示パネル、29…
音源、30…効果用DSP、31…音声デコーダ、32
…音声変換部、33…マイクアンプ、34…A/D変換
器、35…採点機、36…サウンドシステム、37…D
/A変換器、38…表示制御部、39…モニタ、40…
映像記憶装置、321…ディストーション回路(音量付
加手段、高調波付加手段)、322…差分判定回路(比
較手段、制御手段)、323…ピッチシフト回路(音声
変換手段)、324…フォルマントシフト回路(音声変
換手段)、325,326…可聴フィルタ(第1および
第2の抽出手段)、327…ハウリング検出回路。
PU、22…ROM、23…RAM、24…ハードディ
スク、25…通信コントローラ、26…パネルスイッ
チ、27…リモコン受信部、28…表示パネル、29…
音源、30…効果用DSP、31…音声デコーダ、32
…音声変換部、33…マイクアンプ、34…A/D変換
器、35…採点機、36…サウンドシステム、37…D
/A変換器、38…表示制御部、39…モニタ、40…
映像記憶装置、321…ディストーション回路(音量付
加手段、高調波付加手段)、322…差分判定回路(比
較手段、制御手段)、323…ピッチシフト回路(音声
変換手段)、324…フォルマントシフト回路(音声変
換手段)、325,326…可聴フィルタ(第1および
第2の抽出手段)、327…ハウリング検出回路。
Claims (5)
- 【請求項1】 入力音声から第1のパラメータを抽出す
る第1の抽出手段と、 前記入力音声を異なる周波数特性をもつ音声に変換して
出力する音声変換手段と、 前記音声変換手段の出力音声から第2のパラメータを抽
出する第2の抽出手段と、 前記第1および第2のパラメータを比較する比較手段
と、 前記比較手段の比較結果に基づき前記音声変換手段によ
る変換処理を制御する制御手段とを具備することを特徴
とする音声変換装置。 - 【請求項2】 入力音声の音量を抽出する第1の抽出手
段と、 前記入力音声を異なる周波数特性をもつ音声に変換して
出力する音声変換手段と、 前記音声変換手段の出力音声の音量を抽出する第2の抽
出手段と、 前記第1および第2の抽出手段によって抽出される音量
を比較しこれらの差を出力する比較手段と、 前記比較手段によって出力される音量差に応じて前記音
声変換手段に供給すべき入力音声の音量を増幅する音量
付加手段とを具備することを特徴とする音声変換装置。 - 【請求項3】 入力音声の音量を抽出する第1の抽出手
段と、 前記入力音声を異なる周波数特性をもつ音声に変換して
出力する音声変換手段と、 前記音声変換手段の出力音声の音量を抽出する第2の抽
出手段と、 前記第1および第2の抽出手段によって抽出される音量
を比較しこれらの差を出力する比較手段と、 前記比較手段によって出力される音量差に応じて前記音
声変換手段に供給すべき入力音声に歪みを与えて該音声
に高調波を付加する高調波付加手段とを具備することを
特徴とする音声変換装置。 - 【請求項4】 前記音声変換手段による変換は、ピッチ
シフトを含むことを特徴とする請求項1ないし3のいず
れかに記載の音声変換装置。 - 【請求項5】 前記音声変換手段による変換は、フォル
マントシフトを含むことを特徴とする請求項1ないし4
のいずれかに記載の音声変換装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8232095A JPH1074098A (ja) | 1996-09-02 | 1996-09-02 | 音声変換装置 |
US08/921,284 US5963907A (en) | 1996-09-02 | 1997-08-29 | Voice converter |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8232095A JPH1074098A (ja) | 1996-09-02 | 1996-09-02 | 音声変換装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004308553A Division JP3931901B2 (ja) | 2004-10-22 | 2004-10-22 | 音声変換装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH1074098A true JPH1074098A (ja) | 1998-03-17 |
Family
ID=16933933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP8232095A Pending JPH1074098A (ja) | 1996-09-02 | 1996-09-02 | 音声変換装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5963907A (ja) |
JP (1) | JPH1074098A (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10319947A (ja) * | 1997-05-15 | 1998-12-04 | Kawai Musical Instr Mfg Co Ltd | 音域制御装置 |
JP3502247B2 (ja) * | 1997-10-28 | 2004-03-02 | ヤマハ株式会社 | 音声変換装置 |
US8767969B1 (en) * | 1999-09-27 | 2014-07-01 | Creative Technology Ltd | Process for removing voice from stereo recordings |
US6836761B1 (en) * | 1999-10-21 | 2004-12-28 | Yamaha Corporation | Voice converter for assimilation by frame synthesis with temporal alignment |
GB9925297D0 (en) * | 1999-10-27 | 1999-12-29 | Ibm | Voice processing system |
US8108509B2 (en) * | 2001-04-30 | 2012-01-31 | Sony Computer Entertainment America Llc | Altering network transmitted content data based upon user specified characteristics |
KR20030006308A (ko) * | 2001-07-12 | 2003-01-23 | 엘지전자 주식회사 | 이동통신 단말기의 음성 변조 장치 및 방법 |
JP4487632B2 (ja) * | 2004-05-21 | 2010-06-23 | ヤマハ株式会社 | 演奏練習装置および演奏練習用コンピュータプログラム |
JP4649888B2 (ja) * | 2004-06-24 | 2011-03-16 | ヤマハ株式会社 | 音声効果付与装置及び音声効果付与プログラム |
US20070036297A1 (en) * | 2005-07-28 | 2007-02-15 | Miranda-Knapp Carlos A | Method and system for warping voice calls |
US7818168B1 (en) * | 2006-12-01 | 2010-10-19 | The United States Of America As Represented By The Director, National Security Agency | Method of measuring degree of enhancement to voice signal |
JP4327241B2 (ja) * | 2007-10-01 | 2009-09-09 | パナソニック株式会社 | 音声強調装置および音声強調方法 |
US10008193B1 (en) * | 2016-08-19 | 2018-06-26 | Oben, Inc. | Method and system for speech-to-singing voice conversion |
US10134374B2 (en) * | 2016-11-02 | 2018-11-20 | Yamaha Corporation | Signal processing method and signal processing apparatus |
CN115116459B (zh) * | 2021-03-22 | 2024-10-01 | 炬芯科技股份有限公司 | 差分环绕音频信号生成方法、装置、存储介质及电子设备 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2969862B2 (ja) * | 1989-10-04 | 1999-11-02 | 松下電器産業株式会社 | 音声認識装置 |
JPH04294394A (ja) * | 1991-03-22 | 1992-10-19 | Kawai Musical Instr Mfg Co Ltd | 電子楽器 |
US5569038A (en) * | 1993-11-08 | 1996-10-29 | Tubman; Louis | Acoustical prompt recording system and method |
US5617478A (en) * | 1994-04-11 | 1997-04-01 | Matsushita Electric Industrial Co., Ltd. | Sound reproduction system and a sound reproduction method |
US5567901A (en) * | 1995-01-18 | 1996-10-22 | Ivl Technologies Ltd. | Method and apparatus for changing the timbre and/or pitch of audio signals |
JP3319211B2 (ja) * | 1995-03-23 | 2002-08-26 | ヤマハ株式会社 | 音声変換機能付カラオケ装置 |
JP3102335B2 (ja) * | 1996-01-18 | 2000-10-23 | ヤマハ株式会社 | フォルマント変換装置およびカラオケ装置 |
-
1996
- 1996-09-02 JP JP8232095A patent/JPH1074098A/ja active Pending
-
1997
- 1997-08-29 US US08/921,284 patent/US5963907A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US5963907A (en) | 1999-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3900580B2 (ja) | カラオケ装置 | |
JPH1074098A (ja) | 音声変換装置 | |
US5753845A (en) | Karaoke apparatus creating vocal effect matching music piece | |
JP2014071138A (ja) | カラオケ装置 | |
JP2000099057A (ja) | カラオケ装置のマイク信号処理装置 | |
JP3351905B2 (ja) | 音声信号処理装置 | |
JPH1152966A (ja) | 音楽演奏システム | |
JP2861885B2 (ja) | 効果付与アダプタ | |
JP3554649B2 (ja) | 音声処理装置とその音量レベル調整方法 | |
JPH09116358A (ja) | カラオケアンプ | |
JP3931901B2 (ja) | 音声変換装置 | |
JP2959135B2 (ja) | 自動演奏切替え機能付き音楽再生装置 | |
JP3659138B2 (ja) | カラオケ装置 | |
JPH11167385A (ja) | 音楽演奏装置 | |
JP2001301536A (ja) | 車載用オーディオ装置のメインユニット | |
JPH09134181A (ja) | カラオケ装置 | |
JP3166621B2 (ja) | カラオケ用プロセッサおよび楽器練習用プロセッサ | |
JP2000163072A (ja) | 波形再生装置のピッチ制御装置 | |
JPH0651790A (ja) | カラオケ用ディスクプレーヤ | |
JP3363667B2 (ja) | カラオケ装置 | |
JPH11212555A (ja) | 音楽再生装置 | |
JPH07302090A (ja) | カラオケ装置 | |
JP2000010572A (ja) | 歌声発生装置およびカラオケ装置 | |
JPH10222179A (ja) | 情報処理装置 | |
JP3534572B2 (ja) | 音場制御装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040604 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040824 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050105 |