JP2007140548A - Portrait output device and karaoke device - Google Patents
Portrait output device and karaoke device Download PDFInfo
- Publication number
- JP2007140548A JP2007140548A JP2007018526A JP2007018526A JP2007140548A JP 2007140548 A JP2007140548 A JP 2007140548A JP 2007018526 A JP2007018526 A JP 2007018526A JP 2007018526 A JP2007018526 A JP 2007018526A JP 2007140548 A JP2007140548 A JP 2007140548A
- Authority
- JP
- Japan
- Prior art keywords
- formant
- portrait
- singing
- voice
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
Description
この発明は、歌唱音声などの音声信号を入力し、その音声から似顔絵を選択・合成する似顔絵出力装置およびカラオケ装置に関する。 The present invention relates to a caricature output device and a karaoke apparatus for inputting a voice signal such as a singing voice and selecting and synthesizing a caricature from the voice.
カラオケ装置には、カラオケ曲を演奏するのみならず、そのカラオケ曲を歌唱する音声を用いたゲーム機能、サービス機能を備えたものも実用化されている。たとえば、歌唱音声のピッチや音量がその曲のガイドメロディが指示する音高や音量にどの程度一致しているかによって点数を算出して表示する採点ゲームもその機能の一つである。 In addition to playing a karaoke song, a karaoke device having a game function and a service function using a voice for singing the karaoke song has been put into practical use. For example, a scoring game in which the score is calculated and displayed according to how much the pitch and volume of the singing voice match the pitch and volume indicated by the guide melody of the song is one of its functions.
しかし、この採点機能は、結果的に歌唱者の歌唱の巧拙を判定するものであるため、だれでも気軽に参加できるものではなかった。また、歌唱を採点して点数を表示しても、歌唱者はその点数をどのように今後の歌唱の参考にすればよいかが分からないという問題点があった。 However, this scoring function, as a result, determines the skill of the singer's singing, so anyone could not participate easily. Moreover, even if the singing was scored and the score was displayed, the singer did not know how to use the score as a reference for future singing.
この発明は、誰でも気軽に使用できる似顔絵出力装置、および、気軽に使用でき、出力される似顔絵を選曲の参考にできるカラオケ装置を提供することを目的とする。 An object of the present invention is to provide a portrait output device that anyone can use easily, and a karaoke device that can be easily used and can reference the output portraits for music selection.
請求項1の発明は、音声を入力する音声入力手段と、入力した音声のフォルマントを分析するフォルマント分析手段と、複数のサンプルフォルマントとそのサンプルフォルマントの共鳴特性を有する顔形状の似顔絵を対応させて記憶した記憶手段と、分析したフォルマントで前記記憶手段を検索し、最も近似したサンプルフォルマントに対応する似顔絵を選択して出力する似顔絵選択手段と、を備えたことを特徴とする。 According to the first aspect of the present invention, a voice input means for inputting a voice, a formant analysis means for analyzing a formant of the inputted voice, a plurality of sample formants and a facial caricature having resonance characteristics of the sample formants are associated with each other. The storage means is stored, and the storage means is searched with the analyzed formant, and the portrait selection means for selecting and outputting the portrait corresponding to the sample formant that is most approximated.
請求項2の発明は、音声を入力する音声入力手段と、入力した音声のフォルマントを分析するフォルマント分析手段と、似顔絵を作成するための似顔絵素材を記憶する素材記憶手段と、フォルマント分析手段が分析したフォルマントに基づき、前記似顔絵素材を用いてそのフォルマントの共鳴特性を有する顔形状の似顔絵を合成して出力する似顔絵出力手段と、を備えたことを特徴とする。 According to the second aspect of the present invention, the voice input means for inputting voice, the formant analysis means for analyzing the formant of the inputted voice, the material storage means for storing the portrait material for creating the portrait, and the formant analysis means analyze And caricature output means for synthesizing and outputting a caricature of the face shape having the resonance characteristics of the formant using the caricature material based on the formant.
請求項3の発明は、歌唱音声を入力する音声入力手段と、入力した音声のフォルマントを分析するフォルマント分析手段と、入力した音声の歌唱態様を分析する歌唱分析手段と、似顔絵を作成するための似顔絵素材を記憶する素材記憶手段と、フォルマント分析手段が分析したフォルマントおよび歌唱分析手段が分析した歌唱態様に基づき、前記似顔絵素材を用いてそのフォルマントの共鳴特性を有する顔形状でその歌唱態様で歌唱する似顔絵を合成して出力する似顔絵合成手段と、を備えたことを特徴とする。
The invention of
この発明では、入力された音声(母音)からフォルマントデータを抽出する。フォルマントデータとは、発声された母音のスペクトル上の優勢な周波数成分であり、周波数の低い順に第1フォルマント、第2フォルマント、…と呼んでいる。このうち、第3フォルマントまでが音韻性に寄与していると言われている。このフォルマントは発声者の声帯や顔などの共鳴体の形状に依存しており、顔が似ると声も似ると言われている。 In the present invention, formant data is extracted from the input speech (vowel). The formant data is a dominant frequency component on the spectrum of the uttered vowel, and is called first formant, second formant,. Of these, up to the third formant is said to contribute to phonological properties. This formant depends on the shape of the resonator, such as the vocal cords and face of the speaker, and it is said that the voice is similar if the face is similar.
そこで、この発明では、複数のフォルマントとそのフォルマントを有する人物の似顔絵を記憶しておき、入力された音声とフォルマントが類似する似顔絵を選択して出力する。出力された似顔絵はモニタに表示、プリンタで印刷して利用者に提示するようにすればよい。これにより、自分の声でどのような顔が想像されるかを利用者に知らせることができ、利用者に対してアミューズメントを提供することができる。フォルマントおよび似顔絵は実在の人物から採取したものを用いてもよく、頭部の共鳴体モデルからシミュレーションして作成したものでもよい。 Therefore, in the present invention, a plurality of formants and a portrait of a person having the formants are stored, and a portrait similar to the input speech and formant is selected and output. The output portrait may be displayed on a monitor, printed on a printer, and presented to the user. Thereby, it is possible to inform the user what kind of face is imagined by his / her voice and to provide an amusement to the user. The formants and caricatures may be those collected from real people or may be created by simulation from a resonator model of the head.
また、カラオケ装置にカラオケ曲のオリジナル歌手の似顔絵とその歌手のフォルマントを記憶しておき、利用者が声を入力したとき、その声がどの歌手の声に似ているかを似顔絵の表示(印刷)で知らせるようにしてもよい。利用者は、その歌手の歌を選曲すればその曲に合った声で歌唱できるため、似顔絵の表示を選曲の参考にすることができる。 In addition, the singer's portrait and the singer's formant are stored in the karaoke device, and when the user inputs a voice, the singer's voice is displayed (printed). You may make it inform by. Since the user can sing with a voice that matches the song if the song is selected, the display of the portrait can be used as a reference for the song selection.
また、この発明では、記憶手段に似顔絵の素材を記憶しておき、音声から抽出されたフォルマントに基づいてこの似顔絵素材を用いて似顔絵を合成する。素材としては顔の輪郭、眉、眼、鼻、口などの構成部品を部品毎に複数記憶しておき、フォルマントに基づいてぞれぞれを選択するようにしてもよく、サンプル似顔絵を素材として複数記憶しておき、各似顔絵から顔の輪郭、眉、眼、鼻、口などの構成部品を取り出して組み合わせるようにしてもよい。また、素材であるサンプル似顔絵をそのまま変形して利用者の似顔絵を合成してもよい。いずれにしても、抽出されたフォルマントを共鳴周波数としてもつような似顔絵を作成することにより、利用者の顔をよく推定することができる。 In the present invention, the caricature material is stored in the storage means, and the caricature material is synthesized using the caricature material based on the formants extracted from the speech. As a material, a plurality of components such as facial contours, eyebrows, eyes, nose, mouth, etc. may be stored for each part, and each may be selected based on a formant. A plurality of components may be stored, and component parts such as a face outline, eyebrows, eyes, nose, and mouth may be extracted from each portrait and combined. Alternatively, the sample caricature that is the material may be transformed as it is to synthesize the caricature of the user. In any case, the user's face can be well estimated by creating a portrait that has the extracted formant as the resonance frequency.
以上のようにこの発明によれば、音声のフォルマントを抽出して、利用者(歌唱者)の似顔絵や声のよく似た歌手の似顔絵などを表示することができるため、誰でも気軽に楽しめるアミューズメントを提供することができ、また、声の似ている歌手の似顔絵が表示されれば、以後その歌手の曲を選択すればよく声質に合った歌唱をすることができるため、選曲が容易になりカラオケ歌唱の参考にすることができる。 As described above, according to the present invention, it is possible to extract a voice formant and display a caricature of a user (singer) or a caricature of a singer with a similar voice. If a portrait of a singer with a similar voice is displayed, the song can be selected according to the voice quality by selecting the singer's song. It can be used as a reference for karaoke singing.
図面を参照してこの発明の実施形態について説明する。図1〜図3は、この発明の実施形態であるカラオケ装置の機能ブロック図である。このカラオケ装置では、歌手の似顔絵データと歌唱音声のフォルマントデータをサンプルデータとしてサンプルデータベース4に複数記憶している。このサンプルデータベース4の一例を図4に示す。カラオケ曲の演奏に合わせて歌唱した歌唱音声を入力し、この歌唱音声から抽出したフォルマントデータ(抽出フォルマントデータ)を上記サンプルデータベースのフォルマントデータ(サンプルフォルマントデータ)と比較し、声の似ている歌手を選択して、その似顔絵を表示、または、その似顔絵に基づいて歌唱者の似顔絵を合成・表示する。
図1において、歌唱音声入力部1は、カラオケ歌唱用のマイクを含んでいる。歌唱音声入力部1が電気信号に変換した歌唱音声はフォルマント抽出部2およびカラオケ演奏部6に入力される。フォルマント抽出部2は、入力された歌唱音声から母音を切り出し、各母音毎のフォルマントを抽出する。母音は周期信号であり、カラオケ歌唱においては数十ミリ秒〜数秒程度の時間継続するため、同一周期の波形区間を切り出すことによって短時間の非周期信号である子音と区別することができる。また、その周期波形の形状に基づいてア,イ,ウ,エ,オのどの母音であるかを識別することができる。フォルマントとは、母音の周波数スペクトル上の優勢な周波数成分であり、周波数の低い順に第1,第2,第3,…フォルマントと言う。フォルマント抽出部2は、切り出された母音の第1〜第3フォルマントを抽出する。このフォルマントの抽出はFFT(高速フーリエ解析)などで行えばよい。フォルマント抽出部2は、カラオケ曲全部の歌唱音声のフォルマントを抽出して、母音毎に蓄積記憶し、カラオケ曲の演奏終了後、これを平均した値を抽出フォルマントデータとして出力する。
Embodiments of the present invention will be described with reference to the drawings. 1 to 3 are functional block diagrams of a karaoke apparatus according to an embodiment of the present invention. In this karaoke apparatus, a plurality of singer portrait data and singing voice formant data are stored in the
In FIG. 1, the singing
この抽出フォルマントデータは、フォルマント比較部3に入力される。フォルマント比較部3は、入力した抽出フォルマントデータをサンプルデータベース4のサンプルフォルマントデータと比較する。図4に示すように、サンプルデータベース4は、複数の歌手の似顔絵データを記憶した似顔絵データベース4bとこれに対応して各歌手の歌唱音声のフォルマントデータを記憶したフォルマントデータベース4aからなっており、フォルマント比較部3は、抽出フォルマントデータと各サンプルフォルマントデータとを相関比較し、抽出フォルマントデータすなわち歌唱者の声が、各サンプルフォルマントデータすなわち各歌手の声にどの程度似ているかの類似度を割り出す。そしてこの類似度を似顔絵合成部5に出力する。
This extracted formant data is input to the
似顔絵選択部5は、入力された類似度のうち最も高い類似度を示すサンプルの似顔絵を選択し、似顔絵データベース4bからこの似顔絵データを読み出す。似顔絵選択部5が選択して読み出した似顔絵データは、歌詞の表示が終了した表示部9に出力して表示するとともに、印刷部10で印刷する。そして、このとき同時に「あなたはの声はこの歌手の○○さんに似ています」などの文言を表示・印刷し、以後の選曲の参考になるようにする。また、このときこの歌手のカラオケ曲を検索して、選曲支援をするようにしてもよい。
The
また、図1の例は、フォルマントが最も類似するサンプル(歌手)を1つ選択して、その歌手の似顔絵を表示するものであるが、フォルマントの類似度の高いサンプルの似顔絵を複数選択し、それらを組み合わせることによって1つの似顔絵を合成するようにしてもよい。 In the example of FIG. 1, one sample (singer) having the most similar formants is selected and the portraits of the singer are displayed. However, a plurality of portraits having a high formant similarity are selected. A single caricature may be synthesized by combining them.
この似顔絵合成機能を備えたカラオケ装置の機能ブロック図を図2に示す。同図において図1の機能ブロック図と異なる点は、似顔絵合成部15が、フォルマント比較部3から入力した類似度が最も高いサンプルの似顔絵を選択するのでなく、フォルマントの類似度の高い複数のサンプルを選択し、このサンプルの似顔絵データに基づいて1つの似顔絵を合成する点である。
FIG. 2 shows a functional block diagram of a karaoke apparatus provided with this portrait synthesis function. 1 is different from the functional block diagram of FIG. 1 in that the
似顔絵合成部15は、入力された類似度に基づき、声がよく似ている2〜3人の歌手の似顔絵データを似顔絵データベース4bから選択し、これらの似顔絵に基づいて歌唱した歌唱者の似顔絵を合成する。この合成手法としては、部品組み合わせ法、モーフィング法などの手法を用いればよい。
The
部品組み合わせ法は、顔の輪郭、眉、眼、鼻、口などの顔の構成部品を上記選択された複数のサンプル似顔絵データから適宜選択し、これを組み合わせて似顔絵を合成する手法である。たとえば、第1フォルマントが最も類似している歌手の似顔絵から顔の輪郭を選択し、第2フォルマントが最も類似している歌手の似顔絵から口を選択し、第3フォルマントが最も類似している歌手の似顔絵から鼻を選択するなどの方法で各部品を選択すればよい。 The component combination method is a method in which facial component parts such as a face outline, eyebrows, eyes, nose, and mouth are appropriately selected from the selected plurality of sample portrait data and combined to synthesize a portrait. For example, a face outline is selected from a portrait of a singer whose first formant is most similar, a mouth is selected from a portrait of a singer whose second formant is most similar, and a singer whose third formant is most similar Each part may be selected by a method such as selecting the nose from the caricature.
また、この例では複数の似顔絵のなかから、顔の輪郭、眉、眼、鼻、口などの顔の構成部品を選択するようにしているが、顔の輪郭、眉、眼、鼻、口などの各構成部品毎にデータベースをもっておき、抽出されたフォルマントに基づいて各構成部品毎に適当なものをピックアップして似顔絵を構成するようにしてもよい。 In this example, face components such as face outline, eyebrows, eyes, nose, mouth, etc. are selected from a plurality of caricatures, but face outline, eyebrows, eyes, nose, mouth, etc. A database may be provided for each component, and a caricature may be constructed by picking up an appropriate component for each component based on the extracted formants.
モーフィング法は、上記選択された複数の似顔絵データの中間図形を合成する手法である。中間図形の合成は、顔の輪郭、眉、眼、鼻、口などの顔の構成部品毎に複数の似顔絵データの中間形状を割り出し、複数の似顔絵データにおける配置の中間的な位置に配置することによって合成される。合成は、フォルマントの類似度の高いサンプル似顔絵データにより近くなるように行う。 The morphing method is a method of synthesizing intermediate figures of the plurality of selected portrait data. In the synthesis of intermediate figures, the intermediate shape of multiple portrait data is determined for each facial component such as the face outline, eyebrows, eyes, nose, mouth, etc., and placed at an intermediate position between the multiple portrait data. Is synthesized by The synthesis is performed so as to be closer to the sample portrait data having a high formant similarity.
このようにして合成された似顔絵をカラオケ演奏が終了した表示部9に表示するとともに印刷部10で印刷する。選択したサンプル歌手の氏名とその合成比率を表示することでよりアミューズメント効果を高めることもできる。
The caricature synthesized in this way is displayed on the display unit 9 where the karaoke performance has been completed and printed by the
また、構成部品を合成して似顔絵を合成する方式以外に、頭部の共鳴体のモデルを記憶しておき、歌唱音声が入力されたとき、その音声(フォルマント)が形成されるような頭部共鳴体をシミュレートし、これに基づいて似顔絵をレンダリングするようにしてもよい。 In addition to the method of synthesizing caricatures by synthesizing components, the head that stores the model of the resonance body of the head and forms the sound (formant) when singing voice is input A resonator may be simulated, and a caricature may be rendered based on this.
図2の例では、フォルマントの類似度に応じて似顔絵を合成するようにしているが、これに加えて歌唱者の歌唱態様に応じて似顔絵の形状を調整するようにしてもよい。歌唱態様とは、レガート、アクセントなどの歌い方、音量のダイナミックなどである。 In the example of FIG. 2, the portraits are synthesized according to the formant similarity, but in addition to this, the shape of the portrait may be adjusted according to the singing mode of the singer. The singing mode includes singing such as legato and accent, dynamic volume, and the like.
図3は上記機能を備えたカラオケ装置の機能ブロック図である。同図の機能ブロック図において図2のものと異なる点は、歌唱態様検出部11を備えた点、および、歌唱態様検出部11が検出出力する歌唱態様データに基づいて似顔絵合成部16の似顔絵の合成動作が制御される点である。歌唱音声入力部1が電気信号に変換した歌唱音声信号はフォルマント抽出部2,演奏部6以外に歌唱態様検出部11にも入力される。歌唱態様検出部11は演奏部6から演奏中の曲データを入力し、この曲データに応じて歌唱者がどのような歌唱をしているかの歌唱態様を検出する。歌唱態様とは、上記のようにレガート、アクセントなどの歌い方、音量のダイナミックなどである。検出された歌唱態様情報は似顔絵合成部5′に入力される。似顔絵合成部16は図2の例と同様にフォルマントの類似度に応じて似顔絵を合成するが、合成した似顔絵をこの歌唱態様情報に応じて変形する。たとえば、強いアクセントで大きいダイナミックで歌唱している歌唱者の場合、眉を太く変形し、レガートで歌っている歌唱者の場合目尻を下げるなどの変形を行えばよい。このようにフォルマントに加えて歌唱態様に合わせて似顔絵を作成することにより、より精度の高いまたはアミューズメント性のある似顔絵合成機能を実現することができる。
FIG. 3 is a functional block diagram of a karaoke apparatus having the above functions. The functional block diagram of FIG. 2 differs from that of FIG. 2 in that it includes the singing
図5は上記機能を実現するカラオケ装置のハードウェアのブロック図である。図1〜図3に示す機能は、このハードウェア上で図6に示すようなプログラムを実行することによって実現される。
このカラオケ装置は、カラオケ装置本体21,コントロールアンプ22,音声信号処理装置23,CD−ROMチェンジャ24,スピーカ25,モニタ26,マイク27、赤外線のリモコン装置28およびプリンタ29で構成されている。カラオケ装置本体21はこのカラオケ装置全体の動作を制御する。該カラオケ装置本体21の制御装置であるCPU30には、内部バスを介してROM31,RAM32,ハードディスク記憶装置37,通信制御部36,リモコン受信部33,表示パネル34,パネルスイッチ35,音源装置38,音声データ処理部39,パターン展開部40,表示制御部41が接続されるとともに、上記外部装置であるコントロールアンプ22,音声信号処理装置23およびCD−ROMチェンジャ24がインタフェースを介して接続されている。
FIG. 5 is a block diagram of hardware of a karaoke apparatus that realizes the above function. The functions shown in FIGS. 1 to 3 are realized by executing a program as shown in FIG. 6 on this hardware.
This karaoke device is composed of a karaoke device
ROM31にはこの装置を起動するために必要な起動プログラムなどが記憶されている。装置の動作を制御するシステムプログラム,カラオケ演奏実行プログラムなどはハードディスク記憶装置37に記憶されている。カラオケ装置の電源がオンされると上記起動プログラムによってシステムプログラムやカラオケ演奏プログラムがRAM32に読み込まれる。
The
ハードディスク記憶装置37には、上記プログラムのプログラムファイルや多数の楽曲データからなる楽曲データベースが記憶されているほか、サンプルデータベース37aが記憶されている。サンプルデータベース37aは、カラオケ曲のオリジナル歌手のフォルマントデータを記憶したフォルマントデータベース、および、各オリジナル歌手の似顔絵を記憶した似顔絵データベースを有し、各オリジナル歌手は、歌手番号で識別される。
The hard
前記RAM32には、装置の起動時にハードディスク記憶装置37からプログラムを読み込むプログラム記憶エリアや演奏されるカラオケ曲の楽曲データを読み込む実行曲データ記憶エリアなどが設定されるほか、カラオケ演奏中に検出されるフォルマントを蓄積記憶するフォルマント蓄積記憶エリア32aも設定される。
The
通信制御部36はISDN回線を介して配信センタ19と接続される。配信センタ19は、定期的にカラオケ装置に対して電話を掛け、新曲の楽曲データやバージョンアップされた制御プログラムなどをダウンロードする。また、上記サンプルデータベース37aも配信センタ19からダウンロードされる。
The
リモコン装置28は、テンキーなどのキースイッチを備えており、利用者がこれらのスイッチを操作するとその操作に応じて曲番号などのコード信号が赤外線で出力される。リモコン受信部33はリモコン装置18から送られてくる赤外線信号を受信して、そのコード信号を復元しCPU30に入力する。
The
ここで、各カラオケ曲(楽曲データ)の曲番号は、4桁の歌手番号+2桁の歌手別曲番号の6桁で構成されている。したがって、6桁のうち上位4桁に注目することにより、そのカラオケ曲がどの歌手が歌っている曲であるかを容易に判断することができる。そして、上記サンプルデータベース37aに記憶されている歌手の似顔絵およびフォルマントもこの4桁の歌手番号で識別される。
Here, the song number of each karaoke song (music data) is composed of 6 digits of a 4-digit singer number + a 2-digit singer-specific song number. Therefore, by paying attention to the upper 4 digits of the 6 digits, it is possible to easily determine which singer is singing the karaoke song. The singer's portrait and formant stored in the
表示パネル34はこのカラオケ装置本体21の前面に設けられており、現在演奏中の曲番号や予約曲数を表示するマトリクス表示器や、現在設定されているキーやテンポを表示するLED群などを含んでいる。パネルスイッチ35は、前記汎用のリモコン装置28と同様の曲番号入力用のテンキーなどを備えている。
The display panel 34 is provided on the front surface of the karaoke apparatus
音源装置38は、楽曲データに基づいて楽音信号を形成する。楽曲データは、複数トラックの演奏データを含んでおり、音源装置38はこのデータに基づいて複数パートの楽音信号を同時に形成する。音声データ処理部39は、楽曲データに含まれる音声データに基づき、指定された長さ、指定された音高の音声信号を形成する。音声データは、バックコーラスなどの人声など電子的に形成しにくい信号波形をそのままPCM信号として記憶したものである。前記音源装置38が形成した楽音信号および音声データ処理部39が再生した音声信号は、コントロールアンプ22に入力される。
The
また、コントロールアンプ22には、2本のマイク27a,27bが接続されており、カラオケ歌唱者の歌唱音声が入力される。コントロールアンプ22はこれらのオーディオ信号に、それぞれエコーなど所定の効果を付与したのち増幅してスピーカ25に出力する。音声信号処理装置23は、コントロールアンプ22から入力された歌唱音声の信号(いずれか1本のマイクの信号)をディジタルデータに変換し、周期信号(母音)を切り出してこの周期信号をFFT解析することによりフォルマントを抽出する。また、この周期波形の形状に基づきア,イ,ウ,エ,オのどの母音であるかを識別し、これを示す母音情報を発生する。抽出されたフォルマントデータおよび母音情報はCPU30に入力される。また、音声信号処理装置23は、歌唱音声の音程のずれを修正したり、他のパートのハーモニー歌唱を作成したりする機能を備えている。修正された歌唱音声や他のパートのハーモニー歌唱音声は再度コントロールアンプ22に入力される。この修正機能は両方のマイクの信号に施してもよい。
In addition, two
パターン展開部40はVRAMを備え、CPU30から入力されるパターンデータをモニタ26の表示エリアに対応したマトリクスに展開する。パターンデータとしては、カラオケ曲演奏中の歌詞(文字パターン)データやカラオケ演奏終了後の似顔絵データなどがある。展開されたマトリクスデータは、順次スキャンされ映像信号として表示制御部41に入力される。カラオケ演奏時はCD−ROMチェンジャ24は背景映像を再生し、この映像信号も表示制御部41に入力される。表示制御部41は、歌詞の文字パターンを背景映像にスーパーインポーズで合成してモニタ26に表示する。カラオケ演奏終了後は、背景映像が入力されないため表示制御部41はブルーバックとし、CPU30から入力される似顔絵データをそのうえに展開してモニタ26に表示する。
The
上記構成のカラオケ装置でカラオケ演奏が実行されると、マイク27から入力された歌唱音声がコントロールアンプ22を介して音声信号処理装置23に入力される。音声信号処理装置23は、この信号をデジタルデータ化し、周期信号の区間を割り出してこれを切り出す。この区間がア,イ,ウ,エ,オのどの母音であるかを割り出す。これはア,イ,ウ,エ,オのサンプルデータとのマッチングなどで割り出せばよい。そして、FFT解析によりその母音のフォルマントを抽出する。このフォルマントデータと前記母音情報をCPU30に入力する。
When a karaoke performance is executed by the karaoke apparatus having the above configuration, the singing voice input from the microphone 27 is input to the audio
CPU30は、フォルマントデータを各母音毎に蓄積記憶してゆく。カラオケ演奏が終了すると、RAM32のフォルマント蓄積記憶エリア32aに蓄積記憶したフォルマントデータを各母音毎に平均して抽出フォルマントデータ値を算出する。そして、この値とサンプルデータベース37aから読み出されるサンプルフォルマントデータとを比較して各サンプルフォルマントデータとの類似度を割り出す。そして、この類似度に基づいて似顔絵データベースにアクセスし、フォルマントが最も類似する似顔絵を1つ選択してこれを表示する。または、フォルマントが類似する似顔絵を複数読み出して部品を組み合わせまたはモーフィングして1つの似顔絵を合成する。このとき、歌唱態様に応じて似顔絵を変形してもよい。
The
図6は、同カラオケ装置の動作を示すフローチャートである。この動作は、カラオケ曲演奏時の似顔絵選択・合成動作を示すものである。カラオケ曲が演奏され、歌唱者がマイク7に歌唱音声を入力するとこの歌唱音声を取り込んで母音のフォルマントデータを抽出する(s1)。そして、この抽出フォルマントとフォルマントデータベース4aのサンプルフォルマントとを比較して類似度を求める(s2)。なお、上記フォルマントデータの抽出は、カラオケ曲の開始から終了まで継続して行い、蓄積記憶したものを平均して抽出フォルマントデータを求めるが、カラオケ曲の一部区間で抽出したフォルマントデータを抽出フォルマントデータとして用いてもよい。
FIG. 6 is a flowchart showing the operation of the karaoke apparatus. This operation indicates a portrait selection / combination operation when a karaoke song is played. When a karaoke song is played and the singer inputs a singing voice to the microphone 7, the singing voice is taken in and formant data of a vowel is extracted (s1). Then, this extracted formant is compared with the sample formants in the
相関比較することによって求められた類似度で似顔絵を合成または選択するが、現在どちらのモードであるかを判断する(s3)。このモードは利用者によって選択可能にしてもよく、また、係員またはオンラインで自動設定されるようにしてもよい。選択モードの場合には、上記比較において最も類似度の高かったサンプルの似顔絵を選択して似顔絵データベース4bから読み出し(s4)、これをモニタ26に表示するとともにプリントアウトする(s5)。
A portrait is synthesized or selected with the degree of similarity determined by the correlation comparison, and it is determined which mode is currently in effect (s3). This mode may be selectable by the user, or may be automatically set by an attendant or online. In the selection mode, the sample portrait with the highest similarity in the comparison is selected and read from the
一方、合成モードの場合には、上記比較において類似度が高かった2ないし3のサンプルの似顔絵データを似顔絵データベース4bから読み出し(s6)、これに基づいて歌唱者の似顔絵を合成する(s7)。合成手法は、上述したように部品組み合わせ法またはモーフィング法で行えばよい。このように合成された似顔絵をモニタ26に表示するとともにプリントアウトする(s5)。
On the other hand, in the synthesis mode, the portrait data of 2 to 3 samples having high similarity in the above comparison are read from the
なお、この実施形態では、フォルマントとして、第1、第2、第3フォルマントを用いたが、第1,第2フォルマントのみでもよく、第4フォルマント以上の高次フォルマントを用いてもよい。また、図4に示すフォルマントデータベースではフォルマント周波数とフォルマントレベルを記憶しているがフォルマント周波数のみでもよい。また、フォルマントとして連続したスペクトル波形を用いてもよい。 In this embodiment, the first, second, and third formants are used as the formants. However, only the first and second formants may be used, and higher-order formants that are equal to or higher than the fourth formants may be used. Further, the formant database shown in FIG. 4 stores formant frequencies and formant levels, but only formant frequencies may be stored. Further, a continuous spectrum waveform may be used as the formant.
図7は同カラオケ装置の選曲支援動作を示すフローチャートである。この選曲支援動作は、利用者(歌唱者)の音声のフォルマントを抽出し、この抽出フォルマントとよく似たフォルマントの音声を有する歌手の曲を選択し、利用者に提示する動作である。 FIG. 7 is a flowchart showing the music selection support operation of the karaoke apparatus. This music selection support operation is an operation of extracting a voice formant of a user (singer), selecting a song of a singer having a formant voice similar to the extracted formant, and presenting it to the user.
まず、マイク27の入力音声からフォルマントを抽出する(s11)。この入力音声は、カラオケ曲の歌唱音声であってもよく、また、選曲のために入力された音声であってもよい。なお、このときカラオケ装置は事前にフォルマント選曲モードが設定されているものとする。抽出された利用者のフォルマントをサンプルデータベース37aに記憶されているサンプルフォルマントと比較し(s12)、最も類似するサンプルデータを選出する(s13)。このサンプルデータの歌手番号を読み出し(s14)、この歌手番号で曲データベースを検索し、この歌手番号のカラオケ曲を抽出する(s15)。そして、このカラオケ曲をモニタにリスト表示する(s16)。リスト表示されたカラオケ曲の番号を利用者がリモコンから入力することによって(s17)このカラオケ曲を選曲・演奏することができる(s18)。
First, a formant is extracted from the input sound of the microphone 27 (s11). This input voice may be a singing voice of a karaoke song, or may be a voice input for music selection. At this time, the formant music selection mode is set in advance in the karaoke apparatus. The extracted formant of the user is compared with the sample formant stored in the
また、いわゆる似顔絵データベース4bに記憶する似顔絵は、図4に示すようないわゆる線画以外に限定されず写真データなどを用いてもよい。
Further, the portraits stored in the so-called
なお、この実施形態には、特許請求の範囲に記載した発明以外に、サンプルフォルマントをカラオケ曲の楽曲データと対応づけておき、利用者が入力した音声のフォルマントに類似するサンプルフォルマントを検索して、これに対応する楽曲データを選曲する発明を記載している。サンプルフォルマントと楽曲データの対応づけは、たとえば、歌手のフォルマント(サンプルフォルマント)とこの歌手が歌っているカラオケ曲とを対応づけるようにすればよい。また、声の質と曲の雰囲気で対応づけてもよい。 In this embodiment, in addition to the invention described in the claims, the sample formant is associated with the music data of the karaoke song, and the sample formant similar to the voice formant input by the user is searched. The invention of selecting music data corresponding to this is described. The sample formant and music data may be associated with each other by, for example, associating the singer's formant (sample formant) with the karaoke song sung by the singer. Also, the voice quality may be associated with the music atmosphere.
これにより、声を入力することによって自動的に最も適したカラオケ曲を自動選曲することができる。また選曲手段としては、1曲のみを選曲するのではなく、候補曲として複数の曲を抽出し、そのなかから利用者に1曲を選択させるようにするものも含む。いずれにても利用者は、選曲を容易にすることができ、且つ、自分の声質にあったカラオケ曲を選曲することができる。 Thus, the most suitable karaoke song can be automatically selected by inputting a voice. The music selection means includes not only selecting one song but also extracting a plurality of songs as candidate songs and allowing the user to select one song from them. In any case, the user can easily select a song and can select a karaoke song suitable for his / her voice quality.
1…歌唱音声入力部
2…フォルマント抽出部
3…フォルマント比較部
4…サンプルデータベース
5…似顔絵選択部
9…表示部
10…印刷部、
11…歌唱態様検出部
15,16…似顔絵合成部
23…音声信号処理装置
27…歌唱用マイク
29…プリンタ
30…CPU
32…RAM
32a…フォルマント蓄積記憶エリア
37…ハードディスク記憶装置
37a…サンプルデータベース
40…パターン展開部
DESCRIPTION OF
DESCRIPTION OF
32 ... RAM
32a ...
Claims (3)
入力した音声のフォルマントを分析するフォルマント分析手段と、
複数のサンプルフォルマントとそのサンプルフォルマントの共鳴特性を有する顔形状の似顔絵を対応させて記憶した記憶手段と、
分析したフォルマントで前記記憶手段を検索し、最も近似したサンプルフォルマントに対応する似顔絵を選択して出力する似顔絵選択手段と、
を備えた似顔絵出力装置。 Voice input means for inputting voice;
Formant analysis means for analyzing the formant of the input speech,
A storage means for storing a plurality of sample formants and facial caricatures having resonance characteristics of the sample formants in association with each other;
Carrying out the storage means with the analyzed formant, selecting a portrait corresponding to the closest sample formant and outputting the portrait
Caricature output device with
入力した音声のフォルマントを分析するフォルマント分析手段と、
似顔絵を作成するための似顔絵素材を記憶する素材記憶手段と、
フォルマント分析手段が分析したフォルマントに基づき、前記似顔絵素材を用いてそのフォルマントの共鳴特性を有する顔形状の似顔絵を合成して出力する似顔絵出力手段と、
を備えた似顔絵出力装置。 Voice input means for inputting voice;
Formant analysis means for analyzing the formant of the input speech,
Material storage means for storing caricature material for creating a caricature,
Based on the formant analyzed by the formant analysis means, a portrait output means for synthesizing and outputting a portrait of the face shape having the resonance characteristics of the formant using the portrait material;
Caricature output device with
入力した音声のフォルマントを分析するフォルマント分析手段と、
入力した音声の歌唱態様を分析する歌唱分析手段と、
似顔絵を作成するための似顔絵素材を記憶する素材記憶手段と、
フォルマント分析手段が分析したフォルマントおよび歌唱分析手段が分析した歌唱態様に基づき、前記似顔絵素材を用いてそのフォルマントの共鳴特性を有する顔形状でその歌唱態様で歌唱する似顔絵を合成して出力する似顔絵合成手段と、
を備えたカラオケ装置。 Voice input means for inputting singing voice;
Formant analysis means for analyzing the formant of the input speech,
Singing analysis means for analyzing the singing mode of the input voice;
Material storage means for storing caricature material for creating a caricature,
Based on the formant analyzed by the formant analysis means and the singing form analyzed by the singing analysis means, the portrait synthesis is performed by synthesizing and outputting the portraits singing in the singing form with the face shape having the resonance characteristics of the formants using the portrait material. Means,
Karaoke device equipped with.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007018526A JP4808641B2 (en) | 2007-01-29 | 2007-01-29 | Caricature output device and karaoke device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007018526A JP4808641B2 (en) | 2007-01-29 | 2007-01-29 | Caricature output device and karaoke device |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP22583398A Division JP3931442B2 (en) | 1998-08-10 | 1998-08-10 | Karaoke equipment |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007140548A true JP2007140548A (en) | 2007-06-07 |
JP4808641B2 JP4808641B2 (en) | 2011-11-02 |
Family
ID=38203376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007018526A Expired - Fee Related JP4808641B2 (en) | 2007-01-29 | 2007-01-29 | Caricature output device and karaoke device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4808641B2 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009162818A (en) * | 2007-12-28 | 2009-07-23 | Nintendo Co Ltd | Music displaying apparatus and music displaying program |
JP2009210790A (en) * | 2008-03-04 | 2009-09-17 | Nec Software Kyushu Ltd | Music selection singer analysis and recommendation device, its method, and program |
JP2010085710A (en) * | 2008-09-30 | 2010-04-15 | Daiichikosho Co Ltd | Karaoke device for measuring and displaying harmonic tone characteristic of singing voice in singing portion with macron |
JP2010134507A (en) * | 2008-12-02 | 2010-06-17 | Canon Inc | Reproduction device |
JP7483226B2 (en) | 2019-12-10 | 2024-05-15 | グリー株式会社 | Computer program, server device and method |
-
2007
- 2007-01-29 JP JP2007018526A patent/JP4808641B2/en not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009162818A (en) * | 2007-12-28 | 2009-07-23 | Nintendo Co Ltd | Music displaying apparatus and music displaying program |
JP2009210790A (en) * | 2008-03-04 | 2009-09-17 | Nec Software Kyushu Ltd | Music selection singer analysis and recommendation device, its method, and program |
JP2010085710A (en) * | 2008-09-30 | 2010-04-15 | Daiichikosho Co Ltd | Karaoke device for measuring and displaying harmonic tone characteristic of singing voice in singing portion with macron |
JP2010134507A (en) * | 2008-12-02 | 2010-06-17 | Canon Inc | Reproduction device |
JP7483226B2 (en) | 2019-12-10 | 2024-05-15 | グリー株式会社 | Computer program, server device and method |
Also Published As
Publication number | Publication date |
---|---|
JP4808641B2 (en) | 2011-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008026622A (en) | Evaluation apparatus | |
US11417312B2 (en) | Keyboard instrument and method performed by computer of keyboard instrument | |
JP7259817B2 (en) | Electronic musical instrument, method and program | |
JP7424359B2 (en) | Information processing device, singing voice output method, and program | |
JP7363954B2 (en) | Singing synthesis system and singing synthesis method | |
JP7476934B2 (en) | Electronic musical instrument, electronic musical instrument control method, and program | |
JP4808641B2 (en) | Caricature output device and karaoke device | |
JP5598516B2 (en) | Voice synthesis system for karaoke and parameter extraction device | |
JP4748568B2 (en) | Singing practice system and singing practice system program | |
JP3931442B2 (en) | Karaoke equipment | |
JP2000047673A (en) | Karaoke device | |
JP2000122674A (en) | Karaoke (sing-along music) device | |
TWI595476B (en) | A reference display device, a reference display method, and a program | |
JP4277697B2 (en) | SINGING VOICE GENERATION DEVICE, ITS PROGRAM, AND PORTABLE COMMUNICATION TERMINAL HAVING SINGING VOICE GENERATION FUNCTION | |
CN108922505A (en) | Information processing method and device | |
JP6252420B2 (en) | Speech synthesis apparatus and speech synthesis system | |
JP2013210501A (en) | Synthesis unit registration device, voice synthesis device, and program | |
JP6809608B2 (en) | Singing sound generator and method, program | |
JP4371156B2 (en) | Karaoke equipment | |
JP7186476B1 (en) | speech synthesizer | |
JP7468495B2 (en) | Information processing device, electronic musical instrument, information processing system, information processing method, and program | |
JP7158331B2 (en) | karaoke device | |
WO2022054496A1 (en) | Electronic musical instrument, electronic musical instrument control method, and program | |
WO2023120121A1 (en) | Consonant length changing device, electronic musical instrument, musical instrument system, method, and program | |
JP5845857B2 (en) | Parameter extraction device, speech synthesis system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090818 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091019 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20091208 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110817 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140826 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |