JP4612329B2 - Information processing apparatus and program - Google Patents
Information processing apparatus and program Download PDFInfo
- Publication number
- JP4612329B2 JP4612329B2 JP2004133082A JP2004133082A JP4612329B2 JP 4612329 B2 JP4612329 B2 JP 4612329B2 JP 2004133082 A JP2004133082 A JP 2004133082A JP 2004133082 A JP2004133082 A JP 2004133082A JP 4612329 B2 JP4612329 B2 JP 4612329B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- voice
- unit
- comparison
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Abstract
Description
本発明は、声まね等の練習を行える情報処理装置等に関するものである。 The present invention relates to an information processing apparatus that can practice voice imitation and the like.
人が発声したときに聞こえる自分の声は、空気中を伝わって聞こえる自分の声(気導フィードバック)と頭蓋骨を伝わって聞こえる自分の声(骨導フィードバック)の合成された音声である。他人に聞こえる声は、空気中を伝わる音のみであるため、自分自身が聞く声を、他人に聞かせることは不可能である。マイクを通じて聞こえる自分の声や録音した声が、いつもと違う声で奇妙に感じてしまうのは、このためである。カラオケや宴会等で、声まねをした時に、自分自身では非常に似ていると思っていたのに、マイクを通じた声が、自分で思っているほど似てなくて、聴衆の受けが悪い場合もある。
かかる背景から、ひとりよがりのものまねに気づいてしまった人、一発芸を身に付けたいと思っている人、宴会で一発芸を強要されて困っている人、声まねが上達したい人を支援する技術が必要である。
One's own voice that can be heard when a person speaks is a synthesized voice of one's voice (air conduction feedback) heard through the air and one's voice (bone conduction feedback) heard through the skull. Since the voices heard by others are only sounds that travel in the air, it is impossible to let others hear the voices they hear. This is why my voice or recorded voice heard through the microphone feels strange and strange. When simulating a voice at karaoke or a banquet, you thought that you were very similar to yourself, but the voice through the microphone is not as similar as you think, and the audience is bad There is also.
From this background, those who have noticed imitation of one person, those who want to learn one shot, those who are in trouble by being forced to perform one at a banquet, those who want to improve their voice imitation The technology to support is necessary.
上記課題を解決するための技術に関連する技術として、以下の自動演奏装置がある。本自動演奏装置は、予め記憶された楽音データに基づき楽音を発生して自動演奏を行なう自動演奏装置であって、音声を入力して歌唱信号に変換する変換手段と、楽音が発生されている間に所定間隔でトリガ信号を発生する信号発生手段と、該信号発生手段によりトリガ信号が発生された回数を計数する第1の計数手段と、前記信号発生手段によりトリガ信号が発生された際、前記変換手段により変換された歌唱信号の有無を計数する第2の計数手段と、前記第1の計数手段で計数された数に対する前記第2の計数手段で計数された数の比率に応じて評価結果を算出する算出手段と、該算出手段で算出された評価結果を報知する報知手段とにより構成される自動演奏装置がある(特許文献1参照)。本自動演奏装置は、伴奏に応じて歌唱した音声を評価できるようにした知育等に好適な歌唱力評価機能付自動演奏装置に関し、伴奏音に乗せて楽曲を歌唱することのできるカラオケ機能及びその歌唱力評価機能を有し、歌唱力が評価されているという実感が得られる幼児の知育に好適な歌唱力評価機能付自動演奏装置を提供することを目的としている。 As a technique related to the technique for solving the above problems, there are the following automatic performance apparatuses. The automatic performance apparatus is an automatic performance apparatus that generates a musical sound based on previously stored musical sound data and performs an automatic performance. The automatic performance apparatus generates a musical sound by converting means for inputting voice and converting it into a singing signal. A signal generating means for generating a trigger signal at a predetermined interval, a first counting means for counting the number of times the trigger signal is generated by the signal generating means, and when the trigger signal is generated by the signal generating means, Evaluation is performed according to a ratio of the number counted by the second counting means to the number counted by the first counting means, and second counting means for counting the presence or absence of the singing signal converted by the converting means. There is an automatic performance device that includes a calculation unit that calculates a result and a notification unit that notifies an evaluation result calculated by the calculation unit (see Patent Document 1). This automatic performance device relates to an automatic performance device with a singing ability evaluation function suitable for intellectual education and the like that can evaluate a voice sung according to an accompaniment, and a karaoke function capable of singing a song on an accompaniment sound and its It aims at providing the automatic performance apparatus with a singing power evaluation function suitable for the intellectual education of the infant which has a singing power evaluation function and the actual feeling that singing power is evaluated is obtained.
また、関連する技術を導入した音楽ソフトウェア商品として、プリマヴィスタ(登録商標)がある(非特許文献1参照)。本ソフトウェアは、「ピッチグラフ」、「音とりモード」、「視唱トレーニング」、「ハモリ測定」の4つの機能を備えた合唱練習用ソフトである。「ピッチグラフ」の機能は、PCのマイクに向かって歌うと音程の変化をグラフで表示する機能である。本機能により、正確な音程を練習できる。「音とりモード」の機能は、合唱のパートを練習するための機能で、他のパートや自分のパートの音を聴きながら歌うと、楽譜に音の高低が表示される。「視唱トレーニング」の機能は、音階や音程の課題を楽譜として表示し、これを歌うことにより譜読みと音程を練習できる機能である。「ハモリ測定」の機能は、ハモリの練習機能で、PCからの音にハーモニーを付けたり、2人でハモると、和音の音程を表示する。
しかしながら、上述した従来技術は、声まねの練習を行うことを想定していない。つまり、従来技術において、何かに似せようとして発声された音声を聞いた人が、音声データの特徴量のうちのどの特徴量の類似度が高い場合に、似ていると感じるかが考慮されていない。
したがって、従来技術において、歌唱力の評価や、音程を狂わないように歌う練習は可能であるが、人の感覚に合致して、発声した音声が対象となる音声に似ているかどうかを判断することは困難であった。
また、従来技術によれば、格納している音声の一部分のみを似るように芸を磨くなどの練習をすることができなかった。かかる芸は一発芸と言われている芸である。
また、従来技術において、人が感じる指標に近い指標で、似ている度合いをリアルタイムに表示できなかったので、例えば、歌のものまねを行っている場合に、途中で軌道修正をすることができなかった。
However, the above-described conventional technology does not assume practice of voice imitation. In other words, in the prior art, it is considered whether a person who has heard the voice uttered to resemble something feels similar when the similarity of the feature quantity of the voice data is high. Not.
Therefore, in the prior art, it is possible to evaluate the singing ability and practice singing so that the pitch does not go wrong, but it is determined whether the voice uttered is similar to the target voice in accordance with the human sense. It was difficult.
In addition, according to the prior art, it has not been possible to practice such as performing arts so that only a part of the stored voice is similar. This is a trick that is said to be a one-off performance.
In addition, in the prior art, it is not possible to display the degree of similarity in real time with an index that is close to the index that a person feels. For example, when imitating a song, the trajectory cannot be corrected midway. It was.
さらに、従来技術において、例えば、正しい歌の音声データを強制的に音痴な音声データに変更して、その音痴な音声データに対する類似度を出力できなかったので、強制的に音痴に歌を歌う練習ができなかった。なお、強制的に音痴に歌を歌うことができれば、十分、宴会芸として役に立つ。 Furthermore, in the prior art, for example, the voice data of the correct song was forcibly changed to sound data and the similarity to the sound data could not be output, so practice to sing a song forcibly I could not. In addition, if you can sing a song forcibly, it will be useful as a banquet art.
本第一の発明の情報処理装置は、音声を取得する音声取得部と、前記音声取得部が取得した音声の所定の特徴量を抽出する第一特徴量抽出部と、前記第一特徴量抽出部が抽出した特徴量と、比較対照の音声データの特徴量を比較する比較部と、前記比較部が比較した結果を出力する出力部を具備する情報処理装置である。なお、前記所定の特徴量は、音声データから抽出されるビブラートに関する情報、音の入り方に関する情報、音程の変化に関する情報のうち1以上の情報を有することが好適である。
かかる構成により、声まねの練習が容易にできる。また、人が似ていると感じるような声まねの能力を手にいれることができる。
The information processing apparatus according to the first aspect of the present invention includes a sound acquisition unit that acquires sound, a first feature amount extraction unit that extracts a predetermined feature amount of the sound acquired by the sound acquisition unit, and the first feature amount extraction An information processing apparatus comprising: a comparison unit that compares a feature amount extracted by the unit with a feature amount of comparison audio data; and an output unit that outputs a result of comparison by the comparison unit. Note that the predetermined feature amount preferably includes one or more information among information on vibrato extracted from audio data, information on how to enter sound, and information on change in pitch.
With this configuration, voice imitation can be practiced easily. In addition, the ability to imitate voices that people feel similar to can be obtained.
また、第二の発明の情報処理装置は、第一の発明の情報処理装置に対して、前記音声データは所定の部分ごとに区切ることが可能であり、前記比較部は、前記部分ごとに、前記第一特徴量抽出部が抽出した特徴量と、比較対照の音声データの特徴量を比較し、前記出力部は、前記比較部が出力した部分ごとの比較結果を出力する情報処理装置である。
かかる構成により、一部分の声まねの練習が容易である。
Further, the information processing apparatus of the second invention is capable of dividing the audio data into predetermined parts with respect to the information processing apparatus of the first invention, and the comparing unit is provided for each of the parts, The feature amount extracted by the first feature amount extraction unit is compared with the feature amount of comparison audio data, and the output unit is an information processing apparatus that outputs a comparison result for each portion output by the comparison unit. .
With this configuration, it is easy to practice part of voice imitation.
また、第三の発明の情報処理装置は、第二の発明の情報処理装置に対して、前記部分を指示する入力を受け付ける入力受付部と、前記入力受付部が前記入力を受け付けた場合に、指示された部分に対応する音声データの一部分を読み出し、音声出力する音声出力部をさらに具備する情報処理装置である。
かかる構成により、一部分の声まねの練習が容易である。
An information processing apparatus according to a third aspect of the present invention is an information receiving apparatus according to the second aspect of the present invention, in which an input receiving unit that receives an input for instructing the part and an input receiving unit that receives the input. The information processing apparatus further includes an audio output unit that reads out a part of audio data corresponding to the instructed part and outputs the audio.
With this configuration, it is easy to practice part of voice imitation.
また、第四の発明の情報処理装置は、第二の発明の情報処理装置に対して、前記部分を指示する入力を受け付ける入力受付部と、前記入力受付部が前記部分を指示する入力を受け付けた場合に、前記音声取得部が音声を取得し、前記第一特徴量抽出部は、前記音声取得部が取得した音声の所定の特徴量を抽出し、前記比較部は、前記第一特徴量抽出部が抽出した特徴量と、比較対照の音声データの特徴量を比較し、前記出力部は、前記比較部が比較した結果を出力する情報処理装置である。
かかる構成により、一部分の声まねの練習が容易である。
また、第五の発明の情報処理装置は、上記の情報処理装置に対して、前記出力部は、前記比較部が比較した結果を視覚的に出力する情報処理装置である。
かかる構成により、声まね指数が一目瞭然であり、ユーザにとって声まねの練習がしやすい。
An information processing apparatus according to a fourth aspect of the present invention is an information receiving apparatus according to the second aspect of the present invention, wherein an input receiving unit that receives an input that indicates the part and an input that the input receiving unit indicates the part are received. The voice acquisition unit acquires the voice, the first feature amount extraction unit extracts a predetermined feature amount of the voice acquired by the voice acquisition unit, and the comparison unit includes the first feature amount. The feature amount extracted by the extraction unit is compared with the feature amount of the comparison audio data, and the output unit is an information processing apparatus that outputs a result of comparison by the comparison unit.
With this configuration, it is easy to practice part of voice imitation.
Moreover, the information processing apparatus of 5th invention is an information processing apparatus with which the said output part outputs visually the result which the said comparison part compared with said information processing apparatus.
With this configuration, the voice imitation index is obvious and it is easy for the user to practice voice imitation.
さらに、第六の発明の情報処理装置は、上記の情報処理装置に対して、前記音声データ格納部に格納されている音声データを変化させる度合いを示す情報である音ズレ情報の入力を受け付ける音ズレ情報入力受付部と、前記音ズレ情報に基づいて前記音声データを変更する音声データ変更部をさらに具備する情報処理装置である。
かかる構成により、例えば、正しい歌の音声データを強制的に音痴な音声データに変更して、強制的に音痴に歌を歌うことを練習することができる。
なお、上記の情報処理装置は、ソフトウェアで実現しても良い。
Furthermore, an information processing apparatus according to a sixth aspect of the present invention is a sound that receives an input of sound shift information that is information indicating a degree of change of audio data stored in the audio data storage unit with respect to the information processing apparatus. The information processing apparatus further includes a deviation information input receiving unit and a voice data changing unit that changes the voice data based on the sound gap information.
With such a configuration, for example, it can be practiced to forcibly change the voice data of a correct song to voice data that is forcibly and forcibly sing a song.
Note that the above information processing apparatus may be realized by software.
本発明によれば、声まね等の練習が行える。 According to the present invention, voice imitation etc. can be practiced.
以下、情報処理装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
Hereinafter, embodiments of an information processing apparatus and the like will be described with reference to the drawings. In addition, since the component which attached | subjected the same code | symbol in embodiment performs the same operation | movement, description may be abbreviate | omitted again.
(Embodiment 1)
図1は、本実施の形態における情報処理装置のブロック図である。本情報処理装置は、音声データ格納部101、音声取得部102、第一特徴量抽出部103、第二特徴量抽出部104、比較部105、出力部106、音ズレ情報入力受付部107、音声データ変更部108、入力受付部109を具備する。
第一特徴量抽出部103は、第一ビブラート情報取得手段1031、第一入情報取得手段1032、第一音程変化情報取得手段1033を具備する。
第二特徴量抽出部104は、第二ビブラート情報取得手段1041、第二入情報取得手段1042、第二音程変化情報取得手段1043を具備する。
FIG. 1 is a block diagram of an information processing apparatus according to this embodiment. The information processing apparatus includes an audio
The first feature
The second feature
音声データ格納部101は、真似る対象の音声データ(以下、適宜「教師データ」という)を格納している。音声データは、例えば、MIDI形式の楽音データや、WAV形式の音データ等である。ただし、音声データの形式は問わない。また、音声データは、歌手の歌声のデータや、動物の鳴き声や、機械音や、英語や韓国語の単語、文章を読んだ際の音声データ等である。音声データ格納部101は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
音声取得部102は、人が発生する音声を取得し、音声データに変換する。音声取得部102は、例えば、マイクおよび当該マイクが集音した音声を音声データに変換するソフトウェアから実現され得る。
The audio
The
第一特徴量抽出部103は、音声取得部102が取得した音声の所定の特徴量を抽出する。所定の特徴量とは、類似度が高ければ似ていると人が感じる、1以上の特徴量である。所定の特徴量とは、例えば、音声データから抽出されるビブラートに関する情報、音の入り方に関する情報、音程の変化に関する情報のうち1以上の情報を有する。第一特徴量抽出部103は、通常、MPUやメモリ等から実現され得る。第一特徴量抽出部103の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
The first feature
第二特徴量抽出部104は、音声データ格納部101に格納されている音声データから所定の特徴量を抽出する。第二特徴量抽出部104が抽出する特徴量は、第一特徴量抽出部103が抽出する特徴量と同種の特徴量である。第二特徴量抽出部104は、通常、MPUやメモリ等から実現され得る。第二特徴量抽出部104の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
The second feature
比較部105は、第一特徴量抽出部103が抽出した特徴量と、第二特徴量抽出部104抽出した特徴量を比較し、比較結果を出力部106に渡す。比較部105は、2以上の特徴量を比較する場合、特徴量ごとに比較する。そして、かかる場合、比較結果は、特徴量ごとに出力しても良いし、2以上の比較結果に基づいて一の結果を生成し、出力しても良い。比較結果は、声まねの全体の声まねの度合いを示す声まね指数でも良いし、部分(例えば、一小節)ごとの比較結果でも良い。比較部105は、通常、MPUやメモリ等から実現され得る。比較部105の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
The
出力部106は、比較部105が比較した結果を出力する。出力部106は、比較部105が比較した結果を視覚的に、できれば画像(イメージ)により出力することが好適である。ユーザが比較結果を理解しやすいためである。また、出力部106は、比較部105が比較した結果をリアルタイムに出力することが好適である。一定以上の時間、比較を続ける場合、ユーザは似るように矯正しやすいからである。さらに、出力部106は、目または/および鼻または/および口の画像を有する顔画像を変化させ、比較結果が良好になるような態様で表示することが、さらに好適である。ユーザが発声する音声は、顔の形を変える(主として口の形を変える)ことにより変化する。似るように発声するための顔を表示してやると、ユーザにとって似せようとしている対象の音声に似るように、極めて矯正しやすくなる。出力とは、通常、ディスプレイへの表示を言うが、プリンタへの印字、外部の装置への送信等を含む概念である。出力部106は、ディスプレイ等の出力デバイスを含むと考えても含まないと考えても良い。出力部106は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
The
音ズレ情報入力受付部107は、音声データ格納部101に格納されている音声データを変化させる度合いを示す情報である音ズレ情報の入力を受け付ける。入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。音ズレ情報入力受付部107は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
The sound misalignment information
音声データ変更部108は、音ズレ情報入力受付部107で受け付けた音ズレ情報に基づいて、音声データ格納部101に格納されている音声データを自動的に変更する。音声データの変更アルゴリズムは問わない。音ズレ情報が割合の情報である場合に、音声データ変更部108は、例えば、音ズレ情報の割合の音情報を、ランダムな値分だけ変化させる。ランダムな値は、例えば、乱数により取得する。音声データ変更部108は、通常、MPUやメモリ等から実現され得る。音声データ変更部108の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
The sound
入力受付部109は、処理の開始指示、または終了指示を受け付ける。かかる開始指示の受け付けにより、音声取得部102が音声を取得することを開始し、格納している音声データと取得した音声データの比較が開始される。また、終了指示の受け付けにより、情報処理装置の処理を終了する。指示の入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。入力受付部109は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
第一ビブラート情報取得手段1031、および第二ビブラート情報取得手段1041は、音声データからビブラートに関する情報であるビブラート情報を取得する。ビブラート情報の具体例は、後述する。
第一入情報取得手段1032、および第二入情報取得手段1042は、音声データから音の入り方に関する情報である入情報を取得する。入情報の具体例は、後述する。
第一音程変化情報取得手段1033、および第二音程変化情報取得手段1043は、音声データから音程の変化に関する情報である音程変化情報を取得する。音程変化情報の具体例は、後述する。
The input receiving unit 109 receives a process start instruction or an end instruction. When the start instruction is received, the
The first vibrato
The first incoming
The first pitch change
上記各手段は、通常、MPUやメモリ等から実現され得る。上記各手段の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
以下、本情報処理装置が、ユーザが発生した音声が、真似の対象である音声データとどれぐらいに類似するかを判断し、判断結果を出力する動作について図2のフローチャートを用いて説明する。
(ステップS201)入力受付部109は、開始指示を受け付けたか否かを判断する。開始指示を受け付ければステップS202に行き、受け付けなければステップS201に戻る。
(ステップS202)音声取得部102は、人が発生する音声を取得し、音声データに変換する。変換した音声データは、バッファに追記する。変換した音声データは、例えば、後述する波形データである。
Each of the above means can usually be realized by an MPU, a memory, or the like. The processing procedure of each means is usually realized by software, and the software is recorded on a recording medium such as a ROM. However, it may be realized by hardware (dedicated circuit).
Hereinafter, an operation in which the information processing apparatus determines how much the voice generated by the user is similar to the voice data to be imitated and outputs the judgment result will be described with reference to the flowchart of FIG.
(Step S201) The input receiving unit 109 determines whether a start instruction has been received. If a start instruction is accepted, the process goes to step S202, and if not accepted, the process returns to step S201.
(Step S202) The
(ステップS203)第一特徴量抽出部103は、音声データの比較を行う区切りであるか否かを判断する。区切りであればステップS204に行き、区切りでなければステップS202に戻る。区切りであるか否かは、例えば、所定の時間が経過したか否かで判断する。なお、所定の時間は、後述するように0.03秒ぐらいが好適である。また、第一特徴量抽出部103は、音声取得部102が取得した音声データが、一定時間以上の無音声である場合に区切りであると判断しても良い。
(Step S203) The first feature
(ステップS204)第一ビブラート情報取得手段1031は、バッファに格納されている音声データから、第一のビブラート情報を取得する。音声データからビブラート情報を取得するアルゴリズムの例は後述する。
(ステップS205)第一入情報取得手段1032は、バッファに格納されている音声データから、第一の入情報を取得する。音声データから入情報を取得するアルゴリズムの例は後述する。
(ステップS206)第一音程変化情報取得手段1033は、バッファに格納されている音声データから、第一の音程変化情報を取得する。音声データから音程変化情報を取得するアルゴリズムの例は後述する。
(Step S204) The first vibrato
(Step S205) The first incoming
(Step S206) The first pitch change
(ステップS207)第二ビブラート情報取得手段1041は、音声データ格納部101の音声データ中の、対応する音声データから、第二のビブラート情報を取得する。音声データからビブラート情報を取得するアルゴリズムの例は後述する。なお、対応する音声データとは、音声取得部102が取得した音声データに対応する音声データである。
(ステップS208)第二入情報取得手段1042は、音声データ格納部101の対応する音声データから、第二の入情報を取得する。音声データから入情報を取得するアルゴリズムの例は後述する。
(ステップS209)第二音程変化情報取得手段1043は、バッファに格納されている音声データから、第二の音程変化情報を取得する。音声データから音程変化情報を取得するアルゴリズムの例は後述する。
(ステップS210)比較部105は、第一のビブラート情報と第二のビブラート情報を比較し、比較結果を出力する。
(ステップS211)比較部105は、第一の入情報と第二の入情報を比較し、比較結果を出力する。
(ステップS212)比較部105は、第一の音程変化情報と第二の音程変化情報を比較し、比較結果を出力する。
(ステップS213)比較部105は、ステップS210からステップS212で出力した比較結果をパラメータとして得点を算出する。ここで算出された得点は、部分的な声まね指数である。
(Step S207) The second vibrato
(Step S208) The second incoming
(Step S209) The second pitch change
(Step S210) The
(Step S211) The
(Step S212) The
(Step S213) The
(ステップS214)出力部106は、ステップS210からステップS212で出力した比較結果に基づいて、出力する画像を構成する。「画像を構成する」処理は、格納されている画像データを読み出す処理でも良い。
(ステップS215)出力部106は、ステップS214で構成した画像を出力する。
(Step S214) The
(Step S215) The
(ステップS216)終了か否かを判断する。終了か否かの判断は、入力受付部109は終了指示を受け付けたか否か、または音声データの比較処理が終了したか否かを判断することにより行われる。終了であればステップS217に行き、終了でなければステップS202に戻る。なお、ステップS202に戻る前に、音声データ格納部101の音声データを読み出すポインタをずらす。つまり、本ポインタは、次の比較すべき音声データの先頭のアドレスに移動されている。
(Step S216) It is determined whether or not the process is finished. The determination of whether or not to end is performed by determining whether or not the input receiving unit 109 has received an end instruction or whether or not the audio data comparison process has ended. If completed, go to step S217, otherwise return to step S202. In addition, before returning to step S202, the pointer which reads the audio | voice data of the audio | voice
(ステップS217)比較部105は、ステップS213で算出した1以上の得点から、総合得点を算出する。総合得点とは、声まね指数である。総合得点の算出は、ステップS213で算出した1以上の得点の合計でも良いし、平均でも良いし、合計した数値を100点満点になるように補正しても良い。
(ステップS218)出力部106は、ステップS217で算出した声まね指数を出力する。
(Step S217) The
(Step S218) The
次に、情報処理装置が、音ズレ情報の入力を受け付けた場合の処理について説明する。音ズレ情報入力受付部107は、音ズレ情報の入力を受け付けた場合に、当該音ズレ情報に基づいて、音声データ変更部108は、音声データ格納部101に格納されている音声データを自動的に変更する。
Next, processing when the information processing apparatus receives input of sound shift information will be described. When the sound shift information
次に、本情報処理装置の開発の準備段階で行った実験について説明する。本情報処理装置の開発にあたって、声まねの特徴量を抽出することが重要である。そこで、人間が声まねを似ていると感じる基準を決定する必要がある。同じ声まねを聴いても、似ているという人と似ていないという人がいる。これは、声まねを似ていると判断する基準には個人差があるためである。しかし、ある特徴的な音に対しては、共通の評価基準が存在するのではないかと考えられる。そこで、声まねの特徴量を抽出するための、声まね評価実験を行った。 Next, an experiment performed at the preparation stage of development of the information processing apparatus will be described. In developing this information processing apparatus, it is important to extract feature quantities of voice imitation. Therefore, it is necessary to determine a standard for humans to feel similar to voice imitation. There are people who hear the same voice, but who do not look like it. This is because there are individual differences in the criteria for determining that the voice imitation is similar. However, there may be a common evaluation standard for certain characteristic sounds. Therefore, a voice imitation evaluation experiment was performed to extract the features of voice imitation.
本評価実験は、評価者のほとんどが似ていると判断するような声まねは存在するか否か、教師データを声まねとして聞かせたときに、その声まねが教師データと同じ音であると判断できるか、またその評価はどのくらいの点数になるのか、を調査することを目的としている。なお、教師データとは、声まねの対象となるデータであり、本情報処理装置の構成における音声データ格納部101の音声データである。
In this evaluation experiment, when the teacher imitates the teacher data as to whether there is a voice imitation that most evaluators judge to be similar, the voice imitation is the same sound as the teacher data. The purpose is to investigate whether it can be judged and how much the evaluation will be. Teacher data is data to be imitated and is voice data in the voice
実験内容は、はじめに3秒未満の短い教師データを一度だけ聴いてもらう。その後5秒間隔で素人の声まねを10人分聴いてもらい、0点から100点までの評点で、個人の直感をもとにブランクの5秒の間に採点してもらった。評価者には、実験の真の目的をつげずに、機械学習の教師データに使用するためのデータ収集を目的としていると伝えた。5種類の音データに対して、23名の人に評価実験を行ってもらった。評価結果を図3に示す。 As for the content of the experiment, first, short teacher data less than 3 seconds is listened only once. After that, they listened to 10 amateur voice imitations at 5 second intervals, and scored between 5 and 100 seconds with a score from 0 to 100 based on personal intuition. The evaluators were told that they were aiming to collect data for use in machine learning teacher data, without linking the true purpose of the experiment. For 5 types of sound data, 23 people conducted evaluation experiments. The evaluation results are shown in FIG.
図3の表において、全体平均は、全評価者の平均点数である。声まね最高は、最高得点を取った人の全採点者の平均点、最低は、最低点を取った人の全採点者の平均点、TOP獲得率は、最高点をつけた人数の割合、教師データ認識率は、教師データを声まねリストに混ぜて聞かせたときの認識率と平均点である。教師データに最高点をつけた場合を、"認識"としている。教師データを混ぜなかったデータについては、"−"で示している。採点者は全員日本人で、声まねを行った人はマレーシア人、スイスジャーマン、イタリア人、フランス人、日本人とし、各音リストで、順番も人物も変えている。図3の表において、教師データの1番目は、恐竜おもちゃの電子音である、2番目は、本物のヤギ(めぇぇぇ)の鳴声である。3番目は、「お主も悪よの」という日本語の短文である。4番目は、スイスジャーマンで食器棚を意味する言葉である。5番目は長いフランス語である。 In the table of FIG. 3, the overall average is the average score of all evaluators. The voice imitation maximum is the average score of all graders of the highest score, the lowest is the average score of all graders of the lowest score, the TOP acquisition rate is the percentage of people who scored the highest, The teacher data recognition rate is a recognition rate and an average score when teacher data is mixed with a voice imitation list. The case where the highest score is assigned to the teacher data is regarded as “recognition”. Data that is not mixed with teacher data is indicated by “−”. The graders are all Japanese, and the people who imitate the voice are Malaysian, Swiss German, Italian, French and Japanese. In the table of FIG. 3, the first teacher data is an electronic sound of a dinosaur toy, and the second is a real goat cry. The third is a short Japanese sentence that says, "Oh my lord is bad." The fourth is a Swiss German word for cupboard. The fifth is long French.
1番目の恐竜おもちゃの電子音に対して、声まねを行った人は、マレーシア人男性1人、スイスジャーマン男性2人、フランス人男性1人、日本人男性2人、イタリア人女性1人、日本人女性3人の合計10名である。この声まねデータの中に教師データは含まれていない。評価実験を行った結果、ある日本人女性にのみ高い評点があつまった。この評価の高かった女性のデータ、評価の低かったデータおよび教師データの波形データと時間−周波数解析結果を図4に示す。図4の上は波形である。図4の中は周波数スペクトルである。図4の下は時間―周波数解析(x軸:時間、y軸:周波数)である。色が白い箇所は、振幅が大きい箇所である。 The person who imitated the electronic sound of the first dinosaur toy was one Malaysian man, two Swiss German men, one French man, two Japanese men, one Italian woman, There are a total of 10 Japanese women. The voice imitation data does not include teacher data. As a result of the evaluation experiment, only a Japanese woman got a high score. FIG. 4 shows the waveform data and time-frequency analysis results of the highly evaluated female data, the poorly evaluated data, and the teacher data. The top of FIG. 4 is a waveform. The frequency spectrum is shown in FIG. The bottom of FIG. 4 is a time-frequency analysis (x axis: time, y axis: frequency). A white portion is a portion having a large amplitude.
図4より、似ていると判断された声まねは、教師データと周波数スペクトルが似ている、音の立ち上がりが似ている、波形が似ている、という3点が解析結果からわかる。しかし、時間に関しては、約2秒のデータに対して、1秒ほど長くなっている。このことから、教師の1番目の恐竜おもちゃの電子音に関しては、テンポの正確さは、似ているか否かを判断する場合の特徴量に入っていないと思われる。 From the analysis results, it can be seen from the analysis results that the voice imitation determined to be similar is similar to the teacher data and the frequency spectrum, the sound rise is similar, and the waveform is similar. However, the time is about 1 second longer than about 2 seconds of data. From this, regarding the electronic sound of the teacher's first dinosaur toy, it seems that the accuracy of the tempo is not included in the feature amount when judging whether or not they are similar.
採点者が教師データの特徴量を認識可能な教師データ2のGoatの場合、教師データの認識率は82.6%と高かった。しかし、教師データの特徴量の認識が困難な教師データ4および5のスイスジャーマンとフランス語39.1%と30.4%と、ともに低い認識率であった。また、教師データ5のフランス語に関しては、声まねリストの中に、全く同じ声まねを混ぜておいたが、同じ評点をつけた採点者は、4人にとどまった。このことから、特徴量が捕らえやすい音については、採点が可能だが、特徴量が捉えきれないものついては、評価ができないということがわかった。聴いたことのない外国語に関しては、3秒のデータですら特徴を捉えることが難しいことから、例えば、音痴な人が音程を捉えることができないのは、音階の特徴量を捉えられないためではないかと推測される。音楽に関しても、長い節を一度に音程を捉えることは、音楽未経験者および音痴な人には非常に困難である。このため、音痴矯正教示データは、小節毎、あるいはメロディーごとに区切って、短い時間間隔で教示する方が効果的であると考えられる。
In the case of Goat of the
万人が似ていると感じる声まねは、各自が記憶している特徴量と現在聞こえている音声との比較となるため、大げさな方が似ていると感じる。評価実験より、特徴量を捉えきれない音については、ほんの数秒のデータですら、人間は正確に音声そのものを記憶できないことがわかった。このことは、聴いたことのない外国語の声まね度を判定するときには、判断できない、あるいは、全部同じに聞こえる、教師データを教師データとして識別できないといった結果からも推測される。これらのことから、教師データとそっくりに声まねができたとしても、他人からは似ていると判定してもらえない可能性がある。そこで、教示する際に使用すべきデータは、教師データの特徴量をより顕著にした加工データを使用した方が効果的であると思われる。 The voice imitation that everyone feels similar is a comparison of the feature value that each person remembers with the voice that is currently being heard, so the oversized person feels similar. From the evaluation experiment, it was found that humans cannot accurately memorize the sound itself, even if only a few seconds of data can not be captured. This is also inferred from the result that it cannot be judged when judging the voice imitation of a foreign language that has never been heard, or that all sounds the same, or teacher data cannot be identified as teacher data. For these reasons, even if you can imitate the voice just like the teacher data, there is a possibility that other people will not judge you to be similar. Therefore, it seems that it is more effective to use the processed data in which the feature amount of the teacher data is more remarkable as the data to be used for teaching.
図3、図4における実験によれば、教師データよりも高く評価されたものがある声まねデータおよび全体的に評価が高かった声まねデータをもとに、特徴量の検討を行った。具体的には、声まねに必要な特徴量の比較検討を行った。音の特徴量として、音の高さ(ピッチ)、大きさ(ラウドネス)、および音色を決定づける要素である倍音成分、立ち上がり時間、立ち上がり特性、ビブラート、振幅変調、ピッチの揺れ等を抽出し、どのような要素が声まねに影響するのか検討し、実際に使用する特徴量を決定した。その結果、似ていると判断されるための音声データの特徴量は、主として、ビブラート、音の入り方、音程の相対的な変化量という3つの特徴量であると判断された。人は、2つの音声データを比較して、かかる特徴量が主として似ている場合に、2つの音声データが似ている、と判断する。また、時間(テンポ)のずれは、評価に影響を与えない。 According to the experiments in FIG. 3 and FIG. 4, the feature amount was examined based on voice mimic data that was evaluated higher than the teacher data and voice mimic data that was generally highly evaluated. Specifically, we compared the features required for voice mimicry. As sound feature quantities, we extract the harmonic components, rise time, rise characteristics, vibrato, amplitude modulation, pitch fluctuation, etc. We examined whether such factors affect voice mimicry, and decided the actual features to be used. As a result, the feature values of the audio data to be judged to be similar were determined to be mainly three feature values of vibrato, sound input, and relative change in pitch. A person compares two pieces of voice data and determines that the two pieces of voice data are similar when such feature amounts are mainly similar. In addition, the time (tempo) shift does not affect the evaluation.
また、ビブラートの特徴を得るために、0.03秒以上の時間分解能が必要である。0.03秒以上の時間分解能があれば、音の入りや音程の相対的な変化量の特徴を得ることが可能である。よって、音の分類に必要な時間分解能を、ここでは0.03秒とする。ただし、音の分類に必要な時間分解能は、略0.03秒ぐらいであれば良い。特徴量には、各時間における振幅の変化量から得たビブラートの有無、強弱、出だしのクレッシェンドの有無、アタック(音の出だし)の強弱、音量の時間差分などがある。
以下、本実施の形態における情報処理装置の具体的な動作について説明する。まず、音声データ格納部101には、声まねの対象である教師データの生波形データが格納されている。
Moreover, in order to obtain the characteristics of vibrato, a time resolution of 0.03 seconds or more is required. If there is a time resolution of 0.03 seconds or more, it is possible to obtain characteristics of the onset of sound and the relative change in pitch. Therefore, the time resolution required for sound classification is 0.03 seconds here. However, the time resolution required for sound classification may be about 0.03 seconds. The feature amount includes the presence / absence of vibrato obtained from the amplitude change amount at each time, strength, presence / absence of crescendo, strength of attack (sound start), time difference in volume, and the like.
Hereinafter, a specific operation of the information processing apparatus according to the present embodiment will be described. First, in the audio
まず、第二特徴量抽出部104は、音声データ格納部101に格納されている教師データの生波形データから、第二のビブラート情報、第二の入情報、第二の音程変化情報を得る。具体的には以下のような処理を行う。
First, the second feature
つまり、情報処理装置の第二特徴量抽出部104は、音声データ格納部101の生波形データを読み出す。この生波形データは、図5(a)に示すようなデータである。そして、第二特徴量抽出部104は、読み出した生波形データを整流する。次に、第二特徴量抽出部104は、整流した波形を、0.03秒間隔で加算平均する。次に、第二特徴量抽出部104は、音の立上がりおよび立下りから、実際の発声部分を抜き出す(図5(b)参照)。次に、第二特徴量抽出部104は、0.03秒間隔で短時間フーリエ変換(Short Time Fourier Transform :STFT)による時間周波数解析を行う。そして、第二特徴量抽出部104は、図5(c)のテンプレートを得る。
That is, the second feature
次に、ユーザは、声まねの開始指示を入力する、とする。そして、情報処理装置は、開始指示の入力を受け付け、音声取得部102は、ユーザが発生する音声データを取得する。取得した音声データは、図5(a)に示すような生波形データである。
Next, it is assumed that the user inputs a voice imitation start instruction. The information processing apparatus receives an input of a start instruction, and the
次に、情報処理装置の第一特徴量抽出部103は、上述のような第二特徴量抽出部104と同様の処理によりテンプレート(図5(c)のようなデータ)を得る。なお、第一特徴量抽出部103が図5(c)のようなテンプレートを得る場合に、全体の長さを教師データ(音声データ格納部101のデータ)のテンプレートに合わせる(この処理を「Normalize」という)。例えば、教師データの長さが1sで、声まねが0.8sしかない場合は1sまで引き伸ばして、逆に1.2sくらいの長い場合は、1sに縮める。その状態で、上記のテンプレート(声まねテンプレート−図5(c))を作る。かかるテンプレートは、教師データのテンプレートと同様の長さである。
以上の処理により、教師データのテンプレート(テンプレート2という)と、ユーザ入力音声から得たテンプレート(テンプレート1という)が得られた。
Next, the first feature
Through the above processing, a teacher data template (referred to as template 2) and a template obtained from user input speech (referred to as template 1) were obtained.
そして、第一ビブラート情報取得手段1031、第一入情報取得手段1032、および第一音程変化情報取得手段1033は、ユーザ入力音声から得たテンプレート1から、それぞれ第一のビブラート情報、第一の入情報、第一の音程変化情報を得る。
Then, the first vibrato
具体的には、第一ビブラート情報取得手段1031は、テンプレート1の一番振幅の強い周波数(Fmax1)を、単位時間ごと(単位時間は、図5(c)の1ブロックで、0.03s以内である)に算出し、第一のビブラート情報を得る。第一のビブラート情報は、周波数(Fmax1)の数字列である。また、第二ビブラート情報取得手段1041は、テンプレート2の一番振幅の強い周波数(Fmax2)を、単位時間ごとに算出し、第二のビブラート情報を得る。第二のビブラート情報も、周波数(Fmax2)の数字列である。
Specifically, the first vibrato
次に、第一入情報取得手段1032は、テンプレート1の最初の所定の数(たとえば、5)のブロックの各周波数における振幅を取得する。また、第二入情報取得手段1042は、テンプレート2の最初の所定の数(たとえば、5)のブロックの各周波数における振幅を取得する。
Next, the first input
次に、第一音程変化情報取得手段1033は、テンプレート1の単位時間ごとの一番強い振幅の周波数を取得する。つまり、第一の音程変化情報は、振幅の周波数列である。第二音程変化情報取得手段1043は、テンプレート2の単位時間ごとの一番強い振幅の周波数を取得する。つまり、第二の音程変化情報も、振幅の周波数列である。
そして、比較部105は、上記のテンプレート1、テンプレート2のビブラート情報、入情報、音程変化情報を比較する。
Next, the first pitch change
The
まず、比較部105は、第一のビブラート情報と第二のビブラート情報を比較して、教師データとユーザが入力した音声のビブラートの類似度を算出する。なお、ビブラートの類似度は、上述したビブラートに関する情報の一例である。具体的には、比較部105は、2つのテンプレートのデータの位置の差と個数の差をパラメータとしてビブラートの類似度を算出する。また、比較部105は、人工ニューラルネットワーク(ANN)による機械学習により類似度を算出しても良い。つまり、比較部105は、アンケートデータをもとに、決定する。例えば、Aさんの声まね点数平均が60点、Bさんの声まね点数平均70点等といった教師データからANNを学習して荷重を決定し、その後、未知の声まねデータCさんの点数を出す。
First, the
以下、ANNによる機械学習について説明する。ANNの入力を特徴量(テンプレートから得た情報)、出力を点数とする。Aさんの声まねの特徴量を入力し、Aさんの平均点が60点だとすると、ANNの出力が60点となるまで、ANNの荷重を学習する。このような学習に使用するデータをパターン信号という。パターン信号がひとつでは、学習に偏りがでてしまうため、BさんやCさんについても、同様の学習を同じニューラルネットワークで行い、さらに荷重の学習を行う(たとえば5パターン)。こうして、学習済みのANNをあらかじめシステム側で用意しておき、使用者の声まねの点数をANNによって出力する。つまり、ANNは、例えば、何人かの平均した審査員に相当する。 Hereinafter, machine learning by ANN will be described. An input of ANN is a feature amount (information obtained from a template), and an output is a score. If A's voice imitation feature is input and A's average score is 60 points, the ANN load is learned until the ANN output reaches 60 points. Data used for such learning is called a pattern signal. Since there is a bias in learning with a single pattern signal, the same learning is performed on Mr. B and Mr. C using the same neural network, and further learning of the load is performed (for example, five patterns). Thus, the learned ANN is prepared in advance on the system side, and the score of the user's voice imitation is output by the ANN. In other words, the ANN corresponds to, for example, several average judges.
また、比較部105は、第一の入情報と第二の入情報を比較して、教師データとユーザが入力した音声の、音の入り方の類似度を算出する。なお、音の入り方の類似度は、上述した音の入り方に関する情報の一例である。具体的には、テンプレート1の最初の5つのブロックの各周波数における振幅が第一の入情報であるとする。また、テンプレート2の最初の5つのブロックの各周波数における振幅が第二の入情報であるとする。そして、比較部105は、第一の入情報の各要素と第二の入情報の各要素の差の合計の逆数に、所定の整数を掛けた数が2つの入情報の類似度であるとして、音の入り方に関する類似度を算出する。
Further, the
さらに、比較部105は、第一の音程変化情報と第二の音程変化情報を比較して、教師データとユーザが入力した音声の、全体的な類似傾向である全体的な類似度を算出する。この類似度は、音程の変化に関する情報の一例である。具体的には、比較部105は、第一の音程変化情報である振幅の周波数列と、第二の音程変化情報である振幅の周波数列の差の合計の逆数に、所定の整数を掛けた数を音程の変化に関する類似度として、算出する。
なお、上記の一番強い振幅の周波数は、例えば、各周波数の加算平均により算出される。
Further, the
Note that the frequency having the strongest amplitude is calculated by, for example, an average of the frequencies.
さらに、比較部105は上述したビブラートの類似度、音の入り方の類似度および音程の変化に関する類似度に基づいて、声まね指数を算出する。具体的には、例えば、比較部105は、3つの類似度の合計を声まね指数として算出する。また、比較部105は、3つの類似度の平均値を声まね指数として算出しても良い。
Further, the
次に、出力部106は、例えば、図6に示す出力顔画像判断表と、図7に示す1以上の出力顔画像を保持している。出力顔画像判断表は、「ID」「条件」「画像ID」を有するレコードを1以上保持している。「ID」は、レコードを識別する情報であり、表管理上の要請のために存在する。「条件」は、特徴量をパラメータとして、出力する画像を決定するための条件である。「条件」の属性値が、比較部105が算出した結果に合致すれば、「画像ID」の画像が出力される。「画像ID」は、画像を識別する識別子ある。図7の出力顔画像は、ここでは4つの画像である。4つの画像中の「ID=1」の画像は、音の入りをソフトにすることを教示する場合に表示される画像である。「ID=2」の画像は、音の入りをハードにすることを教示する場合に表示される画像である。「ID=3」の画像は、ビブラートを弱くすることを教示する場合に表示される画像である。「ID=4」の画像は、ビブラートを強くすることを教示する場合に表示される画像である。
Next, the
出力部106は、出力顔画像判断表の条件に照らして、比較部105が比較した結果により、画像を選択し、表示する。なお、比較部105が比較した結果が「「第一のビブラート情報」−「第二のビブラート情報」=12」であれば、出力顔画像判断表の「ID=3」のレコードの条件に合致し、「画像ID=3」の画像を選択し、表示する。かかる画像の選択および表示は、ユーザが音声を入力している間、情報処理装置は、リアルタイムに連続して行う。
The
また、出力部106は、上記で算出した声まね指数を図8に示すような態様で出力する。図8の画面において、ユーザが「Midi Open」ボタン1をクリックすると、情報処理装置は、MIDI再生用データを読み込む。ユーザが「PLAY」ボタン2を押すと、情報処理装置は、スペクトル表示画面(図8の中央の大きな黒い四角)3に網掛けの四角で、同心円のスペクトル表示画面(図8の右側の丸い黒い画面)に黒丸で、正しい音程が教示される。ユーザが歌うと各表示画面には、同様に第一の所定の色(例えば、オレンジ色)で表示される。歌った音程が正しい場合は、第二の所定の色(例えば、黄色く)教示色が変わる。音程がずれている場合は、顔画像(図8の右下の顔4)が、"もっと高く"、"もっと低く"と教示する顔画像を表示する(図12参照)。音程があっているときは、図8に示すように無表情な顔画像を表示する。以上の表示により、ユーザは、リアルタイムに軌道修正しながら、声まねの練習ができる。
次に、強制的に音痴に歌を歌う宴会芸を身に付けるための、本情報処理装置の動作について説明する。
Further, the
Next, the operation of the information processing apparatus for acquiring banquet art for singing a song forcibly will be described.
今、情報処理装置の音声データ格納部101に、歌手が歌った歌の音声データが格納されている、とする。かかる状況で、ユーザは、音声データを変化させる度合いを示す情報である音ズレ情報を入力する。音ズレ情報は、ここでは、音ズレの発生頻度を示す情報である音ズレ情報と、音ズレの幅(大きさ)を示す音ズレレベルを有する。ユーザは、音ズレ情報を「50%」、音ズレレベルを「7」に設定する(図8左側参照)と、音ズレ情報入力受付部107は、かかる音ズレ情報を受け付ける。次に、音声データ変更部108は、音ズレ情報を「50%」、音ズレレベルを「7」に基づいて、音声データ格納部101に格納されている音声データを自動的に変更する。つまり、音声データ変更部108は、音声データ格納部101の音声データ中の50%のデータを、最大「7」音程を上げる、または下げるように音声データを変更する。
Now, it is assumed that voice data of a song sung by a singer is stored in the voice
具体的には、例えば、図9(a)に示すように、元の教師データが12音階であるとする。そして、全データのうち、50%のデータが音ズレする、という条件のもと、音声データ変更部108は、図9(b)に示すように音ズレするデータを決定する。音声データ変更部108が音ズレするデータを決定するアルゴリズムは問わない。音声データ変更部108は、ひとつ飛ばしで音ズレするデータを決定しても良いし、乱数を発生させて、発生させた乱数により音ズレするデータを決定しても良い。なお、図9(b)において音ズレするデータは、下線部のデータである。次に、音声データ変更部108は、最大で元の音±7ずれるように音ズレの度合いを決定する。音声データ変更部108が音ズレの度合いを決定するアルゴリズムも問わない。音声データ変更部108は、例えば、乱数を発生させて、発生させた乱数を14で割った余りにより「−7」から「+7」までの数字を割り当てる。そして、音声データ変更部108は、図9(d)に示すような変更済みの教師データを得る。そして、ユーザは、かかる変更済みの教師データ(元の美しい歌を音痴にした歌のデータ)に基づいて声まねの練習を行うことにより、強制的に音痴に歌を歌う宴会芸を身に付けることができる。声まねにおける情報処理装置の動作は、上述した通りである。
以上、本実施の形態によれば、声まねの練習が容易にできる。また、人が似ていると感じるような声まねの能力を手にいれることができる。
また、本実施の形態によれば、人が感じる指標に近い指標で、似ている度合いをリアルタイムに表示でき、例えば、歌のものまねを行っている場合に、途中で軌道修正をすることができる。
Specifically, for example, as shown in FIG. 9A, it is assumed that the original teacher data is 12 scales. Then, under the condition that 50% of all data has a sound shift, the sound
As described above, according to the present embodiment, voice imitation can be practiced easily. In addition, the ability to imitate voices that people feel similar to can be obtained.
Further, according to the present embodiment, the degree of similarity can be displayed in real time with an index that is close to the index that a person feels, and for example, when a song is imitated, the trajectory can be corrected in the middle. .
さらに、本実施の形態によれば、例えば、正しい歌の音声データを強制的に音痴な音声データに変更して、その音痴な音声データに対する類似度を出力でき、強制的に音痴に歌を歌うことができる宴会芸を身に付けることができる。 Furthermore, according to the present embodiment, for example, correct voice data of a song can be forcibly changed to sound data, and the similarity to the sound data can be output, and the song can be forcibly sung. You can learn banquet arts.
なお、本実施の形態において、声まねとは、歌まねや動物の鳴き声のまねや、機械音のまねや、語学の発音のまねなども含む。つまり、本実施の形態における教師データは、歌手の歌声データや、動物の鳴き声データや、機械音のデータや、語学の発音データなどである。かかることは他の実施の形態においても同様である。 In this embodiment, the voice imitation includes singing imitation, animal noise imitation, mechanical sound imitation, language pronunciation imitation, and the like. That is, the teacher data in the present embodiment is singer singing voice data, animal cry data, machine sound data, language pronunciation data, and the like. The same applies to other embodiments.
また、本実施の形態によれば、声まねの判断のための特徴量は、ビブラート情報、音の入り方に関する情報である入情報、および音程の変化に関する情報である音程変化情報が有効であったが、声まね指数の算出のために他の特徴量を用いても良い。かかることも他の実施の形態においても同様である。 Further, according to the present embodiment, the feature quantity for determining voice imitation is effective as vibrato information, incoming information that is information on how to enter sound, and pitch change information that is information related to pitch change. However, other feature amounts may be used for calculating the voice imitation index. This also applies to other embodiments.
また、本実施の形態によれば、教師データのテンプレートを得る動作をユーザからの音声を取得し、2つのテンプレートを比較しながら、リアルタイムに行った。しかし、教師データのテンプレートを得る動作は、ユーザからの音声の取得の前に、前もって行っていても良い。教師データのテンプレートを得る動作を予め他の装置で行って、情報処理装置は他の装置が行って抽出した教師データの特徴量を保持していても良い。かかる場合、情報処理装置は、音声を取得する音声取得部と、前記音声取得部が取得した音声の所定の特徴量を抽出する第一特徴量抽出部と、所定の特徴量を抽出する第二特徴量抽出部と、前記第一特徴量抽出部が抽出した特徴量と、比較対照の音声データの特徴量を比較する比較部と、前記比較部が比較した結果を出力する出力部を具備する装置である。 Further, according to the present embodiment, an operation for obtaining a template of teacher data is performed in real time while obtaining voice from the user and comparing the two templates. However, the operation of obtaining the teacher data template may be performed in advance before obtaining the voice from the user. An operation for obtaining a template of teacher data may be performed in advance by another device, and the information processing device may hold the feature amount of the teacher data extracted by the other device. In this case, the information processing apparatus includes a sound acquisition unit that acquires sound, a first feature amount extraction unit that extracts a predetermined feature amount of the sound acquired by the sound acquisition unit, and a second feature that extracts a predetermined feature amount. A feature amount extraction unit; a comparison unit that compares the feature amount extracted by the first feature amount extraction unit; and a feature amount of audio data for comparison; and an output unit that outputs a result of the comparison by the comparison unit. Device.
また、本実施の形態によれば、情報処理装置は、スタンドアロンで動作したが、サーバ・クライアントシステムにおいて動作しても良い。かかることも他の実施の形態においても同様である。なお、かかる場合の情報処理システムは、図10に示すシステム構成となる。つまり、情報処理システムは、クライアント装置91とサーバ装置92を有する。クライアント装置91は、音声取得部102、出力部106、音ズレ情報入力受付部107、入力受付部109、第一送受信部9101を具備する。サーバ装置92は、第二送受信部9201、音声データ格納部101、第一特徴量抽出部103、第二特徴量抽出部104、比較部105、音声データ変更部108を具備する。クライアント装置91の第一送受信部9101は、ユーザの発生した音声データをサーバ装置92に送信する。サーバ装置92の第二送受信部9201は、音声データを受信する。比較部105は、当該受信した音声データと格納している音声データとの1以上の特徴量を比較する。第二送受信部9201は、当該比較結果をクライアント装置91に送信する。次に、クライアント装置91の第一送受信部9101は、比較結果を受信し、出力部106は出力する。つまり、上述した情報処理装置の処理を、クライアント装置91とサーバ装置92で分散して処理する態様である。
Further, according to the present embodiment, the information processing apparatus operates stand-alone , but may operate in a server / client system. This also applies to other embodiments. In this case, the information processing system has the system configuration shown in FIG. That is, the information processing system includes a
また、本実施の形態によれば、情報処理装置が声まね指数を算出している際に、音声データ格納部101に格納されている音声データを音声出力しなかったが、音声出力しても良い。音声データを音声出力することは、ユーザの声まねを助け、好適である場合が多い。
Further, according to the present embodiment, when the information processing apparatus calculates the voice imitation index, the voice data stored in the voice
また、本実施の形態における具体例によれば、出力部106は、目または/および鼻または/および口の画像を有する顔画像を変化させ、声まねの結果が良好になるような態様で顔画像を表示したが、顔画像以外の画像を表示することにより声まねの比較結果を表示しても良い。つまり、ユーザの発声した音声と比較対象となる音(音声データ格納部101の音声データ)の特徴量の差異(差分データ)を視覚化できれば良い。差分データの表示のために、図7に示すような"顔"ではなく、図11(a)に示す"棘"、図11(b)に示す"コーン"、図11(c)に示す"ボール"などでも良い。"棘"は3つの球体から棘が12本ずつ延びてくるオブジェクトで、それぞれの棘の長さで差分データの大きさを表現している。"コーン"は円形に回転する12本の円錐があり、それぞれの長さで差分データの大きさを表現している。"ボール"は外周を左回りに回転する8つの球体と、内周を右回りに回転する4つの球体がそれぞれ、基底の軌道から逸れた距離と球体の色の変化で差分データの大きさを表現している。なお、図7に示す"顔"は、目、鼻、口で表現された顔の各部の大きさと位置が規定の大きさ、場所との違いで差分データの大きさを表現している。また、顔については差分データが一定の値を超えると表情が大きく変化するようなバリエーションが存在しても良い。たとえば、音程が教師データと比較して非常に低い場合は、図12(a)のような"顔"を表示し、「音をもっと高くする」ことを直感的に教示したり、音程が教師データと比較して非常に高い場合は、図12(b)のような"顔"を表示し、「音をもっと低くする」ことを直感的に教示したりしても良い。特徴量の差異を、直感的なわかりやすさとリアルタイムな入力に対応して表示するため、声まねが上達するために好適である。
Further, according to the specific example in the present embodiment, the
さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、音声を取得する音声取得ステップと、前記音声取得ステップで取得した音声の所定の特徴量を抽出する第一特徴量抽出ステップと、前記第一特徴量抽出部が抽出した特徴量と、比較対照の音声データの特徴量を比較する比較ステップと、前記比較ステップで比較した結果を出力する出力ステップを実行させるためのプログラムである。 Furthermore, the processing in the present embodiment may be realized by software. Then, this software may be distributed by software download or the like. Further, this software may be recorded and distributed on a recording medium such as a CD-ROM. This also applies to other embodiments in this specification. Note that the software that implements the information processing apparatus according to the present embodiment is the following program. That is, the program includes: a sound acquisition step for acquiring sound; a first feature amount extraction step for extracting a predetermined feature amount of the sound acquired in the sound acquisition step; and the first feature amount extraction unit. This is a program for executing a comparison step for comparing the extracted feature amount with the feature amount of the audio data for comparison and an output step for outputting the result of comparison in the comparison step.
また、本プログラムは、コンピュータに、音声を取得する音声取得ステップと、前記音声取得ステップで取得した音声の所定の特徴量を抽出する第一特徴量抽出ステップと、格納されている音声データから所定の特徴量を抽出する第二特徴量抽出ステップと、前記第一特徴量抽出ステップで抽出した特徴量と、前記第二特徴量抽出ステップで抽出した特徴量を比較する比較ステップと、前記比較ステップで比較した結果を出力する出力ステップを実行させるためのプログラムである。
(実施の形態2)
本実施の形態において、格納している音声データに対して声まねの練習を行える情報処理装置であり、かつ、音声データの各部分の声まね指数が表示され、一部分に対する声まねができる情報処理装置である。
In addition, the program stores, in a computer, a sound acquisition step for acquiring sound, a first feature amount extraction step for extracting a predetermined feature amount of the sound acquired in the sound acquisition step, and a predetermined amount from stored sound data. A second feature amount extraction step for extracting the feature amount, a comparison step for comparing the feature amount extracted in the first feature amount extraction step, the feature amount extracted in the second feature amount extraction step, and the comparison step This is a program for executing an output step for outputting the result of comparison in (1).
(Embodiment 2)
In the present embodiment, an information processing apparatus that can practice voice imitation on stored voice data, and that can display voice imitation index of each part of the voice data, and can perform voice imitation on a part Device.
図13は、本実施の形態における情報処理装置のブロック図である。本情報処理装置は、音声データ格納部101、音声取得部102、第一特徴量抽出部103、第二特徴量抽出部104、比較部1105、出力部1106、音ズレ情報入力受付部107、音声データ変更部108、入力受付部1109、音声出力部1110を具備する。
FIG. 13 is a block diagram of the information processing apparatus according to this embodiment. The information processing apparatus includes an audio
比較部1105は、音声データの部分ごとに、第一特徴量抽出部103が抽出した特徴量と、第二特徴量抽出部104が抽出した特徴量を比較する。音声データは、例えば、歌手が歌った歌のデータである。音声データの部分は、例えば、所定の出力時間の経過により、切り出される。なお、所定の時間は、上述したように0.03秒ぐらいが好適である。また、音声データの区切りは、一定時間以上の無音声である場合に区切りであると判断されても良い。なお、比較部1105は、第一特徴量抽出部103が抽出した2以上の特徴量と、第二特徴量抽出部104が抽出した2以上特徴量を、特徴量ごとに比較しても良い。比較部1105は、通常、MPUやメモリ等から実現され得る。比較部1105の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
The
出力部1106は、比較部1105が出力した部分ごとの比較結果を出力する。比較結果は、点数により示されても良いし、画像により示されても良い。出力とは、通常、ディスプレイへの表示を言うが、プリンタへの印字、外部の装置への送信等を含む概念である。出力部1106は、ディスプレイ等の出力デバイスを含むと考えても含まないと考えても良い。出力部1106は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
The
入力受付部1109は、処理の開始指示、終了指示、または部分を指示する入力を受け付ける。「部分を指示する入力」とは、例えば、出力部1106が出力した部分ごとの比較結果に対する指示入力であり、部分の指示入力である。部分とは、音声データの一部分である。指示の入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。入力受付部1109は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
The
音声出力部1110は、指示された部分に対応する音声データの一部分を読み出し、音声出力する。なお、かかる音声データは、通常、音声データ格納部101の音声データである。ただし、かかる音声データは、ユーザが先に入力し、音声取得部102が取得した音声データでも良い。
The
なお、入力受付部1109が部分を指示する入力を受け付けた場合に、音声取得部102が音声を取得し、第一特徴量抽出部103は、音声取得部102が取得した音声の所定の特徴量を抽出し、第二特徴量抽出部104は、一部分の音声データから所定の特徴量を抽出し、比較部1105は、第一特徴量抽出部103が抽出した1以上の特徴量と、第二特徴量抽出部104が抽出した1以上の特徴量を比較し、出力部1106は、比較部1105が比較した結果を出力する。
以下、本情報処理装置が各部分の声まね指数を出力する動作について図14のフローチャートを用いて説明する。図14のフローチャートにおいて、図2のフローチャートと同様の処理に関しては、説明を省略する。
When the
Hereinafter, the operation of the information processing apparatus for outputting the voice imitation index of each part will be described with reference to the flowchart of FIG. In the flowchart of FIG. 14, the description of the same processing as that of the flowchart of FIG. 2 is omitted.
(ステップS1401)出力部106は、ステップS213で算出した得点を出力する。この得点は、部分ごとの比較結果である。部分ごとの比較結果の表示態様や表示タイミングは問わない。部分ごとの得点の表示態様は、上述した顔画像によるものでも良いし、部分ごとの声まねの得点を数値で表示しても良い。
次に、本情報処理装置が、部分的な声まねの練習に利用される場合の動作について図15のフローチャートを用いて説明する。
(Step S1401) The
Next, the operation when the information processing apparatus is used for practicing partial voice imitation will be described with reference to the flowchart of FIG.
(ステップS1501)入力受付部1109は、部分を指示する入力を受け付けたか否かを判断する。部分を指示する入力を受け付ければステップS1502に行き、部分を指示する入力を受け付けなければステップS1501に戻る。
(ステップS1502)音声出力部1110は、ステップS1501で受け付けた入力が示す部分に対応する音声データを音声データ格納部101から読み出す。
(ステップS1503)音声出力部1110は、ステップS1502で読み出した音声データを出力する。
(Step S1501) The
(Step S1502) The
(Step S1503) The
(ステップS1504)音声取得部102は、ユーザが発生する音声を取得する。なお、ステップS1503の音声データ出力と、ステップS1504の音声の取得は、並行して実行されることが好適である。なお、本ループが2回以上繰り返される場合は、取得した音声は追記される。
(ステップS1505)ステップS1501で受け付けた入力が示す部分のすべての出力が終了したか否かを判断する。終了していればステップS1506に行き、終了していなければステップS1502に戻る。
(Step S1504) The
(Step S1505) It is determined whether or not all the outputs of the portion indicated by the input received in step S1501 have been completed. If completed, go to step S1506, and if not completed, return to step S1502.
(ステップS1506)第一特徴量抽出部103は、ステップS1504で取得された音声から第一の特徴量を抽出する。第一の特徴量は、例えば、実施の形態1で説明したビブラート情報、入情報、音程変化情報であるが、他の特徴量でも良い。
(Step S1506) The first feature
(ステップS1507)第二特徴量抽出部104は、ステップS1502で読み出した音声データから第二の特徴量を抽出する。第二の特徴量は、例えば、実施の形態1で説明したビブラート情報、入情報、音程変化情報であるが、他の特徴量でも良い。
(ステップS1508)比較部1105は、ステップS1506で取得した第一の特徴量と、ステップS1507で取得した第二の特徴量を比較する。
(ステップS1509)出力部1106は、ステップS1508における比較結果を出力する。処理を終了する。
以上の処理により、ユーザは、例えば、音声データ格納部101に格納されている歌の音データの真似を、一部のフレーズ(例えば、一小節)について練習できる。
(Step S1507) The second feature
(Step S1508) The
(Step S1509) The
Through the above processing, the user can practice, for example, imitation of the sound data of a song stored in the audio
以下、本実施の形態における情報処理装置の具体的な動作について説明する。まず、音声データ格納部101には、声まねの対象である教師データの生波形データが格納されている。教師データは、ここでは、歌の音声データである。
Hereinafter, a specific operation of the information processing apparatus according to the present embodiment will be described. First, in the audio
そして、ユーザは、歌まねの開始指示を入力する。次に、情報処理装置は、開始指示の入力を受け付け、音声取得部102は、ユーザが発生する音声データを取得する。取得した音声データは、図5(a)に示すような生波形データである。
Then, the user inputs an instruction to start singing. Next, the information processing apparatus receives an input of a start instruction, and the
そして、情報処理装置の第一特徴量抽出部103は、音声取得部102が取得した音声に対して、実施の形態1において説明した処理と同様の処理を行う。そして、第一特徴量抽出部103は、第一のビブラート情報、第一の入情報、第一の音程変化情報を得る。
次に、第二特徴量抽出部104は、音声データ格納部101に格納されている教師データの生波形データから、第二のビブラート情報、第二の入情報、第二の音程変化情報を得る。
Then, the first feature
Next, the second feature
そして、比較部105は、第一のビブラート情報と第二のビブラート情報を比較して、教師データとユーザが入力した音声のビブラートの類似度を算出する。また、比較部105は、第一の入情報と第二の入情報を比較して、教師データとユーザが入力した音声の、音の入り方の類似度を算出する。さらに、比較部105は、第一の音程変化情報と第二の音程変化情報を比較して、教師データとユーザが入力した音声の、全体的な類似傾向である全体的な類似度を算出する。さらに、比較部105は上述したビブラートの類似度、音の入り方の類似度および全体的な類似度に基づいて、声まね指数を算出する。声まね指数は、100点満点の点数である。そして、出力部106は、声まね指数を出力する。かかる処理は、実施の形態1で説明した処理と同様であるので、詳細な説明は省略する。
Then, the
かかる処理を、一小節ごとに繰り返す。その結果、図16に示す。図16は、ユーザが歌を歌い進める間、リアルタイムに一小節ずつ、歌まねの度合いである声まね指数が出力されている。また、出力部106は、所定の点数より低い小節を、網掛けで示している。
次に、ユーザは、図16の表示に対して、網掛けの点数が付いている「PhraseNo.」を指示する、とする。この指示が、上述した「部分を指示する入力」である。
Such a process is repeated for each measure. The result is shown in FIG. In FIG. 16, while the user sings a song, a voice imitation index, which is the degree of imitation of the song, is output one measure at a time in real time. Further, the
Next, it is assumed that the user designates “PhraseNo.” With shaded points on the display of FIG. This instruction is the above-described “input for instructing a part”.
次に、入力受付部1109は、かかる部分を指示する入力を受け付ける。そして、音声出力部1110は、受け付けた入力が示す部分「PhraseNo.=2」に対応する音声データを音声データ格納部101から読み出す。次に、音声出力部1110は、「PhraseNo.=2」の音声データを出力する。そして、その間、「PhraseNo.=2」に対応する小節の歌まねの練習をするために、ユーザは発声する。その間、音声取得部102は、ユーザが発生する音声を取得する。
次に、第一特徴量抽出部103はユーザが発声し、取得した音声から第一の特徴量を抽出する。その特徴量は、ビブラート情報、入情報、音程変化情報である。
Next, the
Next, the first feature
次に、第二特徴量抽出部104は、読み出した音声データから第二の特徴量を抽出する。第二の特徴量も、ビブラート情報、入情報、音程変化情報である。次に、比較部1105は、第一の特徴量と第二の特徴量を比較する。そして、出力部1106は、その比較結果を出力する(図17参照)。
以上、本実施の形態によれば、声まねの練習が容易にできる。特に、本実施の形態によれば、一部分の声まねの練習が容易である。それにより、人が似ていると感じるような声まねの能力を手にいれることができる。
Next, the second feature
As described above, according to the present embodiment, voice imitation can be practiced easily. In particular, according to the present embodiment, it is easy to practice a part of voice imitation. As a result, the ability to imitate voices that people feel similar to can be obtained.
なお、本実施の形態において、実施の形態1におけるように顔画像を表示しなかったが、声まねを行っている間、実施の形態1と同様に、顔画像やその他の画像を表示することにより、ユーザに声まね指数をわかりやすく提示しても良い。 In the present embodiment, the face image is not displayed as in the first embodiment, but the face image and other images are displayed in the same manner as in the first embodiment while the voice is imitated. Thus, the imitation index may be presented to the user in an easy-to-understand manner.
また、本実施の形態における具体例によれば、例えば、正しい歌の音声データを強制的に音痴な音声データに変更して、強制的に音痴に歌を歌うことを練習する機能について述べなかったが、実施の形態1で述べた機能と同様に、かかる機能があっても良い。かかる機能は、音ズレ情報入力受付部107、音声データ変更部108により可能である。
Further, according to the specific example in the present embodiment, for example, the function of forcibly changing the voice data of the correct song to the voice data forcibly and forcibly singing the song forcibly was not described. However, similar to the function described in
さらに、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、音声を取得する音声取得ステップと、前記音声取得ステップで取得した音声の所定の特徴量を抽出する第一特徴量抽出ステップと、前記第一特徴量抽出部が抽出した特徴量と、比較対照の音声データの特徴量を、音声データの部分ごとに比較する比較ステップと、前記比較ステップで比較した部分ごとの比較結果を出力する出力ステップを実行させるためのプログラムである。 Furthermore, the software that implements the information processing apparatus according to the present embodiment is the following program. That is, the program includes: a sound acquisition step for acquiring sound; a first feature amount extraction step for extracting a predetermined feature amount of the sound acquired in the sound acquisition step; and the first feature amount extraction unit. A program for executing a comparison step for comparing the extracted feature amount and the feature amount of the comparison audio data for each portion of the audio data, and an output step for outputting a comparison result for each portion compared in the comparison step It is.
なお、上記プログラムにおいて、音声取得ステップなどでは、ハードウェアによって行われる処理、例えば、音声取得ステップにおけるスピーカーなどで行われる処理(ハードウェアでしか行われない処理)は含まれない。
また、上記のプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
In the above program, the sound acquisition step or the like does not include processing performed by hardware, for example, processing performed by a speaker or the like in the sound acquisition step (processing performed only by hardware).
Moreover, the computer which performs said program may be single, and plural may be sufficient as it. That is, centralized processing may be performed, or distributed processing may be performed.
また、上記各実施の形態において、以下のようなアルゴリズムで、声まね指数を算出しても良い。つまり、情報処理装置の比較部がビブラートの類似度、音の入り方の類似度および音程の変化に関する類似度に基づいて、声まね指数を算出する場合のアルゴリズムの詳細を以下に説明する。 In each of the above embodiments, the voice imitation index may be calculated by the following algorithm. That is, the details of the algorithm when the comparison unit of the information processing apparatus calculates the voice imitation index based on the similarity of vibrato, the similarity of how to enter sound, and the similarity related to the change in pitch will be described below.
まず、情報処理装置の第二特徴量抽出部は、以下の前処理を行う。今、教師データ(a)が音声データ格納部に格納されている、とする。つまり、(a)は生波形である(図18参照)。そして、まず、第二特徴量抽出部は、ある値(ここでは閾値0.05)以下のものをゼロとし、ノイズの削減し、図18(b)を得る。次に、第二特徴量抽出部は、ノイズを減らした波形を整流し、図18(c)を得る。次に、第二特徴量抽出部は、Window幅で加算平均をとる。ただし、ビブラートが取れるように、0.03秒以下の長さにする。その結果、第二特徴量抽出部は、図18(d)のデータを得る。そして、第二特徴量抽出部は、テンプレートを作るために、音のない部分をカットする。そして、第二特徴量抽出部は、途中で途切れた場合も、後ろの部分はカットし、図18(e)を得る。以上により、第二特徴量抽出部は、音の出だしt1とおわりt2を抽出する。 First, the second feature amount extraction unit of the information processing apparatus performs the following preprocessing. Now, it is assumed that the teacher data (a) is stored in the voice data storage unit. That is, (a) is a raw waveform (see FIG. 18). First, the second feature quantity extraction unit sets a value equal to or smaller than a certain value (here, a threshold value 0.05) to zero, reduces noise, and obtains FIG. 18B. Next, the second feature amount extraction unit rectifies the waveform with reduced noise to obtain FIG. Next, the second feature amount extraction unit takes an addition average with a window width. However, the length should be 0.03 seconds or less so that vibrato can be taken. As a result, the second feature quantity extraction unit obtains the data of FIG. And the 2nd feature-value extraction part cuts a part without a sound, in order to make a template. Then, even if the second feature quantity extraction unit is interrupted in the middle, the rear part is cut to obtain FIG. As described above, the second feature amount extraction unit extracts the sound start t1 and the end t2.
次に、第二特徴量抽出部は、図18の(e)のデータから抽出したt1、t2の範囲で、Window幅0.01でSTFT(Short Time Fourier Transform)し、図19(f)を得る。次に、第二特徴量抽出部は、(f)のSTFT結果より、各時間における最大値を持つ周波数のみ抜き出し、図19(f)を得る。さらに、第二特徴量抽出部は、(g)より、最大値を一番多く持つ周波数を求め、その周波数の上下1オクターブ内でのみ、10成分大きいものから順に抜き出し、図19(h)を得る。
次に、第一特徴量抽出部は、上述した第二特徴量抽出部のアルゴリズムと同様のアルゴリズムで、声まねデータの最大値を持つ周波数から上下1オクターブ内の10成分を抜き出し、図19(i)を得る。
Next, the second feature quantity extraction unit performs STFT (Short Time Fourier Transform) with a window width of 0.01 within the range of t1 and t2 extracted from the data of FIG. 18E, and FIG. obtain. Next, the second feature quantity extraction unit extracts only the frequency having the maximum value at each time from the STFT result of (f), and obtains FIG. 19 (f). Further, the second feature amount extraction unit obtains the frequency having the largest maximum value from (g), extracts 10 components in descending order only within one octave above and below that frequency, and FIG. obtain.
Next, the first feature quantity extraction unit extracts 10 components within one upper and lower octave from the frequency having the maximum value of the voice mimic data by an algorithm similar to the algorithm of the second feature quantity extraction unit described above, and FIG. i) is obtained.
次に、比較部は、以下のように2つのテンプレート(図19(h)、図19(i))を比較する。まず、比較部は、音の入り方の類似度について比較する。つまり、比較部は、図19(h)において最初の10ブロック分のみのデータを比較する(0.1秒分)。図19(h)のT_Bで囲まれた四角い部分がここに相当する。図19(i)についても同様の時間T_Bを抜き出し、時間ごとの差分をとる。本データの場合、全体の誤差平均値「diff=0.0197」となった、とする。比較部が音の入り方が似ていると判断する場合は、「Threshold1(−x)<diff<Threshold2(+x)」であり、比較部が音の入りが弱いと判断する場合は、「Threshold1>diff」であり、比較部が音の入りが強いと判断する場合は、「Threshold2<diff」である、とする。上記の例にあげたデータでは、非常によく似ていると判断される。なお、音の入り方に関する情報を取得するのは、第一入情報取得手段および第二入情報取得手段である。
Next, the comparison unit compares the two templates (FIG. 19 (h) and FIG. 19 (i)) as follows. First, the comparison unit compares the degree of similarity of how the sound enters. That is, the comparison unit compares data for only the first 10 blocks in FIG. 19H (for 0.1 seconds). A square portion surrounded by T_B in FIG. 19H corresponds to this. The same time T_B is extracted from FIG. 19 (i), and the difference for each time is taken. In the case of this data, it is assumed that the total error average value “diff = 0.0197” is obtained. When the comparison unit determines that the sound is similar, “Threshold 1 (−x) <diff <Threshold 2 (+ x)”, and when the comparison unit determines that the sound is weak, “
次に、比較部は、第一のビブラート情報と第二のビブラート情報の類似度について比較する。つまり、比較部は、図19(h)のテンプレートより、各周波数における時間軸にそって、存在するかどうかのチェックを行う(図19(h)の矢印)。比較部は、ある周波数(一番強い周波数を中心に前後数ブロック分)のon−offの繰り返し時間幅をチェックする。比較部は、On−offの繰り返しがない場合、「ビブラートなし」と判断する。そして、比較部は、On−offが繰り返す場合、「ビブラートあり」と判断する。そして、比較部は、「ビブラートあり」の場合に、ビブラートΔtを求める((h)Δt)。
次に、比較部は、上述と同様に、声まねデータに基づいて、ビブラートΔt'を求める。
Next, the comparison unit compares the similarity between the first vibrato information and the second vibrato information. That is, the comparison unit checks whether or not it exists along the time axis at each frequency from the template in FIG. 19H (arrow in FIG. 19H). The comparison unit checks the on-off repetition time width of a certain frequency (for several blocks around the strongest frequency). When there is no on-off repetition, the comparison unit determines that “no vibrato” . Then, when the on-off repeats, the comparison unit determines that “vibrato exists”. Then, in the case of “with vibrato”, the comparison unit obtains vibrato Δt ((h) Δt).
Next, the comparison unit obtains vibrato Δt ′ based on the voice mimic data as described above.
そして、比較部は、「Δt'>>Δt」の場合、もっとビブラートを細かくすべきと判断し、出力部は、もっとビブラートを細かとの指示を出力する。また、比較部は、「Δt'<<Δt」あるいは存在しないとき、もっとビブラートを大きくすべきと判断し、出力部は、もっとビブラートを大きくするとの指示を出力する。さらに、比較部は、「Δt'==Δt」の場合、ビブラート情報に関して類似していると判断し、出力部は、何も出力しない、または良好であることを出力する。
なお、出力時に、音の入り方の類似度、ビブラートの類似度を指標化し、および重み付けし、一の数値を出力しても良い。かかる一の数値が、例えば、声まね指数である。
Then, in the case of “Δt ′ >> Δt”, the comparison unit determines that the vibrato should be made finer, and the output unit outputs an instruction to make the vibrato finer. The comparison unit determines that the vibrato should be increased when “Δt ′ << Δt” or does not exist, and the output unit outputs an instruction to increase the vibrato. Further, when “Δt ′ == Δt”, the comparison unit determines that the vibrato information is similar, and the output unit outputs nothing or is good.
At the time of output, the similarity of sound input and the similarity of vibrato may be indexed and weighted to output one numerical value. Such one numerical value is, for example, a voice imitation index.
また、声まね指数は、以下のように算出しても良い。つまり、比較部は、図18(h)と図18(i)から、差分テンプレートを求める(図21(l))。この差分テンプレートより、各時間における平均差分データをANNの入力とする。そして、アンケート結果より得た、成績のいいもの、普通のもの、悪いもの3パターンをANNの学習用の教示データとする。ANNの入力データは、例えば、72個である。出力は、アンケート結果より得た平均点を100点で割ってNormalizeしたものとする。ANNの学習は誤差逆伝播法とする。この学習済みのANNに今得た平均差分データ(m)を入力として、入れるとANNが声まね指数を出力する。図22は、ANNのモデル図である。この場合、80点であった。
なお、第一のビブラート情報と第二のビブラート情報の類似度の判定において、STFTを二度かけたものについても行っても良い。
Further, the voice imitation index may be calculated as follows. That is, the comparison unit obtains a difference template from FIG. 18 (h) and FIG. 18 (i) (FIG. 21 (l)). From this difference template, the average difference data at each time is used as the input of the ANN. Then, three patterns with good results, normal ones and bad ones obtained from the questionnaire results are used as teaching data for ANN learning. There are 72 ANN input data, for example. The output shall be normalized by dividing the average score obtained from the questionnaire result by 100 points. The ANN learning is an error back propagation method. When the average difference data (m) obtained at this time is input to this learned ANN, the ANN outputs an imitation index. FIG. 22 is a model diagram of the ANN. In this case, it was 80 points.
It should be noted that the determination of the similarity between the first vibrato information and the second vibrato information may also be performed for STFT twice.
上記で説明したアルゴリズムは、ビブラートの類似度、音の入り方の類似度および音程の変化に関する類似度のうちの2つの類似度に基づいて声まね指数を算出するアルゴリズムであったが、単に声まね指数を算出するアルゴリズムの一例であり、他のアルゴリズムでも良いことは言うまでもない。 The algorithm described above is an algorithm for calculating a voice imitation index based on two similarities among the similarity of vibrato, the similarity of how to enter a sound, and the similarity related to a change in pitch. It is an example of an algorithm for calculating a mimic index, and it goes without saying that other algorithms may be used.
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
In each of the above embodiments, each process (each function) may be realized by centralized processing by a single device (system), or by distributed processing by a plurality of devices. May be.
The present invention is not limited to the above-described embodiments, and various modifications are possible, and it goes without saying that these are also included in the scope of the present invention.
以上のように、本発明にかかる情報処理装置は、声まね等の練習ができるという効果を有し、例えば、カラオケ装置に搭載するもの等として有用である。 As described above, the information processing apparatus according to the present invention has an effect of being able to practice voice imitation, and is useful as, for example, a device installed in a karaoke apparatus.
91 クライアント装置
92 サーバ装置
101 音声データ格納部
102 音声取得部
103 第一特徴量抽出部
104 第二特徴量抽出部
105、1105 比較部
106、1106 出力部
107 音ズレ情報入力受付部
108 音声データ変更部
109、1109 入力受付部
1031 第一ビブラート情報取得手段
1032 第一入情報取得手段
1033 第一音程変化情報取得手段
1041 第二ビブラート情報取得手段
1042 第二入情報取得手段
1043 第二音程変化情報取得手段
1110 音声出力部
9101 第一送受信部
9201 第二送受信部
91
Claims (13)
音声を取得する音声取得部と、
前記音声取得部が取得した音声の所定の特徴量を抽出する第一特徴量抽出部と、
前記第一特徴量抽出部が抽出した特徴量と、比較対象の音声データの特徴量を比較する比較部と、
前記比較部が比較した結果を出力する出力部を具備する情報処理装置であり、
前記比較部が比較する特徴量は、音の入り方に関する情報を有し、
前記第一特徴量抽出部は、
前記音声取得部が取得した音声から、最初の所定の数のブロックの各周波数における振幅である第一の入情報を取得する第一入情報取得手段を具備し、
前記比較部は、
前記比較対象の音声データの最初の所定の数のブロックの各周波数における振幅である第二の入情報と前記第一の入情報とを比較し、音の入り方の類似度を取得し、当該音の入り方の類似度を用いて前記比較した結果を取得する情報処理装置。 An information processing device that performs voice imitation evaluation,
An audio acquisition unit for acquiring audio;
A first feature quantity extraction unit for extracting a predetermined feature quantity of the voice acquired by the voice acquisition unit;
A feature quantity the first feature extraction unit has extracted, a comparison unit for comparing the feature amount of the audio data to be compared,
An information processing apparatus including an output unit that outputs a result of comparison by the comparison unit;
The feature quantity that the comparison unit compares has information on how to enter the sound ,
The first feature amount extraction unit includes:
From the sound acquired by the sound acquisition unit, comprising first input information acquisition means for acquiring first input information that is amplitude at each frequency of the first predetermined number of blocks,
The comparison unit includes:
The second input information that is the amplitude at each frequency of the first predetermined number of blocks of the audio data to be compared is compared with the first input information, and the similarity of the sound input is obtained, An information processing apparatus that obtains the result of the comparison using the similarity of how sound enters.
前記第一特徴量抽出部は、The first feature amount extraction unit includes:
前記音声取得部が取得した音声から、単位時間ごとの一番強い振幅の周波数の集合である第一の音程変化情報を取得する第一音程変化情報取得手段をさらに具備し、From the voice acquired by the voice acquisition unit further comprises first pitch change information acquisition means for acquiring first pitch change information that is a set of frequencies having the strongest amplitude per unit time,
前記比較部は、The comparison unit includes:
前記比較対象の音声データの単位時間ごとの一番強い振幅の周波数の集合である第二の音程変化情報と前記第一の音程変化情報とを比較し、音程の変化に関する類似度を取得し、当該音程の変化に関する類似度をも用いて前記比較した結果を取得する請求項1記載の情報処理装置。Compare the second pitch change information and the first pitch change information, which is a set of frequencies of the strongest amplitude for each unit time of the audio data to be compared, and obtain the similarity regarding the pitch change, The information processing apparatus according to claim 1, wherein the comparison result is acquired using a similarity degree related to the change in pitch.
前記第一特徴量抽出部は、The first feature amount extraction unit includes:
前記音声取得部が取得した音声から、単位時間ごとの一番強い振幅の周波数の集合である第一のビブラート情報を取得する第一ビブラート情報取得手段をさらに具備し、From the voice acquired by the voice acquisition unit, further comprising a first vibrato information acquisition means for acquiring first vibrato information that is a set of frequencies having the strongest amplitude per unit time,
前記比較部は、The comparison unit includes:
前記比較対象の音声データから取得された周波数の集合であり、単位時間ごとの一番強い振幅の周波数の集合である第二のビブラート情報と前記第一のビブラート情報とを比較し、ビブラートに関する類似度を取得し、当該ビブラートに関する類似度をも用いて前記比較した結果を取得する請求項1または請求項2記載の情報処理装置。It is a set of frequencies acquired from the audio data to be compared, and the second vibrato information, which is a set of frequencies having the strongest amplitude per unit time, is compared with the first vibrato information, and similarities related to vibrato The information processing apparatus according to claim 1, wherein the information processing apparatus acquires a degree and obtains the result of the comparison using a similarity degree related to the vibrato.
音声データを格納している音声データ格納部と、
音声を取得する音声取得部と、
前記音声取得部が取得した音声の所定の特徴量を抽出する第一特徴量抽出部と、
前記音声データ格納部に格納されている音声データから所定の特徴量を抽出する第二特徴量抽出部と、
前記第一特徴量抽出部が抽出した特徴量と、前記第二特徴量抽出部が抽出した特徴量を比較する比較部と、
前記比較部が比較した結果を出力する出力部を具備する情報処理装置であり、
前記比較部が比較する特徴量は、音の入り方に関する情報を有し、
前記第一特徴量抽出部は、
前記音声取得部が取得した音声から、最初の所定の数のブロックの各周波数における振幅である第一の入情報を取得する第一入情報取得手段を具備し、
前記第二特徴量抽出部は、
前記音声データ格納部に格納されている音声データから、最初の所定の数のブロックの各周波数における振幅である第二の入情報を取得する第二入情報取得手段を具備し、
前記比較部は、
前記第二の入情報と前記第一の入情報とを比較し、音の入り方の類似度を取得し、当該音の入り方の類似度を用いて前記比較した結果を取得する情報処理装置。 An information processing device that performs voice imitation evaluation,
An audio data storage unit storing audio data;
An audio acquisition unit for acquiring audio;
A first feature quantity extraction unit for extracting a predetermined feature quantity of the voice acquired by the voice acquisition unit;
A second feature quantity extraction unit for extracting a predetermined feature quantity from the voice data stored in the voice data storage unit;
A comparison unit that compares the feature amount extracted by the first feature amount extraction unit with the feature amount extracted by the second feature amount extraction unit;
An information processing apparatus including an output unit that outputs a result of comparison by the comparison unit;
Feature quantity the comparison unit compares the possess information regarding how to enter sound,
The first feature amount extraction unit includes:
From the sound acquired by the sound acquisition unit, comprising first input information acquisition means for acquiring first input information that is amplitude at each frequency of the first predetermined number of blocks,
The second feature amount extraction unit includes:
From the audio data stored in the audio data storage unit, comprising second input information acquisition means for acquiring second input information that is the amplitude at each frequency of the first predetermined number of blocks,
The comparison unit includes:
An information processing apparatus that compares the second incoming information with the first incoming information, obtains the similarity of how to enter the sound, and obtains the result of the comparison using the similarity of the entered sound .
前記第一特徴量抽出部は、The first feature amount extraction unit includes:
前記音声取得部が取得した音声から、単位時間ごとの一番強い振幅の周波数の集合である第一の音程変化情報を取得する第一音程変化情報取得手段をさらに具備し、From the voice acquired by the voice acquisition unit further comprises first pitch change information acquisition means for acquiring first pitch change information that is a set of frequencies having the strongest amplitude per unit time,
前記第二特徴量抽出部は、The second feature amount extraction unit includes:
前記音声データ格納部に格納されている音声データから、単位時間ごとの一番強い振幅の周波数の集合である第二の音程変化情報を取得する第二音程変化情報取得手段をさらに具備し、Further comprising second pitch change information acquisition means for acquiring second pitch change information that is a set of frequencies having the strongest amplitude per unit time from the voice data stored in the voice data storage unit;
前記比較部は、The comparison unit includes:
前記第二の音程変化情報と前記第一の音程変化情報とを比較し、音程の変化に関する類似度を取得し、当該音程の変化に関する類似度をも用いて前記比較した結果を取得する請求項4記載の情報処理装置。The second pitch change information and the first pitch change information are compared, a similarity related to a pitch change is acquired, and the comparison result is also acquired using the similarity related to the pitch change. 4. The information processing apparatus according to 4.
前記第一特徴量抽出部は、The first feature amount extraction unit includes:
前記音声取得部が取得した音声から、一番振幅の強い周波数を単位時間ごとに算出し、当該周波数の集合である第一のビブラート情報を取得する第一ビブラート情報取得手段をさらに具備し、From the voice acquired by the voice acquisition unit, the frequency with the strongest amplitude is calculated per unit time, further comprising first vibrato information acquisition means for acquiring first vibrato information that is a set of the frequencies,
前記第二特徴量抽出部は、The second feature amount extraction unit includes:
前記音声データ格納部に格納されている音声データから、一番振幅の強い周波数を単位時間ごとに算出し、当該周波数の集合である第二のビブラート情報を取得する第二ビブラート情報取得手段をさらに具備し、A second vibrato information acquisition means for calculating a frequency with the strongest amplitude per unit time from the audio data stored in the audio data storage unit and acquiring second vibrato information that is a set of the frequencies; Equipped,
前記比較部は、The comparison unit includes:
前記第二のビブラート情報と前記第一のビブラート情報とを比較し、ビブラートに関する類似度を取得し、当該ビブラートに関する類似度をも用いて前記比較した結果を取得する請求項4または請求項5記載の情報処理装置。The said 2nd vibrato information and said 1st vibrato information are compared, the similarity regarding vibrato is acquired, and the said comparison result is acquired also using the similarity regarding the said vibrato. Information processing device.
略0.03秒である請求項1から請求項7いずれか記載の情報処理装置。The information processing apparatus according to claim 1, wherein the information processing apparatus is approximately 0.03 seconds.
コンピュータに、
音声を取得する音声取得ステップと、
前記音声取得ステップで取得した音声の所定の特徴量を抽出する第一特徴量抽出ステップと、
前記第一特徴量抽出ステップで抽出した特徴量と、比較対象の音声データの特徴量を比較する比較ステップと、
前記比較ステップで比較した結果を出力する出力ステップを実行させるためのプログラムであり、
前記比較ステップで比較する特徴量は、音の入り方に関する情報を有し、
前記第一特徴量抽出ステップは、
前記音声取得ステップで取得された音声から、最初の所定の数のブロックの各周波数における振幅である第一の入情報を取得する第一入情報取得ステップを具備し、
前記比較ステップは、
前記比較対象の音声データの最初の所定の数のブロックの各周波数における振幅である第二の入情報と前記第一の入情報とを比較し、音の入り方の類似度を取得し、当該音の入り方の類似度を用いて前記比較した結果を取得するプログラム。 A program for assessing voice imitation,
On the computer,
An audio acquisition step for acquiring audio;
A first feature amount extraction step for extracting a predetermined feature amount of the voice acquired in the voice acquisition step;
A feature amount extracted by the first feature extraction step, a comparison step of comparing the feature amount of the audio data to be compared,
A program for executing an output step of outputting a result of comparison in the comparison step;
The feature amount to be compared in the comparison step has information on how to enter the sound,
The first feature amount extraction step includes:
From the sound acquired in the sound acquisition step, comprising a first input information acquisition step of acquiring first input information that is the amplitude at each frequency of the first predetermined number of blocks,
The comparison step includes
The second input information that is the amplitude at each frequency of the first predetermined number of blocks of the audio data to be compared is compared with the first input information, and the similarity of the sound input is obtained, A program that obtains the result of the comparison using the similarity of sound entry.
前記第一特徴量抽出ステップは、The first feature amount extraction step includes:
前記音声取得ステップで取得された音声から、単位時間ごとの一番強い振幅の周波数の集合である第一の音程変化情報を取得する第一音程変化情報取得ステップをさらに具備し、From the voice acquired in the voice acquisition step, further comprising a first pitch change information acquisition step of acquiring first pitch change information that is a set of frequencies having the strongest amplitude per unit time,
前記比較ステップは、The comparison step includes
前記比較対象の音声データの単位時間ごとの一番強い振幅の周波数の集合である第二の音程変化情報と前記第一の音程変化情報とを比較し、音程の変化に関する類似度を取得し、当該音程の変化に関する類似度を用いて前記比較した結果を取得する請求項9記載のプログラム。Compare the second pitch change information and the first pitch change information, which is a set of frequencies of the strongest amplitude for each unit time of the audio data to be compared, and obtain the similarity regarding the pitch change, The program according to claim 9, wherein the comparison result is acquired using a similarity degree related to the change in the pitch.
前記第一特徴量抽出ステップは、The first feature amount extraction step includes:
前記音声取得ステップで取得された音声から、単位時間ごとの一番強い振幅の周波数の集合である第一のビブラート情報を取得する第一ビブラート情報取得ステップをさらに具備し、A first vibrato information acquisition step of acquiring first vibrato information that is a set of frequencies having the strongest amplitude per unit time from the voice acquired in the voice acquisition step;
前記比較ステップは、The comparison step includes
前記比較対象の音声データから取得された周波数の集合であり、単位時間ごとの一番強い振幅の周波数の集合である第二のビブラート情報と前記第一のビブラート情報とを比較し、ビブラートに関する類似度を取得し、当該ビブラートに関する類似度をも用いて前記比較した結果を取得する請求項9または請求項10記載のプログラム。It is a set of frequencies acquired from the audio data to be compared, and the second vibrato information, which is a set of frequencies having the strongest amplitude per unit time, is compared with the first vibrato information, and similarities related to vibrato The program according to claim 9 or 10, wherein a degree is obtained, and the result of the comparison is obtained using the degree of similarity related to the vibrato.
略0.03秒である請求項9から請求項12いずれか記載のプログラム。The program according to any one of claims 9 to 12, which is approximately 0.03 seconds.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004133082A JP4612329B2 (en) | 2004-04-28 | 2004-04-28 | Information processing apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004133082A JP4612329B2 (en) | 2004-04-28 | 2004-04-28 | Information processing apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005316077A JP2005316077A (en) | 2005-11-10 |
JP4612329B2 true JP4612329B2 (en) | 2011-01-12 |
Family
ID=35443595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004133082A Expired - Fee Related JP4612329B2 (en) | 2004-04-28 | 2004-04-28 | Information processing apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4612329B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008070498A (en) * | 2006-09-13 | 2008-03-27 | Hitachi Ltd | Voice similarity judgment system |
JP5381994B2 (en) * | 2008-10-21 | 2014-01-08 | 日本電気株式会社 | Information processing device |
JP4983958B2 (en) * | 2010-04-27 | 2012-07-25 | カシオ計算機株式会社 | Singing scoring device and singing scoring program |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS56159700A (en) * | 1980-05-15 | 1981-12-09 | Mitsubishi Electric Corp | Mimicry training machine |
JP2906970B2 (en) * | 1993-04-14 | 1999-06-21 | ヤマハ株式会社 | Sound analysis and synthesis method and apparatus |
JPH11259081A (en) * | 1998-03-13 | 1999-09-24 | Nec Corp | Singing score display karaoke device |
JP2000122674A (en) * | 1998-10-14 | 2000-04-28 | Yamaha Corp | Karaoke (sing-along music) device |
JP2000132176A (en) * | 1998-10-29 | 2000-05-12 | Sanyo Electric Co Ltd | Karaoke singing evaluation device |
JP2001115798A (en) * | 1999-10-18 | 2001-04-24 | Mitsui Eng & Shipbuild Co Ltd | Triple cylinder type tunnel back-filling apparatus |
JP2001117598A (en) * | 1999-10-21 | 2001-04-27 | Yamaha Corp | Device and method for voice conversion |
JP2001117568A (en) * | 1999-10-21 | 2001-04-27 | Yamaha Corp | Singing evaluation device and karaoke device |
JP2004102146A (en) * | 2002-09-12 | 2004-04-02 | Taito Corp | Karaoke scoring device having vibrato grading function |
-
2004
- 2004-04-28 JP JP2004133082A patent/JP4612329B2/en not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS56159700A (en) * | 1980-05-15 | 1981-12-09 | Mitsubishi Electric Corp | Mimicry training machine |
JP2906970B2 (en) * | 1993-04-14 | 1999-06-21 | ヤマハ株式会社 | Sound analysis and synthesis method and apparatus |
JPH11259081A (en) * | 1998-03-13 | 1999-09-24 | Nec Corp | Singing score display karaoke device |
JP2000122674A (en) * | 1998-10-14 | 2000-04-28 | Yamaha Corp | Karaoke (sing-along music) device |
JP2000132176A (en) * | 1998-10-29 | 2000-05-12 | Sanyo Electric Co Ltd | Karaoke singing evaluation device |
JP2001115798A (en) * | 1999-10-18 | 2001-04-24 | Mitsui Eng & Shipbuild Co Ltd | Triple cylinder type tunnel back-filling apparatus |
JP2001117598A (en) * | 1999-10-21 | 2001-04-27 | Yamaha Corp | Device and method for voice conversion |
JP2001117568A (en) * | 1999-10-21 | 2001-04-27 | Yamaha Corp | Singing evaluation device and karaoke device |
JP2004102146A (en) * | 2002-09-12 | 2004-04-02 | Taito Corp | Karaoke scoring device having vibrato grading function |
Also Published As
Publication number | Publication date |
---|---|
JP2005316077A (en) | 2005-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8138409B2 (en) | Interactive music training and entertainment system | |
RU2690863C1 (en) | System and method for computerized teaching of a musical language | |
US20030182111A1 (en) | Speech training method with color instruction | |
AU2003300130A1 (en) | Speech recognition method | |
US6737572B1 (en) | Voice controlled electronic musical instrument | |
US10553240B2 (en) | Conversation evaluation device and method | |
KR101859268B1 (en) | System for providing music synchronized with syllable of english words | |
JP2008026622A (en) | Evaluation apparatus | |
Gupta et al. | Automatic leaderboard: Evaluation of singing quality without a standard reference | |
JP4479701B2 (en) | Music practice support device, dynamic time alignment module and program | |
Mehrabi et al. | Vocal imitation of synthesised sounds varying in pitch, loudness and spectral centroid | |
JP4612329B2 (en) | Information processing apparatus and program | |
CN105244021B (en) | Conversion method of the humming melody to MIDI melody | |
CN108922505B (en) | Information processing method and device | |
JP2008040260A (en) | Musical piece practice assisting device, dynamic time warping module, and program | |
CN115050387A (en) | Multi-dimensional singing playing analysis evaluation method and system in art evaluation | |
WO2022160054A1 (en) | Artificial intelligence and audio processing system & methodology to automatically compose, perform, mix, and compile large collections of music | |
CN113129923A (en) | Multi-dimensional singing playing analysis evaluation method and system in art evaluation | |
Çoskunsoy et al. | The Impact of Body Language Use of a Conductor on Musical Quality. | |
JP2008040258A (en) | Musical piece practice assisting device, dynamic time warping module, and program | |
CN111695777A (en) | Teaching method, teaching device, electronic device and storage medium | |
CN110956870A (en) | Solfeggio teaching method and device | |
Gupta | Comprehensive evaluation of singing quality | |
Soszynski et al. | Music games as a tool supporting music education | |
KR20190055931A (en) | A System Providing Vocal Training Service Based On Subtitles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061211 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20080321 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20080321 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20090311 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20090311 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090527 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090715 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091209 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100716 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100907 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100928 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101015 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131022 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |