JP5082760B2 - Sound control apparatus and program - Google Patents
Sound control apparatus and program Download PDFInfo
- Publication number
- JP5082760B2 JP5082760B2 JP2007275173A JP2007275173A JP5082760B2 JP 5082760 B2 JP5082760 B2 JP 5082760B2 JP 2007275173 A JP2007275173 A JP 2007275173A JP 2007275173 A JP2007275173 A JP 2007275173A JP 5082760 B2 JP5082760 B2 JP 5082760B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- phoneme
- value
- peak
- threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、音声の入力に応じて音を制御する技術に関する。 The present invention relates to a technique for controlling sound according to voice input.
入力音声の音韻に応じた音を発生する技術が従来から提案されている。例えば特許文献1には、入力音声に対する音声認識で同定された音韻に応じたリズム音を出力する技術が開示されている。すなわち、事前に登録された複数の音声パターンのうち入力音声に相関する音声パターンが音声認識で特定され、当該音声パターンに対応したリズム音が出力される。
しかし、特許文献1の技術においては入力音声に対する音声認識が必須である。したがって、利用者が事前に登録した音声パターンを記憶するために大容量の記憶装置が必要になるとともに、演算処理装置による音声認識の処理の負荷が過大となるといった問題がある。以上の事情に鑑みて、本発明は、音声認識を要することなく入力音声の音韻に応じた音を生成することを目的とする。
However, in the technique of
入力音声における各帯域の成分のエネルギの分布(周波数スペクトル)は音韻に応じて相違するという関係を利用して、本発明に係る音制御装置は、入力音声の音韻に応じて変化する音韻指標値を入力音声の特定の帯域の成分の強度に基づいて算定する指標算定手段と、複数の音の何れかを音韻指標値に基づいて選択する音選択手段と、入力音声のピーク値を検出するピーク検出手段と、音韻指標値に応じて閾値を可変に設定する閾値設定手段と、ピーク値が閾値を上回るか否かを判定する発音判定手段と、ピーク値が閾値を上回ると発音判定手段が判定した場合に、音選択手段が選択した音の発生を示す音データを生成するデータ生成手段とを具備する。 Using the relationship that the energy distribution (frequency spectrum) of the components of each band in the input speech differs depending on the phoneme, the sound control device according to the present invention uses the phoneme index value that changes according to the phoneme of the input speech. Is calculated based on the intensity of a component in a specific band of the input voice , sound selection means for selecting one of a plurality of sounds based on the phoneme index value, and a peak for detecting the peak value of the input voice Detecting means; threshold setting means for variably setting a threshold according to phoneme index value; pronunciation determining means for determining whether or not the peak value exceeds the threshold; and pronunciation determination means determining if the peak value exceeds the threshold In this case, there is provided data generation means for generating sound data indicating the generation of the sound selected by the sound selection means.
以上の構成においては、入力音声の音韻の指標となる音韻指標値が入力音声のうち特定の成分の強度に基づいて算定されるから、入力音声の音声認識は原理的に不要である。したがって、音声パターンを記憶する大容量な記憶装置が不要となり、音韻を弁別するための処理の負荷が軽減されるという利点がある。また、音選択手段による選択音の発生の可否の判定のためにピーク値と比較される閾値が可変に設定されるから、入力音声のピーク値に応じた発音の頻度を音韻の種類に拘わらず均一化することが可能である。閾値設定手段は、例えば、ピーク値が低くなり易い音韻ほど閾値が低下するように音韻指標値に応じて閾値を可変に制御する。もっとも、音韻指標値が特定の音韻を示す場合に閾値を低下させれば、当該音韻に対応する音の発生の頻度(可能性)を他の音韻と比較して高める(発音の頻度を音韻の種類に応じて不均一化する)構成も実現される。なお、音データの形式は任意である。例えば、音の指定(ノートナンバ)を含むデータ(MIDIデータ)や音の時間波形を示すデータ(波形データ)が音データとして好適である。また、入力音声のうち音韻指標値の算定に使用される特定の帯域は、入力音声の音韻に応じた音韻指標値の相違が顕著となる(すなわち、周波数軸上のエネルギの分布のうち音韻に応じた特徴が顕著に現れる帯域を含む)ように選定される。 In the above configuration, since the phoneme index value that is the index of the phoneme of the input speech is calculated based on the strength of a specific component of the input speech, the speech recognition of the input speech is not necessary in principle. Therefore, there is an advantage that a large-capacity storage device for storing the voice pattern is not necessary, and the processing load for discriminating phonemes is reduced. In addition, since the threshold value to be compared with the peak value is variably set for determining whether or not the selection sound can be generated by the sound selection means, the frequency of pronunciation according to the peak value of the input speech is set regardless of the type of phoneme. It is possible to make it uniform. For example, the threshold value setting means variably controls the threshold value according to the phoneme index value so that the phoneme whose peak value tends to be lower is lowered. However, if the phoneme index value indicates a specific phoneme, if the threshold value is lowered, the frequency (probability) of the sound corresponding to the phoneme is increased compared with other phonemes (the pronunciation frequency is increased). A configuration (which is non-uniform depending on the type) is also realized. The format of the sound data is arbitrary. For example, data including sound designation (note number) (MIDI data) and data indicating a time waveform of sound (waveform data) are suitable as sound data. Further, in a specific band used for calculating the phoneme index value in the input speech, the difference in the phoneme index value according to the phoneme of the input speech becomes remarkable (that is, the phoneme in the energy distribution on the frequency axis). (Including a band in which the corresponding feature appears prominently).
本発明の好適な態様において、指標算定手段は、特定の帯域の成分を入力音声から抽出するフィルタ処理手段と、フィルタ処理手段による処理後の成分の強度を検出する第1強度検出手段(例えば図1の強度検出部144)と、入力音声の強度を検出する第2強度検出手段(例えば図1の強度検出部146)と、第1強度検出手段が検出した強度と第2強度検出手段が検出した強度との相対比に基づいて音韻指標値を算定する演算手段とを含む。以上の態様によれば、入力音声から選択的に抽出された成分の強度と当該入力音声の強度との相対比に基づいて音韻指標値が算定されるから、入力音声の強度の相違に拘わらず、音韻に応じて適切に変化する音韻指標値を算定することが可能である。強度の相対比に基づく音韻指標値の算定とは、強度の相対比を音韻指標値として算定する処理のほか、強度の相対比を変数として含む関数から音韻指標値を算定する処理を含む。
In a preferred aspect of the present invention, the index calculating means includes a filter processing means for extracting a component in a specific band from the input speech, and a first intensity detecting means for detecting the intensity of the component processed by the filter processing means (for example, FIG. 1 intensity detecting unit 144), second intensity detecting means for detecting the intensity of the input voice (for example,
本発明の好適な態様において、指標算定手段は、入力音声の別個の帯域に属する複数の成分の各々について音韻指標値を算定し、音選択手段は、複数の音韻指標値に基づいて音を選択する。以上の態様によれば、入力音声のひとつの帯域に属する成分からひとつの音韻指標値が算定される構成と比較して、音韻指標値に応じた選択の候補(音の種類)を多様化することが可能である。 In a preferred aspect of the present invention, the index calculation means calculates a phoneme index value for each of a plurality of components belonging to separate bands of the input speech, and the sound selection means selects a sound based on the plurality of phoneme index values. To do. According to the above aspect, the selection candidates (sound types) according to the phoneme index values are diversified as compared with the configuration in which one phoneme index value is calculated from the components belonging to one band of the input speech. It is possible.
本発明の好適な態様に係る音制御装置は、音韻指標値と音との関係を可変に設定する対応音設定手段を具備し、音選択手段は、対応音設定手段が設定した関係において、指標算定手段が算定した音韻指標値に対応する音を選択する。以上の態様によれば、音韻指標値と音との関係が可変に設定されるから、例えば利用者の所望の音を音韻に応じて再生することが可能である。 The sound control device according to a preferred aspect of the present invention includes a corresponding sound setting unit that variably sets a relationship between a phoneme index value and a sound, and the sound selection unit is an index according to the relationship set by the corresponding sound setting unit. The sound corresponding to the phoneme index value calculated by the calculation means is selected. According to the above aspect, since the relationship between the phoneme index value and the sound is variably set, for example, a user's desired sound can be reproduced according to the phoneme.
本発明の好適な態様において、閾値設定手段は、発音の判定用の第1閾値と消音の判定用の第2閾値との各々を音韻指標値に応じて可変に設定し、発音判定手段は、ピーク検出手段が検出したピーク値が第1閾値を上回るか否か、および、ピーク検出手段が検出したピーク値が第2閾値を下回るか否かを判定し、データ生成手段は、ピーク検出手段が検出したピーク値が第1閾値を上回ると発音判定手段が判定した場合に、音選択手段が選択した音の発生を示す音データを生成し、ピーク検出手段が検出したピーク値が第2閾値を下回ると発音判定手段が判定した場合に、当該音の消音を示す音データを生成する。 In a preferred aspect of the present invention, the threshold value setting means variably sets each of the first threshold value for determination of pronunciation and the second threshold value for determination of mute according to the phoneme index value, It is determined whether or not the peak value detected by the peak detection means exceeds the first threshold value, and whether or not the peak value detected by the peak detection means is lower than the second threshold value. When the sound generation determination unit determines that the detected peak value exceeds the first threshold value, sound data indicating the generation of the sound selected by the sound selection unit is generated, and the peak value detected by the peak detection unit sets the second threshold value. If the sound generation determining means determines that the sound is below, sound data indicating the mute of the sound is generated .
本発明の好適な態様に係る音制御装置は、入力音声の強度(例えば入力音声の音量やピーク値)と音データが示す音の音量との関係を可変に設定する対応音量設定手段と、対応音量設定手段が設定した関係において、ピーク検出手段が検出したピーク値に対応する音量を決定する音量決定手段とを具備し、データ生成手段は、音量決定手段が設定した音量の音を示す音データを生成する。以上の態様によれば、入力音声の強度と音データが示す音の音量との関係が可変に設定されるから、例えば、入力音声の音量が少ない場合でも再生音の音量を充分に確保する態様や、入力音声の音量が多い場合でも再生音の音量を抑制する態様が適宜に採用される。 The sound control device according to a preferred aspect of the present invention includes a corresponding volume setting unit that variably sets a relationship between the intensity of the input sound (for example, the volume or peak value of the input sound) and the sound volume indicated by the sound data, Volume determination means for determining the volume corresponding to the peak value detected by the peak detection means in the relationship set by the volume setting means, and the data generation means is sound data indicating the sound of the volume set by the volume determination means Is generated. According to the above aspect, since the relationship between the intensity of the input sound and the volume of the sound indicated by the sound data is variably set, for example, the aspect of sufficiently ensuring the volume of the reproduced sound even when the volume of the input sound is low Alternatively, a mode in which the volume of the reproduced sound is suppressed even when the volume of the input sound is high is appropriately employed.
本発明に係る音制御装置は、各処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、入力音声の音韻に応じて変化する音韻指標値を入力音声の特定の帯域の成分の強度に基づいて算定する指標算定処理(例えば図5のステップS3)と、複数の音の何れかを音韻指標値に基づいて選択する音選択処理(例えば図5のステップS5)と、入力音声のピーク値を検出するピーク検出処理と、音韻指標値に応じて閾値を可変に設定する閾値設定処理と、ピーク値が閾値を上回るか否かを判定する発音判定処理と、ピーク値が閾値を上回ると発音判定処理で判定した場合に、音選択処理で選択した音の発生を示す音データを生成するデータ生成処理(例えば図5のステップS11)とをコンピュータに実行させる。以上のプログラムによっても、本発明に係る音制御装置と同様の作用および効果が奏される。なお、本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態で提供されてコンピュータにインストールされる。 The sound control device according to the present invention is realized by hardware (electronic circuit) such as a DSP (Digital Signal Processor) dedicated to each process, and a general-purpose arithmetic processing device such as a CPU (Central Processing Unit) and a program It is also realized through collaboration with. The program according to the present invention includes an index calculation process (for example, step S3 in FIG. 5) for calculating a phoneme index value that changes according to the phoneme of the input speech based on the intensity of a component of a specific band of the input speech, A sound selection process (for example, step S5 in FIG. 5) for selecting one of the sounds based on the phoneme index value, a peak detection process for detecting the peak value of the input voice, and a threshold value variably set according to the phoneme index value The generation of the sound selected in the sound selection process when the sound generation determination process determines that the peak value exceeds the threshold value, and the sound generation determination process determines that the peak value exceeds the threshold value. The computer is caused to execute data generation processing (for example, step S11 in FIG. 5) for generating sound data. Even with the above program, the same operations and effects as the sound control apparatus according to the present invention are exhibited. The program of the present invention is provided to the user in a form stored in a computer-readable recording medium and installed in the computer, or is provided in a form distributed via a communication network and installed in the computer. The
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音制御装置の構成を示すブロック図である。音制御装置100は、利用者が発声した擬声語(例えば打楽器の演奏音を模擬した「ドン」「パン」といった音声)の音韻に応じた打楽器の演奏音を生成する装置である。例えば、利用者が「ドン」という擬声語を発声した場合にはバスドラムの演奏音が再生され、利用者が「パン」という擬声語を発声した場合にはハイハットシンバルの演奏音が再生されるといった具合である。
<A: First Embodiment>
FIG. 1 is a block diagram showing the configuration of the sound control apparatus according to the first embodiment of the present invention. The
図1に示すように、音制御装置100は、制御装置10と記憶装置40とを具備するコンピュータシステムで実現される。制御装置10は、プログラムの実行によって様々な処理を実行する演算処理装置である。記憶装置40は、制御装置10が実行するプログラムや制御装置10が使用する各種のデータを記憶する。
As shown in FIG. 1, the
制御装置10には入力機器50とA/D変換器62と音源回路72とが接続される。入力機器50は、利用者が操作する複数の操作子で構成される。利用者は、入力機器50を適宜に操作することで音制御装置100に各種の指示を入力する。A/D変換器62には収音機器64が接続される。収音機器64は、利用者が発声した音声(以下「入力音声」という)Vを収音する。A/D変換器62は、収音機器64が収音した入力音声Vの時間波形を表すデジタルの音声信号SVを生成する。
An
制御装置10は、図1に図示された各要素として機能することで、入力音声V(音声信号SV)に応じた打楽器の演奏音を示す音データDSを生成および出力する。音データDSは、MIDI(Musical Instrument Digital Interface)規格に準拠した形式のデジタルデータである。音源回路72(MIDI音源)は、打楽器の演奏音の波形を示すデータ列を音データDSに基づいて生成する。音源回路72から出力されたデータ列は、D/A変換器74でアナログの音信号に変換される。放音機器76は、D/A変換器74が出力する音信号を増幅するとともに増幅後の音信号に応じた音波を放射する。
The control device 10 functions and functions as each element shown in FIG. 1 to generate and output sound data DS indicating a percussion instrument performance sound corresponding to the input sound V (audio signal SV). The sound data DS is digital data in a format compliant with the MIDI (Musical Instrument Digital Interface) standard. The tone generator 72 (MIDI tone generator) generates a data string indicating the waveform of the percussion instrument performance sound based on the sound data DS. The data string output from the
次に、制御装置10の機能的な構成を説明する。図1の分割部12は、音声信号SV(入力音声V)を時間軸上で複数のフレーム(例えば1ミリ秒程度の区間)に区分する。各フレームの音声信号SVは、指標算定部14とピーク検出部16とに供給される。
Next, a functional configuration of the control device 10 will be described. 1 divides the audio signal SV (input audio V) into a plurality of frames (for example, sections of about 1 millisecond) on the time axis. The audio signal SV of each frame is supplied to the
指標算定部14は、各フレームの音声信号SVについて音韻指標値Aを生成する。音韻指標値Aは、入力音声Vの音韻(音素)に応じて変化する数値である。すなわち、音韻指標値Aが充分に相違する入力音声Vは別個の音韻として弁別される。
The
図2は、発声音の周波数スペクトルQの概形を音韻の種類毎に示すグラフである。図2の部分(A)は両唇音(/b/,/p/)の周波数スペクトルQであり、図2の部分(B)は歯茎音(/t/,/d/)の周波数スペクトルQであり、図2の部分(C)は軟口蓋音(/k/,/g/)の周波数スペクトルQである。図2の各部分に示すように、発声音の周波数スペクトルQは、発声の原理や後続の母音との組合せに応じて音韻毎に周波数スペクトルQが相違する。例えば、両唇音の周波数スペクトルQ(部分(A))は高域ほど強度が低下するように分布するのに対し、歯茎音の周波数スペクトルQ(部分(B))は低域ほど強度が低下するように分布する。また、軟口蓋音の周波数スペクトルQ(部分(C))は中域にて強度が最大になるとともに低域および高域では強度が低下する。 FIG. 2 is a graph showing an outline of the frequency spectrum Q of the uttered sound for each phoneme type. Part (A) of FIG. 2 is the frequency spectrum Q of the bilateral sound (/ b /, / p /), and part (B) of FIG. 2 is the frequency spectrum Q of the gum sound (/ t /, / d /). In FIG. 2, part (C) is the frequency spectrum Q of the soft palate sound (/ k /, / g /). As shown in each part of FIG. 2, the frequency spectrum Q of the uttered sound is different for each phoneme depending on the principle of the utterance and the combination with the subsequent vowel. For example, the frequency spectrum Q (part (A)) of both lip sounds is distributed such that the intensity decreases as the frequency increases, whereas the frequency spectrum Q (part (B)) of the gum sound decreases as the frequency decreases. To be distributed. In addition, the frequency spectrum Q (part (C)) of the soft palate sound has a maximum intensity in the middle range and decreases in the low and high ranges.
以上のように入力音声Vの周波数スペクトルQが音韻に応じて相違するという現象を利用して、図1の指標算定部14は、入力音声Vのうち特定の周波数帯域(以下「弁別帯域」という)の成分の強度に基づいて音韻指標値Aを算定する。図1に示すように、本形態の指標算定部14は、フィルタ処理部142と強度検出部144と強度検出部146と演算部148とで構成される。
As described above, using the phenomenon that the frequency spectrum Q of the input voice V is different depending on the phoneme, the
フィルタ処理部142は、音声信号SVのうちの弁別帯域内の成分VCを選択的に抽出する。例えば、弁別帯域の上限の周波数を遮断周波数とするローパスフィルタや弁別帯域を通過帯域とするバンドパスフィルタがフィルタ処理部142として好適に採用される。弁別帯域は、音韻指標値Aによる区別の対象となる複数の音韻の間で周波数スペクトルQの分布の相違が当該帯域内で顕著となるように統計的または実験的に選定される。本形態では、図2の部分(A)の両唇音(例えば「バン」「パン」といった擬声語)と図2の部分(B)の歯茎音(例えば「タン」「ドン」といった擬声語)とを区別する場合を便宜的に想定する。図2の部分(A)および部分(B)に図示した周波数fc1を下回る帯域BL(低域)において、両唇音と歯茎音との周波数スペクトルQの相違は顕著となる。したがって、帯域BLが弁別帯域としてフィルタ処理部142に設定される。
The
図1の強度検出部144は、フィルタ処理部142が抽出した成分VCの強度(パワー)PCをフレーム毎に検出する。強度PCは、例えば、成分VCの波形を示すフレーム内の各サンプル(フィルタ処理後の音声信号SVの各サンプル)の振幅値の自乗を合計した数値の平方根を当該フレーム内のサンプルの総数で除算した数値である。一方、強度検出部146は、フィルタ処理部142による処理を経ていない入力音声Vの強度(パワー)P0をフレーム毎に検出する。強度P0は強度PCと同様の方法で算定される。
The
演算部148は、強度P0に対する強度PCの相対比を音韻指標値A(A=PC/P0)として算定する。図2の部分(A)から理解されるように両唇音については弁別帯域(帯域BL)内の強度PCが高いから、入力音声Vの音韻が両唇音である場合には音韻指標値Aは大きい数値となる。一方、図2の部分(B)のように歯茎音については弁別帯域(帯域BL)内の強度PCが低いから、入力音声Vの音韻が歯茎音である場合には音韻指標値Aは小さい数値となる。したがって、演算部148の算定する音韻指標値Aの大小に応じて入力音声Vの音韻を概略的に弁別することが可能である。
The
図1の音選択部22は、複数種の打楽器の演奏音の何れかを音韻指標値Aに基づいて選択する。音選択部22が選択した演奏音を指定する符号(以下「ノートナンバ」という)Nnが音選択部22からデータ生成部30に出力される。音韻指標値Aに対応するノートナンバNnの特定には、記憶装置40に格納されたテーブル(「音選択テーブル」という)TBLが使用される。
The
図3は、音選択テーブルTBLの内容を示す模式図である。同図に示すように、音選択テーブルTBLは、音韻指標値Aの数値の複数の範囲の各々にノートナンバ(打楽器の種類)Nnを対応させたテーブルである。例えば、両唇音に対応する音韻指標値Aの範囲a1にはハイハットシンバルを指定するノートナンバNn1が対応づけられ、歯茎音に対応する音韻指標値Aの範囲a2にはバスドラムを指定するノートナンバNn2が対応づけられる。音選択部22は、演算部148の算定した音韻指標値Aが属する範囲を音選択テーブルTBLから探索し、当該範囲に対応するノートナンバNnを記憶装置40から取得する。
FIG. 3 is a schematic diagram showing the contents of the sound selection table TBL. As shown in the figure, the sound selection table TBL is a table in which a note number (percussion instrument type) Nn is associated with each of a plurality of ranges of numerical values of the phoneme index value A. For example, note number Nn1 for designating hi-hat cymbals is associated with range a1 of phoneme index value A corresponding to both lip sounds, and note number for designating bass drums in range a2 of phoneme index value A corresponding to gum sounds. Nn2 is associated. The
図1の対応音設定部23は、音選択テーブルTBLにおける音韻指標値AとノートナンバNnとの関係を可変に制御する。例えば、対応音設定部23は、音選択テーブルTBLにおける音韻指標値Aの各範囲に対して、利用者が入力機器50の操作で指定した種類の打楽器に対応したノートナンバNnを対応させて記憶装置40に格納する。したがって、各音韻の発声時に出力される打楽器の演奏音を利用者は適宜に変更することが可能である。
The corresponding
ピーク検出部16は、入力音声Vの時間軸上におけるピークの強度(以下「ピーク値」という)PKをフレーム毎に検出する。ピーク値PKの検出には公知の技術が任意に採用される。例えば、入力音声Vの時間波形の包絡線を特定し、当該包絡線におけるフレーム内のピークの振幅をピーク値PKとして検出する構成が好適である。
The
発音判定部24は、ピーク検出部16が検出したピーク値PKの大小に応じて発音および消音の時期を決定する。さらに詳述すると、発音判定部24は、ピーク値PKが閾値TONを上回ったフレームにてデータ生成部30に発音を指示するとともに、ピーク値PKが閾値TOFFを下回ったフレームにてデータ生成部30に消音を指示する。
The sound
ところで、ピーク値PKの大小は入力音声Vの音韻に依存する傾向がある。すなわち、ピーク値PKが増加し易い音韻とピーク値PKが増加し難い音韻とがある。したがって、入力音声Vの音韻に拘わらず閾値TON(閾値TOFF)を固定値とした構成では、例えばピーク値PKが増加し難い音韻ほど発音判定部24が発音の時期と判定する可能性は低下するから、演奏音の発音の頻度が音韻に応じて相違するという不整合が発生する。
By the way, the magnitude of the peak value PK tends to depend on the phoneme of the input voice V. That is, there are phonemes in which the peak value PK is likely to increase and phonemes in which the peak value PK is difficult to increase. Therefore, in the configuration in which the threshold value TON (threshold value TOFF) is a fixed value regardless of the phoneme of the input speech V, for example, the probability that the
そこで、図1の閾値設定部25は、閾値TONおよび閾値TOFFを入力音声Vの音韻に応じて可変に設定する。閾値設定部25による音韻の認識には、指標算定部14の算定した音韻指標値Aが流用される。すなわち、閾値設定部25は、ピーク値PKが増加し難い音韻を音韻指標値Aが示す場合には、ピーク値PKが増加し易い音韻の場合と比較して、閾値TONおよび閾値TOFFを減少させる。以上の構成によれば、各音韻に対応した演奏音の発音の頻度が複数の音韻について均一化されるという利点がある。
Therefore, the threshold
図1の音量決定部26は、ピーク検出部16が検出したピーク値PKに応じて演奏音の音量を決定する。音量決定部26が決定した音量を指定する数値(以下「ベロシティ」という)VELがデータ生成部30に出力される。対応音量設定部27は、以下に説明するようにピーク値PKとベロシティVELとの関係を可変に設定する。
The
記憶装置40には、ピーク値PKとベロシティVELとの関係を定義する複数の関数(以下「音量関数」という)Fが記憶される。図4は、各音量関数F(F1〜F3)の内容を示す概念図である。図4に示すように、ピーク値PKに対するベロシティVELの変化の態様は音量関数F毎に相違する。例えば、音量関数F1は、ピーク値PKが数値p1を上回ると傾きが減少するようにピーク値PKとベロシティVELとの関係を定義するのに対し、音量関数F2は、ピーク値PKが数値p2を上回ると傾きが増加するようにピーク値PKとベロシティVELとの関係を定義する。また、音量関数F3は、ピーク値PKに対して直線的に増加するようにベロシティVELを定義する。対応音量設定部27は、利用者が入力機器50の操作で指定した音量関数Fを記憶装置40から選択する。音量決定部26は、対応音量設定部27が選択した音量関数Fにピーク値PKを代入することでベロシティVELを算定する。したがって、入力音声Vの音量に対するベロシティVELの変化の態様(音量関数F)を利用者は適宜に変更することができる。例えば、利用者が図4の音量関数F1を選択した場合には、発声の音量が小さい場合であっても充分な音量(ベロシティVEL)の演奏音が生成され、利用者が音量関数F2を選択した場合には発声の音量が大きい場合であっても演奏音の音量が抑制されるといった具合である。
The storage device 40 stores a plurality of functions F (hereinafter referred to as “volume function”) that define the relationship between the peak value PK and the velocity VEL. FIG. 4 is a conceptual diagram showing the contents of each volume function F (F1 to F3). As shown in FIG. 4, the change in velocity VEL with respect to the peak value PK is different for each volume function F. For example, the volume function F1 defines the relationship between the peak value PK and the velocity VEL so that the slope decreases when the peak value PK exceeds the numerical value p1, whereas the volume function F2 has the peak value PK having the numerical value p2. The relationship between the peak value PK and the velocity VEL is defined so that the slope increases when the value is exceeded. The volume function F3 defines the velocity VEL so as to increase linearly with respect to the peak value PK. The corresponding
データ生成部30は、音選択部22と発音判定部24と音量決定部26とによる動作の結果に応じた音データDSを生成する。具体的には、発音判定部24による発音の指示を契機として、データ生成部30は、発音を指示する音データDS(ノートオンイベント)を生成して音源回路72に出力する。発音を指示する音データDSは、音選択部22が指定したノートナンバNnと音量決定部26が指定したベロシティVELとを含む。以上の音データDSが音源回路72に出力されることで、入力音声Vの音韻に対応した種類の打楽器の演奏音が、入力音声Vのピーク値PKに応じた音量で放音機器76から出力される。一方、発音判定部24から消音が指示された場合、データ生成部30は、ノートナンバNnに対応した演奏音の消音を指示する音データDS(ベロシティVELとしてゼロが指定されたノートオフイベント)を生成して音源回路72に出力する。
The
次に、図5を参照して、制御装置10が実行する処理の全体的な流れを説明する。図5の処理は、プログラムの起動を指示する操作を利用者が入力機器50に付与した場合に開始される。図5の処理を開始すると、分割部12は、A/D変換器62から供給される音声信号SVからひとつのフレームを切出す(ステップS1)。次いで、フィルタ処理部142および強度検出部144による強度PCの検出と強度検出部146による強度P0の検出とピーク検出部16によるピーク値PKの検出とが順次に実行される(ステップS2)。さらに、演算部148は、強度P0と強度PCとから音韻指標値Aを算定する(ステップS3)。
Next, the overall flow of processing executed by the control device 10 will be described with reference to FIG. The process of FIG. 5 is started when the user gives the
次いで、制御装置10は、入力機器50に対する操作に応じて各種の変数を更新する(ステップS4)。さらに詳述すると、対応音設定部23は、音選択テーブルTBLの内容(音韻指標値Aの各範囲とノートナンバNnとの対応)を入力機器50に対する操作に応じて更新し、対応音量設定部27は、記憶装置40に格納された複数の音量関数Fの何れかを入力機器50に対する操作に応じて選択する。また、制御装置10は、閾値TONの候補となる数値TH1および数値TH2と閾値TOFFの候補となる数値TL1および数値TL2とを入力機器50に対する操作に応じて設定する(ステップS4)。
Next, the control device 10 updates various variables according to the operation on the input device 50 (step S4). More specifically, the corresponding
次いで、音選択部22は、ステップS3にて算定した音韻指標値Aに対応するノートナンバNnを音選択テーブルTBLから特定する(ステップS5)。また、閾値設定部25は、ステップS3で算定した音韻指標値Aに応じて閾値TONおよび閾値TOFFを設定する(ステップS6)。すなわち、例えば音韻指標値Aが両唇音に対応する範囲a1内にある場合には数値TH1を閾値TONに設定するとともに数値TL1を閾値TOFFに設定し、音韻指標値Aが歯茎音の範囲a2内にある場合には数値TH2を閾値TONに設定するとともに数値TL2を閾値TOFFに設定するといった具合である。
Next, the
次に、制御装置10は、状態フラグSFが消音を示し、かつ、ステップS2にて検出したピーク値PKがステップS6で設定した閾値TONを上回るか否かを判定する(ステップS7)。状態フラグSFは、現時点が発音の状態にあるか消音の状態にあるかを識別するための符号である。 Next, the control device 10 determines whether or not the status flag SF indicates mute and the peak value PK detected in step S2 exceeds the threshold value TON set in step S6 (step S7). The status flag SF is a code for identifying whether the current state is a sounding state or a mute state.
ステップS7の結果が肯定である場合(すなわち現在のフレームが発音の開始点に該当する場合)、音量決定部26は、ステップS2で検出したピーク値PKをステップS4にて選択した音量関数Fに代入することでベロシティVELを算定する(ステップS8)。一方、ステップS7の結果が否定である場合(すなわち過去の発音が継続している場合またはピーク値PKが閾値TONに到達しない場合)、制御装置10は、状態フラグSFが発音を示し、かつ、ステップS2で検出したピーク値PKがステップS6で設定した閾値TOFFを下回るか否かを判定する(ステップS9)。
When the result of step S7 is affirmative (that is, when the current frame corresponds to the starting point of sound generation), the
ステップS9の結果が肯定である場合(すなわち現在のフレームが発音の終了点に該当する場合)、音量決定部26はベロシティVELをゼロに設定する(ステップS10)。一方、ステップS9の結果が否定である場合(すなわち、現在のフレームでは発音および消音の一方から他方への変化がない場合)、制御装置10は、処理をステップS1に移行して音声信号SVの次のフレームについて同様の処理を実行する。
When the result of step S9 is affirmative (that is, when the current frame corresponds to the end point of sound generation), the
ステップS8またはステップS10が完了すると、データ生成部30は、現在のフレームに関する処理の結果に応じて音データDSを生成する(ステップS11)。すなわち、状態フラグSFが消音を示す場合(今回のフレームで発音に変化した場合)、データ生成部30は、ステップS5で設定したノートナンバNnとステップS8で設定したベロシティVELとを含むノートオンイベントを音データDSとして生成して音源回路72に出力する。したがって、利用者が発声した音韻に応じた打楽器の演奏音が放音機器76から出力される。一方、状態フラグSFが発音を示す場合(今回のフレームで消音に変化した場合)、データ生成部30は、ステップS5のノートナンバNnとステップS10でゼロに設定したベロシティVELとを含むノートオフイベントを音データDSとして生成して音源回路72に出力する。
When step S8 or step S10 is completed, the
次いで、制御装置10は、状態フラグSFを発音および消音の一方から他方に反転したうえで(ステップS12)、演奏音の再生を終了する時期が到来したか否かを判定する(ステップS13)。利用者は、入力機器50を適宜に操作することで再生の終了を制御装置10に指示することが可能である。ステップS13の結果が否定である場合(例えば再生の終了が未だ指示されていない場合)、制御装置10は、処理をステップS1に移行して音声信号SVの次のフレームについて同様の処理を実行する。一方、ステップS13の結果が肯定である場合、制御装置10は図5の処理を終了する。
Next, the control device 10 inverts the state flag SF from one of sound generation and mute to the other (step S12), and determines whether or not it is time to end the reproduction of the performance sound (step S13). The user can instruct the control device 10 to end the reproduction by appropriately operating the
以上に説明したように、本形態においては、入力音声Vの音韻の区別の指標となる音韻指標値Aが入力音声Vのうち弁別帯域(帯域BL)の成分VCの強度PCに基づいて算定されるから、入力音声Vの音声認識は原理的に不要である。したがって、記憶装置40に必要となる容量や制御装置10による処理の負荷を特許文献1の技術と比較して低減することが可能である。
As described above, in this embodiment, the phoneme index value A, which is an index for distinguishing the phoneme of the input speech V, is calculated based on the intensity PC of the component VC in the discrimination band (band BL) of the input speech V. Therefore, speech recognition of the input speech V is not necessary in principle. Therefore, it is possible to reduce the capacity required for the storage device 40 and the processing load by the control device 10 as compared with the technique of
なお、成分VCの強度PCが音韻に応じて相違するとは言っても、例えば成分VCの強度PC自体が音韻指標値Aとして採択される構成においては、入力音声Vの音量(強度P0)に応じて音韻指標値Aが変化するから、音韻指標値Aのみからは音韻を適切に区別できない可能性もある。本形態においては成分VCの強度PCと入力音声Vの全体の強度P0との相対比に基づいて音韻指標値Aが算定されるから、入力音声Vの強度P0の大小に拘わらず、各音韻を適切に区分し得る音韻指標値Aが算定されるという利点がある。なお、以上の説明から理解されるように、例えば振幅の最大値が所定値(例えば1)となるように音声信号SVをフレーム毎の強度で正規化(標準化)したうえで指標算定部14に供給する構成においては、強度検出部144が検出する強度PC自体を音韻指標値Aとしてもよい。
Even though the intensity PC of the component VC differs depending on the phoneme, for example, in the configuration in which the intensity PC itself of the component VC is adopted as the phoneme index value A, it depends on the volume (intensity P0) of the input voice V. Therefore, there is a possibility that the phoneme cannot be properly distinguished from the phoneme index value A alone. In this embodiment, since the phoneme index value A is calculated based on the relative ratio between the intensity PC of the component VC and the overall intensity P0 of the input voice V, each phoneme is obtained regardless of the magnitude P0 of the input voice V. There is an advantage that a phoneme index value A that can be appropriately classified is calculated. As can be understood from the above description, for example, after the audio signal SV is normalized (standardized) by the intensity for each frame so that the maximum value of the amplitude becomes a predetermined value (for example, 1), the
なお、演奏音が時間的に継続する打楽器の演奏音(例えばシンバルの演奏音)が再生の対象として想定される場合にはノートオフイベントが必要であるが、時間的に継続しない打楽器の演奏音(すなわち、瞬間的にのみ発生するバスドラムやハイハットシンバルなどの演奏音)のみを再生の対象として想定する場合にはノートオフイベントは不要である。したがって、データ生成部30がノートオンイベントのみを音データDSとして生成する構成も採用される。また、ノートオフイベントを利用する構成において、ノートオフイベントのベロシティをゼロ以外の数値に指定してもよい。
Note that when a percussion instrument performance sound (for example, a cymbal performance sound) whose performance sound continues in time is assumed to be played back, a note-off event is necessary, but a percussion instrument performance sound that does not continue in time In the case where only the performance sound (that is, the performance sound such as a bass drum or hi-hat cymbal that occurs only instantaneously) is assumed to be reproduced, the note-off event is unnecessary. Therefore, a configuration in which the
<B:第2実施形態>
次に、本発明の第2実施形態について説明する。なお、本形態において作用や機能が第1実施形態と共通する要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
<B: Second Embodiment>
Next, a second embodiment of the present invention will be described. In addition, about the element which an effect | action and function are common in 1st Embodiment in this form, the same code | symbol as the above is attached | subjected and each detailed description is abbreviate | omitted suitably.
図6は、指標算定部14の具体的な構成を示すブロック図である。本形態のフィルタ処理部142は、周波数帯域が相異なる複数の成分VC(VC1〜VC3)を音声信号SVから抽出する。図6に示すように、通過帯域が相違する3個のフィルタ部FL(FL1〜FL3)で構成されるフィルタバンクがフィルタ処理部142として好適に採用される。フィルタ部FL1は図2における低周波側の帯域BL(〜fc1)の成分VC1を音声信号SVから抽出するバンドパスフィルタまたはローパスフィルタであり、フィルタ部FL3は高周波側の帯域BH(fc2〜)の成分VC3を音声信号SVから抽出するバンドパスフィルタまたはハイパスフィルタであり、フィルタ部FL2は中間の帯域BM(fc1〜fc2)の成分VC2を音声信号SVから抽出するバンドパスフィルタである。
FIG. 6 is a block diagram showing a specific configuration of the
強度検出部144は、3種類の成分VC1〜VC3の各々について強度PC(PC1〜PC3)を検出する。成分VCから強度PCを検出する方法は第1実施形態と同様である。一方、強度検出部146は、第1実施形態と同様に音声信号SVの強度P0を検出する。
The
演算部148は、強度PC1〜PC3の各々と強度P0との相対比を音韻指標値A(A1〜A3)として算定する。音韻指標値A1は帯域BLの成分VC1の強度PC1に応じた数値(A1=PC1/P0)であり、音韻指標値A2は帯域BMの成分VC2の強度PC2に応じた数値(A2=PC2/P0)であり、音韻指標値A3は帯域BHの成分VC3の強度PC3に応じた数値(A3=PC3/P0)である。したがって、音韻指標値A1〜A3の大小に応じて入力音声Vの音韻を区別することが可能である。
The
例えば、図2から理解されるように、音韻指標値A1および音韻指標値A2が所定の閾値を上回るとともに音韻指標値A3が閾値を下回る場合(すなわち周波数スペクトルQのうち帯域BLおよび帯域BMの強度が帯域BHと比較して高い場合)、入力音声Vの音韻は両唇音に弁別される。また、音韻指標値A2および音韻指標値A3が閾値を上回るとともに音韻指標値A1が閾値を下回る場合(すなわち周波数スペクトルQのうち帯域BMおよび帯域BHの強度が帯域BLと比較して高い場合)、入力音声Vの音韻は歯茎音に弁別される。さらに、音韻指標値A2が閾値を上回るとともに音韻指標値A1および音韻指標値A3が閾値を下回る場合、入力音声Vの音韻は軟口蓋音に弁別される。 For example, as understood from FIG. 2, when the phonological index value A1 and the phonological index value A2 exceed a predetermined threshold and the phonological index value A3 falls below the threshold (that is, the intensities of the band BL and the band BM in the frequency spectrum Q). Is higher than the band BH), the phoneme of the input voice V is discriminated as a bilateral sound. Also, when the phoneme index value A2 and the phoneme index value A3 exceed the threshold and the phoneme index value A1 falls below the threshold (that is, when the intensity of the band BM and the band BH in the frequency spectrum Q is higher than the band BL), The phoneme of the input voice V is discriminated as a gum sound. Further, when the phoneme index value A2 exceeds the threshold and the phoneme index value A1 and the phoneme index value A3 are below the threshold, the phoneme of the input voice V is discriminated as a soft palate sound.
音選択テーブルTBLは、別個の音韻に対応する音韻指標値A1〜A3の各範囲とノートナンバNnとを対応づける。音選択部22は、指標算定部14が算定した音韻指標値A1〜A3の範囲に対応するノートナンバNnを音選択テーブルTBLから探索してデータ生成部30に指示する。一方、閾値設定部25は、音韻指標値A1〜A3から弁別される音韻に応じて閾値TONおよび閾値TOFFを可変に制御する。
The sound selection table TBL associates each range of phoneme index values A1 to A3 corresponding to individual phonemes with the note number Nn. The
以上の構成によっても第1実施形態と同様の作用および効果が奏される。また、別個の帯域(BL,BM,BH)に対応する複数の成分VC1〜VC3の各々について音韻指標値A1〜A3が算定されるから、第1実施形態と比較して多数の音韻を区別することが可能である。したがって、入力音声Vの音韻に応じて多様な演奏音を選択的に再生できるという利点がある。なお、以上の形態においては3種類の音韻指標値A1〜A3を算定したが、音韻指標値Aの個数(入力音声Vから抽出される成分VCの個数)は任意である。 With the above configuration, the same operations and effects as in the first embodiment are achieved. Also, since the phoneme index values A1 to A3 are calculated for each of the plurality of components VC1 to VC3 corresponding to the separate bands (BL, BM, BH), a large number of phonemes are distinguished from those of the first embodiment. It is possible. Therefore, there is an advantage that various performance sounds can be selectively reproduced according to the phoneme of the input voice V. In the above embodiment, three types of phoneme index values A1 to A3 are calculated, but the number of phoneme index values A (the number of components VC extracted from the input speech V) is arbitrary.
<C:変形例>
以上の各形態には以下に例示するような様々な変形を加えることができる。なお、以下の例示から2以上の態様を任意に選択して組合わせてもよい。
<C: Modification>
Various modifications as exemplified below can be added to the above embodiments. Two or more aspects may be arbitrarily selected from the following examples and combined.
(1)変形例1
音データDSの形式は以上の例示(MIDI形式)に限定されない。打楽器の演奏音の時間軸上における波形を示すデータ列(サンプル列)を音データDSとしてデータ生成部30が生成する構成も好適に採用される。例えば、記憶装置40は、複数種の打楽器の各々について演奏音の波形を示す波形データを記憶する。発音判定部24から発音が指示されると、データ生成部30は、複数の波形データのうち音選択部22が指定したノートナンバNnに対応する打楽器の波形データを選択し、当該波形データの音量(振幅値)をベロシティVELに応じて増減したうえでD/A変換器74に出力する。以上の構成によれば、MIDIに準拠した音源回路72が不要であるという利点がある。
(1)
The format of the sound data DS is not limited to the above example (MIDI format). A configuration in which the
(2)変形例2
以上の各形態においては打楽器の演奏音を例示したが、再生音は任意に変更される。打楽器以外の楽器を含む複数の楽器の何れかの演奏音を音選択部22が音韻指標値Aに応じて選択する構成も好適である。また、再生音は楽器の演奏音に限定されない。例えば、拍手の音声を再生してもよい。
(2)
In each of the above embodiments, the performance sound of a percussion instrument is exemplified, but the reproduction sound is arbitrarily changed. A configuration in which the
ひとつの楽器が生成する複数の演奏音の何れかを示す音データDSをデータ生成部30が生成する構成も好適である。例えば、音選択部22が生成したノートナンバNnをひとつの楽器の演奏音の音高として指定する音データDSがデータ生成部30から音源回路72に出力される。また、変形例1のように音データDSを波形データとする構成においては、特定の楽器の演奏音の波形データのピッチをノートナンバNnに応じて変換したうえでD/A変換器74に出力する構成が採用される。
A configuration in which the
(3)変形例3
以上の各形態においてはピーク値PKに応じてベロシティVELを設定する構成を例示したが、ピーク値PKと音声信号SVの強度P0とは連動する可能性が高いから、強度検出部146が検出した強度P0に基づいて音量決定部26がベロシティVELを決定する構成も採用される。
(3)
In each of the above embodiments, the configuration in which the velocity VEL is set according to the peak value PK is exemplified. However, since the peak value PK and the intensity P0 of the audio signal SV are highly likely to be linked, the
(4)変形例4
以上の各形態においては入力音声Vが時間領域で処理される構成を例示したが、音声信号SVを周波数領域に展開した周波数スペクトルに基づいて強度PCやピーク値PKを特定する構成も採用される。もっとも、以上の各形態のように時間領域で処理する構成によれば、FFT(Fast Fourier Transform)処理などの周波数分析が不要であるから、制御装置10による処理の負荷が軽減されるという利点がある。
(4)
In each of the above embodiments, the configuration in which the input voice V is processed in the time domain is exemplified, but a configuration in which the intensity PC and the peak value PK are specified based on the frequency spectrum in which the voice signal SV is expanded in the frequency domain is also employed. . However, according to the configuration in which processing is performed in the time domain as in each of the above embodiments, frequency analysis such as FFT (Fast Fourier Transform) processing is unnecessary, and therefore, there is an advantage that the processing load by the control device 10 is reduced. is there.
(5)変形例5
以上の各形態における制御装置10の各機能がDSPなどの電子回路によって実現された構成や、制御装置10の各機能が複数の集積回路で実現される構成も好適である。また、収音機器64や放音機器76は音制御装置100に必須の要件ではない。例えば、記憶装置40に格納された音声信号SVや通信網を介して配信された音声信号SVを処理の対象とした構成においては収音機器64やA/D変換器62が省略される。また、データ生成部30の生成した音データDSが記憶装置40に格納される構成や音データDSが通信網を介して他の機器に送信される構成においては放音機器76やD/A変換器74(さらには音源回路72)が省略される。
(5)
A configuration in which each function of the control device 10 in each of the above embodiments is realized by an electronic circuit such as a DSP, and a configuration in which each function of the control device 10 is realized by a plurality of integrated circuits are also suitable. Further, the sound collection device 64 and the
100……音制御装置、10……制御装置、12……分割部、14……指標算定部、142……フィルタ処理部、144……強度検出部、146……強度検出部、148……演算部、16……ピーク検出部、22……音選択部、23……対応音設定部、24……発音判定部、25……閾値設定部、26……音量決定部、27……対応音量設定部、30……データ生成部、40……記憶装置、50……入力機器、62……A/D変換器、64……収音機器、72……音源回路、74……D/A変換器、76……放音機器。
DESCRIPTION OF
Claims (4)
複数の音の何れかを前記音韻指標値に基づいて選択する音選択手段と、
前記入力音声のピーク値を検出するピーク検出手段と、
前記音韻指標値に応じて閾値を可変に設定する閾値設定手段と、
前記ピーク値が前記閾値を上回るか否かを判定する発音判定手段と、
前記ピーク値が前記閾値を上回ると前記発音判定手段が判定した場合に、前記音選択手段が選択した音の発生を示す音データを生成するデータ生成手段と
を具備する音制御装置。 Index calculation means for calculating a phoneme index value that changes according to the phoneme of the input speech based on the intensity of a component of a specific band of the input speech;
Sound selecting means for selecting any one of a plurality of sounds based on the phonological index value;
Peak detecting means for detecting a peak value of the input voice;
Threshold setting means for variably setting a threshold according to the phoneme index value;
Pronunciation determination means for determining whether or not the peak value exceeds the threshold;
A sound control apparatus comprising: data generation means for generating sound data indicating generation of a sound selected by the sound selection means when the sound generation determination means determines that the peak value exceeds the threshold value .
前記対応音量設定手段が設定した関係において、前記ピーク検出手段が検出したピーク値に対応する音量を決定する音量決定手段とを具備し、
前記データ生成手段は、前記音量決定手段が設定した音量の音を示す音データを生成する
請求項1の音制御装置。 Corresponding volume setting means for variably setting the relationship between the intensity of the input voice and the volume of the sound indicated by the sound data;
A volume determining means for determining a volume corresponding to the peak value detected by the peak detecting means in the relationship set by the corresponding volume setting means;
The data generation unit generates sound data indicating a sound having a volume set by the volume determination unit.
The sound control device according to claim 1 .
前記発音判定手段は、前記ピーク検出手段が検出したピーク値が前記第1閾値を上回るか否か、および、前記ピーク検出手段が検出したピーク値が前記第2閾値を下回るか否かを判定し、
前記データ生成手段は、前記ピーク検出手段が検出したピーク値が前記第1閾値を上回ると前記発音判定手段が判定した場合に、前記音選択手段が選択した音の発生を示す音データを生成し、前記ピーク検出手段が検出したピーク値が前記第2閾値を下回ると前記発音判定手段が判定した場合に、当該音の消音を示す音データを生成する
請求項1または請求項2の音制御装置。 The threshold value setting means variably sets each of a first threshold value for determination of pronunciation and a second threshold value for determination of mute according to the phoneme index value,
The pronunciation determination unit determines whether the peak value detected by the peak detection unit exceeds the first threshold value, and whether the peak value detected by the peak detection unit is lower than the second threshold value. ,
The data generation means generates sound data indicating the occurrence of the sound selected by the sound selection means when the sound generation determination means determines that the peak value detected by the peak detection means exceeds the first threshold value. The sound control device according to claim 1 or 2 , wherein when the sound generation determination means determines that the peak value detected by the peak detection means is below the second threshold value, sound data indicating mute of the sound is generated. .
複数の音の何れかを前記音韻指標値に基づいて選択する音選択処理と、
前記入力音声のピーク値を検出するピーク検出処理と、
前記音韻指標値に応じて閾値を可変に設定する閾値設定処理と、
前記ピーク値が前記閾値を上回るか否かを判定する発音判定処理と、
前記ピーク値が前記閾値を上回ると前記発音判定処理で判定した場合に、前記音選択処理で選択した音の発生を示す音データを生成するデータ生成処理と
をコンピュータに実行させるプログラム。 An index calculation process for calculating a phoneme index value that changes according to the phoneme of the input speech based on the intensity of a component of a specific band of the input speech;
A sound selection process for selecting one of a plurality of sounds based on the phonological index value;
A peak detection process for detecting a peak value of the input voice;
A threshold setting process for variably setting a threshold according to the phoneme index value;
Pronunciation determination processing for determining whether or not the peak value exceeds the threshold;
A program for causing a computer to execute a data generation process for generating sound data indicating the generation of a sound selected in the sound selection process when it is determined in the sound generation determination process that the peak value exceeds the threshold value .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007275173A JP5082760B2 (en) | 2007-10-23 | 2007-10-23 | Sound control apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007275173A JP5082760B2 (en) | 2007-10-23 | 2007-10-23 | Sound control apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009103893A JP2009103893A (en) | 2009-05-14 |
JP5082760B2 true JP5082760B2 (en) | 2012-11-28 |
Family
ID=40705639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007275173A Expired - Fee Related JP5082760B2 (en) | 2007-10-23 | 2007-10-23 | Sound control apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5082760B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018173295A1 (en) | 2017-03-24 | 2018-09-27 | ヤマハ株式会社 | User interface device, user interface method, and sound operation system |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59192298A (en) * | 1983-04-15 | 1984-10-31 | 松下電工株式会社 | Voice message identification system |
JPH03253900A (en) * | 1990-03-05 | 1991-11-12 | Ricoh Co Ltd | Voice recognition device |
JP2897701B2 (en) * | 1995-11-20 | 1999-05-31 | 日本電気株式会社 | Sound effect search device |
JP2004070027A (en) * | 2002-08-07 | 2004-03-04 | Matsushita Electric Ind Co Ltd | Speech information reproducing device |
-
2007
- 2007-10-23 JP JP2007275173A patent/JP5082760B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009103893A (en) | 2009-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5986199A (en) | Device for acoustic entry of musical data | |
JP5228432B2 (en) | Segment search apparatus and program | |
JP6435644B2 (en) | Electronic musical instrument, pronunciation control method and program | |
Eggink et al. | Instrument recognition in accompanied sonatas and concertos | |
JPWO2009104269A1 (en) | Music discrimination apparatus, music discrimination method, music discrimination program, and recording medium | |
JP6728843B2 (en) | Electronic musical instrument, musical tone generating device, musical tone generating method and program | |
CN108369800B (en) | Sound processing device | |
JP5082760B2 (en) | Sound control apparatus and program | |
JP6565548B2 (en) | Acoustic analyzer | |
JP5292702B2 (en) | Music signal generator and karaoke device | |
JP4514055B2 (en) | Musical sound control device and musical sound control program | |
JP6056799B2 (en) | Program, information processing apparatus, and data generation method | |
JP6565549B2 (en) | Acoustic analyzer | |
JP2017139592A (en) | Acoustic processing method and acoustic processing apparatus | |
JP5034642B2 (en) | Karaoke equipment | |
JP2008209703A (en) | Karaoke machine | |
JP7149218B2 (en) | karaoke device | |
JP5935380B2 (en) | Electronic musical instrument, resonance sound applying method and program | |
JP5805474B2 (en) | Voice evaluation apparatus, voice evaluation method, and program | |
JP4094441B2 (en) | Electronic musical instruments | |
JP5186793B2 (en) | Karaoke equipment | |
JP2010175739A (en) | Electronic metronome and program | |
JP5169297B2 (en) | Sound processing apparatus and program | |
JP5034471B2 (en) | Music signal generator and karaoke device | |
JP2001051680A (en) | Device and method for deciding code and medium recording code deciding method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100820 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120217 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120807 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120820 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5082760 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150914 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |