JP2019126076A - Tone signal control method and display control method - Google Patents

Tone signal control method and display control method Download PDF

Info

Publication number
JP2019126076A
JP2019126076A JP2019041824A JP2019041824A JP2019126076A JP 2019126076 A JP2019126076 A JP 2019126076A JP 2019041824 A JP2019041824 A JP 2019041824A JP 2019041824 A JP2019041824 A JP 2019041824A JP 2019126076 A JP2019126076 A JP 2019126076A
Authority
JP
Japan
Prior art keywords
sound
sound signal
order
data
signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019041824A
Other languages
Japanese (ja)
Other versions
JP6881488B2 (en
Inventor
嘉山 啓
Hiroshi Kayama
啓 嘉山
雅史 吉田
Masashi Yoshida
雅史 吉田
佳孝 浦谷
Yoshitaka Uratani
佳孝 浦谷
森 隆志
Takashi Mori
隆志 森
国本 利文
Toshifumi Kunimoto
利文 国本
近藤 多伸
Kazunobu Kondo
多伸 近藤
隼人 大下
Hayato Oshita
隼人 大下
誠 橘
Makoto Tachibana
橘  誠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2019041824A priority Critical patent/JP6881488B2/en
Publication of JP2019126076A publication Critical patent/JP2019126076A/en
Application granted granted Critical
Publication of JP6881488B2 publication Critical patent/JP6881488B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

To provide a mixing device for mixing a plurality of tone signals while subjecting to appropriate acoustic treatment, without performing a complex operation.SOLUTION: An analysis part 101 sets main voice order in tone signals Ak (k=1-n), on the basis of a sound volume extracted from the plurality of tone signals Ak (k=1-n). The main voice order thus set is associated with the tone signals Ak (k=1-n), and outputted to a generating section 102. The generating section 102 generates control data for controlling sound image localization of the tone signals Ak (k=1-n), according to the main voice order. A synthesis section 103 performs sound image localization processing of the tone signals Ak (k=1-n), according to the control data, and mixes the tone signals Ak (k=1-n) subjected to sound image localization processing.SELECTED DRAWING: Figure 2

Description

本発明は、ミキシング装置等に好適な音信号制御方法および表示制御方法に関する。   The present invention relates to a sound signal control method and display control method suitable for a mixing apparatus or the like.

マイクロホン等を介して入力される複数の音声信号のミキシングを行うミキシング装置が知られている。この種のミキシング装置では、ミキシング結果を放音したときの音響的効果を高めるため、ミキシング対象である各音声信号に対して、音像定位処理等、各種の音響処理を施す場合がある。   There is known a mixing device that mixes a plurality of audio signals input via a microphone or the like. In this type of mixing apparatus, various sound processing such as sound image localization processing may be performed on each sound signal to be mixed in order to enhance the acoustic effect when the mixing result is emitted.

特許第4068069号Patent No. 4068069

ところで、例えば複数人の歌い手の歌唱音声信号のミキシングを行う場合、それらの各歌唱音声信号の状況は時々刻々と変化する。従って、優れた音響的効果を実現するためには、各歌唱音声信号に適用する音響処理の内容を各歌唱音声の状況に応じて臨機応変に切り換えることが求められる。しかしながら、ミキシング装置の操作に慣れた熟練者でないと、そのような切り換え操作を行うことは困難である。   By the way, when mixing the singing voice signal of a plurality of singers, for example, the situation of each of those singing voice signals changes from moment to moment. Therefore, in order to realize an excellent acoustic effect, it is required to switch the contents of the acoustic processing applied to each singing voice signal to be adaptive depending on the situation of each singing voice. However, it is difficult for such a switching operation to be performed unless it is an expert who is used to the operation of the mixing apparatus.

この発明は、以上説明した事情に鑑みてなされたものであり、複雑な操作を行わせることなく、複数の音信号の状況に応じて、各音信号に適切な音響処理を施してミキシングすることができるミキシング装置を提供することを目的としている。   The present invention has been made in view of the circumstances described above, and performs appropriate acoustic processing on each sound signal and mixes them according to the conditions of a plurality of sound signals without performing complicated operations. The purpose is to provide a mixing device that can

この発明は、複数の音信号から特徴量を各々抽出し、抽出した各特徴量に基づき、前記複数の音信号に順位を各々設定する分析部と、前記複数の音信号に適用する音響処理を各々制御するための複数の制御データを前記複数の音信号に設定された順位に基づいて各々生成する生成部とを有することを特徴とするミキシング装置を提供する。   The present invention extracts an amount of feature from each of a plurality of sound signals, and based on the extracted each amount of feature, an analysis unit that sets an order to each of the plurality of sound signals, and acoustic processing applied to the plurality of sound signals. The present invention provides a mixing apparatus including: a generation unit that generates a plurality of control data to be controlled based on the order set in the plurality of sound signals.

かかるミキシング装置によれば、複数の音信号から各々抽出される特徴量が変化すると、これにより各音信号に設定される順位が変化する場合がある。この場合、変化後の各音信号の順位に従って、各音信号に施される音響処理が制御される。従って、時々刻々と変化する複数の音信号の状況に応じて、各音信号に適用する音響処理の内容を制御することができる。   According to the mixing apparatus, when the feature quantities extracted from the plurality of sound signals change, the order set for each sound signal may change. In this case, the sound processing applied to each sound signal is controlled in accordance with the order of each sound signal after the change. Therefore, it is possible to control the content of the acoustic processing applied to each sound signal according to the situation of the plurality of sound signals changing from moment to moment.

なお、ミキシングの際の音響処理の制御を行う技術を開示した文献として、特許文献1がある。この特許文献1では、歌唱者がカラオケに合わせて、ある歌唱パートを歌唱していることをカラオケ装置が認知すると、その歌唱パートとミキシングするバックコーラスパートの再生音量を小さくする。しかし、この発明は、この特許文献1のようにミキシング対象である1つのパートの音声信号の有無に基づいて他のパートの音声信号の音量を制御するものではなく、ミキシング対象である複数の音信号の特徴量に基づいて複数の音信号に順位を設定し、複数の音信号の順位に従って、各音信号に適用する音響処理を制御するものである。このように、本発明は、特許文献1に開示のものとは全く異なる発明である。   In addition, there exists patent document 1 as a document which disclosed the technique which performs control of the sound processing in the case of mixing. In this patent document 1, when the karaoke apparatus recognizes that the singer sings a certain singing part in accordance with karaoke, the reproduction volume of the back chorus part to be mixed with the singing part is reduced. However, this invention does not control the volume of the audio signal of the other part based on the presence or absence of the audio signal of one part which is the mixing object as in this patent document 1, but a plurality of sounds which are the mixing object The order is set to the plurality of sound signals based on the feature amount of the signal, and the sound processing to be applied to each sound signal is controlled according to the order of the plurality of sound signals. Thus, the present invention is an invention completely different from that disclosed in Patent Document 1.

本発明の第1実施形態であるミキシング装置10の構成を示すブロック図である。It is a block diagram showing composition of mixing device 10 which is a 1st embodiment of the present invention. 同実施形態におけるCPU1が実行するミキシング制御プログラム100の構成を説明するための図である。It is a figure for demonstrating the structure of the mixing control program 100 which CPU1 in the embodiment performs. 同ミキシング制御プログラム100の処理内容を示すフローチャートである。It is a flowchart which shows the processing content of the mixing control program 100. 本発明の第2実施形態であるミキシング装置20において、CPU1が実行するミキシング制御プログラム200の構成を説明するための図である。It is a figure for demonstrating the structure of the mixing control program 200 which CPU1 performs in the mixing apparatus 20 which is 2nd Embodiment of this invention. 同ミキシング制御プログラム200の処理内容を示すフローチャートである。5 is a flowchart showing the processing content of the mixing control program 200. FIG.

<第1実施形態>
図1は、この発明の第1実施形態であるミキシング装置10の構成を示すブロック図である。図1に示すミキシング措置10は、CPU1と、ROM2と、RAM3と、表示部4と、操作部5と、データI/O6と、集音器7−k(k=1〜n)と、A/D変換器8−k(k=1〜n)と、D/A変換器9−j(j=1〜m)と、増幅器10−j(j=1〜m)と、拡声器11−j(j=1〜m)により構成される。各々の機器は、バス12を介してデータの入出力を行う。なお、バス12はオーディオバスやデータバス等を総称したものである。
First Embodiment
FIG. 1 is a block diagram showing the configuration of a mixing apparatus 10 according to a first embodiment of the present invention. The mixing device 10 shown in FIG. 1 includes the CPU 1, the ROM 2, the RAM 3, the display unit 4, the operation unit 5, the data I / O 6, the sound collectors 7-k (k = 1 to n), and A / D converter 8-k (k = 1 to n), D / A converter 9-j (j = 1 to m), amplifier 10-j (j = 1 to m), and loudspeaker 11- It comprises j (j = 1 to m). Each device performs data input / output via the bus 12. The bus 12 is a generic term for an audio bus, a data bus and the like.

CPU1は、バス12を介してミキシング装置全体の動作を制御するプロセッサである。ROM2は、ミキシング装置10の基本的な動作を制御するためにCPU1が実行するプログラム(以下、ミキシング制御プログラムという)を記憶した読み出し専用メモリである。RAM3は、CPU1によってワークエリアとして利用される揮発性メモリである。表示部4は、例えば液晶ディスプレイとその駆動回路であり、CPU1からバス12を介して与えられた表示制御信号に基づいて各種画面を表示する。操作部5は、利用者に各種情報を入力させるための手段であり、複数の操作子やタッチパネル等で構成されている。データI/O6は、MIDI(Musical Instruments Digital Interface:登録商標)形式の演奏データやオーディオ形式の波形データを外部から受け取り、音信号として出力するインターフェースである。集音器7−k(k=1〜n)はn個のマイクロホン等により構成され、入力される歌唱者の歌声等をアナログの電気信号に変換してA/D変換器8−k(k=1〜n)に出力する。A/D変換器8−k(k=1〜n)は、集音器7−k(k=1〜n)から出力される各アナログ音信号をデジタル音信号Ak(k=1〜n)に変換する。D/A変換器9−j(j=1〜m)は、ミキシング処理の結果得られるデジタル音信号Bj(j=1〜m)をアナログ音信号に変換する。増幅器10−j(j=1〜m)は、D/A変換器9−j(j=1〜m)から出力されたアナログ音信号を増幅する。拡声器11−j(j=1〜m)は、増幅器10−j(j=1〜m)から出力されるアナログ音信号を音として放音する。   The CPU 1 is a processor that controls the operation of the entire mixing apparatus via the bus 12. The ROM 2 is a read only memory storing a program (hereinafter, referred to as a mixing control program) executed by the CPU 1 to control the basic operation of the mixing apparatus 10. The RAM 3 is a volatile memory used by the CPU 1 as a work area. The display unit 4 is, for example, a liquid crystal display and a drive circuit thereof, and displays various screens based on a display control signal supplied from the CPU 1 through the bus 12. The operation unit 5 is a means for causing the user to input various information, and is configured by a plurality of operators and a touch panel. The data I / O 6 is an interface that externally receives performance data in the MIDI (Musical Instruments Digital Interface (registered trademark)) format and waveform data in the audio format, and outputs it as a sound signal. The sound collector 7-k (k = 1 to n) is composed of n microphones etc., and converts the singing voice etc. of the input singer into an analog electric signal and converts it into an A / D converter 8-k (k Output to = 1 to n). The A / D converter 8-k (k = 1 to n) converts each analog sound signal output from the sound collector 7-k (k = 1 to n) into a digital sound signal Ak (k = 1 to n) Convert to The D / A converter 9-j (j = 1 to m) converts the digital sound signal Bj (j = 1 to m) obtained as a result of the mixing process into an analog sound signal. The amplifier 10-j (j = 1 to m) amplifies an analog sound signal output from the D / A converter 9-j (j = 1 to m). The loudspeakers 11-j (j = 1 to m) emit an analog sound signal output from the amplifier 10-j (j = 1 to m) as a sound.

図2は、本実施形態におけるCPU1が実行するミキシング制御プログラム100の構成を説明するための図である。ミキシング制御プログラム100は、分析部101と、生成部102と、合成部103とを含んでいる。分析部101は、逐次入力される音信号Ak(k=1〜n)から特徴量を抽出し、抽出した特徴量に基づき、順位(以下、主音声順位という)を音信号Ak(k=1〜n)に設定する。そして、設定した主音声順位を音信号Ak(k=1〜n)に対応付け、これを分析データとして生成部102に出力する。本実施形態では、分析部101は、特徴量として音量を音信号Ak(k=1〜n)から抽出する。   FIG. 2 is a diagram for explaining the configuration of the mixing control program 100 executed by the CPU 1 in the present embodiment. The mixing control program 100 includes an analysis unit 101, a generation unit 102, and a synthesis unit 103. The analysis unit 101 extracts feature quantities from the sound signals Ak (k = 1 to n) sequentially input, and based on the extracted feature quantities, the order (hereinafter referred to as the main speech order) is a sound signal Ak (k = 1). Set to n). Then, the set main voice order is associated with the sound signal Ak (k = 1 to n), and this is output to the generation unit 102 as analysis data. In the present embodiment, the analysis unit 101 extracts the volume as the feature amount from the sound signal Ak (k = 1 to n).

生成部102は、分析データを受け取ると、音信号Ak(k=1〜n)に設定された主音声順位に従い、音信号Ak(k=1〜n)に適用する音響処理を制御するための制御データを生成する。本実施形態では、音響処理として、音信号Ak(k=1〜n)に対して音像定位処理を施す。そこで、生成部102は、音信号Ak(k=1〜n)に設定された主音声順位に従って、音信号Ak(k=1〜n)の音像定位処理に適用する音像位置を選択し、音信号Ak(k=1〜n)に対応した音像をこれらの選択した音像位置に定位させるための制御データを生成する。例えば、分析部101に音信号A1〜A3が入力され、音信号A1の主音声順位が第3位、音信号A2の主音声順位が第2位、音信号A3の主音声順位が第1位であったとする。この場合、生成部102は、主音声順位が第1位である音信号A3の音像を最も優遇された位置であるセンタに、主音声順位が第2位である音信号A2の音像をその次に優遇された位置である左に、主音声順位が第3位である音信号A1の音像を最も優遇されていない位置である右に定位させるための制御データを生成し、合成部103に出力する。なお、生成部102が選択する音像位置は任意であり、上記例において、主音声順位が第1位である音信号A3の音像を左に、主音声順位が第2位である音信号A2の音像を右に、主音声順位が第3位である音信号A1の音像をセンタに定位させる等、種々のパターンが考えられる。   When receiving the analysis data, the generation unit 102 controls acoustic processing to be applied to the sound signal Ak (k = 1 to n) in accordance with the main audio order set to the sound signal Ak (k = 1 to n). Generate control data. In the present embodiment, sound image localization processing is performed on the sound signal Ak (k = 1 to n) as sound processing. Therefore, the generation unit 102 selects a sound image position to be applied to the sound image localization process of the sound signal Ak (k = 1 to n) in accordance with the main sound order set to the sound signal Ak (k = 1 to n). Control data for localizing sound images corresponding to the signals Ak (k = 1 to n) at these selected sound image positions is generated. For example, the sound signals A1 to A3 are input to the analysis unit 101, the main sound order of the sound signal A1 is third, the main sound order of the sound signal A2 is second, and the main sound order of the sound signal A3 is first. It is assumed that In this case, the generation unit 102 places the sound image of the sound signal A2 having the second main speech order next to the center at the position where the sound image of the sound signal A3 having the first main speech order is most favored. The control data for localizing the sound image of the sound signal A1 whose third main audio order is third to the right, which is the least preferential position, is generated on the left, which is a position favored by Do. Note that the sound image position selected by the generation unit 102 is arbitrary, and in the above example, the sound image of the sound signal A3 having the first main sound order is left with the sound signal A2 having the second main sound order. Various patterns can be considered, such as localizing the sound image of the sound signal A1 whose sound image is on the right and the main sound order is third, to the center.

合成部103は、生成部102から制御データを受け取ると、制御データに従って、音信号Ak(k=1〜n)に音響処理(この例では音像定位処理)を施すとともに、音響処理の結果である音信号をミキシングする。   When the synthesis unit 103 receives control data from the generation unit 102, the synthesis unit 103 performs acoustic processing (sound image localization processing in this example) on the sound signal Ak (k = 1 to n) according to the control data, and is a result of the acoustic processing. Mix sound signals.

図3は、本実施形態におけるミキシング制御プログラム100の処理内容を示すフローチャートである。以下、図3を参照し、本実施形態の動作を説明する。複数の歌唱者が歌唱すると、複数の歌唱者の音信号が、集音器7−k(k=1〜n)を介してA/D変換器8−k(k=1〜n)に入力される。そして、A/D変換器8−k(k=1〜n)によりA/D変換された音信号Ak(k=1〜n)は、分析部101および合成部103に入力される。   FIG. 3 is a flowchart showing the processing content of the mixing control program 100 in the present embodiment. The operation of the present embodiment will be described below with reference to FIG. When a plurality of singers sing, the sound signals of the plurality of singers are input to the A / D converter 8-k (k = 1 to n) via the sound collector 7-k (k = 1 to n) Be done. Then, the sound signal Ak (k = 1 to n) subjected to A / D conversion by the A / D converter 8-k (k = 1 to n) is input to the analysis unit 101 and the synthesis unit 103.

分析部101は、音信号Ak(k=1〜n)を受け取ると、以下のような算出手順で、音信号Ak(k=1〜n)から特徴量として音量(音信号Ak(k=1〜n)の振幅値)を抽出し、抽出した音量を基に音信号Ak(k=1〜n)に主音声順位を設定する(ステップSA1)。   When receiving the sound signal Ak (k = 1 to n), the analysis unit 101 calculates the volume (sound signal Ak (k = 1) as the feature amount from the sound signal Ak (k = 1 to n) according to the following calculation procedure. An amplitude value of .about.n) is extracted, and based on the extracted sound volume, the main voice order is set to the sound signal Ak (k = 1 to n) (step SA1).

まず、分析部101は、A/D変換器8−k(k=1〜n)から音信号Ak(k=1〜n)が逐次入力されると、所定の時間単位における音信号Ak(k=1〜n)の振幅値を抽出し、振幅エンベロープを算出する。ここで、設定する時間単位は、所定の一定値や、歌唱者が歌う楽曲の1曲全体の再生時間または1番のみの再生時間等としてもよい。また、VAD(Voice Activity Detection)や、VADとhangover処理を併用した処理等により時間単位を設定してもよい。   First, when the sound signal Ak (k = 1 to n) is sequentially input from the A / D converter 8-k (k = 1 to n), the analysis unit 101 generates the sound signal Ak (k) in a predetermined time unit. The amplitude value of 1 to n) is extracted, and the amplitude envelope is calculated. Here, the time unit to be set may be a predetermined constant value, the reproduction time of the entire one song of the song sung by the singer, the reproduction time of only the first, or the like. Also, the time unit may be set by voice activity detection (VAD), processing using VAD and hangover processing in combination, or the like.

次に、分析部101は、算出した音信号Ak(k=1〜n)の振幅エンベロープを平滑化し、振幅エンベロープ波形に重畳されたノイズを除去する。次に、分析部101は、音信号Ak(k=1〜n)の振幅エンベロープのうち、最大の振幅値を有する振幅エンベロープを特定する。そして、振幅エンベロープの最大振幅値によって、音信号Ak(k=1〜n)の振幅エンベロープを除算し正規化する。ここで、正規化した振幅エンベロープが、予め定められた所定の閾値に満たない振幅値を含む場合、その振幅値に対応する区間において音信号Ak(k=1〜n)が入力されていないものとする。   Next, the analysis unit 101 smoothes the amplitude envelope of the calculated sound signal Ak (k = 1 to n) and removes noise superimposed on the amplitude envelope waveform. Next, the analysis unit 101 specifies an amplitude envelope having the largest amplitude value among the amplitude envelopes of the sound signal Ak (k = 1 to n). Then, the amplitude envelope of the sound signal Ak (k = 1 to n) is divided and normalized by the maximum amplitude value of the amplitude envelope. Here, when the normalized amplitude envelope includes an amplitude value that does not satisfy a predetermined threshold, the sound signal Ak (k = 1 to n) is not input in a section corresponding to the amplitude value. I assume.

次に、分析部101は、正規化された音信号Ak(k=1〜n)の振幅エンベロープを各々比較し、振幅エンベロープ値の大きな順に主音声順位を与える。すなわち、分析部101は、音信号Ak(k=1〜n)のうち、振幅エンベロープ値が最大のものの主音声順位を第1位、次に大きい振幅エンベロープ値を有する音信号の主音声順位を第2位、…、最も小さな振幅エンベロープ値を有する音信号の主音声順位を第n位とする。従って、最も大きな声で歌う歌唱者の音信号は、複数の歌唱者の歌声の中で最も存在感が大きいため、主音声順位が第1位となる。一方、最も小さな声で歌う歌唱者の音信号は、複数の歌唱者の音声の中で最も存在感が小さいため、主音声順位が第n位(最下位)となる。分析部101は、音信号Ak(k=1〜n)に主音声順位を設定すると、これを音信号Ak(k=1〜n)に対応付け、分析データとして生成部102に出力する(ステップSA2)。   Next, the analysis unit 101 compares the amplitude envelopes of the normalized sound signal Ak (k = 1 to n) with one another, and gives the main speech order in descending order of the amplitude envelope value. That is, the analysis unit 101 determines, among the sound signals Ak (k = 1 to n), the main sound order of the one having the largest amplitude envelope value and the main sound order of the sound signal having the second largest amplitude envelope value. Second,..., The main speech order of the sound signal having the smallest amplitude envelope value is the nth. Therefore, since the sound signal of the singer who sings the loudest voice has the largest presence among the singing voices of the plurality of singers, the main voice ranks first. On the other hand, since the sound signal of the singer who sings with the smallest voice has the smallest presence among the voices of the plurality of singers, the main voice rank is the nth (bottom). Analysis unit 101 sets the main audio order to sound signal Ak (k = 1 to n), associates it with sound signal Ak (k = 1 to n), and outputs it as analysis data to generation unit 102 (step SA2).

生成部102は、分析部101から分析データを受け取ると、これを基に音信号Ak(k=1〜n)の音像定位処理の制御データを設定する(ステップSA3)。より具体的には、生成部102は、分析データを参照して、例えば最も主音声順位が高い音信号については、音像をセンタに定位させる制御データを設定する。一方、最も主音声順位が低い音信号については、音像を例えば右に定位させる制御データを設定する。生成部102は、音信号Ak(k=1〜n)について各々設定した音像定位処理の制御データを合成部103に出力する。   When receiving the analysis data from the analysis unit 101, the generation unit 102 sets control data for sound image localization processing of the sound signal Ak (k = 1 to n) based on the analysis data (step SA3). More specifically, the generation unit 102 sets control data for localizing the sound image to the center with reference to the analysis data, for example, for the sound signal with the highest main sound order. On the other hand, for the sound signal with the lowest main sound order, control data for localizing the sound image to the right, for example, is set. The generation unit 102 outputs control data of sound image localization processing set for each of the sound signals Ak (k = 1 to n) to the synthesis unit 103.

合成部103は、生成部102から制御データを受け取ると、制御データに従って音信号Ak(k=1〜n)に音像定位処理を施す(ステップSA4)。そして、音像定位処理が施された音信号Ak(k=1〜n)をミキシングし、D/A変換器9−j(j=1〜m)にミキシング結果である音信号Bj(j=1〜m)を出力する(ステップSA5)。ステップSA5の処理が完了すると、ステップSA1に戻り、以上説明したステップSA1〜SA5の処理を繰り返す。   When receiving the control data from the generation unit 102, the synthesis unit 103 performs sound image localization processing on the sound signal Ak (k = 1 to n) according to the control data (step SA4). Then, the sound signals Ak (k = 1 to n) subjected to the sound image localization process are mixed, and sound signals Bj (j = 1) which are the mixing result to the D / A converter 9-j (j = 1 to m). .About.m) are output (step SA5). When the process of step SA5 is completed, the process returns to step SA1 and repeats the processes of steps SA1 to SA5 described above.

D/A変換器9−j(j=1〜m)は、ミキシング結果である音信号Bj(j=1〜m)をアナログ音信号に変換し、拡声器11−j(j=1〜m)に出力する。拡声器11−j(j=1〜m)は、D/A変換器9−k(k=1〜n)からのアナログ音信号をm個のスピーカから音として放音する。この結果、音信号Ak(k=1〜n)が、制御データにより定まる位置に音像の定位した音としてリスナに聴取される。   The D / A converter 9-j (j = 1 to m) converts the sound signal Bj (j = 1 to m) as the mixing result into an analog sound signal, and the loudspeakers 11-j (j = 1 to m) Output to). The loudspeakers 11-j (j = 1 to m) emit analog sound signals from the D / A converter 9-k (k = 1 to n) as sound from m speakers. As a result, the sound signal Ak (k = 1 to n) is heard by the listener as a sound whose sound image is localized at a position determined by the control data.

本実施形態では、複数の音信号Ak(k=1〜n)に設定された主音声順位に従って、音信号Ak(k=1〜n)の音像定位処理の制御データを設定する。そして、制御データにより定まる位置に音像が定位した音をリスナに聴取させる。従って、本実施形態によると、ユーザは複雑な操作を一切行わずに、複数の音信号Ak(k=1〜n)の状況(この場合、音量の大小関係)に応じて、音信号Ak(k=1〜n)に適用する定位を適切に切り換えることができる。   In the present embodiment, control data of sound image localization processing of the sound signal Ak (k = 1 to n) is set according to the main sound order set to the plurality of sound signals Ak (k = 1 to n). Then, the listener is made to listen to the sound whose sound image is localized at the position determined by the control data. Therefore, according to the present embodiment, the user does not perform any complicated operation, and the sound signal Ak (in this case, the magnitude relationship of the volume) of the plurality of sound signals Ak (k = 1 to n) is generated. It is possible to appropriately switch the localization applied to k = 1 to n).

また、本実施形態では、音量の大きさに応じて音信号Ak(k=1〜n)に主音声順位を設定し、主音声順位が最も大きい音信号Ak(k=1〜n)はセンタに、主音声順位が最も小さい音信号Ak(k=1〜n)は左右に定位するように音像定位処理の制御データを設定する。従って、本実施形態によると、歌唱者に自分の歌声をセンタに定位させるために、大きな声で歌唱する動機づけを行わせることができる。   Further, in the present embodiment, the main audio order is set to the sound signal Ak (k = 1 to n) according to the volume level, and the sound signal Ak (k = 1 to n) having the largest main audio order is the center. The control data of the sound image localization process is set so that the sound signal Ak (k = 1 to n) with the smallest main sound order is localized to the left and right. Therefore, according to the present embodiment, it is possible to cause a singer to perform a motivation to sing in a loud voice in order to localize his / her singing voice at the center.

<第2実施形態>
図4は、この発明の第2実施形態であるミキシング装置20において、CPU1が実行するミキシング制御プログラム200の構成を説明するための図である。ミキシング制御プログラム200は、分析部201と、生成部202と、合成部203と、UI(User Interface)204とを含んでいる。本実施形態におけるミキシング制御プログラム200は、歌唱者の歌声等が録音されたオーディオ形式の波形データを再生して得られる音信号Ak(k=1〜n)にミキシング処理を行う。すなわち、本実施形態に示すミキシング装置20は、第1実施形態に示したように、リアルタイムに入力される複数の音信号Ak(k=1〜n)をミキシングする処理に加えて、録音された複数の音声データ等をミキシングする処理を行う。ミキシング制御プログラム200は、第1実施形態に示すミキシング制御プログラム100に、UI204を含めた構成となっている。UI204は、ユーザの操作により、分析部201、生成部202および合成部203に操作コマンドを送信する。
Second Embodiment
FIG. 4 is a diagram for explaining the configuration of the mixing control program 200 executed by the CPU 1 in the mixing apparatus 20 according to the second embodiment of the present invention. The mixing control program 200 includes an analysis unit 201, a generation unit 202, a synthesis unit 203, and a UI (User Interface) 204. The mixing control program 200 in this embodiment performs mixing processing on sound signals Ak (k = 1 to n) obtained by reproducing waveform data in an audio format in which a singing voice of a singer is recorded. That is, as described in the first embodiment, the mixing apparatus 20 shown in the present embodiment is recorded in addition to the process of mixing the plurality of sound signals Ak (k = 1 to n) input in real time. A process of mixing a plurality of audio data etc. is performed. The mixing control program 200 has a configuration in which the UI 204 is included in the mixing control program 100 shown in the first embodiment. The UI 204 transmits an operation command to the analysis unit 201, the generation unit 202, and the combining unit 203 according to the operation of the user.

本実施形態では、分析部201は、音信号Ak(k=1〜n)から特徴量として音量を抽出するだけでなく、音色、定位、音高、歌声の継続時間等の種々の特徴量を抽出する。また、生成部202は、音信号Ak(k=1〜n)の音像定位処理の制御データを設定するだけでなく、音高、音量、音色等の種々の音響効果の制御データを設定する。合成部203は、音信号Ak(k=1〜n)の音像定位処理を制御するだけでなく、音高、音量、音色の制御等の種々の音響処理を音信号Ak(k=1〜n)に施す。   In the present embodiment, the analysis unit 201 not only extracts the volume as the feature amount from the sound signal Ak (k = 1 to n), but also various feature amounts such as timbre, localization, pitch, and duration of singing voice. Extract. The generation unit 202 not only sets control data of sound image localization processing of the sound signal Ak (k = 1 to n), but also sets control data of various sound effects such as pitch, volume and timbre. The synthesis unit 203 not only controls sound image localization processing of the sound signal Ak (k = 1 to n), but also performs various sound processing such as control of pitch, volume, timbre, etc. to the sound signal Ak (k = 1 to n). Apply to).

図5は、本実施形態におけるミキシング制御プログラム200の処理内容を示すフローチャートである。以下、図5を参照し、本実施形態の動作を説明する。CPU1の指示により、データI/O6に格納されたオーディオ形式の波形データが再生されると、複数の音信号Ak(k=1〜n)が分析部201に入力される。   FIG. 5 is a flowchart showing the processing content of the mixing control program 200 in the present embodiment. The operation of the present embodiment will be described below with reference to FIG. When waveform data in the audio format stored in the data I / O 6 is reproduced according to an instruction from the CPU 1, a plurality of sound signals Ak (k = 1 to n) are input to the analysis unit 201.

分析部201は、音信号Ak(k=1〜n)を受け取ると、音信号Ak(k=1〜n)から種々の特徴量を抽出する(ステップSB1)。より具体的には、分析部201は、音色、定位、音高、歌声の継続時間等の種々の特徴量のうち1または複数の特徴量を抽出する。ここで、分析部201が抽出する特徴量は、ユーザからの指示により選択される。すなわち、ユーザはUI204を介して、抽出すべき特徴量に対応する操作コマンドを分析部201に送信する。これを受け、分析部201は、ユーザから指定された1または複数の特徴量を音信号Ak(k=1〜n)から抽出する。   When receiving the sound signal Ak (k = 1 to n), the analysis unit 201 extracts various feature amounts from the sound signal Ak (k = 1 to n) (step SB1). More specifically, the analysis unit 201 extracts one or more feature amounts from various feature amounts such as timbre, localization, pitch, and duration of singing voice. Here, the feature quantities extracted by the analysis unit 201 are selected by an instruction from the user. That is, the user transmits an operation command corresponding to the feature amount to be extracted to the analysis unit 201 via the UI 204. In response to this, the analysis unit 201 extracts one or more feature amounts designated by the user from the sound signal Ak (k = 1 to n).

分析部201は、音信号Ak(k=1〜n)から1または複数の特徴量を抽出すると、音信号Ak(k=1〜n)の主音声順位を設定する。ここで、抽出した特徴量が複数ある場合、分析部201は複数の特徴量について設定された主音声順位を重みづけ加算して統合する。例えば、特徴量として音量と音色が抽出された場合、音量の主音声順位と音色の主音声順位とに重みを与え、音信号Ak(k=1〜n)の主音声順位を重みづけ加算により算出する。そして、重みづけ加算された主音声順位を最終的な主音声順位とする。分析部201は、算出された主音声順位を音信号Ak(k=1〜n)に対応付け、分析データとして生成部202に出力する(ステップSB2)。なお、重みはユーザがUI204を介して、操作コマンドを分析部201に送信することにより指定される。   When the analysis unit 201 extracts one or a plurality of feature amounts from the sound signal Ak (k = 1 to n), the analysis unit 201 sets a main audio order of the sound signal Ak (k = 1 to n). Here, when there are a plurality of extracted feature quantities, the analysis unit 201 performs weighted addition on the main speech order set for the plurality of feature quantities and integrates them. For example, when the volume and the timbre are extracted as feature quantities, weights are given to the main voice order of the volume and the main voice order of the timbre, and the main voice orders of the sound signal Ak (k = 1 to n) are weighted and added. calculate. Then, the weighted and added main speech order is taken as the final main speech order. The analysis unit 201 associates the calculated main speech order with the sound signal Ak (k = 1 to n), and outputs the result as analysis data to the generation unit 202 (step SB2). The weight is designated by the user transmitting an operation command to the analysis unit 201 via the UI 204.

生成部202は、音信号Ak(k=1〜n)に設定された主音声順位に従い、音信号Ak(k=1〜n)に施す種々の音響処理の制御データを設定する。ここで、生成部202は、定位、音量、音色の制御等の種々の音響処理のうち1または複数の音響処理の制御データを設定する(ステップSB3)。   The generation unit 202 sets control data of various acoustic processes to be applied to the sound signal Ak (k = 1 to n) in accordance with the main audio order set to the sound signal Ak (k = 1 to n). Here, the generation unit 202 sets control data of one or more acoustic processes among various acoustic processes such as localization, volume control, and timbre control (step SB3).

例えば、音響処理として音量を制御する場合、生成部202は、最も主音声順位が高い音信号Ak(k=1〜n)の音量が最大となるように、音量の制御データを設定する。また、最も主音声順位が低い音信号Ak(k=1〜n)の音量が最小となるように、音量の制御データを設定する。   For example, when controlling the sound volume as sound processing, the generation unit 202 sets the control data of the sound volume such that the sound volume of the sound signal Ak (k = 1 to n) having the highest main audio rank is maximum. Further, the control data of the sound volume is set such that the sound volume of the sound signal Ak (k = 1 to n) having the lowest main audio order is minimized.

また、音響処理として音色を制御する場合、生成部202は、最も主音声順位が高い音信号Ak(k=1〜n)の、高音領域における音圧レベルが強調されるように、イコライザの制御データを設定する。また、最も主音声順位が高い音信号Ak(k=1〜n)の音声周波数帯域における音圧レベルが強調されるように、イコライザの制御データを設定してもよい。   In addition, when controlling the timbre as the sound processing, the generation unit 202 controls the equalizer so that the sound pressure level in the high sound area of the sound signal Ak (k = 1 to n) having the highest main sound order is emphasized. Set the data. The control data of the equalizer may be set so that the sound pressure level in the sound frequency band of the sound signal Ak (k = 1 to n) having the highest main sound order is emphasized.

音信号Ak(k=1〜n)に施す音響処理は、ユーザからの指示により選択される。すなわち、ユーザはUI204を介して、所望の音響処理を指定する操作コマンドを生成部202に送信する。これを受け、生成部202は、ユーザから指定された1または複数の音響処理の制御データを設定する。生成部202は、音信号Ak(k=1〜n)に施す音響処理の制御データを合成部203に送信する。   The sound processing to be applied to the sound signal Ak (k = 1 to n) is selected by an instruction from the user. That is, the user transmits an operation command specifying a desired sound process to the generation unit 202 via the UI 204. In response to this, the generation unit 202 sets control data of one or more sound processing designated by the user. The generation unit 202 transmits control data of acoustic processing to be applied to the sound signal Ak (k = 1 to n) to the synthesis unit 203.

合成部203は、生成部202から制御データを受け取ると、制御データに従って音信号Ak(k=1〜n)に音響処理を施す(ステップSB4)。そして、音響処理が施された音信号をミキシングし、ミキシング結果である音信号Bj(j=1〜m)をデータI/O6に出力する(ステップSB5)。ステップSB5の処理が完了すると、ステップSB1に戻り、以上説明したステップSB1〜SB5の処理を繰り返す。データI/O6は、音信号Bj(j=1〜m)を受け取ると、オーディオ形式の波形データとして図示しないメモリに格納する。   When receiving the control data from the generation unit 202, the synthesis unit 203 performs acoustic processing on the sound signal Ak (k = 1 to n) according to the control data (step SB4). Then, the sound signal subjected to the sound processing is mixed, and the sound signal Bj (j = 1 to m) as the mixing result is output to the data I / O 6 (step SB5). When the process of step SB5 is completed, the process returns to step SB1 and repeats the processes of steps SB1 to SB5 described above. When the data I / O 6 receives the sound signal Bj (j = 1 to m), the data I / O 6 is stored as audio waveform data in a memory (not shown).

本実施形態では、複数の音信号Ak(k=1〜n)から抽出された1または複数の特徴量に基づき、音信号Ak(k=1〜n)の主音声順位が設定される。そして、この主音声順位に従い、音信号Ak(k=1〜n)に1または複数の音響効果が付与される。従って、本実施形態によると、音信号Ak(k=1〜n)の種々の特徴を考慮したバリエーション豊かな音響処理を音信号Ak(k=1〜n)に施すことができる。   In the present embodiment, the main audio order of the sound signal Ak (k = 1 to n) is set based on one or a plurality of feature quantities extracted from the plurality of sound signals Ak (k = 1 to n). Then, one or more acoustic effects are given to the sound signal Ak (k = 1 to n) according to the order of the main sound. Therefore, according to the present embodiment, it is possible to apply to the sound signal Ak (k = 1 to n) acoustic processing that is rich in variation in consideration of various features of the sound signal Ak (k = 1 to n).

本実施形態では、オーディオ形式の波形データを再生して得られる音信号Ak(k=1〜n)に音響処理を施してミキシングする。従って、歌唱者は、自分の歌声等を録音して動画投稿サイトに投稿する場合に、複雑な操作を伴わずに歌声等に音響処理を施して、その歌声等をミキシングすることができる。   In the present embodiment, sound processing is performed on the sound signals Ak (k = 1 to n) obtained by reproducing waveform data in the audio format and mixing is performed. Therefore, when the singer records his / her singing voice etc. and posts it on the moving picture posting site, the singing voice etc. can be subjected to sound processing and mixed with the singing voice etc without complicated operation.

また、本実施形態によると、合成部203に音信号Ak(k=1〜n)の音像定位処理の制御を行わせることにより、最も上手に歌う歌唱者の歌声をセンタに定位させ、上手に歌うことができない歌唱者の歌声を左右に定位させることができる。従って、歌唱者に自分の歌声の音像をセンタに定位させるために、歌唱力を向上させようとする動機づけを行わせることができる。   Further, according to the present embodiment, by causing the synthesis unit 203 to control the sound image localization processing of the sound signal Ak (k = 1 to n), the singing voice of the singer who sings the best can be localized at the center, Singers who can not sing can be localized left and right. Therefore, it is possible to make the singer motivate to improve the singing ability in order to localize the sound image of his singing voice at the center.

<他の実施形態>
以上、この発明の各種の実施形態について説明したが、この発明には他にも実施形態が考えられる。
Other Embodiments
Although the various embodiments of the present invention have been described above, other embodiments can be considered in the present invention.

(1)第1実施形態において、合成部103は、制御データに従い音信号Ak(k=1〜n)に音像定位処理の制御を施すことにより、音像を水平方向の所定の位置に定位させた。しかし、音像が垂直方向の所定の位置に定位するように、生成部102に制御データを生成させてもよい。 (1) In the first embodiment, the synthesizer 103 localizes the sound image at a predetermined position in the horizontal direction by performing control of sound image localization processing on the sound signal Ak (k = 1 to n) according to the control data. . However, the control data may be generated by the generation unit 102 so that the sound image is localized at a predetermined position in the vertical direction.

(2)第2実施形態において、分析部201は、オーディオ形式の波形データの全再生区間において音信号Ak(k=1〜n)から特徴量を抽出し、音信号Ak(k=1〜n)に主音声順位を設定してもよい。また、生成部202は、この主音声順位に従い、音信号Ak(k=1〜n)に付与する音響効果の制御データを設定してもよい。さらに、合成部203は、この制御データに基づき、音信号Ak(k=1〜n)に音響処理を施してもよい。これにより、音信号Ak(k=1〜n)全体の音楽的な特徴を考慮した音響処理を音信号Ak(k=1〜n)に施すことができる。 (2) In the second embodiment, the analysis unit 201 extracts the feature amount from the sound signal Ak (k = 1 to n) in the entire reproduction interval of the waveform data in the audio format, and the sound signal Ak (k = 1 to n). The main voice order may be set to Further, the generation unit 202 may set control data of sound effects to be applied to the sound signals Ak (k = 1 to n) according to the order of the main sound. Furthermore, the synthesizing unit 203 may perform acoustic processing on the sound signal Ak (k = 1 to n) based on the control data. Thereby, sound processing in consideration of musical features of the entire sound signal Ak (k = 1 to n) can be performed on the sound signal Ak (k = 1 to n).

(3)第2実施形態において、分析部201は、音信号Ak(k=1〜n)から抽出した特徴量と模範データから抽出した特徴量との類似性に基づき、音信号Ak(k=1〜n)の主音声順位を決定してもよい。ここで、模範データとは、例えば、模範ボーカルや模範コーラスの歌声、MIDI形式の演奏データ、楽譜データ等のことをいう。模範ボーカルや模範コーラスから抽出する特徴量は、音量、音高、歌声の継続時間等の種々の特徴量のうち1または複数の特徴量であってもよい。この場合、分析部201が抽出する特徴量は、ユーザがUI204を介して所定の操作コマンドを送信することにより指定される。分析部201は、音信号Ak(k=1〜n)から抽出した特徴量と模範データから抽出した特徴量との類似性が最も高い音信号の主音声順位を第1位とし、最も低い音信号の主音声順位を第n位とする。 (3) In the second embodiment, based on the similarity between the feature extracted from the sound signal Ak (k = 1 to n) and the feature extracted from the model data, the analysis unit 201 generates the sound signal Ak (k = k). 1 to n) may be determined. Here, model data means, for example, model vocals, singing voices of model chorus, performance data of MIDI format, music score data and the like. The feature quantities extracted from the model vocals or the model chorus may be one or more feature quantities among various feature quantities such as volume, pitch, and duration of singing voice. In this case, the feature amount extracted by the analysis unit 201 is designated by the user transmitting a predetermined operation command via the UI 204. The analysis unit 201 determines that the main voice rank of the sound signal having the highest similarity between the feature extracted from the sound signal Ak (k = 1 to n) and the feature extracted from the model data is the first, and the sound is the lowest. The main speech order of the signal is the nth.

(4)第2実施形態において、合成部203は、模範データから抽出した特徴量をリファレンスとして、音信号Ak(k=1〜n)の特徴量を補正してもよい。ここで、模範データとは、例えば、MIDI形式の演奏データや模範ボーカルの歌声等のことをいう。例えば、合成部203は、ある演奏区間において、分析部201がMIDI形式の演奏データから取得したピッチカーブデータをリファレンスとして、当該演奏区間における音信号Ak(k=1〜n)のピッチカーブを補正する。また、合成部203は、ある演奏区間において分析部201がMIDI形式の演奏データから取得したベロシティ(音の強弱)データをリファレンスとして、当該演奏区間における音信号Ak(k=1〜n)のアーティキュレーション(例えば、音量・音韻遷移時間)を補正する。また、合成部203は、ある演奏区間において分析部201がMIDI形式の演奏データから取得したビブラート(例えば、音高変化、音量変化)データをリファレンスとして、当該演奏区間における音信号Ak(k=1〜n)のビブラートを補正する。模範データから取得する特徴量は、ユーザがUI204を介して所定の操作コマンドを送信することにより設定される。 (4) In the second embodiment, the synthesizing unit 203 may correct the feature quantities of the sound signal Ak (k = 1 to n) using the feature quantities extracted from the model data as a reference. Here, model data means, for example, performance data of MIDI format, singing voice of model vocals, and the like. For example, the synthesis unit 203 corrects the pitch curve of the sound signal Ak (k = 1 to n) in the performance section with the pitch curve data acquired from the performance data of the MIDI format as a reference in a certain performance section. Do. In addition, the synthesis unit 203 uses artefacts of the sound signal Ak (k = 1 to n) in the performance section with reference to velocity (sound strength) data acquired from the performance data of the MIDI format by the analysis section 201 in a certain performance section. Correct curation (for example, volume and phonetic transition time). In addition, the synthesis unit 203 uses the vibrato (for example, pitch change, volume change) data acquired by the analysis unit 201 from MIDI performance data in a certain performance section as a reference, and uses the sound signal Ak (k = 1) in the performance section. Correct the vibrato of ~ n). The feature amount acquired from the model data is set by the user transmitting a predetermined operation command via the UI 204.

また、合成部203は、模範ボーカルの歌声から抽出した声質をリファレンスとして、音信号Ak(k=1〜n)が示す歌声の声質を補正してもよい。   In addition, the synthesis unit 203 may correct the voice quality of the singing voice indicated by the sound signal Ak (k = 1 to n) using the voice quality extracted from the singing voice of the model vocal as a reference.

(5)第2実施形態において、合成部203は、模範データから抽出した特徴量と音信号Ak(k=1〜n)から抽出した特徴量とを基に新たな波形データを生成し、当該波形データからなる音信号Ak(k=1〜n)を、音信号Ak(k=1〜n)にミキシングしてもよい。例えば、分析部201は、MIDI形式の演奏データからピッチカーブ、楽曲のコード進行情報、ダイヤトニックスケール等の特徴量を抽出する。合成部203は、この特徴量が音信号Ak(k=1〜n)から抽出した特徴量と調和するように、コーラス音声やダブリング音声等の波形を生成する。そして、生成したコーラス音声やダブリング音声が示す音信号Ak(k=1〜n)と各入力音信号Ak(k=1〜n)とをミキシングすることにより、音信号Ak(k=1〜n)が示す音声にコーラス音声やダブリング音声を重畳させる。模範データから抽出する特徴量は、ユーザがUI204を介して所定の操作コマンドを送信することにより設定される。 (5) In the second embodiment, the synthesizing unit 203 generates new waveform data based on the feature quantity extracted from the model data and the feature quantity extracted from the sound signal Ak (k = 1 to n), The sound signal Ak (k = 1 to n) consisting of waveform data may be mixed with the sound signal Ak (k = 1 to n). For example, the analysis unit 201 extracts feature amounts such as a pitch curve, chord progression information of a music, and a diatonic scale from performance data in the MIDI format. The synthesizing unit 203 generates a waveform such as a chorus sound or a doubling sound so that the feature amount matches the feature amount extracted from the sound signal Ak (k = 1 to n). Then, the sound signals Ak (k = 1 to n) are generated by mixing the generated sound signals Ak (k = 1 to n) indicated by the chorus sound and the doubling sound with the input sound signals Ak (k = 1 to n). The chorus voice and doubling voice are superimposed on the voice indicated by). The feature value extracted from the model data is set by the user transmitting a predetermined operation command via the UI 204.

(6)第2実施形態において、合成部203は、音信号Ak(k=1〜n)から抽出された特徴量を基に、当該特徴量を取得したパートまたはそれ以外のパートの音信号Ak(k=1〜n)の特徴量を加工してもよい。 (6) In the second embodiment, the synthesis unit 203 generates the sound signal Ak of the part that acquired the feature amount or the part other than that based on the feature amount extracted from the sound signal Ak (k = 1 to n). The feature amounts of (k = 1 to n) may be processed.

例えば、合成部203は、分析部201が音信号Ak(k=1〜n)から抽出したピッチカーブデータを基に、当該ピッチカーブデータを抽出したパートのピッチカーブを加工する。これにより、当該パートのピッチカーブの特徴を適量だけ変化させることができる。また、合成部203は、分析部201が音信号Ak(k=1〜n)から抽出したピッチカーブデータを基に、当該ピッチカーブデータを抽出したパートとは別のパートのピッチカーブを加工してもよい。これにより、あるパートのピッチカーブの特徴を、他のパートにも付与することができる。   For example, based on the pitch curve data extracted by the analysis unit 201 from the sound signal Ak (k = 1 to n), the synthesis unit 203 processes the pitch curve of the part from which the pitch curve data has been extracted. Thereby, the characteristic of the pitch curve of the part can be changed by an appropriate amount. Further, based on the pitch curve data extracted by the analysis unit 201 from the sound signal Ak (k = 1 to n), the synthesis unit 203 processes the pitch curve of the part other than the part from which the pitch curve data is extracted. May be In this way, the pitch curve characteristic of one part can be added to other parts.

また、合成部203は、分析部201が音信号Ak(k=1〜n)から抽出したベロシティデータを基に、当該ベロシティデータを抽出したパートのアーティキュレーションを加工する。これにより、当該パートのアーティキュレーションの特徴を適量だけ変化させることができる。また、合成部203は、分析部201が音信号Ak(k=1〜n)から抽出したベロシティデータを基に、当該ベロシティデータを抽出したパートとは別のパートのアーティキュレーションを加工してもよい。これにより、あるパートのアーティキュレーションの特徴を、他のパートにも付与することができる。   Further, the synthesizing unit 203 processes the articulation of the part from which the velocity data has been extracted, based on the velocity data extracted from the sound signal Ak (k = 1 to n) by the analyzing unit 201. In this way, it is possible to change the articulation feature of the part by an appropriate amount. Further, based on the velocity data extracted by the analysis unit 201 from the sound signal Ak (k = 1 to n), the synthesis unit 203 processes the articulation of the part different from the part from which the velocity data is extracted. It is also good. In this way, the articulation feature of a part can be added to other parts.

また、合成部203は、分析部201が音信号Ak(k=1〜n)から抽出したビブラートデータを基に、当該ビブラートデータを抽出したパートのビブラートを加工する。これにより、当該パートのビブラートの特徴を適量だけ変化させることができる。また、合成部203は、分析部201が音信号Ak(k=1〜n)から抽出したビブラートデータを基に、当該ビブラートデータを抽出したパートとは別のパートのビブラートを加工してもよい。これにより、あるパートのビブラートの特徴を、他のパートにも付与することができる。   The synthesizing unit 203 processes the vibrato of the part from which the vibrato data is extracted, based on the vibrato data extracted from the sound signal Ak (k = 1 to n) by the analyzing unit 201. This makes it possible to change the vibrato feature of the part by an appropriate amount. In addition, the synthesizing unit 203 may process vibrato of a part different from the part from which the vibrato data is extracted, based on the vibrato data extracted from the sound signal Ak (k = 1 to n) by the analyzing unit 201. . This makes it possible to impart vibrato characteristics of one part to other parts.

また、合成部203は、分析部201が音信号Ak(k=1〜n)から取得した歌唱者の声質データを基に、当該声質データを取得したパートの声質を加工する。これにより、当該パートの声質の特徴を適量だけ変化させることができる。また、合成部203は、分析部201が音信号Ak(k=1〜n)から抽出した声質データを基に、当該声質データを抽出したパートとは別のパートの声質を加工してもよい。これにより、あるパートの声質の特徴を、他のパートにも付与することができる。   Further, the synthesis unit 203 processes the voice quality of the part for which the voice quality data has been acquired, based on the voice quality data of the singer who is obtained from the sound signal Ak (k = 1 to n) by the analysis unit 201. Thereby, the voice quality characteristics of the part can be changed by an appropriate amount. Further, the synthesizing unit 203 may process the voice quality of a part other than the part from which the voice quality data is extracted, based on the voice quality data extracted from the sound signal Ak (k = 1 to n) by the analysis unit 201. . In this way, the voice quality characteristics of one part can be added to other parts.

分析部201が音信号Ak(k=1〜n)から抽出する特徴量は、ユーザがUI204を介して所定の操作コマンドを送信することにより設定される。また、合成部203により加工されるパートは、ユーザがUI204を介して、所定の操作コマンドを送信することにより設定される。   The feature amount extracted from the sound signal Ak (k = 1 to n) by the analysis unit 201 is set by the user transmitting a predetermined operation command via the UI 204. Further, the part processed by the synthesis unit 203 is set by the user transmitting a predetermined operation command via the UI 204.

(7)第2実施形態において、合成部203は、模範データから抽出された特徴量を基に、所定の区間を設定し、この区間においてのみミキシングされた音信号Ak(k=1〜n)を出力させてもよい。例えば、合成部203は、MIDI形式の演奏データ等の模範データから各種特徴量を抽出し、歌い出し〜Aメロ〜サビに至るまでの区間、歌い出し〜最大音量付近に至るまでの区間、歌いだし〜最小音量付近に至るまでの区間等を特定する。そして、これらの指定された区間においてのみミキシングされた音信号Ak(k=1〜n)を出力する。 (7) In the second embodiment, the synthesizing unit 203 sets a predetermined section based on the feature quantity extracted from the model data, and the sound signal Ak (k = 1 to n) mixed only in this section May be output. For example, the synthesizing unit 203 extracts various feature quantities from model data such as MIDI performance data, and segments from singing to A melody to rust, from singing to maximum volume, and singing -Specify the section up to around the minimum sound volume. Then, the sound signal Ak (k = 1 to n) mixed only in these designated sections is output.

また、合成部203は、設定された複数の区間を時系列に接続したダイジェストを作成し、このダイジェストに従い順次ミキシングされた音信号Ak(k=1〜n)を出力してもよい。この場合、ダイジェストの時間長は、ネットワークの混雑状況等を考慮して適宜変更できるようにしてもよい。これらの区間やダイジェストの時間長は、ユーザがUI204を介して、所定の操作コマンドを送信することにより設定される。   The synthesizing unit 203 may create a digest in which a plurality of set sections are connected in time series, and may output sound signals Ak (k = 1 to n) sequentially mixed according to the digest. In this case, the time length of the digest may be appropriately changed in consideration of the congestion state of the network and the like. The time length of these sections and the digest is set by the user transmitting a predetermined operation command via the UI 204.

(8)第1実施形態および第2実施形態において、合成部103および203に、主音声順位に従い、歌唱者等の画像を表示部4または他の表示手段に表示させるための表示制御信号を出力させてもよい。この場合、主音声順位が最も高い歌唱者の画像を表示部4または他の表示手段のセンタに表示させ、主音声順位が最も低い歌唱者の画像を表示部4または他の表示手段の左右に小さく表示させる。これにより、歌唱者に自身の画像をセンタに表示させるために、歌唱力を向上させようとする動機づけを行わせることができる。 (8) In the first embodiment and the second embodiment, the synthesizing units 103 and 203 output display control signals for causing the display unit 4 or other display means to display an image of a singer or the like according to the main voice order You may In this case, the image of the singer who has the highest primary audio order is displayed on the center of the display unit 4 or other display means, and the image of the singer who has the lowest primary audio order is displayed to the left and right of the display unit 4 or other display means Display small. In this way, it is possible to cause the singer to perform a motivation to improve the singing ability in order to display his or her own image on the center.

(9)上記(1)〜(8)に示す制御を実行するか否かの判断は、ユーザがUI204を介して、所定の操作コマンドを送信することにより決定してもよい。また、第2実施形態において、逐次入力される複数の音信号Ak(k=1〜n)をリアルタイムでミキシングする処理、または録音された複数の音声データが示す音信号Ak(k=1〜n)をミキシングする処理のいずれを行うかの判断は、ユーザがUI204を介して、所定の操作コマンドを送信することにより決定してもよい。 (9) The determination as to whether or not to execute the control described in (1) to (8) may be made by the user transmitting a predetermined operation command via the UI 204. In the second embodiment, a process of mixing a plurality of sequentially input sound signals Ak (k = 1 to n) in real time, or sound signals Ak (k = 1 to n) indicated by a plurality of audio data recorded. The determination of which of the processes of mixing) may be performed by transmitting a predetermined operation command via the UI 204 by the user.

(10)第1実施形態および第2実施形態に示すミキシング装置は、クライアントサーバシステム(分散型コンピュータシステム)としてもよい。すなわち、クライアント側に集音器7−k(k=1〜n)およびA/D変換器8−k(k=1〜n)を設置し、歌声等の集音および音信号Ak(k=1〜n)のA/D変換を行わせる。そして、A/D変換後の音信号Ak(k=1〜n)をサーバにアップロードし、サーバ側に設置されたCPU1にミキシング制御プログラム100または200を実行させる。そして、ミキシングが施された音信号Bj(j=1〜m)をクライアント側にダウンロードする構成としてもよい。 (10) The mixing device described in the first and second embodiments may be a client server system (distributed computer system). That is, sound collectors 7-k (k = 1 to n) and A / D converters 8-k (k = 1 to n) are installed on the client side, and sound collection of a singing voice etc. and sound signal Ak (k = k 1 to n) A / D conversion is performed. Then, the sound signal Ak (k = 1 to n) after A / D conversion is uploaded to the server, and the CPU 1 installed on the server side causes the mixing control program 100 or 200 to be executed. Then, the sound signal Bj (j = 1 to m) subjected to the mixing may be downloaded to the client side.

また、クライアント側で、集音器7−k(k=1〜n)による集音、A/D変換器8−k(k=1〜n)によるA/D変換、分析部101および201による分析データの生成を行わせてもよい。この場合、A/D変換後の音信号Ak(k=1〜n)および分析データをサーバにアップロードし、サーバ側に生成部102および202による制御データの生成、合成部103および203によるミキシングを行わせる。そして、ミキシングが施された音信号Bj(j=1〜m)をクライアント側にダウンロードする構成としてもよい。   Further, on the client side, sound collection by the sound collector 7-k (k = 1 to n), A / D conversion by the A / D converter 8-k (k = 1 to n), analysis by the analysis units 101 and 201 Analysis data may be generated. In this case, the sound signal Ak (k = 1 to n) after A / D conversion and analysis data are uploaded to the server, and on the server side, generation of control data by the generation units 102 and 202 and mixing by the synthesis units 103 and 203 are performed. Let it go. Then, the sound signal Bj (j = 1 to m) subjected to the mixing may be downloaded to the client side.

また、クライアント側で、集音器7−k(k=1〜n)による集音、A/D変換器8−k(k=1〜n)によるA/D変換、分析部101および201による分析データの生成、生成部102および202による制御データの生成を行わせてもよい。この場合、A/D変換後の音信号Ak(k=1〜n)および制御データをサーバにアップロードし、サーバ側に合成部103および203によるミキシングを行わせる。そして、ミキシングが施された音信号Bj(j=1〜m)をクライアント側にダウンロードする構成としてもよい。   Further, on the client side, sound collection by the sound collector 7-k (k = 1 to n), A / D conversion by the A / D converter 8-k (k = 1 to n), analysis by the analysis units 101 and 201 The generation of analysis data and the generation of control data by the generation units 102 and 202 may be performed. In this case, the sound signal Ak (k = 1 to n) after A / D conversion and the control data are uploaded to the server, and the server side performs mixing by the synthesizing units 103 and 203. Then, the sound signal Bj (j = 1 to m) subjected to the mixing may be downloaded to the client side.

また、クライアントサーバシステムにした場合、サーバ側の処理結果を随時クライアント側でモニタリングできるようにすることで、クライアント側はサーバの処理能力に応じて処理量を調整することができる。   Further, in the case of a client server system, the client side can adjust the processing amount according to the processing capacity of the server by enabling the client side to monitor the processing result on the server side as needed.

(11)上記各実施形態において、主音声順位が同順位の音信号Ak(k=1〜n)が複数ある場合、以下のような処理を実行してもよい。例えば、主音声順位が第1位の音信号が2つある場合、各々を同率1位とする。そして、第2位を欠番とし、他の音信号に第3位〜第n位までの主音声順位を設定する。あるいは、第2位を欠番とせず、他の音信号Akに第2位〜第n−1位までの主音声順位を設定する。あるいは、主音声順位が第1位の音信号Ak(k=1〜n)が2つある場合、各々を同率1位とせず、添え字の番号k(1〜n)の小さい方の音信号の主音声順位を第1位、大きい方の音信号の主音声順位を第2位と設定してもよい。 (11) In the above-described embodiments, when there are a plurality of sound signals Ak (k = 1 to n) having the same primary audio rank, the following processing may be performed. For example, when there are two sound signals with the first main speech order, each is set to the same rate first. Then, the second place is regarded as a missing number, and the third to nth main speech orders are set to the other sound signals. Alternatively, the second to the n-1th main speech orders are set to the other sound signals Ak without making the second place a missing number. Alternatively, when there are two sound signals Ak (k = 1 to n) having the first main speech order, each sound signal is not equal to the first rank, and the sound signal with the smaller subscript number k (1 to n) is used. The main audio order of may be set as the first place, and the main audio order of the larger sound signal may be set as the second place.

(12)上記各実施形態では、歌唱音声信号をミキシングするミキシング装置にこの発明を適用したが、この発明は楽音信号をミキシングするミキシング装置や、歌唱音声信号と楽音信号をミキシングするミキシング装置にも適用可能である。 (12) In the above embodiments, the present invention is applied to a mixing device for mixing a singing voice signal, but the present invention is also applicable to a mixing device for mixing a musical tone signal and a mixing device for mixing a singing voice signal and a musical tone signal. It is applicable.

1…CPU、2…ROM、3…RAM、4…表示部、5…操作部、6…データI/O、7−k(k=1〜n)…集音器、8−k(k=1〜n)…A/D変換器、9−j(j=1〜m)…D/A変換器、10−j(j=1〜m)…増幅器、11−j(j=1〜m)…拡声器、12…バス、10,20…ミキシング装置、100,200…ミキシング制御プログラム、101,201…分析部、102,202…生成部、103,203…合成部、204…UI。 DESCRIPTION OF SYMBOLS 1 ... CPU, 2 ... ROM, 3 ... RAM, 4 ... Display part, 5 ... Operation part, 6 ... Data I / O, 7-k (k = 1 to n) ... Sound collector, 8-k (k =) 1 to n) ... A / D converter, 9-j (j = 1 to m) ... D / A converter, 10-j (j = 1 to m) ... amplifier, 11-j (j = 1 to m) ... ... Loudspeaker, 12 ... Bus, 10, 20 ... Mixing device, 100, 200 ... Mixing control program, 101, 201 ... Analysis unit, 102, 202 ... Generation unit, 103, 203 ... Synthesis unit, 204 ... UI.

Claims (7)

複数の音信号における各音信号から複数の特徴量を抽出し、
前記複数の音信号の順位を、各音信号から抽出された複数の特徴量に基づき設定し、
前記複数の音信号を制御するための制御データを、各音信号に設定された順位に基づいて生成する
音信号制御方法。
Extracting a plurality of feature quantities from each sound signal in the plurality of sound signals;
The order of the plurality of sound signals is set based on a plurality of feature quantities extracted from each sound signal,
A sound signal control method, wherein control data for controlling the plurality of sound signals are generated based on the order set for each sound signal.
前記複数の音信号における各音信号の音量、各音信号を処理するイコライザの特性、各音信号に付与する音響効果、又は、各音信号の定位位置を、各音信号に対応する制御データに従って制御する
請求項1の音信号制御方法。
The volume of each sound signal in the plurality of sound signals, the characteristic of the equalizer for processing each sound signal, the acoustic effect to be applied to each sound signal, or the localization position of each sound signal according to control data corresponding to each sound signal The sound signal control method according to claim 1, wherein the control is performed.
前記複数の音信号は、複数の歌唱者の歌唱の音信号であり、
前記複数の歌唱者の画像の表示を、前記複数の歌唱者に対応する音信号の順位に従って制御する
請求項1又は請求項2の音信号制御方法。
The plurality of sound signals are sound signals of singing of a plurality of singers,
The sound signal control method according to claim 1 or 2, wherein display of the images of the plurality of singers is controlled according to the order of the sound signals corresponding to the plurality of singers.
前記複数の音信号における各音信号から前記特徴量として第1特徴量と第2特徴量とを抽出し、
前記複数の音信号の順位を、各音信号の前記第1特徴量と前記第2特徴量とに基づき設定する
請求項1から請求項3の何れかの音信号制御方法。
A first feature amount and a second feature amount are extracted as the feature amounts from each sound signal in the plurality of sound signals,
The sound signal control method according to any one of claims 1 to 3, wherein the order of the plurality of sound signals is set based on the first feature amount and the second feature amount of each sound signal.
前記複数の音信号の順位の設定においては、
各音信号の前記第1特徴量について第1順位を設定し、
各音信号の前記第2特徴量について第2順位を設定し、
各音信号の前記第1順位と前記第2順位とを重み付け加算することにより、各音信号の順位を設定する
請求項4の音信号制御方法。
In setting the order of the plurality of sound signals,
A first rank is set for the first feature amount of each sound signal,
Setting a second rank for the second feature value of each sound signal;
The sound signal control method according to claim 4, wherein the order of each sound signal is set by performing weighted addition of the first order and the second order of each sound signal.
複数の歌唱者の歌唱の音信号における各音信号から複数の特徴量を抽出し、
前記複数の音信号の順位を、各音信号から抽出された複数の特徴量に基づき設定し、
前記複数の歌唱者の画像の表示を、各歌唱者に対応する音信号の順位に従って制御する
表示制御方法。
Extracting a plurality of feature quantities from each sound signal in sound signals of singing of a plurality of singers;
The order of the plurality of sound signals is set based on a plurality of feature quantities extracted from each sound signal,
A display control method of controlling display of images of the plurality of singers according to the order of sound signals corresponding to the respective singers.
複数の音信号から特徴量を抽出し、
前記複数の音信号の順位を、前記複数の音信号の特徴量と基準となる音信号の特徴量との類似度に基づき設定し、
複数の歌唱者の画像の表示を、その歌唱者に対応する音信号の順位に従って制御する
表示制御方法。
Extract features from multiple sound signals,
The order of the plurality of sound signals is set based on the similarity between the feature amount of the plurality of sound signals and the feature amount of the sound signal as a reference,
A display control method for controlling display of images of a plurality of singers according to the order of sound signals corresponding to the singers.
JP2019041824A 2019-03-07 2019-03-07 Sound signal control method and display control method Active JP6881488B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019041824A JP6881488B2 (en) 2019-03-07 2019-03-07 Sound signal control method and display control method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019041824A JP6881488B2 (en) 2019-03-07 2019-03-07 Sound signal control method and display control method

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2014213087A Division JP6492521B2 (en) 2014-10-17 2014-10-17 Mixing equipment

Publications (2)

Publication Number Publication Date
JP2019126076A true JP2019126076A (en) 2019-07-25
JP6881488B2 JP6881488B2 (en) 2021-06-02

Family

ID=67399526

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019041824A Active JP6881488B2 (en) 2019-03-07 2019-03-07 Sound signal control method and display control method

Country Status (1)

Country Link
JP (1) JP6881488B2 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004240066A (en) * 2003-02-04 2004-08-26 Konami Co Ltd Karaoke device, output sound volume control method, and program
JP2012198305A (en) * 2011-03-18 2012-10-18 Yamaha Corp Display controller
JP2014178457A (en) * 2013-03-14 2014-09-25 Yamaha Corp Karaoke system and karaoke device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004240066A (en) * 2003-02-04 2004-08-26 Konami Co Ltd Karaoke device, output sound volume control method, and program
JP2012198305A (en) * 2011-03-18 2012-10-18 Yamaha Corp Display controller
JP2014178457A (en) * 2013-03-14 2014-09-25 Yamaha Corp Karaoke system and karaoke device

Also Published As

Publication number Publication date
JP6881488B2 (en) 2021-06-02

Similar Documents

Publication Publication Date Title
JP3365354B2 (en) Audio signal or tone signal processing device
JP3879357B2 (en) Audio signal or musical tone signal processing apparatus and recording medium on which the processing program is recorded
JP4207902B2 (en) Speech synthesis apparatus and program
US8735709B2 (en) Generation of harmony tone
JP2014071138A (en) Karaoke device
JP2014501941A (en) Music content production system using client terminal
JP2006251375A (en) Voice processor and program
US5862232A (en) Sound pitch converting apparatus
JP6881488B2 (en) Sound signal control method and display control method
JP2013213907A (en) Evaluation apparatus
JP5960635B2 (en) Instrument sound output device
JP2006251697A (en) Karaoke device
JP6492521B2 (en) Mixing equipment
JP2022065554A (en) Method for synthesizing voice and program
JP2022065566A (en) Method for synthesizing voice and program
JP5969421B2 (en) Musical instrument sound output device and musical instrument sound output program
JPH11338480A (en) Karaoke (prerecorded backing music) device
JP4033146B2 (en) Karaoke equipment
JP5703555B2 (en) Music signal processing apparatus and program
JP4168391B2 (en) Karaoke apparatus, voice processing method and program
JP2011197564A (en) Electronic music device and program
CN108735193A (en) The position control method of sonorant control device and sonorant
JP2009244790A (en) Karaoke system with singing teaching function
JP3743985B2 (en) Karaoke equipment
JP6036800B2 (en) Sound signal generating apparatus and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190307

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200303

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200901

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201019

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210406

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210419

R151 Written notification of patent or utility model registration

Ref document number: 6881488

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151