JP2023020577A - masking device - Google Patents
masking device Download PDFInfo
- Publication number
- JP2023020577A JP2023020577A JP2021126014A JP2021126014A JP2023020577A JP 2023020577 A JP2023020577 A JP 2023020577A JP 2021126014 A JP2021126014 A JP 2021126014A JP 2021126014 A JP2021126014 A JP 2021126014A JP 2023020577 A JP2023020577 A JP 2023020577A
- Authority
- JP
- Japan
- Prior art keywords
- data
- masking
- music
- part data
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は、マスキング装置に関する。 The present invention relates to masking devices.
従来、自動車の車内や、店舗や病院のカウンター等で、人間同士の対話音声の内容を第三者に把握されなくするために、当該対話音声をかき消すマスキング音を出力する技術が用いられてきた。 Conventionally, in order to prevent third parties from grasping the content of conversational voices between people in automobiles, counters of shops and hospitals, etc., technology has been used to output a masking sound that drowns out the conversational voices. .
例えば、特許文献1は、対話音声を秘匿化するための秘匿化装置を開示している。当該秘匿化装置は、一般的な会話の音声を示す音声データと音楽を示す音楽データとが予め記憶された記憶装置を備える。秘匿化装置は、記憶装置から読み出した音声データ及び音楽データが合成された秘匿化データを生成する秘匿化データ生成装置を備える。更に、当該秘匿化装置は、秘匿化データを再生する音楽再生装置を備える。この秘匿化データを再生することによって、例えば、銀行の窓口において、行員と利用者との会話を第三者に聞こえないように秘匿化できる。
For example,
しかし、特許文献1に係る秘匿化装置は、予め記憶されたサンプルデータとしての音声データと音楽データとを合成することで、マスキング音としての秘匿化データを生成するものであった。すなわち、特許文献1に係る技術は、人間の発話にリアルタイムで対応して、マスキング音を生成するものではなかった。
However, the anonymization device according to
以上の事情を考慮して、本開示のひとつの態様は、人間の発話に対してリアルタイムで対応するマスキングデータを生成し、生成されたマスキングデータに基づいて、人間の音声をマスキングする音楽を再生するマスキング装置を提供することを目的とする。 In view of the above circumstances, one aspect of the present disclosure is to generate masking data corresponding to human speech in real time, and play music that masks human speech based on the generated masking data. It is an object of the present invention to provide a masking device that
以上の課題を解決するために、本開示のひとつの態様に係るマスキング装置は、マイクから出力される出力信号から音声を示す音声信号を検出する検出部と、前記音声信号を分析することによって、前記音声の特徴を示す特徴データを生成する分析部と、前記特徴データに基づいて、前記音声をマスキングする音楽を示すマスキングデータを生成する生成部と、を備える。 In order to solve the above problems, a masking device according to one aspect of the present disclosure includes a detection unit that detects an audio signal indicating audio from an output signal output from a microphone, and by analyzing the audio signal, The apparatus includes an analysis unit that generates feature data indicating features of the voice, and a generation unit that generates masking data indicating music for masking the voice based on the feature data.
〔1.第1実施形態〕
〔1-1.第1実施形態の構成〕
図1は、本開示の第1実施形態に係るマスキング装置1の構成を例示するブロック図である。マスキング装置1は、収音した人間の音声の特徴に応じて、当該音声をマスキングする音楽を示すマスキングデータDmを生成し、生成されたマスキングデータDmに基づいて、当該音声をマスキングする音楽を再生する装置である。具体的には、マスキング装置1は、制御装置11、記憶装置12、操作装置13、収音装置14、及び再生装置15を備える。
[1. First Embodiment]
[1-1. Configuration of the First Embodiment]
FIG. 1 is a block diagram illustrating the configuration of a
図1の制御装置11は、例えばマスキング装置1の各要素を制御する単数又は複数のプロセッサである。例えば、制御装置11は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、又はASIC(Application Specific Integrated Circuit)等の1種類以上のプロセッサにより構成される。
The
記憶装置12は、例えば磁気記録媒体又は半導体記録媒体等の公知の記録媒体で構成された単数又は複数のメモリである。記憶装置12は、制御装置11が実行する制御プログラムPR1と制御装置11が使用する各種のデータ、とりわけ音楽データDxを記憶する。なお、記憶装置12は、複数種の記録媒体の組合せにより構成されてもよい。また、記憶装置12は、マスキング装置1に対して着脱可能な可搬型の記録媒体、又はマスキング装置1が通信網を介して通信可能な外部記録媒体(例えばオンラインストレージ)としてもよい。
The
操作装置13は、利用者からの指示を受け付ける入力機器である。操作装置13は、例えば、利用者が操作可能な複数の操作子、又は、利用者からの接触を検知するタッチパネルである。とりわけ、操作装置13は、マスキング装置1の動作の開始と終了を指示するスイッチとしての機能を有する。また、操作装置13は、記憶装置12に外部から供給される音楽データDxを格納する場合に用いられる。
The
収音装置14は、周囲の音を収音する収音部を備え、収音した音を電気信号に変換するマイクである。収音部は音を収音する構成であれば、どのようなものであってもよいが、例えば、防風の構造が該当する。また、周囲の音には人間の音声が含まれ得る。本実施形態の収音装置14は、収音した音に基づいたアナログ形式の音信号を生成する。また、収音装置14は音信号を音データDsに変換するAD変換器を備える。収音装置14から音データDsが出力される。
The
再生装置15は、制御装置11による制御のもとで、制御装置11により生成されたマスキングデータDmに基づいて音楽を再生する。マスキングデータDmは音楽を示す。再生装置15は、DA変換器、アンプ、及びスピーカーを備える。DA変換器には、デジタル信号であるマスキングデータDmが入力される。入力されたマスキングデータDmは、アナログ信号であるマスキング信号に変換される。マスキング信号は、アンプにおいて、後段のスピーカーでの放音に適した振幅となるように増幅される。振幅が増幅されたマスキング信号によって示される音楽は、放音装置としてのスピーカーから放音される。本実施形態に係るマスキング装置1は、例として、図2に示される車両Cで用いられることが好適であるが、この場合、車両Cに搭載されたスピーカーが、再生装置15に備わる要素として利用される。
The
図2は、本実施形態に係るマスキング装置1を搭載した車両Cの平面図の例であり、図3は車両Cの側面図の例である。
FIG. 2 is an example of a plan view of a vehicle C equipped with the
図2及び図3に示される例において、車両Cの車室Rには、マスキング装置1の他に、矩形に配置された4つの座席51~54と、天井6と、フロントライトドア71と、フロントレフトドア72と、リアライトドア73と、リアレフトドア74が配置されている。座席51は運転席であり、座席52は助手席であり、座席53は後部右座席であり、更に、座席54は後部左座席である。座席51~54の各々は、布又は革を素材とする材質であり吸音性を有する。座席51~54は、共通の方向を向いている。座席51~54の各々はヘッドレスト51-1~54-1を有する。
In the example shown in FIGS. 2 and 3, in addition to the
マスキング装置1は、上記の収音装置14としてのマイク、及び再生装置15の要素である第1スピーカー15-1、第2スピーカー15-2、第3スピーカー15-3及び第4スピーカー15-4を含んで構成されている。収音装置14は、車室Rの天井6に配置される。収音装置14は、第1の収音装置14-1と第2の収音装置14-2とを備えることが好適である。この場合、第1の収音装置14-1は、車室Rの天井6において、前席である座席51及び座席52付近に設置される。また、第1の収音装置14-1は、座席51及び座席52に着座する人物の声を収音しやすくするように、指向性を有することが好適である。同様に、第2の収音装置14-2は、車室Rの天井6において、後席である座席53及び座席54付近に設置される。また、第2の収音装置14-2は、座席53及び座席54に着座する人物の声を収音しやすくするように、指向性を有することが好適である。しかし、収音装置14の構成はこれには限定されない。収音装置14は、前席である座席51及び座席52に着座する人物の声と、後席である座席53及び座席54に着座する人物の声とを個別に収音できることが好適であるが、その構成は問わない。
The
第1スピーカー15-1は、ヘッドレスト51-1に設置される。第2スピーカー15-2は、ヘッドレスト52-1に設置される。第3スピーカー15-3は、ヘッドレスト53-1に設置される。第4スピーカー15-4は、ヘッドレスト54-1に設置される。なお、これらの設置個所は一例であって、これらには限定されない。例えば、第1スピーカー15-1~第4スピーカー15-4の各々は、フロントライトドア71の下部、フロントレフトドア72の下部、リアライトドア73の下部、及びリアレフトドア74の下部に設置されてもよい。
The first speaker 15-1 is installed on the headrest 51-1. The second speaker 15-2 is installed on the headrest 52-1. The third speaker 15-3 is installed on the headrest 53-1. The fourth speaker 15-4 is installed on the headrest 54-1. It should be noted that these installation locations are merely examples, and the present invention is not limited to these. For example, each of the first speaker 15-1 to the fourth speaker 15-4 may be installed under the front
第1の収音装置14-1が、前席である座席51及び座席52に着座する人物の声を収音した場合、後席である座席53のヘッドレスト53-1に設置される第3スピーカー15-3、及び座席54のヘッドレスト54-1に設置される第4スピーカー15-4からマスキング信号によって示される音楽が放音される。これは、前席のスピーカーである第1スピーカー15-1及び第2スピーカー15-2からマスキング信号によって示される音楽が放音されると、前席間の会話に支障をきたす恐れがあるためである。
When the first sound pickup device 14-1 picks up the voices of persons seated on the
これにより、例えば、会話するドライバーの声を、後席に着座する人物に聞かせなくすることが可能となる。延いては、ドライバーは、自らの会話が後席に聞かれていないという安心感を得ることができ、運転に集中することが可能となる。 This makes it possible, for example, to prevent the driver's voice from being heard by a person sitting in the back seat. As a result, the driver can feel secure that his/her conversation is not being overheard by the rear seats, and can concentrate on driving.
一方で、第2の収音装置14-2が、後席である座席53及び座席54に着座する人物の声を収音した場合、前席である座席51のヘッドレスト51-1に設置される第1スピーカー15-1、及び座席52のヘッドレスト52-1に設置される第2スピーカー15-2からマスキング信号によって示される音楽が放音される。これは、後席のスピーカーである第3スピーカー15-3及び第4スピーカー15-4からマスキング信号によって示される音楽が放音されると、後席間の会話に支障をきたす恐れがあるためである。
On the other hand, when the second sound pickup device 14-2 picks up the voices of persons seated on the
これにより後席に着座する人物の会話をドライバーに聞かせなくすることが可能となる。更に、マスキング音として音楽を用いることにより、ドライバーは運転に集中することが可能となる。 This makes it possible to prevent the driver from hearing the conversation of the person sitting in the back seat. Furthermore, using music as the masking sound allows the driver to concentrate on driving.
なお、第1の収音装置14-1と第2の収音装置14-2の双方が、座席51~座席54に着座する人物の声を収音した場合、第1スピーカー15-1~第4スピーカー15-4のいずれからも、マスキング信号によって示される音楽は放音されない。これは、前席と後席との間の会話を邪魔しないためである。
Note that when both the first sound collection device 14-1 and the second sound collection device 14-2 collect voices of persons seated on the
図4は、制御装置11の機能的な構成を例示するブロック図である。制御装置11は、制御プログラムPR1を読み出し、読み出した制御プログラムPR1を実行することによって、検出部111、分析部112、取得部113、及び生成部114、及び選択部115として機能する。
FIG. 4 is a block diagram illustrating the functional configuration of the
検出部111は、収音装置14から出力される音データDsから、人間の音声を示す音声データDvを検出する。音声データDvは、音声が入っていない無声区間と、音声が入っている音声区間とを有する。検出部111は、例えば、音声帯域を通過帯域とするバンドパスフィルタによって構成される。音データDsの示す音には、音声の他に、走行音及び楽音等が含まれる場合がある。検出部111によって音データDsから音声データDvが抽出される。
The
また、検出部111は、選択部115に対して制御信号Sを出力する。検出部111が、音声データDvから音声区間を検出した場合には、制御信号Sは“ON”を示す値となる。一方で、検出部111が無音区間を検出した場合には、制御信号Sは“OFF”を示す値となる。
Also, the
分析部112は、検出部111によって検出された音声データDvを分析することによって、音声の特徴を示す特徴データDfを生成する。より詳細には、分析部112は、音声区間における音声データDvを分析することによって、音声の特徴を示す特徴データDfを生成する。ここで、「音声の特徴」は、音声のピッチ、音声のレベル、音声のフォルマントのうち少なくとも1つを含む。「音声のピッチ」とは、音声の基本周波数のことである。「音声のレベル」とは、音声の音量のことである。「音声のフォルマント」とは、音声の周波数スペクトルにおいて、周囲よりも強度が大きい周波数帯のことである。当該周波数帯は、低い方から順に、「第1フォルマント」、「第2フォルマント」、「第3フォルマント」・・・と呼称される。複数のフォルマントの各々の周波数の高さによって、音声の質が定まる。
The
とりわけ、分析部112によって生成される特徴データDfに、音声のピッチ、又は音声のフォルマントが含まれる場合、分析部112は、音声のピッチ又はフォルマントを分析することにより、当該音声を発話したのが、男性であるか女性であるかを判別することが可能である。具体的には、分析部112は、音声のピッチが所定値以上である場合には、当該音声の発話の主が女性であると判別する。一方で、分析部112は、音声のピッチが所定値未満である場合には、当該音声の発話の主が男性であると判別する。また、分析部112は、音声に含まれる母音の第1フォルマント及び第2フォルマントが所定値以上である場合には、当該音声の発話の主が女性であると判別する。一方で、分析部112は、音声に含まれる母音の第1フォルマント及び第2フォルマントが所定値未満である場合には、当該音声を発話の主が男性であると判別する。
In particular, when the feature data Df generated by the
取得部113は、記憶装置12から音楽データDxを取得する。後述のように、マスキング装置1が生成するマスキングデータDmの示す音楽は、複数の音色と1対1に対応する複数のパートを含む。音楽データDxは、これら複数のパートと1対1に対応する複数のパートデータDp1、Dp2、…Dpnを含む。nは2以上の整数である。なお、各パートを区別する必要が無い場合は、単に、パートデータDpと称する。
図5は、人間の音声の周波数帯域、及びマスキングデータDmの示す音楽に含まれる複数のパートが各々対応する、複数の音色の周波数帯域の例を示す図である。図5において、最上段の行は周波数を示す。2段目の行はコードを示す。図5に示す例においては、同じCコードであると共に、C0からC8へと、1オクターブずつ周波数が上昇する例を示す。3段目~9段目の行は人間の音声の周波数帯域を示す。10段目~14段目の行は楽器の演奏音の周波数帯域を示す。 FIG. 5 is a diagram showing an example of a frequency band of human voice and frequency bands of a plurality of timbres corresponding to a plurality of parts included in music indicated by masking data Dm. In FIG. 5, the top row shows frequencies. The second row shows the code. The example shown in FIG. 5 shows an example in which the same C code is used and the frequency increases by one octave from C0 to C8. The third to ninth rows indicate the frequency bands of human speech. The 10th to 14th rows indicate the frequency band of the performance sound of the musical instrument.
図5に示されるように、人間の音声は略73Hzから略1047Hzの周波数帯域を有する。 As shown in FIG. 5, human speech has a frequency band from approximately 73 Hz to approximately 1047 Hz.
とりわけ男性の音声であるバスは、およそD2からF4の声域、すなわち略73Hzから略350Hzの周波数帯域を有する。男性の音声であるバリトンは、およそG2からG4の声域、すなわち略98Hzから略392Hzの周波数帯域を有する。男性の音声であるテノールは、およそC3からC5の声域、すなわち略131Hzから略523Hzの周波数帯域を有する。総じて男性の音声は、略73Hzから略523Hzの周波数帯域を有する。 Bass, especially male voices, has a frequency range of approximately D2 to F4, ie approximately 73 Hz to approximately 350 Hz. The male voice baritone has a vocal range of approximately G2 to G4, or a frequency range of approximately 98 Hz to approximately 392 Hz. The male voice, the tenor, has a vocal range of approximately C3 to C5, or a frequency range of approximately 131 Hz to approximately 523 Hz. Male voice generally has a frequency band from approximately 73 Hz to approximately 523 Hz.
女性の音声であるアルトは、およそF3からE5の声域、すなわち略175Hzから略659Hzの周波数帯域を有する。女性の音声であるメゾソプラノは、およそA3からA5の声域、すなわち略220Hzから略880Hzの周波数帯域を有する。女性の音声であるソプラノは、およそC4からC6の声域、すなわち略262Hzから略1047Hzの周波数帯域を有する。総じて女性の音声は、略175Hzから略1047Hzの周波数帯域を有する。 Alto, the female voice, has a vocal range of approximately F3 to E5, or a frequency range of approximately 175 Hz to approximately 659 Hz. The female voice, mezzo-soprano, has a vocal range of approximately A3 to A5, ie, a frequency band of approximately 220 Hz to approximately 880 Hz. The female voice, the soprano, has a vocal range of approximately C4 to C6, ie, a frequency range of approximately 262 Hz to approximately 1047 Hz. Female voice generally has a frequency band from approximately 175 Hz to approximately 1047 Hz.
一方、図5に示されるように、楽器の演奏音は、略25Hzから略4400Hzの周波数帯域を有する。例として、パートデータDp1に対応するコントラバスは、およそE1からG3の音域、すなわち、略41Hzから略196Hzの周波数帯域を有する。パートデータDp2に対応するチェロは、およそC2からC5の音域、すなわち略65Hzから略523Hzの周波数帯域を有する。パートデータDp3に対応するビオラは、およそC3からC6の音域、すなわち略131Hzから略1047Hzの周波数帯域を有する。パートデータDp4に対応するバイオリンは、およそG3からE7の音域、すなわち略196Hzから略2637Hzの周波数帯域を有する。 On the other hand, as shown in FIG. 5, musical instrument performance sounds have a frequency band of approximately 25 Hz to approximately 4400 Hz. As an example, the contrabass corresponding to part data Dp1 has a sound range from E1 to G3, that is, a frequency band from approximately 41 Hz to approximately 196 Hz. The cello corresponding to the part data Dp2 has a frequency range from approximately C2 to C5, that is, approximately 65 Hz to approximately 523 Hz. The viola corresponding to the part data Dp3 has a sound range of approximately C3 to C6, that is, a frequency band of approximately 131 Hz to approximately 1047 Hz. The violin corresponding to part data Dp4 has a sound range from G3 to E7, that is, a frequency band from approximately 196 Hz to approximately 2637 Hz.
人間の音声の周波数帯域と、楽器の演奏音の周波数帯域とを比較すると、男性の音声の周波数帯域は、概ね、チェロの演奏音の周波数帯域に含まれると言える。一方、女性の音声の周波数帯域は、概ね、ビオラの演奏音の周波数帯域に含まれると言える。 Comparing the frequency band of human voice with the frequency band of sound played by a musical instrument, it can be said that the frequency band of male voice is generally included in the frequency band of sound played by a cello. On the other hand, it can be said that the frequency band of female voices is generally included in the frequency band of viola performance sounds.
マスキングデータDmの示す音楽に含まれる複数のパートの各々は、人間の音声のピッチ又はフォルマントに対応付けられている。例として、チェロのパートと、音声のピッチのうち、男性の音声であることを示すピッチとが対応付けられていてもよい。あるいは、チェロのパートと、音声のフォルマントのうち、男性の音声であることを示すフォルマントとが対応付けられていてもよい。同様に、ビオラのパートと、音声のピッチのうち、女性の音声であることを示すピッチとが対応付けられていてもよい。あるいは、ビオラのパートと、音声のフォルマントのうち、女性の音声であることを示すフォルマントとが対応付けられていてもよい。 Each of the parts included in the music indicated by the masking data Dm is associated with the pitch or formant of human speech. As an example, a cello part may be associated with a voice pitch indicating male voice. Alternatively, the cello part may be associated with a formant indicating male voice among voice formants. Similarly, a viola part may be associated with a pitch indicating that it is a female voice, among voice pitches. Alternatively, a viola part may be associated with a formant indicating a female voice among voice formants.
音楽データDxはMIDI(Musical Instrument Digital Interface)データであってよい。音楽データDxがMIDIデータである場合、所定楽曲の音楽データDxは、各々が各音色に対応する複数のパートデータDpを包含する。ここで、各パートデータDpに対応する音色は、楽器音のみならず、人の声、合成音等の楽器以外の音声の音色も含む。あるいは、音楽データDxは音楽信号をサンプリングすることによって得られたPCMデータであってもよい。また、音楽データDxがPCMデータである場合、音楽データDxは複数の音色に1対1に対応する複数のPCMデータから構成されてもよい。音楽データDxが、複数の音色が混在したPCMデータの場合には、周知の音源分離技術により、音楽データDxを複数の音色のPCMデータに分解し、その中から所定の音色(チェロ、ビオラ、等)を選択し、マスキングに利用しても良い。複数のPCMデータはパートデータDp1~Dpnに対応する。 The music data Dx may be MIDI (Musical Instrument Digital Interface) data. When the music data Dx is MIDI data, the music data Dx of a predetermined piece of music includes a plurality of part data Dp each corresponding to each timbre. Here, the timbre corresponding to each part data Dp includes not only instrumental sounds, but also timbres of non-instrumental sounds such as human voices and synthesized sounds. Alternatively, the music data Dx may be PCM data obtained by sampling a music signal. Further, when the music data Dx is PCM data, the music data Dx may be composed of a plurality of PCM data corresponding to a plurality of timbres on a one-to-one basis. When the music data Dx is PCM data in which a plurality of timbres are mixed, the music data Dx is decomposed into PCM data of a plurality of timbres by a well-known sound source separation technique, and a predetermined timbre (cello, viola, etc.) to be used for masking. A plurality of PCM data correspond to part data Dp1-Dpn.
図4に戻ると、生成部114は、分析部112によって生成された特徴データDfに基づいて、音声をマスキングする音楽を示すマスキングデータDmを生成する。とりわけ、本実施形態において、生成部114は、特徴データDfに基づいて、取得部113によって取得された音楽データDxに含まれる複数のパートデータDp1~Dpnのうち、1つのパートデータDpを選択する。次に、生成部114は、選択したパートデータDpの示す音のピッチ、及び音のレベルのうち少なくとも1つを補正することにより、マスキングデータDmを生成する。選択されたパートデータDpがDpsである場合、マスキングデータDmは、パートデータDpsが補正された1つのパートデータDps’と、上記の複数のパートデータDp1~Dpnのうち、当該補正の対象となった1つのパートデータDpsを除いたパートデータDpとを含む。
Returning to FIG. 4, the
より詳細には、生成部114は、音声の特徴にフォルマントが含まれる場合、音声のフォルマントに重なる音域のパートデータDpsを選択する。あるいは、生成部114は、音声の特徴にピッチが含まれる場合、音声のピッチと同じ周波数が含まれる音域のパートデータDpsを選択する。例として、音声のフォルマント又はピッチが、男性の音声に対応する場合には、生成部114は、チェロのパートを選択する。一方で、音声のフォルマント又はピッチが、女性の音声に対応する場合には、生成部114は、ビオラのパートを選択する。
More specifically, when the feature of speech includes formants, the
なお、適切なパートが存在しなかった場合には、生成部114は、既存のパートデータDp1~Dpnの中から、音声の特徴のうち、音声のフォルマントに最も近い音域のパートデータDpsを選択する。あるいは、生成部114は、既存のパートデータDp1~Dpnの中から、音声の特徴のうち音声のピッチに最も近い周波数を有する音域のパートデータDpsを選択する。
If there is no appropriate part, the
その上で、生成部114は、選択したパートデータDpsの示す音のレベルを、音声のレベルに応じて変更するように、当該パートデータDpsを補正し、パートデータDps’を生成する。より詳細には、生成部114は、パートデータDps’に基づく音楽をスピーカーから放音した場合に、放音される音楽によって音声データDvの示す音声をマスキングできるようにパートデータDpsを補正する。更に、生成部114は、補正されたパートデータDps’と、複数のパートデータDpのうち、当該補正の対象となったパートデータDpsを除いたパートデータDpとから、マスキングデータDmを生成する。とりわけ、検出部111によって検出された音声のレベルが大きい場合には、生成部114は、音声の大きさに応じて、選択したパートデータDpの示す音のレベルを上げるように、当該パートデータDpを補正する。
Then, the
また、本実施形態において、生成部114は、取得部113が、記憶装置12から音楽データDxを読み出している期間中に、検出部111によって音声データDvの音声区間が検出された場合、上記の補正を実行することで、マスキングデータDmを生成する。更に生成部114は、生成したマスキングデータDmを、選択部115に出力する。
Further, in the present embodiment, when the detecting
また、生成部114は、マスキングデータDmの出力と並行して、取得部113から取得した音楽データDxを、選択部115に出力する。
In parallel with outputting the masking data Dm, the
選択部115は、検出部111から入力される制御信号Sに基づいて、マスキングデータDmと音楽データDxのうち一方を選択し、再生装置15に出力する。より詳細には、制御信号Sが“ON”を示す値である場合には、選択部115は、マスキングデータDmを選択し、選択したマスキングデータDmを再生装置15に出力する。一方で、制御信号Sが“OFF”を示す値である場合には、選択部115は、音楽データDxを選択し、選択した音楽データDxを再生装置15に出力する。
The
再生装置15は、MIDIデータ又はPCMデータのフォーマットを、音楽データのフォーマットに変換する機能を有する。これにより、再生装置15は、常時音楽データDxの示す音楽を再生しており、その途中で、マスキングデータDmの示す音楽を再生するように動作を切り替える。この際、生成部114は、元々再生されていた音楽の一パートを示すパートデータDpsを補正する。このため、再生装置15によって再生される音楽を聴いていた人間にとって、違和感が発生しない。
The
図6は、生成部114によって出力される音楽データDx及びマスキングデータDmに含まれる各パートデータDpのレベルを示す図である。なお、図6に示す例は、音声データDvによって示される人間の音声が男性の音声である場合を示す。時刻t1の時点で、生成部114は、あらかじめ音楽データDxとして、チェロのパートデータDp2と、その他のパートデータDp1、Dp3及びDp4とをパラレルに選択部115に対して出力しておく。この間、選択部115は、音楽データDxを再生装置15に出力する。時刻t2の時点で、検出部111が人間の音声を検出すると、分析部112が、当該音声のレベルと、当該音声のピッチ、及びフォルマントのうち少なくとも1つを含む音声の特徴を示す特徴データDfを生成する。生成部114は、音域が当該音声のピッチと同じ周波数を含むパートデータDp、あるいは、音域が当該音声のフォルマントに重なるパートデータDpとして、チェロのパートデータDp2を選択する。更に、生成部114は、当該音声のレベルに応じて、チェロのパートデータDp2の示す音のレベルを上げるように、当該パートデータDp2を補正し、パートデータDp2’を生成する。生成部114は、音のレベルを上げたチェロのパートデータDp2を含むマスキングデータDmを、再生装置15に出力する。マスキングデータDmに含まれる他のパートデータDp1、Dp3及びDp4に関しては、引き続き音のレベルが変更されることがない。選択部115は、制御信号Sに基づいて、音楽データDxとマスキングデータDmとからマスキングデータDmを選択し、選択したマスキングデータDmを再生装置15に出力する。時刻t3の時点で、検出部111が人間の音声を検出しなくなると、生成部114は、チェロのパートデータDp2のレベルを元に戻す。その上で、生成部114は、チェロのパートデータDp2とその他のパートデータDp1、Dp3及びDp4を含む音楽データDxを再生装置15に出力し続ける。
FIG. 6 is a diagram showing the level of each part data Dp included in the music data Dx and the masking data Dm output by the
生成部114は、音のレベルに係る補正の代わりに、あるいは音のレベルに係る補正に加えて、検出部111によって検出された音声データDvによって示される音声のピッチに、選択したパートデータDpの示す音のピッチを近づけるように、当該選択したパートデータDpを補正し、パートデータDp’を生成してもよい。音声のピッチと補正後の音のピッチとの差分は、音声のピッチと補正前の音のピッチとの差分より小さい。従って、音声のピッチと補正後の音のピッチとは、不一致であってよい。
Instead of correcting the sound level, or in addition to correcting the sound level, the
より詳細には、生成部114は、人間の音声のピッチに応じて、選択したパートデータDpの示す音のキーをオクターブ単位で上下させるように、当該選択したパートデータDpを補正し、パートデータDp’を生成してもよい。これにより、生成部114は、音楽データDxが示す音楽の曲調を変更することなく、楽曲として成立させた状態で、選択したパートデータDpのみを補正することが可能となる。
More specifically, the
あるいは生成部114は、人間の音声のピッチに応じて、選択したパートデータDpの示す音のコードを半音単位で上下させるように、選択したパートデータDpを補正し、パートデータDp’を生成してもよい。これにより、音楽データDxが示す音楽の曲調は変わるものの、生成部114は、選択したパートデータDpの示す音のピッチを微調整することが可能となる。このように音のピッチを補正することによって、音のピッチが音声のピッチに近づくので、マスキングの効果が向上する。
Alternatively, the
〔1-2.第1実施形態の動作〕
図7は、第1実施形態に係るマスキング装置1の動作を示すフローチャートである。以下、図7を参照することにより、第1実施形態に係るマスキング装置1の動作について説明する。
[1-2. Operation of the First Embodiment]
FIG. 7 is a flow chart showing the operation of the
ステップS1において、取得部113は、記憶装置12から音楽データDxを取得する。
In step S<b>1 , the
ステップS2において、生成部114は、取得部113から取得した音楽データDxを、選択部115に出力する。選択部115は、音楽データDxを再生装置15に出力する。
In step S<b>2 , the
ステップS3において、検出部111によって人間の音声が検出された場合(S3:YES)には、マスキング装置1はステップS4の処理を実行する。検出部111によって人間の音声が検出されていない場合(S3:NO)には、マスキング装置1は、ステップS2の処理を実行する。
In step S3, when human voice is detected by the detection unit 111 (S3: YES), the
ステップS4において、分析部112は、検出部111によって検出された音声信号を分析することによって、音声の特徴を示す特徴データDfを生成する。
In step S4, the
ステップS5において、生成部114は、分析部112によって生成された特徴データDfに基づいて、音声をマスキングする音楽を示すマスキングデータDmを生成する。より詳細には、ステップS5において、生成部114は、特徴データDfに基づいて、取得部113によって取得された音楽データDxに含まれる複数のパートデータDpのうち、1つのパートデータDpsを選択する。次に、生成部114は、選択したパートデータDpsの示す音のレベルを特徴データDfに応じて変更するように、当該選択したパートデータDpsを補正し、パートデータDps’を生成する。更に、生成部114は、パートデータDps’と、複数のパートデータDpのうち、当該補正の対象となったパートデータDpsを除いたパートデータDpとから、マスキングデータDmを生成する。なお、生成部114は、選択したパートデータDpsの示す音のレベルの代わりに、あるいは音のレベルに加えて、音のピッチを特徴データDfに応じて変更してもよい。とりわけ、生成部114は、取得部113が記憶装置12から音楽データDxを読み出している期間中に、検出部111によって音声区間が検出された場合、上記の補正を実行する。
In step S<b>5 , the
ステップS6において、生成部114は、生成したマスキングデータDmを、選択部115に出力する。選択部115は、マスキングデータDmを再生装置15に出力する。
In step S<b>6 , the
〔2.第2実施形態〕
以下、本開示の第2実施形態に係るマスキング装置1について説明する。第2実施形態に係るマスキング装置1に備わる構成要素のうち、第1実施形態に係るマスキング装置1に備わる構成要素と同一の構成要素については、同一の符号を用いると共に、その機能の説明を省略する。
[2. Second Embodiment]
A
〔2-1.第2実施形態の構成〕
図8は、第2実施形態に係るマスキング装置1が備える制御装置11の機能的な構成を例示するブロック図である。第2実施形態に係るマスキング装置1は、第1実施形態に係るマスキング装置1に備わる生成部114の代わりに、生成部114Aを備える。
[2-1. Configuration of Second Embodiment]
FIG. 8 is a block diagram illustrating the functional configuration of the
生成部114Aは、複数のパートデータDpのうち所定のパートデータDpを音楽データDxとして、選択部115に出力する。一方で、生成部114Aは生成部114と同様の補正を実行する。その上で、生成部114Aは、上記の所定のパートデータDpと、補正後の一のパートデータDps’とを含むマスキングデータDmを、選択部115に出力する。
The
図9は、生成部114Aによって生成されるマスキングデータDmに含まれる各パートデータDpのレベルを示す図である。なお、図9に示す例は、人間の音声が男性の音声である場合を示す。時刻t1の時点で、生成部114は、あらかじめ音楽データDxとして、チェロ以外のその他のパートデータDpを、選択部115に対して出力しておく。「その他のパートデータ」は、例えばバイオリンのパートデータDp4である。この間、選択部115は、音楽データDxを再生装置15に出力する。時刻t2の時点で、検出部111が人間の音声を検出すると、分析部112が、当該音声のピッチ、レベル、及びフォルマントのうち、少なくとも1つを含む音声の特徴データDfを生成する。生成部114は、音域が当該音声のピッチと同じ周波数を含むパートデータDp、あるいは、音域が当該音声のフォルマントに重なるパートデータDpとして、チェロのパートデータDp2を選択する。更に、生成部114は、チェロのパートデータDp2によって示される音のレベルを、当該音声のレベルに応じて変更するように、当該チェロのパートデータDp2を補正し、パートデータDp2’を生成する。生成部114は、音のレベルを補正したチェロのパートデータDp2’と、音のレベルを補正していないバイオリンのパートデータDp4とを含むマスキングデータDmを、選択部115に出力する。選択部115は、制御信号Sに基づいて、音楽データDxとマスキングデータDmとからマスキングデータDmを選択し、選択したマスキングデータDmを再生装置15に出力する。時刻t3の時点で、検出部111が人間の音声を検出しなくなると、生成部114は、チェロの補正後のパートデータDp2’の出力を停止する。その上で、生成部114は、その他のパートデータDpであるバイオリンのパートデータDp4を、音楽データDxとして選択部115に出力し続ける。選択部115は、音楽データDxを再生装置15に出力する。
FIG. 9 is a diagram showing the level of each part data Dp included in the masking data Dm generated by the
〔2-2.第2実施形態の動作〕
第2実施形態に係るマスキング装置1の動作は、基本的には、第1実施形態に係るマスキング装置1の動作と同様であるため、その図示を省略する。
[2-2. Operation of Second Embodiment]
Since the operation of the
ステップS2において、生成部114Aは、音楽データDxに含まれる複数のパートデータDpのうち所定のパートデータDpを、選択部115に出力する。選択部115は、所定のパートデータDpを音楽データDxとして再生装置15に出力する。
In step S<b>2 , the
ステップS5において、生成部114Aは、生成部114と同様の補正を実行し、ステップS2における所定のパートデータDpと、補正後の一のパートデータDps’とを含むマスキングデータDmを、生成する。
In step S5, the
〔3.変形例〕
以上の実施態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は相矛盾しない限り適宜に併合され得る。
[3. Modification]
The above embodiment can be variously modified. Specific modification modes are exemplified below. Two or more aspects arbitrarily selected from the following examples may be combined as appropriate unless contradictory.
〔3-1.変形例1〕
上記の第1実施形態及び第2実施形態において、生成部114及び114Aは、取得部113によって記憶装置12から取得された音楽データDxを補正することにより、マスキングデータDmを生成していた。しかし、本発明の実施態様におけるマスキングデータDmの生成方法は、これには限定されない。例えば、生成部114及び114Aは、新たな曲を生成し、生成した曲に対応するマスキングデータDmを生成してもよい。例えば、生成部114及び114Aは、指定されたキー及びコードに基づいて自動で作曲又は伴奏する従来技術を適用することにより、新たな曲を生成してもよい。この場合、生成部114及び114Aは、検出部111によって検出された人間の音声のピッチに基づいてキーを決定し、予め選択されたコードに基づいて、自動で新たな曲を生成してもよい。
[3-1. Modification 1]
In the first and second embodiments described above, the generating
〔3-2.変形例2〕
上記の第1実施形態及び第2実施形態において、再生装置15は、生成部114から出力されるマスキングデータDmに基づいて、マスキング音としての音楽を再生していた。本変形例において、当該再生装置15は、更に、検出部111によって人間の音声が検出された場合に特化して、マスキング音としての音楽を再生してもよい。
[3-2. Modification 2]
In the above-described first and second embodiments, the reproducing
〔4.付記〕
上述した実施形態等から、例えば以下のような態様が把握される。
[4. Note]
For example, the following aspects can be grasped from the above-described embodiments and the like.
本開示の態様(第1態様)に係るマスキング装置1は、収音装置14から出力される出力信号から音声を示す音声信号を検出する検出部111を備える。また、当該マスキング装置1は、音声信号を分析することによって、音声の特徴を示す特徴データDfを生成する分析部112を備える。更に、当該マスキング装置1は、特徴データDfに基づいて、音声をマスキングする音楽を示すマスキングデータDmを生成する生成部114を備える。
The
この構成を有することにより、検出部111によって人間の音声をリアルタイムで検出し、分析部112で、音声の特徴を抽出し、生成部114で音声の特徴に応じた音楽データDxを生成することが可能となる。このため、マスキング装置1は、人間の発話に対してリアルタイムで対応するマスキングデータDmを生成し、生成されたマスキングデータDmに基づいて、人間の音声をマスキングする音楽を再生できる。また、マスキングに用いる音が音楽であるため、長時間聴いても疲れないといった利点がある。
With this configuration, the
また、第1態様の例(第2態様)において、音声の特徴は、音声のピッチ、音声のレベル、及び音声のフォルマントのうち、少なくとも1つを含む。 In addition, in the example of the first aspect (second aspect), the speech features include at least one of speech pitch, speech level, and speech formants.
この構成を有することにより、具体的な特徴として、人間の音声のピッチ、レベル、及びフォルマントのうち少なくとも1つに応じて、マスキング音としての音楽を示すマスキングデータDmを生成することが可能になる。例えば、人間の音声のピッチやフォルマントに応じて、当該音声を発話したのが男性か女性かを判別し、判別結果に応じて、マスキング音を生成することが可能となる。 With this configuration, as a specific feature, it is possible to generate masking data Dm representing music as a masking sound according to at least one of the pitch, level, and formants of human speech. . For example, it is possible to determine whether the utterance is male or female according to the pitch and formants of human speech, and to generate a masking sound according to the determination result.
また、第1態様の例(第3態様)は、音楽を示す音楽データDxを取得する取得部113を更に備える。生成部114は、特徴データDfに基づいて、音楽データDxを補正することにより、マスキングデータDmを生成する。
Further, the example of the first mode (third mode) further includes an
この構成を有することにより、予め記憶された音楽データDxを補正してマスキング音を示すマスキングデータDmを生成することで、簡便にマスキング音を生成することが可能となる。 With this configuration, the masking sound can be easily generated by correcting the pre-stored music data Dx to generate the masking data Dm representing the masking sound.
また、第1態様の例(第4態様)において、上記の音楽は、複数の音色と1対1に対応する複数のパートを含む。また、上記の音楽データDxは、複数のパートと1対1に対応する複数のパートデータDpを含む。また、生成部114は、特徴データDfに基づいて、複数のパートデータDpのうち一のパートデータDpsを選択する。更に、生成部114は、特徴データDfに基づいて、一のパートデータDpsの示す音のピッチ、及び一のパートデータDpsの示す音のレベルのうち少なくとも1つを補正することにより、マスキングデータDmを生成する。
Further, in the example of the first aspect (fourth aspect), the music includes a plurality of parts corresponding to a plurality of timbres on a one-to-one basis. Further, the music data Dx includes a plurality of part data Dp in one-to-one correspondence with a plurality of parts. Moreover, the
この構成を有することにより、人間の音声の特徴に応じて、音楽データDxによって示される音楽内で発せられる音のピッチ、及び音のレベルのうち少なくとも1つを補正することで、マスキング音を示すマスキングデータDmを生成することが可能となる。 With this configuration, masking sound is produced by correcting at least one of the pitch and sound level of the sound emitted in the music indicated by the music data Dx in accordance with the characteristics of human speech. Masking data Dm can be generated.
また、第1態様の例(第5態様)において、音声の特徴は、音声のフォルマントと音声のレベルとを含む。生成部114は、複数のパートデータDpのうち、音域が特徴データDfの示す音声のフォルマントに重なる一のパートデータDpsを選択し、特徴データDfの示す音声のレベルに応じて、選択した一のパートデータDpsの示す音のレベルを変更するように、当該選択した一のパートデータDpsを変更する。
In addition, in the example of the first aspect (fifth aspect), the speech features include speech formants and speech levels. The
この構成を有することにより、例えば、人間の音声が男性の音声か女性の音声かに応じて、パートデータDpsを選択し、選択したパートデータDpsのレベルを、人間の音声のレベルに合わせることが可能となる。 With this configuration, for example, it is possible to select part data Dps according to whether the human voice is a male voice or a female voice, and match the level of the selected part data Dps to the level of the human voice. It becomes possible.
また、第1態様の例(第6態様)において、音声の特徴は、音声のピッチと音声のレベルとを含む。生成部114は、複数のパートデータDpのうち、音域が特徴データDfの示す音声のピッチと同じ周波数を含む一のパートデータDpsを選択し、特徴データDfの示す音声のレベルに応じて、選択した一のパートデータDpsの示す音のレベルを変更するように、当該選択した一のパートデータDpsを補正する。
Also, in the example of the first aspect (sixth aspect), the audio features include the pitch of the audio and the level of the audio. The
この構成を有することにより、例えば、人間の音声が男性の音声か女性の音声かに応じて、パートデータDpsを選択し、選択したパートデータDpsのレベルを、人間の音声のレベルに合わせることが可能となる。 With this configuration, for example, it is possible to select part data Dps according to whether the human voice is a male voice or a female voice, and match the level of the selected part data Dps to the level of the human voice. It becomes possible.
また、第1態様の例(第7態様)において、音声の特徴は、音声のフォルマントと音声のレベルとを含む。生成部114は、複数のパートデータDpのうち、音域が特徴データDfの示す音声のフォルマントに重なる一のパートデータDpsを選択し、特徴データDfの示す音声のピッチに応じて、選択した一のパートデータDpsのピッチを変更するように、当該選択した一のパートデータDpsを補正する。
In addition, in the example of the first aspect (seventh aspect), the speech features include speech formants and speech levels. The
この構成を有することにより、例えば、人間の音声が男性の音声か女性の音声かに応じて、パートデータDpを選択し、選択したパートデータDpのピッチを、人間の音声のピッチに合わせることが可能となる。 With this configuration, for example, it is possible to select part data Dp according to whether the human voice is a male voice or a female voice, and match the pitch of the selected part data Dp to the pitch of the human voice. It becomes possible.
また、第1態様の例(第8態様)において、音声の特徴は、音声のピッチを含む。生成部114は、複数のパートデータDpのうち、音域が特徴データDfの示す音声のピッチと同じ周波数を含む一のパートデータDpsを選択し、特徴データDfの示す音声のピッチに応じて、選択した一のパートデータDpsのピッチを変更するように、当該選択した一のパートデータDpsを補正する。
In addition, in the example of the first mode (eighth mode), the speech feature includes the pitch of the speech. The
この構成を有することにより、例えば、人間の音声が男性の音声か女性の音声かに応じて、パートを選択し、選択したパートのピッチを、人間の音声のピッチに合わせることが可能となる。 With this configuration, it is possible, for example, to select a part according to whether the human voice is male or female, and match the pitch of the selected part to the pitch of the human voice.
また、第1態様の例(第9態様)において、生成部114は、選択した一のパートデータDpのキーを、オクターブ単位で上下させる。
In addition, in the example of the first mode (the ninth mode), the
この構成を有することにより、生成部114は、音楽データDxが示す音楽の曲調を変更することなく、楽曲として成立させた状態で、選択したパートデータDpsのみを補正することが可能となる。
With this configuration, the
また、第1態様の例(第10態様)において、生成部114は、選択した一のパートデータDpsのコードを、半音単位で上下させる。
In addition, in the example of the first aspect (tenth aspect), the
この構成を有することにより、生成部114は、選択したパートデータDpsのピッチを微調整することが可能となる。
With this configuration, the
また、第1態様の例(第11態様)において、マスキングデータDmは、補正された一のパートデータDps’と、上記の複数のパートデータDpのうち、上記の一のパートデータDpsを除いたパートデータDpとを含む。 Further, in the example of the first aspect (eleventh aspect), the masking data Dm includes the corrected one part data Dps' and the one part data Dps out of the plurality of part data Dp. and part data Dp.
この構成を有することにより、一つの楽器による演奏音を示すパートデータDpsを補正し、補正されたパートデータDps’と、当該パートデータDpが補正された楽器とは異なる楽器による演奏音を示すパートデータDpとから、マスキングデータDmを生成することが可能となる。 With this configuration, the part data Dps representing the sound played by one musical instrument is corrected, and the corrected part data Dps' and the part representing the sound played by a musical instrument different from the musical instrument for which the part data Dp was corrected are provided. The masking data Dm can be generated from the data Dp.
また、第1態様の例(第12態様)は、音楽データDxを記憶する記憶装置12を更に備える。取得部113は、記憶装置12から音楽データDxを読み出す。生成部114は、取得部113が音楽データDxを読み出している期間中に、検出部111によって音声信号が検出された場合、上記の補正を実行する。
The example of the first mode (twelfth mode) further includes a
この構成を有することにより、マスキング装置1は、予め複数の楽器の演奏音を含む楽曲を流しておき、人間の音声を感知して初めて、当該音声の特徴に応じて、例えば一部の楽器の演奏音を大きくすることが可能となる。これにより、人間が発話すると同時に、突然マスキング音を出力した場合に、発話した人間が感じる違和感を抑制することが可能となる。
By having this configuration, the
また、第1態様の例(第13態様)は、音楽データDxを記憶する記憶装置12を更に備える。取得部113は、記憶装置12から音楽データDxを読み出す。生成部114Aは、検出部111によって音声信号が検出されない場合、複数のパートデータDpのうち所定のパートを音楽データDxとして出力する。また、生成部114Aは、検出部111によって音声信号が検出された場合、上記の補正を実行し、所定のパートデータDpと補正された一のパートデータDps’とを含むマスキングデータDmを出力する。
Also, the example of the first aspect (the thirteenth aspect) further includes a
この構成を有することにより、マスキング装置1は、予め、あるパートデータDpの示す音楽を流しておき、人間の音声を感知して初めて、当該音声の特徴に応じて、他のパートデータDpsの示す音楽を挿入することが可能となる。これにより、人間が発話すると同時に、突然マスキング音を出力した場合に、発話した人間が感じる違和感を抑制することが可能となる。
With this configuration, the
また、第1態様の例(第14態様)において、音楽データDxは、MIDIデータであってもよい。 Further, in the example of the first mode (14th mode), the music data Dx may be MIDI data.
この構成を有することにより、音楽データDxとしてのMIDIデータを補正することで、マスキング音を示すマスキングデータDmを生成することが可能となる。 With this configuration, it is possible to generate masking data Dm representing a masking sound by correcting MIDI data as music data Dx.
あるいは、第1態様の例(第15態様)において、音楽データDxは、音信号であってもよい。 Alternatively, in the example of the first aspect (fifteenth aspect), the music data Dx may be a sound signal.
この構成を有することにより、音楽データDxとしての音信号を補正することで、マスキング音を示すマスキングデータDmを生成することが可能となる。 With this configuration, it is possible to generate the masking data Dm representing the masking sound by correcting the sound signal as the music data Dx.
また、第1態様の例(第16態様)において、生成部114は、音楽として新たな曲を生成し、生成した曲に対応するマスキングデータDmを生成する。
In addition, in the example of the first aspect (sixteenth aspect), the
この構成を有することにより、マスキング音のメロディを自動で生成することが可能となる。 With this configuration, it is possible to automatically generate the melody of the masking sound.
また、第1態様の例(第17態様)は、マスキングデータDmに基づいて音楽を再生する再生装置15を更に備える。
Further, the example of the first mode (17th mode) further includes a reproducing
この構成を有することにより、マスキング音としての音楽を再生することが可能となる。 With this configuration, it is possible to reproduce music as a masking sound.
また、第1態様の例(第18態様)において、再生装置15は、検出部111によって音声が検出された場合に、音楽を再生する。
In addition, in the example of the first mode (18th mode), the reproducing
この構成を有することにより、人間の発話のタイミングに合わせて、マスキング音としての音楽を再生することが可能となる。 With this configuration, it is possible to reproduce music as a masking sound in synchronization with the timing of human speech.
11…制御装置、12…記憶装置、13…操作装置、14…収音装置、14-1…第1の収音装置、14-2…第2の収音装置、15…再生装置、15-1…第1スピーカー、15-2…第2スピーカー、15-3…第3スピーカー、15-4…第4スピーカー、51~54…座席、71…フロントライトドア、72…フロントレフトドア、73…リアライトドア、74…リアレフトドア、111…検出部、112…分析部、113…取得部、114、114A…生成部
DESCRIPTION OF
Claims (18)
前記音声信号を分析することによって、前記音声の特徴を示す特徴データを生成する分析部と、
前記特徴データに基づいて、前記音声をマスキングする音楽を示すマスキングデータを生成する生成部と、
を備えるマスキング装置。 a detection unit that detects an audio signal representing audio from an output signal output from a microphone;
an analysis unit that generates feature data indicating features of the voice by analyzing the voice signal;
a generation unit that generates masking data indicating music for masking the voice based on the feature data;
A masking device comprising a
前記生成部は、前記特徴データに基づいて、前記音楽データを補正することにより、前記マスキングデータを生成する、請求項1又は請求項2に記載のマスキング装置。 further comprising an acquisition unit for acquiring music data representing music,
3. The masking apparatus according to claim 1, wherein said generator generates said masking data by correcting said music data based on said feature data.
前記音楽データは、前記複数のパートと1対1に対応する複数のパートデータを含み、
前記生成部は、
前記特徴データに基づいて、前記複数のパートデータのうち一のパートデータを選択し、
前記特徴データに基づいて、前記一のパートデータの示す音のピッチ、及び前記一のパートデータの示す音のレベルのうち少なくとも1つを補正することにより、前記マスキングデータを生成する、
請求項3に記載のマスキング装置。 The music includes a plurality of parts that correspond one-to-one with a plurality of tones,
the music data includes a plurality of part data corresponding to the plurality of parts on a one-to-one basis;
The generating unit
selecting one part data from among the plurality of part data based on the feature data;
generating the masking data by correcting at least one of the pitch of the sound indicated by the one part data and the level of the sound indicated by the one part data based on the feature data;
4. A masking device according to claim 3.
前記生成部は、
前記複数のパートデータのうち、音域が前記特徴データの示す前記音声のフォルマントに重なる一のパートデータを選択し、
前記特徴データの示す前記音声のレベルに応じて、選択した前記一のパートデータの示す音のレベルを変更するように、当該選択した前記一のパートデータを補正する、請求項4に記載のマスキング装置。 the features of the speech include formants of the speech and levels of the speech;
The generating unit
Selecting, from among the plurality of part data, one part data whose range overlaps with the formant of the speech indicated by the feature data;
5. Masking according to claim 4, wherein the selected one part data is corrected so as to change the sound level indicated by the selected one part data according to the sound level indicated by the feature data. Device.
前記生成部は、
前記複数のパートデータのうち、音域が前記特徴データの示す前記音声のピッチと同じ周波数を含む一のパートデータを選択し、
前記特徴データの示す前記音声のレベルに応じて、選択した前記一のパートデータの示す音のレベルを変更するように、当該選択した前記一のパートデータを補正する、請求項4に記載のマスキング装置。 the audio features include the pitch of the audio and the level of the audio;
The generating unit
Selecting one part data whose range includes the same frequency as the pitch of the voice indicated by the feature data from among the plurality of part data,
5. Masking according to claim 4, wherein the selected one part data is corrected so as to change the sound level indicated by the selected one part data according to the sound level indicated by the feature data. Device.
前記生成部は、
前記複数のパートデータのうち、音域が前記特徴データの示す前記音声のフォルマントに重なる一のパートデータを選択し、
前記特徴データの示す前記音声のピッチに応じて、選択した前記一のパートデータの示す音のピッチを変更するように、当該選択した前記一のパートデータを補正する、請求項4から請求項6のいずれか1項に記載のマスキング装置。 the features of the speech include formants of the speech and pitch of the speech;
The generating unit
Selecting, from among the plurality of part data, one part data whose range overlaps with the formant of the speech indicated by the feature data;
Claims 4 to 6, wherein the selected one part data is corrected so as to change the pitch of the sound indicated by the selected one part data according to the pitch of the voice indicated by the feature data. The masking device according to any one of Claims 1 to 3.
前記生成部は、
前記複数のパートデータのうち、音域が前記特徴データの示す前記音声のピッチと同じ周波数を含む一のパートデータを選択し、
前記特徴データの示す前記音声のピッチに応じて、選択した前記一のパートデータの示す音のピッチを変更するように、当該選択した前記一のパートデータを補正する、請求項4から請求項6のいずれか1項に記載のマスキング装置。 the features of the speech include the pitch of the speech;
The generating unit
Selecting one part data whose range includes the same frequency as the pitch of the voice indicated by the feature data from among the plurality of part data,
Claims 4 to 6, wherein the selected one part data is corrected so as to change the pitch of the sound indicated by the selected one part data according to the pitch of the voice indicated by the feature data. The masking device according to any one of Claims 1 to 3.
前記取得部は、前記記憶装置から前記音楽データを読み出し、
前記生成部は、前記取得部が前記音楽データを読み出している期間中に、前記検出部によって前記音声信号が検出された場合、前記補正を実行する、請求項4から請求項11のいずれか1項に記載のマスキング装置。 further comprising a storage unit for storing the music data,
The acquisition unit reads the music data from the storage device,
12. The generation unit according to any one of claims 4 to 11, wherein the generation unit performs the correction when the detection unit detects the audio signal while the acquisition unit is reading the music data. A masking device as described in Clause.
前記取得部は、前記記憶部から前記音楽データを読み出し、
前記生成部は、
前記検出部によって前記音声信号が検出されない場合、前記複数のパートデータのうち所定のパートデータを前記音楽データとして出力し、
前記検出部によって前記音声信号が検出された場合、前記補正を実行し、前記所定のパートデータと前記補正された一のパートデータとを含む前記マスキングデータを出力する、請求項4から請求項11のいずれか1項に記載のマスキング装置。 further comprising a storage unit for storing the music data,
The acquisition unit reads the music data from the storage unit,
The generating unit
outputting predetermined part data among the plurality of part data as the music data when the audio signal is not detected by the detection unit;
Claims 4 to 11, wherein when the detection unit detects the audio signal, the correction is performed, and the masking data including the predetermined part data and the corrected one part data is output. The masking device according to any one of Claims 1 to 3.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021126014A JP2023020577A (en) | 2021-07-30 | 2021-07-30 | masking device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021126014A JP2023020577A (en) | 2021-07-30 | 2021-07-30 | masking device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023020577A true JP2023020577A (en) | 2023-02-09 |
Family
ID=85159755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021126014A Pending JP2023020577A (en) | 2021-07-30 | 2021-07-30 | masking device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023020577A (en) |
-
2021
- 2021-07-30 JP JP2021126014A patent/JP2023020577A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Meyer | Acoustics and the performance of music: Manual for acousticians, audio engineers, musicians, architects and musical instrument makers | |
Henrich et al. | Vocal tract resonances in singing: Strategies used by sopranos, altos, tenors, and baritones | |
Campbell et al. | The musician's guide to acoustics | |
JP4645241B2 (en) | Voice processing apparatus and program | |
Pierce | The nature of musical sound | |
D'Orazio | Anechoic recordings of Italian opera played by orchestra, choir, and soloists | |
JP6728843B2 (en) | Electronic musical instrument, musical tone generating device, musical tone generating method and program | |
US11842720B2 (en) | Audio processing method and audio processing system | |
Gauer et al. | A versatile deep-neural-network-based music preprocessing and remixing scheme for cochlear implant listeners | |
WO2017057531A1 (en) | Acoustic processing device | |
JP3362491B2 (en) | Voice utterance device | |
JP2023020577A (en) | masking device | |
McAdams et al. | Timbral cues for learning to generalize musical instrument identity across pitch register | |
Luizard et al. | Changes in the voice production of solo singers across concert halls | |
Kato et al. | Musicians' adjustment of performance to room acoustics, part III: Understanding the variations in musical expressions | |
JPH0417000A (en) | Karaoke device | |
Smith et al. | Recent work on musical acoustics | |
KR20110025434A (en) | A method for enhancing emotion-rich song and device thereof | |
Traube | Instrumental and vocal timbre perception | |
Meyer | Acoustical demands for the conductor's location | |
Skirlis et al. | Spectral and temporal changes in singer performance with variation in vocal effort | |
Richardson | Orchestral acoustics | |
Schwär et al. | A Dataset of Larynx Microphone Recordings for Singing Voice Reconstruction | |
JP3494095B2 (en) | Tone element extraction apparatus and method, and storage medium | |
Meyer | Reflections on the spatial-sound imagination of great composers. |