JP5103974B2 - Masking sound generation apparatus, masking sound generation method and program - Google Patents

Masking sound generation apparatus, masking sound generation method and program Download PDF

Info

Publication number
JP5103974B2
JP5103974B2 JP2007075283A JP2007075283A JP5103974B2 JP 5103974 B2 JP5103974 B2 JP 5103974B2 JP 2007075283 A JP2007075283 A JP 2007075283A JP 2007075283 A JP2007075283 A JP 2007075283A JP 5103974 B2 JP5103974 B2 JP 5103974B2
Authority
JP
Japan
Prior art keywords
sound signal
sound
scrambled
signal
storage means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007075283A
Other languages
Japanese (ja)
Other versions
JP2008233672A (en
Inventor
敦子 伊藤
寧 清水
晃 三木
雅人 秦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2007075283A priority Critical patent/JP5103974B2/en
Publication of JP2008233672A publication Critical patent/JP2008233672A/en
Application granted granted Critical
Publication of JP5103974B2 publication Critical patent/JP5103974B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/80Jamming or countermeasure characterized by its function
    • H04K3/82Jamming or countermeasure characterized by its function related to preventing surveillance, interception or detection
    • H04K3/825Jamming or countermeasure characterized by its function related to preventing surveillance, interception or detection by jamming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/1752Masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K1/00Secret communication
    • H04K1/06Secret communication by transmitting the information or elements thereof at unnatural speeds or in jumbled order or backwards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K1/00Secret communication
    • H04K1/10Secret communication by using two signals transmitted simultaneously or successively
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K2203/00Jamming of communication; Countermeasures
    • H04K2203/10Jamming or countermeasure used for a particular application
    • H04K2203/12Jamming or countermeasure used for a particular application for acoustic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04KSECRET COMMUNICATION; JAMMING OF COMMUNICATION
    • H04K3/00Jamming of communication; Counter-measures
    • H04K3/40Jamming having variable characteristics
    • H04K3/45Jamming having variable characteristics characterized by including monitoring of the target or target signal, e.g. in reactive jammers or follower jammers for example by means of an alternation of jamming phases and monitoring phases, called "look-through mode"

Abstract

<P>PROBLEM TO BE SOLVED: To provide a technique for generating a masking sound having sound characteristics most suitable for masking sound characteristic of a sound to be masked. <P>SOLUTION: In a masking sound generation apparatus according to the present invention, a storage means thereof stores a scramble sound signal having been processed in advance so that a meaning as a language can not be decided. In operation mode 1, a CPU analyzes sound characteristics of a noise generated in a sound space, reads a scramble sound signal similar to the analysis result out of the storage means, and outputs it as a masking sound. In operation mode 2, when a user specifies a scramble sound signal directly or when information associated with properties of a person using the sound space etc., is received, the CPU selects and reads a scramble sound signal out of the storage means according to the input contents and outputs it as a masking sound. <P>COPYRIGHT: (C)2009,JPO&amp;INPIT

Description

本発明は、マスキングサウンドを生成する技術に関する。   The present invention relates to a technique for generating a masking sound.

ある音(対象音)が聞こえているときに対象音に近い音響特性(周波数特性など)を持つ別の音(マスキングサウンド)が存在すると、その対象音が聞こえにくくなるという現象が一般に知られており、マスキング効果と呼ばれている。マスキング効果は、人間の聴覚特性に根ざしたものであり、マスキングサウンドの周波数が対象音の周波数に近いほど、また、マスキングサウンドの音量レベルが対象音の音量レベルに対して相対的に高いほど顕著になることが知られている。   It is generally known that when a certain sound (target sound) is heard and there is another sound (masking sound) with acoustic characteristics (frequency characteristics, etc.) close to the target sound, the target sound becomes difficult to hear. This is called the masking effect. The masking effect is rooted in human auditory characteristics, and becomes more prominent as the masking sound frequency is closer to the target sound frequency and the masking sound volume level is higher relative to the target sound volume level. It is known to become.

このマスキング効果を利用した音響技術は、従来種々提案されており、その例として特許文献1ないし2に開示された技術が挙げられる。特許文献1には、取得した音を所定のフレームに分割し、各フレーム内で時間的に逆に再生することにより音を無意味化しマスキングサウンドを生成する技術が開示されている。また、特許文献2には、音信号を複数のセグメントに分割し、この複数のセグメントの順序を入れ替えることにより音を無意味化しマスキングサウンドを生成する技術が開示されている。
特願2006−242344号公報 特表2005−554061号公報
Various acoustic techniques using this masking effect have been proposed in the past, and examples thereof include techniques disclosed in Patent Documents 1 and 2. Japanese Patent Application Laid-Open No. 2004-151620 discloses a technique for generating a masking sound by making an acquired sound meaningless by dividing an acquired sound into predetermined frames and playing back in reverse in each frame. Patent Document 2 discloses a technique for generating a masking sound by making a sound meaningless by dividing a sound signal into a plurality of segments and changing the order of the plurality of segments.
Japanese Patent Application No. 2006-242344 JP-T-2005-554061

特許文献1および2に記載の技術によれば、収音した音からリアルタイムにマスキングサウンドを生成するため、音信号の処理に高いパフォーマンスが要求されていた。
本発明は上記の問題に鑑みてなされたものであり、マスキングしたい音の音響特性をマスキングするのに最も適した音響特性を有するマスキングサウンドを生成する技術を提供することにある。
According to the techniques described in Patent Documents 1 and 2, since a masking sound is generated in real time from the collected sound, high performance is required for processing the sound signal.
The present invention has been made in view of the above problems, and it is an object of the present invention to provide a technique for generating a masking sound having an acoustic characteristic most suitable for masking an acoustic characteristic of a sound to be masked.

本発明に係るマスキングサウンド生成装置は、話速が大きいほど一の区間の時間長を短くするように、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々について前記話速を含む音響特性を記憶する記憶手段と、音し音の話速を含む音響特性を分析する音響特性分析手段と、前記音響特性分析手段により分析された音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力手段とを具備し、音信号に含まれる波形のピーク数を当該音信号の時間長で除して、当該音信号の話速としたことを特徴とする Masking sound generating apparatus according to the present invention, to shorten the time length of about one interval is large speech speed, by Ri before Kion signal to reconstruct by dividing the sound signal into predetermined time lengths of sections scrambled sound signal time series is changed along with storing multiple storage means for storing the acoustic characteristics including the speech speed for each of the scrambling sound signal, the acoustic characteristics including speech speed of sound collection and the sound Analyzing acoustic characteristic analyzing means, comparing the acoustic characteristics analyzed by the acoustic characteristic analyzing means and the acoustic characteristics of the scrambled sound signal by a predetermined algorithm to determine a scrambled sound signal, and determining the determined from the storage means and an output means for outputting the scramble sound signal is read out, the peak number of waveform included in the sound signal by dividing the time length of the sound signal, it has a speech speed of the sound signal And wherein

また、本発明に係るマスキングサウンド生成装置は、話速が大きいほど一の区間の時間長を短くするように、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々について前記話速を含む音響特性を記憶する記憶手段と、スキングされる音の音響特性に関する情報を、操作者から受取る受取手段と、前記受取手段により受取られた音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力手段とを具備し、音信号に含まれる波形のピーク数を当該音信号の時間長で除して、当該音信号の話速としたことを特徴とする。 Further, the masking sound generating apparatus according to the present invention, to shorten the time length of the speech speed is too large one section, before Ri by the fact reconstructed by dividing the sound signal into predetermined time lengths of sections Stories scrambled sound signal time series is modified sound signal with a plurality of storage, storage means for storing the acoustic characteristics including the speech speed for each of the scrambling sound signal, information regarding the acoustic characteristics of the sound Masking A receiving means for receiving from the operator, and comparing the acoustic characteristics received by the receiving means and the acoustic characteristics of the scrambled sound signal by a predetermined algorithm to determine a scrambled sound signal, and determining the determined scrambled from the storage means and an output means for outputting a sound signal is read, the peak number of waveform included in the sound signal by dividing the time length of the sound signal, the speech speed of the sound signal Characterized in that it was.

また、本発明に係るマスキングサウンド生成装置は、話速が大きいほど一の区間の時間長を短くするように、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶する記憶手段と、記記憶手段に記憶されたスクランブル音信号のいずれかを、操作者から指定する指示信号を受取る受取手段と、前記受取手段により受取られた指示信号が示すスクランブル音信号を、前記記憶手段から読出して出力する出力手段とを具備し、音信号に含まれる波形のピーク数を当該音信号の時間長で除して、当該音信号の話速としたことを特徴とする。 Further, the masking sound generating apparatus according to the present invention, to shorten the time length of the speech speed is too large one section, before Ri by the fact reconstructed by dividing the sound signal into predetermined time lengths of sections Stories storing means for storing a plurality of scramble sound signal time series is modified sound signal, one of the stored scrambled sound signal before term memory unit, a receiving means for receiving an indication signal designating the operator, the Output means for reading out and outputting the scrambled sound signal indicated by the instruction signal received by the receiving means from the storage means , and dividing the peak number of the waveform included in the sound signal by the time length of the sound signal. The speech speed of the sound signal is used.

本発明に係るマスキングサウンド生成装置は、上記の構成において、音信号を受取り、話速が大きいほど一の区間の時間長を短くするように、当該音信号を所定時間長の区間に分割して再構成することにより、受取った音信号の時系列が変更されたスクランブル音信号を生成し、前記記憶手段に記憶させるスクランブル手段を具備することを特徴とする。 The masking sound generation apparatus according to the present invention receives the sound signal in the above configuration, and divides the sound signal into predetermined time length sections so that the time length of one section is shortened as the speech speed increases. by reconstructing, time series of the received sound signal to generate a modified scrambled sound signal, characterized that you include a scrambling means for storing in said memory means.

また、本発明に係るマスキングサウンド生成装置は一の音信号を複数に複製した複数の音信号をそれぞれ所定時間長の区間に分割して、前記各音信号の時系列を変更した後、前記複数の音信号を重ね合わせてスクランブル音信号を生成するスクランブル手段と、前記スクランブル手段により生成されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々の音響特性を記憶する記憶手段と、収音した音の音響特性を分析する音響特性分析手段と、前記音響特性分析手段により分析された音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力手段とを具備することを特徴とする。 Further, the masking sound generating equipment according to the present invention divides one sound signal a plurality of sound signals obtained by copying the plurality of respective predetermined time length of the interval, after changing the time series of the each sound signal, Scrambling means for generating a scrambled sound signal by superimposing the plurality of sound signals; storage means for storing a plurality of scrambled sound signals generated by the scrambled means and storing acoustic characteristics of each of the scrambled sound signals; Determining the scrambled sound signal by comparing the acoustic characteristic analyzed by the acoustic characteristic analyzing unit with the acoustic characteristic of the scrambled sound signal by a predetermined algorithm; And an output means for reading out and outputting the determined scrambled sound signal from the storage means.

また、本発明に係るマスキングサウンド生成装置は、一の音信号を複数に複製した複数の音信号をそれぞれ所定時間長の区間に分割して、前記各音信号の時系列を変更した後、前記複数の音信号を重ね合わせてスクランブル音信号を生成するスクランブル手段と、前記スクランブル手段により生成されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々の音響特性を記憶する記憶手段と、マスキングされる音の音響特性に関する情報を、操作者から受取る受取手段と、前記受取手段により受取られた音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力手段とを具備することを特徴とする。 Further, the masking sound generation device according to the present invention divides a plurality of sound signals obtained by duplicating one sound signal into a plurality of sections each having a predetermined time length, and after changing the time series of each sound signal, Scramble means for generating a scrambled sound signal by superimposing a plurality of sound signals; storage means for storing a plurality of scrambled sound signals generated by the scramble means; and storing acoustic characteristics of each of the scrambled sound signals; A receiving means for receiving information on the acoustic characteristics of the sound to be masked from the operator, and comparing the acoustic characteristics received by the receiving means with the acoustic characteristics of the scrambled sound signal by a predetermined algorithm to determine a scrambled sound signal Output means for reading out and outputting the determined scrambled sound signal from the storage means. And butterflies.

また、本発明に係るマスキングサウンド生成装置は、一の音信号を複数に複製した複数の音信号をそれぞれ所定時間長の区間に分割して、前記各音信号の時系列を変更した後、前記複数の音信号を重ね合わせてスクランブル音信号を生成するスクランブル手段と、前記スクランブル手段により生成されたスクランブル音信号を複数記憶する記憶手段と、前記記憶手段に記憶されたスクランブル音信号のいずれかを指定する指示信号を、操作者から受取る受取手段と、前記受取手段により受取られた指示信号が示すスクランブル音信号を、前記記憶手段から読出して出力する出力手段とを具備することを特徴とする。 Further, the masking sound generation device according to the present invention divides a plurality of sound signals obtained by duplicating one sound signal into a plurality of sections each having a predetermined time length, and after changing the time series of each sound signal, One of scramble means for generating a scramble sound signal by superimposing a plurality of sound signals, a storage means for storing a plurality of scramble sound signals generated by the scramble means, and a scramble sound signal stored in the storage means. It comprises receiving means for receiving an instruction signal to be specified from an operator, and output means for reading out and outputting a scrambled sound signal indicated by the instruction signal received by the receiving means from the storage means.

本発明に係るマスキングサウンド生成装置は、上記の構成において、前記スクランブル手段は、一の音信号を一定長の前記所定時間長の区間に分割してもよい。
また、本発明に係るマスキングサウンド生成装置は、上記の構成において、前記スクランブル手段は、前記複数の音信号で異なる時間長の区間に分割してもよい。
In the masking sound generation apparatus according to the present invention, in the configuration described above, the scrambler may divide one sound signal into sections of the predetermined time length having a certain length.
In the masking sound generation apparatus according to the present invention, in the above configuration, the scramble means may divide the plurality of sound signals into sections having different time lengths.

また、本発明に係るマスキングサウンド生成装置は、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々について音響空間の種類を含む音響特性を記憶し、更に、ランダムノイズの音信号を記憶する記憶手段と、マスキングされる音が放音される音響空間の種類を含む音響特性に関する情報を、操作者から受取る受取手段と、前記受取手段により受取られた情報が示す前記音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較して、前記スクランブル音信号又は前記ランダムノイズの音信号を決定し、前記記憶手段から該決定したスクランブル音信号又はランダムノイズの音信号を読出して出力する出力手段とを具備することを特徴とする。 Further, the masking sound generation apparatus according to the present invention stores a plurality of scrambled sound signals in which the time series of the sound signal is changed by dividing the sound signal into sections of a predetermined time length, and reconfiguring the sound signal. Information on acoustic characteristics including the acoustic characteristics including the type of acoustic space for each of the sound signals, and further storing the random noise signal and the type of acoustic space from which the masked sound is emitted Is received from the operator, and the acoustic characteristics indicated by the information received by the receiving means and the acoustic characteristics of the scrambled sound signal are compared by a predetermined algorithm, and the scrambled sound signal or the random noise is compared. A sound signal is determined, and the determined scrambled sound signal or random noise sound signal is read from the storage means and output. Characterized by comprising an output unit that.

本発明は、マスキングサウンド生成装置のほか、マスキングサウンド生成方法、プログラムとしても概念することが可能である。The present invention can be conceptualized as a masking sound generation method, a program, as well as a masking sound generation device.

本発明に係るマスキングサウンド生成装置、マスキングサウンド生成方法およびプログラにより、マスキングしたい音の音響特性をマスキングするのに最も適した音響特性を有するマスキングサウンドを生成することができる。 The masking sound generating apparatus, the masking sound generating method and program according to the present invention, it is possible to generate a masking sound having the best acoustic properties for masking the acoustic characteristics of the masking want sounds.

以下、本発明の実施形態について図面を用いて説明する。
(A;構成)
(A−1;全体構成)
図1は、本発明に係るサウンドマスキングシステム1の構成を示す図である。図1に示すように、音響空間20Aには、マイクロホン30が天井から吊り下げられて設置されている。音響空間20Bにはスピーカ40が天井から吊り下げられて設置されている。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
(A: Configuration)
(A-1: Overall configuration)
FIG. 1 is a diagram showing a configuration of a sound masking system 1 according to the present invention. As shown in FIG. 1, a microphone 30 is suspended from the ceiling and installed in the acoustic space 20A. A speaker 40 is suspended from the ceiling and installed in the acoustic space 20B.

マイクロホン30は、音響空間20Aにおける音(人間の話し声や空調の動作音などの可聴音)を収音してアナログの音信号に変換し、マスキングサウンド生成装置10へ出力する。
スピーカ40は、マスキングサウンド生成装置10からアナログの音信号を受取り、音響空間20Bにおいて再生する。
The microphone 30 picks up sound in the acoustic space 20 </ b> A (audible sound such as human speech or air-conditioning operation sound), converts it into an analog sound signal, and outputs the analog sound signal to the masking sound generator 10.
The speaker 40 receives an analog sound signal from the masking sound generator 10 and reproduces it in the acoustic space 20B.

(A−2;マスキングサウンド生成装置10の構成)
次に、マスキングサウンド生成装置10の構成について図2を参照して説明する。マスキングサウンド生成装置10は、マスキングサウンド(マスカー)を表す音信号を生成する。該マスキングサウンドは音響空間20Bにおいて放音され、音響空間20Aにおける会話の内容を他の音響空間20Bのユーザに聞きとられにくくしたり(セキュリティーの保護)、他の音響空間20Bのユーザが音響空間20Aから漏れ聞こえる音により会話が妨害されたり作業の集中を乱されたりしないようにする(騒音のマスキング)。
(A-2: Configuration of the masking sound generator 10)
Next, the configuration of the masking sound generation apparatus 10 will be described with reference to FIG. The masking sound generation device 10 generates a sound signal representing a masking sound (masker). The masking sound is emitted in the acoustic space 20B, and the contents of the conversation in the acoustic space 20A are difficult to be heard by other users of the acoustic space 20B (security protection). The sound that can be heard from 20A is prevented from disturbing the conversation or disturbing the concentration of work (masking of noise).

CPU(Central Processing Unit)100は、記憶部200に格納されている各種プログラムを実行することにより本発明に特徴的な動作を行ったり、マスキングサウンド生成装置10の各部の動作を制御したりする。   A CPU (Central Processing Unit) 100 executes various programs stored in the storage unit 200 to perform operations characteristic of the present invention and control operations of each unit of the masking sound generation apparatus 10.

音声入力部300は、アナログ/デジタル(以下、「A/D」と略記する)コンバータ310と入力端子320とを有する。入力端子320にはマイクロホン30が接続されており、マイクロホン30により生成された音信号は、入力端子320を介してA/Dコンバータ310へ入力される。A/Dコンバータ310は、マイクロホン30から受取った音信号にA/D変換を施し、デジタルの音信号をCPU100へ出力する。   The audio input unit 300 includes an analog / digital (hereinafter abbreviated as “A / D”) converter 310 and an input terminal 320. The microphone 30 is connected to the input terminal 320, and the sound signal generated by the microphone 30 is input to the A / D converter 310 via the input terminal 320. The A / D converter 310 performs A / D conversion on the sound signal received from the microphone 30 and outputs a digital sound signal to the CPU 100.

音声出力部400は、D/Aコンバータ410とアンプ420と出力端子430とを有する。D/Aコンバータ410は、CPU100から受取った音信号に対して、D/A変換を施すことによってアナログの音信号へ変換する。アンプ420は、D/Aコンバータ410から受取った音信号の振幅(マスタボリューム)を最適な値に調整して、マスキング効果が最大となるように制御する。音信号の増幅率は、後述する操作部500からの信号に基づいてCPU100により制御される。出力端子430はスピーカ40と接続されており、音信号はスピーカ40へ出力され、音響空間20Bにおいてマスキングサウンド(マスカー)として放音される。   The audio output unit 400 includes a D / A converter 410, an amplifier 420, and an output terminal 430. The D / A converter 410 converts the sound signal received from the CPU 100 into an analog sound signal by performing D / A conversion. The amplifier 420 adjusts the amplitude (master volume) of the sound signal received from the D / A converter 410 to an optimal value, and controls so that the masking effect is maximized. The amplification factor of the sound signal is controlled by the CPU 100 based on a signal from the operation unit 500 described later. The output terminal 430 is connected to the speaker 40, and the sound signal is output to the speaker 40 and emitted as a masking sound (masker) in the acoustic space 20B.

操作部500はタッチパネルを有する入力装置であり、マスキングサウンド生成装置10のユーザにより該タッチパネルが押下された場合に、操作内容をCPU100へと出力する。図3は、操作部500の外観を示した図である。操作部500のタッチパネルは、動作モード選択部510、音信号選択部520、性別選択部530、年齢選択部540、言語選択部550、音響空間選択部560、および音量レベル選択部570を有する。   The operation unit 500 is an input device having a touch panel, and outputs an operation content to the CPU 100 when the user of the masking sound generation device 10 is pressed. FIG. 3 is a diagram illustrating an appearance of the operation unit 500. The touch panel of the operation unit 500 includes an operation mode selection unit 510, a sound signal selection unit 520, a gender selection unit 530, an age selection unit 540, a language selection unit 550, an acoustic space selection unit 560, and a volume level selection unit 570.

ユーザによりタッチパネル上の特定の領域が押下されると、該領域は同図に例示されているように選択された領域が網掛け表示となると共に、対応する項目が選択されたことを示す信号がCPU100に出力される。なお、音量レベル選択部570においては、大きい数字ほど大きい音量レベルが対応付けられている。以下ではそれらの信号を、それぞれ動作モード選択情報、音信号選択情報、性別選択情報、年齢選択情報、言語選択情報、音響空間選択情報、および音量レベル選択情報と呼ぶ。また、性別選択情報、年齢選択情報、言語選択情報、および音響空間選択情報を条件設定情報と総称する。   When a specific area on the touch panel is pressed by the user, the selected area is shaded as shown in the figure, and a signal indicating that the corresponding item is selected is displayed. The data is output to the CPU 100. In the sound volume level selection unit 570, a larger sound volume level is associated with a larger number. Hereinafter, these signals are referred to as operation mode selection information, sound signal selection information, gender selection information, age selection information, language selection information, acoustic space selection information, and volume level selection information, respectively. Moreover, sex selection information, age selection information, language selection information, and acoustic space selection information are collectively referred to as condition setting information.

再び図2において、光ディスク再生装置600は、装着された光ディスクから記録されているデータを読み出す装置である。読み出されたデータは、CPU100へ出力される。   In FIG. 2 again, the optical disk reproducing device 600 is a device for reading data recorded from the loaded optical disk. The read data is output to the CPU 100.

記憶部200は、ROM(Read Only Memory)210およびRAM(Random Access Memory)220を有する。
ROM210は、本発明に特徴的な機能をCPU100に実行させるための制御プログラムやデータが格納されている。
RAM220は、各種の記憶領域を有し、CPU100によってワークエリアとして利用される。また、RAM220は、音声入力部300から受取った各音信号を所定時間分記憶可能な音信号記憶領域を有する。前記所定時間は長時間であるほど好ましく、マスキングサウンド生成装置としては高い性能を有するが、ハード資源の容量や性能により上限値があるため、本実施形態においては一例として180秒に設定した。また、RAM220は、マスキングサウンドの音信号生成に係るパラメータなど各種のデータを記憶する。
以上に説明した各ユニットは、バス700を介して接続されており、互いにデータの授受を行う。
The storage unit 200 includes a ROM (Read Only Memory) 210 and a RAM (Random Access Memory) 220.
The ROM 210 stores a control program and data for causing the CPU 100 to execute functions characteristic of the present invention.
The RAM 220 has various storage areas and is used as a work area by the CPU 100. The RAM 220 has a sound signal storage area capable of storing each sound signal received from the sound input unit 300 for a predetermined time. The predetermined time is preferably as long as possible, and the masking sound generation device has high performance, but has an upper limit value depending on the capacity and performance of hardware resources. Therefore, in this embodiment, the predetermined time is set to 180 seconds. In addition, the RAM 220 stores various data such as parameters relating to the sound signal generation of the masking sound.
The units described above are connected via a bus 700 and exchange data with each other.

(A−3;制御プログラムおよびデータ)
次に、ROM210に記憶されている制御プログラムについて説明する。CPU100は、制御プログラムを実行することにより、以下に説明する処理を始めとする各種の処理を実行する。
(A-3; control program and data)
Next, the control program stored in the ROM 210 will be described. The CPU 100 executes various processes including the process described below by executing the control program.

まず、「音響特性分析処理」について説明する。音響特性分析処理とは、入力された音信号を所定長の区間に分割し、生成された各断片(以下、フレームと呼ぶ)における話速、フォルマント、および周波数特性を分析する処理である。   First, the “acoustic characteristic analysis process” will be described. The acoustic characteristic analysis process is a process of dividing an input sound signal into sections of a predetermined length and analyzing speech speed, formant, and frequency characteristics in each generated fragment (hereinafter referred to as a frame).

まず、話速の分析について説明する。本実施形態において、「話速(発話速度)」とは、音声が発せられるときの速さであり、単位時間あたりの音節数などで定義される。ここで音節とは、一定の声の長さを持つ音素(例えば母音)のまとまり、または一定の声の長さを持つ音素の前および/または後に非常に短い音素(例えば子音)を従えるまとまりを意味する。音響特性分析処理において、CPU100は、受取った音信号の各フレームについて、音信号の時間軸波形を生成し、当該時間軸波形のエンベロープ(包絡線)にスムージング処理を施す。そしてスムージング処理された波形から各音節を構成する波形のピーク位置をフレームごとに検出して、ピーク数を計測する。その後、当該ピーク数を音節数とし、音節数をフレーム長で除した単位時間あたりの音節数を話速として算出する。ここでピークとは、各音節を構成する波形においてレベルが最大の箇所を言う。話速はフレーム毎に異なるが、CPU100は、上記フレームごとにその時点での話速を分析し、それらの値の平均値、該平均値のフレーム間のばらつきである標準偏差σを算出し出力する。   First, the analysis of speech speed will be described. In the present embodiment, “speech speed (speech speed)” is the speed at which a voice is emitted, and is defined by the number of syllables per unit time or the like. Here, a syllable is a group of phonemes (eg, vowels) with a certain voice length, or a group that can follow a very short phoneme (eg, consonants) before and / or after a phoneme with a certain voice length. means. In the acoustic characteristic analysis process, the CPU 100 generates a time axis waveform of the sound signal for each frame of the received sound signal, and performs a smoothing process on the envelope (envelope) of the time axis waveform. Then, the peak position of the waveform constituting each syllable is detected for each frame from the smoothed waveform, and the number of peaks is measured. Then, the number of syllables per unit time obtained by dividing the peak number as the syllable number and dividing the syllable number by the frame length is calculated as the speech speed. Here, the peak means a portion having the maximum level in the waveform constituting each syllable. Although the speech speed varies from frame to frame, the CPU 100 analyzes the speech speed at that time for each frame, calculates the average value of these values, and the standard deviation σ, which is the variation between the average values, and outputs it. To do.

次に、フォルマントの分析について説明する。フォルマントとは、音声のスペクトル包絡上で特定の周波数領域にエネルギーが集中して生じる山である。これは、人間の声などが固有に持っている周波数スペクトル(倍音成分の分布パターン)であり、声の高さや強さに依存しないという特徴を有する。フォルマントを分析することで、話者の性別、年齢、使用言語などを読み取ることができることが知られている。音響特性分析処理において、CPU100は、受取った音信号の各フレームにおける波形をフーリエ変換する。そしてCPU100は、フーリエ変換により得られた振幅スペクトルの対数を求め、それをフーリエ逆変換して各フレームのスペクトル包絡を生成する。そしてCPU100は、得られたスペクトル包絡の低い周波数から第1フォルマントの周波数および第2フォルマントの周波数、第3フォルマントの周波数を抽出する。なお、本実施形態においては、第1ないし第3フォルマントの周波数を抽出するが、そのうちいずれか1つまたは2つ、または第4フォルマント以降について分析しても良い。   Next, formant analysis will be described. A formant is a mountain formed by concentrating energy in a specific frequency region on the spectrum envelope of speech. This is a frequency spectrum (overtone component distribution pattern) inherent to a human voice or the like, and has a feature that it does not depend on the pitch or strength of the voice. It is known that the sex, age, language used, etc. of a speaker can be read by analyzing formants. In the acoustic characteristic analysis process, the CPU 100 performs a Fourier transform on the waveform of each received sound signal in each frame. Then, the CPU 100 obtains the logarithm of the amplitude spectrum obtained by the Fourier transform, and inversely transforms it to generate the spectrum envelope of each frame. Then, the CPU 100 extracts the first formant frequency, the second formant frequency, and the third formant frequency from the obtained low frequency envelope frequency. In the present embodiment, the frequencies of the first to third formants are extracted, but any one or two of them, or the fourth and subsequent formants may be analyzed.

次に、周波数特性の分析について説明する。CPU100は、受取った音信号をフレームごとに読み出し、フーリエ変換により各フレームの周波数領域のスペクトルデータを生成する。生成されたスペクトルデータからは、音信号が表す音のピッチなどを読み取ることが出来る。
以上が、音響特性分析処理である。
Next, frequency characteristic analysis will be described. The CPU 100 reads the received sound signal for each frame and generates spectrum data in the frequency domain of each frame by Fourier transform. From the generated spectrum data, the pitch of the sound represented by the sound signal can be read.
The above is the acoustic characteristic analysis process.

次に、音信号の「リバース処理」について説明する。リバース処理において、CPU100は、受取った音信号の各フレームを一旦時間軸領域の信号に変換する。そして、該音信号の各フレームを時間軸において逆から読み出し、各音信号を新たな音信号へ変換する。本処理は、すなわち元の音信号が生成された順序とは逆の時間的順序で古いデータから読み出して新たな音信号を生成する処理である。このリバース処理により生成された音信号からは、処理前の音信号に含まれていた内容を理解することはできない。   Next, “reverse processing” of sound signals will be described. In the reverse processing, the CPU 100 once converts each frame of the received sound signal into a signal in the time axis region. Then, each frame of the sound signal is read from the reverse on the time axis, and each sound signal is converted into a new sound signal. This process is a process of reading out old data and generating a new sound signal in a temporal order opposite to the order in which the original sound signal was generated. From the sound signal generated by the reverse processing, the contents contained in the sound signal before the processing cannot be understood.

次に、音信号の各フレームの「窓掛け処理」について説明する。窓掛け処理とは、内容が連続していないフレーム同士を接続する場合に、その音がスムーズに移行するように接続部分の波形を変換する処理である。
具体的には、CPU100は、例えば三角関数などからなる「整形関数」を各フレームの音信号に乗算することにより、各フレームの頭部では滑らかに立ち上がるように、そして各フレームの尾部では滑らかに立ち下がるように整形する。音響処理により連続した音信号が複数のフレームに分割され、元の音信号と異なる順序で接続された場合には、その接続部分においてクリックノイズが発生することがあるが、この窓掛け処理により該ノイズは除去される。
Next, the “windowing process” for each frame of the sound signal will be described. The windowing process is a process of converting the waveform of the connection portion so that the sound smoothly transitions when frames whose contents are not continuous are connected.
Specifically, the CPU 100 multiplies the sound signal of each frame by a “shaping function” composed of, for example, a trigonometric function so that the head of each frame rises smoothly and smoothly at the tail of each frame. Shape it so that it falls. When a continuous sound signal is divided into a plurality of frames by acoustic processing and connected in an order different from that of the original sound signal, click noise may occur in the connected portion. Noise is removed.

次に、ROM210に記憶されているデータについて説明する。
まず、「フレーム長選択テーブル」について説明する。図4は、フレーム長選択テーブルの1例を示した図である。フレーム長選択テーブルにおいては、上述した話速の範囲に対してフレーム長が対応付けられている。例えば、話速7.5以上12.5未満〔秒−1〕に対して、フレーム長の値0.10〔秒〕が対応付けられている。ここで、1フレーム長は、話速が各話速の範囲の中間の値であるときの1音節の時間と同程度に設定した。すなわち、話速10〔秒−1〕では1音節の発話速度は0.10秒であり、話速10〔秒−1〕が含まれる話速7.5以上12.5未満の範囲に対応するフレーム長をこの1音節の発話時間(0.10秒)に設定した。これは、1フレーム長が1音節より極端に短い時間の場合には、1音節が複数フレームに分割され、各フレームをリバース再生しても元の音節として認識されるおそれがあり、1フレーム長が1音節より極端に長い時間の場合には、各フレームをランダムに再構成しても1フレーム内の各音節がそのまま認識されるおそれがあるからである。
Next, data stored in the ROM 210 will be described.
First, the “frame length selection table” will be described. FIG. 4 is a diagram showing an example of the frame length selection table. In the frame length selection table, the frame length is associated with the above-described speech speed range. For example, a frame length value of 0.10 [second] is associated with a speech speed of 7.5 or more and less than 12.5 [second- 1 ]. Here, the length of one frame is set to be approximately the same as the time of one syllable when the speech speed is an intermediate value in the range of each speech speed. That is, at a speech speed of 10 [seconds -1 ], the utterance speed of one syllable is 0.10 seconds, which corresponds to a range of speech speeds of 7.5 to less than 12.5 including the speech speed of 10 [seconds- 1 ]. The frame length was set to this one syllable speech time (0.10 seconds). This is because when one frame length is extremely shorter than one syllable, one syllable is divided into a plurality of frames, and each frame may be recognized as the original syllable even if reversely played back. This is because if the time is extremely longer than one syllable, each syllable in one frame may be recognized as it is even if each frame is randomly reconstructed.

次に、「スクランブル音信号」について説明する。スクランブル音信号とは、人間の音声をスクランブル(無意味化または理解不能化)した音信号である。具体的には、人間の音声を収音して対応する波形データを生成し、所定時間(例えば100ミリ秒)ごとに複数のフレームに分割し、それらを元の音声とは異なる順序で組み合わせて新たに生成した音信号である。本実施形態においては、複数のスクランブル音信号(スクランブル音信号1、2、3…)が、後述する初期設定処理においてROM210に格納される。なお、人間は、このスクランブル音信号から言語としての意味を理解することはできない。
また、ROM210には、人の音声の音信号以外に、広帯域ノイズの一例としてホワイトノイズの音信号も記憶されている。なお、ホワイトノイズとは、測定周波数帯域において一様なパワースペクトル密度を有する雑音である。
Next, the “scrambled sound signal” will be described. A scrambled sound signal is a sound signal obtained by scrambled human speech (meaningless or unintelligible). Specifically, human speech is collected and corresponding waveform data is generated, divided into a plurality of frames every predetermined time (for example, 100 milliseconds), and these are combined in a different order from the original speech. This is a newly generated sound signal. In the present embodiment, a plurality of scrambled sound signals (scrambled sound signals 1, 2, 3,...) Are stored in the ROM 210 in an initial setting process described later. Humans cannot understand the meaning of language from this scrambled sound signal.
The ROM 210 also stores a white noise sound signal as an example of broadband noise in addition to a human voice signal. White noise is noise having a uniform power spectral density in the measurement frequency band.

次に、「スクランブル音信号選択テーブル」について説明する。図5に示すように、スクランブル音信号選択テーブルにおいては、ROM210に格納されたスクランブル音信号の各々を特定可能なスクランブル音信号番号に対して、その音の発音体属性情報、および音響特性情報が書き込まれている。発音体属性情報には、そのスクランブル音信号の元となった音声を発音した人の性別、年齢、言語、および名前が含まれる。例えば、スクランブル音信号1は、30歳の日本人男性である「Aさん」により吹き込まれた音声から生成されたものである。音響特性情報には、該スクランブル音信号の話速、フォルマント、および周波数特性に関するデータが含まれる。なお、フォルマント、および周波数特性の項目には、フォルマント、および周波数特性のデータを一意に識別するためのファイル名が書き込まれており、データは別途ROM210に書き込まれている。   Next, the “scrambled sound signal selection table” will be described. As shown in FIG. 5, in the scrambled sound signal selection table, sound generator attribute information and acoustic characteristic information of the sound are stored for each scrambled sound signal number that can identify each scrambled sound signal stored in the ROM 210. Has been written. The sound generator attribute information includes the gender, age, language, and name of the person who pronounced the voice that is the source of the scrambled sound signal. For example, the scrambled sound signal 1 is generated from a sound that is blown by “Mr. A”, a 30-year-old Japanese male. The acoustic characteristic information includes data relating to the speech speed, formant, and frequency characteristic of the scrambled sound signal. In the formant and frequency characteristic items, a file name for uniquely identifying the formant and frequency characteristic data is written, and the data is separately written in the ROM 210.

(B;動作)
次に、本実施形態の動作について説明する。
(B−1;初期設定処理)
CPU100は、マスキングサウンドを生成の前に初期設定処理を行う。図6は、初期設定処理におけるCPU100が行う処理の流れを示したフローチャートである。
(B: Operation)
Next, the operation of this embodiment will be described.
(B-1: Initial setting process)
The CPU 100 performs an initial setting process before generating the masking sound. FIG. 6 is a flowchart showing a flow of processing performed by the CPU 100 in the initial setting processing.

まず、ステップSA100において、CPU100は音信号を受信する。ここで、CPU100が音信号を受信する方法は2つある。1つは、ユーザがマイクロホン30を介して音声を吹き込み、CPU100は、音声入力部300を介して音信号を受取る方法である。もう1つの方法は、音信号が書き込まれた光ディスクから光ディスク再生装置600により音信号を読み出す方法である。この場合、光ディスクとしては、例えば既製品として販売されている光ディスクでもよいし、ユーザが予め音信号を光ディスクに書き込んだものでも良い。   First, in step SA100, the CPU 100 receives a sound signal. Here, there are two methods for the CPU 100 to receive a sound signal. One is a method in which a user blows sound through the microphone 30 and the CPU 100 receives a sound signal through the sound input unit 300. The other method is a method of reading a sound signal from the optical disk on which the sound signal has been written by the optical disk reproducing device 600. In this case, the optical disk may be, for example, an optical disk sold as an off-the-shelf product, or may be one in which a user has previously written a sound signal on the optical disk.

ユーザは、上記いずれかの方法で音信号を入力し終えると、該音信号に関する発音体属性情報(該音声を発音した人の性別、年齢、言語、および名前)について図示せぬ入力手段を介して入力する。CPU100は、受取った音信号と発音体属性情報とを、相互に関連付けて一旦RAM220に書き込む。   When the user finishes inputting the sound signal by any of the above methods, the sound generator attribute information (gender, age, language, and name of the person who pronounced the sound) regarding the sound signal is input via an input unit (not shown). Enter. The CPU 100 temporarily writes the received sound signal and sound generator attribute information in the RAM 220 in association with each other.

本動作例においては、前者の方法すなわちマイクロホン30を介して音声を入力する方法と、後者の方法すなわち光ディスクなどの記憶媒体から音信号を読み出す方法を併用する。前者の方法で入力される音信号は、以下の通りである。スクランブル音信号1および2の元となる音信号として、それぞれ30歳の日本人男性である「Aさん」、25歳の日本人女性である「Bさん」の発音を表す音信号が入力される。また、スクランブル音信号3の元となる音信号として、平均年齢25歳の日本人の男女5人からなる「Cグループ(5人)」の発音を表す音信号が入力される。   In this operation example, the former method, that is, a method of inputting sound through the microphone 30, and the latter method, that is, a method of reading a sound signal from a storage medium such as an optical disk are used in combination. The sound signal input by the former method is as follows. As sound signals that are the basis of the scrambled sound signals 1 and 2, sound signals representing the pronunciation of “Mr. A”, a 30-year-old Japanese male, and “Mr. B”, a 25-year-old Japanese female, are input. . In addition, as a sound signal that is a source of the scrambled sound signal 3, a sound signal representing the pronunciation of “C group (5 people)” consisting of five Japanese men and women with an average age of 25 is input.

また、後者の方法で入力される音信号は以下の通りである。スクランブル音信号4の元となる音信号として、10歳の日本人の男児の発音を表す音信号が入力される。また、スクランブル音信号5の元となる音信号として、30歳のイギリス人男性の音から生成された音信号が入力される。   The sound signal input by the latter method is as follows. A sound signal representing the pronunciation of a 10-year-old Japanese boy is input as the sound signal that is the basis of the scrambled sound signal 4. Further, a sound signal generated from the sound of a 30-year-old British male is input as the sound signal that is the basis of the scrambled sound signal 5.

なお、入力すべき音信号は、各ユーザが音響空間20Aを利用する頻度、および音響空間20Aにおいて使用される言語の種類を参考にして選択すれば良い。例えば、音響空間20Aが、「Aさん」や「Bさん」や「Cグループ」により頻繁に利用されたり、頻繁に英語による会議が行われるような場合には、上述のようにそれら頻繁に利用する人の音声や使用言語の音信号を入力しておくと良い。   The sound signal to be input may be selected with reference to the frequency with which each user uses the acoustic space 20A and the type of language used in the acoustic space 20A. For example, when the acoustic space 20A is frequently used by “Mr. A”, “Mr. B”, and “C group”, or when meetings are frequently held in English, they are frequently used as described above. It is good to input the voice signal of the person who uses it and the sound signal of the language used.

次に、ステップSA110において、CPU100は、音響特性分析処理を行う。具体的には、CPU100は、RAM220に書き込まれた各音信号において、話速、フォルマント、および周波数特性を分析し、その分析結果である音響特性情報を各分析対象となった音信号と関連付けて一旦RAM220に書き込む。   Next, in step SA110, the CPU 100 performs an acoustic characteristic analysis process. Specifically, the CPU 100 analyzes the speech speed, formant, and frequency characteristics in each sound signal written in the RAM 220, and associates the acoustic characteristic information, which is the analysis result, with the sound signal to be analyzed. Once written in the RAM 220.

ステップSA120において、CPU100は、ROM210に格納されたスクランブル音信号選択テーブルの更新を行う。具体的には、CPU100は、各音信号に関する発音体属性情報と音響特性とをRAM220から読み出し、スクランブル音信号選択テーブルに書き込む。その際、図5に示すように、スクランブル音信号1、2、3、4、および5の元となる音信号に関する発音体属性情報と音響特性は、それぞれスクランブル音信号1、2、3、4、および5の欄に書き込む。   In step SA120, CPU 100 updates the scrambled sound signal selection table stored in ROM 210. Specifically, the CPU 100 reads sound generator attribute information and acoustic characteristics regarding each sound signal from the RAM 220 and writes them in the scrambled sound signal selection table. At this time, as shown in FIG. 5, the sound generator attribute information and the acoustic characteristics relating to the sound signals that are the basis of the scrambled sound signals 1, 2, 3, 4, and 5 are the scrambled sound signals 1, 2, 3, 4, respectively. , And 5 are written.

ステップSA130において、CPU100は、音信号スクランブル処理を行う。図7は、音信号スクランブル処理の流れを示すフローチャートである。また、図8は、音信号スクランブル処理に伴う音信号の波形を示した図である。   In step SA130, the CPU 100 performs a sound signal scramble process. FIG. 7 is a flowchart showing the flow of the sound signal scramble process. FIG. 8 is a diagram showing a waveform of a sound signal accompanying the sound signal scramble process.

図7のステップSB100において、CPU100は、RAM220に書き込まれた音信号を複製する。本動作例においては、CPU100は、音信号を3つに複製し、複製された音信号をRAM220に書き込む。なお、以下ではこれらの音信号を音信号A、B、およびCと呼ぶ。以下に説明するステップSB110ないしステップSB150は、音信号A、B、およびCのそれぞれについて行われ、それらの音信号は互いに異なる音信号へと変換される。以下の処理は、3つの音信号について同時に実行しても良いし、順次実行しても良い。   In step SB100 in FIG. 7, the CPU 100 duplicates the sound signal written in the RAM 220. In this operation example, the CPU 100 duplicates the sound signal into three, and writes the duplicated sound signal in the RAM 220. Hereinafter, these sound signals are referred to as sound signals A, B, and C. Steps SB110 to SB150 described below are performed for each of the sound signals A, B, and C, and these sound signals are converted into different sound signals. The following processing may be executed simultaneously for three sound signals, or may be executed sequentially.

ステップSB110において、CPU100は、音信号のフレーム化を以下のように行う。すなわち、CPU100は、当該音信号の話速に関する情報をRAM220から読み出す。そしてCPU100は、ROM210に記憶されているフレーム長選択テーブルにおいて、平均値、平均値+σ、平均値−σの値に対応付けられたフレーム長を読み出し、RAM220に書き込まれた音信号A、B、およびCを読み出したそれぞれのフレーム長で分割し、分割した結果生成されたフレームをRAM220に書き込む。なお、図8の(a)―A、(a)―B、および(a)―Cには、音信号A、B、およびCが異なるフレーム長で分割された状況が示されている。   In step SB110, the CPU 100 performs framing of the sound signal as follows. That is, the CPU 100 reads out information regarding the speech speed of the sound signal from the RAM 220. Then, the CPU 100 reads the frame length associated with the average value, the average value + σ, and the average value−σ in the frame length selection table stored in the ROM 210, and the sound signals A, B, And C are divided by the read frame lengths, and a frame generated as a result of the division is written in the RAM 220. Note that (a) -A, (a) -B, and (a) -C in FIG. 8 show a situation where the sound signals A, B, and C are divided by different frame lengths.

ステップSB120において、CPU100は、RAM220に書き込まれた音信号のフレームの各々について、上述したリバース処理を行う。リバース処理がなされた結果、音信号A、B、およびCの各フレームは、それぞれ図8の(b)―A、(b)―B、および(b)―Cに示されるようにフレーム内で時間的に逆に倒置されたデータに変換される。   In step SB120, CPU 100 performs the above-described reverse process for each frame of the sound signal written in RAM 220. As a result of the reverse processing, the frames of the sound signals A, B, and C are included in the frames as shown in FIGS. 8 (b) -A, (b) -B, and (b) -C, respectively. It is converted into data inverted in time.

ステップSB130において、各フレームには窓掛け処理が行われる。その結果、各フレームの頭部および尾部に対応する部分の波形が整形される。
ステップSB140において、CPU100は、各音信号についてその複数のフレームの順序をランダムに並べ替える(図8(c)参照)。
ステップSB150において、CPU100は、並べ替えられたフレームの音信号をつなぎ合わせ、新たな音信号を生成する。
ステップSB160において、CPU100は、ステップSB110ないし150においてそれぞれ別個に処理がなされた音信号A、B、およびCをミキシング処理し、スクランブル音信号を生成する(図8(d)参照)。
In step SB130, a windowing process is performed on each frame. As a result, the waveform of the portion corresponding to the head and tail of each frame is shaped.
In step SB140, the CPU 100 randomly rearranges the order of the plurality of frames for each sound signal (see FIG. 8C).
In step SB150, the CPU 100 connects the sound signals of the rearranged frames to generate a new sound signal.
In step SB160, the CPU 100 mixes the sound signals A, B, and C processed separately in steps SB110 to SB 150 to generate a scrambled sound signal (see FIG. 8D).

以上の処理により生成されたスクランブル音信号は、以下のような特徴を持つ。すなわち、生成されるスクランブル音信号においては、元の音信号の音量レベルの変動幅が小さくなり、平均的な音量レベルに収束する。なぜならば、元の音信号は短いフレームで分割されそれらのフレームはランダムに順序が並べ替えられているだけでなく、そのような処理がなされた複数の音信号が重ねあわされているからである。このため、スクランブル音信号の音量レベルは略一定に保たれており、元の音信号の音量レベルの変動によるマスキング効果の不安定さが低減される。   The scrambled sound signal generated by the above processing has the following characteristics. That is, in the generated scrambled sound signal, the fluctuation range of the volume level of the original sound signal becomes small and converges to an average volume level. This is because the original sound signal is divided into short frames and the frames are not only randomly rearranged, but also a plurality of sound signals that have undergone such processing are overlaid. . For this reason, the volume level of the scrambled sound signal is kept substantially constant, and the instability of the masking effect due to fluctuations in the volume level of the original sound signal is reduced.

また、音信号を分割するフレーム長は話速に応じて適切に設定されるため、元の音に含まれていた音素は適切に分割されており、高いマスキング効果を有する。また、音素の分割やフレーム内のリバース処理により音の無意味化が十分になされており、ユーザのプライバシーやセキュリティーは保護される。また、各フレームのつなぎ目においては窓掛け処理がなされていることから、生成されたスクランブル音信号は滑らかにつながった音信号となる。   In addition, since the frame length for dividing the sound signal is appropriately set according to the speech speed, the phonemes included in the original sound are appropriately divided and have a high masking effect. In addition, sound is rendered meaningless by dividing phonemes and performing reverse processing within the frame, thereby protecting the user's privacy and security. In addition, since the windowing process is performed at the joint of each frame, the generated scrambled sound signal is a smoothly connected sound signal.

再び図6において、CPU100は、ステップSA140において、生成されたスクランブル音信号をROM210に書き込む。
また、CPU100は、音信号選択部520の各選択肢の右横に、スクランブル音信号選択テーブルにおいて該番号のスクランブル音信号に関連付けられた「名前」を表示する。
In FIG. 6 again, the CPU 100 writes the generated scrambled sound signal in the ROM 210 in step SA140.
In addition, the CPU 100 displays “name” associated with the scrambled sound signal of the number in the scrambled sound signal selection table on the right side of each option of the sound signal selection unit 520.

なお、ROM210には、ホワイトノイズを表す音信号も予め格納されている。従って、初期設定処理を終えた段階で、ROM210には、マスキングサウンドの元となる音信号として、スクランブル音信号とホワイトノイズの音信号が格納された状態となる。   Note that the ROM 210 also stores a sound signal representing white noise in advance. Therefore, when the initial setting process is completed, the ROM 210 is in a state where a scrambled sound signal and a white noise sound signal are stored as the sound signal that is the basis of the masking sound.

(B−2;マスキングサウンド生成処理)
次に、マスキングサウンド生成処理について説明する。図9は、マスキングサウンド生成処理の流れを示したフローチャートである。
マスキングサウンド生成装置10のユーザは、マスキングサウンド生成処理を実行させるにあたり、操作部500の動作モード選択部510を操作し、1または2のいずれかの動作モードを選択する。操作部500は、選択された動作モードを示す動作モード情報をCPU100に出力する。以下では、ユーザによりそれぞれの動作モードが選択された場合のマスキングサウンド生成処理について説明する。
(B-2; Masking sound generation process)
Next, the masking sound generation process will be described. FIG. 9 is a flowchart showing the flow of the masking sound generation process.
When executing the masking sound generation process, the user of the masking sound generation apparatus 10 operates the operation mode selection unit 510 of the operation unit 500 to select either one or two operation modes. The operation unit 500 outputs operation mode information indicating the selected operation mode to the CPU 100. Hereinafter, a masking sound generation process when each operation mode is selected by the user will be described.

(B−2−1;動作モード1)
本動作モードは、音響空間20Aにおける音の音響特性に基づいて、マスキングサウンドを生成する上で適切なスクランブル音信号が自動的に選択されるモードである。
(B-2-1; operation mode 1)
This operation mode is a mode in which an appropriate scrambled sound signal is automatically selected for generating a masking sound based on the acoustic characteristics of the sound in the acoustic space 20A.

ステップSC100において、CPU100は、動作モード情報を受信する。
ステップSC110において、CPU100は、受信した動作モード情報が1であるか否かを判断する。本動作モードにおいては、動作モード情報は「1」であるから、ステップSC110の判断結果は“Yes”となり、ステップSC120の処理が行われる。
In step SC100, CPU 100 receives the operation mode information.
In step SC110, CPU 100 determines whether or not the received operation mode information is 1. In this operation mode, since the operation mode information is “1”, the determination result in step SC110 is “Yes”, and the process in step SC120 is performed.

ステップSC120において、CPU100は、音響空間20Aにおける音を表す音信号を受取り、該音信号の音響特性分析処理を行う。本処理は、初期設定処理における音響特性分析処理と同様であるため、その説明を省略する。   In step SC120, the CPU 100 receives a sound signal representing a sound in the acoustic space 20A and performs an acoustic characteristic analysis process on the sound signal. Since this process is the same as the acoustic characteristic analysis process in the initial setting process, description thereof is omitted.

ステップSC130において、CPU100は、ステップSC120の音響特性分析処理の結果に基づいて、ROM210に書き込まれたスクランブル音信号からいずれか1つ適切な音信号を読み出す。すなわち、CPU100は、ステップSC120における分析結果として得た音響特性(話速、フォルマント、および周波数特性)を、スクランブル音信号選択テーブルと照らし合わせ、最も音響特性が類似しているスクランブル音信号を選択する。   In step SC130, the CPU 100 reads any one appropriate sound signal from the scrambled sound signal written in the ROM 210 based on the result of the acoustic characteristic analysis process in step SC120. That is, the CPU 100 compares the acoustic characteristics (speech speed, formant, and frequency characteristics) obtained as an analysis result in step SC120 with a scrambled sound signal selection table, and selects a scrambled sound signal having the most similar acoustic characteristics. .

ステップSC140において、CPU100は、読み出した音信号(本実施形態では180秒のデータ)をマスキングサウンドとして出力する。なお、スクランブル音信号は、180秒間のデータであるから、出力を開始してから180秒後以降は、該スクランブル音信号をループ状に繰り返し出力する。なお、出力されるスクランブル音信号の音量レベルは、使用者により音量レベル選択部570により入力された音量レベルに応じて最適な値に設定され、該処理は割り込み処理として実行される。   In step SC140, the CPU 100 outputs the read sound signal (data of 180 seconds in the present embodiment) as a masking sound. Since the scrambled sound signal is data for 180 seconds, the scrambled sound signal is repeatedly output in a loop after 180 seconds from the start of output. The volume level of the output scrambled sound signal is set to an optimum value according to the volume level input by the user through the volume level selection unit 570, and this process is executed as an interrupt process.

本動作モードにおいては、音響空間20Aにおける音の音響特性を分析し、該音と最も音響特性が類似したスクランブル音信号がROM210に格納された多数のスクランブル音信号から選択される。上述のように、マスキングサウンドが対象音の音響特性と類似している場合に最も高いマスキング効果が発揮される。従って、出力されるマスキングサウンドは、音響空間20Aにおいて生じている音をマスキングするのに最も適した音響特性を有する。   In this operation mode, the acoustic characteristics of the sound in the acoustic space 20A are analyzed, and a scrambled sound signal having the most similar acoustic characteristics to the sound is selected from a number of scrambled sound signals stored in the ROM 210. As described above, the highest masking effect is exhibited when the masking sound is similar to the acoustic characteristics of the target sound. Therefore, the output masking sound has acoustic characteristics most suitable for masking the sound generated in the acoustic space 20A.

(B−2−2;動作モード2)
次に、動作モード2おけるマスキングサウンド生成処理について説明する。本動作モードは、ユーザの指示内容に従ってマスキングサウンドが自動的に選択されるモードである。
(B-2-2; operation mode 2)
Next, the masking sound generation process in the operation mode 2 will be described. This operation mode is a mode in which the masking sound is automatically selected according to the content of the user's instruction.

ステップSA100において、CPU100は、動作モード情報を受信する。
ステップSA110において、CPU100は、受信した動作モード情報が1であるか否かを判断する。本動作モードにおいては、動作モード情報は「2」であるから、ステップSC110の判断結果は“No”となり、ステップSC150の処理が行われる。
In step SA100, the CPU 100 receives the operation mode information.
In step SA110, CPU 100 determines whether or not the received operation mode information is 1. In this operation mode, since the operation mode information is “2”, the determination result in step SC110 is “No”, and the process in step SC150 is performed.

さて、ユーザは、次のいずれかの方法によりマスキングサウンドの生成に係るパラメータを入力する。まず1つめの方法について説明する。ユーザは、操作部500の音信号選択部520の右横に表示されている「名前」を参照し、いずれかの音信号を直接指定する。例えば音響空間20Aにおいて「Aさん」が発声する場合には、ユーザは、音信号選択部520において「1」を押下し、英語による会議が行われる場合には、「5」を押下する。   Now, the user inputs parameters relating to the generation of the masking sound by one of the following methods. First, the first method will be described. The user refers to the “name” displayed on the right side of the sound signal selection unit 520 of the operation unit 500 and directly designates one of the sound signals. For example, when “Mr. A” utters in the acoustic space 20A, the user presses “1” in the sound signal selection unit 520, and presses “5” when a conference in English is held.

もう1つの方法は、ユーザが、性別選択部530、年齢選択部540、言語選択部550、および音響空間選択部560の中から1つまたは複数について、特定の選択肢を選択する方法である。この場合、前記選択された情報に基づいてCPU100が音信号を選択する。例えば、「大人」の「男性」が「執務室」において「英語」で話をする場合には、図3に示すように性別選択部530、年齢選択部540、言語選択部550、および音響空間選択部560の各項目が選択される。   Another method is a method in which the user selects a specific option for one or more of the sex selection unit 530, the age selection unit 540, the language selection unit 550, and the acoustic space selection unit 560. In this case, the CPU 100 selects a sound signal based on the selected information. For example, when “adult” “male” speaks “English” in “office”, as shown in FIG. 3, gender selection unit 530, age selection unit 540, language selection unit 550, and acoustic space Each item of the selection unit 560 is selected.

操作部500は、上述の操作内容に応じて音信号選択情報または条件設定情報を出力する。
ステップSC150において、CPU100は、操作部500から音信号選択情報または条件設定情報を受信する。
The operation unit 500 outputs sound signal selection information or condition setting information according to the above-described operation content.
In step SC150, CPU 100 receives sound signal selection information or condition setting information from operation unit 500.

ステップSC130において、CPU100は、操作部500から受取った音信号選択情報または条件設定情報に基づいて音信号を選択する。すなわち、CPU100が音信号選択情報を受取った場合には、該音信号選択情報が表すスクランブル音信号をROM210から読み出してマスキングサウンドとして出力する。また、CPU100が条件設定情報を受信した場合には、該条件設定情報に書き込まれた性別、年齢、言語、そして音響空間の種類に関する情報を、スクランブル音信号選択テーブルと照らし合わせ、所定のアルゴリズム、例えば、最も一致した項目の数が多い音信号や、過去の選択履歴の中から最近選択された音信号、あるいは使用頻度が最も高い音信号など設定条件に合致するスクランブル音信号を読み出す。前記所定のアルゴリズムは、利用者の要求に応じて任意に設定すればよい。   In step SC <b> 130, CPU 100 selects a sound signal based on sound signal selection information or condition setting information received from operation unit 500. That is, when the CPU 100 receives the sound signal selection information, the scrambled sound signal represented by the sound signal selection information is read from the ROM 210 and output as a masking sound. Further, when the CPU 100 receives the condition setting information, the information regarding the gender, age, language, and type of acoustic space written in the condition setting information is compared with a scrambled sound signal selection table, and a predetermined algorithm, For example, a scrambled sound signal that matches the setting condition such as a sound signal with the largest number of matched items, a sound signal recently selected from the past selection history, or a sound signal with the highest frequency of use is read. The predetermined algorithm may be arbitrarily set according to a user request.

なお、このとき音響空間選択情報において、「住宅」が書き込まれていた場合には、CPU100は、マスキングサウンドとしてホワイトノイズの音信号を選択しても良い。なぜなら、一般に人の音から生成されたマスキングサウンドよりもホワイトノイズなどのランダムノイズから生成されたマスキングサウンドの方が、マスキング効果は低いものの不快感や違和感を引き起こす程度が低いため、居住性や快適性を優先する住宅では不快感や違和感が低いホワイトノイズによるマスキングが望まれるからである。また、「住宅」以外の場合でもホワイトノイズの音信号を優先することがあるのは言うまでもない。   At this time, if “house” is written in the acoustic space selection information, the CPU 100 may select a white noise sound signal as the masking sound. This is because masking sound generated from random noise such as white noise is generally less likely to cause discomfort and discomfort than masking sound generated from human sounds. This is because masking with white noise, which has a low level of discomfort and incongruity, is desired in houses where priority is placed on sex. Needless to say, the sound signal of white noise may be given priority even in cases other than “house”.

ステップSC140において、CPU100は、選択したスクランブル音信号またはホワイトノイズの音信号のいずれかを出力する。なお、出力されるスクランブル音信号の音量レベルは、使用者により音量レベル選択部570により入力された音量レベルに応じて最適な値に設定される。なお、該処理は割り込み処理として実行される。   In step SC140, CPU 100 outputs either the selected scrambled sound signal or white noise sound signal. The volume level of the output scrambled sound signal is set to an optimum value according to the volume level input by the user through the volume level selection unit 570. This process is executed as an interrupt process.

本動作モードにおいては、音響空間20Aにおける音の特長や音響空間20Aの種類などの情報に基づいて、最も該音および音響空間20Aの音響特性に合致したスクランブル音信号が、ROM210に格納された複数のスクランブル音信号またはホワイトノイズから選択される。この場合、ユーザは、ROM210にどのような音信号が格納されているかについて知らなくても、簡便に最適なマスキングサウンドを生成させることができる。   In this operation mode, a plurality of scrambled sound signals that most closely match the sound and the acoustic characteristics of the acoustic space 20A are stored in the ROM 210 based on information such as the characteristics of the sound in the acoustic space 20A and the type of the acoustic space 20A. Scrambled sound signal or white noise. In this case, the user can easily generate an optimum masking sound without knowing what kind of sound signal is stored in the ROM 210.

(C;変形例)
以上、本発明の一実施形態について説明したが、かかる実施形態に以下に述べるような変形を加えても良いことは勿論である。また、以下に述べる変形を組み合わせて用いてもよい。
(C: Modification)
Although one embodiment of the present invention has been described above, it is needless to say that the embodiment may be modified as described below. Moreover, you may use combining the deformation | transformation described below.

(1)上記実施形態においては、マスキングサウンド生成装置10のCPU100が本発明に特徴的な処理の多くを実行する場合について説明したが、それぞれの処理を行うハードウェアモジュールを設けて同様の処理を行わせるようにしても良い。 (1) In the above embodiment, the case where the CPU 100 of the masking sound generation apparatus 10 executes many of the processes characteristic of the present invention has been described. However, a hardware module for performing each process is provided to perform the same process. You may make it do.

(2)上記実施形態においては、初期設定処理において、音信号に各種の処理(フレーム化処理、リバース処理、窓掛け処理、およびランダム化処理)を全て施す場合について説明した。しかし、上述した全ての処理を必ずしも行わなくても良く、それらの処理を組み合わせることにより言語としての意味が理解できない程度に音信号が改変されていれば良い。 (2) In the above-described embodiment, the case has been described in which various processes (frame processing, reverse processing, windowing processing, and randomization processing) are all performed on the sound signal in the initial setting processing. However, it is not always necessary to perform all the processes described above, and it is sufficient that the sound signal is modified to such an extent that the meaning as a language cannot be understood by combining these processes.

(3)上記実施形態においては、スクランブル音信号選択テーブルにおいて、音信号に関する複数の情報(性別、年齢、言語、話速、フォルマント、周波数特性)について書き込む場合について説明した。しかし、音響特性分析処理において、話速、フォルマント、周波数特性の全てについて必ずしも分析する必要は無く、これら全ての項目について初期設定処理において書き込む必要もない。また、発音体属性情報の全てを書き込む必要は無い。CPU100は、書き込まれた項目の範囲内で最も一致の度合いが高いスクランブル音信号を選択するようにすれば良い。 (3) In the above embodiment, a case has been described in which a plurality of pieces of information (gender, age, language, speech speed, formant, frequency characteristics) related to a sound signal are written in the scrambled sound signal selection table. However, in the acoustic characteristic analysis process, it is not always necessary to analyze all of the speech speed, formant, and frequency characteristic, and it is not necessary to write all these items in the initial setting process. Further, it is not necessary to write all of the sound generator attribute information. The CPU 100 may select the scrambled sound signal having the highest degree of matching within the written item range.

(4)上記実施形態においては、音響特性分析処理の方法の一例について説明した。しかし、各音響特性の分析方法は、上述の方法に限定されるものではなく、同様の分析結果が得られる方法であればどのような方法を用いても良い。 (4) In the said embodiment, an example of the method of the acoustic characteristic analysis process was demonstrated. However, the analysis method of each acoustic characteristic is not limited to the method described above, and any method may be used as long as a similar analysis result can be obtained.

(5)上記実施形態においては、動作モード1において、音響空間20Aで収音した音信号の音響特性を分析する処理について説明した。しかし、実際にマスキングサウンドが放音される空間は音響空間20Bであり、両音響空間の間には壁などの音響特性を変化させる障害物即ち遮音構造体が存在する。従って、CPU100は、音響特性分析処理を行う前に、対象となる音信号に前記遮音構造体の遮音特性を模したフィルタリング処理を施して該音信号が壁を透過した場合の音響効果を付与し、その後音響特性分析処理を行うようにしても良い。その結果、生成されるマスキングサウンドは、音響空間20Bのユーザに聞こえる騒音を模した音信号から生成されたものとなるため、より高いマスキング効果が期待できる。 (5) In the above embodiment, the process of analyzing the acoustic characteristics of the sound signal collected in the acoustic space 20A in the operation mode 1 has been described. However, the space where the masking sound is actually emitted is the acoustic space 20B, and an obstacle that changes the acoustic characteristics such as walls, that is, a sound insulation structure exists between the two acoustic spaces. Therefore, before performing the acoustic characteristic analysis process, the CPU 100 performs a filtering process simulating the sound insulation characteristic of the sound insulation structure on the target sound signal to give an acoustic effect when the sound signal passes through the wall. Then, an acoustic characteristic analysis process may be performed. As a result, the generated masking sound is generated from a sound signal simulating noise heard by the user of the acoustic space 20B, and therefore a higher masking effect can be expected.

(6)上記実施形態においては、マイクロホン30とスピーカ40を別々の音響空間に設ける場合について説明した。しかし、同じ音響空間にマイクロホン30およびスピーカ40を設置しても良い。例えば音響空間20Aにマイクロホン30およびスピーカ40を設置した場合、音響空間20Aのユーザの会話内容からマスキングサウンドが生成され、該マスキングサウンドは音響空間20Aにおいて放音されるため、音響空間20Bには、会話内容とマスキングサウンドの両者が漏れ聞こえることになる。その結果、音響空間20Bのユーザは、音響空間20Aのユーザの会話内容を理解することが困難になる。この場合、前記マイクロホン30とスピーカ40によりハウリングが発生しないような配置や信号処理を行うことは当然のことである。 (6) In the above embodiment, the case where the microphone 30 and the speaker 40 are provided in separate acoustic spaces has been described. However, the microphone 30 and the speaker 40 may be installed in the same acoustic space. For example, when the microphone 30 and the speaker 40 are installed in the acoustic space 20A, a masking sound is generated from the conversation contents of the user in the acoustic space 20A, and the masking sound is emitted in the acoustic space 20A. Both conversational content and masking sound can be heard. As a result, it becomes difficult for the user of the acoustic space 20B to understand the conversation content of the user of the acoustic space 20A. In this case, it is natural that the microphone 30 and the speaker 40 perform arrangement and signal processing so that no howling occurs.

(7)上記実施形態においては、マイクロホン30およびスピーカ40を別々の音響空間に設置する場合について説明した。しかし、同じ空間内にマイクロホン30およびスピーカ40を離して設置して、マイクロホン30の付近のエリアで秘匿性の高い会話がなされ、スピーカ40の付近のエリアのユーザにマスキングサウンドを放音することで該会話内容が聞こえないようにするようにしても良い。 (7) In the above embodiment, the case where the microphone 30 and the speaker 40 are installed in different acoustic spaces has been described. However, by placing the microphone 30 and the speaker 40 apart in the same space, a highly confidential conversation is made in the area near the microphone 30, and the masking sound is emitted to the user in the area near the speaker 40. The conversation content may not be heard.

(8)上記実施形態においては、音響空間20Aにマイクロホン30を、音響空間20Bにスピーカ40を設置する場合について説明した。しかし、複数の音響空間、例えば音響空間20Aおよび20Bのそれぞれにおいて、マイクロホン30およびスピーカ40の両者を設置するようにしてもよい。その場合、マスキングサウンド生成装置10は入力手段を有し、ユーザは、秘匿性の高い会話を行う場合には入力手段を介してその旨を入力し、マスキングサウンド生成装置10は、該入力がなされた音響空間においてはマイクロホン30で音を収音し、他方の音響空間において生成されたマスキングサウンドを放音するように制御すれば良い。 (8) In the above embodiment, the case where the microphone 30 is installed in the acoustic space 20A and the speaker 40 is installed in the acoustic space 20B has been described. However, both the microphone 30 and the speaker 40 may be installed in each of a plurality of acoustic spaces, for example, the acoustic spaces 20A and 20B. In that case, the masking sound generation apparatus 10 has an input means, and when a user has a highly confidential conversation, the user inputs that fact via the input means, and the masking sound generation apparatus 10 receives the input. In such an acoustic space, the sound may be collected by the microphone 30 and the masking sound generated in the other acoustic space may be emitted.

(9)上記実施形態においては、CPU100は、音信号スクランブル処理において入力された音信号を相異なるフレーム長の3つの音信号に複製し、それぞれの音信号において相異なる音信号処理を施し、その後それらの音信号をミキシングしてマスキングサウンドを生成した。しかし、扱う音信号の系統数は3に限られるものではなく、1または2でも良いし4以上でも良いが、マスキングサウンドとしての効果は、系統数がより多いほど高い。 (9) In the above embodiment, the CPU 100 duplicates the sound signal input in the sound signal scramble processing into three sound signals having different frame lengths, performs different sound signal processing on each sound signal, and then These sound signals were mixed to generate a masking sound. However, the number of systems of sound signals to be handled is not limited to 3, but may be 1 or 2 or 4 or more, but the effect as a masking sound is higher as the number of systems is larger.

(10)上記実施形態においては、CPU100は、音信号のフレーム化において、話速の平均値および時間的なばらつきである標準偏差σから、平均値、平均値+σ、平均値−σの値を算出し、複製された音信号の各々のフレーム化処理に適用する場合に場合について説明した。しかし、利用される値は、平均値と平均値±σの値に限られるものではない。例えば、σに代えて標準誤差などとしても良いし、σに代えて予め定められた値を用いるとしても良い。
また、フレーム長選択テーブルにおいては、話速に対してフレーム長を3つ対応させておくようにし、CPU100は話速の平均値に対応する3つのフレーム長を読み出し、読み出されたフレーム長を用いて各々の音信号をフレームに分割するようにすれば良い。
(10) In the above embodiment, the CPU 100 determines the average value, the average value + σ, and the average value −σ from the average value of the speech speed and the standard deviation σ that is temporal variation in the framing of the sound signal. The case has been described where the calculation and application to the framing process of each of the duplicated sound signals is performed. However, the values used are not limited to the average value and the average value ± σ. For example, standard error may be used instead of σ, or a predetermined value may be used instead of σ.
Further, in the frame length selection table, three frame lengths are associated with the speech speed, and the CPU 100 reads out the three frame lengths corresponding to the average value of the speech speed, and sets the read frame length as the frame length. It is sufficient to divide each sound signal into frames.

(11)上記実施形態においては、複製された音信号をそれぞれ異なるフレーム長で分割する場合について説明した。しかし、複数の複製された音信号を共通のフレーム長で分割するようにしても良い。その場合、CPU100は話速の平均値に対応するフレーム長を読み出し、読み出されたフレーム長を用いて各々の音信号をフレームに分割するようにすれば良い。 (11) In the above embodiment, the case where the duplicated sound signal is divided by different frame lengths has been described. However, a plurality of replicated sound signals may be divided by a common frame length. In that case, the CPU 100 may read the frame length corresponding to the average value of the speech speed, and divide each sound signal into frames using the read frame length.

(12)上記実施形態においては、ランダムノイズとしてホワイトノイズを用いる場合について説明した。しかし、ランダムノイズの種類は、ホワイトノイズに限定されず、例えばピンクノイズ(パワースペクトル密度が周波数に反比例する雑音)など他の音源でも良いし、空調から実際に発生する騒音や振動などから予め生成した音信号を用いるなどしても良い。 (12) In the above embodiment, the case where white noise is used as random noise has been described. However, the type of random noise is not limited to white noise, but may be other sound sources such as pink noise (noise whose power spectral density is inversely proportional to frequency), or generated in advance from noise or vibration actually generated from air conditioning. You may use the sound signal which did.

(13)上記実施形態においては、既成の音信号をROM210に書き込むために光ディスク再生装置を設け、光ディスクに書き込まれた音信号をROM210に書き込む場合について説明した。しかし、外部から音信号を取り込むための装置は、光ディスク再生装置に限られるものではなく、例えばインターネットなどの通信網を介して音信号をサーバからダウンロードしたり、マスキングサウンド生成装置10に外部機器との接続を仲介するI/O部を設けて、該I/O部に接続されたFlash Memoryなどから音信号をROM210に移動したりしても良い。 (13) In the above embodiment, a case has been described in which an optical disk playback device is provided to write an existing sound signal to the ROM 210, and a sound signal written to the optical disk is written to the ROM 210. However, the device for taking in the sound signal from the outside is not limited to the optical disk reproducing device, and for example, the sound signal is downloaded from the server via a communication network such as the Internet, or the masking sound generating device 10 is connected to the external device. It is also possible to provide an I / O unit that mediates the connection of the audio signal and move a sound signal from the flash memory connected to the I / O unit to the ROM 210.

(14)上記実施形態においては、動作モード1および2が選択可能である場合について説明した。しかし、両方の動作モードに示した処理が実行可能である必要はなく、いずれか一方だけでも良い。 (14) In the above embodiment, the case where the operation modes 1 and 2 are selectable has been described. However, the processes shown in both operation modes need not be executable, and only one of them may be executed.

(15)上記実施形態においては、初期設定処理において音信号スクランブル処理を施し、予めスクランブル音信号をROM210に書き込んでおく場合について説明した。しかし、CPU100は、音信号スクランブル処理することなく受取った音信号をROM210に格納し、マスキングサウンド生成処理の際に音信号スクランブル処理を行いながらマスキングサウンドを出力するようにしても良い。
また、光ディスクにスクランブルされた音信号が格納されている場合には、初期設定処理において音信号スクランブル処理を行わなくても良い。
(15) In the above embodiment, the case where the sound signal scramble process is performed in the initial setting process and the scramble sound signal is written in the ROM 210 in advance has been described. However, the CPU 100 may store the received sound signal in the ROM 210 without performing the sound signal scramble process, and output the masking sound while performing the sound signal scramble process in the masking sound generation process.
If the scrambled sound signal is stored on the optical disc, the sound signal scramble process may not be performed in the initial setting process.

(16)上記実施形態においては、スクランブルされた音信号を複数生成し、それらの音信号をROM210に格納し、マスキングサウンドを生成する際にそれらを選択して用いる旨説明した。従って、上記実施形態における「スクランブルされた複数の音信号の組み」を記憶した記憶媒体を作成し、他の音信号の再生装置において該記憶媒体から読み出された音信号を選択して出力するようにしても良い。 (16) In the above-described embodiment, it has been described that a plurality of scrambled sound signals are generated, the sound signals are stored in the ROM 210, and are selected and used when generating a masking sound. Therefore, a storage medium storing “a set of a plurality of scrambled sound signals” in the above embodiment is created, and a sound signal read from the storage medium is selected and output by another sound signal playback device. You may do it.

(17)上記実施形態においては、動作モード1では、CPU100がスクランブル音信号選択テーブルを参照し、受取った音信号の音響特性に最も類似しているスクランブル音信号を選択する場合について説明した。また、動作モード2では、CPU100がスクランブル音信号選択テーブルを参照し、ユーザから入力された各種条件と最も一致度が高いスクランブル音信号を選択する場合について説明した。しかし、CPU100は、上記いずれの場合においても、スクランブル音信号選択テーブルにおいて、スクランブル音信号を選択するにあたり、最も一致度が高いものではなく、一致度が一定のレベルを超えるものの中から選択するなどしても良い。 (17) In the above embodiment, in the operation mode 1, the case where the CPU 100 selects the scrambled sound signal most similar to the acoustic characteristics of the received sound signal by referring to the scrambled sound signal selection table has been described. In the operation mode 2, the case where the CPU 100 refers to the scrambled sound signal selection table and selects the scrambled sound signal having the highest degree of coincidence with the various conditions input from the user has been described. However, in any of the above cases, the CPU 100 selects the scrambled sound signal in the scrambled sound signal selection table from among the scrambled sound signals that are not the highest in coincidence but the degree of coincidence exceeds a certain level. You may do it.

(18)上記実施形態においては、動作モード1において、音響特性分析処理の分析結果に基づいて、最も音響特性が類似したスクランブル音信号またはホワイトノイズの音信号が選択される場合について説明した。しかし、複数の音信号を同時に選択することができるようにしても良い。その場合、例えば動作モード1においては、操作部500において、選択される音信号の数を設定するための入力部を設けると良い。そしてCPU100は、最も音響特性が一致した順に、所定の数の音信号を選択するようにすれば良い。また、動作モード2において操作者により音信号が直接選択される場合には、音信号選択部520において押下された複数の選択肢と対応する複数の音信号が選択されるようにすればよい。以上のようにすれば、複数の音信号がマスキングサウンドとして重ねて出力されるため、効果的なマスキングがなされることが期待できる。 (18) In the above-described embodiment, the case has been described in which the scrambled sound signal or the white noise sound signal having the most similar acoustic characteristics is selected in the operation mode 1 based on the analysis result of the acoustic characteristic analysis process. However, a plurality of sound signals may be selected simultaneously. In this case, for example, in the operation mode 1, the operation unit 500 may be provided with an input unit for setting the number of sound signals to be selected. Then, the CPU 100 may select a predetermined number of sound signals in the order in which the acoustic characteristics are the same. In addition, when the sound signal is directly selected by the operator in the operation mode 2, a plurality of sound signals corresponding to the plurality of options pressed in the sound signal selection unit 520 may be selected. In this way, since a plurality of sound signals are output as a masking sound, it can be expected that effective masking is performed.

(19)上記実施形態において、音響空間選択情報の内容に基づいて、出力されるマスキングサウンドに各種音響効果を付与しても良い。例えば音響空間選択情報が「ホール」である場合には、CPU100は、読み出されたスクランブル音信号またはホワイトノイズの音信号に対して残響効果を付与しても良い。なお、残響の付与方法としては、所定の時間遅延させた複数の音信号を重ね合わせる(FIRフィルタによる反射音の畳み込み処理)など、従来技術を適用可能である。また、「会議室」や「ホール」など、選択された音響空間の種類に応じて、残響時間や重ね合わせる音信号の数に差を設けるようにしても良い。
また、別の音響効果として反射音を畳み込む処理などにより音色の変換を施しても良い。会議室では、音が会議室の壁や机で反射したり室内で反響したりして、会議室独特の音色へと変換される。従って、音響空間選択情報が例えば「会議室」である場合には、CPU100は、読み出されたスクランブル音信号またはホワイトノイズの音信号の波形を調整して、該音信号を上記会議室特有の音色へ変換するなどしても良い。
以上の音響処理を施すことにより、更に違和感の少ないマスキングサウンドが生成される。
(19) In the above embodiment, various acoustic effects may be imparted to the output masking sound based on the content of the acoustic space selection information. For example, when the acoustic space selection information is “Hall”, the CPU 100 may add a reverberation effect to the read scrambled sound signal or white noise sound signal. In addition, as a method for imparting reverberation, a conventional technique such as superimposing a plurality of sound signals delayed for a predetermined time (convolution processing of reflected sound using an FIR filter) can be applied. Further, a difference may be provided in the reverberation time and the number of sound signals to be superimposed depending on the type of the selected acoustic space such as “conference room” or “hall”.
Moreover, you may perform timbre conversion by the process etc. which convolve a reflected sound as another acoustic effect. In the conference room, the sound is reflected by the walls and desks of the conference room or reverberated in the room, and is converted into a tone unique to the conference room. Therefore, when the acoustic space selection information is “conference room”, for example, the CPU 100 adjusts the waveform of the read scrambled sound signal or white noise sound signal, It may be converted into a timbre.
By performing the above acoustic processing, a masking sound with less discomfort is generated.

(20)上記実施形態においては、音響空間選択部560における選択肢として、「会議室」、「住宅」、「ホール」、「執務室」など、部屋の種類が書き込まれている場合について説明した。しかし、例えば「音がよく反響する空間」、「無響室」などといった部屋の音響特性を示す選択肢を設けても良い。要は、音響特性選択情報は、音響空間の音響特性を示す情報であれば良い。 (20) In the above embodiment, the case where the type of room such as “meeting room”, “house”, “hall”, “office room”, etc. is written as an option in the acoustic space selection unit 560 has been described. However, for example, options indicating the acoustic characteristics of the room such as “a space in which sound is well reflected” and “anechoic room” may be provided. In short, the acoustic characteristic selection information may be information indicating the acoustic characteristics of the acoustic space.

(21)上記実施形態においては、動作モード2において、音響空間選択情報に基づいて音信号が選択される場合について説明した。しかし、そのような場合に限らず、いずれの動作モードで動作している場合においても音響空間選択部560への入力が可能であるようにしても良い。そのようにすれば、上記変形例(19)にも説明したように、音響空間20の音響特性に基づいて各種の音響処理をマスキングサウンドに対して施すことが可能となる。 (21) In the above embodiment, the case where the sound signal is selected based on the acoustic space selection information in the operation mode 2 has been described. However, the present invention is not limited to such a case, and input to the acoustic space selection unit 560 may be possible in any of the operation modes. By doing so, it is possible to perform various kinds of acoustic processing on the masking sound based on the acoustic characteristics of the acoustic space 20 as described in the modification (19).

(22)上記実施形態においては、動作モード1において、音響特性分析処理の分析結果を、スクランブル音信号またはホワイトノイズの選択に用いる場合について説明した。その場合、音響特性分析処理において更に、音響空間20Aにおける残響時間や反射音特性(インパルス応答)などを測定し、該音響特性分析処理の分析結果に基づいて、読み出された音信号に対して各種の音響処理を施して出力するようにしても良い。例えば音響空間20Aは「ホール」である場合、ホールは一般に残響時間が非常に長いことから、読み出された音信号に対して残響処理を施すなどしても良い。 (22) In the above-described embodiment, the case where the analysis result of the acoustic characteristic analysis process is used for selecting a scrambled sound signal or white noise in the operation mode 1 has been described. In that case, in the acoustic characteristic analysis process, the reverberation time and reflected sound characteristic (impulse response) in the acoustic space 20A are further measured, and the read sound signal is analyzed based on the analysis result of the acoustic characteristic analysis process. Various sound processings may be performed and output. For example, when the acoustic space 20A is a “hole”, the reverberation process may be performed on the read sound signal because the hall generally has a very long reverberation time.

(23)上記実施形態においては、動作モード2において、条件設定情報が入力された場合には該条件設定情報に基づいて音信号を読み出して出力する場合について説明した。その場合、読み出した音信号に対し、条件設定情報に基づいて各種音響処理を施しても良い。例えば、性別選択情報が「男性」である場合には、音信号をイコライジングして周波数の低い周波数成分を強調して「男性」の声を模した音信号に変換するようにするなどしても良い。また、年齢選択情報が「小人」である場合には、音信号をイコライジングして周波数の高い周波数成分を強調して「小人」の声を模した音信号に変換するなどしても良い。 (23) In the above embodiment, in the operation mode 2, when the condition setting information is input, the sound signal is read and output based on the condition setting information. In that case, various acoustic processes may be performed on the read sound signal based on the condition setting information. For example, when the gender selection information is “male”, the sound signal may be equalized to emphasize the low frequency component and convert it to a sound signal imitating a “male” voice. good. Further, when the age selection information is “dwarf”, the sound signal may be equalized to emphasize the frequency component having a high frequency and converted to a sound signal imitating the voice of “dwarf”. .

マスキングサウンド生成装置10が設けられた音響空間20の構成を示した図である。It is the figure which showed the structure of the acoustic space 20 in which the masking sound production | generation apparatus 10 was provided. マスキングサウンド生成装置10の構成を示したブロック図である。1 is a block diagram showing a configuration of a masking sound generation device 10. FIG. 操作部500の外観を示した図である。FIG. 3 is a diagram illustrating an appearance of an operation unit 500. フレーム長選択テーブルの一例を示した図である。It is the figure which showed an example of the frame length selection table. スクランブル音信号選択テーブルの一例を示した図である。It is the figure which showed an example of the scramble sound signal selection table. 初期設定処理の流れを示したフローチャートである。It is the flowchart which showed the flow of the initial setting process. 音信号スクランブル処理の流れを示したフローチャートである。It is the flowchart which showed the flow of the sound signal scramble process. 音信号スクランブル処理における音信号の波形を示した図である。It is the figure which showed the waveform of the sound signal in a sound signal scramble process. マスキングサウンド生成処理の流れを示したフローチャートである。It is the flowchart which showed the flow of the masking sound production | generation process.

符号の説明Explanation of symbols

1…サウンドマスキングシステム、10…マスキングサウンド生成装置、20A、20B…音響空間、30…マイクロホン、40…スピーカ、100…CPU、200…記憶部、210…ROM、220…RAM、300…音声入力部、310…A/Dコンバータ、320…入力端子、400…音声出力部、410…D/Aコンバータ、420…アンプ、430…出力端子、500…操作部、510…動作モード選択部、520…音信号選択部、530…性別選択部、540…年齢選択部、550…言語選択部、560…音響空間選択部、570…音量レベル選択部、600…光ディスク再生装置、700…バス DESCRIPTION OF SYMBOLS 1 ... Sound masking system, 10 ... Masking sound production | generation apparatus, 20A, 20B ... Acoustic space, 30 ... Microphone, 40 ... Speaker, 100 ... CPU, 200 ... Memory | storage part, 210 ... ROM, 220 ... RAM, 300 ... Audio | voice input part 310 ... A / D converter, 320 ... input terminal, 400 ... audio output unit, 410 ... D / A converter, 420 ... amplifier, 430 ... output terminal, 500 ... operation unit, 510 ... operation mode selection unit, 520 ... sound Signal selection unit, 530 ... gender selection unit, 540 ... age selection unit, 550 ... language selection unit, 560 ... acoustic space selection unit, 570 ... volume level selection unit, 600 ... optical disk playback device, 700 ... bus

Claims (24)

話速が大きいほど一の区間の時間長を短くするように、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々について前記話速を含む音響特性を記憶する記憶手段と、
音し音の話速を含む音響特性を分析する音響特性分析手段と、
前記音響特性分析手段により分析された音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力手段と
を具備し、
音信号に含まれる波形のピーク数を当該音信号の時間長で除して、当該音信号の話速とした
ことを特徴とするマスキングサウンド生成装置。
To shorten the time length of the speech speed is too large one period, the sound signal is changed time series by Ri before Kion signal to reconstruct divided into predetermined time length interval scrambling sound signal Storage means for storing acoustic characteristics including the speech speed for each of the scrambled sound signals,
An acoustic characteristic analysis means for analyzing the acoustic characteristics including the speech speed of sound collection and the sound,
The acoustic characteristic analyzed by the acoustic characteristic analyzing means and the acoustic characteristic of the scrambled sound signal are compared by a predetermined algorithm to determine a scrambled sound signal, and the determined scrambled sound signal is read from the storage means and output. and an output means,
A masking sound generating apparatus characterized by dividing a peak number of a waveform included in a sound signal by a time length of the sound signal to obtain a speech speed of the sound signal .
話速が大きいほど一の区間の時間長を短くするように、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々について前記話速を含む音響特性を記憶する記憶手段と、
スキングされる音の音響特性に関する情報を、操作者から受取る受取手段と、
前記受取手段により受取られた音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力手段と
を具備し、
音信号に含まれる波形のピーク数を当該音信号の時間長で除して、当該音信号の話速とした
ことを特徴とするマスキングサウンド生成装置。
To shorten the time length of the speech speed is too large one period, the sound signal is changed time series by Ri before Kion signal to reconstruct divided into predetermined time length interval scrambling sound signal Storage means for storing acoustic characteristics including the speech speed for each of the scrambled sound signals,
Information about acoustic characteristics of Masking the sound to a receiving means for receiving from the operator,
Output means for comparing the acoustic characteristics received by the receiving means and the acoustic characteristics of the scrambled sound signal by a predetermined algorithm to determine a scrambled sound signal, reading out the determined scrambled sound signal from the storage means and outputting it provided with a door,
A masking sound generating apparatus characterized by dividing a peak number of a waveform included in a sound signal by a time length of the sound signal to obtain a speech speed of the sound signal .
話速が大きいほど一の区間の時間長を短くするように、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶する記憶手段と、
記記憶手段に記憶されたスクランブル音信号のいずれかを、操作者から指定する指示信号を受取る受取手段と、
前記受取手段により受取られた指示信号が示すスクランブル音信号を、前記記憶手段から読出して出力する出力手段と
を具備し、
音信号に含まれる波形のピーク数を当該音信号の時間長で除して、当該音信号の話速とした
ことを特徴とするマスキングサウンド生成装置。
To shorten the time length of the speech speed is too large one period, the sound signal is changed time series by Ri before Kion signal to reconstruct divided into predetermined time length interval scrambling sound signal Storage means for storing a plurality of
One of the stored scrambled sound signal before term memory unit, a receiving means for receiving an indication signal designating the operator,
Output means for reading out and outputting the scrambled sound signal indicated by the instruction signal received by the receiving means from the storage means ;
A masking sound generating apparatus characterized by dividing a peak number of a waveform included in a sound signal by a time length of the sound signal to obtain a speech speed of the sound signal .
音信号を受取り、話速が大きいほど一の区間の時間長を短くするように、当該音信号を所定時間長の区間に分割して再構成することにより、受取った音信号の時系列が変更されたスクランブル音信号を生成し、前記記憶手段に記憶させるスクランブル手段を具備す
ことを特徴とする請求項1ないし3のいずれか1項に記載のマスキングサウンド生成装置。
The time sequence of the received sound signal is changed by receiving the sound signal and dividing the sound signal into sections of a predetermined time length so that the time length of one section is shortened as the speech speed increases. is to produce a scrambled sound signal, the masking sound generating apparatus according to any one of claims 1 to 3, characterized in that you include a scrambling means for storing in said memory means.
一の音信号を複数に複製した複数の音信号をそれぞれ所定時間長の区間に分割して、前記各音信号の時系列を変更した後、前記複数の音信号を重ね合わせてスクランブル音信号を生成するスクランブル手段と、A plurality of sound signals obtained by duplicating one sound signal are divided into sections each having a predetermined time length, and after changing the time series of each sound signal, the plurality of sound signals are superimposed to form a scrambled sound signal. Scramble means to generate;
前記スクランブル手段により生成されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々の音響特性を記憶する記憶手段と、A plurality of scrambled sound signals generated by the scramble means, and storage means for storing acoustic characteristics of each of the scrambled sound signals;
収音した音の音響特性を分析する音響特性分析手段と、Acoustic characteristic analysis means for analyzing the acoustic characteristics of the collected sound;
前記音響特性分析手段により分析された音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力手段とThe acoustic characteristic analyzed by the acoustic characteristic analyzing means and the acoustic characteristic of the scrambled sound signal are compared by a predetermined algorithm to determine a scrambled sound signal, and the determined scrambled sound signal is read from the storage means and output. Output means and
を具備することを特徴とするマスキングサウンド生成装置。A masking sound generating device comprising:
一の音信号を複数に複製した複数の音信号をそれぞれ所定時間長の区間に分割して、前記各音信号の時系列を変更した後、前記複数の音信号を重ね合わせてスクランブル音信号を生成するスクランブル手段と、A plurality of sound signals obtained by duplicating one sound signal are divided into sections each having a predetermined time length, and after changing the time series of each sound signal, the plurality of sound signals are superimposed to form a scrambled sound signal. Scramble means to generate;
前記スクランブル手段により生成されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々の音響特性を記憶する記憶手段と、A plurality of scrambled sound signals generated by the scramble means, and storage means for storing acoustic characteristics of each of the scrambled sound signals;
マスキングされる音の音響特性に関する情報を、操作者から受取る受取手段と、Receiving means for receiving information about the acoustic characteristics of the masked sound from the operator;
前記受取手段により受取られた音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力手段とOutput means for comparing the acoustic characteristics received by the receiving means and the acoustic characteristics of the scrambled sound signal by a predetermined algorithm to determine a scrambled sound signal, reading out the determined scrambled sound signal from the storage means and outputting it When
を具備することを特徴とするマスキングサウンド生成装置。A masking sound generating device comprising:
一の音信号を複数に複製した複数の音信号をそれぞれ所定時間長の区間に分割して、前記各音信号の時系列を変更した後、前記複数の音信号を重ね合わせてスクランブル音信号を生成するスクランブル手段と、A plurality of sound signals obtained by duplicating one sound signal are divided into sections each having a predetermined time length, and after changing the time series of each sound signal, the plurality of sound signals are superimposed to form a scrambled sound signal. Scramble means to generate;
前記スクランブル手段により生成されたスクランブル音信号を複数記憶する記憶手段と、Storage means for storing a plurality of scrambled sound signals generated by the scramble means;
前記記憶手段に記憶されたスクランブル音信号のいずれかを指定する指示信号を、操作者から受取る受取手段と、Receiving means for receiving an instruction signal for designating any of the scrambled sound signals stored in the storage means from an operator;
前記受取手段により受取られた指示信号が示すスクランブル音信号を、前記記憶手段から読出して出力する出力手段とOutput means for reading out and outputting the scrambled sound signal indicated by the instruction signal received by the receiving means from the storage means;
を具備することを特徴とするマスキングサウンド生成装置。A masking sound generating device comprising:
前記スクランブル手段は、一の音信号を一定長の前記所定時間長の区間に分割するThe scramble means divides one sound signal into sections of the predetermined time length of a certain length.
ことを特徴とする請求項5ないし7のいずれか1項に記載のマスキングサウンド生成装置。The masking sound generation apparatus according to claim 5, wherein the masking sound generation apparatus is provided.
前記スクランブル手段は、前記複数の音信号で異なる時間長の区間に分割するThe scramble means divides the plurality of sound signals into sections having different time lengths.
ことを特徴とする請求項5ないし7のいずれか1項に記載のマスキングサウンド生成装置。The masking sound generation apparatus according to claim 5, wherein the masking sound generation apparatus is provided.
音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々について音響空間の種類を含む音響特性を記憶し、更に、ランダムノイズの音信号を記憶する記憶手段と、A plurality of scrambled sound signals whose time series are changed by dividing the sound signal into sections of a predetermined time length and reconstructing the sound signal, and each of the scrambled sound signals includes an acoustic space type Storage means for storing characteristics and further storing a sound signal of random noise;
マスキングされる音が放音される音響空間の種類を含む音響特性に関する情報を、操作者から受取る受取手段と、Receiving means for receiving from the operator information regarding acoustic characteristics including the type of acoustic space from which the masked sound is emitted;
前記受取手段により受取られた情報が示す前記音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較して、前記スクランブル音信号又は前記ランダムノイズの音信号を決定し、前記記憶手段から該決定したスクランブル音信号又はランダムノイズの音信号を読出して出力する出力手段とThe acoustic characteristics indicated by the information received by the receiving means and the acoustic characteristics of the scrambled sound signal are compared by a predetermined algorithm to determine the scrambled sound signal or the random noise sound signal, from the storage means Output means for reading out and outputting the determined scrambled sound signal or random noise sound signal;
を具備することを特徴とするマスキングサウンド生成装置。A masking sound generating device comprising:
音し音の話速を含む音響特性を分析する音響特性分析ステップと、
話速が大きいほど一の区間の時間長を短くするように、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々について前記話速を含む音響特性を記憶する記憶手段から、前記音響特性分析ステップで分析された音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力ステップ
を具備し、
音信号に含まれる波形のピーク数を当該音信号の時間長で除して、当該音信号の話速とした
ことを特徴とするマスキングサウンド生成方法。
An acoustic characteristic analysis step of analyzing acoustic characteristics, including speech speed of sound collection and the sound,
A plurality of scrambled sound signals in which the time series of the sound signal is changed by reconfiguring the sound signal by dividing the sound signal into sections of a predetermined time length so that the time length of one section is shortened as the speech speed increases. And comparing the acoustic characteristics analyzed in the acoustic characteristic analysis step with the acoustic characteristics of the scrambled sound signal by a predetermined algorithm from storage means for storing the acoustic characteristics including the speech speed for each of the scrambled sound signals. An output step of determining a scrambled sound signal and reading and outputting the determined scrambled sound signal from the storage means ,
A masking sound generation method characterized by dividing the number of peaks of a waveform included in a sound signal by the time length of the sound signal to obtain a speech speed of the sound signal .
スキングされる音の音響特性に関する情報を、操作者から受取る受取ステップと、
話速が大きいほど一の区間の時間長を短くするように、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々について前記話速を含む音響特性を記憶する記憶手段から、前記受取ステップで受取られた音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力ステップ
を具備し、
音信号に含まれる波形のピーク数を当該音信号の時間長で除して、当該音信号の話速とした
ことを特徴とするマスキングサウンド生成方法。
Information about acoustic characteristics of Masking the sound to a receiving step of receiving from the operator,
A plurality of scrambled sound signals in which the time series of the sound signal is changed by reconfiguring the sound signal by dividing the sound signal into sections of a predetermined time length so that the time length of one section is shortened as the speech speed increases. In addition, from the storage means for storing the acoustic characteristics including the speech speed for each of the scrambled sound signals, the acoustic characteristics received in the receiving step and the acoustic characteristics of the scrambled sound signal are compared by a predetermined algorithm. An output step of determining a scrambled sound signal, reading out the determined scrambled sound signal from the storage means, and outputting it;
A masking sound generation method characterized by dividing the number of peaks of a waveform included in a sound signal by the time length of the sound signal to obtain a speech speed of the sound signal .
話速が大きいほど一の区間の時間長を短くするように、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶する記憶手段に記憶されたスクランブル音信号のいずれかを指定する指示信号を、操作者から受取る受取ステップと、
前記受取ステップで受取られた指示信号が示すスクランブル音信号を、前記記憶手段から読出して出力する出力ステップ
を具備し、
音信号に含まれる波形のピーク数を当該音信号の時間長で除して、当該音信号の話速とした
ことを特徴とするマスキングサウンド生成方法。
To shorten the time length of the speech speed is too large one period, the sound signal is changed time series by Ri before Kion signal to reconstruct divided into predetermined time length interval scrambling sound signal a receiving step of receiving an instruction signal for specifying one of the storage hand stage to the stored scrambled sound signal for storing a plurality, from the operator,
An output step of reading out and outputting the scrambled sound signal indicated by the instruction signal received in the receiving step from the storage means ;
A masking sound generation method characterized by dividing the number of peaks of a waveform included in a sound signal by the time length of the sound signal to obtain a speech speed of the sound signal .
一の音信号を複数に複製した複数の音信号を所定時間長の区間に分割して前記各音信号の時系列を変更した後、前記複数の音信号を重ね合わせてスクランブル音信号を生成するスクランブルステップと、A plurality of sound signals obtained by duplicating one sound signal are divided into sections of a predetermined time length to change the time series of the sound signals, and then the plurality of sound signals are superimposed to generate a scrambled sound signal. Scramble step,
前記スクランブルステップで生成されたスクランブル音信号と、前記スクランブル音信号の音響特性を記憶手段に記憶させるステップと、Storing the scrambled sound signal generated in the scramble step and the acoustic characteristics of the scrambled sound signal in a storage means;
収音した音の音響特性を分析する音響特性分析ステップと、An acoustic characteristic analysis step for analyzing the acoustic characteristics of the collected sound;
前記音響特性分析ステップで分析された音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力ステップとThe acoustic characteristic analyzed in the acoustic characteristic analysis step and the acoustic characteristic of the scrambled sound signal are compared by a predetermined algorithm to determine a scrambled sound signal, and the determined scrambled sound signal is read from the storage means and output. Output step and
を具備することを特徴とするマスキングサウンド生成方法。A masking sound generation method comprising:
一の音信号を複数に複製した複数の音信号を所定時間長の区間に分割して前記各音信号の時系列を変更した後、前記複数の音信号を重ね合わせてスクランブル音信号を生成するスクランブルステップと、A plurality of sound signals obtained by duplicating one sound signal are divided into sections of a predetermined time length to change the time series of the sound signals, and then the plurality of sound signals are superimposed to generate a scrambled sound signal. Scramble step,
前記スクランブルステップで生成されたスクランブル音信号と、前記スクランブル音信号の音響特性を記憶手段に記憶させるステップと、Storing the scrambled sound signal generated in the scramble step and the acoustic characteristics of the scrambled sound signal in a storage means;
マスキングされる音の音響特性に関する情報を操作者から受取る受取ステップと、A receiving step for receiving information about the acoustic characteristics of the masked sound from the operator;
前記受取ステップで受取られた音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力ステップとAn output step of comparing the acoustic characteristics received in the receiving step with the acoustic characteristics of the scrambled sound signal by using a predetermined algorithm to determine a scrambled sound signal, and reading out and outputting the determined scrambled sound signal from the storage means When
を具備することを特徴とするマスキングサウンド生成方法。A masking sound generation method comprising:
一の音信号を複数に複製した複数の音信号を所定時間長の区間に分割して前記各音信号の時系列を変更した後、前記複数の音信号を重ね合わせてスクランブル音信号を生成するスクランブルステップと、A plurality of sound signals obtained by duplicating one sound signal are divided into sections of a predetermined time length to change the time series of the sound signals, and then the plurality of sound signals are superimposed to generate a scrambled sound signal. Scramble step,
前記スクランブルステップで生成されたスクランブル音信号を記憶手段に記憶させるステップと、Storing the scrambled sound signal generated in the scramble step in a storage means;
前記記憶手段に記憶されたスクランブル音信号のいずれかを指定する指示信号を、操作者から受取る受取ステップと、A receiving step of receiving an instruction signal for designating any of the scrambled sound signals stored in the storage means from an operator;
前記受取ステップで受取られた指示信号が示すスクランブル音信号を、前記記憶手段から読出して出力する出力ステップとAn output step of reading out and outputting the scrambled sound signal indicated by the instruction signal received in the receiving step from the storage means;
を具備することを特徴とするマスキングサウンド生成方法。A masking sound generation method comprising:
マスキングされる音が放音される音響空間の種類を含む音響特性に関する情報を、操作者から受取る受取ステップと、A receiving step for receiving, from the operator, information regarding acoustic characteristics including the type of acoustic space from which the sound to be masked is emitted;
音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々について音響空間の種類を含む音響特性を記憶し、更に、ランダムノイズの音信号を記憶する記憶手段から、前記受取ステップで受取られた情報が示す前記音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較して、前記スクランブル音信号又は前記ランダムノイズの音信号を決定し、前記記憶手段から該決定したスクランブル音信号又はランダムノイズの音信号を読出して出力する出力ステップとA plurality of scrambled sound signals whose time series are changed by dividing the sound signal into sections of a predetermined time length and reconstructing the sound signal, and each of the scrambled sound signals includes an acoustic space type Storing the characteristics, and further comparing the acoustic characteristics indicated by the information received in the receiving step with the acoustic characteristics of the scrambled sound signal by a predetermined algorithm from the storage means for storing the sound signal of random noise, An output step of determining the scrambled sound signal or the random noise sound signal, and reading out and outputting the determined scrambled sound signal or random noise sound signal from the storage means;
を具備することを特徴とするマスキングサウンド生成方法。A masking sound generation method comprising:
ンピュータ
音し音の話速を含む音響特性を分析する音響特性分析ステップと、
話速が大きいほど一の区間の時間長を短くするように、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々について前記話速を含む音響特性を記憶する記憶手段から、前記音響特性分析ステップで分析された音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力ステップ
を実行させ、
音信号に含まれる波形のピーク数を当該音信号の時間長で除して、当該音信号の話速とした
ことを特徴とするプログラム。
On your computer,
An acoustic characteristic analysis step of analyzing acoustic characteristics, including speech speed of sound collection and the sound,
A plurality of scrambled sound signals in which the time series of the sound signal is changed by reconfiguring the sound signal by dividing the sound signal into sections of a predetermined time length so that the time length of one section is shortened as the speech speed increases. And comparing the acoustic characteristics analyzed in the acoustic characteristic analysis step with the acoustic characteristics of the scrambled sound signal by a predetermined algorithm from storage means for storing the acoustic characteristics including the speech speed for each of the scrambled sound signals. An output step of determining a scrambled sound signal and reading and outputting the determined scrambled sound signal from the storage means;
And execute
Divide the number of peaks of the waveform contained in the sound signal by the time length of the sound signal to obtain the speech speed of the sound signal.
A program characterized by that .
ンピュータ
スキングされる音の音響特性に関する情報を、操作者から受取る受取ステップと、
話速が大きいほど一の区間の時間長を短くするように、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々について前記話速を含む音響特性を記憶する記憶手段から、前記受取ステップで受取られた音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力ステップ
を実行させ、
音信号に含まれる波形のピーク数を当該音信号の時間長で除して、当該音信号の話速とした
ことを特徴とするプログラム。
On your computer,
Information about acoustic characteristics of Masking the sound to a receiving step of receiving from the operator,
A plurality of scrambled sound signals in which the time series of the sound signal is changed by reconfiguring the sound signal by dividing the sound signal into sections of a predetermined time length so that the time length of one section is shortened as the speech speed increases. In addition, from the storage means for storing the acoustic characteristics including the speech speed for each of the scrambled sound signals, the acoustic characteristics received in the receiving step and the acoustic characteristics of the scrambled sound signal are compared by a predetermined algorithm. An output step of determining a scrambled sound signal, reading out the determined scrambled sound signal from the storage means and outputting it;
And execute
Divide the number of peaks of the waveform contained in the sound signal by the time length of the sound signal to obtain the speech speed of the sound signal.
A program characterized by that .
ンピュータ
話速が大きいほど一の区間の時間長を短くするように、音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶する記憶手段に記憶されたスクランブル音信号のいずれかを指定する指示信号を、操作者から受取る受取ステップと、
前記受取ステップで受取られた指示信号が示すスクランブル音信号を、前記記憶手段から読出して出力する出力ステップ
を実行させ、
音信号に含まれる波形のピーク数を当該音信号の時間長で除して、当該音信号の話速とした
ことを特徴とするプログラム。
On your computer,
To shorten the time length of the speech speed is too large one period, the sound signal is changed time series by Ri before Kion signal to reconstruct divided into predetermined time length interval scrambling sound signal a receiving step of receiving an instruction signal for specifying one of the storage hand stage to the stored scrambled sound signal for storing a plurality, from the operator,
An output step of reading out and outputting the scrambled sound signal indicated by the instruction signal received in the receiving step from the storage means;
And execute
A program characterized by dividing a peak number of a waveform included in a sound signal by a time length of the sound signal to obtain a speech speed of the sound signal .
コンピュータに、On the computer,
一の音信号を複数に複製した複数の音信号を所定時間長の区間に分割して前記各音信号の時系列を変更した後、前記複数の音信号を重ね合わせてスクランブル音信号を生成するスクランブルステップと、A plurality of sound signals obtained by duplicating one sound signal are divided into sections of a predetermined time length to change the time series of the sound signals, and then the plurality of sound signals are superimposed to generate a scrambled sound signal. Scramble step,
前記スクランブルステップで生成されたスクランブル音信号と、前記スクランブル音信号の音響特性を記憶手段に記憶させるステップと、Storing the scrambled sound signal generated in the scramble step and the acoustic characteristics of the scrambled sound signal in a storage means;
収音した音の音響特性を分析する音響特性分析ステップと、An acoustic characteristic analysis step for analyzing the acoustic characteristics of the collected sound;
前記音響特性分析ステップで分析された音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力ステップとThe acoustic characteristic analyzed in the acoustic characteristic analysis step and the acoustic characteristic of the scrambled sound signal are compared by a predetermined algorithm to determine a scrambled sound signal, and the determined scrambled sound signal is read from the storage means and output. Output step and
を実行させるためのプログラム。A program for running
コンピュータに、On the computer,
一の音信号を複数に複製した複数の音信号を所定時間長の区間に分割して前記各音信号の時系列を変更した後、前記複数の音信号を重ね合わせてスクランブル音信号を生成するスクランブルステップと、A plurality of sound signals obtained by duplicating one sound signal are divided into sections of a predetermined time length to change the time series of the sound signals, and then the plurality of sound signals are superimposed to generate a scrambled sound signal. Scramble step,
前記スクランブルステップで生成されたスクランブル音信号と、前記スクランブル音信号の音響特性を記憶手段に記憶させるステップと、Storing the scrambled sound signal generated in the scramble step and the acoustic characteristics of the scrambled sound signal in a storage means;
マスキングされる音の音響特性に関する情報を操作者から受取る受取ステップと、A receiving step for receiving information about the acoustic characteristics of the masked sound from the operator;
前記受取ステップで受取られた音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較してスクランブル音信号を決定し、前記記憶手段から該決定したスクランブル音信号を読出して出力する出力ステップとAn output step of comparing the acoustic characteristics received in the receiving step with the acoustic characteristics of the scrambled sound signal by using a predetermined algorithm to determine a scrambled sound signal, and reading out and outputting the determined scrambled sound signal from the storage means When
を実行させるためのプログラム。A program for running
コンピュータに、On the computer,
一の音信号を複数に複製した複数の音信号を所定時間長の区間に分割して前記各音信号の時系列を変更した後、前記複数の音信号を重ね合わせてスクランブル音信号を生成するスクランブルステップと、A plurality of sound signals obtained by duplicating one sound signal are divided into sections of a predetermined time length to change the time series of the sound signals, and then the plurality of sound signals are superimposed to generate a scrambled sound signal. Scramble step,
前記スクランブルステップで生成されたスクランブル音信号を記憶手段に記憶させるステップと、Storing the scrambled sound signal generated in the scramble step in a storage means;
前記記憶手段に記憶されたスクランブル音信号のいずれかを指定する指示信号を、操作者から受取る受取ステップと、A receiving step of receiving an instruction signal for designating any of the scrambled sound signals stored in the storage means from an operator;
前記受取ステップで受取られた指示信号が示すスクランブル音信号を、前記記憶手段から読出して出力する出力ステップとAn output step of reading out and outputting the scrambled sound signal indicated by the instruction signal received in the receiving step from the storage means;
を実行させるためのプログラム。A program for running
コンピュータに、On the computer,
マスキングされる音が放音される音響空間の種類を含む音響特性に関する情報を、操作者から受取る受取ステップと、A receiving step for receiving, from the operator, information regarding acoustic characteristics including the type of acoustic space from which the sound to be masked is emitted;
音信号を所定時間長の区間に分割して再構成することにより前記音信号の時系列が変更されたスクランブル音信号を複数記憶すると共に、前記スクランブル音信号の各々について音響空間の種類を含む音響特性を記憶し、更に、ランダムノイズの音信号を記憶する記憶手段から、前記受取ステップで受取られた情報が示す前記音響特性と前記スクランブル音信号の音響特性とを所定のアルゴリズムにより比較して、前記スクランブル音信号又は前記ランダムノイズの音信号を決定し、前記記憶手段から該決定したスクランブル音信号又はランダムノイズの音信号を読出して出力する出力ステップとA plurality of scrambled sound signals whose time series are changed by dividing the sound signal into sections of a predetermined time length and reconstructing the sound signal, and each of the scrambled sound signals includes an acoustic space type Storing the characteristics, and further comparing the acoustic characteristics indicated by the information received in the receiving step with the acoustic characteristics of the scrambled sound signal by a predetermined algorithm from the storage means for storing the sound signal of random noise, An output step of determining the scrambled sound signal or the random noise sound signal, and reading out and outputting the determined scrambled sound signal or random noise sound signal from the storage means;
を実行させるためのプログラム。A program for running
JP2007075283A 2007-03-22 2007-03-22 Masking sound generation apparatus, masking sound generation method and program Expired - Fee Related JP5103974B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007075283A JP5103974B2 (en) 2007-03-22 2007-03-22 Masking sound generation apparatus, masking sound generation method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007075283A JP5103974B2 (en) 2007-03-22 2007-03-22 Masking sound generation apparatus, masking sound generation method and program

Publications (2)

Publication Number Publication Date
JP2008233672A JP2008233672A (en) 2008-10-02
JP5103974B2 true JP5103974B2 (en) 2012-12-19

Family

ID=39906501

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007075283A Expired - Fee Related JP5103974B2 (en) 2007-03-22 2007-03-22 Masking sound generation apparatus, masking sound generation method and program

Country Status (1)

Country Link
JP (1) JP5103974B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016138605A1 (en) * 2015-03-03 2016-09-09 山东省计算中心(国家超级计算济南中心) Generating method for shielding signals used for protecting chinese speech privacy

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5644122B2 (en) * 2010-01-26 2014-12-24 ヤマハ株式会社 Maska sound generator
US8861742B2 (en) 2010-01-26 2014-10-14 Yamaha Corporation Masker sound generation apparatus and program
JP5682115B2 (en) * 2010-01-26 2015-03-11 ヤマハ株式会社 Apparatus and program for performing sound masking
JP5489778B2 (en) * 2010-02-25 2014-05-14 キヤノン株式会社 Information processing apparatus and processing method thereof
JP5126281B2 (en) * 2010-04-27 2013-01-23 ソニー株式会社 Music playback device
JP5849411B2 (en) 2010-09-28 2016-01-27 ヤマハ株式会社 Maska sound output device
JP2012113130A (en) * 2010-11-25 2012-06-14 Yamaha Corp Sound masking apparatus
JP5648485B2 (en) * 2011-01-06 2015-01-07 大日本印刷株式会社 Confidential data generating device, concealed data generating method, concealing device, concealing method and program
JP5929786B2 (en) * 2013-03-07 2016-06-08 ソニー株式会社 Signal processing apparatus, signal processing method, and storage medium
JP6349112B2 (en) * 2013-03-11 2018-06-27 学校法人上智学院 Sound masking apparatus, method and program
JP5761259B2 (en) * 2013-06-24 2015-08-12 ヤマハ株式会社 Conversation leakage prevention device
ES2849260T3 (en) 2015-05-15 2021-08-17 Nureva Inc System and method for embedding additional information in a sound mask noise signal

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH055334A (en) * 1991-04-22 1993-01-14 Daiken Trade & Ind Co Ltd Masking partition
JPH06308977A (en) * 1993-04-22 1994-11-04 Matsushita Electric Works Ltd Soundproof partition
US7143028B2 (en) * 2002-07-24 2006-11-28 Applied Minds, Inc. Method and system for masking speech
JP4223277B2 (en) * 2002-12-26 2009-02-12 株式会社第一興商 A music selection device and a music selection program capable of selecting a desired song while continuously playing a part of a plurality of songs narrowed down to a predetermined number or less by keyword search
JP4336552B2 (en) * 2003-09-11 2009-09-30 グローリー株式会社 Masking device
JP2005283804A (en) * 2004-03-29 2005-10-13 Daiichikosho Co Ltd Karaoke remote controller with electronic table of contents book function
JP4734627B2 (en) * 2005-03-22 2011-07-27 国立大学法人山口大学 Speech privacy protection device
JP2007017840A (en) * 2005-07-11 2007-01-25 Nissan Motor Co Ltd Speech authentication device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016138605A1 (en) * 2015-03-03 2016-09-09 山东省计算中心(国家超级计算济南中心) Generating method for shielding signals used for protecting chinese speech privacy

Also Published As

Publication number Publication date
JP2008233672A (en) 2008-10-02

Similar Documents

Publication Publication Date Title
JP5103974B2 (en) Masking sound generation apparatus, masking sound generation method and program
JP4245060B2 (en) Sound masking system, masking sound generation method and program
Saitou et al. Speech-to-singing synthesis: Converting speaking voices to singing voices by controlling acoustic features unique to singing voices
JP5103973B2 (en) Sound masking system, masking sound generation method and program
Raitio et al. Analysis of HMM-Based Lombard Speech Synthesis.
JP2004522186A (en) Speech synthesis of speech synthesizer
JP2000511651A (en) Non-uniform time scaling of recorded audio signals
KR20130121173A (en) Semantic audio track mixer
Moffat et al. Perceptual evaluation of synthesized sound effects
JPWO2004049304A1 (en) Speech synthesis method and speech synthesis apparatus
CN105957515A (en) Voice Synthesis Method, Voice Synthesis Device, Medium for Storing Voice Synthesis Program
JP2006251375A (en) Voice processor and program
US11727949B2 (en) Methods and apparatus for reducing stuttering
JP2010014913A (en) Device and system for conversion of voice quality and for voice generation
JP4564416B2 (en) Speech synthesis apparatus and speech synthesis program
JP2006017946A (en) Speech processing apparatus and program
JP6681264B2 (en) Audio processing device and program
JP5707944B2 (en) Pleasant data generation device, pleasant sound data generation method, pleasant sound device, pleasant sound method and program
US20040054524A1 (en) Speech transformation system and apparatus
JP5648485B2 (en) Confidential data generating device, concealed data generating method, concealing device, concealing method and program
JP5741175B2 (en) Confidential data generating device, concealed data generating method, concealing device, concealing method and program
Le Roux et al. Single channel speech and background segregation through harmonic-temporal clustering
JP3241582B2 (en) Prosody control device and method
JP5644268B2 (en) Confidential data generating device, concealed data generating method, concealing device, concealing method and program
Lutsenko et al. Research on a voice changed by distortion

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110902

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111018

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120904

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120917

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151012

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees