JP6961545B2 - Sound signal processor, sound signal processing method, and program - Google Patents

Sound signal processor, sound signal processing method, and program Download PDF

Info

Publication number
JP6961545B2
JP6961545B2 JP2018125779A JP2018125779A JP6961545B2 JP 6961545 B2 JP6961545 B2 JP 6961545B2 JP 2018125779 A JP2018125779 A JP 2018125779A JP 2018125779 A JP2018125779 A JP 2018125779A JP 6961545 B2 JP6961545 B2 JP 6961545B2
Authority
JP
Japan
Prior art keywords
sound signal
sound
target sound
correlation matrix
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018125779A
Other languages
Japanese (ja)
Other versions
JP2020003751A (en
Inventor
岳彦 籠嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2018125779A priority Critical patent/JP6961545B2/en
Priority to CN201910070357.XA priority patent/CN110675890B/en
Publication of JP2020003751A publication Critical patent/JP2020003751A/en
Application granted granted Critical
Publication of JP6961545B2 publication Critical patent/JP6961545B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明の実施形態は、音信号処理装置、音信号処理方法、およびプログラムに関する。 Embodiments of the present invention relate to sound signal processing devices, sound signal processing methods, and programs.

複数の音源から発せられた音の音信号に含まれる目的音信号を強調する技術が知られている。例えば、マイクで観測した音信号の特徴量に基づいて算出したSN比最大化ビームフォーマを、音信号に含まれる目的音信号を強調するためのフィルタとして用いる技術が開示されている。特徴量として、話者方向やマイク間の音声到達時間差を表すベクトルを用いている。 A technique for emphasizing a target sound signal included in a sound signal of a sound emitted from a plurality of sound sources is known. For example, a technique is disclosed in which an SN ratio maximizing beamformer calculated based on a feature amount of a sound signal observed by a microphone is used as a filter for emphasizing a target sound signal included in the sound signal. As the feature quantity, a vector representing the speaker direction and the difference in voice arrival time between microphones is used.

従来では、観測した音信号から特徴量を抽出し、特徴量から目的音信号を強調するためのフィルタを算出しており、高精度に目的音信号を強調することが困難な場合があった。 Conventionally, a feature amount is extracted from an observed sound signal, and a filter for emphasizing the target sound signal is calculated from the feature amount, and it may be difficult to emphasize the target sound signal with high accuracy.

特許第4891801号公報Japanese Patent No. 4891801 特許第5044581号公報Japanese Patent No. 50444581

本発明が解決しようとする課題は、高精度に目的音信号を強調することができる、音信号処理装置、音信号処理方法、およびプログラムを提供することである。 An object to be solved by the present invention is to provide a sound signal processing device, a sound signal processing method, and a program capable of emphasizing a target sound signal with high accuracy.

実施形態の音信号処理装置は、目的音信号を強調した強調音信号に基づいて、第1音信号に含まれる前記目的音信号を強調するための空間フィルタ係数を導出する係数導出部と、前記強調音信号に基づいて、目的音区間を検出する検出部と、前記目的音区間と前記第1音信号とに基づいて、前記第1音信号における前記目的音区間の第1空間相関行列と、前記第1音信号における前記目的音区間以外の非目的音区間の第2空間相関行列と、を導出する相関導出部と、を備え、前記係数導出部は、前記第1空間相関行列および前記第2空間相関行列に基づいて、前記空間フィルタ係数を導出し、前記検出部は、前記目的音信号に対する非目的音信号のパワーの比が前記第1音信号より大きい第2音信号と、前記強調音信号と、に基づいて、前記目的音区間を検出するThe sound signal processing device of the embodiment includes a coefficient deriving unit that derives a spatial filter coefficient for emphasizing the target sound signal included in the first sound signal based on the emphasized sound signal that emphasizes the target sound signal, and the above-mentioned A detection unit that detects a target sound section based on the emphasized sound signal, and a first spatial correlation matrix of the target sound section in the first sound signal based on the target sound section and the first sound signal. The first sound signal includes a second space correlation matrix of a non-target sound section other than the target sound section, and a correlation derivation unit for deriving the first sound signal, and the coefficient derivation unit includes the first space correlation matrix and the first space correlation matrix. The spatial filter coefficient is derived based on the two-spatial correlation matrix, and the detection unit uses the second sound signal whose power ratio of the non-target sound signal to the target sound signal is larger than that of the first sound signal and the emphasis. The target sound section is detected based on the sound signal .

音信号処理システムの模式図。Schematic diagram of a sound signal processing system. 音信号処理部の機能的構成の模式図。The schematic diagram of the functional configuration of a sound signal processing unit. 音信号処理のフローチャート。Flowchart of sound signal processing. 音信号処理システムの模式図。Schematic diagram of a sound signal processing system. 音信号処理部の機能的構成の模式図。The schematic diagram of the functional configuration of a sound signal processing unit. 音信号処理のフローチャート。Flowchart of sound signal processing. 音信号処理システムの模式図。Schematic diagram of a sound signal processing system. ハードウェア構成の説明図。Explanatory drawing of hardware configuration.

以下に添付図面を参照して、本実施の形態の詳細を説明する。 The details of the present embodiment will be described below with reference to the accompanying drawings.

(第1の実施の形態)
図1は、本実施の形態の音信号処理システム1の一例を示す模式図である。
(First Embodiment)
FIG. 1 is a schematic diagram showing an example of the sound signal processing system 1 of the present embodiment.

音信号処理システム1は、音信号処理装置10と、第1マイク14と、第2マイク16と、を備える。音信号処理装置10と、第1マイク14および第2マイク16とは、データや信号を授受可能に接続されている。 The sound signal processing system 1 includes a sound signal processing device 10, a first microphone 14, and a second microphone 16. The sound signal processing device 10 and the first microphone 14 and the second microphone 16 are connected so as to be able to exchange data and signals.

音信号処理装置10は、1または複数の音源12から発せられた音の音信号を処理する。 The sound signal processing device 10 processes the sound signal of the sound emitted from one or a plurality of sound sources 12.

音源12は、音の発生源である。音源12は、例えば、人および人以外の動物などの生物や、楽器などの非生物であるが、これらに限定されない。本実施の形態では、音源12が人である場合を一例として説明する。このため、本実施の形態では、音が、音声である場合を一例として説明する。なお、音の種類は限定されない。また、以下では、人を、話者と称する場合がある。 The sound source 12 is a sound source. The sound source 12 is, for example, a living thing such as a human being and an animal other than a human being, or a non-living body such as a musical instrument, but is not limited thereto. In the present embodiment, the case where the sound source 12 is a person will be described as an example. Therefore, in the present embodiment, the case where the sound is voice will be described as an example. The type of sound is not limited. In the following, a person may be referred to as a speaker.

本実施の形態では、音信号処理装置10は、複数の音源12から発せられた音を含む音信号を処理し、音信号に含まれる目的音信号を強調する。複数の音源12は、目的音源12Aと、非目的音源12Bと、に分類される。目的音源12Aは、目的音を発する音源12である。目的音とは、強調対象の音である。目的音信号とは、目的音を示す信号である。目的音信号は、例えば、スペクトルによって表される。非目的音源12Bは、非目的音を発する音源12である。非目的音は、目的音以外の音である。 In the present embodiment, the sound signal processing device 10 processes a sound signal including sounds emitted from a plurality of sound sources 12 and emphasizes a target sound signal included in the sound signal. The plurality of sound sources 12 are classified into a target sound source 12A and a non-purpose sound source 12B. The target sound source 12A is a sound source 12 that emits a target sound. The target sound is a sound to be emphasized. The target sound signal is a signal indicating a target sound. The target sound signal is represented by, for example, a spectrum. The non-purpose sound source 12B is a sound source 12 that emits a non-purpose sound. A non-purpose sound is a sound other than the target sound.

本実施の形態では、二人の話者である目的音源12Aと非目的音源12Bが、テーブルTを挟んで会話する環境を想定する。本実施の形態は、例えば、非目的音源12Bが店員、目的音源12Aが顧客であって、これらの話者の会話を示す音信号から、一方の話者である目的音源12Aの目的音信号を強調する用途を想定して説明する。なお、音源12の数や音源12の配置は、これらに限定されない。また、想定環境は、この環境に限定されない。 In the present embodiment, it is assumed that the target sound source 12A and the non-purpose sound source 12B, which are two speakers, talk with each other across the table T. In the present embodiment, for example, the non-purpose sound source 12B is a clerk, the target sound source 12A is a customer, and the target sound signal of the target sound source 12A, which is one speaker, is obtained from the sound signals indicating the conversations of these speakers. The explanation will be made assuming the intended use. The number of sound sources 12 and the arrangement of the sound sources 12 are not limited to these. Moreover, the assumed environment is not limited to this environment.

第1マイク14および第2マイク16は、音を集音する。本実施の形態では、第1マイク14および第2マイク16は、音源12から発せられた音を集音し、音信号を音信号処理装置10へ出力する。 The first microphone 14 and the second microphone 16 collect sound. In the present embodiment, the first microphone 14 and the second microphone 16 collect the sound emitted from the sound source 12 and output the sound signal to the sound signal processing device 10.

第1マイク14は、少なくとも目的音を含む音を集音するためのマイクである。言い換えると、第1マイク14は、目的音源12Aから発せられた目的音を少なくとも集音するためのマイクである。 The first microphone 14 is a microphone for collecting sound including at least a target sound. In other words, the first microphone 14 is a microphone for collecting at least the target sound emitted from the target sound source 12A.

第1マイク14は、集音した音を示す音信号として、第3音信号を音信号処理装置10へ出力する。第3音信号は、非目的音信号と目的音信号とを含む音信号である。非目的音信号とは、非目的音を示す信号である。非目的音信号は、例えば、スペクトルによって表される。第1マイク14は、音源12(目的音源12A、非目的音源12B)から発せられた音を集音し、第3音信号を音信号処理装置10へ出力可能な位置に予め配置されている。本実施の形態では、第1マイク14は、テーブルT上に配置されている場合を想定する。 The first microphone 14 outputs a third sound signal to the sound signal processing device 10 as a sound signal indicating the collected sound. The third sound signal is a sound signal including a non-purpose sound signal and a target sound signal. The non-purpose sound signal is a signal indicating a non-purpose sound. The non-target sound signal is represented by, for example, a spectrum. The first microphone 14 is arranged in advance at a position where the sound emitted from the sound source 12 (target sound source 12A, non-purpose sound source 12B) can be collected and the third sound signal can be output to the sound signal processing device 10. In the present embodiment, it is assumed that the first microphone 14 is arranged on the table T.

本実施の形態では、音信号処理システム1は、複数の第1マイク14(第1マイク14A〜第1マイク14D)を備える。このため、音信号処理装置10には、複数の第1マイク14から、複数の第3音信号が出力される。なお、複数の第3音信号を一つにまとめた音信号を、第1音信号と称して説明する。 In the present embodiment, the sound signal processing system 1 includes a plurality of first microphones 14 (first microphones 14A to 14D). Therefore, a plurality of third sound signals are output to the sound signal processing device 10 from the plurality of first microphones 14. A sound signal obtained by combining a plurality of third sound signals into one will be referred to as a first sound signal.

第1マイク14の数は、集音対象の音源12の数以上であればよい。上述したように、本実施の形態では、音信号処理システム1は、1つの目的音源12Aと、1つの非目的音源12Bと、の合計2つの音源12を想定している。この場合、第1マイク14の数は、2以上であればよい。本実施の形態では、音信号処理システム1は、4つの第1マイク14(第1マイク14A〜第1マイク14D)を備える場合を一例として説明する。 The number of the first microphones 14 may be equal to or greater than the number of sound sources 12 to be collected. As described above, in the present embodiment, the sound signal processing system 1 assumes one target sound source 12A and one non-purpose sound source 12B, for a total of two sound sources 12. In this case, the number of the first microphones 14 may be 2 or more. In the present embodiment, the case where the sound signal processing system 1 includes four first microphones 14 (first microphones 14A to 14D) will be described as an example.

複数の第1マイク14は、複数の音源12の各々からの音到達時間差が互いに異なる。すなわち、複数の第1マイク14は、上記音到達時間差が互いに異なるように、配置位置を予め調整されている。 The plurality of first microphones 14 have different sound arrival time differences from each of the plurality of sound sources 12. That is, the arrangement positions of the plurality of first microphones 14 are adjusted in advance so that the sound arrival time differences are different from each other.

第2マイク16は、少なくとも非目的音を集音するためのマイクである。言い換えると、第2マイク16は、非目的音源12Bから発せられた非目的音を少なくとも集音するためのマイクである。 The second microphone 16 is a microphone for collecting at least non-purpose sounds. In other words, the second microphone 16 is a microphone for collecting at least the non-purpose sound emitted from the non-purpose sound source 12B.

第2マイク16は、集音した音を示す音信号として、第2音信号を音信号処理装置10へ出力する。第2音信号は、目的音信号に対する非目的音信号のパワーの比が、第1音信号(第3音信号)より大きい音信号である。第2音信号は、目的音信号に対する非目的音信号のパワーの比が、第1音信号(第3音信号)より大きく、且つ、目的音信号のパワーに比べて非目的音信号のパワーの大きい音信号であることが好ましい。 The second microphone 16 outputs the second sound signal to the sound signal processing device 10 as a sound signal indicating the collected sound. The second sound signal is a sound signal in which the ratio of the power of the non-target sound signal to the target sound signal is larger than that of the first sound signal (third sound signal). In the second sound signal, the ratio of the power of the non-target sound signal to the target sound signal is larger than that of the first sound signal (third sound signal), and the power of the non-target sound signal is higher than the power of the target sound signal. It is preferably a loud sound signal.

本実施の形態では、第2マイク16は、第1マイク14に比べて非目的音源12Bに近い位置に配置されている。例えば、第2マイク16は、ヘッドセットマイクや、ピンマイクである。本実施の形態では、第2マイク16は、非目的音源12Bである話者の口元で音声を集音可能となるように、非目的音源12Bに装着されている。 In the present embodiment, the second microphone 16 is arranged at a position closer to the non-purpose sound source 12B than the first microphone 14. For example, the second microphone 16 is a headset microphone or a pin microphone. In the present embodiment, the second microphone 16 is attached to the non-purpose sound source 12B so that the voice can be collected at the mouth of the speaker, which is the non-purpose sound source 12B.

音信号処理装置10は、AD変換部18と、音信号処理部20と、出力部22と、を備える。なお、音信号処理装置10は、少なくとも音信号処理部20を備えた構成であればよく、AD変換部18および出力部22の少なくとも一方を別体として構成してもよい。 The sound signal processing device 10 includes an AD conversion unit 18, a sound signal processing unit 20, and an output unit 22. The sound signal processing device 10 may be configured to include at least the sound signal processing unit 20, and at least one of the AD conversion unit 18 and the output unit 22 may be configured as a separate body.

AD変換部18は、複数の第1マイク14から複数の第3音信号を受付ける。また、AD変換部18は、第2マイク16から第2音信号を受付ける。AD変換部18は、複数の第3音信号および第2音信号の各々をデジタル信号に変換し、音信号処理部20へ出力する。 The AD conversion unit 18 receives a plurality of third sound signals from the plurality of first microphones 14. Further, the AD conversion unit 18 receives the second sound signal from the second microphone 16. The AD conversion unit 18 converts each of the plurality of third sound signals and the second sound signal into digital signals and outputs them to the sound signal processing unit 20.

音信号処理部20は、AD変換部18から受付けた複数の第3音信号および第2音信号を用いて、複数の第3音信号を1つにまとめた第1音信号に含まれる目的音信号を強調し、強調音信号を出力部22へ出力する。 The sound signal processing unit 20 uses the plurality of third sound signals and the second sound signals received from the AD conversion unit 18, and the sound signal processing unit 20 uses the plurality of third sound signals to be combined into one target sound included in the first sound signal. The signal is emphasized, and the emphasized sound signal is output to the output unit 22.

出力部22は、音信号処理部20から受付けた強調音信号を出力する装置である。出力部22は、例えば、スピーカ、通信装置、表示装置、録音装置、記録装置、などである。スピーカは、強調音信号によって表される音を出力する。通信装置は、強調音信号を、ネットワーク等を介して外部装置等へ送信する。表示装置は、強調音信号を示す情報を表示する。録音装置は、強調音信号を記憶する。録音装置は、例えば、ICレコーダやパーソナルコンピュータ等である。記録装置は、強調音信号によって示される音を公知の方法でテキストに変換して記録する装置である。なお、出力部22は、音信号処理部20から受付けた強調音信号をアナログ信号に変換した後に出力、送信、記憶、または記録してもよい。 The output unit 22 is a device that outputs an emphasis sound signal received from the sound signal processing unit 20. The output unit 22 is, for example, a speaker, a communication device, a display device, a recording device, a recording device, and the like. The speaker outputs the sound represented by the emphasis signal. The communication device transmits an emphasis sound signal to an external device or the like via a network or the like. The display device displays information indicating an emphasis signal. The recording device stores the emphasis signal. The recording device is, for example, an IC recorder, a personal computer, or the like. The recording device is a device that converts the sound indicated by the emphasis sound signal into text by a known method and records it. The output unit 22 may output, transmit, store, or record the emphasized sound signal received from the sound signal processing unit 20 after converting it into an analog signal.

次に、音信号処理部20について詳細を説明する。 Next, the sound signal processing unit 20 will be described in detail.

図2は、音信号処理部20の機能的構成の一例を示す模式図である。 FIG. 2 is a schematic diagram showing an example of the functional configuration of the sound signal processing unit 20.

音信号処理部20は、変換部20Aと、変換部20Bと、検出部20Cと、相関導出部20Dと、第1相関記憶部20Eと、第2相関記憶部20Fと、係数導出部20Gと、生成部20Hと、逆変換部20Iと、を備える。 The sound signal processing unit 20 includes a conversion unit 20A, a conversion unit 20B, a detection unit 20C, a correlation derivation unit 20D, a first correlation storage unit 20E, a second correlation storage unit 20F, a coefficient derivation unit 20G, and the like. A generation unit 20H and an inverse conversion unit 20I are provided.

変換部20A、変換部20B、検出部20C、相関導出部20D、係数導出部20G、生成部20H、および逆変換部20Iは、例えば、1または複数のプロセッサにより実現される。例えば上述の各部は、CPU(Central Processing Unit)などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上述の各部は、専用のIC(Integrated Circuit)などのプロセッサ、すなわちハードウェアにより実現してもよい。上述の各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち1つを実現してもよいし、各部のうち2以上を実現してもよい。 The conversion unit 20A, the conversion unit 20B, the detection unit 20C, the correlation derivation unit 20D, the coefficient derivation unit 20G, the generation unit 20H, and the inverse conversion unit 20I are realized by, for example, one or more processors. For example, each of the above-mentioned parts may be realized by causing a processor such as a CPU (Central Processing Unit) to execute a program, that is, by software. Each of the above-mentioned parts may be realized by a processor such as a dedicated IC (Integrated Circuit), that is, hardware. Each of the above-mentioned parts may be realized by using software and hardware together. When a plurality of processors are used, each processor may realize one of each part, or may realize two or more of each part.

第1相関記憶部20Eおよび第2相関記憶部20Fは、各種情報を記憶する。第1相関記憶部20Eおよび第2相関記憶部20Fは、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶媒体により構成することができる。また、第1相関記憶部20Eおよび第2相関記憶部20Fは、物理的に異なる記憶媒体としてもよいし、物理的に同一の記憶媒体の異なる記憶領域として実現してもよい。さらに、第1相関記憶部20Eおよび第2相関記憶部20Fの各々は、物理的に異なる複数の記憶媒体により実現してもよい。 The first correlation storage unit 20E and the second correlation storage unit 20F store various types of information. The first correlated storage unit 20E and the second correlated storage unit 20F may be composed of any commonly used storage medium such as an HDD (Hard Disk Drive), an optical disk, a memory card, and a RAM (Random Access Memory). can. Further, the first correlation storage unit 20E and the second correlation storage unit 20F may be physically different storage media, or may be realized as different storage areas of physically the same storage medium. Further, each of the first correlation storage unit 20E and the second correlation storage unit 20F may be realized by a plurality of physically different storage media.

変換部20Aは、AD変換部18を介して第2マイク16から受付けた第2音信号を短時間フーリエ変換(STFT:Short−Time Fourier Transform)し、周波数スペクトルX(f,n)によって表される第2音信号を検出部20Cへ出力する。なお、fは、周波数ビンの番号を示し、nは、フレームの番号を表す。 The conversion unit 20A performs a short-time Fourier transform (STFT: Short-Time Fourier Transform) of the second sound signal received from the second microphone 16 via the AD conversion unit 18, and is represented by a frequency spectrum X 1 (f, n). The second sound signal to be generated is output to the detection unit 20C. In addition, f represents the frequency bin number, and n represents the frame number.

例えば、サンプリング周波数を16kHz、フレーム長を256サンプル、フレームシフトを128サンプルに設定する。この場合、変換部20Aは、第2音信号に256サンプルのハニング窓をかけた後に、高速フーリエ変換(FFT:Fast Fourier Transform)を行うことで、第2音信号を周波数スペクトルに変換する。そして、この周波数スペクトルの低域と高域の対称性を考慮して、該周波数スペクトルにおける、fが0以上128以下の範囲の129点の複素数値を、第2音信号における、第nフレームの周波数スペクトルX(f,n)として算出する。そして、変換部20Aは、周波数スペクトルX(f,n)によって表される第2音信号を検出部20Cへ出力する。 For example, the sampling frequency is set to 16 kHz, the frame length is set to 256 samples, and the frame shift is set to 128 samples. In this case, the conversion unit 20A converts the second sound signal into a frequency spectrum by performing a fast Fourier transform (FFT) after applying a Hanning window of 256 samples to the second sound signal. Then, in consideration of the symmetry of the low frequency band and the high frequency frequency spectrum, the complex numerical values of 129 points in the range where f is 0 or more and 128 or less in the frequency spectrum are set to the nth frame in the second sound signal. Calculated as the frequency spectrum X 1 (f, n). Then, the conversion unit 20A outputs the second sound signal represented by the frequency spectrum X 1 (f, n) to the detection unit 20C.

変換部20Bは、AD変換部18を介して複数の第1マイク14(第1マイク14A〜第1マイク14D)から受付けた複数の第3音信号の各々を、短時間フーリエ変換(STFT)し、周波数スペクトルX2,1(f,n)、周波数スペクトルX2,2(f,n)、周波数スペクトルX2,3(f,n)、周波数スペクトルX2,4(f,n)の各々によって表される複数の第3音信号を生成する。 The conversion unit 20B performs short-time Fourier transform (STFT) on each of the plurality of third sound signals received from the plurality of first microphones 14 (first microphones 14A to 14D) via the AD conversion unit 18. , Frequency spectrum X 2,1 (f, n), Frequency spectrum X 2,2 (f, n), Frequency spectrum X 2,3 (f, n), Frequency spectrum X 2,4 (f, n), respectively. Generates a plurality of third sound signals represented by.

周波数スペクトルX2,1(f,n)は、第1マイク14Aから受付けた第3音信号を短時間フーリエ変換したものである。周波数スペクトルX2,2(f,n)は、第1マイク14Bから受付けた第3音信号を短時間フーリエ変換したものである。周波数スペクトルX2,3(f,n)は、第1マイク14Cから受付けた第3音信号を短時間フーリエ変換したものである。周波数スペクトルX2,4(f,n)は、第1マイク14Dから受付けた第3音信号を短時間フーリエ変換したものである。 The frequency spectrum X 2, 1 (f, n) is a short-time Fourier transform of the third sound signal received from the first microphone 14A. The frequency spectra X 2, 2 (f, n) are short-time Fourier transforms of the third sound signal received from the first microphone 14B. The frequency spectra X2, 3 (f, n) are short-time Fourier transforms of the third sound signal received from the first microphone 14C. The frequency spectra X 2, 4 (f, n) are short-time Fourier transforms of the third sound signal received from the first microphone 14D.

なお、複数の第3音信号の各々を示す上記複数の周波数スペクトルをまとめた多次元ベクトル(本実施の形態では4次元ベクトル)を、以下では、第1音信号を示す周波数スペクトルX(f,n)と称して説明する。言い換えると、第1音信号は、周波数スペクトルX(f,n)によって表される。第1音信号を示す周波数スペクトルX(f,n)は、下記式(1)で表される。 It should be noted that a multidimensional vector (four-dimensional vector in the present embodiment) that summarizes the plurality of frequency spectra indicating each of the plurality of third sound signals is used below, and the frequency spectrum X 2 (f) indicating the first sound signal is described below. , N). In other words, the first sound signal is represented by the frequency spectrum X 2 (f, n). The frequency spectrum X 2 (f, n) showing the first sound signal is represented by the following equation (1).

Figure 0006961545
Figure 0006961545

変換部20Bは、第1音信号を示す周波数スペクトルX(f,n)を、相関導出部20Dおよび生成部20Hへ出力する。 The conversion unit 20B outputs the frequency spectrum X 2 (f, n) indicating the first sound signal to the correlation derivation unit 20D and the generation unit 20H.

第1相関記憶部20Eは、第1空間相関行列φxx(f,n)を記憶する。第1空間相関行列φxxは、第1音信号における目的音区間の空間相関行列を示す。目的音区間とは、第1音信号における、目的音を含む区間を示す。区間は、時系列方向における、特定の期間を示す。 The first correlation storage unit 20E stores the first spatial correlation matrix φxx (f, n). The first spatial correlation matrix phi xx, showing the spatial correlation matrix of the target sound section in the first sound signal. The target sound section indicates a section including the target sound in the first sound signal. The interval indicates a specific period in the time series direction.

上述したように、本実施の形態では、第1音信号は、4次元ベクトルを示す周波数スペクトルX(f,n)によって表される。このため、第1空間相関行列φxx(f,n)は、周波数ビン毎の4×4の複素数の行列によって表される。 As described above, in the present embodiment, the first sound signal is represented by the frequency spectrum X 2 (f, n) showing a four-dimensional vector. Therefore, the first spatial correlation matrix φxx (f, n) is represented by a matrix of 4 × 4 complex numbers for each frequency bin.

初期状態では、第1相関記憶部20Eは、ゼロ行列(φxx(f,0)=0)で初期化された第1空間相関行列φxx(f,n)を記憶する。第1空間相関行列φxx(f,n)は、後述する相関導出部20Dによって更新される。 In the initial state, the first correlation storage unit 20E stores the first spatial correlation matrix φxx (f, n) initialized with the zero matrix (φxx (f, 0) = 0). The first spatial correlation matrix φxx (f, n) is updated by the correlation deriving unit 20D described later.

第2相関記憶部20Fは、第2空間相関行列φNN(f,n)を記憶する。第2空間相関行列φNNは、第1音信号における非目的音区間の空間相関行列を示す。非目的音区間とは、第1音信号における、目的音区間以外の区間を示す。 The second correlation storage unit 20F stores the second spatial correlation matrix φ NN (f, n). The second spatial correlation matrix φ NN indicates the spatial correlation matrix of the non-purpose sound section in the first sound signal. The non-target sound section indicates a section other than the target sound section in the first sound signal.

第1空間相関行列φxx(f,n)と同様に、本実施の形態では、第2空間相関行列φNN(f,n)は、周波数ビン毎の4×4の複素数の行列によって表される。 Similar to the first spatial correlation matrix φ xx (f, n), in the present embodiment, the second spatial correlation matrix φ NN (f, n) is represented by a 4 × 4 complex matrix for each frequency bin. NS.

初期状態では、第2相関記憶部20Fは、ゼロ行列(φNN(f,0)=0)で初期化された第2空間相関行列φNN(f,n)を記憶する。第2空間相関行列φNN(f,n)は、後述する相関導出部20Dの処理によって更新される。 In the initial state, the second correlation storage unit 20F stores the second spatial correlation matrix φ NN (f, n) initialized with the zero matrix (φ NN (f, 0) = 0). The second spatial correlation matrix φ NN (f, n) is updated by the processing of the correlation deriving unit 20D described later.

次に、検出部20C、相関導出部20D、係数導出部20G、生成部20H、および逆変換部20Iについて説明する。本実施の形態では、音信号処理部20は、音信号処理開始時に初期処理を行った後に、定常処理を実行する。相関導出部20D、係数導出部20G、および生成部20Hは、初期処理時と定常処理時で、異なる処理を実行する。 Next, the detection unit 20C, the correlation derivation unit 20D, the coefficient derivation unit 20G, the generation unit 20H, and the inverse conversion unit 20I will be described. In the present embodiment, the sound signal processing unit 20 executes the steady processing after performing the initial processing at the start of the sound signal processing. The correlation derivation unit 20D, the coefficient derivation unit 20G, and the generation unit 20H execute different processes during the initial process and the steady process.

まず、初期処理における、相関導出部20D、係数導出部20G、および生成部20Hの機能について説明する。 First, the functions of the correlation derivation unit 20D, the coefficient derivation unit 20G, and the generation unit 20H in the initial processing will be described.

初期処理とは、音信号処理部20が、音信号処理の開始時に実行する処理である。初期処理では、音信号処理部20は、第1相関記憶部20Eおよび第2相関記憶部20Fに記憶されている、ゼロ行列で初期化されている第1空間相関行列φxx(f,n)および第2空間相関行列φNN(f,n)を更新することで、これらの空間相関行列に初期値を設定する。 The initial processing is a process executed by the sound signal processing unit 20 at the start of the sound signal processing. In the initial processing, the sound signal processing section 20, stored in the first correlation storage portion 20E and the second correlation storage unit 20F, initialized with that first spatial correlation matrix phi xx zero matrix (f, n) And by updating the second spatial correlation matrix φ NN (f, n), initial values are set in these spatial correlation matrices.

係数導出部20Gは、第1音信号に含まれる目的音信号を強調するための、空間フィルタ係数F(f,n)を導出する。係数導出部20Gは、第1空間相関行列φxx(f,n)および第2空間相関行列φNN(f,n)に基づいて、空間フィルタ係数F(f,n)を導出する。 The coefficient derivation unit 20G derives the spatial filter coefficient F (f, n) for emphasizing the target sound signal included in the first sound signal. The coefficient derivation unit 20G derives the spatial filter coefficient F (f, n) based on the first spatial correlation matrix φ xx (f, n) and the second spatial correlation matrix φ NN (f, n).

上述したように、本実施の形態では、第1音信号は、4次元ベクトルを示す周波数スペクトルX(f,n)によって表される。このため、係数導出部20Gは、第1空間相関行列φxx(f,n)および第2空間相関行列φNN(f,n)に基づいて、複素数の4次元ベクトルである空間フィルタ係数F(f,n)を算出する。空間フィルタ係数F(F、n)は、下記式(2)で表される。 As described above, in the present embodiment, the first sound signal is represented by the frequency spectrum X 2 (f, n) showing a four-dimensional vector. Therefore, the coefficient derivation unit 20G is based on the first spatial correlation matrix φ xx (f, n) and the second spatial correlation matrix φ NN (f, n), and is a complex four-dimensional vector spatial filter coefficient F ( Calculate f, n). The spatial filter coefficient F (F, n) is represented by the following equation (2).

Figure 0006961545
Figure 0006961545

但し、初期処理においては、係数導出部20Gは、空間フィルタ係数F(f,n)=[0,0,0,1]を、空間フィルタ係数F(f,n)として導出するものとする。 However, in the initial processing, the coefficient deriving unit 20G derives the spatial filter coefficient F (f, n) = [0,0,0,1] as the spatial filter coefficient F (f, n).

生成部20Hは、係数導出部20Gで導出された空間フィルタ係数F(f,n)を用いて、周波数スペクトルX(f,n)によって表される第1音信号に含まれる目的音信号を強調した、強調音信号を生成する。 The generation unit 20H uses the spatial filter coefficient F (f, n) derived by the coefficient derivation unit 20G to generate a target sound signal included in the first sound signal represented by the frequency spectrum X 2 (f, n). Generates an emphasized, emphasized sound signal.

詳細には、生成部20Hは、下記式(3)を用いて、出力スペクトルY(f,n)によって表される強調音信号を生成する。 Specifically, the generation unit 20H uses the following equation (3) to generate an emphasis sound signal represented by the output spectrum Y (f, n).

Figure 0006961545
Figure 0006961545

すなわち、生成部20Hは、周波数スペクトルX(f,n)と、空間フィルタ係数F(f,n)をエルミート転置した転置行列と、の積を、強調音信号を示す出力スペクトルY(f,n)として生成する。なお、初期処理では、生成部20Hは、Y(f,n)=X2,4(f,n)となる強調音信号を出力する。すなわち、初期処理では、生成部20Hは、第1マイク14Dで集音された第3音信号の周波数スペクトルを、強調音信号として出力する。なお、初期処理で強調音信号として用いる第1マイク14は、複数の第1マイク14(第1マイク14A〜第1マイク14D)の内の1つの第1マイク14であればよく、第1マイク14Dに限定されない。 That is, the generation unit 20H calculates the product of the frequency spectrum X 2 (f, n) and the transposed matrix in which the spatial filter coefficient F (f, n) is Hermitian transposed, and outputs the output spectrum Y (f,) showing the emphasized sound signal. Generate as n). In the initial processing, the generation unit 20H outputs an emphasis sound signal in which Y (f, n) = X 2,4 (f, n). That is, in the initial processing, the generation unit 20H outputs the frequency spectrum of the third sound signal collected by the first microphone 14D as an emphasis sound signal. The first microphone 14 used as the emphasis sound signal in the initial processing may be the first microphone 14 among the plurality of first microphones 14 (first microphones 14A to 14D), and may be the first microphone. Not limited to 14D.

生成部20Hは、出力スペクトルY(f,n)によって表される強調音信号を、逆変換部20Iおよび検出部20Cへ出力する。 The generation unit 20H outputs the emphasis signal represented by the output spectrum Y (f, n) to the inverse conversion unit 20I and the detection unit 20C.

検出部20Cは、強調音信号に基づいて、目的音区間を検出する。本実施の形態では、検出部20Cは、第2音信号と強調音信号に基づいて、目的音区間を検出する。 The detection unit 20C detects a target sound section based on the emphasis sound signal. In the present embodiment, the detection unit 20C detects a target sound section based on the second sound signal and the emphasis sound signal.

詳細には、検出部20Cは、周波数スペクトルX(f,n)によって表される第2音信号と、生成部20Hから受付けた出力スペクトルY(f,n)によって表される強調音信号と、に基づいて、目的音区間を検出する。 Specifically, the detection unit 20C includes a second sound signal represented by the frequency spectrum X 1 (f, n) and an emphasis sound signal represented by the output spectrum Y (f, n) received from the generation unit 20H. , Detects the target sound section.

目的音区間は、目的音源12Aが音を発しているか否かをフレーム番号毎に示す関数u(n)によって表される。 The target sound section is represented by a function u 2 (n) indicating whether or not the target sound source 12A is emitting sound for each frame number.

(n)=1は、第nフレームで目的音源12Aが音を発している事を示す。第nフレームとは、n番目のフレームを示す。u(n)=0は、第nフレームで目的音源12Aが音を発していない事を示す。 u 2 (n) = 1 indicates that the target sound source 12A is emitting sound in the nth frame. The nth frame indicates the nth frame. u 2 (n) = 0 indicates that the target sound source 12A does not emit sound in the nth frame.

具体的には、関数uは、下記式(4)によって表される。 Specifically, the function u 2 is represented by the following equation (4).

Figure 0006961545
Figure 0006961545

式(4)中、p(n)およびp(n)は、下記式(5)および式(6)によって表される。すなわち、p(n)およびp(n)は、出力スペクトルY(f,n)によって表される強調音信号と、周波数スペクトルX(f,n)によって表される第2音信号と、の各々のパワーに依存する。 In the formula (4), p Y (n) and p X (n) are represented by the following formulas (5) and (6). That is, p Y (n) and p X (n) are an emphasis sound signal represented by the output spectrum Y (f, n) and a second sound signal represented by the frequency spectrum X 1 (f, n). Depends on the power of each of.

Figure 0006961545
Figure 0006961545

ここで、初期処理の段階では、p(n)には、目的音源12Aと非目的音源12Bの双方の音に応じたスペクトルが含まれる。このため、式(4)中、閾値tは、目的音源12Aまたは非目的音源12Bから音が発せられている場合に、t<P(n)の関係を満たすように、予め設定する。 Here, at the initial processing stage, p Y (n) includes spectra corresponding to the sounds of both the target sound source 12A and the non-purpose sound source 12B. Therefore, in the equation (4), the threshold value t 1 is set in advance so as to satisfy the relationship of t 1 <P Y (n) when the sound is emitted from the target sound source 12A or the non-purpose sound source 12B. ..

また、目的音源12Aと非目的音源12Bの内、非目的音源12Bが音を発している場合には、p(n)は、p(n)に比べて相対的に大きくなる。このため、式(4)中、閾値tは、非目的音源12Bが音を発している場合に、p(n)−p(n)≧tの関係を満たすように、予め設定する。 Further, when the non-purpose sound source 12B is emitting sound among the target sound source 12A and the non-purpose sound source 12B, p X (n) is relatively larger than py (n). Thus, in the formula (4), the threshold value t 2, when the non-target sound source 12B is emitting a sound, so as to satisfy the relationship p X (n) -p y ( n) ≧ t 2, preset do.

これらの設定により、関数u(n)は、目的音源12Aのみが音を発している第nフレームでは値“1”を示す。そして、関数uは、目的音源12Aが音を発していない第nフレームでは値“0”を示す。 With these settings, the function u 2 (n) shows a value of "1" in the nth frame in which only the target sound source 12A emits sound. Then, the function u 2 shows a value “0” in the nth frame in which the target sound source 12A does not emit sound.

このため、検出部20Cは、u(n)=1で表される区間を目的音区間として検出し、u(n)=0で表される区間を非目的音区間として検出する。 Therefore, the detection unit 20C detects the section represented by u 2 (n) = 1 as the target sound section, and detects the section represented by u 2 (n) = 0 as the non-target sound section.

相関導出部20Dは、検出部20Cで検出された目的音区間と、変換部20BおよびAD変換部18を介して第1マイク14から受付けた第1音信号と、に基づいて、第1空間相関行列φxx(f,n)と、第2空間相関行列φNN(f,n)と、を導出する。そして、相関導出部20Dは、導出した第1空間相関行列φxx(f,n)を第1相関記憶部20Eへ記憶することで、第1空間相関行列φxx(f,n)を更新する。同様に、相関導出部20Dは、導出した第2空間相関行列φNN(f,n)を第2相関記憶部20Fへ記憶することで、第2空間相関行列φNN(f,n)を更新する。 The correlation derivation unit 20D has a first spatial correlation based on the target sound section detected by the detection unit 20C and the first sound signal received from the first microphone 14 via the conversion unit 20B and the AD conversion unit 18. The matrix φ xx (f, n) and the second spatial correlation matrix φ NN (f, n) are derived. Then, the correlation derivation unit 20D updates the first space correlation matrix φxx (f, n) by storing the derived first space correlation matrix φxx (f, n) in the first correlation storage unit 20E. .. Similarly, the correlation derivation unit 20D updates the second space correlation matrix φ NN (f, n) by storing the derived second space correlation matrix φ NN (f, n) in the second correlation storage unit 20F. do.

詳細には、相関導出部20Dは、u(n)=1で表される区間(第nフレーム)については、下記式(7)により、第1空間相関行列φxx(f,n)を導出および更新し、第2空間相関行列φNN(f,n)は更新しない。 Specifically, the correlation deriving unit 20D uses the following equation (7) to obtain a first spatial correlation matrix φxx (f, n) for the interval (nth frame) represented by u 2 (n) = 1. Derived and updated, and the second spatial correlation matrix φ NN (f, n) is not updated.

一方、相関導出部20Dは、u(n)=0で表される区間(第nフレーム)については、下記式(8)により、第2空間相関行列φNN(f,n)を導出および更新し、第1空間相関行列φxx(f,n)は更新しない。 On the other hand, the correlation derivation unit 20D derives the second spatial correlation matrix φ NN (f, n) by the following equation (8) for the interval (nth frame) represented by u 2 (n) = 0. It is updated, and the first spatial correlation matrix φxx (f, n) is not updated.

Figure 0006961545
Figure 0006961545

式(7)および式(8)中、αは、0以上1未満の値である。αの値が1に近い値であるほど、過去に導出した第1空間相関行列φxx(f,n)の重みが、最新の第1空間相関行列φxx(f,n)に比べて大きい事を意味する。αの値は、予め設定すればよい。αは、例えば、0.95などとすればよい。 In the formula (7) and the formula (8), α is a value of 0 or more and less than 1. As the value of α is a value close to 1, the weight of the first spatial correlation matrix phi xx derived in the past (f, n) is larger than the latest first spatial correlation matrix φ xx (f, n) Means things. The value of α may be set in advance. α may be, for example, 0.95.

すなわち、相関導出部20Dは、目的音区間の第1音信号について、過去に導出した第1空間相関行列φxx(f,n)を、該第1音信号と該第1音信号をエルミート転置した転置信号との乗算値によって表される最新の第1空間相関行列φxx(f,n)で補正することによって、新たな第1空間相関行列φxx(f,n)を導出する。なお、目的区間の第1音信号とは、第1音信号における、目的区間の音信号を意味する。 That is, the correlation derivation unit 20D transposes the first sound signal and the first sound signal of the first sound signal of the target sound section, which has been derived in the past, into the first space correlation matrix φxx (f, n) by Hermitian. A new first spatial correlation matrix φ xx (f, n) is derived by correcting with the latest first spatial correlation matrix φ xx (f, n) represented by the multiplication value with the transposed signal. The first sound signal in the target section means the sound signal in the target section in the first sound signal.

相関導出部20Dは、第1相関記憶部20Eに記憶済の第1空間相関行列φxx(f,n)を、過去に導出した第1空間相関行列φxx(f,n)として用いればよい。第1相関記憶部20Eには、1つの第1空間相関行列φxx(f,n)のみが記憶され、順次、相関導出部20Dによって更新される。 Correlation derivation unit 20D includes first spatial correlation matrix phi xx of already stored in the first correlation storage section 20E of the (f, n), may be used as the first spatial correlation matrix phi xx derived in the past (f, n) .. Only one first spatial correlation matrix φxx (f, n) is stored in the first correlation storage unit 20E, and is sequentially updated by the correlation derivation unit 20D.

また、相関導出部20Dは、非目的音区間の第1音信号について、過去に導出した第2空間相関行列φNN(f,n)を、該第1音信号と該第1音信号をエルミート転置した転置信号との乗算値によって表される最新の第2空間相関行列φNN(f,n)で補正することによって、新たな第2空間相関行列φNN(f,n)を導出する。なお、非目的区間の第1音信号とは、第1音信号における、非目的区間の音信号を意味する。 Further, the correlation derivation unit 20D uses the second spatial correlation matrix φ NN (f, n) derived in the past for the first sound signal in the non-purpose sound section, and the first sound signal and the first sound signal as Elmeet. A new second spatial correlation matrix φ NN (f, n) is derived by correcting with the latest second spatial correlation matrix φ NN (f, n) represented by the multiplication value with the transposed transposed signal. The first sound signal in the non-purpose section means the sound signal in the non-purpose section in the first sound signal.

相関導出部20Dは、第2相関記憶部20Fに記憶済の第2空間相関行列φNN(f,n)を、過去に導出した第2空間相関行列φNN(f,n)として用いればよい。第2相関記憶部20Fには、1つの第2空間相関行列φNN(f,n)のみが記憶されるものとし、順次、相関導出部20Dによって更新される。 Correlation derivation unit 20D, the second spatial correlation matrix phi NN of already stored in the second correlation storing section 20F to (f, n), may be used as the second spatial correlation matrix phi NN derived in the past (f, n) .. It is assumed that only one second spatial correlation matrix φ NN (f, n) is stored in the second correlation storage unit 20F, and is sequentially updated by the correlation derivation unit 20D.

次に、定常処理における、相関導出部20D、係数導出部20G、および生成部20Hの機能について説明する。定常処理とは、上記初期処理の後に実行される処理である。 Next, the functions of the correlation derivation unit 20D, the coefficient derivation unit 20G, and the generation unit 20H in the steady processing will be described. The steady-state process is a process executed after the initial process.

なお、音信号処理部20は、初期処理を所定時間実行した後に定常処理へ移行してもよいし、第1空間相関行列φxx(f,n)および第2空間相関行列φNN(f,n)が所定回数更新されたときに定常処理へ移行してもよい。 The sound signal processing unit 20 may shift to the steady processing after executing the initial processing for a predetermined time, or may shift to the first spatial correlation matrix φxx (f, n) and the second spatial correlation matrix φ NN (f, NN). When n) is updated a predetermined number of times, the process may shift to routine processing.

まず、定常処理における係数導出部20Gの機能を説明する。初期処理では、係数導出部20Gは、空間フィルタ係数F(f,n)として、空間フィルタ係数F(f,n)=[0,0,0,1]を導出した。 First, the function of the coefficient derivation unit 20G in the steady processing will be described. In the initial processing, the coefficient derivation unit 20G derives the spatial filter coefficient F (f, n) = [0,0,0,1] as the spatial filter coefficient F (f, n).

定常処理では、係数導出部20Gは、目的音信号を強調した強調音信号に基づいて、第1音信号に含まれる目的音信号を強調するための空間フィルタ係数F(f,n)を導出する。 In the steady processing, the coefficient derivation unit 20G derives the spatial filter coefficient F (f, n) for emphasizing the target sound signal included in the first sound signal based on the emphasized sound signal emphasizing the target sound signal. ..

上述したように、第1音信号は、複数の第1マイク14から取得した複数の第3音信号からなる。このため、係数導出部20Gは、複数の第1マイク14から出力された複数の第3信号からなる第1音信号に含まれる目的音信号を強調した強調音信号に基づいて、空間フィルタ係数F(f,n)を導出する。 As described above, the first sound signal includes a plurality of third sound signals acquired from the plurality of first microphones 14. Therefore, the coefficient deriving unit 20G has a spatial filter coefficient F based on the emphasized sound signal emphasizing the target sound signal included in the first sound signal composed of the plurality of third signals output from the plurality of first microphones 14. (F, n) is derived.

詳細には、係数導出部20Gは、相関導出部20Dによって更新された第1空間相関行列φxx(f,n)および第2空間相関行列φNN(f,n)に基づいて、空間フィルタ係数F(f,n)を導出する。 Specifically, the coefficient deriving unit 20G is based on the first spatial correlation matrix φ xx (f, n) and the second spatial correlation matrix φ NN (f, n) updated by the correlation deriving unit 20D. F (f, n) is derived.

係数導出部20Gは、第1相関記憶部20Eおよび第2相関記憶部20Fから第1空間相関行列φxx(f,n)および第2空間相関行列φNN(f,n)を読取り、空間フィルタ係数F(f,n)の導出に用いればよい。 The coefficient derivation unit 20G reads the first spatial correlation matrix φxx (f, n) and the second spatial correlation matrix φ NN (f, n) from the first correlation storage unit 20E and the second correlation storage unit 20F, and performs a spatial filter. It may be used for deriving the coefficient F (f, n).

ここで、定常処理の段階で、第1相関記憶部20Eおよび第2相関記憶部20Fに記憶されている第1空間相関行列φxx(f,n)および第2空間相関行列φNN(f,n)は、相関導出部20Dによって更新済の空間相関行列である。すなわち、これらの空間相関行列は、強調音信号に基づいて検出された目的音区間を用いて、相関導出部20Dによって更新された空間相関行列である。このため、係数導出部20Gは、強調音信号に基づいて、空間フィルタ係数F(f,n)を導出することとなる。 Here, at the stage of steady processing, the first spatial correlation matrix φ xx (f, n) and the second spatial correlation matrix φ NN (f,) stored in the first correlation storage unit 20E and the second correlation storage unit 20F. n) is a spatial correlation matrix updated by the correlation derivation unit 20D. That is, these spatial correlation matrices are spatial correlation matrices updated by the correlation derivation unit 20D using the target sound section detected based on the emphasized sound signal. Therefore, the coefficient deriving unit 20G derives the spatial filter coefficient F (f, n) based on the emphasized sound signal.

詳細には、係数導出部20Gは、第1空間相関行列φxx(f,n)と第2空間相関行列φNN(f,n)の逆行列との積によって表される行列の、最大固有値に対応する固有ベクトルFSNR(f,n)を導出する。そして、係数導出部20Gは、固有ベクトルFSNR(f,n)を、空間フィルタ係数F(f,n)として導出する(F(f,n)=FSNR(f,n))。 Specifically, the coefficient derivation unit 20G is the maximum eigenvalue of the matrix represented by the product of the first spatial correlation matrix φxx (f, n) and the inverse matrix of the second spatial correlation matrix φ NN (f, n). The eigenvector F SNR (f, n) corresponding to is derived. Then, the coefficient deriving unit 20G derives the eigenvector F SNR (f, n) as the spatial filter coefficient F (f, n) (F (f, n) = F SNR (f, n)).

固有ベクトルFSNR(f,n)は、目的音と非目的音とのパワー比を最大化するMAX−SNR(Maximum Signal−to−Noise)ビームフォーマを構成する。 The eigenvector F SNR (f, n) constitutes a MAX-SNR (Maximum Signal-to-Noise) beamformer that maximizes the power ratio between the target sound and the non-target sound.

なお、係数導出部20Gは、各周波数ビンのパワーを調整することで音質を改善するポストフィルタw(f,n)を追加し、下記式(9)を用いて、空間フィルタ係数F(f,n)を導出してもよい。 The coefficient derivation unit 20G adds a post filter w (f, n) that improves sound quality by adjusting the power of each frequency bin, and uses the following equation (9) to create a spatial filter coefficient F (f, n). n) may be derived.

Figure 0006961545
Figure 0006961545

ポストフィルタw(f,n)は、下記式(10)で表される。 The post filter w (f, n) is represented by the following equation (10).

Figure 0006961545
Figure 0006961545

次に、生成部20Hについて説明する。定常処理では、生成部20Hは、初期処理時と同様に、係数導出部20Gで導出された空間フィルタ係数F(f,n)を用いて、周波数スペクトルX(f,n)によって表される第1音信号に含まれる目的音信号を強調した、強調音信号を生成する。すなわち、生成部20Hは、上記式(3)を用いて、出力スペクトルY(f,n)によって表される強調音信号を生成する。 Next, the generation unit 20H will be described. In the steady processing, the generation unit 20H is represented by the frequency spectrum X 2 (f, n) using the spatial filter coefficient F (f, n) derived by the coefficient derivation unit 20G as in the initial processing. An emphasized sound signal that emphasizes the target sound signal included in the first sound signal is generated. That is, the generation unit 20H uses the above equation (3) to generate an emphasis sound signal represented by the output spectrum Y (f, n).

生成部20Hは、生成した強調音信号を、逆変換部20Iおよび検出部20Cへ出力する。 The generation unit 20H outputs the generated emphasis sound signal to the inverse conversion unit 20I and the detection unit 20C.

逆変換部20Iは、生成部20Hから受付けた強調音信号を逆短時間フーリエ変換(ISTFT:Inverse Short−Time Fourier Transform)し、出力部22へ出力する。 The inverse transform unit 20I performs an inverse short-time Fourier transform (ISTFT: Inverse Short-Time Fourier Transform) of the emphasized sound signal received from the generation unit 20H and outputs it to the output unit 22.

すなわち、逆変換部20Iは、目的音源12Aから発せられた目的音の目的音信号が強調され非目的音信号が抑圧された強調信号を、時間領域の音波形に変換する。 That is, the inverse conversion unit 20I converts the emphasized signal in which the target sound signal of the target sound emitted from the target sound source 12A is emphasized and the non-target sound signal is suppressed into a sound wave shape in the time domain.

具体的には、逆変換部20Iは、強調信号を示す出力スペクトルY(f,n)の対称性を用いて、出力スペクトルY(f,n)から256点のスペクトルを生成し、逆フーリエ変換を行う。次に、逆変換部20Iは、合成窓関数を適用し、前フレームの出力波形とフレームシフト分ずらして重畳することにより、音波形を生成すればよい。 Specifically, the inverse transform unit 20I generates a spectrum of 256 points from the output spectrum Y (f, n) by using the symmetry of the output spectrum Y (f, n) indicating the emphasized signal, and performs the inverse Fourier transform. I do. Next, the inverse transformation unit 20I may generate a sound wave shape by applying a composite window function and superimposing it on the output waveform of the previous frame by shifting the frame shift.

次に、検出部20Cについて説明する。初期処理時には、検出部20Cは、目的音区間を検出した。 Next, the detection unit 20C will be described. At the time of initial processing, the detection unit 20C detected the target sound section.

定常処理時には、検出部20Cは、強調音信号と第2音信号に基づいて、目的音区間と、重複区間と、を検出する。重複区間とは、目的音源12Aおよび非目的音源12Bの双方から音が発せられている区間を示す。例えば、重複区間とは、複数の話者が発話している区間を示す。 At the time of steady processing, the detection unit 20C detects a target sound section and an overlapping section based on the emphasis sound signal and the second sound signal. The overlapping section indicates a section in which sound is emitted from both the target sound source 12A and the non-purpose sound source 12B. For example, the overlapping section indicates a section in which a plurality of speakers are speaking.

詳細には、検出部20Cは、関数u(n)に加えて、関数u(n)を検出する。 Specifically, the detection unit 20C, in addition to the function u 2 (n), for detecting the function u 1 (n).

関数u(n)は、第2非目的音区間を示す関数である。詳細には、関数u(n)は、非目的音源12Bが音を発しているか否かをフレーム番号毎に示す関数である。第2非目的音区間は、非目的音源12Bが音を発している区間である。 The function u 1 (n) is a function indicating a second non-purpose sound section. Specifically, the function u 1 (n) is a function indicating whether or not the non-purpose sound source 12B is emitting sound for each frame number. The second non-purpose sound section is a section in which the non-purpose sound source 12B emits sound.

ここで、定常処理の段階では、出力スペクトルY(f,n)によって表される強調音信号に含まれる、非目的音源12Bから発せられた非目的音によるパワーは、抑圧されている。このため、上記式(5)によって表されるp(n)は、近似的に、目的音源12Aから発せられた目的音によるパワーとみなすことができる。このため、定常処理の段階では、u(n)によって表される第2非目的音区間と、u(n)によって表される目的音区間は、下記式(11)および式(12)によって表される。 Here, at the stage of steady processing, the power due to the non-purpose sound emitted from the non-purpose sound source 12B included in the emphasis sound signal represented by the output spectrum Y (f, n) is suppressed. Therefore, p Y (n) represented by the above equation (5) can be approximately regarded as the power generated by the target sound emitted from the target sound source 12A. Therefore, at the stage of steady processing, the second non-purpose sound section represented by u 1 (n) and the target sound section represented by u 2 (n) are the following equations (11) and (12). Represented by.

Figure 0006961545
Figure 0006961545

なお、u(n)=1は、第nフレームで目的音源12Aが音を発している事を示す。u(n)=0は、第nフレームで目的音源12Aが音を発していない事を示す。また、u(n)=1は、第nフレームで非目的音源12Bが音を発している事を示す。u(n)=0は、第nフレームで非目的音源12Bが音を発していない事を示す。 Note that u 2 (n) = 1 indicates that the target sound source 12A is emitting sound in the nth frame. u 2 (n) = 0 indicates that the target sound source 12A does not emit sound in the nth frame. Further, u 1 (n) = 1 indicates that the non-purpose sound source 12B is emitting sound in the nth frame. u 1 (n) = 0 indicates that the non-purpose sound source 12B does not emit sound in the nth frame.

このため、式(11)および式(12)中における閾値tおよび閾値tは、u(n)およびu(n)が上記条件を示す式となるように、予め設定すればよい。 Therefore, the threshold values t 3 and t 4 in the equations (11) and (12) may be set in advance so that u 1 (n) and u 2 (n) are equations indicating the above conditions. ..

検出部20Cは、u(n)=1であり、且つ、u(n)=0である区間を、目的音区間として検出する。また、検出部20Cは、u(n)=0である区間を、非目的音区間として検出する。また、検出部20Cは、u(n)=1であり且つu(n)=1である区間を、目的音源12Aおよび非目的音源12Bの双方から音が発せられている重複区間として検出する。そして、検出部20Cは、検出結果を、相関導出部20Dへ出力する。本実施の形態では、検出部20Cは、検出結果として、u(n)および、u(n)を相関導出部20Dへ出力する。 The detection unit 20C detects a section in which u 2 (n) = 1 and u 1 (n) = 0 as a target sound section. Further, the detection unit 20C detects a section where u 2 (n) = 0 as a non-purpose sound section. Further, the detection unit 20C detects a section in which u 2 (n) = 1 and u 1 (n) = 1 as an overlapping section in which sound is emitted from both the target sound source 12A and the non-purpose sound source 12B. do. Then, the detection unit 20C outputs the detection result to the correlation derivation unit 20D. In the present embodiment, the detection unit 20C outputs u 1 (n) and u 2 (n) to the correlation derivation unit 20D as the detection result.

相関導出部20Dは、検出部20Cで検出された目的音区間と、重複区間と、第1音信号と、に基づいて、第1空間相関行列φxx(f,n)と第2空間相関行列φNN(f,n)を導出する。 The correlation derivation unit 20D has a first spatial correlation matrix φxx (f, n) and a second spatial correlation matrix based on the target sound section, the overlapping section, and the first sound signal detected by the detection unit 20C. Derivation of φ NN (f, n).

相関導出部20Dは、u(n)=1であり且つu(n)=0である区間を目的音区間とし、該区間については、下記式(13)を用いて第1空間相関行列φxx(f,n)を導出し更新する。なお、u(n)=1であり且つu(n)=0である目的音区間について、相関導出部20Dは、第2空間相関行列φNN(f,n)の導出および更新を行わない。 The correlation derivation unit 20D uses a section in which u 2 (n) = 1 and u 1 (n) = 0 as a target sound section, and uses the following equation (13) for the first spatial correlation matrix. Derivation and update of φxx (f, n). The correlation derivation unit 20D derives and updates the second spatial correlation matrix φ NN (f, n) for the target sound section in which u 2 (n) = 1 and u 1 (n) = 0. No.

Figure 0006961545
Figure 0006961545

一方、相関導出部20Dは、u(n)=0である区間を非目的音区間とし、該区間については、下記式(14)を用いて、第2空間相関行列φNN(f,n)を導出し更新する。なお、u(n)=0である区間について、相関導出部20Dは、第1空間相関行列φxx(f,n)の導出および更新を行わない。 On the other hand, in the correlation derivation unit 20D , a section where u 2 (n) = 0 is set as a non-purpose sound section, and for this section, the second spatial correlation matrix φ NN (f, n) is used by using the following equation (14). ) Is derived and updated. Note that the correlation deriving unit 20D does not derive or update the first spatial correlation matrix φxx (f, n) for the interval where u 2 (n) = 0.

Figure 0006961545
Figure 0006961545

また、相関導出部20Dは、u(n)=1であり且つu(n)=1である区間については、第1空間相関行列φxx(f,n)および第2空間相関行列φNN(f,n)の双方の導出および更新を行わない。上述したように、u(n)=1であり且つu(n)=1である区間は、目的音源12Aおよび非目的音源12Bの双方から音が発せられている重複区間である。 Further, the correlation derivation unit 20D has a first spatial correlation matrix φ xx (f, n) and a second spatial correlation matrix φ for an interval in which u 2 (n) = 1 and u 1 (n) = 1. Both NN (f, n) are not derived or updated. As described above, the section in which u 2 (n) = 1 and u 1 (n) = 1 is an overlapping section in which sound is emitted from both the target sound source 12A and the non-purpose sound source 12B.

すなわち、定常処理において、相関導出部20Dは、目的音源12Aおよび非目的音源12Bの双方から音が発せられている重複区間については、第1空間相関行列φxx(f,n)および第2空間相関行列φNN(f,n)の双方の導出および更新を行わない。 That is, in the steady processing, the correlation derivation unit 20D uses the first space correlation matrix φxx (f, n) and the second space for the overlapping section in which sound is emitted from both the target sound source 12A and the non-target sound source 12B. Both of the correlation matrix φ NN (f, n) are not derived or updated.

このように、目的音源12Aおよび非目的音源12Bの双方が同時に音を発している重複区間については、第1空間相関行列φxx(f,n)および第2空間相関行列φNN(f,n)の双方を更新しない構成とする。この構成により、目的音源12Aおよび非目的音源12Bの双方が同時に音を発した重複区間を用いることによる、目的音信号の強調精度の低下を抑制することができる。 As described above, for the overlapping section in which both the target sound source 12A and the non-purpose sound source 12B emit sound at the same time, the first spatial correlation matrix φ xx (f, n) and the second spatial correlation matrix φ NN (f, n) ) Will not be updated. With this configuration, it is possible to suppress a decrease in the emphasis accuracy of the target sound signal due to the use of the overlapping section in which both the target sound source 12A and the non-purpose sound source 12B emit sound at the same time.

次に、本実施の形態の音信号処理装置10が実行する音信号処理の手順を説明する。 Next, the procedure of sound signal processing executed by the sound signal processing device 10 of the present embodiment will be described.

図3は、本実施の形態の音信号処理装置10が実行する音信号処理の手順の一例を示す、フローチャートである。 FIG. 3 is a flowchart showing an example of a sound signal processing procedure executed by the sound signal processing device 10 of the present embodiment.

変換部20Bが、複数の第1マイク14から受付けた第3信号を短時間フーリエ変換し、周波数スペクトルX(f,n)によって表される第1音信号を取得する(ステップS100)。変換部20Bは、取得した第1音信号を、相関導出部20Dおよび生成部20Hへ出力する(ステップS102)。 The conversion unit 20B performs a short-time Fourier transform on the third signal received from the plurality of first microphones 14 to acquire the first sound signal represented by the frequency spectrum X 2 (f, n) (step S100). The conversion unit 20B outputs the acquired first sound signal to the correlation derivation unit 20D and the generation unit 20H (step S102).

次に、変換部20Aが、第2マイク16から受付けた第2音信号を短時間フーリエ変換し、周波数スペクトルX(f,n)によって表される第2音信号を取得する(ステップS104)。変換部20Aは、取得した第2音信号を検出部20Cへ出力する(ステップS106)。 Next, the conversion unit 20A performs a short-time Fourier transform on the second sound signal received from the second microphone 16 to acquire the second sound signal represented by the frequency spectrum X 1 (f, n) (step S104). .. The conversion unit 20A outputs the acquired second sound signal to the detection unit 20C (step S106).

なお、ステップS100〜ステップS106の処理は、変換部20Aおよび変換部20Bが並列で実行すればよく、図3に示す順に限定されない。また、ステップS100〜ステップS106の処理は、音信号処理を終了するまで継続して繰返し実行されるものとする。 The processes of steps S100 to S106 may be executed by the conversion unit 20A and the conversion unit 20B in parallel, and are not limited to the order shown in FIG. Further, it is assumed that the processes of steps S100 to S106 are continuously and repeatedly executed until the sound signal processing is completed.

そして、音信号処理装置10は、初期処理を実行する(ステップS108〜ステップS120)。 Then, the sound signal processing device 10 executes the initial processing (steps S108 to S120).

詳細には、まず、係数導出部20Gが、第1相関記憶部20Eおよび第2相関記憶部20Fから、第1空間相関行列φxx(f,n)および第2空間相関行列φNN(f,n)を読取る(ステップS108)。上述したように、初期状態では、第1空間相関行列φxx(f,n)および第2空間相関行列φNN(f,n)は、ゼロ行列で初期化されている。 Specifically, first, the coefficient deriving unit 20G receives the first spatial correlation matrix φ xx (f, n) and the second spatial correlation matrix φ NN (f, from the first correlation storage unit 20E and the second correlation storage unit 20F). n) is read (step S108). As described above, in the initial state, the first spatial correlation matrix φxx (f, n) and the second spatial correlation matrix φ NN (f, n) are initialized with a zero matrix.

次に、係数導出部20Gは、ステップS108で読取った第1空間相関行列φxx(f,n)および第2空間相関行列φNN(f,n)を用いて、空間フィルタ係数F(f,n)を導出する(ステップSS110)。上述したように、初期状態では、係数導出部20Gは、空間フィルタ係数F(f,n)として空間フィルタ係数F(f,n)=[0,0,0,1]を導出する。 Next, the coefficient deriving unit 20G uses the first spatial correlation matrix φ xx (f, n) and the second spatial correlation matrix φ NN (f, n) read in step S108 to use the spatial filter coefficient F (f, n). n) is derived (step SS110). As described above, in the initial state, the coefficient deriving unit 20G derives the spatial filter coefficient F (f, n) = [0,0,0,1] as the spatial filter coefficient F (f, n).

次に、生成部20Hが、ステップS110で導出された空間フィルタ係数F(f,n)を用いて、ステップS110で取得した、周波数スペクトルX(f,n)によって表される第1音信号に含まれる目的音信号を強調した強調音信号を生成する(ステップS112)。 Next, the generation unit 20H uses the spatial filter coefficient F (f, n) derived in step S110 to obtain the first sound signal represented by the frequency spectrum X 2 (f, n) acquired in step S110. Generates an emphasized sound signal that emphasizes the target sound signal included in (step S112).

次に、逆変換部20Iが、ステップS112で生成された、出力スペクトルY(f,n)によって表される強調音信号を逆短時間フーリエ変換し、出力部22へ出力する(ステップS114)。 Next, the inverse transform unit 20I performs inverse short-time Fourier transform on the emphasized sound signal represented by the output spectrum Y (f, n) generated in step S112 and outputs it to the output unit 22 (step S114).

次に、検出部20Cが、ステップS112で生成された強調音信号と第2音信号を用いて、関数u(n)によって表される目的音区間を検出する(ステップS116)。 Next, the detection unit 20C detects the target sound section represented by the function u 2 (n) by using the emphasis sound signal and the second sound signal generated in step S112 (step S116).

次に、相関導出部20Dは、ステップS116で検出された目的音区間と第1音信号を用いて、第1空間相関行列φxx(f,n)と第2空間相関行列φNN(f,n)を導出する(ステップS118)。 Next, the correlation derivation unit 20D uses the target sound section detected in step S116 and the first sound signal to form the first spatial correlation matrix φ xx (f, n) and the second spatial correlation matrix φ NN (f,). n) is derived (step S118).

次に、相関導出部20Dは、ステップS118で導出した第1空間相関行列φxx(f,n)と第2空間相関行列φNN(f,n)を、第1相関記憶部20Eおよび第2相関記憶部20Fの各々へ記憶することで、これらの空間相関行列を更新する(ステップS120)。 Next, the correlation derivation unit 20D uses the first spatial correlation matrix φ xx (f, n) and the second spatial correlation matrix φ NN (f, n) derived in step S118 as the first correlation storage unit 20E and the second. These spatial correlation matrices are updated by storing in each of the correlation storage units 20F (step S120).

次に、音信号処理部20が、初期処理から定常処理へ移行するか否かを判断する(ステップS122)。例えば、音信号処理部20は、初期処理を所定時間実行した否かを判別することで、定常処理へ移行するか否かを判断する。また、音信号処理部20は、第1空間相関行列φxx(f,n)および第2空間相関行列φNN(f,n)が所定回数更新されたか否かを判別することで、定常処理へ移行するか否かを判別してもよい。 Next, the sound signal processing unit 20 determines whether or not to shift from the initial processing to the steady processing (step S122). For example, the sound signal processing unit 20 determines whether or not to shift to the steady processing by determining whether or not the initial processing has been executed for a predetermined time. Further, the sound signal processing unit 20 determines whether or not the first spatial correlation matrix φxx (f, n) and the second spatial correlation matrix φ NN (f, n) have been updated a predetermined number of times, thereby performing steady processing. It may be determined whether or not to shift to.

ステップS122で否定判断すると(ステップS122:No)、上記ステップS108へ戻る。一方、ステップS122で肯定判断すると(ステップS122:Yes)、音信号処理部20は、定常処理を実行する(ステップS124〜ステップS138)。 If a negative determination is made in step S122 (step S122: No), the process returns to step S108. On the other hand, if an affirmative determination is made in step S122 (step S122: Yes), the sound signal processing unit 20 executes steady processing (steps S124 to S138).

定常処理では、係数導出部20Gが、第1相関記憶部20Eおよび第2相関記憶部20Fから、第1空間相関行列φxx(f,n)および第2空間相関行列φNN(f,n)を読取る(ステップS124)。すなわち、係数導出部20Gは、相関導出部20Dによって更新された最新の第1空間相関行列φxx(f,n)および第2空間相関行列φNN(f,n)を読取る。 In the steady processing, the coefficient deriving unit 20G receives the first spatial correlation matrix φ xx (f, n) and the second spatial correlation matrix φ NN (f, n) from the first correlation storage unit 20E and the second correlation storage unit 20F. Is read (step S124). That is, the coefficient deriving unit 20G reads the latest first spatial correlation matrix φ xx (f, n) and the second spatial correlation matrix φ NN (f, n) updated by the correlation deriving unit 20D.

次に、係数導出部20Gは、ステップS124で読取った第1空間相関行列φxx(f,n)および第2空間相関行列φNN(f,n)に基づいて、空間フィルタ係数F(f,n)を導出する(ステップS126)。 Next, the coefficient deriving unit 20G has a spatial filter coefficient F (f, n) based on the first spatial correlation matrix φ xx (f, n) and the second spatial correlation matrix φ NN (f, n) read in step S124. n) is derived (step S126).

次に、生成部20Hが、ステップS126で導出された空間フィルタ係数F(f,n)を用いて、変換部20Bから受付けた第1音信号に含まれる目的音信号を強調し、強調音信号を生成する(ステップS128)。 Next, the generation unit 20H uses the spatial filter coefficient F (f, n) derived in step S126 to emphasize the target sound signal included in the first sound signal received from the conversion unit 20B, and emphasizes the emphasis sound signal. Is generated (step S128).

次に、逆変換部20Iが、ステップS128で生成された強調音信号を逆短時間フーリエ変換し、出力部22へ出力する(ステップS130)。 Next, the inverse transform unit 20I performs inverse short-time Fourier transform on the emphasized sound signal generated in step S128 and outputs it to the output unit 22 (step S130).

次に、検出部20Cが、第2音信号と、ステップS128で生成された強調音信号と、を用いて、目的音区間と重複区間を検出する(ステップS132)。 Next, the detection unit 20C detects a target sound section and an overlapping section using the second sound signal and the emphasis sound signal generated in step S128 (step S132).

次に、相関導出部20Dが、ステップS132で検出された目的音区間と、重複区間と、変換部20BおよびAD変換部18を介して第1マイク14から受付けた第1音信号と、に基づいて、第1空間相関行列φxx(f,n)と第2空間相関行列φNN(f,n)を導出する(ステップS134)。そして、相関導出部20Dは、導出した第1空間相関行列φxx(f,n)と第2空間相関行列φNN(f,n)を第1相関記憶部20Eおよび第2相関記憶部20Fの各々へ記憶することで、これらの空間相関行列を更新する(ステップS136)。 Next, the correlation derivation unit 20D is based on the target sound section detected in step S132, the overlapping section, and the first sound signal received from the first microphone 14 via the conversion unit 20B and the AD conversion unit 18. Then, the first spatial correlation matrix φ xx (f, n) and the second spatial correlation matrix φ NN (f, n) are derived (step S134). Then, the correlation derivation unit 20D uses the derived first space correlation matrix φxx (f, n) and the second space correlation matrix φ NN (f, n) of the first correlation storage unit 20E and the second correlation storage unit 20F. By storing in each, these spatial correlation matrices are updated (step S136).

次に、音信号処理部20が、音信号処理を終了するか否かを判断する(ステップS138)。ステップS138で否定判断すると(ステップS138:No)、上記ステップS124へ戻る。ステップS138で肯定判断すると(ステップS138:Yes)、本ルーチンを終了する。 Next, the sound signal processing unit 20 determines whether or not to end the sound signal processing (step S138). If a negative determination is made in step S138 (step S138: No), the process returns to step S124. If an affirmative judgment is made in step S138 (step S138: Yes), this routine ends.

以上説明したように、本実施の形態の音信号処理装置10は、係数導出部20Gを備える。係数導出部20Gは、目的音信号を強調した強調音信号に基づいて、第1音信号に含まれる目的音信号を強調するための空間フィルタ係数F(f,n)を導出する。このため、導出した空間フィルタ係数F(f,n)を用いて目的音信号を強調した強調音信号を生成することで、高精度に目的音信号を強調することができる。 As described above, the sound signal processing device 10 of the present embodiment includes a coefficient deriving unit 20G. The coefficient derivation unit 20G derives the spatial filter coefficient F (f, n) for emphasizing the target sound signal included in the first sound signal based on the emphasized sound signal that emphasizes the target sound signal. Therefore, by using the derived spatial filter coefficient F (f, n) to generate an emphasis sound signal that emphasizes the target sound signal, the target sound signal can be emphasized with high accuracy.

ここで、従来では、複数の話者が同時に発話すると、目的音の強調精度が低下する場合があった。例えば、話者方向やマイク間の到来時間差を表すベクトルを音信号の特徴量として用い、該特徴量に基づいて、音信号に含まれる目的音信号を強調するためのフィルタを生成する従来方式が知られている。 Here, conventionally, when a plurality of speakers speak at the same time, the emphasis accuracy of the target sound may decrease. For example, there is a conventional method in which a vector representing the speaker direction and the arrival time difference between microphones is used as a feature amount of a sound signal, and a filter for emphasizing the target sound signal included in the sound signal is generated based on the feature amount. Are known.

しかし、このような従来方式では、複数の話者が同時に発話すると、話者の各々の特徴量とは異なる特徴量の分布が得られるため、目的音信号を強調するためのフィルタの精度が低下する場合があった。また、複数の話者が順番に発話する状況の場合についても、相槌などによる同時に発話する区間が発生することから、目的音信号を強調するためのフィルタの精度が低下する場合があった。 However, in such a conventional method, when a plurality of speakers speak at the same time, a distribution of features different from the features of each speaker is obtained, so that the accuracy of the filter for emphasizing the target sound signal is lowered. There was a case. Further, even in the case where a plurality of speakers speak in order, the accuracy of the filter for emphasizing the target sound signal may be lowered because a section in which the speakers speak at the same time due to an aizuchi or the like is generated.

一方、本実施の形態の音信号処理装置10では、目的音信号を強調した強調音信号に基づいて、第1音信号に含まれる目的音信号を強調するための空間フィルタ係数F(f,n)を導出する。このため、導出した空間フィルタ係数F(f,n)を第1音信号に適用することで、目的音信号を強調した強調音信号を生成することによって、高精度に目的音信号を強調することができる。 On the other hand, in the sound signal processing device 10 of the present embodiment, the spatial filter coefficient F (f, n) for emphasizing the target sound signal included in the first sound signal is based on the emphasized sound signal emphasizing the target sound signal. ) Is derived. Therefore, by applying the derived spatial filter coefficient F (f, n) to the first sound signal, the target sound signal is emphasized with high accuracy by generating an emphasized sound signal that emphasizes the target sound signal. Can be done.

従って、音信号処理装置10は、高精度に目的音信号を強調することができる。 Therefore, the sound signal processing device 10 can emphasize the target sound signal with high accuracy.

また、本実施の形態の音信号処理装置10では、検出部20Cは、目的音信号に対する非目的音信号のパワーの比が第1音信号より大きい第2音信号と、強調音信号と、に基づいて、目的音区間を検出する。このため、検出部20Cは、高精度に目的音区間を検出することができる。そして、係数導出部20Gは、高精度に検出された目的音区間と第1音信号に基づいて導出された、第1空間相関行列φxx(f,n)および第2空間相関行列φNN(f,n)に基づいて、空間フィルタ係数F(f,n)を導出する。 Further, in the sound signal processing device 10 of the present embodiment, the detection unit 20C sets the ratio of the power of the non-target sound signal to the target sound signal to be larger than that of the first sound signal, that is, the second sound signal and the emphasized sound signal. Based on this, the target sound section is detected. Therefore, the detection unit 20C can detect the target sound section with high accuracy. Then, the coefficient derivation unit 20G is derived based on the target sound section and the first sound signal detected with high accuracy, and the first spatial correlation matrix φxx (f, n) and the second spatial correlation matrix φ NN ( The spatial filter coefficient F (f, n) is derived based on f, n).

このため、音信号処理装置10は、更に高精度に目的音信号を強調することができる。 Therefore, the sound signal processing device 10 can emphasize the target sound signal with higher accuracy.

また、本実施の形態では、検出部20Cが、第2音信号と強調音信号に基づいて、目的音区間を検出する。このため、本実施の形態の音信号処理装置10は、目的音源12Aおよび非目的音源12Bの位置に拘らず、非目的音源12Bの非目的音を抑圧して目的音源12Aの目的音信号を強調するように、空間フィルタ係数F(f,n)を導出することができる。このため、音信号処理装置10は、第1音信号に含まれる目的音信号を、より高精度に強調するための空間フィルタ係数(f,n)を導出することができる。 Further, in the present embodiment, the detection unit 20C detects the target sound section based on the second sound signal and the emphasis sound signal. Therefore, the sound signal processing device 10 of the present embodiment suppresses the non-purpose sound of the non-purpose sound source 12B and emphasizes the target sound signal of the target sound source 12A regardless of the positions of the target sound source 12A and the non-purpose sound source 12B. As such, the spatial filter coefficient F (f, n) can be derived. Therefore, the sound signal processing device 10 can derive a spatial filter coefficient (f, n) for emphasizing the target sound signal included in the first sound signal with higher accuracy.

また、本実施の形態では、検出部20Cは、強調音信号に基づいて、目的音と非目的音とが重複する重複区間と、目的音区間と、を検出する。そして、相関導出部20Dは、目的音区間と重複区間と第1音信号とに基づいて、第1空間相関行列φxx(f,n)および第2空間相関行列φNN(f,n)を導出する。 Further, in the present embodiment, the detection unit 20C detects an overlapping section in which the target sound and the non-target sound overlap and a target sound section based on the emphasized sound signal. Then, the correlation derivation unit 20D calculates the first spatial correlation matrix φ xx (f, n) and the second spatial correlation matrix φ NN (f, n) based on the target sound section, the overlapping section, and the first sound signal. Derived.

そして、相関導出部20Dは、重複区間については、第1空間相関行列φxx(f,n)および第2空間相関行列φNN(f,n)を導出および更新しない。このため、係数導出部20Gは、重複区間については、空間フィルタ係数F(f,n)を導出しない。よって、第1音信号における、複数の音源12から同時に音が発せられる区間についても、本実施の形態の音信号処理装置10では、高精度に目的音信号を強調することができる。 Then, the correlation derivation unit 20D does not derive and update the first spatial correlation matrix φ xx (f, n) and the second spatial correlation matrix φ NN (f, n) for the overlapping interval. Therefore, the coefficient deriving unit 20G does not derive the spatial filter coefficient F (f, n) for the overlapping section. Therefore, the sound signal processing device 10 of the present embodiment can emphasize the target sound signal with high accuracy even in the section of the first sound signal in which sounds are simultaneously emitted from the plurality of sound sources 12.

<変形例1>
なお、上記では、検出部20Cは、出力スペクトルY(f,n)によって表される強調音信号と、周波数スペクトルX(f,n)によって表される第2音信号と、のパワーに基づいて、目的音区間および重複区間を検出した。
<Modification example 1>
In the above, the detection unit 20C is based on the power of the emphasis sound signal represented by the output spectrum Y (f, n) and the second sound signal represented by the frequency spectrum X 1 (f, n). The target sound section and the overlapping section were detected.

しかし、検出部20Cは、出力スペクトルY(f,n)および周波数スペクトルX(f,n)を用いて、他の方法により、目的音区間および重複区間を検出してもよい。 However, the detection unit 20C may detect the target sound section and the overlapping section by other methods using the output spectrum Y (f, n) and the frequency spectrum X 1 (f, n).

例えば、出力スペクトルY(f,n)および周波数スペクトルX(f,n)を入力とし、関数u(n)および関数u(n)を推定するためのモデルを、決定木やk近傍法、サポートベクターマシン、ニューラルネットワークなどにより学習してもよい。 For example, a model for estimating the function u 1 (n) and the function u 2 (n) with the output spectrum Y (f, n) and the frequency spectrum X 1 (f, n) as inputs is determined by a decision tree or near k. It may be learned by a method, a support vector machine, a neural network, or the like.

一例として、ニューラルネットワークを用いたモデルの学習について説明する。 As an example, learning of a model using a neural network will be described.

この場合、検出部20Cは、モデルを学習するための学習データを収集する。例えば、本実施の形態の音信号処理部20を学習装置に実装し、音信号処理部20を用いて上記処理を実行することで、周波数スペクトルX(f,n)と該周波数スペクトルX(f,n)から導出した出力スペクトルY(f,n)とを含む学習データを、複数記録する。同次に、第1マイク14Dで目的音源12Aの目的音を集音して記録する。そして、ユーザによる該目的音の視聴やユーザによる該目的音の波形の目視などにより、各フレームで音を発している音源12を判定することで、関数u(n)および関数u(n)の正解データc(n)およびc(n)を作成する。 In this case, the detection unit 20C collects training data for training the model. For example, by mounting the sound signal processing unit 20 of the present embodiment on the learning device and executing the above processing using the sound signal processing unit 20, the frequency spectrum X 1 (f, n) and the frequency spectrum X 1 A plurality of training data including the output spectrum Y (f, n) derived from (f, n) are recorded. Next, the target sound of the target sound source 12A is collected and recorded by the first microphone 14D. Then, the function u 1 (n) and the function u 2 (n) are determined by determining the sound source 12 that emits sound in each frame by viewing the target sound by the user or visually observing the waveform of the target sound by the user. ) Correct answer data c 1 (n) and c 2 (n) are created.

また、検出部20Cは、入力特徴量として、下記式(15)で表されるベクトルv(n)を用いる。 Further, the detection unit 20C uses the vector v (n) represented by the following equation (15) as the input feature amount.

Figure 0006961545
Figure 0006961545

式(15)で表されるベクトルv(n)は、当該フレームと直前のフレームとのスペクトルの絶対値の対数を連結した、516次元ベクトルである。このため、目的音区間および重複区間の検出は、ベクトルv(n)から正解データを表す二次元ベクトルc(n)=[c(n),c(n)]の推定に、定式化することができる。 The vector v (n) represented by the equation (15) is a 516-dimensional vector obtained by concatenating the logarithms of the absolute values of the spectra of the frame and the immediately preceding frame. Therefore, the detection of the target sound section and the overlapping section is formulated from the vector v (n) to the estimation of the two-dimensional vector c (n) = [c 1 (n), c 2 (n)] representing the correct answer data. can do.

ここで、ニューラルネットワークのモデルの構成を、下記式(16)〜式(20)で定義する。 Here, the configuration of the neural network model is defined by the following equations (16) to (20).

Figure 0006961545
Figure 0006961545

中間層のノード数を100とすると、行列Wおよび行列Wのサイズは、各々、100×516、2×100となる。このため、行列W、行列W、行列Wのサイズは、何れも、100×100となる。 When the number of nodes of the intermediate layer is 100, the size of the matrix W i and the matrix W 0 are each a 100 × 516,2 × 100. Therefore, the sizes of the matrix W 1 , the matrix W 2 , and the matrix W 3 are all 100 × 100.

また、式(16)〜式(20)における関数sigmoid()は、下記式(21)で表されるsigmoid関数を、ベクトルの各要素に適用する演算を表す。 Further, the function sigmoid () in the equations (16) to (20) represents an operation in which the sigmoid function represented by the following equation (21) is applied to each element of the vector.

Figure 0006961545
Figure 0006961545

そして、目的関数Lを、下記式(22)で表されるクロスエントロピーで定義する。 Then, the objective function L is defined by the cross entropy represented by the following equation (22).

Figure 0006961545
Figure 0006961545

そして、検出部20Cは、目的関数Lを最大化するパラメータ列W,W,W,W,Wを、学習によって求める。 Then, the detection unit 20C obtains the parameter sequences Wi , W o , W 1 , W 2 , and W 3 that maximize the objective function L by learning.

学習の手法には、確率的勾配降下法など、既存の手法を用いればよい。このモデルを用いて導出した関数u(n)および関数u(n)は、0から1の間の連続値となる。このため、例えば0.5を閾値として、それ以上であれば1(目的音区間)、それ未満であれば0(非目的音区間)に二値化すればよい。 As the learning method, an existing method such as the stochastic gradient descent method may be used. The function u 1 (n) and the function u 2 (n) derived using this model are continuous values between 0 and 1. Therefore, for example, 0.5 may be set as a threshold value, and if it is more than that, it may be binarized to 1 (target sound section), and if it is less than that, it may be binarized to 0 (non-target sound section).

このように、検出部20Cは、出力スペクトルY(f,n)および周波数スペクトルX(f,n)を用いて、第1の実施の形態とは異なる方法により、目的音区間および重複区間を検出してもよい。 As described above, the detection unit 20C uses the output spectrum Y (f, n) and the frequency spectrum X 1 (f, n) to set the target sound section and the overlapping section by a method different from that of the first embodiment. It may be detected.

(第2の実施の形態)
本実施の形態では、第2マイク16から取得した第2音声信号を用いずに、第1マイク14から取得した第1音声信号を用いて、音信号処理を行う形態を説明する。
(Second Embodiment)
In the present embodiment, a mode in which sound signal processing is performed using the first audio signal acquired from the first microphone 14 without using the second audio signal acquired from the second microphone 16 will be described.

図4は、本実施の形態の音信号処理システム2の一例を示す模式図である。 FIG. 4 is a schematic diagram showing an example of the sound signal processing system 2 of the present embodiment.

音信号処理システム2は、音信号処理装置11と、複数の第1マイク14と、を備える。音信号処理装置11と、複数の第1マイク14とは、データや信号を授受可能に接続されている。 The sound signal processing system 2 includes a sound signal processing device 11 and a plurality of first microphones 14. The sound signal processing device 11 and the plurality of first microphones 14 are connected so as to be able to exchange data and signals.

すなわち、音信号処理システム2は、音信号処理装置10に代えて音信号処理装置11を備え、且つ、第2マイク16を備えない点以外は、第1の実施の形態の音信号処理システム1と同様である。 That is, the sound signal processing system 1 of the first embodiment is provided with the sound signal processing device 11 instead of the sound signal processing device 10 and is not provided with the second microphone 16. Is similar to.

本実施の形態では、音信号処理システム2は、音源12として、複数の目的音源12Aを想定する。図4には、複数の目的音源12Aとして、三人の話者である目的音源12A1〜目的音源12A3を一例として示した。目的音源12Aは、例えば、人(話者)である。本実施の形態では、矩形形状のテーブルTの3辺に、各々1人の話者(目的音源12A1、目的音源12A2、目的音源12A3)が座って会話する環境を想定している。なお、本実施の形態では、音信号処理装置11による音信号処理中、これらの複数の目的音源12Aの位置は、大きく移動しない場合を想定している。なお、目的音源12Aの数は、3に限定されず、2または4以上であってもよい。 In the present embodiment, the sound signal processing system 2 assumes a plurality of target sound sources 12A as the sound source 12. In FIG. 4, as the plurality of target sound sources 12A, the target sound sources 12A1 to 12A3, which are three speakers, are shown as an example. The target sound source 12A is, for example, a person (speaker). In the present embodiment, it is assumed that one speaker (target sound source 12A1, target sound source 12A2, target sound source 12A3) sits and talks on each of the three sides of the rectangular table T. In this embodiment, it is assumed that the positions of the plurality of target sound sources 12A do not move significantly during the sound signal processing by the sound signal processing device 11. The number of target sound sources 12A is not limited to 3, and may be 2 or 4 or more.

第1の実施の形態と同様に、音信号処理システム2は、複数の第1マイク14を備える。本実施の形態では、一例として、第1マイク14A〜第1マイク14Dの4つの第1マイク14を示した。 Similar to the first embodiment, the sound signal processing system 2 includes a plurality of first microphones 14. In the present embodiment, as an example, four first microphones 14 of the first microphone 14A to the first microphone 14D are shown.

第1の実施の形態と同様に、複数の第1マイク14は、複数の目的音源12Aの各々からの音到達時間差が互いに異なる。すなわち、複数の第1マイク14は、上記音到達時間差が互いに異なるように、配置位置が予め調整されている。 Similar to the first embodiment, the plurality of first microphones 14 have different sound arrival time differences from each of the plurality of target sound sources 12A. That is, the arrangement positions of the plurality of first microphones 14 are adjusted in advance so that the sound arrival time differences are different from each other.

また、音信号処理システム2に設けられる複数の第1マイク14の数は、本実施の形態の音源12の数以上であればよい。このため、本実施の形態では、第1マイク14の数は、3以上であればよい。第1マイク14の数が多いほど、目的音の強調精度の向上を図ることができる。 Further, the number of the plurality of first microphones 14 provided in the sound signal processing system 2 may be equal to or greater than the number of the sound sources 12 of the present embodiment. Therefore, in the present embodiment, the number of the first microphones 14 may be 3 or more. As the number of the first microphones 14 increases, the accuracy of emphasizing the target sound can be improved.

一例として、音信号処理システム2は、4つの第1マイク14(第1マイク14A〜第1マイク14D)を備える形態を説明する。 As an example, a mode in which the sound signal processing system 2 includes four first microphones 14 (first microphones 14A to 14D) will be described.

第1の実施の形態と同様に、複数の第1マイク14の各々から第3信号が出力されることで、音信号処理装置11には、複数の第3信号が出力される。第1の実施の形態と同様に、複数の第3音信号を一つにまとめた音信号を、第1音信号と称して説明する。 Similar to the first embodiment, the third signal is output from each of the plurality of first microphones 14, so that the sound signal processing device 11 outputs the plurality of third signals. Similar to the first embodiment, a sound signal obtained by combining a plurality of third sound signals into one will be referred to as a first sound signal.

音信号処理装置11は、AD変換部18と、音信号処理部30と、出力部22と、を備える。AD変換部18および出力部22は、第1の実施の形態と同様である。音信号処理装置11は、音信号処理部20に代えて音信号処理部30を備える点以外は、第1の実施の形態と同様である。なお、音信号処理装置11は、少なくとも音信号処理部30を備えた構成であればよく、AD変換部18および出力部22の少なくとも一方を別体として構成してもよい。 The sound signal processing device 11 includes an AD conversion unit 18, a sound signal processing unit 30, and an output unit 22. The AD conversion unit 18 and the output unit 22 are the same as those in the first embodiment. The sound signal processing device 11 is the same as that of the first embodiment except that the sound signal processing unit 30 is provided instead of the sound signal processing unit 20. The sound signal processing device 11 may be configured to include at least the sound signal processing unit 30, and at least one of the AD conversion unit 18 and the output unit 22 may be configured as a separate body.

音信号処理部30は、AD変換部18を介して複数の第3音信号を受付ける。音信号処理部30は、受付けた複数の第3音信号を1つにまとめた第1音信号に含まれる目的音信号を強調し、強調音信号を出力部22へ出力する。 The sound signal processing unit 30 receives a plurality of third sound signals via the AD conversion unit 18. The sound signal processing unit 30 emphasizes the target sound signal included in the first sound signal that combines the received plurality of third sound signals into one, and outputs the emphasized sound signal to the output unit 22.

音信号処理部30について詳細を説明する。 The sound signal processing unit 30 will be described in detail.

図5は、音信号処理部30の機能的構成の一例を示す模式図である。 FIG. 5 is a schematic diagram showing an example of the functional configuration of the sound signal processing unit 30.

音信号処理部30は、変換部30Bと、分離部30Jと、検出部30Cと、相関導出部30Dと、複数の第3相関記憶部30Eと、第4相関記憶部30Fと、複数の加算部30Kと、複数の係数導出部30Gと、複数の生成部30Hと、複数の逆変換部30Iと、を備える。 The sound signal processing unit 30 includes a conversion unit 30B, a separation unit 30J, a detection unit 30C, a correlation derivation unit 30D, a plurality of third correlation storage units 30E, a fourth correlation storage unit 30F, and a plurality of addition units. It includes 30K, a plurality of coefficient derivation units 30G, a plurality of generation units 30H, and a plurality of inverse conversion units 30I.

変換部30B、分離部30J、検出部30C、相関導出部30D、複数の係数導出部30G、複数の加算部30K、複数の生成部30H、および複数の逆変換部30Iは、例えば、1または複数のプロセッサにより実現される。例えば上述の各部は、CPUなどのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上述の各部は、専用のICなどのプロセッサ、すなわちハードウェアにより実現してもよい。上述の各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち1つを実現してもよいし、各部のうち2以上を実現してもよい。 The conversion unit 30B, the separation unit 30J, the detection unit 30C, the correlation derivation unit 30D, the plurality of coefficient derivation units 30G, the plurality of addition units 30K, the plurality of generation units 30H, and the plurality of inverse conversion units 30I may be, for example, one or more. It is realized by the processor of. For example, each of the above-mentioned parts may be realized by causing a processor such as a CPU to execute a program, that is, by software. Each of the above-mentioned parts may be realized by a processor such as a dedicated IC, that is, hardware. Each of the above-mentioned parts may be realized by using software and hardware together. When a plurality of processors are used, each processor may realize one of each part, or may realize two or more of each part.

第3相関記憶部30Eおよび第4相関記憶部30Fは、各種情報を記憶する。第3相関記憶部30Eおよび第4相関記憶部30Fは、HDD、光ディスク、メモリカード、RAMなどの一般的に利用されているあらゆる記憶媒体により構成することができる。また、第3相関記憶部30Eおよび第4相関記憶部30Fは、物理的に異なる記憶媒体としてもよいし、物理的に同一の記憶媒体の異なる記憶領域として実現してもよい。さらに、第3相関記憶部30Eおよび第4相関記憶部30Fの各々は、物理的に異なる複数の記憶媒体により実現してもよい。 The third correlation storage unit 30E and the fourth correlation storage unit 30F store various types of information. The third correlation storage unit 30E and the fourth correlation storage unit 30F can be configured by any commonly used storage medium such as an HDD, an optical disk, a memory card, and a RAM. Further, the third correlation storage unit 30E and the fourth correlation storage unit 30F may be physically different storage media, or may be realized as different storage areas of physically the same storage medium. Further, each of the third correlated storage unit 30E and the fourth correlated storage unit 30F may be realized by a plurality of physically different storage media.

なお、音信号処理部30には、複数の目的音源12Aの各々に対応する、第3相関記憶部30E、係数導出部30G、加算部30K、生成部30H、および逆変換部30Iが設けられている。上述したように、本実施の形態では、3つの目的音源12A(目的音源12A1〜目的音源12A3)を想定している。 The sound signal processing unit 30 is provided with a third correlation storage unit 30E, a coefficient derivation unit 30G, an addition unit 30K, a generation unit 30H, and an inverse conversion unit 30I corresponding to each of the plurality of target sound sources 12A. There is. As described above, in the present embodiment, three target sound sources 12A (target sound source 12A1 to target sound source 12A3) are assumed.

このため、本実施の形態では、音信号処理部30には、3つの第3相関記憶部30E(第3相関記憶部30E1〜第3相関記憶部30E3)、3つの係数導出部30G(係数導出部30G1〜係数導出部30G2)、3つの加算部30K(加算部30K1〜加算部30K3)、3つの生成部30H(生成部30H1〜生成部30H3)、および3つの逆変換部30I(逆変換部30I1〜逆変換部30I3)が設けられている。 Therefore, in the present embodiment, the sound signal processing unit 30 has three third correlation storage units 30E (third correlation storage units 30E1 to third correlation storage unit 30E3) and three coefficient derivation units 30G (coefficient derivation). Units 30G1 to coefficient derivation unit 30G2), three addition units 30K (addition unit 30K1 to addition unit 30K3), three generation units 30H (generation unit 30H1 to generation unit 30H3), and three inverse conversion units 30I (inverse conversion unit). 30I1 to the inverse conversion unit 30I3) are provided.

なお、音信号処理システム2で想定する目的音源12Aの数は、3つに限定されない。例えば、音信号処理システム2で想定する目的音源12Aの数は、1、2、または4以上であってもよい。そして、音信号処理部30では、第3相関記憶部30E、係数導出部30G、3つの加算部30K、生成部30H、および逆変換部30Iの各々を、複数の目的音源12Aと同じ数、備えた構成とすればよい。 The number of target sound sources 12A assumed by the sound signal processing system 2 is not limited to three. For example, the number of target sound sources 12A assumed by the sound signal processing system 2 may be 1, 2, or 4 or more. Then, the sound signal processing unit 30 includes the third correlation storage unit 30E, the coefficient derivation unit 30G, the three addition units 30K, the generation unit 30H, and the inverse conversion unit 30I in the same number as the plurality of target sound sources 12A. It may be configured as such.

変換部30Bは、第1の実施の形態の変換部20Bと同様に、AD変換部18を介して複数の第1マイク14(第1マイク14A〜第1マイク14D)から受付けた複数の第3音信号の各々を短時間フーリエ変換(STFT)し、周波数スペクトルX(f,n)、周波数スペクトルX(f,n)、周波数スペクトルX(f,n)、周波数スペクトルX(f,n)の各々によって表される複数の第3音信号を生成する。 The conversion unit 30B receives from the plurality of first microphones 14 (first microphones 14A to 14D) via the AD conversion unit 18 as in the case of the conversion unit 20B of the first embodiment. Each of the sound signals is short-time Fourier transform (STFT), and the frequency spectrum X 1 (f, n), the frequency spectrum X 2 (f, n), the frequency spectrum X 3 (f, n), and the frequency spectrum X 4 (f). , N) generate a plurality of third sound signals represented by each of.

周波数スペクトルX(f,n)は、第1マイク14Aから受付けた第3音信号を短時間フーリエ変換したものである。周波数スペクトルX(f,n)は、第1マイク14Bから受付けた第3音信号を短時間フーリエ変換したものである。周波数スペクトルX(f,n)は、第1マイク14Cから受付けた第3音信号を短時間フーリエ変換したものである。周波数スペクトルX(f,n)は、第1マイク14Dから受付けた第3音信号を短時間フーリエ変換したものである。 The frequency spectrum X 1 (f, n) is a short-time Fourier transform of the third sound signal received from the first microphone 14A. The frequency spectrum X 2 (f, n) is a short-time Fourier transform of the third sound signal received from the first microphone 14B. Frequency spectrum X 3 (f, n) is obtained by the third sound signal received from the first microphone 14C and the short-time Fourier transform. The frequency spectrum X 4 (f, n) is a short-time Fourier transform of the third sound signal received from the first microphone 14D.

なお、本実施の形態では、複数の第3音信号の各々を示す上記複数の周波数スペクトルをまとめた多次元ベクトル(本実施の形態では4次元ベクトル)を、第1音信号を示す周波数スペクトルX(f,n)と称して説明する。言い換えると、本実施の形態では、第1音信号は、周波数スペクトルX(f,n)によって表される。第1音信号を示す周波数スペクトルX(f,n)は、下記式(23)で表される。 In the present embodiment, a multidimensional vector (four-dimensional vector in the present embodiment) that summarizes the plurality of frequency spectra indicating each of the plurality of third sound signals is used as a frequency spectrum X indicating the first sound signal. This will be described as (f, n). In other words, in this embodiment, the first sound signal is represented by the frequency spectrum X (f, n). The frequency spectrum X (f, n) showing the first sound signal is represented by the following equation (23).

Figure 0006961545
Figure 0006961545

変換部30Bは、第1音信号を示す周波数スペクトルX(f,n)を、分離部30Jおよび複数の生成部30H(生成部30H1〜生成部30H3)の各々へ出力する。 The conversion unit 30B outputs the frequency spectrum X (f, n) indicating the first sound signal to each of the separation unit 30J and the plurality of generation units 30H (generation unit 30H1 to generation unit 30H3).

第3相関記憶部30Eは、第3空間相関行列を記憶する。第3空間相関行列は、第1音信号における目的音成分の空間相関行列を示す。 The third correlation storage unit 30E stores the third spatial correlation matrix. The third spatial correlation matrix shows the spatial correlation matrix of the target sound component in the first sound signal.

上述したように、音信号処理部30は、複数の目的音源12Aの各々に対応する、3つの第3相関記憶部30E(第3相関記憶部30E1〜第3相関記憶部30E3)を備える。 As described above, the sound signal processing unit 30 includes three third correlation storage units 30E (third correlation storage units 30E1 to third correlation storage units 30E3) corresponding to each of the plurality of target sound sources 12A.

第3相関記憶部30E1は、目的音源12A1に対応する第3相関記憶部30Eである。第3相関記憶部30E1は、第3空間相関行列φxxa(f,n)を記憶する。第3空間相関行列φxxa(f,n)は、第1音信号における目的音源12A1の目的音成分の空間相関行列を示す。目的音源12A1の目的音成分とは、第1音信号に含まれる、目的音源12A1から発せられた目的音の成分(すなわちスペクトル)を示す。目的音成分は、後述する分離部30Jによって第1音信号から分離される(詳細後述)。 The third correlation storage unit 30E1 is a third correlation storage unit 30E corresponding to the target sound source 12A1. The third correlation storage unit 30E1 stores the third spatial correlation matrix φxxa (f, n). The third spatial correlation matrix φxxa (f, n) shows the spatial correlation matrix of the target sound component of the target sound source 12A1 in the first sound signal. The target sound component of the target sound source 12A1 indicates a component (that is, a spectrum) of the target sound emitted from the target sound source 12A1 included in the first sound signal. The target sound component is separated from the first sound signal by the separation unit 30J described later (details will be described later).

上述したように、本実施の形態では、第1音信号は、4次元ベクトルを示す周波数スペクトルX(f,n)によって表される。このため、第3空間相関行列φxxa(f,n)は、周波数ビン毎の4×4の複素数の行列によって表される。 As described above, in the present embodiment, the first sound signal is represented by the frequency spectrum X (f, n) showing the four-dimensional vector. Therefore, the third spatial correlation matrix φxxa (f, n) is represented by a matrix of 4 × 4 complex numbers for each frequency bin.

同様に、第3相関記憶部30E2は、目的音源12A2に対応する第3相関記憶部30Eである。第3相関記憶部30E2は、第3空間相関行列φxxb(f,n)を記憶する。第3空間相関行列φxxb(f,n)は、第1音信号における目的音源12A2の目的音成分の空間相関行列を示す。目的音源12A2の目的音成分とは、第1音信号に含まれる、目的音源12A2から発せられた目的音の成分を示す。第3空間相関行列φxxa(f,n)と同様に、第3空間相関行列φxxb(f,n)は、周波数ビン毎の4×4の複素数の行列によって表される。 Similarly, the third correlation storage unit 30E2 is the third correlation storage unit 30E corresponding to the target sound source 12A2. The third correlation storage unit 30E2 stores the third spatial correlation matrix φxxb (f, n). The third spatial correlation matrix φxxb (f, n) shows the spatial correlation matrix of the target sound component of the target sound source 12A2 in the first sound signal. The target sound component of the target sound source 12A2 indicates a component of the target sound emitted from the target sound source 12A2 included in the first sound signal. Third space correlation matrix φ xxa (f, n) similarly to the third spatial correlation matrix φ xxb (f, n) is represented by a complex matrix of 4 × 4 for each frequency bin.

第3相関記憶部30E3は、目的音源12A3に対応する第3相関記憶部30Eである。第3相関記憶部30E3は、第3空間相関行列φxxc(f,n)を記憶する。第3空間相関行列φxxc(f,n)は、第1音信号における目的音源12A3の目的音成分の空間相関行列を示す。目的音源12A3の目的音成分とは、第1音信号に含まれる、目的音源12A3から発せられた目的音の成分を示す。第3空間相関行列φxxc(f,n)は、周波数ビン毎の4×4の複素数の行列によって表される。 The third correlation storage unit 30E3 is a third correlation storage unit 30E corresponding to the target sound source 12A3. The third correlation storage unit 30E3 stores the third spatial correlation matrix φxxc (f, n). The third spatial correlation matrix φxxc (f, n) shows the spatial correlation matrix of the target sound component of the target sound source 12A3 in the first sound signal. The target sound component of the target sound source 12A3 indicates a component of the target sound emitted from the target sound source 12A3 included in the first sound signal. The third spatial correlation matrix φxxc (f, n) is represented by a matrix of 4 × 4 complex numbers for each frequency bin.

第4相関記憶部30Fは、第4空間相関行列φNN(f,n)を記憶する。第4空間相関行列φNN(f,n)は、第1音信号における、非目的音成分の空間相関行列を示す。非目的音成分とは、第1音信号に含まれる、目的音源12A(目的音源12A1〜目的音源12A3)の各々から発せられた目的音の成分以外の成分を示す。非目的音成分は、後述する分離部30Jによって第1音信号から分離される(詳細後述)。 The fourth correlation storage unit 30F stores the fourth spatial correlation matrix φ NN (f, n). The fourth spatial correlation matrix φ NN (f, n) shows the spatial correlation matrix of the non-objective sound component in the first sound signal. The non-target sound component refers to a component other than the target sound component emitted from each of the target sound sources 12A (target sound source 12A1 to target sound source 12A3) included in the first sound signal. The non-purpose sound component is separated from the first sound signal by the separation unit 30J described later (details will be described later).

初期状態では、第4相関記憶部30Fには、ゼロ行列で初期化(φNN(f,0)=0)された第4空間相関行列φNN(f,n)が、初期値として予め記憶されている。 In the initial state, the fourth spatial correlation matrix φ NN (f, n) initialized with a zero matrix (φ NN (f, 0) = 0) is stored in advance in the fourth correlation storage unit 30F as an initial value. Has been done.

一方、初期状態において、第3相関記憶部30E1、第3相関記憶部30E2、および第3相関記憶部30E3には、それぞれ、目的音源12A1、目的音源12A2、および目的音源12A3の各々の位置で発せられた目的音の空間相関行列を示す第3空間相関行列φxxa(f,n)、第3空間相関行列φxxb(f,n)、第3空間相関行列φxxc(f,n)が、初期値として予め記憶されている。 On the other hand, in the initial state, the third correlation storage unit 30E1, the third correlation storage unit 30E2, and the third correlation storage unit 30E3 are emitted at the respective positions of the target sound source 12A1, the target sound source 12A2, and the target sound source 12A3, respectively. The third spatial correlation matrix φxxa (f, n), the third spatial correlation matrix φxxb (f, n), and the third spatial correlation matrix φxxc (f, n) showing the spatial correlation matrix of the obtained target sound are It is stored in advance as an initial value.

このような、第3空間相関行列φxxa(f,n)、第3空間相関行列φxxb(f,n)、および第3空間相関行列φxxc(f,n)の各々の初期値は、複数の第1マイク14(第1マイク14A〜第1マイク14D)の各々の配置と、複数の目的音源12A(目的音源12A1〜目的音源12A3)と、の位置から、シミュレーションによって予め求めればよい。また、第3空間相関行列φxxa(f,n)、第3空間相関行列φxxb(f,n)、第3空間相関行列φxxc(f,n)の初期値は、複数の目的音源12A(目的音源12A1〜目的音源12A3)の各々が各音源12の位置で発した目的音を、予め複数の第1マイク14(第1マイク14A〜第1マイク14D)で集音し、集音により得られた目的音信号から予め導出してもよい。 The initial values of the third spatial correlation matrix φxxa (f, n), the third spatial correlation matrix φxxb (f, n), and the third spatial correlation matrix φxxc (f, n) are set to It may be obtained in advance by simulation from the arrangement of each of the plurality of first microphones 14 (first microphones 14A to 14D) and the positions of the plurality of target sound sources 12A (target sound sources 12A to 12A3). Further, the initial values of the third space correlation matrix φxxa (f, n), the third space correlation matrix φxxb (f, n), and the third space correlation matrix φxxc (f, n) are a plurality of target sound sources 12A. The target sounds emitted by each of the target sound sources 12A1 to 12A3 at the positions of the target sound sources 12 are collected in advance by a plurality of first microphones 14 (first microphones 14A to 14D), and the sounds are collected. It may be derived in advance from the obtained target sound signal.

具体的には、音信号処理部30は、目的音源12A1〜目的音源12A3の各々の位置から発せられた目的音を、テーブルT上の複数の第1マイク14(第1マイク14A〜第1マイク14D)で集音することで得られた目的音信号から、各々の第3空間相関行列の初期値を予め導出してもよい。 Specifically, the sound signal processing unit 30 transmits the target sounds emitted from the respective positions of the target sound sources 12A1 to 12A3 to a plurality of first microphones 14 (first microphones 14A to first microphones) on the table T. The initial value of each third space correlation matrix may be derived in advance from the target sound signal obtained by collecting the sound in 14D).

例えば、目的音源12A1〜目的音源12A3の各々の位置にスピーカを配置して白色雑音を再生し、複数の第1マイク14(第1マイク14A〜第1マイク14D)で集音した音のスペクトルを表す4次元ベクトルを、Na(f,n),Nb(f,n),Nc(f,n)で表すと想定する。この場合、音信号処理部30は、下記式(24)〜式(26)を用いて、各々の第3空間相関行列の初期値を予め導出し、第3相関記憶部30E1〜第3相関記憶部30E3に、それぞれ予め記憶すればよい。 For example, speakers are arranged at each position of the target sound source 12A1 to the target sound source 12A3 to reproduce white noise, and the spectrum of the sound collected by the plurality of first microphones 14 (first microphone 14A to first microphone 14D) is displayed. It is assumed that the four-dimensional vector to be represented is represented by Na (f, n), Nb (f, n), and Nc (f, n). In this case, the sound signal processing unit 30 derives the initial value of each third spatial correlation matrix in advance using the following equations (24) to (26), and the third correlation storage unit 30E1 to the third correlation storage. Each of them may be stored in advance in the unit 30E3.

Figure 0006961545
Figure 0006961545

次に、目的音源12A1に対応する、加算部30K1、係数導出部30G1、生成部30H1、および逆変換部30I1について説明する。 Next, the addition unit 30K1, the coefficient derivation unit 30G1, the generation unit 30H1, and the inverse conversion unit 30I1 corresponding to the target sound source 12A1 will be described.

加算部30K1は、目的音源12A1に対応する加算部30Kである。加算部30K1は、対応する目的音源12A1以外の目的音源12A(目的音源12A2、目的音源12A3)の第3空間相関行列(第3空間相関行列φxxb(f,n)、第3空間相関行列φxxc(f,n))と、第4空間相関行列φNN(f,n)と、を加算し、係数導出部30Gへ出力する。具体的には、加算部30K1は、下記式(27)により、空間相関行列の和を導出し、係数導出部30G1へ出力する。 The addition unit 30K1 is an addition unit 30K corresponding to the target sound source 12A1. The addition unit 30K1 is a third space correlation matrix (third space correlation matrix φ xxb (f, n), third space correlation matrix φ) of the target sound source 12A (target sound source 12A2, target sound source 12A3) other than the corresponding target sound source 12A1. xxx (f, n)) and the fourth spatial correlation matrix φ NN (f, n) are added and output to the coefficient derivation unit 30G. Specifically, the addition unit 30K1 derives the sum of the spatial correlation matrix by the following equation (27) and outputs it to the coefficient derivation unit 30G1.

Figure 0006961545
Figure 0006961545

係数導出部30G1は、目的音源12A1に対応する係数導出部30Gである。係数導出部30G1は、第1音信号に含まれる、対応する目的音源12A1の目的音信号を強調するための空間フィルタ係数F(f,n)を導出する。詳細には、係数導出部30G1は、第3空間相関行列φxxa(f,n)および第4空間相関行列φNN(f,n)に基づいて、空間フィルタ係数F(f,n)を導出する。 The coefficient derivation unit 30G1 is a coefficient derivation unit 30G corresponding to the target sound source 12A1. Coefficient deriving unit 30G1 is included in the first sound signal, corresponding spatial filter coefficient for emphasizing the target sound signal of the target sound source 12A1 to F a (f, n) to derive a. Specifically, the coefficient derivation unit 30G1 determines the spatial filter coefficient F a (f, n) based on the third spatial correlation matrix φ xxa (f, n) and the fourth spatial correlation matrix φ NN (f, n). Derived.

具体的には、係数導出部30G1は、第3空間相関行列φxxa(f,n)と空間相関行列の和φSS(f,n)の逆行列との積によって表される行列の、最大固有値に対応する固有ベクトルFSNR(f,n)を導出する。 Specifically, the coefficient derivation unit 30G1 is the maximum of the matrix represented by the product of the third spatial correlation matrix φxxa (f, n) and the inverse matrix of the sum φ SS (f, n) of the spatial correlation matrices. The eigenvector F SNR (f, n) corresponding to the eigenvalue is derived.

そして、係数導出部30G1は、この固有ベクトルFSNR(f,n)を、目的音源12Aに対応する空間フィルタ係数F(f,n)として導出する(Fa(f,n)=FSNR(f,n))。なお、係数導出部30G1は、第1の実施の形態と同様に、ポストフィルタw(f,n)を追加し、空間フィルタ係数F(f,n)を導出してもよい。 The coefficient deriving unit 30G1 is the eigenvector F SNR (f, n), the spatial filter coefficients F a (f, n) corresponding to the target sound source 12A derived as (Fa (f, n) = F SNR (f , N)). The coefficient deriving unit 30G1, like the first embodiment, by adding the post filter w (f, n) and may derive the spatial filter coefficients F a (f, n).

生成部30H1は、目的音源12A1に対応する生成部30Hである。生成部30H1は、係数導出部30G1で導出された空間フィルタ係数F(f,n)を用いて、周波数スペクトルX(f,n)によって表される第1音信号に含まれる、目的音源12A1の目的音信号を強調した強調音信号を生成する。 The generation unit 30H1 is a generation unit 30H corresponding to the target sound source 12A1. Generator 30H1, using the spatial filter coefficients derived by the coefficient deriving unit 30G1 F a (f, n) , the frequency spectrum X (f, n) included in the first sound signal, represented by, the target sound source 12A1 Generates an emphasized sound signal that emphasizes the target sound signal of.

詳細には、生成部30H1は、下記式(28)を用いて、出力スペクトルY(f,n)によって表される強調音信号を生成する。出力スペクトルY(f,n)によって表される強調音信号は、第1音信号における、目的音源12Aの目的音信号を強調した音信号である。 In particular, generator 30H1, using the following equation (28), to produce an enhanced sound signal represented by the output spectrum Y a (f, n). Emphasized sound signal represented by the output spectrum Y a (f, n) is the first sound signal, a sound signal emphasizing a target sound signal of the target sound source 12A.

Figure 0006961545
Figure 0006961545

すなわち、生成部30H1は、周波数スペクトルX(f,n)と、空間フィルタ係数F(f,n)をエルミート転置した転置行列と、の積を、強調音信号を示す出力スペクトルY(f,n)として生成する。 That is, the generating unit 30H1 the frequency spectrum X (f, n) and the spatial filter coefficients F a (f, n) and transposed matrix obtained by Hermitian transpose of a product, the output spectrum Y a (f showing the emphasized sound signal , N).

生成部30H1は、出力スペクトルY(f,n)によって表される強調音信号を、逆変換部30I1および検出部30Cへ出力する。すなわち、生成部30H1は、目的音源12Aの目的音信号の強調された強調音信号を、逆変換部30I1および検出部30Cへ出力する。 Generator 30H1 the output spectrum Y a (f, n) the emphasized sound signal represented by, and outputs it to the inverse transform unit 30I1 and the detection unit 30C. That is, the generation unit 30H1 outputs the emphasized sound signal of the target sound signal of the target sound source 12A to the inverse conversion unit 30I1 and the detection unit 30C.

逆変換部30I1は、目的音源12A1に対応する逆変換部30Iである。逆変換部30Iは、第1の実施の形態の逆変換部20Iと同様に、強調信号を示す出力スペクトルY(f,n)の対称性を用いて、出力スペクトルY(f,n)から256点のスペクトルを生成し、逆フーリエ変換を行う。次に、逆変換部30I1は、合成窓関数を適用し、前フレームの出力波形とフレームシフト分ずらして重畳することにより、音波形を生成すればよい。そして、逆変換部30I1は、生成した音波形によって表される、目的音源12Aの強調音信号を、出力部22へ出力する。 The inverse conversion unit 30I1 is an inverse conversion unit 30I corresponding to the target sound source 12A1. Inverse transform unit 30I, like the inverse transform unit 20I of the first embodiment, the output spectrum Y a (f, n) indicating the enhancement signal using the symmetry of the output spectrum Y a (f, n) A spectrum of 256 points is generated from the above, and an inverse Fourier transform is performed. Next, the inverse transformation unit 30I1 may generate a sound wave shape by applying a composite window function and superimposing it on the output waveform of the previous frame by shifting the frame shift. Then, the inverse transformation unit 30I1 outputs the emphasis sound signal of the target sound source 12A represented by the generated sound wave shape to the output unit 22.

次に、目的音源12A2に対応する、加算部30K2、係数導出部30G2、生成部30H2、および逆変換部30I2について説明する。また、目的音源12A3に対応する、加算部30K3、係数導出部30G3、生成部30H3、および逆変換部30I3について説明する。 Next, the addition unit 30K2, the coefficient derivation unit 30G2, the generation unit 30H2, and the inverse conversion unit 30I2 corresponding to the target sound source 12A2 will be described. Further, the addition unit 30K3, the coefficient derivation unit 30G3, the generation unit 30H3, and the inverse conversion unit 30I3 corresponding to the target sound source 12A3 will be described.

加算部30K2、加算部30K3、係数導出部30G2、係数導出部30G3、生成部30H2、生成部30H3、逆変換部30I2、および逆変換部30I3は、対応する目的音源12Aに応じた情報が異なる点以外は、加算部30K1、係数導出部30G1、生成部30H1、および逆変換部30I1と同様の処理を行う。 The points that the information corresponding to the corresponding target sound source 12A is different between the addition unit 30K2, the addition unit 30K3, the coefficient derivation unit 30G2, the coefficient derivation unit 30G3, the generation unit 30H2, the generation unit 30H3, the inverse conversion unit 30I2, and the inverse conversion unit 30I3. Except for the above, the same processing as that of the addition unit 30K1, the coefficient derivation unit 30G1, the generation unit 30H1, and the inverse conversion unit 30I1 is performed.

詳細には、加算部30K2は、第3空間相関行列φxxa(f,n)と、第3空間相関行列φxxc(f,n)と、第4空間相関行列φNN(f,n)と、の空間相関行列の和φSS(f,n)を導出し、係数導出部30G2へ出力する。この和φSS(f,n)は、下記式(29)で表される。 Specifically, the addition unit 30K2 includes a third spatial correlation matrix φxxa (f, n), a third spatial correlation matrix φxxc (f, n), and a fourth spatial correlation matrix φ NN (f, n). The sum of the spatial correlation matrices of, φ SS (f, n) is derived and output to the coefficient derivation unit 30G2. This sum φ SS (f, n) is expressed by the following equation (29).

Figure 0006961545
Figure 0006961545

そして、係数導出部30G2は、φXXb(f,n)と、式(29)によって表されるφSS(f,n)と、に基づいて、空間フィルタ係数F(f,n)を導出する。このため、生成部30H2は、目的音源12A2の目的音信号の強調された強調音信号(出力スペクトルY(f,n))を、逆変換部30I1および検出部30Cへ出力する。 Then, the coefficient deriving unit 30G2 derives the spatial filter coefficient F b (f, n) based on φ XX b (f, n) and φ SS (f, n) represented by the equation (29). do. Therefore, the generation unit 30H2 outputs the emphasized sound signal (output spectrum Y b (f, n)) of the target sound signal of the target sound source 12A2 to the inverse conversion unit 30I1 and the detection unit 30C.

加算部30K3は、第3空間相関行列φxxa(f,n)と、第3空間相関行列φxxb(f,n)と、第4空間相関行列φNN(f,n)と、の空間相関行列の和φSS(f,n)を導出し、係数導出部30G3へ出力する。この和φSS(f,n)は、下記式(30)で表される。 The addition unit 30K3 is a spatial correlation between the third spatial correlation matrix φ xxa (f, n), the third spatial correlation matrix φ xx b (f, n), and the fourth spatial correlation matrix φ NN (f, n). The sum of the matrices φ SS (f, n) is derived and output to the coefficient derivation unit 30G3. This sum φ SS (f, n) is expressed by the following equation (30).

Figure 0006961545
Figure 0006961545

そして、係数導出部30G3は、φXXc(f,n)と、式(29)によって表されるφSS(f,n)と、に基づいて、空間フィルタ係数F(f,n)を導出する。このため、生成部30H3は、目的音源12A3の目的音信号の強調された強調音信号(出力スペクトルY(f,n))を、逆変換部30I2および検出部30Cへ出力する。 Then, the coefficient deriving unit 30G3 derives the spatial filter coefficient F c (f, n) based on φXXc (f, n) and φ SS (f, n) represented by the equation (29). .. Thus, generator 30H3 is an enhanced emphasized sound signal of the target sound signal of the target sound source 12A3 (output spectrum Y c (f, n)) , and outputs it to the inverse transform unit 30I2 and the detection unit 30C.

次に、検出部30Cについて説明する。検出部30Cは、強調音信号に基づいて、目的音区間を検出する。本実施の形態では、検出部30Cは、複数の目的音源12A(目的音源12A1〜目的音源12A3)にそれぞれ対応する複数の強調音信号を用いて、複数の目的音源12Aの各々から発せられた目的音の、目的音区間を検出する。 Next, the detection unit 30C will be described. The detection unit 30C detects a target sound section based on the emphasis sound signal. In the present embodiment, the detection unit 30C uses a plurality of emphasized sound signals corresponding to the plurality of target sound sources 12A (target sound sources 12A to 12A3), and the detection unit 30C uses the plurality of emphasized sound signals corresponding to the plurality of target sound sources 12A (target sound sources 12A1 to target sound sources 12A3), and the detection unit 30C uses the plurality of emphasized sound signals emitted from each of the plurality of target sound sources 12A. Detects the target sound section of the sound.

詳細には、検出部30Cは、生成部30H1から、出力スペクトルY(f,n)によって表される、目的音源12A1の目的音信号を強調した強調音信号を受付ける。また、検出部30Cは、生成部30H2から、出力スペクトルY(f,n)によって表される、目的音源12A2の目的音信号を強調した強調音信号を受付ける。また、検出部30Cは、生成部30H3から、出力スペクトルY(f,n)によって表される、目的音源12A3の目的音信号を強調した強調音信号を受付ける。 Specifically, the detection unit 30C, from the generation unit 30h1, the output spectrum Y a (f, n) is represented by, it accepts emphasized sound signal emphasizing a target sound signal of the target sound source 12A1. Further, the detection unit 30C receives an emphasis sound signal emphasizing the target sound signal of the target sound source 12A2 represented by the output spectrum Y b (f, n) from the generation unit 30H2. Further, the detection unit 30C receives an emphasis sound signal emphasizing the target sound signal of the target sound source 12A3 represented by the output spectrum Y c (f, n) from the generation unit 30H3.

そして、検出部30Cは、これらの強調音信号(出力スペクトルY(f,n),出力スペクトルY(f,n),出力スペクトルY(f,n))に基づいて、目的音源12A1〜目的音源12A3の各々の目的音区間を検出する。 Then, the detection unit 30C is based on these emphasized sound signals (output spectrum Y a (f, n), output spectrum Y b (f, n), output spectrum Y c (f, n)), and the target sound source 12A1. -Detects each target sound section of the target sound source 12A3.

第1の実施の形態と同様に、目的音区間は、目的音源12Aが音を発しているか否かをフレーム番号毎に示す関数u(n)によって表される。本実施の形態では、目的音源12A1〜目的音源12A3の各々の目的音の目的音区間を、関数u(n)、関数u(n)、関数u(n)で表す。なお、これらの関数は、値“1”を示す場合、第nフレームで目的音源12Aが音を発している事を示す。また、値“0”を示す場合、第nフレームで目的音源12Aが音を発していない事を示す。 Similar to the first embodiment, the target sound section is represented by a function u (n) indicating whether or not the target sound source 12A is emitting sound for each frame number. In this embodiment, the target sound section of the target sound for each target sound source 12A1~ target sound source 12A3, represented by the function u a (n), the function u b (n), the function u c (n). When these functions show a value of "1", they indicate that the target sound source 12A is emitting sound in the nth frame. Further, when the value "0" is shown, it means that the target sound source 12A does not emit sound in the nth frame.

検出部30Cは、これらの関数u(n)、関数u(n)、関数u(n)を用いて、下記式(31)〜式(33)によって表される閾値処理を行うことで、各々の目的音源12Aの目的音の目的音区間を検出する。 Detector 30C, these functions u a (n), the function u b (n), using a function u c (n), by performing the threshold processing expressed by the equation (31) to (33) Then, the target sound section of the target sound of each target sound source 12A is detected.

Figure 0006961545
Figure 0006961545

上記式(31)〜式(33)中、tは、目的音と非目的音との境界のパワーを表す閾値である。また、式(31)〜式(33)中、P、P、Pは、各々、下記式(34)〜式(36)で表される。 In the above equations (31) to (33), t is a threshold value representing the power of the boundary between the target sound and the non-target sound. In the formula (31) to Formula (33), P a, P b, P c are each represented by the following formula (34) to (36).

Figure 0006961545
Figure 0006961545

検出部30Cは、複数の目的音源12A(目的音源12A1〜目的音源12A3)の各々の目的音の目的音区間の検出結果を、相関導出部30Dへ出力する。 The detection unit 30C outputs the detection result of the target sound section of each target sound of the plurality of target sound sources 12A (target sound source 12A1 to target sound source 12A3) to the correlation derivation unit 30D.

次に、分離部30Jについて説明する。分離部30Jは、第1音信号を、目的音成分と非目的音成分に分離する。 Next, the separation unit 30J will be described. The separation unit 30J separates the first sound signal into a target sound component and a non-target sound component.

分離部30Jは、第1音信号を示す周波数スペクトルX(f,n)を、変換部30Bから受付ける。上述したように、本実施の形態では、第1音信号を示す周波数スペクトルX(f,n)は、上記式(23)で表される。また、本実施の形態では、周波数スペクトルX(f,n)は、4つの第1マイク14A(第1マイク14A1〜第1マイク14D)の各々から受付けた4つの第3音信号の各々を示す周波数スペクトルをまとめた、4次元ベクトルによって表される。 The separation unit 30J receives the frequency spectrum X (f, n) indicating the first sound signal from the conversion unit 30B. As described above, in the present embodiment, the frequency spectrum X (f, n) showing the first sound signal is represented by the above equation (23). Further, in the present embodiment, the frequency spectrum X (f, n) indicates each of the four third sound signals received from each of the four first microphones 14A (first microphones 14A to 14D). It is represented by a four-dimensional vector that summarizes the frequency spectrum.

分離部30Jは、周波数スペクトルX(f,n)によって表される第1音信号を、目的音成分S(f,n)と非目的音成分N(f,n)に分離する。目的音成分S(f,n)は、下記式(37)によって表される。非目的音成分N(f,n)は、下記式(38)によって表される。 The separation unit 30J separates the first sound signal represented by the frequency spectrum X (f, n) into the target sound component S (f, n) and the non-target sound component N (f, n). The target sound component S (f, n) is represented by the following formula (37). The non-purpose sound component Ni (f, n) is represented by the following equation (38).

Figure 0006961545
Figure 0006961545

そして、分離部30Jは、公知の音区間検出技術を用いて、全ての周波数fに対して、第nフレームが目的音区間である場合、S(f,n)=X(f,n),N(f,n)=[0,0,0,0]を算出する。また、分離部30Jは、全ての周波数fに対して、第nフレームが非目的音区間である場合、S(f,n)=[0,0,0,0],N(f,n)=X(f,n)とすればよい。 Then, the separation unit 30J uses a known sound section detection technique, and when the nth frame is the target sound section for all frequencies f, S (f, n) = X (f, n), N (f, n) = [0,0,0,0] is calculated. Further, the separation unit 30J has S (f, n) = [0,0,0,0], N (f, n) when the nth frame is a non-purpose sound section for all frequencies f. = X (f, n) may be set.

そして、分離部30Jは、第1音信号から分離した、目的音成分S(f,n)と非目的音成分N(f,n)を、相関導出部30Dへ出力する。 Then, the separation unit 30J outputs the target sound component S (f, n) and the non-target sound component N (f, n) separated from the first sound signal to the correlation derivation unit 30D.

相関導出部30Dは、目的音区間と、目的音成分と、非目的音成分と、に基づいて、第1音信号における目的音成分の第3空間相関行列と、第1音信号における非目的音成分の第4空間相関行列と、を導出する。 The correlation derivation unit 30D has a third spatial correlation matrix of the target sound component in the first sound signal and a non-purpose sound in the first sound signal based on the target sound section, the target sound component, and the non-target sound component. The fourth spatial correlation matrix of the components is derived.

詳細には、相関導出部30Dは、目的音成分S(f,n)および非目的音成分N(f,n)を分離部30Jから受付ける。また、相関導出部30Dは、検出部30Cから、目的音区間を示す関数として、関数u(n)、関数u(n)、関数u(n)を受付ける。 Specifically, the correlation derivation unit 30D receives the target sound component S (f, n) and the non-target sound component N (f, n) from the separation unit 30J. Moreover, the correlation derivation unit 30D, receives from the detector 30C, as a function indicating the target sound section, the function u a (n), the function u b (n), the function u c a (n).

そして、相関導出部30Dは、目的音成分S(f,n)、非目的音成分N(f,n)、関数u(n)、関数u(n)、関数u(n)に基づいて、第3空間相関行列φxxa(f,n)、第3空間相関行列φxxb(f,n)、第3空間相関行列φxxc(f,n)、および第4空間相関行列φNN(f,n)を導出する。そして、相関導出部30Dは、導出した第3空間相関行列φxxa(f,n)、第3空間相関行列φxxb(f,n)、第3空間相関行列φxxc(f,n)、および第4空間相関行列φNN(f,n)を、各々、第3相関記憶部30E1、第3相関記憶部30E2、第3相関記憶部30E3、および第4相関記憶部30Fへ記憶することで、これらの空間相関行列を更新する。 Then, the correlation derivation unit 30D is the target sound component S (f, n), a non-target sound component N (f, n), the function u a (n), the function u b (n), the function u c (n) Based on, the third spatial correlation matrix φ xxa (f, n), the third spatial correlation matrix φ xxb (f, n), the third spatial correlation matrix φ xxx (f, n), and the fourth spatial correlation matrix φ NN. (F, n) is derived. Then, the correlation derivation unit 30D includes the derived third space correlation matrix φxxa (f, n), the third space correlation matrix φxxb (f, n), the third space correlation matrix φxxc (f, n), and By storing the fourth space correlation matrix φ NN (f, n) in the third correlation storage unit 30E1, the third correlation storage unit 30E2, the third correlation storage unit 30E3, and the fourth correlation storage unit 30F, respectively. Update these spatial correlation matrices.

相関導出部30Dは、u(n)=1、且つu(n)=0、且つu(n)=0の区間(第nフレーム)については、下記式(39)により第3空間相関行列φxxa(f,n)を導出して更新し、第3空間相関行列φxxb(f,n)および第3空間相関行列φxxc(f,n)を更新しない。 Correlation derivation unit 30D is, u a (n) = 1, and u b (n) = 0, for and u c (n) = 0 in the interval (n-th frame), the third space by the following equation (39) The correlation matrix φxxa (f, n) is derived and updated, and the third spatial correlation matrix φxxb (f, n) and the third spatial correlation matrix φxxc (f, n) are not updated.

また、相関導出部30Dは、u(n)=0、且つu(n)=1、且つu(n)=0の区間(第nフレーム)については、下記式(40)により第3空間相関行列φxxb(f,n)を導出および更新し、第3空間相関行列φxxa(f,n)および第3空間相関行列φxxc(f,n)を更新しない。 Moreover, the correlation derivation unit 30D is, u a (n) = 0, and u b (n) = 1, for and u c (n) = 0 in the interval (n-th frame), the the following equation (40) 3 The spatial correlation matrix φxxb (f, n) is derived and updated, and the third spatial correlation matrix φxxa (f, n) and the third spatial correlation matrix φxxc (f, n) are not updated.

また、相関導出部30Dは、u(n)=0、且つu(n)=0、且つu(n)=1の区間(第nフレーム)については、下記式(41)により第3空間相関行列φxxc(f,n)を導出および更新し、第3空間相関行列φxxa(f,n)および第3空間相関行列φxxb(f,n)を更新しない。 Moreover, the correlation derivation unit 30D is, u a (n) = 0, and u b (n) = 0, for and u c (n) = 1 of the section (n-th frame), the the following equation (41) 3 The spatial correlation matrix φxxc (f, n) is derived and updated, and the third spatial correlation matrix φxxa (f, n) and the third spatial correlation matrix φxxb (f, n) are not updated.

また、相関導出部30Dは、第4空間相関行列φNN(f,n)を下記式(42)により導出および更新する。 Further, the correlation derivation unit 30D derives and updates the fourth spatial correlation matrix φ NN (f, n) by the following equation (42).

Figure 0006961545
Figure 0006961545

式(39)〜式(42)中、αは、0以上1未満の値である。αの値が1に近い値であるほど、過去に導出した空間相関行列の重みが、最新の空間相関行列に比べて大きい事を意味する。αの値は、予め設定すればよい。αは、例えば、0.95などとすればよい。 In formulas (39) to (42), α is a value of 0 or more and less than 1. The closer the value of α is to 1, the larger the weight of the spatial correlation matrix derived in the past is larger than that of the latest spatial correlation matrix. The value of α may be set in advance. α may be, for example, 0.95.

すなわち、相関導出部30Dは、過去に導出した第3空間相関行列を、目的音成分S(f,n)をエルミート転置した転置成分との乗算値によって表される最新の第3空間相関行列で補正することによって、新たな第3空間相関行列を導出する。 That is, the correlation derivation unit 30D is the latest third space correlation matrix represented by the multiplication value of the third space correlation matrix derived in the past with the transposed component obtained by Hermitian transposition of the target sound component S (f, n). By correcting, a new third spatial correlation matrix is derived.

なお、相関導出部30Dは、第3相関記憶部30E(第3相関記憶部30E1〜第3相関記憶部30E3)に記憶済の第3空間相関行列φxxa(f,n)、第3空間相関行列φxxb(f,n)、第3空間相関行列φxxc(f,n)を、過去に導出した第3空間相関行列として用いればよい。また、これらの第3相関記憶部30Eには、各々、1つの第3空間相関行列のみが記憶され、順次、相関導出部30Dによって更新される。 The correlation derivation unit 30D includes a third spatial correlation matrix φxxa (f, n) and a third spatial correlation stored in the third correlation storage unit 30E (third correlation storage unit 30E1 to third correlation storage unit 30E3). The matrix φxxb (f, n) and the third spatial correlation matrix φxxc (f, n) may be used as the third spatial correlation matrix derived in the past. Further, only one third spatial correlation matrix is stored in each of these third correlation storage units 30E, and the correlation derivation unit 30D sequentially updates them.

また、相関導出部30Dは、過去に導出した第4空間相関行列φNN(f,n)を、非目的音成分N(f,n)と非目的音成分N(f,n)をエルミート転置した転置成分との乗算値によって表される最新の第4空間相関行列φNN(f,n)で補正することによって、新たな第4空間相関行列φNN(f,n)を導出する。 Further, the correlation derivation unit 30D transposes the fourth spatial correlation matrix φ NN (f, n) derived in the past into the non-objective sound component N (f, n) and the non-objective sound component N (f, n) by Hermitian. A new fourth spatial correlation matrix φ NN (f, n) is derived by correcting with the latest fourth spatial correlation matrix φ NN (f, n) represented by the multiplication value with the transposed component.

なお、相関導出部30Dは、第4相関記憶部30Fに記憶済の第4空間相関行列φNN(f,n)を、過去に導出した第4空間相関行列φNN(f,n)として用いればよい。また、第4相関記憶部30Fには、1つの第4空間相関行列φNN(f,n)のみが記憶され、順次、相関導出部30Dによって更新される。 Incidentally, the correlation derivation unit 30D is used fourth space correlation matrix φ NN (f, n) of the already stored in the fourth correlation storage unit 30F, and a fourth spatial correlation matrix phi NN derived in the past (f, n) Just do it. Further, only one fourth spatial correlation matrix φ NN (f, n) is stored in the fourth correlation storage unit 30F, and is sequentially updated by the correlation derivation unit 30D.

次に、本実施の形態の音信号処理装置11が実行する音信号処理の手順を説明する。 Next, the procedure of sound signal processing executed by the sound signal processing device 11 of the present embodiment will be described.

図6は、本実施の形態の音信号処理装置11が実行する音信号処理の手順の一例を示す、フローチャートである。 FIG. 6 is a flowchart showing an example of a sound signal processing procedure executed by the sound signal processing device 11 of the present embodiment.

変換部30Bが、AD変換部18を介して複数の第1マイク14から受付けた第3信号を短時間フーリエ変換し、周波数スペクトルX(f,n)によって表される第1音信号を取得する(ステップS200)。変換部30Bは、取得した第1音信号を、分離部30Jおよび生成部30H(生成部30H1〜生成部30H3)の各々へ出力する(ステップS202)。 The conversion unit 30B performs a short-time Fourier transform on the third signal received from the plurality of first microphones 14 via the AD conversion unit 18 to acquire the first sound signal represented by the frequency spectrum X (f, n). (Step S200). The conversion unit 30B outputs the acquired first sound signal to each of the separation unit 30J and the generation unit 30H (generation unit 30H1 to generation unit 30H3) (step S202).

次に、分離部30Jが、第1音信号を、目的音成分S(f,n)と非目的音成分N(f,n)に分離する(ステップS204)。そして、分離部30Jは、目的音成分S(f,n)と非目的音成分N(f,n)を、相関導出部30Dへ出力する。 Next, the separation unit 30J separates the first sound signal into the target sound component S i (f, n) and the non-target sound component Ni (f, n) (step S204). Then, the separation unit 30J outputs the target sound component S i (f, n) and the non-target sound component Ni (f, n) to the correlation derivation unit 30D.

次に、音信号処理部30では、目的音源12A1〜目的音源12A3の各々に対応する、加算部30K、係数導出部30G、生成部30H、および逆変換部30I1が、ステップS206〜ステップS212の処理を実行する。なお、ステップS206〜ステップS212の処理は、複数の目的音源12A(目的音源12A1〜目的音源12A3)の各々に対応する機能間で、並列して実行される。 Next, in the sound signal processing unit 30, the addition unit 30K, the coefficient derivation unit 30G, the generation unit 30H, and the inverse conversion unit 30I1 corresponding to each of the target sound source 12A1 to the target sound source 12A3 perform the processing of steps S206 to S212. To execute. The processes of steps S206 to S212 are executed in parallel between the functions corresponding to each of the plurality of target sound sources 12A (target sound sources 12A to 12A3).

まず、加算部30Kが、対応する目的音源12A以外の目的音源12Aの第3空間相関行列と、第4空間相関行列φNN(f,n)と、を加算し、対応する目的音源12Aの係数導出部30Gへ出力する(ステップS2206)。 First, the addition unit 30K adds the third space correlation matrix of the target sound source 12A other than the corresponding target sound source 12A and the fourth space correlation matrix φ NN (f, n), and the coefficient of the corresponding target sound source 12A. Output to the lead-out unit 30G (step S2206).

係数導出部30Gは、対応する目的音源12Aの第3空間相関行列と、第4空間相関行列φNN(f,n)と、を第3相関記憶部30Eおよび第4相関記憶部30Fから読取る(ステップS208)。 The coefficient derivation unit 30G reads the third space correlation matrix and the fourth space correlation matrix φ NN (f, n) of the corresponding target sound source 12A from the third correlation storage unit 30E and the fourth correlation storage unit 30F ( Step S208).

そして、係数導出部30Gは、ステップS208で読取った第3空間相関行列および第4空間相関行列φNN(f,n)に基づいて、空間フィルタ係数を導出する(ステップS210)。 Then, the coefficient derivation unit 30G derives the spatial filter coefficient based on the third spatial correlation matrix and the fourth spatial correlation matrix φ NN (f, n) read in step S208 (step S210).

次に、生成部30Hが、ステップS210で導出した空間フィルタ係数を用いて、第1音信号に含まれる、対応する目的音源12Aの目的音信号を強調した強調音信号を生成する(ステップS212)。 Next, the generation unit 30H uses the spatial filter coefficient derived in step S210 to generate an emphasis sound signal that emphasizes the target sound signal of the corresponding target sound source 12A included in the first sound signal (step S212). ..

そして、逆変換部30I1は、ステップS212で生成された強調音信号を出力部22へ出力する(ステップS214)。 Then, the inverse conversion unit 30I1 outputs the emphasis sound signal generated in step S212 to the output unit 22 (step S214).

目的音源12A1〜目的音源12A3の各々に対応する、加算部30K、係数導出部30G、生成部30H、および逆変換部30I1が、ステップS206〜ステップS212の処理を実行することによって、目的音源12A1から発せられた目的音信号を強調した強調音信号と、目的音源12A2から発せられた目的音信号を強調した強調音信号と、目的音源12A3から発せられた目的音信号を強調した強調音信号と、が検出部30Cおよび逆変換部30Iへ出力される。 The addition unit 30K, the coefficient derivation unit 30G, the generation unit 30H, and the inverse conversion unit 30I1 corresponding to each of the target sound source 12A1 to the target sound source 12A3 execute the processes of steps S206 to S212 to start from the target sound source 12A1. An emphasized sound signal that emphasizes the emitted target sound signal, an emphasized sound signal that emphasizes the target sound signal emitted from the target sound source 12A2, and an emphasized sound signal that emphasizes the target sound signal emitted from the target sound source 12A3. Is output to the detection unit 30C and the inverse conversion unit 30I.

このため、逆変換部30I1〜逆変換部30I3の各々から受付けた強調音信号を出力する出力部22は、複数の目的音源12Aの各々の目的音をそれぞれ強調した、複数の強調音信号を出力することができる。 Therefore, the output unit 22 that outputs the emphasis sound signals received from each of the inverse conversion units 30I1 to the inverse conversion unit 30I3 outputs a plurality of emphasis sound signals that emphasize each target sound of the plurality of target sound sources 12A. can do.

次に、検出部30Cは、生成部30H(生成部30H1〜生成部30H3)から受付けた複数の強調音信号を用いて、複数の目的音源12Aの各々の目的音の、目的音区間を検出する(ステップS216)。 Next, the detection unit 30C detects a target sound section of each target sound of the plurality of target sound sources 12A by using a plurality of emphasized sound signals received from the generation unit 30H (generation unit 30H1 to generation unit 30H3). (Step S216).

次に、相関導出部30Dは、ステップS204で分離された目的音成分S(f,n)および非目的音成分N(f,n)と、複数の目的音源12Aの各々の目的音の目的音区間を示す関数(u(n),u(n),u(n))に基づいて、複数の目的音源12Aの各々に対応する第3空間相関行列(第3空間相関行列φxxa(f,n)、第3空間相関行列φxxb(f,n)、第3空間相関行列φxxc(f,n))、および第4空間相関行列φNN(f,n)を導出する(ステップPS218)。 Next, the correlation derivation unit 30D includes the target sound component S (f, n) and the non-target sound component N (f, n) separated in step S204, and the target sound of each target sound of the plurality of target sound sources 12A. function indicating the section based on the (u a (n), u b (n), u c (n)), the third space correlation matrix corresponding to each of the plurality of target sound source 12A (third space correlation matrix phi xxa (F, n), the third spatial correlation matrix φ xxb (f, n), the third spatial correlation matrix φ xxx (f, n)), and the fourth spatial correlation matrix φ NN (f, n) are derived ( Step PS218).

そして、相関導出部30Dは、導出した第3空間相関行列φxxa(f,n)、第3空間相関行列φxxb(f,n)、第3空間相関行列φxxc(f,n)、および第4空間相関行列φNN(f,n)を、各々、第3相関記憶部30E1、第3相関記憶部30E2、第3相関記憶部30E3、および第4相関記憶部30Fへ記憶することで、これらの空間相関行列を更新する(ステップS220)。 Then, the correlation derivation unit 30D includes the derived third space correlation matrix φxxa (f, n), the third space correlation matrix φxxb (f, n), the third space correlation matrix φxxc (f, n), and By storing the fourth space correlation matrix φ NN (f, n) in the third correlation storage unit 30E1, the third correlation storage unit 30E2, the third correlation storage unit 30E3, and the fourth correlation storage unit 30F, respectively. These spatial correlation matrices are updated (step S220).

次に、音信号処理部30が、音信号処理を終了するか否かを判断する(ステップS222)。ステップS222で否定判断すると(ステップS222:No)、上記ステップS200へ戻る。一方、ステップS222で肯定判断すると(ステップS222:Yes)、本ルーチンを終了する。 Next, the sound signal processing unit 30 determines whether or not to end the sound signal processing (step S222). If a negative determination is made in step S222 (step S222: No), the process returns to step S200. On the other hand, if an affirmative judgment is made in step S222 (step S222: Yes), this routine ends.

以上説明したように、本実施の形態の音信号処理装置11は、分離部30Jが、第1音信号を目的音成分と非目的音成分に分離する。検出部30Cは、強調音信号に基づいて、目的音区間を検出する。相関導出部30Dは、目的音区間と、目的音成分と、非目的音成分と、に基づいて、第1音信号における目的音成分の第3空間相関行列と、第1音信号における非目的音成分の第4空間相関行列と、を導出する。そして、係数導出部30Gは、第3空間相関行列および第4空間相関行列に基づいて、空間フィルタ係数を導出する。 As described above, in the sound signal processing device 11 of the present embodiment, the separation unit 30J separates the first sound signal into a target sound component and a non-target sound component. The detection unit 30C detects a target sound section based on the emphasis sound signal. The correlation derivation unit 30D has a third spatial correlation matrix of the target sound component in the first sound signal and a non-purpose sound in the first sound signal based on the target sound section, the target sound component, and the non-target sound component. The fourth spatial correlation matrix of the components is derived. Then, the coefficient derivation unit 30G derives the spatial filter coefficient based on the third spatial correlation matrix and the fourth spatial correlation matrix.

このように、本実施の形態の音信号処理装置11では、第2マイク16から取得した第2音声信号を用いずに、第1マイク14から取得した第1音声信号を用いて、空間フィルタ係数を導出する。このため、本実施の形態では、目的音源12A以外の非目的音源12Bの音を集音するための第2マイク16を用意することなく、目的音源12Aから発せられた目的音信号を高精度に強調することができる。 As described above, in the sound signal processing device 11 of the present embodiment, the spatial filter coefficient is used by using the first audio signal acquired from the first microphone 14 without using the second audio signal acquired from the second microphone 16. Is derived. Therefore, in the present embodiment, the target sound signal emitted from the target sound source 12A is highly accurate without preparing the second microphone 16 for collecting the sounds of the non-purpose sound source 12B other than the target sound source 12A. Can be emphasized.

また、本実施の形態の音信号処理装置11では、複数の目的音源12Aの各々の目的音の目的音信号を、分離して強調することができる。 Further, in the sound signal processing device 11 of the present embodiment, the target sound signals of the target sounds of the plurality of target sound sources 12A can be separated and emphasized.

また、本実施の形態の音信号処理装置11では、相関導出部30Dが、順次、第3空間相関行列および第4空間相関行列を更新する。このため、第3相関記憶部30Eに初期値として記憶されていた第3空間相関行列が想定する、目的音源12Aと第1マイク14との位置関係にずれが生じた場合であっても、実際の位置関係に応じた空間相関行列に次第に収束するように更新されていくこととなる。 Further, in the sound signal processing device 11 of the present embodiment, the correlation derivation unit 30D sequentially updates the third space correlation matrix and the fourth space correlation matrix. Therefore, even if the positional relationship between the target sound source 12A and the first microphone 14 is assumed to be the third spatial correlation matrix stored as the initial value in the third correlation storage unit 30E, it is actually It will be updated so that it gradually converges to the spatial correlation matrix according to the positional relationship of.

このため、本実施の形態の音信号処理装置11は、効果的に目的音源12Aから発せられた目的音信号を強調し、非目的音信号を抑圧することができる。 Therefore, the sound signal processing device 11 of the present embodiment can effectively emphasize the target sound signal emitted from the target sound source 12A and suppress the non-target sound signal.

また、本実施の形態の音信号処理装置11は、第1音信号を目的音成分と非目的音成分に分離し、空間相関行列の導出に用いる。このため、音信号処理装置11は、雑音などの非目的音を効果的に抑圧した強調音信号を生成することができる。よって、音信号処理装置11は、高精度な強調音信号を提供することができる。 Further, the sound signal processing device 11 of the present embodiment separates the first sound signal into a target sound component and a non-target sound component, and uses them for deriving a spatial correlation matrix. Therefore, the sound signal processing device 11 can generate an emphasis sound signal that effectively suppresses non-purpose sounds such as noise. Therefore, the sound signal processing device 11 can provide a highly accurate emphasized sound signal.

<変形例2>
なお、分離部30Jは、上記第2の実施の形態に示した方法とは異なる方法を用いて、第1音信号を目的音成分と非目的音成分に分離してもよい。
<Modification 2>
The separation unit 30J may separate the first sound signal into a target sound component and a non-target sound component by using a method different from the method shown in the second embodiment.

例えば、分離部30Jは、周波数ビン毎に目的音か非目的音かの判定を行い、判定結果を用いて、第1音信号を目的音成分と非目的音成分に分離してもよい。 For example, the separation unit 30J may determine whether the sound is a target sound or a non-target sound for each frequency bin, and may separate the first sound signal into a target sound component and a non-target sound component using the determination result.

例えば、分離部30Jは、ニューラルネットワークを用いて、第1音信号を目的音成分と非目的音成分に分離する。 For example, the separation unit 30J separates the first sound signal into a target sound component and a non-target sound component by using a neural network.

この場合、分離部30Jは、ニューラルネットワークを用いて、フレーム毎および周波数ビンごとに、値“0”または値“1”を示す音声マスクM(f,n)および非音声マスクM(f,n)を推定する。そして、分離部30Jは、下記式(43)および式(44)を用いて、目的音成分S(f,n)および非目的音成分N(f,n)を導出する。 In this case, the separation unit 30J, using a neural network, for each frame and for each frequency bin, voice mask indicates a value "0" or the value "1" M S (f, n) and non-speech mask M N (f , N) is estimated. Then, the separation unit 30J derives the target sound component S i (f, n) and the non-target sound component Ni (f, n) using the following equations (43) and (44).

Figure 0006961545
Figure 0006961545

分離部30Jは、ニューラルネットワークの入力として、1チャンネルの周波数スペクトルXi(f,n)を用いる。そして、分離部30Jは、各チャンネルの入力に対して、音声マスクM(f,n)および非音声マスクM(f,n)を推定する。 The separation unit 30J uses the frequency spectrum Xi (f, n) of one channel as the input of the neural network. Then, the separation unit 30J, to the input of each channel, estimates the speech mask M S (f, n) and non-speech mask M N (f, n).

そして、分離部30Jは、全てのチャンネルの推定結果の多数決等を用いて、チャンネル共通の音声マスクM(f,n)および非音声マスクM(f,n)を推定すればよい。 Then, the separation unit 30J, using the majority or the like of the estimation results of all the channels, the channel common voice mask M S (f, n) and non-speech mask M N (f, n) may be estimated.

分離部30Jは、雑音を含まないクリーンな目的音信号と、目的音を含まない非目的音信号と、を用いたシミュレーションによって、ニューラルネットワークの学習データを予め生成すればよい。 The separation unit 30J may generate training data of the neural network in advance by a simulation using a clean target sound signal that does not contain noise and a non-target sound signal that does not contain the target sound.

クリーンな目的音信号のスペクトルをS(f,n)、目的音を含まない非目的音信号のスペクトルをN(f,n)で表す。すると、雑音などの非目的音を重畳した音のスペクトルX(f,n)と、音声マスクの正解データMtS(f,n)および非音声マスクの正解データMtN(f,n)は、下記式(45)〜式(47)により導出される。 The spectrum of a clean target sound signal is represented by St (f, n), and the spectrum of a non-target sound signal that does not include the target sound is represented by N t (f, n). Then, the spectrum X t (f, n) of the sound on which the non-purpose sound such as noise is superimposed , the correct answer data M tS (f, n) of the voice mask, and the correct answer data M tN (f, n) of the non-voice mask are obtained. , Derived from the following equations (45) to (47).

Figure 0006961545
Figure 0006961545

式(46)および式(47)中、tおよびtは、目的音と非目的音とのパワー比の閾値を示す。 In the formulas (46) and (47), t S and t N indicate the threshold value of the power ratio between the target sound and the non-target sound.

入力特徴量には、下記式(48)で表されるベクトルv(n)を用いる。 As the input feature amount, the vector v (n) represented by the following equation (48) is used.

Figure 0006961545
Figure 0006961545

式(48)によって表されるベクトルv(n)は、当該フレームと直前のフレームのスペクトルの絶対値の対数を連結した、516次元ベクトルである。そして、音声マスクM(f,n)および非音声マスクM(f,n)の推定は、入力特徴量を示すベクトルv(n)から、正解データを表す258次元ベクトルc(n)を推定する問題として、下記式(49)に定式化することができる。 The vector v (n) represented by the equation (48) is a 516-dimensional vector in which the logarithms of the absolute values of the spectra of the frame and the immediately preceding frame are concatenated. The audio mask M S (f, n) estimation and non-speech mask M N (f, n) from the vector v (n) indicating the input feature value, 258-dimensional vector c representing the correct answer data (n) As a problem to be estimated, it can be formulated into the following equation (49).

Figure 0006961545
Figure 0006961545

このため、ニューラルネットワークのモデルの構成は、下記式(50)〜式(54)で定義することができる。 Therefore, the configuration of the neural network model can be defined by the following equations (50) to (54).

Figure 0006961545
Figure 0006961545

ここで、中間層のノード数を200と想定する。すると、行列Wのサイズは200×516となり、行列Wのサイズは258×200となる。このため、行列W、行列W、および行列Wのサイズは、いずれも200×200となる。 Here, it is assumed that the number of nodes in the intermediate layer is 200. Then, the matrix W i size becomes 200 × 516, the size of the matrix W o becomes 258 × 200. Therefore, the sizes of the matrix W 1 , the matrix W 2 , and the matrix W 3 are all 200 × 200.

ここで、目的関数Lを、下記式(55)で表されるクロスエントロピーで定義する。 Here, the objective function L is defined by the cross entropy represented by the following equation (55).

Figure 0006961545
Figure 0006961545

そして、分離部30Jは、目的関数Lを最大化するパラメータ列W,W,W,W,Wを学習により導出する。学習の手法には、確率的勾配降下法など、公知の方法を用いればよい。 Then, the separation unit 30J derives the parameter sequences Wi , W o , W 1 , W 2 , and W 3 that maximize the objective function L by learning. As the learning method, a known method such as a stochastic gradient descent method may be used.

そして、分離部30Jは、上記方法により生成したモデルを用いて推定した、上記式(55)におけるm(n),(i=1,・・・・,258)は、0から1の間の連続値となる。このため、例えば、分離部30Jは、例えば“0.5”を閾値とし、該閾値以上であれば値“1”、該閾値未満であれば“0”に二値化することで、フレーム毎および周波数ビンごと音声マスクM(f,n)および非音声マスクM(f,n)を推定する。そして、分離部30Jは、上記式(43)および上記式(44)を用いて、目的音成分S(f,n)および非目的音成分N(f,n)を導出すればよい。 Then, the separation unit 30J estimates that mi (n), (i = 1, ..., 258) in the above equation (55) are between 0 and 1, estimated using the model generated by the above method. It becomes a continuous value of. Therefore, for example, the separation unit 30J sets a threshold value of, for example, "0.5", and binarizes the value to "1" if the threshold value is equal to or higher than the threshold value, and to "0" if the threshold value is less than the threshold value. and frequency bins for each voice mask M S (f, n) and non-speech mask M n (f, n) to estimate. Then, the separation unit 30J may derive the target sound component S i (f, n) and the non-target sound component Ni (f, n) by using the above formula (43) and the above formula (44).

なお、上記変形例1および上記変形例2では、ニューラルネットワークの構成要素が、3層の中間層を持つ全結合ネットワークである場合を一例として説明した。しかし、ニューラルネットワークの構成要素は、これに限定されない。 In the first modification and the second modification, the case where the component of the neural network is a fully connected network having three intermediate layers has been described as an example. However, the components of the neural network are not limited to this.

例えば、学習データが十分に用意できる場合には、中間層の層数やノード数をさらに増やすことにより、精度向上を図ってもよい。また、バイアス項を用いてもよい。また、活性化関数としては、sigmoidの他に、reluやtanhなどの種々の関数を用いることができる。また、全結合層以外にも、畳み込みニューラルネットワークやリカレントニューラルネットワークなど、種々の構成を利用することが可能である。また、ニューラルネットワークに入力する特徴量として、FFTパワースペクトルを用いるものとして説明したが、このほかにもメルフィルタバンクやメルケプストラムなど、種々の特徴量やそれらの組み合わせを用いることが可能である。 For example, if sufficient training data can be prepared, the accuracy may be improved by further increasing the number of layers and the number of nodes in the intermediate layer. Moreover, the bias term may be used. Further, as the activation function, various functions such as relu and tanh can be used in addition to sigmoid. In addition to the fully connected layer, various configurations such as a convolutional neural network and a recurrent neural network can be used. Further, although the FFT power spectrum has been described as the feature amount to be input to the neural network, various feature amounts such as a mel filter bank and a mel cepstrum and a combination thereof can be used.

(第3の実施の形態)
なお、音信号処理装置10および音信号処理装置11は、音信号処理システム2に代えて、認識部を備えた構成であってもよい。
(Third Embodiment)
The sound signal processing device 10 and the sound signal processing device 11 may be configured to include a recognition unit instead of the sound signal processing system 2.

図7は、本実施の形態の音信号処理システム3の一例を示す模式図である。 FIG. 7 is a schematic diagram showing an example of the sound signal processing system 3 of the present embodiment.

音信号処理システム3は、音信号処理装置13と、複数の第1マイク14と、を備える。音信号処理装置13と、複数の第1マイク14とは、データや信号を授受可能に接続されている。すなわち、音信号処理システム3は、音信号処理装置10に代えて音信号処理装置13を備える。 The sound signal processing system 3 includes a sound signal processing device 13 and a plurality of first microphones 14. The sound signal processing device 13 and the plurality of first microphones 14 are connected so as to be able to exchange data and signals. That is, the sound signal processing system 3 includes a sound signal processing device 13 instead of the sound signal processing device 10.

音信号処理装置13は、AD変換部18と、音信号処理部20と、認識部24と、を備える。AD変換部18および音信号処理部20は、第1の実施の形態と同様である。すなわち、音信号処理装置13は、出力部22に代えて認識部24を備えた点以外は、音信号処理装置10と同様である。 The sound signal processing device 13 includes an AD conversion unit 18, a sound signal processing unit 20, and a recognition unit 24. The AD conversion unit 18 and the sound signal processing unit 20 are the same as those in the first embodiment. That is, the sound signal processing device 13 is the same as the sound signal processing device 10 except that the recognition unit 24 is provided instead of the output unit 22.

認識部24は、音信号処理部20から受付けた強調音信号を認識する。 The recognition unit 24 recognizes the emphasis sound signal received from the sound signal processing unit 20.

具体的には、認識部24は、強調音信号を解析する装置である。認識部24は、例えば、出力スペクトルY(f,n)によって表される強調音信号を公知の解析方法で認識し、認識結果を出力する。この出力は、テキストデータでもよいし、認識された単語IDのような記号化された情報であってもよい。認識部24には、公知の認識装置を用いればよい。 Specifically, the recognition unit 24 is a device that analyzes the emphasis sound signal. The recognition unit 24 recognizes, for example, the emphasis signal represented by the output spectrum Y (f, n) by a known analysis method, and outputs the recognition result. This output may be text data or symbolized information such as recognized word IDs. A known recognition device may be used for the recognition unit 24.

(適用範囲)
上記実施の形態および変形例で説明した音信号処理装置10、音信号処理装置11、および音信号処理装置13は、目的音信号を強調する様々な装置やシステムに適用することができる。
(Scope of application)
The sound signal processing device 10, the sound signal processing device 11, and the sound signal processing device 13 described in the above-described embodiments and modifications can be applied to various devices and systems that emphasize the target sound signal.

詳細には、音信号処理装置10、音信号処理装置11、および音信号処理装置13は、1または複数の話者が音声を出力する環境において音を集音して処理する各種のシステムや装置に適用することができる。 Specifically, the sound signal processing device 10, the sound signal processing device 11, and the sound signal processing device 13 are various systems and devices that collect and process sound in an environment in which one or more speakers output sound. Can be applied to.

例えば、音信号処理装置10、音信号処理装置11、および音信号処理装置13は、会議システム、講義システム、接客対応システム、スマートスピーカ、車載システム、等に適用することができる。 For example, the sound signal processing device 10, the sound signal processing device 11, and the sound signal processing device 13 can be applied to a conference system, a lecture system, a customer service system, a smart speaker, an in-vehicle system, and the like.

会議システムは、1または複数の話者が発話するスペース内に配置されたマイクで集音された音を処理するシステムである。講義システムは、講義者および受講者の少なくとも一方が発話するスペース内に配置されたマイクで集音された音を処理するシステムである。接客対応システムは、店員と顧客が対話形式で発話するスペース内に配置されたマイクで集音された音を処理するシステムである。スマートスピーカは、対話型の音声操作に対応したAI(Artificial Intelligence)アシスタントを利用可能なスピーカである。車載システムは、車両内で乗員の発話した音を集音して処理し、処理結果を車両の駆動制御などに用いるシステムである。 The conference system is a system that processes the sound collected by the microphones arranged in the space where one or more speakers speak. The lecture system is a system that processes the sound collected by the microphone arranged in the space where at least one of the lecturer and the student speaks. The customer service system is a system that processes the sound collected by the microphone arranged in the space where the clerk and the customer speak interactively. A smart speaker is a speaker that can use an AI (Artificial Intelligence) assistant that supports interactive voice operations. The in-vehicle system is a system that collects and processes the sounds spoken by the occupants in the vehicle and uses the processing results for driving control of the vehicle and the like.

次に、上記実施の形態および変形例の音信号処理装置10、音信号処理装置11、および音信号処理装置13のハードウェア構成を説明する。 Next, the hardware configurations of the sound signal processing device 10, the sound signal processing device 11, and the sound signal processing device 13 of the above-described embodiment and modification will be described.

図8は、上記実施の形態および変形例の音信号処理装置10、音信号処理装置11、および音信号処理装置13のハードウェア構成例を示す説明図である。 FIG. 8 is an explanatory diagram showing a hardware configuration example of the sound signal processing device 10, the sound signal processing device 11, and the sound signal processing device 13 of the above-described embodiment and modification.

上記実施の形態および変形例の音信号処理装置10、音信号処理装置11、および音信号処理装置13は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM(Random Access Memory)53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。 The sound signal processing device 10, the sound signal processing device 11, and the sound signal processing device 13 of the above-described embodiments and modifications include a control device such as a CPU (Central Processing Unit) 51, a ROM (Read Only Memory) 52, and a RAM. It includes a storage device such as (Random Access Memory) 53, a communication I / F 54 that connects to a network for communication, and a bus 61 that connects each unit.

上記実施の形態および変形例の音信号処理装置10、音信号処理装置11、および音信号処理装置13で実行されるプログラムは、ROM52等に予め組み込まれて提供される。 The program executed by the sound signal processing device 10, the sound signal processing device 11, and the sound signal processing device 13 of the above-described embodiment and the modified example is provided by being incorporated in the ROM 52 or the like in advance.

上記実施の形態および変形例の音信号処理装置10、音信号処理装置11、および音信号処理装置13で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。 The programs executed by the sound signal processing device 10, the sound signal processing device 11, and the sound signal processing device 13 of the above-described embodiment and modifications are CD-ROMs (Compact) in an installable format or an executable format file. It is configured to be recorded on a computer-readable recording medium such as a Disk Read Only Memory), a flexible disk (FD), a CD-R (Compact Disk Recordable), or a DVD (Digital Versaille Disk) and provided as a computer program product. You may.

さらに、上記実施の形態および変形例の音信号処理装置10、音信号処理装置11、および音信号処理装置13で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、上記実施の形態および変形例の音信号処理装置10、音信号処理装置11、および音信号処理装置13で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。 Further, the programs executed by the sound signal processing device 10, the sound signal processing device 11, and the sound signal processing device 13 of the above-described embodiment and the modified example are stored on a computer connected to a network such as the Internet, and the network. It may be configured to be provided by downloading via. Further, the program executed by the sound signal processing device 10, the sound signal processing device 11, and the sound signal processing device 13 of the above-described embodiment and the modified example may be provided or distributed via a network such as the Internet. good.

上記実施の形態および変形例の音信号処理装置10、音信号処理装置11、および音信号処理装置13で実行されるプログラムは、コンピュータを、上記実施の形態および変形例の音信号処理装置10、音信号処理装置11、および音信号処理装置13の各部として機能させうる。このコンピュータは、CPU51がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。 The programs executed by the sound signal processing device 10, the sound signal processing device 11, and the sound signal processing device 13 of the above-described embodiment and the modified example use the computer as the sound signal processing device 10 of the above-described embodiment and the modified example. It can function as each part of the sound signal processing device 11 and the sound signal processing device 13. This computer can read a program from a computer-readable storage medium onto the main storage device and execute the program by the CPU 51.

本発明のいくつかの実施の形態および変形例を説明したが、これらの実施の形態および変形例は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施の形態および変形例は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これらの実施の形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 Although some embodiments and modifications of the present invention have been described, these embodiments and modifications are presented as examples and are not intended to limit the scope of the invention. These novel embodiments and modifications can be implemented in various other embodiments, and various omissions, replacements, and changes can be made without departing from the gist of the invention. These embodiments and modifications thereof are included in the scope and gist of the invention, and are also included in the scope of the invention described in the claims and the equivalent scope thereof.

10、11、13 音信号処理装置
12 音源
12A、12A1、12A2、12A3 目的音源
12B 非目的音源
14、14A、14B、14C、14D 第1マイク
16 第2マイク
20、30 音信号処理部
20C 検出部
20D 相関導出部
20G 係数導出部
20H 生成部
24 認識部
30C 検出部
30D 相関導出部
30G、30G1、30G2、30G3 係数導出部
30H、30H1、30H2、30H3 生成部
30J 分離部
10, 11, 13 Sound signal processing device 12 Sound source 12A, 12A1, 12A2, 12A3 Target sound source 12B Non-purpose sound source 14, 14A, 14B, 14C, 14D 1st microphone 16 2nd microphone 20, 30 Sound signal processing unit 20C Detection unit 20D Correlation Derivation Unit 20G Coefficient Derivation Unit 20H Generation Unit 24 Recognition Unit 30C Detection Unit 30D Correlation Derivation Unit 30G, 30G1, 30G2, 30G3 Coefficient Derivation Unit 30H, 30H1, 30H2, 30H3 Generation Unit 30J Separation Unit

Claims (14)

目的音信号を強調した強調音信号に基づいて、第1音信号に含まれる前記目的音信号を強調するための空間フィルタ係数を導出する係数導出部
前記強調音信号に基づいて、目的音区間を検出する検出部と、
前記目的音区間と前記第1音信号とに基づいて、前記第1音信号における前記目的音区間の第1空間相関行列と、前記第1音信号における前記目的音区間以外の非目的音区間の第2空間相関行列と、を導出する相関導出部と、
を備え、
前記係数導出部は、前記第1空間相関行列および前記第2空間相関行列に基づいて、前記空間フィルタ係数を導出し、
前記検出部は、
前記目的音信号に対する非目的音信号のパワーの比が前記第1音信号より大きい第2音信号と、前記強調音信号と、に基づいて、前記目的音区間を検出する、
音信号処理装置。
Based on the emphasized sound signal the target sound signal emphasizing a coefficient deriving unit that derives the spatial filter coefficients for emphasizing the target sound signal contained in the first sound signal,
A detection unit that detects a target sound section based on the emphasized sound signal,
Based on the target sound section and the first sound signal, the first spatial correlation matrix of the target sound section in the first sound signal and the non-purpose sound section other than the target sound section in the first sound signal. The second space correlation matrix, the correlation derivation unit that derives the second space correlation matrix, and
With
The coefficient derivation unit derives the spatial filter coefficient based on the first spatial correlation matrix and the second spatial correlation matrix.
The detection unit
The target sound section is detected based on the second sound signal in which the power ratio of the non-target sound signal to the target sound signal is larger than that of the first sound signal and the emphasized sound signal.
Sound signal processing device.
前記係数導出部は、
複数のマイクから取得した前記第1音信号に含まれる前記目的音信号を強調した前記強調音信号に基づいて、前記空間フィルタ係数を導出する、
請求項1に記載の音信号処理装置。
The coefficient derivation unit is
The spatial filter coefficient is derived based on the emphasized sound signal that emphasizes the target sound signal included in the first sound signal acquired from a plurality of microphones.
The sound signal processing device according to claim 1.
前記検出部は、
前記強調音信号に基づいて、前記目的音区間と、前記目的音信号と前記非目的音信号が重複する重複区間と、を検出し、
前記相関導出部は、
前記目的音区間と前記重複区間と前記第1音信号とに基づいて、前記第1空間相関行列と、前記第2空間相関行列と、を導出する、
請求項または請求項に記載の音信号処理装置。
The detection unit
Based on the emphasized sound signal, the target sound section and the overlapping section where the target sound signal and the non-target sound signal overlap are detected.
The correlation derivation unit
Based on the target sound section, the overlapping section, and the first sound signal, the first space correlation matrix and the second space correlation matrix are derived.
The sound signal processing device according to claim 1 or 2.
前記相関導出部は、
前記目的音区間の前記第1音信号について、過去に導出した前記第1空間相関行列を、該第1音信号と該第1音信号をエルミート転置した転置信号との乗算値によって表される最新の前記第1空間相関行列で補正することによって、新たな前記第1空間相関行列を導出し、
前記非目的音区間の前記第1音信号について、過去に導出した前記第2空間相関行列を、該第1音信号と該第1音信号をエルミート転置した転置信号との乗算値によって表される最新の前記第2空間相関行列で補正することによって、新たな前記第2空間相関行列を導出する、
請求項〜請求項の何れか1項に記載の音信号処理装置。
The correlation derivation unit
The latest obtained by multiplying the first spatial correlation matrix derived in the past with respect to the first sound signal in the target sound section by the first sound signal and the transposed signal obtained by Hermit translocation of the first sound signal. By correcting with the first space correlation matrix of the above, a new first space correlation matrix is derived.
The second spatial correlation matrix derived in the past for the first sound signal in the non-purpose sound section is represented by a multiplication value of the first sound signal and the transposed signal obtained by Hermit translocation of the first sound signal. A new second space correlation matrix is derived by correcting with the latest second space correlation matrix.
The sound signal processing apparatus according to any one of claims 1 to 3.
前記係数導出部は、
前記第1空間相関行列と前記第2空間相関行列の逆行列との積の最大固有値に対応する固有ベクトルを、前記空間フィルタ係数として導出する、
請求項または請求項に記載の音信号処理装置。
The coefficient derivation unit is
The eigenvector corresponding to the maximum eigenvalue of the product of the first spatial correlation matrix and the inverse matrix of the second spatial correlation matrix is derived as the spatial filter coefficient.
The sound signal processing device according to claim 3 or 4.
目的音信号を強調した強調音信号に基づいて、第1音信号に含まれる前記目的音信号を強調するための空間フィルタ係数を導出する係数導出部
記強調音信号に基づいて、目的音区間を検出する検出部と、
前記第1音信号を目的音成分と非目的音成分に分離する分離部と、
前記目的音区間と、前記目的音成分と、前記非目的音成分と、に基づいて、前記第1音信号における前記目的音成分の第3空間相関行列と、前記第1音信号における前記非目的音成分の第4空間相関行列と、を導出する相関導出部と、
を備え、
前記係数導出部は、前記第3空間相関行列および前記第4空間相関行列に基づいて、前記空間フィルタ係数を導出する、
音信号処理装置。
Based on the emphasized sound signal the target sound signal emphasizing a coefficient deriving unit that derives the spatial filter coefficients for emphasizing the target sound signal contained in the first sound signal,
A detector that detects the target sound section based on the emphasized sound signal,
A separation unit that separates the first sound signal into a target sound component and a non-target sound component,
Based on the target sound section, the target sound component, and the non-target sound component, the third spatial correlation matrix of the target sound component in the first sound signal and the non-purpose sound component in the first sound signal. A correlation derivation unit that derives the fourth spatial correlation matrix of sound components, and
With
The coefficient derivation unit derives the spatial filter coefficient based on the third spatial correlation matrix and the fourth spatial correlation matrix.
Sound signal processing device.
前記相関導出部は、
過去に導出した前記第3空間相関行列を、前記目的音成分と前記目的音成分をエルミート転置した転置成分との乗算値によって表される最新の前記第3空間相関行列で補正することによって、新たな前記第3空間相関行列を導出し、
過去に導出した前記第4空間相関行列を、前記非目的音成分と前記非目的音成分をエルミート転置した転置成との乗算値によって表される最新の前記第4空間相関行列で補正することによって、新たな前記第4空間相関行列を導出する、
請求項に記載の音信号処理装置。
The correlation derivation unit
The third spatial correlation matrix derived in the past is newly corrected by the latest third spatial correlation matrix represented by the multiplication value of the target sound component and the transposed component obtained by Hermitian transposition of the target sound component. Derivation of the third spatial correlation matrix
By correcting the fourth spatial correlation matrix derived in the past with the latest fourth spatial correlation matrix represented by the multiplication value of the non-objective sound component and the transpose of the non-objective sound component Hermitian transposed. , Derivation of the new fourth spatial correlation matrix,
The sound signal processing device according to claim 6.
前記係数導出部は、
前記第3空間相関行列と前記第4空間相関行列の逆行列との積の最大固有値に対応する固有ベクトルを、前記空間フィルタ係数として導出する、
請求項に記載の音信号処理装置。
The coefficient derivation unit is
The eigenvector corresponding to the maximum eigenvalue of the product of the third spatial correlation matrix and the inverse matrix of the fourth spatial correlation matrix is derived as the spatial filter coefficient.
The sound signal processing device according to claim 7.
目的音信号を強調した強調音信号に基づいて、第1音信号に含まれる前記目的音信号を強調するための空間フィルタ係数を導出する係数導出ステップ
前記強調音信号に基づいて、目的音区間を検出する検出ステップと、
前記目的音区間と前記第1音信号とに基づいて、前記第1音信号における前記目的音区間の第1空間相関行列と、前記第1音信号における前記目的音区間以外の非目的音区間の第2空間相関行列と、を導出する相関導出ステップと、
を含み、
前記係数導出ステップは、前記第1空間相関行列および前記第2空間相関行列に基づいて、前記空間フィルタ係数を導出し、
前記検出ステップは、
前記目的音信号に対する非目的音信号のパワーの比が前記第1音信号より大きい第2音信号と、前記強調音信号と、に基づいて、前記目的音区間を検出する、
音信号処理方法。
Based on the emphasized sound signal the target sound signal emphasizing a coefficient deriving step of deriving the spatial filter coefficients for emphasizing the target sound signal contained in the first sound signal,
A detection step for detecting a target sound section based on the emphasized sound signal, and
Based on the target sound section and the first sound signal, the first spatial correlation matrix of the target sound section in the first sound signal and the non-purpose sound section other than the target sound section in the first sound signal. The second spatial correlation matrix, the correlation derivation step for deriving, and
Including
The coefficient derivation step derives the spatial filter coefficient based on the first spatial correlation matrix and the second spatial correlation matrix.
The detection step
The target sound section is detected based on the second sound signal in which the power ratio of the non-target sound signal to the target sound signal is larger than that of the first sound signal and the emphasized sound signal.
Sound signal processing method.
目的音信号を強調した強調音信号に基づいて、第1音信号に含まれる前記目的音信号を強調するための空間フィルタ係数を導出する係数導出ステップと、
前記強調音信号に基づいて、目的音区間を検出する検出ステップと、
前記目的音区間と前記第1音信号とに基づいて、前記第1音信号における前記目的音区間の第1空間相関行列と、前記第1音信号における前記目的音区間以外の非目的音区間の第2空間相関行列と、を導出する相関導出ステップと、
をコンピュータに実行させるためのプログラムであって、
前記係数導出ステップは、前記第1空間相関行列および前記第2空間相関行列に基づいて、前記空間フィルタ係数を導出し、
前記検出ステップは、
前記目的音信号に対する非目的音信号のパワーの比が前記第1音信号より大きい第2音信号と、前記強調音信号と、に基づいて、前記目的音区間を検出する、
ログラム。
A coefficient derivation step for deriving a spatial filter coefficient for emphasizing the target sound signal included in the first sound signal based on the emphasized sound signal emphasizing the target sound signal, and a coefficient derivation step.
A detection step for detecting a target sound section based on the emphasized sound signal, and
Based on the target sound section and the first sound signal, the first spatial correlation matrix of the target sound section in the first sound signal and the non-purpose sound section other than the target sound section in the first sound signal. The second spatial correlation matrix, the correlation derivation step for deriving, and
Is a program that allows a computer to execute
The coefficient derivation step derives the spatial filter coefficient based on the first spatial correlation matrix and the second spatial correlation matrix.
The detection step
The target sound section is detected based on the second sound signal in which the power ratio of the non-target sound signal to the target sound signal is larger than that of the first sound signal and the emphasized sound signal.
Program.
目的音信号を強調した強調音信号に基づいて、第1音信号に含まれる前記目的音信号を強調するための空間フィルタ係数を導出する係数導出部と、
前記空間フィルタ係数を用いて、前記第1音信号に含まれる目的音を強調した前記強調音信号を生成する生成部と、
前記強調音信号を認識する認識部と、
前記強調音信号に基づいて、目的音区間を検出する検出部と、
前記目的音区間と前記第1音信号とに基づいて、前記第1音信号における前記目的音区間の第1空間相関行列と、前記第1音信号における前記目的音区間以外の非目的音区間の第2空間相関行列と、を導出する相関導出部と、
を備え、
前記係数導出部は、前記第1空間相関行列および前記第2空間相関行列に基づいて、前記空間フィルタ係数を導出し、
前記検出部は、
前記目的音信号に対する非目的音信号のパワーの比が前記第1音信号より大きい第2音信号と、前記強調音信号と、に基づいて、前記目的音区間を検出する、
信号処理装置。
A coefficient derivation unit that derives a spatial filter coefficient for emphasizing the target sound signal included in the first sound signal based on the emphasized sound signal that emphasizes the target sound signal, and a coefficient derivation unit.
A generation unit that uses the spatial filter coefficient to generate the emphasized sound signal that emphasizes the target sound included in the first sound signal.
A recognition unit that recognizes the emphasis signal and
A detection unit that detects a target sound section based on the emphasized sound signal,
Based on the target sound section and the first sound signal, the first spatial correlation matrix of the target sound section in the first sound signal and the non-purpose sound section other than the target sound section in the first sound signal. The second space correlation matrix, the correlation derivation unit that derives the second space correlation matrix, and
With
The coefficient derivation unit derives the spatial filter coefficient based on the first spatial correlation matrix and the second spatial correlation matrix.
The detection unit
The target sound section is detected based on the second sound signal in which the power ratio of the non-target sound signal to the target sound signal is larger than that of the first sound signal and the emphasized sound signal.
Sound signal processing device.
目的音信号を強調した強調音信号に基づいて、第1音信号に含まれる前記目的音信号を強調するための空間フィルタ係数を導出する係数導出ステップ
前記強調音信号に基づいて、目的音区間を検出する検出ステップと、
前記第1音信号を目的音成分と非目的音成分に分離する分離ステップと、
前記目的音区間と、前記目的音成分と、前記非目的音成分と、に基づいて、前記第1音信号における前記目的音成分の第3空間相関行列と、前記第1音信号における前記非目的音成分の第4空間相関行列と、を導出する相関導出ステップと、
を含み、
前記係数導出ステップは、前記第3空間相関行列および前記第4空間相関行列に基づいて、前記空間フィルタ係数を導出する、
音信号処理方法。
Based on the emphasized sound signal the target sound signal emphasizing a coefficient deriving step of deriving the spatial filter coefficients for emphasizing the target sound signal contained in the first sound signal,
A detection step for detecting a target sound section based on the emphasized sound signal, and
A separation step for separating the first sound signal into a target sound component and a non-target sound component, and
Based on the target sound section, the target sound component, and the non-target sound component, the third spatial correlation matrix of the target sound component in the first sound signal and the non-purpose sound component in the first sound signal. A correlation derivation step for deriving the fourth spatial correlation matrix of sound components, and
Including
The coefficient derivation step derives the spatial filter coefficient based on the third spatial correlation matrix and the fourth spatial correlation matrix.
Sound signal processing method.
目的音信号を強調した強調音信号に基づいて、第1音信号に含まれる前記目的音信号を強調するための空間フィルタ係数を導出する係数導出ステップと、
前記強調音信号に基づいて、目的音区間を検出する検出ステップと、
前記第1音信号を目的音成分と非目的音成分に分離する分離ステップと、
前記目的音区間と、前記目的音成分と、前記非目的音成分と、に基づいて、前記第1音信号における前記目的音成分の第3空間相関行列と、前記第1音信号における前記非目的音成分の第4空間相関行列と、を導出する相関導出ステップと、
をコンピュータに実行させるためのプログラムであって、
前記係数導出ステップは、前記第3空間相関行列および前記第4空間相関行列に基づいて、前記空間フィルタ係数を導出する、
ログラム。
A coefficient derivation step for deriving a spatial filter coefficient for emphasizing the target sound signal included in the first sound signal based on the emphasized sound signal emphasizing the target sound signal, and a coefficient derivation step.
A detection step for detecting a target sound section based on the emphasized sound signal, and
A separation step for separating the first sound signal into a target sound component and a non-target sound component, and
Based on the target sound section, the target sound component, and the non-target sound component, the third spatial correlation matrix of the target sound component in the first sound signal and the non-purpose sound component in the first sound signal. A correlation derivation step for deriving the fourth spatial correlation matrix of sound components, and
Is a program that allows a computer to execute
The coefficient derivation step derives the spatial filter coefficient based on the third spatial correlation matrix and the fourth spatial correlation matrix.
Program.
目的音信号を強調した強調音信号に基づいて、第1音信号に含まれる前記目的音信号を強調するための空間フィルタ係数を導出する係数導出部と、
前記空間フィルタ係数を用いて、前記第1音信号に含まれる目的音を強調した前記強調音信号を生成する生成部と、
前記強調音信号を認識する認識部
記強調音信号に基づいて、目的音区間を検出する検出部と、
前記第1音信号を目的音成分と非目的音成分に分離する分離部と、
前記目的音区間と、前記目的音成分と、前記非目的音成分と、に基づいて、前記第1音信号における前記目的音成分の第3空間相関行列と、前記第1音信号における前記非目的音成分の第4空間相関行列と、を導出する相関導出部と、
を備え、
前記係数導出部は、前記第3空間相関行列および前記第4空間相関行列に基づいて、前記空間フィルタ係数を導出する、
信号処理装置。
A coefficient derivation unit that derives a spatial filter coefficient for emphasizing the target sound signal included in the first sound signal based on the emphasized sound signal that emphasizes the target sound signal, and a coefficient derivation unit.
A generation unit that uses the spatial filter coefficient to generate the emphasized sound signal that emphasizes the target sound included in the first sound signal.
A recognition unit for recognizing the emphasized sound signal,
A detector that detects the target sound section based on the emphasized sound signal,
A separation unit that separates the first sound signal into a target sound component and a non-target sound component,
Based on the target sound section, the target sound component, and the non-target sound component, the third spatial correlation matrix of the target sound component in the first sound signal and the non-purpose sound component in the first sound signal. A correlation derivation unit that derives the fourth spatial correlation matrix of sound components, and
With
The coefficient derivation unit derives the spatial filter coefficient based on the third spatial correlation matrix and the fourth spatial correlation matrix.
Sound signal processing device.
JP2018125779A 2018-07-02 2018-07-02 Sound signal processor, sound signal processing method, and program Active JP6961545B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018125779A JP6961545B2 (en) 2018-07-02 2018-07-02 Sound signal processor, sound signal processing method, and program
CN201910070357.XA CN110675890B (en) 2018-07-02 2019-01-25 Audio signal processing device and audio signal processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018125779A JP6961545B2 (en) 2018-07-02 2018-07-02 Sound signal processor, sound signal processing method, and program

Publications (2)

Publication Number Publication Date
JP2020003751A JP2020003751A (en) 2020-01-09
JP6961545B2 true JP6961545B2 (en) 2021-11-05

Family

ID=69065594

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018125779A Active JP6961545B2 (en) 2018-07-02 2018-07-02 Sound signal processor, sound signal processing method, and program

Country Status (2)

Country Link
JP (1) JP6961545B2 (en)
CN (1) CN110675890B (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11798533B2 (en) * 2021-04-02 2023-10-24 Google Llc Context aware beamforming of audio data

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4849404B2 (en) * 2006-11-27 2012-01-11 株式会社メガチップス Signal processing apparatus, signal processing method, and program
JP4891801B2 (en) * 2007-02-20 2012-03-07 日本電信電話株式会社 Multi-signal enhancement apparatus, method, program, and recording medium thereof
JP2010091912A (en) * 2008-10-10 2010-04-22 Equos Research Co Ltd Voice emphasis system
JP5044581B2 (en) * 2009-02-03 2012-10-10 日本電信電話株式会社 Multiple signal emphasis apparatus, method and program
JP2012150237A (en) * 2011-01-18 2012-08-09 Sony Corp Sound signal processing apparatus, sound signal processing method, and program
JP5772151B2 (en) * 2011-03-31 2015-09-02 沖電気工業株式会社 Sound source separation apparatus, program and method
JP2012234150A (en) * 2011-04-18 2012-11-29 Sony Corp Sound signal processing device, sound signal processing method and program
JP5815489B2 (en) * 2012-08-28 2015-11-17 日本電信電話株式会社 Sound enhancement device, method, and program for each sound source
JP6201949B2 (en) * 2014-10-08 2017-09-27 株式会社Jvcケンウッド Echo cancel device, echo cancel program and echo cancel method
JP6584930B2 (en) * 2015-11-17 2019-10-02 株式会社東芝 Information processing apparatus, information processing method, and program
WO2017108097A1 (en) * 2015-12-22 2017-06-29 Huawei Technologies Duesseldorf Gmbh Localization algorithm for sound sources with known statistics

Also Published As

Publication number Publication date
JP2020003751A (en) 2020-01-09
CN110675890A (en) 2020-01-10
CN110675890B (en) 2023-03-14

Similar Documents

Publication Publication Date Title
CN112447191B (en) Signal processing device and signal processing method
EP3707716B1 (en) Multi-channel speech separation
JP5124014B2 (en) Signal enhancement apparatus, method, program and recording medium
JP6584930B2 (en) Information processing apparatus, information processing method, and program
JP6261043B2 (en) Audio processing apparatus, audio processing method, and audio processing program
JP5702685B2 (en) Sound source direction estimating apparatus and sound source direction estimating method
JP5649488B2 (en) Voice discrimination device, voice discrimination method, and voice discrimination program
JP6622159B2 (en) Signal processing system, signal processing method and program
JP6723120B2 (en) Acoustic processing device and acoustic processing method
KR20190129805A (en) Hearing Aid Having Noise Environment Classification and Reduction Function and Method thereof
KR20190130533A (en) Hearing Aid Having Voice Activity Detector and Method thereof
JP2018169473A (en) Voice processing device, voice processing method and program
Li et al. Single-channel speech dereverberation via generative adversarial training
Xiong et al. Blind estimation of reverberation time based on spectro-temporal modulation filtering
JP6961545B2 (en) Sound signal processor, sound signal processing method, and program
Örnolfsson et al. Exploiting non-negative matrix factorization for binaural sound localization in the presence of directional interference
Mawalim et al. OBISHI: objective binaural intelligibility score for the hearing impaired
Ohlenbusch et al. Modeling of Speech-dependent Own Voice Transfer Characteristics for Hearables with In-ear Microphones
Putta et al. Regional Language Speech Recognition from Bone‐Conducted Speech Signals through Different Deep Learning Architectures
JP4249697B2 (en) Sound source separation learning method, apparatus, program, sound source separation method, apparatus, program, recording medium
KR101537653B1 (en) Method and system for noise reduction based on spectral and temporal correlations
JP6059112B2 (en) Sound source separation device, method and program thereof
WO2021260868A1 (en) Sound source separation model learning device, sound source separation device, program, sound source separation model learning method, and sound source separation method
JP2010181467A (en) A plurality of signals emphasizing device and method and program therefor
Lee et al. Binaural semi-blind dereverberation of noisy convoluted speech signals

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200618

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210413

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210824

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210914

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211013

R151 Written notification of patent or utility model registration

Ref document number: 6961545

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151