JP2019029861A - Acoustic signal processing device, method and program - Google Patents
Acoustic signal processing device, method and program Download PDFInfo
- Publication number
- JP2019029861A JP2019029861A JP2017148355A JP2017148355A JP2019029861A JP 2019029861 A JP2019029861 A JP 2019029861A JP 2017148355 A JP2017148355 A JP 2017148355A JP 2017148355 A JP2017148355 A JP 2017148355A JP 2019029861 A JP2019029861 A JP 2019029861A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- unit
- acoustic signal
- arrival
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
この発明は、音響信号の処理技術に関する。 The present invention relates to an acoustic signal processing technique.
特許文献1,2に記載されている指向性集音技術が知られている(例えば、特許文献1,2参照。)。 Directed sound collection techniques described in Patent Documents 1 and 2 are known (see, for example, Patent Documents 1 and 2).
図12は、特許文献1,2等で開示されている従来の指向性集音装置の構成である。図12の指向性集音装置は、方向推定部41及び指向性集音部42を備えている。 FIG. 12 shows a configuration of a conventional directional sound collecting device disclosed in Patent Documents 1 and 2 and the like. The directional sound collecting device of FIG. 12 includes a direction estimating unit 41 and a directional sound collecting unit 42.
方向推定部41は、複数のマイクロホンで集音された信号に基づき、音源の方向推定を行う。ここでは、マイクロホン間で発生する時間差や振幅差を手掛かりに推定を行う。 The direction estimation unit 41 estimates the direction of a sound source based on signals collected by a plurality of microphones. Here, estimation is performed based on the time difference and amplitude difference generated between the microphones.
次に、指向性集音部42は、その推定された方向の音を強調して集音するように、指向性集音を行う。指向性集音部42は、狙った方向の音が強調されるように遅延時間やフィルタ係数を設定することで、推定方向の音を強調することができる。この指向性集音技術によれば、音源が1つであれば、その音源の方向を推定し、その音源の方向を強調した集音を行うことができる。 Next, the directional sound collection unit 42 performs directional sound collection so that the sound in the estimated direction is emphasized and collected. The directivity sound collecting unit 42 can emphasize the sound in the estimated direction by setting the delay time and the filter coefficient so that the sound in the aimed direction is emphasized. According to this directional sound collection technique, if there is one sound source, it is possible to estimate the direction of the sound source and perform sound collection that emphasizes the direction of the sound source.
しかし、従来の指向性集音装置では、集音したい音源と、雑音源の両方が存在する場合には、どちらが集音したい音源か見分けることができず、雑音源を強調してしまうという誤った動作をしてしまう可能性があった。例えば、リビングで音声認識を用いて対話や機器の操作を行うようなロボットやリモコンを使うシーンを想定すると、TV等の音源にも反応してしまい誤動作を起こす可能性があった。 However, in the conventional directional sound collector, if both the sound source to be collected and the noise source exist, it is impossible to distinguish which sound source is to be collected, and the noise source is emphasized. There was a possibility of moving. For example, assuming a scene using a robot or a remote controller that uses voice recognition in a living room to interact and operate devices, it may react to a sound source such as a TV and cause a malfunction.
この発明の目的は、より精度の高い指向性集音を行う音響信号処理装置、方法及びプログラムを提供することである。 An object of the present invention is to provide an acoustic signal processing apparatus, method, and program for performing directional sound collection with higher accuracy.
この発明の一態様による音響信号処理装置は、複数のマイクロホンで集音された信号から音の到来方向を、予め定められた音である特定音が検出された時刻において推定された到来方向に近い方向ほど到来方向であると推定されやすくなるように推定する方向推定部と、方向推定部で推定された到来方向からの音が強調されるように集音を行う第一指向性集音部と、を備えている。 In the acoustic signal processing device according to one aspect of the present invention, the direction of arrival of sound from signals collected by a plurality of microphones is close to the direction of arrival estimated at the time when a specific sound that is a predetermined sound is detected. A direction estimator that estimates the direction of arrival so that the direction of arrival is more likely to be estimated; a first directional sound collector that collects sound so that sound from the direction of arrival estimated by the direction estimator is emphasized; It is equipped with.
事前に得られている特定音から得られる情報に基づく音響信号処理を行うことで、より精度の高い指向性集音を行うことができる。 By performing acoustic signal processing based on information obtained from a specific sound obtained in advance, more accurate directional sound collection can be performed.
以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。 In the drawings used for the following description, components having the same function and steps for performing the same process are denoted by the same reference numerals, and redundant description is omitted. In the following explanation, the symbol “^” etc. used in the text should be described immediately above the character immediately after it, but it is described immediately before the character due to restrictions on the text notation. In the formula, these symbols are written in their original positions. Further, the processing performed for each element of a vector or matrix is applied to all elements of the vector or matrix unless otherwise specified.
[技術的背景]
音響信号処理装置は、予め定められた音である特定音についての情報が与えられているとして、その特定音についての情報を用いて音響信号処理を行うものである。事前に与えられた特定音についての情報を用いることにより、使える情報が増えるため、より精度の高い音響信号処理を行うことができる。
[Technical background]
The acoustic signal processing apparatus performs acoustic signal processing using information about the specific sound, assuming that information about the specific sound that is a predetermined sound is given. By using information about a specific sound given in advance, usable information increases, so that more accurate acoustic signal processing can be performed.
音響信号処理の例は、音の到来方向の推定、指向性集音、目的音声の抽出、音声区間の検出、音声認識である。 Examples of acoustic signal processing are estimation of sound arrival direction, directional sound collection, target speech extraction, speech section detection, and speech recognition.
例えば、ユーザの特定の発話に対して特定音であるキーワードの検出を行うことで、目的音声の信号区間と雑音の信号区間を正確に把握でき、その後の処理に活かすことができる。 For example, by detecting a keyword that is a specific sound for a user's specific utterance, the signal section of the target speech and the signal section of the noise can be accurately grasped, and can be utilized for subsequent processing.
また、この性質を音声区間検出に用いると、雑音区間と音声区間の信号がそれぞれ判明するため、音声/非音声の判定のためのパラメータをより実測値に即した値へ更新することができる。 Further, when this property is used for speech section detection, the noise section and the speech section signals are respectively found, and therefore the parameters for speech / non-speech determination can be updated to values that more closely match the actually measured values.
また、音響信号処理として音声の方向推定を行う場合には、特定音を検出した方向を音声の方向とみなすことで、本来の方向以外から音声を含む音が到来したとしても方向推定が頑健に動作する。 Also, when performing speech direction estimation as acoustic signal processing, the direction in which the specific sound is detected is regarded as the direction of the speech, so that the direction estimation is robust even if sound including speech comes from other than the original direction. Operate.
また、音響信号処理として目的音声抽出を行う場合には、音声区間と非音声区間の信号が精度よく得られるため、音声分離のためのステアリングベクトルを計算するための空間相関行列をより正確に求めることができる。 In addition, when target speech extraction is performed as acoustic signal processing, signals in speech sections and non-speech sections can be obtained with high accuracy, so that a spatial correlation matrix for calculating a steering vector for speech separation is obtained more accurately. be able to.
また、音響信号処理として音声認識を行う場合には、雑音レベルをより正確に得られるため、音響モデルの選択により精度を向上させることができる。 Also, when performing speech recognition as acoustic signal processing, the noise level can be obtained more accurately, so that accuracy can be improved by selecting an acoustic model.
以下、図面を参照して、各実施形態について説明する。 Hereinafter, each embodiment will be described with reference to the drawings.
[第一実施形態]
第一実施形態の音響信号処理装置及び方法は、音響信号処理として指向性集音処理を行う。
[First embodiment]
The acoustic signal processing apparatus and method according to the first embodiment performs directional sound collection processing as acoustic signal processing.
音響信号処理装置は、図11に示すように、方向推定部11、特定音検出部12、方向記憶部13及び第一指向性集音部14を例えば備えている。音響信号処理装置は、特定音検出部12を備えていなくてもよい。
As shown in FIG. 11, the acoustic signal processing device includes, for example, a
音響信号処理方法は、音響信号処理装置が、図5及び以下に説明するステップS11からステップS14の処理を行うことにより例えば実現される。 The acoustic signal processing method is realized, for example, by the acoustic signal processing apparatus performing the processing from step S11 to step S14 described below with reference to FIG.
方向推定部11は、複数のマイクロホンで集音された信号から音の到来方向を推定する(ステップS11)。方向推定部11は、各時刻における音の到来方向を推定する。推定された各時刻における音の到来方向は、方向記憶部13に出力される。
The
方向推定部11による方向推定の方式は任意である。方向推定部11は、例えば特許文献1,2に記載された方向推定技術により音の到来方向を推定する。音の到来方向は、方向ではなく、位置により表されるものであってもよい。
The direction estimation method by the
特定音検出部12は、予め定められた音である特定音を検出する(ステップS12)。予め定められた音の例は、特定のキーワードの音声、口笛及び手拍子である。予め定められた音として、上記の例以外の所定の音が用いられてもよい。
The specific
方向記憶部13には、特定音検出部12で特定音が検出された時刻における、方向推定部11で推定された到来方向が記憶される。より詳細には、方向記憶部13は、方向推定部11から入力された各時刻における音の到来方向のうち、特定音検出部12で特定音が検出された時刻における音の到来方向を記憶する。
The
第一指向性集音部14は、方向記憶部13から読み込んだ到来方向からの音が強調されるように集音を行う(ステップS14)。第一指向性集音部14による指向性集音の方式は任意である。第一指向性集音部14は、例えば特開2009−44588号公報に記載された指向性集音を行う。
The first directivity
このように、特定音が発せられた音源を集音すべき音源と判別して、その音源を指向性集音することで、高SN比で集音することができる。ユーザは、特定のキーワード等の特定音を発することで、指向性の向きを変えることができ、テレビなどの音源が存在している場合でも、自分に対して指向性を向けて、その後固定することができる。 In this way, it is possible to collect sound with a high S / N ratio by discriminating the sound source from which the specific sound is emitted as the sound source to be collected and collecting the sound source with directional sound. The user can change the direction of the directivity by emitting a specific sound such as a specific keyword. Even when a sound source such as a TV is present, the user directs the directivity toward the user and then fixes it. be able to.
なお、特定音検出部12による特定音の検出に時間がかかる場合には、その時間に対応する時間だけ遅延させる遅延部15を方向推定部11の後段に入れてもよい。図1では、遅延部15を破線で示している。遅延部15は、特定音検出部12による特定音の検出の時間に対応する時間だけ方向推定部11からの出力を遅延させてから方向記憶部13に入力する。これにより、特定音の検出に遅延があっても正常に動作する。
In addition, when it takes time for the specific sound to be detected by the specific
[[第一実施形態の変形例1]]
図2に例示するように、音響信号処理装置は、推定頻度計測部16及び選択部17を更に備えていてもよい。この場合、方向推定部11は、複数方向の同時推定が可能であってもよい。すなわち、方向推定部11は、特定音と同時に雑音源の音もあった場合に、その両方の音源の方向が推定可能であってもよい。この場合、どちらの音源で特定音が発せられたかの判別ができなくなってしまうので、推定頻度計測部16が、過去に方向推定がどのくらい行われたかで、その判別を行う。すなわち、推定頻度計測部16は、TV等の音源は常に音が出力されているので、過去に多数の方向推定が行われているものと考えられるので、これを手掛かりに判別する。
[[First Modification of First Embodiment]]
As illustrated in FIG. 2, the acoustic signal processing device may further include an estimated
推定頻度計測部16は、過去の所定の時間区間における、方向推定部11で推定された到来方向の頻度を計測する(ステップS16)。すなわち、推定頻度計測部16は、過去一定時間内に、どのくらいの頻度で、その方向が推定されたかを計測する。計測された頻度についての情報は、選択部17に出力される。
The estimated
例えば、過去T秒の間に、方向推定部11の出力が方向θであった時間をA(θ)秒とすれば、θ方向の推定頻度は、それらの比D(θ)=A(θ)/Tで求められる。推定頻度計測部16は、この頻度を各方向についてすべて求める。雑音源がテレビや音楽受聴用のスピーカであると想定した場合、長時間、ほとんど無音になることなく、同じ方向から音が発せられることになる。このような音源がθ方向にあった場合、推定頻度D(θ)は1に近い大きな値をとることになる。
For example, if the time during which the output of the
選択部17は、推定頻度計測部16で計測された頻度の中で最も低い頻度の到来方向を選択する。例えば、選択部17は、方向推定部11の出力の推定方向が2個であった場合に、推定頻度D(θ)が小さい方を選択する。特定音検出部12で特定音が検出された時刻における、選択部17で選択された到来方向が、方向記憶部13に記憶される。
The
その後、第一指向性集音部14は、上記と同様にして、方向記憶部13から読み込んだ到来方向からの音が強調されるように集音を行う。
Thereafter, the first directivity
なお、第一実施形態の変形例1においても、特定音検出部12による特定音の検出に時間がかかる場合には、その時間に対応する時間だけ遅延させる遅延部15を方向推定部11の後段に入れてもよい。図2では、遅延部15を破線で示している。これにより、特定音の検出に遅延があっても正常に動作する。
Also in the first modification of the first embodiment, when it takes time for the specific sound to be detected by the specific
[[第一実施形態の変形例2]]
図3に例示するように、音響信号処理装置は、第二指向性集音部18を更に備えていてもよい。
[[Modification 2 of the first embodiment]]
As illustrated in FIG. 3, the acoustic signal processing device may further include a second directional
特定音検出部12の処理の前に、第二指向性集音部18による指向性集音を行うことで、より高精度な特定音の検出を行うことができる。
By performing the directional sound collection by the second directional
第二指向性集音部18には、複数のマイクロホンで集音された信号を遅延させた信号が入力される。この遅延は、方向推定部11による到来方向の推定処理に必要な時間に対応する時間の長さを持つ。この遅延は、図3に破線で示されている遅延部19により行われる。また、第二指向性集音部18には、方向推定部11で推定された到来方向が入力される。
A signal obtained by delaying signals collected by a plurality of microphones is input to the second directivity
第二指向性集音部18は、方向推定部11で推定された到来方向からの音が強調されるように集音を行う(ステップS18)。より詳細には、第二指向性集音部18は、複数のマイクロホンで集音された信号を遅延させた信号を用いて、方向推定部11で推定された到来方向からの音が強調されるように集音を行う。第二指向性集音部18で集音された信号は、特定音検出部12に出力される。
The second directivity
特定音検出部12は、第二指向性集音部18により集音された信号に基づいて特定音を検出する。その後の処理は、上記と同様である。
The specific
なお、図3に示すように、複数の第二指向性集音部18が音響信号処理装置に備えられていてもよい。この場合、第二指向性集音部18の数と同数の特定音検出部12が音響信号処理装置に備えられている。
In addition, as shown in FIG. 3, the some 2nd directivity
この場合、方向推定部11で複数の到来方向が推定された場合には、特定音検出部12は、推定された複数の到来方向のそれぞれを強調するように動作し、それらの出力がそれぞれ複数の特定音検出部12に入力され、特定音の検出が行われる。
In this case, when a plurality of arrival directions are estimated by the
これにより、複数の特定音検出部12で特定音が検出された場合に、優先順位を付けることが可能となる。
Thereby, when a specific sound is detected by a plurality of specific
なお、第一実施形態の変形例2においても、特定音検出部12による特定音の検出に時間がかかる場合には、その時間に対応する時間だけ遅延させる遅延部15を方向推定部11の後段に入れてもよい。図2では、遅延部15を破線で示している。これにより、特定音の検出に遅延があっても正常に動作する。
Also in the second modification of the first embodiment, when it takes time for the specific sound to be detected by the specific
[[第一実施形態の変形例3]]
図4に例示するように、第一実施形態の変形例2において、第一実施形態の変形例1で説明した推定頻度計測部16及び選択部17を音響信号処理装置は更に備えていてもよい。この場合、方向推定部11は、複数方向の同時推定が可能であってもよい。すなわち、方向推定部11は、特定音と同時に雑音源の音もあった場合に、その両方の音源の方向が推定可能であってもよい。
[[Modification 3 of the first embodiment]]
As illustrated in FIG. 4, in Modification 2 of the first embodiment, the acoustic signal processing device may further include the estimation
推定頻度計測部16及び選択部17の処理は、第一実施形態の変形例1で説明したものと同様である。
The processes of the estimation
すなわち、推定頻度計測部16は、過去の所定の時間区間における、方向推定部11で推定された到来方向の頻度を計測する(ステップS16)。すなわち、推定頻度計測部16は、過去一定時間内に、どのくらいの頻度で、その方向が推定されたかを計測する。計測された頻度についての情報は、選択部17に出力される。
That is, the estimated
例えば、過去T秒の間に、方向推定部11の出力が方向θであった時間をA(θ)秒とすれば、θ方向の推定頻度は、それらの比D(θ)=A(θ)/Tで求められる。推定頻度計測部16は、この頻度を各方向についてすべて求める。雑音源がテレビや音楽受聴用のスピーカであると想定した場合、長時間、ほとんど無音になることなく、同じ方向から音が発せられることになる。このような音源がθ方向にあった場合、推定頻度D(θ)は1に近い大きな値をとることになる。
For example, if the time during which the output of the
選択部17は、推定頻度計測部16で計測された頻度の中で最も低い頻度の到来方向を選択する。例えば、選択部17は、方向推定部11の出力の推定方向が2個であった場合に、推定頻度D(θ)が小さい方を選択する。特定音検出部12で特定音が検出された時刻における、選択部17で選択された到来方向が、方向記憶部13に記憶される。
The
その後、第一指向性集音部14は、上記と同様にして、方向記憶部13から読み込んだ到来方向からの音が強調されるように集音を行う。
Thereafter, the first directivity
なお、第一実施形態の変形例1においても、特定音検出部12による特定音の検出に時間がかかる場合には、その時間に対応する時間だけ遅延させる遅延部15を方向推定部11の後段に入れてもよい。図4では、遅延部15を破線で示している。これにより、特定音の検出に遅延があっても正常に動作する。
Also in the first modification of the first embodiment, when it takes time for the specific sound to be detected by the specific
[[第一実施形態の変形例4]]
図23に例示するように、音響信号処理装置は、第一指向性集音部14にかえて第三指向性集音部52を備えるとともに、雑音方向記憶部51をさらに備えてもよい。
[[Modification 4 of the first embodiment]]
As illustrated in FIG. 23, the acoustic signal processing device may include a third directional sound collecting unit 52 instead of the first directional
音響信号処理方法は、音響信号処理装置が、図24及び以下に説明するステップS31の処理を行うことにより例えば実現される。 The acoustic signal processing method is realized, for example, by the acoustic signal processing device performing the processing of FIG. 24 and step S31 described below.
雑音方向記憶部51には、特定音検出部12で特定音が検出された時刻を除く、方向推定部11で推定された到来方向が記憶される。ここで、特定音が検出された時刻を除くとは、特定音が検出された時刻よりも時系列的に前の時刻であってもよいし時系列的に後の時刻であってもよいし前の時刻と後の時刻両方であってもよい。なお、雑音方向記憶部51の前段かつ方向推定部11の後段に遅延部15を入れてもよいのは言うまでもない。
The noise direction storage unit 51 stores the arrival direction estimated by the
第三指向性集音部52は方向記憶部13から読み込んだ到来方向からの音が強調されるようにかつ雑音方向記憶部51から読み込んだ到来方向からの音が抑圧されるように集音を行う(ステップS52)。第三指向性集音部52による指向性集音の方式は任意である。第三指向性集音部52が行う指向性集音の方式は、例えば参考文献5に記載の方式を用いてもよい。
(参考文献5)浅野太著, 「音のアレイ信号処理」, pp.82-85,コロナ社, 2011.
The third directivity sound collecting unit 52 collects the sound so that the sound from the direction of arrival read from the
(Reference 5) Tadashi Asano, “Sound Array Signal Processing”, pp.82-85, Corona, 2011.
[第二実施形態]
第一実施形態の音響信号処理装置及び方法は、音響信号処理として指向性集音処理を行う。
[Second Embodiment]
The acoustic signal processing apparatus and method according to the first embodiment performs directional sound collection processing as acoustic signal processing.
音響信号処理装置は、図6に示すように、特定音検出部21、方向推定部22、第一指向性集音部23を例えば備えている。音響信号処理装置は、特定音検出部12を備えていなくてもよい。
As shown in FIG. 6, the acoustic signal processing device includes, for example, a specific
音響信号処理方法は、音響信号処理装置が、図11及び以下に説明するステップS21からステップS23の処理を行うことにより例えば実現される。 The acoustic signal processing method is realized, for example, by the acoustic signal processing apparatus performing the processing from step S21 to step S23 described below with reference to FIG.
特定音検出部21は、予め定められた音である特定音を検出する(ステップS21)。予め定められた音の例は、特定のキーワードの音声、口笛及び手拍子である。予め定められた音として、上記の例以外の所定の音が用いられてもよい。
The specific
方向推定部22は、複数のマイクロホンで集音された信号から音の到来方向を推定する(ステップS22)。その際、方向推定部22は、複数のマイクロホンで集音された信号から音の到来方向を、特定音検出部21において特定音が検出された時刻において推定された到来方向に近い方向ほど到来方向であると推定されやすくなるように推定する。
The
すなわち、方向推定部22では、特定音の検出の結果に応じて、各方向への検出されやすさが設定される。言い換えれば、方向推定部22では、特定音の検出時に推定されていた方向に近いほど、方向検出がされやすくなり、遠いほど検出されにくくなる。こうすることにより、特定音を発したユーザに対し指向性が向きやすくなり、雑音源に指向性が向きにくくなる。また、特定音を発したユーザが移動してもそれに追従することができる。
That is, in the
方向推定部22の構成の例を、図7に示す。図7に例示するように、方向推定部22は、方向強調部221、パワー計算部222、重み乗算部223、最大パワー方向検出部224及び重み決定部225を備えている。
An example of the configuration of the
複数のマイクロホンで集音された信号のそれぞれは、方向強調部221に入力される。
Each of the signals collected by the plurality of microphones is input to the
方向強調部221は、複数のマイクロホンで集音された信号に対し、複数の方向をそれぞれ強調するように方向強調処理を行う(ステップS221)。例えば、N個の方向強調部221が設けられている場合には、θ1,θ2,…,θNを互いに異なる方向として、N個の方向強調部221は、それぞれθ1,θ2,…,θNの方向を強調するように方向強調処理を行う。強調された信号は、パワー計算部222に出力される。
The
パワー計算部222は、方向強調部221で強調された信号のパワーを計算する(ステップS222)。計算されたパワーは、重み乗算部223に出力される。
The
重み乗算部223は、パワー計算部222で計算されたパワーに、重み設定部225で設定された重みを乗じる(ステップS223)。重み付与後パワーは、最大パワー方向検出部224に出力される。後述するように、したがって、重み乗算部223は、各到来方向が強調された信号のパワーに、上記各到来方向が上記選択された到来方向に近いほど大きな重みを乗算することにより重み付与後パワーを得る。
The
最大パワー方向検出部224は、重み乗算部223の出力のうち最大パワーの到来方向を選択する。言い換えれば、最大パワー方向検出部224は、重み付与後パワーが最も大きい到来方向を選択し、その選択された到来方向を推定される到来方向とする(ステップS224)。推定された到来方向は、方向推定結果として、重み決定部225及び第一指向性集音部23に出力される。
The maximum power
重み設定部225は、特定音検出部21で特定音が検出された時刻において、最大パワー方向検出部224が出力した方向推定結果に対応する重みを決定する。決定された重みは、重み乗算部223に出力される。言い換えれば、重み設定部225は、特定音の検出がありとなったときに、方向推定結果に対応した重みを設定する。
The
方向推定結果に対応した重みは、推定された到来方向に対する重みが大きくなり、その到来方向から離れるにしたがって、重みが小さくなるように設定される。例えば、推定された到来方向に対する重みを1.0とし、その推定された到来方向から10度ずれるごとに1.0未満の乗数(例えば0.8)を乗じた重みが設定される。 The weight corresponding to the direction estimation result is set such that the weight with respect to the estimated arrival direction increases and the weight decreases as the distance from the arrival direction increases. For example, the weight for the estimated direction of arrival is set to 1.0, and a weight obtained by multiplying a multiplier (for example, 0.8) less than 1.0 is set every time the estimated direction of arrival is deviated by 10 degrees.
第一指向性集音部23は、方向推定部22で推定された到来方向からの音が強調されるように集音を行う(ステップS23)。第一指向性集音部23による指向性集音の方式は任意である。第一指向性集音部23は、例えば特開2009−44588号公報に記載された指向性集音を行う。
The first directivity
このように、特定音が発せられた音源を集音すべき音源と判別して、その音源を指向性集音することで、高SN比で集音することができる。ユーザは、特定のキーワード等の特定音を発することで、指向性の向きを変えることができ、テレビなどの音源が存在している場合でも、自分に対して指向性を向けて、その後固定することができる。 In this way, it is possible to collect sound with a high S / N ratio by discriminating the sound source from which the specific sound is emitted as the sound source to be collected and collecting the sound source with directional sound. The user can change the direction of the directivity by emitting a specific sound such as a specific keyword. Even when a sound source such as a TV is present, the user directs the directivity toward the user and then fixes it. be able to.
なお、特定音検出部21による特定音の検出に時間がかかる場合には、その時間に対応する時間だけ遅延させる遅延部226を最大パワー方向検出部224の後段に入れてもよい。図7では、遅延部226を破線で示している。遅延部226は、特定音検出部21による特定音の検出の時間に対応する時間だけ最大パワー方向検出部224からの出力を遅延させてから重み設定部225に入力する。これにより、特定音の検出に遅延があっても正常に動作する。
When it takes time to detect a specific sound by the specific
[[第二実施形態の変形例1]]
図8に例示するように、音響信号処理装置は、推定頻度計測部227及び選択部228を更に備えていてもよい。
[[Modification 1 of the second embodiment]]
As illustrated in FIG. 8, the acoustic signal processing device may further include an estimated
この場合、最大パワー方向検出部224は、所定の閾値を超えるパワー方向全てを検出することにより、複数方向の同時推定が可能であってもよい。すなわち、最大パワー方向検出部224は、最大パワーの方向を検出し、検出済みの方向を除いて、さらに最大パワーの方向を検出する。最大パワー方向検出部224は、予め設定した最大推定方向数に達するか、最大パワーがあらかじめ設定した閾値以下になった場合に最大パワー検出を終了する。最大パワー方向検出部224は、例えばこのような方法により複数の音源の方向を同時に推定可能であってもよい。これにより、最大パワー方向検出部224は、特定音と同時に雑音源の音もあった場合に、その両方の音源の方向が推定可能となる。
In this case, the maximum power
この場合、どちらの音源で特定音が発せられたかの判別ができなくなってしまうので、推定頻度計測部227が、過去に方向推定がどのくらい行われたかで、その判別を行う。すなわち、推定頻度計測部227は、TV等の音源は常に音が出力されているので、過去に多数の方向推定が行われているものと考えられるので、これを手掛かりに判別する。
In this case, since it becomes impossible to determine which sound source has generated the specific sound, the estimation
推定頻度計測部227は、過去の所定の時間区間における、方向推定部22で推定された到来方向の頻度、言い換えれば、最大パワー方向検出部22で選択された到来方向の頻度を計測する(ステップS16)。すなわち、推定頻度計測部227は、過去一定時間内に、どのくらいの頻度で、その方向が推定されたかを計測する。計測された頻度についての情報は、選択部228に出力される。
The estimated
例えば、過去T秒の間に、最大パワー方向検出部224の出力が方向θであった時間をA(θ)秒とすれば、θ方向の推定頻度は、それらの比D(θ)=A(θ)/Tで求められる。推定頻度計測部227は、この頻度を各方向についてすべて求める。雑音源がテレビや音楽受聴用のスピーカであると想定した場合、長時間、ほとんど無音になることなく、同じ方向から音が発せられることになる。このような音源がθ方向にあった場合、推定頻度D(θ)は1に近い大きな値をとることになる。
For example, if the time during which the output of the maximum
選択部228は、推定頻度計測部227で計測された頻度の中で最も低い頻度の到来方向を選択する。例えば、選択部228は、最大パワー方向検出部22の出力の推定方向が2個であった場合に、推定頻度D(θ)が小さい方を選択する。選択された到来方向は、重み設定部225に出力される。
The
なお、特定音検出部21による特定音の検出に時間がかかる場合には、その時間に対応する時間だけ遅延させる遅延部226を最大パワー方向検出部224の後段に入れてもよい。図8では、遅延部226を破線で示している。遅延部226は、特定音検出部21による特定音の検出の時間に対応する時間だけ最大パワー方向検出部224からの出力を遅延させてから重み設定部225に入力する。これにより、特定音の検出に遅延があっても正常に動作する。
When it takes time to detect a specific sound by the specific
[[第二実施形態の変形例2]]
図9に例示するように、音響信号処理装置は、第二指向性集音部24を更に備えていてもよい。
[[Modification 2 of the second embodiment]]
As illustrated in FIG. 9, the acoustic signal processing device may further include a second directional
特定音検出部21の処理の前に、第二指向性集音部24による指向性集音を行うことで、より高精度な特定音の検出を行うことができる。
By performing the directional sound collection by the second directional
第二指向性集音部24には、複数のマイクロホンで集音された信号を遅延させた信号が入力される。この遅延は、方向推定部22による到来方向の推定処理に必要な時間に対応する時間の長さを持つ。この遅延は、図9に破線で示されている遅延部25により行われる。また、第二指向性集音部24には、方向推定部22で推定された到来方向が入力される。
A signal obtained by delaying signals collected by a plurality of microphones is input to the second directivity
第二指向性集音部24は、方向推定部22で推定された到来方向からの音が強調されるように集音を行う(ステップS24)。より詳細には、第二指向性集音部24は、複数のマイクロホンで集音された信号を遅延させた信号を用いて、方向推定部22で推定された到来方向からの音が強調されるように集音を行う。第二指向性集音部24で集音された信号は、特定音検出部21に出力される。
The second directivity
特定音検出部21は、第二指向性集音部24により集音された信号に基づいて特定音を検出する。その後の処理は、上記と同様である。
The specific
なお、図9に示すように、複数の第二指向性集音部24が音響信号処理装置に備えられていてもよい。この場合、第二指向性集音部24の数と同数の特定音検出部21が音響信号処理装置に備えられている。
In addition, as shown in FIG. 9, the some 2nd directivity
この場合、方向推定部22で複数の到来方向が推定された場合には、特定音検出部21は、推定された複数の到来方向のそれぞれを強調するように動作し、それらの出力がそれぞれ複数の特定音検出部21に入力され、特定音の検出が行われる。
In this case, when a plurality of arrival directions are estimated by the
これにより、複数の特定音検出部21で特定音が検出された場合に、優先順位を付けることが可能となる。
Thereby, when a specific sound is detected by a plurality of
[[第二実施形態の変形例3]]
図10に例示するように、第二実施形態の変形例2において、推定頻度計測部26及び選択部27を音響信号処理装置は更に備えていてもよい。この場合、方向推定部22は、複数方向の同時推定が可能であってもよい。すなわち、方向推定部22は、特定音と同時に雑音源の音もあった場合に、その両方の音源の方向が推定可能であってもよい。
[[Modification 3 of the second embodiment]]
As illustrated in FIG. 10, in Modification 2 of the second embodiment, the acoustic signal processing device may further include an estimated frequency measurement unit 26 and a selection unit 27. In this case, the
推定頻度計測部26及び選択部27の処理は、第一実施形態の変形例1で説明したものと同様である。 The processes of the estimation frequency measurement unit 26 and the selection unit 27 are the same as those described in the first modification of the first embodiment.
すなわち、推定頻度計測部26は、過去の所定の時間区間における、方向推定部22で推定された到来方向の頻度を計測する(ステップS26)。すなわち、推定頻度計測部26は、過去一定時間内に、どのくらいの頻度で、その方向が推定されたかを計測する。計測された頻度についての情報は、選択部27に出力される。
That is, the estimated frequency measuring unit 26 measures the frequency of the arrival direction estimated by the
例えば、過去T秒の間に、方向推定部22の出力が方向θであった時間をA(θ)秒とすれば、θ方向の推定頻度は、それらの比D(θ)=A(θ)/Tで求められる。推定頻度計測部26は、この頻度を各方向についてすべて求める。雑音源がテレビや音楽受聴用のスピーカであると想定した場合、長時間、ほとんど無音になることなく、同じ方向から音が発せられることになる。このような音源がθ方向にあった場合、推定頻度D(θ)は1に近い大きな値をとることになる。
For example, if the time during which the output of the
選択部27は、推定頻度計測部26で計測された頻度の中で最も低い頻度の到来方向を選択する(ステップS27)。例えば、選択部27は、方向推定部22の出力の推定方向が2個であった場合に、推定頻度D(θ)が小さい方を選択する。特定音検出部21で特定音が検出された時刻における、選択部27で選択された到来方向は、方向推定部22に出力され、方向推定部22により推定された到来方向とされる。
The selection unit 27 selects the arrival direction with the lowest frequency among the frequencies measured by the estimated frequency measurement unit 26 (step S27). For example, when there are two estimated directions of the output of the
その後、第一指向性集音部23は、上記と同様にして、方向推定部22により推定された到来方向からの音が強調されるように集音を行う。
Thereafter, the first directivity
[第三実施形態]
第三実施形態の音響信号処理装置及び方法は、音響信号処理として音声区間の検出を行う。
[Third embodiment]
The acoustic signal processing apparatus and method according to the third embodiment detect a voice section as acoustic signal processing.
<第三実施形態のポイント>
本実施形態では、利用者の発話内容を絞り込むことで、利用環境(雑音など)の情報をより正しく得る。例えば、利用者が発話を始める前に特定の単語(キーワード)を発するように制限する。その際に、その特定の単語音声のみを高精度に検出できるようにしておき、「その区間は音声」「その前の区間は雑音」と仮定する。そして、その雑音区間と音声区間の音声を利用して、「音声/非音声」の判定のための情報を更新する。
<Points of third embodiment>
In the present embodiment, by narrowing down the user's utterance content, information on the usage environment (noise, etc.) can be obtained more correctly. For example, the user is restricted to utter a specific word (keyword) before starting to speak. At that time, it is assumed that only the specific word speech can be detected with high accuracy, and that “the section is speech” and “the previous section is noise”. Then, the information for the determination of “voice / non-voice” is updated using the voice of the noise section and the voice section.
そうすることで、その後に発せられる目的の音声の区間を判定する際に、より実利用環境に即した「雑音」と「音声」の情報が利用でき、区間検出の精度が向上する。 By doing so, when determining a section of a target speech to be subsequently issued, information on “noise” and “speech” more suited to the actual usage environment can be used, and the accuracy of section detection is improved.
以下、音響信号処理装置・方法の実施形態を説明する。音響信号処理装置は、例えば専用のハードウェアで構成された専用機やパーソナルコンピュータのような汎用機といったコンピュータで実現される。ここではコンピュータ(汎用機)で実現する場合として説明する。 Hereinafter, embodiments of the acoustic signal processing apparatus and method will be described. The acoustic signal processing apparatus is realized by a computer such as a dedicated machine configured by dedicated hardware or a general-purpose machine such as a personal computer. Here, description will be made on the case where it is realized by a computer (general-purpose machine).
音響信号処理装置のハードウェア構成例を説明する。 A hardware configuration example of the acoustic signal processing device will be described.
音響信号処理装置は、キーボード、ポインティングデバイスなどが接続可能な入力部と、液晶ディスプレイ、CRT(Cathode Ray Tube)ディスプレイなどが接続可能な出力部と、音響信号処理装置外部に通信可能な通信装置(例えば通信ケーブル、LANカード、ルータ、モデムなど)が接続可能な通信部と、CPU(Central Processing Unit)〔DSP(Digital Signal Processor)でも良い。またキャッシュメモリやレジスタなどを備えていてもよい。〕と、メモリであるRAM、ROMや、ハードディスク、光ディスク、半導体メモリなどである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、音響信号処理装置に、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)、DVD(Digital Versatile Disc)などの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。 The acoustic signal processing device consists of an input unit to which a keyboard, pointing device, etc. can be connected, an output unit to which a liquid crystal display, a CRT (Cathode Ray Tube) display, etc. can be connected, and a communication device that can communicate outside the acoustic signal processing device ( For example, a communication unit to which a communication cable, a LAN card, a router, a modem, or the like) can be connected and a CPU (Central Processing Unit) [DSP (Digital Signal Processor) may be used. A cache memory, a register, or the like may be provided. ] RAM, ROM, which is a memory, external storage devices such as hard disks, optical disks, semiconductor memories, etc., and the exchange of data between these input units, output units, communication units, CPU, RAM, ROM, external storage devices It has a bus that connects as possible. If necessary, the acoustic signal processing device may be provided with a device (drive) capable of reading and writing storage media such as a flexible disk, a CD-ROM (Compact Disc Read Only Memory), and a DVD (Digital Versatile Disc).
また、音響信号処理装置には、例えば音声、音楽、雑音などの音を受音する音響信号収音手段(例えばマイクロホン)を接続可能であって、マイクロホンによって得られた(アナログ)信号の入力を受ける信号入力部、および、再生信号を音として出力する音響出力装置(例えばスピーカ)を接続可能であって、スピーカに入力する信号(再生信号をD/A変換したもの)を出力するための信号出力部を設ける構成とすることも可能である。この場合、信号入力部にはマイクロホンが接続され、信号出力部にはスピーカが接続する。 The acoustic signal processing apparatus can be connected to an acoustic signal collecting means (for example, a microphone) that receives sound such as voice, music, and noise, and inputs an (analog) signal obtained by the microphone. A signal input unit for receiving and a sound output device (for example, a speaker) that outputs a reproduction signal as sound can be connected, and a signal for outputting a signal (a D / A converted version of the reproduction signal) input to the speaker A configuration in which an output unit is provided is also possible. In this case, a microphone is connected to the signal input unit, and a speaker is connected to the signal output unit.
音響信号処理装置の外部記憶装置には、音声区間検出のためのプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくなどでもよい。〕。また、このプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。以下、データやその格納領域のアドレスなどを記憶する記憶手段を単に「○○記憶部」と呼ぶことにする。 The external storage device of the acoustic signal processing device stores a program for detecting a voice section and data necessary for processing of the program [not limited to the external storage device, for example, the program is read using a read-only storage device. It may be stored in a certain ROM. ]. Further, data obtained by the processing of this program is appropriately stored in a RAM, an external storage device, or the like. Hereinafter, the storage means for storing the data, the address of the storage area, and the like will be simply referred to as “XX storage unit”.
この実施形態では、主記憶部に、音響信号に含まれる音声区間よりも時系列的に前の区間の信号を取得するために、離散信号である音響信号を記憶しておく。この記憶はバッファ等の一時的な記憶でもよい。 In this embodiment, an acoustic signal that is a discrete signal is stored in the main storage unit in order to acquire a signal in a section that is earlier in time series than the speech section included in the acoustic signal. This storage may be temporary storage such as a buffer.
<音響信号処理装置の構成>
図13は第三実施形態に係る音響信号処理装置の機能ブロック図を、図14はその処理フローを示す。
<Configuration of acoustic signal processing apparatus>
FIG. 13 is a functional block diagram of the acoustic signal processing apparatus according to the third embodiment, and FIG. 14 shows the processing flow.
音響信号処理装置は、音声区間検出部320と、音声区間検出情報蓄積部330とを含む。
The acoustic signal processing device includes a speech
音響信号処理装置は、1つのマイクロホン310で収音された時系列音響信号と、特定音声区間検出部340の出力値とを入力とし、時系列音響信号に含まれる音声区間と非音声区間との少なくとも何れかを検出し、検出結果を出力する。
The acoustic signal processing device receives the time-series acoustic signal collected by one
なお、特定音声区間検出部340は、あらかじめ定められた音(以下「特定音」ともいう)が来たことを検知し、特定音の検出時刻を示す情報を出力する。本実施形態では、特定音は人が発する所定の音声であり、例えば、人が所定のキーワードを発した際の音声である。たとえば参考文献1のような「フレーズスポッティング」などの技術を利用して特定音声区間検出部340を実装することができる。
(参考文献1)「センサリ社音声技術説明」、[online]、2010年、[平成29年7月24日検索]、インターネット<URL:http://www.sensory.co.jp/Parts/Docs/SensoryTechnologyJP1003B.pdf>
なお、特定音の検出時刻を示す情報は、少なくとも特定音(例えばキーワード)を言い終わった時刻を示す情報であり、(1-i)特定音を言い終わった時刻そのものを出力してもよいし、(1-ii)特定音を言い終わった時刻に対応する時系列音響信号のフレーム番号を出力してもよいし、(1-iii)特定音を言い終わった時刻以外のフレーム時刻において検出していないことを示す情報(例えば「0」)を出力し、特定音を言い終わった時刻において検出したことを示す情報(例えば「1」)を出力することで特定音を言い終わった時刻を示す情報であってもよく、その他の特定音を言い終わった時刻を示す情報であってもよい。また、特定音の検出時刻を示す情報は、特定音を言い始めた時刻を示す情報を含んでもよく、(2-i)特定音を言い始めた時刻及び言い終わった時刻そのものを出力してもよいし、(2-ii)特定音を言い始めた時刻及び言い終わった時刻に対応する時系列音響信号のフレーム番号を出力してもよいし、(2-iii)特定音を言い始めた時刻から言い終わった時刻までにおいて検出したことを示す情報(例えば「1」)を出力し、それ以外の時刻において検出していないことを示す情報(例えば「0」)を出力することで特定音を言い終わった時刻を示す情報であってもよく、その他の特定音を言い終わった時刻を示す情報であってもよい。
The specific voice
(Reference 1) “Sensory's Voice Technology Description” [online], 2010, [searched July 24, 2017], Internet <URL: http://www.sensory.co.jp/Parts/Docs /SensoryTechnologyJP1003B.pdf>
Note that the information indicating the detection time of the specific sound is information indicating at least the time when the specific sound (for example, a keyword) is finished, and (1-i) the time when the specific sound is finished may be output. (1-ii) The frame number of the time-series sound signal corresponding to the time when the specific sound is finished may be output, or (1-iii) it is detected at a frame time other than the time when the specific sound is finished. Information indicating that the specific sound has not been output (for example, “0”), and information indicating that the specific sound has been detected (for example, “1”) is output to indicate the time when the specific sound has been ended It may be information, or information indicating the time when the other specific sound is finished. Further, the information indicating the detection time of the specific sound may include information indicating the time when the specific sound is started, or (2-i) the time when the specific sound is started and the time when the specific sound is finished may be output. (2-ii) The time when the specific sound started and the frame number of the time-series sound signal corresponding to the time when the specific sound ended may be output, or (2-iii) the time when the specific sound started To output information (eg, “1”) indicating that it has been detected up to the time when it is finished, and to output information (eg, “0”) indicating that it has not been detected at other times. It may be information indicating the time when the user has finished speaking, or may be information indicating the time when the other specific sound is ended.
以下、各部の処理内容を説明する。 Hereinafter, the processing content of each part is demonstrated.
<音声区間検出情報蓄積部330>
音声区間検出情報蓄積部330は、特定音の検出時刻を示す情報と時系列音響信号とを入力とし、フレーム単位で特定音音声区間に対応する時系列音響信号の特徴量と、非音声区間に対応する時系列音響信号の特徴量とを求め(S330)、出力する。なお、音声区間検出情報蓄積部330を含む各部において各処理はフレーム単位で行われる。
<Audio section detection
The voice section detection
図15に示すように、音声区間検出情報蓄積部330は、音声蓄積部331と、特定音音声区間算出部332と、特徴量算出部333とを含む。以下、各部の処理内容を説明する。
As shown in FIG. 15, the speech segment detection
(音声蓄積部331)
音声蓄積部331は、音声区間検出対象の時系列音響信号を受け取り、蓄積する。
(Voice storage unit 331)
The
(特定音音声区間算出部332)
特定音音声区間算出部332は、特定音の検出時刻を示す情報を入力とし、検出時刻に基づき特定音に対応する区間と推定される時系列音響信号の区間を特定音音声区間とし、検出時刻に基づき特定音に対応する区間ではないと推定される時系列音響信号の区間を非音声区間と判定し、特定音音声区間を示す情報、非音声区間を示す情報を出力する。例えば、特定音の検出時刻(この例では、特定音を言い終わった時刻)の前のt1秒間を特定音音声区間とし、特定音音声区間の前のt2秒間を非音声区間と判定する(図16参照)。
(Specific sound voice section calculation unit 332)
The specific sound speech
例えば、特定音の検出時刻を示す情報として、特定音を言い終わったフレーム時刻(例えばtとする)を示す情報のみを含む場合、t1、t2を予め所定の値にそれぞれ設定しておき、特定音の検出時刻を示す情報から特定音音声区間(t-t1からtまで)と非音声区間(t-t1-t2からt-t1まで)とを求める。t1としては特定音を発した際にかかる時間の平均値等を用いてもよい。また、特定音の検出時刻を示す情報として、特定音を言い始めた時刻及び言い終わった時刻(例えばtとする)を示す情報を含む場合、特定音を言い始めた時刻をt-t1とし、特定音音声区間を特定音を言い始めた時刻t-t1から言い終わった時刻tまでとする。また、t2を予め所定の値に設定しておき、所定の値t2と、特定音を言い始めた時刻t-t1とから非音声区間(t-t1-t2からt-t1まで)を求める。 For example, if the information indicating the detection time of the specific sound includes only information indicating the frame time when the specific sound is finished (for example, t), t 1 and t 2 are set to predetermined values in advance. Then, the specific sound speech section (from tt 1 to t) and the non-speech section (from tt 1 -t 2 to tt 1 ) are obtained from the information indicating the detection time of the specific sound. As t 1 , an average value of time taken when a specific sound is emitted may be used. In addition, when the information indicating the specific sound detection time includes information indicating the time when the specific sound is started and the time when the specific sound is ended (for example, t), the time when the specific sound is started is defined as tt 1 The sound voice section is defined as from the time tt 1 at which the specific sound starts to the time t at which the specific sound ends. In addition, t 2 is set to a predetermined value in advance, and a non-speech interval (from tt 1 -t 2 to tt 1 ) is obtained from the predetermined value t 2 and the time tt 1 at which the specific sound is started.
(特徴量算出部333)
特徴量算出部333は、特定音音声区間算出部332から特定音音声区間を示す情報、非音声区間を示す情報を受け取り、音声蓄積部331に蓄積された音声区間検出対象の時系列音響信号を受け取る。そして、特徴量算出部333は、時系列音響信号と特定音音声区間とを対応付け、時系列音響信号と非音声区間とを対応付け、特定音音声区間に対応する時系列音響信号からその特徴量である音声区間特徴量を算出し、非音声区間に対応する時系列音響信号からその特徴量である非音声区間特徴量を算出し、音声区間特徴量及び非音声区間特徴量を出力する。特徴量としては、例えば、対数メルスペクトルやケプストラム係数などを用いることができる。但し、第二音響信号分析部322が用いる音響特徴量(基本周波数)以外の音響特徴量とするのがよい。特徴量の算出方法としては、どのような方法を用いてもよい。例えば、参考文献4に記載の方法を用いる。
(参考文献4)特開2009−63700号公報
(Feature amount calculation unit 333)
The feature
(Reference 4) JP 2009-63700 A
<音声区間検出部320>
音声区間検出部320は、マイクロホン310から時系列音響信号を受け取り、特徴量算出部333から音声区間特徴量と非音声区間特徴量とを受け取る。音声区間検出部320は、音声区間特徴量から音声区間の特徴を示す音声パラメータを求め、非音声区間特徴量から非音声区間の特徴を示す非音声パラメータを求め、音声パラメータと非音声パラメータとを用いて時系列音響信号から音声区間と非音声区間との少なくとも何れかを検出し(S320)、検出結果を出力する。
<Audio
The voice
例えば、音声区間検出部320は、音声区間を推定する際に用いられる音響モデルのパラメータである音声パラメータを音声区間特徴量から求め、非音声区間を推定する際に用いられる音響モデルのパラメータである非音声パラメータを非音声区間特徴量から求める。
For example, the speech
例えば、音声区間検出部320に参考文献4の音声区間検出装置を利用することができる。この場合、音声パラメータは音声GMMのパラメータであり、非音声パラメータは非音声GMMのパラメータである。
For example, the speech segment detection device of Reference 4 can be used for the speech
図17に示すように、音声区間検出部320は、入力の時系列音響信号に対して並列カルマンフィルタ/並列カルマンスムーザを用いて確率計算を行う第一音響信号分析部321と、時系列音響信号の周期性成分と非周期性成分の比を用いて確率計算を行う第二音響信号分析部322と、それぞれの確率の重みを計算する重み算出部323と、算出された重みを用いて、時系列音響信号が音声状態に属する合成確率と非音声状態に属する合成確率を算出し、それぞれの比を求める音声状態/非音声状態合成確率比算出部324と、音声状態/非音声状態合成確率比に基づき音声/非音声識別を行う音声区間推定部325とを含む。なお、第一音響信号分析部321以外の構成については、参考文献4と同様の処理を行うため説明を省略する。
As shown in FIG. 17, the speech
第一音響信号分析部321へ入力される時系列音響信号は、例えば8,000Hzのサンプリングレートでサンプリングされ、離散信号に変換された音響信号である。この音響信号は、目的信号である音声信号に雑音信号が重畳した音となっている。以下、音響信号を「入力信号」、音声信号を「クリーン音声」、雑音信号を「雑音」と呼ぶ。
The time-series acoustic signal input to the first acoustic
音声区間検出部320は、入力信号、音声区間特徴量及び非音声区間特徴量を受けて、音声区間検出結果を出力する。音声区間検出結果は、フレーム単位の音響信号が音声状態に属すれば1を、非音声状態に属すれば0を取る。音声区間検出部320は、音声区間検出結果の値を入力信号にかけ合わせた信号を出力してもよい。すなわち、音声状態に属するフレームの入力信号の値は保持され、非音声状態に属するフレームでは、信号の値が全て0に置換される。
The speech
<第一音響信号分析部321>
第一音響信号分析部321は、図18に示すように、入力信号、音声区間特徴量及び非音声区間特徴量を受けて、音声区間検出に用いる音響特徴量を抽出するための特徴量算出部3211と、確率モデルパラメータを推定し、得られた確率モデルパラメータにより構成される確率モデルを用いた入力信号の確率計算を行うための、確率推定部3212とを含む。
<First acoustic
As shown in FIG. 18, the first acoustic
(特徴量算出部3211)
特徴量算出部3211は、特徴量算出部333と同様の方法により、入力信号からその特徴量を算出し、出力する。例えば、24次元の対数メルスペクトルを要素に持つベクトルGt={gt,0,…,gt,φ,…,gt,23}を算出し、これを出力する。ベクトルGtは、切り出しの始点の時刻がtのフレームにおける音響特徴量を表す。φはベクトルの要素番号を示す。以下、tをフレーム時刻と呼ぶことにする。
(Feature amount calculation unit 3211)
The feature
(確率推定部3212)
特徴量算出部3211の出力である24次元の対数メルスペクトルは、確率推定部3212の入力となる。確率推定部3212は、入力されたフレームに対して並列非線形カルマンフィルタ、および並列カルマンスムーザを適用し、雑音パラメータを推定する。推定された雑音パラメータを用いて、非音声(雑音+無音)、および、音声(雑音+クリーン音声)の確率モデルを生成し、対数メルスペクトルを各確率モデルに入力した際の確率を計算する。
(Probability estimation unit 3212)
The 24-dimensional log mel spectrum, which is the output of the feature
確率推定部3212は図19に示すように、前向き推定部3212−1と、後ろ向き推定部3212−2と、GMM(Gaussian Mixture Model)記憶部3212−3と、パラメータ記憶部3212−4を含む。なお、後ろ向き推定部3212−2については、参考文献4と同様の処理を行うため説明を省略する。
As shown in FIG. 19, the
GMM記憶部3212−3は、あらかじめ用意した無音信号とクリーン音声信号の各音響モデルである無音GMMおよびクリーン音声GMMを記憶する。以下、無音GMMおよびクリーン音声GMMを単にGMMなどと表記する。GMMの構成方法は公知の技術であるので、説明を省略する。GMMはそれぞれ複数の正規分布(たとえば32個)を含有しており、それぞれの正規分布は、混合重みwj,k 、平均μS,j,k,φ、分散ΣS,j,k,φをパラメータとして構成され、jはGMMの種別(j=0:無音GMM,j=1:クリーン音声GMM)、kは各正規分布の番号を示す。各パラメータは、前向き推定部3212−1と後向き推定部3212−2への入力となる。 The GMM storage unit 3212-3 stores a silence GMM and a clean sound GMM, which are acoustic models of a silence signal and a clean sound signal prepared in advance. Hereinafter, the silent GMM and the clean voice GMM are simply referred to as GMM or the like. Since the GMM configuration method is a known technique, a description thereof will be omitted. Each GMM contains a plurality of normal distributions (for example, 32), and each normal distribution has a mixture weight w j, k , mean μ S, j, k, φ , variance Σ S, j, k, φ Where j is the GMM type (j = 0: silent GMM, j = 1: clean speech GMM), and k is the number of each normal distribution. Each parameter becomes an input to the forward estimation unit 3212-1 and the backward estimation unit 3212-2.
パラメータ記憶部3212−4は、初期雑音モデル推定用バッファと、雑音モデル推定用バッファとを含む。 The parameter storage unit 3212-4 includes an initial noise model estimation buffer and a noise model estimation buffer.
[前向き推定部3212−1]
前向き推定部3212−1における処理内容が参考文献4とは異なる。
[Forward estimation unit 3212-1]
The processing content in the forward estimation unit 3212-1 is different from that in Reference Document 4.
参考文献4では、前向き推定部において雑音モデルのパラメータ^Nt,j,k,φ、^ΣN,t,j,k,φを処理の開始時刻から逐次更新で求めていくが、入力されている音が音声か非音声(雑音)かは定めずに非音声・音声GMMのパラメータを更新している。それに対し、本実施形態では、非音声区間と音声区間とが判明しているため、その情報をより積極的に活用してパラメータを更新している。つまり、非音声区間の音声特徴量を利用して非音声GMMのパラメータを更新し、音声区間の音声特徴量を利用して音声GMMのパラメータを更新する。以下に処理例を示す。 In Reference 4, the forward estimation unit obtains the noise model parameters ^ N t, j, k, φ and ^ Σ N, t, j, k, φ by sequential updating from the processing start time. The parameters of the non-speech / speech GMM are updated without determining whether the sound is voice or non-speech (noise). On the other hand, in the present embodiment, since the non-speech section and the speech section are known, the information is updated more actively to update the parameters. That is, the parameters of the non-speech GMM are updated using the speech feature amount of the non-speech segment, and the parameters of the speech GMM are updated using the speech feature amount of the speech segment. A processing example is shown below.
まず、前向き推定部3212−1は、非音声区間に対応するフレーム時刻t-t1-t2からt-t1までの特徴量gt-t_1-t_2,φ,…,gt-t_1,φを用いて、非音声GMM(j=0)のパラメータを更新する。ただし、下付き添え字t_1、t_2はそれぞれt1,t2を意味する。 First, the forward estimation unit 3212-1 uses the feature quantities g t-t_1 -t_2, φ 1 ,..., G t-t_1, φ from the frame times tt 1 -t 2 to tt 1 corresponding to the non-speech section. The non-voice GMM (j = 0) parameter is updated. However, subscripts t_1 and t_2 mean t 1 and t 2 , respectively.
前向き推定部3212−1は、初期雑音モデル推定用バッファに、非音声区間特徴量(この例では対数メルスペクトルgt,φとする)のうち、qフレーム分の非音声区間特徴量gt-t_1-t_2,φ,…,gt-t_1-t_2-1+q-1,φを記憶する。ただし、qは非音声区間の長さt2を超えない1以上の整数とし、例えばq=10とする。 The forward estimation unit 3212-1 stores q speech non-speech segment feature amount g t− out of non-speech segment feature amount (in this example, log mel spectrum g t, φ ) in the initial noise model estimation buffer. t_1-t_2, φ ,..., g t-t_1-t_2-1 + q-1, φ are stored. However, q is an integer of 1 or more that does not exceed the length t 2 of the non-speech interval, for example, q = 10.
前向き推定部3212−1は、初期雑音モデル推定用バッファからqフレーム分の特徴量gt-t_1-t_2,φ,…,gt-t_1-t_2-1+q-1,φを取り出す。初期の雑音モデルパラメータNinit φ,Σinit N,φを下記各式で推定し、これらを雑音モデル推定用バッファに記憶する。 The forward estimation unit 3212-1 extracts q frame feature quantities g t-t — 1 — t — 2 ,..., G t — t — 1 — t — 2 + q−1, φ from the initial noise model estimation buffer. The initial noise model parameters N init φ and Σ init N, φ are estimated by the following equations and stored in the noise model estimation buffer.
また、フレーム時刻t-t1-t2+qからt-t1までの特徴量gt-t_1-t_2+q,φ,…,gt-t_1,φを用いて、非音声GMM(j=0)のパラメータを更新する。なお、非音声GMMのパラメータの更新方法、更新式は参考文献4と同様である。 Also, using the feature quantities g t-t_1-t_2 + q, φ ,..., G t-t_1, φ from the frame times tt 1 -t 2 + q to tt 1 , the non-voice GMM (j = 0) Update parameters. The non-voice GMM parameter update method and update formula are the same as in Reference Document 4.
次に、前向き推定部3212−1は、音声区間に対応するフレーム時刻t-t1+1からtまでの特徴量gt-t_1+1,φ,…,gt,φを用いて、音声GMM(j=1)のパラメータを更新する。なお、非音声区間の最後のフレームを用いて更新したパラメータを、音声区間の最初のパラメータとする。つまり、 Next, the forward estimation unit 3212-1 uses the feature values g t-t_1 + 1, φ ,..., G t, φ from the frame times tt 1 +1 to t corresponding to the speech section, to generate the speech GMM ( Update the parameter of j = 1). Note that the parameter updated using the last frame of the non-speech segment is the first parameter of the speech segment. That means
とする。さらに、特徴量gt-t_1+1,φ,…,gt,φを用いて、音声GMM(j=1)のパラメータを更新する。なお、音声GMMのパラメータの更新方法、更新式は参考文献4と同様である。 And Further, the parameters of the speech GMM (j = 1) are updated using the feature quantities g t-t_1 + 1, φ ,..., G t, φ . Note that the method and formula for updating the parameters of the voice GMM are the same as in Reference Document 4.
なお、フレーム時刻t以降は、従来技術と同様に、入力信号の特徴量を用いて、音声/非音声GMMのパラメータを更新する。 Note that after the frame time t, the parameters of the voice / non-voice GMM are updated using the feature amount of the input signal, as in the prior art.
音声区間検出部320は、非音声区間の音声特徴量を利用して更新した非音声GMMのパラメータと、音声区間の音声特徴量を利用して更新した音声GMMのパラメータとに基づき、フレーム時刻t以降において、入力信号の特徴量を用いて音声/非音声GMMのパラメータを更新し、その結果得られるパラメータを用いて音声/非音声を判定する。そのため、音声か非音声(雑音)かは定めずに非音声・音声GMMのパラメータを更新する従来技術と比較して、その判定精度を向上させることができる。
The speech
なお、上述の処理は、最初に特徴量算出部333から音声区間特徴量と非音声区間特徴量とを受け取ったときのみ行ってもよいし、特徴量算出部333から音声区間特徴量と非音声区間特徴量とを受け取る度に行ってもよい。また、特徴量算出部333から音声区間特徴量と非音声区間特徴量とを受け取る度に行う場合、毎回、(a)初期の雑音モデルパラメータNinit φ,Σinit N,φを求める処理や(b)非音声区間の最後のフレームを用いて更新したパラメータを音声区間の最初のパラメータとする処理を含む全ての処理を繰り返してもよいし、2回目以降の処理においては上述の(a)や(b)の処理を行わずに音声区間特徴量と非音声区間特徴量とを受け取った時点のパラメータをそのまま用いて、非音声区間に対応するフレーム時刻t-t1-t2からt-t1までの特徴量gt-t_1-t_2,φ,…,gt-t_1,φを用いて非音声GMM(j=0)のパラメータを更新し、音声区間に対応するフレーム時刻t-t1+1からtまでの特徴量gt-t_1,φ,…,gt,φを用いて、音声GMM(j=1)のパラメータを更新してもよい。
Note that the above-described processing may be performed only when the speech segment feature amount and the non-speech segment feature amount are first received from the feature
<効果>
以上の構成により、対象者(ユーザ)の特定の発話に対してキーワード検出を行った結果を利用して、目的音声を含む周囲の音響環境に関する情報をより正確に知ることができ、音声区間検出の信号処理が頑健になる。特に、認識したい音声と雑音とが近しい特性を持つ場合であっても、従来よりも高精度で音声区間と非音声区間との少なくとも何れかを検出することができる。
<Effect>
With the above configuration, using the result of keyword detection for a specific utterance of the target person (user), information about the surrounding acoustic environment including the target voice can be known more accurately, and voice segment detection The signal processing becomes robust. In particular, even when the speech to be recognized and the noise are close to each other, it is possible to detect at least one of the speech segment and the non-speech segment with higher accuracy than in the past.
なお、1つのマイクロホン310や特定音声区間検出部340を音響信号処理装置の一部としてもよい。また、本実施形態では、音声区間、非音声区間を推定する際に用いられる音響モデルとしてGMMを用いたが、HMM(Hidden Markov Model)等の他の音響モデルを用いてもよい。その場合にも、本実施形態と同様に、音声パラメータ、非音声パラメータをそれぞれ音声区間特徴量、非音声区間特徴量から求めればよい。
Note that one
<第三実施形態の第一変形例>
第三実施形態と異なる部分を中心に説明する。
<First Modification of Third Embodiment>
A description will be given centering on differences from the third embodiment.
第三実施形態では、特徴量としては、対数メルスペクトルやケプストラム係数などを用いたが、他の特徴量を用いてもよい。本変形例では、より単純に音声のレベルを判定に用いる場合を考える。 In the third embodiment, a log mel spectrum, a cepstrum coefficient, or the like is used as the feature quantity, but other feature quantities may be used. In this modification, the case where the level of sound is used for determination will be considered more simply.
本実施形態では、特徴量として平均パワーを用いる。そのため、特徴量算出部333では、特定音音声区間に対応する時系列音響信号からその平均パワーを算出し音声区間特徴量として出力し、非音声区間に対応する時系列音響信号からその平均パワーを算出し非音声区間特徴量として出力する。
In the present embodiment, average power is used as the feature amount. Therefore, the feature
<音声区間検出部320>
音声区間検出部320は、音声蓄積部331に蓄積された音声区間検出対象の時系列音響信号を受け取り、特徴量算出部333から音声区間特徴量と非音声区間特徴量とを受け取る。音声区間検出部320は、音声区間特徴量から音声区間の特徴を示す音声パラメータを求め、非音声区間特徴量から非音声区間の特徴を示す非音声パラメータを求め、音声パラメータと非音声パラメータとを用いて時系列音響信号から音声区間と非音声区間との少なくとも何れかを検出し(S320)、検出結果を出力する。
<Audio
The voice
図20に示すように、音声区間検出部320は、音声パワー計算部326と、音声/非音声判定部327と、非音声レベル記憶部328と、音声レベル記憶部329とを含む。
As shown in FIG. 20, the voice
音声パワー計算部326は、音声蓄積部331に蓄積された音声区間検出対象の時系列音響信号を受け取り、時系列音響信号のフレームn毎の平均パワーP(n)を計算し、出力する。
The voice
例えば、
P(n)>γV、 かつ P(n)>δN
を満たす場合に、その区間を音声区間と判定する方法が考えられる。nはフレーム時刻を表すインデックス、N,Vはそれぞれ非音声レベル記憶部328、音声レベル記憶部329に格納されている非音声区間のパワー閾値、音声区間のパワー閾値、γは0以上1以下、δは1以上の実数とする。音声区間の信号のレベルにある程度近い値(γV)より大きく、非音声区間(例えば雑音)の信号のレベルより十分大きい値(δN)よりも大きい場合に音声区間である、と判定する。この場合、あらかじめ格納してある非音声と音声の情報(V、N)と実際の音声区間、非音声区間の信号のレベルが異なる場合に正しく動作しない。またそれぞれの情報(V、N)を時系列音響信号に応じて逐次更新をしていくことも考えられるが、どの区間が非音声または音声かわからないまま更新をするため誤った方向へ値が更新されるリスクがある。
For example,
P (n)> γV and P (n)> δN
If the condition is satisfied, a method of determining the section as a speech section is conceivable. n is an index representing a frame time, N and V are non-voice level power thresholds stored in the non-voice
本実施形態では、音声区間特徴量(音声区間の平均パワー)と非音声区間特徴量(非音声区間の平均パワー)とを用いて、パワー閾値V、Nを変更する。 In the present embodiment, the power thresholds V and N are changed using the speech segment feature value (average power of the speech segment) and the non-speech segment feature value (average power of the non-speech segment).
音声/非音声判定部327は、非音声レベル記憶部328、音声レベル記憶部329からそれぞれパワー閾値V、Nを取り出し、音声パワー計算部326から平均パワーP(n)を受け取り、特徴量算出部333から特定音音声区間に対応する時系列音響信号の平均パワーPvと非音声区間に対応する時系列音響信号の平均パワーPnとを受け取る。
The voice /
音声/非音声判定部327は、パワー閾値V、Nを次式により、それぞれ平均パワーPv、Pnを考慮したパワー閾値V'、N'に置換える。
N’ = (1-α)N + αPn
V’ = (1-β)V + βPv
なおα、βは検出した音声・非音声区間の寄与率を決定するパラメータ(0<α<1、 0<β<1)を表す。音声/非音声判定部327は、
P(n)>γV'、 かつ P(n)>δN'
を満たす場合に、そのフレームnに対応する区間を音声区間として検出し、満たさない場合に、そのフレームnに対応する区間を非音声区間として検出し、検出結果を出力する。
The voice /
N '= (1-α) N + αPn
V '= (1-β) V + βPv
Α and β represent parameters (0 <α <1, 0 <β <1) for determining the contribution ratio of the detected speech / non-speech interval. The voice /
P (n)> γV 'and P (n)>δN'
If the condition is satisfied, the section corresponding to the frame n is detected as a speech section. If not satisfied, the section corresponding to the frame n is detected as a non-speech section, and the detection result is output.
本実施形態の場合、V'が音声区間の特徴を示す音声パラメータに相当し、N'が非音声区間の特徴を示す非音声パラメータに相当する。 In the present embodiment, V ′ corresponds to a speech parameter indicating a feature of a speech segment, and N ′ corresponds to a non-speech parameter indicating a feature of a non-speech segment.
<効果>
以上の構成により、より実際の状況に即したレベル判定が行うことができ、第三実施形態と同様の効果を得ることができる。
<Effect>
With the above configuration, level determination can be performed in accordance with the actual situation, and the same effect as in the third embodiment can be obtained.
<第三実施形態の第二変形例>
第三実施形態と異なる部分を中心に説明する。
<Second Modification of Third Embodiment>
A description will be given centering on differences from the third embodiment.
図13は第三実施形態に係る音響信号処理装置の機能ブロック図を、図14はその処理フローを示す。 FIG. 13 is a functional block diagram of the acoustic signal processing apparatus according to the third embodiment, and FIG. 14 shows the processing flow.
音響信号処理装置は、音声区間検出部320と、音声区間検出情報蓄積部330と、前処理部350とを含む。
The acoustic signal processing device includes a speech
<前処理部350>
前処理部350は、時系列音響信号を入力とし、時系列音響信号に含まれる音声を強調する処理(音声強調処理)を行い(S350)、強調後の時系列音響信号を出力する。音声強調処理としては、どのような方法を用いてもよい。例えば、参考文献2に記載の雑音抑圧方法を用いる。
(参考文献2)特開2009−110011号公報
<
The
(Reference Document 2) Japanese Patent Laid-Open No. 2009-11001
<効果>
以上の構成により、第三実施形態と同様の効果を得ることができる。さらに、音声強調処理を施した時系列音響信号を用いて後段の処理(S330、S320)を行うことで、その検出精度を向上させることができる。
<Effect>
With the above configuration, the same effect as that of the third embodiment can be obtained. Furthermore, the detection accuracy can be improved by performing subsequent processing (S330, S320) using the time-series acoustic signal subjected to the speech enhancement processing.
<第三実施形態の第三変形例>
第三実施形態と異なる部分を中心に説明する。
<Third Modification of Third Embodiment>
A description will be given centering on differences from the third embodiment.
音響信号処理装置は、M個のマイクロホン310−m(m=1,2,…,Mであり、Mは2以上の整数の何れか)でそれぞれ収音されたM個の時系列音響信号と、特定音声区間検出部340のL(Lは2以上の整数の何れか)個の出力値とを入力とし、時系列音響信号に含まれる音声区間と非音声区間との少なくとも何れかを検出し、検出結果を出力する。
The acoustic signal processing apparatus includes M time-series acoustic signals respectively collected by M microphones 310-m (m = 1, 2,..., M, and M is an integer of 2 or more). , L (L is any integer greater than or equal to 2) output values of the specific speech
図21は第三変形例に係る音響信号処理装置の機能ブロック図を、図22はその処理フローを示す。 FIG. 21 is a functional block diagram of the acoustic signal processing apparatus according to the third modification, and FIG. 22 shows the processing flow.
音響信号処理装置は、ビームフォーミング部360と、音声区間検出部320と、音声区間検出情報蓄積部330とを含む。
The acoustic signal processing device includes a
<ビームフォーミング部360>
ビームフォーミング部360は、M個の時系列音響信号を入力とし、M個の時系列音響信号をL個の方向へそれぞれ指向性を高めたL個の時系列信号(時系列音響信号であり、例えばビームフォーミング出力信号)に変換し(S360)、特定音声区間検出部340、音声区間検出情報蓄積部330、音声区間検出部320に出力する。例えば、ビームフォーミング技術を用いてL個の時系列ビームフォーミング出力信号に変換する。ビームフォーミング技術としては、どのような方法を用いてもよい。例えば、参考文献3に記載の方法を用いる。
(参考文献3)特開2017−107141号公報
<
The
(Reference 3) Japanese Patent Application Laid-Open No. 2017-107141
なお、特定音声区間検出部340では、L個の時系列信号それぞれについて、特定音が来たことを検知し、特定音の検出時刻を示す情報を音声区間検出情報蓄積部330に出力する。なお、L個の時系列信号のうちの少なくとも1つの時系列信号に特定音が来たことを検知するものとし、特定音の検出時刻を示す情報は、検知した1つ以上のチャンネルを示す情報と、検知した1つ以上のチャンネルにそれぞれ対応する1つ以上の特定音の検出時刻を示す情報とを含む情報である。各特定音の検出時刻を示す情報は第三実施形態で説明した通りである。
The specific speech
<音声区間検出情報蓄積部330>
音声区間検出情報蓄積部330は、特定音の検出時刻を示す情報とL個の時系列信号とを入力とし、特定音が検出されたチャンネルの音声区間特徴量と非音声区間特徴量とを求め(S330)、出力する。なお、特定音が検出されたチャンネル全てについて特徴量を求める。
<Audio section detection
The voice segment detection
<音声区間検出部320>
音声区間検出部320は、L個の時系列信号を受け取り、特徴量算出部333から特定音が検出されたチャンネルの音声区間特徴量と非音声区間特徴量とを受け取る。音声区間検出部320は、特定音が検出されたチャンネル全ての音声区間特徴量から音声区間の特徴を示す1つの音声パラメータを求め、特定音が検出されたチャンネル全ての非音声区間特徴量から非音声区間の特徴を示す1つの非音声パラメータを求め、音声パラメータと非音声パラメータとを用いて、L個の時系列信号それぞれから音声区間と非音声区間との少なくとも何れかを検出し(S320)、検出結果を出力する。検出方法は第三実施形態で説明した通りである。本変形例では、L個の時系列信号に対して1つの(共通の)音声パラメータ及び1つの(共通の)非音声パラメータを用いる。
<Audio
The speech
<効果>
このような構成により、第三実施形態と同様の効果を得ることができる。なお、ビームフォーミング部360を別装置とし、音響信号処理装置は、L個の時系列信号を入力とする構成としてもよい。また、L個の方向へそれぞれ指向性を高めたL個の指向性のマイクロホン310−m(m=1,2,…,Lであり、Lは2以上の整数の何れか)でそれぞれ収音されたL個の時系列音響信号を入力とし、ビームフォーミング部360を用いない構成としてもよい。
<Effect>
With such a configuration, the same effect as that of the third embodiment can be obtained. The
<第三実施形態の第四変形例>
第三変形例と異なる部分を中心に説明する。
<Fourth Modification of Third Embodiment>
A description will be given centering on differences from the third modification.
<音声区間検出部320>
音声区間検出部320は、L個の時系列信号を受け取り、特徴量算出部333から特定音が検出されたチャンネルの音声区間特徴量と非音声区間特徴量とを受け取る。音声区間検出部320は、特定音が検出された1つのチャンネルの音声区間特徴量から音声区間の特徴を示す1つの音声パラメータを求め、特定音が検出された1つのチャンネルの非音声区間特徴量から非音声区間の特徴を示す1つの非音声パラメータを求め、特定音が検出されたチャンネル毎に求めた音声パラメータと非音声パラメータとを用いて、特定音が検出された時系列音響信号から音声区間と非音声区間との少なくとも何れかを検出し(S320)、検出結果を出力する。検出方法は第三実施形態で説明した通りである。
<Audio
The speech
本変形例ではL個の時系列信号にそれぞれ対応するL個の音声パラメータ及びL個の非音声パラメータを用いる。なお、音声区間検出部320は、特定音が検出されたチャンネルの音声区間特徴量と非音声区間特徴量とを受け取り、そのチャンネルの非音声パラメータ及び音声パラメータのみを求める。特定音が検出されなかったチャンネルについては、非音声パラメータ及び音声パラメータを求めず、特定音が検出されたタイミングでそのチャンネルに対応する非音声パラメータ及び音声パラメータを求める。
In this modification, L speech parameters and L non-speech parameters respectively corresponding to L time-series signals are used. Note that the speech
<効果>
このような構成により、第三実施形態と同様の効果を得ることができ、チャンネル毎に詳細な音声パラメータ、非音声パラメータを求めることができる。
<Effect>
With such a configuration, it is possible to obtain the same effects as in the third embodiment, and to obtain detailed audio parameters and non-audio parameters for each channel.
[補足]
音響信号処理装置は、予め定められた音である特定音を含む音響信号を入力とし、上記音響信号から上記特定音に対応する音響信号を除いた音響信号を雑音音響信号として、上記雑音音響信号と、上記特定音に対応する音響信号とを関連付けた音響信号処理を行う音響信号処理部を備えていると言える。
[Supplement]
The acoustic signal processing device receives an acoustic signal including a specific sound, which is a predetermined sound, as an input, and an acoustic signal obtained by removing an acoustic signal corresponding to the specific sound from the acoustic signal as a noise acoustic signal. And an acoustic signal processing unit that performs acoustic signal processing in association with the acoustic signal corresponding to the specific sound.
または、音響信号処理装置は、予め定められた音である特定音を含む音響信号を入力とし、上記特定音に対応する音響信号を対象音響信号として、上記対象音響信号と、上記音響信号から上記対象音響信号を除いた音響信号とを関連付けた音響信号処理を行う音響信号処理部を備えていると言える。 Alternatively, the acoustic signal processing device receives an acoustic signal including a specific sound that is a predetermined sound as an input, uses the acoustic signal corresponding to the specific sound as a target acoustic signal, and uses the target acoustic signal and the acoustic signal as described above. It can be said that the apparatus includes an acoustic signal processing unit that performs acoustic signal processing associated with acoustic signals excluding the target acoustic signal.
または、音響信号処理装置は、予め定められた音である特定音を含む音響信号を入力とし、上記音響信号から上記特定音に対応する音響信号を除いた音響信号を雑音音響信号とし、上記特定音に対応する音響信号を対象音響信号として、上記対象音響信号と、上記雑音音響信号とを関連付けた音響信号処理を行う音響信号処理部を備えていると言える。 Alternatively, the acoustic signal processing device receives an acoustic signal including a specific sound, which is a predetermined sound, and an acoustic signal obtained by removing an acoustic signal corresponding to the specific sound from the acoustic signal as a noise acoustic signal. It can be said that an acoustic signal processing unit that performs acoustic signal processing in which the target acoustic signal is associated with the noise acoustic signal using the acoustic signal corresponding to the sound as the target acoustic signal is provided.
音響信号処理部の例は、第一実施形態の変形例4の第三指向性集音部52である。この場合、対象音響信号は方向記憶部13から読み込んだ到来方向からの音の信号であり、雑音音響信号は雑音方向記憶部51から読み込んだ到来方向からの音の信号となる。
An example of the acoustic signal processing unit is the third directional sound collecting unit 52 of Modification 4 of the first embodiment. In this case, the target acoustic signal is a sound signal from the arrival direction read from the
音響信号処理部の他の例は、第三実施形態の音声区間検出情報蓄積部330及び音声区間検出部320である。この場合、対象音響信号は特定音音声区間に対応する時系列音響信号であり、雑音音響信号は非音声区間に対応する時系列音響信号となる。
Other examples of the acoustic signal processing unit are the speech segment detection
[プログラム及び記録媒体]
各音響信号処理装置の各部における処理をコンピュータによって実現する場合、これらの装置の各部がが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各部の処理がコンピュータ上で実現される。
[Program and recording medium]
When the processing in each unit of each acoustic signal processing device is realized by a computer, the processing contents of the functions that each unit of these devices should have are described by a program. Then, by executing this program on a computer, the processing of each part is realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.
また、各部の処理は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理の少なくとも一部をハードウェア的に実現することとしてもよい。 The processing of each unit may be configured by executing a predetermined program on a computer, or at least a part of these processing may be realized by hardware.
その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。 Needless to say, other modifications are possible without departing from the spirit of the present invention.
Claims (6)
上記方向推定部で推定された到来方向からの音が強調されるように集音を行う第一指向性集音部と、
を含む音響信号処理装置。 The direction of arrival of sound from signals collected by a plurality of microphones is more likely to be estimated as the direction of arrival is closer to the direction of arrival estimated at the time when a specific sound that is a predetermined sound is detected. A direction estimator for estimating
A first directional sound collection unit that collects sound so that sound from the direction of arrival estimated by the direction estimation unit is emphasized;
An acoustic signal processing apparatus.
上記方向推定部は、上記複数のマイクロホンで集音された信号に対して、各到来方向を強調する処理を行う方向強調部と、各到来方向が強調された信号のパワーを計算するパワー計算部と、各到来方向が強調された信号のパワーに、上記各到来方向が上記方向推定部により推定される到来方向に近いほど大きな重みを乗算することにより重み付与後パワーを得る重み乗算部と、上記重み付与後パワーが最も大きい到来方向を選択し、その選択された到来方向を上記方向推定部により推定される到来方向とする最大パワー方向検出部と、を含む、
音響信号処理装置。 The acoustic signal processing device according to claim 1,
The direction estimation unit includes a direction emphasizing unit that performs processing for emphasizing each arrival direction with respect to signals collected by the plurality of microphones, and a power calculation unit that calculates the power of the signal in which each arrival direction is emphasized. And a weight multiplier that obtains power after weighting by multiplying the power of the signal in which each arrival direction is emphasized by multiplying a larger weight as the arrival direction is closer to the arrival direction estimated by the direction estimation unit; A maximum power direction detection unit that selects an arrival direction having the largest power after weighting and sets the selected arrival direction as an arrival direction estimated by the direction estimation unit,
Acoustic signal processing device.
上記方向推定部は、過去の所定の時間区間における、上記最大パワー方向検出部で選択された到来方向の頻度を計測する推定頻度計測部と、上記計測された頻度の中で最も低い頻度の到来方向を選択する選択部と、を更に含む、
音響信号処理装置。 The acoustic signal processing device according to claim 2,
The direction estimation unit includes an estimation frequency measurement unit that measures the frequency of the arrival direction selected by the maximum power direction detection unit in a predetermined time period in the past, and the arrival of the lowest frequency among the measured frequencies. A selection unit for selecting a direction;
Acoustic signal processing device.
上記方向推定部で推定された到来方向からの音が強調されるように集音を行う第二指向性集音部と、
上記第二指向性集音部により集音された信号に基づいて、上記特定音を検出する特定音検出部と、を更に含む、
音響信号処理装置。 The acoustic signal processing device according to claim 1,
A second directional sound collection unit that collects sound so that sound from the direction of arrival estimated by the direction estimation unit is emphasized;
A specific sound detection unit that detects the specific sound based on the signal collected by the second directivity sound collection unit;
Acoustic signal processing device.
第一指向性集音部が、上記方向推定ステップで推定された到来方向からの音が強調されるように集音を行う第一指向性集音ステップと、
を含む音響信号処理方法。 The direction estimation unit determines that the direction of arrival of sound from signals collected by a plurality of microphones is closer to the direction of arrival that is closer to the direction of arrival estimated at the time when a specific sound that is a predetermined sound is detected. A direction estimating step for estimating so as to be easily estimated;
A first directional sound collection unit that collects sound such that sound from the direction of arrival estimated in the direction estimation step is emphasized; and
An acoustic signal processing method.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017148355A JP6653687B2 (en) | 2017-07-31 | 2017-07-31 | Acoustic signal processing device, method and program |
JP2019197593A JP6969597B2 (en) | 2017-07-31 | 2019-10-30 | Acoustic signal processing equipment, methods and programs |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017148355A JP6653687B2 (en) | 2017-07-31 | 2017-07-31 | Acoustic signal processing device, method and program |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019197593A Division JP6969597B2 (en) | 2017-07-31 | 2019-10-30 | Acoustic signal processing equipment, methods and programs |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019029861A true JP2019029861A (en) | 2019-02-21 |
JP6653687B2 JP6653687B2 (en) | 2020-02-26 |
Family
ID=65476647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017148355A Active JP6653687B2 (en) | 2017-07-31 | 2017-07-31 | Acoustic signal processing device, method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6653687B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020148899A (en) * | 2019-03-13 | 2020-09-17 | 日本電信電話株式会社 | Noise suppression device, method thereof and program |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000181498A (en) * | 1998-12-15 | 2000-06-30 | Toshiba Corp | Signal input device using beam former and record medium stored with signal input program |
JP2004109361A (en) * | 2002-09-17 | 2004-04-08 | Toshiba Corp | Device, method, and program for setting directivity |
JP2008205896A (en) * | 2007-02-21 | 2008-09-04 | Yamaha Corp | Sound emitting and picking up device |
JP2015023508A (en) * | 2013-07-22 | 2015-02-02 | 沖電気工業株式会社 | Sound gathering device and program |
-
2017
- 2017-07-31 JP JP2017148355A patent/JP6653687B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000181498A (en) * | 1998-12-15 | 2000-06-30 | Toshiba Corp | Signal input device using beam former and record medium stored with signal input program |
JP2004109361A (en) * | 2002-09-17 | 2004-04-08 | Toshiba Corp | Device, method, and program for setting directivity |
JP2008205896A (en) * | 2007-02-21 | 2008-09-04 | Yamaha Corp | Sound emitting and picking up device |
JP2015023508A (en) * | 2013-07-22 | 2015-02-02 | 沖電気工業株式会社 | Sound gathering device and program |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020148899A (en) * | 2019-03-13 | 2020-09-17 | 日本電信電話株式会社 | Noise suppression device, method thereof and program |
WO2020184211A1 (en) * | 2019-03-13 | 2020-09-17 | 日本電信電話株式会社 | Noise suppression device, method therefor, and program |
JP7222277B2 (en) | 2019-03-13 | 2023-02-15 | 日本電信電話株式会社 | NOISE SUPPRESSION APPARATUS, METHOD AND PROGRAM THEREOF |
Also Published As
Publication number | Publication date |
---|---|
JP6653687B2 (en) | 2020-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8775173B2 (en) | Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program | |
JP4568371B2 (en) | Computerized method and computer program for distinguishing between at least two event classes | |
Wolf et al. | Channel selection measures for multi-microphone speech recognition | |
JP3744934B2 (en) | Acoustic section detection method and apparatus | |
JP5505896B2 (en) | Utterance section detection system, method and program | |
US20140149117A1 (en) | Method and system for identification of speech segments | |
JP6077957B2 (en) | Audio processing apparatus, audio processing method, and audio processing program | |
US9336777B2 (en) | Speech processing device, speech processing method, and speech processing program | |
JP6501260B2 (en) | Sound processing apparatus and sound processing method | |
JP4572218B2 (en) | Music segment detection method, music segment detection device, music segment detection program, and recording medium | |
JP6464005B2 (en) | Noise suppression speech recognition apparatus and program thereof | |
JPH0990974A (en) | Signal processor | |
WO2007046267A1 (en) | Voice judging system, voice judging method, and program for voice judgment | |
JPWO2007023660A1 (en) | Sound identification device | |
JP2017032857A (en) | Voice processing device and voice processing method | |
JP6487650B2 (en) | Speech recognition apparatus and program | |
JP2007156364A (en) | Device and method for voice recognition, program thereof, and recording medium thereof | |
JP4858663B2 (en) | Speech recognition method and speech recognition apparatus | |
JP6599408B2 (en) | Acoustic signal processing apparatus, method, and program | |
JP6969597B2 (en) | Acoustic signal processing equipment, methods and programs | |
JP6653687B2 (en) | Acoustic signal processing device, method and program | |
JP6633579B2 (en) | Acoustic signal processing device, method and program | |
JP2021001949A (en) | Prediction system for voice recognition performance, structuring method for learning model, and prediction method for voice recognition performance | |
JPH1185190A (en) | Device and method for voice recognition | |
JP4691079B2 (en) | Audio signal section estimation apparatus, method, program, and recording medium recording the same |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181107 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190815 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190827 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20191028 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191030 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200121 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200128 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6653687 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |