JP2011248296A - Sound signal section extracting device and sound signal section extracting method - Google Patents
Sound signal section extracting device and sound signal section extracting method Download PDFInfo
- Publication number
- JP2011248296A JP2011248296A JP2010124299A JP2010124299A JP2011248296A JP 2011248296 A JP2011248296 A JP 2011248296A JP 2010124299 A JP2010124299 A JP 2010124299A JP 2010124299 A JP2010124299 A JP 2010124299A JP 2011248296 A JP2011248296 A JP 2011248296A
- Authority
- JP
- Japan
- Prior art keywords
- sound signal
- signal section
- image data
- sound
- binary image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、入力される音信号に含まれる雑音成分を除去して所望の音信号の信号区間を抽出する音信号区間抽出装置及び音信号区間抽出方法に関する。 The present invention relates to a sound signal section extraction device and a sound signal section extraction method for extracting a signal section of a desired sound signal by removing a noise component contained in an input sound signal.
従来から、入力される音信号に含まれる雑音成分を除去して所望の音信号の信号区間を抽出すために、種々の音声区間検出手段が知られている。例えば、人間の発話音声や、機械等から発生する動作音等の正常音の区間を示す信号区間と、正常音以外の雑音の区間を示す雑音区間とを分離するために、入力信号のパワーに対して閾値を設定し、その閾値と入力信号のパワーとを比較して、信号区間と雑音区間とを区別する音声認識装置や音声区間検出装置が知られている(例えば、特許文献1、特許文献2参照。)。 Conventionally, various voice section detecting means are known for extracting a signal section of a desired sound signal by removing a noise component contained in an input sound signal. For example, in order to separate a signal section indicating a normal sound section such as a human speech voice or an operation sound generated from a machine from a noise section indicating a noise section other than the normal sound, the power of the input signal is separated. For example, a speech recognition device and a speech interval detection device that set a threshold value and compare the threshold value with the power of an input signal to distinguish a signal interval from a noise interval are known (for example, Patent Document 1, Patent). Reference 2).
また、信号区間と雑音区間とを分離するために、一定時間範囲内で零レベルを交差する回数を基にして入力信号のパワーと比較するための閾値を設定する零交差法(例えば、特許文献3参照。)や、入力音声信号を正規化することによって音声認識率を向上させるための音声スペクトル概形(例えば、特許文献4参照。)、又は信号区間を検出するために音声を捉えるための特徴量(入力信号の周期性情報)として利用する自己相関(例えば、特許文献5参照。)が知られている。 Also, in order to separate the signal section and the noise section, a zero-crossing method that sets a threshold value for comparison with the power of the input signal based on the number of times that the zero level is crossed within a certain time range (for example, patent document) 3), or an outline of a speech spectrum for improving the speech recognition rate by normalizing the input speech signal (see, for example, Patent Document 4), or capturing speech to detect a signal section. An autocorrelation (see, for example, Patent Document 5) used as a feature amount (periodic information of an input signal) is known.
しかしながら、特許文献1に記載された音声認識装置や特許文献2に記載された音声区間検出装置では、雑音の大きさなどの物理的特徴が時間と共に大きく変動しない、所謂、定常雑音の場合や、信号区間に比べてパワーが比較的小さい雑音の場合に有効であるが、雑音の大きさが時系列で不規則に変動する非定常雑音では閾値を超える場合があるので、雑音区間を信号区間と誤認識する虞があった。 However, in the speech recognition apparatus described in Patent Document 1 and the speech section detection apparatus described in Patent Document 2, physical characteristics such as the magnitude of noise do not vary greatly with time, so-called stationary noise, This is effective when the noise is relatively small compared to the signal interval, but the threshold may be exceeded for non-stationary noise where the noise level fluctuates irregularly in time series. There was a risk of misrecognition.
これに対して、特許文献3に記載された音声検出装置、特許文献4に記載された音声認識装置、及び特許文献5に記載された信号処理装置は、他の物理的指標を用いることで特許文献1に記載された音声認識装置や特許文献2に記載された音声区間検出装置より信号区間の検出精度を向上させることが可能になるが、複雑な演算処理を行なわなければならないという難点があった。この場合、その演算処理に見合った演算処理装置が必要になる。 In contrast, the speech detection device described in Patent Literature 3, the speech recognition device described in Patent Literature 4, and the signal processing device described in Patent Literature 5 are patented by using other physical indices. Although it is possible to improve the detection accuracy of the signal section from the speech recognition apparatus described in Document 1 and the speech section detection apparatus described in Patent Document 2, there is a problem that complicated arithmetic processing must be performed. It was. In this case, an arithmetic processing device suitable for the arithmetic processing is required.
本発明は、このような従来の難点を解消するためになされたもので、非定常雑音を含む入力音信号でも、入力信号のパワーに対する閾値を設定したり、複雑な演算処理を行ったりしなくても、正確に音信号区間を抽出することができる音信号区間抽出装置及び音信号区間抽出方法を提供することを目的とする。 The present invention has been made to solve such a conventional problem, and does not set a threshold for the power of the input signal or perform complicated arithmetic processing even for an input sound signal including non-stationary noise. However, an object of the present invention is to provide a sound signal section extraction device and a sound signal section extraction method that can accurately extract a sound signal section.
上述の目的を達成する本発明の第1の態様である音信号区間抽出装置は、音によって発生する振動を検出してアナログ音信号に変換する音情報検出部と、音情報検出部で検出した音のアナログ音信号が入力すると、サンプリングして量子化することでデジタル音信号に変換する信号入力部と、信号入力部で取得したデジタル音信号に基づき振幅値を時系列でグラフ化した2次元画像を作成して2値画像データとする画像作成部と、画像作成部で作成した2値画像データに、予め定められた数の周辺画素の値に0が1つ以上あると注目画素の値を1から0に変換する収縮処理を行って、当該2値画像データに存在している雑音区間を削除して塊化された領域となる音信号区間を抽出する収縮処理機能を有する画像処理部と、画像処理部で抽出した音信号区間を特定するために、2値画像データにおける塊化された領域の起点と終点とを時系列で検出する音信号区間判定部とから構成されているものである。 The sound signal section extraction device according to the first aspect of the present invention that achieves the above-mentioned object is detected by a sound information detection unit that detects vibration generated by sound and converts it into an analog sound signal, and a sound information detection unit When a sound analog sound signal is input, it is sampled and quantized and converted into a digital sound signal, and a two-dimensional graph of amplitude values in time series based on the digital sound signal acquired by the signal input unit. An image creation unit that creates an image to generate binary image data, and the binary image data created by the image creation unit has a value of the target pixel if the value of a predetermined number of peripheral pixels is one or more. An image processing unit having a contraction processing function for performing a contraction process for converting 1 to 0 and deleting a noise section existing in the binary image data to extract a sound signal section that is an agglomerated area And extracted by the image processor To identify a sound signal section, in which is composed of a sound signal section determining unit for detecting in time series the start and end points of agglomerated areas in the binary image data.
本発明の第2の態様は第1の態様である音信号区間抽出装置において、画像処理部は、2値画像データにおける塊化された領域に、予め定められた数の周辺画素の値に1が1つ以上あると注目画素の値を0から1に変換する膨張処理を行って、収縮処理機能で行った収縮処理によって一部削除された領域を復元する膨張処理機能を有するものである。 According to a second aspect of the present invention, in the sound signal section extraction device according to the first aspect, the image processing unit sets the value of a predetermined number of peripheral pixels to 1 in a lump area in the binary image data. If there is one or more, the expansion processing function is performed to perform the expansion processing for converting the value of the target pixel from 0 to 1, and to restore a region partially deleted by the contraction processing performed by the contraction processing function.
本発明の第3の態様は第2の態様である音信号区間抽出装置において、画像処理部は、モルフォロジー演算処理で2値画像データにおける音信号区間の塊化された領域を抽出するものである。 According to a third aspect of the present invention, in the sound signal section extraction device according to the second aspect, the image processing unit extracts the agglomerated region of the sound signal section in the binary image data by morphological operation processing. .
また、本発明の第4の態様である音信号区間抽出方法は、音によって発生する振動のアナログ音信号が入力すると、サンプリングして量子化することでデジタル音信号に変換する第1のステップと、第1のステップで取得したデジタル音信号に基づき振幅値を時系列でグラフ化した2次元画像を作成して2値画像データとする第2のステップと、第2のステップで作成した2値画像データに、予め定められた数の周辺画素の値に0が1つ以上あると注目画素の値を1から0に変換する収縮処理を行って、当該2値画像データに存在している雑音区間を削除して塊化された領域となる音信号区間を抽出する第3のステップと、第3のステップで抽出した音信号区間を特定するために、2値画像データにおける塊化された領域の起点と終点とを時系列で検出する第4のステップとを有するものでる。 The sound signal section extraction method according to the fourth aspect of the present invention includes a first step of converting a digital sound signal by sampling and quantizing when an analog sound signal of vibration generated by sound is input. , A second step of creating a two-dimensional image in which amplitude values are graphed in time series based on the digital sound signal acquired in the first step to obtain binary image data, and a binary generated in the second step If the image data has a predetermined number of peripheral pixel values of 0 or more, a contraction process for converting the value of the target pixel from 1 to 0 is performed, and noise existing in the binary image data A third step of extracting a sound signal section that becomes a clustered area by deleting the section, and a clustered area in the binary image data in order to specify the sound signal section extracted in the third step The start and end points of Leaving ones and a fourth step of detecting a column.
本発明の第5の態様は第4の態様である音信号区間抽出方法において、第3のステップは、2値画像データにおける塊化された領域に、予め定められた数の周辺画素の値に1が1つ以上あると注目画素の値を0から1に変換する膨張処理を行って、収縮処理によって一部削除された領域を復元することを含むものである。 According to a fifth aspect of the present invention, in the sound signal section extraction method according to the fourth aspect, the third step is to set a predetermined number of peripheral pixel values in the agglomerated region in the binary image data. When one or more 1s are included, expansion processing for converting the value of the target pixel from 0 to 1 is performed, and a region partially deleted by the contraction processing is restored.
このような第1の態様である音信号区間抽出装置及び第4の態様である音信号区間抽出方法は、従来の音声区間検出手段のような信号のパワーやスペクトルの情報などの物理的特徴に基づいて入力される音信号に含まれる雑音成分を除去するのではなく、人が音信号の信号波形から音信号区間の存在を視覚的に捉えることができる視覚情報に基づき、音信号区間を抽出するという従来にはなかった音信号区間抽出手段を提供するものである。具体的には、音信号の信号波形を、人が視覚的に捉えることができる視覚情報にするために、横軸(X軸)が時間、縦軸(Y軸)が軸中央をゼロとして上下方向に正負の振幅値となるグラフで表現する。音信号の信号波形を、このようにグラフ化することで、人は、縦軸の振幅値が上下に大きく、横軸に連続して出現する塊化された領域が音信号区間であると、視覚で判別することになる。 The sound signal section extraction device according to the first aspect and the sound signal section extraction method according to the fourth aspect have physical characteristics such as signal power and spectrum information as in the conventional sound section detection means. Rather than removing the noise component contained in the input sound signal, the sound signal section is extracted based on visual information that allows a person to visually grasp the presence of the sound signal section from the signal waveform of the sound signal. The present invention provides a means for extracting a sound signal section that has not existed before. Specifically, the horizontal axis (X axis) is time and the vertical axis (Y axis) is zero at the center in order to make the signal waveform of the sound signal visual information that humans can visually grasp. Expressed in a graph with positive and negative amplitude values in the direction. By graphing the signal waveform of the sound signal in this way, a person has an amplitude value on the vertical axis that is large up and down, and a clustered area that appears continuously on the horizontal axis is a sound signal section. It will be determined visually.
第1の態様である音信号区間抽出装置及び第4の態様である音信号区間抽出方法は、この人の視覚による画像認識を応用するもので、音情報検出部で検出した音のアナログ音信号を信号入力部でデジタル音信号に変換して画像作成部に送出し、画像作成部でデジタル音信号に基づき2値画像データを作成する。この2値画像データは、雑音成分を含むデジタル音信号が画像化されているので、この2値画像データを画像処理部の収縮処理機能で収縮処理を行うと、2値画像データに存在している雑音区間を削除して塊化された領域となる音信号区間を抽出することができる。なお、音信号の雑音成分は非定常雑音でも、振幅値が低くなったり、振幅値が高くても時間軸上の幅が狭くなる細長い領域となったりすることから、雑音成分を含む音信号の2値画像データに、予め定められた数の周辺画素の値に0が1つ以上あると注目画素の値を1から0に変換する収縮処理を行うことで、雑音成分を削除して音信号区間を塊化することができる。そして、音信号区間判定部で2値画像データにおける塊化された領域の起点と終点とを時系列で検出することで、非定常雑音を含む入力音信号でも、入力信号のパワーに対する閾値を設定したり、複雑な演算処理を行ったりしなくても、音信号区間を抽出することができる。 The sound signal segment extraction device according to the first aspect and the sound signal segment extraction method according to the fourth aspect apply image recognition by human vision, and an analog sound signal of the sound detected by the sound information detection unit Is converted into a digital sound signal by the signal input unit and sent to the image creating unit, and the image creating unit creates binary image data based on the digital sound signal. Since this binary image data is an image of a digital sound signal including a noise component, if this binary image data is subjected to contraction processing by the contraction processing function of the image processing unit, it exists in the binary image data. It is possible to extract a sound signal section that is an agglomerated area by deleting existing noise sections. Note that even if the noise component of the sound signal is non-stationary noise, the amplitude value is low, or even if the amplitude value is high, it becomes a long and narrow area with a narrow width on the time axis. When binary image data has a predetermined number of peripheral pixel values of 0 or more, a contraction process is performed to convert the value of the target pixel from 1 to 0, thereby removing the noise component and generating a sound signal. Sections can be agglomerated. Then, the threshold value for the power of the input signal is set even for the input sound signal including non-stationary noise by detecting the start point and the end point of the clustered region in the binary image data in time series by the sound signal section determination unit. Therefore, it is possible to extract the sound signal section without performing complicated calculation processing.
また、第2の態様である音信号区間抽出装置及び第5の態様である音信号区間抽出方法は、画像処理部の膨張処理機能で、収縮処理機能による収縮処理で2値画像データにおける塊化された領域に、予め定められた数の周辺画素の値に1が1つ以上あると注目画素の値を0から1に変換する膨張処理を行うことにより、一部削除された領域を復元することができるので、音信号区間の抽出精度が向上する。 The sound signal section extraction device according to the second aspect and the sound signal section extraction method according to the fifth aspect are the expansion processing function of the image processing unit, and agglomeration in the binary image data by the contraction processing by the contraction processing function. If a predetermined number of peripheral pixel values is 1 or more in the predetermined area, a partially deleted area is restored by performing dilation processing for converting the value of the target pixel from 0 to 1 Therefore, the extraction accuracy of the sound signal section is improved.
また、第3の態様である音信号区間抽出装置は、画像処理部が、モルフォロジー演算処理で2値画像データにおける音信号区間の塊化された領域を抽出することで、収縮処理機能による収縮処理と膨張処理機能による膨張処理とを組み合わせて用いることができる。 Further, in the sound signal section extraction device according to the third aspect, the image processing unit extracts the agglomerated region of the sound signal section in the binary image data by morphological operation processing, so that the contraction processing by the contraction processing function And expansion processing by the expansion processing function can be used in combination.
本発明の音信号区間抽出装置及び音信号区間抽出方法によれば、非定常雑音を含む入力音信号でも、入力信号のパワーに対する閾値を設定したり、複雑な演算処理を行ったりしなくても、正確に音信号区間を抽出することができるようになる。 According to the sound signal section extraction device and the sound signal section extraction method of the present invention, even for an input sound signal including non-stationary noise, a threshold value for the power of the input signal is not set or complicated arithmetic processing is not performed. The sound signal section can be accurately extracted.
以下、本発明の音信号区間抽出装置及び音信号区間抽出方法を実施するための最良の形態例について、図面を参照して説明する。 The best mode for carrying out the sound signal section extraction device and the sound signal section extraction method of the present invention will be described below with reference to the drawings.
本発明の音信号区間抽出装置は図1に示すように、音によって発生する振動を検出してアナログ音信号に変換する音情報検出部11と、図示しないA/D変換部を含み、音情報検出部11で検出した音のアナログ音信号が入力すると、サンプリングして量子化することでデジタル音信号に変換する信号入力部12と、信号入力部12で取得したデジタル音信号に基づき振幅値を時系列でグラフ化した2次元画像を作成して2値画像データとする画像作成部13と、画像作成部13で作成した2値画像データに収縮処理を行う収縮処理機能を有する画像処理部14と、画像処理部14で抽出した音信号区間を特定するために、2値画像データにおける塊化された領域の起点と終点とを時系列で検出する音信号区間判定部15とから構成されている。
As shown in FIG. 1, the sound signal section extraction device of the present invention includes a sound
音情報検出部11は、音によって発生する振動を検出してアナログ音信号に変換することができるマイクロホンや振動センサが該当する。マイクロホンは音が空気の振動によって発生するので、その空気の振動を電気信号に変換することでその空気の振動に応じたアナログの波形を信号入力部12で取得することができる。また、振動センサは、振動を変位、速度、あるいは加速度で定量的に捕らえるもので、測定した物理量を電気信号に変換することでその振動に応じたアナログの波形を信号入力部12で取得することができる。
The sound
信号入力部12は、デジタル音信号の信号情報を保存するために、例えば、1列目をサンプル点番号、2列目を1列目に対応する振幅値、行を全サンプル個数のN個(N:0,1,2,…,N−1)とするN行2列の行列とする。また、サンプリング周波数Fの値も保存することで、任意サンプル点n(0≦n≦N−1)の時間を、n×(1/F)により算出することが可能となる。したがって、信号情報の行列における1列目は、時間情報を保存していることになる。
In order to store the signal information of the digital sound signal, the
画像作成部13は、信号情報の行列における1列目のサンプル点を時間軸となるX軸に、2列目の振幅値を信号のパワーとなるY軸に表現した画像作成を行うものである。例えば、任意のサンプル点間na〜nb(a,b:0≦a<b,a<b≦N−1)をX軸方向の1画素分とし、そのna〜nbの間にある振幅値の平均値や中央値、最大値に相当する値分の画素数をY軸に表現する。このY軸には、Y軸中央より上に正の振幅値を、Y軸中央より下に負の振幅値が表現されることになる。
The
この画像は、振幅値を表現している黒色部分が1、それ以外の背景となる白色部分が0となるような2値画像とする。この場合のX軸方向の画像サイズSXは、N/(nb−na)となる。Y軸方向の画像サイズSyは、元の振幅値の値をそのまま用いた場合は振幅値の最大値Apと最小値Amを加算した値となるが、任意のサイズにすることも可能である。この画像サイズを任意のサイズにするには、画像の拡大・縮小処理に相当する方程式、Sy=(Ap+Am)×Cが好ましい。この場合、任意のサンプル点間na〜nbにある振幅値の平均値や中央値、最大値に相当する値分の画素数もC倍にしてY軸に表現する。ここで、Cは、C>1なら拡大処理、0<C<1ならば縮小処理となる。
なお、ここでは振幅値を線形で表現していたが、これに限らず、非線形で表現してもよい。
This image is a binary image in which the black portion expressing the amplitude value is 1 and the white portion other than that is 0. In this case, the image size S X in the X-axis direction is N / (n b −n a ). The image size Sy in the Y-axis direction is a value obtained by adding the maximum value Ap and the minimum value Am of the amplitude value when the original value of the amplitude value is used as it is, but may be an arbitrary size. In order to set the image size to an arbitrary size, an equation corresponding to image enlargement / reduction processing, Sy = (Ap + Am) × C, is preferable. In this case, the average or median amplitude value in between any sample point n a ~n b, the number of pixels of value component that corresponds to the maximum value even in the C doubled to represent the Y-axis. Here, C is an enlargement process if C> 1, and a reduction process if 0 <C <1.
Although the amplitude value is expressed linearly here, it is not limited to this and may be expressed nonlinearly.
画像処理部14の収縮処理機能は、予め定められた数の周辺画素の値に0が1つ以上あると注目画素の値を1から0に変換する収縮処理を行うものである。この画像の収縮処理は、2値画像における対象物体の輪郭から外側に伸びた画素幅が狭い凸形状の平滑化や、対象物体の背景にある孤立的な点、所謂ごま塩雑音の除去に有効な処理で、注目画素の周辺画素に0が1つ以上あれば、その注目画素を0にする。なお、画素x,yは、収縮処理によって音信号区間の領域が大きく削除されないようにするために、0≦x<Sx−1,0≦y<Sy−1を満足する値とする。周辺画素の範囲は任意であるが、範囲が大き過ぎると信号区間の存在する領域が削除される可能性があることから、最小構成要素となる注目画素に隣接する8画素を用いるのが最良である。つまり、3×3画素の中央を注目画素とし、注目画素が1のとき、その周辺の8画素のうち1つでも0があれば、注目画素を0とする。この収縮処理を、画像作成部13で作成した2値画像データ全体に対して繰り返し実行した場合、値1の領域を徐々に縮めていくことになり、最終的には、面積が小さい領域は消滅し、元々面積が大きい領域だけが画像上に残ることになる。
The contraction processing function of the
ここで、雑音区間は、振幅値が低いため、画像上の値が1になる部分が小領域となることから、収縮処理により結果的に削除されることになる。また、雑音区間には、振幅値が短い時間長で大きくなる場合も考えられるが、画像上の値が1になる部分は、X軸方向の幅が狭い細長い領域となるため、この領域も結果として収縮処理により削除される。一方、信号区間では、画像上の値1となる部分の面積が大きいため、収縮処理を行っても削除されることはない。この収縮処理は、目的とする音信号区間の存在する領域が抽出できるまで、または、雑音区間の存在する領域が削除されるまで、少なくともk回(k≧1)繰り返して実行される。 Here, since the amplitude value of the noise section is low, the portion where the value on the image is 1 is a small area, and is therefore deleted as a result of the contraction process. In the noise section, the amplitude value may increase with a short time length. However, since the portion where the value on the image is 1 is a narrow and narrow area in the X-axis direction, this area is also the result. Are deleted by the contraction process. On the other hand, in the signal section, since the area of the value 1 on the image is large, it is not deleted even if the contraction process is performed. This contraction process is repeated at least k times (k ≧ 1) until a region where a target sound signal section exists can be extracted or a region where a noise section exists is deleted.
なお、この画像の収縮処理では画像の形状によっては音信号区間の存在する領域の一部が削除される場合があるので、画像処理部14に画像に膨張処理を行う膨張処理機能をもたせるとよい。この画像処理部14の膨張処理機能は、予め定められた数の周辺画素の値に1が1つ以上あると注目画素の値を0から1に変換する膨張処理を行うものである。この画像の膨張処理は、2値画像における対象物体の内部に伸びた画素幅が狭い凹形状の平滑化や、対象物体の内部にある所謂ごま塩雑音の除去に有効な処理で、収縮処理によって一部削除された領域が出現されるまで、画像作成部13で作成した2値画像データ全体に対して少なくともk回(k≧1)繰り返して実行される。なお、音情報の存在しない振幅パターン領域は収縮処理によって削除されるため、膨張処理を行っても元の領域が出現することはない。即ち、膨張処理後に画像に残った値1の領域が、音信号区間の存在する領域となる。このように、画像処理部14の膨張処理機能で、収縮処理機能による収縮処理で2値画像データにおける塊化された領域に、予め定められた数の周辺画素の値に1が1つ以上あると注目画素の値を0から1に変換する膨張処理を行うことにより、一部削除された領域を復元することができるので、音信号区間の抽出精度が向上する。
このような画像処理部14の収縮処理及び膨張処理は、モルフォロジー演算処理が好ましい。モルフォロジー演算処理は、収縮処理及び膨張処理を組み合わせて用いることができるからである。
In this image shrinking process, depending on the shape of the image, a part of the area where the sound signal section exists may be deleted. Therefore, the
Such shrinkage processing and expansion processing of the
音信号区間判定部15は、信号入力部12、画像作成部13及び画像処理部14で音信号区間となる2値画像データにおける塊化された領域が抽出されるので、この塊化された領域の起点と終点とを時系列で検出するだけで、音信号区間を効率的且つ正確に特定することができる。
The sound signal
このように構成された音信号区間抽出装置による音信号区間抽出方法について、以下、図1、図2、図3、図4、図5を参照しながら説明する。なお、画像処理部14は収縮処理機能及び膨張処理機能を有しているものとする。
Hereinafter, the sound signal section extraction method by the sound signal section extraction apparatus configured as described above will be described with reference to FIGS. 1, 2, 3, 4, and 5. Note that the
音情報検出部11で検出した音のアナログ音信号を信号入力部12でデジタル音信号に変換して画像作成部102に送出し(ステップ101)、画像作成部102でデジタル音信号に基づき2値画像データを作成する(ステップ102)。この2値画像データは図3(A)に示すように、振幅値を表現している黒色部分が1、それ以外の背景となる白色部分が0となるような2値画像となっている。この2値画像データは、雑音成分を含むデジタル音信号が画像化されているので、この2値画像データを画像処理部14の収縮処理機能で収縮処理を行うと(ステップ103)、2値画像データに存在している雑音区間を削除して塊化された領域となる音信号区間を抽出することができる(ステップ104)。この収縮処理は図4に示すように、3×3画素の中央の画素eを注目画素とし、注目画素eが1のとき、その周辺の8画素a、b、c、d、f、g、h、iのうち1つでも0があれば、注目画素を0とする。なお、ステップ103及びステップ104は雑音区間の存在する領域が削除されるまで、繰り返して実行される。この雑音区間を削除して塊化された領域となる音信号区間は、図3(B)に示すような画像になる。
An analog sound signal of the sound detected by the sound
また、画像処理部14は膨張処理機能で、収縮処理機能による収縮処理で2値画像データにおける塊化された領域に膨張処理を行うことにより、一部削除された領域を復元することができる(ステップ105)。この膨張処理は図4に示すように、注目画素eが0のとき、その周辺の8画素a、b、c、d、f、g、h、iのうち1つでも1があれば、注目画素を1とする。なお、ステップ105は収縮処理によって一部削除された領域が出現されるまで、繰り返して実行される。この一部削除された領域が出現した塊化された領域となる音信号区間は、図3(C)に示すような画像となる。
Further, the
このように画像に対して、n回収縮処理を行った後、n回膨張処理を行うオープニング処理を行うのは、入力される音信号の信号波形を2値化した画像では、所謂ごま塩雑音は生じないが、振幅値の大小による凹凸が生じるからである。振幅値がパルス的に大きい箇所であるインパルス雑音が、X軸方向の画素幅が狭くなった凸形状となり、また、塊化された領域となる音信号区間以外の箇所が、Y軸方向の画素幅が狭い領域となる。収縮処理は、これらの雑音を除去することができ、結果的に塊化された領域となる音信号区間のみを画像上に残すことが可能になる。但し、収縮処理によって抽出された塊化された領域となる音信号区間は、収縮した回数分だけ領域のX軸方向の幅が小さくなっているので、その領域の本来のX軸方向の幅に戻すために、収縮処理した回数分だけ膨張処理を行う必要がある。 In this way, after performing the n-time contraction process on the image, the opening process for performing the n-time expansion process is performed because an image obtained by binarizing the signal waveform of the input sound signal has so-called sesame salt noise. Although it does not occur, unevenness due to the magnitude of the amplitude value occurs. Impulse noise, which is a place where the amplitude value is large in a pulse shape, has a convex shape with a narrow pixel width in the X-axis direction. The area becomes narrow. The contraction process can remove these noises, and as a result, it is possible to leave only the sound signal section that becomes a clustered area on the image. However, since the width of the sound signal section, which is an agglomerated area extracted by the contraction process, decreases in the X-axis direction by the number of contractions, the original X-axis width of the area is reduced. In order to return, it is necessary to perform expansion processing for the number of times of contraction processing.
このようにして得られた音信号区間の領域の画像は図5に示すように、信号区間判定部15で2値画像データにおける塊化された領域の起点Aと終点Bとを時系列で検出する(ステップ106)。このように画像処理することで、非定常雑音を含む入力音信号でも、入力信号のパワーに対する閾値を設定したり、複雑な演算処理を行ったりしなくても、塊化された領域となる音信号区間を効率的且つ正確に抽出することができる。 As shown in FIG. 5, the image of the region of the sound signal section obtained in this way detects the start point A and the end point B of the agglomerated area in the binary image data in a time series as shown in FIG. (Step 106). By performing image processing in this way, even an input sound signal including non-stationary noise can be a sound that becomes an agglomerated region without setting a threshold value for the power of the input signal or performing complicated arithmetic processing. The signal interval can be extracted efficiently and accurately.
このような本発明の音信号区間抽出装置及び音信号区間抽出方法は、従来の音声区間検出手段と併用することで、音信号区間の抽出精度の向上を図ることが可能になる。
また、本発明の音信号区間抽出装置及び音信号区間抽出方法の機能を実現するソフトウエアのプログラムコードを記録した記録媒体を、コンピュータで読み出し実行することでも、本発明の目的を達成することができる。
Such a sound signal section extraction device and sound signal section extraction method of the present invention can improve the extraction accuracy of a sound signal section by using it together with a conventional speech section detection means.
Further, the object of the present invention can also be achieved by reading and executing by a computer a recording medium that records software program codes for realizing the functions of the sound signal section extracting device and the sound signal section extracting method of the present invention. it can.
これまで本発明について図面に示した特定の実施の形態をもって説明してきたが、本発明は図面に示した実施の形態に限定されるものではなく、本発明の効果を奏する限り、これまで知られたいかなる構成であっても採用することができることはいうまでもないことである。 Although the present invention has been described with the specific embodiments shown in the drawings, the present invention is not limited to the embodiments shown in the drawings, and is known so far as long as the effects of the present invention are achieved. It goes without saying that any configuration can be adopted.
このような本発明の音信号区間抽出装置及び音信号区間抽出方法は、例えば、機械の異常予兆を早期に発見するために、機械の動作音を分析する際、雑音によって誤認識してしまうことを防ぐことができる。 Such a sound signal section extraction apparatus and sound signal section extraction method of the present invention may be misrecognized by noise when analyzing the operation sound of a machine, for example, in order to detect an abnormal sign of the machine at an early stage. Can be prevented.
1……音信号区間抽出装置
11……音情報検出部
12……信号入力部
13……画像作成部
14……画像処理部
15……音信号区間判定部
DESCRIPTION OF SYMBOLS 1 ... Sound signal
Claims (5)
前記音情報検出部で検出した前記音の前記アナログ音信号が入力すると、サンプリングして量子化することでデジタル音信号に変換する信号入力部と、
前記信号入力部で取得した前記デジタル音信号に基づき振幅値を時系列でグラフ化した2次元画像を作成して2値画像データとする画像作成部と、
前記画像作成部で作成した前記2値画像データに、予め定められた数の周辺画素の値に0が1つ以上あると注目画素の値を1から0に変換する収縮処理を行って、当該2値画像データに存在している雑音区間を削除して塊化された領域となる音信号区間を抽出する収縮処理機能を有する画像処理部と、
前記画像処理部で抽出した前記音信号区間を特定するために、前記2値画像データにおける前記塊化された領域の起点と終点とを時系列で検出する音信号区間判定部とから構成されていることを特徴とする音信号区間抽出装置。 A sound information detector that detects vibration generated by sound and converts it into an analog sound signal;
When the analog sound signal of the sound detected by the sound information detection unit is input, a signal input unit that converts to a digital sound signal by sampling and quantizing,
An image creation unit that creates a binary image data by creating a two-dimensional image in which amplitude values are graphed in time series based on the digital sound signal acquired by the signal input unit;
The binary image data created by the image creation unit is subjected to a contraction process for converting the value of the target pixel from 1 to 0 when the predetermined number of peripheral pixel values is one or more, and An image processing unit having a contraction processing function for extracting a sound signal section that is an agglomerated area by deleting a noise section existing in binary image data;
In order to specify the sound signal section extracted by the image processing unit, the sound signal section determination unit configured to detect the start point and the end point of the clustered area in the binary image data in time series. A sound signal section extraction device characterized by comprising:
前記第1のステップで取得した前記デジタル音信号に基づき振幅値を時系列でグラフ化した2次元画像を作成して2値画像データとする第2のステップと、
前記第2のステップで作成した前記2値画像データに、予め定められた数の周辺画素の値に0が1つ以上あると注目画素の値を1から0に変換する収縮処理を行って、当該2値画像データに存在している雑音区間を削除して塊化された領域となる音信号区間を抽出する第3のステップと、
前記第3のステップで抽出した前記音信号区間を特定するために、前記2値画像データにおける前記塊化された領域の起点と終点とを時系列で検出する第4のステップとを有することを特徴とする音信号区間抽出方法。 When an analog sound signal of vibration generated by sound is input, a first step of converting to a digital sound signal by sampling and quantizing;
A second step of generating a two-dimensional image in which amplitude values are graphed in time series based on the digital sound signal acquired in the first step, and obtaining binary image data;
The binary image data created in the second step is subjected to a contraction process for converting the value of the target pixel from 1 to 0 when the predetermined number of peripheral pixel values is one or more, A third step of extracting a sound signal section that is a clustered area by deleting a noise section existing in the binary image data;
A fourth step of detecting, in time series, a start point and an end point of the agglomerated region in the binary image data in order to specify the sound signal section extracted in the third step. A characteristic sound signal segment extraction method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010124299A JP5351835B2 (en) | 2010-05-31 | 2010-05-31 | Sound signal section extraction device and sound signal section extraction method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010124299A JP5351835B2 (en) | 2010-05-31 | 2010-05-31 | Sound signal section extraction device and sound signal section extraction method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011248296A true JP2011248296A (en) | 2011-12-08 |
JP5351835B2 JP5351835B2 (en) | 2013-11-27 |
Family
ID=45413583
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010124299A Expired - Fee Related JP5351835B2 (en) | 2010-05-31 | 2010-05-31 | Sound signal section extraction device and sound signal section extraction method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5351835B2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014518404A (en) * | 2011-07-07 | 2014-07-28 | ニュアンス コミュニケーションズ, インコーポレイテッド | Single channel suppression of impulsive interference in noisy speech signals. |
CN106531186A (en) * | 2016-10-28 | 2017-03-22 | 中国科学院计算技术研究所 | Footstep detecting method according to acceleration and audio information |
KR20180104221A (en) * | 2017-03-09 | 2018-09-20 | 주식회사 트리니티랩 | Method and apparatus for identifying external audio signal |
CN111899739A (en) * | 2019-05-06 | 2020-11-06 | 苹果公司 | Voice notification |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000315094A (en) * | 1999-04-30 | 2000-11-14 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for wide bandwidth sound detection and recording medium for its program |
US20040260540A1 (en) * | 2003-06-20 | 2004-12-23 | Tong Zhang | System and method for spectrogram analysis of an audio signal |
-
2010
- 2010-05-31 JP JP2010124299A patent/JP5351835B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000315094A (en) * | 1999-04-30 | 2000-11-14 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for wide bandwidth sound detection and recording medium for its program |
US20040260540A1 (en) * | 2003-06-20 | 2004-12-23 | Tong Zhang | System and method for spectrogram analysis of an audio signal |
Non-Patent Citations (1)
Title |
---|
JPN6013036026; 山口亮,金田豊: '雑音抑圧信号処理におけるミュージカルノイズ改善の検討' 日本音響学会2004年春季研究発表会講演論文集-I- , 20040317, pp.619-620, 社団法人日本音響学会 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014518404A (en) * | 2011-07-07 | 2014-07-28 | ニュアンス コミュニケーションズ, インコーポレイテッド | Single channel suppression of impulsive interference in noisy speech signals. |
US9858942B2 (en) | 2011-07-07 | 2018-01-02 | Nuance Communications, Inc. | Single channel suppression of impulsive interferences in noisy speech signals |
CN106531186A (en) * | 2016-10-28 | 2017-03-22 | 中国科学院计算技术研究所 | Footstep detecting method according to acceleration and audio information |
CN106531186B (en) * | 2016-10-28 | 2019-07-12 | 中国科学院计算技术研究所 | Merge the step detection method of acceleration and audio-frequency information |
KR20180104221A (en) * | 2017-03-09 | 2018-09-20 | 주식회사 트리니티랩 | Method and apparatus for identifying external audio signal |
KR102061892B1 (en) * | 2017-03-09 | 2020-02-04 | 이진경 | Method and apparatus for identifying external audio signal |
CN111899739A (en) * | 2019-05-06 | 2020-11-06 | 苹果公司 | Voice notification |
Also Published As
Publication number | Publication date |
---|---|
JP5351835B2 (en) | 2013-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4029412B2 (en) | Fingerprint palmprint image processing system and fingerprint palmprint image processing method | |
US9753124B2 (en) | LIDAR point cloud compression | |
JP4232800B2 (en) | Line noise elimination device, line noise elimination method, line noise elimination program | |
KR101588995B1 (en) | Object detection device and object detection method | |
JP2017151872A (en) | Classification device, classification method, program and parameter creation device | |
JP5007953B2 (en) | Image processing apparatus, image processing method, and program | |
JP5351835B2 (en) | Sound signal section extraction device and sound signal section extraction method | |
JP4238902B2 (en) | Character noise elimination device, character noise elimination method, character noise elimination program | |
WO2006070487A1 (en) | Skin evaluating method and skin evaluating device | |
JP2018185552A (en) | Image analysis apparatus, image analysis method, and program | |
US9275279B2 (en) | Image processing apparatus and image processing method | |
JP2009008823A (en) | Sound recognition device, sound recognition method and sound recognition program | |
JP5534411B2 (en) | Image processing device | |
CN112929695A (en) | Video duplicate removal method and device, electronic equipment and storage medium | |
KR20110129158A (en) | Method and system for detecting a candidate area of an object in an image processing system | |
CN114169245A (en) | Transformer fault diagnosis method, device and equipment | |
JP6850194B2 (en) | Skin condition evaluation method and skin condition evaluation device | |
WO2004081872A1 (en) | Data analysis device and data recognition device | |
US20230065612A1 (en) | Image processing device and image processing method | |
JP5035370B2 (en) | Motion detection device, motion detection method, and program | |
CN110188601B (en) | Airport remote sensing image detection method based on learning | |
CN113113051A (en) | Audio fingerprint extraction method and device, computer equipment and storage medium | |
CN112630777A (en) | Motion state detection method and system | |
Choudhary et al. | A novel approach for edge detection for blurry images by using digital image processing | |
CN110889906A (en) | Subway on-site payment system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121017 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20121017 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130711 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130730 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130823 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |