KR20210125366A - Method for detecting recording device failure using neural network classifier, server and smart device implementing the same - Google Patents
Method for detecting recording device failure using neural network classifier, server and smart device implementing the same Download PDFInfo
- Publication number
- KR20210125366A KR20210125366A KR1020200042992A KR20200042992A KR20210125366A KR 20210125366 A KR20210125366 A KR 20210125366A KR 1020200042992 A KR1020200042992 A KR 1020200042992A KR 20200042992 A KR20200042992 A KR 20200042992A KR 20210125366 A KR20210125366 A KR 20210125366A
- Authority
- KR
- South Korea
- Prior art keywords
- neural network
- audio signal
- audio
- failure
- spectrogram
- Prior art date
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 99
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000005236 sound signal Effects 0.000 claims abstract description 184
- 238000003062 neural network model Methods 0.000 claims abstract description 61
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000013145 classification model Methods 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 20
- 238000001514 detection method Methods 0.000 claims description 16
- 230000000306 recurrent effect Effects 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 8
- 230000002085 persistent effect Effects 0.000 claims description 7
- 230000001131 transforming effect Effects 0.000 claims description 3
- 230000001052 transient effect Effects 0.000 claims 1
- 230000005856 abnormality Effects 0.000 description 27
- 238000010586 diagram Methods 0.000 description 17
- 239000000284 extract Substances 0.000 description 13
- 230000002159 abnormal effect Effects 0.000 description 12
- 230000003595 spectral effect Effects 0.000 description 10
- 238000013473 artificial intelligence Methods 0.000 description 5
- 230000007257 malfunction Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000000903 blocking effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 206010013952 Dysphonia Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 238000007789 sealing Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/18—Error detection or correction; Testing, e.g. of drop-outs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G06N3/0454—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/36—Monitoring, i.e. supervising the progress of recording or reproducing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
Description
본 발명은 녹음 장치가 구비된 있는 스마트 디바이스에서, 녹음 장치의 고장을 판별하고 사용자나 서비스 제공자에게 통보하는 신경망 분류기를 이용하여 녹음 장치 고장을 탐지하는 방법, 이를 구현한 서버 및 스마트 디바이스에 관한 것이다.The present invention relates to a method for detecting a recording apparatus failure in a smart device equipped with a recording apparatus using a neural network classifier that determines the failure of the recording apparatus and notifies a user or a service provider, a server implementing the same, and a smart device .
기술의 발전으로 인하여, 다양한 제품에 음성인식 기능이 탑재되고 있다. 전 세계의 인공지능 스피커의 보급 대수만 해도 이미 1억이 넘는다. 기타 IoT 제품까지 생각하면, 엄청난 수의 음성인식 디바이스들이 이미 우리 주위에 보급되어 있는 것이다.Due to the development of technology, various products are equipped with a voice recognition function. The number of artificial intelligence speakers around the world alone has already exceeded 100 million. If you consider other IoT products, a huge number of voice recognition devices are already in use around us.
이와 같은 스마트 디바이스에서 마이크의 성능은 곧 음성 인식의 정확도로 이어진다. 음성이 깨끗하게 들어오면, 스마트 디바이스는 더 정확한 결과를 도출한다. 따라서 스마트 디바이스에 마이크 개수를 늘리고, 최신 음성처리 기술을 사용하는 등, 음성 품질을 향상시키기 위해 많은 노력을 투자한다.In such smart devices, the performance of the microphone leads to the accuracy of speech recognition. When the voice comes in clear, the smart device produces more accurate results. Therefore, we invest a lot of effort to improve voice quality, such as increasing the number of microphones in smart devices and using the latest voice processing technology.
이러한 노력에도 불구하고, 마이크의 고장이나 이물질 등 이상이 발생하면 스마트 디바이스는 왜곡된 음성을 수집하게 된다. 이런 경우, 스마트 디바이스는 문장을 엉뚱하게 알아듣는다.Despite these efforts, if an abnormality such as a malfunction of the microphone or foreign material occurs, the smart device collects distorted voice. In this case, the smart device understands the sentence incorrectly.
하지만 사용자 입장에서는 녹음 장치의 고장 여부를 알기 힘들다. 이는 사용자가 녹음되는 목소리를 직접 들어볼 수 없기 때문이다. 또한, 사용자는 부정확한 음성인식의 원인이 마이크인지, 소음인지, 음성인식 소프트웨어의 성능 부족인지를 알 방법이 없다. However, it is difficult for the user to know whether the recording device is malfunctioning. This is because the user cannot directly hear the voice being recorded. In addition, the user has no way of knowing whether the cause of inaccurate voice recognition is a microphone, noise, or lack of performance of voice recognition software.
또한 종래에는, 스마트 기기의 스피커에서 특수하게 제작한 기준 신호를 재생하고, 스마트 기기의 마이크로 들어오는 신호가 기준 신호와 일정 이상 다른 경우 고장으로 판별하고 있다. In addition, in the prior art, a specially produced reference signal is reproduced from a speaker of a smart device, and a malfunction is determined when a signal coming into the microphone of the smart device differs from the reference signal by a predetermined or more.
이를 위해, 정상 기기의 스피커에서 기준 신호를 재생 후, 동일 기기의 마이크로 들어오는 신호를 녹음시료로 녹음해둔다. 시험할 기기에서 기준 신호를 재생 후, 마이크로 들어오는 신호를 녹음시료와 비교하여 일정 이상 다른 경우 고장으로 판별한다.To this end, after the reference signal is reproduced from the speaker of the normal device, the signal coming into the microphone of the same device is recorded as a recording sample. After reproducing the reference signal in the device to be tested, compare the signal coming into the microphone with the recorded sample and if it differs by more than a certain amount, it is determined as a failure.
이와 같은 종래 기술은, 기준 신호를 가지고 비교를 해야 하기 때문에 소음이 심한 환경에서 사용하기 힘들다. 따라서, 소음이나 신호 왜곡에 의한 영향을 최소화하기 위해 사인파 등의 인위적인 소리를 재생해야만 한다. 그리고, 신호가 유사한지 아닌지 여부만을 판단하므로, 어떤 유형의 고장인지에 대해서는 판별할 수 없는 문제가 있으며, 마이크 간 신호를 비교해야 하므로 비교할 대상이 없는 하나의 녹음 장치가 적용된 스마트 기기에는 적용이 불가능하다.Such a prior art is difficult to use in a noisy environment because comparison must be made with reference signals. Therefore, in order to minimize the effect of noise or signal distortion, artificial sound such as a sine wave must be reproduced. And, since it only judges whether the signals are similar or not, there is a problem that it is impossible to determine what type of failure it is, and since the signals between microphones must be compared, it is impossible to apply to a smart device to which a single recording device has no comparison target. do.
따라서, 본 발명은 고장 유형별 학습용 오디오 신호들을 사용하여 고장 유형이 출력되도록 학습된 신경망 분류기를 이용하여, 스마트 기기가 수집한 오디오 신호의 고장 유형을 탐지하는 신경망 분류기를 이용하여 녹음 장치 고장을 탐지하는 방법, 이를 구현한 서버 및 스마트 디바이스를 제공한다.Therefore, the present invention detects a recording device failure using a neural network classifier that detects a failure type of an audio signal collected by a smart device using a neural network classifier learned to output a failure type using audio signals for each failure type. A method, a server implementing the same, and a smart device are provided.
상기 본 발명의 기술적 과제를 달성하기 위한 본 발명의 하나의 특징인 서버가 스마트 디바이스의 녹음 장치의 고장을 탐지하는 방법으로서, As a method of detecting a failure of a recording apparatus of a smart device by a server, which is a feature of the present invention for achieving the technical problem of the present invention,
고장 유형별 학습용 오디오 신호들을 입력 받아, 각 학습용 오디오 신호에 대한 적어도 하나의 스펙트로그램과 오디오 정보들을 각각 추출하는 단계, 각 학습용 오디오 신호들에 대한 적어도 하나의 스펙트로그램과 오디오 정보들을 해당 고장 유형에 매핑한 학습 데이터를 생성하는 단계, 상기 학습 데이터를 이용하여 신경망 분류기를 학습시키는 단계, 그리고 상기 스마트 디바이스로부터 오디오 신호를 수신하고, 학습된 신경망 분류기를 이용하여 상기 오디오 신호의 고장 유형을 탐지하여 상기 스마트 디바이스로 전달하는 단계를 포함하고, 상기 학습된 신경망 분류기는, 상기 고장 유형별 학습용 오디오 신호들의 스펙트로그램 특징 값을 출력하도록 학습된 제1 신경망 모델, 상기 고장 유형별 학습용 오디오 신호들의 오디오 정보 특징 값을 출력하도록 학습된 제2 신경망 모델, 그리고 상기 제1 신경망 모델 및 제2 신경망 모델에서 출력된 특징 값들을 연결하여, 해당 학습용 오디오 신호의 고장 유형이 출력되도록 학습된 분류 모델을 포함한다.receiving learning audio signals for each failure type, extracting at least one spectrogram and audio information for each learning audio signal, respectively, mapping at least one spectrogram and audio information for each learning audio signal to a corresponding failure type Generating one training data, training a neural network classifier using the training data, and receiving an audio signal from the smart device, using the learned neural network classifier to detect a failure type of the audio signal, and transmitting to a device, wherein the learned neural network classifier outputs a first neural network model trained to output spectrogram feature values of the learning audio signals for each failure type, and audio information feature values of the learning audio signals for each failure type. a second neural network model trained to do so, and a classification model trained to output the failure type of the corresponding learning audio signal by connecting the feature values output from the first neural network model and the second neural network model.
상기 제1 신경망 모델은 합성곱 재귀 신경망(CRNN: Convolutional Recurrent Neural Network) 기반의 모델이고, 상기 제2 신경망 모델은 재귀 신경망(RNN: Recurrent Neural Network) 기반의 모델일 수 있다.The first neural network model may be a convolutional recurrent neural network (CRNN)-based model, and the second neural network model may be a recurrent neural network (RNN)-based model.
상기 고장 유형은 정상 유형, 순간성 고장 유형, 또는 지속성 고장 유형 중 적어도 하나를 포함할 수 있다.The failure type may include at least one of a normal type, an instantaneous failure type, or a persistent failure type.
상기 스펙트로그램과 오디오 정보들을 각각 추출하는 단계는, 각 학습용 오디오 신호에서 복수의 시간 구간 신호들을 추출하는 단계, 각 시간 구간 신호를 주파수 도메인으로 변환하여, 해당 시간 구간 신호의 스펙트로그램과 오디오 정보들을 추출하는 단계를 포함하고, 상기 복수의 시간 구간 신호들 각각은 이전 시간 구간 또는 이후 시간 구간과 적어도 일부의 시간 구간이 중복되도록 추출될 수 있다.The step of extracting each of the spectrogram and audio information includes extracting a plurality of time section signals from each training audio signal, converting each time section signal into a frequency domain, and converting the spectrogram and audio information of the corresponding time section signal into a frequency domain. and extracting, wherein each of the plurality of time interval signals may be extracted such that at least a portion of the time interval overlaps with a previous time interval or a subsequent time interval.
상기 본 발명의 기술적 과제를 달성하기 위한 본 발명의 또 다른 특징인 녹음 장치를 포함하는 스마트 디바이스가 상기 녹음 장치의 고장을 탐지하는 방법으로서,As another feature of the present invention for achieving the technical problem of the present invention, a smart device including a recording apparatus is a method of detecting a failure of the recording apparatus,
녹음 장치에서 수집된 오디오 신호를 입력 받는 단계, 상기 오디오 신호에 대한 적어도 하나의 스펙트로그램과 오디오 정보들을 추출하는 단계, 그리고 상기 오디오 신호의 스펙트로그램과 오디오 정보들을, 고장 유형별 학습용 오디오 신호들로 학습된 신경망 모델로 입력하고, 상기 신경망 모델을 통해 상기 오디오 신호의 고장 유형을 탐지하는 단계를 포함한다.receiving an audio signal collected from a recording device, extracting at least one spectrogram and audio information for the audio signal, and learning the spectrogram and audio information of the audio signal as learning audio signals for each failure type and inputting it into an established neural network model, and detecting a failure type of the audio signal through the neural network model.
상기 오디오 신호를 입력 받는 단계 이전에, 고장 유형별 학습용 오디오 신호들을 입력 받아, 각 학습용 오디오 신호에 대한 적어도 하나의 스펙트로그램과 오디오 정보들을 각각 추출하는 단계, 각 학습용 오디오 신호들에 대한 적어도 하나의 스펙트로그램과 오디오 정보들을 해당 고장 유형에 매핑한 학습 데이터를 생성하는 단계, 상기 학습 데이터를 이용하여 신경망 분류기를 학습시키는 단계를 포함하고, 상기 신경망 분류기를 학습시키는 단계는, 상기 스펙트로그램이 입력되면 스펙트로그램 특징 값을 출력하도록 상기 신경망 분류기에 포함된 제1 신경망 모델을 학습시키는 단계, 상기 오디오 정보들이 입력되면 오디오 정보 특징 값을 출력하도록 상기 신경망 분류기에 포함된 제2 신경망 모델을 학습시키는 단계, 그리고 제1 신경망 모델에서 출력된 스펙트로그램 특징 값 및 상기 제2 신경망 모델에서 출력된 오디오 정보 특징 값을 연결하여 계산한 확률 값을 기초로 입력 오디오 신호의 고장 유형을 출력하도록 분류 모델을 학습시키는 단계를 더 포함할 수 있다.Before receiving the audio signal, receiving audio signals for learning by failure type, extracting at least one spectrogram and audio information for each audio signal for learning, respectively, at least one spectrogram for each audio signal for learning Generating training data by mapping gram and audio information to a corresponding failure type, and training a neural network classifier using the training data, wherein the training of the neural network classifier includes: when the spectrogram is input, the spectrogram is input training a first neural network model included in the neural network classifier to output a gram feature value, training a second neural network model included in the neural network classifier to output an audio information feature value when the audio information is input, and Learning the classification model to output the failure type of the input audio signal based on the probability value calculated by connecting the spectrogram feature value output from the first neural network model and the audio information feature value output from the second neural network model may include more.
상기 오디오 신호를 입력 받는 단계 이전에, 상기 스마트 디바이스와 연동하는 서버로부터, 상기 서버에서 학습된 신경망 모델을 수신하는 단계를 더 포함할 수 있다.Prior to receiving the audio signal, the method may further include receiving, from a server interworking with the smart device, a neural network model learned from the server.
상기 스펙트로그램과 오디오 정보들을 추출하는 단계는, 상기 입력 받은 오디오 신호로에서 복수의 시간 구간 신호들을 추출하는 단계, 각 시간 구간 신호를 주파수 도메인으로 변환하여, 해당 시간 구간 신호의 스펙트로그램과 오디오 정보들을 추출하는 단계를 포함하고, 상기 복수의 시간 구간 신호들 각각은 이전 시간 구간 또는 이후 시간 구간과 적어도 일부의 시간 구간이 중복되도록 추출될 수 있다.The step of extracting the spectrogram and audio information may include extracting a plurality of time section signals from the received audio signal, converting each time section signal into a frequency domain, and providing a spectrogram and audio information of the corresponding time section signal and extracting the signals, wherein each of the plurality of time interval signals may be extracted such that at least a portion of the time interval overlaps with a previous time interval or a subsequent time interval.
상기 분류 모델을 학습시키는 단계는, 상기 스펙트로그램 특징 값과 오디오 정보 특징 값을 완전 연결 연산 처리하여 연결 맵을 생성하고, 상기 생성한 연결 맵에 활성화 함수를 적용하여 상기 확률 값으로 계산할 수 있다.In the training of the classification model, the spectrogram feature value and the audio information feature value may be completely concatenated to generate a connectivity map, and an activation function may be applied to the generated connectivity map to calculate the probability value.
상기 녹음 장치가 복수 개이면, 상기 고장 유형을 획득하는 단계는, 상기 복수의 녹음 장치들 중 제1 녹음 장치가 수집한 제1 오디오 신호의 스펙트로그램과 오디오 정보, 제2 녹음 장치가 수집한 제2 오디오 신호의 스펙트로그램과 오디오 정보, 그리고 상기 제1 오디오 신호와 제2 오디오 신호의 차이값을 입력 정보로 추출하는 단계, 그리고 상기 입력 정보를, 상기 학습된 신경망 모델로 입력하고, 상기 신경망 모델로부터 상기 제1 오디오 신호와 제2 오디오 신호의 고장 유형을 획득하는 단계를 포함할 수 있다.If there are a plurality of recording devices, the acquiring the failure type may include: a spectrogram and audio information of a first audio signal collected by a first recording device among the plurality of recording devices, and a second recording device collected by a second recording device. 2 extracting a spectrogram of an audio signal and audio information, and a difference value between the first audio signal and the second audio signal as input information, and inputting the input information into the learned neural network model, and the neural network model It may include obtaining the failure types of the first audio signal and the second audio signal from
상기 입력 정보로 추출하는 단계는, 상기 제1 오디오 신호와 제2 오디오 신호로부터 제1 주파수 도메인 값과 제2 주파수 도메인 값을 생성하는 단계, 상기 제1 주파수 도메인 값과 제2 주파수 도메인 값의 제1 차이값을 계산하는 단계, 그리고 상기 제1 오디오 신호와 제2 오디오 신호를 n 제곱하고, n 제곱된 제1 오디오 신호와 제2 오디오 신호의 각 주파수 도메인 값들로부터 제2 차이값을 계산할 수 있다.The step of extracting the input information may include: generating a first frequency domain value and a second frequency domain value from the first audio signal and the second audio signal; calculating a first difference value, and n-squaring the first audio signal and the second audio signal, and calculating a second difference value from respective frequency domain values of the n-squared first audio signal and the second audio signal .
상기 본 발명의 기술적 과제를 달성하기 위한 본 발명의 또 다른 특징인 스마트 디바이스에 포함된 녹음 장치의 고장을 탐지하는 서버로서,As a server for detecting a failure of a recording apparatus included in a smart device, which is another feature of the present invention for achieving the technical problem of the present invention,
적어도 하나의 명령어를 포함하고, 고장 유형별 학습용 오디오 신호들을 저장하는 메모리, 상기 스마트 디바이스로부터 오디오 신호를 수신하는 인터페이스, 그리고 프로세서를 포함하고, 상기 프로세서는, 상기 고장 유형별 학습용 오디오 신호로부터 스펙트로그램과 오디오 정보들을 추출하고, 상기 스펙트로그램과 오디오 정보들을 이용하여 신경망 분류기를 학습시키고, 학습된 신경망 분류기로 상기 수신한 오디오 신호를 입력하여 상기 오디오 신호의 고장 유형을 탐지한다.A memory including at least one instruction and storing audio signals for learning for each failure type, an interface for receiving an audio signal from the smart device, and a processor, wherein the processor includes a spectrogram and audio signal from the audio signal for learning for each failure type. Information is extracted, a neural network classifier is trained using the spectrogram and audio information, and a failure type of the audio signal is detected by inputting the received audio signal to the learned neural network classifier.
상기 프로세서는, 상기 수신한 오디오 신호로부터 일정 구간이 중복되도록 복수의 구간 신호들을 추출하고, 추출한 상기 구간 신호들을 주파수 도메인 값으로 변환하여 상기 복수의 오디오 정보들을 추출할 수 있다.The processor may extract a plurality of section signals to overlap a predetermined section from the received audio signal, and convert the extracted section signals into frequency domain values to extract the plurality of audio information.
상기 프로세서는, 상기 스마트 디바이스의 녹음 장치가 복수 개이면, 복수 개의 녹음 장치가 각각 수집한 오디오 신호들 사이의 차이값을 계산할 수 있다.If there are a plurality of recording apparatuses of the smart device, the processor may calculate a difference value between audio signals each collected by the plurality of recording apparatuses.
상기 프로세서는, 상기 스펙트로그램 특징 값과 오디오 정보 특징 값을 완전 연결 연산 처리하여 연결 맵을 생성하고, 상기 생성한 연결 맵에 활성화 함수를 적용하여 상기 확률 값을 계산할 수 있다.The processor may generate a connectivity map by performing full concatenation operation processing on the spectrogram feature value and the audio information feature value, and may calculate the probability value by applying an activation function to the generated connectivity map.
본 발명에 따르면, 특별히 제작한 별도의 기준 신호를 재생할 필요가 없이 녹음 장치 고장을 판별할 수 있기 때문에, 평소에 음악을 재생하거나 사용자의 음성을 통하여 특별한 조작 없이 녹음 장치의 고장 여부를 꾸준히 모니터링 할 수 있다.According to the present invention, since it is possible to determine the failure of the recording device without the need to reproduce a specially prepared reference signal, it is possible to continuously monitor the failure of the recording apparatus without playing music or special manipulation through the user's voice. can
또한, 단순히 녹음 장치의 고장 여부뿐만 아니라, 어떤 유형의 고장이 발생했는지 탐지할 수 있어, 서비스 제공자가 해당 소리 데이터를 전송 받아 더 자세한 문제 분석이 가능하다.In addition, it is possible to detect not only the failure of the recording device, but also what type of failure has occurred, so that the service provider can receive the corresponding sound data to analyze the problem in more detail.
또한, 녹음 장치의 개수에 상관없이 적용 가능하기 때문에, 모든 녹음 장치가 동일하게 고장 나서 동일한 신호가 들어오더라도 녹음 장치가 고장 난 경우에도, 대응 가능하다.In addition, since it is applicable regardless of the number of recording devices, it is possible to cope with the failure of the recording devices even if all recording devices fail equally and receive the same signal.
또한, 기존 음성 분류기에서 흔하게 사용되는 멜 스펙트로그램(Mel Spectrogram)이나 음성 특징 데이터에, 추가적으로 스펙트럼 특성과 차등 값을 사용하여 더욱 정확한 검출이 가능하다.In addition, more accurate detection is possible by using additional spectral characteristics and differential values in addition to Mel spectrogram or voice feature data commonly used in existing voice classifiers.
멜 스펙트로그램과 기타 특성을 고려하여 CRNN(Convolutional Recurrent Neural Network)과 RNN으로 분할 처리하는 독자적인 신경망 구조를 사용하여, 더 적은 연산량으로도 더욱 정확한 결과를 얻을 수 있다.Considering Mel spectrogram and other characteristics, using a proprietary neural network structure that divides into CRNN (Convolutional Recurrent Neural Network) and RNN, more accurate results can be obtained with less computation.
도 1은 본 발명의 실시예에 따른 녹음 장치의 고장을 탐지하는 신경망 분류기가 적용된 환경의 예시도이다.
도 2는 본 발명의 재1 실시예에 따라 서버가 녹음 장치의 고장을 탐지하는 방법을 나타낸 흐름도이다.
도 3은 본 발명의 제2 실시예에 따라 단일 마이크가 구비된 스마트 디바이스가 녹음 장치의 고장 여부를 탐지하는 방법에 대한 흐름도이다.
도 4는 본 발명의 실시예에 따른 오디오 프레임의 예시도이다.
도 5는 본 발명의 실시예에 따른 멜 스펙트로그램의 예시도이다.
도 6은 본 발명의 실시예에 따른 신경망 분류기의 하나의 예시도이다.
도 7은 본 발명의 실시예에 따른 복수의 마이크들이 구비된 스마트 디바이스가 녹음 장치의 고장 여부를 자가 탐지하는 방법에 대한 흐름도이다.
도 8은 본 발명의 실시예에 따른 차등 값 추출을 위한 두 녹음 장치의 신호들을 나타낸 예시도이다.
도 9는 본 발명의 실시예에 따른 신경망 분류기의 또 다른 예시도이다.
도 10은 본 발명의 실시예에 따라 출력된 고장 유형별 확률 값을 시각화한 그래프의 예시도이다.
도 11은 본 발명의 실시예에 따른 스마트 디바이스의 구조도이다.1 is an exemplary diagram of an environment to which a neural network classifier for detecting a failure of a recording apparatus according to an embodiment of the present invention is applied.
2 is a flowchart illustrating a method for a server to detect a failure of a recording device according to the first embodiment of the present invention.
3 is a flowchart of a method for a smart device equipped with a single microphone to detect a failure of a recording apparatus according to a second embodiment of the present invention.
4 is an exemplary diagram of an audio frame according to an embodiment of the present invention.
5 is an exemplary diagram of a Mel spectrogram according to an embodiment of the present invention.
6 is an exemplary diagram of a neural network classifier according to an embodiment of the present invention.
7 is a flowchart of a method for a smart device equipped with a plurality of microphones according to an embodiment of the present invention to self-detect whether a recording apparatus fails.
8 is an exemplary diagram illustrating signals of two recording devices for differential value extraction according to an embodiment of the present invention.
9 is another exemplary diagram of a neural network classifier according to an embodiment of the present invention.
10 is an exemplary diagram of a graph in which a probability value for each failure type outputted according to an embodiment of the present invention is visualized.
11 is a structural diagram of a smart device according to an embodiment of the present invention.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, with reference to the accompanying drawings, embodiments of the present invention will be described in detail so that those of ordinary skill in the art to which the present invention pertains can easily implement them. However, the present invention may be embodied in many different forms and is not limited to the embodiments described herein. And in order to clearly explain the present invention in the drawings, parts irrelevant to the description are omitted, and similar reference numerals are attached to similar parts throughout the specification.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. Throughout the specification, when a part "includes" a certain element, it means that other elements may be further included, rather than excluding other elements, unless otherwise stated.
이하, 도면을 참조로 하여, 본 발명의 실시예에 따른 서버, 스마트 디바이스, 이를 이용한 신경망 분류기 학습 방법 및 녹음 장치 고장 자가 탐지 방법에 대해 설명한다. Hereinafter, with reference to the drawings, a server, a smart device, a method for learning a neural network classifier using the same, and a method for self-detection of a recording device failure according to an embodiment of the present invention will be described.
본 발명의 제1 실시예에서는 스마트 디바이스(100)가 녹음 장치(200)의 고장 여부를 탐지하기 위해 고장 유형별 학습용 오디오 신호로 신경망 분류기를 학습시킨다. 그리고, 학습시킨 신경망 분류기로 녹음 장치(200)가 수신한 오디오 신호의 고장 여부 및 고장 유형을 탐지한다. In the first embodiment of the present invention, the
또한, 본 발명의 제2 실시예에서는 스마트 디바이스(100)와 연동한 서버(300)이 고장 유형별 학습용 오디오 신호로 신경망 분류기를 학습시킨다. 그리고 스마트 디바이스(100)로부터 수신한 오디오 신호의 고장 여부 및 고장 유형을 탐지한 후, 스마트 디바이스(100)로 그 결과를 제공한다.In addition, in the second embodiment of the present invention, the
이와 같은 실시예에 따라 신경망 분류기가 녹음 장치의 고장을 탐지하는 환경에 대해 도 1을 참조로 설명한다.An environment in which a neural network classifier detects a failure of a recording apparatus according to such an embodiment will be described with reference to FIG. 1 .
도 1은 본 발명의 실시예에 따른 녹음 장치의 고장을 탐지하는 신경망 분류기가 적용된 환경의 예시도이다.1 is an exemplary diagram of an environment to which a neural network classifier for detecting a failure of a recording apparatus according to an embodiment of the present invention is applied.
도 1에 도시된 바와 같이, 스마트 디바이스(100)는 하나의 녹음 장치(200) 또는 복수의 녹음 장치(200')들을 포함한다. 본 발명의 실시예에서는 녹음 장치(200)로 마이크를 예로 하여 설명하나, 소리를 수집할 수 있는 수단이면 무엇이든 대체 가능하다. As shown in FIG. 1 , the
녹음 장치(200)는 스마트 디바이스(100)에 구비된 스피커(도면 미도시)를 통해 발생한 음성이나 음원, 또는 외부에서 발생한 음원, 음성, 잡음 등의 오디오 신호를 수집한다. 본 발명의 실시예에서는 설명의 편의를 위하여 스마트 디바이스(100)에 녹음 장치(200)만 포함된 것으로 도시하였으나, 사용자에게 스마트 디바이스(100)를 통해 서비스를 제공하는 다양한 구성들이 포함될 수 있다.The
스마트 디바이스(100)는 제1 실시예에 따라 녹음 장치(200)가 수집한 오디오 신호를 서버(300)로 전달하여, 녹음 장치(200)의 고장 여부 및 고장 유형을 탐지하도록 요청한다. 서버(300)가 학습된 신경망 분류기를 사용하여 오디오 신호를 수집한 녹음 장치(200)의 고장 여부와 고장 유형을 탐지한 후, 스마트 디바이스(100)로 결과를 제공한다.The
또한, 스마트 디바이스(100)는 제2 실시예에 따라 녹음 장치(200)가 수집한 오디오 신호로부터 멜 스팩트로그램과 오디오 정보를 포함하는 입력 정보를 추출하고, 추출한 입력 정보를 학습된 신경망 분류기를 사용하여 이상 여부를 확인한다. 그리고 스마트 디바이스(100)는 입력 정보에 이상이 있는 것으로 판단하면, 이상 발생 빈도를 모니터링한다. In addition, the
스마트 디바이스(100)는 미리 설정한 임계 빈도 수 이상으로 소리에 이상이 있는 것으로 확인하면, 소리를 수집한 녹음 장치(200)에 이상이 있는 것으로 판단한다. 그리고, 스마트 디바이스(100)는 서비스 제공자 또는 스마트 디바이스(100)를 사용하는 사용자에게 녹음 장치(200)에 고장이 있음을 알린다.When the
이때, 제1 실시예에 따른 서버(300)와 제2 실시예에 따른 스마트 디바이스(100)는 오디오 신호의 이상 여부를 감지하기 위하여, 스마트 디바이스(100) 또는 서버(300) 내에서 별도의 기준 신호를 생성하지 않는다. 그리고, 스마트 디바이스(100) 또는 서버(300)는 수신한 오디오 신호의 오디오 정보를 신경망 분류기를 통해 이상 여부를 분류하고 이상 발생 빈도를 확인하여 고장 여부를 판별할 수 있다. At this time, the
따라서, 특별히 제작한 기준 신호를 재생할 필요가 없이 녹음 장치의 고장을 판별할 수 있기 때문에, 평소에 음악을 재생하거나 사용자가 발화하는 음성 등의 소리를 통하여 특별한 조작 없이 녹음 장치의 고장 여부를 꾸준히 모니터링 할 수 있다. 또한, 단순히 녹음 장치(200)의 고장 여부뿐만 아니라, 어떤 유형의 고장이 발생했는지 탐지할 수 있어, 서비스 제공자가 해당 소리 데이터를 전송 받아 더 자세한 문제 분석이 가능하다.Therefore, since it is possible to determine the failure of the recording device without the need to reproduce a specially prepared reference signal, it is possible to continuously monitor the failure of the recording apparatus without special manipulation through sounds such as music or voices uttered by the user. can do. In addition, it is possible to detect not only whether the
여기서, 녹음 장치(200)는 도 1의 (a)에 도시된 바와 같이 스마트 디바이스(100)에 한 개 구비될 수도 있다. 또한, 도 1의 (b)에 도시된 바와 같이 복수 개 구비될 수도 있다. Here, one
만약 도 1의 (b)와 같이 복수 개의 녹음 장치(200')들이 스마트 디바이스(100')에 구비될 경우, 스마트 디바이스(100')는 소리로부터 추출한 오디오 신호의 처리를 위한 연산량을 줄이기 위하여, 미리 설정된 순서 또는 랜덤하게 두 개의 녹음 장치(200')들을 선택한다. 그리고 스마트 디바이스(100')에 포함된 복수의 녹음 장치(200')들 중 적어도 하나의 녹음 장치에 대한 고장 여부를 탐지한다. 이에 대해서는, 이후 상세히 설명한다.If a plurality of recording apparatuses 200' are provided in the smart device 100' as shown in FIG. Two recording devices 200' are selected in a preset order or randomly. In addition, it is detected whether at least one of the plurality of recording apparatuses 200' included in the smart device 100' has a failure in the recording apparatus. This will be described in detail later.
본 발명의 실시예에서는 하나 또는 복수 개의 녹음 장치들이 구비된 스마트 디바이스(100)에서 신경망 분류기를 학습시키고, 수집한 오디오 신호를 학습된 신경망 분류기로 입력하여 오디오 신호가 수집된 녹음 장치의 고장 유형을 판별할 수 있다. 또한, 본 발명의 실시예에서는 서버(300)에서 신경망 분류기를 학습시키고, 스마트 디바이스(100)로부터 오디오 신호를 수신하여 학습된 신경망 분류기를 통해 오디오 신호를 수집한 녹음 장치의 고장 유형을 판별할 수 있다. 또한, 본 발명의 실시예에서는 서버(300)에서 신경망 분류기를 학습시켜 스마트 디바이스(100)로 전달하고, 스마트 디바이스(100)에서 오디오 신호를 수집하여 서버(300)에서 학습된 신경망 분류기를 통해 녹음 장치의 고장 유형을 판별할 수 있다. In an embodiment of the present invention, the neural network classifier is trained in the
이상의 환경에서, 본 발명의 제1 실시예에 따라 서버(300)가 신경망 분류기를 학습시키고 녹음 장치의 고장을 탐지하는 방법에 대해 도 2를 참조로 설명한다. In the above environment, a method in which the
도 2는 본 발명의 제1 실시예에 따라 서버가 녹음 장치의 고장을 탐지하는 방법을 나타낸 흐름도이다.2 is a flowchart illustrating a method for a server to detect a failure of a recording device according to the first embodiment of the present invention.
도 2에 도시된 바와 같이, 서버(300)는 고장 유형별로 수집된 학습용 오디오 신호들을 입력으로 받으면, 학습용 오디오 신호에서 적어도 하나의 스펙트로그램과 오디오 정보들을 추출한다(S100). 여기서, 스펙트로그램과 오디오 정보들이 해당 고장 유형에 매핑된 형태를 학습 데이터라 지칭하며, 학습용 오디오 신호에서 학습 데이터를 추출하는 방법은, 이후 녹음 장치의 고장을 탐지하는 방법을 설명할 때 함께 설명한다.As shown in FIG. 2 , the
서버(300)는 S100 단계에서 추출한 스펙트로그램을 신경망 분류기를 구성하는 제1 신경망 모델로 입력하여 스펙트로그램 특징 값이 출력되도록 제1 신경망 모델을 학습시킨다(S101). 그리고 서버(300)는 S100 단계에서 추출한 오디오 정보를 신경망 분류기를 구성하는 제2 신경망 모델로 입력하여, 오디오 정보 특징값이 출력되도록 제2 신경망 모델을 학습시킨다(S102). 서버(300)는 스펙트로그램 특징 값과 오디오 정보 특징 값을 연결하여, 해당 학습용 오디오 신호의 고장 유형이 출력되도록 신경망 분류기를 구성하는 분류 모델을 학습시킨다(S103).The
이와 같이, 서버(300)가 신경망 분류기를 학습시키면, 스마트 디바이스(100)는 녹음 장치(200)를 이용하여 오디오 신호를 수신하고(S104), 수신한 오디오 신호를 서버(300)로 전달하여 녹음 장치(200)의 고장 여부와 고장 유형의 탐지를 요청한다(S105). In this way, when the
서버(300)는 S105 단계에서 스마트 디바이스(100)로부터 오디오 신호를 수신하면, 오디오 신호로부터 입력 정보인 스펙트로그램과 오디오 정보들을 추출한다(S106). 입력 정보를 추출하기 위해, 서버(300)는 학습용 오디오 신호가 입력되면 일정 구간의 시간 구간 신호 즉, 오디오 프레임을 추출한다. When the
본 발명의 실시예에서는 설명의 편의를 위하여 오디오 프레임을 추출하는 것으로 설명하나, 오디오 신호가 일정 시간 구간이 중복되도록 중복된 시간 구간 신호를 추출하는 것으로도 표현될 수 있다.Although the embodiment of the present invention describes extracting an audio frame for convenience of description, it may also be expressed as extracting an overlapping time period signal so that the audio signal overlaps a predetermined time period.
본 발명의 실시예에서는 30ms 길이의 오디오 신호를 10ms마다 오디오 프레임으로 추출하는 것을 예로 하여 설명한다. 즉, 30ms 길이의 하나의 오디오 신호는 세 개의 오디오 프레임들로 추출될 수 있다. 본 발명의 실시예에서는 오디오 신호의 길이를 30ms로 하고, 하나의 오디오 프레임의 길이를 10ms로 정의하나 반드시 이와 같이 한정되는 것은 아니다. In the exemplary embodiment of the present invention, an audio signal having a length of 30 ms is extracted as an audio frame every 10 ms. That is, one audio signal having a length of 30 ms may be extracted as three audio frames. In the embodiment of the present invention, the length of the audio signal is defined as 30 ms and the length of one audio frame is defined as 10 ms, but the present invention is not limited thereto.
그리고, 서버(300)는 추출한 오디오 프레임들에 윈도잉(windowing) 함수를 적용한다. 윈도잉 함수는 등간격의 자료 즉 오디오 프레임을, 미리 설정한 가중치(window function)를 이용하여 평활화시키는 기법이다. 윈도우의 급격한 차단효과를 줄이기 위해 윈도잉 함수를 적용하면, 서버(300)는 윈도우 크기와 일부 중첩된 오디오 프레임들을 획득할 수 있다. Then, the
본 발명의 실시예에서는 오디오 프레임들을 획득하는 과정에 윈도잉 함수 중 윈도우 해닝(hanning)을 적용하는 것을 예로 하여 설명한다. 그러나, 해밍(Hamming), 블랙맨(Blackman), 가우시안(Gaussian) 등의 다양한 윈도우 함수를 사용할 수 있으며, 윈도우 함수가 어느 하나로 한정되는 것은 아니다.In the embodiment of the present invention, the application of window hanning among windowing functions in the process of acquiring audio frames will be described as an example. However, various window functions such as Hamming, Blackman, and Gaussian may be used, and the window function is not limited to any one.
윈도잉 함수를 적용하여 오디오 프레임들을 획득한 후, 서버(300)는 오디오 프레임들을 고속 푸리에 변환(FFT: Fast Fourier Transform)한다. 고속 푸리에 변환을 토대로 서버(300)는 시간과 음량으로 나타낸 타임 도메인(Time domain)의 오디오 프레임을, 주파수와 음량으로 나타낸 주파수 도메인(Frequency domain)의 오디오 프레임으로 변환한다. 서버(300)가 오디오 신호로부터 일정 간격의 오디오 프레임을 추출하거나 고속 푸리에 변환하는 방법은 이미 알려진 것으로, 본 발명의 실시예에서는 상세한 설명을 생략한다.After obtaining audio frames by applying a windowing function, the
서버(300)는 주파수 도메인으로 변환된 오디오 프레임들의 면적의 합을 구하여, 오디오 신호의 신호 세기를 측정한다. 오디오 프레임들의 면적의 합으로부터 오디오 신호의 신호 세기를 측정하는 방법은 이미 알려진 것으로, 본 발명의 실시예에서는 상세한 설명을 생략한다.The
그리고 측정한 신호 세기가 미리 설정한 신호 세기보다 큰 경우에만, 해당 오디오 프레임을 고장 여부를 탐지하는 데 사용한다. 서버(300)가 주파수 도메인의 오디오 프레임들의 면적 합을 구하는 방법은 이미 알려진 것으로, 본 발명의 실시예에서는 상세한 설명을 생략한다.And only when the measured signal strength is greater than the preset signal strength, the corresponding audio frame is used to detect a failure. A method for the
서버(300)는 오디오 프레임들을 이용하여, 멜 스펙트로그램(Mel-scaled spectrogram)과 오디오 정보를 추출한다. 본 발명의 실시예에서는, 서버(300)가 추출한 오디오 정보로, 전체적인 소리의 높낮이를 확인하는 스펙트럼 무게중심(spectral centroid), 스펙트럼 확산(spectral spread), 스펙트럼 왜곡도(spectral skewness), 스펙트럼 첨도(spectral kurtosis), 스펙트럼 감소(spectral decrease), 소리의 변화가 심한지 일정한지를 나타내는 스펙트럼 플럭스(spectral flux), 스펙트럼 롤-오프(spectral roll-off), 음고(pitch) 등을 예로 하여 설명하나, 반드시 이와 같은 오디오 정보들로 한정하는 것은 아니다. The
서버(300)가 각각의 오디오 정보를 추출하기 위해, 다음 수학식들을 이용한다. In order for the
여기서, f(n)은 n번째 주파수 값, x(n)은 n번째 FFT 값을 의미한다. 그리고 x(T-1)(n)은 직전 프레임의 FFT 값을 의미한다.Here, f(n) is the nth frequency value, and x(n) is the nth FFT value. And x(T-1)(n) means the FFT value of the previous frame.
그리고, 서버(300)는 음고 값 추출을 위해 YIN 알고리즘 또는 MPM 알고리즘 등 음고 탐지 알고리즘을 사용한다. 음고 탐지 알고리즘은 이미 알려진 것으로, 본 발명의 실시예에서는 상세한 설명을 생략한다.In addition, the
이상의 절차를 통해 멜 스펙트로그램과 오디오 정보들이 추출되면, 서버(300)는 신경망 분류기에 멜 스펙트로그램과 오디오 정보들을 입력하여, S105 단계에서 스마트 디바이스(100)로부터 수신한 오디오 신호에 이상이 있는지 여부를 확인한다(S107). When the Mel spectrogram and audio information are extracted through the above procedure, the
만약 오디오 신호에 이상이 있는 것으로 확인하면, 소리를 녹음한 녹음 장치(200)에 이상이 있는 것으로 확인한다. 따라서, 서버(300)는 학습된 신경망 분류기를 통해, 녹음 장치의 고장 유형 정의에 따라 오디오 신호의 고장 형태를 분류한다.If it is confirmed that there is an abnormality in the audio signal, it is confirmed that there is an abnormality in the
여기서, 서버(300)는, 인접한 필터 뱅크(filter bank) 간 상관 관계를 가지는 멜 스펙트로그램을 학습된 제1 신경망 모델로 입력하여 멜 스펙트로그램 특징을 출력하여 이상 여부를 확인한다. 그리고 인접한 필터 뱅크간 상관 관계가 적은 오디오 정보는, 학습된 제2 신경망 모델로 입력한다. Here, the
본 발명의 실시예에 따른 제1 신경망은 합성곱 재귀 신경망(CRNN: Convolution Recurrent Neural Network)을 이용하고, 제2 신경망은 재귀 신경망(RNN: Recurrent Neural Network) 기반의 모델 중 GRU(Gated Recurrent Unit)을 이용하는 것을 예로 하여 설명한다. The first neural network according to an embodiment of the present invention uses a convolution recurrent neural network (CRNN), and the second neural network uses a recurrent neural network (RNN)-based model of a Gated Recurrent Unit (GRU). It will be described using an example.
서버(300)는 S106 단계에서 입력 정보로 추출한 멜 스펙트로그램과 오디오 정보를 이용하여, 녹음 장치(200)에 이상이 있는지 판별하기 위해 사전에 녹음 장치(200)의 고장 유형을 다음 표 1과 같이 정의해 둔다.The
서버(300)는 오디오 신호의 이상 여부를 확인하고 분류한 뒤, 오디오 신호에 이상이 있다고 분류된 이상 빈도를 확인한다(S108). 그리고 오디오 신호에 이상이 있다고 확인한 횟수가 미리 설정한 횟수 이상이면, 서버(300)는 스마트 디바이스(100)로 녹음 장치의 고장 여부 및 고장 유형을 알린다(S109). 스마트 디바이스(100)는 서버(300)로부터 수신한 고장 여부와 고장 유형을 스마트 디바이스(100)를 사용하는 사용자 또는 스마트 디바이스(100)를 통해 서비스를 제공하는 서비스 제공자에게 고장 발생을 통보한다(S110).After checking and classifying whether the audio signal is abnormal, the
이상에서는 서버(300)가 신경망 분류기를 학습시키고, 학습된 신경망 분류기를 이용하여 녹음 장치(200)의 고장 여부와 고장 유형을 알리는 제1 실시예를 설명하였다. 그러나, 신경망 분류기를 학습시키고 녹음 장치(200)의 고장 여부와 고장 유형을 스마트 디바이스(100)에서 수행할 수도 있다. 이에 대해 도 3을 참조로 설명한다.In the above, the first embodiment has been described in which the
도 3은 본 발명의 제2 실시예에 따라 단일 마이크가 구비된 스마트 디바이스가 녹음 장치의 고장 여부를 탐지하는 방법에 대한 흐름도이다.3 is a flowchart of a method for a smart device equipped with a single microphone to detect a failure of a recording apparatus according to a second embodiment of the present invention.
여기서, 각각의 절차의 상세한 방법은 상기 도 2에서 설명한 방법과 동일하므로, 도 3에서는 상세한 설명을 생략한다.Here, since the detailed method of each procedure is the same as the method described with reference to FIG. 2 , detailed description thereof will be omitted in FIG. 3 .
도 3에 도시된 바와 같이, 외부로부터 입력된 학습용 오디오 신호로부터 스펙트로그램과 오디오 정보를 추출하고(S200), 추출한 스펙트로그램과 오디오 정보를 이용하여 신경망 분류기를 학습시킨다(S210). As shown in FIG. 3 , a spectrogram and audio information are extracted from an audio signal for learning input from the outside ( S200 ), and a neural network classifier is trained using the extracted spectrogram and audio information ( S210 ).
스마트 디바이스(100)는 하나 또는 복수의 녹음 장치(200)를 통해 오디오 신호를 수집한다(S220). 여기서 오디오 신호는 스마트 디바이스(100)에서 재생한 음성이나 음악, 또는 외부에서 발생된 잡음이나 사용자의 음성에 해당한다.The
스마트 디바이스(100)는 S220 단계에서 수집한 오디오 신호로부터 오디오 신호의 입력 정보를 추출한다(S230). 그리고 추출한 입력 정보를 S210 단계에서 학습된 신경망 분류기로 입력하여, 오디오 신호를 수집한 녹음 장치(200)의 고장 여부와 고장 유형을 분류한다(S240). The
스마트 디바이스(100)는 S240 단계를 통해 오디오 신호의 이상 여부를 확인하고 분류한 뒤, 오디오 신호에 이상이 있다고 분류된 이상 빈도를 확인한다(S250). 그리고 오디오 신호에 이상이 있다고 확인한 횟수가 미리 설정한 횟수 이상이면, 스마트 디바이스(100)는 녹음 장치(200)에 고장이 발생한 것으로 판단한다. 그리고 스마트 디바이스(100)를 사용하는 사용자 또는 스마트 디바이스(100)를 통해 서비스를 제공하는 서비스 제공자에게 고장 발생을 통보한다(S260).The
이상의 절차를 통해 서버(300) 또는 스마트 디바이스(100)가 녹음 장치(200)의 고장 여부를 자가 진단하는 과정 중에서 오디오 신호의 입력 정보를 추출할 때, 오디오 신호에서 추출한 오디오 프레임의 예에 대해 도 4를 참조로 설명한다. 본 발명의 실시예에서는 설명의 편의를 위하여 '오디오 프레임'을 추출한다고 표현하나, 오디오 신호에서 구간들을 추출하는 것으로 표현될 수도 있다. 그리고 설명의 편의를 위하여 서버(300)에서 오디오 프레임을 추출하는 것으로 나타내나, 스마트 디바이스(100)에서 추출할 수도 있다.Through the above procedure, when the
도 4는 본 발명의 실시예에 따른 오디오 프레임의 예시도이다.4 is an exemplary diagram of an audio frame according to an embodiment of the present invention.
도 4에 도시된 바와 같이, 오디오 신호를 분석하기 위하여 서버(300)는 오디오 신호를 수신하면, 미리 설정한 일정 간격으로 복수의 오디오 프레임들을 추출한다. 이때, 본 발명의 실시예에서는 30ms 길이의 오디오 신호를 매 10ms 마다 오디오 프레임으로 추출하는 것을 예로 하여 설명한다.As shown in FIG. 4 , in order to analyze the audio signal, when the
서버(300)가 제1 시점(t=1)에 수집한 제1 오디오 신호와 제1 시점 직후인 제2 시점(t=2)에 수집한 제2 오디오 신호는, 일정 부분의 오디오 프레임들이 중복된다. 이는, 윈도우 크기가 일부 중첩되도록 오디오 프레임들을 획득하여, 윈도우의 급격한 차단효과를 줄이기 위함이다.In the first audio signal collected by the
다음은 오디오 신호의 입력 정보 중, 멜 스펙트로그램에 대해 도 5를 참조로 설명한다.Next, a Mel spectrogram among input information of an audio signal will be described with reference to FIG. 5 .
도 5는 본 발명의 실시예에 따른 멜 스펙트로그램의 예시도이다.5 is an exemplary diagram of a Mel spectrogram according to an embodiment of the present invention.
도 5에 도시된 바와 같이, 서버(300)는 오디오 신호를 고속 푸리에 변환한 결과를 사용하여, 40차의 멜 스펙트로그램을 추출한다. 도 5에 도시된 멜 스펙트로그램의 x축은 시간축이고, y축은 주파수축이다. As shown in FIG. 5 , the
이때, 3개의 프레임으로 구성된 n번째 오디오 프레임을 예로 하면, n번째 오디오 프레임의 시작 위치인 제n 시점에 앞선 15 프레임(제n-15 프레임 ~ 제n-1 프레임), n번째 오디오 프레임에서 1 프레임(제n+1 프레임)부터 뒤의 15 프레임(제n+2 프레임 ~ 제n+16 프레임)을 이어 붙인다. 이렇게 총 31개의 프레임(제n-15 프레임 ~ 제n+16 프레임)의 멜 스펙트로그램인 31*40의 2차원 행렬로 구하여 시각화한 것이 도 5에 도시된 예시도이다. At this time, taking the nth audio frame composed of three frames as an example, 15 frames (n-15th frame to n-1th frame) preceding the nth time, which is the start position of the nth audio frame, 1 in the nth audio frame From the frame (n+1th frame), the 15th frames (n+2th frame to n+16th frame) are connected. This is an exemplary diagram shown in FIG. 5 to obtain and visualize a 31*40 two-dimensional matrix, which is a Mel spectrogram of a total of 31 frames (n-15th frame to n+16th frame).
다음은 본 발명의 실시예에서, 녹음 장치(200)가 한 개 구비된 스마트 디바이스(100)에서 오디오 신호를 수집하고, 서버(300)가 오디오 신호의 이상 여부를 확인할 때, 서버(300)에 구현된 신경망 분류기에 대해 도 6을 참조로 설명한다.Next, in an embodiment of the present invention, when the audio signal is collected from the
도 6은 본 발명의 실시예에 따른 신경망 분류기의 하나의 예시도이다.6 is an exemplary diagram of a neural network classifier according to an embodiment of the present invention.
도 6에 도시된 바와 같이, 신경망 분류기는 멜 스펙트로그램을 입력으로 받는 제1 입력 레이어(111)와 오디오 정보를 입력으로 받는 제2 입력 레이어(112)로 이루어진 입력 레이어(110)를 포함한다. As shown in FIG. 6 , the neural network classifier includes an
제1 입력 레이어(111)로 입력된 멜 스펙트로그램은 인공지능 알고리즘으로 학습된 제1 신경망 모델(120)로 입력되고, 제2 입력 레이어(112)로 입력된 오디오 정보들은 인공지능 알고리즘으로 학습된 제2 신경망 모델(130)로 입력된다. 여기서, 제1 신경망 모델(120)은 합성곱 재귀 신경망(CRNN: Convolutional Recurrent Neural Network) 기반의 모델이고, 제2 신경망 모델(130)은 재귀 신경망(RNN: Recurrent Neural Network) 기반의 모델이다. The Mel spectrogram input to the
본 발명의 실시예에서는 신경망 분류기의 입력 레이어(110)로 입력되는 입력 정보에 따라 적합한 신경망 모델(120, 130)을 통과시켜 특징 값들을 출력한다. 출력한 특징 값들을 연결 레이어인 분류 모델(140)에서 연결하여 하나의 연결 맵을 생성한다. According to the input information input to the
그리고 연결 맵에 활성화 함수인 소프트맥스(softmax)를 이용하여 확률값을 계산한다. 이때 확률값은 기 설정된 고장 유형별로 확률 값들이 계산된다. 여기서, 연결 레이어인 분류 모델(140)은 완전 연결 레이어로 구현되는 것을 예로 하여 설명한다.Then, the probability value is calculated using the activation function, softmax, in the connection map. In this case, the probability values are calculated for each preset failure type. Here, the
도 6에서 괄호 안의 숫자들은 해당 레이어의 노드(node) 개수를 의미한다. 예를 들어, 제1 신경망 모델(120)의 CNN 5*5(8)은 5*5 필터를 사용하는 CNN 레이어를 8개 사용하여 하나의 멜 스펙트로그램을 각각 처리한다는 것을 의미한다. In FIG. 6 , numbers in parentheses indicate the number of nodes of the corresponding layer. For example,
신경망 분류기의 각 레이어들에 대해 설명하면, 입력 레이어(110)는 멜 스펙트로그램과 오디오 정보를 수신하면, 배치 정규화(batch normalization) 알고리즘으로 멜 스펙트로그램과 오디오 정보를 정규화한다. 배치 정규화는 각 레이어에서의 활성화 값이 적당히 분포되도록 조정하는 것으로, 배치 정규화 방법은 이미 알려진 것으로, 본 발명의 실시예에서는 상세한 설명을 생략한다.Each of the layers of the neural network classifier will be described. When the
제1 신경망 모델(120)에 해당하는 합성곱 재귀 신경망 레이어는, 합성 곱 레이어, 활성화 레이어, 그리고 풀링 레이어로 이루어진다. 합성 곱 레이어는 배치 정규화된 멜 스펙트로그램에 합성 곱 연산을 적용한다. 합성곱 연산은 이미지 처리에서 말하는 필터 연산에 해당하는 것으로, 필터의 윈도우를 일정 간격으로 이동해가며 입력 데이터인 배치 정규화된 멜 스펙트로그램과 필터에 대응하는 원소끼리 곱한 후 총 합을 구한다.The convolutional recursive neural network layer corresponding to the first
활성화 레이어는 합성 곱 연산을 적용한 멜 스펙트로그램에 활성화 함수(activation function)을 적용한다. 여기서 활성화 함수로 하이퍼볼릭 탄젠트 함수(tanh(x))를 사용하는 것을 예로 하여 설명하나, 반드시 이와 같이 한정되는 것은 아니다. The activation layer applies an activation function to the Mel spectrogram to which the composite product operation is applied. Here, the use of the hyperbolic tangent function (tanh(x)) as the activation function is described as an example, but is not necessarily limited thereto.
풀링 레이어는, 활성화 합수가 적용된 멜 스펙트로그램의 주파수 도메인의 세로와 가로 방향의 공간을 줄인다. 이를 위해, 본 발명의 실시예에서는 최대 풀링(max pooling)을 사용하여, 멜 스펙트로그램의 크기를 줄여준다. The pooling layer reduces the vertical and horizontal space in the frequency domain of the Mel spectrogram to which the activation sum is applied. To this end, in the embodiment of the present invention, the size of the Mel spectrogram is reduced by using max pooling.
본 발명의 실시예에서 제1 신경망 모델(120)은 합성곱 재귀 신경망 구조를 사용하는 것을 예로 하여 설명하며, 제1 신경망 모델(120)에 포함된 GRU 대신 RNN, LSTM 등의 순환 신경망 구조를 사용할 수 있다. 또한, 제1 신경망 모델(120)의 세부적인 노드 개수나 레이어 개수는 도 6에 도시한 수로 한정하지 않고, 변경될 수 있다.In the embodiment of the present invention, the first
제2 신경망 모델(130)에 해당하는 순환 신경망 레이어는, 그래디언트 소실(vanishing gradient) 문제가 없고 연산량이 적은 GRU 셀을 활용한다. GRU 셀에 대한 사항은 이미 알려진 것으로, 본 발명의 실시예에서는 상세한 설명을 생략한다.The recurrent neural network layer corresponding to the second
본 발명의 실시예에서 제2 신경망 모델(130)은 RNN구조를 사용하는 것을 예로 하여 설명하며, GRU 대신 RNN, LSTM 등의 순환 신경망 구조를 사용할 수 있다. 그리고 제2 신경망 모델(130)의 세부적인 노드 개수나 레이어 개수는 도 6에 도시한 수로 한정하지 않고, 변경될 수 있다.In the embodiment of the present invention, the second
또한 이상에서 언급한 신경망 분류기를 사전에 고장난 녹음 장치(200)로 수집한 소리를 데이터 입력으로 하고, 고장 유형을 원 핫 벡터(one-hot-vector) 출력으로 하여 학습한다. 학습된 신경망 분류기는 매 프레임마다, 미리 정의해 둔 고장 유형들의 확률 값들을 출력한다.In addition, the above-mentioned neural network classifier is trained by using the sound collected in advance by the failed
이상에서는 스마트 디바이스(100)에 하나의 마이크가 구비된 경우의 고장 여부를 탐지하는 예에 대해 설명하였다. 한편, 스마트 디바이스(100')에 복수의 마이크가 구비되었을 경우, 스마트 디바이스(100')가 고장 여부를 탐지하는 또 다른 실시예에 대해 도 7을 참조로 설명한다. 도 7을 설명하기 앞서, 복수의 녹음 장치(200')들이 구비되어 있는 스마트 디바이스(100')의 신경망 분류기는 상기 도 2에서 설명한 바와 같이 서버(300)에서 고장 유형별로 학습되거나, 스마트 디바이스(100')에서 학습될 수 있다. 본 발명의 실시예에서는 설명의 편의를 위하여 스마트 디바이스(100')에서 신경망 분류기를 학습시킨 것을 예로 하여 설명한다.In the above, an example of detecting whether a malfunction occurs when a single microphone is provided in the
도 7은 본 발명의 실시예에 따른 복수의 마이크들이 구비된 스마트 디바이스가 녹음 장치의 고장 여부를 자가 탐지하는 방법에 대한 흐름도이다.7 is a flowchart of a method for a smart device equipped with a plurality of microphones according to an embodiment of the present invention to self-detect whether a recording apparatus fails.
도 7에 도시된 바와 같이, 스마트 디바이스(100')는 외부로부터 입력된 학습용 오디오 신호로부터 스펙트로그램과 오디오 정보를 추출하고(S300), 추출한 스펙트로그램과 오디오 정보를 이용하여 신경망 분류기를 학습시킨다(S310). 7, the smart device 100' extracts the spectrogram and audio information from the learning audio signal input from the outside (S300), and uses the extracted spectrogram and audio information to learn the neural network classifier ( S310).
스마트 디바이스(100)는 복수의 녹음 장치(200)를 통해 오디오 신호를 수집한다. 이때, 복수의 녹음 장치(200')들 중 선택한 두 개의 녹음 장치들을 통해 오디오 신호를 각각 수집한다(S320). The
여기서 스마트 디바이스(100')는 미리 설정된 순서로 복수의 녹음 장치(200')들 중 두 개의 녹음 장치를 선택하거나, 또는 랜덤하게 두 개의 녹음 장치를 선택할 수 있다. 그리고, 녹음 장치(200')가 복수 개이므로, 스마트 디바이스(100')는 수집한 소리로부터 추출한 오디오 신호에 각각의 녹음 장치(200')의 식별 정보를 포함하여 수집한다.Here, the smart device 100' may select two recording apparatuses from among the plurality of recording apparatuses 200' in a preset order, or may randomly select two recording apparatuses. And, since there are a plurality of recording apparatuses 200', the smart device 100' includes identification information of each recording apparatus 200' in the audio signal extracted from the collected sound, and collects it.
스마트 디바이스(100')는 S320 단계에서 수집한 두 개의 오디오 신호에서 입력 정보를 각각 추출한다(S330). 여기서 입력 정보는 두 오디오 신호의 스펙트로그램과 오디오 정보들을 포함한다. 스마트 디바이스(100')가 두 개의 오디오 신호로부터 입력 정보를 추출하기 위하여, 두 개의 소리로부터 각각 획득한 두 개의 오디오 신호를 일정한 간격의 프레임 단위로 잘라 오디오 프레임으로 추출한다. The smart device 100' extracts input information from the two audio signals collected in step S320, respectively (S330). Here, the input information includes spectrograms of two audio signals and audio information. In order for the smart device 100' to extract input information from the two audio signals, two audio signals each obtained from two sounds are cut into frame units at regular intervals and extracted as audio frames.
본 발명의 실시예에서는 30ms 길이의 두 개의 오디오 신호를 각각 10ms마다 오디오 프레임으로 추출하는 것을 예로 하여 설명한다. 따라서, 본 발명의 실시예에서의 1 프레임을 10ms로 정의하나 반드시 이와 같이 한정되는 것은 아니다. In the exemplary embodiment of the present invention, two audio signals having a length of 30 ms are extracted as an audio frame every 10 ms as an example. Accordingly, although one frame is defined as 10 ms in the embodiment of the present invention, it is not necessarily limited to this.
그리고, 스마트 디바이스(100')는 추출한 오디오 프레임들에 윈도잉(windowing)을 각각 적용한다. 윈도잉 함수를 각각 적용하여 두 오디오 신호로부터 오디오 프레임들을 획득한 후, 스마트 디바이스(100')는 오디오 프레임들을 고속 푸리에 변환(FFT: Fast Fourier Transform)하여, 시간과 음량으로 나타낸 타임 도메인(Time domain)의 오디오 프레임을 주파수와 음량으로 나타낸 주파수 도메인(Frequency domain)의 오디오 프레임으로 변환한다. Then, the smart device 100' applies windowing to the extracted audio frames, respectively. After obtaining audio frames from two audio signals by applying a windowing function to each, the
스마트 디바이스(100')는 주파수 도메인으로 변환된 두 개의 오디오 프레임들의 면적의 합을 구하여, 두 오디오 신호의 신호 세기를 각각 측정한다. 그리고 측정한 신호 세기가 미리 설정한 신호 세기보다 큰 경우에만, 해당 오디오 프레임을 고장 여부를 탐지하는 데 사용한다.The smart device 100' obtains the sum of the areas of the two audio frames converted into the frequency domain, and measures the signal strength of the two audio signals, respectively. And only when the measured signal strength is greater than the preset signal strength, the corresponding audio frame is used to detect a failure.
스마트 디바이스(100')는 오디오 프레임들을 이용하여, 멜 스펙트로그램(Mel-scaled spectrogram)과 오디오 정보를 추출한다. 스마트 디바이스(100')가 추출한 오디오 정보는 상기 도 2에서 설명한 오디오 정보들과 같다. 그리고 두 개의 녹음 장치(200')들 사이의 두 개의 차등 값(Difference measure)을 계산한다(S340).The
이상의 절차를 통해 멜 스펙트로그램과 오디오 정보들을 추출하고 차등 값을 계산하면, 스마트 디바이스(100')는 신경망 분류기를 통해 S320 단계에서 수집한 오디오 신호들에 이상이 있는지 여부를 확인한다. 그리고 오디오 신호들에 이상이 있는 것으로 확인하면, 오디오 신호들을 수집한 두 개의 녹음 장치(200') 중 어느 하나에 이상이 있는 것으로 확인한다. When the Mel spectrogram and audio information are extracted through the above procedure and the differential value is calculated, the
본 발명의 실시예에서는 스마트 디바이스(100')에 포함된 복수의 녹음 장치(200')들 중 적어도 하나의 녹음 장치에 이상이 있는지 여부만 탐지하는 것을 예로 하여 설명한다. 그러나, 두 오디오 프레임을 비교한 두 개의 녹음 장치(200') 각각의 고장 여부를 따로 검출한 후, 어떤 녹음 장치에서 어떠한 오류가 발생하였는지 확인할 수도 있다. In the embodiment of the present invention, only detecting whether there is an abnormality in at least one of the plurality of recording apparatuses 200' included in the smart device 100' is described as an example. However, after separately detecting whether each of the two
따라서 스마트 디바이스(100')는 두 개의 녹음 장치(200')들 사이의 차등 값을 토대로, 두 개의 녹음 장치(200') 중 어느 하나의 녹음 장치에 고장이 발생한 것으로 파악한다. 그리고, 기 정의된 녹음 장치의 고장 유형 정의에 따라 S320 단계에서 수집한 오디오 신호의 고장 형태를 분류한다(S350).Accordingly, the smart device 100' determines that a failure has occurred in any one of the two recording apparatuses 200' based on the differential value between the two recording apparatuses 200'. Then, according to the predefined failure type definition of the recording device, the failure type of the audio signal collected in step S320 is classified (S350).
여기서, 스마트 디바이스(100')는 인접한 필터 뱅크(filter bank) 간 상관 관계를 가지는 멜 스펙트로그램은 제1 신경망 모델을 통해 학습하여 이상 여부를 확인한다. 그리고 인접한 필터 뱅크간 상관 관계가 적은 오디오 정보는 제2 신경망 모델을 통해 학습한다. Here, the
이때, 스마트 디바이스(100')는 S330 단계에서 입력 정보로 추출한 멜 스펙트로그램과 오디오 정보, 그리고 S340 단계에서 계산한 녹음 장치(200')들의 차등 값을 이용하여, 녹음 장치(200)에 이상이 있는지 판별하기 위한 고장 유형은 상기 표 1에 정의한 바와 같다. At this time, the smart device 100' uses the Mel spectrogram and audio information extracted as input information in step S330, and the differential value of the recording apparatuses 200' calculated in step S340, to cause abnormalities in the
스마트 디바이스(100')는 S350 단계를 통해 오디오 신호의 이상 여부를 확인하고 분류한 뒤, 이상 빈도를 확인한다(S360). 그리고 오디오 신호에 이상이 있다고 확인한 횟수가 미리 설정한 빈도 이상이면, 녹음 장치(200')에 고장이 발생한 것으로 판단하여 스마트 디바이스(100')를 사용하는 사용자 또는 스마트 디바이스(100)를 통해 서비스를 제공하는 서비스 제공자에게 고장 발생을 통보한다(S370).The smart device 100' checks whether the audio signal is abnormal through step S350 and classifies it, and then checks the frequency of the abnormality (S360). And if the number of times that the audio signal is confirmed to be abnormal is greater than or equal to a preset frequency, it is determined that a failure has occurred in the recording apparatus 200 ', and the service is provided through the user or the
이상의 절차를 통해 스마트 디바이스(100')가 녹음 장치(200')의 고장 여부를 자가 진단할 때, 스마트 디바이스(100')는 선택한 두 개의 녹음 장치(200')들 사이의 두 개의 차등 값을 추출해야 한다. 이에 대해 도 8을 참조로 설명한다.When the smart device 100' self-diagnoses whether or not the recording apparatus 200' is malfunctioning through the above procedure, the smart device 100' determines two differential values between the two selected
도 8은 본 발명의 실시예에 따른 차등 값 추출을 위한 두 녹음 장치의 신호들을 나타낸 예시도이다.8 is an exemplary diagram illustrating signals of two recording devices for differential value extraction according to an embodiment of the present invention.
도 8의 (a)는 두 녹음 장치들이 수집한 소리의 오디오 신호들을 나타낸 것이고, 도 8의 (b)는 오디오 신호들에 n 제곱하여 확인한 오디오 신호들을 나타낸 예시도이다.FIG. 8(a) shows audio signals of sound collected by two recording devices, and FIG. 8(b) is an exemplary view showing audio signals checked by n squared on the audio signals.
스마트 디바이스(100')는 제1 녹음 장치가 수집한 소리의 제1 오디오 신호와, 제2 녹음 장치가 수집한 소리의 제2 오디오 신호의 차등 값을 두 신호 사이의 면적을 구하여 얻을 수 있다. 녹음 장치가 정상 상태인 경우라도, 녹음 장치가 설치된 위치에 따라 도 8의 (a)와 같이 두 오디오 신호들은 어느 정도의 차이를 보인다.The
오디오 신호들 사이의 차이는 오디오 신호의 진폭에 비례하는 성향을 보인다. 따라서 다음 수학식 8 및 수학식 9와 같이 스마트 디바이스(100)는 두 신호간의 크기(에너지) 차이를 전체 신호 크기의 합으로 나누고 정규화하여, 차등 값을 구한다. The difference between the audio signals tends to be proportional to the amplitude of the audio signal. Therefore, as shown in
본 발명의 실시예에서는 스마트 디바이스(100)는 두 개의 차등 값을 구한다. 두 개의 녹음 장치(200') 중 적어도 하나의 녹음 장치에 이상이 있을 경우, 각 녹음 장치(200')로 들어오는 신호들 사이의 차이가 발생하고, 차등 값은 커진다. 도 8의 (a)에 나타낸 정상 그래프는 아래 면적이 거의 비슷하나, 도 8의 (b)에 나타낸 바와 같이 두 개의 녹음 장치(200') 중 하나가 고장 난 경우, 면적 차이가 크게 나타난다. 이런 값의 변화를 신경망에 추가 정보 입력으로 사용하여 신경망의 정확도를 올릴 수 있습니다In an embodiment of the present invention, the
즉, 제1 오디오 신호와 제2 오디오 신호의 제1 차등 값을 수학식 8을 이용하여 구하고, 제1 오디오 신호와 제2 오디오 신호를 2 제곱하여 제2 차등 값을 수학식 9를 이용하여 구한다. 그러나, 반드시 이와 같이 한정되는 것은 아니다. That is, the first difference value of the first audio signal and the second audio signal is obtained by using
다음은 복수개의 녹음 장치(200')를 구비한 스마트 디바이스(100')가 오디오 신호의 이상 여부를 확인하기 위한 신경망 분류기에 대해 도 9를 참조로 설명한다.Next, a neural network classifier for determining whether a
도 9는 본 발명의 실시예에 따른 신경망 분류기의 또 다른 예시도이다. 9 is another exemplary diagram of a neural network classifier according to an embodiment of the present invention.
본 발명의 실시예에서는 복수의 녹음 장치들이 구비되어 있다고 하더라도, 스마트 디바이스(100)가 임의의 두 개의 녹음 장치를 선택하여 오디오 신호의 이상 여부를 확인하는 것을 예로 하여 설명한다. 따라서, 두 개의 오디오 신호의 이상 여부를 확인하는 신경망 구조는 도 8에 도시된 바와 같다.In the embodiment of the present invention, even if a plurality of recording apparatuses are provided, an example in which the
도 9에 도시된 바와 같이, 신경망 분류기는 입력 레이어(110')를 통해 멜 스펙트로그램과 오디오 정보를 입력으로 받는다. 이때, 녹음 장치(200')가 복수 개 이므로, 입력 레이어(110')는 각각 복수의 녹음 장치(200')가 획득한 소리의 음성 신호를 처리한 처리 정보를 각각 수신한다. 또한, 두 오디오 신호를 통해 계산된 두 개의 차등 값도 입력으로 수신한다.As shown in FIG. 9 , the neural network classifier receives a Mel spectrogram and audio information through an
각각의 레이어의 기능은 상기 도 5에서 설명한 바와 동일하다. 즉, 입력부(110')로 입력된 멜 스펙트로그램은 인공지능 알고리즘으로 학습되었으며 합성곱 재귀 신경망 기반의 모델인 제1 신경망 모델(120')로 입력된다. 그리고, 오디오 정보들과 차등 값들은 인공지능 알고리즘으로 학습되었으며 재귀 신경망 기반의 모델인 제2 신경망 모델(130')로 입력된다. The function of each layer is the same as described with reference to FIG. 5 . That is, the Mel spectrogram input to the input unit 110' is learned by an artificial intelligence algorithm and is input to the first neural network model 120', which is a model based on a convolutional recursive neural network. Then, the audio information and the differential values are learned by an artificial intelligence algorithm and are input to the second
본 발명의 실시예에서는 신경망 분류기의 입력 레이어(110')로 입력되는 입력 정보에 따라 적합한 신경망 모델(120', 130')을 통과시켜 각 입력되는 정보에 따른 특징 값들을 출력한다. 그리고, 신경망 모델(120', 130')에서 출력된 특징 값들을 연결 레이어인 분류 모델(140')에서 연결하여 하나의 연결 맵을 생성한다. According to the input information input to the input layer 110' of the neural network classifier, the appropriate neural network models 120' and 130' are passed through the embodiment of the present invention, and feature values according to each input information are output. Then, one connection map is generated by connecting the feature values output from the neural network models 120' and 130' in the classification model 140', which is a connection layer.
연결 맵에 활성화 함수인 소프트맥스(softmax)를 이용하여 확률값을 계산한다. 이때 확률값은 기 설정된 고장 유형별로 확률 값들이 계산된다. 여기서, 분류 모델(140')은 완전 연결 레이어로 구현되는 것을 예로 하여 설명한다.The probability value is calculated using the activation function softmax in the connection map. In this case, the probability values are calculated for each preset failure type. Here, the
이때, 신경망 분류기가 출력한 확률 값들을 시각화한 그래프에 대해 도 10을 참조로 설명한다.At this time, a graph visualizing the probability values output by the neural network classifier will be described with reference to FIG. 10 .
도 10은 본 발명의 실시예에 따라 출력된 고장 유형별 확률 값을 시각화한 그래프의 예시도이다.10 is an exemplary diagram of a graph visualizing a probability value for each type of failure outputted according to an embodiment of the present invention.
도 10에서는 상기 표 1에서 설명한 8개의 고장 유형들 중, 정상일 때의 확률 값, 순간성 고장과 지속성 고장의 확률 값을 시각화하여 나타내었으며, 8개의 고장 유형들별로 모두 확률 값이 계산된다.In FIG. 10, among the eight failure types described in Table 1, the probability values for normal and the probability values for instantaneous failure and persistent failure are visualized and the probability values are calculated for each of the eight failure types.
신경망 분류기를 사용하여 입력된 오디오 신호를 분류하면, 오류 검출 결과가 일정 기간(10ms) 간격으로 생성된다. 신경망 분류기에서는 각 고장 유형별로 확률값이 출력되고, 이를 시간에 따라 변화를 볼 수 있도록 시각화하면 도 9에 도시된 바와 같다.When an input audio signal is classified using a neural network classifier, error detection results are generated at intervals of a predetermined period (10 ms). In the neural network classifier, probability values are output for each failure type, and when visualized so as to see changes over time, as shown in FIG. 9 .
도 10에서는 하나의 녹음 장치(200)에 대한 고장 유형별 확률 값을 나타내었다. 그러나, 복수의 녹음 장치(200')를 사용하는 경우에는 녹음 장치(200')의 수만큼의 그래프가 생성된다.10 shows probability values for each failure type for one
여기서, 임의의 시점에서의 정상 확률값, 지속성 고장 확률값, 순간성 고장 확률값의 합은 1이 된다. 그리고 점선으로 표시한 시점과 같이, 정상일 경우의 확률 값은 대략 0.1이나, 순간성 고장의 확률 값이 0.9인 경우, 스마트 디바이스(100)는 해당 시점에 녹음 장치(200)에 순간성 고장이 발생한 것으로 판단할 수 있다.Here, the sum of the normal probability value, the persistent failure probability value, and the instantaneous failure probability value at an arbitrary point in time becomes 1. And, as indicated by the dotted line, the probability value in the normal case is approximately 0.1, but when the probability value of the instantaneous failure is 0.9, the
즉, 순간성 고장과 지속성 고장의 확률값은 판이하게 다르다. 이에 따라, 순간성 고장과 지속성 고장 유형에 따라 서로 다른 고장 판별 기준이 필요하다.That is, the probability values of instantaneous failure and persistent failure are significantly different. Accordingly, different failure discrimination criteria are required according to the types of instantaneous and persistent failures.
순간성 고장의 경우 아주 짧은 시간 동안만, 간헐적으로 이상이 발생한다. 이를 검출하기 위하여, 스마트 디바이스(100)는 신경망 분류기에서 계산한 확률값들 중 최대값을 갖는 고장 유형을 찾는다. 만일 최대값을 가지는 고장 유형이 순간성 고장인 경우, 해당 고장 유형의 고장이 발생했다 판별한다. In the case of a momentary failure, an error occurs intermittently only for a very short period of time. To detect this, the
스마트 디바이스(100)는 오검출을 막기 위하여, 긴 시간 동안 일정 회수 초과하여 같은 이상이 발생하는 경우에만 고장으로 통보한다. 예를 들어, 30분 동안 10 프레임을 초과하여 이상이 발생할 경우, 녹음 장치(200)에 고장이 있는 것으로 통보한다. In order to prevent erroneous detection, the
한편, 지속성 고장의 경우, 연속하여 이상 증상이 발생한다. 보통, 녹음 장치(200)가 정상적인 상황에서도, 순간적으로 고장 유형의 확률 값이 계산될 수 있다. 이런 경우를 모두 고장으로 감지하는 경우, 녹음 장치(200)가 정상임에도 오검출을 할 수 있다. On the other hand, in the case of continuous failure, abnormal symptoms occur continuously. In general, even when the
이를 방지하기 위하여, 일정 시간 동안 계속하여 이상이 발생하는 경우 고장으로 검출한다. 예를 들어, 5분 이상 지속적으로 오디오 신호에 오류가 발생한 것으로 인지하면, 녹음 장치(200)에 지속성 고장이 발생한 것으로 통보한다.In order to prevent this, when an abnormality occurs continuously for a certain period of time, it is detected as a failure. For example, if it is recognized that an error has occurred in the audio signal continuously for 5 minutes or more, the
이와 같은 방법으로 스마트 디바이스(100)가 스마트 디바이스(100)의 녹음 장치(200)의 고장을 자가 탐지한다면, 녹음 장치(200)가 불량인 경우 고객에게 바로 알려서 조치를 받도록 유도할 수 있다. 그리고, 스마트 디바이스(100)를 회수하지 않고도 녹음 장치(200)의 불량을 알 수 있다. In this way, if the
또한, 특수한 신호의 재생 없이도 스마트 디바이스(100)에서 출력되는 소리나 사용자의 음성 등 일반적인 소리를 통해 녹음 장치(200)의 불량을 감지할 수 있다. 그리고, 감지한 녹음 장치(200)의 고장 종류를 명확하게 파악함으로써, 스마트 디바이스(100)를 개선하는데 사용할 수 있다.In addition, it is possible to detect a defect in the
도 11은 본 발명의 실시예에 따른 컴퓨터 시스템의 구조도이다.11 is a structural diagram of a computer system according to an embodiment of the present invention.
도 11을 참고하면, 적어도 하나의 프로세서에 의해 동작하는 컴퓨터 시스템(400)에서, 본 발명의 동작을 실행하도록 기술된 명령들(instructions)이 포함된 프로그램을 실행한다. 프로그램은 컴퓨터 판독 가능한 저장매체에 저장될 수 있고, 유통될 수 있다. 여기서, 컴퓨터 시스템(400)의 구조는 본 발명의 실시예에 따른 스마트 디바이스(100)의 구조일 수도 있고, 서버(300)의 구조일 수도 있다.Referring to FIG. 11 , in the
컴퓨터 시스템(400)의 하드웨어는 적어도 하나의 프로세서(410), 메모리(420), 스토리지(430), 통신 인터페이스(440)를 포함할 수 있고, 버스를 통해 연결될 수 있다. 이외에도 입력 장치 및 출력 장치 등의 하드웨어가 포함될 수 있다. 컴퓨터 시스템(400)는 프로그램을 구동할 수 있는 운영 체제를 비롯한 각종 소프트웨어가 탑재될 수 있다.Hardware of the
프로세서(410)는 컴퓨터 시스템(400)의 동작을 제어하는 장치로서, 프로그램에 포함된 명령들을 처리하는 다양한 형태의 프로세서일 수 있고, 예를 들면, CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 등 일 수 있다. The
메모리(420)는 본 발명의 동작을 실행하도록 기술된 명령들이 프로세서(410)에 의해 처리되도록 해당 프로그램을 로드한다. 메모리(420)는 예를 들면, ROM(read only memory), RAM(random access memory) 등 일 수 있다. 스토리지(430)는 본 발명의 동작을 실행하는데 요구되는 각종 데이터, 프로그램 등을 저장한다. 통신 인터페이스(440)는 유/무선 통신 모듈일 수 있다. The
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.Although the embodiments of the present invention have been described in detail above, the scope of the present invention is not limited thereto, and various modifications and improved forms of the present invention are also provided by those skilled in the art using the basic concept of the present invention as defined in the following claims. is within the scope of the right.
Claims (16)
고장 유형별 학습용 오디오 신호들을 입력 받아, 각 학습용 오디오 신호에 대한 적어도 하나의 스펙트로그램과 오디오 정보들을 각각 추출하는 단계,
각 학습용 오디오 신호들에 대한 적어도 하나의 스펙트로그램과 오디오 정보들을 해당 고장 유형에 매핑한 학습 데이터를 생성하는 단계,
상기 학습 데이터를 이용하여 신경망 분류기를 학습시키는 단계, 그리고
상기 스마트 디바이스로부터 오디오 신호를 수신하고, 학습된 신경망 분류기를 이용하여 상기 오디오 신호의 고장 유형을 탐지하여 상기 스마트 디바이스로 전달하는 단계
를 포함하고,
상기 학습된 신경망 분류기는, 상기 고장 유형별 학습용 오디오 신호들의 스펙트로그램 특징 값을 출력하도록 학습된 제1 신경망 모델,
상기 고장 유형별 학습용 오디오 신호들의 오디오 정보 특징 값을 출력하도록 학습된 제2 신경망 모델, 그리고
상기 제1 신경망 모델 및 제2 신경망 모델에서 출력된 특징 값들을 연결하여, 해당 학습용 오디오 신호의 고장 유형이 출력되도록 학습된 분류 모델
을 포함하는, 고장 탐지 방법.As a method for the server to detect the failure of the recording device of the smart device,
receiving the learning audio signals for each failure type, and extracting at least one spectrogram and audio information for each learning audio signal, respectively;
generating training data in which at least one spectrogram and audio information for each training audio signal are mapped to a corresponding failure type;
training a neural network classifier using the training data, and
Receiving an audio signal from the smart device, detecting a failure type of the audio signal using a learned neural network classifier, and transmitting it to the smart device
including,
The learned neural network classifier comprises: a first neural network model trained to output spectrogram feature values of the learning audio signals for each failure type;
A second neural network model trained to output audio information feature values of the audio signals for learning for each failure type, and
A classification model trained to output the failure type of the corresponding learning audio signal by connecting the feature values output from the first neural network model and the second neural network model.
A fault detection method comprising:
상기 제1 신경망 모델은 합성곱 재귀 신경망(CRNN: Convolutional Recurrent Neural Network) 기반의 모델이고,
상기 제2 신경망 모델은 재귀 신경망(RNN: Recurrent Neural Network) 기반의 모델인, 고장 탐지 방법.According to claim 1,
The first neural network model is a convolutional recurrent neural network (CRNN)-based model,
The second neural network model is a recurrent neural network (RNN)-based model, a failure detection method.
상기 고장 유형은 정상 유형, 순간성 고장 유형, 또는 지속성 고장 유형 중 적어도 하나를 포함하는, 고장 탐지 방법.3. The method of claim 2
The failure detection method, wherein the failure type includes at least one of a normal type, a transient failure type, or a persistent failure type.
상기 스펙트로그램과 오디오 정보들을 각각 추출하는 단계는,
각 학습용 오디오 신호에서 복수의 시간 구간 신호들을 추출하는 단계, 그리고
각 시간 구간 신호를 주파수 도메인으로 변환하여, 해당 시간 구간 신호의 스펙트로그램과 오디오 정보들을 추출하는 단계
를 포함하고,
상기 복수의 시간 구간 신호들 각각은 이전 시간 구간 또는 이후 시간 구간과 적어도 일부의 시간 구간이 중복되도록 추출되는, 고장 탐지 방법.The method of claim 1
The step of extracting the spectrogram and the audio information, respectively,
extracting a plurality of time interval signals from each learning audio signal, and
Transforming each time interval signal into a frequency domain and extracting spectrogram and audio information of the corresponding time interval signal
including,
Each of the plurality of time interval signals is extracted such that at least some time intervals overlap with a previous time interval or a subsequent time interval.
녹음 장치에서 수집된 오디오 신호를 입력 받는 단계,
상기 오디오 신호에 대한 적어도 하나의 스펙트로그램과 오디오 정보들을 추출하는 단계, 그리고
상기 오디오 신호의 스펙트로그램과 오디오 정보들을, 고장 유형별 학습용 오디오 신호들로 학습된 신경망 모델로 입력하고, 상기 신경망 모델을 통해 상기 오디오 신호의 고장 유형을 탐지하는 단계
를 포함하는, 고장 탐지 방법.A method for a smart device including a recording device to detect a failure of the recording device, the method comprising:
receiving the audio signal collected from the recording device;
extracting at least one spectrogram and audio information for the audio signal; and
inputting the spectrogram and audio information of the audio signal into a neural network model trained as audio signals for learning for each failure type, and detecting a failure type of the audio signal through the neural network model
Including, a fault detection method.
상기 오디오 신호를 입력 받는 단계 이전에,
고장 유형별 학습용 오디오 신호들을 입력 받아, 각 학습용 오디오 신호에 대한 적어도 하나의 스펙트로그램과 오디오 정보들을 각각 추출하는 단계,
각 학습용 오디오 신호들에 대한 적어도 하나의 스펙트로그램과 오디오 정보들을 해당 고장 유형에 매핑한 학습 데이터를 생성하는 단계, 그리고
상기 학습 데이터를 이용하여 신경망 분류기를 학습시키는 단계
를 포함하고,
상기 신경망 분류기를 학습시키는 단계는,
상기 스펙트로그램이 입력되면 스펙트로그램 특징 값을 출력하도록 상기 신경망 분류기에 포함된 제1 신경망 모델을 학습시키는 단계,
상기 오디오 정보들이 입력되면 오디오 정보 특징 값을 출력하도록 상기 신경망 분류기에 포함된 제2 신경망 모델을 학습시키는 단계, 그리고
제1 신경망 모델에서 출력된 스펙트로그램 특징 값 및 상기 제2 신경망 모델에서 출력된 오디오 정보 특징 값을 연결하여 계산한 확률 값을 기초로 입력 오디오 신호의 고장 유형을 출력하도록 분류 모델을 학습시키는 단계
를 더 포함하는, 고장 탐지 방법.6. The method of claim 5,
Before the step of receiving the audio signal,
receiving the learning audio signals for each failure type, and extracting at least one spectrogram and audio information for each learning audio signal, respectively;
generating training data in which at least one spectrogram and audio information for each training audio signal are mapped to a corresponding failure type; and
training a neural network classifier using the training data
including,
The step of training the neural network classifier comprises:
training a first neural network model included in the neural network classifier to output a spectrogram feature value when the spectrogram is input;
training a second neural network model included in the neural network classifier to output an audio information feature value when the audio information is input; and
Training the classification model to output the failure type of the input audio signal based on the probability value calculated by connecting the spectrogram feature value output from the first neural network model and the audio information feature value output from the second neural network model
Further comprising, a failure detection method.
상기 오디오 신호를 입력 받는 단계 이전에,
상기 스마트 디바이스와 연동하는 서버로부터, 상기 서버에서 학습된 신경망 모델을 수신하는 단계
를 더 포함하는, 고장 탐지 방법.6. The method of claim 5,
Before the step of receiving the audio signal,
Receiving the neural network model learned from the server from the server interworking with the smart device
Further comprising, a failure detection method.
상기 스펙트로그램과 오디오 정보들을 추출하는 단계는,
상기 입력 받은 오디오 신호로에서 복수의 시간 구간 신호들을 추출하는 단계, 그리고
각 시간 구간 신호를 주파수 도메인으로 변환하여, 해당 시간 구간 신호의 스펙트로그램과 오디오 정보들을 추출하는 단계
를 포함하고,
상기 복수의 시간 구간 신호들 각각은 이전 시간 구간 또는 이후 시간 구간과 적어도 일부의 시간 구간이 중복되도록 추출되는, 고장 탐지 방법.6. The method of claim 5
The step of extracting the spectrogram and audio information,
extracting a plurality of time interval signals from the received audio signal; and
Transforming each time interval signal into a frequency domain and extracting spectrogram and audio information of the corresponding time interval signal
including,
Each of the plurality of time interval signals is extracted such that at least some time intervals overlap with a previous time interval or a subsequent time interval.
상기 제1 신경망 모델은 합성곱 재귀 신경망(CRNN: Convolutional Recurrent Neural Network) 기반의 모델이고,
상기 제2 신경망 모델은 재귀 신경망(RNN: Recurrent Neural Network) 기반의 모델인, 고장 탐지 방법.7. The method of claim 6,
The first neural network model is a convolutional recurrent neural network (CRNN)-based model,
The second neural network model is a recurrent neural network (RNN)-based model, a failure detection method.
상기 분류 모델을 학습시키는 단계는,
상기 스펙트로그램 특징 값과 오디오 정보 특징 값을 완전 연결 연산 처리하여 연결 맵을 생성하고, 상기 생성한 연결 맵에 활성화 함수를 적용하여 상기 확률 값으로 계산하는, 고장 탐지 방법.7. The method of claim 6,
The step of training the classification model comprises:
A method for detecting a failure, wherein the spectrogram feature value and the audio information feature value are completely concatenated to generate a connectivity map, and an activation function is applied to the generated connectivity map to calculate the probability value.
상기 녹음 장치가 복수 개이면, 상기 고장 유형을 획득하는 단계는,
상기 복수의 녹음 장치들 중 제1 녹음 장치가 수집한 제1 오디오 신호의 스펙트로그램과 오디오 정보, 제2 녹음 장치가 수집한 제2 오디오 신호의 스펙트로그램과 오디오 정보, 그리고 상기 제1 오디오 신호와 제2 오디오 신호의 차이값을 입력 정보로 추출하는 단계, 그리고
상기 입력 정보를, 상기 학습된 신경망 모델로 입력하고, 상기 신경망 모델로부터 상기 제1 오디오 신호와 제2 오디오 신호의 고장 유형을 획득하는 단계
를 포함하는, 고장 탐지 방법.6. The method of claim 5,
If there are a plurality of recording devices, obtaining the failure type includes:
The spectrogram and audio information of the first audio signal collected by the first recording device among the plurality of recording devices, the spectrogram and audio information of the second audio signal collected by the second recording device, and the first audio signal extracting the difference value of the second audio signal as input information, and
inputting the input information into the learned neural network model, and obtaining failure types of the first audio signal and the second audio signal from the neural network model
Including, a fault detection method.
상기 입력 정보로 추출하는 단계는,
상기 제1 오디오 신호와 제2 오디오 신호로부터 제1 주파수 도메인 값과 제2 주파수 도메인 값을 생성하는 단계,
상기 제1 주파수 도메인 값과 제2 주파수 도메인 값의 제1 차이값을 계산하는 단계, 그리고
상기 제1 오디오 신호와 제2 오디오 신호를 n 제곱하고, n 제곱된 제1 오디오 신호와 제2 오디오 신호의 각 주파수 도메인 값들로부터 제2 차이값을 계산하는 단계
를 포함하는, 고장 탐지 방법.12. The method of claim 11,
The step of extracting the input information is,
generating first and second frequency domain values from the first and second audio signals;
calculating a first difference value between the first frequency domain value and the second frequency domain value; and
n-squaring the first audio signal and the second audio signal, and calculating a second difference value from respective frequency domain values of the n-squared first audio signal and the second audio signal;
Including, a fault detection method.
적어도 하나의 명령어를 포함하고, 고장 유형별 학습용 오디오 신호들을 저장하는 메모리,
상기 스마트 디바이스로부터 오디오 신호를 수신하는 인터페이스, 그리고
프로세서
를 포함하고,
상기 프로세서는,
상기 고장 유형별 학습용 오디오 신호로부터 스펙트로그램과 오디오 정보들을 추출하고, 상기 스펙트로그램과 오디오 정보들을 이용하여 신경망 분류기를 학습시키고, 학습된 신경망 분류기로 상기 수신한 오디오 신호를 입력하여 상기 오디오 신호의 고장 유형을 탐지하는, 서버.As a server for detecting the failure of the recording device included in the smart device,
A memory including at least one instruction and storing audio signals for learning for each failure type;
an interface for receiving an audio signal from the smart device, and
processor
including,
The processor is
Spectrogram and audio information are extracted from the learning audio signal for each failure type, a neural network classifier is trained using the spectrogram and audio information, and the received audio signal is input to the learned neural network classifier to determine the failure type of the audio signal. to detect, the server.
상기 프로세서는,
상기 수신한 오디오 신호로부터 일정 구간이 중복되도록 복수의 구간 신호들을 추출하고, 추출한 상기 구간 신호들을 주파수 도메인 값으로 변환하여 상기 복수의 오디오 정보들을 추출하는, 서버.14. The method of claim 13,
The processor is
A server for extracting a plurality of section signals to overlap a predetermined section from the received audio signal, and converting the extracted section signals into frequency domain values to extract the plurality of audio information.
상기 프로세서는,
상기 스마트 디바이스의 녹음 장치가 복수 개이면, 복수 개의 녹음 장치가 각각 수집한 오디오 신호들 사이의 차이값을 계산하는, 서버.15. The method of claim 14,
The processor is
If there are a plurality of recording apparatuses of the smart device, the server calculates a difference value between the audio signals collected by the plurality of recording apparatuses, respectively.
상기 프로세서는,
상기 스펙트로그램 특징 값과 오디오 정보 특징 값을 완전 연결 연산 처리하여 연결 맵을 생성하고, 상기 생성한 연결 맵에 활성화 함수를 적용하여 상기 확률 값을 계산하는, 서버.16. The method of claim 15,
The processor is
A server for generating a connection map by performing full connection operation processing on the spectrogram feature value and the audio information feature value, and calculating the probability value by applying an activation function to the created connection map.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200042992A KR20210125366A (en) | 2020-04-08 | 2020-04-08 | Method for detecting recording device failure using neural network classifier, server and smart device implementing the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200042992A KR20210125366A (en) | 2020-04-08 | 2020-04-08 | Method for detecting recording device failure using neural network classifier, server and smart device implementing the same |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20210125366A true KR20210125366A (en) | 2021-10-18 |
Family
ID=78271495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200042992A KR20210125366A (en) | 2020-04-08 | 2020-04-08 | Method for detecting recording device failure using neural network classifier, server and smart device implementing the same |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20210125366A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115713945A (en) * | 2022-11-10 | 2023-02-24 | 杭州爱华仪器有限公司 | Audio data processing method and prediction method |
CN116417013A (en) * | 2023-06-09 | 2023-07-11 | 中国海洋大学 | Underwater propeller fault diagnosis method and system |
-
2020
- 2020-04-08 KR KR1020200042992A patent/KR20210125366A/en unknown
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115713945A (en) * | 2022-11-10 | 2023-02-24 | 杭州爱华仪器有限公司 | Audio data processing method and prediction method |
CN116417013A (en) * | 2023-06-09 | 2023-07-11 | 中国海洋大学 | Underwater propeller fault diagnosis method and system |
CN116417013B (en) * | 2023-06-09 | 2023-08-25 | 中国海洋大学 | Underwater propeller fault diagnosis method and system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11543326B2 (en) | Method and system for performing fault diagnosis by bearing noise detection | |
US11475910B2 (en) | System and methods for machine anomaly detection based on sound spectrogram images and neural networks | |
US20190192110A1 (en) | Classifier ensemble for detection of abnormal heart sounds | |
US11984135B2 (en) | System and method for offline embedded abnormal sound fault detection | |
KR20210125366A (en) | Method for detecting recording device failure using neural network classifier, server and smart device implementing the same | |
CN108414240A (en) | A kind of method and apparatus of detection machine abnormal vibrations | |
KR20200080380A (en) | Apparatus and method for fault diagnosis of gearbox using cnn | |
JP2012018066A (en) | Device for inspecting abnormality | |
CN111986699B (en) | Sound event detection method based on full convolution network | |
US20210186370A1 (en) | Automated and objective symptom severity score | |
KR102314824B1 (en) | Acoustic event detection method based on deep learning | |
KR20210003004A (en) | Method and apparatus for abnormality diagnose and prediction based on ensemble model | |
KR20220064098A (en) | Fault diagnosis apparatus and method based on machine-learning | |
Pan et al. | Cognitive acoustic analytics service for Internet of Things | |
US20180188104A1 (en) | Signal detection device, signal detection method, and recording medium | |
JP4886461B2 (en) | Abnormality monitoring device | |
JP2019066339A (en) | Diagnostic device, diagnostic method and diagnostic system each using sound | |
JP4886460B2 (en) | Abnormality monitoring device | |
JP5994639B2 (en) | Sound section detection device, sound section detection method, and sound section detection program | |
JP2002323371A (en) | Sound diagnostic device and sound diagnostic method | |
JP7373358B2 (en) | Sound extraction system and sound extraction method | |
JP2021156631A (en) | Anomaly detection device and method | |
CN112850408B (en) | Elevator emergency stop trapped person fault detection method based on multi-model fusion | |
KR20230080242A (en) | Method for diagnosing machine failure using sound and vibrtion based on deep learning and diagnostic device using them | |
JP2004205215A (en) | Sound source diagnosing device |