KR20210125366A - Method for detecting recording device failure using neural network classifier, server and smart device implementing the same - Google Patents

Method for detecting recording device failure using neural network classifier, server and smart device implementing the same Download PDF

Info

Publication number
KR20210125366A
KR20210125366A KR1020200042992A KR20200042992A KR20210125366A KR 20210125366 A KR20210125366 A KR 20210125366A KR 1020200042992 A KR1020200042992 A KR 1020200042992A KR 20200042992 A KR20200042992 A KR 20200042992A KR 20210125366 A KR20210125366 A KR 20210125366A
Authority
KR
South Korea
Prior art keywords
neural network
audio signal
audio
failure
spectrogram
Prior art date
Application number
KR1020200042992A
Other languages
Korean (ko)
Inventor
금명철
김종엽
이성재
정재훈
류창선
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020200042992A priority Critical patent/KR20210125366A/en
Publication of KR20210125366A publication Critical patent/KR20210125366A/en

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/18Error detection or correction; Testing, e.g. of drop-outs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/36Monitoring, i.e. supervising the progress of recording or reproducing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

The present invention relates to a method for a server to detect failure of a recording device, which detects failure of a recording device of a smart device by using a neural network classifier. According to the present invention, the method comprises: a step of receiving training audio signals for each failure type to extract at least one spectrogram and audio information for each training audio signal; a step of generating training data in which the at least one spectrogram and audio information for each training audio signal are mapped to a corresponding failure type to train a neural network classifier; and a step of when receiving an audio signal from the smart device, using the trained neural network classifier to detect and transfer the failure type of the audio signal to a smart device, wherein the trained neural network classifier includes: a first neural network model trained to output spectrogram feature values of the training audio signals by failure type; a second neural network model trained to output audio information feature values of the training audio signals for each failure type; and a classification model trained to output the failure type of the corresponding training audio signal by connecting the feature values output from the first neural network model and the second neural network model.

Description

신경망 분류기를 이용하여 녹음 장치 고장을 탐지하는 방법, 이를 구현한 서버 및 스마트 디바이스{Method for detecting recording device failure using neural network classifier, server and smart device implementing the same}Method for detecting recording device failure using neural network classifier, server and smart device implementing the same}

본 발명은 녹음 장치가 구비된 있는 스마트 디바이스에서, 녹음 장치의 고장을 판별하고 사용자나 서비스 제공자에게 통보하는 신경망 분류기를 이용하여 녹음 장치 고장을 탐지하는 방법, 이를 구현한 서버 및 스마트 디바이스에 관한 것이다.The present invention relates to a method for detecting a recording apparatus failure in a smart device equipped with a recording apparatus using a neural network classifier that determines the failure of the recording apparatus and notifies a user or a service provider, a server implementing the same, and a smart device .

기술의 발전으로 인하여, 다양한 제품에 음성인식 기능이 탑재되고 있다. 전 세계의 인공지능 스피커의 보급 대수만 해도 이미 1억이 넘는다. 기타 IoT 제품까지 생각하면, 엄청난 수의 음성인식 디바이스들이 이미 우리 주위에 보급되어 있는 것이다.Due to the development of technology, various products are equipped with a voice recognition function. The number of artificial intelligence speakers around the world alone has already exceeded 100 million. If you consider other IoT products, a huge number of voice recognition devices are already in use around us.

이와 같은 스마트 디바이스에서 마이크의 성능은 곧 음성 인식의 정확도로 이어진다. 음성이 깨끗하게 들어오면, 스마트 디바이스는 더 정확한 결과를 도출한다. 따라서 스마트 디바이스에 마이크 개수를 늘리고, 최신 음성처리 기술을 사용하는 등, 음성 품질을 향상시키기 위해 많은 노력을 투자한다.In such smart devices, the performance of the microphone leads to the accuracy of speech recognition. When the voice comes in clear, the smart device produces more accurate results. Therefore, we invest a lot of effort to improve voice quality, such as increasing the number of microphones in smart devices and using the latest voice processing technology.

이러한 노력에도 불구하고, 마이크의 고장이나 이물질 등 이상이 발생하면 스마트 디바이스는 왜곡된 음성을 수집하게 된다. 이런 경우, 스마트 디바이스는 문장을 엉뚱하게 알아듣는다.Despite these efforts, if an abnormality such as a malfunction of the microphone or foreign material occurs, the smart device collects distorted voice. In this case, the smart device understands the sentence incorrectly.

하지만 사용자 입장에서는 녹음 장치의 고장 여부를 알기 힘들다. 이는 사용자가 녹음되는 목소리를 직접 들어볼 수 없기 때문이다. 또한, 사용자는 부정확한 음성인식의 원인이 마이크인지, 소음인지, 음성인식 소프트웨어의 성능 부족인지를 알 방법이 없다. However, it is difficult for the user to know whether the recording device is malfunctioning. This is because the user cannot directly hear the voice being recorded. In addition, the user has no way of knowing whether the cause of inaccurate voice recognition is a microphone, noise, or lack of performance of voice recognition software.

또한 종래에는, 스마트 기기의 스피커에서 특수하게 제작한 기준 신호를 재생하고, 스마트 기기의 마이크로 들어오는 신호가 기준 신호와 일정 이상 다른 경우 고장으로 판별하고 있다. In addition, in the prior art, a specially produced reference signal is reproduced from a speaker of a smart device, and a malfunction is determined when a signal coming into the microphone of the smart device differs from the reference signal by a predetermined or more.

이를 위해, 정상 기기의 스피커에서 기준 신호를 재생 후, 동일 기기의 마이크로 들어오는 신호를 녹음시료로 녹음해둔다. 시험할 기기에서 기준 신호를 재생 후, 마이크로 들어오는 신호를 녹음시료와 비교하여 일정 이상 다른 경우 고장으로 판별한다.To this end, after the reference signal is reproduced from the speaker of the normal device, the signal coming into the microphone of the same device is recorded as a recording sample. After reproducing the reference signal in the device to be tested, compare the signal coming into the microphone with the recorded sample and if it differs by more than a certain amount, it is determined as a failure.

이와 같은 종래 기술은, 기준 신호를 가지고 비교를 해야 하기 때문에 소음이 심한 환경에서 사용하기 힘들다. 따라서, 소음이나 신호 왜곡에 의한 영향을 최소화하기 위해 사인파 등의 인위적인 소리를 재생해야만 한다. 그리고, 신호가 유사한지 아닌지 여부만을 판단하므로, 어떤 유형의 고장인지에 대해서는 판별할 수 없는 문제가 있으며, 마이크 간 신호를 비교해야 하므로 비교할 대상이 없는 하나의 녹음 장치가 적용된 스마트 기기에는 적용이 불가능하다.Such a prior art is difficult to use in a noisy environment because comparison must be made with reference signals. Therefore, in order to minimize the effect of noise or signal distortion, artificial sound such as a sine wave must be reproduced. And, since it only judges whether the signals are similar or not, there is a problem that it is impossible to determine what type of failure it is, and since the signals between microphones must be compared, it is impossible to apply to a smart device to which a single recording device has no comparison target. do.

따라서, 본 발명은 고장 유형별 학습용 오디오 신호들을 사용하여 고장 유형이 출력되도록 학습된 신경망 분류기를 이용하여, 스마트 기기가 수집한 오디오 신호의 고장 유형을 탐지하는 신경망 분류기를 이용하여 녹음 장치 고장을 탐지하는 방법, 이를 구현한 서버 및 스마트 디바이스를 제공한다.Therefore, the present invention detects a recording device failure using a neural network classifier that detects a failure type of an audio signal collected by a smart device using a neural network classifier learned to output a failure type using audio signals for each failure type. A method, a server implementing the same, and a smart device are provided.

상기 본 발명의 기술적 과제를 달성하기 위한 본 발명의 하나의 특징인 서버가 스마트 디바이스의 녹음 장치의 고장을 탐지하는 방법으로서, As a method of detecting a failure of a recording apparatus of a smart device by a server, which is a feature of the present invention for achieving the technical problem of the present invention,

고장 유형별 학습용 오디오 신호들을 입력 받아, 각 학습용 오디오 신호에 대한 적어도 하나의 스펙트로그램과 오디오 정보들을 각각 추출하는 단계, 각 학습용 오디오 신호들에 대한 적어도 하나의 스펙트로그램과 오디오 정보들을 해당 고장 유형에 매핑한 학습 데이터를 생성하는 단계, 상기 학습 데이터를 이용하여 신경망 분류기를 학습시키는 단계, 그리고 상기 스마트 디바이스로부터 오디오 신호를 수신하고, 학습된 신경망 분류기를 이용하여 상기 오디오 신호의 고장 유형을 탐지하여 상기 스마트 디바이스로 전달하는 단계를 포함하고, 상기 학습된 신경망 분류기는, 상기 고장 유형별 학습용 오디오 신호들의 스펙트로그램 특징 값을 출력하도록 학습된 제1 신경망 모델, 상기 고장 유형별 학습용 오디오 신호들의 오디오 정보 특징 값을 출력하도록 학습된 제2 신경망 모델, 그리고 상기 제1 신경망 모델 및 제2 신경망 모델에서 출력된 특징 값들을 연결하여, 해당 학습용 오디오 신호의 고장 유형이 출력되도록 학습된 분류 모델을 포함한다.receiving learning audio signals for each failure type, extracting at least one spectrogram and audio information for each learning audio signal, respectively, mapping at least one spectrogram and audio information for each learning audio signal to a corresponding failure type Generating one training data, training a neural network classifier using the training data, and receiving an audio signal from the smart device, using the learned neural network classifier to detect a failure type of the audio signal, and transmitting to a device, wherein the learned neural network classifier outputs a first neural network model trained to output spectrogram feature values of the learning audio signals for each failure type, and audio information feature values of the learning audio signals for each failure type. a second neural network model trained to do so, and a classification model trained to output the failure type of the corresponding learning audio signal by connecting the feature values output from the first neural network model and the second neural network model.

상기 제1 신경망 모델은 합성곱 재귀 신경망(CRNN: Convolutional Recurrent Neural Network) 기반의 모델이고, 상기 제2 신경망 모델은 재귀 신경망(RNN: Recurrent Neural Network) 기반의 모델일 수 있다.The first neural network model may be a convolutional recurrent neural network (CRNN)-based model, and the second neural network model may be a recurrent neural network (RNN)-based model.

상기 고장 유형은 정상 유형, 순간성 고장 유형, 또는 지속성 고장 유형 중 적어도 하나를 포함할 수 있다.The failure type may include at least one of a normal type, an instantaneous failure type, or a persistent failure type.

상기 스펙트로그램과 오디오 정보들을 각각 추출하는 단계는, 각 학습용 오디오 신호에서 복수의 시간 구간 신호들을 추출하는 단계, 각 시간 구간 신호를 주파수 도메인으로 변환하여, 해당 시간 구간 신호의 스펙트로그램과 오디오 정보들을 추출하는 단계를 포함하고, 상기 복수의 시간 구간 신호들 각각은 이전 시간 구간 또는 이후 시간 구간과 적어도 일부의 시간 구간이 중복되도록 추출될 수 있다.The step of extracting each of the spectrogram and audio information includes extracting a plurality of time section signals from each training audio signal, converting each time section signal into a frequency domain, and converting the spectrogram and audio information of the corresponding time section signal into a frequency domain. and extracting, wherein each of the plurality of time interval signals may be extracted such that at least a portion of the time interval overlaps with a previous time interval or a subsequent time interval.

상기 본 발명의 기술적 과제를 달성하기 위한 본 발명의 또 다른 특징인 녹음 장치를 포함하는 스마트 디바이스가 상기 녹음 장치의 고장을 탐지하는 방법으로서,As another feature of the present invention for achieving the technical problem of the present invention, a smart device including a recording apparatus is a method of detecting a failure of the recording apparatus,

녹음 장치에서 수집된 오디오 신호를 입력 받는 단계, 상기 오디오 신호에 대한 적어도 하나의 스펙트로그램과 오디오 정보들을 추출하는 단계, 그리고 상기 오디오 신호의 스펙트로그램과 오디오 정보들을, 고장 유형별 학습용 오디오 신호들로 학습된 신경망 모델로 입력하고, 상기 신경망 모델을 통해 상기 오디오 신호의 고장 유형을 탐지하는 단계를 포함한다.receiving an audio signal collected from a recording device, extracting at least one spectrogram and audio information for the audio signal, and learning the spectrogram and audio information of the audio signal as learning audio signals for each failure type and inputting it into an established neural network model, and detecting a failure type of the audio signal through the neural network model.

상기 오디오 신호를 입력 받는 단계 이전에, 고장 유형별 학습용 오디오 신호들을 입력 받아, 각 학습용 오디오 신호에 대한 적어도 하나의 스펙트로그램과 오디오 정보들을 각각 추출하는 단계, 각 학습용 오디오 신호들에 대한 적어도 하나의 스펙트로그램과 오디오 정보들을 해당 고장 유형에 매핑한 학습 데이터를 생성하는 단계, 상기 학습 데이터를 이용하여 신경망 분류기를 학습시키는 단계를 포함하고, 상기 신경망 분류기를 학습시키는 단계는, 상기 스펙트로그램이 입력되면 스펙트로그램 특징 값을 출력하도록 상기 신경망 분류기에 포함된 제1 신경망 모델을 학습시키는 단계, 상기 오디오 정보들이 입력되면 오디오 정보 특징 값을 출력하도록 상기 신경망 분류기에 포함된 제2 신경망 모델을 학습시키는 단계, 그리고 제1 신경망 모델에서 출력된 스펙트로그램 특징 값 및 상기 제2 신경망 모델에서 출력된 오디오 정보 특징 값을 연결하여 계산한 확률 값을 기초로 입력 오디오 신호의 고장 유형을 출력하도록 분류 모델을 학습시키는 단계를 더 포함할 수 있다.Before receiving the audio signal, receiving audio signals for learning by failure type, extracting at least one spectrogram and audio information for each audio signal for learning, respectively, at least one spectrogram for each audio signal for learning Generating training data by mapping gram and audio information to a corresponding failure type, and training a neural network classifier using the training data, wherein the training of the neural network classifier includes: when the spectrogram is input, the spectrogram is input training a first neural network model included in the neural network classifier to output a gram feature value, training a second neural network model included in the neural network classifier to output an audio information feature value when the audio information is input, and Learning the classification model to output the failure type of the input audio signal based on the probability value calculated by connecting the spectrogram feature value output from the first neural network model and the audio information feature value output from the second neural network model may include more.

상기 오디오 신호를 입력 받는 단계 이전에, 상기 스마트 디바이스와 연동하는 서버로부터, 상기 서버에서 학습된 신경망 모델을 수신하는 단계를 더 포함할 수 있다.Prior to receiving the audio signal, the method may further include receiving, from a server interworking with the smart device, a neural network model learned from the server.

상기 스펙트로그램과 오디오 정보들을 추출하는 단계는, 상기 입력 받은 오디오 신호로에서 복수의 시간 구간 신호들을 추출하는 단계, 각 시간 구간 신호를 주파수 도메인으로 변환하여, 해당 시간 구간 신호의 스펙트로그램과 오디오 정보들을 추출하는 단계를 포함하고, 상기 복수의 시간 구간 신호들 각각은 이전 시간 구간 또는 이후 시간 구간과 적어도 일부의 시간 구간이 중복되도록 추출될 수 있다.The step of extracting the spectrogram and audio information may include extracting a plurality of time section signals from the received audio signal, converting each time section signal into a frequency domain, and providing a spectrogram and audio information of the corresponding time section signal and extracting the signals, wherein each of the plurality of time interval signals may be extracted such that at least a portion of the time interval overlaps with a previous time interval or a subsequent time interval.

상기 분류 모델을 학습시키는 단계는, 상기 스펙트로그램 특징 값과 오디오 정보 특징 값을 완전 연결 연산 처리하여 연결 맵을 생성하고, 상기 생성한 연결 맵에 활성화 함수를 적용하여 상기 확률 값으로 계산할 수 있다.In the training of the classification model, the spectrogram feature value and the audio information feature value may be completely concatenated to generate a connectivity map, and an activation function may be applied to the generated connectivity map to calculate the probability value.

상기 녹음 장치가 복수 개이면, 상기 고장 유형을 획득하는 단계는, 상기 복수의 녹음 장치들 중 제1 녹음 장치가 수집한 제1 오디오 신호의 스펙트로그램과 오디오 정보, 제2 녹음 장치가 수집한 제2 오디오 신호의 스펙트로그램과 오디오 정보, 그리고 상기 제1 오디오 신호와 제2 오디오 신호의 차이값을 입력 정보로 추출하는 단계, 그리고 상기 입력 정보를, 상기 학습된 신경망 모델로 입력하고, 상기 신경망 모델로부터 상기 제1 오디오 신호와 제2 오디오 신호의 고장 유형을 획득하는 단계를 포함할 수 있다.If there are a plurality of recording devices, the acquiring the failure type may include: a spectrogram and audio information of a first audio signal collected by a first recording device among the plurality of recording devices, and a second recording device collected by a second recording device. 2 extracting a spectrogram of an audio signal and audio information, and a difference value between the first audio signal and the second audio signal as input information, and inputting the input information into the learned neural network model, and the neural network model It may include obtaining the failure types of the first audio signal and the second audio signal from

상기 입력 정보로 추출하는 단계는, 상기 제1 오디오 신호와 제2 오디오 신호로부터 제1 주파수 도메인 값과 제2 주파수 도메인 값을 생성하는 단계, 상기 제1 주파수 도메인 값과 제2 주파수 도메인 값의 제1 차이값을 계산하는 단계, 그리고 상기 제1 오디오 신호와 제2 오디오 신호를 n 제곱하고, n 제곱된 제1 오디오 신호와 제2 오디오 신호의 각 주파수 도메인 값들로부터 제2 차이값을 계산할 수 있다.The step of extracting the input information may include: generating a first frequency domain value and a second frequency domain value from the first audio signal and the second audio signal; calculating a first difference value, and n-squaring the first audio signal and the second audio signal, and calculating a second difference value from respective frequency domain values of the n-squared first audio signal and the second audio signal .

상기 본 발명의 기술적 과제를 달성하기 위한 본 발명의 또 다른 특징인 스마트 디바이스에 포함된 녹음 장치의 고장을 탐지하는 서버로서,As a server for detecting a failure of a recording apparatus included in a smart device, which is another feature of the present invention for achieving the technical problem of the present invention,

적어도 하나의 명령어를 포함하고, 고장 유형별 학습용 오디오 신호들을 저장하는 메모리, 상기 스마트 디바이스로부터 오디오 신호를 수신하는 인터페이스, 그리고 프로세서를 포함하고, 상기 프로세서는, 상기 고장 유형별 학습용 오디오 신호로부터 스펙트로그램과 오디오 정보들을 추출하고, 상기 스펙트로그램과 오디오 정보들을 이용하여 신경망 분류기를 학습시키고, 학습된 신경망 분류기로 상기 수신한 오디오 신호를 입력하여 상기 오디오 신호의 고장 유형을 탐지한다.A memory including at least one instruction and storing audio signals for learning for each failure type, an interface for receiving an audio signal from the smart device, and a processor, wherein the processor includes a spectrogram and audio signal from the audio signal for learning for each failure type. Information is extracted, a neural network classifier is trained using the spectrogram and audio information, and a failure type of the audio signal is detected by inputting the received audio signal to the learned neural network classifier.

상기 프로세서는, 상기 수신한 오디오 신호로부터 일정 구간이 중복되도록 복수의 구간 신호들을 추출하고, 추출한 상기 구간 신호들을 주파수 도메인 값으로 변환하여 상기 복수의 오디오 정보들을 추출할 수 있다.The processor may extract a plurality of section signals to overlap a predetermined section from the received audio signal, and convert the extracted section signals into frequency domain values to extract the plurality of audio information.

상기 프로세서는, 상기 스마트 디바이스의 녹음 장치가 복수 개이면, 복수 개의 녹음 장치가 각각 수집한 오디오 신호들 사이의 차이값을 계산할 수 있다.If there are a plurality of recording apparatuses of the smart device, the processor may calculate a difference value between audio signals each collected by the plurality of recording apparatuses.

상기 프로세서는, 상기 스펙트로그램 특징 값과 오디오 정보 특징 값을 완전 연결 연산 처리하여 연결 맵을 생성하고, 상기 생성한 연결 맵에 활성화 함수를 적용하여 상기 확률 값을 계산할 수 있다.The processor may generate a connectivity map by performing full concatenation operation processing on the spectrogram feature value and the audio information feature value, and may calculate the probability value by applying an activation function to the generated connectivity map.

본 발명에 따르면, 특별히 제작한 별도의 기준 신호를 재생할 필요가 없이 녹음 장치 고장을 판별할 수 있기 때문에, 평소에 음악을 재생하거나 사용자의 음성을 통하여 특별한 조작 없이 녹음 장치의 고장 여부를 꾸준히 모니터링 할 수 있다.According to the present invention, since it is possible to determine the failure of the recording device without the need to reproduce a specially prepared reference signal, it is possible to continuously monitor the failure of the recording apparatus without playing music or special manipulation through the user's voice. can

또한, 단순히 녹음 장치의 고장 여부뿐만 아니라, 어떤 유형의 고장이 발생했는지 탐지할 수 있어, 서비스 제공자가 해당 소리 데이터를 전송 받아 더 자세한 문제 분석이 가능하다.In addition, it is possible to detect not only the failure of the recording device, but also what type of failure has occurred, so that the service provider can receive the corresponding sound data to analyze the problem in more detail.

또한, 녹음 장치의 개수에 상관없이 적용 가능하기 때문에, 모든 녹음 장치가 동일하게 고장 나서 동일한 신호가 들어오더라도 녹음 장치가 고장 난 경우에도, 대응 가능하다.In addition, since it is applicable regardless of the number of recording devices, it is possible to cope with the failure of the recording devices even if all recording devices fail equally and receive the same signal.

또한, 기존 음성 분류기에서 흔하게 사용되는 멜 스펙트로그램(Mel Spectrogram)이나 음성 특징 데이터에, 추가적으로 스펙트럼 특성과 차등 값을 사용하여 더욱 정확한 검출이 가능하다.In addition, more accurate detection is possible by using additional spectral characteristics and differential values in addition to Mel spectrogram or voice feature data commonly used in existing voice classifiers.

멜 스펙트로그램과 기타 특성을 고려하여 CRNN(Convolutional Recurrent Neural Network)과 RNN으로 분할 처리하는 독자적인 신경망 구조를 사용하여, 더 적은 연산량으로도 더욱 정확한 결과를 얻을 수 있다.Considering Mel spectrogram and other characteristics, using a proprietary neural network structure that divides into CRNN (Convolutional Recurrent Neural Network) and RNN, more accurate results can be obtained with less computation.

도 1은 본 발명의 실시예에 따른 녹음 장치의 고장을 탐지하는 신경망 분류기가 적용된 환경의 예시도이다.
도 2는 본 발명의 재1 실시예에 따라 서버가 녹음 장치의 고장을 탐지하는 방법을 나타낸 흐름도이다.
도 3은 본 발명의 제2 실시예에 따라 단일 마이크가 구비된 스마트 디바이스가 녹음 장치의 고장 여부를 탐지하는 방법에 대한 흐름도이다.
도 4는 본 발명의 실시예에 따른 오디오 프레임의 예시도이다.
도 5는 본 발명의 실시예에 따른 멜 스펙트로그램의 예시도이다.
도 6은 본 발명의 실시예에 따른 신경망 분류기의 하나의 예시도이다.
도 7은 본 발명의 실시예에 따른 복수의 마이크들이 구비된 스마트 디바이스가 녹음 장치의 고장 여부를 자가 탐지하는 방법에 대한 흐름도이다.
도 8은 본 발명의 실시예에 따른 차등 값 추출을 위한 두 녹음 장치의 신호들을 나타낸 예시도이다.
도 9는 본 발명의 실시예에 따른 신경망 분류기의 또 다른 예시도이다.
도 10은 본 발명의 실시예에 따라 출력된 고장 유형별 확률 값을 시각화한 그래프의 예시도이다.
도 11은 본 발명의 실시예에 따른 스마트 디바이스의 구조도이다.
1 is an exemplary diagram of an environment to which a neural network classifier for detecting a failure of a recording apparatus according to an embodiment of the present invention is applied.
2 is a flowchart illustrating a method for a server to detect a failure of a recording device according to the first embodiment of the present invention.
3 is a flowchart of a method for a smart device equipped with a single microphone to detect a failure of a recording apparatus according to a second embodiment of the present invention.
4 is an exemplary diagram of an audio frame according to an embodiment of the present invention.
5 is an exemplary diagram of a Mel spectrogram according to an embodiment of the present invention.
6 is an exemplary diagram of a neural network classifier according to an embodiment of the present invention.
7 is a flowchart of a method for a smart device equipped with a plurality of microphones according to an embodiment of the present invention to self-detect whether a recording apparatus fails.
8 is an exemplary diagram illustrating signals of two recording devices for differential value extraction according to an embodiment of the present invention.
9 is another exemplary diagram of a neural network classifier according to an embodiment of the present invention.
10 is an exemplary diagram of a graph in which a probability value for each failure type outputted according to an embodiment of the present invention is visualized.
11 is a structural diagram of a smart device according to an embodiment of the present invention.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, with reference to the accompanying drawings, embodiments of the present invention will be described in detail so that those of ordinary skill in the art to which the present invention pertains can easily implement them. However, the present invention may be embodied in many different forms and is not limited to the embodiments described herein. And in order to clearly explain the present invention in the drawings, parts irrelevant to the description are omitted, and similar reference numerals are attached to similar parts throughout the specification.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. Throughout the specification, when a part "includes" a certain element, it means that other elements may be further included, rather than excluding other elements, unless otherwise stated.

이하, 도면을 참조로 하여, 본 발명의 실시예에 따른 서버, 스마트 디바이스, 이를 이용한 신경망 분류기 학습 방법 및 녹음 장치 고장 자가 탐지 방법에 대해 설명한다. Hereinafter, with reference to the drawings, a server, a smart device, a method for learning a neural network classifier using the same, and a method for self-detection of a recording device failure according to an embodiment of the present invention will be described.

본 발명의 제1 실시예에서는 스마트 디바이스(100)가 녹음 장치(200)의 고장 여부를 탐지하기 위해 고장 유형별 학습용 오디오 신호로 신경망 분류기를 학습시킨다. 그리고, 학습시킨 신경망 분류기로 녹음 장치(200)가 수신한 오디오 신호의 고장 여부 및 고장 유형을 탐지한다. In the first embodiment of the present invention, the smart device 100 trains the neural network classifier with an audio signal for learning for each failure type in order to detect whether the recording apparatus 200 fails. Then, whether the audio signal received by the recording apparatus 200 has a failure and a failure type is detected with the learned neural network classifier.

또한, 본 발명의 제2 실시예에서는 스마트 디바이스(100)와 연동한 서버(300)이 고장 유형별 학습용 오디오 신호로 신경망 분류기를 학습시킨다. 그리고 스마트 디바이스(100)로부터 수신한 오디오 신호의 고장 여부 및 고장 유형을 탐지한 후, 스마트 디바이스(100)로 그 결과를 제공한다.In addition, in the second embodiment of the present invention, the server 300 interworking with the smart device 100 trains the neural network classifier with the learning audio signal for each failure type. And after detecting the failure and failure type of the audio signal received from the smart device 100 , the result is provided to the smart device 100 .

이와 같은 실시예에 따라 신경망 분류기가 녹음 장치의 고장을 탐지하는 환경에 대해 도 1을 참조로 설명한다.An environment in which a neural network classifier detects a failure of a recording apparatus according to such an embodiment will be described with reference to FIG. 1 .

도 1은 본 발명의 실시예에 따른 녹음 장치의 고장을 탐지하는 신경망 분류기가 적용된 환경의 예시도이다.1 is an exemplary diagram of an environment to which a neural network classifier for detecting a failure of a recording apparatus according to an embodiment of the present invention is applied.

도 1에 도시된 바와 같이, 스마트 디바이스(100)는 하나의 녹음 장치(200) 또는 복수의 녹음 장치(200')들을 포함한다. 본 발명의 실시예에서는 녹음 장치(200)로 마이크를 예로 하여 설명하나, 소리를 수집할 수 있는 수단이면 무엇이든 대체 가능하다. As shown in FIG. 1 , the smart device 100 includes one recording device 200 or a plurality of recording devices 200 ′. In the embodiment of the present invention, a microphone is used as the recording device 200 as an example, but any means capable of collecting sound may be substituted.

녹음 장치(200)는 스마트 디바이스(100)에 구비된 스피커(도면 미도시)를 통해 발생한 음성이나 음원, 또는 외부에서 발생한 음원, 음성, 잡음 등의 오디오 신호를 수집한다. 본 발명의 실시예에서는 설명의 편의를 위하여 스마트 디바이스(100)에 녹음 장치(200)만 포함된 것으로 도시하였으나, 사용자에게 스마트 디바이스(100)를 통해 서비스를 제공하는 다양한 구성들이 포함될 수 있다.The recording apparatus 200 collects audio signals such as a sound or sound source generated through a speaker (not shown) provided in the smart device 100 or an external sound source, voice, and noise. In the embodiment of the present invention, it is illustrated that only the recording apparatus 200 is included in the smart device 100 for convenience of explanation, but various configurations for providing a service to the user through the smart device 100 may be included.

스마트 디바이스(100)는 제1 실시예에 따라 녹음 장치(200)가 수집한 오디오 신호를 서버(300)로 전달하여, 녹음 장치(200)의 고장 여부 및 고장 유형을 탐지하도록 요청한다. 서버(300)가 학습된 신경망 분류기를 사용하여 오디오 신호를 수집한 녹음 장치(200)의 고장 여부와 고장 유형을 탐지한 후, 스마트 디바이스(100)로 결과를 제공한다.The smart device 100 transmits the audio signal collected by the recording apparatus 200 to the server 300 according to the first embodiment, and requests to detect whether or not the recording apparatus 200 malfunctions and the failure type. After the server 300 detects the failure and the failure type of the recording apparatus 200 that has collected the audio signal using the learned neural network classifier, the result is provided to the smart device 100 .

또한, 스마트 디바이스(100)는 제2 실시예에 따라 녹음 장치(200)가 수집한 오디오 신호로부터 멜 스팩트로그램과 오디오 정보를 포함하는 입력 정보를 추출하고, 추출한 입력 정보를 학습된 신경망 분류기를 사용하여 이상 여부를 확인한다. 그리고 스마트 디바이스(100)는 입력 정보에 이상이 있는 것으로 판단하면, 이상 발생 빈도를 모니터링한다. In addition, the smart device 100 extracts input information including a Mel spectrogram and audio information from the audio signal collected by the recording apparatus 200 according to the second embodiment, and uses the extracted input information to perform a learned neural network classifier. Use to check if there is an error. And when it is determined that there is an abnormality in the input information, the smart device 100 monitors the occurrence frequency of the abnormality.

스마트 디바이스(100)는 미리 설정한 임계 빈도 수 이상으로 소리에 이상이 있는 것으로 확인하면, 소리를 수집한 녹음 장치(200)에 이상이 있는 것으로 판단한다. 그리고, 스마트 디바이스(100)는 서비스 제공자 또는 스마트 디바이스(100)를 사용하는 사용자에게 녹음 장치(200)에 고장이 있음을 알린다.When the smart device 100 determines that there is an abnormality in the sound with a preset threshold frequency or more, it is determined that there is an abnormality in the recording apparatus 200 that has collected the sound. Then, the smart device 100 notifies the service provider or the user who uses the smart device 100 that there is a malfunction in the recording apparatus 200 .

이때, 제1 실시예에 따른 서버(300)와 제2 실시예에 따른 스마트 디바이스(100)는 오디오 신호의 이상 여부를 감지하기 위하여, 스마트 디바이스(100) 또는 서버(300) 내에서 별도의 기준 신호를 생성하지 않는다. 그리고, 스마트 디바이스(100) 또는 서버(300)는 수신한 오디오 신호의 오디오 정보를 신경망 분류기를 통해 이상 여부를 분류하고 이상 발생 빈도를 확인하여 고장 여부를 판별할 수 있다. At this time, the server 300 according to the first embodiment and the smart device 100 according to the second embodiment separate standards within the smart device 100 or the server 300 to detect whether an audio signal is abnormal. It does not generate a signal. In addition, the smart device 100 or the server 300 may classify the audio information of the received audio signal through a neural network classifier to determine whether there is an abnormality and check the frequency of occurrence of the abnormality to determine whether there is a failure.

따라서, 특별히 제작한 기준 신호를 재생할 필요가 없이 녹음 장치의 고장을 판별할 수 있기 때문에, 평소에 음악을 재생하거나 사용자가 발화하는 음성 등의 소리를 통하여 특별한 조작 없이 녹음 장치의 고장 여부를 꾸준히 모니터링 할 수 있다. 또한, 단순히 녹음 장치(200)의 고장 여부뿐만 아니라, 어떤 유형의 고장이 발생했는지 탐지할 수 있어, 서비스 제공자가 해당 소리 데이터를 전송 받아 더 자세한 문제 분석이 가능하다.Therefore, since it is possible to determine the failure of the recording device without the need to reproduce a specially prepared reference signal, it is possible to continuously monitor the failure of the recording apparatus without special manipulation through sounds such as music or voices uttered by the user. can do. In addition, it is possible to detect not only whether the recording device 200 has failed, but also what type of failure has occurred, so that the service provider can receive the corresponding sound data to analyze the problem in more detail.

여기서, 녹음 장치(200)는 도 1의 (a)에 도시된 바와 같이 스마트 디바이스(100)에 한 개 구비될 수도 있다. 또한, 도 1의 (b)에 도시된 바와 같이 복수 개 구비될 수도 있다. Here, one recording apparatus 200 may be provided in the smart device 100 as shown in (a) of FIG. 1 . In addition, as shown in (b) of Figure 1 may be provided in plurality.

만약 도 1의 (b)와 같이 복수 개의 녹음 장치(200')들이 스마트 디바이스(100')에 구비될 경우, 스마트 디바이스(100')는 소리로부터 추출한 오디오 신호의 처리를 위한 연산량을 줄이기 위하여, 미리 설정된 순서 또는 랜덤하게 두 개의 녹음 장치(200')들을 선택한다. 그리고 스마트 디바이스(100')에 포함된 복수의 녹음 장치(200')들 중 적어도 하나의 녹음 장치에 대한 고장 여부를 탐지한다. 이에 대해서는, 이후 상세히 설명한다.If a plurality of recording apparatuses 200' are provided in the smart device 100' as shown in FIG. Two recording devices 200' are selected in a preset order or randomly. In addition, it is detected whether at least one of the plurality of recording apparatuses 200' included in the smart device 100' has a failure in the recording apparatus. This will be described in detail later.

본 발명의 실시예에서는 하나 또는 복수 개의 녹음 장치들이 구비된 스마트 디바이스(100)에서 신경망 분류기를 학습시키고, 수집한 오디오 신호를 학습된 신경망 분류기로 입력하여 오디오 신호가 수집된 녹음 장치의 고장 유형을 판별할 수 있다. 또한, 본 발명의 실시예에서는 서버(300)에서 신경망 분류기를 학습시키고, 스마트 디바이스(100)로부터 오디오 신호를 수신하여 학습된 신경망 분류기를 통해 오디오 신호를 수집한 녹음 장치의 고장 유형을 판별할 수 있다. 또한, 본 발명의 실시예에서는 서버(300)에서 신경망 분류기를 학습시켜 스마트 디바이스(100)로 전달하고, 스마트 디바이스(100)에서 오디오 신호를 수집하여 서버(300)에서 학습된 신경망 분류기를 통해 녹음 장치의 고장 유형을 판별할 수 있다. In an embodiment of the present invention, the neural network classifier is trained in the smart device 100 equipped with one or a plurality of recording devices, and the collected audio signal is input to the learned neural network classifier to determine the failure type of the recording device in which the audio signal is collected. can be discerned. In addition, in the embodiment of the present invention, the server 300 trains the neural network classifier, and receives the audio signal from the smart device 100 to determine the failure type of the recording device that collects the audio signal through the learned neural network classifier. have. In addition, in the embodiment of the present invention, the server 300 trains the neural network classifier and transmits it to the smart device 100 , collects audio signals from the smart device 100 and records them through the neural network classifier learned in the server 300 . It is possible to determine the type of failure of the device.

이상의 환경에서, 본 발명의 제1 실시예에 따라 서버(300)가 신경망 분류기를 학습시키고 녹음 장치의 고장을 탐지하는 방법에 대해 도 2를 참조로 설명한다. In the above environment, a method in which the server 300 trains the neural network classifier and detects a failure of the recording apparatus according to the first embodiment of the present invention will be described with reference to FIG. 2 .

도 2는 본 발명의 제1 실시예에 따라 서버가 녹음 장치의 고장을 탐지하는 방법을 나타낸 흐름도이다.2 is a flowchart illustrating a method for a server to detect a failure of a recording device according to the first embodiment of the present invention.

도 2에 도시된 바와 같이, 서버(300)는 고장 유형별로 수집된 학습용 오디오 신호들을 입력으로 받으면, 학습용 오디오 신호에서 적어도 하나의 스펙트로그램과 오디오 정보들을 추출한다(S100). 여기서, 스펙트로그램과 오디오 정보들이 해당 고장 유형에 매핑된 형태를 학습 데이터라 지칭하며, 학습용 오디오 신호에서 학습 데이터를 추출하는 방법은, 이후 녹음 장치의 고장을 탐지하는 방법을 설명할 때 함께 설명한다.As shown in FIG. 2 , the server 300 extracts at least one spectrogram and audio information from the training audio signal when receiving the training audio signals collected for each failure type as input ( S100 ). Here, the form in which the spectrogram and audio information are mapped to the corresponding failure type is referred to as learning data, and the method of extracting the learning data from the audio signal for learning will be described later when a method of detecting a failure of the recording device is described. .

서버(300)는 S100 단계에서 추출한 스펙트로그램을 신경망 분류기를 구성하는 제1 신경망 모델로 입력하여 스펙트로그램 특징 값이 출력되도록 제1 신경망 모델을 학습시킨다(S101). 그리고 서버(300)는 S100 단계에서 추출한 오디오 정보를 신경망 분류기를 구성하는 제2 신경망 모델로 입력하여, 오디오 정보 특징값이 출력되도록 제2 신경망 모델을 학습시킨다(S102). 서버(300)는 스펙트로그램 특징 값과 오디오 정보 특징 값을 연결하여, 해당 학습용 오디오 신호의 고장 유형이 출력되도록 신경망 분류기를 구성하는 분류 모델을 학습시킨다(S103).The server 300 inputs the spectrogram extracted in step S100 to the first neural network model constituting the neural network classifier, and trains the first neural network model to output spectrogram feature values (S101). Then, the server 300 inputs the audio information extracted in step S100 to the second neural network model constituting the neural network classifier, and trains the second neural network model to output audio information feature values (S102). The server 300 connects the spectrogram feature value and the audio information feature value to learn the classification model constituting the neural network classifier so that the failure type of the corresponding learning audio signal is output ( S103 ).

이와 같이, 서버(300)가 신경망 분류기를 학습시키면, 스마트 디바이스(100)는 녹음 장치(200)를 이용하여 오디오 신호를 수신하고(S104), 수신한 오디오 신호를 서버(300)로 전달하여 녹음 장치(200)의 고장 여부와 고장 유형의 탐지를 요청한다(S105). In this way, when the server 300 learns the neural network classifier, the smart device 100 receives an audio signal using the recording apparatus 200 (S104), and transmits the received audio signal to the server 300 for recording. A request is made to detect whether the device 200 has a failure and a failure type (S105).

서버(300)는 S105 단계에서 스마트 디바이스(100)로부터 오디오 신호를 수신하면, 오디오 신호로부터 입력 정보인 스펙트로그램과 오디오 정보들을 추출한다(S106). 입력 정보를 추출하기 위해, 서버(300)는 학습용 오디오 신호가 입력되면 일정 구간의 시간 구간 신호 즉, 오디오 프레임을 추출한다. When the server 300 receives the audio signal from the smart device 100 in step S105, it extracts the spectrogram and audio information as input information from the audio signal (S106). In order to extract the input information, when the audio signal for learning is input, the server 300 extracts a time period signal of a certain period, that is, an audio frame.

본 발명의 실시예에서는 설명의 편의를 위하여 오디오 프레임을 추출하는 것으로 설명하나, 오디오 신호가 일정 시간 구간이 중복되도록 중복된 시간 구간 신호를 추출하는 것으로도 표현될 수 있다.Although the embodiment of the present invention describes extracting an audio frame for convenience of description, it may also be expressed as extracting an overlapping time period signal so that the audio signal overlaps a predetermined time period.

본 발명의 실시예에서는 30ms 길이의 오디오 신호를 10ms마다 오디오 프레임으로 추출하는 것을 예로 하여 설명한다. 즉, 30ms 길이의 하나의 오디오 신호는 세 개의 오디오 프레임들로 추출될 수 있다. 본 발명의 실시예에서는 오디오 신호의 길이를 30ms로 하고, 하나의 오디오 프레임의 길이를 10ms로 정의하나 반드시 이와 같이 한정되는 것은 아니다. In the exemplary embodiment of the present invention, an audio signal having a length of 30 ms is extracted as an audio frame every 10 ms. That is, one audio signal having a length of 30 ms may be extracted as three audio frames. In the embodiment of the present invention, the length of the audio signal is defined as 30 ms and the length of one audio frame is defined as 10 ms, but the present invention is not limited thereto.

그리고, 서버(300)는 추출한 오디오 프레임들에 윈도잉(windowing) 함수를 적용한다. 윈도잉 함수는 등간격의 자료 즉 오디오 프레임을, 미리 설정한 가중치(window function)를 이용하여 평활화시키는 기법이다. 윈도우의 급격한 차단효과를 줄이기 위해 윈도잉 함수를 적용하면, 서버(300)는 윈도우 크기와 일부 중첩된 오디오 프레임들을 획득할 수 있다. Then, the server 300 applies a windowing function to the extracted audio frames. The windowing function is a technique of smoothing equally spaced data, ie, audio frames, using a preset weight (window function). If a windowing function is applied to reduce the sudden blocking effect of the window, the server 300 may obtain the window size and some overlapping audio frames.

본 발명의 실시예에서는 오디오 프레임들을 획득하는 과정에 윈도잉 함수 중 윈도우 해닝(hanning)을 적용하는 것을 예로 하여 설명한다. 그러나, 해밍(Hamming), 블랙맨(Blackman), 가우시안(Gaussian) 등의 다양한 윈도우 함수를 사용할 수 있으며, 윈도우 함수가 어느 하나로 한정되는 것은 아니다.In the embodiment of the present invention, the application of window hanning among windowing functions in the process of acquiring audio frames will be described as an example. However, various window functions such as Hamming, Blackman, and Gaussian may be used, and the window function is not limited to any one.

윈도잉 함수를 적용하여 오디오 프레임들을 획득한 후, 서버(300)는 오디오 프레임들을 고속 푸리에 변환(FFT: Fast Fourier Transform)한다. 고속 푸리에 변환을 토대로 서버(300)는 시간과 음량으로 나타낸 타임 도메인(Time domain)의 오디오 프레임을, 주파수와 음량으로 나타낸 주파수 도메인(Frequency domain)의 오디오 프레임으로 변환한다. 서버(300)가 오디오 신호로부터 일정 간격의 오디오 프레임을 추출하거나 고속 푸리에 변환하는 방법은 이미 알려진 것으로, 본 발명의 실시예에서는 상세한 설명을 생략한다.After obtaining audio frames by applying a windowing function, the server 300 performs Fast Fourier Transform (FFT) on the audio frames. Based on the fast Fourier transform, the server 300 converts an audio frame in a time domain represented by time and volume into an audio frame in a frequency domain represented by frequency and volume. A method for the server 300 to extract an audio frame at a predetermined interval from an audio signal or to perform a fast Fourier transform is already known, and a detailed description thereof will be omitted in the embodiment of the present invention.

서버(300)는 주파수 도메인으로 변환된 오디오 프레임들의 면적의 합을 구하여, 오디오 신호의 신호 세기를 측정한다. 오디오 프레임들의 면적의 합으로부터 오디오 신호의 신호 세기를 측정하는 방법은 이미 알려진 것으로, 본 발명의 실시예에서는 상세한 설명을 생략한다.The server 300 measures the signal strength of the audio signal by obtaining the sum of the areas of the audio frames converted into the frequency domain. A method of measuring the signal strength of an audio signal from the sum of the areas of the audio frames is already known, and detailed description thereof will be omitted in the exemplary embodiment of the present invention.

그리고 측정한 신호 세기가 미리 설정한 신호 세기보다 큰 경우에만, 해당 오디오 프레임을 고장 여부를 탐지하는 데 사용한다. 서버(300)가 주파수 도메인의 오디오 프레임들의 면적 합을 구하는 방법은 이미 알려진 것으로, 본 발명의 실시예에서는 상세한 설명을 생략한다.And only when the measured signal strength is greater than the preset signal strength, the corresponding audio frame is used to detect a failure. A method for the server 300 to obtain the area sum of audio frames in the frequency domain is already known, and a detailed description thereof will be omitted in the embodiment of the present invention.

서버(300)는 오디오 프레임들을 이용하여, 멜 스펙트로그램(Mel-scaled spectrogram)과 오디오 정보를 추출한다. 본 발명의 실시예에서는, 서버(300)가 추출한 오디오 정보로, 전체적인 소리의 높낮이를 확인하는 스펙트럼 무게중심(spectral centroid), 스펙트럼 확산(spectral spread), 스펙트럼 왜곡도(spectral skewness), 스펙트럼 첨도(spectral kurtosis), 스펙트럼 감소(spectral decrease), 소리의 변화가 심한지 일정한지를 나타내는 스펙트럼 플럭스(spectral flux), 스펙트럼 롤-오프(spectral roll-off), 음고(pitch) 등을 예로 하여 설명하나, 반드시 이와 같은 오디오 정보들로 한정하는 것은 아니다. The server 300 extracts a Mel-scaled spectrogram and audio information by using the audio frames. In an embodiment of the present invention, as audio information extracted by the server 300, the spectral centroid, spectral spread, spectral skewness, and spectral kurtosis confirming the overall sound pitch (spectral centroid) Spectral kurtosis, spectral decrease, spectral flux indicating whether sound changes are severe or constant, spectral roll-off, pitch, etc. It is not limited to such audio information.

서버(300)가 각각의 오디오 정보를 추출하기 위해, 다음 수학식들을 이용한다. In order for the server 300 to extract each piece of audio information, the following equations are used.

Figure pat00001
Figure pat00001

Figure pat00002
Figure pat00002

Figure pat00003
Figure pat00003

Figure pat00004
Figure pat00004

Figure pat00005
Figure pat00005

Figure pat00006
Figure pat00006

Figure pat00007
Figure pat00007

여기서, f(n)은 n번째 주파수 값, x(n)은 n번째 FFT 값을 의미한다. 그리고 x(T-1)(n)은 직전 프레임의 FFT 값을 의미한다.Here, f(n) is the nth frequency value, and x(n) is the nth FFT value. And x(T-1)(n) means the FFT value of the previous frame.

그리고, 서버(300)는 음고 값 추출을 위해 YIN 알고리즘 또는 MPM 알고리즘 등 음고 탐지 알고리즘을 사용한다. 음고 탐지 알고리즘은 이미 알려진 것으로, 본 발명의 실시예에서는 상세한 설명을 생략한다.In addition, the server 300 uses a pitch detection algorithm such as a YIN algorithm or an MPM algorithm to extract a pitch value. The pitch detection algorithm is already known, and detailed description thereof will be omitted in the embodiment of the present invention.

이상의 절차를 통해 멜 스펙트로그램과 오디오 정보들이 추출되면, 서버(300)는 신경망 분류기에 멜 스펙트로그램과 오디오 정보들을 입력하여, S105 단계에서 스마트 디바이스(100)로부터 수신한 오디오 신호에 이상이 있는지 여부를 확인한다(S107). When the Mel spectrogram and audio information are extracted through the above procedure, the server 300 inputs the Mel spectrogram and audio information to the neural network classifier, and whether there is an abnormality in the audio signal received from the smart device 100 in step S105. to confirm (S107).

만약 오디오 신호에 이상이 있는 것으로 확인하면, 소리를 녹음한 녹음 장치(200)에 이상이 있는 것으로 확인한다. 따라서, 서버(300)는 학습된 신경망 분류기를 통해, 녹음 장치의 고장 유형 정의에 따라 오디오 신호의 고장 형태를 분류한다.If it is confirmed that there is an abnormality in the audio signal, it is confirmed that there is an abnormality in the recording device 200 in which the sound is recorded. Accordingly, the server 300 classifies the failure type of the audio signal according to the failure type definition of the recording device through the learned neural network classifier.

여기서, 서버(300)는, 인접한 필터 뱅크(filter bank) 간 상관 관계를 가지는 멜 스펙트로그램을 학습된 제1 신경망 모델로 입력하여 멜 스펙트로그램 특징을 출력하여 이상 여부를 확인한다. 그리고 인접한 필터 뱅크간 상관 관계가 적은 오디오 정보는, 학습된 제2 신경망 모델로 입력한다. Here, the server 300 inputs a Mel spectrogram having a correlation between adjacent filter banks to the learned first neural network model and outputs a Mel spectrogram feature to check whether there is an abnormality. In addition, audio information having a low correlation between adjacent filter banks is input to the learned second neural network model.

본 발명의 실시예에 따른 제1 신경망은 합성곱 재귀 신경망(CRNN: Convolution Recurrent Neural Network)을 이용하고, 제2 신경망은 재귀 신경망(RNN: Recurrent Neural Network) 기반의 모델 중 GRU(Gated Recurrent Unit)을 이용하는 것을 예로 하여 설명한다. The first neural network according to an embodiment of the present invention uses a convolution recurrent neural network (CRNN), and the second neural network uses a recurrent neural network (RNN)-based model of a Gated Recurrent Unit (GRU). It will be described using an example.

서버(300)는 S106 단계에서 입력 정보로 추출한 멜 스펙트로그램과 오디오 정보를 이용하여, 녹음 장치(200)에 이상이 있는지 판별하기 위해 사전에 녹음 장치(200)의 고장 유형을 다음 표 1과 같이 정의해 둔다.The server 300 uses the Mel spectrogram and audio information extracted as input information in step S106 to determine the failure type of the recording device 200 in advance to determine whether there is an abnormality in the recording device 200 as shown in Table 1 below. define it

고장 유형failure type 정의Justice 00 정상normal 1One 순간 잡음momentary noise 22 순간 신호 누락momentary signal missing 33 지속성 가산 잡음persistent additive noise 44 지속성 신호 누락Missing persistence signal 55 특정 주파수 대역 누락Missing certain frequency bands 66 마이크 실링 불량Poor microphone sealing 77 마이크 회로 불량bad microphone circuit

서버(300)는 오디오 신호의 이상 여부를 확인하고 분류한 뒤, 오디오 신호에 이상이 있다고 분류된 이상 빈도를 확인한다(S108). 그리고 오디오 신호에 이상이 있다고 확인한 횟수가 미리 설정한 횟수 이상이면, 서버(300)는 스마트 디바이스(100)로 녹음 장치의 고장 여부 및 고장 유형을 알린다(S109). 스마트 디바이스(100)는 서버(300)로부터 수신한 고장 여부와 고장 유형을 스마트 디바이스(100)를 사용하는 사용자 또는 스마트 디바이스(100)를 통해 서비스를 제공하는 서비스 제공자에게 고장 발생을 통보한다(S110).After checking and classifying whether the audio signal is abnormal, the server 300 checks the frequency of abnormality classified as having an abnormality in the audio signal (S108). And if the number of times of checking that there is an abnormality in the audio signal is greater than or equal to the preset number, the server 300 notifies the smart device 100 of the failure of the recording apparatus and the type of failure (S109). The smart device 100 notifies a user using the smart device 100 or a service provider who provides a service through the smart device 100 of the failure and the failure type received from the server 300 of the failure occurrence (S110). ).

이상에서는 서버(300)가 신경망 분류기를 학습시키고, 학습된 신경망 분류기를 이용하여 녹음 장치(200)의 고장 여부와 고장 유형을 알리는 제1 실시예를 설명하였다. 그러나, 신경망 분류기를 학습시키고 녹음 장치(200)의 고장 여부와 고장 유형을 스마트 디바이스(100)에서 수행할 수도 있다. 이에 대해 도 3을 참조로 설명한다.In the above, the first embodiment has been described in which the server 300 trains the neural network classifier, and notifies whether the recording apparatus 200 has a failure and the failure type using the learned neural network classifier. However, it is also possible to train the neural network classifier and to determine whether or not the recording apparatus 200 fails and the type of failure in the smart device 100 . This will be described with reference to FIG. 3 .

도 3은 본 발명의 제2 실시예에 따라 단일 마이크가 구비된 스마트 디바이스가 녹음 장치의 고장 여부를 탐지하는 방법에 대한 흐름도이다.3 is a flowchart of a method for a smart device equipped with a single microphone to detect a failure of a recording apparatus according to a second embodiment of the present invention.

여기서, 각각의 절차의 상세한 방법은 상기 도 2에서 설명한 방법과 동일하므로, 도 3에서는 상세한 설명을 생략한다.Here, since the detailed method of each procedure is the same as the method described with reference to FIG. 2 , detailed description thereof will be omitted in FIG. 3 .

도 3에 도시된 바와 같이, 외부로부터 입력된 학습용 오디오 신호로부터 스펙트로그램과 오디오 정보를 추출하고(S200), 추출한 스펙트로그램과 오디오 정보를 이용하여 신경망 분류기를 학습시킨다(S210). As shown in FIG. 3 , a spectrogram and audio information are extracted from an audio signal for learning input from the outside ( S200 ), and a neural network classifier is trained using the extracted spectrogram and audio information ( S210 ).

스마트 디바이스(100)는 하나 또는 복수의 녹음 장치(200)를 통해 오디오 신호를 수집한다(S220). 여기서 오디오 신호는 스마트 디바이스(100)에서 재생한 음성이나 음악, 또는 외부에서 발생된 잡음이나 사용자의 음성에 해당한다.The smart device 100 collects audio signals through one or a plurality of recording devices 200 (S220). Here, the audio signal corresponds to the voice or music reproduced by the smart device 100 , or external noise or the user's voice.

스마트 디바이스(100)는 S220 단계에서 수집한 오디오 신호로부터 오디오 신호의 입력 정보를 추출한다(S230). 그리고 추출한 입력 정보를 S210 단계에서 학습된 신경망 분류기로 입력하여, 오디오 신호를 수집한 녹음 장치(200)의 고장 여부와 고장 유형을 분류한다(S240). The smart device 100 extracts the input information of the audio signal from the audio signal collected in step S220 (S230). Then, the extracted input information is input to the neural network classifier learned in step S210, and the failure type and failure type of the recording device 200 that has collected the audio signal are classified (S240).

스마트 디바이스(100)는 S240 단계를 통해 오디오 신호의 이상 여부를 확인하고 분류한 뒤, 오디오 신호에 이상이 있다고 분류된 이상 빈도를 확인한다(S250). 그리고 오디오 신호에 이상이 있다고 확인한 횟수가 미리 설정한 횟수 이상이면, 스마트 디바이스(100)는 녹음 장치(200)에 고장이 발생한 것으로 판단한다. 그리고 스마트 디바이스(100)를 사용하는 사용자 또는 스마트 디바이스(100)를 통해 서비스를 제공하는 서비스 제공자에게 고장 발생을 통보한다(S260).The smart device 100 checks and classifies whether the audio signal is abnormal through step S240, and then checks the frequency of abnormalities classified as abnormal in the audio signal (S250). And, if the number of times that the audio signal is confirmed to be abnormal is greater than or equal to the preset number, the smart device 100 determines that a failure has occurred in the recording apparatus 200 . Then, the user using the smart device 100 or a service provider providing a service through the smart device 100 is notified of the occurrence of a failure ( S260 ).

이상의 절차를 통해 서버(300) 또는 스마트 디바이스(100)가 녹음 장치(200)의 고장 여부를 자가 진단하는 과정 중에서 오디오 신호의 입력 정보를 추출할 때, 오디오 신호에서 추출한 오디오 프레임의 예에 대해 도 4를 참조로 설명한다. 본 발명의 실시예에서는 설명의 편의를 위하여 '오디오 프레임'을 추출한다고 표현하나, 오디오 신호에서 구간들을 추출하는 것으로 표현될 수도 있다. 그리고 설명의 편의를 위하여 서버(300)에서 오디오 프레임을 추출하는 것으로 나타내나, 스마트 디바이스(100)에서 추출할 수도 있다.Through the above procedure, when the server 300 or the smart device 100 extracts the input information of the audio signal during the process of self-diagnosing whether the recording apparatus 200 is malfunctioning, an example of an audio frame extracted from the audio signal is also shown. 4 will be described with reference. In the embodiment of the present invention, it is expressed that an 'audio frame' is extracted for convenience of description, but it may also be expressed as extracting sections from an audio signal. And for convenience of explanation, it is shown that the audio frame is extracted from the server 300 , but may also be extracted from the smart device 100 .

도 4는 본 발명의 실시예에 따른 오디오 프레임의 예시도이다.4 is an exemplary diagram of an audio frame according to an embodiment of the present invention.

도 4에 도시된 바와 같이, 오디오 신호를 분석하기 위하여 서버(300)는 오디오 신호를 수신하면, 미리 설정한 일정 간격으로 복수의 오디오 프레임들을 추출한다. 이때, 본 발명의 실시예에서는 30ms 길이의 오디오 신호를 매 10ms 마다 오디오 프레임으로 추출하는 것을 예로 하여 설명한다.As shown in FIG. 4 , in order to analyze the audio signal, when the server 300 receives the audio signal, it extracts a plurality of audio frames at predetermined intervals. At this time, in the embodiment of the present invention, an audio signal having a length of 30 ms is extracted as an audio frame every 10 ms as an example.

서버(300)가 제1 시점(t=1)에 수집한 제1 오디오 신호와 제1 시점 직후인 제2 시점(t=2)에 수집한 제2 오디오 신호는, 일정 부분의 오디오 프레임들이 중복된다. 이는, 윈도우 크기가 일부 중첩되도록 오디오 프레임들을 획득하여, 윈도우의 급격한 차단효과를 줄이기 위함이다.In the first audio signal collected by the server 300 at the first time point (t=1) and the second audio signal collected at the second time point (t=2) immediately after the first time point, a certain portion of the audio frames overlap. do. This is to reduce the sudden blocking effect of the window by acquiring audio frames so that the window size partially overlaps.

다음은 오디오 신호의 입력 정보 중, 멜 스펙트로그램에 대해 도 5를 참조로 설명한다.Next, a Mel spectrogram among input information of an audio signal will be described with reference to FIG. 5 .

도 5는 본 발명의 실시예에 따른 멜 스펙트로그램의 예시도이다.5 is an exemplary diagram of a Mel spectrogram according to an embodiment of the present invention.

도 5에 도시된 바와 같이, 서버(300)는 오디오 신호를 고속 푸리에 변환한 결과를 사용하여, 40차의 멜 스펙트로그램을 추출한다. 도 5에 도시된 멜 스펙트로그램의 x축은 시간축이고, y축은 주파수축이다. As shown in FIG. 5 , the server 300 extracts a 40th-order Mel spectrogram using the result of fast Fourier transforming the audio signal. The x-axis of the Mel spectrogram shown in FIG. 5 is the time axis, and the y-axis is the frequency axis.

이때, 3개의 프레임으로 구성된 n번째 오디오 프레임을 예로 하면, n번째 오디오 프레임의 시작 위치인 제n 시점에 앞선 15 프레임(제n-15 프레임 ~ 제n-1 프레임), n번째 오디오 프레임에서 1 프레임(제n+1 프레임)부터 뒤의 15 프레임(제n+2 프레임 ~ 제n+16 프레임)을 이어 붙인다. 이렇게 총 31개의 프레임(제n-15 프레임 ~ 제n+16 프레임)의 멜 스펙트로그램인 31*40의 2차원 행렬로 구하여 시각화한 것이 도 5에 도시된 예시도이다. At this time, taking the nth audio frame composed of three frames as an example, 15 frames (n-15th frame to n-1th frame) preceding the nth time, which is the start position of the nth audio frame, 1 in the nth audio frame From the frame (n+1th frame), the 15th frames (n+2th frame to n+16th frame) are connected. This is an exemplary diagram shown in FIG. 5 to obtain and visualize a 31*40 two-dimensional matrix, which is a Mel spectrogram of a total of 31 frames (n-15th frame to n+16th frame).

다음은 본 발명의 실시예에서, 녹음 장치(200)가 한 개 구비된 스마트 디바이스(100)에서 오디오 신호를 수집하고, 서버(300)가 오디오 신호의 이상 여부를 확인할 때, 서버(300)에 구현된 신경망 분류기에 대해 도 6을 참조로 설명한다.Next, in an embodiment of the present invention, when the audio signal is collected from the smart device 100 provided with one recording apparatus 200 and the server 300 checks whether the audio signal is abnormal, the An implemented neural network classifier will be described with reference to FIG. 6 .

도 6은 본 발명의 실시예에 따른 신경망 분류기의 하나의 예시도이다.6 is an exemplary diagram of a neural network classifier according to an embodiment of the present invention.

도 6에 도시된 바와 같이, 신경망 분류기는 멜 스펙트로그램을 입력으로 받는 제1 입력 레이어(111)와 오디오 정보를 입력으로 받는 제2 입력 레이어(112)로 이루어진 입력 레이어(110)를 포함한다. As shown in FIG. 6 , the neural network classifier includes an input layer 110 including a first input layer 111 receiving a Mel spectrogram as an input and a second input layer 112 receiving audio information as an input.

제1 입력 레이어(111)로 입력된 멜 스펙트로그램은 인공지능 알고리즘으로 학습된 제1 신경망 모델(120)로 입력되고, 제2 입력 레이어(112)로 입력된 오디오 정보들은 인공지능 알고리즘으로 학습된 제2 신경망 모델(130)로 입력된다. 여기서, 제1 신경망 모델(120)은 합성곱 재귀 신경망(CRNN: Convolutional Recurrent Neural Network) 기반의 모델이고, 제2 신경망 모델(130)은 재귀 신경망(RNN: Recurrent Neural Network) 기반의 모델이다. The Mel spectrogram input to the first input layer 111 is input to the first neural network model 120 trained by the artificial intelligence algorithm, and the audio information input to the second input layer 112 is learned by the artificial intelligence algorithm. It is input to the second neural network model 130 . Here, the first neural network model 120 is a convolutional recurrent neural network (CRNN)-based model, and the second neural network model 130 is a recurrent neural network (RNN)-based model.

본 발명의 실시예에서는 신경망 분류기의 입력 레이어(110)로 입력되는 입력 정보에 따라 적합한 신경망 모델(120, 130)을 통과시켜 특징 값들을 출력한다. 출력한 특징 값들을 연결 레이어인 분류 모델(140)에서 연결하여 하나의 연결 맵을 생성한다. According to the input information input to the input layer 110 of the neural network classifier in the embodiment of the present invention, the characteristic values are output by passing through the appropriate neural network models 120 and 130 . A connection map is generated by connecting the output feature values in the classification model 140 which is a connection layer.

그리고 연결 맵에 활성화 함수인 소프트맥스(softmax)를 이용하여 확률값을 계산한다. 이때 확률값은 기 설정된 고장 유형별로 확률 값들이 계산된다. 여기서, 연결 레이어인 분류 모델(140)은 완전 연결 레이어로 구현되는 것을 예로 하여 설명한다.Then, the probability value is calculated using the activation function, softmax, in the connection map. In this case, the probability values are calculated for each preset failure type. Here, the classification model 140, which is a connected layer, will be described as an example that is implemented as a fully connected layer.

도 6에서 괄호 안의 숫자들은 해당 레이어의 노드(node) 개수를 의미한다. 예를 들어, 제1 신경망 모델(120)의 CNN 5*5(8)은 5*5 필터를 사용하는 CNN 레이어를 8개 사용하여 하나의 멜 스펙트로그램을 각각 처리한다는 것을 의미한다. In FIG. 6 , numbers in parentheses indicate the number of nodes of the corresponding layer. For example, CNN 5*5(8) of the first neural network model 120 means that one Mel spectrogram is processed using 8 CNN layers using 5*5 filters, respectively.

신경망 분류기의 각 레이어들에 대해 설명하면, 입력 레이어(110)는 멜 스펙트로그램과 오디오 정보를 수신하면, 배치 정규화(batch normalization) 알고리즘으로 멜 스펙트로그램과 오디오 정보를 정규화한다. 배치 정규화는 각 레이어에서의 활성화 값이 적당히 분포되도록 조정하는 것으로, 배치 정규화 방법은 이미 알려진 것으로, 본 발명의 실시예에서는 상세한 설명을 생략한다.Each of the layers of the neural network classifier will be described. When the input layer 110 receives the Mel spectrogram and audio information, it normalizes the Mel spectrogram and the audio information using a batch normalization algorithm. The batch normalization is to adjust the activation values in each layer to be appropriately distributed, and the batch normalization method is already known, and a detailed description thereof will be omitted in the embodiment of the present invention.

제1 신경망 모델(120)에 해당하는 합성곱 재귀 신경망 레이어는, 합성 곱 레이어, 활성화 레이어, 그리고 풀링 레이어로 이루어진다. 합성 곱 레이어는 배치 정규화된 멜 스펙트로그램에 합성 곱 연산을 적용한다. 합성곱 연산은 이미지 처리에서 말하는 필터 연산에 해당하는 것으로, 필터의 윈도우를 일정 간격으로 이동해가며 입력 데이터인 배치 정규화된 멜 스펙트로그램과 필터에 대응하는 원소끼리 곱한 후 총 합을 구한다.The convolutional recursive neural network layer corresponding to the first neural network model 120 includes a convolutional product layer, an activation layer, and a pooling layer. The convolutional product layer applies the convolutional product operation to the batch normalized Mel spectrogram. The convolution operation corresponds to the filter operation referred to in image processing. It moves the filter window at regular intervals and multiplies the input data, the batch normalized Mel spectrogram, with the elements corresponding to the filter to obtain the total sum.

활성화 레이어는 합성 곱 연산을 적용한 멜 스펙트로그램에 활성화 함수(activation function)을 적용한다. 여기서 활성화 함수로 하이퍼볼릭 탄젠트 함수(tanh(x))를 사용하는 것을 예로 하여 설명하나, 반드시 이와 같이 한정되는 것은 아니다. The activation layer applies an activation function to the Mel spectrogram to which the composite product operation is applied. Here, the use of the hyperbolic tangent function (tanh(x)) as the activation function is described as an example, but is not necessarily limited thereto.

풀링 레이어는, 활성화 합수가 적용된 멜 스펙트로그램의 주파수 도메인의 세로와 가로 방향의 공간을 줄인다. 이를 위해, 본 발명의 실시예에서는 최대 풀링(max pooling)을 사용하여, 멜 스펙트로그램의 크기를 줄여준다. The pooling layer reduces the vertical and horizontal space in the frequency domain of the Mel spectrogram to which the activation sum is applied. To this end, in the embodiment of the present invention, the size of the Mel spectrogram is reduced by using max pooling.

본 발명의 실시예에서 제1 신경망 모델(120)은 합성곱 재귀 신경망 구조를 사용하는 것을 예로 하여 설명하며, 제1 신경망 모델(120)에 포함된 GRU 대신 RNN, LSTM 등의 순환 신경망 구조를 사용할 수 있다. 또한, 제1 신경망 모델(120)의 세부적인 노드 개수나 레이어 개수는 도 6에 도시한 수로 한정하지 않고, 변경될 수 있다.In the embodiment of the present invention, the first neural network model 120 is described using a convolutional recursive neural network structure as an example, and a recurrent neural network structure such as RNN and LSTM is used instead of GRU included in the first neural network model 120. can In addition, the detailed number of nodes or the number of layers of the first neural network model 120 is not limited to the number shown in FIG. 6 and may be changed.

제2 신경망 모델(130)에 해당하는 순환 신경망 레이어는, 그래디언트 소실(vanishing gradient) 문제가 없고 연산량이 적은 GRU 셀을 활용한다. GRU 셀에 대한 사항은 이미 알려진 것으로, 본 발명의 실시예에서는 상세한 설명을 생략한다.The recurrent neural network layer corresponding to the second neural network model 130 uses a GRU cell that does not have a vanishing gradient problem and has a small amount of computation. The details of the GRU cell are already known, and detailed description will be omitted in the embodiment of the present invention.

본 발명의 실시예에서 제2 신경망 모델(130)은 RNN구조를 사용하는 것을 예로 하여 설명하며, GRU 대신 RNN, LSTM 등의 순환 신경망 구조를 사용할 수 있다. 그리고 제2 신경망 모델(130)의 세부적인 노드 개수나 레이어 개수는 도 6에 도시한 수로 한정하지 않고, 변경될 수 있다.In the embodiment of the present invention, the second neural network model 130 will be described using an RNN structure as an example, and a recurrent neural network structure such as RNN and LSTM may be used instead of GRU. In addition, the detailed number of nodes or the number of layers of the second neural network model 130 is not limited to the number shown in FIG. 6 and may be changed.

또한 이상에서 언급한 신경망 분류기를 사전에 고장난 녹음 장치(200)로 수집한 소리를 데이터 입력으로 하고, 고장 유형을 원 핫 벡터(one-hot-vector) 출력으로 하여 학습한다. 학습된 신경망 분류기는 매 프레임마다, 미리 정의해 둔 고장 유형들의 확률 값들을 출력한다.In addition, the above-mentioned neural network classifier is trained by using the sound collected in advance by the failed recording device 200 as data input, and the failure type as a one-hot-vector output. The learned neural network classifier outputs probability values of predefined failure types for every frame.

이상에서는 스마트 디바이스(100)에 하나의 마이크가 구비된 경우의 고장 여부를 탐지하는 예에 대해 설명하였다. 한편, 스마트 디바이스(100')에 복수의 마이크가 구비되었을 경우, 스마트 디바이스(100')가 고장 여부를 탐지하는 또 다른 실시예에 대해 도 7을 참조로 설명한다. 도 7을 설명하기 앞서, 복수의 녹음 장치(200')들이 구비되어 있는 스마트 디바이스(100')의 신경망 분류기는 상기 도 2에서 설명한 바와 같이 서버(300)에서 고장 유형별로 학습되거나, 스마트 디바이스(100')에서 학습될 수 있다. 본 발명의 실시예에서는 설명의 편의를 위하여 스마트 디바이스(100')에서 신경망 분류기를 학습시킨 것을 예로 하여 설명한다.In the above, an example of detecting whether a malfunction occurs when a single microphone is provided in the smart device 100 has been described. On the other hand, when the smart device 100' is provided with a plurality of microphones, another embodiment in which the smart device 100' detects a failure will be described with reference to FIG. 7 . 7, the neural network classifier of the smart device 100' provided with a plurality of recording apparatuses 200' is learned by failure type in the server 300 as described in FIG. 2, or the smart device ( 100') can be learned. In the embodiment of the present invention, for convenience of explanation, a neural network classifier trained in the smart device 100' will be described as an example.

도 7은 본 발명의 실시예에 따른 복수의 마이크들이 구비된 스마트 디바이스가 녹음 장치의 고장 여부를 자가 탐지하는 방법에 대한 흐름도이다.7 is a flowchart of a method for a smart device equipped with a plurality of microphones according to an embodiment of the present invention to self-detect whether a recording apparatus fails.

도 7에 도시된 바와 같이, 스마트 디바이스(100')는 외부로부터 입력된 학습용 오디오 신호로부터 스펙트로그램과 오디오 정보를 추출하고(S300), 추출한 스펙트로그램과 오디오 정보를 이용하여 신경망 분류기를 학습시킨다(S310). 7, the smart device 100' extracts the spectrogram and audio information from the learning audio signal input from the outside (S300), and uses the extracted spectrogram and audio information to learn the neural network classifier ( S310).

스마트 디바이스(100)는 복수의 녹음 장치(200)를 통해 오디오 신호를 수집한다. 이때, 복수의 녹음 장치(200')들 중 선택한 두 개의 녹음 장치들을 통해 오디오 신호를 각각 수집한다(S320). The smart device 100 collects audio signals through a plurality of recording devices 200 . At this time, audio signals are respectively collected through two recording apparatuses selected from among the plurality of recording apparatuses 200' (S320).

여기서 스마트 디바이스(100')는 미리 설정된 순서로 복수의 녹음 장치(200')들 중 두 개의 녹음 장치를 선택하거나, 또는 랜덤하게 두 개의 녹음 장치를 선택할 수 있다. 그리고, 녹음 장치(200')가 복수 개이므로, 스마트 디바이스(100')는 수집한 소리로부터 추출한 오디오 신호에 각각의 녹음 장치(200')의 식별 정보를 포함하여 수집한다.Here, the smart device 100' may select two recording apparatuses from among the plurality of recording apparatuses 200' in a preset order, or may randomly select two recording apparatuses. And, since there are a plurality of recording apparatuses 200', the smart device 100' includes identification information of each recording apparatus 200' in the audio signal extracted from the collected sound, and collects it.

스마트 디바이스(100')는 S320 단계에서 수집한 두 개의 오디오 신호에서 입력 정보를 각각 추출한다(S330). 여기서 입력 정보는 두 오디오 신호의 스펙트로그램과 오디오 정보들을 포함한다. 스마트 디바이스(100')가 두 개의 오디오 신호로부터 입력 정보를 추출하기 위하여, 두 개의 소리로부터 각각 획득한 두 개의 오디오 신호를 일정한 간격의 프레임 단위로 잘라 오디오 프레임으로 추출한다. The smart device 100' extracts input information from the two audio signals collected in step S320, respectively (S330). Here, the input information includes spectrograms of two audio signals and audio information. In order for the smart device 100' to extract input information from the two audio signals, two audio signals each obtained from two sounds are cut into frame units at regular intervals and extracted as audio frames.

본 발명의 실시예에서는 30ms 길이의 두 개의 오디오 신호를 각각 10ms마다 오디오 프레임으로 추출하는 것을 예로 하여 설명한다. 따라서, 본 발명의 실시예에서의 1 프레임을 10ms로 정의하나 반드시 이와 같이 한정되는 것은 아니다. In the exemplary embodiment of the present invention, two audio signals having a length of 30 ms are extracted as an audio frame every 10 ms as an example. Accordingly, although one frame is defined as 10 ms in the embodiment of the present invention, it is not necessarily limited to this.

그리고, 스마트 디바이스(100')는 추출한 오디오 프레임들에 윈도잉(windowing)을 각각 적용한다. 윈도잉 함수를 각각 적용하여 두 오디오 신호로부터 오디오 프레임들을 획득한 후, 스마트 디바이스(100')는 오디오 프레임들을 고속 푸리에 변환(FFT: Fast Fourier Transform)하여, 시간과 음량으로 나타낸 타임 도메인(Time domain)의 오디오 프레임을 주파수와 음량으로 나타낸 주파수 도메인(Frequency domain)의 오디오 프레임으로 변환한다. Then, the smart device 100' applies windowing to the extracted audio frames, respectively. After obtaining audio frames from two audio signals by applying a windowing function to each, the smart device 100 ′ performs Fast Fourier Transform (FFT) on the audio frames in a time domain expressed in time and volume. ) is converted into an audio frame in the frequency domain expressed in terms of frequency and volume.

스마트 디바이스(100')는 주파수 도메인으로 변환된 두 개의 오디오 프레임들의 면적의 합을 구하여, 두 오디오 신호의 신호 세기를 각각 측정한다. 그리고 측정한 신호 세기가 미리 설정한 신호 세기보다 큰 경우에만, 해당 오디오 프레임을 고장 여부를 탐지하는 데 사용한다.The smart device 100' obtains the sum of the areas of the two audio frames converted into the frequency domain, and measures the signal strength of the two audio signals, respectively. And only when the measured signal strength is greater than the preset signal strength, the corresponding audio frame is used to detect a failure.

스마트 디바이스(100')는 오디오 프레임들을 이용하여, 멜 스펙트로그램(Mel-scaled spectrogram)과 오디오 정보를 추출한다. 스마트 디바이스(100')가 추출한 오디오 정보는 상기 도 2에서 설명한 오디오 정보들과 같다. 그리고 두 개의 녹음 장치(200')들 사이의 두 개의 차등 값(Difference measure)을 계산한다(S340).The smart device 100 ′ extracts a Mel-scaled spectrogram and audio information by using the audio frames. The audio information extracted by the smart device 100 ′ is the same as the audio information described in FIG. 2 . Then, two difference measures between the two recording apparatuses 200' are calculated (S340).

이상의 절차를 통해 멜 스펙트로그램과 오디오 정보들을 추출하고 차등 값을 계산하면, 스마트 디바이스(100')는 신경망 분류기를 통해 S320 단계에서 수집한 오디오 신호들에 이상이 있는지 여부를 확인한다. 그리고 오디오 신호들에 이상이 있는 것으로 확인하면, 오디오 신호들을 수집한 두 개의 녹음 장치(200') 중 어느 하나에 이상이 있는 것으로 확인한다. When the Mel spectrogram and audio information are extracted through the above procedure and the differential value is calculated, the smart device 100 ′ checks whether there is an abnormality in the audio signals collected in step S320 through the neural network classifier. And if it is confirmed that there is an abnormality in the audio signals, it is confirmed that there is an abnormality in any one of the two recording devices 200 ′ that have collected the audio signals.

본 발명의 실시예에서는 스마트 디바이스(100')에 포함된 복수의 녹음 장치(200')들 중 적어도 하나의 녹음 장치에 이상이 있는지 여부만 탐지하는 것을 예로 하여 설명한다. 그러나, 두 오디오 프레임을 비교한 두 개의 녹음 장치(200') 각각의 고장 여부를 따로 검출한 후, 어떤 녹음 장치에서 어떠한 오류가 발생하였는지 확인할 수도 있다. In the embodiment of the present invention, only detecting whether there is an abnormality in at least one of the plurality of recording apparatuses 200' included in the smart device 100' is described as an example. However, after separately detecting whether each of the two recording apparatuses 200 ′ having compared the two audio frames has failed, it is also possible to check which error occurred in which recording apparatus.

따라서 스마트 디바이스(100')는 두 개의 녹음 장치(200')들 사이의 차등 값을 토대로, 두 개의 녹음 장치(200') 중 어느 하나의 녹음 장치에 고장이 발생한 것으로 파악한다. 그리고, 기 정의된 녹음 장치의 고장 유형 정의에 따라 S320 단계에서 수집한 오디오 신호의 고장 형태를 분류한다(S350).Accordingly, the smart device 100' determines that a failure has occurred in any one of the two recording apparatuses 200' based on the differential value between the two recording apparatuses 200'. Then, according to the predefined failure type definition of the recording device, the failure type of the audio signal collected in step S320 is classified (S350).

여기서, 스마트 디바이스(100')는 인접한 필터 뱅크(filter bank) 간 상관 관계를 가지는 멜 스펙트로그램은 제1 신경망 모델을 통해 학습하여 이상 여부를 확인한다. 그리고 인접한 필터 뱅크간 상관 관계가 적은 오디오 정보는 제2 신경망 모델을 통해 학습한다. Here, the smart device 100 ′ learns a Mel spectrogram having a correlation between adjacent filter banks through the first neural network model and checks whether there is an abnormality. In addition, audio information having a low correlation between adjacent filter banks is learned through the second neural network model.

이때, 스마트 디바이스(100')는 S330 단계에서 입력 정보로 추출한 멜 스펙트로그램과 오디오 정보, 그리고 S340 단계에서 계산한 녹음 장치(200')들의 차등 값을 이용하여, 녹음 장치(200)에 이상이 있는지 판별하기 위한 고장 유형은 상기 표 1에 정의한 바와 같다. At this time, the smart device 100' uses the Mel spectrogram and audio information extracted as input information in step S330, and the differential value of the recording apparatuses 200' calculated in step S340, to cause abnormalities in the recording apparatus 200. The failure types for determining whether there are are as defined in Table 1 above.

스마트 디바이스(100')는 S350 단계를 통해 오디오 신호의 이상 여부를 확인하고 분류한 뒤, 이상 빈도를 확인한다(S360). 그리고 오디오 신호에 이상이 있다고 확인한 횟수가 미리 설정한 빈도 이상이면, 녹음 장치(200')에 고장이 발생한 것으로 판단하여 스마트 디바이스(100')를 사용하는 사용자 또는 스마트 디바이스(100)를 통해 서비스를 제공하는 서비스 제공자에게 고장 발생을 통보한다(S370).The smart device 100' checks whether the audio signal is abnormal through step S350 and classifies it, and then checks the frequency of the abnormality (S360). And if the number of times that the audio signal is confirmed to be abnormal is greater than or equal to a preset frequency, it is determined that a failure has occurred in the recording apparatus 200 ', and the service is provided through the user or the smart device 100 using the smart device 100'. A failure occurrence is notified to the providing service provider (S370).

이상의 절차를 통해 스마트 디바이스(100')가 녹음 장치(200')의 고장 여부를 자가 진단할 때, 스마트 디바이스(100')는 선택한 두 개의 녹음 장치(200')들 사이의 두 개의 차등 값을 추출해야 한다. 이에 대해 도 8을 참조로 설명한다.When the smart device 100' self-diagnoses whether or not the recording apparatus 200' is malfunctioning through the above procedure, the smart device 100' determines two differential values between the two selected recording apparatuses 200'. must be extracted This will be described with reference to FIG. 8 .

도 8은 본 발명의 실시예에 따른 차등 값 추출을 위한 두 녹음 장치의 신호들을 나타낸 예시도이다.8 is an exemplary diagram illustrating signals of two recording devices for differential value extraction according to an embodiment of the present invention.

도 8의 (a)는 두 녹음 장치들이 수집한 소리의 오디오 신호들을 나타낸 것이고, 도 8의 (b)는 오디오 신호들에 n 제곱하여 확인한 오디오 신호들을 나타낸 예시도이다.FIG. 8(a) shows audio signals of sound collected by two recording devices, and FIG. 8(b) is an exemplary view showing audio signals checked by n squared on the audio signals.

스마트 디바이스(100')는 제1 녹음 장치가 수집한 소리의 제1 오디오 신호와, 제2 녹음 장치가 수집한 소리의 제2 오디오 신호의 차등 값을 두 신호 사이의 면적을 구하여 얻을 수 있다. 녹음 장치가 정상 상태인 경우라도, 녹음 장치가 설치된 위치에 따라 도 8의 (a)와 같이 두 오디오 신호들은 어느 정도의 차이를 보인다.The smart device 100 ′ may obtain a difference value between the first audio signal of the sound collected by the first recording apparatus and the second audio signal of the sound collected by the second recording apparatus by calculating the area between the two signals. Even when the recording device is in a normal state, the two audio signals show some difference according to the location where the recording device is installed, as shown in (a) of FIG. 8 .

오디오 신호들 사이의 차이는 오디오 신호의 진폭에 비례하는 성향을 보인다. 따라서 다음 수학식 8 및 수학식 9와 같이 스마트 디바이스(100)는 두 신호간의 크기(에너지) 차이를 전체 신호 크기의 합으로 나누고 정규화하여, 차등 값을 구한다. The difference between the audio signals tends to be proportional to the amplitude of the audio signal. Therefore, as shown in Equations 8 and 9, the smart device 100 divides the difference in magnitude (energy) between the two signals by the sum of the total signal magnitudes and normalizes it to obtain a difference value.

Figure pat00008
Figure pat00008

Figure pat00009
Figure pat00009

본 발명의 실시예에서는 스마트 디바이스(100)는 두 개의 차등 값을 구한다. 두 개의 녹음 장치(200') 중 적어도 하나의 녹음 장치에 이상이 있을 경우, 각 녹음 장치(200')로 들어오는 신호들 사이의 차이가 발생하고, 차등 값은 커진다. 도 8의 (a)에 나타낸 정상 그래프는 아래 면적이 거의 비슷하나, 도 8의 (b)에 나타낸 바와 같이 두 개의 녹음 장치(200') 중 하나가 고장 난 경우, 면적 차이가 크게 나타난다. 이런 값의 변화를 신경망에 추가 정보 입력으로 사용하여 신경망의 정확도를 올릴 수 있습니다In an embodiment of the present invention, the smart device 100 obtains two differential values. When at least one of the two recording apparatuses 200' has an abnormality, a difference occurs between signals entering each recording apparatus 200', and the difference value increases. The normal graph shown in FIG. 8(a) has almost the same bottom area, but as shown in FIG. 8(b), when one of the two recording devices 200' is broken, the area difference is large. You can increase the accuracy of the neural network by using these changes as additional information input to the neural network.

즉, 제1 오디오 신호와 제2 오디오 신호의 제1 차등 값을 수학식 8을 이용하여 구하고, 제1 오디오 신호와 제2 오디오 신호를 2 제곱하여 제2 차등 값을 수학식 9를 이용하여 구한다. 그러나, 반드시 이와 같이 한정되는 것은 아니다. That is, the first difference value of the first audio signal and the second audio signal is obtained by using Equation 8, and the second difference value is obtained by using Equation 9 by squaring the first audio signal and the second audio signal. . However, it is not necessarily limited in this way.

다음은 복수개의 녹음 장치(200')를 구비한 스마트 디바이스(100')가 오디오 신호의 이상 여부를 확인하기 위한 신경망 분류기에 대해 도 9를 참조로 설명한다.Next, a neural network classifier for determining whether a smart device 100 ′ having a plurality of recording devices 200 ′ is abnormal in an audio signal will be described with reference to FIG. 9 .

도 9는 본 발명의 실시예에 따른 신경망 분류기의 또 다른 예시도이다. 9 is another exemplary diagram of a neural network classifier according to an embodiment of the present invention.

본 발명의 실시예에서는 복수의 녹음 장치들이 구비되어 있다고 하더라도, 스마트 디바이스(100)가 임의의 두 개의 녹음 장치를 선택하여 오디오 신호의 이상 여부를 확인하는 것을 예로 하여 설명한다. 따라서, 두 개의 오디오 신호의 이상 여부를 확인하는 신경망 구조는 도 8에 도시된 바와 같다.In the embodiment of the present invention, even if a plurality of recording apparatuses are provided, an example in which the smart device 100 selects two recording apparatuses and checks whether an audio signal is abnormal will be described as an example. Accordingly, the neural network structure for checking whether two audio signals are abnormal is shown in FIG. 8 .

도 9에 도시된 바와 같이, 신경망 분류기는 입력 레이어(110')를 통해 멜 스펙트로그램과 오디오 정보를 입력으로 받는다. 이때, 녹음 장치(200')가 복수 개 이므로, 입력 레이어(110')는 각각 복수의 녹음 장치(200')가 획득한 소리의 음성 신호를 처리한 처리 정보를 각각 수신한다. 또한, 두 오디오 신호를 통해 계산된 두 개의 차등 값도 입력으로 수신한다.As shown in FIG. 9 , the neural network classifier receives a Mel spectrogram and audio information through an input layer 110 ′. At this time, since there are a plurality of recording apparatuses 200', the input layer 110' receives processing information obtained by processing the audio signal of the sound acquired by the plurality of recording apparatuses 200', respectively. In addition, two differential values calculated through the two audio signals are also received as inputs.

각각의 레이어의 기능은 상기 도 5에서 설명한 바와 동일하다. 즉, 입력부(110')로 입력된 멜 스펙트로그램은 인공지능 알고리즘으로 학습되었으며 합성곱 재귀 신경망 기반의 모델인 제1 신경망 모델(120')로 입력된다. 그리고, 오디오 정보들과 차등 값들은 인공지능 알고리즘으로 학습되었으며 재귀 신경망 기반의 모델인 제2 신경망 모델(130')로 입력된다. The function of each layer is the same as described with reference to FIG. 5 . That is, the Mel spectrogram input to the input unit 110' is learned by an artificial intelligence algorithm and is input to the first neural network model 120', which is a model based on a convolutional recursive neural network. Then, the audio information and the differential values are learned by an artificial intelligence algorithm and are input to the second neural network model 130 ′, which is a recursive neural network-based model.

본 발명의 실시예에서는 신경망 분류기의 입력 레이어(110')로 입력되는 입력 정보에 따라 적합한 신경망 모델(120', 130')을 통과시켜 각 입력되는 정보에 따른 특징 값들을 출력한다. 그리고, 신경망 모델(120', 130')에서 출력된 특징 값들을 연결 레이어인 분류 모델(140')에서 연결하여 하나의 연결 맵을 생성한다. According to the input information input to the input layer 110' of the neural network classifier, the appropriate neural network models 120' and 130' are passed through the embodiment of the present invention, and feature values according to each input information are output. Then, one connection map is generated by connecting the feature values output from the neural network models 120' and 130' in the classification model 140', which is a connection layer.

연결 맵에 활성화 함수인 소프트맥스(softmax)를 이용하여 확률값을 계산한다. 이때 확률값은 기 설정된 고장 유형별로 확률 값들이 계산된다. 여기서, 분류 모델(140')은 완전 연결 레이어로 구현되는 것을 예로 하여 설명한다.The probability value is calculated using the activation function softmax in the connection map. In this case, the probability values are calculated for each preset failure type. Here, the classification model 140 ′ will be described as an example implemented as a fully connected layer.

이때, 신경망 분류기가 출력한 확률 값들을 시각화한 그래프에 대해 도 10을 참조로 설명한다.At this time, a graph visualizing the probability values output by the neural network classifier will be described with reference to FIG. 10 .

도 10은 본 발명의 실시예에 따라 출력된 고장 유형별 확률 값을 시각화한 그래프의 예시도이다.10 is an exemplary diagram of a graph visualizing a probability value for each type of failure outputted according to an embodiment of the present invention.

도 10에서는 상기 표 1에서 설명한 8개의 고장 유형들 중, 정상일 때의 확률 값, 순간성 고장과 지속성 고장의 확률 값을 시각화하여 나타내었으며, 8개의 고장 유형들별로 모두 확률 값이 계산된다.In FIG. 10, among the eight failure types described in Table 1, the probability values for normal and the probability values for instantaneous failure and persistent failure are visualized and the probability values are calculated for each of the eight failure types.

신경망 분류기를 사용하여 입력된 오디오 신호를 분류하면, 오류 검출 결과가 일정 기간(10ms) 간격으로 생성된다. 신경망 분류기에서는 각 고장 유형별로 확률값이 출력되고, 이를 시간에 따라 변화를 볼 수 있도록 시각화하면 도 9에 도시된 바와 같다.When an input audio signal is classified using a neural network classifier, error detection results are generated at intervals of a predetermined period (10 ms). In the neural network classifier, probability values are output for each failure type, and when visualized so as to see changes over time, as shown in FIG. 9 .

도 10에서는 하나의 녹음 장치(200)에 대한 고장 유형별 확률 값을 나타내었다. 그러나, 복수의 녹음 장치(200')를 사용하는 경우에는 녹음 장치(200')의 수만큼의 그래프가 생성된다.10 shows probability values for each failure type for one recording device 200 . However, when a plurality of recording apparatuses 200' are used, as many graphs as the number of recording apparatuses 200' are generated.

여기서, 임의의 시점에서의 정상 확률값, 지속성 고장 확률값, 순간성 고장 확률값의 합은 1이 된다. 그리고 점선으로 표시한 시점과 같이, 정상일 경우의 확률 값은 대략 0.1이나, 순간성 고장의 확률 값이 0.9인 경우, 스마트 디바이스(100)는 해당 시점에 녹음 장치(200)에 순간성 고장이 발생한 것으로 판단할 수 있다.Here, the sum of the normal probability value, the persistent failure probability value, and the instantaneous failure probability value at an arbitrary point in time becomes 1. And, as indicated by the dotted line, the probability value in the normal case is approximately 0.1, but when the probability value of the instantaneous failure is 0.9, the smart device 100 indicates that the instantaneous failure occurred in the recording apparatus 200 at that time. can be judged as

즉, 순간성 고장과 지속성 고장의 확률값은 판이하게 다르다. 이에 따라, 순간성 고장과 지속성 고장 유형에 따라 서로 다른 고장 판별 기준이 필요하다.That is, the probability values of instantaneous failure and persistent failure are significantly different. Accordingly, different failure discrimination criteria are required according to the types of instantaneous and persistent failures.

순간성 고장의 경우 아주 짧은 시간 동안만, 간헐적으로 이상이 발생한다. 이를 검출하기 위하여, 스마트 디바이스(100)는 신경망 분류기에서 계산한 확률값들 중 최대값을 갖는 고장 유형을 찾는다. 만일 최대값을 가지는 고장 유형이 순간성 고장인 경우, 해당 고장 유형의 고장이 발생했다 판별한다. In the case of a momentary failure, an error occurs intermittently only for a very short period of time. To detect this, the smart device 100 searches for a failure type having a maximum value among the probability values calculated by the neural network classifier. If the failure type having the maximum value is an instantaneous failure, it is determined that a failure of the failure type has occurred.

스마트 디바이스(100)는 오검출을 막기 위하여, 긴 시간 동안 일정 회수 초과하여 같은 이상이 발생하는 경우에만 고장으로 통보한다. 예를 들어, 30분 동안 10 프레임을 초과하여 이상이 발생할 경우, 녹음 장치(200)에 고장이 있는 것으로 통보한다. In order to prevent erroneous detection, the smart device 100 notifies as a failure only when the same abnormality occurs over a certain number of times for a long time. For example, when an abnormality occurs in excess of 10 frames for 30 minutes, the recording apparatus 200 is notified that there is a failure.

한편, 지속성 고장의 경우, 연속하여 이상 증상이 발생한다. 보통, 녹음 장치(200)가 정상적인 상황에서도, 순간적으로 고장 유형의 확률 값이 계산될 수 있다. 이런 경우를 모두 고장으로 감지하는 경우, 녹음 장치(200)가 정상임에도 오검출을 할 수 있다. On the other hand, in the case of continuous failure, abnormal symptoms occur continuously. In general, even when the recording apparatus 200 is normal, the probability value of the failure type may be calculated instantaneously. When all of these cases are detected as failures, erroneous detection may be performed even though the recording apparatus 200 is normal.

이를 방지하기 위하여, 일정 시간 동안 계속하여 이상이 발생하는 경우 고장으로 검출한다. 예를 들어, 5분 이상 지속적으로 오디오 신호에 오류가 발생한 것으로 인지하면, 녹음 장치(200)에 지속성 고장이 발생한 것으로 통보한다.In order to prevent this, when an abnormality occurs continuously for a certain period of time, it is detected as a failure. For example, if it is recognized that an error has occurred in the audio signal continuously for 5 minutes or more, the recording apparatus 200 is notified that the continuous failure has occurred.

이와 같은 방법으로 스마트 디바이스(100)가 스마트 디바이스(100)의 녹음 장치(200)의 고장을 자가 탐지한다면, 녹음 장치(200)가 불량인 경우 고객에게 바로 알려서 조치를 받도록 유도할 수 있다. 그리고, 스마트 디바이스(100)를 회수하지 않고도 녹음 장치(200)의 불량을 알 수 있다. In this way, if the smart device 100 self-detects a failure of the recording apparatus 200 of the smart device 100, if the recording apparatus 200 is defective, it can be induced to immediately notify the customer and take action. And, it is possible to know the defect of the recording apparatus 200 without collecting the smart device 100 .

또한, 특수한 신호의 재생 없이도 스마트 디바이스(100)에서 출력되는 소리나 사용자의 음성 등 일반적인 소리를 통해 녹음 장치(200)의 불량을 감지할 수 있다. 그리고, 감지한 녹음 장치(200)의 고장 종류를 명확하게 파악함으로써, 스마트 디바이스(100)를 개선하는데 사용할 수 있다.In addition, it is possible to detect a defect in the recording apparatus 200 through a general sound, such as a sound output from the smart device 100 or a user's voice, without reproducing a special signal. And, by clearly identifying the type of failure of the detected recording apparatus 200 , it can be used to improve the smart device 100 .

도 11은 본 발명의 실시예에 따른 컴퓨터 시스템의 구조도이다.11 is a structural diagram of a computer system according to an embodiment of the present invention.

도 11을 참고하면, 적어도 하나의 프로세서에 의해 동작하는 컴퓨터 시스템(400)에서, 본 발명의 동작을 실행하도록 기술된 명령들(instructions)이 포함된 프로그램을 실행한다. 프로그램은 컴퓨터 판독 가능한 저장매체에 저장될 수 있고, 유통될 수 있다. 여기서, 컴퓨터 시스템(400)의 구조는 본 발명의 실시예에 따른 스마트 디바이스(100)의 구조일 수도 있고, 서버(300)의 구조일 수도 있다.Referring to FIG. 11 , in the computer system 400 operated by at least one processor, a program including instructions described for executing the operation of the present invention is executed. The program may be stored in a computer-readable storage medium and may be distributed. Here, the structure of the computer system 400 may be the structure of the smart device 100 according to the embodiment of the present invention or the structure of the server 300 .

컴퓨터 시스템(400)의 하드웨어는 적어도 하나의 프로세서(410), 메모리(420), 스토리지(430), 통신 인터페이스(440)를 포함할 수 있고, 버스를 통해 연결될 수 있다. 이외에도 입력 장치 및 출력 장치 등의 하드웨어가 포함될 수 있다. 컴퓨터 시스템(400)는 프로그램을 구동할 수 있는 운영 체제를 비롯한 각종 소프트웨어가 탑재될 수 있다.Hardware of the computer system 400 may include at least one processor 410 , a memory 420 , a storage 430 , and a communication interface 440 , and may be connected through a bus. In addition, hardware such as an input device and an output device may be included. The computer system 400 may be loaded with various software including an operating system capable of driving a program.

프로세서(410)는 컴퓨터 시스템(400)의 동작을 제어하는 장치로서, 프로그램에 포함된 명령들을 처리하는 다양한 형태의 프로세서일 수 있고, 예를 들면, CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 등 일 수 있다. The processor 410 is a device for controlling the operation of the computer system 400 , and may be various types of processors that process instructions included in a program, for example, a central processing unit (CPU), a micro processor unit (MPU) ), microcontroller unit (MCU), graphic processing unit (GPU), and the like.

메모리(420)는 본 발명의 동작을 실행하도록 기술된 명령들이 프로세서(410)에 의해 처리되도록 해당 프로그램을 로드한다. 메모리(420)는 예를 들면, ROM(read only memory), RAM(random access memory) 등 일 수 있다. 스토리지(430)는 본 발명의 동작을 실행하는데 요구되는 각종 데이터, 프로그램 등을 저장한다. 통신 인터페이스(440)는 유/무선 통신 모듈일 수 있다. The memory 420 loads the corresponding program so that the instructions described to execute the operation of the present invention are processed by the processor 410 . The memory 420 may be, for example, read only memory (ROM), random access memory (RAM), or the like. The storage 430 stores various data, programs, etc. required for executing the operation of the present invention. The communication interface 440 may be a wired/wireless communication module.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.Although the embodiments of the present invention have been described in detail above, the scope of the present invention is not limited thereto, and various modifications and improved forms of the present invention are also provided by those skilled in the art using the basic concept of the present invention as defined in the following claims. is within the scope of the right.

Claims (16)

서버가 스마트 디바이스의 녹음 장치의 고장을 탐지하는 방법으로서,
고장 유형별 학습용 오디오 신호들을 입력 받아, 각 학습용 오디오 신호에 대한 적어도 하나의 스펙트로그램과 오디오 정보들을 각각 추출하는 단계,
각 학습용 오디오 신호들에 대한 적어도 하나의 스펙트로그램과 오디오 정보들을 해당 고장 유형에 매핑한 학습 데이터를 생성하는 단계,
상기 학습 데이터를 이용하여 신경망 분류기를 학습시키는 단계, 그리고
상기 스마트 디바이스로부터 오디오 신호를 수신하고, 학습된 신경망 분류기를 이용하여 상기 오디오 신호의 고장 유형을 탐지하여 상기 스마트 디바이스로 전달하는 단계
를 포함하고,
상기 학습된 신경망 분류기는, 상기 고장 유형별 학습용 오디오 신호들의 스펙트로그램 특징 값을 출력하도록 학습된 제1 신경망 모델,
상기 고장 유형별 학습용 오디오 신호들의 오디오 정보 특징 값을 출력하도록 학습된 제2 신경망 모델, 그리고
상기 제1 신경망 모델 및 제2 신경망 모델에서 출력된 특징 값들을 연결하여, 해당 학습용 오디오 신호의 고장 유형이 출력되도록 학습된 분류 모델
을 포함하는, 고장 탐지 방법.
As a method for the server to detect the failure of the recording device of the smart device,
receiving the learning audio signals for each failure type, and extracting at least one spectrogram and audio information for each learning audio signal, respectively;
generating training data in which at least one spectrogram and audio information for each training audio signal are mapped to a corresponding failure type;
training a neural network classifier using the training data, and
Receiving an audio signal from the smart device, detecting a failure type of the audio signal using a learned neural network classifier, and transmitting it to the smart device
including,
The learned neural network classifier comprises: a first neural network model trained to output spectrogram feature values of the learning audio signals for each failure type;
A second neural network model trained to output audio information feature values of the audio signals for learning for each failure type, and
A classification model trained to output the failure type of the corresponding learning audio signal by connecting the feature values output from the first neural network model and the second neural network model.
A fault detection method comprising:
제1항에 있어서,
상기 제1 신경망 모델은 합성곱 재귀 신경망(CRNN: Convolutional Recurrent Neural Network) 기반의 모델이고,
상기 제2 신경망 모델은 재귀 신경망(RNN: Recurrent Neural Network) 기반의 모델인, 고장 탐지 방법.
According to claim 1,
The first neural network model is a convolutional recurrent neural network (CRNN)-based model,
The second neural network model is a recurrent neural network (RNN)-based model, a failure detection method.
제2항에 있어서
상기 고장 유형은 정상 유형, 순간성 고장 유형, 또는 지속성 고장 유형 중 적어도 하나를 포함하는, 고장 탐지 방법.
3. The method of claim 2
The failure detection method, wherein the failure type includes at least one of a normal type, a transient failure type, or a persistent failure type.
제1항에 있어서
상기 스펙트로그램과 오디오 정보들을 각각 추출하는 단계는,
각 학습용 오디오 신호에서 복수의 시간 구간 신호들을 추출하는 단계, 그리고
각 시간 구간 신호를 주파수 도메인으로 변환하여, 해당 시간 구간 신호의 스펙트로그램과 오디오 정보들을 추출하는 단계
를 포함하고,
상기 복수의 시간 구간 신호들 각각은 이전 시간 구간 또는 이후 시간 구간과 적어도 일부의 시간 구간이 중복되도록 추출되는, 고장 탐지 방법.
The method of claim 1
The step of extracting the spectrogram and the audio information, respectively,
extracting a plurality of time interval signals from each learning audio signal, and
Transforming each time interval signal into a frequency domain and extracting spectrogram and audio information of the corresponding time interval signal
including,
Each of the plurality of time interval signals is extracted such that at least some time intervals overlap with a previous time interval or a subsequent time interval.
녹음 장치를 포함하는 스마트 디바이스가 상기 녹음 장치의 고장을 탐지하는 방법으로서,
녹음 장치에서 수집된 오디오 신호를 입력 받는 단계,
상기 오디오 신호에 대한 적어도 하나의 스펙트로그램과 오디오 정보들을 추출하는 단계, 그리고
상기 오디오 신호의 스펙트로그램과 오디오 정보들을, 고장 유형별 학습용 오디오 신호들로 학습된 신경망 모델로 입력하고, 상기 신경망 모델을 통해 상기 오디오 신호의 고장 유형을 탐지하는 단계
를 포함하는, 고장 탐지 방법.
A method for a smart device including a recording device to detect a failure of the recording device, the method comprising:
receiving the audio signal collected from the recording device;
extracting at least one spectrogram and audio information for the audio signal; and
inputting the spectrogram and audio information of the audio signal into a neural network model trained as audio signals for learning for each failure type, and detecting a failure type of the audio signal through the neural network model
Including, a fault detection method.
제5항에 있어서,
상기 오디오 신호를 입력 받는 단계 이전에,
고장 유형별 학습용 오디오 신호들을 입력 받아, 각 학습용 오디오 신호에 대한 적어도 하나의 스펙트로그램과 오디오 정보들을 각각 추출하는 단계,
각 학습용 오디오 신호들에 대한 적어도 하나의 스펙트로그램과 오디오 정보들을 해당 고장 유형에 매핑한 학습 데이터를 생성하는 단계, 그리고
상기 학습 데이터를 이용하여 신경망 분류기를 학습시키는 단계
를 포함하고,
상기 신경망 분류기를 학습시키는 단계는,
상기 스펙트로그램이 입력되면 스펙트로그램 특징 값을 출력하도록 상기 신경망 분류기에 포함된 제1 신경망 모델을 학습시키는 단계,
상기 오디오 정보들이 입력되면 오디오 정보 특징 값을 출력하도록 상기 신경망 분류기에 포함된 제2 신경망 모델을 학습시키는 단계, 그리고
제1 신경망 모델에서 출력된 스펙트로그램 특징 값 및 상기 제2 신경망 모델에서 출력된 오디오 정보 특징 값을 연결하여 계산한 확률 값을 기초로 입력 오디오 신호의 고장 유형을 출력하도록 분류 모델을 학습시키는 단계
를 더 포함하는, 고장 탐지 방법.
6. The method of claim 5,
Before the step of receiving the audio signal,
receiving the learning audio signals for each failure type, and extracting at least one spectrogram and audio information for each learning audio signal, respectively;
generating training data in which at least one spectrogram and audio information for each training audio signal are mapped to a corresponding failure type; and
training a neural network classifier using the training data
including,
The step of training the neural network classifier comprises:
training a first neural network model included in the neural network classifier to output a spectrogram feature value when the spectrogram is input;
training a second neural network model included in the neural network classifier to output an audio information feature value when the audio information is input; and
Training the classification model to output the failure type of the input audio signal based on the probability value calculated by connecting the spectrogram feature value output from the first neural network model and the audio information feature value output from the second neural network model
Further comprising, a failure detection method.
제5항에 있어서,
상기 오디오 신호를 입력 받는 단계 이전에,
상기 스마트 디바이스와 연동하는 서버로부터, 상기 서버에서 학습된 신경망 모델을 수신하는 단계
를 더 포함하는, 고장 탐지 방법.
6. The method of claim 5,
Before the step of receiving the audio signal,
Receiving the neural network model learned from the server from the server interworking with the smart device
Further comprising, a failure detection method.
제5항에 있어서
상기 스펙트로그램과 오디오 정보들을 추출하는 단계는,
상기 입력 받은 오디오 신호로에서 복수의 시간 구간 신호들을 추출하는 단계, 그리고
각 시간 구간 신호를 주파수 도메인으로 변환하여, 해당 시간 구간 신호의 스펙트로그램과 오디오 정보들을 추출하는 단계
를 포함하고,
상기 복수의 시간 구간 신호들 각각은 이전 시간 구간 또는 이후 시간 구간과 적어도 일부의 시간 구간이 중복되도록 추출되는, 고장 탐지 방법.
6. The method of claim 5
The step of extracting the spectrogram and audio information,
extracting a plurality of time interval signals from the received audio signal; and
Transforming each time interval signal into a frequency domain and extracting spectrogram and audio information of the corresponding time interval signal
including,
Each of the plurality of time interval signals is extracted such that at least some time intervals overlap with a previous time interval or a subsequent time interval.
제6항에 있어서,
상기 제1 신경망 모델은 합성곱 재귀 신경망(CRNN: Convolutional Recurrent Neural Network) 기반의 모델이고,
상기 제2 신경망 모델은 재귀 신경망(RNN: Recurrent Neural Network) 기반의 모델인, 고장 탐지 방법.
7. The method of claim 6,
The first neural network model is a convolutional recurrent neural network (CRNN)-based model,
The second neural network model is a recurrent neural network (RNN)-based model, a failure detection method.
제6항에 있어서,
상기 분류 모델을 학습시키는 단계는,
상기 스펙트로그램 특징 값과 오디오 정보 특징 값을 완전 연결 연산 처리하여 연결 맵을 생성하고, 상기 생성한 연결 맵에 활성화 함수를 적용하여 상기 확률 값으로 계산하는, 고장 탐지 방법.
7. The method of claim 6,
The step of training the classification model comprises:
A method for detecting a failure, wherein the spectrogram feature value and the audio information feature value are completely concatenated to generate a connectivity map, and an activation function is applied to the generated connectivity map to calculate the probability value.
제5항에 있어서,
상기 녹음 장치가 복수 개이면, 상기 고장 유형을 획득하는 단계는,
상기 복수의 녹음 장치들 중 제1 녹음 장치가 수집한 제1 오디오 신호의 스펙트로그램과 오디오 정보, 제2 녹음 장치가 수집한 제2 오디오 신호의 스펙트로그램과 오디오 정보, 그리고 상기 제1 오디오 신호와 제2 오디오 신호의 차이값을 입력 정보로 추출하는 단계, 그리고
상기 입력 정보를, 상기 학습된 신경망 모델로 입력하고, 상기 신경망 모델로부터 상기 제1 오디오 신호와 제2 오디오 신호의 고장 유형을 획득하는 단계
를 포함하는, 고장 탐지 방법.
6. The method of claim 5,
If there are a plurality of recording devices, obtaining the failure type includes:
The spectrogram and audio information of the first audio signal collected by the first recording device among the plurality of recording devices, the spectrogram and audio information of the second audio signal collected by the second recording device, and the first audio signal extracting the difference value of the second audio signal as input information, and
inputting the input information into the learned neural network model, and obtaining failure types of the first audio signal and the second audio signal from the neural network model
Including, a fault detection method.
제11항에 있어서,
상기 입력 정보로 추출하는 단계는,
상기 제1 오디오 신호와 제2 오디오 신호로부터 제1 주파수 도메인 값과 제2 주파수 도메인 값을 생성하는 단계,
상기 제1 주파수 도메인 값과 제2 주파수 도메인 값의 제1 차이값을 계산하는 단계, 그리고
상기 제1 오디오 신호와 제2 오디오 신호를 n 제곱하고, n 제곱된 제1 오디오 신호와 제2 오디오 신호의 각 주파수 도메인 값들로부터 제2 차이값을 계산하는 단계
를 포함하는, 고장 탐지 방법.
12. The method of claim 11,
The step of extracting the input information is,
generating first and second frequency domain values from the first and second audio signals;
calculating a first difference value between the first frequency domain value and the second frequency domain value; and
n-squaring the first audio signal and the second audio signal, and calculating a second difference value from respective frequency domain values of the n-squared first audio signal and the second audio signal;
Including, a fault detection method.
스마트 디바이스에 포함된 녹음 장치의 고장을 탐지하는 서버로서,
적어도 하나의 명령어를 포함하고, 고장 유형별 학습용 오디오 신호들을 저장하는 메모리,
상기 스마트 디바이스로부터 오디오 신호를 수신하는 인터페이스, 그리고
프로세서
를 포함하고,
상기 프로세서는,
상기 고장 유형별 학습용 오디오 신호로부터 스펙트로그램과 오디오 정보들을 추출하고, 상기 스펙트로그램과 오디오 정보들을 이용하여 신경망 분류기를 학습시키고, 학습된 신경망 분류기로 상기 수신한 오디오 신호를 입력하여 상기 오디오 신호의 고장 유형을 탐지하는, 서버.
As a server for detecting the failure of the recording device included in the smart device,
A memory including at least one instruction and storing audio signals for learning for each failure type;
an interface for receiving an audio signal from the smart device, and
processor
including,
The processor is
Spectrogram and audio information are extracted from the learning audio signal for each failure type, a neural network classifier is trained using the spectrogram and audio information, and the received audio signal is input to the learned neural network classifier to determine the failure type of the audio signal. to detect, the server.
제13항에 있어서,
상기 프로세서는,
상기 수신한 오디오 신호로부터 일정 구간이 중복되도록 복수의 구간 신호들을 추출하고, 추출한 상기 구간 신호들을 주파수 도메인 값으로 변환하여 상기 복수의 오디오 정보들을 추출하는, 서버.
14. The method of claim 13,
The processor is
A server for extracting a plurality of section signals to overlap a predetermined section from the received audio signal, and converting the extracted section signals into frequency domain values to extract the plurality of audio information.
제14항에 있어서,
상기 프로세서는,
상기 스마트 디바이스의 녹음 장치가 복수 개이면, 복수 개의 녹음 장치가 각각 수집한 오디오 신호들 사이의 차이값을 계산하는, 서버.
15. The method of claim 14,
The processor is
If there are a plurality of recording apparatuses of the smart device, the server calculates a difference value between the audio signals collected by the plurality of recording apparatuses, respectively.
제15항에 있어서,
상기 프로세서는,
상기 스펙트로그램 특징 값과 오디오 정보 특징 값을 완전 연결 연산 처리하여 연결 맵을 생성하고, 상기 생성한 연결 맵에 활성화 함수를 적용하여 상기 확률 값을 계산하는, 서버.
16. The method of claim 15,
The processor is
A server for generating a connection map by performing full connection operation processing on the spectrogram feature value and the audio information feature value, and calculating the probability value by applying an activation function to the created connection map.
KR1020200042992A 2020-04-08 2020-04-08 Method for detecting recording device failure using neural network classifier, server and smart device implementing the same KR20210125366A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200042992A KR20210125366A (en) 2020-04-08 2020-04-08 Method for detecting recording device failure using neural network classifier, server and smart device implementing the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200042992A KR20210125366A (en) 2020-04-08 2020-04-08 Method for detecting recording device failure using neural network classifier, server and smart device implementing the same

Publications (1)

Publication Number Publication Date
KR20210125366A true KR20210125366A (en) 2021-10-18

Family

ID=78271495

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200042992A KR20210125366A (en) 2020-04-08 2020-04-08 Method for detecting recording device failure using neural network classifier, server and smart device implementing the same

Country Status (1)

Country Link
KR (1) KR20210125366A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115713945A (en) * 2022-11-10 2023-02-24 杭州爱华仪器有限公司 Audio data processing method and prediction method
CN116417013A (en) * 2023-06-09 2023-07-11 中国海洋大学 Underwater propeller fault diagnosis method and system

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115713945A (en) * 2022-11-10 2023-02-24 杭州爱华仪器有限公司 Audio data processing method and prediction method
CN116417013A (en) * 2023-06-09 2023-07-11 中国海洋大学 Underwater propeller fault diagnosis method and system
CN116417013B (en) * 2023-06-09 2023-08-25 中国海洋大学 Underwater propeller fault diagnosis method and system

Similar Documents

Publication Publication Date Title
US11543326B2 (en) Method and system for performing fault diagnosis by bearing noise detection
US11475910B2 (en) System and methods for machine anomaly detection based on sound spectrogram images and neural networks
US20190192110A1 (en) Classifier ensemble for detection of abnormal heart sounds
US11984135B2 (en) System and method for offline embedded abnormal sound fault detection
KR20210125366A (en) Method for detecting recording device failure using neural network classifier, server and smart device implementing the same
CN108414240A (en) A kind of method and apparatus of detection machine abnormal vibrations
KR20200080380A (en) Apparatus and method for fault diagnosis of gearbox using cnn
JP2012018066A (en) Device for inspecting abnormality
CN111986699B (en) Sound event detection method based on full convolution network
US20210186370A1 (en) Automated and objective symptom severity score
KR102314824B1 (en) Acoustic event detection method based on deep learning
KR20210003004A (en) Method and apparatus for abnormality diagnose and prediction based on ensemble model
KR20220064098A (en) Fault diagnosis apparatus and method based on machine-learning
Pan et al. Cognitive acoustic analytics service for Internet of Things
US20180188104A1 (en) Signal detection device, signal detection method, and recording medium
JP4886461B2 (en) Abnormality monitoring device
JP2019066339A (en) Diagnostic device, diagnostic method and diagnostic system each using sound
JP4886460B2 (en) Abnormality monitoring device
JP5994639B2 (en) Sound section detection device, sound section detection method, and sound section detection program
JP2002323371A (en) Sound diagnostic device and sound diagnostic method
JP7373358B2 (en) Sound extraction system and sound extraction method
JP2021156631A (en) Anomaly detection device and method
CN112850408B (en) Elevator emergency stop trapped person fault detection method based on multi-model fusion
KR20230080242A (en) Method for diagnosing machine failure using sound and vibrtion based on deep learning and diagnostic device using them
JP2004205215A (en) Sound source diagnosing device