KR20200072030A - Apparatus and method for detecting multimodal cough using audio and acceleration data - Google Patents

Apparatus and method for detecting multimodal cough using audio and acceleration data Download PDF

Info

Publication number
KR20200072030A
KR20200072030A KR1020180159742A KR20180159742A KR20200072030A KR 20200072030 A KR20200072030 A KR 20200072030A KR 1020180159742 A KR1020180159742 A KR 1020180159742A KR 20180159742 A KR20180159742 A KR 20180159742A KR 20200072030 A KR20200072030 A KR 20200072030A
Authority
KR
South Korea
Prior art keywords
cough
data
sound
acceleration data
matrix
Prior art date
Application number
KR1020180159742A
Other languages
Korean (ko)
Inventor
이규철
백문기
Original Assignee
충남대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 충남대학교산학협력단 filed Critical 충남대학교산학협력단
Priority to KR1020180159742A priority Critical patent/KR20200072030A/en
Publication of KR20200072030A publication Critical patent/KR20200072030A/en

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7271Specific aspects of physiological measurement analysis
    • A61B5/7275Determining trends in physiological measurement data; Predicting development of a medical condition based on physiological measurements, e.g. determining a risk factor
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7253Details of waveform analysis characterised by using transforms
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/74Details of notification to user or communication with user or patient ; user input means
    • A61B5/742Details of notification to user or communication with user or patient ; user input means using visual displays

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Veterinary Medicine (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Psychiatry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physiology (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

The present invention relates to a multimodal cough sensing apparatus using sound and acceleration data and a method thereof. The multimodal cough sensing method of the present invention comprises the steps of: extracting cough sound data when cough occurs and movement of a set time period before and after cough, as acceleration data; extracting sound feature data from the cough sound data using at least one algorithm of short-time Fourier transform (STFT) and a Mel-frequency cepstral coefficient (MFCC), and converting the acceleration data into a format corresponding to the sound feature data; combining the sound feature data and the converted acceleration data into one matrix; and determining whether cough occurs by applying the combined matrix to a classifier. According to the present invention, the accuracy and sensitivity of sensing a cough can be improved by further using motion data when a cough occurs, as well as the cough sound data.

Description

소리와 가속도 데이터를 이용한 멀티모달 기침 감지 장치 및 방법{APPARATUS AND METHOD FOR DETECTING MULTIMODAL COUGH USING AUDIO AND ACCELERATION DATA}Multi-modal cough detection device and method using sound and acceleration data{APPARATUS AND METHOD FOR DETECTING MULTIMODAL COUGH USING AUDIO AND ACCELERATION DATA}

본 발명은 소리와 가속도 데이터를 동시에 이용한 멀티모달 기침 감지 장치 및 방법에 관한 것이다.The present invention relates to a multi-modal cough detection apparatus and method using sound and acceleration data simultaneously.

전 세계적으로 인플루엔자에 의해 매년 29 내지 64만명의 사망자가 발생하여 사회, 경제적인 피해를 일으키고 있다. 기침에 의해 생성된 비말은 인플루엔자의 주요 전파 방법으노, 기침 감지 기술을 통해 확산 방지가 가능하다. 이전의 기침 감지 기술에 대한 연구는 기침 소리를 이용하여 기계학습방법을 통해 감지하는 방법을 주로 사용하였다. Worldwide, influenza causes 29 to 600,000 deaths each year, causing social and economic damage. Splash produced by cough is the main method of propagation of influenza, and it is possible to prevent spread through cough detection technology. Previous studies on cough detection technology mainly used a method of detecting cough sounds through a machine learning method.

종래의 기침 감지 기술은 HMM(Hidden Markov Model)과 SVM(Support Vector Machine)와 같은 정통적인 기계학습을 사용하였다. Conventional cough detection technology used conventional machine learning such as Hidden Markov Model (HMM) and Support Vector Machine (SVM).

또한, 기침 감지 기술에도 딥러닝 기술을 적용하는 연구가 이루어지고 있다. 구체적으로, 기침과 관련된 데이터의 특징 추출 및 분석을 통해 전통적인 기계학습 방식을 대체하고, 분석된 데이터에 대한 특징을 학습한다. 예를 들어, 통상 기침이 발생하면 기침에 따른 소리를 분석하는 학습에 의해 기침 발생 여부를 결정할 수 있다. In addition, studies applying deep learning technology to cough detection technology have been conducted. Specifically, it replaces the traditional machine learning method through feature extraction and analysis of data related to cough, and learns the characteristics of the analyzed data. For example, when a cough usually occurs, it may be determined whether or not a cough is generated by learning to analyze sounds according to the cough.

본 발명은 소리와 가속도 데이터의 형식을 표준화시킨 후 변환된 소리와 가속도 데이터를 결합하여 기침을 감지하는 멀티모달 기침 감지 장치 및 방법을 제공하는데 그 목적이 있다.An object of the present invention is to provide a multi-modal cough detection apparatus and method for detecting cough by combining the converted sound and acceleration data after standardizing the format of sound and acceleration data.

상기의 목적을 달성하기 위해 본 발명의 일 실시예에 따른 멀티모달 기침 감지 방법은 기침 발생 시 기침 소리 데이터와 기침 전후 설정된 시간 구간의 움직임을 가속도 데이터로 추출하는 단계, 상기 기침 소리 데이터를 STFT(Short-Time Fourier Transform)와 MFCC(Mel-Frequency Cepstrum Coefficients) 중 적어도 하나의 알고리즘을 사용하여 상기 기침 소리 데이터로부터 소리 특징 데이터를 추출하고, 상기 가속도 데이터를 상기 소리 특징 데이터에 대응하는 형식으로 변환하는 단계, 상기 소리 특징 데이터와 상기 변환된 가속도 데이터를 하나의 행렬로 결합하는 단계, 및 상기 결합된 행렬을 분류기에 적용하여 기침 발생 여부를 판단하는 단계를 포함한다.In order to achieve the above object, a multi-modal cough detection method according to an embodiment of the present invention includes extracting cough sound data and movement of a set time interval before and after cough as acceleration data, and cough sound data is STFT ( Extracting sound feature data from the cough sound data using at least one algorithm of Short-Time Fourier Transform (MFC) and Mel-Frequency Cepstrum Coefficients (MFCC), and converting the acceleration data into a format corresponding to the sound feature data And combining the sound feature data and the converted acceleration data into a single matrix, and determining whether coughing occurs by applying the combined matrix to a classifier.

상기 가속도 데이터를 상기 소리 특징 데이터에 대응하는 형식으로 변환하는 단계는, 상기 가속도 데이터를 임베딩(Embedding)하여 상기 소리 특징 데이터에 대응하는 형식으로 변환할 수 있다. In the step of converting the acceleration data into a format corresponding to the sound feature data, the acceleration data may be embedded to be converted into a format corresponding to the sound feature data.

상기 하나의 행렬로 결합하는 단계는, 상기 소리 특징 데이터와 상기 변환된 가속도 데이터를 연결하여 하나의 행렬로 결합하거나, 또는 상기 변환된 가속도 데이터를 트랜스포즈(Transpose)하여 하나의 행렬로 결합할 수 있다. In the combining of the single matrices, the sound feature data and the transformed acceleration data may be combined into a single matrix, or the transformed acceleration data may be transposed to combine into one matrix. have.

여기서, 분류기는 DNN(Deep Neural Network), RNN(Recurrent Neural Network), CNN(Convolution Neural Network) 중 하나를 사용할 수 있다. Here, the classifier may use one of a deep neural network (DNN), a recurrent neural network (RNN), and a convolution neural network (CNN).

본 발명의 다른 실시예에 따른 멀티모달 기침 감지 장치는 기침 발생 시 기침 소리 데이터와 기침 전후 설정된 시간 구간의 움직임을 가속도 데이터로 추출하는 센싱부, 상기 센싱부에서 추출한 상기 기침 소리 데이터를 STFT(Short-Time Fourier Transform)와 MFCC(Mel-Frequency Cepstrum Coefficients) 중 적어도 하나의 알고리즘을 사용하여 상기 기침 소리 데이터로부터 소리 특징 데이터를 추출하고, 상기 가속도 데이터를 상기 소리 특징 데이터에 대응하는 형식으로 변환하고, 상기 소리 특징 데이터와 상기 변환된 가속도 데이터를 하나의 행렬로 결합하고, 상기 결합된 행렬을 분류기에 적용하여 기침 발생 여부를 판단하는 제어부, 및 상기 제어부의 판단 결과를 출력하는 출력부를 포함할 수 있다. The multi-modal cough detection apparatus according to another embodiment of the present invention includes a sensing unit that extracts cough sound data and movement of a predetermined time interval before and after cough as acceleration data when the cough occurs, and STFT (Short) the cough sound data extracted from the sensing unit. -Sound feature data is extracted from the cough sound data using at least one algorithm of Time Fourier Transform) and MFCC (Mel-Frequency Cepstrum Coefficients), and the acceleration data is converted into a format corresponding to the sound feature data, It may include a control unit for combining the sound feature data and the converted acceleration data into one matrix, and applying the combined matrix to a classifier to determine whether or not a cough has occurred, and an output unit for outputting the determination result of the controller. .

본 발명에 의하면, 기침 소리 데이터 뿐만 아니라 기침 발생 시 움직임 데이터를 더 이용함으로써 기침 감지의 정확도, 민감도를 향상시킬 수 있다는 효과가 있다.According to the present invention, it is possible to improve the accuracy and sensitivity of cough detection by further using cough sound data as well as motion data when cough occurs.

도 1은 본 발명의 일 실시예에 따른 소리와 가속도 데이터를 이용한 멀티모달 기침 감지 방법의 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 소리와 가속도 데이터를 이용한 멀티모달 기침 감지 장치의 개략적인 구성도이다.
도 3은 본 발명의 일 실시예에 따른 소리와 가속도 데이터를 이용한 멀티모달 기침 감지 장치의 외형도 및 각 구성요소의 수집 데이터를 설명하기 위한 도면이다.
도 4 내지 도 5는 본 발명의 일 실시예에 따른 소리 데이터로부터 기침 감지를 판단하는 방법을 설명하기 위한 도면들이다.
도 6 내지 도 7은 본 발명의 일 실시예에 따른 소리와 가속도 데이터를 결합한 멀티모달 기침 감지 방법을 설명하기 위한 도면들이다.
도 8 내지 도 11은 본 발명의 일 실시예에 따른 소리와 가속도 데이터를 이용한 멀티모달 기침 감지 방법의 성능을 비교하여 설명하기 위한 도면들이다.
1 is a flowchart of a multi-modal cough detection method using sound and acceleration data according to an embodiment of the present invention.
2 is a schematic configuration diagram of a multi-modal cough detection apparatus using sound and acceleration data according to an embodiment of the present invention.
3 is a view for explaining the appearance of the multi-modal cough detection apparatus using sound and acceleration data according to an embodiment of the present invention and collection data of each component.
4 to 5 are diagrams for explaining a method for determining cough detection from sound data according to an embodiment of the present invention.
6 to 7 are diagrams for explaining a multi-modal cough detection method combining sound and acceleration data according to an embodiment of the present invention.
8 to 11 are diagrams for comparing and explaining the performance of a multi-modal cough detection method using sound and acceleration data according to an embodiment of the present invention.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면을 참조하여 상세하게 설명하도록 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.The present invention can be modified in various ways and can have various embodiments, and specific embodiments will be described in detail with reference to the drawings. However, this is not intended to limit the present invention to specific embodiments, and should be understood to include all modifications, equivalents, and substitutes included in the spirit and scope of the present invention. In describing each drawing, similar reference numerals are used for similar components.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재 항목들의 조합 또는 복수의 관련된 기재 항목들 중의 어느 항목을 포함한다.Terms such as first, second, A, B, etc. can be used to describe various components, but the components should not be limited by the terms. The terms are used only for the purpose of distinguishing one component from other components. For example, without departing from the scope of the present invention, the first component may be referred to as the second component, and similarly, the second component may also be referred to as the first component. The term and/or includes a combination of a plurality of related description items or any one of a plurality of related description items.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급될 때에는 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. When a component is said to be "connected" to or "connected" to another component, it should be understood that other components may be directly connected to, or connected to, other components. something to do. On the other hand, when a component is said to be "directly connected" or "directly connected" to another component, it should be understood that no other component exists in the middle.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terms used in the present application are only used to describe specific embodiments, and are not intended to limit the present invention. Singular expressions include plural expressions unless the context clearly indicates otherwise. In this application, terms such as “include” or “have” are intended to indicate that a feature, number, step, operation, component, part, or combination thereof described in the specification exists, one or more other features. It should be understood that the existence or addition possibilities of fields or numbers, steps, operations, components, parts or combinations thereof are not excluded in advance.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless otherwise defined, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by a person skilled in the art to which the present invention pertains. Terms, such as those defined in a commonly used dictionary, should be interpreted as having meanings consistent with meanings in the context of related technologies, and should not be interpreted as ideal or excessively formal meanings unless explicitly defined in the present application. Does not.

명세서 및 청구범위 전체에서, 어떤 부분이 어떤 구성 요소를 포함한다고 할때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있다는 것을 의미한다. Throughout the specification and claims, when a part includes a certain component, this means that other components may be further included rather than excluding other components unless otherwise specified.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다. Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 소리와 가속도 데이터를 이용한 멀티모달 기침 감지 방법의 흐름도이다.1 is a flowchart of a multi-modal cough detection method using sound and acceleration data according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 일 실시예에 따른 소리와 가속도 데이터를 이용한 멀티모달 기침 감지 방법은 기침 소리 데이터와 가속도 데이터를 추출하고, 형식을 표준화하여 하나의 행렬로 결합한 후 분류기에 적용하여 기침 발생 여부를 판단하는 것입니다. Referring to FIG. 1, a multi-modal cough detection method using sound and acceleration data according to an embodiment of the present invention extracts cough sound data and acceleration data, standardizes the form, combines them into one matrix, and applies them to a classifier. It is to determine whether a cough has occurred.

기침 소리 데이터와 가속도 데이터를 하나의 데이터로 생성하여 분류기에 적용함으로써 기침 소리 데이터만을 이용하거나 가속도 데이터만을 이용한 경우보다 민감도, 정밀도 측면에서 크게 향상된 판독 결과를 얻을 수 있습니다.By generating cough sound data and acceleration data as one data and applying them to the classifier, it is possible to obtain significantly improved reading results in terms of sensitivity and precision than when only cough sound data or acceleration data is used.

구체적으로, 기침 소리 데이터와 가속도 데이터를 추출하는 단계(S110)는 기침 발생 시 기침 소리 데이터와 기침 전후 설정된 시간 구간의 움직임을 가속도 데이터로 추출할 수 있다. 이때, 기침 소리 데이터와 가속도 데이터는 기침 감지 장치에 내장된 마이크로폰과 가속도 센서를 이용하여 획득된 센서값 또는 센서값들을 가공한 데이터일 수 있다. Specifically, in the step of extracting cough sound data and acceleration data (S110), cough sound data and movement of a predetermined time interval before and after coughing may be extracted as acceleration data. In this case, the cough sound data and the acceleration data may be data obtained by processing sensor values or sensor values obtained using a microphone and an acceleration sensor built into the cough detection device.

다음으로, 소리와 가속도 데이터의 형식을 표준화하는 단계(S120)는 기침 소리 데이터를 STFT(Short-Time Fourier Transform)와 MFCC(Mel-Frequency Cepstrum Coefficients) 중 적어도 하나의 알고리즘을 사용하여 기침 소리 데이터로부터 소리 특징 데이터를 추출한다. 또한, 가속도 데이터를 소리 특징 데이터에 대응하는 형식으로 변환할 수 있다. 예를 들어, 30차 MFCC를 통해 추출된 기침 소리 데이터는 44*30 행렬로 나타낼 수 있으며, x, y, z 3축으로 측정된 가속도값을 3*30 행렬 형태로 변환하여 양 데이터의 형식을 통일시킬 수 있다. 구체적으로, 가속도 데이터를 임베딩(Embedding)하여 소리 특징 데이터에 대응하는 형식으로 변환할 수 있다. 즉, 추출한 각각의 특징 데이터는 각각의 모달리티로 구성되며 데이터 시퀀스로 나타낼 수 있다. 추출한 특징으로 구성된 각각의 모달리티는 서로 다른 형식을 가지기 때문에 두 모달리티 간의 이질성이 존재한다. 두 모달리티를 재구성하는 생성 모델을 학습하여 두 특징 데이터를 연결할 수 있다. Next, in the step of standardizing the format of sound and acceleration data (S120), the cough sound data is extracted from the cough sound data by using at least one of STFT (Short-Time Fourier Transform) and MFCC (Mel-Frequency Cepstrum Coefficients). Extract sound feature data. Further, the acceleration data can be converted into a format corresponding to the sound feature data. For example, cough sound data extracted through the 30th-order MFCC can be expressed as a 44*30 matrix, and the acceleration values measured in the x, y, and z 3 axes are converted into a 3*30 matrix to convert both types of data. Can be unified. Specifically, the acceleration data may be embedded and converted into a format corresponding to sound feature data. That is, each extracted feature data is composed of respective modalities and can be represented by a data sequence. Since each modality composed of extracted features has a different format, heterogeneity exists between the two modalities. You can connect the two feature data by learning the generation model that reconstructs the two modalities.

양 데이터의 형식을 통일시킨 후 소리 특징 데이터와 변환된 가속도 데이터를 하나의 행렬로 결합할 수 있다. 양 데이터를 결합하는 방법은 이하 도 6 및 도 7을 참조하여 구체적으로 설명하도록 한다. 구체적으로, 하나의 행렬로 결합하는 단계는 소리 특징 데이터와 변환된 가속도 데이터를 연결하여 하나의 행렬로 결합하거나, 또는 변환된 가속도 데이터를 트랜스포즈(Transpose)하여 하나의 행렬로 결합할 수 있다. After unifying the format of both data, the sound feature data and the converted acceleration data can be combined into one matrix. The method of combining both data will be described in detail with reference to FIGS. 6 and 7 below. Specifically, the step of combining into one matrix may combine the sound feature data and the converted acceleration data into one matrix, or transpose the converted acceleration data into one matrix.

마지막으로, 결합된 행렬을 분류기에 적용하여 기침 발생 여부를 판단할 수 있다. 여기서, 분류기는 DNN(Deep Neural Network), RNN(Recurrent Neural Network), CNN(Convolution Neural Network) 중 하나를 사용할 수 있다. 예를 들어, RNN의 일종인 LSTM(Long Short-Term Memory) 분류기를 이용했으며, 해당 LSTM을 96개의 히든 유닛(Hidden Unit)으로 이루어진 3개 레이어와 2개의 출력으로 구성하였다. 2개의 출력은 다시 소프트맥스(Softmax)를 거쳐 하나의 바이너리값을 가지며 이 값으로부터 기침 감지 여부를 판단할 수 있다. Finally, it is possible to determine whether coughing occurs by applying the combined matrix to the classifier. Here, the classifier may use one of a deep neural network (DNN), a recurrent neural network (RNN), and a convolution neural network (CNN). For example, a long short-term memory (LSTM) classifier, which is a type of RNN, was used, and the LSTM was composed of three layers of 96 hidden units and two outputs. The two outputs have a binary value through Softmax again, and it is possible to determine whether a cough is detected from this value.

도 2는 본 발명의 일 실시예에 따른 소리와 가속도 데이터를 이용한 멀티모달 기침 감지 장치의 개략적인 구성도이고, 도 3은 본 발명의 일 실시예에 따른 소리와 가속도 데이터를 이용한 멀티모달 기침 감지 장치의 외형도 및 각 구성요소의 수집 데이터를 설명하기 위한 도면이다.2 is a schematic configuration diagram of a multi-modal cough detection apparatus using sound and acceleration data according to an embodiment of the present invention, and FIG. 3 is a multi-modal cough detection using sound and acceleration data according to an embodiment of the present invention It is a view for explaining the external view of the device and the collected data of each component.

도 2를 참조하면, 본 발명의 일 실시예에 따른 소리와 가속도 데이터를 이용한 멀티모달 기침 감지 장치(100)는 센싱부(110), 제어부(120) 및 출력부(130)를 포함하며, 센싱부(110)는 마이크로폰(112) 및 가속도 센서(114)를 포함하여 구성될 수 있다. Referring to FIG. 2, the multi-modal cough detection apparatus 100 using sound and acceleration data according to an embodiment of the present invention includes a sensing unit 110, a control unit 120 and an output unit 130, and sensing The unit 110 may include a microphone 112 and an acceleration sensor 114.

센싱부(110)는 마이크로폰(112)을 통해 기침 발생 시 기침 소리 데이터를 수집하고, 가속도 센서(114)를 통해 기침 전후 설정된 시간 구간의 움직임을 가속도 데이터로 추출할 수 있다.The sensing unit 110 may collect cough sound data when a cough occurs through the microphone 112 and extract movement of a predetermined time period before and after coughing as acceleration data through the acceleration sensor 114.

제어부(120)는 센싱부(110)에서 추출한 기침 소리 데이터를 STFT(Short-Time Fourier Transform)와 MFCC(Mel-Frequency Cepstrum Coefficients) 중 적어도 하나의 알고리즘을 사용하여 기침 소리 데이터로부터 소리 특징 데이터를 추출하고, 가속도 데이터를 소리 특징 데이터에 대응하는 형식으로 변환할 수 있다. 제어부(120)는 소리 특징 데이터와 변환된 가속도 데이터를 하나의 행렬로 결합하고, 결합된 행렬을 분류기에 적용하여 기침 발생 여부를 판단할 수 있다. The controller 120 extracts sound feature data from the cough sound data using at least one algorithm of short-time fourier transform (STFT) and mel-frequency cepstrum coefficients (MFC) from the cough sound data extracted by the sensing unit 110. Then, the acceleration data can be converted into a format corresponding to the sound feature data. The controller 120 may combine the sound feature data and the converted acceleration data into one matrix, and apply the combined matrix to the classifier to determine whether coughing has occurred.

출력부(130)는 음성 출력부, 디스플레이부, 피드백부 중 적어도 하나를 포함할 수 있고, 제어부(120)의 판단 결과를 출력할 수 있다. The output unit 130 may include at least one of a voice output unit, a display unit, and a feedback unit, and may output a determination result of the control unit 120.

도 3을 참조하면, 기침 감지 장치(100)는 마이크로폰, 가속도 센서 등 다수의 센서가 내장된 웨어러블 디바이스 형태로 형성될 수 있고, 각 센서를 통해 소리 데이터, 가속도 데이터, PPG 데이터 등을 수집할 수 있다. Referring to FIG. 3, the cough detection apparatus 100 may be formed in the form of a wearable device in which a plurality of sensors, such as a microphone and an acceleration sensor, are built in, and may collect sound data, acceleration data, PPG data, etc. through each sensor. have.

도 4 내지 도 5는 본 발명의 일 실시예에 따른 소리 데이터로부터 기침 감지를 판단하는 방법을 설명하기 위한 도면들이다.4 to 5 are diagrams for explaining a method for determining cough detection from sound data according to an embodiment of the present invention.

도 4 내지 도 5를 참조하면, 본 발명의 일 실시예에 따른 소리 데이터는 기참 소리인지 그 이외의 소리인지에 따라 획득된 파형이 상이하며, MFCC를 통과시킨 결과가 서로 상이하다.4 to 5, the sound data according to an embodiment of the present invention has different waveforms obtained depending on whether it is an existing sound or other sounds, and the results of passing the MFCC are different from each other.

구체적으로, 기침 소리의 경우 짧은 시간동안 피크 최대값을 가지며 정상상태로 되는 시간이 짧은 정형적인 파형을 나타내지만 비기침 소리 또는 생활 소음은 불규칙하고 예측할 수 없는 파형을 나타내는 점에서 차이가 있다. Specifically, the cough sound has a peak peak value for a short period of time and a normal waveform with a short period of time to be in a normal state, but a non-cough sound or life noise is different in that it represents an irregular and unpredictable waveform.

도 6 내지 도 7은 본 발명의 일 실시예에 따른 소리와 가속도 데이터를 결합한 멀티모달 기침 감지 방법을 설명하기 위한 도면들이다.6 to 7 are diagrams for explaining a multi-modal cough detection method combining sound and acceleration data according to an embodiment of the present invention.

도 6을 참조하면, 본 발명의 일 실시예에 따른 소리와 가속도 데이터를 결합하는 방법은 소리 특징 데이터를 44*30 행렬로 나타내고, 가속도 데이터를 임베딩하여 3*30 행렬로 나타낸 후 이를 연결하여 47*30 행렬을 생성할 수 있다. 즉, 47 입력 크기를 30 시간 단계로 구성할 수 있다. Referring to FIG. 6, in a method of combining sound and acceleration data according to an embodiment of the present invention, sound characteristic data is represented as a 44*30 matrix, and acceleration data is embedded and represented as a 3*30 matrix, and then connected to each other 47 *30 You can create matrices. That is, the input size of 47 can be configured in 30-hour steps.

도 7을 참조하면, 본 발명의 일 실시예에 따른 소리와 가속도 데이터를 결합하는 방법은 소리 특징 데이터를 30*44 행렬로 나타내고, 가속도 데이터를 임베딩하여 3*30 행렬로 나타낸 후 트랜즈포즈하여 30*47 행렬로 생성할 수 있다. 즉, 30 입력 크기를 47 시간 단계로 구성할 수 있다. Referring to FIG. 7, a method of combining sound and acceleration data according to an embodiment of the present invention represents sound feature data as a 30*44 matrix, embeds acceleration data as a 3*30 matrix, and transposes It can be created as a 30*47 matrix. That is, 30 input sizes can be configured in 47 time steps.

도 8 내지 도 11은 본 발명의 일 실시예에 따른 소리와 가속도 데이터를 이용한 멀티모달 기침 감지 방법의 성능을 비교하여 설명하기 위한 도면들이다.8 to 11 are diagrams for comparing and explaining the performance of a multi-modal cough detection method using sound and acceleration data according to an embodiment of the present invention.

도 8 내지 도 11을 참조하면, 본 발명의 일 실시예에 따른 소리와 가속도 데이터를 이용한 멀티모달 기침 감지 방법의 성능을 평가하기 위해 평가지표로 민감도(Recall), 정밀도(Precision), F1-점수(F1-Score)를 사용할 수 있다. Referring to FIGS. 8 to 11, in order to evaluate the performance of a multi-modal cough detection method using sound and acceleration data according to an embodiment of the present invention, as an evaluation index, sensitivity (Recall), precision (Precision), and F1-score (F1-Score) can be used.

기침 가속도 데이터만을 학습한 모델의 경우 평균 정확도는 89.99%, AUC는 0.60을 기록하였고, 민감도는 2.202%, 정밀도는 60.71%로 해당 모델이 기침, 비기침에 대한 분류에서 좋은 성능을 발휘하지 못했다. For the model that learned only cough acceleration data, the average accuracy was 89.99%, the AUC was 0.60, the sensitivity was 2.202%, and the precision was 60.71%, and the model did not perform well in the classification of cough and non-cough.

또한, 기침 소리만을 학습한 모델의 경우 평균 정확도는 95.33%, AUC는 0.90을 기록했으며, 민감도는 58.86%, 정밀도는 90.71%의 결과값을 보였다. 해당 수치는 모델이 기침에 대한 분류보다 비기침에 대한 분류 성능이 더 우수하다는 것을 의미한다. In addition, in the case of a model learning only cough sounds, the average accuracy was 95.33%, the AUC was 0.90, the sensitivity was 58.86%, and the precision was 90.71%. This figure means that the model has better performance for classifying cough than non-coughing.

본 발명의 일 실시예에 따른 소리와 가속도 데이터를 결합하여 학습한 멀티모달 방식의 모델의 성능지표는 평균 정확도가 97.20%, AUC는 0.96으로 기침 소리 데이터만으로 학습한 모델보다 향상된 성능 결과를 얻었다. 해당 모델의 민감도 82.49%, 정밀도 91.08%, F1-점수 0.8657이며, 해당 수치를 기침 소리를 단독으로 학습한 모델과 비교 했을 때, 기침과 비기침 분류 모두에서 성능이 단일모달을 이용한 모델보다 향상된 것을 확인할 수 있다. The performance index of the multi-modal model learned by combining sound and acceleration data according to an embodiment of the present invention has an average accuracy of 97.20% and an AUC of 0.96, resulting in improved performance than a model trained with only cough sound data. The sensitivity of this model is 82.49%, precision 91.08%, and F1-score 0.8657, and when the corresponding value is compared with a model that learns cough sound alone, performance in both cough and non-cough classification is improved compared to a model using a single modal. Can be confirmed.

F1-점수는 0.8657로 단일모달 모델에 비해 보다 안정적인 기침 감지 성능을 발취하는 모델임을 증명하였으며, 단일모달을 구성하였을 때 성능이 낮게 나타난 기침 가속도 데이터가 결합시 전체 모델의 안정성을 향상시키는 것을 확인할 수 있다. The F1-score was 0.8657, which proved to be a model that achieves more stable cough detection performance compared to the single modal model, and it was confirmed that cough acceleration data with low performance when constructing a single modal improved the stability of the entire model when combined. have.

또한, 다른 연구 모델과 비교하더라도 본 발명에 따른 멀티모달 기침 감지 방법은 민감도, 정밀도, F1-점수에서 우수한 결과를 나타내는 것을 확인할 수 있다. In addition, it can be seen that even when compared with other research models, the multi-modal cough detection method according to the present invention shows excellent results in sensitivity, precision, and F1-score.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 사람이라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.The above description is merely illustrative of the technical spirit of the present invention, and those skilled in the art to which the present invention pertains may make various modifications and variations without departing from the essential characteristics of the present invention. Therefore, the embodiments disclosed in the present invention are not intended to limit the technical spirit of the present invention, but to explain, and the scope of the technical spirit of the present invention is not limited by these embodiments. The scope of protection of the present invention should be interpreted by the claims below, and all technical spirits within the equivalent range should be interpreted as being included in the scope of the present invention.

100: 멀티모달 기침 감지 장치 110: 센싱부
112: 마이크로폰 114: 가속도 센서
120: 제어부 130: 출력부
100: multi-modal cough detection device 110: sensing unit
112: microphone 114: acceleration sensor
120: control unit 130: output unit

Claims (5)

기침 발생 시 기침 소리 데이터와 기침 전후 설정된 시간 구간의 움직임을 가속도 데이터로 추출하는 단계;
상기 기침 소리 데이터를 STFT(Short-Time Fourier Transform)와 MFCC(Mel-Frequency Cepstrum Coefficients) 중 적어도 하나의 알고리즘을 사용하여 상기 기침 소리 데이터로부터 소리 특징 데이터를 추출하고, 상기 가속도 데이터를 상기 소리 특징 데이터에 대응하는 형식으로 변환하는 단계;
상기 소리 특징 데이터와 상기 변환된 가속도 데이터를 하나의 행렬로 결합하는 단계; 및
상기 결합된 행렬을 분류기에 적용하여 기침 발생 여부를 판단하는 단계;
를 포함하는 멀티모달 기침 감지 방법.
Extracting cough sound data and movement of a predetermined time period before and after coughing as acceleration data when coughing;
The cough sound data is extracted from the cough sound data using at least one of a short-time fourier transform (STFT) and a mel-frequency cepstrum coefficients (MFCC) algorithm, and the acceleration data is extracted from the sound feature data. Converting to a format corresponding to the;
Combining the sound feature data and the converted acceleration data into a matrix; And
Determining whether coughing occurs by applying the combined matrix to a classifier;
Multi-modal cough detection method comprising a.
제1항에 있어서,
상기 가속도 데이터를 상기 소리 특징 데이터에 대응하는 형식으로 변환하는 단계는,
상기 가속도 데이터를 임베딩(Embedding)하여 상기 소리 특징 데이터에 대응하는 형식으로 변환하는 것을 특징으로 하는 멀티모달 기침 감지 방법.
According to claim 1,
The step of converting the acceleration data into a format corresponding to the sound feature data,
A method of detecting multi-modal cough, characterized in that the acceleration data is embedded and converted into a format corresponding to the sound feature data.
제2항에 있어서,
상기 하나의 행렬로 결합하는 단계는,
상기 소리 특징 데이터와 상기 변환된 가속도 데이터를 연결하여 하나의 행렬로 결합하거나, 또는 상기 변환된 가속도 데이터를 트랜스포즈(Transpose)하여 하나의 행렬로 결합하는 것을 특징으로 하는 멀티모달 기침 감지 방법.
According to claim 2,
Combining the single matrix,
A method of detecting multimodal cough, characterized in that the sound feature data and the converted acceleration data are connected to combine into one matrix, or the transformed acceleration data is combined into one matrix.
제1항에 있어서,
상기 분류기는 DNN(Deep Neural Network), RNN(Recurrent Neural Network), CNN(Convolution Neural Network) 중 하나인 것을 특징으로 하는 멀티모달 기침 감지 방법.
According to claim 1,
The classifier is a multi-modal cough detection method characterized by being one of a deep neural network (DNN), a recurrent neural network (RNN), and a convolution neural network (CNN).
기침 발생 시 기침 소리 데이터와 기침 전후 설정된 시간 구간의 움직임을 가속도 데이터로 추출하는 센싱부;
상기 센싱부에서 추출한 상기 기침 소리 데이터를 STFT(Short-Time Fourier Transform)와 MFCC(Mel-Frequency Cepstrum Coefficients) 중 적어도 하나의 알고리즘을 사용하여 상기 기침 소리 데이터로부터 소리 특징 데이터를 추출하고, 상기 가속도 데이터를 상기 소리 특징 데이터에 대응하는 형식으로 변환하고, 상기 소리 특징 데이터와 상기 변환된 가속도 데이터를 하나의 행렬로 결합하고, 상기 결합된 행렬을 분류기에 적용하여 기침 발생 여부를 판단하는 제어부; 및
상기 제어부의 판단 결과를 출력하는 출력부;
를 포함하는 멀티모달 기침 감지 장치.
A sensing unit that extracts cough sound data and movement of a predetermined time interval before and after coughing as acceleration data when coughing;
Extracting sound feature data from the cough sound data by using at least one of STFT (Short-Time Fourier Transform) and MFCC (Mel-Frequency Cepstrum Coefficients) to extract the cough sound data extracted from the sensing unit, and the acceleration data A control unit for converting to a format corresponding to the sound feature data, combining the sound feature data and the converted acceleration data into one matrix, and applying the combined matrix to a classifier to determine whether cough has occurred; And
An output unit which outputs the determination result of the control unit;
Multi-modal cough detection device comprising a.
KR1020180159742A 2018-12-12 2018-12-12 Apparatus and method for detecting multimodal cough using audio and acceleration data KR20200072030A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180159742A KR20200072030A (en) 2018-12-12 2018-12-12 Apparatus and method for detecting multimodal cough using audio and acceleration data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180159742A KR20200072030A (en) 2018-12-12 2018-12-12 Apparatus and method for detecting multimodal cough using audio and acceleration data

Publications (1)

Publication Number Publication Date
KR20200072030A true KR20200072030A (en) 2020-06-22

Family

ID=71142595

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180159742A KR20200072030A (en) 2018-12-12 2018-12-12 Apparatus and method for detecting multimodal cough using audio and acceleration data

Country Status (1)

Country Link
KR (1) KR20200072030A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220069428A (en) * 2020-11-20 2022-05-27 링크페이스 주식회사 Method of measuring bio-metric data using sensors and system performing the same
WO2023096400A1 (en) * 2021-11-29 2023-06-01 Samsung Electronics Co., Ltd. Method and system for detecting health event using audio signals of user
CN117854540A (en) * 2024-03-08 2024-04-09 中国人民解放军军事科学院战略评估咨询中心 Underwater sound target identification method and system based on neural network and multidimensional feature fusion

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220069428A (en) * 2020-11-20 2022-05-27 링크페이스 주식회사 Method of measuring bio-metric data using sensors and system performing the same
WO2023096400A1 (en) * 2021-11-29 2023-06-01 Samsung Electronics Co., Ltd. Method and system for detecting health event using audio signals of user
CN117854540A (en) * 2024-03-08 2024-04-09 中国人民解放军军事科学院战略评估咨询中心 Underwater sound target identification method and system based on neural network and multidimensional feature fusion
CN117854540B (en) * 2024-03-08 2024-05-17 中国人民解放军军事科学院战略评估咨询中心 Underwater sound target identification method and system based on neural network and multidimensional feature fusion

Similar Documents

Publication Publication Date Title
US10403266B2 (en) Detecting keywords in audio using a spiking neural network
KR20200072030A (en) Apparatus and method for detecting multimodal cough using audio and acceleration data
Sahoo et al. Emotion recognition from audio-visual data using rule based decision level fusion
JP2019053126A (en) Growth type interactive device
CN109559758B (en) Method for converting texture image into tactile signal based on deep learning
Kim et al. Human-like emotion recognition: Multi-label learning from noisy labeled audio-visual expressive speech
You et al. Emotion recognition from noisy speech
Ziaei et al. Prof-Life-Log: Personal interaction analysis for naturalistic audio streams
CN111128178A (en) Voice recognition method based on facial expression analysis
Wataraka Gamage et al. Speech-based continuous emotion prediction by learning perception responses related to salient events: A study based on vocal affect bursts and cross-cultural affect in AVEC 2018
Iqbal et al. General-purpose audio tagging from noisy labels using convolutional neural networks
Droghini et al. An end-to-end unsupervised approach employing convolutional neural network autoencoders for human fall detection
Sher et al. TESPAR feature based isolated word speaker recognition system
CN102141812A (en) Robot
Mulimani et al. Robust acoustic event classification using fusion fisher vector features
Tanweer et al. Analysis of combined use of nn and mfcc for speech recognition
Qais et al. Deepfake audio detection with neural networks using audio features
KR101564176B1 (en) An emotion recognition system and a method for controlling thereof
Dahanayaka et al. A multi-modular approach for sign language and speech recognition for deaf-mute people
Espi et al. Acoustic event detection in speech overlapping scenarios based on high-resolution spectral input and deep learning
Gedam et al. Development of automatic speech recognition of Marathi numerals-a review
Ye et al. Identification of weakly pitch-shifted voice based on convolutional neural network
Chuchra et al. A deep learning approach for splicing detection in digital audios
Chauhan et al. A review of automatic speaker recognition system
Lim et al. Interlayer selective attention network for robust personalized wake-up word detection

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application