KR102236458B1 - Method and system for animal sounds classification using interpolation and long short term memory-fully convolutional network - Google Patents

Method and system for animal sounds classification using interpolation and long short term memory-fully convolutional network Download PDF

Info

Publication number
KR102236458B1
KR102236458B1 KR1020180134245A KR20180134245A KR102236458B1 KR 102236458 B1 KR102236458 B1 KR 102236458B1 KR 1020180134245 A KR1020180134245 A KR 1020180134245A KR 20180134245 A KR20180134245 A KR 20180134245A KR 102236458 B1 KR102236458 B1 KR 102236458B1
Authority
KR
South Korea
Prior art keywords
data
sound
dimension
event
processor
Prior art date
Application number
KR1020180134245A
Other languages
Korean (ko)
Other versions
KR20200051201A (en
Inventor
이성주
김윤빈
사재원
Original Assignee
고려대학교 세종산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 세종산학협력단 filed Critical 고려대학교 세종산학협력단
Priority to KR1020180134245A priority Critical patent/KR102236458B1/en
Publication of KR20200051201A publication Critical patent/KR20200051201A/en
Application granted granted Critical
Publication of KR102236458B1 publication Critical patent/KR102236458B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

반려동물 소리 분류 방법 및 그 시스템이 개시된다. 소리 분류 방법은, 반려동물에 부착된 소리 감지 센서를 통해 상기 반려동물의 소리 데이터를 획득하는 단계; 보간법을 이용하여 상기 소리 데이터의 차원을 변환하는 단계; 및 딥러닝을 통해 상기 차원이 변환된 소리 데이터를 분류하는 단계를 포함한다.Disclosed are a method and a system for classifying companion animal sounds. The sound classification method includes: obtaining sound data of the companion animal through a sound detection sensor attached to the companion animal; Transforming the dimension of the sound data using an interpolation method; And classifying the sound data whose dimensions have been transformed through deep learning.

Figure R1020180134245
Figure R1020180134245

Description

보간법과 LSTM-FCN 기법을 적용한 분리불안 증세의 반려견 소리 분류를 위한 방법 및 그 시스템{METHOD AND SYSTEM FOR ANIMAL SOUNDS CLASSIFICATION USING INTERPOLATION AND LONG SHORT TERM MEMORY-FULLY CONVOLUTIONAL NETWORK}Method and system for classifying dog sounds with separation anxiety by applying interpolation and LSDTM-FCN techniques

아래의 설명은 반려동물의 소리를 분류하는 기술에 관한 것이다.The description below relates to a technique for classifying the sounds of companion animals.

1인 가구의 증가 등으로 강아지, 고양이 등 반려동물을 키우는 인구가 늘어나고 있다.Due to the increase in single-person households, the population raising companion animals such as dogs and cats is increasing.

이에 따라, 반려동물의 상태를 파악하거나 교감하기 위한 관련 연구 또한 증가하고 있다.Accordingly, related researches to grasp or communicate with companion animals are also increasing.

예컨대, 한국 등록특허공보 제10-1703413호(등록일 2017년 01월 31일)에는 애완동물 모니터링 장치와 제어단말 및 그 방법이 개시되어 있다.For example, Korean Patent Publication No. 10-1703413 (registration date January 31, 2017) discloses a pet monitoring device, a control terminal, and a method thereof.

보간법과 LSTM-FCN(Long short-term memory -Fully Convolutional Network) 기법을 이용하여 분리불안 증세의 반려견 소리를 분류할 수 있는 방법 및 시스템을 제공한다.Provides a method and system for classifying dog sounds with separation anxiety symptoms using interpolation and LSTM-FCN (Long short-term memory-Fully Convolutional Network) techniques.

시계열 소리 데이터 분석을 통해 반려견의 소리를 분류할 수 있는 방법 및 시스템을 제공한다.Provides a method and system for classifying dog sounds through time-series sound data analysis.

컴퓨터 장치에서 수행되는 소리 분류 방법에 있어서, 적어도 하나의 프로세서에서, 반려동물에 부착된 소리 감지 센서를 통해 상기 반려동물의 소리 데이터를 획득하는 단계; 상기 적어도 하나의 프로세서에서, 보간법을 이용하여 상기 소리 데이터의 차원을 변환하는 단계; 및 상기 적어도 하나의 프로세서에서, 딥러닝을 통해 상기 차원이 변환된 소리 데이터를 분류하는 단계를 포함하는 소리 분류 방법을 제공한다.A sound classification method performed by a computer device, the method comprising: acquiring, in at least one processor, sound data of the companion animal through a sound detection sensor attached to the companion animal; Transforming, in the at least one processor, the dimension of the sound data using an interpolation method; And classifying, in the at least one processor, sound data whose dimensions have been transformed through deep learning.

일 측면에 따르면, 상기 변환하는 단계 이전에, 상기 적어도 하나의 프로세서에서, 상기 소리 데이터를 사전에 정의된 소리 특징의 이벤트로 라벨링(labeling)하는 단계를 더 포함할 수 있다.According to an aspect, prior to the converting, the at least one processor may further include labeling the sound data as an event of a predefined sound characteristic.

다른 측면에 따르면, 상기 적어도 하나의 프로세서에서, 상기 라벨링된 데이터를 정규화하는 단계를 더 포함할 수 있다.According to another aspect, the at least one processor may further include normalizing the labeled data.

또 다른 측면에 따르면, 상기 변환하는 단계는, 선형 변환을 통해 상기 소리 데이터의 차원을 사전에 정해진 배수 이내로 증가시킬 수 있다.According to another aspect, the converting may increase the dimension of the sound data to within a predetermined multiple through linear conversion.

또 다른 측면에 따르면, 상기 분류하는 단계는, LSTM-FCN(Long short-term memory -Fully Convolutional Network) 모델을 이용하여 상기 소리 데이터를 분류할 수 있다.According to another aspect, in the classifying step, the sound data may be classified using a long short-term memory -Fully Convolutional Network (LSTM-FCN) model.

또 다른 측면에 따르면, 상기 분류하는 단계는, 차원 셔플 레이어(Dimension Shuffle layer)를 통해 데이터 차원을 축소한 후 차원이 축소된 데이터를 LSTM 레이어(LSTM layer)를 통해 학습하는 과정과, 복수 개의 컨볼루션 레이어(Convolution layer)를 통해 특징을 추출한 후 풀링 레이어(Pooling layer)를 통해 상기 컨볼루션 레이어에서 출력되는 데이터의 크기를 줄이는 과정을 포함하는 LSTM-FCN 모델을 이용하여 상기 소리 데이터를 분류할 수 있다.According to another aspect, the step of classifying includes a process of reducing the data dimension through a dimension shuffle layer and then learning the reduced dimension data through an LSTM layer, and a plurality of conballs. After extracting features through a convolution layer, the sound data can be classified using an LSTM-FCN model that includes a process of reducing the size of data output from the convolution layer through a pooling layer. have.

소리 분류 방법을 실행시키기 위해 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램에 있어서, 상기 소리 분류 방법은, 반려동물에 부착된 소리 감지 센서를 통해 상기 반려동물의 소리 데이터를 획득하는 단계; 보간법을 이용하여 상기 소리 데이터의 차원을 변환하는 단계; 및 딥러닝을 통해 상기 차원이 변환된 소리 데이터를 분류하는 단계를 포함하는, 컴퓨터 프로그램을 제공한다.A computer program stored in a computer-readable recording medium to execute a sound classification method, the sound classification method comprising: acquiring sound data of the companion animal through a sound detection sensor attached to the companion animal; Transforming the dimension of the sound data using an interpolation method; And it provides a computer program comprising the step of classifying the sound data of the dimension is transformed through deep learning.

컴퓨터로 구현되는 소리 분류 시스템에 있어서, 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 반려동물에 부착된 소리 감지 센서를 통해 상기 반려동물의 소리 데이터를 획득하는 데이터 획득부; 보간법을 이용하여 상기 소리 데이터의 차원을 변환하는 데이터 처리부; 및 딥러닝을 통해 상기 차원이 변환된 소리 데이터를 분류하는 데이터 분류부를 포함하는 소리 분류 시스템을 제공한다.A computer-implemented sound classification system, comprising: at least one processor configured to execute computer-readable instructions included in a memory, wherein the at least one processor includes the companion animal through a sound detection sensor attached to the companion animal. A data acquisition unit that acquires sound data of the sound; A data processing unit that converts the dimension of the sound data using an interpolation method; And it provides a sound classification system including a data classification unit for classifying the sound data whose dimensions have been transformed through deep learning.

일 측면에 따르면, 상기 소리 감지 센서는 부착형 무선 센서로 구성될 수 있다.According to an aspect, the sound detection sensor may be configured as an attachable wireless sensor.

다른 측면에 따르면, 상기 데이터 처리부는, 상기 소리 데이터를 사전에 정의된 소리 특징의 이벤트로 라벨링하여 상기 라벨링된 데이터를 정규화한 후 선형 변환을 통해 상기 정규화된 데이터의 차원을 사전에 정해진 배수 이내로 증가시키고, 상기 데이터 분류부는, 차원 셔플 레이어를 통해 데이터 차원을 축소한 후 차원이 축소된 데이터를 LSTM 레이어를 통해 학습하는 과정과, 복수 개의 컨볼루션 레이어를 통해 특징을 추출한 후 풀링 레이어를 통해 상기 컨볼루션 레이어에서 출력되는 데이터의 크기를 줄이는 과정을 포함하는 LSTM-FCN 모델을 이용하여 상기 소리 데이터를 분류할 수 있다.According to another aspect, the data processing unit normalizes the labeled data by labeling the sound data as an event of a predefined sound characteristic, and then increases the dimension of the normalized data to within a predetermined multiple through linear transformation. The data classification unit reduces the data dimension through the dimensional shuffle layer and then learns the reduced-dimensional data through the LSTM layer, and extracts features through a plurality of convolution layers, and then the convolution through the pooling layer. The sound data may be classified using an LSTM-FCN model including a process of reducing the size of data output from the lusion layer.

본 발명의 실시예들에 따르면, 보간법과 LSTM-FCN 기법을 이용하여 분리불안 증세의 반려견 소리를 분류할 수 있다.According to embodiments of the present invention, it is possible to classify the sound of a dog suffering from separation anxiety using an interpolation method and an LSTM-FCN technique.

본 발명의 실시예들에 따르면, 시계열 소리 데이터 분석을 통해 반려견의 소리를 더욱 정확하게 분류할 수 있다.According to embodiments of the present invention, it is possible to more accurately classify a dog's sound through time-series sound data analysis.

도 1은 본 발명의 일실시예에 따른 컴퓨터 장치의 예를 도시한 블록도이다.
도 2는 본 발명의 일실시예에 따른 컴퓨터 장치의 프로세서가 포함할 수 있는 구성요소의 예를 도시한 도면이다.
도 3은 본 발명의 일실시예에 따른 컴퓨터 장치가 수행할 수 있는 소리 분류 방법의 예를 도시한 순서도이다.
도 4는 본 발명의 일실시예에 있어서 소리 데이터의 정규화 예시를 도시한 것이다.
도 5는 본 발명의 일실시예에 있어서 보간법을 적용하기 전과 후의 데이터 비교를 도시한 것이다.
도 6은 본 발명의 일실시예에 있어서 소리 분류를 위한 학습 모델의 예시를 도시한 것이다.
도 7은 본 발명의 일실시예에 있어서 보간법을 적용한 데이터의 검증 결과를 나타낸 것이다.
1 is a block diagram showing an example of a computer device according to an embodiment of the present invention.
2 is a diagram illustrating an example of components that may be included in a processor of a computer device according to an embodiment of the present invention.
3 is a flowchart illustrating an example of a sound classification method that can be performed by a computer device according to an embodiment of the present invention.
4 shows an example of normalization of sound data in an embodiment of the present invention.
5 illustrates data comparison before and after applying the interpolation method in an embodiment of the present invention.
6 shows an example of a learning model for sound classification according to an embodiment of the present invention.
7 shows a result of verification of data to which an interpolation method is applied in an embodiment of the present invention.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

반려견은 분리불안 장애 등의 정서파악을 통한 조치가 중요하다.For dogs, it is important to take measures to identify emotions such as separation anxiety disorder.

반려견의 분리 불안 증상의 대표적인 소리 특징으로는 짖는 소리(barking), 으르렁거리는 소리(growling), 울부짖는 소리(howling), 그리고 낑낑거리는 소리(whining)가 존재한다.Representative sound characteristics of dog separation anxiety symptoms include barking, growing, howling, and whining.

일반적인 소리 센서(예컨대, 녹음기)는 자원적 제약이 크고, 데이터 전송에 의한 부하량과 배터리 소모가 크기 때문에 실시간성과 에너지 효율성을 보완하기 위한 방법이 필요하다.A general sound sensor (for example, a recorder) has a large resource constraint and a large amount of load and battery consumption due to data transmission, and thus a method for supplementing real-time and energy efficiency is required.

이에 본 발명에서는 반려견의 정서 파악을 위해 IoT 센서(무선 센서)를 부착하여 유닛 액션을 탐지하고자 한다.Accordingly, in the present invention, an IoT sensor (wireless sensor) is attached to detect a dog's emotion to detect a unit action.

그리고, 저 전력과 데이터 크기의 효율성이 높은 소리 감지 센서는 일반적인 소리 센서(녹음기)와 비교하여 정확도가 낮은 단점이 존재한다.In addition, a sound detection sensor having low power and high data size efficiency has a disadvantage of low accuracy compared to a general sound sensor (recorder).

이에, 본 발명에서는 소리 감지 센서의 단점을 보완하기 위한 데이터 처리 과정을 제안하여, 특히 딥러닝 기법을 적용하여 소리 감지 센서의 단점을 보완하고자 한다.Accordingly, the present invention proposes a data processing process to compensate for the disadvantages of the sound sensor, and in particular, is intended to compensate for the disadvantages of the sound sensor by applying a deep learning technique.

본 발명의 실시예들은 반려견의 소리를 분류하기 위한 방법 및 시스템에 관한 것이다.Embodiments of the present invention relate to a method and system for classifying dog sounds.

본 명세서에서 구체적으로 개시되는 것들을 포함하는 실시예들은 무선 센서를 이용하여 반려견의 소리 데이터를 획득할 수 있고, 보간법과 LSTM-FCN 기법을 이용하여 반려견의 소리 데이터를 분류할 수 있고, 이를 통해 정확성, 효율성, 비용 절감 등의 측면에 있어서 상당한 장점들을 달성할 수 있다.In the embodiments including those specifically disclosed in the present specification, sound data of the dog may be obtained using a wireless sensor, and sound data of the dog may be classified using an interpolation method and an LSTM-FCN technique, through which accuracy In terms of efficiency, cost savings, etc., significant advantages can be achieved.

도 1은 본 발명의 일실시예에 따른 컴퓨터 장치의 예를 도시한 블록도이다.1 is a block diagram showing an example of a computer device according to an embodiment of the present invention.

본 발명의 실시예들에 따른 소리 분류 시스템이 도 1의 컴퓨터 장치(100)를 통해 구현될 수 있다. 예를 들어, 컴퓨터 장치(100)에는 일실시예에 따른 컴퓨터 프로그램이 설치 및 구동될 수 있고, 컴퓨터 장치(100)는 구동된 컴퓨터 프로그램의 제어에 따라 본 발명의 실시예들에 따른 소리 분류 방법을 수행할 수 있다.A sound classification system according to embodiments of the present invention may be implemented through the computer device 100 of FIG. 1. For example, a computer program according to an embodiment may be installed and driven in the computer device 100, and the computer device 100 is a sound classification method according to embodiments of the present invention under control of the driven computer program. You can do it.

소리 분류 시스템은 PC 기반의 프로그램 또는 모바일 단말 전용의 어플리케이션으로 구성될 수 있다. 본 실시예에서의 소리 분류 시스템은 독립적으로 동작하는 프로그램 형태로 구현되거나, 혹은 특정 어플리케이션의 인-앱(in-app) 형태로 구성되어 상기 특정 어플리케이션 상에서 동작이 가능하도록 구현될 수 있다.The sound classification system may be composed of a PC-based program or an application dedicated to a mobile terminal. The sound classification system according to the present embodiment may be implemented in the form of a program that operates independently, or may be implemented in the form of an in-app form of a specific application so as to be able to operate on the specific application.

컴퓨터 장치(100)를 통해 소리 분류 시스템은 고정형 단말이거나 이동형 단말일 수 있다. 컴퓨터 장치(100)의 예를 들면, 컴퓨터(PC), 스마트폰(smart phone), 태블릿(tablet), 노트북 등의 디바이스일 수 있다.The sound classification system through the computer device 100 may be a fixed terminal or a mobile terminal. For example, the computer device 100 may be a device such as a computer (PC), a smart phone, a tablet, and a notebook.

도 1에 도시된 바와 같이, 컴퓨터 장치(100)는 소리 분류 방법을 실행하기 위한 구성요소로서 메모리(110), 프로세서(120), 통신 인터페이스(130) 그리고 입출력 인터페이스(140)를 포함할 수 있다.As shown in FIG. 1, the computer device 100 may include a memory 110, a processor 120, a communication interface 130, and an input/output interface 140 as components for executing the sound classification method. .

메모리(110)는 컴퓨터에서 판독 가능한 기록매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 여기서 ROM과 디스크 드라이브와 같은 비소멸성 대용량 기록장치는 메모리(110)와는 구분되는 별도의 영구 저장 장치로서 컴퓨터 장치(100)에 포함될 수도 있다. 또한, 메모리(110)에는 운영체제와 적어도 하나의 프로그램 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 메모리(110)와는 별도의 컴퓨터에서 판독 가능한 기록매체로부터 메모리(110)로 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록매체를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록매체가 아닌 통신 인터페이스(130)를 통해 메모리(110)에 로딩될 수도 있다. 예를 들어, 소프트웨어 구성요소들은 네트워크(160)를 통해 수신되는 파일들에 의해 설치되는 컴퓨터 프로그램에 기반하여 컴퓨터 장치(100)의 메모리(110)에 로딩될 수 있다.The memory 110 is a computer-readable recording medium and may include a permanent mass storage device such as a random access memory (RAM), a read only memory (ROM), and a disk drive. Here, a non-destructive large-capacity recording device such as a ROM and a disk drive may be included in the computer device 100 as a separate permanent storage device separate from the memory 110. In addition, an operating system and at least one program code may be stored in the memory 110. These software components may be loaded into the memory 110 from a computer-readable recording medium separate from the memory 110. Such a separate computer-readable recording medium may include a computer-readable recording medium such as a floppy drive, a disk, a tape, a DVD/CD-ROM drive, and a memory card. In another embodiment, software components may be loaded into the memory 110 through a communication interface 130 other than a computer-readable recording medium. For example, software components may be loaded into the memory 110 of the computer device 100 based on a computer program installed by files received through the network 160.

프로세서(120)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(110) 또는 통신 인터페이스(130)에 의해 프로세서(120)로 제공될 수 있다. 예를 들어 프로세서(120)는 메모리(110)와 같은 기록 장치에 저장된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성될 수 있다.The processor 120 may be configured to process instructions of a computer program by performing basic arithmetic, logic, and input/output operations. Instructions may be provided to the processor 120 by the memory 110 or the communication interface 130. For example, the processor 120 may be configured to execute a command received according to a program code stored in a recording device such as the memory 110.

통신 인터페이스(130)는 네트워크(160)를 통해 컴퓨터 장치(100)이 다른 컴퓨터 장치(미도시)와 서로 통신하기 위한 기능을 제공할 수 있다. 일례로, 컴퓨터 장치(100)의 프로세서(120)가 메모리(110)와 같은 기록 장치에 저장된 프로그램 코드에 따라 생성한 요청이나 명령, 데이터, 파일 등이 통신 인터페이스(130)의 제어에 따라 네트워크(160)를 통해 다른 컴퓨터 장치로 전달될 수 있다. 역으로, 다른 컴퓨터 장치로부터의 신호나 명령, 데이터, 파일 등이 네트워크(160)를 거쳐 컴퓨터 장치(100)의 통신 인터페이스(130)를 통해 컴퓨터 장치(100)로 수신될 수 있다. 통신 인터페이스(130)를 통해 수신된 신호나 명령, 데이터 등은 프로세서(120)나 메모리(110)로 전달될 수 있고, 파일 등은 컴퓨터 장치(100)가 더 포함할 수 있는 저장 매체(상술한 영구 저장 장치)로 저장될 수 있다.The communication interface 130 may provide a function for the computer device 100 to communicate with other computer devices (not shown) through the network 160. For example, requests, commands, data, files, etc., generated by the processor 120 of the computer device 100 according to a program code stored in a recording device such as the memory 110, are transmitted through the network ( 160) can be transmitted to other computer devices. Conversely, signals, commands, data, files, etc. from other computer devices may be received by the computer device 100 through the communication interface 130 of the computer device 100 via the network 160. Signals, commands, data, etc. received through the communication interface 130 may be transmitted to the processor 120 or the memory 110, and the file, etc. may be a storage medium (described above) that the computer device 100 may further include. Permanent storage).

입출력 인터페이스(140)는 입출력 장치(150)와의 인터페이스를 위한 수단일 수 있다. 예를 들어, 입력 장치는 마이크, 키보드 또는 마우스 등의 장치를, 그리고 출력 장치는 디스플레이, 스피커와 같은 장치를 포함할 수 있다. 다른 예로, 입출력 인터페이스(140)는 터치스크린과 같이 입력과 출력을 위한 기능이 하나로 통합된 장치와의 인터페이스를 위한 수단일 수도 있다. 입출력 장치(150)는 컴퓨터 장치(100)와 하나의 장치로 구성될 수도 있다.The input/output interface 140 may be a means for an interface with the input/output device 150. For example, the input device may include a device such as a microphone, a keyboard, or a mouse, and the output device may include a device such as a display or a speaker. As another example, the input/output interface 140 may be a means for interfacing with a device in which input and output functions are integrated into one, such as a touch screen. The input/output device 150 may be configured with the computer device 100 and one device.

또한, 다른 실시예들에서 컴퓨터 장치(100)는 도 1의 구성요소들보다 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 컴퓨터 장치(100)는 상술한 입출력 인터페이스(140)와 연결되는 입출력 장치들 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), 카메라, 각종 센서, 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다.In addition, in other embodiments, the computer device 100 may include more components than those of FIG. 1. However, there is no need to clearly show most of the prior art components. For example, the computer device 100 may be implemented to include at least some of the input/output devices connected to the input/output interface 140 described above, or may further include other components such as a transceiver, a camera, various sensors, and a database. It can also be included.

도 2는 본 발명의 일실시예에 따른 컴퓨터 장치의 프로세서가 포함할 수 있는 구성요소의 예를 도시한 도면이고, 도 3은 본 발명의 일실시예에 따른 컴퓨터 장치가 수행할 수 있는 소리 분류 방법의 예를 도시한 순서도이다.FIG. 2 is a diagram showing an example of components that can be included in a processor of a computer device according to an embodiment of the present invention, and FIG. 3 is a classification of sounds that can be performed by a computer device according to an embodiment of the present invention. It is a flow chart showing an example of the method.

도 2에 도시된 바와 같이, 프로세서(120)는 데이터 획득부(201), 데이터 처리부(202), 및 데이터 분류부(203)를 포함할 수 있다. 이러한 프로세서(120)의 구성요소들은 적어도 하나의 프로그램 코드에 의해 제공되는 제어 명령에 따라 프로세서(120)에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 예를 들어, 프로세서(120)가 소리 데이터를 획득하도록 컴퓨터 장치(100)를 제어하기 위해 동작하는 기능적 표현으로서 데이터 획득부(201)가 사용될 수 있다.As shown in FIG. 2, the processor 120 may include a data acquisition unit 201, a data processing unit 202, and a data classification unit 203. Components of the processor 120 may be expressions of different functions performed by the processor 120 according to a control command provided by at least one program code. For example, the data acquisition unit 201 may be used as a functional expression that operates to control the computer device 100 so that the processor 120 acquires sound data.

프로세서(120) 및 프로세서(120)의 구성요소들은 도 3의 소리 분류 방법이 포함하는 단계들을 수행할 수 있다. 예를 들어, 프로세서(120) 및 프로세서(120)의 구성요소들은 메모리(320)가 포함하는 운영체제의 코드와 상술한 적어도 하나의 프로그램 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다. 여기서, 적어도 하나의 프로그램 코드는 소리 분류 방법을 처리하기 위해 구현된 프로그램의 코드에 대응될 수 있다.The processor 120 and components of the processor 120 may perform steps included in the sound classification method of FIG. 3. For example, the processor 120 and the components of the processor 120 may be implemented to execute an instruction according to the code of the operating system included in the memory 320 and the at least one program code described above. Here, at least one program code may correspond to a code of a program implemented to process a sound classification method.

소리 분류 방법은 도시된 순서대로 발생하지 않을 수 있으며, 단계들 중 일부가 생략되거나 추가의 과정이 더 포함될 수 있다.The sound classification method may not occur in the illustrated order, and some of the steps may be omitted or an additional process may be further included.

프로세서(120)는 소리 분류 방법을 위한 프로그램 파일에 저장된 프로그램 코드를 메모리(320)에 로딩할 수 있다. 예를 들어, 소리 분류 방법을 위한 프로그램 파일은 도 3을 통해 설명한 영구 저장 장치(330)에 저장되어 있을 수 있고, 프로세서(120)는 버스를 통해 영구 저장 장치(330)에 저장된 프로그램 파일로부터 프로그램 코드가 메모리(320)에 로딩되도록 컴퓨터 장치(100)를 제어할 수 있다. 이때, 프로세서(120) 및 프로세서(120)가 포함하는 데이터 획득부(201), 데이터 처리부(202), 및 데이터 분류부(203) 각각은 메모리(320)에 로딩된 프로그램 코드 중 대응하는 부분의 명령을 실행하여 이후 소리 분류 방법을 실행하기 위한 프로세서(120)의 서로 다른 기능적 표현들일 수 있다. 소리 분류 방법의 실행을 위해, 프로세서(120) 및 프로세서(120)의 구성요소들은 직접 제어 명령에 따른 연산을 처리하거나 또는 컴퓨터 장치(100)를 제어할 수 있다.The processor 120 may load a program code stored in a program file for a sound classification method into the memory 320. For example, a program file for a sound classification method may be stored in the permanent storage device 330 described with reference to FIG. 3, and the processor 120 may use a program file from a program file stored in the permanent storage device 330 through a bus. The computer device 100 may be controlled so that the code is loaded into the memory 320. At this time, each of the data acquisition unit 201, the data processing unit 202, and the data classification unit 203 included in the processor 120 and the processor 120 These may be different functional expressions of the processor 120 for executing the command and then executing the sound classification method. In order to execute the sound classification method, the processor 120 and components of the processor 120 may directly process an operation according to a control command or control the computer device 100.

데이터 획득부(201)는 소리 감지 센서를 이용하여 아날로그 데이터를 획득할 수 있다. 가정 내의 반려견의 행동 반경이 일정 구간에 국한되지 않기 때문에 연속적인 데이터 획득을 위해 웨어러블 디바이스가 필요하다. 반려견의 소리 데이터를 취득하기 위해 반려견의 몸에 무선 센서로 구성된 소리 감지 센서를 부착하여 해당 센서로부터 소리 데이터를 수집할 수 있다. 이때, 소리 감지 센서는 웨어러블 디바이스의 일종으로 통신 기능을 가진 IoT 센서를 이용할 수 있다. 또한, 무선의 웨어러블 디바이스의 아날로그 데이터 전송을 위해 와이파이(Wi-Fi)를 이용할 수 있다.The data acquisition unit 201 may acquire analog data using a sound sensor. Since the behavioral radius of the dog in the home is not limited to a certain section, a wearable device is required for continuous data acquisition. In order to acquire sound data of a dog, a sound detection sensor composed of a wireless sensor may be attached to the dog's body to collect sound data from the sensor. In this case, the sound detection sensor may use an IoT sensor having a communication function as a type of wearable device. In addition, Wi-Fi can be used for analog data transmission of wireless wearable devices.

소리 감지 센서에서 센싱된 소리 데이터는 라벨링(labeling)과, 각종 데이터 처리, 그리고 저장 및 분류를 위해 워크스테이션(workstation), 즉 소리 분류 시스템으로 전달될 수 있다.The sound data sensed by the sound sensor may be transferred to a workstation, that is, a sound classification system for labeling, various data processing, and storage and classification.

수집된 소리 데이터는 일련의 시계열 데이터로 4 가지의 이벤트에 해당되는 소리이며, 이러한 이벤트는 분리 불안 증상의 대표적인 소리 특징인 각각 짖는 소리, 으르렁거리는 소리, 울부짖는 소리, 낑낑거리는 소리로 정의될 수 있다.The collected sound data is a series of time series data, which are sounds corresponding to four events, and these events can be defined as barking, growling, crying, and whining, respectively, which are representative sound characteristics of separation anxiety symptoms. have.

데이터 처리부(202)는 데이터 획득부(201)에서 획득한 소리 데이터를 사전에 정의된 각각의 이벤트(짖는 소리, 으르렁거리는 소리, 울부짖는 소리, 낑낑거리는 소리)로 라벨링을 진행할 수 있다.The data processing unit 202 may label the sound data acquired by the data acquisition unit 201 with each predefined event (barking sound, growling sound, howling sound, whining sound).

데이터 처리부(202)는 라벨링이 적용된 데이터를 정규화와 선형 변환 기법을 적용하여 차원 변환을 진행할 수 있다.The data processing unit 202 may perform dimensional transformation by applying normalization and linear transformation techniques to the labeled data.

소리 감지 센서에서의 데이터 수집 과정에서 피크(peak) 데이터의 범주가 일정하지 않다.During the data collection process in the sound detection sensor, the range of peak data is not constant.

데이터 처리부(202)는 데이터 값의 범위가 일정하지 않은 센서의 단점을 보완하기 위해 데이터 범위를 일치시키고 분포를 유사하게 하기 위해 정규화(0-1 Normalization)를 수행할 수 있다.The data processing unit 202 may perform a normalization (0-1 Normalization) to match the data range and make the distribution similar to compensate for the disadvantage of a sensor having an uneven data value range.

정규화의 수식은 다음과 같다.The formula for normalization is as follows.

[수학식 1][Equation 1]

Figure 112018109271036-pat00001
Figure 112018109271036-pat00001

여기서, d는 일련의 시계열 데이터 셋이며, di는 d의 부분 집합으로 입력되는 데이터를 의미한다. 데이터 셋 d의 최대값과 최소값을 이용하여 정규화된 데이터로 변환할 수 있다.Here, d is a series of time series data sets, and d i means data input as a subset of d. It can be converted into normalized data by using the maximum and minimum values of the data set d.

도 4는 정규화가 완료된 데이터의 예시를 나타낸 것이다.4 shows an example of normalized data.

한번의 이벤트를 처리하기에는 소리 데이터의 경우 서로 다른 길이(length)를 가진다.To process one event, sound data has different lengths.

선형 변환을 통해 소리 데이터의 차원을 증축하게 되는데, 이때 데이터 처리부(202)는 각 이벤트마다의 시계열 데이터의 수가 상이하기 때문에 적은 수의 데이터를 보간하기 위한 전처리 단계를 수행할 수 있다.The dimension of sound data is increased through linear transformation. In this case, the data processing unit 202 may perform a preprocessing step for interpolating a small number of data because the number of time series data for each event is different.

데이터 처리부(202)는 정규화된 소리 데이터를 보간법을 이용하여 일정한 데이터의 길이로 변환할 수 있다.The data processing unit 202 may convert the normalized sound data into a constant data length using an interpolation method.

선형 변형 기법은 바이큐빅 보간법(Bicubic interpolation)을 적용할 수 있으며, 이를 통해 적은 수의 데이터를 유의미한 변화가 없이 증축한다.The linear transformation technique can apply bicubic interpolation, and through this, a small number of data can be expanded without significant change.

보간법의 수식은 다음과 같다.The formula of the interpolation method is as follows.

[수학식 2][Equation 2]

Figure 112018109271036-pat00002
Figure 112018109271036-pat00002

보간법은 주로 이미지 처리에서 주변 픽셀의 값을 이용하여 이미지를 확대하거나 축소할 때 사용된다. 바이큐빅 보간법은 인접한 16개 픽셀의 값과 거리에 따른 가중치(weight)의 곱을 사용하여 결정한다. 이는 미분과 교차미분을 이용하여 산출되며, 수학식 2에서 x, y는 시계열 데이터의 픽셀 좌표를 의미한다.Interpolation is mainly used in image processing to enlarge or reduce an image using values of surrounding pixels. The bicubic interpolation method is determined using the product of the values of 16 adjacent pixels and the weight according to the distance. This is calculated using differentiation and cross-differentiation, and in Equation 2, x and y denote pixel coordinates of time series data.

본 발명에서는 데이터의 차원을 사전에 정해진 배수(1배 내지 3배) 이내로 증가시킨다.In the present invention, the dimension of the data is increased within a predetermined multiple (1 to 3 times).

도 5는 보간법을 적용하기 전(왼쪽 도면)과 후(오른쪽 도면)의 데이터 비교를 나타낸 것이다. 각각 1배 내지 3배의 증가를 표현하며, 데이터 특징에 유의미한 변화가 없음을 확인할 수 있다.5 shows comparison of data before (left) and after (right) the interpolation method is applied. Each represents an increase of 1 to 3 times, and it can be seen that there is no significant change in data characteristics.

보간법을 적용하여 데이터의 차원을 증가시킨 후 LSTM-FCN 기법을 적용하여 4가지의 이벤트를 분류할 수 있다.After increasing the data dimension by applying the interpolation method, four events can be classified by applying the LSTM-FCN technique.

데이터 분류부(203)는 데이터 처리부(202)를 통해 정규화 및 차원 변환이 이루어진 데이터를 LSTM-FCN 기법을 이용하여 4가지의 이벤트로 분류할 수 있다.The data classification unit 203 may classify data subjected to normalization and dimensional transformation through the data processing unit 202 into four events using the LSTM-FCN technique.

도 6은 4 가지의 이벤트를 분류하기 위한 LSTM-FCN의 모식도를 나타낸다.6 shows a schematic diagram of LSTM-FCN for classifying four events.

라벨링 및 전처리(정규화 및 선형 변환)가 완료된 데이터가 입력되어 두 가지의 과정으로 학습되며, 두 가지의 학습된 데이터를 연결하여 최종 출력 데이터(Activation map)를 구성한다.Data that has been labeled and preprocessed (normalized and linearly transformed) is input and learned in two processes, and the final output data (Activation map) is formed by connecting the two learned data.

먼저, 차원 셔플 레이어(Dimension Shuffle layer)를 통해 전체 데이터의 차원 축소를 유도한다. 이는 과적합의 문제를 해결하기 위한 단계이며, 차원이 축소된 데이터는 LSTM 레이어(LSTM layer)를 통해 학습 과정이 이루어진다. 이때, LSTM 모델은 RNN(Recurrent Neural Networks)의 히든 상태(hidden state)에 셀-상태(cell-state)를 추가하여 역전파를 통해 그라디언트(gradient)가 점차 줄어 학습 능력이 저하되는 ‘배니싱 그라디언트(vanishing gradient) 문제’를 해결하기 위해 고안된 LSTM 모델을 사용한다.First, dimensional reduction of the entire data is induced through a dimension shuffle layer. This is a step to solve the problem of overfitting, and the reduced-dimensional data is learned through an LSTM layer. At this time, the LSTM model adds a cell-state to the hidden state of Recurrent Neural Networks (RNN), and the gradient gradually decreases through backpropagation, reducing the learning ability. The LSTM model designed to solve the'vanishing gradient) problem' is used.

이와 동시에, 각각 128, 256, 그리고 128의 필터 크기를 이용한 컨볼루션 레이어(Convolution layer) 3단계와 ReLU 활성화 함수, 배치 정규화(Batch Normalization)를 통해 특징을 추출하며, 풀링 레이어(Pooling layer)는 전역 평균 풀링(Global Average pooling) 기법을 적용하여 컨볼루션 레이어에서 출력되는 최종 출력 데이터(Activation map)의 크기를 줄인다.At the same time, features are extracted through 3 stages of the convolution layer using filter sizes of 128, 256, and 128, ReLU activation function, and batch normalization, respectively, and the pooling layer is global. The size of the final output data (Activation map) output from the convolution layer is reduced by applying a global average pooling technique.

상기한 두 단계의 결과를 결합하여 최종 출력으로 소프트맥스(Softmax)를 적용한다.The results of the above two steps are combined and Softmax is applied as the final output.

LSTM-FCN 모델을 이용하여 학습된 4 가지의 시계열 소리 데이터는 테스트 데이터를 이용하여 검증 및 테스트를 통해 최종 결과를 산출한다.Four types of time-series sound data learned using the LSTM-FCN model are verified and tested using test data to calculate the final result.

도 7은 보간법을 적용하여 나타낸 검증 결과를 나타낸 것이다.7 shows the verification results shown by applying the interpolation method.

도 7을 참조하면, 보간법을 이용하여 데이터 증축을 진행한 뒤 1~3배까지는 정확도 증가를 확인할 수 있고, 3배 이상은 과적합의 문제로 인해 정확도 하락을 확인할 수 있다.Referring to FIG. 7, after data expansion is performed using an interpolation method, it is possible to confirm an increase in accuracy up to 1 to 3 times, and at 3 times or more, it is possible to confirm a decrease in accuracy due to a problem of overfitting.

이처럼 본 발명의 실시예들에 따르면, 반려견에 부착 가능한 무선 센서를 이용하여 반려견의 소리 데이터를 수집함으로써 일반 녹음을 통해 소리 데이터를 획득하는 방법에 비해 배터리 소모를 크게 줄일 수 있고 데이터 전송 에너지 효율 또한 향상시킬 수 있다. 특히, 본 발명의 실시예들에 따르면, 보간법을 이용하여 데이터 증축을 수행한 후 딥러닝 기법인 LSTM-FCN 모델을 이용하여 소리 데이터를 분류함으로써 데이터 정확도를 더욱 향상시킬 수 있다.As described above, according to embodiments of the present invention, by collecting sound data of the dog using a wireless sensor attachable to the dog, battery consumption can be significantly reduced compared to a method of obtaining sound data through general recording, and data transmission energy efficiency is also improved. Can be improved. In particular, according to embodiments of the present invention, data accuracy may be further improved by classifying sound data using an LSTM-FCN model, which is a deep learning technique, after data expansion is performed using an interpolation method.

상기에서는 반려견을 대표적인 예시로 설명하였으나, 이에 한정되는 것은 아니며 강아지는 물론이고, 고양이 등 모든 동물의 소리를 분류하는 기술로 확대 적용 가능하다.In the above, the companion dog has been described as a representative example, but the present invention is not limited thereto, and can be extended to a technology for classifying sounds of all animals such as cats and dogs.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The apparatus described above may be implemented as a hardware component, a software component, and/or a combination of a hardware component and a software component. For example, the devices and components described in the embodiments include a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate array (FPGA), and a programmable gate array (PLU). It may be implemented using one or more general purpose or special purpose computers, such as a logic unit), a microprocessor, or any other device capable of executing and responding to instructions. The processing device may execute an operating system (OS) and one or more software applications executed on the operating system. Further, the processing device may access, store, manipulate, process, and generate data in response to the execution of software. For the convenience of understanding, although it is sometimes described that one processing device is used, one of ordinary skill in the art, the processing device is a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that it may include. For example, the processing device may include a plurality of processors or one processor and one controller. In addition, other processing configurations are possible, such as a parallel processor.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The software may include a computer program, code, instructions, or a combination of one or more of these, configuring the processing unit to behave as desired or processed independently or collectively. You can command the device. Software and/or data may be embodyed in any type of machine, component, physical device, computer storage medium or device to be interpreted by the processing device or to provide instructions or data to the processing device. have. The software may be distributed over networked computer systems and stored or executed in a distributed manner. Software and data may be stored on one or more computer-readable recording media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.The method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium. In this case, the medium may be one that continuously stores a program executable by a computer, or temporarily stores a program for execution or download. Further, the medium may be a variety of recording means or storage means in a form in which a single or several pieces of hardware are combined, but is not limited to a medium directly connected to a computer system, but may be distributed on a network. Examples of media include magnetic media such as hard disks, floppy disks and magnetic tapes, optical recording media such as CD-ROMs and DVDs, magneto-optical media such as floptical disks, And there may be ones configured to store program instructions, including ROM, RAM, flash memory, and the like. In addition, examples of other media include an app store that distributes applications, a site that supplies or distributes various software, and a recording medium or a storage medium managed by a server.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.As described above, although the embodiments have been described by the limited embodiments and drawings, various modifications and variations are possible from the above description to those of ordinary skill in the art. For example, the described techniques are performed in a different order from the described method, and/or components such as systems, structures, devices, circuits, etc. described are combined or combined in a form different from the described method, or other components Alternatively, even if substituted or substituted by an equivalent, an appropriate result can be achieved.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and those equivalent to the claims also fall within the scope of the claims to be described later.

Claims (10)

컴퓨터 장치에서 수행되는 소리 분류 방법에 있어서,
적어도 하나의 프로세서에서, 반려동물에 부착된 소리 감지 센서를 통해 상기 반려동물의 소리 데이터를 획득하는 단계;
상기 적어도 하나의 프로세서에서, 상기 소리 데이터를 사전에 정의된 소리 특징의 이벤트로 라벨링(labeling)하는 단계;
상기 적어도 하나의 프로세서에서, 상기 라벨링된 데이터를 정규화하는 단계;
상기 적어도 하나의 프로세서에서, 보간법을 이용하여 상기 정규화된 데이터의 차원을 변환하는 단계; 및
상기 적어도 하나의 프로세서에서, 딥러닝을 통해 상기 차원이 변환된 데이터를 분류하는 단계
를 포함하고,
상기 소리 감지 센서는 웨어러블 디바이스인 부착형 무선 센서로서 와이파이(WiFi)를 이용한 통신 기능을 가진 IoT 센서로 구성되고,
상기 이벤트는 짖는 소리(barking), 으르렁거리는 소리(growling), 울부짖는 소리(howling), 및 낑낑거리는 소리(whining)로 정의되고,
상기 정규화하는 단계는,
하기 수학식을 통해 상기 라벨링된 데이터를 상기 정규화된 데이터로 변환하고,
Figure 112021031766112-pat00010

(여기서, d는 각 이벤트의 시계열 데이터 셋, di는 d의 부분 집합으로 입력되는 데이터, max(d)는 d의 최대값, min(d)는 d의 최소값을 의미함)
상기 변환하는 단계는,
선형 변환 기법으로서 미분과 교차미분을 이용한 바이큐빅 보간법(Bicubic interpolation)을 통해 각 이벤트의 시계열 데이터의 픽셀 좌표에 기초하여 상기 정규화된 데이터의 차원을 사전에 정해진 배수 이내로 증가시키고,
상기 분류하는 단계는,
차원 셔플 레이어(Dimension Shuffle layer)를 통해 데이터 차원을 축소한 후 차원이 축소된 데이터를 LSTM 레이어(LSTM layer)를 통해 학습하는 과정과, 복수 개의 컨볼루션 레이어(Convolution layer)와 ReLU 활성화 함수 및 배치 정규화(batch normalization)를 통해 특징을 추출한 후 전역 평균 풀링(global average pooling) 기법을 이용한 풀링 레이어(Pooling layer)를 통해 상기 컨볼루션 레이어에서 출력되는 데이터의 크기를 줄이는 과정을 포함하는 LSTM-FCN 모델을 이용하여 상기 차원이 변환된 데이터를 상기 이벤트로 분류하는 것
을 특징으로 하는 소리 분류 방법.
In the sound classification method performed in a computer device,
Obtaining, by at least one processor, sound data of the companion animal through a sound detection sensor attached to the companion animal;
Labeling, in the at least one processor, the sound data as an event of a predefined sound characteristic;
Normalizing the labeled data in the at least one processor;
Transforming, in the at least one processor, the dimension of the normalized data using an interpolation method; And
In the at least one processor, classifying the data whose dimensions have been transformed through deep learning
Including,
The sound detection sensor is an attached wireless sensor that is a wearable device and is composed of an IoT sensor having a communication function using WiFi,
The event is defined as barking, growing, howling, and whining,
The normalizing step,
Converting the labeled data into the normalized data through the following equation,
Figure 112021031766112-pat00010

(Where d is the time series data set of each event, d i is the data input as a subset of d, max(d) is the maximum value of d, and min(d) is the minimum value of d)
The converting step,
As a linear transformation technique, the dimension of the normalized data is increased within a predetermined multiple based on the pixel coordinates of the time series data of each event through a bicubic interpolation using differential and cross-differential,
The classifying step,
The process of learning the reduced dimension data through the LSTM layer after reducing the data dimension through the Dimension Shuffle layer, and a plurality of convolution layers and ReLU activation functions and arrangements LSTM-FCN model including the process of reducing the size of data output from the convolutional layer through a pooling layer using a global average pooling technique after extracting features through batch normalization Classifying the dimensionally transformed data into the event by using
Sound classification method, characterized in that.
삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 소리 분류 방법을 실행시키기 위해 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램에 있어서,
상기 소리 분류 방법은,
반려동물에 부착된 소리 감지 센서를 통해 상기 반려동물의 소리 데이터를 획득하는 단계;
상기 소리 데이터를 사전에 정의된 소리 특징의 이벤트로 라벨링(labeling)하는 단계;
상기 라벨링된 데이터를 정규화하는 단계;
보간법을 이용하여 상기 정규화된 데이터의 차원을 변환하는 단계; 및
딥러닝을 통해 상기 차원이 변환된 데이터를 분류하는 단계
를 포함하고,
상기 소리 감지 센서는 웨어러블 디바이스인 부착형 무선 센서로서 와이파이(WiFi)를 이용한 통신 기능을 가진 IoT 센서로 구성되고,
상기 이벤트는 짖는 소리(barking), 으르렁거리는 소리(growling), 울부짖는 소리(howling), 및 낑낑거리는 소리(whining)로 정의되고,
상기 정규화하는 단계는,
하기 수학식을 통해 상기 라벨링된 데이터를 상기 정규화된 데이터로 변환하고,
Figure 112021031766112-pat00011

(여기서, d는 각 이벤트의 시계열 데이터 셋, di는 d의 부분 집합으로 입력되는 데이터, max(d)는 d의 최대값, min(d)는 d의 최소값을 의미함)
상기 변환하는 단계는,
선형 변환 기법으로서 미분과 교차미분을 이용한 바이큐빅 보간법(Bicubic interpolation)을 통해 각 이벤트의 시계열 데이터의 픽셀 좌표에 기초하여 상기 정규화된 데이터의 차원을 사전에 정해진 배수 이내로 증가시키고,
상기 분류하는 단계는,
차원 셔플 레이어(Dimension Shuffle layer)를 통해 데이터 차원을 축소한 후 차원이 축소된 데이터를 LSTM 레이어(LSTM layer)를 통해 학습하는 과정과, 복수 개의 컨볼루션 레이어(Convolution layer)와 ReLU 활성화 함수 및 배치 정규화(batch normalization)를 통해 특징을 추출한 후 전역 평균 풀링(global average pooling) 기법을 이용한 풀링 레이어(Pooling layer)를 통해 상기 컨볼루션 레이어에서 출력되는 데이터의 크기를 줄이는 과정을 포함하는 LSTM-FCN 모델을 이용하여 상기 차원이 변환된 데이터를 상기 이벤트로 분류하는 것
을 특징으로 하는, 컴퓨터 프로그램.
In a computer program stored in a computer-readable recording medium to execute a sound classification method,
The sound classification method,
Acquiring sound data of the companion animal through a sound detection sensor attached to the companion animal;
Labeling the sound data as an event of a predefined sound characteristic;
Normalizing the labeled data;
Transforming the dimension of the normalized data using an interpolation method; And
Classifying the dimensionally transformed data through deep learning
Including,
The sound detection sensor is an attached wireless sensor that is a wearable device and is composed of an IoT sensor having a communication function using WiFi,
The event is defined as barking, growing, howling, and whining,
The normalizing step,
Converting the labeled data into the normalized data through the following equation,
Figure 112021031766112-pat00011

(Where d is the time series data set of each event, d i is the data input as a subset of d, max(d) is the maximum value of d, and min(d) is the minimum value of d)
The converting step,
As a linear transformation technique, the dimension of the normalized data is increased within a predetermined multiple based on the pixel coordinates of the time series data of each event through a bicubic interpolation using differential and cross-differential,
The classifying step,
The process of learning the reduced dimension data through the LSTM layer after reducing the data dimension through the Dimension Shuffle layer, and a plurality of convolution layers and ReLU activation functions and arrangements LSTM-FCN model including a process of reducing the size of data output from the convolutional layer through a pooling layer using a global average pooling technique after extracting features through batch normalization Classifying the dimensionally transformed data into the event by using
Characterized in that, a computer program.
컴퓨터로 구현되는 소리 분류 시스템에 있어서,
메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서
를 포함하고,
상기 적어도 하나의 프로세서는,
반려동물에 부착된 소리 감지 센서를 통해 상기 반려동물의 소리 데이터를 획득하는 데이터 획득부;
보간법을 이용하여 상기 소리 데이터의 차원을 변환하는 데이터 처리부; 및
딥러닝을 통해 상기 차원이 변환된 데이터를 분류하는 데이터 분류부
를 포함하고,
상기 소리 감지 센서는 웨어러블 디바이스인 부착형 무선 센서로서 와이파이(WiFi)를 이용한 통신 기능을 가진 IoT 센서로 구성되고,
상기 데이터 처리부는,
상기 소리 데이터를 사전에 정의된 소리 특징의 이벤트로 라벨링(labeling)하여 상기 라벨링된 데이터를 정규화한 후 선형 변환을 통해 상기 정규화된 데이터의 차원을 사전에 정해진 배수 이내로 증가시키고,
상기 이벤트는 짖는 소리(barking), 으르렁거리는 소리(growling), 울부짖는 소리(howling), 및 낑낑거리는 소리(whining)로 정의되고,
상기 데이터 처리부는,
하기 수학식을 통해 상기 라벨링된 데이터를 상기 정규화된 데이터로 변환하고,
Figure 112021031766112-pat00012

(여기서, d는 각 이벤트의 시계열 데이터 셋, di는 d의 부분 집합으로 입력되는 데이터, max(d)는 d의 최대값, min(d)는 d의 최소값을 의미함)
선형 변환 기법으로서 미분과 교차미분을 이용한 바이큐빅 보간법(Bicubic interpolation)을 통해 각 이벤트의 시계열 데이터의 픽셀 좌표에 기초하여 상기 정규화된 데이터의 차원을 사전에 정해진 배수 이내로 증가시키고,
상기 데이터 분류부는,
차원 셔플 레이어(Dimension Shuffle layer)를 통해 데이터 차원을 축소한 후 차원이 축소된 데이터를 LSTM 레이어(LSTM layer)를 통해 학습하는 과정과, 복수 개의 컨볼루션 레이어(Convolution layer)와 ReLU 활성화 함수 및 배치 정규화(batch normalization)를 통해 특징을 추출한 후 전역 평균 풀링(global average pooling) 기법을 이용한 풀링 레이어(Pooling layer)를 통해 상기 컨볼루션 레이어에서 출력되는 데이터의 크기를 줄이는 과정을 포함하는 LSTM-FCN 모델을 이용하여 상기 차원이 변환된 데이터를 상기 이벤트로 분류하는 것
을 특징으로 하는 소리 분류 시스템.
In the computer-implemented sound classification system,
At least one processor configured to execute computer readable instructions contained in memory
Including,
The at least one processor,
A data acquisition unit that acquires sound data of the companion animal through a sound detection sensor attached to the companion animal;
A data processing unit that converts the dimension of the sound data using an interpolation method; And
A data classification unit that classifies the data whose dimensions have been transformed through deep learning
Including,
The sound detection sensor is an attached wireless sensor that is a wearable device and is composed of an IoT sensor having a communication function using WiFi,
The data processing unit,
After normalizing the labeled data by labeling the sound data as an event of a predefined sound characteristic, the dimension of the normalized data is increased to within a predetermined multiple through linear transformation,
The event is defined as barking, growing, howling, and whining,
The data processing unit,
Converting the labeled data into the normalized data through the following equation,
Figure 112021031766112-pat00012

(Where d is the time series data set of each event, d i is the data input as a subset of d, max(d) is the maximum value of d, and min(d) is the minimum value of d)
As a linear transformation technique, the dimension of the normalized data is increased within a predetermined multiple based on the pixel coordinates of the time series data of each event through a bicubic interpolation using differential and cross-differential,
The data classification unit,
The process of learning the reduced dimension data through the LSTM layer after reducing the data dimension through the Dimension Shuffle layer, and a plurality of convolution layers and ReLU activation functions and arrangements LSTM-FCN model including the process of reducing the size of data output from the convolutional layer through a pooling layer using a global average pooling technique after extracting features through batch normalization Classifying the dimensionally transformed data into the event by using
Sound classification system, characterized in that.
삭제delete 삭제delete
KR1020180134245A 2018-11-05 2018-11-05 Method and system for animal sounds classification using interpolation and long short term memory-fully convolutional network KR102236458B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180134245A KR102236458B1 (en) 2018-11-05 2018-11-05 Method and system for animal sounds classification using interpolation and long short term memory-fully convolutional network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180134245A KR102236458B1 (en) 2018-11-05 2018-11-05 Method and system for animal sounds classification using interpolation and long short term memory-fully convolutional network

Publications (2)

Publication Number Publication Date
KR20200051201A KR20200051201A (en) 2020-05-13
KR102236458B1 true KR102236458B1 (en) 2021-04-06

Family

ID=70729989

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180134245A KR102236458B1 (en) 2018-11-05 2018-11-05 Method and system for animal sounds classification using interpolation and long short term memory-fully convolutional network

Country Status (1)

Country Link
KR (1) KR102236458B1 (en)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4413867B2 (en) * 2003-10-03 2010-02-10 旭化成株式会社 Data processing apparatus and data processing apparatus control program
KR101703413B1 (en) * 2015-02-13 2017-02-06 수상에스티(주) Pet monitoring device, control device and the method thereof

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ARIM, Fazle, et al. LSTM fully convolutional networks for time series classification. IEEE access, 2017.12.04.*
CAO, Hong, et al. Integrated oversampling for imbalanced time series classification. IEEE Transactions on Knowledge and Data Engineering, 2013.12.*

Also Published As

Publication number Publication date
KR20200051201A (en) 2020-05-13

Similar Documents

Publication Publication Date Title
Barman et al. Soil texture classification using multi class support vector machine
Walton et al. Evaluation of sampling frequency, window size and sensor position for classification of sheep behaviour
Zhang et al. Real-time sow behavior detection based on deep learning
Prince et al. Deploying acoustic detection algorithms on low-cost, open-source acoustic sensors for environmental monitoring
Endo et al. Deep feature extraction from trajectories for transportation mode estimation
Kleanthous et al. A survey of machine learning approaches in animal behaviour
CN110096979B (en) Model construction method, crowd density estimation method, device, equipment and medium
Madupu et al. Automatic human emotion recognition system using facial expressions with convolution neural network
KR102265809B1 (en) Method and apparatus for detecting behavior pattern of livestock using acceleration sensor
Nayak et al. Application of smartphone-image processing and transfer learning for rice disease and nutrient deficiency detection
Mao et al. Cross-modality interaction network for equine activity recognition using imbalanced multi-modal data
KR102236458B1 (en) Method and system for animal sounds classification using interpolation and long short term memory-fully convolutional network
Kleanthous et al. Feature extraction and random forest to identify sheep behavior from accelerometer data
Gao et al. CNN-Bi-LSTM: A complex environment-oriented cattle behavior classification network based on the fusion of CNN and Bi-LSTM
Chander et al. Comparative analysis on deep learning models for detection of anomalies and leaf disease prediction in cotton plant data
Fujinami et al. Evaluating Behavior Recognition Pipeline of Laying Hens Using Wearable Inertial Sensors
Yin et al. Human identification via unsupervised feature learning from UWB radar data
Pattnaik et al. A review on advanced techniques on plant pest detection and classification
Wenzheng Human activity recognition based on acceleration sensor and neural network
Deepan et al. Deep learning algorithm and its applications to ioT and computer vision
CN115393673A (en) Training method of object recognition model, object recognition method and electronic equipment
Pushpa An efficient internet of things (iot)-enabled skin lesion detection model using hybrid feature extraction with extreme machine learning model
Patel et al. Plant disease detection using image processing and machine learning
Sun et al. Sheep delivery scene detection based on faster-RCNN
Barman et al. A deep learning based android application to detect the leaf diseases of maize

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant