KR102292479B1 - Violent section detection apparatus and method for voice signals using vector quantization information - Google Patents

Violent section detection apparatus and method for voice signals using vector quantization information Download PDF

Info

Publication number
KR102292479B1
KR102292479B1 KR1020200142889A KR20200142889A KR102292479B1 KR 102292479 B1 KR102292479 B1 KR 102292479B1 KR 1020200142889 A KR1020200142889 A KR 1020200142889A KR 20200142889 A KR20200142889 A KR 20200142889A KR 102292479 B1 KR102292479 B1 KR 102292479B1
Authority
KR
South Korea
Prior art keywords
section
violent
vector quantization
information
time
Prior art date
Application number
KR1020200142889A
Other languages
Korean (ko)
Inventor
전찬준
류승기
Original Assignee
한국건설기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국건설기술연구원 filed Critical 한국건설기술연구원
Priority to KR1020200142889A priority Critical patent/KR102292479B1/en
Application granted granted Critical
Publication of KR102292479B1 publication Critical patent/KR102292479B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Provided are an apparatus for detecting a violent section from voice signals using vector quantization information, which accurately detect a violent section, and a method thereof. According to the present invention, the apparatus comprises: a section generation unit sequentially performing a set of operations, which generates a plurality of sections by dividing m-second voice signal for determining violent language into units of time, n (n is a positive number greater than or equal to one) times; a vector quantization wave-to-vector (VQ-Wav2Vec) processing unit sequentially performing a set of operations, which inputs the generated voice signal for each section into a VQ-Wav2Vec model to vector quantization information for each section, n times; and a violence determination unit performing artificial intelligence (AI) learning through the vector quantization information for each section input from the VQ-Wav2Vec processing unit to output information on whether or not violent language exists.

Description

Vector Quantization 정보를 이용한 음성신호의 폭력 구간 탐지 장치 및 방법{Violent section detection apparatus and method for voice signals using vector quantization information}TECHNICAL FIELD [0002] Violent section detection apparatus and method for voice signals using vector quantization information}

본 발명은 Vector Quantization 정보를 이용한 음성신호의 폭력 구간 탐지 장치 및 방법에 관한 것으로서, 보다 상세하세는, 음성신호에 대해 벡터 양자화 정보를 이용하여 폭력 구간을 검출할 수 있는 Vector Quantization 정보를 이용한 음성신호의 폭력 구간 탐지 장치 및 방법에 관한 것이다.The present invention relates to an apparatus and method for detecting a section of violence in a voice signal using vector quantization information, and more particularly, to a voice signal using vector quantization information that can detect a section of violence using vector quantization information for a voice signal. It relates to an apparatus and method for detecting a violent section of

최근 자연어처리 분야에서 언어 모델링(Language Modeling)을 하는 경우에 있어서 pre-training된 언어 모델을 활용하는 방법이 활용되고 있다. ELMo(Embeddings from Language Model), OpenAI GPT(Generative Pre-training), BERT(Bidirectional Encoder Representations from Transformers)가 가장 대표적인 예시이다. 특히, BERT는 MLM(Masked Language Model)과 Next Sentence Prediction 기법을 활용하여 자연어처리 모든 태스크에서 SOTA(State Of The Art)를 달성하였다.Recently, in the case of language modeling in the field of natural language processing, a method using a pre-trained language model is used. The most representative examples are Embeddings from Language Model (ELMo), OpenAI Generative Pre-training (GPT), and Bidirectional Encoder Representations from Transformers (BERT). In particular, BERT achieved SOTA (State Of The Art) in all natural language processing tasks by utilizing MLM (Masked Language Model) and Next Sentence Prediction techniques.

또한, 최근에는 텍스트 정보가 아닌 음성신호를 음성 인식을 위한 Vector Representation으로 변환하는 wav2vec 모델을 FAIR(Facebook AI Research)에서 개발하였으며, wav2vec 모델은 음성인식률에 있어서 높은 성능을 보이고 있다. In addition, recently, a wav2vec model that converts a speech signal, not text information, into a vector representation for speech recognition was developed by FAIR (Facebook AI Research), and the wav2vec model shows high performance in speech recognition rate.

한편, 기존에는 음성신호를 분석하기 위해 주로 Log mel-spectrogram 또는 MFCC(Mel Frequency Cepstral Coefficient) 알고리즘을 많이 활용하고 있다. 음성신호는 음소/언어, 의미, 톤, 화자의 특성, 감정 등 다양한 정보를 포함하고 있지만 기존의 알고리즘들에 의해 분석된 결과는 이러한 음성신호의 다양한 정보를 충분히 포함하지 못 하며, 따라서, 음성이 폭력언어인지 또는 비폭력언어인지 판별하는데 정확도가 떨어진다. Meanwhile, in the past, a log mel-spectrogram or MFCC (Mel Frequency Cepstral Coefficient) algorithm is mainly used to analyze a voice signal. A voice signal contains various information such as phoneme/language, meaning, tone, speaker's characteristics, and emotions, but the results analyzed by existing algorithms do not sufficiently include various information of these voice signals, and therefore, the voice It is less accurate in determining whether it is violent or non-violent language.

국내 등록특허 제10-1779361호(2017.09.12. 등록)Domestic Registered Patent No. 10-1779361 (Registered on Sept. 12, 2017)

전술한 문제점을 해결하기 위하여 본 발명이 이루고자 하는 기술적 과제는, 음성신호에 포함된 폭력구간을 판별할 수 있는 Vector Quantization 정보를 이용한 음성신호의 폭력 구간 탐지 장치 및 방법을 제시하는 데 있다.The technical object of the present invention to solve the above problems is to provide an apparatus and method for detecting a violence section of a voice signal using vector quantization information capable of discriminating a section of violence included in the voice signal.

본 발명의 해결과제는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 해결과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.The problems to be solved of the present invention are not limited to those mentioned above, and other problems not mentioned will be clearly understood by those skilled in the art from the following description.

전술한 기술적 과제를 해결하기 위한 수단으로서, 본 발명의 실시 예에 따르면, Vector Quantization 정보를 이용한 음성신호의 폭력 구간 탐지 장치는, 폭력 언어를 판별하기 위한 m초의 음성신호를 시간 단위로 분할하여 다수의 구간들을 생성하는 한 세트 동작을 순차적으로 n(n은 1 이상의 양수)회 수행하는 구간 생성부; 상기 생성된 구간 별 음성신호를 VQ-Wav2Vec(Vector Quantization Wave to Vector) 모델에 입력하여 구간 별 Vector Quantization(벡터 양자화) 정보를 출력하는 한 세트 동작을 순차적으로 n회 수행하는 VQ-Wav2Vec 처리부; 및 상기 VQ-Wav2Vec 처리부로부터 입력되는 구간 별 Vector Quantization 정보를 딥러닝 모델을 통해 인공지능 학습하여 상기 구간 별로 폭력 언어 여부에 대한 판별 정보를 출력하는 폭력 판별부;를 포함한다.As a means for solving the above technical problem, according to an embodiment of the present invention, an apparatus for detecting a violent section of a voice signal using vector quantization information divides an m-second voice signal for determining a violent language into a plurality of time units. a section generator that sequentially performs one set operation for generating sections of n (n is a positive number equal to or greater than 1) times; a VQ-Wav2Vec processing unit that sequentially performs a set operation of outputting vector quantization information for each section by inputting the generated speech signal for each section to a VQ-Wav2Vec (Vector Quantization Wave to Vector) model n times; and a violence determining unit configured to perform artificial intelligence learning of vector quantization information for each section input from the VQ-Wav2Vec processing unit through a deep learning model, and output determination information on whether or not violent language exists for each section.

상기 구간 생성부가 상기 음성신호를 시간 단위로 분할하는 한 세트 동작을 n회 수행할 때마다 적용되는 시간 단위는 서로 다르다.A time unit applied each time the section generator performs a set operation of dividing the voice signal into time units n times is different from each other.

상기 한 세트 동작에서 적용되는 시간 단위는 균등 및 비균등 중 하나로 변경가능하다.The time unit applied in the one set operation may be changed to one of equal and non-uniform.

상기 폭력 판별부는, 상기 VQ-Wav2Vec 처리부로부터 입력되는 구간 별 Vector Quantization 정보를 인공지능 학습하여 구간 별로 폭력 언어 여부에 대한 임시 판별 정보를 출력하는 학습부; 및 상기 학습부에서 n회의 구간 별 임시 판별 정보가 입력되면, 상기 n회의 구간 별 임시 판별 정보를 누적하여 상기 음성신호에 대한 폭력 여부를 최종 판별하는 누적 판별부;를 포함한다.The violence determination unit may include: a learning unit that artificially learns Vector Quantization information for each section input from the VQ-Wav2Vec processing unit and outputs temporary determination information on whether or not violent language exists for each section; and a cumulative determination unit that finally determines whether or not violence against the voice signal is made by accumulating the provisional determination information for each of the n times when the provisional determination information for each section n times is input by the learning unit.

한편, 본 발명의 다른 실시 예에 따르면, Vector Quantization 정보를 이용한 음성신호의 폭력 구간 탐지 방법은, (A) 전자장치가, 폭력 언어를 판별하기 위한 m초의 음성신호를 시간 단위로 분할하여 다수의 구간들을 생성하는 한 세트 동작을 순차적으로 n(n은 1 이상의 양수)회 수행하는 단계; (B) 상기 전자장치가, 상기 (A) 단계에서 생성된 구간 별 음성신호를 VQ-Wav2Vec(Vector Quantization Wave to Vector) 모델에 입력하여 구간 별 Vector Quantization(벡터 양자화) 정보를 출력하는 한 세트 동작을 순차적으로 n회 수행하는 단계; 및 (C) 상기 전자장치가, 상기 (B) 단계로부터 입력되는 구간 별 Vector Quantization 정보를 딥러닝 모델을 통해 인공지능 학습하여 상기 구간 별로 폭력 언어 여부에 대한 판별 정보를 출력하는 단계;를 포함한다.On the other hand, according to another embodiment of the present invention, in the method of detecting a violent section of a voice signal using vector quantization information, (A) the electronic device divides the m-second voice signal for determining the violent language into units of time, sequentially performing one set operation of generating sections n times (n is a positive number greater than or equal to 1); (B) One set operation in which the electronic device inputs the speech signal for each section generated in step (A) into the VQ-Wav2Vec (Vector Quantization Wave to Vector) model and outputs Vector Quantization information for each section sequentially performing n times; and (C), by the electronic device, AI-learning the vector quantization information for each section input from the step (B) through a deep learning model and outputting discrimination information on whether or not violent language is present for each section. .

상기 (A) 단계는, 상기 음성신호를 시간 단위로 분할하는 한 세트 동작을 n회 수행할 때마다 적용되는 시간 단위를 서로 다르게 설정한다.In step (A), a time unit applied every time one set operation of dividing the voice signal into time units is performed n times is set differently.

상기 한 세트 동작에서 적용되는 시간 단위는 균등 및 비균등 중 하나로 변경가능하다.The time unit applied in the one set operation may be changed to one of equal and non-uniform.

상기 (C) 단계는, (C1) 상기 (B) 단계로부터 입력되는 구간 별 Vector Quantization 정보를 인공지능 학습하여 구간 별로 폭력 언어 여부에 대한 임시 판별 정보를 출력하는 단계; 및 (C2) 상기 (C1) 단계로부터 입력되는 n회의 구간 별 임시 판별 정보를 시간 축이 일치하도록 배열하는 단계; 및 (C3) 상기 (C2) 단계에서 시간 축이 일치하도록 배열된 n회의 구간 별 임시 판별 정보를 동일한 시간마다 누적하여 상기 음성신호에 대한 폭력 여부를 최종 판별하는 단계;를 포함한다.The step (C) includes the steps of: (C1) performing artificial intelligence learning of the vector quantization information for each section input from the step (B) and outputting temporary identification information on whether or not violent language is present for each section; and (C2) arranging the temporary determination information for each section n times input from the step (C1) so that the time axis coincides with each other; and (C3) accumulating the provisional identification information for each section n times arranged to coincide with the time axis in step (C2) at the same time to finally determine whether violence against the voice signal is present.

본 발명에 따르면, 임베딩 정보를 Vector Quantization 모듈을 이용하여 Discrete Representation하는 VQ-wav2vec 모델을 이용하여 음성신호 중 폭력 구간을 기존에 비해 보다 정확히 검출할 수 있다. According to the present invention, the violence section in the voice signal can be detected more accurately than before using the VQ-wav2vec model that discretely represents embedding information using the Vector Quantization module.

본 발명의 효과는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.Effects of the present invention are not limited to those mentioned above, and other effects not mentioned will be clearly understood by those skilled in the art from the following description.

도 1은 본 발명의 실시 예에 따른 Vector Quantization 정보를 이용한 음성신호의 폭력 구간 탐지 장치를 도시한 블록도,
도 2는 VQ-Wav2Vec 모델의 아키텍처를 도시한 도면,
도 3은 구간 생성부가 판별 대상 음성신호를 서로 다른 시간 단위로 분할하여 다수의 구간들로 나눈 경우를 보여주는 도면,
도 4는 학습부의 임시 판별 결과를 보여주는 도면,
도 5는 누적 판별부의 판별 결과를 보여주는 도면,
도 6은 본 발명의 실시 예에 따른 Vector Quantization 정보를 이용한 음성신호의 폭력 구간 탐지 방법을 개략적으로 도시한 흐름도,
도 7은 도 6의 S630단계를 자세히 도시한 흐름도, 그리고,
도 8은 본 발명의 실시 예에 따른 Vector Quantization 정보를 이용한 음성신호의 폭력 구간 탐지 방법을 실행하는 컴퓨팅 시스템을 보여주는 블록도이다.
1 is a block diagram illustrating an apparatus for detecting a violent section of a voice signal using vector quantization information according to an embodiment of the present invention;
2 is a diagram showing the architecture of the VQ-Wav2Vec model;
3 is a view showing a case in which the section generator divides the discrimination target voice signal into different time units and divides it into a plurality of sections;
4 is a view showing a temporary determination result of the learning unit;
5 is a view showing the determination result of the cumulative determination unit;
6 is a flowchart schematically illustrating a method for detecting a violent section of a voice signal using vector quantization information according to an embodiment of the present invention;
7 is a flowchart showing in detail step S630 of FIG. 6, and,
8 is a block diagram illustrating a computing system for executing a method for detecting a violent section of a voice signal using vector quantization information according to an embodiment of the present invention.

본 발명의 실시를 위한 구체적인 내용을 설명하기에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 발명자가 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사항에 부합하는 의미와 개념으로 해석되어야 할 것이다.Before describing the specific content for carrying out the present invention, the terms or words used in the specification and claims may properly define the concept of the term in order for the inventor to best describe his or her invention. Based on the principle that there is, it should be interpreted as meaning and concept consistent with the technical matters of the present invention.

또한, 본 발명에 관련된 공지 기능 및 그 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는, 그 구체적인 설명을 생략하였음에 유의해야 할 것이다.In addition, when it is determined that the detailed description of the well-known functions related to the present invention and its configuration may unnecessarily obscure the gist of the present invention, it should be noted that the detailed description is omitted.

어떤 엘리먼트, 구성요소, 장치, 또는 시스템이 프로그램 또는 소프트웨어로 이루어진 구성요소를 포함한다고 언급되는 경우, 명시적인 언급이 없더라도, 그 엘리먼트, 구성요소, 장치, 또는 시스템은 그 프로그램 또는 소프트웨어가 실행 또는 동작하는데 필요한 하드웨어(예를 들면, 메모리, CPU 등)나 다른 프로그램 또는 소프트웨어(예를 들면 운영체제나 하드웨어를 구동하는데 필요한 드라이버 등)를 포함하는 것으로 이해되어야 할 것이다.When it is stated that any element, component, device, or system includes a component consisting of a program or software, even if not explicitly stated, that element, component, device, or system means that the program or software executes or operates It should be understood to include hardware (eg, memory, CPU, etc.) or other programs or software (eg, drivers required to run an operating system or hardware) necessary for the operation.

또한, 어떤 엘리먼트(또는 구성요소)가 구현됨에 있어서 특별한 언급이 없다면, 그 엘리먼트(또는 구성요소)는 소프트웨어, 하드웨어, 또는 소프트웨어 및 하드웨어 어떤 형태로도 구현될 수 있는 것으로 이해되어야 할 것이다.In addition, it should be understood that, unless specifically stated in the implementation of an element (or component), the element (or component) may be implemented in software, hardware, or any form of software and hardware.

이하에서는 본 발명에서 실시하고자 하는 구체적인 기술내용에 대해 첨부도면을 참조하여 상세하게 설명하기로 한다.Hereinafter, specific technical contents to be practiced in the present invention will be described in detail with reference to the accompanying drawings.

도 1에 도시된 장치들의 각각의 구성은 기능 및/또는 논리적으로 분리될 수 있음을 나타내는 것이며, 반드시 각각의 구성이 별도의 물리적 장치로 구분되거나 별도의 코드로 생성됨을 의미하는 것은 아님을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다. The present invention indicates that each configuration of the devices shown in FIG. 1 can be functionally and/or logically separated, and does not necessarily mean that each configuration is divided into a separate physical device or generated with a separate code. An average expert in the field of technology can easily infer.

도 1은 본 발명의 실시 예에 따른 Vector Quantization 정보를 이용한 음성신호의 폭력 구간 탐지 장치(100)를 도시한 블록도이다.1 is a block diagram illustrating an apparatus 100 for detecting a violent section of a voice signal using vector quantization information according to an embodiment of the present invention.

도 1에 도시된 Vector Quantization 정보를 이용한 음성신호의 폭력 구간 탐지 장치(100)는 음성신호를 분석하여 폭력 언어가 포함되어 있는지를 판별하기 위한 장치로서, VQ-Wav2Vec(Vector Quantization Wave to Vector) 모델과, 딥러닝 모델 또는 기계학습 방식을 이용할 수 있다.The apparatus 100 for detecting a violent section of a voice signal using Vector Quantization information shown in FIG. 1 is a device for determining whether violent language is included by analyzing a voice signal, and is a VQ-Wav2Vec (Vector Quantization Wave to Vector) model. And, deep learning models or machine learning methods can be used.

도 1을 참조하면, 본 발명의 실시 예에 따른 Vector Quantization 정보를 이용한 음성신호의 폭력 구간 탐지 장치(100)는 구간 생성부(110), VQ-Wav2Vec(Vector Quantization Wave to Vector) 처리부(120) 및 폭력 판별부(130)를 포함할 수 있다.Referring to FIG. 1 , the apparatus 100 for detecting a violent section of a voice signal using vector quantization information according to an embodiment of the present invention includes a section generator 110 and a Vector Quantization Wave to Vector (VQ-Wav2Vec) processor 120 . and a violence determination unit 130 .

구간 생성부(110)는 폭력 언어를 판별하기 위한 동일한 m초의 음성신호를 시간 단위로 분할하여 다수의 구간들을 생성하는 한 세트 동작을 순차적으로 n(n은 1 이상의 양수)회 수행할 수 있다. The section generating unit 110 may sequentially perform one set operation of generating a plurality of sections by dividing the same m-second voice signal for determining violent language in units of time n (n is a positive number equal to or greater than 1) times.

구간 생성부(110)는 m초의 음성신호를 시간 단위로 분할하는 한 세트 동작을 n회 수행할 때마다 적용되는 시간 단위를 서로 다르게 할 수 있다. 또한, 구간 생성부(110)는 한 세트 동작에서 적용되는 시간 단위를 균등한 구간 단위 또는 비균등한 구간 단위 중 하나로 변경할 수 있다.The section generator 110 may set different time units applied every n times of one set operation of dividing an m-second voice signal into time units. Also, the section generator 110 may change the time unit applied in one set operation to either an equal section unit or an unequal section unit.

이와 같이 판별 대상 음성신호를 다수의 구간으로 분할하는 이유는, 음성신호 중 폭력 언어에 해당하는 특정 구간을 정확히 판별하기 위함이다. The reason for dividing the discrimination target voice signal into a plurality of sections is to accurately discriminate a specific section corresponding to a violent language among the voice signals.

이하에서는 폭력 언어를 판별하기 위한 음성신호를 '판별 대상 음성신호'라 한다.Hereinafter, a voice signal for discriminating a violent language is referred to as a 'discrimination target voice signal'.

자세히 설명하면, 구간 생성부(110)는 m초의 길이를 가지는 판별 대상 음성신호를 입력받아 균등한 시간 단위 또는 비균등한 시간 단위로 분할하여 다수의 구간들을 생성하는 1번째 세트에 해당하는 동작을 수행할 수 있다.In detail, the section generating unit 110 receives an input voice signal to be determined having a length of m seconds, divides it into equal time units or unequal time units, and generates a plurality of sections corresponding to the first set operation. can be done

또한, 구간 생성부(110)는 위와 동일한 판별 대상 음성신호를 시간 단위로 분할하되 위의 세트에서 적용된 시간 단위와는 다른 시간 단위로 분할하여 다수의 구간들을 생성하는 2번째 세트에 해당하는 동작을 수행할 수 있다. 즉, 구간 생성부(110)는 n개의 세트마다 시간 단위를 다르게 적용하여 다수 구간들을 생성할 수 있다.In addition, the section generating unit 110 divides the same discrimination target voice signal by time unit, but divides the same time unit into a time unit different from the time unit applied in the above set to generate a plurality of sections corresponding to the second set operation. can be done That is, the section generator 110 may generate a plurality of sections by applying different time units to every n sets.

예를 들어, n=2와 균등한 시간 단위가 설정된 경우, 구간 생성부(110)는 20초 동안의 판별 대상 음성신호를 1번째 세트에서는 2초 단위로 분할하여 10개의 구간들을 생성하고, 2번째 세트에서는 4초 단위로 분할하여 5개의 구간들을 생성할 수 있다. 여기서 2초와 4초는 일 예로서 이에 한정되지 않음은 자명하다.For example, when a time unit equal to n=2 is set, the section generating unit 110 divides the discrimination target voice signal for 20 seconds into 2 second units in the first set to generate 10 sections, 2 In the first set, 5 sections can be created by dividing by 4 seconds. Here, it is obvious that 2 seconds and 4 seconds are examples and are not limited thereto.

또는, n=2와 비균등한 시간 단위가 설정된 경우, 구간 생성부(110)는 20초 동안의 판별 대상 음성신호를 1번째 세트에서는 2초, 4초, 2초, 4초, 2초, 4초, 2초 단위로 분할하여 7개의 구간들을 생성하고, 2번째 세트에서는 5초, 3초, 2초, 4초, 4초, 2초 단위로 분할하여 6개의 구간들을 생성할 수 있다. 여기서 적용된 비균등한 시간 단위는 일 예로서 이에 한정되지 않는다.Alternatively, when a time unit unequal to n=2 is set, the section generating unit 110 generates a discrimination target voice signal for 20 seconds in the first set for 2 seconds, 4 seconds, 2 seconds, 4 seconds, 2 seconds, 7 sections are generated by dividing by 4 seconds and 2 seconds, and in the second set, 6 sections can be generated by dividing by 5 seconds, 3 seconds, 2 seconds, 4 seconds, 4 seconds, and 2 seconds units. The non-uniform time unit applied here is an example and is not limited thereto.

VQ-Wav2Vec 처리부(120)는 구간 생성부(110)에서 생성된 구간 별 음성신호를 VQ-Wav2Vec 모델에 입력하여 구간 별 Vector Quantization(벡터 양자화) 정보를 출력하는 한 세트의 동작을 순차적으로 n회 수행할 수 있다.The VQ-Wav2Vec processing unit 120 inputs the speech signal for each section generated by the section generator 110 to the VQ-Wav2Vec model and outputs a set of vector quantization information for each section sequentially n times. can be done

도 2는 VQ-Wav2Vec 모델의 아키텍처를 도시한 도면이다.2 is a diagram showing the architecture of the VQ-Wav2Vec model.

도 2를 참조하면, VQ-Wav2Vec 모델은 엔코더 네트워크(encoder 2, the VQ-Wav2Vec model is an encoder network (encoder

network, f), Vector Quantization 모듈(q) 및 콘텍스트 네트워크(context network, c)를 포함한다. 엔코더 네트워크와 콘텍스트 네트워크는 모두 컨볼루션 뉴럴 네트워크일 수 있다. network, f), a Vector Quantization module (q) and a context network (c). Both the encoder network and the context network may be convolutional neural networks.

엔코더 네트워크(f)는 입력되는 판별 대상 음성신호(X)를 hidden representation(Z)로 엔코딩한다. hidden representation(Z)는 continuous representation(Z)라고도 한다.The encoder network (f) encodes the input discrimination target voice signal (X) into a hidden representation (Z). The hidden representation (Z) is also called the continuous representation (Z).

Vector Quantization 모듈(q)은 continuous representation(Z)를 discrete representation(

Figure 112020115736593-pat00001
)로 변환한다.The Vector Quantization module (q) converts a continuous representation (Z) into a discrete representation (
Figure 112020115736593-pat00001
) is converted to

Vector Quantization 모듈은 예를 들어 Gumbel Softmax 또는 K-means Clustering 방식 중 하나가 사용될 수 있다. Gumbel Softmax를 사용하는 경우, Vector Quantization 모듈은 Z를 선형변환하여 logit를 만들고, 여기에 Gumbel Softmax와 argmax를 적용하여 one-hot 벡터를 만든다. 이로써 연속적인(continuous) 변수 Z가 이산(discrete) 변수로 변환되며, 이것이 Vector Quantization이다. 이후, Vector Quantization 모듈은 Embedding matrix를 내적해 discrete representation(

Figure 112020115736593-pat00002
)를 만든다.For the Vector Quantization module, for example, one of Gumbel Softmax or K-means Clustering methods may be used. When using Gumbel Softmax, the Vector Quantization module makes a logit by linearly transforming Z, then applies Gumbel Softmax and argmax to create a one-hot vector. This transforms the continuous variable Z into a discrete variable, which is Vector Quantization. After that, the Vector Quantization module does the dot product of the embedding matrix to obtain a discrete representation (
Figure 112020115736593-pat00002
) to make

콘텍스트 네트워크(g)는 discrete representation(

Figure 112020115736593-pat00003
)를 context representation(C)로 변환한다. VQ-Wav2Vec 학습을 마치면 C는 음성 피처로 사용될 수 있다.The context network (g) is a discrete representation (
Figure 112020115736593-pat00003
) to the context representation (C). After completing VQ-Wav2Vec training, C can be used as a voice feature.

예를 들어, 16kHz로 샘플링된 약 10초~30초 사이의 판별 대상 음성신호를 VQ-Wav2Vec 모델에 입력할 경우, VQ-Wav2Vec 모델은 [T, 2]의 Vector Quantization된 정보를 출력할 수 있다. 여기서, T는 타임스텝스이고, 2개의 그룹으로 나오는 정보가 Vector Quantization 정보에 해당하며, VQ-Wav2Vec 모델은 모든 타임스텝스에 해당하는 정보를 누적한 결과를 제공할 수 있다. VQ-Wav2Vec 모델에서 누적된 정보는 이산변수로 간주가 가능하다. 음성신호의 길이에 따라서 T도 변경되며, 예를 들어, 30초의 웨이브가 입력될 때 T=100이면, 60초의 웨이브가 입력될 때 T=200일 수 있다.For example, if a voice signal to be identified between about 10 and 30 seconds sampled at 16 kHz is input to the VQ-Wav2Vec model, the VQ-Wav2Vec model can output vector quantized information of [T, 2]. . Here, T is a time step, information coming out in two groups corresponds to vector quantization information, and the VQ-Wav2Vec model may provide a result of accumulating information corresponding to all time steps. The accumulated information in the VQ-Wav2Vec model can be regarded as a discrete variable. T is also changed according to the length of the voice signal. For example, if T=100 when a 30-second wave is input, T=200 when a 60-second wave is input.

폭력 판별부(130)는 VQ-Wav2Vec 처리부(120)로부터 입력되는 구간 별 Vector Quantization 정보를 인공지능 학습하여 구간 별로 폭력 언어 여부에 대한 판별 정보를 출력할 수 있다. The violence determination unit 130 may perform artificial intelligence learning of vector quantization information for each section input from the VQ-Wav2Vec processing unit 120 to output discrimination information on whether or not violent language exists for each section.

도 1을 참조하면, 폭력 판별부(130)는 학습부(132) 및 누적 판별부(134)를 포함한다.Referring to FIG. 1 , the violence determining unit 130 includes a learning unit 132 and an accumulation determining unit 134 .

학습부(132)는 VQ-Wav2Vec 처리부(120)로부터 입력되는 구간 별 Vector Quantization 정보를 인공지능 학습하여 구간 별로 폭력 언어 여부에 대한 임시 판별 정보를 n세트 출력할 수 있다. 학습부(132)는 판별 대상 음성신호 중 폭력 언어에 해당하는 특정 구간을 판별하기 위해서, 판별 대상 음성신호를 여러 세그먼트로 나누어 폭력 음성인지를 임시 판별할 수 있다. 구간 별 Vector Quantization 정보를 인공지능 학습한 결과 중 1은 폭력 구간이고, 0은 비폭력 구간으로 판별될 수 있다.The learning unit 132 may artificially learn vector quantization information for each section input from the VQ-Wav2Vec processing unit 120 , and output n sets of temporary determination information on whether or not violent language exists for each section. In order to determine a specific section corresponding to a violent language among the discrimination target voice signals, the learning unit 132 may divide the discrimination target voice signal into several segments to temporarily determine whether the discrimination target voice signal is a violent voice. Among the results of artificial intelligence learning of vector quantization information for each section, 1 is a violent section, and 0 is a non-violent section.

학습부(132)는 FNN(Fully Connected Network)과 같은 딥러닝 모델, 디시전 트리(Decision Tree) 또는 LGBM(Light GBM)과 같은 기계학습 방식을 이용하여 인공지능 학습함으로써 소량의 폭력 음성 DB(Database)만으로도 학습이 가능하다.The learning unit 132 uses a deep learning model such as a Fully Connected Network (FNN), a machine learning method such as a decision tree or LGBM (Light GBM) to learn artificial intelligence using a small amount of violent voice DB (Database). ) alone can be learned.

또한, 학습부(132)는 타임스텝을 누적한 정보를 학습하므로 판별 대상 음성신호의 길이가 가변적이어도 폭력 언어 여부를 판별할 수 있는 장점을 갖는다.In addition, since the learning unit 132 learns the information accumulated by the time step, it has the advantage of being able to determine whether or not violent language is present even if the length of the voice signal to be determined is variable.

누적 판별부(134)는 학습부(132)로부터 n세트(즉, n회)의 구간 별 Vector Quantization 정보를 학습한 결과가 입력되면, n회의 구간 별 학습 결과 중 동일한 시간에 해당하는 학습 결과를 누적하여 음성신호에 대한 폭력 여부를 최종 판별할 수 있다. When the result of learning n sets (that is, n times) of vector quantization information for each section from the learning unit 132 is input, the accumulation determining unit 134 returns a learning result corresponding to the same time among the n times of learning results for each section. By accumulating, it is possible to finally determine whether there is violence against the voice signal.

즉, 누적 판별부(134)는 구간 별 Vector Quantization 정보를 학습한 결과(즉, 임시 판별 결과)가 n세트 생성되면, n세트의 구간 별 학습 결과를 시간축을 기준으로 배열하고, 동일한 시간에 해당하는 학습 결과를 누적한다.That is, when n sets of results of learning vector quantization information for each section (that is, provisional discrimination results) are generated, the cumulative determination unit 134 arranges the n sets of learning results for each section based on the time axis, and corresponds to the same time. accumulating learning results.

그리고, 누적 판별부(134)는 동일한 시간마다 누적된 학습 결과와 기설정된 판별 기준값을 비교하여, 누적된 학습 결과가 판별 기준값 이상이면 폭력 구간에 해당하고, 미만이면 비폭력 구간에 해당하는 것으로 판별할 수 있다.And, the cumulative determination unit 134 compares the learning result accumulated for the same time with a preset determination reference value, and if the accumulated learning result is greater than or equal to the determination reference value, it corresponds to the violent section, and if it is less than, it is determined as the non-violent section. can

또한, 본 발명의 활용처에 따라 누적 판별부(134)의 판별 기준값 설정이 가능하다. 활용처에 폭력 판별 성능이 정밀도(precision)를 높일 경우에는 제1판별 기준값으로 설정하며, 민감도(recall)를 높일 경우에는 제1판별 기준값보다 상대적으로 낮은 제2판별 기준값 설정으로 활용이 가능하다. 제1판별 기준값과 제2판별 기준값은 관리자에 의해 변경가능하며 정밀도가 높을수록 제1판별 기준값은 커지고, 민감도가 높을수록 제2판별 기준값은 낮아질 수 있다.In addition, it is possible to set the determination reference value of the accumulation determination unit 134 according to the application of the present invention. When the violence discrimination performance increases the precision, it is set as the first discrimination standard value, and when the sensitivity (recall) is increased, it can be used as a second discrimination standard value that is relatively lower than the first discrimination standard value. The first discrimination reference value and the second discrimination reference value can be changed by an administrator. The higher the precision, the greater the first discrimination reference value, and the higher the sensitivity, the lower the second discrimination reference value.

도 3은 구간 생성부(110)가 판별 대상 음성신호를 서로 다른 시간 단위로 분할하여 다수의 구간들로 나눈 경우를 보여주는 도면이다.3 is a diagram illustrating a case in which the section generating unit 110 divides the discrimination target voice signal into different time units and divides it into a plurality of sections.

도 3을 참조하면, 40초의 판별 대상 음성신호를 서로 다른 시간 단위로 분할하는 동작은 7세트 수행되었으며, 각각 2초 단위, 4초 단위, 5초 단위, 8초 단위, 10초 단위, 20초 단위 및 40초 단위로 분할되었다. 따라서, 각 세트 별로 생성되는 구간은 각각 20개, 10개, 8개, 5개, 4개, 2개 및 1개이다. Referring to FIG. 3 , seven sets of operations for dividing the 40-second discrimination target voice signal into different time units were performed, respectively, in units of 2 seconds, units of 4 seconds, units of 5 seconds, units of 8 seconds, units of 10 seconds, and units of 20 seconds. unit and 40 seconds. Accordingly, the sections generated for each set are 20, 10, 8, 5, 4, 2, and 1, respectively.

도 4는 학습부(132)의 임시 판별 결과를 보여주는 도면이다.4 is a diagram showing a result of the provisional determination of the learning unit 132 .

도 4를 참조하면, VQ-Wav2Vec 처리부(120)는 분할된 구간 별로 판별 대상 음성신호를 입력받아 구간 별 누적된 Vector Quantization 정보를 생성하고, 학습부(132)는 누적된 Vector Quantization 정보를 인공지능 학습하여 구간 별로 폭력 언어에 해당하는지 임시 판별한다. 임시 판별 결과는, 폭력 언어에 해당하는 구간은 1, 비폭력 언어에 해당하는 구간은 0으로 표현된다. VQ-Wav2Vec 처리부(120)와 학습부(132)는 이러한 동작을 도 3에 도시된 것처럼 7세트 수행하여 7개의 임시 판별 결과를 제공한다.Referring to FIG. 4 , the VQ-Wav2Vec processing unit 120 receives a discrimination target voice signal for each divided section and generates accumulated vector quantization information for each section, and the learning unit 132 uses the accumulated vector quantization information for artificial intelligence. By learning, it is temporarily determined whether or not it corresponds to violent language by section. As for the provisional determination result, the section corresponding to violent language is expressed as 1, and the section corresponding to non-violent language is expressed as 0. The VQ-Wav2Vec processing unit 120 and the learning unit 132 perform 7 sets of these operations as shown in FIG. 3 to provide 7 temporary determination results.

도 5는 누적 판별부(134)의 판별 결과를 보여주는 도면이다.5 is a diagram showing a determination result of the accumulation determination unit 134 .

도 5를 참조하면, 누적 판별부(134)는 도 4에 도시된 7세트의 임시 판별 결과(구간 별로 0 또는 1이 시계열로 표시됨)를 동일한 시간에서 누적하고, 누적된 임시 판별 결과와 판별 기준값(점선 표기)을 비교하여 폭력 구간과 비폭력 구간을 최종적으로 판별한다. Referring to FIG. 5 , the cumulative determination unit 134 accumulates the seven sets of provisional determination results (0 or 1 in time series for each section) shown in FIG. 4 at the same time, and the accumulated provisional determination result and the determination reference value (dotted line) is compared to finally determine the violent section and the non-violent section.

도 6은 본 발명의 실시 예에 따른 Vector Quantization 정보를 이용한 음성신호의 폭력 구간 탐지 방법을 개략적으로 도시한 흐름도이다.6 is a flowchart schematically illustrating a method for detecting a violent section of a voice signal using vector quantization information according to an embodiment of the present invention.

도 6에 도시된 Vector Quantization 정보를 이용한 음성신호의 폭력 구간 탐지 방법을 수행하는 전자장치는 도 1 내지 도 5를 참조하여 설명한 폭력 구간 탐지 장치(100) 또는 도 8을 참조하여 후술할 컴퓨팅 시스템(800)일 수 있다. The electronic device for performing the method for detecting a section of violence in a voice signal using the vector quantization information shown in FIG. 6 is the device for detecting a section of violence 100 described with reference to FIGS. 1 to 5 or a computing system to be described later with reference to FIG. 800).

도 6을 참조하면, 전자장치는 폭력 언어를 판별하기 위한 m초의 음성신호를 시간 단위로 분할하여 다수의 구간들을 생성하는 한 세트 동작을 순차적으로 n(n은 1 이상의 양수)회 수행한다(S610).Referring to FIG. 6 , the electronic device sequentially performs n (n is a positive number greater than or equal to 1) a set operation of generating a plurality of sections by dividing an m-second voice signal for determining violent language into time units (S610). ).

전자장치는, S610단계에서 생성된 구간 별 음성신호를 VQ-Wav2Vec 모델에 입력하여 구간 별 Vector Quantization 정보를 출력하는 한 세트 동작을 순차적으로 n회 수행한다(S620).The electronic device sequentially performs one set operation of outputting vector quantization information for each section by inputting the voice signal for each section generated in step S610 to the VQ-Wav2Vec model n times (S620).

S610단계는, 음성신호를 시간 단위로 분할하는 한 세트 동작을 n회 수행할 때마다 분할에 적용되는 시간 단위를 서로 다르게 설정할 수 있다. 또한, 한 세트 동작에서 적용되는 시간 단위는 균등하거나 비균등할 수 있으며 변경가능하다. 전자장치는 S620단계로부터 입력되는 구간 별 Vector Quantization 정보를 딥러닝 모델을 통해 인공지능 학습하여 구간 별로 폭력 언어 여부에 대한 판별 정보를 출력한다(S630).In step S610, a time unit applied to division may be set differently every time a set operation of dividing a voice signal into time units is performed n times. In addition, time units applied in one set operation may be uniform or non-uniform, and may be changed. The electronic device performs AI-learning of vector quantization information for each section input from step S620 through a deep learning model, and outputs discrimination information on whether or not violent language is present for each section (S630).

도 7은 도 6의 S630단계를 자세히 도시한 흐름도이다.7 is a flowchart illustrating in detail step S630 of FIG. 6 .

도 7을 참조하면, 전자장치는 S620단계로부터 입력되는 구간 별 Vector Quantization 정보를 인공지능 학습하여 구간 별로 폭력 언어 여부에 대한 임시 판별 정보를 출력할 수 있다(S632).Referring to FIG. 7 , the electronic device may perform artificial intelligence learning of vector quantization information for each section input from step S620 to output temporary determination information on whether or not violent language exists for each section ( S632 ).

전자장치는 S632단계로부터 입력되는 n회의 구간 별 임시 판별 정보를 시간 축이 일치하도록 배열한다(S634).The electronic device arranges the temporary determination information for each section n times input from step S632 so that the time axis coincides with each other (S634).

전자장치는 S634단계에서 시간 축이 일치하도록 배열된 n회의 구간 별 임시 판별 정보 중 동일한 시간에 해당하는 정보를 누적하여 음성신호에 대한 폭력 여부를 최종 판별할 수 있다(S636).The electronic device may finally determine whether violence against the voice signal is present by accumulating information corresponding to the same time among the n-time temporary determination information for each section arranged so that the time axis coincides in step S634 ( S636 ).

도 8은 본 발명의 실시 예에 따른 Vector Quantization 정보를 이용한 음성신호의 폭력 구간 탐지 방법을 실행하는 컴퓨팅 시스템(800)을 보여주는 블록도이다.8 is a block diagram illustrating a computing system 800 for executing a method for detecting a violent section of a voice signal using vector quantization information according to an embodiment of the present invention.

도 8을 참조하면, 컴퓨팅 시스템(800)은 버스(820)를 통해 연결되는 적어도 하나의 프로세서(810), 메모리(830), 사용자 인터페이스 입력 장치(840), 사용자 인터페이스 출력 장치(850), 스토리지(860), 및 네트워크 인터페이스(870)를 포함할 수 있다.Referring to FIG. 8 , the computing system 800 includes at least one processor 810 , a memory 830 , a user interface input device 840 , a user interface output device 850 , and storage connected through a bus 820 . 860 , and a network interface 870 .

프로세서(810)는 중앙 처리 장치(CPU) 또는 메모리(830) 및/또는 스토리지(860)에 저장된 명령어들에 대한 처리를 실행하는 반도체 장치일 수 있다. 메모리(830) 및 스토리지(860)는 다양한 종류의 휘발성 또는 비휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리(830)는 ROM(Read Only Memory)(831) 및 RAM(Random Access Memory)(832)을 포함할 수 있다. 본 발명에 따른 Vector Quantization 정보를 이용한 음성신호의 폭력 구간 탐지 방법은 이를 구현하기 위한 명령어들의 프로그램이 유형적으로 구현됨으로써, 컴퓨팅 시스템(800)을 통해 판독될 수 있는 저장 매체에 포함되어 제공될 수도 있음은 통상의 기술자가 쉽게 이해할 수 있다.The processor 810 may be a central processing unit (CPU) or a semiconductor device that processes instructions stored in the memory 830 and/or the storage 860 . The memory 830 and the storage 860 may include various types of volatile or non-volatile storage media. For example, the memory 830 may include a read only memory (ROM) 831 and a random access memory (RAM) 832 . The method for detecting a violent section of a voice signal using vector quantization information according to the present invention may be provided by being included in a storage medium that can be read through the computing system 800 by tangibly implementing a program of instructions for implementing it. can be easily understood by those skilled in the art.

따라서, 본 명세서에 개시된 실시 예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서(810)에 의해 실행되는 하드웨어, 소프트웨어 모듈, 또는 그 2 개의 결합으로 직접 구현될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM과 같은 저장 매체(즉, 메모리(830) 및/또는 스토리지(860))에 상주할 수도 있다. 예시적인 저장 매체는 프로세서(810)에 커플링되며, 그 프로세서(810)는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서(810)와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로(ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.Accordingly, the steps of the method or algorithm described in relation to the embodiments disclosed herein may be directly implemented in hardware, software module, or a combination of the two executed by the processor 810 . A software module resides in a storage medium (ie, memory 830 and/or storage 860) such as RAM memory, flash memory, ROM memory, EPROM memory, EEPROM memory, registers, hard disk, a removable disk, a CD-ROM. You may. An exemplary storage medium is coupled to the processor 810 , the processor 810 capable of reading information from, and writing information to, the storage medium. Alternatively, the storage medium may be integral with the processor 810 . The processor and storage medium may reside within an application specific integrated circuit (ASIC). The ASIC may reside within the user terminal. Alternatively, the processor and storage medium may reside as separate components within the user terminal.

이상에서, 본 발명의 실시 예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성 요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 그 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 본 발명의 기술 분야의 당업자에 의해 용이하게 추론될 수 있을 것이다. 이러한 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 저장매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다.In the above, even though all the components constituting the embodiment of the present invention are described as being combined or operated in combination, the present invention is not necessarily limited to this embodiment. That is, within the scope of the object of the present invention, all the components may operate by selectively combining one or more. In addition, although all of the components may be implemented as one independent hardware, some or all of the components are selectively combined to perform some or all functions of the combined components in one or a plurality of hardware program modules It may be implemented as a computer program having Codes and code segments constituting the computer program can be easily deduced by those skilled in the art of the present invention. Such a computer program is stored in a computer readable storage medium (Computer Readable Media), read and executed by the computer, thereby implementing the embodiment of the present invention.

한편, 이상으로 본 발명의 기술적 사상을 예시하기 위한 바람직한 실시 예와 관련하여 설명하고 도시하였지만, 본 발명은 이와 같이 도시되고 설명된 그대로의 구성 및 작용에만 국한되는 것이 아니며, 기술적 사상의 범주를 일탈함이 없이 본 발명에 대해 다수의 변경 및 수정 가능함을 당업자들은 잘 이해할 수 있을 것이다. 따라서, 그러한 모든 적절한 변경 및 수정과 균등물들도 본 발명의 범위에 속하는 것으로 간주하여야 할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.On the other hand, although described and illustrated in relation to a preferred embodiment for illustrating the technical idea of the present invention as described above, the present invention is not limited to the configuration and operation as shown and described as such, and deviates from the scope of the technical idea. It will be apparent to those skilled in the art that many changes and modifications to the present invention are possible without the above. Accordingly, all such suitable alterations and modifications and equivalents are to be considered as falling within the scope of the present invention. Accordingly, the true technical protection scope of the present invention should be determined by the technical spirit of the appended claims.

100: 음성신호의 폭력 구간 탐지 장치
110: 구간 생성부
120: VQ-Wav2Vec 처리부
130: 폭력 판별부
132: 학습부
134: 누적 판별부
100: Violence section detection device of voice signal
110: section generator
120: VQ-Wav2Vec processing unit
130: violence discrimination unit
132: study unit
134: cumulative discrimination unit

Claims (8)

폭력 언어를 판별하기 위한 m초의 음성신호를 시간 단위로 분할하여 다수의 구간들을 생성하는 한 세트 동작을 순차적으로 n(n은 2 이상의 양수)회 수행하는 구간 생성부;
상기 생성된 구간 별 음성신호를 VQ-Wav2Vec(Vector Quantization Wave to Vector) 모델에 입력하여 구간 별 Vector Quantization(벡터 양자화) 정보를 출력하는 한 세트 동작을 순차적으로 n회 수행하는 VQ-Wav2Vec 처리부; 및
상기 VQ-Wav2Vec 처리부로부터 입력되는 n 세트의 구간 별 Vector Quantization 정보를 딥러닝 모델을 통해 인공지능 학습하여 상기 구간 별로 폭력 언어 여부에 대한 판별 정보를 출력하는 폭력 판별부;를 포함하고,
상기 폭력 판별부는,
상기 VQ-Wav2Vec 처리부로부터 입력되는 구간 별 Vector Quantization 정보를 인공지능 학습하여 구간 별로 폭력 언어 여부에 대한 임시 판별 정보를 n 세트 출력하며, 상기 임시 판별 정보는 폭력 언어에 해당하는 구간이면 1이고 비폭력 언어에 해당하는 구간이면 0인 학습부; 및
상기 학습부에서 n 세트의 구간 별 임시 판별 정보가 입력되면, 상기 n 세트의 구간 별 임시 판별 정보를 시간축을 기준으로 배열하고, 시간축을 기준으로 배열된 n 세트의 구간 별 임시 판별 정보를 동일한 시간대 별로 누적하며, 동일한 시간대 별로 누적된 결과와 기설정된 판별 기준값을 비교하여, 상기 누적된 결과가 판별 기준값 이상이면 폭력 구간에 해당하고, 미만이면 비폭력 구간에 해당하는 것으로 판별하는 누적 판별부;를 포함하며,
상기 구간 생성부가 상기 음성신호를 시간 단위로 분할하는 한 세트 동작을 n회 수행할 때마다 적용되는 시간 단위는 서로 다르고, 상기 한 세트 동작에서 적용되는 시간 단위는 균등 및 비균등 중 하나로 변경가능한 것을 특징으로 하는 Vector Quantization 정보를 이용한 음성신호의 폭력 구간 탐지 장치.
a section generating unit that sequentially performs a set operation of generating a plurality of sections by dividing an m-second voice signal for determining violent language into time units n (n is a positive number of 2 or more) times;
a VQ-Wav2Vec processing unit that sequentially performs a set operation n times for inputting the generated speech signal for each section into a VQ-Wav2Vec (Vector Quantization Wave to Vector) model and outputting vector quantization (vector quantization) information for each section; and
Including; a violence determination unit that artificially learns n sets of vector quantization information for each section input from the VQ-Wav2Vec processing unit through a deep learning model and outputs discrimination information on whether or not violent language is present for each section;
The violence determination unit,
AI-learning the Vector Quantization information for each section input from the VQ-Wav2Vec processing unit outputs n sets of temporary identification information on whether or not violent language is used for each section, and the temporary identification information is 1 if the section corresponds to violent language and non-violent language a learning unit that is 0 if the section corresponds to ; and
When n sets of provisional determination information for each section are input in the learning unit, the n sets of provisional determination information for each section are arranged based on the time axis, and n sets of provisional determination information for each section arranged based on the time axis are displayed in the same time zone. A cumulative determination unit that accumulates for each time period and compares the results accumulated for each time period with a preset determination reference value, and determines that the accumulated result corresponds to a violent section if it is greater than or equal to the determination standard value, and is determined to correspond to a non-violent section if it is less than; and
The time unit applied every time the section generator performs one set operation of dividing the voice signal into time units n times is different, and the time unit applied in the one set operation is changeable to either equal or non-uniform. A device for detecting the violence section of a voice signal using vector quantization information.
삭제delete 삭제delete 삭제delete (A) 전자장치가, 폭력 언어를 판별하기 위한 m초의 음성신호를 시간 단위로 분할하여 다수의 구간들을 생성하는 한 세트 동작을 순차적으로 n(n은 2 이상의 양수)회 수행하는 단계;
(B) 상기 전자장치가, 상기 (A) 단계에서 생성된 구간 별 음성신호를 VQ-Wav2Vec(Vector Quantization Wave to Vector) 모델에 입력하여 구간 별 Vector Quantization(벡터 양자화) 정보를 출력하는 한 세트 동작을 순차적으로 n회 수행하는 단계; 및
(C) 상기 전자장치가, 상기 (B) 단계로부터 입력되는 n 세트의 구간 별 Vector Quantization 정보를 딥러닝 모델을 통해 인공지능 학습하여 상기 구간 별로 폭력 언어 여부에 대한 판별 정보를 출력하는 단계;를 포함하고,
상기 (C) 단계는,
(C1) 상기 (B) 단계로부터 입력되는 구간 별 Vector Quantization 정보를 인공지능 학습하여 구간 별로 폭력 언어 여부에 대한 임시 판별 정보를 n 세트 출력하며, 상기 임시 판별 정보는 폭력 언어에 해당하는 구간이면 1을, 비폭력 언어에 해당하는 구간이면 0을 포함하는 단계; 및
(C2) 상기 (C1) 단계로부터 입력되는 n 세트의 구간 별 임시 판별 정보를 시간 축이 일치하도록 배열하는 단계; 및
(C3) 상기 (C2) 단계에서 시간 축이 일치하도록 배열된 n 세트의 구간 별 임시 판별 정보를 동일한 시간마다 누적하고, 동일한 시간마다 누적된 결과와 기설정된 판별 기준값을 비교하여, 상기 누적된 결과가 판별 기준값 이상이면 폭력 구간에 해당하고, 미만이면 비폭력 구간에 해당하는 것으로 판별하는 단계;를 포함하며,
상기 (A) 단계는,
상기 음성신호를 시간 단위로 분할하는 한 세트 동작을 n회 수행할 때마다 적용되는 시간 단위를 서로 다르게 설정하고, 상기 한 세트 동작에서 적용되는 시간 단위는 균등 및 비균등 중 하나로 변경가능한 것을 특징으로 하는 Vector Quantization 정보를 이용한 음성신호의 폭력 구간 탐지 방법.
(A) sequentially performing, by the electronic device, n (n is a positive number equal to or greater than 2) times of one set operation of generating a plurality of sections by dividing an m-second speech signal for determining violent language;
(B) One set operation in which the electronic device inputs the speech signal for each section generated in step (A) into the VQ-Wav2Vec (Vector Quantization Wave to Vector) model and outputs Vector Quantization information for each section sequentially performing n times; and
(C) the electronic device, through the deep learning model, artificial intelligence learning the n sets of vector quantization information for each section input from the step (B) and outputting discrimination information on whether or not violent language is provided for each section; including,
The step (C) is,
(C1) AI learns Vector Quantization information for each section input from step (B) and outputs n sets of temporary determination information on whether or not violent language is used for each section, and the provisional determination information is 1 if the section corresponds to violent language , including 0 if the section corresponding to non-violent language; and
(C2) arranging the n sets of temporary determination information for each section input from the step (C1) so that the time axis coincides with each other; and
(C3) accumulating n sets of temporary discrimination information for each section arranged so that the time axis coincides with each other in step (C2) at the same time, comparing the accumulated result at the same time with a preset discrimination reference value, and comparing the accumulated result Determining that corresponds to a violent section if is greater than or equal to the determination standard value, and is less than or equal to a non-violent section;
The step (A) is,
A time unit applied every time one set operation of dividing the voice signal into time units is performed n times, and the time unit applied in the one set operation is changeable to either equal or non-uniform. A method of detecting the violence section of a voice signal using vector quantization information.
삭제delete 삭제delete 삭제delete
KR1020200142889A 2020-10-30 2020-10-30 Violent section detection apparatus and method for voice signals using vector quantization information KR102292479B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200142889A KR102292479B1 (en) 2020-10-30 2020-10-30 Violent section detection apparatus and method for voice signals using vector quantization information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200142889A KR102292479B1 (en) 2020-10-30 2020-10-30 Violent section detection apparatus and method for voice signals using vector quantization information

Publications (1)

Publication Number Publication Date
KR102292479B1 true KR102292479B1 (en) 2021-08-24

Family

ID=77506740

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200142889A KR102292479B1 (en) 2020-10-30 2020-10-30 Violent section detection apparatus and method for voice signals using vector quantization information

Country Status (1)

Country Link
KR (1) KR102292479B1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19980058355A (en) * 1996-12-30 1998-09-25 구자홍 Speech recognition method using double similarity comparison
KR101779361B1 (en) 2016-11-30 2017-09-18 동서대학교산학협력단 pronunciation learning method using application based speech recognition
KR20190106902A (en) * 2019-08-29 2019-09-18 엘지전자 주식회사 Method and apparatus for sound analysis

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19980058355A (en) * 1996-12-30 1998-09-25 구자홍 Speech recognition method using double similarity comparison
KR101779361B1 (en) 2016-11-30 2017-09-18 동서대학교산학협력단 pronunciation learning method using application based speech recognition
KR20190106902A (en) * 2019-08-29 2019-09-18 엘지전자 주식회사 Method and apparatus for sound analysis

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Florian B. Pokorny, et al. Detection of negative emotions in speech signals using bags-of-audio-words. IEEE International Conference on Affective Computing and Intelligent Interaction (ACII). 2015.09.* *
M.S Salam, et al. Speech segmentation using divergence algorithm with Zero Crossing property. IEEE 13th International Conference on Computer and Information Technology (ICCIT). 2010.12.23.* *
Sercan Sarman, et al. Audio based violent scene classification using ensemble learning. IEEE 6th International Symposium on Digital Forensic and Security (ISDFS). 2018.03.22.* *

Similar Documents

Publication Publication Date Title
KR102601848B1 (en) Device and method of data recognition model construction, and data recognition devicce
Mannepalli et al. A novel adaptive fractional deep belief networks for speaker emotion recognition
EP3955246A1 (en) Voiceprint recognition method and device based on memory bottleneck feature
KR102198273B1 (en) Machine learning based voice data analysis method, device and program
US10832685B2 (en) Speech processing device, speech processing method, and computer program product
US20180190284A1 (en) Processing speech signals in voice-based profiling
Howell et al. Development of a two-stage procedure for the automatic recognition of dysfluencies in the speech of children who stutter: II. ANN recognition of repetitions and prolongations with supplied word segment markers
CN111798840B (en) Voice keyword recognition method and device
JP2022545342A (en) Sequence model for audio scene recognition
CN111724770B (en) Audio keyword identification method for generating confrontation network based on deep convolution
CN113420556B (en) Emotion recognition method, device, equipment and storage medium based on multi-mode signals
Gupta et al. Speech emotion recognition using svm with thresholding fusion
Muthumari et al. A novel model for emotion detection with multilayer perceptron neural network
Birla A robust unsupervised pattern discovery and clustering of speech signals
Sarkar et al. Raga identification from Hindustani classical music signal using compositional properties
KR102292479B1 (en) Violent section detection apparatus and method for voice signals using vector quantization information
Alex et al. Variational autoencoder for prosody‐based speaker recognition
KR101564176B1 (en) An emotion recognition system and a method for controlling thereof
US11437043B1 (en) Presence data determination and utilization
Segarceanu et al. Environmental acoustics modelling techniques for forest monitoring
Karlos et al. Speech recognition combining MFCCs and image features
Shi et al. Contextual joint factor acoustic embeddings
Jolly et al. Machine Learning based Speech Emotion Recognition in Hindi Audio
Wazir et al. Deep learning-based detection of inappropriate speech content for film censorship
Tsai et al. Bird Species Identification Based on Timbre and Pitch Features of Their Vocalization.

Legal Events

Date Code Title Description
AMND Amendment
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant