KR102613014B1 - Method for Automatic Severity Classification of Dysarthria - Google Patents

Method for Automatic Severity Classification of Dysarthria Download PDF

Info

Publication number
KR102613014B1
KR102613014B1 KR1020210106629A KR20210106629A KR102613014B1 KR 102613014 B1 KR102613014 B1 KR 102613014B1 KR 1020210106629 A KR1020210106629 A KR 1020210106629A KR 20210106629 A KR20210106629 A KR 20210106629A KR 102613014 B1 KR102613014 B1 KR 102613014B1
Authority
KR
South Korea
Prior art keywords
speech
features
severity
voice
vowel
Prior art date
Application number
KR1020210106629A
Other languages
Korean (ko)
Other versions
KR20230024630A (en
Inventor
정민화
여은정
김선희
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Priority to KR1020210106629A priority Critical patent/KR102613014B1/en
Priority to PCT/KR2022/008069 priority patent/WO2023017983A1/en
Publication of KR20230024630A publication Critical patent/KR20230024630A/en
Application granted granted Critical
Publication of KR102613014B1 publication Critical patent/KR102613014B1/en

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/40Detecting, measuring or recording for evaluating the nervous system
    • A61B5/4076Diagnosing or monitoring particular conditions of the nervous system
    • A61B5/4082Diagnosing or monitoring movement diseases, e.g. Parkinson, Huntington or Tourette
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Epidemiology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Primary Health Care (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Surgery (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Veterinary Medicine (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Neurology (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Physiology (AREA)
  • Neurosurgery (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Psychiatry (AREA)
  • Developmental Disabilities (AREA)
  • Fuzzy Systems (AREA)

Abstract

본 발명은 '추출된 음성 특징'을 바탕으로 객관적이고 일관적인 분류결과를 제공하는 마비말장애 중증도 자동분류방법에 관한 것으로, 본 발명은 마비말장애 중증도 자동분류를 위해 임상현장에서 사용되는 멜 주파수 켑스트럼 계수와 세가지 말 기능 특징인 음질, 운율 및 발음 특징의 조합을 기계학습에 적용하여 장애특성을 다면적으로 포착함으로써, 청지각적 기준인 말 명료도를 객관적으로 반영하고, 결과에 대한 직관적 해석을 제공할 수 있다. The present invention relates to an automatic classification method for the severity of paralytic speech disorder that provides objective and consistent classification results based on 'extracted speech features'. The present invention relates to the Mel frequency used in clinical settings for automatic classification of the severity of paralyzed speech disorder. By applying the combination of cepstrum coefficient and the three speech function characteristics of sound quality, prosody, and pronunciation characteristics to machine learning to capture disability characteristics in a multifaceted manner, it objectively reflects speech intelligibility, which is an auditory-perceptual standard, and provides an intuitive interpretation of the results. can be provided.

Description

마비말장애 중증도 자동분류 방법{Method for Automatic Severity Classification of Dysarthria}{Method for Automatic Severity Classification of Dysarthria}

본 발명은 마비말장애 중증도 자동분류방법에 관한 것으로, 특히 상세하게는 추출된 음성 특징 중 적합특징을 선택하여 기계학습 분류기를 통해 객관적이고 일관적인 분류결과를 제공하는 마비말장애 중증도 자동분류방법에 관한 것이다.The present invention relates to an automatic classification method for the severity of paralyzed speech disorder, and in particular, to an automatic classification method for the severity of paralyzed speech disorder that selects appropriate features from extracted speech features and provides objective and consistent classification results through a machine learning classifier. It's about.

마비말장애란 중추 신경계 및 자율 신경계의 손상으로 말소리 산출과 관련된 근육의 마비 및 약화로 나타나는 말운동장애를 일컫는 용어이다. 구체적으로, 선천적 뇌손상(뇌성마비), 후천적 뇌손상(뇌졸중), 그리고 노화에 따른 퇴행성 신경질환(파킨슨병, 루게릭병) 등 굉장히 넓은 범위에서 나타난다.Paralytic speech disorder is a term that refers to a speech motor disorder caused by paralysis and weakness of muscles related to speech production due to damage to the central nervous system and autonomic nervous system. Specifically, it occurs in a very wide range, including congenital brain damage (cerebral palsy), acquired brain damage (stroke), and degenerative neurological diseases due to aging (Parkinson's disease, Lou Gehrig's disease).

언어재활사는 마비말장애 중증도 분류를 통해 화자가 의사소통 상황에서 어느 정도로 어려움을 겪고 있는지 확인하고, 화자의 상황에 알맞은 중재 방안을 계획한다. 즉, 마비말장애 중증도 평가는 언어치료의 시작이자 이정표라고 볼 수 있다. 마비말장애 진단 및 치료 시 주로 사용되는 지표는 구체적으로 말 명료도(speech intelligibility)로, 언어재활사는 말 명료도 평가를 통해 화자의 마비말장애 중증도를 판단하고, 그에 따라 알맞은 중재 방안을 모색한다. A speech rehabilitator determines the extent to which a speaker is having difficulties in communication situations by categorizing the severity of paralytic speech disorder and plans an intervention plan appropriate for the speaker's situation. In other words, assessing the severity of paralytic speech disorder can be seen as the beginning and milestone of speech therapy. The indicator mainly used in the diagnosis and treatment of paralytic speech disorder is specifically speech intelligibility. Speech intelligibility is assessed by speech rehabilitation specialists to determine the severity of a speaker's paralytic speech disorder and seek appropriate intervention measures accordingly.

일반적으로 임상에서 주로 사용되는 언어재활사의 말 명료도 평가에 따른마비말장애 중증도 평가는 청지각적 평가로, 주관적일 뿐만 아니라 많은 시간과 노력이 소요된다. 따라서 숙련된 언어재활사의 말 명료도 평가와 유사한 수준을 보이는 마비말장애 중증도 자동 분류기술에 대한 요청이 있다. 언어재활사의 보조도구로 사용될 수 있는 이 기술에 대한 구체적인 요구사항은 분류의 수준과 함께 객관적이고 일관적인 결과를 제공할 수 있는 것이다. In general, the severity assessment of paralyzed speech disorder based on speech intelligibility assessment by speech rehabilitation practitioners, which is mainly used in clinical practice, is an auditory-perceptual assessment that is not only subjective but also takes a lot of time and effort. Therefore, there is a request for an automatic classification technology for the severity of paralytic speech disorder that is similar to the speech intelligibility evaluation of an experienced speech rehabilitation worker. The specific requirement for this technology, which can be used as an assistive tool for speech rehabilitation practitioners, is to be able to provide objective and consistent results with a level of classification.

최근에는 심층 신경망(Deep Neural Network, DNN) 구조를 갖는 딥러닝 방법론을 적용하여 MFCCs(Mel Frequency Cepstral Coefficients), log filter bank와 같은 기본적인 음성 특징을 심층 신경망의 입력값으로 사용하는 기술이 개시(Bhat, C., & Strik, H. (2020). Automatic Assessment of Sentence-Level Dysarthria Intelligibility Using BLSTM. IEEE Journal of Selected Topics in Signal Processing, 14(2), 322-330.)된 바 있다. 그러나 상기 방법론은 데이터 준비 과정이 간단하다는 장점이 있지만, 각 집단별로 대량의 데이터가 필요할 뿐만 아니라 분류결과에 대한 해석이 직관적이지 않아 해석을 위한 후처리 과정이 필요하다는 문제점이 있다. Recently, a technology that uses basic speech features such as MFCCs (Mel Frequency Cepstral Coefficients) and log filter banks as inputs to a deep neural network by applying deep learning methodology with a deep neural network (DNN) structure has been launched (Bhat). , C., & Strik, H. (2020). Automatic Assessment of Sentence-Level Dysarthria Intelligence Using BLSTM. IEEE Journal of Selected Topics in Signal Processing, 14(2), 322-330.). However, although the above methodology has the advantage of a simple data preparation process, it has the problem of not only requiring a large amount of data for each group, but also requiring a post-processing process for interpretation because the interpretation of the classification results is not intuitive.

Bhat, C., & Strik, H. (2020). Automatic Assessment of Sentence-Level Dysarthria Intelligibility Using BLSTM. IEEE Journal of Selected Topics in Signal Processing, 14(2), 322-330.Bhat, C., & Strik, H. (2020). Automatic Assessment of Sentence-Level Dysarthria Intelligence Using BLSTM. IEEE Journal of Selected Topics in Signal Processing, 14(2), 322-330.

본 발명은 추출된 음성특징을 바탕으로 숙련된 언어재활사의 말 명료도 평가와 유사한 수준의 분류결과를 산출하며, 해석을 위한 별도의 후처리 과정이 불필요한 마비말장애 중증도 자동분류방법을 제공하고자 한다.The present invention aims to provide an automatic classification method for the severity of paralyzed speech disorder, which produces classification results at a level similar to the speech intelligibility evaluation of an experienced speech rehabilitator based on extracted speech features and does not require a separate post-processing process for interpretation.

본 발명은 프로세서 및 메모리를 포함하는 자동분류기를 이용한 마비말장애 중증도 자동분류 방법으로, 상기 방법은: 프로세서 및 메모리를 포함하는 자동분류기에 의해, 마비말장애 데이터베이스 말뭉치에서 복수개의 발화 문장(speech stimuli)을 선택하는 단계; 프로세서 및 메모리를 포함하는 자동분류기에 의해, 화자가 상기 복수개의 발화 문장을 발화한 음성 파일을 획득하는 단계; 프로세서 및 메모리를 포함하는 자동분류기에 의해, 분석 툴킷을 이용하여 상기 획득된 음성 파일로부터, 음성인식용 멜 주파수 켑스트럼 계수(MFCCs), 각각 복수개의 음질 특징, 운율 특징 및 발음 특징을 추출하는 단계; 프로세서 및 메모리를 포함하는 자동분류기에 의해, 상기 추출된 각각 복수개의 음질 특징, 운율 특징 및 발음 특징으로부터 적합특징을 선택하는 단계; 및 프로세서 및 메모리를 포함하는 자동분류기에 의해, 상기 멜 주파수 켑스트럼 계수, 상기 음질 특징, 운율 특징 및 발음 특징으로부터 선택된 적합특징을 훈련된 기계학습 분류기에 입력하는 단계를 포함하고, 상기 음질 특징에서 선택된 적합특징은 '음성 끊김(voice breaks) 정도'이고, 상기 운율 특징에서 선택된 적합특징은 발화 속도인 '전체 길이' 및 '말 길이'이며, 상기 발음 특징에서 선택된 적합특징은 음소 정확도인 자음정확도(Percentage of Correct Consonants: PCC), 모음정확도(Percentage of Correct Vowels: PCV), 전체 음소 정확도(Percentage of Correct Total phonemes: PCT) 및 모음 왜곡도인 모음 공간 면적(Vowel Space Area: VSA), 모음 조음 지수(Vowel Articulatory Index: VAI), 포먼트 중앙화 비율(Formant Centralized Ratio: FCR), 제 2포먼트 기울기(F2-Ratio)이며, 상기 기계학습 분류기는 입력된 특징을 바탕으로 음성을 복수개의 중증도 등급으로 분류하는 서포트 백터 머신(SVM: Support Vector Machine)인, 마비말장애 중증도 자동분류 방법을 제공한다. The present invention is a method of automatically classifying the severity of paralytic speech disorder using an automatic classifier including a processor and memory, the method comprising: selecting a plurality of speech sentences (speech stimuli) from the paralytic speech disorder database corpus by using an automatic classifier including a processor and memory. ), selecting; Obtaining a voice file in which a speaker utters the plurality of speech sentences using an automatic classifier including a processor and memory; Mel Frequency Cepstrum Coefficients (MFCCs) for speech recognition, each of which extracts a plurality of sound quality features, prosody features, and pronunciation features, from the acquired voice file using an analysis toolkit by an automatic classifier including a processor and memory. step; selecting suitable features from the plurality of extracted sound quality features, prosody features, and pronunciation features by an automatic classifier including a processor and memory; And inputting suitable features selected from the mel frequency cepstrum coefficients, the sound quality features, the prosody features, and the pronunciation features into a trained machine learning classifier, by an automatic classifier including a processor and memory, and the sound quality features. The adaptive feature selected from the prosody feature is 'degree of voice breaks', the adaptive feature selected from the prosody feature is 'total length' and 'speech length', which are the speech rate, and the adaptive feature selected from the pronunciation feature is the consonant accuracy, which is phoneme accuracy. Percentage of Correct Consonants (PCC), Percentage of Correct Vowels (PCV), Percentage of Correct Total phonemes (PCT), and Vowel Space Area (VSA), which is the degree of vowel distortion, and vowel distortion. Vowel Articulatory Index (VAI), Formant Centralized Ratio (FCR), and second formant slope (F2-Ratio), and the machine learning classifier classifies speech into a plurality of severity levels based on the input features. It provides an automatic classification method for paralyzed speech disorder severity, which is a support vector machine (SVM) that classifies into grades.

본 발명은 또한, 상기 중증도 등급은 비장애, 경도, 경도-중등도, 중등도-중도, 중도의 5개 등급인, 마비말장애 중증도 자동분류 방법을 제공한다.The present invention also provides a method for automatically classifying the severity of paralytic speech disorder, wherein the severity levels are five levels: non-disability, mild, mild-moderate, moderate-severe, and severe.

본 발명은 또한, 상기 훈련된 기계학습 분류기는, 적어도 10명의 비장애인 화자 및 적어도 70명의 마비말장애 화자의 음성파일로부터 추출한 멜 주파수 켑스트럼 계수, 음성 끊김(voice breaks) 정도, 전체 길이, 말 길이, 자음정확도, 모음정확도, 전체 음소 정확도, 모음 공간 면적, 모음 조음 지수, 포먼트 중앙화 비율, 및 제 2포먼트 기울기를 상기 서포트 백터 머신에 입력하여, 음성을 복수개의 중증도 등급으로 분류한 데이터를 구비한, 마비말장애 중증도 자동분류 방법을 제공한다.The present invention also provides that the trained machine learning classifier, Mel frequency cepstrum coefficient, degree of voice breaks, total length, extracted from voice files of at least 10 non-disabled speakers and at least 70 paralytic speech impaired speakers Speech length, consonant accuracy, vowel accuracy, total phoneme accuracy, vowel space area, vowel articulation index, formant centralization ratio, and second formant slope are input into the support vector machine, and the voice is classified into a plurality of severity levels. Provides a method for automatically classifying the severity of paralytic speech disorder using data.

본 발명은 또한, 상기 음성을 복수개의 중증도 등급으로 분류한 데이터는, 반복측정 분산분석(two-way mixed ANOVA)을 통해 교차검증하고, 상기 반복측정 분산분석은 SPSS통계분석 프로그램인, 마비말장애 중증도 자동분류 방법을 제공한다.In addition, the present invention cross-validates the data classifying the voice into a plurality of severity levels through repeated measures analysis of variance (two-way mixed ANOVA), and the repeated measures analysis of variance is performed using the SPSS statistical analysis program, paralytic speech disorder. Provides an automatic severity classification method.

본 발명은 또한, 상기 말뭉치는, 한국어 마비말장애 데이터베이스인 QoLT인, 마비말장애 중증도 자동분류 방법을 제공한다.The present invention also provides a method for automatically classifying the severity of paralytic speech disorder, where the corpus is QoLT, a Korean paralytic speech disorder database.

본 발명은 또한, 상기 발화 문장은, “추석에는 온 가족이 함께 송편을 만든다.”, “갑자기 미국에 있는 오빠 얼굴이 보고 싶다.”, “어제 하늘이 컴컴해지더니 비가 쏟아졌다.” 및 “동생이랑 싸워서 엄마한테 혼났다.”인, 마비말장애 중증도 자동분류 방법을 제공한다.The present invention also provides the above-mentioned utterance sentences: “On Chuseok, the whole family makes songpyeon together,” “I suddenly want to see my brother’s face in the United States,” and “Yesterday, the sky turned dark and rain poured down.” and “I got scolded by my mother because I fought with my younger brother.” We provide an automatic classification method for the severity of paralyzed speech disorder.

본 발명은 또한, 마비말장애 중증도를 자동분류하는 컴퓨터 프로그램을 저장하는 컴퓨터 판독가능 저장매체로, 상기 저장매체는: 마비말장애 데이터베이스 말뭉치에서 복수개의 발화 문장(speech stimuli)을 선택 하도록 프로그램된 코드 부분; 화자가 상기 복수개의 발화 문장을 발화한 음성 파일을 획득하도록 프로그램된 코드 부분; 분석툴킷을 이용하여 상기 획득된 음성 파일로부터 음성인식용 멜 주파수 켑스트럼 계수(MFCCs), 각각 복수개의 음질 특징, 운율 특징 및 발음 특징을 추출 하도록 프로그램된 코드 부분; 상기 추출된 각각 복수개의 음질 특징, 운율 특징 및 발음 특징으로부터 적합특징을 선택 하도록 프로그램된 코드 부분; 및 상기 멜 주파수 켑스트럼 계수, 상기 음질 특징, 운율 특징 및 발음 특징으로부터 선택된 적합특징을 훈련된 기계학습 분류기에 입력 하도록 프로그램된 코드 부분을 포함하고, 상기 음질 특징에서 선택된 적합특징은 '음성 끊김(voice breaks) 정도'이고, 상기 운율 특징에서 선택된 적합특징은 발화 속도인 '전체 길이' 및 '말 길이'이며, 상기 발음 특징에서 선택된 적합특징은 음소 정확도인 자음정확도(Percentage of Correct Consonants: PCC), 모음정확도(Percentage of Correct Vowels: PCV), 전체 음소 정확도(Percentage of Correct Total phonemes: PCT) 및 모음 왜곡도인 모음 공간 면적(Vowel Space Area: VSA), 모음 조음 지수(Vowel Articulatory Index: VAI), 포먼트 중앙화 비율(Formant Centralized Ratio: FCR), 제 2포먼트 기울기(F2-Ratio)이며, 상기 기계학습 분류기는 입력된 특징을 바탕으로 음성을 복수개의 중증도 등급으로 분류하는 서포트 백터 머신(SVM: Support Vector Machine)인, 컴퓨터 판독가능 저장매체를 제공한다.The present invention also provides a computer-readable storage medium storing a computer program for automatically classifying the severity of paralytic speech disorder, the storage medium comprising: code programmed to select a plurality of speech sentences (speech stimuli) from a corpus of paralytic speech disorder database. part time job; A code portion programmed to obtain a voice file in which a speaker utters the plurality of speech sentences; A code portion programmed to extract Mel Frequency Cepstrum Coefficients (MFCCs) for voice recognition, a plurality of sound quality features, prosody features, and pronunciation features from the acquired voice file using an analysis toolkit; a code portion programmed to select appropriate features from the plurality of extracted sound quality features, prosody features, and pronunciation features; and a code portion programmed to input fitting features selected from the mel frequency cepstrum coefficients, sound quality features, prosody features, and pronunciation features into a trained machine learning classifier, wherein the fit features selected from the sound quality features are 'speech breaks'. (voice breaks) degree', and the appropriate features selected from the prosody features are the speech rate, 'total length' and 'speech length', and the appropriate features selected from the pronunciation features are the phoneme accuracy, Percentage of Correct Consonants (PCC). ), Percentage of Correct Vowels (PCV), Percentage of Correct Total phonemes (PCT) and Vowel Space Area (VSA), which is the degree of vowel distortion, and Vowel Articulatory Index (VAI) ), Formant Centralized Ratio (FCR), and second formant slope (F2-Ratio), and the machine learning classifier is a support vector machine ( It provides a computer-readable storage medium, which is SVM: Support Vector Machine.

본 발명은 또한, 상기 중증도 등급은 비장애, 경도, 경도-중등도, 중등도-중도, 중도의 5개 등급이고, 상기 훈련된 기계학습 분류기는, 적어도 10명의 비장애인 화자 및 적어도 70명의 마비말장애 화자의 음성파일로부터 추출한 멜 주파수 켑스트럼 계수, 음성 끊김(voice breaks) 정도, 전체 길이, 말 길이, 자음정확도, 모음정확도, 전체 음소 정확도, 모음 공간 면적, 모음 조음 지수, 포먼트 중앙화 비율, 및 제 2포먼트 기울기를 상기 서포트 백터 머신에 입력하여, 음성을 복수개의 중증도 등급으로 분류한 데이터를 구비하며, 상기 음성을 복수개의 중증도 등급으로 분류한 데이터는, 반복측정 분산분석(two-way mixed ANOVA)을 통해 교차검증하고, 상기 반복측정 분산분석은 SPSS통계분석 프로그램인, 컴퓨터 판독가능 저장매체를 제공한다.The present invention also provides that the severity level is five levels: non-disabled, mild, mild-moderate, moderate-moderate, and severe, and the trained machine learning classifier is used on at least 10 non-disabled speakers and at least 70 paralyzed speech-impaired speakers. Mel frequency cepstrum coefficient extracted from the voice file, degree of voice breaks, total length, speech length, consonant accuracy, vowel accuracy, overall phoneme accuracy, vowel space area, vowel articulation index, formant centralization ratio, and The second formant slope is input to the support vector machine to provide data that classifies the voice into a plurality of severity levels, and the data that classifies the voice into a plurality of severity levels is subjected to repeated measures analysis of variance (two-way mixed analysis). Cross-validation is performed through ANOVA), and the repeated measures analysis of variance is provided in a computer-readable storage medium, which is the SPSS statistical analysis program.

본 발명은 또한, 상기 말뭉치는, 한국어 마비말장애 데이터베이스인 QoLT이고, 상기 발화 문장은, “추석에는 온 가족이 함께 송편을 만든다.”, “갑자기 미국에 있는 오빠 얼굴이 보고 싶다.”, “어제 하늘이 컴컴해지더니 비가 쏟아졌다.” 및 “동생이랑 싸워서 엄마한테 혼났다.”인, 컴퓨터 판독가능 저장매체를 제공한다.In the present invention, the corpus is QoLT, a Korean language paralysis database, and the utterance sentences are, “On Chuseok, the whole family makes songpyeon together.”, “I suddenly want to see my brother’s face in the United States.”, “ “Yesterday the sky turned dark and rain poured down.” and “I got scolded by my mom because I had a fight with my younger brother.” provides a computer-readable storage medium.

본 발명은 마비말장애 중증도 자동분류를 위해 임상현장에서 사용되는 멜 주파수 켑스트럼 계수와 세가지 말 기능 특징인 음질, 운율 및 발음 특징의 조합을 기계학습에 적용하여 장애특성을 다면적으로 포착함으로써, 청지각적 기준인 말 명료도를 객관적으로 반영하고, 결과에 대한 직관적 해석을 제공할 수 있다. The present invention applies a combination of the Mel frequency cepstrum coefficient used in clinical practice and the three speech function features, voice quality, prosody, and pronunciation features, to automatic classification of the severity of paralytic speech disorder, to machine learning to capture the disability characteristics in a multifaceted manner, It can objectively reflect speech intelligibility, which is an auditory perceptual standard, and provide an intuitive interpretation of the results.

도 1은 본 발명의 일 실시예에 따른, 음성으로부터 특징을 추출하고 추출된 특징 중 선택된 특징을 기계학습 분류기에 입력해 마비말장애 중증도를 자동분류하는 방법에 대한 개념도이다.
도 2는 본 발명의 일 실시예에 따른, 서포트 백터 머신에서 구분하고자 하는 두 집단의 마진을 최대화하는 결정 경계를 찾는 모델의 개념도이다.
Figure 1 is a conceptual diagram of a method for automatically classifying the severity of paralytic speech disorder by extracting features from speech and inputting selected features from among the extracted features into a machine learning classifier, according to an embodiment of the present invention.
Figure 2 is a conceptual diagram of a model for finding a decision boundary that maximizes the margin of two groups to be distinguished in a support vector machine, according to an embodiment of the present invention.

다양한 양상이 도면을 참조하여 개시된다. 하기 설명에서는 설명을 목적으로, 하나 이상의 양상의 전반적 이해를 돕기 위해 다수의 구체적인 세부사항이 개시된다. 그러나 이러한 양상은 각각의 구체적인 세부사항 없이도 실행될 수 있다는 점이 인식될 것이다. 이후의 기재 및 첨부된 도면은 하나 이상의 양상에 대한 특정한 예시적인 양상을 상세하게 기술한다. 하지만, 이러한 양상은 예시적인 것이고 다양한 양상의 원리에서 다양한 방법 중 일부가 이용될 수 있으며 기술되는 설명은 그러한 양상 및 그 균등물을 모두 포함하고자 하는 의도이다. Various aspects are disclosed with reference to the drawings. In the following description, for purposes of explanation, numerous specific details are set forth to facilitate a general understanding of one or more aspects. However, it will be appreciated that these aspects can be implemented without the specific details of each. The following description and accompanying drawings set forth in detail certain example aspects of one or more aspects. However, these aspects are illustrative and some of the various methods may be used in accordance with the principles of the various aspects and the written description is intended to encompass all such aspects and their equivalents.

다양한 양상 및 특징이 다수의 장치, 모듈 등을 포함할 수 있는 시스템에 의하여 제시될 것이다. 다양한 시스템이 추가적인 장치, 부품, 구성품 등을 포함할 수 있고 그리고/또는 도면들과 관련하여 논의된 장치, 부품, 구성품 등 모두를 포함할 수 없다는 점 또한 이해되고 인식되어야 한다. Various aspects and features may be presented by a system that may include multiple devices, modules, etc. It should also be understood and appreciated that various systems may include additional devices, parts, components, etc. and/or may not include all of the devices, parts, components, etc. discussed in connection with the drawings.

본 명세서에서 사용되는 "실시예", "예", "양상", "예시" 등은 기술된 임의의 양상 또는 설계가 다른 양상 또는 설계들보다 양호하다거나, 이점이 있는 것으로 해석되지 않아야 한다. 아래에서 사용되는 용어인 '시스템' '서버' 단말기 등은 일반적으로 컴퓨터 관련 실체(computer-related entity)를 의미하며, 예를 들어, 하드웨어, 하드웨어와 소프트웨어의 조합, 소프트웨어를 의미할 수 있다.As used herein, “embodiments,” “examples,” “aspects,” “examples,” etc. should not be construed to mean that any aspect or design described is better or advantageous over other aspects or designs. The terms 'system', 'server', terminal, etc. used below generally refer to computer-related entities and may mean, for example, hardware, a combination of hardware and software, or software.

더불어, 용어 "또는"은 배타적 "또는"이 아니라 내포적 "또는"을 의미하는 것으로 의도된다. 즉, 달리 특정되지 않거나 문맥상 명확하지 않은 경우에, "X는 A 또는 B를 이용한다"는 자연적인 내포적 치환 중 하나를 의미하는 것으로 의도된다. 즉, X가 A를 이용하거나; X가 B를 이용하거나; 또는 X가 A 및 B 모두를 이용하는 경우, "X는 A 또는 B를 이용한다"가 상기 경우 어느 것으로도 적용될 수 있다. 또한, 본 명세서에 사용된 "및/또는"이라는 용어는 열거된 관련 항목 중 하나 이상 항목의 가능한 모든 조합을 지칭하고 포함하는 것으로 이해되어야 한다.Additionally, the term “or” is intended to mean an inclusive “or” and not an exclusive “or.” That is, unless otherwise specified or clear from context, “X utilizes A or B” is intended to mean one of the natural implicit substitutions. That is, either X uses A; X uses B; Or, if X uses both A and B, “X uses A or B” can be applied to either of the above cases. Additionally, the term “and/or” as used herein should be understood to refer to and include all possible combinations of one or more of the related listed items.

또한, "포함한다" 및/또는 "포함하는"이라는 용어는, 해당 특징, 단계, 동작, 모듈, 및/또는 구성요소가 존재함을 의미하지만, 하나 이상의 다른 특징, 단계, 동작, 모듈, 구성요소, 및/또는 이 그룹의 존재 또는 추가를 배제하지 않는 것으로 이해되어야 한다. 더불어, 본 명세서에서 제1 및 제2 등의 용어가 다양한 구성요소를 설명하기 위해 사용될 수 있지만, 이들 구성요소는 이러한 용어에 의해 한정되지 아니한다. 즉, 이러한 용어는 둘 이상의 구성요소 간의 구별을 위해서 사용될 뿐이고, 순서 또는 우선순위를 의미하는 것으로 해석되지 않아야 한다. 또한, 달리 특정되지 않거나 단수 형태를 지시하는 것으로 문맥상 명확하지 않은 경우에, 본 명세서와 청구범위에서 단수는 일반적으로 "하나 또는 그 이상"을 의미하는 것으로 해석되어야 한다. 이하 첨부된 도면을 참조하여 본 발명의 실시예를 설명한다.Additionally, the terms “comprise” and/or “comprising” mean that the feature, step, operation, module, and/or component is present, but one or more other features, steps, operations, modules, or components are present. It should be understood that this does not exclude the presence or addition of elements, and/or groups. In addition, although terms such as first and second may be used in this specification to describe various components, these components are not limited by these terms. That is, these terms are only used to distinguish between two or more components and should not be interpreted to imply order or priority. Additionally, unless otherwise specified or the context is clear to indicate a singular form, the singular terms herein and in the claims should generally be construed to mean “one or more.” Hereinafter, embodiments of the present invention will be described with reference to the attached drawings.

도 1은 본 발명의 일 실시예에 따른, 음성으로부터 특징을 추출하고 추출된 특징 중 선택된 특징을 기계학습 분류기에 입력해 마비말장애 중증도를 자동분류하는 방법에 대한 개념도이다. 본 발명은 프로세서 및 메모리를 포함하는 자동분류기를 이용한 마비말장애 중증도 자동분류 방법으로, 상기 방법은: 프로세서 및 메모리를 포함하는 자동분류기에 의해, 마비말장애 데이터베이스 말뭉치에서 복수개의 발화 문장(speech stimuli)을 선택하는 단계; 프로세서 및 메모리를 포함하는 자동분류기에 의해, 화자가 상기 복수개의 발화 문장을 발화한 음성 파일을 획득하는 단계; 프로세서 및 메모리를 포함하는 자동분류기에 의해, 분석 툴킷을 이용하여 상기 획득된 음성 파일로부터, 음성인식용 멜 주파수 켑스트럼 계수(MFCCs), 각각 복수개의 음질 특징, 운율 특징 및 발음 특징을 추출하는 단계; 프로세서 및 메모리를 포함하는 자동분류기에 의해, 상기 추출된 각각 복수개의 음질 특징, 운율 특징 및 발음 특징으로부터 적합특징을 선택하는 단계; 및 프로세서 및 메모리를 포함하는 자동분류기에 의해, 상기 멜 주파수 켑스트럼 계수, 상기 음질 특징, 운율 특징 및 발음 특징으로부터 선택된 적합특징을 훈련된 기계학습 분류기에 입력하는 단계를 포함한다. Figure 1 is a conceptual diagram of a method for automatically classifying the severity of paralytic speech disorder by extracting features from speech and inputting selected features from among the extracted features into a machine learning classifier, according to an embodiment of the present invention. The present invention is a method of automatically classifying the severity of paralytic speech disorder using an automatic classifier including a processor and memory, the method comprising: selecting a plurality of speech sentences (speech stimuli) from the paralytic speech disorder database corpus by using an automatic classifier including a processor and memory. ), selecting; Obtaining a voice file in which a speaker utters the plurality of speech sentences using an automatic classifier including a processor and memory; Mel Frequency Cepstrum Coefficients (MFCCs) for speech recognition, each of which extracts a plurality of sound quality features, prosody features, and pronunciation features, from the acquired voice file using an analysis toolkit by an automatic classifier including a processor and memory. step; selecting suitable features from the plurality of extracted sound quality features, prosody features, and pronunciation features by an automatic classifier including a processor and memory; and inputting suitable features selected from the mel frequency cepstrum coefficients, the sound quality features, the prosody features, and the pronunciation features into a trained machine learning classifier by an automatic classifier including a processor and memory.

본 발명의 일 구현예에서 상기 획득된 음성 파일을 사용하여 특징을 추출하는 음성 분석 툴킷은 공개된 프로그램(Open source code)으로 다음과 같은 종류를 주로 이용한다. 본 발명의 일 구현예에서 상기 음성 파일은 상기 음성 분석 툴킷이 포함된 파이썬 등을 이용한 입력 프로그램을 통해서 분석된다. In one embodiment of the present invention, the voice analysis toolkit that extracts features using the acquired voice file is an open source code and mainly uses the following types. In one implementation of the present invention, the voice file is analyzed through an input program using Python, etc., which includes the voice analysis toolkit.

- MFCCs 추출: librosa 0.8.1- MFCCs extraction: librosa 0.8.1

- 음질 특징 추출: Praat 6.1.16, Parselmouth 0.4.0- Sound quality feature extraction: Praat 6.1.16, Parselmouth 0.4.0

- 운율(발화속도) 특징 추출: Parselmouth 0.4.0 - Extraction of prosody (speech rate) features: Parselmouth 0.4.0

- 운율(음높이) 특징 추출: Praat 6.1.16- Extraction of prosody (pitch) features: Praat 6.1.16

- 운율(리듬) 특징 추출: Correlatore 2.3.4- Extraction of prosody (rhythm) features: Correlatore 2.3.4

- 발음 특징 추출: Kaldi와 Praat 6.1.16.- Pronunciation feature extraction: Kaldi and Praat 6.1.16.

상기 음성 분석 툴킷으로 추출하는 특징은 표 1과 같다.The features extracted by the speech analysis toolkit are shown in Table 1.

[표1. 특징 리스트][Table 1. Feature list]

음성의 기본특징인 MFCCs외에 음질 특징으로 jitter, shimmer, HNR, voice breaks 개수, voice breaks 정도가 있고, 이 중 주파수 변동률을 나타내는 jitter, 진폭 변동률을 나타내는 shimmer, 및 음성에 잡음이 들어간 정도인 HNR은 음성 장애를 진단할 때 주로 사용되는 지표이다. voice breaks 개수 및 정도는 화자의 유성음 유지 능력을 확인할 때 사용되는 특징으로, voice breaks는 연속된 펄스 간 길이가 17.86ms보다 긴 경우를 의미한다.In addition to MFCCs, which are the basic features of voice, sound quality features include jitter, shimmer, HNR, the number of voice breaks, and the degree of voice breaks. Among these, jitter, which represents the rate of frequency change, shimmer, which represents the rate of amplitude change, and HNR, which is the degree of noise in the voice, are This is an indicator mainly used when diagnosing voice disorders. The number and degree of voice breaks are characteristics used to check the speaker's ability to maintain voiced sounds. Voice breaks refer to cases where the length between consecutive pulses is longer than 17.86ms.

운율 특징은 발화 속도로 전체 길이, 말 길이, 말 속도, 조음 속도가 있으며, 음높이로 F0 평균값, 표준편차, 최솟값, 최댓값, 중앙값, 25분위수, 75분위수가 있고, 리듬으로 %V, deltas, Varcos, rPVIs, nPVIs가 있다. 마비말장애 화자는 비장애 화자보다 발화 속도가 느리므로, 음성의 전체 길이, 전체 길이 중 휴지 구간 제외한 구간인 말 길이, 전체 음절 수를 전체 길이로 나눈 값인 말 속도, 전체 음절 수를 말 길이로 나눈 값인 조음속도 등을 특징으로 본다. 마비발장애 화자는 비장애 화자와 다른 음높이 패턴을 보이며, F0는 초당 성대의 진동수로, 지각적으로는 음높이에 해당하므로 F0의 다양한 통계치를 특징으로 추출한다. 또한 마비말장애 화자는 비장애 화자와 다른 리듬 패턴을 가지므로 리듬 요소와 강한 상관관계를 가지는 변수들을 특징으로 사용하는데 %V는 음성 전체 중 모음이 차지하는 비율이고, deltas는 각 모음 또는 자음 길이의 표준편차이며, Varcos는 delta를 발화 속도에 대하여 정규화한 값이고, rPVI는 연속된 모음 또는 자음 간의 간격이며, nPVI는 rPVI를 발화 속도에 대하여 정규화한 값이다. Prosodic features include overall length, speech length, speech rate, and articulation rate as speech speed, F0 mean value, standard deviation, minimum value, maximum value, median, 25th percentile, and 75th percentile as pitch, and %V, deltas, and varcos as rhythm. , rPVIs, and nPVIs. Since speakers with paralyzed speech have a slower speech rate than speakers without disabilities, the total length of the voice, the speech length excluding pauses in the total length, the speech rate calculated by dividing the total number of syllables by the total length, and the total number of syllables divided by the speech length. Values such as articulation speed are seen as characteristics. Speakers with paralyzed feet show different pitch patterns than speakers without disabilities, and F0 is the frequency of vocal folds per second, which perceptually corresponds to pitch, so various statistics of F0 are extracted as features. In addition, since paralyzed speech-impaired speakers have different rhythm patterns than non-disabled speakers, variables that have a strong correlation with rhythm elements are used as features. %V is the proportion of vowels in the entire speech, and deltas is the standard length of each vowel or consonant. Varcos is the deviation, where delta is normalized to the speech rate, rPVI is the interval between consecutive vowels or consonants, and nPVI is the rPVI normalized to the speech rate.

또한, 발음 특징은 음소정확도로 PCC, PCV, PCT가 모음왜곡도로 Vowel Space Area (VSA), Formant Centralized Ratio (FCR), Vowel Articulatory Index (VAI), F2-Ratio가 있다. 발음특징으로 음소 정확도를 사용하는 근거는 마비말장애 화자가 비장애 화자보다 더 낮은 음소 정확도를 보이기 때문이다. 구체적으로 PCC는 전체 목표 자음 개수 중 정조음한 자음의 개수이고, PCV는 전체 목표 모음 개수 중 정조음한 모음의 개수이며, PCT는 전체 목표 음소 개수 중 정조음한 음소의 개수이다. 또한 모음왜곡도는 마비말장애 화자가 비장애 화자보다 더 좁은 모음 면적을 가지므로 사용된다. VSA는 F1-F2 모음 사각도의 면적이고, FCR/VAI는 모음 포먼트 중앙화의 지표이며, F2-Ratio는 평순 모음과 원순 모음의 F2값의 비율이다. In addition, the pronunciation characteristics include phonemic accuracy, PCC, PCV, and PCT, and vowel distortion, Vowel Space Area (VSA), Formant Centralized Ratio (FCR), Vowel Articulatory Index (VAI), and F2-Ratio. The rationale for using phoneme accuracy as a pronunciation feature is that speakers with paralytic speech disorders show lower phoneme accuracy than speakers without disabilities. Specifically, PCC is the number of consonants with positive articulation out of the total number of target consonants, PCV is the number of vowels with positive articulation out of the total number of target vowels, and PCT is the number of phonemes with positive articulation among the total number of target phonemes. Additionally, vowel distortion is used because speakers with speech impairment have a narrower vowel area than speakers without speech impairment. VSA is the area of F1-F2 vowel squareness, FCR/VAI is an index of vowel formant centralization, and F2-Ratio is the ratio of the F2 values of plain and round vowels.

본 발명의 일 구현예에서, 상기 음질 특징에서 선택된 적합특징은 '음성 끊김(voice breaks) 정도'이고, 상기 운율 특징에서 선택된 적합특징은 발화 속도인 '전체 길이' 및 '말 길이'이며, 상기 발음 특징에서 선택된 적합특징은 음소 정확도인 자음정확도(Percentage of Correct Consonants: PCC), 모음정확도(Percentage of Correct Vowels: PCV), 전체 음소 정확도(Percentage of Correct Total phonemes: PCT) 및 모음 왜곡도인 모음 공간 면적(Vowel Space Area: VSA), 모음 조음 지수(Vowel Articulatory Index: VAI), 포먼트 중앙화 비율(Formant Centralized Ratio: FCR), 제 2포먼트 기울기(F2-Ratio)이다. 본 발명의 일 구현예에서, 분석을 통해 추출된 특징은 특징 선택 알고리즘인 엑스트라 트리 분류기(Extra Trees Classifier: ETC)를 통해 적합특징으로 분류되었다. In one embodiment of the present invention, the appropriate feature selected from the sound quality feature is 'degree of voice breaks', and the appropriate feature selected from the prosody feature is 'total length' and 'speech length', which are the speech rate, and The suitable features selected from the pronunciation features are phoneme accuracy (Percentage of Correct Consonants (PCC)), vowel accuracy (Percentage of Correct Vowels (PCV)), total phoneme accuracy (Percentage of Correct Total phonemes (PCT)), and vowel distortion (vowel distortion). These are Vowel Space Area (VSA), Vowel Articulatory Index (VAI), Formant Centralized Ratio (FCR), and second formant slope (F2-Ratio). In one implementation of the present invention, the features extracted through analysis were classified as suitable features through the Extra Trees Classifier (ETC), a feature selection algorithm.

분류에 많은 특징을 사용한다고 해서 반드시 좋은 결과로 귀결되는 것은 아니다. 따라서 분류에 도움이 될 것이라고 기대되는 특징들을 간추리는 과정이 필요하다. 이 과정을 특징 선택 과정이라고 칭한다. 본 발명의 일 구현예에서 사용한 특징선택 알고리즘은 엑스트라 트리 분류기로, 여러 개의 의사 결정 트리를 형성한 후 각 의사 결정 트리로부터 분류 결과를 취합하여 결론을 내리는 앙상블 알고리즘이다. 구체적으로, 엑스트라 트리 분류기의 학습은 무작위로 데이터를 나눈 다음 최상의 분할을 선택할 때, 각 집단 안에 다른 집단의 데이터가 최대한 섞여 있지 않도록 진행된다. Using many features for classification does not necessarily lead to good results. Therefore, a process of summarizing features expected to be helpful in classification is necessary. This process is called the feature selection process. The feature selection algorithm used in one implementation of the present invention is an extra tree classifier, which is an ensemble algorithm that forms several decision trees and then collects classification results from each decision tree to reach a conclusion. Specifically, the learning of the extra tree classifier is carried out by randomly dividing the data and then selecting the best split so that data from different groups are not mixed within each group as much as possible.

도 2는 본 발명의 일 실시예에 따른, 서포트 백터 머신에서 구분하고자 하는 두 집단의 마진을 최대화하는 결정 경계를 찾는 모델의 개념도이다. 기계학습 분류기는 입력값으로 선택된 적합특징의 패턴을 학습하고, 학습한 패턴을 바탕으로 데이터를 분류한다. 본 발명의 일 구현예에서 상기 기계학습 분류기는 입력된 특징을 바탕으로 음성을 복수개의 중증도 등급으로 분류하는 서포트 백터 머신(SVM: Support Vector Machine)이다. SVM은 머신러닝 분류기 중 하나로, 구분하고자 하는 두 집단의 거리인 마진을 최대화하는 결정 경계를 찾는 모델이다. 마진은 결정 경계에서 가장 가까운 데이터인 서포트 벡터간의 거리로 산출된다. 마진을 최대화하는 최적의 결정 경계를 학습한 SVM은 이 결정 경계를 기준으로 새로운 입력값이 어느 집단에 속하는지 분류한다. Figure 2 is a conceptual diagram of a model for finding a decision boundary that maximizes the margin of two groups to be distinguished in a support vector machine, according to an embodiment of the present invention. A machine learning classifier learns patterns of suitable features selected as input values and classifies data based on the learned patterns. In one embodiment of the present invention, the machine learning classifier is a support vector machine (SVM) that classifies speech into a plurality of severity levels based on input features. SVM is one of the machine learning classifiers and is a model that finds the decision boundary that maximizes the margin, which is the distance between the two groups to be distinguished. The margin is calculated as the distance between the support vector, which is the closest data to the decision boundary. SVM, which has learned the optimal decision boundary that maximizes the margin, classifies which group the new input value belongs to based on this decision boundary.

상기 서포트 백터 머신은 집단별로 증증도를 분류하고, 본 발명의 일 구현예에서, 상기 중증도 등급은 비장애, 경도, 경도-중등도, 중등도-중도, 중도의 5개 등급이다. 이러한 등급분류를 위한 기계학습 분류기는 훈련과정이 요구된다. 본 발명의 일 구현예에서 상기 훈련된 기계학습 분류기는, 적어도 10명의 비장애인 화자 및 적어도 70명의 마비말장애 화자의 음성파일로부터 추출한 멜 주파수 켑스트럼 계수, 음성 끊김(voice breaks) 정도, 전체 길이, 말 길이, 자음정확도, 모음정확도, 전체 음소 정확도, 모음 공간 면적, 모음 조음 지수, 포먼트 중앙화 비율, 및 제 2포먼트 기울기를 상기 서포트 백터 머신에 입력하여, 음성을 복수개의 중증도 등급으로 분류한 데이터를 구비한다. The support vector machine classifies the severity of symptoms by group, and in one embodiment of the present invention, the severity grades are five grades: non-disability, mild, mild-moderate, moderate-moderate, and moderate. A machine learning classifier for such classification requires a training process. In one embodiment of the present invention, the trained machine learning classifier includes Mel frequency cepstrum coefficients, degree of voice breaks, and overall sound quality extracted from the voice files of at least 10 non-disabled speakers and at least 70 speakers with paralytic speech impairment. Length, speech length, consonant accuracy, vowel accuracy, total phoneme accuracy, vowel space area, vowel articulation index, formant centralization ratio, and second formant slope are input into the support vector machine to classify the voice into a plurality of severity levels. Provide classified data.

본 발명의 일 구현예에서 상기 음성을 복수개의 중증도 등급으로 분류한 데이터는, 반복측정 분산분석(two-way mixed ANOVA)을 통해 교차 검증한다. 반복측정 분산분석은 독립 변수가 집단 간 유의미한 차이를 보이는지 확인할 때(개체 간 요인), 독립 변수 간에 연관성(개체 내 요인)이 있을 경우 시행하는 통계분석 방법이다. 즉, 개체 간 차이와 개체 내 차이를 분리하여 각각의 효과를 파악하는 것이 목적이다. 본 발명의 일 구현예에서는 개체 간 요인을 중증도 집단으로, 개체 내 요인을 말 기능 특징(음질, 운율, 발음)으로 설정하였다. 통계분석에 사용된 프로그램은 SPSS 통계분석 프로그램이다.In one embodiment of the present invention, the data classifying the voice into a plurality of severity levels is cross-validated through repeated measures analysis of variance (two-way mixed ANOVA). Repeated measures analysis of variance is a statistical analysis method performed when checking whether independent variables show significant differences between groups (inter-subject factor) or when there is a relationship between independent variables (intra-subject factor). In other words, the purpose is to separate differences between and within individuals and identify their respective effects. In one embodiment of the present invention, the inter-subject factor was set as the severity group, and the intra-subject factor was set as speech function characteristics (sound quality, prosody, pronunciation). The program used for statistical analysis is the SPSS statistical analysis program.

본 발명의 일 구현예에서 상기 말뭉치는, 한국어 마비말장애 데이터베이스인 QoLT로, 이를 사용하면 상기 분류방법을 한국어에 대해 적용가능하다. 본 발명의 일 구현예에서 발화 문장은, “추석에는 온 가족이 함께 송편을 만든다.”, “갑자기 미국에 있는 오빠 얼굴이 보고 싶다.”, “어제 하늘이 컴컴해지더니 비가 쏟아졌다.” 및 “동생이랑 싸워서 엄마한테 혼났다.”로 선택가능하며, 이는 이화여자대학교 언어병리학과에서 구성한 마비말장애 분석에 최적화된 문장이다. In one embodiment of the present invention, the corpus is QoLT, a Korean language paralysis database, and using it, the classification method can be applied to the Korean language. In one embodiment of the present invention, the utterance sentences are “On Chuseok, the whole family makes songpyeon together.”, “I suddenly want to see my brother’s face in the United States.”, “Yesterday the sky became dark and it rained.” and “I got scolded by my mom because I fought with my younger brother.” These are sentences optimized for the analysis of speech paralysis created by the Department of Speech Pathology at Ewha Womans University.

본 발명은 마비말장애 중증도를 자동분류하는 컴퓨터 프로그램을 저장하는 컴퓨터 판독가능 저장매체로, 상기 저장매체는: 마비말장애 데이터베이스 말뭉치에서 복수개의 발화 문장(speech stimuli)을 선택 하도록 프로그램된 코드 부분; 화자가 상기 복수개의 발화 문장을 발화한 음성 파일을 획득하도록 프로그램된 코드 부분; 분석툴킷을 이용하여 상기 획득된 음성 파일로부터 음성인식용 멜 주파수 켑스트럼 계수(MFCCs), 각각 복수개의 음질 특징, 운율 특징 및 발음 특징을 추출 하도록 프로그램된 코드 부분; 상기 추출된 각각 복수개의 음질 특징, 운율 특징 및 발음 특징으로부터 적합특징을 선택 하도록 프로그램된 코드 부분; 및 상기 멜 주파수 켑스트럼 계수, 상기 음질 특징, 운율 특징 및 발음 특징으로부터 선택된 적합특징을 훈련된 기계학습 분류기에 입력 하도록 프로그램된 코드 부분을 포함하여, 컴퓨터에서 작동가능하다. 본 발명의 일 구현예에서, 상기 컴퓨터는 화자의 문장 발화를 녹음 등의 방법을 통해 음성 파일로 획득가능하다. The present invention is a computer-readable storage medium storing a computer program for automatically classifying the severity of paralytic speech disorder, the storage medium comprising: a code portion programmed to select a plurality of speech sentences (speech stimuli) from a paralytic speech disorder database corpus; A code portion programmed to obtain a voice file in which a speaker utters the plurality of speech sentences; A code portion programmed to extract Mel Frequency Cepstrum Coefficients (MFCCs) for voice recognition, a plurality of sound quality features, prosody features, and pronunciation features from the acquired voice file using an analysis toolkit; a code portion programmed to select appropriate features from the plurality of extracted sound quality features, prosody features, and pronunciation features; and a code portion programmed to input fit features selected from the mel frequency cepstrum coefficients, the tonal features, prosodic features, and pronunciation features into a trained machine learning classifier. In one embodiment of the present invention, the computer can obtain a voice file through a method such as recording a speaker's sentence utterance.

상기 음질 특징에서 선택된 적합특징은 '음성 끊김(voice breaks) 정도'이고, 상기 운율 특징에서 선택된 적합특징은 발화 속도인 '전체 길이' 및 '말 길이'이며, 상기 발음 특징에서 선택된 적합특징은 음소 정확도인 자음정확도(Percentage of Correct Consonants: PCC), 모음정확도(Percentage of Correct Vowels: PCV), 전체 음소 정확도(Percentage of Correct Total phonemes: PCT) 및 모음 왜곡도인 모음 공간 면적(Vowel Space Area: VSA), 모음 조음 지수(Vowel Articulatory Index: VAI), 포먼트 중앙화 비율(Formant Centralized Ratio: FCR), 제 2포먼트 기울기(F2-Ratio)이며, 상기 기계학습 분류기는 입력된 특징을 바탕으로 음성을 복수개의 중증도 등급으로 분류하는 서포트 백터 머신(SVM: Support Vector Machine)이다. The appropriate feature selected from the sound quality features is 'degree of voice breaks', the appropriate feature selected from the prosody features is 'total length' and 'speech length', which are speech rate, and the appropriate feature selected from the pronunciation features is phoneme. Percentage of Correct Consonants (PCC), Percentage of Correct Vowels (PCV), Percentage of Correct Total phonemes (PCT), and Vowel Distortion: Vowel Space Area (VSA) ), Vowel Articulatory Index (VAI), Formant Centralized Ratio (FCR), and second formant slope (F2-Ratio), and the machine learning classifier classifies speech based on the input features. It is a Support Vector Machine (SVM) that classifies into multiple severity levels.

본 발명의 일 구현예에서 상기 저장매체를 구동한 컴퓨터는 상기 중증도 등급은 비장애, 경도, 경도-중등도, 중등도-중도, 중도의 5개 등급으로 분류할 수 있다. 또한, 상기 훈련된 기계학습 분류기는, 적어도 10명의 비장애인 화자 및 적어도 70명의 마비말장애 화자의 음성파일로부터 추출한 멜 주파수 켑스트럼 계수, 음성 끊김(voice breaks) 정도, 전체 길이, 말 길이, 자음정확도, 모음정확도, 전체 음소 정확도, 모음 공간 면적, 모음 조음 지수, 포먼트 중앙화 비율, 및 제 2포먼트 기울기를 상기 서포트 백터 머신에 입력하여, 음성을 복수개의 중증도 등급으로 분류한 데이터를 구비하며, 상기 음성을 복수개의 중증도 등급으로 분류한 데이터는, 반복측정 분산분석(two-way mixed ANOVA)을 통해 교차 검증할 수 있다. 본 발명의 일 구현예에서, 상기 반복측정 분산분석은 SPSS통계분석 프로그램이다. 본 발명의 일 구현예에서 상기 말뭉치는, 한국어 마비말장애 데이터베이스인 QoLT이고, 상기 발화 문장은, “추석에는 온 가족이 함께 송편을 만든다.”, “갑자기 미국에 있는 오빠 얼굴이 보고 싶다.”, “어제 하늘이 컴컴해지더니 비가 쏟아졌다.” 및 “동생이랑 싸워서 엄마한테 혼났다.”일 수 있다. In one embodiment of the present invention, the computer running the storage medium can classify the severity into five levels: non-disability, mild, mild-moderate, moderate-moderate, and moderate. In addition, the trained machine learning classifier includes mel frequency cepstrum coefficient, degree of voice breaks, total length, speech length, and Consonant accuracy, vowel accuracy, overall phoneme accuracy, vowel space area, vowel articulation index, formant centralization ratio, and second formant slope are input into the support vector machine, and data is provided that classifies the voice into a plurality of severity levels. And the data classifying the voice into multiple severity levels can be cross-validated through repeated measures analysis of variance (two-way mixed ANOVA). In one embodiment of the present invention, the repeated measures analysis of variance is the SPSS statistical analysis program. In one embodiment of the present invention, the corpus is QoLT, a Korean language paralysis database, and the utterance sentences are “On Chuseok, the whole family makes songpyeon together,” and “I suddenly want to see my brother’s face in the United States.” , “Yesterday the sky turned dark and rain poured down.” and “I got into a fight with my younger brother and got scolded by my mom.”

소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상기 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다. 적절한 프로그램 언어로 쓰여진 소프트웨어 어플리케이션으로 소프트웨어 코드가 구현될 수 있다. 상기 소프트웨어 코드는 관리서버 및/또는 데이터베이스에 저장되고, 앱에 의해 실행될 수 있다.According to software implementation, embodiments such as procedures and functions described in this specification may be implemented as separate software modules. Each of the software modules may perform one or more functions and operations described herein. Software code can be implemented as a software application written in an appropriate programming language. The software code may be stored in a management server and/or database and executed by an app.

한편, 여기서 제시된 다양한 실시예들은 방법, 장치, 또는 표준 프로그래밍 및/또는 엔지니어링 기술을 사용한 제조 물품(article)으로 구현될 수 있다. 용어 "제조 물품"은 임의의 컴퓨터 판독가능한 장치로부터 액세스 가능한 컴퓨터 프로그램, 캐리어, 또는 매체(media)를 포함한다. 예를 들어, 컴퓨터 판독가능한 매체는 자기 저장 장치(예를 들면, 하드 디스크, 플로피 디스크, 자기 스트립, 등), 광학 디스크(예를 들면, CD, DVD, 등), 스마트 카드, 및 플래쉬 메모리 장치(예를 들면, EEPROM, 카드, 스틱, 키 드라이브, 등)를 포함하지만, 이들로 제한되는 것은 아니다. 또한, 여기서 제시되는 다양한 저장 매체는 정보를 저장하기 위한 하나 이상의 장치 및/또는 다른 기계-판독가능한 매체를 포함한다. 용어 "기계-판독가능한 매체"는 명령(들) 및/또는 데이터를 저장, 보유, 및/또는 전달할 수 있는 무선 채널 및 다양한 다른 매체를 포함하지만, 이들로 제한되는 것은 아니다. Meanwhile, the various embodiments presented herein may be implemented as a method, device, or article manufactured using standard programming and/or engineering techniques. The term “article of manufacture” includes a computer program, carrier, or media accessible from any computer-readable device. For example, computer-readable media include magnetic storage devices (e.g., hard disks, floppy disks, magnetic strips, etc.), optical disks (e.g., CDs, DVDs, etc.), smart cards, and flash memory devices. (e.g., EEPROM, card, stick, key drive, etc.), but is not limited to these. Additionally, various storage media presented herein include one or more devices and/or other machine-readable media for storing information. The term “machine-readable media” includes, but is not limited to, wireless channels and various other media capable of storing, retaining, and/or transmitting instruction(s) and/or data.

제시된 실시예들에 대한 설명은 임의의 본 발명의 기술 분야에서 통상의 지식을 가진 자가 본 발명을 이용하거나 또는 실시할 수 있도록 제공된다. 이러한 실시예들에 대한 다양한 변형들은 본 발명의 기술 분야에서 통상의 지식을 가진 자에게 명백할 것이며, 여기에 정의된 일반적인 원리들은 본 발명의 범위를 벗어남이 없이 다른 실시예들에 적용될 수 있다. 그리하여, 본 발명은 여기에 제시된 실시예들로 한정되는 것이 아니라, 여기에 제시된 원리들 및 신규한 특징들과 일관되는 최광의의 범위에서 해석되어야 할 것이다. The description of the presented embodiments is provided to enable any person skilled in the art to make or use the present invention. Various modifications to these embodiments will be apparent to those skilled in the art, and the general principles defined herein may be applied to other embodiments without departing from the scope of the invention. Thus, the present invention is not limited to the embodiments presented herein, but is to be construed in the broadest scope consistent with the principles and novel features presented herein.

Claims (9)

프로세서 및 메모리를 포함하는 자동분류기를 이용한 마비말장애 중증도 자동분류 방법으로, 상기 방법은:
프로세서 및 메모리를 포함하는 자동분류기에 의해, 마비말장애 데이터베이스 말뭉치에서 복수개의 발화 문장(speech stimuli)을 선택하는 단계;
프로세서 및 메모리를 포함하는 자동분류기에 의해, 화자가 상기 복수개의 발화 문장을 발화한 음성 파일을 획득하는 단계;
프로세서 및 메모리를 포함하는 자동분류기에 의해, 분석 툴킷을 이용하여 획득된 상기 음성 파일로부터, 음성인식용 멜 주파수 켑스트럼 계수(MFCCs), 각각 복수개의 음질 특징, 운율 특징 및 발음 특징을 추출하는 단계;
프로세서 및 메모리를 포함하는 자동분류기에 의해, 추출된 상기 복수개의 음질 특징, 운율 특징 및 발음 특징으로부터 적합특징을 선택하는 단계; 및
프로세서 및 메모리를 포함하는 자동분류기에 의해, 상기 멜 주파수 켑스트럼 계수, 상기 음질 특징, 운율 특징 및 발음 특징으로부터 선택된 적합특징을 훈련된 기계학습 분류기에 입력하는 단계를 포함하고,
상기 음질 특징에서 선택된 적합특징은 '음성 끊김(voice breaks) 정도'이고, 상기 운율 특징에서 선택된 적합특징은 발화 속도인 '전체 길이' 및 '말 길이'이며, 상기 발음 특징에서 선택된 적합특징은 음소 정확도인 자음정확도(Percentage of Correct Consonants: PCC), 모음정확도(Percentage of Correct Vowels: PCV), 전체 음소 정확도(Percentage of Correct Total phonemes: PCT) 및 모음 왜곡도인 모음 공간 면적(Vowel Space Area: VSA), 모음 조음 지수(Vowel Articulatory Index: VAI), 포먼트 중앙화 비율(Formant Centralized Ratio: FCR), 제 2포먼트 기울기(F2-Ratio)이며,
상기 기계학습 분류기는 입력된 특징을 바탕으로 음성을 복수개의 중증도 등급으로 분류하는 서포트 백터 머신(SVM: Support Vector Machine)인,
마비말장애 중증도 자동분류 방법.
A method of automatically classifying the severity of paralytic speech disorder using an automatic classifier including a processor and memory, the method includes:
Selecting a plurality of speech sentences (speech stimuli) from a paralytic speech disorder database corpus by an automatic classifier including a processor and memory;
Obtaining a voice file in which a speaker utters the plurality of speech sentences using an automatic classifier including a processor and memory;
Mel Frequency Cepstrum Coefficients (MFCCs) for speech recognition, each of which extracts a plurality of sound quality features, prosody features, and pronunciation features, from the voice file acquired using an analysis toolkit by an automatic classifier including a processor and memory. step;
selecting suitable features from the plurality of extracted sound quality features, prosody features, and pronunciation features by an automatic classifier including a processor and memory; and
Inputting suitable features selected from the mel frequency cepstrum coefficients, the sound quality features, the prosody features, and the pronunciation features into a trained machine learning classifier, by an automatic classifier including a processor and memory,
The appropriate feature selected from the sound quality features is 'degree of voice breaks', the appropriate feature selected from the prosody features is 'total length' and 'speech length', which are speech rate, and the appropriate feature selected from the pronunciation features is phoneme. Percentage of Correct Consonants (PCC), Percentage of Correct Vowels (PCV), Percentage of Correct Total phonemes (PCT), and Vowel Distortion: Vowel Space Area (VSA) ), Vowel Articulatory Index (VAI), Formant Centralized Ratio (FCR), and second formant slope (F2-Ratio),
The machine learning classifier is a support vector machine (SVM) that classifies speech into a plurality of severity levels based on input features.
Automatic classification method for paralytic speech disorder severity.
제 1항에 있어서,
상기 중증도 등급은 비장애, 경도, 경도-중등도, 중등도-중도, 중도의 5개 등급인,
마비말장애 중증도 자동분류 방법.
According to clause 1,
The severity level is five levels: non-disability, mild, mild-moderate, moderate-severe, and moderate.
Automatic classification method for paralytic speech disorder severity.
제 1항에 있어서,
상기 훈련된 기계학습 분류기는, 적어도 10명의 비장애인 화자 및 적어도 70명의 마비말장애 화자의 음성파일로부터 추출한 멜 주파수 켑스트럼 계수, 음성 끊김(voice breaks) 정도, 전체 길이, 말 길이, 자음정확도, 모음정확도, 전체 음소 정확도, 모음 공간 면적, 모음 조음 지수, 포먼트 중앙화 비율, 및 제 2포먼트 기울기를 상기 서포트 백터 머신에 입력하여, 음성을 복수개의 중증도 등급으로 분류한 데이터를 구비한,
마비말장애 중증도 자동분류 방법.
According to clause 1,
The trained machine learning classifier includes mel frequency cepstrum coefficient, degree of voice breaks, total length, speech length, and consonant accuracy extracted from the voice files of at least 10 non-disabled speakers and at least 70 speakers with paralysis and speech impairment. , vowel accuracy, overall phoneme accuracy, vowel space area, vowel articulation index, formant centralization ratio, and second formant slope are input into the support vector machine, and data is provided to classify the voice into a plurality of severity levels,
Automatic classification method for paralytic speech disorder severity.
제 3항에 있어서,
상기 음성을 복수개의 중증도 등급으로 분류한 데이터는, 반복측정 분산분석(two-way mixed ANOVA)을 통해 교차검증하고,
상기 반복측정 분산분석은 SPSS통계분석 프로그램인,
마비말장애 중증도 자동분류 방법.
According to clause 3,
The data classifying the voice into multiple severity levels was cross-validated through repeated measures analysis of variance (two-way mixed ANOVA),
The repeated measures analysis of variance is performed using the SPSS statistical analysis program,
Automatic classification method for paralytic speech disorder severity.
제 1항에 있어서,
상기 말뭉치는, 한국어 마비말장애 데이터베이스인 QoLT인,
마비말장애 중증도 자동분류 방법.
According to clause 1,
The above corpus is QoLT, a Korean language paralysis database,
Automatic classification method for paralytic speech disorder severity.
제 5항에 있어서,
상기 발화 문장은,
“추석에는 온 가족이 함께 송편을 만든다.”, “갑자기 미국에 있는 오빠 얼굴이 보고 싶다.”, “어제 하늘이 컴컴해지더니 비가 쏟아졌다.” 및 “동생이랑 싸워서 엄마한테 혼났다.”인,
마비말장애 중증도 자동분류 방법.
According to clause 5,
The above utterance sentence is,
“On Chuseok, the whole family makes songpyeon together.”, “Suddenly I miss my brother in America.”, “Yesterday the sky turned dark and rain poured down.” and “I got scolded by my mom for fighting with my younger brother.”
Automatic classification method for paralytic speech disorder severity.
마비말장애 중증도를 자동분류하는 컴퓨터 프로그램을 저장하는 컴퓨터 판독가능 저장매체로, 상기 저장매체는:
마비말장애 데이터베이스 말뭉치에서 복수개의 발화 문장(speech stimuli)을 선택 하도록 프로그램된 코드 부분;
화자가 상기 복수개의 발화 문장을 발화한 음성 파일을 획득하도록 프로그램된 코드 부분;
분석툴킷을 이용하여 획득된 상기 음성 파일로부터 음성인식용 멜 주파수 켑스트럼 계수(MFCCs), 각각 복수개의 음질 특징, 운율 특징 및 발음 특징을 추출 하도록 프로그램된 코드 부분;
추출된 상기 복수개의 음질 특징, 운율 특징 및 발음 특징으로부터 적합특징을 선택 하도록 프로그램된 코드 부분; 및
상기 멜 주파수 켑스트럼 계수, 상기 음질 특징, 운율 특징 및 발음 특징으로부터 선택된 적합특징을 훈련된 기계학습 분류기에 입력 하도록 프로그램된 코드 부분을 포함하고,
상기 음질 특징에서 선택된 적합특징은 '음성 끊김(voice breaks) 정도'이고, 상기 운율 특징에서 선택된 적합특징은 발화 속도인 '전체 길이' 및 '말 길이'이며, 상기 발음 특징에서 선택된 적합특징은 음소 정확도인 자음정확도(Percentage of Correct Consonants: PCC), 모음정확도(Percentage of Correct Vowels: PCV), 전체 음소 정확도(Percentage of Correct Total phonemes: PCT) 및 모음 왜곡도인 모음 공간 면적(Vowel Space Area: VSA), 모음 조음 지수(Vowel Articulatory Index: VAI), 포먼트 중앙화 비율(Formant Centralized Ratio: FCR), 제 2포먼트 기울기(F2-Ratio)이며,
상기 기계학습 분류기는 입력된 특징을 바탕으로 음성을 복수개의 중증도 등급으로 분류하는 서포트 백터 머신(SVM: Support Vector Machine)인,
컴퓨터 판독가능 저장매체.
A computer-readable storage medium that stores a computer program for automatically classifying the severity of paralytic speech disorder, the storage medium comprising:
A code portion programmed to select a plurality of speech stimuli (speech stimuli) from a paralytic speech disorder database corpus;
A code portion programmed to obtain a voice file in which a speaker utters the plurality of speech sentences;
A code portion programmed to extract Mel Frequency Cepstrum Coefficients (MFCCs) for speech recognition, a plurality of sound quality features, prosody features, and pronunciation features from the voice file acquired using an analysis toolkit;
a code portion programmed to select appropriate features from the plurality of extracted sound quality features, prosody features, and pronunciation features; and
Comprising a code portion programmed to input fit features selected from the mel frequency cepstrum coefficients, the sound quality features, the prosody features, and the pronunciation features into a trained machine learning classifier,
The appropriate feature selected from the sound quality features is 'degree of voice breaks', the appropriate feature selected from the prosody features is 'total length' and 'speech length', which are speech rate, and the appropriate feature selected from the pronunciation features is phoneme. Percentage of Correct Consonants (PCC), Percentage of Correct Vowels (PCV), Percentage of Correct Total phonemes (PCT), and Vowel Distortion: Vowel Space Area (VSA) ), Vowel Articulatory Index (VAI), Formant Centralized Ratio (FCR), and second formant slope (F2-Ratio),
The machine learning classifier is a support vector machine (SVM) that classifies speech into a plurality of severity levels based on input features.
Computer-readable storage media.
제 7항에 있어서,
상기 중증도 등급은 비장애, 경도, 경도-중등도, 중등도-중도, 중도의 5개 등급이고,
상기 훈련된 기계학습 분류기는, 적어도 10명의 비장애인 화자 및 적어도 70명의 마비말장애 화자의 음성파일로부터 추출한 멜 주파수 켑스트럼 계수, 음성 끊김(voice breaks) 정도, 전체 길이, 말 길이, 자음정확도, 모음정확도, 전체 음소 정확도, 모음 공간 면적, 모음 조음 지수, 포먼트 중앙화 비율, 및 제 2포먼트 기울기를 상기 서포트 백터 머신에 입력하여, 음성을 복수개의 중증도 등급으로 분류한 데이터를 구비하며,
상기 음성을 복수개의 중증도 등급으로 분류한 데이터는, 반복측정 분산분석(two-way mixed ANOVA)을 통해 교차검증하고,
상기 반복측정 분산분석은 SPSS통계분석 프로그램인,
컴퓨터 판독가능 저장매체.
According to clause 7,
The severity level is five levels: non-disability, mild, mild-moderate, moderate-severe, and moderate.
The trained machine learning classifier includes mel frequency cepstrum coefficient, degree of voice breaks, total length, speech length, and consonant accuracy extracted from the voice files of at least 10 non-disabled speakers and at least 70 speakers with paralysis and speech impairment. , vowel accuracy, overall phoneme accuracy, vowel space area, vowel articulation index, formant centralization ratio, and second formant slope are input into the support vector machine, and data is provided that classifies the voice into a plurality of severity levels,
The data classifying the voice into multiple severity levels was cross-validated through repeated measures analysis of variance (two-way mixed ANOVA),
The repeated measures analysis of variance is performed using the SPSS statistical analysis program,
Computer-readable storage media.
제 7항에 있어서,
상기 말뭉치는, 한국어 마비말장애 데이터베이스인 QoLT이고,
상기 발화 문장은, “추석에는 온 가족이 함께 송편을 만든다.”, “갑자기 미국에 있는 오빠 얼굴이 보고 싶다.”, “어제 하늘이 컴컴해지더니 비가 쏟아졌다.” 및 “동생이랑 싸워서 엄마한테 혼났다.”인,
컴퓨터 판독가능 저장매체.
According to clause 7,
The corpus is QoLT, a Korean language paralysis database,
The above utterance sentences are, “On Chuseok, the whole family makes songpyeon together,” “I suddenly miss my brother in the United States,” and “Yesterday, the sky turned dark and rain poured down.” and “I got scolded by my mom for fighting with my younger brother.”
Computer-readable storage media.
KR1020210106629A 2021-08-12 2021-08-12 Method for Automatic Severity Classification of Dysarthria KR102613014B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210106629A KR102613014B1 (en) 2021-08-12 2021-08-12 Method for Automatic Severity Classification of Dysarthria
PCT/KR2022/008069 WO2023017983A1 (en) 2021-08-12 2022-06-08 Method for automatic classification of dysarthria severity

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210106629A KR102613014B1 (en) 2021-08-12 2021-08-12 Method for Automatic Severity Classification of Dysarthria

Publications (2)

Publication Number Publication Date
KR20230024630A KR20230024630A (en) 2023-02-21
KR102613014B1 true KR102613014B1 (en) 2023-12-11

Family

ID=85200017

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210106629A KR102613014B1 (en) 2021-08-12 2021-08-12 Method for Automatic Severity Classification of Dysarthria

Country Status (2)

Country Link
KR (1) KR102613014B1 (en)
WO (1) WO2023017983A1 (en)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3335126A4 (en) * 2015-08-11 2019-05-01 Cognoa, Inc. Methods and apparatus to determine developmental progress with artificial intelligence and user input
KR101804389B1 (en) * 2015-11-23 2017-12-04 주식회사 이르테크 System and method for autonomically testing dementia
KR102101627B1 (en) * 2018-10-29 2020-04-17 광운대학교 산학협력단 Method and apparatus for improving disordered voice
KR102314572B1 (en) * 2019-06-17 2021-10-18 한림대학교 산학협력단 Method and system for assessing language ability based on artificial intelligence

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
비특허 1

Also Published As

Publication number Publication date
KR20230024630A (en) 2023-02-21
WO2023017983A1 (en) 2023-02-16

Similar Documents

Publication Publication Date Title
Bocklet et al. Automatic evaluation of parkinson's speech-acoustic, prosodic and voice related cues.
Bocklet et al. Detection of persons with Parkinson's disease by acoustic, vocal, and prosodic analysis
CN102498485B (en) System and method for expressive language, developmental disorder, and emotion assessment
Orozco-Arroyave et al. Voiced/unvoiced transitions in speech as a potential bio-marker to detect Parkinson's disease
An et al. Automatic recognition of unified parkinson's disease rating from speech with acoustic, i-vector and phonotactic features.
Amato et al. An algorithm for Parkinson’s disease speech classification based on isolated words analysis
Vásquez-Correa et al. Convolutional neural networks and a transfer learning strategy to classify Parkinson’s disease from speech in three different languages
Kim et al. Automatic estimation of parkinson's disease severity from diverse speech tasks.
Sztahó et al. Automatic estimation of severity of Parkinson's disease based on speech rhythm related features
Vasquez-Correa et al. Parallel representation learning for the classification of pathological speech: studies on Parkinson’s disease and cleft lip and palate
Hernandez et al. Dysarthria Detection and Severity Assessment Using Rhythm-Based Metrics.
Yusnita et al. Malaysian English accents identification using LPC and formant analysis
Arias-Vergara et al. Unobtrusive monitoring of speech impairments of Parkinson's disease patients through mobile devices
Kadi et al. Discriminative prosodic features to assess the dysarthria severity levels
Selouani et al. Using speech rhythm knowledge to improve dysarthric speech recognition
Yilmaz et al. Multi-stage DNN training for automatic recognition of dysarthric speech
Hourri et al. A novel scoring method based on distance calculation for similarity measurement in text-independent speaker verification
Dhanalakshmi et al. Speech-input speech-output communication for dysarthric speakers using HMM-based speech recognition and adaptive synthesis system
Chittaragi et al. Acoustic-phonetic feature based Kannada dialect identification from vowel sounds
Kiefte et al. Vowel perception in normal speakers
Tripathi et al. Automatic speaker independent dysarthric speech intelligibility assessment system
Mesgarani et al. Representation of phonemes in primary auditory cortex: how the brain analyzes speech
Graham L1 Identification from L2 Speech Using Neural Spectrogram Analysis.
Gharsellaoui et al. Automatic emotion recognition using auditory and prosodic indicative features
KR102613014B1 (en) Method for Automatic Severity Classification of Dysarthria

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant