KR20180057922A - Apparatus and method of speech-recognition error correction based on linguistic post-processing - Google Patents

Apparatus and method of speech-recognition error correction based on linguistic post-processing Download PDF

Info

Publication number
KR20180057922A
KR20180057922A KR1020160156393A KR20160156393A KR20180057922A KR 20180057922 A KR20180057922 A KR 20180057922A KR 1020160156393 A KR1020160156393 A KR 1020160156393A KR 20160156393 A KR20160156393 A KR 20160156393A KR 20180057922 A KR20180057922 A KR 20180057922A
Authority
KR
South Korea
Prior art keywords
analysis
error
result
speech recognition
unit
Prior art date
Application number
KR1020160156393A
Other languages
Korean (ko)
Inventor
김창현
김영길
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020160156393A priority Critical patent/KR20180057922A/en
Publication of KR20180057922A publication Critical patent/KR20180057922A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Abstract

The present invention relates to a postprocessing-based speech recognition error correction apparatus using linguistic analysis and a method thereof which can correct an error created in speech recognition by postprocessing for the corresponding error. The apparatus comprises: a speech recognition unit to recognize an inputted speech, and output a recognized result in a text form; a linguistic recognition unit to perform morpheme analysis on the outputted text sentence and use a morpheme analysis result to perform syntax analysis and semantic analysis into a unit of a dependency structure for a syntax analysis result; an error candidate search unit to use preset collocation information to search analysis results analyzed by the morpheme analysis, the syntax analysis, and the semantic analysis for an error candidate; a right answer candidate search unit to identify possible right answer candidates for the searched error candidate to finally generate a single right answer result; and a text generation unit to use the generated right answer candidate to generate error-corrected final text for the inputted speech.

Description

언어 분석을 이용한 후처리 기반의 음성 인식 오류 수정 장치 및 그 방법{Apparatus and method of speech-recognition error correction based on linguistic post-processing}BACKGROUND OF THE INVENTION 1. Field of the Invention [0001] The present invention relates to an apparatus and a method for correcting a speech recognition error based on post-

본 발명은 언어 분석을 이용한 후처리 기반의 음성 인식 오류 수정 장치 및 그 방법에 관한 것으로서, 특히 음성 인식에서 발생하는 오류에 대해 후 처리를 통해 해당 오류를 수정할 수 있도록 한 언어 분석을 이용한 후처리 기반의 음성 인식 오류 수정 장치 및 그 방법에 관한 것이다.
The present invention relates to an apparatus and method for correcting a speech recognition error based on post-processing using language analysis and, more particularly, to an apparatus and method for correcting a speech recognition error based on post- The present invention relates to a speech recognition error correction apparatus and method therefor.

최근 음성 인식 기술의 인식 성능 개선에 따라 대화 시스템, 자동통역 시스템, 내비게이션 음성 인터페이스 등 음성 인식 기술을 이용한 다양한 응용 기술 및 시스템들이 등장하고 있다. Recently, various application technologies and systems using speech recognition technology such as an interactive system, an automatic interpretation system, and a navigation voice interface have been emerging in accordance with the improvement of recognition performance of speech recognition technology.

이러한 다양한 음성 인식 기반의 서비스 및 시스템, 기술들은 정확한 음성인식 결과가 필수적이지만, 음성인식 결과가 100% 정확할 수는 없다. Although various speech recognition based services, systems, and techniques require accurate speech recognition results, speech recognition results can not be 100% accurate.

따라서, 다양한 방식으로 음성인식 성능을 높이기 위한 시도가 이루어지고 있다. 이러한 시도들은 크게 2가지 방식으로 구분할 수 있다. Accordingly, attempts have been made to improve speech recognition performance in various ways. These attempts can be classified into two types.

첫 번째는, 음성 인식 기술 자체의 성능 개선을 이루고자 하는 시도이며, 두 번째는, 음성인식 결과의 후 처리를 통해 성능 개선을 이루고자 하는 시도이다. The first is an attempt to improve the performance of the speech recognition technology itself, and the second is an attempt to improve the performance through post-processing of the speech recognition result.

음성 인식 기술 자체의 성능 개선의 대표적인 사례는, DNN(Deep Neural Network)을 음성인식 분야에 적용하는 시도이다. 이를 통해 음성 인식 기술은 기존의 성능보다 진일보한 성능 개선을 이루고 있다. A typical example of performance improvement of speech recognition technology itself is an attempt to apply DNN (Deep Neural Network) to speech recognition field. As a result, the speech recognition technology achieves an improvement over the existing performance.

그러나, 이와 같이 음성 인식 기술 자체의 성능 개선을 이룬다 하더라도 100% 정확한 결과를 낼 수는 없으며, 여전히 음성인식 결과에 오류가 포함되어 있게 된다. 대표적으로, 미등록어나 전문용어 등은 현재의 음성인식 기술로는 여전히 해결하기 쉽지 않은 문제이다. However, even if the performance of the speech recognition technology itself is improved as described above, it is not possible to obtain a 100% correct result, and the speech recognition result still includes an error. Typically, unregistered words or technical terms are still difficult to solve with current speech recognition technology.

또한, 음성인식에서 사용하는 언어모델에 포함되지 않은 어휘들은 음성인식 결과에서 오류가 발생할 가능성이 높다. 언어 모델은 음성인식 대상 어휘들의 발생 가능성을 판단하는 데이터로, 어휘의 지역적인 공기성(Local Collocation)을 이용하는 데이터이며, 이러한 지역적 공기성을 벗어나는 경우에는 오류가 발생할 가능성이 높아지게 된다.Also, vocabularies that are not included in the language model used in speech recognition are likely to cause errors in speech recognition results. The language model is the data that judges the possibility of vocabulary to be recognized. It uses the local collocation of the vocabulary. If it is out of the regional peculiarity, the possibility of error occurs.

후 처리를 통한 성능 개선의 대표적인 유형은, 음성인식 결과에서 발생하는 오류 패턴을 구축하여, 해당 패턴에 매칭되는 경우 오류를 수정하는 방식이다. 그러나, 이러한 오류 패턴을 구축하는 작업 또한 시간과 비용이 드는 작업이고, 음성인식 대상 도메인이 변경될 경우에는 이를 새로 구축해야 하는 문제들이 발생한다.
A typical type of performance improvement through post-processing is a method of constructing an error pattern that occurs in the speech recognition result and correcting the error when matching the corresponding pattern. However, constructing such an error pattern is also time-consuming and costly, and problems arise when a domain for speech recognition is changed.

따라서, 본 발명은 상기한 문제점을 해결하기 위한 것으로, 본 발명의 목적은, 음성인식 결과인 테스트를 후 처리를 통해 오류를 수정 즉, 음성인식 결과 텍스트에 대해 형태소분석, 구문분석 및 의미분석을 통해 음성인식 오류 후보를 파악하고, 이를 기반으로 오류를 수정할 수 있도록 한 언어 분석을 이용한 후처리 기반의 음성 인식 오류 수정 장치 및 그 방법을 제공함에 있다.
SUMMARY OF THE INVENTION Accordingly, the present invention has been made in view of the above problems, and it is an object of the present invention to provide a method and apparatus for correcting errors through post-processing, that is, a morphological analysis, a syntax analysis and a semantic analysis The present invention provides a device for correcting a speech recognition error based on a post-processing using a language analysis to identify candidates of speech recognition errors and correct errors based thereon.

상기한 목적을 달성하기 위한 본 발명에 따른 언어 분석을 이용한 후처리 기반의 음성 인식 오류 수정 장치는, 입력된 음성을 인식하고, 인식된 결과를 텍스트 형태로 출력하는 음성 인식부; 상기 출력되는 텍스트 문장을 형태소 분석, 형태소 분석 결과를 이용하여 구문 분석 및 구문 분석 결과에 대해 의존 구조의 단위로의 의미 분석을 수행하는 언어 인식부; 상기 형태소 분석, 구문 분석, 의미 분석를 통해 분석된 분석 결과를 대상으로 기 설정된 공기정보를 이용하여 오류 후보를 탐색하는 오류 후보 탐색부; 상기 탐색한 오류 후보에 대해 가능한 정답 후보들을 파악하여 최종적으로 하나의 정답 결과를 생성하는 정답 후보 탐색부; 및 상기 생성된 정답 후보를 이용하여 상기 입력된 음성에 대하여 오류가 수정된 최종 텍스트를 생성하는 텍스트 생성부를 포함할 수 있다.
According to an aspect of the present invention, there is provided an apparatus for correcting a speech recognition error based on a post-processing using a language analyzer, the apparatus comprising: a speech recognition unit for recognizing an input speech and outputting a recognized result in a text form; A language recognition unit for performing a semantic analysis on the output textual sentence and a semantic analysis on the basis of a dependency structure for the result of the syntactic analysis and the analysis result using the morphological analysis result; An error candidate search unit for searching for an error candidate using predetermined air information about analysis results analyzed through morphological analysis, syntax analysis, and semantic analysis; A correct answer candidate searching unit for recognizing possible correct candidates for the searched error candidate and finally generating one correct answer result; And a text generating unit for generating a final text in which the error is corrected with respect to the input speech using the generated correct answer candidates.

본 발명에 따르면, 음성 인식된 텍스트에 대해 언어분석을 통해 음성인식 오류 후보를 파악하고 공기정보를 기반으로 해당 음성인식 오류를 수정하는 후처리 방식을 취함으로써 음성인식기술 자체를 유지하면서도 음성인식 성능 개선을 이룰 수 있다는 이점이 있다.According to the present invention, a post-processing method of recognizing a speech recognition error candidate through language analysis and correcting a corresponding speech recognition error based on air information is performed on speech-recognized text, There is an advantage that improvement can be achieved.

또한, 본 발명에 따르면, 음성인식 엔진 오류에 대해, 직관적인 공기정보 데이터를 추가로 구축하는 것만으로도 기존의 처리하기 힘든 장거리 문맥 상황에서의 음성인식 오류를 수정할 수 있는 이점이 있다. Further, according to the present invention, there is an advantage in that it is possible to correct a speech recognition error in a long-distance context which is difficult to be processed by merely constructing intuitive air information data for a speech recognition engine error.

또한, 본 발명에 따르면, 공기정보 기반의 음성인식 오류 수정 방법은, 전문가가 아닌 일반인들도 충분히 오류 개선에 참여할 수 있다는 이점이 있다.
In addition, according to the present invention, a method for correcting a speech recognition error based on an air information has an advantage that a general person other than an expert can sufficiently participate in error improvement.

도 1은 본 발명에 따른 언어 분석을 이용한 후처리 기반의 음성 인식 오류 수정 장치에 대한 블록 구성을 나타낸 도면이다.
도 2는 본 발명에 있어서, 구문 분석의 결과에 대한 일 예를 나타낸 도면.
도 3은 본 발명에 따른 언어 분석을 이용한 후처리 기반의 음성 인식 오류 수정 방법에 대한 동작 플로우챠트를 나타낸 도면.
1 is a block diagram of a post-processing based speech recognition error correction apparatus using language analysis according to the present invention.
2 is a diagram showing an example of a result of a syntax analysis in the present invention.
3 is a flowchart illustrating an operation flow for correcting a speech recognition error based on post-processing using language analysis according to the present invention.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 용이하게 이해할 수 있도록 제공되는 것이며, 본 발명은 청구항의 기재에 의해 정의된다. 한편, 본 명세서에서 사용된 용어는 실시 예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자 이외의 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
BRIEF DESCRIPTION OF THE DRAWINGS The advantages and features of the present invention and the manner of achieving them will become apparent with reference to the embodiments described in detail below with reference to the accompanying drawings. The present invention may, however, be embodied in many different forms and should not be construed as being limited to the embodiments set forth herein. Rather, these embodiments are provided so that this disclosure will be thorough and complete, and will fully convey the concept of the invention to those skilled in the art. And the present invention is defined by the description of the claims. It is to be understood that the terminology used herein is for the purpose of describing particular embodiments only and is not intended to be limiting of the invention. In the present specification, the singular form includes plural forms unless otherwise specified in the specification. It is noted that " comprises, " or "comprising," as used herein, means the presence or absence of one or more other components, steps, operations, and / Do not exclude the addition.

이하, 본 발명에 따른 언어 분석을 이용한 후처리 기반의 음성 인식 오류 수정 장치 및 그 방법에 대하여 첨부한 도면을 참조하여 상세하게 설명하기로 한다. Hereinafter, an apparatus and method for correcting a speech recognition error based on post-processing using language analysis according to the present invention will be described in detail with reference to the accompanying drawings.

도 1은 도 1은 본 발명에 따른 언어 분석을 이용한 후처리 기반의 음성 인식 오류 수정 장치에 대한 블록 구성을 나타낸 도면이고, 도 2는 본 발명에 있어서, 구문 분석의 결과에 대한 일 예를 나타낸 도면이다. FIG. 1 is a block diagram of a post-processing based speech recognition error correction apparatus using language analysis according to the present invention. FIG. 2 shows an example of a result of a syntax analysis in the present invention FIG.

도 1에 도시된 바와 같이, 본 발명에 따른 언어 분석을 이용한 후처리 기반의 음성 인식 오류 수정 장치는, 음성 인식부(10), 언어 분석부(20), 오류 후보 탐색부(30), 정답 후보 탐색부(40) 및 텍스트 생성부(50)를 포함할 수 있다. 여기서, 상기 언어 분석부(20)는 형태소 분석부(21), 구문 분석부(22) 및 의미 분석부(23)를 포함할 수 있다. As shown in FIG. 1, the post-processing-based speech recognition error correction apparatus using language analysis according to the present invention includes a speech recognition unit 10, a language analysis unit 20, an error candidate search unit 30, A candidate search unit 40 and a text generation unit 50. [ Here, the language analyzer 20 may include a morphological analyzer 21, a syntax analyzer 22, and a semantic analyzer 23.

음성 인식부(10)는 음성이 입력되는 경우, 입력된 음성을 인식하고, 인식된 결과를 텍스트 형태로 언어 분석부(20)로 제공한다. When a voice is input, the voice recognition unit 10 recognizes the input voice and provides the recognized result to the language analysis unit 20 in the form of a text.

언어 분석부(20)의 형태소 분석부(21)는 상기 음성 인식부(10)로부터 제공되는 텍스트 문장을 형태소 단위로 분석하여 분석 결과를 구문 분석부(22)로 제공한다. The morpheme analysis unit 21 of the language analysis unit 20 analyzes the text sentence provided from the speech recognition unit 10 by morpheme unit and provides the analysis result to the syntax analysis unit 22.

구문 분석부(22)는 상기 형태소 분석부(21)를 통해 제공된 형태소 분석 결과를 이용하여 구문 분석을 수행하여 구문 분석 결과를 의미 분석부(23)로 제공한다. The syntax analysis unit 22 performs a syntax analysis using the morpheme analysis result provided through the morpheme analysis unit 21 and provides a result of the syntax analysis to the semantic analysis unit 23. [

의미 분석부(23)는 상기 구문 분석부(22)로부터 제공되는 구문 분석 결과에 대해 의존 구조의 단위로의 의미 분석을 수행하여 그 결과를 오류 후보 탐색부(40)로 제공한다. The semantic analysis unit 23 performs semantic analysis on the basis of the syntax analysis result provided from the syntax analysis unit 22 as a unit of the dependency structure and provides the result to the error candidate search unit 40. [

오류 후보 탐색부(30)는 상기 언어 분석부(20)의 각 단계(형태소 분석, 구문 분석, 의미 분석)를 통해 분석된 분석 결과를 대상으로 기 설정된 공기정보를 이용하여 오류 후보를 탐색하여 탐색 결과 정보 즉, 오류 후보를 정답 후보 탐색부(40)로 제공한다. The error candidates search unit 30 searches for error candidates by using predetermined air information on the analysis results analyzed through the respective steps (morphological analysis, syntax analysis, and semantic analysis) of the language analysis unit 20, I.e., an error candidate, to the correct answer candidate search unit 40. [

정답 후보 탐색부(40)는 상기 오류 후보 탐색부(30)에서 탐색한 오류 후보에 대해 가능한 정답 후보들을 파악하여 최종적으로 하나의 정답 결과를 생성한 후, 생성된 정답 후보를 텍스트 생성부(50)로 제공한다. The correct answer candidate search unit 40 grasps possible correct candidates for the error candidates searched out by the error candidate search unit 30 to finally generate one correct answer result and outputs the generated correct answer candidate to the text generating unit 50 ).

텍스트 생성부(50)는 상기 정답 후보 탐색부(40)에서 탐색된 정답 후보를 이용하여 상기 입력된 음성에 대한 최종 텍스트 즉, 오류가 수정된 텍스트를 생성하여 출력하는 것이다. The text generating unit 50 generates and outputs the final text of the input voice, that is, the corrected text, using the correct answer candidate searched by the correct answer candidate searching unit 40.

상기한 바와 같은 본 발명에 따른 언어 분석을 이용한 후처리 기반의 음성 인식 오류 수정 장치의 구성에 대한 상세 동작에 대하여 살펴보기로 하자. Hereinafter, a detailed operation of the configuration of the post-processing based speech recognition error correction apparatus using the language analysis according to the present invention will be described.

먼저, 음성이 입력되면 음성 인식부(10)에 의해 음성인식 결과가 텍스트 형태로 생성된다. First, when a voice is input, the voice recognition unit 10 generates a voice recognition result in a text form.

상기 음성 인식부(10)에 의해 생성된 해당 텍스트는 형태소 분석부(21)를 통해 형태소 단위로 분석되고, 구문 분석부(22)는 상기 형태소 분석 결과를 입력으로 하여 구문 분석 결과를 생성한다.The text generated by the speech recognition unit 10 is analyzed in morphological units through the morphological analysis unit 21, and the syntax analysis unit 22 receives the morpheme analysis result and generates a syntax analysis result.

의미 분석부(23)는 구문분석 결과에 대해 의존구조 단위로의 의미분석을 수행하고, 이렇게 언어 분석부(20)를 통한 분석 결과를 대상으로 오류 후보 탐색부(30)는 공기정보를 이용해 오류 후보를 탐색하여 오류 후보를 정답 후보 탐색부(40)로 전달한다. The semantic analysis unit 23 performs semantic analysis on the syntactic analysis result in units of the dependency structure, and the error candidate search unit 30 searches the analysis result obtained through the language analysis unit 20, And transmits the error candidate to the correct answer candidate search unit 40. [

정답 후보 탐색부(40)는 오류 후보에 대해 가능한 정답 후보들을 파악하여 최종적으로 하나의 정답 결과를 생성한다. 여기서, 오류가 수정된 것은 분석 결과이기 때문에, 분석 결과를 다시 텍스트 형태로 생성해야 하며, 텍스트 형태의 생성은 텍스트 생성부(50)에서 수행한다. 이와 같은 단계를 거처 최종적으로 오류가 수정된 오류 수정 텍스트가 생성된다. The correct answer candidate search unit 40 grasps possible correct candidates for the error candidates and finally generates one correct answer result. Here, since the analysis result is the result of correcting the error, the analysis result must be generated again in a text form, and the text form generation unit 50 performs the text form generation. Through these steps, error correction text is finally generated.

이하에서는, 상기한 각각의 단계에 대해 상세히 설명하도록 한다.Hereinafter, each of the above steps will be described in detail.

음성 인식부(10)는 음성을 입력으로 받아 텍스트를 생성하게 된다. 일 예로, 입력된 음성에 대해 “교육 자료로 다양한 무동력 배를 싼다.”와 같은 텍스트로 입력이 되었다고 가정하자.The speech recognition unit 10 receives speech as input and generates text. As an example, suppose that the input voice is input as text such as " various non-powered words as educational material. &Quot;

이와 같이, 음성 인식된 결과 텍스트는 오류가 있을 경우를 대비해 일련의 언어분석 과정을 거친다. 즉, 도 1에 도시된 바와 같이 형태소 분석부(21), 구문 분석부(22) 및 의미 분석부(23)를 통해 순차적으로 형태소 분석, 구문 분석, 의미 분석과정을 수행하게 된다. As such, the speech-recognized result texts undergo a series of language analysis processes in case of errors. That is, as shown in FIG. 1, morphological analysis, syntax analysis, and semantic analysis are sequentially performed through the morphological analysis unit 21, the syntax analysis unit 22, and the semantic analysis unit 23.

먼저, 형태소 분석부(21)를 통해 음성 인식부(10)에서 텍스트에 대하여 형태소 분석을 수행하게 되면, 음성 인식된 텍스트는 형태소 단위로 구분된 단어 및 각 단어의 품사로 분석되어 “교육/N 자료/N+로/J 다양하/ADJ+ㄴ/E 무동력/N 배/N+를/J 싸/V+ㄴ다/E”와 같은 결과를 얻게 된다. 여기서, N은 명사, J는 조사, ADJ는 형용사, E는 어미 및 V는 동사이다. First, when the morphological analysis is performed on the text in the speech recognition unit 10 through the morphological analysis unit 21, the speech-recognized text is analyzed as morpheme-delimited words and parts of words, Data / N + / J various / ADJ + C / E non-power / N times / N + / J cheap / V + Here, N is a noun, J is a survey, ADJ is an adjective, E is a mother, and V is a verb.

이어, 구문 분석부(22)는 상기한 형태소 분석부(21)에서의 형태소 분석 결과를 이용해 각 단어 간의 구문관계를 파악하게 된다. 도 2는 구분 분석부(22)에서 분석된 구문 분석 결과의 예를 나타낸 도면이다. Then, the syntax analysis unit 22 grasps the syntactic relationship between the words using the morpheme analysis result in the morpheme analysis unit 21 described above. 2 is a diagram showing an example of a result of a syntax analysis analyzed by the classification analyzer 22.

그리고, 의미 분석부(23)는 상기와 같이 구문 분석을 통해 파악된 의존성 및 격관계를 기반으로 각 단어의 의미를 결정하게 된다. 상기의 예에서 "배"는 “탈것”, “과일”, “신체 일부” 등의 다양한 의미를 가진다. 따라서, 의미 분석부(23)는 이러한 의미 가운데 해당 문맥에 적합한 올바른 의미 하나를 결정하게 된다. 여기서, 의미를 결정하는 방법은 어휘 및 의미 공기정보를 이용할 수도 있고, 의미가 태깅된 학습 코퍼스를 기반으로 기계학습 방법을 이용할 수도 있으며, 여러 가지 다양한 방식으로 결정할 수 있다. 여기서는 공기정보로 해결하는 방법을 아래의 표 1의 예시를 통해 확인할 수 있다.Then, the semantic analysis unit 23 determines the meaning of each word on the basis of the dependency and price relation obtained through the above-described parsing. In the above example, "boat" has various meanings such as "ride", "fruit", "body part" and the like. Therefore, the semantic analysis unit 23 determines one of the meanings that is appropriate for the context. Here, the method for determining the meaning can be a vocabulary and semantic pneumatic information, a machine learning method based on a tagged learning corpus, and can be determined in various ways. Here, the method of solving with the air information can be confirmed through the example shown in Table 1 below.

배+를 싸+다Pack + ship 무동력 배Non-powered ship 의미meaning 공기정보Air information 의미meaning 공기정보Air information $탈것+을 싸다$ Ride + cheaper 3030 무동력 $탈것Powerless $ ride 300300 $과일+을 싸다$ Fruit + chew 200200 무동력 $과일Powerless $ Fruit 55 $신체일부+를 싸다$ Some body parts 5050 무동력 $신체일부Non-powered $ body part 33

상기의 공기정보는 어휘 공기정보와 의미 공기정보로 구분할 수 있으며, 어휘 공기정보는 어휘간의 공기 데이터에 대한 빈도를, 의미 공기정보는 의미 간의 공기 데이터에 대한 빈도를 나타낸다. The above air information can be divided into lexical air information and semantic air information. The lexical air information indicates the frequency of the lexical data between the vocabularies, and the semantic air information indicates the frequency with respect to the air data between the semantics.

상기 표 1에서는 의미 분석부(23)에서 필요로 하는 정보가 의미 공기정보이기 때문에 의미 공기정보만을 예시로 나타내었으나, 이와 동일하게 어휘 공기데이터도 “배+를 싸다”, “무동력 배” 등의 형태로 존재한다. In the above Table 1, only the semantic air information is shown as an example because the information required by the semantic analyzer 23 is semantic air information. However, the vocabulary air data is also used for the " cheaper + cheaper " .

어휘 공기데이터는 이하 오류 후보 탐색부(30) 및 정답 후보 탐색부(40)에서 사용된다. 이러한 공기정보의 구축은 대량의 코퍼스로부터 자동으로 구축하거나 기존의 구축된 데이터를 사용할 수도 있다.The vocabulary air data is used in the error candidate search unit 30 and the correct answer candidate search unit 40 below. Such air information can be automatically constructed from a large number of corpuses or existing established data may be used.

상기의 표 1과 같은 예를 살펴보면, “배+를 싸+다”를 기준으로 보면 “배”가 과일의 의미로 사용된 빈도가 가장 높으므로 “배”의 의미로 “과일”로 결정할 수도 있을 것이다. As can be seen from Table 1 above, when "bait + cheaper" is used as a criterion, "bait" is the most frequently used in the meaning of "fruit" will be.

그러나, “무동력 배”를 기준으로 보면 “배”의 의미는 “탈것”으로 결정할 수 있으며, 이를 전체적으로 고려하면 “배”의 의미는 “탈것”으로 결정된다.However, when referring to "non-powered ship", the meaning of "ship" can be decided as "ride", and when considered in its entirety, the meaning of "ship" is decided as "mount".

오류 후보 탐색부(30)는 어휘 및 의미 공기정보를 이용하여 음성인식 오류가 있다고 판단되는 부분을 탐색한다. 기본적으로 오류 후보 탐색은 구문구조를 기준으로 이루어진다. The error candidate search unit 30 searches for a portion determined to have a speech recognition error using the lexical and semantic air information. Basically, error candidate search is based on syntax structure.

상기 형태소 분석부(21)에서의 형태소 분석 결과를 기준으로 연속되는 어휘들에 대해 어휘 n-gram을 적용해 오류 후보를 탐색할 수도 있으나, 어휘 n-gram은 이미 음성 인식 단계에서의 언어모델에 의해 고려가 된다고 볼 수 있으므로, 본 발명에서는 불연속적인 어휘들까지 고려하기 위해 구문구조를 기준으로 오류 후보 탐색이 이루어진다. Although the lexical n-gram can be searched by applying the lexical n-gram to the continuous vocabularies based on the morpheme analysis result in the morpheme analysis unit 21, Therefore, in the present invention, an error candidate search is performed on the basis of a syntax structure in order to consider discontinuous vocabularies.

아래 표 2는 문장 “교육 자료로 다양한 무동력 배를 싼다”의 구문구조를 기준으로 공기정보를 조사한 예이다.Table 2 below is an example of air information survey based on the phrase structure of the sentence " Various non-motorized ships are used as training materials. &Quot;

어휘공기정보Lexical air information 어휘공기정보빈도수Vocabulary air information frequency 의미공기정보Meaning air information 의미공기정보
빈도수
Meaning air information
Frequency
교육 자료Training materials 300300 교육 $자료Education $ Materials 450450 자료+로 싸다Bundled with material + 22 $자료+로 싸다Wrapped in $ data + 1010 다양하+ㄴ 배Various + b ship 77 다양하+ㄴ $탈것Various + r $ ride 350350 무동력 배Non-powered ship 3030 무동력 $탈것Powerless $ ride 200200 배+를 싸다Chew 33 $탈것+를 싸다$ Ride + cheaper 3030

상기 표 2에서 보면, 어휘공기정보 기준으로 판단한 음성인식 오류 후보는 “자료+로 싸다”, “다양하+ㄴ 배”, “배+를 싸다”일 수 있다. In Table 2, the speech recognition error candidates judged by the lexical air information criterion may be "cheaper with data +", "various + b +", and "cheaper with cheaper +".

어휘 공기정보는 기존적으로 고빈도 어휘에 대해서는 신뢰도가 높지만, 고빈도가 아닌 경우에는 신뢰도가 낮다. Lexical air information has high reliability for high frequency vocabulary, but low reliability for high frequency vocabulary.

따라서, 어휘 공기정보 기준으로만 음성 인식 오류 후보를 판단하는 경우, 신뢰도에 문제가 발생하므로 본 발명에서는 의미 공기정보까지 함께 고려한다. 즉, 의미 공기정보는 각 엔트리별로 어휘 공기정보보다는 신뢰도가 높기 때문이다. 어휘 공기정보와 의미 공기정보를 함께 고려하여 최종적으로 판단한 음성 인식 오류 후보는 “자료+로 싸다”, “배+를 싸다”이다. Therefore, when the speech recognition error candidates are judged only by the lexical air information standard, a problem occurs in the reliability, so the semantic air information is also considered in the present invention. That is, semantic air information is more reliable than lexical air information for each entry. The candidates of speech recognition errors that are finally judged by considering the lexical air information and semantic air information are "cheaper with data +" and "cheaper with cheaper +".

“다양한 배”의 경우, 상기 표 2에서와 같이 어휘 공기정보 빈도수가 낮지만, “다양한 $탈 것”은 의미 공기정보 빈도수가 아주 높으므로 음성 인식 오류 후보에서 제외가 된다. 여기서, 의미 공기정보만을 사용하지 않는 이유는, 빈도수를 고려하지 않은 각 유형의 공기정보 엔트리별 신뢰도는 어휘 공기정보가 더 높으며, 또한 구문분석 결과에 대해 의미분석 단계에서 결정된 의미가 정확하지 않을 수도 있기 때문이다. In the case of " various ships ", as shown in Table 2, the frequency of vocabulary air information is low, but " various voyages " are excluded from speech recognition error candidates because the meaningful information frequency is very high. Here, the reason for not using only the semantic air information is that the reliability of each type of air information entry without considering the frequency is higher than the lexical air information, and the meaning determined at the semantic analysis step may not be accurate It is because.

또한, 어휘 공기정보만으로도 음성 인식 오류 후보를 결정할 수도 있다. 예를 들어, “무동력 수박”의 경우, 만일 전체 어휘 공기정보를 대상으로 “무동력”의 빈도수와 “수박”의 어휘 개별 빈도수는 높은데 개별 어휘의 공기어휘인 “무동력 수박”의 공기빈도수가 현저히 낮다면 “무동력 수박”은 음성인식오류 후보로 판단될 수도 있다.In addition, speech recognition error candidates can be determined using only lexical air information. For example, in the case of "non-powered watermelon", if the frequency of "non-power" and the frequency of vocabulary of "watermelon" are high for the entire vocabulary air information, the air frequency of " The "non-powered watermelon" may be judged as a speech recognition error candidate.

한편, 정답 후보 탐색부(40)는, 오류 후보 탐색부(30)에서 오류 후보로 판단된 어휘 공기정보에 대해 가능한 정답 후보들을 탐색하고, 탐색된 정답 후보들 중 가장 높은 신뢰도를 가지는 최종 정답을 결정한다. On the other hand, the correct answer candidate search section 40 searches the candidate candidates for possible lexical air information determined to be an error candidate in the error candidate search section 30, and determines the final correct answer having the highest reliability among the searched correct candidates do.

상기 정답 후보 탐색부(40)에서 정답 후보를 탐색하는 방법은, 몇 가지 방법을 혼용하여 사용할 수 있다. The correct answer candidate search unit 40 can search for the correct answer candidates by using a combination of several methods.

첫 번째 방법은, 해당 오류 후보 공기정보와 유사한 발음을 가진 공기정보를 탐색하는 것이다. 유사한 발음으로 판단하는 기준은 음소별, 음절별, 단어/어절별로 모두 가능하다. 예를 들어, 한국어 기준으로 유사 발음 데이터를 예로 들면 다음과 같다.The first method is to search for air information having similar pronunciation as the corresponding error candidate air information. The criterion to judge similar pronunciation is phoneme, syllable, word / phrase. For example, the similar pronunciation data in the Korean standard is as follows.

먼저, 음소별 유사발음으로는, “ㅔ/ㅐ, ㅖ/ㅒ, …”, 음절별 유사발음으로는 “빗/빚/빛, 게/개, 베/배, 낮/낫/낯, …”, 단어/어절별 유사발음으로는 “너머/넘어, 가치/같이, 계량/개량, 계발/개발, 계체/개체, …”, 영어의 경우 유사발음으로는 “for/four, hour/our, whole/hole, whether/weather, air/heir, which/witch, ate/eight, here/hear, knight/night, …”일 수 있다.First, similar phonetic pronunciation, "ㅔ / ㅐ, ㅖ / ㅒ, ... ", And the similar pronunciation of syllable is" comb / debt / light, crab / dog, ber / ship, day / sick / ", Words / phrases similar pronunciation" beyond / beyond, value / together, weighing / improving, development / development, object / object, ... "In the case of English, the similar pronunciation" for / four, hour / our, whole / hole, whether / weather, air / heir, which / witch, ate / eight, here / hear, knight / night ... &Quot;

한국어나 영어는 모두 표음문자이고, 표음문자의 경우, 발음이 같더라도 표층형태가 다른 경우가 발생한다. Both Korean and English are phonetic characters, and for phonetic characters, even though the pronunciation is the same, there is a case where the surface form is different.

그리고, 이러한 동음이형어들의 발생 빈도는 언어마다 다르며, 한국어보다는 영어가 더 많이 발생한다. 유사발음의 탐색을 위해 위와 같이 유사발음 사전을 구축하는 대신 발음을 이용할 수도 있다. 예를 들어, 각 단어/문자열에 대해 발음기호를 생성하고, 해당 발음기호와 동일한 발음을 가지는 단어/문자열을 탐색할 수 있다. 즉, 아래의 표 3의 예과 같이 발음기호로 판단할 수 있다. Moreover, the frequency of occurrence of these homonyms varies from language to language, and English is more common than Korean. Instead of constructing a similar pronunciation dictionary as described above for pronunciation of similar pronunciation, pronunciation may be used. For example, you can create a phonetic symbol for each word / string and search for a word / string that has the same pronunciation as the phonetic symbol. That is, it can be judged by phonetic symbols as in the example of Table 3 below.

hear[hir]hear [hir] here[hir]here [hir] 너머[n∧m∧]Beyond [n∧m∧] 넘어[n∧m ∧][N ∧ m ∧]

이러한 유사발음을 가지는 단어들은, 단순히 연속되는 근접 문맥인 언어모델만으로는 정확한 인식이 어려운 경우가 많다. 따라서 본 발명에서와 같이 장거리 문맥인 구문적 공기정보를 이용하여야 해결할 수가 있다. 이러한 유사발음 데이터를 이용하여, 문장에 등장하는 음성오류 후보 단어에 대해 정답후보를 생성해 내고, 이들에 대해, 장거리 문맥인 공기정보를 적용함으로써 음성인식 오류를 개선할 수 있다.In many cases, words with similar pronunciation are difficult to recognize correctly only by the language model, which is a continuous contiguous context. Therefore, it can be solved by using the syntactic air information which is a long distance context as in the present invention. By using such similar pronunciation data, candidate candidates for speech candidate candidates appearing in the sentence are generated, and speech recognition errors can be improved by applying air information that is a long-distance context to these candidates.

그러나, 이렇게 유사발음 구축만으로 음성인식 오류를 모두 파악하여 수정할 수 있는 것은 아니다, 음성으로 발화를 하는 것은 개인별 편차가 많으며, 동일한 문자에 대해 개인별로 달리 발성하는 상황이 많기 때문이다. 이러한 개인별 발성 편차를 고려하기 위해, 본 발명에서는 두 번째 정답 후보를 탐색하는 방법으로, 사용자 개인별로 발음 오류 유형을 파악하여 해당 오류 유형을 유사 발음 후보를 파악할 때 적용한다. 즉, “쌀”을 “살”로 발음하는 경우를 예로 하여 살펴보자.However, it is not possible to grasp and correct all of the speech recognition errors only by constructing the similar pronunciation. Speaking by voice has a lot of individual differences, and there are many cases where the same character is uttered differently. In order to consider such a personalized utterance deviation, the present invention searches for a second correct answer candidate, identifies a pronunciation error type for each user, and applies the error type to a similar pronunciation pronunciation candidate. Let's take the case of pronouncing "rice" as "sal".

우리나라의 특정 지방 사람들은 어절의 시작부분에서 발생하는 “ㅆ” 발음을 ‘ㅅ’처럼 발음하는 경우가 많으며, 대표적으로 “쌀”을 "살"로 발음하는 경우가 많다. 이러한 경우처럼, 사용자별로 혹은 지역별로 오류 발음 후보를 달리하여 정답후보를 탐색함으로써 본 발명의 음성인식 오류에 대한 정답 후보를 확장할 수 있다.Some local people in Korea often pronounce "ㅆ" pronounced at the beginning of a word as "ㅅ". Typically, they often pronounce "rice" as "sal." As in this case, the correct candidate for the speech recognition error of the present invention can be extended by searching for the correct candidate by varying the error pronunciation candidate for each user or region.

음성인식 오류는 개인별로 차이가 발생할 수 있을뿐더러, 개별 음성인식 시스템 별로 오류 유형이 달라진다. 이는 음성인식 기술 개발에 적용된 학습데이터 및 학습 기술의 차이로 인해 나타난다. 본 발명에서는 세 번째 정답 후보를 탐색하는 방법으로, 이러한 음성인식 시스템별 차이를 고려함으로써 추가적인 음성인식 오류에 대한 정답 후보를 확장할 수 있다. The difference of the speech recognition error may be different for each individual, and the error type differs for each speech recognition system. This is due to differences in learning data and learning techniques applied to the development of speech recognition technology. In the present invention, the third correct answer candidate is searched. By considering the difference between the speech recognition systems, the correct answer candidate for the additional speech recognition error can be extended.

예를 들어, “쓴다”를 “싼다”로, “쓴”을 “싼”으로, … “쓰다”를 “싸다”로 음성인식하여 오류가 발생하는 예는, 현재 적용되는 음성인식 시스템에서 자주 발생하는 음성인식 오류 가운데 하나이다. 이러한 음식인식 오류의 특성을 고려할 경우, 아래의 표 4와 같이 음성인식 오류 후보에 대한 정답 후보를 파악할 수 있다.For example, "writes" is "wrapped", "written" is "wrapped", ... An example of the occurrence of an error by recognizing "write" as "cheap" is one of the most common speech recognition errors that occur in currently applied speech recognition systems. When considering the characteristics of such a food recognition error, the candidate for the speech recognition error candidate can be identified as shown in Table 4 below.

오류후보Errors Candidates 정답후보Candidates for answers 자료+로 싸다Bundled with material + 자료+로 쓰다Write into the material + 배+를 싸다Chew 배+를 쓰다Spend the boat +

이렇게 파악된 정답 후보에 대해 공기정보빈도를 구하는 일 실시 예를 보면 아래의 표 5와 같다. Table 5 below shows an example of obtaining the frequency of air information for the candidate candidates thus identified.

어휘공기정보Lexical air information 어휘공기정보
빈도수
Lexical air information
Frequency
의미공기정보Meaning air information 의미공기정보
빈도수
Meaning air information
Frequency
자료+로 싸다Bundled with material + 22 $자료+로 싸다Wrapped in $ data + 1010 자료+로 쓰다Write into the material + 2525 $자료+로 쓰다Write to $ data + 150150 배+를 싸다Chew 33 $탈것+를 싸다$ Ride + cheaper 3030 배+를 쓰다Spend the boat + 2020 $탈것+를 쓰다Spend $ ride + 100100

상기 표 5에서와 같이 “싸다”가 “쓰다”로 수정될 경우의 공기정보 빈도를 살펴보면, 빈도수가 대폭 증가한 것을 볼 수 있으며, 이를 통해 "쓰다"가 더 올바른 어휘로 쓰인다는 것을 파악할 수 있다. As shown in Table 5, when the frequency of air information is changed from "cheap" to "stroked", it can be seen that the frequency is greatly increased, so that it can be understood that "write" is used as a more correct vocabulary.

따라서, 원래의 음성인식 결과에서 발생된 “싸다”는 “쓰다”로 수정되게 된다. 이때, 정답 후보에 대한 신뢰도로 단순히 공기빈도를 사용할 수도 있으며, 어휘 공기정보와 의미 공기정보를 결합한 다양한 신뢰도 측정 방법을 적용할 수 있다. 빈도수의 단순 합산을 통한 단순신뢰도는 아래의 수학식 1과 같이 표현할 수 있다.Therefore, "cheap" generated from the original speech recognition result is corrected to "write". At this time, the air frequency can be simply used as the reliability of the candidate for the answer, and various reliability measurement methods combining the lexical air information and the semantic air information can be applied. Simple reliability through simple summation of frequency can be expressed as Equation 1 below.

Figure pat00001
Figure pat00001

이와 같은 수학식 1을 이용하면, 해당 공기정보의 전체 신뢰도는 어휘 공기정보 신뢰도와 의미 공기정보 빈도수를 단순히 합산한 결과를 신뢰도 점수로 사용하게 된다.Using Equation (1), the total reliability of the air information is obtained by simply adding the lexical-air-information reliability and the semantic-air information frequency to the reliability score.

만약, 각 어휘 공기정보의 개별 공기정보의 발생빈도까지 고려하는 경우에는 다음과 같은 수학식 2를 사용할 수 있다.If the frequency of occurrence of the individual air information of each lexical air information is considered, the following Equation 2 can be used.

Figure pat00002
Figure pat00002

이 외에도, 공기정보의 신뢰도 판단방법은 각각의 공기정보 데이터 특성을 고려하여 다양하게 구성할 수 있다.In addition, the method of determining the reliability of the air information can be variously configured in consideration of the respective characteristics of the air information data.

한편, 도 1에 도시된 텍스트 생성부(50)는, 형태소 단위의 오류 수정 결과를 문자열 단위의 오류 수정 결과로 변환하는 작업을 수행한다. 이 단계는 한국어와 같이 두 개 이상의 형태소가 결합하여 하나의 어절을 만드는 교착어의 경우에 필요하며, 특히 형태소 결합의 결과가 단순 형태소 결합 결과가 아닌 형태소 변형을 일으키는 한국어의 경우에는 필수적인 단계이다. 상기의 예에서 오류가 수정된 결과에 대해 텍스트 생성을 수행하는 경우, “쓰+ㄴ다 => 쓴다”로 텍스트가 생성될 수 있다. On the other hand, the text generation unit 50 shown in FIG. 1 performs an operation of converting the error correction result of the morpheme unit into the error correction result of the character string unit. This step is necessary in the case of a pseudo-word that combines two or more morphemes, such as Korean, to form a single word. Especially, it is an essential step in the case of Korean, in which the result of morpheme-combining is morphological transformation rather than simple morphological combination result. In the above example, when the text generation is performed on the result of the error correction, the text may be generated as " write = write ".

즉, "쓰다"의 어간인 "쓰"와 어말어미인 "ㄴ다"가 결합하여 형태소 단순결합 형태인 "쓰ㄴ다"가 아닌 "쓴다"의 생성이 필요하다. 영어와 같이 형태소 결합 없이 형태소 단위로 공백이 사용되는 경우에는, 텍스트 생성 모듈은 성, 수, 시제, 인칭 등을 고려하여 형태소 어휘 자체만 수정해 주면 되므로 훨씬 간단해진다.In other words, it is necessary to combine the words "Tsu" and "tsu" to form a simple morpheme of "writing" rather than "writing". If spaces are used as morpheme units without morpheme combination like English, the text generation module becomes much simpler since it only needs to correct morpheme vocabulary itself considering sex, number, tense, and personality.

한국어의 경우, 형태소 결합 시 변형이 일어나는 경우는 주로 조사 및 어미와 결합할 때이며, 대부분은 어미와 결합할 때 발생한다. 즉, 아래의 일 예들과 같다. In the case of Korean, morphing occurs when combined with irradiation and mother, mostly when combined with mother. That is, the following examples are the same.

a1 : 나/N+는/J => 나는a1: I / N + / J => I

a2 : 나/N+ㄴ/J => 난a2: I / N + / J => I

b1 : 쓰/V+고 => 쓰고b1: Write / V + Go => Write

b2 : 쓰/V+ㄴ다 => 쓴다b2: Write / V + => Write

c1 : 갈/V+고 => 갈고c1: Go / V + Go => Grind

c2 : 갈/V+ㄴ다 => 간다c2: Going / V + = Going

c3 : 갈/V+니 => 가니c3: Go / V + Go => Go

상기의 예와 같이, 형태소 결합 시 변형이 일어나는 경우는, 결합이 이루어지는 첫 번째 형태소의 마지막 음절(1L)과 두 번째 형태소의 첫 번째 음절(2F)과만 관련이 있다. 즉, “나/N+ㄴ/J, 쓰/V+ㄴ/E, 갈/V+ㄴ/E, 갈/V+니”와 같다. As shown in the above example, when the morpheme-based deformation occurs, only the last syllable (1L) of the first morpheme where the combination is made and the first syllable (2F) of the second morpheme are related. That is to say, "I / N + B / J, W / V + B / E, G / V +

따라서, 형태소 결합으로 형태소 변형이 일어나는 경우를 위해 첫 번째 형태소의 마지막 음과 두 번째 형태소의 첫 번째 음절만을 고려하여 아래의 표 6과 같은 형태소 결합 테이블을 구축하면, 형태소 결합시의 변형 현상을 올바로 처리할 수 있다.(두 번째 형태소의 첫 번째 음절 대신, 첫 번째 음소를 사용할 수도 있음)Therefore, if morphological deformation occurs by morpheme-binding, constructing the morphological join table as shown in Table 6 below considering only the last syllable of the first morpheme and the first syllable of the second morpheme, (The first phoneme can be used instead of the first syllable in the second morpheme).

첫번째 형태소
마지막 음절
First stem
ultima
두번째 형태소 첫번째 음절Second morpheme First syllable 결합문자열Combined string
I N I Writing N written Go N liver Go Nee 가니Gani

먼저, 명사와 조사 결합의 경우, 어미와 조사의 첫 음절이 초성이 있는 경우에는 단순히 형태소 문자열을 결합하면 된다. First, in the case of a combination of nouns and surrogates, if the first syllable of the mother and the first syllable of the search has a prefix, simply combine the morpheme string.

따라서, 한국어의 경우 형태소 변형의 적용 여부는 이와 같이, 어미와 조사의 첫 음절이 초성이 없는 경우, 결합할 앞 형태소의 마지막 음절과 뒷 형태소의 첫 음절 결합 테이블을 구축함으로써 변형이 일어나는 형태소 결합을 처리할 수 있다.
Thus, in Korean, the application of morpheme deformation is as follows: when the first syllable of the mother and the first syllable of the survey are absent, the morpheme combination in which deformation takes place by constructing the last syllable of the preceding syllable and the first syllable of the backward syllable Can be processed.

상기한 바와 같은 본 발명에 따른 언어 분석을 이용한 후처리 기반의 음성 인식 오류 수정 장치의 동작과 상응하는 본 발명에 따른 언어 분석을 이용한 후처리 기반의 음성 인식 오류 수정방법에 대하여 첨부된 도 3을 참조하여 단계적으로 살펴보자. 3 is a flowchart illustrating a method of correcting a speech recognition error based on post-processing using language analysis according to the present invention, which corresponds to the operation of the post-processing based speech recognition error correction apparatus using language analysis according to the present invention. Let's take a step-by-step look at it.

도 3은 본 발명에 따른 언어 분석을 이용한 후처리 기반의 음성 인식 오류 수정 방법에 대한 동작 플로우챠트를 나타낸 도면이다. 여기서, 도 3에 도시된 각 단계들의 설명 중 구체적인 동작에 대해서는 상기의 장치의 설명에서의 각 구성요소들의 동작과 동일하기 때문에 생략하기로 한다. FIG. 3 is a flowchart illustrating a method of correcting a speech recognition error based on post-processing using language analysis according to the present invention. Here, the detailed operation of each step shown in FIG. 3 will be omitted because it is the same as the operation of each component in the above description of the apparatus.

도 3에 도시된 바와 같이, 먼저 음성이 입력되는지 판단하고(S301), 판단 결과, 음성이 입력되는 경우, 입력된 음성을 인식하고, 인식된 결과를 텍스트 형태로 출력한다(S302).As shown in FIG. 3, it is determined whether a voice is input first (S301). If a voice is inputted, the voice is recognized and the recognized result is outputted in text form (S302).

이어, 상기 출력되는 텍스트 문장을 형태소 단위로 분석하고(S303), 형태소 분석 결과를 이용하여 구문 분석을 수행하여 구문 분석을 수행한다(S304).Next, the outputted text sentence is analyzed in morphological unit (S303), and syntax analysis is performed using the morpheme analysis result (S304).

그리고, 구문 분석 결과에 대해 의존 구조의 단위로의 의미 분석을 수행한다(S305). Then, the semantic analysis of the dependency structure is performed on the result of the syntax analysis (S305).

상기 S303 내지 S305 단계(형태소 분석, 구문 분석, 의미 분석)를 통해 분석된 분석 결과를 대상으로 기 설정된 공기정보를 이용하여 오류 후보를 탐색한다(S306).In step S306, error candidates are searched using predetermined air information on the analysis results analyzed through steps S303 to S305 (morphological analysis, syntax analysis, and semantic analysis).

이어, 상기 탐색한 오류 후보에 대해 가능한 정답 후보들을 파악하여 최종적으로 하나의 정답 결과를 생성한 후(S307), 생성된 정답 후보를 이용하여 상기 입력된 음성에 대한 최종 텍스트 즉, 오류가 수정된 텍스트를 생성하여 출력하는 것이다(S308).
Then, a candidate correct answer candidate is searched for the searched error candidate, and one correct answer result is finally generated (S307). Then, the final text of the inputted speech, that is, the error is corrected And generates and outputs a text (S308).

본 발명에 따른 언어 분석을 이용한 후처리 기반의 음성 인식 오류 수정 장치 및 그 방법을 실시 예에 따라 설명하였지만, 본 발명의 범위는 특정 실시 예에 한정되는 것은 아니며, 본 발명과 관련하여 통상의 지식을 가진 자에게 자명한 범위 내에서 여러 가지의 대안, 수정 및 변경하여 실시할 수 있다.The present invention is not limited to the specific embodiments but may be modified and changed without departing from the scope of the present invention. And various modifications, alterations, and changes may be made without departing from the scope of the present invention.

따라서, 본 발명에 기재된 실시 예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.
Therefore, the embodiments described in the present invention and the accompanying drawings are intended to illustrate rather than limit the technical spirit of the present invention, and the scope of the technical idea of the present invention is not limited by these embodiments and accompanying drawings . The scope of protection of the present invention should be construed according to the claims, and all technical ideas within the scope of equivalents should be interpreted as being included in the scope of the present invention.

10 : 음성 인식부
20 : 언어 분석부
21 : 형태소 분석부
22 : 구문 분석부
23 : 의미 분석부
30 : 오류 후보 탐색부
40 : 정답 후보 탐색부
50 : 텍스트 생성부
10:
20: Language Analysis Department
21: Morphological Analysis Department
22: parsing section
23: Semantic Analysis Department
30: Error candidate search unit
40: Correct candidate candidate search section
50:

Claims (1)

입력된 음성을 인식하고, 인식된 결과를 텍스트 형태로 출력하는 음성 인식부;
상기 출력되는 텍스트 문장을 형태소 분석, 형태소 분석 결과를 이용하여 구문 분석 및 구문 분석 결과에 대해 의존 구조의 단위로의 의미 분석을 수행하는 언어 인식부;
상기 형태소 분석, 구문 분석, 의미 분석를 통해 분석된 분석 결과를 대상으로 기 설정된 공기정보를 이용하여 오류 후보를 탐색하는 오류 후보 탐색부;
상기 탐색한 오류 후보에 대해 가능한 정답 후보들을 파악하여 최종적으로 하나의 정답 결과를 생성하는 정답 후보 탐색부; 및
상기 생성된 정답 후보를 이용하여 상기 입력된 음성에 대하여 오류가 수정된 최종 텍스트를 생성하는 텍스트 생성부를 포함하는 언어 분석을 이용한 후처리 기반의 음성 인식 오류 수정 장치.
A voice recognition unit for recognizing the inputted voice and outputting the recognized result in the form of a text;
A language recognition unit for performing a semantic analysis on the output textual sentence and a semantic analysis on the basis of a dependency structure for the result of the syntactic analysis and the analysis result using the morphological analysis result;
An error candidate search unit for searching for an error candidate using predetermined air information about analysis results analyzed through morphological analysis, syntax analysis, and semantic analysis;
A correct answer candidate searching unit for recognizing possible correct candidates for the searched error candidate and finally generating one correct answer result; And
And a text generator for generating an error corrected final text for the input speech using the generated correct answer candidates.
KR1020160156393A 2016-11-23 2016-11-23 Apparatus and method of speech-recognition error correction based on linguistic post-processing KR20180057922A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160156393A KR20180057922A (en) 2016-11-23 2016-11-23 Apparatus and method of speech-recognition error correction based on linguistic post-processing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160156393A KR20180057922A (en) 2016-11-23 2016-11-23 Apparatus and method of speech-recognition error correction based on linguistic post-processing

Publications (1)

Publication Number Publication Date
KR20180057922A true KR20180057922A (en) 2018-05-31

Family

ID=62454504

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160156393A KR20180057922A (en) 2016-11-23 2016-11-23 Apparatus and method of speech-recognition error correction based on linguistic post-processing

Country Status (1)

Country Link
KR (1) KR20180057922A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11948567B2 (en) 2018-12-28 2024-04-02 Samsung Electronics Co., Ltd. Electronic device and control method therefor

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11948567B2 (en) 2018-12-28 2024-04-02 Samsung Electronics Co., Ltd. Electronic device and control method therefor

Similar Documents

Publication Publication Date Title
Waibel et al. Multilinguality in speech and spoken language systems
US8924210B2 (en) Text processing using natural language understanding
US9286886B2 (en) Methods and apparatus for predicting prosody in speech synthesis
US8566076B2 (en) System and method for applying bridging models for robust and efficient speech to speech translation
KR102375115B1 (en) Phoneme-Based Contextualization for Cross-Language Speech Recognition in End-to-End Models
US20100131260A1 (en) System and method for enriching spoken language translation with dialog acts
Honal et al. Correction of disfluencies in spontaneous speech using a noisy-channel approach.
Diehl et al. Morphological decomposition in Arabic ASR systems
Erdogan et al. Incorporating language constraints in sub-word based speech recognition
Lu et al. Disfluency detection for spoken learner english
Graja et al. Statistical framework with knowledge base integration for robust speech understanding of the Tunisian dialect
Nikulásdóttir et al. Help yourself from the buffet: National language technology infrastructure initiative on clarin-is
Gao et al. MARS: A statistical semantic parsing and generation-based multilingual automatic translation system
KR20180057922A (en) Apparatus and method of speech-recognition error correction based on linguistic post-processing
Kathol et al. Speech translation for low-resource languages: the case of Pashto.
Kabra et al. Auto spell suggestion for high quality speech synthesis in hindi
Dutoit et al. TTSBOX: A MATLAB toolbox for teaching text-to-speech synthesis
Sridhar et al. Enriching machine-mediated speech-to-speech translation using contextual information
Lehečka et al. Transformer-based automatic speech recognition of formal and colloquial Czech in MALACH Project
Al-Daradkah et al. Automatic grapheme-to-phoneme conversion of Arabic text
Horii et al. Language modeling for spontaneous speech recognition based on disfluency labeling and generation of disfluent text
Gokhale et al. A Survey of Morphological Analysis for Marathi Language
Boughariou et al. Detecting Speech Disorders Using A Machine-Learning Guided Method in Spontaneous Tunisian Dialect Speech
Carbonell et al. Language technologies for humanitarian aid
Deng et al. Toward enriched decoding of mandarin spontaneous speech