KR20140005639A - Electronic apparatus and method for modifying voice recognition errors thereof - Google Patents

Electronic apparatus and method for modifying voice recognition errors thereof Download PDF

Info

Publication number
KR20140005639A
KR20140005639A KR1020120073518A KR20120073518A KR20140005639A KR 20140005639 A KR20140005639 A KR 20140005639A KR 1020120073518 A KR1020120073518 A KR 1020120073518A KR 20120073518 A KR20120073518 A KR 20120073518A KR 20140005639 A KR20140005639 A KR 20140005639A
Authority
KR
South Korea
Prior art keywords
text
voice
user
candidate
texts
Prior art date
Application number
KR1020120073518A
Other languages
Korean (ko)
Other versions
KR101971513B1 (en
Inventor
박치연
김남훈
조정미
이재원
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020120073518A priority Critical patent/KR101971513B1/en
Publication of KR20140005639A publication Critical patent/KR20140005639A/en
Application granted granted Critical
Publication of KR101971513B1 publication Critical patent/KR101971513B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

Provided are an electronic apparatus and a method for modifying voice recognition errors thereof. The method for modifying voice recognition errors of the electronic apparatus includes recognizing user voice inputted through a voice input part by using a voice model and a language model; displaying the recognized user voice; extracting candidate text for selected text when at least one text among full text displayed is selected; displaying an error correction UI including the candidate text; displaying and changing the selected candidate text as at least one text among candidate text displayed on the error correction UI is selected, and updating the voice model and the language model according to change results. Therefore, a user easily corrects errors due to a voice recognition result. [Reference numerals] (AA) Start; (BB) End; (S610) Inputting user voice; (S620) Recognize the user voice by using a voice model and a language model; (S630) Display the recognized user voice with texts; (S640) Select at least one text?; (S650) Extract candidate text for at least one text; (S660) Display an error correction UI; (S670) Select one among the candidate text; (S680) Change at least one text into the candidate text and display; (S690) Update the voice model and the language model

Description

전자 장치 및 이의 음성 인식 오류 수정 방법{Electronic apparatus and Method for modifying voice recognition errors thereof}BACKGROUND OF THE INVENTION 1. Field of the Invention [0001] The present invention relates to an electronic apparatus,

본 발명은 전자 장치 및 이의 음성 인식 오류 수정 방법에 대한 것으로, 더욱 상세하게는 사용자가 의도하지 않은 음성이 인식된 경우, 음성 인식의 오류를 수정하기 위한 전자 장치 및 이의 음성 인식 오류 수정 방법에 대한 것이다.The present invention relates to an electronic device and a method for correcting a speech recognition error, and more particularly, to an electronic device for correcting an error in speech recognition when a user does not intend to recognize the speech, will be.

전자 기술의 발달에 힘입어 다양한 종류의 전자 장치가 개발되어 보급되고 있다. 특히, 최근에는 TV를 비롯한 다양한 유형의 전자 장치들이 일반 가정에서 사용되고 있다. 이들 전자 장치들은 사용자의 요구에 따라 점차 다양한 기능을 구비하게 되었다. 특히, TV의 경우, 최근에는 인터넷과 연결되어 인터넷 서비스까지 지원하고 있다. 또한, 사용자는 TV를 통해 많은 수의 디지털 방송 채널까지 시청할 수 있게 되었다.Various types of electronic devices have been developed and spread by the development of electronic technology. Especially, in recent years, various types of electronic devices including TVs are used in general households. These electronic devices have gradually become various functions according to the demand of the user. Especially, in the case of TV, recently, it is connected to the Internet and supports Internet service. In addition, the user can view a large number of digital broadcasting channels through the TV.

이에 따라, 전자 장치의 다양한 기능들을 효율적으로 사용하기 위한 다양한 입력 방법이 요구되고 있다. 예를 들어, 리모컨을 이용한 입력 방법, 마우스를 이용한 입력 방법 및 터치 패드를 이용한 입력 방법 등이 전자 장치에 적용되고 있다. Accordingly, various input methods for efficiently using various functions of the electronic apparatus are required. For example, an input method using a remote controller, an input method using a mouse, and an input method using a touch pad have been applied to electronic devices.

하지만, 이러한 단순한 입력 방법만으로는, 전자 장치의 다양한 기능을 효과적으로 사용하기에는 어려움이 있었다. 가령, 전자 장치의 모든 기능들을 리모컨만으로 제어하도록 구현하게 되면, 리모컨의 버튼 수를 늘리는 것이 불가피하였다. 이 경우, 일반 사용자가 리모컨의 사용법을 익히는 것은 결코 용이하지 않은 일이었다. 또한, 다양한 메뉴들을 화면상에 표시하여 사용자가 해당 메뉴를 찾아서 선택하도록 하는 방법의 경우, 사용자가 복잡한 메뉴 트리를 일일이 확인하여, 자신이 원하는 메뉴를 선택하여야 한다는 번거로움이 있었다. However, with such a simple input method, it has been difficult to effectively use various functions of the electronic device. For example, if all the functions of the electronic device are controlled to be controlled by only the remote control, it is inevitable to increase the number of buttons of the remote control. In this case, it was never easy for ordinary users to learn how to use the remote control. In addition, in the method of displaying various menus on the screen and allowing the user to find and select the corresponding menu, the user has to check the complicated menu tree and select the menu desired by him.

이러한 번거로움을 극복하기 위해, 근래에는 전자 장치를 더욱 편리하고 직관적으로 제어하기 위해, 음성 인식을 이용하여 전자 장치를 제어하고 있다. 그러나, 음성 인식 기술의 한계로 인해 100% 완벽하게 사용자의 음성을 인식할 수 없는 상황이 존재한다. In order to overcome this hassle, in recent years, electronic devices are controlled using speech recognition in order to more conveniently and intuitively control the electronic devices. However, due to the limitations of the speech recognition technology, there is a situation where the user's voice can not be perfectly recognized 100%.

따라서, 사용자가 의도하지 않은 음성이 인식된 경우, 이러한 음성 인식 오류를 수정하기 위한 방안의 모색이 요청된다.Therefore, when a voice which is not intended by the user is recognized, a search for a solution for correcting such a voice recognition error is requested.

본 발명은 상기 목적을 달성하기 위해 안출된 것으로, 본 발명의 목적은 음성 인식 오류를 수정하기 위해, 오인식된 텍스트들의 후보 텍스트들이 포함된 오류 수정 UI를 제공하는 전자 장치 및 그의 음성 인식 오류 수정 방법을 제공함에 있다.An object of the present invention is to provide an electronic device that provides an error correction UI including candidate texts of erroneous texts in order to correct a speech recognition error, .

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 전자 장치의 음성 인식 오류 수정 방법은, 음향 모델 및 언어 모델을 이용하여 음성 입력부를 통해 입력된 사용자 음성을 인식하는 단계; 상기 인식된 사용자 음성을 텍스트로 디스플레이하는 단계; 디스플레이된 전체 텍스트 중 적어도 하나의 텍스트가 선택되면, 상기 선택된 텍스트에 대한 복수의 후보 텍스트를 추출하는 단계; 상기 복수의 후보 텍스트가 포함된 오류 수정 UI를 디스플레이하는 단계; 상기 오류 수정 UI에 디스플레이된 복수의 후보 텍스트 중 하나가 선택되면, 상기 선택된 적어도 하나의 텍스트를 상기 선택된 후보 텍스트로 변경하여 디스플레이하는 단계; 및 상기 변경 결과에 따라 상기 음향 모델 및 언어 모델을 업데이트하는 단계;를 포함한다.According to another aspect of the present invention, there is provided a method for correcting a speech recognition error of an electronic device, comprising: recognizing a user speech inputted through a speech input unit using an acoustic model and a language model; Displaying the recognized user voice as text; Extracting a plurality of candidate texts for the selected text if at least one of the displayed full texts is selected; Displaying an error correction UI including the plurality of candidate texts; Modifying the selected at least one text into the selected candidate text and displaying the selected candidate text if one of the plurality of candidate texts displayed in the error correction UI is selected; And updating the acoustic model and the language model according to the result of the change.

그리고, 상기 인식하는 단계는, 상기 음향 모델 및 언어 모델을 이용하여 상기 사용자 음성의 발음 및 문맥을 분석하는 단계; 상기 분석 결과에 따라 상기 사용자 음성과 일치하는 확률이 기설정된 값 이상인 텍스트로 구성된 음성 래티스(lattice)를 생성하는 단계; 및 상기 음성 래티스 중 사용자 음성과 일치하는 확률이 가장 높은 경로를 사용자 음성에 대응되는 텍스트로 출력하는 단계;을 포함할 수 있다.The recognizing may include: analyzing pronunciation and context of the user voice using the acoustic model and the language model; Generating a speech lattice composed of text having a probability equal to or greater than a predetermined value according to the analysis result; And outputting, as text corresponding to the user's voice, a path having the highest probability of matching the user's voice among the voice lattices.

또한, 상기 추출하는 단계는, 상기 음성 래티스 중 사용자 음성과 일치하는 확률이 가장 높은 텍스트를 제외하고, 상기 적어도 하나의 텍스트와 시작점 및 끝점 중 적어도 하나가 동일한 텍스트를 후보 텍스트로 추출할 수 있다.In addition, the extracting step may extract the text having at least one of the at least one text and at least one of the start point and the end point as candidate text, except for the text having the highest probability of matching the user's voice among the speech lattices.

그리고, 상기 오류 수정 UI에 포함된 복수의 후보 텍스트는, 상기 사용자 음성과 일치하는 확률이 높은 순서대로 디스플레이될 수 있다.The plurality of candidate texts included in the error correction UI may be displayed in the order of higher probability of matching with the user's voice.

또한, 상기 추출하는 단계는, 발음 사전을 이용하여 상기 사용자 음성의 발음과 유사도가 기설정된 값 이상인 텍스트를 후보 텍스트로 추출할 수 있다.Further, the extracting step may extract a text having a pronunciation similar to that of the user's voice and having a predetermined value or more as candidate text using a pronunciation dictionary.

그리고, 상기 업데이트하는 단계는, 상기 인식된 사용자의 음성에 대한 상기 변경된 후보 텍스트의 가중치를 높이도록 업데이트할 수 있다.The updating may be performed to increase a weight of the changed candidate text with respect to the recognized user's voice.

한편, 상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 전자 장치는, 사용자 음성을 입력받는 음성 입력부; 음향 모델 및 언어 모델을 이용하여 상기 사용자 음성을 인식하는 음성 인식부; 상기 인식된 사용자 음성을 텍스트로 디스플레이하는 디스플레이부; 사용자 명령을 입력받는 사용자 입력부; 및 상기 사용자 입력부를 통해 상기 디스플레이부에 디스플레이된 전체 텍스트 중 적어도 하나의 텍스트가 선택되면, 상기 선택된 텍스트에 대한 복수의 후보 텍스트를 추출하고, 상기 복수의 후보 텍스트가 포함된 오류 수정 UI를 디스플레이하도록 상기 디스플레이부를 제어하며, 상기 사용자 입력부를 통해 상기 오류 수정 UI에 디스플레이된 복수의 후보 텍스트 중 하나가 선택되면, 상기 선택된 적어도 하나의 텍스트를 상기 선택된 후보 텍스트로 변경하여 디스플레이하도록 상기 디스플레이부를 제어하며, 상기 변경 결과에 따라 상기 음향 모델 및 언어 모델을 업데이트하는 제어부;를 포함한다.According to another aspect of the present invention, there is provided an electronic device including: a voice input unit receiving a user voice; A speech recognition unit for recognizing the user speech using an acoustic model and a language model; A display unit for displaying the recognized user voice as text; A user input unit for receiving a user command; And a display control unit configured to display a plurality of candidate texts for the selected text and to display an error correction UI including the plurality of candidate texts when at least one text among all the texts displayed on the display unit is selected through the user input unit And controls the display unit to change the selected at least one text to the selected candidate text and display the selected candidate text if one of the plurality of candidate texts displayed in the error correction UI is selected through the user input unit, And a controller for updating the acoustic model and the language model according to the change result.

그리고, 상기 음성 인식부는, 상기 음향 모델 및 언어 모델을 이용하여 상기 사용자 음성의 발음 및 문맥을 분석하고, 상기 분석 결과에 따라 상기 사용자 음성과 일치하는 확률이 기설정된 값 이상인 텍스트로 구성된 음성 래티스를 생성하며, 상기 음성 래티스 중 사용자 음성과 일치하는 확률이 가장 높은 경로를 사용자 음성에 대응되는 텍스트로 출력할 수 있다.The speech recognition unit may analyze the pronunciation and the context of the user's voice using the acoustic model and the language model and analyze the speech lattice composed of text having a probability equal to or greater than a predetermined value according to the analysis result And output the path having the highest probability of matching the user voice among the voice lattices as a text corresponding to the user voice.

또한, 상기 제어부는, 상기 음성 래티스 중 사용자 음성과 일치하는 확률이 가장 높은 텍스트를 제외하고, 상기 적어도 하나의 텍스트와 시작점 및 끝점 중 적어도 하나가 동일한 텍스트를 후보 텍스트로 추출할 수 있다.In addition, the control unit may extract the text having at least one of the at least one text and at least one of the start point and the end point as candidate text, excluding the text having the highest probability of matching the user's voice among the speech lattices.

그리고, 상기 오류 수정 UI에 포함된 복수의 후보 텍스트는, 상기 사용자 음성과 일치하는 확률이 높은 순서대로 디스플레이될 수 있다.The plurality of candidate texts included in the error correction UI may be displayed in the order of higher probability of matching with the user's voice.

또한, 상기 제어부는, 발음 사전을 이용하여 상기 사용자 음성의 발음과 유사도가 기설정된 값 이상인 텍스트를 후보 텍스트로 추출할 수 있다.In addition, the control unit can extract the text having the pronunciation similar to that of the user's voice and having a predetermined value or more as candidate text using the pronunciation dictionary.

그리고, 상기 제어부는, 상기 인식된 사용자의 음성에 대한 상기 변경된 후보 텍스트의 가중치를 높이도록 업데이트할 수 있다.The control unit may update the weight of the changed candidate text with respect to the recognized user's voice.

상술한 바와 같은 본 발명의 다양한 실시예에 의해, 사용자는 보다 편리하게 음성 인식 결과에 나타난 오류를 수정할 수 있다. 또한, 후보 텍스트 추출 시 음향 모델, 언어 모델 및 발음 사전을 함께 이용함으로써, 더욱 정확한 후보 텍스트를 추출할 수 있게 된다. 또한, 오류 수정 결과를 업데이트함으로써, 차후에 더욱 정환한 음성 인식이 가능해진다.According to various embodiments of the present invention as described above, the user can more easily correct the error indicated in the speech recognition result. Further, by using the acoustic model, the language model, and the pronunciation dictionary at the time of extracting the candidate text, more accurate candidate text can be extracted. In addition, by updating the error correction result, it becomes possible to further refine speech recognition later.

도 1은 본 발명의 일 실시예에 따른, 전자 장치의 구성을 나타내는 블럭도,
도 2 및 도 3은 본 발명의 일 실시예에 따른, 음성 인식 결과에 의한 래티스를 도시한 도면,
도 4는 본 발명의 일 실시예에 따른, 발음 사전에 저장된 데이터 베이스를 도시한 도면,
도 5는 본 발명의 일 실시예에 따른, 오류 수정 UI를 도시한 도면, 그리고
도 6은 본 발명의 일 실시예에 따른, 음성 인식 오류 수정 방법을 설명하기 위한 흐름도이다.
1 is a block diagram showing the configuration of an electronic device according to an embodiment of the present invention;
FIGS. 2 and 3 illustrate lattices according to speech recognition results according to an embodiment of the present invention;
FIG. 4 is a diagram illustrating a database stored in a pronunciation dictionary according to an embodiment of the present invention; FIG.
FIG. 5 is a diagram illustrating an error correction UI according to an embodiment of the present invention, and FIG.
6 is a flowchart illustrating a method of correcting a speech recognition error according to an embodiment of the present invention.

이하에서는 도면을 참조하여 본 발명에 대해 더욱 상세히 설명하도록 한다. 도 1은 본 발명의 일 실시예에 따른, 전자 장치(100)의 구성을 나타내는 블럭도이다. 도 1에 도시된 바와 같이, 전자 장치(100)는 음성 입력부(110), 음성 인식부(120), 사용자 입력부(130), 디스플레이부(140) 및 제어부(150)를 포함한다. 이때, 전자 장치(100)는 스마트 TV일 수 있으나, 이에 한정되지 않고, 데스크탑 PC, 태블릿 PC, 스마트 폰 등과 같이 음성 인식이 적용될 수 있는 다양한 전자 장치에 적용될 수 있다.Hereinafter, the present invention will be described in more detail with reference to the drawings. 1 is a block diagram showing the configuration of an electronic device 100 according to an embodiment of the present invention. 1, the electronic device 100 includes a voice input unit 110, a voice recognition unit 120, a user input unit 130, a display unit 140, and a control unit 150. At this time, the electronic device 100 may be a smart TV, but the present invention is not limited thereto and can be applied to various electronic devices to which voice recognition can be applied, such as a desktop PC, a tablet PC, a smart phone and the like.

음성 입력부(110)는 사용자 음성이 포함된 오디오 신호를 입력받고, 오디오 신호를 처리하여 사용자 음성 신호를 생성한다. The voice input unit 110 receives an audio signal including a user voice and processes the audio signal to generate a user voice signal.

이때, 음성 입력부(110)는 전자 장치(100)의 본체의 외부에 구비될 수 있다. 전자 장치(100) 본체의 외부에 구비된 경우, 음성 입력부(110)는 무선 인터페이스(예를 들어, Wi-Fi, 블루투스 등)을 통해 생성된 사용자 음성 신호를 전자 장치(100)의 본체에 전송할 수 있다. 특히, 본 발명의 일 실시예에 따른 음성 입력부(110)는 마이크(미도시), ADC(Analog-Digital Converter)(미도시), 에너지 판단부(미도시), 노이즈 제거부(미도시) 및 음성신호 생성부(미도시)를 포함할 수 있다. At this time, the voice input unit 110 may be provided outside the main body of the electronic device 100. The voice input unit 110 transmits a user voice signal generated through a wireless interface (for example, Wi-Fi, Bluetooth, etc.) to the main body of the electronic device 100 . Particularly, the voice input unit 110 according to an embodiment of the present invention includes a microphone (not shown), an ADC (Analog-Digital Converter) (not shown), an energy determination unit (not shown), a noise removing unit And a voice signal generator (not shown).

마이크는 사용자 음성이 포함된 아날로그 형태의 오디오 신호를 입력받는다.The microphone receives an analog audio signal containing user voice.

그리고, ADC는 마이크로부터 입력된 다채널 아날로그 신호를 디지털 신호로 변환한다. The ADC converts a multi-channel analog signal input from a microphone into a digital signal.

그리고, 에너지 판단부는 변환된 디지털 신호의 에너지를 계산하여, 디지털 신호의 에너지가 기설정된 값 이상인지 여부를 판단한다. 디지털 신호의 에너지가 기설정된 값 이상인 경우, 에너지 판단부는 입력된 디지털 신호를 노이즈 제거부로 전송하고, 디지털 신호의 에너지가 기설정된 값 미만인 경우, 에너지 판단부는 입력된 디지털 신호를 외부로 출력하지 않고, 다른 입력을 기다린다. 이는 음성 신호가 아닌 소리에 의해 전체 오디오 처리 과정이 활성화되지 않아, 불필요한 전력 소모를 방지하기 위함이다. The energy determination unit calculates the energy of the converted digital signal to determine whether the energy of the digital signal is equal to or greater than a predetermined value. When the energy of the digital signal is equal to or greater than a predetermined value, the energy determining unit transmits the input digital signal to the noise removing unit. When the energy of the digital signal is less than a preset value, the energy determining unit does not output the inputted digital signal to the outside , Waiting for another input. This is to prevent unnecessary power consumption because the entire audio processing process is not activated by a sound other than a voice signal.

한편, 상술한 실시예에서는 에너지 판단부를 이용하여 불필요한 전력 소모를 방지하는 것으로 설명하였으나, 이는 일 실시예에 불과할 뿐, 버튼을 이용하여, 불필요한 전력 소모를 방지할 수 있다. 예를 들어, 버튼을 누른 경우에 입력되는 음성 신호에 대해서는 음성 인식을 수행하여, 불필요한 전력 소모를 방지할 수 있게 된다.Meanwhile, in the above-described embodiment, unnecessary power consumption is prevented by using the energy determining unit. However, unnecessary power consumption can be prevented by using the button only by way of example. For example, unnecessary power consumption can be prevented by performing speech recognition on a voice signal input when a button is pressed.

노이즈 제거부에 입력된 디지털 신호가 입력된 경우, 노이즈 제거부는 노이즈 성분과 사용자 음성 성분이 포함된 디지털 신호 중 노이즈 성분을 제거한다. 이때, 노이즈 성분은 가정 환경에서 발생할 수 있는 돌발성 잡음으로써, 에어컨 소리, 청소기 소리, 음악 소리 등이 포함될 수 있다. 그리고, 노이즈 제거부는 노이즈 성분이 제거된 디지털 신호를 음성 신호 생성부로 출력한다. When the digital signal inputted to the noise removing unit is inputted, the noise removing unit removes the noise component from the digital signal including the noise component and the user's voice component. At this time, the noise component is sudden noise that may occur in a home environment, and may include air conditioner sound, cleaner sound, music sound, and the like. The noise removing unit outputs the digital signal from which the noise component is removed to the voice signal generating unit.

음성 신호 생성부는 Localization/Speaker Tracking 모듈을 이용하여 음성 입력부를 기준으로 360˚ 범위 내에 존재하는 사용자의 발화 위치를 추적하여 사용자 음성에 대한 방향 정보를 구한다. 그리고, 음성 신호 생성부는 Target Spoken Sound Extraction 모듈을 통해 노이즈가 제거된 디지털 신호와 사용자 음성에 대한 방향 정보를 이용하여 음성 입력부를 기준으로 360˚ 범위 내에 존재하는 목표 음원을 추출한다. 특히, 음성 입력부(110)가 외부에 구비된 경우, 음성 신호 생성부는 사용자 음성을 전자 장치로 전송하기 위한 형태의 사용자 음성 신호로 변환하고, 무선 인터페이스를 이용하여 전자 장치의 본체로 사용자 음성 신호를 전송한다.The voice signal generator uses the Localization / Speaker Tracking module to track the user's speech position within 360 ° of the voice input unit to obtain direction information on the user voice. The speech signal generation unit extracts a target sound source existing within a 360 ° range based on the speech input unit by using the target spoken sound extraction module, using the noise-canceled digital signal and the direction information on the user's voice. In particular, when the voice input unit 110 is provided externally, the voice signal generator converts the user voice into a user voice signal for transmission to the electronic device, and transmits the user voice signal to the body of the electronic device using the wireless interface send.

음성 인식부(120)는 음향 모델(123) 및 언어 모델(126)을 이용하여 음성 입력부(110)를 통해 입력된 사용자 음성 신호를 인식한다. The voice recognition unit 120 recognizes a user voice signal input through the voice input unit 110 using the acoustic model 123 and the language model 126. [

이때, 음향 모델(123)은 음소(즉, 발성 단위, e.g. words, syllables, triphones, or smaller parts of speech)가 어떤 식으로 발성되는지를 다수의 화자 발성 데이터를 토대로 훈련함으로써 만들어지는 음성의 통계적 모델이다. 즉, '아' 라는 단어는 소리로 어떻게 표현되는지를 모델로 만들어 두는 것이다. 특히, 본 발명의 일 실시예에 따른 음향 모델(123)은 HMM(hidden Markov model) 모델을 이용할 수 있다. At this time, the acoustic model 123 is a statistical model of speech produced by training a plurality of speech data based on how a phoneme (i.e., speech unit, eg words, syllables, triphones, or smaller parts of speech) to be. In other words, the word 'ah' is a model of how the sound is expressed. In particular, the acoustic model 123 according to an embodiment of the present invention may use a hidden Markov model (HMM) model.

그리고, 언어 모델(126)은 음성 신호의 문법을 검색할 수 있다. 이는 텍스트 말뭉치 데이터베이스로부터 문법을 추출하여, 학습 및 탐색 시 임의적인 문장보다는 문법에 맞는 언어모델은 단어와 단어 사이의 말의 규칙을 정해 두는 것으로, 일종의 문법이라고 볼 수 있다. '아버지가 방에 들어갑니다'의 경우에, '아버지가 방에' 다음에 '들어갑니다'라는 말이 오면 말이 되지만, '아버지가 방에' 다음에 '사랑합니다'라는 말이 오면 문법적인 것도 틀리고, 의미론적으로도 맞지 않다. 이와 같이 언어모델은 단어와 단어 사이의 문법을 확률 값으로 정의해 둔 것이다. Then, the language model 126 can search the grammar of the voice signal. It extracts the grammar from the text corpus database and determines the rules of the language between the words and the words in the grammatical language model rather than arbitrary sentences in learning and searching. In the case of 'father enters the room', it makes sense to say that 'father enters the room' next, but if 'father' comes to the room and then 'I love you' It is not semantically correct either. Thus, the language model defines the grammar between word and word as a probability value.

구체적으로, 음성 인식부(120)는 음향 모델(123) 및 언어 모델(126)을 이용하여 사용자 음성 신호의 발음 및 문맥을 분석하고, 분석 결과에 따라 사용자 음성 신호와 일치하는 확률이 기설정된 값 이상인 텍스트로 구성된 음성 래티스(lattice)를 생성하며, 음성 래티스 중 사용자 음성과 일치하는 확률이 가장 높은 경로(Path)를 사용자 음성에 대응되는 텍스트로 출력할 수 있다. 이때, 음성 래티스는 도 2 및 도 3에 도시된 바와 같이, 사용자 음성 신호와 일치할 수 있는 복수의 텍스트들을 네트워크 형태로 복수의 경로를 통해 구성한 단어 그래프일 수 있다.Specifically, the speech recognition unit 120 analyzes the pronunciation and the context of the user's voice signal using the acoustic model 123 and the language model 126, and calculates a probability that the user's voice signal coincides with a predetermined value And outputs the path having the highest probability of matching with the user voice in the voice lattice as text corresponding to the user voice. 2 and 3, the speech lattice may be a word graph composed of a plurality of texts that can coincide with a user's voice signal through a plurality of paths in a network form.

한편, 본 발명의 일 실시예에 따른, 음향 모델(123) 및 언어 모델(126)은 전자 장치(100) 내부에 구비될 수 있으나, 이는 일 실시예에 불과할 뿐, 외부의 서버를 통해 제공될 수 있다. 또한, 음성 인식부(120)는 별도의 모듈로 구현될 수 있으나, 이는 일 실시예에 불과할 뿐, 제어부(150)와 동일한 모듈로 구현될 수도 있다.Meanwhile, the acoustic model 123 and the language model 126 according to an embodiment of the present invention may be provided in the electronic device 100, but this is merely an example and may be provided through an external server . In addition, the voice recognition unit 120 may be implemented as a separate module, but it may be implemented in the same module as the control unit 150, which is merely an embodiment.

사용자 입력부(130)는 전자 장치(100)를 제어하기 위한 사용자 명령을 입력받는다. 이때, 사용자 입력부(130)는 리모컨, 마우스, 키보드, 터치 스크린 등과 같은 입력 장치로 구현될 수 있다.The user input unit 130 receives a user command for controlling the electronic device 100. At this time, the user input unit 130 may be implemented as an input device such as a remote controller, a mouse, a keyboard, a touch screen, or the like.

디스플레이부(140)는 제어부(150)의 제어에 의해 영상 데이터를 디스플레이한다. 특히, 디스플레이부(140)는 음성 인식부(120)에 의해 인식된 사용자 음성을 텍스트로 출력할 수 있다. 또한, 디스플레이부(140)는 오인식된 사용자 음성을 수정하기 위한 오류 수정 UI(User Interface)를 디스플레이할 수 있다.The display unit 140 displays the image data under the control of the controller 150. In particular, the display unit 140 can output the user's voice recognized by the voice recognition unit 120 as text. Also, the display unit 140 may display an error correction UI (User Interface) for correcting the misunderstood user's voice.

제어부(150)는 사용자 명령에 의해 전자 장치(100)의 전반적인 동작을 제어할 수 있다. 특히, 사용자 입력부(130)를 통해 디스플레이부(140)에 디스플레이된 전체 텍스트 중 적어도 하나의 텍스트가 선택되면, 제어부(150)는 선택된 텍스트에 대한 복수의 후보 텍스트를 추출하고, 복수의 후보 텍스트가 포함된 오류 수정 UI를 디스플레이하도록 디스플레이부(140)를 제어한다. 그리고, 사용자 입력부(130)를 통해 오류 수정 UI에 디스플레이된 복수의 후보 텍스트 중 하나가 선택되면, 제어부(150)는 선택된 적어도 하나의 텍스트를 선택된 후보 텍스트로 변경하여 디스플레이하도록 디스플레이부(140)를 제어한다. 그리고 제어부(150)는 변경 결과에 따라 음향 모델(123) 및 언어 모델(126)을 업데이트 한다.The control unit 150 can control the overall operation of the electronic device 100 by a user command. In particular, when at least one text among the entire text displayed on the display unit 140 is selected through the user input unit 130, the control unit 150 extracts a plurality of candidate texts for the selected text, And controls the display unit 140 to display the included error correction UI. If one of the plurality of candidate texts displayed on the error correction UI is selected through the user input unit 130, the control unit 150 displays the selected text on the display unit 140 . Then, the control unit 150 updates the acoustic model 123 and the language model 126 in accordance with the changed result.

구체적으로, 제어부(150)는 음성 인식부(120)를 통해 인식된 사용자 음성에 대응되는 텍스트 정보를 디스플레이부(140)에 디스플레이할 수 있다. 구체적으로, 음성 입력부(110)를 통해 사용자 음성 신호가 입력되면, 음성 인식부(120)는 음향 모델(123) 및 언어 모델(126)을 이용하여, 도 2에 도시된 바와 같은 사용자 음성과 일치하는 확률이 기 설정된 값 이상인 텍스트로 구성된 음성 래티스(lattice)를 출력한다. 그리고, 제어부(150)는 음성 래티스 중 가장 확률이 높은 1-Best Path를 음성 인식의 결과로 디스플레이부(140)에 디스플레이한다. 예를 들어, 도 2에 도시된 바와 같은 음성 래티스에서, 제어부(150)는 가장 확률이 높다고 판단된 "benign bone lesion의 가능성이 높음"을 디스플레이부(140)에 디스플레이할 수 있다.Specifically, the control unit 150 may display the text information corresponding to the recognized user voice through the voice recognition unit 120 on the display unit 140. [ Specifically, when a user's voice signal is input through the voice input unit 110, the voice recognition unit 120 uses the acoustic model 123 and the language model 126 to match the user voice as shown in FIG. 2 And outputs a speech lattice composed of text having a probability that the probability of occurrence of the speech is larger than a predetermined value. Then, the control unit 150 displays the 1-best path having the highest probability of speech lattice on the display unit 140 as a result of speech recognition. For example, in the voice lattice as shown in FIG. 2, the control unit 150 can display on the display unit 140 the highest possibility of benign bone lesion, which is determined to be the most probable.

그리고, 사용자가 디스플레이된 텍스트가 오인식되었다고 판단하여 사용자 입력부(140)를 통해 오인식된 적어도 하나의 텍스트를 선택한 경우, 제어부(150)는 선택된 텍스트에 대한 적어도 하나의 후보 텍스트를 추출한다. If the user determines that the displayed text is misrecognized and selects at least one text misunderstood through the user input unit 140, the control unit 150 extracts at least one candidate text for the selected text.

구체적으로, 제어부(150)는 음성 래티스 중 사용자 음성과 일치하는 확률이 가장 높은 텍스트를 제외한 나머지 텍스트를 후보 텍스트로 추출할 수 있다. 예를 들어, 사용자가 디스플레이된 텍스트 중에서 "bone lesion"을 선택한 경우, 제어부(150)는 도 6에 도시된 음성 래티스 중에서 "condition" 및 "lesion"을 "bone lesion"의 후보 텍스트로 추출할 수 있다.Specifically, the control unit 150 can extract the remaining text excluding the text having the highest probability of matching the user's voice in the speech lattice as the candidate text. For example, when the user selects "bone lesion" from the displayed text, the control unit 150 can extract "condition" and "lesion" from the speech lattice shown in FIG. 6 as candidate text of "bone lesion" have.

특히, 제어부(150)는 사용자가 음성 래티스 중에서 시작점 및 끝점 중 적어도 하나가 일치하는 텍스트를 후보 텍스트로 추출할 수 있다. 구체적으로, 도 3에 도시된 바와 같이, "bone lesion"과 "condition"은 시작점이 서로 동일하나, 끝점이 동일하지 못하다. 그러나, 본 발명의 일 실시예에서는 끝점이 서로 상이하더라도 시작점만 동일한 경우, 후보 텍스트로 추출할 수 있다. In particular, the control unit 150 can extract a text in which at least one of the start point and the end point of the speech lattice matches the candidate text. Specifically, as shown in Fig. 3, the "bone lesion" and the "condition" have the same start points but the same end points. However, in one embodiment of the present invention, even if the end points are different from each other, if the start points are the same, the candidate text can be extracted.

또한, 사용자가 복수의 텍스트를 선택한 경우, 제어부(150)는 음성 래티스 중에서 사용자가 선택한 복수의 텍스트의 시작점 및 끝점의 범위 내에 들어오는 Path를 후보 텍스트로 추출할 수 있다.In addition, when the user selects a plurality of texts, the control unit 150 can extract, as candidate texts, Paths falling within the range of the start point and the end point of a plurality of texts selected by the user from the speech lattice.

또한, 신조어나 자주 사용하지 않는 언어가 입력된 경우, 언어 모델(126)을 통해 후보로 제시되지 못하는 후보 텍스트가 발생할 수 있으므로, 제어부(150)는 도 4에 도시된 바와 같은 발음 사전을 이용하여 사용자 음성의 발음과 유사도가 기설정된 값 이상인 텍스트를 후보 텍스트로 추출할 수 있다. 이때, 발음 사전은 특정 단어와 발음이 유사한 단어를 특정 단어와 일치할 확률과 함께 매칭하여 저장한 데이터베이스일 수 있다. When a new coined word or a language not frequently used is input, a candidate text that can not be presented as a candidate through the language model 126 may be generated. Therefore, the control unit 150 may use a pronunciation dictionary as shown in FIG. 4 The text whose pronunciation and similarity of the user voice is equal to or greater than a predetermined value can be extracted as the candidate text. At this time, the pronunciation dictionary may be a database in which words similar in pronunciation to a specific word are matched and stored together with a probability of coinciding with a specific word.

그리고, 제어부(150)는 추출된 복수의 후보 텍스트가 포함된 오류 수정 UI를 디스플레이할 수 있다. 이때, 제어부(150)는 도 5에 도시된 바와 같이, 사용자가 선택한 텍스트의 하단에 오류 수정 UI(510)를 디스플레이할 수 있다. 이때, 오류 수정 UI(510)에 포함된 복수의 후보 텍스트는 사용자 음성과 일치하는 확률이 높은 순서대로 디스플레이될 수 있다. 예를 들어, 오류 수정 UI(510)는 "bone lesion"의 후보 텍스트로 "Bone lesion", "Bony lesion", "Condition" 및 "Lesion"을 디스플레이할 수 있다.The control unit 150 may display an error correction UI including a plurality of extracted candidate texts. At this time, as shown in FIG. 5, the controller 150 may display the error correction UI 510 at the bottom of the text selected by the user. At this time, the plurality of candidate texts included in the error correction UI 510 can be displayed in the order of high probability of matching with the user's voice. For example, the error correction UI 510 may display "Bone lesion", "Bony lesion", "Condition", and "Lesion" as the candidate text of "bone lesion".

그리고, 사용자 입력부(130)를 통해 오류 수정 UI(510)에 디스플레이된 복수의 후보 텍스트 중 하나가 선택되면, 제어부(150)는 선택된 적어도 하나의 텍스트를 사용자에 의해 선택된 후보 텍스트로 변경하여 디스플레이할 수 있다. 예를 들어, 도 5에 도시된 바와 같은 오류 수정 UI(510)를 통해 "Condition"을 선택한 경우, 제어부(510)는 사용자 음성을 인식한 텍스트 문장을 "Benign Condition 가능성이 높음"으로 수정하여 디스플레이할 수 있다.When one of a plurality of candidate texts displayed on the error correction UI 510 is selected through the user input unit 130, the control unit 150 changes the selected at least one text to a candidate text selected by the user . For example, when "Condition" is selected through the error correction UI 510 as shown in FIG. 5, the control unit 510 corrects a text sentence in which the user's voice is recognized as & can do.

사용자가 바꾸고자 하는 텍스트가 후보 텍스트에 없는 경우, 제어부(150)는 수정하고자 하는 텍스트를 사용자 입력부(130)를 통해 사용자가 직접 입력한 텍스트로 변경하여 디스플레이할 수 있다.If the text to be changed by the user is not in the candidate text, the control unit 150 may display the text to be modified by the user through the user input unit 130 and display the changed text.

그리고, 제어부(150)는 변경 결과에 따라 음향 모델(123) 및 언어 모델(126)을 업데이트할 수 있다. 즉, 사용자가 발화한 음성 신호가 다음에 다시 입력되는 경우, 변경된 텍스트가 최우선적으로 출력될 수 있도록, 제어부(150)는 음향 모델(123) 및 언어 모델(126)을 학습시킬 수 있다.Then, the control unit 150 can update the acoustic model 123 and the language model 126 according to the result of the change. That is, when the voice signal that the user has uttered is input again, the controller 150 can learn the acoustic model 123 and the language model 126 so that the changed text can be output with the highest priority.

구체적으로, 음성 래티스에 각각의 후보 단어들에 해당하는 음성 구간이 함께 표기되어 있으므로, 제어부(150)는 음성 래티스의 음성 구간을 바탕으로 수정된 텍스트에 해당하는 음성 구간을 파악하고, 변경된 Path에 대해 더 높은 가중치를 두도록 음향 모델을 업데이트 할 수 있다. 또한, 제어부(150)는 수정된 텍스트를 포함하는 문법에 대해 더 높은 가중치를 두도록 언어 모델(126)을 업데이트할 수 있다.Specifically, since the voice lattice corresponding to each of the candidate words is displayed together with the voice lattice, the controller 150 grasps a voice section corresponding to the modified text based on the voice lattice voice section, The acoustic model can be updated so as to have a higher weighting value. In addition, the controller 150 may update the language model 126 to place a higher weight on the grammar containing the modified text.

상술한 바와 같은 전자 장치(100)에 의해, 사용자는 보다 편리하게 음성 인식 결과에 나타난 오류를 수정할 수 있다. 또한, 후보 텍스트 추출 시 음향 모델, 언어 모델 및 발음 사전을 함께 이용함으로써, 더욱 정확한 후보 텍스트를 추출할 수 있게 된다. 또한, 오류 수정 결과를 업데이트함으로써, 차후에 더욱 정환한 음성 인식이 가능해진다.
With the electronic device 100 as described above, the user can more easily correct an error indicated in the speech recognition result. Further, by using the acoustic model, the language model, and the pronunciation dictionary at the time of extracting the candidate text, more accurate candidate text can be extracted. In addition, by updating the error correction result, it becomes possible to further refine speech recognition later.

이하에서는 도 6을 참조하여, 전자 장치(100)의 음성 인식 오류 수정 방법에 대해 더욱 상세히 설명하기로 한다.Hereinafter, a method for correcting a speech recognition error of the electronic device 100 will be described in more detail with reference to FIG.

우선, 전자 장치(100)는 음성 입력 장치를 통해 사용자 음성을 입력받는다(S610). 이때, 전자 장치(100)는 마이크와 같은 음성 입력 장치를 통해 사용자 음성을 입력받고, 사용자 음성을 디지털 신호로 변환한 후, 노이즈를 제거하여, 사용자 음성 신호를 추출할 수 있다.First, the electronic device 100 receives the user's voice through the voice input device (S610). At this time, the electronic device 100 receives a user's voice through a voice input device such as a microphone, converts the user's voice into a digital signal, and then removes noise to extract the user's voice signal.

그리고, 전자 장치(100)는 음향 모델(123) 및 언어 모델(126)을 이용하여 사용자 음성을 인식한다(S620). 구체적으로, 전자 장치(100)는 음향 모델(123) 및 언어 모델(126)을 이용하여 사용자 음성의 발음 및 문맥을 분석하고, 분석 결과에 따라 사용자 음성과 일치하는 확률이 기설정된 값 이상인 텍스트로 구성된 음성 래티스를 생성하며, 음성 래티스 중 사용자 음성과 일치하는 확률이 가장 높은 경로의 텍스트를 사용자 음성에 대응되는 텍스트로 출력할 수 있다.Then, the electronic device 100 recognizes the user's voice using the acoustic model 123 and the language model 126 (S620). Specifically, the electronic device 100 analyzes the pronunciation and the context of the user's voice using the acoustic model 123 and the language model 126, and analyzes the pronunciation and the context of the user's voice using the acoustic model 123 and the language model 126, The text of the path having the highest probability of coinciding with the user voice in the speech lattice can be output as the text corresponding to the user voice.

그리고, 전자 장치(100)는 인식된 사용자 음성을 텍스트로 디스플레이한다(S630). Then, the electronic device 100 displays the recognized user voice as text (S630).

그리고, 전자 장치(100)는 오인식된 텍스트를 수정하기 위하여, 디스플레이된 텍스트 중에서 적어도 하나의 텍스트가 선택되었는지 여부를 판단한다(S640).Then, the electronic device 100 determines whether at least one of the displayed texts is selected in order to correct the misunderstood text (S640).

오인식된 적어도 하나의 텍스트가 선택된 경우(S640-Y), 전자 장치(100)는 적어도 하나의 텍스트에 대한 후보 텍스트를 추출한다(S650). 이때, 전자 장치(100)는 음성 래티스 중 사용자 음성과 일치하는 확률이 가장 높은 텍스트를 제외하고, 적어도 하나의 텍스트와 시작점 및 끝점 중 적어도 하나가 동일한 텍스트를 후보 텍스트로 추출할 수 있다. 또한, 전자 장치(100)는 발음 사전을 이용하여 사용자 음성의 발음과 유사도가 기설정된 값 이상인 텍스트를 후보 텍스트로 추출할 수 있다.If at least one piece of misrecognized text is selected (S640-Y), the electronic device 100 extracts candidate text for at least one text (S650). At this time, the electronic device 100 may extract at least one text, at least one of the start point and the end point, as candidate text, excluding the text having the highest probability of matching the user voice among the speech lattices. Also, the electronic device 100 can extract a text having a pronunciation of the user's voice and a degree of similarity equal to or greater than a preset value as candidate text using the pronunciation dictionary.

그리고, 전자 장치(100)는 추출된 후보 텍스트가 포함된 오류 수정 UI를 디스플레이한다(S660). 이때, 오류 수정 UI는 사용자 음성과 일치하는 확률이 높은 순서대로 후보 텍스트를 디스플레이할 수 있다.Then, the electronic device 100 displays an error correction UI including the extracted candidate text (S660). At this time, the error correction UI can display the candidate text in the order of high probability of matching with the user's voice.

그리고, 전자 장치(100)는 오류 수정 UI에 디스플레이된 후보 텍스트 중 하나가 선택되었는지 여부를 판단한다(S670).Then, the electronic device 100 determines whether one of the candidate texts displayed in the error correction UI is selected (S670).

후보 텍스트 중 하나가 선택되면(S670-Y), 전자 장치(100)는 적어도 하나의 텍스트를 선택된 후보 텍스트로 변경하여 디스플레이한다(S680).If one of the candidate texts is selected (S670-Y), the electronic device 100 changes at least one text to the selected candidate text and displays it (S680).

그리고, 전자 장치(100)는 변경 결과를 바탕으로 음향 모델(123) 및 언어 모델(125)을 업데이트 한다(S690). 즉, 사용자가 발화한 음성 신호가 다음에 다시 입력되는 경우, 변경된 후보 텍스트가 최우선적으로 출력될 수 있도록, 전자 장치(100)는 음향 모델(123) 및 언어 모델(126)을 학습시킬 수 있다.Then, the electronic device 100 updates the acoustic model 123 and the language model 125 based on the change result (S690). That is, the electronic device 100 can learn the acoustic model 123 and the language model 126 so that the changed candidate text can be output with the highest priority when the speech signal that the user uttered next is input again .

상술한 바와 같은 음성 인식 오류 수정 방법에 의해, 사용자는 보다 편리하게 음성 인식 결과에 나타난 오류를 수정할 수 있다. 또한, 후보 텍스트 추출 시 음향 모델, 언어 모델 및 발음 사전을 함께 이용함으로써, 더욱 정확한 후보 텍스트를 추출할 수 있게 된다. 또한, 오류 수정 결과를 업데이트함으로써, 차후에 더욱 정환한 음성 인식이 가능해진다.
According to the speech recognition error correction method as described above, the user can more easily correct the error indicated in the speech recognition result. Further, by using the acoustic model, the language model, and the pronunciation dictionary at the time of extracting the candidate text, more accurate candidate text can be extracted. In addition, by updating the error correction result, it becomes possible to further refine speech recognition later.

이상과 같은 다양한 실시 예에 따른 음성 인식 오류 수정 방법을 수행하기 위한 프로그램 코드는 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장될 수 있다. 비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.The program code for performing the speech recognition error correction method according to various embodiments as described above may be stored in a non-transitory computer readable medium. A non-transitory readable medium is a medium that stores data for a short period of time, such as a register, cache, memory, etc., but semi-permanently stores data and is readable by the apparatus. In particular, the various applications or programs described above may be stored on non-volatile readable media such as CD, DVD, hard disk, Blu-ray disk, USB, memory card, ROM,

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments, but, on the contrary, It will be understood by those skilled in the art that various changes in form and detail may be made therein without departing from the spirit and scope of the present invention.

110: 음성 입력부 120: 음성 인식부
123: 음향 모델 126: 언어 모델
130: 사용자 입력부 140: 디스플레이부
150: 제어부
110: voice input unit 120: voice recognition unit
123: Acoustic model 126: Language model
130: user input unit 140:
150:

Claims (12)

전자 장치의 음성 인식 오류 수정 방법에 있어서,
음향 모델 및 언어 모델을 이용하여 음성 입력부를 통해 입력된 사용자 음성을 인식하는 단계;
상기 인식된 사용자 음성을 텍스트로 디스플레이하는 단계;
디스플레이된 전체 텍스트 중 적어도 하나의 텍스트가 선택되면, 상기 선택된 텍스트에 대한 복수의 후보 텍스트를 추출하는 단계;
상기 복수의 후보 텍스트가 포함된 오류 수정 UI를 디스플레이하는 단계;
상기 오류 수정 UI에 디스플레이된 복수의 후보 텍스트 중 하나가 선택되면, 상기 선택된 적어도 하나의 텍스트를 상기 선택된 후보 텍스트로 변경하여 디스플레이하는 단계; 및
상기 변경 결과에 따라 상기 음향 모델 및 언어 모델을 업데이트하는 단계;를 포함하는 음성 인식 오류 수정 방법.
A method for correcting a speech recognition error of an electronic device,
Recognizing a user voice input through a voice input unit using an acoustic model and a language model;
Displaying the recognized user voice as text;
Extracting a plurality of candidate texts for the selected text if at least one of the displayed full texts is selected;
Displaying an error correction UI including the plurality of candidate texts;
Modifying the selected at least one text into the selected candidate text and displaying the selected candidate text if one of the plurality of candidate texts displayed in the error correction UI is selected; And
And updating the acoustic model and the language model according to the result of the change.
제1항에 있어서,
상기 인식하는 단계는,
상기 음향 모델 및 언어 모델을 이용하여 상기 사용자 음성의 발음 및 문맥을 분석하는 단계;
상기 분석 결과에 따라 상기 사용자 음성과 일치하는 확률이 기설정된 값 이상인 텍스트로 구성된 음성 래티스(lattice)를 생성하는 단계; 및
상기 음성 래티스 중 사용자 음성과 일치하는 확률이 가장 높은 경로를 사용자 음성에 대응되는 텍스트로 출력하는 단계;을 포함하는 것을 특징으로 하는 음성 인식 오류 수정 방법.
The method according to claim 1,
Wherein the recognizing comprises:
Analyzing pronunciation and context of the user voice using the acoustic model and the language model;
Generating a speech lattice composed of text having a probability equal to or greater than a predetermined value according to the analysis result; And
And outputting, as a text corresponding to the user's voice, a path having a highest probability of matching the user's voice among the voice lattices.
제2항에 있어서,
상기 추출하는 단계는,
상기 음성 래티스 중 사용자 음성과 일치하는 확률이 가장 높은 텍스트를 제외하고, 상기 적어도 하나의 텍스트와 시작점 및 끝점 중 적어도 하나가 동일한 텍스트를 후보 텍스트로 추출하는 것을 특징으로 하는 음성 인식 오류 수정 방법.
3. The method of claim 2,
Wherein the extracting comprises:
Wherein the at least one text and at least one of the start point and the end point are the same as the candidate text except for the text having the highest probability of matching the user's voice among the speech lattices.
제3항에 있어서,
상기 오류 수정 UI에 포함된 복수의 후보 텍스트는,
상기 사용자 음성과 일치하는 확률이 높은 순서대로 디스플레이되는 것을 특징으로 하는 음성 인식 오류 수정 방법.
The method of claim 3,
Wherein the plurality of candidate texts included in the error correction UI include:
Wherein the probability of matching the user's voice is displayed in descending order of probability.
제3항에 있어서,
상기 추출하는 단계는,
발음 사전을 이용하여 상기 사용자 음성의 발음과 유사도가 기설정된 값 이상인 텍스트를 후보 텍스트로 추출하는 것을 특징으로 하는 음성 인식 오류 수정 방법.
The method of claim 3,
Wherein the extracting comprises:
And extracting, as candidate text, texts whose pronunciation and similarity is equal to or greater than a preset value by using a pronunciation dictionary.
제1항에 있어서,
상기 업데이트하는 단계는,
상기 인식된 사용자의 음성에 대한 상기 변경된 후보 텍스트의 가중치를 높이도록 업데이트하는 것을 특징으로 하는 음성 인식 오류 수정 방법.
The method according to claim 1,
Wherein the updating comprises:
And updating the weight of the changed candidate text with respect to the voice of the recognized user.
전자 장치에 있어서,
사용자 음성을 입력받는 음성 입력부;
음향 모델 및 언어 모델을 이용하여 상기 사용자 음성을 인식하는 음성 인식부;
상기 인식된 사용자 음성을 텍스트로 디스플레이하는 디스플레이부;
사용자 명령을 입력받는 사용자 입력부; 및
상기 사용자 입력부를 통해 상기 디스플레이부에 디스플레이된 전체 텍스트 중 적어도 하나의 텍스트가 선택되면, 상기 선택된 텍스트에 대한 복수의 후보 텍스트를 추출하고, 상기 복수의 후보 텍스트가 포함된 오류 수정 UI를 디스플레이하도록 상기 디스플레이부를 제어하며, 상기 사용자 입력부를 통해 상기 오류 수정 UI에 디스플레이된 복수의 후보 텍스트 중 하나가 선택되면, 상기 선택된 적어도 하나의 텍스트를 상기 선택된 후보 텍스트로 변경하여 디스플레이하도록 상기 디스플레이부를 제어하며, 상기 변경 결과에 따라 상기 음향 모델 및 언어 모델을 업데이트하는 제어부;를 포함하는 전자 장치.
In an electronic device,
A voice input unit for receiving a user voice;
A speech recognition unit for recognizing the user speech using an acoustic model and a language model;
A display unit for displaying the recognized user voice as text;
A user input unit for receiving a user command; And
And a display unit for displaying a plurality of candidate texts for the selected text and displaying an error correction UI including the plurality of candidate texts if at least one text among all the texts displayed on the display unit is selected through the user input unit, Controlling the display unit to change the selected at least one text to the selected candidate text and display the selected candidate text if one of the plurality of candidate texts displayed in the error correction UI is selected through the user input unit, And updating the acoustic model and the language model according to a result of the change.
제7항에 있어서,
상기 음성 인식부는,
상기 음향 모델 및 언어 모델을 이용하여 상기 사용자 음성의 발음 및 문맥을 분석하고, 상기 분석 결과에 따라 상기 사용자 음성과 일치하는 확률이 기설정된 값 이상인 텍스트로 구성된 음성 래티스를 생성하며, 상기 음성 래티스 중 사용자 음성과 일치하는 확률이 가장 높은 경로를 사용자 음성에 대응되는 텍스트로 출력하는 것을 특징으로 하는 전자 장치.
8. The method of claim 7,
The voice recognition unit recognizes,
Analyzing the pronunciation and the context of the user's voice using the acoustic model and the language model and generating a speech lattice composed of text having a probability equal to or greater than a predetermined value in accordance with the analysis result, And outputs the path having the highest probability of matching the user voice as text corresponding to the user voice.
제8항에 있어서,
상기 제어부는,
상기 음성 래티스 중 사용자 음성과 일치하는 확률이 가장 높은 텍스트를 제외하고, 상기 적어도 하나의 텍스트와 시작점 및 끝점 중 적어도 하나가 동일한 텍스트를 후보 텍스트로 추출하는 것을 특징으로 하는 전자 장치.
9. The method of claim 8,
Wherein,
Wherein at least one of the at least one text and at least one of the start point and the end point is extracted as the candidate text, except for the text having the highest probability of matching the user voice among the speech lattices.
제9항에 있어서,
상기 오류 수정 UI에 포함된 복수의 후보 텍스트는,
상기 사용자 음성과 일치하는 확률이 높은 순서대로 디스플레이되는 것을 특징으로 하는 전자 장치.
10. The method of claim 9,
Wherein the plurality of candidate texts included in the error correction UI include:
And the probability of matching with the user voice is displayed in a higher order.
제9항에 있어서,
상기 제어부는,
발음 사전을 이용하여 상기 사용자 음성의 발음과 유사도가 기설정된 값 이상인 텍스트를 후보 텍스트로 추출하는 것을 특징으로 하는 전자 장치.
10. The method of claim 9,
Wherein,
And extracts, as a candidate text, text whose pronunciation and similarity degree of the user voice is equal to or greater than a predetermined value by using a pronunciation dictionary.
제7항에 있어서,
상기 제어부는,
상기 인식된 사용자의 음성에 대한 상기 변경된 후보 텍스트의 가중치를 높이도록 업데이트하는 것을 특징으로 하는 전자 장치.
8. The method of claim 7,
Wherein,
Updates the weight of the changed candidate text with respect to the recognized user's voice.
KR1020120073518A 2012-07-05 2012-07-05 Electronic apparatus and Method for modifying voice recognition errors thereof KR101971513B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120073518A KR101971513B1 (en) 2012-07-05 2012-07-05 Electronic apparatus and Method for modifying voice recognition errors thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120073518A KR101971513B1 (en) 2012-07-05 2012-07-05 Electronic apparatus and Method for modifying voice recognition errors thereof

Publications (2)

Publication Number Publication Date
KR20140005639A true KR20140005639A (en) 2014-01-15
KR101971513B1 KR101971513B1 (en) 2019-04-23

Family

ID=50141001

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120073518A KR101971513B1 (en) 2012-07-05 2012-07-05 Electronic apparatus and Method for modifying voice recognition errors thereof

Country Status (1)

Country Link
KR (1) KR101971513B1 (en)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109979450A (en) * 2019-03-11 2019-07-05 青岛海信电器股份有限公司 Information processing method, device and electronic equipment
KR20190087832A (en) * 2018-01-17 2019-07-25 주식회사 엘지유플러스 Method and apparatus for active voice recognition
KR20190104280A (en) * 2019-08-20 2019-09-09 엘지전자 주식회사 Intelligent voice recognizing method, apparatus, and intelligent computing device
KR20190120353A (en) * 2017-06-29 2019-10-23 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 Speech recognition methods, devices, devices, and storage media
KR20190125578A (en) * 2018-04-30 2019-11-07 전자부품연구원 Similarity based Speech Recognition and Natural Language Processing Method and System
WO2020013428A1 (en) * 2018-07-13 2020-01-16 삼성전자 주식회사 Electronic device for generating personalized asr model and method for operating same
WO2020080771A1 (en) * 2018-10-15 2020-04-23 삼성전자 주식회사 Electronic device providing modified utterance text and operation method therefor
WO2020091123A1 (en) * 2018-11-02 2020-05-07 주식회사 시스트란인터내셔널 Method and device for providing context-based voice recognition service
WO2021107565A1 (en) * 2019-11-26 2021-06-03 Samsung Electronics Co., Ltd. Electronic device and method for controlling the same, and storage medium
US11631400B2 (en) 2019-02-11 2023-04-18 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
US11984122B2 (en) 2020-07-27 2024-05-14 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021137637A1 (en) 2020-01-02 2021-07-08 Samsung Electronics Co., Ltd. Server, client device, and operation methods thereof for training natural language understanding model

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050076697A (en) * 2004-01-20 2005-07-26 마이크로소프트 코포레이션 Automatic speech recognition learning using user corrections
KR20090130350A (en) * 2008-06-09 2009-12-23 엘지전자 주식회사 Mobile terminal and text correction method
KR20110100642A (en) * 2008-12-09 2011-09-14 노키아 코포레이션 Adaptation of automatic speech recognition acoustic models

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050076697A (en) * 2004-01-20 2005-07-26 마이크로소프트 코포레이션 Automatic speech recognition learning using user corrections
KR20090130350A (en) * 2008-06-09 2009-12-23 엘지전자 주식회사 Mobile terminal and text correction method
KR20110100642A (en) * 2008-12-09 2011-09-14 노키아 코포레이션 Adaptation of automatic speech recognition acoustic models

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190120353A (en) * 2017-06-29 2019-10-23 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 Speech recognition methods, devices, devices, and storage media
KR20190087832A (en) * 2018-01-17 2019-07-25 주식회사 엘지유플러스 Method and apparatus for active voice recognition
KR20190125578A (en) * 2018-04-30 2019-11-07 전자부품연구원 Similarity based Speech Recognition and Natural Language Processing Method and System
WO2020013428A1 (en) * 2018-07-13 2020-01-16 삼성전자 주식회사 Electronic device for generating personalized asr model and method for operating same
WO2020080771A1 (en) * 2018-10-15 2020-04-23 삼성전자 주식회사 Electronic device providing modified utterance text and operation method therefor
WO2020091123A1 (en) * 2018-11-02 2020-05-07 주식회사 시스트란인터내셔널 Method and device for providing context-based voice recognition service
US11631400B2 (en) 2019-02-11 2023-04-18 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
CN109979450A (en) * 2019-03-11 2019-07-05 青岛海信电器股份有限公司 Information processing method, device and electronic equipment
KR20190104280A (en) * 2019-08-20 2019-09-09 엘지전자 주식회사 Intelligent voice recognizing method, apparatus, and intelligent computing device
US11189282B2 (en) 2019-08-20 2021-11-30 Lg Electronics Inc. Intelligent voice recognizing method, apparatus, and intelligent computing device
WO2021107565A1 (en) * 2019-11-26 2021-06-03 Samsung Electronics Co., Ltd. Electronic device and method for controlling the same, and storage medium
US11735167B2 (en) 2019-11-26 2023-08-22 Samsung Electronics Co., Ltd. Electronic device and method for controlling the same, and storage medium
US11984122B2 (en) 2020-07-27 2024-05-14 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Also Published As

Publication number Publication date
KR101971513B1 (en) 2019-04-23

Similar Documents

Publication Publication Date Title
KR101971513B1 (en) Electronic apparatus and Method for modifying voice recognition errors thereof
US11887590B2 (en) Voice enablement and disablement of speech processing functionality
US9880808B2 (en) Display apparatus and method of controlling a display apparatus in a voice recognition system
KR102191425B1 (en) Apparatus and method for learning foreign language based on interactive character
US9245521B2 (en) Method for correcting voice recognition error and broadcast receiving apparatus applying the same
US20140278372A1 (en) Ambient sound retrieving device and ambient sound retrieving method
US10134390B2 (en) Electronic device and voice recognition method thereof
US9886947B2 (en) Speech recognition device and method, and semiconductor integrated circuit device
CN105210147B (en) Method, apparatus and computer-readable recording medium for improving at least one semantic unit set
JP2022013610A (en) Voice interaction control method, device, electronic apparatus, storage medium and system
JP2021105736A (en) Information processing device, method and program
US20170076626A1 (en) System and Method for Dynamic Response to User Interaction
US11967248B2 (en) Conversation-based foreign language learning method using reciprocal speech transmission through speech recognition function and TTS function of terminal
JP5160594B2 (en) Speech recognition apparatus and speech recognition method
JP2015087544A (en) Voice recognition device and voice recognition program
JP2013050742A (en) Speech recognition device and speech recognition method
JP5696638B2 (en) Dialog control apparatus, dialog control method, and computer program for dialog control
KR20160104243A (en) Method, apparatus and computer-readable recording medium for improving a set of at least one semantic units by using phonetic sound
US11455990B2 (en) Electronic device and control method therefor
KR102543926B1 (en) User Equipment with Artificial Inteligence for Forign Language Education and Method for Forign Language Education
KR102605774B1 (en) Smart Glass and Voice Recognition System having the same
KR102124396B1 (en) Display apparatus, Method for controlling display apparatus and Method for controlling display apparatus in Voice recognition system thereof
JP6221267B2 (en) Speech recognition apparatus and method, and semiconductor integrated circuit device
KR20170055466A (en) Display apparatus, Method for controlling display apparatus and Method for controlling display apparatus in Voice recognition system thereof
KR20180048510A (en) Display apparatus, Method for controlling display apparatus and Method for controlling display apparatus in Voice recognition system thereof

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant