KR102103186B1 - Apparatus and method of text normalization for speech recognition - Google Patents

Apparatus and method of text normalization for speech recognition Download PDF

Info

Publication number
KR102103186B1
KR102103186B1 KR1020160150610A KR20160150610A KR102103186B1 KR 102103186 B1 KR102103186 B1 KR 102103186B1 KR 1020160150610 A KR1020160150610 A KR 1020160150610A KR 20160150610 A KR20160150610 A KR 20160150610A KR 102103186 B1 KR102103186 B1 KR 102103186B1
Authority
KR
South Korea
Prior art keywords
corpus
speech
text normalization
speech recognition
utterance
Prior art date
Application number
KR1020160150610A
Other languages
Korean (ko)
Other versions
KR20180053165A (en
Inventor
김정세
김상훈
윤승
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020160150610A priority Critical patent/KR102103186B1/en
Publication of KR20180053165A publication Critical patent/KR20180053165A/en
Application granted granted Critical
Publication of KR102103186B1 publication Critical patent/KR102103186B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L2013/083Special characters, e.g. punctuation marks

Abstract

본 발명은 음성 인식을 위한 텍스 정규화 장치 및 그 방법에 관한 것으로서, 상기 장치는, 텍스트 정규화 대상이 되는 말뭉치에서 정규화된 발성 형식이 있는 부분을 상기 정규화된 발성 형식으로 변환하는 형식 변환부; 상기 말뭉치에서 발성되는 문장 기호와 발성되지 않는 문장 기호를 구분하고, 상기 발성되지 않는 문장 기호는 삭제하고 상기 발성되는 문장 기호는 단어로 변환하여 상기 말뭉치에 저장하는 문장 기호 처리부; 및 상기 말뭉치에서 숫자를 상기 숫자의 각 자릿수별로 분리하고 변환하여 상기 말뭉치에 저장하는 숫자 변환부를 포함한다. The present invention relates to a text normalization apparatus and method for speech recognition, the apparatus comprising: a format conversion unit for converting a portion having a normalized speech format from a corpus to be text normalized into the normalized speech format; A punctuation mark processing unit that distinguishes between punctuation marks uttered in the corpus and non-verbal punctuation marks, deletes the uttered punctuation marks, and converts the uttered punctuation marks into words and stores them in the corpus; And a number conversion unit for separating and converting numbers from the corpus to each digit of the corpus and storing the corpus in the corpus.

Description

음성인식을 위한 텍스트 정규화 장치 및 그 방법{APPARATUS AND METHOD OF TEXT NORMALIZATION FOR SPEECH RECOGNITION}Text normalization apparatus and method for speech recognition {APPARATUS AND METHOD OF TEXT NORMALIZATION FOR SPEECH RECOGNITION}

본 발명은 텍스트 정규화 장치에 관한 것으로서, 보다 구체적으로는 텍스트 내의 숫자나 기호를 처리하여 음성인식의 정확도를 높일 수 있는 텍스트 정규화 장치 및 그 방법에 관한 것이다.The present invention relates to a text normalization apparatus, and more particularly, to a text normalization apparatus and a method capable of improving the accuracy of speech recognition by processing numbers or symbols in text.

텍스트는 약어, 기호, 숫자 등을 포함하고 있기 때문에 텍스트 정규화(Text Normalization)는 이들 기호, 숫자 등에 대해 발성되지 않는 것들은 삭제하고, 발성되는 것들은 소리 나는 대로 텍스트로 변환하는 기술을 말한다.Since text contains abbreviations, symbols, numbers, etc., text normalization refers to a technique of deleting those symbols, numbers, etc. that are not spoken, and converting those that are spoken into text as it sounds.

텍스트 정규화는 음성합성과 음성인식을 위한 텍스트 전처리에 사용되고 있다.Text normalization is used for text preprocessing for speech synthesis and speech recognition.

종래의 텍스트 정규화는 문장 또는 문장 간의 문맥을 보고 숫자나 기호 등을 발음되는 대로의 텍스트로 변환해야 하는데, 텍스트인 단어로의 변환은 문장 또는 문맥에 따라 숫자는 서수/기수, 외국어는 성/수/격에 맞춰서 발음되는 단어를 선정해야 한다.Conventional text normalization needs to look at the context between sentences or sentences and convert numbers or symbols to text as they are pronounced. For conversion to text-in-word, numbers are ordinal / ordinal and numbers / foreign for foreign languages depending on the sentence or context. / You need to select words that are pronounced according to the grade.

한국어의 경우 “5 대”라는 텍스트는 문맥에 따라 “다섯 대” 또는 “오 대”로 발음되고, 영어의 경우 “0”은 문맥에 따라 “zero”, “nil(경기 점수)” 또는 “o(주로 전화번호 등에서)”, “love(테니스점수)” 등으로 읽을 수 있다.In Korean, the text “5 units” is pronounced “five units” or “five units” depending on the context, and in English “0” is “zero”, “nil (match score)” or “o depending on the context. (Mainly from phone numbers, etc.) ”,“ love (tennis score) ”, etc.

러시아어는 숫자 1의 경우 성/수/격에 따라 12개의 기수 단어와 12개의 서수 단어가 사용된다. 따라서 이를 문장에서 적절하게 발음되는 단어로 바꾸는 것은 어려운 문제인데, 하나의 숫자가 기수/서수, 성/수/격에 따라 다양한 어미 변화를 하므로, 특히, 문장에 숫자만 있을 때 이전 대화의 내용에 따라 어미를 바꾸는 것이 어려운 문제가 있다.In the case of the number 1, in the case of the number 1, 12 radix words and 12 ordinal words are used according to the gender / number / validity. Therefore, it is difficult to change it to a word that is properly pronounced in a sentence. Since a single number changes in various endings according to radix / ordinal number, gender / number / rate, especially when there are only numbers in a sentence, Therefore, it is difficult to change the mother.

또한, 같은 숫자나 기호라고 하더라도 읽는 방법이 여러 가지가 있는 경우에는 텍스트 정규화 시 이를 고려하여 A 발성형식으로 읽는 것은 a퍼센트, B 발성형식으로 읽는 것은 b퍼센트 등으로 확률적으로 처리해야 하는 문제도 발생한다. 이렇게 확률적으로 처리하는 경우 언어모델 측면에서 문제가 될 수 있는데, 이를 무시할 수 있을 정도의 대량의 말뭉치(Corpus)가 없다면 특정 엔그램(N-GRAM)에만 확률이 높게 반영되는 문제점이 발생한다.In addition, if there are several ways to read even the same number or symbol, considering the normalization of the text, it is necessary to deal with the probability of processing as A percent for reading in A vocal format and b percent for reading in B speech format. Occurs. In the case of such probabilistic processing, it may be a problem in terms of a language model. If there is not a large amount of corpus that can be ignored, there is a problem that a probability is highly reflected only in a specific engram (N-GRAM).

본 발명은 전술한 바와 같은 기술적 배경에서 안출된 것으로서, 텍스트 정규화를 위한 숫자의 변환을 최소화함으로써 보다 정확한 언어모델을 제공할 수 있는 텍스트 정규화 장치 및 그 방법을 제공하는 것을 그 목적으로 한다.The present invention has been devised from the technical background as described above, and an object thereof is to provide a text normalization apparatus and a method capable of providing a more accurate language model by minimizing conversion of numbers for text normalization.

본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.The objects of the present invention are not limited to the above-mentioned objects, and other objects not mentioned will be clearly understood by those skilled in the art from the following description.

전술한 목적을 달성하기 위한 본 발명의 일 측면에 따른 음성인식을 위한 텍스트 정규화 장치는, 텍스트 정규화 대상이 되는 말뭉치에서 정규화된 발성 형식이 있는 부분을 상기 정규화된 발성 형식으로 변환하는 형식 변환부; 상기 말뭉치에서 발성되는 문장 기호와 발성되지 않는 문장 기호를 구분하고, 상기 발성되지 않는 문장 기호는 삭제하고 상기 발성되는 문장 기호는 단어로 변환하여 상기 말뭉치에 저장하는 문장 기호 처리부; 및 상기 말뭉치에서 숫자를 상기 숫자의 각 자릿수별로 분리하고 변환하여 상기 말뭉치에 저장하는 숫자 변환부를 포함할 수 있다.
한편, 본 발명의 다른 측면에 따른 음성인식을 위한 텍스트 정규화 방법은, 형식 변환부에서, 텍스트 정규화 대상이 되는 말뭉치에서 정규화된 발성 형식이 있는 부분을 상기 정규화된 발성 형식으로 변환하는 단계; 문장 기호 처리부에서, 상기 정규화된 발성 형식으로 변환된 상기 말뭉치에서 발성되는 문장 기호와 발성되지 않는 문장 기호를 구분하고, 상기 발성되지 않는 문장 기호는 삭제하고 상기 발성되는 문장 기호는 단어로 변환하여 상기 말뭉치에 저장하는 단계; 및 숫자 변환부에서, 상기 말뭉치에서 숫자를 상기 숫자의 각 자릿수별로 분리하고 변환하여 상기 말뭉치에 저장하는 단계를 포함할 수 있다.
A text normalization apparatus for speech recognition according to an aspect of the present invention for achieving the above object includes: a format conversion unit for converting a portion having a normalized speech form from a corpus to be text normalized into the normalized speech form; A punctuation mark processing unit that distinguishes between punctuation marks uttered in the corpus and non-verbal punctuation marks, deletes the uttered punctuation marks, and converts the uttered punctuation marks into words and stores them in the corpus; And a number conversion unit for separating and converting numbers from the corpus to each digit of the corpus and storing the corpus in the corpus.
On the other hand, a text normalization method for speech recognition according to another aspect of the present invention, in the format conversion unit, converting a portion having a normalized vocal form in a corpus that is a text normalization target into the normalized vocal form; In the sentence symbol processing unit, the sentence symbols that are uttered in the corpus converted into the normalized utterance form are distinguished from the sentences that are not uttered, and the sentences that are not spoken are deleted, and the uttered sentence symbols are converted into words to convert Storing in a corpus; And in the number conversion unit, may include the step of separating and converting the number of each digit of the number in the corpus and storing it in the corpus.

본 발명에 따르면, 모호성을 가진 기호나 숫자의 변환을 최소화 하고, 변환된 숫자를 다중발음으로 표현되도록 함으로써 언어모델을 사용하는 음성인식의 성능을 향상시킬 수 있는 효과가 있다.According to the present invention, there is an effect of improving the performance of speech recognition using a language model by minimizing the conversion of ambiguous symbols or numbers, and expressing the converted numbers in multiple pronunciations.

도 1은 본 발명의 일실시예에 따른 음성인식을 위한 텍스트 정규화 장치의 구조도.
도 2는 본 발명의 일실시예에 따른 음성인식을 위한 텍스트 정규화 방법의 흐름도.
도 3은 본 발명의 일실시예에 따른 음성인식을 위한 텍스트 정규화 방법이 실시되는 컴퓨터 시스템의 구조도.
1 is a structural diagram of a text normalization apparatus for speech recognition according to an embodiment of the present invention.
2 is a flowchart of a text normalization method for speech recognition according to an embodiment of the present invention.
3 is a structural diagram of a computer system in which a text normalization method for speech recognition is performed according to an embodiment of the present invention.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.Advantages and features of the present invention, and methods for achieving them will be clarified with reference to embodiments described below in detail together with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but will be implemented in various different forms, and only the present embodiments allow the disclosure of the present invention to be complete, and the ordinary knowledge in the technical field to which the present invention pertains. It is provided to fully inform the holder of the scope of the invention, and the invention is only defined by the scope of the claims. Meanwhile, the terms used in the present specification are for explaining the embodiments and are not intended to limit the present invention. In this specification, the singular form also includes the plural form unless otherwise specified in the phrase. As used herein, "comprises" and / or "comprising" refers to the components, steps, operations and / or elements mentioned above, the presence of one or more other components, steps, operations and / or elements. Or do not exclude additions.

이하, 본 발명의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 상세히 설명하기로 한다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일실시예에 따른 텍스트 정규화 장치(100)의 구조도를 나타낸다.1 shows a structural diagram of a text normalization apparatus 100 according to an embodiment of the present invention.

텍스트 정규화 장치(100)는 형식 변환부(110), 문장 기호 처리부(120) 및 숫자 변환부(130)를 포함한다.The text normalization apparatus 100 includes a format conversion unit 110, a punctuation mark processing unit 120, and a number conversion unit 130.

텍스트 정규화 장치(100)는 기본적으로 정규화 되지 않은 말뭉치(Text Corpus, 10)에서 정규화가 필요한 부분을 검출하여 이를 변환한 후 정규화된 말뭉치(20)를 생성하는 것을 목적으로 한다.The text normalization apparatus 100 basically aims to generate a normalized corpus 20 after detecting a part that needs normalization in a corpus that is not normalized (Text Corpus, 10).

우선 형식 변환부(110)는 말뭉치 중 정규화된 형식에 따라 변환이 필요한 부분에 대해 규칙에 따른 변환을 수행한다.First, the format conversion unit 110 performs conversion according to the rules for parts that need to be converted according to a normalized form among corpuses.

인터넷 주소, 이메일(Email) 주소, 전화번호, 우편번호, 카드번호, 계좌번호 등 발성 방식이 정해진 패턴이 있는 부분들에 대해서는 정해진 방식에 따라 형식 변환을 수행하는 것이다.The format conversion is performed for parts with patterns that have a defined vocalization method, such as an Internet address, an email address, a telephone number, a postal code, a card number, and an account number.

이 때 숫자가 포함된 부분에 대해서는 후술할 숫자 변환부(130)에 의해 숫자의 변환을 수행한다.At this time, for the part containing the number, the number conversion unit 130 to be described later performs conversion of the number.

예컨대, abc@ddd.com 이라는 이메일 주소에 대해서는 “에이비씨 골뱅이 디디디 쩜 컴”과 같이 읽거나 “에이비씨 앳(at) 디디디 닷 컴”과 같이 읽는 방식이 정해져 있으므로 정해진 방식에 따라 텍스트 정규화를 수행하는 것이다.For example, the email address of abc@ddd.com is read as “ABC Goldhead Diddy Com” or “ACD At Didy Dot Com”, so the text is normalized according to the prescribed method. Is to do

다만 전화번호는 02-123-4567의 경우, “공이 일이삼에 사오륙칠”, “공이 일이삼국에 사오륙칠” 또는 “공이 백이십삼국에 사천오백육십칠”과 같이 숫자가 포함되어 읽는 방식이 여러 가지로 달라지기 때문에 후술할 숫자 변환부(130)에 의해 숫자를 변환하여 텍스트 정규화를 수행한다.However, in the case of 02-123-4567, the number is read and includes numbers such as “the ball is four and five in three days,” or “the ball is four in three and four countries,” or “the ball is two hundred and twenty three in four thousand five hundred sixty seven”. Because of these various changes, text normalization is performed by converting numbers by a number conversion unit 130 to be described later.

문장 기호 처리부(120)는 문장 내에서 발성에 포함되지 않는 기호와 발성에 포함되는 기호를 구분하여 처리한다.The sentence symbol processing unit 120 separates and processes symbols not included in the utterance and symbols included in the utterance within the sentence.

발성에 포함되지 않는 기호는 삭제하고 발성에 포함되는 기호는 그대로 두되 언어모델(Language Model)에서 이를 발성하는 방법을 태그하는 방식으로 처리한다.The symbols not included in the vocalization are deleted and the symbols included in the vocalization are left untouched, but the method of tagging them in the Language Model is handled by tagging.

예컨대, 따옴표는 발성하지 않으므로 삭제하고 “@” 기호는 앳 또는 골뱅이로 발성하므로 남겨둔다. 마침표(.) 경우 문장의 끝에 사용하는 경우에는 발성되지 않으므로 삭제되지만 숫자의 중간에 사용되는 경우, 즉, “123.456” 같은 경우 “일이삼 쩜 사오륙”과 같이 발음되므로 삭제되지 않고 저장된다. For example, the quotation marks are not spoken, so they are deleted, and the “@” sign is left because they are spoken with an at or golbang. In the case of a period (.), It is deleted because it is not spoken when used at the end of a sentence, but when it is used in the middle of a number, that is, as “123.456”, it is pronounced like “one two three four Sao-ryok” and is stored without being deleted.

영어의 약어 같은 경우 마침표가 사용되는데, S. Asia는 “싸우스 아시아(South Asia)” 또는 “에스 아시아(S Asia)“로 발성할 수 있으므로 마침표를 삭제하지 않고 저장한다.In the case of abbreviations in English, periods are used. S. Asia can be spoken as “South Asia” or “S Asia”, so the periods are stored without deletion.

마지막으로 숫자 변환부(130)에서는 숫자에 대해 단어로 변환하지 않고 자릿수에 맞게 변환하여 정규화한다.Lastly, the number conversion unit 130 does not convert numbers to words, but converts them to digits and normalizes them.

숫자 “721”의 경우 “칠이일”, “칠백이십일”, “칠백스물하나” 등으로 읽을 수 있는데, 종래 기술처럼 이렇게 발성되는 경우에 대해 모두 저장을 해두면 음성인식율은 올릴 수 있지만, 확률을 기반으로 말뭉치에서 발성을 처리할 때 숫자에 대해서만 세 가지 혹은 그 이상의 발성이 저장되면, 그 발생 빈도가 왜곡되는 문제가 발생한다.The number “721” can be read as “seven days,” “seven hundred twenty-one”, “seven hundred twenty-one,” etc. If you store all of these vocalizations like in the prior art, you can increase the speech recognition rate, but the probability When three or more utterances are stored only for a number when processing a utterance in a corpus based on the problem that the occurrence frequency is distorted.

따라서 본 발명에서는 숫자의 경우에 모든 발성을 다 정규화하여 말뭉치에 저장하는 것이 아니라 최소한의 처리만 하여 저장함으로써 이러한 왜곡을 해결한다.Therefore, in the present invention, in the case of numbers, all the utterances are not normalized and stored in a corpus, but this distortion is solved by storing with minimal processing.

숫자 변환부(130)는 숫자를 각 자릿수별로 분리하여 숫자로 변환하여 저장한다.The number conversion unit 130 separates the numbers for each digit and converts them into numbers to store the numbers.

예컨대, “서울시 서초구 123번지”라는 문장이 있는 경우 “백이십삼 번지”와 같이 변환하여 저장하는 것이 아니라, 123을 자릿수별로 분리하여 저장한다. 위의 문장은 “서울시 서초구 [100][20][3]번지”와 같이 저장되는 것이다.For example, if there is a sentence “123 Seocho-gu, Seoul”, it is not converted and stored as “Basic Twenty-three”, but 123 is stored separately by digit. The sentence above is stored as “[100] [20] [3], Seocho-gu, Seoul”.

이후 이에 대한 발성은 정규화된 말뭉치를 사용하는 언어모델에서 처리함으로써 말뭉치의 왜곡을 막을 수 있다.After that, the vocalization of this can be prevented by distorting the corpus by processing it in a language model using normalized corpus.

언어모델에서는 [100][20][3]에 대해 [100]을 “백” 또는 “일”로 발성할 수 있고, [20]을 “이십”, “스물” 또는 “이”로 발성할 수 있으며, [3]에 대해서는 “삼” 또는 “셋”으로 발성함으로써 다양한 숫자의 발성에 대응할 수 있다.In the language model, [100] can be spoken as “back” or “one” for [100] [20] [3], and [20] can be spoken as “twenty”, “twenty” or “two”. For [3], it is possible to respond to a variety of vocalizations by vocalizing “three” or “three”.

도 2는 본 발명의 일실시예에 따른 텍스트 정규화 방법의 흐름도를 나타낸다.2 is a flowchart of a text normalization method according to an embodiment of the present invention.

우선 텍스트 정규화를 진행할 말뭉치에서 정규화된 형식에 따라 변환이 가능한 부분을 검출하여 미리 정해진 형식에 따라 변환을 수행한다(S210).First, a part capable of being converted according to a normalized form is detected from a corpus to be normalized by text, and conversion is performed according to a predetermined form (S210).

인터넷 주소, 이메일(Email) 주소, 전화번호, 우편번호, 카드번호, 계좌번호 등 발성 방식이 정해진 패턴이 있는 부분들에 대해서는 정해진 방식에 따라 형식 변환을 수행한다.Format conversion is performed on parts with patterns that have a defined vocalization method, such as an Internet address, an email address, a telephone number, a postal code, a card number, and an account number.

미리 정해진 형식에 따라 정규화를 완료한 후 문장 기호들을 발성에 포함되는 기호와 발성에 포함되지 않는 기호로 구분하여 처리한다(S220).After the normalization is completed according to a predetermined format, sentence symbols are divided into symbols included in the speech and symbols not included in the speech and processed (S220).

발성에 포함되지 않는 기호들은 삭제하고, 발성에 포함되는 기호들은 삭제하지 않고 그대로 두어 언어모델에서 기호들의 발성을 처리하도록 한다.The symbols not included in the speech are deleted, and the symbols included in the speech are left untouched so that the language model handles the speech of the symbols.

마지막으로 말뭉치에 포함된 숫자들을 본 발명에 따른 일정한 형식으로 변환한다(S230).Finally, the numbers included in the corpus are converted into a certain format according to the present invention (S230).

숫자는 읽는 방법이 다양하기 때문에 발성으로 변환하여 저장하지 않고 자릿수별로 변환하여 저장한다. 즉 변환을 최소화하여 특정 엔그램(N-GRAM)의 빈도수만 높아지는 오류를 방지하기 위함이다.Since there are various ways to read numbers, they are converted into utterances and stored instead of digits. That is, it is to prevent errors that increase only the frequency of a specific engram (N-GRAM) by minimizing the conversion.

구체적으로 숫자는 자릿수별로 분리되어 저장되는데, 예컨대 숫자 ”721”은 [700][20][1]과 같이 자릿수별로 변환되어 저장된다.Specifically, the numbers are stored separately for each digit, for example, the number “721” is converted and stored for each digit as [700] [20] [1].

변환된 숫자의 발성은 말뭉치가 아니라 언어모델을 통해 발성이 처리되므로, 말뭉치에 동일한 숫자에 대한 여러 발성이 저장됨으로써 발생하는 엔그램의 오류를 방지할 수 있는 효과가 있다.Since the vocalization of the converted numbers is processed through a language model rather than a corpus, there is an effect of preventing an error in the engram caused by storing multiple vocalizations for the same number in the corpus.

이상과 같은 텍스트 정규화 장치 및 방법에 의해 말뭉치에 포함된 숫자들의 변환을 효율적으로 하면서도 오류 가능성을 낮출 수 있고, 그에 따라 음성인식률도 높일 수 있는 효과도 있다.According to the text normalization apparatus and method described above, it is possible to efficiently convert numbers included in the corpus, while reducing the possibility of errors, and accordingly, to increase the speech recognition rate.

한편, 본 발명의 실시예에 따른 음성인식을 위한 텍스트 정규화 방법은 컴퓨터 시스템에서 구현되거나, 또는 기록매체에 기록될 수 있다. 도 3에 도시된 바와 같이, 컴퓨터 시스템은 적어도 하나 이상의 프로세서(321)와, 메모리(323)와, 사용자 입력 장치(326)와, 데이터 통신 버스(322)와, 사용자 출력 장치(327)와, 저장소(328)를 포함할 수 있다. 전술한 각각의 구성 요소는 데이터 통신 버스(322)를 통해 데이터 통신을 한다.Meanwhile, the text normalization method for speech recognition according to an embodiment of the present invention may be implemented in a computer system or recorded on a recording medium. As shown in FIG. 3, the computer system includes at least one processor 321, a memory 323, a user input device 326, a data communication bus 322, a user output device 327, Storage 328 may be included. Each of the aforementioned components communicates through the data communication bus 322.

컴퓨터 시스템은 네트워크에 커플링된 네트워크 인터페이스(329)를 더 포함할 수 있다. 상기 프로세서(321)는 중앙처리 장치(central processing unit (CPU))이거나, 혹은 메모리(323) 및/또는 저장소(328)에 저장된 명령어를 처리하는 반도체 장치일 수 있다. The computer system can further include a network interface 329 coupled to the network. The processor 321 may be a central processing unit (CPU) or a semiconductor device that processes instructions stored in the memory 323 and / or the storage 328.

상기 메모리(323) 및 상기 저장소(328)는 다양한 형태의 휘발성 혹은 비휘발성 저장매체를 포함할 수 있다. 예컨대, 상기 메모리(323)는 ROM(324) 및 RAM(325)을 포함할 수 있다.The memory 323 and the storage 328 may include various types of volatile or nonvolatile storage media. For example, the memory 323 may include a ROM 324 and a RAM 325.

따라서, 본 발명의 실시예에 따른 음성인식을 위한 텍스트 정규화 방법은 컴퓨터에서 실행 가능한 방법으로 구현될 수 있다. 본 발명의 실시예에 따른 음성인식을 위한 텍스트 정규화 방법이 컴퓨터 장치에서 수행될 때, 컴퓨터로 판독 가능한 명령어들이 본 발명에 따른 인식 방법을 수행할 수 있다.Accordingly, a text normalization method for speech recognition according to an embodiment of the present invention may be implemented in a method executable on a computer. When the text normalization method for speech recognition according to an embodiment of the present invention is performed on a computer device, computer readable instructions may perform the recognition method according to the present invention.

한편, 상술한 본 발명에 따른 음성인식을 위한 텍스트 정규화 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체로는 컴퓨터 시스템에 의하여 해독될 수 있는 데이터가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래시 메모리, 광 데이터 저장장치 등이 있을 수 있다. 또한, 컴퓨터로 판독 가능한 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.On the other hand, the text normalization method for speech recognition according to the present invention described above can be implemented as a computer-readable code on a computer-readable recording medium. The computer-readable recording medium includes any type of recording medium that stores data that can be read by a computer system. For example, there may be a read only memory (ROM), a random access memory (RAM), a magnetic tape, a magnetic disk, a flash memory, and an optical data storage device. In addition, the computer-readable recording medium may be distributed over computer systems connected by a computer communication network, and stored and executed as code readable in a distributed manner.

삭제delete

이상, 본 발명의 구성에 대하여 첨부 도면을 참조하여 상세히 설명하였으나, 이는 예시에 불과한 것으로서, 본 발명이 속하는 기술분야에 통상의 지식을 가진자라면 본 발명의 기술적 사상의 범위 내에서 다양한 변형과 변경이 가능함은 물론이다. 따라서 본 발명의 보호 범위는 전술한 실시예에 국한되어서는 아니되며 이하의 특허청구범위의 기재에 의하여 정해져야 할 것이다.The configuration of the present invention has been described in detail with reference to the accompanying drawings, but this is only an example, and those skilled in the art to which the present invention pertains have various modifications and changes within the scope of the technical spirit of the present invention. Of course this is possible. Therefore, the protection scope of the present invention should not be limited to the above-described embodiments and should be defined by the following claims.

삭제delete

삭제delete

삭제delete

Claims (6)

텍스트 정규화 대상이 되는 말뭉치에서 정규화된 발성 형식이 있는 부분을 상기 정규화된 발성 형식으로 변환하는 형식 변환부;
상기 정규화된 발성 형식으로 변환된 상기 말뭉치에서 발성되는 문장 기호와 발성되지 않는 문장 기호를 구분하고, 상기 발성되지 않는 문장 기호는 삭제하고 상기 발성되는 문장 기호는 단어로 변환하여 상기 말뭉치에 저장하는 문장 기호 처리부; 및
상기 말뭉치에서 숫자의 경우에 모든 발성을 정규화하여 상기 말뭉치에 저장하는 것이 아니라 상기 숫자의 각 자릿수별로 분리하고 각 자릿수에 대한 발성만을 정규화하여 상기 말뭉치에 저장하는 숫자 변환부;
를 포함하는 음성인식을 위한 텍스트 정규화 장치.
A format conversion unit for converting a portion of a corpus that is a text normalization target into a normalized vocalization format;
A sentence that distinguishes a punctuation mark and a non-speech punctuation mark from the corpus converted into the normalized utterance form, deletes the non-speech punctuation mark, and converts the uttered punctuation mark into a word and stores it in the corpus Symbol processing unit; And
In the case of numbers in the corpus, a number conversion unit that normalizes all vocalizations and stores them in the corpus, but separates them by each digit of the number and normalizes only the vocalization for each digit and stores them in the corpus;
Text normalization device for speech recognition comprising a.
제1항에 있어서,
상기 문장 기호 처리부에서, 발성에 포함되지 않는 기호는 삭제하고 발성에 포함되는 기호는 그대로 두되 언어모델(Language Model)을 이용하여 상기 발성에 포함되는 기호에 대한 발성하는 방법을 태그하는 방식으로 처리하는 것인 음성 인식을 위한 텍스트 정규화 장치.
According to claim 1,
In the sentence symbol processing unit, a symbol that is not included in the speech is deleted and the symbol included in the speech is left as it is, but a method of tagging a method of speaking for the symbol included in the speech is processed using a language model. Text normalization device for speech recognition.
제1항에 있어서,
상기 문장 기호 처리부에서, 영어 약어 내에서 발성에 포함되는 기호는 삭제하지 않고 말뭉치에 저장하는 것인 음성 인식을 위한 텍스트 정규화 장치.
According to claim 1,
In the sentence symbol processing unit, the text normalization device for speech recognition is to delete the symbols included in the utterance within the English abbreviation without storing them in the corpus.
형식 변환부에서, 텍스트 정규화 대상이 되는 말뭉치에서 정규화된 발성 형식이 있는 부분을 상기 정규화된 발성 형식으로 변환하는 단계;
문장 기호 처리부에서, 상기 정규화된 발성 형식으로 변환된 상기 말뭉치에서 발성되는 문장 기호와 발성되지 않는 문장 기호를 구분하고, 상기 발성되지 않는 문장 기호는 삭제하고 상기 발성되는 문장 기호는 단어로 변환하여 상기 말뭉치에 저장하는 단계; 및
숫자 변환부에서, 상기 말뭉치에서 숫자의 경우에 모든 발성을 정규화하여 상기 말뭉치에 저장하는 것이 아니라 상기 숫자를 각 자릿수별로 분리하고 각 자릿수에 대한 발성만을 정규화하여 상기 말뭉치에 저장하는 단계;
를 포함하는 음성인식을 위한 텍스트 정규화 방법.
Converting a part having a normalized speech form in a corpus that is a text normalization target into the normalized speech form in the format conversion unit;
In the sentence symbol processing unit, the sentence symbols that are uttered in the corpus converted into the normalized utterance form are distinguished from the sentences that are not uttered, and the sentences that are not spoken are deleted, and the uttered sentence symbols are converted into words to convert Storing in a corpus; And
In the number conversion unit, in the case of numbers in the corpus, normalizing all vocalizations and storing them in the corpus, separating the numbers for each digit and normalizing only the vocalization for each digit and storing them in the corpus;
Text normalization method for speech recognition comprising a.
제4항에 있어서,
상기 발성되는 문장 기호는 발성에 포함되지 않는 기호는 삭제하고 발성에 포함되는 기호는 그대로 두되 언어모델(Language Model)에서 상기 발성에 포함되는 기호에 대한 발성하는 방법을 태그하는 방식으로 처리하는 것인 음성 인식을 위한 텍스트 정규화 방법.
According to claim 4,
The punctuation marks of the utterance are processed by tagging the method of uttering the utterance of the symbols included in the utterance in the Language Model, while the symbols not included in the utterance are deleted and the symbols included in the utterance are left untouched. Text normalization method for speech recognition.
제4항에 있어서,
상기 말뭉치에서 영어 약어 내에서 발성에 포함되는 기호는 삭제하지 않고 말뭉치에 저장하는 것인 음성 인식을 위한 텍스트 정규화 방법.
According to claim 4,
A text normalization method for speech recognition in which the symbols included in the speech within the English abbreviation are stored in the corpus without deleting them.
KR1020160150610A 2016-11-11 2016-11-11 Apparatus and method of text normalization for speech recognition KR102103186B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160150610A KR102103186B1 (en) 2016-11-11 2016-11-11 Apparatus and method of text normalization for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160150610A KR102103186B1 (en) 2016-11-11 2016-11-11 Apparatus and method of text normalization for speech recognition

Publications (2)

Publication Number Publication Date
KR20180053165A KR20180053165A (en) 2018-05-21
KR102103186B1 true KR102103186B1 (en) 2020-04-23

Family

ID=62453430

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160150610A KR102103186B1 (en) 2016-11-11 2016-11-11 Apparatus and method of text normalization for speech recognition

Country Status (1)

Country Link
KR (1) KR102103186B1 (en)

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Richard Sproat et al., ‘Normalization of non-standard words’, Computer Speech and Language(2001) 15, pp.287~333, 2001.*
이호준, ‘음성 합성 시스템의 품질 향상을 위한 한국어 문장 기호 전처리 시스템’, 한국컴퓨터정보학회 논문지, 20(2), pp.149~156, 2015년2월.*

Also Published As

Publication number Publication date
KR20180053165A (en) 2018-05-21

Similar Documents

Publication Publication Date Title
US9582489B2 (en) Orthographic error correction using phonetic transcription
US9905223B2 (en) System and method for using semantic and syntactic graphs for utterance classification
US9971765B2 (en) Revising language model scores based on semantic class hypotheses
US8868431B2 (en) Recognition dictionary creation device and voice recognition device
US9672817B2 (en) Method and apparatus for optimizing a speech recognition result
US6934683B2 (en) Disambiguation language model
US11043213B2 (en) System and method for detection and correction of incorrectly pronounced words
US20110307252A1 (en) Using Utterance Classification in Telephony and Speech Recognition Applications
US20220383862A1 (en) Cross-lingual speech recognition
JP2001296880A (en) Method and device to generate plural plausible pronunciation of intrinsic name
TW201517018A (en) Speech recognition method and electronic apparatus using the method
KR20210138776A (en) Phoneme-Based Contextualization for Cross-Language Speech Recognition in End-to-End Models
CN102063900A (en) Speech recognition method and system for overcoming confusing pronunciation
Menacer et al. An enhanced automatic speech recognition system for Arabic
KR102103186B1 (en) Apparatus and method of text normalization for speech recognition
Abbas et al. Punjabi to ISO 15919 and Roman transliteration with phonetic rectification
Wray et al. Best practices for crowdsourcing dialectal arabic speech transcription
Smirnov et al. A Russian keyword spotting system based on large vocabulary continuous speech recognition and linguistic knowledge
JP4674609B2 (en) Information processing apparatus and method, program, and recording medium
Ma et al. Low-frequency word enhancement with similar pairs in speech recognition
Neubig et al. A WFST-based Log-linear Framework for Speaking-style Transformation
US11861521B2 (en) System and method for identification and verification
Mansikkaniemi et al. Adaptation of morph-based speech recognition for foreign names and acronyms
KR101729972B1 (en) Speech recognition apparatus for utterance speech of foreigners
Lehečka et al. Improving speech recognition by detecting foreign inclusions and generating pronunciations

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right