KR20210073068A - Purification sentence generating apparatus for interactive question-anwering service and method thereof - Google Patents
Purification sentence generating apparatus for interactive question-anwering service and method thereof Download PDFInfo
- Publication number
- KR20210073068A KR20210073068A KR1020190163510A KR20190163510A KR20210073068A KR 20210073068 A KR20210073068 A KR 20210073068A KR 1020190163510 A KR1020190163510 A KR 1020190163510A KR 20190163510 A KR20190163510 A KR 20190163510A KR 20210073068 A KR20210073068 A KR 20210073068A
- Authority
- KR
- South Korea
- Prior art keywords
- word
- sentence
- purified
- processing module
- noun
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 58
- 238000000746 purification Methods 0.000 title claims abstract description 57
- 238000012545 processing Methods 0.000 claims abstract description 122
- 238000005516 engineering process Methods 0.000 claims abstract description 31
- 230000014509 gene expression Effects 0.000 claims abstract description 22
- 238000003058 natural language processing Methods 0.000 claims abstract description 14
- 238000007670 refining Methods 0.000 claims description 18
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 7
- 150000001875 compounds Chemical class 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 238000000926 separation method Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 5
- 230000000877 morphologic effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 25
- 238000010586 diagram Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 210000004185 liver Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
Description
본 발명은 대화형 질의응답 서비스를 위한 순화 문장 생성 장치 및 그 방법에 관한 것으로, 보다 상세하게는 대화형 응답 서비스에 적용된 음성 인식(Speech to Text, STT) 기술을 통해 외부로부터 입력된 음성변환 텍스트 데이터를 응답 서비스에 적합하도록 순화된 문장으로 자동 생성하는 대화형 질의응답 서비스를 위한 순화 문장 생성 장치 및 그 방법에 관한 것이다.The present invention relates to an apparatus and method for generating a purified sentence for an interactive question and answer service, and more particularly, to a speech to text inputted from the outside through a speech to text (STT) technology applied to an interactive response service. Disclosed are an apparatus and method for generating a purified sentence for an interactive Q&A service that automatically generates data into a purified sentence suitable for the response service.
일반적으로, 고객 서비스로 활용되는 음성 시스템은 녹취된 음성 데이터를 텍스트로 변환하는 음성 인식(Speech to Text, STT) 기술을 사용한다. 이렇게 추출된 음성변환 텍스트 데이터는 자연어처리 기술과, 텍스트 마이닝(Text Mining) 등의 분석 기법을 통하여 다양한 분야에 응용되고 있다.In general, a voice system utilized as a customer service uses a speech to text (STT) technology that converts recorded voice data into text. The voice-converted text data extracted in this way is being applied to various fields through analysis techniques such as natural language processing technology and text mining.
대부분의 종래 기술에서 대화형 데이터는 챗봇(Chatbot) 시스템에 적용하기 위하여 어휘적인 처리 기술에 국한되어 있다. 또한, 텍스트에서 주요어(keyword), 주제, 감정 등을 추출하고 이를 상담원에게 제공하거나 데이터베이스(DB)화하는 형태가 많다.In most prior art, interactive data is limited to lexical processing technology to be applied to a chatbot system. In addition, there are many types of extracting keywords, subjects, emotions, etc. from text and providing them to counselors or making a database (DB).
그러나, 이러한 형태로 제공될 때, 상담원이 정보를 활용하여 적합한 문장을 만들어야하기 때문에 개인 능력에 의존적이며 이는 질의응답 서비스 품질의 편차를 발생시키는 문제점이 있다.However, when provided in this form, the counselor has to use the information to make an appropriate sentence, so it depends on the individual's ability, and this has a problem of causing a deviation in the quality of the Q&A service.
한편, 기존의 챗봇 시스템은 사용자의 질문에 답변을 생성하기 위해 대량의 음성 인식(STT) 기술을 통한 음성변환 텍스트 데이터 혹은 대화형 데이터를 기반으로 구축된 지식베이스를 사용한다. 따라서, 챗봇의 품질은 지식베이스에 의하여 결정된다.On the other hand, the existing chatbot system uses a knowledge base built on the basis of speech-to-text data or conversational data through a large amount of speech recognition (STT) technology to generate answers to the user's questions. Therefore, the quality of the chatbot is determined by the knowledge base.
그러나, 기존의 챗봇 시스템에서 지식베이스의 구축은 큰 비용이 발생되는 작업이며, 수정과 추가도 상당한 비용이 발생한다. 그래서, 대부분의 챗봇 시스템은 자연스러운 문장을 생성하기 위하여 추가적으로 후처리를 하게 되는 번거로운 문제점이 있다.However, building a knowledge base in the existing chatbot system is a costly operation, and modifications and additions also incur considerable costs. Therefore, most chatbot systems have a cumbersome problem of additionally performing post-processing to generate natural sentences.
본 발명은 전술한 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 상담원이 고객과 대화 시 직접적으로 사용할 수 있도록 문장을 생성하여 제공함으로써, 고객 응답 서비스 품질을 일관되게 유지할 수 있도록 한 대화형 질의응답 서비스를 위한 순화 문장 생성 장치 및 그 방법을 제공하는데 있다.The present invention has been devised to solve the above-described problems, and an object of the present invention is to generate and provide a sentence so that an agent can directly use it when talking with a customer, so that the customer response service quality can be consistently maintained. An object of the present invention is to provide an apparatus and method for generating a purified sentence for a question and answer service.
본 발명의 다른 목적은 대화형 질의응답 서비스에 적용된 음성 인식(STT) 기술을 통해 음성변환 텍스트 데이터의 특성상 발생되는 어휘적인 오류와 생략을 정문으로 복원하고, 복원된 데이터를 순화된 표현의 문장으로 자동 생성하여 직접적으로 상담원에게 제공함으로써, 대화형 질의응답 서비스의 품질을 일관되게 유지할 수 있도록 한 대화형 질의응답 서비스를 위한 순화 문장 생성 장치 및 그 방법을 제공하는데 있다.Another object of the present invention is to restore lexical errors and omissions caused by the characteristics of speech-to-text data through speech recognition (STT) technology applied to an interactive question and answer service to the main sentence, and convert the restored data into sentences of purified expression. An object of the present invention is to provide an apparatus and method for generating a purified sentence for an interactive question and answer service, which can be automatically generated and directly provided to an agent to consistently maintain the quality of the interactive question and answer service.
전술한 목적을 달성하기 위하여 본 발명의 제1 측면은, 대화형 질의응답 서비스에 적용된 음성 인식(Speech to Text, STT) 기술을 통해 외부로부터 입력된 음성변환 텍스트 데이터를 제공받아 자연어처리 기술을 사용하여 상기 입력된 음성변환 텍스트 데이터의 특성으로 발생되는 오류를 정문으로 복원 처리하는 복원처리모듈; 및 상기 복원처리모듈로부터 복원 처리된 문장 데이터를 제공받아 이를 기반으로 상기 복원 처리된 문장에 대하여 상황과 문맥에 맞고 사용자가 이해하기 쉬운 형태의 순화된 표현으로 변경 처리하여 새로운 순화 문장을 생성하는 순화처리모듈을 포함하는 대화형 질의응답 서비스를 위한 순화 문장 생성장치를 제공하는 것이다.In order to achieve the above object, a first aspect of the present invention uses a natural language processing technology by receiving voice-converted text data input from the outside through a speech to text (STT) technology applied to an interactive question-and-answer service. a restoration processing module for restoring an error occurring due to the characteristics of the inputted voice-converted text data to the front door; and reconstructed sentence data provided from the restoration processing module, and based on this, the restored sentence is converted into a purified expression in a form suitable for the situation and context and easy for the user to understand, thereby generating a new purified sentence. An object of the present invention is to provide a purified sentence generating apparatus for an interactive question and answer service including a processing module.
여기서, 상기 복원처리모듈은, 영어 단어별로 각각 대응되는 기 설정된 한국어를 데이터베이스(DB)화하여 저장 및 관리하는 언어모델 DB; 자연어처리 기술을 기반으로 상기 언어모델 DB를 참조하여 상기 입력된 음성변환 텍스트 데이터에서 영어 단어로 표기된 부분을 한국어로 변경하는 것을 기본으로 띄어쓰기 및 오탈자 오류, 문장 분리, 또는 간투사처리 중 적어도 하나의 전처리 작업을 수행하는 전처리부; 축약어 단어별로 각각 대응되는 기 설정된 원 문자열을 데이터베이스(DB)화하여 저장 및 관리하는 축약어 DB; 상기 전처리부로부터 전처리 작업 수행된 문장 데이터를 제공받아 이를 기반으로 상기 축약어 DB를 참조하여 상기 전처리 작업 수행된 문장 데이터에서 축약어 단어에 대응되는 원 문자열을 검색한 후, 해당 축약어 단어를 상기 검색된 원 문자열로 복원하는 축약어 복원부; 동의어 묶음별로 각각 대응되는 기 설정된 하나의 대표어를 데이터베이스(DB)화하여 저장 및 관리하는 동의어 DB; 및 상기 축약어 복원부로부터 원 문자열로 복원된 문장 데이터를 제공받아 이를 기반으로 상기 동의어 DB를 참조하여 상기 원 문자열로 복원된 문장 데이터에서 복수의 동의어가 존재할 경우 해당 복수의 동의어에 대응되는 기 설정된 하나의 대표어를 검색한 후, 해당 복수의 동의어를 상기 검색된 대표어로 일괄 치환하는 동의어 처리부를 포함함이 바람직하다.Here, the restoration processing module includes: a language model DB for storing and managing a preset Korean database corresponding to each English word; Based on natural language processing technology, at least one of preprocessing of space and misspelling errors, sentence separation, or cross-projection processing is based on changing the part written in English words in the input speech conversion text data to Korean with reference to the language model DB a preprocessor that does the work; abbreviation DB for storing and managing preset original strings corresponding to each abbreviation word into a database (DB); After receiving the pre-processed sentence data from the pre-processing unit, referring to the abbreviation DB based on this, and searching for the original string corresponding to the abbreviated word in the pre-processed sentence data, the abbreviated word is the searched original string Abbreviation restoration unit to restore to; a synonym DB for storing and managing one preset representative word corresponding to each synonym bundle into a database (DB); and when a plurality of synonyms exist in the sentence data restored to the original character string by referring to the synonym DB based on the received sentence data restored to the original string from the abbreviation restoration unit, one preset corresponding to the plurality of synonyms After searching for a representative word of , it is preferable to include a synonym processing unit for collectively replacing the plurality of synonyms with the searched representative word.
바람직하게, 상기 순화처리모듈은, 한자어 단어별로 각각 대응되는 기 설정된 순수 한글 단어를 데이터베이스(DB)화하여 저장 및 관리하는 한자어 DB; 상기 복원처리모듈로부터 복원 처리된 문장 데이터를 제공받아 이를 기반으로 상기 한자어 DB를 참조하여 상기 복원 처리된 문장 데이터에서 명사 또는 복합 명사로 이루어진 한자어 단어에 대응되는 순수 한글 단어를 검색한 후, 해당 한자어 단어를 상기 검색된 순수 한글 단어로 명사 순화 처리하는 명사형 순화부; 동사를 포함한 서술형 높임말별로 각각 대응되는 기 설정된 서술형 순화어를 데이터베이스(DB)화하여 저장 및 관리하는 서술형 사전DB; 상기 명사형 순화부로부터 명사 순화 처리된 문장 데이터를 제공받아 이를 기반으로 상기 서술형 사전DB를 참조하여 상기 명사 순화 처리된 문장 데이터에서 동사를 포함한 서술형 높임말에 대응되는 서술형 순화어를 검색한 후, 해당 동사를 포함한 서술형 높임말을 상기 검색된 서술형 순화어로 변경하여 최종적으로 새로운 순화 문장을 생성하는 서술형 순화부를 포함할 수 있다.Preferably, the purification processing module comprises: a Chinese character DB for storing and managing preset pure Korean words corresponding to each Chinese character word into a database (DB); After receiving the restored-processed sentence data from the restoration processing module and referring to the Chinese-character DB based on it, searching for a pure Korean word corresponding to a Chinese-character word consisting of a noun or a compound noun in the restored-processed sentence data, the corresponding Chinese character a noun refining unit for refining a word into the searched pure Korean word; a narrative dictionary DB that stores and manages a database (DB) of pre-set narrative refined words corresponding to each narrative high level including verbs; After receiving the sentence data of the noun refinement process from the noun refinement unit, and referring to the descriptive dictionary DB based on this, the descriptive refinement word corresponding to the descriptive exaltation including the verb is retrieved from the noun refinement processed sentence data, and then the corresponding verb is retrieved. It may include a narrative refinement unit that changes the included narrative exclamation word to the searched narrative refined word to finally generate a new purified sentence.
바람직하게, 상기 서술형 순화부는, 명사와 어미 또는 동사와 어미로 구성된 부분에 대해 형태소 분석을 통하여 문장의 형태소와 품사를 추출할 수 있다.Preferably, the descriptive refining unit may extract morphemes and parts of speech of a sentence through morpheme analysis for a part composed of a noun and a ending or a verb and a ending.
바람직하게, 상기 순화처리모듈은, 부정의 의미를 갖는 부정 성향의 단어별로 각각 대응되는 기 설정된 순화형 단어를 데이터베이스(DB)화하여 저장 및 관리하는 부정어 DB가 더 포함될 수 있다.Preferably, the purification processing module may further include a negative word DB for storing and managing preset purified words corresponding to each negative word having a negative meaning in a database (DB).
바람직하게, 상기 명사형 순화부는, 상기 부정어 DB를 참조하여 상기 복원 처리된 문장 데이터 또는 상기 명사 순화 처리된 문장 데이터에서 부정 성향의 단어에 대응되는 순화형 단어를 검색한 후, 해당 부정 성향의 단어를 상기 검색된 순화형 단어로 순화 처리할 수 있다.Preferably, the noun refinement unit searches for a purified word corresponding to the negative tendency word in the restored sentence data or the noun refinement processed sentence data with reference to the negative word DB, and then selects the word of the negative tendency. A purification process may be performed using the searched purified word.
바람직하게, 상기 서술형 순화부는, 상기 부정어 DB를 참조하여 상기 명사 순화 처리된 문장 데이터 또는 상기 서술형 순화 처리된 문장 데이터에서 부정 성향의 단어에 대응되는 순화형 단어를 검색한 후, 해당 부정 성향의 단어를 상기 검색된 순화형 단어로 순화 처리할 수 있다.Preferably, the descriptive refinement unit searches for a refined word corresponding to a negative tendency word in the noun refinement-processed sentence data or the narrative-type refinement-processed sentence data with reference to the negative word DB, and then the word of the negative tendency may be purified as the searched purified word.
본 발명의 제2 측면은, 대화형 질의응답 서비스에서 복원처리모듈 및 순화처리모듈을 이용하여 순화된 문장을 생성하는 방법으로서, (a) 상기 복원처리모듈을 통해 상기 대화형 질의응답 서비스에 적용된 음성 인식(Speech to Text, STT) 기술에 의해 외부로부터 입력된 음성변환 텍스트 데이터를 기반으로 자연어처리 기술을 사용하여 상기 입력된 음성변환 텍스트 데이터의 특성으로 발생되는 오류를 정문으로 복원 처리하는 단계; 및 (b) 상기 순화처리모듈을 통해 상기 단계(a)에서 복원 처리된 문장 데이터를 제공받아 이를 기반으로 상기 복원 처리된 문장에 대하여 상황과 문맥에 맞고 사용자가 이해하기 쉬운 형태의 순화된 표현으로 변경 처리하여 새로운 순화 문장을 생성하는 단계를 포함하는 대화형 응답 서비스를 위한 순화 문장 생성 방법을 제공하는 것이다.A second aspect of the present invention is a method for generating a purified sentence using a restoration processing module and a purification processing module in an interactive Q&A service, (a) applied to the interactive Q&A service through the restoration processing module Using a natural language processing technology based on speech-to-text data input from the outside by speech recognition (Speech to Text, STT) technology, restoring an error occurring due to the characteristics of the inputted speech-to-text data to the front door; and (b) receiving the sentence data restored in step (a) through the purification processing module, and based on this, the restored sentence is converted into a purified expression in a form suitable for the situation and context and easy for the user to understand. An object of the present invention is to provide a method for generating a purified sentence for an interactive response service, which includes generating a new purified sentence by processing the change.
여기서, 상기 단계(a)는, (a-1) 상기 복원처리모듈에 구비된 전처리부를 통해 자연어처리 기술을 기반으로 별도의 언어모델 DB를 참조하여, 상기 입력된 음성변환 텍스트 데이터에서 영어 단어로 표기된 부분을 한국어로 변경하는 것을 기본으로 띄어쓰기 및 오탈자 오류, 문장 분리, 또는 간투사처리 중 적어도 하나의 전처리 작업을 수행하는 단계; (a-2) 상기 복원처리모듈에 구비된 축약어 복원부를 통해 상기 단계(a-1)에서 전처리 작업 수행된 문장 데이터를 기반으로 별도의 축약어 DB를 참조하여, 상기 전처리 작업 수행된 문장 데이터에서 축약어 단어에 대응되는 원 문자열을 검색한 후, 해당 축약어 단어를 상기 검색된 원 문자열로 복원하는 단계; 및 (a-3) 상기 복원처리모듈에 구비된 동의어 처리부를 통해 상기 단계(a-2)에서 원 문자열로 복원된 문장 데이터를 기반으로 별도의 동의어 DB를 참조하여, 상기 원 문자열로 복원된 문장 데이터에서 복수의 동의어가 존재할 경우 해당 복수의 동의어에 대응되는 기 설정된 하나의 대표어를 검색한 후, 해당 복수의 동의어를 상기 검색된 대표어로 일괄 치환하는 단계를 포함하여 이루어짐이 바람직하다.Here, in the step (a), (a-1) a separate language model DB based on natural language processing technology through a preprocessor provided in the restoration processing module is referred to, and the inputted speech converted text data is converted into English words. performing at least one of pre-processing of spaces and misspellings, sentence separation, and cross-projection processing on the basis of changing the marked part into Korean; (a-2) Referring to a separate abbreviation DB on the basis of the sentence data pre-processed in step (a-1) through the abbreviation restoration unit provided in the restoration processing module, the abbreviation from the pre-processed sentence data after searching for the original string corresponding to the word, restoring the corresponding abbreviated word to the searched original string; and (a-3) a sentence restored to the original character string by referring to a separate synonym DB based on the sentence data restored to the original character string in step (a-2) through the synonym processing unit provided in the restoration processing module When there are a plurality of synonyms in the data, it is preferable that the method includes searching for one preset representative word corresponding to the plurality of synonyms, and then collectively replacing the plurality of synonyms with the searched representative word.
바람직하게, 상기 단계(a-1) 이전에, 상기 복원처리모듈을 통해 영어 단어별로 각각 대응되는 기 설정된 한국어를 데이터베이스(DB)화하여 상기 언어모델 DB에 저장 및 관리하는 단계를 더 포함할 수 있다.Preferably, before the step (a-1), it may further include the step of storing and managing a preset Korean database corresponding to each English word through the restoration processing module and storing and managing it in the language model DB. have.
바람직하게, 상기 단계(a-2) 이전에, 상기 복원처리모듈을 통해 축약어 단어별로 각각 대응되는 기 설정된 원 문자열을 데이터베이스(DB)화하여 상기 축약어 DB에 저장 및 관리하는 단계를 더 포함할 수 있다.Preferably, before the step (a-2), the method may further include a step of converting a preset original string corresponding to each abbreviation word through the restoration processing module into a database (DB) and storing and managing the abbreviation DB in the abbreviation DB. have.
바람직하게, 상기 단계(a-3) 이전에, 상기 복원처리모듈을 통해 동의어 묶음별로 각각 대응되는 기 설정된 하나의 대표어를 데이터베이스(DB)화하여 상기 동의어 DB에 저장 및 관리하는 단계를 더 포함할 수 있다.Preferably, before the step (a-3), a database (DB) of one preset representative word corresponding to each synonym bundle through the restoration processing module, further comprising the step of storing and managing the synonym DB can do.
바람직하게, 상기 단계(b)는, (b-1) 상기 순화처리모듈에 구비된 명사형 순화부를 통해 상기 단계(a)에서 복원 처리된 문장 데이터를 기반으로 별도의 한자어 DB를 참조하여, 상기 복원 처리된 문장 데이터에서 명사 또는 복합 명사로 이루어진 한자어 단어에 대응되는 순수 한글 단어를 검색한 후, 해당 한자어 단어를 상기 검색된 순수 한글 단어로 명사 순화 처리하는 단계; 및 (b-2) 상기 순화처리모듈에 구비된 서술형 순화부를 통해 상기 단계(b-1)에서 명사 순화 처리된 문장 데이터를 기반으로 별도의 서술형 사전DB를 참조하여, 상기 명사 순화 처리된 문장 데이터에서 동사를 포함한 서술형 높임말에 대응되는 서술형 순화어를 검색한 후, 해당 동사를 포함한 서술형 높임말을 상기 검색된 서술형 순화어로 변경하여 최종적으로 새로운 순화 문장을 생성하는 단계를 포함하여 이루어질 수 있다.Preferably, in step (b), (b-1) a separate Chinese character DB is referred to based on the sentence data restored in step (a) through a noun refinement unit provided in the purification processing module, and the restoration is performed. searching for a pure Korean word corresponding to a Chinese character word composed of a noun or a compound noun in the processed sentence data, and then refining the noun into the searched pure Korean word; and (b-2) referring to a separate narrative dictionary DB based on the sentence data processed by the noun purification in step (b-1) through the narrative purification unit provided in the purification processing module, and the noun purification processing sentence data After searching for a descriptive refined word corresponding to a descriptive adjective including a verb, changing the descriptive adjective including the corresponding verb to the searched descriptive refined word, finally generating a new purified sentence.
바람직하게, 상기 단계(b-1) 이전에, 상기 순화처리모듈을 통해 한자어 단어별로 각각 대응되는 기 설정된 순수 한글 단어를 데이터베이스(DB)화하여 상기 한자어 DB에 저장 및 관리하는 단계를 더 포함할 수 있다.Preferably, before the step (b-1), it may further include the step of converting a preset pure Korean word corresponding to each Chinese character word through the purification processing module into a database (DB), and storing and managing it in the Chinese character DB. can
바람직하게, 상기 단계(b-2) 이전에, 상기 순화처리모듈을 통해 동사를 포함한 서술형 높임말별로 각각 대응되는 기 설정된 서술형 순화어를 데이터베이스(DB)화하여 상기 서술형 사전DB에 저장 및 관리하는 단계를 더 포함할 수 있다.Preferably, before the step (b-2), the step of storing and managing the preset narrative refined words corresponding to each narrative adjective including the verb through the purification processing module into a database (DB) and storing and managing the narrative dictionary DB may include more.
바람직하게, 상기 단계(b-2)에서, 상기 서술형 순화부는, 명사와 어미 또는 동사와 어미로 구성된 부분에 대해 형태소 분석을 통하여 문장의 형태소와 품사를 추출할 수 있다.Preferably, in step (b-2), the narrative refiner may extract morphemes and parts of speech of a sentence through morpheme analysis for a part composed of a noun and a ending or a verb and a ending.
바람직하게, 상기 단계(b-1) 이전 또는 이후에, 상기 순화처리모듈에 구비된 명사형 순화부를 통해 별도의 부정어 DB를 참조하여, 상기 복원 처리된 문장 데이터 또는 상기 명사 순화 처리된 문장 데이터에서 부정 성향의 단어에 대응되는 순화형 단어를 검색한 후, 해당 부정 성향의 단어를 상기 검색된 순화형 단어로 순화 처리하는 제1 단계를 더 포함할 수 있다.Preferably, before or after step (b-1), by referring to a separate negative word DB through the noun-type refinement unit provided in the refinement processing module, negation in the restored-processed sentence data or the noun-refined-processed sentence data The method may further include a first step of purifying the word of the negative tendency into the searched purified word after searching for a refined word corresponding to the word of the propensity.
바람직하게, 상기 제1 단계 이전에, 상기 순화처리모듈을 통해 부정의 의미를 갖는 부정 성향의 단어별로 각각 대응되는 기 설정된 순화형 단어를 데이터베이스(DB)화하여 상기 부정어 DB에 저장 및 관리하는 단계를 더 포함할 수 있다.Preferably, before the first step, the step of converting a preset purified word corresponding to each negative word having a negative meaning through the purification processing module into a database (DB), storing and managing the negative word DB may further include.
바람직하게, 상기 단계(b-2) 이전 또는 이후에, 상기 순화처리모듈에 구비된 서술형 순화부를 통해 별도의 부정어 DB를 참조하여, 상기 명사 순화 처리된 문장 데이터 또는 상기 서술형 순화 처리된 문장 데이터에서 부정 성향의 단어에 대응되는 순화형 단어를 검색한 후, 해당 부정 성향의 단어를 상기 검색된 순화형 단어로 순화 처리하는 제2 단계를 더 포함할 수 있다.Preferably, before or after the step (b-2), by referring to a separate negative word DB through the narrative refinement unit provided in the refinement processing module, the noun refinement-processed sentence data or the narrative-type refinement-processed sentence data The method may further include a second step of purifying the word of the negative tendency into the searched purified word after searching for a refined word corresponding to the negative tendency word.
바람직하게, 상기 제2 단계 이전에, 상기 순화처리모듈을 통해 부정의 의미를 갖는 부정 성향의 단어별로 각각 대응되는 기 설정된 순화형 단어를 데이터베이스(DB)화하여 상기 부정어 DB에 저장 및 관리하는 단계를 더 포함할 수 있다.Preferably, before the second step, the step of converting a preset purified word corresponding to each negative word having a negative meaning through the purification processing module into a database (DB), storing and managing the negative word DB may further include.
본 발명의 제3 측면은, 상술한 대화형 질의응답 서비스를 위한 순화 문장 생성 방법을 실행시킬 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.A third aspect of the present invention provides a computer-readable recording medium in which a program capable of executing the above-described method for generating a purified sentence for an interactive question-and-answer service is recorded.
본 발명에 따른 대화형 질의응답 서비스를 위한 순화 문장 생성 방법은 컴퓨터로 판독할 수 있는 기록매체에 컴퓨터로 판독할 수 있는 코드로 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체에는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.The method for generating a purified sentence for an interactive question and answer service according to the present invention may be implemented as a computer-readable code on a computer-readable recording medium. The computer-readable recording medium includes all kinds of recording devices in which data readable by a computer system is stored.
예컨대, 컴퓨터가 읽을 수 있는 기록매체로는 롬(ROM), 램(RAM), 시디-롬(CD-ROM), 자기 테이프, 하드디스크, 플로피 디스크, 이동식 저장장치, 비휘발성 메모리(Flash Memory), 광 데이터 저장장치 등이 있다.For example, computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, hard disk, floppy disk, removable storage device, and non-volatile memory (Flash Memory). , and optical data storage devices.
이상에서 설명한 바와 같은 본 발명의 대화형 질의응답 서비스를 위한 순화 문장 생성 장치 및 그 방법에 따르면, 대화형 질의응답 서비스에 적용된 음성 인식(STT) 기술을 통해 음성변환 텍스트 데이터의 특성상 발생되는 어휘적인 오류와 생략을 정문으로 복원하고, 복원된 데이터를 순화된 표현의 문장으로 자동 생성하여 직접적으로 상담원에게 제공함으로써, 대화형 질의응답 서비스의 품질을 일관되게 유지할 수 있는 이점이 있다.According to the apparatus and method for generating a purified sentence for an interactive question and answer service of the present invention as described above, the lexical expression generated by the characteristics of the speech conversion text data through the speech recognition (STT) technology applied to the interactive question and answer service is used. There is an advantage in that the quality of the interactive Q&A service can be consistently maintained by restoring errors and omissions to the main sentence and automatically generating the restored data as sentences of purified expression and directly providing it to the agent.
또한, 본 발명에 따르면, 음성 인식(STT) 기술을 통한 음성변환 텍스트 데이터를 대화형 질의응답 서비스를 위하여 복원하고 순화된 문장을 생성함으로써 직관적으로 데이터를 활용할 수 있으며, 상담원 개인의 능력에 따라 발생될 수 있는 품질 편차를 줄일 수 있는 이점이 있다.In addition, according to the present invention, the data can be intuitively utilized by restoring speech-converted text data through speech recognition (STT) technology for an interactive question-and-answer service and generating purified sentences. There is an advantage that can reduce the quality deviation that can be.
또한, 본 발명에 따르면, 어려운 용어 사용과 상황에 맞지 않는 말투의 사용으로 발생되는 문제를 줄여 고객의 서비스 만족도를 높일 수 있으며, 생성된 순화 문장은 챗봇 시스템에서 활용이 가능한 이점이 있다.In addition, according to the present invention, it is possible to increase customer service satisfaction by reducing problems caused by the use of difficult terms and use of tones that do not fit the situation, and there is an advantage that the generated purified sentences can be utilized in the chatbot system.
또한, 본 발명에 따르면, 기존의 챗봇 시스템에서 순화된 형태의 문장에 대한 지식베이스 구축 시 본 발명을 사용하면 추가적인 지식 구축과 후처리 비용을 절감할 수 있으며, 챗봇으로 생성되는 문장의 품질을 높일 수 있는 이점이 있다.In addition, according to the present invention, if the present invention is used when constructing a knowledge base for sentences in a purified form in the existing chatbot system, additional knowledge construction and post-processing costs can be reduced, and the quality of sentences generated by the chatbot can be improved. There are advantages that can be
도 1은 본 발명의 일 실시예에 따른 대화형 질의응답 서비스를 위한 순화 문장 생성 장치를 설명하기 위한 전체적인 블록 구성도이다.
도 2는 본 발명의 일 실시예에 따른 대화형 질의응답 서비스를 위한 순화 문장 생성 방법을 설명하기 위한 전체적인 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 대화형 질의응답 서비스를 위한 순화 문장 생성 방법에서 입력된 음성변환 텍스트 데이터의 특성으로 발생되는 오류를 정문으로 복원 처리하는 단계를 구체적으로 설명하기 위한 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 대화형 질의응답 서비스를 위한 순화 문장 생성 방법에서 순화된 표현으로 변경 처리하여 새로운 순화 문장을 생성하는 단계를 구체적으로 설명하기 위한 흐름도이다.1 is an overall block diagram illustrating an apparatus for generating a purified sentence for an interactive Q&A service according to an embodiment of the present invention.
2 is an overall flowchart illustrating a method of generating a purified sentence for an interactive Q&A service according to an embodiment of the present invention.
3 is a flowchart for explaining in detail the step of restoring and processing an error occurring due to the characteristics of the inputted speech text data to the front door in the method for generating a purified sentence for an interactive question and answer service according to an embodiment of the present invention. .
4 is a flowchart for specifically explaining a step of generating a new purified sentence by changing a purified expression to a purified expression in the method for generating a purified sentence for an interactive Q&A service according to an embodiment of the present invention.
전술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되며, 이에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다.The above-described objects, features and advantages will be described below in detail with reference to the accompanying drawings, and accordingly, those of ordinary skill in the art to which the present invention pertains will be able to easily implement the technical idea of the present invention. In describing the present invention, if it is determined that a detailed description of a known technology related to the present invention may unnecessarily obscure the gist of the present invention, the detailed description will be omitted.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.Terms including an ordinal number, such as first, second, etc., may be used to describe various elements, but the elements are not limited by the terms. The above terms are used only for the purpose of distinguishing one component from another. For example, without departing from the scope of the present invention, a first component may be referred to as a second component, and similarly, a second component may also be referred to as a first component. The terms used in the present application are only used to describe specific embodiments, and are not intended to limit the present invention. The singular expression includes the plural expression unless the context clearly dictates otherwise.
본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.The terms used in the present invention have been selected as currently widely used general terms as possible while considering the functions in the present invention, which may vary depending on the intention or precedent of a person skilled in the art, the emergence of new technology, and the like. In addition, in a specific case, there is a term arbitrarily selected by the applicant, and in this case, the meaning will be described in detail in the description of the corresponding invention. Therefore, the term used in the present invention should be defined based on the meaning of the term and the overall content of the present invention, rather than the name of a simple term.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.When a part "includes" a certain element throughout the specification, this means that other elements may be further included, rather than excluding other elements, unless otherwise stated. In addition, terms such as "...unit" and "module" described in the specification mean a unit that processes at least one function or operation, which may be implemented as hardware or software, or a combination of hardware and software. .
이하, 첨부 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다. 그러나, 다음에 예시하는 본 발명의 실시예는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 다음에 상술하는 실시예에 한정되는 것은 아니다. 본 발명의 실시예는 당업계에서 통상의 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공되어지는 것이다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. However, the embodiments of the present invention illustrated below may be modified in various other forms, and the scope of the present invention is not limited to the embodiments described below. The embodiments of the present invention are provided to more completely explain the present invention to those of ordinary skill in the art.
첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들(실행 엔진)에 의해 수행될 수도 있으며, 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다.Each block in the accompanying block diagram and combinations of steps in the flowchart may be executed by computer program instructions (execution engine), which computer program instructions may be executed by a processor of a general-purpose computer, special-purpose computer, or other programmable data processing equipment. It may be mounted so that the instructions, which are executed by the processor of a computer or other programmable data processing equipment, create means for performing the functions described in each block of the block diagram or in each step of the flowchart. These computer program instructions may also be stored in a computer usable or computer readable memory which may direct a computer or other programmable data processing equipment to implement a function in a particular manner, and thus It is also possible for the instructions stored in the block diagram to produce an article of manufacture containing instruction means for performing the functions described in each block of the block diagram or each step of the flowchart.
그리고, 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명되는 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.And, since the computer program instructions may be mounted on a computer or other programmable data processing equipment, a series of operating steps are performed on the computer or other programmable data processing equipment to create a computer-executed process to create a computer or other program It is also possible that instructions for performing the possible data processing equipment provide steps for carrying out the functions described in each block of the block diagram and each step of the flowchart.
또한, 각 블록 또는 각 단계는 특정된 논리적 기능들을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있으며, 몇 가지 대체 실시 예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하며, 또한 그 블록들 또는 단계들이 필요에 따라 해당하는 기능의 역순으로 수행되는 것도 가능하다.In addition, each block or step may represent a module, segment, or portion of code comprising one or more executable instructions for executing specified logical functions, and in some alternative embodiments the blocks or steps referred to in the block or steps. It should be noted that it is also possible for functions to occur out of sequence. For example, it is possible that two blocks or steps shown one after another may be performed substantially simultaneously, and also the blocks or steps may be performed in the reverse order of the corresponding functions, if necessary.
도 1은 본 발명의 일 실시예에 따른 대화형 질의응답 서비스를 위한 순화 문장 생성 장치를 설명하기 위한 전체적인 블록 구성도이다.1 is an overall block diagram illustrating an apparatus for generating a purified sentence for an interactive Q&A service according to an embodiment of the present invention.
도 1을 참조하면, 본 발명의 일 실시예에 따른 대화형 질의응답 서비스를 위한 순화 문장 생성 장치는, 크게 복원처리모듈(100) 및 순화처리모듈(200) 등을 포함하여 이루어진다. 한편, 도 1에 도시된 구성요소들이 필수적인 것은 아니어서, 본 발명의 일 실시예에 따른 대화형 질의응답 서비스를 위한 순화 문장 생성 장치는 그보다 많은 구성요소들을 갖거나 그보다 적은 구성요소들을 가질 수도 있다.Referring to FIG. 1 , an apparatus for generating a purified sentence for an interactive Q&A service according to an embodiment of the present invention largely includes a
이하, 본 발명의 일 실시예에 따른 대화형 질의응답 서비스를 위한 순화 문장 생성 장치의 구성요소들에 대해 구체적으로 살펴보면 다음과 같다.Hereinafter, components of an apparatus for generating a purified sentence for an interactive Q&A service according to an embodiment of the present invention will be described in detail as follows.
복원처리모듈(100)은 대화형 질의응답 서비스에 적용된 음성 인식(Speech to Text, STT) 기술을 통해 외부로부터 입력된 음성변환 텍스트 데이터를 제공받아 자연어처리 기술을 사용하여 상기 외부로부터 입력된 음성변환 텍스트 데이터의 특성으로 발생되는 오류를 정문으로 복원 처리하는 기능을 수행한다.The
이러한 복원처리모듈(100)은 도 1에 도시된 바와 같이, 크게 언어모델 DB(110), 전처리부(120), 축약어 DB(130), 축약어 복원부(140), 동의어 DB(150), 및 동의어 처리부(160) 등을 포함하여 이루어진다.As shown in FIG. 1, the
여기서, 언어모델 DB(110)는 영어 단어별로 각각 대응되는 기 설정된 한국어를 데이터베이스(DB)화하여 저장 및 관리하는 기능을 수행한다.Here, the
전처리부(120)는 자연어처리 기술을 기반으로 언어모델 DB(110)를 참조하여 외부로부터 입력된 음성변환 텍스트 데이터에서 영어 단어로 표기된 부분을 한국어로 변경하는 것을 기본으로 띄어쓰기 및 오탈자 오류, 문장 분리, 및/또는 간투사처리 중 적어도 하나의 전처리 작업을 수행하는 기능을 수행한다.The
축약어 DB(130)는 축약어 단어별로 각각 대응되는 기 설정된 원 문자열을 데이터베이스(DB)화하여 저장 및 관리하는 기능을 수행한다.The
축약어 복원부(140)는 전처리부(120)로부터 전처리 작업 수행된 문장 데이터를 제공받아 이를 기반으로 축약어 DB(130)를 참조하여 상기 전처리 작업 수행된 문장 데이터에서 축약어 단어에 대응되는 원 문자열을 검색한 후, 해당 축약어 단어를 상기 검색된 원 문자열로 복원하는 기능을 수행한다.The
동의어 DB(150)는 동의어 묶음별로 각각 대응되는 기 설정된 하나의 대표어를 데이터베이스(DB)화하여 저장 및 관리하는 기능을 수행한다.The
동의어 처리부(160)는 축약어 복원부(140)로부터 원 문자열로 복원된 문장 데이터를 제공받아 이를 기반으로 동의어 DB(150)를 참조하여 상기 원 문자열로 복원된 문장 데이터에서 복수의 동의어가 존재할 경우 해당 복수의 동의어에 대응되는 기 설정된 하나의 대표어를 검색한 후, 해당 복수의 동의어를 상기 검색된 대표어로 일괄 치환하는 기능을 수행한다.The
그리고, 순화처리모듈(200)은 복원처리모듈(100)로부터 복원 처리된 문장 데이터를 제공받아 이를 기반으로 상기 복원 처리된 문장에 대하여 상황과 문맥에 맞고 사용자가 이해하기 쉬운 형태의 순화된 표현으로 변경 처리하여 새로운 순화 문장을 생성하는 기능을 수행한다.And, the
즉, 순화처리모듈(200)은 복원 처리된 문장에 대하여 오류를 찾아 교정하는 것이 아니라 상황과 문맥에 맞고 사용자가 이해하기 쉬운 형태의 순화된 표현으로 변경시키는 역할을 수행한다.That is, the
이러한 순화처리모듈(200)은 도 1에 도시된 바와 같이, 크게 한자어 DB(210), 명사형 순화부(220), 서술형 사전DB(230), 및 서술형 순화부(240) 등을 포함하여 이루어진다. 또한, 본 발명의 일 실시예에 적용된 순화처리모듈(200)은 부정어 DB(250) 등을 더 포함할 수 있다. 한편, 도 1에 도시된 구성요소들이 필수적인 것은 아니어서, 본 발명의 일 실시예에 따른 적용된 순화처리모듈(200)은 그보다 많은 구성요소들을 갖거나 그보다 적은 구성요소들을 가질 수도 있다.As shown in FIG. 1 , the
여기서, 한자어 DB(210)는 한자어 단어별로 각각 대응되는 기 설정된 순수 한글 단어를 데이터베이스(DB)화하여 저장 및 관리하는 기능을 수행한다.Here, the
명사형 순화부(220)는 복원처리모듈(100)로부터 복원 처리된 문장 데이터를 제공받아 이를 기반으로 한자어 DB(210)를 참조하여 상기 복원 처리된 문장 데이터에서 명사 및/또는 복합 명사로 이루어진 한자어 단어에 대응되는 순수 한글 단어를 검색한 후, 해당 한자어 단어를 상기 검색된 순수 한글 단어로 명사 순화 처리하는 기능을 수행한다.The
또한, 명사형 순화부(220)는 부정어 DB(250)를 참조하여 상기 복원 처리된 문장 데이터 및/또는 상기 명사 순화 처리된 문장 데이터에서 부정 성향의 단어에 대응되는 순화형 단어를 검색한 후, 해당 부정 성향의 단어를 상기 검색된 순화형 단어로 순화 처리하는 기능을 수행할 수 있다.In addition, the
서술형 사전DB(230)는 동사를 포함한 서술형 높임말별로 각각 대응되는 기 설정된 서술형 순화어를 데이터베이스(DB)화하여 저장 및 관리하는 기능을 수행한다.The
서술형 순화부(240)는 명사형 순화부(220)로부터 명사 순화 처리된 문장 데이터를 제공받아 이를 기반으로 서술형 사전DB(230)를 참조하여 상기 명사 순화 처리된 문장 데이터에서 동사를 포함한 서술형 높임말에 대응되는 서술형 순화어를 검색한 후, 해당 동사를 포함한 서술형 높임말을 상기 검색된 서술형 순화어로 변경하여 최종적으로 새로운 순화 문장을 생성하는 기능을 수행한다.The
또한, 서술형 순화부(240)는 명사와 어미 및/또는 동사와 어미로 구성된 부분에 대해 형태소 분석을 통하여 문장의 형태소와 품사를 추출하는 기능을 수행할 수 있다.In addition, the
또한, 서술형 순화부(240)는 부정어 DB(250)를 참조하여 상기 명사 순화 처리된 문장 데이터 및/또는 상기 서술형 순화 처리된 문장 데이터에서 부정 성향의 단어에 대응되는 순화형 단어를 검색한 후, 해당 부정 성향의 단어를 상기 검색된 순화형 단어로 순화 처리하는 기능을 수행할 수 있다.In addition, the
추가적으로, 부정어 DB(250)는 부정의 의미를 갖는 부정 성향의 단어별로 각각 대응되는 기 설정된 순화형 단어를 데이터베이스(DB)화하여 저장 및 관리하는 기능을 수행한다.Additionally, the
이하에는 본 발명의 일 실시예에 따른 대화형 질의응답 서비스를 위한 순화 문장 생성 방법을 상세하게 설명하기로 한다.Hereinafter, a method for generating a purified sentence for an interactive Q&A service according to an embodiment of the present invention will be described in detail.
도 2는 본 발명의 일 실시예에 따른 대화형 질의응답 서비스를 위한 순화 문장 생성 방법을 설명하기 위한 전체적인 흐름도이고, 도 3은 본 발명의 일 실시예에 따른 대화형 질의응답 서비스를 위한 순화 문장 생성 방법에서 입력된 음성변환 텍스트 데이터의 특성으로 발생되는 오류를 정문으로 복원 처리하는 단계를 구체적으로 설명하기 위한 흐름도이며, 도 4는 본 발명의 일 실시예에 따른 대화형 질의응답 서비스를 위한 순화 문장 생성 방법에서 순화된 표현으로 변경 처리하여 새로운 순화 문장을 생성하는 단계를 구체적으로 설명하기 위한 흐름도이다.2 is an overall flowchart illustrating a method of generating a purified sentence for an interactive Q&A service according to an embodiment of the present invention, and FIG. 3 is a purified sentence for an interactive Q&A service according to an embodiment of the present invention. It is a flowchart for specifically explaining the step of restoring and processing an error occurring due to the characteristics of the speech converted text data input in the generating method to the front door, and FIG. 4 is a purification for an interactive question and answer service according to an embodiment of the present invention. It is a flowchart for specifically explaining the step of generating a new purified sentence by changing the sentence generation method to a purified expression.
도 1 내지 도 4를 참조하면, 본 발명의 일 실시예에 따른 대화형 질의응답 서비스를 위한 순화 문장 생성 방법은, 먼저, 복원처리모듈(100)을 통해 대화형 질의응답 서비스에 적용된 음성 인식(Speech to Text, STT) 기술에 의해 외부로부터 입력된 음성변환 텍스트 데이터를 기반으로 자연어처리 기술을 사용하여 상기 입력된 음성변환 텍스트 데이터의 특성으로 발생되는 오류를 정문으로 복원 처리한다(S100).1 to 4 , in the method for generating a purified sentence for an interactive question and answer service according to an embodiment of the present invention, first, voice recognition applied to the interactive question and answer service through the restoration processing module 100 ( Using natural language processing technology based on speech-to-text data input from the outside by Speech to Text (STT) technology, errors occurring due to the characteristics of the inputted speech-to-text data are restored to the front door and processed (S100).
이러한 상기 단계S100은 도 3에 도시된 바와 같이, 복원처리모듈(100)에 구비된 전처리부(120)를 통해 자연어처리 기술을 기반으로 별도의 언어모델 DB(110)를 참조하여, 상기 입력된 음성변환 텍스트 데이터에서 영어 단어로 표기된 부분을 한국어로 변경하는 것을 기본으로 띄어쓰기 및 오탈자 오류, 문장 분리, 및/또는 간투사처리 중 적어도 하나의 전처리 작업을 수행하는 단계(S110)와, 복원처리모듈(100)에 구비된 축약어 복원부(140)를 통해 상기 단계S110에서 전처리 작업 수행된 문장 데이터를 기반으로 별도의 축약어 DB(130)를 참조하여, 상기 전처리 작업 수행된 문장 데이터에서 축약어 단어에 대응되는 원 문자열을 검색한 후, 해당 축약어 단어를 상기 검색된 원 문자열로 복원하는 단계(S120)와, 복원처리모듈(100)에 구비된 동의어 처리부(160)를 통해 상기 단계S120에서 원 문자열로 복원된 문장 데이터를 기반으로 별도의 동의어 DB(150)를 참조하여, 상기 원 문자열로 복원된 문장 데이터에서 복수의 동의어가 존재할 경우 해당 복수의 동의어에 대응되는 기 설정된 하나의 대표어를 검색한 후, 해당 복수의 동의어를 상기 검색된 대표어로 일괄 치환하는 단계(S130) 등을 포함하여 이루어질 수 있다.As shown in FIG. 3 , the step S100 refers to a separate
여기서, 상기 단계S110의 전처리 작업 중 영어 단어로 표기된 부분을 한국어로 변경하는 작업은 예컨대, "모바일 web"을 "모바일웹"으로 복원할 수 있다.Here, in the pre-processing operation of step S110, the operation of changing the part written in English words into Korean may restore "mobile web" to "mobile web", for example.
또한, 상기 단계S130의 동의어 처리 작업은 예컨대, "앱(App)", "어플", "어플리케이션" 등과 같이 여러 형태로 사용되는 경우, 하나의 대표어를 설정하여 일관된 단어로 치환할 수 있다.In addition, when the synonym processing operation of step S130 is used in various forms such as "App", "app", "application", etc., one representative word may be set and replaced with a consistent word.
한편, 도면에 도시되진 않았지만, 상기 단계S110 이전에, 복원처리모듈(100)을 통해 영어 단어별로 각각 대응되는 기 설정된 한국어를 데이터베이스(DB)화하여 언어모델 DB(110)에 저장 및 관리하는 단계를 더 포함할 수 있다.On the other hand, although not shown in the drawing, before the step S110, the preset Korean corresponding to each English word is converted into a database (DB) through the
또한, 상기 단계S120 이전에, 복원처리모듈(110)을 통해 축약어 단어별로 각각 대응되는 기 설정된 원 문자열을 데이터베이스(DB)화하여 축약어 DB(130)에 저장 및 관리하는 단계를 더 포함할 수도 있다.In addition, before the step S120, it may further include the step of converting a preset original character string corresponding to each abbreviation word through the
또한, 상기 단계S130 이전에, 복원처리모듈(110)을 통해 동의어 묶음별로 각각 대응되는 기 설정된 하나의 대표어를 데이터베이스(DB)화하여 동의어 DB(150)에 저장 및 관리하는 단계를 더 포함할 수도 있다.In addition, before the step S130, a database (DB) of one preset representative word corresponding to each synonym bundle through the
한편, 전술한 상기 단계S110 내지 상기 단계S130은 순차적으로 구현함이 바람직하지만, 이에 국한하지 않으며, 적용되는 시스템의 필요에 따라 순서를 변경하여 구현할 수도 있다.On the other hand, the above-described steps S110 to S130 are preferably implemented sequentially, but are not limited thereto, and may be implemented by changing the order according to the needs of the applied system.
이후에, 순화처리모듈(200)을 통해 상기 단계S100에서 복원 처리된 문장 데이터를 기반으로 상기 복원 처리된 문장에 대하여 상황과 문맥에 맞고 사용자가 이해하기 쉬운 형태의 순화된 표현으로 변경 처리하여 새로운 순화 문장을 생성한다(S200).Thereafter, based on the sentence data restored in step S100 through the
이러한 상기 단계S200은 도 4에 도시된 바와 같이, 순화처리모듈(200)에 구비된 명사형 순화부(220)를 통해 상기 단계S100에서 복원 처리된 문장 데이터를 기반으로 별도의 한자어 DB(210)를 참조하여, 상기 복원 처리된 문장 데이터에서 명사 및/또는 복합 명사로 이루어진 한자어 단어에 대응되는 순수 한글 단어를 검색한 후, 해당 한자어 단어를 상기 검색된 순수 한글 단어로 명사 순화 처리하는 단계(S210)와, 순화처리모듈(200)에 구비된 서술형 순화부(240)를 통해 상기 단계S210에서 명사 순화 처리된 문장 데이터를 기반으로 별도의 서술형 사전DB(230)를 참조하여, 상기 명사 순화 처리된 문장 데이터에서 동사를 포함한 서술형 높임말에 대응되는 서술형 순화어를 검색한 후, 해당 동사를 포함한 서술형 높임말을 상기 검색된 서술형 순화어로 변경하여 최종적으로 새로운 순화 문장을 생성하는 단계(S220) 등을 포함하여 이루어질 수 있다.As shown in FIG. 4, in step S200, a separate
여기서, 상기 단계S210의 명사형 순화의 경우, 명사 혹은 명사와 명사가 결합된 복합 명사의 형태를 갖는 경우를 말하며, 불필요하게 사용되는 한자어나 부정 성향의 단어를 순화할 수 있다.Here, in the case of the noun refinement of step S210, it refers to a case in which a noun or a compound noun is combined with a noun, and unnecessary Chinese characters or words with negative tendencies can be purified.
그리고, 한자어 DB(210)는 예컨대, "미신청", "기적립", "재발행" 등으로 명사이거나 접사와 명사로 이루어진 단어와 순화 표현으로 구성되어 있다. 또한, 자주 사용되는 한자어 사전을 사용하여 어려운 용어를 순화된 표현으로 바꾼다.In addition, the
이러한 한자어 DB(210)를 이용하여 한자어를 순수 한글 단어로 명사 순화 처리하는 일 예를 살펴보면, "미리 고지 드린 대로 해당 서비스 이용은 익일 사용 가능합니다."의 문장은 "미리 안내 드린 대로 해당 서비스 이용은 다음날 사용 가능합니다."로 문장을 순화시킬 수 있다. 즉, "고지"는 "안내"로 순화하며, "익일"보다는 사용자가 이해하기 쉽도록 "다음날"로 문장을 순화한다.Looking at an example of processing the nouns into pure Korean words using the
한편, 상기 단계S220의 서술형 순화 처리 과정에서는 동사를 포함한 서술 형태를 고객 서비스의 적합하게 순화하는 역할을 수행한다. 예를 들어, 과도하게 어색한 높임말을 사용하는 경우는 오히려 고객에게 부담이나 의사소통에 불편함을 주기 때문에 이를 순화한 표현으로 변경한다. 또한, 상황에 따라 문맥상 적합한 단어로 변경하여 순화된 표현을 생성한다.On the other hand, in the narrative form purification process of step S220, the narrative form including the verb plays a role of suitably purifying the customer service. For example, if you use an excessively awkward adjective, it will rather be a burden to the customer or inconvenient to communicate, so change it to a pure expression. In addition, a purified expression is generated by changing it to a word suitable for the context according to the situation.
즉, 상기 단계S220의 서술형 순화의 경우는 명사와 어미 혹은 동사와 어미로 구성되어 있기 때문에, 해당 부분은 형태소 분석(morphology analysis)을 통하여 문장의 형태소와 품사를 추출하고 서술형 사전DB(230)을 사용하여 해당 부분을 순화어로 대체한다.That is, since the descriptive refinement of step S220 consists of a noun and a suffix or a verb and a suffix, the corresponding part extracts the morpheme and part-of-speech of the sentence through morphology analysis and uses the
이러한 서술형 사전DB(230)을 사용하여 어색한 높임말과 불필요하게 긴 표현을 순화한 일 예를 살펴보면, "참고하셔서 정확하게 입력하여 주시기 바랍니다."의 문장은 "참고하여 정확하게 입력바랍니다."로 문장을 순화시킬 수 있다. 즉, "참고하셔서" 는 어색한 높임말이기 때문에 "참고하여" 로 순화되며, "주시기 바랍니다."는 불필요하게 길게 말하게 되어 오히려 사용자가 불편함을 느낄 수 있다. 따라서 "바랍니다."로 간결하게 순화되어 문장을 생성한다.Looking at an example of purifying awkward high-level words and unnecessary long expressions using this
한편, 전술한 상기 단계S210 및 상기 단계S220은 순차적으로 구현함이 바람직하지만, 이에 국한하지 않으며, 적용되는 시스템의 필요에 따라 순서를 변경하여 구현할 수도 있다.On the other hand, the above-described steps S210 and S220 are preferably implemented sequentially, but are not limited thereto, and may be implemented by changing the order according to the needs of the applied system.
추가적으로, 도면에 도시되진 않았지만, 상기 단계S210 이전에, 순화처리모듈(200)을 통해 한자어 단어별로 각각 대응되는 기 설정된 순수 한글 단어를 데이터베이스(DB)화하여 한자어 DB(210)에 저장 및 관리하는 단계를 더 포함할 수 있다.Additionally, although not shown in the drawing, before the step S210, a preset pure Korean word corresponding to each Chinese character word is converted into a database (DB) through the
또한, 상기 단계S210 이전 및/또는 이후에, 순화처리모듈(200)에 구비된 명사형 순화부(220)를 통해 별도의 부정어 DB(250)를 참조하여, 상기 복원 처리된 문장 데이터 및/또는 상기 명사 순화 처리된 문장 데이터에서 부정 성향의 단어에 대응되는 순화형 단어를 검색한 후, 해당 부정 성향의 단어를 상기 검색된 순화형 단어로 순화 처리하는 제1 단계를 더 포함할 수도 있다.In addition, before and/or after step S210, a separate
즉, 명사형 순화부(220)를 통한 부정어 순화는 응답 서비스 특성상 부정의 의미를 갖는 단어의 사용을 줄이기 위한 역할을 수행한다. 예컨대, "희망 수익률 문자 통보 서비스는 다음 달에 사용 불가"의 문장은 "희망 수익률 문자 알림 서비스는 다음 달에 사용 제외"로 문장을 순화시킬 수 있다. 즉, "통보"는 강압적인 느낌을 주기 때문에 "알림"으로 순화가 되며, "불가"라는 부정적 느낌을 주는 어휘보다는 "제외"로 순화하여 문장을 생성한다.That is, the negative word purification through the
또한, 상기 제1 단계 이전에, 순화처리모듈(200)을 통해 부정의 의미를 갖는 부정 성향의 단어별로 각각 대응되는 기 설정된 순화형 단어를 데이터베이스(DB)화하여 부정어 DB(250)에 저장 및 관리하는 단계를 더 포함할 수도 있다.In addition, before the first step, through the
또한, 상기 단계S220 이전에, 순화처리모듈(200)을 통해 동사를 포함한 서술형 높임말별로 각각 대응되는 기 설정된 서술형 순화어를 데이터베이스(DB)화하여 서술형 사전DB(230)에 저장 및 관리하는 단계를 더 포함할 수도 있다.In addition, before the step S220, through the
또한, 상기 단계S220 이전 및/또는 이후에, 순화처리모듈(200)에 구비된 서술형 순화부(240)를 통해 별도의 부정어 DB(250)를 참조하여, 상기 명사 순화 처리된 문장 데이터 및/또는 상기 서술형 순화 처리된 문장 데이터에서 부정 성향의 단어에 대응되는 순화형 단어를 검색한 후, 해당 부정 성향의 단어를 상기 검색된 순화형 단어로 순화 처리하는 제2 단계를 더 포함할 수도 있다.In addition, before and/or after the step S220, by referring to a separate
또한, 상기 제2 단계 이전에, 순화처리모듈(200)을 통해 부정의 의미를 갖는 부정 성향의 단어별로 각각 대응되는 기 설정된 순화형 단어를 데이터베이스(DB)화하여 부정어 DB(250)에 저장 및 관리하는 단계를 더 포함할 수도 있다.In addition, before the second step, through the
전술한 본 발명의 일 실시예에 따른 대화형 질의응답 서비스를 위한 순화 문장 생성 방법을 이용하여 외부로부터 입력된 원문에서 복원과 순화 단계를 통해 최종적으로 문장이 생성되는 과정의 일 예를 살펴보면 다음과 같다.An example of a process in which a sentence is finally generated through restoration and purification from an original text input from the outside using the purified sentence generating method for an interactive question and answer service according to an embodiment of the present invention described above will be described below. same.
먼저, 대화형 질의응답 서비스에 적용된 음성 인식(STT) 기술을 통해 외부로부터 입력된 원문(예컨대, "신청하고자하는 전세대출은 최고 2억까지 가능 하며, 관련 내용은 익일 통지 시간 시작전에 일괄통지 합니다. 또한 관련 문의는 어플을 참고 하시면 됩니다.")이 복원처리모듈(100)을 거쳐 복원 처리된 문장(예컨대, "신청하고자하는 전세대출은 최고 2억까지 가능하며, 관련 내용은 익일 통지 시간 시작 전에 일괄통지 합니다. 또한 관련 문의는 앱을 참고 하시면 됩니다.")으로 오류를 찾아 교정한 후, 순화처리모듈(200)을 통해 상황과 문맥에 맞고 사용자가 이해하기 쉬운 형태의 순화된 표현으로 변경 처리하여 새로운 순화 문장(예컨대, "신청하신 전세대출은 최대 2억까지 가능하며, 관련 내용은 다음날 안내 시간 시작 전에 한꺼번에 안내합니다. 또한 관련 문의는 앱을 참고 바랍니다.")을 생성한다.First, the original text input from the outside through the voice recognition (STT) technology applied to the interactive Q&A service (e.g., “The maximum amount of jeonse loan you want to apply for is up to 200 million won, and the related contents are notified in bulk before the start of the next day notification time. In addition, please refer to the application for related inquiries.") restored through the restoration processing module 100 (e.g., "The maximum amount of jeonse loan you want to apply for is 200 million won, and related details start the next day's notification time. Batch notice is given before. Also, please refer to the app for related inquiries."), after finding and correcting the error, it is changed to a purified expression in a form suitable for the situation and context and easy for the user to understand through the
즉, 원문에는 띄어쓰기 오류와 하나의 단어를 여러 형태로 사용하는 경우 등의 다수의 오류를 포함하고 있다. "어플"은 동의어 처리에 의하여 하나의 대표어 "앱"으로 복원된다. 띄어쓰기 처리와 동의어 처리부(160)를 통해서 복원된 문장은 순화처리모듈(200)에 의하여 고객이 이해하기 쉽도록 한자어와 과도한 높임말이 순화된다. 예컨대, 금액, 개수, 양에는 "최고" 보다는 "최대"로 순화되며, "일괄통지" 보다는 이해하기 쉽도록 "한꺼번에 안내"로 순화된다.That is, the original text contains a number of errors such as spacing errors and the use of one word in multiple forms. "App" is restored as one representative word "app" by synonym processing. In the sentence restored through the space processing and the
이렇게 순화되어 최종 생성된 문장은 상담원에게 직접적으로 제공되어 상담원 개인의 의존성이 큰 기존과 달리 일관되고 직관적인 응답 서비스를 고객에게 제공할 수 있다.The purified and finally generated sentences are provided directly to the counselor, so that a consistent and intuitive response service can be provided to the customer unlike the existing ones where the agent's individual dependence is high.
한편, 본 발명의 일 실시예에 따른 대화형 질의응답 서비스를 위한 순화 문장 생성 방법은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다.Meanwhile, the method for generating a purified sentence for an interactive Q&A service according to an embodiment of the present invention may also be implemented as a computer-readable code on a computer-readable recording medium. The computer-readable recording medium includes all types of recording devices in which data readable by a computer system is stored.
예컨대, 컴퓨터가 읽을 수 있는 기록매체로는 롬(ROM), 램(RAM), 시디-롬(CD-ROM), 자기 테이프, 하드디스크, 플로피디스크, 이동식 저장장치, 비휘발성 메모리(Flash Memory), 광 데이터 저장장치 등이 있다.For example, computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, hard disk, floppy disk, removable storage device, and non-volatile memory (Flash Memory). , and optical data storage devices.
또한, 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.In addition, the computer-readable recording medium may be distributed in a computer system connected through a computer communication network, and stored and executed as readable code in a distributed manner.
전술한 본 발명에 따른 대화형 질의응답 서비스를 위한 순화 문장 생성 장치 및 그 방법에 대한 바람직한 실시예에 대하여 설명하였지만, 본 발명은 이에 한정되는 것이 아니고 특허청구범위와 발명의 상세한 설명 및 첨부한 도면의 범위 안에서 여러 가지로 변형하여 실시하는 것이 가능하고 이 또한 본 발명에 속한다.Although the above-described preferred embodiment of the apparatus and method for generating a purified sentence for an interactive question and answer service according to the present invention has been described, the present invention is not limited thereto, and the claims, detailed description of the invention, and accompanying drawings It is possible to carry out various modifications within the scope of the invention, and this also belongs to the present invention.
100 : 복원처리모듈,
110 : 언어모델 DB,
120 : 전처리부,
130 : 축약어 DB,
140 : 축약어 복원부,
150 : 동의어 DB,
160 : 동의어 처리부,
200 : 순화처리모듈,
210 : 한자어 DB,
220 : 명사형 순화부,
230 : 서술형 사전DB,
240 : 서술형 순화부,
250 : 부정어 DB100: restoration processing module,
110: language model DB,
120: preprocessing unit,
130: Abbreviation DB,
140: abbreviation restoration unit,
150: Synonym DB,
160: synonym processing unit;
200: purification processing module,
210: Chinese character DB,
220: noun refinement unit,
230: narrative dictionary DB,
240: narrative refinement unit,
250: negative word DB
Claims (20)
상기 복원처리모듈로부터 복원 처리된 문장 데이터를 제공받아 이를 기반으로 상기 복원 처리된 문장에 대하여 상황과 문맥에 맞고 사용자가 이해하기 쉬운 형태의 순화된 표현으로 변경 처리하여 새로운 순화 문장을 생성하는 순화처리모듈을 포함하는 대화형 질의응답 서비스를 위한 순화 문장 생성장치.
Through Speech to Text (STT) technology applied to the interactive Q&A service, it receives the voice-converted text data input from the outside, and uses natural language processing technology to correct errors caused by the characteristics of the input-to-speech text data. Restoration processing module for restoration processing to the front door; and
Refining processing of receiving the restored sentence data from the restoration processing module and changing the restored processed sentence into a purified expression in a form suitable for the situation and context and easy to understand by the user based on the received sentence data to generate a new purified sentence A purified sentence generator for an interactive question and answer service including a module.
상기 복원처리모듈은,
영어 단어별로 각각 대응되는 기 설정된 한국어를 데이터베이스(DB)화하여 저장 및 관리하는 언어모델 DB;
자연어처리 기술을 기반으로 상기 언어모델 DB를 참조하여 상기 입력된 음성변환 텍스트 데이터에서 영어 단어로 표기된 부분을 한국어로 변경하는 것을 기본으로 띄어쓰기 및 오탈자 오류, 문장 분리, 또는 간투사처리 중 적어도 하나의 전처리 작업을 수행하는 전처리부;
축약어 단어별로 각각 대응되는 기 설정된 원 문자열을 데이터베이스(DB)화하여 저장 및 관리하는 축약어 DB;
상기 전처리부로부터 전처리 작업 수행된 문장 데이터를 제공받아 이를 기반으로 상기 축약어 DB를 참조하여 상기 전처리 작업 수행된 문장 데이터에서 축약어 단어에 대응되는 원 문자열을 검색한 후, 해당 축약어 단어를 상기 검색된 원 문자열로 복원하는 축약어 복원부;
동의어 묶음별로 각각 대응되는 기 설정된 하나의 대표어를 데이터베이스(DB)화하여 저장 및 관리하는 동의어 DB; 및
상기 축약어 복원부로부터 원 문자열로 복원된 문장 데이터를 제공받아 이를 기반으로 상기 동의어 DB를 참조하여 상기 원 문자열로 복원된 문장 데이터에서 복수의 동의어가 존재할 경우 해당 복수의 동의어에 대응되는 기 설정된 하나의 대표어를 검색한 후, 해당 복수의 동의어를 상기 검색된 대표어로 일괄 치환하는 동의어 처리부를 포함하는 것을 특징으로 하는 대화형 질의응답 서비스를 위한 순화 문장 생성 장치.
According to claim 1,
The restoration processing module,
a language model DB for storing and managing preset Korean corresponding to each English word into a database (DB);
Based on natural language processing technology, at least one of preprocessing of space and misspelling errors, sentence separation, or cross-projection processing is based on changing the part written in English words in the input speech conversion text data to Korean with reference to the language model DB a preprocessor that does the work;
abbreviation DB for storing and managing preset original strings corresponding to each abbreviation word into a database (DB);
After receiving the pre-processed sentence data from the pre-processing unit, referring to the abbreviation DB based on this, and searching for the original string corresponding to the abbreviated word in the pre-processed sentence data, the abbreviated word is the searched original string Abbreviation restoration unit to restore to;
a synonym DB for storing and managing one preset representative word corresponding to each synonym bundle into a database (DB); and
When a plurality of synonyms exist in the sentence data restored to the original character string by referring to the synonym DB based on the received sentence data restored to the original character string from the abbreviation restoring unit, one preset corresponding to the plurality of synonyms and a synonym processing unit for collectively replacing the plurality of synonyms with the searched representative words after searching for a representative word.
상기 순화처리모듈은,
한자어 단어별로 각각 대응되는 기 설정된 순수 한글 단어를 데이터베이스(DB)화하여 저장 및 관리하는 한자어 DB;
상기 복원처리모듈로부터 복원 처리된 문장 데이터를 제공받아 이를 기반으로 상기 한자어 DB를 참조하여 상기 복원 처리된 문장 데이터에서 명사 또는 복합 명사로 이루어진 한자어 단어에 대응되는 순수 한글 단어를 검색한 후, 해당 한자어 단어를 상기 검색된 순수 한글 단어로 명사 순화 처리하는 명사형 순화부;
동사를 포함한 서술형 높임말별로 각각 대응되는 기 설정된 서술형 순화어를 데이터베이스(DB)화하여 저장 및 관리하는 서술형 사전DB;
상기 명사형 순화부로부터 명사 순화 처리된 문장 데이터를 제공받아 이를 기반으로 상기 서술형 사전DB를 참조하여 상기 명사 순화 처리된 문장 데이터에서 동사를 포함한 서술형 높임말에 대응되는 서술형 순화어를 검색한 후, 해당 동사를 포함한 서술형 높임말을 상기 검색된 서술형 순화어로 변경하여 최종적으로 새로운 순화 문장을 생성하는 서술형 순화부를 포함하는 것을 특징으로 하는 대화형 질의응답 서비스를 위한 순화 문장 생성 장치.
According to claim 1,
The purification processing module,
Chinese character DB for storing and managing preset pure Korean words corresponding to each Chinese character word into a database (DB);
After receiving the restored-processed sentence data from the restoration processing module and referring to the Chinese-character DB based on it, searching for a pure Korean word corresponding to a Chinese-character word consisting of a noun or a compound noun in the restored-processed sentence data, the corresponding Chinese character a noun refining unit for refining a word into the searched pure Korean word;
a narrative dictionary DB that stores and manages a database (DB) of pre-set narrative refined words corresponding to each narrative high level including verbs;
After receiving the sentence data of the noun refinement process from the noun refinement unit, and referring to the descriptive dictionary DB based on this, the descriptive refinement word corresponding to the descriptive exaltation including the verb is retrieved from the noun refinement processed sentence data, and then the corresponding verb is retrieved. and a narrative refiner for finally generating a new purified sentence by changing the included narrative exclamation word to the searched narrative refined word.
상기 서술형 순화부는, 명사와 어미 또는 동사와 어미로 구성된 부분에 대해 형태소 분석을 통하여 문장의 형태소와 품사를 추출하는 것을 특징으로 하는 대화형 질의응답 서비스를 위한 순화 문장 생성 장치.
4. The method of claim 3,
The descriptive refinement unit extracts morphemes and parts of speech of a sentence through morphological analysis of a part composed of a noun and ending or a verb and ending.
상기 순화처리모듈은,
부정의 의미를 갖는 부정 성향의 단어별로 각각 대응되는 기 설정된 순화형 단어를 데이터베이스(DB)화하여 저장 및 관리하는 부정어 DB가 더 포함되되,
상기 명사형 순화부는, 상기 부정어 DB를 참조하여 상기 복원 처리된 문장 데이터 또는 상기 명사 순화 처리된 문장 데이터에서 부정 성향의 단어에 대응되는 순화형 단어를 검색한 후, 해당 부정 성향의 단어를 상기 검색된 순화형 단어로 순화 처리하는 것을 특징으로 하는 대화형 질의응답 서비스를 위한 순화 문장 생성 장치.
4. The method of claim 3,
The purification processing module,
A negative word DB is further included for storing and managing preset purified words corresponding to each negative word having a negative meaning in a database (DB),
The noun refinement unit searches for a purified word corresponding to the negative tendency word in the restored sentence data or the noun refinement processed sentence data with reference to the negative word DB, and then refines the searched word of the negative tendency. An apparatus for generating a purified sentence for an interactive question and answer service, characterized in that the purification process is performed as a type word.
상기 순화처리모듈은,
부정의 의미를 갖는 부정 성향의 단어별로 각각 대응되는 기 설정된 순화형 단어를 데이터베이스(DB)화하여 저장 및 관리하는 부정어 DB가 더 포함되되,
상기 서술형 순화부는, 상기 부정어 DB를 참조하여 상기 명사 순화 처리된 문장 데이터 또는 상기 서술형 순화 처리된 문장 데이터에서 부정 성향의 단어에 대응되는 순화형 단어를 검색한 후, 해당 부정 성향의 단어를 상기 검색된 순화형 단어로 순화 처리하는 것을 특징으로 하는 대화형 질의응답 서비스를 위한 순화 문장 생성 장치.
4. The method of claim 3,
The purification processing module,
A negative word DB is further included for storing and managing preset purified words corresponding to each negative word having a negative meaning in a database (DB),
The descriptive refinement unit searches for a refined word corresponding to a negative tendency word in the noun refinement-processed sentence data or the narrative-type refinement-processed sentence data with reference to the negative word DB, and then searches for the word of the negative tendency in the searched A purified sentence generating apparatus for an interactive Q&A service, characterized in that the purified words are purified.
(a) 상기 복원처리모듈을 통해 상기 대화형 질의응답 서비스에 적용된 음성 인식(Speech to Text, STT) 기술에 의해 외부로부터 입력된 음성변환 텍스트 데이터를 기반으로 자연어처리 기술을 사용하여 상기 입력된 음성변환 텍스트 데이터의 특성으로 발생되는 오류를 정문으로 복원 처리하는 단계; 및
(b) 상기 순화처리모듈을 통해 상기 단계(a)에서 복원 처리된 문장 데이터를 제공받아 이를 기반으로 상기 복원 처리된 문장에 대하여 상황과 문맥에 맞고 사용자가 이해하기 쉬운 형태의 순화된 표현으로 변경 처리하여 새로운 순화 문장을 생성하는 단계를 포함하는 대화형 질의응답 서비스를 위한 순화 문장 생성 방법.
A method of generating a purified sentence using a restoration processing module and a purification processing module in an interactive question and answer service, the method comprising:
(a) the speech input using natural language processing technology based on speech-to-text data input from the outside by speech-to-text (STT) technology applied to the interactive question-and-answer service through the restoration processing module Restoring an error occurring as a characteristic of the converted text data to the main text; and
(b) receiving the sentence data restored in step (a) through the purification processing module, and changing the restored sentence based on this into a purified expression in a form suitable for the situation and context and easy for the user to understand A method of generating a purified sentence for an interactive Q&A service, comprising the step of generating a new purified sentence by processing.
상기 단계(a)는,
(a-1) 상기 복원처리모듈에 구비된 전처리부를 통해 자연어처리 기술을 기반으로 별도의 언어모델 DB를 참조하여, 상기 입력된 음성변환 텍스트 데이터에서 영어 단어로 표기된 부분을 한국어로 변경하는 것을 기본으로 띄어쓰기 및 오탈자 오류, 문장 분리, 또는 간투사처리 중 적어도 하나의 전처리 작업을 수행하는 단계;
(a-2) 상기 복원처리모듈에 구비된 축약어 복원부를 통해 상기 단계(a-1)에서 전처리 작업 수행된 문장 데이터를 기반으로 별도의 축약어 DB를 참조하여, 상기 전처리 작업 수행된 문장 데이터에서 축약어 단어에 대응되는 원 문자열을 검색한 후, 해당 축약어 단어를 상기 검색된 원 문자열로 복원하는 단계; 및
(a-3) 상기 복원처리모듈에 구비된 동의어 처리부를 통해 상기 단계(a-2)에서 원 문자열로 복원된 문장 데이터를 기반으로 별도의 동의어 DB를 참조하여, 상기 원 문자열로 복원된 문장 데이터에서 복수의 동의어가 존재할 경우 해당 복수의 동의어에 대응되는 기 설정된 하나의 대표어를 검색한 후, 해당 복수의 동의어를 상기 검색된 대표어로 일괄 치환하는 단계를 포함하여 이루어진 것을 특징으로 하는 대화형 질의응답 서비스를 위한 순화 문장 생성 방법.
8. The method of claim 7,
The step (a) is,
(a-1) It is basic to change the part written in English words in the input speech converted text data to Korean by referring to a separate language model DB based on natural language processing technology through the preprocessor provided in the restoration processing module. performing at least one pre-processing operation of spacing and misspelling errors, sentence separation, and inter-projection processing;
(a-2) Referring to a separate abbreviation DB on the basis of the sentence data pre-processed in step (a-1) through the abbreviation restoration unit provided in the restoration processing module, the abbreviation from the pre-processed sentence data after searching for the original string corresponding to the word, restoring the corresponding abbreviated word to the searched original string; and
(a-3) The sentence data restored to the original character string by referring to a separate synonym DB based on the sentence data restored to the original character string in step (a-2) through the synonym processing unit provided in the restoration processing module When a plurality of synonyms exist in , after searching for one preset representative word corresponding to the plurality of synonyms, the step of collectively replacing the plurality of synonyms with the searched representative word is an interactive question and answer method comprising the steps of: How to create a refining sentence for a service.
상기 단계(a-1) 이전에, 상기 복원처리모듈을 통해 영어 단어별로 각각 대응되는 기 설정된 한국어를 데이터베이스(DB)화하여 상기 언어모델 DB에 저장 및 관리하는 단계를 더 포함하는 것을 특징으로 하는 대화형 질의응답 서비스를 위한 순화 문장 생성 방법.
9. The method of claim 8,
Prior to the step (a-1), the method further comprising the step of storing and managing a preset Korean language corresponding to each English word through the restoration processing module into a database (DB) and storing and managing the language model DB A method of generating purified sentences for an interactive Q&A service.
상기 단계(a-2) 이전에, 상기 복원처리모듈을 통해 축약어 단어별로 각각 대응되는 기 설정된 원 문자열을 데이터베이스(DB)화하여 상기 축약어 DB에 저장 및 관리하는 단계를 더 포함하는 것을 특징으로 하는 대화형 질의응답 서비스를 위한 순화 문장 생성 방법.
9. The method of claim 8,
Prior to the step (a-2), the method further comprising the step of converting a preset original character string corresponding to each abbreviation word through the restoration processing module into a database (DB) and storing and managing the abbreviation DB in the abbreviation DB A method of generating purified sentences for an interactive Q&A service.
상기 단계(a-3) 이전에, 상기 복원처리모듈을 통해 동의어 묶음별로 각각 대응되는 기 설정된 하나의 대표어를 데이터베이스(DB)화하여 상기 동의어 DB에 저장 및 관리하는 단계를 더 포함하는 것을 특징으로 하는 대화형 질의응답 서비스를 위한 순화 문장 생성 방법.
9. The method of claim 8,
Prior to the step (a-3), the method further comprises the step of converting one preset representative word corresponding to each synonym bundle through the restoration processing module into a database (DB) and storing and managing the synonym DB in the database (DB). A method of generating purified sentences for an interactive Q&A service.
상기 단계(b)는,
(b-1) 상기 순화처리모듈에 구비된 명사형 순화부를 통해 상기 단계(a)에서 복원 처리된 문장 데이터를 기반으로 별도의 한자어 DB를 참조하여, 상기 복원 처리된 문장 데이터에서 명사 또는 복합 명사로 이루어진 한자어 단어에 대응되는 순수 한글 단어를 검색한 후, 해당 한자어 단어를 상기 검색된 순수 한글 단어로 명사 순화 처리하는 단계; 및
(b-2) 상기 순화처리모듈에 구비된 서술형 순화부를 통해 상기 단계(b-1)에서 명사 순화 처리된 문장 데이터를 기반으로 별도의 서술형 사전DB를 참조하여, 상기 명사 순화 처리된 문장 데이터에서 동사를 포함한 서술형 높임말에 대응되는 서술형 순화어를 검색한 후, 해당 동사를 포함한 서술형 높임말을 상기 검색된 서술형 순화어로 변경하여 최종적으로 새로운 순화 문장을 생성하는 단계를 포함하여 이루어진 것을 특징으로 하는 대화형 질의응답 서비스를 위한 순화 문장 생성 방법.
8. The method of claim 7,
The step (b) is,
(b-1) Referring to a separate Chinese character DB on the basis of the sentence data restored in step (a) through the noun-type refiner provided in the purification processing module, from the restored sentence data to a noun or a compound noun after searching for a pure Korean word corresponding to the constructed Chinese character word, the step of refining the noun into the searched pure Korean word; and
(b-2) In the sentence data subjected to the noun purification by referring to a separate narrative dictionary DB based on the sentence data processed in step (b-1) through the narrative purification unit provided in the purification processing module Conversational question-and-answer, characterized in that it includes the step of searching for a descriptive refined word corresponding to a descriptive adjective including a verb, and then changing the descriptive adjective including the corresponding verb to the searched descriptive refined word to finally generate a new purified sentence How to create a refining sentence for a service.
상기 단계(b-1) 이전에, 상기 순화처리모듈을 통해 한자어 단어별로 각각 대응되는 기 설정된 순수 한글 단어를 데이터베이스(DB)화하여 상기 한자어 DB에 저장 및 관리하는 단계를 더 포함하는 것을 특징으로 하는 대화형 질의응답 서비스를 위한 순화 문장 생성 방법.
13. The method of claim 12,
Prior to the step (b-1), the method further comprising the step of storing and managing a preset pure Korean word corresponding to each Chinese character word through the purification processing module into a database (DB) and storing and managing the Chinese character DB A method of generating purified sentences for an interactive Q&A service.
상기 단계(b-2) 이전에, 상기 순화처리모듈을 통해 동사를 포함한 서술형 높임말별로 각각 대응되는 기 설정된 서술형 순화어를 데이터베이스(DB)화하여 상기 서술형 사전DB에 저장 및 관리하는 단계를 더 포함하는 것을 특징으로 하는 대화형 질의응답 서비스를 위한 순화 문장 생성 방법.
13. The method of claim 12,
Prior to the step (b-2), the conversion processing module further comprises the step of storing and managing a pre-set narrative refined word corresponding to each narrative adjective including a verb into a database (DB), and storing and managing the narrative dictionary DB. A method of generating a purified sentence for an interactive question and answer service, characterized in that.
상기 단계(b-2)에서, 상기 서술형 순화부는, 명사와 어미 또는 동사와 어미로 구성된 부분에 대해 형태소 분석을 통하여 문장의 형태소와 품사를 추출하는 것을 특징으로 하는 대화형 질의응답 서비스를 위한 순화 문장 생성 방법.
13. The method of claim 12,
In the step (b-2), the descriptive refinement unit extracts the morpheme and part-of-speech of the sentence through morpheme analysis for a part composed of a noun and a ending or a verb and a ending. How to create a sentence.
상기 단계(b-1) 이전 또는 이후에,
상기 순화처리모듈에 구비된 명사형 순화부를 통해 별도의 부정어 DB를 참조하여, 상기 복원 처리된 문장 데이터 또는 상기 명사 순화 처리된 문장 데이터에서 부정 성향의 단어에 대응되는 순화형 단어를 검색한 후, 해당 부정 성향의 단어를 상기 검색된 순화형 단어로 순화 처리하는 제1 단계를 더 포함하는 것을 특징으로 하는 대화형 질의응답 서비스를 위한 순화 문장 생성 방법.
13. The method of claim 12,
Before or after step (b-1),
After referring to a separate negation DB through the noun refining unit provided in the refining processing module, a refining type word corresponding to a negative tendency word is searched for in the restored sentence data or the noun refining processed sentence data, The method of generating a purified sentence for an interactive question and answer service, characterized in that it further comprises a first step of purifying the word of the negative tendency into the searched purified word.
상기 제1 단계 이전에, 상기 순화처리모듈을 통해 부정의 의미를 갖는 부정 성향의 단어별로 각각 대응되는 기 설정된 순화형 단어를 데이터베이스(DB)화하여 상기 부정어 DB에 저장 및 관리하는 단계를 더 포함하는 것을 특징으로 하는 대화형 질의응답 서비스를 위한 순화 문장 생성 방법.
17. The method of claim 16,
Prior to the first step, the method further includes the step of converting a preset purified word corresponding to each negative word having a negative meaning through the purification processing module into a database, and storing and managing the negative word DB in the negative word DB. A method of generating a purified sentence for an interactive question and answer service, characterized in that
상기 단계(b-2) 이전 또는 이후에,
상기 순화처리모듈에 구비된 서술형 순화부를 통해 별도의 부정어 DB를 참조하여, 상기 명사 순화 처리된 문장 데이터 또는 상기 서술형 순화 처리된 문장 데이터에서 부정 성향의 단어에 대응되는 순화형 단어를 검색한 후, 해당 부정 성향의 단어를 상기 검색된 순화형 단어로 순화 처리하는 제2 단계를 더 포함하는 것을 특징으로 하는 대화형 질의응답 서비스를 위한 순화 문장 생성 방법.
13. The method of claim 12,
Before or after step (b-2),
After referring to a separate negation DB through the narrative purification unit provided in the purification processing module, the purified word corresponding to the negative tendency word is searched for in the noun purification-processed sentence data or the narrative-type purification processed sentence data, The method for generating a purified sentence for an interactive question and answer service, characterized in that it further comprises a second step of purifying the word of the negative tendency into the searched purified word.
상기 제2 단계 이전에, 상기 순화처리모듈을 통해 부정의 의미를 갖는 부정 성향의 단어별로 각각 대응되는 기 설정된 순화형 단어를 데이터베이스(DB)화하여 상기 부정어 DB에 저장 및 관리하는 단계를 더 포함하는 것을 특징으로 하는 대화형 질의응답 서비스를 위한 순화 문장 생성 방법.
18. The method of claim 17,
Prior to the second step, the method further includes a step of converting a preset purified word corresponding to each negative word having a negative meaning through the purification processing module into a database, storing and managing the negative word DB in the negative word DB A method of generating a purified sentence for an interactive question and answer service, characterized in that
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190163510A KR20210073068A (en) | 2019-12-10 | 2019-12-10 | Purification sentence generating apparatus for interactive question-anwering service and method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190163510A KR20210073068A (en) | 2019-12-10 | 2019-12-10 | Purification sentence generating apparatus for interactive question-anwering service and method thereof |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20210073068A true KR20210073068A (en) | 2021-06-18 |
Family
ID=76623358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190163510A KR20210073068A (en) | 2019-12-10 | 2019-12-10 | Purification sentence generating apparatus for interactive question-anwering service and method thereof |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20210073068A (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101858206B1 (en) | 2017-12-07 | 2018-05-15 | 디비손해보험 주식회사 | Method for providing conversational administration service of chatbot based on artificial intelligence |
-
2019
- 2019-12-10 KR KR1020190163510A patent/KR20210073068A/en not_active Application Discontinuation
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101858206B1 (en) | 2017-12-07 | 2018-05-15 | 디비손해보험 주식회사 | Method for providing conversational administration service of chatbot based on artificial intelligence |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11816438B2 (en) | Context saliency-based deictic parser for natural language processing | |
US10796696B2 (en) | Tailoring an interactive dialog application based on creator provided content | |
US9390087B1 (en) | System and method for response generation using linguistic information | |
Yeh | Speech act identification using semantic dependency graphs with probabilistic context-free grammars | |
CN106570180B (en) | Voice search method and device based on artificial intelligence | |
US20050154580A1 (en) | Automated grammar generator (AGG) | |
Derwojedowa et al. | Words, concepts and relations in the construction of Polish WordNet | |
JP5620349B2 (en) | Dialogue device, dialogue method and dialogue program | |
Brierley et al. | Open-Source Boundary-Annotated Corpus for Arabic Speech and Language Processing. | |
US20210133394A1 (en) | Experiential parser | |
US20230163988A1 (en) | Computer-implemented system and method for providing an artificial intelligence powered digital meeting assistant | |
CN105045784B (en) | The access device method and apparatus of English words and phrases | |
Alsaif et al. | Towards intelligent Arabic text-to-speech application for disabled people | |
KR20210073068A (en) | Purification sentence generating apparatus for interactive question-anwering service and method thereof | |
Caines et al. | You talking to me? A predictive model for zero auxiliary constructions | |
KR102381387B1 (en) | Method for generating chatbot training data | |
Fashwan et al. | A rule based method for adding case ending diacritics for modern standard Arabic texts | |
JP2007265131A (en) | Dialog information extraction device, dialog information extraction method, and program | |
Nakano et al. | Pseudo ambiguous and clarifying questions based on sentence structures toward clarifying question answering system | |
Kimura et al. | Spoken dialogue processing method using inductive learning with genetic algorithm | |
Guglielmi et al. | Help Them Understand: Testing and Improving Voice User Interfaces | |
Rosset et al. | Spoken question answering | |
KR20110066359A (en) | Apparatus and method for extracting lexical patterns comprising syntactic nodes | |
JP2005182438A (en) | Natural language processing system and method, and computer program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |