KR102086601B1 - Korean conversation style corpus classification method and system considering discourse component and speech act - Google Patents

Korean conversation style corpus classification method and system considering discourse component and speech act Download PDF

Info

Publication number
KR102086601B1
KR102086601B1 KR1020180093966A KR20180093966A KR102086601B1 KR 102086601 B1 KR102086601 B1 KR 102086601B1 KR 1020180093966 A KR1020180093966 A KR 1020180093966A KR 20180093966 A KR20180093966 A KR 20180093966A KR 102086601 B1 KR102086601 B1 KR 102086601B1
Authority
KR
South Korea
Prior art keywords
sentence
korean
intention
discourse
dialogue corpus
Prior art date
Application number
KR1020180093966A
Other languages
Korean (ko)
Other versions
KR20200018121A (en
Inventor
김남수
조원익
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Priority to KR1020180093966A priority Critical patent/KR102086601B1/en
Publication of KR20200018121A publication Critical patent/KR20200018121A/en
Application granted granted Critical
Publication of KR102086601B1 publication Critical patent/KR102086601B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Abstract

본 발명은 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법에 관한 것으로서, 보다 구체적으로는 한국어 대화체 코퍼스 분류 방법으로서, (1) 사용자가 발화한 한국어 대화체 코퍼스를 음성 신호로 입력받는 단계; (2) 상기 단계 (1)에서 입력받은 상기 음성 신호를 문자열로 변환하여 출력하는 단계; (3) 상기 단계 (2)에서 출력된 상기 문자열에 대해 담화 성분 분석 및 화행 분석을 수행하고 상기 문자열의 의도를 판단하는 단계; 및 (4) 상기 단계 (3)에서 판단된 의도대로 상기 문자열을 질문, 요구, 서술 또는 non-target 문장으로 분류하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
또한, 본 발명은 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템(10)에 관한 것으로서, 보다 구체적으로는, 한국어 대화체 코퍼스 분류 시스템으로서, 사용자가 발화한 한국어 대화체 코퍼스를 음성 신호로 입력받는 음성 입력 모듈(100); 상기 음성 신호를 입력받아 상기 음성 신호를 문자열로 변환하여 출력하는 문자열 출력 모듈(200); 상기 문자열 출력 모듈(200)에 의해 출력된 상기 문자열에 대해 담화 성분 분석 및 화행 분석을 수행하고 상기 문자열의 의도를 판단하는 판단 모듈(300); 및 상기 판단 모듈(300)에 의해 판단된 의도대로 상기 문자열을 질문, 요구, 서술 또는 non-target 문장으로 분류하는 문장 분류 모듈(400)을 포함하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템에 따르면, 맥락(Context)이 주어지지 않은 한국어 대화체 문장에 대해, 통사론, 의미론, 화용론적 지식 및 용례들을 충분히 고려하여 한국어 대화체 문장을 분석하고 의도를 파악하여, 파악된 의도에 따라 질문, 요구 또는 서술로 한국어 대화체 문장을 분류할 수 있다.
또한, 본 발명에서 제안하고 있는 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템에 따르면, 한국어 대화체 코퍼스를 분류하는 기준을 수립함으로써, 이를 통해 추후 기계 학습을 통한 한국어 문장 의도 분석에 효과적인 데이터 셋을 제공할 수 있다.
The present invention relates to a method of classifying Korean dialog corpus in consideration of discourse components and speech acts, and more particularly, to a method of classifying Korean dialog corpus, comprising: (1) inputting a spoken Korean corpus as a voice signal; (2) converting the voice signal received in the step (1) into a character string and outputting the character string; (3) performing discourse component analysis and speech act analysis on the character string output in step (2) and determining the intention of the character string; And (4) classifying the character string into a question, request, description, or non-target sentence as intended as determined in step (3).
In addition, the present invention relates to a Korean dialogue corpus classification system 10 considering discourse components and speech acts. More specifically, the Korean dialogue corpus classification system, which is a Korean dialogue corpus classification system, has a voice input for inputting a spoken Korean dialogue corpus as a voice signal. Module 100; A string output module 200 for receiving the voice signal and converting the voice signal into a string to output the string; A determination module (300) for performing discourse component analysis and speech act analysis on the character string output by the character string output module (200) and determining the intention of the character string; And a sentence classification module 400 for classifying the string into a question, a request, a description, or a non-target sentence as the intention determined by the determination module 300.
According to the Korean dialogue corpus classification method and system considering discourse components and speech acts proposed in the present invention, Korean dialogue sentences without context are given with sufficient consideration of syntactic, semantic, pragmatic knowledge and usage. By analyzing the dialogue sentences and grasping the intentions, the Korean dialogue sentences can be classified into questions, requests, or descriptions according to the identified intentions.
In addition, according to the method and system for classifying Korean dialogue corpus in consideration of discourse components and speech acts proposed by the present invention, by establishing a standard for classifying Korean dialogue corpus, the data set is effective for analyzing Korean sentence intention through machine learning. Can be provided.

Description

담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템{KOREAN CONVERSATION STYLE CORPUS CLASSIFICATION METHOD AND SYSTEM CONSIDERING DISCOURSE COMPONENT AND SPEECH ACT}Korean Conversation STYLE CORPUS CLASSIFICATION METHOD AND SYSTEM CONSIDERING DISCOURSE COMPONENT AND SPEECH ACT}

본 발명은 한국어 대화체 코퍼스 분류 방법 및 시스템에 관한 것으로서, 특히 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템에 관한 것이다.The present invention relates to a Korean dialogue corpus classification method and system, and more particularly, to a Korean dialogue corpus classification method and system considering discourse components and speech acts.

최근 스마트폰 등 모바일 기기의 넓은 보급으로 인하여 음성 인식 소프트웨어에 대한 관심이 증대되고 있다.
Recently, due to the wide spread of mobile devices such as smart phones, interest in voice recognition software is increasing.

음성 인식이란, 자동적 수단에 의하여 음성으로부터 언어적 의미 내용을 식별하는 것이다. 구체적으로 음성 파형을 입력하여 단어나 단어열을 식별하고 의미를 추출하는 처리 과정이며, 크게 음성 분석, 음소 인식, 단어 인식, 문장 해석, 의미 추출의 5가지로 분류된다. 좁은 의미로는 음성 분석에서 단어 인식까지를 말하는 경우가 많다.
Speech recognition is to identify linguistic meaning content from speech by automatic means. Specifically, the process of identifying a word or word sequence and extracting meaning by inputting a voice waveform is classified into five categories: speech analysis, phoneme recognition, word recognition, sentence interpretation, and meaning extraction. In a narrow sense, they often speak from speech analysis to word recognition.

인간-기계 인터페이스 개선의 하나로 음성으로 정보를 입력하는 음성 인식과 음성으로 정보를 출력하는 음성 합성 기술의 연구 개발이 오랫동안 진행되어 왔다.
As an improvement of the human-machine interface, research and development of speech recognition technology for inputting information with voice and speech synthesis technology for outputting information with voice have been in progress for a long time.

음성 인식의 궁극적인 목표는 자연스러운 발성에 의한 음성을 인식하여 실행 명령어로서 받아들이거나 자료로서 문서에 입력하는 완전한 음성-텍스트간 변환의 실현이다. 단지 단어를 인식할 뿐 아니라 구문 정보, 의미 정보 등을 이용하여 연속 음성 또는 문장의 의미 내용을 정확하게 추출하는 음성 시스템을 개발하는 것이다.
The ultimate goal of speech recognition is the realization of a complete speech-to-text conversion that recognizes speech by natural utterance and accepts it as execution instructions or inputs it into a document as data. It is to develop a speech system that not only recognizes words but also accurately extracts the meaning of continuous speech or sentences using phrase information and semantic information.

한편, 음성 처리 방법은 발화의도 예측부와 개체명 인식부로 구성되어 인식된 음성을 처리한다. 발화의도 예측은 사용자의 발화를 통해 하고자 하는 일이 무엇인지 판별하는 것으로 일반적으로 발화의도 예측 분류기를 이용하여 예측하게 되며, 개체명 인식의 경우 문장 내에 있는 단어 중 발화의도의 인자 값이 되는 개체를 찾아내는 것으로 일반적으로 다수레이블 분류기를 이용하여 예측한다.
Meanwhile, the speech processing method includes a speech intention prediction unit and an entity name recognition unit to process the recognized speech. The speech intention prediction is to determine what the user wants to do through the user's speech. In general, the speech intent prediction is predicted using the speech intention prediction classifier. It is usually predicted by using a multiple label classifier.

하지만, 사용자의 발화의도를 예측할 때, 대화를 바탕으로 대응을 요구하는 경우가 드물며, 발화자 간의 관계나 상황을 모두 입력으로 넣어 주기 힘들기 때문에, 맥락 정보를 모두 담은 코퍼스를 이용하여 실생활에서 문장의 의도를 분석하는 것은 어려운 것이 현실이다. 이에 따라, 맥락이 주어지지 않은 단일 문장의 실질적인 사용자의 발화의도를 파악하는 기술의 개발이 요구되고 있다.
However, when predicting a user's intention to speak, it is rare to ask for a response based on a conversation, and since it is difficult to put all of the relations or situations between the speakers as input, a sentence in real life using a corpus containing all the context information can be used. It is difficult to analyze the intentions of reality. Accordingly, there is a demand for the development of a technique for grasping a user's intention to actually speak a single sentence without context.

한편, 본 발명과 관련된 선행기술로서, 등록특허 제10-1763679호(발명의 명칭: 화행 분석을 통한 스티커 추천 방법 및 시스템) 등이 개시된 바 있다.On the other hand, as a prior art related to the present invention, Patent No. 10-1763679 (name of the invention: a sticker recommendation method and system through speech act analysis) and the like have been disclosed.

본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 맥락(Context)이 주어지지 않은 한국어 대화체 문장에 대해, 통사론, 의미론, 화용론적 지식 및 용례들을 충분히 고려하여 한국어 대화체 문장을 분석하고 의도를 파악하여, 파악된 의도에 따라 질문, 요구 또는 서술로 한국어 대화체 문장을 분류할 수 있는, 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템을 제공하는 것을 목적으로 한다.
The present invention has been proposed to solve the above problems of the conventionally proposed methods. For Korean dialogue sentences without a context, Korean dialogues are fully considered in consideration of syntax, semantics, pragmatic knowledge and usages. It is an object of the present invention to provide a method and system for classifying Korean dialogue corpus in consideration of discourse components and speech acts that can analyze sentences and grasp intentions, and classify Korean dialogue sentences into questions, requests, or descriptions according to the intentions identified.

또한, 본 발명은, 한국어 대화체 코퍼스를 분류하는 기준을 수립함으로써, 이를 통해 추후 기계 학습을 통한 한국어 문장 의도 분석에 효과적인 데이터 셋을 제공할 수 있는, 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템을 제공하는 것을 또 다른 목적으로 한다.The present invention also provides a method for classifying Korean conversational corpus, which can provide an effective data set for analyzing Korean sentence intention through machine learning, thereby considering Korean conversational corpus. It is another object to provide a system.

상기한 목적을 달성하기 위한 본 발명의 특징에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법은,Korean dialogue corpus classification method considering the discourse component and speech act according to the characteristics of the present invention for achieving the above object,

한국어 대화체 코퍼스 분류 방법으로서,As a method of classifying Korean dialogue corpus,

(1) 사용자가 발화한 한국어 대화체 코퍼스를 음성 신호로 입력받는 단계;(1) receiving a spoken Korean corpus as a voice signal;

(2) 상기 단계 (1)에서 입력받은 상기 음성 신호를 문자열로 변환하여 출력하는 단계;(2) converting the voice signal received in the step (1) into a character string and outputting the character string;

(3) 상기 단계 (2)에서 출력된 상기 문자열에 대해 담화 성분 분석 및 화행 분석을 수행하고 상기 문자열의 의도를 판단하는 단계; 및(3) performing discourse component analysis and speech act analysis on the character string output in step (2) and determining the intention of the character string; And

(4) 상기 단계 (3)에서 판단된 의도대로 상기 문자열을 질문, 요구, 서술 또는 non-target 문장으로 분류하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
And (4) classifying the character string into a question, request, description, or non-target sentence as intended as determined in step (3).

바람직하게는, 상기 한국어 대화체 코퍼스는,Preferably, the Korean dialogue corpus,

단일 문장 또는 주제가 공통된 다수의 문장일 수 있다.
A single sentence or subject may be a common sentence.

바람직하게는, 상기 단계 (3)은,Preferably, step (3) is

(3-1) 상기 단계 (2)에서 출력된 상기 문자열이, 완전한 문장인지 판단하는 단계;(3-1) determining whether the character string output in the step (2) is a complete sentence;

(3-2) 상기 단계 (3-1)의 판단 결과 상기 문자열이 완전한 문장인 경우, 억양 정보로 상기 완전한 문장의 의도 판단이 가능한지 판단하는 단계;(3-2) if the character string is a complete sentence as a result of the determination of step (3-1), determining whether intention information of the complete sentence is possible with intonation information;

(3-3) 상기 단계 (3-2)의 판단 결과 상기 완전한 문장의 의도 판단이 가능한 경우, 상기 억양 정보가 필요한지 판단하는 단계; 및(3-3) when the determination result of the step (3-2) enables the intention of the complete sentence, determining whether the intonation information is necessary; And

(3-4) 상기 억양 정보가 필요하지 않은 경우, 상기 단계 (3-1)에서 판단된 완전한 문장이 질문, 요구 및 서술 중 어떠한 의도를 가지고 있는지 판단하는 단계를 포함할 수 있다.
(3-4) If the intonation information is not necessary, it may include determining which intention among the question, request, and description has the complete sentence determined in the step (3-1).

더욱 바람직하게는, 상기 단계 (3-4)는,More preferably, the step (3-4) is,

(3-4-1) 질문 또는 질문이 내장된 문장으로서, 청자의 답이 필요한지 여부를 판단하는 단계; 및(3-4-1) a question or sentence having a question embedded therein, determining whether an answer of the listener is necessary; And

(3-4-2) 명령 또는 금지의 문장으로서, 청자의 행동이 요구되는지 판단하는 단계를 포함할 수 있다.
(3-4-2) A sentence of injunction or prohibition, which may include determining whether the listener's action is required.

바람직하게는, 상기 단계 (4)에서 상기 non-target 문장은,Preferably, the non-target sentence in step (4),

Fragments(FR), Context-dependent(CD), Intonation-dependent(ID), 수사의문문(RQ), 또는 관용어구(IE)일 수 있다.
It may be Fragments (FR), Context-dependent (CD), Intonation-dependent (ID), Investigative Questions (RQ), or Idioms (IE).

상기한 목적을 달성하기 위한 본 발명의 특징에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템은,Korean dialogue corpus classification system in consideration of discourse components and speech acts according to the characteristics of the present invention for achieving the above object,

한국어 대화체 코퍼스 분류 시스템으로서,Korean dialogue corpus classification system,

사용자가 발화한 한국어 대화체 코퍼스를 음성 신호로 입력받는 음성 입력 모듈;A voice input module configured to receive a spoken Korean corpus as a voice signal;

상기 음성 신호를 입력받아 상기 음성 신호를 문자열로 변환하여 출력하는 문자열 출력 모듈;A string output module which receives the voice signal and converts the voice signal into a string and outputs the string;

상기 문자열 출력 모듈에 의해 출력된 상기 문자열에 대해 담화 성분 분석 및 화행 분석을 수행하고 상기 문자열의 의도를 판단하는 판단 모듈; 및A determination module for performing discourse component analysis and speech act analysis on the character string output by the character string output module and determining the intention of the character string; And

상기 판단 모듈에 의해 판단된 의도대로 상기 문자열을 질문, 요구, 서술 또는 non-target 문장으로 분류하는 문장 분류 모듈을 포함하는 것을 그 구성상의 특징으로 한다.
And a sentence classification module for classifying the character string into a question, a request, a description, or a non-target sentence as intended by the determination module.

바람직하게는, 상기 한국어 대화체 코퍼스는,Preferably, the Korean dialogue corpus,

단일 문장 또는 주제가 공통된 서로 다른 문장일 수 있다.
A single sentence or subject may be different sentences in common.

바람직하게는, 상기 판단 모듈은,Preferably, the determination module,

상기 문자열 출력 모듈에서 출력된 문장이 완전한 문장인지 판단하는 문장 판단부;A sentence determination unit determining whether a sentence output from the string output module is a complete sentence;

상기 문장 판단부에서 판단한 결과 상기 문자열이 완전한 문장인 경우, 억양 정보로 상기 완전한 문장의 의도 판단이 가능한지 판단하는 억양 정보 의도 판단부;An intonation information intention determination unit for determining whether the intention of the complete sentence is possible using the intonation information as a result of the determination by the sentence determination unit;

상기 억양 정보 의도 판단부에서 판단한 결과 상기 완전한 문장의 의도 판단이 가능한 경우, 상기 억양 정보가 필요한지 판단하는 억양 정보 필요 판단부; 및An accent information need determining unit that determines whether the accent information is necessary when the intent information of the complete sentence is determined by the accent information intention determining unit; And

상기 억양 정보가 필요하지 않은 경우, 상기 문장 판단부에서 판단된 상기 완전한 문장이 질문, 요구 및 서술 중 어떠한 의도를 가지고 있는지 판단하는 문장 의도 판단부를 포함할 수 있다.
When the intonation information is not needed, the sentence determination unit may include a sentence intention determination unit determining whether the complete sentence determined by the sentence determination unit has a question, a request, or a description.

더욱 바람직하게는, 상기 문장 의도 판단부는,More preferably, the sentence intent determination unit,

질문 또는 질문이 내장된 문장으로서, 청자의 답이 필요한지 여부를 판단하는 질문 판단부; 및A question or question embedded sentence, question determination unit for determining whether or not the answer of the listener; And

명령 또는 금지의 문장으로서, 청자의 행동이 요구되는지 판단하는 요구 판단부를 포함할 수 있다.
As a sentence of prohibition or prohibition, it may include a request determination unit for determining whether the action of the listener is required.

바람직하게는, 상기 non-target 문장은,Preferably, the non-target sentence,

Fragments(FR), Context-dependent(CD), Intonation-dependent(ID), 수사의문문(RQ), 또는 관용어구(IE)일 수 있다.It may be Fragments (FR), Context-dependent (CD), Intonation-dependent (ID), Investigative Questions (RQ), or Idioms (IE).

본 발명에서 제안하고 있는 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템에 따르면, 맥락(Context)이 주어지지 않은 한국어 대화체 문장에 대해, 통사론, 의미론, 화용론적 지식 및 용례들을 충분히 고려하여 한국어 대화체 문장을 분석하고 의도를 파악하여, 파악된 의도에 따라 질문, 요구 또는 서술로 한국어 대화체 문장을 분류할 수 있다.
According to the Korean dialogue corpus classification method and system considering discourse components and speech acts proposed in the present invention, Korean dialogue sentences without context are given with sufficient consideration of syntactic, semantic, pragmatic knowledge and usage. By analyzing the dialogue sentences and grasping the intentions, the Korean dialogue sentences can be classified into questions, requests, or descriptions according to the identified intentions.

또한, 본 발명에서 제안하고 있는 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템에 따르면, 한국어 대화체 코퍼스를 분류하는 기준을 수립함으로써, 이를 통해 추후 기계 학습을 통한 한국어 문장 의도 분석에 효과적인 데이터 셋을 제공할 수 있다.In addition, according to the method and system for classifying Korean conversational corpus in consideration of discourse components and speech acts proposed by the present invention, by establishing a criterion for classifying Korean conversational corpus, the data set is effective for analyzing Korean sentence intention through machine learning. Can be provided.

도 1은 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법의 흐름도를 도시한 도면.
도 2는 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법에서 단계 S300의 세부적인 흐름을 도시한 도면.
도 3은 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법에서 단계 S340의 세부적인 흐름을 도시한 도면.
도 4는 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법에서 한국어 대화체 코퍼스를 음성 신호로 입력받아 질문, 요구, 서술 또는 non-target 문장으로 분류한다는 것을 설명하기 위해 도시한 도면.
도 5는 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법의 전체적인 구성을 도시한 도면.
도 6은 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템의 구성을 도시한 도면.
도 7은 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템에 있어서 판단 모듈의 세부적인 구성을 도시한 도면.
도 8은 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템에 있어서 문장 의도 판단부의 세부적인 구성을 도시한 도면.
1 is a flowchart illustrating a method of classifying Korean dialogue corpus in consideration of discourse components and speech acts according to an embodiment of the present invention.
2 is a diagram illustrating a detailed flow of step S300 in the Korean dialogue corpus classification method considering the discourse component and speech acts according to an embodiment of the present invention.
3 is a diagram illustrating the detailed flow of step S340 in the Korean dialogue corpus classification method considering the discourse component and speech acts according to an embodiment of the present invention.
FIG. 4 is a diagram for explaining that a Korean dialogue corpus is classified as a question, request, description, or non-target sentence in a Korean dialogue corpus classification method considering discourse components and speech acts according to an embodiment of the present invention. One drawing.
5 is a view showing the overall configuration of the Korean dialogue corpus classification method in consideration of discourse components and speech acts according to an embodiment of the present invention.
6 is a diagram illustrating a configuration of a Korean dialogue corpus classification system considering discourse components and speech acts according to an embodiment of the present invention.
FIG. 7 is a diagram illustrating a detailed configuration of a determination module in the Korean dialogue corpus classification system considering discourse components and speech acts according to an embodiment of the present invention. FIG.
8 is a diagram illustrating a detailed configuration of a sentence intention determining unit in a Korean dialogue corpus classification system considering discourse components and speech acts according to an embodiment of the present invention;

이하에서는 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일 또는 유사한 부호를 사용한다.
Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art may easily implement the present invention. However, in describing the preferred embodiment of the present invention in detail, if it is determined that the detailed description of the related known function or configuration may unnecessarily obscure the subject matter of the present invention, the detailed description thereof will be omitted. In addition, the same or similar reference numerals are used throughout the drawings for parts having similar functions and functions.

덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’되어 있다고 할 때, 이는 ‘직접적으로 연결’되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
In addition, throughout the specification, when a part is 'connected' to another part, it is not only 'directly connected', but also 'indirectly connected' with another element in between. Include. In addition, the term 'comprising' a certain component means that the component may further include other components, not to exclude other components unless specifically stated otherwise.

문장이란, 언어표현과 문법학의 기본단위 중 하나이며, 문 또는 월이라고도 한다. 문장이라는 용어에는 두 가지 개념이 있는데, 하나는 문자언어로 표현된 수사학적 단위라는 개념이고, 다른 하나는 문법학적 단위라는 개념이다. 흔히, 수사학적 개념으로서의 문장은 글월, 문법학적 단위로서의 문장은 월이라고 불러 구분한다. 문법학의 기본단위들로는 문장 외에 음소·형태소·단어 등이 있는데, 이들 가운데 문장은 언어분석이나 기술의 최대단위로 인정된다.
A sentence is one of the basic units of language expression and grammar, also called a door or month. The term sentence has two concepts: one is a rhetorical unit expressed in a literal language, and the other is a grammatical unit. Frequently, a sentence as a rhetorical concept is called a text and a sentence as a grammatical unit is called a month. In addition to sentences, basic units of grammar include phonemes, morphemes, and words. Among them, sentences are recognized as the maximum units of language analysis and description.

문법학적 문장은 의미적 속성, 구성적 속성, 형식적 속성 등 세 가지 속성에 의하여 규정된다. 의미적 속성은 문장이 하나로 완결, 통일된 생각이나 느낌을 나타내는 표현단위라는 것이며, 구성적 속성은 단어 하나 이상의 구성성분들로써 구성된 구성체라는 것이고, 형식적 속성은 다른 언어형식에 의존하거나 내포되어 있지 않은 자립형식이라는 것이다.
A grammatical sentence is defined by three attributes: semantic, constructive, and formal. A semantic attribute is a unit of expression in which a sentence is a complete, unified thought or feeling, a constructive attribute is a construct composed of one or more components of a word, and a formal attribute is self-reliance that is not dependent or implied by other language forms. It's a form.

이 세 속성은 문장이 갖추어야 할 요건이므로, 이 중 어느 하나라도 결여하고 있는 언어형식은 문장이라고 할 수 없다. 이를테면, ‘봄이 오니 꽃이 핀다’에서의 ‘봄이 오니’와 ‘꽃이 핀다’는 서로 의존하고 있으며, ‘눈이 내리는 날은 마음도 설렌다.’에서의 ‘눈이 내리’는 더 큰 형식에 내포되어 있으므로 이들은 절(마디)이지 문장이 아니다.
Since these three attributes are a requirement of a sentence, a language form lacking any of these is not a sentence. For example, 'spring comes and flowers bloom' and 'spring comes' and 'flowers bloom' are dependent on each other, and 'snow falls on the snowy days'. Since they are implied in form, they are clauses, not sentences.

한국어의 문장 구조는 주어-(목적어)-서술어 형의 배열 순서를 기본으로 하여 이루어진다. 문장성분은 주성분과 부속성분으로 나눌 수 있으며, 서술어가 몇 개의 성분을 필요로 하느냐에 따라 성분의 출현이 좌우된다. 문장의 구조는 말하고자 하는 생각이나 사건을 반영하는 것이지만, 실제 이야기로 나타날 때에는 주어진 조건이나 상황에 따라 여러 가지 모습으로 나타날 수 있다.
Korean sentence structure is based on the order of the subject- (object) -predicate type. A sentence component can be divided into a main component and an accessory component, and the appearance of the component depends on how many components the predicate requires. The structure of a sentence reflects the thought or event to be told, but when it is expressed in a real story, it can take many forms depending on the given conditions or circumstances.

문장성분은 문장을 구성하면서 일정한 구실을 하는 요소들을 말한다. 문장에서 가장 중심이 되는 역할을 하는 성분은 서술어이다. 다른 문장성분들과는 달리, 서술어는 잘 생략되지 않으며, 활용어미가 다양하게 발달해 있어서 문장의 문법 기능들은 대개 이들에 의해 실현된다. 문장성분은 주성분과 부속성분 그리고 독립성분으로 나뉜다. 주성분은 문장의 골격을 이루는 성분이며, 부속성분은 주로 주성분의 내용을 수식하는 성분이다. 독립성분은 주성분이나 부속성분과 직접적인 관계가 없이 문장에서 따로 떨어져 독립해 있는 성분이다. 주성분에는 서술어를 비롯하여 주어, 목적어, 보어가 있고, 부속성분에는 관형어와 부사어가 있으며, 독립성분에는 독립어가 있다.
Sentence components refer to elements that form a role while forming a sentence. The most important component of a sentence is its predicate. Unlike other sentence components, the predicates are not well omitted, and the lexical functions of the sentence are variously developed so that the grammar functions of the sentences are usually realized by them. The sentence component is divided into main component, subcomponent and independent component. The main component is a component constituting the skeleton of the sentence, and the accessory component is a component that mainly modifies the content of the main component. Independent components are components that are separated from the sentence independently of the main component or subcomponent. The main components include predicates, subjects, objects, and bores, the subcomponents include tubular and adverb words, and the independent components include independent words.

화용론이란 현실적으로 주어진 언어 자체만을 대상으로 하는 것이 아니라 언어를 있게 하는 주변을 설명하는데 주력하는 언어학의 한 분야로, 말하는 이·듣는 이·시간·장소 등으로 구성되는 맥락 속에서의 언어사용을 다룬다. 언어 사용에 관한 연구, 즉 언어 사용의 특성과 과정에 중점을 두고 언어현상을 연구하는 것이다.
Pragmatics is a field of linguistics that focuses not only on the language itself, but on the surroundings that make it possible. It deals with the use of language in the context of speaking, listening, time, and place. A study of language use, that is, the study of language phenomena, focusing on the characteristics and processes of language use.

맥락은 개인 ‘외부의-텍스트적인’구성에 영향을 주는데, 이 맥락 속에 담화가 포함된다. 텍스트로 인해 구성된 의미는 그 의미를 이끌기도 하고 그 의미를 이해할 수 있게 해주는 구어와 문어 등의 다른 텍스트들에 의해 영향을 받기도 하며, 맥락은 텍스트 자체의 영향보다 큰 영향을 미칠 수 있다. 이때, 맥락은 상황/앞뒤 문장/발화주체 등을 포괄하게 되는데, 이러한 정보들의 결핍은 문장 의도 분석에 걸림돌이 될 수 있다. 예를 들어, 어떠한 의문문이 수사적인지 아니면 정말 질문하는 것인지 판단하는 데에는 화자와 청자 간의 관계 및 문학적 맥락이 중요하게 작용하기 때문이다.
Context influences the individual 'external-text' organization, which includes discourse. The meaning composed by the text is influenced by other texts such as spoken and written words that lead the meaning and make it possible to understand the meaning, and the context can have more influence than the influence of the text itself. At this time, the context includes situations / front and rear sentences / subjects, etc. The lack of such information may be an obstacle to sentence intention analysis. For example, the relationship between the speaker and the listener and the literary context are important in determining whether a question is rhetorical or really questioning.

하지만, 사용자의 발화의도를 예측할 때, 대화를 바탕으로 대응을 요구하는 경우가 드물며, 발화자 간의 관계나 상황을 모두 입력으로 넣어 주기 힘들기 때문에, 맥락 정보를 모두 담은 코퍼스를 이용하여 실생활에서 문장의 의도를 분석하는 것은 어려운 것이 현실이다.
However, when predicting a user's intention to speak, it is rare to ask for a response based on a conversation, and since it is difficult to put all of the relations or situations between the speakers as input, a sentence in real life using a corpus containing all the context information can be used. It is difficult to analyze the intentions of reality.

이에, 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법은, 맥락이 주어지지 않은 단일 문장의 실질적인 의도를 파악하여 분류하는 기준을 제시할 수 있다.
Accordingly, the Korean dialogue corpus classification method considering discourse components and speech acts according to an embodiment of the present invention may provide a criterion for grasping and classifying the actual intention of a single sentence without context.

도 1은 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법의 흐름도를 도시한 도면이다. 도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법은, 한국어 대화체 코퍼스 분류 방법으로서, 사용자가 발화한 한국어 대화체 코퍼스를 음성 신호로 입력받는 단계(S100), 단계 S100에서 입력받은 음성 신호를 문자열로 변환하여 출력하는 단계(S200), 단계 S200에서 출력된 문자열에 대해 담화 성분 분석 및 화행 분석을 수행하고 문자열의 의도를 판단하는 단계(S300), 및 단계 S300에서 판단된 의도대로 문자열을 질문, 요구, 서술 또는 non-target 문장으로 분류하는 단계(S400)를 포함하여 구현될 수 있다. 이하에서는, 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법의 각각의 단계에 대해 상세히 설명하기로 한다.
1 is a flowchart illustrating a method of classifying Korean dialogue corpus in consideration of discourse components and speech acts according to an embodiment of the present invention. As shown in FIG. 1, the Korean dialogue corpus classification method considering discourse components and speech acts according to an embodiment of the present invention is a Korean dialogue corpus classification method, in which a user receives a spoken Korean dialogue corpus as a voice signal. (S100), converting the voice signal received in step S100 into a string (S200), performing discourse component analysis and speech act analysis on the string output in step S200, and determining the intention of the string (S300). , And classifying the character string into a question, request, description, or non-target sentence (S400) as determined in step S300. Hereinafter, each step of the Korean dialogue corpus classification method considering the discourse component and speech act according to an embodiment of the present invention will be described in detail.

단계 S100에서는, 사용자가 발화한 한국어 대화체 코퍼스를 음성 신호로 입력받을 수 있다. 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법은, 한국어 대화체 문장의 발화 의도를 파악하여 질문, 요구, 또는 서술로 분류하기 위한 방법에 관한 것이므로, 사용자가 발화한 문장을 음성 신호로 입력 받을 수 있다. 여기서, 한국어 대화체 코퍼스는 단일 문장 또는 주제가 공통된 다수의 문장일 수 있다.
In operation S100, the Korean dialogue corpus spoken by the user may be input as a voice signal. According to an embodiment of the present invention, a Korean dialogue corpus classification method considering discourse components and speech acts relates to a method for grasping a speech intent of a Korean dialogue sentence and classifying it into a question, a request, or a description, and thus a sentence spoken by a user. Can be input as a voice signal. Here, the Korean dialogue corpus may be a single sentence or a plurality of sentences having a common theme.

단계 S200에서는, 단계 S100에서 입력받은 음성 신호를 문자열로 변환하여 출력할 수 있다. 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법은, 한국어 대화체 코퍼스를 음성 신호로 입력받고, 입력받은 문장의 발화 의도를 파악하여 질문, 요구, 또는 서술로 분류하기 위하여, 입력받은 음성 신호를 문자열로 변환하여 사용할 수 있다. 단계 S200에서는, 음성텍스트변환기술(Speech-to-text, STT) 및 텍스트 분석 기술 등을 이용할 수 있다. 이때, 키보드를 통해 문자열이 입력되는 경우에는 추가적인 변환 없이 입력되는 문자열을 그대로 출력할 수 있다.
In operation S200, the voice signal received in operation S100 may be converted into a string and output. Korean conversation corpus classification method considering the discourse component and speech act according to an embodiment of the present invention, to receive the Korean dialogue corpus as a voice signal, to grasp the speech intent of the received sentence to classify it into a question, request, or description In this case, the received voice signal can be converted into a string. In operation S200, a speech-to-text (STT) technique, a text analysis technique, and the like may be used. In this case, when a string is input through the keyboard, the input string may be output without change.

단계 S300에서는, 단계 S200에서 출력된 문자열에 대해 담화 성분 분석 및 화행 분석을 수행하고 문자열의 의도를 판단할 수 있다. 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법은, 맥락(Context)이 주어지지 않은 단일 문장을 대상으로 하여, 담화 성분 분석 및 화행 분석을 수행하여, 문장에 어떤 의도가 있는지 판단할 수 있다. 이때, 문장의 의도는 질문을 하는 것인지, 행동을 요구하는 것인지, 혹은 단순히 서술을 하는 것인지에 따라 구별될 수 있다. 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법은, 종래에 의문문, 명령문, 평서문으로 구별되던 문장 유형들에 대해 실질적인 의도 파악이 어렵다는 사실을 인지하고, 한국어 단일 문장 코퍼스를 의도에 따라 분류하는 새로운 기준을 제시할 수 있다.
In step S300, a discourse component analysis and speech act analysis may be performed on the string output in step S200, and the intention of the string may be determined. According to an exemplary embodiment of the present invention, a Korean dialogue corpus classification method considering discourse components and speech acts may be performed on a single sentence having no context, and the discourse component analysis and speech act analysis may be performed. Can be determined. In this case, the intention of the sentence may be distinguished according to whether a question is asked, an action is requested, or a simple description is made. Korean dialogue corpus classification method considering the discourse component and speech act according to an embodiment of the present invention, recognizing that it is difficult to grasp the actual intention for the sentence types that were conventionally divided into question, statement, and declarative sentence, Korean single sentence corpus New criteria to classify by definition can be proposed.

도 2는 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법에서, 단계 S300의 세부적인 흐름을 도시한 도면이다. 도 2에 도시된 바와 같이, 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법의 단계 S300은, 단계 S200에서 출력된 문자열이, 완전한 문장인지 판단하는 단계(S310), 단계 S310의 판단 결과 문자열이 완전한 문장인 경우, 억양 정보로 완전한 문장의 의도 판단이 가능한지 판단하는 단계(S320), 단계 S320의 판단 결과 완전한 문장의 의도 판단이 가능한 경우, 억양 정보가 필요한지 판단하는 단계(S330), 및 억양 정보가 필요하지 않은 경우, 단계 S310에서 판단된 완전한 문장이 질문, 요구 및 서술 중 어떠한 의도를 가지고 있는지 판단하는 단계(S340)를 포함하여 구현될 수 있다.
2 is a diagram illustrating a detailed flow of step S300 in the Korean dialogue corpus classification method considering discourse components and speech acts according to an embodiment of the present invention. As shown in FIG. 2, step S300 of the Korean dialogue corpus classification method considering discourse components and speech acts according to an embodiment of the present invention may include determining whether a string output in step S200 is a complete sentence (S310), In the case where the determination result of step S310 is a complete sentence, determining whether the intention of the complete sentence is possible with the intonation information (S320), and if the intention determination of the complete sentence is possible as the determination result of step S320, determining whether the intonation information is necessary. (S330), and if the intonation information is not necessary, it may be implemented, including the step (S340) of determining what intention among the question, request, and description of the complete sentence determined in step S310.

단계 S310에서는, 단계 S200에서 출력된 문자열이, 완전한 문장인지 판단할 수 있다. 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법은, 맥락이 주어지지 않은 완전한 형태의 단일 문장 또는 주제가 공통된 다수의 문장을 대상으로 하기 때문에, 단계 S310에서 입력받은 음성 신호가 완전한 문장인지 판단할 수 있다. 이때, 단계 S310의 판단 결과 완전한 문장인 경우, 단계 S320의 과정을 거치고, 완전한 문장이 아닌 경우, Fragments(FR)로서 추후 상세히 설명할 단계 S400에서 non-target 문장으로 분류될 수 있다.
In operation S310, it may be determined whether the character string output in operation S200 is a complete sentence. According to an embodiment of the present invention, the Korean dialogue corpus classification method considering discourse components and speech acts targets a single sentence or a plurality of sentences in common with no context, and thus the voice signal received in step S310. Can determine if is a complete sentence. In this case, when the determination result of step S310 is a complete sentence, the process of step S320 is performed, and when it is not a complete sentence, it may be classified as a non-target sentence in step S400 which will be described in detail later as Fragments (FR).

단계 S320에서는, 단계 S310의 판단 결과 문자열이 완전한 문장인 경우, 억양 정보로 완전한 문장의 의도 판단이 가능한지 판단할 수 있다. 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법은, 맥락이 주어지지 않은 문장을 대상으로 하므로, 억양 정보를 이용하여 문장을 분류할 수 있다. 보다 구체적으로는, 문장에 포함된 억양 정보를 이용해, 문장이 질문, 요구 및 서술 중 어떠한 의도를 가지고 있는지 판단하여 문장을 분류할 수 있다. 이때, 단계 S320의 판단 결과 완전한 문장의 의도 판단이 가능한 경우, 단계 S330의 과정을 거치고, 완전한 문장의 의도 판단이 불가능한 경우, Context-dependent(CD)로서 단계 S400에서 non-target 문장으로 분류될 수 있다.
In operation S320, when the determination result of operation S310 is a complete sentence, it may be determined whether intention information of the complete sentence is possible using the intonation information. The Korean dialogue corpus classification method considering discourse components and speech acts according to an embodiment of the present invention targets sentences having no context, and thus can classify sentences using intonation information. More specifically, by using the intonation information included in the sentence, it is possible to classify the sentence by determining what the intention is among the questions, requests, and descriptions. In this case, when the determination of the intention of the complete sentence is possible as a result of the determination of step S320, if the determination of the intention of the complete sentence is not possible, it may be classified as a non-target sentence in step S400 as Context-dependent (CD). have.

단계 S330에서는, 단계 S320의 판단 결과 완전한 문장의 의도 판단이 가능한 경우, 억양 정보가 필요한지 판단할 수 있다. 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법에서, 문장에 억양 정보가 포함되어 있지 않다면, 문장이 질문, 요구 및 서술 중 어떠한 의도를 가지고 있는지 판단하는데 어려움이 있을 수도 있으므로, 억양 정보가 필요한 경우, Intonation-dependent(ID)로서 단계 S400에서 non-target 문장으로 분류될 수 있다.
In operation S330, when it is possible to determine the intention of the complete sentence as a result of the determination of operation S320, it may be determined whether the accent information is necessary. In the Korean dialogue corpus classification method considering discourse components and speech acts according to an embodiment of the present invention, if the sentence does not include intonation information, it may be difficult to determine which intention the sentence has a question, a request, or a description. Therefore, when the intonation information is needed, it may be classified as a non-target sentence in step S400 as Intonation-dependent (ID).

단계 S340에서는, 문장의 억양 정보가 필요하지 않은 경우, 단계 S310에서 판단된 완전한 문장이 질문, 요구 및 서술 중 어떠한 의도를 가지고 있는지 판단할 수 있다.
In operation S340, when the accent information of the sentence is not required, it may be determined whether the complete sentence determined in operation S310 has a question, a request, or a description.

도 3은 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법에서, 단계 S340의 세부적인 흐름을 도시한 도면이다. 도 3에 도시된 바와 같이, 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법의 단계 S340은, 질문 또는 질문이 내장된 문장으로서, 청자의 답이 필요한지 여부를 판단하는 단계(S341), 및 명령 또는 금지의 문장으로서, 청자의 행동이 요구되는지 판단하는 단계(S342)를 포함하여 구현될 수 있다.
3 is a diagram illustrating a detailed flow of step S340 in the Korean dialogue corpus classification method considering the discourse component and speech acts according to an embodiment of the present invention. As shown in FIG. 3, step S340 of the Korean dialogue corpus classification method considering discourse components and speech acts according to an embodiment of the present invention is a sentence in which a question or a question is embedded and determines whether a listener's answer is required. Step S341 and a sentence of command or prohibition may be implemented, including step S342 of determining whether the action of the listener is required.

본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법은, 한국어 단일 문장을 크게 질문, 요구, 또는 서술로 분류할 수 있다. 기존의 한국어 문장의미론은 종결 어미에 따라 문장들을 의문문, 명령문, 평서문 등으로 분류하지만, 의문문이나 명령문의 형태를 띤 문장들 중에 실제로 질문이나 요구사항이 없는 문장이 많고, 평서문의 형태를 띰에도 불구하고 의문점이나 요구사항을 전달하는 문장들이 있다. 따라서, 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법은, 문장이 함의하는 바를 고려하되 맥락을 요하지 않는 범위 내에서 새롭게 분류 기준을 정하였다. 이때, 분류가 애매한 문장들, 혹은 별도로 분류할 필요성을 느끼는 문장들은 non-target 문장으로 따로 분류할 수 있다.
The Korean dialogue corpus classification method considering discourse components and speech acts according to an embodiment of the present invention may largely classify Korean single sentences into questions, requests, or descriptions. Conventional Korean sentence semantics classifies sentences into questions, statements, and testimonials according to the ending ending.However, many sentences in question or statement form do not actually have questions or requirements, and even though they are in the form of testimonials. There are sentences that convey questions or requirements. Therefore, in the Korean dialogue corpus classification method considering discourse components and speech acts according to an embodiment of the present invention, the classification criteria are newly defined within the range that does not require context in consideration of the implications of sentences. At this time, the sentences that are difficult to classify, or sentences that need to be classified separately can be classified separately as non-target sentences.

단계 S341에서는, 질문 또는 질문이 내장된 문장으로서, 청자의 답이 필요한지 여부를 판단할 수 있고, 단계 S342에서는 명령 또는 금지의 문장으로서, 청자의 행동이 요구되는지 판단할 수 있다.
In step S341, it is possible to determine whether the listener's answer is necessary as the question or the sentence in which the question is embedded, and in step S342, whether the action of the listener is required as the sentence of the command or prohibition.

본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법에서, 질문에 해당하는 문장들은 question set이 있어서 상대방으로부터 대답을 원하는지 여부로 판정할 수 있다. 이는 ‘궁금해’, ‘모르겠다’ 등의 술어로 질문을 내장한 형태를 포함할 수 있다. 이때, ‘아무 위험 없이 돈 벌 수 있나’ 등의 수사의문문(Rhetorical Questions, RQ)은 일반적으로 question set이 null이라 판정하지만, 맥락에 따라 질문으로 해석될 수도 있기 때문에, non-target 문장으로 분류하였다. 또한, ‘요즘 좀 춥지 안 그래’ 등의 tag question을 포함한 문장들 역시 질문으로 판단하기 보다는 앞쪽의 내용으로 판단할 수 있다.
In the Korean dialogue corpus classification method considering discourse components and speech acts according to an embodiment of the present invention, sentences corresponding to a question may be determined whether or not an answer is desired from the other party. This may include a form in which the question is embedded in predicates such as 'I wonder' or 'I don't know'. In this case, Rhetorical Questions (RQ), such as 'Can you make money without any risk', are generally classified as non-target sentences because the question set is judged to be null but can be interpreted as a question depending on the context. . In addition, sentences including tag questions such as 'It's not a little cold' can be judged by the contents of the front rather than by the question.

본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법에서, 질문과 요구는 그 경계를 잘 설정하는 것이 중요한데, ‘내일 날씨 좀 검색해 줘’와 같이 질문의 의도를 가지지만 명령문의 형태를 가지고 있는 문장들은 화행의 force를 고려하여 요구에 포함할 수 있고, ‘내일 약속 미뤄서 다음 주에 만나면 안 될까’와 같은 의문문 중에서도 단순 제안 이상의 기능을 할 경우 부탁으로 판단하고 요구로 분류할 수 있다.
In the Korean dialogue corpus classification method considering discourse components and speech acts according to an embodiment of the present invention, it is important to set the boundary between questions and requests well, but the statement has the intention of a question such as 'Please search for the weather tomorrow'. Sentences in the form of can be included in the request in consideration of the force of speech acts, and among questions such as 'Will we not meet tomorrow next week due to appointments'? Can be.

본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법에서, 요구에 해당하는 문장들은 청자의 행동이 부여되는지 여부로 판정할 수 있다. 이는 명령, 부탁, 금지, 청유 등 의무 부여 대상에 청자가 포함되는 문장들을 기본으로 할 수 있다. 본 발명에서는 ‘내일 아버님 퇴원하실 때 형님도 오시는 게 좋겠어요’와 같이 강제성이 있고 청자를 대상에 확실히 포함하는 평서문을 요구로 분류할 수 있으며, ‘그럼 개강 날 학교에서 보자’와 같이 화자에게도 행동이 부여되는 청유문의 경우에도 청자가 대상에 포함된다면 요구로 분류할 수 있다. 또한, ‘쏠 테면 쏴 봐’와 같은 조건절을 수반한 명령문의 경우, 조건절이 행동을 무효화시키는 경우가 아니라면 요구로 분류할 수 있다. 뿐만 아니라, ‘당장 그 손을 떼지 않으면 죽음을 면치 못할 것이다’와 같이 조건절에 명령문이 들어가 의무 또는 금지를 표현하는 경우에도 요구로 간주할 수 있다.
In the Korean dialogue corpus classification method considering discourse components and speech acts according to an embodiment of the present invention, the sentences corresponding to the request may be determined whether the action of the listener is granted. This can be based on sentences in which the listener is included in the object of the obligation, such as order, request, prohibition, or solicitation. In the present invention, a compulsory sentence such as 'I would like my brother to come home when my father leaves tomorrow' can be classified as a request, and it can be categorized as a request. In the case of the grant letter, the listener may be classified as a request if the listener is included in the object. Also, statements with conditional clauses such as 'shoot to shoot' can be classified as a request unless the conditional clause invalidates the behavior. In addition, it can be regarded as a request even when a statement is entered into a conditional clause to express an obligation or prohibition, such as 'If you do not take your hand off it, you will die.'

본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법에서 주의해야 할 문장 유형은, 명령문 형태의 관용어구(Idiomatic Expressions, IE)이다. 관용어구는 크게 두 가지로, ‘내 정신 좀 봐’와 같이 상대방에게 요구가 없지만 감탄사처럼 쓰이는 표현과 ‘안녕히 주무세요’와 같이 안부, 안심 또는 행복의 기원을 목적으로 쓰이는 표현이 있다. 전자의 경우에는 앞뒤로 나오는 내용에 따라 요구로 분류될 가능성이 있으나, 후자의 경우는 그 내용이 추상적이거나, 청자에게 요구하는 것이 아니거나, 청자가 어떻게 하지 못하는 경우를 모두 포함할 수 있으므로, 이 문장들은 non-target 문장으로 분류할 수 있다.
In the Korean dialogue corpus classification method considering discourse components and speech acts according to an embodiment of the present invention, a sentence type is an idiom in the form of a statement (Idiomatic Expressions, IE). There are two idioms: expressions such as 'Look at my mind', which are not required by the other person, but expressions such as admiration, and expressions such as 'good night' for the purpose of greeting, relief or happiness. In the former case, it is possible to classify the request according to the preceding and following contents, but the latter case may include all cases in which the contents are abstract, not required by the listener, or the listener cannot do anything. Can be classified as non-target statements.

본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법에서, 서술에 해당하는 문장들은 상술한 질문 또는 요구의 의도가 없으며 non-target 문장들에 해당하지 않는 문장들을 포함할 수 있다.
In the Korean dialogue corpus classification method considering discourse components and speech acts according to an embodiment of the present invention, the sentences corresponding to the description may include sentences which do not correspond to the above-described questions or requests and do not correspond to non-target sentences. have.

본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법에서, non-target 문장들은 위에서 설명한 수사의문문 및 관용어구를 제외하고도 Fragments(FR), Intonation-dependent(ID), Context-dependent(CD)의 세 가지를 포함할 수 있다.
In the Korean dialogue corpus classification method considering discourse components and speech acts according to an embodiment of the present invention, the non-target sentences may include Fragments (FR), Intonation-dependent (ID), and Context, except for the rhetorical sentences and idioms described above. It can contain three of the following: -dependent (CD).

Fragments는 의문사, 등위접속사 등으로 의문 또는 명령을 파악할 수 있는 경우를 제외하고, ‘오토바이는 위험하지만’과 같이 완전한 절이 아닌 성분들로 구성되어 있는 발화들을 포함할 수 있다. Intonation-dependent는, ‘천천히 가고 있어’와 같이 구두점(Punctuation Marks)에 영향을 받지 않는 분류 기준을 확립하는 과정에서 생기는 모호함으로 인하여, 종결 어미의 특성상 여러 의도로 해석될 수 있는 문장들을 포함할 수 있다. 지금까지 언급한 네 개의 non-target 문장에 포함되지 않은 non-target 문장은 맥락이 필요한 것으로 간주하여 Context-dependent에 포함할 수 있다.
Fragments can include utterances that are composed of components that are not complete clauses, such as "Motorbikes are dangerous", except where a question or order can be identified by question or equivalence. Intonation-dependent may include sentences that can be interpreted as multiple intentions due to the nature of the ending ending, due to ambiguities in the process of establishing classification criteria that are not affected by punctuation marks, such as 'slowly going'. have. Non-target statements that are not included in the four non-target statements mentioned so far can be included in Context-dependent, considering the context as necessary.

본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법은 단일 문장을 기준으로 하지만, 접속사 등을 통한 복합 문장이나 주제가 통일된 다수의 문장의 병렬 배치도 허용할 수 있다. 이때, 서술+질문과 서술+요구는 화행의 force에 따라 각각 질문과 요구로 분류할 수 있으며, 질문+요구와 요구+질문의 경우 뒤쪽에 오는 내용을 중심으로 분류할 수 있다. 또한, 질문+서술이나 요구+서술의 경우 그 케이스가 적지만, 질문이나 요구가 실질적으로 의도하는 바가 있는지 확인한 후 판단할 수 있다.
The Korean dialogue corpus classification method considering discourse components and speech acts according to an embodiment of the present invention is based on a single sentence, but may also allow parallel arrangement of multiple sentences or a plurality of unified sentences through conjunctions. In this case, the description + question and description + request can be classified into questions and demands according to the force of speech acts, and the questions + requests and requests + questions can be classified based on the contents that follow. In addition, in case of question + description or demand + description, the case is small, but it can be judged after confirming whether the question or request is actually intended.

단계 S400에서는, 단계 S300에서 판단된 의도대로 문자열을 질문, 요구, 서술 또는 non-target 문장으로 분류할 수 있다. 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법에서는, 상기에서 설명한 분류 기준을 바탕으로 단계 S400에서 한국어 대화체 코퍼스를 질문, 요구, 서술 또는 non-target 문장으로 분류할 수 있다.
In operation S400, the character string may be classified into a question, a request, a description, or a non-target sentence according to the intention determined in operation S300. In the Korean dialogue corpus classification method considering discourse components and speech acts according to an embodiment of the present invention, the Korean dialogue corpus may be classified into a question, request, description, or non-target sentence in step S400 based on the classification criteria described above. have.

도 4는 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법에서 한국어 대화체 코퍼스를 음성 신호로 입력받아 질문, 요구, 서술 또는 non-target 문장으로 분류한다는 것을 설명하기 위해 도시한 도면이고, 도 5는 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법의 전체적인 구성을 도시한 도면이다. 도 4 및 5에 도시된 바와 같이, 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법은 한국어 대화체 코퍼스를 음성 신호로 입력받아 질문, 요구, 서술 또는 non-target 문장으로 분류할 수 있다. 보다 구체적으로는, 완전한 절인지 여부, 억양 정보로 판단이 가능한지 여부 및 억양 정보가 필요한지 여부를 바탕으로 단일 문장 또는 주제가 공통된 다수의 문장을 질문, 요구, 서술 또는 non-target 문장으로 분류할 수 있으며, non-target 문장에는, Fragments(FR), Context-dependent(CD), Intonation-dependent(ID), 수사의문문(RQ), 또는 관용어구(IE)가 포함될 수 있다.
FIG. 4 is a diagram for explaining that a Korean dialogue corpus is classified as a question, request, description, or non-target sentence in a Korean dialogue corpus classification method considering discourse components and speech acts according to an embodiment of the present invention. 5 is a diagram illustrating the overall configuration of the Korean dialogue corpus classification method in consideration of discourse components and speech acts according to an embodiment of the present invention. As shown in FIGS. 4 and 5, the Korean dialogue corpus classification method considering discourse components and speech acts according to an embodiment of the present invention receives a Korean dialogue corpus as a voice signal and generates a question, request, description, or non-target sentence. Can be classified. More specifically, based on whether a complete clause, whether it can be judged as accent information, and whether accent information is needed, a single sentence or multiple sentences with a common subject can be classified as a question, request, description, or non-target sentence. Non-target statements may include Fragments (FR), Context-dependent (CD), Intonation-dependent (ID), Investigative Statements (RQ), or Idioms (IE).

도 6은 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템(10)의 구성을 도시한 도면이다. 도 6에 도시된 바와 같이, 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템은, 사용자가 발화한 한국어 대화체 코퍼스를 음성 신호로 입력받는 음성 입력 모듈(100), 음성 신호를 입력받아 음성 신호를 문자열로 변환하여 출력하는 문자열 출력 모듈(200), 문자열 출력 모듈(200)에 의해 출력된 문자열에 대해 담화 성분 분석 및 화행 분석을 수행하고 문자열의 의도를 판단하는 판단 모듈(300), 및 판단 모듈(300)에 의해 판단된 의도대로 문자열을 질문, 요구, 서술 또는 non-target 문장으로 분류하는 문장 분류 모듈(400)을 포함할 수 있다.
6 is a diagram showing the configuration of the Korean dialogue corpus classification system 10 in consideration of the discourse component and speech acts according to an embodiment of the present invention. As shown in FIG. 6, the Korean dialogue corpus classification system in consideration of a discourse component and a dialogue act according to an embodiment of the present invention includes a voice input module 100 for receiving a Korean dialogue corpus spoken by a user as a voice signal, and a voice. A string output module 200 for receiving a signal and converting a voice signal into a string, and outputting a speech component analysis and speech act analysis on the string output by the string output module 200 and determining the intention of the string. 300, and a sentence classification module 400 that classifies the character string into a question, a request, a description, or a non-target sentence as intended by the determination module 300.

음성 입력 모듈(100)은, 사용자가 발화한 한국어 대화체 코퍼스를 음성 신호로 입력받을 수 있다. 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템(10)은, 한국어 대화체 문장의 발화 의도를 파악하여 질문, 요구, 또는 서술로 분류하기 위한 시스템에 관한 것이므로, 사용자가 발화한 문장을 음성 신호로 입력 받을 수 있다. 여기서, 한국어 대화체 코퍼스는 단일 문장 또는 주제가 공통된 다수의 문장일 수 있다.
The voice input module 100 may receive a Korean dialogue corpus spoken by a user as a voice signal. Since the Korean dialogue corpus classification system 10 considering discourse components and speech acts according to an embodiment of the present invention is related to a system for grasping the speech intent of Korean dialogue sentences and classifying them into questions, requests, or descriptions, The spoken sentence can be input as a voice signal. Here, the Korean dialogue corpus may be a single sentence or a plurality of sentences having a common theme.

문자열 출력 모듈(200)은, 음성 신호를 입력받아 음성 신호를 문자열로 변환하여 출력할 수 있다. 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템(10)은, 한국어 대화체 코퍼스를 음성 신호로 입력받고, 입력받은 문장의 발화 의도를 파악하여 질문, 요구, 또는 서술로 분류하기 위하여, 입력받은 음성 신호를 문자열로 변환하여 사용할 수 있다. 문자열 출력 모듈(200)은, 음성텍스트변환기술 및 텍스트 분석 기술 등을 이용할 수 있다. 이때, 키보드를 통해 문자열이 입력되는 경우에는 추가적인 변환 없이 입력되는 문자열을 그대로 출력할 수 있다.
The string output module 200 may receive a voice signal, convert the voice signal into a string, and output the converted voice signal. The Korean dialogue corpus classification system 10 considering the discourse component and speech act according to an embodiment of the present invention receives the Korean dialogue corpus as a voice signal, grasps the intention of uttering the input sentence, and asks a question, a request, or a description. In order to classify, the received voice signal may be converted into a string and used. The string output module 200 may use a voice text conversion technique, a text analysis technique, or the like. In this case, when a string is input through the keyboard, the input string may be output without change.

판단 모듈(300)은, 문자열 출력 모듈(200)에 의해 출력된 문자열에 대해 담화 성분 분석 및 화행 분석을 수행하고 문자열의 의도를 판단할 수 있다. 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템은, 맥락(Context)이 주어지지 않은 단일 문장을 대상으로 담화 성분 분석 및 화행 분석을 수행하여, 문장에 어떤 의도가 있는지 판단할 수 있다.
The determination module 300 may perform discourse component analysis and speech act analysis on the character string output by the character string output module 200 and determine the intention of the character string. The Korean dialogue corpus classification system considering discourse components and speech acts according to an embodiment of the present invention performs discourse component analysis and speech act analysis on a single sentence having no context, so that the sentence has any intention. You can judge.

도 7은 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템(10)에 있어서, 판단 모듈(300)의 세부적인 구성을 도시한 도면이다. 도 7에 도시된 바와 같이, 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템(10)의 판단 모듈(300)은, 문자열 출력 모듈(200)에서 출력된 문장이 완전한 문장인지 판단하는 문장 판단부(310); 문장 판단부(310)에서 판단한 결과 문자열이 완전한 문장인 경우, 억양 정보로 완전한 문장의 의도 판단이 가능한지 판단하는 억양 정보 의도 판단부(320); 억양 정보 의도 판단부(320)에서 판단한 결과 완전한 문장의 의도 판단이 가능한 경우, 억양 정보가 필요한지 판단하는 억양 정보 필요 판단부(330); 및 억양 정보가 필요하지 않은 경우, 문장 판단부(310)에서 판단된 완전한 문장이 질문, 요구 및 서술 중 어떠한 의도를 가지고 있는지 판단하는 문장 의도 판단부(340)를 포함할 수 있다.
7 is a diagram illustrating a detailed configuration of the determination module 300 in the Korean dialogue corpus classification system 10 considering discourse components and speech acts according to an embodiment of the present invention. As shown in FIG. 7, in the determination module 300 of the Korean dialogue corpus classification system 10 considering discourse components and speech acts according to an embodiment of the present invention, a sentence output from the string output module 200 is completely completed. A sentence determination unit 310 for determining whether the sentence is a sentence; If the sentence is determined by the sentence determination unit 310 as a complete sentence, intonation information intention determination unit 320 to determine whether the intention of the complete sentence with the intonation information is possible; If the intonation information intention determination unit 320 determines that the intent of the complete sentence is possible, the intonation information need determination unit 330 to determine whether the intonation information is necessary; And when the intonation information is not necessary, the sentence determination unit 340 may determine whether the complete sentence determined by the sentence determination unit 310 has any intention of the question, request, and description.

문장 판단부(310)는, 문자열 출력 모듈(200)에서 출력된 문장이 완전한 문장인지 여부를 판단할 수 있다. 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템(10)은 맥락이 주어지지 않은 완전한 형태의 단일 문장 또는 주제가 공통된 다수의 문장을 대상으로 하기 때문에, 문장 판단부(310)에서 입력받은 음성 신호가 완전한 문장인지 판단할 수 있다.
The sentence determination unit 310 may determine whether a sentence output from the string output module 200 is a complete sentence. Since the Korean dialogue corpus classification system 10 considering discourse components and speech acts according to an embodiment of the present invention targets a single sentence or a plurality of sentences in common with no context, a sentence determination unit 310 is provided. ), It is possible to determine whether the input voice signal is a complete sentence.

억양 정보 의도 판단부(320)는, 문장 판단부(310)에서 판단한 결과 문자열이 완전한 문장인 경우, 억양 정보로 완전한 문장의 의도 판단이 가능한지 여부를 판단할 수 있다. 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템(10)은, 맥락이 주어지지 않은 문장을 대상으로 하므로, 억양 정보를 이용하여 문장을 분류할 수 있다.
The intonation information intention determination unit 320 may determine whether the intention of the complete sentence is possible with the intonation information when the character string is a complete sentence as determined by the sentence determination unit 310. According to an embodiment of the present invention, the Korean dialogue corpus classification system 10 considering discourse components and speech acts may be used to classify sentences using accent information.

억양 정보 필요 판단부(330)는, 억양 정보 의도 판단부(320)에서 판단한 결과 완전한 문장의 의도 판단이 가능한 경우, 억양 정보가 필요한지 판단할 수 있다. 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템(10)에서 문장에 억양 정보가 포함되어 있지 않다면, 문장이 질문, 요구 및 서술 중 어떠한 의도를 가지고 있는지 판단하는데 어려움이 있을 수도 있으므로, 억양 정보 필요 판단부(330)에서 억양 정보가 필요한지 여부를 판단할 수 있다.
The intonation information need determination unit 330 may determine whether the intonation information is necessary when the intention of the complete sentence is determined by the intonation information intention determination unit 320. If the intonation information is not included in a sentence in the Korean dialogue corpus classification system 10 considering discourse components and speech acts according to an embodiment of the present invention, it is difficult to determine which intention the sentence has a question, a request, or a description. Since there may be, the intonation information need determination unit 330 may determine whether the intonation information is required.

문장 의도 판단부(340)는, 억양 정보가 필요하지 않은 경우, 문장 판단부(310)에서 판단된 완전한 문장이 질문, 요구 및 서술 중 어떠한 의도를 가지고 있는지 판단할 수 있다.
When the intent information is not needed, the sentence intention determination unit 340 may determine which intention among the question, request, and description of the complete sentence determined by the sentence determination unit 310 has.

도 8은 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템(10)에 있어서, 문장 의도 판단부(340)의 세부적인 구성을 도시한 도면이다. 도 8에 도시된 바와 같이, 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템(10)의 문장 의도 판단부(340)는, 질문 또는 질문이 내장된 문장으로서, 청자의 답이 필요한지 여부를 판단하는 질문 판단부(341); 및 명령 또는 금지의 문장으로서, 청자의 행동이 요구되는지 판단하는 요구 판단부(342)를 포함할 수 있다.
8 is a diagram illustrating a detailed configuration of a sentence intention determination unit 340 in the Korean dialogue corpus classification system 10 considering discourse components and speech acts according to an embodiment of the present invention. As shown in FIG. 8, the sentence intent determination unit 340 of the Korean dialogue corpus classification system 10 considering discourse components and speech acts according to an embodiment of the present invention is a sentence in which a question or a question is embedded. A question determination unit 341 determining whether an answer is necessary; And a request determination unit 342 that determines whether the action of the listener is required as the sentence of the command or the prohibition.

문장 분류 모듈(400)은, 판단 모듈(300)에 의해 판단된 의도대로 문자열을 질문, 요구, 서술 또는 non-target 문장으로 분류할 수 있다. 본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템(10)의 문장 분류 모듈(400)에서는, 한국어 대화체 코퍼스를 질문, 요구, 서술 또는 non-target 문장으로 분류할 수 있다.
The sentence classification module 400 may classify a string into a question, a request, a description, or a non-target sentence as intended by the determination module 300. In the sentence classification module 400 of the Korean dialogue corpus classification system 10 considering discourse components and speech acts according to an embodiment of the present invention, the Korean dialogue corpus may be classified into a question, a request, a description, or a non-target sentence. .

본 발명의 일실시예에 따른 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템(10)은, 완전한 절인지 여부, 억양 정보로 판단이 가능한지 여부 및 억양 정보가 필요한지 여부를 바탕으로 단일 문장 또는 주제가 공통된 다수의 문장을 질문, 요구, 서술 또는 non-target 문장으로 분류할 수 있으며, non-target 문장에는, Fragments(FR), Context-dependent(CD), Intonation-dependent(ID), 수사의문문(RQ), 또는 관용어구(IE)가 포함될 수 있다.
The Korean dialogue corpus classification system 10 considering discourse components and speech acts according to an embodiment of the present invention has a single sentence or topic in common based on whether it is a complete clause, whether it can be determined as accent information, and whether accent information is needed. Multiple sentences can be categorized as questions, requests, descriptions, or non-target sentences. Non-target statements include Fragments (FR), Context-dependent (CD), Intonation-dependent (ID), and Investigative Questions (RQ). Or idiomatic phrases (IE).

전술한 바와 같이, 본 발명에서 제안하고 있는 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템에 따르면, 맥락(Context)이 주어지지 않은 한국어 대화체 문장에 대해, 통사론, 의미론, 화용론적 지식 및 용례들을 충분히 고려하여 한국어 대화체 문장을 분석하고 의도를 파악하여, 파악된 의도에 따라 질문, 요구 또는 서술로 한국어 대화체 문장을 분류할 수 있다.
As described above, according to the Korean dialogue corpus classification method and system considering the discourse component and speech act proposed in the present invention, syntax, semantics, pragmatic knowledge and usage of Korean dialogue sentences without context are given. In this regard, the Korean dialogue sentences may be analyzed and the intentions may be identified, and the Korean dialogue sentences may be classified into questions, requests, or descriptions according to the identified intentions.

또한, 본 발명에서 제안하고 있는 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템에 따르면, 한국어 대화체 코퍼스를 분류하는 기준을 수립함으로써, 이를 통해 추후 기계 학습을 통한 한국어 문장 의도 분석에 효과적인 데이터 셋을 제공할 수 있다.
In addition, according to the method and system for classifying Korean dialogue corpus in consideration of discourse components and speech acts proposed by the present invention, by establishing a standard for classifying Korean dialogue corpus, the data set is effective for analyzing Korean sentence intention through machine learning. Can be provided.

이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.The present invention described above may be variously modified or applied by those skilled in the art, and the scope of the technical idea according to the present invention should be defined by the following claims.

10: 본 발명의 일실시예에 따른 한국어 대화체 코퍼스 분류 시스템
100: 음성 입력 모듈
200: 문자열 출력 모듈
300: 판단 모듈
310: 문장 판단부
320: 억양 정보 의도 판단부
330: 억양 정보 필요 판단부
340: 문장 의도 판단부
341: 질문 판단부
342: 요구 판단부
400: 문장 분류 모듈
S100: 사용자가 발화한 한국어 대화체 코퍼스를 음성 신호로 입력받는 단계
S200: 단계 S100에서 입력받은 음성 신호를 문자열로 변환하여 출력하는 단계
S300: 단계 S200에서 출력된 문자열에 대해 담화 성분 분석 및 화행 분석을 수행하고 문자열의 의도를 판단하는 단계
S310: 단계 S200에서 출력된 문자열이, 완전한 문장인지 판단하는 단계
S320: 단계 S310의 판단 결과 문자열이 완전한 문장인 경우, 억양 정보로 완전한 문장의 의도 판단이 가능한지 판단하는 단계
S330: 단계 S320의 판단 결과 완전한 문장의 의도 판단이 가능한 경우, 억양 정보가 필요한지 판단하는 단계
S340: 억양 정보가 필요하지 않은 경우, 단계 S310에서 판단된 완전한 문장이 질문, 요구 및 서술 중 어떠한 의도를 가지고 있는지 판단하는 단계
S341: 질문 또는 질문이 내장된 문장으로서, 청자의 답이 필요한지 여부를 판단하는 단계
S342: 명령 또는 금지의 문장으로서, 청자의 행동이 요구되는지 판단하는 단계
S400: 단계 S300에서 판단된 의도대로 문자열을 질문, 요구, 서술 또는 non-target 문장으로 분류하는 단계
10: Korean dialogue corpus classification system according to an embodiment of the present invention
100: voice input module
200: string output module
300: judgment module
310: sentence judgment
320: intonation information intention determination unit
330: intonation information need determination unit
340: sentence intent determination unit
341: question judging unit
342: request judgment
400: sentence classification module
S100: Receiving the user's spoken Korean dialogue corpus as a voice signal
S200: converting the voice signal received in step S100 to a string and outputting
S300: performing discourse component analysis and speech act analysis on the string output from step S200 and determining the intention of the string
S310: determining whether the string output in step S200 is a complete sentence
S320: When the determination result of step S310 is that the string is a complete sentence, determining whether intention information of the complete sentence is possible using the intonation information.
S330: When the determination result of the step S320 is possible to determine the intention of the complete sentence, determining whether the intonation information is necessary
S340: When the accent information is not needed, determining whether the complete sentence determined in step S310 has any intention among questions, requests, and descriptions.
S341: Step of determining whether a question or a question is embedded and whether the listener's answer is required
S342: A sentence of injunction or prohibition, determining whether the action of the listener is required
S400: classifying the string into a question, request, description, or non-target sentence according to the intention determined in step S300

Claims (10)

한국어 대화체 코퍼스 분류 방법으로서,
(1) 음성 입력 모듈(100)이, 사용자가 발화한 한국어 대화체 코퍼스를 음성 신호로 입력받는 단계;
(2) 문자열 출력 모듈(200)이, 상기 단계 (1)에서 입력받은 상기 음성 신호를 문자열로 변환하여 출력하는 단계;
(3) 판단 모듈(300)이, 상기 단계 (2)에서 출력된 상기 문자열에 대해 담화 성분 분석 및 화행 분석을 수행하고 상기 문자열의 의도를 판단하는 단계; 및
(4) 문장 분류 모듈(400)이, 상기 단계 (3)에서 판단된 의도대로 상기 문자열을 질문, 요구, 서술 또는 non-target 문장으로 분류하는 단계를 포함하며,
상기 단계 (3)은, 상기 판단 모듈(300)이,
(3-1) 상기 단계 (2)에서 출력된 상기 문자열이, 완전한 문장인지 판단하는 단계;
(3-2) 상기 단계 (3-1)의 판단 결과 상기 문자열이 완전한 문장인 경우, 억양 정보로 상기 완전한 문장의 의도 판단이 가능한지 판단하는 단계;
(3-3) 상기 단계 (3-2)의 판단 결과 상기 완전한 문장의 의도 판단이 가능한 경우, 상기 억양 정보가 필요한지 판단하는 단계; 및
(3-4) 상기 억양 정보가 필요하지 않은 경우, 상기 단계 (3-1)에서 판단된 완전한 문장이 질문, 요구 및 서술 중 어떠한 의도를 가지고 있는지 판단하는 단계를 포함하는 것을 특징으로 하는, 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법.
As a method of classifying Korean dialogue corpus,
(1) the voice input module 100 receiving a Korean dialogue corpus spoken by a user as a voice signal;
(2) a string output module 200 converting the voice signal received in the step (1) into a string and outputting the string;
(3) the determining module 300, performing discourse component analysis and speech act analysis on the string output in the step (2) and determining the intention of the character string; And
(4) the sentence classification module 400 classifying the string into a question, a request, a description, or a non-target sentence, as determined in the step (3),
Step (3), the determination module 300,
(3-1) determining whether the character string output in the step (2) is a complete sentence;
(3-2) if the character string is a complete sentence as a result of the determination of step (3-1), determining whether intention information of the complete sentence is possible with intonation information;
(3-3) if the determination of the intention of the complete sentence is possible as a result of the determination of step (3-2), determining whether the intonation information is necessary; And
(3-4) when the intonation information is not needed, determining whether the complete sentence determined in step (3-1) has any intention among questions, requests, and descriptions. Korean Conversational Corpus Classification Method Considering Components and Speech Acts.
제1항에 있어서, 상기 한국어 대화체 코퍼스는,
단일 문장 또는 주제가 공통된 다수의 문장인 것을 특징으로 하는, 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법.
The method of claim 1, wherein the Korean dialogue corpus,
A method of classifying Korean dialogue corpus in consideration of discourse components and speech acts, wherein a single sentence or a subject is a plurality of sentences in common.
삭제delete 제1항에 있어서, 상기 단계 (3-4)는,
(3-4-1) 질문 또는 질문이 내장된 문장으로서, 청자의 답이 필요한지 여부를 판단하는 단계; 및
(3-4-2) 명령 또는 금지의 문장으로서, 청자의 행동이 요구되는지 판단하는 단계를 포함하는 것을 특징으로 하는, 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법.
The method of claim 1, wherein step (3-4)
(3-4-1) a question or a sentence in which the question is embedded, determining whether the listener's answer is necessary; And
(3-4-2) A method of classifying a Korean dialogue corpus in consideration of a discourse component and a dialogue act, comprising determining whether an action of a listener is required as a sentence of an instruction or prohibition.
제1항에 있어서, 상기 단계 (4)에서 상기 non-target 문장은,
Fragments(FR), Context-dependent(CD), Intonation-dependent(ID), 수사의문문(RQ), 또는 관용어구(IE)인 것을 특징으로 하는, 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법.
The method of claim 1, wherein in step (4), the non-target sentence is
A method for classifying Korean dialogue corpus in consideration of discourse components and acts, characterized in that it is Fragments (FR), Context-dependent (CD), Intonation-dependent (ID), Investigative Questions (RQ), or Idioms (IE).
한국어 대화체 코퍼스 분류 시스템으로서,
사용자가 발화한 한국어 대화체 코퍼스를 음성 신호로 입력받는 음성 입력 모듈(100);
상기 음성 신호를 입력받아 상기 음성 신호를 문자열로 변환하여 출력하는 문자열 출력 모듈(200);
상기 문자열 출력 모듈(200)에 의해 출력된 상기 문자열에 대해 담화 성분 분석 및 화행 분석을 수행하고 상기 문자열의 의도를 판단하는 판단 모듈(300); 및
상기 판단 모듈(300)에 의해 판단된 의도대로 상기 문자열을 질문, 요구, 서술 또는 non-target 문장으로 분류하는 문장 분류 모듈(400)을 포함하며,
상기 판단 모듈(300)은,
상기 문자열 출력 모듈(200)에서 출력된 문장이 완전한 문장인지 판단하는 문장 판단부(310);
상기 문장 판단부(310)에서 판단한 결과 상기 문자열이 완전한 문장인 경우, 억양 정보로 상기 완전한 문장의 의도 판단이 가능한지 판단하는 억양 정보 의도 판단부(320);
상기 억양 정보 의도 판단부(320)에서 판단한 결과 상기 완전한 문장의 의도 판단이 가능한 경우, 상기 억양 정보가 필요한지 판단하는 억양 정보 필요 판단부(330); 및
상기 억양 정보가 필요하지 않은 경우, 상기 문장 판단부(310)에서 판단된 상기 완전한 문장이 질문, 요구 및 서술 중 어떠한 의도를 가지고 있는지 판단하는 문장 의도 판단부(340)를 포함하는 것을 특징으로 하는, 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템.
Korean dialogue corpus classification system,
A voice input module 100 configured to receive a Korean dialogue corpus spoken by a user as a voice signal;
A string output module 200 for receiving the voice signal and converting the voice signal into a string to output the string;
A determination module (300) for performing discourse component analysis and speech act analysis on the character string output by the character string output module (200) and determining the intention of the character string; And
A sentence classification module 400 for classifying the string into a question, a request, a description, or a non-target sentence as intended by the determination module 300,
The determination module 300,
A sentence determination unit 310 for determining whether a sentence output from the string output module 200 is a complete sentence;
An intonation information intention determination unit 320 that determines whether the intention determination of the complete sentence is possible with the intonation information when the sentence is determined by the sentence determination unit 310;
An accent information need determination unit 330 for determining whether the accent information is necessary when the intent information determination of the complete sentence is possible, as determined by the intonation information intention determination unit 320; And
If the intonation information is not necessary, the sentence determination unit 310 includes a sentence intention determination unit 340 for determining what intention among the question, request and description, characterized in that it comprises a , Korean dialogue corpus classification system considering discourse components and speech acts.
제6항에 있어서, 상기 한국어 대화체 코퍼스는,
단일 문장 또는 주제가 공통된 서로 다른 문장인 것을 특징으로 하는, 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템.
The method of claim 6, wherein the Korean dialogue corpus,
A Korean dialogue corpus classification system considering a discourse component and a dialogue act, wherein a single sentence or a subject is a different sentence in common.
삭제delete 제6항에 있어서, 상기 문장 의도 판단부(340)는,
질문 또는 질문이 내장된 문장으로서, 청자의 답이 필요한지 여부를 판단하는 질문 판단부(341); 및
명령 또는 금지의 문장으로서, 청자의 행동이 요구되는지 판단하는 요구 판단부(342)를 포함하는 것을 특징으로 하는, 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템.
The sentence intent determination unit 340 of claim 6,
A question determination unit 341 which determines whether a question or answer of the listener is necessary as a sentence having a question or a question embedded therein; And
A Korean dialogue corpus classification system in which discourse components and speech acts are considered, including a request judging unit (342) for determining whether an action of a listener is required as a sentence of an instruction or prohibition.
제6항에 있어서, 상기 non-target 문장은,
Fragments(FR), Context-dependent(CD), Intonation-dependent(ID), 수사의문문(RQ), 또는 관용어구(IE)인 것을 특징으로 하는, 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 시스템.
The method of claim 6, wherein the non-target sentence,
Korean dialogue corpus classification system considering discourse ingredients and acts, characterized in that it is Fragments (FR), Context-dependent (CD), Intonation-dependent (ID), Investigative Questionnaire (RQ), or Idioms (IE).
KR1020180093966A 2018-08-10 2018-08-10 Korean conversation style corpus classification method and system considering discourse component and speech act KR102086601B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180093966A KR102086601B1 (en) 2018-08-10 2018-08-10 Korean conversation style corpus classification method and system considering discourse component and speech act

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180093966A KR102086601B1 (en) 2018-08-10 2018-08-10 Korean conversation style corpus classification method and system considering discourse component and speech act

Publications (2)

Publication Number Publication Date
KR20200018121A KR20200018121A (en) 2020-02-19
KR102086601B1 true KR102086601B1 (en) 2020-03-09

Family

ID=69670274

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180093966A KR102086601B1 (en) 2018-08-10 2018-08-10 Korean conversation style corpus classification method and system considering discourse component and speech act

Country Status (1)

Country Link
KR (1) KR102086601B1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220112596A (en) * 2021-02-04 2022-08-11 삼성전자주식회사 Electronics device for supporting speech recognition and thereof method
KR102626714B1 (en) * 2021-10-08 2024-01-23 주식회사 리니토 Twofold semi-automatic symbolic propagation method of training data for natural language understanding model, and device therefor

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100277690B1 (en) * 1998-12-01 2001-01-15 정선종 Speech Recognition Using Speech Act Information

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100669241B1 (en) * 2004-12-15 2007-01-15 한국전자통신연구원 System and method of synthesizing dialog-style speech using speech-act information
KR101092352B1 (en) * 2008-10-31 2011-12-09 한국전자통신연구원 Method and apparatus for automatic classification of sentence corpus
KR20120042381A (en) * 2010-10-25 2012-05-03 한국전자통신연구원 Apparatus and method for classifying sentence pattern of speech recognized sentence

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100277690B1 (en) * 1998-12-01 2001-01-15 정선종 Speech Recognition Using Speech Act Information

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
김경선 외, 자질 선택 기법을 이용한 한국어 화행 결정, 정보과학회논문지 소프트웨어 및 응용, 제30권제3호, pp.278-284 (2003.04.) 1부.*

Also Published As

Publication number Publication date
KR20200018121A (en) 2020-02-19

Similar Documents

Publication Publication Date Title
CN110517663B (en) Language identification method and system
Carvalho et al. A critical survey on the use of fuzzy sets in speech and natural language processing
KR102372069B1 (en) Free dialogue system and method for language learning
KR20170090127A (en) Apparatus for comprehending speech
Tahon et al. Can we generate emotional pronunciations for expressive speech synthesis?
KR102086601B1 (en) Korean conversation style corpus classification method and system considering discourse component and speech act
Kilbourn-Ceron et al. Predictability modulates pronunciation variants through speech planning effects: A case study on coronal stop realizations
Mridha et al. A study on the challenges and opportunities of speech recognition for Bengali language
Dyriv et al. The user's psychological state identification based on Big Data analysis for person's electronic diary
KR100669241B1 (en) System and method of synthesizing dialog-style speech using speech-act information
Bigi A phonetization approach for the forced-alignment task in SPPAS
KR101097186B1 (en) System and method for synthesizing voice of multi-language
Thu et al. Syllable pronunciation features for myanmar grapheme to phoneme conversion
Schubotz et al. Y’know vs. you know: What phonetic reduction can tell us about pragmatic function
KR101765154B1 (en) Method for convert voice to cyber sign language
KR20050101695A (en) A system for statistical speech recognition using recognition results, and method thereof
KR100369507B1 (en) Voice recognition/synthesis systems based on standard pronunciation analysis methodology and methods therefor
KR20150014235A (en) Apparatus and method for automatic interpretation
Ni et al. From English pitch accent detection to Mandarin stress detection, where is the difference?
Jůzová Prosodic phrase boundary classification based on Czech speech corpora
KR20050101694A (en) A system for statistical speech recognition with grammatical constraints, and method thereof
Sazhok et al. Punctuation Restoration for Ukrainian Broadcast Speech Recognition System based on Bidirectional Recurrent Neural Network and Word Embeddings.
KR100511247B1 (en) Language Modeling Method of Speech Recognition System
JP2001117922A (en) Device and method for translation and recording medium
Surahio et al. An Approach to accept input in Text Editor through voice and its Analysis, designing, development and implementation using Speech Recognition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant