KR20210023640A - Transition-based Korean Dependency Analysis System Using Semantic Abstraction - Google Patents

Transition-based Korean Dependency Analysis System Using Semantic Abstraction Download PDF

Info

Publication number
KR20210023640A
KR20210023640A KR1020190160737A KR20190160737A KR20210023640A KR 20210023640 A KR20210023640 A KR 20210023640A KR 1020190160737 A KR1020190160737 A KR 1020190160737A KR 20190160737 A KR20190160737 A KR 20190160737A KR 20210023640 A KR20210023640 A KR 20210023640A
Authority
KR
South Korea
Prior art keywords
word
abstraction
transition
morpheme
dependency
Prior art date
Application number
KR1020190160737A
Other languages
Korean (ko)
Other versions
KR102339487B1 (en
Inventor
옥철영
정충선
Original Assignee
울산대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 울산대학교 산학협력단 filed Critical 울산대학교 산학협력단
Publication of KR20210023640A publication Critical patent/KR20210023640A/en
Application granted granted Critical
Publication of KR102339487B1 publication Critical patent/KR102339487B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

The present invention relates to a transition-based Korean dependency analysis system, which enables high-order words to be extracted only by learning a relatively small number of sentences through semantic abstraction, and derives dependencies in extended sentences. The system of the present invention includes: a morpheme analysis module for analyzing a morpheme of an inputted sentence; a language abstraction module for acquiring surface-type abstract information of morpheme from the analyzed morpheme information from the database; and a dependency analysis module for analyzing the dependency relationship between words using the abstract superficial information of the language and the quality information learned from the learning corpus.

Description

의미 추상화를 이용한 전이 기반 한국어 의존관계 분석 시스템{Transition-based Korean Dependency Analysis System Using Semantic Abstraction}Transition-based Korean Dependency Analysis System Using Semantic Abstraction}

본 발명은 언어 의존관계 분석시스템에 관한 것으로, 더욱 상세하게는 의미 추상화를 통해 비교적 적은 수의 문장에 대한 학습만으로 상위어가 추출되게 하여, 확장된 문장에 있어서의 의존관계를 도출할 수 있도록 하는 전이 기반의 한국어 의존관계 분석시스템에 관한 것이다. The present invention relates to a language dependence analysis system, and more specifically, a transfer that allows a higher level language to be extracted only by learning a relatively small number of sentences through semantic abstraction to derive a dependency relationship in an extended sentence. It is about a Korean-based dependency analysis system.

국어, 특히 한국어의 의존관계 분석은 규칙 기반 연구와 학습 말뭉치를 기반한 연구 중에 학습 기반 연구가 주를 이루고 있다. 의존관계 분석을 위한 말뭉치는 어절 사이의 의존 관계 정보를 담고 있으며 어절은 형태소의 표층형과 품사 태그 정보로 표현한다. In the analysis of dependency relations between Korean, especially Korean, learning-based research is dominated among rule-based research and research based on learning corpus. The corpus for the analysis of dependence contains information on the dependency relationship between words, and the word is expressed as a surface layer of morphemes and part-of-speech tag information.

그러기 때문에, 학습 말뭉치의 형태소의 표층형과 품사 태그의 조합을 학습하게 되는데, 그 중 품사 태그의 경우 재현율이 높지만 품사 태그만으로 의존관계를 분석하는 것은 한계가 있다. 반면 표층형의 경우는 학습한 내용이 재현될 경우 높은 정확률을 보이지만 가짓수가 많아 어절을 구성하는 표층형의 조합을 일반화하기 어렵고 품사 태그에 비하여 낮은 학습 자질의 재현율을 보인다. 따라서 모든 조합의 표층형을 학습하기는 어렵고 학습 말뭉치에 포함된 표층형을 학습하더라도 학습 후 입력되는 테스트 문장에서 표층형이 재현될 확률은 낮다.Therefore, the combination of the surface-of-speech tag and the morpheme of the learning corpus is learned. Among them, the part-of-speech tag has a high reproducibility, but there is a limit to analyzing the dependency relationship only with the part-of-speech tag. On the other hand, in the case of the superficial type, when the learned content is reproduced, it shows a high accuracy rate, but it is difficult to generalize the combination of the superficial type constituting the word because there are many things, and the reproducibility of the learning quality is lower than that of the POS tag. Therefore, it is difficult to learn all combinations of the superficial form, and even if the superficial form included in the learning corpus is learned, the probability of reproducing the superficial form in the test sentences input after learning is low.

이처럼 기존의 학습 기반 연구는 형태소의 표층형과 품사 태그의 조합으로 의존관계 유무를 판단하기 때문에, 어순 변화 및 필수 성분 생략 등으로 다양한 문장이 있는 한국어 문장의 의존관계를 정확히 판단하기에는 한계가 있다. 즉 한국어는 어순이 자유롭고 문장의 구성 성분의 생략이 가능하기 때문이다. As such, the existing learning-based research judges the presence or absence of a dependency relationship based on the combination of the surface type of morpheme and the POS tag, so there is a limit to accurately determining the dependency relationship of Korean sentences with various sentences due to changes in word order and omission of essential components. That is, because Korean has free word order and can omit the constituent elements of sentences.

한국어의 의존규칙을 분석했던 방법들은 종래에도 다양하게 제안되었다. 예를 들어 규칙 기반 의존관계 분석은, 비교적 짧은 문장에 대해서는 정확한 분석이 가능하지만, 문장의 길이가 길어지고 어순의 변화 및 생략이 복합되면 의존관계 정의를 위한 예외 규칙들이 필요하다. 이런 규칙은 학습 말뭉치가 없어도 정의된 규칙으로 의존관계를 결정할 수 있고 처리속도 또한 빠른 장점이 있다. 하지만 모든 문장을 정확히 분석할 수 있는 규칙을 정의하기 어렵고, 예외 규칙이 추가됨에 따라 기존 규칙과의 상관관계를 직접 판단해야 하므로 정의된 규칙의 관리가 어려운 단점이 있다.The methods used to analyze the rules of dependence in Korean have been proposed in various ways. For example, in rule-based dependency analysis, it is possible to accurately analyze relatively short sentences, but if the length of the sentence is longer and changes and omissions in word order are compounded, exception rules for defining dependency relationships are required. These rules have the advantage of being able to determine dependency relationships with defined rules even without a learning corpus, and also having a fast processing speed. However, it is difficult to define rules that can accurately analyze all sentences, and as exception rules are added, it is difficult to manage the defined rules because it is necessary to directly determine the correlation with the existing rules.

다른 예로 전이 기반 의존관계 분석이 있다. 전이 기반 의존관계 분석 모델은 'Joakim Nivre'에 의해 제안되었으며 비교적 단순한 알고리즘으로, 전이 기반 모델을 이용한 한국어 의존 관계 분석 연구로는 CoNLL-U(the conference on computational natural language learning) 말뭉치를 이용하여 arc-eager 알고리즘을 사용한 연구가 있다. 이 연구에서 자질(feature)의 학습 알고리즘으로 SVM(support vector machine)을 사용하여 실험하였고 2,532 문장의 말뭉치 사용하였다. 실험 결과는 사용한 말뭉치 특성상 말뭉치의 규모가 작고 오류 비율이 높으며 어절 단위의 제한된 자질 정보만을 사용하여 63.39%의 낮은 의존관계 정확률을 보여주었다. Another example is transition-based dependency analysis. The transfer-based dependency analysis model was proposed by'Joakim Nivre' and is a relatively simple algorithm. For the study of Korean dependency analysis using the transfer-based model, the arc-based corpus of CoNLL-U (the conference on computational natural language learning) was used. There is a study using the eager algorithm. In this study, we experimented using SVM (support vector machine) as a learning algorithm for features, and a corpus of 2,532 sentences was used. The experimental results showed that the size of the corpus was small due to the characteristics of the corpus used, and the error rate was high, and the dependence accuracy rate of 63.39% was low using only the limited feature information in the word unit.

또 다른 예로 딥 러닝 기반의 의존관계 분석이 있다. 딥 러인 기반의 방법은 arc-eager 알고리즘의 oracle 역할로 피드 포워드(feed-forward) 신경망을 사용하고 NNLM(neural network language model) 및 Word2Vec 등의 임베딩을 활용한 연구, RNN(recurrent neural network) 모델과 LSTM(long short-term memory) 셀을 이용한 연구, end-to-end 신경망 모델을 사용하여 attention 기법을 활용하는 연구, 전이 기반 알고리즘을 신경망 셀에 결합한 TBRU(transition based recurrent unit)을 활용한 연구, GRU(gated recurrent unit) 셀을 사용한 포인터 네트워크 모델을 사용한 연구, biaffine attention 기법을 적용한 연구 등이 있고, 이들 방법들은 한국어에서 약 90% 대의 높은 의존관계 정확률을 보이는 반면, 학습 및 처리를 위해 요구되는 시간이 기계학습 방법에 비해 크고 오류분석에 있어서 원인을 정확히 분석하기 어려워 간접적으로 모델을 수정하여 재학습 후 결과를 확인하는 경험적 오류 분석이 요구되는 단점이 있다. Another example is deep learning-based dependency analysis. The deep run-in-based method uses a feed-forward neural network as the oracle role of the arc-eager algorithm, and studies using embeddings such as NNLM (neural network language model) and Word2Vec, and RNN (recurrent neural network) models. A study using long short-term memory (LSTM) cells, a study using an attention technique using an end-to-end neural network model, a study using a transition based recurrent unit (TBRU) combining a transition-based algorithm with a neural network cell, There are studies using a pointer network model using GRU (gated recurrent unit) cells, and studies using biaffine attention techniques. These methods show a high dependence accuracy rate of about 90% in Korean, but are required for learning and processing. The time is larger than that of the machine learning method, and it is difficult to accurately analyze the cause in error analysis, so there is a disadvantage that an empirical error analysis is required to confirm the result after retraining by indirectly modifying the model.

따라서 본 발명은 형태소의 표층형의 재현율 및 의존관계 정확률을 높이기 위해 기 구축된 어휘 의미망(UWordMap)을 활용하여 명사의 표층형을 추상화하여 자질로 사용하는 의미 추상화를 이용한 전이 기반 한국어 의존관계 분석 시스템을 제공하는 것이다. Therefore, the present invention abstracts the surface form of a noun by using a pre-built vocabulary semantic network (UWordMap) to increase the reproducibility of the surface form of morphemes and the accuracy of the dependence relationship, and analyzes the transformation-based Korean dependence using semantic abstraction that is used as a feature. It is to provide a system.

그리고 이러한 전이 기반 한국어 의존관계 분석 시스템은 표층형의 추상화를 위하여 학습 말뭉치를 동형이의어 분별을 하였고, 동형이의어 분별된 정보를 기반으로 어휘 의미망의 단어 계층에 따라 명사를 추상화하는 방안 및, 분석 및 학습 속도를 고려하여 전이 기반 분석 모델을 적용하였다. In addition, this transition-based Korean dependency analysis system classified the learning corpus for superficial abstraction, and abstracted nouns according to the word hierarchy of the vocabulary semantic network based on the separated information. In consideration of the learning speed, a transfer-based analysis model was applied.

이와 같은 목적을 달성하기 위한 본 발명은, 입력된 문장의 형태소를 분석하는 형태소 분석모듈; 분석된 형태소 정보에서 체언류의 표층형의 추상화된 정보를 데이터베이스로부터 획득하는 체언 추상화 모듈; 및 상기 체언의 추상화된 표층형 정보와 학습 말뭉치로부터 학습된 자질 정보를 이용하여 어절 간 의존관계를 분석하는 의존관계 분석 모듈을 포함하는 의미 추상화를 이용한 전이 기반 한국어 의존관계 분석 시스템을 제공한다. The present invention for achieving the above object, the morpheme analysis module for analyzing the morpheme of the input sentence; A body language abstraction module for acquiring surface-layered abstracted information of body language from the analyzed morpheme information from a database; And a dependency relationship analysis module that analyzes the dependency relationship between words using abstracted superficial information of the body language and feature information learned from the learning corpus.

상기 형태소 분석모듈은, 상기 입력된 문장의 형태소 분석 결과와 동형이의어 분별 결과를 제공하며, 상기 형태소 분석결과는 형태소 단위로 표층형, 동형이의어 번호, 다의어 번호, 품사 태그가 부착되어 출력되고, 상기 분석결과로부터 입력 문장의 어절 단위와 형태소 단위로 표층형과 동형이의어 번호, 품사 태그 정보를 수집한다. The morpheme analysis module provides a morpheme analysis result of the input sentence and a homozygous word classification result, and the morpheme analysis result is output by attaching a surface type, isomorphic synonym number, polyphony number, and part-of-speech tag in morpheme units, and the From the analysis results, the superficial and homozygous numbers and parts of speech tag information are collected in terms of words and morphemes of the input sentence.

상기 체언 추상화 모듈은, 어휘 의미망을 활용하여 명사의 표층형을 추상화하여 자질로 사용하며, 상기 어휘 의미망은 명사의 계층 구조를 트리 구조로 제공하며, 상위어 정보를 통해 명사의 표층형 정보를 추상화한다. The body language abstraction module uses a vocabulary semantic network to abstract the surface type of a noun and uses it as a feature, and the vocabulary semantic network provides a hierarchical structure of nouns in a tree structure, and provides superficial information of a noun through upper language information. Abstract.

상기 표층형의 추상화는, 학습 말뭉치를 동형이의어로 분별하였고, 동형이의어로 분별된 정보를 기초로 어휘 의미망의 단어 계층에 따라 명사를 추상화한다.In the superficial abstraction, the learning corpus is identified as homozygous, and nouns are abstracted according to the word hierarchy of the vocabulary semantic network based on the information identified by the homozygous language.

상기 명사의 표층형 추상화는, 표층형 자질, 추상화 자질을 포함한 어절단위 자질의 기본자질, 형태소 단위 및 음절 단위 확장 자질을 모두 학습한다.In the superficial abstraction of the noun, the basic features of the word unit features including the superficial features and the abstract features, morpheme units, and syllable unit expansion features are all learned.

상기 체언 추상화 모듈은, 입력 문장의 형태소 단위의 품사 태그를 확인하여 체언류 형태소를 구분하고 체언류 형태소에 대하여 상기 어휘 의미망에 해당 단어 정보가 있는지 확인하고, 상기 어휘 의미망에 없는 단어는 추상화하지 않고 정보가 있는 단어는 어휘 의미망의 단어 계층을 계산하고, 상기 동형이의어를 기준으로 동형이의어가 갖는 모든 다의어에 대하여 단어 계층을 모두 계산하고, 계산된 모든 다의어에 대하여 설정된 추상화 레벨만큼 상위 계층 단어로 추상화하며, 추상화된 단어 중 빈도가 가장 높은 단어를 해당 동형이의어의 추상화된 단어로 결정하는 것을 특징으로 한다. The body language abstraction module identifies the body language morphemes by checking the parts of speech tag of the morpheme unit of the input sentence, and checks whether there is corresponding word information in the vocabulary semantic network for the body language morphemes, and the words not in the vocabulary meaning network are abstracted. For words that do not have information and have information, the word hierarchy of the vocabulary semantic network is calculated, all word hierarchies are calculated for all polymorphisms of the homozygous word based on the homozygous word, and the higher layer by the set abstraction level for all the calculated polymorphisms. It is abstracted into words, and a word with the highest frequency among abstracted words is determined as an abstracted word of a corresponding homozygous word.

상기 체언 추상화는, 추상화의 단계가 최고 단계를 초과하는 경우, 추상화 단계가 어휘 의미망의 최상위 단계 이상이 되면 루트(root) 노드 아래의 1계층 단어로 추상화하는 제1 방법과, 추상화를 하지 않고 원형을 그대로 사용하는 제2 방법 중 하나에 의해 수행된다. The Cheon abstraction is a first method of abstracting into a layer 1 word under a root node when the abstraction level exceeds the highest level of the vocabulary semantic network when the level of abstraction exceeds the highest level, and without abstraction. It is carried out by one of the second methods of using the original as it is.

상기 의존관계 분석모듈은, 한국어의 특징이 고려된 전이 기반 모델에 맞춰 입력 문장의 순서를 역순으로 입력 버퍼에 입력하고, 자질 함수를 통해 각 자질의 값을 구하여 전이(transition)을 결정하며, 상기 전이결정에 따라 상기 입력 버퍼의 모든 어절이 의존관계가 결정되어 입력 버퍼에 존재하는 어절이 없으면 의존관계 분석을 종료하고 입력 문장의 각 어절의 지배소 어절의 어절 위치를 기록하여 의존관계 결과를 출력하는 것을 특징으로 한다.The dependency relationship analysis module inputs the order of input sentences into the input buffer in reverse order according to the transition-based model considering the characteristics of Korean, obtains the value of each feature through a feature function, and determines a transition. Dependence of all words in the input buffer is determined according to the transition decision, and if there are no words in the input buffer, the dependency analysis is terminated, and the position of the word of the dominant word of each word of the input sentence is recorded, and the dependency relationship result is output. Characterized in that.

상기 의존관계 분석에 따른 기본 자질 성능 평가에서 일반화된 품사 태그 자질(generalized POS)이 가장 높은 재현율을 제공하며, 표층형과 동형 이의의 번호, 품사 태그 합 자질(BPS)이 가장 높은 정확율을 제공한다. In the evaluation of the basic feature performance according to the dependency analysis, the generalized POS tag feature provides the highest reproducibility, and the surface type and homogeneous objection number, and the POS tag sum feature (BPS) provide the highest accuracy rate. .

상기 의존관계 분석에 따른 확장 자질 성능 평가에서, 확장 자질의 재현율과 정확률은 상기 기본 자질에 비해 재현율은 높고, 정확률이 낮다.In the evaluation of the extended feature performance according to the dependency relationship analysis, the reproducibility and accuracy rate of the extended feature are higher than that of the basic feature, and the accuracy rate is low.

상기 의존관계 분석에 따른 확장 자질 성능 평가에서, 형태소 자질과 음절 자질을 모두 사용한 경우가 가장 높은 의존관계 정확율을 제공한다. In the evaluation of the extended feature performance according to the dependency relationship analysis, the case in which both morpheme features and syllable features are used provides the highest dependency relationship accuracy rate.

상기 의존관계 분석 방법은, 한국어의 지배소 후위 원칙을 이용한 수정된 backward arc-eager 알고리즘을 사용하여 전이 기반 의존관계를 분석하고, 상기 수정된 backward arc-eager 알고리즘은 기본 arc-eager 알고리즘에서 right-arc, shift transition은 제거되고 left-arc transition에서 stack의 어절을 제거하지 않고 buffer로 이동시키는 방법으로 이루어진다. The dependency relationship analysis method analyzes the transition-based dependency relationship using a modified backward arc-eager algorithm using the Korean dominant postfix principle, and the modified backward arc-eager algorithm is the right- The arc, shift transition is removed, and the left-arc transition does not remove the word of the stack and moves to the buffer.

상기 의존관계 분석에 따른 의존관계정확률 및 자질 정확률은 다음 식에 의해 계산된다.The dependence relationship accuracy and the feature accuracy rate according to the dependency relationship analysis are calculated by the following equation.

Figure pat00001
,
Figure pat00001
,

Figure pat00002
Figure pat00002

이상과 같은 본 발명의 의미 추상화를 이용한 전이 기반 한국어 의존관계 분석 시스템에 따르면, 기 구축된 어휘 의미망을 활용하여 명사의 표층형을 추상화하여 자질로 사용되는 의존관계 분석방법을 제안함으로써, 형태소의 표층형의 재현율 및 의존관계 정확률을 향상시키고 있다. 또한 표층형의 추상화를 위해 학습 말뭉치를 동형이의어 분별을 하였고, 동형 이의어 분별된 정보를 기반으로 어휘 의미망의 단어 계층에 따라 명사를 추상화하였다. 또한 분석 및 학습 속도를 고려하여 전이기반 분석모델을 사용하였고, 한국어의 특징에 맞게 변형하였다.According to the transition-based Korean dependence analysis system using semantic abstraction of the present invention as described above, by proposing a dependency relationship analysis method used as a feature by abstracting the surface type of nouns using a pre-built vocabulary semantic network, The reproducibility of the superficial layer and the accuracy of the dependence relationship are improved. In addition, for superficial abstraction, the learning corpus was identified as homozygous words, and nouns were abstracted according to the word hierarchy of the vocabulary semantic network based on the information identified by the homomorphic synonyms. In addition, a transfer-based analysis model was used in consideration of the analysis and learning speed, and was modified to suit the characteristics of Korean.

그 결과, 명사의 표층형 추상화를 통해 표층형 자질만을 사용하여 평가 시 최대 7.55%의 의존관계 정확률 상승을 보였고 추상화 자질을 포함한 어절 단위 자질로 기본 자질을 학습한 결과 90.43% 정확률과 1,002문장/sec 처리 속도, 1,294 문장/sec 학습 속도를 보였다. 형태소 단위 및 음절 단위 확장 자질을 모두 학습할 경우 90.75% 의존관계 분석 정확률과 631 문장/sec, 처리 속도, 562 문장/sec 학습 속도를 보였다. 또한 규칙 기반 연구와 비교하여 정확률, 학습 속도, 처리 속도 모두 향상된 결과를 확인할 수 있다. As a result, when evaluating using only superficial features through the superficial abstraction of nouns, the dependence accuracy rate increased by up to 7.55%. As a result of learning basic features with word unit features including abstract features, 90.43% accuracy rate and 1,002 sentences/sec. It showed processing speed, 1,294 sentences/sec learning speed. When learning both morpheme units and syllable unit expansion features, 90.75% dependence analysis accuracy, 631 sentences/sec, processing speed, and 562 sentences/sec learning speed were shown. In addition, compared to the rule-based study, it is possible to confirm the result of improved accuracy, learning speed, and processing speed.

도 1은 본 발명의 실시 예에 따른 의미 추상화를 이용한 전이 기반 한국어 의존관계 분석 시스템의 구성도
도 2는 본 발명을 설명하기 위해 제공된 기본적인 전이 기반의 의존관계 분석모듈(dependency parser)의 기본 구조
도 3 내지 도 11은 본 발명의 실험 및 성능평가를 나타낸 각종 지표를 그래프로 나타낸 도면들로서,
도 3은 체언 추상화 단계별 정확률 및 사용률을 보인 그래프
도 4는 '범위 초과시 1단계 추상화 방법'의 추상화 단계 별 자질 재현율을 보인 그래프
도 5는 '범위 초과시 1단계 추상화 방법'의 추상화 단계 별 의존관계 정확률을 보인 그래프
도 6은 '범위 초과시 1단계 추상화 방법'의 추상화 단계 별 자질 정확률을 보인 그래프
도 7은 '범위 초과시 원형 사용방법'의 추상화 단계별 의존관계 정확률을 보인 그래프
도 8은 '범위 초과시 원형 사용방법'의 추상화 단계별 자질 정확률을 보인 그래프
도 9는 '범위 초과시 원형 사용방법'의 추상화 단계별 자질 정확률을 보인 그래프
도 10은 학습 자질별 의존관계 정확률의 비교 그래프
도 11은 학습 자질별 학습 및 처리속도의 비교 그래프
1 is a block diagram of a transition-based Korean dependency analysis system using semantic abstraction according to an embodiment of the present invention
Figure 2 is a basic structure of a basic transition-based dependency analysis module (dependency parser) provided to explain the present invention
3 to 11 are graphs showing various indicators showing the experiment and performance evaluation of the present invention,
3 is a graph showing the accuracy and utilization rate of each step of the Cheon abstraction
4 is a graph showing feature reproducibility for each abstraction step of the'one-step abstraction method when the range is exceeded'
5 is a graph showing the accuracy rate of dependence for each abstraction step of the'one-step abstraction method when the range is exceeded'
6 is a graph showing feature accuracy for each abstraction step of the'one-step abstraction method when the range is exceeded'
Fig. 7 is a graph showing the accuracy of dependence by step of abstraction in the'method of using a circle when the range is exceeded'
Figure 8 is a graph showing the feature accuracy of each abstraction step in the'method of using a circle when the range is exceeded'
9 is a graph showing the feature accuracy of each abstraction step of'how to use a circle when the range is exceeded'
10 is a comparison graph of the accuracy rate of dependence for each learning feature
11 is a comparison graph of learning and processing speed for each learning feature

본 발명의 목적 및 효과, 그리고 그것들을 달성하기 위한 기술적 구성들은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 본 발명을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.Objects and effects of the present invention, and technical configurations for achieving them will become apparent with reference to the embodiments described later in detail together with the accompanying drawings. In describing the present invention, if it is determined that a detailed description of a known function or configuration may unnecessarily obscure the subject matter of the present invention, a detailed description thereof will be omitted.

그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다.In addition, terms to be described later are terms defined in consideration of functions in the present invention, which may vary according to the intention or custom of users or operators.

그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있다. 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.However, the present invention is not limited to the embodiments disclosed below and may be implemented in various different forms. However, the present embodiments are provided to complete the disclosure of the present invention and to fully inform the scope of the invention to those of ordinary skill in the art, and the present invention is defined by the scope of the claims. It just becomes. Therefore, the definition should be made based on the contents throughout the present specification.

이하에서는 도면에 도시한 실시 예에 기초하면서 본 발명에 대하여 더욱 상세하게 설명하기로 한다. Hereinafter, the present invention will be described in more detail based on the embodiment shown in the drawings.

본 발명에 사용되는 어휘의 정보는 표준국어대사전을 기반으로 다의어 수준의 어휘 의미망으로 구축한 울산 대학교의 'UWordMap'을 사용하며, 상기 'UWordMap'은 명사, 용언, 부사 등의 어휘들이 상호 연결된 어휘망을 말한다. 그리고 'UWordMap'은 명사의 계층 구조를 트리 구조로 담고 있어 명사의 상위어 또는 하위어 정보를 얻을 수 있다. 상위어 정보는 대상 단어보다 큰 범주의 의미를 갖는 단어이므로 상위어 정보를 통해 명사의 표층형 정보를 추상화시킬 수 있다. 트리 구조를 이용해 최상위 노드를 기준으로 몇 번째 노드로 선택함에 따라 표층형의 추상화 계층을 결정할 수 있고 현재 노드를 기준으로 몇 계층을 추상화할 것인지 결정할 수 있다. The vocabulary information used in the present invention uses'UWordMap' of the University of Ulsan, which is built with a multilingual level vocabulary semantic network based on a standard Korean dictionary, and the'UWordMap' refers to vocabularies such as nouns, verbs, adverbs, etc. Speaks the vocabulary. In addition,'UWordMap' contains the hierarchical structure of nouns in a tree structure, so information on the upper or lower words of the noun can be obtained. Since the high-level word information has a larger category meaning than the target word, the superficial information of a noun can be abstracted through the high-order word information. By selecting the number of nodes based on the highest node using the tree structure, the superficial abstraction layer can be determined, and the number of layers to be abstracted based on the current node can be determined.

예를 들어, 'UWordMap'에 포함된 '사과__05'(apple)의 표층형은 다음 표 1과 같이 추상화 레벨에 따라 1계층 단어 '물건' 또는 5계층 단어 '과일' 등으로 추상화시킬 수 있다.For example, the surface type of'apple__05' (apple) included in'UWordMap' can be abstracted into the first layer word'object' or the 5th layer word'fruit' according to the abstraction level as shown in Table 1 below. .

단어계층Word hierarchy 단어 표층형Word superficial 00 UWINUWIN 1One 물건stuff 22 물체object 33 물질matter 44 열매Fruit 55 과일fruit 66 사과Apple

다음 표 2는 추상화 단계에 따른 문장의 표층형이 실제 어떻게 추상화되는지 보여준 예이다. 추상화 레벨은 UWordMap의 단어 계층에서 UWIN(최상위 단어)을 기준으로 하위 단계의 계층의 수를 나타내고 원문의 단어 표층형의 레벨이 추상화 레벨보다 하위 단계의 단어일 경우 추상화 레벨의 단어로 표현하였다.Table 2 below shows an example of how the surface layer of sentences according to the abstraction stage is actually abstracted. The abstraction level represents the number of lower level hierarchies based on UWIN (highest word) in the word layer of UWordMap, and if the level of the word surface type of the original text is a word at a lower level than the abstraction level, it is expressed as an abstraction level word.

원문Original text 이용료Usage fee Is 기본basic 통화료Call charges 에 3To 3 minute 당 2Per 2 back ∼3∼3 백원Hundred won 이 추가된다.Is added. 1레벨 추상화Level 1 abstraction 물건성질 물건에 3단위당 2단위~3단위단위이 추가된다. Stuff is added to the two units or three units of 3 units per unit of the properties object. 2레벨 추상화2 level abstraction 물품바탕 물품에 3언어단위당 2언어단위~3언어단위화폐단위이추가된다. Goods will be added to the three languages Language Unit 2 to 3 pound per language unit based on the article. 3레벨 추상화3 level abstraction 재물본바탕 재물에 3당 2~3말원이 추가된다. Wealth is added to the end of two to three per malwon 3 on the end of the present money. 4레벨 추상화Level 4 abstraction 근본 에 3단어당 2단어~3단어원이 추가된다. Money is added to the two words or three words per source word in 3 fundamental money. 5레벨 추상화Level 5 abstraction 요금기본 요금에 3품사당 2품사~3품사원이 추가된다. For the fee , 2 parts of speech ~ 3 parts of speech per 3 parts of speech are added to the basic rate.

형태소의 표층형을 추상화할 때 동일한 표층형이 다른 추상화 트리를 가질 수 있다. 이는 해당 어휘의 동형이의어 또는 다의어의 차이 때문에 표층형이 같더라도 의미적으로 다른 단어이다. When abstracting the surface type of morpheme, the same surface type can have different abstraction trees. These words are semantically different even if they have the same surface type because of the difference in homozygous or polymorphisms in the corresponding vocabulary.

따라서 본 실시 예서는 동형이의어 구분이 된 말뭉치를 사용하였고 테스트 문장에 동형이의어 태그가 없을 경우 형태소 분석기(UTagger)를 이용하여 부착된 동형이의어 태그를 이용하였다. 하기 표 3과 같이 표층형이 같은 사과(apple)와 사과(apology)를 구분하여 추상화할 경우 추상화 계층에 따라 다른 단어로 추상화된다.Therefore, in the present embodiment, a corpus with homozygous classification was used, and if there is no homozygous tag in the test sentence, a homozygous tag attached using a morpheme analyzer (UTagger) was used. As shown in Table 3 below, when an apple and an apology of the same surface type are classified and abstracted, different words are abstracted according to the abstraction layer.

단어계층Word hierarchy 단어 표층형Word superficial 00 UWINUWIN UWINUWIN 1One 물건stuff 행위Act 22 물체object 기원origin 33 물질matter 사과_08(apology)Apple_08(apology) 44 열매Fruit 55 과일fruit 66 사과_05(apple)Apple_05

본 발명에 적용되는 학습 자질에 대해 살펴본다. 학습 자질은 기본 학습자질과 확장 학습자질로 구분할 수 있다.It looks at the learning qualities applied to the present invention. Learning qualities can be divided into basic learning qualities and extended learning qualities.

기본 학습 자질로는 형태소의 품사 태그, 표층형의 조합을 사용하고 스택(stack) 및 버퍼(buffer)의 탑(top) 어절의 인접한 어절과 상대 거리 등의 정보를 자질로 사용하였고, 어절 단위를 기준으로 학습하는 자질을 선택하였다. 학습 자질 중 일반화된 품사 태그는 재현율이 낮은 품사 조합을 일반화하여 재현율을 높이기 위하여 체언류의 품사를 일반화하고 접미사와 어근, 기호 중 일부를 생략하였다. 또한 장거리 의존관계(long term distance) 판단을 위해 대상 어절 사이의 동사의 수를 학습하였고 학습 대상 어절을 stack 및 buffer의 top 어절과 함께 top 어절을 기준으로 어절의 위치가 바로 이전 또는 바로 다음 어절, stack top 어절의 지배소 어절의 품사 태그를 학습하였다. The basic learning features include a combination of morphemes of part-of-speech tags and superficial layers, and information such as adjacent words and relative distances of the stack and the top of the buffer are used as features, and the word unit is used. We selected the qualities to learn as a standard. Among the learning qualities, the generalized part-of-speech tag generalizes the part-of-speech combination with low reproducibility to increase the reproducibility. In addition, to determine the long term distance, the number of verbs between the target words was learned, and the position of the word to be learned is the previous or the next word based on the top word along with the top word of the stack and buffer. stack top We learned the parts of speech tag of the dominant word of the word.

대상 어절의 범위를 제한한 이유는 참조될 노드의 범위를 넓혀 더 많은 노드의 정보를 참조할수록 학습 정보에 노이즈가 발생하여 범위를 제한한 경우보다 낮은 의존관계 정확률을 보였기 때문이다. 기본 자질을 arc(의존관계 설정)로 설정하였고, 이렇게 한 이유는 모든 학습 자질이 재현되지 않았을 경우 확률적으로 지배 거리 확률에 의해 인접한 노드와 의존관계를 맺는 것이 정확률이 높기 때문이다.The reason for limiting the range of the target word is that as the range of nodes to be referenced is widened, the more nodes information is referred, the more noise is generated in the learning information, resulting in a lower dependence accuracy rate than the case where the range is limited. The basic feature was set to arc (dependency setting), and the reason for doing this is that if all learning features are not reproduced, it is highly accurate to establish a dependency relationship with an adjacent node by the probability of the dominant distance probabilistically.

다음 표 4는 기본 학습자질과 일반화 품사종류의 예를 나타낸 것이다.Table 4 below shows examples of basic learning qualities and types of generalized parts of speech.

기존 자질 요소Existing Qualitative Elements [stack top word, buffer top word]: generalized POS tag,
body,
BSP(body +sense number +POS tag),
abstracted body,
stack first morpheme BSP + buffer POS,
stack POS + count of verb between buffer top word.
[stack previous word, stack top word], [stack top word, stack next word], [stack top word, stack governor word], [buffer previous word, buffer top word] : POS
default feature (arc)
[ stack top word, buffer top word ]: generalized POS tag,
body,
BSP(body +sense number +POS tag),
abstracted body,
stack first morpheme BSP + buffer POS,
stack POS + count of verb between buffer top word.
[ stack previous word, stack top word ], [ stack top word, stack next word ], [ stack top word, stack governor word ], [ buffer previous word, buffer top word ]: POS
default feature (arc)
일반화된 POSGeneralized POS NNB, NNP, NP, NR, JKV, XPN, XSN, XSA, XR, SO, SE, SH, SL, SN, SW, SS (NNG로 일반화 후 중복 제거)NNB, NNP, NP, NR, JKV, XPN, XSN, XSA, XR, SO, SE, SH, SL, SN, SW, SS (deduplication after generalization to NNG) body:형태소의 표층형
sense number: 동형이의어 번호
POS: 형태로 품사 태그
BSP: 형태소의 표층형 + 동형이의어 번호 + 품사 태그
body: surface type of morpheme
sense number: homozygous number
POS: POS tags in the form
BSP: Surface type of morpheme + homozygous number + part-of-speech tag

확장 학습 자질는 어절 단위가 아닌 형태소 단위와 음절 단위 자질의 조합이다. 확장 학습 자질로 기본 자질에서 품사 태그의 일반화와 표층형의 추상화를 통해 손실된 정보를 보완하기 위해 원형 그대로의 자질을 학습하였다. 확장 자질은 가능한 모든 조합을 학습하고 어절 단위의 형태소의 수 또는 어절의 수로 평균값을 계산하여 어절 단위의 확률을 계산하였다.The extended learning feature is not a word unit, but a combination of morpheme units and syllable unit features. As an extended learning feature, in order to supplement the lost information through the generalization of POS tags and the superficial abstraction from the basic features, the original features were learned. For the extended features, all possible combinations were learned and the average value was calculated with the number of morphemes or the number of words in the word unit, and the probability of the word unit was calculated.

표 5에 확장 학습 자질의 예를 나타냈다.Table 5 shows examples of extended learning qualities.

확장 자질 요소Expansion qualities factor [stack top word, buffer top word]: POS combination,
morpheme POS with word POS combination,
body combination,
morpheme body with word body combination,
BSP combination,
morpheme BSP with word BSP combination,
syllable combination with morpheme POS
[ stack top word, buffer top word ]: POS combination,
morpheme POS with word POS combination,
body combination,
morpheme body with word body combination,
BSP combination,
morpheme BSP with word BSP combination,
syllable combination with morpheme POS
body:형태소의 표층형
sense number: 동형이의어 번호
POS: 형태로 품사 태그
BSP: 형태소의 표층형 + 동형이의어 번호 + 품사 태그
body: surface type of morpheme
sense number: homozygous number
POS: POS tags in the form
BSP: Surface type of morpheme + homozygous number + part-of-speech tag

도 1은 본 발명의 실시 예에 따른 의미 추상화를 이용한 전이 기반 한국어 의존관계 분석 시스템의 구성도이다. 이를 보면, 분석 시스템(100)은 문장 입력 모듈(110), 형태소 분석 모듈(120), 체언 추상화 모듈(130), 의존관계 분석 모듈(140) 및 의존관계 출력모듈(150)을 포함하는 구성이다. 1 is a block diagram of a system for analyzing a transition-based Korean dependency relationship using semantic abstraction according to an embodiment of the present invention. Looking at this, the analysis system 100 is a configuration including a sentence input module 110, a morpheme analysis module 120, a body language abstraction module 130, a dependency relationship analysis module 140, and a dependency relationship output module 150. .

본 실시 예에서 문장 입력 모듈(110)은 의존관계 분석을 위한 일련의 문장이 입력되는 모듈로서, 다양한 매체를 이용할 수 있을 것이다. In the present embodiment, the sentence input module 110 is a module for inputting a series of sentences for analyzing a dependency relationship, and may use various media.

본 실시 예에서 형태소 분석 모듈(120)은, 형태소 분석기(122) 예컨대, 'UTagger'를 이용하여 입력 문장의 형태소 분석 결과와 동형이의어 분별 결과를 분석한다. 이러한 분석 결과의 예는 표 6과 같을 수 있다.In the present embodiment, the morpheme analysis module 120 analyzes the morpheme analysis result of the input sentence and the homozygous word classification result using the morpheme analyzer 122, for example,'UTagger'. Examples of such analysis results may be shown in Table 6.

입력 문장Input sentence 아름다운 영희의 동생을 보았다.I saw the beautiful younger brother of Younghee. 형태소
분석결과
morpheme
Analysis
아름답__000001/VA+ㄴ/ETM 영희/NNP+의/JKG
동생__010001/NNG+을/JKO 보__010101/VV+았/EP+다/EF+./SF
Beautiful__000001/VA+ㄴ/ETM Younghee/NNP+U/JKG
Brother__010001/NNG+/JKO Bo__010101/VV+D/EP+Da/EF+./SF

이를 보면, 형태소 분석 모듈(120)은 형태소 단위로 표층형, 동형이의의 번호, 다의어번호, 품사 태그가 부착되어 출력됨을 알 수 있고, 따라서 입력 문장의 어절 단위와 형태소 단위로 표층형과 동형이의어 번호, 품사 태그 정보를 수집하게 된다.Looking at this, it can be seen that the morpheme analysis module 120 attaches and outputs a surface type, a homogeneous objection number, a polyphonic number, and a part of speech tag in units of morphemes. The synonym number and part-of-speech tag information are collected.

본 실시 예에서 체언 추상화 모듈(130)은, 어휘 의미망(132), 예컨대 울산대학교의 'UWordMap'의 정보를 이용하여 체언류의 표층형의 추상화한 정보를 획득한다. 입력 문장의 형태소 단위의 품사 태그를 확인하여 체언류 형태소를 구분하고 체언류 형태소에 대하여 'UWordMap'에 해당 단어 정보가 있는지 확인하다.In this embodiment, the body language abstraction module 130 acquires surface-type abstraction information of the body language by using the vocabulary semantic network 132, for example, information of the'UWordMap' of Ulsan University. Identify the part-of-speech tag of the morpheme unit of the input sentence to identify the morphemes of the body language, and check whether there is information about the word in'UWordMap' for the morphemes of the body language.

이러한 확인 결과에 따라 'UWordMap'에 속하지 않는 단어에 대해서는 추상화하지 않고 정보가 있는 단어에 대하여 'UWordMap'의 단어 계층을 계산한다. 반면 해당 단어가 있으면, 동형이의어를 기준으로 추상화를 수행하므로, 동형이의어가 갖는 모든 다의어에 대하여 단어 계층을 모두 계산한다. 이는 하나의 동형이의어가 2개 이상의 다의어를 갖을 수 있기 때문이다. 그리고 모든 다의어에 대하여 설정된 추상화 레벨만큼 상위 계층 단어로 추상화하고 추상화된 단어 중 빈도가 가장 높은 단어를 해당 동형이의어의 추상화된 단어로 결정한다.According to the result of this check, the word hierarchy of'UWordMap' is calculated for words with information without abstraction for words that do not belong to'UWordMap'. On the other hand, if there is a corresponding word, abstraction is performed on the basis of the homozygous word, so all word hierarchies are calculated for all polymorphisms of the homozygous word. This is because one homozygous synonym can have two or more polymorphisms. In addition, it abstracts all polymorphisms into higher-level words as much as the set abstraction level, and determines the word with the highest frequency among the abstracted words as the abstracted word of the corresponding homozygous word.

의존관계 분석 모듈(140)은, 의존관계 학습정보 db(142)을 이용하여 상기 체언 추상화 모듈(130)에서 체언의 추상화된 표층형 정보와 학습 말뭉치로부터 학습된 자질 정보를 이용하여 의존관계를 결정한다. 그리고 의존관계 분석 모듈(140)의 분석 과정은, 한국어의 특징이 고려된 전이 기반 모델에 맞춰 입력 문장의 순서를 역순으로 입력 버퍼(buffer)에 넣고, 자질 함수를 통해 각 자질의 값을 구하여 전이(transition)을 결정한다. 그리고 전이(transition) 결정에 따라 버퍼의 모든 어절이 의존관계가 결정되어 버퍼에 존재하는 어절이 없으면 의존관계 분석을 종료하고 입력 문장의 각 어절의 지배소 어절의 어절 위치를 기록하여 의존관계 결과를 출력한다.The dependency relationship analysis module 140 determines the dependency relationship using the abstracted superficial information of the body language in the body language abstraction module 130 using the dependency relationship learning information db 142 and feature information learned from the learning corpus. do. In addition, in the analysis process of the dependency relation analysis module 140, the order of input sentences is placed in the input buffer in reverse order according to the transition-based model in which the characteristics of Korean are considered, and the value of each feature is obtained through the feature function. (transition) is determined. In addition, depending on the transition decision, all words in the buffer are dependent on dependence. If there are no words in the buffer, the dependency analysis is terminated, and the position of the dominant word of each word in the input sentence is recorded, and the dependency relationship result is recorded. Print it out.

도 2는 본 발명을 설명하기 위해 제공된 기본적인 전이 기반의 의존관계 분석모듈(dependency parser)(140)의 기본 구조이다. 도시된 바와 같이, 스택(stack)(144) 및 입력버퍼(input buffer)(145)가 구비되며, 오라클 함수로부터 전이(transition)을 수행하도록 파서(146)를 포함하고 있다. 그리고 각 단계의 전이를 결정하는 오라클 함수는 하기 수학식 1을 통해 학습 자질별 가중치가 반영된 확률의 합으로 결정한다.2 is a basic structure of a basic transition-based dependency parser 140 provided to explain the present invention. As shown, a stack 144 and an input buffer 145 are provided, and a parser 146 is included to perform a transition from an Oracle function. In addition, the Oracle function for determining the transition of each step is determined as the sum of the probabilities in which the weights for each learning feature are reflected through Equation 1 below.

Figure pat00003
Figure pat00003

여기서,

Figure pat00004
, here,
Figure pat00004
,

Figure pat00005
Figure pat00005

자질 함수 f(x)는 학습 말뭉치에서 학습된 자질의 전체 action 중 arc action의 비율에 전체 action의 절반 값을 감소시켜 0 ~ 1의 비율 범주를 0.5 ~ -0.5의 범주로 변화하였다. 따라서 arc count의 비율이 양수일 경우 arc action의 확률이 reduce action의 확률 보다 높고 음수일 경우 반대가 된다. 그리고 action의 빈도수에 따라 낮은 빈도의 확률 값은 자질들의 확률의 합에서 낮은 영향을 주기 위해 전체 action count에 로그를 취한 값을 곱하여 전이 확률을 계산하였다. 로그함수를 취할 때는 부호의 역전을 방지하기 위해 1 이상의 최솟값 α을 합한다.The feature function f(x) was changed from 0 to 1 in the range of 0.5 to -0.5 by reducing the ratio of arc action to the ratio of all actions of features learned in the learning corpus by half of the total action. Therefore, when the ratio of arc count is positive, the probability of arc action is higher than that of reduce action, and when it is negative, it is reversed. In order to have a lower effect on the sum of the probabilities of features, the probability value of low frequency according to the frequency of action is multiplied by the logarithm of the total action count to calculate the transition probability. When taking the logarithmic function, the minimum value α of 1 or more is summed to prevent sign reversal.

그리고 action의 판단은 오라클 함수의 결과값으로부터 각 자질의 가중치를 곱한 자질의 확률 값을 쌍곡선 탄젠트(hyperbolic tangent) 함수로 정규화하여 최종 값을 -1 ~ 1의 범주로 변화시켰다. 결과값이 양수일 경우 left arc action을 통해 의존관계를 결정하고 음수일 경우 reduce action으로 의존관계 아님을 결정하였다.And the decision of the action is to normalize the probability value of the feature multiplied by the weight of each feature from the result of the Oracle function with a hyperbolic tangent function, and change the final value into the range of -1 to 1. When the result value is positive, the dependency relationship is determined through the left arc action, and when the result value is negative, the dependency relationship is determined by the reduce action.

각 자질 별 가중치는 학습 말뭉치의 문장 순서를 임의의 순서로 변경하고 반복 학습하여 결정한다. 각 자질의 가중치 변경 값은 하기 수학식 2와 같이 정답 값 CA(0.5 또는 -0.5)와 oracle 결과값의 오차 값 E를 구하고 각 자질의 현재 가중치에 오차 값과 oracle 결과값의 역함수, 자질 결과의 값, 학습 비율 α를 곱하여 결정하여 오차에 대한 각 가중치의 변경 값을 결정하였다.The weight of each feature is determined by changing the sentence order of the learning corpus in a random order and learning iteratively. As for the weight change value of each feature, the correct answer value CA (0.5 or -0.5) and the error value E of the oracle result value are calculated as shown in Equation 2 below. It was determined by multiplying the value and the learning ratio α to determine the change value of each weight for the error.

Figure pat00006
Figure pat00006

Figure pat00007
Figure pat00007

한편, 본 실시 예에는 한국어의 지배소 후위 원칙을 고려한 수정된 backward arc-eager 알고리즘을 사용하여 전이 기반 의존관계를 분석하였다. 따라서 표 7과 같이 기본 arc-eager 알고리즘에서 right-arc, shift transition이 제거되고 left-arc transition에서 stack의 어절을 제거하지 않고 buffer로 이동시킨다.Meanwhile, in this embodiment, the transfer-based dependency relationship was analyzed using a modified backward arc-eager algorithm that considers the dominant post-secondary principle of Korean. Therefore, as shown in Table 7, the right-arc and shift transition are removed from the basic arc-eager algorithm, and the left-arc transition is moved to the buffer without removing the word of the stack.

Figure pat00008
Figure pat00008

그리고 상기 backward arc-eager 알고리즘을 사용하기 위해서는 입력 문장

Figure pat00009
Figure pat00010
와 같이 역순으로 변경해야 할 것이고, 표 8과 같이 나타낼 수 있다.And in order to use the backward arc-eager algorithm, the input sentence
Figure pat00009
of
Figure pat00010
It will have to be changed in the reverse order as shown in Table 8.

입력 버퍼Input buffer 입력 버퍼Input buffer [0][0] [1][One] [2][2]

[0][0] [1][One] [2][2]
나는 I 밥을 rice 먹었다.ate. 먹었다.ate. 밥을 rice 나는I

다음에는 본 발명의 성능 평가에 대하여 살펴본다. 성능 평가는 표층형 추상화 레벨에 따른 학습 자질의 재현율과 정확률을 분석하였고, 기본자질 성능, 확장자질 성능 등을 분석하였다.Next, it looks at the performance evaluation of the present invention. The performance evaluation analyzed the reproducibility and accuracy of learning features according to the superficial abstraction level, and analyzed basic feature performance and extension quality performance.

성능 평가를 위해 본 실시 예에서, 실험 및 학습에 사용된 말뭉치는 21세기 세종 계획 구문 분석 말뭉치를 의존 문법으로 변환한 말뭉치를 사용하였고 동형이의어 태그를 추가로 부착하여 사용하였다. 또한 의존관계 라벨은 사용하지 않고 구문 분석 시 의존관계의 분석만을 진행하였다. 따라서 정확률 평가에서는 UAS(unlabeled attachment score) 평가만 수행한다. 의존관계 분석의 정확률 외에 학습 자질에 따른 학습 속도와 테스트 속도 또한 함께 평가하여 의존관계 정확률과 속도를 함께 성능 평가하였다. For the performance evaluation, in this example, the corpus used in the experiment and learning used the corpus converted from the 21st century Sejong Plan syntax analysis corpus into the dependent grammar, and was used by attaching an additional homozygous tag. In addition, the dependency relations label was not used and only the dependency relations were analyzed during the syntax analysis. Therefore, in the accuracy rate evaluation, only UAS (unlabeled attachment score) evaluation is performed. In addition to the accuracy rate of the dependence analysis, the learning speed and test speed according to the learning qualities were also evaluated, and the dependence accuracy and speed were also evaluated.

또 상기 말뭉치는 띄어쓰기 오류로 인한 어절 수가 불일치하는 문장과 교차 지배관계가 있는 문장, 문장 중간에 자기 순환 지배관계 어절이 포함된 문장 등을 대상에서 제외하였다. 정제된 문장은 57,265문장으로 총 561,645 어절로 구성되어 있다. 성능 평가는 10-fold cross-validation 방법으로 전체 말뭉치의 10%를 테스트 대상으로 하고 나머지를 학습하는 과정을 반복하였다. 의존관계 정확률은 하기 수학식 3과 같이 전체 말뭉치에서 올바르게 분석된 의존관계 어절 수를 전체 어절 수로 나누어 계산하였다. In addition, the corpus excluded sentences with a mismatch in the number of words due to a spacing error, sentences with cross dominant relationships, and sentences with self-circulating dominant words in the middle of the sentences. The refined sentences consist of 57,265 sentences, and a total of 561,645 words. For the performance evaluation, 10% of the entire corpus was tested using a 10-fold cross-validation method, and the process of learning the rest was repeated. The dependence relationship accuracy rate was calculated by dividing the number of dependent relationship words correctly analyzed in the entire corpus by the total number of words as shown in Equation 3 below.

Figure pat00011
Figure pat00011

그리고 자질의 정확률은 하기 수학식 4와 같이 의존관계 결정에 자질이 사용될 경우 자질의 의존관계 정확률을 판단하기 위해 정답 의존관계 결정을 위한 transition과 같은 자질의 transition 결정 수를 자질의 재현 횟수로 나누어 계산하였다.And the accuracy rate of the feature is calculated by dividing the number of transition decisions of the feature, such as the transition for determining the dependence relationship, by the number of reproductions of the feature in order to determine the accuracy of the dependency relationship of the feature when the feature is used to determine the dependency relationship as shown in Equation 4 below. I did.

Figure pat00012
Figure pat00012

한편, 실험을 수행한 시스템 환경은 표 9와 같다.Meanwhile, the system environment in which the experiment was performed is shown in Table 9.

운영체제operating system Windows 10Windows 10 CPUCPU Intel®Core™i7-5820K @ 3.30 GHzIntel®Core™i7-5820K @ 3.30 GHz RAMRAM 32 GB32 GB 개발 언어 및 도구Development language and tools C#, .Net Framework 4.5.2, Visual Studio 2017C#, .Net Framework 4.5.2, Visual Studio 2017

이와 같은 시스템을 통한 성능 실험결과에 대해 설명한다. The results of performance experiments through such a system will be described.

첫 번째로, 어휘의 의미적 추상화 성능 실험결과이다. 학습 말뭉치에서 학습 자질로 표층형의 정보만을 학습하여 의존관계 분석을 수행하면, 표층형 추상화 레벨에 따른 학습 자질의 재현율과 정확율을 비교할 수 있다. First, it is the experimental result of semantic abstraction performance of vocabulary. If dependency analysis is performed by learning only superficial information as a learning feature in the learning corpus, it is possible to compare the reproducibility and accuracy of the learning features according to the superficial abstraction level.

비교결과, 자질의 사용률에 따라 의존관계 분석 정확률이 비례적으로 증가하였고 추상화 정도에 따라 반비례 관계로 자질 정확률은 하락하였음을 알 수 있었다. 예를 들어 표 10과 같이 체언의 표층형을 UWordMap의 단위 계층 1레벨로 추상화할 경우 손실된 정보로 인해 표층형 자질의 정확률은 2.92% 감소하지만 자질의 재현율이 36.75% 상승하여 결과적으로 의존관계 정확률은 7.55%가 향상되었다.As a result of comparison, it was found that the dependence analysis accuracy rate increased proportionally according to the use rate of the feature, and the feature accuracy rate decreased due to the inverse relationship with the degree of abstraction. For example, as shown in Table 10, when abstracting the surface type of Cheon to the unit layer 1 level of UWordMap, the accuracy rate of the surface type feature decreases by 2.92% due to the lost information, but the recall rate of the feature increases by 36.75%. The silver was improved by 7.55%.

의존관계 정확률Dependency accuracy rate 표층형 자질 재현율Surface feature recall 자질의 정확률Quality accuracy 원문 표층형Original text 73.95%73.95% 18.33%18.33% 98.26%98.26% abstraction 1 levelabstraction 1 level 81.50%81.50% 55.08%55.08% 93.34%93.34% +7.55%+7.55% +36.75%+36.75% -2.92%-2.92%

도 3은 본 발명의 실험 결과에서 체언 추상화 단계별 정확률 및 사용률의 변화를 나타낸 도면이다. 이를 보면, 추상화 단계가 진행될 수록 자질 정확률은 다소 올라가지만 의존관계 정확률과 자질 재현율은 감소하고 있음을 알 수 있다. 3 is a diagram showing a change in the accuracy rate and the usage rate for each step of body language abstraction in the experimental result of the present invention. From this, it can be seen that as the abstraction step progresses, the feature accuracy rate slightly increases, but the dependency relationship accuracy rate and feature recall rate decrease.

체언의 추상화 방법은 UWordMap의 단어 계층을 기준으로 상대적으로 추상화하였고 추상화 단계가 최고 단계를 초과하는 경우 처리 방법에 따라 두 가지 방법으로 나눌 수 있다. 만약 추상화 단계가 UWordMap의 최상위 단계 이상이 될 경우 root 노드(UWIN) 아래의 1계층 단어로 추상화하는 '범위 초과 시 1단계 추상화 방법'과 추상화를 하지 않고 원형을 그대로 사용하는 '범위 초과 시 원형 사용 방법'이 있다.Cheon's abstraction method is relatively abstracted based on the word layer of UWordMap, and when the abstraction level exceeds the highest level, it can be divided into two methods according to the processing method. If the abstraction level is higher than the highest level of UWordMap, the '1st level abstraction method when the range is exceeded' is abstracted with the word 1 layer under the root node (UWIN), and'when the range is exceeded, the prototype is used as it is without abstraction. There's a way.

추상화 단계 처리 방법에 따른 의존관계 정확률 및 자질의 재현율은 범위를 초과할 경우, 도 4 내지 도 6에 도시한 바와 같이 최상위 아래 단어로 추상화하는 방법은 추상화 단계에 따라 자질의 재현율과 의존관계 정확률은 비례 관계이고 자질 정확률은 반비례 관계를 보였다. When the dependence accuracy rate and the feature reproducibility according to the abstraction step processing method exceed the range, the method of abstracting with the lowermost word as shown in Figs. 4 to 6 is the reproducibility of the feature and the dependence accuracy rate according to the abstraction step. The relationship was proportional, and the quality accuracy was inversely proportional.

그리고 '범위 초과 시 원형 사용 방법'은 도 7 내지 도 9에 도시한 바와 같이 추상화 레벨이 증가함에 따라 최상위 단계를 초과하여 추상화되지 않는 단어가 증가하고 있어 의존 관계 정확률 및 자질 재현율은 상승 후 감소하는 패턴을 보인다.In addition, as shown in Figs. 7 to 9, the'method of using prototypes when the range is exceeded' increases the number of words that are not abstracted beyond the highest level as the level of abstraction increases, so that the dependence accuracy and feature reproducibility decrease after increasing. Shows the pattern.

두 번째, 기본 자질 성능 평가이다.The second is the evaluation of basic quality performance.

기본 자질을 이용하여 의존관계 정확률, 처리 속도, 학습 속도 등을 계산하고 10-fold cross validation을 통한 평균값으로 성능을 평가한다. 표 11과 같이 규칙 기반 방법으로 구축된 의존관계 분석기를 대상으로 의존관계 정확률과 처리 속도를 함께 비교하였다. 두 모델 모두 안정된 정확률과 처리 속도를 보였고 규칙 기반 모델보다 학습 기반의 제안 모델이 의존관계 정확률과 처리 속도 모두 향상된 것을 보여준다.Calculate dependence accuracy, processing speed, learning speed, etc. using basic features, and evaluate the performance with the average value through 10-fold cross validation. As shown in Table 11, the dependency accuracy rate and processing speed were compared with the dependency relationship analyzer constructed by the rule-based method. Both models showed stable accuracy rate and processing speed, and it was shown that the proposed model based on learning improved both the accuracy rate and the processing speed of the dependency relationship compared to the rule based model.

10-fold index10-fold index 전이 기반 제안 시스템Transition-based proposal system 규칙 기반 분석기Rule-based analyzer 정확률 (%)Accuracy (%) 처리속도(sec)Processing speed (sec) 학습속도(sec)Learning speed (sec) 정확율(%)Accuracy (%) 처리속도(sec)Processing speed (sec) 1One 90.6290.62 5.507 5.507 41.110 41.110 88.2388.23 14.653 14.653 22 90.2690.26 7.4397.439 39.73139.731 88.2088.20 12.10312.103 33 90.3790.37 5.5895.589 40.60640.606 88.4388.43 9.3219.321 44 90.5490.54 6.6716.671 41.61241.612 88.2188.21 11.33611.336 55 90.5790.57 5.3145.314 39.23539.235 88.6688.66 11.48811.488 66 90.2790.27 5.2825.282 38.33538.335 88.5088.50 11.24011.240 77 90.3290.32 5.3635.363 40.55640.556 88.5388.53 11.13911.139 88 90.3790.37 5.3625.362 38.83038.830 88.0788.07 9.0739.073 99 90.5090.50 5.2675.267 40.31540.315 88.1388.13 11.23411.234 1010 90.4490.44 5.3865.386 38.02938.029 88.4888.48 11.34811.348 평균Average 90.4390.43 5.7185.718 39.83639.836 88.3488.34 11.29311.293 +2.09+2.09 -5.575
(-97.5%)
-5.575
(-97.5%)

그리고 자질 별로 재현율과 정확률을 비교하면 표 12와 같이 일반화된 품사 태그 자질(generalized POS)이 가장 높은 재현율을 보였고 표층형과 동형이의어 번호, 품사 태그 합 자질(BSP)이 가장 높은 정확률을 보여준다. In addition, when comparing the reproducibility and accuracy rate for each feature, as shown in Table 12, the generalized POS tag features the highest recall, and the surface type, homologue number, and POS tag sum feature (BSP) show the highest accuracy rate.

자질 종류Qualities type 재현율Recall 정확율Accuracy rate generalized POSgeneralized POS 98.87%98.87% 91.49%91.49% bodybody 14.97%14.97% 94.64%94.64% abstracted bodyabstracted body 19.14%19.14% 94.10%94.10% BSPBSP 14.71%14.71% 94.96%94.96% stack first morpheme BSP + buffer POSstack first morpheme BSP + buffer POS 20.63%20.63% 94.05%94.05% stack POS + count of verb between buffer top.stack POS + count of verb between buffer top. 98.76%98.76% 91.69%91.69% (stack prev, stack top) POS(stack prev, stack top) POS 97.33%97.33% 91.76%91.76% (stack top, stack next) POS(stack top, stack next) POS 82.81%82.81% 90.87%90.87% (stack top, stack gov) POS(stack top, stack gov) POS 83.48%83.48% 90.95%90.95% (buffer prev, buffer top) POS(buffer prev, buffer top) POS 79.67%79.67% 91.82%91.82%

세 번째, 확장자질 성능 평가에 대해 살펴본다. Third, look at the evaluation of extension quality performance.

확장 자질은 기본 자질에 확장 자질을 추가하여 성능 평가를 수행하였다. 확장 자질은 형태소 단위 조합과 음절 단위 조합 각각을 비교하고 모든 조합 자질을 사용하여 성능을 평가하였다. 형태소 단위 조합 자질, 음절 단위 조합 자질 모두 정확률에 향상이 있었으나 향상률은 크지 않았다. 확장 자질의 조합은 가능한 모든 조합에 대하여 학습하였다. 형태소 단위 또는 음절 단위 자질의 자질 함수의 값은 모든 조합의 결과의 값을 합하여 buffer top 어절의 자질 수로 나누어 어절의 자질 함수의 값을 계산하였다.As for the extended features, the performance evaluation was performed by adding the extended features to the basic features. As for the extended features, the morpheme unit combination and the syllable unit combination were compared, and the performance was evaluated using all the combination features. Both the morpheme unit combination feature and the syllable unit combination feature improved the accuracy rate, but the improvement rate was not significant. Combinations of extended features were learned for all possible combinations. The value of the feature function of the feature in the morpheme unit or the syllable unit was calculated by summing the results of all combinations and dividing it by the feature number of the buffer top word.

다음 수학식 5는 확장 자질의 어절 자질 계산 수학식이고, 표 13은 확장 자질 사용에 따른 성능 비교 표이다. The following Equation 5 is an equation for calculating word quality of extended features, and Table 13 is a performance comparison table according to the use of extended features.

Figure pat00013
Figure pat00013

10-fold index10-fold index 기본 자질 + 형태소 단위 조합 자질Basic qualities + morpheme unit combination qualities 기본 자질 + 음절 단위 조합 자질Basic qualities + syllable unit combination qualities 정확율(%)Accuracy (%) 처리속도
(sec)
Processing speed
(sec)
학습속도
(sec)
Learning speed
(sec)
정확율(%)Accuracy (%) 처리속도
(sec)
Processing speed
(sec)
학습속도
(sec)
Learning speed
(sec)
1One 90.9890.98 8.498.49 73.3873.38 90.9090.90 6.006.00 48.4948.49 22 90.5790.57 8.328.32 80.0580.05 90.5290.52 5.655.65 50.4250.42 33 90.6390.63 8.528.52 78.9978.99 90.5490.54 5.575.57 47.7847.78 44 90.8690.86 8.378.37 80.6380.63 90.7790.77 5.515.51 49.5449.54 55 90.8090.80 8.478.47 83.1283.12 90.7590.75 5.605.60 47.9547.95 66 90.5490.54 8.838.83 81.0981.09 90.4990.49 5.605.60 48.3348.33 77 90.6390.63 8.548.54 81.5581.55 90.6290.62 5.685.68 46.4546.45 88 90.6590.65 8.608.60 82.4882.48 90.5690.56 5.695.69 50.1350.13 99 90.8390.83 8.688.68 80.4480.44 90.6990.69 7.717.71 48.4548.45 1010 90.7690.76 11.1111.11 77.9077.90 90.7090.70 5.775.77 49.1249.12 평균Average 90.7390.73 8.798.79 80.4680.46 90.6590.65 5.885.88 48.6748.67 +0.30+0.30 +3.08sec
(+53.8%)
+3.08sec
(+53.8%)
+40.63sec
(+101.98%)
+40.63sec
(+101.98%)
+0.23%+0.23% +0.16sec
(+2.78%)
+0.16sec
(+2.78%)
+8.83sec
(+22.16%)
+8.83sec
(+22.16%)

반면, 표 14의 확장 자질별 성능을 참고하여 확장자질의 재현율과 정확율을 살펴보면, 기본 자질에 비해 높은 재현율을 보이지만 정확율은 떨어짐을 알 수 있다. On the other hand, when looking at the reproducibility and accuracy rate of the extension quality by referring to the performance of each extension feature in Table 14, it can be seen that the reproducibility rate is higher than that of the basic feature, but the accuracy rate is lower.

자질 종류Qualities type 재현율(%)Recall (%) 정확율(%)Accuracy (%) syllable combination with morpheme POSsyllable combination with morpheme POS 90.3090.30 82.1382.13 morpheme POS combinationmorpheme POS combination 99.9999.99 82.1982.19 morpheme POS with word POSmorpheme POS with word POS 98.5898.58 82.8782.87 morpheme body combinationmorpheme body combination 71.4271.42 82.5282.52 morpheme body with word bodymorpheme body with word body 71.4271.42 88.6288.62 morpheme BSP combinationmorpheme BSP combination 68.8468.84 90.9490.94 morpheme BSP with word BSPmorpheme BSP with word BSP 14.8214.82 90.9390.93 morpheme BSP with word POSmorpheme BSP with word POS 83.5683.56 86.0586.05

그리고 표 15의 통합자질 사용 성능을 살펴보면, 형태소 자질과 음절 자질을 모두 사용할 경우 가장 높은 의존관계 정확률을 보이나 향상률을 높지 않게 나타났다.In addition, looking at the performance of using the integrated features in Table 15, when both morpheme features and syllable features are used, the highest dependence accuracy rate is shown, but the improvement rate is not high.

10-fold index10-fold index 기본 자질 + 형태소 조합 자질 + 음절 자질Basic qualities + morpheme combination qualities + syllable qualities 의존관계 정확율(%)Dependency accuracy rate (%) 처리속도(sec)Processing speed (sec) 학습속도(sec)Learning speed (sec) 1One 91.0191.01 9.379.37 94.0094.00 22 90.5990.59 9.009.00 94.6894.68 33 90.6290.62 9.059.05 91.1691.16 44 90.8790.87 8.888.88 90.9390.93 55 90.8090.80 9.059.05 91.1491.14 66 90.5890.58 8.968.96 90.1390.13 77 90.7190.71 8.938.93 91.1891.18 88 90.6990.69 9.109.10 90.9690.96 99 90.8490.84 9.069.06 91.1391.13 1010 90.8390.83 9.339.33 91.2491.24 평균Average 90.7590.75 9.079.07 91.6691.66 +0.33%+0.33% +3.35sec(+58.66%)+3.35sec(+58.66%) +51.82sec(+130.08%)+51.82sec(+130.08%)

표 16을 자질 사용에 다른 성능 비교결과이다. 자질 선택에 따른 의존관계 정확률, 학습 및 처리 속도를 비교하여 보았다. 기본 자질은 정확률은 가장 낮았지만 속도 면에서 가장 짧은 시간을 소요하였다. 가장 높은 정확률은 모든 자질을 사용한 통합 자질이고 속도는 가장 느리다는 것을 알 수 있다.Table 16 shows the performance comparison results for different features. We compared the dependence accuracy rate, learning and processing speed according to the feature selection. The basic qualities had the lowest accuracy, but took the shortest time in terms of speed. It can be seen that the highest accuracy rate is the integration feature using all features and the speed is the slowest.

사용 자질Qualities of use 의존관계 정확율(%)Dependency accuracy rate (%) 처리속도(sec)Processing speed (sec) 학습속도(sec)Learning speed (sec) 기본자질Basic qualities 90.4690.46 5.725.72 39.8439.84 기본+음절자질Basic + syllable quality 90.6590.65 5.885.88 48.6748.67 기본+형태소 자질Basic + morpheme quality 90.7390.73 8.798.79 80.4680.46 통합자질Integrated qualities 90.7590.75 9.079.07 91.6691.66

상기 표 16의 사용 자질에 따른 정확률, 처리속도, 학습속도의 비교를 위한 그래프는 도 10 및 도 11에 도시하였다.Graphs for comparing the accuracy rate, processing speed, and learning speed according to the use features of Table 16 are shown in FIGS. 10 and 11.

이와 같이 본 발명은 어휘 의미망을 활용하여 명사의 표층형을 추상화한 다음 자질로 사용하는 의존관계 분석 시스템을 제안하여, 종래 의존관계 분석방법들에 비해 정확률, 학습속도, 처리속도 등을 개선하였음을 알 수 있다. 그리고 이러한 본 발명은 자동 번역기, 챗봇, 자동 Q&A 등 다양한 프로그램에 응용할 수 있을 것이다. As described above, the present invention proposes a dependency relationship analysis system that abstracts the surface form of a noun by using a vocabulary semantic network and then uses it as a feature, and improves accuracy, learning speed, and processing speed compared to conventional dependency analysis methods. Can be seen. In addition, the present invention may be applied to various programs such as automatic translators, chatbots, and automatic Q&A.

이상과 같이 본 발명의 도시된 실시 예를 참고하여 설명하고 있으나, 이는 예시적인 것들에 불과하며, 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자라면 본 발명의 요지 및 범위에 벗어나지 않으면서도 다양한 변형, 변경 및 균등한 타 실시 예들이 가능하다는 것을 명백하게 알 수 있을 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 청구범위의 기술적인 사상에 의해 정해져야 할 것이다. Although it has been described with reference to the illustrated embodiments of the present invention as described above, these are only exemplary, and those of ordinary skill in the art to which the present invention pertains, without departing from the spirit and scope of the present invention, various It will be apparent that variations, modifications and other equivalent embodiments are possible. Therefore, the true technical protection scope of the present invention should be determined by the technical spirit of the appended claims.

110: 문장 입력 모듈
120: 형태소 분석 모듈
122: 형태소 분석기
130: 체언 추상화 모듈
132: 어휘 의미망
140: 의존 관계 분석 모듈
142: 의존 관계 학습정보 DB
150: 의존 관계 출력 모듈
110: sentence input module
120: morpheme analysis module
122: morpheme analyzer
130: Cheon abstraction module
132: Vocabulary Semantic Network
140: dependency analysis module
142: dependency relationship learning information DB
150: dependency output module

Claims (13)

입력된 문장의 형태소를 분석하는 형태소 분석모듈;
분석된 형태소 정보에서 체언류의 표층형의 추상화된 정보를 데이터베이스로부터 획득하는 체언 추상화 모듈; 및
상기 체언의 추상화된 표층형 정보와 학습 말뭉치로부터 학습된 자질 정보를 이용하여 어절 간 의존관계를 분석하는 의존관계 분석 모듈을 포함하는 전이 기반 한국어 의존관계 분석 시스템.
A morpheme analysis module that analyzes the morpheme of the input sentence;
A body language abstraction module for acquiring surface-layered abstracted information of body language from the analyzed morpheme information from a database; And
Transition-based Korean dependency analysis system comprising a dependency relationship analysis module that analyzes dependence between words using abstracted superficial information of the body language and feature information learned from the learning corpus.
제 1 항에 있어서,
상기 형태소 분석모듈은,
상기 입력된 문장의 형태소 분석 결과와 동형이의어 분별 결과를 제공하며,
상기 형태소 분석결과는 형태소 단위로 표층형, 동형이의어 번호, 다의어 번호, 품사 태그가 부착되어 출력되고,
상기 분석결과로부터 입력 문장의 어절 단위와 형태소 단위로 표층형과 동형이의어 번호, 품사 태그 정보를 수집하는 의미 추상화를 이용한 전이 기반 한국어 의존관계 분석 시스템.
The method of claim 1,
The morpheme analysis module,
Provides a result of morpheme analysis of the input sentence and a result of discrimination of homozygous,
The result of the morpheme analysis is output by attaching a surface layer type, a homozygous word number, a polyphonic word number, and a part-of-speech tag in units of morphemes,
Transition-based Korean dependence analysis system using semantic abstraction that collects superficial and homozygous numbers and parts of speech tag information in units of words and morphemes of input sentences from the analysis result.
제 1 항에 있어서,
상기 체언 추상화 모듈은,
어휘 의미망을 활용하여 명사의 표층형을 추상화하여 자질로 사용하며,
상기 어휘 의미망은 명사의 계층 구조를 트리 구조로 제공하며, 상위어 정보를 통해 명사의 표층형 정보를 추상화하는 전이 기반 한국어 의존관계 분석 시스템.
The method of claim 1,
The Cheon abstraction module,
Using the vocabulary semantic network, abstract the superficial form of nouns and use them as features,
The vocabulary semantic network provides a hierarchical structure of nouns in a tree structure, and a transition-based Korean dependency analysis system that abstracts superficial information of nouns through upper language information.
제 3 항에 있어서,
상기 표층형의 추상화는,
학습 말뭉치를 동형이의어로 분별하였고, 동형이의어로 분별된 정보를 기초로 어휘 의미망의 단어 계층에 따라 명사를 추상화하는 전이 기반 한국어 의존관계 분석 시스템.
The method of claim 3,
The superficial abstraction,
A transfer-based Korean dependency analysis system that identifies learning corpus as homozygous and abstracts nouns according to the word hierarchy of the vocabulary semantic network based on the information identified by the homozygous language.
제 4 항에 있어서,
상기 명사의 표층형 추상화는, 표층형 자질, 추상화 자질을 포함한 어절단위 자질의 기본자질, 형태소 단위 및 음절 단위 확장 자질을 모두 학습하는 전이 기반 한국어 의존관계 분석 시스템.
The method of claim 4,
The superficial abstraction of the noun is a transition-based Korean dependence analysis system that learns all of the basic features of the word unit features including the superficial features and the abstract features, morpheme units and syllable unit extension features.
제 3 항에 있어서,
상기 체언 추상화 모듈은,
입력 문장의 형태소 단위의 품사 태그를 확인하여 체언류 형태소를 구분하고,
체언류 형태소에 대하여 상기 어휘 의미망에 해당 단어 정보가 있는지 확인하고,
상기 어휘 의미망에 없는 단어는 추상화하지 않고 정보가 있는 단어는 어휘 의미망의 단어 계층을 계산하고,
상기 동형이의어를 기준으로 동형이의어가 갖는 모든 다의어에 대하여 단어 계층을 모두 계산하고,
계산된 모든 다의어에 대하여 설정된 추상화 레벨만큼 상위 계층 단어로 추상화하며,
추상화된 단어 중 빈도가 가장 높은 단어를 해당 동형이의어의 추상화된 단어로 결정하는 전이 기반 한국어 의존관계 분석 시스템.
The method of claim 3,
The Cheon abstraction module,
Identify the parts of speech tag in the morpheme unit of the input sentence to identify the morphemes of body language,
Check whether there is information about the word in the vocabulary semantic network for the body morpheme,
Words that are not in the vocabulary semantic network are not abstracted, and words with information calculate the word hierarchy of the vocabulary semantic network,
All word hierarchies are calculated for all polymorphic words of the homozygous based on the homozygous synonym,
Abstracts all calculated multi-words into higher layer words as much as the set abstraction level,
Transition-based Korean dependency analysis system that determines the word with the highest frequency among abstracted words as abstracted words of the corresponding homologous word.
제 6 항에 있어서,
상기 체언 추상화 모듈은,
추상화의 단계가 최고 단계를 초과하는 경우, 추상화 단계가 어휘 의미망의 최상위 단계 이상이 되면 root 노드 아래의 1계층 단어로 추상화하는 제1 방법과, 추상화를 하지 않고 원형을 그대로 사용하는 제2 방법 중 하나에 의해 수행되는 전이 기반 한국어 의존관계 분석 시스템.
The method of claim 6,
The Cheon abstraction module,
When the level of abstraction exceeds the highest level, when the level of abstraction is higher than the highest level of the vocabulary semantic network, the first method of abstracting with a layer 1 word under the root node, and the second method of using the original as it is without abstraction. Transition-based Korean language dependency analysis system performed by one of the.
제 1 항에 있어서,
상기 의존관계 분석모듈은,
한국어의 특징이 고려된 전이 기반 모델에 맞춰 입력 문장의 순서를 역순으로 입력 버퍼에 입력하고,
자질 함수를 통해 각 자질의 값을 구하여 전이(transition)을 결정하며,
상기 전이결정에 따라 상기 입력 버퍼의 모든 어절이 의존관계가 결정되어 입력 버퍼에 존재하는 어절이 없으면 의존관계 분석을 종료하고 입력 문장의 각 어절의 지배소 어절의 어절 위치를 기록하여 의존관계 결과를 출력하는 전이 기반 한국어 의존관계 분석 시스템.
The method of claim 1,
The dependency relationship analysis module,
The order of the input sentences is input into the input buffer in reverse order according to the transition-based model considering the characteristics of Korean,
The transition is determined by obtaining the value of each feature through the feature function,
According to the transfer decision, all words in the input buffer are dependent on the relationship. If there is no word in the input buffer, the dependency relationship analysis is terminated, and the position of the dominant word of each word in the input sentence is recorded to determine the dependency relationship result. Transition-based Korean language dependency analysis system for output.
제 8 항에 있어서,
상기 의존관계 분석에 따른 기본 자질 성능 평가에서, 일반화된 품사 태그 자질(generalized POS)이 가장 높은 재현율을 제공하며, 표층형과 동형 이의의 번호, 품사 태그 합 자질(BPS)이 가장 높은 정확율을 제공하는 전이 기반 한국어 의존관계 분석 시스템.
The method of claim 8,
In the evaluation of basic feature performance according to the dependence analysis, the generalized POS tag feature provides the highest reproducibility, and the surface type and homogeneous objection number, and the POS tag sum feature (BPS) provide the highest accuracy rate. Transition-based Korean dependency analysis system.
제 8 항에 있어서,
상기 의존관계 분석에 따른 확장 자질 성능 평가에서, 확장 자질의 재현율과 정확률은 상기 기본 자질에 비해 재현율은 높고, 정확률이 낮은 전이 기반 한국어 의존관계 분석 시스템.
The method of claim 8,
In the evaluation of the extended feature performance according to the dependency analysis, the reproducibility and accuracy of the extended feature are higher than the basic feature, and the accuracy rate is low.
제 8 항에 있어서,
상기 의존관계 분석에 따른 확장 자질 성능 평가에서, 형태소 자질과 음절 자질을 모두 사용한 경우가 가장 높은 의존관계 정확율을 제공하는 전이 기반 한국어 의존관계 분석 시스템.
The method of claim 8,
In the case of using both morpheme features and syllable features in the evaluation of extended feature performance according to the dependency relationship analysis, a transition-based Korean dependency relationship analysis system that provides the highest dependency relationship accuracy rate.
제 1 항에 있어서,
상기 의존관계 분석 모듈의 분석방법은,
한국어의 지배소 후위 원칙을 이용한 수정된 backward arc-eager 알고리즘을 사용하여 전이 기반 의존관계를 분석하고,
상기 수정된 backward arc-eager 알고리즘은 기본 arc-eager 알고리즘에서 right-arc, shift transition은 제거되고 left-arc transition에서 stack의 어절을 제거하지 않고 buffer로 이동시키는 방법으로 분석하는 전이 기반 한국어 의존관계 분석 시스템.
The method of claim 1,
The analysis method of the dependency relationship analysis module,
Transition-based dependency is analyzed using the modified backward arc-eager algorithm using the Korean dominant postfix principle,
In the modified backward arc-eager algorithm, the right-arc and shift transitions are removed from the basic arc-eager algorithm, and the left-arc transition is analyzed by moving to the buffer without removing the word of the stack. system.
제 12 항에 있어서,
상기 의존관계 분석에 따른 의존관계정확률 및 자질 정확률은 다음 식에 의해 계산되는 전이 기반 한국어 의존관계 분석 시스템.
Figure pat00014
,
Figure pat00015
The method of claim 12,
Transition-based Korean dependence analysis system in which the dependence relationship accuracy rate and the feature accuracy rate according to the dependency relationship analysis are calculated by the following equation.
Figure pat00014
,
Figure pat00015
KR1020190160737A 2019-08-23 2019-12-05 Transition-based Korean Dependency Analysis System Using Semantic Abstraction KR102339487B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190103819 2019-08-23
KR20190103819 2019-08-23

Publications (2)

Publication Number Publication Date
KR20210023640A true KR20210023640A (en) 2021-03-04
KR102339487B1 KR102339487B1 (en) 2021-12-15

Family

ID=75174672

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190160737A KR102339487B1 (en) 2019-08-23 2019-12-05 Transition-based Korean Dependency Analysis System Using Semantic Abstraction

Country Status (1)

Country Link
KR (1) KR102339487B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780008A (en) * 2021-11-15 2021-12-10 腾讯科技(深圳)有限公司 Method, device, equipment and storage medium for determining target words in description text

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101072460B1 (en) * 2010-08-11 2011-10-11 충북대학교 산학협력단 Method for korean morphological analysis
KR20140056753A (en) * 2012-10-31 2014-05-12 에스케이플래닛 주식회사 Apparatus and method for syntactic parsing based on syntactic preprocessing
JP2016091269A (en) * 2014-11-04 2016-05-23 株式会社東芝 Foreign-language sentence generation support apparatus, method and program
KR101799681B1 (en) * 2016-06-15 2017-11-20 울산대학교 산학협력단 Apparatus and method for disambiguating homograph word sense using lexical semantic network and word embedding
KR20210058701A (en) * 2019-11-13 2021-05-24 서강대학교산학협력단 System and method for dependent parsing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101072460B1 (en) * 2010-08-11 2011-10-11 충북대학교 산학협력단 Method for korean morphological analysis
KR20140056753A (en) * 2012-10-31 2014-05-12 에스케이플래닛 주식회사 Apparatus and method for syntactic parsing based on syntactic preprocessing
JP2016091269A (en) * 2014-11-04 2016-05-23 株式会社東芝 Foreign-language sentence generation support apparatus, method and program
KR101799681B1 (en) * 2016-06-15 2017-11-20 울산대학교 산학협력단 Apparatus and method for disambiguating homograph word sense using lexical semantic network and word embedding
KR20210058701A (en) * 2019-11-13 2021-05-24 서강대학교산학협력단 System and method for dependent parsing

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
신준철 외 1명, "한국어 품사 및 동형이의어 태깅을 위한 단계별 전이모델, 정보과학회논문지 : 소프트웨어 및 응용 39(11),2012.11.30., pp889-901. 1부.* *
하태빈 외 1명, "CoNLL-U 말뭉치를 이용한 전이기반 한국어 의존구문분석", 컴퓨터정보통신연구 제25권 제1호, 2017.11.30., pp.21-24. 1부.* *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780008A (en) * 2021-11-15 2021-12-10 腾讯科技(深圳)有限公司 Method, device, equipment and storage medium for determining target words in description text
CN113780008B (en) * 2021-11-15 2022-03-04 腾讯科技(深圳)有限公司 Method, device, equipment and storage medium for determining target words in description text

Also Published As

Publication number Publication date
KR102339487B1 (en) 2021-12-15

Similar Documents

Publication Publication Date Title
CN107229610B (en) A kind of analysis method and device of affection data
RU2665239C2 (en) Named entities from the text automatic extraction
US9495358B2 (en) Cross-language text clustering
US9588958B2 (en) Cross-language text classification
Yildiz et al. A morphology-aware network for morphological disambiguation
CN111626042B (en) Reference digestion method and device
Pogorilyy et al. Coreference resolution method using a convolutional neural network
CN111339772B (en) Russian text emotion analysis method, electronic device and storage medium
Abka Evaluating the use of word embeddings for part-of-speech tagging in Bahasa Indonesia
Lauridsen et al. SENTIDA: A new tool for sentiment analysis in Danish
Bahgat et al. LIWC-UD: classifying online slang terms into LIWC categories
Upadhyay et al. Hopeful_men@ lt-edi-eacl2021: Hope speech detection using indic transliteration and transformers
CN109977391B (en) Information extraction method and device for text data
KR102339487B1 (en) Transition-based Korean Dependency Analysis System Using Semantic Abstraction
Selamat Improved N-grams approach for web page language identification
Lakshmana Pandian et al. Morpheme based language model for tamil part-of-speech tagging
Sheng et al. Chinese prosodic phrasing with extended features
Wang et al. A comparison of two text representations for sentiment analysis
Zhang et al. Combining the attention network and semantic representation for Chinese verb metaphor identification
Ananth et al. Grammatical tagging for the Kannada text documents using hybrid bidirectional long-short term memory model
KR102042991B1 (en) Apparatus for tokenizing based on korean affix and method thereof
Baloochian et al. Clustering-Based Text Improvement and Summarization Based on Collective Intelligence Algorithm
Parhat et al. Uyghur short-text classification based on reliable sub-word morphology
Kazakov et al. Adjunct role labeling for Russian
Gelbukh Lexical, syntactic, and referencial disambiguation using a semantic network dictionary

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right