KR20210058701A

KR20210058701A - 의존 구문 분석 시스템 및 이를 이용한 의존 구문 분석 방법

Info

Publication number: KR20210058701A
Application number: KR1020200149865A
Authority: KR
Inventors: 서정연; 한장훈; 정영훈; 이인권; 박영준; 박서준; 한정욱
Original assignee: 서강대학교산학협력단
Priority date: 2019-11-13
Filing date: 2020-11-11
Publication date: 2021-05-24

Abstract

적어도 하나의 프로세서에 의해 동작하는 의존 구문 분석 시스템이 입력 문장의 의존 구문을 분석하는 방법으로서, 복수의 어절들을 포함하는 문장을 수신하면, 문장에 대한 제1 임베딩과 제2 임베딩을 생성하고, 제1 임베딩과 제2 임베딩을 병합하여 입력 임베딩으로 생성한다. 제1 네트워크를 이용하여 입력 임베딩에 대한 의존 관계와 의존 관계명을 예측하여, 입력 임베딩에 대한 제1 관계를 출력하고, 제2 네트워크를 이용하여 입력 임베딩에 대한 의존 관계와 의존 관계명을 예측하여 입력 임베딩에 대한 제2 관계를 출력한다. 제1 관계와 제2 관계를 기초로 문장에서 각 어절들의 지배소와 의존소를 포함하는 의존 구문 트리를 출력한다.

Description

의존 구문 분석 시스템 및 이를 이용한 의존 구문 분석 방법{System and method for dependent parsing}

본 발명은 Left to Right 포인터 네트워크와 깊은 바이아핀(deep biaffine) 어텐션 네트워크를 이용하여 의존 구문을 분석하는 의존 구문 분석 시스템 및 이를 이용한 의존 구문 분석 방법에 관한 것이다.

의존 구문 분석은 문장 성분의 관계를 파악하여 문장의 구조를 이해하는 작업으로, 자연어 이해에 기반이 되는 작업이다. 일반적으로 의존 구문 분석은 전이 기반 방식과 그래프 기반 방식으로 구분된다.

전이 기반 방식은 버퍼와 스택으로부터 전이 액션을 결정하는 지역적 탐색 방식이다. 한편, 그래프 기반 방식은 가능한 모든 의존 구문 트리를 고려하는 전역 탐색 방식으로 의존 구문 분석에 접근한다.

포인터 네트워크는 인코더와 디코더로 이루어져 있다. 인코더는 입력을 LSTM(Long Short-Term Memory models)을 거쳐 문장 정보를 함축하고, 함축한 정보를 디코더로 전달한다. 이후, 디코더의 출력과 인코더의 출력간 어텐션(Attention)을 수행하여 의존 관계를 구한다.

이 외에도 다양한 형태의 한국어 의존 구문 분석 방법들이 연구되고 있다.

먼저, 머신러닝 기반의 한국어 의존 구문 분석 방법은 부사에 담긴 통계 정보를 추출하여 그래프 기반 방식으로 한국어 의존 구문 분석을 진행한다. 일반적으로, 문장 내에서 부사가 수식할 수 있는 어절은 둘 이상이 될 수 있으며, 부사의 통계적인 정보를 활용하여 구문 중의성을 해소하는 방식을 제안하였다.

머신러닝 기반의 한국어 의존 구문 분석 방법의 문제점은 핸드 크래프트(hand-crafted) 자질을 사용한다는 점이다. 어떤 자질이 의존 구문 분석에 도움을 주는지는 의존 구문 분석 방법, 데이터의 종류 등 다양한 요소에 의해 결정된다. 즉, 다른 도메인의 문장에 대해서 의존 구분 분석을 하고자 할 때, 혹은 다른 방식의 의존 구문 분석 방법을 사용할 때엔 부사의 통계적인 정보가 효과적이지 않을 수 있다.

또한, 머신러닝 기반의 한국어 의존 구문 분석 방법에서 사용한 그래프 기반 의존 구문 분석 방식은 의존 구문 서브트리에 대한 정보를 사용하지 못한다는 한계가 있다. 순차적인 의존 구문 분석을 할 경우, 매 시점마다 의존 구문 분석 서브트리를 만들어내는데, 이는 의존 구문 분석에 효과적인 자질로 사용될 수 있다.

또 다른 의존 구문 분석 방법으로는 딥러닝을 활용한 한국어 의존 구문 분석 방법으로, 딥 바이-아핀 네트워크와 스택 포인터 네트워크를 이용하여 한국어 의존 구문을 분석하는 방법이다.

이 방법은 입력으로는 형태소, 품사태그를 사용한 어절표상을 사용한다. 그리고, 학습시에 내부 스택을 사용하여 의존소를 예측한다. 이 방법은 어절표상 표현 시 형태소 임베딩, 품사 임베딩을 사용하는데, 문맥에 따라 달라지는 형태소의 의미를 반영하지 못하는 문제점이 있다.

따라서, 서로 다른 문장에서도 하나의 형태소 임베딩으로 밖에 표현하지 못한다는 단점이 있다. 또 다른 문제점은 내부 스택을 사용하기 때문에 디코딩 과정이 복잡하다는 점이다. 내부 스택을 사용하여 어절에 대한 의존소를 예측하기 때문에, 한 어절에 대해 여러 개의 의존소를 처리해야 하므로, 전처리 과정, 디코딩 과정이 복잡하다. 또한, 내부 스택을 사용하기 때문에 어절에 대해 PUSH, POP 연산을 사용하는데, 이는 어절에 대해 최대 2번 연산을 하여 속도가 느리다는 단점이 있다.

따라서, 본 발명은 문장의 좌측에서 우측으로 순차적으로 구문을 분석하는 Left to Right 포인터 네트워크와 깊은 바이아핀 어텐션 네트워크를 이용하여 의존 구문을 분석하는 의존 구문 분석 시스템 및 이를 이용한 의존 구문 분석 방법을 제공한다.

상기 본 발명의 기술적 과제를 달성하기 위한 본 발명의 하나의 특징인 적어도 하나의 프로세서에 의해 동작하는 의존 구문 분석 시스템이 입력 문장의 의존 구문을 분석하는 방법으로서,

복수의 어절들을 포함하는 문장을 수신하면, 상기 문장에 대한 제1 임베딩과 제2 임베딩을 생성하고, 상기 제1 임베딩과 제2 임베딩을 병합하여 입력 임베딩으로 생성하는 단계, 제1 네트워크를 이용하여 상기 입력 임베딩에 대한 의존 관계와 의존 관계명을 예측하여, 상기 입력 임베딩에 대한 제1 관계를 출력하는 단계, 제2 네트워크를 이용하여 상기 입력 임베딩에 대한 의존 관계와 의존 관계명을 예측하여, 상기 입력 임베딩에 대한 제2 관계를 출력하는 단계, 그리고 상기 제1 관계와 제2 관계를 기초로, 상기 문장에서 각 어절들의 지배소와 의존소를 포함하는 의존 구문 트리를 출력하는 단계를 포함한다.

상기 입력 임베딩으로 생성하는 단계는, 상기 문장을 제1 임베딩 모델에 입력하여 상기 제1 임베딩으로 출력하고, 상기 문장을 제2 임베딩 모델에 입력하여 상기 제2 임베딩으로 출력하며, 상기 제1 임베딩 모델과 제2 임베딩 모델은 ELMo(Embedding from Language Model) 또는 BERT(Bidirectional Encoder Representations from Transformers) 중 어느 하나의 모델일 수 있다.

상기 입력 임베딩으로 생성하는 단계는, 상기 제1 임베딩 모델에서, 상기 각 어절별 복수의 형태소들 중, 첫 번째 형태소와 마지막 형태소를 병합하여 상기 제1 임베딩으로 출력하고, 상기 제2 임베딩 모델에서, 상기 복수의 형태소들 각각의 토큰들 중, 첫 번째 형태소의 첫 번째 토큰과 마지막 형태소의 첫 번째 토큰을 병합하여 상기 제2 임베딩으로 출력할 수 있다.

상기 입력 임베딩으로 생성하는 단계는, 상기 문장이 형태소 분석되어 있는지 확인하는 단계, 그리고 형태소 분석이 완료되지 않았으면, 상기 문장의 상기 각 어절들에 대한 형태소를 분석하는 단계를 포함할 수 있다.

상기 제1 네트워크는 Left to Right 포인터 네트워크이고, 상기 제2 네트워크는 깊은 바이아핀(deep biaffine) 어텐션 네트워크일 수 있다.

상기 제1 관계를 출력하는 단계는, 상기 제1 네트워크는 BiLSTM(Bidirectional Long Short-Term Memory)으로 구성된 인코더와 단방향 LSTM으로 구성된 디코더로 구성되고, 상기 인코더를 구성하는 어느 하나의 셀이, 복수의 어절들 중 어느 하나의 어절에 대한 입력 임베딩을 수신하는 단계, 상기 셀을 기준으로 제1 방향에 위치한 제1 이전 셀과 제2 방향에 위치한 제2 이전 셀로부터, 각각 이전 셀들까지 처리된 어절별 은닉 표상들을 수신하는 단계, 상기 어절의 입력 임베딩과 어절별 은닉 표상들을 기초로 상기 셀에서 상기 어절에 대한 어절별 출력 표상을 출력하는 단계, 그리고 상기 디코더로 상기 입력 임베딩의 은닉 표상을 전달하는 단계를 포함할 수 있다.

상기 제1 관계를 출력하는 단계는, 상기 디코더가 상기 인코더로부터 상기 은닉 표상을 수신하는 단계, 상기 인코더로부터 상기 어느 하나의 어절에 대한 어절별 출력 표상과 상기 제1 이전 셀과 제2 이전 셀에서 각각 출력된 이전 셀들의 어절별 출력 표상을 입력 받는 단계, 그리고 상기 은닉 표상, 상기 어절별 출력 표상, 상기 각각 출력된 이전 셀들의 어절별 출력 표상을 기초로, 상기 어느 하나의 어절에 대한 디코더 출력 표상을 출력하는 단계를 포함할 수 있다.

상기 제1 관계를 출력하는 단계는, 상기 어느 하나의 어절에 대한 상기 인코더 출력 표상과 디코더 출력 표상을 기초로, 상기 어느 하나의 어절에 대한 지배소를 출력하는 단계를 포함할 수 있다.

상기 제2 관계를 출력하는 단계는, 상기 어절이 의존소로 쓰였을 때의 표상인 의존소 표상과, 지배소로 쓰였을 때의 표상인 지배소 표상을 계산하는 단계, 그리고 상기 의존소 표상과 지배소 표상을 기초로 어절간의 관계를 파악하고, 파악한 어절간의 관계를 바이아핀으로 계산하여 각 어절에 대한 지배소를 출력하는 단계를 포함할 수 있다.

상기 제1 관계에 해당하는 상기 어느 하나의 어절에 대한 지배소와 상기 제2 관계에 해당하는 각 어절 중 상기 어느 하나의 어절에 대한 지배소를 앙상블하여, 상기 의존 구문 트리로 출력할 수 있다.

상기 본 발명의 기술적 과제를 달성하기 위한 본 발명의 또 다른 특징인 입력 문장의 의존 구문을 분석하는 시스템으로서,

복수의 어절들로 구성된 문장으로부터 제1 임베딩과 제2 임베딩을 생성하고, 상기 생성한 제1 임베딩과 제2 임베딩을 병합하여 입력 임베딩으로 생성하는 임베딩 생성부, 상기 입력 임베딩에서 상기 문장의 왼쪽부터 순차적으로 각 어절별로 의존 관계와 의존 관계명을 예측하고, 상기 예측한 어절별로 의존 관계와 의존 관계명을 포함하는 제1 관계를 출력하는 제1 네트워크, 상기 각 어절별로 의존 관계와 의존 관계명을 예측하고, 상기 예측한 어절별 의존 관계와 의존 관계명을 포함하는 제2 관계를 출력하는 제2 네트워크, 그리고 상기 제1 관계와 제2 관계를 기초로, 상기 각 어절별 지배소와 의존소를 포함하는 의존 구문 트리를 출력하는 앙상블부를 포함하고, 상기 제1 네트워크는 Left to Right 포인터 네트워크이고, 상기 제2 네트워크는 깊은 바이아핀(deep biaffine) 어텐션 네트워크이다.

상기 문장이 형태소 분석되어 있는지 확인하고, 형태소 분석이 완료되지 않았으면 상기 각 어절에 대한 형태소를 분석하는 전처리부를 더 포함할 수 있다.

상기 임베딩 생성부는, 상기 문장을 상기 제1 임베딩으로 출력하는 제1 임베딩 모델, 상기 문장을 상기 제2 임베딩으로 출력하는 제2 임베딩 모델, 그리고 상기 제1 임베딩 모델과 제2 임베딩 모델을 병합하는 병합 모델을 포함하고, 상기 제1 임베딩 모델과 제2 임베딩 모델은 ELMo(Embedding from Language Model) 또는 BERT(Bidirectional Encoder Representations from Transformers) 중 어느 하나의 모델일 수 있다.

상기 제1 네트워크는, BiLSTM으로 구성되며, 각 어절별 입력 임베딩, 각 어절의 형태소, 품사 태그, 이전 어절에서 문장의 구조를 반영한 이전 어절의 대표 값인 어절별 은닉 표상을 기초로 각 어절에 대한 인코더 출력 표상을 출력하고, 마지막 어절의 은닉 표상을 상기 문장의 은닉 표상으로 생성하는 인코더, 그리고 상기 문장의 은닉 표상과 각 어절에 대한 인코더 출력 표상을 입력으로 받아, 상기 각 어절에 대한 디코더 출력 표상을 생성하는 디코더를 포함하고, 상기 각 어절에 대한 인코더 출력 표상과 디코더 출력 표상을 기초로 상기 각 어절에 대한 지배소를 예측할 수 있다.

상기 제2 네트워크는, 상기 어절이 의존소로 쓰였을 때의 표상인 의존소 표상과, 지배소로 쓰였을 때의 표상인 지배소 표상을 계산하고, 상기 의존소 표상과 지배소 표상을 기초로 어절간의 관계를 파악하며, 파악한 어절간의 관계를 바이아핀으로 계산하여 각 어절에 대한 지배소를 출력할 수 있다.

본 발명에 따르면, 동적 임베딩을 통해 문맥에 따라 달라지는 형태소의 의미를 반영하여 효과적으로 의존 구문을 분석할 수 있으며, 어절에 대한 지배소를 예측하기 때문에 내부 스택 연산 없이 빠르게 의존 구문을 분석할 수 있다.

또한, 전이 기반 방식과 그래프 기반 방식을 융합하여, 효과적으로 의존 구문을 분석할 수 있다.

도 1은 본 발명의 실시예에 따라 의존 구문 분석 시스템이 적용된 환경의 예시도이다.
도 2는 본 발명의 실시예에 따른 의존 구문 분석 시스템에 대한 구조도이다.
도 3은 본 발명의 실시예에 따른 포인터 네트워크의 예시도이다.
도 4는 본 발명의 실시예에 따른 깊은 바이아핀 어텐션 네트워크의 예시도이다.
도 5는 본 발명의 실시예에 따른 의존 구문 분석 방법에 대한 흐름도이다.
도 6은 본 발명의 실시예에 따른 컴퓨팅 장치의 구조도이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

이하 도면을 참조로 하여 본 발명의 실시예에 따른 의존 구문 분석 시스템 및 이를 이용한 의존 구문 분석 방법에 대해 설명한다.

도 1은 본 발명의 실시예에 따라 의존 구문 분석 시스템이 적용된 환경의 예시도이다.

도 1에 도시된 바와 같이, 의존 구문 분석 시스템(100)은 입력 문장을 외부로부터 수신하면, 수신한 입력 문장을 의존 구문 분석한다. 하나의 입력 문장은 복수의 어절들로 구성되며, 각 어절은 입력 문장내에서 다른 어절을 수식하는 의존소(dependent)가 될 수도 있고, 의존소에 의해 수식을 받는 지배소(head)가 될 수도 있다. 그리고 어절은 반드시 하나의 지배소를 가지며, 하나의 지배소는 적어도 하나의 의존소를 가질 수 있다.

예를 들어, '며칠 후, 월말이 되었다'라는 문장이 입력되면, 의존 구문 분석 시스템(100)은 해당 문장을 이루는 어절들(며칠, 후, 월말이, 되었다) 사이에 적어도 하나의 의존소와 지배소를 추출하여 의존 구문 분석 결과인 의존 트리를 제공한다.

의존 트리는 문장을 각 단어 또는 어절을 정점으로 보고, 각 정점에 연결한 의존성(arc)으로 이루어진 유방향 그래프로, '지배소 → 의존소'의 형태로 표현되는 것을 예로 하여 설명한다. 의존 트리는, 하나의 루트(root)를 가지며, 비 순환적으로 생성된다.

이때, 의존 구문 분석 시스템(100)의 구성에 대해 도 2를 참조로 설명한다.

도 2는 본 발명의 실시예에 따른 의존 구문 분석 시스템에 대한 구조도이다.

도 2에 도시된 바와 같이, 의존 구문 분석 시스템(100)은 전처리부(110), 임베딩 생성부(120), 포인터 네트워크(130), 깊은 바이아핀 어텐션 네트워크(140), 그리고 앙상블부(150)를 포함한다.

전처리부(110)는 외부로부터 의존 구문 분석을 위한 문장이 입력된다. 이때, 복수의 어절들로 구성된 문장은, 외부에서 형태소 분석이 완료되어 어절과 어절에 대응하는 형태소 정보를 포함할 수도 있다. 만약 입력된 문장이 형태소 분석이 완료된 입력 문장이라면, 입력된 문장에는 복수의 어절들과 각 어절들에 매핑되어 있는 형태소 정보가 포함된다.

이때, 형태소 분석이 되지 않은 일반 문장이 전처리부(110)로 입력될 수도 있다. 본 발명의 실시예에서는 형태소 분석이 완료된 문장을 입력 문장으로 사용하는 것을 예로 하여 설명하나, 형태소 분석이 완료되지 않은 문장이 입력되면, 전처리부(110)는 문장을 형태소 분석하여 입력 문장으로 생성한다.

여기서, 전처리부(110)가 문장을 형태소 분석하여 입력 문장으로 생성하는 방법은 다양한 방법으로 수행될 수 있으므로, 본 발명의 실시예에서는 어느 하나의 방법으로 한정하지 않는다. 본 발명의 실시예에서는 전처리부(110)와 연결되어 있는 임베딩 생성부(120)에서 두 개의 임베딩 모델을 이용하여 입력 임베딩을 생성하기 때문에, 각 임베딩 모델에서 입력 문장을 처리할 수 있도록 어절의 형태소에 대한 품사를 태깅한 후, 각 동적 임베딩 모델이 지정한 입력 형식에 맞게 처리하여 출력한다.

임베딩 생성부(120)는 전처리부(110)로부터 수신한 입력 문장을 이용하여 입력 임베딩을 생성한다. 이를 위해, 임베딩 생성부(120)는 하나의 입력 문장을 두 개의 임베딩 모델(121, 122)을 이용하여 두 개의 임베딩들을 생성하고, 생성한 두 개의 임베딩들을 병합(concat)하여 하나의 입력 임베딩으로 생성한다.

이를 위해, 본 발명의 실시예에서는 임베딩 생성부(120)에 제1 임베딩 모델(121)과 제2 임베딩 모델(122), 그리고 병합 모델(123)이 포함되어 있는 것을 예로 하여 설명한다.

본 발명의 실시예에서는 제1 임베딩 모델(121)로 ELMo(Embedding from Language Model)를 사용하는 것을 예로 하여 설명하고, 제2 임베딩 모델(122)로 BERT(Bidirectional Encoder Representations from Transformers) 모델을 사용하는 것을 예로 하여 설명한다. 그러나, 반드시 두 개의 동적 임베딩 모델을 사용하지 않아도 무방하며, 두 개의 동적 임베딩 모델을 사용한다 하더라도 ELMo 모델과 BERT 모델로만 한정하지 않는다.

ELMo인 제1 임베딩 모델(121)은 형태소 분석된 문장이 입력되면, 형태소 단위로 임베딩을 출력한다. 이때, 한 어절을 구성하는 복수의 형태소들 중 가장 첫 번째 형태소와 마지막 형태소만 병합하여 제1 임베딩으로 출력한다.

예를 들어, '얼었다'라는 어절이 제1 임베딩 모델(121)로 입력되었다고 가정한다. '얼었다'라는 어절은 형태소로 '얼', '었', '다'로 나뉠 수 있다.

따라서, 제1 임베딩 모델(121)은 어절에서 의미를 나타내는 형태소'얼'의 임베딩과, 어절의 형식을 나타내는 형태소 '다'의 임베딩을 병합(concat)하여, 제1 임베딩으로 출력한다. 이때, 제1 임베딩 모델(121)이 첫 번째 형태소와 마지막 형태소를 추출하는 방법, 그리고 두 형태소를 병합하여 제1 임베딩으로 출력하는 방법은 다양한 방식으로 처리될 수 있으므로, 본 발명의 실시예에서는 상세한 설명을 생략한다.

또 다른 임베딩 모델인 제2 임베딩 모델(122)은 BERT 모델의 특정 단위인 토큰 단위로 임베딩이 출력된다. 제2 임베딩 모델(122) 역시, 한 어절 내에서 복수의 형태소들 각각의 토큰(token)들 중 첫 번째 형태소의 첫 번째 토큰과 마지막 형태소의 첫 번째 토큰을 병합하여, 제2 임베딩으로 출력한다.

병합 모델(123)은 제1 임베딩 모델(121)에서 출력된 제1 임베딩과 제2 임베딩 모델(122)에서 출력된 제2 임베딩을 병합하여, 입력 임베딩으로 생성한다. 본 발명의 실시예에서는 제2 임베딩 뒤에 제1 임베딩을 병합하여 입력 임베딩으로 생성하는 것을 예로 하여 설명하나, 반드시 이와 같이 한정되는 것은 아니다.

포인터 네트워크(또는, '제1 네트워크'라고도 지칭함)(130)는 임베딩 생성부(120)에서 생성된 입력 임베딩을 입력으로 받아, 입력 임베딩에 대한 의존 관계 및 의존 관계명을 예측한다. 본 발명의 실시예에서는 Left to Right 포인터 네트워크를 포인트 네트워크(130)로 이용하는 것을 예로 하여 설명한다. 그리고, 본 발명의 실시예에서는 설명의 편의를 위하여, 포인터 네트워크(130)에서 예측한 의존 관계 및 의존 관계명을 '포인터 관계'라 지칭한다.

그리고, 깊은 바이아핀 어텐션 네트워크(또는, '제2 네트워크'라고도 지칭함)(140) 역시 임베딩 생성부(120)에서 생성된 입력 임베딩을 입력으로 받아, 입력 임베딩에 대한 의존 관계 및 의존 관계명을 예측한다. 이때, 본 발명의 실시예에서는 설명의 편의를 위하여 깊은 바이아핀 어텐션 네트워크(140)에서 예측한 의존 관계 및 의존 관계명을 '바이아핀 관계'라 지칭한다.

앙상블부(150)는 포인터 네트워크(130)에서 출력된 입력 문장에 대한 포인터 관계와 깊은 바이아핀 어텐션 네트워크(140)에서 출력된 바이아핀 관계를 기초로, 입력 문장에 대한 의존 관계와 의존 관계명을 결정한다. 즉, 포인터 네트워크(130)와 깊은 바이아핀 어텐션 네트워크(140)에서 동일한 어절에 대해 서로 다른 지배소를 출력할 수도 있으므로, 기 설정된 우선 순위나 네트워크 가중치에 따라 입력 문장에서 의존 관계과 의존 관계명을 결정하여 최종적으로 출력한다.

여기서, 포인터 네트워크(130)와 깊은 바이아핀 어텐션 네트워크(140)에 대해 도 3 및 도 4를 참조로 설명한다.

도 3은 본 발명의 실시예에 따른 포인터 네트워크의 예시도이다.

도 3의 (a) 내지 (c)에 도시된 바와 같이, 포인터 네트워크(130)는 BiLSTM(Bidirectional Long Short-Term Memory)으로 구성된 인코더(131)와 단방향 LSTM으로 구성된 디코더(132)를 포함한다.

도 3에 도시된 바와 같이 인코더(131)는 입력 어절의 형태소, 품사 태그, 그리고 입력 문장에 대한 전역적인 정보를 고려하여, 각 어절에 대한 인코더 출력 표상을 만든다. 마지막 어절의 은닉 표상은 디코더(132)로 전달되는데, 마지막 어절의 은닉 표상에는 입력 문장에 대한 전반적인 정보가 담겨있다.

단방향 LSTM 및 포인터 네트워크로 구성되는 디코더(132)는 주어진 어절에 대한 의존 관계 및 의존 관계명을 예측한다. 디코더(132)에 입력되는 어절의 순서는 문장의 왼쪽부터 오른쪽으로 순차적으로 진행 되게 된다. 매 타임 스텝(time step)마다 순서대로 어절의 인코더 출력 표상에 양쪽 어절 인코더 출력 표상을 더하여 생성된 하나의 입력이 디코더에 입력된다.

어절의 인코더 출력 표상은 인코더가 문장의 전역 정보를 고려하여 해당 어절에 대해 계산한 출력 표상 값을 사용하며, 어절의 왼쪽 어절과 오른쪽 어절에 대한 정보를 추가로 사용하여 주변 정보를 어절 표상에 반영한다. 포인터 네트워크는 인코더에서 출력된 인코더의 출력 표상과 디코더에서 출력된 디코더의 출력 표상을 바이아핀 어텐션(biaffine attention)을 이용하여 주어진 어절에 대한 지배소 및 의존 관계명을 예측한다.

하나의 어절표상에 대한 지배소 예측이 끝나면, 다음 어절에 대한 디코딩 과정을 수행한다. 문장에서 각 어절에 대한 지배소는 하나이기 때문에, 모든 어절에 대해 한번씩 디코딩 과정을 수행하면 의존 구문 트리가 완성이 된다.

이때, 디코딩 과정에서 사이클(Cycle)이 생길 수 있다. 즉, 앞 어절들로 서브트리를 만들고, 사이클이 발견되면 디코더(132)는 해당 어절을 의존 구문 트리에 대한 경우의 수에서 제외한다. 여기서, 왼쪽에서 오른쪽으로 진행되는 순차적인 의존 구문 분석이라는 점에서 포인터 네트워크는 전이 기반 방식으로 분류할 수 있다.

다음은 깊은 바이아핀 어텐션 네트워크에 대해 도 4를 참조로 설명한다.

도 4는 본 발명의 실시예에 따른 깊은 바이아핀 어텐션 네트워크의 예시도이다.

도 4에 도시된 바와 같이, 깊은 바이아핀 어텐션 네트워크(140)도 임베딩 생성부(120)로부터 입력 문장에 대한 임베딩을 입력으로 받는다. 깊은 바이아핀 어텐션 네트워크(140)는 임베딩 레이어(141), BiLSTM(142), MLP(MultiLayer Perceptron)(143), 바이아핀 어텐션 계산 레이어(144) 등으로 구성되며, 입력된 문장에 대한 의존 관계 및 관계명을 예측한다.

임베딩 레이어(141)는 입력 임베딩을 기초로, 어절들의 형태소로부터 어절 표상을 생성한다. 이때, 어절 표상은 각 어절을 이루는 형태소, 품사, 문자 정보가 모두 반영된 상태로 생성된다. 본 발명의 실시예에서는 설명의 편의를 위하여 깊은 바이아핀 어텐션 네트워크(140)에 별도의 임베딩 레이어(141)가 포함되어 있는 것으로 표시하였으나, 상술한 포인터 네트워크와 동일한 입력 임베딩을 사용한다.

임베딩 레이어(141)가 생성한 어절 표상은 BiLSTM(142)으로 입력된다. BiLSTM(142)은 어절 표상에 문장의 전역적인 정보 즉, 이전 어절에서 문장의 구조를 반영한 어절의 대표 값인 이전 어절별 은닉 표상을 반영 한다. 또한, BiLSTM(142)은 이후 어절의 문장 구조를 반영하여 어절의 대표값인 이후 어절별 은닉 표상도 반영한다. BiLSTM(142)의 내부에서 여러 단계를 거쳐 어절 표상에 문장의 전역적인 정보를 반영하는 방법은 이미 알려진 것으로, 본 발명의 실시예에서는 어느 하나의 방법으로 한정하지 않는다.

MLP(143)는 주어진 어절이 의존소로 쓰였을 때의 표상인 의존소 표상과 지배소로 쓰였을 때의 표상인 지배소 표상을 각각 계산한다.

그리고 바이아핀 어텐션 계산 레이어(144)는 문장을 이루는 어절간의 관계를 파악한다. 모든 어절에 대한 의존소 표상과 지배소 표상 간의 관계를 바이아핀 어텐션으로 계산하여, 의존 관계 및 의존 관계명을 예측한다.

이와 같이, 깊은 바이아핀 어텐션 네트워크(140)는 문장 내 어절간의 모든 조합을 고려해서 최적의 조합을 찾아낸다는 점에서, 그래프 기반 방식의 의존 구문 분석이라고 할 수 있다.

이상에서 설명한 의존 구문 분석 시스템(100)을 이용하여 문장의 의존 구문을 분석하는 방법에 대해 도 5를 참조로 설명한다.

도 5는 본 발명의 실시예에 따른 의존 구문 분석 방법에 대한 흐름도이다.

도 5에 도시된 바와 같이, 의존 구문 분석 시스템(100)은 외부로부터 의존 구문 분석을 위한 문장을 입력으로 받는다(S100). 입력된 문장은 복수의 어절들로 구성되며, 형태소 분석이 완료된 문장이거나 형태소 분석되지 않은 문장 중 어느 하나의 문장이 입력될 수 있다. 본 발명의 실시예에서는 하나의 문장을 의존 구문 분석을 위해 입력 받는 것을 예로 하여 설명하나, 반드시 이와 같이 한정되는 것은 아니다.

의존 구문 분석 시스템(100)은 S100 단계에서 수신한 문장이 형태소 분석이 되었는지 확인한다. 만약, 형태소 분석이 완료된 문장이라면, 의존 구문 분석 시스템(100)은 두 개의 임베딩 모델(121, 122)을 이용하여 하나의 입력 문장으로부터 각각 임베딩들을 생성하고, 생성한 임베딩들을 병합하여 입력 임베딩으로 생성한다(S110).

그러나, S100 단계에서 수신한 문장이 형태소 분석이 완료되지 않은 문장일 경우에는, 임베딩 생성부(120)에서 사용할 두 개의 임베딩 모델에서 처리할 수 있도록, 형태소 분석 후 임베딩 모델에서 지정한 입력 형식에 맞게 처리하여 입력 문장으로 생성한다. 그리고 나서, 의존 구문 분석 시스템(100)은 입력 문장으로부터 입력 임베딩을 생성한다(S120).

본 발명의 실시예에서는 단순하게 정적인 단어 정보만을 담고 있는 임베딩이 아니라, 문맥정보를 담고 있는 언어모델 기반의 임베딩을 사용한다. 따라서, 임베딩 생성부(120)에 ELMo를 사용하는 제1 임베딩 모델(121)과 BERT 모델을 사용하는 제2 임베딩 모델(122)이 포함되어 있다.

제1 임베딩 모델(121)의 경우 형태소 단위로 임베딩이 출력되기 때문에, 한 어절의 양 끝 형태소만 병합하여 제1 임베딩으로 출력한다. 즉, 제1 임베딩 모델(121)은 양방향 LSTM으로 구성된 언어 모델로, 기존의 단어 임베딩과는 달리 문맥에 따라 달라지는 단어의 정보를 표현할 수 있다.

제1 임베딩 모델(121)은 형태소를 음절 단위로 분해한 후, CNN을 거쳐 음절 임베딩을 생성한다. 음절 임베딩과 형태소 임베딩을 병합하여 입력 표현으로 만든다. 이렇게 만들어진 입력 표현은 여러 층으로 이루어진 Bi-LSTM을 통과하고, 이전 형태소와 다음 형태소에 대한 크로스 엔트로피를 계산하여 학습한다. 사전 학습된 ELMo의 은닉 계층을 가중 합 하여 결과 값을 얻고, 어절의 양 끝 형태소를 병합하여 의존 구문 분석의 제1 임베딩으로 활용한다.

BERT의 경우, BERT 모델의 특정 단위인 토큰 단위로 임베딩이 출력되므로, 역시 한 어절 내에서 양 끝 형태소의 첫 번째 토큰을 병합하여 제2 임베딩으로 출력한다. 이는 어절의 끝부분인 조사, 어미 정보를 반영하기 위함이다.

의존 구문 분석 시스템(100)의 임베딩 생성부(121)는 제1 임베딩 모델(121)에서 출력된 제1 임베딩과 제2 임베딩 모델(122)에서 출력된 제2 임베딩을 병합하여, 입력 임베딩으로 생성한다.

의존 구문 분석 시스템(100)은 S110 단계에서 출력된 입력 임베딩을 제1 네트워크인 포인터 네트워크(130)와 제2 네트워크인 깊은 바이아핀 어텐션 네트워크(140)로 각각 입력한다. 그리고, 포인터 네트워크(130)와 깊은 바이아핀 어텐션 네트워크(140)에서 각각 의존 관계와 의존 관계명을 예측한다(S120).

즉, 포인터 네트워크(130)는 입력 임베딩의 왼쪽부터 순차적으로 어절의 지배소를 예측한다. 포인터 네트워크(130)는 어절의 지배소를 예측하기 위해, 어텐션 방식을 활용하고, 추가적인 입력 자질로는 이전 어절과 이후 어절의 출력 표상을 이용한다. 본 발명의 실시예에서는 추가적인 입력 자질로 이전 어절과 이후 어절의 출력 표상을 이용하는 것을 예로 하여 설명하나, 반드시 이와 같이 한정되는 것은 아니다.

그리고, 깊은 바이아핀 어텐션 네트워크(140)는 각 어절의 형태소로부터 단어 표상(word embedding)을 얻고, Bi-LSTM을 적용하여 은닉 표상을 얻는다. 은닉 표상에 MLP 계층을 적용하여, 주어진 어절이 의존소로 쓰였을 때의 표상인 의존소 표상과 지배소로 쓰였을 때의 표상인 지배소 표상을 각각 계산한다.

그리고 나서, 깊은 바이아핀 어텐션 네트워크(140)는 문장을 이루는 어절간의 관계를 파악한다. 모든 어절에 대한 의존소 표상과 지배소 표상 간의 관계를 바이아핀 어텐션으로 계산하여, 의존 관계 및 의존 관계명을 예측한다.

이와 같이 포인터 네트워크(130)와 깊은 바이아핀 어텐션 네트워크(140)에서 각각 의존 관계와 의존 관계명을 예측하면, 의존 구문 분석 시스템(100)은 포인터 관계와 바이아핀 관계를 앙상블하여, 의존 트리를 출력한다(S130).

다음은, 상기에서 설명한 서비스를 제공하는 의존 구문 분석 시스템(100)의 컴퓨팅 구조에 대해 도 6을 참조로 설명한다. 본 발명의 실시예에서는 설명의 편의를 위하여 컴퓨팅 장치(200)로 표현한다.

도 6은 본 발명의 실시예에 따른 컴퓨팅 장치의 구조도이다.

도 6을 참고하면, 적어도 하나의 프로세서에 의해 동작하는 의존 구문 분석 시스템(100) 즉, 컴퓨팅 장치(200)에서, 본 발명의 동작을 실행하도록 기술된 명령들(instructions)이 포함된 프로그램을 실행한다. 프로그램은 컴퓨터 판독 가능한 저장매체에 저장될 수 있고, 유통될 수 있다.

컴퓨팅 장치(200)의 하드웨어는 적어도 하나의 프로세서(210), 메모리(220), 스토리지(230), 통신 인터페이스(240)를 포함할 수 있고, 버스를 통해 연결될 수 있다. 이외에도 입력 장치 및 출력 장치 등의 하드웨어가 포함될 수 있다. 컴퓨팅 장치(200)는 프로그램을 구동할 수 있는 운영 체제를 비롯한 각종 소프트웨어가 탑재될 수 있다.

프로세서(210)는 컴퓨팅 장치(200)의 동작을 제어하는 장치로서, 프로그램에 포함된 명령들을 처리하는 다양한 형태의 프로세서일 수 있고, 예를 들면, CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 등 일 수 있다.

메모리(220)는 본 발명의 동작을 실행하도록 기술된 명령들이 프로세서(210)에 의해 처리되도록 해당 프로그램을 로드한다. 메모리(220)는 예를 들면, ROM(read only memory), RAM(random access memory) 등 일 수 있다. 스토리지(230)는 본 발명의 동작을 실행하는데 요구되는 각종 데이터, 프로그램 등을 저장한다. 통신 인터페이스(240)는 유/무선 통신 모듈일 수 있다.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims

적어도 하나의 프로세서에 의해 동작하는 의존 구문 분석 시스템이 입력 문장의 의존 구문을 분석하는 방법으로서,
복수의 어절들을 포함하는 문장을 수신하면, 상기 문장에 대한 제1 임베딩과 제2 임베딩을 생성하고, 상기 제1 임베딩과 제2 임베딩을 병합하여 입력 임베딩으로 생성하는 단계,
제1 네트워크를 이용하여 상기 입력 임베딩에 대한 의존 관계와 의존 관계명을 예측하여, 상기 입력 임베딩에 대한 제1 관계를 출력하는 단계,
제2 네트워크를 이용하여 상기 입력 임베딩에 대한 의존 관계와 의존 관계명을 예측하여, 상기 입력 임베딩에 대한 제2 관계를 출력하는 단계, 그리고
상기 제1 관계와 제2 관계를 기초로, 상기 문장에서 각 어절들의 지배소와 의존소를 포함하는 의존 구문 트리를 출력하는 단계
를 포함하는, 의존 구문 분석 방법.
제1항에 있어서,
상기 입력 임베딩으로 생성하는 단계는,
상기 문장을 제1 임베딩 모델에 입력하여 상기 제1 임베딩으로 출력하고,
상기 문장을 제2 임베딩 모델에 입력하여 상기 제2 임베딩으로 출력하며,
상기 제1 임베딩 모델과 제2 임베딩 모델은 ELMo(Embedding from Language Model) 또는 BERT(Bidirectional Encoder Representations from Transformers) 중 어느 하나의 모델인, 의존 구문 분석 방법.
제2항에 있어서,
상기 입력 임베딩으로 생성하는 단계는,
상기 제1 임베딩 모델에서, 상기 각 어절별 복수의 형태소들 중, 첫 번째 형태소와 마지막 형태소를 병합하여 상기 제1 임베딩으로 출력하고,
상기 제2 임베딩 모델에서, 상기 복수의 형태소들 각각의 토큰들 중, 첫 번째 형태소의 첫 번째 토큰과 마지막 형태소의 첫 번째 토큰을 병합하여 상기 제2 임베딩으로 출력하는, 의존 구문 분석 방법.
제3항에 있어서,
상기 입력 임베딩으로 생성하는 단계는,
상기 문장이 형태소 분석되어 있는지 확인하는 단계, 그리고
형태소 분석이 완료되지 않았으면, 상기 문장의 상기 각 어절들에 대한 형태소를 분석하는 단계
를 포함하는, 의존 구문 분석 방법.
제4항에 있어서,
상기 제1 네트워크는 Left to Right 포인터 네트워크이고, 상기 제2 네트워크는 깊은 바이아핀(deep biaffine) 어텐션 네트워크인, 의존 구문 분석 방법.
제5항에 있어서,
상기 제1 관계를 출력하는 단계는,
상기 제1 네트워크는 BiLSTM(Bidirectional Long Short-Term Memory)으로 구성된 인코더와 단방향 LSTM으로 구성된 디코더로 구성되고,
상기 인코더를 구성하는 어느 하나의 셀이, 복수의 어절들 중 어느 하나의 어절에 대한 입력 임베딩을 수신하는 단계,
상기 셀을 기준으로 제1 방향에 위치한 제1 이전 셀과 제2 방향에 위치한 제2 이전 셀로부터, 각각 이전 셀들까지 처리된 어절별 은닉 표상들을 수신하는 단계,
상기 어절의 입력 임베딩과 어절별 은닉 표상들을 기초로 상기 셀에서 상기 어절에 대한 어절별 출력 표상을 출력하는 단계, 그리고,
상기 디코더로 상기 입력 임베딩의 은닉 표상을 전달하는 단계,
를 포함하는, 의존 구문 분석 방법.
제6항에 있어서,
상기 제1 관계를 출력하는 단계는,
상기 디코더가 상기 인코더로부터 상기 은닉 표상을 수신하는 단계,
상기 인코더로부터 상기 어느 하나의 어절에 대한 어절별 출력 표상과 상기 제1 이전 셀과 제2 이전 셀에서 각각 출력된 이전 셀들의 어절별 출력 표상을 입력 받는 단계, 그리고
상기 은닉 표상, 상기 어절별 출력 표상, 상기 각각 출력된 이전 셀들의 어절별 출력 표상을 기초로, 상기 어느 하나의 어절에 대한 디코더 출력 표상을 출력하는 단계
를 포함하는, 의존 구문 분석 방법.
제7항에 있어서,
상기 제1 관계를 출력하는 단계는,
상기 어느 하나의 어절에 대한 상기 인코더 출력 표상과 디코더 출력 표상을 기초로, 상기 어느 하나의 어절에 대한 지배소를 출력하는 단계
를 포함하는, 의존 구문 분석 방법.
제8항에 있어서,
상기 제2 관계를 출력하는 단계는,
상기 어절이 의존소로 쓰였을 때의 표상인 의존소 표상과, 지배소로 쓰였을 때의 표상인 지배소 표상을 계산하는 단계, 그리고
상기 의존소 표상과 지배소 표상을 기초로 어절간의 관계를 파악하고, 파악한 어절간의 관계를 바이아핀으로 계산하여 각 어절에 대한 지배소를 출력하는 단계
를 포함하는, 의존 구문 분석 방법.
제9항에 있어서,
상기 제1 관계에 해당하는 상기 어느 하나의 어절에 대한 지배소와 상기 제2 관계에 해당하는 각 어절 중 상기 어느 하나의 어절에 대한 지배소를 앙상블하여, 상기 의존 구문 트리로 출력하는, 의존 구문 분석 방법.
입력 문장의 의존 구문을 분석하는 시스템으로서,
복수의 어절들로 구성된 문장으로부터 제1 임베딩과 제2 임베딩을 생성하고, 상기 생성한 제1 임베딩과 제2 임베딩을 병합하여 입력 임베딩으로 생성하는 임베딩 생성부,
상기 입력 임베딩에서 상기 문장의 왼쪽부터 순차적으로 각 어절별로 의존 관계와 의존 관계명을 예측하고, 상기 예측한 어절별로 의존 관계와 의존 관계명을 포함하는 제1 관계를 출력하는 제1 네트워크,
상기 각 어절별로 의존 관계와 의존 관계명을 예측하고, 상기 예측한 어절별 의존 관계와 의존 관계명을 포함하는 제2 관계를 출력하는 제2 네트워크, 그리고
상기 제1 관계와 제2 관계를 기초로, 상기 각 어절별 지배소와 의존소를 포함하는 의존 구문 트리를 출력하는 앙상블부
를 포함하고,
상기 제1 네트워크는 Left to Right 포인터 네트워크이고, 상기 제2 네트워크는 깊은 바이아핀(deep biaffine) 어텐션 네트워크인, 의존 구문 분석 시스템.
제11항에 있어서,
상기 문장이 형태소 분석되어 있는지 확인하고, 형태소 분석이 완료되지 않았으면 상기 각 어절에 대한 형태소를 분석하는 전처리부
를 더 포함하는, 의존 구문 분석 시스템.
제12항에 있어서,
상기 임베딩 생성부는,
상기 문장을 상기 제1 임베딩으로 출력하는 제1 임베딩 모델,
상기 문장을 상기 제2 임베딩으로 출력하는 제2 임베딩 모델, 그리고
상기 제1 임베딩 모델과 제2 임베딩 모델을 병합하는 병합 모델
을 포함하고,
상기 제1 임베딩 모델과 제2 임베딩 모델은 ELMo(Embedding from Language Model) 또는 BERT(Bidirectional Encoder Representations from Transformers) 중 어느 하나의 모델인, 의존 구문 분석 시스템.
제13항에 있어서,
상기 제1 네트워크는,
BiLSTM으로 구성되며, 각 어절별 입력 임베딩, 각 어절의 형태소, 품사 태그, 이전 어절에서 문장의 구조를 반영한 이전 어절의 대표 값인 어절별 은닉 표상을 기초로 각 어절에 대한 인코더 출력 표상을 출력하고, 마지막 어절의 은닉 표상을 상기 문장의 은닉 표상으로 생성하는 인코더, 그리고
상기 문장의 은닉 표상과 각 어절에 대한 인코더 출력 표상을 입력으로 받아, 상기 각 어절에 대한 디코더 출력 표상을 생성하는 디코더
를 포함하고,
상기 각 어절에 대한 인코더 출력 표상과 디코더 출력 표상을 기초로 상기 각 어절에 대한 지배소를 예측하는, 의존 구문 분석 시스템.
제14항에 있어서,
상기 제2 네트워크는,
상기 어절이 의존소로 쓰였을 때의 표상인 의존소 표상과, 지배소로 쓰였을 때의 표상인 지배소 표상을 계산하고, 상기 의존소 표상과 지배소 표상을 기초로 어절간의 관계를 파악하며, 파악한 어절간의 관계를 바이아핀으로 계산하여 각 어절에 대한 지배소를 출력하는, 의존 구문 분석 시스템.