KR102203895B1 - 임베딩 기반의 인과 관계 탐지 시스템과 방법 및 이를 실행하기 위한 프로그램이 기록된 기록매체 - Google Patents

임베딩 기반의 인과 관계 탐지 시스템과 방법 및 이를 실행하기 위한 프로그램이 기록된 기록매체 Download PDF

Info

Publication number
KR102203895B1
KR102203895B1 KR1020190019985A KR20190019985A KR102203895B1 KR 102203895 B1 KR102203895 B1 KR 102203895B1 KR 1020190019985 A KR1020190019985 A KR 1020190019985A KR 20190019985 A KR20190019985 A KR 20190019985A KR 102203895 B1 KR102203895 B1 KR 102203895B1
Authority
KR
South Korea
Prior art keywords
sentence
embedding
embedding vector
pair
predicate
Prior art date
Application number
KR1020190019985A
Other languages
English (en)
Other versions
KR20200101735A (ko
Inventor
정윤경
Original Assignee
성균관대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 성균관대학교산학협력단 filed Critical 성균관대학교산학협력단
Priority to KR1020190019985A priority Critical patent/KR102203895B1/ko
Publication of KR20200101735A publication Critical patent/KR20200101735A/ko
Application granted granted Critical
Publication of KR102203895B1 publication Critical patent/KR102203895B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 임베딩 기반의 인과 관계 탐지 시스템과 방법 및 이를 실행하기 위한 프로그램이 기록된 기록매체에 관한 것이다.
본 발명의 일례에 따른 임베딩 기반의 인과 관계 탐지 시스템은 입력 텍스트를 각 문장 단위로 구분하고, 각 문장에 대한 프리디컷(predicate)을 추출하여, 각 문장에 대해 추출된 프리디컷을 대표 표현으로 정규화하는 자연어 처리부; 각 문장에 대한 대표 표현과 대표 표현 각각에 대응되는 아이디(id)를 포함하는 룩업 테이블을 생성하고, 룩업 테이블 상의 각 아이디에 대해 각 아이디와 인접한 대표 표현들과의 관계를 정의하여 페어(pair)로 표현한 후, 각 문장에 대한 페어를 각 문장에 대한 임베딩 벡터(embedding vector)로 표현하는 임베딩 벡터 생성부; 각 문장에 대한 임베딩 벡터 값을 이용하여, 각 문장 사이의 거리값을 산출하는 인과관계 추출부;를 포함한다.

Description

임베딩 기반의 인과 관계 탐지 시스템과 방법 및 이를 실행하기 위한 프로그램이 기록된 기록매체{Embedding based causality detection System and Method and Computer Readable Recording Medium on which program therefor is recorded}
본 발명은 임베딩 기반의 인과 관계 탐지 시스템과 방법 및 이를 실행하기 위한 프로그램이 기록된 기록매체에 관한 것이다.
텍스트에서 인과 관계를 추출하는 것은 자연어 처리 문제 중에서도 어려운 문제로서 추출 성능이 높지 않다.
관련 선행 기술 문헌으로 기재된 특허 문헌에서는 cause, result from, thus, process 등의 단어에 기반한 분석 방법을 제안하고 있는데, 특정 단어 리스트를 정하는 도메인 지식에 의존하는 단점이 있다.
선행 기술 문헌으로 기재된 비특허 문헌의 (1) 및 (2)는 CNN(Convolutional Neural Network) 딥러닝 모델을 사용하였고, 비특허 문헌의 (3)은 LSTM(Long Short-Term Memory) 모델에 자연어의 최소 의존 패스를 활용하여 관계를 분류하였다. 이들 방법은 지도 기반으로서, 관계의 종류가 이미 태깅(tagging)되어 있어야 하므로 태깅에 소요되는 노력이나 시간이 필요한 문제점이 있었다.
미국 등록번호-US9009590B2
(1) Relation Classification via Convolutional Deep Neural Network. Daojian Zeng, Kang Liu, Siwei Lai, Guangyou Zhou and Jun Zhao. Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers, pages 2335?2344, Dublin, Ireland, August 23-29 2014. (2) Classifying Relations by Ranking with Convolutional Neural Networks. Cicero Nogueira dos Santos, Bing Xiang, Bowen Zhou. (3) Classifying Relations via Long Short Term Memory Networksalong Shortest Dependency PathsYan Xu, Lili Mou, Ge Li, Yunchuan Chen, Hao Peng, Zhi Jin.
본 발명은 어떤 텍스트 데이터가 주어졌을 때, 문장간의 관계를 특정 규칙을 사용하지 않고 데이터 패턴에서 추출할 수 있는 임베딩 기반의 인과 관계 탐지 시스템과 방법 및 이를 실행하기 위한 프로그램이 기록된 기록매체를 제공하는데 그 목적이 있다.
본 발명의 일례에 따른 임베딩 기반의 인과 관계 탐지 시스템은 입력 텍스트를 각 문장 단위로 구분하고, 각 문장에 대한 프리디컷(predicate)을 추출하여, 각 문장에 대해 추출된 프리디컷을 대표 표현으로 정규화하는 자연어 처리부; 각 문장에 대한 대표 표현과 대표 표현 각각에 대응되는 아이디(id)를 포함하는 룩업 테이블을 생성하고, 룩업 테이블 상의 각 아이디에 대해 각 아이디와 인접한 대표 표현들과의 관계를 정의하여 페어(pair)로 표현한 후, 각 문장에 대한 페어를 각 문장에 대한 임베딩 벡터(embedding vector)로 표현하는 임베딩 벡터 생성부; 각 문장에 대한 임베딩 벡터 값을 이용하여, 각 문장 사이의 거리값을 산출하는 인과관계 추출부;를 포함한다.
여기서, 자연어 처리부는 프리디컷을 추출하기 위해, 각 문장을 토크나이즈(tokenize)하여 각 문장의 품사를 분석한 후, 주어부 및 동사구를 필터링하고, 필터링된 주어부 및 동사구에 대한 프리딧컷을 추출할 수 있다.
임베딩 벡터 생성부는 각 문장에 대한 페어를 이용하여 워드 투 벡터(word2vec)의 스킵-그램(skip-gram) 방식으로 신경망을 훈련을 수행할 수 있다.
임베딩 벡터 생성부는 각 문장에 대한 페어에서 첫 번째 값을 입력으로, 두 번째를 출력으로 하여, 원 핫 인코딩(one-hot encoding) 방식을 이용한 신경망 훈련을 수행하여, 임베딩 벡터로 표현할 수 있다.
본 발명의 일례에 따른 임베딩 기반의 인과 관계 탐지 방법은 입력 텍스트를 각 문장 단위로 구분하고, 각 문장에 대한 프리디컷(predicate)을 추출하는 프리디컷 추출 단계; 각 문장에 대해 추출된 프리디컷을 대표 표현으로 정규화하는 정규화 단계; 각 문장에 대한 대표 표현과 대표 표현 각각에 대응되는 아이디(id)를 포함하는 룩업 테이블을 생성하는 룩업 테이블 생성 단계; 룩업 테이블 상의 각 아이디에 대해 해당 아이디에 인접한 대표 표현들과의 관계를 정의하여 페어(pair)으로 표현하는 페어 표현 단계; 각 문장에 대한 페어를 각 문장에 대한 임베딩 벡터(embedding vector)로 표현하는 벡터화 단계; 및 각 문장에 대한 임베딩 벡터 값을 이용하여, 각 문장 사이의 거리값을 산출하는 거리값 산출 단계;를 포함한다.
프리디컷 추출 단계 이전에, 프리디컷을 추출하기 위해, 각 문장을 토크나이즈(tokenize)하여 각 문장의 품사를 분석한 후, 주어부 및 동사구를 필터링할 수 있다.
벡터화 단계는 각 문장에 대한 페어를 이용하여 워드 투 벡터(word2vec)의 스킵-그램(skip-gram) 방식으로 신경망을 훈련을 수행할 수 있다.
일례로, 벡터화 단계는 각 문장에 대한 페어에서 첫 번째 값을 입력으로, 두 번째를 출력으로 하여, 원 핫 인코딩(one-hot encoding) 방식을 이용한 신경망 훈련을 수행하여, 임베딩 벡터로 표현할 수 있다.
본 발명은 이와 같은 임베딩 기반의 인과 관계 탐지 방법을 실행하기 위한 프로그램이 기록된 기록매체를 포함한다.
본 발명은 도메인 지식이나 태깅 정보가 필요 없이, 비지도 방식으로 인과 관계를 추출하는 방법을 제안한다는 점에서 기존 방법과의 차별화가 되며, 태깅 등의 사람이 직접 입력해야 하는 정보가 필요 없어 시간이 절감되는 효과가 있다.
보다 구체적으로, 본 발명은 텍스트 데이터가 주어졌을 때, 문장간의 관계를 특정 규칙을 사용하지 않고 데이터 패턴에서 추출할 수 있다.
문장이나 이벤트에서 인과 관계는 자연어를 활용한 고차원적인 임무(대화 시스템, Q&A, 문서 요약 등)를 수행할 때 중요하게 활용되는 핵심 정보이며, 인과 관계는 특히 기호 기반 인공지능 기술에서 도메인 지식을 코딩할 때에 많이 사용되는데, 자동으로 추출하기 어렵다 보니 사람이 매뉴얼로 코딩하는 데에 많은 시간과 노력이 소요되었지만, 본 발명은 이러한 인과 관계를 자동으로 추출하여 시간 및 비용을 절감할 수 있다.
도 1은 본 발명의 일례에 따른 임베딩 기반의 인과 관계 탐지 시스템의 개념을 설명하기 위한 구성도이다.
도 2는 도 1에 따른 본 발명의 시스템이 동작하는 각 단계를 플로우 차트로 설명하기 위한 도이다.
도 3은 도 1에서 자연어 처리부(10)가 대표 표현으로 룩업 테이블을 생성한 일례를 설명하기 위한 도이다.
도 4는 도 1에서 자연어 처리부(10)의 동작의 일례를 설명하기 위한 도이다.
도 5는 도 1에서 자연어 처리부(10)의 동작의 다른 일례를 설명하기 위한 도이다.
도 6은 도 1에서 임베딩 벡터 생성부(20)의 동작을 설명하기 위한 도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
그러면 첨부한 도면을 참고로 하여 본 발명에 대하여 설명한다.
도 1은 본 발명의 일례에 따른 임베딩 기반의 인과 관계 탐지 시스템의 개념을 설명하기 위한 구성도이고, 도 2는 도 1에 따른 본 발명의 시스템이 동작하는 각 단계를 플로우 차트로 설명하기 위한 도이다.
도 3은 도 1에서 자연어 처리부(10)가 대표 표현으로 룩업 테이블을 생성한 일례를 설명하기 위한 도이고, 도 4는 도 1에서 자연어 처리부(10)의 동작의 일례를 설명하기 위한 도이고, 도 5는 도 1에서 자연어 처리부(10)의 동작의 다른 일례를 설명하기 위한 도이고, 도 6은 도 1에서 임베딩 벡터 생성부(20)의 동작을 설명하기 위한 도이다.
도 1에 도시된 바와 같이, 본 발명의 일례에 따른 임베딩 기반의 인과 관계 탐지 시스템은 자연어 처리부(10), 임베딩 벡터 생성부(20), 인과관계 추출부(30)를 포함하고, 자연어 처리부(10)에 입력 텍스트를 제공하는 데이터 베이스(40)를 더 포함할 수 있다.
데이터 베이스(40)는 텍스트 정보를 저장할 수 있으며, 자연어 처리부(10)로 텍스트를 출력할 수 있다.
자연어 처리부(10)는 데이터 베이스(40)에서 텍스트를 입력받아, 입력된 텍스트를 각 문장 단위로 구분하고, 각 문장에 포함된 단어에 대한 프리디컷(predicate)을 추출하여, 각 문장에 대해 추출된 프리디컷을 대표 표현으로 정규화할 수 있다.
임베딩 벡터 생성부(20)는 자연어 처리부(10)에서 대표 표현으로 정규화된 각 문장에 대한 대표 표현과 대표 표현 각각에 대응되는 아이디(id)를 포함하는 룩업 테이블을 생성하고, 룩업 테이블 상의 각 아이디에 대해 각 아이디와 인접한 대표 표현들과의 관계를 정의하여 페어(pair)로 표현한 후, 각 문장에 대한 페어를 각 문장에 대한 임베딩 벡터(embedding vector)로 표현하여 출력할 수 있다.
인과관계 추출부(30)는 임베딩 텍터 생성부에서 출력된 각 문장에 대한 임베딩 벡터 값을 이용하여, 각 문장 사이의 거리값을 산출할 수 있다.
이하에서는 도 2 내지 도 5를 참조하여, 이와 같은 임베딩 기반의 인과 관계 탐지 시스템의 동작 방법을 보다 구체적으로 설명한다.
도 2에 도시된 바와 같이, 본 발명의 일례에 따른 임베딩 기반의 인과 관계 탐지 방법은 프리디컷 추출 단계(S1), 정규화 단계(S2), 룩업 테이블 생성 단계(S3), 페어 표현 단계(S4), 벡터화 단계(S5) 및 거리값 산출 단계(S6)를 포함할 수 있다.
여기서, 프리디컷 추출 단계(S1)와 정규화 단계(S2)는 자연어 처리부(10)에 의해 수행될 수 있으며, 룩업 테이블 생성 단계(S3)와 페어 표현 단계(S4) 및 벡터화 단계(S5)는 임베딩 벡터 생성부(20)에 의해 수행될 수 있으며, 거리값 산출 단계(S6)는 인과 관계 추출부에 의해 수행될 수 있다.
프리디컷 추출 단계(S1)는 입력 텍스트를 각 문장 단위로 구분하고, 각 문장에 대한 프리디컷(predicate)을 추출할 수 있다.
정규화 단계(S2)는 각 문장에 대해 추출된 프리디컷을 대표 표현으로 정규화할 수 있다.
룩업 테이블 생성 단계(S3)는 각 문장에 대한 대표 표현과 대표 표현 각각에 대응되는 아이디(id)를 포함하는 룩업 테이블을 생성할 수 있다.
페어 표현 단계(S4)는 룩업 테이블 상의 각 아이디에 대해 해당 아이디에 인접한 대표 표현들과의 관계를 정의하여 페어(pair)으로 표현할 수 있다.
벡터화 단계(S5)는 각 문장에 대한 페어를 각 문장에 대한 임베딩 벡터(embedding vector)로 표현할 수 있다.
거리값 산출 단계(S6)는 각 문장에 대한 임베딩 벡터 값을 이용하여, 각 문장 사이의 거리값을 산출할 수 있다.
일례로, 자연어 처리부(10)는 프리디컷 추출 단계(S1)와 정규화 단계(S2)를 수행하고, 임베딩 벡터 생성부(20)가 룩업 테이블 생성 단계(S3)를 수행하여, 도 3의 (a)와 같이, 데이버 베이스로부터 입력된 텍스트를 도 3의 (b)에 도시된 아이디와 대표 표현을 포함하는 룩업 테이블을 생성할 수 있다.
이와 같은 각 단계에 대해 보다 구체적으로 설명하면 다음과 같다.
자연어 처리부(10)는 데이터 베이스(40)로부터 텍스트가 입력되면, 입력 텍스트를 각 문장 단위로 구분하고, 각 문장에 포함된 단어에 대한 프리디컷(predicate)을 추출하는 프리디컷 추출 단계(S1)를 수행할 수 있다.
이를 위해, 일례로 도 3의 (a)에 도시된 텍스트를 자연어 처리부(10)는 프리디컷 추출 단계(S1)를 통해, 도 4의 (a) 및 도 5의 (a)에 도시된 바와 같이, 텍스트를 P1, P2, P3 등 각 문장 단위로 구분할 수 있다.
이후, 각 문장에 포함된 단어에 대한 프리디컷(predicate)을 추출하기 위해, 각 문장을 단어 단위로 토크나이즈(tokenize)할 수 있다.
즉, 도 4의 (a) 및 도 5의 (a)의 문장 중 일례로, P1과 P2가 다음과 같은 문장을 가질 때,
“P1: Karen was assigned a roommate her first year of college.”
“P2: Her roommate asked her to go to a nearby city for a concert.”
P1과 P2 문장은 아래와 같이, 토크나이즈(tokenize)될 수 있다.
P1: [Karen, was, assigned, a, roommate, her, first, year, of, college]
P2: [Her, roommate, asked, her, to, go, to, a, nearby, city, for, a, concert]
이후, 각 문장에 대하여 품사를 분석하고, 명사구나 동사구 등에 대한 덩어리(chunk) 정보를 추출할 수 있다.
이후, 각 문장의 주용 내용인 주어부 및 동사구만 필터링할 수 있다.
일례로, 문장 P1은 다음과 같이, “P1:Karen was assigned a roommate” 으로 필터링할 수 있다.
이후, 필터링된 문장의 프리디컷(predicate)을 다음과 같이, “P1: (assign, Karem, roommate)”으로 추출할 수 있다. 이와 같은 방법으로, 도 4의 (b) 및 도 5의 (b)와 같은 각 문장에 대한 프리디컷을 추출할 수 있다.
이후, 자연어 처리부(10)는 정규화 단계(S2)를 통해, 각 문장에 대해 추출된 프리디컷은 대표 표현으로 정규화될 수 있다. 일례로, 단수 및 복수는 단수로, 현재 시제 및 과거 시제는 대표 형태로 정규화할 수 있다.
아울러, 개체명 인식(Named Entity Recognition, NER) 방법을 수행하여, 사람 이름, 대명사를 사람(PERSON)으로, 장소 이름은 장소(LOCATION)로, 숫자의 명칭(일례로, 1, 2, 3 등)은 숫자(NUMBER)로 정규화할 수 있다.
이에 따라, P1 문장은 “P1: (assign, PERSON, PERSON)”으로 정규화될 수 있고, 이와 같은 방법으로, 도 4의 (c) 및 도 5의 (c)에 도시된 바와 같이, 정규화될 수 있다.
이후, 임베딩 벡터 생성부(20)가 도 4의 (d)와 같이, 상호 인접한 대표 표현들과의 관계를 정의하여, 페어(pair)로 표현할 수 있다.
이를 위해, 도 5의 (d)와 같이, 도 5의 (d)와 같이, 각 문장에 대한 대표 표현과 대표 표현 각각에 대응되는 아이디(id)를 포함하는 룩업 테이블을 생성할 수 있다.
구체적으로 룩업 테이블에서는 각 문장을 아이디(id) 값으로 지정하고, 각 문장에 대한 대표 표현을 아이디(id)에 대응하는 내용이 되도록 할 수 있다.
이와 같은 도 5의 (d)와 같은 룩업 테이블을 참조하여, 룩업 테이블 상의 각 아이디에 대해 각 아이디와 인접한 대표 표현들과의 관계를 정의하여, 도 5의 (e)와 같이, 페어(pair)로 표현할 수 있다.
일례로, 임베딩 벡터 생성부(20)는 텍스트를 아이디(id) 리스트 (p1, p2, p3…pN)로 표현하고, 각 아이디(id)에 대하여 해당 아이디(id)와 인접한 대표 표현들(context)과와의 관계를 페어로 표현할 수 있다. 이때, 대표 표현식에 대한 아이디(id)를 사용할 수 있다.
일례로, 윈도우 사이즈를 N이라 할 때, 임베딩 벡터 생성부(20)는 pi에 대하여 (pi, pi-N/2), (pi, pi-1), (pi, pi-2), …, (pi, pi+1), (pi, pi+2), …, (pi, pi+N/2) 쌍을 생성하여, 도 4의 (d) 및 도 5의 (e)와 같은 페어를 표현할 수 있다.
따라서, 페어의 첫 번째 값은 아이디(id)값이 기재되고, 두 번째 값은 인접한 대표 표현들(context)과와의 관계 값이 기재될 수 있다.
이후, 임베딩 벡터 생성부(20)는 벡터화 단계(S5)에서, 각 문장에 대한 페어를 이용하여 워드 투 벡터(word2vec)의 스킵-그램(skip-gram) 방식으로 신경망을 훈련을 수행할 수 있다.
보다 구체적으로, 임베딩 벡터 생성부(20)는 벡터화 단계(S5)에서, 도 6에 도시된 바와 같이, 각 문장에 대한 페어에서 첫 번째 값을 입력으로, 두 번째를 출력으로 하여, 원 핫 인코딩(one-hot encoding) 방식을 이용한 신경망 훈련을 수행하여, 임베딩 벡터(embedding vector)로 표현할 수 있다.
일례로, 도 6에서, 원 핫 인코딩(one-hot encoding) 방식을 이용한 신경망 훈련을 수행할 때, 페어에서 각 문장에 대한 아이디 값인 첫 번째 값은 입력으로, 인접한 대표 표현들(context)과와의 관계 값인 두 번째 값은 출력으로 설정한 상태에서 신경망 훈련을 수행하여, 임베딩 벡터(embedding vector)값을 출력 수 있다.
도 6에서 Matrix W의 i번째 행이 ID i에 해당하는 문장을 표현하는 N 차원 벡터가 될 수 있고, 두 문장 IDi, IDj간의 관련성은 두 벡터 i, j간의 거리(distance) 수치가 적을수록 관련이 높을 수 있다.
이후, 인과 관계 추출부는 거리값 산출 단계(S6)에서 각 문장에 대한 임베딩 벡터(embedding vector) 값을 이용하여, 각 문장 사이의 거리값을 산출할 수 있다.
따라서, 이와 같이 각 문장을 임베딩 벡터(embedding vector) 값을 이용간 각 문장 사이의 거리값을 이용하여, 각 문장의 관계성을 측정할 수 있다.
예를 들어, 다음 문장 P1, P2, P3가 아래와 같이, 임베딩 벡터(embedding vector)로 표현될 때,
P1: assign, Karen, roommate => [0.2, 0.2, 0.3, 0.4, 0.5, 0.3, 0.2]
P2: ask, roommate, Karen, concert => [0.3, 0., 0.1, 0., 1., 0.1, 0.5]
P3: agree, Karen ==> [0.1, 0.1, 0.7, 0., 0.8, 0.1, 0.5]
각 문장간의 거리는 벡터의 각 원소의 단순 차이의 절대값의 합으로 계산하면, p1과 p2간 거리는 1.9, p2와 p3간의 거리는 1.10이 될 수 있다.
여기서, 거리가 더 작은 p2, p3가 인과 관계가 있다고 판단할 수 있다.
이와 같은 본 발명의 시스템은 문장간의 논리적 관련성을 계산하는데 이용될 수 있다.
즉, 복수의 문장이 텍스트로 입력되면, 각 문장에 해당하는 임베딩 벡터(embedding vector)를 생성하고, 이와 같은 각 문장에 대한 임베딩 벡터(embedding vector)를 페어 와이즈(pair-wise) 방법으로 벡터간의 유사도를 계산하여, 유사도가 높으면 관련성 있는 문장으로 판별할 수 있다.
또한, 본 발명의 시스템은 어떤 텍스트가 주어지면, 그 다음에 나올 문장을 선택하는데, 이용될 수 있다
즉, 본 발명과 같이 입력된 텍스트를 임베딩 벡터(embedding vector)로 벡터화하고, 그 다음에 나올 후보 문장이 일반적인 다음 문장 생성 알고리즘으로 생성된 경우, 각 문장들과 후보 문장을 임베딩 벡터(embedding vector)로 벡터화하고, 각 문장과 후보 문장간의 임베딩 벡터(embedding vector)의 유사도를 판단하여, 유사도가 높은 문장을 선택하도록 할 수 있다.
일례로, 도 4의 (a)에서 E1, E2가 후보 문장이라고 할 때, E1, E2의 임베딩 벡터(embedding vector)와 P1, P2, P3의 임베딩 벡터(embedding vector) 사이의 거리 값을 산출하여, E1, E2문장 중 P1, P2, P3 문장과의 거리 값이 가장 작은 문장을 선택하도록 할 수도 있다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims (9)

  1. 입력 텍스트를 각 문장 단위로 구분하고, 상기 각 문장을 토크나이즈(tokenize)하여 각 문장의 품사를 분석한 후, 주어부 및 동사구를 필터링하고, 필터링 된 주어부 및 동사구 각각에 대한 프리디컷(predicate)을 추출하여, 개체명 인식 방법에 기초하여 상기 각 문장에 대해 추출된 상기 프리디컷을 대표 표현으로 정규화하는 자연어 처리부;
    상기 각 문장에 대한 상기 대표 표현과 상기 대표 표현 각각에 대응되는 아이디(id)를 포함하는 룩업 테이블을 생성하고, 상기 룩업 테이블 상의 각 아이디에 대해 각 아이디와 인접한 대표 표현들과의 관계를 정의하여 페어(pair)로 표현한 후, 상기 각 문장에 대한 상기 페어를 상기 각 문장에 대한 임베딩 벡터(embedding vector)로 표현하는 임베딩 벡터 생성부;
    상기 각 문장에 대한 임베딩 벡터 값을 이용하여, 상기 각 문장 사이의 거리값을 산출하는 인과관계 추출부;를 포함하는 임베딩 기반의 인과 관계 탐지 시스템.
  2. 삭제
  3. 제1 항에 있어서,
    상기 임베딩 벡터 생성부는
    상기 각 문장에 대한 상기 페어를 이용하여 워드 투 벡터(word2vec)의 스킵-그램(skip-gram) 방식으로 신경망을 훈련을 수행하는 임베딩 기반의 인과 관계 탐지 시스템.
  4. 제1 항에 있어서,
    상기 임베딩 벡터 생성부는
    상기 각 문장에 대한 상기 페어에서 첫 번째 값을 입력으로, 두 번째를 출력으로 하여, 원 핫 인코딩(one-hot encoding) 방식을 이용한 신경망 훈련을 수행하여, 상기 임베딩 벡터로 표현하는 임베딩 기반의 인과 관계 탐지 시스템.
  5. 자연어 처리부가 입력 텍스트를 각 문장 단위로 구분하고, 상기 각 문장을 토크나이즈(tokenize)하여 각 문장의 품사를 분석한 후, 주어부 및 동사구를 필터링하며, 개체명 인식 방법에 기초하여 상기 각 문장에 대한 프리디컷(predicate)을 추출하는 프리디컷 추출 단계;
    상기 자연어 처리부가 상기 각 문장에 대해 추출된 프리디컷을 대표 표현으로 정규화하는 정규화 단계;
    임베딩 벡터 생성부가 상기 각 문장에 대한 상기 대표 표현과 상기 대표 표현 각각에 대응되는 아이디(id)를 포함하는 룩업 테이블을 생성하는 룩업 테이블 생성 단계;
    상기 임베딩 벡터 생성부가 상기 룩업 테이블 상의 각 아이디에 대해 해당 아이디에 인접한 대표 표현들과의 관계를 정의하여 페어(pair)으로 표현하는 페어 표현 단계;
    상기 임베딩 벡터 생성부가 상기 각 문장에 대한 상기 페어를 상기 각 문장에 대한 임베딩 벡터(embedding vector)로 표현하는 벡터화 단계; 및
    인과 관계 추출부가 상기 각 문장에 대한 임베딩 벡터 값을 이용하여, 상기 각 문장 사이의 거리값을 산출하는 거리값 산출 단계;를 포함하는 임베딩 기반의 인과 관계 탐지 방법.
  6. 삭제
  7. 제5 항에 있어서,
    상기 벡터화 단계는
    상기 각 문장에 대한 상기 페어를 이용하여 워드 투 벡터(word2vec)의 스킵-그램(skip-gram) 방식으로 신경망을 훈련을 수행하는 임베딩 기반의 인과 관계 탐지 방법.
  8. 제5 항에 있어서,
    상기 벡터화 단계는
    상기 각 문장에 대한 상기 페어에서 첫 번째 값을 입력으로, 두 번째를 출력으로 하여, 원 핫 인코딩(one-hot encoding) 방식을 이용한 신경망 훈련을 수행하여, 상기 임베딩 벡터로 표현하는 임베딩 기반의 인과 관계 탐지 방법.
  9. 제5항, 제7항 및 제8항 중 어느 하나에 기재된 임베딩 기반의 인과 관계 탐지 방법을 실행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터에 의해 판독 가능한 기록매체.
KR1020190019985A 2019-02-20 2019-02-20 임베딩 기반의 인과 관계 탐지 시스템과 방법 및 이를 실행하기 위한 프로그램이 기록된 기록매체 KR102203895B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190019985A KR102203895B1 (ko) 2019-02-20 2019-02-20 임베딩 기반의 인과 관계 탐지 시스템과 방법 및 이를 실행하기 위한 프로그램이 기록된 기록매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190019985A KR102203895B1 (ko) 2019-02-20 2019-02-20 임베딩 기반의 인과 관계 탐지 시스템과 방법 및 이를 실행하기 위한 프로그램이 기록된 기록매체

Publications (2)

Publication Number Publication Date
KR20200101735A KR20200101735A (ko) 2020-08-28
KR102203895B1 true KR102203895B1 (ko) 2021-01-15

Family

ID=72265904

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190019985A KR102203895B1 (ko) 2019-02-20 2019-02-20 임베딩 기반의 인과 관계 탐지 시스템과 방법 및 이를 실행하기 위한 프로그램이 기록된 기록매체

Country Status (1)

Country Link
KR (1) KR102203895B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102535613B1 (ko) 2021-02-15 2023-05-23 한국전자통신연구원 다변량 세트에서의 매개 변량 및 매개 영향도 추출 방법 및 시스템

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018066445A1 (ja) * 2016-10-05 2018-04-12 国立研究開発法人情報通信研究機構 因果関係認識装置及びそのためのコンピュータプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9009590B2 (en) 2001-07-31 2015-04-14 Invention Machines Corporation Semantic processor for recognition of cause-effect relations in natural language documents
KR102199067B1 (ko) * 2018-01-11 2021-01-06 네오사피엔스 주식회사 다중 언어 텍스트-음성 합성 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018066445A1 (ja) * 2016-10-05 2018-04-12 国立研究開発法人情報通信研究機構 因果関係認識装置及びそのためのコンピュータプログラム

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
X. Zhang et al., Character-level Convolutional Networks for Text Classification, The Advances in neural information processing systems, pp.649-657 (2015)
김도우, Doc2Vec을 활용한 CNN 기반 한국어 신문 기사 분류에 관한 연구, 서강대학교 석사학위 논문 (2017.01)*
김혜민 외, 품사 분포와 Bidirectional LSTM CRFs를 이용한 음절 단위 형태소 분석기, 제28회 한글및한국어 정보처리 학술대회 논문집 (2016)
모경현 외, 단어와 자소 기반 합성곱 신경망을 이용한 문서 분류, 대한산업공학회지 44권 3호, pp.180-188 (2018.06)*
임근영 외, 딥러닝과 Char2Vec을 이용한 문장 유사도 판별, 한국정보통신학회논문지 Vol.22 No.10, pp.1300-1306 (2018.10)

Also Published As

Publication number Publication date
KR20200101735A (ko) 2020-08-28

Similar Documents

Publication Publication Date Title
US20180060306A1 (en) Extracting facts from natural language texts
WO2016188279A1 (zh) 一种故障谱的生成、基于故障谱的检测方法和装置
KR101813683B1 (ko) 커널 rdr을 이용한 태깅 말뭉치 오류 자동수정방법
JP2017049681A (ja) 質問応答システムの訓練装置及びそのためのコンピュータプログラム
CN110765235B (zh) 训练数据的生成方法、装置、终端及可读介质
KR101851790B1 (ko) 질문 데이터 세트 확장 장치 및 방법
US11170169B2 (en) System and method for language-independent contextual embedding
KR101962113B1 (ko) 자연어 문장을 확장하는 장치와 상기 자연어 문장을 확장하는 방법
KR20200080822A (ko) 텍스트 데이터에서 의미상 대응하는 자연어-sql의 매핑 방법
JP6614152B2 (ja) テキスト処理システム、テキスト処理方法、及び、コンピュータ・プログラム
KR20180062490A (ko) 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 다중분류 방법
US20220245361A1 (en) System and method for managing and optimizing lookup source templates in a natural language understanding (nlu) framework
JP2022151838A (ja) 低リソース言語からのオープン情報の抽出
CN114840685A (zh) 一种应急预案知识图谱构建方法
Al-Azzawy et al. Arabic words clustering by using K-means algorithm
KR102203895B1 (ko) 임베딩 기반의 인과 관계 탐지 시스템과 방법 및 이를 실행하기 위한 프로그램이 기록된 기록매체
CN113032371A (zh) 数据库语法分析方法、装置和计算机设备
JP4005343B2 (ja) 情報検索システム
JP5911931B2 (ja) 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体
Kramer et al. Improvement of a naive Bayes sentiment classifier using MRS-based features
US20220229986A1 (en) System and method for compiling and using taxonomy lookup sources in a natural language understanding (nlu) framework
US20220229990A1 (en) System and method for lookup source segmentation scoring in a natural language understanding (nlu) framework
US20220229987A1 (en) System and method for repository-aware natural language understanding (nlu) using a lookup source framework
KR102497539B1 (ko) 의미역 결정 기술을 활용한 온톨로지 기반 지식베이스 구축 방법
KR102345568B1 (ko) 자연어 단어를 데이터베이스의 컬럼 및 테이블과 연결하는 방법

Legal Events

Date Code Title Description
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant