KR100755678B1

KR100755678B1 - 개체명 검출 장치 및 방법

Info

Publication number: KR100755678B1
Application number: KR1020050102370A
Authority: KR
Inventors: 이재원; 강인호; 임해창; 김정수
Original assignee: 삼성전자주식회사
Priority date: 2005-10-28
Filing date: 2005-10-28
Publication date: 2007-09-05
Also published as: KR20070045748A; US20070100814A1; US8655646B2

Abstract

본 발명은 개체명 검출에 관한 것으로서, 본 발명의 실시에 따른 개체명 검출 장치는 소정의 학습 예제와 입력된 문장을 구성하는 형태소의 자질 정보를 기초로 후보 개체명을 검출하고, 검출된 후보 개체명을 포함하는 태깅된 문장을 제공하는 후보 개체명 추출 모듈과, 개체명 사전 및 소정의 규칙에 대한 정보를 저장하는 저장 모듈 및 상기 개체명 사전 및 상기 규칙을 기초로 상기 제공된 문장에 포함된 후보 개체명에 대한 최종 개체명 여부를 판별하고, 판별 결과에 대응하여 상기 문장을 학습 예제로 제공하여 점진적으로 후보 개체명 검출 확률을 갱신하도록 하는 학습 예제 재생성 모듈을 포함한다.

개체명, 음성 인식

Description

개체명 검출 장치 및 방법{Apparatus and method for detecting named entity}

도 1은 본 발명의 일 실시예에 따른 개체명 검출 시스템의 구조를 나타내는 블록도이다.

도 2는 본 발명의 일 실시예에 따른 개체명 검출 장치의 구조를 나타내는 블록도이다.

도 3은 본 발명의 일 실시예에 따른 개체명 검출 방법을 나타내는 플로우 차트이다.

도 4는 본 발명의 일 실시예에 따른 음석 인식 시스템의 구조를 나타내는 블록도이다.

< 도면의 주요 부분에 대한 설명 >

100: 개체명 검출 시스템

110: 음성 인식기

120: 문장 입력기

130: 형태소 분석기

140: 개체명 검출 장치

142: 후보 개체명 추출 모듈

144: 모델 학습 모듈

146: 저장 모듈

148: 학습 예제 재생성 모듈

본 발명은 개체명 검출에 관한 것으로서, 보다 상세하게는 음성 인식 또는 언어 처리에 있어서 점진적인 학습 기법에 기반하여 개체명을 추출하는 장치 및 방법에 관한 것이다.

일반적으로 개체명(named entity)이라 함은 사람(person), 기관(organization) 등의 이름, 곡명, 방송명 또는 지명과 같이 분류될 수 있는 단어 또는 일련의 단어들의 집합을 의미한다.

예를 들어, "반지의 제왕 틀어 줄래?"와 같은 문장에서 '반지의 제왕'은 개체명에 해당한다.

이러한 개체명은 일상 생활에서 많이 접할 수 있는데, 예를 들어 교통정보 도메인의 경우 사용자 발화의 약 74%가 개체명에 해당하고, 방송 프로그램 발화의 경우 약 44%가 개체명에 해당한다.

개체명 검출은 특히 음성 언어와 관련된 지식 학습 분야에 있어서는 매우 중요한 연구 분야 중의 하나이며, 개체명 검출을 위한 많은 알고리즘들이 제안되고 있다.

개체명 검출의 가장 기본적인 방법으로서, 사전(dictionary)을 기반으로 하는 방법이 있다.

이것은 미리 다수의 개체명을 저장하고, 입력되는 문장으로부터 개체명이라고 판단되는 단어 또는 단어의 집합을 추출하여 기저장된 개체명과 비교하는 방식을 따르게 된다.

그러나, 개체명은 'Open Class' 즉, 시간에 따라 고정적인 것이 아니라 사회, 문화 등에 따라 새롭게 생성되고 시간이 지나면 사라지는 특성을 갖기 때문에 개체명 변이가 빈번하여 상기와 같은 사전 기반 방법만으로는 개체명을 처리하는데에 한계가 있다.

따라서 이러한 점을 개선하기 위하여 통계적 기법을 사용한 개체명 검출 방법이 제안되었는데, 그 예로서 미국 특허 US6,052,682호에서는 'Uni-Gram'과 'Bi-Gram'에 기반하여 다단계 은닉 마코프 모형(Hidden Markov Model)을 사용하여 개체명을 인식하고 분류하는 방법을 개시하고 있다.

그러나, 이러한 경우에는 학습을 위해 충분한 양의 태그 부착 코퍼스(corpus)를 필요로 하므로 생략이나 축약 등의 다양한 대화체 특징을 반영하기 어렵고, 학습 데이터가 증가할 때 재학습이 필요하게 된다.

본 발명은 베이즈(Bayse) 학습 기반 알고리즘을 기반으로 초기 학습 예제와 자질 집합을 사용하여 점진적으로 개체명 검출 확률을 갱신함으로써 보다 개선된 개체명 검출 장치 및 방법을 제공하는 것을 목적으로 한다.

본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기 목적을 달성하기 위하여, 본 발명의 실시예에 따른 개체명 검출 장치는 소정의 학습 예제와 입력된 문장을 구성하는 형태소의 자질 정보를 기초로 후보 개체명을 검출하고, 검출된 후보 개체명을 포함하는 태깅된 문장을 제공하는 후보 개체명 추출 모듈과, 개체명 사전 및 소정의 규칙에 대한 정보를 저장하는 저장 모듈 및 상기 개체명 사전 및 상기 규칙을 기초로 상기 제공된 문장에 포함된 후보 개체명에 대한 최종 개체명 여부를 판별하고, 판별 결과에 대응하여 상기 문장을 학습 예제로 제공하여 점진적으로 후보 개체명 검출 확률을 갱신하도록 하는 학습 예제 재생성 모듈을 포함한다.

또한, 상기 목적을 달성하기 위하여, 본 발명의 실시예에 따른 개체명 검출 방법은 소정의 학습 예제와 입력된 문장을 구성하는 형태소의 자질 정보를 기초로 후보 개체명을 검출하고, 상기 검출된 후보 개체명을 포함하는 태깅된 문장을 제공하는 (a) 단계와, 기저장된 개체명 사전 및 규칙을 기초로 상기 제공된 문장에 포함된 후보 개체명에 대한 최종 개체명 여부를 판별하는 (b) 단계 및 상기 판별 결과에 대응하여 상기 문장을 학습 예제로 제공하여 점진적으로 후보 개체명 검출 확률을 갱신하도록 하는 (c) 단계를 포함한다.

기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있 다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

이하, 본 발명의 실시예들에 의하여 개체명 검출 장치 및 방법을 설명하기 위한 블록도 또는 처리 흐름도에 대한 도면들을 참고하여 본 발명에 대해 설명하도록 한다. 이 때, 처리 흐름도 도면들의 각 블록과 흐름도 도면들의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수 있음을 이해할 수 있을 것이다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 흐름도 블록(들)에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 흐름도 블록(들)에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능 하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑제되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 흐름도 블록(들)에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.

또한, 각 블록은 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실행예들에서는 블록들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.

도 1을 참조하면, 본 발명에 따른 개체명 검출 시스템(100)은 음성 인식기(110), 형태소 분석기(130) 그리고 개체명 검출 장치(140)를 포함한다. 또한, 개체명 검출 시스템(100)은 문장 입력기(120)를 더 포함할 수도 있다.

음성 인식기(110)는 사용자에 의한 발화를 그 발화에 해당하는 텍스트 문장으로 변환하고, 형태소 분석기(130)는 인식된 문장에 대하여 형태소를 분석한다. 이 때, 음성 인식기(110)와 형태소 분석기(130)는 종래의 기술을 사용할 수 있다.

한편, 개체명 검출 시스템(100)은 사용자의 발화뿐만이 아니라 사용자로부터 입력된 문장으로부터 개체명을 검출할 수도 있다.

이를 위하여 개체명 검출 시스템(100)은 문장 입력기(120)를 더 구비할 수 있는데, 문장 입력기(120)는 사용자로부터 문장을 입력받고 입력받은 문장은 형태소 분석기(130)에 의해 형태소가 분석된다. 이 때, 문장 입력기(120)는 사용자가 문장을 입력할 수 있는 모든 수단을 포함한다.

음성 인식기(110) 또는 문장 입력기(120)로부터 입력된 문장이 형태소 해석기(130)에 의해 형태소 분석되면, 개체명 검출 장치(140)는 형태소 분석된 문장으로부터 본 발명의 실시에 따른 방법에 의해 개체명을 검출하게 된다.

개체명 검출 장치(140)에 대해서는 도 2를 통하여 구체적으로 설명하도록 한다.

도 2를 참조하면, 본 발명에 따른 개체명 검출 장치(140)는 후보 개체명 추출 모듈(142), 모델 학습 모듈(144), 저장 모듈(146) 그리고 학습 예제 재생성 모듈(148)을 포함한다.

이 때, 본 실시예에서 사용되는 '모듈'이라는 용어는 FPGA또는 ASIC과 같은 하드웨어 구성요소를 의미하며, 모듈은 어떤 역할들을 수행한다.

후보 개체명 추출 모듈(142)은 도 1에 도시된 형태소 분석기(130)에 의해 제공되는 문장으로부터 개체명으로 예측되는 후보 개체명들을 추출한다. 이 때, 후보 개체명 추출 모듈(142)은 모델 학습 모듈(144)에 의해 학습된 모델에 기반하여 후보 개체명들을 추출하게 된다.

모델 학습 모듈(144)은 다양한 학습 예제를 이용하여 개체명 추출을 위한 모델을 학습한다. 이러한 모델의 예로서, 베이즈(Bayse) 학습 모델을 이용할 수 있다.

저장 모듈(146)은 개체명 사전 및 소정의 규칙에 대한 정보를 저장한다. 이 때, 상기 규칙은 후보 개체명 추출 모듈(142)에 의해 추출된 후보 개체명들이 실제 개체명에 해당할 수 있는지 여부를 판단하기 위한 여러 가지 규칙들을 포함한다.

학습 예제 재생성 모듈(148)은 저장 모듈(146)에 저장된 정보들을 기초로 하여 개체명 추출 모듈(142)에 의해 추출된 후보 개체명들에 대하여 실제 개체명에 해당되는지 여부를 판단하고, 그 결과 학습 예제를 재생성하여 상기 학습 모듈 (144)에 의해 학습된 모델에 반영한다.

한편, 모델 학습 모듈(144)은 개체명 검출 장치(140)의 초기화 단계에서 초기 학습 예제를 학습하여 후보 개체명 추출 모듈(142)이 후보 개체명들을 추출할 때에 상기 학습된 초기 학습 예제를 적용한다. 그리고, 그 이후에는 학습 예제 재생성 모듈(148)에 의해 제공되는 학습 예제를 학습하게 된다.

본 발명에 따른 개체명 검출 장치(140)를 구성하는 각 모듈들간의 동작을 도 3에 도시된 플로우 차트를 통하여 구체적으로 설명하도록 한다.

우선 모델 학습 모듈(144)은 초기 학습 예제를 제공받는데, 우선 모델 학습 모듈(144)은 초기 학습 예제를 구성하는 각각의 어휘를 3종류의 클래스 중 하나의 클래스로 분류하여 해당하는 태그를 부가한다(S305). 이 때, 상기 클래스는 본 발명에서 'B 클래스', 'I 클래스' 그리고 'O 클래스'로 칭하기로 한다. 'B 클래스'는 개체명이라고 판단되는 일련의 어휘 중 첫번째 어휘를 의미하고, 'I 클래스'는 'B 클래스' 다음에 위치하고 개체명이라고 판단되는 어휘를 의미하며, 'O 클래스'는 개체명이 아니라고 판단되는 어휘를 의미한다.

예를 들어 초기 학습 예제가 "MBC에서 하는 신입 사원 몇 시에 하니?"와 같은 경우에, 각각의 어휘에는 다음과 같은 태그가 부가될 수 있다.

'MBC', '에서', '하', '는' -> O 클래스

'신입' -> B 클래스

'사원' -> I 클래스

'몇', '시', '에', '시작하', '니', '? ' -> O 클래스

여기에서 B 클래스와 I 클래스로 구성되는 '신입 사원'이 하나의 개체명에 해당한다.

후보 개체명 추출 모듈(142)은 형태소로 구분된 문장을 입력받고, 모델 학습 모듈(144)에 의한 학습을 기초로 입력받은 문장을 구성하는 각각의 형태소에 대한 클래스를 결정하고 이로부터 개체명이라고 판단되는 후보 개체명을 추출하게 된다(S310).

이 때, 클래스를 결정하기 위해서는 기준이 필요하며, 이러한 기준을 본 발명에서는 '자질'이라고 칭하기로 한다.

자질에는 '어휘' 자질, '품사' 자질, '개념' 자질, '인접 동사' 자질, '인접 동사 개념' 자질이 있다.

어휘 자질은 현재 형태소와 앞/뒤 각각 3개 형태소의 어휘를 가리키는 자질을 나타내고, 'w'로 표시하기로 한다.

품사 자질은 현재 형태소와 앞/뒤 각각 3개 형태소의 품사를 가리키는 자질을 나타내고, 'p'로 표시하기로 한다.

개념 자질은 현재 형태소와 앞/뒤 각각 3개 형태소의 온톨로지 개념 정보를 가리키는 자질을 나타내고, 'o'로 표시하기로 한다.

인접 동사 자질은 현재 어휘 이후에 가장 처음 나오는 동사의 어휘를 가리키는 자질을 나타내고, 'v'로 표시하기로 한다.

인접 동사 개념 자질은 인접 동사의 온톨로지상의 개념을 가리키는 자질을 나타내고, 'vo'로 표시하기로 한다.

예를 들어, 위 초기 학습 예제 중에서 '사원'의 클래스를 결정하기 위한 자질을 추출하면 다음과 같이 표현될 수 있다.

어휘 자질: <하/-3, 는/-2, 신입/-1, 사원/0, 몇/1, 시/2, 에/3>

품사 자질: <VV/-3, EFD/-2, NN/-1, NN/0, DU/1, NNBU/2, PA/3>

개념 자질: <S_BR/-3, NULL/-2, NULL/-1, NULL/0, S_HOW/1, S_TM/2, NULL/3>

인접 동사: <시작하>

인접 동사 개념: <S_BG>

여기에서, 'VV'는 일반 동사, 'EFD'는 관형사형 어미, 'NN'는 일반 명사, 'DU'는 관형사, ' NNBU'는 의존명사, 'PA'는 격조사, 'S_BR'은 의미상 '방송', 'S_HOW'는 의미상 '몇', 'S_TM'은 의미상 '시', 'S_BG'는 의미상 '시작'을 나타낸다.

임의의 문장을 구성하는 각각의 어휘는 상기와 같은 자질을 기초로 상기와 같은 3개의 클래스 중 하나의 클래스로 결정되는 것이다.

한편, 자질을 기초로 클래스를 결정하기 위한 분류 모형으로서 베이즈(Bayse) 학습 모델을 이용할 수 있다.

베이즈(Bayse) 학습 모델은 다음과 같이 표현될 수 있다.

만일, 현재 분류하고자 하는 어휘를 wo라고 하면, 수학식 첫번째 줄은 현재 분류하고자 하는 어휘의 태그는 현재 어휘가 속한 문맥에서 추출한 자질이 F일 때, 현재의 어휘가 B 클래스가 될 확률, I 클래스가 될 확률, O 클래스가 될 확률을 구한 다음 가장 큰 확률값을 가지는 태그로 선정한다는 의미이다. 여기에서, C는 가능한 태그 집합 {B, I, O}를 의미하고, F는 앞서 설명한 5가지의 자질을 의미한다.

수학식 두번째 줄은 배제어 정리에 의해 첫번째 줄을 풀어서 쓴 것이다. 첫번째 줄의 P(c|F)에 해당하는 확률값을 직접 구하기 어렵기 때문에 두번째 줄처럼 전개한 다음 P(c), P(F|c), P(F) 확률값을 이용하여 P(c|F)값을 구한다.

수학식 세번째 줄은 두번째 줄 수학식에서 F 부분을 각 자질별로 어휘(w), 품사(p), 개념(o), 인접 동사(v), 인접 동사 개념(vo)으로 다시 전개한 것이다. 어휘(w), 품사(p), 개념(o)은 좌우 k개씩, 즉 -k에서 k까지 있으며, 인접 동사(v)와 인접 동사 개념(vo)은 한 개만 존재하는 속성이므로 따로 분리한 것이다. 이 때, 두번째 수학식에서 분모를 이루는 P(F)는 클래스 판정에 영향을 주지 않는 확률이 되어 세번째 수학식에서 생략하였다.

네번째 줄은 세번째 수학식에서 P(wi, pi, oi |c) 부분을 독립성 가정을 이용하여 좀 더 구하기 쉬운 확률값으로 전개한 것이다. 즉, wi, pi, oi는 상호간에 영향을 미치지 않는 독립적인 관계라는 가정하에 P(wi|c), P(pi|c), P(oi|c)의 곱으로 표현될 수 있는 것이다.

마지막 줄의 수학식은 로그(log)를 전개한 것이다.

초기 학습 예제와 위와 같은 베이즈(Bayse) 학습 모델을 이용하여 후보 개체명 추출 모듈(142)로 입력된 문장을 구성하는 각각의 어휘에 대하여 클래스가 결정되면 이를 기초로 후보 개체명이 검출되고 결정된 클래스가 태깅(tagging)된 문장이 학습 예제 재생성 모듈(148)로 전달된다(S315).

학습 예제 재생성 모듈(148)은 저장 모듈(146)에 저장된 개체명 사전 및 규칙을 기초로 상기 태깅된 문장에 포함된 후보 개체명이 실제로 개체명에 속하는지 여부를 최종 판정하게 된다.

이 때, 저장 모듈(146)은 중의성이 없는 명확한 개체명의 목록을 갖는 사전 및 개체명 판단의 기준이 되는 규칙을 저장한다.

중의성이 없는 명확한 개체명은 후보 개체명 추출 모듈(142)에 의해 추출된 후보 개체명 중 의미 중의성이 없는 고유명사 형태의 개체명 또는 비교적 긴 개체명이 될 수 있으며, 예를 들어 방송에 관한 개체명의 경우, "미안하다 사랑한다", "대장금", "파리의 연인", "100분 토론", "나이트라인"과 같은 개체명들이 있다.

또한, 상기 규칙에는 의미열 패턴을 이용한 오류 검사 규칙 및 배제어 리스 트를 사용한 오류 검사 규칙이 있다.

의미열 패턴을 이용한 오류 검사 규칙의 예로서, "...방송하(/TV_V_BROADCAST)는 드라마(/TV_N_DRAMA)..."에서 추출되는 바이그램(bigram) 의미열 패턴에서 조사 '는'을 제외한 "TV_V_BROADCAST+ TV_N_DRAMA"는 개체명으로 판별하지 않는다.

다른 오류 패턴의 예로서, "TV_BROADCAST+TV_KEYWORD", "TV_BROADCAST" 등이 있다.

한편, 배제어 리스트를 사용한 오류 검사 규칙의 예로서, 배제어 사전을 R이라고 하고, 어절열 n1, n2, nn으로 구성된 개체명 N이 있을 때 R에 포함되는 ni가 있으면 개체명으로 판별하지 않는다. 배제어 사전 R의 예로서, "편성, 드라마, 다큐멘터리, 좀, 더, " 등이 있다. 이외에도 규칙의 예로서, 품사/품사열 패턴을 기반으로 하는 검증 규칙과 의미 정보를 이용한 검증 규칙 등을 포함할 수 있다.

만일 후보 개체명이 사전에 등록된 경우에는 후보 개체명을 최종 개체명으로 결정하고(S320, S325), 후보 개체명이 포함된 문장을 긍정 예문(positive example)로 판정한다(S330). 그리고 상기 긍정 예문을 새로운 학습 예제로 하여 모델 학습 모듈(144)로 제공한다(S350).

한편, S320 단계에서 후보 개체명이 사전에 등록된 경우가 아니라면, 저장 모듈(146)에 저장된 규칙에 위배되는지 여부를 검사하여(S335), 만일 규칙에 위배되는 경우에는 부정 예문(negative example)로 판정한다(S340, S345). 그리고 부정 예문을 새로운 학습 예제로 하여 모델 학습 모듈(144)로 제공한다(S350). 만일 규 칙에 위배되지 않는 경우에는 후보 개체명을 최종 개체명으로 결정은 하지만 모델 학습에는 사용되지 않는다(S342).

한편, 모델 학습 모듈(144)로 제공된 긍정 예문 또는 부정 예문의 학습 예제는 베이즈 모델에 반영되어 앞서 설명한 수학식의 확률값이 조정됨으로써, 점진적으로 개체명 검출 확률이 갱신되어 개체명을 검출하는 확률을 더욱 높일 수 있게 된다.

한편, 본 발명에 대한 실험에 있어서, 200개의 대화체 문장을 이용하여 초기 학습 예제를 구성하고, 500, 1000, 1500개의 대화체 문장을 통한 점진적 학습을 수행하였는데 그 결과는 [표 1]과 같다.

	B			I			O
질의	R	P	F	R	P	F	R	P	F
초기	0.57	0.77	0.66	0.58	0.99	0.73	0.99	0.95	0.97
500	0.64	0.79	0.71	0.66	0.92	0.77	0.99	0.96	0.98
1000	0.68	0.77	0.72	0.69	0.90	0.78	0.98	0.96	0.97
1500	0.69	0.75	0.72	0.71	0.89	0.79	0.98	0.97	0.98

이 때, R(recall)은 해당하는 클래스에 포함된 개체명이 선택될 확률을 나타내고 있으며, P(precision)은 선택된 개체명에서 해당하는 클래스가 검출될 확률을 나타내고 있으며, F는 R 성능과 P 성능을 모두 고려한 성능 지표이다.

위 [표 1]에서 알 수 있는 바와 같이, 본 발명을 따르게 되면 B 클래스와 I 클래스에 대한 F 성능 지표가 대화체 문장이 증가함에 따라 점진적으로 커지고 있음을 알 수 있다.

도 4는 본 발명의 일 실시예에 따른 음성 대화 시스템의 구조를 나타내는 블록도이다.

도 4를 참조하면, 본 발명에 따른 음성 대화 시스템(400)은 개체명 검출 시스템(410), 제어 시스템(420), 저장 시스템(430) 그리고 출력 시스템(440)을 포함한다.

개체명 검출 시스템(410)은 도 1에서 도시한 개체명 검출 시스템(100)에 대응하는 구조를 포함하며, 본 발명에 따른 방법에 따라 사용자의 발화로부터 개체명을 추출하여 제공한다.

제어 시스템(420)은 개체명 검출 시스템(410)으로부터 전달받은 개체명을 이용하여 음성 대화 시스템(400)의 해당하는 기능을 수행한다.

예를 들어, 음성 대화 시스템(400)이 개체명에 해당하는 정보를 검색하여 사용자에게 제공하는 시스템인 경우에는, 제어 시스템(420)은 개체명 검출 시스템(410)으로부터 전달받은 개체명을 이용하여 저장 시스템(430)에서 상기 개체명에 대한 정보를 검색하고, 검색된 정보를 출력 시스템(440)을 통하여 사용자에게 제공할 수 있는 것이다.

이 때, 저장 시스템(430)은 디지털 정보를 저장할 수 있는 각종 매체를 포함하며, 제어 시스템(420)과 유/무선 네트워크를 통하여 연결된 외부 저장 매체 또는 외부 서버를 포함할 수 있다.

또한, 출력 시스템(440)은 상기 검색된 정보를 사용자에게 제공하는 시스템으로서, 출력 시스템(440)의 형태는 상기 검색된 정보의 종류에 따라 달라질 수 있다. 예를 들어, 상기 검색된 정보가 텍스트, 이미지 등과 같은 시각적 정보인 경우에는 디스플레이 장치의 형태를 갖고, 상기 검색된 정보가 음악, 소리 등과 같은 청각적 정보인 경우에는 스피커의 형태를 갖고, 상기 검색된 정보가 촉각 정보인 경우에는 햅틱 기기(haptic device)의 형태를 갖을 수 있다. 또한, 상기 검색된 정보가 동영상 정보인 경우에는 디스플레이 및 스피커를 모두 구비한 형태일 수도 있다.

본 발명의 실시에 따라 개체명 추출이 잘 이루어지는 경우 음성 대화의 성능 향상이 기대될 수 있으므로 결국 도 4에서 도시한 음성 대화 시스템(400)의 성능 향상에도 기여할 수 있게 된다.

이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

본 발명을 따르게 되면, 개체명 검출에 있어서 점진적 학습을 통해 지속적인 학습 효과를 제공하는 효과가 있다.

또한 본 발명을 따르게 되면, 작은 양의 태그가 부착된 코퍼스를 사용함으로써 보다 효율적인 개체명 검출을 수행할 수 있는 효과가 있다.

Claims

소정의 학습 예제와 입력된 문장을 구성하는 형태소의 자질 정보를 기초로 후보 개체명을 검출하고, 검출된 후보 개체명을 포함하는 태깅된 문장을 제공하는 후보 개체명 추출 모듈;

개체명 사전 및 소정의 규칙에 대한 정보를 저장하는 저장 모듈; 및

상기 개체명 사전 및 상기 규칙을 기초로 상기 제공된 문장에 포함된 후보 개체명에 대한 최종 개체명 여부를 판별하고, 판별 결과에 대응하여 상기 문장을 학습 예제로 제공하여 점진적으로 후보 개체명 검출 확률을 갱신하도록 하는 학습 예제 재생성 모듈을 포함하는 개체명 검출 장치.
제1항에 있어서,

상기 자질 정보는 어휘 자질, 품사 자질, 개념 자질, 인접 동사 자질 또는 인접 동사 개념 자질을 포함하는 개체명 검출 장치.
제1항에 있어서,

상기 후보 개체명 추출 모듈은 상기 자질 정보에 기반한 소정의 학습 모델을 이용하여 상기 형태소의 클래스를 결정하고, 상기 결정된 클래스 정보를 태그로 부가하여 태깅된 문장을 제공하는 개체명 검출 장치.
제3항에 있어서,

상기 학습 모델은 베이즈(Bayse) 학습 모델을 포함하는 개체명 검출 장치.
제1항에 있어서,

상기 개체명 사전에 기록된 개체명은 중의성이 없는 명확한 개체명을 포함하는 개체명 검출 장치.
제1항에 있어서,

상기 규칙은 의미열 패턴을 이용한 오류 검사 규칙을 포함하는 개체명 검출 장치.
제1항에 있어서,

상기 규칙은 배제어 리스트를 사용한 오류 검사 규칙을 포함하는 개체명 검출 장치.
제1항에 있어서,

학습 예제 재생성 모듈에 의해 제공되는 학습 예제는 상기 규칙에 위배되는 경우에는 부정 예문으로서 제공되는 개체명 검출 장치.
제1항에 있어서,

상기 후보 개체명이 상기 개체명 사전에 포함된 경우, 상기 학습 예제 재생성 모듈은 상기 후보 개체명이 포함된 문장을 긍정 예문인 학습 예제로서 제공하는 개체명 검출 장치.
소정의 학습 예제와 입력된 문장을 구성하는 형태소의 자질 정보를 기초로 후보 개체명을 검출하고, 상기 검출된 후보 개체명을 포함하는 태깅된 문장을 제공하는 (a) 단계;

기저장된 개체명 사전 및 규칙을 기초로 상기 제공된 문장에 포함된 후보 개체명에 대한 최종 개체명 여부를 판별하는 (b) 단계; 및

상기 판별 결과에 대응하여 상기 문장을 학습 예제로 제공하여 점진적으로 후보 개체명 검출 확률을 갱신하도록 하는 (c) 단계를 포함하는 개체명 검출 방법.
제10항에 있어서,

상기 자질 정보는 어휘 자질, 품사 자질, 개념 자질, 인접 동사 자질 또는 인접 동사 개념 자질을 포함하는 개체명 검출 방법.
제10항에 있어서,

상기 (a) 단계는 상기 자질 정보에 기반한 소정의 학습 모델을 이용하여 상기 형태소의 클래스를 결정하고, 상기 결정된 클래스 정보를 태그로 부가하여 태깅된 문장을 제공하는 단계를 포함하는 개체명 검출 방법.
제12항에 있어서,

상기 학습 모델은 베이즈(Bayse) 학습 모델을 포함하는 개체명 검출 방법.
제10항에 있어서,

상기 개체명 사전에 기록된 개체명은 중의성이 없는 명확한 개체명을 포함하는 개체명 검출 방법.
제10항에 있어서,

상기 규칙은 의미열 패턴을 이용한 오류 검사 규칙을 포함하는 개체명 검출 방법.
제10항에 있어서,

상기 규칙은 배제어 리스트를 사용한 오류 검사 규칙을 포함하는 개체명 검출 방법.
제10항에 있어서,

상기 (c) 단계에서 제공되는 학습 예제는 상기 규칙에 위배되는 경우에는 부정 예문으로서 제공되는 개체명 검출 방법.
제10항에 있어서,

상기 후보 개체명이 상기 개체명 사전에 포함된 경우, 상기 (c) 단계에서 제공되는 학습 예제는 상기 후보 개체명이 포함된 문장을 긍정 예문으로 하여 제공되는 개체명 검출 방법.