KR100755678B1 - 개체명 검출 장치 및 방법 - Google Patents
개체명 검출 장치 및 방법 Download PDFInfo
- Publication number
- KR100755678B1 KR100755678B1 KR1020050102370A KR20050102370A KR100755678B1 KR 100755678 B1 KR100755678 B1 KR 100755678B1 KR 1020050102370 A KR1020050102370 A KR 1020050102370A KR 20050102370 A KR20050102370 A KR 20050102370A KR 100755678 B1 KR100755678 B1 KR 100755678B1
- Authority
- KR
- South Korea
- Prior art keywords
- entity name
- sentence
- learning
- rule
- candidate
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
Abstract
본 발명은 개체명 검출에 관한 것으로서, 본 발명의 실시에 따른 개체명 검출 장치는 소정의 학습 예제와 입력된 문장을 구성하는 형태소의 자질 정보를 기초로 후보 개체명을 검출하고, 검출된 후보 개체명을 포함하는 태깅된 문장을 제공하는 후보 개체명 추출 모듈과, 개체명 사전 및 소정의 규칙에 대한 정보를 저장하는 저장 모듈 및 상기 개체명 사전 및 상기 규칙을 기초로 상기 제공된 문장에 포함된 후보 개체명에 대한 최종 개체명 여부를 판별하고, 판별 결과에 대응하여 상기 문장을 학습 예제로 제공하여 점진적으로 후보 개체명 검출 확률을 갱신하도록 하는 학습 예제 재생성 모듈을 포함한다.
개체명, 음성 인식
Description
도 1은 본 발명의 일 실시예에 따른 개체명 검출 시스템의 구조를 나타내는 블록도이다.
도 2는 본 발명의 일 실시예에 따른 개체명 검출 장치의 구조를 나타내는 블록도이다.
도 3은 본 발명의 일 실시예에 따른 개체명 검출 방법을 나타내는 플로우 차트이다.
도 4는 본 발명의 일 실시예에 따른 음석 인식 시스템의 구조를 나타내는 블록도이다.
< 도면의 주요 부분에 대한 설명 >
100: 개체명 검출 시스템
110: 음성 인식기
120: 문장 입력기
130: 형태소 분석기
140: 개체명 검출 장치
142: 후보 개체명 추출 모듈
144: 모델 학습 모듈
146: 저장 모듈
148: 학습 예제 재생성 모듈
본 발명은 개체명 검출에 관한 것으로서, 보다 상세하게는 음성 인식 또는 언어 처리에 있어서 점진적인 학습 기법에 기반하여 개체명을 추출하는 장치 및 방법에 관한 것이다.
일반적으로 개체명(named entity)이라 함은 사람(person), 기관(organization) 등의 이름, 곡명, 방송명 또는 지명과 같이 분류될 수 있는 단어 또는 일련의 단어들의 집합을 의미한다.
예를 들어, "반지의 제왕 틀어 줄래?"와 같은 문장에서 '반지의 제왕'은 개체명에 해당한다.
이러한 개체명은 일상 생활에서 많이 접할 수 있는데, 예를 들어 교통정보 도메인의 경우 사용자 발화의 약 74%가 개체명에 해당하고, 방송 프로그램 발화의 경우 약 44%가 개체명에 해당한다.
개체명 검출은 특히 음성 언어와 관련된 지식 학습 분야에 있어서는 매우 중요한 연구 분야 중의 하나이며, 개체명 검출을 위한 많은 알고리즘들이 제안되고 있다.
개체명 검출의 가장 기본적인 방법으로서, 사전(dictionary)을 기반으로 하는 방법이 있다.
이것은 미리 다수의 개체명을 저장하고, 입력되는 문장으로부터 개체명이라고 판단되는 단어 또는 단어의 집합을 추출하여 기저장된 개체명과 비교하는 방식을 따르게 된다.
그러나, 개체명은 'Open Class' 즉, 시간에 따라 고정적인 것이 아니라 사회, 문화 등에 따라 새롭게 생성되고 시간이 지나면 사라지는 특성을 갖기 때문에 개체명 변이가 빈번하여 상기와 같은 사전 기반 방법만으로는 개체명을 처리하는데에 한계가 있다.
따라서 이러한 점을 개선하기 위하여 통계적 기법을 사용한 개체명 검출 방법이 제안되었는데, 그 예로서 미국 특허 US6,052,682호에서는 'Uni-Gram'과 'Bi-Gram'에 기반하여 다단계 은닉 마코프 모형(Hidden Markov Model)을 사용하여 개체명을 인식하고 분류하는 방법을 개시하고 있다.
그러나, 이러한 경우에는 학습을 위해 충분한 양의 태그 부착 코퍼스(corpus)를 필요로 하므로 생략이나 축약 등의 다양한 대화체 특징을 반영하기 어렵고, 학습 데이터가 증가할 때 재학습이 필요하게 된다.
본 발명은 베이즈(Bayse) 학습 기반 알고리즘을 기반으로 초기 학습 예제와 자질 집합을 사용하여 점진적으로 개체명 검출 확률을 갱신함으로써 보다 개선된 개체명 검출 장치 및 방법을 제공하는 것을 목적으로 한다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 목적을 달성하기 위하여, 본 발명의 실시예에 따른 개체명 검출 장치는 소정의 학습 예제와 입력된 문장을 구성하는 형태소의 자질 정보를 기초로 후보 개체명을 검출하고, 검출된 후보 개체명을 포함하는 태깅된 문장을 제공하는 후보 개체명 추출 모듈과, 개체명 사전 및 소정의 규칙에 대한 정보를 저장하는 저장 모듈 및 상기 개체명 사전 및 상기 규칙을 기초로 상기 제공된 문장에 포함된 후보 개체명에 대한 최종 개체명 여부를 판별하고, 판별 결과에 대응하여 상기 문장을 학습 예제로 제공하여 점진적으로 후보 개체명 검출 확률을 갱신하도록 하는 학습 예제 재생성 모듈을 포함한다.
또한, 상기 목적을 달성하기 위하여, 본 발명의 실시예에 따른 개체명 검출 방법은 소정의 학습 예제와 입력된 문장을 구성하는 형태소의 자질 정보를 기초로 후보 개체명을 검출하고, 상기 검출된 후보 개체명을 포함하는 태깅된 문장을 제공하는 (a) 단계와, 기저장된 개체명 사전 및 규칙을 기초로 상기 제공된 문장에 포함된 후보 개체명에 대한 최종 개체명 여부를 판별하는 (b) 단계 및 상기 판별 결과에 대응하여 상기 문장을 학습 예제로 제공하여 점진적으로 후보 개체명 검출 확률을 갱신하도록 하는 (c) 단계를 포함한다.
기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있 다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
이하, 본 발명의 실시예들에 의하여 개체명 검출 장치 및 방법을 설명하기 위한 블록도 또는 처리 흐름도에 대한 도면들을 참고하여 본 발명에 대해 설명하도록 한다. 이 때, 처리 흐름도 도면들의 각 블록과 흐름도 도면들의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수 있음을 이해할 수 있을 것이다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 흐름도 블록(들)에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 흐름도 블록(들)에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능 하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑제되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 흐름도 블록(들)에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
또한, 각 블록은 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실행예들에서는 블록들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
도 1은 본 발명의 일 실시예에 따른 개체명 검출 시스템의 구조를 나타내는 블록도이다.
도 1을 참조하면, 본 발명에 따른 개체명 검출 시스템(100)은 음성 인식기(110), 형태소 분석기(130) 그리고 개체명 검출 장치(140)를 포함한다. 또한, 개체명 검출 시스템(100)은 문장 입력기(120)를 더 포함할 수도 있다.
음성 인식기(110)는 사용자에 의한 발화를 그 발화에 해당하는 텍스트 문장으로 변환하고, 형태소 분석기(130)는 인식된 문장에 대하여 형태소를 분석한다. 이 때, 음성 인식기(110)와 형태소 분석기(130)는 종래의 기술을 사용할 수 있다.
한편, 개체명 검출 시스템(100)은 사용자의 발화뿐만이 아니라 사용자로부터 입력된 문장으로부터 개체명을 검출할 수도 있다.
이를 위하여 개체명 검출 시스템(100)은 문장 입력기(120)를 더 구비할 수 있는데, 문장 입력기(120)는 사용자로부터 문장을 입력받고 입력받은 문장은 형태소 분석기(130)에 의해 형태소가 분석된다. 이 때, 문장 입력기(120)는 사용자가 문장을 입력할 수 있는 모든 수단을 포함한다.
음성 인식기(110) 또는 문장 입력기(120)로부터 입력된 문장이 형태소 해석기(130)에 의해 형태소 분석되면, 개체명 검출 장치(140)는 형태소 분석된 문장으로부터 본 발명의 실시에 따른 방법에 의해 개체명을 검출하게 된다.
개체명 검출 장치(140)에 대해서는 도 2를 통하여 구체적으로 설명하도록 한다.
도 2를 참조하면, 본 발명에 따른 개체명 검출 장치(140)는 후보 개체명 추출 모듈(142), 모델 학습 모듈(144), 저장 모듈(146) 그리고 학습 예제 재생성 모듈(148)을 포함한다.
이 때, 본 실시예에서 사용되는 '모듈'이라는 용어는 FPGA또는 ASIC과 같은 하드웨어 구성요소를 의미하며, 모듈은 어떤 역할들을 수행한다.
후보 개체명 추출 모듈(142)은 도 1에 도시된 형태소 분석기(130)에 의해 제공되는 문장으로부터 개체명으로 예측되는 후보 개체명들을 추출한다. 이 때, 후보 개체명 추출 모듈(142)은 모델 학습 모듈(144)에 의해 학습된 모델에 기반하여 후보 개체명들을 추출하게 된다.
모델 학습 모듈(144)은 다양한 학습 예제를 이용하여 개체명 추출을 위한 모델을 학습한다. 이러한 모델의 예로서, 베이즈(Bayse) 학습 모델을 이용할 수 있다.
저장 모듈(146)은 개체명 사전 및 소정의 규칙에 대한 정보를 저장한다. 이 때, 상기 규칙은 후보 개체명 추출 모듈(142)에 의해 추출된 후보 개체명들이 실제 개체명에 해당할 수 있는지 여부를 판단하기 위한 여러 가지 규칙들을 포함한다.
학습 예제 재생성 모듈(148)은 저장 모듈(146)에 저장된 정보들을 기초로 하여 개체명 추출 모듈(142)에 의해 추출된 후보 개체명들에 대하여 실제 개체명에 해당되는지 여부를 판단하고, 그 결과 학습 예제를 재생성하여 상기 학습 모듈 (144)에 의해 학습된 모델에 반영한다.
한편, 모델 학습 모듈(144)은 개체명 검출 장치(140)의 초기화 단계에서 초기 학습 예제를 학습하여 후보 개체명 추출 모듈(142)이 후보 개체명들을 추출할 때에 상기 학습된 초기 학습 예제를 적용한다. 그리고, 그 이후에는 학습 예제 재생성 모듈(148)에 의해 제공되는 학습 예제를 학습하게 된다.
본 발명에 따른 개체명 검출 장치(140)를 구성하는 각 모듈들간의 동작을 도 3에 도시된 플로우 차트를 통하여 구체적으로 설명하도록 한다.
우선 모델 학습 모듈(144)은 초기 학습 예제를 제공받는데, 우선 모델 학습 모듈(144)은 초기 학습 예제를 구성하는 각각의 어휘를 3종류의 클래스 중 하나의 클래스로 분류하여 해당하는 태그를 부가한다(S305). 이 때, 상기 클래스는 본 발명에서 'B 클래스', 'I 클래스' 그리고 'O 클래스'로 칭하기로 한다. 'B 클래스'는 개체명이라고 판단되는 일련의 어휘 중 첫번째 어휘를 의미하고, 'I 클래스'는 'B 클래스' 다음에 위치하고 개체명이라고 판단되는 어휘를 의미하며, 'O 클래스'는 개체명이 아니라고 판단되는 어휘를 의미한다.
예를 들어 초기 학습 예제가 "MBC에서 하는 신입 사원 몇 시에 하니?"와 같은 경우에, 각각의 어휘에는 다음과 같은 태그가 부가될 수 있다.
'MBC', '에서', '하', '는' -> O 클래스
'신입' -> B 클래스
'사원' -> I 클래스
'몇', '시', '에', '시작하', '니', '? ' -> O 클래스
여기에서 B 클래스와 I 클래스로 구성되는 '신입 사원'이 하나의 개체명에 해당한다.
후보 개체명 추출 모듈(142)은 형태소로 구분된 문장을 입력받고, 모델 학습 모듈(144)에 의한 학습을 기초로 입력받은 문장을 구성하는 각각의 형태소에 대한 클래스를 결정하고 이로부터 개체명이라고 판단되는 후보 개체명을 추출하게 된다(S310).
이 때, 클래스를 결정하기 위해서는 기준이 필요하며, 이러한 기준을 본 발명에서는 '자질'이라고 칭하기로 한다.
자질에는 '어휘' 자질, '품사' 자질, '개념' 자질, '인접 동사' 자질, '인접 동사 개념' 자질이 있다.
어휘 자질은 현재 형태소와 앞/뒤 각각 3개 형태소의 어휘를 가리키는 자질을 나타내고, 'w'로 표시하기로 한다.
품사 자질은 현재 형태소와 앞/뒤 각각 3개 형태소의 품사를 가리키는 자질을 나타내고, 'p'로 표시하기로 한다.
개념 자질은 현재 형태소와 앞/뒤 각각 3개 형태소의 온톨로지 개념 정보를 가리키는 자질을 나타내고, 'o'로 표시하기로 한다.
인접 동사 자질은 현재 어휘 이후에 가장 처음 나오는 동사의 어휘를 가리키는 자질을 나타내고, 'v'로 표시하기로 한다.
인접 동사 개념 자질은 인접 동사의 온톨로지상의 개념을 가리키는 자질을 나타내고, 'vo'로 표시하기로 한다.
예를 들어, 위 초기 학습 예제 중에서 '사원'의 클래스를 결정하기 위한 자질을 추출하면 다음과 같이 표현될 수 있다.
어휘 자질: <하/-3, 는/-2, 신입/-1, 사원/0, 몇/1, 시/2, 에/3>
품사 자질: <VV/-3, EFD/-2, NN/-1, NN/0, DU/1, NNBU/2, PA/3>
개념 자질: <S_BR/-3, NULL/-2, NULL/-1, NULL/0, S_HOW/1, S_TM/2, NULL/3>
인접 동사: <시작하>
인접 동사 개념: <S_BG>
여기에서, 'VV'는 일반 동사, 'EFD'는 관형사형 어미, 'NN'는 일반 명사, 'DU'는 관형사, ' NNBU'는 의존명사, 'PA'는 격조사, 'S_BR'은 의미상 '방송', 'S_HOW'는 의미상 '몇', 'S_TM'은 의미상 '시', 'S_BG'는 의미상 '시작'을 나타낸다.
임의의 문장을 구성하는 각각의 어휘는 상기와 같은 자질을 기초로 상기와 같은 3개의 클래스 중 하나의 클래스로 결정되는 것이다.
한편, 자질을 기초로 클래스를 결정하기 위한 분류 모형으로서 베이즈(Bayse) 학습 모델을 이용할 수 있다.
베이즈(Bayse) 학습 모델은 다음과 같이 표현될 수 있다.
만일, 현재 분류하고자 하는 어휘를 wo라고 하면, 수학식 첫번째 줄은 현재 분류하고자 하는 어휘의 태그는 현재 어휘가 속한 문맥에서 추출한 자질이 F일 때, 현재의 어휘가 B 클래스가 될 확률, I 클래스가 될 확률, O 클래스가 될 확률을 구한 다음 가장 큰 확률값을 가지는 태그로 선정한다는 의미이다. 여기에서, C는 가능한 태그 집합 {B, I, O}를 의미하고, F는 앞서 설명한 5가지의 자질을 의미한다.
수학식 두번째 줄은 배제어 정리에 의해 첫번째 줄을 풀어서 쓴 것이다. 첫번째 줄의 P(c|F)에 해당하는 확률값을 직접 구하기 어렵기 때문에 두번째 줄처럼 전개한 다음 P(c), P(F|c), P(F) 확률값을 이용하여 P(c|F)값을 구한다.
수학식 세번째 줄은 두번째 줄 수학식에서 F 부분을 각 자질별로 어휘(w), 품사(p), 개념(o), 인접 동사(v), 인접 동사 개념(vo)으로 다시 전개한 것이다. 어휘(w), 품사(p), 개념(o)은 좌우 k개씩, 즉 -k에서 k까지 있으며, 인접 동사(v)와 인접 동사 개념(vo)은 한 개만 존재하는 속성이므로 따로 분리한 것이다. 이 때, 두번째 수학식에서 분모를 이루는 P(F)는 클래스 판정에 영향을 주지 않는 확률이 되어 세번째 수학식에서 생략하였다.
네번째 줄은 세번째 수학식에서 P(wi, pi, oi |c) 부분을 독립성 가정을 이용하여 좀 더 구하기 쉬운 확률값으로 전개한 것이다. 즉, wi, pi, oi는 상호간에 영향을 미치지 않는 독립적인 관계라는 가정하에 P(wi|c), P(pi|c), P(oi|c)의 곱으로 표현될 수 있는 것이다.
마지막 줄의 수학식은 로그(log)를 전개한 것이다.
초기 학습 예제와 위와 같은 베이즈(Bayse) 학습 모델을 이용하여 후보 개체명 추출 모듈(142)로 입력된 문장을 구성하는 각각의 어휘에 대하여 클래스가 결정되면 이를 기초로 후보 개체명이 검출되고 결정된 클래스가 태깅(tagging)된 문장이 학습 예제 재생성 모듈(148)로 전달된다(S315).
학습 예제 재생성 모듈(148)은 저장 모듈(146)에 저장된 개체명 사전 및 규칙을 기초로 상기 태깅된 문장에 포함된 후보 개체명이 실제로 개체명에 속하는지 여부를 최종 판정하게 된다.
이 때, 저장 모듈(146)은 중의성이 없는 명확한 개체명의 목록을 갖는 사전 및 개체명 판단의 기준이 되는 규칙을 저장한다.
중의성이 없는 명확한 개체명은 후보 개체명 추출 모듈(142)에 의해 추출된 후보 개체명 중 의미 중의성이 없는 고유명사 형태의 개체명 또는 비교적 긴 개체명이 될 수 있으며, 예를 들어 방송에 관한 개체명의 경우, "미안하다 사랑한다", "대장금", "파리의 연인", "100분 토론", "나이트라인"과 같은 개체명들이 있다.
또한, 상기 규칙에는 의미열 패턴을 이용한 오류 검사 규칙 및 배제어 리스 트를 사용한 오류 검사 규칙이 있다.
의미열 패턴을 이용한 오류 검사 규칙의 예로서, "...방송하(/TV_V_BROADCAST)는 드라마(/TV_N_DRAMA)..."에서 추출되는 바이그램(bigram) 의미열 패턴에서 조사 '는'을 제외한 "TV_V_BROADCAST+ TV_N_DRAMA"는 개체명으로 판별하지 않는다.
다른 오류 패턴의 예로서, "TV_BROADCAST+TV_KEYWORD", "TV_BROADCAST" 등이 있다.
한편, 배제어 리스트를 사용한 오류 검사 규칙의 예로서, 배제어 사전을 R이라고 하고, 어절열 n1, n2, nn으로 구성된 개체명 N이 있을 때 R에 포함되는 ni가 있으면 개체명으로 판별하지 않는다. 배제어 사전 R의 예로서, "편성, 드라마, 다큐멘터리, 좀, 더, " 등이 있다. 이외에도 규칙의 예로서, 품사/품사열 패턴을 기반으로 하는 검증 규칙과 의미 정보를 이용한 검증 규칙 등을 포함할 수 있다.
만일 후보 개체명이 사전에 등록된 경우에는 후보 개체명을 최종 개체명으로 결정하고(S320, S325), 후보 개체명이 포함된 문장을 긍정 예문(positive example)로 판정한다(S330). 그리고 상기 긍정 예문을 새로운 학습 예제로 하여 모델 학습 모듈(144)로 제공한다(S350).
한편, S320 단계에서 후보 개체명이 사전에 등록된 경우가 아니라면, 저장 모듈(146)에 저장된 규칙에 위배되는지 여부를 검사하여(S335), 만일 규칙에 위배되는 경우에는 부정 예문(negative example)로 판정한다(S340, S345). 그리고 부정 예문을 새로운 학습 예제로 하여 모델 학습 모듈(144)로 제공한다(S350). 만일 규 칙에 위배되지 않는 경우에는 후보 개체명을 최종 개체명으로 결정은 하지만 모델 학습에는 사용되지 않는다(S342).
한편, 모델 학습 모듈(144)로 제공된 긍정 예문 또는 부정 예문의 학습 예제는 베이즈 모델에 반영되어 앞서 설명한 수학식의 확률값이 조정됨으로써, 점진적으로 개체명 검출 확률이 갱신되어 개체명을 검출하는 확률을 더욱 높일 수 있게 된다.
한편, 본 발명에 대한 실험에 있어서, 200개의 대화체 문장을 이용하여 초기 학습 예제를 구성하고, 500, 1000, 1500개의 대화체 문장을 통한 점진적 학습을 수행하였는데 그 결과는 [표 1]과 같다.
B | I | O | |||||||
질의 | R | P | F | R | P | F | R | P | F |
초기 | 0.57 | 0.77 | 0.66 | 0.58 | 0.99 | 0.73 | 0.99 | 0.95 | 0.97 |
500 | 0.64 | 0.79 | 0.71 | 0.66 | 0.92 | 0.77 | 0.99 | 0.96 | 0.98 |
1000 | 0.68 | 0.77 | 0.72 | 0.69 | 0.90 | 0.78 | 0.98 | 0.96 | 0.97 |
1500 | 0.69 | 0.75 | 0.72 | 0.71 | 0.89 | 0.79 | 0.98 | 0.97 | 0.98 |
이 때, R(recall)은 해당하는 클래스에 포함된 개체명이 선택될 확률을 나타내고 있으며, P(precision)은 선택된 개체명에서 해당하는 클래스가 검출될 확률을 나타내고 있으며, F는 R 성능과 P 성능을 모두 고려한 성능 지표이다.
위 [표 1]에서 알 수 있는 바와 같이, 본 발명을 따르게 되면 B 클래스와 I 클래스에 대한 F 성능 지표가 대화체 문장이 증가함에 따라 점진적으로 커지고 있음을 알 수 있다.
도 4는 본 발명의 일 실시예에 따른 음성 대화 시스템의 구조를 나타내는 블록도이다.
도 4를 참조하면, 본 발명에 따른 음성 대화 시스템(400)은 개체명 검출 시스템(410), 제어 시스템(420), 저장 시스템(430) 그리고 출력 시스템(440)을 포함한다.
개체명 검출 시스템(410)은 도 1에서 도시한 개체명 검출 시스템(100)에 대응하는 구조를 포함하며, 본 발명에 따른 방법에 따라 사용자의 발화로부터 개체명을 추출하여 제공한다.
제어 시스템(420)은 개체명 검출 시스템(410)으로부터 전달받은 개체명을 이용하여 음성 대화 시스템(400)의 해당하는 기능을 수행한다.
예를 들어, 음성 대화 시스템(400)이 개체명에 해당하는 정보를 검색하여 사용자에게 제공하는 시스템인 경우에는, 제어 시스템(420)은 개체명 검출 시스템(410)으로부터 전달받은 개체명을 이용하여 저장 시스템(430)에서 상기 개체명에 대한 정보를 검색하고, 검색된 정보를 출력 시스템(440)을 통하여 사용자에게 제공할 수 있는 것이다.
이 때, 저장 시스템(430)은 디지털 정보를 저장할 수 있는 각종 매체를 포함하며, 제어 시스템(420)과 유/무선 네트워크를 통하여 연결된 외부 저장 매체 또는 외부 서버를 포함할 수 있다.
또한, 출력 시스템(440)은 상기 검색된 정보를 사용자에게 제공하는 시스템으로서, 출력 시스템(440)의 형태는 상기 검색된 정보의 종류에 따라 달라질 수 있다. 예를 들어, 상기 검색된 정보가 텍스트, 이미지 등과 같은 시각적 정보인 경우에는 디스플레이 장치의 형태를 갖고, 상기 검색된 정보가 음악, 소리 등과 같은 청각적 정보인 경우에는 스피커의 형태를 갖고, 상기 검색된 정보가 촉각 정보인 경우에는 햅틱 기기(haptic device)의 형태를 갖을 수 있다. 또한, 상기 검색된 정보가 동영상 정보인 경우에는 디스플레이 및 스피커를 모두 구비한 형태일 수도 있다.
본 발명의 실시에 따라 개체명 추출이 잘 이루어지는 경우 음성 대화의 성능 향상이 기대될 수 있으므로 결국 도 4에서 도시한 음성 대화 시스템(400)의 성능 향상에도 기여할 수 있게 된다.
이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
본 발명을 따르게 되면, 개체명 검출에 있어서 점진적 학습을 통해 지속적인 학습 효과를 제공하는 효과가 있다.
또한 본 발명을 따르게 되면, 작은 양의 태그가 부착된 코퍼스를 사용함으로써 보다 효율적인 개체명 검출을 수행할 수 있는 효과가 있다.
Claims (18)
- 소정의 학습 예제와 입력된 문장을 구성하는 형태소의 자질 정보를 기초로 후보 개체명을 검출하고, 검출된 후보 개체명을 포함하는 태깅된 문장을 제공하는 후보 개체명 추출 모듈;개체명 사전 및 소정의 규칙에 대한 정보를 저장하는 저장 모듈; 및상기 개체명 사전 및 상기 규칙을 기초로 상기 제공된 문장에 포함된 후보 개체명에 대한 최종 개체명 여부를 판별하고, 판별 결과에 대응하여 상기 문장을 학습 예제로 제공하여 점진적으로 후보 개체명 검출 확률을 갱신하도록 하는 학습 예제 재생성 모듈을 포함하는 개체명 검출 장치.
- 제1항에 있어서,상기 자질 정보는 어휘 자질, 품사 자질, 개념 자질, 인접 동사 자질 또는 인접 동사 개념 자질을 포함하는 개체명 검출 장치.
- 제1항에 있어서,상기 후보 개체명 추출 모듈은 상기 자질 정보에 기반한 소정의 학습 모델을 이용하여 상기 형태소의 클래스를 결정하고, 상기 결정된 클래스 정보를 태그로 부가하여 태깅된 문장을 제공하는 개체명 검출 장치.
- 제3항에 있어서,상기 학습 모델은 베이즈(Bayse) 학습 모델을 포함하는 개체명 검출 장치.
- 제1항에 있어서,상기 개체명 사전에 기록된 개체명은 중의성이 없는 명확한 개체명을 포함하는 개체명 검출 장치.
- 제1항에 있어서,상기 규칙은 의미열 패턴을 이용한 오류 검사 규칙을 포함하는 개체명 검출 장치.
- 제1항에 있어서,상기 규칙은 배제어 리스트를 사용한 오류 검사 규칙을 포함하는 개체명 검출 장치.
- 제1항에 있어서,학습 예제 재생성 모듈에 의해 제공되는 학습 예제는 상기 규칙에 위배되는 경우에는 부정 예문으로서 제공되는 개체명 검출 장치.
- 제1항에 있어서,상기 후보 개체명이 상기 개체명 사전에 포함된 경우, 상기 학습 예제 재생성 모듈은 상기 후보 개체명이 포함된 문장을 긍정 예문인 학습 예제로서 제공하는 개체명 검출 장치.
- 소정의 학습 예제와 입력된 문장을 구성하는 형태소의 자질 정보를 기초로 후보 개체명을 검출하고, 상기 검출된 후보 개체명을 포함하는 태깅된 문장을 제공하는 (a) 단계;기저장된 개체명 사전 및 규칙을 기초로 상기 제공된 문장에 포함된 후보 개체명에 대한 최종 개체명 여부를 판별하는 (b) 단계; 및상기 판별 결과에 대응하여 상기 문장을 학습 예제로 제공하여 점진적으로 후보 개체명 검출 확률을 갱신하도록 하는 (c) 단계를 포함하는 개체명 검출 방법.
- 제10항에 있어서,상기 자질 정보는 어휘 자질, 품사 자질, 개념 자질, 인접 동사 자질 또는 인접 동사 개념 자질을 포함하는 개체명 검출 방법.
- 제10항에 있어서,상기 (a) 단계는 상기 자질 정보에 기반한 소정의 학습 모델을 이용하여 상기 형태소의 클래스를 결정하고, 상기 결정된 클래스 정보를 태그로 부가하여 태깅된 문장을 제공하는 단계를 포함하는 개체명 검출 방법.
- 제12항에 있어서,상기 학습 모델은 베이즈(Bayse) 학습 모델을 포함하는 개체명 검출 방법.
- 제10항에 있어서,상기 개체명 사전에 기록된 개체명은 중의성이 없는 명확한 개체명을 포함하는 개체명 검출 방법.
- 제10항에 있어서,상기 규칙은 의미열 패턴을 이용한 오류 검사 규칙을 포함하는 개체명 검출 방법.
- 제10항에 있어서,상기 규칙은 배제어 리스트를 사용한 오류 검사 규칙을 포함하는 개체명 검출 방법.
- 제10항에 있어서,상기 (c) 단계에서 제공되는 학습 예제는 상기 규칙에 위배되는 경우에는 부정 예문으로서 제공되는 개체명 검출 방법.
- 제10항에 있어서,상기 후보 개체명이 상기 개체명 사전에 포함된 경우, 상기 (c) 단계에서 제공되는 학습 예제는 상기 후보 개체명이 포함된 문장을 긍정 예문으로 하여 제공되는 개체명 검출 방법.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020050102370A KR100755678B1 (ko) | 2005-10-28 | 2005-10-28 | 개체명 검출 장치 및 방법 |
US11/498,050 US8655646B2 (en) | 2005-10-28 | 2006-08-03 | Apparatus and method for detecting named entity |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020050102370A KR100755678B1 (ko) | 2005-10-28 | 2005-10-28 | 개체명 검출 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20070045748A KR20070045748A (ko) | 2007-05-02 |
KR100755678B1 true KR100755678B1 (ko) | 2007-09-05 |
Family
ID=37997779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020050102370A KR100755678B1 (ko) | 2005-10-28 | 2005-10-28 | 개체명 검출 장치 및 방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8655646B2 (ko) |
KR (1) | KR100755678B1 (ko) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101195812B1 (ko) * | 2010-07-08 | 2012-11-05 | 뷰모션 (주) | 규칙기반 시스템을 이용한 음성인식 시스템 및 그 방법 |
KR101255468B1 (ko) | 2011-10-17 | 2013-04-16 | 포항공과대학교 산학협력단 | 대화 의도를 분류하는 방법 |
KR20210085158A (ko) * | 2019-12-30 | 2021-07-08 | 한국과학기술원 | 문맥 정보를 고려한 개체명 인식 방법 및 장치 |
US11373634B2 (en) | 2018-11-14 | 2022-06-28 | Samsung Electronics Co., Ltd. | Electronic device for recognizing abbreviated content name and control method thereof |
Families Citing this family (181)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7769579B2 (en) | 2005-05-31 | 2010-08-03 | Google Inc. | Learning facts from semi-structured text |
US8682913B1 (en) | 2005-03-31 | 2014-03-25 | Google Inc. | Corroborating facts extracted from multiple sources |
US7587387B2 (en) | 2005-03-31 | 2009-09-08 | Google Inc. | User interface for facts query engine with snippets from information sources that include query terms and answer terms |
US9208229B2 (en) * | 2005-03-31 | 2015-12-08 | Google Inc. | Anchor text summarization for corroboration |
US8996470B1 (en) | 2005-05-31 | 2015-03-31 | Google Inc. | System for ensuring the internal consistency of a fact repository |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US8260785B2 (en) | 2006-02-17 | 2012-09-04 | Google Inc. | Automatic object reference identification and linking in a browseable fact repository |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8122026B1 (en) * | 2006-10-20 | 2012-02-21 | Google Inc. | Finding and disambiguating references to entities on web pages |
US11222185B2 (en) | 2006-10-26 | 2022-01-11 | Meta Platforms, Inc. | Lexicon development via shared translation database |
US8972268B2 (en) * | 2008-04-15 | 2015-03-03 | Facebook, Inc. | Enhanced speech-to-speech translation system and methods for adding a new word |
US9070363B2 (en) * | 2007-10-26 | 2015-06-30 | Facebook, Inc. | Speech translation with back-channeling cues |
US8347202B1 (en) | 2007-03-14 | 2013-01-01 | Google Inc. | Determining geographic locations for place names in a fact repository |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
KR100877477B1 (ko) * | 2007-06-28 | 2009-01-07 | 주식회사 케이티 | 백오프 엔-그램 자질을 이용한 개체명 인식 장치 및 그방법 |
US7970766B1 (en) | 2007-07-23 | 2011-06-28 | Google Inc. | Entity type assignment |
US8812435B1 (en) | 2007-11-16 | 2014-08-19 | Google Inc. | Learning objects and facts from documents |
JP5379155B2 (ja) * | 2007-12-06 | 2013-12-25 | グーグル・インコーポレーテッド | Cjk名前検出 |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8290968B2 (en) | 2010-06-28 | 2012-10-16 | International Business Machines Corporation | Hint services for feature/entity extraction and classification |
KR101173561B1 (ko) * | 2010-10-25 | 2012-08-13 | 한국전자통신연구원 | 질문 형태 및 도메인 인식 장치 및 그 방법 |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US9202176B1 (en) | 2011-08-08 | 2015-12-01 | Gravity.Com, Inc. | Entity analysis system |
KR101255957B1 (ko) * | 2011-12-09 | 2013-04-24 | 포항공과대학교 산학협력단 | 개체명 태깅 방법 및 장치 |
US9201964B2 (en) * | 2012-01-23 | 2015-12-01 | Microsoft Technology Licensing, Llc | Identifying related entities |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
KR102579086B1 (ko) | 2013-02-07 | 2023-09-15 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US9460088B1 (en) * | 2013-05-31 | 2016-10-04 | Google Inc. | Written-domain language modeling with decomposition |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR102106797B1 (ko) * | 2013-10-11 | 2020-05-06 | 에스케이텔레콤 주식회사 | 복합 문장 분석 장치, 이를 위한 기록매체 |
KR102147670B1 (ko) * | 2013-10-14 | 2020-08-25 | 에스케이텔레콤 주식회사 | 복합 문장 분석 장치, 이를 위한 기록매체 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US8990234B1 (en) * | 2014-02-28 | 2015-03-24 | Lucas J. Myslinski | Efficient fact checking method and system |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9734193B2 (en) * | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
EP3149728B1 (en) | 2014-05-30 | 2019-01-16 | Apple Inc. | Multi-command single utterance input method |
US9589563B2 (en) * | 2014-06-02 | 2017-03-07 | Robert Bosch Gmbh | Speech recognition of partial proper names by natural language processing |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US10078651B2 (en) * | 2015-04-27 | 2018-09-18 | Rovi Guides, Inc. | Systems and methods for updating a knowledge graph through user input |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
KR101725354B1 (ko) * | 2015-11-05 | 2017-04-10 | 광운대학교 산학협력단 | 개체명 사전 관리 방법 및 그 장치 |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
RU2619193C1 (ru) | 2016-06-17 | 2017-05-12 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Многоэтапное распознавание именованных сущностей в текстах на естественном языке на основе морфологических и семантических признаков |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
CN108073573A (zh) * | 2016-11-16 | 2018-05-25 | 北京搜狗科技发展有限公司 | 一种机器翻译方法、装置和机器翻译系统训练方法、装置 |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
KR101890207B1 (ko) * | 2017-01-03 | 2018-08-22 | 네이버 주식회사 | 개체명 연결 방법, 장치 및 컴퓨터 프로그램 |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
CN107507612B (zh) * | 2017-06-30 | 2020-08-28 | 百度在线网络技术(北京)有限公司 | 一种声纹识别方法及装置 |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
KR101941692B1 (ko) | 2017-10-18 | 2019-01-23 | 서강대학교산학협력단 | 한국어 개체명 인식방법 및 장치 |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
CN109033070B (zh) * | 2018-06-19 | 2022-04-15 | 深圳市元征科技股份有限公司 | 一种数据处理方法、服务器及计算机可读介质 |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
KR20200054360A (ko) * | 2018-11-05 | 2020-05-20 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US11669759B2 (en) | 2018-11-14 | 2023-06-06 | Bank Of America Corporation | Entity resource recommendation system based on interaction vectorization |
US11568289B2 (en) | 2018-11-14 | 2023-01-31 | Bank Of America Corporation | Entity recognition system based on interaction vectorization |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
GB201904167D0 (en) * | 2019-03-26 | 2019-05-08 | Benevolentai Tech Limited | Name entity recognition with deep learning |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11669692B2 (en) | 2019-07-12 | 2023-06-06 | International Business Machines Corporation | Extraction of named entities from document data to support automation applications |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
CN112949306B (zh) * | 2019-12-10 | 2024-04-30 | 医渡云(北京)技术有限公司 | 命名实体识别模型创建方法、装置、设备及可读存储介质 |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11183193B1 (en) | 2020-05-11 | 2021-11-23 | Apple Inc. | Digital assistant hardware abstraction |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
KR20220135039A (ko) * | 2021-03-29 | 2022-10-06 | 삼성전자주식회사 | 전자 장치 및 이를 이용한 음성 인식 수행 방법 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010037309A (ko) * | 1999-10-15 | 2001-05-07 | 정명식 | 형태소 접속 그래프를 사용한 형태소 및 구문 분석 방법 |
KR20040038559A (ko) * | 2002-11-01 | 2004-05-08 | 한국전자통신연구원 | 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및의미범주 분류 장치 및 그 방법 |
KR20040050461A (ko) * | 2002-12-10 | 2004-06-16 | 한국전자통신연구원 | 한국어 텍스트 상의 개체명 인식 장치 및 방법 |
KR20040088360A (ko) * | 2003-03-31 | 2004-10-16 | 마이크로소프트 코포레이션 | 증분 베이즈 학습을 사용하는 잡음 추정 방법 |
KR20050039379A (ko) * | 2003-10-24 | 2005-04-29 | 한국전자통신연구원 | 대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정장치 및 그 방법 |
JP2005234214A (ja) | 2004-02-19 | 2005-09-02 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識用音響モデル生成方法及び装置、音声認識用音響モデル生成プログラムを記録した記録媒体 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6052682A (en) * | 1997-05-02 | 2000-04-18 | Bbn Corporation | Method of and apparatus for recognizing and labeling instances of name classes in textual environments |
EP1093058A1 (en) * | 1999-09-28 | 2001-04-18 | Cloanto Corporation | Method and apparatus for processing text and character data |
US20030191625A1 (en) * | 1999-11-05 | 2003-10-09 | Gorin Allen Louis | Method and system for creating a named entity language model |
JP4065936B2 (ja) * | 2001-10-09 | 2008-03-26 | 独立行政法人情報通信研究機構 | 機械学習法を用いた言語解析処理システムおよび機械学習法を用いた言語省略解析処理システム |
US7315810B2 (en) * | 2002-01-07 | 2008-01-01 | Microsoft Corporation | Named entity (NE) interface for multiple client application programs |
TWI256562B (en) * | 2002-05-03 | 2006-06-11 | Ind Tech Res Inst | Method for named-entity recognition and verification |
US7212963B2 (en) * | 2002-06-11 | 2007-05-01 | Fuji Xerox Co., Ltd. | System for distinguishing names in Asian writing systems |
US6925601B2 (en) * | 2002-08-28 | 2005-08-02 | Kelly Properties, Inc. | Adaptive testing and training tool |
US7383241B2 (en) * | 2003-07-25 | 2008-06-03 | Enkata Technologies, Inc. | System and method for estimating performance of a classifier |
US7475010B2 (en) * | 2003-09-03 | 2009-01-06 | Lingospot, Inc. | Adaptive and scalable method for resolving natural language ambiguities |
KR100501413B1 (ko) * | 2003-10-23 | 2005-07-18 | 한국전자통신연구원 | 유엠엘에스를 기반으로 생물학 문헌으로부터 생물학적개체명을 인식하는 장치 및 그 방법 |
US9009153B2 (en) * | 2004-03-31 | 2015-04-14 | Google Inc. | Systems and methods for identifying a named entity |
US7865356B2 (en) * | 2004-07-15 | 2011-01-04 | Robert Bosch Gmbh | Method and apparatus for providing proper or partial proper name recognition |
KR100597437B1 (ko) * | 2004-12-17 | 2006-07-06 | 한국전자통신연구원 | 하이브리드 정답유형 인식 장치 및 방법 |
US8280719B2 (en) * | 2005-05-05 | 2012-10-02 | Ramp, Inc. | Methods and systems relating to information extraction |
US8249344B2 (en) * | 2005-07-01 | 2012-08-21 | Microsoft Corporation | Grammatical parsing of document visual structures |
US7672833B2 (en) * | 2005-09-22 | 2010-03-02 | Fair Isaac Corporation | Method and apparatus for automatic entity disambiguation |
-
2005
- 2005-10-28 KR KR1020050102370A patent/KR100755678B1/ko not_active IP Right Cessation
-
2006
- 2006-08-03 US US11/498,050 patent/US8655646B2/en not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010037309A (ko) * | 1999-10-15 | 2001-05-07 | 정명식 | 형태소 접속 그래프를 사용한 형태소 및 구문 분석 방법 |
KR20040038559A (ko) * | 2002-11-01 | 2004-05-08 | 한국전자통신연구원 | 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및의미범주 분류 장치 및 그 방법 |
KR20040050461A (ko) * | 2002-12-10 | 2004-06-16 | 한국전자통신연구원 | 한국어 텍스트 상의 개체명 인식 장치 및 방법 |
KR20040088360A (ko) * | 2003-03-31 | 2004-10-16 | 마이크로소프트 코포레이션 | 증분 베이즈 학습을 사용하는 잡음 추정 방법 |
KR20050039379A (ko) * | 2003-10-24 | 2005-04-29 | 한국전자통신연구원 | 대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정장치 및 그 방법 |
JP2005234214A (ja) | 2004-02-19 | 2005-09-02 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識用音響モデル生成方法及び装置、音声認識用音響モデル生成プログラムを記録した記録媒体 |
Non-Patent Citations (5)
Title |
---|
10-2001-37309 |
10-2004-38559 |
10-2004-50461 |
10-2005-39379 |
음소 인식을 위한 특징 추출의 위치와 지속시간 길이에 관한 연구, 음향학회13권4호,1994 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101195812B1 (ko) * | 2010-07-08 | 2012-11-05 | 뷰모션 (주) | 규칙기반 시스템을 이용한 음성인식 시스템 및 그 방법 |
KR101255468B1 (ko) | 2011-10-17 | 2013-04-16 | 포항공과대학교 산학협력단 | 대화 의도를 분류하는 방법 |
US11373634B2 (en) | 2018-11-14 | 2022-06-28 | Samsung Electronics Co., Ltd. | Electronic device for recognizing abbreviated content name and control method thereof |
KR20210085158A (ko) * | 2019-12-30 | 2021-07-08 | 한국과학기술원 | 문맥 정보를 고려한 개체명 인식 방법 및 장치 |
KR102361616B1 (ko) * | 2019-12-30 | 2022-02-11 | 한국과학기술원 | 문맥 정보를 고려한 개체명 인식 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
KR20070045748A (ko) | 2007-05-02 |
US20070100814A1 (en) | 2007-05-03 |
US8655646B2 (en) | 2014-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100755678B1 (ko) | 개체명 검출 장치 및 방법 | |
Collobert et al. | Wav2letter: an end-to-end convnet-based speech recognition system | |
US9934777B1 (en) | Customized speech processing language models | |
Liu et al. | Gram-CTC: Automatic unit selection and target decomposition for sequence labelling | |
US9361879B2 (en) | Word spotting false alarm phrases | |
US20080215328A1 (en) | Method and system for automatically detecting morphemes in a task classification system using lattices | |
US8494847B2 (en) | Weighting factor learning system and audio recognition system | |
Alon et al. | Contextual speech recognition with difficult negative training examples | |
US8255220B2 (en) | Device, method, and medium for establishing language model for expanding finite state grammar using a general grammar database | |
JP2004005600A (ja) | データベースに格納された文書をインデックス付け及び検索する方法及びシステム | |
JP2004133880A (ja) | インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法 | |
Munkhdalai et al. | Fast contextual adaptation with neural associative memory for on-device personalized speech recognition | |
Bazzi et al. | A multi-class approach for modelling out-of-vocabulary words | |
Moyal et al. | Phonetic search methods for large speech databases | |
Tapsai et al. | Thai Natural Language Processing: Word Segmentation, Semantic Analysis, and Application | |
Lefevre | Dynamic bayesian networks and discriminative classifiers for multi-stage semantic interpretation | |
KR100542757B1 (ko) | 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치 | |
CN111428487A (zh) | 模型训练方法、歌词生成方法、装置、电子设备及介质 | |
Li et al. | Discriminative data selection for lightly supervised training of acoustic model using closed caption texts | |
JP2011154061A (ja) | 辞書作成装置、そのコンピュータプログラムおよびデータ処理方法 | |
Meechan-Maddon | The effect of noise in the training of convolutional neural networks for text summarisation | |
Choueiter | Linguistically-motivated sub-word modeling with applications to speech recognition | |
Gurunath Shivakumar et al. | Confusion2Vec 2.0: Enriching ambiguous spoken language representations with subwords | |
Zhang et al. | Exploring features for identifying edited regions in disfluent sentences | |
Soltau et al. | Automatic speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application | ||
AMND | Amendment | ||
J201 | Request for trial against refusal decision | ||
B701 | Decision to grant | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20120730 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20130730 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20140730 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20150730 Year of fee payment: 9 |
|
LAPS | Lapse due to unpaid annual fee |