KR100755678B1 - 개체명 검출 장치 및 방법 - Google Patents

개체명 검출 장치 및 방법 Download PDF

Info

Publication number
KR100755678B1
KR100755678B1 KR1020050102370A KR20050102370A KR100755678B1 KR 100755678 B1 KR100755678 B1 KR 100755678B1 KR 1020050102370 A KR1020050102370 A KR 1020050102370A KR 20050102370 A KR20050102370 A KR 20050102370A KR 100755678 B1 KR100755678 B1 KR 100755678B1
Authority
KR
South Korea
Prior art keywords
entity name
sentence
learning
rule
candidate
Prior art date
Application number
KR1020050102370A
Other languages
English (en)
Other versions
KR20070045748A (ko
Inventor
이재원
강인호
임해창
김정수
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020050102370A priority Critical patent/KR100755678B1/ko
Priority to US11/498,050 priority patent/US8655646B2/en
Publication of KR20070045748A publication Critical patent/KR20070045748A/ko
Application granted granted Critical
Publication of KR100755678B1 publication Critical patent/KR100755678B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling

Abstract

본 발명은 개체명 검출에 관한 것으로서, 본 발명의 실시에 따른 개체명 검출 장치는 소정의 학습 예제와 입력된 문장을 구성하는 형태소의 자질 정보를 기초로 후보 개체명을 검출하고, 검출된 후보 개체명을 포함하는 태깅된 문장을 제공하는 후보 개체명 추출 모듈과, 개체명 사전 및 소정의 규칙에 대한 정보를 저장하는 저장 모듈 및 상기 개체명 사전 및 상기 규칙을 기초로 상기 제공된 문장에 포함된 후보 개체명에 대한 최종 개체명 여부를 판별하고, 판별 결과에 대응하여 상기 문장을 학습 예제로 제공하여 점진적으로 후보 개체명 검출 확률을 갱신하도록 하는 학습 예제 재생성 모듈을 포함한다.
개체명, 음성 인식

Description

개체명 검출 장치 및 방법{Apparatus and method for detecting named entity}
도 1은 본 발명의 일 실시예에 따른 개체명 검출 시스템의 구조를 나타내는 블록도이다.
도 2는 본 발명의 일 실시예에 따른 개체명 검출 장치의 구조를 나타내는 블록도이다.
도 3은 본 발명의 일 실시예에 따른 개체명 검출 방법을 나타내는 플로우 차트이다.
도 4는 본 발명의 일 실시예에 따른 음석 인식 시스템의 구조를 나타내는 블록도이다.
< 도면의 주요 부분에 대한 설명 >
100: 개체명 검출 시스템
110: 음성 인식기
120: 문장 입력기
130: 형태소 분석기
140: 개체명 검출 장치
142: 후보 개체명 추출 모듈
144: 모델 학습 모듈
146: 저장 모듈
148: 학습 예제 재생성 모듈
본 발명은 개체명 검출에 관한 것으로서, 보다 상세하게는 음성 인식 또는 언어 처리에 있어서 점진적인 학습 기법에 기반하여 개체명을 추출하는 장치 및 방법에 관한 것이다.
일반적으로 개체명(named entity)이라 함은 사람(person), 기관(organization) 등의 이름, 곡명, 방송명 또는 지명과 같이 분류될 수 있는 단어 또는 일련의 단어들의 집합을 의미한다.
예를 들어, "반지의 제왕 틀어 줄래?"와 같은 문장에서 '반지의 제왕'은 개체명에 해당한다.
이러한 개체명은 일상 생활에서 많이 접할 수 있는데, 예를 들어 교통정보 도메인의 경우 사용자 발화의 약 74%가 개체명에 해당하고, 방송 프로그램 발화의 경우 약 44%가 개체명에 해당한다.
개체명 검출은 특히 음성 언어와 관련된 지식 학습 분야에 있어서는 매우 중요한 연구 분야 중의 하나이며, 개체명 검출을 위한 많은 알고리즘들이 제안되고 있다.
개체명 검출의 가장 기본적인 방법으로서, 사전(dictionary)을 기반으로 하는 방법이 있다.
이것은 미리 다수의 개체명을 저장하고, 입력되는 문장으로부터 개체명이라고 판단되는 단어 또는 단어의 집합을 추출하여 기저장된 개체명과 비교하는 방식을 따르게 된다.
그러나, 개체명은 'Open Class' 즉, 시간에 따라 고정적인 것이 아니라 사회, 문화 등에 따라 새롭게 생성되고 시간이 지나면 사라지는 특성을 갖기 때문에 개체명 변이가 빈번하여 상기와 같은 사전 기반 방법만으로는 개체명을 처리하는데에 한계가 있다.
따라서 이러한 점을 개선하기 위하여 통계적 기법을 사용한 개체명 검출 방법이 제안되었는데, 그 예로서 미국 특허 US6,052,682호에서는 'Uni-Gram'과 'Bi-Gram'에 기반하여 다단계 은닉 마코프 모형(Hidden Markov Model)을 사용하여 개체명을 인식하고 분류하는 방법을 개시하고 있다.
그러나, 이러한 경우에는 학습을 위해 충분한 양의 태그 부착 코퍼스(corpus)를 필요로 하므로 생략이나 축약 등의 다양한 대화체 특징을 반영하기 어렵고, 학습 데이터가 증가할 때 재학습이 필요하게 된다.
본 발명은 베이즈(Bayse) 학습 기반 알고리즘을 기반으로 초기 학습 예제와 자질 집합을 사용하여 점진적으로 개체명 검출 확률을 갱신함으로써 보다 개선된 개체명 검출 장치 및 방법을 제공하는 것을 목적으로 한다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 목적을 달성하기 위하여, 본 발명의 실시예에 따른 개체명 검출 장치는 소정의 학습 예제와 입력된 문장을 구성하는 형태소의 자질 정보를 기초로 후보 개체명을 검출하고, 검출된 후보 개체명을 포함하는 태깅된 문장을 제공하는 후보 개체명 추출 모듈과, 개체명 사전 및 소정의 규칙에 대한 정보를 저장하는 저장 모듈 및 상기 개체명 사전 및 상기 규칙을 기초로 상기 제공된 문장에 포함된 후보 개체명에 대한 최종 개체명 여부를 판별하고, 판별 결과에 대응하여 상기 문장을 학습 예제로 제공하여 점진적으로 후보 개체명 검출 확률을 갱신하도록 하는 학습 예제 재생성 모듈을 포함한다.
또한, 상기 목적을 달성하기 위하여, 본 발명의 실시예에 따른 개체명 검출 방법은 소정의 학습 예제와 입력된 문장을 구성하는 형태소의 자질 정보를 기초로 후보 개체명을 검출하고, 상기 검출된 후보 개체명을 포함하는 태깅된 문장을 제공하는 (a) 단계와, 기저장된 개체명 사전 및 규칙을 기초로 상기 제공된 문장에 포함된 후보 개체명에 대한 최종 개체명 여부를 판별하는 (b) 단계 및 상기 판별 결과에 대응하여 상기 문장을 학습 예제로 제공하여 점진적으로 후보 개체명 검출 확률을 갱신하도록 하는 (c) 단계를 포함한다.
기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있 다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
이하, 본 발명의 실시예들에 의하여 개체명 검출 장치 및 방법을 설명하기 위한 블록도 또는 처리 흐름도에 대한 도면들을 참고하여 본 발명에 대해 설명하도록 한다. 이 때, 처리 흐름도 도면들의 각 블록과 흐름도 도면들의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수 있음을 이해할 수 있을 것이다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 흐름도 블록(들)에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 흐름도 블록(들)에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능 하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑제되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 흐름도 블록(들)에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
또한, 각 블록은 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실행예들에서는 블록들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
도 1은 본 발명의 일 실시예에 따른 개체명 검출 시스템의 구조를 나타내는 블록도이다.
도 1을 참조하면, 본 발명에 따른 개체명 검출 시스템(100)은 음성 인식기(110), 형태소 분석기(130) 그리고 개체명 검출 장치(140)를 포함한다. 또한, 개체명 검출 시스템(100)은 문장 입력기(120)를 더 포함할 수도 있다.
음성 인식기(110)는 사용자에 의한 발화를 그 발화에 해당하는 텍스트 문장으로 변환하고, 형태소 분석기(130)는 인식된 문장에 대하여 형태소를 분석한다. 이 때, 음성 인식기(110)와 형태소 분석기(130)는 종래의 기술을 사용할 수 있다.
한편, 개체명 검출 시스템(100)은 사용자의 발화뿐만이 아니라 사용자로부터 입력된 문장으로부터 개체명을 검출할 수도 있다.
이를 위하여 개체명 검출 시스템(100)은 문장 입력기(120)를 더 구비할 수 있는데, 문장 입력기(120)는 사용자로부터 문장을 입력받고 입력받은 문장은 형태소 분석기(130)에 의해 형태소가 분석된다. 이 때, 문장 입력기(120)는 사용자가 문장을 입력할 수 있는 모든 수단을 포함한다.
음성 인식기(110) 또는 문장 입력기(120)로부터 입력된 문장이 형태소 해석기(130)에 의해 형태소 분석되면, 개체명 검출 장치(140)는 형태소 분석된 문장으로부터 본 발명의 실시에 따른 방법에 의해 개체명을 검출하게 된다.
개체명 검출 장치(140)에 대해서는 도 2를 통하여 구체적으로 설명하도록 한다.
도 2를 참조하면, 본 발명에 따른 개체명 검출 장치(140)는 후보 개체명 추출 모듈(142), 모델 학습 모듈(144), 저장 모듈(146) 그리고 학습 예제 재생성 모듈(148)을 포함한다.
이 때, 본 실시예에서 사용되는 '모듈'이라는 용어는 FPGA또는 ASIC과 같은 하드웨어 구성요소를 의미하며, 모듈은 어떤 역할들을 수행한다.
후보 개체명 추출 모듈(142)은 도 1에 도시된 형태소 분석기(130)에 의해 제공되는 문장으로부터 개체명으로 예측되는 후보 개체명들을 추출한다. 이 때, 후보 개체명 추출 모듈(142)은 모델 학습 모듈(144)에 의해 학습된 모델에 기반하여 후보 개체명들을 추출하게 된다.
모델 학습 모듈(144)은 다양한 학습 예제를 이용하여 개체명 추출을 위한 모델을 학습한다. 이러한 모델의 예로서, 베이즈(Bayse) 학습 모델을 이용할 수 있다.
저장 모듈(146)은 개체명 사전 및 소정의 규칙에 대한 정보를 저장한다. 이 때, 상기 규칙은 후보 개체명 추출 모듈(142)에 의해 추출된 후보 개체명들이 실제 개체명에 해당할 수 있는지 여부를 판단하기 위한 여러 가지 규칙들을 포함한다.
학습 예제 재생성 모듈(148)은 저장 모듈(146)에 저장된 정보들을 기초로 하여 개체명 추출 모듈(142)에 의해 추출된 후보 개체명들에 대하여 실제 개체명에 해당되는지 여부를 판단하고, 그 결과 학습 예제를 재생성하여 상기 학습 모듈 (144)에 의해 학습된 모델에 반영한다.
한편, 모델 학습 모듈(144)은 개체명 검출 장치(140)의 초기화 단계에서 초기 학습 예제를 학습하여 후보 개체명 추출 모듈(142)이 후보 개체명들을 추출할 때에 상기 학습된 초기 학습 예제를 적용한다. 그리고, 그 이후에는 학습 예제 재생성 모듈(148)에 의해 제공되는 학습 예제를 학습하게 된다.
본 발명에 따른 개체명 검출 장치(140)를 구성하는 각 모듈들간의 동작을 도 3에 도시된 플로우 차트를 통하여 구체적으로 설명하도록 한다.
우선 모델 학습 모듈(144)은 초기 학습 예제를 제공받는데, 우선 모델 학습 모듈(144)은 초기 학습 예제를 구성하는 각각의 어휘를 3종류의 클래스 중 하나의 클래스로 분류하여 해당하는 태그를 부가한다(S305). 이 때, 상기 클래스는 본 발명에서 'B 클래스', 'I 클래스' 그리고 'O 클래스'로 칭하기로 한다. 'B 클래스'는 개체명이라고 판단되는 일련의 어휘 중 첫번째 어휘를 의미하고, 'I 클래스'는 'B 클래스' 다음에 위치하고 개체명이라고 판단되는 어휘를 의미하며, 'O 클래스'는 개체명이 아니라고 판단되는 어휘를 의미한다.
예를 들어 초기 학습 예제가 "MBC에서 하는 신입 사원 몇 시에 하니?"와 같은 경우에, 각각의 어휘에는 다음과 같은 태그가 부가될 수 있다.
'MBC', '에서', '하', '는' -> O 클래스
'신입' -> B 클래스
'사원' -> I 클래스
'몇', '시', '에', '시작하', '니', '? ' -> O 클래스
여기에서 B 클래스와 I 클래스로 구성되는 '신입 사원'이 하나의 개체명에 해당한다.
후보 개체명 추출 모듈(142)은 형태소로 구분된 문장을 입력받고, 모델 학습 모듈(144)에 의한 학습을 기초로 입력받은 문장을 구성하는 각각의 형태소에 대한 클래스를 결정하고 이로부터 개체명이라고 판단되는 후보 개체명을 추출하게 된다(S310).
이 때, 클래스를 결정하기 위해서는 기준이 필요하며, 이러한 기준을 본 발명에서는 '자질'이라고 칭하기로 한다.
자질에는 '어휘' 자질, '품사' 자질, '개념' 자질, '인접 동사' 자질, '인접 동사 개념' 자질이 있다.
어휘 자질은 현재 형태소와 앞/뒤 각각 3개 형태소의 어휘를 가리키는 자질을 나타내고, 'w'로 표시하기로 한다.
품사 자질은 현재 형태소와 앞/뒤 각각 3개 형태소의 품사를 가리키는 자질을 나타내고, 'p'로 표시하기로 한다.
개념 자질은 현재 형태소와 앞/뒤 각각 3개 형태소의 온톨로지 개념 정보를 가리키는 자질을 나타내고, 'o'로 표시하기로 한다.
인접 동사 자질은 현재 어휘 이후에 가장 처음 나오는 동사의 어휘를 가리키는 자질을 나타내고, 'v'로 표시하기로 한다.
인접 동사 개념 자질은 인접 동사의 온톨로지상의 개념을 가리키는 자질을 나타내고, 'vo'로 표시하기로 한다.
예를 들어, 위 초기 학습 예제 중에서 '사원'의 클래스를 결정하기 위한 자질을 추출하면 다음과 같이 표현될 수 있다.
어휘 자질: <하/-3, 는/-2, 신입/-1, 사원/0, 몇/1, 시/2, 에/3>
품사 자질: <VV/-3, EFD/-2, NN/-1, NN/0, DU/1, NNBU/2, PA/3>
개념 자질: <S_BR/-3, NULL/-2, NULL/-1, NULL/0, S_HOW/1, S_TM/2, NULL/3>
인접 동사: <시작하>
인접 동사 개념: <S_BG>
여기에서, 'VV'는 일반 동사, 'EFD'는 관형사형 어미, 'NN'는 일반 명사, 'DU'는 관형사, ' NNBU'는 의존명사, 'PA'는 격조사, 'S_BR'은 의미상 '방송', 'S_HOW'는 의미상 '몇', 'S_TM'은 의미상 '시', 'S_BG'는 의미상 '시작'을 나타낸다.
임의의 문장을 구성하는 각각의 어휘는 상기와 같은 자질을 기초로 상기와 같은 3개의 클래스 중 하나의 클래스로 결정되는 것이다.
한편, 자질을 기초로 클래스를 결정하기 위한 분류 모형으로서 베이즈(Bayse) 학습 모델을 이용할 수 있다.
베이즈(Bayse) 학습 모델은 다음과 같이 표현될 수 있다.
Figure 112005061875826-pat00001
만일, 현재 분류하고자 하는 어휘를 wo라고 하면, 수학식 첫번째 줄은 현재 분류하고자 하는 어휘의 태그는 현재 어휘가 속한 문맥에서 추출한 자질이 F일 때, 현재의 어휘가 B 클래스가 될 확률, I 클래스가 될 확률, O 클래스가 될 확률을 구한 다음 가장 큰 확률값을 가지는 태그로 선정한다는 의미이다. 여기에서, C는 가능한 태그 집합 {B, I, O}를 의미하고, F는 앞서 설명한 5가지의 자질을 의미한다.
수학식 두번째 줄은 배제어 정리에 의해 첫번째 줄을 풀어서 쓴 것이다. 첫번째 줄의 P(c|F)에 해당하는 확률값을 직접 구하기 어렵기 때문에 두번째 줄처럼 전개한 다음 P(c), P(F|c), P(F) 확률값을 이용하여 P(c|F)값을 구한다.
수학식 세번째 줄은 두번째 줄 수학식에서 F 부분을 각 자질별로 어휘(w), 품사(p), 개념(o), 인접 동사(v), 인접 동사 개념(vo)으로 다시 전개한 것이다. 어휘(w), 품사(p), 개념(o)은 좌우 k개씩, 즉 -k에서 k까지 있으며, 인접 동사(v)와 인접 동사 개념(vo)은 한 개만 존재하는 속성이므로 따로 분리한 것이다. 이 때, 두번째 수학식에서 분모를 이루는 P(F)는 클래스 판정에 영향을 주지 않는 확률이 되어 세번째 수학식에서 생략하였다.
네번째 줄은 세번째 수학식에서 P(wi, pi, oi |c) 부분을 독립성 가정을 이용하여 좀 더 구하기 쉬운 확률값으로 전개한 것이다. 즉, wi, pi, oi는 상호간에 영향을 미치지 않는 독립적인 관계라는 가정하에 P(wi|c), P(pi|c), P(oi|c)의 곱으로 표현될 수 있는 것이다.
마지막 줄의 수학식은 로그(log)를 전개한 것이다.
초기 학습 예제와 위와 같은 베이즈(Bayse) 학습 모델을 이용하여 후보 개체명 추출 모듈(142)로 입력된 문장을 구성하는 각각의 어휘에 대하여 클래스가 결정되면 이를 기초로 후보 개체명이 검출되고 결정된 클래스가 태깅(tagging)된 문장이 학습 예제 재생성 모듈(148)로 전달된다(S315).
학습 예제 재생성 모듈(148)은 저장 모듈(146)에 저장된 개체명 사전 및 규칙을 기초로 상기 태깅된 문장에 포함된 후보 개체명이 실제로 개체명에 속하는지 여부를 최종 판정하게 된다.
이 때, 저장 모듈(146)은 중의성이 없는 명확한 개체명의 목록을 갖는 사전 및 개체명 판단의 기준이 되는 규칙을 저장한다.
중의성이 없는 명확한 개체명은 후보 개체명 추출 모듈(142)에 의해 추출된 후보 개체명 중 의미 중의성이 없는 고유명사 형태의 개체명 또는 비교적 긴 개체명이 될 수 있으며, 예를 들어 방송에 관한 개체명의 경우, "미안하다 사랑한다", "대장금", "파리의 연인", "100분 토론", "나이트라인"과 같은 개체명들이 있다.
또한, 상기 규칙에는 의미열 패턴을 이용한 오류 검사 규칙 및 배제어 리스 트를 사용한 오류 검사 규칙이 있다.
의미열 패턴을 이용한 오류 검사 규칙의 예로서, "...방송하(/TV_V_BROADCAST)는 드라마(/TV_N_DRAMA)..."에서 추출되는 바이그램(bigram) 의미열 패턴에서 조사 '는'을 제외한 "TV_V_BROADCAST+ TV_N_DRAMA"는 개체명으로 판별하지 않는다.
다른 오류 패턴의 예로서, "TV_BROADCAST+TV_KEYWORD", "TV_BROADCAST" 등이 있다.
한편, 배제어 리스트를 사용한 오류 검사 규칙의 예로서, 배제어 사전을 R이라고 하고, 어절열 n1, n2, nn으로 구성된 개체명 N이 있을 때 R에 포함되는 ni가 있으면 개체명으로 판별하지 않는다. 배제어 사전 R의 예로서, "편성, 드라마, 다큐멘터리, 좀, 더, " 등이 있다. 이외에도 규칙의 예로서, 품사/품사열 패턴을 기반으로 하는 검증 규칙과 의미 정보를 이용한 검증 규칙 등을 포함할 수 있다.
만일 후보 개체명이 사전에 등록된 경우에는 후보 개체명을 최종 개체명으로 결정하고(S320, S325), 후보 개체명이 포함된 문장을 긍정 예문(positive example)로 판정한다(S330). 그리고 상기 긍정 예문을 새로운 학습 예제로 하여 모델 학습 모듈(144)로 제공한다(S350).
한편, S320 단계에서 후보 개체명이 사전에 등록된 경우가 아니라면, 저장 모듈(146)에 저장된 규칙에 위배되는지 여부를 검사하여(S335), 만일 규칙에 위배되는 경우에는 부정 예문(negative example)로 판정한다(S340, S345). 그리고 부정 예문을 새로운 학습 예제로 하여 모델 학습 모듈(144)로 제공한다(S350). 만일 규 칙에 위배되지 않는 경우에는 후보 개체명을 최종 개체명으로 결정은 하지만 모델 학습에는 사용되지 않는다(S342).
한편, 모델 학습 모듈(144)로 제공된 긍정 예문 또는 부정 예문의 학습 예제는 베이즈 모델에 반영되어 앞서 설명한 수학식의 확률값이 조정됨으로써, 점진적으로 개체명 검출 확률이 갱신되어 개체명을 검출하는 확률을 더욱 높일 수 있게 된다.
한편, 본 발명에 대한 실험에 있어서, 200개의 대화체 문장을 이용하여 초기 학습 예제를 구성하고, 500, 1000, 1500개의 대화체 문장을 통한 점진적 학습을 수행하였는데 그 결과는 [표 1]과 같다.
  B I O
질의 R P F R P F R P F
초기 0.57 0.77 0.66 0.58 0.99 0.73 0.99 0.95 0.97
500 0.64 0.79 0.71 0.66 0.92 0.77 0.99 0.96 0.98
1000 0.68 0.77 0.72 0.69 0.90 0.78 0.98 0.96 0.97
1500 0.69 0.75 0.72 0.71 0.89 0.79 0.98 0.97 0.98
이 때, R(recall)은 해당하는 클래스에 포함된 개체명이 선택될 확률을 나타내고 있으며, P(precision)은 선택된 개체명에서 해당하는 클래스가 검출될 확률을 나타내고 있으며, F는 R 성능과 P 성능을 모두 고려한 성능 지표이다.
위 [표 1]에서 알 수 있는 바와 같이, 본 발명을 따르게 되면 B 클래스와 I 클래스에 대한 F 성능 지표가 대화체 문장이 증가함에 따라 점진적으로 커지고 있음을 알 수 있다.
도 4는 본 발명의 일 실시예에 따른 음성 대화 시스템의 구조를 나타내는 블록도이다.
도 4를 참조하면, 본 발명에 따른 음성 대화 시스템(400)은 개체명 검출 시스템(410), 제어 시스템(420), 저장 시스템(430) 그리고 출력 시스템(440)을 포함한다.
개체명 검출 시스템(410)은 도 1에서 도시한 개체명 검출 시스템(100)에 대응하는 구조를 포함하며, 본 발명에 따른 방법에 따라 사용자의 발화로부터 개체명을 추출하여 제공한다.
제어 시스템(420)은 개체명 검출 시스템(410)으로부터 전달받은 개체명을 이용하여 음성 대화 시스템(400)의 해당하는 기능을 수행한다.
예를 들어, 음성 대화 시스템(400)이 개체명에 해당하는 정보를 검색하여 사용자에게 제공하는 시스템인 경우에는, 제어 시스템(420)은 개체명 검출 시스템(410)으로부터 전달받은 개체명을 이용하여 저장 시스템(430)에서 상기 개체명에 대한 정보를 검색하고, 검색된 정보를 출력 시스템(440)을 통하여 사용자에게 제공할 수 있는 것이다.
이 때, 저장 시스템(430)은 디지털 정보를 저장할 수 있는 각종 매체를 포함하며, 제어 시스템(420)과 유/무선 네트워크를 통하여 연결된 외부 저장 매체 또는 외부 서버를 포함할 수 있다.
또한, 출력 시스템(440)은 상기 검색된 정보를 사용자에게 제공하는 시스템으로서, 출력 시스템(440)의 형태는 상기 검색된 정보의 종류에 따라 달라질 수 있다. 예를 들어, 상기 검색된 정보가 텍스트, 이미지 등과 같은 시각적 정보인 경우에는 디스플레이 장치의 형태를 갖고, 상기 검색된 정보가 음악, 소리 등과 같은 청각적 정보인 경우에는 스피커의 형태를 갖고, 상기 검색된 정보가 촉각 정보인 경우에는 햅틱 기기(haptic device)의 형태를 갖을 수 있다. 또한, 상기 검색된 정보가 동영상 정보인 경우에는 디스플레이 및 스피커를 모두 구비한 형태일 수도 있다.
본 발명의 실시에 따라 개체명 추출이 잘 이루어지는 경우 음성 대화의 성능 향상이 기대될 수 있으므로 결국 도 4에서 도시한 음성 대화 시스템(400)의 성능 향상에도 기여할 수 있게 된다.
이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
본 발명을 따르게 되면, 개체명 검출에 있어서 점진적 학습을 통해 지속적인 학습 효과를 제공하는 효과가 있다.
또한 본 발명을 따르게 되면, 작은 양의 태그가 부착된 코퍼스를 사용함으로써 보다 효율적인 개체명 검출을 수행할 수 있는 효과가 있다.

Claims (18)

  1. 소정의 학습 예제와 입력된 문장을 구성하는 형태소의 자질 정보를 기초로 후보 개체명을 검출하고, 검출된 후보 개체명을 포함하는 태깅된 문장을 제공하는 후보 개체명 추출 모듈;
    개체명 사전 및 소정의 규칙에 대한 정보를 저장하는 저장 모듈; 및
    상기 개체명 사전 및 상기 규칙을 기초로 상기 제공된 문장에 포함된 후보 개체명에 대한 최종 개체명 여부를 판별하고, 판별 결과에 대응하여 상기 문장을 학습 예제로 제공하여 점진적으로 후보 개체명 검출 확률을 갱신하도록 하는 학습 예제 재생성 모듈을 포함하는 개체명 검출 장치.
  2. 제1항에 있어서,
    상기 자질 정보는 어휘 자질, 품사 자질, 개념 자질, 인접 동사 자질 또는 인접 동사 개념 자질을 포함하는 개체명 검출 장치.
  3. 제1항에 있어서,
    상기 후보 개체명 추출 모듈은 상기 자질 정보에 기반한 소정의 학습 모델을 이용하여 상기 형태소의 클래스를 결정하고, 상기 결정된 클래스 정보를 태그로 부가하여 태깅된 문장을 제공하는 개체명 검출 장치.
  4. 제3항에 있어서,
    상기 학습 모델은 베이즈(Bayse) 학습 모델을 포함하는 개체명 검출 장치.
  5. 제1항에 있어서,
    상기 개체명 사전에 기록된 개체명은 중의성이 없는 명확한 개체명을 포함하는 개체명 검출 장치.
  6. 제1항에 있어서,
    상기 규칙은 의미열 패턴을 이용한 오류 검사 규칙을 포함하는 개체명 검출 장치.
  7. 제1항에 있어서,
    상기 규칙은 배제어 리스트를 사용한 오류 검사 규칙을 포함하는 개체명 검출 장치.
  8. 제1항에 있어서,
    학습 예제 재생성 모듈에 의해 제공되는 학습 예제는 상기 규칙에 위배되는 경우에는 부정 예문으로서 제공되는 개체명 검출 장치.
  9. 제1항에 있어서,
    상기 후보 개체명이 상기 개체명 사전에 포함된 경우, 상기 학습 예제 재생성 모듈은 상기 후보 개체명이 포함된 문장을 긍정 예문인 학습 예제로서 제공하는 개체명 검출 장치.
  10. 소정의 학습 예제와 입력된 문장을 구성하는 형태소의 자질 정보를 기초로 후보 개체명을 검출하고, 상기 검출된 후보 개체명을 포함하는 태깅된 문장을 제공하는 (a) 단계;
    기저장된 개체명 사전 및 규칙을 기초로 상기 제공된 문장에 포함된 후보 개체명에 대한 최종 개체명 여부를 판별하는 (b) 단계; 및
    상기 판별 결과에 대응하여 상기 문장을 학습 예제로 제공하여 점진적으로 후보 개체명 검출 확률을 갱신하도록 하는 (c) 단계를 포함하는 개체명 검출 방법.
  11. 제10항에 있어서,
    상기 자질 정보는 어휘 자질, 품사 자질, 개념 자질, 인접 동사 자질 또는 인접 동사 개념 자질을 포함하는 개체명 검출 방법.
  12. 제10항에 있어서,
    상기 (a) 단계는 상기 자질 정보에 기반한 소정의 학습 모델을 이용하여 상기 형태소의 클래스를 결정하고, 상기 결정된 클래스 정보를 태그로 부가하여 태깅된 문장을 제공하는 단계를 포함하는 개체명 검출 방법.
  13. 제12항에 있어서,
    상기 학습 모델은 베이즈(Bayse) 학습 모델을 포함하는 개체명 검출 방법.
  14. 제10항에 있어서,
    상기 개체명 사전에 기록된 개체명은 중의성이 없는 명확한 개체명을 포함하는 개체명 검출 방법.
  15. 제10항에 있어서,
    상기 규칙은 의미열 패턴을 이용한 오류 검사 규칙을 포함하는 개체명 검출 방법.
  16. 제10항에 있어서,
    상기 규칙은 배제어 리스트를 사용한 오류 검사 규칙을 포함하는 개체명 검출 방법.
  17. 제10항에 있어서,
    상기 (c) 단계에서 제공되는 학습 예제는 상기 규칙에 위배되는 경우에는 부정 예문으로서 제공되는 개체명 검출 방법.
  18. 제10항에 있어서,
    상기 후보 개체명이 상기 개체명 사전에 포함된 경우, 상기 (c) 단계에서 제공되는 학습 예제는 상기 후보 개체명이 포함된 문장을 긍정 예문으로 하여 제공되는 개체명 검출 방법.
KR1020050102370A 2005-10-28 2005-10-28 개체명 검출 장치 및 방법 KR100755678B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020050102370A KR100755678B1 (ko) 2005-10-28 2005-10-28 개체명 검출 장치 및 방법
US11/498,050 US8655646B2 (en) 2005-10-28 2006-08-03 Apparatus and method for detecting named entity

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050102370A KR100755678B1 (ko) 2005-10-28 2005-10-28 개체명 검출 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20070045748A KR20070045748A (ko) 2007-05-02
KR100755678B1 true KR100755678B1 (ko) 2007-09-05

Family

ID=37997779

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050102370A KR100755678B1 (ko) 2005-10-28 2005-10-28 개체명 검출 장치 및 방법

Country Status (2)

Country Link
US (1) US8655646B2 (ko)
KR (1) KR100755678B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101195812B1 (ko) * 2010-07-08 2012-11-05 뷰모션 (주) 규칙기반 시스템을 이용한 음성인식 시스템 및 그 방법
KR101255468B1 (ko) 2011-10-17 2013-04-16 포항공과대학교 산학협력단 대화 의도를 분류하는 방법
KR20210085158A (ko) * 2019-12-30 2021-07-08 한국과학기술원 문맥 정보를 고려한 개체명 인식 방법 및 장치
US11373634B2 (en) 2018-11-14 2022-06-28 Samsung Electronics Co., Ltd. Electronic device for recognizing abbreviated content name and control method thereof

Families Citing this family (181)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7769579B2 (en) 2005-05-31 2010-08-03 Google Inc. Learning facts from semi-structured text
US8682913B1 (en) 2005-03-31 2014-03-25 Google Inc. Corroborating facts extracted from multiple sources
US7587387B2 (en) 2005-03-31 2009-09-08 Google Inc. User interface for facts query engine with snippets from information sources that include query terms and answer terms
US9208229B2 (en) * 2005-03-31 2015-12-08 Google Inc. Anchor text summarization for corroboration
US8996470B1 (en) 2005-05-31 2015-03-31 Google Inc. System for ensuring the internal consistency of a fact repository
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8260785B2 (en) 2006-02-17 2012-09-04 Google Inc. Automatic object reference identification and linking in a browseable fact repository
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8122026B1 (en) * 2006-10-20 2012-02-21 Google Inc. Finding and disambiguating references to entities on web pages
US11222185B2 (en) 2006-10-26 2022-01-11 Meta Platforms, Inc. Lexicon development via shared translation database
US8972268B2 (en) * 2008-04-15 2015-03-03 Facebook, Inc. Enhanced speech-to-speech translation system and methods for adding a new word
US9070363B2 (en) * 2007-10-26 2015-06-30 Facebook, Inc. Speech translation with back-channeling cues
US8347202B1 (en) 2007-03-14 2013-01-01 Google Inc. Determining geographic locations for place names in a fact repository
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
KR100877477B1 (ko) * 2007-06-28 2009-01-07 주식회사 케이티 백오프 엔-그램 자질을 이용한 개체명 인식 장치 및 그방법
US7970766B1 (en) 2007-07-23 2011-06-28 Google Inc. Entity type assignment
US8812435B1 (en) 2007-11-16 2014-08-19 Google Inc. Learning objects and facts from documents
JP5379155B2 (ja) * 2007-12-06 2013-12-25 グーグル・インコーポレーテッド Cjk名前検出
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8290968B2 (en) 2010-06-28 2012-10-16 International Business Machines Corporation Hint services for feature/entity extraction and classification
KR101173561B1 (ko) * 2010-10-25 2012-08-13 한국전자통신연구원 질문 형태 및 도메인 인식 장치 및 그 방법
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US9202176B1 (en) 2011-08-08 2015-12-01 Gravity.Com, Inc. Entity analysis system
KR101255957B1 (ko) * 2011-12-09 2013-04-24 포항공과대학교 산학협력단 개체명 태깅 방법 및 장치
US9201964B2 (en) * 2012-01-23 2015-12-01 Microsoft Technology Licensing, Llc Identifying related entities
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR102579086B1 (ko) 2013-02-07 2023-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9460088B1 (en) * 2013-05-31 2016-10-04 Google Inc. Written-domain language modeling with decomposition
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR102106797B1 (ko) * 2013-10-11 2020-05-06 에스케이텔레콤 주식회사 복합 문장 분석 장치, 이를 위한 기록매체
KR102147670B1 (ko) * 2013-10-14 2020-08-25 에스케이텔레콤 주식회사 복합 문장 분석 장치, 이를 위한 기록매체
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US8990234B1 (en) * 2014-02-28 2015-03-24 Lucas J. Myslinski Efficient fact checking method and system
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9734193B2 (en) * 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9589563B2 (en) * 2014-06-02 2017-03-07 Robert Bosch Gmbh Speech recognition of partial proper names by natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10078651B2 (en) * 2015-04-27 2018-09-18 Rovi Guides, Inc. Systems and methods for updating a knowledge graph through user input
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
KR101725354B1 (ko) * 2015-11-05 2017-04-10 광운대학교 산학협력단 개체명 사전 관리 방법 및 그 장치
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
RU2619193C1 (ru) 2016-06-17 2017-05-12 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Многоэтапное распознавание именованных сущностей в текстах на естественном языке на основе морфологических и семантических признаков
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
CN108073573A (zh) * 2016-11-16 2018-05-25 北京搜狗科技发展有限公司 一种机器翻译方法、装置和机器翻译系统训练方法、装置
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
KR101890207B1 (ko) * 2017-01-03 2018-08-22 네이버 주식회사 개체명 연결 방법, 장치 및 컴퓨터 프로그램
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
CN107507612B (zh) * 2017-06-30 2020-08-28 百度在线网络技术(北京)有限公司 一种声纹识别方法及装置
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
KR101941692B1 (ko) 2017-10-18 2019-01-23 서강대학교산학협력단 한국어 개체명 인식방법 및 장치
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
CN109033070B (zh) * 2018-06-19 2022-04-15 深圳市元征科技股份有限公司 一种数据处理方法、服务器及计算机可读介质
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
KR20200054360A (ko) * 2018-11-05 2020-05-20 삼성전자주식회사 전자 장치 및 그 제어 방법
US11669759B2 (en) 2018-11-14 2023-06-06 Bank Of America Corporation Entity resource recommendation system based on interaction vectorization
US11568289B2 (en) 2018-11-14 2023-01-31 Bank Of America Corporation Entity recognition system based on interaction vectorization
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
GB201904167D0 (en) * 2019-03-26 2019-05-08 Benevolentai Tech Limited Name entity recognition with deep learning
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11669692B2 (en) 2019-07-12 2023-06-06 International Business Machines Corporation Extraction of named entities from document data to support automation applications
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
CN112949306B (zh) * 2019-12-10 2024-04-30 医渡云(北京)技术有限公司 命名实体识别模型创建方法、装置、设备及可读存储介质
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
KR20220135039A (ko) * 2021-03-29 2022-10-06 삼성전자주식회사 전자 장치 및 이를 이용한 음성 인식 수행 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010037309A (ko) * 1999-10-15 2001-05-07 정명식 형태소 접속 그래프를 사용한 형태소 및 구문 분석 방법
KR20040038559A (ko) * 2002-11-01 2004-05-08 한국전자통신연구원 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및의미범주 분류 장치 및 그 방법
KR20040050461A (ko) * 2002-12-10 2004-06-16 한국전자통신연구원 한국어 텍스트 상의 개체명 인식 장치 및 방법
KR20040088360A (ko) * 2003-03-31 2004-10-16 마이크로소프트 코포레이션 증분 베이즈 학습을 사용하는 잡음 추정 방법
KR20050039379A (ko) * 2003-10-24 2005-04-29 한국전자통신연구원 대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정장치 및 그 방법
JP2005234214A (ja) 2004-02-19 2005-09-02 Nippon Telegr & Teleph Corp <Ntt> 音声認識用音響モデル生成方法及び装置、音声認識用音響モデル生成プログラムを記録した記録媒体

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6052682A (en) * 1997-05-02 2000-04-18 Bbn Corporation Method of and apparatus for recognizing and labeling instances of name classes in textual environments
EP1093058A1 (en) * 1999-09-28 2001-04-18 Cloanto Corporation Method and apparatus for processing text and character data
US20030191625A1 (en) * 1999-11-05 2003-10-09 Gorin Allen Louis Method and system for creating a named entity language model
JP4065936B2 (ja) * 2001-10-09 2008-03-26 独立行政法人情報通信研究機構 機械学習法を用いた言語解析処理システムおよび機械学習法を用いた言語省略解析処理システム
US7315810B2 (en) * 2002-01-07 2008-01-01 Microsoft Corporation Named entity (NE) interface for multiple client application programs
TWI256562B (en) * 2002-05-03 2006-06-11 Ind Tech Res Inst Method for named-entity recognition and verification
US7212963B2 (en) * 2002-06-11 2007-05-01 Fuji Xerox Co., Ltd. System for distinguishing names in Asian writing systems
US6925601B2 (en) * 2002-08-28 2005-08-02 Kelly Properties, Inc. Adaptive testing and training tool
US7383241B2 (en) * 2003-07-25 2008-06-03 Enkata Technologies, Inc. System and method for estimating performance of a classifier
US7475010B2 (en) * 2003-09-03 2009-01-06 Lingospot, Inc. Adaptive and scalable method for resolving natural language ambiguities
KR100501413B1 (ko) * 2003-10-23 2005-07-18 한국전자통신연구원 유엠엘에스를 기반으로 생물학 문헌으로부터 생물학적개체명을 인식하는 장치 및 그 방법
US9009153B2 (en) * 2004-03-31 2015-04-14 Google Inc. Systems and methods for identifying a named entity
US7865356B2 (en) * 2004-07-15 2011-01-04 Robert Bosch Gmbh Method and apparatus for providing proper or partial proper name recognition
KR100597437B1 (ko) * 2004-12-17 2006-07-06 한국전자통신연구원 하이브리드 정답유형 인식 장치 및 방법
US8280719B2 (en) * 2005-05-05 2012-10-02 Ramp, Inc. Methods and systems relating to information extraction
US8249344B2 (en) * 2005-07-01 2012-08-21 Microsoft Corporation Grammatical parsing of document visual structures
US7672833B2 (en) * 2005-09-22 2010-03-02 Fair Isaac Corporation Method and apparatus for automatic entity disambiguation

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010037309A (ko) * 1999-10-15 2001-05-07 정명식 형태소 접속 그래프를 사용한 형태소 및 구문 분석 방법
KR20040038559A (ko) * 2002-11-01 2004-05-08 한국전자통신연구원 텍스트 문서집합에서 반복학습을 통한 개체명 인식 및의미범주 분류 장치 및 그 방법
KR20040050461A (ko) * 2002-12-10 2004-06-16 한국전자통신연구원 한국어 텍스트 상의 개체명 인식 장치 및 방법
KR20040088360A (ko) * 2003-03-31 2004-10-16 마이크로소프트 코포레이션 증분 베이즈 학습을 사용하는 잡음 추정 방법
KR20050039379A (ko) * 2003-10-24 2005-04-29 한국전자통신연구원 대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정장치 및 그 방법
JP2005234214A (ja) 2004-02-19 2005-09-02 Nippon Telegr & Teleph Corp <Ntt> 音声認識用音響モデル生成方法及び装置、音声認識用音響モデル生成プログラムを記録した記録媒体

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
10-2001-37309
10-2004-38559
10-2004-50461
10-2005-39379
음소 인식을 위한 특징 추출의 위치와 지속시간 길이에 관한 연구, 음향학회13권4호,1994

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101195812B1 (ko) * 2010-07-08 2012-11-05 뷰모션 (주) 규칙기반 시스템을 이용한 음성인식 시스템 및 그 방법
KR101255468B1 (ko) 2011-10-17 2013-04-16 포항공과대학교 산학협력단 대화 의도를 분류하는 방법
US11373634B2 (en) 2018-11-14 2022-06-28 Samsung Electronics Co., Ltd. Electronic device for recognizing abbreviated content name and control method thereof
KR20210085158A (ko) * 2019-12-30 2021-07-08 한국과학기술원 문맥 정보를 고려한 개체명 인식 방법 및 장치
KR102361616B1 (ko) * 2019-12-30 2022-02-11 한국과학기술원 문맥 정보를 고려한 개체명 인식 방법 및 장치

Also Published As

Publication number Publication date
KR20070045748A (ko) 2007-05-02
US20070100814A1 (en) 2007-05-03
US8655646B2 (en) 2014-02-18

Similar Documents

Publication Publication Date Title
KR100755678B1 (ko) 개체명 검출 장치 및 방법
Collobert et al. Wav2letter: an end-to-end convnet-based speech recognition system
US9934777B1 (en) Customized speech processing language models
Liu et al. Gram-CTC: Automatic unit selection and target decomposition for sequence labelling
US9361879B2 (en) Word spotting false alarm phrases
US20080215328A1 (en) Method and system for automatically detecting morphemes in a task classification system using lattices
US8494847B2 (en) Weighting factor learning system and audio recognition system
Alon et al. Contextual speech recognition with difficult negative training examples
US8255220B2 (en) Device, method, and medium for establishing language model for expanding finite state grammar using a general grammar database
JP2004005600A (ja) データベースに格納された文書をインデックス付け及び検索する方法及びシステム
JP2004133880A (ja) インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法
Munkhdalai et al. Fast contextual adaptation with neural associative memory for on-device personalized speech recognition
Bazzi et al. A multi-class approach for modelling out-of-vocabulary words
Moyal et al. Phonetic search methods for large speech databases
Tapsai et al. Thai Natural Language Processing: Word Segmentation, Semantic Analysis, and Application
Lefevre Dynamic bayesian networks and discriminative classifiers for multi-stage semantic interpretation
KR100542757B1 (ko) 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치
CN111428487A (zh) 模型训练方法、歌词生成方法、装置、电子设备及介质
Li et al. Discriminative data selection for lightly supervised training of acoustic model using closed caption texts
JP2011154061A (ja) 辞書作成装置、そのコンピュータプログラムおよびデータ処理方法
Meechan-Maddon The effect of noise in the training of convolutional neural networks for text summarisation
Choueiter Linguistically-motivated sub-word modeling with applications to speech recognition
Gurunath Shivakumar et al. Confusion2Vec 2.0: Enriching ambiguous spoken language representations with subwords
Zhang et al. Exploring features for identifying edited regions in disfluent sentences
Soltau et al. Automatic speech recognition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application
AMND Amendment
J201 Request for trial against refusal decision
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120730

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20130730

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140730

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20150730

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee