KR101776673B1 - 자연어 처리용 문법 자동 생성 장치 및 방법 - Google Patents

자연어 처리용 문법 자동 생성 장치 및 방법 Download PDF

Info

Publication number
KR101776673B1
KR101776673B1 KR1020110002822A KR20110002822A KR101776673B1 KR 101776673 B1 KR101776673 B1 KR 101776673B1 KR 1020110002822 A KR1020110002822 A KR 1020110002822A KR 20110002822 A KR20110002822 A KR 20110002822A KR 101776673 B1 KR101776673 B1 KR 101776673B1
Authority
KR
South Korea
Prior art keywords
corpus
grammar
extracted
domain
class
Prior art date
Application number
KR1020110002822A
Other languages
English (en)
Other versions
KR20120081471A (ko
Inventor
김정은
조정미
김정수
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020110002822A priority Critical patent/KR101776673B1/ko
Priority to US13/248,320 priority patent/US9092420B2/en
Publication of KR20120081471A publication Critical patent/KR20120081471A/ko
Application granted granted Critical
Publication of KR101776673B1 publication Critical patent/KR101776673B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

수집된 코퍼스로부터 설정된 도메인과 관련된 코퍼스를 추출하고, 추출된 코퍼스를 이용하여 문법을 자동으로 생성함으로써, 설정된 도메인에서 사용될 문법을 편리하게 생성할 수 있는 자연어 처리용 문법 자동 생성 장치가 개시된다. 자연어 처리용 문법 자동 생성 장치는 도메인들 중 의도 분석 시스템이 처리하고자하는 도메인을 설정하고, 수집된 코퍼스(corpus)로부터 설정된 도메인과 관련된 코퍼스를 추출하고, 추출된 코퍼스를 이용하여 문법(grammar)을 생성할 수 있다.

Description

자연어 처리용 문법 자동 생성 장치 및 방법{APPARATUS AND METHOD FOR AUTOMATICALLY GENERATING GRAMMAR IN NATURAL LANGUAGE PROCESSING}
입력되는 음성이나 문자에 기초하여 사용자의 의도를 분석하기 위해 사용되는 문법을 자동으로 생성함으로써, 문법을 편리하게 생성할 수 있는 기술과 관련된다.
최근 들어, 사용자가 음성 또는 문자를 이용하여 원하는 정보를 검색하거나, 개인 정보를 관리하거나, 다양한 장치들을 제어하는 등과 같은 기술에 대한 관심이 증가하고 있다. 예를 들면, 사용자가 음성 또는 문자를 장치로 입력하면, 장치는 사용자가 입력한 음성 또는 문자를 분석하여 사용자의 의도를 파악할 수 있다. 장치는 파악된 의도에 기초하여 스스로를 구동시킨다. 예를 들면, 사용자가 "TV를 켜라"라는 음성 또는 문자를 TV로 입력하면, TV는 "TV를 켜라"라는 입력된 음성 또는 문자를 분석하여 사용자의 의도를 파악한다. 그 다음, TV는 파악된 의도('TV의 전원을 켜고 싶다')에 기초하여 TV의 전원을 켤 수 있다.
사용자 의도를 분석하기 위해서는 입력되는 음성 또는 문자에 기초하여 사용자의 의도를 분석할 수 있는 문법(Grammar)이 필요하다. 예를 들면, 사용자 의도 분석 장치는 문법(Grammar)을 이용하여 입력되는 음성 또는 문자로부터 사용자의 의도를 분석할 수 있다. 의도 분석을 정확하게 하기 위해서는 다양한 어휘 및 표현을 처리할 수 있는 방대한 양의 문법(Grammar)이 필요하다. 그러나, 제조업자 또는 사용자 등이 방대한 양의 문법을 직접 작성하는 경우, 많은 시간이 소요되며 많은 노력이 필요하게 된다. 또한, 많은 시간이 소요되며 많은 노력을 들여 문법을 생성하더라도, 제조 업자 또는 사용자 등이 다양한 어휘 및 다양한 표현을 모두 반영하여 문법을 생성하는 것에는 한계가 있다.
수집된 코퍼스로부터 설정된 도메인과 관련된 코퍼스를 추출하고, 추출된 코퍼스를 이용하여 문법을 자동으로 생성함으로써, 설정된 도메인에서 사용될 문법을 편리하게 생성할 수 있는 자연어 처리용 문법 자동 생성 장치가 개시된다.
본 발명의 일 실시예에 따른 도메인들 중 의도 분석 시스템이 처리하고자하는 도메인을 설정하는 설정부와, 수집된 코퍼스(corpus)로부터 설정된 도메인과 관련된 코퍼스를 추출하는 제 1 추출부 및 추출된 코퍼스를 이용하여 문법(grammar)을 생성하는 생성부를 포함한다.
자연어 처리용 문법 자동 생성 장치는 추출된 코퍼스를 설정된 도메인의 영역 행위(domain action)별로 분류하는 분류부를 더 포함할 수 있다.
자연어 처리용 문법 자동 생성 장치는 분류된 코퍼스로부터 영역 행위별 개념을 추출하는 제 2 추출부를 더 포함하고, 생성부는 영역 행위별로 분류된 코퍼스 및 추출된 개념에 기초하여 문법(grammar)을 생성할 수 있다.
자연어 처리용 문법 자동 생성 장치는 추출된 코퍼스 중 언어학적 문법에 맞지 않는 단어 또는 문장을 제거하는 제거부를 더 포함할 수 있다.
자연어 처리용 문법 자동 생성 장치는 추출된 코퍼스에 포함된 단어를 클래스로 변환하는 클래스 변환부를 더 포함할 수 있다.
본 발명의 일실시예에 따른 자연어 처리용 문법 자동 생성 방법은 도메인들 중 의도 분석 시스템이 처리하고자하는 도메인을 설정하는 단계와, 수집된 코퍼스(corpus)로부터 설정된 도메인과 관련된 코퍼스를 추출하는 단계 및 추출된 코퍼스를 이용하여 문법(grammar)을 생성하는 단계를 포함한다.
자연어 처리용 문법 자동 생성 방법은 추출된 코퍼스를 설정된 도메인의 영역 행위별로 분류하는 단계를 더 포함할 수 있다.
자연어 처리용 문법 자동 생성 방법은 분류된 코퍼스로부터 영역 행위별 개념을 추출하는 단계를 더 포함하고, 문법(grammar)을 생성하는 단계는 영역 행위별로 분류된 코퍼스 및 추출된 개념에 기초하여 문법(grammar)을 생성하는 단계를 포함할 수 있다.
자연어 처리용 문법 자동 생성 방법은 추출된 코퍼스 중 언어학적 문법에 맞지 않는 단어 또는 문장을 제거하는 단계를 더 포함할 수 있다.
자연어 처리용 문법 자동 생성 방법은 추출된 코퍼스에 포함된 단어를 클래스로 변환하는 단계를 더 포함할 수 있다.
개시된 내용에 따르면, 수집된 코퍼스로부터 설정된 도메인과 관련된 코퍼스를 추출하고, 추출된 코퍼스를 이용하여 문법을 자동으로 생성함으로써, 설정된 도메인에서 사용될 문법을 편리하게 생성할 수 있다.
도 1은 본 발명의 일 실시예와 관련된 자연어 처리용 문법 자동 생성 장치를 설명하기 위한 도면이다.
도 2는 도 1의 자연어 처리용 문법 자동 생성 장치가 문법을 생성하는 과정을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예와 관련된 자연어 처리용 문법 자동 생성 방법을 설명하기 위한 흐름도이다.
이하, 첨부된 도면을 참조하여 발명을 실시하기 위한 구체적인 내용에 대하여 상세하게 설명한다.
도 1은 본 발명의 일 실시예와 관련된 자연어 처리용 문법 자동 생성 장치를 설명하기 위한 도면이다.
도 1을 참조하면, 자연어 처리용 문법 자동 생성 장치(100)는 설정부(110), 제 1 추출부(120), 제거부(130), 분류부(140), 제 2 추출부(150), 클래스 변환부(160) 및 생성부(170)를 포함한다. 자연어 처리란 의도 분석 시스템을 이용하여 사람의 언어를 이해, 생성 및 분석하는 인공 지능 기술이다. 자연어는 텍스트, 음성, 그래픽 등을 기초로 생성될 수 있다.
설정부(110)는 도메인들 중 의도 분석 시스템이 처리하고자 하는 도메인을 설정할 수 있다. 예를 들면, 도메인은 TV 제어 도메인, 동영상 검색 도메인, 개인정보 관리 시스템(personal information management system) 도메인 등 일 수 있다.
제 1 추출부(120)는 수집된 코퍼스(corpus)로부터 설정된 도메인과 관련된 코퍼스를 추출할 수 있다. 코퍼스는 언어 처리(language processing)를 위해 수집된 언어 데이터를 의미할 수 있다. 이에 따라, 제 1 추출부(120)는 설정된 도메인과 관련되지 않은 코퍼스를 추출하지 않을 수 있다. 예를 들면, 코퍼스는 소설, 잡지, 신문 기사, 사전, 사용 설명서, 웹(web)상에 존재하는 텍스트 등으로부터 수집된 텍스트 코퍼스 및 대화, 인터뷰, 낭독 등을 텍스트 형태로 옮긴 코퍼스를 포함할 수 있다. 수집된 코퍼스는 인터넷, 텍스트 문서, 음성 데이터 등으로부터 얻어진 많은 양의 코퍼스를 의미할 수 있다.
예를 들면, 설정된 도메인이 TV 제어 도메인인 경우, 제 1 추출부(120)는 수집 코퍼스(corpus)로부터 TV 제어 도메인과 관련된 코퍼스를 추출할 수 있다.
예를 들면, 제 1 추출부(120)는 수집된 코퍼스 및 기준 코퍼스를 벡터로 표현하고, 벡터간의 유사도를 비교하여 수집된 코퍼스(corpus)로부터 설정된 도메인과 관련된 코퍼스를 추출할 수 있다. 기준 코퍼스는 설정된 도메인과 관련된 코퍼스인지 여부를 판단할 수 있는 기준이 되는 코퍼스를 의미한다. 예를 들면, 기준 코퍼스는 설정된 도메인과 관련된 단어 및 온톨로지(ontology)를 이용하여 확장한 단어를 포함할 수 있다.
또 다른 예를 들면, 제 1 추출부(120)는 기준 코퍼스에 포함된 단어가 수집된 코퍼스의 문장에 포함되어 있는지 여부를 판단할 수 있다. 제 1 추출부(120)는 판단 결과에 기초하여 수집된 코퍼스(corpus)로부터 설정된 적용 분야와 관련된 코퍼스를 추출할 수 있다. 제 1 추출부(120)는 위와 같은 방법 이외에도 다양한 방법으로 수집된 코퍼스(corpus)로부터 설정된 도메인과 관련된 코퍼스를 추출할 수 있다.
제거부(130)는 제 1 추출부(120)에서 추출된 코퍼스 중 언어학적 문법에 맞지 않거나 설정된 도메인과 관련 없는 단어/문장 등과 같이 불필요한 단어 또는 문장을 제거할 수 있다. 이와 같이 함으로써, 추출된 코퍼스로부터 언어학적 문법에 맞지 않거나 설정된 도메인과 관련 없는 불필요한 단어 또는 문장을 제거할 수 있다.
분류부(140)는 제거된 코퍼스를 설정된 도메인의 영역 행위(domain action)별로 분류할 수 있다. 영역 행위는 사용자 등이 의도 분석 시스템으로부터 적절한 응답 도는 행동을 얻어내기 위해 의도 분석 시스템으로 전달하고자하는 의도를 분류한 카테고리를 의미한다. 영역 행위는 도메인에 따라 다르게 정의될 수 있다. 예를 들면, 설정된 도메인이 TV 제어 도메인인 경우, 영역 행위는 TV의 채널을 선택하는 영역 행위, 모든 프로그램 정보를 얻는 영역 행위, 다음 방영될 프로그램 정보를 얻는 영역 행위, 볼륨을 조절하는 영역 행위 등을 포함할 수 있다. 예를 들면 분류부(140)는 SVM(Support-Vector Machine), CART(Classification and Regression Trees), SNoW(Sparse Network of Windows) 등의 기법을 사용하여 코퍼스를 설정된 도메인의 영역 행위별로 분류할 수 있다.
제 2 추출부(150)는 분류부(140)에서 영역 행위별로 분류된 코퍼스로부터 영역 행위별 개념(concept)을 추출할 수 있다. 개념(concept)이란 각 문장이 나타내고자하는 의도인 영역 행위(domain action)를 완성하기 위해 필요한 파라미터를 의미한다. 예를 들면, 영역 행위가 TV의 채널을 선택하는 카테고리인 경우, 제 2 추출부(150)는 해당 영역 행위에 대응되는 문장으로부터 '채널'이라는 개념을 추출할 수 있다.
클래스 변환부(160)는 분류부(140)에서 영역 행위별로 분류된 코퍼스에 포함된 단어를 클래스로 변환할 수 있다. 클래스는 코퍼스에 포함된 단어, 코퍼스에 포함된 단어의 유의어 및 동의어 등을 포함할 수 있다. 클래스 변환부(160)는 '틀어라'의 "라"와 같은 명령형 어미를 "봐", "줘", "라" 등의 어미가 포함된 명령형 어미 클래스로 변환할 수 있다. 또한, 클래스 변환부(160)는 명사구, 부사구 등을 클래스로 변환할 수 있다.
예를 들면, 단어가 '10월'인 경우, 클래스는 날짜(date)일 수 있다. 예를 들면, 단어가 '스포츠'인 경우, 클래스는 '장르'일 수 있다. 예를 들면, 단어가 'CNN'인 경우, 클래스는 '채널'일 수 있다. 단어가 명령어 어미인 '라'인 경우, 클래스는 '명령형 어미'일 수 있다. 이와 같이 함으로써, 특정 단어를 유사어 및 동의어 등을 포함하는 클래스로 확장할 수 있다.
생성부(170)는 추출된 코퍼스를 이용하여 설정된 도메인에서 사용될 문법(grammar)을 생성할 수 있다. 생성부(170)는 영역 행위별로 분류된 코퍼스 및 추출된 개념에 기초하여 설정된 도메인에서 사용될 문법(grammar)을 생성할 수 있다. 문법(grammar)은 입력되는 음성 또는 문자로부터 사용자의 의도를 파악하기 위해 이용되는 법칙들을 의미할 수 있다. 자연어 처리용 문법 자동 생성 장치가 문법을 생성하는 과정은 도 2를 참조하여 구체적으로 설명한다.
자연어 처리용 문법 자동 생성 장치는 수집된 코퍼스로부터 설정된 도메인과 관련된 코퍼스를 추출하고, 추출된 코퍼스를 이용하여 문법을 자동으로 생성함으로써, 설정된 도메인에서 사용될 문법을 편리하게 생성할 수 있다.
도 2는 도 1의 자연어 처리용 문법 자동 생성 장치가 문법을 생성하는 과정을 설명하기 위한 도면이다.
이하에서는, 설정된 도메인이 TV 제어 도메인인 경우를 가정한다.
도 1 및 도 2를 참조하면, 제 1 추출부(120)는 수집된 코퍼스(corpus)로부터 설정부(110)에서 설정된 도메인과 관련된 코퍼스(200)를 추출할 수 있다. 제 1 추출부(120)는 수집된 코퍼스를 문장 단위로 분리할 수 있다. 또한, 제 1 추출부(120)는 필요에 따라 분리된 문장들을 형태소 단위로 태깅할 수 있다.
제거부(130)는 추출된 코퍼스(200) 중 언어학적 문법에 맞지 않는 단어 또는 문장을 제거할 수 있다.
분류부(140)는 제거부(130)에서 언어학적 문법에 맞지 않는 단어 또는 문장이 제거된 코퍼스를 설정된 도메인의 영역 행위별로 분류할 수 있다. 예를 들면, 분류부(140)는 추출된 코퍼스의 첫번째 문장을 채널을 선택하는 영역 행위('Setchannel')(211)로 분류할 수 있다. 또한, 분류부(140)는 추출된 코퍼스의 두번째 문장을 프로그램에 대한 정보를 얻는 영역 행위('Getprogram')(212)로 분류할 수 있다. 분류부(140)는 추출된 코퍼스의 세번째 문장을 다음 프로그램에 대한 정보를 얻는 영역 행위('Getnextprogram')(213)로 분류할 수 있다.
제 2 추출부(150)는 분류부(140)에서 영역 행위별로 분류된 코퍼스로부터 영역 행위별 개념(concept)을 추출할 수 있다. 예를 들면, 제 2 추출부(150)는 영역 행위('Setchannel')(211)의 개념인 "KBS2" 및 "주말 드라마"를 추출할 수 있다. "KBS2"는 채널(channel)(221)을 의미하는 개념이고, "주말 드라마"는 장르(genre)(222)를 의미하는 개념이다.
예를 들면, 제 2 추출부(150)는 영역 행위('Getprogram')(212)의 개념인 "월요일" 및 "드라마"를 추출할 수 있다. "월요일"은 날짜(date)(223)를 의미하는 개념이고, "드라마"는 장르(genre)(224)를 의미하는 개념이다.
예를 들면, 제 2 추출부(150)는 영역 행위('Getnextprogram')(213)의 개념인 "드라마"를 추출할 수 있다. "드라마"는 장르(genre)(225)를 의미하는 개념이다.
클래스 변환부(160)는 분류부(140)에서 영역 행위별로 분류된 코퍼스에 포함된 단어를 클래스로 변환할 수 있다. 도 2에서는 클래스임을 구별하기 위해 클래스의 앞에 '&'기호를 표시하였다. 예를 들면, 클래스 변환부(160)는 영역 행위('Setchannel')(211)에 포함된 단어 "KBS2"를 클래스인 '채널(&channel)(231)'로 변환할 수 있다. 클래스 변환부(160)는 영역 행위('Setchannel')(211)에 포함된 단어 "주말 드라마"를 클래스인 '장르(&genre)(232)'로 변환할 수 있다. 클래스 변환부(160)는 영역 행위('Setchannel')(211)에 포함된 "싶다"의 어미 "다"를 평서형 어미 클래스인 '&평서형 어미(233)'로 변환할 수 있다.
클래스 변환부(160)는 영역 행위('Getprogram')(212)에 포함된 단어 "월요일"을 클래스인 '날짜(&date)(234)'로 변환할 수 있다. 클래스 변환부(160)는 영역 행위('Getprogram')(212)에 포함된 단어 "드라마"를 클래스인 '장르(&genre)(235)'로 변환할 수 있다. 클래스 변환부(160)는 영역 행위('Getprogram')(212)에 포함된 "나오니"의 의문형 어미인 "니"를 의문형 어미 클래스인 '&의문형 어미(236)'로 변환할 수 있다.
클래스 변환부(160)는 영역 행위('Getnextprogram')(213)에 포함된 단어 "드라마"를 클래스인 '장르(&genre)(237)'로 변환할 수 있다. 클래스 변환부(160)는 영역 행위('Getnextprogram')(213)에 포함된 "인가여"를 명사 뒤 의문형 어미 클래스인 '&명사 뒤 의문형 어미(238)'로 변환할 수 있다.
생성부(170)는 영역 행위별로 분류된 코퍼스 및 추출된 개념에 기초하여 설정된 도메인에서 사용될 문법(grammar)을 생성할 수 있다. 생성부(170)는 문법(garmmar)을 생성하는 규칙에 기초하여 문법을 생성할 수 있다. 예를 들면, 규칙은 띄어 쓰기, 붙여 쓰기, 단어 생략 가능 여부를 나타내는 연산자를 기입하는 규칙일 수 있다.
예를 들면, 생성부(170)는 영역 행위('Setchannel')(211)에 개념을 표시하고, 영역 행위('Setchannel')(211)의 단어들 사이에 연산자를 포함시켜 영역 행위('Setchannel')에 대한 문법(241)을 생성할 수 있다. 이와 같은 방법으로 생성부(170)는 영역 행위('Getprogram')(212) 및 영역 행위('Getnextprogram')(213)에 대한 문법(242, 243)을 생성할 수 있다.
도 3은 본 발명의 일 실시예와 관련된 자연어 처리용 문법 자동 생성 방법을 설명하기 위한 흐름도이다.
도 3을 참조하면, 자연어 처리용 문법 자동 생성 장치는 도메인들 중 의도 분석 시스템이 처리하고자하는 도메인을 설정한다(300). 자연어 처리용 문법 자동 생성 장치는 수집된 코퍼스(corpus)로부터 설정된 도메인과 관련된 코퍼스를 추출한다(310). 자연어 처리용 문법 자동 생성 장치는 추출된 코퍼스 중 언어학적 문법에 맞지 않는 단어 또는 문장을 제거한다(320). 자연어 처리용 문법 자동 생성 장치는 제거된 코퍼스를 설정된 도메인의 영역 행위별로 분류한다(330). 자연어 처리용 문법 자동 생성 장치는 분류된 코퍼스로부터 영역 행위별 개념을 추출한다(340). 자연어 처리용 문법 자동 생성 장치는 분류된 코퍼스에 포함된 단어를 클래스로 변환한다(350). 자연어 처리용 문법 자동 생성 장치는 분류된 코퍼스 및 추출된 개념에 기초하여 설정된 도메인에서 사용될 문법(grammar)을 생성한다(360).
자연어 처리용 문법 자동 생성 방법은 수집된 코퍼스로부터 설정된 도메인과 관련된 코퍼스를 추출하고, 추출된 코퍼스를 이용하여 문법을 자동으로 생성함으로써, 설정된 도메인에서 사용될 문법을 편리하게 생성할 수 있다.
설명된 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.
또한, 실시예는 그 설명을 위한 것이며, 그 제한을 위한 것이 아님을 주의하여야 한다. 또한, 본 발명의 기술분야의 통상의 전문가라면 본 발명의 기술사상의 범위에서 다양한 실시예가 가능함을 이해할 수 있을 것이다.
또한, 본 발명의 일 실시예에 의하면, 전술한 방법은, 프로그램이 기록된 매체에 프로세서가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 프로세서가 읽을 수 있는 매체의 예로는, ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장장치 등이 있으며, 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다.

Claims (10)

  1. 도메인들 중 의도 분석 시스템이 처리하고자 하는 도메인을 설정하는 설정부;
    수집된 코퍼스(corpus)로부터 상기 설정된 도메인과 관련된 코퍼스를 추출하고, 상기 추출된 코퍼스를 문장 단위로 분리하며, 상기 분리된 문장을 형태소 단위로 태깅하는 제 1 추출부;
    상기 추출된 코퍼스를 상기 설정된 도메인의 영역 행위(domain action) 별로 분류하는 분류부;
    상기 추출된 코퍼스에 포함된 단어를 클래스로 변환하는 클래스 변환부; 및
    상기 추출된 코퍼스의 변환된 클래스에 기초하여 문법(grammar)을 생성하는 생성부;를 포함하며,
    상기 영역 행위는,
    사용자의 의도를 분류한 카테고리이며,
    상기 클래스는,
    상기 추출된 코퍼스에 포함된 단어, 상기 추출된 코퍼스에 포함된 단어의 유의어 및 동의어를 포함하는 상위 개념의 단어인, 자연어 처리용 문법 자동 생성 장치.
  2. 삭제
  3. 제 1 항에 있어서,
    상기 분류된 코퍼스로부터 상기 영역 행위 별 개념을 추출하는 제 2 추출부;를 더 포함하고,
    상기 생성부는,
    상기 영역 행위 별로 분류된 코퍼스 및 상기 추출된 개념에 기초하여 상기 문법(grammar)을 생성하는 자연어 처리용 문법 자동 생성 장치.
  4. 제 1 항에 있어서,
    상기 추출된 코퍼스 중 언어학적 문법에 맞지 않는 단어 또는 문장을 제거하는 제거부;를 더 포함하는 자연어 처리용 문법 자동 생성 장치.
  5. 삭제
  6. 도메인들 중 의도 분석 시스템이 처리하고자 하는 도메인을 설정하는 단계;
    수집된 코퍼스(corpus)로부터 상기 설정된 도메인과 관련된 코퍼스를 추출하고, 상기 추출된 코퍼스를 문장 단위로 분리하며, 상기 분리된 문장을 형태소 단위로 태깅하는 단계;
    상기 추출된 코퍼스를 상기 설정된 도메인의 영역 행위 별로 분류하는 단계;
    상기 추출된 코퍼스에 포함된 단어를 클래스로 변환하는 단계; 및
    상기 추출된 코퍼스의 변환된 클래스에 기초하여 문법(grammar)을 생성하는 단계;를 포함하며,
    상기 영역 행위는,
    사용자의 의도를 분류한 카테고리이며,
    상기 클래스는,
    상기 추출된 코퍼스에 포함된 단어, 상기 추출된 코퍼스에 포함된 단어의 유의어 및 동의어를 포함하는 상위 개념의 단어인, 자연어 처리용 문법 자동 생성 방법.
  7. 삭제
  8. 제 6 항에 있어서,
    상기 분류된 코퍼스로부터 상기 영역 행위 별 개념을 추출하는 단계;를 더 포함하고,
    상기 문법(grammar)을 생성하는 단계는,
    상기 영역 행위 별로 분류된 코퍼스 및 상기 추출된 개념에 기초하여 상기 문법(grammar)을 생성하는 단계;를 포함하는 자연어 처리용 문법 자동 생성 방법.
  9. 제 6 항에 있어서,
    상기 추출된 코퍼스 중 언어학적 문법에 맞지 않는 단어 또는 문장을 제거하는 단계;를 더 포함하는 자연어 처리용 문법 자동 생성 방법.
  10. 삭제
KR1020110002822A 2011-01-11 2011-01-11 자연어 처리용 문법 자동 생성 장치 및 방법 KR101776673B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020110002822A KR101776673B1 (ko) 2011-01-11 2011-01-11 자연어 처리용 문법 자동 생성 장치 및 방법
US13/248,320 US9092420B2 (en) 2011-01-11 2011-09-29 Apparatus and method for automatically generating grammar for use in processing natural language

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110002822A KR101776673B1 (ko) 2011-01-11 2011-01-11 자연어 처리용 문법 자동 생성 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20120081471A KR20120081471A (ko) 2012-07-19
KR101776673B1 true KR101776673B1 (ko) 2017-09-11

Family

ID=46455941

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110002822A KR101776673B1 (ko) 2011-01-11 2011-01-11 자연어 처리용 문법 자동 생성 장치 및 방법

Country Status (2)

Country Link
US (1) US9092420B2 (ko)
KR (1) KR101776673B1 (ko)

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11321116B2 (en) 2012-05-15 2022-05-03 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11360577B2 (en) 2018-06-01 2022-06-14 Apple Inc. Attention aware virtual assistant dismissal
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US11467802B2 (en) 2017-05-11 2022-10-11 Apple Inc. Maintaining privacy of personal information
US11487364B2 (en) 2018-05-07 2022-11-01 Apple Inc. Raise to speak
US11538469B2 (en) 2017-05-12 2022-12-27 Apple Inc. Low-latency intelligent automated assistant
US11550542B2 (en) 2015-09-08 2023-01-10 Apple Inc. Zero latency digital assistant
US11557310B2 (en) 2013-02-07 2023-01-17 Apple Inc. Voice trigger for a digital assistant
US11580990B2 (en) 2017-05-12 2023-02-14 Apple Inc. User-specific acoustic models
US11657820B2 (en) 2016-06-10 2023-05-23 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11671920B2 (en) 2007-04-03 2023-06-06 Apple Inc. Method and system for operating a multifunction portable electronic device using voice-activation
US11675491B2 (en) 2019-05-06 2023-06-13 Apple Inc. User configurable task triggers
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones
US11699448B2 (en) 2014-05-30 2023-07-11 Apple Inc. Intelligent assistant for home automation
US11705130B2 (en) 2019-05-06 2023-07-18 Apple Inc. Spoken notifications
US11749275B2 (en) 2016-06-11 2023-09-05 Apple Inc. Application integration with a digital assistant
US11765209B2 (en) 2020-05-11 2023-09-19 Apple Inc. Digital assistant hardware abstraction
US11783815B2 (en) 2019-03-18 2023-10-10 Apple Inc. Multimodality in digital assistant systems
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11809886B2 (en) 2015-11-06 2023-11-07 Apple Inc. Intelligent automated assistant in a messaging environment
US11810562B2 (en) 2014-05-30 2023-11-07 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11838579B2 (en) 2014-06-30 2023-12-05 Apple Inc. Intelligent automated assistant for TV user interactions
US11842734B2 (en) 2015-03-08 2023-12-12 Apple Inc. Virtual assistant activation
US11888791B2 (en) 2019-05-21 2024-01-30 Apple Inc. Providing message response suggestions
US11893992B2 (en) 2018-09-28 2024-02-06 Apple Inc. Multi-modal inputs for voice commands
US11900936B2 (en) 2008-10-02 2024-02-13 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11900923B2 (en) 2018-05-07 2024-02-13 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11947873B2 (en) 2015-06-29 2024-04-02 Apple Inc. Virtual assistant for media playback

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101962113B1 (ko) 2017-03-28 2019-07-19 (주)아크릴 자연어 문장을 확장하는 장치와 상기 자연어 문장을 확장하는 방법
CN107704450B (zh) * 2017-10-13 2020-12-04 威盛电子股份有限公司 自然语言识别设备以及自然语言识别方法
CN108763338A (zh) * 2018-05-14 2018-11-06 山东亿云信息技术有限公司 一种基于电力行业的新闻采编系统
KR101913191B1 (ko) * 2018-07-05 2018-10-30 미디어젠(주) 도메인 추출기반의 언어 이해 성능 향상장치및 성능 향상방법
US11227102B2 (en) * 2019-03-12 2022-01-18 Wipro Limited System and method for annotation of tokens for natural language processing
CN110543633B (zh) * 2019-08-29 2021-06-29 腾讯科技(深圳)有限公司 语句意图识别方法、装置

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5752232A (en) * 1994-11-14 1998-05-12 Lucent Technologies Inc. Voice activated device and method for providing access to remotely retrieved data
FR2783625B1 (fr) * 1998-09-21 2000-10-13 Thomson Multimedia Sa Systeme comprenant un appareil telecommande et un dispositif de telecommande vocale de l'appareil
WO2000046701A1 (en) * 1999-02-08 2000-08-10 Huntsman Ici Chemicals Llc Method for retrieving semantically distant analogies
US6901402B1 (en) * 1999-06-18 2005-05-31 Microsoft Corporation System for improving the performance of information retrieval-type tasks by identifying the relations of constituents
US6668256B1 (en) * 2000-01-19 2003-12-23 Autonomy Corporation Ltd Algorithm for automatic selection of discriminant term combinations for document categorization
US8374875B2 (en) * 2000-01-31 2013-02-12 Intel Corporation Providing programming information in response to spoken requests
CN1237504C (zh) * 2000-05-23 2006-01-18 汤姆森许可贸易公司 大规模词汇的语音识别装置和方法
US7062561B1 (en) * 2000-05-23 2006-06-13 Richard Reisman Method and apparatus for utilizing the social usage learned from multi-user feedback to improve resource identity signifier mapping
US6975985B2 (en) * 2000-11-29 2005-12-13 International Business Machines Corporation Method and system for the automatic amendment of speech recognition vocabularies
US20020087309A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented speech expectation-based probability method and system
US7254530B2 (en) * 2001-09-26 2007-08-07 The Trustees Of Columbia University In The City Of New York System and method of generating dictionary entries
JP3997459B2 (ja) * 2001-10-02 2007-10-24 株式会社日立製作所 音声入力システムおよび音声ポータルサーバおよび音声入力端末
KR100438838B1 (ko) * 2002-01-29 2004-07-05 삼성전자주식회사 대화 포커스 추적 기능을 가진 음성명령 해석장치 및 방법
US7567902B2 (en) * 2002-09-18 2009-07-28 Nuance Communications, Inc. Generating speech recognition grammars from a large corpus of data
US20040148170A1 (en) * 2003-01-23 2004-07-29 Alejandro Acero Statistical classifiers for spoken language understanding and command/control scenarios
US7152065B2 (en) * 2003-05-01 2006-12-19 Telcordia Technologies, Inc. Information retrieval and text mining using distributed latent semantic indexing
JP3790825B2 (ja) * 2004-01-30 2006-06-28 独立行政法人情報通信研究機構 他言語のテキスト生成装置
US7720674B2 (en) * 2004-06-29 2010-05-18 Sap Ag Systems and methods for processing natural language queries
US20060028337A1 (en) * 2004-08-09 2006-02-09 Li Qi P Voice-operated remote control for TV and electronic systems
US20070016401A1 (en) * 2004-08-12 2007-01-18 Farzad Ehsani Speech-to-speech translation system with user-modifiable paraphrasing grammars
US7925506B2 (en) * 2004-10-05 2011-04-12 Inago Corporation Speech recognition accuracy via concept to keyword mapping
US7742911B2 (en) * 2004-10-12 2010-06-22 At&T Intellectual Property Ii, L.P. Apparatus and method for spoken language understanding by using semantic role labeling
US20070043562A1 (en) * 2005-07-29 2007-02-22 David Holsinger Email capture system for a voice recognition speech application
US20070239453A1 (en) * 2006-04-06 2007-10-11 Microsoft Corporation Augmenting context-free grammars with back-off grammars for processing out-of-grammar utterances
US7725308B2 (en) * 2006-06-07 2010-05-25 Motorola, Inc. Interactive tool for semi-automatic generation of a natural language grammar from a device descriptor
US7676363B2 (en) * 2006-06-29 2010-03-09 General Motors Llc Automated speech recognition using normalized in-vehicle speech
US20080162117A1 (en) * 2006-12-28 2008-07-03 Srinivas Bangalore Discriminative training of models for sequence classification
US7925505B2 (en) * 2007-04-10 2011-04-12 Microsoft Corporation Adaptation of language models and context free grammar in speech recognition
US7860716B2 (en) * 2007-04-24 2010-12-28 Microsoft Corporation Speech model refinement with transcription error detection
US8874443B2 (en) * 2008-08-27 2014-10-28 Robert Bosch Gmbh System and method for generating natural language phrases from user utterances in dialog systems

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11979836B2 (en) 2007-04-03 2024-05-07 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US11671920B2 (en) 2007-04-03 2023-06-06 Apple Inc. Method and system for operating a multifunction portable electronic device using voice-activation
US11900936B2 (en) 2008-10-02 2024-02-13 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US11321116B2 (en) 2012-05-15 2022-05-03 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11862186B2 (en) 2013-02-07 2024-01-02 Apple Inc. Voice trigger for a digital assistant
US11557310B2 (en) 2013-02-07 2023-01-17 Apple Inc. Voice trigger for a digital assistant
US11810562B2 (en) 2014-05-30 2023-11-07 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11699448B2 (en) 2014-05-30 2023-07-11 Apple Inc. Intelligent assistant for home automation
US11838579B2 (en) 2014-06-30 2023-12-05 Apple Inc. Intelligent automated assistant for TV user interactions
US11842734B2 (en) 2015-03-08 2023-12-12 Apple Inc. Virtual assistant activation
US11947873B2 (en) 2015-06-29 2024-04-02 Apple Inc. Virtual assistant for media playback
US11550542B2 (en) 2015-09-08 2023-01-10 Apple Inc. Zero latency digital assistant
US11954405B2 (en) 2015-09-08 2024-04-09 Apple Inc. Zero latency digital assistant
US11809886B2 (en) 2015-11-06 2023-11-07 Apple Inc. Intelligent automated assistant in a messaging environment
US11657820B2 (en) 2016-06-10 2023-05-23 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11749275B2 (en) 2016-06-11 2023-09-05 Apple Inc. Application integration with a digital assistant
US11467802B2 (en) 2017-05-11 2022-10-11 Apple Inc. Maintaining privacy of personal information
US11580990B2 (en) 2017-05-12 2023-02-14 Apple Inc. User-specific acoustic models
US11862151B2 (en) 2017-05-12 2024-01-02 Apple Inc. Low-latency intelligent automated assistant
US11837237B2 (en) 2017-05-12 2023-12-05 Apple Inc. User-specific acoustic models
US11538469B2 (en) 2017-05-12 2022-12-27 Apple Inc. Low-latency intelligent automated assistant
US11907436B2 (en) 2018-05-07 2024-02-20 Apple Inc. Raise to speak
US11900923B2 (en) 2018-05-07 2024-02-13 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11487364B2 (en) 2018-05-07 2022-11-01 Apple Inc. Raise to speak
US11630525B2 (en) 2018-06-01 2023-04-18 Apple Inc. Attention aware virtual assistant dismissal
US11360577B2 (en) 2018-06-01 2022-06-14 Apple Inc. Attention aware virtual assistant dismissal
US11893992B2 (en) 2018-09-28 2024-02-06 Apple Inc. Multi-modal inputs for voice commands
US11783815B2 (en) 2019-03-18 2023-10-10 Apple Inc. Multimodality in digital assistant systems
US11705130B2 (en) 2019-05-06 2023-07-18 Apple Inc. Spoken notifications
US11675491B2 (en) 2019-05-06 2023-06-13 Apple Inc. User configurable task triggers
US11888791B2 (en) 2019-05-21 2024-01-30 Apple Inc. Providing message response suggestions
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11924254B2 (en) 2020-05-11 2024-03-05 Apple Inc. Digital assistant hardware abstraction
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11765209B2 (en) 2020-05-11 2023-09-19 Apple Inc. Digital assistant hardware abstraction
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones
US11750962B2 (en) 2020-07-21 2023-09-05 Apple Inc. User identification using headphones

Also Published As

Publication number Publication date
US9092420B2 (en) 2015-07-28
US20120179454A1 (en) 2012-07-12
KR20120081471A (ko) 2012-07-19

Similar Documents

Publication Publication Date Title
KR101776673B1 (ko) 자연어 처리용 문법 자동 생성 장치 및 방법
CN111832275B (zh) 文本的创作方法、装置、设备以及存储介质
US11210328B2 (en) Apparatus and method for learning narrative of document, and apparatus and method for generating narrative of document
Bertin et al. A study of lexical distribution in citation contexts through the IMRaD standard
JP6225012B2 (ja) 発話文生成装置とその方法とプログラム
RU2011122784A (ru) Способ семантической обработки естественного языка с использованием графического языка-посредника
KR101410601B1 (ko) 유머 발화를 이용하는 음성 대화 시스템 및 그 방법
Song et al. A gesture-to-emotional speech conversion by combining gesture recognition and facial expression recognition
Abburi et al. Multimodal sentiment analysis using deep neural networks
Alqarafi et al. Toward’s Arabic multi-modal sentiment analysis
Chopra et al. Sentiment analyzing by dictionary based approach
CN114547373A (zh) 一种基于音频智能识别搜索节目的方法
Yang et al. Construction and application of Chinese emotional corpus
Yoo et al. Speech-act classification using a convolutional neural network based on pos tag and dependency-relation bigram embedding
Bouchekif et al. Diachronic semantic cohesion for topic segmentation of TV broadcast news.
Islam et al. Automatic authorship detection from Bengali text using stylometric approach
Thu et al. Recovering capitalization for automatic speech recognition of vietnamese using transformer and chunk merging
Malandrakis et al. Affective language model adaptation via corpus selection
Cuzco-Calle et al. An interactive system to automatically generate video summaries and perform subtitles synchronization for persons with hearing loss
CN111680493A (zh) 英语文本分析方法、装置、可读存储介质及计算机设备
Mehmood et al. Let the deaf understand: Mainstreaming the marginalized in context with personalized digital media services and social needs
Ilampiray et al. Video Transcript Summarizer
CN116976290B (zh) 一种基于自回归模型的多场景资讯摘要生成方法以及装置
CN116226677B (zh) 平行语料构建方法及装置、存储介质及电子设备
Minocha et al. Generating domain specific sentiment lexicons using the web directory

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant