KR101117298B1 - System and method for parsing korean semantic based on ontology - Google Patents
System and method for parsing korean semantic based on ontology Download PDFInfo
- Publication number
- KR101117298B1 KR101117298B1 KR1020100078690A KR20100078690A KR101117298B1 KR 101117298 B1 KR101117298 B1 KR 101117298B1 KR 1020100078690 A KR1020100078690 A KR 1020100078690A KR 20100078690 A KR20100078690 A KR 20100078690A KR 101117298 B1 KR101117298 B1 KR 101117298B1
- Authority
- KR
- South Korea
- Prior art keywords
- ontology
- information
- verb
- speech
- analysis
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
Description
본 발명은 한국어 의미를 분석하는 방법으로서, 특히 의미 기반의 지식 정보 처리가 가능하여 입력문의 내적 의미를 파악할 수 있는 온톨로지 기반의 한국어 의미 분석 시스템 및 방법에 관한 것이다.The present invention relates to a method for analyzing Korean meaning, and more particularly, to an ontology-based Korean semantic analysis system and method capable of semantic-based knowledge information processing to grasp the internal meaning of an input sentence.
휴대폰 문자 메시지와 인터넷 메신저를 이용한 메시지 교환은 모바일 기기의 대중화로 인하여 많은 사람에게 보편화하였다.The exchange of messages using mobile phone text messages and Internet messengers has become commonplace to many people due to the popularization of mobile devices.
이러한 메시지를 구성하는 문장들은 축약 표현과 띄어쓰기 오류가 매우 빈번하게 나타난다. 한국어 분석에 기반한 다양한 응용 소프트웨어는 전술한 오류를 포함한 문장들을 정확히 분석하지 못하는 경우 기대하는 성능을 발휘하지 못하는 문제점이 있다.The sentences that make up these messages appear very frequently in abbreviated expressions and spacing errors. Various application softwares based on Korean analysis have a problem in that they cannot perform the expected performance when the sentences including the above error cannot be correctly analyzed.
종래의 한국어 분석 기술은 맞춤법에 맞는 정문의 한국어 문장만을 분석 대상으로 하기 때문에 띄어쓰기 오류 문장의 분석 정확률이 현저히 낮아질 수밖에 없었다. 또한, 종래의 한국어 분석 기술은 띄어쓰기가 되지 않은 음절의 수가 많아질수록 처리 속도가 느려지고 분석 정확률이 떨어지는 문제점이 있었다.In the conventional Korean analysis technology, the analysis accuracy of the spacing error sentence is inevitably lowered because only the Korean sentence of the main sentence corresponding to the spelling is analyzed. In addition, the conventional Korean analysis technology has a problem in that the processing speed is slowed and the accuracy of analysis is lowered as the number of syllables without spacing increases.
현재 웹 환경에서 형태적 동일성에만 의존하는 키워드 매칭 방식은 의미나 내용과 상관없이 검색 키워드나 모양이 동일한 형태의 과다한 정보만 검색될 뿐 검색된 수많은 결과에서 실제 의미와 연관성 있는 검색 결과를 찾는 것이 사용자 몫 이었다.In the current web environment, the keyword matching method that relies only on form identity is searched only for the excessive information of the same keyword or shape regardless of meaning or content. It was.
예를 들면, 종래의 키워드 매칭 방식은 '먹는 배'의 검색 결과에 '타는 배', 신체부위 배', '갑절 배', '절 배', '(물감이 종이에) 배(다)' 등의 잉여 정보를 끝없이 찾아 검색 결과로 제공하기 때문에 '먹다'와 관련된 과일 '배'에 대한 내적 의미를 추출할 수 없었다.For example, the conventional keyword matching method is' boating belly ', body part belly', 'double belly', 'section belly', '(color on paper) belly' in the search result of 'eat belly'. Since the surplus information such as endlessly searched and provided as a search result, the inner meaning of the fruit 'pear' related to 'eat' could not be extracted.
이와 같은 문제점을 해결하기 위하여, 본 발명은 온톨로지 기반의 한국어 의미 분석 시스템을 이용하여 입력문의 내적 의미를 파악하는데 그 목적이 있다.In order to solve this problem, the present invention has an object to grasp the internal meaning of the input statement using the ontology-based Korean semantic analysis system.
본 발명의 다른 목적은 품사별 결합 정보를 이용한 맞춤법에 맞는 정문 및 띄어쓰기 오류문의 형태소 분석을 수행하는데 그 목적이 있다.Another object of the present invention is to perform a morphological analysis of the spelling and the spacing error sentence in accordance with the spelling using the part-of-speech combination information.
이러한 기술적 과제를 달성하기 위한 본 발명의 특징에 따른 온톨로지 기반 한국어 의미 분석 방법은 한국어 입력 어절의 분석할 음절을 체언과 용언을 포함한 어간 사전 또는 조사나 어미를 포함한 어미 사전에서 검색하여 검색된 품사를 분석하는 단계; 상기 분석한 품사에 결합된 음절을 상기 어간 사전 또는 상기 어미 사전에서 검색하여 상기 한국어 입력 어절의 형태소 정보를 분석하고 상기 분석한 형태소 정보를 이용하여 어절 정보를 분석하는 단계; 상기 체언의 온톨로지 의미 정보를 체언 온톨로지로 구축하고, 상기 체언과의 연관 관계를 의미 정보에 따라 온톨로지로 형성한 용언 온톨로지를 구축하는 단계; 상기 용언 온톨로지와 상기 체언의 온톨로지 의미 정보와 연결하여 상기 체언의 의미를 분석하고 상기 용언 온톨로지와 상기 체언 온톨로지를 통해 상기 체언과 상기 용언의 온톨로지 정보를 분석하는 단계; 및 상기 체언과 상기 용언의 온톨로지 정보를 온톨로지 의미 분석 결과로 출력하는 단계를 포함한다.Ontology-based Korean semantic analysis method according to the characteristics of the present invention for achieving the technical problem is to analyze the retrieved parts of speech by searching in the stem dictionary including the word and the verb or the ending dictionary including the investigation or ending Making; Analyzing the morpheme information of the Korean input word by searching the syllables coupled to the analyzed parts of speech from the stem dictionary or the ending dictionary and analyzing the word information using the analyzed morpheme information; Constructing ontology semantic information of the spoken word as a ontology, and constructing an ontology of an ontology based on semantic information in relation to the spoken word; Analyzing the meaning of the verb by connecting the ontology and ontology semantic information of the verb and analyzing ontology information of the verb and the verb through the verb ontology and the verb ontology; And outputting ontology information of the verb and the verb as an ontology semantic analysis result.
본 발명의 특징에 따른 온톨로지 기반 한국어 의미 분석 시스템은 한국어 입력 어절의 분석할 음절을 체언과 용언을 포함한 어간 사전 또는 조사나 어미를 포함한 어미 사전에서 검색하여 검색된 품사를 분석하고, 상기 분석한 품사에 결합된 음절을 상기 어간 사전 또는 상기 어미 사전에서 검색하여 상기 한국어 입력 어절의 형태소 정보를 분석하는 형태소 분석부; 상기 분석한 형태소 정보를 이용하여 어절 정보 및 문장 성분을 분석하는 어절 생성부; 상기 체언의 온톨로지 의미 정보를 체언 온톨로지로 구축하고, 상기 체언과의 연관 관계를 의미 정보에 따라 온톨로지로 형성한 용언 온톨로지를 구축하고, 상기 용언 온톨로지와 상기 체언의 온톨로지 의미 정보와 연결하여 상기 체언의 의미를 분석하는 온톨로지 분석부; 및 상기 용언 온톨로지와 상기 체언 온톨로지를 통해 분석된 상기 체언과 상기 용언의 온톨로지 정보를 상기 체언과 상기 용언의 온톨로지 의미 분석 결과로 출력하는 출력부를 포함한다.The ontology-based Korean semantic analysis system according to the characteristics of the present invention analyzes the retrieved parts of speech by searching the stem syllable to be analyzed in the Korean input word in the stem dictionary including the word and the verb or the ending dictionary including the survey or the ending, A morpheme analysis unit for searching the combined syllables in the stem or dictionary to analyze the morpheme information of the Korean input word; A word generator configured to analyze word information and sentence components using the analyzed morpheme information; Construct the ontology semantic information of the correspondence as a ontology, construct an ontology formed by the ontology according to the semantic relations with the semantic information, connect the ontology with the ontology semantic information of the correspondence Ontology analysis unit for analyzing the meaning; And an output unit for outputting the ontology information of the verb and the verb analyzed by the verb ontology and the verb ontology as a result of the ontology meaning analysis of the verb and the verb.
전술한 구성에 의하여, 본 발명은 띄어쓰기가 올바로 되지 않은 오류문과 축약 표현, 미등록어 처리, 복합 명사 처리 능력을 향샹하는 효과가 있다.By the above-described configuration, the present invention has the effect of improving the error sentence and abbreviated expression, unregistered word processing, compound noun processing ability that is not correctly spaced.
본 발명은 지식과 정보의 의미를 이해하고 처리하는 지능형 의미 기반의 지식 정보 처리가 가능한 효과가 있다.The present invention has the effect of enabling intelligent semantic based knowledge information processing to understand and process the meaning of knowledge and information.
본 발명은 의미 기반의 지식 정보 처리가 가능하므로 입력문의 내적 의미를 파악할 수 있어 정확한 답을 제공할 수 있을 뿐 아니라 온톨로지와 연관한 상위 온톨로지 정보와 하위 온톨로지 정보를 동시에 제공할 수 있어 지능적인 정보 검색이 가능한 효과가 있다.According to the present invention, since semantic-based knowledge information processing is possible, the internal meaning of an input statement can be grasped to provide an accurate answer, and at the same time, an upper ontology information and a lower ontology information related to an ontology can be simultaneously provided for intelligent information retrieval. This has a possible effect.
도 1은 본 발명의 실시예에 따른 온톨로지 기반 한국어 의미 분석 시스템의 구성을 나타낸 도면이다.
도 2는 본 발명의 실시예에 따른 형태소 분석부의 내부 구성을 간략하게 나타낸 블록 구성도이다.
도 3은 본 발명의 실시예에 따른 한국어 의미 분석 시스템을 이용한 형태소 분석 방법을 나타낸 도면이다.
도 4는 본 발명의 실시예에 따른 형태소 분석 결과를 나타낸 도면이다.
도 5는 본 발명의 실시예에 따른 어절 생성 결과를 나타낸 도면이다.
도 6은 본 발명의 실시예에 따른 체언 온톨로지의 구축 결과를 나타낸 도면이다.
도 7은 본 발명의 실시예에 따른 체언 온톨로지의 자동 구축 결과를 나타낸 도면이다.
도 8은 본 발명의 실시예에 따른 용언 온톨로지의 구축 결과를 나타낸 도면이다.
도 9는 본 발명의 실시예에 따른 용언 온톨로지의 RDF 트리플 변환 결과를 나타낸 도면이다.
도 10은 본 발명의 실시예에 따른 온톨로지 기반의 한국어 의미 분석에 대한 출력 결과를 나타낸 도면이다.1 is a diagram illustrating a configuration of an ontology-based Korean semantic analysis system according to an exemplary embodiment of the present invention.
2 is a block diagram schematically illustrating an internal configuration of a morpheme analysis unit according to an exemplary embodiment of the present invention.
3 is a diagram illustrating a morpheme analysis method using a Korean semantic analysis system according to an embodiment of the present invention.
4 is a diagram illustrating a morphological analysis result according to an embodiment of the present invention.
5 is a diagram illustrating a word generation result according to an exemplary embodiment of the present invention.
6 is a diagram illustrating a result of constructing a ontology according to an embodiment of the present invention.
7 is a view showing the result of automatic construction of the communication ontology according to an embodiment of the present invention.
8 is a diagram showing a result of constructing an ontology according to an embodiment of the present invention.
9 is a diagram illustrating a result of RDF triple conversion of verb ontology according to an embodiment of the present invention.
FIG. 10 is a diagram illustrating an output result of ontology-based Korean semantic analysis according to an embodiment of the present invention. FIG.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.DETAILED DESCRIPTION Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art may easily implement the present invention. The present invention may, however, be embodied in many different forms and should not be construed as limited to the embodiments set forth herein. In the drawings, parts irrelevant to the description are omitted in order to clearly describe the present invention, and like reference numerals designate like parts throughout the specification.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.Throughout the specification, when a part is said to "include" a certain component, it means that it can further include other components, without excluding other components unless specifically stated otherwise.
도 1은 본 발명의 실시예에 따른 온톨로지 기반 한국어 의미 분석 시스템의 구성을 나타낸 도면이다.1 is a diagram illustrating a configuration of an ontology-based Korean semantic analysis system according to an exemplary embodiment of the present invention.
본 발명의 실시예에 따른 한국어 의미 분석 시스템은 사용자 인터페이스(100), 사전 데이터베이스부(200), 형태소 분석부(300), 미등록어 고유명사 결합부(400), 어절 생성부(500), 온톨로지 분석부(600), 리소스 디스크립션 프레임워크(Resource Description Framework, RDF) 트리플 변환부(700), 트리플 리파지토리 시스템(800) 및 출력부(900)를 포함한다.Korean semantic analysis system according to an embodiment of the present invention is a
사용자 인터페이스(100)는 사용자로부터 분석할 문장을 입력받는 입력 모듈이다.The
사전 데이터베이스부(200)는 불규칙 용언 복원을 위한 불규칙 사전(210), 체언과 용언을 저장한 어간 사전(220) 및 어미와 조사를 저장한 어미 사전(230)을 포함한다.The
뷸규칙 사전은 'ㅎ불규칙', 'ㅅ불규칙', '르불규칙', 'ㄹ불규칙', 'ㄷ불규칙', '러불규칙', 'ㅂ불규칙', '우불규칙', '으불규칙', '오불규칙'을 포함하여 10 여개의 불규칙에 대한 변형 및 복원을 수행한다. 또한, 불규칙 사전(210)은 'ㅂ불규칙'을 가진 '자랑스러운아들'에서 '자랑스러우'의 원형 '자랑스럽'을 알고리즘 규칙을 통해 복원하지 않고 '자랑스럽'의 불규칙 정보로 '자랑스러우'라는 정보를 추가하여 불필요한 변형 및 복원 알고리즘 규칙을 만들지 않고 어절의 분석 속도를 향상시킬 수 있다.The fire rules dictionary includes' illegal rules', 's irregular rules',' le bull rules', 'ㄹ Bull rules',' ㄷ irregular rules', 'le Bull rules',' ㅂ irregular rules', 'bull rules',' bad rules', ' Deformation and restoration of about 10 irregularities, including 'illegal rules'. In addition, the
어간 사전(220)은 체언(조국, 민족, 맹세, 공업체 등), 용언(위하, 있, 좋아하 등), 부사(매우 등), 관형사(옛, 뒷, 제깐 등), 지정사(이, 아니) 등의 품사 정보와 다의어 및 중의성 자질 정보를 포함한다. 또한, 어간 사전(220)은 띄어쓰기가 올바르지 않은 오류문과 최장 일치의 형태소 분석에서 중의성 문제를 해결하기 위해서 한 어절에서 하나의 체언이 검색되더라도 체언의 좌측 음절의 품사, 자질 정보 및 음절수에 따라 다의어 정보를 나타내는 어휘와 중의성 정보를 나타내는 어휘를 부여한다.The
예를 들어, '질병치료'를 분석하는 경우 최장 일치 방식에 따라 어간 사전(220)에서 '병치료'라는 명사를 검색하면 '질+병치료'라는 오분석을 하게 된다. 이러한 오류 분석을 방지하기 위해서 형태소 분석부(300)는 '병치료'에 다의어 정보 및 중의성 정보를 가진 명사 '병치료'를 '병+치료'처럼 음절별로 분리한 후 '치료'를 제외한 좌측 음절에 명사가 검색되는지 판단하고 명사 '질병'이 검색되면 '치료'를 명사로 재분석하여 저장한 후 좌측 음절 '질병'을 분석하여 '질병'+'치료'라는 올바른 분석을 수행하게 된다.For example, in the case of analyzing 'disease treatment', if the noun 'disease treatment' is searched in the
어미 사전(230)은 격조사(_은, _는, _을, _를, _까지, _부터 등), 보조사(_도, _만, _조차 등), 어말어미(_다, _ㄴ다, _습니다 등), 연결어미(_고, _ㄹ라고, _ㄴ답시고' 등), 선어말어미(_시, _겠, _옵 등), 전성어미(_ㄹ, _기, _음 등) 등과 같은 조사와 어미를 포함한다. 또한, 어미 사전(230)은 품사 정보 뿐만 아니라 'ㄹ'처럼 불완전한 종성을 가지고 있는 어미와 조사를 나타내기 위해 'BAN'이라는 자질 정보를 형태소 분석에 포함한다. 즉, 어미 사전(230)은 'ㄹ라고'에서 'ㄹ'처럼 불완전한 종성을 가지고 있는 어미와 조사를 나타내는 'BAN'이라는 정보를 가지고 입력 어절로부터 최장 일치로 조사와 어미를 분리한다.The ending
형태소 분석부(300)는 분석할 한국어 입력 어절의 역순에 따라 분석할 음절의 품사를 어간 사전(220) 또는 어미 사전(230)을 통해 검색하고, 검색된 품사를 분석하며 분석한 품사에 결합된 좌측 음절을 어간 사전(220) 또는 어미 사전(230)에서 검색하여 한국어 입력 어절의 역순으로 형태소 분석을 수행한다.The
미등록어 고유명사 결합부(400)는 모든 형태소 분석이 이루어진 후 인명과 같은 고유명사를 결합시킨다. 또한, 미등록어 고유명사 결합부(400)는 띄어쓰기가 되지 않은 오류문에서 미등록어 및 고유명사를 추정하여 결합시키기 위해 형태소 분석에서 사용된 '우에서 좌' 점검이 아닌 '좌에서 우' 점검을 통해 영어 문자 결합, 3음절 고유명사 결합, 2음절 고유명사 결합과 같이 문자별 또는 음절별 특정 결합 규칙에 따라 결합시킨다.The non-registered word proper
어절 생성부(500)는 형태소 분석부(300)에서 출력된 형태소 정보를 이용하여 어절 정보 및 문장 성분을 생성한다.The
온톨로지 분석부(600)는 체언 온톨로지 분석부(610), 용언 온톨로지 분석부(620) 및 추론 분석부(630)를 포함한다.The
체언 온톨로지 분석부(610)는 W3C에서 제정한 표준 프라퍼티인 'rdfs:subClassOf', 'owl:equivalentClass' 관계에 있는 클래스를 처리할 뿐 아니라 클래스의 상하위 관계 및 등위 관계를 처리한다.The message
또한, 체언 온톨로지 분석부(610)는 형태소 분석부(300)로부터 수신된 체언의 형태소 정보와 온톨로지 자질 'ONTO' 정보와 어절 생성부(500)의 어절 정보 및 문장 성분 정보를 수신하여 체언 온톨로지를 형성한다.Also, the
용언 온톨로지 분석부(620)는 W3C에서 제정한 표준 프라퍼티인 'rdfs:domain', 'rdfs:range', 'rdfs:subPropertyOf',와 'owl:equivalentProperty' 관계에 있는 프라퍼티 처리를 수행할 뿐 아니라 프라퍼티(Property)의 상하위 관계, 등위 관계와 각 프라퍼티를 속성으로 가질 수 있는 클래스 도메인(rdfs:domain)과 각 프라퍼티의 대상이 될 수 있는 레인지(rdfs:range) 및 부가어(ksOnto:AJT)관계를 처리한다.The verb
클래스 도메인, 레인지 및 부가어는 문장 성분 정보 중 주어(SBJ)를 '도메인(Domain)'으로 목적어(OBJ)와 보어(CMP)를 '레인지(Range)'로 부가어(AJT)를 부가어(AJT)라는 온톨로지 속성이 부여된다.Class domains, ranges, and adjuncts include the subject (SBJ) as the 'domain' in the sentence component information, the object (OBJ) and the bore (CMP) as the 'range', and the adjunct (AJT) as the adjunct (AJT). Ontology attributes are given.
문장 성분의 부가어(AJT)들 중 시간의 의미 속성을 나타내는 시간 부가어는 Of the AJTs of a sentence component, the temporal adjunct representing the semantic attribute of time is
'ksOnto:AJTT'; 장소의 의미 속성을 나타내는 장소 부가어는 'ksOnto:AJTP'; 공동의 의미 속성을 나타내는 공동 부가어는 'ksOnto"AJTW'; 원천의 의미 속성을 나타내는 원천 부가어는 'ksOnto:AJTS'; 목적지의 의미 속성을 나타내는 목적지 부가어는 'ksOnto:AJTD'; 도구의 의미 속성을 나타내는 도구 부가어는 'ksOnto; AJTI'; 부여의 의미 속성을 나타내는 부여 부가어는 'ksOnto:AJTG'; 비교의 의미 속성을 나타내는 비교 부가어는 'ksOnto:AJTC'로 자체 설정한 온톨로지 정보를 부여받는다.'ksOnto: AJTT'; The place adjunct representing the semantic attribute of a place is 'ksOnto: AJTP'; The common adjunct representing the common semantic attribute is 'ksOnto "AJTW'; the source adjunct representing the semantic attribute of the source is 'ksOnto: AJTS'; the destination adjunct representing the semantic attribute of the destination is 'ksOnto: AJTD'; The tool adjunct representing 'ksOnto; AJTI'; the granting adjunct representing the semantic attribute of the grant is 'ksOnto: AJTG'; the comparison adjunct representing the semantic attribute of the comparison is given with ontology information set by itself as 'ksOnto: AJTC'.
추론 분석부(630)는 클래스와 프라퍼티 간의 관계를 추론을 통하여 의미를 확장할 수 있다. 다시 말해, 추론 분석부(630)는 'S rdfs:subClassOf 01 + 01 rdfs:subClassOf 02 -> S rdfs:subClassOf 02'와 같은 추론 규칙이 적용된다. 예를 들어 RDF 트리플 '대학교 rdfs:subClassOf 학교'과 '학교 rdfs:subClassOf 교육기관'에 적용하여 '대학교 rdfs:subClassOf 교육기관'을 추론하여 '?x 교육기관'이라는 RDF 트리플을 '?x 대학교'까지 확장할 수 있다.The
온톨로지 분석부(600)는 온톨로지와 연관 관계를 나타내는 온톨로지 자질 'ONTO' 정보를 저장하고 있다.The
예를 들어, 체언 '차'는 '마시는차'를 의미하는 ONTO 정보 '1132253311'와 '운송수단 자동차'를 의미하는 ONTO 정보 '113229111'와 2차 세계대전처럼 '시기'를 의미하는 ONTO 정보 '1239212'를 내포하고 있다.For example, the statement 'car' means ONTO information '1132253311' which means 'drinking car', 'TO132 information' which means 'transportation vehicle', and '113229111' which means 'time' as in WWII. Contains 1239212 '.
체언 온톨로지 분석부(610)는 ONTO 정보를 기초로 체언의 의미 분석과 체언 온톨로지의 자동 구축을 수행한다. 여기서, ONTO 정보는 온톨로지 의미 정보를 나타낸다.The
용언 온톨로지 분석부(620)는 체언 온톨로지 분석부(610)의 체언 온톨로지를 이용하여 의미 분석을 수행하게 된다.The
RDF 트리플 변환부(700)는 온톨로지 분석부(600)로부터 수신된 체언 온톨로지 분석부(610)와 용언 온톨로지 분석부(620)에서 출력되는 온톨로지 정보를 이용하여 복수의 문장을 RDF 트리플의 집합으로 변환한다. 여기서, RDF 트리플은 단위 지식과 정보를 서브젝트(Subject(resource)), 프레디키트(Predicate(property)), 오브젝트(Object(literal))의 세 쌍으로 나타내어 지식과 정보의 의미를 컴퓨터가 이해할 수 있는 포맷으로 월드 와이드 웹 컨소시엄(World Wide Web Consortium, W3C)이 관장하는 국제 표준이다. 여기서, 서브젝트(Subject(resource)), 프레디키트(Predicate(property)), 오브젝트(Object(literal))의 세 쌍을 트리플이라고 한다.The RDF
트리플 리파지토리 시스템(800)은 RDF 트리플 변환부(700)로부터 수신한 RDF 트리플의 집합을 저장하고 RDF 트리플의 집합의 삭제, 갱신, 정렬 및 검색 기능을 제공한다.The
출력부(900)는 트리플 리파지토리 시스템(800)으로부터 수신된 형태소 분석 결과와 어절 생성 결과를 출력한다.The
또한, 출력부(900)는 트리플 리파지토리 시스템(800)으로부터 사용자 인터페이스로부터 수신된 입력문의 체언과 용언의 온톨로지 정보를 온톨로지 의미 분석 결과로 출력한다.In addition, the
다시 말해, 출력부(900)는 온톨로지 분석부(600)의 추론 분석을 통한 내적 의미가 내포된 상위 온톨로지 정보(HONTO), 하위 온톨로지 정보(LONTO), 대등 온톨로지 정보(EONTO)를 출력한다.In other words, the
도 2는 본 발명의 실시예에 따른 형태소 분석부의 내부 구성을 간략하게 나타낸 블록 구성도이다.2 is a block diagram schematically illustrating an internal configuration of a morpheme analysis unit according to an exemplary embodiment of the present invention.
본 발명의 실시예에 따른 형태소 분석부(300)는 부사 분석부(310), 연결어미 분석부(311), 보조사 분석부(312), 격조사 분석부(313), 어말어미 분석부(314), 전성어미 분석부(315), 선어말어미 분석부(316), 지정사 분석부(317), 동사 파생 접미사 분석부(318), 형용사 파생 접미사 분석부(319), 용언 보조용언 분석부(320), 명사형 파생 접미사 분석부(321) 및 체언 미등록어 분석부(322)를 포함한다.The
부사 분석부(310)는 부사 분석 모듈(310a) 및 부사 결합 정보 분석 모듈(310b)을 포함한다.The
부사 분석 모듈(310a) 및 부사 결합 정보 분석 모듈(310b)은 부사를 사전 데이터베이스부(200)의 어간 사전(220)에서 검색하여 부사를 분리 저장한다. The
부사 결합 정보 분석 모듈(310b)은 사전 데이터베이스부(200)의 어간 사전(220)에서 일반 부사, 접속 부사, 부사 파생 접미사를 검색한다.The adverb combining
부사 결합 정보 분석 모듈(310b)은 검색된 부사의 좌측 음절에 위치한 품사 정보를 분석하여 분석 가능한 품사 모듈로 전송한다.The adverb combining
예를 들어, 부사 분석 모듈(310a)은 일반 부사인 '한창나이에'에서 '이에'를 어간 사전(220)에서 부사와 중의성 정보를 검색하고 부사 결합 정보 분석 모듈(310b)은 검색된 중의성 부사 '이에'를 이+에와 같이 음절별로 분리한 후 '에'를 제외한 앞 음절에 명사가 검색되는지 판단한다. 부사 결합 정보 분석 모듈(310b)은 명사 '나이'가 검색되면 '이에'가 부사가 아니라 '에'를 부사격 조사로 분리하여 저장한 후 부사격 조사('에')의 좌측 음절의 품사와 음절수, 자질 정보(자동사와 타동사와 같은 품사의 속성 정보를 나타냄)를 검색하여 중의성 정보를 가진 부사를 재분석한다.For example, the
부사 결합 정보 분석 모듈(310b)은 접속 부사인 '그리고'처럼 다의어 정보를 가지고 있는 부사가 검색되는 경우 검색된 부사를 제외한 좌측 음절의 품사 정보와 저장된 품사 정보를 부사로 사용할 지 아니면 다른 품사로 변경할지 결정하게 된다.The adverb combining
예를 들면, '친구를그리고'에서 '그리고'는 접속 부사지만 '그리고'를 제외한 좌측 음절에 '를'이라는 목적격 조사를 검색하여 '그리고'가 접속 부사가 아닌 '그리(용언) + 고(연결어미)로 재분석된다.For example, search for a target search of 'and' in the left syllable except 'and' in 'friends' and 'and', so that 'and' is not a connection adverb. Re-analyze).
부사 결합 정보 분석 모듈(310b)은 부사 파생 접미사인 '게'처럼 부사 파생 접미사의 경우 검색된 부사 파생 접미사 '게'를 제외한 좌측 음절의 품사 및 품사의 자질 정보에 따라 부사를 저장한 후 좌측 음절을 분석 가능한 품사 모듈로 전송한다.The adverb combining
연결어미 분석부(311)는 연결어미 분석 모듈(311a) 및 연결어미 결합 정보 분석 모듈(311b)을 포함한다.The connection
연결어미 분석 모듈(311a) 및 연결어미 결합 정보 분석 모듈(311b)은 연결어미를 사전 데이터베이스부(200)의 어미 사전(230)에서 검색하여 연결어미를 분리 저장한다. The connecting ending
연결어미 분석 모듈(311a)은 '공부한다만'에서 '_ㄴ다만'처럼 검색된 연결어미가 용언 성질을 가진 연결어미인지, '친구랑'에서 '_랑'처럼 체언 성질을 가진 연결어미인지, '친구고, 공부하고'에서 '_고'처럼 체언 및 용언의 성질을 가진 연결어미인지 어미 사전(230)에서 검색하여 분석한다.The connection ending
연결어미 분석 모듈(311a)은 연결어미를 분리하고 분리한 연결어미를 포함한 좌측 음절이 어간 사전(220)에서 체언으로 검색되면 연결어미를 포함한 좌측 음절을 체언 미등록어 분석 모듈(322a)로 전송하여 분석하고, 용언으로 검색되면 연결어미를 포함한 좌측 음절을 용언 보조용언 분석 모듈(320a)로 전송하여 분석하며, 부사로 검색되면 연결어미를 포함한 좌측 음절을 부사 분석 모듈(310a)로 전송하여 분석한다.The connection ending
또한, 연결어미 분석 모듈(311a)은 연결어미를 포함한 좌측 음절이 어미 사전(230)에서 보조사로 검색되면 연결어미를 포함한 좌측 음절을 보조사 분석 모듈(312a)로 전송하여 분석하고, 격조사로 검색되면 연결어미를 포함한 좌측 음절을 격조사 분석 모듈(313a)로 전송하여 분석하며, 어말어미로 검색되면 연결어미를 포함한 좌측 음절을 어말어미 분석 모듈(314a)로 전송하여 분석한다.In addition, when the connected
연결어미 결합 정보 분석 모듈(311b)은 분리한 연결어미를 저장한 후, 연결어미를 제외한 좌측 음절이 어간 사전(220)에서 체언으로 검색되면 연결어미를 제외한 좌측 음절을 체언 미등록어 분석 모듈(322a)로 전송하여 분석하고, 용언으로 검색되면 연결어미를 제외한 좌측 음절을 용언 보조용언 분석 모듈(320a)로 전송하여 분석하며, 부사로 검색되면 연결어미를 제외한 좌측 음절을 부사 분석 모듈(310a)로 전송하여 분석한다.After the connection ending combining
연결어미 결합 정보 분석 모듈(311b)은 연결어미를 제외한 좌측 음절의 품사 정보와 음절수, 연결어미의 우측에 저장된 품사 정보를 이용하여 띄어쓰기가 되지 않은 오류문을 정확하게 분석할 수 있다.The connection ending combination
보조사 분석부(312)는 보조사 분석 모듈(312a) 및 보조사 결합 정보 분석 모듈(312b)을 포함한다.The
보조사 분석 모듈(312a) 및 보조사 결합 정보 분석 모듈(312b)은 사전 데이터베이스부(200)의 어미 사전(230)에서 '_ㄴ, _도, _만'과 같은 보조사를 검색하여 분리 저장한다. The
보조사 분석 모듈(312a)은 보조사를 포함한 좌측 음절이 어간 사전(220)에서 체언으로 검색되면 보조사를 포함한 좌측 음절을 체언 미등록어 분석 모듈(322a)로 전송하여 분석하고, 용언으로 검색되면 보조사를 포함한 좌측 음절을 용언 보조용언 분석 모듈(320a)로 전송하여 분석하며, 부사로 검색되면 보조사를 포함한 좌측 음절을 부사 분석 모듈(310a)로 전송하여 분석한다.The
보조사 결합 정보 분석 모듈(312b)은 보조사를 저장하여 분리한 후, 보조사를 제외한 좌측 음절이 어간 사전(220)에서 체언으로 검색되는 경우 보조사를 제외한 좌측 음절을 체언 미등록어 분석 모듈(322a)로 전송하여 분석하고 용언으로 검색되면 보조사를 제외한 좌측 음절을 용언 보조용언 분석 모듈(320a)로 전송하여 분석하며, 부사로 검색되면 보조사를 제외한 좌측 음절을 부사 분석 모듈(310a)로 전송하여 분석한다.The assistant combining
보조사 결합 정보 분석 모듈(312b)은 '_ㄴ, _도, _만'과 같은 보조사로 이루어지는 의미를 정확히 파악하기 위하여 보조사를 제외한 좌측 음절의 품사 정보와 음절수, 보조사의 우측 음절에 저장된 품사 정보를 함께 분석하여 어미의 정확성을 향상시킨다.Assisted part information analysis module (312b) is part of the syllables and syllables of the left syllables except the assistants and parts of speech information stored in the right syllables of the assistant in order to accurately grasp the meaning of the auxiliary words such as '_b, _do, _man' Analyze together to improve the accuracy of the mother.
보조사 결합 정보 분석 모듈(312b)은 '아주잘먹기도'에서 '도'와 같은 띄어쓰기가 되지 않은 오류문 내의 보조사 뿐 아니라 '갈치고'와 '친구치고'처럼 올바른 어절에서 '치고'와 같은 보조사 중의성 음절을 재분석하여 '갈치(체언)+고(연결어미)' 그리고 '친구(체언)+치고(보조사)'처럼 올바르게 분석한다.Assisted assistant information analysis module (312b) is not only an assistant in a non-sparse error statement, such as 'do' in the 'very good eating', but also among the assistants such as 'chigo' in correct words such as 'chigo' and 'friend'. Re-analyzes the syllables and analyzes them correctly, such as 'galch (+)' and 'connected' and 'friend' (+).
격조사 분석부(313)는 격조사 분석 모듈(313a) 및 격조사 결합 정보 분석 모듈(313b)을 포함한다.The surveying
격조사 분석 모듈(313a)은 '_가, _는, _이'와 같은 격조사를 처리하는 주격 조사 분석과 '_을, _를'과 같은 격조사를 처리하는 목적격 조사 분석과 '_부터, _에서, _까지'와 같은 격조사를 처리하는 부사격 조사 분석과 '_의'와 같은 격조사를 처리하는 관형격 조사 분석을 수행한다.The
격조사 분석 모듈(313a)은 격조사를 포함한 좌측 음절이 어간 사전(220)에서 체언으로 검색되면 격조사를 포함한 좌측 음절을 체언 미등록어 분석 모듈(322a)로 전송하여 분석하고, 용언으로 검색되면 격조사를 포함한 좌측 음절을 용언 보조용언 분석 모듈(320a)로 전송하여 분석하며, 부사로 검색되면 격조사를 포함한 좌측 음절을 부사 분석 모듈(310a)로 전송하여 분석한다.Checking
격조사 결합 정보 분석 모듈(313b)은 격조사를 저장하여 분리한 후, 격조사를 제외한 좌측 음절이 어간 사전(220)에서 체언으로 검색되는 경우 격조사를 제외한 좌측 음절을 체언 미등록어 분석 모듈(322a)로 전송하여 분석하고 용언으로 검색되면 격조사를 제외한 좌측 음절을 용언 보조용언 분석 모듈(320a)로 전송하여 분석하며, 부사로 검색되면 격조사를 제외한 좌측 음절을 부사 분석 모듈(310a)로 전송하여 분석한다.If the left syllable except for the search is retrieved by the spoken word from the
격조사 결합 정보 분석 모듈(313b)은 격조사를 제외한 좌측 음절이 어미 사전(230)에서 보조사로 검색되는 경우 격조사를 제외한 좌측 음절을 보조사 분석 모듈(312a)로 전송하여 분석하고 연결어미로 검색되면 격조사를 제외한 좌측 음절을 연결어미 분석 모듈(311a)로 전송하여 분석하며, 어말어미로 검색되면 격조사를 제외한 좌측 음절을 어말어미 분석 모듈(314a)로 전송하여 분석한다.If the left syllable except for the search is searched as an assistant in the ending
어말어미 분석부(314)는 어말어미 분석 모듈(314a) 및 어말어미 결합 정보 분석 모듈(314b)을 포함한다.The
어말어미 분석 모듈(314a) 및 어말어미 결합 정보 분석 모듈(314b)은 어말어미를 사전 데이터베이스부(200)의 어미 사전(230)에서 검색하여 어말어미를 저장 분리한다.The
어말어미 분석 모듈(314a)은 '_는가, _ㄴ가요, _ㄹ거야'와 같이 검색된 어말어미가 용언 성질을 가지고 있으면 용언 성질의 어말어미 분석을 '_만요'와 같이 체언 성질을 가지고 있으면 체언 성질의 어말어미 분석을 '_랄까, _군'과 같이 체언 및 용언 성질을 가지고 있으면 체언과 용언 성질의 어말어미 분석을 수행한다.The ending
어말어미 분석 모듈(314a)은 어말어미를 분리하여 저장한 후 어말어미를 포함한 좌측 음절이 어간 사전(220)에서 체언으로 검색되는 경우 어말어미를 포함한 좌측 음절을 체언 미등록어 분석 모듈(322a)로 전송하여 분석하고 용언으로 검색되면 어말어미를 포함한 좌측 음절을 용언 보조용언 분석 모듈(320a)로 전송하여 분석하며, 부사로 검색되면 어말어미를 포함한 좌측 음절을 부사 분석 모듈(310a)로 전송하여 분석한다.The ending
어말어미 결합 정보 분석 모듈(314b)은 어말어미를 저장하여 분리한 후 어말어미를 제외한 좌측 음절이 어간 사전(220)에서 체언으로 검색되는 경우 어말어미를 포함한 좌측 음절을 체언 미등록어 분석 모듈(322a)로 전송하여 분석하고 용언으로 검색되면 어말어미를 제외한 좌측 음절을 용언 보조용언 분석 모듈(320a)로 전송하여 분석하며, 부사로 검색되면 어말어미를 제외한 좌측 음절을 부사 분석 모듈(310a)로 전송하여 분석한다.The mother ending
어말어미 결합 정보 분석 모듈(314b)은 어말어미를 제외한 좌측 음절이 어미 사전(230)에서 선어말어미로 검색되면 어말어미를 제외한 좌측 음절이 선어말어미 분석 모듈(316a)로 전송하여 분석하고 형용사 파생 접미사로 검색되면 어말어미를 제외한 좌측 음절을 형용사 파생 접미사 분석 모듈(319a)로 전송하여 분석한다.When the ending syllables except the ending words are retrieved as the ending words from the ending
어말어미 결합 정보 분석 모듈(314b)은 어말어미를 제외한 좌측 음절의 품사 정보와 음절수, 어말어미의 우측 음절에 저장된 품사 정보를 함께 분석하여 분석의 정확성을 향상시킨다.The ending combining
어말어미 결합 정보 분석 모듈(314b)은 '먹은걸'과 같이 어말어미의 축약형 '_은걸'의 음절들을 '먹(용언)+은(관형사형 전성어미)+것(체언)+을'(목적격 조사)과 같이 축약형 '은걸'이 아닌 원형 '_은(관형사형 전성어미)+것(체언)+을(목적격 조사)'로 복원하여 분석한다.Mother ending combined information analysis module (314b), such as 'eat girl', the symptom of the mother's abbreviated '_eun girl' is the 'eat (pronoun) + is (oral-type epilative mother) + thing (cheer) +' (target) As with the survey, the original form '_' is used for restoring the original '_' (word-shaped malleable mother) + one (communication) + (objective investigation).
전성어미 분석부(315)는 전성어미 분석 모듈(315a) 및 전성어미 결합 정보 분석 모듈(315b)을 포함한다.The prime mother analyzer 315 includes a prime
전성어미 분석 모듈(315a)은 '_ㅁ, _음, _기'와 같은 전성어미를 처리하는 명사형 전성어미 분석과 '_ㄹ, _던'과 같은 전성어미를 처리하는 관형사형 전성어미 분석을 수행한다.The malleable
전성어미 분석 모듈(315a)은 전성어미를 분리하여 저장한 후 전성어미를 포함한 좌측 음절이 어간 사전(220)에서 체언으로 검색되는 경우 전성어미를 포함한 좌측 음절을 체언 미등록어 분석 모듈(322a)로 전송하여 분석하고 용언으로 검색되면 전성어미를 포함한 좌측 음절을 용언 보조용언 분석 모듈(320a)로 전송하여 분석하며, 부사로 검색되면 전성어미를 포함한 좌측 음절을 부사 분석 모듈(310a)로 전송하여 분석한다.The prime
전성어미 결합 정보 분석 모듈(315b)은 전성어미를 분리하여 저장한 후 전성어미를 제외한 좌측 음절이 어간 사전(220)에서 용언으로 검색되면 전성어미를 제외한 좌측 음절을 용언 보조용언 분석 모듈(320a)로 전송하여 분석하며, 지정사로 검색되면 전성어미를 제외한 좌측 음절을 지정사 분석 모듈(317a)로 전송하여 분석한다.The prime mother combining
전성어미 결합 정보 분석 모듈(315b)은 전성어미를 제외한 좌측 음절이 어미 사전(230)에서 선어말어미로 검색되면 전성어미를 제외한 좌측 음절이 선어말어미 분석 모듈(316a)로 전송하여 분석하고 형용사 파생 접미사로 검색되면 전성어미를 제외한 좌측 음절이 형용사 파생 접미사 분석 모듈(319a)로 전송하여 분석한다.When the left syllables except the malleable mothers are retrieved from the ending
전성어미 분석 모듈(315a)은 '맹세+ㄹ'의 축약형 '맹셀'과 같은 어절들에서 관형사형 전성어미 'ㄹ'을 목적격 조사로 변경한다.The malleable
전성어미 결합 정보 분석 모듈(315b)은 'ㅁ, 음, 기'의 명사형 전성어미에서 나타나는 의미적 중의성 어절 '선풍기바람'과 '공부하기바람'의 의미 차이를 해결하기 위해 명사형 전성어미를 제외한 좌측 음절의 품사 정보와 음절수, 명사형 전성어미의 우측 음절의 품사 정보를 이용하여 '선풍기바람'에서 '바람'이 영어의 Wind'를 의미하는 체언 '바람'이고 '공부하기바람'에서 '바람'이 영어의 'Wish'를 의미하는 '바람'으로 '바라(용언)+ㅁ(명사형 전성어미)으로 분석한다.The malleable combined information analysis module (315b) excludes the noun-type malleable to solve the difference between the meaning of the word 'fan wind' and 'study wind' in the noun-type malleable words of 'ㅁ, Um, and Ki'. Using the part-of-speech information of the left syllable, the number of syllables, and the part-of-speech information of the right syllable of the noun-type epilator, the word 'wind' in the 'fan wind' means 'wind' in English, and 'wind' in 'study wind'. The word 'wind' which means' Wish 'in English is analyzed as' bara (pron) + ㅁ (noun-type epilogue).
선어말어미 분석부(316)는 선어말어미 분석 모듈(316a) 및 선어말어미 결합 정보 분석 모듈(316b)을 포함한다.The front end ending
선어말어미 분석 모듈(316a)은 '_옵_'과 같은 선어말어미를 처리하는 공손 선어말어미 분석과 '_겠_'과 같은 선어말어미를 처리하는 추측 선어말어미 분석과 '_았_'과 같은 선어말어미를 처리하는 시간 선어말어미 분석과 '_시_'와 같은 선어말어미를 처리하는 높임 선어말어미 분석을 수행한다.The mother
선어말어미 분석 모듈(316a)은 선어말어미를 분리하여 분리한 선어말어미를 포함한 좌측 음절이 어간 사전(220)에서 체언으로 검색되는 경우 선어말어미를 포함한 좌측 음절을 체언 미등록어 분석 모듈(322a)로 전송하여 분석하고 용언으로 검색되면 선어말어미를 포함한 좌측 음절을 용언 보조용언 분석 모듈(320a)로 전송하여 분석한다.The front end ending
선어말어미 결합 정보 분석 모듈(316b)은 선어말어미를 저장하여 분리한 후 선어말어미를 제외한 좌측 음절이 어간 사전(220)에서 체언으로 검색되는 경우 선어말어미를 제외한 좌측 음절을 체언 미등록어 분석 모듈(322a)로 전송하여 분석하고 용언으로 검색되면 선어말어미를 제외한 좌측 음절을 용언 보조용언 분석 모듈(320a)로 전송하여 분석하며, 지정사로 검색되면 선어말어미를 제외한 좌측 음절을 지정사 분석 모듈(317a)로 전송하여 분석한다.The front end ending combining
선어말어미 결합 정보 분석 모듈(316b)은 선어말어미를 제외한 좌측 음절이 어미 사전(230)에서 보조사로 검색되면 선어말어미를 제외한 좌측 음절을 보조사 분석 모듈(312a)로 전송하여 분석하고 연결어미로 검색되면 선어말어미를 제외한 좌측 음절을 연결어미 분석 모듈(311a)로 전송하여 분석하며, 형용사 파생 접미사로 검색되면 선어말어미를 제외한 좌측 음절을 형용사 파생 접미사 분석 모듈(319a)로 전송하여 분석한다.When the front end ending combination
선어말어미 결합 정보 분석 모듈(316b)은 '경주시였다'와 '말씀해주시었다'와 같이 선어말어미 '시'의 의미를 정확히 파악하기 위해 선어말어미를 제외한 좌측 음절의 품사 정보와 음절수, 선어말어미의 우측 음절의 품사 정보를 이용하여 '경주시(체언)+이(지정사)+었(시간선어말어미)+다(어말어미)', '말씀(체언)+하(동사 파생 접미사)+어(연결어미)+주(용언)+시(높임 선어말어미)+었(시간 선어말어미)+다(어말어미)'와 같이 분석한다.The first word combining information analysis module (316b) is the part of speech and the number of syllables and syllables of the left syllable, except the first ending, in order to accurately grasp the meaning of the first ending "poetry" such as 'It was Gyeongju' and 'Tell me.' By using the part-of-speech information in the right syllable, 'Gyeongju-si (communion) + 2 (specified)) + (time line ending ending) + da (end ending),' word (word) + ha (verb derived suffix) + word (connection ending) ) + Week (verb) + poetry (elevated fresh ending ending) + was (time ending ending ending) + da (ending ending).
지정사 분석부(317)는 지정사 분석 모듈(317a) 및 지정사 결합 정보 분석 모듈(317b)을 포함한다.The
지정사 분석 모듈(317a)은 '_이'와 같은 지정사를 처리하는 긍정 지정사 분석과 '_아니'와 같은 지정사를 처리하는 부정 지정사 분석을 수행한다.The
지정사 분석 모듈(317a)은 지정사를 분리하여 분리한 지정사를 포함한 좌측 음절이 어간 사전(220)에서 체언으로 검색되는 경우 지정사를 포함한 좌측 음절을 체언 미등록어 분석 모듈(322a)로 전송하여 분석하고 용언으로 검색되면 지정사를 포함한 좌측 음절을 용언 보조용언 분석 모듈(320a)로 전송하여 분석한다.The
지정사 결합 정보 분석 모듈(317b)은 지정사를 저장하여 분리한 후 지정사를 제외한 좌측 음절이 어간 사전(220)에서 체언으로 검색되는 경우 지정사를 제외한 좌측 음절을 체언 미등록어 분석 모듈(322a)로 전송하여 분석하고 부사로 검색되면 지정사를 제외한 좌측 음절을 부사 분석 모듈(310a)로 전송하여 분석한다.The noun combining
지정사 결합 정보 분석 모듈(317b)은 지정사를 제외한 좌측 음절이 어미 사전(230)에서 보조사로 검색되면 지정사를 제외한 좌측 음절을 보조사 분석 모듈(312a)로 전송하여 분석한다.If the syllable combining
지정사 결합 정보 분석 모듈(317b)은 지정사를 제외한 좌측 음절의 품사 정보와 음절수, 지정사의 우측 음절에 저장된 품사 정보를 함께 분석하여 분석의 정확성을 향상시킨다.The noun combining
동사 파생 접미사 분석부(318)는 동사 파생 접미사 분석 모듈(318a) 및 동사 파생 접미사 결합 정보 분석 모듈(318b)을 포함한다.The verb-derived
동사 파생 접미사 분석 모듈(318a) 및 동사 파생 접미사 결합 정보 분석 모듈(318b)은 사전 데이터베이스부(200)의 어미 사전(230)에서 동사 파생 접미사를 검색하여 저장 분리한다.The verb-derived
동사 파생 접미사 결합 정보 분석 모듈(318b)은 동사 파생 접미사를 포함한 용언을 검색할 뿐 아니라 동사 파생 접미사에 결합된 좌측 음절의 품사를 분석한다.The verb-derived suffix combination
형용사 파생 접미사 분석부(319)는 형용사 파생 접미사 분석 모듈(319a) 및 형용사 파생 접미사 결합 정보 분석 모듈(319b)을 포함한다.The adjective derived
형용사 파생 접미사 분석 모듈(319a) 및 형용사 파생 접미사 결합 정보 분석 모듈(319b)은 사전 데이터베이스부(200)의 어미 사전(230)에서 형용사 파생 접미사를 검색하여 저장 분리한다. 또한, 형용사 파생 접미사 분석 모듈(319a) 및 형용사 파생 접미사 결합 정보 분석 모듈(319b)은 변형된 형용사 파생 접미사를 원형 복원을 위한 변형 규칙을 사용하지 않고 사전 데이터베이스부(200)의 불규칙 사전(210)을 이용하여 불규칙에 대한 원형을 복원시킨다.The adjective-derived
용언 보조용언 분석부(320)는 용언 보조용언 분석 모듈(320a) 및 용언 보조용언 결합 정보 분석 모듈(320b)을 포함한다.The verbal auxiliary
용언 보조용언 분석 모듈(320a) 및 용언 보조용언 결합 정보 분석 모듈(320b)은 사전 데이터베이스부(200)의 어간 사전(220)에서 용언을 검색하여 저장 분리한다.The verb auxiliary
용언 보조용언 분석 모듈(320a) 및 용언 보조용언 결합 정보 분석 모듈(320b)은 원형 복원의 규칙없이 형태소 분석부(300)와 연동된 불규칙 사전(210)을 검색하여 원형을 복원하고 어절의 분석 속도를 최대화한다.The verb
용언 보조용언 분석 모듈(320a)은 '오, 싶, 않'과 같은 용언을 처리하는 보조용언 분석과 '가꾸, 가느다랗'과 같은 용언을 처리하는 용언 분석과 '감싸눌러, 빨가'와 같은 용언을 처리하는 뷸규칙 용언 분석과 '돼, 와'와 같은 용언을 처리하는 용언 축약형 분석을 수행한다.Verbal auxiliary
용언 보조용언 결합 정보 분석 모듈(320b)은 '태어나살다'와 같은 용언과 용언 어절의 결합형 어절들에서 '태어나(용언)+아(연결어미)+살(용언)+다(어말어미) 처럼 용언과 용언 사이에 생략된 연결어미 '아(연결어미)'를 복원하여 분석한다.Verbal supplementary verb combination information analysis module (320b) is a combination of words such as 'born to live' and 'words' (pron) + ah (connected ending) + flesh (word) + multi (mother) It analyzes by restoring the connection ending 'ah (connection ending)' omitted between the word and the word.
용언 보조용언 결합 정보 분석 모듈(320b)은 최장 일치의 용언을 저장하여 분리한 후 용언을 제외한 좌측 음절에 분석할 음절이 없는 경우 형태소 분석을 완료하고 미등록어 고유명사 결합부(400)를 통해 고유명사를 결합시킨다.Terminology supplementary verb combination
명사형 파생 접미사 분석부(321)는 명사형 파생 접미사 분석 모듈(321a) 및 명사형 파생 접미사 결합 정보 분석 모듈(321b)을 포함한다.The noun-derived
명사형 파생 접미사 분석 모듈(321a) 및 명사형 파생 접미사 결합 정보 분석 모듈(321b)은 사전 데이터베이스부(200)의 어미 사전(230)에서 명사 파생 접미사를 검색하여 저장 분리한다. 명사형 파생 접미사 결합 정보 분석 모듈(321b)은 검색된 명사 파생 접미사 좌측 음절에 위치한 품사 정보를 분석하여 분석 가능한 품사 모듈로 전송한다.The noun-derived
체언 미등록어 분석부(322)는 체언 미등록어 분석 모듈(322a) 및 체언 결합 정보 분석 모듈(322b)을 포함한다.The spoken non-registered
체언 미등록어 분석 모듈(322a) 및 체언 결합 정보 분석 모듈(322b)은 사전 데이터베이스부(200)의 어간 사전(220)에서 최장 일치로 체언을 검색하여 저장 분리한다. 체언 미등록어 분석 모듈(322a) 및 체언 결합 정보 분석 모듈(322b)은 한 어절에서 하나의 체언이 검색되더라도 체언의 좌측 음절의 품사 정보, 음절수 및 자질 정보에 따라 체언의 다의어 정보 및 중의성 정보를 분석할 수 있다.The uncommitted
체언 미등록어 분석 모듈(322a)은 '용/형/적' 등의 특수 음절 분석과 '학교, 조국, 민족' 등의 체언을 처리하는 명사 분석과 '가구, 광년, 달러, 개비' 등의 체언을 처리하는 의존 명사 분석과 '구십, 아홉, 아흔' 등의 체언을 처리하는 수사 분석, 그리고 사전에 등록되지 않은 음절을 처리하는 미등록어 분석을 수행한다.Unregistered Word Analysis Module (322a) analyzes special syllables such as 'dragon, sentence, enemy' and 'nouns' that deal with the words such as 'school, motherland, and nation', as well as 'furniture, light year, dollar, gabby', etc. Performs dependency noun analysis to deal with the problem, rhetorical analysis to process the ninety, ninety, ninety, etc., and unregistered word analysis to process syllables not registered in advance.
체언 결합 정보 분석 모듈(322b)은 최장 일치의 체언을 저장하여 분리한 후 체언을 제외한 좌측 음절에 분석할 음절이 없는 경우, 형태소 분석을 완료하고 미등록어 고유명사 결합부(400)를 통해 고유명사를 결합시킨다.The message combining
체언 결합 정보 분석 모듈(322b)은 체언을 제외한 좌측 음절이 어간 사전(220)에서 부사로 검색되면 체언을 제외한 좌측 음절을 부사 분석 모듈(310a)로 전송하여 분석하고 체언으로 검색되면 체언을 제외한 좌측 음절을 체언 미등록어 분석 모듈(322a)로 전송하여 분석한다.The message combining
체언 결합 정보 분석 모듈(322b)은 체언을 제외한 좌측 음절이 어미 사전(230)에서 전성어미가 검색되면 체언을 제외한 좌측 음절을 전성어미 분석 모듈(315a)로 전송하여 분석하고 격조사가 검색되면 체언을 제외한 좌측 음절을 격조사 분석 모듈(313a)로 전송하여 분석하고 보조사가 검색되면 체언을 제외한 좌측 음절을 보조사 분석 모듈(312a)로 전송하여 분석하며 연결어미가 검색되면 체언을 제외한 좌측 음절을 연결어미 분석 모듈(311a)로 전송하여 분석한다.The message combining
체언 결합 정보 분석 모듈(322b)은 체언을 제외한 좌측 음절의 품사 정보와 음절수, 우측 음절의 품사 정보를 이용하여 복합 명사뿐 아니라 다양한 품사 정보를 분석할 수 있다.The spoken combination
조사와 어미를 분석하는 제1 품사 분석 모듈은 전술한 연결어미 분석 모듈(311a), 보조사 분석 모듈(312a), 격조사 분석 모듈(313a), 어말어미 분석 모듈(314a), 전성어미 분석 모듈(315a), 선어말어미 분석 모듈(316a), 지정사 분석 모듈(317a), 동사 파생 접미사 분석 모듈(318a), 형용사 파생 접미사 분석 모듈(319a), 명사형 파생 접미사 분석 모듈(321a)을 포함한다.The first part-of-speech analysis module that analyzes the survey and the mother is the above-mentioned linkage ending
체언과 용언을 분석하는 제2 품사 분석 모듈은 부사 분석 모듈(310a), 용언 보조용언 분석 모듈(320a) 및 체언 미등록어 분석 모듈(322a)을 포함한다. 이와 같이 제1 품사 분석 모듈과 제2 품사 분석 모듈을 합쳐 품사 분석 모듈로 기능한다.The second part-of-speech analysis module that analyzes the spoken word and the verb includes an
제1 품사 분석 모듈과 제2 품사 분석 모듈에 각각 연결된 결합 정보 분석 모듈은 통칭하여 품사 결합 정보 분석 모듈로 기능한다.The combined information analysis module connected to the first part-of-speech analysis module and the second part-of-speech analysis module collectively functions as a part-of-speech analysis information analysis module.
품사 결합 정보 분석 모듈은 품사 분석 모듈에 의해 분석한 음절에 결합된 좌측 음절을 어미 사전(230) 또는 어간 사전(220)에서 검색하여 검색된 품사를 제1 품사 분석 모듈 또는 제2 품사 분석 모듈을 통해 좌측 음절을 분석한다.The part-of-speech information analysis module searches for the left syllables combined with the syllables analyzed by the part-of-speech analysis module in the
품사 분석 모듈과 품사 결합 정보 분석 모듈은 분석할 음절을 어미 사전(230) 또는 어간 사전(220)에서 검색하여 검색된 품사를 제1 품사 분석 모듈 또는 제2 품사 분석 모듈에서 분석한다.The part-of-speech analysis module and the part-of-speech analysis information analysis module search for the syllable to be analyzed in the
품사 분석 모듈은 분석할 음절을 포함한 좌측 음절을 어간 사전(220)에서 검색하여 체언, 용언, 부사가 검색되면 해당 품사의 제2 품사 분석 모듈로 전송한다. 또한, 품사 분석 모듈은 분석할 음절을 어미 사전(230)에서 분석할 음절보다 큰 연결어미, 어말어미, 격조사, 보조사, 전성어미를 검색하여 분석할 음절을 좌측 음절을 해당 품사의 제1 품사 분석 모듈로 전송한다.The part-of-speech analysis module searches for the left syllable including the syllable to be analyzed in the
품사 결합 정보 분석 모듈은 분석할 음절에 결합된 좌측 음절을 어간 사전(220) 또는 어미 사전(230)을 통해 어형 변화가 되지 않는 품사인 경우 좌측 음절을 어형 변화가 되지 않는 품사를 분석하는 모듈에서 분석한 후, 실패할 경우, 어형 변화가 가능한 품사인 경우 좌측 음절을 어형 변화가 가능한 품사를 분석하는 모듈에서 분석한다. 여기서, 어형 변화가 되지 않는 품사는 예를 들어, '그런, 저런' 등과 같은 관형사, '만큼, 만치, 부터'와 같은 보조사, '다니요, 라니요, 으래두' 등과 같은 어말어미, '답시고, 랍시고' 등과 같은 연결어미를 들 수 있다.The part-of-speech combining information analysis module is a part of a part that analyzes a part-of-speech that does not change the left syllable when the part of speech is not changed through the
도 3은 본 발명의 실시예에 따른 한국어 의미 분석 시스템을 이용한 형태소 분석 방법을 나타낸 도면이다.3 is a diagram illustrating a morpheme analysis method using a Korean semantic analysis system according to an embodiment of the present invention.
사용자 인터페이스(100)는 사용자로부터 '정말맛있는차'의 한국어 어절을 입력받는다.The
형태소 분석부(300)는 띄어쓰기 오류문인 '정말맛있는차'에서 우측 '차'를 분석하는 경우, 부사 분석 모듈(310a)부터 명사형 파생 접미사 분석 모듈(321a)까지 검색에 실패하게 된다. 이어서, 체언 미등록어 분석 모듈(322a)은 '차'를 포함한 좌측 음절을 사전 데이터베이스부(200)의 어간 사전(220)에서 최장 일치로 명사 '차'를 검색하여 저장한다. 체언 결합 정보 분석 모듈(322b)은 '차'를 제외한 좌측 음절 '는'을 어미 사전(230)에서 보조사로 검색하고 '는'를 포함한 좌측 음절을 보조사 분석 모듈(312a)로 전송한다.When the
보조사 분석 모듈(312a)은 '는'을 포함한 좌측 음절을 사전 데이터베이스부(200)의 어미 사전(230)에서 최장 일치로 보조사 '는'이 보조사로 검색되면 '는'을 포함한 좌측 음절이 명사, 부사 또는 다른 품사인지 판단한다.The
보조사 분석 모듈(312a)은 '는'이 보조사로 판단되면 '는'을 보조사로 분리하여 저장한다. 보조사 결합 정보 분석 모듈(312b)은 '는'을 제외한 좌측 음절 '맛있'을 어간 사전(220)에서 용언으로 검색하고 '맛있'를 포함한 좌측 음절을 용언 보조용언 분석 분석 모듈(320a)로 전송한다.The
용언 보조용언 분석 모듈(320a)은 사전 데이터베이스부(200)의 어간 사전(220)에서 최장 일치의 용언 '맛있'을 검색하게 된다. 용언 보조용언 분석 모듈(320a)은 검색된 용언 '맛있'에 보조용언의 자질 정보를 가지고 있는지 어간 사전(220)을 통해 확인한 후 보조용언의 자질이 없으면 '맛있'을 용언으로 분리하여 저장한다.The verb auxiliary
용언 보조용언 결합 정보 분석 모듈(320b)은 용언 '맛있'을 제외한 좌측 음절을 어간 사전(220)에서 부사로 검색하고 '정말'를 포함한 좌측 음절을 부사 분석 모듈(310a)로 전송한다.The verb auxiliary verb combination
부사 분석 모듈(310a)은 '정말'을 포함한 좌측 음절을 사전 데이터베이스부(200)의 어간 사전(220)에서 최장 일치로 '정말'을 검색하여 저장한 후 '정말'을 제외한 좌측 음절이 없는 경우 형태소 분석이 완료된다.The
이러한 과정을 거쳐 띄어쓰기가 이루어지지 않은 오류문은 도 4에 도시된 바와 같이, '정말/맛있+는/차'처럼 형태소로 분석된 결과를 보여준다.As shown in FIG. 4, the error text that is not spaced through this process shows the result of morphological analysis as 'really / delicious + / tea'.
형태소 분석부(300)는 도 4에 도시된 바와 같이, 온톨로지 분석부(600), 트리플 리파지토리 시스템(800)과 연동하여 체언에 해당하는 'ONTO' 정보를 형태소로 분석된 결과와 함께 보여준다.As shown in FIG. 4, the
미등록어 고유명사 결합부(400)는 모든 형태소 분석이 이루어진 후 인명과 같은 고유명사를 결합시킨다. 또한, 미등록어 고유명사 결합부(400)는 띄어쓰기가 되지 않은 오류문에서 미등록어 및 고유명사를 추정하여 결합시키기 위해 형태소 분석에서 사용된 '우에서 좌' 점검이 아닌 '좌에서 우' 점검을 통해 영어 문자 결합, 3음절 고유명사 결합, 2음절 고유명사 결합과 같이 문자별 또는 음절별 특정 결합 규칙에 따라 결합시킨다.The non-registered word proper
어절 생성부(500)는 도 5에 도시된 바와 같이, 미등록어 고유명사 결합부(400)로부터 형태소 정보를 수신하고, 수신한 형태소 정보를 이용하여 어절, 문장 성분를 생성하며, 온톨로지 분석부(600), 트리플 리파지토리 시스템(800)과 연동하여 체언과 용언의 'ONTO' 정보를 생성한다. 여기서, 어절은 맞춤법에 맞게 쓰여진 문장에서 공백으로 구분되는 문장 구성 요소를 의미하고 품사적 성격에 따라 체언(NN), 용언(VV), 긍정 지정사(VNP), 관형사(MM), 부사(MA), 감탄사(IC), 접속사(CONJ)로 구분된다.As shown in FIG. 5, the
체언 온톨로지 분석부(610)는 추론 분석부(630)와 연동하여 '차 rdfs:subClassOf 음료수'(차는 음료수에 속한다)와 같이 클래스의 상하위 관계 및 등위 관계를 처리한다. 다시 말해, 체언 온톨로지 분석부(610)는 차와 관련된 기호품, 음료 등의 상위 온톨로지 정보와 음료수, 꿀차, 녹차, 매실차, 한방차 등의 하위 온톨로지 정보를 체언 온톨로지로 구축한다.The
체언 온톨로지 분석부(610)는 구축된 체언 온톨로지를 RDF 트리플 변환부(700)를 통해 RDF 트리플로 변환하여 트리플 리파지토리 시스템(800)에 저장한다.The
체언 온톨로지 분석부(610)는 분석할 문장이 '삼성+차', '현대+차', '기아+차'와 같이 어절 생성부(500)에서 체언과 체언끼리 결합되는 경우, '차'는 '마시는차'를 의미하는 ONTO 정보 '1132253311'와 '운송수단 자동차'를 의미하는 ONTO 정보 '113229111'와 2차 세계대전처럼 '시기'를 의미하는 ONTO 정보 '1239212'에 대응되는 각각의 온톨로지 클래스를 자동 구축한다.If the sentence to analyze the sentence
다시 말해, 도 7에 도시된 바와 같이, '삼성+차', '현대+차', '기아+차'는 용언의 정보가 수신되지 않아 '마시는 차'를 의미하는 온톨로지 클래스가 자동 구축된다. 또한, 도 7에 도시되지 않았지만, '운송수단 자동차'와 '시기'를 의미하는 각각 온톨로지 클래스도 자동 구축된다.In other words, as shown in Figure 7, 'Samsung + tea', 'Hyundai + tea', 'Kia + tea' is not automatically received, the ontology class means 'tea drinking' is automatically built. In addition, although not shown in FIG. 7, ontology classes respectively meaning 'transport vehicle' and 'time' are also automatically constructed.
용언 온톨로지 분석부(620)는 추론 분석부(630)와 연동하여 체언과 용언과의 정확한 의미적 관계를 명확히 나타내기 위해 용언의 주어인 도메인(domain)과 용언의 목적어와 보어인 레인지(range), 용언의 부가어(AJT)가 내부적으로 가져야 할 의미 관계들을 2900여개의 의미 정보(구체성, 비구체성, 동물, 식물, 음식, 음료수, 과일 등)에 따라 각각의 온톨로지로 구축되어 RDF 트리플 형태로 변환하여 트리플 리파지토리 시스템(800)에 저장된다(도 8에 도시됨).The verb
도 9에 도시된 바와 같이, RDF 트리플 변환부(700)는 용언 온톨로지 분석부(620)에서의 체언 온톨로지를 RDF 트리플의 집합으로 변환한다. 이와 마찬가지로 RDF 트리플 변환부(700)는 체언 온톨로지 분석부(610)에서의 체언 온톨로지를 RDF 트리플의 집합으로 변환한다.As shown in FIG. 9, the RDF
용언 온톨로지 분석부(620)는 도메인(domain), 레인지(range), 부가어(AJT) 속성 정보 값을 체언 온톨로지 분석부(610)의 'rdf:ID' 값이나 'owl:equivalentClass'값과 연결되어 체언의 의미를 분석하게 된다.The
예를 들어, '"맛있" rdfs:subProperty0f 먹다'("맛있"은 "먹다"에 속한다)와 같이 프라퍼티(Property)의 상하위 관계, 등위 관계를 표현할 뿐 아니라 '맛있'이라는 용언이 내포할 수 있는 도메인의 의미 속성은 도 8에서 나타나 있듯이 다양하게 표현할 수 있다.For example, the expression 'delicious' can be implied as well as expressing the parent-child relationship and property of a property, such as 'eat' delicious 'rdfs: subProperty0f' ('delicious' belongs to 'eat'). The semantic attribute of the domain can be variously expressed as shown in FIG. 8.
용언 온톨로지 분석부(620)는 도 6에서 체언 온톨로지의 '차'와 연결되어 있어 '차'의 다양한 상하의 의미 정보를 부여받아 '차'가 기계가 아닌 기호품으로서 식료의 하위 정보라는 의미를 파악하게 된다.The verbal
따라서, '맛있는차'에서 '맛있'이 내포하고 있는 도메인인 '차'의 의미 속성은 '운송수단 자동차'를 의미하는 '차(113229111)'가 아니라 '마시는차(1132253311)'가 되는 것이다.Therefore, the meaning attribute of 'tea', which is a domain containing 'delicious' in 'delicious tea', is 'drinking tea (1132253311)' rather than 'tea (113229111)' meaning 'transportation vehicle'.
도 10에 도시된 바와 같이, 출력부(900)는 트리플 리파지토리 시스템(800)으로부터 사용자 인터페이스로부터 수신된 입력문의 체언과 용언의 온톨로지 정보를 온톨로지 의미 분석 결과로 출력한다.As illustrated in FIG. 10, the
출력부(900)는 온톨로지 분석부(600)의 추론 분석을 통한 내적 의미가 내포된 상위 온톨로지 정보(HONTO), 하위 온톨로지 정보(LONTO), 대등 온톨로지 정보(EONTO)를 출력한다.The
이상에서 설명한 본 발명의 실시예는 장치 및/또는 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하기 위한 프로그램, 그 프로그램이 기록된 기록 매체 등을 통해 구현될 수도 있으며, 이러한 구현은 앞서 설명한 실시예의 기재로부터 본 발명이 속하는 기술분야의 전문가라면 쉽게 구현할 수 있는 것이다.The embodiments of the present invention described above are not implemented only by the apparatus and / or method, but may be implemented through a program for realizing functions corresponding to the configuration of the embodiment of the present invention, a recording medium on which the program is recorded And such an embodiment can be easily implemented by those skilled in the art from the description of the embodiments described above.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments, It belongs to the scope of right.
Claims (14)
상기 분석한 품사에 결합된 음절을 상기 어간 사전 또는 상기 어미 사전에서 검색하여 상기 한국어 입력 어절의 형태소 정보를 분석하고 상기 분석한 형태소 정보를 이용하여 어절 정보를 분석하는 단계;
상기 체언의 온톨로지 의미 정보를 체언 온톨로지로 구축하고, 상기 체언과의 연관 관계를 의미 정보에 따라 온톨로지로 형성한 용언 온톨로지를 구축하는 단계;
상기 용언 온톨로지와 상기 체언의 온톨로지 의미 정보와 연결하여 상기 체언의 의미를 분석하고 상기 용언 온톨로지와 상기 체언 온톨로지를 통해 상기 체언과 상기 용언의 온톨로지 정보를 분석하는 단계; 및
상기 체언과 상기 용언의 온톨로지 정보를 온톨로지 의미 분석 결과로 출력하는 단계
를 포함하는 것을 특징으로 하는 온톨로지 기반 한국어 의미 분석 방법.Analyzing the retrieved part-of-speech by searching the stem syllable including the word and the verb or the ending dictionary including the survey or the ending syllable of the Korean input word;
Analyzing the morpheme information of the Korean input word by searching the syllables coupled to the analyzed parts of speech from the stem dictionary or the ending dictionary and analyzing the word information using the analyzed morpheme information;
Constructing ontology semantic information of the spoken word as a ontology, and constructing an ontology of an ontology based on semantic information in relation to the spoken word;
Analyzing the meaning of the verb by connecting the ontology and ontology semantic information of the verb and analyzing ontology information of the verb and the verb through the verb ontology and the verb ontology; And
Outputting ontology information of the message and the verb as an ontology semantic analysis result;
Ontology-based Korean semantic analysis method comprising a.
상기 체언과 상기 용언의 온톨로지 정보를 분석하는 단계는,
상기 분석한 어절 정보에서 상기 용언이 검색되지 않는 경우, 상기 체언 온톨로지에서 상기 체언과 관련된 복수개의 온톨로지 의미 정보를 수신하는 단계; 및
상기 체언과 결합된 제1 체언은 상기 각 온톨로지 의미 정보에 대응되는 각각의 온톨로지 클래스를 구축하는 단계
를 더 포함하는 것을 특징으로 하는 온톨로지 기반 한국어 의미 분석 방법.The method of claim 1,
Analyzing ontology information of the message and the verb,
If the term is not found in the analyzed word information, receiving a plurality of ontology semantic information related to the word from the spoken ontology; And
Constructing each ontology class corresponding to each ontology semantic information in a first correspondence combined with the correspondence;
Ontology-based Korean semantic analysis method further comprising.
상기 어절 정보를 분석하는 단계는,
상기 형태소 정보와 상기 어절 정보에 각각 상기 체언의 온톨로지 의미 정보와 상기 용언의 온톨로지 의미 정보를 포함하는 것을 특징으로 하는 온톨로지 기반 한국어 의미 분석 방법.The method of claim 1,
Analyzing the word information,
The ontology-based Korean semantic analysis method of claim 11, wherein the morpheme information and the word information include ontology meaning information of the message and ontology meaning information of the word.
상기 용언 온톨로지로 구축하는 단계는,
상기 체언 온톨로지와 상기 용언 온톨로지를 리소스 디스크립션 프레임워크(Rource Description Framework, RDF) 트리플의 집합으로 변환하여 저장하는 단계
를 더 포함하는 것을 특징으로 하는 온톨로지 기반 한국어 의미 분석 방법.The method of claim 1,
The building of the verb ontology,
Converting the communication ontology and the verb ontology into a set of resource description framework (RDF) triples and storing the ontology ontology
Ontology-based Korean semantic analysis method further comprising.
상기 온톨로지 의미 분석 결과로 출력하는 단계는,
상기 체언과 상기 용언의 추론 분석을 통한 내적 의미가 내포된 상위 온톨로지 정보(HONTO), 하위 온톨로지 정보(LONTO), 대등 온톨로지 정보(EONTO)를 출력하는 단계
를 포함하는 것을 특징으로 하는 온톨로지 기반 한국어 의미 분석 방법.The method of claim 1,
The outputting of the ontology semantic analysis result may include:
Outputting the upper ontology information (HONTO), the lower ontology information (LONTO), and the equivalent ontology information (EONTO) containing the internal meaning through the inference analysis of the verb and the verb.
Ontology-based Korean semantic analysis method comprising a.
상기 어절 정보를 분석하는 단계는,
상기 분석할 한국어 입력 어절의 역순에 따라 상기 분석할 음절을 상기 어간 사전 또는 상기 어미 사전에서 검색하여 검색된 품사를 분석하는 단계; 및
상기 분석한 품사에 결합된 좌측 음절을 상기 어간 사전 또는 상기 어미 사전에서 검색하여 상기 좌측 음절을 상기 한국어 입력 어절의 역순으로 형태소 분석하는 단계
를 포함하는 것을 특징으로 하는 온톨로지 기반 한국어 의미 분석 방법.The method of claim 1,
Analyzing the word information,
Analyzing the retrieved parts of speech by searching the stem syllable or the ending dictionary for the syllable to be analyzed in the reverse order of the Korean input word to be analyzed; And
Morphological analysis of the left syllable in the reverse order of the Korean input word by searching for the left syllable coupled to the analyzed part of speech in the stem dictionary or the ending dictionary
Ontology-based Korean semantic analysis method comprising a.
상기 어절 정보를 분석하는 단계는,
상기 좌측 음절이 상기 어간 사전 또는 상기 어미 사전을 통해 어형 변화가 되지 않는 품사인 경우 상기 좌측 음절을 어형 변화가 되지 않는 품사를 분석한 후, 상기 좌측 음절이 상기 어간 사전 또는 상기 어미 사전을 통해 어형 변화가 가능한 품사인 경우 어형 변화가 가능한 품사를 분석하는 단계
를 포함하는 것을 특징으로 하는 온톨로지 기반 한국어 의미 분석 방법.The method of claim 6,
Analyzing the word information,
When the left syllable is a part-of-speech that does not change the phonetic form through the stem dictionary or the mother dictionary, after analyzing the parts of speech that do not change the form of the left syllable, the left syllable is formed through the stem dictionary or the mother dictionary. In the case of changeable part-of-speech, analyzing parts of speech that can be changed
Ontology-based Korean semantic analysis method comprising a.
상기 분석한 형태소 정보를 이용하여 어절 정보 및 문장 성분을 분석하는 어절 생성부;
상기 체언의 온톨로지 의미 정보를 체언 온톨로지로 구축하고, 상기 체언과의 연관 관계를 의미 정보에 따라 온톨로지로 형성한 용언 온톨로지를 구축하고, 상기 용언 온톨로지와 상기 체언의 온톨로지 의미 정보와 연결하여 상기 체언의 의미를 분석하는 온톨로지 분석부; 및
상기 용언 온톨로지와 상기 체언 온톨로지를 통해 분석된 상기 체언과 상기 용언의 온톨로지 정보를 상기 체언과 상기 용언의 온톨로지 의미 분석 결과로 출력하는 출력부
를 포함하는 것을 특징으로 하는 온톨로지 기반 한국어 의미 분석 시스템.Analyze the retrieved parts of speech by searching the stem syllables of the phrases and idioms or the dictionary containing the words or words of the Korean input word, and search the syllables bound to the analyzed parts of speech in the stem or dictionary. A morpheme analysis unit configured to analyze morpheme information of the Korean input word;
A word generator configured to analyze word information and sentence components using the analyzed morpheme information;
Construct the ontology semantic information of the correspondence as a ontology, construct an ontology formed by the ontology according to the semantic relations with the semantic information, connect the ontology with the ontology semantic information of the correspondence Ontology analysis unit for analyzing the meaning; And
An output unit for outputting the ontology information of the verb and the verb as analyzed by the ontology meaning of the verb and the verb as analyzed through the verb ontology and the verb ontology
Ontology-based Korean semantic analysis system comprising a.
상기 온톨로지 분석부는,
상기 체언의 온톨로지 의미 정보에 대한 상위 온톨로지 정보와 하위 온톨로지 정보의 연관 관계를 형성하여 상기 체언 온톨로지를 구축하는 체언 온톨로지 분석부; 및
상기 용언의 도메인(domain), 레인지(range), 부가어(AJT)의 의미 관계를 의미 정보에 따라 각각의 온톨로지로 구축하여 상기 용언 온톨로지를 형성하는 용언 온톨로지 분석부
를 포함하는 것을 특징으로 하는 온톨로지 기반 한국어 의미 분석 시스템.The method of claim 8,
The ontology analyzer,
A coronation ontology analyzer configured to construct the coronary ontology by forming a correlation between upper ontology information and lower ontology information on the ontology semantic information of the correlator; And
A verb ontology analysis unit for constructing the ontology by constructing semantic relations of domains, ranges, and additional words (AJTs) of the verbs according to semantic information.
Ontology-based Korean semantic analysis system comprising a.
상기 온톨로지 분석부는 상기 분석한 어절 정보에서 상기 체언 또는 상기 용언에 온톨로지 의미 정보가 검색되는 경우, 상기 체언 온톨로지 분석부를 이용하여 상기 체언의 온톨로지 정보를 분석하고, 상기 용언 온톨로지 분석부를 이용하여 상기 용언의 온톨로지 정보를 분석하는 것을 특징으로 하는 온톨로지 기반 한국어 의미 분석 시스템.10. The method of claim 9,
When the ontology semantic information is searched for in the statement or the word from the analyzed word information, the ontology analyzer analyzes the ontology information of the message using the verb ontology analyzer, and uses the verb ontology analyzer to detect the ontology. Ontology-based Korean semantic analysis system, characterized in that to analyze the ontology information.
상기 체언 온톨로지와 상기 용언 온톨로지를 리소스 디스크립션 프레임워크(Rource Description Framework, RDF) 트리플의 집합으로 변환하는 RDF 트리플 변환부; 및
상기 변환한 RDF 트리플 집합을 저장하고 상기 RDF 트리플 집합의 삭제, 갱신, 정렬 및 검색 기능을 제공하는 트리플 리파지토리 시스템
을 더 포함하는 것을 특징으로 하는 온톨로지 기반 한국어 의미 분석 시스템.The method of claim 8,
An RDF triple conversion unit for converting the communication ontology and the verb ontology into a set of Resource Description Framework (RDF) triples; And
A triple repository system for storing the converted RDF triple set and providing functions for deleting, updating, sorting, and searching the RDF triple set.
Ontology-based Korean semantic analysis system, characterized in that it further comprises.
상기 형태소 분석부는,
상기 분석할 한국어 입력 어절의 역순에 따라 분석할 음절이 상기 어미 사전에서 검색될 경우, 조사와 어미를 분석하는 제1 품사 분석 모듈에서 분석하고 상기 어간 사전에서 검색될 경우 체언과 용언을 분석하는 제2 품사 분석 모듈에서 분석하는 품사 분석 모듈; 및
상기 품사 분석 모듈에 의해 분석한 음절에 결합된 좌측 음절을 상기 어간 사전 또는 상기 어미 사전에서 검색하여 검색된 품사를 상기 제1 품사 분석 모듈 또는 상기 제2 품사 분석 모듈을 통해 상기 좌측 음절을 분석하는 품사 결합 정보 분석 모듈
을 포함하는 것을 특징으로 하는 온톨로지 기반 한국어 의미 분석 시스템.The method of claim 8,
The morpheme analysis unit,
The syllable to be analyzed according to the reverse order of the Korean input word to be analyzed is analyzed in the first part-of-speech analysis module analyzing the survey and the ending when the syllable to be analyzed is searched in the ending dictionary, and analyzing the word and the verb when searching in the stem dictionary A part-of-speech analysis module for analyzing in the part-of-speech analysis module; And
A part-of-speech that analyzes the left syllable through the first part-of-speech analysis module or the second part-of-speech analysis module by searching for the left syllable coupled to the syllable analyzed by the part-of-speech analysis module in the stem dictionary or the mother dictionary Join information analysis module
Ontology-based Korean semantic analysis system comprising a.
상기 품사 결합 정보 분석 모듈은 상기 분석할 음절을 제외한 좌측 음절을 상기 어간 사전 또는 상기 어미 사전에서 특정 품사로 검색하고 상기 분석할 음절을 포함한 좌측 음절을 상기 특정 품사를 분석하는 상기 제1 품사 분석 모듈 또는 상기 제2 품사 분석 모듈로 전송하여 형태소 분석하는 것을 특징으로 하는 온톨로지 기반 한국어 의미 분석 시스템.The method of claim 12,
The part-of-speech analysis information analysis module searches for the left syllable except the syllable to be analyzed as a specific part-of-speech in the stem or dictionary and analyzes the specific part-of-speech in the left syllable including the syllable to be analyzed. Or morphological analysis by transmitting to the second part-of-speech analysis module.
상기 품사 분석 모듈은 상기 분석할 음절을 상기 분석할 한국어 입력 어절의 역순에 따라 상기 조사나 어미를 상기 제1 품사 분석 모듈에서 분석한 후, 상기 조사나 어미가 아닌 경우, 상기 체언과 용언을 제2 품사 분석 모듈에서 분석하는 것을 특징으로 하는 온톨로지 기반 한국어 의미 분석 시스템.
The method of claim 12,
The part-of-speech analysis module analyzes the survey or ending in the first part-of-speech analysis module according to the reverse order of the Korean input word to be analyzed, and then, if the survey or ending is not the first part of speech, proclaims and verbs. Ontology-based Korean semantic analysis system characterized in that the analysis in the two parts of speech analysis module.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020100078690A KR101117298B1 (en) | 2010-08-16 | 2010-08-16 | System and method for parsing korean semantic based on ontology |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020100078690A KR101117298B1 (en) | 2010-08-16 | 2010-08-16 | System and method for parsing korean semantic based on ontology |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20120079854A KR20120079854A (en) | 2012-07-16 |
KR101117298B1 true KR101117298B1 (en) | 2012-07-17 |
Family
ID=46715878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020100078690A KR101117298B1 (en) | 2010-08-16 | 2010-08-16 | System and method for parsing korean semantic based on ontology |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101117298B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11657237B2 (en) | 2018-02-22 | 2023-05-23 | Samsung Electronics Co., Ltd. | Electronic device and natural language generation method thereof |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102317358B1 (en) * | 2020-03-06 | 2021-10-25 | 숭실대학교산학협력단 | Method and apparatus for detectign incorrect triple in knowledge graph using embedding model and adaptive clustering |
-
2010
- 2010-08-16 KR KR1020100078690A patent/KR101117298B1/en active IP Right Grant
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11657237B2 (en) | 2018-02-22 | 2023-05-23 | Samsung Electronics Co., Ltd. | Electronic device and natural language generation method thereof |
Also Published As
Publication number | Publication date |
---|---|
KR20120079854A (en) | 2012-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11250842B2 (en) | Multi-dimensional parsing method and system for natural language processing | |
Unger et al. | An introduction to question answering over linked data | |
Nastase et al. | A survey of graphs in natural language processing | |
CN104216913B (en) | Question answering method, system and computer-readable medium | |
AU2019201531B2 (en) | An in-app conversational question answering assistant for product help | |
US8301438B2 (en) | Method for processing natural language questions and apparatus thereof | |
US9965726B1 (en) | Adding to a knowledge base using an ontological analysis of unstructured text | |
Lopez et al. | Cross ontology query answering on the semantic web: an initial evaluation | |
KR101136007B1 (en) | System and method for anaylyzing document sentiment | |
RU2488877C2 (en) | Identification of semantic relations in indirect speech | |
KR20160060247A (en) | System and Method for Question and answer of Natural Language and Paraphrase Module | |
CN103229223A (en) | Providing answers to questions using multiple models to score candidate answers | |
CN103229162A (en) | Providing answers to questions using logical synthesis of candidate answers | |
Kibble | Introduction to natural language processing | |
Nguyen et al. | Ripple down rules for question answering | |
Araujo | Genetic programming for natural language processing | |
Novák | Coreference Resolution System Not Only for Czech. | |
KR101117298B1 (en) | System and method for parsing korean semantic based on ontology | |
Vlachidis et al. | A pilot investigation of information extraction in the semantic annotation of archaeological reports | |
Ali et al. | Unl based bangla natural text conversion-predicate preserving parser approach | |
Williams et al. | Identifying missing dictionary entries with frequency-conserving context models | |
KR101117790B1 (en) | System and Method for Morpheme analysis Using Combination Information of a Part of Speech | |
Diefenbach | Question answering over knowledge bases | |
KR20120037169A (en) | System and method for korean morphological analysis | |
Vlachidis et al. | A method for archaeological and dendrochronological concept annotation using domain knowledge in information extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20150206 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20160204 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20170209 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20180209 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20190211 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20200210 Year of fee payment: 9 |