KR101709185B1 - Method and system for building selectional restriction dictionary using sentence pattern of predicate - Google Patents

Method and system for building selectional restriction dictionary using sentence pattern of predicate Download PDF

Info

Publication number
KR101709185B1
KR101709185B1 KR1020140162399A KR20140162399A KR101709185B1 KR 101709185 B1 KR101709185 B1 KR 101709185B1 KR 1020140162399 A KR1020140162399 A KR 1020140162399A KR 20140162399 A KR20140162399 A KR 20140162399A KR 101709185 B1 KR101709185 B1 KR 101709185B1
Authority
KR
South Korea
Prior art keywords
verb
sentence
path
usage
selection constraint
Prior art date
Application number
KR1020140162399A
Other languages
Korean (ko)
Other versions
KR20160060822A (en
Inventor
임수종
김영래
김현기
류법모
배용진
오효정
이충희
이형직
임준호
장명길
최미란
허정
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020140162399A priority Critical patent/KR101709185B1/en
Publication of KR20160060822A publication Critical patent/KR20160060822A/en
Application granted granted Critical
Publication of KR101709185B1 publication Critical patent/KR101709185B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 용언의 문형정보를 이용한 선택 제약 사전 구축 방법 및 시스템을 제공한다. 상기 용언의 문형정보를 이용한 선택 제약 사전 구축 방법은 용언의 문형정보를 획득하는 단계, 상기 획득한 용언의 문형정보에서 용언을 추출하고, 상기 추출된 용언이 포함된 용례 문장을 검색하는 단계, 상기 검색된 용례 문장의 의미를 분석하여 상기 용언과 다른 의미의 용언이 포함된 용례 문장을 필터링하는 단계, 상기 필터링된 용례 문장의 구문을 분석하여 상기 용언과 관련 없는 구성 성분을 필터링하는 단계, 상기 필터링된 용례 문장에서 선택 제약 대상을 선택하고, 어휘 의미망을 이용하여 상기 선택된 선택 제약 대상의 상위 경로를 추출하는 단계 및 상기 추출된 상위 경로들의 비교를 통해 상기 용언에 대한 선택 제약 경로를 설정하고, 상기 설정된 선택 제약 경로를 이용하여 상기 용언에 대한 선택 제약 사전을 구축하는 단계를 포함한다.The present invention provides a method and system for constructing an optional constraint dictionary using sentence type information of a verb. A method for constructing a selection constraint dictionary using sentence type information of a verb, comprising the steps of: obtaining sentence type information of a verb; extracting a verb from the obtained sentence type information; and searching for a use sentence including the extracted verb; Analyzing the meaning of the searched example sentence and filtering a usage sentence including a verb with a different meaning from the verb; analyzing a syntax of the filtered usage sentence to filter the irrelevant constituent components; Selecting a constraint object in a usage sentence, extracting an upper path of the selected constrained object using a lexical meaning network, setting a selection constraint path for the verb through comparison of the extracted upper paths, And constructing a selection constraint dictionary for the verb using the set selection constraint path All.

Description

용언의 문형정보를 이용한 선택 제약 사전 구축 방법 및 시스템 {METHOD AND SYSTEM FOR BUILDING SELECTIONAL RESTRICTION DICTIONARY USING SENTENCE PATTERN OF PREDICATE} BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method and system for constructing a selection constraint dictionary using syntax information of a verb,

본 발명은 용언의 문형정보를 이용한 선택 제약 사전 구축 방법 및 시스템에 관한 것으로서, 보다 상세하게는 문장의 용언과 관련된 정보를 이용하여 문장의 구조와 의미를 파악하기 위한 선택 제약 사전을 구축하는 방법 및 시스템에 관한 것이다.
More particularly, the present invention relates to a method and system for constructing a selection constraint dictionary for understanding the structure and meaning of a sentence using information related to a verb phrase, ≪ / RTI >

자연어 처리 기술은 인간이 사용하는 자연어를 기계적으로 분석하여 컴퓨터가 이해할 수 있는 인공언어 형태로 만드는 기술이다.Natural language processing technology is a technology that mechanically analyzes natural language used by humans and makes it into artificial language form that computer understands.

자연어 처리 기술은 크게 형태소 분석 단계, 구문 분석 단계, 의미 분석 단계, 담화 분석 단계, 단어 및 문장 생성 단계로 구분된다.Natural language processing techniques are divided into morpheme analysis step, syntax analysis step, semantic analysis step, discourse analysis step, word and sentence generation step.

이 중, 구문 분석 단계는 형태소 분석 결과를 기반으로 문장을 이루고 있는 구성 성분을 추출하여 이들 사이의 관계를 분석함으로써 문장의 문법적 구조를 결정하는 단계이다.The parsing step is a step of determining the grammatical structure of the sentence by extracting the constituents constituting the sentence based on the morphological analysis result and analyzing the relation between them.

의미 분석 단계는 문장을 구성하는 단어들의 의미를 구분하고, 문장의 구성 성분들 사이의 의미적 관계를 분석함으로써 문장 전체의 의미를 파악하는 단계이다.The semantic analysis step identifies the meaning of the whole sentence by classifying the meaning of the words composing the sentence and analyzing the semantic relation between the constituents of the sentence.

이러한 구문 분석 단계 및 의미 분석 단계를 위해 필요한 종래의 선택 제약 사전은 언어전문가의 수작업으로 구축하는 방법과 고정된 의미 체계 및 말뭉치를 이용하여 반자동으로 구축하는 방법이 있다.Conventional selection constraint dictionaries required for such a parsing step and a semantic analysis step are a method of manually constructing a linguistic expert and a method of semiautomatically constructing using a fixed semantic system and a corpus.

그러나, 전자의 방법을 이용하는 '세종 전자 사전'은 일곱 계층, 581개의 의미 분류 체계를 모두 수작업으로 구축하여 정확도는 높지만 시간 및 비용 소모가 매우 큰 문제점이 있다(도 1은 '세종 전자 사전'의 의미 분류 체계의 예시를 나타낸다).However, the 'Sejong Electronic Dictionary' using the former method has a problem that the accuracy and the time and cost are very high by constructing manually all the seven hierarchical level and the 581 semantic classification systems (FIG. 1 shows 'Sejong Electronic Dictionary' An example of a semantic classification system).

후자의 방법은 반자동으로 구축하여 작업 효율은 높지만 동사 별로 달라지는 의미의 분류 정도를 결정하기 힘든 문제점이 있다.The latter method is semiautomatically constructed so that the work efficiency is high, but there is a problem that it is difficult to determine the degree of meaning that varies from one company to another.

예컨대, 'X가 Y에 타다'라는 문형의 경우(여기서 '타다'는 '탈것이나 짐승의 등 따위에 몸을 얹다'의 뜻), 말뭉치를 이용하여 자동으로 분석하면 아래와 같다.For example, in the case of a sentence such as 'X takes Y' (where 'Tada' means 'ride on a ride or animal'), the following analysis is made automatically using a corpus.

[고갱[X:사람]은 1865년 견습선원이 되어 상선[Y:교통기관]에 탔으나][Gauguin (X: person) became an apprentice sailor in 1865 and took on merchant ship [Y: Transportation]

이때의 주어 '고갱'은 [사람]이라는 의미 분류로 충분하지만,The subject 'Gauguin' is sufficient for the meaning of [person]

[남자는 여자가 아이를 낳을 수 있게 피했다][The man avoided the woman to have a baby]

이때의 용언 '낳다'에 대한 주어 '여자'는 [사람]이라는 의미 분류보다 세분화된 [여자]라는 의미 계층으로 분류될 필요가 있다.It is necessary to classify 'woman' as a meaning of 'woman', which is more subdivided than the meaning of [person].

즉, 후자의 방법은 용언 별로 의미 분류의 정도를 다르게 설정되어야 하는 문제점을 해결할 수 없고, 의미 분류 체계가 달라질 경우 구축한 정보를 달라진 체계에 맞게 모두 수정해야 하는 문제점이 있다.
That is, the latter method can not solve the problem that the degree of semantic classification should be set differently for each verb, and when the semantic classification system is changed, there is a problem that all the information constructed needs to be modified in accordance with the changed system.

본 발명은 전술한 문제점을 해결하기 위하여, 의미 분류 체계를 고정화하지 않고 한국어의 어휘 의미망을 이용하여 용언 별로 적합한 의미 개념을 자동으로 설정하는 용언의 문형정보를 이용한 선택 제약 사전 구축 방법 및 시스템을 제공하는 것을 목적으로 한다.
In order to solve the above-described problems, the present invention provides a method and system for constructing a selection constraint dictionary using the syntax information of a verb that automatically sets an appropriate notion concept for each verb using a Korean lexical semantic network without fixing the semantic classification system The purpose is to provide.

상술한 목적을 달성하기 위한 본 발명의 일면에 따른 용언의 문형정보를 이용한 선택 제약 사전 구축 방법은, 정보 획득부를 이용하여 용언의 문형정보를 획득하는 단계; 용언 추출부를 이용하여 상기 획득한 용언의 문형정보에서 용언을 추출하는 단계; 필터링부를 이용하여 상기 추출된 용언이 포함된 용례 문장을 검색하고, 상기 검색된 용례 문장의 의미를 분석하여 상기 용언과 다른 의미의 용언이 포함된 용례 문장을 필터링하는 단계; 경로 추출부를 이용하여 상기 필터링된 용례 문장에서 선택 제약 대상을 선택하고, 어휘 의미망을 이용하여 상기 선택된 선택 제약 대상의 상위 경로를 추출하는 단계; 및 사전 구축부를 이용하여 상기 추출된 상위 경로들의 비교를 통해 상기 용언에 대한 선택 제약 경로를 설정하고, 상기 설정된 선택 제약 경로를 이용하여 상기 용언에 대한 선택 제약 사전을 구축하는 단계를 포함할 수 있다. ,
상기 필터링하는 단계는, 상기 필터링된 용례 문장의 구문을 분석하여 상기 용언과 관련 없는 구성 성분을 필터링하는 단계를 더 포함한다.
상기 용례 문장을 필터링하는 단계에서, 용언이 포함된 용례 문장의 검색은 텍스트 빅 데이터를 기반으로 검색한다.
상기 상위 경로를 추출하는 단계에서의 선택 제약 대상은, 상기 필터링되고 남은 문장에서 명사 역할을 하는 구성 성분이다.
상기 선택 제약 사전을 구축하는 단계는, 상기 설정된 선택 제약 경로가 내칭되지 않은 구성 성분이 존재할 경우, 추가적으로 용례문장을 수집하고, 수집된 용례 문장 및 어휘 의미망을 이용하여 선택 제약 경로를 검증하는 단계를 더 포함한다.
한편, 본 발명에 따른 용언의 문형정보를 이용한 선택 제약 사전 구축 시스템은, 용언의 문형정보를 획득하는 정보 획득부; 상기 획득한 용언의 문형정보에서 용언을 추출하는 용언 추출부; 상기 용언 추출부에서 추출된 추출된 용언이 포함된 용례 문장을 검색하고, 상기 검색된 용례 문장의 의미를 분석하여 상기 용언과 다른 의미의 용언이 포함된 용례 문장을 필터링하는 필터링부; 상기 필터링된 용례 문장에서 선택 제약 대상을 선택하고, 어휘 의미망을 이용하여 상기 선택된 선택 제약 대상의 상위 경로를 추출하는 경로 추출부; 및 상기 추출된 상위 경로들의 비교를 통해 상기 용언에 대한 선택 제약 경로를 설정하고, 상기 설정된 선택 제약 경로를 이용하여 상기 용언에 대한 선택 제약 사전을 구축하는 사전 구축부를 포함할 수 있다.
상기 필터링부는, 상기 필터링된 용례 문장의 구문을 분석하여 상기 용언과 관련 없는 구성 성분을 필터링한다.
상기 필터링부에서 용언이 포함된 용례 문장의 검색은 텍스트 빅 데이터를 기반으로 검색한다.
상기 경로 추출부에서의 선택 제약 대상은, 상기 필터링되고 남은 문장에서 명사 역할을 하는 구성 성분이다.
상기 사전 구축부는, 상기 설정된 선택 제약 경로가 내칭되지 않은 구성 성분이 존재할 경우, 추가적으로 용례 문장을 수집하고, 수집된 용례 문장 및 어휘 의미망을 이용하여 선택 제약 경로를 검증한다.
According to an aspect of the present invention, there is provided a method for constructing a selection constraint dictionary using syntax information of a verb, including: obtaining syntax verb information of a verb using an information acquisition unit; Extracting a vernacular from the acquired verb phrase information using the verb extraction unit; Searching for a usage sentence including the extracted verb using the filtering unit, analyzing the meaning of the searched usage sentence, and filtering a usage sentence including a verb having a different meaning from the verb; Selecting a constrained object in the filtered usage sentence using the path extracting unit, and extracting an upper path of the selected constrained object using the lexical semantic network; And setting a selection constraint path for the verb through comparison of the extracted upper paths using the dictionary construction unit and constructing a selection constraint dictionary for the verb using the set selection constraint path . ,
The filtering further includes parsing the filtered usage sentence to filter components that are not related to the spoken word.
In the step of filtering the usage sentence, the retrieval of the usage sentence including the term is performed based on the text big data.
The selection constraint object in the step of extracting the upper path is a constituent element serving as a noun in the filtered and remaining sentence.
The step of constructing the selection constraint dictionary may further include the step of collecting additional usage sentences when the set constraint path has not been denied, and verifying the selection constraint path using the collected usage sentences and the lexical semantic network .
Meanwhile, the selection constraint dictionary construction system using the phrase information of the verb according to the present invention includes an information obtaining unit for obtaining the phrase information of the verb; A vernacular extraction unit for extracting a vernacular form from the acquired sentence type information; A filtering unit for searching for a usage sentence including the extracted pronoun extracted from the spoken word extracting unit and analyzing the meaning of the searched used sentence to filter a usage sentence including a verb with a different meaning from the vernacular; A path extracting unit selecting a selection constraint object in the filtered example sentence and extracting an upper path of the selected constrained object using a lexical semantic network; And a dictionary building unit for setting a selection constraint path for the verb through comparison of the extracted upper paths and constructing a selection constraint dictionary for the verb using the set selection constraint path.
The filtering unit analyzes the syntax of the filtered usage sentence to filter components not related to the spoken language.
The filtering unit searches for a usage sentence including a verb based on the text big data.
The selection constraint object in the path extractor is a constituent element serving as a noun in the filtered and remaining sentence.
If there is a constituent element of which the set constraint path is not set, the dictionary constructor further collects a usage sentence and verifies the selection constraint path using the collected usage sentence and the lexical semantic network.

본 발명에 따르면, 용언의 문형정보를 이용하여 선택 제약 사전을 자동으로 구축함으로써 구축에 필요한 시간과 비용을 절약할 수 있는 이점을 제공한다. 또한, 어휘 의미망 변경에 따라 선택 제약 정보를 재구축하는 번거로움을 해소할 수 있는 이점을 제공한다.
According to the present invention, the selection constraint dictionary is automatically constructed using the phrase information of the verb phrases, thereby providing an advantage that the time and cost required for the construction can be saved. In addition, it is possible to eliminate the hassle of reconstructing the selection constraint information according to the change of the lexical semantic network.

도 1은 종래기술에 따른 세종 전자 사전의 의미 분류 체계의 예시를 나타낸 도면이다.
도 2는 본 발명의 일실시예에 따른 용언의 문형정보를 이용한 선택 제약 사전 구축 방법의 과정을 나타낸 흐름도이다.
도 3은 본 발명의 일실시예에 따른 용언의 문형정보를 이용한 선택 제약 사전 구축 방법을 이용한 선택 제약 사전 구축 시스템의 구성을 나타낸 블록도이다.
1 is a diagram illustrating an example of a semantic classification system of the Sejong electronic dictionary according to the prior art.
2 is a flowchart illustrating a method of constructing a selection constraint dictionary using syntax information of a verb according to an embodiment of the present invention.
FIG. 3 is a block diagram illustrating a configuration of a selection constraint dictionary building system using a selection constraint dictionary building method using sentence type information of a verb according to an embodiment of the present invention.

본 발명의 전술한 목적 및 그 이외의 목적과 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다.BRIEF DESCRIPTION OF THE DRAWINGS The above and other objects, advantages and features of the present invention and methods of achieving them will be apparent from the following detailed description of embodiments thereof taken in conjunction with the accompanying drawings.

그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 발명의 목적, 구성 및 효과를 용이하게 알려주기 위해 제공되는 것일 뿐으로서 본 발명의 권리범위는 청구항의 기재에 의해 정하여진다.The present invention may, however, be embodied in many different forms and should not be construed as being limited to the exemplary embodiments set forth herein. Rather, these embodiments are provided so that this disclosure will be thorough and complete, And advantages of the present invention are set forth in the appended claims.

한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 본 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자에 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가됨을 배제하지 않는다.It is to be understood that the terminology used herein is for the purpose of describing particular embodiments only and is not intended to be limiting of the invention. The singular forms herein include plural forms unless the context clearly dictates otherwise. &Quot; comprises "and / or" comprising ", as used herein, is intended to include the use of one or more other components, steps, operations, and / And does not exclude the presence or addition of a compound.

이하, 본 발명의 따른 실시예를 첨부된 도면을 참조하여 상세하게 설명하도록 한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 2는 본 발명의 일실시예에 따른 용언의 문형정보를 이용한 선택 제약 사전 구축 방법의 과정을 나타낸 흐름도이다.2 is a flowchart illustrating a method of constructing a selection constraint dictionary using syntax information of a verb according to an embodiment of the present invention.

도 2에 도시된 바와 같이, 본 발명의 일실시예에 따른 용언의 문형정보를 이용한 선택 제약 사전 구축 방법은 먼저, 말뭉치에서 용언의 문형정보를 획득한다(S200). 여기서, 말뭉치는 다양한 형태의 문장이 포함된 정보로서, 전자 사전에서 획득한 것일 수 있다.As shown in FIG. 2, a selection constraint dictionary construction method using sentence type information of a verb according to an embodiment of the present invention acquires sentence type information of a verb from a corpus (S200). Here, the corpus may be information obtained by various kinds of sentences included in the electronic dictionary.

예컨대,'탈것이나 짐승의 등 따위에 몸을 얹다'의 의미를 갖는 용언 '타다'에 대한 선택 제약 사전을 구축할 경우, 전자 사전에서 용언 '타다'에 대한 문형정보('~에 타다', '~을 타다' 등)를 획득할 수 있다.For example, when constructing a selection constraint dictionary for a verb "Tada" having the meaning of "putting the body on a ride or animal's back," the sentence information for the verb "Tada" (' 'To ride' etc).

용언의 문형정보가 획득되면, 획득한 용언의 문형정보에서 용언을 추출한다(S210).When the verb form information of the verb is obtained, a verb is extracted from the sentence form information of the verb (S210).

예컨대, 획득한 용언의 문형정보가 '~에 타다', '~을 타다'이면, 여기서 용언 '타다'를 추출할 수 있다.For example, if the sentence type information of the acquired vernacular is 'to ride on' or 'to ride on', the vernacular 'ride' can be extracted here.

용언이 추출되면, 추출된 용언이 포함된 용례 문장을 검색하고(S220), 검색된 용례 문장의 의미를 분석하여 추출된 용언과 다른 의미의 용언이 포함된 용례 문장을 필터링한다(S230).If the vernacular is extracted, the usage sentence including the extracted vernacular is searched (S220), and the meaning of the searched use sentence is analyzed to filter the usage sentence including the verb with a different meaning (S230).

이때, 텍스트 빅데이터를 기반으로 용례 문장 또는 용례 문장의 의미를 검색할 수 있으며, 문장의 의미를 분석하는 기술은 공지된 기술이므로 구체적인 설명은 생략한다.At this time, the meaning of the usage sentence or the usage sentence can be retrieved on the basis of the text big data, and the technique of analyzing the meaning of the sentence is a known technology, so a detailed description will be omitted.

예컨대, 추출된 용언 '타다'가 포함된 용례 문장을 검색한 결과가 하기와 같으며,For example, the result of searching for a usage sentence including the extracted vernacular 'Tada' is as follows,

1. [고갱]은 1865년 견습선원이 되어 [상선]에 탔으나1. [Gauguin] became an apprentice sailor in 1865 and took [Merchant]

2. [숭렬전]은 정유재란 때 [불]에 타서2. [Sungjeongjeon] is in [fire] during the period

용례 문장 1 및 2의 의미를 분석한 결과, 용례 문장 2는 '탈것이나 짐승의 등 따위에 몸을 얹다'의 '타다'와는 다른 의미를 갖는 용언 '타다'가 포함된 용례 문장이므로 필터링될 수 있다.As a result of analyzing the meanings of the examples 1 and 2, the usage sentence 2 can be filtered because it is a usage sentence including a vernacular "Tada" having a meaning different from "Tada" of "putting on the body of a vehicle or animal" have.

검색된 용례 문장들 중에서 다른 의미의 용언이 포함된 용례 문장이 필터링되면, 필터링된 용례 문장의 구문을 분석하여 용례 문장에서 추출된 용언과 관련 없는 구성 성분을 필터링한다(S240).If a usage sentence including a verb with a different meaning is filtered out among the used sentence sentences, the syntax of the filtered usage sentence is analyzed and the constituent components irrelevant to the verb extracted from the usage sentence are filtered (S240).

예컨대, 필터링되고 남은 전술한 용례 문장 1의 구문을 분석한 결과, '1865년', '견습선원이', '되어'는 용언 '타다'와 관계없는 구성 성분들로 판단되면, 이들을 용례 문장에서 필터링할 수 있다.For example, the analysis of the phrase of the above-mentioned example sentence 1 that has been filtered out shows that if the sentence is judged to be constitutional components that are not related to '1865', 'apprentice sailor', ' Can be filtered.

필터링 과정이 완료되면, 필터링된 용례 문장에서 선택 제약 대상을 선택한다(S250). 여기서, 선택 제약 대상은 필터링되고 남은 문장에서 '명사' 역할을 하는 구성 성분일 수 있다.When the filtering process is completed, a selection restriction object is selected in the filtered usage sentence (S250). Here, the selection constraint object may be a component that acts as a 'noun' in the remaining sentences that are filtered.

예컨대, 필터링 과정이 완료된 결과가 하기와 같으면,For example, if the result of the filtering process is as follows,

3. [고갱]은 [상선]에 탔으나3. [Gauguin] got on [Merchant]

4. [그들]이 [차]에 탔다4. [They] are in [the car].

5. [그녀]는 [엘리베이터]에 탔다5. [she] was in [elevator].

6. [모터사이클]에 타는 [안전원]6. [Safety circle] in [Motorcycle]

7. [비행기]에 타다7. Take the airplane

8. [버스]에 타신 [승객]에게8. To [the passenger] on [the bus]

선택되는 선택 제약 대상은 '고갱', '상선', '그들;, '차', '그녀', '엘리베이터', '모터사이클', '안전원', '비행기', '버스', '승객'일 수 있다.The selection constraints to be selected are 'Gogeng', 'Merchant', 'They', 'Cha', 'She', 'Elevator', 'Motorcycle', 'Safety Zone', 'Airplane', 'Bus' ≪ / RTI >

선택 제약 대상이 선택되면, 어휘 의미망을 이용하여 조사 별 선택 제약 대상의 상위 경로를 추출한다(S260). 이때, 어휘의미망은 한국어의 KorLex 또는 UwordMap일 수 있다.If the selection constraint object is selected, the upper path of the selection constraint target for each investigation is extracted using the lexical meaning network (S260). At this time, the vocabulary may be Korean KorLex or UwordMap.

전술한 예에 대해, 조사 '이' 및 '에'에 대해 추출된 상위 경로는 표 1과 같을 수 있다.For the above example, the upper path extracted for the investigation 'a' and 'a' may be as shown in Table 1.

구분division 상위 경로(→)Top path (→) this 그들them 남자man 사람Person 동물animal 생물Creature 그녀she 여자Woman 사람Person 동물animal 생물Creature 안전원Safety circle 사람Person 동물animal 생물Creature 승객passenger 손님customer 이용자user 사람Person 동물animal 생물Creature on car 교통기관Transportation 기계장치Machinery 기계machine 엘리베이터elevator 운반기계Conveying machine 기계장치Machinery 기계machine 모터사이클Motorcycle 자전거bicycle 이륜차garden truck car 교통기관Transportation 기계장치Machinery 기계machine 비행기airplane 항공기aircraft 교통기관Transportation 기계장치Machinery 기계machine 버스Bus 대형자동차Large car 자동차car car 교통기관Transportation 기계장치Machinery 기계machine 앞자리Front 자리Seat place 공간space

상기에 대해서는 조사 '이', '에'에 대해서만 상위 경로를 추출하였으나, 주격 조사 '은, 는, 이, 가'가 포함된 용례 문장이 검색되는 경우, 이에 해당하는 상위 경로 또한 전술한 방법으로 추출될 수 있음은 물론이다.In the above case, the upper path is extracted only for the search 'i' and 'e', but when a usage sentence including ', a, b, a' is searched for, Of course, be extracted.

상위 경로가 추출되면, 추출된 상위 경로 중에서 공통적으로 해당하는 경로를 추출하고, 추출된 공통 경로들을 비교하여 공통 경로들 중에서 길이가 가장 긴 공통 경로를 최종적인 선택 제약 경로로 설정한다(S270).When the upper path is extracted, a common path is extracted from the extracted upper paths, and the extracted common paths are compared to set a common path having the longest common path as the final selection constraint path (S270).

예컨대, 추출된 선택 제약 경로 중에서 조사 '이'에 대한 최종 선택 제약 경로는 '사람→동물→생물'로 결정될 수 있으며, 조사 '에'에 대한 최종 선택 제약 경로는 '교통기관→기계장치→기계'로 설정될 수 있다.For example, in the extracted selection constraint path, the final selection constraint path for the search 'i' may be determined as' person → animal → organism ', and the final selection constraint path for the' '.

이때, '엘리베이터', '앞자리'와 같이 최종 설정된 선택 제약 경로가 매칭되지 않은 구성 성분이 존재할 경우, 추가적으로 용례 문장을 수집하는 단계 및 수집된 용례 문장 및 어휘 의미망을 이용하여 선택 제약 경로를 검증하는 단계를 더 포함할 수 있다.In this case, when there is a component whose matched selection constraint path is not matched such as 'elevator' and 'front edge', the step of collecting additional usage sentences and the step of collecting the used sentence and the lexical meaning network, The method comprising the steps of:

최종적인 선택 제약 경로가 설정되면, 설정된 선택 제약 경로에 대한 정보를 이용하여 선택 제약 사전을 구축하고(S280), 특정 용언의 문형에 해당하는 의미 정보를 사용자에게 제공할 수 있다.When the final selection constraint path is set, the selection constraint dictionary is constructed using the information about the set selection constraint path (S280), and semantic information corresponding to the sentence type of the specific verb can be provided to the user.

도 3은 본 발명의 일실시예에 따른 용언의 문형정보를 이용한 선택 제약 사전 구축 방법을 이용한 선택 제약 사전 구축 시스템의 구성을 나타낸 블록도이다.FIG. 3 is a block diagram illustrating a configuration of a selection constraint dictionary building system using a selection constraint dictionary building method using sentence type information of a verb according to an embodiment of the present invention.

본 발명의 일실시예에 따른 선택 제약 사전 구축 방법을 이용한 선택 제약 사전 구축 시스템(100)은 정보획득부(110), 용언추출부(120), 필터링부(130), 경로추출부(140) 및 사전구축부(150)를 포함한다.The selection constraint dictionary construction system 100 using the selection constraint dictionary construction method according to an embodiment of the present invention includes an information acquisition unit 110, a spoken word extraction unit 120, a filtering unit 130, a path extraction unit 140, And a dictionary construction unit 150. [

정보획득부(110)는 말뭉치에서 용언의 문형정보를 획득하여 획득한 용언의 문형정보에 대한 데이터를 용언추출부(120)로 제공한다. 여기서, 말뭉치는 다양한 형태의 문장이 포함된 정보로서, 정보획득부(110)는 전자 사전(10)에서 용언의 문형정보를 획득할 수 있다.The information obtaining unit 110 obtains the sentence type information of the verb in the corpus and provides the word extracting unit 120 with data on the sentence type information of the verb. Here, the corpus is information including various types of sentences, and the information obtaining unit 110 can obtain the sentence type information of the verb in the electronic dictionary 10.

용언추출부(120)는 정보획득부(110)로부터 용언의 문형정보에 대한 데이터를 제공 받아 획득한 용언의 문형정보에서 용언을 추출하고, 추출된 용언에 대한 데이터를 필터링부(130)로 제공한다.The vernacular extraction unit 120 extracts a verb from the acquired vernacular shape information by receiving the data on the verb form verb information from the information obtaining unit 110 and supplies the extracted verb data to the filtering unit 130 do.

필터링부(130)는 용언추출부(120)로부터 용언에 대한 데이터를 제공 받아 추출된 용언이 포함된 용례 문장을 검색하고, 검색된 용례 문장의 의미를 분석하여 추출된 용언과 다른 의미의 용언이 포함된 용례 문장을 필터링한다.The filtering unit 130 receives the data about the verbal words from the word extracting unit 120, searches the usage sentences including the extracted verbs, analyzes the meaning of the searched usage sentences, and includes a verb with a different meaning from the extracted verb Filtered sentences are used.

이때, 필터링부(130)는 텍스트 빅데이터(20)를 기반으로 용례 문장 또는 용례 문장의 의미를 검색할 수 있으며, 문장의 의미를 분석하는 기술은 공지된 기술이므로 구체적인 설명은 생략한다.At this time, the filtering unit 130 can retrieve the meaning of the usage sentence or the usage sentence based on the text big data 20, and the technique of analyzing the meaning of the sentence is a known technology, and a detailed description thereof will be omitted.

다른 의미의 용언이 포함된 용례 문장이 필터링되면, 필터링부(130)는 필터링된 용례 문장의 구문을 분석하여 용례 문장에서 추출된 용언과 관련 없는 구성 성분을 필터링하고, 필터링된 용례 문장에 대한 데이터를 경로추출부(140)로 제공한다.When a usage sentence including a verb of another meaning is filtered, the filtering unit 130 analyzes the syntax of the filtered usage sentence, filters constituent elements not related to the verb extracted from the usage sentence, To the path extracting unit (140).

경로추출부(140)는 필터링부(130)로부터 필터링된 용례 문장에 대한 데이터를 제공 받아 필터링된 용례 문장에서 선택 제약 대상을 선택한다. 여기서, 선택 제약 대상은 필터링되고 남은 문장에서 '명사' 역할을 하는 구성 성분일 수 있다.The path extracting unit 140 receives the filtered usage sentence data from the filtering unit 130 and selects a selection constrained object from the filtered usage sentence. Here, the selection constraint object may be a component that acts as a 'noun' in the remaining sentences that are filtered.

선택 제약 대상의 선택이 완료되면, 경로추출부(140)는 어휘 의미망(30)을 이용하여 조사 별 선택 제약 대상의 상위 경로를 추출하고, 추출된 선택 제약 대상의 상위 경로에 대한 데이터를 사전구축부(150)로 제공한다. 이때, 어휘의미망은 한국어의 KorLex 또는 UwordMap일 수 있다.When selection of the selection constraint object is completed, the path extracting unit 140 extracts the upper path of the survey-specific selection constraint object using the lexical meaning network 30, And provides it to the building unit 150. At this time, the vocabulary may be Korean KorLex or UwordMap.

사전구축부(150)는 경로추출부(140)로부터 추출된 선택 제약 대사의 상위 경로에 대한 데이터를 제공 받아 추출된 상위 경로 중에서 공통적으로 해당하는 경로를 추출하고, 추출된 공통 경로들을 비교하여 공통 경로들 중에서 길이가 가장 긴 공통 경로를 최종적인 선택 제약 경로로 설정한다.The dictionary construction unit 150 receives the data on the upper path of the selected constraint metabolism extracted from the path extraction unit 140, extracts common paths from the extracted upper paths, compares the extracted common paths, The common path having the longest path among the paths is set as the final selection constraint path.

이때, 최종 설정된 선택 제약 경로가 매칭되지 않은 구성 성분이 존재할 경우, 사전구축부(150)는 추가적으로 용례 문장을 수집하고, 수집된 용례 문장 및 어휘 의미망(30)을 이용하여 선택 제약 경로를 검증할 수 있다.At this time, if there is a component whose matched selection constraint path does not match, the dictionary construction unit 150 further collects usage sentences and verifies the selection constraint path using the collected usage sentences and the lexical semantic network 30 can do.

최종적인 선택 제약 경로가 설정되면, 사전구축부(150)는 설정된 선택 제약 경로에 대한 정보를 이용하여 선택 제약 사전을 구축하고, 특정 용언의 문형에 해당하는 의미 정보를 사용자에게 제공할 수 있다.When the final selection constraint path is set, the dictionary construction unit 150 constructs a selection constraint dictionary using information on the set selection constraint path, and provides semantic information corresponding to the sentence type of the specific verb to the user.

본 발명에 따르면 용언에 대한 선택 제약 정보를 효율적으로 구축할 수 있고, 다양한 목적에 따라 어휘 의미망이 변경되어도 기설정된 선택 제약 정보를 재구축할 필요가 없는 이점을 제공한다.According to the present invention, it is possible to efficiently construct selection constraint information for a spoken word and to provide an advantage that it is not necessary to reconstruct predetermined selection constraint information even if the vocabulary semantic network is changed according to various purposes.

이와 같이, 선택 제약 사전을 자동으로 확장 구축 또는 검증함으로써 구문 구조나 의미역 부착된 문장에 기반한 의미 수준의 텍스트 이해를 통해 자연어 질의 응답(Natural Language Question Answering) 시스템, 텍스트 마이닝(Text Mining) 기술, 의미기반 정보검색(Semantic Based Information Retrieval), 자동번역(Machine Translation) 시스템, 정보추출(Information Extraction)에 중요한 기술로 사용될 수 있다.In this way, the natural language question answering system, the text mining technique, and the text mining technique can be realized by automatically expanding or verifying the selection constraint dictionary to understand the text at the semantic level based on the syntactic structure or semantically attached sentence, It can be used as an important technology for Semantic Based Information Retrieval, Machine Translation system, and Information Extraction.

문장 단위 분석 기술인 구문 분석텍스트 및 의미역 인식 기술의 정확성을 높임으로써 의미 기반 지식 서비스를 활성화하여 전체적인 텍스트 빅데이터의 활용도를 높일 수 있는 이점을 제공한다.By enhancing the accuracy of the sentence unit analysis technique, the parsing text and the semantic recognition technology, the semantic-based knowledge service is activated, thereby providing an advantage of increasing the utilization of the entire text big data.

이상의 설명은 본 발명의 기술적 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적 특성을 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능하다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments, but, on the contrary, is intended to cover various modifications and equivalent arrangements included within the spirit and scope of the invention.

따라서 본 발명에 표현된 실시예들은 본 발명의 기술적 사상을 한정하는 것이 아니라, 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 권리범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 특허청구범위에 의하여 해석되어야 하고 그와 동등하거나 균등한 범위 내에 있는 모든 기술적 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.Therefore, the embodiments of the present invention are not intended to limit the scope of the present invention, and the scope of the present invention is not limited by these embodiments. It is intended that the present invention cover the modifications and variations of this invention provided they come within the scope of the appended claims and their equivalents.

Claims (10)

정보 획득부를 이용하여 용언의 문형정보를 획득하는 단계;
용언 추출부를 이용하여 상기 획득한 용언의 문형정보에서 용언을 추출하는 단계;
필터링부를 이용하여 상기 추출된 용언이 포함된 용례 문장을 검색하고, 상기 검색된 용례 문장의 의미를 분석하여 상기 용언과 다른 의미의 용언이 포함된 용례 문장을 필터링하는 단계;
경로 추출부를 이용하여 상기 필터링된 용례 문장에서 선택 제약 대상을 선택하고, 어휘 의미망을 이용하여 상기 선택된 선택 제약 대상의 상위 경로를 추출하는 단계; 및
사전 구축부를 이용하여 상기 추출된 상위 경로들의 비교를 통해 상기 용언에 대한 선택 제약 경로를 설정하고, 상기 설정된 선택 제약 경로를 이용하여 상기 용언에 대한 선택 제약 사전을 구축하는 단계
를 포함하는 용언의 문형정보를 이용한 선택 제약 사전 구축 방법.
Acquiring sentence type information of a verb using an information acquisition unit;
Extracting a vernacular from the acquired verb phrase information using the verb extraction unit;
Searching for a usage sentence including the extracted verb using the filtering unit, analyzing the meaning of the searched usage sentence, and filtering a usage sentence including a verb having a different meaning from the verb;
Selecting a constrained object in the filtered usage sentence using the path extracting unit, and extracting an upper path of the selected constrained object using the lexical semantic network; And
Setting a selection constraint path for the verb through comparison of the extracted upper paths using a dictionary building unit, and constructing a selection constraint dictionary for the verb using the set selection constrained path
The method comprising the steps of:
제1항에 있어서,
상기 필터링하는 단계는, 상기 필터링된 용례 문장의 구문을 분석하여 상기 용언과 관련 없는 구성 성분을 필터링하는 단계를 더 포함하는 것인 용언의 문형정보를 이용한 선택 제약 사전 구축 방법.
The method according to claim 1,
Wherein the filtering further comprises analyzing a phrase of the filtered example sentence to filter out components not related to the verb phrase.
제1항에 있어서,
상기 용례 문장을 필터링하는 단계에서, 용언이 포함된 용례 문장의 검색은 텍스트 빅 데이터를 기반으로 검색하는 것인 용언의 문형정보를 이용한 선택 제약 사전 구축 방법.
The method according to claim 1,
Wherein the step of filtering the usage sentence includes searching for a usage sentence including a verb based on the text big data.
제1항에 있어서,
상기 상위 경로를 추출하는 단계에서의 선택 제약 대상은, 상기 필터링되고 남은 문장에서 명사 역할을 하는 구성 성분인 것인 용언의 문형정보를 이용한 선택 제약 사전 구축 방법.
The method according to claim 1,
Wherein the selection constraint object in the step of extracting the upper path is a constituent element serving as a noun in the filtered and remaining sentence.
제1항에 있어서,
상기 선택 제약 사전을 구축하는 단계는, 상기 설정된 선택 제약 경로가 내칭되지 않은 구성 성분이 존재할 경우, 추가적으로 용례문장을 수집하고, 수집된 용례 문장 및 어휘 의미망을 이용하여 선택 제약 경로를 검증하는 단계를 더 포함하는 것인 용언의 문형정보를 이용한 선택 제약 사전 구축 방법.
The method according to claim 1,
The step of constructing the selection constraint dictionary may further include the step of collecting additional usage sentences when the set constraint path has not been denied, and verifying the selection constraint path using the collected usage sentences and the lexical semantic network The method further comprising the steps of:
용언의 문형정보를 획득하는 정보 획득부;
상기 획득한 용언의 문형정보에서 용언을 추출하는 용언 추출부;
상기 용언 추출부에서 추출된 추출된 용언이 포함된 용례 문장을 검색하고, 상기 검색된 용례 문장의 의미를 분석하여 상기 용언과 다른 의미의 용언이 포함된 용례 문장을 필터링하는 필터링부;
상기 필터링된 용례 문장에서 선택 제약 대상을 선택하고, 어휘 의미망을 이용하여 상기 선택된 선택 제약 대상의 상위 경로를 추출하는 경로 추출부; 및
상기 추출된 상위 경로들의 비교를 통해 상기 용언에 대한 선택 제약 경로를 설정하고, 상기 설정된 선택 제약 경로를 이용하여 상기 용언에 대한 선택 제약 사전을 구축하는 사전 구축부;
를 포함하는 용언의 문형정보를 이용한 선택 제약 사전 구축 시스템.
An information acquisition unit for acquiring sentence type information of a vernacular;
A vernacular extraction unit for extracting a vernacular form from the acquired sentence type information;
A filtering unit for searching for a usage sentence including the extracted pronoun extracted from the spoken word extracting unit and analyzing the meaning of the searched used sentence to filter a usage sentence including a verb with a different meaning from the vernacular;
A path extracting unit selecting a selection constraint object in the filtered example sentence and extracting an upper path of the selected constrained object using a lexical semantic network; And
A dictionary building unit for setting a selection constraint path for the verb through comparison of the extracted upper paths and constructing a selection constraint dictionary for the verb using the set selection constraint path;
A selection constraint dictionary construction system using the phrase information of a vernacular dictionary.
제6항에 있어서,
상기 필터링부는, 상기 필터링된 용례 문장의 구문을 분석하여 상기 용언과 관련 없는 구성 성분을 필터링하는 것인 용언의 문형정보를 이용한 선택 제약 사전 구축 시스템.
The method according to claim 6,
Wherein the filtering unit analyzes the syntax of the filtered example sentence and filters the component not related to the spoken word.
제6항에 있어서,
상기 필터링부에서 용언이 포함된 용례 문장의 검색은 텍스트 빅 데이터를 기반으로 검색하는 것인 용언의 문형정보를 이용한 선택 제약 사전 구축 시스템.
The method according to claim 6,
Wherein the filtering unit searches the usable sentence including the verbal word based on the text big data.
제6항에 있어서,
상기 경로 추출부에서의 선택 제약 대상은, 상기 필터링되고 남은 문장에서 명사 역할을 하는 구성 성분인 것인 용언의 문형정보를 이용한 선택 제약 사전 구축 시스템.
The method according to claim 6,
Wherein the selection constraint object in the path extracting unit is a constituent element serving as a noun in the filtered remaining sentence.
제6항에 있어서,
상기 사전 구축부는, 상기 설정된 선택 제약 경로가 내칭되지 않은 구성 성분이 존재할 경우, 추가적으로 용례 문장을 수집하고, 수집된 용례 문장 및 어휘 의미망을 이용하여 선택 제약 경로를 검증하는 것인 용언의 문형정보를 이용한 선택 제약 사전 구축 시스템.

The method according to claim 6,
Wherein the dictionary construction unit further collects usage sentences and verifies the selection constraint path using the collected usage sentence and lexical semantic network when the set selection constraint path includes non-denominated components, A selection constraint dictionary construction system using.

KR1020140162399A 2014-11-20 2014-11-20 Method and system for building selectional restriction dictionary using sentence pattern of predicate KR101709185B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140162399A KR101709185B1 (en) 2014-11-20 2014-11-20 Method and system for building selectional restriction dictionary using sentence pattern of predicate

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140162399A KR101709185B1 (en) 2014-11-20 2014-11-20 Method and system for building selectional restriction dictionary using sentence pattern of predicate

Publications (2)

Publication Number Publication Date
KR20160060822A KR20160060822A (en) 2016-05-31
KR101709185B1 true KR101709185B1 (en) 2017-02-23

Family

ID=56098841

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140162399A KR101709185B1 (en) 2014-11-20 2014-11-20 Method and system for building selectional restriction dictionary using sentence pattern of predicate

Country Status (1)

Country Link
KR (1) KR101709185B1 (en)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100413966B1 (en) * 2000-12-18 2004-01-07 한국전자통신연구원 Natural Language Analyzing Apparatus and Method for Controlled Korean Grammar
KR20080019948A (en) * 2006-08-29 2008-03-05 울산대학교 산학협력단 Method for construction of lexical concept network based on lexicon and concept network using the same
KR100912501B1 (en) * 2007-08-09 2009-08-17 한국전자통신연구원 Method and apparatus for constructing translation knowledge
KR20150082783A (en) * 2014-01-08 2015-07-16 한국전자통신연구원 Semantic Frame Operating Method Based on Text Big-data and Electronic Device supporting the same

Also Published As

Publication number Publication date
KR20160060822A (en) 2016-05-31

Similar Documents

Publication Publication Date Title
Baldwin et al. Extracting the unextractable: A case study on verb-particles
Faure et al. First experiments of using semantic knowledge learned by ASIUM for information extraction task using INTEX
US20160140958A1 (en) Natural language question answering system and method, and paraphrase module
US8375033B2 (en) Information retrieval through identification of prominent notions
CN105320644B (en) A kind of rule-based automatic Chinese syntactic analysis method
Vincze et al. Dependency parsing for identifying Hungarian light verb constructions
CN102654866A (en) Method and device for establishing example sentence index and method and device for indexing example sentences
CN105320650A (en) Machine translation method and system
CN109271492A (en) A kind of automatic generation method and system of corpus regular expression
Arnold et al. Automatic extraction of semantic relations from wikipedia
Adesam et al. bokstaffua, bokstaffwa, bokstafwa, bokstaua, bokstawa... Towards lexical link-up for a corpus of Old Swedish.
Messiant A subcategorization acquisition system for French verbs
KR101709185B1 (en) Method and system for building selectional restriction dictionary using sentence pattern of predicate
KR101757222B1 (en) Paraphrase sentence generation method for a korean language sentence
KR20200073524A (en) Apparatus and method for extracting key-phrase from patent documents
KR101400548B1 (en) An automatic device for training and classifying documents based on N-gram statistics and An automatic method for training and classifying documents based on N-gram statistics therefor
KR101409298B1 (en) Method of re-preparing lexico-semantic-pattern for korean syntax recognizer
KR20160128645A (en) Method for integrating the different types of vocabulary network
KR100513161B1 (en) Device and Method of Word Sense Disambiguation for Korean Complex Noun Phrase for Target Word Generation
WO2010067142A1 (en) A method using contextual analysis, semantic analysis and artificial intelligence in text search engines
Frank et al. Evaluating models of syntactic category acquisition without using a gold standard
CN111814025A (en) Viewpoint extraction method and device
Sánchez-Cartagena et al. Choosing the correct paradigm for unknown words in rule-based machine translation systems
Girju Out-of-context noun phrase semantic interpretation with cross-linguistic evidence
KR101117790B1 (en) System and Method for Morpheme analysis Using Combination Information of a Part of Speech

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20200128

Year of fee payment: 4