KR19990053161A - Search Method of Related Verbs for Semantic Information Retrieval - Google Patents

Search Method of Related Verbs for Semantic Information Retrieval Download PDF

Info

Publication number
KR19990053161A
KR19990053161A KR1019970072752A KR19970072752A KR19990053161A KR 19990053161 A KR19990053161 A KR 19990053161A KR 1019970072752 A KR1019970072752 A KR 1019970072752A KR 19970072752 A KR19970072752 A KR 19970072752A KR 19990053161 A KR19990053161 A KR 19990053161A
Authority
KR
South Korea
Prior art keywords
sentence
pattern
verbs
information
noun
Prior art date
Application number
KR1019970072752A
Other languages
Korean (ko)
Inventor
최동시
정경택
서래원
전미선
박세영
Original Assignee
정선종
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 정선종, 한국전자통신연구원 filed Critical 정선종
Priority to KR1019970072752A priority Critical patent/KR19990053161A/en
Publication of KR19990053161A publication Critical patent/KR19990053161A/en

Links

Landscapes

  • Machine Translation (AREA)

Abstract

본 발명은 명사간의 의미애매성 해소에 사용되는 관련동사를 대량의 코퍼스로 부터 자동으로 추출하여 사람의 주관성을 적극 배제할 수 있으며, 신뢰도가 높은 정보를 구축할 수 있는 의미기반 정보검색을 위한 관련동사의 검색 방법에 관한 것이다.The present invention can automatically extract relevant verbs used to resolve semantic ambiguity between nouns from a large amount of corpus to actively exclude human subjectivity, and relate to semantic-based information retrieval that can build highly reliable information. It is about how to search for verbs.

최근 정보검색 분야에서 한글 자연어처리 기술은 형태소 분석과 구문 분석을 통해 품사의 식별과 원형 그리고 문장 내에서의 역할 등을 상당 수준 검출할 수 있게 되었다. 그러나 이러한 문장 자체의 정보만으로는 검색의 정확성과 재현율을 사람이 생각해 낼 수 있는 수준까지 끌어올리기에는 한계가 있다. 또한 이러한 정보는 자연어처리 분야의 응용 시스템에서 명사간의 의미 애매성을 해소하는데 사용하고 있지만(시소러스, 의미망등), 이런 정보를 구축하는데는 많은 문제점을 갖고 있다. 현재까지는 관련동사에 대한 정보를 순전히 사람을 통한 수작업에 의하여 구축하였는데 이는 구축하는 사람의 갖고 있는 일반 상식수준에 상당히 관련된 문제이기 때문에 구축된 정보의 신뢰도는 상당히 낮은 수준이었다.Recently, in the field of information retrieval, Hangeul natural language processing technology has been able to detect the parts of speech and its original form and its role in sentences through morphological analysis and syntax analysis. However, the information of the sentence itself is not enough to raise the accuracy and reproducibility of the search to the level that humans can think of. In addition, this information is used to resolve semantic ambiguity between nouns in application systems in the natural language processing field (thesaurus, semantic network, etc.), but there are many problems in constructing such information. Until now, information on related verbs has been built purely by human hand, which is related to the general level of common sense of the person who builds them.

본 발명은 상술한 문제점을 해소하고자 명사간의 의미애매성 해소에 사용되는 관련동사를 대량의 코퍼스로 부터 자동으로 추출하여 사람의 주관성을 적극 배제하고, 신뢰도가 높은 정보를 구축할 수 있는 관련동사의 검색 방법을 제안한다.In order to solve the above problems, the present invention automatically extracts relevant verbs used to solve semantic ambiguity between nouns from a large amount of corpus to actively exclude subjectivity of a person, and can construct highly reliable information. Suggest a search method.

Description

의미기반 정보검색을 위한 관련동사의 검색 방법Relevant Verb Search Method for Semantic Information Retrieval

본 발명은 명사간의 의미애매성 해소에 사용되는 관련동사를 대량의 코퍼스로 부터 자동으로 추출하여 사람의 주관성을 적극 배제할 수 있으며, 신뢰도가 높은 정보를 구축할 수 있는 의미기반 정보검색을 위한 관련동사의 검색 방법에 관한 것이다.The present invention can automatically extract relevant verbs used to resolve semantic ambiguity between nouns from a large amount of corpus to actively exclude human subjectivity, and relate to semantic-based information retrieval that can build highly reliable information. It is about how to search for verbs.

최근 정보검색 분야에서 한글 자연어처리 기술은 형태소 분석과 구문 분석을 통해 품사의 식별과 원형 그리고 문장 내에서의 역할 등을 상당 수준 검출할 수 있게 되었다. 그러나 이러한 문장 자체의 정보만으로는 검색의 정확성과 재현율을 사람이 생각해 낼 수 있는 수준까지 끌어올리기에는 한계가 있다. 여기서 정보검색의 결과에 가장 큰 영향을 미치는 문장에서의 요소가 명사라는 사실에 비추어볼 때, 검색의 정확성과 재현율을 높이기 위한 명사의 의미확장은 패턴 매칭 위주의 단순 검색의 한계를 극복할 수 있는 중요한 수단이라 볼 수 있다.Recently, in the field of information retrieval, Hangeul natural language processing technology has been able to detect the parts of speech and its original form and its role in sentences through morphological analysis and syntax analysis. However, the information of the sentence itself is not enough to raise the accuracy and reproducibility of the search to the level that humans can think of. In the light of the fact that the elements in the sentence that have the greatest influence on the results of IR, the noun extension to improve the accuracy and reproducibility of the search can overcome the limitations of simple search based on pattern matching. It is an important means.

이와 같이 언어의 특성을 고려하여 살펴볼 때, 특정 의미를 갖는 명사를 기본으로 구성된 문장에서 이 명사와 함께 사용된 동사군 혹은 형용사군들은 서로간의 일정한 규칙을 갖고 있다고 볼 수 있다. 예를 들어 '모자1'('사람의 머리에 쓰는 것)라는 명사를 볼 때 이와 함께 사용될 수 있는 동사들은 '쓰다' 또는 '벗다' 등이 된다. '모자2'(어머니와 아들)라는 명사를 볼 때 같이 쓰이는 동사는 모자간의 사이가 '좋다'라든가 '나쁘다'라든가 하는 종류일 수 있지만, 절대 '쓰다'나 '벗다'와 같은 동사군은 아닐 것이다. 즉, 명사와 동사(동사군, 형용사)간에는 서로간의 의미를 정확히 파악할 수 있는 정보를 갖고 있다.Considering the characteristics of the language as described above, it can be said that the verb group or adjective group used with this noun in a sentence composed of a noun with a specific meaning has a certain rule with each other. For example, such as "Cap 1" ( "verbs that can be used with this when you view a noun that writing to the head of the person) are 'bitter' or 'lay off'. The verb that is used with the noun 'mother 2 ' (mother and son) may be of the kind 'good' or 'bad' between mothers and mothers, but it is never a group of verbs such as 'write' or 'naked'. will be. That is, nouns and verbs (verbs, adjectives) have information that can accurately grasp the meaning of each other.

이러한 정보는 자연어처리 분야의 응용 시스템에서 명사간의 의미 애매성을 해소하는데 사용하고 있다. 이러한 의미기반 정보검색을 위한 관련동사 검색기는 컴퓨터에 저장된 파일, 서고 및 전자도서관에 보관된 문서, 그리고 인터넷 등의 정보들 중에서 원하는 정보를 검색하고자 할 때 발생할 수 있는 언어처리 문제에 사용된다. 특히, 단어간의 모호성을 해소하고자 할 경우에는 사용시 이용되는 의미기반 명사사전 구축에 사용된다.This information is used to resolve semantic ambiguity between nouns in natural language processing system. The related verb searcher for semantic-based information retrieval is used for a language processing problem that may occur when a user wants to search for desired information among files stored in a computer, a document stored in a library and an electronic library, and the Internet. In particular, to resolve ambiguity between words, it is used to construct a semantic dictionary based on semantics.

종래기술도 상기한 문제점을 해결하기 위해 많은 노력을 들여 시소러스나 의미망 등을 구축하여 위와 같은 문제점을 해결하여 왔다. 그러나, 이러한 것들은 주로 사람의 머리와 손을 거쳐 수동으로 작성될 수 밖에 없었다.The prior art has solved the above problems by constructing a thesaurus or semantic network with much effort to solve the above problems. However, these could only be written manually through the human head and hands.

그래서 방대한 단어들에 대한 정보구축은 여러 사람이 작업을 하여야 하고 많은 시간이 소요되었다. 이는 많은 오류 정보를 양산하고 이를 관리하기 위한 노력과 경비가 들 수 밖에 없었다.Therefore, information construction for a large number of words had to be done by many people and was time consuming. This required effort and expense to produce a lot of error information and manage it.

따라서, 본 발명은 상술한 문제점을 해결하기 위해 대량의 코퍼스로 부터 관련동사 자동추출 알고리즘으로 적용하여 자동으로 구축된 명사 사전을 통해 질의어 확장을 하므로서, 검색의 재현률을 높이고 또한 문장 중에 나타나는 단어의 의미 모호성을 해소하는데 그 목적이 있다.Therefore, in order to solve the above-mentioned problems, the present invention expands a query through a noun dictionary automatically constructed by applying a relevant verb automatic extraction algorithm from a large amount of corpus, thereby increasing the reproducibility of the search and the meaning of the word appearing in the sentence. The purpose is to resolve ambiguities.

상술한 목적을 달성하기 위한 본 발명은 문장 및 단어가 입력된 후, 상기 입력된 문장에서 단어를 추출하고, 문장의 끝 여부를 확인하는 제 1 단계와, 상기 확인 결과, 문장의 끝이 아닌 경우에는 단어의 형태소분석 결과를 버퍼에 저장한 후, 해당 명사의 존재 여부를 확인하는 제 2 단계와, 상기 확인 결과, 해당 명사가 존재하지 않을 경우에는 상기 제 1 단계로 복귀하여 문장에서 단어를 추출하고, 해당 명사가 존재할 경우에는 찾음 플래그를 세팅하는 제 3 단계와, 상기 제 1 단계의 확인 결과, 문장의 끝이면 찾음 플래그의 존재 여부를 확인하는 제 4 단계와, 상기 확인 결과, 상기 찾음 플래그가 존재하지 않을 경우에는 종료하고, 상기 찾음 플래그가 존재할 경우에는 형태소 버퍼에서 하나 또는 다수의 후보 어절을 추출한 후, 패턴 1, 패턴 2 및 패턴 3의 패턴인식에 관련되는지 여부를 확인하는 제 5 단계와, 상기 확인 결과, 관련되지 않을 경우에는 상기 제 5 단계로 복귀하여 관련된 패턴이 존재할 때 까지 반복된 동작을 수행하고, 관련된 패턴이 존재할 경우에는 관련동사로 저장한 후, 버퍼의 끝 여부를 확인하는 제 6 단계와, 상기 확인 결과, 버퍼의 끝이면 종료하고, 버퍼의 끝이 아니면 상기 제 5 단계로 복귀하여 상기 형태소 버퍼에서 후보 어절을 추출하는 동작을 반복 실시하는 제 7 단계를 포함하여 이루어진 것을 특징으로 한다.According to an aspect of the present invention, after a sentence and a word are input, a first step of extracting a word from the input sentence and confirming whether the sentence is at the end, and if the result is not the end of the sentence, In the second step of storing the result of the morpheme analysis of the word in the buffer, and confirms the existence of the noun, if the noun does not exist, return to the first step to extract the word from the sentence A third step of setting a found flag when the noun exists; a fourth step of confirming whether a found flag exists at the end of the sentence as a result of the checking of the first step; If is not present, terminate. If there is the found flag, extract one or more candidate words from the stem buffer, and then pattern 1, pattern 2 and pattern 3. A fifth step of checking whether or not it is related to pattern recognition, and if it is not related, returns to the fifth step and performs a repeated operation until there is a related pattern, and if there is a related pattern, Storing the result as a verb, and checking the end of the buffer; and if the end of the buffer is the end of the buffer, returns to the fifth step if the buffer is not the end, and extracts candidate words from the morpheme buffer. And a seventh step of repeating the operation.

도 1은 본 발명에 적용되는 하드웨어 구성도.1 is a hardware configuration diagram applied to the present invention.

도 2는 본 발명에 적용되는 시스템의 모듈 구성도.2 is a module configuration diagram of a system applied to the present invention.

도 3은 본 발명에 따른 관련동사의 검색 방법을 설명하기 위한 동작 흐름도.3 is a flowchart illustrating a method of searching for related verbs according to the present invention;

〈도면의 주요 부분에 대한 부호 설명〉<Description of Signs of Major Parts of Drawings>

11 : 프로세서(Pi(1<= i = n)) 12 : 주기억장치 메모리 영역(Mem)11: Processor (Pi (1 <= i = n)) 12: Main memory memory area (Mem)

13 : 메모리내의 공유 메모리 영역(shared memory area)(SM)13: shared memory area (SM) in memory

14 : 입출력 전용 처리기(IOP) 15 : 보조기억장치(DISK)14: Input / Output Dedicated Processor (IOP) 15: Auxiliary Memory (DISK)

201 : 관련동사 검색기 202 : 코퍼스 검색기201: Related verb searcher 202: Corpus searcher

203 : 형태소 검색기 204 : 사전 구축기203: stemmer searcher 204: dictionary builder

205 : 명사사전 206 : XDBM 인터페이스205: noun dictionary 206: XDBM interface

본 발명에서 필요한 관련동사추출에 대한 일반적인 내용에 대하여 기술하기로 하며, 관련동사에 대한 정의는 다음과 같다.The general content of the related verb extraction required in the present invention will be described, and the definition of the related verb is as follows.

"관련동사란 해당명사와 의미상으로 관련된 용언들을 관련동사라 정의한다. 관련동사는 동사와 형용사의 원형군으로 구성된다.""Relevant verbs are defined as related verbs that are semantically related to the relevant noun. Relevant verbs consist of a prototype group of verbs and adjectives."

관련동사는 해당 명사에 의미상으로 관련된 용언을 일컫는다. 예를 들면 "책을 읽다"라는 문장에서는 '책'에 대한 관련 동사는 '읽다'가 된다. 관련동사의 형태는 다음과 같이 크게 세 가지 패턴으로 생각해볼 수 있다.Related verbs refer to a verb that is semantically related to the noun. For example, in the sentence "read a book," the related verb for "book" becomes "read." The form of related verbs can be thought of as three patterns.

[패턴 1]에 있어서, 일반적으로 비사역문장일 경우에 주어나 목적어를 이루는 명사는 그 문장을 구성하는 동사와 의미적인 관련이 있다고 본다.In [Pattern 1], the nouns that make up the subject or object in the case of non-minist sentences are generally considered to be semantically related to the verbs that constitute the sentence.

예로 "아기가 잔다"는 '아기(해당명사)' - '자다(관련동사)'와, "학생이 책을 읽는다"는 '학생(해당명사)' - '읽다(관련동사)' 및 '책(해당명사)' - '읽다(관련동사)'와 관련이 있다고 본다.For example, "baby sleeps" means "baby (the noun)"-"sleep" (related verb), and "student reads the book" "student (the noun)"-"read (related verb)" and "book." (Corresponding noun) '-' read (related verb) 'is regarded as related.

또한 문장의 형태에 따라 중-동사 또는 목적어-동사 사이의 관련도가 달라진다.In addition, depending on the form of the sentence, the relationship between the middle-verb or the object-verb varies.

예로 "학생이 책을 읽는다"에서는 해당명사 '학생'이 관련 지울 수 있는 동사는 많고, 해당명사 '책'에 관련 지울 수 있는 동사는 상대적으로 적다.For example, in "students read books," there are many verbs that can be related to the noun 'student' and relatively few verbs that can be related to the noun 'book'.

[패턴 2]에 있어서, 사역문(사동문)일 경우에 여격 부사어(동작주)와 목적어를 이루는 명사와 문장의 동사가 실질적인 의미 관계를 갖으며, 문장의 주어는 사역 관계만을 나타낸다.In [Pattern 2], in the case of a ministry sentence, a noun forming a lexical adverb, an action verb, and a verb of a sentence have a practical semantic relationship, and the subject of the sentence represents only a ministry relation.

여격 부사어를 대상으로 하는 사역문일 경우에, "선생이 학생에게 책을 읽혔다(읽게 했다)"의 심층 구조는 선생[+사역][학생이 책을 읽었다]의 문장에서 '학생(해당명사)' - '읽다(관련동사)' 및 '책(해당명사)' - '읽다(관련동사)'가 의미 관계를 갖는다.If the ministry statement that targets dative busaeo on, "the teacher was read a book to a student (he reads)" deep structure of the teachers [+ Ministry] statement [student read a book] statement "students (those in the sentence Noun) '-' read (related verb) 'and' book (the relevant noun) '-' read (related verb) 'has a semantic relationship.

목적어를 대상으로 하는 사역문일 경우에, "철수가 초를 녹이었다"의 심층구조는 철수[+사역]문 [초가 녹았다]문의 문장에서 '초'(해당명사) - '녹다'(관련동사)가 의미 관계를 갖는다.In the case of a ministry statement for an object, the in-depth structure of "Cheol melted candles" is "cho" (noun)-"melt" (related verbs) ) Has a semantic relationship.

[패턴 3]에 있어서, 용언의 어간에 관형형 어미가 붙어 이루어진 관형어와 이 관형어의 수식을 받는 명사는 의미적 관련성을 갖는다. 해당명사를 수식하는 관형어의 원형은 동사 또는 형용사이므로, 이들은 해당명사의 관련동사(associated verbs)가 된다.In [Pattern 3], a tubular word consisting of a tubular ending attached to a stem of a verb and a noun receiving a modification of the tubular word have a semantic relation. Since the prototype of a noun that modifies the noun is a verb or adjective, they become associated verbs.

예로 "많이 읽힌 책"은 "그 책은 많이 읽혔다"로 할 수 있고, '책(해당명사)' - '읽다(관련동사)'가 의미 관계를 갖는다.For example, "a book that has been read a lot" can be called "the book has been read a lot," and a book has a semantic relationship.

위에서 설명된 3 가지의 패턴은 관련동사 자동 추출의 기본 대상이 된다.The three patterns described above are the basis for automatic extraction of related verbs.

이하, 첨부된 도면을 참조하여 본 발명을 상세히 설명하기로 한다.Hereinafter, with reference to the accompanying drawings will be described in detail the present invention.

도 1은 본 발명에 적용되는 하드웨어(hardware) 구성도로서, 작동되는 하드웨어의 환경(environment)을 나타낸다.1 is a hardware configuration diagram applied to the present invention, showing the environment (environment) of the operating hardware.

Pi(1<= i = n)(11)는 프로세서, Mem(12)은 주기억장치 메모리 영역, SM(13)은 메모리내의 공유 메모리 영역(shared memory area), IOP(14)는 입출력 전용 처리기 및 DISK(15)는 보조기억장치인 디스크이다. 이와 같이 본 발명은 단일 프로세서 또는 다중 프로세서와 공유 메모리 영역을 포함하는 일반적인 하드웨어 환경에서 작동이 가능하다.Pi (1 <= i = n) 11 is a processor, Mem 12 is a main memory memory area, SM 13 is a shared memory area in memory, and IOP 14 is an I / O dedicated processor; DISK 15 is a disk which is an auxiliary storage device. As such, the present invention may operate in a general hardware environment including a single processor or multiple processors and a shared memory area.

도 2는 본 발명에 적용되는 시스템의 소프트웨어 모듈을 나타낸 구성도로서, 관련명사 검색기가 적용되는 명사사전 구축기의 구성도를 나타낸다.2 is a configuration diagram showing a software module of the system to which the present invention is applied, and shows a configuration diagram of a noun dictionary builder to which a related noun searcher is applied.

관련동사 검색기(201)는 코퍼스 검색기(202)로부터 문장이 입력되고 형태소 분석기(203)의 도움에 의해 문장으로부터 패턴을 인식하여 사전 구축기(204)를 통하여 명사사전(205)에 등록된 해당명사의 관련동사를 입력한다. 시스템과 코퍼스/사전간의 인터페이스는 XDBM 인터페이스 모듈(206)이 전담한다.The related verb searcher 201 inputs a sentence from the corpus searcher 202 and recognizes a pattern from the sentence with the help of the morphological analyzer 203 and registers the relevant noun registered in the noun dictionary 205 through the dictionary builder 204. Enter the relevant verb. The interface between the system and the corpus / dictionary is dedicated to the XDBM interface module 206.

도 3은 본 발명에 따른 관련동사 검색에 대한 동작 흐름도를 나타낸 것으로서, 입력된 문장으로부터 상술한 해당명사와 관련이 있는 패턴을 인식하여 패턴내의 용언, 즉 동사어나 관형어를 추출하는 것이다.3 is a flowchart illustrating an operation of searching for a related verb according to the present invention, and recognizes a pattern related to the above-mentioned noun from an input sentence and extracts a term, ie a verb or a tubular word, in the pattern.

관련동사 검색기의 동작 흐름도는 크게 2개의 과정으로 볼 수 있다. 첫 번째로, 입력된 문장으로부터 해당 명사가 있는지를 판별하는 과정과, 두 번째로, 만약에 해당명사가 존재한다면 형태소 분석이 모두 끝난 결과로부터 상술한 패턴을 인식하는 과정으로 생각할 수 있다.The operation flowchart of the related verb searcher can be broadly classified into two processes. First, the process of determining whether there is a corresponding noun from the input sentence, and second, if the noun exists, it can be considered as a process of recognizing the above-described pattern from the result of the morphological analysis.

입력된 문장과 단어(해당명사)(301)에서 하나씩의 어절을 문장에서 추출한다(302). 추출된 어절을 형태소분석기의 도움으로 분석한 후, 그 결과를 버퍼에 저장한다(303 및 304). 이 과정은 모든 문장내 어절에 대하여 적용하여 수행한다. 만약에 문장에서 해당명사를 찾으면(305), 이것을 다음 과정에서 알 수 있도록 플래그를 셋팅하여 둔다(306).One word from the input sentence and the word (corresponding noun) 301 is extracted from the sentence (302). The extracted words are analyzed with the help of a morpheme analyzer, and the results are stored in buffers (303 and 304). This process is applied to all words in a sentence. If the relevant noun is found in the sentence (305), the flag is set to be known in the next step (306).

한 문자에 대하여 모든 어절에 대한 형태소분석이 끝난 후, 그리고 해당명사를 찾았을 경우에는(307) 형태소분석결과 버퍼로부터 하나 또는 여러 개의 후보 어절을 추출한다(308). 이 과정은 다음에 수행되는 패턴 인식과정에서 필요한 만큼의 윈도우사이즈(즉, 어절의 개수)를 미리 정의되어 있는 숫자 만큼을 고려하여 진행한다. 추출된 어절이 패턴인식에 의하여 관련 동사로 판명이 되면(309) 이를 관련동사로 저장한다(310). 위와 같은 과정은 형태소분석결과 버퍼에 저장되어 있는 모든 어절에 대하여 수행한다(311).After morphological analysis of all the words for a character, and if the noun is found (307), one or several candidate words are extracted from the morphological analysis buffer (308). This process proceeds by considering the window size (that is, the number of words) as much as a predefined number in the pattern recognition process performed next. When the extracted word is found to be a related verb by pattern recognition (309), it is stored as a related verb (310). The above process is performed for all words stored in the morphological analysis buffer (311).

상술한 바와 같이 본 발명에 의하면 의미기반 정보검색을 위한 관련동사 자동추출 알고리즘에 의해 구축된 관련동사 사전이 다음과 같은 탁월한 효과를 발휘한다.As described above, according to the present invention, the related verb dictionary constructed by the related verb automatic extraction algorithm for semantic-based information retrieval has the following excellent effects.

첫째, 정보검색 시에 사용자가 원하는 문서 등의 정보가 많이 추출되지 않는 경우에는 그 재현률을 높이기 위해 질의어의 확장에 적용하여 사용자에게 보다 많은 정보를 제공할 수 있도록 한다.First, when information such as a document desired by a user is not extracted during information retrieval, it is possible to provide more information to the user by applying to the expansion of a query to increase the reproducibility.

둘째, 자연어 문장을 분석하는 과정에서 발생할 수 있는 다의어 단어의 의미 모호성을 주위에 나타나는 관련동사의 관계를 파악하여 해결 할 수 있도록 한다.Second, the ambiguity of the meaning of the multiword word that can occur in the process of analyzing natural language sentences can be identified and solved.

셋째, 수많은 정보를 분야별로 분류할 수 있는 기본은 각 분야를 대표하는 단어의 집합을 구하는 것이다. 이를 통해 입력되는 문서들이 어느 분야의 정보인지를 구별할 수 있다. 이러한 문서 분류도 관련동사의 정보를 이용하여 해결할 수 있다.Third, the basis for classifying a lot of information by field is to obtain a set of words representing each field. Through this, it is possible to distinguish which field the input documents are. This document classification can also be solved using information from related verbs.

넷째, 매일 제공되는 신문과 같은 정보를 독자에게 제공함에 있어, 독자가 원하는 정보만을 골라 제공할 수 있는 것은 현재 만들어진 정보가 독자가 원하는 정보인지 아닌지를 판단할 수 있는 기술이다. 이를 위해 관련동사를 이용하여 해결할 수 있다.Fourth, in providing the reader with information such as daily newspapers, the reader can select only the desired information and provide the technology to determine whether the currently produced information is the desired information. This can be solved using relevant verbs.

다섯째, 시소러스, 의미망과 같은 의미사전을 구축함에 있어 자동으로 구축할 수 있는 부분을 확장함으로서 기술적으로 진보된 사전구축이 가능해 진다.Fifth, technically advanced dictionary construction is possible by expanding the parts that can be automatically constructed in constructing semantic dictionaries such as thesaurus and semantic networks.

Claims (2)

문장 및 단어가 입력된 후, 상기 입력된 문장에서 단어를 추출하고, 문장의 끝 여부를 확인하는 제 1 단계와,After a sentence and a word are input, extracting a word from the input sentence and checking whether the sentence is at the end; 상기 확인 결과, 문장의 끝이 아닌 경우에는 단어의 형태소분석 결과를 버퍼에 저장한 후, 해당 명사의 존재 여부를 확인하는 제 2 단계와,If the result of the check is not the end of the sentence, storing the result of the morphological analysis of the word in a buffer, and then checking whether the noun exists; 상기 확인 결과, 해당 명사가 존재하지 않을 경우에는 상기 제 1 단계로 복귀하여 문장에서 단어를 추출하고, 해당 명사가 존재할 경우에는 찾음 플래그를 세팅하는 제 3 단계와,A third step of returning to the first step if the noun does not exist, extracting a word from the sentence, and setting the found flag if the noun exists; 상기 제 1 단계의 확인 결과, 문장의 끝이면 찾음 플래그의 존재 여부를 확인하는 제 4 단계와,A fourth step of checking whether a found flag is present at the end of the sentence as a result of the checking of the first step; 상기 확인 결과, 상기 찾음 플래그가 존재하지 않을 경우에는 종료하고, 상기 찾음 플래그가 존재할 경우에는 형태소 버퍼에서 하나 또는 다수의 후보 어절을 추출한 후, 패턴 1, 패턴 2 및 패턴 3의 패턴인식에 관련되는지 여부를 확인하는 제 5 단계와,As a result of the check, if the found flag does not exist, the process is terminated. If the found flag exists, one or more candidate words are extracted from the morpheme buffer, and then the pattern recognition of the pattern 1, pattern 2, and pattern 3 is performed. A fifth step to check whether 상기 확인 결과, 관련되지 않을 경우에는 상기 제 5 단계로 복귀하여 관련된 패턴이 존재할 때 까지 반복된 동작을 수행하고, 관련된 패턴이 존재할 경우에는 관련동사로 저장한 후, 버퍼의 끝 여부를 확인하는 제 6 단계와,If the result of the check is not related, the method returns to the fifth step and performs the repeated operation until the related pattern exists, and if the related pattern exists, stores the related verb, and then confirms whether or not the buffer ends. With six steps, 상기 확인 결과, 버퍼의 끝이면 종료하고, 버퍼의 끝이 아니면 상기 제 5 단계로 복귀하여 상기 형태소 버퍼에서 후보 어절을 추출하는 동작을 반복 실시하는 제 7 단계를 포함하여 이루어진 것을 특징으로 하는 의미기반 정보검색을 위한 관련동사의 검색 방법.And a seventh step of repeating an operation of extracting candidate words from the morpheme buffer by returning to the fifth step if the end of the buffer ends. How to retrieve related verbs for information retrieval. 제 1 항에 있어서, 상기 패턴인식은The method of claim 1, wherein the pattern recognition is 비사역문장일 경우, 주어나 목적어를 이루는 명사는 그 문장을 구성하는 동사와 의미적인 관련이 있다고 보는 패턴 1과,In the case of non-mineral sentences, the nouns that make up the subject or object have a pattern 1 that is considered to be semantically related to the verbs that make up the sentence, 사역문일 경우에 여격 부사어 및 목적어를 이루는 명사와 문장의 동사가 실질적인 의미 관계를 갖으며, 문장의 주어는 사역 관계만을 나타낸다고 보는 패턴 2와,In the case of the ministry sentence, pattern 2, which considers that the nouns that form the marginal adverb and the object and the verb of the sentence have a practical semantic relationship, and the subject of the sentence represents only the ministry relation, 용언의 어간에 관형형 어미가 붙어 이루어진 관형어 및 상기 관형어의 수식을 받는 명사는 의미적 관련성을 갖는다고 보는 패턴 3을 포함하여 구성된 것을 특징으로 하는 의미기반 정보검색을 위한 관련동사의 검색 방법.A method for searching related verbs for semantic-based information retrieval, comprising: a tubular word consisting of a tubular ending attached to a stem of a verb and a noun receiving a modifier of the tubular word, including a pattern 3 which is considered to have a semantic relation.
KR1019970072752A 1997-12-23 1997-12-23 Search Method of Related Verbs for Semantic Information Retrieval KR19990053161A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019970072752A KR19990053161A (en) 1997-12-23 1997-12-23 Search Method of Related Verbs for Semantic Information Retrieval

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019970072752A KR19990053161A (en) 1997-12-23 1997-12-23 Search Method of Related Verbs for Semantic Information Retrieval

Publications (1)

Publication Number Publication Date
KR19990053161A true KR19990053161A (en) 1999-07-15

Family

ID=66099660

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970072752A KR19990053161A (en) 1997-12-23 1997-12-23 Search Method of Related Verbs for Semantic Information Retrieval

Country Status (1)

Country Link
KR (1) KR19990053161A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101029318B1 (en) * 2008-06-03 2011-04-13 포항공과대학교 산학협력단 Automatic construction method and automatic construction system of relations between ontology classes of technical terms using general domain corpus clustering
KR101404644B1 (en) * 2012-01-18 2014-07-01 고려대학교 산학협력단 Apparatus and method for expanding knowledge base
KR20200082559A (en) * 2018-12-31 2020-07-08 경희대학교 산학협력단 Apparatus for korean morphemic analysis and method for the same

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101029318B1 (en) * 2008-06-03 2011-04-13 포항공과대학교 산학협력단 Automatic construction method and automatic construction system of relations between ontology classes of technical terms using general domain corpus clustering
KR101404644B1 (en) * 2012-01-18 2014-07-01 고려대학교 산학협력단 Apparatus and method for expanding knowledge base
KR20200082559A (en) * 2018-12-31 2020-07-08 경희대학교 산학협력단 Apparatus for korean morphemic analysis and method for the same

Similar Documents

Publication Publication Date Title
US7546235B2 (en) Unsupervised learning of paraphrase/translation alternations and selective application thereof
US7584092B2 (en) Unsupervised learning of paraphrase/translation alternations and selective application thereof
US7552046B2 (en) Unsupervised learning of paraphrase/translation alternations and selective application thereof
KR101130444B1 (en) System for identifying paraphrases using machine translation techniques
US6269189B1 (en) Finding selected character strings in text and providing information relating to the selected character strings
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
EP0839357A1 (en) Method and apparatus for automated search and retrieval processing
Sampson et al. Natural language analysis by stochastic optimization: a progress report on Project APRIL
Orliac et al. Collocation extraction for machine translation
Mousa Natural language processing (nlp)
Mahmoud et al. Artificial method for building monolingual plagiarized Arabic corpus
Stamatatos et al. A practical chunker for unrestricted text
Miller et al. A proposal for Lexical Disambiguation
Rao Machine translation: A gentle introduction
KR19990053161A (en) Search Method of Related Verbs for Semantic Information Retrieval
JPS5892063A (en) Idiom processing system
Liu et al. PENS: A machine-aided English writing system for Chinese users
KR950013129B1 (en) Method and apparatus for machine translation
Jaruskulchai An automatic indexing for Thai text retrieval
KR100463376B1 (en) A Translation Engine Apparatus for Translating from Source Language to Target Language and Translation Method thereof
Sankaravelayuthan et al. English to tamil machine translation system using parallel corpus
Vasuki et al. English to Tamil machine translation system using parallel corpus
Henrich et al. LISGrammarChecker: Language Independent Statistical Grammar Checking
Kanitha et al. Issues in Malayalam Text Summarization
Del Gaudio Automatic extraction of definitions

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application