KR100917176B1 - Method and apparatus for automatically constructing ontology from non-structure web documents - Google Patents

Method and apparatus for automatically constructing ontology from non-structure web documents Download PDF

Info

Publication number
KR100917176B1
KR100917176B1 KR1020070118084A KR20070118084A KR100917176B1 KR 100917176 B1 KR100917176 B1 KR 100917176B1 KR 1020070118084 A KR1020070118084 A KR 1020070118084A KR 20070118084 A KR20070118084 A KR 20070118084A KR 100917176 B1 KR100917176 B1 KR 100917176B1
Authority
KR
South Korea
Prior art keywords
relationship
ontology
concepts
detailed
extracting
Prior art date
Application number
KR1020070118084A
Other languages
Korean (ko)
Other versions
KR20090051612A (en
Inventor
김석환
이근배
노형종
Original Assignee
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포항공과대학교 산학협력단 filed Critical 포항공과대학교 산학협력단
Priority to KR1020070118084A priority Critical patent/KR100917176B1/en
Publication of KR20090051612A publication Critical patent/KR20090051612A/en
Application granted granted Critical
Publication of KR100917176B1 publication Critical patent/KR100917176B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 비구조 웹문서로부터 다수의 개념 간의 관계를 추출하여 온톨로지를 자동으로 구축하기 위한 방법 및 그 장치에 관한 것으로써, 보다 상세하게는 인터넷 상에 존재하는 비구조 웹문서 및 데이터베이스의 다양한 정보로부터 패턴 자동 학습 및 패턴 자동 확장 방법을 통해 다수의 개념 간의 관계로 구성된 온톨로지의 인스턴스를 자동 추출함으로써 온톨로지를 구축 및 관리하기 위해 필요한 비용을 줄이며, 온톨로지 구축을 위한 정보 추출 성능을 지속적으로 향상시킬 수 있는 온톨로지 자동 구축 방법 및 그 장치에 관한 것이다.The present invention relates to a method and apparatus for automatically constructing an ontology by extracting a relationship between a plurality of concepts from an unstructured web document, and more particularly, to various information of an unstructured web document and a database existing on the Internet. By automatically extracting instances of ontology consisting of relationships among multiple concepts through pattern auto-learning and pattern auto-expansion, the cost of constructing and managing ontology can be reduced and the information extraction performance for ontology can be continuously improved. An ontology automatic construction method and apparatus therefor.

온톨로지, 관계 추출 Ontology, Relationship Extraction

Description

비구조 웹문서로부터 온톨로지를 자동으로 구축하기 위한 방법 및 장치{Method and apparatus for automatically constructing ontology from non-structure web documents}Method and apparatus for automatically constructing ontology from non-structure web documents

본 발명은 비구조 웹문서로부터 다수의 개념 간의 관계를 추출하여 온톨로지를 자동으로 구축하기 위한 방법 및 장치에 관한 것으로써, 보다 상세하게는 인터넷 상에 존재하는 비구조 웹문서 및 데이터베이스의 다양한 정보로부터 패턴 자동 학습 및 패턴 자동 확장 방법을 통해 다수의 개념 간의 관계로 구성된 온톨로지의 인스턴스를 자동 추출할 수 있는 방법 및 그 장치에 관한 것이다.The present invention relates to a method and apparatus for automatically constructing an ontology by extracting a relationship between a plurality of concepts from an unstructured web document, and more specifically, from various information of an unstructured web document and a database existing on the Internet. The present invention relates to a method and apparatus for automatically extracting an instance of an ontology composed of a relationship between a plurality of concepts through a pattern automatic learning method and a pattern automatic extension method.

인터넷의 발달과 보급으로 인터넷 상의 정보는 기하급수적인 양적 팽창을 이루었다. 하지만 급격히 증가한 정보의 양으로 인해 정보 과잉 현상이 야기되었고, 사람이 직접 원하는 정보를 얻는 데에도 한계가 생겼으며, 컴퓨터를 이용한 인터넷 상의 대용량의 정보 처리의 필요성이 대두되었다. 그러나 기존의 인터넷 상에 존재하는 대부분의 정보들은 주로 사람들이 이해하기 용이한 자연어의 형태로 구성되어 있으며, 컴퓨터가 이해하고 처리하는 데에는 한계가 있었다. 이에 대한 해결책으로 인터넷 상의 정보에 컴퓨터가 이해하고 처리하기 용이한 체계화된 의미를 부여하는 시맨틱 웹이 제안되었다. With the development and dissemination of the Internet, the information on the Internet has exponentially expanded in quantity. However, due to the rapidly increasing amount of information, information overcapacity has arisen, there is a limit in obtaining information desired by human beings, and the necessity of processing a large amount of information on the Internet using a computer has emerged. However, most of the existing information on the Internet is mainly composed of natural language that is easy for people to understand, and there is a limit to the computer's understanding and processing. As a solution, a semantic web has been proposed that gives a systematic meaning to information on the Internet that computers can easily understand and process.

시맨틱 웹은 현재의 웹에 주제, 술어, 객체 등으로 구성된 메타데이터를 부여함으로써 온톨로지를 구성한다. 그러나 온톨로지 구성을 위한 메타데이터 구축 작업도 사람이 직접 하기에는 한계가 있으며, 이를 위한 온톨로지 자동 구축 방법이 개발되었다. The semantic web constructs ontology by giving metadata of the subject, predicate, object, etc. to the current web. However, there is a limit to constructing metadata for ontology construction by humans, and an ontology automatic construction method has been developed.

온톨로지를 구성하는 메타데이터는 자연어로 구성된 문서로부터 주제와 객체로 표현되는 두 개 이상의 개념과 그 개념들 간의 술어로 표현되는 관계를 찾는 정보 추출 방법으로 자동 구축할 수 있다. 자연어로부터 정보를 추출하는 방법은 한정된 도메인에 대한 지식을 갖춘 전문가가 대상 도메인에 대한 각종 언어 자원 및 규칙을 생성하고 이를 이용해 개념 및 관계를 추출하는 규칙 기반의 방법이 있으며, 이 방법에 대한 종래의 기술로는 대한민국 특허등록번호 10-0729103호를 들 수 있다. 상기 대한민국 특허등록번호 10-0729103호는 비구조 웹문서로부터 정보 추출을 위해 전문가에 의해 구성된 래퍼(WRAPPER)를 활용한다. 또 다른 방법으로는 대용량의 문헌 학습 코퍼스(corpus)를 구축하고 이에 대해 기계학습 알고리즘을 적용해 정보를 추출하는 통계 기반의 방법이 있다. Metadata constituting the ontology can be automatically constructed by an information extraction method that finds two or more concepts represented by subjects and objects and relations expressed by predicates between the concepts from natural language documents. The method of extracting information from natural language includes a rule-based method in which an expert with limited domain knowledge creates various language resources and rules for a target domain and extracts concepts and relationships using the same. The technology may include Korean Patent Registration No. 10-0729103. The Republic of Korea Patent Registration No. 10-0729103 utilizes a wrapper (WRAPPER) configured by experts for extracting information from unstructured web documents. Another method is a statistical-based method for constructing a large-scale literature learning corpus and applying machine learning algorithms to extract information.

그러나 상기와 같은 종래의 방법은 정보 추출을 위한 규칙 생성이나 코퍼스 구축에 많은 비용이 소요되고, 한정된 어휘 자원의 사용으로 인한 대상 도메인의 한정성을 개선하기 힘들다는 문제점이 있다. However, the conventional method has a problem in that it is expensive to generate a rule or extract a corpus for information extraction, and it is difficult to improve the limitation of the target domain due to the use of limited vocabulary resources.

상기한 종래 기술의 제반 문제점을 해결하기 위해 정보 추출을 위한 구문 관계 규칙을 자동으로 학습하고 확장하는 기술이 개발되었으며, 이 방법에 대한 종래 의 기술로는 대한민국 특허공개번호 10-2006-0122276호가 있다. 상기 대한민국 특허공개번호 10-2006-0122276호는 기호적인 방법과 통계적인 방법을 통합한 하이브리드식 접근방법으로 정보를 추출하고 있으며, 이 중 기호적인 방법에서는 두 개의 개념 간의 관계 예시 정보(seed)로부터 구문패턴 정보를 자동으로 추출하고 확장하고, 이 구문패턴 정보를 이용하여 정보를 추출한다. In order to solve the above problems of the prior art, a technology for automatically learning and expanding syntax relation rules for information extraction has been developed. The conventional technology for this method is Korean Patent Publication No. 10-2006-0122276. . The Korean Patent Publication No. 10-2006-0122276 extracts information by a hybrid approach incorporating a symbolic method and a statistical method, and in the symbolic method, from the example information (seed) of the relationship between two concepts. Automatically extract and expand syntax pattern information, and extract information using this syntax pattern information.

그러나 상기와 같은 종래의 방법은 관계 예시 정보 구축에 많은 비용이 소요된다. 또한 두 개의 개념 간의 관계 추출만을 대상으로 하고 있기 때문에, 세 개 이상의 개념 간의 관계에 대한 동시 추출이 불가능하며, 두 개의 개념 간의 관계 추출 결과들을 조합하여 세 개 이상의 개념 간의 관계를 구성하는 방법이 제시되지 않고 있다. However, such a conventional method is expensive to construct the relationship example information. In addition, since only the relation extraction between two concepts is targeted, it is impossible to simultaneously extract the relation between three or more concepts. It is not.

본 발명은 상기한 종래기술의 제반 문제점을 해결하기 위하여 연구를 행하고, 그 결과에 근거하여 제안하게 된 것으로써, 본 발명은 비구조 웹문서로부터 다수의 개념 간의 관계를 추출하여 온톨로지를 자동으로 구축하기 위한 방법 및 장치를 제공하는 것을 목적으로 한다. The present invention has been conducted in order to solve the above problems of the prior art, and based on the results, the present invention extracts a relationship between a plurality of concepts from an unstructured web document and automatically constructs an ontology. It is an object of the present invention to provide a method and apparatus for doing so.

보다 구체적으로, 본 발명은 인터넷 상에 존재하는 비구조 웹문서 및 데이터베이스의 다양한 정보로부터 패턴 자동 학습 및 패턴 자동 확장 방법을 통해 다수의 개념 간의 관계로 구성된 정보를 자동 추출함으로써, 온톨로지 구축을 위한 비용을 줄이고 온톨로지를 구성하기 위한 정보 추출 성능을 향상시킬 수 있는 온톨로지 인스턴스 자동 구축 방법 및 장치를 제공하는 것을 목적으로 한다.More specifically, the present invention provides a cost for ontology construction by automatically extracting information composed of a plurality of concepts through pattern automatic learning and pattern automatic expansion method from various information of unstructured web documents and databases existing on the Internet. It is an object of the present invention to provide a method and apparatus for automatically constructing an ontology instance that can reduce information and improve information extraction performance for constructing an ontology.

본 발명은 비구조 웹문서 및 데이터베이스의 다양한 정보로부터 온톨로지 인스턴스를 자동으로 구축하는 방법에 있어서, 대상 도메인의 비구조 웹 문서를 수집하는 단계; 추출 대상 온톨로지를 구성하는 다수의 개념 간의 관계 예제를 수집하는 단계; 상기 수집된 다수의 개념 간의 관계 예제로부터 의미를 갖는 세부 단위의 관계 예제들을 생성하는 단계; 상기 생성된 세부 단위의 관계 예제들을 상기 수집된 비구조 웹문서에 적용하여 세부 관계 패턴을 추출하는 단계; 상기 생성된 세부 단위의 관계 패턴들을 상기 수집된 비구조 웹문서에 적용하여 세부 관계 후보를 추출하는 단계; 상기 추출된 세부 관계 후보들로부터 병합된 관계 후보를 생성하는 단계; 상기 생성된 관계 후보들을 사용자 또는 통계적으로 검증하는 단계; 추출 과정의 반복이 필요한 경우 상기 검증을 거친 관계 후보들을 관계 예제에 추가하여 상기 기술된 일련의 과정을 반복하는 단계; 및 추출 과정의 반복이 필요하지 않은 경우 상기 검증을 거친 관계 후보들로부터 온톨로지 인스턴스를 생성하는 단계를 포함하여 구성되는 비구조 웹문서로부터 다수의 개념 간의 관계를 추출하여 온톨로지를 자동으로 구축하기 위한 방법에 관한 것이다. The present invention provides a method for automatically constructing an ontology instance from various information of an unstructured web document and a database, the method comprising: collecting an unstructured web document of a target domain; Collecting an example of the relationship between a plurality of concepts constituting the ontology to be extracted; Generating relationship examples of meaningful units having meanings from the relationship examples among the collected plurality of concepts; Extracting a detailed relationship pattern by applying the generated relationship examples of the detailed unit to the collected unstructured web document; Extracting a detailed relationship candidate by applying the generated relationship patterns of the detailed unit to the collected unstructured web document; Generating a merged relationship candidate from the extracted detailed relationship candidates; User or statistically verifying the generated relationship candidates; Repeating the above described series of processes by adding the validated relationship candidates to the relationship example when the extraction process needs to be repeated; And generating ontology instances from the verified relationship candidates when repetition of the extraction process is not necessary. The method for automatically constructing an ontology by extracting a relationship between a plurality of concepts from an unstructured web document. It is about.

또한, 본 발명은 비구조 웹문서로부터 다수의 개념 간의 관계를 추출하여 온톨로지를 자동으로 구축하기 위한 장치에 있어서, 정보 추출 대상 도메인의 비구조 웹 문서를 수집하는 웹 문서 수집부; 데이터베이스나 기존의 온톨로지 인스턴스 등의 다양한 정보로부터 대상 온톨로지를 구성하는 다수의 개념 간의 관계 예제를 수집하는 관계 예제 수집부; 상기 수집된 웹 문서와 관계 예제로부터 관계 후보를 추출하는 관계 추출부; 상기 추출된 관계 후보를 검증하는 관계 검증부; 및 상기 검증된 관계 후보로부터 온톨로지 인스턴스를 생성하는 온톨로지 생성부를 포함하여 구성되는 비구조 웹문서로부터 다수의 개념 간의 관계를 추출하여 온톨로지를 자동으로 구축하기 위한 장치에 관한 것이다. The present invention also provides an apparatus for automatically constructing an ontology by extracting a relationship between a plurality of concepts from an unstructured web document, the apparatus comprising: a web document collecting unit for collecting an unstructured web document of an information extraction target domain; A relationship example collector for collecting a relationship example between a plurality of concepts constituting a target ontology from various information such as a database or an existing ontology instance; A relationship extraction unit for extracting a relationship candidate from the collected web document and relationship example; A relationship verification unit that verifies the extracted relationship candidate; And an ontology generator that generates an ontology instance from the verified relationship candidate, and relates to an apparatus for automatically constructing an ontology by extracting a relationship between a plurality of concepts from an unstructured web document.

상기 비구조 웹문서로부터 다수의 개념 간의 관계를 추출하여 온톨로지를 자동으로 구축하기 위한 장치에 있어서, 웹 문서와 관계 예제로부터 관계 후보를 추출하는 관계 추출부는 보다 상세하게는 다수의 개념 간의 관계로 구성된 관계 예제로부터 보다 적은 수의 개념 간의 조합으로 구성된 세부 관계를 생성하는 세부 관계 예제 생성부; 상기 생성된 세부 관계 예제들을 웹 문서에 적용함으로써 세부 관 계에 대한 구문 패턴을 추출하는 세부 관계 패턴 추출부; 상기 추출된 세부 관계에 대한 구문 패턴들을 웹 문서에 적용함으로써 세부 관계를 갖는 개념 조합들의 후보를 추출하는 세부 관계 후보 추출부; 및 상기 추출된 세부 관계 후보들을 병합하여 통합 관계 후보를 생성하는 세부 관계 후보 병합부를 포함한다.An apparatus for automatically constructing an ontology by extracting a relationship between a plurality of concepts from the unstructured web document, wherein the relationship extracting unit for extracting a relationship candidate from a web document and a relationship example is more specifically configured as a relationship between a plurality of concepts. A detailed relationship example generator for generating a detailed relationship consisting of a combination of fewer concepts from the relationship examples; A detail relationship pattern extracting unit extracting a syntax pattern for a detailed relationship by applying the generated detailed relationship examples to a web document; A detail relationship candidate extracting unit extracting candidates of concept combinations having a detailed relationship by applying the syntax patterns of the extracted detailed relationship to a web document; And a detail relationship candidate merging unit for merging the extracted detail relationship candidates to generate an integrated relationship candidate.

상술한 바와 같이, 본 발명은 비구조 웹문서로부터 다수의 개념 간의 관계를 추출하여 온톨로지를 자동으로 구축하는데 있어서 기존에 구축된 온톨로지나 관계형 데이터베이스 정보에 기반하여 구문 패턴을 자동 추출하고 자동으로 확장하는 방법을 사용함으로써 온톨로지를 구축 및 관리하기 위해 필요한 비용을 줄이며, 온톨로지 구축을 위한 정보 추출 성능을 지속적으로 향상시킬 수 있는 온톨로지 자동 구축 방법 및 장치를 제공할 수 있는 효과가 있다.As described above, the present invention is to automatically extract and automatically expand syntax patterns based on existing ontology or relational database information in automatically constructing ontology by extracting relationships between a plurality of concepts from unstructured web documents. By using the method, it is possible to reduce the cost required to construct and manage the ontology, and to provide an ontology automatic construction method and apparatus that can continuously improve information extraction performance for ontology construction.

이하, 첨부된 도면을 참조하여 본 발명을 보다 상세히 설명한다. Hereinafter, with reference to the accompanying drawings will be described the present invention in more detail.

본 발명의 온톨로지 자동 구축 방법에 의하여, 비구조 웹문서로부터 다수의 개념 간의 관계를 추출하여 온톨로지를 자동으로 구축하기 위해서는, 우선, 도 1에 나타난 바와 같이, 구축하고자 하는 온톨로지와 관련된 도메인의 웹 문서를 수집해야 한다 (단계 001). In order to automatically construct the ontology by extracting a relationship between a plurality of concepts from an unstructured web document by the ontology automatic construction method of the present invention, first, as shown in FIG. 1, the web document of the domain associated with the ontology to be constructed Should be collected (step 001).

여기서 수집 대상 문서는 온톨로지 스키마에 정의된 개념들과 개념들 간의 관계의 형태로 전환 가능한 정보를 자연어 형태로 표현하고 있는 비구조 웹 문서를 포함한다. Here, the collected document includes a non-structured web document that expresses information that can be converted into a concept defined in the ontology schema and a relationship between the concepts in a natural language form.

본 발명의 정보 추출 방법은 주어진 관계 예제(seed)로부터 해당 관계를 표현하는 구문 패턴을 자동으로 학습 및 확장하는 방법에 기반한다. 그러므로 추출 대상 온톨로지 스키마에 적합한 관계 예제를 수집한다 (단계 002). The information extraction method of the present invention is based on a method for automatically learning and extending a syntax pattern representing a corresponding relationship from a given relationship example. Therefore, a relationship example suitable for the ontology schema to be extracted is collected (step 002).

여기서 관계 예제는 2개 이상의 개념 간의 관계를 표현하는 다수의 개념들의 집합으로써, 기존에 구축된 해당 온톨로지의 인스턴스나 관계형 데이터베이스의 인스턴스로부터 수집한다. 본 방법은 2개의 개념 간의 관계 뿐만 아니라 3개 이상의 다수의 개념으로 구성된 관계를 동시에 추출함으로써 다수의 속성으로 구성된 관계형 데이터베이스나 온톨로지 인스턴스를 관계 예제로 사용할 수 있다. Here, a relationship example is a collection of a plurality of concepts representing a relationship between two or more concepts, and is collected from an instance of the ontology or an instance of a relational database that has been built. The method can extract relations composed of three or more concepts as well as relationships between two concepts simultaneously, so that a relational database or ontology instance composed of multiple attributes can be used as a relationship example.

상기 수집된 관계 예제로부터 의미를 갖는 세부 단위의 관계 예제들을 생성한다 (단계 003). From the relationship examples collected, relationship examples of meaningful units are generated (step 003).

예를 들어, TV프로그램과 관련된 도메인의 온톨로지 인스턴스 생성을 위해 수집된 관계 예제들이 '채널-프로그램명-출연자-극중인물명'의 4개의 개념들의 집합으로 구성되어 있을 경우, 관계 예제들은 의미를 갖는 '채널-프로그램명-출연자', '채널-프로그램명-극중인물명', '프로그램명-출연자-극중인물명', '채널-프로그램명', '프로그램명-출연자', '프로그램명-극중인물명', '출연자-극중인물명' 등의 세부 관계 예제들로 분리될 수 있다. For example, if the relationship examples collected for ontology instance creation of a domain related to a TV program consist of a set of four concepts: 'channel-program name- performer-playing name', the relationship examples have meaning ' Channel-program name-performer ',' channel-program name-period ',' program name-performer-period ',' channel-program name ',' program-performer ',' program-period ' It can be separated into detailed relationship examples such as 'Performer-playing name'.

단계 002로부터 수집된 웹 문서에서 상기 분리되어 생성된 세부 관계 예제의 개념 집합을 포함하는 부분을 추출하여 세부 관계 예제의 관계에 대한 구문 패턴을 생성한다 (단계 004). In the web document collected from step 002, a part including the set of concepts of the separately generated detailed relationship example is extracted to generate a syntax pattern for the relationship of the detailed relationship example (step 004).

예를 들어, 'MBC 드라마 태왕사신기에 출연 중인 배용준' 이라는 문서 중 일 부에 대해 'MBC-태왕사신기-배용준'으로 구성된 관계 예제를 적용함으로써 '<채널> 드라마 <프로그램명>에 출연 중인 <출연자>' 형태의 구문 패턴을 생성한다. For example, by applying the relationship example consisting of 'MBC-Taewangsashingi-Bae Yong-jun' to a part of the document called 'Bae Yong-jun, who appears in the MBC drama Taewangsashingi', Create a syntax pattern of the form> '.

상기 생성된 구문 패턴을 웹 문서에 적용함으로써 새로운 관계 후보를 추출한다 (단계 005). A new relationship candidate is extracted by applying the generated syntax pattern to the web document (step 005).

예를 들어, 상기 예제에서 생성된 '<채널> 드라마 <프로그램명>에 출연 중인 <출연자>' 구문 패턴을 'KBS 드라마 대조영에 출연 중인 최수종'에 적용 함으로써 'KBS-대조영-최수종'으로 구성된 관계 예제의 후보를 추출할 수 있다. 구문 패턴을 적용하여 후보를 추출하는 방법은 구문 패턴과 문장 간의 지역 정렬 결과 중 개념을 나타내는 부분과 정렬되는 문장의 일부를 해당 개념의 후보로 간주하는 정렬 기반 정보 추출 방법을 사용한다. For example, the relationship consisting of 'KBS-Daejoyoung-Soojongjong' by applying the phrase pattern 'Performer>' appearing in '<channel> drama <program name> generated in the above example to' Soojong Choi appearing in KBS Drama Jooyoung ' You can extract candidates for the example. The method of extracting candidates by applying a syntax pattern uses a sorting-based information extraction method that considers a part of a sentence aligned with a part representing a concept in the local sorting result between the syntax pattern and a sentence as a candidate of the concept.

상기 단계 004와 단계 005 과정은 단계 003에서 생성된 각각의 세부 관계단위로 진행된다. 세부 관계 단위로 추출된 관계 예제 후보들을 병합한다 (단계 006). Steps 004 and 005 are performed in the respective detailed relationship units generated in step 003. The relationship example candidates extracted in the detailed relationship unit are merged (step 006).

예를 들어, '채널-프로그램명-출연자'로 구성된 세부 관계로부터 추출된 관계 후보인 'MBC-태왕사신기-배용준'과 '프로그램명-출연자-극중인물명'으로 구성된 세부 관계로부터 추출된 관계 후보인 '태왕사신기-배용준-태왕'을 출연자, 극중인물명 값을 기준으로 병합하여 '채널-프로그램명-출연자-극중인물명'으로 구성된 관계 후보인 'MBC-태왕사신기-배용준-태왕'을 생성한다. For example, a relationship candidate extracted from a detailed relationship consisting of 'channel-program name-performer' is a relationship candidate extracted from a detailed relationship consisting of 'MBC-Tawangsashingi-Bae Yong-jun' and 'program name- performer-playing name'. By combining 'Tawang Sasingi-Bae Yong-Jun-Tawang' based on the value of performer and drama name, it creates 'MBC-Tawang Sashingi-Bae Yong-jun-Tawang' which is a relationship candidate consisting of 'Channel-Program name-Performer-Play name'.

상기 병합하여 생성된 관계 후보들을 검증한다 (단계 007). The merge candidates generated by the merging are verified (step 007).

추출된 관계 후보들은 추후 관계 후보들이 관계 예제로 추가되어 상기 단계 들이 반복 수행됨으로써 발생할 수 있는 오류의 누적을 지양하고, 궁극적으로 생성된 온톨로지 인스턴스의 정확성을 보장하기 위해 통계적인 방법과 전문가에 의한 방법을 거쳐 검증된다. The extracted relationship candidates are statistically and expertly applied to prevent the accumulation of errors that can be generated by subsequent addition of the relationship candidates as a relationship example and to ensure the accuracy of the generated ontology instance. Verified by

상기 검증된 관계 후보들에 대하여 관계 추출 과정의 반복 여부를 결정한다 (단계 008). 관계 추출 과정의 반복 여부는 사용자의 의사와 추출 결과에 의해 결정된다. It is determined whether the relationship extraction process is repeated for the verified relationship candidates (step 008). Whether to repeat the relationship extraction process is determined by the user's intention and the extraction result.

기존의 관계 예제에 추가된 새로운 추출 결과가 존재하고 사용자에 의해 추출 과정의 반복이 지시되었을 경우, 관계 후보들은 관계 예제로 추가되어 단계 003부터 단계 007까지의 과정을 반복한다. 새롭게 추가된 관계 예제들로 인해 관계 구문 패턴이 추가되고 추가된 구문 패턴을 이용하여 새로운 관계 후보들을 추가로 추출하는 과정을 반복한다. If there is a new extraction result added to the existing relationship example and the user is instructed to repeat the extraction process, the relationship candidates are added to the relationship example and repeat the process from step 003 to step 007. Due to the newly added relationship examples, the relationship syntax pattern is added, and the process of additionally extracting new relationship candidates using the added syntax pattern is repeated.

기존의 관계 예제에 추가된 새로운 추출 결과가 존재하지 않거나 사용자에 의해 추출 과정의 종료가 지시되었을 경우, 누적되어 추출된 관계 후보들로부터 온톨로지 인스턴스를 생성한다 (단계 009). If a new extraction result added to the existing relationship example does not exist or the end of the extraction process is instructed by the user, an ontology instance is generated from the accumulated relationship candidates (step 009).

이하, 본 발명에 부합되는 비구조 웹문서로부터 다수의 개념 간의 관계를 추출하여 온톨로지를 자동으로 구축하기 위한 장치는 도 2를 통하여 상세히 설명한다. Hereinafter, an apparatus for automatically constructing an ontology by extracting a relationship between a plurality of concepts from an unstructured web document according to the present invention will be described in detail with reference to FIG. 2.

도 2에 나타난 바와 같이, 본 발명의 비구조 웹문서로부터 다수의 개념 간의 관계를 추출하여 온톨로지를 자동으로 구축하기 위한 장치는 웹 문서 수집부(10), 관계 예제 수집부(20), 관계 추출부(30), 관계 검증부(40), 및 온톨로지 인스턴스 생성부(50)를 포함하여 구성된다. As shown in FIG. 2, an apparatus for automatically constructing an ontology by extracting a relationship between a plurality of concepts from an unstructured web document of the present invention includes a web document collecting unit 10, a relationship example collecting unit 20, and a relationship extraction. The unit 30 is configured to include a relationship verification unit 40 and an ontology instance generation unit 50.

상기 관계 추출부(30)는 도 3에 나타난 바와 같이, 세부 관계 예제 생성부(310), 세부 관계 패턴 추출부(320), 세부 관계 후보 추출부(330), 및 세부 관계 후보 병합부(340)를 포함하여 구성된다. As shown in FIG. 3, the relationship extractor 30 includes a detailed relationship example generator 310, a detailed relationship pattern extractor 320, a detailed relationship candidate extractor 330, and a detailed relationship candidate merger 340. It is configured to include).

도 2에서, 상기 웹 문서 수집부(10)는 웹으로부터 구축하고자 하는 온톨로지와 관련된 도메인의 웹 문서(11)를 수집하도록 구성되고, 관계 예제 수집부(20)는 기존의 온톨로지 및 관계형 데이터베이스 등의 다양한 정보로부터 온톨로지 스키마에 적합한 관계 예제들(21)을 수집하도록 구성된다. In FIG. 2, the web document collecting unit 10 is configured to collect web documents 11 of a domain related to the ontology to be constructed from the web, and the relationship example collecting unit 20 may include an existing ontology and a relational database. It is configured to collect relationship examples 21 suitable for the ontology schema from various information.

도 3에서, 관계 추출부(30)의 세부 관계 예제 생성부(310)는 관계 예제들로부터 의미를 갖는 세부 단위의 관계 예제들(311)을 생성하도록 구성되며, 세부 관계 패턴 추출부(320)는 세부 단위의 관계 예제(311)들과 수집된 웹 문서(11)로부터 세부 관계 패턴(321)을 추출하도록 구성된다. In FIG. 3, the detailed relationship example generator 310 of the relationship extractor 30 is configured to generate the relationship examples 311 having a detailed unit having meaning from the relationship examples, and the detailed relationship pattern extractor 320. Is configured to extract the detailed relationship pattern 321 from the relationship example 311 of the detailed unit and the collected web document 11.

도 3에서, 세부 관계 후보 추출부(330)는 세부 관계 패턴(321)을 웹 문서(11)에 적용하여 세부 관계 후보(331)를 추출하도록 구성되고, 세부 관계 후보 병합부(340)는 세부 관계 후보(331)들을 병합하여 관계 후보(341)를 생성하도록 구성된다. In FIG. 3, the detail relationship candidate extractor 330 is configured to apply the detail relationship pattern 321 to the web document 11 to extract the detail relationship candidate 331, and the detail relationship candidate merger 340 is detailed. And is configured to merge the relationship candidates 331 to generate the relationship candidate 341.

관계 검증부(40)는 관계 후보(341)를 검증하도록 구성되며, 검증된 관계 후보는 관계 예제(21)에 추가되거나 온톨로지 인스턴스 생성부(50)에서 온톨로지(51)의 인스턴스로 생성되도록 구성된다. The relationship verification unit 40 is configured to verify the relationship candidate 341, and the verified relationship candidate is configured to be added to the relationship example 21 or generated as an instance of the ontology 51 in the ontology instance generator 50. .

상술한 바와 같이, 본 발명은 비구조 웹문서로부터 다수의 개념 간의 관계를 추출하여 온톨로지를 자동으로 구축하는데 있어서 기존에 구축된 온톨로지나 관계형 데이터베이스 정보에 기반하여 구문 패턴을 자동 추출하고 자동으로 확장하는 방법을 사용함으로써 온톨로지를 구축 및 관리하기 위해 필요한 비용을 줄이며, 온톨로지 구축을 위한 정보 추출 성능을 지속적으로 향상시킬 수 있는 온톨로지 자동 구축 방법 및 장치를 제공한다. As described above, the present invention is to automatically extract and automatically expand syntax patterns based on existing ontology or relational database information in automatically constructing ontology by extracting relationships between a plurality of concepts from unstructured web documents. By using the method, it is possible to reduce the cost required to construct and manage the ontology, and to provide an ontology automatic construction method and apparatus for continuously improving information extraction performance for ontology construction.

도 1은 본 발명에 따라 비구조 웹문서로부터 다수의 개념 간의 관계를 추출하여 온톨로지를 자동으로 구축하기 위한 방법의 일례를 나타내는 흐름도이다. 1 is a flow diagram illustrating an example of a method for automatically constructing an ontology by extracting relationships between multiple concepts from an unstructured web document in accordance with the present invention.

도 2는 본 발명에 부합되는 비구조 웹문서로부터 다수의 개념 간의 관계를 추출하여 온톨로지를 자동으로 구축하기 위한 장치의 일례를 나타내는 구성도이다. 2 is a block diagram showing an example of an apparatus for automatically constructing an ontology by extracting a relationship between a plurality of concepts from an unstructured web document in accordance with the present invention.

도 3은 본 발명에 부합되는 비구조 웹문서로부터 다수의 개념 간의 관계를 추출하여 온톨로지를 자동으로 구축하기 위한 시스템 중 관계 추출부의 상세한 일례를 나타내는 구성도이다. 3 is a block diagram showing a detailed example of a relationship extraction unit in a system for automatically constructing an ontology by extracting a relationship between a plurality of concepts from an unstructured web document according to the present invention.

<도면의 주요부분에 대한 부호의 설명> <Description of the symbols for the main parts of the drawings>

10 : 웹 문서 수집부 20 : 관계 예제 수집부 10: Web document collector 20: relationship example collector

30 : 관계 추출부 40 : 관계 검증부 30: relationship extraction unit 40: relationship verification unit

50 : 온톨로지 인스턴스 생성부 310 : 세부 관계 예제 생성부 50: ontology instance generator 310: a detailed relationship example generator

320 : 세부 관계 패턴 추출부 330 : 세부 관계 후보 추출부 320: Detailed relationship pattern extraction unit 330: Detailed relationship candidate extraction unit

340 : 세부 관계 후보 병합부 340: Merger of detailed relationship candidates

Claims (8)

비구조 웹문서 및 데이터베이스의 다양한 정보로부터 온톨로지 인스턴스를 자동으로 구축하는 방법에 있어서, In the method for automatically constructing an ontology instance from various information of unstructured web document and database, 대상 도메인의 비구조 웹 문서를 수집하는 단계; Collecting unstructured web documents of the target domain; 추출 대상 온톨로지를 구성하는 다수의 개념 간의 관계 예제를 수집하는 단계; Collecting an example of the relationship between a plurality of concepts constituting the ontology to be extracted; 상기 수집된 다수의 개념 간의 관계 예제로부터 의미를 갖는 세부 단위의 관계 예제들을 생성하는 단계; Generating relationship examples of meaningful units having meanings from the relationship examples among the collected plurality of concepts; 상기 생성된 세부 단위의 관계 예제들을 상기 수집된 비구조 웹문서에 적용하여 세부 관계 패턴을 추출하는 단계; Extracting a detailed relationship pattern by applying the generated relationship examples of the detailed unit to the collected unstructured web document; 상기 생성된 세부 단위의 관계 패턴들을 상기 수집된 비구조 웹문서에 적용하여 세부 관계 후보를 추출하는 단계; Extracting a detailed relationship candidate by applying the generated relationship patterns of the detailed unit to the collected unstructured web document; 상기 추출된 세부 관계 후보들로부터 병합된 관계 후보를 생성하는 단계; Generating a merged relationship candidate from the extracted detailed relationship candidates; 상기 생성된 관계 후보들을 사용자가 검증하거나 또는 통계적으로 검증하는 단계; Verifying or statistically verifying the generated relationship candidates; 추출 과정의 반복이 필요한 경우 상기 검증을 거친 관계 후보들을 관계 예제에 추가하여 상기 기술된 일련의 과정을 반복하는 단계; 및 Repeating the above described series of processes by adding the validated relationship candidates to the relationship example when the extraction process needs to be repeated; And 추출 과정의 반복이 필요하지 않은 경우 상기 검증을 거친 관계 후보들로부터 온톨로지 인스턴스를 생성하는 단계를 포함하여 구성되는 비구조 웹문서로부터 다수의 개념 간의 관계를 추출하여 온톨로지를 자동으로 구축하기 위한 방법. A method for automatically constructing an ontology by extracting a relationship between a plurality of concepts from an unstructured web document comprising the step of generating an ontology instance from the verified relationship candidates when the repetition of the extraction process is not necessary. 제1항에 있어서, 구문 패턴의 자동 추출 및 자동 확장에 기반하여 2개 이상의 다수의 개념 간의 관계를 동시에 추출하는 것을 특징으로 하는 온톨로지 자동 구축 방법. The method of claim 1, wherein the relationship between two or more concepts is simultaneously extracted based on automatic extraction and automatic expansion of syntax patterns. 삭제delete 제2항에 있어서, 지역 정렬 방법을 이용하여 2개 이상의 다수의 개념 간의 관계를 동시에 추출하는 것을 특징으로 하는 온톨로지 자동 구축 방법. 3. The ontology automatic construction method according to claim 2, wherein the relation between two or more concepts is simultaneously extracted using a local alignment method. 제1항에 있어서, 기존의 온톨로지 또는 관계형 데이터베이스의 정보로부터 구문 패턴 자동 추출에 필요한 관계 예제를 수집하는 것을 특징으로 하는 온톨로지 자동 구축 방법. 2. The ontology automatic construction method according to claim 1, wherein a relation example for automatic syntax pattern extraction is collected from information of an existing ontology or relational database. 제1항에 있어서, 관계 예제를 세부 관계 예제 단위로 나누어 구문 패턴 및 관계 후보를 추출하는 것을 특징으로 하는 온톨로지 자동 구축 방법. The method of claim 1, wherein the syntax example and the relation candidate are extracted by dividing the relation example into detailed relation example units. 제1항 또는 제6항에 있어서, 세부 관계 예제 단위로 나누어 추출된 관계 후보를 병합하여 사용하는 것을 특징으로 하는 온톨로지 자동 구축 방법. The ontology automatic construction method according to claim 1 or 6, wherein the relationship candidates extracted by dividing into detailed relationship example units are used in a merged manner. 비구조 웹문서로부터 다수의 개념 간의 관계를 추출하여 온톨로지를 자동으로 구축하기 위한 장치에 있어서, An apparatus for automatically constructing an ontology by extracting a relationship between a plurality of concepts from an unstructured web document, 정보 추출 대상 도메인의 비구조 웹 문서를 수집하는 웹 문서 수집부; A web document collecting unit which collects unstructured web documents of the information extraction target domain; 데이터베이스나 기존의 온톨로지 인스턴스의 정보로부터 대상 오톨로지를 구성하는 다수의 개념 간의 관계 예제를 수집하는 관계 예제 수집부; A relationship example collection unit for collecting a relationship example between a plurality of concepts constituting a target ontology from information of a database or an existing ontology instance; 상기 수집된 웹 문서와 관계 예제로부터 관계 후보를 추출하는 관계 추출부; A relationship extraction unit for extracting a relationship candidate from the collected web document and relationship example; 다수의 개념 간의 관계로 구성된 관계 예제로부터 적은 수의 개념 간의 조합으로 구성된 세부 관계를 생성하는 세부 관계 예제 생성부; A detailed relationship example generation unit generating a detailed relationship consisting of a combination of a small number of concepts from a relationship example composed of a plurality of concepts; 상기 생성된 세부 관계 예제들을 웹 문서에 적용함으로써 세부 관계에 대한 구문 패턴을 추출하는 세부 관계 패턴 추출부; A detail relationship pattern extracting unit extracting a syntax pattern for a detailed relationship by applying the generated detailed relationship examples to a web document; 상기 추출된 세부 관계에 대한 구문 패턴들을 웹 문서에 적용함으로써 세부 관계를 갖는 개념 조합들의 후보를 추출하는 세부 관계 후보 추출부; A detail relationship candidate extracting unit extracting candidates of concept combinations having a detailed relationship by applying the syntax patterns of the extracted detailed relationship to a web document; 상기 추출된 세부 관계 후보들을 병합하여 통합 관계 후보를 생성하는 세부 관계 후보 병합부; A detail relationship candidate merging unit which merges the extracted detail relationship candidates to generate a union relationship candidate; 상기 생성된 병합 관계 후보를 검증하는 관계 검증부; 및 A relationship verification unit that verifies the generated merge relationship candidate; And 상기 검증된 관계 후보로부터 온톨로지 인스턴스를 생성하는 온톨로지 생성부를 포함하여 구성되는 비구조 웹문서로부터 다수의 개념 간의 관계를 추출하여 온톨로지를 자동으로 구축하기 위한 시스템. A system for automatically constructing an ontology by extracting a relationship between a plurality of concepts from an unstructured web document comprising an ontology generator for generating an ontology instance from the verified relationship candidate.
KR1020070118084A 2007-11-19 2007-11-19 Method and apparatus for automatically constructing ontology from non-structure web documents KR100917176B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070118084A KR100917176B1 (en) 2007-11-19 2007-11-19 Method and apparatus for automatically constructing ontology from non-structure web documents

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070118084A KR100917176B1 (en) 2007-11-19 2007-11-19 Method and apparatus for automatically constructing ontology from non-structure web documents

Publications (2)

Publication Number Publication Date
KR20090051612A KR20090051612A (en) 2009-05-22
KR100917176B1 true KR100917176B1 (en) 2009-09-15

Family

ID=40859647

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070118084A KR100917176B1 (en) 2007-11-19 2007-11-19 Method and apparatus for automatically constructing ontology from non-structure web documents

Country Status (1)

Country Link
KR (1) KR100917176B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180035477A (en) * 2016-09-29 2018-04-06 (주)시지온 Method for selecting headword of electronic document, method for providing electronic document, and computing system performing the same

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101306667B1 (en) 2009-12-09 2013-09-10 한국전자통신연구원 Apparatus and method for knowledge graph stabilization
KR101636477B1 (en) * 2014-11-28 2016-07-06 (주)아이와즈 Human-like Knowledge Expansion and Verification System Using Structured Knowledge Information and Document Crwaling, Method, Recording Medium

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006178982A (en) 2004-12-20 2006-07-06 Fujitsu Ltd Computer processing method and device
KR20060122276A (en) * 2005-05-26 2006-11-30 주식회사 다음기술 Relation extraction from documents for the automatic construction of ontologies
KR100729103B1 (en) 2006-05-29 2007-06-14 주식회사 케이티 System and method to generate and save ontology instances in real-time from semi structured web documents

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006178982A (en) 2004-12-20 2006-07-06 Fujitsu Ltd Computer processing method and device
KR20060122276A (en) * 2005-05-26 2006-11-30 주식회사 다음기술 Relation extraction from documents for the automatic construction of ontologies
KR100729103B1 (en) 2006-05-29 2007-06-14 주식회사 케이티 System and method to generate and save ontology instances in real-time from semi structured web documents

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180035477A (en) * 2016-09-29 2018-04-06 (주)시지온 Method for selecting headword of electronic document, method for providing electronic document, and computing system performing the same

Also Published As

Publication number Publication date
KR20090051612A (en) 2009-05-22

Similar Documents

Publication Publication Date Title
Nan et al. Dart: Open-domain structured data record to text generation
Ljubešić et al. {bs, hr, sr} wac-web corpora of Bosnian, Croatian and Serbian
Yin et al. Answering questions with complex semantic constraints on open knowledge bases
CN107729392B (en) Text structuring method, device and system and non-volatile storage medium
Severyn et al. Structural relationships for large-scale learning of answer re-ranking
CN105701253A (en) Chinese natural language interrogative sentence semantization knowledge base automatic question-answering method
CN105955956A (en) Chinese implicit discourse relation identification method
Do et al. Extracting and matching authors and affiliations in scholarly documents
CN104462041A (en) Method for completely detecting hot event from beginning to end
Zhao et al. FCA-Map results for OAEI 2016.
KR100917176B1 (en) Method and apparatus for automatically constructing ontology from non-structure web documents
Yang et al. Ontology generation for large email collections.
Ahn et al. Question Answering with QED at TREC 2005.
Cleuziou et al. Qassit at semeval-2016 task 13: On the integration of semantic vectors in pretopological spaces for lexical taxonomy acquisition
Nethra et al. WEB CONTENT EXTRACTION USING HYBRID APPROACH.
Qi et al. Syntactically Robust Training on Partially-Observed Data for Open Information Extraction
Reddy et al. Iiitbh-iitp@ cl-scisumm20, cl-laysumm20, longsumm20
Hathout Acquisition of morphological families and derivational series from a machine readable dictionary
CN105677684A (en) Method for making semantic annotations on content generated by users based on external data sources
Shen et al. Dependency parse reranking with rich subtree features
Wu et al. Entity linking in web tables with multiple linked knowledge bases
Tran et al. A comparative study of question answering over knowledge bases
KR102182619B1 (en) Knowledge extraction system using frame based on ontology
Huaqiang et al. The research of domain ontology recommendation method with its applications in requirement traceability
CN113392245A (en) Text abstract and image-text retrieval generation method for crowd-sourcing task release

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee