KR100825687B1 - Method and system for recognizing biological named entity based on workbench - Google Patents

Method and system for recognizing biological named entity based on workbench Download PDF

Info

Publication number
KR100825687B1
KR100825687B1 KR1020060021875A KR20060021875A KR100825687B1 KR 100825687 B1 KR100825687 B1 KR 100825687B1 KR 1020060021875 A KR1020060021875 A KR 1020060021875A KR 20060021875 A KR20060021875 A KR 20060021875A KR 100825687 B1 KR100825687 B1 KR 100825687B1
Authority
KR
South Korea
Prior art keywords
biological
entity name
name recognition
biological entity
recognition model
Prior art date
Application number
KR1020060021875A
Other languages
Korean (ko)
Other versions
KR20070092005A (en
Inventor
김석환
송유
김경덕
이근배
Original Assignee
학교법인 포항공과대학교
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 학교법인 포항공과대학교, 포항공과대학교 산학협력단 filed Critical 학교법인 포항공과대학교
Priority to KR1020060021875A priority Critical patent/KR100825687B1/en
Publication of KR20070092005A publication Critical patent/KR20070092005A/en
Application granted granted Critical
Publication of KR100825687B1 publication Critical patent/KR100825687B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

본 발명은 생물학 문헌으로부터 생물학적 개체명을 자동으로 인식하기 위한 워크벤치 기반의 생물학적 개체명 인식 방법 및 시스템을 제공한다. 상기 본 발명에 따른 워크벤치 기반의 생물학적 개체명 인식 방법은 생물학적 개체명을 인식하고자 하는 생물학 문서를 수신하는 단계; 생물학적 개체명 인식 모델을 이용하여 상기 수신된 생물학 문서로부터 생물학적 개체명을 인식하는 단계; 상기 생물학적 개체명 인식 결과의 교정이 필요한 경우 교정된 자료를 수신하는 단계; 상기 교정된 자료를 기초로 기계 학습을 하는 단계; 및 상기 기계 학습의 결과를 생물학적 개체명 인식 모델에 적용하는 단계;를 포함한다. 본 발명에 따르면 생물학적 개체명을 통계 기반의 방식을 사용하여 자동적으로 인식하는데 있어서 생물학 문헌 학습 코퍼스(corpus)를 구축하기 위해 필요한 비용을 줄이며, 개체명 인식 성능을 지속적으로 향상시킬 수 있다.The present invention provides a workbench based biological entity recognition method and system for automatically recognizing biological entity names from biological literature. The workbench based biological entity name recognition method according to the present invention comprises the steps of: receiving a biological document to recognize a biological entity name; Recognizing a biological entity name from the received biological document using a biological entity name recognition model; Receiving the corrected data when the biological entity name recognition result needs to be corrected; Machine learning based on the calibrated data; And applying the result of the machine learning to a biological entity name recognition model. According to the present invention, it is possible to reduce the cost required to establish a biological literature learning corpus in automatically recognizing biological entity names using a statistics-based method, and to continuously improve the entity name recognition performance.

생물학적 개체명, 개체명 인식, 워크벤치 Biological Names, Name Recognition, Workbench

Description

워크벤치 기반의 생물학적 개체명 인식 방법 및 시스템{Method and system for recognizing biological named entity based on workbench}Method and system for recognizing biological named entity based on workbench

도 1은 본 발명의 바람직한 실시예에 따른 워크벤치 기반의 생물학적 개체명 인식 방법을 도시하는 흐름도이다. 1 is a flowchart illustrating a workbench based biological entity name recognition method according to a preferred embodiment of the present invention.

도 2는 본 발명의 바람직한 실시예에 따른 워크벤치 기반의 생물학적 개체명 인식 시스템의 구성을 도시하는 블록도이다. 2 is a block diagram showing the configuration of a workbench based biological entity recognition system according to a preferred embodiment of the present invention.

<도면의 주요부분에 대한 부호의 설명><Description of the symbols for the main parts of the drawings>

11 : 문서 수신부 12 : 개체명 인식부11: document receiving unit 12: object name recognition unit

13 : 개체명 인식 결과 출력부 14 : 개체명 교정부13: object name recognition result output unit 14: object name correction unit

15 : 기계 학습부 16 : 개체명 인식 모델15: machine learning unit 16: object name recognition model

17 : 코퍼스 데이터베이스 18 : 교정 자료 데이터베이스17: corpus database 18: calibration data database

본 발명은 생물학 문헌으로부터 생물학적 개체명을 자동으로 추출하기 위한 워크벤치 기반의 생물학적 개체명 인식 방법 및 시스템에 관한 것이다. The present invention relates to a workbench based biological entity recognition method and system for automatically extracting biological entity names from biological literature.

생물학 연구의 활성화로 생물학 문헌이 급증하면서 생물학 문헌에서 자동으 로 정보를 추출하는 기술에 대한 요구가 증대되고 있다. 생물학 문헌으로부터 추출하고자 하는 핵심적인 정보는 생물학적 정보의 핵심을 이루고 있는 요소인 유전자명, 단백질명 및 생체 구성요소명 등과 같은 생물학적 개체명, 상기 생물학적 개체들 간의 관계 또는 각 개체들이 주체가 되어 수행하는 생물학적 현상을 포함한다. The surge in biological literature is fueling the need for technology to automatically extract information from biological literature. The core information to be extracted from the biological literature is biological name such as gene name, protein name and bio constituent name which are the core elements of biological information, the relationship between the biological objects or the subjects Include biological phenomena.

따라서 생물학 문헌을 대상으로 정보를 추출하기 위해서는 생물학 정보의 핵심을 이루고 있는 유전자명, 단백질명 및 생체 구성요소명 등과 같은 생물학적 개체들의 이름을 정확하게 인식하고 분류하는 기술이 선행되어야 한다. Therefore, in order to extract information from biological literature, a technique of accurately recognizing and classifying names of biological entities, such as gene names, protein names, and biological component names, which are the core of biological information, must be preceded.

일반적으로, 생물학적 개체명을 인식하는 방법으로서 한정된 도메인을 대상으로 생물학적 지식을 갖춘 전문가가 대상 도메인에 대한 각종 언어 자원 및 규칙을 생성하고 이를 이용해 개체명을 인식하는 규칙 기반의 방식이 있다. 하지만, 상기 방법은 언어 자원 및 규칙 생성에 많은 비용이 소요되는 문제점이 있다. In general, as a method of recognizing a biological entity name, there is a rule-based method in which a biologist having knowledge of a biological domain generates various language resources and rules for a target domain and recognizes the entity name using the same. However, there is a problem in that the method is expensive to generate language resources and rules.

다른 방법으로서 대용량의 생물학 문헌 학습 코퍼스(corpus)를 구축하고 이에 대해 기계 학습 알고리즘을 적용해 개체명을 인식하는 통계 기반 방식이 있다. 하지만, 상기 방법은 생물학 문헌 학습 코퍼스 구축에 많은 비용이 소요된다는 문제점이 있다.Another approach is to build a large-scale biological literature learning corpus and apply a machine learning algorithm to the statistical-based method for recognizing individual names. However, there is a problem that the method is expensive to build a biological literature learning corpus.

생물학적 문헌에서 개체명을 자동으로 인식하기 위한 워크벤치 구조의 종래 기술로는 대한민국 특허공개번호 제 2005-0039067호를 들 수 있다. 상기 대한민국 특허공개번호 제 2005-0039067호에는 생물학적 문헌에서 개체명을 자동으로 인식하는 장치 및 방법을 제공하고 있는데, UMLS(Unified Medical Language System)라는 생물학 어휘 자원을 활용하여 개체명 인식 규칙을 구성하고, 이 규칙을 이용하여 생물학 문헌으로부터 생물학적 개체명을 인식하고 있다.The prior art of the workbench structure for automatically recognizing the individual name in the biological literature is Korean Patent Publication No. 2005-0039067. The Republic of Korea Patent Publication No. 2005-0039067 provides a device and method for automatically recognizing the name of the subject in the biological literature, using the biological vocabulary resource called UMLS (Unified Medical Language System) to configure the name recognition rule In addition, this rule is used to recognize biological names from biological literature.

하지만, 상기와 같은 종래의 방법은 규칙 생성에 많은 비용이 소요되고, 한정된 어휘 자원의 사용으로 인한 대상 도메인의 한정성을 개선하기 힘들다는 문제점이 있다. However, such a conventional method has a problem in that it is expensive to generate rules, and it is difficult to improve the limitation of the target domain due to the use of limited lexical resources.

본 발명은 상기 종래 기술의 문제점들을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 생물학 문헌 학습 코퍼스(corpus)를 구축하기 위한 비용을 줄이며 개체명 인식 성능을 향상시킬 수 있는 생물학 문헌으로부터 생물학적 개체명을 자동으로 추출하기 위한 워크벤치 기반의 생물학적 개체명 인식 방법을 제공하는 것이다. SUMMARY OF THE INVENTION The present invention has been made to solve the problems of the prior art, and an object of the present invention is to reduce the cost of constructing a biological literature learning corpus and to improve the entity recognition performance. It provides a workbench-based method for recognizing biological entity names for automatic extraction.

본 발명의 다른 목적은 생물학 문헌 학습 코퍼스(corpus)를 구축하기 위한 비용을 줄이며 개체명 인식 성능을 향상시킬 수 있는 생물학 문헌으로부터 생물학적 개체명을 자동으로 추출하기 위한 워크벤치 기반의 생물학적 개체명 인식 시스템을 제공하는 것이다. Another object of the present invention is a workbench based biological entity recognition system for automatically extracting biological entity names from biological literature that can reduce the cost of constructing a biological literature learning corpus and improve the entity recognition performance. To provide.

본 발명의 또 다른 목적은 상기 워크벤치 기반의 생물학적 개체명 인식 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공하는 것이다. It is still another object of the present invention to provide a computer readable recording medium having recorded thereon a program for executing the workbench based biological entity name recognition method on a computer.

본 발명의 목적을 달성하기 위하여, 본 발명은 생물학적 개체명을 인식하고자 하는 생물학 문서를 수신하는 단계; 생물학적 개체명 인식 모델을 이용하여 상기 수신된 생물학 문서로부터 생물학적 개체명을 인식하는 단계; 상기 생물학적 개체명 인식 결과의 교정이 필요한지를 판단하여, 상기 생물학적 개체명 인식 결과의 교정이 필요한 경우 교정된 자료를 수신하는 단계; 상기 교정된 자료를 기초로 기계 학습을 하는 단계; 및 상기 기계 학습의 결과를 생물학적 개체명 인식 모델에 적용하는 단계;를 포함하는 워크벤치 기반의 생물학적 개체명 인식 방법을 제공한다.In order to achieve the object of the present invention, the present invention comprises the steps of receiving a biological document to be recognized biological name; Recognizing a biological entity name from the received biological document using a biological entity name recognition model; Determining whether the biometric name recognition result needs to be corrected, and receiving the corrected data when the biometric name recognition result needs to be corrected; Machine learning based on the calibrated data; And applying a result of the machine learning to a biological entity name recognition model.

본 발명의 일 구체예에 있어서, 상기 워크벤치 기반의 생물학적 개체명 인식 방법은 상기 생물학적 개체명 인식 결과의 교정이 필요하지 않은 경우 새로운 생물학 문서를 수신하는 단계로 진행하는 것을 특징으로 한다. In one embodiment of the present invention, the workbench based biological entity name recognition method is characterized in that proceeding to the step of receiving a new biological document when the correction of the biological entity name recognition result is not necessary.

본 발명의 일 구체예에 있어서, 상기 생물학적 개체명 인식 모델은 생물학 문헌 학습 코퍼스를 기반으로 기계 학습에 의해 구축되는 통계 기반의 생물학적 개체명 인식 모델일 수 있다. In one embodiment of the present invention, the biological entity name recognition model may be a statistical entity-based biological entity name recognition model constructed by machine learning based on a biological literature learning corpus.

본 발명의 일 구체예에 있어서, 상기 생물학적 개체명 인식 결과의 교정이 필요한 경우 교정된 자료를 수신하여 저장할 수 있다. In one embodiment of the present invention, when correction of the biological entity name recognition result is required, the corrected data may be received and stored.

본 발명의 일 구체예에 있어서, 상기 기계 학습의 결과를 생물학적 개체명 인식 모델에 적용하는 단계는 상기 기계 학습의 결과를 상기 생물학적 개체명 인식 모델의 기반인 생물학 문헌 학습 코퍼스에 추가하는 것일 수 있다. In one embodiment of the present invention, applying the result of the machine learning to the biological entity name recognition model may be to add the result of the machine learning to the biological literature learning corpus based on the biological entity name recognition model. .

본 발명의 일 구체예에 있어서, 상기 기계 학습의 결과를 생물학적 개체명 인식 모델에 적용하는 단계를 통해 새로운 생물학적 개체명 인식 모델을 구축할 수 있다. In one embodiment of the present invention, a new biological entity name recognition model may be constructed by applying the result of the machine learning to the biological entity name recognition model.

본 발명의 일 구체예에 있어서, 상기 새롭게 구축된 생물학적 개체명 인식 모델은 이후의 생물학적 개체명 인식 단계에 적용될 수 있다. In one embodiment of the present invention, the newly constructed biological entity name recognition model may be applied to a subsequent biological entity name recognition step.

본 발명의 다른 목적을 달성하기 위하여, 본 발명은 생물학적 개체명 인식 모델; 상기 생물학적 개체명 인식 모델을 이용하여 생물학적 개체명을 인식하고자 하는 생물학 문서로부터 생물학적 개체명을 인식하는 개체명 인식부; 상기 생물학적 개체명 인식 결과의 교정이 필요한 경우 교정된 자료를 수신하여 교정하는 개체명 교정부; 및 상기 개체명 교정부로부터 교정된 결과를 기계 학습을 수행하여 새로운 생물학적 개체명 인식 모델을 구축하는 기계 학습부;를 포함하는 워크벤치 기반의 생물학적 개체명 인식 시스템을 제공한다.In order to achieve another object of the present invention, the present invention provides a biological entity name recognition model; An entity name recognition unit for recognizing a biological entity name from a biological document to be recognized by using the biological entity name recognition model; An entity name correction unit for receiving and correcting the corrected data when the biological entity name recognition result needs to be corrected; And a machine learning unit for constructing a new biological entity name recognition model by performing machine learning on the result corrected by the entity name correction unit.

본 발명의 일 구체예에 있어서, 상기 생물학적 개체명 인식 모델은 생물학 문헌 학습 코퍼스를 기반으로 기계 학습에 의해 구축되는 통계 기반의 생물학적 개체명 인식 모델일 수 있다. In one embodiment of the present invention, the biological entity name recognition model may be a statistical entity-based biological entity name recognition model constructed by machine learning based on a biological literature learning corpus.

본 발명의 일 구체예에 있어서, 상기 워크벤치 기반의 생물학적 개체명 인식 시스템은 상기 생물학적 개체명을 인식하고자 하는 생물학 문서를 수신하는 문서 수신부; 및 상기 개체명 인식부로부터 인식된 개체명 인식 결과를 사용자에게 제공하는 개체명 인식 결과 출력부;를 추가로 포함할 수 있다. In one embodiment of the present invention, the workbench based biological entity name recognition system includes a document receiving unit for receiving a biological document to recognize the biological entity name; And an entity name recognition result output unit for providing a user with an entity name recognition result recognized by the entity name recognition unit.

본 발명의 일 구체예에 있어서, 상기 워크벤치 기반의 생물학적 개체명 인식 시스템은 상기 생물학적 개체명 인식 결과의 교정이 필요한 경우 교정된 자료를 수신하여 저장하는 교정 자료 데이터베이스를 추가로 포함할 수 있다. In one embodiment of the present invention, the workbench based biological entity name recognition system may further include a calibration data database for receiving and storing the calibration data when the calibration of the biological entity name recognition result is required.

본 발명의 또 다른 목적을 달성하기 위하여, 본 발명은 상기 워크벤치 기반 의 생물학적 개체명 인식 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공한다. In order to achieve another object of the present invention, the present invention provides a computer-readable recording medium having recorded thereon a program for executing the workbench based biological entity name recognition method on a computer.

이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세히 설명한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 바람직한 실시예에 따른 워크벤치 기반의 생물학적 개체명 인식 방법을 도시하는 흐름도이다.1 is a flowchart illustrating a workbench based biological entity name recognition method according to a preferred embodiment of the present invention.

도 1을 참조하면, 워크벤치 구조를 기반으로 생물학 문헌으로부터 생물학적 개체명을 자동으로 인식하기 위해서, 먼저 생물학적 개체명을 인식하고자 하는 생물학 문서를 수신 한다(S110). Referring to FIG. 1, in order to automatically recognize a biological entity name from a biological document based on a workbench structure, first, a biological document for recognizing the biological entity name is received (S110).

상기 생물학 문서는 생물학적 개체명 및 상기 생물학적 개체학적 개체들 간의 관계 또는 각 개체들이 주체가 되어 수행하는 생물학적 현상에 관한 정보를 포함하고 있는 문서로서, 예컨대, 논문 또는 특허와 같은 기술 문서일 수 있다. The biological document is a document containing information on a biological entity name and a relationship between the biological entity objects or a biological phenomenon performed by each entity as a subject, and may be a technical document such as a paper or a patent.

상기 생물학적 개체명은 생물학적 물질들의 명칭을 말하는 것으로, 그의 구체적인 종류는 특별히 한정되지 않는다. 예컨대, 상기 생물학적 개체명은 유전자명, 단백질명 또는 생체 구성요소명일 수 있다. The biological entity name refers to names of biological substances, and specific types thereof are not particularly limited. For example, the biological entity name may be a gene name, a protein name, or a biological component name.

다음으로, 생물학적 개체명 인식 모델을 이용하여 상기 수신된 생물학 문서로부터 생물학적 개체명을 인식한다(S120). Next, the biological entity name is recognized from the received biological document using the biological entity name recognition model (S120).

상기 생물학적 개체명 인식 모델은 생물학 문헌 학습 코퍼스(corpus)를 기반으로 기계 학습에 의해 구축되는 통계 기반의 생물학적 개체명 인식 모델인 것이 바람직하다. 상기 생물학적 개체명 인식 모델로서 종래의 공지 모델을 사용할 수 있다. 상기 생물학 문헌 학습 코퍼스는 생물학적 지식을 갖춘 전문가에 의해 작성된 것일 수 있다. The biological entity name recognition model is preferably a statistics-based biological entity name recognition model constructed by machine learning based on a biological literature learning corpus. Conventional known models can be used as the biological entity name recognition model. The biological literature learning corpus may be written by an expert with biological knowledge.

상기 생물학적 개체명 인식 모델을 상기 입력 받은 문서에 적용하여 상기 생물학 문서에 포함되어 있는 생물학적 개체명을 인식하고, 상기 인식 결과를 사용자에게 제공할 수 있다. The biological entity name recognition model may be applied to the received document to recognize the biological entity name included in the biological document and provide the recognition result to the user.

사용자는 상기 제공받은 개체명 인식 결과로부터 교정 필요 유무를 판단한다(S130). 상기 판단은, 예컨대, 사용자에 의해 수행될 수 있다. 또한, 상기 판단은 자동적으로 수행될 수도 있다. The user determines whether there is a need for correction from the provided entity name recognition result (S130). The determination may be performed by the user, for example. In addition, the determination may be performed automatically.

예를 들어, 개체명 인식을 원하는 "The sphingosine-1-phosphate receptor EDG-1 is essential for platelet-derived growth factor-induced cell motility" 문장에서 EDG-1은 단백질명으로 인식되어야 한다. 하지만, EDG-1이 개체명으로 인식되지 않았거나, EDG-1이 단백질명이 아닌 유전자명과 같은 다른 종류의 개체로 인식되었을 경우는 개체명 인식 결과에 대한 교정이 필요한 경우이다. For example, in the sentence "The sphingosine-1-phosphate receptor EDG-1 is essential for platelet-derived growth factor-induced cell motility" wants to recognize the name, EDG-1 should be recognized as a protein name. However, if EDG-1 is not recognized as an individual name, or if EDG-1 is recognized as another type of entity such as a gene name rather than a protein name, it is a case where correction of the result of the name recognition is necessary.

개체명 인식 결과에 대한 교정이 필요하지 않은 경우 생물학 문서 입력 단계로 복귀하여 새로운 생물학 문서를 수신한다.If no correction for the entity name recognition result is needed, return to the biological document input step to receive a new biological document.

개체명 인식 결과에 대한 교정이 필요한 경우 교정된 자료를 수신한다(S140).When the correction for the entity name recognition result is necessary, the corrected data is received (S140).

예를 들어, 상기 예문에서 EDG-1이 유전자명으로 인식되었을 경우 EDG-1을 단백질명으로 교정하고, 상기 교정된 자료를 수신한다. For example, when EDG-1 is recognized as a gene name in the example sentence, EDG-1 is corrected to a protein name and the corrected data is received.

상기 생물학적 개체명 인식 결과의 교정이 필요한 경우 상기 교정되어 수신 된 자료는 데이터베이스로 저장될 수 있다. When correction of the biological entity name recognition result is required, the corrected and received data may be stored in a database.

상기 개체명 인식 결과의 교정 후에 상기 교정 사항들에 대한 통계 기반의 기계 학습을 수행한다(S150).After calibration of the entity name recognition result, statistical-based machine learning is performed on the corrections (S150).

상기 기계 학습의 결과를 생물학적 개체명 인식 모델에 적용한다(S160). 상기 기계 학습의 결과를 생물학적 개체명 인식 모델에 적용하는 단계(S160)는 상기 기계 학습의 결과를 상기 생물학적 개체명 인식 모델의 기반인 생물학 문헌 학습 코퍼스에 추가함으로써 수행될 수 있다. The result of the machine learning is applied to the biological entity name recognition model (S160). The step S160 of applying the result of the machine learning to the biological entity name recognition model may be performed by adding the result of the machine learning to the biological document learning corpus that is the basis of the biological entity name recognition model.

상기 기계 학습의 결과를 생물학적 개체명 인식 모델에 적용하는 단계(S160)를 통해 새로운 생물학적 개체명 인식 모델을 구축할 수 있다. A new biological entity name recognition model may be constructed by applying the result of the machine learning to the biological entity name recognition model (S160).

또한, 상기 새롭게 구축된 생물학적 개체명 인식 모델은 이후의 생물학적 개체명 인식 단계에 적용될 수 있다. In addition, the newly constructed biological entity name recognition model may be applied to a subsequent biological entity name recognition step.

도 2는 본 발명의 바람직한 실시예에 따른 워크벤치 기반의 생물학적 개체명 인식 시스템의 구성을 도시하는 블록도이다. 2 is a block diagram showing the configuration of a workbench based biological entity recognition system according to a preferred embodiment of the present invention.

도 2를 참조하면, 본 발명에 따른 워크벤치 기반의 생물학적 개체명 인식 시스템(10)은 개체명 인식부(12), 개체명 교정부(14), 기계 학습부(15) 및 개체명 인식 모델(16)을 포함할 수 있다. 또한, 상기 시스템(10)은 문서 수신부(11), 개체명 인식 결과 출력부(13), 교정 자료 데이터베이스(18)를 추가로 포함할 수 있다. Referring to FIG. 2, the workbench-based biological entity name recognition system 10 according to the present invention includes an entity name recognition unit 12, an entity name correction unit 14, a machine learning unit 15, and an entity name recognition model. And may include (16). In addition, the system 10 may further include a document receiver 11, an entity name recognition result output unit 13, and a calibration data database 18.

상기 문서 입력부(11)는 상기 생물학적 개체명을 인식하고자 하는 생물학 문서를 수신하는 기능을 한다. The document input unit 11 functions to receive a biological document for recognizing the biological entity name.

상기 개체명 인식부(12)는 생물학적 개체명 인식 모델(16)을 이용하여 생물 학적 개체명을 인식하고자 하는 생물학 문서로부터 생물학적 개체명을 인식하는 기능을 한다. The entity name recognition unit 12 functions to recognize a biological entity name from a biological document to be recognized by the biological entity name recognition model 16.

상기 개체명 인식 결과 출력부(13)는 상기 개체명 인식부(12)로부터 인식된 개체명 인식 결과를 사용자에게 제공하는 기능을 한다.The entity name recognition result output unit 13 functions to provide the user with the entity name recognition result recognized by the entity name recognition unit 12.

상기 개체명 교정부(14)는 상기 생물학적 개체명 인식 결과의 교정이 필요한 경우 교정된 자료를 수신하고 이를 교정하는 기능을 한다. 상기 교정은 상기 개체명 인식 결과 출력부(13)로부터 개체명 인식 결과를 제공받은 사용자가 개체명 인식 결과에 대한 교정 필요 여부를 판단한 뒤 교정이 필요한 경우 상기 교정 자료를 개체명 교정부(14)에 입력할 수 있을 것이다. 다르게는, 상기 교정을 미리 정해진 기준에 따라 자동적으로 수행되도록 할 수도 있을 것이다. The entity name correcting unit 14 functions to receive and correct the corrected data when the biological entity name recognition result needs to be corrected. The calibration is performed by the user who has received the entity name recognition result from the entity name recognition result output unit 13 to determine whether the entity name recognition result needs to be corrected. You will be able to type in Alternatively, the calibration may be performed automatically according to predetermined criteria.

상기 기계 학습부(15)는 상기 개체명 교정부(14)로부터 교정된 결과를 기계 학습, 예컨대 통계 기반 기계 학습을 통해 수행하여 새로운 개체명 인식 모델(16)을 구축할 수 있다. 새롭게 구축된 개체명 인식 모델(16)은 이후 개체명 인식부(11)에 적용될 수 있다. The machine learning unit 15 may build a new entity name recognition model 16 by performing the result corrected by the entity name correcting unit 14 through machine learning, for example, statistics-based machine learning. The newly constructed entity name recognition model 16 may then be applied to the entity name recognition unit 11.

상기 생물학적 개체명 인식 모델(16)은 생물학 문헌 학습 코퍼스(corpus)를 기반으로 기계 학습에 의해 구축되는 통계 기반의 생물학적 개체명 인식 모델인 것이 바람직하다. 상기 생물학적 개체명 인식 모델로서 종래의 공지 모델을 사용할 수 있다. 상기 생물학 문헌 학습 코퍼스(17)는 생물학적 지식을 갖춘 전문가에 의해 작성된 것일 수 있다. The biological entity name recognition model 16 is preferably a statistics-based biological entity name recognition model constructed by machine learning based on a biological literature learning corpus. Conventional known models can be used as the biological entity name recognition model. The biological document learning corpus 17 may be written by an expert with biological knowledge.

교정 자료 데이터베이스(18)는 상기 생물학적 개체명 인식 결과의 교정이 필 요한 경우 교정된 자료를 수신하여 저장하는 기능을 한다. The calibration data database 18 functions to receive and store the calibrated data when calibration of the biological entity name recognition result is required.

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.The invention can also be embodied as computer readable code on a computer readable recording medium. The computer-readable recording medium includes all kinds of recording devices in which data that can be read by a computer system is stored. Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage, and the like, which are also implemented in the form of a carrier wave (for example, transmission over the Internet). It also includes. The computer readable recording medium can also be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion.

이상 도면과 명세서에서 최적 실시예들이 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.The best embodiments have been disclosed in the drawings and specification above. Although specific terms have been used herein, they are used only for the purpose of describing the present invention and are not used to limit the scope of the present invention as defined in the meaning or claims. Therefore, those skilled in the art will understand that various modifications and equivalent other embodiments are possible from this. Therefore, the true technical protection scope of the present invention will be defined by the technical spirit of the appended claims.

상기에서 설명한 바와 같이, 본 발명의 워크벤치 기반의 생물학적 개체명 인식 방법 및 시스템에 따르면 생물학적 개체명을 통계 기반의 방식을 사용하여 자동적으로 인식하는데 있어서 생물학 문헌 학습 코퍼스(corpus)를 구축하기 위해 필요 한 비용을 줄이며, 개체명 인식 성능을 지속적으로 향상시킬 수 있다. As described above, according to the workbench based biological entity name recognition method and system of the present invention, it is necessary to construct a biological literature learning corpus in automatically recognizing biological entity names using a statistical based method. It can reduce the cost and continuously improve the performance of object recognition.

Claims (12)

생물학적 개체명을 인식하고자 하는 생물학 문서를 수신하는 단계;Receiving a biological document for recognizing a biological entity name; 생물학적 개체명 인식 모델을 이용하여 상기 수신된 생물학 문서로부터 생물학적 개체명을 인식하는 단계; Recognizing a biological entity name from the received biological document using a biological entity name recognition model; 상기 생물학적 개체명 인식 결과의 교정이 필요한지를 판단하여, 상기 생물학적 개체명 인식 결과의 교정이 필요한 경우 교정된 자료를 수신하는 단계; Determining whether the biometric name recognition result needs to be corrected, and receiving the corrected data when the biometric name recognition result needs to be corrected; 상기 교정된 자료를 기초로 기계 학습을 하는 단계; 및Machine learning based on the calibrated data; And 상기 기계 학습의 결과를 생물학적 개체명 인식 모델에 적용하는 단계;를 포함하는 워크벤치 기반의 생물학적 개체명 인식 방법.And applying the result of the machine learning to a biological entity name recognition model. 제 1항에 있어서, The method of claim 1, 상기 생물학적 개체명 인식 결과의 교정이 필요하지 않은 경우 새로운 생물학 문서를 수신하는 단계로 진행하는 것을 특징으로 하는 워크벤치 기반의 생물학적 개체명 인식 방법. And if it is not necessary to correct the biological entity name recognition result, proceeding to receiving a new biological document. 제 1항에 있어서, The method of claim 1, 상기 생물학적 개체명 인식 모델은 생물학 문헌 학습 코퍼스를 기반으로 기계 학습에 의해 구축되는 통계 기반의 생물학적 개체명 인식 모델인 것을 특징으로 하는 워크벤치 기반의 생물학적 개체명 인식 방법. The biological entity name recognition model is a workbench based biological entity name recognition method, characterized in that the statistical entity-based biological entity name recognition model constructed by machine learning based on the biological literature learning corpus. 제 1항에 있어서, The method of claim 1, 상기 생물학적 개체명 인식 결과의 교정이 필요한 경우 교정된 자료를 수신하여 저장하는 것을 특징으로 워크벤치 기반의 생물학적 개체명 인식 방법. If a correction of the biological entity name recognition result is necessary, the received data stored in the workbench based method characterized in that for receiving and storing. 제 1항에 있어서, The method of claim 1, 상기 기계 학습의 결과를 생물학적 개체명 인식 모델에 적용하는 단계는 상기 기계 학습의 결과를 상기 생물학적 개체명 인식 모델의 기반인 생물학 문헌 학습 코퍼스에 추가하는 것을 특징으로 하는 워크벤치 기반의 생물학적 개체명 인식 방법. The step of applying the result of the machine learning to the biological entity name recognition model, the workbench based biological entity name recognition, characterized in that for adding the results of the machine learning to the biological literature learning corpus based on the biological entity name recognition model Way. 제 1항에 있어서, The method of claim 1, 상기 기계 학습의 결과를 생물학적 개체명 인식 모델에 적용하는 단계를 통해 새로운 생물학적 개체명 인식 모델을 구축하는 것을 특징으로 하는 워크벤치 기반의 생물학적 개체명 인식 방법. And constructing a new biological entity name recognition model by applying the result of the machine learning to the biological entity name recognition model. 제 6항에 있어서, The method of claim 6, 상기 새롭게 구축된 생물학적 개체명 인식 모델은 이후의 생물학적 개체명 인식 단계에 적용되는 것을 특징으로 하는 워크벤치 기반의 생물학적 개체명 인식 방법. And wherein said newly constructed biological entity name recognition model is applied to a subsequent biological entity name recognition step. 생물학적 개체명 인식 모델; Biological entity name recognition model; 상기 생물학적 개체명 인식 모델을 이용하여 생물학적 개체명을 인식하고자 하는 생물학 문서로부터 생물학적 개체명을 인식하는 개체명 인식부;An entity name recognition unit for recognizing a biological entity name from a biological document to recognize a biological entity name using the biological entity name recognition model; 상기 생물학적 개체명 인식 결과의 교정이 필요한 경우 교정된 자료를 수신하여 교정하는 개체명 교정부; 및An entity name correction unit for receiving and correcting the corrected data when the biological entity name recognition result needs to be corrected; And 상기 개체명 교정부로부터 교정된 결과를 기계 학습을 수행하여 새로운 생물학적 개체명 인식 모델을 구축하는 기계 학습부;를 포함하는 워크벤치 기반의 생물학적 개체명 인식 시스템.And a machine learning unit for performing a machine learning on the result corrected by the entity name correcting unit to construct a new biological entity name recognition model. 제 8항에 있어서, The method of claim 8, 상기 생물학적 개체명 인식 모델은 생물학 문헌 학습 코퍼스를 기반으로 기계 학습에 의해 구축되는 통계 기반의 생물학적 개체명 인식 모델인 것을 특징으로 하는 워크벤치 기반의 생물학적 개체명 인식 시스템. The biological entity name recognition model is a workbench based biological entity name recognition system, characterized in that the statistical entity-based biological entity name recognition model constructed by machine learning based on the biological literature learning corpus. 제 8항에 있어서, The method of claim 8, 상기 생물학적 개체명을 인식하고자 하는 생물학 문서를 수신하는 문서 수신부; 및A document receiver configured to receive a biological document for recognizing the biological entity name; And 상기 개체명 인식부로부터 인식된 개체명 인식 결과를 사용자에게 제공하는 개체명 인식 결과 출력부;를 추가로 포함하는 것을 특징으로 하는 워크벤치 기반의 생물학적 개체명 인식 시스템. And a subject name recognition result output unit configured to provide a user with a subject name recognition result recognized by the entity name recognition unit. 제 8항에 있어서, The method of claim 8, 상기 생물학적 개체명 인식 결과의 교정이 필요한 경우 교정된 자료를 수신하여 저장하는 교정 자료 데이터베이스를 추가로 포함하는 것을 특징으로 하는 워크벤치 기반의 생물학적 개체명 인식 시스템. And a calibration data database for receiving and storing the revised data when the calibration of the biological entity name recognition result is required. 제 1항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.A computer-readable recording medium having recorded thereon a program for executing the method of claim 1 on a computer.
KR1020060021875A 2006-03-08 2006-03-08 Method and system for recognizing biological named entity based on workbench KR100825687B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060021875A KR100825687B1 (en) 2006-03-08 2006-03-08 Method and system for recognizing biological named entity based on workbench

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060021875A KR100825687B1 (en) 2006-03-08 2006-03-08 Method and system for recognizing biological named entity based on workbench

Publications (2)

Publication Number Publication Date
KR20070092005A KR20070092005A (en) 2007-09-12
KR100825687B1 true KR100825687B1 (en) 2008-04-29

Family

ID=38689595

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060021875A KR100825687B1 (en) 2006-03-08 2006-03-08 Method and system for recognizing biological named entity based on workbench

Country Status (1)

Country Link
KR (1) KR100825687B1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200054360A (en) 2018-11-05 2020-05-20 삼성전자주식회사 Electronic apparatus and control method thereof
CN113297852B (en) * 2021-07-26 2021-11-12 北京惠每云科技有限公司 Medical entity word recognition method and device

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040038559A (en) * 2002-11-01 2004-05-08 한국전자통신연구원 Apparatus and method for recongnizing and classifying named entities from text document using iterated learning
KR20050022798A (en) * 2003-08-30 2005-03-08 주식회사 이즈텍 A system for analyzing bio chips using gene ontology, and a method thereof
KR20050039067A (en) * 2003-10-23 2005-04-29 한국전자통신연구원 Apparatus and method for recognizing biological named entity from biological literature based on umls
KR20050060646A (en) * 2003-12-17 2005-06-22 엄재홍 Method for extracting and inferring the interaction of biological components, inferring program for performing the method and recording medium thereof

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040038559A (en) * 2002-11-01 2004-05-08 한국전자통신연구원 Apparatus and method for recongnizing and classifying named entities from text document using iterated learning
KR20050022798A (en) * 2003-08-30 2005-03-08 주식회사 이즈텍 A system for analyzing bio chips using gene ontology, and a method thereof
KR20050039067A (en) * 2003-10-23 2005-04-29 한국전자통신연구원 Apparatus and method for recognizing biological named entity from biological literature based on umls
KR20050060646A (en) * 2003-12-17 2005-06-22 엄재홍 Method for extracting and inferring the interaction of biological components, inferring program for performing the method and recording medium thereof

Also Published As

Publication number Publication date
KR20070092005A (en) 2007-09-12

Similar Documents

Publication Publication Date Title
US8521513B2 (en) Localization for interactive voice response systems
US9606978B2 (en) Discovering relationships in tabular data
US9767092B2 (en) Information extraction in a natural language understanding system
JP3366551B2 (en) Spell correction system
CN110276023B (en) POI transition event discovery method, device, computing equipment and medium
US8290968B2 (en) Hint services for feature/entity extraction and classification
CN110795938B (en) Text sequence word segmentation method, device and storage medium
CN110222330B (en) Semantic recognition method and device, storage medium and computer equipment
US8855997B2 (en) Linguistic error detection
US8204738B2 (en) Removing bias from features containing overlapping embedded grammars in a natural language understanding system
WO2018153316A1 (en) Method and apparatus for obtaining text extraction model
CN116629275A (en) Intelligent decision support system and method based on big data
CN111325031A (en) Resume parsing method and device
KR100825687B1 (en) Method and system for recognizing biological named entity based on workbench
CN112395880B (en) Error correction method and device for structured triples, computer equipment and storage medium
CN108241705A (en) A kind of data insertion method and device
JP5286125B2 (en) Word boundary determination device and morphological analysis device
US7925618B2 (en) Information extraction method, extractor rebuilding method, and system and computer program product thereof
CN111753062A (en) Method, device, equipment and medium for determining session response scheme
CN116362219A (en) Information extraction template generation method and device, medium and equipment
CN113672233B (en) Server out-of-band management method, device and equipment based on Redfish
CN115858776A (en) Variant text classification recognition method, system, storage medium and electronic equipment
US9443139B1 (en) Methods and apparatus for identifying labels and/or information associated with a label and/or using identified information
CN110276001B (en) Checking page identification method and device, computing equipment and medium
CN112101019A (en) Requirement template conformance checking optimization method based on part-of-speech tagging and chunk analysis

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110411

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee