KR100825687B1 - Method and system for recognizing biological named entity based on workbench - Google Patents
Method and system for recognizing biological named entity based on workbench Download PDFInfo
- Publication number
- KR100825687B1 KR100825687B1 KR1020060021875A KR20060021875A KR100825687B1 KR 100825687 B1 KR100825687 B1 KR 100825687B1 KR 1020060021875 A KR1020060021875 A KR 1020060021875A KR 20060021875 A KR20060021875 A KR 20060021875A KR 100825687 B1 KR100825687 B1 KR 100825687B1
- Authority
- KR
- South Korea
- Prior art keywords
- biological
- entity name
- name recognition
- biological entity
- recognition model
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Image Analysis (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
본 발명은 생물학 문헌으로부터 생물학적 개체명을 자동으로 인식하기 위한 워크벤치 기반의 생물학적 개체명 인식 방법 및 시스템을 제공한다. 상기 본 발명에 따른 워크벤치 기반의 생물학적 개체명 인식 방법은 생물학적 개체명을 인식하고자 하는 생물학 문서를 수신하는 단계; 생물학적 개체명 인식 모델을 이용하여 상기 수신된 생물학 문서로부터 생물학적 개체명을 인식하는 단계; 상기 생물학적 개체명 인식 결과의 교정이 필요한 경우 교정된 자료를 수신하는 단계; 상기 교정된 자료를 기초로 기계 학습을 하는 단계; 및 상기 기계 학습의 결과를 생물학적 개체명 인식 모델에 적용하는 단계;를 포함한다. 본 발명에 따르면 생물학적 개체명을 통계 기반의 방식을 사용하여 자동적으로 인식하는데 있어서 생물학 문헌 학습 코퍼스(corpus)를 구축하기 위해 필요한 비용을 줄이며, 개체명 인식 성능을 지속적으로 향상시킬 수 있다.The present invention provides a workbench based biological entity recognition method and system for automatically recognizing biological entity names from biological literature. The workbench based biological entity name recognition method according to the present invention comprises the steps of: receiving a biological document to recognize a biological entity name; Recognizing a biological entity name from the received biological document using a biological entity name recognition model; Receiving the corrected data when the biological entity name recognition result needs to be corrected; Machine learning based on the calibrated data; And applying the result of the machine learning to a biological entity name recognition model. According to the present invention, it is possible to reduce the cost required to establish a biological literature learning corpus in automatically recognizing biological entity names using a statistics-based method, and to continuously improve the entity name recognition performance.
생물학적 개체명, 개체명 인식, 워크벤치 Biological Names, Name Recognition, Workbench
Description
도 1은 본 발명의 바람직한 실시예에 따른 워크벤치 기반의 생물학적 개체명 인식 방법을 도시하는 흐름도이다. 1 is a flowchart illustrating a workbench based biological entity name recognition method according to a preferred embodiment of the present invention.
도 2는 본 발명의 바람직한 실시예에 따른 워크벤치 기반의 생물학적 개체명 인식 시스템의 구성을 도시하는 블록도이다. 2 is a block diagram showing the configuration of a workbench based biological entity recognition system according to a preferred embodiment of the present invention.
<도면의 주요부분에 대한 부호의 설명><Description of the symbols for the main parts of the drawings>
11 : 문서 수신부 12 : 개체명 인식부11: document receiving unit 12: object name recognition unit
13 : 개체명 인식 결과 출력부 14 : 개체명 교정부13: object name recognition result output unit 14: object name correction unit
15 : 기계 학습부 16 : 개체명 인식 모델15: machine learning unit 16: object name recognition model
17 : 코퍼스 데이터베이스 18 : 교정 자료 데이터베이스17: corpus database 18: calibration data database
본 발명은 생물학 문헌으로부터 생물학적 개체명을 자동으로 추출하기 위한 워크벤치 기반의 생물학적 개체명 인식 방법 및 시스템에 관한 것이다. The present invention relates to a workbench based biological entity recognition method and system for automatically extracting biological entity names from biological literature.
생물학 연구의 활성화로 생물학 문헌이 급증하면서 생물학 문헌에서 자동으 로 정보를 추출하는 기술에 대한 요구가 증대되고 있다. 생물학 문헌으로부터 추출하고자 하는 핵심적인 정보는 생물학적 정보의 핵심을 이루고 있는 요소인 유전자명, 단백질명 및 생체 구성요소명 등과 같은 생물학적 개체명, 상기 생물학적 개체들 간의 관계 또는 각 개체들이 주체가 되어 수행하는 생물학적 현상을 포함한다. The surge in biological literature is fueling the need for technology to automatically extract information from biological literature. The core information to be extracted from the biological literature is biological name such as gene name, protein name and bio constituent name which are the core elements of biological information, the relationship between the biological objects or the subjects Include biological phenomena.
따라서 생물학 문헌을 대상으로 정보를 추출하기 위해서는 생물학 정보의 핵심을 이루고 있는 유전자명, 단백질명 및 생체 구성요소명 등과 같은 생물학적 개체들의 이름을 정확하게 인식하고 분류하는 기술이 선행되어야 한다. Therefore, in order to extract information from biological literature, a technique of accurately recognizing and classifying names of biological entities, such as gene names, protein names, and biological component names, which are the core of biological information, must be preceded.
일반적으로, 생물학적 개체명을 인식하는 방법으로서 한정된 도메인을 대상으로 생물학적 지식을 갖춘 전문가가 대상 도메인에 대한 각종 언어 자원 및 규칙을 생성하고 이를 이용해 개체명을 인식하는 규칙 기반의 방식이 있다. 하지만, 상기 방법은 언어 자원 및 규칙 생성에 많은 비용이 소요되는 문제점이 있다. In general, as a method of recognizing a biological entity name, there is a rule-based method in which a biologist having knowledge of a biological domain generates various language resources and rules for a target domain and recognizes the entity name using the same. However, there is a problem in that the method is expensive to generate language resources and rules.
다른 방법으로서 대용량의 생물학 문헌 학습 코퍼스(corpus)를 구축하고 이에 대해 기계 학습 알고리즘을 적용해 개체명을 인식하는 통계 기반 방식이 있다. 하지만, 상기 방법은 생물학 문헌 학습 코퍼스 구축에 많은 비용이 소요된다는 문제점이 있다.Another approach is to build a large-scale biological literature learning corpus and apply a machine learning algorithm to the statistical-based method for recognizing individual names. However, there is a problem that the method is expensive to build a biological literature learning corpus.
생물학적 문헌에서 개체명을 자동으로 인식하기 위한 워크벤치 구조의 종래 기술로는 대한민국 특허공개번호 제 2005-0039067호를 들 수 있다. 상기 대한민국 특허공개번호 제 2005-0039067호에는 생물학적 문헌에서 개체명을 자동으로 인식하는 장치 및 방법을 제공하고 있는데, UMLS(Unified Medical Language System)라는 생물학 어휘 자원을 활용하여 개체명 인식 규칙을 구성하고, 이 규칙을 이용하여 생물학 문헌으로부터 생물학적 개체명을 인식하고 있다.The prior art of the workbench structure for automatically recognizing the individual name in the biological literature is Korean Patent Publication No. 2005-0039067. The Republic of Korea Patent Publication No. 2005-0039067 provides a device and method for automatically recognizing the name of the subject in the biological literature, using the biological vocabulary resource called UMLS (Unified Medical Language System) to configure the name recognition rule In addition, this rule is used to recognize biological names from biological literature.
하지만, 상기와 같은 종래의 방법은 규칙 생성에 많은 비용이 소요되고, 한정된 어휘 자원의 사용으로 인한 대상 도메인의 한정성을 개선하기 힘들다는 문제점이 있다. However, such a conventional method has a problem in that it is expensive to generate rules, and it is difficult to improve the limitation of the target domain due to the use of limited lexical resources.
본 발명은 상기 종래 기술의 문제점들을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 생물학 문헌 학습 코퍼스(corpus)를 구축하기 위한 비용을 줄이며 개체명 인식 성능을 향상시킬 수 있는 생물학 문헌으로부터 생물학적 개체명을 자동으로 추출하기 위한 워크벤치 기반의 생물학적 개체명 인식 방법을 제공하는 것이다. SUMMARY OF THE INVENTION The present invention has been made to solve the problems of the prior art, and an object of the present invention is to reduce the cost of constructing a biological literature learning corpus and to improve the entity recognition performance. It provides a workbench-based method for recognizing biological entity names for automatic extraction.
본 발명의 다른 목적은 생물학 문헌 학습 코퍼스(corpus)를 구축하기 위한 비용을 줄이며 개체명 인식 성능을 향상시킬 수 있는 생물학 문헌으로부터 생물학적 개체명을 자동으로 추출하기 위한 워크벤치 기반의 생물학적 개체명 인식 시스템을 제공하는 것이다. Another object of the present invention is a workbench based biological entity recognition system for automatically extracting biological entity names from biological literature that can reduce the cost of constructing a biological literature learning corpus and improve the entity recognition performance. To provide.
본 발명의 또 다른 목적은 상기 워크벤치 기반의 생물학적 개체명 인식 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공하는 것이다. It is still another object of the present invention to provide a computer readable recording medium having recorded thereon a program for executing the workbench based biological entity name recognition method on a computer.
본 발명의 목적을 달성하기 위하여, 본 발명은 생물학적 개체명을 인식하고자 하는 생물학 문서를 수신하는 단계; 생물학적 개체명 인식 모델을 이용하여 상기 수신된 생물학 문서로부터 생물학적 개체명을 인식하는 단계; 상기 생물학적 개체명 인식 결과의 교정이 필요한지를 판단하여, 상기 생물학적 개체명 인식 결과의 교정이 필요한 경우 교정된 자료를 수신하는 단계; 상기 교정된 자료를 기초로 기계 학습을 하는 단계; 및 상기 기계 학습의 결과를 생물학적 개체명 인식 모델에 적용하는 단계;를 포함하는 워크벤치 기반의 생물학적 개체명 인식 방법을 제공한다.In order to achieve the object of the present invention, the present invention comprises the steps of receiving a biological document to be recognized biological name; Recognizing a biological entity name from the received biological document using a biological entity name recognition model; Determining whether the biometric name recognition result needs to be corrected, and receiving the corrected data when the biometric name recognition result needs to be corrected; Machine learning based on the calibrated data; And applying a result of the machine learning to a biological entity name recognition model.
본 발명의 일 구체예에 있어서, 상기 워크벤치 기반의 생물학적 개체명 인식 방법은 상기 생물학적 개체명 인식 결과의 교정이 필요하지 않은 경우 새로운 생물학 문서를 수신하는 단계로 진행하는 것을 특징으로 한다. In one embodiment of the present invention, the workbench based biological entity name recognition method is characterized in that proceeding to the step of receiving a new biological document when the correction of the biological entity name recognition result is not necessary.
본 발명의 일 구체예에 있어서, 상기 생물학적 개체명 인식 모델은 생물학 문헌 학습 코퍼스를 기반으로 기계 학습에 의해 구축되는 통계 기반의 생물학적 개체명 인식 모델일 수 있다. In one embodiment of the present invention, the biological entity name recognition model may be a statistical entity-based biological entity name recognition model constructed by machine learning based on a biological literature learning corpus.
본 발명의 일 구체예에 있어서, 상기 생물학적 개체명 인식 결과의 교정이 필요한 경우 교정된 자료를 수신하여 저장할 수 있다. In one embodiment of the present invention, when correction of the biological entity name recognition result is required, the corrected data may be received and stored.
본 발명의 일 구체예에 있어서, 상기 기계 학습의 결과를 생물학적 개체명 인식 모델에 적용하는 단계는 상기 기계 학습의 결과를 상기 생물학적 개체명 인식 모델의 기반인 생물학 문헌 학습 코퍼스에 추가하는 것일 수 있다. In one embodiment of the present invention, applying the result of the machine learning to the biological entity name recognition model may be to add the result of the machine learning to the biological literature learning corpus based on the biological entity name recognition model. .
본 발명의 일 구체예에 있어서, 상기 기계 학습의 결과를 생물학적 개체명 인식 모델에 적용하는 단계를 통해 새로운 생물학적 개체명 인식 모델을 구축할 수 있다. In one embodiment of the present invention, a new biological entity name recognition model may be constructed by applying the result of the machine learning to the biological entity name recognition model.
본 발명의 일 구체예에 있어서, 상기 새롭게 구축된 생물학적 개체명 인식 모델은 이후의 생물학적 개체명 인식 단계에 적용될 수 있다. In one embodiment of the present invention, the newly constructed biological entity name recognition model may be applied to a subsequent biological entity name recognition step.
본 발명의 다른 목적을 달성하기 위하여, 본 발명은 생물학적 개체명 인식 모델; 상기 생물학적 개체명 인식 모델을 이용하여 생물학적 개체명을 인식하고자 하는 생물학 문서로부터 생물학적 개체명을 인식하는 개체명 인식부; 상기 생물학적 개체명 인식 결과의 교정이 필요한 경우 교정된 자료를 수신하여 교정하는 개체명 교정부; 및 상기 개체명 교정부로부터 교정된 결과를 기계 학습을 수행하여 새로운 생물학적 개체명 인식 모델을 구축하는 기계 학습부;를 포함하는 워크벤치 기반의 생물학적 개체명 인식 시스템을 제공한다.In order to achieve another object of the present invention, the present invention provides a biological entity name recognition model; An entity name recognition unit for recognizing a biological entity name from a biological document to be recognized by using the biological entity name recognition model; An entity name correction unit for receiving and correcting the corrected data when the biological entity name recognition result needs to be corrected; And a machine learning unit for constructing a new biological entity name recognition model by performing machine learning on the result corrected by the entity name correction unit.
본 발명의 일 구체예에 있어서, 상기 생물학적 개체명 인식 모델은 생물학 문헌 학습 코퍼스를 기반으로 기계 학습에 의해 구축되는 통계 기반의 생물학적 개체명 인식 모델일 수 있다. In one embodiment of the present invention, the biological entity name recognition model may be a statistical entity-based biological entity name recognition model constructed by machine learning based on a biological literature learning corpus.
본 발명의 일 구체예에 있어서, 상기 워크벤치 기반의 생물학적 개체명 인식 시스템은 상기 생물학적 개체명을 인식하고자 하는 생물학 문서를 수신하는 문서 수신부; 및 상기 개체명 인식부로부터 인식된 개체명 인식 결과를 사용자에게 제공하는 개체명 인식 결과 출력부;를 추가로 포함할 수 있다. In one embodiment of the present invention, the workbench based biological entity name recognition system includes a document receiving unit for receiving a biological document to recognize the biological entity name; And an entity name recognition result output unit for providing a user with an entity name recognition result recognized by the entity name recognition unit.
본 발명의 일 구체예에 있어서, 상기 워크벤치 기반의 생물학적 개체명 인식 시스템은 상기 생물학적 개체명 인식 결과의 교정이 필요한 경우 교정된 자료를 수신하여 저장하는 교정 자료 데이터베이스를 추가로 포함할 수 있다. In one embodiment of the present invention, the workbench based biological entity name recognition system may further include a calibration data database for receiving and storing the calibration data when the calibration of the biological entity name recognition result is required.
본 발명의 또 다른 목적을 달성하기 위하여, 본 발명은 상기 워크벤치 기반 의 생물학적 개체명 인식 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공한다. In order to achieve another object of the present invention, the present invention provides a computer-readable recording medium having recorded thereon a program for executing the workbench based biological entity name recognition method on a computer.
이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세히 설명한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 바람직한 실시예에 따른 워크벤치 기반의 생물학적 개체명 인식 방법을 도시하는 흐름도이다.1 is a flowchart illustrating a workbench based biological entity name recognition method according to a preferred embodiment of the present invention.
도 1을 참조하면, 워크벤치 구조를 기반으로 생물학 문헌으로부터 생물학적 개체명을 자동으로 인식하기 위해서, 먼저 생물학적 개체명을 인식하고자 하는 생물학 문서를 수신 한다(S110). Referring to FIG. 1, in order to automatically recognize a biological entity name from a biological document based on a workbench structure, first, a biological document for recognizing the biological entity name is received (S110).
상기 생물학 문서는 생물학적 개체명 및 상기 생물학적 개체학적 개체들 간의 관계 또는 각 개체들이 주체가 되어 수행하는 생물학적 현상에 관한 정보를 포함하고 있는 문서로서, 예컨대, 논문 또는 특허와 같은 기술 문서일 수 있다. The biological document is a document containing information on a biological entity name and a relationship between the biological entity objects or a biological phenomenon performed by each entity as a subject, and may be a technical document such as a paper or a patent.
상기 생물학적 개체명은 생물학적 물질들의 명칭을 말하는 것으로, 그의 구체적인 종류는 특별히 한정되지 않는다. 예컨대, 상기 생물학적 개체명은 유전자명, 단백질명 또는 생체 구성요소명일 수 있다. The biological entity name refers to names of biological substances, and specific types thereof are not particularly limited. For example, the biological entity name may be a gene name, a protein name, or a biological component name.
다음으로, 생물학적 개체명 인식 모델을 이용하여 상기 수신된 생물학 문서로부터 생물학적 개체명을 인식한다(S120). Next, the biological entity name is recognized from the received biological document using the biological entity name recognition model (S120).
상기 생물학적 개체명 인식 모델은 생물학 문헌 학습 코퍼스(corpus)를 기반으로 기계 학습에 의해 구축되는 통계 기반의 생물학적 개체명 인식 모델인 것이 바람직하다. 상기 생물학적 개체명 인식 모델로서 종래의 공지 모델을 사용할 수 있다. 상기 생물학 문헌 학습 코퍼스는 생물학적 지식을 갖춘 전문가에 의해 작성된 것일 수 있다. The biological entity name recognition model is preferably a statistics-based biological entity name recognition model constructed by machine learning based on a biological literature learning corpus. Conventional known models can be used as the biological entity name recognition model. The biological literature learning corpus may be written by an expert with biological knowledge.
상기 생물학적 개체명 인식 모델을 상기 입력 받은 문서에 적용하여 상기 생물학 문서에 포함되어 있는 생물학적 개체명을 인식하고, 상기 인식 결과를 사용자에게 제공할 수 있다. The biological entity name recognition model may be applied to the received document to recognize the biological entity name included in the biological document and provide the recognition result to the user.
사용자는 상기 제공받은 개체명 인식 결과로부터 교정 필요 유무를 판단한다(S130). 상기 판단은, 예컨대, 사용자에 의해 수행될 수 있다. 또한, 상기 판단은 자동적으로 수행될 수도 있다. The user determines whether there is a need for correction from the provided entity name recognition result (S130). The determination may be performed by the user, for example. In addition, the determination may be performed automatically.
예를 들어, 개체명 인식을 원하는 "The sphingosine-1-phosphate receptor EDG-1 is essential for platelet-derived growth factor-induced cell motility" 문장에서 EDG-1은 단백질명으로 인식되어야 한다. 하지만, EDG-1이 개체명으로 인식되지 않았거나, EDG-1이 단백질명이 아닌 유전자명과 같은 다른 종류의 개체로 인식되었을 경우는 개체명 인식 결과에 대한 교정이 필요한 경우이다. For example, in the sentence "The sphingosine-1-phosphate receptor EDG-1 is essential for platelet-derived growth factor-induced cell motility" wants to recognize the name, EDG-1 should be recognized as a protein name. However, if EDG-1 is not recognized as an individual name, or if EDG-1 is recognized as another type of entity such as a gene name rather than a protein name, it is a case where correction of the result of the name recognition is necessary.
개체명 인식 결과에 대한 교정이 필요하지 않은 경우 생물학 문서 입력 단계로 복귀하여 새로운 생물학 문서를 수신한다.If no correction for the entity name recognition result is needed, return to the biological document input step to receive a new biological document.
개체명 인식 결과에 대한 교정이 필요한 경우 교정된 자료를 수신한다(S140).When the correction for the entity name recognition result is necessary, the corrected data is received (S140).
예를 들어, 상기 예문에서 EDG-1이 유전자명으로 인식되었을 경우 EDG-1을 단백질명으로 교정하고, 상기 교정된 자료를 수신한다. For example, when EDG-1 is recognized as a gene name in the example sentence, EDG-1 is corrected to a protein name and the corrected data is received.
상기 생물학적 개체명 인식 결과의 교정이 필요한 경우 상기 교정되어 수신 된 자료는 데이터베이스로 저장될 수 있다. When correction of the biological entity name recognition result is required, the corrected and received data may be stored in a database.
상기 개체명 인식 결과의 교정 후에 상기 교정 사항들에 대한 통계 기반의 기계 학습을 수행한다(S150).After calibration of the entity name recognition result, statistical-based machine learning is performed on the corrections (S150).
상기 기계 학습의 결과를 생물학적 개체명 인식 모델에 적용한다(S160). 상기 기계 학습의 결과를 생물학적 개체명 인식 모델에 적용하는 단계(S160)는 상기 기계 학습의 결과를 상기 생물학적 개체명 인식 모델의 기반인 생물학 문헌 학습 코퍼스에 추가함으로써 수행될 수 있다. The result of the machine learning is applied to the biological entity name recognition model (S160). The step S160 of applying the result of the machine learning to the biological entity name recognition model may be performed by adding the result of the machine learning to the biological document learning corpus that is the basis of the biological entity name recognition model.
상기 기계 학습의 결과를 생물학적 개체명 인식 모델에 적용하는 단계(S160)를 통해 새로운 생물학적 개체명 인식 모델을 구축할 수 있다. A new biological entity name recognition model may be constructed by applying the result of the machine learning to the biological entity name recognition model (S160).
또한, 상기 새롭게 구축된 생물학적 개체명 인식 모델은 이후의 생물학적 개체명 인식 단계에 적용될 수 있다. In addition, the newly constructed biological entity name recognition model may be applied to a subsequent biological entity name recognition step.
도 2는 본 발명의 바람직한 실시예에 따른 워크벤치 기반의 생물학적 개체명 인식 시스템의 구성을 도시하는 블록도이다. 2 is a block diagram showing the configuration of a workbench based biological entity recognition system according to a preferred embodiment of the present invention.
도 2를 참조하면, 본 발명에 따른 워크벤치 기반의 생물학적 개체명 인식 시스템(10)은 개체명 인식부(12), 개체명 교정부(14), 기계 학습부(15) 및 개체명 인식 모델(16)을 포함할 수 있다. 또한, 상기 시스템(10)은 문서 수신부(11), 개체명 인식 결과 출력부(13), 교정 자료 데이터베이스(18)를 추가로 포함할 수 있다. Referring to FIG. 2, the workbench-based biological entity
상기 문서 입력부(11)는 상기 생물학적 개체명을 인식하고자 하는 생물학 문서를 수신하는 기능을 한다. The
상기 개체명 인식부(12)는 생물학적 개체명 인식 모델(16)을 이용하여 생물 학적 개체명을 인식하고자 하는 생물학 문서로부터 생물학적 개체명을 인식하는 기능을 한다. The entity
상기 개체명 인식 결과 출력부(13)는 상기 개체명 인식부(12)로부터 인식된 개체명 인식 결과를 사용자에게 제공하는 기능을 한다.The entity name recognition
상기 개체명 교정부(14)는 상기 생물학적 개체명 인식 결과의 교정이 필요한 경우 교정된 자료를 수신하고 이를 교정하는 기능을 한다. 상기 교정은 상기 개체명 인식 결과 출력부(13)로부터 개체명 인식 결과를 제공받은 사용자가 개체명 인식 결과에 대한 교정 필요 여부를 판단한 뒤 교정이 필요한 경우 상기 교정 자료를 개체명 교정부(14)에 입력할 수 있을 것이다. 다르게는, 상기 교정을 미리 정해진 기준에 따라 자동적으로 수행되도록 할 수도 있을 것이다. The entity
상기 기계 학습부(15)는 상기 개체명 교정부(14)로부터 교정된 결과를 기계 학습, 예컨대 통계 기반 기계 학습을 통해 수행하여 새로운 개체명 인식 모델(16)을 구축할 수 있다. 새롭게 구축된 개체명 인식 모델(16)은 이후 개체명 인식부(11)에 적용될 수 있다. The
상기 생물학적 개체명 인식 모델(16)은 생물학 문헌 학습 코퍼스(corpus)를 기반으로 기계 학습에 의해 구축되는 통계 기반의 생물학적 개체명 인식 모델인 것이 바람직하다. 상기 생물학적 개체명 인식 모델로서 종래의 공지 모델을 사용할 수 있다. 상기 생물학 문헌 학습 코퍼스(17)는 생물학적 지식을 갖춘 전문가에 의해 작성된 것일 수 있다. The biological entity
교정 자료 데이터베이스(18)는 상기 생물학적 개체명 인식 결과의 교정이 필 요한 경우 교정된 자료를 수신하여 저장하는 기능을 한다. The
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.The invention can also be embodied as computer readable code on a computer readable recording medium. The computer-readable recording medium includes all kinds of recording devices in which data that can be read by a computer system is stored. Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage, and the like, which are also implemented in the form of a carrier wave (for example, transmission over the Internet). It also includes. The computer readable recording medium can also be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion.
이상 도면과 명세서에서 최적 실시예들이 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.The best embodiments have been disclosed in the drawings and specification above. Although specific terms have been used herein, they are used only for the purpose of describing the present invention and are not used to limit the scope of the present invention as defined in the meaning or claims. Therefore, those skilled in the art will understand that various modifications and equivalent other embodiments are possible from this. Therefore, the true technical protection scope of the present invention will be defined by the technical spirit of the appended claims.
상기에서 설명한 바와 같이, 본 발명의 워크벤치 기반의 생물학적 개체명 인식 방법 및 시스템에 따르면 생물학적 개체명을 통계 기반의 방식을 사용하여 자동적으로 인식하는데 있어서 생물학 문헌 학습 코퍼스(corpus)를 구축하기 위해 필요 한 비용을 줄이며, 개체명 인식 성능을 지속적으로 향상시킬 수 있다. As described above, according to the workbench based biological entity name recognition method and system of the present invention, it is necessary to construct a biological literature learning corpus in automatically recognizing biological entity names using a statistical based method. It can reduce the cost and continuously improve the performance of object recognition.
Claims (12)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060021875A KR100825687B1 (en) | 2006-03-08 | 2006-03-08 | Method and system for recognizing biological named entity based on workbench |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060021875A KR100825687B1 (en) | 2006-03-08 | 2006-03-08 | Method and system for recognizing biological named entity based on workbench |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20070092005A KR20070092005A (en) | 2007-09-12 |
KR100825687B1 true KR100825687B1 (en) | 2008-04-29 |
Family
ID=38689595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020060021875A KR100825687B1 (en) | 2006-03-08 | 2006-03-08 | Method and system for recognizing biological named entity based on workbench |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100825687B1 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200054360A (en) | 2018-11-05 | 2020-05-20 | 삼성전자주식회사 | Electronic apparatus and control method thereof |
CN113297852B (en) * | 2021-07-26 | 2021-11-12 | 北京惠每云科技有限公司 | Medical entity word recognition method and device |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040038559A (en) * | 2002-11-01 | 2004-05-08 | 한국전자통신연구원 | Apparatus and method for recongnizing and classifying named entities from text document using iterated learning |
KR20050022798A (en) * | 2003-08-30 | 2005-03-08 | 주식회사 이즈텍 | A system for analyzing bio chips using gene ontology, and a method thereof |
KR20050039067A (en) * | 2003-10-23 | 2005-04-29 | 한국전자통신연구원 | Apparatus and method for recognizing biological named entity from biological literature based on umls |
KR20050060646A (en) * | 2003-12-17 | 2005-06-22 | 엄재홍 | Method for extracting and inferring the interaction of biological components, inferring program for performing the method and recording medium thereof |
-
2006
- 2006-03-08 KR KR1020060021875A patent/KR100825687B1/en not_active IP Right Cessation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040038559A (en) * | 2002-11-01 | 2004-05-08 | 한국전자통신연구원 | Apparatus and method for recongnizing and classifying named entities from text document using iterated learning |
KR20050022798A (en) * | 2003-08-30 | 2005-03-08 | 주식회사 이즈텍 | A system for analyzing bio chips using gene ontology, and a method thereof |
KR20050039067A (en) * | 2003-10-23 | 2005-04-29 | 한국전자통신연구원 | Apparatus and method for recognizing biological named entity from biological literature based on umls |
KR20050060646A (en) * | 2003-12-17 | 2005-06-22 | 엄재홍 | Method for extracting and inferring the interaction of biological components, inferring program for performing the method and recording medium thereof |
Also Published As
Publication number | Publication date |
---|---|
KR20070092005A (en) | 2007-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8521513B2 (en) | Localization for interactive voice response systems | |
US9606978B2 (en) | Discovering relationships in tabular data | |
US9767092B2 (en) | Information extraction in a natural language understanding system | |
JP3366551B2 (en) | Spell correction system | |
CN110276023B (en) | POI transition event discovery method, device, computing equipment and medium | |
US8290968B2 (en) | Hint services for feature/entity extraction and classification | |
CN110795938B (en) | Text sequence word segmentation method, device and storage medium | |
CN110222330B (en) | Semantic recognition method and device, storage medium and computer equipment | |
US8855997B2 (en) | Linguistic error detection | |
US8204738B2 (en) | Removing bias from features containing overlapping embedded grammars in a natural language understanding system | |
WO2018153316A1 (en) | Method and apparatus for obtaining text extraction model | |
CN116629275A (en) | Intelligent decision support system and method based on big data | |
CN111325031A (en) | Resume parsing method and device | |
KR100825687B1 (en) | Method and system for recognizing biological named entity based on workbench | |
CN112395880B (en) | Error correction method and device for structured triples, computer equipment and storage medium | |
CN108241705A (en) | A kind of data insertion method and device | |
JP5286125B2 (en) | Word boundary determination device and morphological analysis device | |
US7925618B2 (en) | Information extraction method, extractor rebuilding method, and system and computer program product thereof | |
CN111753062A (en) | Method, device, equipment and medium for determining session response scheme | |
CN116362219A (en) | Information extraction template generation method and device, medium and equipment | |
CN113672233B (en) | Server out-of-band management method, device and equipment based on Redfish | |
CN115858776A (en) | Variant text classification recognition method, system, storage medium and electronic equipment | |
US9443139B1 (en) | Methods and apparatus for identifying labels and/or information associated with a label and/or using identified information | |
CN110276001B (en) | Checking page identification method and device, computing equipment and medium | |
CN112101019A (en) | Requirement template conformance checking optimization method based on part-of-speech tagging and chunk analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20110411 Year of fee payment: 4 |
|
LAPS | Lapse due to unpaid annual fee |