KR20220132679A - Clinical information search system and method using structure information of natural language - Google Patents

Clinical information search system and method using structure information of natural language Download PDF

Info

Publication number
KR20220132679A
KR20220132679A KR1020210036995A KR20210036995A KR20220132679A KR 20220132679 A KR20220132679 A KR 20220132679A KR 1020210036995 A KR1020210036995 A KR 1020210036995A KR 20210036995 A KR20210036995 A KR 20210036995A KR 20220132679 A KR20220132679 A KR 20220132679A
Authority
KR
South Korea
Prior art keywords
information
natural language
entity
bundled
clinical
Prior art date
Application number
KR1020210036995A
Other languages
Korean (ko)
Other versions
KR102632539B1 (en
Inventor
민충기
박서진
김경남
Original Assignee
주식회사 웨이센
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 웨이센 filed Critical 주식회사 웨이센
Priority to KR1020210036995A priority Critical patent/KR102632539B1/en
Publication of KR20220132679A publication Critical patent/KR20220132679A/en
Application granted granted Critical
Publication of KR102632539B1 publication Critical patent/KR102632539B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The present invention relates to a clinical information search system using natural language structure information and a method thereof. According to the present invention, the clinical information search system using natural language structure information comprises: a natural language processing device preprocessing received natural language data by a rule pattern, then tagging morphemic parts of speech by separating the natural language data into clauses in minimal units, labeling words or phrases as specific semantic types, then extracting the morphemic relationship between objects with labeled semantic types, and bundling embedding vector values of two extracted different objects and relationship information between the two objects into one to calculate bundling object information; a search database (DB) storing vector information of bundled objects made by the natural language processing device; and a clinical test database (DB) built based on clinical test data with bundled objects, and storing clinical test information. Accordingly, the present invention can resolve the structural difference in a sentence such as the order of various object bundles in the sentence by using only the relationship information between objects in natural language information to utilize the relationship information in a search and resolve vocabulary diversity by using a word embedding model to calculate vector values of bundled objects.

Description

자연어 구조 정보를 이용한 임상정보 검색 시스템 및 방법{Clinical information search system and method using structure information of natural language}Clinical information search system and method using structure information of natural language

본 발명은 자연어 구조 정보를 이용한 임상정보 검색 시스템 및 방법에 관한 것으로서, 더 상세하게는 의미 정보를 가지는 온톨로지(ontology) 등의 데이터베이스의 도움 없이 자연어 처리를 이용한 자연어 수준의 개체 및 개체 간의 관계 정보만을 이용하여 검색 데이터베이스를 구축하고, 비정형화된 텍스트 데이터를 자연어 처리 수준의 가공만으로 검색어에 활용함으로써 환자에 따른 임상시험의 자동 분류를 가능하게 하는 자연어 구조 정보를 이용한 임상정보 검색 시스템 및 방법에 관한 것이다.The present invention relates to a clinical information retrieval system and method using natural language structure information, and more particularly, only natural language level entities using natural language processing and relationship information between entities without the help of databases such as ontology having semantic information. It relates to a clinical information retrieval system and method using natural language structure information that enables automatic classification of clinical trials according to patients by building a search database using .

의학 분야와 관련하여 생산되는 데이터는 정형화된 데이터도 많지만, 상당수가 비정형화된 텍스트 중심의 데이터로 생산되고 있다.Although there are many types of data produced in relation to the medical field, most of them are produced as unstructured text-oriented data.

환자나 실험 등의 사건 별로 다양한 조합의 임상 결과가 만들어지게 되며, 이를 정형화된 양식에 입력하는 경우 양식의 입력 요구 사항에 반하는 상황이 발생하는 빈도가 높아 이를 비정형화된 문장의 형태로 하여 입력하는 경우가 많다.Various combinations of clinical results are created for each event, such as a patient or experiment, and when they are input in a standardized form, situations that go against the input requirements of the form occur frequently, so it is recommended to enter them in the form of an atypical sentence. in many cases

사용자(예를 들면, 의사)는 환자의 환경이나 상태에 따라 유사한 조건에서의 임상 시험결과에 따른 치료법이나 치료제에 대한 정보를 얻고자 하며, 이를 위해 임상시험 데이터베이스에서 해당 환자의 조건을 입력으로 하여 검색을 하는 시스템이 지원되고 있다. 이와 같은 검색 데이터베이스를 구축하기 위해서는 임상시험이나 문헌의 비정형화된 텍스트 데이터를 정형화한 후, 구조적 정보를 표현하는데이터베이스를 이용하여 구축한다.A user (e.g., a doctor) wants to obtain information about a treatment or treatment according to the results of a clinical trial under similar conditions according to the patient's environment or condition. A search system is supported. In order to construct such a search database, the unstructured text data of clinical trials or literature is formalized and then constructed using a database expressing structural information.

비정형화된 데이터의 정형화를 위해 자연어 처리 기술을 이용하여 자연어 수준의 개체 및 개체 간의 관계를 추출하여 1차 구조화하고, 의학과 관련한 개체 관계를 정의하는 다양한 온톨로지 등의 의미 정보를 활용하여 2차 구조화를 하는데, 이는 구축에 많은 비용이 수반되고 의미 정보가 다루는 범위나 규모도 제한적이다.For standardization of unstructured data, natural language processing technology is used to extract natural language level entities and relationships between entities for primary structuring, and secondary structuring is achieved using semantic information such as various ontology defining entity relationships related to medicine. However, this involves a lot of cost to build, and the scope or scale of semantic information is limited.

또한, 검색 시점에서는 정형화되고 구조화된 입력 양식을 통해서 검색식을 생성하여 데이터베이스에 검색을 요청하게 되는 바, 따라서 검색을 위한 항목의 수가 증가하고, 입력의 자유도가 제한되며, 입력 양식의 복잡도가 증가하게 된다.In addition, at the time of search, a search expression is generated through a standardized and structured input form and a search is requested to the database. Accordingly, the number of items for search increases, the degree of freedom of input is limited, and the complexity of the input form increases. will do

한편, 한국 공개특허공보 제10-2016-0030809호(특허문헌 1)에는 "비구조화 임상 문서의 치환 기반 패턴 검색 장치 및 검색 방법"이 개시되어 있는바, 이에 따른 비구조화 임상 문서의 치환 기반 패턴 검색 장치는, 자연어 처리(Natural Language Processing, NLP) 과정을 통해 수신된 비구조화 의학 문서를 정규화(Normalization)하여 정규화된 텍스트를 생성하는 자연어 처리부; 상기 정규화된 텍스트 및 수신된 도메인 모델을 매칭하여 개체명 인식(Named Entity Recognition) 정보를 식별하는 개체명 인식부; 치환 기반 패턴 발견 접근법(permutation-based pattern discovery approach)을 이용하여 상기 개체명 인식 정보로부터 구조화된 정보를 생성하는 패턴 인식부; 및 상기 구조화된 정보에 기초하여 규정된 템플릿을 작성하는 템플릿 작성부;를 포함하는 것을 특징으로 한다.On the other hand, Korean Patent Application Laid-Open No. 10-2016-0030809 (Patent Document 1) discloses "a substitution-based pattern search apparatus and search method for unstructured clinical documents", and thus substitution-based patterns for unstructured clinical documents The search apparatus includes: a natural language processing unit configured to generate normalized text by normalizing an unstructured medical document received through a natural language processing (NLP) process; an entity name recognition unit for identifying Named Entity Recognition information by matching the normalized text and the received domain model; a pattern recognition unit generating structured information from the entity name recognition information using a permutation-based pattern discovery approach; and a template creation unit for creating a prescribed template based on the structured information.

이상과 같은 특허문헌 1의 경우, 구조화되지 않은 의학 문서로부터 구조화된 정보를 추출함으로써, 임상의 또는 연구원들이 정보를 보다 빠르게 검색 및 분류할 수 있는 장점이 있기는 하나, 의학과 관련한 개체 관계를 정의하는 다양한 온톨로지 등의 의미 정보를 활용하여 관계정보를 표현하는 데이터베이스를 구축하고, 온톨로지 검색과 같은 복잡한 검색 규칙을 이용함에 따라, 일반 사용자의 접근을 제한하게 되고, 시스템의 이용을 위한 학습에 상당한 시간을 필요로 하는 단점이 있다. In the case of Patent Document 1 as described above, by extracting structured information from unstructured medical documents, there is an advantage that clinicians or researchers can search and classify information more quickly, but By building a database that expresses relational information by using semantic information such as various ontology, and using complex search rules such as ontology search, access of general users is restricted, and considerable time is spent on learning to use the system. There are downsides to needing it.

한국 공개특허공보 제10-2016-0030809호(2016.03.21.)Korean Patent Publication No. 10-2016-0030809 (2016.03.21.)

본 발명은 상기와 같은 상황을 종합적으로 감안하여 창출된 것으로서, 의미 정보를 가지는 온톨로지(ontology) 등의 데이터베이스의 도움 없이 자연어 처리를 이용한 자연어 수준의 개체 및 개체 간의 관계 정보만을 이용하여 검색 데이터베이스를 구축하고, 자연어 정보에서 개체와 개체 간의 관계 정보만을 이용하여 검색에 활용함으로써 문장에서 다양한 개체 묶음의 순서 등과 같은 문장의 구조적 차이를 해소할 수 있고, 워드 임베딩 모델을 이용하여 묶음 개체에 대한 벡터 값을 계산함으로써 어휘의 다양성을 해소할 수 있는 자연어 구조 정보를 이용한 임상정보 검색 시스템 및 방법을 제공함에 그 목적이 있다.The present invention was created in consideration of the above situation comprehensively, and without the aid of a database such as an ontology having semantic information, a search database is constructed using only natural language level entities using natural language processing and relationship information between entities. Structural differences in sentences, such as the order of various entity bundles in a sentence, can be resolved by using only the relationship information between entities in natural language information to search. An object of the present invention is to provide a clinical information retrieval system and method using natural language structure information that can solve the diversity of vocabulary by calculation.

상기의 목적을 달성하기 위하여 본 발명에 따른 자연어 구조 정보를 이용한 임상정보 검색 시스템은,In order to achieve the above object, the clinical information retrieval system using natural language structure information according to the present invention,

입력받은 자연어 데이터를 규칙 패턴에 의해 사전 처리한 후, 자연어 데이터를 최소 단위의 어절로 분리하여 형태소적인 품사를 태깅하며, 단어 또는 어구에 대하여 특정 의미 유형으로 라벨링한 후, 의미 유형이 라벨링된 개체들 사이의 형태소적 관계를 추출하며, 추출된 서로 다른 두 개체의 각각의 임베딩 벡터값과 두 개체 간의 관계 정보를 하나로 묶어 묶음 개체 정보를 산출하는 자연어 처리장치와;After pre-processing the input natural language data according to the rule pattern, the natural language data is separated into the smallest unit of word, morphological parts-of-speech is tagged, the word or phrase is labeled with a specific semantic type, and the semantic type is labeled object. a natural language processing device for extracting a morphological relationship between the two entities, and for calculating bundled entity information by tying each of the extracted embedding vector values of two different entities and relation information between the two entities into one;

상기 자연어 처리장치와 인터넷 또는 로컬 네트워크로 연결되며, 상기 자연어 처리장치에 의해 만들어진 묶음 개체의 벡터 정보를 저장하는 검색 데이터베이스(DB); 및a search database (DB) connected to the natural language processing apparatus through the Internet or a local network and storing vector information of bundled objects created by the natural language processing apparatus; and

상기 자연어 처리장치와 인터넷 또는 로컬 네트워크로 연결되며, 묶음 개체화된 임상시험 데이터를 기반으로 구축되며, 임상시험 정보를 저장하는 임상시험 데이터베이스(DB)를 포함하는 점에 그 특징이 있다.It is characterized in that it is connected to the natural language processing device by the Internet or a local network, is built based on bundled individualized clinical trial data, and includes a clinical trial database (DB) that stores clinical trial information.

여기서, 검색을 위하여 비정형화된 텍스트를 입력으로 받을 수 있는 인터페이스 장치를 더 포함할 수 있다. Here, an interface device capable of receiving unstructured text as an input for search may be further included.

여기서, 또한 상기 자연어 처리장치는,Here, also the natural language processing device,

문자, 숫자, 특수 기호가 혼재하고, 이메일, 웹URL 규칙 패턴이 존재하는 자연어 데이터를 규칙 패턴에 의해 사전 처리한 후, 문자, 숫자 및 특수 기호의 임의적 규칙 패턴을 만들어 정제하는 자연어 전처리 모듈과;a natural language preprocessing module for preprocessing natural language data in which letters, numbers, and special symbols are mixed and in which email and web URL rule patterns exist according to the rule patterns, and then creates and refines arbitrary rule patterns of letters, numbers, and special symbols;

상기 자연어 데이터를 문장 성분의 최소 단위의 어절로 분리하고, 해당 어절에 대해서 형태소적 특징인 명사, 동사, 형용사 등의 품사를 태깅하는 POS(part of speech) 분석 모듈과;a part of speech (POS) analysis module that divides the natural language data into words of a minimum unit of sentence components, and tags parts of speech such as nouns, verbs, and adjectives, which are morphological features, for the corresponding word;

개체명 인식(named entity recognition)으로 단일 어절 또는 복수의 어절로 구성된 단어 또는 어구에 대하여 특정 의미 유형으로 라벨링하는 개체명 추출 모듈과; an entity name extraction module for labeling a word or phrase composed of a single word or a plurality of words with a specific semantic type through named entity recognition;

상기 개체명 추출 모듈에 의해 라벨링된 단어 또는 어구에 대하여 각각의 의미 유형이 라벨링된 개체들 사이의 형태소적 관계를 추출하는 개체관계 추출 모듈; 및an entity relationship extraction module for extracting morphological relationships between entities labeled with each semantic type with respect to the word or phrase labeled by the entity name extraction module; and

상기 개체관계 추출 모듈에 의해 추출된 개체들에 있어서, A개체의 임베딩 벡터값과 B개체의 임베딩 벡터값 및 A개체와 B개체의 관계 정보인 원 핫 벡터(one-hot vector)를 하나로 묶어 하나의 벡터값으로 표출하는 묶음 개체화 모듈을 포함하여 구성될 수 있다.In the entities extracted by the entity relationship extraction module, the embedding vector value of entity A, the embedding vector value of entity B, and the one-hot vector, which is information on the relation between entity A and entity B, are bundled into one. It can be configured by including a bundle individuation module that is expressed as a vector value of .

이때, 상기 개체명 추출 모듈은 UMLS(Unified Medical Language System)에서 정의한 의미 유형(semantic type)을 이용하여 개체에 대한 의미 정보를 추출하는 개체명 인식기를 이용하여 의학 용어와 관련이 높은 개체를 추출할 수 있다. In this case, the entity name extraction module extracts an entity highly related to a medical term using an entity name recognizer that extracts semantic information about an entity using a semantic type defined in UMLS (Unified Medical Language System). can

또한, 상기 개체관계 추출 모듈은 자연어 처리에서 사용되는 CONLL-U format에서 정의하고 있는 구조적 관계 정보를 추출하는 개체관계 인식기를 이용하여 개체들 사이의 형태소적 관계인 개체관계를 추출할 수 있다.In addition, the entity relationship extraction module can extract entity relationships, which are morphological relationships between entities, using an entity relation recognizer that extracts structural relation information defined in the CONLL-U format used in natural language processing.

또한, 상기 자연어 처리장치는 상기 묶음 개체에 대해 개체가 가지는 단어를 이용하여 워드 임베딩 모델(word embedding model)을 통해 벡터 값을 계산하고, 개체 간의 구조적 관계 정보를 함께 연결하여 묶음 개체의 연결 벡터로 구성하며, 전체 임상/문헌 비정형 데이터에서 문서마다 묶음 개체를 추출하여 벡터 값을 계산하고, 각 묶음 개체를 하나의 검색을 위한 행렬로 구성할 수 있다.In addition, the natural language processing apparatus calculates a vector value through a word embedding model using the word of the object for the bundled object, and connects the structural relationship information between the objects together as a connection vector of the bundled object. The vector value can be calculated by extracting bundled objects for each document from the entire clinical/literature unstructured data, and each bundled object can be configured as a matrix for one search.

또한, 상기 자연어 처리장치는 검색 문장의 묶음 개체를 추출하고 벡터 값을 계산한 후, 묶음 개체 검색 행렬과 행렬 곱셈을 통해 묶음 개체 간의 유사도를 계산한 다음, 관련도가 높은 묶음 개체를 판별하고 이 묶음 개체가 속하는 임상시험 데이터베이스를 검색하여, 검색된 임상시험 정보에 대한 유사도 및 개체 빈도를 이용하여 임상 시험 정보를 정렬할 수 있다.In addition, the natural language processing apparatus extracts the bundled object of the search sentence and calculates a vector value, calculates the similarity between the bundled objects through the bundled object search matrix and matrix multiplication, and then determines the bundled object with high relevance and By searching the clinical trial database to which the bundled entity belongs, the clinical trial information can be sorted using the similarity and subject frequency to the retrieved clinical trial information.

또한, 상기의 목적을 달성하기 위하여 본 발명에 따른 자연어 구조 정보를 이용한 임상정보 검색 방법은,In addition, in order to achieve the above object, the clinical information search method using natural language structure information according to the present invention,

a) 자연어 처리장치에 의해 임상시험 비정형 데이터를 입력받아 처리하여 묶음 개체화된 임상시험 데이터를 추출하는 단계와;a) receiving and processing atypical clinical trial data by a natural language processing device to extract bundled individualized clinical trial data;

b) 상기 추출된 묶음 개체화된 임상시험 데이터에 대해 워드 임베딩 모델을 통해 각 개체의 단어를 이용하여 벡터값을 계산하는 단계와;b) calculating a vector value using each individual word through a word embedding model for the extracted bundle individualized clinical trial data;

c) 상기 벡터값 계산에 의해 묶음 개체의 벡터 정보를 가지는 검색 데이터 베이스(DB) 및 상기 묶음 개체화된 임상시험 데이터 기반의 임상시험 데이터베이스(DB)를 구축하는 단계와;c) constructing a search database (DB) having vector information of a bundled entity by the vector value calculation and a clinical trial database (DB) based on the bundled individualized clinical trial data;

d) 자연어 처리장치에 의해 환자 정보 비정형 데이터를 입력받아 처리하여 묶음 개체화된 환자 정보 데이터를 추출하는 단계와;d) extracting the bundled individualized patient information data by receiving and processing the unstructured patient information data by the natural language processing device;

e) 상기 추출된 묶음 개체화된 환자 정보 데이터에 대해 워드 임베딩 모델을 통해 각 개체의 단어를 이용하여 벡터값을 계산하는 단계와;e) calculating a vector value using each individual word through a word embedding model for the extracted bundle individualized patient information data;

f) 상기 계산된 환자 정보의 묶음 개체 벡터값과 유사한 묶음 개체 벡터 정보를 가지는 묶음 개체를 상기 검색 데이터베이스(DB)로부터 검색하는 단계; 및f) searching the search database (DB) for a bundled entity having bundled entity vector information similar to the calculated bundled entity vector value of the patient information; and

g) 상기 검색된 묶음 개체와 유사도가 높은 묶음 개체를 포함하는 임상시험 정보를 상기 임상시험 데이터베이스(DB)로부터 검색하는 단계를 포함하는 점에 그 특징이 있다.g) It is characterized in that it includes the step of retrieving clinical trial information including a bundle object having a high degree of similarity to the searched bundle object from the clinical trial database (DB).

여기서, 바람직하게는 상기 단계 g) 이후에, h) 상기 검색된 임상시험 정보를 유사도 점수에 따라 정렬하고, 검색결과를 유사성이 높다고 판정된 묶음 개체 정보와 함께 시각화하는 단계를 더 포함할 수 있다.Here, preferably, after step g), the method may further include h) arranging the retrieved clinical trial information according to a similarity score, and visualizing the search result together with bundled entity information determined to have high similarity.

또한, 상기 단계 a)에서 상기 임상시험 비정형 데이터는 질병이나 치료법, 임상 소견, 논문, 의학 저널 보고서 등에 게재된 임상시험 관련 내용 및 정보를 포함할 수 있다.In addition, in step a), the atypical clinical trial data may include clinical trial-related contents and information published in diseases or treatments, clinical findings, papers, medical journal reports, and the like.

또한, 상기 단계 a)에서 임상시험 비정형 데이터를 입력받아 처리함에 있어서, 자연어 처리장치의 자연어 전처리 모듈에 의해 문자, 숫자, 특수 기호가 혼재하고, 이메일, 웹URL 규칙 패턴이 존재하는 자연어 데이터를 규칙 패턴에 의해 사전 처리한 후, 문자, 숫자 및 특수 기호의 임의적 규칙 패턴을 만들어 정제할 수 있다.In addition, in receiving and processing the clinical trial atypical data in step a), the natural language data in which letters, numbers, and special symbols are mixed and email and web URL rule patterns exist by the natural language preprocessing module of the natural language processing device After preprocessing by pattern, it can be refined by creating arbitrary regular patterns of letters, numbers and special symbols.

또한, 상기 단계 a)에서 임상시험 비정형 데이터를 입력받아 처리함에 있어서, POS(part of speech) 분석 모듈에 의해 자연어 데이터(임상시험 비정형 데이터)를 문장 성분의 최소 단위의 어절로 분리하고, 해당 어절에 대해서 형태소적 특징인 명사, 동사, 형용사 등의 품사를 태깅할 수 있다.In addition, in receiving and processing the clinical trial unstructured data in step a), natural language data (clinical trial unstructured data) is separated into words of the minimum unit of sentence components by a POS (part of speech) analysis module, and the corresponding word You can tag parts-of-speech such as nouns, verbs, and adjectives, which are morphological features.

또한, 상기 단계 a)에서 임상시험 비정형 데이터를 입력받아 처리함에 있어서, 개체명 추출 모듈에 의해 개체명 인식(named entity recognition)으로 단일 어절 또는 복수의 어절로 구성된 단어 또는 어구에 대하여 특정 의미 유형으로 라벨링할 수 있다.In addition, in receiving and processing the clinical trial atypical data in step a), a specific semantic type for a word or phrase consisting of a single word or a plurality of words by named entity recognition by the entity name extraction module can be labeled.

또한, 상기 단계 a)에서 임상시험 비정형 데이터를 입력받아 처리함에 있어서, 개체관계 추출 모듈에 의해 상기 개체명 추출 모듈에 의해 라벨링된 단어 또는 어구에 대하여 각각의 의미 유형이 라벨링된 개체들 사이의 형태소적 관계를 추출할 수 있다.In addition, in receiving and processing the clinical trial atypical data in step a), each semantic type for the word or phrase labeled by the entity name extraction module by the entity relationship extraction module is a morpheme between the labeled entities. adversarial relationships can be extracted.

또한, 상기 단계 b)에서 워드 임베딩 모델을 통해 각 개체의 단어를 이용하여 벡터값을 계산함에 있어서, 묶음 개체화 모듈에 의해 A개체의 임베딩 벡터값과 B개체의 임베딩 벡터값 및 A개체와 B개체의 관계 정보인 원 핫 벡터(one-hot vector)를 하나로 묶어 하나의 벡터값으로 표출할 수 있다.In addition, in calculating the vector value using the word of each entity through the word embedding model in step b), the embedding vector value of entity A and the embedding vector value of entity B and entity A and entity B by the bundle individualization module One-hot vectors, which are relational information of , can be bundled together and expressed as a single vector value.

이와 같은 본 발명에 의하면, 의미 정보를 가지는 온톨로지(ontology) 등의 데이터베이스의 도움 없이 자연어 처리를 이용한 자연어 수준의 개체 및 개체 간의 관계 정보만을 이용하여 검색 데이터베이스를 구축하고, 자연어 정보에서 개체와 개체 간의 관계 정보만을 이용하여 검색에 활용함으로써 문장에서 다양한 개체 묶음의 순서 등과 같은 문장의 구조적 차이를 해소할 수 있고, 워드 임베딩 모델을 이용하여 묶음 개체에 대한 벡터 값을 계산함으로써 어휘의 다양성을 해소할 수 있는 장점이 있다.According to the present invention, a search database is constructed using only natural language level objects and relationship information between objects using natural language processing without the aid of databases such as ontology having semantic information, and between objects in natural language information. By using only relational information for search, structural differences in sentences such as the order of various entity bundles can be resolved in a sentence, and vocabulary diversity can be solved by calculating vector values for bundle entities using the word embedding model. there are advantages to

도 1은 본 발명에 따른 자연어 구조 정보를 이용한 임상정보 검색 시스템의 구성을 개략적으로 나타낸 도면이다.
도 2는 본 발명에 따른 자연어 구조 정보를 이용한 임상정보 검색 방법의 실행 과정을 나타낸 흐름도이다.
도 3은 개체(형태소) 분석 및 관계 정보 추출과, 의료 도메인 관련 형태소만 묶어 하나의 토큰으로 처리하는 개요를 나타낸 도면이다.
도 4는 묶음 개체에 대하여 token1 벡터, token2 벡터, 관계 정보 원-핫 벡터를 테이블로 정리하여 나타낸 도면이다.
1 is a diagram schematically showing the configuration of a clinical information retrieval system using natural language structure information according to the present invention.
2 is a flowchart illustrating an execution process of a clinical information retrieval method using natural language structure information according to the present invention.
3 is a diagram illustrating an overview of analyzing an entity (morpheme) and extracting relationship information, and processing only morphemes related to a medical domain as one token.
4 is a view showing the token1 vector, token2 vector, and relation information one-hot vector in a table for bundled entities.

본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정되어 해석되지 말아야 하며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 한다.The terms or words used in the present specification and claims should not be construed as being limited to their ordinary or dictionary meanings, and the inventor may properly define the concept of the term in order to best describe his invention. Based on the principle, it should be interpreted as meaning and concept consistent with the technical idea of the present invention.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈", "장치" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.Throughout the specification, when a part "includes" a certain element, it means that other elements may be further included, rather than excluding other elements, unless otherwise stated. In addition, terms such as “…unit”, “…group”, “module”, and “device” described in the specification mean a unit that processes at least one function or operation, which is hardware or software or a combination of hardware and software. can be implemented as

이하 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 실시예에 따른 자연어 구조 정보를 이용한 임상정보 검색 시스템의 구성을 개략적으로 나타낸 도면이다.1 is a diagram schematically showing the configuration of a clinical information retrieval system using natural language structure information according to an embodiment of the present invention.

도 1을 참조하면, 본 발명에 따른 자연어 구조 정보를 이용한 임상정보 검색 시스템(100)은 자연어 처리장치(110), 검색 데이터베이스(DB)(120) 및 임상시험 데이터베이스(DB)(130)를 포함하여 구성된다.Referring to FIG. 1 , the clinical information search system 100 using natural language structure information according to the present invention includes a natural language processing device 110 , a search database (DB) 120 , and a clinical trial database (DB) 130 . is composed by

자연어 처리장치(110)는 입력받은 자연어 데이터(예를 들면, 임상시험 비정형 데이터)를 규칙 패턴에 의해 사전 처리한 후, 자연어 데이터를 최소 단위의 어절로 분리하여 형태소적인 품사를 태깅하며, 단어 또는 어구에 대하여 특정 의미 유형으로 라벨링한 후, 의미 유형이 라벨링된 개체들 사이의 형태소적 관계를 추출하며, 추출된 서로 다른 두 개체의 각각의 임베딩 벡터값과 두 개체 간의 관계 정보를 하나로 묶어 묶음 개체 정보를 산출한다.The natural language processing device 110 pre-processes the received natural language data (eg, clinical trial atypical data) according to a rule pattern, then divides the natural language data into words of a minimum unit and tags the morphological parts of speech, words or After labeling a phrase with a specific semantic type, the morphological relationship between the entities labeled with the semantic type is extracted, and each embedding vector value of two different extracted entities and the relation information between the two entities are bundled together. yield information.

검색 데이터베이스(DB)(120)는 상기 자연어 처리장치(110)와 인터넷 또는 로컬 네트워크로 연결되며, 상기 자연어 처리장치(110)에 의해 만들어진 묶음 개체의 벡터 정보를 저장한다. The search database (DB) 120 is connected to the natural language processing unit 110 through the Internet or a local network, and stores vector information of bundled objects created by the natural language processing unit 110 .

임상시험 데이터베이스(DB)(130)는 상기 자연어 처리장치(110)와 인터넷 또는 로컬 네트워크로 연결되며, 묶음 개체화된 임상시험 데이터를 기반으로 구축되며, 임상시험 정보를 저장한다.The clinical trial database (DB) 130 is connected to the natural language processing device 110 through the Internet or a local network, is built based on bundled individualized clinical trial data, and stores clinical trial information.

이상과 같은 본 발명에 따른 자연어 구조 정보를 이용한 임상정보 검색 시스템(100)은 검색을 위하여 비정형화된 텍스트를 입력으로 받을 수 있는 인터페이스 장치(미도시)를 더 포함할 수 있다.As described above, the clinical information search system 100 using natural language structure information according to the present invention may further include an interface device (not shown) capable of receiving an unstructured text as an input for a search.

여기서, 상기 자연어 처리장치(110)는, 문자, 숫자, 특수 기호가 혼재하고, 이메일, 웹URL 규칙 패턴이 존재하는 자연어 데이터를 규칙 패턴에 의해 사전 처리한 후, 문자, 숫자 및 특수 기호의 임의적 규칙 패턴을 만들어 정제하는 자연어 전처리 모듈(111)과; 상기 자연어 데이터를 문장 성분의 최소 단위의 어절로 분리하고, 해당 어절에 대해서 형태소적 특징인 명사, 동사, 형용사 등의 품사를 태깅하는 POS(part of speech) 분석 모듈(112)과; 개체명 인식(named entity recognition)으로 단일 어절 또는 복수의 어절로 구성된 단어 또는 어구에 대하여 특정 의미 유형(예를 들면, 기관, 성명, 장소, 시간, 학교 등)으로 라벨링하는 개체명 추출 모듈(113)과; 상기 개체명 추출 모듈(113)에 의해 라벨링된 단어 또는 어구에 대하여 각각의 의미 유형이 라벨링된 개체들 사이의 형태소적 관계를 추출하는 개체관계 추출 모듈(114); 및 상기 개체관계 추출 모듈(114)에 의해 추출된 개체들에 있어서, A개체의 임베딩 벡터값과 B개체의 임베딩 벡터값 및 A개체와 B개체의 관계 정보인 원 핫 벡터(one-hot vector)를 하나로 묶어 하나의 벡터값으로 표출하는 묶음 개체화 모듈(115)을 포함하여 구성될 수 있다. Here, the natural language processing device 110 pre-processes natural language data in which letters, numbers, and special symbols are mixed, and in which email and web URL rule patterns exist according to the rule patterns, and then randomly selects letters, numbers, and special symbols. a natural language preprocessing module 111 for creating and refining rule patterns; a POS (part of speech) analysis module 112 that divides the natural language data into words of a minimum unit of sentence components, and tags parts of speech such as nouns, verbs, and adjectives, which are morphological features, for the corresponding word; The entity name extraction module 113 for labeling a word or phrase consisting of a single word or a plurality of words with a specific semantic type (eg, institution, name, place, time, school, etc.) with named entity recognition )class; an entity relationship extraction module 114 for extracting morphological relationships between entities labeled with each semantic type for the word or phrase labeled by the entity name extraction module 113; And in the objects extracted by the entity relationship extraction module 114, the embedding vector value of the object A, the embedding vector value of the object B, and the relationship information between the object A and the B object is a one-hot vector. It may be configured to include a bundle individualization module 115 that binds to one and expresses it as one vector value.

이상과 같은 자연어 처리장치(110)는 컴퓨터 시스템으로 구성될 수 있다. 또한, 상기 자연어 전처리 모듈(111), POS 분석 모듈(112), 개체명 추출 모듈(113), 개체관계 추출 모듈(114), 묶음 개체화 모듈(115)은 각각 주어진 특정 기능을 수행하는 하나의 소프트웨어 프로그램으로 각각 구성될 수 있다.The natural language processing apparatus 110 as described above may be configured as a computer system. In addition, the natural language preprocessing module 111, the POS analysis module 112, the entity name extraction module 113, the entity relationship extraction module 114, and the bundle individualization module 115 each perform a given specific function. Each can be configured as a program.

이때, 상기 개체명 추출 모듈(113)은 UMLS(Unified Medical Language System)에서 정의한 의미 유형(semantic type)을 이용하여 개체에 대한 의미 정보를 추출하는 개체명 인식기를 이용하여 의학 용어와 관련이 높은 개체를 추출할 수 있다. In this case, the entity name extraction module 113 uses an entity name recognizer that extracts semantic information about an entity using a semantic type defined in UMLS (Unified Medical Language System) to an entity highly related to a medical term. can be extracted.

또한, 상기 개체관계 추출 모듈(114)은 자연어 처리에서 사용되는 CONLL-U format에서 정의하고 있는 구조적 관계 정보를 추출하는 개체관계 인식기를 이용하여 개체들 사이의 형태소적 관계인 개체관계를 추출할 수 있다.In addition, the entity relationship extraction module 114 may extract entity relations, which are morphological relations between entities, using entity relation recognizers that extract structural relation information defined in the CONLL-U format used in natural language processing. .

또한, 상기 자연어 처리장치(110)는 상기 묶음 개체에 대해 개체가 가지는 단어를 이용하여 워드 임베딩 모델(word embedding model)을 통해 벡터 값을 계산하고, 개체 간의 구조적 관계 정보를 함께 연결하여 묶음 개체의 연결 벡터로 구성하며, 전체 임상/문헌 비정형 데이터에서 문서마다 묶음 개체를 추출하여 벡터 값을 계산하고, 각 묶음 개체를 하나의 검색을 위한 행렬로 구성할 수 있다.In addition, the natural language processing device 110 calculates a vector value through a word embedding model using the word of the object for the bundled entity, and connects the structural relationship information between the entities together to form the bundled entity. It consists of a connection vector, extracts a bundled entity for each document from the entire clinical/literature unstructured data, calculates a vector value, and configures each bundled entity into a single search matrix.

또한, 상기 자연어 처리장치(110)는 검색 문장의 묶음 개체를 추출하고 벡터 값을 계산한 후, 묶음 개체 검색 행렬과 행렬 곱셈을 통해 묶음 개체 간의 유사도를 계산한 다음, 관련도가 높은 묶음 개체를 판별하고 이 묶음 개체가 속하는 임상시험 데이터베이스(130)를 검색하여, 검색된 임상시험 정보에 대한 유사도 및 개체 빈도를 이용하여 임상 시험 정보를 정렬할 수 있다.In addition, the natural language processing device 110 extracts the bundled object of the search sentence, calculates a vector value, calculates the similarity between the bundled objects through the bundled object search matrix and matrix multiplication, and then selects the bundled object with high relevance By determining and searching the clinical trial database 130 to which this bundled entity belongs, the clinical trial information can be sorted using the similarity and entity frequency to the retrieved clinical trial information.

그러면, 이하에서는 이상과 같은 구성을 가지는 본 발명에 따른 자연어 구조 정보를 이용한 임상정보 검색 시스템을 기반으로 한 임상정보 검색 방법에 대해 설명해 보기로 한다.Next, a description will be given of a clinical information retrieval method based on a clinical information retrieval system using natural language structure information according to the present invention having the above configuration.

도 2는 본 발명의 실시예에 따른 자연어 구조 정보를 이용한 임상정보 검색 방법의 실행 과정을 나타낸 흐름도이다.2 is a flowchart illustrating an execution process of a clinical information retrieval method using natural language structure information according to an embodiment of the present invention.

도 2를 참조하면, 본 발명에 따른 자연어 구조 정보를 이용한 임상정보 검색 방법에 따라, 먼저 자연어 처리장치(110)에 의해 임상시험 비정형 데이터를 입력받아 처리하여 묶음 개체화된 임상시험 데이터를 추출한다(단계 S201).Referring to FIG. 2 , according to the clinical information search method using natural language structure information according to the present invention, the clinical trial atypical data is first received and processed by the natural language processing device 110 to extract bundled individualized clinical trial data ( step S201).

그런 후, 상기 추출된 묶음 개체화된 임상시험 데이터에 대해 워드 임베딩 모델을 통해 각 개체의 단어를 이용하여 벡터값을 계산한다(단계 S202).Then, a vector value is calculated using the word of each individual through the word embedding model for the extracted bundle individualized clinical trial data (step S202).

그리고 상기 벡터값 계산에 의해 묶음 개체의 벡터 정보를 가지는 검색 데이터 베이스(DB)(120) 및 상기 묶음 개체화된 임상시험 데이터 기반의 임상시험 데이터베이스(DB)(130)를 구축한다(단계 S203).Then, a search database (DB) 120 having vector information of a bundled entity and a clinical trial database (DB) 130 based on the bundled individualized clinical trial data are constructed by the vector value calculation (step S203).

이상에 의해 입력된 자연어 데이터에 대한 데이터베이스 구축이 완료된 후, 자연어 처리장치(110)에 의해 환자 정보 비정형 데이터를 입력받아 처리하여 묶음 개체화된 환자 정보 데이터를 추출한다(단계 S204).After the database construction for the natural language data input as described above is completed, the patient information atypical data is received and processed by the natural language processing device 110 to extract the bundled individualized patient information data (step S204).

그리고 그 추출된 묶음 개체화된 환자 정보 데이터에 대해 워드 임베딩 모델을 통해 각 개체의 단어를 이용하여 벡터값을 계산한다(단계 S205).Then, a vector value is calculated using each individual word through a word embedding model for the extracted bundled individualized patient information data (step S205).

그런 다음, 상기 계산된 환자 정보의 묶음 개체 벡터값과 유사한 묶음 개체 벡터 정보를 가지는 묶음 개체를 상기 검색 데이터베이스(DB)(120)로부터 검색한다(단계 S206).Then, a bundled entity having bundled entity vector information similar to the calculated bundled entity vector value of the patient information is retrieved from the search database (DB) 120 (step S206).

그런 후, 상기 검색된 묶음 개체와 유사도가 높은 묶음 개체를 포함하는 임상시험 정보를 상기 임상시험 데이터베이스(DB)(130)로부터 검색한다(단계 S207).Thereafter, clinical trial information including the searched bundle object and the bundle object having a high degree of similarity is retrieved from the clinical trial database (DB) 130 (step S207).

여기서, 바람직하게는 상기 단계 S207 이후에, 상기 검색된 임상시험 정보를 유사도 점수에 따라 정렬하고, 검색결과를 유사성이 높다고 판정된 묶음 개체 정보와 함께 시각화하는 단계를 더 포함할 수 있다.Here, preferably, after step S207, the method may further include aligning the retrieved clinical trial information according to a similarity score, and visualizing the search result together with bundled entity information determined to have high similarity.

또한, 상기 단계 S201에서 상기 임상시험 비정형 데이터는 질병이나 치료법, 임상 소견, 논문, 의학 저널 보고서 등에 게재된 임상시험 관련 내용 및 정보를 포함할 수 있다.In addition, the clinical trial atypical data in step S201 may include clinical trial-related contents and information published in diseases or treatments, clinical findings, papers, medical journal reports, and the like.

또한, 상기 단계 S201에서 임상시험 비정형 데이터를 입력받아 처리함에 있어서, 자연어 처리장치(110)의 자연어 전처리 모듈(111)에 의해 문자, 숫자, 특수 기호가 혼재하고, 이메일, 웹URL 규칙 패턴이 존재하는 자연어 데이터를 규칙 패턴에 의해 사전 처리한 후, 문자, 숫자 및 특수 기호의 임의적 규칙 패턴을 만들어 정제할 수 있다.In addition, in receiving and processing the clinical trial atypical data in step S201, letters, numbers, and special symbols are mixed by the natural language preprocessing module 111 of the natural language processing device 110, and there are email and web URL rule patterns. After natural language data is pre-processed by rule patterns, arbitrary rule patterns of letters, numbers, and special symbols can be created and refined.

또한, 상기 단계 S201에서 임상시험 비정형 데이터를 입력받아 처리함에 있어서, POS(part of speech) 분석 모듈(112)에 의해 자연어 데이터(임상시험 비정형 데이터)를 문장 성분의 최소 단위의 어절로 분리하고, 해당 어절에 대해서 형태소적 특징인 명사, 동사, 형용사 등의 품사를 태깅할 수 있다.In addition, in receiving and processing the clinical trial unstructured data in step S201, the natural language data (clinical trial unstructured data) is separated by the POS (part of speech) analysis module 112 into words of the smallest unit of sentence components, Part-of-speech such as nouns, verbs, and adjectives, which are morphological features, can be tagged for the corresponding word.

또한, 상기 단계 S201에서 임상시험 비정형 데이터를 입력받아 처리함에 있어서, 개체명 추출 모듈(113)에 의해 개체명 인식(named entity recognition)으로 단일 어절 또는 복수의 어절로 구성된 단어 또는 어구에 대하여 특정 의미 유형(예를 들면, 기관, 성명, 장소, 시간, 학교 등)으로 라벨링할 수 있다.In addition, in receiving and processing the clinical trial atypical data in step S201, a specific meaning for a word or phrase composed of a single word or a plurality of words through named entity recognition by the entity name extraction module 113 You can label them by type (eg, institution, name, place, time, school, etc.).

또한, 상기 단계 S201에서 임상시험 비정형 데이터를 입력받아 처리함에 있어서, 개체관계 추출 모듈(114)에 의해 상기 개체명 추출 모듈(113)에 의해 라벨링된 단어 또는 어구에 대하여 각각의 의미 유형이 라벨링된 개체들 사이의 형태소적 관계를 추출할 수 있다.In addition, in receiving and processing the clinical trial atypical data in step S201, each semantic type is labeled with respect to the word or phrase labeled by the entity name extraction module 113 by the entity relationship extraction module 114 Morphological relationships between entities can be extracted.

또한, 상기 단계 S202에서 워드 임베딩 모델을 통해 각 개체의 단어를 이용하여 벡터값을 계산함에 있어서, 묶음 개체화 모듈(115)에 의해 A개체의 임베딩 벡터값과 B개체의 임베딩 벡터값 및 A개체와 B개체의 관계 정보인 원 핫 벡터(one-hot vector)를 하나로 묶어 하나의 벡터값으로 표출할 수 있다.In addition, in calculating the vector value using the word of each entity through the word embedding model in step S202, the embedding vector value of entity A, the embedding vector value of entity B, and entity A by the bundle individualization module 115 One-hot vectors, which are relational information of object B, can be bundled together and expressed as a single vector value.

한편, 도 3은 본 발명에 따른 자연어 구조 정보를 이용한 임상정보 검색 방법에 따라 개체(형태소) 분석 및 관계 정보 추출과, 의료 도메인 관련 형태소만 묶어 하나의 토큰으로 처리하는 개요를 나타낸 도면이고, 도 4는 묶음 개체에 대하여 token1 벡터, token2 벡터, 관계 정보 원-핫 벡터를 테이블로 정리하여 나타낸 도면이다.On the other hand, FIG. 3 is a diagram showing an outline of analyzing an entity (morpheme) and extracting relational information and processing only medical domain related morphemes into one token according to the clinical information retrieval method using natural language structure information according to the present invention, FIG. 4 is a diagram showing the token1 vector, token2 vector, and relation information one-hot vector for bundled entities arranged in a table.

먼저, 도 3의 (A)에 도시된 바와 같이, 입력된 자연어 데이터(예컨대, 임상시험 비정형 데이터)에 대해 형태소(개체) 분석 및 개체와 개체 간의 관계 정보를 추출한다. 그런 후, (B)와 같이 의료 도메인과 관련한 형태소만 묶어 하나의 토큰으로 처리한다.First, as shown in FIG. 3A , morpheme (individual) analysis and relationship information between the individual and the individual are extracted for the input natural language data (eg, clinical trial atypical data). Then, as in (B), only morphemes related to the medical domain are bundled and processed as one token.

이렇게 하여 각각의 묶음 개체에 대해 토큰으로 처리된 결과는 도 4에 도시된 바와 같이, 묶음 개체, 토큰 벡터, 관계 정보 원-핫 벡터의 테이블로 정리될 수 있다. In this way, the result of processing tokens for each bundle entity may be organized into a table of bundle entities, token vectors, and relation information one-hot vectors, as shown in FIG. 4 .

테이블에 정리되어 있는 token1 벡터는 {0.23, -0.12, ..., 0.01}과 같이 표시할 수 있고, token2 벡터는 {-0.13, -0.02, ..., 0.14}와 같이 표시할 수 있으며, 관계 정보 원-핫 벡터(relation one-hot vector)는 {0, 0, 0, ..., 1}과 같이 표시할 수 있다. 이를 바탕으로, 묶음 개체 벡터는 "token1 vector + token2 vector + relation one-hot vector"로 표시할 수 있다.The token1 vector arranged in the table can be expressed as {0.23, -0.12, ..., 0.01}, and the token2 vector can be expressed as {-0.13, -0.02, ..., 0.14}, A relation one-hot vector may be expressed as {0, 0, 0, ..., 1}. Based on this, the bundled entity vector can be expressed as "token1 vector + token2 vector + relation one-hot vector".

이상의 설명과 같이, 본 발명에 따른 자연어 구조 정보를 이용한 임상정보 검색 시스템 및 방법은 의미 정보를 가지는 온톨로지(ontology) 등의 데이터베이스의 도움 없이 자연어 처리를 이용한 자연어 수준의 개체 및 개체 간의 관계 정보만을 이용하여 검색 데이터베이스를 구축하고, 자연어 정보에서 개체와 개체 간의 관계 정보만을 이용하여 검색에 활용함으로써 문장에서 다양한 개체 묶음의 순서 등과 같은 문장의 구조적 차이를 해소할 수 있고, 워드 임베딩 모델을 이용하여 묶음 개체에 대한 벡터 값을 계산함으로써 어휘의 다양성을 해소할 수 있는 장점이 있다.As described above, the clinical information retrieval system and method using natural language structure information according to the present invention uses only natural language level entities and relationship information between entities using natural language processing without the aid of databases such as ontology having semantic information. By constructing a search database and using only the relationship information between objects in natural language information for search, structural differences in sentences such as the order of various object bundles in a sentence can be resolved, and bundled objects using the word embedding model There is an advantage in that the diversity of vocabulary can be resolved by calculating the vector value for .

또한, 자연어 기반의 검색을 지원함으로써, 사용자가 별도의 시스템 이용에 대한 학습 과정 없이 검색 시스템을 이용할 수 있는 장점이 있다.In addition, by supporting a natural language-based search, there is an advantage that a user can use the search system without a separate learning process for using the system.

또한, 병원의 환자 EMR(Endoscopic Mucosal Resection) 데이터 중 임상 소견과 같은 비정형화된 텍스트 데이터를 자연어 처리 수준의 가공만으로 검색어에 활용함으로써 환자에 따른 임상시험의 분류를 자동으로 수행할 수 있는 장점이 있다.In addition, by using atypical text data such as clinical findings among patient EMR (Endoscopic Mucosal Resection) data in hospitals for search terms with only natural language processing level processing, it has the advantage of automatically performing classification of clinical trials according to patients. .

이상, 바람직한 실시예를 통하여 본 발명에 관하여 상세히 설명하였으나, 본 발명은 이에 한정되는 것은 아니며, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 다양하게 변경, 응용될 수 있음은 당해 기술분야의 통상의 기술자에게 자명하다. 따라서, 본 발명의 진정한 보호 범위는 다음의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술적 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.As described above, the present invention has been described in detail through preferred embodiments, but the present invention is not limited thereto, and it is common in the art that various changes and applications can be made without departing from the technical spirit of the present invention. self-explanatory to the technician. Therefore, the true protection scope of the present invention should be construed by the following claims, and all technical ideas within the scope equivalent thereto should be construed as being included in the scope of the present invention.

100: (본 발명)자연어 구조 정보를 이용한 임상정보 검색 시스템
110: 자연어 처리장치 111: 자연어 전처리 모듈
112: POS 분석 모듈 113: 개체명 추출 모듈
114: 개체관계 추출 모듈 115: 묶음 개체화 모듈
100: (the present invention) clinical information retrieval system using natural language structure information
110: natural language processing unit 111: natural language preprocessing module
112: POS analysis module 113: entity name extraction module
114: entity relationship extraction module 115: bundle entityization module

Claims (15)

입력받은 자연어 데이터를 규칙 패턴에 의해 사전 처리한 후, 자연어 데이터를 최소 단위의 어절로 분리하여 형태소적인 품사를 태깅하며, 단어 또는 어구에 대하여 특정 의미 유형으로 라벨링한 후, 의미 유형이 라벨링된 개체들 사이의 형태소적 관계를 추출하며, 추출된 서로 다른 두 개체의 각각의 임베딩 벡터값과 두 개체 간의 관계 정보를 하나로 묶어 묶음 개체 정보를 산출하는 자연어 처리장치와;
상기 자연어 처리장치와 인터넷 또는 로컬 네트워크로 연결되며, 상기 자연어 처리장치에 의해 만들어진 묶음 개체의 벡터 정보를 저장하는 검색 데이터베이스(DB); 및
상기 자연어 처리장치와 인터넷 또는 로컬 네트워크로 연결되며, 묶음 개체화된 임상시험 데이터를 기반으로 구축되며, 임상시험 정보를 저장하는 임상시험 데이터베이스(DB)를 포함하는 자연어 구조 정보를 이용한 임상정보 검색 시스템.
After pre-processing the input natural language data according to the rule pattern, the natural language data is separated into the smallest unit of word, morphological parts-of-speech is tagged, the word or phrase is labeled with a specific semantic type, and the semantic type is labeled object. a natural language processing device for extracting a morphological relationship between the two entities, and for calculating bundled entity information by tying each of the extracted embedding vector values of two different entities and relation information between the two entities into one;
a search database (DB) connected to the natural language processing apparatus through the Internet or a local network and storing vector information of bundled objects created by the natural language processing apparatus; and
A clinical information retrieval system using natural language structure information that is connected to the natural language processing device and the Internet or a local network, is built based on bundled individualized clinical trial data, and includes a clinical trial database (DB) that stores clinical trial information.
제1항에 있어서,
검색을 위하여 비정형화된 텍스트를 입력으로 받을 수 있는 인터페이스 장치를 더 포함하는 자연어 구조 정보를 이용한 임상정보 검색 시스템.
According to claim 1,
Clinical information retrieval system using natural language structure information, further comprising an interface device capable of receiving unstructured text as an input for retrieval.
제1항에 있어서,
상기 자연어 처리장치는,
문자, 숫자, 특수 기호가 혼재하고, 이메일, 웹URL 규칙 패턴이 존재하는 자연어 데이터를 규칙 패턴에 의해 사전 처리한 후, 문자, 숫자 및 특수 기호의 임의적 규칙 패턴을 만들어 정제하는 자연어 전처리 모듈과;
상기 자연어 데이터를 문장 성분의 최소 단위의 어절로 분리하고, 해당 어절에 대해서 형태소적 특징인 명사, 동사, 형용사 등의 품사를 태깅하는 POS(part of speech) 분석 모듈과;
개체명 인식(named entity recognition)으로 단일 어절 또는 복수의 어절로 구성된 단어 또는 어구에 대하여 특정 의미 유형으로 라벨링하는 개체명 추출 모듈과;
상기 개체명 추출 모듈에 의해 라벨링된 단어 또는 어구에 대하여 각각의 의미 유형이 라벨링된 개체들 사이의 형태소적 관계를 추출하는 개체관계 추출 모듈; 및
상기 개체관계 추출 모듈에 의해 추출된 개체들에 있어서, A개체의 임베딩 벡터값과 B개체의 임베딩 벡터값 및 A개체와 B개체의 관계 정보인 원 핫 벡터(one-hot vector)를 하나로 묶어 하나의 벡터값으로 표출하는 묶음 개체화 모듈을 포함하여 구성된 자연어 구조 정보를 이용한 임상정보 검색 시스템.
According to claim 1,
The natural language processing device,
a natural language preprocessing module for preprocessing natural language data in which letters, numbers, and special symbols are mixed and in which email and web URL rule patterns exist according to the rule patterns, and then creates and refines arbitrary rule patterns of letters, numbers, and special symbols;
a part of speech (POS) analysis module that divides the natural language data into words of a minimum unit of sentence components, and tags parts of speech such as nouns, verbs, and adjectives, which are morphological features, for the corresponding word;
an entity name extraction module for labeling a word or phrase composed of a single word or a plurality of words with a specific semantic type through named entity recognition;
an entity relationship extraction module for extracting morphological relationships between entities labeled with each semantic type with respect to the word or phrase labeled by the entity name extraction module; and
In the entities extracted by the entity relationship extraction module, the embedding vector value of entity A, the embedding vector value of entity B, and the one-hot vector, which is information on the relation between entity A and entity B, are bundled into one. A clinical information retrieval system using natural language structure information, including a bundle individualization module that is expressed as a vector value of
제3항에 있어서,
상기 개체명 추출 모듈은 UMLS(Unified Medical Language System)에서 정의한 의미 유형(semantic type)을 이용하여 개체에 대한 의미 정보를 추출하는 개체명 인식기를 이용하여 의학 용어와 관련이 높은 개체를 추출하는 자연어 구조 정보를 이용한 임상정보 검색 시스템.
4. The method of claim 3,
The entity name extraction module uses a semantic type defined in UMLS (Unified Medical Language System) to extract an entity highly related to a medical term using an entity name recognizer that extracts semantic information about the entity. Clinical information retrieval system using information.
제3항에 있어서,
상기 개체관계 추출 모듈은 자연어 처리에서 사용되는 CONLL-U format에서 정의하고 있는 구조적 관계 정보를 추출하는 개체관계 인식기를 이용하여 개체들 사이의 형태소적 관계인 개체관계를 추출하는 자연어 구조 정보를 이용한 임상정보 검색 시스템.
4. The method of claim 3,
The entity relationship extraction module uses natural language structure information to extract entity relationships that are morphological relationships between entities using an entity relation recognizer that extracts structural relation information defined in the CONLL-U format used in natural language processing. search system.
제3항에 있어서,
상기 자연어 처리장치는 상기 묶음 개체에 대해 개체가 가지는 단어를 이용하여 워드 임베딩 모델(word embedding model)을 통해 벡터 값을 계산하고, 개체 간의 구조적 관계 정보를 함께 연결하여 묶음 개체의 연결 벡터로 구성하며, 전체 임상/문헌 비정형 데이터에서 문서마다 묶음 개체를 추출하여 벡터 값을 계산하고, 각 묶음 개체를 하나의 검색을 위한 행렬로 구성하는 자연어 구조 정보를 이용한 임상정보 검색 시스템.
4. The method of claim 3,
The natural language processing device calculates a vector value through a word embedding model using the words of the object for the bundled entity, and connects the structural relationship information between the entities together to form a connection vector of the bundled entity, , a clinical information retrieval system using natural language structure information that extracts bundled objects for each document from all clinical/literature atypical data, calculates vector values, and configures each bundled object into a single search matrix.
제3항에 있어서,
상기 자연어 처리장치는 검색 문장의 묶음 개체를 추출하고 벡터 값을 계산한 후, 묶음 개체 검색 행렬과 행렬 곱셈을 통해 묶음 개체 간의 유사도를 계산한 다음, 관련도가 높은 묶음 개체를 판별하고 이 묶음 개체가 속하는 임상시험 데이터베이스를 검색하여, 검색된 임상시험 정보에 대한 유사도 및 개체 빈도를 이용하여 임상 시험 정보를 정렬하는 자연어 구조 정보를 이용한 임상정보 검색 시스템.
4. The method of claim 3,
The natural language processing device extracts the bundled entity of the search sentence and calculates a vector value, calculates the similarity between the bundled entities through the bundled entity search matrix and matrix multiplication, then determines the bundled entity with high relevance and determines the bundled entity A clinical information retrieval system using natural language structure information that searches the clinical trial database to which the group belongs, and aligns the clinical trial information using the similarity and individual frequency to the retrieved clinical trial information.
a) 자연어 처리장치에 의해 임상시험 비정형 데이터를 입력받아 처리하여 묶음 개체화된 임상시험 데이터를 추출하는 단계와;
b) 상기 추출된 묶음 개체화된 임상시험 데이터에 대해 워드 임베딩 모델을 통해 각 개체의 단어를 이용하여 벡터값을 계산하는 단계와;
c) 상기 벡터값 계산에 의해 묶음 개체의 벡터 정보를 가지는 검색 데이터 베이스(DB) 및 상기 묶음 개체화된 임상시험 데이터 기반의 임상시험 데이터베이스(DB)를 구축하는 단계와;
d) 자연어 처리장치에 의해 환자 정보 비정형 데이터를 입력받아 처리하여 묶음 개체화된 환자 정보 데이터를 추출하는 단계와;
e) 상기 추출된 묶음 개체화된 환자 정보 데이터에 대해 워드 임베딩 모델을 통해 각 개체의 단어를 이용하여 벡터값을 계산하는 단계와;
f) 상기 계산된 환자 정보의 묶음 개체 벡터값과 유사한 묶음 개체 벡터 정보를 가지는 묶음 개체를 상기 검색 데이터베이스(DB)로부터 검색하는 단계; 및
g) 상기 검색된 묶음 개체와 유사도가 높은 묶음 개체를 포함하는 임상시험 정보를 상기 임상시험 데이터베이스(DB)로부터 검색하는 단계를 포함하는 자연어 구조 정보를 이용한 임상정보 검색 방법.
a) receiving and processing atypical clinical trial data by a natural language processing device to extract bundled individualized clinical trial data;
b) calculating a vector value using each individual word through a word embedding model for the extracted bundle individualized clinical trial data;
c) constructing a search database (DB) having vector information of a bundled entity by the vector value calculation and a clinical trial database (DB) based on the bundled individualized clinical trial data;
d) extracting the bundled individualized patient information data by receiving and processing the unstructured patient information data by the natural language processing device;
e) calculating a vector value using each individual word through a word embedding model for the extracted bundle individualized patient information data;
f) searching the search database (DB) for a bundled entity having bundled entity vector information similar to the calculated bundled entity vector value of the patient information; and
g) a clinical information retrieval method using natural language structure information, comprising the step of retrieving clinical trial information including a bundle object having a high degree of similarity to the searched bundle object from the clinical trial database (DB).
제8항에 있어서,
상기 단계 g) 이후에, h) 상기 검색된 임상시험 정보를 유사도 점수에 따라 정렬하고, 검색결과를 유사성이 높다고 판정된 묶음 개체 정보와 함께 시각화하는 단계를 더 포함하는 자연어 구조 정보를 이용한 임상정보 검색 방법.
9. The method of claim 8,
After step g), h) arranging the retrieved clinical trial information according to the similarity score, and visualizing the search result together with the bundled entity information determined to have high similarity. Clinical information search using natural language structure information Way.
제8항에 있어서,
상기 단계 a)에서 상기 임상시험 비정형 데이터는 질병이나 치료법, 임상 소견, 논문, 의학 저널 보고서에 게재된 임상시험 관련 내용 및 정보를 포함하는 자연어 구조 정보를 이용한 임상정보 검색 방법.
9. The method of claim 8,
In step a), the atypical data of the clinical trial is a clinical information search method using natural language structure information including the clinical trial-related content and information published in a disease or treatment, clinical findings, a thesis, or a medical journal report.
제8항에 있어서,
상기 단계 a)에서 임상시험 비정형 데이터를 입력받아 처리함에 있어서, 자연어 처리장치의 자연어 전처리 모듈에 의해 문자, 숫자, 특수 기호가 혼재하고, 이메일, 웹URL 규칙 패턴이 존재하는 자연어 데이터를 규칙 패턴에 의해 사전 처리한 후, 문자, 숫자 및 특수 기호의 임의적 규칙 패턴을 만들어 정제하는 자연어 구조 정보를 이용한 임상정보 검색 방법.
9. The method of claim 8,
In step a), in receiving and processing atypical clinical trial data, letters, numbers, and special symbols are mixed by the natural language preprocessing module of the natural language processing device, and natural language data in which email and web URL rule patterns exist is added to the rule pattern. Clinical information retrieval method using natural language structure information that creates and refines arbitrary rule patterns of letters, numbers, and special symbols after pre-processing by
제8항에 있어서,
상기 단계 a)에서 임상시험 비정형 데이터를 입력받아 처리함에 있어서, POS(part of speech) 분석 모듈에 의해 자연어 데이터(임상시험 비정형 데이터)를 문장 성분의 최소 단위의 어절로 분리하고, 해당 어절에 대해서 형태소적 특징인 명사, 동사, 형용사 등의 품사를 태깅하는 자연어 구조 정보를 이용한 임상정보 검색 방법.
9. The method of claim 8,
In receiving and processing the clinical trial atypical data in step a), the natural language data (clinical trial atypical data) is separated into words of the minimum unit of sentence components by the POS (part of speech) analysis module, and A clinical information retrieval method using natural language structure information that tags parts of speech such as nouns, verbs, and adjectives, which are morphological features.
제8항에 있어서,
상기 단계 a)에서 임상시험 비정형 데이터를 입력받아 처리함에 있어서, 개체명 추출 모듈에 의해 개체명 인식(named entity recognition)으로 단일 어절 또는 복수의 어절로 구성된 단어 또는 어구에 대하여 특정 의미 유형으로 라벨링하는 자연어 구조 정보를 이용한 임상정보 검색 방법.
9. The method of claim 8,
In step a), in receiving and processing the clinical trial atypical data, a word or phrase consisting of a single word or a plurality of words is labeled with a specific semantic type by named entity recognition by the entity name extraction module. Clinical information retrieval method using natural language structure information.
제13항에 있어서,
상기 단계 a)에서 임상시험 비정형 데이터를 입력받아 처리함에 있어서, 개체관계 추출 모듈에 의해 상기 개체명 추출 모듈에 의해 라벨링된 단어 또는 어구에 대하여 각각의 의미 유형이 라벨링된 개체들 사이의 형태소적 관계를 추출하는 자연어 구조 정보를 이용한 임상정보 검색 방법.
14. The method of claim 13,
In receiving and processing the clinical trial atypical data in step a), the morphological relationship between the entities labeled by each semantic type with respect to the word or phrase labeled by the entity name extraction module by the entity relationship extraction module Clinical information retrieval method using natural language structure information to extract
제8항에 있어서,
상기 단계 b)에서 워드 임베딩 모델을 통해 각 개체의 단어를 이용하여 벡터값을 계산함에 있어서, 묶음 개체화 모듈에 의해 A개체의 임베딩 벡터값과 B개체의 임베딩 벡터값 및 A개체와 B개체의 관계 정보인 원 핫 벡터(one-hot vector)를 하나로 묶어 하나의 벡터값으로 표출하는 자연어 구조 정보를 이용한 임상정보 검색 방법.
9. The method of claim 8,
In calculating the vector value using the word of each entity through the word embedding model in step b), the embedding vector value of entity A and the embedding vector value of entity B and the relationship between entity A and entity B by the bundle individualization module A clinical information retrieval method using natural language structure information that binds one-hot vectors, which are information, and expresses them as one vector value.
KR1020210036995A 2021-03-23 2021-03-23 Clinical information search system and method using structure information of natural language KR102632539B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210036995A KR102632539B1 (en) 2021-03-23 2021-03-23 Clinical information search system and method using structure information of natural language

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210036995A KR102632539B1 (en) 2021-03-23 2021-03-23 Clinical information search system and method using structure information of natural language

Publications (2)

Publication Number Publication Date
KR20220132679A true KR20220132679A (en) 2022-10-04
KR102632539B1 KR102632539B1 (en) 2024-02-05

Family

ID=83600374

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210036995A KR102632539B1 (en) 2021-03-23 2021-03-23 Clinical information search system and method using structure information of natural language

Country Status (1)

Country Link
KR (1) KR102632539B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117573727A (en) * 2024-01-17 2024-02-20 湖南天承信息技术有限公司 Practitioner health physical examination information retrieval system

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160030809A (en) 2014-09-11 2016-03-21 경희대학교 산학협력단 Apparatus and method for permutation based pattern discovery technique in unstructured clinical documents

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160030809A (en) 2014-09-11 2016-03-21 경희대학교 산학협력단 Apparatus and method for permutation based pattern discovery technique in unstructured clinical documents

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117573727A (en) * 2024-01-17 2024-02-20 湖南天承信息技术有限公司 Practitioner health physical examination information retrieval system
CN117573727B (en) * 2024-01-17 2024-03-26 湖南天承信息技术有限公司 Practitioner health physical examination information retrieval system

Also Published As

Publication number Publication date
KR102632539B1 (en) 2024-02-05

Similar Documents

Publication Publication Date Title
Alwaneen et al. Arabic question answering system: a survey
Bharadiya A comprehensive survey of deep learning techniques natural language processing
US20090313243A1 (en) Method and apparatus for processing semantic data resources
Mahmood et al. Query based information retrieval and knowledge extraction using Hadith datasets
Tran et al. Mining opinion targets and opinion words from online reviews
Abulaish et al. A concept-driven biomedical knowledge extraction and visualization framework for conceptualization of text corpora
Šandrih et al. Two approaches to compilation of bilingual multi-word terminology lists from lexical resources
Cherednichenko et al. Collection and Processing of a Medical Corpus in Ukrainian.
KR20120042562A (en) Method for constructing named entities using online encyclopedia and apparatus for performing the same
Al-Smadi et al. Leveraging linked open data to automatically answer Arabic questions
KR102632539B1 (en) Clinical information search system and method using structure information of natural language
Bakari et al. Logic-based approach for improving Arabic question answering
Pirkola Studies on linguistic problems and methods in text retrieval: the effects of anaphor and ellipsis resolution in proximity searching, and translation and query structuring methods in cross-language retrieval
AbuTaha et al. An ontology-based arabic question answering system
Alicante et al. Unsupervised information extraction from italian clinical records
Keezhatta Understanding EFL Linguistic Models through Relationship between Natural Language Processing and Artificial Intelligence Applications.
Bouziane et al. Toward an arabic question answering system over linked data
Rahat et al. A recursive algorithm for open information extraction from Persian texts
Bichindaritz et al. Concept mining for indexing medical literature
Vagelatos et al. Developing tools and resources for the biomedical domain of the Greek language
Safeena et al. Quranic computation: A review of research and application
Maulud et al. Towards a Complete Kurdish NLP Pipeline: Challenges and Opportunities
Yesuf et al. Amharic Word Sense Disambiguation Using Wordnet
Aguilar et al. Design of a Extraction System for Definitional Contexts from Biomedical Corpora.
Cristani et al. Automatic generation of dictionaries: The journalistic lexicon case

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant