KR101890207B1 - Method and apparatus for named entity linking and computer program thereof - Google Patents

Method and apparatus for named entity linking and computer program thereof Download PDF

Info

Publication number
KR101890207B1
KR101890207B1 KR1020170000494A KR20170000494A KR101890207B1 KR 101890207 B1 KR101890207 B1 KR 101890207B1 KR 1020170000494 A KR1020170000494 A KR 1020170000494A KR 20170000494 A KR20170000494 A KR 20170000494A KR 101890207 B1 KR101890207 B1 KR 101890207B1
Authority
KR
South Korea
Prior art keywords
neural network
text
word
words
neural
Prior art date
Application number
KR1020170000494A
Other languages
Korean (ko)
Other versions
KR20180079838A (en
Inventor
손대능
이용훈
이동주
강인호
정유진
장성은
백송이
서대룡
손훈석
이현아
김광현
Original Assignee
네이버 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 네이버 주식회사 filed Critical 네이버 주식회사
Priority to KR1020170000494A priority Critical patent/KR101890207B1/en
Publication of KR20180079838A publication Critical patent/KR20180079838A/en
Application granted granted Critical
Publication of KR101890207B1 publication Critical patent/KR101890207B1/en

Links

Images

Classifications

    • G06F17/2785
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F17/2795
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 개체명 연결 방법, 장치 및 컴퓨터 프로그램에 관한 것으로서, 보다 구체적으로 개체명 연결 시스템이 하나 이상의 문장을 포함하는 텍스트 내에 위치하는 다의적 단어에 대한 개체명 연결 방법에 있어서, 상기 텍스트 내에서 다의적 단어를 산출하는 다의어 산출 단계; 복수의 신경망 중 상기 다의적 단어에 대응하는 신경망을 선정하는 신경망 선정 단계; 상기 선정된 신경망으로 상기 텍스트에 포함된 단어의 전부 또는 일부를 입력하는 신경망 입력 단계; 및 상기 신경망의 출력을 고려하여 상기 다의적 단어에 대하여 개체명을 연결하는 개체명 연결 단계를 포함하며, 상기 복수의 신경망은 복수의 다의적 단어 별로 개별적으로 생성된 것임을 특징으로 하는 개체명 연결 방법을 개시한다.The present invention relates to an object name connection method, an apparatus and a computer program, and more particularly to a method for connecting an object name to a multiresistant word whose object name connection system is located in a text including one or more sentences, A polyphonic output step of calculating a word; A neural network selecting step of selecting a neural network corresponding to the multiple words among a plurality of neural networks; A neural network input step of inputting all or part of words included in the text into the selected neural network; And an object name connecting step of connecting an object name to the multilingual word in consideration of an output of the neural network, wherein the plurality of the neural networks are generated individually for a plurality of plural words. do.

Description

개체명 연결 방법, 장치 및 컴퓨터 프로그램{METHOD AND APPARATUS FOR NAMED ENTITY LINKING AND COMPUTER PROGRAM THEREOF}METHOD AND APPARATUS FOR NAMED ENTITY LINKING AND COMPUTER PROGRAM THEREOF FIELD OF THE INVENTION [0001]

본 발명은 개체명 연결 방법, 장치 및 컴퓨터 프로그램에 관한 것으로서, 보다 구체적으로는 다의어 단위로 개별적으로 구성되는 복수의 신경망을 이용하여 사용된 단어의 정확한 의미를 파악하여 개체명 연결을 수행하는 방법, 장치 및 컴퓨터 프로그램에 관한 것이다.The present invention relates to an object name connection method, an apparatus, and a computer program. More particularly, the present invention relates to a method for performing an object name connection by grasping an exact meaning of a used word using a plurality of neural networks, Device and a computer program.

개체명 연결(Named Entity Linking)이라 함은 주어진 문서 내에 위치하는 단어 등이 다의적으로 해석될 수 있는 경우, 상기 주어진 문서에서의 쓰임새를 고려하여 상기 단어 등이 어떤 의미로 사용되었는지를 판단하고, 이에 따라 상기 단어 등을 인물, 사물, 장소 등으로 연결하는 작업을 말한다(예를 들어, 문장에서 사용된 "거미"라는 단어가 가수를 의미하는지 또는 절지동물을 의미하는지 판단). 개체명 연결은 다의적 단어의 의미 판단 결과가 품질에 영향을 주는 검색 엔진, 대화 시스템 등에서 중요한 구성 요소가 될 수 있다. Named Entity Linking (Named Entity Linking) is a method for determining the meaning of a word or the like used in a given document when the word or the like is interpreted in a given document, (For example, judging whether the word "spider" used in the sentence means a singer or an arthropod) is used to connect the word or the like to a person, object, place or the like. The entity name association can be an important component in a search engine, a conversation system, etc. in which the result of semantic judgment of a dominant word affects quality.

종래에는 주로 주어진 문서의 연결 대상 단어 주변에서 자질(feature)을 산출한 후, 써포트 벡터 머신(Support Vector Machine, SVM)이나 로지스틱 회귀분석(Logistic Regression), 유사도 분석 등을 적용하여 개체명 연결을 수행하였다. 그런데, 상기 종래 기술의 경우 구별 대상 개체명의 수가 늘어나는 경우 소요 시간의 증가와 함께 시간 대비 정확한 결과물을 얻기가 어려워지는 문제가 나타날 수 있다. 특히, 개체명 연결이 소수의 특정 단어에 한정되지 않고 다수의 다의어가 사용되는 검색 엔진 등에서는 구별 대상 개체명이 100 단위에서 1만 단위까지 쓰일 수 있어 종래 기술로는 개체명 연결의 정확도가 크게 떨어지는 문제가 따를 수 있다.Conventionally, a feature is calculated in the vicinity of a connection target word of a given document, and then a connection of an object name is performed by applying a support vector machine (SVM), a logistic regression analysis, a similarity analysis, Respectively. However, in the case of the related art, when the number of distinct object names is increased, it may become difficult to obtain an exact result with respect to time with an increase in the required time. Particularly, in a search engine in which the object name connection is not limited to a small number of specific words but a plurality of terms are used, the distinction object name can be used from 100 to 10,000 units, The problem can be followed.

이에 대하여, 최근 자연어 처리, 이미지 분석, 음성 인식 등의 분야에서 주목을 받고 있는 딥러닝(Deep learning) 기법 등을 이용하여 다수의 개체명을 처리하는 방안도 고려할 수 있겠으나, 이러한 경우 구별 대상 개체명의 증가에 따라 연산량이 기하급수적으로 증가할 수 있으며, 이로 인하여 전산 자원(computing resource)의 소요량이 크게 증가할 수 있는 바, 개체명 연결을 운용하기 위한 비용이 크게 증가하는 문제도 나타나게 된다. 나아가, 위와 같이 딥러닝 기법 등을 이용할 경우에는 복잡한 모델 구조로 인하여 특정 개체명이 잘못 연결된 경우에도 관리자가 이의 원인을 파악하여 결과를 정정하기가 쉽지 않다는 문제도 따르게 된다.On the other hand, it is possible to consider a method of processing a plurality of object names by using a deep learning technique, which has recently been attracting attention in fields such as natural language processing, image analysis, and speech recognition. In such a case, As the number of users increases, the amount of computation can increase exponentially. As a result, the required amount of computing resources can be greatly increased, and the cost for operating the entity name connection also increases. Furthermore, when using the deep learning technique as described above, even if a specific object name is connected incorrectly due to a complicated model structure, it is difficult for an administrator to identify the cause of the object and correct the result.

이에 따라, 구별 대상 개체명의 숫자가 늘어나더라도 정확한 개체명 연결을 수행할 수 있으면서, 또한 효율적으로 개체명 연결을 처리하여 소요되는 전산 자원의 증가를 억제할 수 있으며, 나아가 특정 개체명이 잘못 연결된 경우에도 이를 적절하게 정정할 수 있는 개체명 연결 기술이 요구되고 있으나, 아직 이에 대한 적절한 해법이 제시되지 못하고 있는 실정이다.Accordingly, even if the number of distinguished object names is increased, it is possible to perform an accurate object name connection, and also it is possible to effectively suppress the increase of the computation resources by processing the object name connection efficiently. Further, Although it is required to provide an object name connection technique capable of correcting this problem, there is not yet a proper solution for this problem.

대한민국 등록특허 제10-1255957호(2013.4.24.)Korean Patent No. 10-1255957 (Apr. 24, 2014)

본 발명은 상기와 같은 종래 기술의 문제점을 해결하기 위해 창안된 것으로, 구별 대상 개체명의 숫자가 늘어나더라도 정확한 개체명 연결을 수행할 수 있는 개체명 연결 방법, 장치 및 컴퓨터 프로그램을 제공하는 것을 목적으로 한다.It is an object of the present invention to provide an object name connection method, an apparatus, and a computer program capable of performing an accurate object name connection even when the number of distinguished object names increases, in order to solve the above- do.

또한, 본 발명은 구별 대상 개체명의 숫자가 늘어나더라도 효율적으로 개체명 연결을 처리하여 소요되는 전산 자원의 증가를 억제할 수 있는 개체명 연결 방법, 장치 및 컴퓨터 프로그램을 제공하는 것을 목적으로 한다.It is another object of the present invention to provide an object name connection method, an apparatus, and a computer program capable of efficiently processing an object name connection even when the number of object names is increased, thereby suppressing an increase in the amount of computation resources required.

나아가, 본 발명은 특정 개체명이 잘못 연결된 경우에도 이를 적절하게 정정할 수 있는 개체명 연결 방법, 장치 및 컴퓨터 프로그램을 제공하는 것을 목적으로 한다.Furthermore, it is an object of the present invention to provide an object name connection method, an apparatus, and a computer program capable of appropriately correcting even a wrong object name.

상기 과제를 해결하기 위한 본 발명의 한 측면에 따른 개체명 연결 방법은, 개체명 연결 시스템이 하나 이상의 문장을 포함하는 텍스트 내에 위치하는 다의적 단어에 대한 개체명 연결 방법으로서, 상기 텍스트 내에서 다의적 단어를 산출하는 다의어 산출 단계; 복수의 신경망 중 상기 다의적 단어에 대응하는 신경망을 선정하는 신경망 선정 단계; 상기 선정된 신경망으로 상기 텍스트에 포함된 단어의 전부 또는 일부를 입력하는 신경망 입력 단계; 및 상기 신경망의 출력을 고려하여 상기 다의적 단어에 대하여 개체명을 연결하는 개체명 연결 단계를 포함하며, 상기 복수의 신경망은 복수의 다의적 단어 별로 개별적으로 생성된 것임을 특징으로 한다.According to an aspect of the present invention, there is provided a method for connecting an object name to a multinomial word in which an object name connection system is located in a text including at least one sentence, A polynomial calculation step of calculating a polynomial; A neural network selecting step of selecting a neural network corresponding to the multiple words among a plurality of neural networks; A neural network input step of inputting all or part of words included in the text into the selected neural network; And an object name connecting step of connecting an object name to the polyphonic word in consideration of an output of the neural network, wherein the plurality of neural networks are individually generated for a plurality of polyphonic words.

또한, 본 발명의 다른 측면에 따른 텍스트 처리 방법은, 서버가 단말로부터 전송받은 텍스트를 처리하는 방법으로서, 서버가, 단말로부터 하나 이상의 문장을 포함하는 텍스트를 전송받는 텍스트 전송 단계; 상기 텍스트 내에서 다의적 단어를 산출하는 다의어 산출 단계; 복수의 신경망 중 상기 다의적 단어에 대응하는 신경망을 선정하는 신경망 선정 단계; 상기 선정된 신경망으로 상기 텍스트에 포함된 단어의 전부 또는 일부를 입력하는 신경망 입력 단계; 상기 신경망의 출력을 고려하여 상기 다의적 단어의 의미를 판단하는 의미 판단 단계; 및 상기 단말로 상기 다의적 단어의 의미를 고려하여 상기 텍스트에 대하여 산출한 출력을 전송하는 출력 전송 단계를 포함하며, 상기 복수의 신경망은 복수의 다의적 단어 별로 개별적으로 생성된 것임을 특징으로 한다.According to another aspect of the present invention, there is provided a method of processing a text transmitted from a terminal, the method comprising: a text transmission step in which a server receives text including one or more sentences from a terminal; Calculating a plural word in the text; A neural network selecting step of selecting a neural network corresponding to the multiple words among a plurality of neural networks; A neural network input step of inputting all or part of words included in the text into the selected neural network; A semantic determination step of determining the meaning of the ambiguous word in consideration of the output of the neural network; And an output transmission step of transmitting, to the terminal, an output calculated for the text in consideration of the meaning of the ambiguous word, wherein the plurality of neural networks are generated individually for a plurality of the plural words.

본 발명의 또 다른 측면에 따른 컴퓨터 프로그램은 상기 기재된 개체명 연결 방법 또는 텍스트 처리 방법의 각 단계를 컴퓨터에서 실행시키기 위한 컴퓨터로 판독 가능한 매체에 저장된 컴퓨터 프로그램인 것을 특징으로 한다.A computer program according to another aspect of the present invention is characterized by being a computer program stored in a computer-readable medium for causing a computer to execute each of the steps of the object name connection method or the text processing method described above.

본 발명의 또 다른 측면에 따른 객체명 연결 시스템은, 하나 이상의 문장을 포함하는 텍스트 내에 위치하는 다의적 단어에 대한 개체명 연결 시스템으로서, 상기 텍스트 내에서 다의적 단어를 산출하는 다의어 산출부; 복수의 신경망 중 상기 다의적 단어에 대응하는 신경망을 선정하는 신경망 선정부; 상기 선정된 신경망으로 상기 텍스트에 포함된 단어의 전부 또는 일부를 입력하는 신경망 입력부; 및 상기 신경망의 출력을 고려하여 상기 다의적 단어에 대하여 개체명을 연결하는 개체명 연결부를 포함하며, 상기 복수의 신경망은 복수의 다의적 단어 별로 개별적으로 생성된 것임을 특징으로 한다.According to another aspect of the present invention, there is provided an object name linking system for an object name linking system for a multilingual word located in text including at least one sentence, the system comprising: a genetic term calculating unit for calculating a multilingual word within the text; A neural network selecting unit for selecting a neural network corresponding to the multiplex word among a plurality of neural networks; A neural network input unit for inputting all or part of words included in the text by the selected neural network; And an object name connection unit for connecting the object name to the multilingual word in consideration of the output of the neural network, wherein the plurality of the neural networks are individually generated for each of the plurality of multilingual words.

본 발명의 또 다른 측면에 따른 서버는, 단말로부터 전송받은 텍스트를 처리하는 서버로서, 단말로부터 하나 이상의 문장을 포함하는 텍스트를 전송받는 텍스트 전송부; 상기 텍스트 내에 위치하는 다의적 단어를 산출하는 다의어 산출부; 복수의 신경망 중 상기 다의적 단어에 대응하는 신경망을 선정하는 신경망 선정부; 상기 선정된 신경망으로 상기 텍스트에 포함된 단어의 전부 또는 일부를 입력하는 신경망 입력부; 상기 신경망의 출력을 고려하여 상기 다의적 단어의 의미를 판단하는 의미 판단부; 및 상기 단말로 상기 다의적 단어의 의미를 고려하여 상기 텍스트에 대하여 산출한 출력을 전송하는 출력부를 포함하며, 상기 복수의 신경망은 복수의 다의적 단어 별로 개별적으로 생성된 것임을 특징으로 한다.According to another aspect of the present invention, there is provided a server for processing text transmitted from a terminal, the server comprising: a text transmission unit for receiving text including one or more sentences from the terminal; A polygonal word calculation unit for calculating a polygonal word located in the text; A neural network selecting unit for selecting a neural network corresponding to the multiplex word among a plurality of neural networks; A neural network input unit for inputting all or part of words included in the text by the selected neural network; A meaning judging unit for judging the meaning of the ambiguous word in consideration of the output of the neural network; And an output unit for transmitting an output calculated for the text to the terminal in consideration of the meaning of the ambiguous word, wherein the plurality of neural networks are generated separately for a plurality of the plural words.

본 발명의 일 실시예에 따르면, 다의어 단위로 개별적으로 구성되는 복수의 신경망을 이용하여 다의어의 정확한 의미를 파악해 개체명 연결을 수행함으로써, 구별 대상 개체명의 숫자가 늘어나더라도 정확한 개체명 연결을 수행하고, 나아가 효율적으로 개체명 연결을 처리하여 소요되는 전산 자원의 증가를 억제할 수 있게 된다.According to an embodiment of the present invention, by precisely understanding the meaning of a plural word by using a plurality of neural networks individually configured in units of plural words and performing object name connection, accurate object name connection is performed even if the number of the separated target object is increased Furthermore, it is possible to effectively suppress the increase of the computation resources required by processing the object name connection.

또한, 본 발명의 일 실시예에 따르면, 다의어 별로 개별적으로 생성된 복수의 얕은 신경망을 이용하여 개체명 연결을 수행하도록 함으로써, 특정 개체명이 잘못 연결된 경우에도 이를 적절하게 정정할 수 있게 된다.In addition, according to an embodiment of the present invention, the object name connection is performed using a plurality of shallow neural networks individually generated for each of the plural words, so that even if a specific object name is misconnected, it can be corrected appropriately.

본 발명에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부도면은 본 발명에 대한 실시예를 제공하고, 상세한 설명과 함께 본 발명의 기술적 사상을 설명한다.
도 1과 도 2는 본 발명의 일 실시예에 따른 개체명 연결 시스템의 동작을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 개체명 연결 방법에서 검색어를 입력하는 사용자 단말의 예시도이다.
도 4는 본 발명의 일 실시예에 따른 개체명 연결 방법의 순서도이다.
도5은 본 발명의 일 실시예에 따라 개체명이 연결되는 웹문서의 예시도이다.
도 6은 본 발명의 일 실시예에 따른 개체명 연결 방법의 구체적인 동작을 설명하는 예시도이다.
도 7은 본 발명의 일 실시예에 따른 신경망의 구조를 보여주는 예시도이다.
도 8은 본 발명의 일 실시예에 따라 다의어에 대한 자질을 선정하는 과정을 설명하는 예시도이다.
도 9는 본 발명의 일 실시예에 따라 신경망을 구성함에 있어서 네거티브 샘플링 기법을 적용하는 경우를 설명하는 예시도이다.
도 10은 본 발명의 일 실시예에 따라 신경망을 구성함에 있어서 자질의 위치에 따른 가중치를 적용하는 경우를 설명하는 예시도이다.
도 11은 본 발명의 일 실시예에 따른 개체명 연결 방법의 정확도 계산치를 보여주는 예시도이다.
도 12는 본 발명의 일 실시예에 따른 텍스트 처리 시스템의 구성도이다.
도 13은 본 발명의 일 실시예에 따른 텍스트 처리 방법에서 검색문을 입력하는 사용자 단말의 예시도이다.
도 14는 본 발명의 일 실시예에 따른 텍스트 처리 방법의 순서도이다.
도 15는 본 발명의 일 실시예에 따른 개체명 연결 시스템의 구성도이다.
도 16은 본 발명의 일 실시예에 따른 텍스트 처리 서버의 구성도이다.
BRIEF DESCRIPTION OF THE DRAWINGS The accompanying drawings, which are included to provide a further understanding of the invention and are incorporated in and constitute a part of the specification, illustrate embodiments of the invention and, together with the description, serve to explain the principles of the invention.
1 and 2 are views for explaining the operation of the object name connection system according to an embodiment of the present invention.
3 is a diagram illustrating an example of a user terminal for inputting a search term in an entity name concatenation method according to an embodiment of the present invention.
FIG. 4 is a flowchart of a method of connecting an entity name according to an embodiment of the present invention.
5 is an exemplary diagram of a web document to which entity names are linked according to an embodiment of the present invention.
FIG. 6 is a diagram illustrating an exemplary operation of the object name connection method according to an exemplary embodiment of the present invention. Referring to FIG.
7 is an exemplary diagram illustrating the structure of a neural network according to an embodiment of the present invention.
FIG. 8 is a diagram for explaining a process of selecting qualities for a plural word according to an embodiment of the present invention.
FIG. 9 is a diagram illustrating an example of applying a negative sampling technique in constructing a neural network according to an embodiment of the present invention. Referring to FIG.
FIG. 10 is a diagram illustrating an example of applying a weight according to a position of a feature in constructing a neural network according to an embodiment of the present invention. Referring to FIG.
FIG. 11 is an exemplary diagram showing the calculated accuracy of an object name connection method according to an embodiment of the present invention.
12 is a configuration diagram of a text processing system according to an embodiment of the present invention.
13 is an exemplary diagram illustrating a user terminal for inputting a search statement in a text processing method according to an embodiment of the present invention.
14 is a flowchart of a text processing method according to an embodiment of the present invention.
FIG. 15 is a configuration diagram of an entity name connection system according to an embodiment of the present invention.
16 is a configuration diagram of a text processing server according to an embodiment of the present invention.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 이하에서는 특정 실시예들을 첨부된 도면을 기초로 상세히 설명하고자 한다.BRIEF DESCRIPTION OF THE DRAWINGS The present invention is capable of various modifications and various embodiments, and specific embodiments will be described in detail below with reference to the accompanying drawings.

본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, the present invention will be described in detail with reference to the accompanying drawings.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되는 것은 아니며, 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.The terms first, second, etc. may be used to describe various components, but the components are not limited by the terms, and the terms are used only for the purpose of distinguishing one component from another Is used.

이하에서는, 본 발명에 따른 번역문을 제공하는 방법, 사용자 단말, 서버 및 컴퓨터 프로그램의 예시적인 실시형태들을 첨부된 도면을 참조하여 상세히 설명한다.Hereinafter, exemplary embodiments of a method, a user terminal, a server, and a computer program for providing a translation according to the present invention will be described in detail with reference to the accompanying drawings.

먼저, 도 1에서는 본 발명의 일 실시예에 따른 개체명 연결 시스템(100)의 동작을 설명하기 위한 도면을 보여주고 있다. 도 1에서 볼 수 있는 바와 같이, 본 발명의 일 실시예에 따른 개체명 연결 시스템 (100)은 데이터베이스(30)과 연결되어, 상기 데이터베이스(30)에 저장되어 있는 문서(예를 들어, 블로그, 카페, 뉴스 등을 포함하는 다양한 전자 문서 등)에 대하여, 상기 문서에 포함되어 있는 하나 이상의 문장을 포함하는 텍스트 내에 위치하는 다의적 단어에 대한 개체명 연결을 수행하게 된다.First, FIG. 1 illustrates an operation of an entity name connection system 100 according to an embodiment of the present invention. 1, the object name connection system 100 according to an exemplary embodiment of the present invention is connected to a database 30 and stores a document (for example, a blog, A variety of electronic documents including cafes, news, and the like), object names are concatenated for the multilingual words located in the text including one or more sentences included in the document.

보다 구체적인 예를 들어, 상기 데이터베이스(30)에 저장되어 있는 특정 전자 문서에, 도 2에서 볼 수 있는 바와 같이 "오늘 딸과 매장에 가서 '원피스'를 골랐다"라는 문장이 포함되어 있는 경우, 상기 '원피스'라는 단어는 그 쓰임새에 따라서 만화의 제목인 '원피스'일 수도 있으며, 옷의 한 종류인 '원피스'일 수도 있다. 이에 대하여, 본 발명의 일 실시예에 따른 개체명 연결 시스템(100)에서는 상기 문장에서 상기 '원피스'가 만화를 의미하는지 또는 옷을 의미하는지를 판단하여, 상기 문장의 다의어('원피스')에 대한 개체명 연결을 수행하게 된다. 이에 따라, 상기 문장의 '원피스'에 '원피스_옷' 등과 같은 개체명을 연결하여 저장할 수 있다.More specifically, for example, if a specific electronic document stored in the database 30 contains a sentence "You picked 'One Piece' today at your daughter and a store as shown in FIG. 2, The word 'One Piece' can be 'One Piece', which is the title of a cartoon, depending on its use, or 'One Piece', which is a type of clothes. On the other hand, in the object name concatenation system 100 according to the embodiment of the present invention, it is determined whether the 'one piece' means comic or clothes in the sentence, The object name is connected. Accordingly, object names such as 'One Piece _ Clothes' may be connected to 'One Piece' of the sentence and stored.

또한, 본 발명에서는 "원피스" 등 하나의 단어가 다의적 의미를 가지는 경우를 예를 들어 설명하고 있으나, 본 발명이 반드시 이에 한정되는 것은 아니며 둘 이상의 단어가 다의적 의미를 가지는 경우에도 본 발명이 적용될 수 있다(예를 들어, "겨울 바다(노래 제목/특정 계절의 바다)"). 이에 따라, 본 발명에서 "단어"라는 표현에는 둘 이상의 단어를 포함하는 문구(phrase)도 포함된다. In the present invention, one word such as "One Piece" has a multiple meaning. However, the present invention is not necessarily limited thereto, and the present invention can be applied even when two or more words have a plural meaning (For example, "winter sea (song title / sea of a certain season)"). Accordingly, the phrase "word" in the present invention includes a phrase including two or more words.

나아가, 본 발명의 일 실시예에 따른 개체명 연결 시스템(100)에서는 상기 개체명 연결 결과를 반영하여 사용자들에게 서비스를 제공할 수 있게 된다. 보다 구체적인 예를 들어, 도 3에서 볼 수 있는 바와 같이, 단말(10a)의 사용자가 만화 '원피스'에 대한 검색을 수행하고자 하는 경우(예를 들어, 각 검색 서비스에서 지원하는 검색어 형식에 따라 다의어 중 특정 의미의 검색어를 특정하여 입력하는 경우(원피스(만화) 또는 원피스(옷)과 같은 형식으로 입력하는 경우), 본 발명의 일 실시예에 따른 개체명 연결 시스템(100)에서는 다의적 의미를 가지는 검색어의 의미를 고려한 검색 결과를 제공함으로써, 사용자가 보다 편리하게 자신이 원하는 검색 결과를 얻을 수 있도록 도울 수 있게 된다.In addition, the entity name connection system 100 according to an embodiment of the present invention can provide services to users by reflecting the entity name connection result. More specifically, for example, as shown in FIG. 3, when the user of the terminal 10a desires to perform a search for a cartoon 'One Piece' (for example, (In the case of inputting in a form such as a piece (cartoon) or a piece of clothes), the entity name connection system 100 according to an embodiment of the present invention may have a multi- It is possible to provide the search result considering the meaning of the search word so that the user can more conveniently obtain the desired search result.

또한, 도 2를 참조하여 본 발명의 일 실시예에 따른 개체명 연결 시스템(100) 및 관련된 구성들에 대하여 보다 자세하게 살펴보면, 상기 개체명 연결 시스템(100)은 하나 이상의 서버를 포함하여 구성될 수 있으며, 그외에 개체명 연결을 수행하기 위한 전용 하드웨어 등을 이용하여 구성되는 장치 등을 포함하여 구성될 수도 있다. 2, the entity name concatenation system 100 may include one or more servers. The entity name concatenation system 100 may include one or more servers. A device configured by using dedicated hardware for performing entity name connection, and the like.

또한, 상기 단말(10a, 10b)로서는 스마트폰, 태블릿 PC, PDA, 휴대전화 등 다양한 휴대 단말기가 사용될 수 있고, 그외에도 퍼스널 컴퓨터(PC), 노트북 PC 등 다양한 단말들이 채택될 수도 있다.The terminals 10a and 10b may be various mobile terminals such as a smart phone, a tablet PC, a PDA, and a mobile phone. In addition, various terminals such as a personal computer (PC) and a notebook PC may be adopted.

또한, 상기 사용자 단말(10a, 10b)과 개체명 연결 시스템(100)을 연결하는 통신 네트워크(30)로서는 유선 네트워크와 무선 네트워크를 포함할 수 있으며, 구체적으로, 근거리 통신망 (LAN: Local Area Network), 도시권 통신망 (MAN: Metropolitan Area Network), 광역 통신망 (WAN: Wide Area Network) 등의 다양한 통신망을 포함할 수 있다. 또한, 상기 통신 네트워크(30)는 공지의 월드 와이드 웹(WWW: World Wide Web)을 포함할 수도 있다. 그러나, 본 발명에 따른 통신 통신 네트워크(30)는 상기 열거된 네트워크에 국한되지 않고, 공지의 무선 데이터 네트워크나 공지의 전화 네트워크 또는 공지의 유무선 텔레비전 네트워크를 적어도 일부로 포함할 수도 있다.The communication network 30 that connects the user terminals 10a and 10b and the object name connection system 100 may include a wired network and a wireless network. Specifically, the communication network 30 may include a local area network (LAN) , A metropolitan area network (MAN), a wide area network (WAN), and the like. In addition, the communication network 30 may include a known World Wide Web (WWW). However, the communication communication network 30 according to the present invention is not limited to the above listed networks, but may include at least a known wireless data network or a known telephone network or a known wire / wireless television network.

도 4에서는 본 발명의 일 실시예에 따른 개체명 연결 방법의 순서도를 도시하고 있다. 도 4에서 볼 수 있는 바와 같이, 본 발명의 일 실시예에 따른 개체명 연결 방법은, 개체명 연결 시스템(100)이 하나 이상의 문장을 포함하는 텍스트 내에 위치하는 다의적 단어에 대한 개체명 연결 방법에 있어서, 상기 텍스트 내에서 다의적 단어를 산출하는 다의어 산출 단계(S110), 복수의 신경망 중 상기 다의적 단어에 대응하는 신경망을 선정하는 신경망 선정 단계(S120), 상기 선정된 신경망으로 상기 텍스트에 포함된 단어의 전부 또는 일부를 입력하는 신경망 입력 단계(S130) 및 상기 신경망의 출력을 고려하여 상기 다의적 단어에 대하여 개체명을 연결하는 개체명 연결 단계(S140)를 포함할 수 있으며, 이때 상기 복수의 신경망은 복수의 다의적 단어 별로 개별적으로 생성되게 된다.FIG. 4 illustrates a flowchart of an entity name connection method according to an embodiment of the present invention. As shown in FIG. 4, the object name connection method according to an embodiment of the present invention includes a method of connecting an object name to a dominant word located in a text including one or more sentences (S110) for calculating a complex word in the text, a neural network selection step (S120) for selecting a neural network corresponding to the complex word among the plurality of neural networks, a step of selecting a word (S130) for inputting all or a part of the plurality of neural networks, and an object name connecting step (S140) for connecting object names to the multiple words in consideration of the output of the neural network, It is generated separately for plural plural words.

아래에서는 도 4을 참조하여 본 발명의 일 실시예에 따른 개체명 연결 방법을 각 단계별로 나누어 자세하게 검토한다. Referring to FIG. 4, an object name connection method according to an embodiment of the present invention is divided into individual steps and examined in detail.

먼저, S110단계에서는 하나 이상의 문장을 포함하는 텍스트 내에서 다의적 단어를 산출하게 된다. 이때, 상기 S110 단계에서는 상기 텍스트를 미리 정해진 다의어 목록과 대비하여 상기 텍스트에 포함된 다의적 단어를 산출할 수 있다.First, in step S110, a complex word is calculated in a text including one or more sentences. At this time, in step S110, it is possible to compute the complex word included in the text by comparing the text with a predetermined list of words.

예를 들어, 본 발명의 일 실시예에 따른 개체명 연결 시스템(100)에서는 개체명 연결을 수행할 다의어들을 미리 선정하여 이를 포함하는 다의어 목록을 저장하여 관리할 수 있다. 이에 따라, 본 발명의 일 실시예에 따른 개체명 연결 시스템(100)에서는 상기 다의어 목록과 상기 텍스트를 대비함으로써, 상기 텍스트에서 객체명 연결을 수행할 다의어를 산출할 수 있다.For example, in the object name connection system 100 according to an embodiment of the present invention, a plurality of plural words to be used for connection of object names can be selected in advance and a list of plural words including the multiple words can be stored and managed. Accordingly, in the entity name concatenation system 100 according to an embodiment of the present invention, a compound name for performing an object name connection in the text may be calculated by comparing the compound name list with the text.

예를 들어, 상기 다의어 목록에는 "거미", "원피스" 등의 다의어가 포함될 수 있으며, 이에 따라 텍스트가 주어졌을 때(예를 들어, 도 5(a)의 "오늘 딸과 함께 매장에서 가서 원피스를 골랐다" 또는 도 5(b)의 "어제부터 원피스 시즌 8 방영이 개시되었습니다"), 상기 다의어 목록과 대비하여 상기 텍스트로부터 다의어를 산출("원피스")할 수 있게 된다. For example, the above-mentioned list may include a generic term such as "spider "," one piece ", etc. Accordingly, when text is given (for example, Quot ;, or " One Piece Season 8 Broadcasting has been started from yesterday "in FIG. 5 (b)), the polygraph can be calculated (" one piece ") from the text in comparison with the above-

나아가, 본 발명에서 반드시 상기 다의어 목록을 사용하여야 하는 것은 아니며, 이외에도 주어진 텍스트에 포함된 다의어를 적절하게 산출할 수 있는 방법이라면 특별한 제한없이 적용이 가능하다.Furthermore, the present invention does not necessarily use the above-mentioned plural language list, but can be applied without any particular limitations as long as it is possible to appropriately calculate a plural language included in a given text.

다음으로, S120 단계에서는 복수의 신경망 중 상기 다의적 단어에 대응하는 신경망을 선정하게 된다. 특히, 본 발명의 일 실시예에 따른 개체명 연결 시스템(100)에서는 복수의 다의어에 대하여 각 다의어에 대응하는 개별적인 신경망이 존재하며, 이들이 모여 상기 복수의 신경망을 구성하게 된다. 이에 따라 상기 복수의 신경망은 복수의 다의적 단어 별로 개별적으로 생성된 신경망일 수 있다.Next, in step S120, a neural network corresponding to the dominant word is selected from a plurality of neural networks. Particularly, in the entity name connection system 100 according to an embodiment of the present invention, there are individual neural networks corresponding to the respective plural terms of plural terms, and these plural neural networks constitute the plural neural networks. Accordingly, the plurality of neural networks may be neural networks individually generated for a plurality of verbal words.

즉, 도 6에서 볼 수 있는 바와 같이, 본 발명의 일 실시예에 따른 개체명 연결 시스템(100)에서 상기 복수의 신경망은 다의적 단어 별로(예를 들어, "원피스"(옷/만화), "거미"(가수/절지동물), "하루"(날짜의 단위/음식점 이름) 등) 개별적으로 생성된 복수의 신경망을 구비하게 되고, 이에 따라 개체명 연결을 수행할 다의어가 산출되면 그에 대응하는 신경망이 선정될 수 있게 된다.6, in the object name concatenation system 100 according to an embodiment of the present invention, the plurality of neural networks may be classified into multiple words (e.g., "one piece" Spider "(singer / arthropod)," day "(unit of date / restaurant name), etc.), and when a plural word is generated to perform the object name connection, Can be selected.

보다 구체적인 예를 들어, 하나 이상의 문장을 포함하는 텍스트에서 다의어 "원피스"가 산출되면, 도 6에서 볼 수 있는 바와 같이, 상기 다의어 "원피스"에 대하여 생성된 신경망(도 6의 (A))이 선정될 수 있고, 이어서 상기 선정된 신경망을 이용하여 상기 다의어 "원피스"에 대한 개체명 연결이 수행될 수 있게 된다.More specifically, for example, if the plural word "one piece" is calculated from the text containing one or more sentences, the neural network (FIG. 6A) generated for the plural word " , And then the entity name association for the plural word "Piece" can be performed using the selected neural network.

또한, 본 발명의 일 실시예에 따른 개체명 연결 시스템(100)에서는 미리 정해진 다의어 목록을 이용하여 상기 다의적 단어에 대한 신경망을 선정할 수 있다. 즉, 앞서 살핀 바와 같이, 본 발명의 일 실시예에 따른 개체명 연결 시스템(100)에서는 다의어 목록을 구비할 수 있는데, 상기 다의어 목록에는 각 다의어에 대응하는 신경망에 대한 정보가 포함될 수 있다. In addition, in the entity name concatenation system 100 according to an embodiment of the present invention, a neural network for the ambiguous word can be selected using a predefined plural word list. That is, as described above, the entity name linking system 100 according to an embodiment of the present invention may include a list of plural terms, and the list of the plural terms may include information on the corresponding neural networks.

이에 따라, 본 발명의 일 실시예에 따른 개체명 연결 시스템(100)에서는 미리 정해진 다의어 목록을 이용하여 상기 다의적 단어에 대한 신경망을 선정할 수 있게 된다. 그러나, 본 발명이 반드시 이에 한정되는 것은 아니며, 이외에도 상기 산출된 다의어에 대응하는 신경망을 적절하게 선정할 수 있는 방법이라면 특별한 제한없이 적용될 수 있다.Accordingly, in the entity name concatenation system 100 according to an embodiment of the present invention, a neural network for the ambiguous word can be selected by using a predefined plural word list. However, the present invention is not limited thereto, and the present invention can be applied without any particular limitations as long as it is a method capable of appropriately selecting a neural network corresponding to the calculated polygonal language.

나아가, 본 발명의 일 실시예에 따른 개체명 연결 시스템(100)에서 상기 복수의 신경망은 은닉층(hidden layer)이 존재하지 않는 얕은 신경망(딥 러닝의 깊은 신경망에 대응되는 개념)일 수 있다.In addition, in the entity name concatenation system 100 according to an embodiment of the present invention, the plurality of neural networks may be a shallow neural network (concept corresponding to a deep neural network of deep learning) in which a hidden layer does not exist.

이에 따라, 종래 기술에 따라 써포트 벡터 머신(Support Vector Machine, SVM)이나 로지스틱 회귀분석(Logistic Regression), 유사도 분석 기법 등을 이용하여 개체명 연결을 수행하는 경우, 구별 대상 개체명의 수가 늘어남에 따라 소요 시간의 증가와 함께 시간 대비 정확도가 떨어지는 문제가 나타날 수 있었으나, 본 발명의 일 실시예에 따른 개체명 연결 시스템(100)에서는 다의어 별로 생성된 신경망을 이용하여 개체명 연결을 수행함으로써, 구별 대상 개체명의 수가 늘어나더라도 소요 시간의 증가 및 정확도의 하락을 효과적으로 억제할 수 있게 된다.Accordingly, when the object name connection is performed using the support vector machine (SVM), the logistic regression, the similarity analysis technique, etc. according to the related art, However, in the object name concatenation system 100 according to an embodiment of the present invention, object name concatenation is performed using a neural network generated for each term, It is possible to effectively suppress the increase of the required time and the decrease of the accuracy even if the number of persons increases.

나아가, 딥러닝(Deep learning) 기법을 이용하여 개체명 연결을 수행하는 경우에는, 구별 대상 개체명의 증가에 따라 연산량이 기하급수적으로 증가함에 따라 연산량이 크게 늘어 소요되는 전산 자원(computational resource)가 급격하게 증가할 수 있으나, 또한 본 발명의 일 실시예에 따른 개체명 연결 시스템(100)에서는 하나 이상의 문장을 포함하는 텍스트 내에 위치하는 다의어에 대하여 그에 대응하는 개별적인 신경망을 이용하여 개체명 연결을 수행함으로써, 구별 대상 개체명의 수가 늘어나더라도 소요되는 전산 자원의 증가를 효과적으로 방지할 수 있게 된다.In addition, when performing the entity name connection using the Deep Learning method, the computational resources required for the computation increases dramatically as the computation amount increases exponentially with the increase of the names of the objects to be discriminated. The entity name concatenation system 100 according to an embodiment of the present invention may also perform entity name concatenation using a corresponding neural network for a plurality of terms located in text including one or more sentences , It is possible to effectively prevent the increase in the amount of computation resources required even if the number of object names to be discriminated increases.

다음으로, S130 단계에서는 상기 선정된 신경망으로 상기 텍스트에 포함된 단어의 전부 또는 일부를 입력하게 된다. 예를 들어, 도 5(a)에서 상기 다의어 "원피스"를 포함하는 문장("오늘 딸과 함께 매장에 가서 원피스를 골랐다")의 단어들("오늘?, "딸?, "함께", "매장" 등)을 입력하거나, 상기 다의어 "원피스"를 기준으로 소정의 거리(예를 들어, 전후 15단어 거리) 이내의 단어들을 입력하거나, 나아가 상기 텍스트에 포함된 단어의 전부를 입력하는 것도 가능하다.Next, in step S130, all or part of the words included in the text are input to the selected neural network. For example, in Figure 5 (a), the words ("Today," " Daughter ", " Store "or the like), or input words within a predetermined distance (for example, about 15 words before and after) on the basis of the plural word" one piece ", or input all words included in the text Do.

나아가, 본 발명의 일 실시예에 따른 개체명 연결 방법에서는, 상기 텍스트 내에서 상기 다의적 단어에 대응하는 하나 이상의 자질(feature)을 추출하는 자질 추출 단계를 더 포함할 수 있다. 이때, 상기 신경망 입력 단계(S130)에서는 상기 추출된 하나 이상의 자질을 상기 선정된 신경망으로 입력하게 된다.Further, in the entity name concatenation method according to an embodiment of the present invention, a feature extraction step of extracting one or more features corresponding to the complex word in the text may be further included. At this time, in the neural network input step (S130), the extracted one or more qualities are input to the selected neural network.

보다 구체적인 예를 들어, 도 5(a)의 텍스트에서 다의어 "원피스"에 대한 자질을 추출함에 있어서, 상기 텍스트에 포함된 명사, 형용사, 동사 등을 선별하여 상기 다의어 "원피스"에 대한 자질로 추출할 수도 있다(예를 들어, 도 5(a)에서 "오늘", "딸", "매장", "가서", "예쁜", "데님원피스" 등을 자질로 추출).More specifically, in extracting the qualities of the plural word "one piece" in the text of FIG. 5 (a), nouns, adjectives, verbs, etc. included in the text are selected and extracted as the qualities of the plural word " (For example, "Today", "Daughter", "Store", "Go", "Pretty", "Denim Dress" in FIG. 5 (a)).

나아가, 상기 텍스트에서 상기 다의적 단어로부터 소정의 거리 내에 있는 단어 중에서 상기 자질을 추출할 수도 있다. 예를 들어, 도 5(a)에서 상기 "원피스"를 중심으로 전후 일정 단어 개수 이내의 단어 중에서 자질을 추출할 수 있다.Further, the feature may be extracted from words within a predetermined distance from the dominant word in the text. For example, in FIG. 5 (a), qualities can be extracted from words within a predetermined number of words before and after the "piece".

또한, 상기 텍스트의 제목, 요약, 출처 등 상기 텍스트를 대표하는 문장에 포함된 단어 중에서 상기 자질을 추출할 수도 있다.In addition, the feature may be extracted from words included in a sentence representing the text such as the title, summary, and source of the text.

나아가, 상기 텍스트를 상기 각 다의적 단어에 대하여 미리 정해진 자질 목록과 대비하여 상기 자질을 추출할 수도 있다. 예를 들어, 도 5(a)에서 상기 다의어 "원피스"에 대하여 미리 정해진 자질에 "데님원피스", "입은", "예쁜", "루피", "샹크스" 등이 포함되어 있는 경우, 상기 텍스트 "오늘 딸과 함께 매장에 가서 원피스를 골랐다. 예쁜 데님원피스를 입은 딸의 모습을 보니 내가 더 즐거웠다"와 상기 미리 정해진 자질 목록을 대비하여, "데님원피스", "예쁜", "입은" 등을 자질로 추출할 수 있다.Furthermore, the text may be extracted in comparison with a predetermined list of qualities for each of the plural words. For example, in the case where "DENIM Piece", "Wear", "Pretty", "Rupee", "Shanks" and the like are included in the predetermined qualities for the above-mentioned "Piece" "I went to the store with my daughter today and picked a dress," "It was more fun to see my daughter wearing a pretty denim dress," and "Denim dress," "Pretty," and "Dressed" It can be extracted with qualities.

본 발명의 일 실시예에 따른 개체명 연결 시스템(100)에서는 상기한 구체적인 자질 추출 기법들을 통하여 신경망에서 소요되는 연산량을 줄임과 함께 결과물의 품질도 효과적으로 확보할 수 있게 된다.In the entity name concatenation system 100 according to an embodiment of the present invention, the amount of computation required in the neural network can be reduced and the quality of the result can be effectively secured through the above-described specific qualities extraction techniques.

마지막으로, S140 단계에서는 상기 신경망의 출력을 고려하여 상기 다의적 단어에 대하여 개체명을 연결하게 된다. 보다 구체적으로, 본 발명의 일 실시예에 따른 개체명 연결 시스템(100)에서는 상기 텍스트에 포함되는 자질의 종류, 개수 및 그에 대한 가중치를 고려하여 상기 텍스트에 포함된 상기 다의적 단어의 의미를 판단하고, 이에 따라 상기 다의어에 대한 개체명 연결을 수행할 수 있다.Finally, in step S140, the entity name is connected to the dominant word in consideration of the output of the neural network. More specifically, in the entity name concatenation system 100 according to an exemplary embodiment of the present invention, the meaning of the ambiguous word included in the text is determined by considering the type, number, and weight of the qualities included in the text , And thus can perform object name association for the plural word.

예를 들어, 7에서는 본 발명의 일 실시예에 따른 신경망의 구조를 예시하고 있다. 도 7에서 볼 수 있는 바와 같이, 본 발명의 일 실시예에 따른 신경망은 입력층(input layer)에 미리 정해진 자질들(도 7에서는 다의어 "원피스"에 대한 자질로서 "데님원피스", "입은", "코디", "루피", "샹크스"를 사용하는 경우를 예시)로 노드를 형성할 수 있고, 상기 각 자질에 대한 가중치를 할당하여 주어진 입력에 포함되는 자질의 종류, 개수 및 자질에 따른 가중치를 고려하여 출력치를 산출하여, 상기 다의어에 대한 의미를 파악하게 된다.For example, in FIG. 7, the structure of a neural network according to an embodiment of the present invention is illustrated. 7, the neural network according to an embodiment of the present invention includes predefined qualities (denoted as "denim dress", "dressed" as qualities for the generic term "dress" in FIG. 7) , "Shuffling", "shuffling", "coordination", "luffy", and "shanks" are used as an example) The output value is calculated in consideration of the weight, and the meaning of the plural word is grasped.

보다 구체적인 예를 들어, 도 5(a)의 문장("오늘 딸과 함께 매장에 가서 원피스를 골랐다. 예쁜 데님원피스를 입은 딸의 모습을 보니 내가 더 즐거웠다")에서 자질을 추출하여 도 7의 신경망에 입력하게 되면, 상기 신경망에서는 "데님원피스", "입은"의 각 자질에 대하여 가중치가 고려되어 각 출력단의 노드에서 출력치가 산출되게 된다. 이에 따라, 도 7의 "OUTPUT_원피스_옷" 노드에서의 출력치는 0.12+0.20 = 0.32 값이 되고, "OUTPUT_원피스_만화" 노드에서의 출력치는 0.01 + 0.01 = 0.02 값이 되는 바, 이에 따라 본 발명의 일 실시예에 따른 개체명 연결 시스템(100)에서는 상기 출력치를 고려하여 상기 텍스트의 다의어 "원피스"가 만화가 아니라 옷의 의미라고 판단할 수 있게 된다.For example, in the sentence of FIG. 5 (a) ("I went to the store with my daughter today and picked the dress, I found the daughter dressed in a pretty denim dress and I enjoyed it more"), Quot; denim dress "and" mouth "are taken into account in the neural network, and the output value is calculated at each output node. Accordingly, the output value at the "OUTPUT_Piece_Clothes" node of FIG. 7 becomes 0.12 + 0.20 = 0.32, and the output value at the "OUTPUT_Piece_Cartoon" node becomes 0.01 + 0.01 = 0.02 Accordingly, in the object name concatenation system 100 according to the embodiment of the present invention, it is possible to judge that the plural word "one piece" of the text is the meaning of clothes rather than a cartoon in consideration of the output value.

반면, 도 5(b)의 문장(“오랫동안 기다리셨죠 드디어, 어제부터 원피스 시즌 8 방영이 개시되었습니다. 루피가 해적단을 이끌고 떠날 모험이 기대가 되네요. 특히, 나미와 샹크스의 대활약을 기대합니다")에서 자질을 추출하면 "루피", "샹크스"가 추출될 수 있고, 이에 따른 출력단의 노드에서의 출력치를 산출하여 보면, "OUTPUT_원피스_옷" 노드에서의 출력치는 0.01+0.01 = 0.02 값이 되고, "OUTPUT_원피스_만화" 노드에서의 출력치는 0.24 + 0.18 = 0.32 값이 되는 바, 이에 따라 본 발명의 일 실시예에 따른 개체명 연결 시스템(100)에서는 상기 출력치를 고려하여 상기 텍스트의 다의어 "원피스"가 옷이 아니라 만화의 의미라고 판단할 수 있게 된다.On the other hand, the sentence in Figure 5 (b) ("You've been waiting for a long time, I have started the one-piece season 8 from yesterday, and I am looking forward to the adventure of Rupee to lead the pirates, especially Nami and Shanks.") Quot; OUTPUT_Piece_Clothes "node has a value of 0.01 + 0.01 = 0.02 when calculating the output value at the node of the output terminal, And the output value at the "OUTPUT_Piece_Cartoon" node has a value of 0.24 + 0.18 = 0.32. Accordingly, in the object name connection system 100 according to the embodiment of the present invention, It is possible to judge that the "one piece" is not the clothes but the meaning of the cartoon.

나아가, 도 7에서 알 수 있는 바와 같이, 본 발명의 일 실시예에 따른 개체명 연결 시스템(100)에서는 다의어를 포함하는 텍스트가 주어졌을 때, 그에 따른 각 노드에서의 가중치 등을 고려하여 어떻게 상기 다의어에 대한 개체명 연결이 수행되는지 명확하게 확인이 가능하며, 특히 특정한 텍스트에 포함된 다의어에 대한 개체명 연결이 잘못 수행된 경우, 시스템 관리자 등은 이러한 오류의 원인을 명확하게 파악하고 특정 자질에 대한 가중치를 조정하거나 자질을 추가, 삭제하는 등의 방법으로 상기 오류를 정정할 수 있게 된다는 장점을 가질 수 있다.In addition, as can be seen from FIG. 7, in the entity name concatenation system 100 according to an embodiment of the present invention, when a text including a plural word is given, In particular, if the connection of the object name to the plural words included in the specific text is performed improperly, the system administrator can clearly identify the cause of the error, It is possible to correct the error by adjusting the weight or adding or deleting the qualities.

또한, 도 8에서는 본 발명의 일 실시예에 따라 각 다의어에 대한 자질을 선정하는 과정을 설명하는 예시하고 있다. 도 8(a)에서 볼 수 있는 바와 같이, 특정 다의어(도 8(a)에서 다의어 "김소연(1980년)")에 대한 자질을 선정함에 있어서는 상기 다의어를 기술하는데 사용되는 단어들을 선별하여 사용할 수 있다. 예를 들어, 본 발명의 일 실시예로서는 특정 다의어에 대한 자질을 선정함에 있어, 상기 다의어에 대한 위키피디아 백과사전(ko.wikipedia.org)의 문서에 포함된 단어들 중에서 선정하였다. 이에 따라, 도 8(b)에서 볼 수 있는 바와 같이, 상기 다의어 "김소연(1980년)"에 대하여 선정된 자질에는 "35세", "대한민국 서울특별시", "배우", "우리결혼했어요" 등이 포함될 수 있다.In addition, FIG. 8 illustrates a process of selecting qualities for each DICOM according to an embodiment of the present invention. As can be seen from Fig. 8 (a), in selecting the qualities of a specific plural word (the plural word "Kim So Yeon (1980)" in Fig. 8A), words used to describe the plural word can be selected and used have. For example, in one embodiment of the present invention, in selecting qualities for a specific plural word, the words included in the document of the Wikipedia Wikipedia Encyclopedia (ko.wikipedia.org) are selected. Accordingly, as can be seen from FIG. 8 (b), the selected qualities for the above-mentioned "Korean Sojyon (1980)" include "35 years old" And the like.

그러나, 본 발명이 반드시 이에 한정되는 것은 아니며, 이외에도 주어진 다의어의 특징을 반영하거나 연관도가 높은 단어 등 상기 다의어에 대한 자질을 적절하게 선정할 수 있는 방법이라면 특별한 제한없이 다양한 기준 및 방법으로 상기 다의어에 대한 자질을 선정할 수 있다.However, the present invention is not necessarily limited to the above. In addition, the present invention is not limited to the above-mentioned embodiments. For example, if the method is a method capable of appropriately selecting qualities of a specific word such as a word reflecting a characteristic of a given word, Can be selected.

나아가, 본 발명의 일 실시예에 따른 개체명 연결 시스템(100)에서 특정 다의어에 대한 자질을 선정함에 있어서, 상호 정보(mutual information), 카이제곱(chi-square), 정보 획득(information gain) 기법 등 다양한 기법을 적용할 수도 있다.Further, in selecting the qualities of a specific plural word in the entity name concatenation system 100 according to an embodiment of the present invention, mutual information, chi-square, information gain technique And so on.

나아가, 도 9에서 볼 수 있는 바와 같이, 본 발명의 일 실시예에 따른 개체명 연결 시스템(100)에서는 노이즈 샘플링이 적용된 정보 획득(information gain with negative sampling) 기법을 이용하여 특정 다의어에 대한 자질을 선정할 수도 있다. 도 9(a)에서 볼 수 있는 바와 같이, 특정한 다의어들을 동일한 자질을 함께 공유할 수 있는 바(도 9(a)에서 김소연_(1980년)과 김소연_(2002년)은 모두 "배우"를 자질로 포함), 이에 따라 과적합(overfitting) 문제가 발생할 수 있다. 이에 대하여, 본 발명의 일 실시예에 따른 개체명 연결 시스템(100)에서는 도 9(b)에서 볼 수 있는 바와 같이, 노이즈 샘플(도 9(b)의 이지훈_(이스포츠), 원피스(의류) 등)을 추가하여 신경망을 학습하도록 함으로써, 부족한 데이터로 인한 과적합(overfitting), 선택 편중(selection bias) 등의 문제를 개선할 수 있게 된다.9, in the entity name concatenation system 100 according to an embodiment of the present invention, the qualities of a specific plural word can be obtained by using an information gain with negative sampling technique It can also be selected. As can be seen in Fig. 9 (a), certain similar words can be shared by the same qualities (Fig. 9 (a) with Kim So Yeon (1980) and Kim So Yeon (2002) Qualities), which can lead to overfitting problems. 9 (b), in the object name concatenation system 100 according to an embodiment of the present invention, the noise samples (Lee Ji Hoon _ (Sports), One Piece ), Etc.) are added to the neural network to solve problems such as overfitting and selection bias due to insufficient data.

나아가, 본 발명의 일 실시예에 따른 개체명 연결 시스템(100)에서는 선정된 자질을 종자 자질(seed feature)로 하여 뉴스, 블로그 등에 대한 검색을 통해 학습 콘텍스트(context)를 추가할 수도 있다. 이에 따라, 추가된 학습 콘텍스트 등을 이용하여 자질을 확장하는 작업을 수행할 수도 있다.Furthermore, in the object name concatenation system 100 according to an embodiment of the present invention, a learning context may be added through searching for news, blog, etc., with the selected qualities as seed features. Accordingly, it is possible to perform an operation of extending the qualities using the added learning context or the like.

또한, 본 발명의 일 실시예에 따른 개체명 연결 시스템(100)에서는 신경망을 구성하고 학습함에 있어, 상기 선정된 각 자질에 대한 가중치를 산출하고 최적화하게 된다. 이때, 역전달(back propagation) 기법을 적용하여 상기 가중치를 산출하고 최적화할 수 있다.In addition, in the entity name connection system 100 according to an embodiment of the present invention, in constructing and learning a neural network, weights are calculated and optimized for each selected feature. At this time, the weight can be calculated and optimized by applying a back propagation technique.

나아가, 상기 각 자질에 대한 가중치를 산출함에 있어서, 도 10에서 볼 수 있는 바와 같이, 주어진 다의어(도 10에서 "김소연")로부터 자질까지의 거리를 고려하여 상기 가중치를 산출할 수도 있다. 예를 들어, 도 10에서 "우결", "커플" 은 상기 다의어 "김소연"에서 소정의 거리 이내에 위치한 단어이고(도 10에서 local context), "MBC"는 소정의 거리 밖에 위치한 단어인 바(도 10에서 global context), 상기 다의어로부터의 거리에 따른 가중치를 부여하여, 상기 각 다의어의 자질에 대한 가중치를 산출하고 최적치를 도출할 수 있다.Further, in calculating the weight for each of the qualities, the weight may be calculated in consideration of a distance from a given vernacular word ("Kim So Yeon" in Fig. 10) to qualities as shown in Fig. For example, in Fig. 10, "couple" is a word located within a predetermined distance from the above-mentioned "Kim So Yeon" (local context in Fig. 10), "MBC" 10), a weight corresponding to the distance from the plural is given, and a weight for the qualities of the plural can be calculated and an optimum value can be derived.

도 11에서는 본 발명의 일 실시예에 따른 개체명 연결 시스템(100)의 정확도 계산치를 보여주고 있다. 도 11에서 볼 수 있는 바와 같이, 텍스트에 포함된 다의어에 대한 개체명 연결을 수행함에 있어서, 종래기술에 따라 (1) 가장 많이 사용되는 의미로 연결하는 경우(도 11의 Baseline) 정확도(Precision)가 63.6%에 그치고, 랜덤 포레스트(도 11의 Random Forest), 써포트 벡터 머신(도 11의 Support Vector Machine)의 경우 정확도가 각각 84.2%, 81.3%에 그친 반면, 본 발명에 따른 개체명 연결 시스템(100)에서는 90.5%로 정확도가 확연하게 개선되었음을 확인할 수 있다.FIG. 11 shows the calculated accuracy of the entity name concatenation system 100 according to an embodiment of the present invention. As can be seen from FIG. 11, in performing entity name association for a plural word included in the text, according to the prior art, (1) the case of connecting to the most used meaning (Baseline in FIG. 11) (63%), accuracy in the case of the random forest (Random Forest in FIG. 11) and the support vector machine (support vector machine in FIG. 11) were only 84.2% and 81.3%, respectively. 100), the accuracy was improved to 90.5%.

또한, 도 12에서는 본 발명의 일 실시예에 따른 텍스트 처리 서버(200)의 동작을 설명하기 위한 도면을 보여주고 있다. 도 12에서 볼 수 있는 바와 같이, 본 발명의 일 실시예에 따른 텍스트 처리 서버(200)는 사용자의 단말(10a, 10b)과 연결되어, 상기 사용자들이 요청하는 검색 등의 서비스에 대하여, 검색어 등에 포함되는 다의어의 의미를 고려하여 검색 등을 수행하고, 그에 따른 결과를 상기 단말(10a, 10b)로 전송하게 된다.FIG. 12 is a diagram for explaining the operation of the text processing server 200 according to an embodiment of the present invention. 12, the text processing server 200 according to an exemplary embodiment of the present invention is connected to the terminals 10a and 10b of the user, Performs a search or the like in consideration of the meaning of the contained plural terms, and transmits the result to the terminals 10a and 10b.

보다 구체적인 예를 들어, 도 13에서 볼 수 있는 바와 같이, 상기 사용자가 입력한 검색어에 다의어가 포함되어 있는 경우(도 13에서 "거미는 곤충인가요"에 다의어 "거미"가 포함되어 있는 경우), 상기 '거미'라는 단어는 그 쓰임새에 따라서 가수의 이름인 '거미' 일 수도 있으며, 절지 동물의 한 종류인 '거미'일 수도 있다. 이에 대하여, 본 발명의 일 실시예에 따른 텍스트 처리 서버(200)에서는 상기 문장에서 상기 '거미'가 가수를 의미하는지 또는 절지 동물을 의미하는지를 판단하여, 상기 검색어에 대한 검색을 수행하게 된다. 이에 따라, 본 발명의 일 실시예에 따른 텍스트 처리 서버(200)에서는 다의어를 포함하는 검색어에 대하여 상기 다의어의 의미를 고려한 검색 결과를 제공함으로써, 사용자가 보다 편리하게 자신이 원하는 검색 결과를 얻을 수 있도록 도울 수 있게 된다.More specifically, as can be seen from FIG. 13, when the user's input words include a plural word (in the case of "spider is an insect" in FIG. 13) The word 'spider' may be the name of the singer 'spider' according to its use, or it may be a kind of arthropod, 'spider'. On the other hand, in the text processing server 200 according to an embodiment of the present invention, the 'spider' in the sentence is judged whether it means a singer or an arthropod, and the searched word is searched. Accordingly, in the text processing server 200 according to an embodiment of the present invention, a search result considering a meaning of the plural word is provided for a search word including a plural word, so that a user can more easily obtain a desired search result .

나아가, 본 발명의 일 실시예에 따른 텍스트 처리 서버(200)는 상기 검색 서비스를 수행하는 것이 한정되지 아니하며, 이외에도 텍스트를 입력받아 이를 처리하여 결과를 산출하는 다양한 서비스를 수행할 수 있다. Furthermore, the text processing server 200 according to an exemplary embodiment of the present invention is not limited to performing the search service. In addition, the text processing server 200 may perform various services for receiving text, processing texts, and calculating results.

또한, 상기 단말(10a, 10b)로서는 스마트폰, 태블릿 PC, PDA, 휴대전화 등 다양한 휴대 단말기가 사용될 수 있고, 그외에도 퍼스널 컴퓨터(PC), 노트북 PC 등 다양한 단말들이 채택될 수도 있다.The terminals 10a and 10b may be various mobile terminals such as a smart phone, a tablet PC, a PDA, and a mobile phone. In addition, various terminals such as a personal computer (PC) and a notebook PC may be adopted.

또한, 상기 사용자 단말(10a, 10b)과 텍스트 처리 서버(200)를 연결하는 통신 네트워크(30)로서는 유선 네트워크와 무선 네트워크를 포함할 수 있으며, 구체적으로, 근거리 통신망 (LAN: Local Area Network), 도시권 통신망 (MAN: Metropolitan Area Network), 광역 통신망 (WAN: Wide Area Network) 등의 다양한 통신망을 포함할 수 있다. 또한, 상기 통신 네트워크(30)는 공지의 월드 와이드 웹(WWW: World Wide Web)을 포함할 수도 있다. 그러나, 본 발명에 따른 통신 통신 네트워크(30)는 상기 열거된 네트워크에 국한되지 않고, 공지의 무선 데이터 네트워크나 공지의 전화 네트워크 또는 공지의 유무선 텔레비전 네트워크를 적어도 일부로 포함할 수도 있다.The communication network 30 that connects the user terminals 10a and 10b and the text processing server 200 may include a wired network and a wireless network. More specifically, the communication network 30 may include a local area network (LAN) A metropolitan area network (MAN), a wide area network (WAN), and the like. In addition, the communication network 30 may include a known World Wide Web (WWW). However, the communication communication network 30 according to the present invention is not limited to the above listed networks, but may include at least a known wireless data network or a known telephone network or a known wire / wireless television network.

도 14에서는 본 발명의 일 실시예에 따른 텍스트 처리 방법의 순서도를 도시하고 있다. 도 14에서 볼 수 있는 바와 같이, 본 발명의 일 실시예에 따른 텍스트 처리 방법은, 텍스트 처리 서버(200)가, 단말(10a, 10b)로부터 하나 이상의 문장을 포함하는 텍스트를 수신하는 텍스트 수신 단계(S210), 상기 텍스트 내에서 다의적 단어를 산출하는 다의어 산출 단계(S220), 복수의 신경망 중 상기 다의적 단어에 대응하는 신경망을 선정하는 신경망 선정 단계(S230), 상기 선정된 신경망으로 상기 텍스트의 전부 또는 일부를 입력하는 신경망 입력 단계(S240), 상기 신경망의 출력을 고려하여 상기 다의적 단어의 의미를 판단하는 의미 판단 단계(S250) 및 상기 단말(10a, 10b)로 상기 다의적 단어의 의미를 고려하여 상기 텍스트에 대하여 산출한 출력을 전송하는 출력 전송 단계(S260)를 포함할 수 있으며, 이때 상기 복수의 신경망은 복수의 다의적 단어 별로 개별적으로 생성되게 된다.FIG. 14 shows a flowchart of a text processing method according to an embodiment of the present invention. 14, the text processing method according to the embodiment of the present invention is characterized in that the text processing server 200 receives a text including one or more sentences from the terminals 10a and 10b, (S210), a polyphonic language calculation step S220 of calculating a polyphonic word in the text, a neural network selection step S230 of selecting a neural network corresponding to the polyphonic word among the plurality of neural networks, A meaning determination step S250 for determining the meaning of the polyphonic word in consideration of the output of the neural network, and a semantic determination step S250 for considering the meaning of the ambiguous word to the terminals 10a and 10b And an output transmission step (S260) of transmitting an output calculated for the text, wherein the plurality of neural networks are individually .

상기 본 발명의 일 실시예에 따른 텍스트 처리 방법은 앞서 설명한 본 발명의 일 실시예에 따른 개체명 연결 방법의 경우와 유사하게 구현될 수 있으며, 다만, 주어진 텍스트에 포함된 다의어를 산출하고, 상기 산출된 다의어에 대응하는 신경망으로, 상기 텍스트의 전부 또는 일부를 입력하여 상기 다의어의 의미를 판단하여 상기 텍스트에 대하여 출력을 산출한다는 점에서 차이가 있는 바, 본 발명의 일 실시예에 따른 텍스트 처리 방법의 각 단계에 대한 자세한 설명은 앞서 설명한 본 발명의 일 실시예에 따른 개체명 연결 방법을 참조하여 용이하게 구현될 수 있는 바, 자세한 설명은 생략하기로 한다.The text processing method according to an embodiment of the present invention may be implemented similarly to the case of the entity name connection method according to the embodiment of the present invention described above, There is a difference in that the output is calculated for the text by inputting all or a part of the text into the neural network corresponding to the calculated polygonal word to determine the meaning of the polygonal word, The detailed description of each step of the method can be easily implemented by referring to the entity name connection method according to the embodiment of the present invention described above, and a detailed description thereof will be omitted.

또한, 본 발명의 또 다른 측면에 따른 컴퓨터 프로그램은 앞서 살핀 개체명 연결 방법 또는 텍스트 처리 방법의 각 단계를 컴퓨터에서 실행시키기 위하여 컴퓨터로 판독 가능한 매체에 저장된 컴퓨터 프로그램인 것을 특징으로 한다. 상기 컴퓨터 프로그램은 컴파일러에 의해 만들어지는 기계어 코드를 포함하는 컴퓨터 프로그램뿐만 아니라, 인터프리터 등을 사용해서 컴퓨터에서 실행될 수 있는 고급 언어 코드를 포함하는 컴퓨터 프로그램일 수도 있다. 이때, 상기 컴퓨터로서는 퍼스널 컴퓨터(PC)나 노트북 컴퓨터 등에 한정되지 아니하며, 서버, 스마트폰, 태블릿 PC, PDA, 휴대전화 등 중앙처리장치(CPU)를 구비하여 컴퓨터 프로그램을 실행할 수 있는 일체의 정보처리 장치를 포함한다. 또한, 상기 상기 컴퓨터로 판독 가능한 매체는 전자적 기록 매체(예를 들면, 롬, 플래시 메모리, 등), 마그네틱 저장매체(예를 들면, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등) 등과 같이 컴퓨터로 판독이 가능한 일체의 저장매체를 포함한다. According to still another aspect of the present invention, a computer program is a computer program stored in a computer-readable medium for causing a computer to execute each of the steps of the object name connecting method or the text processing method. The computer program may be a computer program containing machine code generated by a compiler, as well as a computer program containing a high-level language code that may be executed in a computer using an interpreter or the like. At this time, the computer is not limited to a personal computer (PC), a notebook computer, or the like, and may include a central processing unit (CPU) such as a server, a smart phone, a tablet PC, a PDA, Device. The computer-readable medium may also be an electronic storage medium (e.g., ROM, flash memory, etc.), a magnetic storage medium (e.g., floppy disk, hard disk, etc.) A CD-ROM, a DVD, etc.), and the like.

또한, 도 15에서는 본 발명의 일 실시예에 따른 개체명 연결 시스템(100)의 구성도를 예시하고 있다.In addition, FIG. 15 illustrates the configuration of the object name connection system 100 according to an embodiment of the present invention.

도 15에서 볼 수 있는 바와 같이 본 발명의 일 실시예에 따른 개체명 연결 시스템(100)은 다의어 산출부(110), 신경망 선정부(120), 신경망 입력부(130) 및 개체명 연결부(140)를 포함하여 구성될 수 있다.As shown in FIG. 15, the entity name connection system 100 according to an embodiment of the present invention includes a polyphony calculation unit 110, a neural network selection unit 120, a neural network input unit 130, As shown in FIG.

아래에서는 본 발명의 일 실시예에 따른 개체명 연결 시스템(100)을 각 구성요소 별로 나누어 살핀다. 본 발명의 일 실시예에 따른 개체명 연결 시스템(100)에 대한 보다 자세한 내용은 앞서 설명한 본 발명의 일 실시예에 따른 개체명 연결 방법에 대한 설명으로부터 유추될 수 있는 바, 아래에서 보다 자세한 설명은 생략한다.The object name connection system 100 according to an embodiment of the present invention is divided into individual components. The object name concatenation system 100 according to an embodiment of the present invention can be inferred from the description of the object name concatenation method according to the embodiment of the present invention described above, Is omitted.

먼저, 다의어 산출부(110)에서는 하나 이상의 문장을 포함하는 텍스트 내에서 다의적 단어를 산출하게 된다.First, the polygonal language calculation unit 110 calculates a polygonal word in a text including one or more sentences.

이어서, 신경망 선정부(120)에서는 복수의 신경망 중 상기 다의적 단어에 대응하는 신경망을 선정하게 된다.Then, the neural network selecting unit 120 selects a neural network corresponding to the above-mentioned plural words among the plurality of neural networks.

이어서, 신경망 입력부(130)에서는 상기 선정된 신경망으로 상기 텍스트에 포함되는 단어의 전부 또는 일부를 입력하게 된다.Then, the neural network input unit 130 inputs all or part of words included in the text by the selected neural network.

마지막으로, 개체명 연결부(140)에서는 상기 신경망의 출력을 고려하여 상기 다의적 단어에 대하여 개체명을 연결하게 된다.Finally, the object name connecting unit 140 connects the object name to the multinomial word in consideration of the output of the neural network.

이때, 상기 복수의 신경망은 복수의 다의적 단어 별로 개별적으로 생성된 신경망임을 특징으로 한다. Here, the plurality of neural networks is a neural network individually generated for each of a plurality of verbal words.

나아가, 본 발명의 일 실시예에 따른 개체명 연결 시스템(100)에서, 상기 복수의 신경망은 은닉층(hidden layer)이 1개층 이내인 얕은 신경망일 수 있다. In addition, in the entity name concatenation system 100 according to an embodiment of the present invention, the plurality of neural networks may be a shallow neural network having a hidden layer within one layer.

또한, 도 16에서는 본 발명의 일 실시예에 따른 텍스트 처리 서버(200)의 구성도를 예시하고 있다.In addition, FIG. 16 illustrates a configuration diagram of a text processing server 200 according to an embodiment of the present invention.

도 16에서 볼 수 있는 바와 같이 본 발명의 일 실시예에 따른 텍스트 처리 서버(200)는 텍스트 수신부(110), 다의어 산출부(120), 신경망 선정부(130), 신경망 입력부(140), 의미 판단부(150) 및 출력부(160)를 포함하여 구성될 수 있다.16, the text processing server 200 according to an embodiment of the present invention includes a text receiving unit 110, a plural word computing unit 120, a neural network selecting unit 130, a neural network inputting unit 140, A determination unit 150, and an output unit 160.

아래에서는 본 발명의 일 실시예에 따른 텍스트 처리 서버(200)를 각 구성요소 별로 나누어 살핀다. 본 발명의 일 실시예에 따른 텍스트 처리 서버(200)에 대한 보다 자세한 내용은 앞서 설명한 본 발명의 일 실시예에 따른 개체명 연결 방법 및 텍스트 처리 방법에 대한 설명으로부터 유추될 수 있는 바, 아래에서 보다 자세한 설명은 생략한다.Hereinafter, the text processing server 200 according to an embodiment of the present invention is divided for each component. The details of the text processing server 200 according to an embodiment of the present invention can be inferred from the description of the object name connection method and the text processing method according to the embodiment of the present invention described above, A detailed description will be omitted.

먼저, 텍스트 수신부(110)에서는 단말(10a, 10b)로부터 하나 이상의 문장을 포함하는 텍스트를 수신하게 된다.First, the text receiving unit 110 receives texts including one or more sentences from the terminals 10a and 10b.

이어서, 다의어 산출부(120)에서는 텍스트 내에 위치하는 다의적 단어를 산출하게 된다.Then, the polynomial calculation unit 120 calculates a polynomial word located in the text.

또한, 신경망 선정부(130)에서는 복수의 신경망 중 상기 다의적 단어에 대응하는 신경망을 선정하게 된다.In addition, the neural network selecting unit 130 selects a neural network corresponding to the above-mentioned plural words among a plurality of neural networks.

이어서, 신경망 입력부(140)에서는 상기 선정된 신경망으로 상기 텍스트에 포함되는 단어의 전부 또는 일부를 입력하게 된다.Then, the neural network input unit 140 inputs all or part of words included in the text into the selected neural network.

다음으로, 의미 판단부(150)에서는 상기 신경망의 출력을 고려하여 상기 다의적 단어의 의미를 판단하게 된다.Next, the meaning determination unit 150 determines the meaning of the ambiguous word in consideration of the output of the neural network.

마지막으로, 출력부(160)에서는 상기 단말(10a, 10b)로 상기 다의적 단어의 의미를 고려하여 상기 텍스트에 대하여 산출한 출력을 전송하게 된다.Finally, the output unit 160 transmits the calculated output to the terminals 10a and 10b in consideration of the meaning of the ambiguous word.

이때, 상기 복수의 신경망은 복수의 다의적 단어 별로 개별적으로 생성된 신경망임을 특징으로 한다. Here, the plurality of neural networks is a neural network individually generated for each of a plurality of verbal words.

나아가, 본 발명의 일 실시예에 따른 개체명 연결 시스템(100)에서, 상기 복수의 신경망은 은닉층(hidden layer)이 1개층 이내인 얕은 신경망일 수 있다. In addition, in the entity name concatenation system 100 according to an embodiment of the present invention, the plurality of neural networks may be a shallow neural network having a hidden layer within one layer.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서 본 발명에 기재된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의해서 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.The foregoing description is merely illustrative of the technical idea of the present invention, and various changes and modifications may be made by those skilled in the art without departing from the essential characteristics of the present invention. Therefore, the embodiments described in the present invention are not intended to limit the technical spirit of the present invention but to illustrate the present invention. The scope of protection of the present invention should be construed according to the following claims, and all technical ideas within the scope of equivalents thereof should be construed as being included in the scope of the present invention.

10, 10a, 10b : 단말
20 : 통신 네트워크
30 : 데이터베이스
100 : 개체명 연결 시스템
110 : 다의어 산출부
120 : 신경망 선정부
130 : 신경망 입력부
140 : 개체명 연결부
200 : 서버
210 : 텍스트 수신부
220 : 다의어 산출부
230 : 신경망 선정부
240 : 신경망 입력부
250 : 의미 판단부
260 : 출력부
10, 10a, 10b:
20: Communication network
30: Database
100: object name connection system
110:
120: Neural network prefix
130: Neural network input unit
140: entity name connection
200: Server
210:
220:
230: Neural network prefix
240: Neural network input unit
250:
260: Output section

Claims (13)

개체명 연결 시스템이 하나 이상의 문장을 포함하는 텍스트 내에 위치하는 다의적 단어에 대한 개체명 연결 방법에 있어서,
상기 텍스트 내에서 다의적 단어를 산출하는 다의어 산출 단계;
복수의 신경망 중 상기 다의적 단어에 대응하는 신경망을 선정하는 신경망 선정 단계;
상기 선정된 신경망으로 상기 텍스트에 포함된 단어의 전부 또는 일부를 입력하는 신경망 입력 단계; 및
상기 신경망의 출력을 고려하여 상기 다의적 단어에 대하여 개체명을 연결하는 개체명 연결 단계를 포함하며,
상기 복수의 신경망은 복수의 다의적 단어 별로 개별적으로 생성된 것이고,
상기 신경망 선정 단계에서는,
각 다의어에 대응하는 신경망에 대한 정보가 포함된 다의어 목록을 이용하여 상기 복수의 신경망 중 상기 다의적 단어에 대한 신경망을 선정하는 것을 특징으로 하는 개체명 연결 방법.
A method for linking an object name to a polymorphic word whose object name is located in a text containing one or more sentences,
Calculating a plural word in the text;
A neural network selecting step of selecting a neural network corresponding to the multiple words among a plurality of neural networks;
A neural network input step of inputting all or part of words included in the text into the selected neural network; And
And an entity name concatenation step of concatenating entity names of the ambiguous words in consideration of the output of the neural network,
Wherein the plurality of neural networks are generated individually for a plurality of plural words,
In the neural network selection step,
And selecting a neural network for the ambiguous word among the plurality of neural networks by using a list of polygons containing information on the neural network corresponding to each polygonal word.
제 1항에 있어서,
상기 복수의 신경망은 은닉층(hidden layer)이 존재하지 않는 얕은 신경망인 것을 특징으로 하는 개체명 연결 방법.
The method according to claim 1,
Wherein the plurality of neural networks are shallow neural networks in which no hidden layer exists.
제 1항에 있어서,
상기 다의어 산출 단계에서는,
상기 텍스트를 미리 정해진 다의어 목록과 대비하여 상기 텍스트에 포함된 다의적 단어를 산출하는 것을 특징으로 하는 개체명 연결 방법.
The method according to claim 1,
In the step of calculating the plural words,
And comparing the text with a predetermined list of plural words to compute a multiple word included in the text.
삭제delete 제 1항에 있어서,
상기 텍스트 내에서 상기 다의적 단어에 대응하는 하나 이상의 자질(feature)을 추출하는 자질 추출 단계;를 더 포함하며,
이때 상기 신경망 입력 단계에서는, 상기 추출된 하나 이상의 자질을 상기 선정된 신경망으로 입력하는 것을 특징으로 하는 개체명 연결 방법.
The method according to claim 1,
And extracting at least one feature corresponding to the polyphonic word in the text,
Wherein, in the neural network input step, the extracted one or more qualities are input to the selected neural network.
제 5항에 있어서,
상기 자질 추출 단계에서는,
상기 텍스트에서 상기 다의적 단어로부터 소정의 거리 내에 있는 단어 중에서 상기 자질을 추출하는 것을 특징으로 하는 개체명 연결 방법.
6. The method of claim 5,
In the characteristic extraction step,
And extracting the qualities from words within a predetermined distance from the dominant word in the text.
제 5항에 있어서,
상기 자질 추출 단계에서는,
상기 텍스트의 제목, 요약, 출처를 포함하는 상기 텍스트를 대표하는 문장에 포함된 단어 중에서 상기 자질을 추출하는 것을 특징으로 하는 개체명 연결 방법.
6. The method of claim 5,
In the characteristic extraction step,
Extracting the qualities from words included in a sentence representing the text including the title, summary, and source of the text.
제 5항에 있어서,
상기 자질 추출 단계에서는,
상기 텍스트를 상기 각 다의적 단어에 대하여 미리 정해진 자질 목록과 대비하여 상기 자질을 추출하는 것을 특징으로 하는 개체명 연결 방법.
6. The method of claim 5,
In the characteristic extraction step,
And extracting the character by comparing the text with a predetermined list of qualities for each of the plural words.
제5항에 있어서,
상기 개체명 연결 단계에서는,
상기 텍스트에 포함되는 자질의 종류, 개수 및 그에 대한 가중치 중 적어도 하나 이상을 고려하여 상기 텍스트에 포함된 상기 다의적 단어의 의미를 판단하는 것을 특징으로 하는 개체명 연결 방법.
6. The method of claim 5,
In the object name concatenation step,
Wherein the meaning of the ambiguous word included in the text is determined in consideration of at least one of a type, a number, and a weight of the qualities included in the text.
서버가 단말로부터 전송받은 텍스트를 처리하는 방법에 있어서,
서버가, 단말로부터 하나 이상의 문장을 포함하는 텍스트를 수신하는 텍스트 수신 단계;
상기 텍스트 내에서 다의적 단어를 산출하는 다의어 산출 단계;
복수의 신경망 중 상기 다의적 단어에 대응하는 신경망을 선정하는 신경망 선정 단계;
상기 선정된 신경망으로 상기 텍스트에 포함된 단어의 전부 또는 일부를 입력하는 신경망 입력 단계;
상기 신경망의 출력을 고려하여 상기 다의적 단어의 의미를 판단하는 의미 판단 단계; 및
상기 단말로 상기 다의적 단어의 의미를 고려하여 상기 텍스트에 대하여 산출한 출력을 전송하는 출력 전송 단계를 포함하며,
상기 복수의 신경망은 복수의 다의적 단어 별로 개별적으로 생성된 것이고,
상기 신경망 선정 단계에서는,
각 다의어에 대응하는 신경망에 대한 정보가 포함된 다의어 목록을 이용하여 상기 복수의 신경망 중 상기 다의적 단어에 대한 신경망을 선정하는 것을 특징으로 하는 텍스트 처리 방법.
A method of processing text transmitted from a terminal by a server,
A text receiving step in which a server receives text including one or more sentences from a terminal;
Calculating a plural word in the text;
A neural network selecting step of selecting a neural network corresponding to the multiple words among a plurality of neural networks;
A neural network input step of inputting all or part of words included in the text into the selected neural network;
A semantic determination step of determining the meaning of the ambiguous word in consideration of the output of the neural network; And
And an output transmission step of transmitting, to the terminal, an output calculated for the text in consideration of the meaning of the ambiguous word,
Wherein the plurality of neural networks are generated individually for a plurality of plural words,
In the neural network selection step,
Wherein the neural network is selected from among the plurality of neural networks using a plurality of neural network lists including information on neural networks corresponding to the respective neural networks.
컴퓨터에서 제1항 내지 제3항, 제5항 내지 제10항 중 어느 한 항에 기재된 각 단계를 실행시키기 위한 컴퓨터로 판독 가능한 매체에 저장된 컴퓨터 프로그램.A computer program stored in a computer-readable medium for executing the steps of any one of claims 1 to 3 and 5 to 10 on a computer. 하나 이상의 문장을 포함하는 텍스트 내에 위치하는 다의적 단어에 대한 개체명 연결 시스템에 있어서,
상기 텍스트 내에서 다의적 단어를 산출하는 다의어 산출부;
복수의 신경망 중 상기 다의적 단어에 대응하는 신경망을 선정하는 신경망 선정부;
상기 선정된 신경망으로 상기 텍스트에 포함된 단어의 전부 또는 일부를 입력하는 신경망 입력부; 및
상기 신경망의 출력을 고려하여 상기 다의적 단어에 대하여 개체명을 연결하는 개체명 연결부를 포함하며,
상기 복수의 신경망은 복수의 다의적 단어 별로 개별적으로 생성된 것이고,
상기 신경망 선정부에서는,
각 다의어에 대응하는 신경망에 대한 정보가 포함된 다의어 목록을 이용하여 상기 복수의 신경망 중 상기 다의적 단어에 대한 신경망을 선정하는 것을 특징으로 하는 개체명 연결 시스템.
A system for linking an object name to a multilingual word located in text containing one or more sentences,
A genetic term calculating unit for calculating a dominant word in the text;
A neural network selecting unit for selecting a neural network corresponding to the multiplex word among a plurality of neural networks;
A neural network input unit for inputting all or part of words included in the text by the selected neural network; And
And an object name connection unit for connecting the object name to the multilingual word in consideration of the output of the neural network,
Wherein the plurality of neural networks are generated individually for a plurality of plural words,
In the neural network pre-configuration,
Wherein the neural network is selected from among the plurality of neural networks by using a plurality of neural network lists including information on neural networks corresponding to the respective neural networks.
단말로부터 전송받은 텍스트를 처리하는 서버에 있어서,
단말로부터 하나 이상의 문장을 포함하는 텍스트를 수신하는 텍스트 수신부;
상기 텍스트 내에 위치하는 다의적 단어를 산출하는 다의어 산출부;
복수의 신경망 중 상기 다의적 단어에 대응하는 신경망을 선정하는 신경망 선정부;
상기 선정된 신경망으로 상기 텍스트에 포함된 단어의 전부 또는 일부를 입력하는 신경망 입력부;
상기 신경망의 출력을 고려하여 상기 다의적 단어의 의미를 판단하는 의미 판단부; 및
상기 단말로 상기 다의적 단어의 의미를 고려하여 상기 텍스트에 대하여 산출한 출력을 전송하는 출력부를 포함하며,
상기 복수의 신경망은 복수의 다의적 단어 별로 개별적으로 생성된 것이고,
상기 신경망 선정부에서는,
각 다의어에 대응하는 신경망에 대한 정보가 포함된 다의어 목록을 이용하여 상기 복수의 신경망 중 상기 다의적 단어에 대한 신경망을 선정하는 것을 특징으로 하는 텍스트 처리 서버.
A server for processing text transmitted from a terminal,
A text receiving unit for receiving text including one or more sentences from a terminal;
A polygonal word calculation unit for calculating a polygonal word located in the text;
A neural network selecting unit for selecting a neural network corresponding to the multiplex word among a plurality of neural networks;
A neural network input unit for inputting all or part of words included in the text by the selected neural network;
A meaning judging unit for judging the meaning of the ambiguous word in consideration of the output of the neural network; And
And an output unit for transmitting an output calculated for the text to the terminal in consideration of the meaning of the ambiguous word,
Wherein the plurality of neural networks are generated individually for a plurality of plural words,
In the neural network pre-configuration,
And selects a neural network for the ambiguous word among the plurality of neural networks by using a list of a plurality of terms including information on the neural network corresponding to each of the plurality of variants.
KR1020170000494A 2017-01-03 2017-01-03 Method and apparatus for named entity linking and computer program thereof KR101890207B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170000494A KR101890207B1 (en) 2017-01-03 2017-01-03 Method and apparatus for named entity linking and computer program thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170000494A KR101890207B1 (en) 2017-01-03 2017-01-03 Method and apparatus for named entity linking and computer program thereof

Publications (2)

Publication Number Publication Date
KR20180079838A KR20180079838A (en) 2018-07-11
KR101890207B1 true KR101890207B1 (en) 2018-08-22

Family

ID=62917740

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170000494A KR101890207B1 (en) 2017-01-03 2017-01-03 Method and apparatus for named entity linking and computer program thereof

Country Status (1)

Country Link
KR (1) KR101890207B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3825955A1 (en) * 2019-11-21 2021-05-26 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
KR20230075034A (en) 2021-11-22 2023-05-31 울산대학교 산학협력단 Weight setting apparatus for neural network learning

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102087609B1 (en) 2018-07-10 2020-03-11 주식회사 성우하이텍 Vision unit

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101508070B1 (en) * 2013-12-17 2015-04-07 울산대학교 산학협력단 Method for word sense diambiguration of polysemy predicates using UWordMap
US20150363688A1 (en) * 2014-06-13 2015-12-17 Microsoft Corporation Modeling interestingness with deep neural networks

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100755678B1 (en) * 2005-10-28 2007-09-05 삼성전자주식회사 Apparatus and method for detecting named entity
JP4829381B2 (en) * 2009-05-18 2011-12-07 隆敏 柳瀬 Knowledge base system, logical operation method, program, and recording medium
KR101255957B1 (en) 2011-12-09 2013-04-24 포항공과대학교 산학협력단 Method and apparatus for tagging named entity
KR101615621B1 (en) * 2014-04-23 2016-04-27 한국과학기술원 System and method for coreference resolution
KR102385851B1 (en) * 2015-05-26 2022-04-13 주식회사 케이티 System, method and computer program for speech recognition and translation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101508070B1 (en) * 2013-12-17 2015-04-07 울산대학교 산학협력단 Method for word sense diambiguration of polysemy predicates using UWordMap
US20150363688A1 (en) * 2014-06-13 2015-12-17 Microsoft Corporation Modeling interestingness with deep neural networks

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Tsendsuren Munkhdalai, Deep Neural Network 기반 의생물학 도메인 지식 정보 추출 방법, 충북대 박사학위 논문, 2015.08.
박용민 외, 한국어 제목 개체명 인식 및 사전 구축: 도서, 영화, 음악, TV프로그램, 정보처리학회논문지, 소프트웨어및데이터공학 제3권 제7호, pp.285-292 (2014.7)
조병철 외, 의생명 분야의 개체명 인식에서 순환형 신경망과 조건적 임의 필드의 성능 비교 , 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3825955A1 (en) * 2019-11-21 2021-05-26 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
US11481586B2 (en) 2019-11-21 2022-10-25 Samsung Electronics Co.. Ltd. Electronic apparatus and controlling method thereof
US11694078B2 (en) 2019-11-21 2023-07-04 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
KR20230075034A (en) 2021-11-22 2023-05-31 울산대학교 산학협력단 Weight setting apparatus for neural network learning

Also Published As

Publication number Publication date
KR20180079838A (en) 2018-07-11

Similar Documents

Publication Publication Date Title
US10997370B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
CN110704743B (en) Semantic search method and device based on knowledge graph
CN110717106B (en) Information pushing method and device
CN107797984B (en) Intelligent interaction method, equipment and storage medium
KR102095074B1 (en) Generating string predictions using contexts
CN110569496B (en) Entity linking method, device and storage medium
JP5078173B2 (en) Ambiguity Resolution Method and System
CN104156454B (en) The error correction method and device of search term
US20120323839A1 (en) Entity recognition using probabilities for out-of-collection data
CN107145545B (en) Top-k area user text data recommendation method in social network based on position
US11586689B2 (en) Electronic apparatus and controlling method thereof
KR101890207B1 (en) Method and apparatus for named entity linking and computer program thereof
CN110874396B (en) Keyword extraction method and device and computer storage medium
US11030251B2 (en) Method and system for providing query suggestions based on personalized spelling correction
CN109933708A (en) Information retrieval method, device, storage medium and computer equipment
JP2019053386A (en) Information processing apparatus, information processing method, and program
KR102315181B1 (en) Method, apparauts and system for named entity linking and computer program thereof
KR101929649B1 (en) System and method for recommendation of open chat room through chat log keyword extraction
JP2019109654A (en) Similar text extraction device, automatic response system, similar text extraction method, and program
CN113094604B (en) Search result ordering method, search method and device
CN112000495B (en) Method, electronic device and storage medium for point of interest information management
JP5184195B2 (en) Language processing apparatus and program
JP6680472B2 (en) Information processing apparatus, information processing method, and information processing program
KR102117281B1 (en) Method for generating chatbot utterance using frequency table
CN111026281A (en) Phrase recommendation method for client, client and storage medium

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant