KR102046640B1 - Automatic terminology recommendation device and method for big data standardization - Google Patents

Automatic terminology recommendation device and method for big data standardization Download PDF

Info

Publication number
KR102046640B1
KR102046640B1 KR1020190088379A KR20190088379A KR102046640B1 KR 102046640 B1 KR102046640 B1 KR 102046640B1 KR 1020190088379 A KR1020190088379 A KR 1020190088379A KR 20190088379 A KR20190088379 A KR 20190088379A KR 102046640 B1 KR102046640 B1 KR 102046640B1
Authority
KR
South Korea
Prior art keywords
standard
term
word
dictionary
words
Prior art date
Application number
KR1020190088379A
Other languages
Korean (ko)
Inventor
황덕열
공성원
김세경
Original Assignee
(주)위세아이텍
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)위세아이텍 filed Critical (주)위세아이텍
Priority to KR1020190088379A priority Critical patent/KR102046640B1/en
Application granted granted Critical
Publication of KR102046640B1 publication Critical patent/KR102046640B1/en

Links

Images

Classifications

    • G06F17/2755
    • G06F17/277
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Abstract

The present invention relates to an apparatus and a method for automatically recommending standard terms for big data standardization and a method thereof. The apparatus for automatically recommending standard terms for big data standardization can comprise: a database containing standardized term data; a standard dictionary part including and managing a standard word dictionary, a standard term dictionary, and a standard domain dictionary; a word substitution part separating morphemes of a first term inputted to perform standardization, and substituting a plurality of words included in the first term with a standard word included in the standard word dictionary; a term recommendation part combining a plurality of words included in the substituted first term and recommending the standard term included in the standard term dictionary as the first standard term of the first term; and a term determination part selecting one of the standard term recommended in the term recommendation part as the first standard term of the first term and determining a standard domain included in the standard domain dictionary as a first standard domain of the first term.

Description

빅데이터 표준화를 위한 표준용어 자동 추천 장치 및 방법{AUTOMATIC TERMINOLOGY RECOMMENDATION DEVICE AND METHOD FOR BIG DATA STANDARDIZATION}AUTOMATIC TERMINOLOGY RECOMMENDATION DEVICE AND METHOD FOR BIG DATA STANDARDIZATION}

본원은 빅데이터 표준화를 위한 표준용어 자동 추천 장치 및 방법에 관한 것이다.The present invention relates to a standard term automatic recommendation apparatus and method for big data standardization.

데이터 표준화는 데이터 품질 확보를 위해 필수적으로 수행해야하는 작업중에 하나다. 동시 다발적인 시스템 개발, 데이터 관리 마인드 부족, 데이터 관리 인력 및 도구의 부재로 인하여 데이터의 중복 및 불일치가 발생하기도 하며, 데이터 통합의 어려움 또한 겪고 있다. 이러한 현상은 데이터가 기하급수적으로 증가하는 상황에서는 문제가 발생할 가능성이 높아진다.Data standardization is one of the essential tasks to ensure data quality. Simultaneous development of systems, lack of data management mindset, lack of data management personnel and tools can lead to data redundancy and inconsistency, as well as difficulties in data integration. This phenomenon increases the likelihood of problems when data grows exponentially.

빅데이터에 대한 관심과 수요가 증가할수록 데이터 표준화의 필요성이 높아지고 있다. 데이터 표준화는 명확한 의사소통과 데이터의 소재파악의 기대효과를 가져올 수 있으며, 데이터 분석과 머신 러닝 영역에서 가장 중요한 데이터 품질 향상으로 야기되는 데이터 변환이나 정제 과정에서의 비용과 자원을 감소시킬 수 있다.As the interest and demand for big data increases, the necessity of data standardization increases. Data standardization can have the expected effects of clear communication and data grasping, and reduce the costs and resources of data transformation and remediation that result from the most important data quality improvements in the areas of data analysis and machine learning.

데이터 표준화는 시스템에 산재해 있는 데이터 정보 요소에 대한 명칭, 정의, 규칙, 형식 등에 대한 원칙을 수립하여 전사적으로 적용하는 것을 의미한다. 표준화를 통해 각각의 데이터에 대한 상반되는 시각을 조정하는 효과도 있다.Data standardization refers to establishing and applying principles throughout the system on the names, definitions, rules, and formats of data information elements scattered throughout the system. Standardization also has the effect of adjusting conflicting views of each piece of data.

표준용어를 정의하는 작업은 업무적 용어, 기술적 용어가 있으며, 해당 업무에 사용하는 용어에 대한 표준을 정의하여 상호 커뮤니케이션 시에 오해나 혼란이 없도록 한다. 이를 정의함으로써 한글명과 영문명을 일관되게 정의할 수 있게 한다. 이러한 표준 용어를 관리하는 것이 표준사전이다.There are business terms and technical terms to define standard terminology and define standards for terms used in the business so that there is no misunderstanding or confusion in communication. By defining this, Korean name and English name can be defined consistently. Managing these standard terms is the standard dictionary.

형태소 분석기는 자연어처리에서 가장 핵심적인 기술로, 말 또는 문장을 가장 작은 말의 단위인 형태소로 분리해주며, 분리된 형태소의 품사를 판단한다. 데이터 셋 내에서 형태소 분석을 통하여 표준 단어 사전에 존재하는 단어만이 아니라 형태소 단위로 분리 해주기 때문에 사용자에게 다양한 추천 용어를 제공해준다.Morphological analyzer is the core technology in natural language processing. It separates words or sentences into morphemes, the smallest unit of speech, and determines the parts of speech of the separated morphemes. The morphological analysis within the data set separates the words in the standard word dictionary as well as the morphological units, thus providing users with various recommended terms.

분리된 단어가 존재하지 않을 경우, 추천 단어 사전의 단어와의 유사도를 계산하여 가장 높은 단어를 추천하여, 오타 등의 인간의 실수로 도출되는 에러를 교정해주며, 표준 단어 사전에 등록될 수 있도록 한다.If there is no separate word, it calculates the similarity with the word of the suggested word dictionary, recommends the highest word, corrects the error derived from human error such as typo, and can be registered in the standard word dictionary. do.

텍스트 데이터에서 데이터간 유사도를 계산하기 위해서 가장 많이 사용되는 알고리즘은 Fuzzy Matching알고리즘이다. 이 알고리즘은 편집거리(레펜슈타인, Levenshtein Distance)를 기반으로 계산된 결과값을 사용하여 데이터 간의 유사도를 계산해 주는 알고리즘으로 이 알고리즘을 응용하여 사전 내에서 가장 가까운 단어와 용어들을 찾아 사용자에게 추천한다.The most commonly used algorithm for calculating the similarity between data in text data is Fuzzy Matching algorithm. This algorithm calculates the similarity between data using the calculated result based on the editing distance (Levenshtein Distance). By applying this algorithm, the algorithm finds the closest word and term in the dictionary and recommends it to the user.

또한, Fuzzy Matching 알고리즘은 영문을 기반으로 개발되어 있으므로 국문에 적용하였을 경우 음운이 아닌 음절을 바탕으로 유사도를 계산하는 문제점을 가지고 있기 때문에 한글의 음절을 음운으로 분리해주는 알고리즘을 사용하여 분리한 뒤 유사도를 계산한다.In addition, Fuzzy Matching algorithm is developed based on English, so when applied to Korean, it has a problem of calculating similarity based on syllables, not phonemes. Calculate

본원의 배경이 되는 기술은 한국등록특허공보10-1975419호에 개시되어 있다.The background technology of the present application is disclosed in Korean Patent Publication No. 10-1975419.

본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 표준 용어 등록시에 생기는 어려움을 극복하기 위한 것으로써, 기존에 존재하는 표준 용어 사전과 표준 단어 사전을 이용하여, 표준용어를 추천하여 사용자가 데이터 표준화 시, 용어를 선정하거나 선택하는 시간을 단축시켜 주는빅데이터 표준화를 위한 표준용어 자동 추천 장치 및 방법을 제공하려는 것을 목적으로 한다.The present application is to solve the above-mentioned problems of the prior art, to overcome the difficulties encountered when registering a standard term, by using a standard term dictionary and a standard word dictionary that exist, recommending the standard terminology to the user data An object of the present invention is to provide a standard term automatic recommendation device and method for standardizing big data, which shortens the time for selecting or selecting terms.

본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 형태소 분석기를 응용한 추천용어 수집기를 장치 및 방법에 포함을 시켜, 입력된 용어를 자동으로 형태소 단위의 단어로 분리시켜 표준 단어 내의 단어로 치환하여 추천해 줌으로서 표준화에 걸리는 시간을 감소시켜 주는 표준용어 자동 추천 장치 및 방법을 제공하려는 것을 목적으로 한다.The present application is to solve the above-described problems of the prior art, including a terminology collector applying the morphological analyzer to the apparatus and method, and automatically divides the input terms into words in the morpheme unit to replace the words in the standard word It is an object of the present invention to provide a standard term automatic recommendation apparatus and method that reduces the time required for standardization by recommending a recommendation.

본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서 국문 데이터를 음절 단위가 아닌 음운 단위로 분리하여 계산하는 방법을 사용함으로써, 사용자의 오타 등과 같은 휴먼 에러를 교정하여, 용어를 추천해 주는 표준용어 자동 추천 장치 및 방법을 제공하려는 것을 목적으로 한다.The present application is to solve the above-mentioned problems of the prior art, and by using a method of calculating Korean data separately by phonological units rather than syllable units, a standard term that recommends terms by correcting human errors such as typos of users. It is an object of the present invention to provide an automatic recommendation apparatus and method.

다만, 본원의 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.However, the technical problem to be achieved by the embodiments of the present application is not limited to the technical problems as described above, and other technical problems may exist.

상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본원의 일 실시예에 따른 빅데이터 표준화를 위한 표준 용어 자동 추천 장치는, 표준화된 용어 데이터를 포함하는 데이터 베이스, 표준 단어 사전, 표준 용어 사전 및 표준 도메인 사전을 포함하고 관리하는 표준 사전부, 표준화를 수행하기 위해 입력받은 제1용어의 형태소를 분리하고, 제1 용어에 포함된 복수의 단어를 상기 표준 단어 사전에 포함된 표준 단어로 치환하는 단어 치환부, 상기 치환된 복수의 표준 단어를 조합하고, 조합된 복수의 표준 단어를 이용하여, 상기 표준 용어 사전에 포함된 복수의 표준 용어 중 적어도 어느 하나를 상기 제1용어의 표준 용어로 추천하는 용어 추천부 및 상기 용어 추천부에서 추천된 표준 용어 중 어느 하나를 상기 제1용어의 제 1 표준 용어로 선택하고, 상기 표준 도메인 사전에 포함된 복수의 표준 도메인 중 적어도 어느 하나를 상기 제1 표준 용어의 제1표준 도메인으로 결정하는 용어 결정부를 포함할 수 있다. As a technical means for achieving the above technical problem, the standard term automatic recommendation apparatus for standardizing big data according to an embodiment of the present application, a database containing standardized term data, standard word dictionary, standard term dictionary and standard A standard dictionary section including and managing a domain dictionary, a word for separating a morpheme of a first term input for performing standardization, and replacing a plurality of words included in the first term with a standard word included in the standard word dictionary Using a combination of a plurality of standard words substituted with a plurality of substituted standard words, and recommending at least one of a plurality of standard terms included in the standard term dictionary as a standard term of the first term using the combined plurality of standard words Selecting one of a term recommender and a standard term recommended in the term recommender as the first standard term of the first term, Group may include a term determination unit determining a first standard domain of the first terminology at least one of a plurality of standard domain included in the standard domain dictionary.

본원의 일 실시예에 따르면, 상기 단어 치환부는, 형태소 분석 기법을 이용하여 상기 제1 용어를 복수의 단어로 분리하는 단어 분리기 및 상기 단어 분리기에서 분리된 복수의 단어의 집합을 상기 표준 단어 사전에 포함된 단어 중 어느 하나와 매칭하는 단어 매칭기를 포함할 수 있다. According to an embodiment of the present application, the word substitution unit, using a morpheme analysis technique, a word breaker for separating the first term into a plurality of words and a set of a plurality of words separated from the word breaker to the standard word dictionary It may include a word matcher to match any one of the included words.

본원의 일 실시예에 따르면, 상기 단어 분리기는, 상기 제1 용어에 포함된 복수의 단어중 어느 하나가 상기 표준 단어 사전에 존재하지 않는 단어인 경우, 상기 표준 단어 사전에 존재하지 않는 단어를 음운 단위로 분리하고, 인공지능 기반의 알고리즘을 이용하여 유사도 연산을 수행하고, 유사 단어를 추천할 수 있다. According to one embodiment of the present application, the word breaker, if any one of the plurality of words included in the first term is a word that does not exist in the standard word dictionary, the word does not exist in the standard word dictionary It can be separated into units, perform similarity calculations using AI-based algorithms, and recommend similar words.

본원의 일 실시예에 따르면, 상기 용어 추천부는, 상기 표준 용어 사전부에 포함된 표준 용어와 조합된 복수의 표준 단어들을 이용하여, 인공지능 기반의 알고리즘을 이용하여 유사도 연산을 수행하고, 상기 제1 용어의 표준 용어를 추천할 수 있다. According to an embodiment of the present disclosure, the term recommendation unit performs a similarity operation using an AI based algorithm using a plurality of standard words combined with a standard term included in the standard term dictionary part, Standard terminology of 1 term can be recommended.

본원의 일 실시예에 따르면, 용어 자동 추천 장치는, 사용자 단말로 용어 표준화를 위한 입력 정보와 관련된 선택 항목을 제공하는 데이터 제공부 및 상기 사용자 단말로부터 용어 표준화를 위한 입력 정보를 수신하는 사용자 입력 수신부를 포함할 수 있다. According to an embodiment of the present disclosure, the term automatic recommending apparatus may include a data providing unit providing selection items related to input information for term standardization to a user terminal and a user input receiving unit for receiving input information for term standardization from the user terminal. It may include.

본원의 일 실시예에 따르면, 빅데이터 표준화를 위한 표준 용어 자동 추천 방법은, 표준화를 수행하기 위해 제1용어를 입력받는 단계, 표준화된 용어 데이터를 포함하는 데이터 베이스 및 표준 단어 사전, 표준 용어 사전 및 표준 도메인 사전을 포함하고 관리하는 표준 사전부를 이용하여, 표준화를 수행하기 위해 입력받은 상기 제1용어의 형태소를 분리하는 단계, 분리된 상기 제1 용어에 포함된 복수의 단어를 상기 표준 단어 사전에 포함된 표준 단어로 치환하는 단계, 치환된 상기 제 1용어에 포함된 복수의 단어를 조합하는 단계, 조합된 복수의 표준 단어를 이용하여, 상기 표준 용어 사전에 포함된 복수의 표준 용어 중 적어도 어느 하나를 상기 제1용어의 표준 용어로 추천하는 단계, 상기 추천된 표준 용어 중 어느 하나를 상기 제1용어의 제 1 표준 용어로 선택하는 단계 및 상기 표준 도메인 사전에 포함된 복수의 표준 도메인 중 적어도 어느 하나를 추천된 상기 제1 표준 용어의 제 1표준 도메인으로 결정하는 단계를 포함할 수 있다. According to an embodiment of the present disclosure, the standard term automatic recommendation method for big data standardization includes receiving a first term to perform standardization, a database including standardized term data, and a standard word dictionary and a standard term dictionary And separating a morpheme of the first term input to perform standardization by using a standard dictionary unit including and managing a standard domain dictionary, and converting a plurality of words included in the separated first term into the standard word dictionary. Substituting a standard word included in a standard word, combining a plurality of words included in the substituted first term, and using a plurality of combined standard words, at least one of a plurality of standard terms included in the standard term dictionary Recommending any one as a standard term of the first term, any one of the recommended standard terms as a first standard of the first term Steps and can include determining a first standard domain of said plurality of standard domain of at least one of said first standard terms like a standard included in the domain dictionary to select language.

상술한 과제 해결 수단은 단지 예시적인 것으로서, 본원을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 추가적인 실시예가 존재할 수 있다.The above-mentioned means for solving the problems are merely exemplary and should not be construed as limiting the present application. In addition to the above-described exemplary embodiments, additional embodiments may exist in the drawings and detailed description of the invention.

전술한 본원의 과제 해결 수단에 의하면, 데이터 베이스의 표준화를 위하여, 표준화하고자하는 컬럼의 논리명 등과 같은 사용자가 입력한 용어를 형태소 분석을 통하여 단어 단위로 분리하고, 표준 단어로 치환하고 조합하여 기존의 표준 용어 사전에 존재하거나 표준 단어를 조합한 용어로 추천할 수 있다.According to the aforementioned problem solving means of the present application, for standardizing the database, terms input by the user, such as logical names of columns to be standardized, are separated by word units through morphological analysis, replaced with standard words, and combined with each other. It can be suggested as a term that exists in the standard term dictionary of or combines standard words.

전술한 본원의 과제 해결 수단에 의하면, 입력한 용어를 형태소 분리와 기존 표준 단어 사전 두 가지 방법을 모두 이용하여 단어 단위로 분리한 후 표준 단어 치환을 자동으로 수행할 수 있기 때문에 사용자가 수동으로 용어를 분리하였던 기존의 방법을 대체할 수 있다.According to the aforementioned problem solving means of the present application, the user can manually perform the standard word substitution after separating the input terms into word units using both the morpheme separation and the existing standard word dictionary. It is possible to replace the existing method of separating.

전술한 본원의 과제 해결 수단에 의하면, 분리된 단어에 해당하는 표준 단어가 존재하지 않을 경우, 표준 단어 사전에 있는 단어와의 유사도를 계산하여, 가장 비슷한 단어를 추천해, 오타 등과 같은 표기 오류도 추천 단어로 치환하여 사용할 수 있으며, 존재하지 않을 경우, 표준 단어 사전에 등록시킬 수 있다.According to the above-described problem solving means of the present invention, if there is no standard word corresponding to the separated word, it calculates the similarity with the word in the standard word dictionary, recommends the most similar words, even typographical errors such as typos It can be used by substituting the suggested word. If it does not exist, it can be registered in the standard word dictionary.

전술한 본원의 과제 해결 수단에 의하면, 표준 용어 사전에 입력되어 있는 용어들 간의 유사도 계산을 통하여, 타 기관이나 기업에서 표준화한 용어를 기준으로 자동으로 추천하여 사용자가 표준화 용어를 결정하는 정보를 제공할 수 있다.According to the above-described problem solving means of the present application, through the calculation of the similarity between the terms entered in the standard term dictionary, it automatically recommends based on terms standardized by other institutions or companies to provide information for the user to determine the standardized term can do.

다만, 본원에서 얻을 수 있는 효과는 상기된 바와 같은 효과들로 한정되지 않으며, 또 다른 효과들이 존재할 수 있다.However, the effects obtainable herein are not limited to the effects as described above, and other effects may exist.

도 1은 본원의 일 실시예에 따른 표준 용어 추천 장치의 구성을 개략적으로 나타낸 블록도이다.
도 2는 본원의 일 실시예에 따른 표준 용어 추천 장치의 표준화 과정 중 표준 단어 사전을 생성하는 과정을 설명하기 위한 도면이다.
도 3은 본원의 일 실시예에 따른 표준 용어 추천 장치의 표준화 과정 중 표준 도메인 사전을 생성하는 과정을 설명하기 위한 도면이다.
도 4는 본원의 일 실시예에 따른 표준 용어 추천 장치의 표준화 과정 중 표준 용어를 생성하는 과정을 설명하기 위한 도면이다.
도 5는 본원의 일 실시예에 따른 표준 용어 추천 장치의 완성된 표준 단어 사전을 데이터 베이스에 저장하여 웹으로 확인할 수 있도록 만든 화면을 나타낸 도면이다.
도 6은 본원의 일 실시예에 따른 표준 용어 추천 장치의 완성된 표준 도메인 사전을 데이터 베이스에 저장하여 웹으로 확인할 수 있도록 만든 화면에 나타낸 도면이다.
도 7은 본원의 일 실시예에 따른 표준 용어 추천 장치의 완성된 표준 용어 사전을 데이터 베이스에 저장하여 웹으로 확인할 수 있도록 만든 화면에 나타낸 도면이다.
도 8은 본원의 일 실시예에 따른 표준 용어 추천 장치의 형태소 분석을 설명하기 위해 개략적으로 나타낸 도면이다.
도 9는 본원의 일 실시예에 따른 표준 용어 추천 장치의 단어 분리기를 수행하였을 때의 예를 개략적으로 도면이다.
도 10는 본원의 일 실시예에 따른 표준 용어 추천 장치의 단어 매칭기를 수행하였을 때의 예를 개략적으로 나타낸 도면이다.
도 11은 본원의 일 실시예에 따른 표준 용어 추천 장치의 용어추천부가 수행하는 작업의 예를 개략적으로 나타낸 도면이다.
도 12는 본원의 일 실시예에 따른 표준 용어 추천 장치의 용어 결정부가 수행하는 작업의 예를 개략적으로 나타낸 도면이다.
도 13은 본원의 일 실시예에 따른 빅데이터 표준화를 위한 표준 용어 자동 추천 방법에 대한 동작 흐름도이다.
1 is a block diagram schematically illustrating a configuration of a standard term recommendation apparatus according to an exemplary embodiment of the present application.
FIG. 2 is a diagram illustrating a process of generating a standard word dictionary during standardization of a standard term recommendation apparatus according to an exemplary embodiment of the present disclosure.
3 is a view for explaining a process of generating a standard domain dictionary of the standardization process of the standard term recommendation apparatus according to an embodiment of the present application.
4 is a view for explaining a process of generating a standard term in the standardization process of the standard term recommendation apparatus according to an embodiment of the present application.
FIG. 5 is a diagram illustrating a screen made of a standard word dictionary of a standard term recommendation apparatus according to an embodiment of the present application stored in a database so as to be confirmed on a web.
FIG. 6 is a diagram illustrating a screen of a standard domain dictionary of a standard term recommendation apparatus according to an embodiment of the present disclosure stored in a database so that the web can be viewed on a web.
FIG. 7 is a diagram illustrating a screen of a standard term recommendation apparatus of a standard term recommendation apparatus according to an embodiment of the present disclosure stored in a database for checking on a web.
8 is a diagram schematically illustrating a morphological analysis of a standard term recommendation apparatus according to an embodiment of the present application.
9 is a schematic diagram of an example when a word breaker of a standard term recommendation apparatus according to an embodiment of the present disclosure is performed.
FIG. 10 is a diagram schematically illustrating an example when a word matcher of the standard term recommendation apparatus according to the exemplary embodiment of the present application is performed.
11 is a view schematically showing an example of a task performed by the term recommendation unit of the standard term recommendation apparatus according to an embodiment of the present application.
12 is a diagram schematically showing an example of a task performed by the term decision unit of the standard term recommendation apparatus according to an exemplary embodiment of the present application.
13 is a flowchart illustrating a standard term automatic recommendation method for big data standardization according to an embodiment of the present application.

아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.DETAILED DESCRIPTION Hereinafter, exemplary embodiments of the present disclosure will be described in detail with reference to the accompanying drawings so that those skilled in the art may easily implement the present disclosure. As those skilled in the art would realize, the described embodiments may be modified in various different ways, all without departing from the spirit or scope of the present invention. In the drawings, parts irrelevant to the description are omitted for simplicity of explanation, and like reference numerals designate like parts throughout the specification.

본원 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결" 또는 “간접적으로 연결”되어 있는 경우도 포함한다. Throughout this specification, when a part is "connected" with another part, it is not only "directly connected" but also "electrically connected" or "indirectly connected" with another element in between. Also includes the case where

본원 명세서 전체에서, 어떤 부재가 다른 부재 "상에", "상부에", "상단에", "하에", "하부에", "하단에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.Throughout this specification, when a member is said to be located on another member "on", "upper", "top", "bottom", "bottom", "bottom", this means that any member This includes not only the contact but also the presence of another member between the two members.

본원 명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.Throughout this specification, when a part is said to "include" a certain component, it means that it can further include other components, without excluding the other components unless specifically stated otherwise.

데이터 표준화는 기본적으로 데이터 모델 및 데이터 베이스에서 정의할 수 있는 모든 객체를 대상으로 수행하는 것이 이상적이지만, 주로 관리해야 될 필요성이 있는 객체만을 대상으로 데이터 표준화를 하는 것이 효율적이다. 일반적으로 데이터 표준으로 관리되는 대상에는 용어, 단어, 도메인, 코드가 있다.Data standardization is ideally ideal for all objects that can be defined in the data model and database, but it is more efficient to standardize data only for objects that need to be managed. In general, subjects managed by data standards include terms, words, domains, and codes.

표준 단어는 표준 용어를 구성하는 단어에 대한 표준을 정의함으로써 용어에 대한 한글명과 영문명을 일관되게 정의할 수 있게 한다. 표준 단어를 관리함으로써 동일함 개념을 의미하는 용어의 생성을 예방하고, 영문명 작성 기준이 되기도 한다.The standard word defines the standard for the words that make up the standard term so that the Korean and English names for the term can be defined consistently. By managing standard words, it is possible to prevent the creation of terms that mean the same concept and to be a standard for writing English names.

표준 도메인은 칼럼에 대한 성질을 그룹화한 개념으로 크게 문자형, 숫자형, 시간형으로 분류할 수 있고, 세부적으로는 명, 주소, ID, 금액, 율, 수량 등으로 분류 가능하다. 도메인에 대한 표준을 정의함으로써 동일한 성질을 가진 칼럼의 데이터 타입 및 데이터 길이를 일관되게 관리할 수 있으며, 칼럼 값에 대해 공통적인 데이터 검증 규칙의 적용이 가능하다. 또한, 표준 도메인을 칼럼에 적용함으로써 칼럼의 데이터 타입 및 길이를 일관되게 정의하는 것도 가능하다.The standard domain is a grouping property of columns, which can be classified into character, numeric, and time, and can be classified into name, address, ID, amount, rate, and quantity. By defining the standard for the domain, the data type and data length of the column with the same property can be managed consistently, and common data validation rules can be applied to the column values. It is also possible to consistently define the data type and length of a column by applying a standard domain to the column.

데이터 표준 정의는 표준 사전 정의로부터 시작한다. 표준 단어 사전정의는 데이터 모델 및 용어집을 통해 해당 데이터 베이스에서 사용되고 있는 모든 단어를 추출한다. 추출된 단어는 단어 종류와 유형을 분류하고 용도를 고려하여 표준 단어를 정의한다. 표준 단어 사전을 정의할 시, 이음동의어, 동음이의어 처리에 주의해야 하고, 정의된 표준 단어는 표준화 원칙을 참고하여 영문명과 영문 약어명을 정의한다.Data standard definitions start with standard dictionary definitions. Standard word dictionary definitions extract all words used in the database through data models and glossaries. The extracted words classify word types and types and define standard words in consideration of their purpose. When defining the standard word dictionary, care should be taken in the processing of the synonym and the homonym. For the defined standard word, the English name and the English abbreviation name are defined referring to the standardization principle.

도 1은 본원의 일 실시예에 따른 표준 용어 추천 장치의 구성을 개략적으로 나타낸 블록도이다.1 is a block diagram schematically illustrating a configuration of a standard term recommendation apparatus according to an exemplary embodiment of the present application.

도1을 참조하면, 표준 용어 추천 장치(100)는 데이터 베이스(110), 표준 사전부(121), 단어 치환부(130), 용어 추천부(140), 용어 결정부(150), 데이터 제공부(160), 사용자 입력 수신부(170)를 포함할 수 있다. Referring to FIG. 1, the standard term recommendation apparatus 100 includes a database 110, a standard dictionary unit 121, a word substitution unit 130, a term recommendation unit 140, a term determination unit 150, and a data system. Study 160, may include a user input receiving unit 170.

본원의 일 실시예예 따르면, 표준 용어 추천 장치(100)는 이미 기존에 표준화되었던 데이터 베이스에서 생성된 표준 사전을 기준으로, 표준화 대상 데이터 베이스나 새로운 용어에 대한 표준화 진행 시에, 표준 용어를 추천할 수 있다. 또한, 표준 용어 추천 장치(100)는 표준화를 진행하고자 하는 용어를 형태소 분석 기법이나 표준 단어 사전을 통하는 방법들을 모두 사용하여 단어 단위의 명사로 자동으로 분리하고, 해당 단어를 표준 단어로 치환할 수 있다. 또한, 표준 용어 추천 장치(100)는 치환된 표준 단어들은 다양하게 조합하고, 표준 용어 사전에 존재하는 용어들과 유사도를 계산하여 높은 순으로 표준 용어를 추천을 할 수 있다. According to an embodiment of the present disclosure, the standard term recommendation apparatus 100 may recommend a standard term when standardizing a standardized target database or a new term based on a standard dictionary generated from a database that has already been standardized. Can be. In addition, the standard term recommendation apparatus 100 may automatically separate terms to be standardized into nouns of word units using both morphological analysis and standard word dictionaries, and replace the words with standard words. have. In addition, the standard term recommendation apparatus 100 may variously combine the substituted standard words and calculate the similarity with terms existing in the standard term dictionary to recommend the standard term in ascending order.

본원의 일 실시예에 따르면, 표준 용어 추천 장치 (100)는 음운 단위로 유사도를 계산하기 때문에 오타 등에 대한 표기 오류가 존재하여도, 형태가 유사한 용어 추천을 통해 오타를 수정할 수 있다.According to the exemplary embodiment of the present application, since the standard term recommendation apparatus 100 calculates the similarity in phonological units, even if there is a notation error for a typo, the standard term recommendation apparatus 100 may correct a typo through a similar term recommendation.

본원의 일 실시예예 따르면, 표준 용어 추천 장치 (100)는 형태소 분석을 사용한 단어 단위의 분리가 자동으로 이루어지기 때문에, 사용자에게 편의성을 제공하고, 분리된 단어가 표준 사전에 존재하지 않을 경우, 유사도를 계산하여 표준 단어 사전에 등록된 단어를 추천하기도 하고, 표준 단어 사전에 편하게 등록할 수 있도록 도와줄 수 있다.According to an embodiment of the present disclosure, since the standard term recommendation apparatus 100 automatically separates word units using morphological analysis, it provides convenience to a user, and similarity when the separated word does not exist in the standard dictionary. It can recommend words registered in the standard word dictionary by calculating the, and can help you register easily in the standard word dictionary.

본원의 일 실시예에 따르면, 데이터 베이스(110)는 표준화된 용어 데이터를 포함할 수 있다. 데이터 베이스(110)는 표준화 대상이자, 표준화된 용어가 저장되는 공간을 포함할 수 있다. 데이터 베이스(110)는 데이터 표준화를 하기위한 대상이자 표준 용어 추천 결과와 변환된 표준 용어를 저장하는 저장 공간이다. 달리 말해, 데이터 베이스(110)는 표준화 대상이 되는 저장공간과, 표준화된 용어들이 저장되는 공간을 포함한다. 또한, 데이터 베이스(110)는 표준 사전부(120)에서 사용되는 표준 사전들이 적재되어 있는 공간을 포함할 수 있다.According to an embodiment of the present disclosure, the database 110 may include standardized term data. The database 110 may be a standardization target and include a space in which standardized terms are stored. The database 110 is an object for data standardization and a storage space for storing standard term recommendation results and converted standard terms. In other words, the database 110 includes a storage space to be standardized and a space where standardized terms are stored. In addition, the database 110 may include a space in which standard dictionaries used in the standard dictionary unit 120 are loaded.

본원의 일 실시예에 따르면, 표준 사전부(120)는 표준 단어 사전(121), 표준 용어 사전(122) 및 표준 도메인 사전(123)을 포함하고 관리할 수 있다. 표준 사전부(120)는 각각의 사전의 단어, 용어, 도메인 등을 조회, 등록, 수정할 수 있다. 예시적으로, 표준 사전부(120)는 다른 기관이나 기업에서 수행하면서 생성한 표준 사전을 포함할 수 있다. 표준 사전부(120)는 기존에 생성된 표준 단어 사전(121), 표준 용어 사전(122) 및 표준 도메인 사전(123)을 포함할 수 있다. 또한, 표준 사전부(120)는 용어 자동 추천 장치(100)에서 수행되는 표준화 과정에서 생성되는 표준 단어, 표준 용어, 표준 도메인을 추가할 수 있다. According to an embodiment of the present disclosure, the standard dictionary unit 120 may include and manage a standard word dictionary 121, a standard term dictionary 122, and a standard domain dictionary 123. The standard dictionary unit 120 may search, register, and correct words, terms, domains, and the like of each dictionary. For example, the standard dictionary unit 120 may include a standard dictionary generated while being performed by another institution or company. The standard dictionary unit 120 may include a standard word dictionary 121, a standard term dictionary 122, and a standard domain dictionary 123 previously generated. In addition, the standard dictionary unit 120 may add a standard word, a standard term, and a standard domain generated during the standardization process performed by the term automatic recommendation apparatus 100.

도 2는 본원의 일 실시예에 따른 표준 용어 추천 장치의 표준화 과정 중 표준 단어 사전을 생성하는 과정을 설명하기 위한 도면이다.FIG. 2 is a diagram illustrating a process of generating a standard word dictionary during standardization of a standard term recommendation apparatus according to an exemplary embodiment of the present disclosure.

본원의 일 실시예예 따르면, 표준 단어 사전(121)은 자립해서 사용할 수 있는 최소의 의미단위인 단어(형태소)를 등재한 사전일 수 있다. 표준 단어는 문법상 일정한 뜻을 가진 말의 최소단위로서, 엔티티명, 속성명, 테이블명, 컬럼명 등을 구성하는 최소 단위이다. 표준 단어는, 단일어, 복합어, 업무약어를 포함할 수 있다. 표준 단어 사전(121)은 표준 단어와 표준 약어를 연계하여 저장할 수 있다. 예를 들어, 표준 단어가 고객이고, 표준 약어가 CLNT인 경우, 표준 단어 사전(121)은 고객-CLNT로 단어와 약어를 연계하여 저장할 수 있다. 또한, 표준 단어 사전(121)은 금칙 단어와 표준 단어를 연계하여 저장할 수 있다. 예를 들어, 금칙 단어가 손님이고, 표준 단어가 고객인 경우, 표준 단어 사전(121)은 손님-고객으로 금칙 단어와 표준 단어를 연계하여 저장할 수 있다. According to an embodiment of the present disclosure, the standard word dictionary 121 may be a dictionary including a word (morpheme) that is a minimum semantic unit that can be used independently. Standard words are the smallest units of grammar that have certain meanings. They are the minimum units that make up entity names, attribute names, table names, column names, and so on. Standard words may include single words, compound words, and business abbreviations. The standard word dictionary 121 may store the standard word in association with the standard abbreviation. For example, if the standard word is a customer and the standard abbreviation is CLNT, the standard word dictionary 121 may store the word and the abbreviation in association with the customer-CLNT. In addition, the standard word dictionary 121 may store the kinsoku word and the standard word in association. For example, if the banned word is a guest and the standard word is a customer, the standard word dictionary 121 may store the banned word and the standard word as a guest-customer.

일반적으로 단어는 말의 최소 단위를 의미하며, 표준 단어는 기업의 업무상 사용되는, 일정한 의미를 가지고 있는 최소 단위의 단어를 가리킨다. 이 표준 단어가 정의된 사전을 생성하기 위해서 혼재되어 사용하는 용어를 단어 단위로 분할하여 도출한다. 현행 용어를 수집하여 단어를 분할한다. 이음동의어나 동음이의어와 같은 단어들을 정리하여 단어를 정련하면 사전을 정의할 수 있다.Generally, a word refers to a minimum unit of words, and a standard word refers to a minimum unit word having a certain meaning used in a company's business. In order to create a dictionary in which the standard words are defined, terms that are mixed and used are divided by word units. Split the word by collecting current terms. You can define a dictionary by refining words by arranging words such as synonyms and homonyms.

본원의 일 실시예예 따르면, 표준 용어 사전(122)은 논리/물리 데이터 모델에서 관리하는 데이터요소에 대한 명칭으로 단어를 조합하여 정의한 것으로, 즉, 엔티티명/속성명/테이블명/컬럼명을 등재한 사전일 수 있다. 표준 용어 사전은 단어들을 조합하여 정의된 복수의 표준 용어를 포함할 수 있다. According to an embodiment of the present disclosure, the standard term dictionary 122 is defined by combining words as names for data elements managed by the logical / physical data model, that is, entity name / property name / table name / column name. It can be a dictionary. The standard term dictionary may include a plurality of standard terms defined by combining words.

도 3은 본원의 일 실시예에 따른 표준 용어 추천 장치의 표준화 과정 중 표준 도메인 사전을 생성하는 과정을 설명하기 위한 도면이다.3 is a view for explaining a process of generating a standard domain dictionary of the standardization process of the standard term recommendation apparatus according to an embodiment of the present application.

본원의 일 실시예예 따르면, 표준 도메인 사전(123)은 표준 용어과 연계한 표준 도메인을 포함할 수 있다. 또한, 표준 도메인 사전(123)은 표준 용어, 데이터 타입, 도메인명과 연계한 표준 도메인을 포함할 수 있다. 예를 들어, 표준 도메인 사전(123)은 표준 용어가 계약 ID인 경우, 표준 도메인은 ID로 연계한 표준 도메인을 포함할 수 있다. According to an embodiment of the present disclosure, the standard domain dictionary 123 may include a standard domain in association with standard terms. In addition, the standard domain dictionary 123 may include a standard domain associated with a standard term, data type, and domain name. For example, the standard domain dictionary 123 may include a standard domain linked by an ID when the standard term is a contract ID.

표준 도메인 사전은 속성을 만족시키는 값의 범위를 의미하는 도메인 단위로 그룹화하여 해당 그룹에 속하는 데이터의 유형과 길이 등의 정보를 저장한다. 업무적인 용도, 사용 빈도와 데이터의 물리적인 특성 등을 고려하여 도메인을 분류하고 타입을 부여하기 때문에 도메인만 확인하여도 그 컬럼의 특성을 파악할 수 있다. The standard domain dictionary stores information such as the type and length of data belonging to the group by grouping them in domain units representing a range of values satisfying an attribute. Domains are classified and typed in consideration of their business purpose, frequency of use, and physical characteristics of the data. Therefore, the domain can be identified only by checking the domain.

도3를 참조하면 표준 도메인을 정의하기 위해서는 현행 용어에 대한 분석을 실시하고, 그 다음 각각의 도메인에 대한 명칭과 그에 따른 데이터 타입 및 길이를 정의한다.Referring to FIG. 3, in order to define a standard domain, an analysis of current terms is performed, and then, names and data types and lengths of respective domains are defined.

도 4는 본원의 일 실시예에 따른 표준 용어 추천 장치의 표준화 과정 중 표준 용어를 생성하는 과정을 설명하기 위한 도면이다.4 is a view for explaining a process of generating a standard term in the standardization process of the standard term recommendation apparatus according to an embodiment of the present application.

표준 용어 사전은 단어, 도메인 등에 대한 표준이 모두 정해진 뒤에 표준 용어 사전을 구성할 수 있다. 표준 단어의 조합과 도메인 분류를 통해, 각 용어에 해당하는 컬럼의 데이터 타입과 길이를 결정한다. The standard term dictionary may constitute a standard term dictionary after all standards for words, domains, etc. are determined. The combination of standard words and domain classification determine the data type and length of the column corresponding to each term.

예시적으로 도4를 참조하면 표준 용어 사전을 정의하기 위해서는 현행 용어에 포함하는 단어들을 표준 단어로 도출시키고 그에 대한 용어를 정의해야 한다. 용어가 정해지면 마지막으로 도메인을 정의하여 표준용어화 한다. For example, referring to FIG. 4, in order to define a standard term dictionary, words included in the current term should be derived as standard words and terms defined therein. Once the terms are defined, the domain is finally defined and standardized.

본원의 일 실시예에 따르면, 표준 사전부(120)는 현행 용어를 표준 단어 사전에 포함된 표준 단어와 매칭하여 생성된 표준 용어를 표준 용어 사전(122)에 저장할 수 있다. According to an embodiment of the present disclosure, the standard dictionary unit 120 may store the standard terms generated by matching the current terms with the standard words included in the standard word dictionary in the standard term dictionary 122.

도 5는 본원의 일 실시예에 따른 표준 용어 추천 장치의 완성된 표준 단어 사전을 데이터 베이스에 저장하여 웹으로 확인할 수 있도록 만든 화면을 나타낸 도면이다.FIG. 5 is a diagram illustrating a screen made of a standard word dictionary of a standard term recommendation apparatus according to an embodiment of the present application stored in a database so as to be confirmed on a web.

도5를 참조하면 표준 단어 사전 사전을 확인할 수 있는 화면에 대한 예시이다. 주요 역할은 주로 표준 단어의 조회와 영문의 물리명과 의미 등을 검색, 등록 수정할 수 있다. 표준단어 사전에 표기된 단어가 변경되면 해당 단어로 이루어진 용어 또한 변경이 된다. 다만 표준 용어 자동 추천 장치를 구성하기 위해서는 표준 단어가 구성되는 과정에서 사용된 금칙어나 변경 전 단어 또한 사전에 함께 포함이 되어 있어야 표준 단어로의 치환이 가능하다.Referring to FIG. 5, an example of a screen for checking a standard word dictionary dictionary is shown. Its main role is to search, register and modify standard words and physical names and meanings of English. When a word in the standard word dictionary is changed, the term consisting of the word is also changed. However, in order to configure the standard term automatic recommendation device, the lexical word used in the process of forming the standard word or the word before the change is also included in the dictionary to replace the standard word.

도 6은 본원의 일 실시예에 따른 표준 용어 추천 장치의 완성된 표준 도메인 사전을 데이터 베이스에 저장하여 웹으로 확인할 수 있도록 만든 화면에 나타낸 도면이다.FIG. 6 is a diagram illustrating a screen of a standard domain dictionary of a standard term recommendation apparatus according to an embodiment of the present disclosure stored in a database so that the web can be viewed on a web.

도6을 참조하면 표준 도메인 사전을 확인할 수 있는 화면에 대한 예시이다. 주요 역할은 컬럼의 도메인 그룹과 데이터 타입 등에 대한 정의와 확인이다. 또한 도메인의 유효값과 변경이력을 확인하고, 도메인을 수정하거나 변경이 필요할 경우 등록하고 수정 요청할 수 있다. 도메인 의미를 포함하고 있는 단어가 존재할 경우 도메인도 함께 추천을 해줄 수 있기 때문에 표준 단어 사전과 금칙어나 유사어 관련 단어를 공유하여 사용할 수 있다.Referring to FIG. 6, an example of a screen for checking a standard domain dictionary is shown. The main role is to define and verify the column's domain group and data type. In addition, you can check the valid values and the change history of the domain, and if you need to change the domain or register it, you can register and request the modification. If there is a word that includes the domain meaning, the domain can be recommended as well.

도 7은 본원의 일 실시예에 따른 표준 용어 추천 장치의 완성된 표준 용어 사전을 데이터 베이스에 저장하여 웹으로 확인할 수 있도록 만든 화면에 나타낸 도면이다.FIG. 7 is a diagram illustrating a screen of a standard term recommendation apparatus of a standard term recommendation apparatus according to an embodiment of the present disclosure stored in a database for checking on a web.

도7를 참조하면 표준 용어 사전을 확인할 수 있는 화면에 대한 예시이다. 주요 역할은 주로 표준 용어의 조회와 등록을 확인할 수 있다. 또한 표준 용어들을 구성하고 있는 단어들과 도메인을 확인하고, 표준 단어 변경 시에 표준 용어에 적용되어 변경되는 이력들을 확인할 수 있다.Referring to FIG. 7, an example of a screen for confirming a standard term dictionary is shown. The main role can mainly confirm the inquiry and registration of standard terms. In addition, it is possible to check the words and domains constituting the standard terminology, and to change the history applied to the standard term when the standard word is changed.

본원의 일 실시예에 따르면, 단어 치환부(130)는 단어 분리기(131) 및 단어 매칭기(132)를 포함할 수 있다. According to an embodiment of the present disclosure, the word substitute unit 130 may include a word separator 131 and a word matcher 132.

본원의 일 실시예에 따르면, 단어 치환부(130)는 표준화를 수행하기 위해 입력받은 제1용어(1)의 형태소를 분리하고, 제1 용어(1)에 포함된 복수의 단어를 표준 단어 사전(121)에 포함된 표준 단어로 치환할 수 있다. 단어 치환부(13)는 사전에 존재하지 않는 단어에 한하여 유사도를 계산하여 유사 단어를 추천하고, 없을 경우 표준 단어 사전에 해당 단어를 등록할 수 있다. According to the exemplary embodiment of the present application, the word substitution unit 130 separates the morphemes of the first term 1 input to perform standardization, and converts a plurality of words included in the first term 1 into a standard word dictionary. It may be substituted with a standard word included in (121). The word substitution unit 13 may calculate similarity only for words that do not exist in the dictionary and recommend similar words, and if not, register the corresponding word in a standard word dictionary.

또한, 단어 치환부(130)는 표준화를 진행할 용어에 포함된 단어들을 표준 단어사전에 등록된 단어로 치환하는 것을 목적으로 한다. 표준화 대상 용어는 단어 분리기(131)를 통해 단어 단위로 분리된 후, 단어 매칭기(132)에서 표준 단어 사전(121)에 등록된 표준 단어로 치환할 수 있다. 유사한 단어가 복수개가 존재할 경우, 복수개(여러 개)로 치환이 가능하며, 표준화 대상 단어가 표준 단어 사전(121)에 존재하지 않을 경우, 새로운 단어를 표준 단어 사전(121)에 추가할 수 있다. In addition, the word replacement unit 130 is intended to replace the words included in the terms to be standardized with the words registered in the standard word dictionary. The term to be standardized may be divided into word units through the word separator 131, and then replaced with a standard word registered in the standard word dictionary 121 in the word matcher 132. When there are a plurality of similar words, a plurality of (multiple) may be substituted. When the word to be standardized does not exist in the standard word dictionary 121, a new word may be added to the standard word dictionary 121.

또한, 단어 치환부(130)는 분리된 단어의 집합들을, 표준 단어 사전에 포함된 표준 단어, 금칙어, 유사어 등과 매칭하여 치환할 수 있다. 단어 치환부(130)는 사전에 존재하지 않는 단어에 한하여 유사도를 계산하여 유사 단어를 추천하고, 없을 경우 해당 단어를 표준 단어 사전(121)에 등록할 수 있다. 이때, 단어 치환부(130)는 표준 단어 사전(121)에 포함되지 않은 단어를 데이터 제공부(160)를 통해 사용자 단말(미도시)로 제공하고, 사용자 입력 수신부(170)에서 수신한 사용자 입력 정보에 기반하여, 해당 단어를 표준 단어 사전(120)에 등록할 수 있도록 요청할 수 있다. In addition, the word substitution unit 130 may replace a set of separated words by matching standard words, suffixes, and similar words included in the standard word dictionary. The word substitution unit 130 may calculate similarity only for words that do not exist in the dictionary and recommend similar words, and if not, the word substitution unit 130 may register the corresponding word in the standard word dictionary 121. In this case, the word substitution unit 130 provides a word which is not included in the standard word dictionary 121 to the user terminal (not shown) through the data providing unit 160, and receives the user input received by the user input receiving unit 170. Based on the information, the user may request to register the word in the standard word dictionary 120.

단어 치환부(130)는 분리된 단어를 표준 단어 사전(121)에 포함된 단어와 매칭되는 단어가 없는 경우, 해당 단어를 음운 단위로 분리하여 유사도를 계산하여 가장 비슷한 단어를 추천할 수 있다. 단어 치환부(13)는 Fuzzy Data Matching 알고리즘을 사용하여 각각의 분리된 단어와 표준 단어와의 유사도 연산을 수행할 수 있으나, 이에 한정되는 것은 아니다. Fuzzy Data Matching 알고리즘은 편집거리(레펜슈타인, Levenshtein Distance)를 기반으로 계산된 결과값을 사용하여 데이터 간에 매칭을 수행하는 알고리즘이다.If there is no word that matches the word included in the standard word dictionary 121, the word substitute unit 130 may divide the word into phonological units and calculate the similarity to recommend the most similar word. The word substitution unit 13 may perform a similarity operation between each separated word and a standard word using a Fuzzy Data Matching algorithm, but is not limited thereto. Fuzzy Data Matching Algorithm is an algorithm that performs matching between data using the result value calculated based on the editing distance (Levenshtein Distance).

단어 치환부(130)는 음절로 이루어져 있는 용어들을 초성, 중성, 종성으로 한글 자모에 따른 음운으로 분리할수 있다. 예시적으로 인공지능 기반의 알고리즘 하나인 Fuzzy Data Matching 알고리즘은 각 단어들 간의 모양만으로 유사도를 계산하는 방법을 사용하기 때문이다. 이 알고리즘의 기초가 되는 언어인 영문과 달리, 국문의 경우 영문의 알파벳에 해당하는 한글의 자모가 합쳐져 글자를 만들어 내기 때문에, 단어 치환부(130)는 알파벳과 같이 한글의 음절을 풀어서 한글의 자모로 분리시켜 유사도를 계산할 수 있다. 예시적으로, 음운 분리 없이유사도를 계산할 경우 '강'과 '공'은 완전히 다른 글자지만, 음운분리를 하고 난, 'ㄱㅏㅇ' 과 'ㄱㅗㅇ'은 가운데 중성만 다른 비슷한 글자이므로, 데이터 군집부(140)는 원본 용어가 한글일 경우, 한글 자모에 따른 음운으로 분리할 수 있다.The word substitution unit 130 may separate terms consisting of syllables into phonemes according to the Hangul alphabet by initial, neutral, and finality. For example, the Fuzzy Data Matching algorithm, which is one of AI-based algorithms, uses a method of calculating similarity based on shapes between words. Unlike English, which is the language on which the algorithm is based, in the case of Korean, since the alphabets of the Korean alphabet corresponding to the English alphabet are combined to form letters, the word substitution unit 130 solves the Hangul syllables like the alphabets to form the alphabet. By separating, the similarity can be calculated. For example, when calculating the similarity without phonological separation, 'gang' and 'ball' are completely different letters, but after phonological separation, 'ㄱㅏㅇ' and 'ㄱ ㅗㅇ' are similar letters with only the middle neutral. If the original term is Korean, it may be divided into phonemes according to the Hangul alphabet.

단어 치환부(130)는 분리된 단어의 집합이나 배열을 표준 단어 사전(121) 내의 표준 단어로 치환하고, 도메인 사전에 등재되어 있는 도메인에 해당하는 경우가 있다면, 그 해당 도메인을 함께 추천할 수 있다. 도메인에 해당하는 단어는 용어 조합 시에 가장 마지막으로 조합되어 추천할 수 있다.The word substitution unit 130 replaces a set or arrangement of separated words with standard words in the standard word dictionary 121, and if there is a case corresponding to a domain listed in the domain dictionary, the word replacement unit 130 may recommend the corresponding domain together. have. The word corresponding to the domain may be recommended after being combined last in the term combination.

본원의 일 실시예에 따르면, 단어 치환부(130)는 음운 단위로 분리하여 표준 단어와 유사도 연산을 수행하여도, 제1용어와 매칭되는 표준 단어가 존재하지 않는 경우, 데이터 제공부(160)를 통해 해당 단어를 사용자 단말(미도시)에 제공할 수 있다. 사용자는 사용자 단말(미도시)에 도시된 매칭되지 않는 제 1 용어를 표준 단어 사전에 추가할 지 여부를 판단할 수 있다. 사용자 입력 수신부(170)는 사용자 단말(미도시)로부터 매칭되지 않는 제 1용어를 표준 단어 사전에 추가하고자 하는 입력 정보를 수신한 경우, 해당 입력 정보를 단어 치환부(130)로 제공할 수 있다. 단어 치환부(130)는 사용자 입력 정보에 기반하여 표준 사전부(120)로 매칭되지 않는 제1용어를 표준 단어 사전(121)에 추가 요청 정보를 제공할 수 있다. 표준 사전부(120)는 사용자 입력 정보에 기반하여, 매칭되지 않는 제1용어를 표준 단어 사전(121)에 추가하여 저장할 수 있다. According to the exemplary embodiment of the present application, even if the word substitution unit 130 is separated into phonological units and performs a similarity operation with the standard word, when there is no standard word matching the first term, the data providing unit 160 Through the corresponding word may be provided to the user terminal (not shown). The user may determine whether to add a non-matching first term shown in the user terminal (not shown) to the standard word dictionary. When the user input receiver 170 receives input information for adding a first term that does not match from the user terminal (not shown) to the standard word dictionary, the user input receiver 170 may provide the input information to the word substitute unit 130. . The word substitute unit 130 may provide additional request information to the standard word dictionary 121 as a first term that does not match the standard dictionary unit 120 based on the user input information. The standard dictionary unit 120 may store the first term that does not match, based on the user input information, in addition to the standard word dictionary 121.

즉, 단어 치환부(130)는 매칭되지 않는 단어가 존재할 경우, 사용자 단말(미도시)로 비매칭 단어를 제공하고, 사용자 단말(미도시)로부터 수신한 입력 정보에 기반하여, 비매칭 단어를 표준 단어 사전에 추가하도록 요청할 수 있다. That is, when there is a word that does not match, the word substitute unit 130 provides a mismatched word to the user terminal (not shown), and based on the input information received from the user terminal (not shown), You can ask to add it to a standard word dictionary.

도 8은 본원의 일 실시예에 따른 표준 용어 추천 장치의 형태소 분석을 설명하기 위해 개략적으로 나타낸 도면이다8 is a diagram schematically illustrating a morpheme analysis of a standard term recommendation apparatus according to an embodiment of the present application.

형태소는 뜻을 가진 가장 작은 단위로, 형태소 분석기를 이용하면 문장 또는 텍스트를 가장 작은 단위로 분리해 주며, 그 형태소의 품사를 자동으로 판별한다. 표준 단어를 치환하는 용도로 사용하고 있기 때문에 명사 형태의 형태소만으로 분리한다. 형태소 분석은 자연어 처리의 가장 기본이 되는 기술로 다양하게 응용되고 있으며, 표준화 추천 장치에 포함하여 사용하였다. A morpheme is the smallest unit that has a meaning. A morpheme analyzer separates a sentence or text into the smallest units and automatically determines the parts of speech of the morpheme. Because they are used to replace standard words, they are separated by morphemes in noun form only. Morphological analysis is the most basic technology of natural language processing and has been applied in various ways.

도8를 참조하면 위의 상자안의 문장인 '한국형사정책연구원에서 발주한 사업을 수주하다' 가 형태소 분석 대상이며, 밑에 단어와 품사별로 나눠진 결과이다. '한국형사정책연구원에서 발주한 사업을 수주하다' 라는 문장을 코드에 입력하면, 형태소 분석기가 문장을 분석하여 자동으로 분리하고 해당 형태소와 품사를 분리할 수 있다. 예시적으로, 단어 분리기(131)는 형태소 분석 기법을 이용하여 분리된 각 단어에 형태소 품사 태그표와 연계하여 분리된 단어를 제공할 수 있다. NNG는 일반명사, JKM은 부사격 조사, XSV는 동사 파생 접미사, ETD는 관형형 전성어미, JKO는 목적격 조사, NNP는 고유 명사를 의미할 수 있다. Referring to FIG. 8, the sentence in the box above, 'Ordered by the Korean Criminal Policy Institute,' is a morphological analysis target, and the results are divided by words and parts of speech. If you enter the sentence 'Order a project ordered by the Korean Criminal Policy Institute' into the code, the morpheme analyzer can analyze the sentence automatically and separate the morpheme and the part of speech. For example, the word breaker 131 may provide a separated word in association with a morpheme part-of-speech tag table to each separated word using a morpheme analysis technique. NNG can be a common noun, JKM can be a side shot, XSV can be a verb-derived suffix, ETD is a tubular malleable, JKO is a target investigation, and NNP can be a proper noun.

도 9는 본원의 일 실시예에 따른 표준 용어 추천 장치의 단어 분리기를 수행하였을 때의 예를 개략적으로 도면이다.9 is a schematic diagram of an example when a word breaker of a standard term recommendation apparatus according to an embodiment of the present disclosure is performed.

본원의 일 실시예에 따르면, 단어 분리기(131)는 형태소 분석 기법을 이용하여 제1 용어(1)를 복수의 단어로 분리할 수 있다. 또한, 단어 분리기(131)는 표준 단어 사전(121)에 포함된 단어를 이용한 매칭 방법 및 형태소 분석 기술을 이용한 방법 두가지 모두를 사용하여 명사 형태의 단어로 분리할 수 있다. 단어 분리기(131)는 분리된 단어들을 각각의 단어가 아닌 집합이나 배열을 형태로 단어 매칭기(132)로 전송할 수 있다. 예를 들어, 단어 분리기(131)는 제1용어(1)인 우편물주가이전배달주소지를 형태소 분석 기법을 이용하여, 우편물/주거/이전/배달/주소지, 우편/물/주거/이전/배달/주소지 등과 같이 제1용어(1) 각각의 단어로 분리할 수 있다. According to an embodiment of the present disclosure, the word breaker 131 may separate the first term 1 into a plurality of words using a morpheme analysis technique. In addition, the word breaker 131 may be divided into a noun-type word using both a matching method using a word included in the standard word dictionary 121 and a method using a morphological analysis technique. The word breaker 131 may transmit the separated words to the word matcher 132 in the form of a set or an arrangement instead of each word. For example, the word breaker 131 uses the stemming technique of the mail order forwarding delivery address, which is the first term 1, to provide a mail / resident / relocation / delivery / address, mail / water / resident / relocation / delivery / It may be separated into words of each of the first terms 1, such as an address.

본원의 일 실시예에 따르면, 단어 분리기(131)는 제1 용어(1)에 포함된 복수의 단어중 어느 하나가 표준 단어 사전(121)에 존재하지 않는 단어인 경우, 표준 단어 사전(121)에 존재하지 않는 단어를 음운 단위로 분리하고, 인공지능 기반의 알고리즘을 이용하여 유사도 연산을 수행하고, 유사 단어를 추천할 수 있다. 여기서 인공지능 기반의 알고리즘은 Fuzzy Data Matching 알고리즘일 수 있다. According to an embodiment of the present disclosure, the word breaker 131 is a standard word dictionary 121 when any one of the plurality of words included in the first term 1 is a word that does not exist in the standard word dictionary 121. Words that do not exist in can be separated into phonological units, similarity calculations are performed using AI-based algorithms, and similar words can be recommended. The AI based algorithm may be a Fuzzy Data Matching algorithm.

예를 들어, 단어 분리기(131)는 분리된 복수의 단어 중 우편이라는 단어가 표준 단어 사전(121)에 존재하지 않는 단어인 경우, ‘우편’을 ‘ㅇ, ㅜ, ㅍ, ㅕ, ㄴ’으로 분리할 수 있다. 또한, 단어 분리기(131)는 ‘ㅇ, ㅜ, ㅍ, ㅕ, ㄴ’ 분리된 단어를 인공지능 기반의 알고리즘을 이용하여 유사도 연산을 수행하고, 수행 결과를 유사 단어로 추천할 수 있다. For example, the word breaker 131 converts' post 'to' ㅇ, TT,, ㅕ, when the word zip among the plurality of separated words does not exist in the standard word dictionary 121. Can be separated. In addition, the word breaker 131 may perform a similarity operation on the word separated by 'ㅇ, ㅜ, ㄷ, ㅕ, ㄴ' using an AI-based algorithm, and recommend the result as a similar word.

본원의 일 실시예에 따르면, 도9는 형태소 분석기를 응용하여 구성한 단어 분리기에 '우편물주거이전배달주소지'라는 칼럼명을 대입한 결과일 수 있다. 이는 일예일 뿐이며, 실제 컬럼의 명칭과는 상이할 수 있다. 단어 분리기(131)는 '우편물주거이전배달주소지’의 칼럼명을 형태소 분석기와 표준 용어 사전을 기반으로 단어를 분리하였으며, 다양한 경우의 수로 단어를 분리할 수 있다. 단어 분리기(131)는 해당 분리된 단어집합 중 가장 적절한 집합으로 분리를 하며, 해당 단어의 집합이 단어 매칭기(132)에서 매칭되는 표준 단어가 없을 경우 단어 치환부(130)는 다른 단어 집합을 매칭하여 표준 단어로 치환할 수 있다. According to an embodiment of the present application, FIG. 9 may be a result of substituting a column name of 'mail residential transfer address' to a word separator configured by applying a morpheme analyzer. This is only an example and may be different from the actual column name. The word separator 131 divides the column names of the 'mail residential transfer address' based on the morpheme analyzer and the standard term dictionary, and separates the words by the number of various cases. The word breaker 131 divides the word set into the most appropriate set of the separated word sets. If there is no standard word matching in the word matcher 132, the word replacer 130 selects another word set. Match and replace with standard words.

도 10는 본원의 일 실시예에 따른 표준 용어 추천 장치의 단어 매칭기를 수행하였을 때의 예를 개략적으로 나타낸 도면이다.FIG. 10 is a diagram schematically illustrating an example when a word matcher of the standard term recommendation apparatus according to the exemplary embodiment of the present application is performed.

본원의 일 실시예에 따르면, 단어 매칭기(132)는 단어 분리기(131)에서 분리된 복수의 단어의 집합을 표준 단어 사전(121)에 포함된 단어 중 어느 하나와 매칭할 수 있다. 단어 매칭기(132)는 단어 분리기(131)에서 분리된 복수의 단어의 집합을 표준 단어 사전(120)에 포함된 표준 단어, 금칙어, 유사어중 적어도 어느 하나와 매칭할 수 있다. According to an exemplary embodiment of the present disclosure, the word matcher 132 may match a set of a plurality of words separated by the word separator 131 with any one of the words included in the standard word dictionary 121. The word matcher 132 may match the set of words separated by the word separator 131 with at least one of standard words, banned words, and similar words included in the standard word dictionary 120.

예를 들어, 도 10을 참조하면, 우편물/주거/이전/배달/주소지(2)는 단어 분리기(131)에서 분리된 복수의 단어의 집합일 수 있다. 단어 매칭기(132)는 분류된 각각의 단어를 표준 단어 사전(120)에 포함된 표준 단어, 금칙어, 유사어중 적어도 어느 하나와 매칭할 수 있다. 단어 매칭기(132)를 통과한 제1 매칭단어는 우편물/주거/이전/배송/주소로 단어 분리기(131)에서 분리된 단어 중 배달이 배송으로 매칭되고, 주소지가 주소로 매칭된 것을 확인할 수 있다. 반면, 단어 매칭기(132)를 통과한 제2매칭 단어는 우편물/주거/변경전/배달/주소로 이전이 변경전으로 매칭되고, 주소지가 주소로 매칭된 것을 확인할 수 있다. 치환(변경)되지 않은 단어인 경우, 기존의 표준 단어 사전(121)에 포함된 단어 일 수 있다. 단어 매칭기(132)를 통과한 복수의 단어 집합은 하나의 단어로만 매칭되는 것이 아닌 유사한 단어가 있는 경우, 복수개로 매칭 가능할 수 있다. For example, referring to FIG. 10, the mail / resident / previous / delivery / address 2 may be a set of words separated by the word separator 131. The word matcher 132 may match each classified word with at least one of standard words, banned words, and similar words included in the standard word dictionary 120. The first matching word that has passed through the word matcher 132 is a mail / resident / previous / delivery / address of the words separated from the word breaker 131, the delivery is matched to the delivery, and the address can be confirmed that the address is matched to the address. have. On the other hand, the second matching word that has passed through the word matcher 132 may be matched before the change to the mail / residential / before the change / delivery / address, it can be confirmed that the address is matched by the address. If the word is not substituted (changed), it may be a word included in the existing standard word dictionary 121. The plurality of word sets passing through the word matcher 132 may be matched to a plurality of words when there are similar words, instead of matching only one word.

본원의 일 실시예에 따르면, 도10를 참조하면, 단어 매칭기(132)에 대입한 '우편물/주거/이전/배달/주소지'에 대한 매칭 결과이다. 도면은 일예일 뿐이며, 표준 단어 사전에 등록된 단어와 금칙어 등에 따라 결과가 상이할 수 있다. 대입한 단어의 집합은 표준 단어 사전을 기준으로 단어들의 치환이 이루어 지며, 치환이 이루어지지 않는 단어의 경우는 이미 표준 단어이거나, 표준 단어 사전에 등재되어 있지 않는 단어이다. 표준 단어 사전에 등재되어 있지 않은 단어의 경우, 유사도를 계산하여 가장 높은 단어를 사용자에게 제안하여 오타를 수정할 수 있으며, 오타가 아닌 새로운 단어일 경우 표준 단어 사전(121)에 추가할 수 있다.According to one embodiment of the present application, referring to FIG. 10, a matching result for 'mail / resident / previous / delivery / address' inserted into the word matcher 132. The drawings are only examples, and the results may differ depending on the words registered in the standard word dictionary and the banned words. Substituted words are substituted for the word based on the standard word dictionary. In the case of the word without substitution, the word is already a standard word or is not listed in the standard word dictionary. For words that are not listed in the standard word dictionary, the similarity is calculated and the highest word is suggested to the user to correct the typo, and in the case of a new word other than the typo, the word may be added to the standard word dictionary 121.

도 11은 본원의 일 실시예에 따른 표준 용어 추천 장치의 용어추천부가 수행하는 작업의 예를 개략적으로 나타낸 도면이다.11 is a view schematically showing an example of a task performed by the term recommendation unit of the standard term recommendation apparatus according to an embodiment of the present application.

본원의 일 실시예에 따르면, 용어 추천부(140)는 치환된 복수의 표준 단어를 조합하고, 조합된 복수의 표준 단어를 이용하여, 표준 용어 사전(122)에 포함된 복수의 표준 용어 중 적어도 어느 하나를 제1용어(1)의 표준 용어로 추천할 수 있다. 또한, 용어 추천부(140)는 표준 용어 사전(122)에 포함된 표준 용어 또는 표준 단어를 조합한 용어를 추천할 수 있다. 일예로, 용어 추천부(140)는 단어 치환부(130)에서 치환된 표준 단어들을 조합하여 용어를 생성하고 데이터 제공부(160)를 통해 사용자 단말(미도시)로 제공할 수 있다. According to an embodiment of the present disclosure, the term recommendation unit 140 combines a plurality of substituted standard words and uses the combined plurality of standard words, and includes at least one of a plurality of standard terms included in the standard term dictionary 122. Any one can be recommended as a standard term for the first term (1). In addition, the term recommendation unit 140 may recommend a standard term or a combination of standard words included in the standard term dictionary 122. For example, the term recommender 140 may generate a term by combining standard words substituted by the word substitute unit 130 and provide the term to a user terminal (not shown) through the data provider 160.

예시적으로, 용어 추천부(140)는 단어 치환부(130)에서 치환된 우편물/주거/이전/배달/주소지, 우편/주거/이전/배달/주소, 우편/주거/변경/배송/주소 등의 치환된 복수의 표준 단어를 조합할 수 있다. 용어 추천부(140)는 2개 이상의 단어를 조합하여 생성된 표준 용어를 추천할 수 있다. 일예로, 치환된 복수의 표준 단어가 5개인 경우, 최소 2개의 단어 조합에서 최대 5개의 단어의 조합으로 생성된 표준 용어를 추천할 수 있다. For example, the term recommendation unit 140 is a mail / residence / transfer / delivery / address, post / residential / transfer / delivery / address, post / residential / change / delivery / address, etc. substituted in the word substitution unit 130 A plurality of substituted standard words can be combined. The term recommender 140 may recommend standard terms generated by combining two or more words. For example, when there are five standard words substituted, a standard term generated from a combination of at least two words and at most five words may be recommended.

도11을 참조하면, 용어 추천부(140)는 치환된 복수의 단어를 조합하여 우편물_배달_주소, 우편_주거_변경전_배달_주소, 우편_주거_변경_배송_주소 등과 같은 조합들을 추천할 수 있다. 도 11에 도시된 조합 단어들은 일 실시예일뿐이며, 보다 다양한 단어의 조합이 존재할 수 있다. Referring to FIG. 11, the term recommendation unit 140 combines a plurality of substituted words, such as postal_delivery_address, postal_resident_previous_delivery_address, postal_resident_change_delivery_address, and the like. I can recommend them. The combination words shown in FIG. 11 are only an example, and there may be more combinations of words.

단어 치환부(130)에서 단어를 치환할 때, 동음 이의어에 관한 표준 단어에 대한 문제가 생길 수 있기 때문에 단어를 하나가 아닌 여러 개의 단어로 치환하게 되는데, 용어 추천부(140)에서는 그 단어들을 각각 사용한 용어들을 모두 생성하여 데이터 제공부(160)를 통해 사용자 단말(미도시)로 제공할 수 있다. 또한 용어 추천부(140)는 제공한 단어 중에, 표준 용어 사전에 존재하는 유사 표준용어를 함께 추천할 수 있다. When a word is substituted in the word replacement unit 130, a problem may occur with respect to a standard word about a homonym, so that the word is replaced with not a single word but the term recommender 140 replaces the word. Each of the terms used may be generated and provided to the user terminal (not shown) through the data provider 160. In addition, the term recommendation unit 140 may recommend similar standard terms existing in the standard term dictionary among words provided.

본원의 일 실시예에 따르면, 용어 추천부 (140)는 표준 용어 사전부(122)에 포함된 표준 용어와 조합된 복수의 표준 단어들을 이용하여, 인공지능 기반의 알고리즘을 이용하여 유사도 연산을 수행하고, 제1 용어(1)의 표준 용어를 추천할 수 있다. 용어 추천부 (140)는 Fuzzy Data Matching 알고리즘을 사용하여 표준 용어와 조합된 복수의 표준 단어들의 유사도 연산을 수행할 수 있으나, 이에 한정되는 것은 아니다. Fuzzy Data Matching 알고리즘은 편집거리(레펜슈타인, Levenshtein Distance)를 기반으로 계산된 결과값을 사용하여 데이터 간에 매칭을 수행하는 알고리즘이다. 용어 추천부(140)는 인공지능 기반의 알고리즘을 이용하여 수행한 유사도 연산 결과를 유사도가 높은 순서대로 제1용어(1)의 표준 용어를 추천할 수 있다. 용어 추천부(140)는 인공지능 기반의 알고리즘을 이용하여 수행한 유사도 연산 결과 중 미리 설정된 결과 이상의 표준 용어만을 제1용어(1)의 표준 용어로 추천할 수 있다. According to an embodiment of the present disclosure, the term recommender 140 performs a similarity operation using an AI-based algorithm, using a plurality of standard words combined with standard terms included in the standard term dictionary unit 122. The standard term of the first term (1) can be recommended. The term recommender 140 may perform a similarity operation of a plurality of standard words combined with a standard term using a Fuzzy Data Matching algorithm, but is not limited thereto. Fuzzy Data Matching Algorithm is an algorithm that performs matching between data using the result value calculated based on the editing distance (Levenshtein Distance). The term recommendation unit 140 may recommend the standard term of the first term 1 in the order of high similarity based on the result of the similarity calculation performed using an AI based algorithm. The term recommendation unit 140 may recommend only standard terms, which are equal to or greater than a preset result, among similarity calculation results performed using an AI-based algorithm, as standard terms of the first term 1.

본원의 일 실시예에 따르면, 도11은 용어 추천부를 도식화하여 표현한 것이다. 이는 일예일 뿐이며, 실제 표준 용어가 아닐 수 있으며 표준 용어 추천과정에서도 상이한 결과가 도출될 수 있다. 단어 치환부(130)를 통과한 단어의 집합들은 용어 추천부(140)를 거쳐 표준 용어 형태로 변환이 되는데, 그 과정에서 표준 용어 사전에 있는 용어 중에서 유사도가 높은 용어를 추천하기도 하며, 치환된 단어의 집합을 그대로 연결한 용어나 순서를 변경한 용어를 추천하기도 한다.According to an embodiment of the present application, Figure 11 is a representation of the term recommendation. This is only an example, and may not be an actual standard terminology and different results may be obtained in the standard terminology recommendation process. The set of words passing through the word substitution unit 130 is converted into a standard term form through the term recommender 140. In the process, a term having high similarity is recommended among terms in the standard term dictionary. It may also recommend terms that are a concatenation of words, or a change of order.

도 12는 본원의 일 실시예에 따른 표준 용어 추천 장치의 용어 결정부가 수행하는 작업의 예를 개략적으로 나타낸 도면이다.12 is a diagram schematically showing an example of a task performed by the term decision unit of the standard term recommendation apparatus according to an exemplary embodiment of the present application.

본원의 일 실시예에 따르면, 용어 결정부(150)는 용어 추천부에서 추천된 표준 용어 중 어느 하나를 제1용어(1)의 제 1 표준 용어(3)로 선택하고, 표준 도메인 사전(123)에 포함된 복수의 표준 도메인 중 적어도 어느 하나를 제1 표준 용어(3)의 제1표준 도메인으로 결정할 수 있다. 예를 들어, 용어 결정부(150)는 용어 추천부(140)에서 추천한 복수개의 표준 용어 중 어느 하나를 제 1용어(1)의 제1 표준 용어로 선택할 수 있다. 예를 들어, 용어 결정부(150)는 용어 추천부(140)에서 추천한 우편물_배달_주소, 우편_주거_변경전_배달_주소, 주거_변경_우편_배송_주소 중에서 주거_변경_우편_배송_주소를 제1표준 용어(3)로 선택할 수 있다. According to one embodiment of the present application, the term determining unit 150 selects any one of the standard terms recommended in the term recommending unit as the first standard term 3 of the first term 1, and the standard domain dictionary 123 At least one of the plurality of standard domains included in) can be determined as the first standard domain of the first standard term (3). For example, the term determining unit 150 may select any one of the plurality of standard terms recommended by the term recommending unit 140 as the first standard term of the first term 1. For example, the term determination unit 150 may change the housing_ among the mail_delivery_address, mail_resident_previous_delivery_address, residence_change_mail_delivery_address recommended by the term recommendation unit 140. Mail_delivery_address may be selected as the first standard term (3).

또한, 용어 결정부(150)는 제1표준 용어(3)와 연계된 표준 도메인을 제1표준 용어(3)의 표준 도메인으로 결정할 수 있다. 용어 결정부(150)는 제1표준 용어(3)와 연계된 표준 도메인을 표준 도메인 사전(123)으로부터 제공받아 제1표준 용어(3)의 제1표준 도메인을 결정할 수 있다. 표준 도메인 사전(123)은 제1표준 용어와 연계된 제1표준 도메인을 포함할 수 있다. 표준 도메인 사전(123)은 표준 용어와 연게된 표준 도메인을 포함할 수 있다. In addition, the term determination unit 150 may determine the standard domain associated with the first standard term 3 as the standard domain of the first standard term 3. The term determining unit 150 may receive a standard domain associated with the first standard term 3 from the standard domain dictionary 123 to determine the first standard domain of the first standard term 3. The standard domain dictionary 123 may include a first standard domain associated with the first standard term. The standard domain dictionary 123 may include standard domains associated with standard terms.

예를 들어, 용어 결정부는, 주거_변경_우편_배송_주소를 제1표준 용어(3)로 선택하고, 제1 표준 용어(3)와 연계된 표준 도메인 ID 주소, 데이터 타입VARCHAR(150)인 도메인을 제1 표준 도메인으로 결정할 수 있다. For example, the term determining unit selects the residence_change_mail_delivery_address as the first standard term (3), the standard domain ID address associated with the first standard term (3), and the data type VARCHAR (150). The phosphor domain may be determined as the first standard domain.

용어 결정부(150)에서는 추천한 용어를 바탕으로 사용자가 추천한 용어를 선택할 수 있다. 사용자는 용어 추천부(140)에서 추천한 용어를 토대로 가장 적절하다고 판단되는 표준 용어를 선택하고 데이터베이스(110)에 저장할 수 있다.The term determiner 150 may select a term recommended by the user based on the term. The user may select a standard term which is determined to be the most appropriate based on the term recommended by the term recommender 140 and store it in the database 110.

또한 용어 결정부(150)는 표준 용어를 직접 수정하거나 입력할 수 있다. 추천한 표준 용어가 모두 사용자가 원하는 용어가 아니거나, 일부분만 바꿔서 저장하고 싶을 경우, 사용자는 직접 표준용어를 입력하거나 수정하여 저장할 수 있다.In addition, the term determination unit 150 may directly modify or input a standard term. If all of the recommended standard terms are not the term desired by the user, or if the user wants to save only part of the standard term, the user may directly input or modify the standard term and save the term.

본원의 일 실시예에 따르면, 도12 는 용어 결정부를 도식화 것이다. 이는 일 예이며 실제 사용하는 표준 용어와 표준 도메인이 아닐 수 있다. 용어 추천부에서 추천한 용어 중에 선택한 '주거_변경_우편_배송_주소' 라는 용어의 가장 뒤에 오는 도메인의 종류를 변경하고 싶을 경우, 추천 용어를 선택한 후에 원하는 도메인을 선택할 수 있다. 해당 도메인은 표준 도메인 사전에 등록된 도메인에만 국한된다.According to one embodiment of the present application, Figure 12 will illustrate the term determination. This is an example and may not be the standard terminology and standard domain in use. If you want to change the type of domain that comes after the term 'Residual_Change_Mail_Delivery_Address' among the terms recommended by the term recommender, you can select the desired domain after selecting the recommended term. The domain is limited to domains registered in the standard domain dictionary.

본원의 일 실시예에 따르면, 데이터 제공부(160)는 사용자 단말(미도시)로 용어 표준화를 위한 입력 정보와 관련된 선택 항목을 제공할 수 있다. 사용자는 사용자 단말(미도시)에 표시된 용어 표준화와 관련된 항목을 확인하고, 수정 사항을 선택할 수 있다. 일예로, 용어 표준화와 관련된 선택 항목은 표준 사전부(120), 단어 치환부(130), 용어 추천부(140), 용어 결정부(150) 등에서 제공하는 요청에 따른, 확인 및 수정과 관련된 선택 항목을 포함할 수 있다. According to an embodiment of the present disclosure, the data provider 160 may provide a selection item related to input information for term standardization to a user terminal (not shown). The user may check an item related to the term standardization displayed on a user terminal (not shown) and select a correction item. For example, the selection item related to the term standardization may include a selection related to identification and correction according to a request provided by the standard dictionary unit 120, the word substitution unit 130, the term recommendation unit 140, and the term determination unit 150. It can contain an item.

본원의 일 실시예에 따르면, 사용자 입력 수신부(170)는 사용자 단말(미도시)로부터 용어 표준화를 위한 입력 정보를 수신할 수 있다. 달리 말해, 사용자 입력 수신부(170)는 사용자 단말(미도시)로부터 사용자가 선택한 용어 표준화를 위한 입력 정보를 수신할 수 있다. 사용자 입력 수신부(미도시)는 용어 표준화를 위한 입력 정보와 관련된 선택 항목을 요청한 각 유닛(부)에 해당 정보를 제공할 수 있다. 일예로, 용어 표준화를 위한 입력 정보는, 용어 입력 메뉴, 표준 단어 선택 메뉴, 표준 용어 선택 메뉴, 표준 도메인 선택 메뉴 등에서 제공한 항목에 대한 사용자 입력 정보일 수 있다. According to an embodiment of the present disclosure, the user input receiving unit 170 may receive input information for term standardization from a user terminal (not shown). In other words, the user input receiver 170 may receive input information for standardizing terms selected by a user from a user terminal (not shown). The user input receiver (not shown) may provide corresponding information to each unit (unit) that has requested a selection item related to input information for term standardization. For example, the input information for term standardization may be user input information on an item provided from a term input menu, a standard word selection menu, a standard term selection menu, a standard domain selection menu, and the like.

본원의 일 실시예에 따르면, 용어 자동 추천 장치(100)는 사용자 단말 (미도시)로 용어 표준화에 필요한 선택 메뉴를 제공할 수 있다. 예를 들어, 용어 표준화 장치(100)가 제공하는 어플리케이션 프로그램을 사용자 단말(미도시)이 다운로드하여 설치하고, 설치된 어플리케이션을 통해 용어 표준화 메뉴가 제공될 수 있다. 용어 표준화에 필요한 용어 입력 메뉴, 표준 단어 선택 메뉴, 표준 용어 선택 메뉴, 표준 도메인 선택 메뉴 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.According to an embodiment of the present disclosure, the term automatic recommendation apparatus 100 may provide a selection menu required for term standardization to a user terminal (not shown). For example, a user terminal (not shown) may download and install an application program provided by the term standardization apparatus 100, and a term standardization menu may be provided through the installed application. It may include, but is not limited to, a term input menu, a standard word selection menu, a standard term selection menu, a standard domain selection menu, etc. required for term standardization.

용어 자동 추천 장치(100)는 사용자 단말 (미도시)과 데이터, 콘텐츠, 각종 통신 신호를 네트워크를 통해 송수신하고, 데이터 저장 및 처리의 기능을 가지는 모든 종류의 서버, 단말, 또는 디바이스를 포함할 수 있다.The term automatic recommendation apparatus 100 may include any type of server, terminal, or device that transmits and receives data, content, and various communication signals with a user terminal (not shown) through a network, and has a function of data storage and processing. have.

사용자 단말 (미도시)은 네트워크를 통해 용어 자동 추천 장치(100)와 연동되는 디바이스로서, 예를 들면, 스마트폰(Smartphone), 스마트패드(Smart Pad), 태블릿 PC, 웨어러블 디바이스 등과 PCS(Personal Communication System), GSM(Global System for Mobile communication), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말기 같은 모든 종류의 무선 통신 장치 및 데스크탑 컴퓨터, 스마트 TV와 같은 고정용 단말기일 수도 있다. A user terminal (not shown) is a device interworking with the term automatic recommendation apparatus 100 through a network, for example, a smartphone, a smart pad, a tablet PC, a wearable device, and the like, and personal communication (PCS). System, Global System for Mobile Communication (GSM), Personal Digital Cellular (PDC), Personal Handyphone System (PHS), Personal Digital Assistant (PDA), International Mobile Telecommunication (IMT) -2000, Code Division Multiple Access (CDMA)- 2000, W-Code Division Multiple Access (W-CDMA), wireless broadband devices such as Wibro (Wireless Broadband Internet) terminals, and fixed terminals such as desktop computers and smart TVs.

용어 자동 추천 장치(100) 및 사용자 단말 (미도시)간의 정보 공유를 위한 네트워크의 일 예로는 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, 5G 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 유무선 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 블루투스(Bluetooth) 네트워크, Wifi 네트워크, NFC(Near Field Communication) 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함될 수 있으며, 이에 한정된 것은 아니다.Examples of a network for sharing information between the automatic recommendation device 100 and a user terminal (not shown) include a 3rd Generation Partnership Project (3GPP) network, a Long Term Evolution (LTE) network, a 5G network, and a World Interoperability for Microwave (WIMAX). Access (Network), Wired / Wireless Internet, Local Area Network (LAN), Wireless Local Area Network (WLAN), Wide Area Network (WAN), Personal Area Network (PAN), Bluetooth Network, Wifi Network, NFC (Near Field Communication) network, satellite broadcasting network, analog broadcasting network, DMB (Digital Multimedia Broadcasting) network, etc. may be included, but is not limited thereto.

이하에서는 상기에 자세히 설명된 내용을 기반으로, 본원의 동작 흐름을 간단히 살펴보기로 한다.Hereinafter, based on the details described above, the operation flow of the present application will be briefly described.

도 13은 본원의 일 실시예에 따른 빅데이터 표준화를 위한 표준 용어 자동 추천 방법에 대한 동작 흐름도이다.13 is a flowchart illustrating a standard term automatic recommendation method for big data standardization according to an embodiment of the present application.

도 13에 도시된 빅데이터 표준화를 위한 표준 용어 자동 추천 방법은 앞서 설명된 용어 자동 추천 장치(100)에 의하여 수행될 수 있다. 따라서, 이하 생략된 내용이라고 하더라도 용어 자동 추천 장치(100)에 대하여 설명된 내용은 빅데이터 표준화를 위한 표준 용어 자동 추천 방법에 대한 설명에도 동일하게 적용될 수 있다.The standard term automatic recommendation method for big data standardization illustrated in FIG. 13 may be performed by the term automatic recommendation apparatus 100 described above. Therefore, even if omitted below, the description of the term automatic recommendation apparatus 100 may be equally applicable to the description of the standard term automatic recommendation method for big data standardization.

단계 S131에서, 용어 자동 추천 장치(100)는 표준화를 수행하기 위해 제1용어(1)를 입력받을 수 있다. 예를 들어, 용어 자동 추천 장치(100)는 우편물주거이전배달주소지(제1용어)를 입력을 수 있다.In operation S131, the term automatic recommendation apparatus 100 may receive the first term 1 to perform standardization. For example, the term automatic recommendation apparatus 100 may input a mail residence transfer delivery address (first term).

단계 S132에서, 용어 자동 추천 장치(100)는 표준화된 용어 데이터를 포함하는 데이터 베이스(110) 및 표준 단어 사전, 표준 영어 사전 및 표준 도메인 사전을 포함하고 관리하는 표준 사전부(120)를 이용하여, 표준화를 수행하기 위해 입력받은 제1용어(1)의 형태소를 분리할 수 있다. 예를 들어, 용어 자동 추천 장치(100)는 입력받은 우편물주거이전배달주소지(제1용어)를 형태소 단위로 분리할 수 있다. 일예로, 용어 자동 추천 장치(100)는 우편물/주거/이전/배달/주소지로 제1용어를 형태소 단위로 분리할 수 있다.In operation S132, the term automatic recommendation apparatus 100 uses the database 110 including the standardized term data and the standard dictionary unit 120 including and managing a standard word dictionary, a standard English dictionary, and a standard domain dictionary. In order to perform standardization, the morpheme of the first term 1 received may be separated. For example, the term automatic recommendation apparatus 100 may separate the received mail residence transfer address (first term) into morpheme units. For example, the term automatic recommendation apparatus 100 may divide the first term into morpheme units by mail / resident / previous / delivery / address.

단계 S133에서, 용어 자동 추천 장치(100)는 분리된 제 1용어(1)에 포함된 복수의 단어를 표준 단어 사전(121)에 포함된 표준 단어로 치환할 수 있다. 예를 들어, 용어 자동 추천 장치(100)는 분리된 제1용어에 포함된 복수의 단어를 표준 단어 사전에 포함된 표준 단어로 치환할 수 있다. 예를 들어, 용어 자동 추천 장치(100)는 우편물/주거/이전/배달/주소지의 복수의 단어 중 ‘주소지’를 ‘주소’로 치환할 수 있다.In operation S133, the term automatic recommendation apparatus 100 may replace a plurality of words included in the separated first term 1 with standard words included in the standard word dictionary 121. For example, the term automatic recommendation apparatus 100 may replace a plurality of words included in the separated first term with standard words included in the standard word dictionary. For example, the term automatic recommendation apparatus 100 may replace 'address' with 'address' among a plurality of words of mails / residential / previous / delivery / address.

단계 S134에서, 용어 자동 추천 장치(100)는 치환된 제1용어(1)에 포함된 복수의 단어를 조합할 수 있다. 예를 들어, 용어 자동 추천 장치(100)는 치환된 제1용어에 포함된 복수의 단어인 우편물/주거/이전/배달/주소를 다양하게 조합할 수 있다. 예를 들어, 용어 자동 추천 장치(100)는 우편물/주거, 주거/변경/우편/배달/주소 등과 같이 복수의 단어를 조합할 수 있다.In operation S134, the term automatic recommendation apparatus 100 may combine a plurality of words included in the substituted first term 1. For example, the term automatic recommendation apparatus 100 may variously combine mails / residents / previous / delivery / addresses which are a plurality of words included in the substituted first term. For example, the term automatic recommendation apparatus 100 may combine a plurality of words such as postal / residential, residential / modified / postal / delivery / address.

단계 S135에서, 용어 자동 추천 장치(100)는 조합된 복수의 표준 단어를 이용하여, 표준 용어 사전(122)에 포함된 복수의 표준 용어 중 적어도 어느 하나를 제1용어의 표준 용어로 추천할 수 있다. 예를 들어, 용어 자동 추천 장치(100)는 우편물주거이전배달주소지(제1용어)를 추천할 수 있다.In operation S135, the term automatic recommendation apparatus 100 may recommend at least one of the plurality of standard terms included in the standard term dictionary 122 as the standard term of the first term using the combined plurality of standard words. have. For example, the term automatic recommendation apparatus 100 may recommend a mail residence transfer address (first term).

단계 S136에서, 용어 자동 추천 장치(100)는 추천된 표준 용어 중 어느 하나를 상기 제1용어의 제 1 표준 용어로 선택할 수 있다. 예를 들어, 용어 자동 추천 장치(100)는 우편물주거이전배달주소지(제1용어)의 제1표준용어를 주거_변경_우편_배송_주소로 선택할 수 있다. In operation S136, the term automatic recommendation apparatus 100 may select any one of the recommended standard terms as the first standard term of the first term. For example, the term automatic recommendation apparatus 100 may select the first standard term of the mail dwelling delivery address (first term) as a residence_change_mail_delivery_address.

단계 S137에서, 용어 자동 추천 장치(100)는 표준 도메인 사전(123)에 포함된 복수의 표준 도메인 중 적어도 어느 하나를 추천된 제1 표준 용어의 제 1표준 도메인으로 결정할 수 있다. 예를 들어, 용어 자동 추천 장치(100)는 주거_변경_우편_배송_주소로인 제1표준 용어를 도메인명 주소, 데이터 타입 VARCHAR(150)인 제1표준 도메인으로 결정할 수 있다. In operation S137, the term automatic recommendation apparatus 100 may determine at least one of the plurality of standard domains included in the standard domain dictionary 123 as the first standard domain of the recommended first standard term. For example, the term automatic recommendation apparatus 100 may determine a first standard term, which is a residence_change_mail_delivery_address, as a domain name address and a first standard domain of data type VARCHAR 150.

상술한 설명에서, 단계 S131 내지 S137은 본원의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.In the above description, steps S131 to S137 may be further divided into additional steps or combined into fewer steps, according to an embodiment of the present disclosure. In addition, some steps may be omitted as necessary, and the order between the steps may be changed.

본원의 일 실시예에 따른 빅데이터 표준화를 위한 표준 용어 자동 추천 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The standard term automatic recommendation method for standardizing big data according to an exemplary embodiment of the present disclosure may be implemented in the form of program instructions that may be executed by various computer means and recorded in a computer readable medium. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination. Program instructions recorded on the media may be those specially designed and constructed for the purposes of the present invention, or they may be of the kind well-known and available to those having skill in the computer software arts. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks, such as floppy disks. Magneto-optical media, and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like. The hardware device described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

또한, 전술한 빅데이터 표준화를 위한 표준 용어 자동 추천 방법은 기록 매체에 저장되는 컴퓨터에 의해 실행되는 컴퓨터 프로그램 또는 애플리케이션의 형태로도 구현될 수 있다.In addition, the standard term automatic recommendation method for standardizing big data may be implemented in the form of a computer program or an application executed by a computer stored in a recording medium.

전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.The above description of the present application is intended for illustration, and it will be understood by those skilled in the art that the present invention may be easily modified in other specific forms without changing the technical spirit or essential features of the present application. Therefore, it should be understood that the embodiments described above are exemplary in all respects and not restrictive. For example, each component described as a single type may be implemented in a distributed manner, and similarly, components described as distributed may be implemented in a combined form.

본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present application is indicated by the following claims rather than the above description, and it should be construed that all changes or modifications derived from the meaning and scope of the claims and their equivalents are included in the scope of the present application.

100: 용어 자동 추천 장치
110: 데이터 베이스
120: 표준사전부
130: 단어 치환부
140: 용어 추천부
150: 용어 결정부
100: term automatic recommendation device
110: database
120: standard dictionary
130: word substitution
140: term recommendation
150: term determination unit

Claims (6)

빅데이터 표준화를 위한 표준 용어 자동 추천 장치에 있어서,
표준화된 용어 데이터를 포함하는 데이터 베이스;
표준 단어 사전, 표준 용어 사전 및 표준 도메인 사전을 포함하고 관리하는 표준 사전부;
표준화를 수행하기 위해 입력받은 제1용어의 형태소를 분리하고, 제1 용어에 포함된 복수의 단어를 상기 표준 단어 사전에 포함된 표준 단어로 치환하는 단어 치환부;
상기 치환된 복수의 표준 단어를 조합하고, 조합된 복수의 표준 단어를 이용하여, 상기 표준 용어 사전에 포함된 복수의 표준 용어 중 적어도 어느 하나를 상기 제1용어의 표준 용어로 추천하는 용어 추천부; 및
상기 용어 추천부에서 추천된 표준 용어 중 어느 하나를 상기 제1용어의 제 1 표준 용어로 선택하고, 상기 표준 도메인 사전에 포함된 복수의 표준 도메인 중 적어도 어느 하나를 상기 제1 표준 용어의 제1표준 도메인으로 결정하는 용어 결정부,
를 포함하되,
상기 단어 치환부는
형태소 분석 기법을 이용하여 상기 제1 용어를 복수의 단어로 분리하는 단어 분리기; 및
상기 단어 분리기에서 분리된 복수의 단어의 집합을 상기 표준 단어 사전에 포함된 단어 중 어느 하나와 매칭하는 단어 매칭기를 포함하고,
상기 단어 분리기는,
상기 제1 용어에 포함된 복수의 단어 중 어느 하나가 상기 표준 단어 사전에 존재하지 않는 단어인 경우, 상기 표준 단어 사전에 존재하지 않는 단어를 음운 단위로 분리하고, 인공지능 기반의 알고리즘을 이용하여 분리된 상기 단어와 표준 단어와의 유사도 연산을 수행한 결과에 기초하여 유사 단어를 추천하고,
상기 표준 단어 사전에 존재하지 않는 단어는 상기 표준 단어 사전에 등재되고,
상기 용어 추천부는,
상기 표준 용어 사전부에 포함된 표준 용어와 조합된 복수의 표준 단어들을 이용하여, 인공지능 기반의 알고리즘을 이용하여 유사도 연산을 수행하고, 미리 설정된 유사도 이상의 표준 용어를 상기 제1 용어의 표준 용어를 추천하되,
상기 표준 도메인 사전은 표준 용어, 데이터 타입, 도메인명과 연계한 표준 도메인을 포함하고,
상기 단어 치환부는,
상기 분리된 복수의 단어를 상기 표준 단어 사전 내의 표준 단어로 치환하고, 도메인 사전에 등재되어 있는 도메인에 해당하는 경우, 해당 도메인을 함께 추천하되,
상기 용어 결정부는,
추천된 상기 도메인을 고려하여, 제1표준 용어와 연계된 표준 도메인을 제1표준 용어의 표준 도메인으로 결정하는 것인, 용어 자동 추천 장치.
In the standard term automatic recommendation device for big data standardization,
A database comprising normalized terminology data;
A standard dictionary unit including and managing a standard word dictionary, a standard term dictionary, and a standard domain dictionary;
A word substitution unit that separates the morphemes of the first term received to perform standardization, and replaces a plurality of words included in the first term with standard words included in the standard word dictionary;
A term recommender for recommending at least one of a plurality of standard terms included in the standard term dictionary as a standard term of the first term by combining the plurality of substituted standard words and using the combined plurality of standard words ; And
Selecting one of the standard terms recommended in the term recommendation unit as the first standard term of the first term, and selecting at least one of a plurality of standard domains included in the standard domain dictionary as the first standard term of the first standard term A term decision unit that determines the standard domain,
Including,
The word substitution is
A word separator that separates the first term into a plurality of words using a morpheme analysis technique; And
A word matcher for matching a set of words separated by the word breaker with any one of words included in the standard word dictionary,
The word breaker,
When any one of the plurality of words included in the first term is a word that does not exist in the standard word dictionary, words not existing in the standard word dictionary are separated into phonological units, and an artificial intelligence based algorithm is used. Suggest a similar word based on a result of performing a similarity operation between the separated word and the standard word,
Words that do not exist in the standard word dictionary are registered in the standard word dictionary,
The term recommendation unit,
Using a plurality of standard words combined with standard terms included in the standard term dictionary, a similarity operation is performed by using an AI-based algorithm, and standard terms of a predetermined similarity or more are converted into standard terms of the first term. Recommended,
The standard domain dictionary includes a standard domain associated with a standard term, data type, domain name,
The word substitution portion,
Substituting the plurality of separated words with standard words in the standard word dictionary, and if the domain is listed in the domain dictionary, the recommended domain together,
The term determination unit,
In consideration of the recommended domain, determining a standard domain associated with the first standard term as a standard domain of the first standard term.
삭제delete 삭제delete 삭제delete 제1항에 있어서,
사용자 단말로 용어 표준화를 위한 입력 정보와 관련된 선택 항목을 제공하는 데이터 제공부; 및
상기 사용자 단말로부터 용어 표준화를 위한 입력 정보를 수신하는 사용자 입력 수신부를 더 포함하는, 용어 자동 추천 장치.
The method of claim 1,
A data providing unit providing selection items related to input information for term standardization to a user terminal; And
And a user input receiver for receiving input information for term standardization from the user terminal.
빅데이터 표준화를 위한 표준 용어 자동 추천 방법에 있어서,
표준화를 수행하기 위해 제1용어를 입력받는 단계;
표준화된 용어 데이터를 포함하는 데이터 베이스 및 표준 단어 사전, 표준 용어 사전 및 표준 도메인 사전을 포함하고 관리하는 표준 사전부를 이용하여, 표준화를 수행하기 위해 입력받은 상기 제1용어의 형태소를 분리하는 단계;
분리된 상기 제1 용어에 포함된 복수의 단어를 상기 표준 단어 사전에 포함된 표준 단어로 치환하는 단계;
치환된 상기 제 1용어에 포함된 복수의 단어를 조합하는 단계;
조합된 복수의 표준 단어를 이용하여, 상기 표준 용어 사전에 포함된 복수의 표준 용어 중 적어도 어느 하나를 상기 제1용어의 표준 용어로 추천하는 단계;
상기 추천된 표준 용어 중 어느 하나를 상기 제1용어의 제 1 표준 용어로 선택하는 단계; 및
상기 표준 도메인 사전에 포함된 복수의 표준 도메인 중 적어도 어느 하나를 추천된 상기 제1 표준 용어의 제 1표준 도메인으로 결정하는 단계,
를 포함하되,
상기 표준 단어로 치환하는 단계는,
형태소 분석 기법을 이용하여 상기 제1 용어를 복수의 단어로 분리하는 단계; 및
단어 분리기에서 분리된 복수의 단어의 집합을 상기 표준 단어 사전에 포함된 단어 중 어느 하나와 매칭하는 단계를 포함하고,
상기 복수의 단어로 분리하는 단계는,
상기 제1 용어에 포함된 복수의 단어 중 어느 하나가 상기 표준 단어 사전에 존재하지 않는 단어인 경우, 상기 표준 단어 사전에 존재하지 않는 단어를 음운 단위로 분리하고, 인공지능 기반의 알고리즘을 이용하여 분리된 상기 단어와 표준 단어와의 유사도 연산을 수행한 결과에 기초하여 유사 단어를 추천하고,
상기 표준 단어 사전에 존재하지 않는 단어는 상기 표준 단어 사전에 등재되고,
상기 표준 용어로 추천하는 단계는,
상기 표준 용어 사전에 포함된 표준 용어와 조합된 복수의 표준 단어들을 이용하여, 인공지능 기반의 알고리즘을 이용하여 유사도 연산을 수행하고, 미리 설정된 유사도 이상의 표준 용어를 상기 제1 용어의 표준 용어를 추천하되,
상기 표준 도메인 사전은 표준 용어, 데이터 타입, 도메인명과 연계한 표준 도메인을 포함하고,
상기 표준 단어로 치환하는 단계는,
상기 분리된 복수의 단어를 상기 표준 단어 사전 내의 표준 단어로 치환하고, 도메인 사전에 등재되어 있는 도메인에 해당하는 경우, 해당 도메인을 함께 추천하되,
상기 제 1표준 도메인으로 결정하는 단계는,
추천된 상기 도메인을 고려하여, 제1표준 용어와 연계된 표준 도메인을 제1표준 용어의 표준 도메인으로 결정하는 것인, 용어 자동 추천 방법.
In the standard term automatic recommendation method for big data standardization,
Receiving a first term to perform standardization;
Separating the morphemes of the inputted first terms for performing standardization, using a standard dictionary part including and managing a database including standardized term data and a standard word dictionary, a standard term dictionary and a standard domain dictionary;
Replacing a plurality of words included in the separated first term with standard words included in the standard word dictionary;
Combining a plurality of words included in the substituted first term;
Recommending at least one of the plurality of standard terms included in the standard term dictionary as the standard term of the first term using the combined plurality of standard words;
Selecting any one of the recommended standard terms as a first standard term of the first term; And
Determining at least one of a plurality of standard domains included in the standard domain dictionary as the first standard domain of the recommended first standard term,
Including,
Substituting the standard word,
Separating the first term into a plurality of words using a morphological analysis technique; And
Matching a set of words separated in a word breaker to any one of the words contained in the standard word dictionary,
Separating into the plurality of words,
When any one of the plurality of words included in the first term is a word that does not exist in the standard word dictionary, words not existing in the standard word dictionary are separated into phonological units, and an artificial intelligence based algorithm is used. Suggest a similar word based on a result of performing a similarity operation between the separated word and the standard word,
Words that do not exist in the standard word dictionary are registered in the standard word dictionary,
Recommend in the standard terminology,
Using a plurality of standard words combined with standard terms included in the standard term dictionary, a similarity operation is performed using an artificial intelligence-based algorithm, and the standard term of the first term is recommended for a standard term equal to or greater than a preset similarity. But
The standard domain dictionary includes a standard domain associated with a standard term, data type, domain name,
Substituting the standard word,
Substituting the plurality of separated words with standard words in the standard word dictionary, and if the domain is listed in the domain dictionary, the recommended domain together,
Determining the first standard domain,
Considering the recommended domain, determining a standard domain associated with the first standard term as the standard domain of the first standard term.
KR1020190088379A 2019-07-22 2019-07-22 Automatic terminology recommendation device and method for big data standardization KR102046640B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190088379A KR102046640B1 (en) 2019-07-22 2019-07-22 Automatic terminology recommendation device and method for big data standardization

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190088379A KR102046640B1 (en) 2019-07-22 2019-07-22 Automatic terminology recommendation device and method for big data standardization

Publications (1)

Publication Number Publication Date
KR102046640B1 true KR102046640B1 (en) 2019-12-02

Family

ID=68847648

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190088379A KR102046640B1 (en) 2019-07-22 2019-07-22 Automatic terminology recommendation device and method for big data standardization

Country Status (1)

Country Link
KR (1) KR102046640B1 (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102132142B1 (en) * 2020-03-24 2020-07-09 주식회사 데이터스트림즈 Method and apparatus for recommending vocabulary from data dictionary based on natural language processing technique
KR102153259B1 (en) * 2020-03-24 2020-09-08 주식회사 데이터스트림즈 Data domain recommendation method and method for constructing integrated data repository management system using recommended domain
KR20210086820A (en) * 2019-12-30 2021-07-09 주식회사 에비드넷 A method and apparatus for recommending standardized term based on the hieracy information
KR20220090333A (en) * 2020-12-22 2022-06-29 연세대학교 원주산학협력단 Apparatus and method for recommending common data model word
KR102483584B1 (en) 2021-12-03 2023-01-02 한국과학기술정보연구원 Method for managing data set using standard item names and apparatus implementing the same method
KR20230012751A (en) * 2021-07-16 2023-01-26 한양대학교 산학협력단 Medical standard terminology generator based on knowledge distillation from medical natural language
KR102513676B1 (en) * 2022-05-30 2023-03-24 한국과학기술정보연구원 System for analyzing data and method thereof
KR102615956B1 (en) 2023-09-04 2023-12-20 주식회사 위드퓨처 Metadata management system for data sharing between companies

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070098252A (en) * 2006-03-31 2007-10-05 엔에이치엔(주) System and method for providing automatically completed recommended word by correcting and displaying the word
KR20130097890A (en) * 2012-02-27 2013-09-04 조선대학교산학협력단 System and method for recommending alternative words for specific domain area
KR101975419B1 (en) * 2018-11-26 2019-05-07 (주)위세아이텍 Device and method for terminology clustering informal text data for big data analysis
KR20190066156A (en) * 2017-12-05 2019-06-13 (주)레드테이블 Bigdata and machine learning based smart travel chatting robot system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070098252A (en) * 2006-03-31 2007-10-05 엔에이치엔(주) System and method for providing automatically completed recommended word by correcting and displaying the word
KR20130097890A (en) * 2012-02-27 2013-09-04 조선대학교산학협력단 System and method for recommending alternative words for specific domain area
KR20190066156A (en) * 2017-12-05 2019-06-13 (주)레드테이블 Bigdata and machine learning based smart travel chatting robot system
KR101975419B1 (en) * 2018-11-26 2019-05-07 (주)위세아이텍 Device and method for terminology clustering informal text data for big data analysis

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
김평 외, 전문 용어 표준화 지원 시스템 개발, 한국콘텐츠학회 2009 춘계종합학술대회 논문집, pp.94-98 (2009.) 1부.* *
손연빈 외, 문서 중요도를 고려한 토픽 기반의 논문 교정자 매칭 방법론, 한국인터넷정보학회 논문지, V.19 No.4 pp.27-33 (2018) *
정홍석, 용어 추천 기능을 가진 온톨로지 편집기의 설게와 구현, 부산대학교 석사학위 논문 (2006) *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210086820A (en) * 2019-12-30 2021-07-09 주식회사 에비드넷 A method and apparatus for recommending standardized term based on the hieracy information
KR102479677B1 (en) * 2019-12-30 2022-12-22 주식회사 에비드넷 A method and apparatus for recommending standardized term based on the hieracy information
KR102132142B1 (en) * 2020-03-24 2020-07-09 주식회사 데이터스트림즈 Method and apparatus for recommending vocabulary from data dictionary based on natural language processing technique
KR102153259B1 (en) * 2020-03-24 2020-09-08 주식회사 데이터스트림즈 Data domain recommendation method and method for constructing integrated data repository management system using recommended domain
KR20220090333A (en) * 2020-12-22 2022-06-29 연세대학교 원주산학협력단 Apparatus and method for recommending common data model word
KR102568274B1 (en) 2020-12-22 2023-08-17 연세대학교 원주산학협력단 Apparatus and method for recommending common data model word
KR20230012751A (en) * 2021-07-16 2023-01-26 한양대학교 산학협력단 Medical standard terminology generator based on knowledge distillation from medical natural language
KR102581133B1 (en) 2021-07-16 2023-09-21 한양대학교 산학협력단 Medical standard terminology generator based on knowledge distillation from medical natural language
KR102483584B1 (en) 2021-12-03 2023-01-02 한국과학기술정보연구원 Method for managing data set using standard item names and apparatus implementing the same method
KR102513676B1 (en) * 2022-05-30 2023-03-24 한국과학기술정보연구원 System for analyzing data and method thereof
KR102615956B1 (en) 2023-09-04 2023-12-20 주식회사 위드퓨처 Metadata management system for data sharing between companies

Similar Documents

Publication Publication Date Title
KR102046640B1 (en) Automatic terminology recommendation device and method for big data standardization
CN108287858B (en) Semantic extraction method and device for natural language
CN111339421B (en) Information search method, device, equipment and storage medium based on cloud technology
US20230142217A1 (en) Model Training Method, Electronic Device, And Storage Medium
Nothman et al. Learning multilingual named entity recognition from Wikipedia
US20120303355A1 (en) Method and System for Text Message Normalization Based on Character Transformation and Web Data
US11222310B2 (en) Automatic tagging for online job listings
KR101864361B1 (en) Method and system for providing translated result
US20190392035A1 (en) Information object extraction using combination of classifiers analyzing local and non-local features
US20170177180A1 (en) Dynamic Highlighting of Text in Electronic Documents
JP2013502643A (en) Structured data translation apparatus, system and method
TWI588668B (en) Foreign language production support facilities and methods
Rizzo et al. Lessons learnt from the Named Entity rEcognition and Linking (NEEL) challenge series
US10963686B2 (en) Semantic normalization in document digitization
US20190303437A1 (en) Status reporting with natural language processing risk assessment
CN114692628A (en) Sample generation method, model training method, text extraction method and text extraction device
Kocich Multilingual Sentiment Mapping Using Twitter, Open Source Tools, and Dictionary Based Machine Translation Approach
RU2546064C1 (en) Distributed system and method of language translation
KR101916781B1 (en) Method and system for providing translated result
CN110888940A (en) Text information extraction method and device, computer equipment and storage medium
US11354502B2 (en) Automated constraint extraction and testing
Beheshti et al. Data curation apis
Domingo et al. Enriching character-based neural machine translation with modern documents for achieving an orthography consistency in historical documents
CN107220249A (en) Full-text search based on classification
Oudah et al. Studying the impact of language-independent and language-specific features on hybrid Arabic Person name recognition

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant