KR102410715B1 - Apparatus and method for analyzing sentiment of text data based on machine learning - Google Patents

Apparatus and method for analyzing sentiment of text data based on machine learning Download PDF

Info

Publication number
KR102410715B1
KR102410715B1 KR1020200149388A KR20200149388A KR102410715B1 KR 102410715 B1 KR102410715 B1 KR 102410715B1 KR 1020200149388 A KR1020200149388 A KR 1020200149388A KR 20200149388 A KR20200149388 A KR 20200149388A KR 102410715 B1 KR102410715 B1 KR 102410715B1
Authority
KR
South Korea
Prior art keywords
sentiment
corpus
classification model
training data
topic
Prior art date
Application number
KR1020200149388A
Other languages
Korean (ko)
Other versions
KR20220063483A (en
Inventor
배진
김재영
조창규
Original Assignee
주식회사 데이터캐스트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 데이터캐스트 filed Critical 주식회사 데이터캐스트
Priority to KR1020200149388A priority Critical patent/KR102410715B1/en
Publication of KR20220063483A publication Critical patent/KR20220063483A/en
Application granted granted Critical
Publication of KR102410715B1 publication Critical patent/KR102410715B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 문서에 개시되는 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치는 통신 회로, 메모리, 및 통신 회로 및 메모리와 전기적으로 연결된 프로세서를 포함하고, 프로세서는 통신 회로를 이용하여 하나 이상의 외부 문서로부터 수집된 말뭉치(corpus)와 함께 복수의 주제(topic) 중 수집된 말뭉치의 주제를 나타내는 주제 레이블 및 복수의 감성(sentiment) 중 수집된 말뭉치의 감성을 나타내는 감성 레이블을 학습 데이터 세트로서 획득하고, 획득된 학습 데이터 세트를 메모리에 저장하고, 복수의 주제 및 복수의 감성의 모든 조합 각각에 대하여 지정된 수 이상의 복수의 학습 데이터 세트를 지정된 언어 모델링 알고리즘에 입력함으로써 입력된 말뭉치에 대한 감성 정보를 출력하도록 구성되는 단일의 글로벌 감성 분류 모델을 획득하고, 분석 대상 말뭉치를 글로벌 감성 분류 모델에 입력함으로써 분석 대상 말뭉치에 대한 감성 정보를 제공할 수 있다.The apparatus for analyzing sentiment analysis of machine learning-based text data according to an embodiment disclosed in this document includes a communication circuit, a memory, and a processor electrically connected to the communication circuit and the memory, and the processor is one or more external using the communication circuit. A topic label indicating the topic of the corpus collected among a plurality of topics together with a corpus collected from the document and a sentiment label indicating the sentiment of the corpus collected among a plurality of sentiments are acquired as a training data set, and , storing the acquired learning data set in the memory, and outputting sentiment information for the input corpus by inputting a plurality of training data sets of at least a specified number for each of all combinations of a plurality of subjects and a plurality of emotions into a specified language modeling algorithm By acquiring a single global sentiment classification model configured to

Description

머신 러닝 기반의 텍스트 데이터의 감성 분석 장치 및 방법{APPARATUS AND METHOD FOR ANALYZING SENTIMENT OF TEXT DATA BASED ON MACHINE LEARNING}Apparatus and method for sentiment analysis of text data based on machine learning

본 문서에서 개시되는 실시 예들은 머신 러닝에 기반하여 텍스트 데이터로부터 소비자의 감성을 분석하는 장치 및 방법과 관련된다.Embodiments disclosed in this document relate to an apparatus and method for analyzing consumer sentiment from text data based on machine learning.

통신 기술의 발전에 따라 다양한 형태의 매체를 통해 다수의 사용자가 텍스트를 업로드할 수 있게 되었고, 그 텍스트의 양은 지속적으로 증가하고 있다. 따라서, SNS(social network service), 블로그 및 웹 사이트 등과 같은 텍스트가 포함된 다수의 웹 페이지를 분석하는 경우, 그 방대한 양의 정보를 이용하여 다양한 사용자의 관심사, 여론, 의견 및 감정 등을 파악할 수 있다. 상술한 텍스트는 분석을 통해 다양한 형태의 정보로 재가공될 수 있다.With the development of communication technology, a large number of users can upload text through various types of media, and the amount of text is continuously increasing. Therefore, when analyzing multiple web pages containing text, such as social network service (SNS), blogs, and websites, it is possible to understand the interests, public opinion, opinions and emotions of various users by using the vast amount of information. have. The above-described text may be reprocessed into various types of information through analysis.

특정 제품 및 서비스 등에 대한 사용자의 리뷰를 분석하면, 그 제품 및 서비스에 대한 사용자의 감성(sentiment)의 극성(예: 긍정 또는 부정)을 파악할 수 있다. 자연어 처리를 이용하여 고객 의견(VOC: voice of customer)을 분석하면, 대량의 고객 의견에 내포된 감성을 신속하고 효율적으로 정량화할 수 있다.By analyzing a user's review of a specific product or service, the polarity (eg, positive or negative) of the user's sentiment toward the product or service can be identified. Analyzing the voice of customer (VOC) using natural language processing can quickly and efficiently quantify the emotions embedded in a large number of customer opinions.

말뭉치(corpus)에 내재된 감성은 사전 데이터베이스 또는 인공 신경망에 기반하여 판단될 수 있다. 인공 신경망에 기반하여 감성을 분석하는 경우, 고객 의견이 포함된 말뭉치 및 해당 말뭉치에 내재된 감성을 나타내는 레이블(label)을 이용하여 머신 러닝을 수행할 수 있다. 머신 러닝을 수행할 때에는 정확한 결과 도출을 위해 특정 주제(topic)와 연관된 말뭉치가 이용될 수 있다. 예를 들어, 호텔과 연관된 고객 의견을 이용하여 머신 러닝을 수행할 수 있고, 머신 러닝에 의해 도출된 모델은 호텔과 연관된 고객 의견에 대해서만 우수한 성능을 제공할 수 있다. 즉, 미리 학습되지 않은 새로운 주제에 대해서는 정확한 감성 분석 결과가 제공될 수 없으므로, 새로운 주제가 나타날 때마다 다시 새로운 주제에 대응하는 대량의 학습 데이터를 수집하고 머신 러닝을 수행하여 새로운 주제에 대응하는 모델을 산출할 필요성이 있다.The emotion inherent in the corpus may be determined based on a dictionary database or an artificial neural network. When emotion is analyzed based on an artificial neural network, machine learning may be performed using a corpus including customer opinions and a label indicating the emotion inherent in the corpus. When performing machine learning, a corpus associated with a specific topic may be used to derive accurate results. For example, machine learning may be performed using customer opinions related to a hotel, and a model derived by machine learning may provide excellent performance only for customer opinions related to a hotel. In other words, since accurate sentiment analysis results cannot be provided for new topics that have not been trained in advance, whenever a new topic appears, a large amount of training data corresponding to the new topic is collected again and machine learning is performed to develop a model corresponding to the new topic. There is a need to calculate

본 발명의 실시 예들은, 미리 학습되지 않은 주제와 연관된 고객 의견에 대해 정확한 감성 분석 결과를 출력할 수 있는 분석 모델을 제공하기 위한 것이다.Embodiments of the present invention are to provide an analysis model capable of outputting an accurate sentiment analysis result for a customer opinion related to a topic that has not been learned in advance.

본 문서에 개시되는 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치는 통신 회로, 메모리, 및 통신 회로 및 메모리와 전기적으로 연결된 프로세서를 포함하고, 프로세서는 통신 회로를 이용하여 하나 이상의 외부 문서로부터 수집된 말뭉치(corpus)와 함께 복수의 주제(topic) 중 수집된 말뭉치의 주제를 나타내는 주제 레이블 및 복수의 감성(sentiment) 중 수집된 말뭉치의 감성을 나타내는 감성 레이블을 학습 데이터 세트로서 획득하고, 획득된 학습 데이터 세트를 메모리에 저장하고, 복수의 주제 및 복수의 감성의 모든 조합 각각에 대하여 지정된 수 이상의 복수의 학습 데이터 세트를 지정된 언어 모델링 알고리즘에 입력함으로써 입력된 말뭉치에 대한 감성 정보를 출력하도록 구성되는 단일의 글로벌 감성 분류 모델을 획득하고, 분석 대상 말뭉치를 글로벌 감성 분류 모델에 입력함으로써 분석 대상 말뭉치에 대한 감성 정보를 제공할 수 있다.The apparatus for analyzing sentiment analysis of machine learning-based text data according to an embodiment disclosed in this document includes a communication circuit, a memory, and a processor electrically connected to the communication circuit and the memory, and the processor is one or more external using the communication circuit. A topic label indicating the topic of the corpus collected among a plurality of topics together with a corpus collected from the document and a sentiment label indicating the sentiment of the corpus collected among a plurality of sentiments are acquired as a training data set, and , storing the acquired learning data set in the memory, and outputting sentiment information for the input corpus by inputting a plurality of training data sets of at least a specified number for each of all combinations of a plurality of subjects and a plurality of emotions into a specified language modeling algorithm By acquiring a single global sentiment classification model configured to

일 실시 예에 따르면, 프로세서는 복수의 학습 데이터 세트를 지정된 언어 모델링 알고리즘에 입력함으로써 입력된 말뭉치에 대한 주제 정보를 출력하도록 구성되는 주제 분류 모델을 획득하고, 복수의 학습 데이터 세트를 복수의 주제별로 분류하여 지정된 언어 모델링 알고리즘에 입력함으로써 입력된 말뭉치에 대한 감성 정보를 출력하도록 구성되고 복수의 주제 각각에 대응되는 복수의 로컬 감성 분류 모델을 획득하고, 분석 대상 말뭉치를 주제 분류 모델, 글로벌 감성 분류 모델 및 복수의 로컬 감성 분류 모델로부터 선택된 로컬 감성 분류 모델에 입력함으로써 분석 대상 말뭉치에 대한 감성 정보를 출력할 수 있다.According to an embodiment, the processor obtains a topic classification model configured to output topic information about an input corpus by inputting a plurality of training data sets into a specified language modeling algorithm, and divides the plurality of training data sets into a plurality of topics. It is configured to output sentiment information about the input corpus by classifying and inputting it into a designated language modeling algorithm, and obtains a plurality of local sentiment classification models corresponding to each of a plurality of subjects, and sets the analysis target corpus into a topic classification model and a global sentiment classification model. and by inputting the input to a local emotion classification model selected from a plurality of local emotion classification models, the emotion information on the analysis target corpus may be output.

일 실시 예에 따르면, 프로세서는 분석 대상 말뭉치를 주제 분류 모델에 입력함으로써 분석 대상 말뭉치와 복수의 주제 각각에 대한 유사도 정보를 획득하고, 유사도 정보에 기초하여 복수의 로컬 감성 분류 모델로부터 선택된 로컬 감성 분류 모델을 결정할 수 있다.According to an embodiment, the processor obtains similarity information for each of the analysis target corpus and the plurality of topics by inputting the analysis target corpus into the topic classification model, and classifies local emotions selected from a plurality of local sentiment classification models based on the similarity information model can be determined.

일 실시 예에 따르면, 프로세서는 글로벌 감성 분류 모델 및 선택된 로컬 감성 분류 모델 각각에 의해 출력된 분석 결과에 기초하여 분석 대상 말뭉치에 대한 감성 정보를 결정할 수 있다.According to an embodiment, the processor may determine sentiment information on the analysis target corpus based on analysis results output by each of the global sentiment classification model and the selected local sentiment classification model.

본 문서에 개시되는 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 방법은 하나 이상의 외부 문서로부터 수집된 말뭉치와 함께 복수의 주제 중 수집된 말뭉치의 주제를 나타내는 주제 레이블 및 복수의 감성 중 수집된 말뭉치의 감성을 나타내는 감성 레이블을 학습 데이터 세트로서 획득하는 단계, 획득된 학습 데이터 세트를 저장하는 단계, 복수의 주제 및 복수의 감성의 모든 조합 각각에 대하여 지정된 수 이상의 복수의 학습 데이터 세트를 지정된 언어 모델링 알고리즘에 입력함으로써 입력된 말뭉치에 대한 감성 정보를 출력하도록 구성되는 단일의 글로벌 감성 분류 모델을 획득하는 단계, 및 분석 대상 말뭉치를 글로벌 감성 분류 모델에 입력함으로써 분석 대상 말뭉치에 대한 감성 정보를 제공할 수 있다.In the method for analyzing emotion of text data based on machine learning according to an embodiment disclosed in this document, a subject label indicating the subject of the collected corpus among a plurality of subjects together with a corpus collected from one or more external documents and a plurality of emotions are collected Acquiring as a training data set a sentiment label representing the sentiment of the corpus, storing the acquired training data set, designating a plurality of training data sets greater than or equal to a specified number for each of a plurality of subjects and all combinations of a plurality of emotions Obtaining a single global sentiment classification model configured to output sentiment information for the input corpus by input to the language modeling algorithm, and inputting the analysis target corpus into the global sentiment classification model to provide sentiment information on the analysis target corpus can do.

본 문서에 개시되는 실시 예들에 따르면, 다양한 주제 및 감성 학습 데이터 세트를 고르게 이용하여 산출되는 글로벌 감성 분류 모델을 활용함으로써, 다양한 주제와 연관된 말뭉치에 대한 감성 정보를 정확하게 판단할 수 있다. According to the embodiments disclosed in this document, by using a global sentiment classification model calculated by evenly using various topics and emotional learning data sets, it is possible to accurately determine sentiment information on a corpus associated with various topics.

또한, 말뭉치의 주제를 판단하는 주제 분류 모델 및 말뭉치와 유사도가 높은 주제에 대응하는 로컬 감성 분류 모델을 글로벌 감성 분류 모델과 함께 활용함으로써, 새로운 주제에 대한 말뭉치의 감성 정보에 대한 판단의 정확성을 더 향상시킬 수 있다.In addition, by utilizing the topic classification model for judging the subject of the corpus and the local sentiment classification model corresponding to a topic with high similarity to the corpus together with the global sentiment classification model, the accuracy of judgment on the emotional information of the corpus for a new topic is further improved. can be improved

이 외에, 본 문서를 통해 직접적 또는 간접적으로 파악되는 다양한 효과들이 제공될 수 있다.In addition, various effects directly or indirectly identified through this document may be provided.

도 1은 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치의 동작 환경을 도시한다.
도 2는 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치의 구성을 도시하는 블록도이다.
도 3은 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치의 예시적인 동작을 설명하기 위한 도면이다.
도 4는 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치의 예시적인 동작을 설명하기 위한 도면이다.
도 5는 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치의 예시적인 동작을 설명하기 위한 도면이다.
도 6은 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치의 예시적인 동작을 설명하기 위한 도면이다.
도 7은 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치의 예시적인 동작을 설명하기 위한 도면이다.
도 8은 일 실시 예에 따른 도 3은 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 방법을 설명하기 위한 흐름도이다.
도면의 설명과 관련하여, 동일 또는 유사한 구성요소에 대해서는 동일 또는 유사한 참조 부호가 사용될 수 있다.
1 illustrates an operating environment of an apparatus for analyzing emotion of text data based on machine learning according to an embodiment.
2 is a block diagram illustrating a configuration of an apparatus for analyzing emotion of text data based on machine learning according to an embodiment.
3 is a diagram for explaining an exemplary operation of an apparatus for analyzing emotion of text data based on machine learning according to an embodiment.
4 is a diagram for explaining an exemplary operation of an apparatus for analyzing emotion of text data based on machine learning according to an embodiment.
5 is a diagram for explaining an exemplary operation of an apparatus for analyzing emotion of text data based on machine learning according to an embodiment.
6 is a diagram for explaining an exemplary operation of an apparatus for analyzing emotion of text data based on machine learning according to an embodiment.
7 is a diagram for explaining an exemplary operation of an apparatus for analyzing emotion of text data based on machine learning according to an embodiment.
FIG. 8 is a flowchart illustrating a method for analyzing sentiment of text data based on machine learning according to an embodiment of FIG. 3 .
In connection with the description of the drawings, the same or similar reference numerals may be used for the same or similar components.

이하, 본 발명의 일부 실시 예들을 예시적인 도면을 통해서 상세하게 설명한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 실시 예의 다양한 변경, 균등물 또는 대체물을 포함하는 것으로 이해되어야 한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시 예를 설명함에 있어 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시 예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다.Hereinafter, some embodiments of the present invention will be described in detail with reference to exemplary drawings. However, this is not intended to limit the present invention to specific embodiments, and it should be understood that various modifications, equivalents or substitutes of the embodiments of the present invention are included. In adding reference numerals to the components of each drawing, it should be noted that the same components are given the same reference numerals as much as possible even though they are indicated on different drawings. In addition, in describing the embodiment of the present invention, if it is determined that a detailed description of a related known configuration or function interferes with the understanding of the embodiment of the present invention, the detailed description thereof will be omitted.

도 1은 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치의 동작 환경을 도시한다.1 illustrates an operating environment of an apparatus for analyzing emotion of text data based on machine learning according to an embodiment.

도 1을 참조하면, 일 실시 예에 따른 텍스트 데이터의 감성 분석 장치는 서버(100) 형태로 구현될 수 있다. 서버(100)는 외부 장치(12)로부터 다양한 텍스트를 크롤링(crawling)할 수 있다. 서버(100)는 다양한 채널 또는 플랫폼으로부터 텍스트를 수집할 수 있다. 예를 들어, 서버(100)는 SNS(social network service), 블로그, 다양한 웹 사이트, 웹 페이지 및 웹 문서 등과 같은 외부 전자 문서로부터 말뭉치(corpus)를 수집할 수 있다. 서버(100)는 다양한 주제(topic)에 대한 고객 의견을 포함하는 말뭉치를 수집할 수 있다.Referring to FIG. 1 , an apparatus for analyzing sentiment of text data according to an embodiment may be implemented in the form of a server 100 . The server 100 may crawl various texts from the external device 12 . The server 100 may collect text from various channels or platforms. For example, the server 100 may collect a corpus from external electronic documents such as social network service (SNS), blogs, various web sites, web pages, and web documents. The server 100 may collect a corpus including customer opinions on various topics.

사용자 단말(11)은 서버(100)에 수집된 말뭉치에 말뭉치의 주제(topic)를 나타내는 주제 레이블 및 말뭉치에 내포된 감성(sentiment)을 나타내는 감성 레이블을 입력할 수 있다. 주제 레이블 및 감성 레이블은 사용자 단말(11)을 통한 사용자의 입력에 따라 부여될 수 있다. 예를 들어, “객실이 깨끗하고 편안합니다”라는 말뭉치가 수집된 경우, 사용자 단말(11)에 의해 주제 레이블 “호텔” 및 감성 레이블 “긍정”이 입력될 수 있다. 말뭉치, 말뭉치에 대응하는 주제 레이블 및 감성 레이블은 학습 데이터 세트로서 서버(100)에 저장될 수 있다.The user terminal 11 may input a topic label indicating a topic of the corpus and a sentiment label indicating a sentiment contained in the corpus into the corpus collected by the server 100 . The subject label and the sentiment label may be assigned according to a user's input through the user terminal 11 . For example, when the corpus of “the room is clean and comfortable” is collected, the subject label “hotel” and the emotion label “positive” may be input by the user terminal 11 . The corpus, the subject label corresponding to the corpus, and the sentiment label may be stored in the server 100 as a training data set.

서버(100)는 다수의 학습 데이터 세트를 저장할 수 있다. 서버(100)는 다수의 학습 데이터 세트를 주제별 그리고 감성별로 분류하고, 그 분류마다 지정된 수 이상의 학습 데이터 세트를 언어 모델링 알고리즘에 입력함으로써 머신 러닝을 수행할 수 있다. 다양한 주제 레이블 및 감성 레이블을 포함하는 학습 데이터 세트를 고르게 이용함으로써 모든 주제에 대응할 수 있는 하나의 글로벌 감성 분류 모델이 생성될 수 있다. 글로벌 감성 분류 모델과 함께 주제 분류 모델 및 다양한 주제 각각에 대응하는 복수의 로컬 감성 분류 모델이 생성될 수도 있다.The server 100 may store a plurality of training data sets. The server 100 may perform machine learning by classifying a plurality of learning data sets by subject and emotion, and inputting more than a specified number of learning data sets for each classification into a language modeling algorithm. By evenly using a training data set including various topic labels and sentiment labels, a single global sentiment classification model that can respond to all topics can be generated. A topic classification model and a plurality of local sentiment classification models corresponding to each of various topics may be generated together with the global sentiment classification model.

상술한 모델이 생성되면, 서버(100)는 분석 대상 말뭉치를 수신하고, 수신된 분석 대상 말뭉치를 모델에 입력함으로써 분석 대상 말뭉치에 대한 감성 정보를 출력할 수 있다. 분석 대상 말뭉치가 미리 학습된 주제에 직접 대응하지 않더라도, 다양한 주제에 대한 학습이 이루어져 있으므로 정확한 분석 결과가 도출될 수 있다.When the above-described model is generated, the server 100 may receive the analysis target corpus, and may output emotional information on the analysis target corpus by inputting the received analysis target corpus into the model. Even if the analysis target corpus does not directly correspond to the pre-learned topic, accurate analysis results can be derived because learning on various topics is made.

도 1에서는 서버(100)와 사용자 단말(11)이 분리된 것으로 도시되었으나, 이에 제한되지 않고, 하나의 컴퓨팅 디바이스로 통합되어 구현될 수도 있다. 또한, 도 1에서는 서버(100) 및 사용자 단말(11)이 각각 하나의 디바이스인 것으로 도시되었으나, 이에 제한되지 않고, 서버(100) 및 사용자 단말(11)은 각각 2 이상의 컴퓨팅 디바이스로 분리되어 구현될 수도 있다.Although the server 100 and the user terminal 11 are illustrated as being separated in FIG. 1 , the present invention is not limited thereto, and may be integrated into one computing device. In addition, in FIG. 1 , the server 100 and the user terminal 11 are each shown as one device, but the present invention is not limited thereto, and the server 100 and the user terminal 11 are implemented separately as two or more computing devices, respectively. it might be

또한, 도 1을 참조하여 설명된 서버(100)에 의해 수행되는 동작 중 적어도 일부는 사용자 단말(11)에 의해 수행될 수도 있다. 예를 들어, 외부 문서로부터 말뭉치를 수집하는 동작, 학습 데이터 세트를 저장하는 동작, 머신 러닝을 수행하여 모델을 생성하는 동작, 및 생성된 모델을 이용하여 분석 대상 말뭉치에 대한 감성 정보를 출력하는 동작 등은 사용자 단말(11)에 의해 수행될 수도 있다.In addition, at least some of the operations performed by the server 100 described with reference to FIG. 1 may be performed by the user terminal 11 . For example, an operation of collecting a corpus from an external document, an operation of storing a training data set, an operation of performing machine learning to generate a model, and an operation of outputting sentiment information on the corpus to be analyzed using the generated model etc. may be performed by the user terminal 11 .

도 2는 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치(200)의 구성을 도시하는 블록도이다.2 is a block diagram illustrating a configuration of an apparatus 200 for analyzing machine learning-based text data according to an embodiment.

도 2를 참조하면, 일 실시 예에 따른 텍스트 데이터의 감성 분석 장치(200)는 통신 회로(210), 메모리(220) 및 프로세서(230)를 포함할 수 있다. 텍스트 데이터의 감성 분석 장치(200)는 서버의 형태로 구현될 수도 있고, 사용자 단말(21)의 형태로 구현될 수도 있다. 텍스트 데이터의 감성 분석 장치(200)가 사용자 단말(21)의 형태로 구현된 경우, 도 2에 도시된 사용자 단말(21)의 기능은 텍스트 데이터의 감성 분석 장치(200)에 의해 수행될 수 있다.Referring to FIG. 2 , the apparatus 200 for analyzing text data according to an embodiment may include a communication circuit 210 , a memory 220 , and a processor 230 . The sentiment analysis apparatus 200 for text data may be implemented in the form of a server or may be implemented in the form of a user terminal 21 . When the sentiment analysis apparatus 200 of text data is implemented in the form of the user terminal 21, the function of the user terminal 21 shown in FIG. 2 may be performed by the sentiment analysis apparatus 200 of text data. .

통신 회로(210)는 사용자 단말(21) 및 외부 서버(22)와 무선 또는 유선으로 통신할 수 있다. 통신 회로(210)는 사용자 단말(21) 및 외부 서버(22)와 데이터를 송수신할 수 있다.The communication circuit 210 may communicate with the user terminal 21 and the external server 22 wirelessly or by wire. The communication circuit 210 may transmit/receive data to and from the user terminal 21 and the external server 22 .

메모리(220)는 휘발성 메모리 및/또는 비휘발성 메모리를 포함할 수 있다. 메모리(220)는 텍스트 데이터의 감성 분석 장치(200)에서 취급되는 다양한 데이터를 저장할 수 있다. 예를 들어, 메모리(220)는 텍스트 데이터의 감성 분석 장치(200) 내부에서 처리된 데이터를 저장할 수 있고, 사용자 단말(21) 및 외부 서버(22)로부터 수신된 데이터를 저장할 수도 있다.Memory 220 may include volatile memory and/or non-volatile memory. The memory 220 may store various data handled by the sentiment analysis apparatus 200 of text data. For example, the memory 220 may store data processed inside the sentiment analysis apparatus 200 of text data, and may store data received from the user terminal 21 and the external server 22 .

프로세서(230)는 통신 회로(210) 및 메모리(220)와 전기적으로 연결될 수 있다. 프로세서(230)는 통신 회로(210) 및 메모리(220)를 제어할 수 있고, 다양한 데이터 처리 및 연산을 수행할 수 있다. 도 2에서는 프로세서(230)가 단일의 구성인 것으로 도시되었으나, 복수의 구성으로 분리되어 구현될 수도 있다. 프로세서(230)는 메모리(220)에 저장된 소프트웨어 내지 인스트럭션을 실행함으로써, 이하와 같은 동작을 수행할 수 있다.The processor 230 may be electrically connected to the communication circuit 210 and the memory 220 . The processor 230 may control the communication circuit 210 and the memory 220 , and may perform various data processing and operations. Although the processor 230 is illustrated as a single configuration in FIG. 2 , it may be implemented as a plurality of separate components. The processor 230 may perform the following operations by executing software or instructions stored in the memory 220 .

일 실시 예에 따르면, 프로세서(230)는 통신 회로(210)를 이용하여 하나 이상의 외부 문서로부터 말뭉치(corpus)를 수집할 수 있다. 예를 들어, 프로세서(230)는 다양한 웹 사이트, 웹 페이지 및 웹 문서 등과 같은 외부 전자 문서로부터 다양한 상품 또는 서비스에 대한 리뷰, 후기 또는 평가 등을 포함하는 말뭉치를 수집할 수 있다. 다른 예를 들면, 말뭉치는 사용자 단말(21)에 의해 수집될 수도 있다.According to an embodiment, the processor 230 may collect a corpus from one or more external documents using the communication circuit 210 . For example, the processor 230 may collect a corpus including reviews, reviews, or evaluations of various products or services from external electronic documents such as various web sites, web pages, and web documents. As another example, the corpus may be collected by the user terminal 21 .

일 실시 예에 따르면, 프로세서(230)는 수집된 말뭉치 각각에 대한 주제 레이블 및 감성 레이블을 수신할 수 있다. 주제 레이블은 다양한 주제 중 수집된 말뭉치의 주제를 나타낼 수 있다. 주제는 말뭉치와 연관된 서비스(예: 숙박, 레스토랑, 카페, 영화, 의료, 교육, 금융, 우편/배달, 관광 또는 사후 관리 등의 부가 서비스 등) 또는 제품(예: 의류, 신발, 식품, 전자제품, 가구, 게임, 소프트웨어, 모바일 어플리케이션, 자동차 또는 부동산 등)을 포함할 수 있다. 주제 레이블의 값은 말뭉치의 주제를 직접 나타내는 문자(예: 숙박, 레스토랑, 의류 또는 신발 등)일 수도 있고, 말뭉치의 주제에 대응하는 코드(예: a, b, 0 또는 1 등)일 수도 있다. 감성 레이블은 감성 레이블은 다양한 감성 중 수집된 말뭉치의 감성을 나타낼 수 있다. 감성은 긍정 및 부정(또는 긍정/중립/부정)을 포함할 수 있다. 감성 레이블의 값은 0(예: 부정) 또는 1(예: 긍정)(또는 -1(부정), 0(중립) 또는 1(긍정))일 수도 있고, 부정 또는 긍정(또는 부정, 중립 또는 긍정)일 수도 있다. 사용자 단말(21)은 사용자로부터 특정 말뭉치(예: 객실이 깨끗하고 편안합니다.)에 대한 주제 레이블(예: 호텔) 및 감성 레이블(예: 1)의 입력을 수신할 수 있다. 프로세서(230)는 통신 회로(210)를 이용하여 사용자 단말(21)로부터 입력된 주제 레이블 및 감성 레이블을 수신할 수 있고, 해당 말뭉치, 주제 레이블 및 감성 레이블을 학습 데이터 세트로서 획득할 수 있다.According to an embodiment, the processor 230 may receive a subject label and a sentiment label for each of the collected corpus. The subject label may indicate the subject of the collected corpus among various subjects. Subjects are corpora-related services (e.g., accommodation, restaurants, cafes, movies, healthcare, education, finance, postal/delivery, tourism or follow-up services, etc.) or products (e.g., clothing, footwear, food, electronics). , furniture, games, software, mobile applications, automobiles, real estate, etc.). The value of the subject label may be a character that directly represents the subject of the corpus (e.g., accommodation, restaurant, clothing, or shoes, etc.), or it may be a code corresponding to the subject of the corpus (e.g. a, b, 0, or 1, etc.) . The emotion label may represent the emotion of the collected corpus among various emotions. Sentiment may include positive and negative (or positive/neutral/negative). A sentiment label can have a value of 0 (eg negative) or 1 (eg positive) (or -1 (negative), 0 (neutral), or 1 (positive)), and can be negative or positive (or negative, neutral, or positive). ) may be The user terminal 21 may receive an input of a subject label (eg, hotel) and a sentiment label (eg, 1) for a specific corpus (eg, the room is clean and comfortable) from the user. The processor 230 may receive the subject label and the sentiment label input from the user terminal 21 using the communication circuit 210 , and obtain the corresponding corpus, the subject label, and the sentiment label as a training data set.

일 실시 예에 따르면, 프로세서(230)는 획득된 학습 데이터 세트를 메모리(220)에 저장할 수 있다. 프로세서(230)는 메모리(220)에 저장된 학습 데이터 세트를 머신 러닝에 활용할 수 있다.According to an embodiment, the processor 230 may store the acquired training data set in the memory 220 . The processor 230 may utilize the training data set stored in the memory 220 for machine learning.

일 실시 예에 따르면, 프로세서(230)는 학습 데이터 세트를 지정된 언어 모델링 알고리즘에 입력함으로써 머신 러닝을 수행할 수 있다. 프로세서(230)는 복수의 주제 및 복수의 감성의 모든 조합 각각에 대하여 지정된 수 이상의 복수의 학습 데이터 세트를 확보할 수 있다. 예를 들어, 주제 호텔 및 의류, 감성 긍정 및 부정을 포함하는 학습 데이터 세트가 존재하는 경우, 주어진 주제 및 감성에 대한 모든 조합에 대응하기 위해, 주제 호텔 및 감성 긍정에 대응하는 n개 이상의 학습 데이터 세트, 주제 호텔 및 감성 부정에 대응하는 n개 이상의 학습 데이터 세트, 주제 의류 및 감성 긍정에 대응하는 n개 이상의 학습 데이터 세트, 및 주제 의류 및 감성 부정에 대응하는 n개 이상의 학습 데이터 세트가 확보될 수 있다. 프로세서(230)는 주제 레이블 및 감성 레이블을 이용하여 모든 조합에 대해 골고루 혼합된 학습 데이터 세트를 확보할 수 있다. 프로세서(230)는 확보된 학습 데이터 세트를 언어 모델링 알고리즘에 입력할 수 있다. 언어 모델링 알고리즘은, 예를 들어, BERT, KoBERT, GPT-3, Big Bird, ELMO 또는 ULMFit 등과 같은 오픈 소스 알고리즘 중 하나로 선택될 수 있다. 학습 데이터 세트의 구성에 대해서는 도 3을 참조하여 상세히 설명한다.According to an embodiment, the processor 230 may perform machine learning by inputting a training data set to a specified language modeling algorithm. The processor 230 may secure a plurality of training data sets greater than or equal to a specified number for each of all combinations of a plurality of subjects and a plurality of emotions. For example, if there is a training data set including the subject hotel and clothing, and sentiment positive and negative, in order to correspond to all combinations for a given topic and emotion, n or more training data corresponding to the subject hotel and sentiment positive set, n or more training data sets corresponding to the subject hotel and emotional negative, n or more training data sets corresponding to the subject clothing and emotional positive, and n or more training data sets corresponding to the subject clothing and emotional negative are obtained. can The processor 230 may secure a uniformly mixed training data set for all combinations by using the subject label and the sentiment label. The processor 230 may input the secured training data set to the language modeling algorithm. The language modeling algorithm may be selected, for example, from one of open source algorithms such as BERT, KoBERT, GPT-3, Big Bird, ELMO or ULMFit. The configuration of the training data set will be described in detail with reference to FIG. 3 .

일 실시 예에 따르면, 프로세서(230)는 상술한 머신 러닝을 통해 단일의 글로벌 감성 분류 모델을 획득할 수 있다. 프로세서(230)는 학습 데이터 세트에 포함된 말뭉치 및 감성 레이블을 이용하여 머신 러닝을 수행하고, 입력된 말뭉치에 대한 감성 정보를 출력하도록 구성되는 글로벌 감성 분류 모델을 획득할 수 있다. 입력된 말뭉치는 임의의 주제와 연관될 수 있다. 복수의 주제 및 복수의 감성의 모든 조합 각각에 대하여 혼합된 충분한 양의 학습 데이터 세트를 입력하므로, 하나의 글로벌 감성 분류 모델로 모든 주제에 대응할 수 있다. 특히, 글로벌 감성 모델은 미리 학습되지 않은 주제에 대해서도 신뢰도 높은 감성 정보를 출력할 수 있다. 글로벌 감성 분류 모델의 생성에 대해서는 도 4를 참조하여 상세히 설명한다.According to an embodiment, the processor 230 may acquire a single global sentiment classification model through the above-described machine learning. The processor 230 may obtain a global sentiment classification model configured to perform machine learning using the corpus and sentiment labels included in the training data set, and output sentiment information on the input corpus. The input corpus may be associated with any subject. Since a sufficient amount of mixed training data sets are input for each of the plurality of topics and all combinations of the plurality of emotions, it is possible to respond to all topics with one global sentiment classification model. In particular, the global emotional model can output highly reliable emotional information even on subjects that have not been learned in advance. The generation of the global sentiment classification model will be described in detail with reference to FIG. 4 .

일 실시 예에 따르면, 프로세서(230)는 복수의 학습 데이터 세트를 지정된 언어 모델링 알고리즘에 입력함으로써 주제 분류 모델을 획득할 수 있다. 프로세서(230)는 학습 데이터 세트에 포함된 말뭉치 및 주제 레이블을 이용하여 머신 러닝을 수행하고, 입력된 말뭉치에 대한 주제 정보를 출력하도록 구성되는 주제 분류 모델을 획득할 수 있다. 주제 분류 모델의 생성에 대해서는 도 4를 참조하여 상세히 설명한다.According to an embodiment, the processor 230 may acquire a topic classification model by inputting a plurality of training data sets to a designated language modeling algorithm. The processor 230 may perform machine learning by using the corpus and topic labels included in the training data set, and obtain a topic classification model configured to output topic information about the input corpus. The generation of the topic classification model will be described in detail with reference to FIG. 4 .

일 실시 예에 따르면, 프로세서(230)는 복수의 학습 데이터 세트를 복수의 주제별로 분류하여 지정된 언어 모델링 알고리즘에 입력함으로써 복수의 주제 각각에 대응되는 복수의 로컬 감성 분류 모델을 획득할 수 있다. 프로세서(230)는 특정 주제에 대응하는 학습 데이터 세트에 포함된 말뭉치 및 감성 레이블을 이용하여 머신 러닝을 수행하고, 특정 주제에 대응하는 입력된 말뭉치에 대한 감성 정보를 출력하도록 구성되는 로컬 감성 분류 모델을 획득할 수 있다. 예를 들어, 호텔 및 의류에 대한 학습 데이터 세트가 구비된 경우, 주제 호텔에 대한 로컬 감성 분류 모델 및 주제 의류에 대한 로컬 감성 분류 모델이 획득될 수 있다. 로컬 감성 분류 모델의 생성에 대해서는 도 4를 참조하여 상세히 설명한다.According to an embodiment, the processor 230 may obtain a plurality of local sentiment classification models corresponding to each of the plurality of topics by classifying the plurality of learning data sets according to a plurality of topics and inputting them into a designated language modeling algorithm. The processor 230 performs machine learning using the corpus and sentiment labels included in the training data set corresponding to the specific topic, and the local sentiment classification model is configured to output sentiment information on the input corpus corresponding to the specific topic. can be obtained. For example, when a training data set for a hotel and clothing is provided, a local emotional classification model for the subject hotel and a local emotional classification model for the subject clothing may be obtained. The generation of the local sentiment classification model will be described in detail with reference to FIG. 4 .

일 실시 예에 따르면, 프로세서(230)는 분석 대상 말뭉치를 글로벌 감성 분류 모델에 입력함으로써 분석 대상 말뭉치에 대한 감성 정보를 제공할 수 있다. 분석 대상 말뭉치는 텍스트로 이루어진 고객 의견을 포함할 수 있다. 프로세서(230)는 임의의 주제와 연관된 분석 대상 말뭉치를 글로벌 감성 분류 모델에 입력함으로써 분석 대상 말뭉치에 대한 감성 정보를 산출할 수 있다. 다양한 주제 및 감성에 대하여 골고루 혼합된 충분한 학습이 이루어져 있으므로, 미리 학습된 또는 미리 학습되지 않은 임의의 주제와 연관된 말뭉치에 대한 감성 정보가 하나의 글로벌 감성 분류 모델에 의해 정확하게 제공될 수 있다. 글로벌 감성 분류 모델을 이용한 감성 정보의 출력에 대해서는 도 5를 참조하여 상세히 설명한다.According to an embodiment, the processor 230 may provide sentiment information on the analysis target corpus by inputting the analysis target corpus into the global sentiment classification model. The corpus to be analyzed may include textual customer comments. The processor 230 may calculate sentiment information on the analysis target corpus by inputting the analysis target corpus associated with a certain subject into the global sentiment classification model. Since sufficient learning is evenly mixed with respect to various subjects and emotions, sentiment information on a corpus associated with a pre-learned or non-pre-learned arbitrary topic can be accurately provided by a single global sentiment classification model. The output of emotion information using the global emotion classification model will be described in detail with reference to FIG. 5 .

일 실시 예에 따르면, 정확성의 향상을 위해, 프로세서(230)는 분석 대상 말뭉치를 주제 분류 모델, 글로벌 감성 분류 모델 및 복수의 로컬 감성 분류 모델로부터 선택된 로컬 감성 분류 모델에 입력함으로써 분석 대상 말뭉치에 대한 감성 정보를 출력할 수도 있다.According to an embodiment, in order to improve accuracy, the processor 230 inputs the analysis target corpus into a local sentiment classification model selected from a topic classification model, a global sentiment classification model, and a plurality of local sentiment classification models, thereby It is also possible to output emotional information.

예를 들어, 프로세서(230)는 분석 대상 말뭉치를 주제 분류 모델에 입력함으로써 분석 대상 말뭉치와 복수의 주제 각각에 대한 유사도 정보를 획득할 수 있다. 주제 분류 모델을 이용한 유사도 산출에 대해서는 도 6을 참조하여 상세히 설명한다. 프로세서(230)는 유사도 정보에 기초하여 복수의 로컬 감성 분류 모델 중 분석 대상 말뭉치와 유사도가 높은 하나 이상의 주제에 각각 대응하는 하나 이상의 로컬 감성 분류 모델을 결정할 수 있다. 프로세서(230)는 글로벌 감성 분류 모델 및 선택된 로컬 감성 분류 모델 각각에 의해 출력된 분석 결과에 기초하여 분석 대상 말뭉치에 대한 감성 정보를 결정할 수 있다. 프로세서(230)는 글로벌 감성 분류 모델에 의한 분석 결과와 선택된 로컬 감성 분류 모델에 의한 분석 결과를 적절히 결합하여 최종 결과물을 산출할 수 있다.For example, the processor 230 may obtain the analysis target corpus and similarity information for each of the plurality of subjects by inputting the analysis target corpus into the topic classification model. The similarity calculation using the topic classification model will be described in detail with reference to FIG. 6 . The processor 230 may determine one or more local emotion classification models respectively corresponding to one or more subjects having a high similarity to an analysis target corpus from among a plurality of local emotion classification models based on the similarity information. The processor 230 may determine sentiment information on the analysis target corpus based on the analysis results output by each of the global sentiment classification model and the selected local sentiment classification model. The processor 230 may calculate a final result by appropriately combining the analysis result by the global sentiment classification model and the analysis result by the selected local sentiment classification model.

예를 들어, 분석 대상 말뭉치와 유사한 주제에 대응하는 2개의 로컬 감성 분류 모델이 선택된 경우, 프로세서(230)는 글로벌 감성 분류 모델에 의한 감성 분석 결과가 “긍정”이고, 제1 로컬 감성 분류 모델에 의한 감성 분석 결과가 “긍정”이고, 제2 로컬 감성 분류 모델에 의한 감성 분석 결과가 “부정”인 경우, 다수의 모델(글로벌 감성 분류 모델 및 제1 로컬 감성 분류 모델)에 의해 도출된 결과인 감성 정보 “긍정”을 최종 결과물로서 제공할 수 있다. 다른 예를 들면, 분석 대상 말뭉치와 유사한 주제에 대응하는 3개의 로컬 감성 분류 모델이 선택된 경우, 2개의 모델에 의해 분석 결과 “긍정”이 도출되고 다른 2개의 모델에 의해 분석 결과 “부정”이 도출되면, 사용된 감성 분류 모델 중 주제 유사도가 지정된 값보다 높은 모델의 분석 결과를 최종 결과물로서 제공할 수 있다. 또 다른 예를 들면, 주제 유사도(또는 주제 유사도 사이의 차이)가 지정된 값보다 작은 경우에는 글로벌 감성 분류 모델의 분석 결과를 최종 결과물로서 제공할 수 있다.For example, if two local emotion classification models corresponding to a subject similar to the analysis target corpus are selected, the processor 230 determines that the emotion analysis result by the global emotion classification model is “positive”, and returns to the first local emotion classification model. When the emotion analysis result is “positive” and the emotion analysis result by the second local emotion classification model is “negative”, Emotional information “positive” can be provided as the final result. As another example, when three local sentiment classification models corresponding to subjects similar to the analysis target corpus are selected, “positive” is derived as an analysis result by two models and “negative” is derived as an analysis result by the other two models In this case, the analysis result of a model having a subject similarity higher than a specified value among the used sentiment classification models can be provided as a final result. As another example, when the subject similarity (or the difference between the subject similarities) is smaller than a specified value, the analysis result of the global sentiment classification model may be provided as a final result.

도 3은 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치의 예시적인 동작을 설명하기 위한 도면이다.3 is a diagram for explaining an exemplary operation of an apparatus for analyzing emotion of text data based on machine learning according to an embodiment.

도 3을 참조하면, 일 실시 예에 따른 감성 분석 장치는 다수의 학습 데이터 세트를 수집할 수 있다. 학습 데이터 세트는 호텔, 레스토랑 및 의류 등의 주제에 대응할 수 있고, 긍정 및 부정 등의 감성에 대응할 수 있다. 학습 데이터 세트는 말뭉치, 주제 레이블 및 감성 레이블을 포함할 수 있다.Referring to FIG. 3 , the emotion analysis apparatus according to an embodiment may collect a plurality of learning data sets. The training data set may correspond to subjects such as hotels, restaurants, and clothing, and may correspond to emotions such as positive and negative. The training data set may include a corpus, subject labels, and sentiment labels.

감성 분석 장치는 말뭉치 1 내지 말뭉치 12를 포함하는 다수의 말뭉치를 수집할 수 있다. 말뭉치 각각에 대한 사용자의 입력에 의해 주제 레이블 및 감성 레이블이 생성될 수 있다. 예를 들어, “객실이 지저분하고 냄새가 납니다.”라는 말뭉치 1에 대해, 주제 레이블 “호텔” 및 감성 레이블 “0”이 입력되어 저장될 수 있다.The sentiment analysis apparatus may collect a plurality of corpora including corpus 1 to corpus 12. A subject label and a sentiment label may be generated by a user's input for each corpus. For example, for corpus 1 "The room is dirty and smelly", the subject label "Hotel" and the sentiment label "0" may be entered and stored.

감성 분석 장치는 수집된 말뭉치에 대응하는 주제 및 감성의 모든 조합 각각에 대해 지정된 수 이상의 학습 데이터 세트를 확보할 수 있다. 예를 들어, 주제 레이블 “호텔” 및 감성 레이블 “0”을 포함하는 n개 이상의 학습 데이터 세트(310), 주제 레이블 “호텔” 및 감성 레이블 “1”을 포함하는 n개 이상의 학습 데이터 세트(320), 주제 레이블 “레스토랑” 및 감성 레이블 “0”을 포함하는 n개 이상의 학습 데이터 세트(330), 주제 레이블 “레스토랑” 및 감성 레이블 “1”을 포함하는 n개 이상의 학습 데이터 세트(340), 주제 레이블 “의류” 및 감성 레이블 “0”을 포함하는 n개 이상의 학습 데이터 세트(350), 주제 레이블 “의류” 및 감성 레이블 “1”을 포함하는 n개 이상의 학습 데이터 세트(360)가 확보될 수 있다. 도 3에서는 학습 데이터 세트의 수가 n개 이상인 것으로 도시되었으나, 이에 제한되지 않고, 지정된 학습 데이터 세트의 수는 조합마다 상이하게 설정될 수도 있다.The sentiment analysis apparatus may secure a specified number of training data sets or more for each of all combinations of subjects and emotions corresponding to the collected corpus. For example, n or more training data sets 310 including the topic label “Hotel” and the sentiment label “0”, and n or more training datasets 310 including the topic label “Hotel” and the sentiment label “1” (320). ), n or more training datasets 330 including the topic label “Restaurant” and the sentiment label “0”, n or more training datasets 340 including the topic label “Restaurant” and the sentiment label “1”; At least n training datasets 350 including the topic label “Clothing” and the sentiment label “0”, and n or more training datasets 360 including the topic label “Clothing” and the sentiment label “1” will be obtained. can Although the number of training data sets is illustrated as n or more in FIG. 3 , the present invention is not limited thereto, and the number of designated training data sets may be set differently for each combination.

다수의 말뭉치를 입력된 주제 레이블 및 감성 레이블에 따라 분류하고, 분류된 주제 및 감성의 모든 조합 각각에 대해 골고루 혼합된 충분한 학습 데이터 세트를 확보함으로써, 머신 러닝을 통해 다양한 주제, 특히, 미리 학습되지 않은 주제에 대해서도 대응 가능한 단일의 글로벌 감성 분류 모델이 산출될 수 있다.By classifying a large number of corpora according to the input topic labels and sentiment labels, and obtaining a sufficiently mixed training data set for each of all combinations of classified topics and sentiments, various topics, in particular, not pre-trained through machine learning A single global sentiment classification model that can respond to a topic that is not yet available can be calculated.

도 4는 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치의 예시적인 동작을 설명하기 위한 도면이다.4 is a diagram for explaining an exemplary operation of an apparatus for analyzing emotion of text data based on machine learning according to an embodiment.

도 4를 참조하면, 일 실시 예에 따른 감성 분석 장치는 학습 데이터 세트(410)를 확보할 수 있다. 감성 분석 장치는 학습 데이터 세트(410)를 언어 모델링 알고리즘(420)에 입력함으로써 판단 모델(430)을 획득할 수 있다.Referring to FIG. 4 , the emotion analysis apparatus according to an embodiment may secure a learning data set 410 . The sentiment analysis apparatus may acquire the judgment model 430 by inputting the training data set 410 into the language modeling algorithm 420 .

판단 모델(430)은 주제 분류 모델(431), 글로벌 감성 분류 모델(432), 제1 로컬 감성 분류 모델(433), 제2 로컬 감성 분류 모델(434) 및 제3 로컬 감성 분류 모델(435)을 포함할 수 있다. 도 4에서는 3개의 로컬 감성 분류 모델이 획득되는 것으로 도시되었으나, 이에 제한되지 않고, 학습 데이터 세트(410)에 포함된 주제의 수에 대응하는 로컬 감성 분류 모델이 생성될 수 있다. 또한, 도 4에서는 판단 모델(430)이 주제 분류 모델(431) 및 로컬 감성 분류 모델(433, 434, 435)을 포함하는 것으로 도시되었으나, 주제 분류 모델(431) 및 로컬 감성 분류 모델(433, 434, 435)은 선택적 구성에 해당하는 것으로, 판단 모델(430)은 하나의 글로벌 감성 분류 모델(432)로 구현될 수도 있다.The judgment model 430 includes a topic classification model 431 , a global sentiment classification model 432 , a first local sentiment classification model 433 , a second local sentiment classification model 434 , and a third local sentiment classification model 435 . may include Although it is illustrated that three local sentiment classification models are obtained in FIG. 4 , the present invention is not limited thereto, and local sentiment classification models corresponding to the number of topics included in the training data set 410 may be generated. 4, the judgment model 430 is shown to include a topic classification model 431 and local sentiment classification models 433, 434, and 435, but a topic classification model 431 and a local sentiment classification model 433, 434 and 435 correspond to optional components, and the decision model 430 may be implemented as a single global sentiment classification model 432 .

주제 분류 모델(431)은 학습 데이터 세트(410) 중 말뭉치 및 주제 레이블을 포함하는 제1 데이터 세트(411)의 학습에 의해 도출될 수 있다. 글로벌 감성 분류 모델(432)은 주제 및 감성의 모든 조합 각각에 대해 학습 데이터 세트(410)의 수가 충분히 확보되면 말뭉치 및 감성 레이블을 포함하는 제2 데이터 세트(412)의 학습에 의해 도출될 수 있다. 제1 로컬 감성 분류 모델(433)은 주제 호텔에 대응하는 제3 데이터 세트(413)의 학습에 의해 도출될 수 있다. 제2 로컬 감성 분류 모델(434)은 주제 레스토랑에 대응하는 제4 데이터 세트(414)의 학습에 의해 도출될 수 있다. 제3 로컬 감성 분류 모델(435)은 주제 의류에 대응하는 제5 데이터 세트(415)의 학습에 의해 도출될 수 있다.The topic classification model 431 may be derived by learning the first data set 411 including the corpus and the topic label among the training data sets 410 . The global sentiment classification model 432 can be derived by learning the second data set 412 including the corpus and sentiment labels when the number of training data sets 410 is sufficiently secured for each of all combinations of subject and sentiment. . The first local sentiment classification model 433 may be derived by learning the third data set 413 corresponding to the subject hotel. The second local sentiment classification model 434 may be derived by learning the fourth data set 414 corresponding to the subject restaurant. The third local sentiment classification model 435 may be derived by learning the fifth data set 415 corresponding to the subject clothing.

감성 분석 장치는 분석 대상 말뭉치(440)를 획득할 수 있다. 감성 분석 장치는 분석 대상 말뭉치(440)를 판단 모델(430)로 입력할 수 있고, 판단 모델(430)에 의해 출력되는 감성 정보(450)를 획득할 수 있다.The sentiment analysis apparatus may acquire the analysis target corpus 440 . The emotion analysis apparatus may input the analysis target corpus 440 into the decision model 430 , and obtain the emotion information 450 output by the decision model 430 .

도 5는 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치의 예시적인 동작을 설명하기 위한 도면이다.5 is a diagram for explaining an exemplary operation of an apparatus for analyzing emotion of text data based on machine learning according to an embodiment.

도 5를 참조하면, 일 실시 예에 따른 감성 분석 장치는 말뭉치 1 내지 말뭉치 3을 포함하는 분석 대상 말뭉치를 수신할 수 있다. 감성 분석 장치는 글로벌 감성 분류 모델로 분석 대상 말뭉치를 입력할 수 있다.Referring to FIG. 5 , the sentiment analysis apparatus according to an embodiment may receive an analysis target corpus including corpus 1 to corpus 3 . The sentiment analysis apparatus may input a corpus to be analyzed as a global sentiment classification model.

글로벌 감성 분류 모델은, 예를 들어, “모바일 앱” 및 “전자 제품” 등과 같은 다양한 주제와 연관된 학습 데이터 세트에 의해 학습된 모델일 수 있다. 다만 모든 주제에 대해 학습되는 것은 실질적으로 불가능하므로, 글로벌 감성 분류 모델은 주제 “게임”에 대해서는 학습되지 않은 모델일 수 있다. 글로벌 감성 분류 모델은 주제와 관계 없이 입력된 분석 대상 말뭉치에 대해 분석 결과를 출력할 수 있다. 예를 들어, 글로벌 감성 분류 모델은 말뭉치 1 “앱 디자인도 깔끔하고 사용하기 편해요.”에 대해 감성 정보 “긍정”을 출력할 수 있고, 말뭉치 2 ”마감 퀄리티가 좀 떨어지고 폰 그립감이 애매합니다.”에 대해 감성 정보 “부정”을 출력할 수 있고, 말뭉치 3 “유료 아이템이 많은 게임이고… 그래픽만 좋네요.”에 대해 감성 정보 “부정”을 출력할 수 있다.The global sentiment classification model may be, for example, a model trained by a training data set associated with various topics such as “mobile app” and “electronic product”. However, since it is practically impossible to learn on all topics, the global sentiment classification model may be a model that has not been trained on the topic “game”. The global sentiment classification model can output analysis results for the input analysis target corpus regardless of the subject. For example, the global sentiment classification model can output emotional information “positive” for corpus 1 “The app design is clean and easy to use.” In corpus 2 “the finish quality is a bit poor and the phone grip is vague.” It is possible to output emotional information “negative” about the corpus 3 “a game with a lot of paid items… It is possible to output emotional information “Negative” for “Only the graphics are good.”

글로벌 감성 분류 모델은 주제 “게임”에 대해서 학습되지 않았다 하더라도, 유사한 주제인 “모바일 앱” 또는 “소프트웨어” 등과 같은 다양한 주제에 대해 학습된 모델일 수 있다. 따라서, 학습되지 않은 주제 “게임”에 대해서도 신뢰도 높은 분석 결과를 제공할 수 있고, 이로써 임의의 주제와 연관된 분석 대상 말뭉치에 대한 감성 정보가 정확하게 제공될 수 있다.Even if the global sentiment classification model is not trained on the topic “game”, it may be a model trained on various topics such as “mobile app” or “software”, which are similar topics. Accordingly, it is possible to provide a highly reliable analysis result even for an unlearned subject “game”, thereby accurately providing emotional information on an analysis target corpus related to an arbitrary subject.

도 6은 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치의 예시적인 동작을 설명하기 위한 도면이다.6 is a diagram for explaining an exemplary operation of an apparatus for analyzing emotion of text data based on machine learning according to an embodiment.

도 6을 참조하면, 일 실시 예에 따른 감성 분석 장치는 말뭉치 1 내지 말뭉치 3을 포함하는 분석 대상 말뭉치를 수신할 수 있다. 감성 분석 장치는 주제 분류 모델로 분석 대상 말뭉치를 입력할 수 있다.Referring to FIG. 6 , the sentiment analysis apparatus according to an embodiment may receive an analysis target corpus including corpus 1 to corpus 3 . The sentiment analysis apparatus may input a corpus to be analyzed as a subject classification model.

주제 분류 모델은, 예를 들어, 모바일 앱, 호텔, 레스토랑, 음식, 의류 및 전자 제품 등과 같은 다양한 주제와 연관된 학습 데이터 세트에 의해 학습된 모델일 수 있다. 주제 분류 모델은 입력된 분석 대상 말뭉치와 학습된 복수의 주제 각각 사이의 유사도를 산출할 수 있다. 예를 들어, 주제 분류 모델은 말뭉치 1 “앱 디자인도 깔끔하고 사용하기 편해요.”과 주제 “모바일 앱” 사이의 유사도를 71%로 산출할 수 있고, 말뭉치 2 ”마감 퀄리티가 좀 떨어지고 폰 그립감이 애매합니다.”와 주제 “전자 제품” 사이의 유사도를 74%로 산출할 수 있다. 말뭉치 1 및 말뭉치 2는 각각 미리 학습된 주제인 “모바일 앱” 및 “전자 제품”에 대응하므로 유사도가 특히 높게 산출될 수 있다. 다른 예를 들면, 주제 분류 모델은 말뭉치 3 “유료 아이템이 많은 게임이고… 그래픽만 좋네요.”와 주제 “모바일 앱” 사이의 유사도를 51%로 산출할 수 있고, 말뭉치 3과 주제 “전자 제품” 사이의 유사도를 36%로 산출할 수 있다. 말뭉치 3의 주제인 “게임”은 미리 학습된 주제에 해당하지 않을 수 있으나, 유사도 판단을 통해 주제 “모바일 앱” 및 “전자 제품”과 상대적으로 유사도가 높다는 점을 확인할 수 있다.The subject classification model may be, for example, a model trained by a training data set associated with various subjects such as mobile apps, hotels, restaurants, food, clothing, and electronic products. The topic classification model may calculate a similarity between the input analysis target corpus and each of the plurality of learned topics. For example, the subject classification model can calculate a similarity of 71% between Corpus 1 “The app design is clean and easy to use” and the subject “Mobile app”, and Corpus 2 ”The finish quality is a bit poor and the grip on the phone is vague. The similarity between the subject “electronic products” can be calculated as 74%. Corpora 1 and Corpora 2 correspond to pre-learned topics, “mobile app” and “electronic product,” respectively, so that a particularly high degree of similarity can be calculated. As another example, the subject classification model is corpus 3 “games with a lot of paid items… It is possible to calculate a similarity of 51% between the graphic only” and the subject “mobile app”, and a similarity between Corpus 3 and the subject “Electronics” at 36%. The subject “game” of Corpus 3 may not correspond to the pre-learned subject, but it can be confirmed that the similarity is relatively high with the subjects “mobile app” and “electronic product” through similarity determination.

주제 분류 모델은 주제 “게임”에 대해서 학습되지 않았다 하더라도, 유사도 산출을 통해 유사도가 상대적으로 높은 주제인 “모바일 앱” 및 “전자 제품”을 식별할 수 있고, 이로써 분석 대상 말뭉치가 임의의 주제와 연관되었다 하더라도 미리 학습된 주제 중 분석 대상 말뭉치와 유사한 주제를 파악할 수 있다.Even if the topic classification model is not trained on the topic “game,” it can identify “mobile apps” and “electronic products”, which are topics with relatively high similarity, through similarity calculation, so that the corpus to be analyzed can be matched with any topic. Even if it is related, it is possible to identify a subject similar to the analysis target corpus among pre-learned subjects.

도 7은 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치의 예시적인 동작을 설명하기 위한 도면이다.7 is a diagram for explaining an exemplary operation of an apparatus for analyzing emotion of text data based on machine learning according to an embodiment.

도 7을 참조하면, 일 실시 예에 따른 감성 분석 장치는 주제 분류 모델에 의해 산출된 유사도에 기초하여 복수의 주제 중 분석 대상 말뭉치와 유사도가 높은 주제 각각에 대응하는 로컬 감성 분류 모델을 선택할 수 있다. 예를 들어, 감성 분석 장치는 말뭉치 1 내지 3과 유사도가 높은 2개의 주제 “모바일 앱” 및 “전자 제품” 각각에 대응하는 로컬 감성 분류 모델(모바일 앱 감성 분류 모델 및 전자 제품 감성 분류 모델)을 선택할 수 있다.Referring to FIG. 7 , the emotion analysis apparatus according to an embodiment may select a local emotion classification model corresponding to each subject having a high similarity to an analysis target corpus from among a plurality of subjects based on the similarity calculated by the subject classification model. . For example, the sentiment analysis device generates a local sentiment classification model (a mobile app sentiment classification model and an electronic product sentiment classification model) corresponding to each of two topics “mobile app” and “electronic product” that have high similarity to corpus 1 to 3 You can choose.

감성 분석 장치는 글로벌 감성 분류 모델 및 선택된 로컬 감성 분류 모델 각각에 분석 대상 말뭉치를 입력할 수 있다. 글로벌 감성 분류 모델 및 선택된 로컬 감성 분류 모델은 입력된 분석 대상 말뭉치 각각에 대한 분석 결과를 출력할 수 있다. 예를 들어, 글로벌 감성 분류 모델은 말뭉치 1에 대해 감성 정보 “긍정”을 출력하고, 말뭉치 2에 대해 감성 정보 “부정”을 출력하고, 말뭉치 3에 대해 감성 정보 “긍정”을 출력할 수 있다. 글로벌 감성 분류 모델은 임의의 주제에 대해 상대적으로 정확도 높은 분석 결과를 출력할 수 있다. 모바일 앱 감성 분류 모델은 말뭉치 1에 대해 감성 정보 “긍정”을 출력하고, 말뭉치 2에 대해 감성 정보 “부정”을 출력하고, 말뭉치 3에 대해 감성 정보 “부정”을 출력할 수 있다. 모바일 앱 감성 분류 모델은 주제 “모바일 앱”에 대해 상대적으로 정확도 높은 분석 결과를 출력할 수 있다. 전자 제품 감성 분류 모델은 말뭉치 1에 대해 감성 정보 “부정”을 출력하고, 말뭉치 2에 대해 감성 정보 “부정”을 출력하고, 말뭉치 3에 대해 감성 정보 “부정”을 출력할 수 있다. 전자 제품 감성 분류 모델은 주제 “전자 제품”에 대해 상대적으로 정확도 높은 분석 결과를 출력할 수 있다.The sentiment analysis apparatus may input an analysis target corpus into each of the global sentiment classification model and the selected local sentiment classification model. The global sentiment classification model and the selected local sentiment classification model may output analysis results for each of the input analysis target corpus. For example, the global sentiment classification model may output emotional information “positive” to corpus 1, output emotional information “negative” to corpus 2, and output emotional information “positive” to corpus 3 . The global sentiment classification model can output analysis results with relatively high accuracy on any topic. The mobile app emotion classification model may output emotional information “positive” to corpus 1, output emotional information “negative” to corpus 2, and output emotional information “negative” to corpus 3 . The mobile app sentiment classification model can output relatively high-accuracy analysis results for the topic “mobile app”. The electronic product emotion classification model may output emotional information “negative” to corpus 1, output emotional information “negative” to corpus 2, and output emotional information “negative” to corpus 3 . The electronic product sentiment classification model can output a relatively high-accuracy analysis result for the subject “electronic product”.

감성 분석 장치는 3개의 감성 분류 모델에 의해 도출된 분석 결과에 기초하여 최종 결과물로서 분석 대상 말뭉치 각각에 대한 감성 정보를 출력할 수 있다. 예를 들어, 말뭉치 1에 대하여 3개의 모델 중 2개의 모델에 의해 도출된 감성 정보 “긍정”이 출력될 수 있고, 말뭉치 2에 대하여 3개의 모델 전부에 의해 도출된 감성 정보 “부정”이 출력될 수 있고, 말뭉치 3에 대하여 3개의 모델 중 2개의 모델에 의해 도출된 감성 정보 “부정”이 출력될 수 있다.The emotion analysis apparatus may output emotion information on each of the analysis target corpus as a final result based on the analysis results derived by the three emotion classification models. For example, for corpus 1, emotional information “positive” derived by two of the three models may be output, and for corpus 2, emotional information “negative” derived by all three models may be output. And, for corpus 3, emotional information “negation” derived by two of the three models may be output.

주제 분류 모델에 의해 도출된 유사도가 높은 주제에 대응하는 로컬 감성 분류 모델을 글로벌 감성 분류 모델과 함께 활용함으로써, 분석 대상 말뭉치에 대한 감성 분석의 정확성을 더욱 향상시킬 수 있다.By using the local sentiment classification model corresponding to the subject with high similarity derived by the topic classification model together with the global sentiment classification model, it is possible to further improve the accuracy of sentiment analysis on the analysis target corpus.

도 8은 일 실시 예에 따른 도 3은 일 실시 예에 따른 머신 러닝 기반의 텍스트 데이터의 감성 분석 방법을 설명하기 위한 흐름도이다.8 is a flowchart illustrating a method for analyzing sentiment of text data based on machine learning according to an embodiment of FIG. 3 .

이하에서는 도 2의 텍스트 데이터의 감성 분석 장치가 도 8의 프로세스를 수행하는 것을 가정한다. 또한, 도 8의 설명에서, 대출 서비스 제공 장치에 의해 수행되는 것으로 기술된 동작은 프로세서(230)에 의해 제어되는 것으로 이해될 수 있다.Hereinafter, it is assumed that the apparatus for analyzing the sentiment of the text data of FIG. 2 performs the process of FIG. 8 . In addition, in the description of FIG. 8 , an operation described as being performed by the loan service providing apparatus may be understood as being controlled by the processor 230 .

도 8을 참조하면, 단계 810에서, 텍스트 데이터의 감성 분석 장치는 외부 문서로부터 수집된 말뭉치와 함께 복수의 주제 중 수집된 말뭉치의 주제를 나타내는 주제 레이블 및 복수의 감성 중 수집된 말뭉치의 감성을 나타내는 감성 레이블을 학습 데이터 세트로서 획득할 수 있다.Referring to FIG. 8 , in step 810 , the apparatus for analyzing the sentiment of text data represents a subject label indicating a subject of the corpus collected among a plurality of subjects together with a corpus collected from an external document and a subject label indicating the subject of the corpus collected from among the plurality of emotions. Sentiment labels may be obtained as a training data set.

단계 820에서, 텍스트 데이터의 감성 분석 장치는 획득된 학습 데이터 세트를 저장할 수 있다.In step 820, the apparatus for analyzing the sentiment of text data may store the acquired training data set.

단계 830에서, 텍스트 데이터의 감성 분석 장치는 복수의 주제 및 복수의 감성의 모든 조합 각각에 대하여 지정된 수 이상의 복수의 학습 데이터 세트를 지정된 언어 모델링 알고리즘에 입력함으로써 입력된 말뭉치에 대한 감성 정보를 출력하도록 구성되는 단일의 글로벌 감성 분류 모델을 획득할 수 있다.In step 830, the apparatus for analyzing the sentiment of text data outputs sentiment information for the input corpus by inputting a plurality of training data sets of a specified number or more for each of all combinations of a plurality of subjects and a plurality of emotions into a specified language modeling algorithm. It is possible to obtain a single global sentiment classification model configured.

단계 840에서, 텍스트 데이터의 감성 분석 장치는 분석 대상 말뭉치를 글로벌 감성 분류 모델에 입력함으로써 분석 대상 말뭉치에 대한 감성 정보를 제공할 수 있다.In operation 840, the apparatus for analyzing the sentiment of text data may provide sentiment information on the analysis target corpus by inputting the analysis target corpus into the global sentiment classification model.

본 문서의 실시 예들 및 이에 사용된 용어들은 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시 예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및/또는 B 중 적어도 하나", "A, B 또는 C" 또는 "A, B 및/또는 C 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. "제1," "제2," "첫째," 또는 "둘째," 등의 표현들은 해당 구성요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 어떤 구성요소가 다른 구성요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소를 통하여 연결될 수 있다.The embodiments of this document and the terms used therein are not intended to limit the technology described in this document to a specific embodiment, but it should be understood to include various modifications, equivalents, and/or substitutions of the embodiments. In connection with the description of the drawings, like reference numerals may be used for like components. The singular expression may include the plural expression unless the context clearly dictates otherwise. In this document, expressions such as “A or B”, “at least one of A and/or B”, “A, B or C” or “at least one of A, B and/or C” refer to all of the items listed together. Possible combinations may be included. Expressions such as "first," "second," "first," or "second," can modify the corresponding elements regardless of order or importance, and to distinguish one element from another element. It is used only and does not limit the corresponding components. When an element is referred to as being "connected (functionally or communicatively)" or "connected" to another element, the element is directly connected to the other element, or can be connected through

본 문서에서, "~하도록 설정된(adapted to or configured to)"은 상황에 따라, 예를 들면, 하드웨어적 또는 소프트웨어적으로 "~에 적합한," "~하는 능력을 가지는," "~하도록 변경된," "~하도록 만들어진," "~를 할 수 있는," 또는 "~하도록 설계된"과 상호 호환적으로(interchangeably) 사용될 수 있다. 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 설정된 (또는 구성된) 프로세서"는 해당 동작들을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(예: CPU)를 의미할 수 있다.In this document, "adapted to or configured to", depending on the context, for example, hardware or software "suitable for," "having the ability to," "modified to, Can be used interchangeably with ""made to," "capable of," or "designed to." In some circumstances, the expression “a device configured to” may mean that the device is “capable of” with other devices or parts. For example, the phrase "a processor configured (or configured to perform) A, B, and C" refers to a dedicated processor (eg, an embedded processor) for performing the corresponding operations, or by executing one or more programs stored in a memory device; It may refer to a general-purpose processor (eg, CPU) capable of performing corresponding operations.

본 문서에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어(firmware)로 구성된 유닛(unit)을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. "모듈"은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. "모듈"은 기계적으로 또는 전자적으로 구현될 수 있으며, 예를 들면, 어떤 동작들을 수행하는, 알려졌거나 앞으로 개발될, ASIC(application-specific integrated circuit) 칩, FPGAs(field-programmable gate arrays), 또는 프로그램 가능 논리 장치를 포함할 수 있다.As used herein, the term “module” includes a unit composed of hardware, software, or firmware, and may be used interchangeably with terms such as, for example, logic, logic block, component, or circuit. can A “module” may be an integrally formed component or a minimum unit or a part that performs one or more functions. A “module” may be implemented mechanically or electronically, for example, known or to be developed, application-specific integrated circuit (ASIC) chips, field-programmable gate arrays (FPGAs), or It may include a programmable logic device.

일 실시 예에 따른 장치(예: 모듈들 또는 그 기능들) 또는 방법(예: 동작들)의 적어도 일부는 프로그램 모듈의 형태로 컴퓨터로 판독 가능한 저장 매체에 저장된 명령어로 구현될 수 있다. 상기 명령어가 프로세서에 의해 실행될 경우, 프로세서가 상기 명령어에 해당하는 기능을 수행할 수 있다.At least a portion of an apparatus (eg, modules or functions thereof) or a method (eg, operations) according to an embodiment may be implemented as instructions stored in a computer-readable storage medium in the form of a program module. When the instruction is executed by the processor, the processor may perform a function corresponding to the instruction.

일 실시 예에 따른 구성 요소(예: 모듈 또는 프로그램 모듈) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소를 더 포함할 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램 모듈)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 일 실시 예에 따른 모듈, 프로그램 모듈 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱(heuristic)하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.Each of the components (eg, a module or a program module) according to an embodiment may be composed of a singular or a plurality of entities, and some sub-components of the aforementioned sub-components may be omitted or other sub-components may be included. may include more. Alternatively or additionally, some components (eg, a module or a program module) may be integrated into one entity to perform the same or similar functions performed by each corresponding component before being integrated. Operations performed by a module, program module, or other component according to an embodiment are sequentially, parallelly, repetitively or heuristically executed, or at least some operations are executed in a different order, omitted, or other operations This can be added.

Claims (5)

머신 러닝 기반의 텍스트 데이터의 감성 분석 장치에 있어서,
통신 회로;
메모리; 및
상기 통신 회로 및 상기 메모리와 전기적으로 연결된 프로세서를 포함하고,
상기 프로세서는,
상기 통신 회로를 이용하여 하나 이상의 외부 문서로부터 수집된 말뭉치(corpus)와 함께 복수의 주제(topic) 중 상기 수집된 말뭉치의 주제를 나타내는 주제 레이블 및 복수의 감성(sentiment) 중 상기 수집된 말뭉치의 감성을 나타내는 감성 레이블을 학습 데이터 세트로서 획득하고,
상기 획득된 학습 데이터 세트를 상기 메모리에 저장하고,
상기 복수의 주제 및 상기 복수의 감성의 모든 조합 각각에 대하여 지정된 수 이상의 복수의 학습 데이터 세트에 포함된 말뭉치 및 감성 레이블을 지정된 언어 모델링 알고리즘에 입력하여 머신 러닝을 수행함으로써 입력된 말뭉치에 대한 감성 정보를 출력하도록 구성되는 단일의 글로벌 감성 분류 모델을 획득하고,
상기 복수의 학습 데이터 세트에 포함된 말뭉치 및 주제 레이블을 상기 지정된 언어 모델링 알고리즘에 입력하여 머신 러닝을 수행함으로써, 상기 입력된 말뭉치에 대한 주제 정보를 출력하도록 구성되는 주제 분류 모델을 획득하고,
상기 복수의 학습 데이터 세트를 상기 복수의 주제별로 분류하고, 상기 분류된 복수의 학습 데이터 세트 각각에 포함된 말뭉치 및 감성 레이블을 상기 지정된 언어 모델링 알고리즘에 입력하여 머신 러닝을 수행함으로써, 상기 입력된 말뭉치에 대한 감성 정보를 출력하도록 구성되고 상기 복수의 주제 각각에 대응되는 복수의 로컬 감성 분류 모델을 획득하고,
분석 대상 말뭉치를 상기 주제 분류 모델에 입력함으로써 상기 분석 대상 말뭉치와 상기 복수의 주제 각각에 대한 유사도 정보를 획득하고,
상기 유사도 정보에 기초하여 상기 복수의 로컬 감성 분류 모델로부터 상기 복수의 주제 중 상기 분석 대상 말뭉치와 유사도가 상대적으로 높은 하나 이상의 주제 각각에 대응하는 로컬 감성 분류 모델을 선택하고,
상기 분석 대상 말뭉치를 상기 글로벌 감성 분류 모델 및 상기 선택된 로컬 감성 분류 모델에 입력함으로써 상기 분석 대상 말뭉치에 대한 감성 정보를 제공하는 것을 특징으로 하는, 장치.
In a machine learning-based sentiment analysis device for text data,
communication circuit;
Memory; and
a processor electrically coupled to the communication circuitry and the memory;
The processor is
A subject label indicating a subject of the collected corpus of a plurality of topics together with a corpus collected from one or more external documents using the communication circuitry and a sentiment of the collected corpus of a plurality of sentiments Acquiring a sentiment label representing
storing the acquired training data set in the memory;
Sentiment information on the input corpus by performing machine learning by inputting the corpus and sentiment labels included in the plurality of training data sets at least a specified number for each of the plurality of subjects and all combinations of the plurality of emotions into a designated language modeling algorithm Acquire a single global sentiment classification model configured to output
Obtaining a topic classification model configured to output topic information about the input corpus by performing machine learning by inputting the corpus and topic labels included in the plurality of training data sets into the designated language modeling algorithm,
By classifying the plurality of training data sets by the plurality of subjects, and performing machine learning by inputting a corpus and a sentiment label included in each of the classified plurality of training data sets into the designated language modeling algorithm, the input corpus Obtaining a plurality of local emotion classification models configured to output emotion information for and corresponding to each of the plurality of topics,
obtaining similarity information for the analysis target corpus and each of the plurality of subjects by inputting the analysis target corpus into the topic classification model;
selecting a local sentiment classification model corresponding to each of the one or more subjects having a relatively high degree of similarity to the analysis target corpus among the plurality of subjects from the plurality of local sentiment classification models based on the similarity information;
The apparatus, characterized in that by inputting the analysis target corpus into the global sentiment classification model and the selected local sentiment classification model, sentiment information on the analysis target corpus is provided.
삭제delete 삭제delete 제 1 항에 있어서,
상기 프로세서는,
상기 글로벌 감성 분류 모델 및 상기 선택된 로컬 감성 분류 모델 각각에 의해 출력된 분석 결과에 기초하여 상기 분석 대상 말뭉치에 대한 감성 정보를 결정하는 것을 특징으로 하는, 장치.
The method of claim 1,
The processor is
The apparatus, characterized in that the sentiment information for the analysis target corpus is determined based on the analysis results output by each of the global sentiment classification model and the selected local sentiment classification model.
컴퓨팅 디바이스에 포함된 프로세서에 의해 수행되는 머신 러닝 기반의 텍스트 데이터의 감성 분석 방법에 있어서,
하나 이상의 외부 문서로부터 수집된 말뭉치와 함께 복수의 주제 중 상기 수집된 말뭉치의 주제를 나타내는 주제 레이블 및 복수의 감성 중 상기 수집된 말뭉치의 감성을 나타내는 감성 레이블을 학습 데이터 세트로서 획득하는 단계;
상기 획득된 학습 데이터 세트를 저장하는 단계;
상기 복수의 주제 및 상기 복수의 감성의 모든 조합 각각에 대하여 지정된 수 이상의 복수의 학습 데이터 세트에 포함된 말뭉치 및 감성 레이블을 지정된 언어 모델링 알고리즘에 입력하여 머신 러닝을 수행함으로써, 입력된 말뭉치에 대한 감성 정보를 출력하도록 구성되는 단일의 글로벌 감성 분류 모델을 획득하는 단계;
상기 복수의 학습 데이터 세트에 포함된 말뭉치 및 주제 레이블을 상기 지정된 언어 모델링 알고리즘에 입력하여 머신 러닝을 수행함으로써, 상기 입력된 말뭉치에 대한 주제 정보를 출력하도록 구성되는 주제 분류 모델을 획득하는 단계;
상기 복수의 학습 데이터 세트를 상기 복수의 주제별로 분류하고, 상기 분류된 복수의 학습 데이터 세트 각각에 포함된 말뭉치 및 감성 레이블을 상기 지정된 언어 모델링 알고리즘에 입력하여 머신 러닝을 수행함으로써, 상기 입력된 말뭉치에 대한 감성 정보를 출력하도록 구성되고 상기 복수의 주제 각각에 대응되는 복수의 로컬 감성 분류 모델을 획득하는 단계;
분석 대상 말뭉치를 상기 주제 분류 모델에 입력함으로써 상기 분석 대상 말뭉치와 상기 복수의 주제 각각에 대한 유사도 정보를 획득하는 단계;
상기 유사도 정보에 기초하여 상기 복수의 로컬 감성 분류 모델로부터 상기 복수의 주제 중 상기 분석 대상 말뭉치와 유사도가 상대적으로 높은 하나 이상의 주제 각각에 대응하는 로컬 감성 분류 모델을 선택하는 단계; 및
상기 분석 대상 말뭉치를 상기 글로벌 감성 분류 모델 및 상기 선택된 로컬 감성 분류 모델에 입력함으로써 상기 분석 대상 말뭉치에 대한 감성 정보를 제공하는 단계를 포함하는 것을 특징으로 하는, 방법.
In the sentiment analysis method of machine learning-based text data performed by a processor included in a computing device,
obtaining, as a learning data set, a subject label indicating the subject of the collected corpus among a plurality of subjects together with a corpus collected from one or more external documents and a sentiment label indicating the emotion of the collected corpus among a plurality of emotions;
storing the acquired training data set;
Sentiment for the input corpus by performing machine learning by inputting the corpus and sentiment labels included in the plurality of training data sets at least a specified number for each of the plurality of subjects and all combinations of the plurality of emotions into a designated language modeling algorithm obtaining a single global sentiment classification model, configured to output information;
acquiring a topic classification model configured to output topic information about the input corpus by performing machine learning by inputting the corpus and topic labels included in the plurality of training data sets into the specified language modeling algorithm;
By classifying the plurality of training data sets by the plurality of subjects, and performing machine learning by inputting a corpus and a sentiment label included in each of the classified plurality of training data sets into the designated language modeling algorithm, the input corpus obtaining a plurality of local sentiment classification models configured to output sentiment information for , and corresponding to each of the plurality of subjects;
obtaining similarity information for the analysis target corpus and each of the plurality of subjects by inputting the analysis target corpus into the topic classification model;
selecting, from the plurality of local sentiment classification models, based on the similarity information, a local sentiment classification model corresponding to each of one or more subjects having a relatively high similarity to the analysis target corpus from among the plurality of subjects; and
and providing sentiment information on the analysis target corpus by inputting the analysis target corpus into the global sentiment classification model and the selected local sentiment classification model.
KR1020200149388A 2020-11-10 2020-11-10 Apparatus and method for analyzing sentiment of text data based on machine learning KR102410715B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200149388A KR102410715B1 (en) 2020-11-10 2020-11-10 Apparatus and method for analyzing sentiment of text data based on machine learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200149388A KR102410715B1 (en) 2020-11-10 2020-11-10 Apparatus and method for analyzing sentiment of text data based on machine learning

Publications (2)

Publication Number Publication Date
KR20220063483A KR20220063483A (en) 2022-05-17
KR102410715B1 true KR102410715B1 (en) 2022-06-20

Family

ID=81803324

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200149388A KR102410715B1 (en) 2020-11-10 2020-11-10 Apparatus and method for analyzing sentiment of text data based on machine learning

Country Status (1)

Country Link
KR (1) KR102410715B1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102500164B1 (en) * 2022-06-15 2023-02-17 주식회사 스타일여신 Emotional information analysis system automatically extracting emotional information from objects and emotional information analysis method using the same
KR102543647B1 (en) * 2023-01-26 2023-06-15 (주)피플리 Method, apparatus and system for analyzing emotions in aspect-based sentences using adaptive masked attention mechanism

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012181602A (en) 2011-02-28 2012-09-20 Nippon Telegr & Teleph Corp <Ntt> Data polarity determination device, method and program
JP2012226747A (en) * 2011-04-21 2012-11-15 Palo Alto Research Center Inc Incorporation of glossary knowledge in svm learning for improvement in feeling classification

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101134701B1 (en) * 2010-08-09 2012-04-13 숭실대학교산학협력단 The Method and System for Automatically Constructing Positive/Negative Feature-Predicate Dictionary for Polarity Classification of Product Reviews
KR101326313B1 (en) * 2012-03-09 2013-11-11 가톨릭대학교 산학협력단 Method of classifying emotion from multi sentence using context information

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012181602A (en) 2011-02-28 2012-09-20 Nippon Telegr & Teleph Corp <Ntt> Data polarity determination device, method and program
JP2012226747A (en) * 2011-04-21 2012-11-15 Palo Alto Research Center Inc Incorporation of glossary knowledge in svm learning for improvement in feeling classification

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
네이버 블로그, "감정을 분석하다-네이버 감정 분석AI", 2020.09.04., url: https://blog.naver.com/naver_search/22208013227. 1부.*

Also Published As

Publication number Publication date
KR20220063483A (en) 2022-05-17

Similar Documents

Publication Publication Date Title
CN108304526B (en) Data processing method and device and server
US10242323B2 (en) Customisable method of data filtering
US20170308523A1 (en) A method and system for sentiment classification and emotion classification
CN107807968B (en) Question answering device and method based on Bayesian network and storage medium
US9710829B1 (en) Methods, systems, and articles of manufacture for analyzing social media with trained intelligent systems to enhance direct marketing opportunities
JP6753115B2 (en) Content management device, content management method and program
US20130080208A1 (en) User-Centric Opinion Analysis for Customer Relationship Management
CN106919551B (en) Emotional word polarity analysis method, device and equipment
Kim et al. Text Mining and Sentiment Analysis for Predicting Box Office Success.
KR102410715B1 (en) Apparatus and method for analyzing sentiment of text data based on machine learning
KR20200048693A (en) System for performing sentimental analysis and the method thereof
Xu et al. Bert feature based model for predicting the helpfulness scores of online customers reviews
JP7198408B2 (en) Trademark information processing device and method, and program
CN113312480A (en) Scientific and technological thesis level multi-label classification method and device based on graph convolution network
Kim et al. Comparing machine learning classifiers for movie WOM opinion mining
Sankhe et al. Survey on sentiment analysis
Nama et al. Sentiment analysis of movie reviews: A comparative study between the naive-bayes classifier and a rule-based approach
CN109241993B (en) Evaluation object emotion classification method and device integrating user and overall evaluation information
CN108763203B (en) Method for expressing film comments by feature vectors by using feature word sets in film comment emotion analysis
KR20220118579A (en) System for providing tutoring service using artificial intelligence and method thereof
Komamizu et al. Exploring Identical Users on GitHub and Stack Overflow.
KR102225128B1 (en) Apparatus and method for analyzing keyword using emotion measurement
Shaleha et al. Sentiment Analysis with Supervised Topic Modelling on Twitter Data Related to Indonesian Election 2024
Gudumotu et al. A Survey on Deep Learning Models to Detect Hate Speech and Bullying in Social Media
Hirota et al. Weakly-Supervised Multimodal Learning for Predicting the Gender of Twitter Users

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant