KR101491628B1 - Method, apparatus and system for extracting keyword affecting for mood change of the public using blog - Google Patents

Method, apparatus and system for extracting keyword affecting for mood change of the public using blog Download PDF

Info

Publication number
KR101491628B1
KR101491628B1 KR20130090408A KR20130090408A KR101491628B1 KR 101491628 B1 KR101491628 B1 KR 101491628B1 KR 20130090408 A KR20130090408 A KR 20130090408A KR 20130090408 A KR20130090408 A KR 20130090408A KR 101491628 B1 KR101491628 B1 KR 101491628B1
Authority
KR
South Korea
Prior art keywords
emotion
change
blog
emotional
extracting
Prior art date
Application number
KR20130090408A
Other languages
Korean (ko)
Inventor
이지형
김경민
김희라
이재동
김누리
Original Assignee
성균관대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 성균관대학교산학협력단 filed Critical 성균관대학교산학협력단
Priority to KR20130090408A priority Critical patent/KR101491628B1/en
Application granted granted Critical
Publication of KR101491628B1 publication Critical patent/KR101491628B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

A method for extracting keywords affecting the emotional change of the public from the blog comprises: an emotion index calculating step of calculating an emotion index using an emotional vocabulary dictionary based on vocabularies included in each comment in the blog; an emotional change section extracting step of extracting an emotional change section of the blog using the calculated emotion index; and a keyword extracting step of collecting comments included in the emotional change section and extracting main keywords included in the emotional change section from the collected comments. Therefore, when keywords affecting the emotional change of the public are extracted, the method helps to infer reasons associated with the emotional change of the public in a specific company or social issue to easily identify the needs of the public, thereby creating economic benefits later.

Description

블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법, 장치 및 시스템{METHOD, APPARATUS AND SYSTEM FOR EXTRACTING KEYWORD AFFECTING FOR MOOD CHANGE OF THE PUBLIC USING BLOG}TECHNICAL FIELD [0001] The present invention relates to a keyword extracting method, apparatus, and system for extracting keywords from a blog,

본 발명은 키워드 추출 방법, 장치 및 시스템에 관한 것으로, 블로그 분석을 통해 감성 변화에 영향을 미치는 키워드를 추출하는 방법, 장치 및 시스템에 관한 것이다.
The present invention relates to a keyword extraction method, apparatus, and system, and more particularly, to a method, apparatus, and system for extracting keywords that affect emotional change through blog analysis.

사용자들의 편의성, 다양성 및 정보의 공유를 추구하는 마이크로 블로그의 경우, 개개인의 의견을 자유롭게 표현하기 때문에 감성적인 정보를 많이 담고 있으며, 이러한 감성적인 정보는 특정 이슈나, 개인의 단순한 심리 변화로 인해 계속 변화하는 특성이 있다. 특히, 트위터나 페이스북과 같은 소셜 네트워크 서비스(SNS: Social Network Service)가 대중화되면서 이를 이용한 연구가 활발히 진행되고 있다. In the case of microblogging, which seeks convenience, diversity and information sharing among users, it expresses individual opinions freely, so it contains a lot of emotional information, and this emotional information is continuous due to a specific issue, There are changing characteristics. Particularly, as social network service (SNS) such as Twitter or Facebook is popularized, researches using it have been actively conducted.

종래의 감성 분석 방법들은 감성을 정적(static)으로 가정하고 단순히 마이크로블로그의 내용을 긍정 또는 부정으로 극성 분석(polarity analysis)을 하는데 그쳤으며, 문서의 감성 분석에 대한 다양한 시도들은 아직까지 일반 문서들 및 마이크로블로그와 같이 글자수가 제한되어 있는 문서들에 대한 감성 분석 결과의 정확성을 보장하지 못할뿐만 아니라, 문서의 특성을 고려하지 않고 있다. 또한, 마이크로블로그의 경우, 개개인의 의견을 자유롭게 표현할 수 있기 때문에 감성적인 정보를 많이 담고 있으며, 이러한 감성 정보는 특정 이슈나 개인의 단순한 심리 변화로 인해 계속 변화하는 특징이 있는데 대다수의 방법들은 이러한 특징을 반영하고 있지 않다는 문제점이 있다.
Conventional emotional analysis methods assume that emotion is static and merely perform polarity analysis with positive or negative content of microblog. Various attempts to analyze the emotion of the document have not yet been conducted, And microblogs, as well as the accuracy of emotional analysis results for documents with limited number of characters. In addition, microblogs contain a lot of emotional information because individual opinions can be freely expressed. Such emotional information is characterized by a constant change due to a specific issue or simple psychological change of an individual. Is not reflected.

상술한 문제점을 해결하기 위한 본 발명의 목적은 대중의 감성 변화에 영향을 미치는 키워드를 추출하는 방법으로서 마이크로블로그의 내용을 주관적인(subjective) 단어만을 이용한 감성 사전을 통해 감성 분석을 수행하고 시간의 흐름에 따라 변화하는 감성 지수를 고려하여 특정 토픽과 관련된 키워드를 추출하는 키워드 추출 방법, 장치 및 시스템을 제공하는 것이다. An object of the present invention to solve the above-mentioned problems is to provide a method of extracting keywords that affect the emotional change of the public, and the emotional analysis is performed through the emotional dictionary using only the subjective words of the contents of the microblog, An apparatus and a system for extracting a keyword related to a specific topic in consideration of an emotion index varying according to a keyword.

이를 통해, 특정 토픽에 대한 감성 변화에 영향을 미치는 요인을 파악하여 대중의 요구사항을 효율적으로 파악할 수 있다.
This allows us to identify the factors that affect emotional change for a particular topic and to better understand the needs of the public.

상기한 목적을 달성하기 위한 본 발명의 블로그에서 대중의 감성 변화에 영향을 미치는 키워드를 추출하는 방법은 상기 블로그 내의 각각의 코멘트에 포함된 어휘를 기반으로 감성 어휘 사전을 이용하여 감정지수를 산출하는 감정지수 산출 단계, 상기 감정지수를 이용하여 상기 블로그의 감성 변화 구간을 추출하는 감성 변화 구간 추출 단계 및 상기 감성 변화 구간의 코멘트를 수집하여 상기 감성 변화 구간의 주요 키워드를 추출하는 키워드 추출 단계를 포함할 수 있다.According to another aspect of the present invention, there is provided a method of extracting keywords affecting a change in emotional state of a public, the method including: calculating an emotion index using an emotional vocabulary dictionary based on vocabulary included in each comment in the blog; An emotion index calculating step of extracting emotional change intervals of the blog using the emotion index, and a keyword extracting step of collecting comments of the emotion change interval and extracting main keywords of the emotion change interval can do.

상기 키워드 추출 방법은 특정 토픽(topic)에 대한 단어를 포함하는 적어도 하나의 블로그를 기준 시간마다 수집하는 단계를 더 포함할 수 있다.The keyword extraction method may further include collecting at least one blog including a word for a specific topic at each reference time.

상기 감정지수 산출 단계는 상기 각각의 코멘트에 대해 데이터 전처리 과정을 통해 문장의 내용을 나타내는데 역할을 하지 않는 기능어를 제거하여 정제된 데이터를 획득하는 단계를 포함할 수 있다.The step of calculating the emotion index may include the step of acquiring the refined data by removing a function word that does not serve to represent the contents of a sentence through a data preprocessing process for each comment.

상기 감성 어휘 사전은 특정 어휘의 긍정적(positive) 또는 부정적 의미 방향의 정도를 정량화하여 표현한 어휘 사전일 수 있다.The emotional vocabulary dictionary may be a vocabulary dictionary that quantifies the degree of a positive or negative semantic direction of a specific vocabulary.

상기 감정지수 산출 단계는 상기 감성 어휘 사전을 이용하여 상기 각각의 코멘트 내의 어휘에 대한 긍정(positive) 지수 및 부정(negative) 지수를 산출하는 단계 및 상기 긍정 지수의 합에서 상기 부정 지수의 합을 뺀 값을 상기 각각의 코멘트의 감정지수로 산출하는 단계를 포함할 수 있다.The emotion index calculating step may include calculating a positive index and a negative index for the vocabulary in each of the comments using the emotional vocabulary dictionary and subtracting the sum of the negative indices from the sum of the positive indices, Value to the emotion index of each of the comments.

상기 감정지수 산출 단계는 기준 시간 내에 존재하는 상기 각각의 코멘트의 감정지수를 산출하여 구간 감정지수를 산출하는 단계를 포함할 수 있다.The step of calculating the emotion index may include calculating an emotion index of each of the comments existing within the reference time, and calculating an interval emotion index.

상기 감성지수 산출 단계는 기준 시간 내에 존재하는 상기 각각의 코멘트들의 감성지수의 평균을 이용하여 상기 구간 감정지수를 산출하는 단계를 포함할 수 있다.The emotion index calculation step may include calculating the interval emotion index using an average of the emotion indexes of the respective comments existing within the reference time.

상기 감성 변화 구간 추출 단계는 상기 구간 감성지수의 시간적인 변화가 가장 크게 나타난 구간을 상기 감성 변화 구간으로 산출하는 단계를 포함할 수 있다.The emotional change interval extraction step may include calculating the interval in which the temporal change of the interval emotion index is greatest as the emotional change interval.

상기 감성 변화 구간 추출 단계는 상기 구간 감성지수의 시간적인 변화가 미리 설정된 임계값보다 큰 구간을 상기 감성 변화 구간으로 산출하는 단계를 포함할 수 있다.The emotional change section may include a step of calculating a section in which the temporal change of the section emotion index is greater than a preset threshold value as the emotion change section.

상기 키워드 추출 단계는 상기 감성 변화 구간의 코멘트의 내용을 TF-IDF(Term Frequency-Inverse Document Frequency)를 이용하여 출현 빈도가 높은 상기 감성 변화 구간의 주요 키워드를 추출하는 단계를 포함할 수 있다.The keyword extracting step may include extracting a main keyword of the emotion change interval having a high frequency of appearance using a term frequency-inverted document frequency (TF-IDF).

상기 키워드 추출 단계는 상기 감성 변화 구간의 코멘트 내용 중 상기 감성 지수 산출에 사용된 어휘를 제외하여 객관적인 어휘를 중심으로 상기 주요 키워드를 추출하는 단계를 포함할 수 있다.The keyword extracting step may include extracting the main keyword based on an objective vocabulary excluding the vocabulary used for calculating the emotion index among the contents of the comment of the emotion change section.

상기 블로그는 마이크로 블로그(micro-blog)일 수 있다.The blog may be a micro-blog.

상기 코멘트는 트윗(tweet), 답글(reply) 및 댓글 중 적어도 어느 하나를 포함할 수 있다.The comment may include at least one of a tweet, a reply, and a comment.

상기한 목적을 달성하기 위한 본 발명의 블로그에서 대중의 감성 변화에 영향을 미치는 키워드를 추출하는 장치는 상기 블로그 내의 각각의 코멘트에 포함된 어휘를 기반으로 감성 어휘 사전을 이용하여 감정지수를 산출하는 감정지수 산출부, 상기 감정지수를 이용하여 상기 블로그 내의 코멘트들의 감성 변화 구간을 추출하는 감성 변화 구간 추출부 및 상기 감성 변화 구간의 코멘트를 수집하여 상기 감성 변화 구간의 주요 키워드를 추출하는 키워드 추출부를 포함할 수 있다.According to an embodiment of the present invention, there is provided an apparatus for extracting a keyword having an influence on a change in emotional state of a public, the emotional index being calculated using an emotional vocabulary dictionary based on a vocabulary included in each comment in the blog An emotion index calculating unit for extracting emotion change intervals of comments in the blog using the emotion index; and a keyword extracting unit for collecting comments of the emotion change interval and extracting main keywords of the emotion change interval .

상기 키워드 추출 장치는 특정 토픽(topic)에 대한 단어를 포함하는 적어도 하나의 블로그를 기준 시간마다 수집하는 블로그 수집부를 더 포함할 수 있다.The keyword extracting apparatus may further include a blog collecting unit collecting at least one blog including a word for a specific topic at each reference time.

상기 감성 어휘 사전은 특정 어휘의 긍정적(positive) 또는 부정적 의미 방향의 정도를 정량화하여 표현한 어휘 사전일 수 있다.The emotional vocabulary dictionary may be a vocabulary dictionary that quantifies the degree of a positive or negative semantic direction of a specific vocabulary.

상기 감정지수 산출부는 상기 감성 어휘 사전을 이용하여 상기 각각의 코멘트 내의 어휘에 대한 긍정 지수 및 부정 지수를 산출하는 제 1 산출부 및 상기 긍정 지수의 합에서 상기 부정 지수의 합을 뺀 값을 상기 각각의 코멘트의 감정지수로 산출하는 제 2 산출부를 포함할 수 있다.Wherein the emotion index calculating unit comprises a first calculating unit for calculating an affirmative index and an indefinite index for the vocabularies in the respective comments using the emotional vocabulary dictionary and a second calculating unit for calculating a value obtained by subtracting the sum of the negative indices from the sum of the affirmative indices, And a second calculating unit for calculating an emotion index of the comment of the first user.

상기 감정지수 산출부는 기준 시간 내에 포함된 코멘트들의 감성지수의 평균을 이용하여 구간 감정지수를 산출할 수 있다.The emotion index calculator may calculate the interval emotion index using an average of the emotion indexes of the comments included in the reference time.

상기 감성 변화 구간 추출부는 상기 구간 감성지수의 시간적인 변화가 가장 크게 나타난 구간을 상기 감성 변화 구간으로 산출할 수 있다.The emotion change interval extracting unit may calculate the interval in which the temporal change of the interval emotion index is greatest as the emotion change interval.

상기 키워드 추출부는 상기 감성 변화 구간의 코멘트의 내용을 TF-IDF(Term Frequency-Inverse Document Frequency)를 이용하여 출현 빈도가 높은 상기 감성 변화 구간의 주요 키워드를 추출할 수 있다.The keyword extracting unit may extract a main keyword of the emotion change interval having a high appearance frequency by using a term frequency-inverted document frequency (TF-IDF) as a content of a comment of the emotion change period.

상기한 목적을 달성하기 위한 본 발명의 블로그에서 대중의 감성 변화에 영향을 미치는 키워드를 추출하는 시스템은 데이터베이스로부터 블로그 관련 데이터 및 감성 어휘 사전 관련 데이터를 수신하고, 감성 어휘 사전을 이용하여 상기 블로그 내의 각각의 코멘트에 포함된 어휘를 기반으로 감정지수를 산출하고, 상기 감정지수를 이용하여 상기 블로그 내의 코멘트들의 감성 변화 구간을 추출하며, 상기 감성 변화 구간의 코멘트를 수집하여 상기 감성 변화 구간의 주요 키워드를 추출하는 키워드 추출 장치, 상기 블로그와 관련된 데이터 및 상기 감성 어휘 사전 관련 데이터를 저장하는 데이터베이스 및 상기 블로그 상에 코멘트를 제공하고, 상기 주요 키워드 추출 요청을 상기 키워드 추출 장치로 전송하며, 상기 추출된 주요 키워드를 상기 키워드 추출 장치로부터 수신하는 사용자 디바이스를 포함할 수 있다.
According to another aspect of the present invention, there is provided a system for extracting keywords that affect a change in emotional state of a public person, the system including a server for receiving blog related data and emotional vocabulary dictionary related data from a database, Calculating an emotion index based on a vocabulary included in each comment, extracting a sensibility change section of comments in the blog using the emotion index, collecting comments of the sensibility change section, A database for storing data related to the blog, a database for storing the emotional vocabulary dictionary related data, and a comment on the blog, and transmits the main keyword extraction request to the keyword extracting device, If the main keyword is the keyword It may include a user device for receiving from the output device.

본 발명의 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법, 장치 및 시스템에 따르면, 대중의 감성 변화에 영향을 미치는 요인이 되는 키워드를 추출할 경우, 특정 기업이나 사회적 이슈에 대한 대중의 감성변화에 연관된 이유를 추론하는데 도움이 될 것이며, 이는 대중의 니즈(needs)를 사전에 파악하는데 용이하게 하여, 추후 경게적 이익을 창출할 수 있다.
According to the method, apparatus, and system for extracting keywords that affect the emotional change of the public in the blog of the present invention, when extracting keywords that are factors affecting the emotional change of the public, It will help to infer the reasons associated with change, which makes it easier to identify public needs ahead of time, and can later create a gross profit.

도 1은 본 발명의 일 실시예에 따른 키워드 추출 방법이 적용될 수 있는 시스템을 개략적으로 나타낸 블록도,
도 2는 본 발명의 일 실시예에 따른 키워드 추출 방법을 개략적으로 나타낸 흐름도,
도 3은 본 발명의 일 실시예에 따른 키워드 추출 방법의 감정지수 산출 단계를 구체적으로 나타낸 상세흐름도,
도 4는 본 발명의 일 실시예에 따른 키워드 추출 방법의 감정 변화 구간 추출 단계를 구체적으로 나타낸 상세흐름도,
도 5는 본 발명의 일 실시예에 따른 키워드 추출 방법의 주요 키워드 추출 단계를 구체적으로 나타낸 상세흐름도,
도 6은 본 발명의 일 실시예에 따른 키워드 추출 장치를 개략적으로 나타낸 블록도,
도 7은 본 발명의 일 실시예에 따른 키워드 추출 장치의 감정지수 산출부를 구체적으로 나타낸 상세블록도,
도 8은 본 발명의 일 실시예에 따른 키워드 추출 장치의 감성 변화 구간 추출부를 구체적으로 나타낸 상세블록도,
도 9는 본 발명의 일 실시예에 따른 키워드 추출 장치의 키워드 추출부를 구체적으로 나타낸 상세블록도,
도 10은 본 발명의 일 실시예에 따른 키워드 추출 방법에 따라 특정 토픽에 대한 사용자의 감성지수 변화를 나타낸 그래프,
도 11은 본 발명의 일 실시예에 따른 키워드 추출 방법을 적용하여 추출된 상위 키워드를 나타낸 표이다.
1 is a block diagram schematically showing a system to which a keyword extraction method according to an embodiment of the present invention can be applied;
FIG. 2 is a flowchart schematically showing a keyword extracting method according to an embodiment of the present invention;
3 is a detailed flowchart specifically showing the emotion index calculating step of the keyword extracting method according to an embodiment of the present invention,
FIG. 4 is a detailed flowchart specifically illustrating a step of extracting an emotion change section of a keyword extracting method according to an embodiment of the present invention;
FIG. 5 is a detailed flowchart illustrating a key keyword extracting step of a keyword extracting method according to an exemplary embodiment of the present invention;
FIG. 6 is a block diagram schematically showing a keyword extracting apparatus according to an embodiment of the present invention;
FIG. 7 is a detailed block diagram specifically showing an emotion index calculating unit of a keyword extracting apparatus according to an embodiment of the present invention;
8 is a detailed block diagram specifically illustrating a sensibility change section extracting unit of a keyword extracting apparatus according to an embodiment of the present invention,
FIG. 9 is a detailed block diagram specifically showing a keyword extracting unit of a keyword extracting apparatus according to an embodiment of the present invention;
FIG. 10 is a graph showing a change in emotion index of a user for a specific topic according to a keyword extracting method according to an embodiment of the present invention;
11 is a table showing top keywords extracted by applying the keyword extraction method according to an embodiment of the present invention.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.While the invention is susceptible to various modifications and alternative forms, specific embodiments thereof are shown by way of example in the drawings and will herein be described in detail.

그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.It should be understood, however, that the invention is not intended to be limited to the particular embodiments, but includes all modifications, equivalents, and alternatives falling within the spirit and scope of the invention.

제 1, 제 2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제 1 구성요소는 제 2 구성요소로 명명될 수 있고, 유사하게 제 2 구성요소도 제 1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.The terms first, second, etc. may be used to describe various components, but the components should not be limited by the terms. The terms are used only for the purpose of distinguishing one component from another. For example, without departing from the scope of the present invention, the first component may be referred to as a second component, and similarly, the second component may also be referred to as a first component. And / or < / RTI > includes any combination of a plurality of related listed items or any of a plurality of related listed items.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. It is to be understood that when an element is referred to as being "connected" or "connected" to another element, it may be directly connected or connected to the other element, . On the other hand, when an element is referred to as being "directly connected" or "directly connected" to another element, it should be understood that there are no other elements in between.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terminology used in this application is used only to describe a specific embodiment and is not intended to limit the invention. The singular expressions include plural expressions unless the context clearly dictates otherwise. In the present application, the terms "comprises" or "having" and the like are used to specify that there is a feature, a number, a step, an operation, an element, a component or a combination thereof described in the specification, But do not preclude the presence or addition of one or more other features, integers, steps, operations, elements, components, or combinations thereof.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. Terms such as those defined in commonly used dictionaries should be interpreted as having a meaning consistent with the meaning in the context of the relevant art and are to be interpreted in an ideal or overly formal sense unless explicitly defined in the present application Do not.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. In order to facilitate the understanding of the present invention, the same reference numerals are used for the same constituent elements in the drawings and redundant explanations for the same constituent elements are omitted.

키워드 추출 시스템Keyword Extraction System

도 1은 본 발명의 일 실시예에 따른 키워드 추출 방법이 적용될 수 있는 시스템을 개략적으로 나타낸 블록도이다. 도 1에 도시된 바와 같이, 키워드 추출 시스템은 키워드 추출 장치(10), 사용자 디바이스(20-1, 20-2, ..., 20-N), 데이터베이스(30-1, 30-2)를 포함할 수 있다.1 is a block diagram schematically showing a system to which a keyword extraction method according to an embodiment of the present invention can be applied. 1, the keyword extraction system includes a keyword extraction device 10, user devices 20-1, 20-2, ..., 20-N, databases 30-1 and 30-2, .

도 1을 참조하면, 키워드 추출 장치(10)는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드를 추출한다. 여기서, 블로그는 인터넷 카페뿐만 아니라 마이크로 블로그를 포함할 수 있다. 마이크로블로그는 트위터, 페이스북 등과 같은 소셜 네트워크 서비스를 포함할 수 있고, 스마트 폰 상에서 애플리케이션의 형태로 구현될 수 있다. 키워드 추출 장치(10)는 감성 어휘 사전을 기반으로 블로그 내의 각각의 코멘트에 포함된 어휘에 대한 감정지수를 산출하고, 감정지수를 이용하여 감성 변화 구간을 추출하며, 감성 변화 구간 내에 포함된 코멘트를 수집하여 감성 변화 구간의 주요 키워드를 추출할 수 있다. 여기서, 코멘트는 트윗(tweet), 답글(reply) 및 댓글 중 적어도 어느 하나를 포함할 수 있다. 키워드 추출 장치(10)는 블로그 내의 정보(예컨대, 코멘트, 사용자, 사진 등의 데이터)를 블로그 관련 데이터베이스(30-2)에서 수신할 수 있고, 감성 어휘 사전과 관련된 정보는 감성 어휘 사전 데이터베이스(30-1)에서 수신할 수 있다. 키워드 추출 장치(10)는 사용자 디바이스(20-1, 20-2, ..., 20-N)로부터 키워드 추출 요청을 수신할 수 있다. 키워드 추출 요청에는 특정 토픽에 대한 키워드를 추출해 달라는 정보가 포함될 수 있다. 또한, 기간을 특정하여 특정된 기간 내의 주요 키워드를 추출하라는 정보가 포함될 수 있다. 키워드 추출 장치(10)는 상기 요청에 응답하여 사용자 디바이스(20-1, 20-2, ..., 20-N)로 추출된 키워드를 전송할 수 있다.Referring to FIG. 1, the keyword extracting apparatus 10 extracts keywords that affect the emotional change of the public in a blog. Here, the blog may include a microblog as well as an Internet café. The microblog may include social network services such as Twitter, Facebook, etc., and may be implemented in the form of an application on a smart phone. The keyword extracting apparatus 10 calculates an emotion index for the vocabulary included in each comment in the blog based on the emotional vocabulary dictionary, extracts the emotion change interval using the emotion index, And extract key keywords of the sensibility change section. Here, the comment may include at least one of a tweet, a reply, and a comment. The keyword extracting apparatus 10 can receive the information (for example, data of a comment, a user, a photograph, and the like) in the blog in the blog related database 30-2 and the information related to the emotional vocabulary dictionary, -1). The keyword extracting apparatus 10 may receive a keyword extraction request from the user devices 20-1, 20-2, ..., 20-N. The keyword extraction request may include information for extracting a keyword for a specific topic. In addition, information for extracting a main keyword within a specified period by specifying a period may be included. The keyword extracting apparatus 10 may transmit the extracted keywords to the user devices 20-1, 20-2, ..., 20-N in response to the request.

사용자 디바이스(20-1, 20-2, ..., 20-N)는 블로그에 각종 정보를 업로드 클라이언트 장치이다. 사용자 디바이스(20-1, 20-2, ..., 20-N)는 스마트 폰, PC, 태플릿 PC 등 다양한 종류의 장치일 수 있다. 사용자 디바이스(20-1, 20-2, ..., 20-N)는 토픽 또는 기간을 특정하여 키워드를 추출해 달라는 키워드 추출 요청을 키워드 추출 장치로 전송할 수 있다. 또한, 추출된 키워드를 키워드 추출 장치(10)로부터 수신할 수 있다.The user devices 20-1, 20-2, ..., 20-N are client devices that upload various information to the blog. The user devices 20-1, 20-2, ..., 20-N may be various types of devices such as a smart phone, a PC, and a tablet PC. The user devices 20-1, 20-2, ..., 20-N can transmit a keyword extraction request to extract a keyword by specifying a topic or a term to the keyword extraction device. In addition, the extracted keyword can be received from the keyword extracting apparatus 10. [

데이터베이스(30-1, 30-2)는 감성 어휘 사전 데이터베이스(30-1) 및 블로그 관련 데이터베이스(30-2)를 포함할 수 있다. 전술한 바와 같이, 감성 어휘 사전 데이터베이스(30-1)는 감성 어휘 사전과 관련된 정보를 저장하고 있다. 감성 어휘 사전이란 어휘의 긍정적 또는 부정적인 의미 방향의 정도를 정량화하여 표현한 어휘 사전이다. 예컨대, "좋다"는 긍정적 의미로 +0.8의 긍정 지수를, "재밌다"는 긍정적 의미로 +1.4의 긍정지수를 가질 수 있다. 반대로, "나쁘다"는 부정적 의미로 -0.8의 부정 지수를, "재미없다"는 부정적 의미로 -1.4의 부정 지수를 가질 수 있다. 즉, 긍정 또는 부정으로 이분화하는 것이 아니라 긍정 또는 부정의 정도를 정량화하여 수치로 표현되는 특징이 있다. The databases 30-1 and 30-2 may include the emotional vocabulary dictionary database 30-1 and the blog related database 30-2. As described above, the emotional vocabulary dictionary database 30-1 stores information related to the emotional vocabulary dictionary. Emotional vocabulary dictionary is a vocabulary dictionary that quantifies the degree of positive or negative semantic direction of a vocabulary. For example, "good" can have a positive index of +0.8 in the positive sense and positive index of +1.4 in the positive sense of "fun". Conversely, "bad" can have negative index of -0.8 in negative meaning and negative index of -1.4 in negative meaning "not interesting". In other words, there is a characteristic that the degree of affirmation or negation is quantified rather than being differentiated into positive or negative.

블로그 관련 데이터베이스(30-2)는 블로그 내의 각종 정보를 저장하고 있다. 블로그 관련 데이터베이스(30-2)는 키워드 추출 장치(10)로부터의 요청에 따라 검색을 통해 특정 토픽과 관련된 블로그만 반환할 수 있다. The blog related database 30-2 stores various information in the blog. The blog related database 30-2 can return only blogs related to a specific topic through a search in response to a request from the keyword extracting apparatus 10. [

본 발명의 다른 실시예에 따르면, 키워드 추출 장치(10)는 블로그 관련 데이터베이스(30-2)를 포함할 수 있다. 즉, 키워드 추출 장치(10)는 블로그와 관련된 서버로서 클라이언트 장치인 사용자 디바이스들(20-1, 20-2, ..., 20-N)로부터 직접 코멘트를 비롯한 블로그 관련 정보를 수신하여 블로그 관련 데이터베이스(30-2)에 저장하고, 블로그 관련 데이터베이스(30-2)를 이용하여 자료 검색 및 데이터 분석을 직접 수행할 수 있다.
According to another embodiment of the present invention, the keyword extracting apparatus 10 may include a blog related database 30-2. That is, the keyword extracting apparatus 10 receives blog-related information including comments directly from the user devices 20-1, 20-2, ..., 20-N serving as a server related to the blog, Stored in the database 30-2, and directly performed data search and data analysis using the blog related database 30-2.

키워드 추출 방법How to extract keywords

도 2는 본 발명의 일 실시예에 따른 키워드 추출 방법을 개략적으로 나타낸 흐름도이다.2 is a flowchart schematically showing a keyword extraction method according to an embodiment of the present invention.

도 2를 참조하면, 본 발명의 일 실시예에 따른 키워드 추출 장치는 특정 토픽을 입력받는다(S210). 이때, 사용자 디바이스를 통한 키워드 추출 요청을 수신하는 경우, 상기 수신된 요청에 포함된 특정 토픽 관련 정보를 기반으로 토픽 입력을 받을 수 있다. 키워드 추출 요청 수신의 경우가 아닌 경우에는 사용자 인터페이스를 통해 사용자로부터 직접 토픽을 입력받을 수 있다.Referring to FIG. 2, a keyword extracting apparatus according to an embodiment of the present invention receives a specific topic (S210). At this time, when receiving the keyword extraction request through the user device, the topic input may be received based on the specific topic related information included in the received request. If the keyword extraction request is not received, a topic can be input directly from the user through the user interface.

이후, 키워드 추출 장치는 입력된 특정 토픽과 관련된 블로그를 기준 시간마다 수집한다(S220). 키워드 추출 장치는 블로그 관련 데이터베이스에 입력된 특정 토픽 관련 검색 요청을 하고, 검색 요청에 대응되는 블로그를 수집한다. 이를 기준 시간마다 수행할 수 있다. 기준 시간은 감성 변화 구간을 산출하기 위한 시간적인 구간을 의미하며, 12시간으로 설정할 수 있다. 이는 사용자 인터페이스를 통해 변경할 수 있다. 키워드 추출 장치는 12시간마다 특정 토픽에 대한 단어를 포함하는 블로그를 수집한다. Thereafter, the keyword extracting device collects the blogs related to the input specific topic at each reference time (S220). The keyword extracting device makes a search request related to a specific topic entered in the blog related database and collects the blog corresponding to the search request. This can be performed at each reference time. The reference time means a time interval for calculating the sensibility change interval, and can be set to 12 hours. This can be changed via the user interface. The keyword extraction device collects blogs containing words for a particular topic every 12 hours.

다음, 키워드 추출 장치는 수집된 블로그 내의 코멘트에 포함된 어휘를 기반으로 감정지수를 산출한다(S230). 이때, 감성 어휘 사전(30-1)을 이용할 수 있다. 즉, 주관적인 감정을 나타내는 단어의 정량화된 수치 정보를 포함하는 감성 어휘 사전(30-1)을 이용하여 특정 기준 시간 내에 존재하는 코멘트들의 감정지수를 산출할 수 있다. 키워드 추출 장치는 각 코멘트별 감성지수를 이용하여 해당 기간의 특정 토픽에 대한 마이크로블로그의 구간 감성지수의 평균을 산출한다.Next, the keyword extracting apparatus calculates an emotion index based on the vocabulary included in the collected comment in the blog (S230). At this time, the emotional vocabulary dictionary 30-1 can be used. That is, the emotional index of comments existing within a specific reference time can be calculated using the emotional vocabulary dictionary 30-1 including the quantified numerical information of the words expressing subjective feelings. The keyword extracting apparatus calculates the average of the interval sensitivity index of the microblog for a specific topic in the corresponding period by using the emotion index for each comment.

그리고는, 키워드 추출 장치는 산출된 구간 감정지수를 기반으로 감성 변화 구간을 추출한다(S240). 산출된 구간 감성지수를 기반으로 변화가 가장 크게 일어난 구간 또는 변화가 미리 설정한 임계값보다 크게 일어난 구간을 감성 변화 구간으로 추출한다.Then, the keyword extraction unit extracts the emotion change interval based on the calculated interval emotion index (S240). Based on the calculated interval sensitivity index, a section in which the variation is largest or a section in which the variation is greater than a preset threshold value is extracted as a sensitivity variation section.

마지막으로, 키워드 추출 장치는 추출된 감성 변화 구간 시점을 기준으로 마이크로블로그의 내용 분석을 수행하여 주요 키워드를 추출한다(S250). 이때, TF-IDF(Term Frequency-Inverse Document Frequency)를 이용하여 단어의 빈도수를 산출하고, 가장 값이 높은 N개의 키워드를 추출할 수 있다.Finally, the keyword extraction device analyzes the content of the micro blog based on the extracted point of view of the sensibility change period to extract the main keyword (S250). At this time, the frequency of words is calculated using the TF-IDF (Term Frequency-Inverse Document Frequency), and N keywords having the highest value can be extracted.

도 3은 본 발명의 일 실시예에 따른 키워드 추출 방법의 감정지수 산출 단계를 구체적으로 나타낸 상세흐름도이다. FIG. 3 is a detailed flowchart illustrating the emotion index calculating step of the keyword extracting method according to an embodiment of the present invention.

도 3을 참조하면, 감정지수 산출을 위해, 키워드 추출 장치는 먼저 특정 토픽에 대한 블로그를 수집한다(S310). 이는 특정 토픽에 대한 단어를 포함하는 마이크로블로그를 기준 시간(예컨대, 12시간)마다 수집하여 이루어질 수 있다. 그리고는, 키워드 추출 장치는 상기 기준 시간 내에 특정 토픽에 대하여 수집된 블로그의 코멘트의 단어를 분석하여 문장의 내용을 나타내는 단어인지 판단한다(S320). 이는 보다 정확한 감성 분석을 수행하기 위해 데이터 전처리 과정을 통해 문장의 내용을 나타내는데 큰 역할을 하지 않는 기능어인 불용어 및 URL 등 불필요한 용인을 제거하여 정제된 데이터를 획득하기 위함이다. 문장 내용을 나타내는지에 대한 판단은 불용어 처리를 위한 불용어 사전 등을 이용할 수 있다. 판단 결과, 문장의 내용을 나타내지 않는 불용어 및 URL 등은 제외시킨다(S330). 그리고는, 문장의 내용을 나타내는 단어들에 대해 긍정지수 및 부정지수를 산출한다(S340). 이는 전술한 바와 같이, 감성 어휘 사전을 이용하여 이루어진다. 각각의 코멘트에 존재하는 어휘에 대해 감성 어휘 사전을 이용하여 긍정지수 및 부정지수를 계산한다. 그리고는 상기 긍정지수 및 부정지수를 이용하여 상기 코멘트에 대한 감정지수를 산출한다(S350). 이는 다음의 수학식으로 표현할 수 있다.Referring to FIG. 3, in order to calculate the emotion index, the keyword extracting apparatus first collects a blog about a specific topic (S310). This can be done by collecting a microblog containing a word for a particular topic every reference time (e.g., 12 hours). In operation S320, the keyword extracting apparatus analyzes the word of the blog comment collected for the specific topic within the reference time to determine whether it is a word indicating the contents of the sentence. This is to acquire refined data by eliminating unnecessary words such as abbreviations and URLs, which are function words that do not play a big role in expressing the contents of the sentences through the data preprocessing process in order to perform a more accurate emotional analysis. A judgment as to whether or not the contents of a sentence is to be made can be made using an abbreviated word dictionary for the processing of an abbreviated word. As a result of the determination, excluded words and URLs that do not indicate the contents of the sentence are excluded (S330). Then, an affirmative index and a negative index are calculated for the words indicating the contents of the sentence (S340). This is done using the emotional vocabulary dictionary, as described above. The positive and negative indices are calculated using the emotional vocabulary dictionary for each vocabulary in each comment. Then, an affirmation index for the comment is calculated using the positive and negative indices (S350). This can be expressed by the following equation.

Figure 112013069243776-pat00001
Figure 112013069243776-pat00001

여기서, Score는 감정지수를, ti는 각각의 트윗을, w는 단어를, Posscore는 긍정 지수를, Negscore는 부정지수를 의미한다. 즉, 특정 트윗에 대한 감정지수는 그 안에 포함된 단어의 긍정지수의 합에서 부정지수의 합을 뺀 값으로 표현될 수 있다. Here, Score means an emotion index, t i means each tweet, w means a word, Posscore means an affirmative index, and Negscore means a negative index. That is, the emotion index for a specific tweet can be expressed by subtracting the sum of negative indices from the sum of affirmative indices of the words included in the tweet.

그리고는, 기준 시간 내에 포함된 각각의 코멘트의 감정지수를 기반으로 감정지수의 평균을 이용하여 구간 감정지수를 산출할 수 있다(S360).Then, the section emotion index can be calculated using the average of the emotion index based on the emotion index of each comment included in the reference time (S360).

도 4는 본 발명의 일 실시예에 따른 키워드 추출 방법의 감정 변화 구간 추출 단계를 구체적으로 나타낸 상세흐름도이다.FIG. 4 is a detailed flowchart illustrating a step of extracting an emotion change section of a keyword extraction method according to an embodiment of the present invention.

도 4를 참조하면, 키워드 추출 장치는 감정지수 산출 단계에서 기준 시간 단위로 산출되는 구간 감정지수를 수신할 수 있다(S410). 키워드 추출 장치는 수신된 구간 감정지수를 기반으로 이전 구간 감정지수와 현재 구간 감정지수의 차를 이용하여 감정지수의 변화량을 산출하고, 이를 임계값과 비교한다(S420). 이때, 임계값보다 적은 변화량을 갖는 경우는 감정 변화 구간으로 보지 않고, 임계값보다 큰 변화량을 갖는 경우, 현재 구간을 감정 변화 구간으로 추출한다(S430). 임계값은 미리 설정할 수 있고, 사용자 인터페이스를 통해 변경할 수 있다. Referring to FIG. 4, the keyword extracting apparatus may receive an interval emotion index calculated on a reference time basis in the emotion index calculating step (S410). The keyword extracting apparatus calculates the amount of change of the emotion index using the difference between the previous section emotion index and the current section emotion index based on the received section emotion index, and compares it with the threshold value (S420). At this time, if the change amount is smaller than the threshold value, the current interval is extracted as the emotion change interval (S430). The threshold value can be set in advance and can be changed through the user interface.

본 발명의 다른 실시예에 따르면, 상기 감정지수의 변화량 중 가장 큰 변화량을 갖는 구간을 감정 변화 구간으로 추출할 수도 있다. 이때, 판단 대상이 되는 구간을 적절하게 설정하여야 한다. According to another embodiment of the present invention, a section having the largest amount of change in the amount of change of the emotion index may be extracted as the emotion change section. At this time, the section to be judged should be appropriately set.

도 5는 본 발명의 일 실시예에 따른 키워드 추출 방법의 주요 키워드 추출 단계를 구체적으로 나타낸 상세흐름도이다.FIG. 5 is a detailed flowchart illustrating key keyword extraction steps of a keyword extraction method according to an exemplary embodiment of the present invention.

도 5를 참조하면, 감성 변화 구간이 결정되면 감성 변화 구간 내 코멘트를 수집한다(S510). 그리고는 수집된 코멘트 내의 어휘를 수집한다(S520). 이때, 객과적인 의미를 담고 있는 단어인지 판단한다(S530). 판단 결과, 객관적인 단어가 아닌 경우, 감정을 나타내는 어휘가 아닌, 감성 변화에 요인을 미치는 키워드를 추출해야 하므로 감정지수 산출 단계에서 감성 분석에 사용된 주관적인 단어를 제외한다(S540). 객관적인 단어들을 기반으로 TF-IDF를 적용하여 해당 시점과 관련된 복수의 키워드를 추출한다(S550). TF는 단어 빈도로 하나의 문서에서의 단어의 출현 횟수이다. 이는 "해당 단어가 하나의 문서에 출현한 횟수/하나의 문서 안에 출현한 모든 단어가 나타나는 횟수(출현 sum)"로 구할 수 있다. IDF는 한 단어가 전체 문서 중 몇개의 문서에서 출현했는지를 나타낸다. IDF는 "전체 문서의 개수/해당 단어가 출현한 문서의 갯수"로 구할 수 있다. 본 발명에서는 문서는 트윗, 답글 및 댓글을 포함하는 코멘트에 대응될 수 있다. TF와 IDF를 가지고, TF-IDF는 TF와 IDF의 곱으로 산출될 수 있다. 마지막으로, TF-IDF를 통해 출현 빈도를 산출하고 나서 추출된 키워드 중 상위 N개의 키워드를 주요 키워드로 추출한다(S560). 이때, 추출되는 키워드의 수(N)는 설정을 통해 사용자가 변경할 수 있다.
Referring to FIG. 5, when a sensibility change interval is determined, a comment in a sensibility change interval is collected (S510). Then, the collected vocabularies are collected (S520). At this time, it is determined whether the word is a word containing an objection meaning (S530). As a result of the determination, if the keyword is not an objective word, it is necessary to extract keywords that affect the emotional change, not the vocabulary representing the emotional word. Therefore, subjective words used in the emotional analysis are excluded in the emotional index calculation step (S540). The TF-IDF is applied based on objective words to extract a plurality of keywords related to the corresponding time point (S550). TF is the number of occurrences of a word in a document at word frequency. This can be calculated as "the number of occurrences of the word in one document / the number of occurrences of all occurrences in a document". The IDF indicates how many of the entire document a word has appeared in. The IDF can be obtained as "the total number of documents / the number of documents in which the word appears". In the present invention, a document may correspond to a comment including tweets, replies, and comments. With TF and IDF, TF-IDF can be calculated as the product of TF and IDF. Finally, the appearance frequency is calculated through the TF-IDF, and the top N keywords among the extracted keywords are extracted as the main keywords (S560). At this time, the number N of extracted keywords can be changed by the user through setting.

키워드 추출 장치Keyword Extractor

도 6은 본 발명의 일 실시예에 따른 키워드 추출 장치를 개략적으로 나타낸 블록도이다. 도 6에 도시된 바와 같이, 본 발명의 일 실시예에 따른 키워드 추출 장치는 블로그 수집부(610), 감정지수 산출부(620), 감성 변화 구간 추출부(630) 및 키워드 추출부(640)를 포함할 수 있다.6 is a block diagram schematically showing a keyword extracting apparatus according to an embodiment of the present invention. 6, the keyword extracting apparatus according to an exemplary embodiment of the present invention includes a blog collecting unit 610, an emotion index calculating unit 620, a sensibility change period extracting unit 630, and a keyword extracting unit 640, . ≪ / RTI >

도 6을 참조하면, 블로그 수집부(610)는 특정 토픽을 입력받아 입력된 특정 토픽과 관련된 블로그를 기준 시간마다 수집한다. 이때, 사용자 디바이스를 통한 키워드 추출 요청을 수신하는 경우, 상기 수신된 요청에 포함된 특정 토픽 관련 정보를 기반으로 토픽 입력을 받을 수 있고, 경우에 따라 사용자 인터페이스를 통해 사용자로부터 직접 토픽을 입력받을 수 있다. 블로그 수집부(610)는 블로그 관련 데이터베이스에 입력된 특정 토픽 관련 검색 요청을 하고, 검색 요청에 대응되는 블로그를 수집한다. 이를 기준 시간마다 수행할 수 있다. 기준 시간은 감성 변화 구간을 산출하기 위한 시간적인 구간을 의미하며, 12시간으로 설정할 수 있다. 이는 사용자 인터페이스를 통해 변경할 수 있다. 키워드 추출 장치는 12시간마다 특정 토픽에 대한 단어를 포함하는 블로그를 수집한다. Referring to FIG. 6, the blog collection unit 610 receives a specific topic, and collects blogs related to a specific topic input for each reference time. At this time, when receiving the keyword extraction request through the user device, the user can receive the topic input based on the specific topic related information included in the received request, and in some cases, receive the topic directly from the user through the user interface have. The blog collecting unit 610 makes a search request related to a specific topic entered in the blog related database and collects the blog corresponding to the search request. This can be performed at each reference time. The reference time means a time interval for calculating the sensibility change interval, and can be set to 12 hours. This can be changed via the user interface. The keyword extraction device collects blogs containing words for a particular topic every 12 hours.

감정지수 산출부(620)는 수집된 블로그 내의 코멘트에 포함된 어휘를 기반으로 감정지수를 산출한다. 이때, 감성 어휘 사전을 이용할 수 있다. 즉, 주관적인 감정을 나타내는 단어의 정량화된 수치 정보를 포함하는 감성 어휘 사전을 이용하여 특정 기준 시간 내에 존재하는 코멘트들의 감정지수를 산출할 수 있다. 감정지수 산출부(620)는 각 코멘트별 감성지수를 이용하여 해당 기간의 특정 토픽에 대한 마이크로블로그의 구간 감성지수의 평균을 산출하여 구간 감정지수를 산출할 수 있다.The emotion index calculating unit 620 calculates the emotion index based on the vocabulary included in the comments in the collected blog. At this time, the emotional vocabulary dictionary can be used. That is, the emotional index of comments existing within a specific reference time can be calculated using the emotional vocabulary dictionary including the quantified numerical information of the words expressing subjective emotions. The emotion index calculating unit 620 may calculate the interval emotion index by calculating the average of the interval sensitivity index of the micro blog for the specific topic in the corresponding period using the emotion index for each comment.

그리고는, 감성 변화 구간 추출부(630)는 산출된 구간별 감정지수를 기반으로 감성 변화 구간을 추출한다. 산출된 구간별 감성지수를 기반으로 변화가 가장 크게 일어난 구간 또는 변화가 미리 설정한 임계값보다 크게 일어난 구간을 감성 변화 구간으로 추출한다.Then, the sensibility change section extractor 630 extracts the sensibility change section based on the calculated emotion index of each section. Based on the computed emotion index of the interval, the interval where the change occurs most greatly or the interval where the change is larger than the preset threshold value is extracted as the emotion change interval.

마지막으로, 키워드 추출부(640)는 추출된 감성 변화 구간 시점을 기준으로 마이크로블로그의 내용 분석을 수행하여 주요 키워드를 추출한다. 이때, TF-IDF(Term Frequency-Inverse Document Frequency)를 이용하여 단어의 빈도수를 산출하고, 가장 값이 높은 N개의 키워드를 추출할 수 있다. Finally, the keyword extracting unit 640 analyzes the content of the microblog based on the extracted emotion change interval time point to extract the main keyword. At this time, the frequency of words is calculated using the TF-IDF (Term Frequency-Inverse Document Frequency), and N keywords having the highest value can be extracted.

도 7은 본 발명의 일 실시예에 따른 키워드 추출 장치의 감정지수 산출부(620)를 구체적으로 나타낸 상세블록도이다. 도 7에 도시된 바와 같이, 본 발명의 일 실시예에 따른 감정지수 산출부(620)는 어휘별 지수 산출부(710), 제 1 합산부(720), 제 2 합산부(722) 및 코멘트별 감성지수 산출부(730) 및 구간 감성지수 산출부(740)를 포함할 수 있다. 7 is a detailed block diagram specifically showing an emotion index calculating unit 620 of a keyword extracting apparatus according to an embodiment of the present invention. 7, the emotion index calculating unit 620 according to an embodiment of the present invention includes a lexical index calculating unit 710, a first summing unit 720, a second summing unit 722, A sensitivity index calculating unit 730 and a section sensitivity index calculating unit 740. [

도 7을 참조하면, 어휘별 지수 산출부(710)는 기준 시간 내에 특정 토픽에 대하여 수집된 블로그의 코멘트의 단어를 분석하여 문장의 내용을 나타내는 단어인지 판단한다. 이는 보다 정확한 감성 분석을 수행하기 위해 데이터 전처리 과정을 통해 문장의 내용을 나타내는데 큰 역할을 하지 않는 기능어인 불용어 및 URL 등 불필요한 용인을 제거하여 정제된 데이터를 획득하기 위함이다. 문장 내용을 나타내는지에 대한 판단은 불용어 처리를 위한 불용어 사전 등을 이용할 수 있다. 판단 결과, 문장의 내용을 나타내지 않는 불용어 및 URL 등은 제외시킨다. 그리고는, 문장의 내용을 나타내는 단어들에 대해 긍정지수 및 부정지수를 산출한다. 이는 전술한 바와 같이, 감성 어휘 사전을 이용하여 이루어진다. Referring to FIG. 7, the lexical index calculation unit 710 analyzes words of blog comments collected for a specific topic within a reference time, and determines whether the words are words representing the contents of a sentence. This is to acquire refined data by eliminating unnecessary words such as abbreviations and URLs, which are function words that do not play a big role in expressing the contents of the sentences through the data preprocessing process in order to perform a more accurate emotional analysis. A judgment as to whether or not the contents of a sentence is to be made can be made using an abbreviated word dictionary for the processing of an abbreviated word. As a result of judgment, abbreviations and URLs that do not indicate the contents of sentences are excluded. Then, the positive index and the negative index are calculated for the words indicating the contents of the sentence. This is done using the emotional vocabulary dictionary, as described above.

그리고는, 제 1 합산부(720)는 각 단어들의 긍정지수를 합산하여 긍정지수의 합을 산출하고, 제 2 합산부(722)는 각 단어들의 부정지수를 합상하여 부정지수의 합을 산출한다. 그리고는, 코멘트별 감성지수 산출부(730)는 긍정지수의 합에서 부정지수의 합을 뺀 값으로 코멘트별 감성지수를 산출한다. Then, the first summation unit 720 calculates the sum of the affirmative indices by summing the affirmative indices of the respective words, and the second summation unit 722 calculates the sum of negative indices by summing the indefinite indices of the respective words . Then, the per-emotion sensitivity index calculating unit 730 calculates the emotion index for each comment by subtracting the sum of the indefinite exponent from the sum of the affirmative indices.

구간 감성지수 산출부(740)는 기준 시간 내에 포함된 각각의 코멘트의 감정지수를 기반으로 감정지수의 평균을 이용하여 구간 감정지수를 산출할 수 있다.The interval sensitivity index calculating unit 740 may calculate the interval feeling index using the average of the emotion indexes based on the emotion indexes of the respective comments included in the reference time.

도 8은 본 발명의 일 실시예에 따른 키워드 추출 장치의 감성 변화 구간 추출부(630)를 구체적으로 나타낸 상세블록도이다. 도 8에 도시된 바와 같이, 본 발명의 감성 변화 구간 추출부(630)는 감정지수 수신부(810) 및 판단부(820)를 포함할 수 있다.8 is a detailed block diagram specifically showing a sensibility change section extraction unit 630 of the keyword extraction apparatus according to an embodiment of the present invention. 8, the sensibility change section extraction unit 630 may include an emotion index reception unit 810 and a determination unit 820. [

도 8을 참조하면, 감정지수 수신부(810)는 감정지수 산출부(620)로부터 기준 시간 단위로 산출되는 구간 감정지수를 수신할 수 있다. 판단부(820)는 수신된 구간 감정지수를 기반으로 이전 구간 감정지수와 현재 구간 감정지수의 차를 이용하여 감정지수의 변화량을 산출한다. 그리고는, 이를 임계값과 비교한다. 이때, 임계값보다 적은 변화량을 갖는 경우는 감정 변화 구간으로 보지 않고, 임계값보다 큰 변화량을 갖는 경우, 현재 구간을 감정 변화 구간으로 추출한다. 임계값은 미리 설정할 수 있고, 사용자 인터페이스를 통해 변경할 수 있다. Referring to FIG. 8, the emotion index receiving unit 810 may receive an interval emotion index calculated on a reference time basis from the emotion index calculating unit 620. [ The determination unit 820 calculates the amount of change of the emotion index using the difference between the previous section emotion index and the current section emotion index based on the received section emotion index. Then, it compares it with the threshold value. At this time, when the amount of change is smaller than the threshold value, the current interval is extracted as the emotion change interval if the change amount is larger than the threshold value, without regard to the emotion change interval. The threshold value can be set in advance and can be changed through the user interface.

본 발명의 다른 실시예에 따르면, 판단부(820)는 상기 감정지수의 변화량 중 가장 큰 변화량을 갖는 구간을 감정 변화 구간으로 추출할 수도 있다. 이때, 판단 대상이 되는 구간을 적절하게 설정하여야 한다. According to another embodiment of the present invention, the determination unit 820 may extract a section having the largest amount of change in the amount of change of the emotion index as an emotion change period. At this time, the section to be judged should be appropriately set.

도 9는 본 발명의 일 실시예에 따른 키워드 추출 장치의 키워드 추출부(640)를 구체적으로 나타낸 상세블록도이다. 도 9에 도시된 바와 같이, 키워드 추출부(640)는 어휘 제외부(910), TF-IDF 적용부(920) 및 상위 키워드 추출부(930)를 포함할 수 있다.FIG. 9 is a detailed block diagram specifically showing a keyword extracting unit 640 of a keyword extracting apparatus according to an embodiment of the present invention. 9, the keyword extracting unit 640 may include a vocabulary extractor 910, a TF-IDF applying unit 920, and an upper keyword extracting unit 930.

도 9를 참조하면, 어휘 제외부(910)는 결정된 감성 변화 구간 내 코멘트를 수집한다. 그리고는 수집된 코멘트 내의 어휘를 수집한다. 이때, 객관적인 의미를 담고 있는 단어인지 판단하여, 객관적인 단어가 아닌 경우, 감성 변화에 요인을 미치는 키워드가 아니라고 판단하여 제외한다. Referring to FIG. 9, the vocabulary extractor 910 collects comments in the determined emotion change interval. It then collects the vocabularies in the collected comments. At this time, it is judged whether or not it is a word containing an objective meaning, and if it is not an objective word, it is judged that it is not a keyword which causes a change in sensitivity, and is excluded.

TF-IDF 적용부(920)는 어휘 제외부(910)에서 제외한 단어를 뺀 나머지 객관적인 단어들을 기반으로 TF-IDF를 적용하여 해당 시점과 관련된 복수의 키워드를 추출한다. The TF-IDF application unit 920 extracts a plurality of keywords related to the corresponding point by applying TF-IDF based on objective words obtained by subtracting words excluded from the vocabulary-making unit 910.

마지막으로, 상위 키워드 추출부(930)는 TF-IDF 적용부(920)를 통해 출현 빈도를 산출하고 나서 추출된 키워드 중 상위 N개의 키워드를 주요 키워드로 추출한다(S560). 이때, 추출되는 키워드의 수(N)는 설정을 통해 사용자가 변경할 수 있다.
Finally, the high-level keyword extracting unit 930 calculates an appearance frequency through the TF-IDF applying unit 920 and then extracts the top N keywords among the extracted keywords as a main keyword (S560). At this time, the number N of extracted keywords can be changed by the user through setting.

시뮬레이션 결과Simulation result

(1) 실험데이터(1) Experimental data

사용된 데이터는 마이크로 블로그의 한 종류인 트위터의 트윗이며, Spinn3r API2)를 이용하여 2011년 3월 21일부터 2011년 4월 15일까지 총 25일간 수집되었다. 토픽을 ‘애플(Apple)’과 ‘삼성(Samsung)’으로 선정한 후, 이와 연관된 단어를 포함한 트윗을 12시간 단위로 수집하였으며, 트윗의 내용과 트윗이 작성된 시간기록을 이용하였다. ‘애플’의 경우 606,357개, ‘삼성’의 경우 41,715개의 데이터가 수집되었다. 수집된 데이터를 전처리 과정을 통해 문장에서 내용을 나타내는데 큰 역할을 하지 않는 기능어인 불용어(stopword) 및 URL 등 실험에 불필요한 요인들을 제거하였다.
The data used is a Twitter tweet that is a type of microblog, and was collected for a total of 25 days from March 21, 2011 to April 15, 2011 using Spinn3r API2). After selecting topics as 'Apple' and 'Samsung', tweets containing related words were collected in 12-hour increments, and the contents of the tweets and the time recorded in the tweets were used. 606,357 for 'Apple', and 41,715 for 'Samsung'. We eliminated unnecessary factors such as stopwords and URLs, which are functional words that do not play a big role in expressing contents in the sentences through preprocessing of the collected data.

(2) 실험결과(2) Experimental results

25일간 특정 토픽으로 지정된 ‘애플(Apple)’과 삼성‘(Samsung)’을 포함한 트윗들을 수집하고 SentiWordNet 감성사전을 이용하여 12시간 단위로 감성분석을 수행하였다.Twenty - five days' tweets including 'Apple' and 'Samsung' designated as a specific topic were collected and emotional analysis was performed in 12 - hour unit using SentiWordNet emotion dictionary.

도 10은 본 발명의 일 실시예에 따른 키워드 추출 방법에 따라 특정 토픽에 대한 사용자의 감성지수 변화를 나타낸 그래프이다. FIG. 10 is a graph illustrating changes in emotion index of a user to a specific topic according to a keyword extraction method according to an embodiment of the present invention.

도 10을 참조하면, 계산된 감성지수(Score)의 평균을 이용하여 시간에 따른 사용자들의 감성변화를 확인할 수 있다. 감성지수의 변화가 가장 크게 일어난 구간은 애플의 경우 4월 13일에서 14일, 삼성의 경우 3월 27일에서 28일이고, 이를 감성 변화 구간으로 추출할 수 있다. Referring to FIG. 10, a change in emotion of the user over time can be confirmed using the calculated average of the emotion index (Score). In the case of Apple, the most significant change in emotional index is from April 13 to April 14, and for Samsung from March 27 to 28, it can be extracted as emotional change interval.

그리고는, 해당 기간(애플의 경우 4월 13일에서 14일, 삼성의 경우 3월 27일에서 28일)의 트윗을 수집하여 TF-IDF를 수행했다. Then, I collected TF-IDF by collecting tweets from April 13th to April 14th for Apple and from March 27th to March 28th for Samsung.

도 11은 본 발명의 일 실시예에 따른 키워드 추출 방법을 적용하여 추출된 상위 키워드를 나타낸 표이다. 도 11에 도시된 바와 같이, TF-IDF를 통해 출현빈도가 높은 상위 키워드 Top 10개를 추출하였다. 11 is a table showing top keywords extracted by applying the keyword extraction method according to an embodiment of the present invention. As shown in FIG. 11, top 10 top keywords with high frequency of occurrence are extracted through TF-IDF.

애플 관련 긍정의 감성지수가 높아지는 시점에 추출된 키워드 중 ‘kindergartner’, ‘crayons’ 의 경우, 4월 13일 미국 메인(Maine) 주의 한 학교가 모든 유치원생들에게 아이패드를 나눠준 바가 있다. 삼성의 경우, ‘un32d6500'은 삼성 제품 중 새롭게 출시된 32-inch 3D Ready LED HDTV를 나타낸다. 이러한 사회이벤트는 긍정적 감성변화에 영향을 미친다고 볼 수 있으며, 10개의 키워드 중에 애플의 경우 1개, 삼성의 경우 2개를 제외한 나머지 키워드가 모두 긍정에 영향을 미치는 키워드였다.In the case of 'kindergartner' and 'crayons' among the extracted keywords at the time when the affinity for positive affection related to Apple increased, a school in Maine, USA, distributed the iPad to all kindergartners on April 13th. For Samsung, 'un32d6500' represents the newly released 32-inch 3D Ready LED HDTV from Samsung. These social events affect positive emotional changes. Among the 10 keywords, one keyword for Apple and two keywords for Samsung affect positive affects.

이는 본 발명에서 제안하는 방법을 통하여 추출된 키워드와 사회이벤트와의 연관성을 보았을 때, 실제 소비자들의 감성변화에 영향을 미치는 사회이벤트를 추측하는데 큰 가능성이 있음을 보여준다.This shows that there is a great possibility in guessing social events that affect the emotional change of actual consumers when the association between the keyword extracted through the method proposed by the present invention and the social event is examined.

이상 도면 및 실시예를 참조하여 설명하였지만, 본 발명의 보호범위가 상기 도면 또는 실시예에 의해 한정되는 것을 의미하지는 않으며 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
It will be apparent to those skilled in the art that various modifications and variations can be made in the present invention without departing from the spirit or scope of the inventions as defined by the following claims It will be understood that various modifications and changes may be made thereto without departing from the spirit and scope of the invention.

Claims (21)

블로그에서 대중의 감성 변화에 영향을 미치는 키워드를 추출하는 방법에 있어서,
상기 블로그 내의 각각의 코멘트에 포함된 어휘를 기반으로 감성 어휘 사전을 이용하여 특정 코멘트에서 감정을 나타내는 정보를 지시하는 감정지수를 산출하는 감정지수 산출 단계;
상기 감정지수의 변화량을 검출하여 상기 블로그의 감성 변화 구간을 추출하는 감성 변화 구간 추출 단계; 및
상기 감성 변화 구간의 코멘트를 수집하여 상기 감성 변화 구간에서 감정 변화에 영향을 미치는 주요 키워드를 추출하는 키워드 추출 단계를 포함하는 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법.
In a method for extracting keywords that affect the emotional change of a public in a blog,
An emotion index calculating step of calculating an emotion index indicating information indicating emotion in a specific comment using the emotional vocabulary dictionary based on the vocabulary included in each comment in the blog;
A sensibility change section extracting step of detecting a change amount of the emotion index and extracting a sensibility change section of the blog; And
And a keyword extracting step of collecting comments of the emotional change section and extracting key keywords affecting emotional change in the emotional change section.
제 1 항에 있어서,
특정 토픽(topic)에 대한 단어를 포함하는 적어도 하나의 블로그를 기준 시간마다 수집하는 단계를 더 포함하는 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법.
The method according to claim 1,
The method of claim 1, further comprising collecting at least one blog including a word for a specific topic at each reference time.
제 1 항에 있어서, 상기 감정지수 산출 단계는
상기 각각의 코멘트에 대해 데이터 전처리 과정을 통해 문장의 내용을 나타내는데 역할을 하지 않는 기능어를 제거하여 정제된 데이터를 획득하는 단계를 포함하는 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법.
The method according to claim 1, wherein the emotion index calculating step
And extracting the refined data by removing a function word that does not serve to represent the contents of the sentence through the data preprocessing process for each comment. Way.
제 1 항에 있어서,
상기 감성 어휘 사전은 특정 어휘의 긍정적(positive) 또는 부정적 의미 방향의 정도를 정량화하여 표현한 어휘 사전인 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법.
The method according to claim 1,
The emotional vocabulary dictionary is a vocabulary dictionary that quantifies the degree of a positive or negative semantic direction of a specific vocabulary. The keyword extraction method affects the emotional change of the public in a blog.
제 1 항에 있어서, 상기 감정지수 산출 단계는
상기 감성 어휘 사전을 이용하여 상기 각각의 코멘트 내의 어휘에 대한 긍정(positive) 지수 및 부정(negative) 지수를 산출하는 단계; 및
상기 긍정 지수의 합에서 상기 부정 지수의 합을 뺀 값을 상기 각각의 코멘트의 감정지수로 산출하는 단계를 포함하는 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법.
The method according to claim 1, wherein the emotion index calculating step
Calculating a positive index and a negative index for a vocabulary in each comment using the emotional vocabulary dictionary; And
And calculating a value obtained by subtracting the sum of the negative indices from the sum of the affirmative indices as an emotion index of each comment.
제 5 항에 있어서, 상기 감정지수 산출 단계는
기준 시간 내에 존재하는 상기 각각의 코멘트의 감정지수를 산출하여 구간 감정지수를 산출하는 단계를 포함하는 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법.
6. The method according to claim 5, wherein the emotion index calculating step
Calculating an emotion index of each of the comments existing within a reference time and calculating an interval emotion index; and extracting a keyword that affects the emotional change of the public in the blog.
제 6 항에 있어서, 상기 감정지수 산출 단계는
기준 시간 내에 존재하는 상기 각각의 코멘트들의 감정지수의 평균을 이용하여 상기 구간 감정지수를 산출하는 단계를 포함하는 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법.
7. The method according to claim 6, wherein the emotion index calculating step
And calculating the interval emotion index using an average of the emotion exponents of the respective comments existing within the reference time.
제 6 항에 있어서, 상기 감성 변화 구간 추출 단계는
상기 구간 감정지수의 시간적인 변화가 가장 크게 나타난 구간을 상기 감성 변화 구간으로 산출하는 단계를 포함하는 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법.
7. The method of claim 6, wherein the emotional change interval extraction step
And calculating a period in which the temporal change of the interval emotion index is greatest as the emotion change interval.
제 6 항에 있어서, 상기 감성 변화 구간 추출 단계는
상기 구간 감정지수의 시간적인 변화가 미리 설정된 임계값보다 큰 구간을 상기 감성 변화 구간으로 산출하는 단계를 포함하는 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법.
7. The method of claim 6, wherein the emotional change interval extraction step
And calculating a period of time in which the temporal change of the interval emotion index is greater than a predetermined threshold value as the emotion change interval.
제 1 항에 있어서, 상기 키워드 추출 단계는
상기 감성 변화 구간의 코멘트의 내용을 TF-IDF(Term Frequency-Inverse Document Frequency)를 이용하여 출현 빈도가 상대적으로 높은 상위 n개(n은 임의의 자연수)의 키워드를 상기 감성 변화 구간의 주요 키워드로 추출하는 단계를 포함하는 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법.
2. The method according to claim 1,
(N is an arbitrary natural number) having a relatively high appearance frequency by using the TF-IDF (Temporary Frequency-Inverse Document Frequency) as the main keyword of the sensibility change section And extracting a keyword from the blog, the keyword being affected by a change in emotion of the public in a blog.
제 10 항에 있어서, 상기 키워드 추출 단계는
상기 감성 변화 구간의 코멘트 내용 중 상기 감정지수 산출에 사용된 어휘를 제외하여 객관적인 어휘를 중심으로 상기 주요 키워드를 추출하는 단계를 포함하는 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법.
11. The method according to claim 10,
And extracting the main keyword based on an objective vocabulary excluding the vocabulary used in calculating the emotion index among the contents of the comment of the emotional change section. Way.
제 1 항에 있어서,
상기 블로그는 마이크로 블로그(micro-blog)인 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법.
The method according to claim 1,
Wherein the blog is a micro-blog, wherein the blog is a micro-blog.
제 1 항에 있어서,
상기 코멘트는 트윗(tweet), 답글(reply) 및 댓글 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법.
The method according to claim 1,
Wherein the comment includes at least one of a tweet, a reply, and a comment.
블로그에서 대중의 감성 변화에 영향을 미치는 키워드를 추출하는 장치에 있어서,
상기 블로그 내의 각각의 코멘트에 포함된 어휘를 기반으로 감성 어휘 사전을 이용하여 특정 코멘트에서 감정을 나타내는 정도를 지시하는 감정지수를 산출하는 감정지수 산출부;
상기 감정지수의 변화량을 검출하여 상기 블로그 내의 코멘트들의 감성 변화 구간을 추출하는 감성 변화 구간 추출부; 및
상기 감성 변화 구간의 코멘트를 수집하여 상기 감성 변화 구간에서 감정 변화에 영향을 미치는 주요 키워드를 추출하는 키워드 추출부를 포함하는 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 장치.
An apparatus for extracting keywords that affect a change in emotion of a public in a blog,
An emotion index calculating unit for calculating an emotion index indicating a degree of emotion in a specific comment by using an emotional vocabulary dictionary based on a vocabulary included in each comment in the blog;
A sensibility change section extracting section for detecting a change amount of the emotion index and extracting a sensibility change section of comments in the blog; And
And a keyword extracting unit for collecting comments of the emotion change period and extracting key keywords affecting the emotion change in the emotion change period.
제 14 항에 있어서,
특정 토픽(topic)에 대한 단어를 포함하는 적어도 하나의 블로그를 기준 시간마다 수집하는 블로그 수집부를 더 포함하는 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 장치.
15. The method of claim 14,
And a blog collection unit for collecting at least one blog including a word for a specific topic at each reference time.
제 14 항에 있어서,
상기 감성 어휘 사전은 특정 어휘의 긍정적(positive) 또는 부정적 의미 방향의 정도를 정량화하여 표현한 어휘 사전인 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 장치.
15. The method of claim 14,
Wherein the emotional vocabulary dictionary is a vocabulary dictionary in which the degree of a positive or negative semantic direction of a specific vocabulary is quantified and expresses the degree of the positive or negative semantic direction of the specific vocabulary.
제 14 항에 있어서, 상기 감정지수 산출부는
상기 감성 어휘 사전을 이용하여 상기 각각의 코멘트 내의 어휘에 대한 긍정 지수 및 부정 지수를 산출하는 제 1 산출부; 및
상기 긍정 지수의 합에서 상기 부정 지수의 합을 뺀 값을 상기 각각의 코멘트의 감정지수로 산출하는 제 2 산출부를 포함하는 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 장치.
15. The apparatus of claim 14, wherein the emotion index calculating unit
A first calculation unit for calculating positive and negative indices for the vocabulary in each comment using the emotional vocabulary dictionary; And
And a second calculation unit for calculating a value obtained by subtracting the sum of the indefinite exponent from the sum of the affirmative indices as an emotion index of each comment.
제 14 항에 있어서, 상기 감정지수 산출부는
기준 시간 내에 포함된 코멘트들의 감정지수의 평균을 이용하여 구간 감정지수를 산출하는 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 장치.
15. The apparatus of claim 14, wherein the emotion index calculating unit
And calculating an interval emotion index using the average of the emotion indexes of the comments included in the reference time.
제 18 항에 있어서, 상기 감성 변화 구간 추출부는
상기 구간 감정지수의 시간적인 변화가 가장 크게 나타난 구간을 상기 감성 변화 구간으로 산출하는 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 장치.
19. The method according to claim 18, wherein the emotional change section extracting section
Wherein a section in which the temporal change of the section emotion index is greatest is calculated as the emotion change section.
제 14 항에 있어서, 상기 키워드 추출부는
상기 감성 변화 구간의 코멘트의 내용을 TF-IDF(Term Frequency-Inverse Document Frequency)를 이용하여 출현 빈도가 상대적으로 높은 상위 n개(n은 임의의 자연수)의 키워드를 상기 감성 변화 구간의 주요 키워드로 추출하는 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 장치.
15. The apparatus of claim 14, wherein the keyword extracting unit
(N is an arbitrary natural number) having a relatively high appearance frequency by using the TF-IDF (Temporary Frequency-Inverse Document Frequency) as the main keyword of the sensibility change section Extracting a keyword that affects the emotional change of the public in a blog.
블로그에서 대중의 감성 변화에 영향을 미치는 키워드를 추출하는 시스템에 있어서,
데이터베이스로부터 블로그 내의 데이터 및 감성 어휘 사전에 포함된 데이터를 수신하고, 감성 어휘 사전을 이용하여 상기 블로그 내의 각각의 코멘트에 포함된 어휘를 기반으로 특정 코멘트에서 감정을 나타내는 정도를 지시하는 감정지수를 산출하고, 상기 감정지수의 변화량을 검출하여 상기 블로그 내의 코멘트들의 감성 변화 구간을 추출하며, 상기 감성 변화 구간의 코멘트를 수집하여 상기 감성 변화 구간에서 감정 변화에 영향을 미치는 주요 키워드를 추출하는 키워드 추출 장치;
상기 블로그와 관련된 데이터 및 상기 감성 어휘 사전 관련 데이터를 저장하는 데이터베이스; 및
상기 블로그 상에 코멘트를 제공하고, 상기 주요 키워드 추출 요청을 상기 키워드 추출 장치로 전송하며, 상기 추출된 주요 키워드를 상기 키워드 추출 장치로부터 수신하는 사용자 디바이스를 포함하는 것을 특징으로 하는 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 시스템.
A system for extracting keywords that affect the emotional change of the public in a blog,
The data in the blog and the data included in the emotional vocabulary dictionary are received from the database and an emotional index indicating the degree of emotion in the specific comment based on the vocabulary included in each comment in the blog is calculated using the emotional vocabulary dictionary Extracting a sensibility change section of comments in the blog by detecting a change amount of the emotion index, collecting comments of the sensibility change section, and extracting a main keyword influencing emotion change in the sensibility change section, ;
A database for storing data related to the blog and the emotional vocabulary dictionary related data; And
And a user device for providing a comment on the blog, transmitting the key keyword extraction request to the keyword extracting device, and receiving the extracted main keyword from the keyword extracting device. A Keyword Extraction System Affecting Change.
KR20130090408A 2013-07-30 2013-07-30 Method, apparatus and system for extracting keyword affecting for mood change of the public using blog KR101491628B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR20130090408A KR101491628B1 (en) 2013-07-30 2013-07-30 Method, apparatus and system for extracting keyword affecting for mood change of the public using blog

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20130090408A KR101491628B1 (en) 2013-07-30 2013-07-30 Method, apparatus and system for extracting keyword affecting for mood change of the public using blog

Publications (1)

Publication Number Publication Date
KR101491628B1 true KR101491628B1 (en) 2015-02-12

Family

ID=52593272

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20130090408A KR101491628B1 (en) 2013-07-30 2013-07-30 Method, apparatus and system for extracting keyword affecting for mood change of the public using blog

Country Status (1)

Country Link
KR (1) KR101491628B1 (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160133199A (en) * 2015-05-12 2016-11-22 대한민국(국민안전처 국립재난안전연구원장) Disaster sentiment classification based on the big data meaning and the method for preventing the disaster using the same
KR20160133198A (en) * 2015-05-12 2016-11-22 대한민국(국민안전처 국립재난안전연구원장) Disaster detection technique based on the key word relevance and the method for managing the disaster using the same
KR101700836B1 (en) * 2015-12-21 2017-02-13 한국과학기술정보연구원 Method and system for building emotional dictionary using comment of book
CN106445914A (en) * 2016-09-13 2017-02-22 清华大学 Microblog emotion classifier establishing method and device
KR101733911B1 (en) * 2016-02-12 2017-05-24 전북대학교산학협력단 Module for analyzing of subscriber's tendency by uploaded contents to social network
KR101794409B1 (en) * 2015-08-05 2017-11-06 라인 가부시키가이샤 System and method for collecting emotion and activity of user based on instant message
WO2020106333A1 (en) * 2018-11-21 2020-05-28 Intuit Inc. Visualizing comment sentiment
KR20220005293A (en) * 2020-07-06 2022-01-13 주식회사 우리은행 Method and apparatus for monitoring social data
KR20220142705A (en) * 2021-04-15 2022-10-24 연세대학교 원주산학협력단 Real-time comment judgment device and method using ultra-high-speed artificial analysis intelligence

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040042012A (en) * 2002-11-12 2004-05-20 이정현 System and method for recommend textile pattern using sensibility vocabulary
JP2011198393A (en) 2011-06-29 2011-10-06 Yahoo Japan Corp User interest analyzing device, method, and program
KR20120108095A (en) * 2011-03-23 2012-10-05 김병훈 System for analyzing social data collected by communication network
JP2013529331A (en) 2010-04-30 2013-07-18 トムソン ライセンシング Automatic image discovery and recommendation for viewing television content

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040042012A (en) * 2002-11-12 2004-05-20 이정현 System and method for recommend textile pattern using sensibility vocabulary
JP2013529331A (en) 2010-04-30 2013-07-18 トムソン ライセンシング Automatic image discovery and recommendation for viewing television content
KR20120108095A (en) * 2011-03-23 2012-10-05 김병훈 System for analyzing social data collected by communication network
JP2011198393A (en) 2011-06-29 2011-10-06 Yahoo Japan Corp User interest analyzing device, method, and program

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160133198A (en) * 2015-05-12 2016-11-22 대한민국(국민안전처 국립재난안전연구원장) Disaster detection technique based on the key word relevance and the method for managing the disaster using the same
KR101685334B1 (en) * 2015-05-12 2016-12-12 대한민국 Disaster detection technique based on the key word relevance and the method for managing the disaster using the same
KR101685335B1 (en) * 2015-05-12 2016-12-12 대한민국 The disaster sentiment classifying method based on the big data meaning
KR20160133199A (en) * 2015-05-12 2016-11-22 대한민국(국민안전처 국립재난안전연구원장) Disaster sentiment classification based on the big data meaning and the method for preventing the disaster using the same
KR101794409B1 (en) * 2015-08-05 2017-11-06 라인 가부시키가이샤 System and method for collecting emotion and activity of user based on instant message
KR101700836B1 (en) * 2015-12-21 2017-02-13 한국과학기술정보연구원 Method and system for building emotional dictionary using comment of book
KR101733911B1 (en) * 2016-02-12 2017-05-24 전북대학교산학협력단 Module for analyzing of subscriber's tendency by uploaded contents to social network
CN106445914B (en) * 2016-09-13 2020-06-19 清华大学 Construction method and construction device of microblog emotion classifier
CN106445914A (en) * 2016-09-13 2017-02-22 清华大学 Microblog emotion classifier establishing method and device
WO2020106333A1 (en) * 2018-11-21 2020-05-28 Intuit Inc. Visualizing comment sentiment
US10789429B2 (en) 2018-11-21 2020-09-29 Intuit, Inc. Visualizing comment sentiment
AU2019383320B2 (en) * 2018-11-21 2021-05-20 Intuit Inc. Visualizing comment sentiment
US11113477B2 (en) 2018-11-21 2021-09-07 Intuit, Inc. Visualizing comment sentiment
KR20220005293A (en) * 2020-07-06 2022-01-13 주식회사 우리은행 Method and apparatus for monitoring social data
KR102353609B1 (en) * 2020-07-06 2022-01-19 주식회사 우리은행 Method and apparatus for monitoring social data
KR20220142705A (en) * 2021-04-15 2022-10-24 연세대학교 원주산학협력단 Real-time comment judgment device and method using ultra-high-speed artificial analysis intelligence
KR102502454B1 (en) * 2021-04-15 2023-02-21 연세대학교 원주산학협력단 Real-time comment judgment device and method using ultra-high-speed artificial analysis intelligence

Similar Documents

Publication Publication Date Title
KR101491628B1 (en) Method, apparatus and system for extracting keyword affecting for mood change of the public using blog
US10810499B2 (en) Method and apparatus for recommending social media information
Biyani et al. " 8 amazing secrets for getting more clicks": detecting clickbaits in news streams using article informality
Zhao et al. Topical keyphrase extraction from twitter
Huang et al. Detecting suicidal ideation in Chinese microblogs with psychological lexicons
Jaech et al. Talking to the crowd: What do people react to in online discussions?
WO2018214164A1 (en) Recommending friends in automated chatting
US8965867B2 (en) Measuring and altering topic influence on edited and unedited media
Zahoor et al. Twitter sentiment analysis using lexical or rule based approach: a case study
KR20120108095A (en) System for analyzing social data collected by communication network
JP6776310B2 (en) User-Real-time feedback information provision methods and systems associated with input content
CN110287405B (en) Emotion analysis method, emotion analysis device and storage medium
KR20150086441A (en) Connecting people based on content and relational distance
CN107203520A (en) The method for building up of hotel's sentiment dictionary, the sentiment analysis method and system of comment
Wijeratne et al. Feature engineering for Twitter-based applications
Cortelazzo et al. Improving Labbé’s intertextual distance: testing a revised version on a large corpus of Italian literature
JP5435249B2 (en) Event analysis apparatus, event analysis method, and program
CN113934941A (en) User recommendation system and method based on multi-dimensional information
Belkaroui et al. Towards events tweet contextualization using social influence model and users conversations
Ahiladas et al. Ruchi: Rating individual food items in restaurant reviews
Charalampakis et al. Detecting irony on greek political tweets: A text mining approach
Radhika et al. Personalized language-independent music recommendation system
US10176176B2 (en) Assistance for video content searches over a communication network
EP3956781A1 (en) Irrelevancy filtering
Tiwary et al. Determination Of Category–Wise Influential Users Using Information Retrieval Technique from Twitter

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180201

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190104

Year of fee payment: 5