KR20220067621A

KR20220067621A - 악성댓글 판별 및 건전도 추출방법

Info

Publication number: KR20220067621A
Application number: KR1020200153446A
Authority: KR
Inventors: 문종민
Original assignee: 문종민
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2022-05-25

Abstract

본 발명은 악성댓글 판별 및 건전도 추출방법에 관한 것으로서, 파이썬(python) 웹크롤링 소스를 이용하여 포털사이트의 게시글에 포함된 댓글을 수집하는 단계와, 수집된 상기 댓글로부터 형태소를 추출하고 전처리하는 단계와, 상기 전처리된 데이터를 기반으로 하여 서포트 벡터 머신(Support Vector Machine) 알고리즘에 의해 기계학습하고 상기 댓글이 감성유형 사전에 저장된 단어를 포함하는지 여부를 판단하여 모델링을 통해 댓글의 악성여부를 판별하는 단계와, 상기 댓글이 감성유형사전에 저장된 단어를 포함하는 경우 미리 설정된 가중치를 적용하는 단계와, 상기 가중치가 적용된 결과값을 도출하고 악성여부와 댓글의 건전도값을 추출하는 단계를 포함하여, 기계학습과 형태소 분석을 통해 댓글의 악성여부를 판단할 수 있고, 언어폭력, 폭로, 아이디 도용, 사기, 스토킹, 따돌림, 성적모욕 등 복수 개의 감성유형사전을 구축하고 형태소 분석이 완료된 댓글에 대하여 가중치를 부여하여 댓글의 악성여부와 건전도값을 추출할 수 있으므로, 댓글의 악성정도를 더욱 구체적으로 판단하고 자동적으로 차단할 수 있다.

Description

악성댓글 판별 및 건전도 추출방법{METHOD FOR DETERMINING BAD COMMENTS AND EVALUATING MALICIOUS COMMENTS}

본 발명은 악성댓글 판별 및 건전도 추출방법에 관한 것으로서, 더욱 상세하게는 기계학습과 형태소 분석을 통해 댓글의 건전도를 추출하여 악성 댓글여부를 판단하는 방법에 관한 것이다.

일반적으로, 인터넷, 스마트폰, 소셜네트워크서비스(SNS) 등 정보통신 기술의 보급, 확산으로 사람들은 이전보다 많은 정보를 보다 손쉽게 취득하는 것이 가능해졌다. 하지만, 이러한 기술의 발전을 통해 얻게 되는 편리함의 부작용으로 악성댓글, 음란물, 가짜뉴스 등 인터넷 유해 정보의 범람으로 인한 각종 사회문제가 발생하게 되었다.

그 중에서도 최근 인터넷 악성댓글이 사회적 문제로 대두되고 있으며, 유명 연예인들의 자살을 계기로 다시 화제가 되고 있다.

인터넷을 이용하는 사용자들은 단순히 콘텐츠를 소비하는 것에 그치지 않고, 댓글을 통해 해당 콘텐츠에 대한 적극적인 의견을 표시한다. 많은 사용자들이 접속하는 웹 페이지에 게시된 콘텐츠의 경우, 콘텐츠 하나에 대해 생성된 댓글만 해도 수백 개에서 수천 개에 이르기도 한다. 댓글을 통해 여론이나 의견 형성이 이루어지기도 할 뿐만 아니라, 콘텐츠 제공자는 댓글을 통해 사용자 의견을 피드백받는 주요한 수단으로써 활용한다.

그러나, 댓글 이용자들이 늘어나면서 댓글을 자신의 불만을 토로하거나 악의적으로 남을 공격하는 수단으로 이용하는 이용자도 늘어나기 시작하였다. 인터넷의 익명성을 악용하여, 욕설 또는 음란어 등과 같은 비속어를 사용하여 남을 헐뜯거나 허위 사실을 퍼뜨리는 댓글에 대해 악성 리플, 즉 '악플'이라는 신조어도 만들어지게 되었다. 일부 사용자들이 혐오 표현을 포함하는 댓글을 작성하는데, 혐오 댓글은 인터넷의 특성상 청소년을 비롯한 다수의 사용자들에게 노출되어 사이버 폭력 을 야기한다.

악플을 차단하기 위한 방법들이 존재하나, 기존 방법들은 스팸성 댓글을 필터링하는데 집중되어 있다. 또한, 기존 방법들은 등록된 데이터베이스를 이용해 혐오 댓글을 필터링하기 때문에 데이터베이스에 등록되지 않는 새로운 혐오 표현을 필터링할 수 없는 한계가 있다.

한국공개특허 10-2009-0103171호(댓글 자동 필터링 방법)

본 발명은 상술한 종래기술의 문제점을 해결하고자 하는 것으로서, 본 발명의 목적은 기계학습과 형태소 분석을 통해 댓글의 건전도를 추출하여 악성 댓글여부를 판단하여 자동적으로 차단할 수 있도록 하는 방법에 관한 것이다.

상술한 목적을 달성하기 위하여, 본 발명에 의한 악성댓글 판별 및 건전도 추출방법은, 파이썬(python) 웹크롤링 소스를 이용하여 포털사이트의 게시글에 포함된 댓글을 수집하는 단계와, 수집된 상기 댓글로부터 형태소를 추출하고 전처리하는 단계와, 상기 전처리된 데이터를 기반으로 하여 서포트 벡터 머신(Support Vector Machine) 알고리즘에 의해 기계학습하고 상기 댓글이 감성유형 사전에 저장된 단어를 포함하는지 여부를 판단하여 모델링을 통해 댓글의 악성여부를 판별하는 단계와, 상기 댓글이 감성유형사전에 저장된 단어를 포함하는 경우 미리 설정된 가중치를 적용하는 단계와, 상기 가중치가 적용된 결과값을 도출하고 악성여부와 댓글의 건전도값을 추출하는 단계를 포함하는 것을 특징으로 한다.

여기서, 상기 감성유형사전은 댓글의 유형에 따라 복수 개의 감성사전으로 사전에 구축되는 것을 특징으로 한다.

여기서, 상기 감성유형사전은 언어폭력, 폭로, 아이디 도용, 사기, 스토킹, 따돌림, 성적모욕 등 7개의 유형으로 분류되고 각각의 감성사전으로 구축되는 것을 특징으로 한다.

여기서, 상기 전처리작업은 댓글콘텐츠로부터 한글만 남기고 콘텐츠를 클렌징하는 단계와, 이메일과 URL과 HTML 태그 및 특수기호를 제거하는 단계와, 상기 댓글의 글자를 자음과 모음으로 분류하고 맞춤법 검사를 수행하는 단계와, 맞춤법 검사를 수행한 후 맞춤범에 맞추어 상기 댓글을 수정하는 단계와, 수정된 상기 댓글을 문장으로 재조합하는 단계를 포함하는 것을 특징으로 한다.

상술한 구성을 가지는 본 발명에 의한 악성댓글 판별 및 건전도 추출방법은 서포트 벡터 머신(Support Vector Machine) 알고리즘에 의한 기계학습과 형태소 분석을 통해 댓글의 악성여부를 판단할 수 있다.

또한, 언어폭력, 폭로, 아이디 도용, 사기, 스토킹, 따돌림, 성적모욕 등 복수 개의 감성유형사전을 구축하고 형태소 분석이 완료된 댓글에 대하여 가중치를 부여하여 댓글의 악성여부와 건전도값을 추출할 수 있으므로, 댓글의 악성정도를 더욱 구체적으로 판단하고 자동적으로 차단할 수 있다.

도 1은 본 발명에 의한 악성댓글 판별 및 건전도 추출방법의 흐름도이다.
도 2는 본 발명의 전처리 단계의 세부단계를 나타내는 흐름도이다.

이하, 첨부된 도면을 참조하여 본 발명에 의한 악성댓글 판별 및 건전도 추출방법에 대하여 실시예로써 상세하게 설명한다.

본 발명에 의한 악성댓글 판별 및 건전도 추출방법은, 우선 댓글을 수집한다(S1).

상기 댓글수집단계(S1)는 다양한 목적으로 온라인 댓글들을 수집하며, 본 실시예에서는, 파이썬(python) 웹크롤링 소스를 이용하여 포털사이트의 게시글에 포함된 댓글을 수집한다. 상기 댓글의 수집은 네이버, 구글 등의 포털사이트 API(Application Programming Interface)를 통해 게시판, 댓글 정보를 크롤링(Crawling) 함으로써 실시된다.

그런 다음, 상기 댓글수집단계(S1)에서 수집된 상기 댓글을 행태소 추출과 전처리 단계(S2)를 거친다.

상기 전처리단계는 댓글콘텐츠로부터 한글만 남기고 콘텐츠를 클렌징하는 단계(S2-1)와, 이메일과 URL과 HTML 태그 및 특수기호를 제거하는 단계(S2-2)와, 상기 댓글의 글자를 자음과 모음으로 분류하고 맞춤법 검사를 수행하는 단계(S2-3)를 거친다.

상기 전처리 단계의 예는 다음과 같다.

input : 제 블로그에도 방문해주세요. http://blognavercom/whdals0 <h1> 서이추 환영 </h2> ㅋㅋㅋㅋ ㄱㅅㄱㅅ

output : 제 블로그에도 방문해주세요 서이추 환영

그런 다음, 맞춤법 검사를 수행한 후 맞춤범에 맞추어 상기 댓글을 수정한다(S2-4). 여기서, 상기 댓글을 띄어 쓰기를 기준으로 자른 후, 자음과 모음을 분리하고, 자음, 모음 순서를 조합하여 맞춤법 사전과 비교하며, 맞춤법을 검토한다.

상기 S2-4 단계의 예시는 다음과 같다.

input : 제 블로그에도 방문해주세요 서이추 환영

output : 제 / 블로그에도 / 방문해주세요 / 서이추 / 환영

input : 제 / 블로구에도 / 방문해주세요 / 서이추 / 환영

output : {ㅈ,ㅔ}, {ㅂ,ㅡ,ㄹ,ㄹ,ㅗ,ㄱ,ㅜ,ㅇ,ㅔ,ㄷ,ㅗ},{ㅂ,ㅏ,ㅇ,ㅁ,ㅜ,ㄴ,ㅎ,ㅐ,ㅈ,ㅜ,ㅅ,ㅔ,ㅇ,ㅛ}

output : {ㅈ,ㅔ}, {ㅂ,ㅡ,ㄹ,ㄹ,ㅗ,ㄱ,ㅡ,ㅇ,ㅔ,ㄷ,ㅗ},{ㅂ,ㅏ,ㅇ,ㅁ,ㅜ,ㄴ,ㅎ,ㅐ,ㅈ,ㅜ,ㅅ,ㅔ,ㅇ,ㅛ}(맞춤법 사전과 비교하여 맞춤법 수정)

그런 다음, 수정된 상기 댓글을 문장으로 재조합하는 단계(S2-5)를 거친다.

input : {ㅈ,ㅔ}, {ㅂ,ㅡ,ㄹ,ㄹ,ㅗ,ㄱ,ㅡ,ㅇ,ㅔ,ㄷ,ㅗ},{ㅂ,ㅏ,ㅇ,ㅁ,ㅜ,ㄴ,ㅎ,ㅐ,ㅈ,ㅜ,ㅅ,ㅔ,ㅇ,ㅛ}

output : 제 블로그에도 방문해주세요

그런 다음, 댓글의 악성여부를 판별한다(S3).

상기 악성여부 판별 단계(S3)는, 상기 전처리된 데이터를 기반으로 하여 서포트 벡터 머신(Support Vector Machine) 알고리즘에 의해 기계학습하고 모델링을 통해 댓글의 악성여부를 판별한다.

SVM은 기계학습 분야 중 하나로 두 카테고리 중 어느 하나에 속한 데이터의 집 합이 주어졌을 때, 주어진 데이터집합을 바탕으로 하여 새로운 데이터가 어느 카테고리에 속하는지 판단하는 분류 모델을 만든다. 만들어진 분류 모델은 데이터가 사상된 공간에서 경계로 표현되는데 SVM 알고리즘은 그 중 가장 큰 폭을 가진 경계를 찾는 알고리즘이다.

상기 악성여부 판별은 상기 댓글이 감성유형 사전에 저장된 단어를 포함하는지 여부를 판단한다.

상기 감성유형사전은 댓글의 유형에 따라 복수 개의 감성사전으로 사전에 구축된다. 상기 감성사전은 혐오표현 단어, 비속어 단어를 포함하여 구성된다. 비속어 사전은 예를 들면, "한국어속어"에 해당하는 단어들을 포함할 수 있다. 상기 감성사전은 사전 구축디바이스에 의해 발견된 새로운 혐오 표현 단어들이 저장되고, 지속적으로 업데이트된다.

본 실시예에서, 상기 감성유형사전은 언어폭력, 폭로, 아이디 도용, 사기, 스토킹, 따돌림, 성적모욕 등 7개의 유형으로 분류되고 각각의 감성사전으로 구축된다.

상기 각각의 감성사전에 포함된 단어에는 가중치를 적용할 수 있고, 각각의 단어마다에 별도의 가중치를 설정할 수도 있다.

예를 들면, 언어폭력의 가중치는 0.1, 폭로는 0.08, 아이디 도용은 0.01, 사기는 0.01, 스토킹은 0.2, 따돌림은 0.25, 성적모욕은 0.35 등 감성사전의 유형별로 서로 다른 가중치를 적용할 수 있다.

그런 다음, 상기 댓글에 상기 가중치를 적용한다(S4).

상기 댓글이 감성유형사전에 저장된 단어를 포함하는 경우 미리 설정된 가중치를 적용한다.

그런 다음, 상기 가중치가 적용된 결과값을 도출하고 댓글여부와 댓글의 건전도값을 추출한다.(S5)

(예시)

input data : 꼰대 어서오고 ~

전처리 결과 : 꼰대 어서오고

SVM 결과 : 악성 판별

감성사전 가중치 적용

- 언어폭력 : 1

- 폭로 : 0

- 아이디도용 : 0

- 사기 : 0

- 스토킹 : 0

- 따돌림 : 0

- 성적모욕 : 0

output : [“bullet”:”1”, “damage” : “01”]

처리결과 : 악성댓글, 건전도 강

상기 예시에서 보는 바와 같이, 악성댓글의 형태소를 분석하고, 감성사전의 저장단어와 비교하여 악성댓글을 판별한 결과, 악성댓글로 판별한다. 또한, 유형별 감성유형사전에 각각 가중치를 적용한 결과, 건전도를 추출하면 '건전도 강' 으로 그다지 위험하지 않은 댓글로 판별한다.

한편, 상기 댓글의 내용에 따라서는, 감성사전의 가중치가 다를 수 있다. 예를 들면, 언어폭력 1, , 폭로 1, 성적모욕 1 등의 가중치를 받는 댓글의 경우에는 악성댓글을 판별한 결과, 악성댓글로 판별하고, 유형별 감성유형사전에 각각 가중치를 적용한 결과, 건전도를 추출하면 '건전도 위험' 으로 위험한 악성댓글로 판별하여 댓글을 차단하도록 조절한다.

이로써, 복수 개의 감성유형사전을 구축하고 형태소 분석이 완료된 댓글에 대하여 가중치를 부여하여 댓글의 악성여부와 건전도값을 추출할 수 있으므로, 댓글의 악성정도를 더욱 구체적으로 판단하고 자동적으로 차단할 수 있다.

본 실시예는 본 발명에 포함되는 기술적 사상의 일부를 명확하게 나타내고 있는 것에 불과하며, 본 발명의 명세서에 포함된 기술적 사상의 범위내에서 당업자가 용이하게 유추할 수 있는 변형예와 구체적인 실시예는 모두 본 발명의 기술적 사상에 포함되는 것은 자명하다.

S 1 : 댓글수집단계
S 2 : 전처리 단계
S 3 : 악성여부 판별단계
S 4 : 가중치 적용단계
S 5 : 악성여부 및 건전도 추출단계

Claims

파이썬(python) 웹크롤링 소스를 이용하여 포털사이트의 게시글에 포함된 댓글을 수집하는 단계와,
수집된 상기 댓글로부터 형태소를 추출하고 전처리하는 단계와,
상기 전처리된 데이터를 기반으로 하여 서포트 벡터 머신(Support Vector Machine) 알고리즘에 의해 기계학습하고 상기 댓글이 감성유형 사전에 저장된 단어를 포함하는지 여부를 판단하여 모델링을 통해 댓글의 악성여부를 판별하는 단계와,
상기 댓글이 감성유형사전에 저장된 단어를 포함하는 경우 미리 설정된 가중치를 적용하는 단계와,
상기 가중치가 적용된 결과값을 도출하고 악성여부와 댓글의 건전도값을 추출하는 단계를 포함하는 것을 특징으로 하는 악성댓글 판별 및 건전도 추출방법.
제 1 항에 있어서,
상기 감성유형사전은 댓글의 유형에 따라 복수 개의 감성사전으로 사전에 구축되는 것을 특징으로 하는 악성댓글 판별 및 건전도 추출방법.
제 2 항에 있어서,
상기 감성유형사전은 언어폭력, 폭로, 아이디 도용, 사기, 스토킹, 따돌림, 성적모욕 등 7개의 유형으로 분류되고 각각의 감성사전으로 구축되는 것을 특징으로 하는 악성댓글 판별 및 건전도 추출방법.
제 1 항에 있어서,
상기 전처리단계는,
댓글콘텐츠로부터 한글만 남기고 콘텐츠를 클렌징하는 단계와,
이메일과 URL과 HTML 태그 및 특수기호를 제거하는 단계와,
상기 댓글의 글자를 자음과 모음으로 분류하고 맞춤법 검사를 수행하는 단계와,
맞춤법 검사를 수행한 후 맞춤범에 맞추어 상기 댓글을 수정하는 단계와,
수정된 상기 댓글을 문장으로 재조합하는 단계를 포함하는 것을 특징으로 하는 악성댓글 판별 및 건전도 추출방법.