KR20230088093A - Method of supporting fake news detection decision-making through the ambiguity evaluation of articles - Google Patents

Method of supporting fake news detection decision-making through the ambiguity evaluation of articles Download PDF

Info

Publication number
KR20230088093A
KR20230088093A KR1020210176952A KR20210176952A KR20230088093A KR 20230088093 A KR20230088093 A KR 20230088093A KR 1020210176952 A KR1020210176952 A KR 1020210176952A KR 20210176952 A KR20210176952 A KR 20210176952A KR 20230088093 A KR20230088093 A KR 20230088093A
Authority
KR
South Korea
Prior art keywords
news
data
ambiguity
similar
providing
Prior art date
Application number
KR1020210176952A
Other languages
Korean (ko)
Inventor
김무철
서준원
박은서
박준우
조용문
Original Assignee
중앙대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 중앙대학교 산학협력단 filed Critical 중앙대학교 산학협력단
Priority to KR1020210176952A priority Critical patent/KR20230088093A/en
Publication of KR20230088093A publication Critical patent/KR20230088093A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Tourism & Hospitality (AREA)
  • Mathematical Physics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 기사의 모호성 평가를 통한 가짜뉴스 탐지 의사 결정 지원 방법에 관한 것으로, 포털사이트로부터 크롤링데이터를 수집하고, 국립국어원으로부터 신문 말뭉치 데이터를 수집하여 수집된 데이터를 실시간으로 분석하고 저장하는 데이터 수집 단계와 사용자가 보고 있는 포털사이트 뉴스와 유사한 뉴스를 찾고, 유사한 뉴스에서 발화 내용을 추출하여 사용자에게 유사한 뉴스의 전문을 제공하는 전문 추출 단계와 전문 추출 단계에서 제공되는 유사한 뉴스의 발화자와 연관된 인물을 제공하는 연관 인물 분석단계 및 신문 말뭉치 데이터의 종결 어휘를 형태소 차원 분석을하고, 분석된 데이터 중 모호한 단어의 분류 기준에 판단하여 포털사이트 뉴스 중 모호하게 쓰인 표현을 사용자에게 제공하는 모호성 지표 표시단계를 포함하는 것을 특징으로하는 기사의 모호성 평가를 통한 가짜뉴스 탐지 의사 결정 지원 방법으로, 가짜뉴스 판별 결정을 지원함으로써 사용자의 무차별적인 정보 흡수를 막고 사용자가 비판적인 시각으로 기사를 바라 볼 수 있게 해주는 효과를 가진다.The present invention relates to a method for supporting decision-making in detecting fake news through evaluation of article ambiguity, and collects crawl data from portal sites and collects newspaper corpus data from the National Institute of the Korean Language to analyze and store the collected data in real time. The full text extraction step of finding news similar to the portal site news the user is viewing, extracting the utterance from the similar news and providing the full text of the similar news to the user, and the person associated with the speaker of the similar news provided in the full text extraction step. The morphological level analysis of the related person analysis step and the ending vocabulary of the newspaper corpus data, and the ambiguity indicator display step of providing users with ambiguous expressions among portal site news by judging the classification criteria for ambiguous words among the analyzed data. A fake news detection decision support method through the evaluation of the ambiguity of the article, characterized in that it includes, by supporting the fake news discrimination decision, the effect of preventing users from indiscriminate absorption of information and allowing users to view the article from a critical point of view have

Description

기사의 모호성 평가를 통한 가짜뉴스 탐지 의사 결정 지원 방법 {Method of supporting fake news detection decision-making through the ambiguity evaluation of articles}{Method of supporting fake news detection decision-making through the ambiguity evaluation of articles}

본 발명은 기사의 모호성 평가를 통한 가짜뉴스 탐지 의사 결정 지원 방법에 관한 것으로, 보다 상세하게는 포털사이트 뉴스와 유사한 뉴스를 검색하여 사용자에게 뉴스 전문을 제공하고, 포털사이트 뉴스의 어휘와 국립국어원의 데이터의 어휘를 비교 및 분석하여 분류기준에 따라 모호성 지표 및 모호한 표현을 사용자에게 제공하는 가짜뉴스 탐지 의사 결정 지원 방법에 관한 것이다.The present invention relates to a method for supporting decision-making in detecting fake news through evaluation of ambiguity of articles. It relates to a fake news detection decision support method that compares and analyzes the vocabulary of data and provides ambiguity indicators and ambiguous expressions to users according to classification criteria.

과학기술정보통신부의 2020 인터넷이용실태 조사에 의하면, 대한민국국민의 91.9%가 인터넷을 이용하고, 최근 10년간 인터넷 이용률은 계속해서 점차 증가하고 있는 것으로 조사되었다. 또한, 통계청에 따르면 인터넷 신문의 이용률은 2009년 74.3%에서 2019년 91.9%로 증가하여 대부분의 신문을 보는 인구가 인터넷 신문을 통해 정보를 얻는 것으로 조사되었다. 인터넷 신문의 이용자가 많아지면서 인터넷 신문의 시장도 커지게 되었는데, 인터넷 신문의 수익은 신문의 조회수에 따른 광고로 창출된다. 인터넷 신문 시장의 성장과 인터넷 신문의 수익 구조의 특성과 여러 이유로 인한 부작용으로 가짜 뉴스 문제가 발생하게 되었다.According to the 2020 Internet Usage Survey by the Ministry of Science and ICT, 91.9% of Koreans use the Internet, and the Internet usage rate has been gradually increasing over the past 10 years. In addition, according to the National Statistical Office, the usage rate of Internet newspapers increased from 74.3% in 2009 to 91.9% in 2019, and it was investigated that most of the population who reads newspapers obtains information through Internet newspapers. As the number of users of Internet newspapers increases, the market for Internet newspapers also grows. Due to the growth of the Internet newspaper market, the nature of the profit structure of Internet newspapers, and the side effects caused by various reasons, fake news problems have arisen.

가짜뉴스는 사람들의 흥미와 본능을 자극하여 시선을 끌어 재정적 또는 정치적으로 이득을 얻기 위해 발간되는 뉴스이다. 가짜 뉴스는 해당 뉴스를 본 사람으로 하여금 정확한 가치 판단을 어렵게 만드는 문제점이 있다.Fake news is news that is published to attract attention by stimulating people's interest and instincts and to gain financial or political benefits. Fake news has a problem that makes it difficult for people who have seen the news to make accurate value judgments.

한예로, 언론사 아시아경제에 따르면 2015년 기준 인터넷 포털 다음(Daum)에 게재되는 기사 수는 일평균 약 2만 7천개인 것으로 조사되었는데, 약 5년이 지난 현재에는 5년 전과 비교하여 높아진 인터넷 이용률과 인터넷 언론사의 증가로 인해 더 많은 기사가 발행되고 있을 것으로 보인다. 이러한 정보의 방대함은 독자들로 하여금 뉴스의 진위 판별을 어렵게 만드는 문제점을 가진다.For example, according to the Asia Economy News Agency, as of 2015, an average of 27,000 articles were published on Daum, an internet portal, per day. It seems that more articles are being published due to the increase of Internet media outlets. The vastness of this information has a problem that makes it difficult for readers to determine the authenticity of news.

상기 배경기술로서 설명된 사항들은 본 발명의 배경에 대한 이해 증진을 위한 것일 뿐, 이 기술 분야에서 통상의 지식을 가진 자에게 이미 알려진 종래기술에 해당함을 인정하는 것으로 받아들여져서는 안 될 것이다.The matters described as the background art are only for improving understanding of the background of the present invention, and should not be taken as an admission that they correspond to prior art already known to those skilled in the art.

이에 본 발명은 상기와 같은 종래의 문제점을 해소하기 위해 제안된 것으로, 포털사이트 뉴스와 유사한 뉴스를 검색하여 사용자에게 뉴스 전문을 제공하고, 포털사이트 뉴스의 어휘와 국립국어원의 데이터의 어휘를 비교 및 분석하여 분류기준에 따라 모호성 지표 및 모호한 표현을 사용자에게 제공하여, 사용자의 무차별적인 정보 흡수를 막고 비판적인 시각으로 뉴스를 바라볼 수 있는 가짜뉴스 탐지 의사 결정 지원 방법을 제공하는 것을 목적으로 한다.Therefore, the present invention has been proposed to solve the above conventional problems, search for news similar to portal site news, provide users with full news, compare the vocabulary of portal site news with the vocabulary of data of the National Institute of the Korean Language, and The purpose of this study is to analyze and provide ambiguity indicators and ambiguous expressions to users according to classification standards, thereby preventing users from indiscriminately absorbing information and providing a fake news detection decision support method that can view news from a critical point of view.

상기와 같은 목적을 달성하기 위하여 본 발명의 기술적 사상에 의한 기사의 모호성 평가를 통한 가짜뉴스 탐지 의사 결정 지원 방법은 포털사이트로부터 크롤링데이터를 수집하고, 국립국어원으로부터 신문 말뭉치 데이터를 수집하여 상시 수집된 데이터를 실시간으로 분석하고 저장하는 데이터 수집 단계;와In order to achieve the above object, the fake news detection decision support method through the ambiguity evaluation of articles according to the technical idea of the present invention collects crawl data from portal sites and collects newspaper corpus data from the National Institute of the Korean Language, A data collection step of analyzing and storing data in real time; and

사용자가 보고 있는 포털사이트 뉴스와 유사한 뉴스를 찾고, 상기 유사한 뉴스에서 발화 내용을 추출하여 상기 사용자에게 상기 유사한 뉴스의 전문을 제공하는 전문 추출 단계;와A full text extraction step of finding news similar to the portal site news the user is viewing, extracting utterances from the similar news, and providing the full text of the similar news to the user;

상기 전문 추출 단계에서 제공되는 상기 유사한 뉴스의 발화자와 연관된 인물을 제공하는 연관 인물 분석단계; 및a related person analysis step of providing a person related to the narrator of the similar news provided in the full text extraction step; and

상기 신문 말뭉치 데이터의 종결 어휘를 형태소 차원 분석을하고, 분석된 데이터 중 모호한 단어의 분류 기준에 판단하여 상기 포털사이트 뉴스 중 모호하게 쓰인 표현을 상기 사용자에게 제공하는 모호성 지표 표시단계;를 포함하는 것을 특징으로하며,An ambiguity indicator display step of performing a morpheme-dimensional analysis on the ending vocabulary of the newspaper corpus data, determining an ambiguous word classification criterion among the analyzed data, and providing the user with an ambiguous expression among the portal site news. characterized by

상기 연관 인물 분석단계는 상기 유사한 뉴스의 문단 별로 조사 구조의 문장 분석을 통하여 연관인물을 추출하는 단계;와 인물 사전으로 시소러스를 구축하여 상기 시소러스에 검색하여 인명을 판단하여 추출된 인물을 제공하는 단계;를 포함하는 것을 특징으로하며,The related character analysis step includes extracting related characters through sentence analysis of a research structure for each paragraph of the similar news; and constructing a thesaurus as a person dictionary and searching the thesaurus to determine a person's name and providing the extracted person. It is characterized by including;

상기 모호성 지표 표시단계는 상기 신문 말뭉치 데이터의 종결 어휘 중 중복이 없는 5000여개의 뉴스 기사의 종결 어휘를 형태소 차원 분석하는 단계;와 상기 형태소 차원 분석된 상기 5000여개의 뉴스 기사에서 피동형 접사와 피동형 어말어미의 활용형의 규칙을 찾아서 피동 표현 검사를 수행하는 단계; 및 상기 피동 표현 검사를 수행한 상기 종결 어휘를 상기 모호한 단어의 분류 기준에 의해 모호성을 판단하고 상기 모호하게 쓰인 표현과 상기 모호성 지표를 상기 사용자에게 제공하는 단계;를 포함하는 것을 특징으로한다.The ambiguity indicator displaying step includes performing morpheme-level analysis of closing vocabularies of about 5,000 news articles without duplication among closing vocabularies of the newspaper corpus data; performing a passive expression test by finding a rule of conjugation of the ending; and judging the ambiguity of the final vocabulary on which the passive expression test is performed based on the ambiguous word classification criterion, and providing the ambiguously written expression and the ambiguity index to the user.

이상에서 설명한 바와 같은 기사의 모호성 평가를 통한 가짜뉴스 탐지 의사 결정 지원 방법에 따르면 다음과 같은 효과가 있다.According to the fake news detection decision support method through the article ambiguity evaluation as described above, the following effects are obtained.

첫째, 포털사이트의 뉴스와 유사한 주제를 갖는 뉴스의 전문을 제공함에 있어서 사용자에게 유의미한 뉴스를 제공할 수 있는 효과가 있다.First, there is an effect of providing meaningful news to the user in providing the full text of news having a similar theme to that of the portal site.

둘째, 기사의 모호성 지표와 모호한 표현을 제공함으로써 사용자가 가짜뉴스의 진위 판별에 도움 줄 수 있는 효과가 있다.Second, it has the effect of helping users determine the authenticity of fake news by providing an ambiguous index and an ambiguous expression of the article.

셋째, 가짜뉴스 판별 결정을 지원함으로써 사용자의 무차별적인 정보 흡수를 막고 사용자가 비판적인 시각으로 기사를 바라 볼 수 있게 해주는 효과가 있다.Third, by supporting the decision to identify fake news, it has the effect of preventing users from indiscriminately absorbing information and enabling users to view articles with a critical eye.

본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술 분야에 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.The effects obtainable in the present invention are not limited to the effects mentioned above, and other effects not mentioned can be clearly understood by those skilled in the art from the description below. will be.

도 1은 본 발명의 일 실시예에 따른 기사의 모호성 평가를 통한 가짜뉴스 탐지 의사 결정 지원 방법의 순서도이다.
도 2는 본 발명의 일 실시예에 따른 의사 결정 지원 도구 아키텍처의 구성도이다.
1 is a flowchart of a fake news detection decision support method through evaluation of ambiguity of an article according to an embodiment of the present invention.
2 is a block diagram of an architecture of a decision support tool according to an embodiment of the present invention.

첨부한 도면을 참조하여 본 발명의 실시예들에 의한 네거티브 앵커를 고려한 조밀한 물체 감지 시스템 및 방법에 대하여 상세히 설명한다. 본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는바, 특정 실시예들을 도면에 예시하고 본문에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다. 첨부된 도면에 있어서, 구조물들의 치수는 본 발명의 명확성을 기하기 위하여 실제보다 확대하거나, 개략적인 구성을 이해하기 위하여 실제보다 축소하여 도시한 것이다.A detailed object detection system and method considering a negative anchor according to embodiments of the present invention will be described with reference to the accompanying drawings. Since the present invention can have various changes and various forms, specific embodiments will be illustrated in the drawings and described in detail in the text. However, this is not intended to limit the present invention to a specific form disclosed, and should be understood to include all modifications, equivalents, and substitutes included in the spirit and scope of the present invention. Like reference numbers have been used for like elements throughout the description of each figure. In the accompanying drawings, the dimensions of the structures are shown enlarged than actual for clarity of the present invention, or reduced than actual in order to understand the schematic configuration.

또한, 제1 및 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 한편, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. Also, terms such as first and second may be used to describe various components, but the components should not be limited by the terms. These terms are only used for the purpose of distinguishing one component from another. For example, a first element may be termed a second element, and similarly, a second element may be termed a first element, without departing from the scope of the present invention. Meanwhile, unless otherwise defined, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by a person of ordinary skill in the art to which the present invention belongs. Terms such as those defined in commonly used dictionaries should be interpreted as having a meaning consistent with the meaning in the context of the related art, and unless explicitly defined in this application, it should not be interpreted in an ideal or excessively formal meaning. don't

본 발명은 본 발명은 기사의 모호성 평가를 통한 가짜뉴스 탐지 의사 결정 지원 방법에 관한 것으로, 보다 상세하게는 포털사이트 뉴스와 유사한 뉴스를 검색하여 사용자에게 뉴스 전문을 제공하고, 포털사이트 뉴스의 어휘와 국립국어원의 데이터의 어휘를 비교 및 분석하여 분류기준에 따라 모호성 지표 및 모호한 표현을 사용자에게 제공하는 가짜뉴스 탐지 의사 결정 지원 방법에 관한 것이다.The present invention relates to a fake news detection decision support method through evaluation of ambiguity of articles, and more particularly, to search for news similar to portal site news to provide users with full news, It is about a fake news detection decision support method that compares and analyzes the vocabulary of data of the National Institute of the Korean Language and provides ambiguity indicators and ambiguous expressions to users according to classification criteria.

도 1은 본 발명의 일 실시예에 따른 기사의 모호성 평가를 통한 가짜뉴스 탐지 의사 결정 지원 방법의 순서도이다.1 is a flowchart of a fake news detection decision support method through evaluation of ambiguity of an article according to an embodiment of the present invention.

도 1에 도시된 바와 같이, 본 발명은 데이터 수집 단계(S100), 전문 추출 단계(S200), 연관 인물 분석단계(S300) 및 모호성 지표 표시단계(S400)을 포함한다.As shown in FIG. 1, the present invention includes a data collection step (S100), a full text extraction step (S200), a related person analysis step (S300), and an ambiguity indicator display step (S400).

본 발명의 데이터 수집 단계(S100)는 포털사이트로부터 크롤링데이터를 수집하고, 국립국어원으로부터 신문 말뭉치 데이터를 수집하여 상기 수집된 데이터를 실시간으로 분석하고 저장하는 단계이다.The data collection step (S100) of the present invention is a step of collecting crawl data from portal sites and newspaper corpus data from the National Institute of the Korean Language, analyzing and storing the collected data in real time.

보다 상세하게는, 언론사 및 포털사이트의 뉴스 기사를 크롤링을 통해 상기 크롤링데이터를 수집하고, 수집된 데이터를 실시간으로 분석하여 메시지 큐를 통해 데이터베이스에 저장한다. More specifically, the crawled data is collected through crawling of news articles from media outlets and portal sites, and the collected data is analyzed in real time and stored in a database through a message queue.

크롤링은 물리적인 시간이 필요하고, 포털사이트 측에서 트래픽 과부하를 막기 위해 중간에 크롤링을 할 수 없도록 하는 경우가 있어, 상기 크롤링데이터 외에 국립국어원의 모두의 말뭉치 데이터에서 제공하는 2019년까지의 상기 신문 말뭉치 데이터를 수집하였으며, 상기 신문 말뭉치 데이터를 전처리하여 전처리된 데이터를 분석하고 데이터베이스에 저장한다. Crawling requires physical time, and there are cases where the portal site cannot crawl in the middle to prevent traffic overload. The corpus data is collected, and the newspaper corpus data is pre-processed, the pre-processed data is analyzed, and stored in a database.

본 발명의 전문 추출 단계(S200)는 사용자가 보고 있는 포털사이트 뉴스와 유사한 뉴스를 찾고, 상기 유사한 뉴스에서 발화 내용을 추출하여 상기 사용자에게 상기 유사한 뉴스의 전문을 제공한다.In the full text extraction step (S200) of the present invention, news similar to the portal site news the user is viewing is searched for, and utterances are extracted from the similar news, and the full text of the similar news is provided to the user.

보다 상세하게는, 상기 사용자가 보고 있는 뉴스와 관련 있는 주제의 뉴스의 발화 내용을 전부 추출하여 제공하는 단계로, Word2Vec, Doc2Ved, Topic Modeling을 사용하여 비슷한 뉴스를 찾고 해당 뉴스에서 정규식/규칙 기반으로 발화 내용을 추출한다.More specifically, in the step of extracting and providing all of the news utterances of a topic related to the news the user is watching, Word2Vec, Doc2Ved, and Topic Modeling are used to find similar news, and from the news based on regular expressions/rules. Extract the contents of the utterance.

본 발명의 연관 인물 분석단계(S300)은 상기 전문 추출 단계(S200)에서 제공되는 상기 유사한 뉴스의 발화자와 연관된 인물을 제공하는 단계이다.The related person analysis step (S300) of the present invention is a step of providing a person associated with the speaker of the similar news provided in the full text extraction step (S200).

구체적으로는 상기 연관 인물 분석단계(S300)는 상기 유사한 뉴스의 문단 별로 조사 구조의 문장 분석을 통하여 연관인물을 추출하는 단계와 인물 사전으로 시소러스를 구축하여 상기 시소러스에 검색하여 인명을 판단하여 추출된 인물을 제공하는 단계를 포함하는 것을 특징으로한다.Specifically, the related person analysis step (S300) includes the step of extracting a related person through sentence analysis of an investigation structure for each paragraph of the similar news and constructing a thesaurus with a person dictionary and searching the thesaurus to determine the person's name. Characterized in that it includes the step of providing a person.

여기서 시소러스란 어휘를 뜻의 관점에서 분류하여 체계화한 것으로, 데이터 검색을 위한 키워드간의 관계, 즉 동의어, 하위어, 관련어 등의 관계를 나타낸 것을 의미한다.Here, thesaurus is a classification and systematization of vocabulary in terms of meaning, and means a relationship between keywords for data retrieval, that is, a relationship between synonyms, sub-words, and related words.

본 발명의 모호성 지표 표시단계(S400)는 상기 신문 말뭉치 데이터의 종결 어휘를 형태소 차원 분석을하고, 분석된 데이터 중 모호한 단어의 분류 기준에 판단하여 상기 포털사이트 뉴스 중 모호하게 쓰인 표현을 상기 사용자에게 제공하는 것을 특징으로한다.In the ambiguity indicator display step (S400) of the present invention, morpheme-dimensional analysis is performed on the ending vocabulary of the newspaper corpus data, and an ambiguous word word classification criterion is determined among the analyzed data, so that an ambiguous expression among the portal site news is displayed to the user. characterized by providing

보다 상세하게는, 상기 신문 말뭉치 데이터의 종결 어휘 중 중복이 없는 5000여개의 뉴스 기사의 종결 어휘를 형태소 차원 분석하는 단계와 상기 형태소 차원 분석된 상기 5000여개의 뉴스 기사에서 피동형 접사와 피동형 어말어미의 활용형의 규칙을 찾아서 피동 표현 검사를 수행하는 단계 및 상기 피동 표현 검사를 수행한 상기 종결 어휘를 상기 모호한 단어의 분류 기준에 의해 모호성을 판단하고 상기 모호하게 쓰인 표현과 상기 모호성 지표를 상기 사용자에게 제공하는 단계를 포함한다.More specifically, the step of morpheme-dimensionally analyzing the closing vocabularies of about 5,000 news articles without overlap among the closing vocabularies of the newspaper corpus data, and the analysis of the passive affixes and passive endings in the 5,000 or so news articles analyzed in the morpheme-dimensional dimension. Searching for a conjugation rule and performing a passive expression test, determining ambiguity of the final vocabulary on which the passive expression test is performed based on the ambiguous word classification criterion, and providing the ambiguously written expression and the ambiguity index to the user. It includes steps to

또한, 상기 형태소 차원 분석하는 단계는 상기 신문 말뭉치 데이터 2만여건의 종결 어휘 중 중복이 없는 5000여개의 뉴스 기사의 종결 어회를 ‘macab’을 사용하여 형태소 차원 분석을 수행한다.In addition, in the morpheme-dimensional analysis step, morpheme-dimensional analysis is performed on the closing words of about 5,000 news articles without duplication among the 20,000 closing vocabularies of the newspaper corpus data using 'macab'.

상기 모호한 단어의 분류 기준은 아래 [표 1]과 같다.The classification criteria of the ambiguous words are shown in [Table 1] below.

1. 명사로 끝나는 문장 제외
2. 발언, 전문, 인용 속의 종결 어휘 제외
3. 부정 어휘, 인과 관계 어휘, 의문문 제외
4. 말했다. 주장했다 등 언급을 중립적으로 가져오는 말 제외
A. 언급에 더해 기자의 사견이 포함된 문장은 제외하지 않음
(ex. ~라고 보인다, ~와 다름없다, ~를 말한다 등)
B. 언급의 가치를 평가하는 어휘는 제외하지 않음
(ex. ~평가했다, ~비난했다.)
C. 언급을 중립적이지 않게 강조하는 어휘는 보류
(ex. 역설했다, 피력했다.)
5. 언급이 포함되지 않은 문장의 종결 어휘는 제외하지 않음을 원칙으로 함
A. 언급이 포함되지 않았지만 키워드를 나열하여 사실을 설명하는 문장은 제외
B. 언급이 포함되지 않았지만 중립적으로 사실을 가져오는 어휘는 제외
6. 언급+언급 구조이나 두 인용문 사이의 관계를 제정하는 어휘는 제외하지 않음
7. 모호하거나 평가를 내포한 어휘이거나 일반적이지 않은 어휘는 제외
8. 명사의 용언형 활용이 아닌 단순 ‘명사’+ ‘이다’는 제외
9. 일반적이지 않은 어휘는 제외
10. 위의 평가 기준 외에, 피동형 접사나 어말어미가 사용된 것은 제외하지 않음
A. 위의 평가 기준으로 분류된 단어 중, -된다가 붙을 때만 의견이 포함되는 어휘는 다시 제외하도록함.
(ex. ‘전망’ 등)
1. Exclude sentences ending in nouns
2. Excluding concluding words in remarks, preambles and quotations
3. Negative vocabulary, causal vocabulary, and interrogative sentences excluded
4. Said. Excluding words that neutralize a statement, such as asserted
A. In addition to comments, sentences containing the reporter's personal opinion are not excluded
(ex. Looks like ~, is different from ~, says ~, etc.)
B. Not Excluding Vocabulary Evaluating Mention
(ex. ~ evaluated, ~ criticized.)
C. Vocabulary that emphasizes non-neutral references is withheld
(ex. I paraphrased, expressed.)
5. As a rule, closing words of sentences that do not contain references are not excluded.
A. Excluding sentences that do not contain references but describe facts by listing keywords
B. Excluding vocabulary that does not contain references but brings facts neutrally
6. Not excluding the mention+mention structure or the vocabulary that establishes the relationship between two quotations.
7. Exclude ambiguous, evaluative or uncommon vocabulary
8. Excluding simple 'noun' + 'is', which is not the use of the noun form
9. Excluding uncommon vocabulary
10. In addition to the above evaluation criteria, the use of passive suffixes or endings is not excluded.
A. Among the words classified by the above evaluation criteria, words that include opinions only when added to - are excluded again.
(ex. 'view', etc.)

도 2는 본 발명의 일 실시예에 따른 의사 결정 지원 도구 아키텍처의 구성도이다.2 is a block diagram of an architecture of a decision support tool according to an embodiment of the present invention.

도 2에 도시된 바와 같이, 본 발명의 데이터 수집 단계(S100)에서는 상기 사용자가 뉴스 기사를 보았을 때, 구글 크롬 확장 프로그램에서 해당 화면이 기사인지 아닌지 판별 후, 판별 결과 기사인 경우에 해당 기사의 내용과 제목을 Restful API 기반으로 Amazon API Gateway에 전송한다. 전송된 데이터의 메타 데이터를 기반으로 전문 검색이면 Amazon의 EC2, 모호성 판단이면 Amazon Web Service(AWS)의 서버리스 기반의 컴퓨팅 서비스인 Lambda에 전달한다.As shown in FIG. 2, in the data collection step (S100) of the present invention, when the user sees a news article, after determining whether the corresponding screen is an article in the Google Chrome extension program, and as a result of the determination, if it is an article, the corresponding article The content and title are sent to Amazon API Gateway based on Restful API. Based on the meta data of the transmitted data, it is passed to Amazon's EC2 if it is a full-text search, and to Lambda, a serverless-based computing service of Amazon Web Service (AWS), if it determines ambiguity.

본 발명의 전문 추출 단계(S200) 및 연관 인물 분석단계(S300)에서는 전문 검색 모델의 경우 Word2Vec과 Doc2Vec을 기반으로 Elasticsearch Service를 통해 방대한 뉴스 데이터 중에서 관련성이 높은 기사의 발화 내용과 관련 인물을 검색하여 추출한다. 추출된 정보는 API Gateway를 통하여 Restful API를 기반으로 크롬 확장 프로그램에 전송되며 크롬 확장 프로그램은 전송받은 데이터를 이용해 해당 기사와 관련된 기사의 발화 내용과 관련 인물을 상기 사용자에게 제공한다.In the full text extraction step (S200) and related person analysis step (S300) of the present invention, in the case of a full text search model, based on Word2Vec and Doc2Vec, search for utterances of highly relevant articles and related persons among vast news data through Elasticsearch Service. extract The extracted information is transmitted to the chrome extension program based on the Restful API through the API Gateway, and the chrome extension program uses the received data to provide the user with the utterance content of the article related to the article and the related person.

또한, 본 발명의 모호성 지표 표시단계(S400)에서는 모호성 판단 모델의 경우 상기 사용자로부터 전송된 데이터를 Lambda에서 처리하여 기사 내용 중 모호하게 쓰인 표현이 있는지 검사하고, 모호한 표현이 쓰인 비율을 계산한다. 계산된 비율과 모호하게 쓰인 표현은 API Gateway를 통하여 Restful API를 기반으로 상기 크롬 확장 프로그램에 전송된다. 상기 크롬 확장 프로그램은 전송받은 데이터를 활용해 기사에서 모호하게 쓰인 표현에 강조 표시를 주고, 계산된 비율을 사용자에게 제공한다.In addition, in the ambiguity indicator display step (S400) of the present invention, in the case of the ambiguity judgment model, the data transmitted from the user is processed by Lambda to check whether there is an ambiguous expression in the article content, and the ratio of ambiguous expressions is calculated. The calculated ratio and ambiguous expressions are transmitted to the Chrome extension based on the Restful API through the API Gateway. The Chrome extension program utilizes the received data to give emphasis to ambiguous expressions in the article and provides the calculated ratio to the user.

<그림 1><Figure 1>

Figure pat00001
Figure pat00001

상기 <그림 1>은 관련 기사 발화 내용 제공 및 모호성 문장 수치를 보여주는 본 발명의 한 예로, 본 발명의 전문 추출 단계(S200) 및 연관 인물 분석단계(S300)에 따른 일실시예이다.<Figure 1> is an example of the present invention showing the provision of related article utterances and the value of ambiguous sentences.

상기 <그림 1>은 왼쪽의 기사와 관련된 기사를 우측의 크롬 확장 프로그램에서 제공하는 모습으로, 우측의 관련 기사를 클릭하면, 해당 기사의 발화 내용을 확인할 수 있다. 학습 데이터의 대부분이 2019년 이전의 기사라서 관련성이 적은 결과를 제공하지만, 대통령과 공장에 관련된 내용으로 유의미한 뉴스를 제공하는 것을 알 수 있다.<Figure 1> shows articles related to the article on the left being provided by the Chrome extension program on the right. If you click the related article on the right, you can check the utterance of the article. Since most of the learning data are articles before 2019, it provides less relevant results, but it can be seen that meaningful news related to the president and factories is provided.

<그림 2><Figure 2>

Figure pat00002
Figure pat00002

상기 <그림 2>는 기사에서 모호한 문장에 강조를 표시한 모습을 나타내는 그림으로, 본 발명의 모호성 지표 표시단계(S400)의 일실시예이다.<Figure 2> is a picture showing a state in which ambiguous sentences are highlighted in an article, and is an embodiment of the ambiguity indicator display step (S400) of the present invention.

상기 모호한 문장의 ‘예상된다’라는 표현은 상기 <표 1>의 분류 기준에 의하여 모호한 단어에 속하므로 상기 모호한 문장에서 모호한 표현을 사용되었다고 상기 사용자에게 정보를 제공한다. 추가로 해당 부분에 마우스를 올려놓으면 해당 부분이 왜 모호한 표현인지에 대해 정보를 제공하는 것을 확인할 수 있다.Since the expression 'expected' in the ambiguous sentence belongs to ambiguous words according to the classification criteria of <Table 1>, information is provided to the user that the ambiguous expression was used in the ambiguous sentence. In addition, you can see that hovering over the corresponding part provides information about why the corresponding part is an ambiguous expression.

상기에서 설명한 본 발명의 기술적 사상은 바람직한 실시예에서 구체적으로 기술되었으나, 상기한 실시예는 그 설명을 위한 것이며 그 제한을 위한 것이 아님을 주의하여야 한다. 또한, 본 발명의 기술적 분야의 통상의 지식을 가진자라면 본 발명의 기술적 사상의 범위 내에서 다양한 실시예가 가능함을 이해할 수 있을 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.Although the technical idea of the present invention described above has been specifically described in a preferred embodiment, it should be noted that the above embodiment is for explanation and not for limitation. In addition, those of ordinary skill in the technical field of the present invention will be able to understand that various embodiments are possible within the scope of the technical spirit of the present invention. Therefore, the true technical protection scope of the present invention should be determined by the technical spirit of the appended claims.

Claims (1)

포털사이트로부터 크롤링데이터를 수집하고, 국립국어원으로부터 신문 말뭉치 데이터를 수집하여 상기 수집된 데이터를 실시간으로 분석하고 저장하는 데이터 수집 단계;와
사용자가 보고 있는 포털사이트 뉴스와 유사한 뉴스를 찾고, 상기 유사한 뉴스에서 발화 내용을 추출하여 상기 사용자에게 상기 유사한 뉴스의 전문을 제공하는 전문 추출 단계;와
상기 전문 추출 단계에서 제공되는 상기 유사한 뉴스의 발화자와 연관된 인물을 제공하는 연관 인물 분석단계; 및
상기 신문 말뭉치 데이터의 종결 어휘를 형태소 차원 분석을하고, 분석된 데이터 중 모호한 단어의 분류 기준에 판단하여 상기 포털사이트 뉴스 중 모호하게 쓰인 표현을 상기 사용자에게 제공하는 모호성 지표 표시단계;를 포함하는 것을 특징으로하며,
상기 연관 인물 분석단계는 상기 유사한 뉴스의 문단 별로 조사 구조의 문장 분석을 통하여 연관인물을 추출하는 단계;와 인물 사전으로 시소러스를 구축하여 상기 시소러스에 검색하여 인명을 판단하여 추출된 인물을 제공하는 단계;를 포함하는 것을 특징으로하며,
상기 모호성 지표 표시단계는 상기 신문 말뭉치 데이터의 종결 어휘 중 중복이 없는 5000여개의 뉴스 기사의 종결 어휘를 형태소 차원 분석하는 단계;와 상기 형태소 차원 분석된 상기 5000여개의 뉴스 기사에서 피동형 접사와 피동형 어말어미의 활용형의 규칙을 찾아서 피동 표현 검사를 수행하는 단계; 및 상기 피동 표현 검사를 수행한 상기 종결 어휘를 상기 모호한 단어의 분류 기준에 의해 모호성을 판단하고 상기 모호하게 쓰인 표현과 상기 모호성 지표를 상기 사용자에게 제공하는 단계;를 포함하는 것을 특징으로하는 기사의 모호성 평가를 통한 가짜뉴스 탐지 의사 결정 지원 방법.
A data collection step of collecting crawl data from portal sites, collecting newspaper corpus data from the National Institute of the Korean Language, analyzing and storing the collected data in real time; and
A full text extraction step of finding news similar to the portal site news the user is viewing, extracting utterances from the similar news, and providing the full text of the similar news to the user;
a related person analysis step of providing a person related to the narrator of the similar news provided in the full text extraction step; and
An ambiguity indicator display step of performing a morpheme-dimensional analysis on the ending vocabulary of the newspaper corpus data, determining an ambiguous word classification criterion among the analyzed data, and providing the user with an ambiguous expression among the portal site news. characterized by
The related character analysis step includes extracting related characters through sentence analysis of a research structure for each paragraph of the similar news; and constructing a thesaurus as a person dictionary and searching the thesaurus to determine a person's name and providing the extracted person. It is characterized by including;
The ambiguity indicator displaying step includes performing morpheme-level analysis of closing vocabularies of about 5,000 news articles without duplication among closing vocabularies of the newspaper corpus data; performing a passive expression test by finding a rule of conjugation of the ending; and judging the ambiguity of the terminal vocabulary on which the passive expression test is performed based on the ambiguous word classification criterion, and providing the ambiguously written expression and the ambiguity index to the user. Fake news detection decision support method through ambiguity evaluation.
KR1020210176952A 2021-12-10 2021-12-10 Method of supporting fake news detection decision-making through the ambiguity evaluation of articles KR20230088093A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210176952A KR20230088093A (en) 2021-12-10 2021-12-10 Method of supporting fake news detection decision-making through the ambiguity evaluation of articles

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210176952A KR20230088093A (en) 2021-12-10 2021-12-10 Method of supporting fake news detection decision-making through the ambiguity evaluation of articles

Publications (1)

Publication Number Publication Date
KR20230088093A true KR20230088093A (en) 2023-06-19

Family

ID=86988506

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210176952A KR20230088093A (en) 2021-12-10 2021-12-10 Method of supporting fake news detection decision-making through the ambiguity evaluation of articles

Country Status (1)

Country Link
KR (1) KR20230088093A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117273013A (en) * 2023-11-21 2023-12-22 中国人民公安大学 Electronic data processing method for stroke records

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117273013A (en) * 2023-11-21 2023-12-22 中国人民公安大学 Electronic data processing method for stroke records
CN117273013B (en) * 2023-11-21 2024-01-26 中国人民公安大学 Electronic data processing method for stroke records

Similar Documents

Publication Publication Date Title
KR101005337B1 (en) System for extraction and analysis of opinion in web documents and method thereof
US7461056B2 (en) Text mining apparatus and associated methods
CN107239439A (en) Public sentiment sentiment classification method based on word2vec
US9015168B2 (en) Device and method for generating opinion pairs having sentiment orientation based impact relations
Stede et al. The climate change debate and natural language processing
CN110472203B (en) Article duplicate checking and detecting method, device, equipment and storage medium
Weir et al. Positing the problem: enhancing classification of extremist web content through textual analysis
Nandi et al. Bangla news recommendation using doc2vec
Demus et al. Detox: A comprehensive dataset for german offensive language and conversation analysis
Gupta et al. Automatic text summarization system for Punjabi language
CN109918648B (en) Rumor depth detection method based on dynamic sliding window feature score
KR20000054268A (en) Method and system for document classification and search using document auto-summary system
US20040158558A1 (en) Information processor and program for implementing information processor
RU2738335C1 (en) Method and system for classifying and filtering prohibited content in a network
KR101473239B1 (en) Category and Sentiment Analysis System using Word pattern.
Al-Kabi et al. Statistical classifier of the holy Quran verses (Fatiha and Yaseen chapters)
Samoilenko et al. (Don't) mention the war: A comparison of Wikipedia and Britannica articles on national histories
Ceballos Delgado et al. Deception detection using machine learning
KR20230088093A (en) Method of supporting fake news detection decision-making through the ambiguity evaluation of articles
Blombach et al. A corpus of German Reddit exchanges (GeRedE)
Fornaciari et al. Lexical vs. surface features in deceptive language analysis
Shatnawi et al. A framework for retrieving Arabic documents based on queries written in Arabic slang language
KR101265467B1 (en) Method for extracting experience and classifying verb in blog
Pinna et al. Constance and variability
Patel et al. Influence of Gujarati STEmmeR in supervised learning of web page categorization