KR100788440B1 - 도용 패턴에 기반한 복사 감지시스템 - Google Patents

도용 패턴에 기반한 복사 감지시스템 Download PDF

Info

Publication number
KR100788440B1
KR100788440B1 KR1020060059452A KR20060059452A KR100788440B1 KR 100788440 B1 KR100788440 B1 KR 100788440B1 KR 1020060059452 A KR1020060059452 A KR 1020060059452A KR 20060059452 A KR20060059452 A KR 20060059452A KR 100788440 B1 KR100788440 B1 KR 100788440B1
Authority
KR
South Korea
Prior art keywords
document
similarity
sentence
pattern
unit
Prior art date
Application number
KR1020060059452A
Other languages
English (en)
Inventor
강남오
한상용
Original Assignee
중앙대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 중앙대학교 산학협력단 filed Critical 중앙대학교 산학협력단
Priority to KR1020060059452A priority Critical patent/KR100788440B1/ko
Application granted granted Critical
Publication of KR100788440B1 publication Critical patent/KR100788440B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Health & Medical Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 도용 패턴에 기반하여 문서의 도용 여부를 판단하기 위한 도용 패턴에 기반한 복사 감지시스템을 제공한다.
이를 위해, 본 발명의 복사 감지시스템은 도용이 의심되는 질의 문서가 질의 문서 입력부를 통해 입력되면, 원본 문서 데이터베이스에 미리 저장되어 있던 원본 문서와 질의 문서 입력부를 통해 입력된 질의 문서 각각을 문장 단위로 분할하기 위한 문장 분할부와, 문장 분할부를 통해 분할된 문장들을 비교 평가함수를 이용하여 문장 단위의 유사도와 도용 패턴에 대한 정보로 추출하기 위한 지역 유사도 추출부 및, 지역 유사도 추출부에서 추출된 정보는 원본 문서들 각각에 대한 문서 유사도와 도용 패턴을 구하고, 이 결과를 순화시켜 결과 출력부를 통해 사용자에게 제시하게 하기 위한 문서 유사도 추출부로 이루어진다.
따라서, 상기와 같이 이루어진 본 발명에 의하면, 문서의 도용 여부를 유사도를 바탕으로 판별하는 것이 아니라 도용자의 도용 패턴을 감지하여 문서의 도용 여부를 보다 정확하게 판단할 수 있다.
도용 패턴, 비교 단위, 비교 평가함수, 문서 유사도 추출부

Description

도용 패턴에 기반한 복사 감지시스템{A document copy detection system based on plagiarism patterns}
도 1은 본 발명에 따른 도용 패턴에 기반한 복사 감지시스템의 전체적인 구성을 나타낸 도면,
도 2는 도용 패턴을 분류하고, 복사 감지에 있어서 이들 간의 상대적 복잡 정도를 분류한 것을 나타낸 도면이다.
<도면의 주요부분에 대한 부호의 설명>
1 : 질의 문서 입력부,
2 : 문장 분할부,
3 : 지역 유사도 추출부,
5 : 문서 유사도 추출부,
6 : 원본 문서 데이터베이스(DB),
7 : 결과 출력부.
본 발명은 도용자의 도용 패턴에 기반하여 문서의 도용 여부를 판단하는 도 용 패턴에 기반한 복사 감지시스템에 관한 것으로, 특히 사용자로부터 도용이 의심되는 문서를 입력받아 이의 도용 여부를 판별하기 위한 도용 패턴에 기반한 복사 감지시스템에 관한 것이다.
인터넷의 개방적인 성격과 디지털화된 정보의 손쉬운 접근은 많은 사용자들에게 정보의 공유 뿐만 아니라 정보의 재생산이라는 긍정적인 효과도 가져왔지만, 악의의 도용자들에게는 손쉬운 도용이 가능한 환경을 제공해 준 것 또한 현실이다.
이러한 문제점은 저자들로 하여금 점차 정보의 공유를 꺼리게 하여 결국 선의의 사용자들이 가치 있는 정보를 접근할 수 있는 기회를 줄이는 결과로 연결되고 있다.
현재와 같은 이러한 상황을 개선하기 위해, 효과적인 저작권 보호 도구는 정보의 공유를 위한 핵심적인 도구이다.
이러한 저작권 보호를 위한 기법들로서 복사 방지, 서명 기반의 복사 감지 및 내용 기반의 복사 감지기법이 소개되고 있다.
예컨대, 복사 방지기법은 특별한 저장장치에 데이터를 저장하고, 특정의 프로그램들만이 이들을 접근하게 허용하는데, 이러한 기법은 도용자가 디지털 문서들에 대한 접근을 막을 수는 있지만, 선의의 사용자들간의 정보 공유도 어렵게 할 뿐만 아니라, 특별한 소프트웨어 에뮬레이터를 이용할 경우 데이터의 복사를 막을 수 없다는 단점이 있다.
또한, 서명 기반의 복사 감지기법의 경우, 특별한 서명이 문서에 삽입이 되어 필요한 경우 이를 이용해서 문서의 복사 여부를 판단할 수 있지만, 이러한 기법 의 경우 도용자가 특별한 소프트웨어를 이용해서 서명을 자동으로 제거할 수 있으며, 더욱이 도용자가 문서내용의 일부를 복사하는 경우 이를 막을 방법이 없다는 단점이 있다.
즉, 상술한 두가지의 기법들은 문서 전체의 복사를 방지하거나 감지하는데는 유용하지만, 문서의 일부나 혹은 그 내용을 복사하는 경우 이를 막을 수 없다는 문제점이 있다.
따라서, 현재 엄청난 양의 문서들이 인터넷에 개방되어 있고, 이들 대부분이 복사 방지기술이나 서명 기반의 복사 감지기법의 지원을 받지 못하고 있으며, 결국 이러한 상황은 내용 기반의 복사 감지기술의 필요성을 더욱 증가시키고 있다.
예컨대, 내용 기반의 문서 복사 감지시스템은 우선 많은 원본 문서를 등록하고서, 질의 문서가 입력되면, 비교를 통해 도용의 가능성을 결정하게 되는데, 이러한 시스템은 원본 문서의 전체 또는 부분의 복사 여부를 판단하는데 사용될 수 있다.
이와 관련하여, 상기 내용 기반의 문서 복사 감지기법은 1990년대 이후로 연구가 활발히 이루어지고 있으며, 현재까지 COPS, SCAM, CHECK, SSK 등과 같은 많은 내용 기반 문서 복사 감지시스템이 소개 되었지만, 소개된 복사 감지시스템은 단지 원본 문서와 질의 문서의 복사 비교 단위간의 유사도를 바탕으로 복사 여부를 체크하는데 초점이 맞추어져 있을 뿐이다.
이러한 방식에서는 도용자가 복사하는 내용을 일부 수정할 경우 유사도에 영향을 줌으로써, 시스템이 잘못된 결과를 산출하게 될 수도 있다.
예컨대, 내용 기반의 문서 복사 감지시스템중 하나인 COPS[2]는 디지털 도서관에서 복사 감지시스템으로 사용하기 위해, 스탠포드 전자 도서관 프로젝트(Standford Digital Library Project)의 일환으로 제작되었다.
상기 COPS는 원문을 문장 단위로 자른 후, 이들의 해시 값을 등록 서버에 저장한다. 이 후, 질의 문서가 주어지면, 이 또한 같은 방식으로 자른 후, 각 문장의 해시 값을 구하여 등록된 해시 값과 비교한다.
만약, 질의 문서가 등록된 문서와 일정 이상의 일치된 문장을 포함하고 있으면, 질의 문서는 도용 문서로 체크된다.
그러나, 상기 COPS는 정확히 동일한 문장들을 비교할 때에는 아주 좋은 결과를 보이지만, 문장에서의 부분적 중복을 감지하지는 못한다는 단점이 있다.
이에 Shivakumar 등은 COPS를 향상시켜 SCAM[1]을 개발하였다. SCAM은 문서의 복사를 체크하기 위해, 문서의 단어 빈도를 이용하게 되는데, 만약 등록된 원문과 질의 문서가 주어진 문턱값 이상의 키워드 일치를 보인다면 질의 문서는 복사 문서로 체크된다.
그러나, 상기와 같은 SCAM은 부분적 중첩을 발견해 내기도 하지만, 많은 단어를 공유하는 문서들 간의 비교에 있어서 잘못된 결과를 산출할 가능성도 높다는 단점이 있다.
이에 Si 등은 CHECK[3] 시스템을 제안하게 되었는데, CHECK 시스템은 문서들로부터 구조적 정보와 키워드를 추출하고, 이들을 이용해서 문서간의 복사를 조사하게 된다.
그러나, CHECK 시스템은 비교하는 문서가 구조적이어야 한다는 제한점이 있다.
결국, Bao Jun-Peng 등은 Semantic Sequence Kernel(SSK)[4]를 제안하게 되었는데, SSK는 문서에서 단어의 의미적인 열 들을 추출한 후, 이들 간의 유사성을 커널 함수를 이용하여 구하게 된다.
그러나, 상기와 같은 SSK 또한 동일한 단어의 열을 가지는 경우끼리 비교할 때에는 좋은 성능을 보이지만, 유의 단어로 교체시에 이의 발견이 어렵다는 단점이 있었다.
본 발명은 상기한 점을 감안하여 이루어진 것으로, 문서의 도용 여부를 문서의 유사도를 바탕으로 판별하는 것이 아니라 도용자의 도용 패턴을 감지하여 그 도용 패턴을 바탕으로 원본 문서와 비교 문서의 비교를 수행함으로써, 보다 유연하게 유사도를 계산하고, 비교 수행중에 찾아낸 도용 패턴에 대한 정보를 제공하여 문서의 도용 여부를 보다 정확하게 판단할 수 있는 도용 패턴에 기반한 복사 감지시스템을 제공하는 것을 목적으로 한다.
상기한 과제를 해결하기 위한 본 발명에 따른 도용 패턴에 기반한 복사 감지시스템은, 도용이 의심되는 질의 문서가 질의 문서 입력부를 통해 입력되면, 원본 문서 데이터베이스에 미리 저장되어 있던 원본 문서와 질의 문서 입력부를 통해 입력된 질의 문서 각각을 비교 단위인 문장 단위로 분할하기 위한 문장 분할부와, 문 장 분할부를 통해 분할된 문장들을 비교 평가함수를 이용하여 문장 단위의 유사도와 도용 패턴에 대한 정보로 추출하기 위한 지역 유사도 추출부 및, 지역 유사도 추출부에서 추출된 정보는 원본 문서들 각각에 대한 문서 유사도와 도용 패턴을 구하고, 이 결과를 순화시켜 결과 출력부를 통해 사용자에게 제시하게 하기 위한 문서 유사도 추출부를 구비하여 구성된다.
따라서, 상기와 같이 이루어진 본 발명에 의하면, 문서의 도용 여부를 유사도를 바탕으로 판별하는 것이 아니라 도용자의 도용 패턴을 감지하여 문서의 도용 여부를 보다 정확하게 판단하게 된다.
(실시예)
이하, 본 발명의 실시예를 도면을 참조하면서 상세히 설명한다.
본 발명과 관련하여, Karen Fullam 등은 도용 패턴을 분류하고, 복사 감지에 있어서 이들 간의 상대적 복잡 정도를 분류하였다(도 2 참조).
도 2는 문서, 단락 또는 문장 단위로의 정확한 복사가 단어의 변화나 구조의 변화보다 발견이 쉬움을 나타내고 있다.
이와 관련하여, 현재에는 본 발명과 관련된 도용자의 도용 패턴에 대한 세부적인 연구는 보고된 바 없다. 이에 따라, 본 발명자들은 Karen Fullam이 제시한 도용 패턴을 바탕으로 문서의 도용 패턴 정보를 추출하게 된 것이다.
한편, 문서 복사 감지시스템 설계에 있어서, 비교 단위, 비교 평가함수 및 문서 비교 평가기준은 복사 감지시스템의 중요한 고려사항들이다.
이하, 상기의 복사 감지시스템의 고려사항중 하나인 비교 단위에 대해 설명 한다.
예컨대, 문서간의 복사를 감지하기 위해 복사 감지시스템은 문서를 특정의 단위로 나누어서 비교한다. 이러한 비교 단위는 문장, 단락, 단어의 개수 또는 문서 전체 등 다양한 크기로 채택될 수 있다. 예컨대, COPS의 경우는 문장, SCAM의 경우는 단어, CHECK의 경우는 단락이 비교 단위로 채택되었다.
상기 문서의 비교 단위는 시스템의 성능과 정확도에 영향을 미치는 중요한 요소이므로 시스템 설계시에 신중히 결정되어야 한다.
즉, 비교 단위가 커지면 문서간의 비교 횟수가 줄어들어 속도가 빨라져 전체적인 유사도에 대한 정보를 얻을 수 있지만 부분적인 복사를 찾아내기 어려워진다.
반면, 비교 단위가 작아지면 비교 횟수가 늘어나 속도가 느려지나 지역적인 유사도를 바탕으로 부분적 복사를 감지해 낼 수 있다.
본 발명에서는 비교 단위를 문장 단위로 선택하였는데, 그 이유는 문서에서 문장은 의미를 전달하는 단위로 쓰일 뿐 아니라 문단이나 문서를 형성하는 단위로도 사용되기 때문에, 문장간의 유사도 비교는 지역적 유사도 측정의 좋은 기준이 된다.
본 발명에 따른 시스템은 사용자에게 도용 패턴의 정보를 제공하는 것을 목적으로 하고 있으며, Karen Fullam의 연구에서 나타나듯이 도용 패턴 정보를 추출하는데 있어서 문장이 기본단위로도 적합하다.
다음에, 상기의 복사 감지시스템의 고려사항중 하나인 비교 평가함수에 대해 설명한다.
예컨대, 원문과 질의 문에서 추출된 비교 단위들은 비교 평가함수를 통해 유사도가 측정이 되는데, 기존의 정보 검색시스템이나 또는 복사 감지시스템의 경우에는 벡터 모델이나 또는 코사인 유사도 측정을 이용해서 유사도를 계산하였다.
그러나, 이들은 두 대상체간의 관련성을 측정하기에는 상관이 없지만 복사 정도를 측정하기에는 부족하다. 예컨대, 다음과 같은 문장들이 있다고 가정하자.
『문장 1 : "A B C D E"
문장 2 : "A B C D F"
문장 3 : "G H"
문장 4 : "G H" 』
상기 문장 1과 문장 2는 5개의 단어 중 4개의 단어가 중첩하고 있고, 문장 3과 문장 4의 경우는 2개의 단어중 2개의 단어가 중첩하고 있는데, 중첩된 양이 많으면 많을 수록 복사의 근거는 확실해지기 때문에, 문서의 복사를 판단하는데 있어서 중첩의 정도는 아주 중요한 판단 근거가 된다.
예컨대, 소량의 단어가 중첩할 때보다 다량의 단어가 중첩할 때 복사 가능성은 더욱 커지게 되는데, 이러한 면에서 보면 상기 문장 1과 문장 2의 중첩 정도는 상기 문장 3과 문장 4보다 2배 높기 때문에 복사의 가능성 정도도 문장 1과 문장 2의 경우가 더욱 크다.
특히, 상기 문장 1과 문장 2의 E와 F가 동의어라면 복사의 가능성 정도는 더욱 높아져야 하지만, 이들을 코사인 유사도를 이용해서 계산하면, 문장 1과 문장 2는 0.8, 문장 3과 문장 4는 1로 되어 문장 3과 문장 4의 유사도가 문장 1과 문장 2 보다 더 높게 측정되어 나타난다.
또한, 코사인 유사도는 두 대상체간의 유사성에 대한 정보만을 제공할 뿐 도용 패턴에 대한 어떠한 정보도 제공해 주지 못하고 있다.
이에 따라 본 발명에서는 비교 대상간의 중첩도를 측정할 뿐만 아니라 도용 패턴에 대한 정보를 제공할 수 있는 비교 평가함수를 제시하고 있다.
한편, 원본 문서에서 추출한 문장 So와 질의 문서에서 추출한 문장 Sc가 다음과 같다고 할 경우, 이들간의 유사도 SIM(So,Sc)는 이하와 같이 구해진다.
So={w1,w2,w3,..........,wn}
Sc={w1,w2,w3,..........,wm}
Comm(So,Sc)=So∩Sc
Diff(So,Sc)=So- Sc
Syn(w)={유의어 사전을 통해 구해진 w의 유의어)
SynWord(So,Sc)={wi|wi∈Diff(Sc,So)∩Syn(wi)∈So}
Figure 112006046761161-pat00001
Figure 112006046761161-pat00002
SIM(So,Sc)=
Figure 112006046761161-pat00003
--- (1)
상기와 같이 SIM(So,Sc)를 구함으로 인해서 So와 Sc의 유사도 뿐만 아니라 도용의 패턴에 대한 정보도 구해낼 수 있다.
[표 1] 문장의 도용 패턴과 판단 조건
문장의 도용 패턴 판단 조건
원본 문장의 완전한 복사 WordOverlap(So,Sc)=1, SizeOverlap(So,Sc)=0
원본 문장의 단어 삽입 SizeOverlap(So,Sc)>0, Diff(So,Sc)>1
원본 문장의 단어 제거 SizeOverlap(So,Sc)>0, Diff(Sc,So)>1
원본 문장의 단어 교체 1<WordOverlap(So,Sc)<∞, SizeOverlap(So,Sc)=0
원본 문장의 구조 변화 WordOverlap(So,Sc)=1, SizeOverlap(So,Sc)=0

그런데, [표 1]에 기재된 각각의 비교 평가함수를 보면, '원본 문장의 완전한 복사'와, '원본 문장의 구조 변화'의 비교 평가함수가 동일하다. 이는 본원발명의 도용 패턴 판단 방법이 원본 문장과 비교 문장을 각각 이루는 단어와, 그 단어의 개수 등을 기준으로 상기 두 문장을 비교하는 방식이기 때문이다.
따라서, 비교 문장이 원본 문장에 새로운 단어를 삽입하거나, 기존 단어를 제거하거나, 기존 단어를 교체한 문장이 아니고, 단순히 단어의 순서만을 바꾼 것이라면, '원본 문장의 완전한 복사'와 '원본 문장의 구조 변화'는 상기 비교 평가함수 만으로는 그 차이를 명확히 할 수 없다.(비교 평가함수가 동일하므로)
결국, '원본 문장의 완전한 복사'와 '원본 문장의 구조 변화'를 구분하기 위해서는 문장을 이루고 있는 단어의 순서 일치성 검사가 추가로 요구된다.
다음에, 상기의 복사 감지시스템의 고려사항중 하나인 문서 복사 비교평가에 대해 설명한다.
상기의 비교 평가함수를 이용하여 지역적 유사성과 도용 패턴에 대한 정보를 구한다.
상기의 지역적 정보만으로 복사의 유무를 판단할 수는 있지만, 일정 문턱값 크기 이상의 문장이 완전히 일치할 경우, 도용자가 복사한 부분을 수정하였다든지 또는 문턱값 이하의 여러 문장을 복사한 경우 복사 여부를 판단하기 위해서는 보다 종합적인 정보가 필요하다.
이러한 정보는 여러 개의 원본 문서가 동시에 하나의 질의 문서와 복사 가능성이 평가 되었을 때, 사용자가 원활한 평가를 하기 위한 랭킹 정보를 생성하는데도 유용하다.
본 발명의 시스템에서는 질의 문서의 각 비교 단위가 가지는 최고 비교평가 값들의 합으로 원본 문서와 질의 문서의 복사 정도를 표현하였다.
이하, 상술한 바와 같은 복사 감지시스템의 고려사항에 따른 본 발명의 도용 패턴에 기반한 복사 감지시스템의 전체적인 구성에 대해 도 1을 참조하여 설명한다.
도 1에 도시한 바와 같이, 본 발명에 따른 도용 패턴에 기반한 복사 감지시스템은 질의 문서 입력부(1)와, 문장 분할부(2), 지역 유사도 추출부(3), 문서 유사도 추출부(5), 원본 문서 데이터베이스(6) 및, 결과 출력부(7)로 이루어진다.
도시한 바와 같이, 원본 문서 데이터베이스(6)에는 미리 원본 문서들이 저장된다.
먼저, 도용이 의심되는 질의 문서가 질의 문서 입력부(1)를 통해 입력되면, 복사 감지시스템의 문장 분할부(2)는 상기 질의 문서 입력부(1)를 통해 입력된 질의 문서와 상기 원본 문서 데이터베이스(6)에 미리 저장되어 있던 원본 문서 각각을 문장 단위로 분할한다.
상기와 같이 문장 분할부(2)를 통해 분할된 문장들은 지역 유사도 추출부(3)로 전송되어 상기에서 정의된 비교 평가함수를 이용하여 문장 단위의 유사도와 도용 패턴에 대한 정보를 추출한다.
상기 지역 유사도 추출부(3)에서 추출된 정보는 문서 유사도 추출부(5)로 전송되어 상기 식 (1)에 의해 원본 문서들 각각에 대한 문서 유사도 SIM(So,Sc)와 도용 패턴을 구하고, 이 결과를 순화시켜 결과 출력부(7)를 통해 사용자에게 제시하게 된다.
한편, 본 발명에 따른 도용 패턴에 기반한 복사 감지시스템의 동작 알고리즘은 다음과 같다.
『 Algorithm
Input
Document_DB={D1,D2,D3,.....,Dn} and each Di={Si1,Si2,Si3,.....,Sim}
QueryDocument=QS1,QS2,QS3,.....,QSt
output
Decreasing ordered document list in document similarity vale
for i=1 to n
for j=1 to t
localsimilarity[1.,j]=0
for k=1 to m
if|Comm(Sik,QSi)|≥
Figure 112006046761161-pat00004
localsimilarity[j]=max{localsimilarity[j],SIM(Sik,QSj)}
end
end
documentsimilarity[i]=
Figure 112006046761161-pat00005
end
return sort(documentsimilarity) 』
이하, 본 발명에 따른 도용 패턴에 기반한 복사 감지시스템에 의한 실험과정 및 결과에 대해 설명한다.
제안된 시스템의 성능을 평가하기 위해 CISI 문서 집합을 이용하였다.
상기 CISI 문서 집합은 ISI(Institute of Scientific Information)에서 선택된 1460개의 문서로 이루어져 있으며, 실험을 위한 테스트 집합은 다음과 같은 방식으로 생성하였다.
1. CISI 문서 집합에서 특정 질의에 대한 11개의 관련 문서들을 추출한다.
2. 추출된 관련 문서들 중 하나를 원본 문서로 선택하고, 나머지 10개의 관련 문서들은 표절 후보 문서로 선택한다.
3. 선택된 원본 문서에서 일정 부분을 추출, 여러가지 변형(정확한 복사, 유 의어 변형, 문형 변경)을 취한 후, 표절 후보 문서에 삽입하여 표절 문서를 생성한다.
4. 표절 문서는 다시 CISI 문서 집합에 포함시키고, 선택되었던 원본 문서는 문서 집합에서 제거한다.
한편, 시스템의 성능평가는 주어진 원본 문서와 표절된 문서를 포함하는 문서 집합의 문서들 사이의 비교를 통해 표절된 문서들을 얼마나 정확히 찾아내는 가에 중점을 두었다.
상기 제안된 시스템의 지역 유사도 추출부에 사용될 유의어 사전은 워드넷(WordNet)을 사용하였다.
그리고, 이하의 [표 2]에 나타낸 바와 같이, 제안된 시스템(P_System)과 비교를 위하여 해쉬 기반의 복사 감지시스템(H_System)과 단어의 유사도를 바탕으로 한 복사 감지시스템(W_System)을 구현하여 성능을 비교하였다.
테스트 집합은 상기에서 제시한 방법으로 3개를 생성하고, 각각의 테스트 집합에 정확한 복사, 유의어 교체, 문형 변경이 된 도용 문서들을 생성하여 실험을 수행하였다(표 2 참조).
상기의 성능평가에 사용된 비교 척도는 R=Prision을 이용하였고, R은 10으로 설정하였다.
한편, H_System은 정확한 복사에서만 작동을 하고, 나머지 경우에는 동작하지 않는 관계로 실험 데이터는 싣지 않았다. W_System은 비교 단위를 문서로 하는 WD_System과 문장으로 하는 WS_System과 같이 둘로 나뉘었다.
[표 1] 복사 감지 테스트
(R=10)
WD_System WS_System P_System
테스트 1 정확한 복사 2 6 8
유의어 교체 2 6 8
문형 변경 1 5 4
테스트 2 정확한 복사 1 7 9
유의어 교체 1 6 7
문형 변경 1 3 3
테스트 3 정확한 복사 1 5 7
유의어 교체 0 3 6
문형 변경 0 3 4
상기와 같이 WD_System의 경우 세가지 실험의 모든 경우에 낮은 성능을 보였다.
이는 문서의 복사 감지가 문서의 전역적인 비교 보다는 부분적인 비교에 더욱 민감한 문제이기 때문이다.
또한, 정확한 복사와 유의어 교체의 경우, P_System이 기존의 시스템보다 향상된 결과를 나타낸다.
그러나, 문형의 변경의 경우 P_System과 WS_System은 큰 성능의 차이를 보이지 않았다.
이는 문형의 변경의 경우 비교 문장 내의 단어들의 구성 정보와 유의어의 정보만으로는 복사의 가능성을 판단하기 어려움을 나타내고 있다.
상기의 실험결과에서 알 수 있듯이 제안된 P_System은 문서에서의 정확한 복사, 유의어 교체에 있어서 기존의 시스템에서 측정하는 복사 감지방식보다 더 정확한 결과를 산출함을 알 수 있다.
이는 기존의 코사인 유사도와 같은 정규화된 비교값을 산출하는 계산방식보다는 본 발명에서 제안한 비교 문장의 크기에 가변적인 비교값이 문서의 복사를 검증하는데 더 타당함을 보여주는 결과이다.
또한, 사용작 비교시에 산출되는 도용 패턴에 대한 정보까지 고려하여, 복사 감지에 대한 결론을 낸다면 더욱 정확한 문서 복사에 대한 판단을 내릴 수 있을 것이다.
본 발명은 상기와 같은 실시예로 기술하고 있지만, 상기의 실시예로 한정하는 것은 아니고, 본원 발명의 목적 및 배경을 벗어나지 않는 범위 내에서 다양하게 변형하여 실시할 수 있음은 물론이다.
예컨대, 본 발명의 시스템에서는 유의어를 검사하기 위해 워드넷을 이용하고 있지만, 검사하려는 특정 문서에 따라서 해당 문서 영역의 전문 용어를 정리한 온 토리지를 이용한다면 더욱 정교한 복사 감지시스템을 구축할 수 있는 것이다.
이상 기술한 바와 같이, 본 발명은 문서의 도용 여부를 문서의 유사도를 바탕으로 판별하는 것이 아니라 도용자의 도용 패턴을 감지하여 그 도용 패턴을 바탕으로 원본 문서와 비교 문서의 비교를 수행함으로써, 보다 유연하게 유사도를 계산하고, 비교 수행중에 찾아낸 도용 패턴에 대한 정보를 제공하여 문서의 도용 여부를 보다 정확하게 판단할 수 있다.

Claims (3)

  1. 도용 패턴에 기반하여 문서의 도용 여부를 판단하는 도용 패턴에 기반한 복사 감지시스템에 있어서,
    도용이 의심되는 질의 문서가 질의 문서 입력부(1)를 통해 입력되면, 상기 원본 문서 데이터베이스(6)에 미리 저장되어 있던 원본 문서와 상기 질의 문서 입력부(1)를 통해 입력된 질의 문서 각각을 비교 단위인 문장 단위로 분할하기 위한 문장 분할부(2)와,
    상기 문장 분할부(2)를 통해 분할된 문장들을 비교 평가함수를 이용하여 문장 단위의 유사도 SIM(So,Sc)와 도용 패턴에 대한 정보로 추출하기 위한 지역 유사도 추출부(3) 및,
    상기 지역 유사도 추출부(3)에서 추출된 정보는 원본 문서들 각각에 대한 문서 유사도와 도용 패턴을 구하고, 이 결과를 순화시켜 결과 출력부(7)를 통해 사용자에게 제시하게 하기 위한 문서 유사도 추출부(5)를 구비하여 구성된 것을 특징으로 하는 도용 패턴에 기반한 복사 감지시스템.
  2. 제1항에 있어서,
    상기 유사도 SIM(So,Sc)는 이하의 식 (1)에 의해 구해지는 것을 특징으로 하는 도용 패턴에 기반한 복사 감지시스템.
    SIM(So,Sc)=
    Figure 112006046761161-pat00006
    -- (1)
    상기 식 (1)에서,
    So={w1,w2,w3,..........,wn},
    Sc={w1,w2,w3,..........,wm},
    Figure 112006046761161-pat00007
    ----(2)
    Figure 112006046761161-pat00008
    --------------(3)
    상기 식(2) 및 (3)에서,
    Comm(So,Sc)=So∩Sc,
    Diff(So,Sc)=So- Sc,
    SynWord(So,Sc)={wi|wi∈Diff(Sc,So)∩Syn(wi)∈So}.
  3. 제1항에 있어서,
    상기 지역 유사도 추출부(3)에 사용되는 유의어 사전은 워드넷(WordNet)인 것을 특징으로 하는 도용 패턴에 기반한 복사 감지시스템.
KR1020060059452A 2006-06-29 2006-06-29 도용 패턴에 기반한 복사 감지시스템 KR100788440B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060059452A KR100788440B1 (ko) 2006-06-29 2006-06-29 도용 패턴에 기반한 복사 감지시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060059452A KR100788440B1 (ko) 2006-06-29 2006-06-29 도용 패턴에 기반한 복사 감지시스템

Publications (1)

Publication Number Publication Date
KR100788440B1 true KR100788440B1 (ko) 2007-12-24

Family

ID=39147928

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060059452A KR100788440B1 (ko) 2006-06-29 2006-06-29 도용 패턴에 기반한 복사 감지시스템

Country Status (1)

Country Link
KR (1) KR100788440B1 (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591976A (zh) * 2012-01-04 2012-07-18 复旦大学 基于句子级别的文本特征提取方法和文档拷贝检测系统
CN103207864A (zh) * 2012-01-13 2013-07-17 北京中文在线数字出版股份有限公司 一种网络小说内容近似度比对方法
CN103412905A (zh) * 2013-07-31 2013-11-27 广联达软件股份有限公司 Pdf文件对比方法及系统
KR101577376B1 (ko) 2014-01-21 2015-12-14 (주) 아워텍 텍스트 기준점 기반의 저작권 침해 판단 시스템 및 그 방법
KR101626247B1 (ko) * 2015-01-06 2016-06-01 인하대학교 산학협력단 온라인 서비스 가능한 유의어 사전 기반의 표절문서 탐색 시스템
CN107885706A (zh) * 2017-11-06 2018-04-06 佛山市章扬科技有限公司 一种数据相似度检测的系统
CN111611787A (zh) * 2019-02-25 2020-09-01 中国海洋大学 抄袭评测方法、系统和辅助写作系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020009077A (ko) * 2000-07-24 2002-02-01 김회율 문장 표절 및 도용 검색 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020009077A (ko) * 2000-07-24 2002-02-01 김회율 문장 표절 및 도용 검색 방법

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591976A (zh) * 2012-01-04 2012-07-18 复旦大学 基于句子级别的文本特征提取方法和文档拷贝检测系统
CN103207864A (zh) * 2012-01-13 2013-07-17 北京中文在线数字出版股份有限公司 一种网络小说内容近似度比对方法
CN103412905A (zh) * 2013-07-31 2013-11-27 广联达软件股份有限公司 Pdf文件对比方法及系统
KR101577376B1 (ko) 2014-01-21 2015-12-14 (주) 아워텍 텍스트 기준점 기반의 저작권 침해 판단 시스템 및 그 방법
KR101626247B1 (ko) * 2015-01-06 2016-06-01 인하대학교 산학협력단 온라인 서비스 가능한 유의어 사전 기반의 표절문서 탐색 시스템
CN107885706A (zh) * 2017-11-06 2018-04-06 佛山市章扬科技有限公司 一种数据相似度检测的系统
CN111611787A (zh) * 2019-02-25 2020-09-01 中国海洋大学 抄袭评测方法、系统和辅助写作系统

Similar Documents

Publication Publication Date Title
Chowdhury et al. Plagiarism: Taxonomy, tools and detection techniques
Wang et al. Efficient approximate entity extraction with edit distance constraints
US6055528A (en) Method for cross-linguistic document retrieval
US6385630B1 (en) Method for normalizing case
KR100788440B1 (ko) 도용 패턴에 기반한 복사 감지시스템
Kang et al. PPChecker: Plagiarism pattern checker in document copy detection
US8205155B2 (en) Text management software
Ali et al. Survey of plagiarism detection methods
US8521652B2 (en) Discovering licenses in software files
US9304980B1 (en) Identifying versions of file sets on a computer system
KR100406671B1 (ko) 문장 표절 및 도용 검색 방법
RU2491622C1 (ru) Способ классификации документов по категориям
US20180004838A1 (en) System and method for language sensitive contextual searching
CN106250769A (zh) 一种多级过滤的源代码数据检测方法及装置
JP2007188356A (ja) 不正ハイパーリンク検出装置及びその方法
KR101626247B1 (ko) 온라인 서비스 가능한 유의어 사전 기반의 표절문서 탐색 시스템
Anzelmi et al. Plagiarism detection based on SCAM algorithm
Stamatatos Plagiarism detection based on structural information
Jadalla et al. A plagiarism detection system for Arabic text-based documents
Shivaji et al. Plagiarism detection by using karp-rabin and string matching algorithm together
Islam et al. Real-word spelling correction using google web 1tn-gram data set
Karimzadeh Performance evaluation measures for toponym resolution
Garrido et al. GEO-NASS: A semantic tagging experience from geographical data on the media
CN107871078A (zh) 非结构化文本中提取漏洞信息的方法
Kahloula et al. Plagiarism Detection in Arabic Documents: Approaches, Architecture and Systems.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121011

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20131129

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20151028

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee