WO2012005414A1 - System and method for evaluating suitability of a reference document - Google Patents

System and method for evaluating suitability of a reference document Download PDF

Info

Publication number
WO2012005414A1
WO2012005414A1 PCT/KR2010/008114 KR2010008114W WO2012005414A1 WO 2012005414 A1 WO2012005414 A1 WO 2012005414A1 KR 2010008114 W KR2010008114 W KR 2010008114W WO 2012005414 A1 WO2012005414 A1 WO 2012005414A1
Authority
WO
WIPO (PCT)
Prior art keywords
main word
document
matching
main
input document
Prior art date
Application number
PCT/KR2010/008114
Other languages
French (fr)
Korean (ko)
Inventor
정한민
김평
이승우
이미경
서동민
성원경
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Publication of WO2012005414A1 publication Critical patent/WO2012005414A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Definitions

  • the present invention relates to a system and method for determining the suitability of a bibliography, and more particularly, to comparing one or more main words assigned to an input document with one or more main words assigned to one or more references in the input document in a matching manner, and comparing A reference system and method for determining the suitability of a reference for determining an association between the input document and the reference using the results.
  • this information only provides a limited service of how much a particular document is cited and how influential it is, and there is no way to determine whether an appropriate reference is cited.
  • the present invention has been made to solve the above problems, and an object of the present invention is to provide a system and method for determining the suitability of references, which can identify the association with the input literature by analyzing the references.
  • a main word comparison module for comparing the at least one main word assigned to the input document and at least one main word assigned to the at least one reference document in the input document, the main word comparison
  • the entire reference is referred to a suitable citation when the reference value is higher than the threshold value, and when the reference value is less than the threshold value, the reference is referred to as an inappropriate citation.
  • a reference conformity determination system is provided that includes a determining association module.
  • the reference suitability determination system parses the input literature to determine a reference region, extracts each reference in the determined reference region, and separates the components in the reference.
  • a bibliographic linkage module that stores or updates in a bibliographic database and extracts one or more main words from at least one of bibliographic information, summaries, and original texts of the bibliography and the bibliography.
  • the module may further include.
  • the main word extracting module may include: an index word extracting unit extracting terms except for stop words from at least one of bibliographic information, a summary, and an original text of the input document and the reference document; Refined) includes a subject filtering unit for filtering the subject compared with the subject dictionary, and a subject determining unit for selecting a subject ranked above by using the frequency condition of the filtered subject.
  • the frequency condition may be at least one of a term frequency condition, a document frequency condition, and a field classification code frequency condition.
  • the main keyword comparison module is a statistical calculation unit for collecting and sorting the main words of the reference, and calculates in order of frequency, matching the main word calculated by the statistical calculation unit and the main word of the input document, the matching ratio, frequency-based matching weight It may include a subject comparison unit for obtaining at least one.
  • the association determination module if the matching result obtained through the comparison of the main word is a threshold value or more and the main word not present in the reference is present in the input document, the input document is a progressive research topic for the entire reference I think it covered.
  • the association determination module searches whether there is another document including the main word of the input document in a previously registered literature database, and based on the search result Determine at least one of omission, omission, and fit.
  • the main word comparison module compares the main word of the input document with the main word of each reference to obtain at least one of a matching ratio for each reference and a frequency-based matching weight, and the correlation determination module determines that the obtained matching result is a threshold value.
  • the above reference is considered to be an appropriate citation, and the reference below the threshold is judged to be an inappropriate citation.
  • comparing at least one subject word assigned to the input document and at least one subject word assigned to at least one reference document in the input document in a matching manner (b) through the comparison result Comparing the obtained reference result with a threshold value and determining the association between the input document and the reference document as a proper citation when the reference value is greater than or equal to a threshold value, and when the reference value is less than the reference value as an entire citation value when the reference value is less than the threshold value.
  • a document conformity determination method is provided.
  • Parsing the input literature prior to step (a) to determine a bibliography region extracting each bibliography in the determined bibliography region, and separating the components in the bibliography into a bibliographic database.
  • the method may further include storing or updating the data, and associating with the input document, extracting one or more subject words from at least one of bibliographic information, a summary, and an original text of the input document and the reference document, and assigning them to the document.
  • the main words of all the references are sorted and arranged in order of frequency, the main words calculated in the order of frequency and the main words of the input document are matched, and at least one of a matching ratio and a frequency-based matching weight.
  • step (b) if at least one of a matching ratio and a frequency-based matching weight obtained through the main word comparison result is greater than or equal to a threshold, the entire reference is determined to be an appropriate citation, and if less than the threshold The entirety of this reference is considered to be inadequate citation.
  • the matching result obtained from the comparison of the main words is greater than or equal to a threshold value and there is a main word in the input document that is not present in the entire reference, it is determined that the input document deals with a progressive research topic for the entire reference.
  • a search is made in the previously registered literature database to see if there is another document including the main word of the input document, and at least one of plagiarism, omission, and goodness based on the search result.
  • the abnormality is determined.
  • the main word of the input reference is compared with the main word of each reference to obtain at least one of a matching ratio for each reference and a frequency-based matching weight.
  • the reference that the obtained matching result is greater than or equal to the threshold is determined to be a suitable citation, and the reference that is less than the threshold is determined to be an inappropriate citation.
  • FIG. 1 is a diagram illustrating a reference conformity determination system according to an embodiment of the present invention.
  • FIG. 2 is a block diagram schematically showing the main word extraction module shown in FIG.
  • FIG. 3 is a block diagram schematically illustrating a configuration of the main keyword comparison module shown in FIG. 1.
  • FIG. 3 is a block diagram schematically illustrating a configuration of the main keyword comparison module shown in FIG. 1.
  • 4 and 5 are flowcharts illustrating a method of determining conformance of references according to an embodiment of the present invention.
  • FIG. 6 is a view for explaining a method for determining a reference region according to an embodiment of the present invention.
  • FIG. 7 is a view for explaining a method of associating an input document with a reference document according to an embodiment of the present invention.
  • FIG. 8 is a view for explaining a result of matching keywords between an input document and a reference document according to an embodiment of the present invention.
  • FIG. 9 is a flowchart illustrating a correlation determination method using a matching result and a threshold according to the present invention.
  • FIG. 1 is a view showing a reference conformity determination system according to an embodiment of the present invention.
  • the reference conformity determination system 100 compares, in a matching manner, one or more main words assigned to an input document and one or more main words assigned to one or more references in the input document. And an association determining module 150 that determines an association between the input document and the reference document using the comparison result in the main keyword comparison module 140.
  • the main word comparison module 140 sorts all the main words of all references and calculates them in frequency order, and obtains at least one of a matching ratio and a frequency-based matching weight by matching the calculated main word and the main word of the input document.
  • the association determination module 150 compares the matching result obtained through the main keyword comparison result in the main keyword comparison module 140 with a predetermined threshold value and determines that the entire reference is a proper citation when the threshold value is greater than or equal to the threshold value. In this case, the entirety of the reference is determined to be an inappropriate citation.
  • the matching result may be at least one of a matching ratio and a frequency-based matching weight.
  • association determination module 150 may determine that the input document is progressive with respect to the entire reference when the matching result obtained through the comparison of the main word is greater than or equal to a threshold value and a main word not present in the reference is present. Judging from the topic of research
  • association determination module 150 if the matching result obtained through the comparison of the main word in the main word comparison module 140 is less than a threshold value, there is another document including the main word of the input document in a pre-registered literature database. Search for
  • the association determination module 150 determines at least one of plagiarism, omission, and suitability based on the search results.
  • the main word comparison module 140 may obtain at least one of a matching ratio for each reference and a frequency-based matching weight by comparing the main word of the input document with the main word of each reference.
  • the correlation determination module compares at least one of the obtained matching ratio and frequency-based matching weight with a predetermined threshold.
  • the association determination module 150 determines that the reference in the main comparison module 140 is a reference that is greater than or equal to a threshold value as a suitable citation, and determines that the reference that is less than the threshold value is an invalid citation.
  • the reference suitability determination system 100 may further include a reference recognition module 110, a reference linkage module 120, and a main word extraction module 130.
  • the bibliography recognition module 110 parses the input literature to determine a bibliography region, and extracts each bibliography in the determined bibliography region.
  • the bibliography linkage module 120 separates the elements in the bibliography and stores or updates the bibliography in a bibliographic database.
  • the components in the reference refers to the author, title, source, page number, year, and the like.
  • the reference linkage module 120 performs component normalization if necessary, merges and assigns documents having similarities over a certain threshold compared to other documents stored in a previously registered reference database. It performs the function.
  • the main word extracting module 130 extracts one or more main words from at least one of bibliographic information, a summary, and an original text of the input document and the reference document and assigns them to the document.
  • FIG. 1 is a view showing a reference conformity determination system according to an embodiment of the present invention.
  • the reference conformity determination system 100 compares, in a matching manner, one or more main words assigned to an input document and one or more main words assigned to one or more references in the input document. And an association determining module 150 that determines an association between the input document and the reference document using the comparison result in the main keyword comparison module 140.
  • the main word comparison module 140 sorts all the main words of all references and calculates them in frequency order, and obtains at least one of a matching ratio and a frequency-based matching weight by matching the calculated main word and the main word of the input document.
  • the association determination module 150 compares the matching result obtained through the main keyword comparison result in the main keyword comparison module 140 with a predetermined threshold value and determines that the entire reference is a proper citation when the threshold value is greater than or equal to the threshold value. In this case, the entirety of the reference is determined to be an inappropriate citation.
  • the matching result may be at least one of a matching ratio and a frequency-based matching weight.
  • association determination module 150 may determine that the input document is progressive with respect to the entire reference when the matching result obtained through the comparison of the main word is greater than or equal to a threshold value and a main word not present in the reference is present. Judging from the topic of research
  • association determination module 150 if the matching result obtained through the comparison of the main word in the main word comparison module 140 is less than a threshold value, there is another document including the main word of the input document in a pre-registered literature database. Search for
  • the association determination module 150 determines at least one of plagiarism, omission, and suitability based on the search results.
  • the main word comparison module 140 may obtain at least one of a matching ratio for each reference and a frequency-based matching weight by comparing the main word of the input document with the main word of each reference.
  • the correlation determination module compares at least one of the obtained matching ratio and frequency-based matching weight with a predetermined threshold.
  • the association determination module 150 determines that the reference in the main comparison module 140 is a reference that is greater than or equal to a threshold value as a suitable citation, and determines that the reference that is less than the threshold value is an invalid citation.
  • the reference suitability determination system 100 may further include a reference recognition module 110, a reference linkage module 120, and a main word extraction module 130.
  • the bibliography recognition module 110 parses the input literature to determine a bibliography region, and extracts each bibliography in the determined bibliography region.
  • the bibliography linkage module 120 separates the elements in the bibliography and stores or updates the bibliography in a bibliographic database.
  • the components in the reference refers to the author, title, source, page number, year, and the like.
  • the reference linkage module 120 performs component normalization if necessary, merges and assigns documents having similarities over a certain threshold compared to other documents stored in a previously registered reference database. It performs the function.
  • the main word extracting module 130 extracts one or more main words from at least one of bibliographic information, a summary, and an original text of the input document and the reference document and assigns them to the document.
  • main word extraction module 130 Detailed description of the main word extraction module 130 will be described with reference to FIG. 2.
  • FIG. 2 is a block diagram schematically illustrating a main word extraction module shown in FIG. 1.
  • the main word extracting module 130 extracts terms except for stop words from at least one of bibliographic information, a summary, and an original text of an input document and a reference document as an index word extracting unit 132.
  • the main keyword filtering unit 134 compares the extracted index terms with the main dictionary to exclude those having no main keyword value.
  • the main word determining unit 136 applies the main words filtered by the main word filtering unit 134 to at least one frequency condition among a term frequency condition, a document frequency condition, and a field classification code frequency condition. Rank it.
  • the main word determining unit 136 determines a predetermined number of main words as the main words of the document for each higher rank.
  • FIG. 3 is a block diagram schematically illustrating a configuration of the main keyword comparison module shown in FIG. 1.
  • the main word comparison module 140 collects and sorts main words of a reference in an input document, and calculates them in order of frequency, and the main word calculated by the statistical calculation part 142 and the main word. And a main word comparator 144 that matches a main word of the input document to obtain at least one of a matching ratio and a frequency-based matching weight.
  • the statistical calculation unit 142 collects and sorts the main words of all the references in the input document, and calculates a frequency for each of the sorted main words.
  • the main word comparison unit 144 obtains at least one of a matching ratio or a frequency-based matching weight in which the main word of the input document matches the main word of the reference document based on the frequency of the main word calculated by the statistical calculation unit 142. do.
  • FIG. 4 is a flowchart illustrating a reference conformity determination method according to an embodiment of the present invention.
  • the reference conformity determination system compares one or more main words assigned to the input document with one or more main words assigned to the one or more reference documents in the input document (S400).
  • the reference conformity determination system collects the main words of all the references and sorts them in frequency order.
  • the reference suitability determination system then matches at least one of a main word arranged in the frequency order and a main word of the input document to obtain at least one of a matching ratio and a frequency-based matching weight.
  • the reference suitability determination system determines an association between the input document and the reference document using the comparison result (S402).
  • FIG. 5 is a flowchart illustrating a method of determining reference conformity according to an embodiment of the present invention
  • FIG. 6 is a view for explaining a method for determining a reference region according to an embodiment of the present invention
  • FIG. 7 is according to an embodiment of the present invention.
  • 8 is a diagram for describing a method of linking an input document and a reference document
  • FIG. 8 is a view for explaining a result of matching keywords between an input document and a reference document according to an embodiment of the present invention.
  • the reference conformity determination system parses an input document to determine a reference area (S500), and extracts each reference in the determined reference area (S502).
  • the reference suitability determination system parses the input literature, and if an indicator indicating an area such as 'Reference / s' or 'Reference literature' is identified in the text document, the reference is mainly focused on the identified region. Determine the literature area.
  • the reference conformity determination system refers to the region 600 indicated by the 'Reference', since 'Reference' exists in the input literature. Determined by the literature area.
  • the reference suitability determination system then extracts a list of references in the determined reference area.
  • the reference list includes all the components in the reference, and the components refer to, for example, author, title, source, page, year, and the like.
  • the reference conformity determination system separates the components in the reference, stores or updates them in the literature database, and associates them with the input literature (S504). That is, the reference suitability determination system divides the components in the reference into titles, authors, subjects, sources, etc., and stores or updates them in the reference database as shown in FIG. 7 and associates them with the input documents.
  • references corresponding to 1, 3, and 4 correspond to references of the input literature among the references stored in the literature database
  • reference literature corresponding to the references 1, 3, and 4 may be referred to.
  • the reference suitability determination system extracts one or more subject words from at least one of the bibliographic information, summary, and original text of the input document and the reference document and assigns them to the document (S506).
  • the reference suitability determination system extracts terms except for stop words from at least one of bibliographic information, a summary, and an original text of the input reference and the reference.
  • the reference conformity determination system then filters the subject words by comparing the extracted index terms with a previously refined subject dictionary. Thereafter, the reference conformity determination system determines the uppermost main word as the final main word using the filtered condition of the frequency of the main word and assigns each to the corresponding document.
  • the reference suitability determination system compares the main word assigned to the input document with the main word assigned to the reference method in a matching manner (S508). That is, the reference suitability determination system collects and sorts the main words of all the references and calculates them in order of frequency.
  • the reference suitability determination system obtains at least one of a matching ratio and a frequency-based matching weight by matching the main word calculated in the frequency order with the main word of the input document. At least one of the obtained matching ratio and frequency-based matching weight is called a matching result.
  • the reference suitability determination system compares the matching result obtained through the step S508 with a threshold value and determines the association between the input document and the reference (S510).
  • FIG. 9 is a flowchart illustrating a correlation determination method using a matching result and a threshold according to the present invention.
  • the reference suitability determination system compares a matching result, which is at least one of a matching ratio and a frequency-based matching weight, obtained through a main control comparison result with a threshold value (S900) to determine whether the matching result is greater than or equal to a threshold value. It is determined whether or not (S902).
  • the reference suitability determination system determines that the entire reference is a proper citation (S904).
  • the reference suitability determination system determines that the input literature has dealt with a progressive research topic with respect to the entire reference when the matching result is greater than or equal to a threshold value and a main word not present in the reference is present. do.
  • the reference suitability determination system determines that the entire reference is an inappropriate citation (S906).
  • the reference conformity determination system searches for the existence of another document including the main word of the input document in the previously registered literature database (S908), and determines at least one or more of plagiarism, omission, and suitability based on the search result. (S910).
  • the system and method for determining the suitability of a bibliography supports the determination of 'citation of a suitable bibliography' which is one of the criteria for reviewing a paper by analyzing the bibliography and identifying the association with the input literature. It is suitable for the high necessity to determine.

Abstract

The present invention relates to a system and method for evaluating the suitability of a reference document and comprises: a subject-word comparison module comparing one or more subject words assigned in an input document with one or more subject words assigned in a reference document in a matching method; and a correlation evaluation module evaluating the correlation between the input document and reference document using the compared result in the subject-word comparison module. According to the present invention, a reference document can be analyzed to investigate the correlation of the input document with the reference document, thus providing support in determining that "a suitable reference document is cited" and further determining objects on which to perform inspections of academic papers for plagiarism.

Description

참고 문헌 적합성 판정 시스템 및 방법 Relevance Determination System and Method
본 발명은 참고 문헌 적합성 판정 시스템 및 방법에 관한 것으로, 더욱 상세하게는 입력 문헌에 할당된 하나 이상의 주제어와 상기 입력 문헌 내 하나 이상의 참고 문헌에 할당된 하나 이상의 주제어를 매칭 방식으로 비교하고, 상기 비교 결과를 이용하여 상기 입력 문헌과 상기 참고 문헌간의 연관성을 판단하는 참고 문헌 적합성 판정 시스템 및 방법에 관한 것이다. The present invention relates to a system and method for determining the suitability of a bibliography, and more particularly, to comparing one or more main words assigned to an input document with one or more main words assigned to one or more references in the input document in a matching manner, and comparing A reference system and method for determining the suitability of a reference for determining an association between the input document and the reference using the results.
참고 문헌은 논문이나 보고서 등의 문헌에 첨부된 관련 문헌으로, 매우 중요한 부분이다. 흔이 논문의 경우 목차와 서론, 그리고 참고문헌만 보면 그 논문을 평가할 수 있는데 이는 논문을 작성하는데 그 주제와 서론에서 밝힌 내용들에 적합한 문헌을 참고하였는가가 중요하기 때문이다.References are related documents attached to documents such as articles and reports and are very important. In the case of a manuscript, it is possible to evaluate the manuscript only by looking at the table of contents, the introduction, and the bibliography, because it is important to refer to the literature appropriate for the contents of the topic and introduction.
이러한 참고 문헌에 대한 인용 색인은 미국의 ISI에서 개발한 SCI(Science Citation Index)를 포함한 여러 지표들이 연구되어 왔다. Citation indexes for these references have been studied, including the Science Citation Index (SCI) developed by ISI in the United States.
그러나, 이러한 지표들은 참고문헌을 수작업에 의존해 분석한 결과이며, 문헌 간의 인용정보 부여로 그 역할이 한정되어 있다. However, these indicators are the result of manual analysis of references, and their role is limited to the citation of documents.
또한, 이러한 정보는 단지 특정 문헌이 얼마나 인용되는가, 어느 정도 영향력을 가지는가의 한정적인 서비스만 제공할 뿐, 적합한 참고 문헌이 인용되었는지의 여부를 규명할 방법이 없었다. In addition, this information only provides a limited service of how much a particular document is cited and how influential it is, and there is no way to determine whether an appropriate reference is cited.
본 발명은 상기한 문제점을 해결하기 위하여 안출한 것으로, 본 발명의 목적은 참고 문헌을 분석하여 입력 문헌과의 연관성을 규명할 수 있는 참고 문헌 적합성 판정 시스템 및 방법을 제공하는데 있다. SUMMARY OF THE INVENTION The present invention has been made to solve the above problems, and an object of the present invention is to provide a system and method for determining the suitability of references, which can identify the association with the input literature by analyzing the references.
상기 목적들을 달성하기 위하여 본 발명의 일 측면에 따르면, 입력 문헌에 할당된 하나 이상의 주제어와 상기 입력 문헌 내 하나 이상의 참고 문헌에 할당된 하나 이상의 주제어를 매칭 방식으로 비교하는 주제어 비교 모듈, 상기 주제어 비교 모듈에서의 비교 결과를 통해 구해진 매칭 결과를 임계값과 비교하여 임계값 이상인 경우 상기 참고문헌 전체를 적합한 인용, 임계값 미만인 경우 상기 참고문헌 전체를 부적합한 인용이라고 상기 입력 문헌과 상기 참고 문헌간의 연관성을 판단하는 연관성 판정 모듈을 포함하는 참고 문헌 적합성 판정 시스템이 제공된다. According to an aspect of the present invention to achieve the above object, a main word comparison module for comparing the at least one main word assigned to the input document and at least one main word assigned to the at least one reference document in the input document, the main word comparison When the matching result obtained from the comparison result in the module is compared with the threshold value, the entire reference is referred to a suitable citation when the reference value is higher than the threshold value, and when the reference value is less than the threshold value, the reference is referred to as an inappropriate citation. A reference conformity determination system is provided that includes a determining association module.
상기 참고 문헌 적합성 판정 시스템은 상기 입력 문헌을 해석(Parsing)하여 참고 문헌 영역을 결정하고, 상기 결정된 참고 문헌 영역에 있는 각 참고 문헌을 추출하는 참고 문헌 인식 모듈, 상기 참고 문헌 내 구성 요소를 분리하여 문헌 데이터베이스에 저장하거나 갱신하고, 상기 입력 문헌과 연계하는 참고 문헌 연계 모듈, 상기 입력 문헌과 상기 참고 문헌의 서지 정보, 요약, 원문 중 적어도 하나에서 하나 이상의 주제어를 추출하여 해당 문헌에 할당하는 주제어 추출 모듈을 더 포함할 수 있다. The reference suitability determination system parses the input literature to determine a reference region, extracts each reference in the determined reference region, and separates the components in the reference. A bibliographic linkage module that stores or updates in a bibliographic database and extracts one or more main words from at least one of bibliographic information, summaries, and original texts of the bibliography and the bibliography. The module may further include.
상기 주제어 추출 모듈은, 상기 입력 문헌 및 상기 참고 문헌의 서지 정보, 요약, 원문 중 적어도 하나에서 불용어(Stop word)를 제외한 용어들을 색인어로 추출하는 색인어 추출부, 상기 추출된 색인어들을 미리 정제된(Refined) 주제어 사전과 비교하여 주제어를 필터링하는 주제어 필터링부, 상기 필터링된 주제어의 빈도 조건을 이용하여 상위에 랭크된 주제어를 선택하는 주제어 결정부를 포함한다. The main word extracting module may include: an index word extracting unit extracting terms except for stop words from at least one of bibliographic information, a summary, and an original text of the input document and the reference document; Refined) includes a subject filtering unit for filtering the subject compared with the subject dictionary, and a subject determining unit for selecting a subject ranked above by using the frequency condition of the filtered subject.
상기 빈도 조건은 용어빈도(Term Frequency) 조건, 문서빈도(Document Frequency) 조건, 분야분류코드 빈도 조건 중에서 적어도 하나일 수 있다. The frequency condition may be at least one of a term frequency condition, a document frequency condition, and a field classification code frequency condition.
상기 주제어 비교 모듈은, 상기 참고 문헌의 주제어들을 모아 정렬하고, 빈도 순으로 계산하는 통계 계산부, 상기 통계 계산부에서 계산된 주제어와 상기 입력 문헌의 주제어를 매칭하여 매칭 비율, 빈도 기반 매칭 가중치 중 적어도 하나를 구하는 주제어 비교부를 포함할 수 있다. The main keyword comparison module is a statistical calculation unit for collecting and sorting the main words of the reference, and calculates in order of frequency, matching the main word calculated by the statistical calculation unit and the main word of the input document, the matching ratio, frequency-based matching weight It may include a subject comparison unit for obtaining at least one.
또한, 상기 연관성 판정 모듈은 상기 주제어 비교 결과를 통해 구해진 매칭 결과가 임계값 이상이고 상기 참고문헌 전체에 없는 주제어가 입력 문헌에 존재하는 경우, 상기 입력 문헌이 상기 참고문헌 전체에 대해 진보적인 연구 주제를 다룬 것이라고 판단한다. In addition, the association determination module, if the matching result obtained through the comparison of the main word is a threshold value or more and the main word not present in the reference is present in the input document, the input document is a progressive research topic for the entire reference I think it covered.
또한, 상기 연관성 판정 모듈은 상기 주제어 비교 결과를 통해 구해진 매칭 결과가 임계값 미만인 경우 기 등록된 문헌 데이터베이스에서 상기 입력 문헌의 주제어를 포함하는 다른 문헌이 존재하는지 검색하고, 상기 검색 결과를 기반으로 표절, 누락, 적합 중에서 적어도 하나 이상을 판정한다. In addition, when the matching result obtained through the comparison of the main words is less than a threshold value, the association determination module searches whether there is another document including the main word of the input document in a previously registered literature database, and based on the search result Determine at least one of omission, omission, and fit.
또한, 상기 주제어 비교 모듈은 상기 입력 문헌의 주제어를 각 참고문헌의 주제어와 각각 비교하여 참고 문헌별 매칭 비율, 빈도 기반 매칭 가중치 중 적어도 하나를 구하고, 상기 연관성 판정 모듈은 상기 구해진 매칭 결과가 임계값 이상인 참고문헌을 적합한 인용이라고 판단하고, 임계값 미만인 참고 문헌을 부적합한 인용이라고 판단한다. The main word comparison module compares the main word of the input document with the main word of each reference to obtain at least one of a matching ratio for each reference and a frequency-based matching weight, and the correlation determination module determines that the obtained matching result is a threshold value. The above reference is considered to be an appropriate citation, and the reference below the threshold is judged to be an inappropriate citation.
본 발명의 다른 측면에 따르면, (a) 입력 문헌에 할당된 하나 이상의 주제어와 상기 입력 문헌 내 하나 이상의 참고 문헌에 할당된 하나 이상의 주제어를 매칭 방식으로 비교하는 단계, (b) 상기 비교 결과를 통해 구해진 매칭 결과를 임계값과 비교하여 임계값 이상인 경우 상기 참고문헌 전체를 적합한 인용, 임계값 미만인 경우 상기 참고문헌 전체를 부적합한 인용이라고 상기 입력 문헌과 상기 참고 문헌간의 연관성을 판단하는 단계를 포함하는 참고 문헌 적합성 판정 방법이 제공된다.According to another aspect of the present invention, (a) comparing at least one subject word assigned to the input document and at least one subject word assigned to at least one reference document in the input document in a matching manner, (b) through the comparison result Comparing the obtained reference result with a threshold value and determining the association between the input document and the reference document as a proper citation when the reference value is greater than or equal to a threshold value, and when the reference value is less than the reference value as an entire citation value when the reference value is less than the threshold value. A document conformity determination method is provided.
상기 (a)단계 이전에 상기 입력 문헌을 해석(Parsing)하여 참고 문헌 영역을 결정하고, 상기 결정된 참고 문헌 영역에 있는 각 참고 문헌을 추출하는 단계, 상기 참고 문헌 내 구성 요소를 분리하여 문헌 데이터베이스에 저장하거나 갱신하고, 상기 입력 문헌과 연계하는 단계, 상기 입력 문헌과 상기 참고 문헌의 서지 정보, 요약, 원문 중 적어도 하나에서 하나 이상의 주제어를 추출하여 해당 문헌에 할당하는 단계를 더 포함할 수 있다. Parsing the input literature prior to step (a) to determine a bibliography region, extracting each bibliography in the determined bibliography region, and separating the components in the bibliography into a bibliographic database. The method may further include storing or updating the data, and associating with the input document, extracting one or more subject words from at least one of bibliographic information, a summary, and an original text of the input document and the reference document, and assigning them to the document.
상기 (a)단계는 상기 참고문헌 전체의 주제어들을 모아 정렬하고, 빈도 순으로 계산하는 단계, 상기 빈도 순으로 계산된 주제어와 상기 입력 문헌의 주제어를 매칭하여 매칭 비율, 빈도 기반 매칭 가중치 중 적어도 하나를 구하는 단계를 포함한다. In the step (a), the main words of all the references are sorted and arranged in order of frequency, the main words calculated in the order of frequency and the main words of the input document are matched, and at least one of a matching ratio and a frequency-based matching weight. Obtaining a step.
상기 (b)단계는, 상기 주제어 비교 결과를 통해 구해진 매칭 비율, 빈도 기반 매칭 가중치 중 적어도 하나를 임계값과 비교하여 임계값 이상인 경우 상기 참고문헌전체를 적합한 인용이라고 판단하고, 상기 임계값 미만인 경우 상기 참고문헌전체를 부적합한 인용이라고 판단한다. In the step (b), if at least one of a matching ratio and a frequency-based matching weight obtained through the main word comparison result is greater than or equal to a threshold, the entire reference is determined to be an appropriate citation, and if less than the threshold The entirety of this reference is considered to be inadequate citation.
상기 주제어 비교 결과를 통해 구해진 매칭 결과가 임계값 이상이고 상기 참고문헌전체에 없는 주제어가 입력 문헌에 존재하는 경우, 상기 입력 문헌이 상기 참고문헌전체에 대해 진보적인 연구 주제를 다룬 것이라고 판단한다. If the matching result obtained from the comparison of the main words is greater than or equal to a threshold value and there is a main word in the input document that is not present in the entire reference, it is determined that the input document deals with a progressive research topic for the entire reference.
상기 주제어 비교 결과를 통해 구해진 매칭 결과가 임계값 미만인 경우 기 등록된 문헌 데이터베이스에서 상기 입력 문헌의 주제어를 포함하는 다른 문헌이 존재하는지 검색하고, 상기 검색 결과를 기반으로 표절, 누락, 적합 중에서 적어도 하나 이상을 판정한다. When the matching result obtained through the comparison of the main words is less than a threshold value, a search is made in the previously registered literature database to see if there is another document including the main word of the input document, and at least one of plagiarism, omission, and goodness based on the search result. The abnormality is determined.
상기 (a)단계는, 상기 입력문헌의 주제어를 각 참고문헌의 주제어와 각각 비교하여 참고문헌별 매칭 비율, 빈도 기반 매칭 가중치 중 적어도 하나를 구한다. In the step (a), the main word of the input reference is compared with the main word of each reference to obtain at least one of a matching ratio for each reference and a frequency-based matching weight.
상기 구해진 매칭 결과가 임계값 이상인 참고문헌을 적합한 인용이라고 판단하고, 임계값 미만인 참고문헌을 부적합한 인용이라고 판단한다. The reference that the obtained matching result is greater than or equal to the threshold is determined to be a suitable citation, and the reference that is less than the threshold is determined to be an inappropriate citation.
상술한 바와 같이 본 발명에 따르면, 참고 문헌을 분석하여 입력 문헌과의 연관성을 규명함으로써 논문 심사 기준의 하나인 '적합한 참고문헌 인용'판단을 지원하고 더 나아가 중복 논문 검사 수행 대상을 결정할 수 있다.As described above, according to the present invention, by analyzing the reference literature and identifying the association with the input literature, it is possible to support the determination of 'relevant reference citation', which is one of the criteria for reviewing the thesis, and to determine the subject of the duplicate article inspection.
도 1은 본 발명의 실시예에 따른 참고 문헌 적합성 판정 시스템을 나타낸 도면. 1 is a diagram illustrating a reference conformity determination system according to an embodiment of the present invention.
도 2는 도 1에 도시된 주제어 추출 모듈을 개략적으로 나타낸 블럭도. FIG. 2 is a block diagram schematically showing the main word extraction module shown in FIG.
도 3은 도 1에 도시된 주제어 비교 모듈의 구성을 개략적으로 나타낸 블럭도. FIG. 3 is a block diagram schematically illustrating a configuration of the main keyword comparison module shown in FIG. 1. FIG.
도 4 및 도 5는 본 발명의 실시예에 따른 참고 문헌 적합성 판정 방법을 나타낸 흐름도. 4 and 5 are flowcharts illustrating a method of determining conformance of references according to an embodiment of the present invention.
도 6은 본 발명의 실시예에 따른 참고 문헌 영역 결정 방법을 설명하기 위한 도면.6 is a view for explaining a method for determining a reference region according to an embodiment of the present invention.
도 7은 본 발명의 실시예에 따른 입력 문헌과 참고 문헌을 연계하는 방법을 설명하기 위한 도면.7 is a view for explaining a method of associating an input document with a reference document according to an embodiment of the present invention.
도 8은 본 발명의 실시예에 따른 입력 문헌과 참고문헌간의 주제어 매칭 결과를 설명하기 위한 도면.8 is a view for explaining a result of matching keywords between an input document and a reference document according to an embodiment of the present invention.
도 9는 본 발명에 따른 매칭 결과와 임계값을 이용한 연관성 판정 방법을 나타낸 흐름도.9 is a flowchart illustrating a correlation determination method using a matching result and a threshold according to the present invention.
본 발명의 전술한 목적과 기술적 구성 및 그에 따른 작용 효과에 관한 자세한 사항은 본 발명의 명세서에 첨부된 도면에 의거한 이하 상세한 설명에 의해 보다 명확하게 이해될 것이다.Details of the above-described objects and technical configurations of the present invention and the effects thereof according to the present invention will be more clearly understood by the following detailed description based on the accompanying drawings.
도 1은 본 발명의 실시예에 따른 참고 문헌 적합성 판정 시스템을 나타낸 도면이다. 1 is a view showing a reference conformity determination system according to an embodiment of the present invention.
도 1을 참조하면, 참고문헌 적합성 판정 시스템(100)은 입력 문헌에 할당된 하나 이상의 주제어와 상기 입력 문헌 내 하나 이상의 참고 문헌에 할당된 하나 이상의 주제어를 매칭 방식으로 비교하는 주제어 비교 모듈(140), 상기 주제어 비교 모듈(140)에서의 비교 결과를 이용하여 상기 입력 문헌과 상기 참고 문헌간의 연관성을 판단하는 연관성 판정 모듈(150)을 포함한다. Referring to FIG. 1, the reference conformity determination system 100 compares, in a matching manner, one or more main words assigned to an input document and one or more main words assigned to one or more references in the input document. And an association determining module 150 that determines an association between the input document and the reference document using the comparison result in the main keyword comparison module 140.
상기 주제어 비교 모듈(140)은 참고문헌 전체의 주제어들을 모두 정렬하여 빈도순으로 계산하고, 상기 계산된 주제어와 상기 입력 문헌의 주제어를 매칭하여 매칭 비율, 빈도 기반 매칭 가중치 중 적어도 하나를 구한다.The main word comparison module 140 sorts all the main words of all references and calculates them in frequency order, and obtains at least one of a matching ratio and a frequency-based matching weight by matching the calculated main word and the main word of the input document.
상기 연관성 판정 모듈(150)은 상기 주제어 비교 모듈(140)에서의 주제어 비교 결과를 통해 구해진 매칭 결과를 미리 정해진 임계값과 비교하여 임계값 이상인 경우 참고문헌 전체를 적합한 인용이라고 판단하고, 임계값 미만인 경우 상기 참고문헌 전체를 부적합한 인용이라고 판단한다. 여기서, 상기 매칭 결과는 매칭 비율, 빈도 기반 매칭 가중치 중 적어도 하나일 수 있다.The association determination module 150 compares the matching result obtained through the main keyword comparison result in the main keyword comparison module 140 with a predetermined threshold value and determines that the entire reference is a proper citation when the threshold value is greater than or equal to the threshold value. In this case, the entirety of the reference is determined to be an inappropriate citation. Here, the matching result may be at least one of a matching ratio and a frequency-based matching weight.
또한, 상기 연관성 판정 모듈(150)은 상기 주제어 비교 결과를 통해 구해진 매칭 결과가 임계값 이상이고 상기 참고문헌 전체에 없는 주제어가 입력 문헌에 존재하는 경우, 상기 입력 문헌이 상기 참고문헌 전체에 대해 진보적인 연구 주제를 다룬 것이라고 판단한다. In addition, the association determination module 150 may determine that the input document is progressive with respect to the entire reference when the matching result obtained through the comparison of the main word is greater than or equal to a threshold value and a main word not present in the reference is present. Judging from the topic of research
또한, 상기 연관성 판정 모듈(150)은 상기 주제어 비교 모듈(140)에서의 주제어 비교 결과를 통해 구해진 매칭 결과가 임계값 미만인 경우 기 등록된 문헌 데이터베이스에서 상기 입력 문헌의 주제어를 포함하는 다른 문헌이 존재하는지 검색한다.In addition, the association determination module 150, if the matching result obtained through the comparison of the main word in the main word comparison module 140 is less than a threshold value, there is another document including the main word of the input document in a pre-registered literature database. Search for
그런 다음 상기 연관성 판정 모듈(150)은 상기 검색 결과를 기반으로 표절, 누락, 적합 중에서 적어도 하나 이상을 판정한다. The association determination module 150 then determines at least one of plagiarism, omission, and suitability based on the search results.
본 발명의 다른 실시예에 따르면, 상기 주제어 비교 모듈(140)은 상기 입력 문헌의 주제어를 각 참고문헌의 주제어와 각각 비교하여 참고 문헌별 매칭 비율, 빈도 기반 매칭 가중치 중 적어도 하나를 구할 수 있다. 이때, 상기 연관성 판정 모듈은 상기 구해진 매칭 비율, 빈도 기반 매칭 가중치 중 적어도 하나를 미리 정해진 임계값과 비교한다. According to another embodiment of the present invention, the main word comparison module 140 may obtain at least one of a matching ratio for each reference and a frequency-based matching weight by comparing the main word of the input document with the main word of each reference. In this case, the correlation determination module compares at least one of the obtained matching ratio and frequency-based matching weight with a predetermined threshold.
그런 다음 상기 연관성 판정 모듈(150)은 상기 주제어 비교 모듈(140)에서의 비교 결과가 임계값 이상인 참고문헌을 적합한 인용이라고 판단하고, 임계값 미만인 참고 문헌을 부적합한 인용이라고 판단한다. The association determination module 150 then determines that the reference in the main comparison module 140 is a reference that is greater than or equal to a threshold value as a suitable citation, and determines that the reference that is less than the threshold value is an invalid citation.
상기와 같이 구성된 참고문헌 적합성 판정 시스템(100)은 참고문헌 인식 모듈(110), 참고문헌 연계 모듈(120), 주제어 추출 모듈(130)을 더 포함할 수 있다.The reference suitability determination system 100 configured as described above may further include a reference recognition module 110, a reference linkage module 120, and a main word extraction module 130.
상기 참고 문헌 인식 모듈(110)은 상기 입력 문헌을 해석(Parsing)하여 참고 문헌 영역을 결정하고, 상기 결정된 참고 문헌 영역에 있는 각 참고 문헌을 추출한다. The bibliography recognition module 110 parses the input literature to determine a bibliography region, and extracts each bibliography in the determined bibliography region.
상기 참고 문헌 연계 모듈(120)은 상기 참고 문헌 내 구성 요소를 분리하여 문헌 데이터베이스에 저장하거나 갱신하고, 상기 입력 문헌과 연계한다. 여기서, 상기 참고 문헌내 구성 요소는 저자, 제목, 출처, 페이지 번호, 연도 등을 말한다.The bibliography linkage module 120 separates the elements in the bibliography and stores or updates the bibliography in a bibliographic database. Here, the components in the reference refers to the author, title, source, page number, year, and the like.
또한, 상기 참고 문헌 연계 모듈(120)은 필요한 경우 구성 요소 정규화를 수행하고, 기 등록된 문헌 데이터베이스내에 저장된 다른 문헌들과 비교하여 일정한 임계값 (Threshold) 이상의 유사성을 가지는 문헌들을 병합하고 식별자를 부여하는 기능을 수행한다.In addition, the reference linkage module 120 performs component normalization if necessary, merges and assigns documents having similarities over a certain threshold compared to other documents stored in a previously registered reference database. It performs the function.
상기 주제어 추출 모듈(130)은 상기 입력 문헌과 상기 참고 문헌의 서지 정보, 요약, 원문 중 적어도 하나에서 하나 이상의 주제어를 추출하여 해당 문헌에 할당한다.The main word extracting module 130 extracts one or more main words from at least one of bibliographic information, a summary, and an original text of the input document and the reference document and assigns them to the document.
본 발명의 전술한 목적과 기술적 구성 및 그에 따른 작용 효과에 관한 자세한 사항은 본 발명의 명세서에 첨부된 도면에 의거한 이하 상세한 설명에 의해 보다 명확하게 이해될 것이다.Details of the above-described objects and technical configurations of the present invention and the effects thereof according to the present invention will be more clearly understood by the following detailed description based on the accompanying drawings.
도 1은 본 발명의 실시예에 따른 참고 문헌 적합성 판정 시스템을 나타낸 도면이다. 1 is a view showing a reference conformity determination system according to an embodiment of the present invention.
도 1을 참조하면, 참고문헌 적합성 판정 시스템(100)은 입력 문헌에 할당된 하나 이상의 주제어와 상기 입력 문헌 내 하나 이상의 참고 문헌에 할당된 하나 이상의 주제어를 매칭 방식으로 비교하는 주제어 비교 모듈(140), 상기 주제어 비교 모듈(140)에서의 비교 결과를 이용하여 상기 입력 문헌과 상기 참고 문헌간의 연관성을 판단하는 연관성 판정 모듈(150)을 포함한다. Referring to FIG. 1, the reference conformity determination system 100 compares, in a matching manner, one or more main words assigned to an input document and one or more main words assigned to one or more references in the input document. And an association determining module 150 that determines an association between the input document and the reference document using the comparison result in the main keyword comparison module 140.
상기 주제어 비교 모듈(140)은 참고문헌 전체의 주제어들을 모두 정렬하여 빈도순으로 계산하고, 상기 계산된 주제어와 상기 입력 문헌의 주제어를 매칭하여 매칭 비율, 빈도 기반 매칭 가중치 중 적어도 하나를 구한다.The main word comparison module 140 sorts all the main words of all references and calculates them in frequency order, and obtains at least one of a matching ratio and a frequency-based matching weight by matching the calculated main word and the main word of the input document.
상기와 같은 역할을 수행하는 주제어 비교 모듈(140)에 대한 상세한 설명은 도 3을 참조하기로 한다. A detailed description of the main control module 140 performing the above-described role will be given with reference to FIG. 3.
상기 연관성 판정 모듈(150)은 상기 주제어 비교 모듈(140)에서의 주제어 비교 결과를 통해 구해진 매칭 결과를 미리 정해진 임계값과 비교하여 임계값 이상인 경우 참고문헌 전체를 적합한 인용이라고 판단하고, 임계값 미만인 경우 상기 참고문헌 전체를 부적합한 인용이라고 판단한다. 여기서, 상기 매칭 결과는 매칭 비율, 빈도 기반 매칭 가중치 중 적어도 하나일 수 있다.The association determination module 150 compares the matching result obtained through the main keyword comparison result in the main keyword comparison module 140 with a predetermined threshold value and determines that the entire reference is a proper citation when the threshold value is greater than or equal to the threshold value. In this case, the entirety of the reference is determined to be an inappropriate citation. Here, the matching result may be at least one of a matching ratio and a frequency-based matching weight.
또한, 상기 연관성 판정 모듈(150)은 상기 주제어 비교 결과를 통해 구해진 매칭 결과가 임계값 이상이고 상기 참고문헌 전체에 없는 주제어가 입력 문헌에 존재하는 경우, 상기 입력 문헌이 상기 참고문헌 전체에 대해 진보적인 연구 주제를 다룬 것이라고 판단한다. In addition, the association determination module 150 may determine that the input document is progressive with respect to the entire reference when the matching result obtained through the comparison of the main word is greater than or equal to a threshold value and a main word not present in the reference is present. Judging from the topic of research
또한, 상기 연관성 판정 모듈(150)은 상기 주제어 비교 모듈(140)에서의 주제어 비교 결과를 통해 구해진 매칭 결과가 임계값 미만인 경우 기 등록된 문헌 데이터베이스에서 상기 입력 문헌의 주제어를 포함하는 다른 문헌이 존재하는지 검색한다.In addition, the association determination module 150, if the matching result obtained through the comparison of the main word in the main word comparison module 140 is less than a threshold value, there is another document including the main word of the input document in a pre-registered literature database. Search for
그런 다음 상기 연관성 판정 모듈(150)은 상기 검색 결과를 기반으로 표절, 누락, 적합 중에서 적어도 하나 이상을 판정한다. The association determination module 150 then determines at least one of plagiarism, omission, and suitability based on the search results.
본 발명의 다른 실시예에 따르면, 상기 주제어 비교 모듈(140)은 상기 입력 문헌의 주제어를 각 참고문헌의 주제어와 각각 비교하여 참고 문헌별 매칭 비율, 빈도 기반 매칭 가중치 중 적어도 하나를 구할 수 있다. 이때, 상기 연관성 판정 모듈은 상기 구해진 매칭 비율, 빈도 기반 매칭 가중치 중 적어도 하나를 미리 정해진 임계값과 비교한다. According to another embodiment of the present invention, the main word comparison module 140 may obtain at least one of a matching ratio for each reference and a frequency-based matching weight by comparing the main word of the input document with the main word of each reference. In this case, the correlation determination module compares at least one of the obtained matching ratio and frequency-based matching weight with a predetermined threshold.
그런 다음 상기 연관성 판정 모듈(150)은 상기 주제어 비교 모듈(140)에서의 비교 결과가 임계값 이상인 참고문헌을 적합한 인용이라고 판단하고, 임계값 미만인 참고 문헌을 부적합한 인용이라고 판단한다. The association determination module 150 then determines that the reference in the main comparison module 140 is a reference that is greater than or equal to a threshold value as a suitable citation, and determines that the reference that is less than the threshold value is an invalid citation.
상기와 같이 구성된 참고문헌 적합성 판정 시스템(100)은 참고문헌 인식 모듈(110), 참고문헌 연계 모듈(120), 주제어 추출 모듈(130)을 더 포함할 수 있다.The reference suitability determination system 100 configured as described above may further include a reference recognition module 110, a reference linkage module 120, and a main word extraction module 130.
상기 참고 문헌 인식 모듈(110)은 상기 입력 문헌을 해석(Parsing)하여 참고 문헌 영역을 결정하고, 상기 결정된 참고 문헌 영역에 있는 각 참고 문헌을 추출한다. The bibliography recognition module 110 parses the input literature to determine a bibliography region, and extracts each bibliography in the determined bibliography region.
상기 참고 문헌 연계 모듈(120)은 상기 참고 문헌 내 구성 요소를 분리하여 문헌 데이터베이스에 저장하거나 갱신하고, 상기 입력 문헌과 연계한다. 여기서, 상기 참고 문헌내 구성 요소는 저자, 제목, 출처, 페이지 번호, 연도 등을 말한다.The bibliography linkage module 120 separates the elements in the bibliography and stores or updates the bibliography in a bibliographic database. Here, the components in the reference refers to the author, title, source, page number, year, and the like.
또한, 상기 참고 문헌 연계 모듈(120)은 필요한 경우 구성 요소 정규화를 수행하고, 기 등록된 문헌 데이터베이스내에 저장된 다른 문헌들과 비교하여 일정한 임계값 (Threshold) 이상의 유사성을 가지는 문헌들을 병합하고 식별자를 부여하는 기능을 수행한다.In addition, the reference linkage module 120 performs component normalization if necessary, merges and assigns documents having similarities over a certain threshold compared to other documents stored in a previously registered reference database. It performs the function.
상기 주제어 추출 모듈(130)은 상기 입력 문헌과 상기 참고 문헌의 서지 정보, 요약, 원문 중 적어도 하나에서 하나 이상의 주제어를 추출하여 해당 문헌에 할당한다.The main word extracting module 130 extracts one or more main words from at least one of bibliographic information, a summary, and an original text of the input document and the reference document and assigns them to the document.
상기 주제어 추출 모듈(130)에 대한 상세한 설명은 도 2를 참조하기로 한다. Detailed description of the main word extraction module 130 will be described with reference to FIG. 2.
도 2는 도 1에 도시된 주제어 추출 모듈을 개략적으로 나타낸 블럭도이다. FIG. 2 is a block diagram schematically illustrating a main word extraction module shown in FIG. 1.
도 2를 참조하면, 주제어 추출 모듈(130)은 입력 문헌 및 참고 문헌의 서지 정보, 요약, 원문 중 적어도 하나에서 불용어(Stop word)를 제외한 용어들을 색인어로 추출하는 색인어 추출부(132), 상기 추출된 색인어들을 미리 정제된(Refined) 주제어 사전과 비교하여 주제어를 필터링하는 주제어 필터링부(134), 상기 필터링된 주제어의 빈도 조건을 이용하여 상위에 랭크된 주제어를 선택하는 주제어 결정부(136)를 포함한다. Referring to FIG. 2, the main word extracting module 130 extracts terms except for stop words from at least one of bibliographic information, a summary, and an original text of an input document and a reference document as an index word extracting unit 132. A main word filtering unit 134 for filtering a main word by comparing the extracted index words with a previously refined main word dictionary, and a main word determination unit 136 for selecting a main word ranked higher using the frequency condition of the filtered main word. It includes.
상기 주제어 필터링부(134)는 상기 추출된 색인어들을 상기 주제어 사전과 비교하여 주제어 가치가 없는 것들을 배제하는 역할을 수행한다.The main keyword filtering unit 134 compares the extracted index terms with the main dictionary to exclude those having no main keyword value.
상기 주제어 결정부(136)는 상기 주제어 필터링부(134)에서 필터링된 주제어들을 용어빈도(Term Frequency) 조건, 문서빈도(Document Frequency) 조건, 분야분류코드 빈도 조건 중에서 적어도 하나의 빈도 조건을 적용하여 순위화한다. The main word determining unit 136 applies the main words filtered by the main word filtering unit 134 to at least one frequency condition among a term frequency condition, a document frequency condition, and a field classification code frequency condition. Rank it.
그런 다음 상기 주제어 결정부(136)는 상위 순위별로 일정 개수의 주제어를 해당 문헌의 주제어로 결정한다.Then, the main word determining unit 136 determines a predetermined number of main words as the main words of the document for each higher rank.
도 3은 도 1에 도시된 주제어 비교 모듈의 구성을 개략적으로 나타낸 블럭도이다. FIG. 3 is a block diagram schematically illustrating a configuration of the main keyword comparison module shown in FIG. 1.
도 3을 참조하면, 주제어 비교 모듈(140)은 입력 문헌내 참고 문헌의 주제어들을 모아 정렬하고, 빈도 순으로 계산하는 통계 계산부(142), 상기 통계 계산부(142)에서 계산된 주제어와 상기 입력 문헌의 주제어를 매칭하여 매칭 비율, 빈도 기반 매칭 가중치 중 적어도 하나를 구하는 주제어 비교부(144)를 포함한다.Referring to FIG. 3, the main word comparison module 140 collects and sorts main words of a reference in an input document, and calculates them in order of frequency, and the main word calculated by the statistical calculation part 142 and the main word. And a main word comparator 144 that matches a main word of the input document to obtain at least one of a matching ratio and a frequency-based matching weight.
상기 통계 계산부(142)는 입력 문헌내의 참고 문헌 전체에 대한 주제어들을 모아 정렬하고, 상기 정렬된 각 주제어에 대한 빈도를 계산한다.The statistical calculation unit 142 collects and sorts the main words of all the references in the input document, and calculates a frequency for each of the sorted main words.
상기 주제어 비교부(144)는 상기 통계 계산부(142)에서 계산된 주제어의 빈도를 기반으로 상기 입력 문헌의 주제어가 상기 참고 문헌의 주제어와 매칭되는 매칭 비율 또는 빈도 기반 매칭 가중치 중 적어도 하나를 구하게 된다. The main word comparison unit 144 obtains at least one of a matching ratio or a frequency-based matching weight in which the main word of the input document matches the main word of the reference document based on the frequency of the main word calculated by the statistical calculation unit 142. do.
도 4는 본 발명의 실시예에 따른 참고 문헌 적합성 판정 방법을 나타낸 흐름도이다. 4 is a flowchart illustrating a reference conformity determination method according to an embodiment of the present invention.
도 4를 참조하면, 참고 문헌 적합성 판정 시스템은 입력 문헌에 할당된 하나 이상의 주제어와 상기 입력 문헌 내 하나 이상의 참고 문헌에 할당된 하나 이상의 주제어를 매칭 방식으로 비교한다(S400). Referring to FIG. 4, the reference conformity determination system compares one or more main words assigned to the input document with one or more main words assigned to the one or more reference documents in the input document (S400).
즉, 상기 참고 문헌 적합성 판정 시스템은 상기 참고문헌 전체의 주제어들을 모아 빈도 순으로 정렬한다. 그런 다음 상기 참고 문헌 적합성 판정 시스템은 상기 빈도 순으로 정렬된 주제어와 상기 입력 문헌의 주제어를 매칭하여 매칭 비율, 빈도 기반 매칭 가중치 중 적어도 하나를 구한다. That is, the reference conformity determination system collects the main words of all the references and sorts them in frequency order. The reference suitability determination system then matches at least one of a main word arranged in the frequency order and a main word of the input document to obtain at least one of a matching ratio and a frequency-based matching weight.
상기 S400의 수행 후, 상기 참고 문헌 적합성 판정 시스템은 상기 비교 결과를 이용하여 상기 입력 문헌과 상기 참고 문헌간의 연관성을 판단한다(S402).After performing the S400, the reference suitability determination system determines an association between the input document and the reference document using the comparison result (S402).
상기 참고 문헌 적합성 판정 시스템이 참고문헌간의 연관성을 판단하는 방법에 대한 상세한 설명은 도 9를 참조하기로 한다.A detailed description of how the reference conformity determination system determines the association between the references will be described with reference to FIG. 9.
도 5는 본 발명의 실시예에 따른 참고 문헌 적합성 판정 방법을 나타낸 흐름도, 도 6은 본 발명의 실시예에 따른 참고 문헌 영역 결정 방법을 설명하기 위한 도면, 도 7은 본 발명의 실시예에 따른 입력 문헌과 참고 문헌을 연계하는 방법을 설명하기 위한 도면, 도 8은 본 발명의 실시예에 따른 입력 문헌과 참고문헌간의 주제어 매칭 결과를 설명하기 위한 도면이다.5 is a flowchart illustrating a method of determining reference conformity according to an embodiment of the present invention, FIG. 6 is a view for explaining a method for determining a reference region according to an embodiment of the present invention, and FIG. 7 is according to an embodiment of the present invention. 8 is a diagram for describing a method of linking an input document and a reference document, and FIG. 8 is a view for explaining a result of matching keywords between an input document and a reference document according to an embodiment of the present invention.
도 5를 참조하면, 참고 문헌 적합성 판정 시스템은 입력 문헌을 해석(Parsing)하여 참고 문헌 영역을 결정하고(S500), 상기 결정된 참고 문헌 영역에 있는 각 참고 문헌을 추출한다(S502).Referring to FIG. 5, the reference conformity determination system parses an input document to determine a reference area (S500), and extracts each reference in the determined reference area (S502).
즉, 상기 참고 문헌 적합성 판정 시스템은 입력 문헌을 파싱하여 텍스트 문서 내에서 ‘Reference/s', '참고 문헌’ 등의 영역을 의미하는 표지 (Indicator)가 확인되면, 상기 확인된 영역을 중심으로 참고 문헌 영역을 결정한다.That is, the reference suitability determination system parses the input literature, and if an indicator indicating an area such as 'Reference / s' or 'Reference literature' is identified in the text document, the reference is mainly focused on the identified region. Determine the literature area.
상기 입력 문헌에서 참고 문헌 영역을 결정하는 방법에 대해, 도 6을 참조하면, 상기 참고 문헌 적합성 판정 시스템은 입력 문헌내에 ‘Reference'가 존재하므로, 상기 ‘Reference'가 지시하는 영역(600)을 참고 문헌 영역으로 결정한다.For a method of determining a reference region in the input literature, referring to FIG. 6, the reference conformity determination system refers to the region 600 indicated by the 'Reference', since 'Reference' exists in the input literature. Determined by the literature area.
그런 다음 참고 문헌 적합성 판정 시스템은 상기 결정된 참고 문헌 영역에 있는 참고 문헌 목록을 추출한다. 이때, 상기 참고 문헌 목록은 참고 문헌 내 구성요소를 모두 포함하는 것으로서, 상기 구성 요소는 예를 들면, 저자, 제목, 출처, 페이지, 연도 등을 말한다.The reference suitability determination system then extracts a list of references in the determined reference area. In this case, the reference list includes all the components in the reference, and the components refer to, for example, author, title, source, page, year, and the like.
상기 S502의 수행 후, 상기 참고 문헌 적합성 판정 시스템은 상기 참고 문헌 내 구성 요소를 분리하여 문헌 데이터베이스에 저장하거나 갱신하고, 상기 입력 문헌과 연계한다(S504). 즉, 상기 참고 문헌 적합성 판정 시스템은 상기 참고 문헌 내 구성 요소를 제목, 저자, 주제, 출처 등으로 분리하여 도 7과 같이 문헌 데이터베이스에 저장하거나 갱신하고, 이를 상기 입력 문헌과 연계시킨다.After the operation of S502, the reference conformity determination system separates the components in the reference, stores or updates them in the literature database, and associates them with the input literature (S504). That is, the reference suitability determination system divides the components in the reference into titles, authors, subjects, sources, etc., and stores or updates them in the reference database as shown in FIG. 7 and associates them with the input documents.
도 7를 참조하면, 상기 문헌 데이터베이스에 저장된 참고 문헌 중에서 1, 3, 4에 해당하는 참고 문헌이 상기 입력 문헌의 참고 문헌에 해당하므로, 상기 1, 3, 4에 해당하는 참고 문헌을 상기 입력 문헌과 연계시킨다. Referring to FIG. 7, since references corresponding to 1, 3, and 4 correspond to references of the input literature among the references stored in the literature database, reference literature corresponding to the references 1, 3, and 4 may be referred to. In conjunction with
그런 다음 상기 참고 문헌 적합성 판정 시스템은 상기 입력 문헌과 상기 참고 문헌의 서지 정보, 요약, 원문 중 적어도 하나에서 하나 이상의 주제어를 추출하여 해당 문헌에 할당한다(S506). Then, the reference suitability determination system extracts one or more subject words from at least one of the bibliographic information, summary, and original text of the input document and the reference document and assigns them to the document (S506).
즉, 상기 참고 문헌 적합성 판정 시스템은 상기 입력 문헌 및 상기 참고 문헌의 서지 정보, 요약, 원문 중 적어도 하나에서 불용어(Stop word)를 제외한 용어들을 색인어로 추출한다. That is, the reference suitability determination system extracts terms except for stop words from at least one of bibliographic information, a summary, and an original text of the input reference and the reference.
그런 다음 상기 참고 문헌 적합성 판정 시스템은 상기 추출된 색인어들을 미리 정제된(Refined) 주제어 사전과 비교하여 주제어를 필터링한다. 그런 후, 상기 참고 문헌 적합성 판정 시스템은 상기 필터링된 주제어의 빈도 조건을 이용하여 상위에 랭크된 주제어를 최종 주제어로 결정하여 해당 문헌에 각각 할당한다. The reference conformity determination system then filters the subject words by comparing the extracted index terms with a previously refined subject dictionary. Thereafter, the reference conformity determination system determines the uppermost main word as the final main word using the filtered condition of the frequency of the main word and assigns each to the corresponding document.
상기 S506의 수행 후, 상기 참고 문헌 적합성 판정 시스템은 상기 입력 문헌에 할당된 주제어와 상기 참고 문헌에 할당된 주제어를 매칭 방식으로 비교한다(S508). 즉, 상기 참고 문헌 적합성 판정 시스템은 상기 참고문헌 전체의 주제어들을 모아 정렬한 후 빈도 순으로 계산한다. After performing S506, the reference suitability determination system compares the main word assigned to the input document with the main word assigned to the reference method in a matching manner (S508). That is, the reference suitability determination system collects and sorts the main words of all the references and calculates them in order of frequency.
예를 들어, 상기 참고 문헌 전체의 주제어를 빈도 순으로 계산하면, 도 8과 같다. 즉, 참고 문헌 전체에서 A는 3개의 참고문헌에서 나오고, B와 D는 2개의 참고 문헌에서 나오고, C,E,G,K,P,Q,R,S는 각각 1개의 참고 문헌에서 나온다는 것을 알 수 있다. For example, when the main word of the entire reference document is calculated in order of frequency, it is as shown in FIG. 8. That is, throughout the references, A comes from three references, B and D come from two references, and C, E, G, K, P, Q, R, and S come from one reference each. Able to know.
그런 다음 상기 참고 문헌 적합성 판정 시스템은 상기 빈도 순으로 계산된 주제어와 상기 입력 문헌의 주제어를 매칭하여 매칭 비율, 빈도 기반 매칭 가중치 중 적어도 하나를 구한다. 상기 구해진 매칭 비율, 빈도 기반 매칭 가중치 중 적어도 하나를 매칭 결과라고 칭한다. Then, the reference suitability determination system obtains at least one of a matching ratio and a frequency-based matching weight by matching the main word calculated in the frequency order with the main word of the input document. At least one of the obtained matching ratio and frequency-based matching weight is called a matching result.
그런 다음 상기 참고 문헌 적합성 판정 시스템은 상기 S508을 통해 구해진 매칭 결과를 임계값과 비교하여 상기 입력 문헌과 상기 참고문헌간의 연관성을 판정한다(S510).Then, the reference suitability determination system compares the matching result obtained through the step S508 with a threshold value and determines the association between the input document and the reference (S510).
도 9는 본 발명에 따른 매칭 결과와 임계값을 이용한 연관성 판정 방법을 나타낸 흐름도이다.9 is a flowchart illustrating a correlation determination method using a matching result and a threshold according to the present invention.
도 9를 참조하면, 참고 문헌 적합성 판정 시스템은 주제어 비교 결과를 통해 구해진 매칭 비율, 빈도 기반 매칭 가중치 중 적어도 하나인 매칭 결과를 임계값과 비교하여(S900), 상기 매칭 결과가 임계값 이상인지의 여부를 판단한다(S902).Referring to FIG. 9, the reference suitability determination system compares a matching result, which is at least one of a matching ratio and a frequency-based matching weight, obtained through a main control comparison result with a threshold value (S900) to determine whether the matching result is greater than or equal to a threshold value. It is determined whether or not (S902).
상기 S902의 판단결과 상기 매칭 결과가 임계값 이상인 경우 상기 참고 문헌 적합성 판정 시스템은 참고문헌 전체를 적합한 인용이라고 판단한다(S904).When the matching result is greater than or equal to the threshold result of the determination in S902, the reference suitability determination system determines that the entire reference is a proper citation (S904).
이때, 상기 참고 문헌 적합성 판정 시스템은 상기 매칭 결과가 임계값 이상이고 상기 참고문헌 전체에 없는 주제어가 입력 문헌에 존재하는 경우, 상기 입력 문헌이 상기 참고문헌 전체에 대해 진보적인 연구 주제를 다룬 것이라고 판단한다. In this case, the reference suitability determination system determines that the input literature has dealt with a progressive research topic with respect to the entire reference when the matching result is greater than or equal to a threshold value and a main word not present in the reference is present. do.
만약, 상기 S902의 판단결과 상기 매칭 결과가 임계값 이상이 아니면, 상기 참고 문헌 적합성 판정 시스템은 상기 참고문헌 전체를 부적합한 인용이라고 판단한다(S906).If, as a result of the determination in S902, the matching result is not more than a threshold value, the reference suitability determination system determines that the entire reference is an inappropriate citation (S906).
그런 다음 참고 문헌 적합성 판정 시스템은 기 등록된 문헌 데이터베이스에서 상기 입력 문헌의 주제어를 포함하는 다른 문헌이 존재하는지 검색하고(S908), 상기 검색 결과를 기반으로 표절, 누락, 적합 중에서 적어도 하나 이상을 판정한다(S910).Then, the reference conformity determination system searches for the existence of another document including the main word of the input document in the previously registered literature database (S908), and determines at least one or more of plagiarism, omission, and suitability based on the search result. (S910).
상기와 같은 과정을 통해 입력 문헌과 참고 문헌간의 연관성을 규명함으로써 논문 심사 기준의 하나인 '적합한 참고문헌 인용'판단을 지원하고 더 나아가 중복 논문 검사 수행 대상을 결정할 수 있다.Through the above process, by identifying the relationship between input literature and reference literature, it is possible to support the determination of 'citation of suitable references', which is one of the criteria for reviewing thesis, and to determine the subjects of the duplicate article inspection.
이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.As such, those skilled in the art will appreciate that the present invention can be implemented in other specific forms without changing the technical spirit or essential features thereof. Therefore, the above-described embodiments are to be understood as illustrative in all respects and not as restrictive. The scope of the present invention is shown by the following claims rather than the above description, and all changes or modifications derived from the meaning and scope of the claims and their equivalents should be construed as being included in the scope of the present invention. do.
이상과 같이 본 발명의 참고 문헌 적합성 판정 시스템 및 방법은 참고 문헌을 분석하여 입력 문헌과의 연관성을 규명함으로써 논문 심사 기준의 하나인 '적합한 참고문헌 인용'판단을 지원하고 더 나아가 중복 논문 검사 수행 대상을 결정할 필요성이 높은 것에 적합하다.As described above, the system and method for determining the suitability of a bibliography according to the present invention supports the determination of 'citation of a suitable bibliography' which is one of the criteria for reviewing a paper by analyzing the bibliography and identifying the association with the input literature. It is suitable for the high necessity to determine.

Claims (16)

  1. 입력 문헌에 할당된 하나 이상의 주제어와 상기 입력 문헌 내 하나 이상의 참고 문헌에 할당된 하나 이상의 주제어를 매칭 방식으로 비교하는 주제어 비교 모듈; 및A subject comparison module that compares one or more subject words assigned to the input document with one or more subject words assigned to the one or more references in the input document in a matching manner; And
    상기 주제어 비교 모듈에서의 비교 결과를 통해 구해진 매칭 결과를 임계값과 비교하여 임계값 이상인 경우 상기 참고문헌 전체를 적합한 인용, 임계값 미만인 경우 상기 참고문헌 전체를 부적합한 인용이라고 상기 입력 문헌과 상기 참고 문헌간의 연관성을 판단하는 연관성 판정 모듈;When the matching result obtained from the comparison result in the main keyword comparing module is greater than or equal to a threshold, the entire reference is referred to an appropriate citation, and when it is less than a threshold, the reference is referred to as an inappropriate citation. An association determination module that determines an association between the associations;
    을 포함하는 참고 문헌 적합성 판정 시스템.Reference suitability determination system comprising a.
  2. 제1항에 있어서, The method of claim 1,
    상기 입력 문헌을 해석(Parsing)하여 참고 문헌 영역을 결정하고, 상기 결정된 참고 문헌 영역에 있는 각 참고 문헌을 추출하는 참고 문헌 인식 모듈;A bibliography recognition module for parsing the input literature to determine a bibliography region, and extracting each bibliography in the determined bibliography region;
    상기 참고 문헌 내 구성 요소를 분리하여 문헌 데이터베이스에 저장하거나 갱신하고, 상기 입력 문헌과 연계하는 참고 문헌 연계 모듈;및A bibliography association module that separates components in the bibliography and stores or updates them in a bibliographic database and associates them with the input bibliography; and
    상기 입력 문헌과 상기 참고 문헌의 서지 정보, 요약, 원문 중 적어도 하나에서 하나 이상의 주제어를 추출하여 해당 문헌에 할당하는 주제어 추출 모듈;을 더 포함하는 참고 문헌 적합성 판정 시스템.And a main word extracting module for extracting one or more main words from at least one of the bibliographic information, the summary, and the original text of the input document and the reference document and assigning them to the corresponding document.
  3. 제2항에 있어서,The method of claim 2,
    상기 주제어 추출 모듈은,The main word extraction module,
    상기 입력 문헌 및 상기 참고 문헌의 서지 정보, 요약, 원문 중 적어도 하나에서 불용어(Stop word)를 제외한 용어들을 색인어로 추출하는 색인어 추출부;An index word extraction unit that extracts terms except for stop words from at least one of bibliographic information, a summary, and an original text of the input document and the reference document;
    상기 추출된 색인어들을 미리 정제된(Refined) 주제어 사전과 비교하여 주제어를 필터링하는 주제어 필터링부;및A subject filtering unit configured to filter the subject by comparing the extracted index terms with a refined subject dictionary; and
    상기 필터링된 주제어의 빈도 조건을 이용하여 상위에 랭크된 주제어를 선택하는 주제어 결정부;를 포함하는 참고 문헌 적합성 판정 시스템.And a main word determiner which selects a main word ranked above using the filtered frequency condition of the main word.
  4. 제3항에 있어서,The method of claim 3,
    상기 빈도 조건은 용어빈도(Term Frequency) 조건, 문서빈도(Document Frequency) 조건, 분야분류코드 빈도 조건 중에서 적어도 하나인 것을 특징으로 하는 참고 문헌 적합성 판정 시스템.And the frequency condition is at least one of a term frequency condition, a document frequency condition, and a field classification code frequency condition.
  5. 제1항에 있어서, The method of claim 1,
    상기 주제어 비교 모듈은, The main keyword comparison module,
    상기 참고 문헌의 주제어들을 모아 정렬하고, 빈도 순으로 계산하는 통계 계산부;A statistical calculation unit for collecting and sorting the main words of the reference, and calculating the frequency in order of frequency;
    상기 통계 계산부에서 계산된 주제어와 상기 입력 문헌의 주제어를 매칭하여 매칭 비율, 빈도 기반 매칭 가중치 중 적어도 하나를 구하는 주제어 비교부;를 포함하는 것을 특징으로 하는 참고 문헌 적합성 판정 시스템.And a main word comparator for matching at least one of a main word calculated by the statistical calculator and a main word of the input document to obtain at least one of a matching ratio and a frequency-based matching weight.
  6. 제1항에 있어서, The method of claim 1,
    상기 주제어 비교 결과를 통해 구해진 매칭 결과가 임계값 이상이고 상기 참고문헌 전체에 없는 주제어가 입력 문헌에 존재하는 경우, 상기 연관성 판정 모듈은 상기 입력 문헌이 상기 참고문헌 전체에 대해 진보적인 연구 주제를 다룬 것이라고 판단하는 것을 특징으로 하는 참고 문헌 적합성 판정 시스템.If the matching result obtained from the comparison of the main words is greater than or equal to a threshold value and there is a main word in the input document that is not present in the entire reference, the association determination module may allow the input document to deal with the progressive research topics of the entire reference. A reference conformity determination system, characterized in that it judges that it is.
  7. 제1항에 있어서, The method of claim 1,
    상기 주제어 비교 결과를 통해 구해진 매칭 결과가 임계값 미만인 경우 상기연관성 판정 모듈은 기 등록된 문헌 데이터베이스에서 상기 입력 문헌의 주제어를 포함하는 다른 문헌이 존재하는지 검색하고, 상기 검색 결과를 기반으로 표절, 누락, 적합 중에서 적어도 하나 이상을 판정하는 것을 특징으로 하는 참고 문헌 적합성 판정 시스템.If the matching result obtained from the comparison of the main words is less than the threshold value, the correlation determination module searches whether there is another document including the main word of the input document in the previously registered literature database, and based on the search result, plagiarism and omission And determining at least one or more of the conformance.
  8. 제1항에 있어서, The method of claim 1,
    상기 주제어 비교 모듈은 상기 입력 문헌의 주제어를 각 참고문헌의 주제어와 각각 비교하여 참고 문헌별 매칭 비율, 빈도 기반 매칭 가중치 중 적어도 하나를 구하고,The main word comparison module compares a main word of the input document with a main word of each reference to obtain at least one of a matching ratio for each reference and a frequency-based matching weight,
    상기 연관성 판정 모듈은 상기 구해진 매칭 결과가 임계값 이상인 참고문헌을 적합한 인용이라고 판단하고, 임계값 미만인 참고 문헌을 부적합한 인용이라고 판단하는 것을 특징으로 하는 참고 문헌 적합성 판정 시스템.And the association determination module determines that the reference that the obtained matching result is equal to or greater than a threshold value is a proper citation, and determines that the reference that is less than the threshold value is an invalid citation.
  9. 참고 문헌 적합성 판정 시스템이 참고 문헌 적합성을 판정하는 방법에 있어서, In the method of determining the suitability of a bibliographic reference system,
    (a) 입력 문헌에 할당된 하나 이상의 주제어와 상기 입력 문헌 내 하나 이상의 참고 문헌에 할당된 하나 이상의 주제어를 매칭 방식으로 비교하는 단계;및(a) comparing, in a matching manner, one or more subject words assigned to the input document with one or more subject words assigned to the one or more references in the input document; and
    (b) 상기 비교 결과를 통해 구해진 매칭 결과를 임계값과 비교하여 임계값 이상인 경우 상기 참고문헌 전체를 적합한 인용, 임계값 미만인 경우 상기 참고문헌 전체를 부적합한 인용이라고 상기 입력 문헌과 상기 참고 문헌간의 연관성을 판단하는 단계;(b) the correlation between the input document and the reference document, when the matching result obtained through the comparison result is compared with a threshold value, and if the reference value is greater than or equal to the threshold value, the entire reference is an appropriate citation; Determining;
    를 포함하는 참고 문헌 적합성 판정 방법.Reference suitability determination method comprising a.
  10. 제9항에 있어서, The method of claim 9,
    상기 (a)단계 이전에, Before step (a) above,
    상기 입력 문헌을 해석(Parsing)하여 참고 문헌 영역을 결정하고, 상기 결정된 참고 문헌 영역에 있는 각 참고 문헌을 추출하는 단계;Parsing the input literature to determine a bibliographic region and extracting each bibliography in the determined bibliographic region;
    상기 참고 문헌 내 구성 요소를 분리하여 문헌 데이터베이스에 저장하거나 갱신하고, 상기 입력 문헌과 연계하는 단계;및Separating and storing components in the bibliography in a bibliographic database and associating with the input bibliography; and
    상기 입력 문헌과 상기 참고 문헌의 서지 정보, 요약, 원문 중 적어도 하나에서 하나 이상의 주제어를 추출하여 해당 문헌에 할당하는 단계;를 더 포함하는 참고 문헌 적합성 판정 방법.And extracting at least one main word from at least one of the bibliographic information, the summary, and the original text of the input document and the reference document and assigning it to the document.
  11. 제9항에 있어서, The method of claim 9,
    상기 (a)단계는, In step (a),
    상기 참고문헌 전체의 주제어들을 모아 정렬하고, 빈도 순으로 계산하는 단계;및Collecting and sorting key words of all the references;
    상기 빈도 순으로 계산된 주제어와 상기 입력 문헌의 주제어를 매칭하여 매칭 비율, 빈도 기반 매칭 가중치 중 적어도 하나를 구하는 단계;를 포함하는 것을 특징으로 하는 참고 문헌 적합성 판정 방법.Obtaining at least one of a matching ratio and a frequency-based matching weight by matching the main word calculated in the frequency order with the main word of the input document.
  12. 제9항 또는 제11항에 있어서,The method according to claim 9 or 11,
    상기 (b)단계는, 상기 주제어 비교 결과를 통해 구해진 매칭 비율, 빈도 기반 매칭 가중치 중 적어도 하나를 임계값과 비교하여 임계값 이상인 경우 상기 참고문헌전체를 적합한 인용이라고 판단하고, 상기 임계값 미만인 경우 상기 참고문헌전체를 부적합한 인용이라고 판단하는 것을 특징으로 하는 참고 문헌 적합성 판정 방법.In the step (b), if at least one of a matching ratio and a frequency-based matching weight obtained through the main word comparison result is greater than or equal to a threshold, the entire reference is determined to be an appropriate citation, and if less than the threshold A method for determining the suitability of a reference, characterized in that the entire reference is determined to be an inappropriate citation.
  13. 제12항에 있어서, The method of claim 12,
    상기 주제어 비교 결과를 통해 구해진 매칭 결과가 임계값 이상이고 상기 참고문헌전체에 없는 주제어가 입력 문헌에 존재하는 경우, 상기 입력 문헌이 상기 참고문헌전체에 대해 진보적인 연구 주제를 다룬 것이라고 판단하는 것을 특징으로 하는 참고 문헌 적합성 판정 방법.If the matching result obtained from the comparison of the main words is greater than or equal to a threshold value and a main word not present in the reference is present in the input document, it is determined that the input document deals with a progressive research topic with respect to the reference. Reference method suitability determination method.
  14. 제12항에 있어서, The method of claim 12,
    상기 주제어 비교 결과를 통해 구해진 매칭 결과가 임계값 미만인 경우 기 등록된 문헌 데이터베이스에서 상기 입력 문헌의 주제어를 포함하는 다른 문헌이 존재하는지 검색하고, 상기 검색 결과를 기반으로 표절, 누락, 적합 중에서 적어도 하나 이상을 판정하는 것을 특징으로 하는 참고 문헌 적합성 판정 방법.When the matching result obtained through the comparison of the main words is less than the threshold value, a search is made in the existing registered database to see if there is another document including the main word of the input document, and at least one of plagiarism, omission, and goodness based on the search result. Reference method suitability determination method characterized by determining the above.
  15. 제9항에 있어서, The method of claim 9,
    상기 (a)단계는, 상기 입력문헌의 주제어를 각 참고문헌의 주제어와 각각 비교하여 참고문헌별 매칭 비율, 빈도 기반 매칭 가중치 중 적어도 하나를 구하는 것을 특징으로 하는 참고 문헌 적합성 판정 방법.In the step (a), comparing the main word of the reference with the main word of each reference to obtain at least one of the reference ratio matching reference, frequency-based matching weights.
  16. 제15항에 있어서, The method of claim 15,
    상기 구해진 매칭 결과가 임계값 이상인 참고문헌을 적합한 인용이라고 판단하고, 임계값 미만인 참고문헌을 부적합한 인용이라고 판단하는 것을 특징으로 하는 참고 문헌 적합성 판정 방법.And determining that the reference that the obtained matching result is greater than or equal to a threshold is a good citation, and that the reference that is less than or equal to a threshold is an inappropriate citation.
PCT/KR2010/008114 2010-07-09 2010-11-16 System and method for evaluating suitability of a reference document WO2012005414A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020100066323A KR101033611B1 (en) 2010-07-09 2010-07-09 System and method for evaluating the suitability of reference
KR10-2010-0066323 2010-07-09

Publications (1)

Publication Number Publication Date
WO2012005414A1 true WO2012005414A1 (en) 2012-01-12

Family

ID=44365782

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2010/008114 WO2012005414A1 (en) 2010-07-09 2010-11-16 System and method for evaluating suitability of a reference document

Country Status (2)

Country Link
KR (1) KR101033611B1 (en)
WO (1) WO2012005414A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117421428B (en) * 2023-10-31 2024-05-17 中国人民解放军海军大连舰艇学院 Method and system for evaluating and analyzing paper publication integrity based on complete journal library

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101413444B1 (en) * 2013-04-05 2014-07-01 한국과학기술원 Document Analysis Method
KR101629210B1 (en) * 2015-01-30 2016-06-13 인하대학교 산학협력단 Online automatic reference citation marking support system and services
KR101931859B1 (en) * 2016-09-29 2018-12-21 (주)시지온 Method for selecting headword of electronic document, method for providing electronic document, and computing system performing the same
KR102102468B1 (en) * 2019-07-05 2020-04-21 (주)아이티쓰리 System for citation compatibility confirmation service using crosschecking, site searching and reformatting
KR102298397B1 (en) * 2021-01-21 2021-09-07 한국과학기술정보연구원 Citation Relationship Analysis Method and System Based on Citation Type
KR102547402B1 (en) * 2023-03-17 2023-06-23 주식회사 무하유 Apparatus and method for verifying validity and reliability of cited documents

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1145288A (en) * 1997-07-29 1999-02-16 Just Syst Corp Document processor, storage medium storing document processing program and document processing method
KR100406671B1 (en) * 2000-07-24 2003-11-21 주식회사 유니마이다스 Method of searching for piracy and steal on a piece of writing
KR20070041918A (en) * 2005-10-17 2007-04-20 중앙대학교 산학협력단 Design and implementation of a text plagiarism detection method using omucs and sequence alignment technique
JP2009205674A (en) * 2008-02-01 2009-09-10 Kanazawa Inst Of Technology Quotation determination supporting device and quotation determination supporting program
KR20100056065A (en) * 2008-11-19 2010-05-27 한국과학기술정보연구원 System and method for meaning-based automatic linkage

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1145288A (en) * 1997-07-29 1999-02-16 Just Syst Corp Document processor, storage medium storing document processing program and document processing method
KR100406671B1 (en) * 2000-07-24 2003-11-21 주식회사 유니마이다스 Method of searching for piracy and steal on a piece of writing
KR20070041918A (en) * 2005-10-17 2007-04-20 중앙대학교 산학협력단 Design and implementation of a text plagiarism detection method using omucs and sequence alignment technique
JP2009205674A (en) * 2008-02-01 2009-09-10 Kanazawa Inst Of Technology Quotation determination supporting device and quotation determination supporting program
KR20100056065A (en) * 2008-11-19 2010-05-27 한국과학기술정보연구원 System and method for meaning-based automatic linkage

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117421428B (en) * 2023-10-31 2024-05-17 中国人民解放军海军大连舰艇学院 Method and system for evaluating and analyzing paper publication integrity based on complete journal library

Also Published As

Publication number Publication date
KR101033611B1 (en) 2011-05-11

Similar Documents

Publication Publication Date Title
WO2012005414A1 (en) System and method for evaluating suitability of a reference document
WO2015167074A1 (en) Method and server for extracting topic and evaluating suitability of extracted topic
WO2019103183A1 (en) Esg criteria-based enterprise evaluation device and operation method thereof
WO2012070840A2 (en) Apparatus and method for consensus search
WO2011162446A1 (en) Module and method for deciding named entity of term using named entity dictionary combined with ontology schema and mining rule
WO2013002436A1 (en) Method and device for ontology-based document classification
WO2012050252A1 (en) System and method for automatically generating a mass classifier using a dynamic combination of classifiers
WO2011065630A1 (en) Apparatus and method for analyzing research information about a researcher, and computer-readable storage medium for storing computer-executable program for the method
WO2016099019A1 (en) System and method for classifying patent documents
WO2014030834A1 (en) Method for detecting grammatical errors, error detection device for same, and computer-readable recording medium having method recorded thereon
WO2015129983A1 (en) Device and method for recommending movie on basis of distributed mining of fuzzy association rules
WO2020040537A1 (en) System for searching for building provision statute information according to building provision classification system, and method therefor
WO2018236120A1 (en) Method and device for identifying quasispecies by using negative marker
WO2012046906A1 (en) Device and method for providing resource search information on marked correlations between research subjects using a knowledge base from a combination of multiple resources
WO2015030363A1 (en) Apparatus for measuring similarity between intrusion detection rules and method therefor
WO2012046904A1 (en) Device and method for providing multi -resource based search information
WO2012144683A1 (en) Method and device for assessing promising stage using promising technology life cycle
WO2012144685A1 (en) Method and device for visualizing development of technology
WO2018143490A1 (en) System for predicting mood of user by using web content, and method therefor
CN106055614A (en) Similarity analysis method of content similarities based on multiple semantic abstracts
WO2017179778A1 (en) Search method and apparatus using big data
WO2012144684A1 (en) Method and device for predicting development speed of technology
WO2012030049A2 (en) Apparatus and method for classifying similar documents by applying a dynamic threshold value
WO2017082470A1 (en) Apparatus and method for calculating risk of web site
WO2011136413A1 (en) Apparatus and method for configuring a comprehensive intellectual property rights star network by detecting patent similarity

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10854485

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10854485

Country of ref document: EP

Kind code of ref document: A1