CN107122340A - 一种基于同义词分析的科技项目申报书的相似度检测方法 - Google Patents

一种基于同义词分析的科技项目申报书的相似度检测方法 Download PDF

Info

Publication number
CN107122340A
CN107122340A CN201710202607.1A CN201710202607A CN107122340A CN 107122340 A CN107122340 A CN 107122340A CN 201710202607 A CN201710202607 A CN 201710202607A CN 107122340 A CN107122340 A CN 107122340A
Authority
CN
China
Prior art keywords
mrow
msub
science
technology item
synonym
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710202607.1A
Other languages
English (en)
Other versions
CN107122340B (zh
Inventor
严伟
吕跃华
沈凯
杨威
杨朔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Research Institute Of Science And Technology Information
Original Assignee
Zhejiang Research Institute Of Science And Technology Information
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Research Institute Of Science And Technology Information filed Critical Zhejiang Research Institute Of Science And Technology Information
Priority to CN201710202607.1A priority Critical patent/CN107122340B/zh
Publication of CN107122340A publication Critical patent/CN107122340A/zh
Application granted granted Critical
Publication of CN107122340B publication Critical patent/CN107122340B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于同义词分析的科技项目申报书的相似度检测方法,本发明结合了同义词分析和向量模型来计算科技项目申报书之间的相似性通过同义词分析技术对词典进行同义词分析,建立起同义词词典;针对科技项目申报书格式的特殊性,对科技项目申报书进行文本分块处理。再通过分词算法对文本块进行分析处理。在申报科技项目申报书项目的环节,通过自然语言处理、建立同义词林、分词等技术对科技项目申报书的全文、段落、句子进行了分词处理,对分析结果进行处理建立起特征权值向量,通过同义词分析和TF‑IDF模型对文本进行分析,建立特征权值向量空间,解决了向量空间模型无法处理语义的缺陷,提高了中文文本相似性度检测的准确性。

Description

一种基于同义词分析的科技项目申报书的相似度检测方法
技术领域
本发明属于自然语言处理领域,主要是用于科技项目申报书的相似度检测。
背景技术
近年来,随着中央对于科研项目投入了大量的经费和财力支持,国内的科技事业也在蓬勃发展,与此同时产生了科技项目申报书的抄袭和重复申报等问题,严重阻碍了科技事业的健康发展。本发明针对科技项目申报书的抄袭和重复申报现象发明了一种中文文本相似度的检测方法,能够帮助项目申报中心有效甄别出存在严重抄袭现象的科技项目申报书。
文本相似性的检测在上世纪70年代首次被提出,相关学者首先提出了基于属性计数的计算方法来计算程序复制的相似度。随着自然语言领域和人工智能领域的领域不断发展,有学者根据文本中字符串的匹配方式设计了一种自然语言的查重算法;又有学者根据字符串后缀树查找字符串最大子串的思想提出了新的查重算法。相关学者提出了一种新的分析模型:向量空间模型。这种模型被提出以后就成功地应用到了相关的文本相似性分析系统当中。广义的空间向量模型并没有考虑到语义上的关系,这是该模型的一大缺陷。此后相关学者又提出字符间的编辑距离的文本相似度计算方法来对文本进行相似度的检测。该算法在处理英文上的文本相似性具有较好的效果,但是在处理中文文本相似性上却无法得到尽如人意的效果。
发明内容
本发明针对目前的研究现状,针对科技项目申报书的抄袭和重复情况,提出了一种基于同义词分析的科技项目申报书相似度检测方法。本发明结合了同义词分析和向量模型来计算科技项目申报书之间的相似性通过同义词分析技术对词典进行同义词分析,建立起同义词词典;针对科技项目申报书格式的特殊性,对科技项目申报书进行文本分块处理。再通过分词算法对文本块进行分析处理。在申报科技项目申报书项目的环节,通过自然语言处理、建立同义词林、分词等技术对科技项目申报书的全文、段落、句子进行了分词处理,对分析结果进行处理建立起特征权值向量,通过同义词分析和TF-IDF模型对文本进行分析,建立特征权值向量空间,解决了向量空间模型无法处理语义的缺陷,提高了中文文本相似性度检测的准确性。
本发明方法的具体步骤是:
步骤一:输入中文基础词典和中文停用词典;其中中文基础词典涵盖了常用中文词条以及专业性词条;停用词典包含了对识别文本内容意义不大,但是出现频率很高的停用词条,如“我们”、“的”、“了”等。
步骤二:构建一个BP神经网络模型,将中文基础词典作为神经网络模型的输入层进行训练分析,挖掘出其中的同义词,将属于某个词的所有同义词放置在同一行,从而组成同义词词林T;以中文基础词典为基础建立起字典树。该字典树是一种树形结构,其根节点为空、每个节点对应一个字,通过从根节点出发向下依次遍历各个节点直至叶子节点或者标注有结束符号的中间节点均可组成为中文基础词典中的某个词;对中文基础词典进行同义词分析;
其中同义词分析方法,具体步骤如下:
步骤1:遍历中文基础词典,任取其中一个词条wk
步骤2:从字典树根结点出发向下遍历搜索得到要查找的词条wk的第一个字对应的节点;然后继续在以该节点为根的子树中搜索词条wk的下一个字对应的节点;重复以上步骤,直至找到词条wk在字典树中的完整遍历路径,为该路径的最后一个节点分配一个唯一的同义词编号。
步骤3:在同义词林T中找到该词条wk的所有同义词,按步骤2所示方法在字典树中找到所有这些同义词的完整遍历路径,将这些完整遍历路径的最后一个节点标注为与词条wk的同义词编号相同的同义词编号。
步骤:4:重复步骤1、步骤2、步骤3,直至中文基础词典的所有词条都在字典树中找到完整遍历路径、最后一个节点都被分配了同义词编号。
步骤三:提取出某篇科技项目申报书Di中的文本内容并且剔除无意义的格式和符号;然后根据模板将科技项目申报书按照项目意义、项目内容、技术方案、创新点、现有基础、预期目标等文本块类型划分为不同的文本块,根据各个文本块的重要性为每个文本块赋予不同权值;对某篇科技项目申报书Di进行文本块划分处理后得到的文本块集,表示如下:
按此方法对所有科技项目申报书进行预处理。
步骤四:根据字典树对每篇科技项目申报书Di的文本块进行分词处理,去除包含在停用词典中的停用词条,最后得到的每个词条都用其同义词编号表示。
步骤五:通过公式:
计算每篇科技项目申报书Di中每个词条wk的IDF值;其中:|D|表示所有科技项目申报书数量,|{t:wk∈Dt}|表示包含词条wk的科技项目申报书的数量;如果IDF值小于某个预先设定的阈值,则视wk为新的停用词条,将其加入停用词词典组成新的停用词词典,并在由步骤四获得的分词结果去除新的停用词条。
步骤六:为每篇科技项目申报书Di的每一个文本块构建特征权值向量公式中的m表示特征向量中元素的数量。特征权值向量的每个元素为词条wk的词频与其IDF值的乘积,即:
其中,Frequency(wk)为wk在PDi,j中出现的次数;
步骤七:任取两篇科技项目申报书Di1,Di2,按下式计算属于同一个文本块类型j的两个文本块之间的相似度,即:
其中为文本块对应的词条wk的特征权值向量;该公式中的m表示特征权值向量的元素数量;然后对两篇科技项目申报书之间的所有属于同一文本块类型的两个文本块之间的相似度进行加权处理,得到两篇科技项目申报书之间的整体相似度,公式如下:
其中Weight(Pj)表示文本块Pj的权值;该公式中的n表示文本块的总数量。
步骤八:对于任一科技项目申报书Di,选择与其整体相似度最大的科技项目申报书,作为科技项目申报书Di的查重结果输出。
本发明所提供的基于同义词分析的科技项目申报书的相似度检测方法由一系列功能模块组成,它们包括:中文基础词典的同义词分析模块,科技项目申报书预处理和分词模块,停用词统计推荐模块,建立特征权值向量模块,相似度计算模块。
中文基础词典的同义词分析模块:中文基础词典涵盖了常用词条以及专业性词条。在分词过程中,要结合中文基础词典和分词算法将中文文本分解成一组合理有效的词条。通常的中文分词算法都是没有考虑到语义和同义词。所以本方法采用BP神经网络模型对中文基础词典进行分析,找出该词典中的所有同义词。
科技项目申报书预处理和分词模块:对科技项目申报书进行文本提取。提取出文本以后,将文本进行文本分块处理。剔除无意义格式和符号,然后根据模板将科技项目申报书按照项目意义、项目内容、技术方案、创新点、现有基础、预期目标等文本块类型划分为不同的文本块。利用分词算法对处理过的文本块进行分词处理并将分词结果进行停用词过滤处理。
停用词统计推荐模块:当科技项目申报书分词结果足够大时,可以对这些分词结果进行停用词推荐处理,首先计算每一个词条的IDF值,如果IDF值小于某个预先设定的阈值,则将其视为新的停用词,并将其加入停用词词典组成新的停用词词典。然后基于新停用词对分词结果再次进行停用词过滤。
建立特征权值向量模块:利用TF-IDF模型统计出每篇科技项目申报书的各个文本块的词条词频和IDF值,并将词条词频和IDF值的乘积作为特征项建立起特征权值向量。
相似度计算模块:提取出任意两篇科技项目申报书对应的文本块特征权值向量,计算该两个特征权值向量空间之间的余弦值从而得出两篇科技项目申报书的整体相似度。对于任一科技项目申报书,选择与其整体相似度最大的科技项目申报书,作为它的查重结果输出。
本发明有益效果如下:
本发明提供的基于同义词分析的科技项目申报书的相似度检测方法能检测出某些通过改变语序和同义词替换等进行抄袭的情况。同时,本发明针对科技项目申报书结构的特殊性,对科技项目申报书进行分块处理,在计算整体相似度时为每个文本块分配不同的权重,从而使计算得到的整体相似度更有参考性。最后,本发明可根据分词结果产生新的停用词,根据新的停用词对分词结果再次过滤,这样可进一步消除对文本主题和语义无意义的词产生的干扰,从而提高相似度检测的准确度。
附图说明
图1相似度检测流程。
图2字典树
具体实施方式
下面结合附图和实例对本发明作进一步说明。
为叙述方便,定义相关符号如下:
L:基础词条语料库。
T:同义词词林。
Si:第i(i=1,2,...,n)个中文字符串。
Di:科技项目申报书库中第i(i=1,2,...,n)篇科技项目申报书。
|D|:文本库中的科技项目申报书总数。
科技项目申报书Di中第j(j=1,2,...,n)个文本块。
Vi:第i(i=1,2,...,n)个词向量。
wk:第k个词条。
|<t:wk∈Dt>|:包含词条wk的科技项目申报书个数。
Frequency(wk):词条wk的词频。
Weight(Pj):文本块Pj的权值。
科技项目申报书Di中的文本块j的文本特征向量。
科技项目申报书Di的文本块集。
中文字符串Si的分词结果集合。
步骤(1):输入中文基础词典和中文停用词典;其中中文基础词典涵盖了常用中文词条以及专业性词条;停用词典包课对识别文本内容意义不大、但是出现频率很高的词。
步骤(2):将中文基础词典视作基础词条语料库L,将L作为BP神经网络模型的输入,对语料库L进行同义词分析和分类。该模型主要有三层:输入层、隐藏层、输出层。输入层首先会把中文基础词典中的每一条词条转化成一个向量Vi,输入层的节点个数就是中文基础词典中的词条个数。隐藏层通过分析输入层的向量Vi,从而找出L中的所有同义词,将同义词进行分类并且输出同义词词林T。以中文基础词典为基础建立起字典树(如图2所示),字典树的根节点为空,除根节点外每一个节点都只包含一个字符;从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串;通过同义词词林T对中文基础词典进行同义词标注。
具体标注的方法如下所示:
1.遍历中文基础词典。取出其中一个词条Ei
2.从字典树根结点出发向下遍历搜索得到要查找的词条wk的第一个字对应的节点;然后继续在以该节点为根的子树中搜索词条wk的下一个字对应的节点;重复以上步骤,直至找到词条wk在字典树中的完整遍历路径,为该路径的最后一个节点分配一个唯一的同义词编号;
3.在同义词林T中找到该词条wk的所有同义词,按步骤(2)所示方法在字典树中找到所有这些同义词的完整遍历路径,将这些完整遍历路径的最后一个节点标注为与词条wk的同义词编号相同的同义词编号;
4.重复步骤(1)、步骤(2)、步骤(3),直至中文基础词典的所有词条都在字典树中找到完整遍历路径、并其最后一个节点都被分配了同义词编号;
步骤(3):在服务器端建立起单独的文本数据库,利用文本提取算法和文本处理算法对科技项目申报书进行文本提取和分段处理。在实际应用中,申报者所提供的科技项目申报书都是以doc或者docx格式上传的。因此要对库中的每篇科技项目申报书进行处理。为了消除无关格式和符号对相似度计算时带来干扰,要对文本中的无关字符和符号进行剔除。由于科技项目申报书通常都有固定的模板和格式,一般都包含项目意义、项目内容、技术方案、创新点、现有基础、预期目标等文本块类型,本发明按照固定的格式对科技项目申报书进行文本分块处理;根据各个文本块类型的重要性为每个文本块赋予不同权值。对Di进行后处理得到文本块集,其中第i个科技项目申报书Di的文本块集表示如下:
计算两篇科技项目申报书的相似度时,首先计算两篇科技项目申报书对应文本块之间的相似度,最后根据各个文本块的权值进行加权处理,得到两篇科技项目申报书的总体相似度。公式如下:
其中Weight(Pj)表示文本块Pj的权值;该公式中的n表示文本块的总数量;
步骤(4):对步骤(3)得到的文本块进行分词处理。本发明使用正向迭代最细粒度切分算法,结合同义词词典对中文字符串Si进行切分得到分词结果集合先以停用词词典为语料库建立起停用词字典树(如图2所示)。将分词结果集合中的每一条词条与停用词字典树进行匹配,若匹配到则将其视作停用词并且将其进行过滤。将处理完毕的文本存入到文本数据库中,每一条文本信息包括科技项目申报书id,段落id,文本内容以及经过停用词过滤处理的分词结果。
步骤(5):当样本足够大时,可以利用IDF统计模型对大量的科技项目申报书的分词结果进行分析。分析出某个词在整个文本库中表达文本意义的重要性。通过公式:
计算每个词条wk的IDF值。如果IDF值过低,说明此wk在大部分科技项目申报书中都出现,对于整个文本库的语义或者主题表达的重要性很低,所以可以将IDF值低的词条wk作为停用词进行推荐。当某个词被判定为停用词以后。当对停用词词典进行推荐更新以后,可以对步骤(4)得到的分词结果再一次进行停用词过滤。
步骤(6):步骤(4)中得到的分词结果经过同义词分析处理,同义词在该分词结果集合中具有相同的编号。用TF-IDF算法对该分词结果进行词条词频统计,并将每个词条的词频和IDF的乘积当成特征项建立起特征权值向量空间。根据步骤(3),已知:
表示科技项目申报书的某个文本块,特征项指出现在文本中且能够代表该文本内容的基本语言单位,主要是由词或者短语构成,文本可以表示为文本特征向量利用TF-IDF公式计算出文本块中词条wk的词频Frequency(wk)和每个词条wk的IDF值。并建立文本特征项。即:
其中Frequency(wk)为wk在PDi,j中出现的次数;
步骤(7):根据步骤(6)中为每篇科技项目申报书的文本块建立的文本特征向量来计算相似度。可以采用计算向量间的余弦值来得到两个文本块之间的相似度。即:
其中为文本块对应的词条wk的特征权值向量;该公式中m表示特征权值向量的元素数量。
步骤(8)按照上述公式计算出两篇科技项目申报书Di1,Di2之间对应文本块之间的相似度,对两篇科技项目申报书之间的所有属于同一文本块类型的两个文本块之间的相似度进行加权处理,得到两篇科技项目申报书之间的整体相似度,公式如下:
其中Weight(Pj)表示文本块Pj的权值;该公式中的n表示文本块的总数量。
步骤(9)对于任一科技项目申报书Di,选择与其整体相似度最大的科技项目申报书,作为科技项目申报书Di的查重结果输出。
整个相似度检测流程如图1所示。

Claims (1)

1.一种基于同义词分析的科技项目申报书的相似度检测方法,其特征在于包括如下步骤:
步骤一:输入中文基础词典和中文停用词典;
步骤二:构建一个BP神经网络模型,将中文基础词典作为神经网络模型的输入层进行训练分析,挖掘出其中的同义词,将属于某个词的所有同义词放置在同一行,从而组成同义词词林T;以中文基础词典为基础建立起字典树;该字典树是一种树形结构,其根节点为空、每个节点对应一个字,通过从根节点出发向下依次遍历各个节点直至叶子节点或者标注有结束符号的中间节点均可组成为中文基础词典中的某个词;对中文基础词典进行同义词分析;
其中同义词分析方法,具体步骤如下:
步骤1:遍历中文基础词典,任取其中一个词条wk
步骤2:从字典树根结点出发向下遍历搜索得到要查找的词条wk的第一个字对应的节点;然后继续在以该节点为根的子树中搜索词条wk的下一个字对应的节点;重复以上步骤,直至找到词条wk在字典树中的完整遍历路径,为该路径的最后一个节点分配一个唯一的同义词编号;
步骤3:在同义词林T中找到该词条wk的所有同义词,按步骤2所示方法在字典树中找到所有这些同义词的完整遍历路径,将这些完整遍历路径的最后一个节点标注为与词条wk的同义词编号相同的同义词编号;
步骤:4:重复步骤1、步骤2、步骤3,直至中文基础词典的所有词条都在字典树中找到完整遍历路径、最后一个节点都被分配了同义词编号;
步骤三:提取出某篇科技项目申报书Di中的文本内容并且剔除无意义的格式和符号;然后根据模板将科技项目申报书按照文本块类型划分为不同的文本块,根据各个文本块的重要性为每个文本块赋予不同权值;对科技项目申报书Di进行文本块划分处理后得到的文本块集,表示如下:
<mrow> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>=</mo> <mo>{</mo> <msub> <mi>P</mi> <mrow> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>|</mo> <mi>j</mi> <mo>=</mo> <mn>1,2</mn> <mo>,</mo> <mo>,</mo> <mo>,</mo> <mo>,</mo> <mi>n</mi> <mo>}</mo> </mrow>
按此方法对所有科技项目申报书进行预处理;
步骤四:根据字典树对每篇科技项目申报书Di的文本块进行分词处理,去除包含在停用词典中的停用词条,最后得到的每个词条都用其同义词编号表示;
步骤五:通过公式:
<mrow> <msub> <mi>IDF</mi> <mrow> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>w</mi> <mi>k</mi> </msub> </mrow> </msub> <mo>=</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mfrac> <mrow> <mo>|</mo> <mi>D</mi> <mo>|</mo> </mrow> <mrow> <mn>1</mn> <mo>+</mo> <mo>|</mo> <mo>{</mo> <mi>t</mi> <mo>:</mo> <msub> <mi>w</mi> <mi>k</mi> </msub> <mo>&amp;Element;</mo> <msub> <mi>D</mi> <mi>t</mi> </msub> <mo>}</mo> <mo>|</mo> </mrow> </mfrac> </mrow>
计算每篇科技项目申报书Di中每个词条wk的IDF值;其中:|D|表示所有科技项目申报书数量,|{t:wk∈Dt}|表示包含词条wk的科技项目申报书的数量;如果IDF值小于某个预先设定的阈值,则视wk为新的停用词条,将其加入停用词词典组成新的停用词词典,并在由步骤四获得的分词结果去除新的停用词条;
步骤六:为每篇科技项目申报书Di的每一个文本块构建特征权值向量公式中的m表示特征向量中元素的数量;特征权值向量的每个元素为词条wk的词频与其IDF值的乘积,即:
<mrow> <msubsup> <mi>u</mi> <mrow> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>j</mi> </mrow> <mi>k</mi> </msubsup> <mo>=</mo> <mi>F</mi> <mi>r</mi> <mi>e</mi> <mi>q</mi> <mi>u</mi> <mi>e</mi> <mi>n</mi> <mi>c</mi> <mi>y</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mfrac> <mrow> <mo>|</mo> <mi>D</mi> <mo>|</mo> </mrow> <mrow> <mn>1</mn> <mo>+</mo> <mo>|</mo> <mo>{</mo> <mi>t</mi> <mo>:</mo> <msub> <mi>w</mi> <mi>k</mi> </msub> <mo>&amp;Element;</mo> <msub> <mi>D</mi> <mi>t</mi> </msub> <mo>}</mo> <mo>|</mo> </mrow> </mfrac> </mrow>
其中,Frequency(wk)为wk在PDi,j中出现的次数;
步骤七:任取两篇科技项目申报书Di1,Di2,按下式计算属于同一个文本块类型j的两个文本块之间的相似度,即:
<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>P</mi> <mrow> <msub> <mi>D</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> </msub> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>P</mi> <mrow> <msub> <mi>D</mi> <mrow> <mi>i</mi> <mn>2</mn> </mrow> </msub> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msubsup> <mi>u</mi> <mrow> <msub> <mi>D</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> </msub> <mo>,</mo> <mi>j</mi> </mrow> <mi>k</mi> </msubsup> <mo>&amp;times;</mo> <msubsup> <mi>u</mi> <mrow> <msub> <mi>D</mi> <mrow> <mi>i</mi> <mn>2</mn> </mrow> </msub> <mo>,</mo> <mi>j</mi> </mrow> <mi>k</mi> </msubsup> </mrow> <msqrt> <mrow> <mo>(</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msup> <mrow> <mo>(</mo> <msubsup> <mi>u</mi> <mrow> <msub> <mi>D</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> </msub> <mo>,</mo> <mi>j</mi> </mrow> <mi>k</mi> </msubsup> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>)</mo> <mo>&amp;times;</mo> <mo>(</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msup> <mrow> <mo>(</mo> <msubsup> <mi>u</mi> <mrow> <msub> <mi>D</mi> <mrow> <mi>i</mi> <mn>2</mn> </mrow> </msub> <mo>,</mo> <mi>j</mi> </mrow> <mi>k</mi> </msubsup> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>)</mo> </mrow> </msqrt> </mfrac> </mrow>
其中为文本块对应的词条wk的特征权值向量;该公式中的m表示特征权值向量的元素数量;然后对两篇科技项目申报书之间的所有属于同一文本块类型的两个文本块之间的相似度进行加权处理,得到两篇科技项目申报书之间的整体相似度,公式如下:
<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>D</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>D</mi> <mrow> <mi>i</mi> <mn>2</mn> </mrow> </msub> </mrow> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mrow> <mo>(</mo> <mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>P</mi> <mrow> <msub> <mi>D</mi> <mrow> <mi>i</mi> <mn>1</mn> </mrow> </msub> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>P</mi> <mrow> <msub> <mi>D</mi> <mrow> <mi>i</mi> <mn>2</mn> </mrow> </msub> <mo>,</mo> <mi>j</mi> </mrow> </msub> </mrow> <mo>)</mo> </mrow> <mo>&amp;times;</mo> <mi>W</mi> <mi>e</mi> <mi>i</mi> <mi>g</mi> <mi>h</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>P</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> <mo>/</mo> <mrow> <mo>(</mo> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mi>W</mi> <mi>e</mi> <mi>i</mi> <mi>g</mi> <mi>h</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>P</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> </mrow>
其中Weight(Pj)表示文本块Pj的权值;该公式中的n表示文本块的总数量;
步骤八:对于任一科技项目申报书Di,选择与其整体相似度最大的科技项目申报书,作为科技项目申报书Di的查重结果输出。
CN201710202607.1A 2017-03-30 2017-03-30 一种基于同义词分析的科技项目申报书的相似度检测方法 Active CN107122340B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710202607.1A CN107122340B (zh) 2017-03-30 2017-03-30 一种基于同义词分析的科技项目申报书的相似度检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710202607.1A CN107122340B (zh) 2017-03-30 2017-03-30 一种基于同义词分析的科技项目申报书的相似度检测方法

Publications (2)

Publication Number Publication Date
CN107122340A true CN107122340A (zh) 2017-09-01
CN107122340B CN107122340B (zh) 2018-11-06

Family

ID=59717505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710202607.1A Active CN107122340B (zh) 2017-03-30 2017-03-30 一种基于同义词分析的科技项目申报书的相似度检测方法

Country Status (1)

Country Link
CN (1) CN107122340B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108648783A (zh) * 2018-03-12 2018-10-12 杭州电子科技大学 一种医技检查项目相似性快速判别方法
CN108829780A (zh) * 2018-05-31 2018-11-16 北京万方数据股份有限公司 文本检测方法、装置、计算设备及计算机可读存储介质
CN108846031A (zh) * 2018-05-28 2018-11-20 同方知网数字出版技术股份有限公司 一种面向电力行业的项目相似性对比方法
CN110019814A (zh) * 2018-07-09 2019-07-16 暨南大学 一种基于数据挖掘与深度学习的新闻信息聚合方法
CN110033236A (zh) * 2019-04-11 2019-07-19 国网山东省电力公司 一种基于并发任务的项目查重方法及系统
CN110377886A (zh) * 2019-06-19 2019-10-25 平安国际智慧城市科技股份有限公司 项目查重方法、装置、设备及存储介质
CN110390084A (zh) * 2019-06-19 2019-10-29 平安国际智慧城市科技股份有限公司 文本查重方法、装置、设备及存储介质
CN110532385A (zh) * 2019-08-06 2019-12-03 镇江方略科技咨询有限公司 基于大数据的科技项目特征语句提取系统及其推荐方法
CN110852089A (zh) * 2019-10-25 2020-02-28 国家电网有限公司 基于智能分词与深度学习的运维项目管理方法
CN110928985A (zh) * 2019-10-14 2020-03-27 广西壮族自治区科学技术情报研究所 一种基于深度学习算法自动提取近义词的科技项目查重方法
CN112199938A (zh) * 2020-11-12 2021-01-08 深圳供电局有限公司 一种科技项目相似分析方法、计算机设备、存储介质
CN114490940A (zh) * 2022-01-25 2022-05-13 中国人民解放军国防科技大学 一种自适应的项目查重方法及系统
CN114741474A (zh) * 2022-04-20 2022-07-12 山东科迅信息技术有限公司 应用于项目申报系统中的数据处理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070233458A1 (en) * 2004-03-18 2007-10-04 Yousuke Sakao Text Mining Device, Method Thereof, and Program
CN103631858A (zh) * 2013-10-24 2014-03-12 杭州电子科技大学 一种科技项目相似度计算方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070233458A1 (en) * 2004-03-18 2007-10-04 Yousuke Sakao Text Mining Device, Method Thereof, and Program
CN103631858A (zh) * 2013-10-24 2014-03-12 杭州电子科技大学 一种科技项目相似度计算方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王立霞等: "基于语义的中文文本关键词提取算法", 《计算机工程》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108648783B (zh) * 2018-03-12 2021-08-10 杭州电子科技大学 一种医技检查项目相似性快速判别方法
CN108648783A (zh) * 2018-03-12 2018-10-12 杭州电子科技大学 一种医技检查项目相似性快速判别方法
CN108846031A (zh) * 2018-05-28 2018-11-20 同方知网数字出版技术股份有限公司 一种面向电力行业的项目相似性对比方法
CN108829780A (zh) * 2018-05-31 2018-11-16 北京万方数据股份有限公司 文本检测方法、装置、计算设备及计算机可读存储介质
CN110019814A (zh) * 2018-07-09 2019-07-16 暨南大学 一种基于数据挖掘与深度学习的新闻信息聚合方法
CN110033236A (zh) * 2019-04-11 2019-07-19 国网山东省电力公司 一种基于并发任务的项目查重方法及系统
CN110390084A (zh) * 2019-06-19 2019-10-29 平安国际智慧城市科技股份有限公司 文本查重方法、装置、设备及存储介质
CN110390084B (zh) * 2019-06-19 2021-01-26 平安国际智慧城市科技股份有限公司 文本查重方法、装置、设备及存储介质
CN110377886A (zh) * 2019-06-19 2019-10-25 平安国际智慧城市科技股份有限公司 项目查重方法、装置、设备及存储介质
CN110532385A (zh) * 2019-08-06 2019-12-03 镇江方略科技咨询有限公司 基于大数据的科技项目特征语句提取系统及其推荐方法
CN110928985A (zh) * 2019-10-14 2020-03-27 广西壮族自治区科学技术情报研究所 一种基于深度学习算法自动提取近义词的科技项目查重方法
CN110852089A (zh) * 2019-10-25 2020-02-28 国家电网有限公司 基于智能分词与深度学习的运维项目管理方法
CN112199938A (zh) * 2020-11-12 2021-01-08 深圳供电局有限公司 一种科技项目相似分析方法、计算机设备、存储介质
CN112199938B (zh) * 2020-11-12 2023-11-14 深圳供电局有限公司 一种科技项目相似分析方法、计算机设备、存储介质
CN114490940A (zh) * 2022-01-25 2022-05-13 中国人民解放军国防科技大学 一种自适应的项目查重方法及系统
CN114741474A (zh) * 2022-04-20 2022-07-12 山东科迅信息技术有限公司 应用于项目申报系统中的数据处理方法

Also Published As

Publication number Publication date
CN107122340B (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN107122340B (zh) 一种基于同义词分析的科技项目申报书的相似度检测方法
CN102411563B (zh) 一种识别目标词的方法、装置及系统
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN103729402B (zh) 一种基于图书目录的知识图谱的构建方法
CN104199857B (zh) 一种基于多标签分类的税务文档层次分类方法
CN104573046A (zh) 一种基于词向量的评论分析方法及系统
CN107861939A (zh) 一种融合词向量和主题模型的领域实体消歧方法
CN104778256B (zh) 一种领域问答系统咨询的快速可增量聚类方法
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN106202372A (zh) 一种网络文本信息情感分类的方法
CN104298662B (zh) 一种基于有机物命名实体的机器翻译方法及翻译系统
CN108763213A (zh) 主题特征文本关键词提取方法
CN106708966A (zh) 基于相似度计算的垃圾评论检测方法
CN107463607A (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
CN110390006A (zh) 问答语料生成方法、装置和计算机可读存储介质
CN109299480A (zh) 基于上下文语境的术语翻译方法及装置
CN105045812A (zh) 文本主题的分类方法及系统
CN108920466A (zh) 一种基于word2vec和TextRank的科技文本关键词提取方法
CN106202211A (zh) 一种基于微博类型的集成微博谣言识别方法
CN107463658A (zh) 文本分类方法及装置
CN106599054A (zh) 一种题目分类及推送的方法及系统
CN110472203B (zh) 一种文章的查重检测方法、装置、设备及存储介质
CN105404674B (zh) 一种知识依赖的网页信息抽取方法
CN108038205A (zh) 针对中文微博的观点分析原型系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant