CN114943220B - 一种面向科研立项查重的句向量生成方法及查重方法 - Google Patents

一种面向科研立项查重的句向量生成方法及查重方法 Download PDF

Info

Publication number
CN114943220B
CN114943220B CN202210382556.6A CN202210382556A CN114943220B CN 114943220 B CN114943220 B CN 114943220B CN 202210382556 A CN202210382556 A CN 202210382556A CN 114943220 B CN114943220 B CN 114943220B
Authority
CN
China
Prior art keywords
sentence
text
vector
weight
participle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210382556.6A
Other languages
English (en)
Other versions
CN114943220A (zh
Inventor
李翀
张金杰
张士波
何晓涛
刘学敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Network Information Center of CAS
Original Assignee
Computer Network Information Center of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Network Information Center of CAS filed Critical Computer Network Information Center of CAS
Priority to CN202210382556.6A priority Critical patent/CN114943220B/zh
Publication of CN114943220A publication Critical patent/CN114943220A/zh
Application granted granted Critical
Publication of CN114943220B publication Critical patent/CN114943220B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种面向科研立项查重的句向量生成方法及查重方法。本发明句向量生成方法为:1)对于一科研项目申报书的文本进行分词,计算每一分词w的词频及词频权重;2)设置每一分词w的词性权重;3)根据分词w所在句子在所述文本中的位置,确定该句子中分词w的位置权重;4)根据各句子中分词的分词w的词频权重、词性权重和位置权重计算对应句子中分词w的词权重;5)根据分词w的词权重生成文本的句向量矩阵;6)去除句向量矩阵的前m个主成分,对句向量矩阵中的每一句向量进行更新;7)将科研项目申报书的文本输入Doc2Vec模型,生成文本的句向量并将其与步骤6)更新后的句向量加权平均,得到文本中每一句子对应的句向量。

Description

一种面向科研立项查重的句向量生成方法及查重方法
技术领域
本发明涉及自然语言处理文本表示技术领域,是一种面向科研立项查重的由词向量生成句向量的改进方法及查重方法。
背景技术
近年来,我国对科研经费的投入越来越大,逐年增加的科研经费和海量的申报课题给科研项目立项决策带来了极大的困难,科技项目“重复立项”、“多头申报”问题日益凸显。科研项目的重复研究将造成科研资源的浪费,阻碍国家的科技发展规划,因此建立有效的科研项目立项查重机制已成为科技计划管理部门的当务之急。
对科技项目申报文本进行查重首先需要将文本表示为计算机可以处理的形式。目前文本表示的常用方式是把字或词处理成向量,在包含语义信息的同时,以便计算机能进行处理。当前文本表示的常用方法有Word2Vec,Doc2Vec,Glove,fastText,BERT等。
通常情况下,句子由若干字、词组成,一段文本由若干个句子组成。在使用文本表示技术将字或词表示为向量后,若要获得句子或段落的向量表示,需要通过某种方式将词向量转化为句向量,句向量再转化为段落向量。使句向量能够更为准确地表征文本语义,是进行语义理解、计算语义相似度的关键。
目前常用的句向量生成方式有以下两种:有监督的句向量生成方法和无监督的句向量生成方法。有监督的句向量生成方法对标注数据有较强的依赖,在一些特定领域,标注数据获取成本较高。无监督的句向量生成方法目前常见的有词向量直接相加平均、词向量通过TF-IDF、USIF等方式进行加权等。词向量直接相加平均没有考虑到训练样本中词频带来的影响和句子长度带来的影响。TF-IDF虽考虑到词频带来的影响,但是提升效果不大。USIF在考虑词频的基础上,通过删除句矩阵前m个主成分来消除词向量加权平均造成的无意义分量,但仍无法解决词序问题,且没有考虑到语法、位置等信息,无法准确表征句子语义。
发明内容
本发明旨在实现一种面向科研立项查重的句向量生成方法及查重方法,通过改进USIF加权方式并融合词序,提升句向量的语义表征能力,提高科研立项查重结果的准确率。
本发明面向科研立项查重的句向量生成方法,包括以下步骤:
在USIF计算词频权重的基础上,加入词词性权重、位置权重,并使用上述三种权重作为词的最终权重进行计算。在使用USIF方法去除了句向量矩阵前m个主成分后,将得到的句向量与Doc2Vec生成的句向量进行加权平均,得到融入词序特征后的句向量。
为实现上述目的,本发明采用以下技术方案:
一种面向科研立项查重的句向量生成方法,其步骤包括:
1)对于一科研项目申报书的文本进行分词,计算所述文本中每一分词w的词频p(w)及词频权重tf(w);
2)根据汉语的语法规则以及六类实词词性在科研项目文本中的分布,设置每一分词w的词性权重tag(w);其中六类实词词性包括名词、动词、形容词、代词、量词和数词;
3)根据分词w所在句子在所述文本中的位置,确定该句子中分词w的位置权重pos(w);
4)根据各句子中分词的分词w的词频权重tf(w)、词性权重tag(w)和位置权重pos(w)计算对应句子中分词w的词权重wgh(w);
5)根据分词w的词权重wgh(w)生成所述文本的句向量矩阵A;
6)去除所述句向量矩阵A的前m个主成分,对所述句向量矩阵A中的每一句向量进行更新;
7)将科研项目申报书的文本输入Doc2Vec模型,生成所述文本的句向量并将其与步骤6)更新后的对应句向量加权平均,得到所述文本中每一句子对应的句向量。
进一步的,确定分词w的位置权重的方法为:如果分词w所在句子为所述文本的段落首句或末句,则分词w的位置权重较高,否则分词w的位置权重较低。
进一步的,词权重wgh(w)=tf(w)*(1+tag(w)+pos(w))。
进一步的,所述句向量矩阵
Figure BDA0003592449340000021
其中,所述文本中句子s的句向量
Figure BDA0003592449340000022
vw为分词w的词向量,n为所述文本中句子总数。
进一步的,步骤6)中,句向量cs更新后的向量
Figure BDA0003592449340000023
其中,
Figure BDA0003592449340000024
σi为句向量矩阵A的第i个奇异值,ci为句向量矩阵A的第i个奇异向量,
Figure BDA0003592449340000025
为句向量矩阵A中前m个奇异值中的第j个奇异值的平方,λi为ci的权重。
进一步的,句子s的句向量
Figure BDA0003592449340000026
其中,
Figure BDA0003592449340000027
φ为加权系数,
Figure BDA0003592449340000028
为Doc2Vec训练生成的句子s的句向量。
进一步的,词频权重
Figure BDA0003592449340000029
其中,
Figure BDA00035924493400000210
|V|是词典大小。
一种科研立项查重方法,其步骤包括:
1)采用上述方法生成待查重科研项目申报书中文本的句向量,并对所生成的句向量进行加和取平均得到该待查重科研项目申报书的语义表征向量;
2)计算该待查重科研项目申报书的语义表征向量与数据库中每一科研项目申报书对应的语义表征向量之间的相似度,如果相似度大于设定阈值,则判定该待查重科研项目申报书为重复申报项目。
一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行上述方法中各步骤的指令。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述方法的步骤。
与现有技术相比,本发明的优点如下:
(1)可以更准确地反映每个词对句子语义的贡献;
(2)可以为句向量保留句子的词序关系;
即使用本文提出的句向量生成方法可以更准确地提取句子语义特征,提升句向量对句子语义的表征能力。
为验证本文提出的句向量生成方法在语义表征能力方面具有一定的优势,我们选取了若干科研项目文本进行了多组实验。实验对比了基于USIF加权的句向量生成方法(UW)、基于TF-IDF加权的句向量生成方法(TW),部分实验数据如表1所示。
表1基于不同句向量生成方法的科研项目相似度
Figure BDA0003592449340000031
从表1中可以看出,该句向量生成方法总体上使不相似文本间的相似度更低,而相似文本间的相似度更高,相比TF-IDF加权的句向量生成方法提升约16%,相比于USIF加权的句向量生成方法提升约9.5%,可以更准确地计算项目文本间的相似度。
对科研项目申报书中的文本使用该句向量生成方法,并对生成的句向量进行加和取平均即可获得科研项目申报书的语义表征向量。科研项目申报书间的相似度通过计算语义表征向量间的相似度得到。
附图说明
图1为本发明的方法流程图。
具体实施方式
下面对本发明进行进一步详细描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
本发明方法的流程如图1所示,其步骤包括:
1.对于一科研项目申报书的文本进行分词,得到多个分词及对应的词性;根据USIF算法计算该文本中每一分词的词频权重
Figure BDA0003592449340000041
Figure BDA0003592449340000042
Figure BDA0003592449340000043
Figure BDA0003592449340000044
其中,|V|是词典大小,n为随机游走的步数,α为需调优的超参数,a是词w偶然产生的概率,p(w)是词w在文本中的词频,tf(w)是词w的词频权重。
2.计算词性权重
根据汉语的语法规则以及六类实词词性在科研项目文本中的分布,设置了词性权重,如表2所示。
表2词性权重分配表
Figure BDA0003592449340000045
3.计算位置权重
将出现在段落首句、末句的词语w设置位置权重为pos(w)=0.2,其余位置的词语w位置权重设置为pos(w)=0.1。
4.计算词权重
wgh(w)=tf(w)*(1+tag(w)+pos(w)) (5)
其中,tf(w)是词w的词频权重,tag(w)为词w的词性权重,pos(w)为词w的位置权重。
5.生成句向量矩阵
Figure BDA0003592449340000046
Figure BDA0003592449340000047
其中,w为句子s中的分词,wgh(w)为分词w的词权重,vw为分词w的词向量,A为n个加权句向量cs组成的句向量矩阵。
6.去除句向量矩阵前m个主成分
Figure BDA0003592449340000051
Figure BDA0003592449340000052
其中,σi为句向量矩阵A的第i个奇异值,ci为句向量矩阵A的第i个奇异向量,λi为ci的权重,m为去除的主成分数,
Figure BDA0003592449340000053
为处理后的句向量,
Figure BDA0003592449340000054
为前m个奇异值的平方和,
Figure BDA0003592449340000055
为句向量矩阵A中前m个奇异值中的第j个奇异值的平方;m为一设定值,其取值需要视实际情况而定。
7.融入词序特征
使用分词后的科研项目申报书文本作为语料集训练Doc2Vec模型,将Doc2Vec生成的句向量与改进的USIF加权的句向量加权平均,为改进的USIF加权生成的句向量融入词序特征。
Figure BDA0003592449340000056
其中,
Figure BDA0003592449340000057
φ为加权系数,
Figure BDA0003592449340000058
为Doc2Vec训练出的句子s的句向量,
Figure BDA0003592449340000059
为句子s的最终的句向量。
8.计算科研项目的相似度
一段文本是由若干句子组成的,因此文本表征向量由文本中句子的句向量加和平均得到,如公式11所示。
Figure BDA00035924493400000510
其中,s为文本t中的句子,n为文本t中句子的数量,
Figure BDA00035924493400000511
为句子s的句向量。
科研项目间的相似度使用文本表征向量间的余弦相似度计算得到,如公示12所示。
Figure BDA00035924493400000512
其中,ui和vi分别是项目u和v的表征向量的第i个分量,n为表征向量的维数。
尽管为说明目的公开了本发明的具体实施例,其目的在于帮助理解本发明的内容并据以实施,本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。因此,本发明不应局限于最佳实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (8)

1.一种面向科研立项查重的句向量生成方法,其步骤包括:
1)对于一科研项目申报书的文本进行分词,计算所述文本中每一分词w的词频p(w)及词频权重tf(w);
2)根据汉语的语法规则以及六类实词词性在科研项目文本中的分布,设置每一分词w的词性权重tag(w);其中六类实词词性包括名词、动词、形容词、代词、量词和数词;
3)根据分词w所在句子在所述文本中的位置,确定该句子中分词w的位置权重pos(w);
4)根据各句子中的分词w的词频权重tf(w)、词性权重tag(w)和位置权重pos(w)计算对应句子中分词w的词权重wgh(w);
5)根据分词w的词权重wgh(w)生成所述文本的句向量矩阵A;所述句向量矩阵
Figure FDA0003914505940000011
其中,所述文本中句子s的句向量
Figure FDA0003914505940000012
vw为分词w的词向量,n为所述文本中句子总数;
6)去除所述句向量矩阵A的前m个主成分,对所述句向量矩阵A中的每一句向量进行更新;句向量cs更新后的向量
Figure FDA0003914505940000013
其中,
Figure FDA0003914505940000014
σi为句向量矩阵A的第i个奇异值,
Figure FDA0003914505940000015
为句向量矩阵A中前m个奇异值中的第j个奇异值的平方,λi为ci的权重,ci为句向量矩阵A的第i个奇异向量,
Figure FDA0003914505940000016
为句向量cs在奇异向量ci上的投影;
7)将科研项目申报书的文本输入Doc2Vec模型,生成所述文本的句向量并将其与步骤6)更新后的对应句向量加权平均,得到所述文本中每一句子对应的句向量。
2.根据权利要求1所述的方法,其特征在于,确定分词w的位置权重的方法为:如果分词w所在句子为所述文本的段落首句或末句,则分词w的位置权重较高,否则分词w的位置权重较低。
3.根据权利要求1或2所述的方法,其特征在于,词权重wgh(w)=tf(w)*(1+tag(w)+pos(w))。
4.根据权利要求1所述的方法,其特征在于,步骤7)中,句子s的句向量
Figure FDA0003914505940000017
其中,
Figure FDA0003914505940000018
φ为加权系数,
Figure FDA0003914505940000019
为Doc2Vec训练生成的句子s的句向量。
5.根据权利要求1所述的方法,其特征在于,词频权重
Figure FDA00039145059400000110
其中,
Figure FDA00039145059400000111
Figure FDA00039145059400000112
|V|是词典大小,α为需调优的超参数。
6.一种科研立项查重方法,其步骤包括:
1)采用权利要求1所述方法生成待查重科研项目申报书中文本的句向量,并对所生成的句向量进行加和取平均得到该待查重科研项目申报书的语义表征向量;
2)计算该待查重科研项目申报书的语义表征向量与数据库中每一科研项目申报书对应的语义表征向量之间的相似度,如果相似度大于设定阈值,则判定该待查重科研项目申报书为重复申报项目。
7.一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1至6任一所述方法中各步骤的指令。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一所述方法的步骤。
CN202210382556.6A 2022-04-12 2022-04-12 一种面向科研立项查重的句向量生成方法及查重方法 Active CN114943220B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210382556.6A CN114943220B (zh) 2022-04-12 2022-04-12 一种面向科研立项查重的句向量生成方法及查重方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210382556.6A CN114943220B (zh) 2022-04-12 2022-04-12 一种面向科研立项查重的句向量生成方法及查重方法

Publications (2)

Publication Number Publication Date
CN114943220A CN114943220A (zh) 2022-08-26
CN114943220B true CN114943220B (zh) 2023-01-10

Family

ID=82908110

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210382556.6A Active CN114943220B (zh) 2022-04-12 2022-04-12 一种面向科研立项查重的句向量生成方法及查重方法

Country Status (1)

Country Link
CN (1) CN114943220B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115329742B (zh) * 2022-10-13 2023-02-03 深圳市大数据研究院 基于文本分析的科研项目产出评价验收方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977410A (zh) * 2019-03-28 2019-07-05 杭州电子科技大学 一种基于pca算法的中文主观题自动评分方法
CN111104799A (zh) * 2019-10-16 2020-05-05 中国平安人寿保险股份有限公司 文本信息表征方法、系统及计算机设备、存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109408802A (zh) * 2018-08-28 2019-03-01 厦门快商通信息技术有限公司 一种提升句向量语义的方法、系统及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977410A (zh) * 2019-03-28 2019-07-05 杭州电子科技大学 一种基于pca算法的中文主观题自动评分方法
CN111104799A (zh) * 2019-10-16 2020-05-05 中国平安人寿保险股份有限公司 文本信息表征方法、系统及计算机设备、存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Hybrid Approach of Text Summarization Using Latent Semantic Analysis and Deep Learning;Chintan Shah et al.;《2018 International Conference on Advances in Computing, Communications and Informatics (ICACCI)》;20180919;第2039-2044页 *
基于句子向量表示和模糊C均值的电子政务文档自动摘要技术;祁荣苓 等;《数据与计算发展前沿》;20210430;第3卷(第2期);第103-111页 *

Also Published As

Publication number Publication date
CN114943220A (zh) 2022-08-26

Similar Documents

Publication Publication Date Title
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
US11321312B2 (en) Vector-based contextual text searching
US11379668B2 (en) Topic models with sentiment priors based on distributed representations
WO2019196314A1 (zh) 文本信息相似度匹配方法、装置、计算机设备及存储介质
Suleiman et al. Deep learning based technique for plagiarism detection in Arabic texts
Mohtaj et al. Parsivar: A language processing toolkit for Persian
US11068653B2 (en) System and method for context-based abbreviation disambiguation using machine learning on synonyms of abbreviation expansions
CN112347758B (zh) 文本摘要的生成方法、装置、终端设备及存储介质
CN111680509A (zh) 基于共现语言网络的文本关键词自动抽取方法和装置
Lan Research on Text Similarity Measurement Hybrid Algorithm with Term Semantic Information and TF‐IDF Method
Tlili-Guiassa Hybrid method for tagging Arabic text
CN114943220B (zh) 一种面向科研立项查重的句向量生成方法及查重方法
Shynkarenko et al. Natural Language Texts Authorship Establishing Based on the Sentences Structure
Gupta et al. Designing and development of stemmer of Dogri using unsupervised learning
Song et al. Improving embedding-based unsupervised keyphrase extraction by incorporating structural information
CN111639189B (zh) 一种基于文本内容特征的文本图构建方法
CN111723583B (zh) 基于意图角色的语句处理方法、装置、设备及存储介质
CN110020024B (zh) 一种科技文献中链接资源的分类方法、系统、设备
Raharjo et al. Detecting proper nouns in indonesian-language translation of the quran using a guided method
Joshi et al. Word embeddings in low resource Gujarati language
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
Znotiņš Word embeddings for Latvian natural language processing tools
Nishy Reshmi et al. Textual entailment classification using syntactic structures and semantic relations
Minn et al. Myanmar word stemming and part-of-speech tagging using rule based approach
Rassam et al. Analyzing Textual Documents Indexes by Applying Key-Phrases Extraction in Fuzzy Logic Domain Based on A Graphical Indexing Methodology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant