CN110377886A - 项目查重方法、装置、设备及存储介质 - Google Patents

项目查重方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110377886A
CN110377886A CN201910539972.0A CN201910539972A CN110377886A CN 110377886 A CN110377886 A CN 110377886A CN 201910539972 A CN201910539972 A CN 201910539972A CN 110377886 A CN110377886 A CN 110377886A
Authority
CN
China
Prior art keywords
text
measured
similarity
duplicate checking
benchmark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910539972.0A
Other languages
English (en)
Inventor
崔德冠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Saiante Technology Service Co Ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN201910539972.0A priority Critical patent/CN110377886A/zh
Publication of CN110377886A publication Critical patent/CN110377886A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Abstract

本发明涉及人工智能,公开一种项目查重方法、装置、设备及存储介质,该方法包括:获取项目文本,将项目文本划分为待测短文本集和待测长文本集;查找待测短文本集对应的基准短文本,并获取其与待测短文本集之间的第一相似度;若第一相似度低于预设相似度阈值,则查找待测长文本集对应的基准长文本并获取其与待测长文本集之间的第二相似度;根据第二相似度获取查重结果,由于是先根据短文本集对应的基准短文本对短文本集进行相似度检测,在获取到的相似度不能判定项目的查重情况时,再通过计算长文本集和基准长文本之间的相似度对待查重项目进行查重结果判定,相较于现有的文本查重方式,使得查重结果更加准确、真实,也提高了文本查重的效率。

Description

项目查重方法、装置、设备及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种项目查重方法、装置、设备及存储介质。
背景技术
目前,为了避免政府财政专项资金扶持项目被重复多次申请而造成资金的浪费,提高资金的使用效率,需要对企业申报的财政专项资金扶持项目进行查重。现有的项目查重方法主要关注点在于如何利用算法实现和提高文本的匹配相似度,但往往只是针对项目描述、项目内容等长文本进行相似度评估,而忽略了其它内容,导致了查重结果不够准确,查重结果失真的情况。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供了一种项目查重方法、装置、设备及存储介质,旨在解决现有技术查重结果不够准确,查重结果失真的技术问题。
为实现上述目的,本发明提供了一种项目查重方法,所述方法包括以下步骤:
获取待查重项目对应的项目文本,按预设文本维度将所述项目文本划分为待测短文本集和待测长文本集;
从预设查重语料库中查找所述待测短文本集对应的基准短文本,并获取所述待测短文本集与所述基准短文本之间的第一相似度;
若所述第一相似度低于预设相似度阈值,则从所述预设查重语料库中查找所述待测长文本集对应的基准长文本,并获取所述待测长文本集与所述基准长文本之间的第二相似度;
根据所述第二相似度获取所述待查重项目对应的查重结果。
优选地,所述从预设查重语料库中查找所述待测短文本集对应的基准短文本,并获取所述待测短文本集与所述基准短文本之间的第一相似度的步骤,包括:
根据所述待测短文本集所属的第一文本维度从预设查重语料库中查找所述待测短文本集对应的基准短文本;
分别对所述待测短文本集和所述基准短文本进行向量转换,获取所述待测短文本集中包含的各待测短文本对应的目标向量以及所述基准短文本对应的基准向量;
利用余弦函数分别计算所述目标向量和所述基准向量之间的相似度,并根据获取到的相似度构建相似度矩阵;
根据所述相似度矩阵获取所述待测短文本集与所述基准短文本之间的第一相似度。
优选地,所述分别对所述待测短文本集和所述基准短文本进行向量转换,获取所述待测短文本集中包含的各待测短文本对应的目标向量以及所述基准短文本对应的基准向量的步骤,包括:
从所述待测短文本集中选取一条目标待测短文本,根据n-gram算法将所述目标待测短文本转换为第一词组向量,将所述基准短文本转换为第二词组向量;
将所述第一词组向量转换为第一独热向量、所述第二词组向量转换为第二独热向量,并利用深度学习算法进行向量映射以获取在预设低维空间中所述第一独热向量对应的目标向量、所述第二独热向量对应的基准向量;
遍历所述待测短文本集中的剩余待测短文本,对所述剩余待测短文本进行向量转换,以获取所述待测短文本集中包含的各待测短文本对应的目标向量。
优选地,所述根据所述相似度矩阵获取所述待测短文本集与所述基准短文本之间的第一相似度的步骤,包括:
将所述相似度矩阵中的各相似度按照从大到小的顺序进行排序,根据排序结果选取预设数量的目标相似度;
根据所述目标相似度,通过第一预设公式计算出所述待测短文本集与所述基准短文本之间的第一相似度;
其中,所述第一预设公式为:
式中,S*为第一相似度,k为预设数量,si为目标相似度,α为预设阈值,且0<α<1。
优选地,所述从所述预设查重语料库中查找所述待测长文本集对应的基准长文本,并获取所述待测长文本集与所述基准长文本之间的第二相似度的步骤,包括:
根据所述待测长文本集所属的第二文本维度从所述预设查重语料库中查找所述待测长文本集对应的基准长文本;
利用词频-逆文件频率算法获取所述待测长文本集与所述基准长文本之间的第二相似度。
优选地,所述利用词频-逆文件频率算法获取所述待测长文本集与所述基准长文本之间的第二相似度的步骤,包括:
利用词频-逆文件频率算法分别获取所述待测长文本集对应的第一关键词集合,以及所述基准长文本对应的第二关键词集合;
将所述第一关键词集合和所述第二关键词集合合并为目标关键词集;
获取所述待测长文本集中包含的各待测长文本对于所述目标关键词集的第一词频向量,以及所述基准长文本对于所述目标关键词集的第二词频向量;
根据所述第一词频向量以及所述第二词频向量确定所述待测长文本集与所述基准长文本之间的第二相似度。
优选地,所述根据所述第二相似度获取所述待查重项目对应的查重结果的步骤,包括:
将所述第二相似度与预设基准值进行比较,并根据比较结果通过第二预设公式获取所述待查重项目对应的查重结果;
其中,所述第二预设公式为:
式中,r为查重结果,r=1表示待查重项目查重不通过,r=0表示待查重项目查重通过,L为第二相似度,δ为预设基准值,且0<δ<1。
此外,为实现上述目的,本发明还提出一种项目查重装置,所述装置包括:
文本划分模块,用于获取待查重项目对应的项目文本,按预设文本维度将所述项目文本划分为待测短文本集和待测长文本集;
文本比对模块,用于从预设查重语料库中查找所述待测短文本集对应的基准短文本,并获取所述待测短文本集与所述基准短文本之间的第一相似度;
所述文本比对模块,还用于若所述第一相似度低于预设相似度阈值,则从所述预设查重语料库中查找所述待测长文本集对应的基准长文本,并获取所述待测长文本集与所述基准长文本之间的第二相似度;
结果获取模块,用于根据所述第二相似度获取所述待查重项目对应的查重结果。
此外,为实现上述目的,本发明还提出一种项目查重设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的项目查重程序,所述项目查重程序配置为实现如上文所述的项目查重方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有项目查重程序,所述项目查重程序被处理器执行时实现如上文所述的项目查重方法的步骤。
本发明通过获取待查重项目对应的项目文本,按预设文本维度将项目文本划分为待测短文本集和待测长文本集;从预设查重语料库中查找待测短文本集对应的基准短文本,并获取待测短文本集与基准短文本之间的第一相似度;若第一相似度低于预设相似度阈值,则从预设查重语料库中查找待测长文本集对应的基准长文本,并获取待测长文本集与基准长文本之间的第二相似度;根据第二相似度获取待查重项目对应的查重结果,由于是先获取短文本集对应的基准短文本对短文本集进行相似度检测,在获取到的相似度不能判定待查重项目的查重情况时,再通过计算长文本集和基准长文本之间的相似度对待查重项目进行查重结果判定,相较于现有的文本查重方式,使得查重结果加准确、真实,也提高了文本查重的效率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的项目查重设备的结构示意图;
图2为本发明项目查重方法第一实施例的流程示意图;
图3为本发明项目查重方法第二实施例的流程示意图;
图4为本发明项目查重方法第三实施例的流程示意图;
图5为本发明项目查重装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的项目查重设备结构示意图。
如图1所示,该项目查重设备可以包括:处理器1001,例如中央处理器(CentralProcessing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对项目查重设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及项目查重程序。
在图1所示的项目查重设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明项目查重设备中的处理器1001、存储器1005可以设置在项目查重设备中,所述项目查重设备通过处理器1001调用存储器1005中存储的项目查重程序,并执行本发明实施例提供的项目查重方法。
本发明实施例提供了一种项目查重方法,参照图2,图2为本发明项目查重方法第一实施例的流程示意图。
本实施例中,所述项目查重方法包括以下步骤:
步骤S10:获取待查重项目对应的项目文本,按预设文本维度将所述项目文本划分为待测短文本集和待测长文本集;
需要说明的是,本实施例方法的执行主体可以是具有数据处理、网络通信以及程序运行功能的计算服务设备,例如智能手机、平板电脑、笔记本电脑、个人电脑等(以下简称查重终端)。所述预设文本维度包括短文本(项目名称、项目申请单位等)对应的第一文本维度以及长文本(项目摘要、项目创新点、项目背景和意义、国内外研究现状、项目主要研究内容和目的等)对应的第二文本维度。
在具体实现中,查重终端可获取用户输入的待查重项目对应的项目文本,然后按所述预设文本维度将所述项目文本划分为待测短文本集以及待测长文本集。其中,所述待测短文本集中包含有若干待测短文本,所述待测长文本集中也可包含有若干待测长文本。
步骤S20:从预设查重语料库中查找所述待测短文本集对应的基准短文本,并获取所述待测短文本集与所述基准短文本之间的第一相似度;
需要说明的是,所述预设查重语料库可以是基于财政专项资金扶持(计划)项目归属的所有管理部门历年已申报的财政专项资金扶持项目的项目文本构建的数据库,能够保证作为数据比对基准的查重语料库的数据覆盖面较广,进一步提高了查重准确率。
此外,本实施例中查重终端在查找基准短文本时,可根据待测短文本集对应的第一文本维度(项目名称、项目申请单位等)从预设查重语料库中获取所有已申报的财政专项资金扶持项目的项目名称以及申请单位,然后将相同或相似的项目名称以及申请单位作为所述基准短文本。相应地,查重终端在查找基准长文本时,可根据待测长文本集对应的第二文本维度(项目摘要、项目创新点、项目背景和意义、国内外研究现状、项目主要研究内容和目的)从预设查重语料库中查找相应的基准长文本。
在具体实现中,查重终端在从预设查重语料库中获取到所述基准短文本时,即可计算基准短文本与所述待测短文本集中各待测短文本之间的相似度,然后根据计算出的相似度筛选出所述待测短文本集对应的第一相似度。
应理解的是,如果当前需要进行文本重复率查询的财政专项资金扶持项目(即所述待查重项目)与预设查重语料库中某一项目的项目名称和/或项目申请单位相同或相似,则两者存在文本内容重复的可能性较大。若项目名称和项目申请单位等第一维度的短文本内容完全一致,就几乎可以断定待查重项目文本查重不通过,此时就不必再去检测待测长文本集的重复率情况,进而可以大大缩短查重流程,提高查重效率。
当然,若查重终端经检测获知待查重项目对应的待测短文本集查重通过,则需要进一步进行长文本的重复率查询,以确定待查重项目的实际重复率。具体的,本实施例中,查重终端可将获取到的第一相似度与预设相似度阈值进行比较,若根据比较结果发现所述第一相似度高于所述预设相似度阈值,则表明相似度过高,查重不通过;反之则表明待查重短文本集的相似度不高,需要进一步进行长文本的检测。
步骤S30:若所述第一相似度低于预设相似度阈值,则从所述预设查重语料库中查找所述待测长文本集对应的基准长文本,并获取所述待测长文本集与所述基准长文本之间的第二相似度;
应理解的是,若查重终端检测到所述第一相似度低于预设相似度阈值,则说明短文本的检测相似度不高,没有重复,此时就需要对长文本(如项目背景和意义、项目摘要、项目内容等)作进一步的检测,以确定待查重项目是否存在较大重复。
在具体实现中,查重终端可根据待测长文本集对应的第二文本维度从预设查重语料库中查找所述待测长文本集对应的基准长文本,然后通过词频-逆文件频率(TermFrequency-Inverse Document Frequency,TF-IDF)算法来计算待测长文本集与所述基准长文本之间的第二相似度,再根据计算出的第二相似度进一步确定待查重项目的查重情况。
具体的,查重终端可利用TF-IDF算法分别对待测长文本集中包含的各待测长文本进行关键词提取,获取对应的第一关键词集合;以及对所述基准长文本进行关键词提取,获取对应的第二关键词集合;将所述第一关键词集合和所述第二关键词集合合并为目标关键词集;再通过获取所述待测长文本集中包含的各待测长文本对于所述目标关键词集的第一词频向量,以及所述基准长文本对于所述目标关键词集的第二词频向量;最后再根据所述第一词频向量以及所述第二词频向量确定所述待测长文本集与所述基准长文本之间的第二相似度。当然,根据词频向量计算第二相似度时,可通过如下公式来实现:
其中,A为第一词频向量,a为第二词频向量,cosθ为第二相似度,cosθ的值越接近1表明二者越相似,反之则越不相似。
步骤S40:根据所述第二相似度获取所述待查重项目对应的查重结果。
在具体实现中,查重终端可将获取到的第二相似度与预设基准值进行比较,并根据比较结果通过第二预设公式获取所述待查重项目对应的查重结果;
其中,所述第二预设公式为:
式中,r为查重结果,r=1表示待查重项目查重不通过,r=0表示待查重项目查重通过,L为第二相似度,δ为预设基准值(一般取0.3),且0<δ<1。
可理解的是,若查重终端检测到第二相似度L大于等于预设基准值δ,则表示待查重项目的长文本有重复,文本查重不通过;若检测到第二相似度L小于预设基准值δ,则表示待查重项目的长文本没有重复,文本查重通过。
本实施例通过获取待查重项目对应的项目文本,按预设文本维度将项目文本划分为待测短文本集和待测长文本集;从预设查重语料库中查找待测短文本集对应的基准短文本,并获取待测短文本集与基准短文本之间的第一相似度;若第一相似度低于预设相似度阈值,则从预设查重语料库中查找待测长文本集对应的基准长文本,并获取待测长文本集与基准长文本之间的第二相似度;根据第二相似度获取待查重项目对应的查重结果,由于是先获取短文本集对应的基准短文本对短文本集进行相似度检测,在获取到的相似度不能判定待查重项目的查重情况时,再通过计算长文本集和基准长文本之间的相似度对待查重项目进行查重结果判定,相较于现有的文本查重方式,使得查重结果加准确、真实,也提高了文本查重的效率。
参考图3,图3为本发明项目查重方法第二实施例的流程示意图。
基于上述第一实施例,在本实施例中,所述步骤S20包括:
步骤S201:根据所述待测短文本集所属的第一文本维度从预设查重语料库中查找所述待测短文本集对应的基准短文本;
在本步骤中,查重终端可根据待测短文本集对应的第一文本维度(项目名称、项目申请单位等)从预设查重语料库中获取所有已申报的财政专项资金扶持项目的项目名称以及申请单位,然后将相同或相似的项目名称以及申请单位作为所述基准短文本。
步骤S202:分别对所述待测短文本集和所述基准短文本进行向量转换,获取所述待测短文本集中包含的各待测短文本对应的目标向量以及所述基准短文本对应的基准向量;
应理解的是,所述向量转换即将文本内容向量化,具体可通过利用n-gram算法来实现。
可理解的是,N-Gram(有时也称为N元模型)是自然语言处理中一个非常重要的概念,通常在自然语言处理(Natural Language Processing,NLP)领域中,基于一定的语料库可利用N-Gram来预计或者评估一个句子是否合理,又或是评估两个字符串之间的差异程度。本实施例则是利用n-gram算法来进行字符串之间的差异程度的评估。
具体的,查重终端可从待测短文本集中选取一条目标待测短文本,根据n-gram算法(n的取值可以为{1,2,3,4})将目标待测短文本转换为第一词组向量V1,将所述基准短文本转换为第二词组向量V2,其中,V1=[vi]T,i=1,2,…,m为目标待测短文本的维度数量;V2=[vj]T,j=1,2,…,n为预设查重语料库基准短文本的数量。
例如:对于文本“项目的研究意义在于……”这句话:
当n=1时,有“项/目/的/研/究/意/义/在/于/……”
当n=2时,有“项目/的研/究意/义在/于/……”
当n=3时,有“项目的/研究意/义在于/……”
对于中文,单个字(n=1)有1.5万个左右,双字词语(n=2)约有100万,三个的组合(n=3)在中文里相对双字词语应用少,四字词语(n=4)主要为成语类词汇。
进一步地,在获取到第一词组向量V1和第二词组向量V2后,查重终端还可将所述第一词组向量V1转换为第一独热向量V3、所述第二词组向量V2转换为第二独热向量V4,并利用深度学习算法进行向量映射以获取在预设低维空间中所述第一独热向量V3对应的目标向量V5、所述第二独热向量V4对应的基准向量V6;应理解的是,所述独热向量,也称为one-hot向量,即由独热码作为向量元素的向量,例如[0,0,1,0,1,0]。
具体的,查重终端还可将第一词组向量V1和第二词组向量V2分别转化为one-hot向量V3和V4,其中V3=[vip],V4=[vjp],i=1,2,…,n;j=1,2,…,n;p=1,2,…,P,其中,P为常用中文的数量(对于单字,P取值约为1.5万;对于双字词,P取值约为100万)。
例如,
可理解的是,在获取到one-hot向量V3和one-hot向量V4后,查重终端还可利用深度学习算法将one-hot向量V3和one-hot向量V4映射到低维向量空间(即通过神经网络将原始数据映射到一个低维空间,如二维空间;然后从低维空间再重构原始数据),得到目标向量V5和基准向量V6。其中,V5=[viq],V6=[vjq],其中i=1,2,…,n;j=1,2,…,n;q=1,2,…,Q,Q为压缩后的维度(Q取值可以为64、128、256等)。
当然,在获取到one-hot向量V3和one-hot向量V4后,查重终端还将遍历所述待测短文本集中的剩余待测短文本,对所述剩余待测短文本进行向量转换,以获取所述待测短文本集中包含的各待测短文本对应的目标向量。
步骤S203:利用余弦函数分别计算所述目标向量和所述基准向量之间的相似度,并根据获取到的相似度构建相似度矩阵;
在具体实现中,若查重终端在获取到目标向量V5和基准向量V6后,即可根据余弦函数公式计算目标向量V5和基准向量V6之间的相似度。例如:
式中,S(V5,V6)为目标向量V5和基准向量V6之间的相似度。
在本实施例中,查重终端将获取待测短文本集中包含的所有待测短文本与基准短文本之间的相似度,然后根据计算获得的相似度构建相似度矩阵S=[sij]。式中i=1,2,…,m为待测短文本的数量;j=1,2,…,n为预设查重语料库基准短文本的数量,sij为待测的第i个短文本与基准短文本j的相似度。
步骤S204:根据所述相似度矩阵获取所述待测短文本集与所述基准短文本之间的第一相似度。
在具体实现中,查重终端可根据获取到的相似度矩阵来确定待测短文本集与基准短文本之间的第一相似度,例如可以通过将相似度矩阵中包含的各相似度按从大到小的顺序进行排序,然后选取相似度值最大的作为所述第一相似度。
本实施例通过利用n-gram算法以及余弦函数来计算待测短文本集中包含的各待测短文本与查重语料库中存放的基准短文本之间的文本相似度,不仅能评估具有明显文字重复的文本的相似度,还能评估用不同文字描述的但意思相同的文本的相似度,保证了相似度计算结果的准确性。
参考图4,图4为本发明项目查重方法第三实施例的流程示意图。
基于上述各实施例,在本实施例中,所述步骤S204可具体包括:
步骤S2041:将所述相似度矩阵中的各相似度按照从大到小的顺序进行排序,根据排序结果选取预设数量的目标相似度;
考虑到实际查重情况中,待测短文本集中可能存在某一个短文本与基准短文本的相似度很高,文本内容几乎相同,若此时仍旧通过选取相似度值最大的作为第一相似度势必会增大文本查重过程中的偶然误差,导致查重结果失真。因此,本实施例查重终端在确定所述第一相似度时,将采用计算多个相似度均值的方式来实现。
在具体实现中,查重终端可根据构建的相似度矩阵将矩阵中的各相似度按照从大到小的顺序进行排序,例如(s1>s2>…>sn);然后按数值大小选取预设数量(k个)相似度(s1、s2、s3、…sk)。
步骤S2042:根据所述目标相似度,通过第一预设公式计算出所述待测短文本集与所述基准短文本之间的第一相似度;
在具体实现中,查重终端在获取到目标相似度(s1、s2、s3、…sk)后,可将所述目标相似度输入到预先设置好的第一预设公式中,然后将计算结果作为所述待测短文本集与所述基准短文本之间的第一相似度。
其中,所述第一预设公式为:
式中,S*为第一相似度,k为预设数量,si为目标相似度,α为预设阈值,且0<α<1。
本实施例通过计算多个数值较大的相似度的均值来确定待测短文本集与基准短文本之间的第一相似度,能够有效避免相似度计算过程中的偶然误差,保证计算结果的准确率。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有项目查重程序,所述项目查重程序被处理器执行时实现如上文所述的项目查重方法的步骤。
参照图5,图5为本发明项目查重装置第一实施例的结构框图。
如图5所示,本发明实施例提出的项目查重装置包括:
文本划分模块501,用于获取待查重项目对应的项目文本,按预设文本维度将所述项目文本划分为待测短文本集和待测长文本集;
文本比对模块502,用于从预设查重语料库中查找所述待测短文本集对应的基准短文本,并获取所述待测短文本集与所述基准短文本之间的第一相似度;
所述文本比对模块502,还用于若所述第一相似度低于预设相似度阈值,则从所述预设查重语料库中查找所述待测长文本集对应的基准长文本,并获取所述待测长文本集与所述基准长文本之间的第二相似度;
结果获取模块503,用于根据所述第二相似度获取所述待查重项目对应的查重结果。
本实施例通过获取待查重项目对应的项目文本,按预设文本维度将项目文本划分为待测短文本集和待测长文本集;从预设查重语料库中查找待测短文本集对应的基准短文本,并获取待测短文本集与基准短文本之间的第一相似度;若第一相似度低于预设相似度阈值,则从预设查重语料库中查找待测长文本集对应的基准长文本,并获取待测长文本集与基准长文本之间的第二相似度;根据第二相似度获取待查重项目对应的查重结果,由于是先获取短文本集对应的基准短文本对短文本集进行相似度检测,在获取到的相似度不能判定待查重项目的查重情况时,再通过计算长文本集和基准长文本之间的相似度对待查重项目进行查重结果判定,相较于现有的文本查重方式,使得查重结果加准确、真实,也提高了文本查重的效率。
基于本发明上述项目查重装置第一实施例,提出本发明项目查重装置的第二实施例。
在本实施例中,所述文本比对模块502,还用于根据所述待测短文本集所属的第一文本维度从预设查重语料库中查找所述待测短文本集对应的基准短文本;分别对所述待测短文本集和所述基准短文本进行向量转换,获取所述待测短文本集中包含的各待测短文本对应的目标向量以及所述基准短文本对应的基准向量;利用余弦函数分别计算所述目标向量和所述基准向量之间的相似度,并根据获取到的相似度构建相似度矩阵;根据所述相似度矩阵获取所述待测短文本集与所述基准短文本之间的第一相似度。
进一步地,所述文本比对模块502,还用于从所述待测短文本集中选取一条目标待测短文本,根据n-gram算法将所述目标待测短文本转换为第一词组向量,将所述基准短文本转换为第二词组向量;将所述第一词组向量转换为第一独热向量、所述第二词组向量转换为第二独热向量,并利用深度学习算法进行向量映射以获取在预设低维空间中所述第一独热向量对应的目标向量、所述第二独热向量对应的基准向量;遍历所述待测短文本集中的剩余待测短文本,对所述剩余待测短文本进行向量转换,以获取所述待测短文本集中包含的各待测短文本对应的目标向量。
进一步地,所述文本比对模块502,还用于将所述相似度矩阵中的各相似度按照从大到小的顺序进行排序,根据排序结果选取预设数量的目标相似度;
根据所述目标相似度,通过第一预设公式计算出所述待测短文本集与所述基准短文本之间的第一相似度;其中,所述第一预设公式为:
式中,S*为第一相似度,k为预设数量,si为目标相似度,α为预设阈值,且0<α<1。
进一步地,所述文本比对模块502,还用于根据所述待测长文本集所属的第二文本维度从所述预设查重语料库中查找所述待测长文本集对应的基准长文本;利用词频-逆文件频率算法获取所述待测长文本集与所述基准长文本之间的第二相似度。
进一步地,所述文本比对模块502,还用于利用词频-逆文件频率算法分别获取所述待测长文本集对应的第一关键词集合,以及所述基准长文本对应的第二关键词集合;将所述第一关键词集合和所述第二关键词集合合并为目标关键词集;获取所述待测长文本集中包含的各待测长文本对于所述目标关键词集的第一词频向量,以及所述基准长文本对于所述目标关键词集的第二词频向量;根据所述第一词频向量以及所述第二词频向量确定所述待测长文本集与所述基准长文本之间的第二相似度。
进一步地,所述结果获取模块503,还用于将所述第二相似度与预设基准值进行比较,并根据比较结果通过第二预设公式获取所述待查重项目对应的查重结果;其中,所述第二预设公式为:
式中,r为查重结果,r=1表示待查重项目查重不通过,r=0表示待查重项目查重通过,L为第二相似度,δ为预设基准值,且0<δ<1。
本发明项目查重装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种项目查重方法,其特征在于,所述方法包括:
获取待查重项目对应的项目文本,按预设文本维度将所述项目文本划分为待测短文本集和待测长文本集;
从预设查重语料库中查找所述待测短文本集对应的基准短文本,并获取所述待测短文本集与所述基准短文本之间的第一相似度;
若所述第一相似度低于预设相似度阈值,则从所述预设查重语料库中查找所述待测长文本集对应的基准长文本,并获取所述待测长文本集与所述基准长文本之间的第二相似度;
根据所述第二相似度获取所述待查重项目对应的查重结果。
2.如权利要求1所述的方法,其特征在于,所述从预设查重语料库中查找所述待测短文本集对应的基准短文本,并获取所述待测短文本集与所述基准短文本之间的第一相似度的步骤,包括:
根据所述待测短文本集所属的第一文本维度从预设查重语料库中查找所述待测短文本集对应的基准短文本;
分别对所述待测短文本集和所述基准短文本进行向量转换,获取所述待测短文本集中包含的各待测短文本对应的目标向量以及所述基准短文本对应的基准向量;
利用余弦函数分别计算所述目标向量和所述基准向量之间的相似度,并根据获取到的相似度构建相似度矩阵;
根据所述相似度矩阵获取所述待测短文本集与所述基准短文本之间的第一相似度。
3.如权利要求2所述的方法,其特征在于,所述分别对所述待测短文本集和所述基准短文本进行向量转换,获取所述待测短文本集中包含的各待测短文本对应的目标向量以及所述基准短文本对应的基准向量的步骤,包括:
从所述待测短文本集中选取一条目标待测短文本,根据n-gram算法将所述目标待测短文本转换为第一词组向量,将所述基准短文本转换为第二词组向量;
将所述第一词组向量转换为第一独热向量、所述第二词组向量转换为第二独热向量,并利用深度学习算法进行向量映射以获取在预设低维空间中所述第一独热向量对应的目标向量、所述第二独热向量对应的基准向量;
遍历所述待测短文本集中的剩余待测短文本,对所述剩余待测短文本进行向量转换,以获取所述待测短文本集中包含的各待测短文本对应的目标向量。
4.如权利要求2或3所述的方法,其特征在于,所述根据所述相似度矩阵获取所述待测短文本集与所述基准短文本之间的第一相似度的步骤,包括:
将所述相似度矩阵中的各相似度按照从大到小的顺序进行排序,根据排序结果选取预设数量的目标相似度;
根据所述目标相似度,通过第一预设公式计算出所述待测短文本集与所述基准短文本之间的第一相似度;
其中,所述第一预设公式为:
式中,S*为第一相似度,k为预设数量,si为目标相似度,α为预设阈值,且0<α<1。
5.如权利要求1所述的方法,其特征在于,所述从所述预设查重语料库中查找所述待测长文本集对应的基准长文本,并获取所述待测长文本集与所述基准长文本之间的第二相似度的步骤,包括:
根据所述待测长文本集所属的第二文本维度从所述预设查重语料库中查找所述待测长文本集对应的基准长文本;
利用词频-逆文件频率算法获取所述待测长文本集与所述基准长文本之间的第二相似度。
6.如权利要求5所述的方法,其特征在于,所述利用词频-逆文件频率算法获取所述待测长文本集与所述基准长文本之间的第二相似度的步骤,包括:
利用词频-逆文件频率算法分别获取所述待测长文本集对应的第一关键词集合,以及所述基准长文本对应的第二关键词集合;
将所述第一关键词集合和所述第二关键词集合合并为目标关键词集;
获取所述待测长文本集中包含的各待测长文本对于所述目标关键词集的第一词频向量,以及所述基准长文本对于所述目标关键词集的第二词频向量;
根据所述第一词频向量以及所述第二词频向量确定所述待测长文本集与所述基准长文本之间的第二相似度。
7.如权利要求1所述的方法,其特征在于,所述根据所述第二相似度获取所述待查重项目对应的查重结果的步骤,包括:
将所述第二相似度与预设基准值进行比较,并根据比较结果通过第二预设公式获取所述待查重项目对应的查重结果;
其中,所述第二预设公式为:
式中,r为查重结果,r=1表示待查重项目查重不通过,r=0表示待查重项目查重通过,L为第二相似度,δ为预设基准值,且0<δ<1。
8.一种项目查重装置,其特征在于,所述装置包括:
文本划分模块,用于获取待查重项目对应的项目文本,按预设文本维度将所述项目文本划分为待测短文本集和待测长文本集;
文本比对模块,用于从预设查重语料库中查找所述待测短文本集对应的基准短文本,并获取所述待测短文本集与所述基准短文本之间的第一相似度;
所述文本比对模块,还用于若所述第一相似度低于预设相似度阈值,则从所述预设查重语料库中查找所述待测长文本集对应的基准长文本,并获取所述待测长文本集与所述基准长文本之间的第二相似度;
结果获取模块,用于根据所述第二相似度获取所述待查重项目对应的查重结果。
9.一种项目查重设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的项目查重程序,所述项目查重程序配置为实现如权利要求1至7中任一项所述的项目查重方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有项目查重程序,所述项目查重程序被处理器执行时实现如权利要求1至7任一项所述的项目查重方法的步骤。
CN201910539972.0A 2019-06-19 2019-06-19 项目查重方法、装置、设备及存储介质 Pending CN110377886A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910539972.0A CN110377886A (zh) 2019-06-19 2019-06-19 项目查重方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910539972.0A CN110377886A (zh) 2019-06-19 2019-06-19 项目查重方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN110377886A true CN110377886A (zh) 2019-10-25

Family

ID=68250504

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910539972.0A Pending CN110377886A (zh) 2019-06-19 2019-06-19 项目查重方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110377886A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765756A (zh) * 2019-10-29 2020-02-07 北京齐尔布莱特科技有限公司 一种文本处理方法、装置、计算设备及介质
CN111582837A (zh) * 2020-05-20 2020-08-25 恒瑞通(福建)信息技术有限公司 一种固定资产投资项目的查重方法及终端
CN111625468A (zh) * 2020-06-05 2020-09-04 中国银行股份有限公司 一种测试案例去重方法及装置
CN112784569A (zh) * 2021-02-04 2021-05-11 北京秒针人工智能科技有限公司 一种相似文本聚合的实现方法、系统、设备及存储介质
CN112819565A (zh) * 2021-01-20 2021-05-18 南方电网深圳数字电网研究院有限公司 围标串标的检测方法、系统及存储介质
CN112948545A (zh) * 2021-02-25 2021-06-11 平安国际智慧城市科技股份有限公司 查重方法、终端设备及计算机可读存储介质
CN113409136A (zh) * 2021-06-30 2021-09-17 中国工商银行股份有限公司 组合服务相似度分析方法、装置、计算机系统及存储介质
CN113536763A (zh) * 2021-07-20 2021-10-22 北京中科闻歌科技股份有限公司 一种信息处理方法、装置、设备及存储介质
CN113807816A (zh) * 2021-09-18 2021-12-17 山东亿云信息技术有限公司 一种项目建设方案查重方法、装置、存储介质及电子设备
CN113988085A (zh) * 2021-12-29 2022-01-28 深圳市北科瑞声科技股份有限公司 文本语义相似度匹配方法、装置、电子设备及存储介质
CN115438644A (zh) * 2022-11-08 2022-12-06 广州信安数据有限公司 一种信息化项目相似度分析方法、存储介质及系统
CN117591643A (zh) * 2023-11-10 2024-02-23 杭州市余杭区数据资源管理局 一种基于改进的结构化处理的项目文本查重方法及系统
CN117591643B (zh) * 2023-11-10 2024-05-10 杭州市余杭区数据资源管理局 一种基于改进的结构化处理的项目文本查重方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631858A (zh) * 2013-10-24 2014-03-12 杭州电子科技大学 一种科技项目相似度计算方法
CN105956070A (zh) * 2016-04-28 2016-09-21 优品财富管理有限公司 一种整合重复记录的方法及系统
CN107122340A (zh) * 2017-03-30 2017-09-01 浙江省科技信息研究院 一种基于同义词分析的科技项目申报书的相似度检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631858A (zh) * 2013-10-24 2014-03-12 杭州电子科技大学 一种科技项目相似度计算方法
CN105956070A (zh) * 2016-04-28 2016-09-21 优品财富管理有限公司 一种整合重复记录的方法及系统
CN107122340A (zh) * 2017-03-30 2017-09-01 浙江省科技信息研究院 一种基于同义词分析的科技项目申报书的相似度检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘玉林 等: "基于自然语言处理技术的电网招标资料查重系统研制", 《电力信息与通信技术》 *
胡伟伟 等: "基于向量空间模型的项目申报书查重系统设计", 《天津科技》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765756A (zh) * 2019-10-29 2020-02-07 北京齐尔布莱特科技有限公司 一种文本处理方法、装置、计算设备及介质
CN110765756B (zh) * 2019-10-29 2023-12-01 北京齐尔布莱特科技有限公司 一种文本处理方法、装置、计算设备及介质
CN111582837A (zh) * 2020-05-20 2020-08-25 恒瑞通(福建)信息技术有限公司 一种固定资产投资项目的查重方法及终端
CN111625468A (zh) * 2020-06-05 2020-09-04 中国银行股份有限公司 一种测试案例去重方法及装置
CN111625468B (zh) * 2020-06-05 2024-04-16 中国银行股份有限公司 一种测试案例去重方法及装置
CN112819565B (zh) * 2021-01-20 2023-08-08 南方电网数字平台科技(广东)有限公司 围标串标的检测方法、系统及存储介质
CN112819565A (zh) * 2021-01-20 2021-05-18 南方电网深圳数字电网研究院有限公司 围标串标的检测方法、系统及存储介质
CN112784569A (zh) * 2021-02-04 2021-05-11 北京秒针人工智能科技有限公司 一种相似文本聚合的实现方法、系统、设备及存储介质
CN112784569B (zh) * 2021-02-04 2024-04-19 北京秒针人工智能科技有限公司 一种相似文本聚合的实现方法、系统、设备及存储介质
CN112948545A (zh) * 2021-02-25 2021-06-11 平安国际智慧城市科技股份有限公司 查重方法、终端设备及计算机可读存储介质
CN113409136A (zh) * 2021-06-30 2021-09-17 中国工商银行股份有限公司 组合服务相似度分析方法、装置、计算机系统及存储介质
CN113536763A (zh) * 2021-07-20 2021-10-22 北京中科闻歌科技股份有限公司 一种信息处理方法、装置、设备及存储介质
CN113807816A (zh) * 2021-09-18 2021-12-17 山东亿云信息技术有限公司 一种项目建设方案查重方法、装置、存储介质及电子设备
CN113988085A (zh) * 2021-12-29 2022-01-28 深圳市北科瑞声科技股份有限公司 文本语义相似度匹配方法、装置、电子设备及存储介质
CN115438644A (zh) * 2022-11-08 2022-12-06 广州信安数据有限公司 一种信息化项目相似度分析方法、存储介质及系统
CN115438644B (zh) * 2022-11-08 2023-01-06 广州信安数据有限公司 一种信息化项目相似度分析方法、存储介质及系统
CN117591643A (zh) * 2023-11-10 2024-02-23 杭州市余杭区数据资源管理局 一种基于改进的结构化处理的项目文本查重方法及系统
CN117591643B (zh) * 2023-11-10 2024-05-10 杭州市余杭区数据资源管理局 一种基于改进的结构化处理的项目文本查重方法及系统

Similar Documents

Publication Publication Date Title
CN110377886A (zh) 项目查重方法、装置、设备及存储介质
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
Santos et al. Learning to combine multiple string similarity metrics for effective toponym matching
Zhu et al. Heterogeneous hypergraph embedding for document recommendation
Overell et al. Using co‐occurrence models for placename disambiguation
US8880548B2 (en) Dynamic search interaction
US20150066711A1 (en) Methods, apparatuses and computer-readable mediums for organizing data relating to a product
Dawdy-Hesterberg et al. Learnability and generalisation of Arabic broken plural nouns
CN110750640A (zh) 基于神经网络模型的文本数据分类方法、装置及存储介质
CN109635077A (zh) 文本相似度的计算方法、装置、电子设备及存储介质
CN107038173A (zh) 应用查询方法和装置、相似应用检测方法和装置
Shen et al. VILA: Improving structured content extraction from scientific PDFs using visual layout groups
US20210110111A1 (en) Methods and systems for providing universal portability in machine learning
CN113806550A (zh) 个性化知识图谱的生成方法、装置及计算机设备
CN113449187A (zh) 基于双画像的产品推荐方法、装置、设备及存储介质
CN107301195A (zh) 生成用于搜索内容的分类模型方法、装置和数据处理系统
CN114207604A (zh) 使用针对性问题回答来提取科学测量背景的系统和方法
US20190050399A1 (en) Distinguish phrases in displayed content
CN107491465A (zh) 用于搜索内容的方法和装置以及数据处理系统
da Silva et al. CROKAGE: effective solution recommendation for programming tasks by leveraging crowd knowledge
CN112132238A (zh) 一种识别隐私数据的方法、装置、设备和可读介质
CN112417133A (zh) 排序模型的训练方法和装置
CN103914508B (zh) 文件管理装置以及文件管理方法
Dahlberg et al. A distributional semantic online lexicon for linguistic explorations of societies
Liu et al. Strong natural language query generation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210202

Address after: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Applicant after: Shenzhen saiante Technology Service Co.,Ltd.

Address before: 1-34 / F, Qianhai free trade building, 3048 Xinghai Avenue, Mawan, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong 518000

Applicant before: Ping An International Smart City Technology Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191025