CN110941743B - 一种基于深度学习算法自动实现字段权重分配的科技项目查重方法 - Google Patents
一种基于深度学习算法自动实现字段权重分配的科技项目查重方法 Download PDFInfo
- Publication number
- CN110941743B CN110941743B CN201910972950.3A CN201910972950A CN110941743B CN 110941743 B CN110941743 B CN 110941743B CN 201910972950 A CN201910972950 A CN 201910972950A CN 110941743 B CN110941743 B CN 110941743B
- Authority
- CN
- China
- Prior art keywords
- file
- checked
- keywords
- scientific
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于深度学习算法自动实现字段权重分配的科技项目查重方法,包括:在目标文件的指定字段中提取目标文本,将所述目标文本切分为关键词;在数据库中检索含有单个关键词的待查文件,设定关键词的权重值;利用神经网络组建权重评估器对含有关键词的待查文件进行评估和排序;选取相关度最高的待查文件,在待查文件的指定字段中提取比对文本;建立比对矩阵,根据子矩阵的规模计算所述目标文本与所述比对文本的相似度;本发明提供的基于深度学习算法自动实现字段权重分配的科技项目查重方法,利用神经网络对相关样本进行学习训练,训练完成后能够高效、快速地完成文件相似性比对(查重)的任务。
Description
技术领域
本发明属于数据检索比对技术领域,具体涉及一种基于深度学习算法自动实现字段权重分配的科技项目查重方法。
背景技术
目前,论文/项目的重复率检测主要是采用PaperPass、万方、知网等检测系统,通过字符串匹配算法来计算待检测的文件相对于文件库中的目标文件的相似比。字符串匹配算法是以一段文字完全一致作为衡量论文重复的标准,然而,由于中文语言的复杂性和表达方式的多样性,对于实质内容相同的两段文字,往往会因为中间出现一些无意义的“停词”或虚词或者主谓宾顺序不一致等情况,而将其错误地判断为不属于重复内容,因此,采用现有技术中的字符串匹配算法可能会导致查全率和查准率不高。而且,字符串匹配算法对字符串的选取要求严格,算法本身复杂度较高,需要相对大的资源开销和较长的计算时间,因此,查重的效率也不高。此外,近年来,随着科技项目申报、学术论文和学位论文等的数量大幅增长,迫切需要支持大数据量下,查重结果准确、高效的文本数据查重的方法。
中国发明专利CN106909609A;
中国发明专利CN101609466A;
中国发明专利CN105718506A。
发明内容
本发明的目的在于提供一种基于深度学习算法自动实现字段权重分配的科技项目查重方法,旨在解决现有技术查重的效率低的问题。
为实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:
本发明提供了一种基于深度学习算法自动实现字段权重分配的科技项目查重方法,包括如下步骤:
步骤1:在目标文件的指定字段中提取目标文本,将所述目标文本切分为关键词;
步骤2:在数据库中检索含有单个关键词的待查文件,设定关键词的权重值;
步骤3:利用神经网络组建权重评估器对含有关键词的待查文件进行评估,权重评估器输出待查文件的相关度,根据权重评估器的输出结果进行排序;
步骤4:选取相关度最高的待查文件,在待查文件的指定字段中提取比对文本;
步骤5:将所述待查文本与所述比对文本进行字母化,建立比对矩阵,在比对矩阵中查找满足相似字符串条件的子矩阵;
步骤6:根据子矩阵的规模计算所述目标文本与所述比对文本的相似度。
优选地,步骤3中利用神经网络组建权重评估器的步骤包括:
获取关键词的权重值,选取六篇待查文件作为训练样本,其中三篇待查文件与目标文件相关,其他三篇待查文件与目标文件不相关;
获取六篇待查文件含有的关键词,根据相关性输入神经网络进行训练;
待训练完成后,神经网络组建的权重评估器可以根据关键词及权重值输出该待查文件的相关度。
优选地,所述的指定字段还包括标题。
优选地,所述的指定字段还包括负责人。
优选地,所述的指定字段还包括承担机构与合作机构。
优选地,所述的指定字段还包括摘要。
优选地,所述的指定字段还包括正文。
优选地,步骤1中将所述目标文本按照动词、名词、形容词、副词、介词切分为关键词。
本发明的优点:
本发明提供的基于深度学习算法自动实现字段权重分配的科技项目查重方法,利用神经网络对相关样本进行学习训练,训练完成后能够高效、快速地完成文件相似性比对(查重)的任务。
附图说明
图1为本发明所述的基于深度学习算法自动实现字段权重分配的科技项目查重方法的流程框图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提供了一种基于深度学习算法自动实现字段权重分配的科技项目查重方法,包括如下步骤:
步骤1:在目标文件的指定字段中提取目标文本,将所述目标文本切分为关键词;例如,选取目标文件,指定字段设置为“技术内容”,在目标文件的“技术内容”字段中提取了“应用游戏引擎UDK技术将提取的特色元素虚拟化、数字化,利用三维建模Blender技术将虚拟化信息应用于移动游戏端”的目标文本,将所述目标文本切分为“应用/游戏/引擎/UDK/技术/将/提取/的/特色/元素/虚拟化/数字化/利用/三维/建模/Blender/技术/将/虚拟化/信息/应用于/移动/游戏端/”多个关键词;在一个实施例中,所述的指定字段还可以包括“标题”、“负责人”、“承担机构”、“合作机构”、“摘要”以及“正文”;在一个实施例中,将所述目标文本切分为关键词时,可以按照动词、名词、形容词、副词、介词切分为关键词,省略其他类型的关键词;
步骤2:在数据库中检索含有单个关键词的项目文件,设定关键词的权重值;例如,在12564个项目文件的数据库中检索后,含“应用”关键词的项目文件9472个,含“游戏”关键词的项目文件2761个,含“引擎”关键词的项目文件958个,含“UDK”关键词的项目文件8个,对项目文件个数进行归一化处理y=x-8/(9472-8),结果得出:“应用”为“1”,“游戏”为“0.29089”,“引擎”为“0.10038”,“UDK”为“0.00085”;
步骤3:利用神经网络组建权重评估器对含有关键词的待查文件进行评估,权重评估器输出待查文件的相关度,根据权重评估器的输出结果进行排序;如:权重评估器的输出结果为:待查文件1的相关度为0.913,待查文件2的相关度为0.762,待查文件3的相关度为0.913,待查文件4的相关度为0.206,待查文件5的相关度为0.050,待查文件6的相关度为0;因此,排序为待查文件1>待查文件3>待查文件2>待查文件4>待查文件5>待查文件6。
在一个实施例中,利用神经网络组建权重评估器的步骤如下:
获取关键词的权重值,选取六篇待查文件作为训练样本,其中三篇待查文件与目标文件相关,其他三篇待查文件与目标文件不相关,将相关的待查文件赋值为1,不相关的待查文件赋值为0;
获取六篇待查文件含有的关键词,根据相关性输入神经网络进行训练,如表1所示;
表1神经网络样本训练表
目标文件 | 待查文件1 | 待查文件2 | 待查文件3 | 待查文件4 | 待查文件5 | 待查文件6 | |
关键词1 | 应用 | 无 | 无 | 无 | 应用 | 应用 | 无 |
权重值 | 1 | 0 | 0 | 0 | 1 | 1 | 0 |
关键词2 | 游戏 | 游戏 | 游戏 | 无 | 游戏 | 无 | 无 |
权重值 | 0.29089 | 0.29089 | 0.29089 | 0 | 0.29089 | 0 | 0 |
关键词3 | 引擎 | 引擎 | 引擎 | 引擎 | 无 | 无 | 无 |
权重值 | 0.10038 | 0.10038 | 0.10038 | 0.10038 | 0 | 0 | 0 |
关键词4 | UDK | UDK | 无 | UDK | 无 | 无 | 无 |
权重值 | 0.00085 | 0.00085 | 0 | 0.00085 | 0 | 0 | 0 |
相关性 | - | 相关 | 相关 | 相关 | 不相关 | 不相关 | 不相关 |
赋值 | - | 1 | 1 | 1 | 0 | 0 | 0 |
从表1可以获得神经网络的训练集,输入为关键词权重值P=[0,0.29089,0.10038,0.00085;0,0.29089,0.10038,0;0,0,0.10038,0.00085;1,0.29089,0,0;0,0,0,0],输出为相关性S0=[1,1,1,0,0,0];将以上样本集代入式(1)的径向基神经网络进行拟合训练,拟合训练可获得具有关键词特性的权重评估器,如式(1)所示;
式(1)中,||P-ci||为输入量P与神经网络权量ci的欧式距离,wi为神经网络隐层到输出层之间的权量,wi=[w1 w2 w3 w4 w5 w6]T=[0.050 0.315 0.465 0.585 0.8350.975],ci=[c1 c2 c3 c4 c5 c6]T=[0.3050 0.4528 0.6238 0.8029 0.9763]。
待训练完成后,神经网络组建的权重评估器可以根据关键词的权重值P输出该待查文件的相关度S0的值,如表2所示;
表2待查文件的相关度
项目文件 | 待查文件1 | 待查文件3 | 待查文件2 | 待查文件4 | 待查文件5 | 待查文件6 |
相关度S0 | 0.913 | 0.805 | 0.762 | 0.206 | 0.050 | 0 |
根据S0进行待查文件的相关度排序,如表2所示。
步骤4:选取相关度最高的待查文件,在待查文件的指定字段中提取比对文本;如:选取待查文件1,提取比对文本如下:“利用UDK虚幻引擎画刷制作游戏四面墙,然后利用UDK虚幻引擎进行初始游戏的基础添加,通过四面墙的添加以及贴图的附加,场景的初步搭建。在其中添加一些隔断墙,并适当的添加一些灯光,给其符合场景的颜色,给一些比较暗的地方添加Sport Light,场景中只有墙体闭塞,可以适当的创建天窗,并附上材质”;
步骤5:将所述目标文本与所述比对文本进行字母化,建立比对矩阵,在比对矩阵中查找满足相似字符串条件的子矩阵;(请参考现有技术CN106909609A,在此不再赘述)
步骤6:根据子矩阵的规模计算所述目标文本与所述比对文本的相似度,
计算比对文本的相似度的公式如下:
其中,BFB表示章节相似比,TXTLEN表示比对文本长度,n是比对文本中关键字的个数,
KEYLEN表示关键字的长度(即查找出的相似片度的长度)。
由此描述了本发明的至少一个实施例的几个方面,可以理解,对本领域技术人员来说容易地进行各种改变、修改和改进。这种改变、修改和改进意于在本发明的精神和范围内。
Claims (8)
1.一种基于深度学习算法自动实现字段权重分配的科技项目查重方法,其特征在于,包括如下步骤:
步骤1:选取目标文件,设置指定字段,在目标文件的指定字段中提取目标文本,将所述目标文本切分为多个关键词;
步骤2:在数据库中检索含有单个关键词的待查文件,获得含有所有关键词的待查文件,对含单个关键词的待查文件个数进行归一化处理,得出关键词的权重值;
步骤3:利用神经网络组建权重评估器对含有关键词的待查文件进行评估,利用关键词的权重值和待查文件的相关度作为神经网络的训练集进行训练,权重评估器输出待查文件的相关度,根据权重评估器的输出结果进行排序;
步骤4:选取相关度最高的待查文件,在待查文件的指定字段中提取比对文本;
步骤5:将所述目标文本与所述比对文本进行字母化,建立比对矩阵,在比对矩阵中查找满足相似字符串条件的子矩阵;
步骤6:根据子矩阵的规模计算所述目标文本与所述比对文本的相似度。
2.如权利要求1所述的基于深度学习算法自动实现字段权重分配的科技项目查重方法,其特征在于:步骤3中利用神经网络组建权重评估器的步骤包括:
获取关键词的权重值,选取六篇待查文件作为训练样本,其中三篇待查文件与目标文件相关,其他三篇待查文件与目标文件不相关;
获取六篇待查文件含有的关键词,根据相关性输入神经网络进行训练;
待训练完成后,神经网络组建的权重评估器可以根据关键词及权重值输出该待查文件的相关度。
3.如权利要求1或2所述的基于深度学习算法自动实现字段权重分配的科技项目查重方法,其特征在于:所述的指定字段还包括标题。
4.如权利要求1或2所述的基于深度学习算法自动实现字段权重分配的科技项目查重方法,其特征在于:所述的指定字段还包括负责人。
5.如权利要求1或2所述的基于深度学习算法自动实现字段权重分配的科技项目查重方法,其特征在于:所述的指定字段还包括承担机构与合作机构。
6.如权利要求1或2所述的基于深度学习算法自动实现字段权重分配的科技项目查重方法,其特征在于:所述的指定字段还包括摘要。
7.如权利要求1或2所述的基于深度学习算法自动实现字段权重分配的科技项目查重方法,其特征在于:所述的指定字段还包括正文。
8.如权利要求1或2所述的基于深度学习算法自动实现字段权重分配的科技项目查重方法,其特征在于:步骤1中将所述目标文本按照动词、名词、形容词、副词、介词切分为关键词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910972950.3A CN110941743B (zh) | 2019-10-14 | 2019-10-14 | 一种基于深度学习算法自动实现字段权重分配的科技项目查重方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910972950.3A CN110941743B (zh) | 2019-10-14 | 2019-10-14 | 一种基于深度学习算法自动实现字段权重分配的科技项目查重方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110941743A CN110941743A (zh) | 2020-03-31 |
CN110941743B true CN110941743B (zh) | 2023-09-15 |
Family
ID=69906027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910972950.3A Active CN110941743B (zh) | 2019-10-14 | 2019-10-14 | 一种基于深度学习算法自动实现字段权重分配的科技项目查重方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110941743B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112214983B (zh) * | 2020-09-21 | 2023-08-11 | 远光软件股份有限公司 | 一种数据记录查重方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5297042A (en) * | 1989-10-05 | 1994-03-22 | Ricoh Company, Ltd. | Keyword associative document retrieval system |
CN105718506A (zh) * | 2016-01-04 | 2016-06-29 | 胡新伟 | 一种科技项目查重对比的方法 |
CN106909609A (zh) * | 2017-01-09 | 2017-06-30 | 北方工业大学 | 确定相似字符串的方法、文件查重的方法及系统 |
CN107341152A (zh) * | 2016-04-28 | 2017-11-10 | 阿里巴巴集团控股有限公司 | 一种参数输入的方法及装置 |
CN109063744A (zh) * | 2018-07-06 | 2018-12-21 | 龙马智芯(珠海横琴)科技有限公司 | 神经网络模型训练方法和商业文件相似度确定方法及系统 |
KR20190015797A (ko) * | 2017-08-07 | 2019-02-15 | 강준철 | 인공지능(ai)을 통한 딥러닝훈련모듈과, 순위화프레임워크모듈을 활용하여, 법률전문가에게 최적화된 모범답안을 제시하는 한편, 법률정보를 의미 벡터로 변환하여, 데이터베이스에 저장하고, 이에 대한 문자열 사전모듈을 활용한 온라인 법률정보사전을 제공하는 시스템 및 그 방법 |
CN109522392A (zh) * | 2018-10-11 | 2019-03-26 | 平安科技(深圳)有限公司 | 基于语音的检索方法、服务器及计算机可读存储介质 |
CN110059851A (zh) * | 2019-03-08 | 2019-07-26 | 平安科技(深圳)有限公司 | 基于深度学习的预测数据变化的方法、装置和计算机设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6766316B2 (en) * | 2001-01-18 | 2004-07-20 | Science Applications International Corporation | Method and system of ranking and clustering for document indexing and retrieval |
US8812493B2 (en) * | 2008-04-11 | 2014-08-19 | Microsoft Corporation | Search results ranking using editing distance and document information |
US20150332169A1 (en) * | 2014-05-15 | 2015-11-19 | International Business Machines Corporation | Introducing user trustworthiness in implicit feedback based search result ranking |
CN107133202A (zh) * | 2017-06-01 | 2017-09-05 | 北京百度网讯科技有限公司 | 基于人工智能的文本校验方法和装置 |
-
2019
- 2019-10-14 CN CN201910972950.3A patent/CN110941743B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5297042A (en) * | 1989-10-05 | 1994-03-22 | Ricoh Company, Ltd. | Keyword associative document retrieval system |
CN105718506A (zh) * | 2016-01-04 | 2016-06-29 | 胡新伟 | 一种科技项目查重对比的方法 |
CN107341152A (zh) * | 2016-04-28 | 2017-11-10 | 阿里巴巴集团控股有限公司 | 一种参数输入的方法及装置 |
CN106909609A (zh) * | 2017-01-09 | 2017-06-30 | 北方工业大学 | 确定相似字符串的方法、文件查重的方法及系统 |
KR20190015797A (ko) * | 2017-08-07 | 2019-02-15 | 강준철 | 인공지능(ai)을 통한 딥러닝훈련모듈과, 순위화프레임워크모듈을 활용하여, 법률전문가에게 최적화된 모범답안을 제시하는 한편, 법률정보를 의미 벡터로 변환하여, 데이터베이스에 저장하고, 이에 대한 문자열 사전모듈을 활용한 온라인 법률정보사전을 제공하는 시스템 및 그 방법 |
CN109063744A (zh) * | 2018-07-06 | 2018-12-21 | 龙马智芯(珠海横琴)科技有限公司 | 神经网络模型训练方法和商业文件相似度确定方法及系统 |
CN109522392A (zh) * | 2018-10-11 | 2019-03-26 | 平安科技(深圳)有限公司 | 基于语音的检索方法、服务器及计算机可读存储介质 |
CN110059851A (zh) * | 2019-03-08 | 2019-07-26 | 平安科技(深圳)有限公司 | 基于深度学习的预测数据变化的方法、装置和计算机设备 |
Non-Patent Citations (2)
Title |
---|
A Short Text Similarity Algorithm for Finding Similar Police 110 Incidents;Lei Duan,Tongge Xu;《2016 7th International Conference on Cloud Computing and Big Data》;全文 * |
相关反馈中动态权重算法的研究及应用;文立;《中国优秀硕士学位论文全文数据库》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110941743A (zh) | 2020-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021017721A1 (zh) | 智能问答方法、装置、介质及电子设备 | |
CN108897842B (zh) | 计算机可读存储介质及计算机系统 | |
CN108875040B (zh) | 词典更新方法及计算机可读存储介质 | |
CN110321925B (zh) | 一种基于语义聚合指纹的文本多粒度相似度比对方法 | |
JP3041268B2 (ja) | 中国語誤り検査(cec)システム | |
CN101449271B (zh) | 通过搜索进行注释 | |
CN110457672B (zh) | 关键词确定方法、装置、电子设备及存储介质 | |
CN110837550A (zh) | 基于知识图谱的问答方法、装置、电子设备及存储介质 | |
US8606779B2 (en) | Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof | |
CN110941698B (zh) | 一种基于bert下卷积神经网络的服务发现方法 | |
CN110110225B (zh) | 基于用户行为数据分析的在线教育推荐模型及构建方法 | |
CN108027814B (zh) | 停用词识别方法与装置 | |
CN106202032A (zh) | 一种面向微博短文本的情感分析方法及其系统 | |
CN112115716A (zh) | 一种基于多维词向量下文本匹配的服务发现方法、系统及设备 | |
CN110727769B (zh) | 语料库生成方法及装置、人机交互处理方法及装置 | |
CN106649262B (zh) | 一种社交媒体中企业硬件设施敏感信息防护方法 | |
CN110941743B (zh) | 一种基于深度学习算法自动实现字段权重分配的科技项目查重方法 | |
US20080140707A1 (en) | System and method for clustering using indexes | |
CN111143400B (zh) | 一种全栈式检索方法、系统、引擎及电子设备 | |
CN109857886B (zh) | 一种基于极小极大值博弈理论视图逼近的三维模型检索方法 | |
CN108197295B (zh) | 基于多粒度属性树的属性约简在文本分类中的应用方法 | |
US20220179890A1 (en) | Information processing apparatus, non-transitory computer-readable storage medium, and information processing method | |
CN110941638A (zh) | 应用分类规则库构建方法、应用分类方法及装置 | |
KR20220068462A (ko) | 지식 그래프 생성 방법 및 장치 | |
CN112417091A (zh) | 一种文本检索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |