CN105446954A - 一种面向科技大数据的项目查重方法 - Google Patents

一种面向科技大数据的项目查重方法 Download PDF

Info

Publication number
CN105446954A
CN105446954A CN201510797445.1A CN201510797445A CN105446954A CN 105446954 A CN105446954 A CN 105446954A CN 201510797445 A CN201510797445 A CN 201510797445A CN 105446954 A CN105446954 A CN 105446954A
Authority
CN
China
Prior art keywords
science
project
feature words
word
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510797445.1A
Other languages
English (en)
Other versions
CN105446954B (zh
Inventor
罗亮
林珠
徐迪威
李海威
蔡建新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Science & Technology Infrastructure Center
Original Assignee
Guangdong Science & Technology Infrastructure Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Science & Technology Infrastructure Center filed Critical Guangdong Science & Technology Infrastructure Center
Priority to CN201510797445.1A priority Critical patent/CN105446954B/zh
Publication of CN105446954A publication Critical patent/CN105446954A/zh
Application granted granted Critical
Publication of CN105446954B publication Critical patent/CN105446954B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明是一种面向科技大数据的项目查重方法,该方法根据历年的科技项目立项信息构建领域本体,然后对新申报的项目信息跟已有的项目信息进行相似度比较,进行中文分词、去停用词等一系列操作后,提取出关键特征词汇,对每个文本的关键特征词分别构建最长公共序列并计算特征词的词序因子,将词序因子引入领域本体的概念相似度计算,可得出每个特征词的相似度值进而进行相似度评价从而得出查重结论,本发明方法在现有的中文文本词序相似度计算方法上结合了领域本体处理即语义相似度和时序因子相结合,相似度计算效果将更佳。

Description

一种面向科技大数据的项目查重方法
技术领域
本发明涉及科技项目申请管理方法领域,更具体地,涉及一种面向科技大数据的项目查重方法。
背景技术
科技大数据是指在科技活动中产生的一系列数据,包括科技项目申报数据、科技资源描述数据、科技创新数据等。科技大数据具有数据类型非结构化、数据量庞大等大数据特征,数据来源往往是通过多年积累的跨区域数据,科技项目信息包括申报文本信息、立项合同信息、验收文档信息等,其具有跨领域、强逻辑的特征,面对庞大的数据资源,如果采用传统的中文文本相似度计算方法,将无法提取出贴切的各领域的项目信息,也无法保障进度。同时,科技项目文本信息具有很强的逻辑性,特别是关键技术和研究路线的表达,词与词之间的顺序不同往往代表的研究方法完全不同,所以面对科技项目查重,如果单纯地采用传统的基于统计或者语义的方法将无法达到很好的相似度计算效果。因此,无论是单纯采用专家评估方式,或者采用现阶段的项目查重模型,都无法满足科技大数据的项目查重要求。
发明内容
本发明提供一种面向科技大数据的项目查重方法,该方法基于领域本体和词序特征,通过提取科技项目立项信息数据的特征词汇后得出每个特征词的词序因子引入领域本体中概念相似度计算,根据词序因子和各特征词的相似度值进行统计后将得出文本相似值,从而达到项目查重的目的。
为了达到上述技术效果,本发明的技术方案如下:
一种面向科技大数据的项目查重方法,包括以下步骤:
S1:利用历年的科技项目立项信息数据构建领域本体;
S2:对历年的科技项目立项信息数据进行中文分词后再进行去停用操作,提取出历年的科技项目立项信息数据的特征词,对每一年的科技项目立项信息数据的特征词构建最长公共序列来计算其特征词的词序因子;
S3:对待查重的新申请项目进行中文分词后再进行去停用操作,提取出该项目立项信息数据的特征词,对该项目立项信息数据的特征词构建最长公共序列来计算其特征词的词序因子;
S4:将待查重的新申请项目的词序因子和每一年的科技项目立项信息数据的词序因子引入领域本体中概念相似度计算得出查重结论。
本发明中,根据历年的科技项目立项信息构建领域本体,然后对新申报的项目信息跟已有的项目信息进行相似度比较,进行中文分词、去停用词等一系列操作后,提取出关键特征词汇,对每个文本的关键特征词分别构建最长公共序列并计算特征词的词序因子,将词序因子引入领域本体的概念相似度计算,可得出每个特征词的相似度值进而进行相似度评价从而得出查重结论。
进一步地,所述步骤S2的具体过程如下:
S21:将历年的科技项目立项信息数据组成数据源C={C1,C2……Ci…},读取其中任一数据文本Ci,对数据文本Ci进行中文分词,将得到的分词去停用词,得到向量特征词A=(A1,A2,……,An);
S22:用领域本体对向量A进行词语消歧和同义替换实现文本降维,得到降维后的特征词向量A’=(A’1,A’2,……,A’m),其中m<n;
S23:通过隐马尔可夫模型,计算特征词向量A’的词序因子序列i=(i1,i2,……,jm);
S24:重复步骤S22-S23得到每一年的科技项目立项信息数据的词序因子序列。
进一步地,所述步骤S3的具体过程如下:
S31:将待查重的新申请项目数据进行中文分词,将得到的分词去停用词,得到特征词向量B=(B1,B2,……,Bin);
S32:用领域本体对特征词向量B进行词语消歧和同义替换实现文本降维,得到降维后的特征词向量B’=(B’1,B’2,……,B’im),其中m<n;
S33:通过隐马尔可夫模型,计算特征词向量B’的词序因子序列i=(i1,i2,……,jm)。
进一步地,所述步骤S4的具体过程如下:
将词序因子序列i=(i1,i2,……,jm)和每一年的科技项目立项信息数据的词序因子序列引入领域本体中概念相似度Kl计算,其中l表示年份:
Kl=
其中,为任一年份的科技项目立项信息数据降维后的特征词向量,为待查重的新申请项目数据降维后的特征词向量,的词序因子序列,词序因子序列,是可调节参数,通过两个词序因子的差值计算作为调节参数,为语义相似度,语义相似度指领域本体树中连接两个节点的最短路径所跨的边数。
进一步地,所述步骤S4还包括:
采用hadoop框架对相似度Kl的计算式进行分布式改进,之后设置相似度阀值,将计算出的相似度与阈值进行一一对比,得出查重结论。
与现有技术相比,本发明技术方案的有益效果是:
本发明是一种基于领域本体和词序特征的项目查重方法,根据历年的科技项目立项信息构建领域本体,然后对新申报的项目信息跟已有的项目信息进行相似度比较,进行中文分词、去停用词等一系列操作后,提取出关键特征词汇,对每个文本的关键特征词分别构建最长公共序列并计算特征词的词序因子,将词序因子引入领域本体的概念相似度计算,可得出每个特征词的相似度值进而进行相似度评价从而得出查重结论,本发明方法在现有的中文文本词序相似度计算方法上结合了领域本体处理即语义相似度和时序因子相结合,相似度计算效果将更佳。
附图说明
图1为本发明方法的流程图;
图2为本发明方法在现有技术上的增加技术的示意框图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种面向科技大数据的项目查重方法,包括以下步骤:
S1:利用历年的科技项目立项信息数据构建领域本体;
S2:对历年的科技项目立项信息数据进行中文分词后再进行去停用操作,提取出历年的科技项目立项信息数据的特征词,对每一年的科技项目立项信息数据的特征词构建最长公共序列来计算其特征词的词序因子;
S3:对待查重的新申请项目进行中文分词后再进行去停用操作,提取出该项目立项信息数据的特征词,对该项目立项信息数据的特征词构建最长公共序列来计算其特征词的词序因子;
S4:将待查重的新申请项目的词序因子和每一年的科技项目立项信息数据的词序因子引入领域本体中概念相似度计算得出查重结论。
本发明中,根据历年的科技项目立项信息构建领域本体,然后对新申报的项目信息跟已有的项目信息进行相似度比较,进行中文分词、去停用词等一系列操作后,提取出关键特征词汇,对每个文本的关键特征词分别构建最长公共序列并计算特征词的词序因子,将词序因子引入领域本体的概念相似度计算,可得出每个特征词的相似度值进而进行相似度评价从而得出查重结论,如图2所示,本发明方法在现有的中文文本词序相似度计算方法上增加了领域本体的处理,相似度计算效果将更佳。
进一步地,所述步骤S2的具体过程如下:
S21:将历年的科技项目立项信息数据组成数据源C={C1,C2……Ci…},读取其中任一数据文本Ci,对数据文本Ci进行中文分词,将得到的分词去停用词,得到向量特征词A=(A1,A2,……,An);
S22:用领域本体对向量A进行词语消歧和同义替换实现文本降维,得到降维后的特征词向量A’=(A’1,A’2,……,A’m),其中m<n;
S23:通过隐马尔可夫模型,计算特征词向量A’的词序因子序列i=(i1,i2,……,jm);
S24:重复步骤S22-S23得到每一年的科技项目立项信息数据的词序因子序列。
进一步地,所述步骤S3的具体过程如下:
S31:将待查重的新申请项目数据进行中文分词,将得到的分词去停用词,得到特征词向量B=(B1,B2,……,Bin);
S32:用领域本体对特征词向量B进行词语消歧和同义替换实现文本降维,得到降维后的特征词向量B’=(B’1,B’2,……,B’im),其中m<n;
S33:通过隐马尔可夫模型,计算特征词向量B’的词序因子序列i=(i1,i2,……,jm)。
进一步地,所述步骤S4的具体过程如下:
将词序因子序列i=(i1,i2,……,jm)和每一年的科技项目立项信息数据的词序因子序列引入领域本体中概念相似度Kl计算,其中l表示年份:
Kl=
其中,为任一年份的科技项目立项信息数据降维后的特征词向量,为待查重的新申请项目数据降维后的特征词向量,的词序因子序列,词序因子序列,是可调节参数,通过两个词序因子的差值计算作为调节参数,为语义相似度,语义相似度指领域本体树中连接两个节点的最短路径所跨的边数。
当两个项目概念具有某些共同特征时,则定义它们是相似的,用Kl表示项目之间的概念相似度,间的相似满足以下几点:1、Kl大小满足Kl [0,1];2、如果两个项目完全相同,则Kl=1,当且仅当=;3、如何两个项目没有任何共同特征,则相似度为0,即Kl=0;领域本体中的概念相似性与语义距离相关,语义距离是指本体树中连接两个节点的最短路径所跨的边数;同时是可调节参数,它们是词序因子,通过两个词语的词序因子的差值计算作为调节参数,可见本发明方法实质是语义相似度和时序因子的结合。
步骤S4还包括一步:
采用hadoop框架对相似度Kl的计算式进行分布式改进,之后设置相似度阀值,将计算出的相似度与阈值进行一一对比,得出查重结论。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (5)

1.一种面向科技大数据的项目查重方法,其特征在于,包括以下步骤:
S1:利用历年的科技项目立项信息数据构建领域本体;
S2:对历年的科技项目立项信息数据进行中文分词后再进行去停用操作,提取出历年的科技项目立项信息数据的特征词,对每一年的科技项目立项信息数据的特征词构建最长公共序列来计算其特征词的词序因子;
S3:对待查重的新申请项目进行中文分词后再进行去停用操作,提取出该项目立项信息数据的特征词,对该项目立项信息数据的特征词构建最长公共序列来计算其特征词的词序因子;
S4:将待查重的新申请项目的词序因子和每一年的科技项目立项信息数据的词序因子引入领域本体中概念相似度计算得出查重结论。
2.根据权利要求1所述的面向科技大数据的项目查重方法,其特征在于,所述步骤S2的具体过程如下:
S21:将历年的科技项目立项信息数据组成数据源C={C1,C2……Ci…},读取其中任一数据文本Ci,对数据文本Ci进行中文分词,将得到的分词去停用词,得到向量特征词A=(A1,A2,……,An);
S22:用领域本体对向量A进行词语消歧和同义替换实现文本降维,得到降维后的特征词向量A’=(A’1,A’2,……,A’m),其中m<n;
S23:通过隐马尔可夫模型,计算特征词向量A’的词序因子序列i=(i1,i2,……,jm);
S24:重复步骤S22-S23得到每一年的科技项目立项信息数据的词序因子序列。
3.根据权利要求2所述的面向科技大数据的项目查重方法,其特征在于,所述步骤S3的具体过程如下:
S31:将待查重的新申请项目数据进行中文分词,将得到的分词去停用词,得到特征词向量B=(B1,B2,……,Bin);
S32:用领域本体对特征词向量B进行词语消歧和同义替换实现文本降维,得到降维后的特征词向量B’=(B’1,B’2,……,B’im),其中m<n;
S33:通过隐马尔可夫模型,计算特征词向量B’的词序因子序列i=(i1,i2,……,jm)。
4.根据权利要求3所述的面向科技大数据的项目查重方法,其特征在于,所述步骤S4的具体过程如下:
将词序因子序列i=(i1,i2,……,jm)和每一年的科技项目立项信息数据的词序因子序列引入领域本体中概念相似度Kl计算,其中l表示年份:
Kl=
其中,为任一年份的科技项目立项信息数据降维后的特征词向量,为待查重的新申请项目数据降维后的特征词向量,的词序因子序列,词序因子序列,是可调节参数,通过两个词序因子的差值计算作为调节参数,为语义相似度,语义相似度指领域本体树中连接两个节点的最短路径所跨的边数。
5.根据权利要求4所述的面向科技大数据的项目查重方法,其特征在于,所述步骤S4还包括:
采用hadoop框架对相似度Kl的计算式进行分布式改进,之后设置相似度阀值,将计算出的相似度与阈值进行一一对比,得出查重结论。
CN201510797445.1A 2015-11-18 2015-11-18 一种面向科技大数据的项目查重方法 Active CN105446954B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510797445.1A CN105446954B (zh) 2015-11-18 2015-11-18 一种面向科技大数据的项目查重方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510797445.1A CN105446954B (zh) 2015-11-18 2015-11-18 一种面向科技大数据的项目查重方法

Publications (2)

Publication Number Publication Date
CN105446954A true CN105446954A (zh) 2016-03-30
CN105446954B CN105446954B (zh) 2018-11-30

Family

ID=55557169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510797445.1A Active CN105446954B (zh) 2015-11-18 2015-11-18 一种面向科技大数据的项目查重方法

Country Status (1)

Country Link
CN (1) CN105446954B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649749A (zh) * 2016-12-26 2017-05-10 浙江传媒学院 一种基于汉语音位特征的文本查重方法
CN109165383A (zh) * 2018-08-09 2019-01-08 四川政资汇智能科技有限公司 一种基于云平台的数据汇聚、分析、挖掘与共享方法
CN110928985A (zh) * 2019-10-14 2020-03-27 广西壮族自治区科学技术情报研究所 一种基于深度学习算法自动提取近义词的科技项目查重方法
CN112199938A (zh) * 2020-11-12 2021-01-08 深圳供电局有限公司 一种科技项目相似分析方法、计算机设备、存储介质
CN114780825A (zh) * 2022-04-23 2022-07-22 重庆市小苹果科技有限公司 基于大数据的政务信息化项目的查重管理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207864A (zh) * 2012-01-13 2013-07-17 北京中文在线数字出版股份有限公司 一种网络小说内容近似度比对方法
CN103440314A (zh) * 2013-08-27 2013-12-11 北京工业大学 一种基于Ontology的语义检索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207864A (zh) * 2012-01-13 2013-07-17 北京中文在线数字出版股份有限公司 一种网络小说内容近似度比对方法
CN103440314A (zh) * 2013-08-27 2013-12-11 北京工业大学 一种基于Ontology的语义检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李善青 等: "基于大数据挖掘的科技项目查重模型研究", 《图书馆论坛数字技术》 *
桓乐乐: "基于马尔科夫模型词序因子的文本相似度研究", 《中国优秀硕士学位论文全文数据库,信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649749A (zh) * 2016-12-26 2017-05-10 浙江传媒学院 一种基于汉语音位特征的文本查重方法
CN106649749B (zh) * 2016-12-26 2019-07-16 浙江传媒学院 一种基于汉语音位特征的文本查重方法
CN109165383A (zh) * 2018-08-09 2019-01-08 四川政资汇智能科技有限公司 一种基于云平台的数据汇聚、分析、挖掘与共享方法
CN109165383B (zh) * 2018-08-09 2022-07-12 四川政资汇智能科技有限公司 一种基于云平台的数据汇聚、分析、挖掘与共享方法
CN110928985A (zh) * 2019-10-14 2020-03-27 广西壮族自治区科学技术情报研究所 一种基于深度学习算法自动提取近义词的科技项目查重方法
CN112199938A (zh) * 2020-11-12 2021-01-08 深圳供电局有限公司 一种科技项目相似分析方法、计算机设备、存储介质
CN112199938B (zh) * 2020-11-12 2023-11-14 深圳供电局有限公司 一种科技项目相似分析方法、计算机设备、存储介质
CN114780825A (zh) * 2022-04-23 2022-07-22 重庆市小苹果科技有限公司 基于大数据的政务信息化项目的查重管理方法

Also Published As

Publication number Publication date
CN105446954B (zh) 2018-11-30

Similar Documents

Publication Publication Date Title
Tang et al. Learning semantic representations of users and products for document level sentiment classification
Tian et al. A probabilistic model for learning multi-prototype word embeddings
CN105446954A (zh) 一种面向科技大数据的项目查重方法
Pane et al. A multi-lable classification on topics of quranic verses in english translation using multinomial naive bayes
Huang et al. Data-driven approximation of transfer operators: Naturally structured dynamic mode decomposition
CN103793501B (zh) 基于社交网络的主题社团发现方法
Despalatović et al. Community structure in networks: Girvan-Newman algorithm improvement
van Zelst et al. ILP-Based Process Discovery Using Hybrid Regions.
CN106294859A (zh) 一种基于属性耦合矩阵分解的项目推荐方法
Weng et al. Time-series analysis of networks: Exploring the structure with random walks
Agrawal et al. Improved algorithms and combinatorial bounds for independent feedback vertex set
Ahmad et al. Existence of solutions for fractional q-integro-difference inclusions with fractional q-integral boundary conditions
Korobkin et al. Synthesis of the physical principle of operation of engineering systems in the software environment CPN TOOLS
CN104731773A (zh) 文本情感分析方法及系统
Pilipovic et al. Parameter estimation in nonlinear multivariate stochastic differential equations based on splitting schemes
Ruiz et al. Median activation functions for graph neural networks
Altamimi et al. Gender and authorship categorisation of Arabic text from Twitter using PPM
Szabó et al. Collaborative filtering via group-structured dictionary learning
CN114842247B (zh) 基于特征累加的图卷积网络半监督节点分类方法
Balcan Learning Submodular Functions with Applications to Multi-Agent Systems.
Fakhfakh et al. Formal modeling and verification of a distributed algorithm for constructing maximal cliques in static networks
Trang et al. Kernel ridge regression method applied to speech recognition problem: A novel approach
CN113935387A (zh) 文本相似度的确定方法、装置和计算机可读存储介质
Tao et al. Positive solutions for fractional differential equations from real estate asset securitization via new fixed point theorem
Koh et al. Solution and Stability of Euler‐Lagrange‐Rassias Quartic Functional Equations in Various Quasinormed Spaces

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant