CN110888920B - 一种项目功能相似度的确定方法及装置 - Google Patents
一种项目功能相似度的确定方法及装置 Download PDFInfo
- Publication number
- CN110888920B CN110888920B CN201911243153.8A CN201911243153A CN110888920B CN 110888920 B CN110888920 B CN 110888920B CN 201911243153 A CN201911243153 A CN 201911243153A CN 110888920 B CN110888920 B CN 110888920B
- Authority
- CN
- China
- Prior art keywords
- text
- length
- project
- similarity
- description
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种项目功能相似度的确定方法及装置,通过获得待分析项目的第一项目文件,提取所述第一项目文件中的项目功能的第一描述文本,其中,所述第一描述文本的文本长度为第一文本长度,对预设项目文件库中的至少一个项目文件的项目功能的第二描述文本:根据所述第一文本长度和所述第二描述文本的第二文本长度,确定文本相似度计算方式,使用确定的所述文本相似度计算方式计算所述第二描述文本与所述第一描述文本的文本相似度,大大减少了人工在查重待分析项目时的工作量,降低了人工的主观性判断的影响,提高了对项目文件的查重效率以及降低了人工查重时重复立项的发生概率。
Description
技术领域
本发明涉及文本相似度计算领域,尤其涉及一种项目功能相似度的确定方法及装置。
背景技术
目前,很多公司为提高自主创新能力,加大了对各类新技术项目的开发力度,使得项目的立项数量随之大量增加。
但是,大量项目的查重过程主要由人工进行,工作量大、查重效率低和主观性强等这些因素均会导致重复立项的发生,造成对资源的极大浪费。
发明内容
鉴于上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的项目功能相似度的确定方法及装置,技术方案如下:
一种项目功能相似度的确定方法,所述方法包括:
获得待分析项目的第一项目文件;
提取所述第一项目文件中的项目功能的第一描述文本,其中,所述第一描述文本的文本长度为第一文本长度;
对预设项目文件库中的至少一个项目文件的项目功能的第二描述文本:根据所述第一文本长度和所述第二描述文本的第二文本长度,确定文本相似度计算方式;使用确定的所述文本相似度计算方式计算所述第二描述文本与所述第一描述文本的文本相似度。
可选的,在所述使用确定的所述文本相似度计算方式计算所述第二描述文本与所述第一描述文本的文本相似度之后,所述方法还包括:
根据所述文本相似度确定所述第一项目文件与所述至少一个项目文件的项目功能相似度。
可选的,所述第一描述文本为第一项目功能的描述文本,所述第二描述文本为第二项目功能的描述文本。
所述根据所述文本相似度确定所述第一项目文件与所述至少一个项目文件的项目功能相似度,包括:
根据所述文本相似度确定所述第一项目功能与所述第二项目功能的功能相似度;
根据确定的所述功能相似度确定所述第一项目文件与所述至少一个项目文件的项目功能相似度。
可选的,所述提取所述第一项目文件中的项目功能的第一描述文本,包括:
在所述第一项目文件中查找预设的项目功能关键词;
根据查找到的所述预设的项目功能关键词在所述第一项目文件中的文本位置,从所述第一项目文件中提取第一项目功能对应的第一描述文本,其中,所述第一项目功能与查找到的所述预设的项目功能关键词匹配。
可选的,所述提取所述第一项目文件中的项目功能的第一描述文本,包括:
在所述第一项目文件中查找预设的描述文本关键词;
根据查找到的所述预设的描述文本关键词在所述第一项目文件中的文本位置,从所述第一项目文件中提取项目功能的第一描述文本。
可选的,所述根据所述第一文本长度和所述第二描述文本的第二文本长度,确定文本相似度计算方式,包括:
如果所述第一文本长度和所述第二描述文本的第二文本长度均小于第一预设长度,则确定文本相似度计算方式为第一计算方式;
和/或,如果所述第一文本长度小于第一预设长度且所述第二描述文本的第二文本长度大于第二预设长度,则将所述第一描述文本与所述第二描述文本的文本相似度确定为0;其中,所述第二预设长度大于所述第一预设长度;
和/或,如果所述第一文本长度小于所述第一预设长度,且所述第二描述文本的长度不小于所述第一预设长度且不大于所述第二预设长度,则确定文本相似度计算方式为第二计算方式。
可选的,所述根据所述第一文本长度和所述第二描述文本的第二文本长度,确定文本相似度计算方式,包括:
如果所述第一文本长度不小于所述第一预设长度且小于所述第二预设长度,且所述第二文本长度小于所述第一预设长度,则确定文本相似度计算方式为所述第二计算方式;
和/或,如果所述第一文本长度不小于所述第一预设长度且小于所述第二预设长度,且所述第二文本长度不小于所述第一预设长度,则确定文本相似度计算方式为所述第二计算方式。
可选的,所述根据所述第一文本长度和所述第二描述文本的第二文本长度,确定文本相似度计算方式,包括:
如果所述第一文本长度不小于所述第二文本长度,且所述第二文本长度小于所述第一文本长度,则将所述第一描述文本与所述第二描述文本的文本相似度确定为0;
和/或,如果所述第一文本长度不小于所述第二文本长度,且所述第二文本长度不小于所述第一文本长度,则确定文本相似度计算方式为所述第二计算方式。
一种项目功能相似度的确定装置,所述装置包括:第一获得单元、第一提取单元和相似度确定单元,其中:
所述第一获得单元,用于获得待分析项目的第一项目文件;
所述第一提取单元,用于提取所述第一项目文件中的项目功能的第一描述文本,其中,所述第一描述文本的文本长度为第一文本长度;
所述相似度确定单元,用于对预设项目文件库中的至少一个项目文件的项目功能的第二描述文本:根据所述第一文本长度和所述第二描述文本的第二文本长度,确定文本相似度计算方式;使用确定的所述文本相似度计算方式计算所述第二描述文本与所述第一描述文本的文本相似度。
可选的,所述装置还包括:第一确定单元,所述第一确定单元用于:
在所述使用确定的所述文本相似度计算方式计算所述第二描述文本与所述第一描述文本的文本相似度之后,根据所述文本相似度确定所述第一项目文件与所述至少一个项目文件的项目功能相似度。
可选的,所述第一描述文本为第一项目功能的描述文本,所述第二描述文本为第二项目功能的描述文本,所述第一确定单元具体包括:第二确定单元和第三确定单元,其中:
所述第二确定单元,用于在所述使用确定的所述文本相似度计算方式计算所述第二描述文本与所述第一描述文本的文本相似度之后,根据所述文本相似度确定所述第一项目功能与所述第二项目功能的功能相似度;
所述第三确定单元,用于根据确定的所述功能相似度确定所述第一项目文件与所述至少一个项目文件的项目功能相似度。
可选的,所述第一提取单元具体包括:第一查找单元和第二提取单元,其中:
所述第一查找单元,用于在所述第一项目文件中查找预设的项目功能关键词;
所述第二提取单元,用于根据查找到的所述预设的项目功能关键词在所述第一项目文件中的文本位置,从所述第一项目文件中提取第一项目功能对应的第一描述文本,其中,所述第一项目功能与查找到的所述预设的项目功能关键词匹配。
可选的,所述第一提取单元具体包括:第二查找单元和第三提取单元,其中:
所述第二查找单元,用于在所述第一项目文件中查找预设的描述文本关键词;
所述第三提取单元,用于根据查找到的所述预设的描述文本关键词在所述第一项目文件中的文本位置,从所述第一项目文件中提取项目功能的第一描述文本。
可选的,所述相似度确定单元,具体用于:
对预设项目文件库中的至少一个项目文件的项目功能的第二描述文本:如果所述第一文本长度和所述第二描述文本的第二文本长度均小于第一预设长度,则确定文本相似度计算方式为第一计算方式,和/或,如果所述第一文本长度小于第一预设长度且所述第二描述文本的第二文本长度大于第二预设长度,则将所述第一描述文本与所述第二描述文本的文本相似度确定为0,其中,所述第二预设长度大于所述第一预设长度,和/或,如果所述第一文本长度小于所述第一预设长度,且所述第二描述文本的长度不小于所述第一预设长度且不大于所述第二预设长度,则确定文本相似度计算方式为第二计算方式;使用确定的所述文本相似度计算方式计算所述第二描述文本与所述第一描述文本的文本相似度。
可选的,所述相似度确定单元,具体用于:
对预设项目文件库中的至少一个项目文件的项目功能的第二描述文本:如果所述第一文本长度不小于所述第一预设长度且小于所述第二预设长度,且所述第二文本长度小于所述第一预设长度,则确定文本相似度计算方式为所述第二计算方式,和/或,如果所述第一文本长度不小于所述第一预设长度且小于所述第二预设长度,且所述第二文本长度不小于所述第一预设长度,则确定文本相似度计算方式为所述第二计算方式;使用确定的所述文本相似度计算方式计算所述第二描述文本与所述第一描述文本的文本相似度。
可选的,所述相似度确定单元,具体用于:
对预设项目文件库中的至少一个项目文件的项目功能的第二描述文本:如果所述第一文本长度不小于所述第二文本长度,且所述第二文本长度小于所述第一文本长度,则将所述第一描述文本与所述第二描述文本的文本相似度确定为0,和/或,如果所述第一文本长度不小于所述第二文本长度,且所述第二文本长度不小于所述第一文本长度,则确定文本相似度计算方式为所述第二计算方式;使用确定的所述文本相似度计算方式计算所述第二描述文本与所述第一描述文本的文本相似度。
本发明提供的项目功能相似度的确定方法及装置,通过获得待分析项目的第一项目文件,提取所述第一项目文件中的项目功能的第一描述文本,其中,所述第一描述文本的文本长度为第一文本长度,对预设项目文件库中的至少一个项目文件的项目功能的第二描述文本:根据所述第一文本长度和所述第二描述文本的第二文本长度,确定文本相似度计算方式,使用确定的所述文本相似度计算方式计算所述第二描述文本与所述第一描述文本的文本相似度,建立项目文件库,基于待分析项目的项目文件中关于项目功能的关键词,在项目文件库中查找相似的文本内容,根据文本长度确定文本相似度计算方式,确定在文本相似度计算过程中文本相似度超过文本相似度阈值的各个第一描述文本与相应的第二描述文本,并将确定的各第一描述文本与相应的第二描述文本的相关信息输出,以供人工进行查重,为人工在待分析项目文件中排除了大量与项目功能查重无关的文本内容,且在待分析项目文件中提取出与已立项项目文件的项目功能的描述文本的文本相似度较高的描述文本,人工只需通过查看这些文本相似度较高的描述文本即可完成查重,大大减少了人工在查重待分析项目时的工作量,降低了人工的主观性判断的影响,提高了对项目文件的查重效率以及降低了人工查重时重复立项的发生概率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了一种项目功能相似度的确定方法的流程图;
图2示出了另一种项目功能相似度的确定方法的流程图;
图3示出了另一种项目功能相似度的确定方法的流程图;
图4示出了另一种项目功能相似度的确定方法的流程图;
图5示出了一种项目功能相似度的确定方法的装置示意图;
图6示出了另一种项目功能相似度的确定方法的装置示意图;
图7示出了另一种项目功能相似度的确定方法的装置示意图;
图8示出了另一种项目功能相似度的确定方法的装置示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
如图1所示,本实施例提出了一种项目功能相似度的确定方法,所述方法包括以下步骤:
S10、获得待分析项目的第一项目文件;
其中,待分析项目可以是与电网技术相关的研究项目,也可以是其它行业的研究项目,如石油技术、通信技术等,本发明对此不做限定。
其中,项目文件为待分析项目的相关文件,如可行性研究报告、技术规范书、项目说明书和项目规划书等。
其中,项目文件的类型可以是文档、图像文件和语音文件等,本发明对此不做限定。
S20、提取所述第一项目文件中的项目功能的第一描述文本,其中,所述第一描述文本的文本长度为第一文本长度;
其中,项目功能可以为项目文件的研究目的(待实现的功能),例如,在供电局的缴费应用程序项目(即为待分析项目)中,该项目的项目文件的项目功能可以为电费查询和缴纳电费等。
其中,项目功能的第一描述文本即为项目文件中与研究目的关联度较高的内容,如具体技术领域、研究目的、实现研究目的所采用的具体技术手段等,而涉及项目背景、项目意义等内容通常与研究目的关联度较小。
需要说明的是,当项目文件的文件格式为不可提取文本内容的文件格式时,本发明可以先行将其文件格式转换为可提取文本内容的文档,之后再在该项目文件中提取项目功能的第一描述文本,例如,当项目文件的文件格式为语音文件时,可以使用语音转文字技术将语音文件转换为可以直接提取文本的txt文件格式的文档;再例如,当项目文件为被加密的txt文档时,可以先行对该文档解密,之后再提取文件中的文本。
其中,第一描述文本中的文字可以为汉字。
其中,项目文件中的项目功能可以是一个,也可以是多个;每个项目功能的第一描述文本的个数可以是一个,也可以是多个,本发明对此均不做限定。
可选的,本发明可以根据由技术人员预设的关于项目功能的关键词,先行在项目文件中搜索及定位相关的文本内容。之后,本发明可以在定位到的文本内容中,将每一句话均作为与该项目功能的关键词匹配的一个第一描述文本,也可以将两句话或者多句话作为一个第一描述文本;或者,本发明可以将每一段落均作为一个第一描述文本,也可以将两个或者多个段落作为一个第一描述文本,本发明对于每个第一描述文本中包含的语句个数或段落文本个数均不做限定。
具体的,本发明可以通过识别文本内容中的句号,来判定各句话开始及结束的位置,进而进行提取;本发明也可以通过识别文本内容中的分段符号,来判定各段落开始及结束的位置,进而进行提取。当然,本发明可以使用其它的标点符号作为判定每句话或每个段落开始及结束的位置,本发明对此不做限定。
其中,文本长度为文本中汉字字数的个数,例如,文本内容为“电网负荷的削峰填谷”的文本长度为九个,文本内容为“继电器”的文本内容为三个。
S30、对预设项目文件库中的至少一个项目文件的项目功能的第二描述文本:根据所述第一文本长度和所述第二描述文本的第二文本长度,确定文本相似度计算方式;使用确定的所述文本相似度计算方式计算所述第二描述文本与所述第一描述文本的文本相似度。
其中,预设项目文件库中的项目文件为已立项项目的项目文件,本发明可以收集已立项项目的项目文件来建立该项目文件库。
具体的,本发明可以根据各已立项项目的项目文件的项目功能,预设相应的关于项目功能的关键词,之后根据关键词在相应的项目文件中对项目功能的相关文本进行搜索、定位及提取。之后,本发明可以将从各已立项项目的项目文件中提取到的项目功能的文本作为项目文件库中的样本文本。
其中,本发明中第二描述文本的个数可以是一个,也可以是多个。
具体的,在计算两个描述文本的文本相似度时,本发明可以先行根据两个描述文本的文本长度的类型(包括长语句、短语句和正常长度语句),来确定文本相似度计算方式,以提高文本相似度的计算准确性。
具体的,本发明可以设置第一预设长度和第二预设长度(第二预设长度大于第一预设长度),通过描述文本的文本长度与第一预设长度和第二预设长度的关系来确定描述文本的文本长度的类型。例如,当描述文本的文本长度小于第一预设长度时,本发明可以认为该描述文本为短语句;当描述文本的文本长度不小于第一预设长度且小于第二预设长度时,本发明可以认为该描述文本的文本长度为正常长度语句;当描述文本的文本长度不小于第二预设长度时,本发明可以认为该描述文本的文本长度为长语句。
具体的,在进行文本相似度计算之前,本发明应当将第一描述文本与第二描述文本转换为词向量。
具体的,本发明在建立项目文件库时,可以先行将库内的样本文本进行词向量转换。其中,库内既可以同时保存样本文本及样本文本的词向量。
具体的,项目文件库内保存的每条样本文本及其词向量可以使用标记进行区分,如{已立项项目文件的名称:样本文本,样本文本处于项目文件中的段落数}该种标记方式,其中,样本文本为已立项项目文件中的文本内容。
具体的,本发明在进行词向量转换过程中,可以使用中文分词技术、去除停用词技术和建立word2vec词向量模型的技术。其中,本发明可以根据具体的应用业务场景,对词向量模型进行针对性的训练,如将具体业务场景中的专业词汇输入词向量模型进行训练,调整模型内部的相关参数,将模型训练至具有一定的转换准确性。需要说明的是,本发明可以使用训练后的词向量模型对第一描述文本进行词向量转换。
可选的,文本相似度计算方式可以是word2vec算法,也可以是差异化比较算法,本发明对此不做限定。
具体的,本发明可以根据两个描述文本的文本长度的类型,确定文本相似度阈值(若两个描述文本的文本相似度大于该阈值,则认为该两个描述文本的文本相似度高)。其中,即使文本相似度计算方式相同,相应的文本相似度阈值也可能是不同的。例如,当两者均为正常长度语句,或者当两个描述文本中一个描述文本为正常语句而另一个描述文本为短语句时,本发明均确定word2vec算法作为文本相似度计算方式,但是,两种情况所设置的文本相似度阈值不同,前者为第一文本相似度阈值,后者为第二文本相似度阈值。
具体的,本发明可以设置文本相似度阈值,并通过比较第一描述文本与第二描述文本的文本相似度与文本相似度阈值的大小关系,来判断该第一描述文本的文本相似度是否较高。
具体的,本发明在进行一个项目功能的文本相似度的计算过程中,当该项目功能的某个第一描述文本与项目文件库中的任一个第二描述文本的文本相似度超过文本相似度阈值时,本发明即可将该第一描述文本的相关信息输出。
可选的,本发明输出的与第一描述文本的相关信息可以包括:该第一描述文本的文本内容、所在项目文件的名称和所在项目文件中的位置(可以是段落),相应的第二描述文本的文本内容、所在项目文件的名称和所在项目文件中的位置,该第一描述文本与该第二描述文本的文本相似度的值等信息。
具体的,本发明可以通过表格来记录所有在文本相似度计算过程中超过文本相似度阈值的第一描述文本的相关信息,且可以将该表格输出至技术人员,以使得人工可以便利的查看和对比文本相似度较高的各第一描述文本与相应的第二描述文本,以及判断相应的项目功能点的相似度。
本实施例提出的项目功能相似度的确定方法,通过获得待分析项目的第一项目文件,提取所述第一项目文件中的项目功能的第一描述文本,其中,所述第一描述文本的文本长度为第一文本长度,对预设项目文件库中的至少一个项目文件的项目功能的第二描述文本:根据所述第一文本长度和所述第二描述文本的第二文本长度,确定文本相似度计算方式,使用确定的所述文本相似度计算方式计算所述第二描述文本与所述第一描述文本的文本相似度,建立项目文件库,基于待分析项目的项目文件中关于项目功能的关键词,在项目文件库中查找相似的文本内容,根据文本长度确定文本相似度计算方式,确定在文本相似度计算过程中文本相似度超过文本相似度阈值的各个第一描述文本与相应的第二描述文本,并将确定的各第一描述文本与相应的第二描述文本的相关信息输出,以供人工进行查重,为人工在待分析项目文件中排除了大量与项目功能查重无关的文本内容,且在待分析项目文件中提取出与已立项项目文件的项目功能的描述文本的文本相似度较高的描述文本,人工只需通过查看这些文本相似度较高的描述文本即可完成查重,大大减少了人工在查重待分析项目时的工作量,降低了人工的主观性判断的影响,提高了对项目文件的查重效率以及降低了人工查重时重复立项的发生概率。
基于图1所示方法,本实施例提出了另一种项目功能相似度的确定方法,如图2所示,在步骤S30之后,所述方法还包括:
S40、根据所述文本相似度确定所述第一项目文件与所述至少一个项目文件的项目功能相似度。
需要说明的是,当待分析项目为已立项项目时,待分析项目会存在至少一个项目文件会与项目文件库中的一个项目文件的相似度高。
具体的,本发明可以通过项目文件间的项目功能相似度计算,来确定项目文件间的相似度,进而判断待分析项目是否为已立项项目。
可选的,所述第一描述文本为第一项目功能的描述文本,所述第二描述文本为第二项目功能的描述文本,步骤S40可以具体包括:
根据所述文本相似度确定所述第一项目功能与所述第二项目功能的功能相似度;
根据确定的所述功能相似度确定所述第一项目文件与所述至少一个项目文件的项目功能相似度。
其中,第一项目功能可以有多个第一描述文本,第二项目功能也可以有多个第二描述文本。
具体的,本发明可以将第一项目功能中的各第一描述文本,依次与第二项目功能的各第二描述文本进行文本相似度计算,获得各第一描述文本与各第二描述文本间的文本相似度。
具体的,本发明可以对获得的各第一描述文本与各第二描述文本间的文本相似度进行整合计算,来确定第一项目功能与第二项目功能间的功能相似度。例如,第一项目功能有三个第一描述文本,第二项目功能有五个第二描述文本,经过文本相似度计算可以获得十五个文本相似度,本发明可以计算这十五个文本相似度的平均值,并将该平均值作为第一项目功能与第二项目功能间的功能相似度。需要说明的是,本发明对于整合计算的方式(如平均值计算)不做限定。
具体的,对于待分析项目的某个项目文件,本发明在确定该项目文件中各个项目功能与项目文件库中某个项目文件的各项目功能的功能相似度之后,可以经过对确定的各功能相似度进行整合计算,并将整合计算得到的值确定该两个项目文件的项目功能相似度。
具体的,当确定的待分析项目的某个项目文件与项目文件库中某个项目文件的项目功能相似度超过预设的项目功能相似度阈值时,可以判定该两个项目文件的相似度较高,进而判定待分析项目与该项目文件的相似度较高而属于已立项项目。
其中,项目功能相似度阈值可以由技术人员根据实际情况进行制定,本发明对此不做限定。
还需要说明的是,本发明可以应用于执行步骤S10、S20、S30及S40的电子设备,这样,电子设备可以判定待立项项目是否为已立项项目。这样,待立项项目的查重行为可以由电子设备进行,而避免了人工的查重行为,进而也避免了人工查重会导致的高重复立项的发生。
本实施例提出的项目功能相似度的确定方法,可以应用于电子设备,实现自动查重待分析项目,避免人工查重会导致的高重复立项的发生,提高查重效率和节省了对资源的使用。
基于图1所示方法,本实施例提出了另一种项目功能相似度的确定方法,在该方法中,所述根据所述第一文本长度和所述第二描述文本的第二文本长度,确定文本相似度计算方式,可以包括:
如果所述第一文本长度和所述第二描述文本的第二文本长度均小于第一预设长度,则确定文本相似度计算方式为第一计算方式;
和/或,如果所述第一文本长度小于第一预设长度且所述第二描述文本的第二文本长度大于第二预设长度,则将所述第一描述文本与所述第二描述文本的文本相似度确定为0;其中,所述第二预设长度大于所述第一预设长度;
和/或,如果所述第一文本长度小于所述第一预设长度,且所述第二描述文本的长度不小于所述第一预设长度且不大于所述第二预设长度,则确定文本相似度计算方式为第二计算方式。
可选的,所述根据所述第一文本长度和所述第二描述文本的第二文本长度,确定文本相似度计算方式,可以包括:
如果所述第一文本长度不小于所述第一预设长度且小于所述第二预设长度,且所述第二文本长度小于所述第一预设长度,则确定文本相似度计算方式为所述第二计算方式;
和/或,如果所述第一文本长度不小于所述第一预设长度且小于所述第二预设长度,且所述第二文本长度不小于所述第一预设长度,则确定文本相似度计算方式为所述第二计算方式;
可选的,所述根据所述第一文本长度和所述第二描述文本的第二文本长度,确定文本相似度计算方式,可以包括:
如果所述第一文本长度不小于所述第二文本长度,且所述第二文本长度小于所述第一文本长度,则将所述第一描述文本与所述第二描述文本的文本相似度确定为0;
和/或,如果所述第一文本长度不小于所述第二文本长度,且所述第二文本长度不小于所述第一文本长度,则确定文本相似度计算方式为所述第二计算方式。
需要说明的是,若不考虑文本长度,只采用单一文本相似度计算方式和文本相似度阈值的话,文本相似度计算的整体准确性将大大降低。
其中,第一预设长度和第二预设长度均可以由技术人员根据文本相似度计算方式的具体特征进行制定,本发明对此不做限定。
具体的,当描述文本的文本长度小于第一预设长度时,本发明可以认为该描述文本为短语句;当描述文本的文本长度不小于第一预设长度且小于第二预设长度时,本发明可以认为该描述文本的文本长度为正常长度语句;当描述文本的文本长度不小于第二预设长度时,本发明可以认为该描述文本的文本长度为长语句。
需要说明的是,当进行文本相似度计算的两个描述文本中,一个为长语句而另一个为短语句,本发明可以认为该文本相似度计算无意义,即将两者的文本相似度直接确定为0。
其中,第一计算方式为word2vec算法,第二计算方式为差异化比较算法。
具体的,本发明在采用的word2vec算法时,计算模型可以是连续词袋模型(CBOW,Continuous Bag-of-Words Model),也可以是跳字模型,即Skip-Gram模型。
具体的,本发明在采用上述任一种计算方式时,均可以设置相应的文本相似度阈值,以判断第一描述文本和第二描述文本的相似程度。
其中,每种计算方式对应的文本相似度阈值均可以由技术人员根据实际情况进行制定,本发明对此不做限定。其中,各个文本相似度阈值之间的数值可以是不同的,也可以是相同的。
其中,当计算出的文本相似度大于文本相似度阈值时,本发明可以认为第一描述文本和第二描述文本的相似度高。
本实施例提出的项目功能相似度的确定方法,根据第一描述文本与第二描述文本的文本长度来确定具体的文本相似度计算方式,可以提高文本相似度计算结果的准确性,进而可以提高判断待分析项目是否为已立项项目的准确性。
基于图1所示方法,本实施例提出了另一种项目功能相似度的确定方法,如图3所示,在该方法中,步骤S20可以具体包括:
S21、在所述第一项目文件中查找预设的项目功能关键词;
S22、根据查找到的所述预设的项目功能关键词在所述第一项目文件中的文本位置,从所述第一项目文件中提取第一项目功能对应的第一描述文本,其中,所述第一项目功能与查找到的所述预设的项目功能关键词匹配。
其中,项目功能关键词为在具体应用场景中、第一项目文件中的专业词汇,例如,在电网技术领域中,专业词汇包括有电网负荷的削峰填谷、继电保护等。
需要说明的是,本发明设置项目功能关键词应当与项目功能相匹配,例如,在项目功能为降低继电器故障率时,项目功能关键词可以包括继电器、继电器故障率等,再例如,当项目功能为电网负荷控制优化时,项目功能关键词可以包括削峰填谷、频率稳定和储能系统等。
具体的,本发明可以将项目功能关键词作为搜索词来搜索及定位相关的文本内容,对定位到的文本内容进行提取以作为项目功能的描述文本。
具体的,本发明可以将项目功能关键词所处句子作为项目功能的描述文本,当然,本发明也可以将包括所处句子在内的相邻的几个句子或者所在段落等文本内容作为项目功能的描述文本。
本实施例提出的项目功能相似度的确定方法,通过项目功能关键词的设置来获得匹配项目功能的描述文本,以确保获得能够更准确的表征项目文件功能的描述文本,进而提高对待分析项目文件是否为已立项项目的判断准确性和查重效率。
基于图1所示实施例,本发明提供了另一种项目功能相似度的确定方法,如图4所示,在该方法中,步骤S20可以具体包括:
S23、在所述第一项目文件中查找预设的描述文本关键词;
S24、根据查找到的所述预设的描述文本关键词在所述第一项目文件中的文本位置,从所述第一项目文件中提取项目功能的第一描述文本。
其中,描述文本关键词为表征某段文本内容的概括词语,如业务需求、项目内容、建设内容、需求内容、业务建设方案、项目建设方案、项目方案和研究目的等词语,该类词语在项目文件中均会存在。本发明可以根据具体应用场景中项目文件中各部分内容的概括词的撰写习惯,来设置具体的描述文本关键词。
需要说明的是,与描述文本关键词匹配的文本内容,通常为描述文本关键词所在段落的下一段或多段的文本内容。因此,本发明可以在搜索及定位到该描述文本关键词之后,对在该关键词所在段落的下一段或多段的文本内容进行提取,并作为该项目功能的描述文本。
本实施例提出的项目功能相似度的确定方法,通过描述文本关键词的设置,来搜索匹配项目功能的描述文本,以确保获得能够更准确表征项目文件功能的描述文本,进而提高对待分析项目文件是否为已立项项目的判断准确性和查重效率。
与图1所示方法相对应,本实施例提出了一种项目功能相似度的确定装置,如图5所示,所述装置可以包括:第一获得单元10、第一提取单元20和相似度确定单元30,其中:
所述第一获得单元10,用于获得待分析项目的第一项目文件;
其中,待分析项目可以是与电网技术相关的研究项目,也可以是其它行业的研究项目,本发明对此不做限定。
其中,项目文件为待分析项目的相关文件。
其中,项目文件的类型可以是文档、图像文件和语音文件等。
所述第一提取单元20,用于提取所述第一项目文件中的项目功能的第一描述文本,其中,所述第一描述文本的文本长度为第一文本长度;
其中,项目功能可以为项目文件的研究目的。
其中,项目功能的第一描述文本即为项目文件中与研究目的关联度较高的内容。
其中,第一描述文本中的文字可以为汉字。
其中,项目文件中的项目功能可以是一个,也可以是多个;每个项目功能的第一描述文本的个数可以是一个,也可以是多个,本发明对此均不做限定。
可选的,本发明可以根据由技术人员预设的关于项目功能的关键词,先行在项目文件中搜索及定位相关的文本内容。之后,本发明可以在定位到的文本内容中,将每一句话均作为与该项目功能的关键词匹配的一个第一描述文本,也可以将两句话或者多句话作为一个第一描述文本;或者,本发明可以将每一段落均作为一个第一描述文本,也可以将两个或者多个段落作为一个第一描述文本,本发明对于每个第一描述文本中包含的语句个数或段落文本个数均不做限定。
其中,文本长度为文本中汉字字数的个数。
所述相似度确定单元30,用于对预设项目文件库中的至少一个项目文件的项目功能的第二描述文本:根据所述第一文本长度和所述第二描述文本的第二文本长度,确定文本相似度计算方式;使用确定的所述文本相似度计算方式计算所述第二描述文本与所述第一描述文本的文本相似度。
其中,预设项目文件库中的项目文件为已立项项目的项目文件,本发明可以收集已立项项目的项目文件来建立该项目文件库。
具体的,本发明可以根据各已立项项目的项目文件的项目功能,预设相应的关于项目功能的关键词,之后根据关键词在相应的项目文件中对项目功能的相关文本进行搜索、定位及提取。之后,本发明可以将从各已立项项目的项目文件中提取到的项目功能的文本作为项目文件库中的样本文本。
其中,本发明中第二描述文本的个数可以是一个,也可以是多个。
具体的,在计算两个描述文本的文本相似度时,本发明可以先行根据两个描述文本的文本长度的类型,来确定文本相似度计算方式,以提高文本相似度的计算准确性。
具体的,本发明可以设置第一预设长度和第二预设长度,通过描述文本的文本长度与第一预设长度和第二预设长度的关系来确定描述文本的文本长度的类型。
具体的,在进行文本相似度计算之前,本发明应当将第一描述文本与第二描述文本转换为词向量。
具体的,本发明在建立项目文件库时,可以先行将库内的样本文本进行词向量转换。其中,库内既可以同时保存样本文本及样本文本的词向量。
具体的,项目文件库内保存的每条样本文本及其词向量可以使用标记进行区分。
具体的,本发明在进行词向量转换过程中,可以使用中文分词技术、去除停用词技术和建立word2vec词向量模型的技术。
可选的,文本相似度计算方式可以是word2vec算法,也可以是差异化比较算法,本发明对此不做限定。
具体的,本发明可以根据两个描述文本的文本长度的类型,确定文本相似度阈值。其中,即使文本相似度计算方式相同,相应的文本相似度阈值也可能是不同的。
具体的,本发明可以设置文本相似度阈值,并通过比较第一描述文本与第二描述文本的文本相似度与文本相似度阈值的大小关系,来判断该第一描述文本的文本相似度是否较高。
具体的,本发明在进行一个项目功能的文本相似度的计算过程中,当该项目功能的某个第一描述文本与项目文件库中的任一个第二描述文本的文本相似度超过文本相似度阈值时,本发明即可将该第一描述文本的相关信息输出。
具体的,本发明可以通过表格来记录所有在文本相似度计算过程中超过文本相似度阈值的第一描述文本的相关信息,且可以将该表格输出至技术人员,以使得人工可以便利的查看和对比文本相似度较高的各第一描述文本与相应的第二描述文本,以及判断相应的项目功能点的相似度。
本实施例提出的项目功能相似度的确定装置,可以大大减少人工在查重待分析项目时的工作量,降低人工的主观性判断的影响,提高对项目文件的查重效率以及降低了人工查重时重复立项的发生概率。
基于图5所示装置,本实施例还提出了另一种项目功能相似度的确定装置,如图6所示,所述装置还可以包括:第一确定单元40,所述第一确定单元40用于:
在所述使用确定的所述文本相似度计算方式计算所述第二描述文本与所述第一描述文本的文本相似度之后,根据所述文本相似度确定所述第一项目文件与所述至少一个项目文件的项目功能相似度。
需要说明的是,当待分析项目为已立项项目时,待分析项目会存在至少一个项目文件会与项目文件库中的一个项目文件的相似度高。
具体的,本发明可以通过项目文件间的项目功能相似度计算,来确定项目文件间的相似度,进而判断待分析项目是否为已立项项目。
可选的,所述第一描述文本可以为第一项目功能的描述文本,所述第二描述文本可以为第二项目功能的描述文本,所述第一确定单元40可以具体包括:第二确定单元和第三确定单元,其中:
所述第二确定单元,用于在所述使用确定的所述文本相似度计算方式计算所述第二描述文本与所述第一描述文本的文本相似度之后,根据所述文本相似度确定所述第一项目功能与所述第二项目功能的功能相似度;
所述第三确定单元,用于根据确定的所述功能相似度确定所述第一项目文件与所述至少一个项目文件的项目功能相似度。
其中,第一项目功能可以有多个第一描述文本,第二项目功能也可以有多个第二描述文本。
具体的,本发明可以将第一项目功能中的各第一描述文本,依次与第二项目功能的各第二描述文本进行文本相似度计算,获得各第一描述文本与各第二描述文本间的文本相似度。
具体的,本发明可以对获得的各第一描述文本与各第二描述文本间的文本相似度进行整合计算,来确定第一项目功能与第二项目功能间的功能相似度。
具体的,对于待分析项目的某个项目文件,本发明在确定该项目文件中各个项目功能与项目文件库中某个项目文件的各项目功能的功能相似度之后,可以经过对确定的各功能相似度进行整合计算,并将整合计算得到的值确定该两个项目文件的项目功能相似度。
具体的,当确定的待分析项目的某个项目文件与项目文件库中某个项目文件的项目功能相似度超过预设的项目功能相似度阈值时,可以判定该两个项目文件的相似度较高,进而判定待分析项目与该项目文件的相似度较高而属于已立项项目。
其中,项目功能相似度阈值可以由技术人员根据实际情况进行制定,本发明对此不做限定。
还需要说明的是,本发明可以应用于设置有第一获得单元10、第一提取单元20、相似度确定单元30和第一确定单元40的电子设备,这样,电子设备可以判定待立项项目是否为已立项项目。这样,待立项项目的查重行为可以由电子设备进行,而避免了人工的查重行为,进而也避免了人工查重会导致的高重复立项的发生。
本实施例提出的项目功能相似度的确定装置,可以应用于电子设备,实现自动查重待分析项目,避免人工查重会导致的高重复立项的发生,提高查重效率和节省了对资源的使用。
基于图5所示装置,本实施例还提出了另一种项目功能相似度的确定装置,在该装置中,所述相似度确定单元30,可以具体用于:
对预设项目文件库中的至少一个项目文件的项目功能的第二描述文本:如果所述第一文本长度和所述第二描述文本的第二文本长度均小于第一预设长度,则确定文本相似度计算方式为第一计算方式,和/或,如果所述第一文本长度小于第一预设长度且所述第二描述文本的第二文本长度大于第二预设长度,则将所述第一描述文本与所述第二描述文本的文本相似度确定为0,其中,所述第二预设长度大于所述第一预设长度,和/或,如果所述第一文本长度小于所述第一预设长度,且所述第二描述文本的长度不小于所述第一预设长度且不大于所述第二预设长度,则确定文本相似度计算方式为第二计算方式;使用确定的所述文本相似度计算方式计算所述第二描述文本与所述第一描述文本的文本相似度。
可选的,所述相似度确定单元30,还可以具体用于:
对预设项目文件库中的至少一个项目文件的项目功能的第二描述文本:如果所述第一文本长度不小于所述第一预设长度且小于所述第二预设长度,且所述第二文本长度小于所述第一预设长度,则确定文本相似度计算方式为所述第二计算方式,和/或,如果所述第一文本长度不小于所述第一预设长度且小于所述第二预设长度,且所述第二文本长度不小于所述第一预设长度,则确定文本相似度计算方式为所述第二计算方式;使用确定的所述文本相似度计算方式计算所述第二描述文本与所述第一描述文本的文本相似度。
可选的,所述相似度确定单元30,还具体用于:
对预设项目文件库中的至少一个项目文件的项目功能的第二描述文本:如果所述第一文本长度不小于所述第二文本长度,且所述第二文本长度小于所述第一文本长度,则将所述第一描述文本与所述第二描述文本的文本相似度确定为0,和/或,如果所述第一文本长度不小于所述第二文本长度,且所述第二文本长度不小于所述第一文本长度,则确定文本相似度计算方式为所述第二计算方式;使用确定的所述文本相似度计算方式计算所述第二描述文本与所述第一描述文本的文本相似度。
需要说明的是,若不考虑文本长度,只采用单一文本相似度计算方式和文本相似度阈值的话,文本相似度计算的整体准确性将大大降低。
其中,第一预设长度和第二预设长度均可以由技术人员根据文本相似度计算方式的具体特征进行制定,本发明对此不做限定。
具体的,当描述文本的文本长度小于第一预设长度时,本发明可以认为该描述文本为短语句;当描述文本的文本长度不小于第一预设长度且小于第二预设长度时,本发明可以认为该描述文本的文本长度为正常长度语句;当描述文本的文本长度不小于第二预设长度时,本发明可以认为该描述文本的文本长度为长语句。
需要说明的是,当进行文本相似度计算的两个描述文本中,一个为长语句而另一个为短语句,本发明可以认为该文本相似度计算无意义,即将两者的文本相似度直接确定为0。
其中,第一计算方式为word2vec算法,第二计算方式为差异化比较算法。
具体的,本发明在采用的word2vec算法时,计算模型可以是CBOW模型,也可以是Skip-Gram模型。
具体的,本发明在采用上述任一种计算方式时,均可以设置相应的文本相似度阈值,以判断第一描述文本和第二描述文本的相似程度。
其中,每种计算方式对应的文本相似度阈值均可以由技术人员根据实际情况进行制定,本发明对此不做限定。其中,各个文本相似度阈值之间的数值可以是不同的,也可以是相同的。
其中,当计算出的文本相似度大于文本相似度阈值时,本发明可以认为第一描述文本和第二描述文本的相似度高。
本实施例提出的项目功能相似度的确定装置,根据第一描述文本与第二描述文本的文本长度来确定具体的文本相似度计算方式,可以提高文本相似度计算结果的准确性,进而可以提高判断待分析项目是否为已立项项目的准确性。
基于图5所示装置,本实施例提出了另一种项目功能相似度的确定装置,如图7所示,在该装置中,所述第一提取单元20可以具体包括:第一查找单元21和第二提取单元22,其中:
所述第一查找单元21,用于在所述第一项目文件中查找预设的项目功能关键词;
所述第二提取单元22,用于根据查找到的所述预设的项目功能关键词在所述第一项目文件中的文本位置,从所述第一项目文件中提取第一项目功能对应的第一描述文本,其中,所述第一项目功能与查找到的所述预设的项目功能关键词匹配。
其中,项目功能关键词为在具体应用场景中、第一项目文件中的专业词汇。
需要说明的是,本发明设置项目功能关键词应当与项目功能相匹配。
具体的,本发明可以将项目功能关键词作为搜索词来搜索及定位相关的文本内容,对定位到的文本内容进行提取以作为项目功能的描述文本。
具体的,本发明可以将项目功能关键词所处句子作为项目功能的描述文本,当然,本发明也可以将包括所处句子在内的相邻的几个句子或者所在段落等文本内容作为项目功能的描述文本。
本实施例提出的项目功能相似度的确定装置,通过项目功能关键词的设置来获得匹配项目功能的描述文本,以确保获得能够更准确的表征项目文件功能的描述文本,进而提高对待分析项目文件是否为已立项项目的判断准确性和查重效率。
基于图5所示装置,本实施例提出了另一种项目功能相似度的确定装置,如图8所示,在该装置中,所述第一提取单元20可以具体包括:第二查找单元23和第三提取单元24,其中:
所述第二查找单元23,用于在所述第一项目文件中查找预设的描述文本关键词;
所述第三提取单元24,用于根据查找到的所述预设的描述文本关键词在所述第一项目文件中的文本位置,从所述第一项目文件中提取项目功能的第一描述文本。
其中,描述文本关键词为表征某段文本内容的概括词语。本发明可以根据具体应用场景中项目文件中各部分内容的概括词的撰写习惯,来设置具体的描述文本关键词。
需要说明的是,与描述文本关键词匹配的文本内容,通常为描述文本关键词所在段落的下一段或多段的文本内容。因此,本发明可以在搜索及定位到该描述文本关键词之后,对在该关键词所在段落的下一段或多段的文本内容进行提取,并作为该项目功能的描述文本。
本实施例提出的项目功能相似度的确定装置,通过描述文本关键词的设置,来搜索匹配项目功能的描述文本,以确保获得能够更准确表征项目文件功能的描述文本,进而提高对待分析项目文件是否为已立项项目的判断准确性和查重效率。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种项目功能相似度的确定方法,其特征在于,所述方法包括:
获得待分析项目的第一项目文件;
提取所述第一项目文件中的项目功能的第一描述文本,其中,所述第一描述文本的文本长度为第一文本长度;
对预设项目文件库中的至少一个项目文件的项目功能的第二描述文本:根据所述第一文本长度和所述第二描述文本的第二文本长度所表示的文本长度的类型,确定文本相似度计算方式;基于所述第一文本长度所表示的文本长度的类型和所述第二文本长度所表示的文本长度的类型确定文本相似度阈值;使用确定的所述文本相似度计算方式计算所述第二描述文本与所述第一描述文本的文本相似度;
基于所述文本相似度和所述文本相似度阈值确定所述第一描述文本和第二描述文本的相似度是否较高;
其中,所述文本长度的类型依次包括:长语句、正常长度语句和短语句;当所述第一描述文本和所述第二描述文本的文本长度的类型均为短语句时,则确定文本相似度计算方式为第一计算方式;当所述第一描述文本和所述第二描述文本的文本长度的类型中存在一个短语句和一个长语句时,则确定文本相似度计算方式为0;否则确定文本相似度计算方式为第二计算方式;所述短语句为文本长度小于第一预设长度的描述文本,所述正常长度语句为文本长度不小于所述第一预设长度且小于第二预设长度的描述文本,所述长语句为文本长度不小于所述第二预设长度的描述文本;所述第一计算方式为word2vec算法,所述第二计算方式为差异化比较算法;
其中,文本相似度计算方式和所述文本相似度阈值并非一一对应。
2.根据权利要求1所述的方法,其特征在于,在所述使用确定的所述文本相似度计算方式计算所述第二描述文本与所述第一描述文本的文本相似度之后,所述方法还包括:
根据所述文本相似度确定所述第一项目文件与所述至少一个项目文件的项目功能相似度。
3.根据权利要求2所述的方法,其特征在于,所述第一描述文本为第一项目功能的描述文本,所述第二描述文本为第二项目功能的描述文本,
所述根据所述文本相似度确定所述第一项目文件与所述至少一个项目文件的项目功能相似度,包括:
根据所述文本相似度确定所述第一项目功能与所述第二项目功能的功能相似度;
根据确定的所述功能相似度确定所述第一项目文件与所述至少一个项目文件的项目功能相似度。
4.根据权利要求1所述的方法,其特征在于,所述提取所述第一项目文件中的项目功能的第一描述文本,包括:
在所述第一项目文件中查找预设的项目功能关键词;
根据查找到的所述预设的项目功能关键词在所述第一项目文件中的文本位置,从所述第一项目文件中提取第一项目功能对应的第一描述文本,其中,所述第一项目功能与查找到的所述预设的项目功能关键词匹配。
5.根据权利要求1所述的方法,其特征在于,所述提取所述第一项目文件中的项目功能的第一描述文本,包括:
在所述第一项目文件中查找预设的描述文本关键词;
根据查找到的所述预设的描述文本关键词在所述第一项目文件中的文本位置,从所述第一项目文件中提取项目功能的第一描述文本。
6.根据权利要求1所述的方法,其特征在于,所述根据所述第一文本长度和所述第二描述文本的第二文本长度所表示的文本长度的类型,确定文本相似度计算方式,包括:
如果所述第一文本长度和所述第二描述文本的第二文本长度均小于第一预设长度,则确定文本相似度计算方式为第一计算方式;
和/或,如果所述第一文本长度小于第一预设长度且所述第二描述文本的第二文本长度大于第二预设长度,则将所述第一描述文本与所述第二描述文本的文本相似度确定为0;其中,所述第二预设长度大于所述第一预设长度;
和/或,如果所述第一文本长度小于所述第一预设长度,且所述第二描述文本的长度不小于所述第一预设长度且不大于所述第二预设长度,则确定文本相似度计算方式为第二计算方式。
7.根据权利要求1所述的方法,其特征在于,所述根据所述第一文本长度和所述第二描述文本的第二文本长度所表示的文本长度的类型,确定文本相似度计算方式,包括:
如果所述第一文本长度不小于所述第一预设长度且小于所述第二预设长度,且所述第二文本长度小于所述第一预设长度,则确定文本相似度计算方式为所述第二计算方式;
和/或,如果所述第一文本长度不小于所述第一预设长度且小于所述第二预设长度,且所述第二文本长度不小于所述第一预设长度,则确定文本相似度计算方式为所述第二计算方式。
8.根据权利要求1所述的方法,其特征在于,所述根据所述第一文本长度和所述第二描述文本的第二文本长度所表示的文本长度的类型,确定文本相似度计算方式,包括:
如果所述第一文本长度不小于所述第二文本长度,且所述第二文本长度小于所述第一文本长度,则将所述第一描述文本与所述第二描述文本的文本相似度确定为0;
和/或,如果所述第一文本长度不小于所述第二文本长度,且所述第二文本长度不小于所述第一文本长度,则确定文本相似度计算方式为所述第二计算方式。
9.一种项目功能相似度的确定装置,其特征在于,所述装置包括:第一获得单元、第一提取单元和相似度确定单元,其中:
所述第一获得单元,用于获得待分析项目的第一项目文件;
所述第一提取单元,用于提取所述第一项目文件中的项目功能的第一描述文本,其中,所述第一描述文本的文本长度为第一文本长度;
所述相似度确定单元,用于对预设项目文件库中的至少一个项目文件的项目功能的第二描述文本:根据所述第一文本长度和所述第二描述文本的第二文本长度所表示的文本长度的类型,确定文本相似度计算方式;基于所述第一文本长度所表示的文本长度的类型和所述第二文本长度所表示的文本长度的类型确定文本相似度阈值;使用确定的所述文本相似度计算方式计算所述第二描述文本与所述第一描述文本的文本相似度;基于所述文本相似度和所述文本相似度阈值确定所述第一描述文本和第二描述文本的相似度是否较高;
其中,所述文本长度的类型依次包括:长语句、正常长度语句和短语句;当所述第一描述文本和所述第二描述文本的文本长度的类型均为短语句时,则确定文本相似度计算方式为第一计算方式;当所述第一描述文本和所述第二描述文本的文本长度的类型中存在一个短语句和一个长语句时,则确定文本相似度计算方式为0;否则确定文本相似度计算方式为第二计算方式;所述短语句为文本长度小于第一预设长度的描述文本,所述正常长度语句为文本长度不小于所述第一预设长度且小于第二预设长度的描述文本,所述长语句为文本长度不小于所述第二预设长度的描述文本;所述第一计算方式为word2vec算法,所述第二计算方式为差异化比较算法;
其中,文本相似度计算方式和所述文本相似度阈值并非一一对应。
10.根据权利要求9所述的装置,其特征在于,所述第一提取单元具体包括:第一查找单元和第二提取单元,其中:
所述第一查找单元,用于在所述第一项目文件中查找预设的项目功能关键词;
所述第二提取单元,用于根据查找到的所述预设的项目功能关键词在所述第一项目文件中的文本位置,从所述第一项目文件中提取第一项目功能对应的第一描述文本,其中,所述第一项目功能与查找到的所述预设的项目功能关键词匹配。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911243153.8A CN110888920B (zh) | 2019-12-06 | 2019-12-06 | 一种项目功能相似度的确定方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911243153.8A CN110888920B (zh) | 2019-12-06 | 2019-12-06 | 一种项目功能相似度的确定方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110888920A CN110888920A (zh) | 2020-03-17 |
CN110888920B true CN110888920B (zh) | 2022-10-11 |
Family
ID=69750894
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911243153.8A Active CN110888920B (zh) | 2019-12-06 | 2019-12-06 | 一种项目功能相似度的确定方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110888920B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115438644B (zh) * | 2022-11-08 | 2023-01-06 | 广州信安数据有限公司 | 一种信息化项目相似度分析方法、存储介质及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718506A (zh) * | 2016-01-04 | 2016-06-29 | 胡新伟 | 一种科技项目查重对比的方法 |
CN106934598A (zh) * | 2017-03-17 | 2017-07-07 | 国网四川省电力公司经济技术研究院 | 电力项目防重复检测方法及装置 |
CN108846031A (zh) * | 2018-05-28 | 2018-11-20 | 同方知网数字出版技术股份有限公司 | 一种面向电力行业的项目相似性对比方法 |
CN109872072A (zh) * | 2019-02-25 | 2019-06-11 | 政和科技股份有限公司 | 一种科技项目自动查重方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020026A (zh) * | 2017-07-19 | 2019-07-16 | 上海互宝能源科技有限责任公司 | 项目申报数据的查重系统及方法 |
CN107967255A (zh) * | 2017-11-08 | 2018-04-27 | 北京广利核系统工程有限公司 | 一种判定文本相似性的方法和系统 |
US11099843B2 (en) * | 2017-12-29 | 2021-08-24 | Microsoft Technology Licensing, Llc | Determining similarity groupings for software development projects |
-
2019
- 2019-12-06 CN CN201911243153.8A patent/CN110888920B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718506A (zh) * | 2016-01-04 | 2016-06-29 | 胡新伟 | 一种科技项目查重对比的方法 |
CN106934598A (zh) * | 2017-03-17 | 2017-07-07 | 国网四川省电力公司经济技术研究院 | 电力项目防重复检测方法及装置 |
CN108846031A (zh) * | 2018-05-28 | 2018-11-20 | 同方知网数字出版技术股份有限公司 | 一种面向电力行业的项目相似性对比方法 |
CN109872072A (zh) * | 2019-02-25 | 2019-06-11 | 政和科技股份有限公司 | 一种科技项目自动查重方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110888920A (zh) | 2020-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108932294B (zh) | 基于索引的简历数据处理方法、装置、设备及存储介质 | |
CN110795919B (zh) | 一种pdf文档中的表格抽取方法、装置、设备及介质 | |
CN110020424B (zh) | 合同信息的提取方法、装置和文本信息的提取方法 | |
CN109726393B (zh) | 一种基于自然语言处理技术的政策分析系统及方法 | |
CN108549697A (zh) | 基于语义关联的信息推送方法、装置、设备以及存储介质 | |
CN111291152A (zh) | 案例文书的推荐方法、装置、设备及存储介质 | |
CN114491034B (zh) | 一种文本分类方法及智能设备 | |
CN110888920B (zh) | 一种项目功能相似度的确定方法及装置 | |
Edwards et al. | Clustering and classification of maintenance logs using text data mining | |
CN114722199A (zh) | 基于通话录音的风险识别方法、装置、计算机设备及介质 | |
CN111062211A (zh) | 信息提取方法、装置、电子设备及存储介质 | |
CN107463679A (zh) | 一种信息推荐方法及装置 | |
CN112069833B (zh) | 日志分析方法、日志分析装置及电子设备 | |
JP5780036B2 (ja) | 抽出プログラム、抽出方法及び抽出装置 | |
CN113642327A (zh) | 一种标准知识库的构建方法及装置 | |
CN116644183B (zh) | 文本分类方法、装置及存储介质 | |
CN117592470A (zh) | 大语言模型驱动的低成本公报数据抽取方法 | |
CN116226681B (zh) | 一种文本相似性判定方法、装置、计算机设备和存储介质 | |
CN114491010A (zh) | 信息抽取模型的训练方法及装置 | |
CN116304012A (zh) | 一种大规模文本聚类方法及装置 | |
CN113987164A (zh) | 一种基于领域事件知识图谱的项目研判方法及装置 | |
CN114117047A (zh) | 一种基于c4.5算法对非法语音进行分类的方法及系统 | |
CN113901793A (zh) | 结合rpa和ai的事件抽取方法及装置 | |
CN112307157B (zh) | 申诉意见挖掘方法和装置 | |
CN112559739A (zh) | 电力设备绝缘状态数据处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |