CN112307178A - 基于技术需求和新技术相似度的查询推荐方法 - Google Patents
基于技术需求和新技术相似度的查询推荐方法 Download PDFInfo
- Publication number
- CN112307178A CN112307178A CN202011051622.9A CN202011051622A CN112307178A CN 112307178 A CN112307178 A CN 112307178A CN 202011051622 A CN202011051622 A CN 202011051622A CN 112307178 A CN112307178 A CN 112307178A
- Authority
- CN
- China
- Prior art keywords
- new technology
- technical
- word
- keyword
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005516 engineering process Methods 0.000 title claims abstract description 246
- 238000000034 method Methods 0.000 title claims abstract description 93
- 239000013598 vector Substances 0.000 claims abstract description 46
- 238000004364 calculation method Methods 0.000 claims abstract description 19
- 230000002441 reversible effect Effects 0.000 claims abstract description 15
- 230000011218 segmentation Effects 0.000 claims description 16
- 238000002360 preparation method Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000013459 approach Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000013499 data model Methods 0.000 claims description 4
- 238000012790 confirmation Methods 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 230000036961 partial effect Effects 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 8
- 238000003860 storage Methods 0.000 description 6
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 5
- 229910021389 graphene Inorganic materials 0.000 description 5
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical compound O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 description 4
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 4
- 210000001503 joint Anatomy 0.000 description 4
- 229910052760 oxygen Inorganic materials 0.000 description 4
- 239000001301 oxygen Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 4
- 241000282994 Cervidae Species 0.000 description 3
- 239000008280 blood Substances 0.000 description 3
- 210000004369 blood Anatomy 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 108090000765 processed proteins & peptides Proteins 0.000 description 3
- 235000005979 Citrus limon Nutrition 0.000 description 2
- 244000131522 Citrus pyriformis Species 0.000 description 2
- 244000046052 Phaseolus vulgaris Species 0.000 description 2
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 2
- 229910002092 carbon dioxide Inorganic materials 0.000 description 2
- 239000001569 carbon dioxide Substances 0.000 description 2
- 239000011247 coating layer Substances 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000003912 environmental pollution Methods 0.000 description 2
- 125000002887 hydroxy group Chemical group [H]O* 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000002086 nanomaterial Substances 0.000 description 2
- 239000002957 persistent organic pollutant Substances 0.000 description 2
- 230000001699 photocatalysis Effects 0.000 description 2
- 239000011941 photocatalyst Substances 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- VYPSYNLAJGMNEJ-UHFFFAOYSA-N Silicium dioxide Chemical compound O=[Si]=O VYPSYNLAJGMNEJ-UHFFFAOYSA-N 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000011248 coating agent Substances 0.000 description 1
- 238000000576 coating method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 230000031700 light absorption Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Abstract
基于技术需求和新技术相似度的查询推荐方法,包括:对新技术的标题和成果简介,提取关键词汇句子、提取关键词、统计关键词和对应词频、计算关键词对应的逆向文件频率IDE、计算新技术中关键词的加权词频、根据加权词频由高到低排序,确定提取前KT个新技术关键词。在运用阶段:采用前述方法对技术需求的标题和需求简介进行处理,确定提取前KD个技术需求关键词;确定技术需求与新技术之间的关键词集合,进而确定技术需求与新技术之间的文本向量;进而确定技术需求和新技术之间的词向量;对词向量进行相似度计算;根据相似度由高到低排序,并为用户推荐新技术。本方法能够客观有效为技术需求匹配新技术,匹配度较高,结果较客观。
Description
技术领域
本发明涉及新技术查询推荐技术领域,具体涉及一种基于技术需求和新技术相似度的查询推荐方法。
背景技术
本发明的应用场景是:对于给定技术需求,对新技术进行搜索的场景。技术需求,是客户当前需要解决的技术问题。对于用户给定的技术需求,如何匹配对接新技术,以解决技术需求的对应问题。
依靠计算机从新技术介绍或技术需求的自主介绍,计算技术需求与新技术之间的相似程度,能够从大量的新技术中精准快速的为技术需求匹配相关联的新技术以及相似程度较高的新技术。
在用户提供新技术介绍时,基本上不会提供关键词的介绍,通常需要技术审核人员对其进行人工手动处理,对相应技术的关键词提取、所属技术领域的确认(技术领域是平台规定的领域分类)。人工手动提取关键词,费时费力的同时还受到主观因素、人员本身的技术限制等个方面影响,可能会造成提取的关键词不正确或不完整的情况。对基于关键词的应用造成不良影响。
本发明采用计算技术需求与新技术之间的相似程度的方法,对接技术需求和新技术,提高对接的效率和精确度。
发明内容
本发明的目的是:针对背景技术描述的问题,本发明提供一种基于技术需求和新技术相似度的查询推荐方法,采用计算技术需求与新技术之间的相似程度的方法,对接技术需求和新技术,提高对接的效率和精确度。
为了解决上述问题,本发明所采用的技术方案是:
基于技术需求和新技术相似度的查询推荐方法,其特征在于,包括如下步骤:
(1)准备阶段:新技术数据模型的准备;包括
步骤1.1:对数据库中新技术和用户持续录入的新技术的标题和成果简介,分别提取关键词汇句子;
步骤1.2:对新技术标题和成果简介的关键词汇句子,分别提取关键词;
步骤1.3:统计新技术的关键词和对应词频;
步骤1.4:计算新技术中关键词对应的逆向文件频率IDE;
步骤1.5:计算新技术中关键词的加权词频;
步骤1.6:根据新技术中关键词的加权词频由高到低排序,确定提取前KT个新技术关键词;
(2)运用阶段:根据技术需求匹配推荐新技术;包括:
步骤2.1:对用户输入的技术需求的标题和需求简介,分别提取关键词汇句子;
步骤2.2:对技术需求标题和需求简介的关键词汇句子,分别提取关键词;
步骤2.3:统计技术需求的关键词和对应词频;
步骤2.4:计算技术需求中关键词对应的逆向文件频率IDE;
步骤2.5:计算技术需求中关键词的加权词频;
步骤2.6:根据技术需求中关键词的加权词频,确定提取前KD个技术需求关键词;
步骤2.7:确定技术需求与新技术之间的关键词集合;
步骤2.8:由技术需求和新技术之间的关键词集合,确定技术需求与新技术之间的文本向量;
步骤2.9:根据技术需求与新技术之间的文本向量,确定技术需求和新技术之间的词向量;
步骤2.10:对技术需求与新技术之间的词向量进行相似度计算;
步骤2.11:根据相似度由高到低排序,并为用户推荐新技术。
进一步的,针对(1)准备阶段:对新录入的新技术,需要经过准备阶段的步骤提取关键词,并将其和新技术同时存储在数据库中,为后面的计算提供依据;对已经存在数据库的新技术和关键词信息,则无需每次经过以上步骤进行重复计算,只需要在词库发生变化时,定期进行更新即可。
进一步的,所述步骤1.1:提取关键词汇句子,具体方法包括:利用结巴分词的分词模块函数,基于基本词库、停用词库,对新技术成果简介进行分词,保留部分词性的词语,作为下一步新技术成果简介的描述;保留的词性包括名词、动名词、英语、语素词;对于去掉的词性,具有可提取的意义时,采用两种方式对词库进行修改补充:(1)修改词性:对词语在词库中的词性,进行修改,定义词性为vnmd,作为专属提取词语;(2)添加词性:对于新技术各个领域的专有名词,添加到新建词性为mnmd的词性库中,对应词频设置为当前基本词库中的最大词频+1;步骤2.1的提取关键词汇句子的方法与步骤1.1的方法相同。
进一步的,所述步骤1.2:对新技术标题和成果简介的关键词汇句子,提取关键词,具体方法包括:利用结巴分词的分词模型函数,增加专属名词库、停用词库,对步骤1.1提取的关键词汇句子进行分词,积累新技术在各个领域当中的专属名词或术语,对基本词库或专属名词库进行补充;对于停用词库的补充,只对步骤1.2的停用词库进行补充;对于步骤1.1中未筛选成功的词语,添加到停用词库中,对这部分词语不添加在成功分词的词语当中;步骤2.2的对技术需求标题和需求简介的关键词汇句子,提取关键词的方法与步骤1.2的方法相同。
进一步的,所述步骤1.3:统计新技术的关键词和对应词频,具体方法包括:
对于步骤1.2中提取成功分词的词语,进行统计对应词语的词频;
在新技术关键词提取中,对新技术的标题和成果简介分别进行提取关键词;
新技术中关键词词频的最终确认方法为:
Fkey=δ×Ftkey+Fckey,δ≥1
其中,Fkey表示关键词key的最终词频,Ftkey表示关键词key在新技术标题中出现的次数,Fckey表示关键词key在技术需求内容中出现的次数,δ表示Ftkey的权重值,即关键词key在标题中出现的重要性要大于或等于关键词key在内容中出现的重要性;在只有新技术标题时,Fckey=0;只有新技术成果简介时,Ftkey=0;
步骤2.3的统计技术需求的关键词和对应词频的方法与步骤1.3的方法相同,区别仅在于技术需求中的默认无标题,只存在技术需求简介信息。
进一步的,所述步骤1.4:计算新技术中关键词对应的逆向文件频率IDE,具体方法包括:
其中,Ekey,表示关键词key的逆向文件频率;∑keys∈keyT,表示技术需求训练集中提取的关键词集合keys中带有关键词key的技术需求总数,+1是为了防止分母为0的情况出现;N,表示技术需求的总数;Ekey越高,说明该词的区分性越强,Ekey越低,说明该词的区分度越低;
其中通过IDE的计算,能够补充停用词汇的词库,关键词的IDE越趋近0,则该关键词对描述的区分性越差,即能够通过IDE的值,判断该词作为停用词汇的可能性,IDE越小,越趋近0,则该词作为停用词汇的可能性越大。
所述步骤2.4计算技术需求中关键词对应的逆向文件频率IDE的方法与步骤1.4的方法相同。
进一步的,所述步骤1.5:计算新技术中关键词的加权词频,具体方法包括:
FEkey=Fkey×Ekey
其中,FEkey,是关键词key的加权词频;
所述步骤2.5计算技术需求中关键词的加权词频的方法与步骤1.5的方法相同。
进一步的,所述步骤1.6:根据新技术中关键词的加权词频由高到低排序,确定提取前KT个新技术关键词,具体方法包括:
根据关键词的加权词频进行由大到小排序,提取前KT个关键词,作为新技术的关键词;
所述步骤2.6根据技术需求中关键词的加权词频由高到低排序,确定提取前KD个技术需求关键词与步骤1.6的方法相同。
进一步的,所述步骤2.7:确定技术需求与新技术之间的关键词集合,具体方法包括:
通过关键词提取;假设用户给定的技术需求提取的关键词集合为:
D=[d1,d2,…,di,…,dm],1≤i≤m,0≤m≤KD
其中,D为由技术需求提取的关键词集合;di,表示技术需求的第i个关键词;m,表示技术需求中提取的实际关键词个数;
新技术提取的关键词集合为:
T=[T1,T2,…,Ti,…,TN]T,1≤i≤N
其中,T,为新技术关键词集合;Ti,为第i个技术关键词的集合;N为新技术的数量;
Ti=[ti1,ti2,…,tij,…,tin],1≤j≤n,1≤n≤KT
其中,tij,表示第i个新技术的第j个关键词;n,表示第i个技术需求提取的实际关键词个数;
所述步骤2.8:由技术需求和新技术之间的关键词集合,确定技术需求与新技术之间的文本向量,具体方法包括:
V=[V1,V2,…,Vi,…,VN]T,1≤i≤N
Vi=D∪Ti=[vi1,vi2,…,vij,…,vis],1≤j≤s,1≤s≤KT+KD
其中,V,是技术需求与新技术进行相似度计算的词向量矩阵;Vi,是技术需求与第i个新技术之间的词向量,是技术需求提取的关键词与第i个新技术Ti的提取的关键词的并集;
所述步骤2.9:根据技术需求与新技术之间的文本向量,确定技术需求和新技术之间的词向量,具体方法包括:
技术需求D与新技术Ti,词向量的表示为:
VDi=[vdi1,vdi2,…,vdij,…,vdis],1≤j≤s,vdij={0,1}
VTi=[vti1,vti2,…,vtij,…,vtis],1≤j≤s,vtij={0,1}
其中,VDi表示,在技术需求D和新技术Ti前提下,技术需求的词向量,当技术需求中存在关键词vij时,对应的vdij=1;当技术需求中不存在关键词vij时,对应的vdij=0;VTi表示,在技术需求D和新技术Ti前提下,新技术Ti的词向量,当新技术Ti中存在关键词vij时,对应的vtij=1;当新技术Ti中不存在关键词vij时,对应的vtij=0。
进一步的,所述步骤2.10:对技术需求与新技术之间的词向量进行相似度计算,具体方法包括:
S=[S1,S2,…,Si,…,SN]
其中,S,表示技术需求与新技术的相似度矩阵;Si,表示技术需求与第i个新技术的相似度值,由计算公式可知0≤Si≤1;Si的值越接近1,说明新技术与技术需求之间的相似程度越高;Si的值越接近0,说明新技术与技术需求之间的相似度程度越低;
所述步骤2.11:根据相似度由高到低排序,并为用户推荐新技术,具体方法包括:
根据相似度矩阵S,由大到小排序,该排列顺序,即为该技术需求查询新技术时,新技术显示的排列顺序;排序越靠前的新技术与技术需求之间的相似程度越高,即该新技术越符合技术需求的要求;排序越靠后的新技术与技术需求之间的相似程度越低,即该新技术越不符合技术需求的要求。
本发明实施例提供的上述技术方案的有益效果至少包括:本发明的基于技术需求和新技术相似度的查询推荐方法的有益效果包括:
(1)能够客观有效为技术需求匹配新技术,匹配度提高,匹配结果较为客观。
(2)为新技术的查询推荐,降低对停用词的敏感性,不单纯依赖于平台标签,解决技术领域跨度较多的新技术的搜索问题。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例公开的基于技术需求和新技术相似度的查询推荐方法的流程图。
具体实施例
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供一种基于技术需求和新技术相似度的查询推荐方法,所述查询推荐方法分为两个阶段,准备阶段和运用阶段。准备阶段:新技术数据模型的准备;运用阶段:根据技术需求匹配推荐新技术。各阶段主要包括如下步骤:
(1)准备阶段:新技术数据模型的准备
步骤1.1:对数据库中新技术和用户持续录入的新技术的标题和成果简介,分别提取关键词汇句子。
步骤1.2:对新技术标题和成果简介的关键词汇句子,分别提取关键词。
步骤1.3:统计新技术的关键词和对应词频。
步骤1.4:计算新技术中关键词对应的逆向文件频率(IDE)。
步骤1.5:计算新技术中关键词的加权词频。
步骤1.6:根据新技术中关键词的加权词频由高到低排序,确定提取前KT个新技术关键词。
注意:对新录入的新技术,需要经过以上步骤提取关键词等,并将其和新技术同时存储在数据库中,为后面的计算提供依据。对已经存在数据库的新技术和关键词等信息,无需每次经过以上步骤进行重复计算,只需要在词库发生变化时,定期进行更新即可。
(2)运用阶段:根据技术需求匹配推荐新技术
步骤2.1:对用户输入的技术需求的标题和需求简介,分别提取关键词汇句子。
步骤2.2:对技术需求标题和需求简介的关键词汇句子,分别提取关键词。
步骤2.3:统计技术需求的关键词和对应词频。
步骤2.4:计算技术需求中关键词对应的逆向文件频率(IDE)。
步骤2.5:计算技术需求中关键词的加权词频。
步骤2.6:根据技术需求中关键词的加权词频,确定提取前KD个技术需求关键词。
步骤2.7:确定技术需求与新技术之间的关键词集合。
步骤2.8:由技术需求和新技术之间的关键词集合,确定技术需求与新技术之间的文本向量。
步骤2.9:根据技术需求与新技术之间的文本向量,确定技术需求和新技术之间的词向量。
步骤2.10:对技术需求与新技术之间的词向量进行相似度计算。
步骤2.11:根据相似度由高到低排序,并为用户推荐新技术。
下面结合具体实施例对本发明提供的基于技术需求和新技术相似度的查询推荐方法进行详细说明:
步骤一:对新技术标题、成果简介和技术需求的标题、需求简介,提取关键词汇句子。下面以新技术成果简介为例进行说明(对应于步骤1.1,步骤2.1的方法与之相同)。
利用结巴分词的分词模块函数jieba.posseg.cut(),基于基本词库(基本词库中包含词语、词频、词性)、停用词库(筛选掉一部分无用的且在保留词性的词语),对新技术成果简介进行分词,保留部分词性的词语,作为下一步新技术成果简介的描述进行使用。保留的词性包括,名词、动名词、英语、语素词等。
其中对于某些去掉的词性中,仅有几个多较少的词语,具有可提取的意义时,两种方式对词库进行修改补充。
(1)修改词性:对词语在词库中的词性,进行修改,定义词性为vnmd(柠檬豆平台动词专属),作为专属提取词语。如,制造,原词性为动词,而大部分动词不具备描述技术需求的能力,但小部分如制造这类的动词词语,能够描述行业,制造行业的一个词语,因此将此类词语修改词性为vnmd。
(2)添加词性:对于技术需求各个领域的专有名词,利用基础词库进行分割时,分割过于分散,如鹿血肽,利用带有词性属性的词库进行分词时,原始词性分词为:鹿,名词n;血,名词n;肽,名词性语素ng。将鹿血肽,添加到新建词性为mnmd(柠檬豆平台医药专属)的词性库中,对应词频设置为当前基本词库中的最大词频+1,以保证当前新添词语在结巴分词计算时在成词的概率较高,增强歧义纠错能力。
举例:
原始描述:光触媒是一种具有光催化功能的光半导体无机纳米材料,是当前国际上治理室内环境污染的最理想材料。当受到光线照射时,其内部由于吸收光能而激发产生电子,并迅速激活表面吸附的水和氧,产生活性自由氢氧基和活性氧,将空气中的有机污染物彻底氧化分解为无污染的水和二氧化碳,从而达到净化空气的目的。
提取关键词汇句子:光触媒是光催化功能光半导体无机纳米材料,治理环境污染理想材料。光线时,光能产生电子,表面吸附水和氧,产生活性氢氧基和活性氧,空气有机污染物氧化分解水和二氧化碳,净化空气。
步骤二:对新技术标题、成果简介以及技术需求的标题、需求简介的关键词汇句子,提取关键词(对应于步骤1.2以及步骤2.2)。以新技术成果简介关键词句子为例进行说明。
利用结巴分词的分词模型函数jieba.cut(),增加专属名词库、停用词库,对步骤一提取的新技术成果简介的关键词汇句子进行分词,在实际应用过程中,积累在新技术涉及到的各个领域当中的专属名词或术语,对基本词库或专属名词库进行补充;对于停用词库的补充,只对步骤二的停用词库进行补充即可。对于步骤一中未筛选成功的词语,添加到停用词库中,对这部分词语不添加在成功分词的词语当中。
举例:
关键词汇句子:石墨烯快速制备技术
提取的关键词:石墨烯、制备
步骤三:统计新技术或技术需求的关键词词频,以新技术为例进行说明(对应于步骤1.3,步骤2.3的方法与之相同)。
对于步骤二中新技术标题和成果简介中提取成功分词的词语,进行统计对应词语的词频。
在新技术关键词提取中,对新技术的标题和成果简介分别进行提取关键词。新技术中关键词词频的最终确认方法为:
Fkey=δ×Ftkey+Fckey,δ≥1
其中,Fkey表示关键词key的最终词频,Ftkey表示关键词key在技术需求标题中出现的次数,Fckey表示关键词key在技术需求内容中出现的次数,δ表示Ftkey的权重值(即关键词key在标题中出现的重要性要大于或等于关键词key在内容中出现的重要性),暂定δ=2,后期根据使用情况,对δ进行适当调整。在只有新技术标题时,Fckey=0;只有新技术成果简介时,Ftkey=0。技术需求中的默认无标题,只存在新技术需求描述简介信息。(注意:新技术的关键词个数与技术需求的关键词提取个数,根据各自的需求,进行各自设定。设定的标准是:由专家根据提取的关键词情况,普遍前KT个关键词即能准确描述新技术时,则该数值即为新技术关键词的提取个数。技术需求同理。)
举例:
步骤四:计算新技术或技术需求中关键词对应的逆向文件频率(IDE)(对应于步骤1.4以及步骤2.4)。
IDE,一个词语普遍重要性的度量。能够在一定程度上,减小停用词库的压力。其中,Ekey,表示关键词key的逆向文件频率;∑keys∈keyT,表示技术需求训练集中提取的关键词集合keys中带有关键词key的技术需求总数,+1是为了防止分母为0的情况出现;N,表示技术需求的总数。Ekey越高,说明该词的区分性越强,Ekey越低,说明该词的区分度越低。
举例:
假设下表中的关键词,技术数量为出现当前关键词的新技术的数量,总数为当前数据库中的新技术总数,计算对应的IDE如下表所示。
关键词 | 技术数量 | 总数 | IDE |
原子能 | 10 | 1000 | 4.51 |
应用 | 200 | 1000 | 1.60 |
课题 | 800 | 1000 | 0.22 |
项目 | 900 | 1000 | 0.10 |
其中通过IDE的计算,可以补充停用词汇的词库,关键词的IDE越趋近0,则该关键词对描述的区分性越差,即可以通过IDE的值,判断该词作为停用词汇的可能性,IDE越小,越趋近0,则该词作为停用词汇的可能性越大。
步骤五:计算新技术或技术需求的关键词的加权词频,以计算新技术的关键词的加权词频为例(对应于步骤1.5,步骤2.5的方法与之相同)。
FFkey=Fkey×Ekey
其中,FEkey,是关键词key的加权词频,加权词频计算方式,能够在一定程度上,过滤掉常见的词语,保留重要的词语。缓解停用词库的压力,减弱常用词的权重,加强专有名词或区分性词语的权重。
举例:
假设关键词对应的词频、和其对应的IDE值,同时给出关键词的加权词频,如下表所示:
关键词 | 词频 | IDE | 加权词频 |
原子能 | 0.25 | 4.51 | 1.1275 |
应用 | 0.2 | 1.60 | 0.32 |
项目 | 0.2 | 0.22 | 0.044 |
步骤六:根据新技术或技术需求的加权词频由高到低排序,确定最终提取关键词(对应于步骤1.6以及步骤2.6)。
根据关键词的加权词频进行由大到小排序,提取前K个关键词,作为新技术或技术需求的关键词。其中,新技术提取的关键词个数由KT表示,技术需求提取的关键词个数由KD表示。暂定KT=10,KD=10,根据应用情况,对KT和KD进行恰当的调整,以获得更加精准的描述新技术或技术需求的关键词。
步骤七:技术需求和新技术之间的相似度计算。
(1)确定技术需求与新技术之间的关键词集合(对应于步骤2.7)。
通过关键词提取。假设用户给定的技术需求提取的关键词集合为:
D=[d1,d2,…,di,…,dm],1≤i≤m,0≤m≤KD
其中,D为由技术需求提取的关键词集合;di,表示技术需求的第i个关键词;m,表示技术需求中提取的实际关键词个数。
新技术提取的关键词集合为:
T=[T1,T2,…,Ti,…,TN]T,1≤i≤N
其中,T,为新技术关键词集合;Ti,为第i个技术关键词的集合;N为新技术的数量。
Ti=[ti1,ti2,…,tij,…,tin],1≤j≤n,1≤n≤KT
其中,tij,表示第i个新技术的第j个关键词;n,表示第i个技术需求提取的实际关键词个数。
(2)由技术需求和新技术之间的关键词集合,确定技术需求与新技术之间的文本向量(对应于步骤2.8)。
V=[V1,V2,…,Vi,…,VN]T,1≤i≤N
Vi=D∪Ti=[vi1,vi2,…,vij,…,vis],1≤j≤s,1≤s≤KT+KD
其中,V,是技术需求与新技术进行相似度计算的词向量矩阵;Vi,是技术需求与第i个新技术之间的词向量,是技术需求提取的关键词与第i个新技术Ti的提取的关键词的并集。
(3)根据技术需求与新技术之间的文本向量,确定技术需求和新技术之间的词向量(对应于步骤2.9)。
技术需求D与新技术Ti,词向量的表示为:
VDi=[vdi1,vdi2,…,vdij,…,vdis],1≤j≤s,vdij={0,1}
VTi=[vti1,vti2,…,vtij,…,vtis],1≤j≤s,vtij={0,1}
其中,VDi表示,在技术需求D和新技术Ti前提下,技术需求的词向量,当技术需求中存在关键词vij时,对应的vdij=1;当技术需求中不存在关键词vij时,对应的vdij=0。VTi表示,在技术需求D和新技术Ti前提下,新技术Ti的词向量,当新技术Ti中存在关键词vij时,对应的vtij=1;当新技术Ti中不存在关键词vij时,对应的vtij=0。
(4)对技术需求与新技术之间的词向量进行相似度计算(对应于步骤2.10)。
S=[S1,S2,…,Si,…,SN]
其中,S,表示技术需求与新技术的相似度矩阵;Si,表示技术需求与第i个新技术的相似度值,由计算公式可知0≤Si≤1。Si的值越接近1,说明新技术与技术需求之间的相似程度越高;Si的值越接近0,说明新技术与技术需求之间的相似度程度越低。
(5)根据相似度由高到低排序,并为用户推荐新技术(对应于步骤2.11)。
根据相似度矩阵S,由大到小排序,该排列顺序,即为该技术需求查询新技术时,新技术显示的排列顺序。排序越靠前的新技术与技术需求之间的相似程度越高,即该新技术越符合技术需求的要求;排序越靠后的新技术与技术需求之间的相似程度越低,即该新技术越不符合技术需求的要求。
举例:新技术和技术需求之间的相似度计算:
(1)假设技术需求的关键词为:
技术需求为:我需要一种用于家电的石墨烯涂层。
提取关键词为:
1 | 2 | 3 | |
关键词 | 家电 | 石墨烯 | 涂层 |
(2)新技术1和技术需求的文本向量为:
1 | 2 | 3 | 4 | 5 | 6 |
石英玻璃 | 石墨烯 | 涂层 | 发热 | 加热 | 家电 |
新技术2和技术需求的文本向量为:
(3)新技术1和技术需求的词向量为:
VD1=[1,1,1,1,1,1],D1=[0,1,1,0,0,1]
新技术2和技术需求的词向量为:
VD2=[1,1,1,1,1,1,1,0,0],D2=[1,0,0,0,0,0,0,1,1]
(4)新技术1和技术需求的相似度:
新技术2和技术需求的相似度:
即,新技术1和技术需求的相似度高,新技术2和技术需求的相似度低,在相似度排序推荐时,新技术1的位置靠前,首先为用户推荐。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
本领域技术人员还应当理解,结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性,上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件,取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用,以变通的方式实现所描述的功能,但是,这种实现决策不应解释为背离本公开的保护范围。
结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然,处理器和存储介质也可以作为分立组件存在于用户终端中。
对于软件实现,本申请中描述的技术可用执行本申请所述功能的模块(例如,过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内,也可以实现在处理器外,在后一种情况下,它经由各种手段以通信方式耦合到处理器,这些都是本领域中所公知的。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
Claims (10)
1.基于技术需求和新技术相似度的查询推荐方法,其特征在于,包括如下步骤:
(1)准备阶段:新技术数据模型的准备;包括
步骤1.1:对数据库中新技术和用户持续录入的新技术的标题和成果简介,分别提取关键词汇句子;
步骤1.2:对新技术标题和成果简介的关键词汇句子,分别提取关键词;
步骤1.3:统计新技术的关键词和对应词频;
步骤1.4:计算新技术中关键词对应的逆向文件频率IDE;
步骤1.5:计算新技术中关键词的加权词频;
步骤1.6:根据新技术中关键词的加权词频由高到低排序,确定提取前KT个新技术关键词;
(2)运用阶段:根据技术需求匹配推荐新技术;包括:
步骤2.1:对用户输入的技术需求的标题和需求简介,分别提取关键词汇句子;
步骤2.2:对技术需求标题和需求简介的关键词汇句子,分别提取关键词;
步骤2.3:统计技术需求的关键词和对应词频;
步骤2.4:计算技术需求中关键词对应的逆向文件频率IDE;
步骤2.5:计算技术需求中关键词的加权词频;
步骤2.6:根据技术需求中关键词的加权词频,确定提取前KD个技术需求关键词;
步骤2.7:确定技术需求与新技术之间的关键词集合;
步骤2.8:由技术需求和新技术之间的关键词集合,确定技术需求与新技术之间的文本向量;
步骤2.9:根据技术需求与新技术之间的文本向量,确定技术需求和新技术之间的词向量;
步骤2.10:对技术需求与新技术之间的词向量进行相似度计算;
步骤2.11:根据相似度由高到低排序,并为用户推荐新技术。
2.如权利要求1所述的基于技术需求和新技术相似度的查询推荐方法,其特征在于,针对(1)准备阶段:对新录入的新技术,需要经过准备阶段的步骤提取关键词,并将其和新技术同时存储在数据库中,为后面的计算提供依据;对已经存在数据库的新技术和关键词信息,则无需每次经过以上步骤进行重复计算,只需要在词库发生变化时,定期进行更新即可。
3.如权利要求1所述的基于技术需求和新技术相似度的查询推荐方法,其特征在于,所述步骤1.1:提取关键词汇句子,具体方法包括:利用结巴分词的分词模块函数,基于基本词库、停用词库,对新技术成果简介进行分词,保留部分词性的词语,作为下一步新技术成果简介的描述;保留的词性包括名词、动名词、英语、语素词;对于去掉的词性,具有可提取的意义时,采用两种方式对词库进行修改补充:(1)修改词性:对词语在词库中的词性,进行修改,定义词性为vnmd,作为专属提取词语;(2)添加词性:对于新技术各个领域的专有名词,添加到新建词性为mnmd的词性库中,对应词频设置为当前基本词库中的最大词频+1;步骤2.1的提取关键词汇句子的方法与步骤1.1的方法相同。
4.如权利要求1所述的基于技术需求和新技术相似度的查询推荐方法,其特征在于,所述步骤1.2:对新技术标题和成果简介的关键词汇句子,提取关键词,具体方法包括:利用结巴分词的分词模型函数,增加专属名词库、停用词库,对步骤1.1提取的关键词汇句子进行分词,积累新技术在各个领域当中的专属名词或术语,对基本词库或专属名词库进行补充;对于停用词库的补充,只对步骤1.2的停用词库进行补充;对于步骤1.1中未筛选成功的词语,添加到停用词库中,对这部分词语不添加在成功分词的词语当中;步骤2.2的对技术需求标题和需求简介的关键词汇句子,提取关键词的方法与步骤1.2的方法相同。
5.如权利要求1所述的基于技术需求和新技术相似度的查询推荐方法,其特征在于,所述步骤1.3:统计新技术的关键词和对应词频,具体方法包括:
对于步骤1.2中提取成功分词的词语,进行统计对应词语的词频;
在新技术关键词提取中,对新技术的标题和成果简介分别进行提取关键词;
新技术中关键词词频的最终确认方法为:
Fkey=δ×Ftkey+Fckey,δ≥1
其中,Fkey表示关键词key的最终词频,Ftkey表示关键词key在新技术标题中出现的次数,Fckey表示关键词key在技术需求内容中出现的次数,δ表示Ftkey的权重值,即关键词key在标题中出现的重要性要大于或等于关键词key在内容中出现的重要性;在只有新技术标题时,Fckey=0;只有新技术成果简介时,Ftkey=0;
步骤2.3的统计技术需求的关键词和对应词频的方法与步骤1.3的方法相同,区别仅在于技术需求中的默认无标题,只存在技术需求简介信息。
6.如权利要求1所述的基于技术需求和新技术相似度的查询推荐方法,其特征在于,所述步骤1.4:计算新技术中关键词对应的逆向文件频率IDE,具体方法包括:
其中,Ekey,表示关键词key的逆向文件频率;∑keys∈keyT,表示技术需求训练集中提取的关键词集合keys中带有关键词key的技术需求总数,+1是为了防止分母为0的情况出现;N,表示技术需求的总数;Ekey越高,说明该词的区分性越强,Ekey越低,说明该词的区分度越低;
其中通过IDE的计算,能够补充停用词汇的词库,关键词的IDE越趋近0,则该关键词对描述的区分性越差,即能够通过IDE的值,判断该词作为停用词汇的可能性,IDE越小,越趋近0,则该词作为停用词汇的可能性越大。
所述步骤2.4计算技术需求中关键词对应的逆向文件频率IDE的方法与步骤1.4的方法相同。
7.如权利要求6所述的基于技术需求和新技术相似度的查询推荐方法,其特征在于,所述步骤1.5:计算新技术中关键词的加权词频,具体方法包括:
FEkey=Fkey×Ekey
其中,FEkey,是关键词key的加权词频;
所述步骤2.5计算技术需求中关键词的加权词频的方法与步骤1.5的方法相同。
8.如权利要求1所述的基于技术需求和新技术相似度的查询推荐方法,其特征在于,所述步骤1.6:根据新技术中关键词的加权词频由高到低排序,确定提取前KT个新技术关键词,具体方法包括:
根据关键词的加权词频进行由大到小排序,提取前KT个关键词,作为新技术的关键词;
所述步骤2.6根据技术需求中关键词的加权词频由高到低排序,确定提取前KD个技术需求关键词与步骤1.6的方法相同。
9.如权利要求1所述的基于技术需求和新技术相似度的查询推荐方法,其特征在于,所述步骤2.7:确定技术需求与新技术之间的关键词集合,具体方法包括:
通过关键词提取;假设用户给定的技术需求提取的关键词集合为:
D=[d1,d2,…,di,…,dm],1≤i≤m,0≤m≤KD
其中,D为由技术需求提取的关键词集合;di,表示技术需求的第i个关键词;m,表示技术需求中提取的实际关键词个数;
新技术提取的关键词集合为:
T=[T1,T2,…,Ti,…,TN]T,1≤i≤N
其中,T,为新技术关键词集合;Ti,为第i个技术关键词的集合;N为新技术的数量;
Ti=[ti1,ti2,…,tij,…,tin],1≤j≤n,1≤n≤KT
其中,tij,表示第i个新技术的第j个关键词;n,表示第i个技术需求提取的实际关键词个数;
所述步骤2.8:由技术需求和新技术之间的关键词集合,确定技术需求与新技术之间的文本向量,具体方法包括:
V=[V1,V2,…,Vi,…,VN]T,1≤i≤N
Vi=D∪Ti=[vi1,vi2,…,vij,…,vis],1≤j≤s,1≤s≤KT+KD
其中,V,是技术需求与新技术进行相似度计算的词向量矩阵;Vi,是技术需求与第i个新技术之间的词向量,是技术需求提取的关键词与第i个新技术Ti的提取的关键词的并集;
所述步骤2.9:根据技术需求与新技术之间的文本向量,确定技术需求和新技术之间的词向量,具体方法包括:
技术需求D与新技术Ti,词向量的表示为:
VDi=[vdi1,vdi2,…,vdij,…,vdis],1≤j≤s,vdij={0,1}
VTi=[vti1,vti2,…,vtij,…,vtis],1≤j≤s,vtij={0,1}
其中,VDi表示,在技术需求D和新技术Ti前提下,技术需求的词向量,当技术需求中存在关键词vij时,对应的vdij=1;当技术需求中不存在关键词vij时,对应的vdij=0;VTi表示,在技术需求D和新技术Ti前提下,新技术Ti的词向量,当新技术Ti中存在关键词vij时,对应的vtij=1;当新技术Ti中不存在关键词vij时,对应的vtij=0。
10.如权利要求9所述的基于技术需求和新技术相似度的查询推荐方法,其特征在于,所述步骤2.10:对技术需求与新技术之间的词向量进行相似度计算,具体方法包括:
S=[S1,S2,…,Si,…,SN]
其中,S,表示技术需求与新技术的相似度矩阵;Si,表示技术需求与第i个新技术的相似度值,由计算公式可知0≤Si≤1;Si的值越接近1,说明新技术与技术需求之间的相似程度越高;Si的值越接近0,说明新技术与技术需求之间的相似度程度越低;
所述步骤2.11:根据相似度由高到低排序,并为用户推荐新技术,具体方法包括:
根据相似度矩阵S,由大到小排序,该排列顺序,即为该技术需求查询新技术时,新技术显示的排列顺序;排序越靠前的新技术与技术需求之间的相似程度越高,即该新技术越符合技术需求的要求;排序越靠后的新技术与技术需求之间的相似程度越低,即该新技术越不符合技术需求的要求。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011051622.9A CN112307178A (zh) | 2020-09-29 | 2020-09-29 | 基于技术需求和新技术相似度的查询推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011051622.9A CN112307178A (zh) | 2020-09-29 | 2020-09-29 | 基于技术需求和新技术相似度的查询推荐方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112307178A true CN112307178A (zh) | 2021-02-02 |
Family
ID=74488187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011051622.9A Pending CN112307178A (zh) | 2020-09-29 | 2020-09-29 | 基于技术需求和新技术相似度的查询推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112307178A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114328826A (zh) * | 2021-12-20 | 2022-04-12 | 青岛檬豆网络科技有限公司 | 一种提取技术成果、技术需求的关键词和文摘的方法 |
TWI817092B (zh) * | 2021-03-11 | 2023-10-01 | 宏碁股份有限公司 | 常見問答檢索方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110083837A (zh) * | 2019-04-26 | 2019-08-02 | 科大讯飞股份有限公司 | 一种关键词生成方法及装置 |
CN110597949A (zh) * | 2019-08-01 | 2019-12-20 | 湖北工业大学 | 一种基于词向量和词频的法院相似案件推荐模型 |
-
2020
- 2020-09-29 CN CN202011051622.9A patent/CN112307178A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110083837A (zh) * | 2019-04-26 | 2019-08-02 | 科大讯飞股份有限公司 | 一种关键词生成方法及装置 |
CN110597949A (zh) * | 2019-08-01 | 2019-12-20 | 湖北工业大学 | 一种基于词向量和词频的法院相似案件推荐模型 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI817092B (zh) * | 2021-03-11 | 2023-10-01 | 宏碁股份有限公司 | 常見問答檢索方法 |
CN114328826A (zh) * | 2021-12-20 | 2022-04-12 | 青岛檬豆网络科技有限公司 | 一种提取技术成果、技术需求的关键词和文摘的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Blei et al. | Topic segmentation with an aspect hidden Markov model | |
US11379668B2 (en) | Topic models with sentiment priors based on distributed representations | |
Li et al. | Word translation disambiguation using bilingual bootstrapping | |
Zhong et al. | Word sense disambiguation improves information retrieval | |
JP4568774B2 (ja) | 手書き文字認識で使用されるテンプレートを生成する方法 | |
CN110413768B (zh) | 一种文章题目自动生成方法 | |
Suleiman et al. | The use of hidden Markov model in natural ARABIC language processing: a survey | |
Marquez et al. | A machine learning approach to POS tagging | |
CN105138864B (zh) | 基于生物医学文献的蛋白质交互关系数据库构建方法 | |
Chen et al. | Matrix factorization with knowledge graph propagation for unsupervised spoken language understanding | |
CN114254653A (zh) | 一种科技项目文本语义抽取与表示分析方法 | |
CN112307178A (zh) | 基于技术需求和新技术相似度的查询推荐方法 | |
CN109408806A (zh) | 一种基于英文语法规则的事件提取方法 | |
Bilgin et al. | Sentiment analysis with term weighting and word vectors | |
Szarvas et al. | A highly accurate Named Entity corpus for Hungarian | |
Kenyon-Dean et al. | Verb phrase ellipsis resolution using discriminative and margin-infused algorithms | |
CN114706972A (zh) | 一种基于多句压缩的无监督科技情报摘要自动生成方法 | |
Lefevre | Dynamic bayesian networks and discriminative classifiers for multi-stage semantic interpretation | |
CN112215007B (zh) | 基于leam模型的机构命名实体归一化方法和系统 | |
CN112307302A (zh) | 基于关键词提取的新技术查询推荐方法 | |
Köper et al. | Applying multi-sense embeddings for german verbs to determine semantic relatedness and to detect non-literal language | |
CN116662479A (zh) | 一种用于医保目录的文本匹配方法 | |
Mahafdah et al. | Arabic Part of speech Tagging using k-Nearest Neighbour and Naive Bayes Classifiers Combination. | |
Waghmare et al. | Survey paper on sentiment analysis for tourist reviews | |
Fowobaje et al. | Qualitative content analysis of Nigerian heads-of-state and presidents’ inaugural addresses: text mining, topic modelling and sentiment analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210202 |
|
RJ01 | Rejection of invention patent application after publication |