CN113743081B - 技术服务信息的推荐方法 - Google Patents
技术服务信息的推荐方法 Download PDFInfo
- Publication number
- CN113743081B CN113743081B CN202111034232.5A CN202111034232A CN113743081B CN 113743081 B CN113743081 B CN 113743081B CN 202111034232 A CN202111034232 A CN 202111034232A CN 113743081 B CN113743081 B CN 113743081B
- Authority
- CN
- China
- Prior art keywords
- information
- attribute data
- technical service
- scientific research
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开实施例涉及一种技术服务信息的推荐方法,该方法包括:针对技术服务需求信息,采用Bert预训练模型处理获得第一类句向量;针对技术服务自荐信息,确定技术服务自荐信息中每一属性数据内每一子项的概要信息,获取每一概要信息对应的第二类句向量;针对第一类句向量和每一个第二类句向量,采用训练的文本相似度得分模型进行计算,获取相似度得分并采用剪枝策略进行剪枝处理,获得各属性数据的得分矩阵,并采用熵值法计算各属性数据所占权重的权重矩阵;以获取与所述技术服务需求信息匹配的F项技术服务自荐信息。本方法能够对企业研发需求进行实时推荐,及时、准确地获取最为匹配的目标科研团队。
Description
技术领域
本申请属于数据处理及分析技术领域,具体涉及一种技术服务信息的推荐方法。
背景技术
现如今各行各业对于科技研发的需求日益上升,科技信息化开始进入大规模应用阶段,但企业却很难寻找到专业的研发团队去满足相应的研发需求。相反,高校重点实验室即科研团队作为国内科研领域的重要组成部分,前沿科研应用于行业相对迟缓。因此,加大产学研密切合作,既是检验高校技术成果的有效途经,也是解决企业科技研发需求的有效方案。
关于在线平台的科技研发推荐的难点关键在于,第一:技术供给文本通常包含大量信息,如何基于这些大量信息确定需求方的匹配当前无法解决。第二,单一属性无法全面表征技术供给方的科研领域及能力,技术供给方通常会从多个方面介绍自己的科研领域,例如:论文、专利、项目、成果、仪器等。各种指标属性对于供需方成交的影响力不同,需求方不能从上述信息中获取直接关联的信息,无法知道供需匹配的结果。
为此,如何使科研团队的信息能够更好的与需求方进行匹配,有效解决企业科技研发的需求成为当前亟需解决的技术问题。
发明内容
(一)要解决的技术问题
鉴于现有技术的上述缺点、不足,本申请提供一种技术服务信息的推荐方法。
(二)技术方案
为达到上述目的,本申请采用如下技术方案:
第一方面,本申请提供一种技术服务信息的推荐方法,该方法包括:
A10、针对技术服务需求信息,采用Bert预训练模型处理以获取该技术服务需求信息对应第一类句向量;
A20、针对技术服务自荐信息,确定技术服务自荐信息中每一属性数据内每一子项的概要信息,采用Bert预训练模型对每一个概要信息进行处理,获取每一概要信息对应的第二类句向量;
A30、针对第一类句向量和每一个第二类句向量,采用训练的文本相似度得分模型进行计算,获取相似度得分;
A40、针对每一属性数据中每一概要信息对应的相似度得分,采用剪枝策略进行剪枝处理,获得各属性数据的得分矩阵,并基于得分矩阵采用熵值法计算各属性数据所占权重的权重矩阵;
A50、基于所述得分矩阵和所述权重矩阵,获取与所述技术服务需求信息匹配的F项技术服务自荐信息,F取大于1的自然数。
可选地,所述技术服务需求信息包括:服务对象的介绍信息、服务技术要求、服务技术标准设定信息或服务区域的限定信息;
技术服务自荐信息包括:科研团队的论文属性数据、科研团队的专利属性数据;科研团队的项目属性数据,科研团队的专著属性数据或科研团队的成果属性数据;
所述每一属性数据内每一子项的概要信息为科研团队提供的核心概要信息。
可选地,A10包括:
对技术服务需求信息进行预处理,对预处理后的技术服务需求信息进行字编码,以使每一文字转为设备便于计算与存储的数字表示;
基于字编码的数字表示,使用Bert预训练模型转换第一类句向量;
相应地,A20包括:
对每一概要信息进行预处理,对预处理后的概要信息进行字编码,以使概要信息中的每一个文字转为设备便于计算与存储的数字表示;
基于字编码的数字,使用Bert预训练模型转换为第二类句向量。
可选地,A30包括:
训练的文本相似度得分模型为训练的TextRCNN网络,使用训练的TextRCNN网络处理输入的向量,训练的TextRCNN网络使用LSTM与最大池化的方式提取输入的向量的上下文特征,在每个时间步,把LSTM网络的输出与对应的句向量拼接,作为当前时间步的“语义向量”,以表示文本的上下文特征;
训练的文本相似度得分模型包括:记忆细胞、输入门、遗忘门和输出门,其中记忆细胞用来存储和更新历史信息,输入门、遗忘门和输出门结构通过Sigmoid函数来决定信息的保留程度,具体计算公式如下:
ft=σ(Wf*[ht-1,xt]+bf) (1)
it=σ(Wi*[ht-1,xt]+bi) (2)
ot=σ(Wo*[ht-1,xt]+bo) (3)
ht=ot*tanh(Ct) (6);
其中,i,o,f分别代表着LSTM网络中门机制内的输入门、输出门和遗忘门,c是记忆细胞用来记录细胞状态的更新,在t时刻,LSTM网络接收到当前输入xt和上一时刻t-1遗留的信息向量ht-1作为三个门机制的输入,it,ot,ft分别为输入门、输出门、遗忘门在t时刻所得到的激活向量;σ为非线性激活函数sigmoid,tanh为非线性激活函数tanh;Wf,Wi,Wo,Wc分别是遗忘门、输入门、输出门的记忆细胞对应的权重矩阵,bt,bi,be,bc是偏差矩阵,在训练过程中获得。
可选地,A40中的采用熵值法计算各属性数据所占权重的权重矩阵,包括:
采用极差标准法对得分矩阵中每一属性数据的得分进行标准化处理,得到标准化后的属性数据,标准化处理公式为(7);
Bij为原始数据即得分矩阵中每一属性数据的得分,其中i=1,2,3,…,m;j=1,2,3,…,n;i和j分别表示第i个科研团队及该科研团队第j个属性数据;(Bj)max和(Bj)min分别代表第j个属性数据的最大值和最小值,将归一化后数值为0的指标按0.01计算;
Bi是指某个科研团队的各个属性数据的得分集合;Yij是第i行第j列的标准化后的结果;
首先,采用公式(8)计算第i个科研团队下第j项属性所占的比重Pij,
采用公式(9)计算第j项属性的熵值ej,
其中,ej为第j项属性的熵值,n为属性数据的总数量,ln为自然对数,
采用公式(10)计算第j项属性的熵值即权值Sj,
将所有属性的权值组成权值矩阵。
可选地,A50包括:
基于所述得分矩阵和所述权重矩阵,获取每一技术服务自荐信息的得分,依据得分选择与所述技术服务需求信息匹配的F项技术服务自荐信息;
设技术服务自荐信息集合为Q={q1,q2,qi...qm},m为该数据集中科研团队的总数,qi为第i个科研团队;qi={p1,p2,pj...pn}为该科研团队的属性集合;
pj={c1,c2,cj...ck}表示第i个科研团队的属性j下的所有成果集合;定义相关性评分函数score来衡量科研团队qi与技术服务需求信息r的相关程度,
采用下述公式计算某一科研团队与技术服务需求信息的相关性得分score;
可选地,A40中的针对每一属性数据中每一概要信息对应的相似度得分,采用剪枝策略进行剪枝处理,获得各属性数据的得分矩阵,包括:
判断各属性数据的得分是否小于预设阈值;
若是,则将该项属性数据及相似度得分均丢弃;
将剪枝后的每一属性数据内各子项的相似度得分累加得到该属性数据的相似度得分,将一技术服务自荐信息的所有属性数据的相似度得分组成得分矩阵。
第二方面,本申请提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上第一方面任一项所述的技术服务信息的推荐方法的步骤。
第三方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上第一方面任一项所述的技术服务信息的推荐方法的步骤。
(三)有益效果
本申请提供的技术方案可以包括以下有益效果:
本申请中的方法能够将非结构化科研团队的成果数据转化为结构化数据,对各条数据进行语义分析以及上下文分析,为技术服务需求信息推荐较为合适的目标科技研发团队即技术服务自荐信息,能够对企业研发需求进行实时推荐,及时、准确地获取最为匹配的目标科研团队。
在本申请的方法中,首先对技术服务自荐信息的各属性数据计算结果赋予合适的权值,才能使供需匹配结果更加合理。因此,本发明将基于文本语义匹配的方法,针对在线平台的技术需求文本,以及平台上公布的各高校重点实验室科研成果信息,探索技术需求匹配中的多维关键特征,为科技研发转移提供可行方案。
附图说明
本申请借助于以下附图进行描述:
图1A和图1B分别为本申请一个实施例中的技术服务信息的推荐方法流程示意图;
图2为本申请另一个实施例中的技术服务信息的推荐方法流程示意图;
图3为本申请另一个实施例中的句向量嵌入表示示例图;
图4为本申请另一个实施例中的相似度得分计算模型示意图;
图5为上下文特征提取的示意图;
图6为LSTM单元结构的示意图。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。可以理解的是,以下所描述的具体的实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合;为了便于描述,附图中仅示出了与发明相关的部分。
现如今各行各业对于科技研发的需求日益上升,科技信息化开始进入大规模应用阶段,但企业却很难寻找到专业的研发团队去满足相应的研发需求。相反,高校重点实验室作为国内科研领域的重要组成部分,前沿科研应用于行业相对迟缓。因此,加大产学研密切合作,既是检验高校技术成果的有效途经,也是解决企业科技研发需求的有效方案。因此本申请提出一种技术服务信息的推荐方法,针对在线供需平台需求文本给出符合的科技研发团队。下面将参考附图并结合实施例来详细说明本申请。
实施例一
图1A和图1B分别为本申请一个实施例中的技术服务信息的推荐方法流程示意图,本实施例可适用于任何技术服务信息的推荐筛选过程,该方法可以由任一计算设备来执行,该计算设备可以通过软件和/或硬件的形式实现,如图1A和图1B所示,该方法包括下述的步骤:
A10、针对技术服务需求信息,采用Bert预训练模型处理以获取该技术服务需求信息对应第一类句向量。
举例来说,将技术服务需求信息的文本进行字编码,将文字映射为计算机可以识别的数字,保存在一个Hash字典中;使用Bert预训练模型转换为基于句向量的嵌入表示,Bert预训练模型的输入表示如图3所示。
本实施例中,是将Bert预训练模型迁移过来使用。本实施例中A10和A20的句向量,均为嵌入表示的句向量,两者嵌入表示方式是一致的。
A20、针对技术服务自荐信息,确定技术服务自荐信息中每一属性数据内每一子项的概要信息,采用Bert预训练模型对每一个概要信息进行处理,获取每一概要信息对应的第二类句向量。
本实施例中的Bert预训练模型融合了句子的Token Embeddings,SegmentEmbeddings以及Position Embeddings,其中Token Embeddings是将句子中的每个字转换为一个768维的向量,如果一句话有10个字,就得到一个(10,768)的向量。SegmentEmbeddings是为了区分不同的句子,例如对下述文本:我要去打篮球。明天我哥来我家。其Segment Embeddings就表示为[0,0,0,0,0,0,0,1,1,1,1,1,1,1,1]。Position Embeddings用来标注文本中文字的位置属性,例如上述文本中,三个“我”所表述的含义是不同的,故其向量表示也应该不同,加入Position Embeddings以后就可以生成不同的向量表示。将这三者融合就可以生成整个文本的句向量的嵌入表示。
A30、针对第一类句向量和每一个第二类句向量,采用训练的文本相似度得分模型进行计算,获取相似度得分。
基于预先使用TextRCNN神经网络进行训练,训练后的TextRCNN神经网络作为训练的文本相似度得分模型,进而计算技术服务需求信息与数据库中科研团队各多属性数据中每一子项的相似度得分。
本实施例中,通过TextRCNN神经网络进行语义相似度特征提取,使用Softmax函数作为输出得分;所述的TextRCNN神经网络使用LSTM网络作为序列化特征提取器,处理输入的句向量;
然后在当前时间步,把LSTM的输出与对应的句向量拼接,作为当前时间步的“语义向量”,可以更好的表示文本的上下文特征;之后使用池化层进行特征选择,选取K个重要的语义向量作为输出的特征,把文本所有的语义向量取纵向最大池化操作得到特征输出表示。
本实施例中的TextRCNN神经网络如图4所示,TextRCNN神经网络融合了LSTM和CNN的优点,既有LSTM的特点,也有CNN的特点。可理解的是,使用LSTM网络作为文本序列化特征提取器,将LSTM网络的输出作为最大池化层的输入,选取K个重要的语义向量作为输出的特征,把文本所有的语义向量取纵向最大池化操作得到特征表示输出。
LSTM处理时是按照序列化的方式进行的,按照输入内容的先后顺序进行处理,把某一步处理的数据一部分信息传给下一步,下一步在重复前一步的过程,如此重复。其中某一步就是当前时间步,上一步就是前一时间步。
A40、针对每一属性数据中每一概要信息对应的相似度得分,采用剪枝策略进行剪枝处理,获得各属性数据的得分矩阵,并采用熵值法计算各属性数据所占权重的权重矩阵;
A50、基于所述得分矩阵和所述权重矩阵,获取与所述技术服务需求信息匹配的F项技术服务自荐信息,F取大于1的自然数。
在图1B中的重点实验室即对应科研团队,其属于叫法不同,实质内容相同。
上述方法能够将非结构化科研团队的成果数据转化为结构化数据,对各条数据进行语义分析以及上下文分析,为技术服务需求信息推荐较为合适的目标科技研发团队即技术服务自荐信息,能够对企业研发需求进行实时推荐,及时、准确地获取最为匹配的目标科研团队。
实施例二
本实施例中,首先对需求文本(即技术服务需求信息)与各科研团队的成果、论文、专利、专著等数据的概要文本作句向量嵌入表示。在实际评估科研团队匹配的过程中,每条需求对于每个属性数据的着重程度不同,需要在科研团队推荐时考虑每个属性数据的权重因素。另一方面,本实施例的方法可实现两条文本的相似度得分计算更加准确,如图2所示。
需要说明的是,针对一条特定的需求文本进行科研团队推荐,这个需求文本的长度限制在512个字符以内,因为Bert预训练模型的最大输入长度为512。需求中应包含实现目标以及相关技术诉求,应该尽可能包含更加详细的描述,可使推荐的结果更加准确。如长度超过512字符,则将其截断,保留前512个字符。
待推荐的科研团队数据库包含多个科研团队(本实施例不限定),各科研团队的成果数据可通过“XX中小企业研发服务平台”获取,其中包括各重点高校实验室以及工程服务中心等机构。每个科研团队包括论文、专利、专著、成果、项目、标准等多属性数据。本实施例中定义上述提到的每个类别数据称为多属性数据。
具体实现方法:
1.分别根据需求对于各研发机构的专利、成果介绍、论文、项目进行匹配度计算。既,通过计算需求与专利、项目等文本的相似度。
2.根据文本相似度计算的结果,对于每个科研机构技术研发能力进行排序,选择排序靠前的进行推荐。
具体处理过程:
对需求文本与候选数据库中每个科研团队的多属性数据使用Bert预训练模型做基于句向量的嵌入表示。
具体地,针对需求query1,使用基于句向量的嵌入表示得到embedding1,同时对候选库中的每条多属性数据下的每条概要文本进行句向量嵌入表示,得到集合{embedding2,embedding3…embeddingn}。
例如“XX公路桥梁与隧道重点科研团队”下论文这个属性下包括50项内容,XX数据库中保存有每项成果的概要文本(所谓的概要文本就是描述该项成果的简单描述信息,例如针对论文数据,其概要文本就是论文的摘要)。将每条概要文本与需求文本计算文本相似度,具体的文本相似度计算方法在模型定义部分详细介绍。
得到每条概要文本与需求信息计算文本相似度得分之后,将每个科研团队的每个属性下所有数据的相似度得分进行累加作为该属性最后的相似得分。
注意:这里为避免某个科研机构下某个属性因数据太多而导致该属性相似得分堆叠的问题(例如:某个科研计构有500篇论文,就算每篇论文与目标需求的相似性得分仅为0.05,但基数太大,导致最后总得分为0.05*500=25,事实上这个机构跟这个需求相关性微乎其微),为避免这一问题,本实施例对每条概要文本的相似得分进行“剪枝”操作,因为低于一个阈值的相似性得分就认为这项成果与需求文本相关性不大,故丢弃该相似性得分,这个策略在客观评估中也被认为是合理的。
经过上述步骤可得到每个科研团队各属性成果的得分矩阵S,对该得分矩阵的数据分布使用熵值法计算各属性的权重w={w1,w2,w3,w4,w5,w6},得到权重矩阵;基于权重矩阵,对得分矩阵S每一列加权求和后按行排序,取前几名作为最终推荐结果。
实例描述:
某科研团队例子:“XX省xxxx重点实验室”,该实验室包括论文数据320项,专利数据176项,项目169项,专著30项,标准10项,成果8项。
本实施例中对某个科研团队采用6项属性进行说明,在实际应用中并不限定是这六项,根据实际需要进行选择和处理。
需求描述:针对“自动化、多功能化油缸拆装及转运一体装置研制及应用”,其需求具体内容是:主要研究内容:1)夹紧装置的结构适应性设计:油缸端盖的夹紧装置为可伸缩调节结构,通过控制微型液压油缸来进行有效调节夹紧装置的尺寸,从而达到夹紧不同规格油缸的作用。2)多种功能可靠集成设计:整套工装主要由驱动装置、控制装置、油缸工装、保压工装及辅助装置组成。3)整体装置遥控行走驱动和油缸快速拆解安装技术:整套装置底部安装有滚动轮,其中油缸工装为从动滚轮,驱动装置工装底部为主动滚轮,主动滚轮由遥控器控制电机来驱动,速度可调节,同时可小范围转向;同时,整套装置可由多个独立的油缸存放工装组成,这就需每个独立的工装之间设计可分离、组合结构,便于有多根油缸同时存放转运和单根油缸存放转运的情况出现。4)保压工装模拟工况技术:保压工装可对油缸实际使用工况进行模拟,保压效果更具说服力,试验结果更为准确。
上述具体过程:需求文本与该科研团队论文成果下每一项论文成果的摘要文本使用Bert预训练模型做基于句向量的嵌入表示得到文本对应的embedding,将需求文本与论文成果文本的每个embedding两两计算相似性得分,这里使用端到端的方式去训练TextRCNN神经网络模型进行相似性计算。得到该科研团队的论文成果得分集合:s={s1,s2,s3…,s320}。
上述具体过程:对上述集合s进行“剪枝”操作后只剩15个得分结果,将这15个得分累加作为论文属性的总得分,结果为1.25分。同理,可以分别计算出专利,项目,专著,标准,成果等各个属性与需求的相关性得分:
S论文、专利,项目,专著,标准,成果={1.25,1.82,0.52,0,0,0.62}。
上述仅是数据库中一个科研团队各属性相关得分的计算结果。数据库中剩余180个科研团队都按照上述方法计算,可得到一个维度为(180,5)的矩阵Sij。
上述具体过程:接下来确定各属性的权值,针对上述得到的(180,5)的矩阵,其中i表示每个科研团队的6个属性数据分别的相关性得分,j代表6个属性分别代表的内容。使用熵值法来确定6个属性的权重,即每一列所占的权重系数。
熵值法确定权重的计算步骤如下所示:
在实际应用中,可能科研团队或实验室的属性较多时,选择部分属性,而不是所有的属性进行计算,为此,需要确定科研团队待评价的属性指标,进而构建评估指标体系即生成得分矩阵,将该得分矩阵作为原始的待评估的矩阵。
1.首先使用公式(1)对得分矩阵中的各项数据(即各属性对应的分值)进行标准化处理。也就是说,对每一科研团队的每一属性内所有子项的相似分总和作为该属性的得分,对每一属性的得分做标准化处理。
本实施例中采用极差标准法对各项指标进行标准化处理。标准化计算公式;
Bij为原始数据(即得分矩阵中每一属性的得分),其中i=1,2,3,…,m;j=1,2,3,…,n;i和j分别表示第i个科技研发团队及该科技研发团队的第j个属性;(Bj)max和(Bj)min分别代表第j个属性相似性得分的最大值和最小值(得分矩阵中第j属性所在的行/列的最大值和最小值)。由于指标中涉及百分比变量,为避免权重为0的情况,统一将归一化后数值为0的指标按0.01计算。
Bi为某个科研团队的各个属性的得分集合,比如某个团队为:{2.43,5.69,1.02,0,3.54,0.6},即相似度计算结束后得到的得分矩阵Sij,i表示某一个科研团队,j表示某个属性的总得分。那么Yij就是第i行第j列的标准化后的结果。经过标准化处理后,Y与Sij维度一致。
2.第i个科研团队下第j个属性所占的比重Pij,计算公式如(2)所示:
3.计算第j个属性的熵值ej,计算公式如公式(3)所示,其中,ej为第j项属性的熵值,n为属性(属性数据)的总数量,ln为自然对数。
其中,ej为第j项属性的熵值,n为属性数据的总数量,ln为自然对数。
4.计算第j个属性的熵值即权重Sj(即权重矩阵中的权重),计算公式如(4)所示。
得到各个属性的权重后,可得到权重矩阵,对各个科研团队多属性数据加权求和。即(180,5)的矩阵中每一列都乘以对应的权重,最后对每一行数值求和,得到维度为(180,1)的矩阵。对应数据库中180个科研机构的推荐得分,最后对其进行降序排序,取前5名最为最终推荐的目标科研机构。
举例来说,可在具体应用中,设候选推荐科研团队集合为Q={q1,q2,q3...qj},m为该数据集中科研团队的总数,qi为第i个科研团队。qi={p1,p2,...pn}为该科研团队的属性集合。pm={c1,c2,c3...ck}表示第i个科研团队属性j下的所有成果集合;定义相关性评分函数score来衡量科研团队qi与技术服务需求信息r的相关程度,计算公式如下:
最后根据评分结果进行排序,给出推荐的科技研发团队。其中R为需求与某一项成果的相似度计算得分函数,r为原始需求文本,c为pm中的子项,即某一属性下的具体成果数据。
上述是每个科研团队的推荐得分。pm的范围是[1,k],故累加的范围也是[1,k],Q和q是逐级递减的,最后一层是pm,Q和q仅为一种形式化的表示。
文本相似度得分模型定义:
根据上述内容可知,要对需求与数据库中成果的概要文本进行两两相似度计算。前提是首先需要使用大批量数据去训练一个相似度得分计算模型,然后使用训练好的模型去预测两个文本的相似度得分。
对于该模型的训练,使用一个通用的相似度文本数据集,这个数据集包含238766条数据,其中该数据集的每一条数据形如(文本1,文本2,label)。接着使用这个数据集训练TextRCNN神经网络,得到训练后的相似度得分计算模型。
具体的,文本向量化之后将其输入到可以获取更多的上下文语意信息TextRCNN神经网络模型当中。下面对TextRCNN神经网络进行详细介绍,其包含Embedding layer、LSTMlayer、Concat layer、K-Maxpooling layer以及Output layer等层,下面将自下而上对每一层进行介绍:
(1)Input layer:训练时输入是上述相似度数据集的两个集合,即文本1的集合和文本2的集合。预测时输入是原始需求文本与每一项成果概要信息。
(2)Embedding layer:使用Bert预训练模型来完成句向量的嵌入,因为基于词向量与字向量的嵌入表示方法通常只包含单个词或者字的表示,无法很好的表示整个句子的上下文语意信息。这里提到的Bert预训练是谷歌使用一个大型的通用领域语料库训练而来,使用该预训练模型作迁移学习,不对其做额外的训练。
基于句向量的嵌入融合了句子的Token Embeddings,Segment Embeddings以及Position Embeddings,其中Token Embeddings是将句子中的每个字转换为一个768维的向量,如果一句话有10个字,就得到一个(10,768)的向量。Segment Embeddings是为了区分不同的句子,例如对下述文本:我要去打篮球。明天我哥来我家。其Segment Embeddings就表示为[0,0,0,0,0,0,0,1,1,1,1,1,1,1,1]。Position Embeddings用来标注文本中文字的位置属性,例如上述文本中,三个“我”所表述的含义是不同的,故其向量表示也应该不同,加入PositionEmbeddings以后就可以生成不同的向量表示。将这三者融合就可以生成整个文本的句向量表示方法,这就是基于句向量的嵌入方法。
(3)LSTM Layer:TextRCNN中的R,指的是循环神经网络RNN,本装置使用RNN的改进网络LSTM。LSTM网络对于“长距离依赖”具有更好的处理能力,故使用LSTM网络代替RNN网络用于特征提取。LSTM对输入的向量在每个时间步上,把当前的输入与上一步的输出拼接,作为当前时间步的“语义向量”,可以更好的表示文本的上下文特征。LSTM由输入门、遗忘门和输出门组成,3个门结构通过Sigmoid函数来决定信息的保留程度,记忆单元的结构如图6所示。计算公式如公式(1)-(6)所示。
LSTM是一个序列网络,把当前处理的数据称为当前时间步,上一步处理称为上一时间步。具体来说,对于文本:我要去打篮球。每个字对应LSTM网络的一个“单元”,见图5所示,每一个单元的输入不仅与当前时间步有关,还与前一时间步有关,但前一步的内容并不是完整输入到下一步,而是通过遗忘门等门控机制会选择相对重要的特征保留输出到下一时间步。
ft=σ(Wf*[ht-1,xt]+bf)
it=σ(Wi*[ht-1,xt]+bi)
ot=σ(Wi*[ht-1,xt]+bo)
ht=ot*tanh(Ct);
上述公式中:σ、tanh为双曲正切函数;W、b为权重矩阵和偏置向量;x、h为记忆单元的输入和输出;ft、it、ot为遗忘门、输入门和输出门;Ct、为候选值和新的细胞状态;ht为最终的输出。
i,o,f分别代表着LSTM网络中门机制内的输入门、输出门和遗忘门,c是记忆细胞用来记录细胞状态的更新,在t时刻,LSTM网络接收到当前输入xt和上一时刻t-1遗留的信息向量ht-1作为三个门机制的输入,it,ot,ft分别为输入门、输出门、遗忘门在t时刻所得到的激活向量。σ为非线性激活函数sigmoid,tanh为非线性激活函数tanh。Wf,Wi,Wo,Wc分别是遗忘门、输入门、输出门的记忆细胞对应的权重矩阵,bt,bi,be,bc是偏差矩阵,通过训练方式获得。
(4)Concat layer:将每个字经过LSTM的输出进行拼接,得到句子的语义特征,这是因为LSTM作为一个序列化网络,可以更好的提取上下文特征。
(5)K-Maxpooling layer:这一层的目的是对得到的向量进行降维操作,上述所得文本的向量表示已经变成高维表示,事实上不是每个维度的表示都是有益的,并且为了节省计算量,使用最大池化操作对选取的K个维度进行池化操作。
(6)Output layer:使用Softmax函数的结果作为文本相似度概率输出后计算交叉熵损失。使用数据中的label作为监督,在训练过程中使loss降低。目的是使label为1的向量在空间上尽可能接近,label为0的数据在空间上尽可能拉远。(数据集中label为1表示两个文本相似,0则表示不相似)。
TextRCNN网络模型如图4所示。
本方法针对在线供需平台进行自动供需推荐,首先将非结构化文本数据转化为结构化数据,然后使用深度学习和统计学方法并发的对需求进行推荐,从多个属性给出最满足需求文本的目标科研团队,及时、准确地给出合适的推荐结果。
可理解的是,用来实现本申请实施例的终端设备或服务器的计算机系统可以包括中央处理单元(CPU),其可以根据存储在只读存储器(ROM)中的程序或者从存储部分加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在RAM中,还存储有系统操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。
以下部件连接至I/O接口:包括键盘、鼠标等的输入部分;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分;包括硬盘等的存储部分;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器上,以便于从其上读出的计算机程序根据需要被安装入存储部分。
应当注意的是,在权利要求中,不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。此外,需要说明的是,在本说明书的描述中,术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述,是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。
尽管已描述了本发明的优选实施例,但本领域的技术人员在得知了基本创造性概念后,则可对这些实施例做出另外的变更和修改。所以,权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也应该包含这些修改和变型在内。
Claims (7)
1.一种技术服务信息的推荐方法,其特征在于,该方法包括:
A10、针对技术服务需求信息,采用Bert预训练模型处理以获取该技术服务需求信息对应第一类句向量;
所述技术服务需求信息包括:服务对象的介绍信息、服务技术要求、服务技术标准设定信息或服务区域的限定信息;每一信息少于512字符;
具体地,对技术服务需求信息进行预处理,对预处理后的技术服务需求信息进行字编码,以使每一文字转为设备便于计算与存储的数字表示,保存在一个Hash字典中,使用Bert预训练模型转换为基于句向量的嵌入表示作为第一类句向量;
A20、针对技术服务自荐信息,确定技术服务自荐信息中每一属性数据内每一子项的概要信息,采用Bert预训练模型对每一个概要信息进行处理,获取每一概要信息对应的第二类句向量;
技术服务自荐信息包括:高校科研团队的论文属性数据、高校科研团队的专利属性数据;高校科研团队的项目属性数据,高校科研团队的专著属性数据或高校科研团队的成果属性数据;
所述每一属性数据内每一子项的概要信息为高校科研团队提供的核心概要信息;
对每一概要信息进行预处理,对预处理后的概要信息进行字编码,以使概要信息中的每一个文字转为便于设备计算与存储的数字表示;
基于字编码的数字表示,使用Bert预训练模型转换为基于句向量的嵌入表示作为第二类句向量;
A30、针对第一类句向量和每一个第二类句向量,采用训练的文本相似度得分模型进行计算,获取相似度得分;具体包括:计算技术服务需求信息与高校科研团队各属性数据中每一子项的概要信息的相似度得分;
A40、针对每一属性数据中每一子项的概要信息对应的相似度得分,采用剪枝策略进行剪枝处理,获得各属性数据的得分矩阵,并基于得分矩阵采用熵值法计算各属性数据所占权重的权重矩阵;
A50、基于所述得分矩阵和所述权重矩阵,获取与所述技术服务需求信息匹配的F项技术服务自荐信息,F取大于1的自然数。
2.根据权利要求1所述的方法,其特征在于,A30包括:
训练的文本相似度得分模型为训练的TextRCNN网络,使用训练的TextRCNN网络处理输入的向量,训练的TextRCNN网络使用LSTM与最大池化的方式提取输入的向量的上下文特征,在每个时间步,把LSTM网络的输出与对应的句向量拼接,作为当前时间步的“语义向量”,以表示文本的上下文特征;
训练的文本相似度得分模型包括:输入门、遗忘门和输出门,输入门、遗忘门和输出门结构通过Sigmoid函数来决定信息的保留程度,具体计算公式如下:
ft=σ(Wf*[ht-1,xt]+bf) (1)
it=σ(Wi*[ht-1,xt]+bi) (2)
ot=σ(Wo*[ht-1,xt]+bo) (3)
ht=ot*tanh(Ct) (6);
其中,i,o,f分别代表着LSTM网络中门机制内的输入门、输出门和遗忘门,c是记忆细胞用来记录细胞状态的更新,在t时刻,LSTM网络接收到当前输入xt和上一时刻t-1遗留的信息向量ht-1作为三个门机制的输入,it,ot,ft分别为输入门、输出门、遗忘门在t时刻所得到的激活向量;σ为非线性激活函数sigmoid,tanh为非线性激活函数tanh;Wf,Wi,Wo,Wc分别是遗忘门、输入门、输出门的记忆细胞对应的权重矩阵,bt,bi,be,bc是偏差矩阵,在训练过程中获得。
3.根据权利要求1所述的方法,其特征在于,A40中的采用熵值法计算各属性数据所占权重的权重矩阵,包括:
采用极差标准法对得分矩阵中每一属性数据的得分进行标准化处理,得到标准化后的属性数据,标准化处理公式为公式(7);
Bij为原始数据即得分矩阵中每一属性数据的得分,其中i=1,2,3,…,m;j=1,2,3,…,n;i和j分别表示第i个高校科研团队及该高校科研团队第j个属性数据;(Bj)max和(Bj)min分别代表第j个属性数据的最大值和最小值,将归一化后数值为0的指标按0.01计算;
Bi是指某个高校科研团队的各个属性数据的得分集合;Yij就是第i行第j列的标准化后的结果;
首先,采用公式(8)计算第i个高校科研团队下第j项属性所占的比重Pij,
采用公式(9)计算第j项属性的熵值ej,
其中,ej为第j项属性的熵值,n为属性数据的总数量,ln为自然对数,
采用公式(10)计算第j项属性的熵值即权值Sj,
将所有属性的权值组成权值矩阵。
4.根据权利要求3所述的方法,其特征在于,A50包括:
基于所述得分矩阵和所述权重矩阵,获取每一技术服务自荐信息的得分,依据得分选择与所述技术服务需求信息匹配的F项技术服务自荐信息;
设技术服务自荐信息集合为Q={q1,q2,qi...qm},m为该技术服务自荐信息集合中高校科研团队的总数,qi为第i个高校科研团队;qi={p1,p2,pj...pn}为该高校科研团队的属性集合;
pj={c1,c2,cj...ck}表示第i个高校科研团队的属性j下的所有成果集合;定义相关性评分函数score来衡量高校科研团队qi与技术服务需求信息r的相关程度,
采用下述公式计算某高校科研团队与技术服务需求信息的相关性得分score;
R为技术服务需求信息与某一项成果的相似度计算得分函数,r为技术服务需求信息,c为第i个高校科研团队的属性中每一子项的概要信息的相似度得分。
5.根据权利要求1所述的方法,其特征在于,A40中的针对每一属性数据中每一概要信息对应的相似度得分,采用剪枝策略进行剪枝处理,获得各属性数据的得分矩阵,包括:
判断各属性数据内每一子项的概要信息的相似度得分是否小于预设阈值;
若是,则将该项属性数据内每一子项的概要信息的相似度得分相似度得分均丢弃;
否则,将剪枝后的每一属性数据内各子项的概要信息的相似度得分累加得到该属性数据的相似度得分,将技术服务自荐信息的所有属性数据的相似度得分组成得分矩阵。
6.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上权利要求1至5任一项所述的技术服务信息的推荐方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上权利要求1至5任一项所述的技术服务信息的推荐方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111034232.5A CN113743081B (zh) | 2021-09-03 | 2021-09-03 | 技术服务信息的推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111034232.5A CN113743081B (zh) | 2021-09-03 | 2021-09-03 | 技术服务信息的推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113743081A CN113743081A (zh) | 2021-12-03 |
CN113743081B true CN113743081B (zh) | 2023-08-01 |
Family
ID=78735587
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111034232.5A Active CN113743081B (zh) | 2021-09-03 | 2021-09-03 | 技术服务信息的推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113743081B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614479A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于距离向量的裁判文书推荐方法 |
CN110532557A (zh) * | 2019-08-29 | 2019-12-03 | 北京计算机技术及应用研究所 | 一种无监督的文本相似度计算方法 |
WO2020048062A1 (zh) * | 2018-09-05 | 2020-03-12 | 平安科技(深圳)有限公司 | 产品销售的智能推荐方法、装置、计算机设备和存储介质 |
CN112861543A (zh) * | 2021-02-04 | 2021-05-28 | 吴俊� | 一种面向研发供需描述文本撮合的深层语义匹配方法和系统 |
CN113220890A (zh) * | 2021-06-10 | 2021-08-06 | 长春工业大学 | 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法 |
WO2021159776A1 (zh) * | 2020-02-13 | 2021-08-19 | 腾讯科技(深圳)有限公司 | 基于人工智能的推荐方法、装置、电子设备及存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10963848B1 (en) * | 2009-03-16 | 2021-03-30 | Home Depot Product Authority, Llc | Identifying, soliciting, selecting and scheduling service providers |
CN104036022A (zh) * | 2014-06-26 | 2014-09-10 | 东南大学成贤学院 | 一种基于变精度容差关系扩展粗糙集的个性化推荐方法 |
CN106294330B (zh) * | 2015-05-11 | 2020-11-20 | 清华大学 | 一种科技文本挑选方法及装置 |
CN107229748A (zh) * | 2017-06-26 | 2017-10-03 | 广州博士信息技术研究院有限公司 | 一种有效的企业技术需求挖掘及对接方法 |
CN108595409A (zh) * | 2018-03-16 | 2018-09-28 | 上海大学 | 一种基于神经网络的需求文档和服务文档匹配方法 |
CN111611809B (zh) * | 2020-05-26 | 2023-04-18 | 西藏大学 | 一种基于神经网络的汉语语句相似度计算方法 |
CN112084416A (zh) * | 2020-09-21 | 2020-12-15 | 哈尔滨理工大学 | 基于CNN和LSTM的Web服务推荐方法 |
CN112131469A (zh) * | 2020-09-22 | 2020-12-25 | 安徽农业大学 | 一种基于评论文本的深度学习推荐方法 |
CN113159535A (zh) * | 2021-04-02 | 2021-07-23 | 浙江工业大学 | 一种基于熵权法的软件服务绩效评价方法 |
CN113204633B (zh) * | 2021-06-01 | 2022-12-30 | 吉林大学 | 一种语义匹配蒸馏方法及装置 |
-
2021
- 2021-09-03 CN CN202111034232.5A patent/CN113743081B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020048062A1 (zh) * | 2018-09-05 | 2020-03-12 | 平安科技(深圳)有限公司 | 产品销售的智能推荐方法、装置、计算机设备和存储介质 |
CN109614479A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于距离向量的裁判文书推荐方法 |
CN110532557A (zh) * | 2019-08-29 | 2019-12-03 | 北京计算机技术及应用研究所 | 一种无监督的文本相似度计算方法 |
WO2021159776A1 (zh) * | 2020-02-13 | 2021-08-19 | 腾讯科技(深圳)有限公司 | 基于人工智能的推荐方法、装置、电子设备及存储介质 |
CN112861543A (zh) * | 2021-02-04 | 2021-05-28 | 吴俊� | 一种面向研发供需描述文本撮合的深层语义匹配方法和系统 |
CN113220890A (zh) * | 2021-06-10 | 2021-08-06 | 长春工业大学 | 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113743081A (zh) | 2021-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188272B (zh) | 一种基于用户背景的社区问答网站标签推荐方法 | |
CN106980683B (zh) | 基于深度学习的博客文本摘要生成方法 | |
CN109902222A (zh) | 一种推荐方法及装置 | |
CN111191002B (zh) | 一种基于分层嵌入的神经代码搜索方法及装置 | |
CN111209738A (zh) | 一种联合文本分类的多任务命名实体识别方法 | |
Cai et al. | Intelligent question answering in restricted domains using deep learning and question pair matching | |
US11030404B1 (en) | System, method, and computer program for using machine learning to calibrate job description based on diversity criteria | |
CN111259647A (zh) | 基于人工智能的问答文本匹配方法、装置、介质及电子设备 | |
US20230222409A1 (en) | Apparatus for Determining Role Fitness While Eliminating Unwanted Bias | |
CN111274790A (zh) | 基于句法依存图的篇章级事件嵌入方法及装置 | |
CN112559723A (zh) | 一种基于深度学习的faq检索式问答构建方法及系统 | |
CN112100439B (zh) | 基于依赖关系嵌入与神经注意力网络的推荐方法 | |
CN114358657A (zh) | 一种基于模型融合的岗位推荐方法及装置 | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
CN111553140A (zh) | 数据处理方法、数据处理设备及计算机存储介质 | |
Ramnarain-Seetohul et al. | Similarity measures in automated essay scoring systems: A ten-year review | |
Paredes-Frigolett et al. | A novel method for rule extraction in a knowledge-based innovation tutoring system | |
CN113743081B (zh) | 技术服务信息的推荐方法 | |
Li et al. | Self attention mechanism of bidirectional information enhancement | |
CN116450783A (zh) | 面向篇章级的事件抽取方法、系统、存储介质和电子设备 | |
CN112507082A (zh) | 一种智能识别不当文本交互的方法、装置和电子设备 | |
Alwaneen et al. | Stacked dynamic memory-coattention network for answering why-questions in Arabic | |
CN117236410B (zh) | 一种可信的电子文件大语言模型训练、推理方法和装置 | |
CN115269844B (zh) | 模型的处理方法、装置、电子设备和存储介质 | |
US20240161045A1 (en) | System, method, and computer program for assisting interviewers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |