CN114328957A - 面向科技服务的需求智能分析与服务组合方法和装置 - Google Patents

面向科技服务的需求智能分析与服务组合方法和装置 Download PDF

Info

Publication number
CN114328957A
CN114328957A CN202111602165.2A CN202111602165A CN114328957A CN 114328957 A CN114328957 A CN 114328957A CN 202111602165 A CN202111602165 A CN 202111602165A CN 114328957 A CN114328957 A CN 114328957A
Authority
CN
China
Prior art keywords
service
requirement
document
scientific
demand
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111602165.2A
Other languages
English (en)
Inventor
张树东
刘文瑾
柳昊明
骆力明
周丽娟
任仲山
徐敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Capital Normal University
Original Assignee
Capital Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Capital Normal University filed Critical Capital Normal University
Priority to CN202111602165.2A priority Critical patent/CN114328957A/zh
Publication of CN114328957A publication Critical patent/CN114328957A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出了一种面向科技服务的需求智能分析与服务组合方法,涉及大数据与人工智能技术领域,其中,该方法包括:获取通过平台完成的科技服务历史订单对应的需求文档和包含的服务作为训练样本;对训练样本中的需求文档进行文档处理,生成新的训练样本;使用新的训练样本和全局损失函数对构建的对比学习模型进行训练,不断优化模型参数,直至模型收敛,得到训练后的模型;获取待测试需求文档,并进行文档处理,生成原子需求文档并输入训练后的模型中,输出最优的原子服务和原子服务组合构成的最优方案,并以可视化服务图谱的形式展现给用户。采用上述方案的本发明能够充分利用科研资源和合理配置科研人员,显著提高现代科技服务业的服务效率。

Description

面向科技服务的需求智能分析与服务组合方法和装置
技术领域
本申请涉及大数据与人工智能技术领域,尤其涉及面向科技服务的需求智能分析与服务组合方法和装置。
背景技术
目前,我国科技服务业还处于刚刚起步的初级阶段,企业和研究机构的众多科研成果转化率不高,科技服务平台之间无法交流,资源无法汇聚,使得我国的科技服务行业发展严重脱节,阻碍了科技、经济、社会的创新驱动发展。因此,面向跨平台科技资源与服务协同技术的研究与创新,对于提升现代服务业的科技创新支撑能力与水平具有重要意义。然而,目前国内外科技服务协同平台的研究现状是:平台科技服务提供方无法根据需求文档自动获取科技服务需求方的准确需求,尤其对于大粒度的科技服务需求,如何将其科学合理的分解存在很大的挑战。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种面向科技服务的需求智能分析与服务组合方法,解决了现有方法的无法根据需求文档自动获取科技服务需求方的准确需求,尤其对于大粒度的科技服务需求,如何将其科学合理的分解存在很大的挑战的技术问题,实现了充分利用科研资源和合理配置科研人员,显著提高现代科技服务业的服务效率。
本申请的第二个目的在于提出一种面向科技服务的需求智能分析与服务组合装置。
为达上述目的,本申请第一方面实施例提出了一种面向科技服务的需求智能分析与服务组合方法,包括:
获取通过平台完成的科技服务历史订单对应的科技服务需求文档和科技服务历史订单包含的服务作为训练样本;
对训练样本中的需求文档进行文档处理,生成新的训练样本,其中,新的训练样本包括原子需求图谱和对应的服务;
构建对比学习模型,使用新的训练样本和全局损失函数对对比学习模型进行训练,不断优化模型参数,直至模型收敛,完成训练,得到训练后的模型;
获取待测试的需求文档,对待测试的需求文档进行文档处理,将处理后生成的原子需求文档输入训练后的模型中,输出最优的原子服务和原子服务组合构成的最优方案,并以可视化服务图谱的形式展现给用户。
可选地,在本申请的一个实施例中,文档处理包括:
对需求文档进行预处理和标注;
对预处理和标注后的需求文档进行事件抽取,得到大粒度的复杂科技服务需求;
对大粒度的复杂科技服务需求进行分解,得到需求三元组;
对需求三元组和需求文档进行需求实体抽取,生成原子需求实体;
基于抽取出的原子需求实体以及需求实体之间的逻辑关系建立原子需求图谱。
可选地,在本申请的一个实施例中,对需求文档进行预处理和标注,包括:对文档里的图片以及文字信息进行识别和语义分析。
可选地,在本申请的一个实施例中,对预处理和标注后的需求文档进行事件抽取,得到大粒度的复杂科技服务需求,包括:
对BERT模型处理,包括:将BERT模型的隐藏层中权重小于预设阈值的神经元进行dropout处理,然后通过sigmoid函数对剩余的神经元分配新的权重值;利用显著性对BERT模型的隐藏层进行裁剪,然后对BERT模型进行重新训练;
使用skip-gram模型对预处理和标注后的需求文档构建词嵌入向量,生成需求文档构成的三种嵌入,包括词向量、位置向量和分割向量;
将需求文档构成的三种嵌入输入处理后的BERT模型中,输出特征序列;
通过条件随机场CRF,使用对数线性模型表示整个特征序列的联合概率,预测序列标注中的标签;
将触发词抽取与检测看作字级别的标注任务,采用BMES序列标注规则,按照预测的序列标注中的标签,对需求文档构成的三种嵌入进行标注,输出标注结果,标注结果为大粒度的复杂科技服务需求。
可选地,在本申请的一个实施例中,对大粒度的复杂科技服务需求进行分解,包括:
预测需求文档中句子的所有潜在关系,从而完成关系限定;
通过关系限定的序列标记组件处理主语和宾语之间的重叠问题;
设计一个全局对应组件,将主语、宾语和关系对齐成一个低复杂度的三元组,得到需求三元组。
可选地,在本申请的一个实施例中,对需求三元组和需求文档进行需求实体抽取,包括:
对需求文档进行二次人工标注,其中,标注为三元组形式,三元组包括需求名称、需求内容、需求类别标签;
创建分词器,根据二次标注后的需求文档对需求三元组进行特征提取,将需求三元组的内容字符串转为整数索引列表;
根据整数索引列表对需求三元组进行one-hot编码,构建特征信息序列矩阵,通过编码后的特征信息序列矩阵来表示需求三元组之间的关联;
根据需求三元组之间的关联,创建一个邻接矩阵来表示实体之间的关系;
将构建的特征信息序列矩阵和邻接矩阵输入到一个权重注意力网络中,生成原子需求实体。
可选地,在本申请的一个实施例中,对比学习模型包括多知识图谱构建模块、图对比学习模块、分类器学习模块,全局损失函数为:
Ltotal=Lcls+γLcontract
其中,Lcls表示分类器的损失函数,Lcontract表示对比损失函数,γ表示权重参数,
Figure BDA0003433342590000031
Figure BDA0003433342590000032
其中,Wij表示知识图谱的图节点嵌入输入分类器后的输出类别,
Figure BDA0003433342590000033
表示知识图谱的图节点嵌入的真实类别,T是转置符号,1<=j<=特征向量的维度d,1<=i<=已知类别数量X,
Figure BDA0003433342590000034
AP表示知识图谱GP输入图对比学习模块后对应的输出,i、j分别表示知识图谱的第i、j个结点,m、n表示对应处理的知识图谱里的结点数量,σ是sigmoid非线性激活函数。
可选地,在本申请的一个实施例中,将处理后生成的原子需求文档输入训练后的模型中,输出最优的原子服务和原子服务组合构成的最优方案,包括:
使用图谱构建模块,从科技服务的角度根据输入的原子需求图谱构建知识图谱;
使用对比学习模块,通过对构建的知识图谱进行处理,生成知识图谱的图节点嵌入,其中,对知识图谱进行处理,包括:通过对比学习损失函数约束,使得生成的不同图中对应节点表示一致,同一图中不同节点的特征表示具有区别性;
分类学习模块,用于对知识图谱的图节点嵌入进行融合,将融合后的知识图谱输入分类器中进行分类,得到最优的原子服务和原子服务组合。
为达上述目的,本发明第二方面实施例提出了一种面向科技服务的需求智能分析与服务组合装置,包括获取模块、处理模块、训练模块、结果生成模块,其中,
获取模块,用于获取通过平台完成的科技服务历史订单对应的科技服务需求文档和科技服务历史订单包含的服务作为训练样本;
处理模块,用于对训练样本中的需求文档进行文档处理,生成新的训练样本,其中,新的训练样本包括原子需求图谱和对应的服务;
训练模块,用于构建对比学习模型,使用新的训练样本和全局损失函数对对比学习模型进行训练,不断优化模型参数,直至模型收敛,完成训练,得到训练后的模型;
结果生成模块,用于获取待测试的需求文档,对待测试的需求文档进行文档处理,将处理后生成的原子需求文档输入训练后的模型中,输出最优的原子服务和原子服务组合构成的最优方案,并以可视化服务图谱的形式展现给用户。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例一所提供的一种面向科技服务的需求智能分析与服务组合方法的流程示意图;
图2为本申请实施例的构建模型对需求文档中的复杂大粒度科技服务需求进行分解示意图;
图3为本申请实施例的基于多知识图谱的对比学习模型示意图;
图4为本申请实施例提供的一种面向科技服务的需求智能分析与服务组合装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的面向科技服务的需求智能分析与服务组合方法和装置。
图1为本申请实施例一所提供的一种面向科技服务的需求智能分析与服务组合方法的流程示意图。
如图1所示,该面向科技服务的需求智能分析与服务组合方法包括以下步骤:
步骤101,获取通过平台完成的科技服务历史订单对应的科技服务需求文档和科技服务历史订单包含的服务作为训练样本;
步骤102,对训练样本中的需求文档进行文档处理,生成新的训练样本,其中,新的训练样本包括原子需求图谱和对应的服务;
步骤103,构建对比学习模型,使用新的训练样本和全局损失函数对对比学习模型进行训练,不断优化模型参数,直至模型收敛,完成训练,得到训练后的模型;
步骤104,获取待测试的需求文档,对待测试的需求文档进行文档处理,将处理后生成的原子需求文档输入训练后的模型中,输出最优的原子服务和原子服务组合构成的最优方案,并以可视化服务图谱的形式展现给用户。
本申请实施例的面向科技服务的需求智能分析与服务组合方法,通过对需求文档进行智能分析,自动合理拆分大粒度的科技服务需求,并将与其相应的科技服务进行组合编排,最终生成一套最优的服务组合方案。将本申请提出方法应用部署于科技服务协同平台,能够充分利用科研资源和合理配置科研人员,并显著提高现代科技服务业的服务效率。
进一步地,在本申请实施例中,文档处理包括:
对需求文档进行预处理和标注;
对预处理和标注后的需求文档进行事件抽取,得到大粒度的复杂科技服务需求;
对大粒度的复杂科技服务需求进行分解,得到需求三元组;
对需求三元组和需求文档进行需求实体抽取,生成原子需求实体;
基于抽取出的原子需求实体以及需求实体之间的逻辑关系建立原子需求图谱。
进一步地,在本申请实施例中,采集多个科技服务平台发布的所有原子服务信息,以及通过平台完成的科技服务历史订单,包括订单对应的科技服务需求文档、订单包含的服务和服务完成评价数据,应用计算机视觉和自然语言处理技术,对非结构化的历史订单需求文档进行预处理和标注,包括对文档里的图片以及文字信息进行识别和语义分析。
具体地,在本申请实施例中,将预处理和标注好的文本输入到BERT-CRF模型中,进行事件抽取,得到大粒度的复杂科技服务需求,包括:
1)使用Google发布的针对中文语料预训练好的BERT模型,将模型的隐藏层的神经元进行裁剪,将隐藏层中权重小于0.5阈值的神经元进行dropout处理,然后通过sigmoid函数对剩余的神经元分配新的权重值;接着,利用显著性对模型的隐藏层进行裁剪(至128层),然后对其进行重新训练。
2)利用skip-gram模型,将用户需求文档构建词嵌入向量。BERT的输入表示是由需求文档构成的三种Embeddings,分别为词向量、位置向量和分割向量。
3)通过条件随机场CRF,使用对数线性模型表示整个特征序列的联合概率,预测序列标注中的标签。假设句子长度为t,句子序列为N=(n1,n2,…,nn),对应的预测标签序列为M=(m1,m2,…,mn),预测序列最终的总分数为:
Figure BDA0003433342590000061
其中,λ表示设置的加权参数,为0.5;D表示标签间的转移分数;Fi,mi表示每个字到对应mi标签的分数,b表示调整参数,为5。由于预测序列有多种可能性,对所有可能序列做全局归一化,产生原始序列到预测序列的概率。
4)将触发词抽取与检测看作字级别的标注任务,采用BMES序列标注规则,按照预测的序列标注中的标签,对需求文档构成的三种嵌入进行标注,输出标注结果,标注结果为大粒度的复杂科技服务需求。其中,B代表该汉字是词汇的开始字符,M代表中间字符,E则代表结束字符,另外S代表单字的词。
进一步地,在本申请实施例中,本申请从面向科技服务的视角,构建模型对需求文档中的复杂大粒度科技服务需求进行分解,如图2所示。具体的,将实体-关系联合抽取任务分解为关系判断、实体提取和主宾对齐三个子任务,提出的三元组联合提取框架有效改善了现有方法中关系预测冗余、基于跨度的提取泛化能力差以及效率低下等问题。
1)首先,模型预测需求文档中句子的所有潜在关系,它将后面的实体提取限制在预测的关系子集而不是所有关系。给定高维嵌入向量
Figure BDA0003433342590000062
对于一个有n个标记的句子,该成分的每个元素如下所示:
Amax=Maxpool(A)
Fr=σ(WrAmaxr)
其中,Maxpool表示最大池化操作,A表示编码器输出的高维嵌入向量,Fr是所预测的潜在关系的概率,Wr表示训练权重,σ表示Sigmoid函数,λr表示调整因子。
2)然后,通过关系限定的序列标记组件来处理主语和宾语之间的重叠问题。关系限定公式如下所示:
Xi,j s=Soft max(Wsij)+εs)
Xi,j o=Soft max(Woij)+εo)
其中,Xi,j s表示主语经过第i,j关系限定计算后的存在概率,Xi,j o表示宾语经过第i,j关系限定计算后的存在概率,βj是可训练嵌入矩阵B中的第j个关系限定的编码表示,αi表示第i个关系限定的编码表示,Ws、Wo表示可训练权重,εs、εo表示调整因子。
3)最后,设计了一个全局对应组件,将主语、宾语和关系对齐成一个低复杂度的三元组。该矩阵的每个元素都是关于成对主语和宾语的起始位置,表示主语-宾语对的置信水平,该值越高,该对三元组的置信水平就越高。
Figure BDA0003433342590000071
其中,
Figure BDA0003433342590000072
表示该三元组的置信度,As i和Ao j表示输入句子中第i个标记和第j个标记的编码表示,形成了潜在的主语和宾语对,Wk表示可训练权重,τ是Sigmoid函数。
进一步地,在本申请实施例中,对上述需求三元组和上述需求文档进行需求实体抽取,包括:
1)对需求文档进行二次人工标注,标注为(需求名称,需求内容,需求类别标签)三元组形式。
2)创建一个常见词为1024维的分词器,根据二次标注后的需求文档对需求三元组进行特征提取,将需求三元组的内容字符串转为整数索引列表,根据索引将需求三元组进行one-hot编码,构建特征信息序列矩阵,通过编码后的特征信息序列矩阵来表示需求三元组之间的关联,然后根据所提取的原子需求三元组之间的关联,创建一个邻接矩阵用来表示实体之间的关系。
3)根据构建的需求三元组的特征序列矩阵和邻接矩阵,将其输入到一个WAB-GCN(Weight Attention Based-GCN)权重注意力网络中,其输入维度为512维,隐藏层维度设置为32维,最后一层的神经元数量设置为4(服务类别的数量),激活函数选择使用的是Mish函数,从而生成原子需求实体。
基于抽取出的原子需求实体以及之间的逻辑关系建立需求图谱,并使用VUE.js技术得到可视化面向科技服务的原子需求图谱。
进一步地,在本申请实施例中,针对科技服务协同平台中零样本分类问题,本申请提出了一种新颖的基于多知识图谱(研究开发、技术转移、知识产权、检验检测)的对比学习模型,对比学习模型的结构如图3所示,包括多知识图谱构建模块、图对比学习模块、分类器学习模块,提出方法可同时利用类别之间的多种知识关系,训练一个对未知类别服务具有鲁棒性和高判别能力的分类器。
如图3所示,构造四种科技服务对应的知识图谱(Ga,Gb,Gc和Gd)作为输入,模型目标是学习到不同类别之间更多的内在关系表示信息,并为看不见的类别学习有效分类器(即零样本学习),所提出模型包含三个主要模块,即多知识图谱构建、图对比学习和分类器学习。
·多知识图谱构建,从科技服务的角度构建了四个知识图谱,以捕捉不同类别之间更多的内在关系信息,其中,每类科技服务各对应一个知识图谱。
·图对比学习,图对比学习模块的目的是强制不同图中对应节点表示一致,同一图中不同节点的特征表示具有区别性。
·分类器学习,我们通过融合来自四个不同知识图谱的图节点嵌入来获得最终的分类器,并进一步以半监督方式学习分类器,具体地:
首先通过融合四个知识图的节点嵌入,得到n个类别的分类器
Figure BDA0003433342590000081
Figure BDA0003433342590000082
其中,
Figure BDA0003433342590000083
包含x个已知类别和y个未知类别,即:
Figure BDA0003433342590000084
对分类器的损失函数定义为:
Figure BDA0003433342590000085
另外,如果测试样本中出现未知类别样本,首先使用预训练的CNN网络提取特征ft∈Rd,然后使用学习到的分类器
Figure BDA0003433342590000086
获得它的分类标签:即
Figure BDA0003433342590000087
在图对比学习模块中,Ga,Gb,Gc和Gd表示输入GCN网络的知识图谱,Aa,Ab,Ac和Ad表示四个GCN网络分支对应的输出,它们的目标损失函数定义如下:
Figure BDA0003433342590000088
Figure BDA0003433342590000089
Figure BDA00034333425900000810
Figure BDA00034333425900000811
其中,σ是sigmoid非线性激活函数。另外,
Figure BDA00034333425900000812
Figure BDA00034333425900000813
的定义与以上损失函数类似。
最后,所提出的图对比学习模型的整体损失函数定义为:
Figure BDA00034333425900000814
其中,Wij表示知识图谱的图节点嵌入输入分类器后的输出类别,
Figure BDA00034333425900000815
表示知识图谱的图节点嵌入的真实类别,T是转置符号,1<=j<=特征向量的维度d,1<=i<=已知类别数量X,AP表示知识图谱GP输入图对比学习模块后对应的输出,i、j分别表示知识图谱的第i、j个结点,m、n表示对应处理的知识图谱里的结点数量,σ是sigmoid非线性激活函数。
将分类器损失函数和图对比学习模型的损失函数相加得到对全局损失函数,定义为:
Ltotal=Lcls+γLcontract
其中,γ是权重参数。
进一步地,在本申请实施例中,将处理后生成的原子需求文档输入训练好的对比学习模型中,输出最优的原子服务和原子服务组合构成的最优方案,包括:
使用图谱构建模块,从科技服务的角度根据输入的原子需求图谱构建知识图谱;
使用对比学习模块,通过对构建的知识图谱进行处理,生成知识图谱的图节点嵌入,其中,对知识图谱进行处理,包括:通过对比学习损失函数约束,使得生成的不同图中对应节点表示一致,同一图中不同节点的特征表示具有区别性;
使用分类学习模块,对知识图谱的图节点嵌入进行融合,将融合后的知识图谱输入分类器中进行分类,得到最优的原子服务和原子服务组合,
最后通过VUE.js技术,将模型输出的结果形成服务最优组合方案,并以可视化服务图谱的形式展现给用户。
为了实现上述实施例,本申请还提出一种面向科技服务的需求智能分析与服务组合装置,
图4为本申请实施例提供的一种面向科技服务的需求智能分析与服务组合装置的结构示意图。
如图4所示,该面向科技服务的需求智能分析与服务组合装置包括获取模块、处理模块、训练模块、结果生成模块,其中,
获取模块,用于获取通过平台完成的科技服务历史订单对应的科技服务需求文档和科技服务历史订单包含的服务作为训练样本;
处理模块,用于对训练样本中的需求文档进行文档处理,生成新的训练样本,其中,新的训练样本包括原子需求图谱和对应的服务;
训练模块,用于构建对比学习模型,使用新的训练样本和全局损失函数对对比学习模型进行训练,不断优化模型参数,直至模型收敛,完成训练,得到训练后的模型;
结果生成模块,用于获取待测试的需求文档,对待测试的需求文档进行文档处理,将处理后生成的原子需求文档输入训练后的模型中,输出最优的原子服务和原子服务组合构成的最优方案,并以可视化服务图谱的形式展现给用户。
需要说明的是,前述对面向科技服务的需求智能分析与服务组合方法实施例的解释说明也适用于该实施例的面向科技服务的需求智能分析与服务组合装置,此处不再赘述。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (9)

1.一种面向科技服务的需求智能分析与服务组合方法,其特征在于,包括以下步骤:
获取通过平台完成的科技服务历史订单对应的科技服务需求文档和科技服务历史订单包含的服务作为训练样本;
对所述训练样本中的需求文档进行文档处理,生成新的训练样本,其中,所述新的训练样本包括原子需求图谱和对应的服务;
构建对比学习模型,使用所述新的训练样本和全局损失函数对所述对比学习模型进行训练,不断优化模型参数,直至模型收敛,完成训练,得到训练后的模型;
获取待测试的需求文档,对所述待测试的需求文档进行所述文档处理,将处理后生成的原子需求文档输入所述训练后的模型中,输出最优的原子服务和原子服务组合构成的最优方案,并以可视化服务图谱的形式展现给用户。
2.如权利要求1所述的方法,其特征在于,所述文档处理包括:
对需求文档进行预处理和标注;
对预处理和标注后的需求文档进行事件抽取,得到大粒度的复杂科技服务需求;
对所述大粒度的复杂科技服务需求进行分解,得到需求三元组;
对所述需求三元组和所述需求文档进行需求实体抽取,生成原子需求实体;
基于抽取出的原子需求实体以及需求实体之间的逻辑关系建立原子需求图谱。
3.如权利要求2所述的方法,其特征在于,所述对需求文档进行预处理和标注,包括:对文档里的图片以及文字信息进行识别和语义分析。
4.如权利要求3所述的方法,其特征在于,所述对预处理和标注后的需求文档进行事件抽取,得到大粒度的复杂科技服务需求,包括:
对BERT模型处理,包括:将BERT模型的隐藏层中权重小于预设阈值的神经元进行dropout处理,然后通过sigmoid函数对剩余的神经元分配新的权重值;利用显著性对BERT模型的隐藏层进行裁剪,然后对BERT模型进行重新训练;
使用skip-gram模型对预处理和标注后的需求文档构建词嵌入向量,生成需求文档构成的三种嵌入,包括词向量、位置向量和分割向量;
将所述需求文档构成的三种嵌入输入处理后的BERT模型中,输出特征序列;
通过条件随机场CRF,使用对数线性模型表示整个特征序列的联合概率,预测序列标注中的标签;
将触发词抽取与检测看作字级别的标注任务,采用BMES序列标注规则,按照预测的序列标注中的标签,对所述需求文档构成的三种嵌入进行标注,输出标注结果,所述标注结果为所述大粒度的复杂科技服务需求。
5.如权利要求4所述的方法,其特征在于,所述对所述大粒度的复杂科技服务需求进行分解,包括:
预测所述需求文档中句子的所有潜在关系,从而完成关系限定;
通过关系限定的序列标记组件处理主语和宾语之间的重叠问题;
设计一个全局对应组件,将主语、宾语和关系对齐成一个低复杂度的三元组,得到需求三元组。
6.如权利要求5所述的方法,其特征在于,所述对所述需求三元组和所述需求文档进行需求实体抽取,包括:
对需求文档进行二次人工标注,其中,标注为三元组形式,三元组包括需求名称、需求内容、需求类别标签;
创建分词器,根据二次标注后的需求文档对所述需求三元组进行特征提取,将需求三元组的内容字符串转为整数索引列表;
根据所述整数索引列表对所述需求三元组进行one-hot编码,构建特征信息序列矩阵,通过编码后的特征信息序列矩阵来表示需求三元组之间的关联;
根据所述需求三元组之间的关联,创建一个邻接矩阵来表示实体之间的关系;
将构建的特征信息序列矩阵和邻接矩阵输入到一个权重注意力网络中,生成原子需求实体。
7.如权利要求1所述的方法,其特征在于,所述对比学习模型包括多知识图谱构建模块、图对比学习模块、分类器学习模块,所述全局损失函数为:
Ltotal=Lcls+γLcontract
其中,Lcls表示分类器的损失函数,Lcontract表示对比损失函数,γ表示权重参数,
Figure FDA0003433342580000021
Figure FDA0003433342580000022
其中,Wij表示知识图谱的图节点嵌入输入分类器后的输出类别,
Figure FDA0003433342580000023
表示知识图谱的图节点嵌入的真实类别,T是转置符号,1<=j<=特征向量的维度d,1<=i<=已知类别数量X,
Figure FDA0003433342580000031
AP表示知识图谱GP输入图对比学习模块后对应的输出,i、j分别表示知识图谱的第i、j个结点,m、n表示对应处理的知识图谱里的结点数量,σ是sigmoid非线性激活函数。
8.如权利要求7所述的方法,其特征在于,所述将处理后生成的原子需求文档输入所述训练后的模型中,输出最优的原子服务和原子服务组合构成的最优方案,包括:
使用所述图谱构建模块,从科技服务的角度根据输入的原子需求图谱构建知识图谱;
使用所述对比学习模块,通过对构建的知识图谱进行处理,生成知识图谱的图节点嵌入,其中,对所述知识图谱进行处理,包括:通过所述对比学习损失函数约束,使得生成的不同图中对应节点表示一致,同一图中不同节点的特征表示具有区别性;
使用所述分类学习模块,对所述知识图谱的图节点嵌入进行融合,将融合后的知识图谱输入分类器中进行分类,得到最优的原子服务和原子服务组合。
9.一种面向科技服务的需求智能分析与服务组合装置,其特征在于,包括获取模块、处理模块、训练模块、结果生成模块,其中,
所述获取模块,用于获取通过平台完成的科技服务历史订单对应的科技服务需求文档和科技服务历史订单包含的服务作为训练样本;
所述处理模块,用于对所述训练样本中的需求文档进行文档处理,生成新的训练样本,其中,所述新的训练样本包括原子需求图谱和对应的服务;
所述训练模块,用于构建对比学习模型,使用所述新的训练样本和全局损失函数对所述对比学习模型进行训练,不断优化模型参数,直至模型收敛,完成训练,得到训练后的模型;
所述结果生成模块,用于获取待测试的需求文档,对所述待测试的需求文档进行所述文档处理,将处理后生成的原子需求文档输入所述训练后的模型中,输出最优的原子服务和原子服务组合构成的最优方案,并以可视化服务图谱的形式展现给用户。
CN202111602165.2A 2021-12-24 2021-12-24 面向科技服务的需求智能分析与服务组合方法和装置 Pending CN114328957A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111602165.2A CN114328957A (zh) 2021-12-24 2021-12-24 面向科技服务的需求智能分析与服务组合方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111602165.2A CN114328957A (zh) 2021-12-24 2021-12-24 面向科技服务的需求智能分析与服务组合方法和装置

Publications (1)

Publication Number Publication Date
CN114328957A true CN114328957A (zh) 2022-04-12

Family

ID=81013636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111602165.2A Pending CN114328957A (zh) 2021-12-24 2021-12-24 面向科技服务的需求智能分析与服务组合方法和装置

Country Status (1)

Country Link
CN (1) CN114328957A (zh)

Similar Documents

Publication Publication Date Title
CN111897908B (zh) 融合依存信息和预训练语言模型的事件抽取方法及系统
CN111291185B (zh) 信息抽取方法、装置、电子设备及存储介质
CN109800411A (zh) 临床医疗实体及其属性抽取方法
CN110134757A (zh) 一种基于多头注意力机制的事件论元角色抽取方法
CN113268609B (zh) 基于知识图谱的对话内容推荐方法、装置、设备及介质
CN113743119B (zh) 中文命名实体识别模块、方法、装置及电子设备
CN109189862A (zh) 一种面向科技情报分析的知识库构建方法
CN116661805B (zh) 代码表示的生成方法和装置、存储介质及电子设备
CN113254675B (zh) 基于自适应少样本关系抽取的知识图谱构建方法
CN113987187A (zh) 基于多标签嵌入的舆情文本分类方法、系统、终端及介质
CN114911945A (zh) 基于知识图谱的多价值链数据管理辅助决策模型构建方法
CN114239585A (zh) 一种生物医学嵌套命名实体识别方法
CN116484024A (zh) 一种基于知识图谱的多层次知识库构建方法
CN118171149B (zh) 标签分类方法、装置、设备、存储介质和计算机程序产品
US20220309597A1 (en) Computer vision framework for real estate
CN117313728A (zh) 实体识别方法、模型训练方法、装置、设备和存储介质
CN113836934B (zh) 基于标签信息增强的文本分类方法和系统
CN115292490A (zh) 一种用于政策解读语义的分析算法
CN114841151A (zh) 基于分解-重组策略的医学文本实体关系联合抽取方法
CN113361259B (zh) 一种服务流程抽取方法
CN117371481A (zh) 一种基于元学习的神经网络模型检索方法
CN116737897A (zh) 一种基于多模态的智慧楼宇知识抽取模型和方法
CN116910196A (zh) 一种基于多任务学习的校园安全突发事件抽取方法
CN116578671A (zh) 一种情感-原因对提取方法及装置
CN115859989A (zh) 基于远程监督的实体识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination