CN113269477A - 一种科研项目查询评分模型训练方法、查询方法及装置 - Google Patents
一种科研项目查询评分模型训练方法、查询方法及装置 Download PDFInfo
- Publication number
- CN113269477A CN113269477A CN202110797201.9A CN202110797201A CN113269477A CN 113269477 A CN113269477 A CN 113269477A CN 202110797201 A CN202110797201 A CN 202110797201A CN 113269477 A CN113269477 A CN 113269477A
- Authority
- CN
- China
- Prior art keywords
- project
- query
- vector
- additional information
- scientific research
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011160 research Methods 0.000 title claims abstract description 118
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012549 training Methods 0.000 title claims abstract description 57
- 239000013598 vector Substances 0.000 claims abstract description 142
- 230000006870 function Effects 0.000 claims description 19
- 239000000126 substance Substances 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 abstract description 7
- 235000013399 edible fruits Nutrition 0.000 abstract description 6
- 238000013507 mapping Methods 0.000 abstract description 4
- 230000008901 benefit Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000012163 sequencing technique Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- VPGRYOFKCNULNK-ACXQXYJUSA-N Deoxycorticosterone acetate Chemical compound C1CC2=CC(=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H](C(=O)COC(=O)C)[C@@]1(C)CC2 VPGRYOFKCNULNK-ACXQXYJUSA-N 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Educational Administration (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Technology (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Primary Health Care (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种科研项目查询评分模型训练方法、查询方法及装置,所述科研项目查询评分模型训练方法,应用BERT模型更精确地提取查询、项目文档和各科研成果附加信息的语义向量,对查询和各科研成果进行关联度计算并进行分布统计得到,以体现与该查询相关的科研项目成果的质量的分布统计向量,进一步连接项目文档的语义向量得到该可研项目与查询的关联度向量。通过单文档神经网络建立关联度向量与点击概率的映射关系,以获得用于评价科研项目与查询关联度的科研项目查询评分模型。所述查询方法基于该科研项目查询评分模型计算各科研项目与查询的关联评分,综合评价科研成果与查询的关联关系和成果质量,使关联评分更加精确。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种科研项目查询评分模型训练方法、查询方法及装置。
背景技术
科研大数据中有许多科研项目数据,每个科研项目都有许多科研成果。科研人员、主管人员在对某一技术进行分析评价过程中,需要对该技术领域所包含的科研项目以及各科研项目产出的技术成果进行评价。科研项目的质量与其已经产生的技术成果质量相关,技术成果越多、质量越高则科研项目的效益越好。
在具体实践工作中,通常需要采用查询检索的方式,获取某一技术相关的科研项目,并对其进行评价分析,以确定科研项目的质量,用于指导类似科研项目的建设工作决策,科研质量监督等,在科研项目申报、科研项目批示时作为参考。为此,需要一种查询方法,能够基于查询关键词对现有的科研项目进行检索评价和排序,提高查询结果的相关性、有效性、准确性和及时性。
发明内容
本发明实施例提供了一种科研项目查询评分模型训练方法、查询方法及装置,以消除或改善现有技术中存在的一个或更多个缺陷,以解决传统线性打分函数在特征数量较多时无法综合评价语义以获得最优评价结果的问题。
本发明的技术方案如下:
一方面,本发明提供一种科研项目查询评分模型训练方法,包括:
获取多个样本,每个样本包含一个查询以及与该查询对应的一个项目文档,该项目文档对应多个项目成果,每个项目成果对应多个附加信息,所述附加信息包括文字附加信息和数字附加信息;
采用BERT模型对各样本的查询进行向量化得到第一类语义向量、采用所述BERT模型对各样本的项目文档进行向量化得到第二类语义向量,采用所述BERT模型对各文字附加信息进行向量化得到相应的第三类语义向量;
对于单个样本下的单个项目成果,计算该样本的第一类语义向量与该项目成果的各第三语义向量的语义相似度,并与该项目成果对应的各数字附加信息的数字特征值进行加权求和,得到该项目成果的附加信息与查询的关联度;对单个项目文档各项目成果的关联度进行分布统计,形成分类向量,将所述分类向量与该样本对应的第二类语义向量连接得到该样本对应的查询和项目文档的关联向量;
采用点击模型对各样本的项目文档添加点击概率作为标签,获取各样本对应的所述关联向量和所述标签,得到训练样本集;
获取初始网络模型,所述初始网络模型包括至少三个隐层,并采用elu函数作为非线性激活函数;
以所述训练样本集中各样本的所述关联向量作为输入,以所述标签作为输出,对所述初始网络模型进行训练,得到科研项目评分模型。
在一些实施例中,所述语义相似度的计算式为:
在一些实施例中,所述关联度的计算式为:
在一些实施例中,以所述训练样本集中各样本的所述关联向量作为输入,以所述标签作为输出,对所述初始网络模型进行训练,采用损失函数进行反向传播,所述损失函数的计算式如下:
在一些实施例中,采用点击模型对各样本的项目文档添加点击概率作为标签,包括:采用PBM点击模型为各样本的项目文档添加点击概率。
另一方面,本发明还提供一种科研项目查询方法,包括:
获取查询和多个待查项目文档,每个待查项目文档对应至少一个项目成果的附加信息,所述附加信息包括文字附加信息和/或数字附加信息;
采用BERT模型对所述查询进行向量化得到查询向量、采用所述BERT模型对各待查项目文档进行向量化得到待查项目文档向量,采用所述BERT模型对各文字附加信息进行向量化得到相应的文字附加信息向量;
对于单个待查项目文档的单个项目成果,计算所述查询向量与该项目成果的各文字附加信息向量的语义相似度,并与该项目成果对应的各数字附加信息的数字特征值进行加权求和,得到该项目成果的附加信息与查询的关联度;对各项目成果的关联度进行分布统计,形成分类向量,将所述分类向量与该待查项目文档的待查项目文档向量连接得到该待查项目文档与所述查询的关联向量;
将各待查项目文档对应的关联向量输入至上述科研项目查询评分模型训练方法中的科研项目评分模型中,得到各待查项目文档的关联评分;
将各待查项目文档按照关联评分从大到小的顺序排列,并输出作为查询结果。
在一些实施例中,所述查询向量与该项目成果的各文字附加信息向量的语义相似度的计算式为:
在一些实施例中,该项目成果的附加信息与查询的关联度的计算式为:
另一方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述方法的步骤。
另一方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
本发明的有益效果至少是:
所述科研项目查询评分模型训练方法、查询方法及装置中,所述科研项目查询评分模型训练方法,应用BERT模型更精确地提取查询、项目文档和各科研成果附加信息的语义向量,对查询和各科研成果进行关联度计算并进行分布统计得到,以体现与该查询相关的科研项目成果的质量的分布统计向量,进一步连接项目文档的语义向量得到该可研项目与查询的关联度向量。通过单文档神经网络建立关联度向量与点击概率的映射关系,以获得用于评价科研项目与查询关联度的科研项目查询评分模型。所述查询方法基于该科研项目查询评分模型计算各科研项目与查询的关联评分,综合评价科研成果与查询的关联关系和成果质量,使关联评分更加精确。
本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1为本发明一实施例所述科研项目查询评分模型训练方法的数据结构示意图;
图2为本发明一实施例所述科研项目查询评分模型训练方法中提取语义特征逻辑示意图;
图3为本发明一实施例所述科研项目查询评分模型训练方法中计算查询于项目成果关联度的逻辑示意图;
图4为本发明一实施例所述科研项目查询评分模型训练方法中计算查询与项目文档关联向量的逻辑示意图;
图5为本发明另一实施例所述科研项目查询评分模型训练方法中模型训练逻辑示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
需要预先说明的是,如图1所示,本发明所述的查询是指要搜索的关键词,项目文档为科研项目的描述性文本,每个科研项目可以产出多个项目成果,每个项目成果由多个附加信息进行标记,附加信息进一步分为文字附加信息和数字附加信息。示例性的,对于一个查询“人工智能”,可以对应多个科研项目,每个科研项目对应的项目文档可以记载科研立项课题名称以及说明文本,每个科研项目的项目成果可以以论文或专利等形式产生。因此,各科研项目的成果以附加信息的形式记录,每个成果可以包括文字附加信息,如论文名称、论文摘要、专利名称或说明书摘要,对于论文可以记载被引用次数作为数字附加信息,对于专利可以记录被无效次数、诉讼次数作为数字附加信息。
本发明的目的就是基于查询的关键词,检索现有的科研项目数据库,根据各科研项目中项目文档和项目成果的内容,计算各科研项目与查询的关联评分。科研项目查询实质上就是文档排序,对于一个给定的查询(Query),将文档(Doc)进行一次或多次筛选及排序后返回。排序学习模型主要分为三种,包括:pointwise、pairwise和listwise。Pointwise方法将排序问题转化为一个分类或者回归问题,对于一个Query和一个Doc直接输出其关联度,直接根据关联度排序。Pointwise只能判断Query与Doc的关系,而pairwise能够用于评价和区分DocA与DocB的关联程度,pairwise任务输入为三元组(Query,DocA,DocB),相比大多数pointwise方法效果更为出色。Listwise方法的输入是一个Query对应一个Doc群,更符合实际场景,但训练起来也更为复杂。在本发明中,使用pointwise的方法,目的是训练一个打分函数,具有更强的解释性并且训练速度更快。
在科研项目查询过程中,传统的关键词与项目标题等被检索内容的字面匹配效果很差,例如,查询关键词人工智能,利用TF-IDF、BM25能够查询到包含人工智能这个词的相关项目,但不能检索到相关的同义词和近义词。对于人工智能这个关键词,可能还想看到机器学习、深度学习等内容。为了解决近义词、同义词等语义相关问题,本发明引入了深度语言模型BERT,在11个NLP(自然语言处理)方向大幅度刷新了精度。进一步的,可以使用BERT-base模型,并使用科技大数据语料进行了微调,使其能够更加契合科研项目查询。
具体的,本发明提供一种科研项目查询评分模型训练方法,包括步骤S101~S106:
需要强调的是,本实施例中步骤S101~S106并不是对各步骤先后顺序的限定,应当理解为,在特定的场景下,部分步骤可以并行或调换顺序。
步骤S101:获取多个样本,每个样本包含一个查询以及与该查询对应的一个项目文档,该项目文档对应多个项目成果,每个项目成果对应多个附加信息,附加信息包括文字附加信息和数字附加信息。
步骤S102:采用BERT模型对各样本的查询进行向量化得到第一类语义向量、采用BERT模型对各样本的项目文档进行向量化得到第二类语义向量,采用BERT模型对各文字附加信息进行向量化得到相应的第三类语义向量。
步骤S103:对于单个样本下的单个项目成果,计算该样本的第一类语义向量与该项目成果的各第三语义向量的语义相似度,并与该项目成果对应的各数字附加信息的数字特征值进行加权求和,得到该项目成果的附加信息与查询的关联度;对单个项目文档各项目成果的关联度进行分布统计,形成分类向量,将分类向量与该样本对应的第二类语义向量连接得到该样本对应的查询和项目文档的关联向量。
步骤S104:采用点击模型对各样本的项目文档添加点击概率作为标签,获取各样本对应的关联向量和所述标签,得到训练样本集。
步骤S105:获取初始网络模型,初始网络模型包括至少三个隐层,并采用elu函数作为非线性激活函数;
步骤S106:以所述训练样本集中各样本的所述关联向量作为输入,以所述标签作为输出,对所述初始网络模型进行训练,得到科研项目评分模型。
在步骤S101中,为了获得一个高效且精确的评分模型,如图3所示,本实施例获取的每个样本中记载有一个查询,一个与该查询对应的科研项目的项目文档,以该科研项目对应的多个项目成果的附加信息。具体的,查询为期望检索的关键词,对应的项目文档为现有数据库中与该关键词关联的科研项目的描述文本,可以包括科研项目名称。每个科研项目可以对应多个项目成果,可以以论文或专利等形式表现。各项目成果可以以附加信息的形式记录,每个成果可以包括文字附加信息,如论文名称、论文摘要、专利名称或说明书摘要,对于论文可以记载被引用次数作为数字附加信息,对于专利可以记录被无效次数、诉讼次数作为数字附加信息。
在步骤S102中,如图2所示,本实施例采用BERT模型提取查询、项目文档和文字附加信息的语义特征。BERT 模型是将预训练模型和下游任务模型结合在一起的,也就是说在做下游任务时仍然是用BERT模型,而且天然支持文本分类任务,在做文本分类任务时不需要对模型做修改。在本实施例中,可以采用BERT-Base模型,在应用到本实施例之前,可以采用科研文本数据对BERT-Base模型进行微调,以更好的适应科研文本语句语义特征的识别。具体的,查询、项目文档和文字附加信息分别对应第一类语义向量、第二类语义向量和第三类语义向量,这里的第一类、第二类和第三类并不是对序数的限定,而是用于区分对应关系。
在步骤S103中,如图3所示,对于一个样本内的数据,先利用步骤S102中得到的语义特征,计算查询和附加信息的关联度,能够反映成果与该查询的关联程度。具体的,对于项目成果的文字附加信息,通过计算语义相似度的方式评价关联度,相应的对于数字附加信息可以直接将其数值作为特征值引入关联度,对数字附加信息的特征值、文字附加信息和查询的语义相似度进行加权求和,以得到相应项目成果与查询的关联度。
在一些实施例中,文字附加信息和查询的语义相似度的计算式为:
在一些实施例中,相应项目成果与查询的关联度的计算式为:
进一步地,如图4所示,对于一个科研项目,在得到查询与该项目下所有项目成果的关联度之后,对各项目成果的关联度进行分布统计,具体的,将关联度划分为多个数值段,计算分布在各数值段内的项目成果的数量,形成一个关联度数值的分布向量,该分布向量能够在一定程度上反映该科研项目与查询的关联关系。进一步的,将该分布向量与项目文档对应的第二类语义向量直接连接,以融合项目文档的语义特征。
在步骤S104中,采用点击模型为各样本添加标签。排序学习的引入大大的降低了融合大量特征的繁琐程度,不过由于排序学习是监督学习,因此需要对文档进行大量的人工标注,这需要大量的人工成本,而且由于网页的相关性会随着网页内容的更新等发生变化,尤其是时效性类的文本数据,保持所有的人工标注是最新状态是无法完成的。因此,本实施例中,对于大量的科研项目数据,采用PBM(Position-based model)点击模型模拟用户行为,预测不同位置下科研项目被用户观察到和被点击的概率。通过这种用户行为的模拟,能够反映用户对该项目文档真实的关注度。以该关注度作为标签,用于后续对模型的训练。
在一些实施例中,对PBM点击模型输出的点击概率进行修正,以减弱关联度较低但用户点击频繁的项目文档的点击概率,还原查询与项目文档的真实关联关系。或者,较低但用户点击频繁的项目文档的点击概率,以拟合用户习惯。
最终,以每个样本查询与项目文档的关联度向量作为输入,点击模型模拟的电机概率作为标签,形成训练样本集。
在步骤S105和步骤S106中,初始网络模型可以采用BP神经网络模型,至少包含3个隐层,用于连接映射关联度向量和标签,以训练得到能够基于关联度向量生成关联评分的模型。采用训练样本集对初始网络模型进行训练,并反向传播调整参数。这里需要强调的是,步骤S102和S103中的BERT模型以及相关操作为预处理步骤连接在初始网络模型前端,实际训练过程中BERT模型不参与反向传播。
在一些实施例中,步骤S106中,以训练样本集中各样本的关联向量作为输入,以标签作为输出,对初始网络模型进行训练,采用损失函数进行反向传播,损失函数的计算式如下:
另一方面,本发明还提供一种科研项目查询方法,包括步骤S201~S205:
需要强调的是,本实施例中步骤S201~S205并不是对各步骤先后顺序的限定,应当理解为,在特定的场景下,部分步骤可以并行或调换顺序。
步骤S201:获取查询和多个待查项目文档,每个待查项目文档对应至少一个项目成果的附加信息,附加信息包括文字附加信息和/或数字附加信息。
步骤S202:采用BERT模型对查询进行向量化得到查询向量、采用BERT模型对各待查项目文档进行向量化得到待查项目文档向量,采用BERT模型对各文字附加信息进行向量化得到相应的文字附加信息向量。
步骤S203:对于单个待查项目文档的单个项目成果,计算查询向量与该项目成果的各文字附加信息向量的语义相似度,并与该项目成果对应的各数字附加信息的数字特征值进行加权求和,得到该项目成果的附加信息与查询的关联度;对各项目成果的关联度进行分布统计,形成分类向量,将分类向量与该待查项目文档的待查项目文档向量连接得到该待查项目文档与查询的关联向量;
步骤S204:将各待查项目文档对应的关联向量输入所述步骤S101至S106所述科研项目查询评分模型训练方法中的科研项目评分模型中,得到各待查项目文档的关联评分;
步骤S205:将各待查项目文档按照关联评分从大到小的顺序排列,并输出作为查询结果。
在步骤S201中,为了根据既定的查询对多个项目文档进行关联度评分和排序,可以根据科研项目数据的结构获取数据库中的多个待查项目文档,每个待查项目文档对应至少一个项目成果的附加信息,附加信息包括文字附加信息和/或数字附加信息。具体的,查询、项目文档、附加信息的形式可以参照步骤S101中的说明。
在步骤S202中,为了达到较优的语义提取效果,并匹配步骤S101~S106形成的科研项目评分模型,采用BERT模型对步骤S201中的查询、待查项目文档和文字附加信息进行向量化。在另一些实施例中,也可以采用其他模型对查询、待查项目文档和文字附加信息进行向量化。
在步骤S203中,对于单个待查项目文档,计算查询与该待查项目文档的关联向量,具体说明可以参照对步骤S103的说明。
在一些实施例中,步骤S203中,查询向量与该项目成果的各文字附加信息向量的语义相似度的计算式为:
在一些实施例中,步骤S203中,所述关联度的计算式为:
在步骤S204中,将查询与各待查项目文档的关联度向量输入步骤S101~S106得到的科研项目评分模型中,得到各待查项目文档与查询的关联评分。
在步骤S205中,将各待查项目文档与查询的关联评分按照从大到小的顺序排列并输出,形成查询结果。
另一方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述方法的步骤。
另一方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
下面结合一具体实施例对本发明进行说明:
本实施例提供一种用于附加信息单文档排序的科研项目查询评分模型,如图5所示,功能分为四个部分,第一部分为向量化,将查询、文档、文档附加信息中的文本信息使用BERT预训练模型向量化;第二部分为查询与文档附加信息的关联度计算,完成该部分计算后的特征与所属的文档进行融合;第三部分使用点击模型进行模拟点击行为,添加标签建立训练样本集;第四部分使用DNN进行pointwise排序学习,输出查询与项目文档的关联评分,用于根据该评分进行文档排序。
获取的每个样本中记载有一个查询,一个与该查询对应的科研项目的项目文档,以该科研项目对应的多个项目成果的附加信息。具体的,查询为期望检索的关键词,对应的项目文档为现有数据库中与该关键词关联的科研项目的描述文本,可以包括科研项目名称。每个科研项目可以对应多个项目成果,可以以论文或专利等形式表现。各项目成果可以以附加信息的形式记录,每个成果可以包括文字附加信息,如论文名称、论文摘要、专利名称或说明书摘要,对于论文可以记载被引用次数作为数字附加信息,对于专利可以记录被无效次数、诉讼次数作为数字附加信息。
第一部分,语义特征计算:查询(Query,以下简称Q)、文档(Document,以下简称D)、附加信息(Side-inofrmation,以下简称S)中都拥有文本信息,将这些文本信息,通过BERT中文预训练模型转化为句向量V,相比于word2vec、TF-IDF等向量化模型,BERT使用基于注意力机制的Transformer作为特征提取手段,有更好的上下文信息,对同义词、近义词的相似匹配具有更好的效果。在BERT(base)的基础上,我们使用科技大数据语料进行了针对科技大数据的微调,使其能在科研项目查询上表现更佳。
具体的,查询、项目文档和文字附加信息分别对应第一类语义向量、第二类语义向量和第三类语义向量
第二部分,附加信息关联度计算:计算查询的第一类语义向量与单个项目成果附加信息中文字信息的语义相似度,计算式为:
对于同一科研项目下的某一项目成果,可以通过多个文字附加信息和多个数字附加信息进行标记,其中,文字附加信息与查询的关系以语义相似度体现,数字附加信息可以直接以数值体现特征,通过加权求和的方式,能够得到整体的关联度,计算式为:
对一个科研项目内多个项目成果的关联度值进行分类统计或分布统计,以体现不同项目成果的分布特征或分类特征,以得到分类向量或分布向量,最终,将项目文档的第二类语义特征与直接连接,得到该科研项目与查询的关联度向量。
第三部分,点击模型添加标签:点击模型是对用户与搜索结果页交互进行的不同假设,具体反应为点击项目列表中每个项目的概率,可以作为反应真实关联度关系的标签,本实施例将标签转化为0(点击),1(不点击),有效提升了关联程度不高却又被用户频繁点击的项目的关联度。本实施例主要使用Position-based model (PBM)。用户如果点击了一个文档,文档被用户浏览的概率为,文档吸引了用户 ,则用户点击文档的概率为文档被浏览到情况下用户被吸引的概率,计算式如下:
单文档神经网络中,包含3个隐层,令为初始输入,为每一隐层的输入,为权重,为偏移,使用elu作为非线性激活函数,elu针对ReLU的负数部分进行的改进,elu激活函数对x小于零的情况采用类似指数计算的方式。具体的,单文档神经网络各层之间关系式为:
每个样本中查询与项目文档的关联度向量为输入,点击模型配置的点击概率为输出,形成训练样本集。在一些实施例中,点击模型配置的标签为0~4,对每个标签除以4获得一个0~1的值,以此计算损失。损失函数为:
通过梯度下降法训练模型,得到科研项目评分模型。在使用过程中,对于一个目标查询和多个现有的科研项目,先基于前述步骤S201~S203的方法计算查询与各科研项目的关联度向量,并输入至本实施例训练得到的科研项目评分模型,得到各科研项目与查询的关联评分,并进行排序作为查询结果。
综上所述,所述科研项目查询评分模型训练方法、查询方法及装置中,所述科研项目查询评分模型训练方法,应用BERT模型更精确地提取查询、项目文档和各科研成果附加信息的语义向量,对查询和各科研成果进行关联度计算并进行分布统计得到,以体现与该查询相关的科研项目成果的质量的分布统计向量,进一步连接项目文档的语义向量得到该可研项目与查询的关联度向量。通过单文档神经网络建立关联度向量与点击概率的映射关系,以获得用于评价科研项目与查询关联度的科研项目查询评分模型。所述查询方法基于该科研项目查询评分模型计算各科研项目与查询的关联评分,综合评价科研成果与查询的关联关系和成果质量,使关联评分更加精确。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种科研项目查询评分模型训练方法,其特征在于,包括:
获取多个样本,每个样本包含一个查询以及与该查询对应的一个项目文档,该项目文档对应多个项目成果,每个项目成果对应多个附加信息,所述附加信息包括文字附加信息和数字附加信息;
采用BERT模型对各样本的查询进行向量化得到第一类语义向量、采用所述BERT模型对各样本的项目文档进行向量化得到第二类语义向量,采用所述BERT模型对各文字附加信息进行向量化得到相应的第三类语义向量;
对于单个样本下的单个项目成果,计算该样本的第一类语义向量与该项目成果的各第三语义向量的语义相似度,并与该项目成果对应的各数字附加信息的数字特征值进行加权求和,得到该项目成果的附加信息与查询的关联度;对单个项目文档各项目成果的关联度进行分布统计,形成分类向量,将所述分类向量与该样本对应的第二类语义向量连接得到该样本对应的查询和项目文档的关联向量;
采用点击模型对各样本的项目文档添加点击概率作为标签,获取各样本对应的所述关联向量和所述标签,得到训练样本集;
获取初始网络模型,所述初始网络模型包括至少三个隐层,并采用elu函数作为非线性激活函数;
以所述训练样本集中各样本的所述关联向量作为输入,以所述标签作为输出,对所述初始网络模型进行训练,得到科研项目评分模型。
5.根据权利要求1所述的科研项目查询评分模型训练方法,其特征在于,采用点击模型对各样本的项目文档添加点击概率作为标签,包括:
采用PBM点击模型为各样本的项目文档添加点击概率。
6.一种科研项目查询方法,其特征在于,包括:
获取查询和多个待查项目文档,每个待查项目文档对应至少一个项目成果的附加信息,所述附加信息包括文字附加信息和/或数字附加信息;
采用BERT模型对所述查询进行向量化得到查询向量、采用所述BERT模型对各待查项目文档进行向量化得到待查项目文档向量,采用所述BERT模型对各文字附加信息进行向量化得到相应的文字附加信息向量;
对于单个待查项目文档的单个项目成果,计算所述查询向量与该项目成果的各文字附加信息向量的语义相似度,并与该项目成果对应的各数字附加信息的数字特征值进行加权求和,得到该项目成果的附加信息与查询的关联度;对各项目成果的关联度进行分布统计,形成分类向量,将所述分类向量与该待查项目文档的待查项目文档向量连接得到该待查项目文档与所述查询的关联向量;
将各待查项目文档对应的关联向量输入权利要求1至5任意一项所述科研项目查询评分模型训练方法中的科研项目评分模型中,得到各待查项目文档的关联评分;
将各待查项目文档按照关联评分从大到小的顺序排列,并输出作为查询结果。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110797201.9A CN113269477B (zh) | 2021-07-14 | 2021-07-14 | 一种科研项目查询评分模型训练方法、查询方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110797201.9A CN113269477B (zh) | 2021-07-14 | 2021-07-14 | 一种科研项目查询评分模型训练方法、查询方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113269477A true CN113269477A (zh) | 2021-08-17 |
CN113269477B CN113269477B (zh) | 2021-10-15 |
Family
ID=77236691
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110797201.9A Active CN113269477B (zh) | 2021-07-14 | 2021-07-14 | 一种科研项目查询评分模型训练方法、查询方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113269477B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117151656A (zh) * | 2023-10-30 | 2023-12-01 | 成方金融科技有限公司 | 项目评价模型训练方法及项目评价方法 |
CN117455421A (zh) * | 2023-12-25 | 2024-01-26 | 杭州青塔科技有限公司 | 科研项目的学科分类方法、装置、计算机设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020164A (zh) * | 2012-11-26 | 2013-04-03 | 华北电力大学 | 一种基于多语义分析和个性化排序的语义检索方法 |
US20190347327A1 (en) * | 2018-05-09 | 2019-11-14 | Arizona Board Of Regents On Behalf Of Arizona State University | Systems and methods for automatically assigning one or more labels to discussion topics shown in online forums on the dark web |
CN111309871A (zh) * | 2020-03-26 | 2020-06-19 | 普华讯光(北京)科技有限公司 | 一种基于文本语义分析需求与输出成果之间匹配度的方法 |
CN112258061A (zh) * | 2020-10-28 | 2021-01-22 | 福建正孚软件有限公司 | 一种项目全过程风险智能分析预警系统及预警方法 |
CN112417082A (zh) * | 2020-10-14 | 2021-02-26 | 西南科技大学 | 一种科研成果数据消歧归档存储方法 |
-
2021
- 2021-07-14 CN CN202110797201.9A patent/CN113269477B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020164A (zh) * | 2012-11-26 | 2013-04-03 | 华北电力大学 | 一种基于多语义分析和个性化排序的语义检索方法 |
US20190347327A1 (en) * | 2018-05-09 | 2019-11-14 | Arizona Board Of Regents On Behalf Of Arizona State University | Systems and methods for automatically assigning one or more labels to discussion topics shown in online forums on the dark web |
CN111309871A (zh) * | 2020-03-26 | 2020-06-19 | 普华讯光(北京)科技有限公司 | 一种基于文本语义分析需求与输出成果之间匹配度的方法 |
CN112417082A (zh) * | 2020-10-14 | 2021-02-26 | 西南科技大学 | 一种科研成果数据消歧归档存储方法 |
CN112258061A (zh) * | 2020-10-28 | 2021-01-22 | 福建正孚软件有限公司 | 一种项目全过程风险智能分析预警系统及预警方法 |
Non-Patent Citations (2)
Title |
---|
NAN ZHOU等: "A content search method for security topics in microblog based on deep reinforcement learning", 《WORLD WIDE WEB》 * |
徐欣等: "基于知识图谱的科技成果智能查询系统", 《计算机工程与应用》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117151656A (zh) * | 2023-10-30 | 2023-12-01 | 成方金融科技有限公司 | 项目评价模型训练方法及项目评价方法 |
CN117151656B (zh) * | 2023-10-30 | 2024-02-27 | 成方金融科技有限公司 | 项目评价模型训练方法及项目评价方法 |
CN117455421A (zh) * | 2023-12-25 | 2024-01-26 | 杭州青塔科技有限公司 | 科研项目的学科分类方法、装置、计算机设备及存储介质 |
CN117455421B (zh) * | 2023-12-25 | 2024-04-16 | 杭州青塔科技有限公司 | 科研项目的学科分类方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113269477B (zh) | 2021-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104408148B (zh) | 一种基于通用百科网站的领域百科构建系统 | |
US20080004864A1 (en) | Text categorization using external knowledge | |
CN101751455B (zh) | 采用人工智能技术自动产生标题的方法 | |
US11893537B2 (en) | Linguistic analysis of seed documents and peer groups | |
CN110633407B (zh) | 信息检索方法、装置、设备及计算机可读介质 | |
CN110888991B (zh) | 一种弱标注环境下的分段式语义标注方法 | |
CN103678576A (zh) | 基于动态语义分析的全文检索系统 | |
CN113269477B (zh) | 一种科研项目查询评分模型训练方法、查询方法及装置 | |
CN105653562A (zh) | 一种文本内容与查询请求之间相关性的计算方法及装置 | |
CN110851584B (zh) | 一种法律条文精准推荐系统和方法 | |
CN112051986B (zh) | 基于开源知识的代码搜索推荐装置及方法 | |
CN113239071B (zh) | 面向科技资源学科及研究主题信息的检索查询方法及系统 | |
CN111241410B (zh) | 一种行业新闻推荐方法及终端 | |
CN110688474A (zh) | 基于深度学习与链接预测的嵌入表示获得及引文推荐方法 | |
CN112434164A (zh) | 一种兼顾话题发现和情感分析的网络舆情分析方法及系统 | |
CN115329085A (zh) | 一种社交机器人分类方法及系统 | |
CN116108191A (zh) | 一种基于知识图谱的深度学习模型推荐方法 | |
Hu et al. | Retrieval-based language model adaptation for handwritten Chinese text recognition | |
KR102563539B1 (ko) | 우려거래자 정보 수집 및 관리 시스템과 그 방법 | |
CN114493783A (zh) | 一种基于双重检索机制的商品匹配方法 | |
Parthasarathy et al. | A survey of sentiment analysis for journal citation | |
CN106294295A (zh) | 基于词频的文章相似度识别方法 | |
KR102298397B1 (ko) | 인용 유형 기반의 인용 관계 분석 방법 및 시스템 | |
CN111339303B (zh) | 一种基于聚类与自动摘要的文本意图归纳方法及装置 | |
CN110019814B (zh) | 一种基于数据挖掘与深度学习的新闻信息聚合方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |