CN113516094A

CN113516094A - 一种用于为文档匹配评议专家的系统以及方法

Info

Publication number: CN113516094A
Application number: CN202110856600.8A
Authority: CN
Inventors: 梁英; 谢小杰; 刘政君; 王梓森
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2021-10-19
Anticipated expiration: 2041-07-28
Also published as: CN113516094B

Abstract

本发明实施例提供了一种用于为文档匹配评议专家的系统以及方法，该系统包括：专家特征提取模块，其利用神经网络用于根据专家描述文本和专家学术专长信息获取专家特征表示；文档特征提取模块，其利用神经网络根据待评议文档的文档描述、学科分类信息和关键词信息获取文档特征表示；专家匹配模块，其利用神经网络根据专家特征表示和文档特征表示计算专长匹配度，并基于专长匹配度生成候选专家列表；本发明在专家和待评议文档方面均从不同的类别提取相关的信息，以更精准地提取到两者的语义特征，降低语义鸿沟，提高专家推荐的精度。

Description

一种用于为文档匹配评议专家的系统以及方法

技术领域

本发明涉及信息匹配技术领域，具体来说涉及学术数据挖掘领域，更具体地说，涉及一种用于为文档匹配评议专家的系统以及方法。

背景技术

同行评议是若干领域的专家共同对学术成果、科技项目、科研学者等进行评价的活动。随着同行评议和学术科研活动的蓬勃发展，新的同行评议需求不断地被提出，专家库信息不断地被更新和规模增大，使得专家推荐的需求飞速增长。专家推荐通过学术专长匹配和专家遴选两步为同行评议提供一批满足评议要求的专家，成为了同行评议活动顺利开展的基础，在诸如项目评审、论文评审、技术招标、科技成果奖励与孵化、需求对接等同行评议活动中获得了广泛应用。作为专家推荐的重要环节，学术专长匹配的目的是根据待评议文档对专家库中的专家进行匹配，为后续的专家遴选提供专业背景相符的候选专家列表。根据具体同行评议场景的不同，待评议文档包括：1)项目评审场景的项目指南；2)论文评审场景的学术论文；3)技术招标场景的招标文档；4)科研成果奖励与孵化场景的科研成果；5)需求对接场景的需求文档。学术专长匹配通过专家信息和待评议文档确定专家的匹配程度，实现在同行评议活动中精确匹配出候选专家，从而保证专家推荐的匹配精准度和同行评议的质量。

现有的用于为文档匹配评议专家的技术主要存在如下的缺点和不足：

1)没有充分利用专家和待评议文档的多类特征信息，导致学术专长匹配精准度不高。现有学术专长匹配技术主要根据专家描述文本和待评议文档的描述文本进行特征建模，通过主题建模和文本表示提取特征，仅利用了单一的文本信息，忽略了其他语义特征，导致学术专长匹配结果不准确。

2)没有考虑到学术专长匹配的语义鸿沟问题，难以准确建模信息间的语义相关性。现有学术专长匹配技术主要通过关键词搜索的方式进行匹配，造成关键词和信息之间的存在语义鸿沟问题，特征表示建模的方式也仅能提取信息中的浅层语义特征，无法对语义特征进行深度刻画。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种用于为文档匹配评议专家的系统以及方法。

本发明的目的是通过以下技术方案实现的：

根据本发明的第一方面，提供一种用于为文档匹配评议专家的系统，包括：专家特征提取模块，其利用神经网络根据专家描述文本和专家学术专长信息获取专家特征表示；文档特征提取模块，其利用神经网络用于根据待评议文档的文档描述、学科分类信息和关键词信息获取文档特征表示；专家匹配模块，其利用神经网络用于根据专家特征表示和文档特征表示计算专长匹配度，并基于专长匹配度生成候选专家列表。

在本发明的一些实施例中，所述专家特征提取模块包括：专家文本特征提取单元，用于提取专家描述文本的特征以生成专家文本特征表示；学术专长特征提取单元，用于根据专家学术专长信息提取其中每种学术专长的向量表示，并通过向量加法进行池化融合，生成学术专长特征表示；专家特征融合单元，用于拼接专家文本特征表示和学术专长特征表示，对拼接得到的向量进行线性变换，生成专家特征表示。

在本发明的一些实施例中，所述专家文本特征提取单元包括全连接网络和卷积神经网络，并被配置为根据单词嵌入表和全连接网络将专家描述文本中的每个单词转换为单词向量，根据卷积神经网络对所有单词向量进行卷积操作得到每个单词的特征映射向量，根据池化函数对所有特征映射向量进行池化操作，得到专家文本特征表示。

在本发明的一些实施例中，所述学术专长特征提取单元包括全连接网络，并被配置为根据学术专长嵌入表和全连接网络将学术专长信息中的每种学术专长转换为学术专长向量，利用向量加法对所有学术专长向量进行池化融合，得到学术专长特征表示。

在本发明的一些实施例中，专家特征融合单元包括全连接网络，并被配置为利用全连接网络对专家文本特征表示、学术专长特征表示进行融合，经过非线性变换后，得到专家特征表示。

在本发明的一些实施例中，所述文档特征提取模块包括：评议文本特征提取单元，用于提取待评议文档的描述文本的特征以生成评议文本特征表示；学科分类特征提取单元，用于提取学习学科分类信息中每个学科节点的向量表示，并通过向量加法进行池化融合，生成学科分类特征表示；关键词特征提取单元，用于提取关键词信息中每个关键词的向量表示，并通过向量加法进行池化融合，生成关键词特征表示；文档特征融合单元，用于拼接评议文本特征表示、学科分类特征表示和关键词特征表示，并对拼接得到的向量进行线性变换，生成文档特征表示。

在本发明的一些实施例中，所述评议文本特征提取单元包括全连接网络和卷积神经网络，并被配置为：根据单词嵌入表和全连接网络将待评议文档的描述文本中的每个单词转换为单词向量，根据卷积神经网络对所有单词向量进行卷积操作得到每个单词的特征映射向量，根据池化函数对所有特征映射向量进行池化操作，得到评议文本特征表示。

在本发明的一些实施例中，所述学科分类特征提取单元包括全连接网络，并被配置为根据学科分类嵌入表和全连接网络将学科分类信息中的每种学科分类转换为学科分类向量，利用向量加法对所有学科分类向量进行池化融合，得到学科分类特征表示。

在本发明的一些实施例中，所述关键词特征提取单元包括全连接网络，并被配置为：根据关键词嵌入表和全连接网络将关键词信息中的每种关键词转换为关键词向量，利用向量加法对所有关键词向量进行池化融合，得到关键词特征表示。

在本发明的一些实施例中，所述文档特征融合单元包括全连接网络，并被配置为：利用全连接网络对评议文本特征表示、学科分类特征表示、关键词特征表示进行融合，经过非线性变换后，得到文档特征表示。

在本发明的一些实施例中，所述专家匹配模块包括：专长匹配度计算单元，用于根据专家特征表示和文档特征表示计算衡量多个专家与待评议文档之间的语义相关性的专长匹配度；候选专家筛选单元，用于根据所有专家的专长匹配度生成候选专家列表。

在本发明的一些实施例中，专长匹配度计算模块采用全连接网络按照以下方式计算所述专长匹配度：

其中，σ表示sigmoid函数，α表示人工设置的语义匹配超参数，α∈(0，1)，

表示向量乘法，⊙表示余弦相似度计算，[]表示向量拼接，W_p表示专长匹配度计算模块的全连接网络的权重参数。

在本发明的一些实施例中，所述系统是按照以下方式训练得到的：获取训练集，其中，每个样本的组织形式为：待评议文档数据、正例专家数据、一个或者多个负例专家数据，待评议文档数据包括待评议文档的描述文本、学科分类信息和关键词信息，正例专家数据和负例专家数据包括专家描述文本和专家学术专长信息；利用训练集和损失函数对专家特征提取模块、文档特征提取模块和专家匹配模块中的神经网络进行训练，该损失函数被配置为在减小损失值过程中增大正例专家被选为候选专家的概率。

在本发明的一些实施例中，所述损失函数表示为：

Loss＝-log(ΠP(D⁺|D_r))

其中，P(D⁺|D_r)＝exp(p⁺)/(exp(p⁺)+exp(p₁ ^-)+…+exp(p_τ ^-))，p⁺表示正例专家的专长匹配度，p₁ ^-表示第1个负例专家的专长匹配度，p_τ ^-表示第τ个负例专家的专长匹配度，τ≥1，Π表示连乘符号。

根据本发明的第二方面，提供一种基于第一方面所述的系统中用于为文档匹配评议专家的方法，包括：根据专家描述文本和专家学术专长信息获取专家特征表示；根据待评议文档的文档描述、学科分类信息和关键词信息获取文档特征表示；根据专家特征表示和文档特征表示计算专长匹配度，基于专长匹配度生成候选专家列表。

根据本发明的第三方面，提供一种电子设备，包括：一个或多个处理器；以及存储器，其中存储器用于存储一个或多个可执行指令；所述一个或多个处理器被配置为经由执行所述一个或多个可执行指令以实现第二方面所述方法的步骤。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1为根据本发明实施例的用于为文档匹配评议专家的系统的模块示意图；

图2为根据本发明实施例的用于为文档匹配评议专家的系统的一个实施方式的模块组成示意图；

图3为根据本发明实施例的用于为文档匹配评议专家的系统的一个实施方式的模块连接示意图；

图4为根据本发明实施例的用于为文档匹配评议专家的方法的流程示意图；

图5为根据本发明实施例的用于为文档匹配评议专家的方法的子步骤的流程示意图；

图6为根据本发明实施例的用于为文档匹配评议专家的方法的子步骤的流程示意图；

图7为根据本发明实施例的一个实验中有关增益率的实验结果对比图；

图8为根据本发明实施例的一个实验中有关命中率率的实验结果对比图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如在背景技术部分提到的，目前用于为文档匹配评议专家的技术主要存在没有充分利用专家和待评议文档的多类特征信息导致学术专长匹配精准度不高以及没有考虑到学术专长匹配的语义鸿沟问题，难以准确建模信息间的语义相关性。在进行学术专长匹配时，需要满足如下2个需求：1)专家和待评议文档的多类特征建模。专家的特征信息主要包括短文本和学术专长标签集合，表达了专家的科研经历、知识技能、研究领域等信息；待评议文档的特征信息包括短文本、学科分类集合和关键词集合，概括了待评议文档的主旨、所属领域和关键内容。建模专家和待评议文档的多类特征并用于学术专长匹配，有利于从不同角度对专家和待评议文档进行精确刻画，提升学术专长匹配精准度；2)专家和待评议文档特征的语义匹配。学术专长匹配依赖于专家和待评议文档的信息匹配，由于表达形式的不同，往往会造成信息之间的语义鸿沟问题，如“信息检索”和“用户查询”、“搜索引擎”等是语义关联的，但它们不存在字词重叠，直接通过文本检索匹配会导致无法捕捉词语之间的语义相关性。在进行学术专长匹配时，需要考虑专家和待评议文档信息之间的语义相关性，解决语义鸿沟问题。因此，本发明在专家和待评议文档方面均从不同的类别提取相关的信息，以更精准地提取到两者的语义特征，降低语义鸿沟，提高专家推荐的精度。

在对本发明的实施例进行具体介绍之前，先对其中使用到的部分术语作如下解释：

专家描述文本是对专家的介绍信息。专家描述文本包括专家知识技能、研究领域或科研经历及其组合。例如：本人擅长A技能、B技能，主要从事人工智能、数据挖掘等方面的研究，在2011年主导C公司的人脸识别项目，在2014年参与D省的大数据舆情监测项目等。

学术专长信息是对专家的学术专长进行概括表示的信息。专家学术专长信息是由一个或者多个文本标签构成的集合，包括专家的学术专长、研究领域或知识技能及其组合。例如：一个专家的学术专长信息表示为：{“人工智能”,“数据挖掘”,“信息检索”}。

待评议文档，是需要进行评议的文档。即：需要专家库中的某个或者某几个专家对其进行同行评议或者专家评议的文档。待评议文档是学术专长匹配的主要目标，需要为其匹配一系列领域相关的候选专家，根据具体同行评议场景的不同，待评议文档例如是：1)涉及项目评审场景的项目指南；2)涉及需求对接场景的需求文档；3)涉及论文评审场景的学术论文；4)涉及科研成果奖励与孵化场景的科研成果；5)技术招标场景的招标文档。

待评议文档的描述文本，是对待评议文档的介绍信息。描述文本具体如何设置可以由用户自定义。例如，用户可以定义待评议文档的描述文本用于概括描述待评议文档的内容、主旨和主要细节等信息。一个示意性的待评议文档的描述文本为：本项目是交叉领域研究，主要涉及数据挖掘、人工智能、文本处理等方面的内容。应当理解，还可能有其他的定义形式，例如，在待评议文档都比较小时，待评议文档可以直接作为待评议文档的描述文本。又例如，在待评议文档较大，超过了一定长度，可以取待评议文档中一定字数或者词数的段落作为待评议文档的描述文本；又或者，取待评议文档的摘要(如论文摘要)作为待评议文档的描述文本；再或者，根据相应的算法抽取相应的关键段落作为待评议文档的描述文本。

学科分类信息，是由待评议文档所属的学科节点构成，描述了待评议文档在学科分类树中所属学科领域的情况。优选的，待评议文档所属的学科节点包括学科树上根节点到叶节点的路径上的所有节点。例如：如果待评议文档是学术论文，在中图分类法中的中图分类号为TP391-信息加工，则在中图分类树中的学科分类路径为[T-工业技术]-[TP-自动化技术、计算机技术]-[TP3-计算技术、计算机技术]-[TP39-计算机应用]-[TP391-信息加工]，从而学科分类信息为{“T-工业技术”,“TP-自动化技术、计算机技术”,“TP3-计算技术、计算机技术”,“TP39-计算机应用”,“TP391-信息加工”}。

关键词信息，是指待评议文档的关键内容构成的信息；可以是多个关键词组成的集合。关键词信息可以由人工填写或从待评议文档中提取的关键词构成，概括了待评议文档的关键内容。例如，一个示意性的关键词信息表示为：{“信息检索”,“文本挖掘”,“大数据处理”}。

参见图1，根据本发明的一个实施例，提供一种用于为文档匹配评议专家的系统，包括专家特征提取模块11、评议特征提取模块12、语义特征匹配模块13。其中，专家特征提取模块11，其利用神经网络根据专家描述文本和专家学术专长信息获取专家特征表示；文档特征提取模块12，其利用神经网络根据待评议文档的文档描述、学科分类信息和关键词信息获取文档特征表示；专家匹配模块13，其利用神经网络根据专家特征表示和文档特征表示计算专长匹配度，并基于专长匹配度生成候选专家列表。优选的，专长匹配度是专家特征表示和文档特征表示的余弦相似度。该实施例的技术方案至少能够实现以下有益技术效果：本发明研究了同行评议专家学术专长匹配系统，通过专家特征提取、文档特征提取建模了专家和待评议文档的多类特征信息，生成了专家特征表示和评议特征表示，并计算特征表示之间的余弦相似度进行语义特征匹配，输出专长匹配度作为候选专家的排序筛选依据；与现有技术相比，本发明能够充分利用专家和待评议文档的多类特征信息，通过神经网络有效建模、提取和融合信息中的隐含语义特征，并通过语义匹配建模信息之间的语义关联，解决学术专长匹配的语义鸿沟问题，提升学术专长匹配的精准度。

根据本发明的一个实施例，参见图2，专家特征提取模块11包括：专家文本特征提取单元111、学术专长特征提取单元112、专家特征融合单元113。专家文本特征提取单元111利用卷积神经网络提取专家描述文本特征，生成专家文本特征表示；学术专长特征提取单元112利用嵌入方法学习专家学术专长标签集合中每个标签的向量表示，并通过向量加法进行池化融合，生成学术专长特征表示；专家特征融合单元113拼接专家文本特征表示和学术专长特征表示，并利用全连接层进行线性变换，生成专家特征表示。

为了提取专家描述文本的特征，要设置相应的单词嵌入表。根据本发明的一个实施例，系统中存储有单词嵌入表。单词嵌入表中用独热码(One-hot code)对词库中所有单词进行编码。后面用E_W表示单词嵌入表。设专家描述文本分词后的单词序列为H_i＝{g_z|1≤z≤|H_i|}。其中，g_z表示第z个单词，|H_i|表示单词序列H_i的大小。每个单词g_z均与单词嵌入表E_W中的单词向量e_z一一对应。

专家文本特征提取单元111主要用于根据专家信息，进行专家特征提取，生成专家特征表示。根据本发明的一个实施例，专家文本特征提取单元111根据专家描述文本，提取专家文本特征表示。优选的，专家文本特征提取单元111包括全连接网络和卷积神经网络。专家文本特征提取单元111被配置为：根据单词嵌入表和全连接网络将专家描述文本中的每个单词转换为单词向量，根据卷积神经网络对所有单词向量进行卷积操作得到每个单词的特征映射向量，根据池化函数对所有特征映射向量进行池化操作，得到专家文本特征表示。例如，根据单词嵌入表E_W查找到的专家描述文本的单词序列H_i中每个单词g_z对应的独热码，用全连接网络将查找到的独热码转换为每个单词的单词向量e_z，构建词向量矩阵G，并设定卷积步长为1，利用ρ个卷积核：ω₁、…、ω_a、…、ω_ρ进行卷积，经过池化后提取特征，生成专家文本特征表示g。专家文本特征表示中含有专家文本特征信息。

g＝(λ(c₁)…,λ(c_a),…,λ(c_ρ))；

其中，[]表示向量拼接，λ表示最大值池化函数，c_a表示利用第a个卷积核ω_a进行卷积后产生的特征映射向量，δ表示卷积核ω_a的尺寸，e_z:z+δ-1表示由e_z到e_z+δ-1之间的词向量构成的矩阵。

类似的，为了提取学术专长信息的特征，要设置相应的嵌入表。根据本发明的一个实施例，系统中存储有学术专长嵌入表。学术专长可以用学术专长标签表示。学术专长嵌入表中用独热码对每个学术专长标签进行编码。后面用E_F表示学术专长嵌入表。设学术专长信息为F_i＝{f_j|1≤j≤|F_i|}。其中，|F_i|表示学术专长信息F_i的大小。每个学术专长标签f_j均与学术专长嵌入表E_F中的学术专长向量u_j一一对应。

学术专长特征提取单元112用于根据专家的学术专长信息，提取学术专长特征表示。根据本发明的一个实施例，学术专长特征提取单元112用于根据专家的学术专长信息提取其中每种学术专长的向量表示，并通过向量加法进行池化融合，生成学术专长特征表示。优选的，学术专长特征提取单元112包括全连接网络。学术专长特征提取单元112被配置为：根据学术专长嵌入表和全连接网络将学术专长信息中的每种学术专长转换为学术专长向量，利用向量加法对所有学术专长向量进行池化融合，得到学术专长特征表示。例如，根据学术专长嵌入表E_F，查找到专家v_i的学术专长信息F_i中每个学术专长标签f_j对应的独热码，用全连接网络将查找到的独热码转换为学术专长向量u_j，并利用向量加法进行池化融合，生成学术专长特征表示u。学术专长特征表示中含有专家学术专长特征信息。

其中，

表示向量加法。

专家特征融合单元113主要用于对专家文本特征表示以及学术专长特征表示进行融合，生成专家特征表示。根据本发明的一个实施例，专家特征融合单元113包括全连接网络，利用全连接网络对专家文本特征表示、学术专长特征表示进行融合，经过非线性变换后，得到专家v_i的专家特征表示x_i。

优选的，专家特征融合单元生成专家特征表示的处理过程表示为：

x_i＝tanh(W_x·[g,u]+b_x)；

其中，[g,u]表示对专家文本特征表示g和学术专长特征表示u进行拼接，W_x表示专家特征融合单元的全连接网络的权重参数，b_x专家特征融合单元的全连接网络的偏量，tanh(·)表示用于对括号内的向量进行非线性变换的双曲正切函数。该实施例的技术方案至少能够实现以下有益技术效果：能够充分利用专家描述文本和学术专长信息，将两类专家信息转换为专家特征表示，更丰富地提取专家信息中的隐含语义特征，有利于与待评议文档进行语义匹配。

根据本发明的一个实施例，参见图2，文档特征提取模块12用于建模待评议文档特征、提取文档特征表示。文档特征提取模块12包括评议文本特征提取单元121、学科分类特征提取单元122、关键词特征提取单元123、文档特征融合单元124。评议文本特征提取单元121利用卷积神经网络提取待评议文档的描述文本特征，生成评议文本特征表示；学科分类特征提取单元122利用嵌入方法学习学科分类集合中每个学科节点的向量表示，并通过向量加法进行池化融合，生成学科分类特征表示；关键词特征提取单元123利用嵌入方法学习关键词集合中每个关键词的向量表示，并通过向量加法进行池化融合，生成关键词特征表示；文档特征融合单元124拼接评议文本特征表示、学科分类特征表示和关键词特征表示，并利用全连接层进行线性变换，生成文档特征表示。

类似的，为了提取待评议文档的描述文本的特征，也可以设置相应的单词嵌入表。由于待评议文档和专家描述文本都具有大量的词汇，两者可以共用一个单词嵌入表。设待评议文档的描述文本分词后的单词序列为W＝{w_d|1≤d≤|W|}，其中，w_d表示第d个单词，|W|表示单词序列W的大小。每个单词w_d均与单词嵌入表E_W中的单词向量e_d一一对应。

对于评议文本特征提取单元121，根据本发明的一个实施例，评议文本特征提取单元121包括全连接网络和卷积神经网络。评议文本特征提取单元121被配置为：根据单词嵌入表和全连接网络将待评议文档的描述文本中的每个单词转换为单词向量，根据卷积神经网络对所有单词向量进行卷积操作得到每个单词的特征映射向量，根据池化函数对所有特征映射向量进行池化操作，得到评议文本特征表示。例如，根据单词嵌入表E_W，查找单词序列W中每个单词w_d对应的独热码，用全连接网络将查找到的独热码转换为每个单词的单词向量e_d，构建词向量矩阵Q，并设定卷积步长为1，利用ρ个卷积核：ω₁、…、ω_a、…、ω_ρ进行卷积，经过池化后提取特征，生成评议文本特征表示q。评议文本特征表示中含有待评议文档的文本特征信息。

Q＝[e₁,…,e_d,…,e_|W|]

c_k＝(ω_k(e_1:δ-1),…,ω_k(e_d:d+δ-1),…,ω_k(e_|W|-δ+1:|W|))

q＝(λ(c₁)…,λ(c_k),…,λ(c_ρ))

其中，[]表示向量拼接，λ表示最大值池化函数，c_k表示利用第k个卷积核ω_k进行卷积后产生的特征映射向量，δ表示卷积核ω_k的尺寸，e_d:d+δ-1表示由e_d到e_d+δ-1之间的词向量构成的矩阵。

类似的，为了提取待评议文档的学科分类的特征，也可以设置相应的嵌入表。根据本发明的一个实施例，系统中存储有学科分类嵌入表。学科分类嵌入表中用独热码对学科分类库中所有学科分类进行编码。后面用E_S表示学科分类嵌入表。设学科分类信息为S＝{s_l|1≤l≤|S|}，其中，s_l表示第l个学科节点，|S|表示学科分类信息S的大小。每个学科节点均与学科分类嵌入表E_S中的学科分类向量r_l一一对应。

对于学科分类特征提取单元122，主要用于根据待评议文档的学科分类信息，提取学科分类特征表示。根据本发明的一个实施例，学科分类特征提取单元122，用于提取学习学科分类信息中每个学科节点的向量表示，并通过向量加法进行池化融合，生成学科分类特征表示。优选的，学科分类特征提取单元122包括全连接网络。学科分类特征提取单元122被配置为：根据学科分类嵌入表和全连接网络将学科分类信息中的每种学科分类转换为学科分类向量，利用向量加法对所有学科分类向量进行池化融合，得到学科分类特征表示。例如，根据学科分类嵌入表E_S，查找学科分类信息S中每个学科节点s_l对应的独热码，用全连接网络将查找到的独热码转换为学科分类向量r_l，并利用向量加法进行池化聚合，生成学科分类特征表示r。学科分类特征表示中含有待评议文档的学科分类特征信息。

其中，

表示向量加法。

类似的，为了提取待评议文档的关键词的特征，也可以设置相应的嵌入表。根据本发明的一个实施例，系统中存储有关键词嵌入表。关键词嵌入表中用独热码对关键词库中所有关键词进行编码。后面用E_K表示关键词嵌入表。设待评议文档的关键词信息为K＝{k_m|1≤m≤|K|}，k_m表示第m个关键词，|K|表示关键词信息K的大小。每个关键词均与关键词嵌入表E_K中的关键词向量t_m一一对应。

关键词特征提取单元123，用于根据待评议文档的关键词信息，提取关键词特征表示。根据本发明的一个实施例，关键词特征提取单元，用于提取关键词信息中每个关键词的向量表示，并通过向量加法进行池化融合，生成关键词特征表示。优选的，关键词特征提取单元123包括全连接网络。关键词特征提取单元123被配置为：根据关键词嵌入表和全连接网络将关键词信息中的每种关键词转换为关键词向量，利用向量加法对所有关键词向量进行池化融合，得到关键词特征表示。例如，根据关键词嵌入表E_K，查找关键词信息K中每个关键词k_m对应的独热码，用全连接网络将查找到的独热码转换为关键词向量t_m，并利用向量加法进行池化聚合，生成关键词特征表示t。关键词特征表示中含有待评议文档的关键词特征信息。

其中，

表示向量加法。

文档特征融合单元124，主要用于对评议文本特征表示、学科分类特征表示、关键词特征表示进行融合，生成文档特征表示。根据本发明的一个实施例，文档特征融合单元124包括全连接网络，利用全连接网络对评议文本特征表示q、学科分类特征表示r、关键词特征表示t进行融合，经过非线性变换后，得到文档特征表示y。文档特征表示也可称待评议文档特征表示，其中含有待评议文档的语义特征信息。

y＝tanh(W_y·[q,r,t]+b_y)；

其中，[q,r,t]表示对评议文本特征表示q、学科分类特征表示r、关键词特征表示t进行向量拼接，W_y表示文档特征融合单元的全连接网络的权重参数，b_y分别表示文档特征融合单元的全连接网络的偏量，tanh(·)表示用于对括号内的向量进行非线性变换的双曲正切函数。该实施例的技术方案至少能够实现以下有益技术效果：能够充分利用待评议文档的描述文本、学科分类信息和关键词信息，利用三类待评议文档的信息提取文档特征表示，更丰富地提取待评议文档中的隐含语义特征，有利于与专家信息进行语义匹配。

根据本发明的一个实施例，参见图2，专家匹配模块13用于专家特征表示和文档特征表示的语义匹配。专家匹配模块13包括专长匹配度计算模块131、候选专家筛选模块132。专长匹配度计算模块131利用专家特征表示和文档特征表示计算专长匹配度，衡量专家与待评议文档之间的语义相关性；候选专家筛选模块132根据所有专家的专长匹配度进行筛选，选出前n个作为候选专家，生成候选专家列表。

根据本发明的一个实施例，专长匹配度计算模块131包括全连接网络。专长匹配度计算模块131被配置为利用全连接网络计算专长匹配度，其中，根据专家特征表示x_i和文档特征表示y进行语义匹配，计算专家和待评议文档的专长匹配度p_i。专长匹配度按照以下方式计算：

表示向量乘法，⊙表示余弦相似度计算，[]表示向量拼接，W_p表示专长匹配度计算模块的全连接网络的权重参数。该实施例的技术方案至少能够实现以下有益技术效果：能够有效捕捉专家信息和待评议文档之间的语义关联，解决学术专长匹配的语义鸿沟问题，提升匹配精准度。

根据本发明的一个实施例，候选专家筛选模块132用于对所有专家的专长匹配度进行排序，筛选出候选专家列表。例如，对所有专家的专长匹配度进行降序排序，选择前n个的专家构建候选专家列表C＝{v_i|τ(v_i)＝1,τ:V→{0,1}}。其中，τ为指示函数，如果专家v_i对应的专长匹配度p_i排在前n以内，则τ(v_i)＝1，否则τ(v_i)＝0。

根据本发明的一个实施例，训练集中每个样本的组织形式为：待评议文档数据、正例专家数据、负例专家数据1、…、负例专家数据τ，τ≥1，待评议文档数据包括待评议文档的描述文本、学科分类信息和关键词信息，正例专家数据和负例专家数据包括专家描述文本和专家学术专长信息。训练集样本的结构形式有元素个数为τ+2的元组构成，τ(τ>0)可根据需求自定：

(待评议文档D_r，正例专家D⁺，负例专家D₁ ^-，…，负例专家D_τ ^-)。

专家库中的专家是学术专长匹配的主要对象，在训练数据中，正例专家和负例专家的数据格式一样。训练集的数据标签只有0和1，通过正例专家和负例专家体现，正例专家D⁺表示真实数据中待评议文档D_r候选专家列表中的某个专家，其数据标签为1，负例专家D₁ ^-，…，负例专家D_τ ^-表示真实数据中待评议文档候选专家之外的其他专家，其数据标签为0。

优选的，利用训练集和损失函数对专家特征提取模块、文档特征提取模块和专家匹配模块中的神经网络进行训练，该损失函数被配置为在减小损失值过程中增大正例专家被选为候选专家的概率。优选的，损失函数表示为：

Loss＝-log(ΠP(D⁺|D_r))；

其中，P(D⁺|D_r)＝exp(p⁺)/(exp(p⁺)+exp(p₁ ^-)+…+exp(p_τ ^-))，p⁺表示正例专家的专长匹配度，p₁ ^-表示第1个负例专家的专长匹配度，p_τ ^-表示第τ个负例专家的专长匹配度，τ≥1，Π表示连乘符号。即计算每个训练样本的正例专家的概率P(D⁺|D_r)，然后对同一批量(batch)中的所有正例专家概率进行连乘，并取负对数。最小化损失函数等价于最大化正例专家被选为候选专家的概率。应当理解，该损失函数也可等价表示为Loss＝-Σlog P(D⁺|D_r)，其中，Σ表示求和符号。

根据本发明的一个示例，表1直观展示了一个示意性的系统的各个单元所采用的神经网络类型以及参数说明：

表1

应当理解的是，表1中人工设置的参数均为超参数，可根据具体网络构建需求进行设置。虽然多个单元中均具有全连接网络或卷积神经网络，但不同的单元中全连接网络的参数是不同的，不同的单元卷积神经网络的参数也是不同的。但专家特征融合单元113和文档特征融合单元124中，全连接层的输出维度需保持一致。

根据本发明的一个实施例，提供一种在上述实施例的系统中执行的用于为文档匹配评议专家的方法，包括：根据专家描述文本和专家学术专长信息获取专家特征表示；根据待评议文档的文档描述、学科分类信息和关键词信息获取文档特征表示；根据专家特征表示和文档特征表示计算专长匹配度，基于专长匹配度生成候选专家列表。

根据本发明的一个实施例，参见图4，该用于为文档匹配评议专家的方法包括：

S100、获取待评议文档的描述文本、学科分类信息和关键词信息，并设置相应的向量嵌入表；

S200、根据待评议文档的描述文本、学科分类信息和关键词信息和相应的向量嵌入表，进行文档特征提取，生成文档特征表示；

S300、获取专家描述文本和学术专长信息，并设置相应的向量嵌入表；

S400、根据专家描述文本、学术专长信息和相应的向量嵌入表，进行专家特征提取，生成专家特征表示；

S500、根据专家特征表示和文档特征表示进行语义特征匹配，计算专长匹配度；

S600、判断是否存在未处理的专家，若是，转至步骤S400，若否，转至步骤S700；

S700、对所有专家的专长匹配度进行排序，筛选出候选专家列表。

优选的，参见图5，步骤S200包括：

S201、根据待评议文档的描述文本，提取评议文本特征表示；

S202、根据待评议文档的学科分类集合，提取学科分类特征表示；

S203、根据待评议文档的关键词集合，提取关键词特征表示；

S204、对评议文本特征表示、学科分类特征表示、关键词特征表示进行融合和非线性变换，生成评议特征表示。

优选的，参见图6，步骤S400包括：

S401、根据专家描述文本，提取专家文本特征表示

S402、根据专家的学术专长信息，提取学术专长特征表示

S403、对专家文本特征表示以及学术专长特征表示进行融合和非线性变换，生成专家特征表示。

应当理解，该方法还有其他的实施方式。例如，先把提取所有专家的专家特征表示后保存到专家特征库。根据本发明的一个实施例，该用于为文档匹配评议专家的方法包括：

T100、获取预先存储在专家特征库的所有专家的专家特征表示；

T200、获取待评议文档的描述文本、学科分类信息和关键词信息，并设置相应的向量嵌入表；

T300、根据待评议文档的描述文本、学科分类信息和关键词信息和相应的向量嵌入表，进行文档特征提取，生成文档特征表示；

T400、根据专家特征表示和文档特征表示进行语义特征匹配，计算专长匹配度；

T500、对所有专家的专长匹配度进行排序，筛选出候选专家列表。

为了验证本发明的效果，申请人进行了如下的实验。

本发明的系统用ExpRec表示，实验过程中，采用了一些现有技术进行对照，包括：

1)LDA：主题建模方法，构造文档-关键词矩阵，训练LDA主题模型并计算专家描述文本和待评议文档的描述文本的主题向量，通过主题向量之间的余弦相似度进行学术专长匹配；

2)ATM：主题建模方法，构造专家-待评议文档矩阵以及文档-关键词矩阵，利用ATM模型建模专家描述文本和待评议文档的描述文本的主题向量，并根据主题向量的余弦相似度进行学术专长匹配；

3)LSA：主题建模方法，构造文档-关键词矩阵，利用LSA主题模型计算专家描述文本和待评议文档的描述文本的主题向量，并根据主题向量之间的余弦相似度进行学术专长匹配；

4)word2vec：语义匹配方法，利用专家描述文本和待评议文档的描述文本训练词向量，通过均值池化计算句向量的方式编码文本特征，并使用余弦相似度衡量专家和待评议文档之间的语义相关性；

5)CNN-DSSM：语义匹配方法，利用TextCNN模型编码专家描述文本和待评议文档的描述文本，生成专家特征表示和文档特征表示，使用DSSM框架进行训练后，用于学术专长语义匹配；

6)BERT：语义匹配方法，利用BERT编码专家描述文本、学术专长信息以及待评议文档的描述文本、学科分类路径、关键词信息等信息，对输出的特征表示向量进行均值池化，输入全连接层中，计算专长匹配度以进行学术专长匹配。

为了评估主题建模方法和语义匹配方法的学术专长匹配效果，实验使用增益率(NDCG@K)和命中率(HR@K)作为评价指标：

使用增益率的计算公式为：

其中，r_k表示第k个专家与待评议文档的相关性因子，取值为0或1，r_k＝0时表示匹配专家为负例专家，与待评议文档不相关，r_k＝1时表示匹配专家为正例专家，与待评议文档相关，Z_K表示归一化因子。

命中率的计算公式为：

HR@K＝cvr/M；

设M＝|A|、N＝|B|、cvr＝|A∩B|，其中，||表示集合元素个数，A表示根据标注数据确定的前K个正例专家构成的集合，B表示学术专长匹配结果中排在前K个位置的专家构成的集合。

增益率NDCG@K是位置敏感的评价指标，用于评价前K个匹配结果中正例专家的排名情况，正例专家排名越靠前，增益率越大；命中率HR@K对位置不敏感，用于评价前K个匹配结果中正例专家的比例，正例专家比例越大，命中率越大。

增益率NDCG@K的实验对比结果如图7所示，横坐标的topK候选专家表示排序靠前的K个候选专家，纵坐标表示增益率；命中率HR@K的实验对比结果如图8所示，横坐标的topK候选专家表示排序靠前的K个候选专家，纵坐标表示命中率。可以看出，本发明的ExpRec方法在命中率和增益率上达到了最佳效果，验证了本发明所提方法的有效性。

需要说明的是，虽然上文按照特定顺序描述了各个步骤，但是并不意味着必须按照上述特定顺序来执行各个步骤，实际上，这些步骤中的一些可以并发执行，甚至改变顺序，只要能够实现所需要的功能即可。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于为文档匹配评议专家的系统，其特征在于，包括：

专家特征提取模块，其利用神经网络根据专家描述文本和专家学术专长信息获取专家特征表示；

文档特征提取模块，其利用神经网络根据待评议文档的文档描述、学科分类信息和关键词信息获取文档特征表示；

专家匹配模块，其利用神经网络根据专家特征表示和文档特征表示计算专长匹配度，并基于专长匹配度生成候选专家列表。

2.根据权利要求1所述的系统，其特征在于，所述专家特征提取模块包括：

专家文本特征提取单元，用于提取专家描述文本的特征以生成专家文本特征表示；

学术专长特征提取单元，用于根据专家学术专长信息提取其中每种学术专长的向量表示，并通过向量加法进行池化融合，生成学术专长特征表示；

专家特征融合单元，用于拼接专家文本特征表示和学术专长特征表示，对拼接得到的向量进行线性变换，生成专家特征表示。

3.根据权利要求2所述的系统，其特征在于，所述专家文本特征提取单元包括全连接网络和卷积神经网络，并被配置为根据单词嵌入表和全连接网络将专家描述文本中的每个单词转换为单词向量，根据卷积神经网络对所有单词向量进行卷积操作得到每个单词的特征映射向量，根据池化函数对所有特征映射向量进行池化操作，得到专家文本特征表示。

4.根据权利要求2所述的系统，其特征在于，所述学术专长特征提取单元包括全连接网络，并被配置为根据学术专长嵌入表和全连接网络将学术专长信息中的每种学术专长转换为学术专长向量，利用向量加法对所有学术专长向量进行池化融合，得到学术专长特征表示。

5.根据权利要求2所述的系统，其特征在于，专家特征融合单元包括全连接网络，并被配置为利用全连接网络对专家文本特征表示、学术专长特征表示进行融合，经过非线性变换后，得到专家特征表示。

6.根据权利要求1至5任一项所述的系统，其特征在于，所述文档特征提取模块包括：

评议文本特征提取单元，用于提取待评议文档的描述文本的特征以生成评议文本特征表示；

学科分类特征提取单元，用于提取学习学科分类信息中每个学科节点的向量表示，并通过向量加法进行池化融合，生成学科分类特征表示；

关键词特征提取单元，用于提取关键词信息中每个关键词的向量表示，并通过向量加法进行池化融合，生成关键词特征表示；

文档特征融合单元，用于拼接评议文本特征表示、学科分类特征表示和关键词特征表示，并对拼接得到的向量进行线性变换，生成文档特征表示。

7.根据权利要求6所述的系统，其特征在于，所述评议文本特征提取单元包括全连接网络和卷积神经网络，并被配置为：根据单词嵌入表和全连接网络将待评议文档的描述文本中的每个单词转换为单词向量，根据卷积神经网络对所有单词向量进行卷积操作得到每个单词的特征映射向量，根据池化函数对所有特征映射向量进行池化操作，得到评议文本特征表示。

8.根据权利要求6所述的系统，其特征在于，所述学科分类特征提取单元包括全连接网络，并被配置为根据学科分类嵌入表和全连接网络将学科分类信息中的每种学科分类转换为学科分类向量，利用向量加法对所有学科分类向量进行池化融合，得到学科分类特征表示。

9.根据权利要求6所述的系统，其特征在于，所述关键词特征提取单元包括全连接网络，并被配置为：根据关键词嵌入表和全连接网络将关键词信息中的每种关键词转换为关键词向量，利用向量加法对所有关键词向量进行池化融合，得到关键词特征表示。

10.根据权利要求6所述的系统，其特征在于，所述文档特征融合单元包括全连接网络，并被配置为：利用全连接网络对评议文本特征表示、学科分类特征表示、关键词特征表示进行融合，经过非线性变换后，得到文档特征表示。

11.根据权利要求1至5任一项所述的系统，其特征在于，所述专家匹配模块包括：

专长匹配度计算单元，用于根据专家特征表示和文档特征表示计算衡量多个专家与待评议文档之间的语义相关性的专长匹配度；

候选专家筛选单元，用于根据所有专家的专长匹配度生成候选专家列表。

12.根据权利要求11所述的系统，其特征在于，专长匹配度计算模块采用全连接网络按照以下方式计算所述专长匹配度：

13.根据权利要求1至5任一项所述的系统，其特征在于，所述系统是按照以下方式训练得到的：

获取训练集，其中，每个样本的组织形式为：待评议文档数据、正例专家数据、一个或者多个负例专家数据，待评议文档数据包括待评议文档的描述文本、学科分类信息和关键词信息，正例专家数据和负例专家数据包括专家描述文本和专家学术专长信息；

利用训练集和损失函数对专家特征提取模块、文档特征提取模块和专家匹配模块中的神经网络进行训练，该损失函数被配置为在减小损失值过程中增大正例专家被选为候选专家的概率。

14.根据权利要求13所述的系统，其特征在于，所述损失函数表示为：

Loss＝-log(ΠP(D⁺|D_r))

15.一种基于权利要求1至14所述的系统中用于为文档匹配评议专家的方法，其特征在于，包括：

根据专家描述文本和专家学术专长信息获取专家特征表示；

根据待评议文档的文档描述、学科分类信息和关键词信息获取文档特征表示；

根据专家特征表示和文档特征表示计算专长匹配度，基于专长匹配度生成候选专家列表。

16.一种电子设备，其特征在于，包括：

一个或多个处理器；以及

存储器，其中存储器用于存储一个或多个可执行指令；

所述一个或多个处理器被配置为经由执行所述一个或多个可执行指令以实现权利要求15所述方法的步骤。