CN115186673A - 科技信息管理系统及其管理方法 - Google Patents
科技信息管理系统及其管理方法 Download PDFInfo
- Publication number
- CN115186673A CN115186673A CN202210647790.7A CN202210647790A CN115186673A CN 115186673 A CN115186673 A CN 115186673A CN 202210647790 A CN202210647790 A CN 202210647790A CN 115186673 A CN115186673 A CN 115186673A
- Authority
- CN
- China
- Prior art keywords
- feature vector
- scientific
- word
- feature
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种科技信息管理系统及其管理方法,其通过使用深度神经网络模型对待标注的科技信息进行词级的语义关联特征和段落级的语义关联特征的特征提取,进而对所述待标注的科技信息的主题进行标注,并且在融合这两者的特征关联信息时,进一步计算这两者特征向量之间的特征密集权重因数来对各自的所述特征向量进行加权,以提升不同特征密度的特征向量之间的自适应依赖性,从而提升分类特征向量对于分类目标函数的数据密度自适应性,也就是,提高了分类准确性。这样,就能够对科技信息进行准确地分类,进而提高对于所述科技信息的整合和分析利用。
Description
技术领域
本发明涉及科技信息智能标注的领域,且更为具体地,涉及一种科技信息管理系统及其管理方法。
背景技术
随着近年来社会的快速发展,科研机构的科技信息管理也日趋完善,逐渐与国际化接轨,但科技信息的管理是一个复杂而抽象、且针对性强的过程,没有一个放任四海而皆准的固定模式。目前,好多科研机构不注重科技信息的管理,在科技信息数据的收集、分析和管理上也较为混乱,或者仅仅起到信息储存的作用,不能系统地对信息进行分类、整理和并分析利用。
因此,期待一种优化的科技信息管理系统。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种科技信息管理系统及其管理方法,其通过使用深度神经网络模型对待标注的科技信息进行词级的语义关联特征和段落级的语义关联特征的特征提取,进而对所述待标注的科技信息的主题进行标注,并且在融合这两者的特征关联信息时,进一步计算这两者特征向量之间的特征密集权重因数来对各自的所述特征向量进行加权,以提升不同特征密度的特征向量之间的自适应依赖性,从而提升分类特征向量对于分类目标函数的数据密度自适应性,也就是,提高了分类准确性。这样,就能够对科技信息进行准确地分类,进而提高对于所述科技信息的整合和分析利用。
根据本申请的一个方面,提供了一种科技信息管理系统,其包括:
待标注科技信息获取单元,用于获取待标注的科技信息;
词粒度编码单元,用于将所述待标注的科技信息进行分词处理后通过包含词嵌入层的上下文编码器以得到多个词高维特征向量;
词粒度关联编码单元,用于将所述多个词高维特征向量排列为一维的特征向量后通过一维卷积神经网络以得到第一语义特征向量;
分段单元,用于将所述待标注的科技信息按照段落进行划分以获得多个段落;
段落编码单元,用于将所述多个段落中的各个段落分别通过所述包含词嵌入层的上下文编码器以得到对应于各个段落的段落高维特征向量;
段落关联编码单元,用于将所述对应于各个段落的段落高维特征向量按照段落样本维度排列为二维的特征矩阵后通过使用二维卷积核的第二卷积神经网络以得到第二语义特征向量;
互密集权重因数计算单元,用于计算所述第一语义特征向量相对于所述第二语义特征向量的第一特征密集权重因数以及所述第二语义特征向量相对于所述第一语义特征向量的第二特征密集权重因数;
特征分布调整单元,用于以所述第一特征密集权重因数和所述第二特征密集权重因数分别对所述第一语义特征向量和所述第二语义特征向量进行加权以得到加权后第一语义特征向量和加权后第二语义特征向量;
特征融合单元,用于融合所述加权后第一语义特征向量和所述加权后第二语义特征向量以得到分类特征向量;以及
主题标注单元,用于将所述分类特征向量通过所述多标签分类器以得到所述待标注的科技信息所属的主题标签。
在上述科技信息管理系统中,所述词粒度编码单元,包括:分词子单元,用于对所述待标注的科技信息进行分词以获得词序列;词嵌入子单元,用于使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射为词向量以获得词向量序列;上下文语义编码子单元,用于使用所述包含嵌入层的上下文编码器的基于转换器的Bert模型对所述词向量序列进行基于全局掩码结构的全局语义编码以得到多个词高维特征向量。
在上述科技信息管理系统中,所述词粒度关联编码单元,进一步用于:使用所述一维卷积神经网络的一维卷积层以如下公式对所述一维的特征向量进行一维卷积编码以提取所述一维的特征向量中各个位置的特征值间的关联的高维隐含关联特征,其中,所述公式为:
其中,a为卷积核在x方向上的宽度、F为卷积核参数向量、G为与卷积核函数运算的局部向量矩阵,w为卷积核的尺寸。
在上述科技信息管理系统中,所述段落关联编码单元,进一步用于以所述使用二维卷积核的第二卷积神经网络的各层在层的正向传递中对输入数据分别进行卷积处理、基于局部特征矩阵的均值池化处理和非线性激活处理以由所述第二卷积神经网络的最后一层输出所述第二语义特征向量。
在上述科技信息管理系统中,所述互密集权重因数计算单元,进一步用于以如下公式来计算所述第一语义特征向量相对于所述第二语义特征向量的第一特征密集权重因数;
其中,所述公式为:
其中V1表示所述第一语义特征向量,V2表示所述第二语义特征向量,⊙表示点乘,softmaxj(·)表示特征向量通过多标签分类器后得到的每个标签下的概率值,且∑jsoftmaxj(·)表示对于每个标签下的概率值的进行求和,d(·,·)表示特征向量之间的距离,exp(·)表示向量的指数运算,所述向量的指数运算表示计算以向量中各个位置的特征值为幂的自然指数函数值,特征向量除以参数表示以特征向量中各个位置的特征值分别除以参数。
在上述科技信息管理系统中,所述互密集权重因数计算单元,进一步用于以如下公式来计算所述第二语义特征向量相对于所述第一语义特征向量的第二特征密集权重因数;
其中,所述公式为:
其中V1表示所述第一语义特征向量,V2表示所述第二语义特征向量,⊙表示点乘,softmaxj(·)表示特征向量通过多标签分类器后得到的每个标签下的概率值,且∑jsoftmaxj(·)表示对于每个标签下的概率值的进行求和,d(·,·)表示特征向量之间的距离,exp(·)表示向量的指数运算,所述向量的指数运算表示计算以向量中各个位置的特征值为幂的自然指数函数值,特征向量除以参数表示以特征向量中各个位置的特征值分别除以参数。
在上述科技信息管理系统中,所述特征融合单元,进一步用于计算所述加权后第一语义特征向量和所述加权后第二语义特征向量的按位置加权和以得到所述分类特征向量。
在上述科技信息管理系统中,所述主题标注单元,进一步用于:使用所述多标签分类器以如下公式对所述分类特征向量进行处理以获得所述待标注的科技信息所属的主题标签,其中,所述公式为:softmaxj{(Wn,Bn):…:(W1,B1)|X},其中,W1到Wn为权重矩阵,B1到Bn为偏置向量,X为所述分类特征向量。
根据本申请的另一方面,一种科技信息管理系统的管理方法,其包括:
获取待标注的科技信息;
将所述待标注的科技信息进行分词处理后通过包含词嵌入层的上下文编码器以得到多个词高维特征向量;
将所述多个词高维特征向量排列为一维的特征向量后通过一维卷积神经网络以得到第一语义特征向量;
将所述待标注的科技信息按照段落进行划分以获得多个段落;
将所述多个段落中的各个段落分别通过所述包含词嵌入层的上下文编码器以得到对应于各个段落的段落高维特征向量;
将所述对应于各个段落的段落高维特征向量按照段落样本维度排列为二维的特征矩阵后通过使用二维卷积核的第二卷积神经网络以得到第二语义特征向量;
计算所述第一语义特征向量相对于所述第二语义特征向量的第一特征密集权重因数以及所述第二语义特征向量相对于所述第一语义特征向量的第二特征密集权重因数;
以所述第一特征密集权重因数和所述第二特征密集权重因数分别对所述第一语义特征向量和所述第二语义特征向量进行加权以得到加权后第一语义特征向量和加权后第二语义特征向量;
融合所述加权后第一语义特征向量和所述加权后第二语义特征向量以得到分类特征向量;以及
将所述分类特征向量通过所述多标签分类器以得到所述待标注的科技信息所属的主题标签。
在上述科技信息管理系统的管理方法中,将所述待标注的科技信息进行分词处理后通过包含词嵌入层的上下文编码器以得到多个词高维特征向量,包括:对所述待标注的科技信息进行分词以获得词序列;使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射为词向量以获得词向量序列;使用所述包含嵌入层的上下文编码器的基于转换器的Bert模型对所述词向量序列进行基于全局掩码结构的全局语义编码以得到多个词高维特征向量。
在上述科技信息管理系统的管理方法中,将所述多个词高维特征向量排列为一维的特征向量后通过一维卷积神经网络以得到第一语义特征向量,包括:使用所述一维卷积神经网络的一维卷积层以如下公式对所述一维的特征向量进行一维卷积编码以提取所述一维的特征向量中各个位置的特征值间的关联的高维隐含关联特征,其中,所述公式为:
其中,a为卷积核在x方向上的宽度、F为卷积核参数向量、G为与卷积核函数运算的局部向量矩阵,w为卷积核的尺寸。
在上述科技信息管理系统的管理方法中,将所述对应于各个段落的段落高维特征向量按照段落样本维度排列为二维的特征矩阵后通过使用二维卷积核的第二卷积神经网络以得到第二语义特征向量,包括:以所述使用二维卷积核的第二卷积神经网络的各层在层的正向传递中对输入数据分别进行卷积处理、基于局部特征矩阵的均值池化处理和非线性激活处理以由所述第二卷积神经网络的最后一层输出所述第二语义特征向量。
在上述科技信息管理系统的管理方法中,计算所述第一语义特征向量相对于所述第二语义特征向量的第一特征密集权重因数以及所述第二语义特征向量相对于所述第一语义特征向量的第二特征密集权重因数,包括:以如下公式来计算所述第一语义特征向量相对于所述第二语义特征向量的第一特征密集权重因数;
其中,所述公式为:
其中V1表示所述第一语义特征向量,V2表示所述第二语义特征向量,⊙表示点乘,softmaxj(·)表示特征向量通过多标签分类器后得到的每个标签下的概率值,且∑jsoftmaxj(·)表示对于每个标签下的概率值的进行求和,d(·,·)表示特征向量之间的距离,exp(·)表示向量的指数运算,所述向量的指数运算表示计算以向量中各个位置的特征值为幂的自然指数函数值,特征向量除以参数表示以特征向量中各个位置的特征值分别除以参数。
在上述科技信息管理系统的管理方法中,计算所述第一语义特征向量相对于所述第二语义特征向量的第一特征密集权重因数以及所述第二语义特征向量相对于所述第一语义特征向量的第二特征密集权重因数,包括:以如下公式来计算所述第二语义特征向量相对于所述第一语义特征向量的第二特征密集权重因数;
其中,所述公式为:
其中V1表示所述第一语义特征向量,V2表示所述第二语义特征向量,⊙表示点乘,softmaxj(·)表示特征向量通过多标签分类器后得到的每个标签下的概率值,且∑jsoftmaxj(·)表示对于每个标签下的概率值的进行求和,d(·,·)表示特征向量之间的距离,exp(·)表示向量的指数运算,所述向量的指数运算表示计算以向量中各个位置的特征值为幂的自然指数函数值,特征向量除以参数表示以特征向量中各个位置的特征值分别除以参数。
在上述科技信息管理系统的管理方法中,融合所述加权后第一语义特征向量和所述加权后第二语义特征向量以得到分类特征向量,包括:计算所述加权后第一语义特征向量和所述加权后第二语义特征向量的按位置加权和以得到所述分类特征向量。
在上述科技信息管理系统的管理方法中,将所述分类特征向量通过所述多标签分类器以得到所述待标注的科技信息所属的主题标签,包括:使用所述多标签分类器以如下公式对所述分类特征向量进行处理以获得所述待标注的科技信息所属的主题标签,其中,所述公式为:softmaxj{(Wn,Bn):…:(W1,B1)|X},其中,W1到Wn为权重矩阵,B1到Bn为偏置向量,X为所述分类特征向量。
与现有技术相比,本申请提供的科技信息管理系统及其管理方法,其通过使用深度神经网络模型对待标注的科技信息进行词级的语义关联特征和段落级的语义关联特征的特征提取,进而对所述待标注的科技信息的主题进行标注,并且在融合这两者的特征关联信息时,进一步计算这两者特征向量之间的特征密集权重因数来对各自的所述特征向量进行加权,以提升不同特征密度的特征向量之间的自适应依赖性,从而提升分类特征向量对于分类目标函数的数据密度自适应性,也就是,提高了分类准确性。这样,就能够对科技信息进行准确地分类,进而提高对于所述科技信息的整合和分析利用。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为根据本申请实施例的科技信息管理系统的框图。
图2为根据本申请实施例的科技信息管理系统中词粒度编码单元的框图。
图3为根据本申请实施例的科技信息管理系统的管理方法的流程图。
图4为根据本申请实施例的科技信息管理系统的管理方法的架构示意图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
场景概述
如前所述,随着近年来社会的快速发展,科研机构的科技信息管理也日趋完善,逐渐与国际化接轨,但科技信息的管理是一个复杂而抽象、且针对性强的过程,没有一个放任四海而皆准的固定模式。目前,好多科研机构不注重科技信息的管理,在科技信息数据的收集、分析和管理上也较为混乱,或者仅仅起到信息储存的作用,不能系统地对信息进行分类、整理和并分析利用。因此,期待一种优化的科技信息管理系统。
相应地,在本申请的技术方案中,对科技信息进行整合和分析利用的关键是对科技信息进行分类。相较于日常信息的分类,信息管理员可在录入的时候进行人工标准,对于科技信息而言,普通的信息管理员无法对科技信息的内容进行解读,当然也无法准确地对其进行分类,而科研人员却很少直接参与到信息的录入过程中,这是科技信息管理遇到的现实问题。近年来,深度学习以及神经网络的发展为科技信息的分类提供了新的解决思路和解决方案。
相应地,对科技信息进行分类,这本质上是一个主题标注问题,这可以使用当下流行的自然语言处理技术来实现。具体地,在本申请的技术方案中,首先,获取待标注的科技信息。应可以理解,考虑到待标注的科技信息内容具有上下文的关联特征,因此,进一步使用包含嵌入层的上下文编码器对所述待标注的科技信息进行基于全局性的上下文编码处理,以提取出待标注的科技信息的全局性的信息隐含关联特征。具体地,在一个具体示例中,在所述上下文编码的过程中,首先将所述待标注的科技信息进行分词处理,以避免后续特征提取的语序混乱造成的错误,从而得到所述词序列;然后,使用嵌入层将分词处理后得到的所述词序列中各个词映射为词向量以获得词向量序列,其中,所述嵌入层可利用科技信息的知识图谱来构建以使得在将所述词序列中各个词位转化为嵌入向量的过程中引入科技信息特征的先验信息。接着,所述上下文编码器采用基于转换器的Bert模型对所述词向量序列进行编码,其中,所述基于转换器的Bert模型通过转换器的内在掩码结构对所述词向量序列进行基于全局掩码结构的全局语义编码以得到所述多个词高维特征向量。特别地,在另一个具体示例中,所述上下文编码器也可以使用双向LSTM模型来对其进行编码,对此并不为本申请所局限。
为了提取出所述待标注的科技信息中基于全局性关联特征的各个词的更层次的隐含关联特征信息,以进行更准确地分类,进一步再将所述多个词高维特征向量排列为一维的特征向量后通过一维卷积神经网络以得到第一语义特征向量。
考虑到在对所述待标注的科技信息进行主题标签分类时,应该更加关注于所述待标注的科技信息的段落间的隐含关联特征分布信息。因此,在本申请的技术方案中,进一步将所述待标注的科技信息按照段落进行划分以获得多个段落,并将所述多个段落中的各个段落分别通过所述包含词嵌入层的上下文编码器中进行编码,以得到对应于各个段落的具有全局性隐含关联特征信息的段落高维特征向量。同样地,再将所述对应于各个段落的段落高维特征向量按照段落样本维度排列为二维的特征矩阵后通过使用二维卷积核的第二卷积神经网络以得到第二语义特征向量。这样,就能够提取出所述待标注的科技信息的段落级的语义关联特征。
应可以理解,在融合第一语义特征向量和第二语义特征向量时,由于第一语义特征向量表达词级的语义关联特征,而第二语义特征向量表达段落级的语义关联特征,因此,其特征表达密度并不相同,这会影响融合后的分类特征向量的分类准确性。
因此,进一步计算第一语义特征向量V1与第二语义特征向量V2之间的特征密集权重因数,具体为:
其中,softmaxj(·)表示特征向量通过多标签分类器后得到的每个标签下的概率值,且∑jsoftmaxj(·)表示对于每个标签下的概率值的进行求和。
然后,再以权重w1和w2分别对第一语义特征向量V1与第二语义特征向量V2进行加权,再融合第一语义特征向量V1与第二语义特征向量V2得到分类特征向量,并将分类特征向量通过上述多标签分类器以获得相应标签下的概率值。
这样,该特征密集权重因数通过特征向量之间的自注意力机制来使能特征向量之间的空间交互,并通过特征向量之间的特征相异性的度量来计算不同特征密集程度的实例之间的相似度。由此,加权后的第一语义特征向量V1与第二语义特征向量V2的融合可以提升不同特征密度的特征向量之间的自适应依赖性,从而提升分类特征向量对于分类目标函数的数据密度自适应性,也就是,提高了分类准确性。
基于此,本申请提出了一种科技信息管理系统,其包括:待标注科技信息获取单元,用于获取待标注的科技信息;词粒度编码单元,用于将所述待标注的科技信息进行分词处理后通过包含词嵌入层的上下文编码器以得到多个词高维特征向量;词粒度关联编码单元,用于将所述多个词高维特征向量排列为一维的特征向量后通过一维卷积神经网络以得到第一语义特征向量;分段单元,用于将所述待标注的科技信息按照段落进行划分以获得多个段落;段落编码单元,用于将所述多个段落中的各个段落分别通过所述包含词嵌入层的上下文编码器以得到对应于各个段落的段落高维特征向量;段落关联编码单元,用于将所述对应于各个段落的段落高维特征向量按照段落样本维度排列为二维的特征矩阵后通过使用二维卷积核的第二卷积神经网络以得到第二语义特征向量;互密集权重因数计算单元,用于计算所述第一语义特征向量相对于所述第二语义特征向量的第一特征密集权重因数以及所述第二语义特征向量相对于所述第一语义特征向量的第二特征密集权重因数;特征分布调整单元,用于以所述第一特征密集权重因数和所述第二特征密集权重因数分别对所述第一语义特征向量和所述第二语义特征向量进行加权以得到加权后第一语义特征向量和加权后第二语义特征向量;特征融合单元,用于融合所述加权后第一语义特征向量和所述加权后第二语义特征向量以得到分类特征向量;以及,主题标注单元,用于将所述分类特征向量通过所述多标签分类器以得到所述待标注的科技信息所属的主题标签。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性系统
图1图示了根据本申请实施例的科技信息管理系统的框图。如图2所示,根据本申请实施例的科技信息管理系统200,包括:待标注科技信息获取单元210,用于获取待标注的科技信息;词粒度编码单元220,用于将所述待标注的科技信息进行分词处理后通过包含词嵌入层的上下文编码器以得到多个词高维特征向量;词粒度关联编码单元230,用于将所述多个词高维特征向量排列为一维的特征向量后通过一维卷积神经网络以得到第一语义特征向量;分段单元240,用于将所述待标注的科技信息按照段落进行划分以获得多个段落;段落编码单元250,用于将所述多个段落中的各个段落分别通过所述包含词嵌入层的上下文编码器以得到对应于各个段落的段落高维特征向量;段落关联编码单元260,用于将所述对应于各个段落的段落高维特征向量按照段落样本维度排列为二维的特征矩阵后通过使用二维卷积核的第二卷积神经网络以得到第二语义特征向量;互密集权重因数计算单元270,用于计算所述第一语义特征向量相对于所述第二语义特征向量的第一特征密集权重因数以及所述第二语义特征向量相对于所述第一语义特征向量的第二特征密集权重因数;特征分布调整单元280,用于以所述第一特征密集权重因数和所述第二特征密集权重因数分别对所述第一语义特征向量和所述第二语义特征向量进行加权以得到加权后第一语义特征向量和加权后第二语义特征向量;特征融合单元290,用于融合所述加权后第一语义特征向量和所述加权后第二语义特征向量以得到分类特征向量;以及,主题标注单元300,用于将所述分类特征向量通过所述多标签分类器以得到所述待标注的科技信息所属的主题标签。
具体地,在本申请实施例中,所述待标注科技信息获取单元210和所述词粒度编码单元220,用于获取待标注的科技信息,并将所述待标注的科技信息进行分词处理后通过包含词嵌入层的上下文编码器以得到多个词高维特征向量。如前所述,应可以理解,在本申请的技术方案中,对科技信息进行整合和分析利用的关键是对科技信息进行分类。相较于日常信息的分类,信息管理员可在录入的时候进行人工标准,对于科技信息而言,普通的信息管理员无法对科技信息的内容进行解读,当然也无法准确地对其进行分类,而科研人员却很少直接参与到信息的录入过程中,这是科技信息管理遇到的现实问题。相应地,对科技信息进行分类,这本质上是一个主题标注问题,这可以使用当下流行的自然语言处理技术来实现。
也就是,具体地,在本申请的技术方案中,首先,获取待标注的科技信息。应可以理解,考虑到所述待标注的科技信息内容具有上下文的关联特征,因此,进一步使用包含嵌入层的上下文编码器对所述待标注的科技信息进行基于全局性的上下文编码处理,以提取出待标注的科技信息的全局性的信息隐含关联特征。具体地,在一个具体示例中,在所述上下文编码的过程中,首先将所述待标注的科技信息进行分词处理,以避免后续特征提取的语序混乱造成的错误,从而得到所述词序列;然后,使用嵌入层将分词处理后得到的所述词序列中各个词映射为词向量以获得词向量序列,其中,所述嵌入层可利用科技信息的知识图谱来构建以使得在将所述词序列中各个词位转化为嵌入向量的过程中引入科技信息特征的先验信息。接着,所述上下文编码器采用基于转换器的Bert模型对所述词向量序列进行编码,其中,所述基于转换器的Bert模型通过转换器的内在掩码结构对所述词向量序列进行基于全局掩码结构的全局语义编码以得到所述多个词高维特征向量。特别地,在另一个具体示例中,所述上下文编码器也可以使用双向LSTM模型来对其进行编码,对此并不为本申请所局限。
图2图示了根据本申请实施例的科技信息管理系统中词粒度编码单元的框图。如图2所示,所述词粒度编码单元220,包括:分词子单元221,用于对所述待标注的科技信息进行分词以获得词序列;词嵌入子单元222,用于使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射为词向量以获得词向量序列;上下文语义编码子单元223,用于使用所述包含嵌入层的上下文编码器的基于转换器的Bert模型对所述词向量序列进行基于全局掩码结构的全局语义编码以得到多个词高维特征向量。
具体地,在本申请实施例中,所述词粒度关联编码单元230,用于将所述多个词高维特征向量排列为一维的特征向量后通过一维卷积神经网络以得到第一语义特征向量。应可以理解,为了提取出所述待标注的科技信息中基于全局性关联特征的各个词的更层次的隐含关联特征信息,以进行更准确地分类,在本申请的技术方案中,在得到所述多个词高维特征向量后,进一步再将所述多个词高维特征向量排列为一维的特征向量后通过一维卷积神经网络以得到第一语义特征向量。
更具体地,在本申请实施例中,所述词粒度关联编码单元,进一步用于:使用所述一维卷积神经网络的一维卷积层以如下公式对所述一维的特征向量进行一维卷积编码以提取所述一维的特征向量中各个位置的特征值间的关联的高维隐含关联特征,其中,所述公式为:
其中,a为卷积核在x方向上的宽度、F为卷积核参数向量、G为与卷积核函数运算的局部向量矩阵,w为卷积核的尺寸。
具体地,在本申请实施例中,所述分段单元240、所述段落编码单元250和所述段落关联编码单元260,用于将所述待标注的科技信息按照段落进行划分以获得多个段落,并将所述多个段落中的各个段落分别通过所述包含词嵌入层的上下文编码器以得到对应于各个段落的段落高维特征向量,再将所述对应于各个段落的段落高维特征向量按照段落样本维度排列为二维的特征矩阵后通过使用二维卷积核的第二卷积神经网络以得到第二语义特征向量。应可以理解,考虑到在对所述待标注的科技信息进行主题标签分类时,应该更加关注于所述待标注的科技信息的段落间的隐含关联特征分布信息。因此,在本申请的技术方案中,进一步将所述待标注的科技信息按照段落进行划分以获得多个段落,并将所述多个段落中的各个段落分别通过所述包含词嵌入层的上下文编码器中进行编码,以得到对应于各个段落的具有全局性隐含关联特征信息的段落高维特征向量。同样地,再将所述对应于各个段落的段落高维特征向量按照段落样本维度排列为二维的特征矩阵后通过使用二维卷积核的第二卷积神经网络以得到第二语义特征向量。这样,就能够提取出所述待标注的科技信息的段落级的语义关联特征。
更具体地,在本申请实施例中,所述段落关联编码单元,进一步用于以所述使用二维卷积核的第二卷积神经网络的各层在层的正向传递中对输入数据分别进行卷积处理、基于局部特征矩阵的均值池化处理和非线性激活处理以由所述第二卷积神经网络的最后一层输出所述第二语义特征向量。
具体地,在本申请实施例中,所述互密集权重因数计算单元270,用于计算所述第一语义特征向量相对于所述第二语义特征向量的第一特征密集权重因数以及所述第二语义特征向量相对于所述第一语义特征向量的第二特征密集权重因数。应可以理解,在融合所述第一语义特征向量和所述第二语义特征向量时,由于所述第一语义特征向量表达词级的语义关联特征,而所述第二语义特征向量表达段落级的语义关联特征,因此,其特征表达密度并不相同,这会影响融合后的分类特征向量的分类准确性。因此,在本申请的技术方案中,进一步计算所述第一语义特征向量V1与所述第二语义特征向量V2之间的特征密集权重因数。应可以理解,该所述特征密集权重因数通过特征向量之间的自注意力机制来使能所述特征向量之间的空间交互,并通过所述特征向量之间的特征相异性的度量来计算不同特征密集程度的实例之间的相似度,进而提高融合后的特征向量的分类准确性。
更具体地,在本申请实施例中,所述互密集权重因数计算单元,进一步用于:以如下公式来计算所述第一语义特征向量相对于所述第二语义特征向量的第一特征密集权重因数;
其中,所述公式为:
并且以如下公式来计算所述第二语义特征向量相对于所述第一语义特征向量的第二特征密集权重因数;
其中,所述公式为:
其中,V1表示所述第一语义特征向量,V2表示所述第二语义特征向量,⊙表示点乘,softmaxj(·)表示特征向量通过多标签分类器后得到的每个标签下的概率值,且∑jsoftmaxj(·)表示对于每个标签下的概率值的进行求和,d(·,·)表示特征向量之间的距离,exp(·)表示向量的指数运算,所述向量的指数运算表示计算以向量中各个位置的特征值为幂的自然指数函数值,特征向量除以参数表示以特征向量中各个位置的特征值分别除以参数。
具体地,在本申请实施例中,所述特征分布调整单元280和所述特征融合单元290,用于以所述第一特征密集权重因数和所述第二特征密集权重因数分别对所述第一语义特征向量和所述第二语义特征向量进行加权以得到加权后第一语义特征向量和加权后第二语义特征向量,并融合所述加权后第一语义特征向量和所述加权后第二语义特征向量以得到分类特征向量。也就是,在本申请的技术方案中,在得到所述第一特征密集权重因数w1和所述第二特征密集权重因数w2后,进一步再以所述权重w1和w2分别对所述第一语义特征向量V1与所述第二语义特征向量V2进行加权,并且融合加权后的所述第一语义特征向量与所述第二语义特征向量得到分类特征向量。相应地,在一个具体示例中,可以计算所述加权后第一语义特征向量和所述加权后第二语义特征向量的按位置加权和以得到所述分类特征向量。应可以理解,所述特征密集权重因数通过特征向量之间的自注意力机制来使能特征向量之间的空间交互,并通过所述特征向量之间的特征相异性的度量来计算不同特征密集程度的实例之间的相似度。由此,加权后的所述第一语义特征向量V1与所述第二语义特征向量V2的融合可以提升不同特征密度的特征向量之间的自适应依赖性,从而提升所述分类特征向量对于分类目标函数的数据密度自适应性,也就是,提高了分类准确性。
具体地,在本申请实施例中,所述主题标注单元300,用于将所述分类特征向量通过所述多标签分类器以得到所述待标注的科技信息所属的主题标签。也就是,在得到所述分类特征向量后,进一步将其通过分类器以获得所述待标注的科技信息所属的主题标签。在一个具体示例中,所述主题标注单元,进一步用于:使用所述多标签分类器以如下公式对所述分类特征向量进行处理以获得所述待标注的科技信息所属的主题标签,其中,所述公式为:softmaxj{(Wn,Bn):…:(W1,B1)|X},其中,W1到Wn为权重矩阵,B1到Bn为偏置向量,X为所述分类特征向量。
综上,基于本申请实施例的所述科技信息管理系统200被阐明,其通过使用深度神经网络模型对待标注的科技信息进行词级的语义关联特征和段落级的语义关联特征的特征提取,进而对所述待标注的科技信息的主题进行标注,并且在融合这两者的特征关联信息时,进一步计算这两者特征向量之间的特征密集权重因数来对各自的所述特征向量进行加权,以提升不同特征密度的特征向量之间的自适应依赖性,从而提升分类特征向量对于分类目标函数的数据密度自适应性,也就是,提高了分类准确性。这样,就能够对科技信息进行准确地分类,进而提高对于所述科技信息的整合和分析利用。
如上所述,根据本申请实施例的科技信息管理系统200可以实现在各种终端设备中,例如科技信息管理算法的服务器等。在一个示例中,根据本申请实施例的科技信息管理系统200可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该科技信息管理系统200可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该科技信息管理系统200同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该科技信息管理系统200与该终端设备也可以是分立的设备,并且该科技信息管理系统200可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性方法
图3图示了科技信息管理系统的管理方法的流程图。如图3所示,根据本申请实施例的科技信息管理系统的管理方法,包括步骤:S110,获取待标注的科技信息;S120,将所述待标注的科技信息进行分词处理后通过包含词嵌入层的上下文编码器以得到多个词高维特征向量;S130,将所述多个词高维特征向量排列为一维的特征向量后通过一维卷积神经网络以得到第一语义特征向量;S140,将所述待标注的科技信息按照段落进行划分以获得多个段落;S150,将所述多个段落中的各个段落分别通过所述包含词嵌入层的上下文编码器以得到对应于各个段落的段落高维特征向量;S160,将所述对应于各个段落的段落高维特征向量按照段落样本维度排列为二维的特征矩阵后通过使用二维卷积核的第二卷积神经网络以得到第二语义特征向量;S170,计算所述第一语义特征向量相对于所述第二语义特征向量的第一特征密集权重因数以及所述第二语义特征向量相对于所述第一语义特征向量的第二特征密集权重因数;S180,以所述第一特征密集权重因数和所述第二特征密集权重因数分别对所述第一语义特征向量和所述第二语义特征向量进行加权以得到加权后第一语义特征向量和加权后第二语义特征向量;S190,融合所述加权后第一语义特征向量和所述加权后第二语义特征向量以得到分类特征向量;以及,S200,将所述分类特征向量通过所述多标签分类器以得到所述待标注的科技信息所属的主题标签。
图4图示了根据本申请实施例的科技信息管理系统的管理方法的架构示意图。如图4所示,在所述科技信息管理系统的管理方法的网络架构中,首先,将获得的所述待标注的科技信息(例如,如图4中所示意的P1)进行分词处理后通过包含词嵌入层的上下文编码器(例如,如图4中所示意的E1)以得到多个词高维特征向量(例如,如图4中所示意的VF1);接着,将所述多个词高维特征向量排列为一维的特征向量(例如,如图4中所示意的VF2)后通过一维卷积神经网络(例如,如图4中所示意的CNN1)以得到第一语义特征向量(例如,如图4中所示意的V1);然后,将所述待标注的科技信息按照段落进行划分以获得多个段落(例如,如图4中所示意的P2);接着,将所述多个段落中的各个段落分别通过所述包含词嵌入层的上下文编码器(例如,如图4中所示意的E1)以得到对应于各个段落的段落高维特征向量(例如,如图4中所示意的VF3);然后,将所述对应于各个段落的段落高维特征向量按照段落样本维度排列为二维的特征矩阵(例如,如图4中所示意的MF)后通过使用二维卷积核的第二卷积神经网络(例如,如图4中所示意的CNN2)以得到第二语义特征向量(例如,如图4中所示意的V2);接着,计算所述第一语义特征向量相对于所述第二语义特征向量的第一特征密集权重因数(例如,如图4中所示意的WF1)以及所述第二语义特征向量相对于所述第一语义特征向量的第二特征密集权重因数(例如,如图4中所示意的WF2);然后,以所述第一特征密集权重因数和所述第二特征密集权重因数分别对所述第一语义特征向量和所述第二语义特征向量进行加权以得到加权后第一语义特征向量(例如,如图4中所示意的VC1)和加权后第二语义特征向量(例如,如图4中所示意的VC2);接着,融合所述加权后第一语义特征向量和所述加权后第二语义特征向量以得到分类特征向量(例如,如图4中所示意的VC);以及,最后,将所述分类特征向量通过所述多标签分类器(例如,如图4中所示意的圈S)以得到所述待标注的科技信息所属的主题标签。
更具体地,在步骤S110和S120中,获取待标注的科技信息,并将所述待标注的科技信息进行分词处理后通过包含词嵌入层的上下文编码器以得到多个词高维特征向量。应可以理解,在本申请的技术方案中,对科技信息进行整合和分析利用的关键是对科技信息进行分类。相较于日常信息的分类,信息管理员可在录入的时候进行人工标准,对于科技信息而言,普通的信息管理员无法对科技信息的内容进行解读,当然也无法准确地对其进行分类,而科研人员却很少直接参与到信息的录入过程中,这是科技信息管理遇到的现实问题。相应地,对科技信息进行分类,这本质上是一个主题标注问题,这可以使用当下流行的自然语言处理技术来实现。
也就是,具体地,在本申请的技术方案中,首先,获取待标注的科技信息。应可以理解,考虑到所述待标注的科技信息内容具有上下文的关联特征,因此,进一步使用包含嵌入层的上下文编码器对所述待标注的科技信息进行基于全局性的上下文编码处理,以提取出待标注的科技信息的全局性的信息隐含关联特征。具体地,在一个具体示例中,在所述上下文编码的过程中,首先将所述待标注的科技信息进行分词处理,以避免后续特征提取的语序混乱造成的错误,从而得到所述词序列;然后,使用嵌入层将分词处理后得到的所述词序列中各个词映射为词向量以获得词向量序列,其中,所述嵌入层可利用科技信息的知识图谱来构建以使得在将所述词序列中各个词位转化为嵌入向量的过程中引入科技信息特征的先验信息。接着,所述上下文编码器采用基于转换器的Bert模型对所述词向量序列进行编码,其中,所述基于转换器的Bert模型通过转换器的内在掩码结构对所述词向量序列进行基于全局掩码结构的全局语义编码以得到所述多个词高维特征向量。特别地,在另一个具体示例中,所述上下文编码器也可以使用双向LSTM模型来对其进行编码,对此并不为本申请所局限。
更具体地,在步骤S130中,将所述多个词高维特征向量排列为一维的特征向量后通过一维卷积神经网络以得到第一语义特征向量。应可以理解,为了提取出所述待标注的科技信息中基于全局性关联特征的各个词的更层次的隐含关联特征信息,以进行更准确地分类,在本申请的技术方案中,在得到所述多个词高维特征向量后,进一步再将所述多个词高维特征向量排列为一维的特征向量后通过一维卷积神经网络以得到第一语义特征向量。
更具体地,在步骤S140、步骤S150和步骤S160中,将所述待标注的科技信息按照段落进行划分以获得多个段落,并将所述多个段落中的各个段落分别通过所述包含词嵌入层的上下文编码器以得到对应于各个段落的段落高维特征向量,再将所述对应于各个段落的段落高维特征向量按照段落样本维度排列为二维的特征矩阵后通过使用二维卷积核的第二卷积神经网络以得到第二语义特征向量。应可以理解,考虑到在对所述待标注的科技信息进行主题标签分类时,应该更加关注于所述待标注的科技信息的段落间的隐含关联特征分布信息。因此,在本申请的技术方案中,进一步将所述待标注的科技信息按照段落进行划分以获得多个段落,并将所述多个段落中的各个段落分别通过所述包含词嵌入层的上下文编码器中进行编码,以得到对应于各个段落的具有全局性隐含关联特征信息的段落高维特征向量。同样地,再将所述对应于各个段落的段落高维特征向量按照段落样本维度排列为二维的特征矩阵后通过使用二维卷积核的第二卷积神经网络以得到第二语义特征向量。这样,就能够提取出所述待标注的科技信息的段落级的语义关联特征。
更具体地,在步骤S170中,计算所述第一语义特征向量相对于所述第二语义特征向量的第一特征密集权重因数以及所述第二语义特征向量相对于所述第一语义特征向量的第二特征密集权重因数。应可以理解,在融合所述第一语义特征向量和所述第二语义特征向量时,由于所述第一语义特征向量表达词级的语义关联特征,而所述第二语义特征向量表达段落级的语义关联特征,因此,其特征表达密度并不相同,这会影响融合后的分类特征向量的分类准确性。因此,在本申请的技术方案中,进一步计算所述第一语义特征向量V1与所述第二语义特征向量V2之间的特征密集权重因数。应可以理解,该所述特征密集权重因数通过特征向量之间的自注意力机制来使能所述特征向量之间的空间交互,并通过所述特征向量之间的特征相异性的度量来计算不同特征密集程度的实例之间的相似度,进而提高融合后的特征向量的分类准确性。
更具体地,在步骤S180和步骤S190中,以所述第一特征密集权重因数和所述第二特征密集权重因数分别对所述第一语义特征向量和所述第二语义特征向量进行加权以得到加权后第一语义特征向量和加权后第二语义特征向量,并融合所述加权后第一语义特征向量和所述加权后第二语义特征向量以得到分类特征向量。也就是,在本申请的技术方案中,在得到所述第一特征密集权重因数w1和所述第二特征密集权重因数w2后,进一步再以所述权重w1和w2分别对所述第一语义特征向量V1与所述第二语义特征向量V2进行加权,并且融合加权后的所述第一语义特征向量与所述第二语义特征向量得到分类特征向量。相应地,在一个具体示例中,可以计算所述加权后第一语义特征向量和所述加权后第二语义特征向量的按位置加权和以得到所述分类特征向量。应可以理解,所述特征密集权重因数通过特征向量之间的自注意力机制来使能特征向量之间的空间交互,并通过所述特征向量之间的特征相异性的度量来计算不同特征密集程度的实例之间的相似度。由此,加权后的所述第一语义特征向量V1与所述第二语义特征向量V2的融合可以提升不同特征密度的特征向量之间的自适应依赖性,从而提升所述分类特征向量对于分类目标函数的数据密度自适应性,也就是,提高了分类准确性。
更具体地,在步骤S200中,将所述分类特征向量通过所述多标签分类器以得到所述待标注的科技信息所属的主题标签。也就是,在得到所述分类特征向量后,进一步将其通过分类器以获得所述待标注的科技信息所属的主题标签。在一个具体示例中,使用所述多标签分类器以如下公式对所述分类特征向量进行处理以获得所述待标注的科技信息所属的主题标签,其中,所述公式为:softmaxj{(Wn,Bn):…:(W1,B1)|X},其中,W1到Wn为权重矩阵,B1到Bn为偏置向量,X为所述分类特征向量。
综上,基于本申请实施例的所述科技信息管理系统的管理方法被阐明,其通过使用深度神经网络模型对待标注的科技信息进行词级的语义关联特征和段落级的语义关联特征的特征提取,进而对所述待标注的科技信息的主题进行标注,并且在融合这两者的特征关联信息时,进一步计算这两者特征向量之间的特征密集权重因数来对各自的所述特征向量进行加权,以提升不同特征密度的特征向量之间的自适应依赖性,从而提升分类特征向量对于分类目标函数的数据密度自适应性,也就是,提高了分类准确性。这样,就能够对科技信息进行准确地分类,进而提高对于所述科技信息的整合和分析利用。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (10)
1.一种科技信息管理系统,其特征在于,包括:
待标注科技信息获取单元,用于获取待标注的科技信息;
词粒度编码单元,用于将所述待标注的科技信息进行分词处理后通过包含词嵌入层的上下文编码器以得到多个词高维特征向量;
词粒度关联编码单元,用于将所述多个词高维特征向量排列为一维的特征向量后通过一维卷积神经网络以得到第一语义特征向量;
分段单元,用于将所述待标注的科技信息按照段落进行划分以获得多个段落;
段落编码单元,用于将所述多个段落中的各个段落分别通过所述包含词嵌入层的上下文编码器以得到对应于各个段落的段落高维特征向量;
段落关联编码单元,用于将所述对应于各个段落的段落高维特征向量按照段落样本维度排列为二维的特征矩阵后通过使用二维卷积核的第二卷积神经网络以得到第二语义特征向量;
互密集权重因数计算单元,用于计算所述第一语义特征向量相对于所述第二语义特征向量的第一特征密集权重因数以及所述第二语义特征向量相对于所述第一语义特征向量的第二特征密集权重因数;
特征分布调整单元,用于以所述第一特征密集权重因数和所述第二特征密集权重因数分别对所述第一语义特征向量和所述第二语义特征向量进行加权以得到加权后第一语义特征向量和加权后第二语义特征向量;
特征融合单元,用于融合所述加权后第一语义特征向量和所述加权后第二语义特征向量以得到分类特征向量;以及
主题标注单元,用于将所述分类特征向量通过所述多标签分类器以得到所述待标注的科技信息所属的主题标签。
2.根据权利要求1所述的科技信息管理系统,其中,所述词粒度编码单元,包括:
分词子单元,用于对所述待标注的科技信息进行分词以获得词序列;
词嵌入子单元,用于使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射为词向量以获得词向量序列;
上下文语义编码子单元,用于使用所述包含嵌入层的上下文编码器的基于转换器的Bert模型对所述词向量序列进行基于全局掩码结构的全局语义编码以得到多个词高维特征向量。
4.根据权利要求3所述的科技信息管理系统,其中,所述段落关联编码单元,进一步用于以所述使用二维卷积核的第二卷积神经网络的各层在层的正向传递中对输入数据分别进行卷积处理、基于局部特征矩阵的均值池化处理和非线性激活处理以由所述第二卷积神经网络的最后一层输出所述第二语义特征向量。
5.根据权利要求4所述的科技信息管理系统,其中,所述互密集权重因数计算单元,进一步用于以如下公式来计算所述第一语义特征向量相对于所述第二语义特征向量的第一特征密集权重因数;
其中,所述公式为:
其中V1表示所述第一语义特征向量,V2表示所述第二语义特征向量,⊙表示点乘,softmaxj(·)表示特征向量通过多标签分类器后得到的每个标签下的概率值,且∑jsoftmaxj(·)表示对于每个标签下的概率值的进行求和,d(·,·)表示特征向量之间的距离,exp(·)表示向量的指数运算,所述向量的指数运算表示计算以向量中各个位置的特征值为幂的自然指数函数值,特征向量除以参数表示以特征向量中各个位置的特征值分别除以参数。
6.根据权利要求5所述的科技信息管理系统,其中,所述互密集权重因数计算单元,进一步用于以如下公式来计算所述第二语义特征向量相对于所述第一语义特征向量的第二特征密集权重因数;
其中,所述公式为:
其中V1表示所述第一语义特征向量,V2表示所述第二语义特征向量,⊙表示点乘,softmaxj(·)表示特征向量通过多标签分类器后得到的每个标签下的概率值,且∑jsoftmaxj(·)表示对于每个标签下的概率值的进行求和,d(·,·)表示特征向量之间的距离,exp(·)表示向量的指数运算,所述向量的指数运算表示计算以向量中各个位置的特征值为幂的自然指数函数值,特征向量除以参数表示以特征向量中各个位置的特征值分别除以参数。
7.根据权利要求6所述的科技信息管理系统,其中,所述特征融合单元,进一步用于计算所述加权后第一语义特征向量和所述加权后第二语义特征向量的按位置加权和以得到所述分类特征向量。
8.根据权利要求7所述的科技信息管理系统,其中,所述主题标注单元,进一步用于:使用所述多标签分类器以如下公式对所述分类特征向量进行处理以获得所述待标注的科技信息所属的主题标签,其中,所述公式为:softmaxj{(Wn,Bn):…:(W1,B1)|X},其中,W1到Wn为权重矩阵,B1到Bn为偏置向量,X为所述分类特征向量。
9.一种科技信息管理系统的管理方法,其特征在于,包括:
获取待标注的科技信息;
将所述待标注的科技信息进行分词处理后通过包含词嵌入层的上下文编码器以得到多个词高维特征向量;
将所述多个词高维特征向量排列为一维的特征向量后通过一维卷积神经网络以得到第一语义特征向量;
将所述待标注的科技信息按照段落进行划分以获得多个段落;
将所述多个段落中的各个段落分别通过所述包含词嵌入层的上下文编码器以得到对应于各个段落的段落高维特征向量;
将所述对应于各个段落的段落高维特征向量按照段落样本维度排列为二维的特征矩阵后通过使用二维卷积核的第二卷积神经网络以得到第二语义特征向量;
计算所述第一语义特征向量相对于所述第二语义特征向量的第一特征密集权重因数以及所述第二语义特征向量相对于所述第一语义特征向量的第二特征密集权重因数;
以所述第一特征密集权重因数和所述第二特征密集权重因数分别对所述第一语义特征向量和所述第二语义特征向量进行加权以得到加权后第一语义特征向量和加权后第二语义特征向量;
融合所述加权后第一语义特征向量和所述加权后第二语义特征向量以得到分类特征向量;以及
将所述分类特征向量通过所述多标签分类器以得到所述待标注的科技信息所属的主题标签。
10.根据权利要求9所述的科技信息管理系统的管理方法,其中,将所述待标注的科技信息进行分词处理后通过包含词嵌入层的上下文编码器以得到多个词高维特征向量,包括:
对所述待标注的科技信息进行分词以获得词序列;
使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射为词向量以获得词向量序列;
使用所述包含嵌入层的上下文编码器的基于转换器的Bert模型对所述词向量序列进行基于全局掩码结构的全局语义编码以得到多个词高维特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210647790.7A CN115186673A (zh) | 2022-06-08 | 2022-06-08 | 科技信息管理系统及其管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210647790.7A CN115186673A (zh) | 2022-06-08 | 2022-06-08 | 科技信息管理系统及其管理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115186673A true CN115186673A (zh) | 2022-10-14 |
Family
ID=83513654
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210647790.7A Withdrawn CN115186673A (zh) | 2022-06-08 | 2022-06-08 | 科技信息管理系统及其管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115186673A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115796173A (zh) * | 2023-02-20 | 2023-03-14 | 杭银消费金融股份有限公司 | 针对监管报送需求的数据处理方法和系统 |
CN115914182A (zh) * | 2023-03-03 | 2023-04-04 | 江苏美唯信息技术有限公司 | 基于麒麟系统的无纸化会议系统 |
CN115982736A (zh) * | 2022-12-21 | 2023-04-18 | 南阳理工学院 | 用于计算机网络信息的数据加密方法及系统 |
CN116454772A (zh) * | 2023-06-14 | 2023-07-18 | 浙江浙能迈领环境科技有限公司 | 用于集装箱中压配电柜的泄压装置及方法 |
CN116595976A (zh) * | 2023-04-26 | 2023-08-15 | 杭州睿数科技有限公司 | 一种科研创新平台控制方法及其系统 |
-
2022
- 2022-06-08 CN CN202210647790.7A patent/CN115186673A/zh not_active Withdrawn
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115982736A (zh) * | 2022-12-21 | 2023-04-18 | 南阳理工学院 | 用于计算机网络信息的数据加密方法及系统 |
CN115982736B (zh) * | 2022-12-21 | 2023-08-08 | 南阳理工学院 | 用于计算机网络信息的数据加密方法及系统 |
CN115796173A (zh) * | 2023-02-20 | 2023-03-14 | 杭银消费金融股份有限公司 | 针对监管报送需求的数据处理方法和系统 |
CN115796173B (zh) * | 2023-02-20 | 2023-04-28 | 杭银消费金融股份有限公司 | 针对监管报送需求的数据处理方法和系统 |
CN115914182A (zh) * | 2023-03-03 | 2023-04-04 | 江苏美唯信息技术有限公司 | 基于麒麟系统的无纸化会议系统 |
CN116595976A (zh) * | 2023-04-26 | 2023-08-15 | 杭州睿数科技有限公司 | 一种科研创新平台控制方法及其系统 |
CN116595976B (zh) * | 2023-04-26 | 2024-05-24 | 杭州睿数科技有限公司 | 一种科研创新平台控制方法及其系统 |
CN116454772A (zh) * | 2023-06-14 | 2023-07-18 | 浙江浙能迈领环境科技有限公司 | 用于集装箱中压配电柜的泄压装置及方法 |
CN116454772B (zh) * | 2023-06-14 | 2023-08-25 | 浙江浙能迈领环境科技有限公司 | 用于集装箱中压配电柜的泄压装置及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115186673A (zh) | 科技信息管理系统及其管理方法 | |
CN109376796A (zh) | 基于主动半监督学习的图像分类方法 | |
CN112199532B (zh) | 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置 | |
CN116610803B (zh) | 基于大数据的产业链优企信息管理方法及系统 | |
CN115409018B (zh) | 基于大数据的公司舆情监测系统及其方法 | |
CN112163114B (zh) | 一种基于特征融合的图像检索方法 | |
CN114547230A (zh) | 一种智能行政执法案例信息抽取和案由认定方法 | |
CN116340506A (zh) | 一种基于bert和无池化卷积神经网络的文本分类方法 | |
CN117217277A (zh) | 语言模型的预训练方法、装置、设备、存储介质及产品 | |
CN112182275A (zh) | 一种基于多维度特征融合的商标近似检索系统和方法 | |
CN117744635B (zh) | 基于智能ai的英文文本自动校对系统及方法 | |
CN117743517A (zh) | 基于人工智能的智慧冰雪旅游管理系统及方法 | |
CN115221281A (zh) | 知识产权检索系统及其检索方法 | |
CN113806646A (zh) | 序列标注系统及序列标注模型的训练系统 | |
CN117436950A (zh) | 广告投放效果监控系统及其方法 | |
CN115795037B (zh) | 一种基于标签感知的多标签文本分类方法 | |
CN117390187A (zh) | 基于对比学习和迭代优化的事件类型归纳方法及系统 | |
CN117392420A (zh) | 基于多标签图像分类的馆藏文物图像数据语义联配方法 | |
CN116822513A (zh) | 一种融合实体类型与关键词特征的命名实体识别方法 | |
CN117009516A (zh) | 换流站故障策略模型训练方法、推送方法及装置 | |
CN113434698B (zh) | 基于全层级注意力的关系抽取模型建立方法及其应用 | |
CN112101267B (zh) | 一种基于深度学习和哈希编码的快速人脸检索方法 | |
CN112182287B (zh) | 一种基于时空视觉词组和分层匹配的视频拷贝检测方法 | |
CN112784838A (zh) | 一种基于局部敏感哈希网络的汉明ocr识别方法 | |
Zhu et al. | Image annotation method based on graph volume network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20221014 |