CN116910187A - 天文信息提取方法、装置、电子装置和存储介质 - Google Patents
天文信息提取方法、装置、电子装置和存储介质 Download PDFInfo
- Publication number
- CN116910187A CN116910187A CN202311179451.1A CN202311179451A CN116910187A CN 116910187 A CN116910187 A CN 116910187A CN 202311179451 A CN202311179451 A CN 202311179451A CN 116910187 A CN116910187 A CN 116910187A
- Authority
- CN
- China
- Prior art keywords
- astronomical
- features
- initial
- training
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 133
- 238000003860 storage Methods 0.000 title claims abstract description 11
- 230000000007 visual effect Effects 0.000 claims abstract description 74
- 239000013598 vector Substances 0.000 claims abstract description 55
- 238000002372 labelling Methods 0.000 claims abstract description 43
- 238000012512 characterization method Methods 0.000 claims abstract description 34
- 230000004927 fusion Effects 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims description 59
- 238000000034 method Methods 0.000 claims description 41
- 238000013527 convolutional neural network Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 14
- 238000012360 testing method Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 10
- 238000009826 distribution Methods 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 4
- 238000011160 research Methods 0.000 description 13
- 230000005540 biological transmission Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种天文信息提取方法、装置、电子装置和存储介质,其中,该天文信息提取方法包括:从待处理的天文文献中,标注各天文文献中的初始文本特征和初始视觉特征;将初始文本特征和初始视觉特征进行特征融合,得到联合表征向量输入训练完备的基于Transformer架构的多模态知识提取模型,利用多模态知识提取模型中的编码器计算天文信息特征的预测概率值,并利用多模态知识提取模型中的解码器,针对预测概率值输出预测的多模态的天文信息特征;其基于天文文献中各类型特征的标注,利用多模态知识提取模型实现了最终的天文信息特征的预测,从而能够实现对天文文献中多模态的天文知识的提取。
Description
技术领域
本申请涉及天文文献处理领域,特别是涉及天文信息提取方法、装置、电子装置和存储介质。
背景技术
作为研究天体与宇宙的学科,天文学涵盖了众多研究目标与领域。随着信息时代的发展,天文数据量也呈现出指数级增长,随之产生了大规模、多模态的天文科学数据,包括文献、文本、图表以及实验数据等。目前,多模态的天文科学数据尚面临着分散多源、知识本体不完善、相关数据模型挖掘专业门槛高的挑战等问题。国内外天文领域现有的知识建模方法仅考虑天文知识本体,尚未实现天文知识在文献中的自动提取。
针对相关技术中存在无法实现天文知识在文献中的自动提取的问题,目前还没有提出有效的解决方案。
发明内容
在本实施例中提供了一种天文信息提取方法、装置、电子装置和存储介质,以解决相关技术中无法实现天文知识在文献中的自动提取的问题。
第一个方面,在本实施例中提供了一种天文信息提取方法,包括:
从待处理的天文文献中,基于训练完备的文本特征提取模型,标注各所述天文文献中的初始文本特征;
基于训练完备的视觉特征提取模型,标注各所述天文文献中的初始视觉特征;
将所述初始文本特征和所述初始视觉特征进行特征融合,得到联合表征向量;
将所述联合表征向量输入训练完备的基于Transformer架构的多模态知识提取模型,利用所述多模态知识提取模型中的编码器计算天文信息特征的预测概率值,并利用所述多模态知识提取模型中的解码器,针对所述预测概率值输出预测的多模态的天文信息特征;所述天文信息特征至少包括所述天文文献中的天文文本特征和天文视觉特征。
在其中的一些实施例中,在基于训练完备的文本特征提取模型,标注各所述天文文献中的初始文本特征之前,所述方法还包括:
从预设的天文文献库中获取用于训练的文本标注内容;
将所述文本标注内容进行向量化处理得到编码向量;
将所述编码向量输入预设的预训练语言模型,以使所述预训练语言模型结合所述编码向量中的位置信息,预测所述文本标注内容中各位置的初始文本特征的概率;
根据所述预训练语言模型的输出结果,以及预设的测试集,校正所述预训练语言模型的训练参数,得到训练完备的文本特征提取模型。
在其中的一些实施例中,所述初始文本特征包括文献的通用表征特征,以及天文领域的天文知识特征。
在其中的一些实施例中,在基于训练完备的视觉特征提取模型,标注各所述天文文献中的初始视觉特征之前,所述方法还包括:
从预设的天文文献库获取用于训练的图像标注内容;
将所述图像标注内容输入预设的卷积神经网络,计算所述图像标注内容的初始视觉特征的分布概率;
根据所述卷积神经网络的输出结果,和预设的测试集,调整所述卷积神经网络的校正参数,得到训练完备的视觉特征提取模型。
在其中的一些实施例中,所述方法还包括:
在对基于Transformer架构的模型进行训练的阶段,获取至少包括文本特征和视觉特征的用于训练的多模态数据集;
将所述多模态数据集输入预设的基于Transformer架构的模型,利用所述基于Transformer架构的模型中的编码器计算各天文信息特征的预测概率值,并利用所述基于Transformer架构的模型中的解码器,针对所述预测概率值输出天文信息特征;
根据所述基于Transformer架构的模型的输出结果和预设的测试集,校正所述基于Transformer架构的模型的训练参数,得到训练完备的基于Transformer架构的多模态知识提取模型。
在其中的一些实施例中,所述方法还包括:
将预设的天文文献集中所标注的天文观测数据,与预设的观测数据集之间的关联关系,加入所述多模态数据集。
在其中的一些实施例中,所述方法还包括:
将预设的天文文献集中所标注的天文术语与天文命名词典之间的关联关系,以及所述天文文献集中所标注的天体坐标与星表之间的关联关系,加入所述多模态数据集。
在其中的一些实施例中,所述将所述初始文本特征和所述初始视觉特征进行特征融合,得到联合表征向量,包括:
分别对所述初始文本特征和所述初始视觉特征进行归一化处理,将所述初始文本特征的归一化结果和所述初始视觉特征的归一化结果进行向量拼接,得到所述联合表征向量。
第二个方面,在本实施例中提供了一种天文信息提取装置,包括:第一提取模块、第二提取模块、融合模块以及输出模块;其中:
所述第一提取模块,用于从待处理的天文文献中,基于训练完备的文本特征提取模型,标注各所述天文文献中的初始文本特征;
所述第二提取模块,用于基于训练完备的视觉特征提取模型,标注各所述天文文献中的初始视觉特征;
所述融合模块,用于将所述初始文本特征和所述初始视觉特征进行特征融合,得到联合表征向量;
所述输出模块,用于将所述联合表征向量输入训练完备的基于Transformer架构的多模态知识提取模型,利用所述多模态知识提取模型中的编码器计算天文信息特征的预测概率值,并利用所述多模态知识提取模型中的解码器,针对所述预测概率值输出预测的多模态的天文信息特征;所述天文信息特征至少包括所述天文文献中的天文文本特征和天文视觉特征。
第三个方面,在本实施例中提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一个方面所述的天文信息提取方法。
第四个方面,在本实施例中提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一个方面所述的天文信息提取方法。
与相关技术相比,在本实施例中提供的天文信息提取方法、装置、电子装置和存储介质,首先从待处理的天文文献中,基于训练完备的文本特征提取模型,标注各天文文献中的初始文本特征;基于训练完备的视觉特征提取模型,标注各天文文献中的初始视觉特征;将初始文本特征和初始视觉特征进行特征融合,得到联合表征向量;最后将联合表征向量输入训练完备的基于Transformer架构的多模态知识提取模型,利用多模态知识提取模型中的编码器计算天文信息特征的预测概率值,并利用多模态知识提取模型中的解码器,针对预测概率值输出预测的多模态的天文信息特征。其基于天文文献中各类型特征的标注,利用多模态知识提取模型实现了最终的天文信息特征的预测,从而能够实现对天文文献中多模态的天文知识的提取。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本实施例的天文信息提取方法的终端的硬件结构框图;
图2是本实施例的天文信息提取方法的流程图;
图3是本优选实施例的用于天文信息提取的模型训练方法的流程图;
图4是本实施例的天文信息提取装置的结构框图。
具体实施方式
为更清楚地理解本申请的目的、技术方案和优点,下面结合附图和实施例,对本申请进行了描述和说明。
除另作定义外,本申请所涉及的技术术语或者科学术语应具有本申请所属技术领域具备一般技能的人所理解的一般含义。在本申请中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制,它们可以是单数或者复数。在本申请中所涉及的术语“包括”、“包含”、“具有”及其任何变体,其目的是涵盖不排他的包含;例如,包含一系列步骤或模块(单元)的过程、方法和系统、产品或设备并未限定于列出的步骤或模块(单元),而可包括未列出的步骤或模块(单元),或者可包括这些过程、方法、产品或设备固有的其他步骤或模块(单元)。在本申请中所涉及的“连接”、“相连”、“耦接”等类似的词语并不限定于物理的或机械连接,而可以包括电气连接,无论是直接连接还是间接连接。在本申请中所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。通常情况下,字符“/”表示前后关联的对象是一种“或”的关系。在本申请中所涉及的术语“第一”、“第二”、“第三”等,只是对相似对象进行区分,并不代表针对对象的特定排序。
在本实施例中提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。比如在终端上运行,图1是本实施例的天文信息提取方法的终端的硬件结构框图。如图1所示,终端可以包括一个或多个(图1中仅示出一个)处理器102和用于存储数据的存储器104,其中,处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置。上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限制。例如,终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示出的不同配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如在本实施例中的天文信息提取方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络包括终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(NetworkInterface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(RadioFrequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种天文信息提取方法,图2是本实施例的天文信息提取方法的流程图,如图2所示,该流程包括如下步骤:
步骤S210,从待处理的天文文献中,基于训练完备的文本特征提取模型,标注各天文文献中的初始文本特征。
该待处理的天文文献,指的是需要基于文献内容进行天文信息特征提取的天文文献。其中,本实施例中的初始文本特征指的是天文文献中包含论文题目、关键词、发表年份、作者、联系方式、论文致谢内容、论文研究方法以及文献引用列表等表征文献通用信息的通用表征特征,以及天文文献中包含天体类型、天文研究领域、天体名称、天文研究方法、天体坐标、观测数据、观测波段、望远镜等属于天文领域知识的特征。对于天文文献中上述初始文本特征的提取,具体可以基于文献的光学文字识别(optical character recognition,简称为OCR)技术、语言预训练bert神经网络算法以及元数据算法等技术来实现。
示例性地,应用文献OCR技术、自然语言处理(Natural Language Processing,简称为NLP)结合元数据等算法,抽取天文文献中包含论文题目、关键词、发表年份、作者、联系方式、论文致谢、论文研究方法以及文献引用列表等属于文献通用信息的粗粒度知识,也即通用表征特征。具体如下表一所示:
表一
另外,还可以结合天文领域的知识,先标注天文文献的摘要部分中包含天体类型、天文领域、天体名称以及天文研究方法等天文领域知识的短语及句子。之后,再标注天文文献的正文部分包含的更多的天文细粒度知识的短语及句子,具体如下表二所示:
表二
应用生成词向量的模型word2vec,通过词嵌入技术将上述天文领域知识相关的标注文本处理为向量,再通过bert神经网络结构抽取标注文本中所包含的坐标、数据集、观测时间、天体名称、天体类型、天文领域等天文实体信息,从而得到表征天文领域的细粒度知识的天文知识特征。该天文知识特征和上述通用表征特征共同构成了天文文献的初始文本特征。
步骤S220,基于训练完备的视觉特征提取模型,标注各天文文献中的初始视觉特征。
其中,可以应用卷积神经网络(Convolutional Neural Network,简称CNN)来提取天文文献中柔性图像传输系统格式(Flexible Image Transport System,简称为FITS)的图像或者其他格式的图像的视觉特征。其中,提取各天文文献中所包含的图像,并为图像标注相关的特征和标签,之后,再基于卷积神经网络技术,最终得到图像中各图像特征的分布概率,从而得到上述初始视觉特征。
步骤S230,将初始文本特征和初始视觉特征进行特征融合,得到联合表征向量。
具体地,在经过文本特征提取模型得到天文文献的初始文本特征,以及经过视觉特征提取模型得到天文文献中的初始视觉特征之后,将该初始文本特征、初始视觉特征分别进行归一化处理,然后针对初始文本特征和初始视觉特征的归一化结果做向量拼接,将向量拼接结果作为联合表征向量。之后,再将联合表征向量转换为嵌入层也即Embedding层,作为下文多模态知识提取模型的输入层。上述过程具体采用的方法可以为通过双线性注意网络bilinear attention来融合视觉特征向量和文本特征向量得到一个联合表征空间,再计算两种模态向量的外积得到最终的联合表征向量。
步骤S240,将联合表征向量输入训练完备的基于Transformer架构的多模态知识提取模型,利用多模态知识提取模型中的编码器计算天文信息特征的预测概率值,并利用多模态知识提取模型中的解码器,针对预测概率值输出预测的多模态的天文信息特征;天文信息特征至少包括天文文献中的天文文本特征和天文视觉特征。
上述基于Transformer架构的多模态知识提取模型主要由编码器与解码器组成,其中,该模型的输入值经过由多层注意力机制头、残差连接块、归一化块等组成的编码器后得到预测概率值,预测概率值经过由多层注意力机制头、残差连接块、归一化块、以及诸如归一化指数函数(也即softmax)之类的分类函数等组成的解码器处理后即可得到预测的天文信息特征。该Transformer架构是一种包括编码器和解码器,结合注意力机制的用于文本处理的深度学习架构。上述步骤,将待处理的天文文献的初始文本特征和初始视觉特征融合后输入训练完备的多模态知识提取模型进行处理,即可提取得到该待处理的天文文献中多模态的天文信息特征,例如该天文文献中所包含的具体的天体类型、天体名称、天文研究方法、观测波段、望远镜、论文题目、论文关键词、作者信息等等天文文本特征,以及天文图像中与天体相关的诸如天体类别、名称、性质等天文视觉特征。
相比于相关技术中,仅仅只支持对于天文文献的检索,而无法将天文文献与其所包含的天文信息特征相关联,本实施例所提供的天文信息提取方法,能够实现从天文文献中抽取多模态的天文信息特征,进而将天文科学数据与天文知识体系进行融合,提高天文检索系统的全面度和专业度,并为后续天文时空图谱的构建奠定基础。
上述步骤S210至步骤S230,从待处理的天文文献中,基于训练完备的文本特征提取模型,标注各天文文献中的初始文本特征;基于训练完备的视觉特征提取模型,标注各天文文献中的初始视觉特征;将初始文本特征和初始视觉特征进行特征融合,得到联合表征向量;将联合表征向量输入训练完备的基于Transformer架构的多模态知识提取模型,利用多模态知识提取模型中的编码器计算天文信息特征的预测概率值,并利用多模态知识提取模型中的解码器,针对预测概率值输出预测的多模态的天文信息特征;天文信息特征至少包括天文文献中的天文文本特征和天文视觉特征。其基于天文文献中各类型特征的标注,利用多模态知识提取模型实现了最终的天文信息特征的预测,从而能够实现对天文文献中多模态的天文知识的提取。
在一个实施例中,在基于训练完备的文本特征提取模型,标注各天文文献中的初始文本特征之前,上述方法还可以包括:从预设的天文文献库中获取用于训练的文本标注内容;将文本标注内容进行向量化处理得到编码向量;将编码向量输入预设的预训练语言模型,以使预训练语言模型结合编码向量中的位置信息,预测文本标注内容中各位置的初始文本特征的概率;根据预训练语言模型的输出结果,以及预设的测试集,校正预训练语言模型的训练参数,得到训练完备的文本特征提取模型。
具体地,基于现有的文献数据库,以天文细分研究领域为基准,采用分层抽样法随机获取不同天文研究领域相同数量文献,随后标注每篇文献摘要中包含天体类型、天体名称和研究方法的短语或句子,还可以选取文献的正文部分标注的相关的短语或句子,形成文本标注内容。应用word2vec算法将文本标注内容进行向量化处理转换为编码向量。采用自监督学习生成预训练bert语言模型,将上述编码向量输入该预训练bert语言模型,并在添加位置向量后传入多层编码器,编码器对所有的输出信息做一个线性变换,计算对应位置的输出词的概率,得到初始文本特征的预测结果。在训练该预训练bert语言模型的过程中,依据其输出结果,利用测试集渐进地校正其训练参数,以提高该预训练bert语言模型的精度。
另外地,在一个实施例中,在基于训练完备的视觉特征提取模型,标注各天文文献中的初始视觉特征之前,上述方法还可以包括:从预设的天文文献库获取用于训练的图像标注内容;将图像标注内容输入预设的卷积神经网络,计算图像标注内容的初始视觉特征的分布概率;根据卷积神经网络的输出结果,和预设的测试集,调整卷积神经网络的校正参数,得到训练完备的视觉特征提取模型。
具体地,基于预设的天文文献库,以天文细分研究领域为基准,采用分层抽样法随机获取不同天文研究领域的相同数量的天文文献,之后再从其中包含有图像信息的天文文献中标注天文相关图像,并对应为这些图像打上相关图像标签形成图像标注内容。之后,将图像标注内容输入预设的卷积神经网络,例如Resnet卷积模型,经过多层卷积层后输出到全连接层,通过softmax函数分类处理后得到初始视觉特征的分布概率。在训练过程中,依据输出结果,利用测试集渐进地校正卷积神经网络的训练参数,以提高卷积神经网络的精度。
另外地,在一个实施例中,上述方法还可以包括:
在对基于Transformer架构的模型进行训练的阶段,获取至少包括文本特征和视觉特征的用于训练的多模态数据集;将多模态数据集输入预设的基于Transformer架构的模型,利用基于Transformer架构的模型中的编码器计算各天文信息特征的预测概率值,并利用基于Transformer架构的模型中的解码器,针对预测概率值输出天文信息特征;根据基于Transformer架构的模型的输出结果和预设的测试集,校正基于Transformer架构的模型的训练参数,得到训练完备的基于Transformer架构的多模态知识提取模型。
在此基础上,可选地,在一个实施例中,上述方法还可以包括:
将预设的天文文献集中所标注的天文观测数据,与预设的观测数据集之间的关联关系,加入多模态数据集。
其中,针对天文文献中出现的天文观测数据,可以通过应用关键词搜索、特征匹配等方式,抽取天文观测数据与目前已公开的一些观测数据集之间的关联关系,将其加入上述多模态数据集。其中,还可以将天文观测数据与上述多模态数据集中坐标、观测时间、天体名称、天体类型、天文领域等天文实体信息进行关联。通过将观测数据相关的关联关系加入多模态数据集,能够使得多模态知识提取模型实现对天文文献与相关公开的观测数据集之间的关联关系进行预测,从而实现天文文献与目前国内外公开的天文观测用的观测数据集之间的关联,提高天文文献检索的全面度和专业度。
可选地,在一个实施例中,上述方法还可以包括:
将预设的天文文献集中所标注的天文术语与天文命名词典之间的关联关系,以及天文文献集中所标注的天体坐标与星表之间的关联关系,加入多模态数据集。在本实施例中,通过将天文术语与天文命名词典之间的关联关系,以及天体坐标与星表之间的关联关系加入多模态数据集,训练得到多模态知识提取模型,能够在后续的模型应用中,实现天文文献与上述天文命名词典、星表之间的关联关系的提取,将天文文献实体、数据与图表等知识相融合,进而帮助天文研究人员检索更全面的天文文献与天文数据,以解决文献与数据之间的壁垒问题。
其中,针对天文文献中的天文术语,将其与天文命名词典相关联,并将关联关系加入上述多模态数据集,将天文文献中涉及的天体坐标与斯特拉斯堡天文数据中心(Centrede Donnees Astronomiques de Strasbourg,简称CDS)星表服务中的相应星表关联,并将该关联关系加入上述多模态数据集中。
另外地,基于上述步骤S230,将初始文本特征和初始视觉特征进行特征融合,得到联合表征向量,可以包括:分别对初始文本特征和初始视觉特征进行归一化处理,将初始文本特征的归一化结果和初始视觉特征的归一化结果进行向量拼接,得到联合表征向量。通过将初始文本特征和初始视觉特征进行融合,以作为多模态知识提取模型的输入,能够使得该多模态知识提取模型实现对包含有文本和图像两种模态的特征的提取,提高天文文献的天文信息特征提取的全面度和专业度。
下面通过优选实施例对本实施例进行描述和说明。
图3是本优选实施例的用于天文信息提取的模型训练方法的流程图。如图3所示,该模型训练方法包括如下步骤:
步骤S301,利用国内外文献数据系统,下载来自于不同天文领域的天文文献和天文观测数据,建立统一的天文文献库;
步骤S302,采用分层采样法,按照天文领域随机获取相同数量的文献用于数据标注;
步骤S303,基于步骤S302获取的文献,根据预设的多模态文献数据标注规则对文献文本内容进行词性、短语及句子标注;
步骤S304,基于步骤S303的标注结果,将天文文献中论文题目、关键词、发表年份、作者、联系方式、致谢、研究方法、引用列表等粗粒度知识表示为元组数据X1={x1,x2,...,xn};
步骤S305,将表示天文领域相关知识的短语及句子通过分词工具划分,表示为三元组X2={x11,x22,...,xnn};
步骤S306,将上述元组数据X={X1,X2}通过预训练bert语言模型进行编码,编码后向量经过多层编码器和解码器后得到最终的输出概率,形成初始文本特征F1;
步骤S307,基于步骤S302所获取的文献,提取其中的观测图像,并标注上图像标签,应用Resnet卷积神经网络提取初始视觉特征F2;
步骤S308,将初始文本特征F1和初始视觉特征F2进行特征融合处理,形成联合表征向量F;
步骤S309,将联合表征向量F输入基于Transformer架构的模型,实现天文信息特征预测,并基于测试集对该基于Transformer架构的模型的校正参数进行调整,得到训练完备的基于Transformer架构的多模态知识提取模型。
在本实施例中还提供了一种天文信息提取装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。以下所使用的术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是本实施例的天文信息提取装置40的结构框图,如图4所示,该天文信息提取装置40包括:第一提取模块42、第二提取模块44、融合模块46以及输出模块48;其中:
第一提取模块42,用于从待处理的天文文献中,基于训练完备的文本特征提取模型,标注各天文文献中的初始文本特征;
第二提取模块44,用于基于训练完备的视觉特征提取模型,标注各天文文献中的初始视觉特征;
融合模块46,用于将初始文本特征和初始视觉特征进行特征融合,得到联合表征向量;
输出模块48,用于将联合表征向量输入训练完备的基于Transformer架构的多模态知识提取模型,利用多模态知识提取模型中的编码器计算天文信息特征的预测概率值,并利用多模态知识提取模型中的解码器,针对预测概率值输出预测的多模态的天文信息特征;天文信息特征至少包括天文文献中的天文文本特征和天文视觉特征。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
在本实施例中还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,从待处理的天文文献中,基于训练完备的文本特征提取模型,标注各所述天文文献中的初始文本特征;
S2,基于训练完备的视觉特征提取模型,标注各所述天文文献中的初始视觉特征;
S3,将所述初始文本特征和所述初始视觉特征进行特征融合,得到联合表征向量;
S4,将所述联合表征向量输入训练完备的基于Transformer架构的多模态知识提取模型,利用所述多模态知识提取模型中的编码器计算天文信息特征的预测概率值,并利用所述多模态知识提取模型中的解码器,针对所述预测概率值输出预测的多模态的天文信息特征;所述天文信息特征至少包括所述天文文献中的天文文本特征和天文视觉特征。
需要说明的是,在本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,在本实施例中不再赘述。
此外,结合上述实施例中提供的天文信息提取方法,在本实施例中还可以提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种天文信息提取方法。
应该明白的是,这里描述的具体实施例只是用来解释这个应用,而不是用来对它进行限定。根据本申请提供的实施例,本领域普通技术人员在不进行创造性劳动的情况下得到的所有其它实施例,均属本申请保护范围。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
显然,附图只是本申请的一些例子或实施例,对本领域的普通技术人员来说,也可以根据这些附图将本申请适用于其他类似情况,但无需付出创造性劳动。另外,可以理解的是,尽管在此开发过程中所做的工作可能是复杂和漫长的,但是,对于本领域的普通技术人员来说,根据本申请披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段,不应被视为本申请公开的内容不足。
“实施例”一词在本申请中指的是结合实施例描述的具体特征、结构或特性可以包括在本申请的至少一个实施例中。该短语出现在说明书中的各个位置并不一定意味着相同的实施例,也不意味着与其它实施例相互排斥而具有独立性或可供选择。本领域的普通技术人员能够清楚或隐含地理解的是,本申请中描述的实施例在没有冲突的情况下,可以与其它实施例结合。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对专利保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (11)
1.一种天文信息提取方法,其特征在于,包括:
从待处理的天文文献中,基于训练完备的文本特征提取模型,标注各所述天文文献中的初始文本特征;
基于训练完备的视觉特征提取模型,标注各所述天文文献中的初始视觉特征;
将所述初始文本特征和所述初始视觉特征进行特征融合,得到联合表征向量;
将所述联合表征向量输入训练完备的基于Transformer架构的多模态知识提取模型,利用所述多模态知识提取模型中的编码器计算天文信息特征的预测概率值,并利用所述多模态知识提取模型中的解码器,针对所述预测概率值输出预测的多模态的天文信息特征;所述天文信息特征至少包括所述天文文献中的天文文本特征和天文视觉特征。
2.根据权利要求1所述的天文信息提取方法,其特征在于,在基于训练完备的文本特征提取模型,标注各所述天文文献中的初始文本特征之前,所述方法还包括:
从预设的天文文献库中获取用于训练的文本标注内容;
将所述文本标注内容进行向量化处理得到编码向量;
将所述编码向量输入预设的预训练语言模型,以使所述预训练语言模型结合所述编码向量中的位置信息,预测所述文本标注内容中各位置的初始文本特征的概率;
根据所述预训练语言模型的输出结果,以及预设的测试集,校正所述预训练语言模型的训练参数,得到训练完备的文本特征提取模型。
3.根据权利要求1或权利要求2所述的天文信息提取方法,其特征在于,所述初始文本特征包括文献的通用表征特征,以及天文领域的天文知识特征。
4.根据权利要求1所述的天文信息提取方法,其特征在于,在基于训练完备的视觉特征提取模型,标注各所述天文文献中的初始视觉特征之前,所述方法还包括:
从预设的天文文献库获取用于训练的图像标注内容;
将所述图像标注内容输入预设的卷积神经网络,计算所述图像标注内容的初始视觉特征的分布概率;
根据所述卷积神经网络的输出结果,和预设的测试集,调整所述卷积神经网络的校正参数,得到训练完备的视觉特征提取模型。
5.根据权利要求1所述的天文信息提取方法,其特征在于,所述方法还包括:
在对基于Transformer架构的模型进行训练的阶段,获取至少包括文本特征和视觉特征的用于训练的多模态数据集;
将所述多模态数据集输入预设的基于Transformer架构的模型,利用所述基于Transformer架构的模型中的编码器计算各天文信息特征的预测概率值,并利用所述基于Transformer架构的模型中的解码器,针对所述预测概率值输出天文信息特征;
根据所述基于Transformer架构的模型的输出结果和预设的测试集,校正所述基于Transformer架构的模型的训练参数,得到训练完备的基于Transformer架构的多模态知识提取模型。
6.根据权利要求5所述的天文信息提取方法,其特征在于,所述方法还包括:
将预设的天文文献集中所标注的天文观测数据,与预设的观测数据集之间的关联关系,加入所述多模态数据集。
7.根据权利要求5所述的天文信息提取方法,其特征在于,所述方法还包括:
将预设的天文文献集中所标注的天文术语与天文命名词典之间的关联关系,以及所述天文文献集中所标注的天体坐标与星表之间的关联关系,加入所述多模态数据集。
8.根据权利要求1所述的天文信息提取方法,其特征在于,所述将所述初始文本特征和所述初始视觉特征进行特征融合,得到联合表征向量,包括:
分别对所述初始文本特征和所述初始视觉特征进行归一化处理,将所述初始文本特征的归一化结果和所述初始视觉特征的归一化结果进行向量拼接,得到所述联合表征向量。
9.一种天文信息提取装置,其特征在于,包括:第一提取模块、第二提取模块、融合模块以及输出模块;其中:
所述第一提取模块,用于从待处理的天文文献中,基于训练完备的文本特征提取模型,标注各所述天文文献中的初始文本特征;
所述第二提取模块,用于基于训练完备的视觉特征提取模型,标注各所述天文文献中的初始视觉特征;
所述融合模块,用于将所述初始文本特征和所述初始视觉特征进行特征融合,得到联合表征向量;
所述输出模块,用于将所述联合表征向量输入训练完备的基于Transformer架构的多模态知识提取模型,利用所述多模态知识提取模型中的编码器计算天文信息特征的预测概率值,并利用所述多模态知识提取模型中的解码器,针对所述预测概率值输出预测的多模态的天文信息特征;所述天文信息特征至少包括所述天文文献中的天文文本特征和天文视觉特征。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至权利要求8中任一项所述的天文信息提取方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至权利要求8中任一项所述的天文信息提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311179451.1A CN116910187B (zh) | 2023-09-13 | 2023-09-13 | 天文信息提取方法、装置、电子装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311179451.1A CN116910187B (zh) | 2023-09-13 | 2023-09-13 | 天文信息提取方法、装置、电子装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116910187A true CN116910187A (zh) | 2023-10-20 |
CN116910187B CN116910187B (zh) | 2024-01-09 |
Family
ID=88355084
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311179451.1A Active CN116910187B (zh) | 2023-09-13 | 2023-09-13 | 天文信息提取方法、装置、电子装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116910187B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117932280A (zh) * | 2024-03-25 | 2024-04-26 | 之江实验室 | 长序列数据预测方法、装置、计算机设备、介质和产品 |
CN118035427A (zh) * | 2024-04-15 | 2024-05-14 | 之江实验室 | 一种通过3d对比学习增强多模态图文检索的方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113127503A (zh) * | 2021-03-18 | 2021-07-16 | 中国科学院国家空间科学中心 | 一种面向航天情报的自动信息提取方法及系统 |
WO2021169288A1 (zh) * | 2020-02-26 | 2021-09-02 | 平安科技(深圳)有限公司 | 语义理解模型训练方法、装置、计算机设备和存储介质 |
EP3879427A2 (en) * | 2020-11-30 | 2021-09-15 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Information extraction method, extraction model training method, apparatus and electronic device |
WO2022033332A1 (zh) * | 2020-08-14 | 2022-02-17 | 腾讯科技(深圳)有限公司 | 对话生成方法、网络训练方法、装置、存储介质及设备 |
CN115309860A (zh) * | 2022-07-18 | 2022-11-08 | 黑龙江大学 | 基于伪孪生网络的虚假新闻检测方法 |
CN115705619A (zh) * | 2021-08-02 | 2023-02-17 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置、电子设备和存储介质 |
CN116263938A (zh) * | 2021-12-14 | 2023-06-16 | 广州视源电子科技股份有限公司 | 图像处理方法、装置及计算机可读存储介质 |
CN116701568A (zh) * | 2023-05-09 | 2023-09-05 | 湖南工商大学 | 一种基于3d卷积神经网络的短视频情感分类方法及系统 |
-
2023
- 2023-09-13 CN CN202311179451.1A patent/CN116910187B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021169288A1 (zh) * | 2020-02-26 | 2021-09-02 | 平安科技(深圳)有限公司 | 语义理解模型训练方法、装置、计算机设备和存储介质 |
WO2022033332A1 (zh) * | 2020-08-14 | 2022-02-17 | 腾讯科技(深圳)有限公司 | 对话生成方法、网络训练方法、装置、存储介质及设备 |
EP3879427A2 (en) * | 2020-11-30 | 2021-09-15 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Information extraction method, extraction model training method, apparatus and electronic device |
CN113127503A (zh) * | 2021-03-18 | 2021-07-16 | 中国科学院国家空间科学中心 | 一种面向航天情报的自动信息提取方法及系统 |
CN115705619A (zh) * | 2021-08-02 | 2023-02-17 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置、电子设备和存储介质 |
CN116263938A (zh) * | 2021-12-14 | 2023-06-16 | 广州视源电子科技股份有限公司 | 图像处理方法、装置及计算机可读存储介质 |
CN115309860A (zh) * | 2022-07-18 | 2022-11-08 | 黑龙江大学 | 基于伪孪生网络的虚假新闻检测方法 |
CN116701568A (zh) * | 2023-05-09 | 2023-09-05 | 湖南工商大学 | 一种基于3d卷积神经网络的短视频情感分类方法及系统 |
Non-Patent Citations (2)
Title |
---|
刘泽宇;马龙龙;吴健;孙乐;: "基于多模态神经网络的图像中文摘要生成方法", 中文信息学报, no. 06 * |
陈兴;: "基于多模态神经网络生成图像中文描述", 计算机系统应用, no. 09 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117932280A (zh) * | 2024-03-25 | 2024-04-26 | 之江实验室 | 长序列数据预测方法、装置、计算机设备、介质和产品 |
CN118035427A (zh) * | 2024-04-15 | 2024-05-14 | 之江实验室 | 一种通过3d对比学习增强多模态图文检索的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116910187B (zh) | 2024-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116910187B (zh) | 天文信息提取方法、装置、电子装置和存储介质 | |
CN111177393B (zh) | 一种知识图谱的构建方法、装置、电子设备及存储介质 | |
WO2023241410A1 (zh) | 数据处理方法、装置、设备及计算机介质 | |
CN112633947B (zh) | 文本生成模型生成方法、文本生成方法、装置及设备 | |
CN114676234A (zh) | 一种模型训练方法及相关设备 | |
WO2022166613A1 (zh) | 文本中角色的识别方法、装置、可读介质和电子设备 | |
CN113139391B (zh) | 翻译模型的训练方法、装置、设备和存储介质 | |
CN111104802A (zh) | 一种地址信息文本的提取方法及相关设备 | |
US20220382965A1 (en) | Text sequence generating method and apparatus, device and medium | |
CN113128431B (zh) | 视频片段检索方法、装置、介质与电子设备 | |
WO2022187063A1 (en) | Cross-modal processing for vision and language | |
CN116050496A (zh) | 图片描述信息生成模型的确定方法及装置、介质、设备 | |
CN112632283A (zh) | 模型生成方法、文本分类方法、装置、设备及介质 | |
WO2023005763A1 (zh) | 信息处理方法、装置和电子设备 | |
CN115578570A (zh) | 图像处理方法、装置、可读介质及电子设备 | |
CN112417878A (zh) | 实体关系抽取方法、系统、电子设备及存储介质 | |
CN112329454A (zh) | 语种识别方法、装置、电子设备及可读存储介质 | |
CN117114063A (zh) | 用于训练生成式大语言模型和用于处理图像任务的方法 | |
CN113723077A (zh) | 基于双向表征模型的句向量生成方法、装置及计算机设备 | |
CN112699656A (zh) | 一种广告标题重写方法、装置、设备及储存介质 | |
CN116341553A (zh) | 命名实体识别方法和装置、电子设备及存储介质 | |
CN113704466B (zh) | 基于迭代网络的文本多标签分类方法、装置及电子设备 | |
CN115114924A (zh) | 命名实体识别方法、装置、计算设备和存储介质 | |
CN115512176A (zh) | 模型训练方法、图像理解方法、装置、介质与电子设备 | |
CN112651231B (zh) | 口语信息处理方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |