CN116910232B - 天文文献检索方法和天文文献搜索方法 - Google Patents

天文文献检索方法和天文文献搜索方法 Download PDF

Info

Publication number
CN116910232B
CN116910232B CN202311179447.5A CN202311179447A CN116910232B CN 116910232 B CN116910232 B CN 116910232B CN 202311179447 A CN202311179447 A CN 202311179447A CN 116910232 B CN116910232 B CN 116910232B
Authority
CN
China
Prior art keywords
data
literature
vector
astronomical
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311179447.5A
Other languages
English (en)
Other versions
CN116910232A (zh
Inventor
顾剑波
杨佳熹
姬朋立
张德文
严笑然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202311179447.5A priority Critical patent/CN116910232B/zh
Publication of CN116910232A publication Critical patent/CN116910232A/zh
Application granted granted Critical
Publication of CN116910232B publication Critical patent/CN116910232B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种天文文献检索方法和天文文献搜索方法,其中,该天文文献检索方法包括:获取天文检索数据,对天文检索数据进行向量化编码,得到检索向量;基于天文检索数据中的文献属性,利用知识库索引引擎从预设的文献库中为天文检索数据匹配第一候选文献数据;基于检索向量,利用向量相似矩阵结合向量索引引擎,从文献库中为天文检索数据匹配第二候选文献数据;合并第一候选文献数据和第二候选文献数据,得到检索结果。其能够基于多种索引引擎分别实现天文文献数据的检索,从而提高检索的全面度和准确度。

Description

天文文献检索方法和天文文献搜索方法
技术领域
本申请涉及文献检索技术领域,特别是涉及天文文献检索方法和天文文献搜索方法。
背景技术
天文文献中涵盖了天文学研究的文本和数据,具体包括科学论文、书籍、报告、会议论文等形式。随着天文学领域的不断发展,天文文献数量急剧增加,对于实现天文文献快速而准确的检索需求,也随之出现。
在相关的文献检索引擎中,通常只支持关键词搜索,通过单一的文字索引引擎实现文献检索,而无法提供多模态的索引引擎,故而无法实现对于天文文献全面准确的检索。
针对相关技术中存在对于天文文献的检索的准确度和全面度较低的问题,目前还没有提出有效的解决方案。
发明内容
在本实施例中提供了一种天文文献检索方法和天文文献搜索方法,以解决相关技术中对于天文文献的检索的准确度和全面度较低的问题。
第一个方面,在本实施例中提供了一种天文文献检索方法,包括:
获取天文检索数据,对所述天文检索数据进行向量化编码,得到检索向量;
基于所述天文检索数据中的文献属性,利用知识库索引引擎从预设的文献库中为所述天文检索数据匹配第一候选文献数据;
基于所述检索向量,利用向量相似矩阵结合向量索引引擎,从所述文献库中为所述天文检索数据匹配第二候选文献数据;
合并所述第一候选文献数据和所述第二候选文献数据,得到检索结果。
在其中的一些实施例中,所述基于所述检索向量,利用向量相似矩阵结合向量索引引擎,从所述文献库中为所述天文检索数据匹配第二候选文献数据,包括:
基于所述检索向量与预设的图片索引引擎中的图片向量所构成的图文相似矩阵,从所述图片索引引擎中为所述检索向量匹配图片向量;
从所述文献库中查询与匹配到的图片向量相对应的第二候选文献数据;所述第二候选文献数据与所述图片向量之间存在预先建立的对应关系。
在其中的一些实施例中,所述对所述天文检索数据进行向量化编码,得到检索向量,包括:
利用训练完备的文本编码器,对所述天文检索数据进行向量化编码,得到检索向量。
在其中的一些实施例中,所述方法还包括:
将用于训练的文本集输入预设的文本编码器;
将用于训练的图片集输入预设的图片编码器;
为所述文本编码器的输出和所述图片编码器的输出,构建图文相似矩阵;
以预设的对称图文相似矩阵为目标,对所述文本编码器和所述图片编码器进行训练,得到训练完备的文本编码器和训练完备的图片编码器;
将预设的天文文献中的图片输入所述训练完备的图片编码器,得到图片向量,将所述图片向量存储至所述图片索引引擎中。
在其中的一些实施例中,所述基于所述检索向量,利用向量相似矩阵结合向量索引引擎,从所述文献库中为所述天文检索数据匹配第二候选文献数据,还包括:
基于所述检索向量与预设的文献索引引擎中的文献向量所构成的向量相似矩阵,从所述文献索引引擎中为所述检索向量匹配文献向量;
从所述文献库中查询与匹配到的文献向量相对应的第二候选文献数据;所述第二候选文献数据与所述文献向量之间存在预先建立的对应关系。
在其中的一些实施例中,所述方法还包括:
对所述天文检索数据进行文本预处理,得到结构化数据;
基于所述结构化数据,利用文字索引引擎从预设的文献库中匹配第三候选文献数据;
将所述第三候选文献数据合并至所述检索结果。
在其中的一些实施例中,所述方法还包括:
至少将预先获取的用户的行为特征,以及合并后的所述候选文献数据的文献特征输入预设的排序模型,对所述检索结果与所述天文检索数据的相关度进行打分,并基于打分结果选择所述检索结果中预设数量的候选文献数据作为输出结果。
第二个方面,在本实施例中提供了一种天文文献搜索方法,包括:
响应于用户在前端页面输入天文关键词,将所述天文关键词识别为天文检索数据;
对所述天文检索数据进行向量化编码,得到检索向量;
基于所述天文检索数据中的文献属性,利用知识库索引引擎从预设的文献库中为所述天文检索数据匹配第一候选文献数据;
基于所述检索向量,利用向量相似矩阵结合向量索引引擎,从所述文献库中为所述天文检索数据匹配第二候选文献数据;
合并所述第一候选文献数据和所述第二候选文献数据,得到搜索结果。
在其中的一些实施例中,所述方法还包括:
对所述天文检索数据进行文本预处理,得到结构化数据;
基于所述结构化数据,利用文字索引引擎从预设的文献库中匹配第三候选文献数据;
将所述第三候选文献数据合并至所述搜索结果。
第三个方面,在本实施例中提供了一种天文文献推荐方法,所述方法包括:
响应于前端页面中预设的文献推荐区域的加载,获取用户在预设时间内在前端页面所操作过的文献序列和脱敏后的用户画像数据,将所述文献序列和所述用户画像数据识别为天文检索数据;
对所述天文检索数据进行向量化编码,得到检索向量;
基于所述天文检索数据中的文献属性,利用知识库索引引擎从预设的文献库中为所述天文检索数据匹配第一候选文献数据;
基于所述检索向量,利用向量相似矩阵结合向量索引引擎,从所述文献库中为所述天文检索数据匹配第二候选文献数据;
合并所述第一候选文献数据和所述第二候选文献数据,得到推荐结果。
在其中的一些实施例中,所述方法还包括:
利用图片索引引擎,从所述文献库中为所述天文检索数据匹配第四候选文献数据;
将所述第四候选文献数据合并至所述推荐结果。
第四个方面,在本实施例中提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一个方面所述的天文文献检索方法。
第五个方面,在本实施例中提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一个方面所述的天文文献检索方法。
与相关技术相比,在本实施例中提供的天文文献检索方法和天文文献搜索方法,获取天文检索数据,对天文检索数据进行向量化编码,得到检索向量;基于天文检索数据中的文献属性,利用知识库索引引擎从预设的文献库中为天文检索数据匹配第一候选文献数据;基于检索向量,利用向量相似矩阵结合向量索引引擎,从文献库中为天文检索数据匹配第二候选文献数据;合并第一候选文献数据和第二候选文献数据,得到检索结果。其能够基于多种索引引擎分别实现天文文献数据的检索,从而提高检索的全面度和准确度。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本实施例的天文文献检索方法的终端的硬件结构框图;
图2是本实施例的天文文献检索方法的流程图;
图3是本实施例的图文相似矩阵的组成示意图;
图4是应用于本实施例的天文文献搜索推荐系统的结构示意图;
图5是本实施例的向量相似矩阵的组成示意图;
图6是本实施例的天文文献搜索方法的流程图;
图7是本实施例天文文献推荐方法的流程图。
具体实施方式
为更清楚地理解本申请的目的、技术方案和优点,下面结合附图和实施例,对本申请进行了描述和说明。
除另作定义外,本申请所涉及的技术术语或者科学术语应具有本申请所属技术领域具备一般技能的人所理解的一般含义。在本申请中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制,它们可以是单数或者复数。在本申请中所涉及的术语“包括”、“包含”、“具有”及其任何变体,其目的是涵盖不排他的包含;例如,包含一系列步骤或模块(单元)的过程、方法和系统、产品或设备并未限定于列出的步骤或模块(单元),而可包括未列出的步骤或模块(单元),或者可包括这些过程、方法、产品或设备固有的其他步骤或模块(单元)。在本申请中所涉及的“连接”、“相连”、“耦接”等类似的词语并不限定于物理的或机械连接,而可以包括电气连接,无论是直接连接还是间接连接。在本申请中所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。通常情况下,字符“/”表示前后关联的对象是一种“或”的关系。在本申请中所涉及的术语“第一”、“第二”、“第三”等,只是对相似对象进行区分,并不代表针对对象的特定排序。
在本实施例中提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。比如在终端上运行,图1是本实施例的天文文献检索方法的终端的硬件结构框图。如图1所示,终端可以包括一个或多个(图1中仅示出一个)处理器102和用于存储数据的存储器104,其中,处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置。上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限制。例如,终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示出的不同配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如在本实施例中的天文文献检索方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络包括终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(NetworkInterface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(RadioFrequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种天文文献检索方法,图2是本实施例的天文文献检索方法的流程图,如图2所示,该流程包括如下步骤:
步骤S210,获取天文检索数据,对天文检索数据进行向量化编码,得到检索向量。
本实施例所提供的天文文献检索方法,既可以适用于天文文献的搜索场景,也可以适用于天文文献的推荐场景,下文简称为搜索场景和推荐场景。上述天文检索数据,既可以为搜索场景下,用户在前端界面输入的检索关键词,也可以为推荐场景下获取到的用户点击过的文献序列和脱敏后的用户画像数据,例如用户性别、年龄、行为偏好等数据。其中对用户画像数据脱敏,即在给定的规则下对敏感数据进行变换和修改,实现对敏感数据的保护。对于搜索场景而言,上述向量化编码具体可以基于训练完备的文本编码器来实现,该文本编码器具体可以为包含解码器和编码器,结合注意力机制的基于Transformer架构的机器学习模型。此外,在搜索场景下,还可以对用户输入的检索关键词进行其他处理,例如对输入的中文关键词进行分词,对英文关键词按照空格进行切分。又例如对检索关键词进行关键信息抽取,标注出其中存在的作者部分,领域部分,或者文章名字部分的信息。另外,还可以针对用户可能输错的关键词进行分析,找出可能是正确的关键词,并在页面要提示用户确认是否想输入相应的另一个关键词。此外,针对从检索关键词中抽取的内容进行分析,进行意图识别。另外还可以对检索关键词进行同义词扩展,以扩展用户输入的检索关键词的表达方式。在推荐场景下,则是将用户行为和在前端消费过的文献生成检索向量,以进行后续天文文献的检索。
步骤S220,基于天文检索数据中的文献属性,利用知识库索引引擎从预设的文献库中为天文检索数据匹配第一候选文献数据。
具体地,本实施例采用多种召回链路来实现天文文献的检索,根据天文检索数据从海量的天文文献数据里海选一些候选文献数据。本实施例中所提供的召回链路包括但不限于知识库索引引擎、图片索引引擎、文献索引引擎以及文字索引引擎。在搜索场景下,可以基于用户输入的检索关键词,到知识库索引引擎、图片索引引擎以及文字索引引擎等索引引擎里进行检索。在推荐场景下,则按照用户之前浏览过的相关内容,通过知识库索引引擎、图片索引引擎等进行相似或者相关文献检索。进一步地,该知识库索引引擎、图片索引引擎、文字索引引擎具体可以为数据库,其中知识库索引引擎存放的是某些文献标签、研究领域以及作者到文献之间的倒排索引。在获得天文检索数据之后,根据天文检索数据中所包含的文献属性,从知识库索引引擎中匹配相应的第一候选文献数据。
步骤S230,基于检索向量,利用向量相似矩阵结合向量索引引擎,从文献库中为天文检索数据匹配第二候选文献数据。
示例性地,在搜索场景下,该向量索引引擎可以为图片索引引擎,该向量相似矩阵可以为图文相似矩阵。该图片索引引擎中存放的是由训练完备的图片编码器输出的图片向量。图3为本实施例的图文相似矩阵的组成示意图。在构建图片索引引擎的阶段,获取基于实际应用场景预先设置好的文字图片数据集,将其中的多个文字集合输入预设的文本编码器输出文本向量T1至TN,将多个图片集合输入预设的图片编码器输出图片向量I1至IN。以文本向量与图片向量之间的余弦相似度作为该图文相似矩阵的元素Ii·Ti,其表示第i个图片向量与第i个文本向量之间的余弦相似度。其中,每个文献的文本向量与相对应的图片的向量的相似度目标为1,与不相对应的图片向量的相似度目标为-1,该对应关系预先设置。通过采用对比学习优化损失函数,对图片编码器和文本编码器进行训练,使得其最终输出的文本向量和图片向量之间形成的图文相似矩阵能够满足对角元素趋于1,非对角元素趋于-1的形式,从而得到训练完备的图片编码器和文本编码器。将训练完成的图片编码器所输出的图片存放至图片索引引擎,完成图片索引引擎的构建。在获取到天文检索数据后,可以基于上述训练完备的文本编码器对天文检索数据进行向量化编码,输出检索向量,这种情况下的检索向量为文本向量,基于图文相似矩阵,将其与图片索引引擎中的图片向量进行匹配,并获取与匹配到的图片向量对应的候选文献作为第二候选文献。此外,上述的向量相似矩阵还可以为用户行为特征向量与文献特征向量形成的相似矩阵,上述向量索引引擎还可以为文献索引引擎。具体构建该相似矩阵的方式与上述过程类似,在此不再赘述。
步骤S240,合并第一候选文献数据和第二候选文献数据,得到检索结果。
通过知识库索引引擎、向量索引引擎以及其他索引引擎分别召回候选文献数据,并合并上述各路召回链路得到的候选文献数据。此时,召回的候选文献数据仅为海选后的文献数据,因数量较多不适于全部推送至用户,且来自不同召回链路的文献数据也未经过评分,因此还可以通过预设的排序函数或者排序模型对上述合并之后的检索结果,从天文检索数据与检索结果之间的相关度的维度进行打分并排序,最终向用户呈现有限数量的天文文献。其中,上述排序模型既可以采用支持向量机(Support Vector Machine,简称为SVM)、梯度提升决策树(GradientBoosting Decision Tree,简称为GBDT)等算法来实现,也可以利用基于神经网络的模型,例如用于推荐场景的联合模型Wide&Deep模型、深度推荐模型DeepFM模型等来实现。
相比于相关技术中,仅支持根据用户输入的关键词,通过文字索引引擎实现天文文献的单一检索,本实施例能够提供多种召回链路进行天文文献的检索,进而实现多模态的天文文献检索,提高天文文献检索的全面度和专业度。
图4是应用于本实施例的天文文献搜索推荐系统的结构示意图。如图4所示,其中,在搜索场景下,可以基于用户在前端页面输入的检索关键词,经过自然语言处理模块中的信息抽取、纠错、意图识别、同义词扩展以及向量化编码处理后,通过召回模块中不同召回链路例如文字索引引擎、知识库索引引擎以及图片索引引擎,分多路召回候选文献数据,合并各召回链路召回的候选文献数据,通过排序模块对其进行打分,并基于打分结果截断出有限数量的天文文献展现给用户。
在推荐场景下,基于用户在前端页面的操作行为,所点击过的文献数据,脱敏后形成用户画像数据和操作过的文献序列,通过向量化编码处理之后,形成用户行为特征向量,将其与召回模块中文献索引引擎(图中未示出)的文献向量进行匹配,基于匹配结果从文献库中召回相应的候选文献。另外,基于用户在前端操作过的文献序列,基于包含于该文献序列的文献中的图片,从图片索引引擎中匹配相似图片,进而召回与相似图片相应的候选文献。此外,还可以根据上述文献序列,通过知识库索引引擎,基于文献属性召回相应候选文献数据。
继续参照图4,当完成天文文献的检索、打分以及排序,并在前端页面向用户呈现天文文献数据之后,前端页面会记录用户对所呈现的天文文献数据的观看、点击等行为,并将用户观看和点击行为上报至日志搜集模块,日志搜集模块会将用户的行为日志回流到数据仓库。数据仓库得到用户的行为日志后,会启动数据清洗流程,还可以输入给文献数据打上所使用的数据集、研究领域以及研究方向等标签的标注数据,之后生成点击数据,并关联用户与文献特征。针对搜索场景和推荐场景,分别构建排序模型。例如,在搜索场景下侧重于构建点击数据与搜索目标的强相关,因此只需要对上述点击数据经过一些消偏处理,即可训练排序模型。在搜索场景下点击数据只是一个参考,可以用来训练排序模型,之后再通过人工标注来实现微调。构建完成的排序模型用于给检索结果和天文检索数据的相关度进行打分。
除此之外,还可以构建相关的知识图谱,给检索出的候选天文文献打标,具体可以打上所使用的数据集、研究领域以及研究方向的标签,并回流到知识库索引,供召回模块使用。另外,基于天文文献所对应的数据集、研究领域、研究方法以及作者等信息,可以构建异构图,在异构图基础上结合表征学习,生成每个天文文献中天文信息实体的向量表征,进而基于向量表征构建天文文献的相似关系数据,为召回模块提供参考。本领域技术人员可以在本实施例所提供的天文文献搜索推荐系统上,基于实际应用场景的需求进行适应性的设置,本实施例对此不作具体限定。另外,图4中的图片索引引擎可以基于图文多模态模型来实现,该图文多模态模型包括文本编码器的和图片编码器,具体的实现过程已在上文结合图3进行阐述,在此不再赘述。
上述步骤S210至步骤S240,获取天文检索数据,对天文检索数据进行向量化编码,得到检索向量;基于天文检索数据中的文献属性,利用知识库索引引擎从预设的文献库中为天文检索数据匹配第一候选文献数据;基于检索向量,利用向量相似矩阵结合向量索引引擎,从文献库中为天文检索数据匹配第二候选文献数据;合并第一候选文献数据和第二候选文献数据,得到检索结果。其能够基于多种索引引擎分别实现天文文献数据的检索,从而提高检索的全面度和准确度。
进一步地,在一个实施例中,基于上述步骤S230,基于检索向量,利用向量相似矩阵结合向量索引引擎,从文献库中为天文检索数据匹配第二候选文献数据,具体可以包括:基于检索向量与预设的图片索引引擎中的图片向量所构成的图文相似矩阵,从图片索引引擎中为检索向量匹配图片向量;从文献库中查询与匹配到的图片向量相对应的第二候选文献数据;第二候选文献数据与图片向量之间存在预先建立的对应关系。
本实施例中的检索向量具体可以为通过文本编码器对检索关键词进行向量化编码后得到的文本向量,该文本编码器具体可以为基于Transformer架构的模型。该图片索引引擎具体可以为训练完备的图片编码器输出的图片向量,其中该图片编码器具体可以为图像识别模型Vision Transformer(简称为ViT)模型,或者卷积神经网络模型ResNet模型。通过训练完备的文本编码器,能够使得其输出的文本向量,与图片索引引擎中的图片向量,所构成的图文相似矩阵,在对角元素趋近于1,而非对角元素趋近于0,进而基于该图文相似矩阵可以获得与文本向量相似的图片向量,进而获得与相似的图片向量对应的候选文献数据。在本实施例中,能够通过输入的检索关键词,实现文字到图片的召回,再基于召回的图片,实现图片到文献的匹配,相比于相关技术中仅基于文字索引引擎针对关键词进行文献检索的方式,本实施例能够实现基于图片的文献召回,从而提高文献检索的全面度和准确度。
进一步地,在一个实施例中,基于步骤S210,对天文检索数据进行向量化编码,得到检索向量,可以包括:利用训练完备的文本编码器,对天文检索数据进行向量化编码,得到检索向量。
此外,在一个实施例中,上述天文文献检索方法还可以包括:将用于训练的文本集输入预设的文本编码器;将用于训练的图片集输入预设的图片编码器;为文本编码器的输出和图片编码器的输出,构建图文相似矩阵;以预设的对称图文相似矩阵为目标,对文本编码器和图片编码器进行训练,得到训练完备的文本编码器和训练完备的图片编码器;将预设的天文文献中的图片输入训练完备的图片编码器,得到图片向量,将图片向量存储至图片索引引擎中。
其中,上述文本集可以为图3中的文字集合,上述图片集可以为图3中的图片集合。具体地,可以采用对比学习优化损失函数对文本编码器和图片编码器进行训练,以使得该文本编码器输出的文本向量和图片编码器输出的图片向量所形成的图文相似矩阵能够趋近于对称图文相似矩阵。该对称图文相似矩阵中各元素为相应的文本向量与图片向量之间的余弦相似度,其中对角元素为1,表示相似度最高,非对角元素为-1,表示相似度最低。本实施例实现了图文多模态模型的构建,能够有助于构建图片索引引擎,并形成检索关键词到图片到文献的召回链路。
在一个实施例中,基于上述步骤S230,基于检索向量,利用向量相似矩阵结合向量索引引擎,从文献库中为天文检索数据匹配第二候选文献数据还可以包括:基于检索向量与预设的文献索引引擎中的文献向量所构成的向量相似矩阵,从文献索引引擎中为检索向量匹配文献向量;从文献库中查询与匹配到的文献向量相对应的第二候选文献数据;第二候选文献数据与文献向量之间存在预先建立的对应关系。
在推荐场景下,上述检索向量具体可以为对用户行为进行行为特征编码形成的行为特征向量。具体地,图5为本实施例的向量相似矩阵的组成示意图。如图5所示,将用户操作过的文献形成与用户行为相对应的点击文献的数据集,也即图5中用户行为对应下一个点击文献的数据集。将其中多个用户行为集合输入行为特征编码器,输出行为特征向量Y1至YN,将其中多个文献集合输入文献特征编码器,输出文献向量X1至XN。将文献向量与行为特征向量组成向量相似矩阵,该向量相似矩阵的元素可以为文献向量与行为特征向量之间的相似度Xi·Yi,表示第i个文献向量与第i个行为特征向量之间的相似度。其中文献向量与相关联的行为特征向量之间的相似度为1,文献向量与不相关联的行为特征向量之间的相似度为-1,该对应关系预设设定。通过对行为特征编码器和文献特征编码器进行训练,使其输出后的文献向量与行为特征向量所形成的向量相似矩阵能够满足对角元素为1,非对角元素为-1。
之后,利用训练完备的文献特征编码器输出文献向量,存储至文献索引引擎。将从前端页面获取脱敏后的用户画像数据,包括用户性别、用户年龄、行为偏好等数据,通过训练完备的行为特征编码器输出行为特征向量,作为上述检索向量,从基于上述过程构建的文献索引引擎中,匹配第二候选文献数据。其中,该行为特征编码器可以基于多层感知器的特征编码器来实现,文献特征编码器可以基于transformer架构的模型来实现。
另外地,在一个实施例中,上述天文文献检索方法还可以包括:对天文检索数据进行文本预处理,得到结构化数据;基于结构化数据,利用文字索引引擎从预设的文献库中匹配第三候选文献数据;将第三候选文献数据合并至检索结果。上述文本预处理可以包括信息抽取、纠错、意图识别、同义词扩展等处理。
在一个实施例中,上述天文文献检索方法还可以包括:至少将预先获取的用户的行为特征,以及合并后的候选文献数据的文献特征输入预设的排序模型,对检索结果与天文检索数据的相关度进行打分,并基于打分结果选择检索结果中预设数量的候选文献数据作为输出结果。
具体地,搜集用户的行为特征,具体可以包括预设时段内点击的活跃度、年龄、国籍、性别、网际互连协议(Internet Protocol,简称为IP)所属地区、专注领域等信息,以及合并后的候选文献数据中的文献特征,例如点击率、所属领域、文献的作者、以及文献对应的图片向量或者行为特征向量等多模态向量特征等,在搜索场景下还可以包括检索关键词的特征,将其输入至排序模型,令其对天文检索数据与检索结果之间的相关度进行打分。另外地,用户在前端页面看到搜索或者推荐的检索结果后,产生的曝光和点击数据会回流到数据仓库,数据仓库根据用户的行为特征,结合标注的相关性数据,优化搜索场景和推荐场景下的排序模型。
相比于相关技术中,难以针对特定的研究主题和问题进行较高效率的搜索和推荐,上述实施例,能够实现多模态信息的天文文献的搜索和推荐,有助于天文学家以更高效率进行天文文献的搜索、推荐以及管理,提供更为全面的数据和分析支持。
在本实施例中还提供了一种天文文献搜索方法。图6为本实施例的天文文献搜索方法的流程图。如图6所示,该天文文献搜索方法包括如下步骤:
步骤S601,响应于用户在前端页面输入天文关键词,将天文关键词识别为天文检索数据;
步骤S602,对天文检索数据进行向量化编码,得到检索向量;
步骤S603,基于天文检索数据中的文献属性,利用知识库索引引擎从预设的文献库中为天文检索数据匹配第一候选文献数据;
步骤S604,基于检索向量,利用向量相似矩阵结合向量索引引擎,从文献库中为天文检索数据匹配第二候选文献数据;
步骤S605,合并第一候选文献数据和第二候选文献数据,得到搜索结果。
进一步地,在一个实施例中,上述天文文献搜索方法还可以包括:对天文检索数据进行文本预处理,得到结构化数据;基于结构化数据,利用文字索引引擎从预设的文献库中匹配第三候选文献数据;将该第三候选文献数据合并至搜索结果。
在本实施例中还提供了一种天文文献推荐方法。图7为本实施例天文文献推荐方法的流程图,如图7所示,该天文文献推荐方法包括:
步骤S701,响应于前端页面中预设的文献推荐区域的加载,获取用户在预设时间内在前端页面所操作过的文献序列和脱敏后的用户画像数据,将文献序列和用户画像数据识别为天文检索数据;
步骤S702,对天文检索数据进行向量化编码,得到检索向量;
步骤S703,基于天文检索数据中的文献属性,利用知识库索引引擎从预设的文献库中为天文检索数据匹配第一候选文献数据;
步骤S704,基于检索向量,利用向量相似矩阵结合向量索引引擎,从文献库中为天文检索数据匹配第二候选文献数据;
步骤S705,合并第一候选文献数据和第二候选文献数据,得到推荐结果。
进一步地,在一个实施例中,上述天文文献推荐方法还包括:利用图片索引引擎,从文献库中为天文检索数据匹配第四候选文献数据;将该第四候选文献数据合并至推荐结果。具体地,针对天文检索数据中用户点击过的数据形成的文献序列,提取其中文献的图片,将其与图片索引引擎中的图片向量进行相似度匹配,得到相似的图片向量,进而匹配到与相似的图片向量对应的候选文献数据。
在本实施例中还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取天文检索数据,对天文检索数据进行向量化编码,得到检索向量;
S2,基于天文检索数据中的文献属性,利用知识库索引引擎从预设的文献库中为天文检索数据匹配第一候选文献数据;
S3,基于检索向量,利用向量相似矩阵结合向量索引引擎,从文献库中为天文检索数据匹配第二候选文献数据;
S4,合并第一候选文献数据和第二候选文献数据,得到检索结果。
需要说明的是,在本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,在本实施例中不再赘述。
此外,结合上述实施例中提供的天文文献检索方法,在本实施例中还可以提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种天文文献检索方法。
应该明白的是,这里描述的具体实施例只是用来解释这个应用,而不是用来对它进行限定。根据本申请提供的实施例,本领域普通技术人员在不进行创造性劳动的情况下得到的所有其它实施例,均属本申请保护范围。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
显然,附图只是本申请的一些例子或实施例,对本领域的普通技术人员来说,也可以根据这些附图将本申请适用于其他类似情况,但无需付出创造性劳动。另外,可以理解的是,尽管在此开发过程中所做的工作可能是复杂和漫长的,但是,对于本领域的普通技术人员来说,根据本申请披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段,不应被视为本申请公开的内容不足。
“实施例”一词在本申请中指的是结合实施例描述的具体特征、结构或特性可以包括在本申请的至少一个实施例中。该短语出现在说明书中的各个位置并不一定意味着相同的实施例,也不意味着与其它实施例相互排斥而具有独立性或可供选择。本领域的普通技术人员能够清楚或隐含地理解的是,本申请中描述的实施例在没有冲突的情况下,可以与其它实施例结合。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对专利保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (11)

1.一种天文文献检索方法,其特征在于,包括:
获取天文检索数据,对所述天文检索数据进行向量化编码,得到检索向量;
基于所述天文检索数据中的文献属性,利用知识库索引引擎从预设的文献库中为所述天文检索数据匹配第一候选文献数据;
基于所述检索向量,利用向量相似矩阵结合向量索引引擎,从所述文献库中为所述天文检索数据匹配第二候选文献数据;
合并所述第一候选文献数据和所述第二候选文献数据,得到检索结果;
其中,基于所述检索向量,利用向量相似矩阵结合向量索引引擎,从所述文献库中为所述天文检索数据匹配第二候选文献数据,包括:
基于所述检索向量与预设的图片索引引擎中的图片向量所构成的图文相似矩阵,从所述图片索引引擎中为所述检索向量匹配图片向量;
从所述文献库中查询与匹配到的图片向量相对应的第二候选文献数据;基于所述图片索引引擎匹配到的所述第二候选文献数据,与所述图片向量之间存在预先建立的对应关系;
以及,
基于所述检索向量与预设的文献索引引擎中的文献向量所构成的向量相似矩阵,从所述文献索引引擎中为所述检索向量匹配文献向量;
从所述文献库中查询与匹配到的文献向量相对应的第二候选文献数据;基于所述文献索引引擎匹配到的所述第二候选文献数据,与所述文献向量之间存在预先建立的对应关系。
2.根据权利要求1所述的天文文献检索方法,其特征在于,所述对所述天文检索数据进行向量化编码,得到检索向量,包括:
利用训练完备的文本编码器,对所述天文检索数据进行向量化编码,得到检索向量。
3.根据权利要求2所述的天文文献检索方法,其特征在于,所述方法还包括:
将用于训练的文本集输入预设的文本编码器;
将用于训练的图片集输入预设的图片编码器;
为所述文本编码器的输出和所述图片编码器的输出,构建图文相似矩阵;
以预设的对称图文相似矩阵为目标,对所述文本编码器和所述图片编码器进行训练,得到训练完备的文本编码器和训练完备的图片编码器;
将预设的天文文献中的图片输入所述训练完备的图片编码器,得到图片向量,将所述图片向量存储至所述图片索引引擎中。
4.根据权利要求1所述的天文文献检索方法,其特征在于,所述方法还包括:
对所述天文检索数据进行文本预处理,得到结构化数据;
基于所述结构化数据,利用文字索引引擎从预设的文献库中匹配第三候选文献数据;
将所述第三候选文献数据合并至所述检索结果。
5.根据权利要求1所述的天文文献检索方法,其特征在于,所述方法还包括:
至少将预先获取的用户的行为特征,以及合并后的候选文献数据的文献特征输入预设的排序模型,对所述检索结果与所述天文检索数据的相关度进行打分,并基于打分结果选择所述检索结果中预设数量的候选文献数据作为输出结果。
6.一种天文文献搜索方法,其特征在于,包括:
响应于用户在前端页面输入天文关键词,将所述天文关键词识别为天文检索数据;
对所述天文检索数据进行向量化编码,得到检索向量;
基于所述天文检索数据中的文献属性,利用知识库索引引擎从预设的文献库中为所述天文检索数据匹配第一候选文献数据;
基于所述检索向量,利用向量相似矩阵结合向量索引引擎,从所述文献库中为所述天文检索数据匹配第二候选文献数据;
合并所述第一候选文献数据和所述第二候选文献数据,得到搜索结果;
其中:基于所述检索向量,利用向量相似矩阵结合向量索引引擎,从所述文献库中为所述天文检索数据匹配第二候选文献数据,包括:
基于所述检索向量与预设的图片索引引擎中的图片向量所构成的图文相似矩阵,从所述图片索引引擎中为所述检索向量匹配图片向量;
从所述文献库中查询与匹配到的图片向量相对应的第二候选文献数据;基于所述图片索引引擎匹配到的所述第二候选文献数据,与所述图片向量之间存在预先建立的对应关系;
以及,
基于所述检索向量与预设的文献索引引擎中的文献向量所构成的向量相似矩阵,从所述文献索引引擎中为所述检索向量匹配文献向量;
从所述文献库中查询与匹配到的文献向量相对应的第二候选文献数据;基于所述文献索引引擎匹配到的所述第二候选文献数据,与所述文献向量之间存在预先建立的对应关系。
7.根据权利要求6所述的天文文献搜索方法,其特征在于,所述方法还包括:
对所述天文检索数据进行文本预处理,得到结构化数据;
基于所述结构化数据,利用文字索引引擎从预设的文献库中匹配第三候选文献数据;
将所述第三候选文献数据合并至所述搜索结果。
8.一种天文文献推荐方法,其特征在于,所述方法包括:
响应于前端页面中预设的文献推荐区域的加载,获取用户在预设时间内在前端页面所操作过的文献序列和脱敏后的用户画像数据,将所述文献序列和所述用户画像数据识别为天文检索数据;
对所述天文检索数据进行向量化编码,得到检索向量;
基于所述天文检索数据中的文献属性,利用知识库索引引擎从预设的文献库中为所述天文检索数据匹配第一候选文献数据;
基于所述检索向量,利用向量相似矩阵结合向量索引引擎,从所述文献库中为所述天文检索数据匹配第二候选文献数据;
合并所述第一候选文献数据和所述第二候选文献数据,得到推荐结果;
其中:基于所述检索向量,利用向量相似矩阵结合向量索引引擎,从所述文献库中为所述天文检索数据匹配第二候选文献数据,包括:
基于所述检索向量与预设的图片索引引擎中的图片向量所构成的图文相似矩阵,从所述图片索引引擎中为所述检索向量匹配图片向量;
从所述文献库中查询与匹配到的图片向量相对应的第二候选文献数据;基于所述图片索引引擎匹配到的所述第二候选文献数据,与所述图片向量之间存在预先建立的对应关系;
以及,
基于所述检索向量与预设的文献索引引擎中的文献向量所构成的向量相似矩阵,从所述文献索引引擎中为所述检索向量匹配文献向量;
从所述文献库中查询与匹配到的文献向量相对应的第二候选文献数据;基于所述文献索引引擎匹配到的所述第二候选文献数据,与所述文献向量之间存在预先建立的对应关系。
9.根据权利要求8所述的天文文献推荐方法,其特征在于,所述方法还包括:
利用图片索引引擎,从所述文献库中为所述天文检索数据匹配第四候选文献数据;
将所述第四候选文献数据合并至所述推荐结果。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至权利要求5中任一项所述的天文文献检索方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至权利要求5中任一项所述的天文文献检索方法的步骤。
CN202311179447.5A 2023-09-13 2023-09-13 天文文献检索方法和天文文献搜索方法 Active CN116910232B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311179447.5A CN116910232B (zh) 2023-09-13 2023-09-13 天文文献检索方法和天文文献搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311179447.5A CN116910232B (zh) 2023-09-13 2023-09-13 天文文献检索方法和天文文献搜索方法

Publications (2)

Publication Number Publication Date
CN116910232A CN116910232A (zh) 2023-10-20
CN116910232B true CN116910232B (zh) 2024-01-09

Family

ID=88358846

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311179447.5A Active CN116910232B (zh) 2023-09-13 2023-09-13 天文文献检索方法和天文文献搜索方法

Country Status (1)

Country Link
CN (1) CN116910232B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1229218A (zh) * 1998-03-17 1999-09-22 松下电器产业株式会社 信息检索装置和方法
EP1024437A2 (en) * 1999-01-26 2000-08-02 Xerox Corporation Multi-modal information access
CN109918560A (zh) * 2019-01-09 2019-06-21 平安科技(深圳)有限公司 一种基于搜索引擎的问答方法和装置
CN113590845A (zh) * 2021-08-09 2021-11-02 平安国际智慧城市科技股份有限公司 基于知识图谱的文献检索方法、装置、电子设备及介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7668825B2 (en) * 2005-08-26 2010-02-23 Convera Corporation Search system and method
US20210319907A1 (en) * 2018-10-12 2021-10-14 Human Longevity, Inc. Multi-omic search engine for integrative analysis of cancer genomic and clinical data
US11487837B2 (en) * 2019-09-24 2022-11-01 Searchmetrics Gmbh Method for summarizing multimodal content from webpages

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1229218A (zh) * 1998-03-17 1999-09-22 松下电器产业株式会社 信息检索装置和方法
EP1024437A2 (en) * 1999-01-26 2000-08-02 Xerox Corporation Multi-modal information access
CN109918560A (zh) * 2019-01-09 2019-06-21 平安科技(深圳)有限公司 一种基于搜索引擎的问答方法和装置
CN113590845A (zh) * 2021-08-09 2021-11-02 平安国际智慧城市科技股份有限公司 基于知识图谱的文献检索方法、装置、电子设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
毕辉 ; .网络环境下航空科技文献检索.内蒙古科技与经济.2006,(15),全文. *

Also Published As

Publication number Publication date
CN116910232A (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
CN112199375B (zh) 跨模态的数据处理方法、装置、存储介质以及电子装置
CN108304437B (zh) 一种自动问答方法、装置及存储介质
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
US8577882B2 (en) Method and system for searching multilingual documents
CN110990533B (zh) 确定查询文本所对应标准文本的方法及装置
US11768869B2 (en) Knowledge-derived search suggestion
CN110795527B (zh) 候选实体排序方法、训练方法及相关装置
CN109933708A (zh) 信息检索方法、装置、存储介质及计算机设备
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN110083683B (zh) 基于随机游走的实体语义标注方法
CN113407814B (zh) 文本搜索方法、装置、可读介质及电子设备
CN111125491A (zh) 商品信息的搜索方法和装置、存储介质及电子装置
CN112632261A (zh) 智能问答方法、装置、设备及存储介质
CN112307190A (zh) 医学文献排序方法、装置、电子设备及存储介质
CN110659392B (zh) 检索方法及装置、存储介质
CN116109732A (zh) 图像标注方法、装置、处理设备及存储介质
CN114861016A (zh) 一种跨模态检索方法、装置以及存储介质
CN116910232B (zh) 天文文献检索方法和天文文献搜索方法
CN111191065A (zh) 一种同源图像确定方法及装置
US20220358158A1 (en) Methods for searching images and for indexing images, and electronic device
CN114818727A (zh) 关键句抽取方法及装置
CN116501831A (zh) 问题召回方法、装置、设备及存储介质
CN115455152A (zh) 写作素材的推荐方法、装置、电子设备及存储介质
CN117076658B (zh) 基于信息熵的引文推荐方法、装置及终端
CN113312523B (zh) 字典生成、搜索关键字推荐方法、装置和服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant