CN114218259B - 基于大数据SaaS的多维科创信息搜索方法及系统 - Google Patents

基于大数据SaaS的多维科创信息搜索方法及系统 Download PDF

Info

Publication number
CN114218259B
CN114218259B CN202210154891.0A CN202210154891A CN114218259B CN 114218259 B CN114218259 B CN 114218259B CN 202210154891 A CN202210154891 A CN 202210154891A CN 114218259 B CN114218259 B CN 114218259B
Authority
CN
China
Prior art keywords
title
target
derived
information
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210154891.0A
Other languages
English (en)
Other versions
CN114218259A (zh
Inventor
李静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yunchu Information Technology Co ltd
Original Assignee
Shenzhen Yunchu Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yunchu Information Technology Co ltd filed Critical Shenzhen Yunchu Information Technology Co ltd
Priority to CN202210154891.0A priority Critical patent/CN114218259B/zh
Publication of CN114218259A publication Critical patent/CN114218259A/zh
Application granted granted Critical
Publication of CN114218259B publication Critical patent/CN114218259B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请的实施例提供了一种基于大数据SaaS的多维科创信息搜索方法、系统、计算机可读介质及电子设备。该基于大数据SaaS的多维科创信息搜索方法包括:获取待检索的检索词条;对检索词条进行衍生处理,确定检索词条对应的至少一个衍生关键词,之后在基于大数据SaaS预先构建的数据库中,对衍生关键词进行搜索,确定衍生关键词对应的目标科创信息,识别目标科创信息对应的类型维度,最后基于目标科创信息对应的类型维度,对目标科创信息进行分维度展示,通过上述方式提高了科创信息检索的效率,以及对检索到的目标科创信息的利用率。

Description

基于大数据SaaS的多维科创信息搜索方法及系统
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种基于大数据SaaS的多维科创信息搜索方法、系统、计算机可读介质及电子设备。
背景技术
信息检索是用户进行信息查询和获取的主要方式,是查找信息的方法和手段。狭义的信息检索仅指信息查询,即用户根据需要,采用一定的方法,借助检索工具,从信息集合中找出所需要信息的查找过程。在很多信息的搜索过程中,因为搜索池中内容庞杂,往往搜集到的内容都比较混乱。尤其是精确查找过程中,搜索内容不精确往往造成很多应用不方便的问题。例如,当搜索内容包含很多类型的数据时,将其呈现给用户会造成信息利用率低、搜索效率低的问题。
发明内容
本申请的实施例提供了一种基于大数据SaaS的多维科创信息搜索方法、系统、计算机可读介质及电子设备,进而至少在一定程度上可以提高信息搜索效率和信息利用率。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供了一种基于大数据SaaS的多维科创信息搜索方法,包括:获取待检索的检索词条;对所述检索词条进行衍生处理,确定所述检索词条对应的至少一个衍生关键词;在基于大数据SaaS预先构建的数据库中,对所述衍生关键词进行搜索,确定与所述衍生关键词对应的目标标题;识别所述目标标题下的目标科创信息对应的类型维度,其中,所述类型维度包括以下至少两个:专利、项目、论文、网页、书籍;基于所述目标科创信息对应的类型维度,对所述目标科创信息进行分维度展示。
在本申请的一些实施例中,基于前述方案,所述对所述检索词条进行衍生处理,确定所述检索词条对应的至少一个衍生关键词,包括:在预设的关键词库中,确定所述检索词条对应的目标关键词;从所述关键词库中,获取所述目标关键词关联的关键词作为所述检索词条对应的至少一个衍生关键词。
在本申请的一些实施例中,基于前述方案,所述在基于大数据SaaS预先构建的数据库中,对所述衍生关键词进行搜索,确定与所述衍生关键词对应的目标标题,包括:在基于大数据SaaS预先构建的数据库中,获取各科创内容对应的标题;对所述标题进行分词处理,得到标题分词;将所述衍生关键词与所述标题分词进行匹配,确定与所述衍生关键词对应的目标标题;将所述目标标题对应的科创内容作为所述目标科创信息。
在本申请的一些实施例中,基于前述方案,所述对所述标题进行分词处理,得到标题分词,包括:根据字典匹配的方式,对所述标题进行分词处理,得到标题分词。
在本申请的一些实施例中,基于前述方案,所述将所述衍生关键词与所述标题分词进行匹配,确定与所述衍生关键词对应的目标标题,包括:将衍生关键词与各标题的标题分词进行一一匹配,确定衍生关键词与各标题的标题分词的单词匹配度;基于所述单词匹配度,计算所述衍生关键词与各标题之间的标题匹配度;基于设定的匹配度阈值,将所述标题匹配度大于或者等于所述匹配度阈值时对应的标题作为所述目标标题。
在本申请的一些实施例中,基于前述方案,所述识别所述目标标题下的目标科创信息对应的类型维度,包括:获取所述目标科创信息的初始来源,所述初始来源包括网址或者域名;基于所述初始来源确定所述目标科创信息对应的类型维度。
在本申请的一些实施例中,基于前述方案,所述基于所述目标科创信息对应的类型维度,对所述目标科创信息进行分维度展示,包括:基于各类型维度对应的显示方式,对所述目标科创信息进行分维度展示。
根据本申请实施例的一个方面,提供了一种基于大数据SaaS的多维科创信息搜索系统,包括:获取模块,用于获取待检索的检索词条;衍生模块,用于对所述检索词条进行衍生处理,确定所述检索词条对应的至少一个衍生关键词;搜索模块,用于在基于大数据SaaS预先构建的数据库中,对所述衍生关键词进行搜索,确定与所述衍生关键词对应的目标标题;类型模块,用于识别所述目标标题下的目标科创信息对应的类型维度,其中,所述类型维度包括以下至少两个:专利、项目、论文、网页、书籍;展示模块,用于基于所述目标科创信息对应的类型维度,对所述目标科创信息进行分维度展示。
在本申请的一些实施例中,基于前述方案,所述对所述检索词条进行衍生处理,确定所述检索词条对应的至少一个衍生关键词,包括:在预设的关键词库中,确定所述检索词条对应的目标关键词;从所述关键词库中,获取所述目标关键词关联的关键词作为所述检索词条对应的至少一个衍生关键词。
在本申请的一些实施例中,基于前述方案,所述在基于大数据SaaS预先构建的数据库中,对所述衍生关键词进行搜索,确定与所述衍生关键词对应的目标标题,包括:在基于大数据SaaS预先构建的数据库中,获取各科创内容对应的标题;对所述标题进行分词处理,得到标题分词;将所述衍生关键词与所述标题分词进行匹配,确定与所述衍生关键词对应的目标标题;将所述目标标题对应的科创内容作为所述目标科创信息。
在本申请的一些实施例中,基于前述方案,所述对所述标题进行分词处理,得到标题分词,包括:根据字典匹配的方式,对所述标题进行分词处理,得到标题分词。
在本申请的一些实施例中,基于前述方案,所述将所述衍生关键词与所述标题分词进行匹配,确定与所述衍生关键词对应的目标标题,包括:将衍生关键词与各标题的标题分词进行一一匹配,确定衍生关键词与各标题的标题分词的单词匹配度;基于所述单词匹配度,计算所述衍生关键词与各标题之间的标题匹配度;基于设定的匹配度阈值,将所述标题匹配度大于或者等于所述匹配度阈值时对应的标题作为所述目标标题。
在本申请的一些实施例中,基于前述方案,所述识别所述目标标题下的目标科创信息对应的类型维度,包括:获取所述目标科创信息的初始来源,所述初始来源包括网址或者域名;基于所述初始来源确定所述目标科创信息对应的类型维度。
在本申请的一些实施例中,基于前述方案,所述基于所述目标科创信息对应的类型维度,对所述目标科创信息进行分维度展示,包括:基于各类型维度对应的显示方式,对所述目标科创信息进行分维度展示。
根据本申请实施例的一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例中所述的基于大数据SaaS的多维科创信息搜索方法。
根据本申请实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的基于大数据SaaS的多维科创信息搜索方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的基于大数据SaaS的多维科创信息搜索方法。
在本申请的一些实施例所提供的技术方案中,获取待检索的检索词条;对检索词条进行衍生处理,确定检索词条对应的至少一个衍生关键词,之后在基于大数据SaaS预先构建的数据库中,对衍生关键词进行搜索,确定衍生关键词对应的目标科创信息,识别目标科创信息对应的类型维度,最后基于目标科创信息对应的类型维度,对目标科创信息进行分维度展示,通过上述方式提高了科创信息检索的效率,以及对检索到的目标科创信息的利用率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出了根据本申请的一个实施例的基于大数据SaaS的多维科创信息搜索方法的流程图。
图2示意性示出了根据本申请的一个实施例的确定目标科创信息的流程图。
图3示意性示出了根据本申请的一个实施例的基于大数据SaaS的多维科创信息搜索系统的示意图。
图4示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、系统、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
以下对本申请实施例的技术方案的实现细节进行详细阐述:
图1示出了根据本申请的一个实施例的基于大数据SaaS的多维科创信息搜索方法的流程图,该基于大数据SaaS的多维科创信息搜索方法可以由服务器来执行。参照图1所示,该基于大数据SaaS的多维科创信息搜索方法至少包括步骤S110至步骤S150,详细介绍如下:
在步骤S110中,获取待检索的检索词条。
在本申请的一个实施例中,检索词条可以由用户通过输入框来获取,其中,检索词条可以是表示各种类型的词语,其中包括专业技术名词,例如人工智能、自动驾驶等等;还可以包括主体名称,例如腾讯、华为等等。
在步骤S120中,对所述检索词条进行衍生处理,确定所述检索词条对应的至少一个衍生关键词。
在本申请的一个实施例中,在获取到检索词条之后对检索词条进行衍生处理,以基于检索词条确定与其相关的关键词,例如当检索词条为人工智能时,其对应的衍生关键词可以为AI、自然语言处理等等。
在本申请的一个实施例中,对所述检索词条进行衍生处理,确定所述检索词条对应的至少一个衍生关键词,包括:
在预设的关键词库中,确定所述检索词条对应的目标关键词;
从所述关键词库中,获取所述目标关键词关联的关键词作为所述检索词条对应的至少一个衍生关键词。
具体的,本实施例中可以基于大数据构建关键词库,关键词库中包括了各种相关词语、关键词、词条等等,用于做关联搜索。本实施例中通过预设的关键词库,精确确定检索词条对应的目标关键词,之后从关键词库中,获取目标关键词关联的关键词作为检索词条对应的至少一个衍生关键词。
通过上述确定衍生关键词的方式,可以对检索词条进行扩展以提高词条搜索的全面性和精确性。
在步骤S130中,在基于大数据SaaS预先构建的数据库中,对所述衍生关键词进行搜索,确定与所述衍生关键词对应的目标标题。
在本申请的一个实施例中,基于大数据SaaS预先构建了数据库,用于对获取到的检索词条进行检索。本实施例中大数据包括了资料量规模巨大到无法透过主流软件工具在一定时间内达到获取、检索、分析、并整理成为帮助需求者分析学习和利用的更积极目的的科创信息。
在实际应用中,软件即服务(Software-as-a-Service,SaaS),即通过网络提供软件服务,本申请实施例中通过SaaS平台供应商将应用软件、数据库统一部署在自己的服务器上,用户可以根据实际的检索分析需求,通过互联网向厂商定购所需的应用软件服务,按定购的服务多少和时间长短向厂商支付费用,并通过互联网获得Saas平台供应商提供的服务。SaaS使软件以互联网为载体的服务形式被客户使用,所以很多服务合约的签订、服务使用的计量、在线服务质量的保证和服务费用的收取等问题都必须加以考虑。可扩展性意味着最大限度地提高系统的并发性,更有效地使用系统资源。
在本申请的一个实施例中,如图2所示,在基于大数据SaaS预先构建的数据库中,对所述衍生关键词进行搜索,确定与所述衍生关键词对应的目标标题,包括:
S210,在基于大数据SaaS预先构建的数据库中,获取各科创内容对应的标题;
S220,对所述标题进行分词处理,得到标题分词;
S230,将所述衍生关键词与所述标题分词进行匹配,确定与所述衍生关键词对应的目标标题;
S240,将所述目标标题对应的科创内容作为所述目标科创信息。
本实施例中在基于大数据SaaS预先构建的数据库中,获取各科创内容对应的标题,以通过标题对词条进行匹配,确定与词条匹配的目标标题。
在本申请的一个实施例中,S220中对所述标题进行分词处理,得到标题分词,包括:
根据字典匹配的方式,对所述标题进行分词处理,得到标题分词。
具体的,本实施例中根据预设的分词字典,对标题进行分词处理,得到标题分词。除此之外,本实施例中还可以将数据库中预存的标题预先进行分词,并将分词结果存储至数据库中,以便于之后可以直接进行匹配搜索。
在本申请的一个实施例中,S230中将所述衍生关键词与所述标题分词进行匹配,确定与所述衍生关键词对应的目标标题,包括:
将衍生关键词与各标题的标题分词进行一一匹配,确定衍生关键词与各标题的标题分词的单词匹配度;
基于所述单词匹配度,计算所述衍生关键词与各标题之间的标题匹配度;
基于设定的匹配度阈值,将所述标题匹配度大于或者等于所述匹配度阈值时对应的标题作为所述目标标题。
具体的,本实施例中一个标题包含至少两个标题分词,一个检索词条包含至少两个衍生关键词,因此,本实施例中以衍生关键词为准,分别基于衍生关键词依次与标题分词进行匹配,确定衍生关键词与各标题的标题分词的单词匹配度。
在匹配过程中,先确定衍生关键词和标题分词对应的特征参数,其中特征参数包括:基于衍生关键词的词语信息生成的第一向量der、基于标题分词的词语信息生成的第二向量tit,计算两个向量之间的内积<Vder,Vtit>,通过内积来衡量衍生关键词和标题分词之间的匹配程度,之后基于内积分和预设的匹配度参数来计算单词匹配度为Psi(der,tit):
Figure 560543DEST_PATH_IMAGE001
其中,
Figure 781440DEST_PATH_IMAGE002
表示预设的匹配度参数。
本实施例中一个标题包含至少两个标题分词,基于所述单词匹配度,计算所述衍生关键词与各标题之间的标题匹配度,即可以将单词匹配度进行相加或者求平均,即可以得到衍生关键词与标题之间的标题匹配度。在计算得到标题匹配度之后,基于设定的匹配度阈值,将所述标题匹配度大于或者等于所述匹配度阈值时对应的标题作为所述目标标题。
在步骤S140中,识别所述目标标题下的目标科创信息对应的类型维度,其中,所述类型维度包括以下至少两个:专利、项目、论文、网页、书籍。
在本申请的一个实施例中,在确定了到目标标题之后,获取目标标题对应的科创信息的类型维度。在实际应用中类型维度包括但不限于:专利、项目、论文、网页、书籍。
在本申请的一个实施例中,识别所述目标标题下的目标科创信息对应的类型维度,包括:
获取所述目标科创信息的初始来源,所述初始来源包括网址或者域名;
基于所述初始来源确定所述目标科创信息对应的类型维度。
在本申请的一个实施例中,本实施例中通过追溯目标科创信息的初始来源,来确定目标科创信息对应的类型维度。其中初始来源包括网址或者域名。例如,如果初始来源的网址域名为知网,则判定类型维度为论文。等等。
在步骤S150中,基于所述目标科创信息对应的类型维度,对所述目标科创信息进行分维度展示。
本实施例中基于各类型维度预设有其对应的显示方式,在确定了目标科创信息对应的类型维度之后,对所述目标科创信息进行分维度展示。通过上述方式提高了检索结果的展示效率,进而可以提高信息利用率。
除此之外,本实施例对于各类型维度预设有其对应的显示权重Hea_i,同时我们根据各类型维度检测到的目标科创信息的数量mon_i,将上述两者相乘得到显示优先度为Dis_i:
Figure 259695DEST_PATH_IMAGE003
其中,
Figure 704493DEST_PATH_IMAGE004
表示预设的优先度因子。通过上述方式将用户偏好和检索结果结合起来, 利用显示优先度的方式对目标科创信息的显示顺序进行排序,提高信息的显示效率。
在本申请的一些实施例所提供的技术方案中,获取待检索的检索词条;对检索词条进行衍生处理,确定检索词条对应的至少一个衍生关键词,之后在基于大数据SaaS预先构建的数据库中,对衍生关键词进行搜索,确定衍生关键词对应的目标科创信息,识别目标科创信息对应的类型维度,最后基于目标科创信息对应的类型维度,对目标科创信息进行分维度展示,通过上述方式提高了科创信息检索的效率,以及对检索到的目标科创信息的利用率。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的基于大数据SaaS的多维科创信息搜索方法。可以理解的是,所述装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。对于本申请装置实施例中未披露的细节,请参照本申请上述的基于大数据SaaS的多维科创信息搜索方法的实施例。
图3示出了根据本申请的一个实施例的基于大数据SaaS的多维科创信息搜索系统的框图。
参照图3所示,根据本申请的一个实施例的基于大数据SaaS的多维科创信息搜索系统300,包括:
获取模块310,用于获取待检索的检索词条;
衍生模块320,用于对所述检索词条进行衍生处理,确定所述检索词条对应的至少一个衍生关键词;
搜索模块330,用于在基于大数据SaaS预先构建的数据库中,对所述衍生关键词进行搜索,确定与所述衍生关键词对应的目标标题;
类型模块340,用于识别所述目标标题下的目标科创信息对应的类型维度,其中,所述类型维度包括以下至少两个:专利、项目、论文、网页、书籍;
展示模块350,用于基于所述目标科创信息对应的类型维度,对所述目标科创信息进行分维度展示。
在本申请的一些实施例中,基于前述方案,所述对所述检索词条进行衍生处理,确定所述检索词条对应的至少一个衍生关键词,包括:在预设的关键词库中,确定所述检索词条对应的目标关键词;从所述关键词库中,获取所述目标关键词关联的关键词作为所述检索词条对应的至少一个衍生关键词。
在本申请的一些实施例中,基于前述方案,所述在基于大数据SaaS预先构建的数据库中,对所述衍生关键词进行搜索,确定与所述衍生关键词对应的目标标题,包括:在基于大数据SaaS预先构建的数据库中,获取各科创内容对应的标题;对所述标题进行分词处理,得到标题分词;将所述衍生关键词与所述标题分词进行匹配,确定与所述衍生关键词对应的目标标题;将所述目标标题对应的科创内容作为所述目标科创信息。
在本申请的一些实施例中,基于前述方案,所述对所述标题进行分词处理,得到标题分词,包括:根据字典匹配的方式,对所述标题进行分词处理,得到标题分词。
在本申请的一些实施例中,基于前述方案,所述将所述衍生关键词与所述标题分词进行匹配,确定与所述衍生关键词对应的目标标题,包括:将衍生关键词与各标题的标题分词进行一一匹配,确定衍生关键词与各标题的标题分词的单词匹配度;基于所述单词匹配度,计算所述衍生关键词与各标题之间的标题匹配度;基于设定的匹配度阈值,将所述标题匹配度大于或者等于所述匹配度阈值时对应的标题作为所述目标标题。
在本申请的一些实施例中,基于前述方案,所述识别所述目标标题下的目标科创信息对应的类型维度,包括:获取所述目标科创信息的初始来源,所述初始来源包括网址或者域名;基于所述初始来源确定所述目标科创信息对应的类型维度。
在本申请的一些实施例中,基于前述方案,所述基于所述目标科创信息对应的类型维度,对所述目标科创信息进行分维度展示,包括:基于各类型维度对应的显示方式,对所述目标科创信息进行分维度展示。
在本申请的一些实施例所提供的技术方案中,获取待检索的检索词条;对检索词条进行衍生处理,确定检索词条对应的至少一个衍生关键词,之后在基于大数据SaaS预先构建的数据库中,对衍生关键词进行搜索,确定衍生关键词对应的目标科创信息,识别目标科创信息对应的类型维度,最后基于目标科创信息对应的类型维度,对目标科创信息进行分维度展示,通过上述方式提高了科创信息检索的效率,以及对检索到的目标科创信息的利用率。
图4示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图4示出的电子设备的计算机系统400仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图4所示,计算机系统400包括中央处理单元(Central Processing Unit,CPU)401,其可以根据存储在只读存储器(Read-Only Memory,ROM)402中的程序或者从储存部分408加载到随机访问存储器(Random Access Memory,RAM)403中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM 403中,还存储有系统操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(Input/Output,I/O)接口405也连接至总线404。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分407;包括硬盘等的储存部分408;以及包括诸如LAN(Local Area Network,局域网)卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入储存部分408。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (8)

1.一种基于大数据SaaS的多维科创信息搜索方法,其特征在于,包括:
获取待检索的检索词条;
对所述检索词条进行衍生处理,确定所述检索词条对应的至少一个衍生关键词;
在基于大数据SaaS预先构建的数据库中,对所述衍生关键词进行搜索,确定与所述衍生关键词对应的目标标题;
识别所述目标标题的目标科创信息对应的类型维度,其中,所述类型维度包括以下至少两个:专利、项目、论文、网页、书籍;
基于所述目标科创信息对应的类型维度,对所述目标科创信息进行分维度展示;
在基于大数据SaaS预先构建的数据库中,对所述衍生关键词进行搜索,确定与所述衍生关键词对应的目标标题,包括:
在基于大数据SaaS预先构建的数据库中,获取各科创内容对应的标题;
对所述标题进行分词处理,得到标题分词;
将所述衍生关键词与所述标题分词进行匹配,确定与所述衍生关键词对应的目标标题;
将所述目标标题对应的科创内容作为所述目标科创信息;
将所述衍生关键词与所述标题分词进行匹配,确定与所述衍生关键词对应的目标标题,包括:
将衍生关键词与各标题的标题分词进行一一匹配,确定衍生关键词与各标题的标题分词的单词匹配度;
基于所述单词匹配度,计算所述衍生关键词与各标题之间的标题匹配度;
基于设定的匹配度阈值,将所述标题匹配度大于或者等于所述匹配度阈值时对应的标题作为所述目标标题;
将衍生关键词与各标题的标题分词进行一一匹配,确定衍生关键词与各标题的标题分词的单词匹配度,包括:
确定衍生关键词和标题分词分别对应的特征参数,其中特征参数包括:基于衍生关键词的词语信息生成的第一向量Vder以及基于标题分词的词语信息生成的第二向量Vtit,先计算两个向量之间的内积<Vder,Vtit>,之后基于内积和预设的匹配度参数α来计算单词匹配度Psi(der,tit)为:
Figure FDA0003608262870000021
基于所述目标科创信息对应的类型维度,对所述目标科创信息进行分维度展示,包括:
对于各类型维度预设有其对应的显示权重Hea_i、检测到的目标科创信息的数量mon_i得到显示优先度Dis_i为:
Dis_i=γ·Hea_i·mon_i
其中,γ表示预设的优先度因子;之后利用显示优先度对各类型维度对应的目标科创信息进行排序显示。
2.根据权利要求1所述的方法,其特征在于,对所述检索词条进行衍生处理,确定所述检索词条对应的至少一个衍生关键词,包括:
在预设的关键词库中,确定所述检索词条对应的目标关键词;
从所述关键词库中,获取所述目标关键词关联的关键词作为所述检索词条对应的至少一个衍生关键词。
3.根据权利要求1所述的方法,其特征在于,对所述标题进行分词处理,得到标题分词,包括:
根据字典匹配的方式,对所述标题进行分词处理,得到标题分词。
4.根据权利要求1所述的方法,其特征在于,识别所述目标标题的目标科创信息对应的类型维度,包括:
获取所述目标科创信息的初始来源,所述初始来源包括网址或者域名;
基于所述初始来源确定所述目标科创信息对应的类型维度。
5.根据权利要求1所述的方法,其特征在于,基于所述目标科创信息对应的类型维度,对所述目标科创信息进行分维度展示,包括:
基于各类型维度对应的显示方式,对所述目标科创信息进行分维度展示。
6.一种基于大数据SaaS的多维科创信息搜索系统,其特征在于,包括:
获取模块,用于获取待检索的检索词条;
衍生模块,用于对所述检索词条进行衍生处理,确定所述检索词条对应的至少一个衍生关键词;
搜索模块,用于在基于大数据SaaS预先构建的数据库中,对所述衍生关键词进行搜索,确定与所述衍生关键词对应的目标标题;
类型模块,用于识别所述目标标题的目标科创信息对应的类型维度,其中,所述类型维度包括以下至少两个:专利、项目、论文、网页、书籍;
展示模块,用于基于所述目标科创信息对应的类型维度,对所述目标科创信息进行分维度展示;
在基于大数据SaaS预先构建的数据库中,对所述衍生关键词进行搜索,确定与所述衍生关键词对应的目标标题,包括:
在基于大数据SaaS预先构建的数据库中,获取各科创内容对应的标题;
对所述标题进行分词处理,得到标题分词;
将所述衍生关键词与所述标题分词进行匹配,确定与所述衍生关键词对应的目标标题;
将所述目标标题对应的科创内容作为所述目标科创信息;
将所述衍生关键词与所述标题分词进行匹配,确定与所述衍生关键词对应的目标标题,包括:
将衍生关键词与各标题的标题分词进行一一匹配,确定衍生关键词与各标题的标题分词的单词匹配度;
基于所述单词匹配度,计算所述衍生关键词与各标题之间的标题匹配度;
基于设定的匹配度阈值,将所述标题匹配度大于或者等于所述匹配度阈值时对应的标题作为所述目标标题;
将衍生关键词与各标题的标题分词进行一一匹配,确定衍生关键词与各标题的标题分词的单词匹配度,包括:
确定衍生关键词和标题分词分别对应的特征参数,其中特征参数包括:基于衍生关键词的词语信息生成的第一向量Vder以及基于标题分词的词语信息生成的第二向量Vtit,先计算两个向量之间的内积<Vder,Vtit>,之后基于内积和预设的匹配度参数α来计算单词匹配度Psi(der,tit)为:
Figure FDA0003608262870000041
基于所述目标科创信息对应的类型维度,对所述目标科创信息进行分维度展示,包括:
对于各类型维度预设有其对应的显示权重Hea_i、检测到的目标科创信息的数量mon_i得到显示优先度Dis_i为:
Dis_i=γ·Hea_i·mon_i
其中,γ表示预设的优先度因子;之后利用显示优先度对各类型维度对应的目标科创信息进行排序显示。
7.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的基于大数据SaaS的多维科创信息搜索方法。
8.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至5中任一项所述的基于大数据SaaS的多维科创信息搜索方法。
CN202210154891.0A 2022-02-21 2022-02-21 基于大数据SaaS的多维科创信息搜索方法及系统 Active CN114218259B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210154891.0A CN114218259B (zh) 2022-02-21 2022-02-21 基于大数据SaaS的多维科创信息搜索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210154891.0A CN114218259B (zh) 2022-02-21 2022-02-21 基于大数据SaaS的多维科创信息搜索方法及系统

Publications (2)

Publication Number Publication Date
CN114218259A CN114218259A (zh) 2022-03-22
CN114218259B true CN114218259B (zh) 2022-05-24

Family

ID=80708970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210154891.0A Active CN114218259B (zh) 2022-02-21 2022-02-21 基于大数据SaaS的多维科创信息搜索方法及系统

Country Status (1)

Country Link
CN (1) CN114218259B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114741626B (zh) * 2022-04-28 2024-09-24 北京字跳网络技术有限公司 一种搜索结果展示方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617161A (zh) * 2013-09-26 2014-03-05 金蝶软件(中国)有限公司 一种针对saas模式的数据存储方法和装置
US8768910B1 (en) * 2012-04-13 2014-07-01 Google Inc. Identifying media queries
CN109902200A (zh) * 2019-02-22 2019-06-18 网宿科技股份有限公司 一种视频搜索排序的方法、装置及服务器
WO2021184552A1 (zh) * 2020-03-19 2021-09-23 平安科技(深圳)有限公司 医疗文本搜索方法、装置、计算机设备及存储介质
CN113468441A (zh) * 2021-06-29 2021-10-01 平安信托有限责任公司 基于权重调整的搜索排序方法、装置、设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271486B (zh) * 2018-09-19 2021-11-26 九江学院 一种相似性保留跨模态哈希检索方法
CN109446253B (zh) * 2018-09-25 2024-05-07 平安科技(深圳)有限公司 数据查询控制方法、装置、计算机设备及存储介质
CN111310008A (zh) * 2020-03-20 2020-06-19 北京三快在线科技有限公司 搜索意图识别方法、装置、电子设备和存储介质
CN112307356A (zh) * 2020-10-30 2021-02-02 北京百度网讯科技有限公司 信息搜索方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8768910B1 (en) * 2012-04-13 2014-07-01 Google Inc. Identifying media queries
CN103617161A (zh) * 2013-09-26 2014-03-05 金蝶软件(中国)有限公司 一种针对saas模式的数据存储方法和装置
CN109902200A (zh) * 2019-02-22 2019-06-18 网宿科技股份有限公司 一种视频搜索排序的方法、装置及服务器
WO2021184552A1 (zh) * 2020-03-19 2021-09-23 平安科技(深圳)有限公司 医疗文本搜索方法、装置、计算机设备及存储介质
CN113468441A (zh) * 2021-06-29 2021-10-01 平安信托有限责任公司 基于权重调整的搜索排序方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN114218259A (zh) 2022-03-22

Similar Documents

Publication Publication Date Title
CN110413738B (zh) 一种信息处理方法、装置、服务器及存储介质
US20140344783A1 (en) Systems and methods for finding project-related information by clustering applications into related concept categories
CN111291765A (zh) 用于确定相似图片的方法和装置
WO2013078307A1 (en) Image searching
CN103207899A (zh) 文本文件推荐方法及系统
CN108121814B (zh) 搜索结果排序模型生成方法和装置
CN111475725B (zh) 用于搜索内容的方法、装置、设备和计算机可读存储介质
CN110019650B (zh) 提供搜索联想词的方法、装置、存储介质及电子设备
US10599760B2 (en) Intelligent form creation
CN112184290A (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN110008396B (zh) 对象信息推送方法、装置、设备及计算机可读存储介质
CN113177154A (zh) 搜索词推荐方法、装置、电子设备及存储介质
CN108182287A (zh) 一种自动问答方法、装置及服务器
CN114218259B (zh) 基于大数据SaaS的多维科创信息搜索方法及系统
US10956409B2 (en) Relevance model for session search
CN115358397A (zh) 一种基于数据采样的并行图规则挖掘方法及装置
US20210117853A1 (en) Methods and systems for automated feature generation utilizing formula semantification
CN114021541A (zh) 演示文稿生成方法、装置、设备及存储介质
CN109672706B (zh) 一种信息推荐方法、装置、服务器及存储介质
CN112541069A (zh) 一种结合关键词的文本匹配方法、系统、终端及存储介质
CN112882890A (zh) 一种日志采集方法及装置
CN109597873B (zh) 语料数据的处理方法、装置、计算机可读介质及电子设备
CN115238676A (zh) 招标需求热点识别方法、装置、存储介质及电子设备
CN112818221B (zh) 实体的热度确定方法、装置、电子设备及存储介质
CN114817590A (zh) 路径存储方法、路径查询方法及装置、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant