CN111339421A - 基于云技术的信息搜索的方法、装置、设备及存储介质 - Google Patents

基于云技术的信息搜索的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111339421A
CN111339421A CN202010130414.1A CN202010130414A CN111339421A CN 111339421 A CN111339421 A CN 111339421A CN 202010130414 A CN202010130414 A CN 202010130414A CN 111339421 A CN111339421 A CN 111339421A
Authority
CN
China
Prior art keywords
target
search
data source
search engine
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010130414.1A
Other languages
English (en)
Other versions
CN111339421B (zh
Inventor
钟黎
黄步成
周沫凡
王励
陈咨尧
魏琪康
吴孟娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010130414.1A priority Critical patent/CN111339421B/zh
Publication of CN111339421A publication Critical patent/CN111339421A/zh
Application granted granted Critical
Publication of CN111339421B publication Critical patent/CN111339421B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请关于一种基于云技术的信息搜索的方法、装置、设备及存储介质,涉及信息搜索技术领域。所述方法包括:接收目标搜索请求,将目标搜索请求转发至对应的目标搜索引擎中,根据目标索引,指令目标搜索引擎对输入信息进行搜索,输出目标搜索引擎得到的搜索结果,其中,目标索引时按照目标上下文信息建立的索引,搜索结果是目标数据源中对应的目标索引的节选内容,目标数据源是非结构化的云端数据源。由于本申请中的目标数据源是与云端同步的数据源,当云端数据库中的数据源发生变化时,目标搜索引擎能够同步该数据源,实现了云端数据源发生变化时,目标搜索引擎的自动化部署,并依靠目标索引,提高了检索的效率和结果的匹配度。

Description

基于云技术的信息搜索的方法、装置、设备及存储介质
技术领域
本申请实施例涉及信息搜索技术领域,特别涉及一种基于云技术的信息搜索的方法、装置、设备及存储介质。
背景技术
随着网络和计算机技术的不断发展,在搜索系统中搜索非结构数据成为常见的场景。
在相关技术中,在从非结构数据中能够检索出指定的大概整块的非结构数据单元。并在该非结构数据单元中高亮显示指定的搜索词。
然而,相关技术中经过搜索得到的非结构数据单元仍不是用户希望得到的粒度的数据,用户需要在该非结构数据单元中进一步人工搜索自身需要的数据。
发明内容
本申请实施例提供了一种基于云技术的信息搜索的方法、装置、设备及存储介质,该技术方案如下:
一方面,提供了一种基于云技术的信息搜索的方法,应用于服务器中,所述方法包括:
接收目标搜索请求,所述目标搜索请求中包括输入信息,所述输入信息用于匹配相应的搜索结果;
根据所述输入信息的类别,将所述目标搜索请求转发至对应的目标搜索引擎中,所述目标搜索引擎是所述服务器中至少两个搜索引擎中的一个,所述至少两个搜索引擎对应的所述输入信息的类别不同;
根据目标索引,指令所述目标搜索引擎对所述输入信息进行搜索,所述目标索引是按照目标上下文信息建立的索引,所述目标上下文信息是所述目标搜索引擎的数据源的上下文信息,所述数据源是非结构化的云端数据源;
输出所述目标搜索引擎得到的搜索结果,所述搜索结果是目标数据源中对应所述目标索引的节选内容。
另一方面,提供了一种基于云技术的信息搜索的装置,应用于服务器中,所述装置包括:
请求接收模块,用于接收目标搜索请求,所述目标搜索请求中包括输入信息,所述输入信息用于匹配相应的搜索结果;
请求转发模块,用于根据所述输入信息的类别,将所述目标搜索请求转发至对应的目标搜索引擎中,所述目标搜索引擎是所述服务器中至少两个搜索引擎中的一个,所述至少两个搜索引擎对应的所述输入信息的类别不同;
信息搜索模块,用于根据目标索引,指令所述目标搜索引擎对所述输入信息进行搜索,所述目标索引是按照目标上下文信息建立的索引,所述目标上下文信息是所述目标搜索引擎的数据源的上下文信息,所述数据源是非结构化的云端数据源;
结果输出模块,用于输出所述目标搜索引擎得到的搜索结果,所述搜索结果是目标数据源中对应所述目标索引的节选内容。
另一方面,提供了一种计算机设备,所述计算机设备包含处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的基于云技术的信息搜索的方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上所述的基于云技术的信息搜索的方法。
本申请提供的技术方案可以包括以下有益效果:
接收目标搜索请求,将目标搜索请求转发至对应的目标搜索引擎中,根据目标索引,指令目标搜索引擎对输入信息进行搜索,输出目标搜索引擎得到的搜索结果,其中,目标索引时按照目标上下文信息建立的索引,搜索结果是目标数据源中对应的目标索引的节选内容,目标数据源是非结构化的云端数据源。由于本申请中的目标数据源是与云端同步的数据源,当云端数据库中的数据源发生变化时,目标搜索引擎能够同步该数据源,实现了云端数据源发生变化时,目标搜索引擎的自动化部署,并依靠目标索引,提高了检索的效率和结果的匹配度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是本申请一示例性实施例提供的一种基于云技术的信息搜索的系统框图;
图2是基于图1所示实施例提供的一种基于云技术的信息搜索的系统控制架构图;
图3是本申请实施例提供的一种数据源管理和索引任务调度的流程示意图;
图4是本实施例提供的一种KGSearch技术的系统架构图;
图5是本申请实施例提供的一种文档搜索问答方案的流程示意图;
图6是基于图5所示实施例提供的一种文档树的示意图;
图7是本申请实施例提供的一种向量搜索框架的示意图;
图8是基于图7所示实施例提供的一种向量检索核心模型的示意图;
图9是本申请实施例提供的一种基于云技术的信息搜索的方法的流程图;
图10是本申请一示例性实施例提供的另一种基于云技术的信息搜索的方法的流程图;
图11是本申请一示例性实施例提供的基于云技术的信息搜索的的方框图;
图12是根据一示例性实施例示出的计算机设备1200的结构框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as a Service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备和网络设备。
按照逻辑功能划分,在IaaS(Infrastructure as a Service,基础设施即服务)层上可以部署PaaS(Platform as a Service,平台即服务)层,PaaS层之上再部署SaaS(Software as a Service,软件即服务)层,也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台,如数据库、web容器等。SaaS为各式各样的业务软件,如web门户网站、短信群发器等。一般来说,SaaS和PaaS相对于IaaS是上层。
示意性的,本申请实施例还涉及云存储技术和数据库技术。
首先,本申请对云存储技术进行初步的介绍。
云存储(cloud storage)是在云计算概念上延伸和发展出来的一个新的概念,分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作,共同对外提供数据存储和业务访问功能的一个存储系统。
目前,存储系统的存储方法为:创建逻辑卷,在创建逻辑卷时,就为每个逻辑卷分配物理存储空间,该物理存储空间可能是某个存储设备或者某几个存储设备的磁盘组成。客户端在某一逻辑卷上存储数据,也就是将数据存储在文件系统上,文件系统将数据分成许多部分,每一部分是一个对象,对象不仅包含数据而且还包含数据标识(ID,ID entity)等额外的信息,文件系统将每个对象分别写入该逻辑卷的物理存储空间,且文件系统会记录每个对象的存储位置信息,从而当客户端请求访问数据时,文件系统能够根据每个对象的存储位置信息让客户端对数据进行访问。
存储系统为逻辑卷分配物理存储空间的过程,具体为:按照对存储于逻辑卷的对象的容量估量(该估量往往相对于实际要存储的对象的容量有很大余量)和独立冗余磁盘阵列(RAID,Redundant Array of Independent Disk)的组别,预先将物理存储空间划分成分条,一个逻辑卷可以理解为一个分条,从而为逻辑卷分配了物理存储空间。
其次,本申请对数据库技术进行初步的介绍。
数据库(Database),简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。
数据库管理系统(英文:Database Management System,简称DBMS)是为管理数据库而设计的电脑软件系统,一般具有存储、截取、安全保障、备份等基础功能。数据库管理系统可以依据它所支持的数据库模型来作分类,例如关系式、XML(Extensible MarkupLanguage,即可扩展标记语言);或依据所支持的计算机类型来作分类,例如服务器群集、移动电话;或依据所用查询语言来作分类,例如SQL(结构化查询语言(Structured QueryLanguage)、XQuery;或依据性能冲量重点来作分类,例如最大规模、最高运行速度;亦或其他的分类方式。不论使用哪种分类方式,一些DBMS能够跨类别,例如,同时支持多种查询语言。
在本申请实施例中,由于服务器所执行的基于云技术的信息搜索的方法能够赋予指定使用者的使用权限。例如,本申请所示的方案能够赋予政务部门、机构、企业、学校、医院或银行等组织使用权限。在落地方案中,本申请基于的云技术可以是私有云和混合云。下面,本申请实施例对此进行介绍。
混合云(Hybrid Cloud)融合了公有云(Public Cloud)和私有云(PrivateCloud),是近年来云计算的主要模式和发展方向。私有云主要是面向企业用户,出于安全考虑,企业更愿意将数据存放在私有云中,但是同时又希望可以获得公有云的计算资源,在这种情况下混合云被越来越多的采用,它将公有云和私有云进行混合和匹配,以获得最佳的效果,这种个性化的解决方案,达到了既省钱又安全的目的。
公有云(Public Cloud)通常指第三方提供商为用户提供的能够使用的云,公有云一般可通过Internet使用,可能是免费或成本低廉的,公有云的核心属性是共享资源服务。这种云有许多实例,可在当今整个开放的公有网络中提供服务。
私有云(Private Cloud)是将云基础设施与软硬件资源创建在防火墙内,以供机构或企业内各部门共享数据中心内的资源。创建私有云,除了硬件资源外,一般还有云设备(IaaS,Infrastructure as a Service,基础设施即服务)软件。
私有云计算同样包含云硬件、云平台、云服务三个层次。不同的是,云硬件是用户自己的个人电脑或服务器,而非云计算厂商的数据中心。云计算厂商构建数据中心的目的是为千百万用户提供公共云服务,因此需要拥有几十上百万台服务器。私有云计算,对个人来说只服务于亲朋好友,对企业来说只服务于本企业员工以及本企业的客户和供应商,因此个人或企业自己的个人电脑或服务器已经足够用来提供云服务。
本申请实施例提出了一种基于云技术的信息搜索的方法,该方案能够提高对基于云技术的信息搜索校准的准确性。为了便于理解,下面对本申请涉及的名词进行介绍。
(1)文本信息抽取技术:用于指示一种从文本数据中抽取名词短语、人名、地名、物品名称等特定信息的技术。在一些可选的应用场景中,能够将该技术落地模型包括隐马尔科夫模型、最大熵马尔科夫模型、条件随机场或表决感知机模型等。
(2)文本信息分类技术:用于指示自动对文本信息的数据进行标注的技术。一种可能的方式中,文本信息分类的处理过程可以包括文本预处理、文本特征提取和分类模型构建。
(3)KG-Search(英文:Knowledge Graph Search,中文:知识图谱搜索):是一项将用户的自然语句转为可执行图查询语句,并将图数据库查询结果自动生成可读答案并返回给用户的技术。
(4)BERT(英文:Bidirectional Encoder Representation from Transformers:是一种用于处理NLP(英文:Natural Language Processing,中文:自然语言处理)的下游任务。例如,下游任务可以包括分类任务或匹配任务。
(5)KG-Search:是一项将用户的自然语句转为可执行图查询语句、并将图数据库查询结果自动生成可读答案并返回给用户的技术。
(6)TF-IDF(英文:Term Frequency–Inverse Document Frequency,中文:词频-逆向文件频率)方法:是一种用于信息检索与文本挖掘的常用加权技术。
(7)BM25:是一种用来评价搜索词和文档之间相关性的算法,它是一种基于概率检索模型提出的算法。
(8)k-近邻图(k-NNG):假设G是一个有向图,V=X,同时<xi,xj>属于E,当且仅当p(xi,xj)是当前集合中最小的k个元素,p类似欧几里得距离和cos距离等。上面定义可以理解成这种k-NNG是每个点的周围与他最接近的k个点有边的关系存在。k-NNG限制了最近连接点的个数,是图像分类最常用的方法。
(9)ε-近邻图(ε-NNG):假设G是一个有向图,V=X,同时<xi,xj>属于E,当且仅当p(xi,xj)是当前集合中距离小于ε,p类似欧几里得距离和cos距离等。上面定义可以理解成这种ε-NNG是每个点的周围与他的距离小于ε的点有边的连接关系。ε-NNG限制了最近连接的距离,当通常情况下这个阈值较难确定。
(10)精确近邻图(ENN):精确近邻图指每个点在全部的点集合中寻找与他最接近的k个点建立边的关系,对于低维度的数据而言这是最准确的,但是对于目前的句向量通常768维度或者更高的维度来看,效率十分低,复杂度为(dn2),其中d为向量维度,n为集合中顶点的个数。
(11)近似近邻图(ANN):近似近邻图笼统上指用近似近邻的算法(大大降低复杂度)构建了近邻图,每个点的周围不完全是最近的k个点,但可以通过图上近似近邻搜索多条几个点基本上寻找到所有的最近点,从而达到超高准确率的算法。
(12)近似近邻搜索(ANNS):近似近邻算法指在通过近似近邻算法构建的近邻图上采用的图上搜索算法,定义为:通过给定一个q的向量,从构建的近似近邻图的集合中寻找到与之最近的k个点,通常这个算法的搜索次数是常数级别。对于ENN而言该类算法显然也是同样有效的。
(13)全文搜索:将非结构化数据按照规则提取信息,重新组织,使其有一定结构(提取出用于重新组织的信息即为索引),对有一定结构的数据利用搜索算法加快检索速度。
示意性的,本申请利用基于上下文信息生成的目标索引能够加快针对云端数据源的搜索速度,使得非结构化数据也能够被快速检索。
(14)Lucene搜索引擎:是一个开放源代码的全文检索引擎工具包,它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎。
(15)ElasticSearch:使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能,目的是通过简单的RESTful API来隐藏Lucene的复杂性,从而让全文搜索变得简单。
(16)垂直搜索:是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。在搜一搜中具体指某类型结果搜索,例如在即时社交应用中的公众号搜索或小程序搜索等。
在信息搜索技术领域中,本申请介绍传统文档型搜索问答方案和向量检索开源库方案(缩写:GNES),共两种技术方案。
1、传统文档型搜索问答方案
方案内容:在传统的针对文档的搜索方案中,服务器中的操作系统直接将文档的全文内容提取出来,针对用户query(中文:查询),返回相关的文档。而用户所需要的搜索结果,往往是更加明确的内容,返回的文档粒度较粗,用户仍需要从文档中详细寻找自身需要的内容。
2、向量检索开源库方案
基于zmq技术实现高效的向量检索,整体框架主要为分四个模块:Preprocess(预处理器),Encode(编码器),Indexer(索引器),Route(路由器)四个模块。其中,预处理器:将现实世界的对象转换为可用的语义单元列表。编码器:用向量表示来表示语义单元。索引器:将向量存储到允许快速访问的内存/磁盘中。路由器:在微服务之间转发消息。其中,微服务可以是批处理、映射或减少等服务。
在向量化检索系统中,每个文档(例如文本、视频或图像等文档)都首先被一个编码器encoder编码成一个固定长度的特征向量;然后系统对这些特征向量构建一种时间和空间都比较高效的数据索引结构,查询向量尽可能最相近的K个向量。为了解决查询query和文档doc的语义单元不匹配问题,本申请引入了预处理模块preprocessor。对各个文档进行索引时,preprocessor会将文档分割成多个chunks(中文:块),每个chunk对应的最优语义单元,然后对每个chunk使用encoder编码成特征向量;在检索是,query同样也会被分割成多个chunks,对每个chunk使用相同的encoder编码成特征向量。最后在计算query和doc(中文:文档)的语义相关性时,综合考虑chunk的权重,chunk之间的相关性和文档的权重等不同因素,从而提高检索效果。
但是,在上述方案2中的基于最优语义单元能解决一些情况下case不好的问题,但是最优语义单元的权重等设置十分影响检索的效果,而且向量检索开源库每个模块均有配置文件,配置文件过于繁多,造成使用困难的问题。
基于上述技术方案中造成检索效率较低和使用步骤繁琐的问题,本申请实施例提供了一种基于云技术的信息搜索的方法。在该方法中,本方案能够基于多种检索引擎、多数据源和多样数据类型进行综合检索,能够满足用户需求多样性的搜索场景,比如结构化数据搜索、图谱搜索、文档类型数据搜索、向量搜索和图片搜索等场景。
示意性的,本申请实施例能够对文档型数据进行智能索引推荐,减轻用户接入成本,提升检索效率和效果。其中,本申请使用的目标索引是基于文档上下文信息建立的,该目标索引能够在检索的过程中辅助服务器进行精确检索。
示意性的,本申请实施例运用KG-Search技术可以改善人与关系型数据库、图数据库之间的交互方式,达到提高数据库知识利用程度的目的。
示意性的,本申请实施例能够使用性能优良的语句向量生成算法,基于zmq技术实现分布式通信、动态分布式索引和检索,具有高质量的文本匹配效率和以图搜图的能力,支持目标索引的动态添删(增删索引不影响检索流程的正常进行)。
示意性的,若同一次检索前后用到知识图谱检测和文档检测,则本申请实施例能够在使用知识图谱检测引擎时,获取作为检测结果的实体的属性,并将该属性作为关键字和实体名称一并输入到文档检测引擎中,使得检索更加精确。可见,本申请能够在多引擎之间,通过共享实体属性信息,增强了结果的关联性。
示意性的,本申请实施例还能够赋予搜索引擎鉴权的能力。例如,当A企业使用本申请实施例提供的基于云技术的信息搜索的方法时,员工杰克和员工布朗的使用数据源的权限不同。当目标搜索引擎检测到是员工杰克进行检索时,其检索范围将被限制在其权限能够使用的范围内。若员工杰克的权限高于员工布朗的权限,则对于同一目标搜索请求,员工杰克获得的搜索结果的来源将大于员工布朗获得的搜索结果的来源。
示意性的,本申请实施例还能够自动从云端同步数据,自动更新搜索引擎中的数据源,降低了使用者维护搜索引擎的工作量,降低了云搜索技术维护数据源的工作量。
示意性的,本申请实施例在搜索结果展示交互上,增强了图谱数据和结构化信息展示,以及文档位置定位能力。例如,本申请实施例在检索指定文章时,若该指定文章中的第36段是搜索结果,则将展示指定文章中的第36段,提高了文章类的对象的搜索结果。相较于本领域中只能在指定文章中高亮关键字的方案,本申请提供的搜索结果的粒度更细,可用性更高。
本申请提供的基于云技术的信息搜索的方法,能够通过指定个数的功能模块实现整体的系统功能。请参考图1,图1是本申请一示例性实施例提供的一种基于云技术的信息搜索的系统框图,该基于云技术的信息搜索的系统可以包括引擎创建模块110、数据同步模块120、索引构建模块130、高级配置模块140和运营监控模块150,各个功能模块在系统中的功能介绍如下:
引擎创建模块110,用于接收引擎名称来完成引擎的创建。可选的,引擎创建模块110还可以接收引擎类型信息。其中,引擎类型信息可以包括ES引擎类型、向量引擎类型、文档引擎类型、图谱引擎类型或大数据引擎类型中的一种。
可选地,引擎创建模块110还能够接收引擎描述信息,该引擎描述信息用于描述引擎的信息。该引擎描述信息是一种备注信息,不对引擎实际运行流程产生影响。
需要说明的是,引擎创建模块110创建的引擎是引擎实例,不同的引擎实例之间将互相隔离,数据互不可见。
数据同步模块120,用于支持用户同步本地或者云上的数据。其中,数据格式包括结构化的图谱数据、文档或表格等。
索引构建模块130,用于支持服务器中的操作系统,自动根据数据同步模块120同步的数据判断各数据对应的后台引擎类型,并且给用户创建索引表。
例如,当数据同步模块120同步的数据是文档时,对应的后台引擎是文档引擎,索引构建模块130将根据文档引擎创建文档树,将文档树作为索引表。再例如,当数据同步模块120同步的数据是图片时,对应的后台引擎是向量引擎,索引构建模块130将无需创建索引。再例如,当被确认的后台引擎是ES引擎时,索引构建模块130将创建index数据作为索引表。
可选的,用户具有修改索引表的权限。
高级配置模块140,用于接收用户对于搜索处理和搜索结果处理的高级配置,其中针对搜索处理,用户可以设置针对——智能联想、通用分词、通用纠错、通用实体识别、同义词、停用词、模糊搜索和拼音识别的开关。针对搜索结果的处理设置,高级配置模块140可以设置包括字段排序、字段过滤器、LBS以及字段飘红等功能。
运营监控模块150,用于提供引擎终端访问的请求量结果、搜索结果的平均耗时、热门搜索结果、零结果的搜索Query等数据。
基于图1所示的系统,本申请实施例还提供一种基于云技术的信息搜索的系统控制架构。请参见图2,图2是基于图1所示实施例提供的一种基于云技术的信息搜索的系统控制架构图。在图2中,搜索中台200用于接收用户的目标搜索请求并向用户输出搜索结果。搜索中台200控制的模块包括运营报表模块210、配置管理模块220、数据管理模块230、索引操作模块240和搜索处理模块250。
示意性的,搜索中台200对各个模块控制的内容介绍如下。
运营报表模块210用于向搜索中台200提供实时以及历史运营数据。可选地,运营报表模块210可以通过操作数据监控系统211(英文:Barad)实现相关功能。
配置管理模块220用于整个系统的应用、模块以及组件进行整体的配置。可选地,配置管理模块220可以通过操作mySQL(中文:关系型数据库管理系统)221来实现相关功能。
数据管理模块230用于通过数据源适配层,能够扩展支持多种数据源,比如文件存储,在线文档,数据库等。此外,通过监听数据源的更新事件,索引数据能够及时的更新和生效。可选地,数据管理模块230可以通过操作分布式文件系统Ceph231或分布式文件系统CFS232来实现相关功能。
索引操作模块240能够完成索引建立和索引更新的任务。
请参见图3,图3是本申请实施例提供的一种数据源管理和索引任务调度的流程示意图。在图3中,索引任务调度分为同步数据310、索引推荐320、数据审核330、索引触发340和分发引擎350共五个阶段。其中,索引推荐320、数据审核330和索引触发340一共3个阶段不是必须选择的阶段。索引任务调度可以在执行完成同步数据310,立即执行分发引擎350的阶段。
示意性的,同步数据310用于从云端向搜索引擎同步数据源。索引推荐320用于自动生成索引表,并向用户推荐该索引表。数据审核330用于供用户选择本次准备向搜索引擎发送的数据是否可以放行。索引触发340用于供用户手动确认放行本次向搜索引擎发送的数据。分发引擎350用于将本次发送至搜索引擎的数据发送至对应的搜索引擎。
可选地,图3所示方案使用的是mySQL分表方案。在另一种方式中,服务器还可以使用redis、消息队列等队列管理方案。
在本申请提供的一种可能的应用方式中,ES搜索问答作为一种场景也能够基于图1至图3所构建的系统运行。
示意性的,云搜的索引构建有多种方式,其中之一是结合ElasticSearch(ES)来构建搜索的索引引擎。ElasticSearch是一款基于Lucene的分布式全文搜索引擎,可以使用RESTful的接口或者多种客服端进行开发。与其类似的产品是Apache Solr,不过Solr更加偏向于搜索的管理方案,而ElasticSearch更加偏向底层,适应度更广。
一种方式中,对于格式化数据,在建立ES索引的时候,通常是通过要求客户提前创建并设计一个索引格式。在这一点上,本申请实施例中的ES构建索引的部分,使用自动构建索引格式的方式,将推荐的格式展示给使用者,使用者只需确认或者根据个性化需求修改格式便可继续之后的流程。这样的处理模式能大大减轻使用者在构建索引格式上的步骤。
自动构建索引的技术涉及到文本信息的抽取与分类[1,2],是将段落文本当中的关键信息点抽取出来,从非结构化数据抽取结构化信息出来,之后对结构化信息进行整理并构建索引,就能被更有效的安放至搜索引擎。使用这样的技术,我们能为用户推荐有效的关键信息,辅助索引的构建,让索引构建更省时省力。除此之外,在搜索时,拥有辅助的索引信息,能让搜索引擎更有效地找到更准确的信息。这一种搜索的前处理技术也是构建搜索引擎最为重要的技术之一。
在本申请提供的另一种可能的应用方式中,(4)KGSearch知识图谱型智能搜索作为另一种场景也能够基于图1至图3所构建的系统运行。
示意性的,KGSearch技术是一项将用户的自然语句转为可执行图查询语句、并将图数据库查询结果自动生成可读答案并返回给用户的技术。这一技术作为云搜中相对独立的引擎模块,可以极大的改善人与关系型数据库、图数据库之间的交互方式,达到提高数据库知识利用程度的目的。
作为一种可能的实施方式,请参照图4,图4是本实施例提供的一种KGSearch技术的系统架构图。在图4中,KGSearch系统包括数据平台410和搜索平台420两大部分。下面将分别对其作用进行介绍。
数据平台410中使用有关系型数据库。关系型数据库是一种天然的结构化数据组织形式,存储了大量的个人或者企业的生产运营数据。然而,关系型数据库的设计往往需要遵循其几大范式,同时为了配合前端应用的展示而不会遵循“属性-实体-关系-事件”的客观事物关系。对关系型数据库的数据治理是将其转换为更为自然的知识图谱的第一步。可以使用映射规则、编辑距离计算、语义相似度计算等方式将数据库表中的不规范形式和缺失值做统一的规范处理。如数据表表头中的中文数字,拼音缩写,将按映射规则转换为阿拉伯数字、中文标准术语等与搜索Query相统一的范式。同时结合外部语料构建数据库表词典,将各类术语及其同义词映射使用结构化的形式存储。
以关系型数据库作为数据源,经过schema设计、数据清洗治理、映射、转换而构建成为以图数据库为载体的知识图谱后,便可以有效利用知识图谱的优势,解决用户在属性、关系等查询范式中快速获取信息的要求。
搜索平台420的搜索被分为(1)Query预处理;(2)实体消歧与对齐;(3)CQL框架生成;(4)图数据库检索;(5)答案触发与拒识等几个模块,下面将分别对各个模块的技术方案进行介绍。
(1)Query预处理。主要包含对用户搜索Query的分析处理,如问题分析、词性解析、实体提取分析、同义词替换等。经过Query预处理,搜索Query中的不规范数字、英文缩写形式均可以映射为与数据库表同一范式下的标准形式。
(2)实体消歧与对齐。在用户Query中,往往会出现一对多的实体词术语映射形式,如何将相同形式的不同实体映射到其对应的实体属性列上,是实体消歧的重要工作。而实体对齐则将各类不规范形式的描述、口语化的表述(如“室内还是室外的”与“安装位置”)、约定俗成的简述(如“电站”与“变电站”)等通过语义识别的方式转化为标准术语。经过Query预处理、实体消歧与对齐模块的处理,自然语句Query将转化为算法和模型容易识别的半结构化形式。
(3)CQL框架生成。结合实体消歧与对齐的结果,云搜可以为用户生成基础的CQL查询语句。为了提升CQL生成的准确率,在有大量训练数据用以参数训练的前提下,云搜还可以采用子任务解耦的形式来完成查询语句框架的填充——子任务通常包括属性字段生成、条件生成(如Where子句的属性)、函数生成(如包含order by、max、min在内的各类AGG函数)等。CQL框架生成的各项子任务使用各自的损失函数、子模型参数各自更新。
(4)图数据库检索。通过上述的CQL框架生成,可以得到候选CQL语句。经过CQL基本语法的修正和必要的后处理条件增加等步骤,便可以直接应用于图谱检索。
(5)答案触发与拒识。经过基于启发式规则的搜索结果检查后,对候选答案的置信度进行分析,将置信度高于预设值的答案进行输出,对置信度较低的结果予以拒识,将最终结果传递给用户。
在本申请实施例提供的另一种应用场景中,服务器还能够对文档型搜索问答进行处理。
请参见图5,图5是本申请实施例提供的一种文档搜索问答方案的流程示意图。在图5中,包括问答平台510和数据平台520两大平台。
在问答平台510中,处理流程包括问题分析、文档检索、片段检索、答案生成和答案触发几个步骤。
在数据平台520中,处理方式包括文档解析和结构化存储,开始处理的对象是文档集。
在本实施例中,文档型智能问答所需的技术可以概括为知识组织和知识问答两个部分。
一方面,在知识组织部分的介绍中,文档数据是一种非结构化数据,我们需要将非结构化数据进行结构化的组织,辅助我们对文档数据进行问答。为了获取文档的上下文关联信息,从而提高答案检索的准确率,我们利用树形结构对文档知识进行组织存储。需要说明的是,文档树即为一种形式的索引表。
请参考图6,图6是基于图5所示实施例提供的一种文档树的示意图。在图6中,文档集包括《S市企业年金介绍》、《文档2》直到《文档N》一共N个文件。其中,对于文档《S市企业年金介绍》的文档树进行了详细列写,针对《文档N》的文档树进行了通用性描述的列写。
另一方面,在指示问答部分的介绍中,知识问答的流程主要包括问题分析、文档检索、片段检索、答案生成、答案触发等几个部分。
(1)问题分析,用于指示对用户问题进行预处理分析,包括问题类型、关键信息提取等。本步骤中,主要利用文本分类、词性分析、句法分析、关键词提取、查询扩展等技术,得到或扩展问题的关键信息,输入到检索模块。
(2)文档检索。用于指示根据用户问题,从文档集合中,找到N篇相关文档。从全文内容分析文档是否与用户问题相关,缩小答案范围。
(3)片段检索,用于指示从相关文档中,检索出答案所在相关的段落,进一步缩小答案范围。利用树形组织的知识结构,将答案文本的检索转化为文档节点的检索。结合树形结构中的路径信息,可以获取节点文本的上下文信息,进一步提高节点检索的准确率。
(4)答案生成,用于指示从上一步检索的候选段落中,进一步对段落进行筛选,或者利用机器阅读理解模型进一步提取细粒度的文本片段作为答案。
(5)答案触发,主要包括两个部分,从问题类型分析到答案类型分析,进一步对上一步得到的候选答案进行筛选;分析候选答案的置信度是否高于预设,判断文档集合中是否存在问题的答案。从而确定最终的答案输出。
本申请还能够支持针对图片的以图搜图的应用场景,在该场景中,本申请涉及向量搜索技术。
请参考图7,图7是本申请实施例提供的一种向量搜索框架的示意图。在图7中,向量搜索框架包括主搜索节点700、从搜索节点710、从搜索节点720和从搜索节点730。其中,从搜索节点710中包括搜索模块711、信息模块712、索引模块713和存储模块714。
在图7所示的向量搜索框架中,本申请实施例能够基于zmq技术的分布式设计,进行海量和高并发的向量搜索。
其中,主搜索节点700用于将目标搜索请求分发至从搜索节点710、从搜索节点720以及从搜索节点730中。并在各个从搜索节点完成搜索工作后,汇总各个从搜索节点反馈的搜索结果。
可选地,从搜索节点将和主搜索节点进行同步校验,保证从搜索节点中存储的数据是主搜索节点希望搜索到的数据。例如,当主搜索节点向各个从搜索节点发送目标搜索请求时,希望各个从搜索节点使用版本v1.5的数据源进行搜索,若其中一个搜索节点使用的版本v1.4则,该搜索节点将报错,并启用对应的灾备从搜索节点执行搜索工作。
示意性的,请参考图8,图8是基于图7所示实施例提供的一种向量检索核心模型的示意图。在该模型中,包括测试向量810、共享参数820、损失参数831、损失参数832和空白损失参数840。其中,共享参数820包括相似问参数821、正例标准问822和负例标准问823。
请参考图9,图9是本申请实施例提供的一种基于云技术的信息搜索的方法的流程图。该方法可以应用在服务器或者服务器集群中,该方法包括:
步骤910,接收目标搜索请求,目标搜索请求中包括输入信息,输入信息用于匹配相应的搜索结果。
示意性,在本申请实施例中,服务器能够通过搜索中台接收目标搜索请求。
可选地,目标搜索请求还可以包括使用者的标识。
步骤920,根据输入信息的类别,将目标搜索请求转发至对应的目标搜索引擎中,目标搜索引擎是服务器中至少两个搜索引擎中的一个,至少两个搜索引擎对应的输入信息的类别不同。
可选地,服务器能够自动识别输入信息的类别,并将该目标搜索请求转发至对应输入信息的类别,对应的目标搜索引擎中。例如,输入信息的类别是图片,则将目标搜索请求转发至向量搜索引擎;输入信息的类别是文档,则将目标搜索请求转发至文档搜索引擎。
步骤930,根据目标索引,指令目标搜索引擎对输入信息进行搜索,目标索引是按照目标上下文信息建立的索引,目标上下文信息是目标搜索引擎的数据源的上下文信息,数据源是非结构化的云端数据源。
在本申请实施例中,目标索引是根据目标上下文信息建立的索引,该目标山下文是目标搜索引擎的数据源的上下文信息。例如,当目标搜索引擎的数据源是《文档12》时,该目标上下文是《文档12》的文档树。文档树中包括文档的标题、各个子标题和内容的互相索引关系。根据目标索引,服务器能够迅速在数据源中完成搜索。
步骤940,输出目标搜索引擎得到的搜索结果,搜索结果是目标数据源中对应目标索引的节选内容。
在本申请实施例中,服务器能够通过搜索中台输出目标搜索引擎得到的搜索结果,使得用户通过与搜索中台交互即可得到搜索结果。
综上所述,本申请实施例提供的基于云技术的信息搜索的方法,通过接收目标搜索请求,将目标搜索请求转发至对应的目标搜索引擎中,根据目标索引,指令目标搜索引擎对输入信息进行搜索,输出目标搜索引擎得到的搜索结果,其中,目标索引时按照目标上下文信息建立的索引,搜索结果是目标数据源中对应的目标索引的节选内容,目标数据源是非结构化的云端数据源。由于本申请中的目标数据源是与云端同步的数据源,当云端数据库中的数据源发生变化时,目标搜索引擎能够同步该数据源,实现了云端数据源发生变化时,目标搜索引擎的自动化部署,并依靠目标索引,提高了检索的效率和结果的匹配度。
请参考图10,图10是本申请一示例性实施例提供的另一种基于云技术的信息搜索的方法的流程图,该基于云技术的信息搜索的方法可以由服务器或服务器集群执行,该方法可以包括以下步骤:
步骤1011,获取目标搜索引擎的所有者标识。
步骤1012,在云端获取所有者标识的数据源集群。
步骤1013,根据数据源集群,向目标搜索所引擎存入目标搜索引擎的数据源。
示意性的,步骤1013可由步骤(1)和步骤(2)替换。
步骤(1),响应于目标搜索引擎首次存入目标搜索引擎的数据源,将数据源集群的数据源全量存入目标搜索所引擎。
步骤(2),响应于目标搜索引擎已存有数据源集群数据源的场景,生成数据源更改事件,数据源更改事件用于指示删除已有的数据源、增加新的数据源或修改以后的数据源中的任一事件及对应的数据。
步骤1014,根据目标搜索引擎的数据源,建立目标索引。
步骤1015,将目标索引与目标搜索引擎的数据源进行关联,并存储在目标搜索引擎中。
步骤1020,接收目标搜索请求。
步骤1030,根据输入信息的类别,将目标搜索请求转发至对应的目标搜索引擎中。
步骤1041,从目标搜索请求中获取发起者的用户标识。
步骤1042,确定用户标识对应的搜索权限。
步骤1043,根据搜索权限从目标搜索引擎的数据源中确定有权数据源。
步骤1044,根据目标索引,指令目标搜索引擎在有权数据源中对输入信息进行搜索。
示意性的,在本申请实施例中,当服务器执行完成步骤1044后,服务器可以响应于作为文档搜索引擎的目标搜索引擎,输出示文档搜索引擎得到的段落结果,段落结果是目标数据源中对应目标索引的段落。
可选地,文档搜索引擎最终能够得到段落结果,使得搜索结果更加精确,提高用户获取精确的搜索结果的需求。
步骤1051,响应于作为文档搜索引擎的目标搜索引擎,对获得的段落结果进行次序重排。
步骤1052,对进行次序重排后的段落结果,进行答案类型检查。
步骤1053,响应于答案类型与作为问题的目标搜索请求的匹配情况,通过语音回答的方式输出对应的语音。
其中,步骤1053可以由步骤(3)替换,或者,由步骤(4)和步骤(5)替换。
步骤(3),响应于答案类型与作为问题的目标搜索请求匹配的场景,通过语音回答的方式输出次序重排后的段落结果。
步骤(4),响应于答案类型与作为问题的目标搜索请求不匹配的场景,生成对应的拒识语音。
步骤(5),输出拒识语音。
综上所述,本申请实施例提供的基于云技术的信息搜索的方法,能够在目标搜索引擎是文档搜索引擎时,输出文档搜索引擎得到段落结果,使得搜索结果能够精确到文档中的段落,提高了针对文档的检索效率,降低了用户获取准确检索结果的难度。
可选地,本申请实施例还能够根据目标搜索引擎的所有者标识,将所有者标识对应的云端的数据源集群存入目标搜索引擎中,并生成相应的目标搜索引擎,使得所有者在云端的数据源集群在仅需更新一次的前提下,将搜索引擎中的数据源一并自动更新并生成相应的目标索引,提高了搜索引擎自动更新的能力,减轻了基于云技术的搜索技术的维护难度。
请参考图11,图11是本申请一示例性实施例提供的基于云技术的信息搜索的的方框图,该基于云技术的信息搜索的装置可以应用于服务器执行中,该装置可以包括:
请求接收模块1110,用于接收目标搜索请求,所述目标搜索请求中包括输入信息,所述输入信息用于匹配相应的搜索结果;
请求转发模块1120,用于根据所述输入信息的类别,将所述目标搜索请求转发至对应的目标搜索引擎中,所述目标搜索引擎是所述服务器中至少两个搜索引擎中的一个,所述至少两个搜索引擎对应的所述输入信息的类别不同;
信息搜索模块1130,用于根据目标索引,指令所述目标搜索引擎对所述输入信息进行搜索,所述目标索引是按照目标上下文信息建立的索引,所述目标上下文信息是所述目标搜索引擎的数据源的上下文信息,所述数据源是非结构化的云端数据源;
结果输出模块1140,用于输出所述目标搜索引擎得到的搜索结果,所述搜索结果是目标数据源中对应所述目标索引的节选内容。
可选地,结果输出模块1140,用于响应于作为文档搜索引擎的所述目标搜索引擎,输出示所述文档搜索引擎得到的段落结果,所述段落结果是所述目标数据源中对应所述目标索引的段落。
可选的,所述装置还包括标识获取模块、集群获取模块、数据输入模块、索引建立模块和关联模块。
所述标识获取模块,用于获取所述目标搜索引擎的所有者标识;
所述集群获取模块,用于在云端获取所述所有者标识的数据源集群;
所述数据输入模块,用于根据所述数据源集群,向所述目标搜索所引擎存入所述目标搜索引擎的数据源;
所述索引建立模块,用于根据所述目标搜索引擎的数据源,建立所述目标索引;
所述关联模块,用于将所述目标索引与所述目标搜索引擎的数据源进行关联,并存储在所述目标搜索引擎中。
可选地,所述数据输入模块,用于响应于所述目标搜索引擎首次存入所述目标搜索引擎的数据源,将所述数据源集群的数据源全量存入所述目标搜索所引擎;或,响应于所述目标搜索引擎已存有所述数据源集群数据源的场景,生成数据源更改事件,所述数据源更改事件用于指示删除已有的所述数据源、增加新的数据源或修改以后的所述数据源中的任一事件及对应的数据。
可选地,所述结果输出模块1140,用于响应于作为文档搜索引擎的所述目标搜索引擎,对获得的所述段落结果进行次序重排;对进行所述次序重排后的所述段落结果,进行答案类型检查;响应于所述答案类型与作为问题的所述目标搜索请求的匹配情况,通过语音回答的方式输出对应的语音。
可选地,所述结果输出模块1140,用于响应于所述答案类型与作为问题的所述目标搜索请求匹配的场景,通过语音回答的方式输出所述次序重排后的所述段落结果;或,响应于所述答案类型与作为问题的所述目标搜索请求不匹配的场景,生成对应的拒识语音;输出所述拒识语音。
可选地,所述信息搜索模块1130,用于从所述目标搜索请求中获取发起者的用户标识;确定所述用户标识对应的搜索权限;根据所述搜索权限从所述目标搜索引擎的数据源中确定有权数据源;根据所述目标索引,指令所述目标搜索引擎在所述有权数据源中对所述输入信息进行搜索。
综上所述,本申请实施例提供的基于云技术的信息搜索的装置,能够在目标搜索引擎是文档搜索引擎时,输出文档搜索引擎得到段落结果,使得搜索结果能够精确到文档中的段落,提高了针对文档的检索效率,降低了用户获取准确检索结果的难度。
可选地,本申请实施例还能够根据目标搜索引擎的所有者标识,将所有者标识对应的云端的数据源集群存入目标搜索引擎中,并生成相应的目标搜索引擎,使得所有者在云端的数据源集群在仅需更新一次的前提下,将搜索引擎中的数据源一并自动更新并生成相应的目标索引,提高了搜索引擎自动更新的能力,减轻了基于云技术的搜索技术的维护难度。
请参见图12,图12是根据一示例性实施例示出的计算机设备1200的结构框图。该计算机设备可以实现为本申请上述方案中的服务器。
需要说明的是,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(英文:Content DeliveryNetwork;中文:内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
所述计算机设备1200包括中央处理单元(Central Processing Unit,CPU)1201、包括随机存取存储器(Random Access Memory,RAM)1202和只读存储器(Read-OnlyMemory,ROM)1203的系统存储器1204,以及连接系统存储器1204和中央处理单元1201的系统总线1205。所述计算机设备1200还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output系统,I/O系统)1206,和用于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1207。
所述基本输入/输出系统1206包括有用于显示信息的显示器1208和用于用户输入信息的诸如鼠标、键盘之类的输入设备1209。其中所述显示器1208和输入设备1209都通过连接到系统总线1205的输入输出控制器1210连接到中央处理单元1201。所述基本输入/输出系统1206还可以包括输入输出控制器1210以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1210还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1207通过连接到系统总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。所述大容量存储设备1207及其相关联的计算机可读介质为计算机设备1200提供非易失性存储。也就是说,所述大容量存储设备1207可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory,CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读寄存器(Erasable Programmable Read Only Memory,EPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-OnlyMemory,EEPROM)闪存或其他固态存储其技术,CD-ROM、数字多功能光盘(DigitalVersatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1204和大容量存储设备1207可以统称为存储器。
根据本公开的各种实施例,所述计算机设备1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1200可以通过连接在所述系统总线1205上的网络接口单元1211连接到网络1212,或者说,也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集存储于存储器中,中央处理器1201通过执行该至少一条指令、至少一段程序、代码集或指令集来实现上述各个实施例所示的基于云技术的信息搜索的方法中的全部或者部分步骤。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (10)

1.一种基于云技术的信息搜索的方法,其特征在于,所述方法包括:
接收目标搜索请求,所述目标搜索请求中包括输入信息,所述输入信息用于匹配相应的搜索结果;
根据所述输入信息的类别,将所述目标搜索请求转发至对应的目标搜索引擎中,所述目标搜索引擎是服务器中至少两个搜索引擎中的一个,所述至少两个搜索引擎对应的所述输入信息的类别不同;
根据目标索引,指令所述目标搜索引擎对所述输入信息进行搜索,所述目标索引是按照目标上下文信息建立的索引,所述目标上下文信息是所述目标搜索引擎的数据源的上下文信息,所述数据源是非结构化的云端数据源;
输出所述目标搜索引擎得到的搜索结果,所述搜索结果是目标数据源中对应所述目标索引的节选内容。
2.根据权利要求1所述的方法,其特征在于,所述输出所述目标搜索引擎得到的搜索结果,所述搜索结果是目标数据源中对应所述目标索引的节选内容,包括:
响应于作为文档搜索引擎的所述目标搜索引擎,输出示所述文档搜索引擎得到的段落结果,所述段落结果是所述目标数据源中对应所述目标索引的段落。
3.根据权利要求2所述的方法,其特征在于,在所述接收目标搜索请求之前,所述方法还包括:
获取所述目标搜索引擎的所有者标识;
在云端获取所述所有者标识的数据源集群;
根据所述数据源集群,向所述目标搜索所引擎存入所述目标搜索引擎的数据源;
根据所述目标搜索引擎的数据源,建立所述目标索引;
将所述目标索引与所述目标搜索引擎的数据源进行关联,并存储在所述目标搜索引擎中。
4.根据权利要求3所述的方法,其特征在于,所述根据所述数据源集群,向所述目标搜索所引擎存入所述目标搜索引擎的数据源,包括:
响应于所述目标搜索引擎首次存入所述目标搜索引擎的数据源,将所述数据源集群的数据源全量存入所述目标搜索所引擎;
或,
响应于所述目标搜索引擎已存有所述数据源集群数据源的场景,生成数据源更改事件,所述数据源更改事件用于指示删除已有的所述数据源、增加新的数据源或修改以后的所述数据源中的任一事件及对应的数据。
5.根据权利要求2所述的方法,其特征在于,所述响应于作为文档搜索引擎的所述目标搜索引擎,输出所述文档搜索引擎得到的段落结果,包括:
响应于作为文档搜索引擎的所述目标搜索引擎,对获得的所述段落结果进行次序重排;
对进行所述次序重排后的所述段落结果,进行答案类型检查;
响应于所述答案类型与作为问题的所述目标搜索请求的匹配情况,通过语音回答的方式输出对应的语音。
6.根据权利要求5所述的方法,其特征在于,所述响应于所述答案类型与作为问题的所述目标搜索请求的匹配情况,通过语音回答的方式输出对应的语音,包括:
响应于所述答案类型与作为问题的所述目标搜索请求匹配的场景,通过语音回答的方式输出所述次序重排后的所述段落结果;
或,
响应于所述答案类型与作为问题的所述目标搜索请求不匹配的场景,生成对应的拒识语音;
输出所述拒识语音。
7.根据权利要求1至6任一所述的方法,其特征在于,所述根据目标索引,指令所述目标搜索引擎对所述输入信息进行搜索,包括:
从所述目标搜索请求中获取发起者的用户标识;
确定所述用户标识对应的搜索权限;
根据所述搜索权限从所述目标搜索引擎的数据源中确定有权数据源;
根据所述目标索引,指令所述目标搜索引擎在所述有权数据源中对所述输入信息进行搜索。
8.一种基于云技术的信息搜索的装置,其特征在于,所述装置包括:
请求接收模块,用于接收目标搜索请求,所述目标搜索请求中包括输入信息,所述输入信息用于匹配相应的搜索结果;
请求转发模块,用于根据所述输入信息的类别,将所述目标搜索请求转发至对应的目标搜索引擎中,所述目标搜索引擎是服务器中至少两个搜索引擎中的一个,所述至少两个搜索引擎对应的所述输入信息的类别不同;
信息搜索模块,用于根据目标索引,指令所述目标搜索引擎对所述输入信息进行搜索,所述目标索引是按照目标上下文信息建立的索引,所述目标上下文信息是所述目标搜索引擎的数据源的上下文信息,所述数据源是非结构化的云端数据源;
结果输出模块,用于输出所述目标搜索引擎得到的搜索结果,所述搜索结果是目标数据源中对应所述目标索引的节选内容。
9.一种计算机设备,其特征在于,所述计算机设备包含处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一所述的基于云技术的信息搜索的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一所述的基于云技术的信息搜索的方法。
CN202010130414.1A 2020-02-28 2020-02-28 基于云技术的信息搜索的方法、装置、设备及存储介质 Active CN111339421B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010130414.1A CN111339421B (zh) 2020-02-28 2020-02-28 基于云技术的信息搜索的方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010130414.1A CN111339421B (zh) 2020-02-28 2020-02-28 基于云技术的信息搜索的方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111339421A true CN111339421A (zh) 2020-06-26
CN111339421B CN111339421B (zh) 2023-02-28

Family

ID=71181913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010130414.1A Active CN111339421B (zh) 2020-02-28 2020-02-28 基于云技术的信息搜索的方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111339421B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782898A (zh) * 2020-07-07 2020-10-16 华青融天(北京)软件股份有限公司 数据源搜索方法、装置和电子设备
CN112084393A (zh) * 2020-09-09 2020-12-15 北京百度网讯科技有限公司 用于输出信息的方法、装置、设备以及存储介质
CN112527954A (zh) * 2020-12-03 2021-03-19 武汉联影医疗科技有限公司 非结构化数据全文搜索方法、系统及计算机设备
CN112559926A (zh) * 2020-12-22 2021-03-26 北京百度网讯科技有限公司 搜索展示条目的上线处理方法、装置、设备、介质及产品
CN112749238A (zh) * 2020-12-30 2021-05-04 北京金堤征信服务有限公司 搜索排序方法、装置、电子设备以及计算机可读存储介质
CN112785400A (zh) * 2021-01-12 2021-05-11 四川天行健穗金科技有限公司 一种用于去财税数据的智能检索方法及系统
CN112800317A (zh) * 2021-02-04 2021-05-14 北京易车互联信息技术有限公司 面向汽车垂直领域的搜索平台架构
CN112965987A (zh) * 2021-03-31 2021-06-15 华申数科(北京)信息科技有限责任公司 一种数字新治理业务的带权限高效模糊检索的方法及应用
CN113010771A (zh) * 2021-02-19 2021-06-22 腾讯科技(深圳)有限公司 搜索引擎中的个性化语义向量模型的训练方法及装置
CN113378030A (zh) * 2021-05-18 2021-09-10 上海德衡数据科技有限公司 搜索引擎的搜索方法、搜索引擎架构、设备及存储介质
CN113723907A (zh) * 2021-08-05 2021-11-30 中核武汉核电运行技术股份有限公司 一种基于核电备件管理的es快速查询方法及系统
CN114154026A (zh) * 2021-11-12 2022-03-08 北京达佳互联信息技术有限公司 数据处理方法、装置、电子设备及存储介质
CN114510534A (zh) * 2022-01-28 2022-05-17 广东航宇卫星科技有限公司 数据同步方法、装置、设备及存储介质
CN114840671A (zh) * 2022-04-29 2022-08-02 北京百度网讯科技有限公司 对话生成方法、模型的训练方法、装置、设备及介质
CN115129921A (zh) * 2022-06-30 2022-09-30 重庆紫光华山智安科技有限公司 图片检索方法、装置、电子设备和计算机可读存储介质
CN111782898B (zh) * 2020-07-07 2024-05-24 华青融天(北京)软件股份有限公司 数据源搜索方法、装置和电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100042602A1 (en) * 2008-08-15 2010-02-18 Smyros Athena A Systems and methods for indexing information for a search engine
CN102033910A (zh) * 2010-11-19 2011-04-27 福建富士通信息软件有限公司 一种基于多数据源的企业搜索引擎技术
CN103412933A (zh) * 2013-08-20 2013-11-27 南京物联网应用研究院有限公司 一种云搜索平台
CN104778200A (zh) * 2015-01-13 2015-07-15 东莞中山大学研究院 一种结合历史数据的异构处理大数据检索的方法
CN108121709A (zh) * 2016-11-28 2018-06-05 中兴通讯股份有限公司 一种搜索处理方法及装置
CN109086344A (zh) * 2018-07-12 2018-12-25 广州市闲愉凡生信息科技有限公司 一种云计算平台的全文检索的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100042602A1 (en) * 2008-08-15 2010-02-18 Smyros Athena A Systems and methods for indexing information for a search engine
CN102033910A (zh) * 2010-11-19 2011-04-27 福建富士通信息软件有限公司 一种基于多数据源的企业搜索引擎技术
CN103412933A (zh) * 2013-08-20 2013-11-27 南京物联网应用研究院有限公司 一种云搜索平台
CN104778200A (zh) * 2015-01-13 2015-07-15 东莞中山大学研究院 一种结合历史数据的异构处理大数据检索的方法
CN108121709A (zh) * 2016-11-28 2018-06-05 中兴通讯股份有限公司 一种搜索处理方法及装置
CN109086344A (zh) * 2018-07-12 2018-12-25 广州市闲愉凡生信息科技有限公司 一种云计算平台的全文检索的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AASHLESHA B等: "Effective Genre Classification - Understanding Url And Webpage Attributes For Classification", 《INTERNATIONAL JOURNAL OF RECENT TECHNOLOGY AND ENGINEERING》 *
楼凤丹等: "基于云计算及大数据技术的电力搜索引擎技术研究", 《电网与清洁能源》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782898A (zh) * 2020-07-07 2020-10-16 华青融天(北京)软件股份有限公司 数据源搜索方法、装置和电子设备
CN111782898B (zh) * 2020-07-07 2024-05-24 华青融天(北京)软件股份有限公司 数据源搜索方法、装置和电子设备
CN112084393A (zh) * 2020-09-09 2020-12-15 北京百度网讯科技有限公司 用于输出信息的方法、装置、设备以及存储介质
CN112527954A (zh) * 2020-12-03 2021-03-19 武汉联影医疗科技有限公司 非结构化数据全文搜索方法、系统及计算机设备
CN112559926A (zh) * 2020-12-22 2021-03-26 北京百度网讯科技有限公司 搜索展示条目的上线处理方法、装置、设备、介质及产品
CN112559926B (zh) * 2020-12-22 2023-10-03 北京百度网讯科技有限公司 搜索展示条目的上线处理方法、装置、设备、介质及产品
CN112749238A (zh) * 2020-12-30 2021-05-04 北京金堤征信服务有限公司 搜索排序方法、装置、电子设备以及计算机可读存储介质
CN112785400A (zh) * 2021-01-12 2021-05-11 四川天行健穗金科技有限公司 一种用于去财税数据的智能检索方法及系统
CN112800317A (zh) * 2021-02-04 2021-05-14 北京易车互联信息技术有限公司 面向汽车垂直领域的搜索平台架构
CN113010771A (zh) * 2021-02-19 2021-06-22 腾讯科技(深圳)有限公司 搜索引擎中的个性化语义向量模型的训练方法及装置
CN113010771B (zh) * 2021-02-19 2023-08-22 腾讯科技(深圳)有限公司 搜索引擎中的个性化语义向量模型的训练方法及装置
CN112965987A (zh) * 2021-03-31 2021-06-15 华申数科(北京)信息科技有限责任公司 一种数字新治理业务的带权限高效模糊检索的方法及应用
CN113378030A (zh) * 2021-05-18 2021-09-10 上海德衡数据科技有限公司 搜索引擎的搜索方法、搜索引擎架构、设备及存储介质
CN113378030B (zh) * 2021-05-18 2022-09-20 上海德衡数据科技有限公司 搜索引擎的搜索方法、搜索引擎架构、设备及存储介质
CN113723907A (zh) * 2021-08-05 2021-11-30 中核武汉核电运行技术股份有限公司 一种基于核电备件管理的es快速查询方法及系统
CN114154026A (zh) * 2021-11-12 2022-03-08 北京达佳互联信息技术有限公司 数据处理方法、装置、电子设备及存储介质
CN114510534A (zh) * 2022-01-28 2022-05-17 广东航宇卫星科技有限公司 数据同步方法、装置、设备及存储介质
CN114840671A (zh) * 2022-04-29 2022-08-02 北京百度网讯科技有限公司 对话生成方法、模型的训练方法、装置、设备及介质
CN115129921A (zh) * 2022-06-30 2022-09-30 重庆紫光华山智安科技有限公司 图片检索方法、装置、电子设备和计算机可读存储介质
CN115129921B (zh) * 2022-06-30 2023-05-26 重庆紫光华山智安科技有限公司 图片检索方法、装置、电子设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN111339421B (zh) 2023-02-28

Similar Documents

Publication Publication Date Title
CN111339421B (zh) 基于云技术的信息搜索的方法、装置、设备及存储介质
JP7201730B2 (ja) 意図推薦方法、装置、機器及び記憶媒体
US10565234B1 (en) Ticket classification systems and methods
US20210271694A1 (en) Similarity sharding
US20090319515A1 (en) System and method for managing entity knowledgebases
US20160275196A1 (en) Semantic search apparatus and method using mobile terminal
US10706045B1 (en) Natural language querying of a data lake using contextualized knowledge bases
CN110097278B (zh) 一种科技资源智能共享融合训练系统和应用系统
US9940355B2 (en) Providing answers to questions having both rankable and probabilistic components
CN113392227A (zh) 面向轨道交通领域的元数据知识图谱引擎系统
EP3598436A1 (en) Structuring and grouping of voice queries
EP4182813A1 (en) Enterprise knowledge graph building with mined topics and relationships
US11461680B2 (en) Identifying attributes in unstructured data files using a machine-learning model
WO2022019973A1 (en) Enterprise knowledge graphs using enterprise named entity recognition
US9063957B2 (en) Query systems
CN111899822B (zh) 医疗机构数据库构建方法、查询方法、装置、设备和介质
US10706030B2 (en) Utilizing artificial intelligence to integrate data from multiple diverse sources into a data structure
WO2021186287A1 (en) Vector embedding models for relational tables with null or equivalent values
CN112100216A (zh) 创意关键词的处理方法和装置
CN114880483A (zh) 一种元数据知识图谱构建方法、存储介质及系统
US20210110109A1 (en) Automated Constraint Extraction and Testing
US20220035792A1 (en) Determining metadata of a dataset
CN113779215A (zh) 数据处理平台
CN113377739A (zh) 知识图谱应用方法、平台、电子设备及存储介质
Sadirmekova et al. Development of an information system model designed to support scientific and educational activities

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40024413

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant