CN111814028A - 一种信息搜索方法及装置 - Google Patents
一种信息搜索方法及装置 Download PDFInfo
- Publication number
- CN111814028A CN111814028A CN202010963547.7A CN202010963547A CN111814028A CN 111814028 A CN111814028 A CN 111814028A CN 202010963547 A CN202010963547 A CN 202010963547A CN 111814028 A CN111814028 A CN 111814028A
- Authority
- CN
- China
- Prior art keywords
- search
- feature vector
- target
- identifier
- library
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种信息搜索方法及装置,涉及人工智能技术领域,该方法包括:特征向量库预先保存搜索库中每个多媒体内容的标识对应的特征向量,基于搜索条件从搜索库中获取与搜索条件关联的多个多媒体内容的目标标识后,可以基于每个目标标识查询特征向量库,获得每个目标标识对应的特征向量,进而根据搜索条件对应的特征向量和每个目标标识对应的特征向量从多个多媒体内容的目标标识中确定搜索条件的搜索结果,而不需要在线计算与搜索条件关联的每个多媒体内容的目标标识,从而减少了在线实时计算的资源消耗,提高了搜索的时效性,同时提高了搜索的准确性。
Description
技术领域
本发明实施例涉及人工智能技术领域,尤其涉及一种信息搜索方法及装置。
背景技术
用户经常在互联网的海量信息中搜索需要的信息,搜索引擎已成为用户的生活中和工作中必不可少的工具。所谓搜索引擎,就是根据用户需求与一定算法,运用特定策略从互联网检索出相关文本,然后反馈给用户的一门检索技术。其中,搜索引擎中的一项关键技术,即确定用户输入的搜索信息与候选文本的相关性。由于候选文本的数据量较大,在线确定用户输入的搜索信息与候选文本的相关性时,耗费的计算资源较多。
发明内容
本申请实施例提供了一种信息搜索方法及装置,用于降低在线搜索的资源消耗,提高搜索的效率。
一方面,本申请实施例提供了一种信息搜索方法,该方法包括:
基于搜索条件从搜索库中获取与所述搜索条件关联的多个多媒体内容的目标标识;
基于每个目标标识查询特征向量库,获得每个目标标识对应的特征向量,所述特征向量库中包括所述搜索库中每个多媒体内容的标识对应的特征向量;
根据所述搜索条件对应的特征向量和每个目标标识对应的特征向量,从所述多个多媒体内容的目标标识中确定所述搜索条件的搜索结果。
一方面,本申请实施例提供了一种信息搜索装置,该方法包括:
获取模块,用于基于搜索条件从搜索库中获取与所述搜索条件关联的多个多媒体内容的目标标识;
查询模块,用于基于每个目标标识查询特征向量库,获得每个目标标识对应的特征向量,所述特征向量库中包括所述搜索库中每个多媒体内容的标识对应的特征向量;
匹配模块,用于根据所述搜索条件对应的特征向量和每个目标标识对应的特征向量,从所述多个多媒体内容的目标标识中确定所述搜索条件的搜索结果。
可选地,所述匹配模块具体用于:
根据所述搜索条件对应的特征向量和每个目标标识对应的特征向量,确定所述搜索条件与每个目标标识的相似度;
根据所述搜索条件与每个目标标识的相似度,从所述多个多媒体内容的目标标识中确定所述搜索条件的搜索结果。
可选地,所述匹配模块具体用于:
采用BERT模型对所述搜索条件进行特征提取,获得所述搜索条件对应的特征向量;
根据所述搜索条件对应的特征向量和每个目标标识对应的特征向量,确定所述搜索条件与每个目标标识的余弦相似度值;
将所述搜索条件与每个目标标识的余弦相似度值作为所述搜索条件与每个目标标识的相似度。
一方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述信息搜索方法的步骤。
一方面,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行上述信息搜索方法的步骤。
本申请实施例中,设置特征向量库保存搜索库中每个多媒体内容的标识对应的特征向量,故基于搜索条件从搜索库中获取与搜索条件关联的多个多媒体内容的目标标识后,可以通过查询特征向量库直接获得每个目标标识对应的特征向量,进而根据搜索条件对应的特征向量和每个目标标识对应的特征向量确定搜索结果,而不需要在线计算每个目标标识对应的特征向量,从而减少了在线实时计算的资源消耗,提高了搜索的时效性,同时提高了搜索的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种搜索页面的示意图;
图2为本申请实施例提供的一种搜索页面的示意图;
图3为本申请实施例提供的一种搜索结果页面的示意图;
图4为本申请实施例提供的一种购物首页的示意图;
图5为本申请实施例提供的一种购物首页的示意图;
图6为本申请实施例提供的一种搜索结果页面的示意图;
图7为本申请实施例提供的一种系统架构的示意图;
图8为本申请实施例提供的一种信息搜索方法的流程示意图;
图9为本申请实施例提供的一种BERT模型的结构示意图;
图10为本申请实施例提供的一种特征提取模块的结构示意图;
图11为本申请实施例提供的一种句子对拼接的示意图;
图12为本申请实施例提供的一种句子对拼接的示意图;
图13为本申请实施例提供的一种句子对拼接的示意图;
图14为本申请实施例提供的一种确定搜索结果的方法的流程示意图;
图15为本申请实施例提供的一种搜索页面的示意图;
图16为本申请实施例提供的一种搜索结果页面的示意图;
图17为本申请实施例提供的一种信息搜索装置的结构示意图;
图18为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了方便理解,下面对本发明实施例中涉及的名词进行解释。
人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。比如,本申请实施例中采用NLP确定搜索词条对应的多媒体内容。
BERT:(Bidirectional Encoder Representations from Transformers),即双向Transformer的Encoder,增加词向量模型泛化能力,充分描述字符级、词级、句子级甚至句间关系特征。Transformer模型是2018年5月提出的,可以替代传统循环神经网络(Recurrent Neural Network,RNN)和卷积神经网络(Convolutional Neural Networks,CNN)的一种新的架构,用来实现机器翻译。Transformer模型包括Encoder(编码器)和Decoder(解码器)。
词向量:要将自然语言交给机器学习中的算法来处理,通常需要将自然语言数学化,词向量就是用来将自然语言中的词进行数学化的一种方式。通过训练将某种语言中的每一个词映射成一个固定长度的短向量,将所有这些向量放在一起形成一个词向量空间,而每一向量则为该空间中的一个点,在这个空间上引入“距离”,则可以根据词之间的距离来判断它们之间的(词法、语义上的)相似性。如我们将“美丽”,“漂亮”两词映射到300维度的向量上去,分别记为vector1,vector2。然后我们就可以通过算内积来确定其相似性,给出一个具体的度量数值。
句向量:类似于词向量,将句子转化成句向量。
Redis:(Remote Dictionary Server)是一个由Salvatore Sanfilippo写的key-value(关键字-值)存储系统。由于基于字典存储的,redis的查找极其快捷,可以实现每秒10万次的调用,若是采用批处理的方式,可以达到每秒百万次的调用速度。
fine-tuned:微调,在深度学习算法中,引用的初始模型一般是经过大量样本训练后得到的,所以本身就可以直接拿过来进行使用。但是不同的任务之间的侧重点不一样,数据的分布也大不相同,因此在初始模型的基础上进行新的训练,以适配目标场景的数据。
下面对本申请实施例的设计思想进行介绍。
用户经常在互联网的海量信息中搜索需要的信息,搜索引擎已成为用户的生活中和工作中必不可少的工具。所谓搜索引擎,就是根据用户需求与一定算法,运用特定策略从互联网检索出相关文本,然后反馈给用户的一门检索技术。其中,搜索引擎中的一项关键技术,即确定用户输入的搜索词条与候选文本的相关性。
由于候选文本的数据量较大,故在线确定用户输入的搜索词条与候选文本的相关性时,耗费的计算资源较多。比如采用BERT模型进行搜索词条与候选文本的相关性预测时,由于其深层的网络结构和庞大的参数量,如果要部署上线,需要部署大量的计算资源。通过对BERT模型进行模型剪枝,将模型剪裁为4层Transfomer结构以及对搜索词条进行正则处理,要实现压测服务的TP999达到了12-14毫秒的上线要求,仍需要30张图形处理器(Graphics Processing Unit,GPU)线上卡参与运算,资源耗费较高。
通过分析发现,每个句子都可以转化为一个句向量,可以通过计算两个句向量之间相似度来确定两个句子之间的相关性。当两对句子之间没有共同的句子时,直接根据相似度比较两对句子中哪对句子的相关性更高并没有意义。比如,在相似度(句子1,句子2)>相似度(句子3,句子4)情况下,并不能说明句子1与句子2之间的相关性比句子3与句子4之间的相关性更高。而当两对句子之间存在共同的句子时,则可以根据相似度比较两对句子中哪对句子的相关性更高。比如,当相似度(句子1,句子2)>相似度(句子1,句子3),可以获知相对于句子3而言,句子2与句子1更相关。
对于搜索引擎而言,要比较召回的候选文本和搜索词条之间的相关性时,搜索词条是不变的,即比较的各个句子对包括共同的句子(搜索词条),故只需要获取各个候选文本对应的句向量即可比较各个候选文本与搜索词条之间的相关性。考虑到在线计算候选文本对应的句向量时,由于候选文本的数量较多,同时需要兼顾搜索的时效性,从而导致资源耗费较高。若离线计算候选文本对应的句向量,由于不考虑搜索的时效性,故能达到降低资源消耗的效果。另外,通过一次计算获得的候选文本对应的句向量,可以重复用于判断候选文本与搜索词条的相关性,因此,可以将离线计算获得的候选文本对应的句向量保存在数据库中。
鉴于此,本申请实施例提供了一种信息搜索方法,该方法包括:基于搜索条件从搜索库中获取与搜索条件关联的多个多媒体内容的目标标识,然后基于每个目标标识查询特征向量库,获得每个目标标识对应的特征向量,特征向量库中包括搜索库中每个多媒体内容的标识对应的特征向量。之后再根据搜索条件对应的特征向量和每个目标标识对应的特征向量,从多个多媒体内容的目标标识中确定搜索条件的搜索结果。
本申请实施例中,特征向量库预先保存搜索库中每个多媒体内容的标识对应的特征向量,故基于搜索条件从搜索库中获取与搜索条件关联的多个多媒体内容的目标标识后,可以通过查询特征向量库直接获得每个目标标识对应的特征向量,进而根据搜索条件对应的特征向量和每个目标标识对应的特征向量确定搜索结果,而不需要在线计算每个目标标识对应的特征向量,从而减少了在线实时计算的资源消耗,提高了搜索的时效性,同时提高了搜索的准确性。
下面对本申请实施例中的信息搜索方法所适用的场景进行示例介绍。
场景一、在网页搜索场景中。
终端预先安装浏览器应用,用户启动浏览器应用后,浏览器应用显示搜索页面,如图1所示,搜索页面中包括搜索框、“确定”按钮。用户在搜索框中输入“A学校招生”后,点击确定按钮,如图2所示。终端发送搜索请求给服务器,搜索请求中包括搜索词条“A学校招生”。服务器根据搜索词条“A学校招生”,从搜索库中获取与搜索词条“A学校招生”关联的多个网页的目标标识,然后基于每个目标标识查询特征向量库,获得每个目标标识对应的特征向量,特征向量库中包括搜索库中每个网页的标识对应的特征向量。之后再根据搜索词条“A学校招生”对应的特征向量和每个目标标识对应的特征向量,从多个网页的目标标识中确定推荐给用户的目标网页的标识。服务器根据各个目标网页的标识获取各个目标网页的内容,并基于各个目标网页的内容生成搜索结果页面的数据。然后将搜索结果页面的数据发送给终端。终端根据搜索结果页面的数据渲染搜索结果页面,如图3所示,搜索结果页面中包括A学校招生官网的网页链接、A学校分数线查询网站的网页链接、A学校官网的网页链接。
场景二、在商品信息搜索场景中。
终端预先安装购物应用,用户启动购物应用后,购物应用显示购物首页,如图4所示,购物首页中包括搜索框、“搜索”按钮、商品类别以及推荐的商品的信息。用户在搜索框中输入“当季水果”后,点击“搜索”按钮,如图5所示。终端发送搜索请求给服务器,搜索请求中包括搜索词条“当季水果”。服务器根据搜索词条“当季水果”,从搜索库中获取与搜索词条“当季水果”关联的多个商品购买页面的目标标识,然后基于每个目标标识查询特征向量库,获得每个目标标识对应的特征向量,特征向量库中包括搜索库中每个商品购买页面的标识对应的特征向量。之后再根据搜索词条“当季水果”对应的特征向量和每个目标标识对应的特征向量,从多个商品购买页面的目标标识中确定推荐给用户的目标商品购买页面的标识。服务器根据各个目标商品购买页面的标识获取各个目标商品购买页面的内容,并基于各个目标商品购买页面的内容生成搜索结果页面的数据。然后将搜索结果页面的数据发送给终端。终端根据搜索结果页面的数据渲染搜索结果页面,如图6所示,搜索结果页面中包括菠萝的购买页面链接、葡萄的购买页面链接、草莓的购买页面链接和香蕉的购买页面链接。
需要说明的是,本申请实施例中的信息搜索方法并不仅限于应用在上述两种应用场景,还可以是外卖搜索场景、商户信息搜索场景、音视频搜索场景等以文本信息作为搜索条件的信息搜索场景。另外,本申请实施例中搜索条件也不仅限于文本信息,也可以是图像、音频等信息,比如以图搜图场景等,对此,本申请不做具体限定。
参考图7,其为本申请实施例适用的一种系统架构图,该系统架构至少包括终端701、服务器702、搜索库703和特征向量库704。
终端701预先安装具备搜索功能的应用,比如浏览器、购物应用、外卖应用、音视频应用等。终端701可以包括一个或多个处理器7011、存储器7012、与服务器702交互的I/O接口7013以及显示面板7014等。终端701可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。
服务器702为具备搜索功能的应用对应的后台服务器,为具备搜索功能的应用提供服务,其中,提供的服务包括但不限于搜索服务。服务器702可以包括一个或多个处理器7021、存储器7022以及与终端701交互的I/O接口7023等。此外,服务器702还可以配置数据库7024。服务器702可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端701与服务器702可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
用户在具备搜索功能的应用中输入搜索条件并提交,具备搜索功能的应用通过终端701发送搜索请求给服务器702,其中,搜索请求中携带搜索条件。服务器702基于搜索条件从搜索库703中获取与搜索条件关联的多个多媒体内容的目标标识。然后基于每个目标标识查询特征向量库704,获得每个目标标识对应的特征向量,特征向量库704中包括搜索库703中每个多媒体内容的标识对应的特征向量。搜索库703和特征向量库704可以是独立于服务器702的数据库,服务器702分别与搜索库703和特征向量库704通信连接;搜索库703和特征向量库704也可以是服务器702内部的数据库;还可以是搜索库703和特征向量库704中一个为独立于服务器702的数据库,另一个为服务器702内部的数据库,对此,本申请不做具体限定。
服务器702根据搜索条件对应的特征向量和每个目标标识对应的特征向量,从多个多媒体内容的目标标识中确定搜索条件的搜索结果,然后根据搜索结果获取对应的多媒体内容,之后再将搜索结果对应的多媒体内容发送给终端701,终端701显示搜索结果对应的多媒体内容。
基于图7所示的系统架构图,本申请实施例提供了一种信息搜索方法的流程,如图8所示,该方法的流程由计算机设备执行,该计算机设备可以是图7所示的终端701或服务器702,包括以下步骤:
步骤S801,基于搜索条件从搜索库中获取与搜索条件关联的多个多媒体内容的目标标识。
具体地,搜索条件可以是搜索词条、图像、音视频等。搜索库中保存可被搜索的多媒体内容的标识,其中,多媒体内容包括文本信息、图像、音视频等。多媒体内容的标识可以是标题、摘要、编号等文本信息,也可以是图像、音视频等非文本信息。
步骤S802,基于每个目标标识查询特征向量库,获得每个目标标识对应的特征向量。
具体地,特征向量库中包括搜索库中每个多媒体内容的标识对应的特征向量,特征向量可以是词向量、句向量、图像的特征向量、音频的特征向量等。特征向量库将每个多媒体内容的标识与每个多媒体内容的标识对应的特征向量对应保存。
步骤S803,根据搜索条件对应的特征向量和每个目标标识对应的特征向量,从多个多媒体内容的目标标识中确定搜索条件的搜索结果。
具体地,搜索条件的搜索结果可以是多个多媒体内容的目标标识中的一个或多个目标标识。在确定搜索结果后,可以获取搜索结果对应的多媒体内容,然后将搜索结果对应的多媒体内容反馈给终端。
本申请实施例中,设置特征向量库保存搜索库中每个多媒体内容的标识对应的特征向量,故基于搜索条件从搜索库中获取与搜索条件关联的多个多媒体内容的目标标识后,可以通过查询特征向量库直接获得每个目标标识对应的特征向量,进而根据搜索条件对应的特征向量和每个目标标识对应的特征向量确定搜索结果,而不需要在线计算每个目标标识对应的特征向量,从而减少了在线实时计算的资源消耗,提高了搜索的时效性,同时提高了搜索的准确性。
可选地,在上述步骤S801中,当搜索条件为搜索词条时,信息搜索装置基于搜索条件从搜索库中获取与搜索条件关联的多个多媒体内容的目标标识,具体包括以下步骤:
将搜索词条与搜索库中每个多媒体内容的标识进行文本匹配,获得与搜索词条关联的多个多媒体内容的目标标识。
一种可能的实施方式,将搜索词条进行分词处理,获得搜索词条对应的多个分词,然后将每个分词与搜索库中每个多媒体内容的标识进行文本匹配,获得与每个分词关联的多媒体内容的目标标识,然后从各个分词关联的多媒体内容的目标标识中选取满足预设条件的目标标识作为与搜索词条关联的多媒体内容的目标标识。
示例性地,设定搜索词条为“A学校招生”,将搜索词条进行分词处理,获得分词“A学校”和分词“招生”。然后将分词“A学校”与搜索库中每个多媒体内容的标识进行文本匹配,获得与分词“A学校”关联的M个多媒体内容的目标标识。将分词“招生”与搜索库中多个多媒体内容的标识进行文本匹配,获得与分词“招生”关联的N个多媒体内容的目标标识。每个目标标识对应一个匹配分值,匹配分值越高,说明目标标识与分词的关联度越高。最后从与分词“A学校”关联的M个目标标识中,按照匹配分值从高到低的顺序选取L个目标标识;从与分词“招生”关联的N个目标标识中,按照匹配分值从高到低的顺序选取P个目标标识;将选取的L+P个目标标识作为与搜索词条“A学校招生”关联的多媒体内容的目标标识,其中L、M、N、P为正整数。
一种可能的实施方式,将搜索词条进行分词处理,获得搜索词条对应的多个分词,然后对搜索词条对应的分词进行描述调整和冗余处理,其中描述调整指将分词的描述方式调整为搜索库中的标识对应的描述方式,比如,将简称修改为全称,将用户因失误操作输入的错误分词修改为正确的分词等,冗余处理指去除多个分词中对搜索结果没有影响的分词。之后再将保留的每个分词与搜索库中每个多媒体内容的标识进行文本匹配,获得与每个分词关联的多媒体内容的目标标识。最后从各个分词关联的多媒体内容的目标标识中选取满足预设条件的目标标识作为与搜索词条关联的多媒体内容的目标标识。
示例性地,设定搜索词条为“水彩花教程”,将搜索词条进行分词处理,获得分词“水彩花”和分词“教程”,根据分词“教程”可以获知用户需要搜索的是水彩画的教程,因此将分词“水彩花”判定为错误分词,然后将分词“水彩花”修改为分词“水彩画”。将分词“水彩画”与搜索库中每个多媒体内容的标识进行文本匹配,获得与分词“水彩画”关联的J个多媒体内容的目标标识。将分词“教程”与搜索库中每个多媒体内容的标识进行文本匹配,获得与分词“教程”关联的K个多媒体内容的目标标识。每个目标标识对应一个匹配分值,匹配分值越高,说明目标标识与分词的关联度越高。最后将与分词“水彩画”关联的J个目标标识以及与分词“教程”关联的K个目标标识中,匹配分值大于预设阈值的目标标识,作为与搜索词条“水彩花教程”关联的多媒体内容的目标标识。
一种可能的实施方式,将搜索词条进行分词处理,获得搜索词条对应的多个分词,然后对搜索词条对应的分词进行分词扩展,比如获取分词对应的近义词、关联词等。之后再将搜索词条对应的分词以及扩展获得的分词,与搜索库中每个多媒体内容的标识进行文本匹配,获得每个分词关联的多媒体内容的目标标识。最后从各个分词关联的多媒体内容的目标标识中选取满足预设条件的目标标识作为与搜索词条关联的多媒体内容的目标标识。
示例性地,设定搜索词条为“动物园熊猫”,将搜索词条进行分词处理,获得分词“动物园”和分词“熊猫”。由于熊猫与成都的关联性较高,故可以对分词“熊猫”进行分词扩展,获得分词“成都”。然后将分词“动物园”与搜索库中每个多媒体内容的标识进行文本匹配,获得与分词“水彩画”关联的X个多媒体内容的目标标识;将分词“熊猫”与搜索库中每个多媒体内容的标识进行文本匹配,获得与分词“熊猫”关联的Y个多媒体内容的目标标识;将分词“成都”与搜索库中每个多媒体内容的标识进行文本匹配,获得与分词“成都”关联的Z个多媒体内容的目标标识。最后将与分词“动物园”关联的X个多媒体内容的目标标识、与分词“熊猫”关联的Y个多媒体内容的目标标识以及与分词“成都”关联的Z个多媒体内容的目标标识,作为与搜索词条“动物园熊猫”关联的多媒体内容的目标标识。
需要说明的是,本申请实施例中获得与搜索词条关联的多媒体内容的目标标识的实施方式并不仅限于上述三种实施方式,还可以是其他的实施方式,比如将整个搜索词条与搜索库中每个多媒体内容的标识进行文本匹配,获得与搜索词条关联的多个多媒体内容的目标标识,又比如将上述三种实施方式进行任意组合获得目标标识等,对此,本申请不做具体限定。另外,目标标识需要满足的预设条件也不仅限于上述三个示例中描述的三种,可以根据实际需求进行设置,对此,本申请不做具体限定。
通过将搜索词条与搜索库中的标识进行文本匹配,获得与搜索词条关联的多媒体内容的目标标识,实现了信息搜索的初步筛选,减少了后续特征向量匹配的数据量,从而既提高了搜索的效率,又减少了资源消耗。
可选地,在上述步骤S802中,当多媒体内容的标识为文本信息时,多媒体内容的标识对应的特性向量为词向量或句向量,搜索库中每个多媒体内容的标识对应的特征向量是预先采用BERT模型对搜索库中每个多媒体内容的标识进行特征提取后获得的。
具体地,BERT模型是采用Transformer模型中的编码器作为特征提取模块获得的模型,用于提取文本特征。BERT模型的结构如图9所示,BERT模型包括多个Trm,Trm为BERT模型中的特征提取模块,该特征提取模块可以是Transformer模型中的Encoder(编码器)。将句子进行分词后,对获得的分词进行Embedding(映射)处理,获得每个分词的Embedding向量,分别为E1、E2、…、EN。将E1、E2、…、EN 输入BERT模型中的Trm,BERT模型采用多个Trm对E1、E2、…、EN进行特征提取,获得每个分词的词向量,分别为T1、T2、…、TN。BERT模型的输入可以是一个句子,也可以一个句子对。每个Trm的结构如图10所示,Trm包括注意力机制层(Masked Multi Self Attention)、归一化层(Layer Norm)、前馈神经网络(FeedForward)。
本申请实施例中采用Fine-tune(微调)的方式训练BERT模型,即在基于大量样本训练好的初始BERT模型的基础上,采用搜索场景下的样本数据对初始BERT模型进行微调训练,获得适用于搜索场景下的BERT模型。当然,本申请实施例中也可以直接使用初始BERT模型提取搜索库中每个多媒体内容的标识对应的特征向量,对此,本申请不做具体限定。
具体实施中,搜索场景下的每条样本数据包括句子对以及句子对的关联标签。示例性地,搜索场景下的部分样本数据如表1所示:
表1.
将搜索场景下的样本数据输入初始BERT模型进行微调训练。由于样本数据中包括两个句子,故在对两个句子进行Embedding处理时,需要对两个句子进行拼接,本申请提供以下几种实施方式:
实施方式一、如图11所示,按照句子1、句子2的顺序对句子1和句子2进行拼接,句子1、句子2之间采用定界符隔开,同时在句子1的前面添加开始字符,在句子2的后面添加结束字符。将拼接后的句子对进行分词处理,然后对每个分词进行Embedding处理,获得每个分词的Embedding向量,再将每个分词的Embedding向量输入BERT模型中的Trm,基于Trm输出的词向量预测关联标签。
实施方式二、如图12所示,按照句子2、句子1的顺序对句子1和句子2进行拼接,句子2、句子1之间采用定界符隔开,同时在句子2的前面添加开始字符,在句子1的后面添加结束字符。将拼接后的句子对进行分词处理,然后对每个分词进行Embedding处理,获得每个分词的Embedding向量,再将每个分词的Embedding向量输入BERT模型中的Trm,基于Trm输出的词向量预测关联标签。
实施方式三、如图13所示,先按照句子1、句子2的顺序对句子1和句子2进行拼接,句子1、句子2之间采用定界符隔开,同时在句子1的前面添加开始字符,在句子2的后面添加结束字符,获得第一句子对。将拼接后的第一句子对进行分词处理,然后对每个分词进行Embedding处理,获得每个分词的Embedding向量,再将每个分词的Embedding向量输入BERT模型中的Trm。
按照句子2、句子1的顺序对句子1和句子2进行拼接,句子2、句子1之间采用定界符隔开,同时在句子2的前面添加开始字符,在句子1的后面添加结束字符,获得第二句子对。将拼接后的第二句子对进行分词处理,然后对每个分词进行Embedding处理,获得每个分词的Embedding向量,再将每个分词的Embedding向量输入BERT模型中的Trm。之后再将Trm两次输出的词向量进行融合,获得融合特征,基于融合特征预测关联标签。
在训练获得适用于搜索场景下的BERT模型后,针对搜索库中每个多媒体内容的标识,将多媒体内容的标识进行分词,对获得的分词进行Embedding处理,获得每个分词的Embedding向量。将每个分词的Embedding向量输入BERT模型,BERT模型采用多个Trm对每个分词的Embedding向量进行特征提取,获得每个分词的词向量。之后再将每个分词的词向量组合,获得多媒体内容的标识对应的句向量。
需要说明的是,本申请实施中多媒体内容的标识并不仅限于文本信息,也可以是图像、音视频等非文本信息。当多媒体内容的标识为图像、音视频等非文本信息,可以采用卷积神经网络对搜索库中每个多媒体内容的标识进行特征提取,获得搜索库中每个多媒体内容的标识对应的特征向量,对此,本申请不做具体限定。
本申请实施例中,由于离线采用BERT模型提取搜索库中每个多媒体内容的标识对应的特征向量并保存在特征向量库,不需要考虑时效性,降低了对计算资源的要求。在线搜索时可以直接从特征向量库中获取多媒体内容的标识对应的特征向量,而不需要在线计算,从而减少了在线实时计算的资源消耗,提高了搜索的时效性,同时提高了搜索的准确性。
下面介绍几种更新特征向量库的实施方式:
一种可能的实施方式,当搜索库中新增多媒体内容的标识时,采用BERT模型对新增的多媒体内容的标识进行特征提取,获得新增的多媒体内容的标识对应的特征向量,并将新增的多媒体内容的标识对应的特征向量保存在特征向量库中。
一种可能的实施方式,当搜索库中的多媒体内容的标识被删除时,根据被删除的多媒体内容的标识查询特征向量库,获得被删除的多媒体内容的标识对应的特征向量,然后从特征向量库中删除被删除的多媒体内容的标识对应的特征向量。
一种可能的实施方式,当搜索库中的多媒体内容的标识被修改时,采用BERT模型对修改后的多媒体内容的标识进行特征提取,获得修改后的多媒体内容的标识对应的特征向量,并将修改后的多媒体内容的标识对应的特征向量保存在特征向量库中。同时,根据修改前的多媒体内容的标识查询特征向量库,获得修改前的多媒体内容的标识对应的特征向量,然后从特征向量库删除修改前的多媒体内容的标识对应的特征向量。
一种可能的实施方式,当BERT模型更新时,采用更新后的BERT模型重新对搜索库中每个多媒体内容的标识进行特征提取,获得每个多媒体内容的标识对应的特征向量,将重新计算获得的每个多媒体内容的标识对应的特征向量保存在特征向量库中,同时删除特征向量库原本保存的特征向量。
本申请实施例中,当搜索库中多媒体内容的标识的变化或BERT模型更新时,实时更新特征向量库,保证了在线搜索时从特征向量库中获得的特征向量的准确性,进而提高搜索的准确性。
可选地,在上述步骤S802中,特征向量库为redis数据库,特征向量库以多媒体内容的标识为关键字key,以多媒体内容的标识对应的特征向量为值value保存搜索库中每个多媒体内容的标识对应的特征向量。
具体地,redis是一个key-value(关键字-值)存储系统,支持存储的value类型包括string(字符串)、list(链表)、set(集合)、hash(哈希类型)等。在线搜索时,可以通过目标标识查询redis数据库,获得目标标识对应的特征向量。由于redis数据库是基于字典存储的,故redis的查找快捷,因此在线搜索时可以快速从redis数据库中获得搜索需要的特征向量,从而提高搜索的效率。
可选地,在上述步骤S803中,信息搜索装置基于搜索条件对应的特征向量和每个目标标识对应的特征向量确定搜索结果时,本申请实施例提供至少提供以下两种实施方式:
一种可能的实施方式,如图14所示,包括以下步骤:
步骤S1401,根据搜索条件对应的特征向量和每个目标标识对应的特征向量,确定搜索条件与每个目标标识的相似度。
具体地,搜索条件与每个目标标识的相似度可以是余弦相似度、欧式距离、海明距离等。
当搜索条件为搜索词条时,可以是采用BERT模型对搜索条件进行特征提取,获得搜索条件对应的特征向量。然后根据搜索条件对应的特征向量和每个目标标识对应的特征向量,确定搜索条件与每个目标标识的余弦相似度值,将搜索条件与每个目标标识的余弦相似度值作为搜索条件与每个目标标识的相似度。
具体实施中,BERT模型可以是基于大量样本训练好的初始BERT模型,也可以是采用Fine-tune的方式训练获得的适用于搜索场景下的BERT模型,采用Fine-tune的方式训练BERT模型的过程在前文已有介绍,此处不再赘述。余弦相似度值是指向量空间中两个向量夹角的余弦值。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似。
需要说明的是,本申请实施中搜索条件并不仅限于搜索词条,也可以是图像、音视频等非文本信息。当搜索条件为图像、音视频等非文本信息,可以采用卷积神经网络对搜索条件进行特征提取,获得搜索条件对应的特征向量,对此,本申请不做具体限定。
步骤S1402,根据搜索条件与每个目标标识的相似度,从多个多媒体内容的目标标识中确定搜索条件的搜索结果。
具体地,可以按照相似度从大到小的顺序,对多个多媒体内容的目标标识进行排序,将排在前W位的目标标识,作为搜索条件的搜索结果,W为预设正整数;也可以将多个多媒体内容的目标标识中,与搜索条件的相似度大于预设阈值的目标标识作为搜索条件的搜索结果。另外,从多个多媒体内容的目标标识中确定搜索条件的搜索结果后,可以根据搜索结果从多媒体库中获取搜索结果对应的多媒体内容,并将搜索结果对应的多媒体内容发送给终端,其中,多媒体库中保存了搜索库中每个标识对应多媒体内容。
本申请实施例中,在线搜索时从特征向量库获得与搜索条件关联的多媒体内容的目标标识对应的特征向量,在线采用BERT模型获得搜索条件对应的特征向量,而不需要同时计算与搜索条件关联的多媒体内容的目标标识以及搜索条件的特征向量,从而提高搜索的效率和准确性,提升用户体验。
另一种可能的实施方式,搜索条件对应的特征向量和每个目标标识对应的特征向量分类模型,确定搜索条件与每个目标标识之间的相似度,根据搜索条件与每个目标标识之间的相似度,从多个多媒体内容的目标标识中确定搜索条件的搜索结果。
当特征向量为词向量或句向量时,分类模型可以是采用Fine-tune的方式训练获得的适用于搜索场景下的BERT模型中的全连接层;当特征向量为图像的特征向量或音频的特征向量时,分类模型可以是采用搜索场景下的样本数据训练获得的卷积神经网络中的全连接层。
可以按照相似度从大到小的顺序,对多个多媒体内容的目标标识进行排序,将排在前W位的目标标识,作为搜索条件的搜索结果,W为预设正整数;也可以将多个多媒体内容的目标标识中,与搜索条件的相似度大于预设阈值的目标标识作为搜索条件的搜索结果。
本申请实施例中,采用搜索场景下的样本数据训练神经网络模型后,既采用神经网络模型提取搜索库中每个多媒体内容的标识对应的特征向量,同时采用神经网络模型确定搜索条件与每个目标标识之间的关联度,从多个多媒体内容的目标标识中确定搜索条件的搜索结果,从而提高了搜索的准确性。
为了更好地解释本申请实施例,下面以网页搜索场景为例,介绍本申请实施例提供的一种信息搜索方法,该方法由终端和服务器交互执行,服务器中包括搜索库和特征向量库,其中,搜索库包括可被搜索的网页的标识,特征向量库中包括搜索库中每个网页的标识对应的句向量。搜索库中每个网页的标识对应的特征向量是离线采用BERT模型对搜索库中每个网页的标识进行特征提取后获得的。在训练BERT模型时,先获取搜索场景下的样本数据,然后采用搜索场景下的样本数据对初始BERT模型进行Fine-tune训练,其中,初始BERT模型是使用大量样本训练好的模型。
在线搜索时,用户启动浏览器应用,用户在搜索页面的搜索框中输入搜索词条“XX公园樱花”,点击确定按钮,如图15所示。终端发送搜索请求给服务器,搜索请求中包括搜索词条“XX公园樱花”。将搜索词条进行分词处理,获得分词“XX公园”和分词“樱花”。然后将分词“XX公园”与搜索库中每个网页的标识进行文本匹配,获得与分词“XX公园”关联的网页的目标标识。将分词“樱花”与搜索库中每个网页的标识进行文本匹配,获得与分词“樱花”关联的网页的目标标识。每个目标标识对应一个匹配分值,匹配分值越高,说明目标标识与分词的关联度越高。从与分词“XX公园”关联的目标标识中,按照匹配分值从高到低的顺序选取200个目标标识;从与分词“樱花”关联的目标标识中,按照匹配分值从高到低的顺序选取200个目标标识;将选取的400个目标标识作为与搜索词条“XX公园樱花”关联的网页的目标标识。
针对400个目标标识中的每个目标标识,基于每个目标标识查询特征向量库,获得每个目标标识对应的句向量,采用BERT模型提取搜索词条“XX公园樱花”对应的句向量。然后根据搜索词条“XX公园樱花”对应的句向量和每个目标标识对应的特征向量,确定搜索词条“XX公园樱花”与每个目标标识的余弦相似度值。按照余弦相似度值从大到小的顺序,对400个目标标识进行排序,将排在前3位的目标标识,作为搜索词条“XX公园樱花”的搜索结果。基于搜索结果查询多媒体库,获得搜索结果对应的网页内容,然后根据搜索结果对应的网页内容生成搜索结果页面的数据。然后将搜索结果页面的数据发送给终端。终端根据搜索结果页面的数据渲染搜索结果页面,如图16所示,搜索结果页面中包括XX公园官网的网页链接、XX公园的购票网页链接、XX公园中的樱花图片的网页链接。
本申请实施例中,设置特征向量库保存搜索库中每个多媒体内容的标识对应的特征向量,故基于搜索条件从搜索库中获取与搜索条件关联的多个多媒体内容的目标标识后,可以通过查询特征向量库直接获得每个目标标识对应的特征向量,进而根据搜索条件对应的特征向量和每个目标标识对应的特征向量确定搜索结果,而不需要在线计算每个目标标识对应的特征向量,从而减少了在线实时计算的资源消耗,提高了搜索的时效性,同时提高了搜索的准确性。
基于相同的技术构思,本申请实施例提供了一种信息搜索装置,如图17所示,该装置1700包括:
获取模块1701,用于基于搜索条件从搜索库中获取与搜索条件关联的多个多媒体内容的目标标识;
查询模块1702,用于基于每个目标标识查询特征向量库,获得每个目标标识对应的特征向量,特征向量库中包括搜索库中每个多媒体内容的标识对应的特征向量;
匹配模块1703,用于根据搜索条件对应的特征向量和每个目标标识对应的特征向量,从多个多媒体内容的目标标识中确定搜索条件的搜索结果。
可选地,搜索条件为搜索词条;
获取模块1701具体用于:
将搜索词条与搜索库中每个多媒体内容的标识进行文本匹配,获得与搜索词条关联的多个多媒体内容的目标标识。
可选地,搜索库中每个多媒体内容的标识对应的特征向量是预先采用BERT模型对搜索库中每个多媒体内容的标识进行特征提取后获得的,BERT模型是采用Transformer模型中的编码器作为特征提取模块获得的模型,用于提取文本特征。
可选地,特征向量库为redis数据库,特征向量库以多媒体内容的标识为关键字key,以多媒体内容的标识对应的特征向量为值value保存搜索库中每个多媒体内容的标识对应的特征向量。
可选地,还包括更新模块1704;
更新模块1704具体用于:
当搜索库中新增多媒体内容的标识时,采用BERT模型对新增的多媒体内容的标识进行特征提取,获得新增的多媒体内容的标识对应的特征向量,并将新增的多媒体内容的标识对应的特征向量保存在特征向量库中。
可选地,匹配模块1703具体用于:
根据搜索条件对应的特征向量和每个目标标识对应的特征向量,确定搜索条件与每个目标标识的相似度;
根据搜索条件与每个目标标识的相似度,从多个多媒体内容的目标标识中确定搜索条件的搜索结果。
可选地,匹配模块1703具体用于:
采用BERT模型对搜索条件进行特征提取,获得搜索条件对应的特征向量;
根据搜索条件对应的特征向量和每个目标标识对应的特征向量,确定搜索条件与每个目标标识的余弦相似度值;
将搜索条件与每个目标标识的余弦相似度值作为搜索条件与每个目标标识的相似度。
本申请实施例中,设置特征向量库保存搜索库中每个多媒体内容的标识对应的特征向量,故基于搜索条件从搜索库中获取与搜索条件关联的多个多媒体内容的目标标识后,可以通过查询特征向量库直接获得每个目标标识对应的特征向量,进而根据搜索条件对应的特征向量和每个目标标识对应的特征向量确定搜索结果,而不需要在线计算每个目标标识对应的特征向量,从而减少了在线实时计算的资源消耗,提高了搜索的时效性,同时提高了搜索的准确性。
基于相同的技术构思,本申请实施例提供了一种计算机设备,计算机设备可以是终端或服务器,如图18所示,包括至少一个处理器1801,以及与至少一个处理器连接的存储器1802,本申请实施例中不限定处理器1801与存储器1802之间的具体连接介质,图18中处理器1801和存储器1802之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。
在本申请实施例中,存储器1802存储有可被至少一个处理器1801执行的指令,至少一个处理器1801通过执行存储器1802存储的指令,可以执行前述信息搜索方法中所包括的步骤。
其中,处理器1801是计算机设备的控制中心,可以利用各种接口和线路连接计算机设备的各个部分,通过运行或执行存储在存储器1802内的指令以及调用存储在存储器1802内的数据,从而进行信息搜索。可选的,处理器1801可包括一个或多个处理单元,处理器1801可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1801中。在一些实施例中,处理器1801和存储器1802可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器1801可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器1802作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器1802可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器1802是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器1802还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
基于同一发明构思,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当程序在计算机设备上运行时,使得计算机设备执行上述信息搜索方法的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (14)
1.一种信息搜索方法,其特征在于,包括:
基于搜索条件从搜索库中获取与所述搜索条件关联的多个多媒体内容的目标标识;
基于每个目标标识查询特征向量库,获得每个目标标识对应的特征向量,所述特征向量库中包括所述搜索库中每个多媒体内容的标识对应的特征向量;
根据所述搜索条件对应的特征向量和每个目标标识对应的特征向量,从所述多个多媒体内容的目标标识中确定所述搜索条件的搜索结果。
2.如权利要求1所述的方法,其特征在于,所述搜索条件为搜索词条;
所述基于搜索条件从搜索库中获取与所述搜索条件关联的多个多媒体内容的目标标识,包括:
将所述搜索词条与所述搜索库中每个多媒体内容的标识进行文本匹配,获得与所述搜索词条关联的多个多媒体内容的目标标识。
3.如权利要求1所述的方法,其特征在于,所述搜索库中每个多媒体内容的标识对应的特征向量是预先采用BERT模型对所述搜索库中每个多媒体内容的标识进行特征提取后获得的,所述BERT模型是采用Transformer模型中的编码器作为特征提取模块获得的模型,用于提取文本特征。
4.如权利要求3所述的方法,其特征在于,所述特征向量库为redis数据库,所述特征向量库以多媒体内容的标识为关键字key,以多媒体内容的标识对应的特征向量为值value保存所述搜索库中每个多媒体内容的标识对应的特征向量。
5.如权利要求3所述的方法,其特征在于,当所述搜索库中新增多媒体内容的标识时,采用BERT模型对新增的多媒体内容的标识进行特征提取,获得所述新增的多媒体内容的标识对应的特征向量,并将所述新增的多媒体内容的标识对应的特征向量保存在所述特征向量库中。
6.如权利要求1至5任一项所述的方法,其特征在于,所述根据所述搜索条件对应的特征向量和每个目标标识对应的特征向量,从所述多个多媒体内容的目标标识中确定所述搜索条件的搜索结果,包括:
根据所述搜索条件对应的特征向量和每个目标标识对应的特征向量,确定所述搜索条件与每个目标标识的相似度;
根据所述搜索条件与每个目标标识的相似度,从所述多个多媒体内容的目标标识中确定所述搜索条件的搜索结果。
7.如权利要求6所述的方法,其特征在于,所述根据所述搜索条件对应的特征向量和每个目标标识对应的特征向量,确定所述搜索条件与每个目标标识的相似度,包括:
采用BERT模型对所述搜索条件进行特征提取,获得所述搜索条件对应的特征向量;
根据所述搜索条件对应的特征向量和每个目标标识对应的特征向量,确定所述搜索条件与每个目标标识的余弦相似度值;
将所述搜索条件与每个目标标识的余弦相似度值作为所述搜索条件与每个目标标识的相似度。
8.一种信息搜索装置,其特征在于,包括:
获取模块,用于基于搜索条件从搜索库中获取与所述搜索条件关联的多个多媒体内容的目标标识;
查询模块,用于基于每个目标标识查询特征向量库,获得每个目标标识对应的特征向量,所述特征向量库中包括所述搜索库中每个多媒体内容的标识对应的特征向量;
匹配模块,用于根据所述搜索条件对应的特征向量和每个目标标识对应的特征向量,从所述多个多媒体内容的目标标识中确定所述搜索条件的搜索结果。
9.如权利要求8所述的装置,其特征在于,所述搜索条件为搜索词条;
所述获取模块具体用于:
将所述搜索词条与所述搜索库中每个多媒体内容的标识进行文本匹配,获得与所述搜索词条关联的多个多媒体内容的目标标识。
10.如权利要求8所述的装置,其特征在于,所述搜索库中每个多媒体内容的标识对应的特征向量是预先采用BERT模型对所述搜索库中每个多媒体内容的标识进行特征提取后获得的,所述BERT模型是采用Transformer模型中的编码器作为特征提取模块获得的模型,用于提取文本特征。
11.如权利要求10所述的装置,其特征在于,所述特征向量库为redis数据库,所述特征向量库以多媒体内容的标识为关键字key,以多媒体内容的标识对应的特征向量为值value保存所述搜索库中每个多媒体内容的标识对应的特征向量。
12.如权利要求10所述的装置,其特征在于,还包括更新模块;
所述更新模块具体用于:
当所述搜索库中新增多媒体内容的标识时,采用BERT模型对新增的多媒体内容的标识进行特征提取,获得所述新增的多媒体内容的标识对应的特征向量,并将所述新增的多媒体内容的标识对应的特征向量保存在所述特征向量库中。
13.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1~7任一项权利要求所述方法的步骤。
14.一种计算机可读存储介质,其特征在于,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行权利要求1~7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010963547.7A CN111814028B (zh) | 2020-09-14 | 2020-09-14 | 一种信息搜索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010963547.7A CN111814028B (zh) | 2020-09-14 | 2020-09-14 | 一种信息搜索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111814028A true CN111814028A (zh) | 2020-10-23 |
CN111814028B CN111814028B (zh) | 2021-02-26 |
Family
ID=72860122
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010963547.7A Active CN111814028B (zh) | 2020-09-14 | 2020-09-14 | 一种信息搜索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111814028B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326387A (zh) * | 2021-05-31 | 2021-08-31 | 引智科技(深圳)有限公司 | 一种会议信息智能检索方法 |
CN114154026A (zh) * | 2021-11-12 | 2022-03-08 | 北京达佳互联信息技术有限公司 | 数据处理方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103631769A (zh) * | 2012-08-23 | 2014-03-12 | 北京百度网讯科技有限公司 | 一种判断文件内容与标题间一致性的方法及装置 |
US20150146989A1 (en) * | 2013-11-26 | 2015-05-28 | Canon Kabushiki Kaisha | Image processing apparatus, image processing method, and program |
CN110413785A (zh) * | 2019-07-25 | 2019-11-05 | 淮阴工学院 | 一种基于bert和特征融合的文本自动分类方法 |
CN110866491A (zh) * | 2019-11-13 | 2020-03-06 | 腾讯科技(深圳)有限公司 | 目标检索方法、装置、计算机可读存储介质和计算机设备 |
CN111046221A (zh) * | 2019-12-17 | 2020-04-21 | 腾讯科技(深圳)有限公司 | 歌曲推荐方法、装置、终端设备以及存储介质 |
US20200175259A1 (en) * | 2018-12-03 | 2020-06-04 | Electronics And Telecommunications Research Institute | Face recognition method and apparatus capable of face search using vector |
-
2020
- 2020-09-14 CN CN202010963547.7A patent/CN111814028B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103631769A (zh) * | 2012-08-23 | 2014-03-12 | 北京百度网讯科技有限公司 | 一种判断文件内容与标题间一致性的方法及装置 |
US20150146989A1 (en) * | 2013-11-26 | 2015-05-28 | Canon Kabushiki Kaisha | Image processing apparatus, image processing method, and program |
US20200175259A1 (en) * | 2018-12-03 | 2020-06-04 | Electronics And Telecommunications Research Institute | Face recognition method and apparatus capable of face search using vector |
CN110413785A (zh) * | 2019-07-25 | 2019-11-05 | 淮阴工学院 | 一种基于bert和特征融合的文本自动分类方法 |
CN110866491A (zh) * | 2019-11-13 | 2020-03-06 | 腾讯科技(深圳)有限公司 | 目标检索方法、装置、计算机可读存储介质和计算机设备 |
CN111046221A (zh) * | 2019-12-17 | 2020-04-21 | 腾讯科技(深圳)有限公司 | 歌曲推荐方法、装置、终端设备以及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326387A (zh) * | 2021-05-31 | 2021-08-31 | 引智科技(深圳)有限公司 | 一种会议信息智能检索方法 |
CN113326387B (zh) * | 2021-05-31 | 2022-12-13 | 引智科技(深圳)有限公司 | 一种会议信息智能检索方法 |
CN114154026A (zh) * | 2021-11-12 | 2022-03-08 | 北京达佳互联信息技术有限公司 | 数据处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111814028B (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111191078B (zh) | 基于视频信息处理模型的视频信息处理方法及装置 | |
CN109145153B (zh) | 意图类别的识别方法和装置 | |
CN107526799B (zh) | 一种基于深度学习的知识图谱构建方法 | |
CN110427563B (zh) | 一种基于知识图谱的专业领域系统冷启动推荐方法 | |
CN107515934B (zh) | 一种基于大数据的电影语义个性化标签优化方法 | |
CN110929125B (zh) | 搜索召回方法、装置、设备及其存储介质 | |
CN112214593A (zh) | 问答处理方法、装置、电子设备及存储介质 | |
CN111368548A (zh) | 语义识别方法及装置、电子设备和计算机可读存储介质 | |
CN110737756B (zh) | 确定针对用户输入数据的应答的方法、装置、设备和介质 | |
KR20200087977A (ko) | 멀티모달 문서 요약 시스템 및 방법 | |
CN111814028B (zh) | 一种信息搜索方法及装置 | |
CN113688951B (zh) | 视频数据处理方法以及装置 | |
CN112395410A (zh) | 一种基于实体抽取的产业舆情推荐方法、装置及电子设备 | |
CN111739520B (zh) | 一种语音识别模型训练方法、语音识别方法、装置 | |
CN111831924A (zh) | 内容推荐方法、装置、设备及可读存储介质 | |
CN111274822A (zh) | 语义匹配方法、装置、设备及存储介质 | |
CN115130613B (zh) | 虚假新闻识别模型构建方法、虚假新闻识别方法与装置 | |
EP4147142A1 (en) | Creating and interacting with data records having semantic vectors and natural language expressions produced by a machine-trained model | |
CN111639228A (zh) | 视频检索方法、装置、设备及存储介质 | |
CN113704507A (zh) | 数据处理方法、计算机设备以及可读存储介质 | |
CN112101029A (zh) | 一种基于bert模型的高校导师推荐管理方法 | |
CN113609847B (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN111506596A (zh) | 信息检索方法、装置、计算机设备和存储介质 | |
CN117131155A (zh) | 多类目识别方法、装置、电子设备及储存介质 | |
CN116955591A (zh) | 用于内容推荐的推荐语生成方法、相关装置和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40031394 Country of ref document: HK |