CN110858232A - 搜索方法、设备、系统及存储介质 - Google Patents
搜索方法、设备、系统及存储介质 Download PDFInfo
- Publication number
- CN110858232A CN110858232A CN201810904784.9A CN201810904784A CN110858232A CN 110858232 A CN110858232 A CN 110858232A CN 201810904784 A CN201810904784 A CN 201810904784A CN 110858232 A CN110858232 A CN 110858232A
- Authority
- CN
- China
- Prior art keywords
- feature vector
- search
- modal
- sample
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 84
- 238000003860 storage Methods 0.000 title claims abstract description 21
- 239000013598 vector Substances 0.000 claims abstract description 561
- 230000004927 fusion Effects 0.000 claims abstract description 129
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 39
- 230000015654 memory Effects 0.000 claims description 51
- 230000006835 compression Effects 0.000 claims description 39
- 238000007906 compression Methods 0.000 claims description 39
- 238000004590 computer program Methods 0.000 claims description 31
- 238000004891 communication Methods 0.000 claims description 28
- 230000000977 initiatory effect Effects 0.000 claims description 6
- 230000001976 improved effect Effects 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 35
- 230000006870 function Effects 0.000 description 25
- 238000010586 diagram Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 7
- 230000005291 magnetic effect Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000000877 morphologic effect Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000005284 excitation Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000007306 turnover Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Technology Law (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供一种搜索方法、设备、系统及存储介质。在本申请实施例中,在针对待搜索对象进行搜索时,一方面对多模态特征向量进行融合,可以从更全面的维度进行搜索,有利于提高搜索结果的精度;另一方面在搜索效率上引入聚类算法,基于样本对象集对应的聚类结果进行搜索,可以将多模态特征向量融合带来的搜索复杂度从O(n^2)降低至O(logn),使得大规模、高频搜索成为可能。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种搜索方法、设备、系统及存储介质。
背景技术
在涉及大量数据的业务场景中,往往会用到搜索技术。例如,在证券类业务场景中,投资者通过学习历史股票的走势可以推测已投资股票未来是否会出现有利行情。在这个过程中,需要从众多历史股票中搜索对目标股票具有参考价值的历史股票。
在现有技术中,一般是根据股票的K线形态这一特征,在众多历史股票中进行搜索,以获得K线形态与目标股票最接近的历史股票,并基于搜索到的K线形态与目标股票最接近的历史股票的走势进行推测。现有搜索结果的精度不高,导致基于搜索结果的后续处理结果不理想。
发明内容
本申请的多个方面提供一种搜索方法、设备、系统及存储介质,用以提高搜索结果的精度。
本申请实施例提供一种搜索方法,包括:接收搜索请求,所述搜索请求携带有待搜索对象的多模态特征向量;对所述多模态特征向量进行融合,以获得可反映所述待搜索对象的目标融合特征向量;根据所述目标融合特征向量和样本对象集对应的融合特征向量聚类结果,从所述样本对象集中获取符合搜索需求的样本对象;将所述符合搜索需求的样本对象发送给所述搜索请求的发送端。
本申请实施例还提供一种搜索方法,包括:响应用户发起搜索的操作,展示搜索页面,所述搜索页面包括待搜索对象对应的特征向量列表;响应所述用户在所述特征向量列表中选择特征向量的操作,确定所述待搜索对象对应的多模态特征向量;向服务器发送搜索请求,所述搜索请求携带有所述多模态特征向量,以供所述服务器根据所述多模态特征向量进行检索并返回符合搜索需求的样本对象。
本申请实施例还提供一种服务器,包括:存储器、处理器以及通信组件;所述通信组件,用于接收搜索请求,所述搜索请求携带有待搜索对象的多模态特征向量;所述存储器,用于存储计算机程序和样本对象集对应的融合特征向量聚类结果;所述处理器,与所述存储器耦合,用于执行所述计算机程序,以用于:对所述多模态特征向量进行融合,以获得可反映所述待搜索对象的目标融合特征向量;根据所述目标融合特征向量和样本对象集对应的融合特征向量聚类结果,从所述样本对象集中获取符合搜索需求的样本对象;通过所述通信组件将所述符合搜索需求的样本对象发送给所述搜索请求的发送端。
本申请实施例还提供一种终端设备,包括:存储器、处理器、通信组件和显示器;所述存储器,用于存储计算机程序;所述处理器,与所述存储器耦合,用于执行所述计算机程序,以用于:响应用户发起搜索的操作,控制显示器展示搜索页面,所述搜索页面包括待搜索对象对应的特征向量列表;响应所述用户在所述特征向量列表中选择特征向量的操作,确定所述待搜索对象对应的多模态特征向量;以及通过所述通信组件向服务器发送搜索请求,所述搜索请求携带有所述多模态特征向量,以供所述服务器根据所述多模态特征向量进行检索并返回符合搜索需求的样本对象。
本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,所述计算机程序被执行时,可实现上述第一种搜索方法中的步骤。
本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,所述计算机程序被执行时,可实现上述第二种搜索方法中的步骤。
本申请实施例还提供一种业务系统,包括:终端设备和服务器;所述终端设备,用于向所述服务器发送搜索请求,所述搜索请求携带有待搜索对象的多模态特征向量,并接收所述服务器返回的符合搜索需求的样本对象;所述服务器,用于接收所述终端设备发送的所述搜索请求,对所述多模态特征向量进行融合,以获得可反映所述待搜索对象的目标融合特征向量;根据所述目标融合特征向量和样本对象集对应的融合特征向量聚类结果,从所述样本对象集中获取符合搜索需求的样本对象;将所述符合搜索需求的样本对象发送给所述终端设备。
在本申请实施例中,在针对待搜索对象进行搜索时,一方面对多模态特征向量进行融合,可以从更全面的维度进行搜索,有利于提高搜索结果的精度;另一方面在搜索效率上引入聚类算法,基于样本对象集对应的聚类结果进行搜索,可以将多模态特征向量融合带来的搜索复杂度从O(n^2)降低至O(logn),使得大规模、高频搜索成为可能。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1a为本申请一示例性实施例提供的一种业务系统的结构示意图;
图1b为本申请一示例性实施例提供的一种搜索页面的结构示意图;
图1c为本申请一示例性实施例提供的采用VAE算法对多模态特征向量分别进行信息压缩的流程示意图;
图1d为本申请一示例性实施例提供的采用VAE算法对各模态特征向量进行编码和解码的流程示意图;
图1e为本申请一示例性实施例提供的一种对样本对象进行模型训练和根据用户的搜索请求进行搜索的流程示意图;
图2为本申请一示例性实施例提供的一种搜索方法的流程示意图;
图3为本申请一示例性实施例提供的另一种搜索方法的流程示意图;
图4为本申请一示例性实施例提供的一种服务器的结构示意图;
图5为本申请一示例性实施例提供的一种终端设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
针对现有搜索技术所检索出来的搜索结果精度低以及因搜索结果精度较低而导致基于搜索结果的后续处理结果不理想等技术问题,在本申请一些示例性实施例中,在针对待搜索对象进行搜索时,一方面对多模态特征向量进行融合,可以从更全面的维度进行搜索,有利于提高搜索结果的精度;另一方面在搜索效率上引入聚类算法,基于样本对象集对应的聚类结果进行搜索,可以将多模态特征向量融合带来的搜索复杂度从O(n^2)降低至O(logn),使得大规模、高频搜索成为可能。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1a为本申请一示例性实施例提供的一种业务系统的结构示意图。如图1a所示,该业务系统10包括:终端设备10a和服务器10b。图1a中所呈现的终端设备10a和服务器10b只是示例性说明,并不对二者的实现形式做限定。
其中,终端设备10a和服务器10b之间可以是无线或有线连接。可选地,终端设备10a可以通过移动网络和服务器10b通信连接,相应地,移动网络的网络制式可以为2G(GSM)、2.5G(GPRS)、3G(WCDMA、TD-SCDMA、CDMA2000、UTMS)、4G(LTE)、4G+(LTE+)、WiMax等中的任意一种。可选地,终端设备10a也可以通过蓝牙、WiFi、红外线等方式和服务器10b通信连接。
在本实施例中,终端设备10a是指用户使用的,具有用户所需计算、上网、通信等功能的设备,例如可以是智能手机、平板电脑、个人电脑、穿戴设备等。终端设备10a通常包括至少一个处理单元和至少一个存储器。处理单元和存储器的数量取决于终端设备10a的配置和类型。存储器可以包括易失性的,例如RAM,也可以包括非易失性的,例如只读存储器(Read-Only Memory,ROM)、闪存等,或者也可以同时包括两种类型的。存储器内通常存储有操作系统(Operating System,OS)、一个或多个应用软件,也可以存储有程序数据等。除了处理单元和存储器之外,终端设备10a也会包括网卡芯片、IO总线、音视频组件等基本配置。可选地,根据终端设备10a的实现形式,终端设备10a也可以包括一些外围设备,例如键盘、鼠标、输入笔、打印机等。这些外围设备在本领域中是众所周知的,在此不做赘述。
在本实施例中,服务器10b是指根据用户的搜索请求为用户提供相应的搜索服务的硬件基础设施。服务器10b可以是一台,也可以是多台。本实施例并不限定服务器10b的实现形式。例如,服务器10b可以是常规服务器、云服务器、云主机、虚拟中心等服务器设备。其中,服务器10b设备的构成主要包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似。
本实施例提供的业务系统10可以是任何客户端/服务器(Client–server,C/S)架构或类似C/S架构且具有搜索需求的业务系统。举例说明,本实施例提供的业务系统10可以是证券业务系统、网络购物系统、游戏系统、即时通讯系统、邮箱服务系统、云存储系统等具有搜索需求的业务系统。
在上述各种业务系统中,服务器10b可以响应终端设备10a的基础业务请求,并向终端设备10a提供相应的基础业务服务。例如,对证券业务系统而言,其基础业务服务与股票信息的发布、交易等相关。对游戏系统而言,其基础业务服务与游戏场景、角色、玩法、道具管理等相关。对即时通讯系统而言,其基础业务服务器与会话窗口维护、即时通信消息的收发、群组建立等相关。对邮箱系统而言,其基础业务服务与邮件编辑、邮件收发、联系人管理等相关。
在使用服务器10b提供的基础业务服务之外,有可能需要搜索相关信息,该搜索过程可能是和基础业务服务相关的,也可能是与基础业务服务无关的。为此,服务器10b除了提供基础业务服务之外,还可以向终端设备10a提供搜索服务,并可根据终端设备10a提交的搜索请求给出相应的搜索结果。
例如,在股票业务场景中,证券投资者在投资决策过程中期望通过学习某些股票的历史信息来推测已购买股票的未来走向,以方便投资者做出相应的决策。在这种应用场景中,用户可通过终端设备10a向服务器10b发送搜索请求,该搜索请求携带已购买股票的相关信息;服务器10b接收该搜索请求,并据搜索请求中携带的已购买股票的相关信息检索出类似的历史股票,将检索到的历史股票的信息返回给终端设备10a。
又例如,在在线购物场景中,用户在网购时,在购买某件商品时往往希望能够货比三家,以便在同类型的产品中能够购买到物美价廉的商品。在这种应用场景中,用户可通过终端设备10a点击相应的内容,例如可点击“相似产品”,以向服务器10b发送搜索相似产品的搜索请求。服务器10b需要根据该搜索请求,从本地数据库中搜索相似产品并返回给终端设备10a。
在本申请实施例中,考虑到业务场景的不同,作为搜索基准的对象会有所不同,故将作为搜索基准的对象称为待搜索对象,例如待搜索对象可以是上述股票业务场景中投资者已购买的股票,也可以是上述在线购物场景中用户想要购买的商品等。值得说明的是,本实施例并不限定待搜索对象的实现形态,其实现形态与具体业务场景有关,不同业务场景中可以作为搜索基准的对象会有所不同。基于此,可以以待搜索对象为搜索基准,在样本对象集中搜索符合搜索需求的样本对象,例如可以搜索与待搜索对象相似的样本对象。其中,样本对象集中包含有多个样本对象,这些样本对象与待搜索对象具有相同属性或者隶属同一类别。例如,在股票业务场景中,样本对象集可以是历史股票的集合,待搜索对象可以是投资者当前购买的股票,或者某只特定股票等。又例如,在在线购物场景中,样本对象集可以是整个平台上所有商品的集合,待搜索对象可以是用户想要购买的某个商品,或者某个特定商品等。
当用户需要针对待搜索对象发起搜索时,可通过终端设备10a向服务器10b发送相应的搜索请求,并在该搜索请求中携带待搜索对象的多模态特征向量,以供服务器10b根据待搜索对象的多模态特征向量从样本对象集中搜索符合搜索需求的样本对象。在本实施例中,采用待搜索对象的多模态特征向量可以以更加全面的维度进行搜索,有利于提高搜索结果的精度。值得说明的是,对于不同的应用场景,待搜索对象以及其多模态特征向量均会有所不同。
服务器10b接收终端设备10a发送的搜索请求,基于搜索请求中携带的待搜索对象的多模态特征向量进行搜索并向终端设备10a返回搜索结果。在本实施例中,为了降低基于多模态特征向量进行搜索带来的搜索复杂度,在多模态特征向量融合的基础上进一步引入了聚类算法,预先对样本对象集中各样本对象的多模态特征向量进行融合、聚类得到融合特征向量聚类结果,并在样本对象集对应的融合特征向量聚类结果的基础上进行搜索。
基于上述分析,服务器10b基于待搜索对象的多模态特征向量进行搜索的过程包括:首先,对待搜索对象的多模态特征向量进行融合,以获得可反映待搜索对象的目标融合特征向量;然后根据上述目标融合特征向量和样本对象集对应的融合特征向量聚类结果,从样本对象集中获取符合搜索需求的样本对象;之后,将符合搜索需求的样本对象发送给终端设备10a。相应地,终端设备10a接收服务器10b返回的上述符合搜索需求的样本对象。进一步,终端设备10a还可以根据服务器10b返回的符合搜索需求的样本对象进行后续处理,例如将这些样本对象以及这些样本对象所对应的时间之后的样本展示给用户,以供用户根据其变化趋势分析待搜索对象的变化趋势或者基于这些样本对象的变化趋势分析待搜索对象的变化趋势,等等。
在本实施例中,终端设备与服务器相互配合,终端设备将携带有待搜索对象对应的多模态特征向量发送于服务器,以请求服务器据此进行搜索;相应地,服务器在针对待搜索对象进行搜索时,一方面对多模态特征向量进行融合,可以从更全面的维度进行搜索,有利于提高搜索结果的精度;另一方面在搜索效率上引入聚类算法,基于样本对象集对应的聚类结果进行搜索,可以将多模态特征向量融合带来的搜索复杂度从O(n^2)降低至O(logn),使得大规模、高频搜索成为可能。
其中,用户通过终端设备10a向服务器10b发送搜索请求可以有多种实现方式,本实施例对此不做限定。
在一可选实施例中,终端设备10a上安装有相应的软件、APP或在相应器件中写入程序代码等以提供与服务器10b交互的功能。以APP为例,用户可通过点击APP页面上的搜索按钮或搜索对话框发起搜索操作。终端设备10a响应用户发起的搜索操作,向用户展示相应的搜索页面,该搜索页面上显示有待搜索对象对应的特征向量列表。用户可以通过点击或长按特征向量列表中的特征向量以选定待搜索对象对应的多个特征向量,从而形成多模态特征向量。
例如,在证券业务系统中,终端设备10a上安装有证券类APP,用户双击证券类APP的桌面图标可以打开该APP,该APP响应用户的双击操作向用户展示APP首页。进一步,用户可通过点击首页上的搜索按钮或搜索对话框发起搜索操作。终端设备10a响应用户发起的搜索操作,向用户展示相应的搜索页面,该搜索页面上显示有一些搜索选项,例如,图1b所示搜索页面上的股票代码、搜索的截止日期、匹配天数等,但不限于此。其中,用户通过股票代码选项可以选定作为搜索基准的待搜索股票,另外通过搜索的截止日期、匹配天数等搜索选项可以设定搜索范围等。值得说明的是,搜索的截止日期、匹配天数等搜索选项为可选选项。进一步,在用户选定待搜索股票后,通过该搜索页面还可以向用户展示待搜索股票的特征向量列表。特征向量列表可以包括多个特征向量,例如,图1b所示的K线形态、技术指标、公司基本面、公司事件等,但不限于此。对于图1b所示的搜索页面,用户可点击特征向量列表中各特征向量前面的方框来选定特征向量。在本申请实施例中,用户至少选择其中的两个特征向量,以形成多模态特征向量。
终端设备10a响应用户在特征向量列表中选择特征向量的操作,确定待搜索对象对应的多模态特征向量,并将待搜索对象对应的多模态特征向量携带在搜索请求中发送给服务器10b。可选地,终端设备10a可以在确定出待搜索对象对应的多模态特征向量后直接向服务器10b发送搜索请求。或者,用户在选定出待搜索对象对应的多模态特征向量后,可点击终端设备10a上搜索确定按钮,终端设备10a响应用户发出的搜索确定操作,将待搜索对象对应的多模态特征向量携带在搜索请求中发送给服务器10b。或者,用户可以再次点击搜索按钮以确定发起搜索,终端设备10b响应用户确定发起搜索的操作(即再次点击搜索按钮的操作),将待搜索对象对应的多模态特征向量携带在搜索请求中发送给服务器10b。
在本申请实施例中,并不限定对待搜索对象对应的多模态特征向量进行融合的过程,例如可以是简单的合并过程,也可以是压缩合并过程。在下面可选实施例中以压缩合并为例,对待搜索对象对应的多模态特征向量进行融合的过程进行详细说明。
在一可选实施例中,服务器10b在对待搜索对象的多模态特征向量进行融合时,可以对待搜索对象的多模态特征向量分别进行信息压缩,以获得多模态的压缩特征向量;然后,将多模态的压缩特征向量进行合并,进而获得可反映待搜索对象的整体特征向量;并以该整体特征向量为基础,获得可反映待搜索对象的目标融合特征向量。其中,通过对多模态特征向量进行信息压缩合并,不仅可以考虑多模态特征向量之间的相关性,达到信息融合的目的,而且可以用低维数据来表示高维信息,有利于减小后续计算的运算负担;另外,对多模态特征向量进行信息压缩,可主要关注多模态特征向量之间的宏观趋势是否相似,便于保留多模态特征向量的宏观特征,具有对多模态特征向量之间的局部差异去敏感化的效果。
可选地,服务器10b可直接将整体特征向量作为目标融合特征向量。或者,为了进一步降低搜索的复杂度,服务器10b也可以对整体特征向量进行压缩,将压缩结果作为目标融合特征向量。
可选地,在一些业务场景中,待搜索对象的每种模态的特征向量可能进一步包括多个维度。例如,对于证券业务系统来说,其多模态特征向量可以包括股票的K线形态、技术指标、公司基本面以及公司事件等中的至少两种模态。每种模态的特征向量又包括多个维度,这些维度可以是时间序列维度的,也可以是非时间序列维度的。下面以股票A为例,对这些多模态特征向量以及每种模态下的多个维度分别进行解释说明。
其中,K线形态是以每个分析周期内股票A的开盘价、最高价、最低价和收盘价所形成的四维时间序列数据所表现出来的股票A走势,可以反映每个分析周期内股票A的价格行情走向,是为人们判断股票A的市场运行趋势与方向的重要参考依据之一。例如,K线形态一般包含股票A的开盘价、最高价、最低价、收盘价以及成交量等5个维度的特征向量。
其中,技术指标主要用于预测短期内股价涨跌的趋势,一般包括:随机指标KDJ、ASI指标、布林指标BOLL和BRAR指标等数十维度的特征向量,但不限于此。
其中,公司基本面是指发行股票A的公司财务数据所表示的经营状况。公司基本面包含发行股票A的公司的营业利润率、成本费用利润率、总资产报酬率、净资产收益率、营业收入增长率、资本保值增值率、总资产增长率、速动比率、流动比率、资产负债率、库存周转率、资产周转率等约30个维度,在此不进行一一列举。
其中,公司事件是指近期已经发生或者可预知的即将发生的与发行股票A的公司相关的事件。公司事件也包括:公司是否重组、是否被收购、是否送股、是否存在股权质押、是否受到行政处罚、是否增发股票、股票A是否跌破发行价、对于股票A股东是否增持或股东是否减持、是否签署重大合同等事件,其维度达数十维,但不限于此。
基于上述每种模态的特征向量包含多个维度的情况,服务器10b在对多模态特征向量分别进行信息压缩时,可分别对每种模态下多个维度的特征向量进行信息压缩,进而获得多模态的压缩特征向量。例如,以K线形态这一模态的特征向量为例,服务器10b可以分别对K线形态这一模态下的开盘价、最高价、最低价、收盘价以及成交量等5个维度的特征向量进行信息压缩,以获得K线形态这一模态的压缩特征向量。又例如,以技术指标为例,服务器10b可以分别对技术指标这一模态下的随机指标KDJ、ASI指标、布林指标BOLL和BRAR指标等数十维度的特征向量进行信息压缩,以获得技术指标这一模态的压缩特征向量。
在一可选实施方式中,服务器10b可以采用VAE算法对多模态特征向量分别进行信息压缩,进而获得多模态的压缩特征向量。例如,采用VAE算法分别对K线形态这一模态下的开盘价、最高价、最低价、收盘价以及成交量等5个维度的特征向量进行信息压缩,以获得K线形态这一模态的压缩特征向量。
在另一可选实施方式中,考虑到多模态特征向量中可能包含时间序列型特征向量和非时间序列型特征向量,基于此,可采用Seq2seq算法对多模态特征向量中的时间序列型特征向量进行信息压缩,并采用VAE算法对所述多模态特征向量中的非时间序列型特征向量进行信息压缩,以获得多模态的压缩特征向量。
其中,时间序列型特征向量具有时序性,而非时间序列型特征向量不具有或不具有明显的时序性。例如,对于上述证券业务系统中的多模态特征向量,其中K线形态、技术指标和公司基本面这三种模态下各维度的特征向量一般为时间序列型特征向量,即这些特征向量所展示的数据信息是按照时间先后顺序进行统计的。例如,K线形态所表示的股票A的开盘价、最高价、最低价、收盘价以及成交量随时间的变化情况。对于公司事件这一模态来说,可能包含时间序列型特征向量和非时间序列型特征向量,例如如果增发股票是周期性的,则是否增发股票属于时间序列型特征序列向量,其数据具有时序性;而对于公司是否重组、是否存在股权质押等公司事件,其不具有时序性,为非时间特征型序列向量。可选地,对于非时间特征型序列向量可采用元信息进行表示,若公司事件发生则标记为1;若没有发生该事件则标记为0,但不限于此。
为了更清楚地描述服务器10b对多模态特征向量进行融合的过程,下面以证券业务系统为例,对采用VAE算法对多模态特征向量分别进行融合的过程进行示例性说明。
假设待搜索对象为股票A,多模态特征向量包括股票A的K线形态、技术指标、公司基本面以及公司事件,则采用VAE算法对多模态特征向量分别进行信息压缩的过程如图1c所示,包括:
第一步,服务器10b将多模态特征向量中的各模态送入VAE模型,也就是包括股票A的K线形态、技术指标、公司基本面以及公司事件送入VAE模型的输入层。
第二步,输入层将各模态分别输入到相应的第一编码层,即编码器1-4对各模态特征向量分别进行信息压缩,进而得到各模态分别对应的压缩特征向量,即图1c中所示的K线形态压缩特征向量、技术指标压缩向量、公司基本面压缩特征向量以及公司事件压缩特征向量。
第三步,第一编码层将压缩后的各模态特征向量输送至合并层,合并层对各模态特征向量进行合并,进而获得合并后的整体特征向量。
第四步,合并层将整体特征向量发送至第二编码层,即编码器5进行进一步压缩,进而获得目标融合特征向量。
进一步,上述第一编码层编码器1-4和第二编码层的编码器5对各模态向量特征和整体向量特征的进行压缩的编码逻辑相同,故以任一编码器为例对其编码原理进行示例性说明。其中,编码器的编码原理如图1d所示。为了便于便于描述和区分,在图1d中,将编码器的输入定义为原始数据x。对图1c中的编码器1而言,原始数据x是K型形态这一模态的特征向量,又例如,对编码器2而言,原始数据x为技术指标这一模态的特征向量。参见图1d所示,编码器的编码逻辑为:
第1步,将原始数据x输入至编码器,并在编码器的全连接层进行编码。考虑到原始数据x一般呈非线性函数分布,则在全连接层可采用激励函数对原始数据x进行编码。其中采用激励函数对原始数据x进行编码是因为:使用激励函数会给神经元引入非线性因素,使得神经网络可以任意逼近任何非线性函数,这样神经网络就可以应用到众多的非线性模型中。可选地,可采用线性整流函数(Rectified Linear Unit,relu或ReLU)对原始数据x进行初步编码,该函数可用于隐层神经元输出,这样编码后的函数曲线呈非线性分布。
进一步,为了使编码后的函数曲线更接近于原始数据x的曲线分布,可采用多个全连接层对原始数据x依次采用激活函数进行编码,其上一层全连接层的输出作为下一层全连接层的输入。其中,全连接层的个数可根据实际情况进行灵活设置,以求使编码后的函数曲线与原始数据x的曲线分布无线接近。图1d中采用两个全连接层,即全连接层1和全连接层2对原始数据x依次采用relu函数进行编码来进行示例。其中,全连接层1将原始数据x采用函数h1=relu(xW+b)进行编码,其输入为(BatchSize,DimFeat),输出为(BatchSize,nHidden1);并将其输出作为全连接层2的输入,采用relu函数h2=relu(h1W+b)对h1进行编码,输出(BatchSize,nHidden2),进而得到非线性函数。
第2步:将上述非线性函数,即输出(BatchSize,nHidden2)分别进行线性编码和非线性编码。如图1d所示,将输出(BatchSize,nHidden2)在全连接层3进行线性编码,即μz=h2W+b;并将输出(BatchSize,nHidden2)在全连接层4进行非线性编码,即此外,在采样层对一随机数序列进行指数运算,即eps=randNormal。并将全连接层3进行线性编码和全连接层4进行非线性编码的输出以及在采样层进行指数运算的输出统一定义为输出(BatchSize,nHidden3),并作为下层Lambda层的参数输入。
第3步:将输出(BatchSize,nHidden3)分别作为Lambda层的参数输入至函数进行进一步编码,进而得到压缩向量z。例如,对图1c中的编码器1而言,压缩向量z即为K型形态压缩特征向量;又例如,对图1c中的编码器2而言,压缩向量z为技术指标压缩特征向量。
值得说明的是,服务器10b不仅需要在实际搜索过程中对待搜索对象的多模态特征向量进行融合,也需要在训练阶段预先对样本对象集中各样本对象的多模态特征向量进行融合和聚类处理,以便获得样本对象集对应的融合特征向量聚类结果,为后续实际搜索过程提供基础条件。其中,服务器10b对样本对象集中的各样本对象进行融合和聚类处理的过程如下:
服务器10b获取样本对象集中各样本对象的多模态特征向量;并对各样本对象的多模态特征向量进行融合,以获得各样本对象对应的融合特征向量;接着,对各样本对象对应的融合特征向量进行聚类处理,进而获得该样本对象集对应的融合特征向量聚类结果。
在一可选实施方式中,服务器10b可采用层次聚类算法对各样本对象对应的融合特征向量进行聚类处理,以获得具有树状结构的多个融合特征向量聚类群及多个融合特征向量聚类中心;之后,将多个融合特征向量聚类中心按照树状结构存储至聚类中心数据库中,将多个融合特征向量聚类群按照树状结构存储至检索数据库中。
可选地,上述聚类中心数据库和/或检索数据库可采用内存数据库,可进一步提高后续对样本对象进行搜索的速度。
在一些可选实施方式中,终端设备10a发送的搜索请求中还可携带有本次搜索的时间窗口。该时间窗口表示多模态特征向量所属的时间信息,即该时间窗口可明确表示是多长时间内的多模态特征向量,例如,一天、一周、一个月等。
基于上述携带有时间窗口的搜索请求,服务器10b可从样本对象集对应不同时间窗口的融合特征向量聚类结果中,选择该样本对象集对应搜索请求中携带的时间窗口的融合特征向量聚类结果。例如,若时间窗口为一周,则服务器10b从样本对象集对应不同时间窗口的融合特征向量聚类中,选择该样本对象集对应一周时间的融合特征向量聚类结果。
基于上述携带有时间窗口的搜索请求,服务器10b可以设置指定时间窗口,以便获得指定时间窗口内样本对象集对应的融合特征向量聚类结果,为后续实际搜索过程提供基础条件。基于此,服务器10b获取样本对象集中各样本对象在指定时间窗口中的多模态特征向量特征;并对各样本对象在指定时间窗口中的多模态特征向量进行融合,进而获得各样本对象对应的在该指定时间窗口中的融合特征向量;并对各样本对象对应的在指定时间窗口中的融合特征向量进行聚类处理,进而获得样本对象对应指定时间窗口的融合特征向量聚类结果。
可选地,在采用层次聚类算法的情况下,服务器10b可根据目标融合特征向量和样本对象集对应的多个融合特征向量聚类中心之间的相似度,获取N个融合特征向量聚类中心;并将目标融合特征向量在获取的N个融合特征向量聚类中心对应的融合特征向量聚类群中进行匹配,进而获取符合搜索需求的M个融合特征向量;之后从样本对象集中获取这M个融合特征向量对应的样本对象。其中,N、M是正整数。
在本申请实施例中,不限定N和M的具体取值,根据不同的应用场景和样本对象,M和N的取值不同。可选地,可预设相似度阈值,则可以选择与目标融合特征向量之间的相似度超过预设的相似度阈值的N个融合特征向量聚类中心。
可选地,目标融合特征向量和样本对象集对应的多个融合特征向量聚类中心之间的相似度,可通过目标融合特征向量和融合特征向量聚类中心之间的距离进行表征,其距离越近,相似度越高。基于此,服务器10b可按照多个融合特征向量聚类中心之间的层级关系,逐层计算目标融合特征向量和多个融合特征向量聚类中心之间的向量距离;并从多个融合特征向量聚类中心中,选择与该目标融合特征向量最邻近的N个融合特征向量聚类中心。可选地,目标融合特征向量和融合特征向量聚类中心之间的向量距离可以采用欧式距离、曼哈顿距离、切比雪夫距离、马氏距离等,但不限于此。
在从样本对象集中获取这M个融合特征向量对应的样本对象的过程中,可以采用VAE算法中的解码器对M个融合特征向量进行解码还原出原始特征向量,进而使用原始特征向量来匹配样本对象。其中,VAE算法对每一个融合特征向量进行解码的逻辑过程相同。下面以一个融合特征向量进行解码的逻辑过程为例进行示例性说明。承接上述图1d中对原始数据x进行编码的过程,编码得到的压缩向量z相当于这里的融合特征向量。即如图1d所示,融合特征向量(压缩向量z)输入至解码器进行解码。具体过程如下:
第1步:解码器在全连接层5对融合特征向量(压缩向量z)进行初步解码,即采用函数h3=relu(zW+b)得到其输出(BatchSize,nHidden2);并将其输出(BatchSize,nHidden2)输入至全连接层6,采用函数h4=relu(h3W+b)进行二次解码,得到解码后的结果即输出(BatchSize,nHidden1)。值得说明的是,采用relu函数对融合特征向量(压缩向量z)进行解码的次数与上述图1c中采用relu函数对原始数据x进行编码的次数相同,不限于图1d中所示的两次。
第2步:对上述输出(BatchSize,nHidden1)分别进行线性解码和非线性解码。如图1d所示,将输出(BatchSize,nHidden1)在全连接层7进行线性解码,即进而得到原始数据x的重构数据并将输出(BatchSize,nHidden1)在全连接层8进行非线性解码,即进而得到log(σ2),进而根据和log(σ2),得到该目标融合特征向量所对应的样本对象,即符合搜索需求的样本对象之一。该解码过程的复杂度为O(logn),其中n为参见运算的原始数据x的个数。
为了便于理解上述服务器10b对样本对象进行模型训练和根据用户的搜索请求进行搜索的过程,下面以证券业务系统为例,对其大致过程进行示例性说明。
首先,做以下说明:在证券业务系统中,上述待搜索对象为用户待购买或已经购买的股票。相应地,样本对象为历史股票。为了便于描述,将用户待购买或已经购买的股票定义为股票A。相应地,多模态特征向量为K线形态、技术指标、公司基本面以及公司事件中的至少两种模态。其中,对K线形态、技术指标、公司基本面以及公司事件可参见上述实施例的相关描述,在此不再赘述。
如图1e所示,服务器10b对样本对象集中的样本对象进行模型训练。这里的样本对象为历史股票,这些历史股票可能包含股票A,也可能不包含A股票。参见图1e中实线所示,模型训练的过程如下:
第1步:服务器10b从财务数据库、事件数据库和行情数据库中分别调取股票A和其他股票所属公司的公司基本面、公司事件、K型形态以及技术指标等原始特征数据;对不同模态的原始特征数据进行预处理,从而得到多模态特征向量。预处理包括:数据补全、剔除异常数据、向量化等。
第2步:对历史股票的公司基本面特征向量、公司事件特征向量、K型形态特征向量以及技术指标特征向量分别进行向量压缩处理,并将压缩后的各特征向量进行融合,进而得到图1e所示的压缩融合模型。
第3步:从压缩融合模型中提取融合特征向量,并采用层次聚类算法对融合特征向量采用聚类算法进行处理,获得具有树状结构的多个融合特征向量聚类群(图1e所示的群1、群2和群3)和多个融合特征向量聚类中心。
第4步:将多个融合特征向量聚类群(图1e所示的群1、群2和群3)存储至检索数据库,并将多个融合特征向量聚类中心存储至聚类中心数据库,以供对股票A进行搜索时调用。
例如,当用户购买股票A时,可将股票A的近期情况与历史股票的历史情况进行匹配,搜索出与股票A的近期情况相似的历史股票B,并根据历史股票B的发展状态以推断股票A的后续变化趋势,以便确定是否购买股票A。则,用户可以在终端设备10a上设定开始搜索的日期为:2018年5月16日,选定的股票A的股票代码:600001.SH;且指定的时间窗口为30天;终端设备10a根据用户设定的搜索条件,并提取股票A在2018年4月16日-2018年5月16日之间的多模态特征向量,即股票A所属公司的公司基本面特征向量、公司事件特征向量、K型形态特征向量以及技术指标特征向量,向服务器10b发起搜索与股票A相似的历史股票的请求为。参见图1e中虚线所示,服务器10b搜索过程大致如下:
第1步:服务器10b接收终端设备10a的搜索请求,确定股票A所属公司的公司基本面特征向量、公司事件特征向量、股票A的K型形态特征向量以及技术指标特征向量。
第2步:将股票A对应的公司基本面增量特征向量、公司事件增量特征向量、K型形态增量特征向量以及技术指标增量特征向量送入线上压缩融合模型分别进行向量压缩和融合处理,以获取可反映股票A近期情况的目标融合特征向量。
第3步:计算目标融合增量特征向量和聚类中心数据库中的各融合特征向量聚类中心之间的相似度,并对得到的相似度进行排序,选择相似度最高的N个融合特征向量聚类中心。
第4步:将目标融合特征向量与上述N个融合特征向量聚类中心对应的融合向量聚类群中进行相似度计算,选择相似度最高的M个融合特征向量。可选地,可通过图1e中所示的“过滤器”选择相似度最高的M个融合特征向量。
例如,【300033.SZ,20180301-20180401,相似度94%】,即股票代码为300033.SZ的股票在2018年03月01日-2018年04月01日之间的融合特征向量与股票A在2018年4月16日-2018年5月16日之间的融合特征向量相似度为94%。则可确定由股票代码为300033.SZ的股票在2018年03月01日-2018年04月01日之间的各模态特征向量融合得到的融合特征向量是符合搜索需求的融合特征向量。
第5步:服务器10b可以按照相似度对这M个融合特征向量进行排序,根据排序后的M个融合特征向量,从样本对象集中确定出对应的最佳样本对象,并返回给终端设备10a。例如,可以选择出股票代码为300033.SZ的股票样本返回给终端设备10a。
之后,用户便可根据最佳样本对象,查看之后的样本对象的变化趋势来推测待搜索对象的变化趋势。例如,用户可查看股票代码为300033.SZ的股票在2018年04月01日后的变化趋势来预测股票A在2018年5月16日之后的变化趋势。
除上述提供的业务系统之外,本申请一些实施例还提供一种搜索方法。下面将从服务器和终端设备的角度,对本申请所提供的搜索方法进行说明。
图2为本申请一示例性实施例提供的一种搜索方法的流程示意图。该方法适用于服务器。如图2所示,该方法包括:
201、接收搜索请求,该搜索请求携带有待搜索对象的多模态特征向量。
202、对多模态特征向量进行融合,以获得可反映待搜索对象的目标融合特征向量。
203、根据该目标融合特征向量和样本对象集对应的融合特征向量聚类结果,从样本对象集中获取符合搜索需求的样本对象。
204、将符合搜索需求的样本对象发送给上述搜索请求的发送端。
在实际应用中,不同的业务场景,作为搜索基准的对象会有所不同,故将作为搜索基准的对象称为待搜索对象,例如待搜索对象可以是上述股票业务场景中投资者已购买的股票,也可以是上述在线购物场景中用户想要购买的商品等。值得说明的是,本实施例并不限定待搜索对象的实现形态,其实现形态与具体业务场景有关,不同业务场景中可以作为搜索基准的对象会有所不同。基于此,可以以待搜索对象为搜索基准,在样本对象集中搜索符合搜索需求的样本对象,例如可以搜索与待搜索对象相似的样本对象。其中,样本对象集中包含有多个样本对象,这些样本对象与待搜索对象具有相同属性或者隶属同一类别。例如,在股票业务场景中,样本对象集可以是历史股票的集合,待搜索对象可以是投资者当前购买的股票,或者某只特定股票等。又例如,在在线购物场景中,样本对象集可以是整个平台上所有商品的集合,待搜索对象可以是用户想要购买的某个商品,或者某个特定商品等。
当用户需要针对待搜索对象发起搜索请求时,并在该搜索请求中携带待搜索对象的多模态特征向量。在步骤201中,服务器接收该搜索请求,并进入步骤202,对待搜索对象的多模态特征向量进行融合,以获得可反映待搜索对象的目标融合特征向量;之后进入步骤203,根据上述目标融合特征向量和样本对象集对应的融合特征向量聚类结果,从样本对象集中获取符合搜索需求的样本对象;并进入步骤204,将符合搜索需求的样本对象发送给搜索请求的发送端。值得说明的是,本实施例中的发送端可为图1a中所示的业务系统10中的终端设备10a。其中,用户可通过终端设备向服务器发送搜索请求。
在本实施例中,服务器在针对待搜索对象进行搜索时,一方面对多模态特征向量进行融合,可以从更全面的维度进行搜索,有利于提高搜索结果的精度;另一方面在搜索效率上引入聚类算法,基于样本对象集对应的聚类结果进行搜索,可以将多模态特征向量融合带来的搜索复杂度从O(n^2)降低至O(logn),使得大规模、高频搜索成为可能。
在本申请实施例中,并不限定在步骤202中对待搜索对象对应的多模态特征向量进行融合的具体实施方式,例如可以是简单的合并,也可以是压缩合并。在下面可选实施例中以压缩合并为例,对待搜索对象对应的多模态特征向量进行融合的具体实施方式进行详细说明。
在一可选实施例中,步骤202的一种实施方式为:对待搜索对象的多模态特征向量分别进行信息压缩,以获得多模态的压缩特征向量;然后,将多模态的压缩特征向量进行合并,进而获得可反映待搜索对象的整体特征向量;并以该整体特征向量为基础,获得可反映待搜索对象的目标融合特征向量。其中,通过对多模态特征向量进行信息压缩合并,不仅可以考虑多模态特征向量之间的相关性,达到信息融合的目的,而且可以用低维数据来表示高维信息,有利于减小后续计算的运算负担;另外,对多模态特征向量进行信息压缩,可主要关注多模态特征向量之间的宏观趋势是否相似,便于保留多模态特征向量的宏观特征,具有对多模态特征向量之间的局部差异去敏感化的效果。
进一步,以整体特征向量为基础,获得可反映待搜索对象的目标融合特征向量的一种可选实施方式为:直接将整体特征向量作为目标融合特征向量。
可选地,为了进一步降低搜索的复杂度,以整体特征向量为基础,获得可反映待搜索对象的目标融合特征向量的另一种可选实施方式我:对整体特征向量进行压缩,并将压缩结果作为目标融合特征向量。
可选地,在一些业务场景中,待搜索对象的每种模态的特征向量可能进一步包括多个维度。例如,对于证券业务系统来说,其多模态特征向量可以包括股票的K线形态、技术指标、公司基本面以及公司事件等中的至少两种模态。每种模态的特征向量又包括多个维度,这些维度可以是时间序列维度的,也可以是非时间序列维度的。其中,对于多模态特征向量以及每种模态下的多个维度的具体描述可参见上述系统实施例中的相关描述,在此不再赘述。
基于上述每种模态的特征向量包含多个维度的情况,对多模态特征向量分别进行信息压缩的一种可选实施方式为:分别对每种模态下多个维度的特征向量进行信息压缩,进而获得多模态的压缩特征向量。例如,以K线形态这一模态的特征向量为例,可以分别对K线形态这一模态下的开盘价、最高价、最低价、收盘价以及成交量等5个维度的特征向量进行信息压缩,以获得K线形态这一模态的压缩特征向量。又例如,以技术指标为例,可以分别对技术指标这一模态下的随机指标KDJ、ASI指标、布林指标BOLL和BRAR指标等数十维度的特征向量进行信息压缩,以获得技术指标这一模态的压缩特征向量。
进一步,可以采用VAE算法对多模态特征向量分别进行信息压缩,进而获得多模态的压缩特征向量。例如,采用VAE算法分别对K线形态这一模态下的开盘价、最高价、最低价、收盘价以及成交量等5个维度的特征向量进行信息压缩,以获得K线形态这一模态的压缩特征向量。其中,采用VAE算法对多模态特征向量进行融合的过程,可参见上述业务系统实施例中图1c及其相关描述,在此不再赘述。
可选地,考虑到多模态特征向量中可能包含时间序列型特征向量和非时间序列型特征向量,基于此,可采用Seq2seq算法对多模态特征向量中的时间序列型特征向量进行信息压缩,并采用VAE算法对所述多模态特征向量中的非时间序列型特征向量进行信息压缩,以获得多模态的压缩特征向量。其中,对于时间序列型特征向量和非时间序列型特征向量的解释,可参见上述业务系统实施例中的相关描述,在此不再赘述。
值得说明的是,在实际搜索过程中不仅需要对待搜索对象的多模态特征向量进行融合,也需要在训练阶段预先对样本对象集中各样本对象的多模态特征向量进行融合和聚类处理,以便获得样本对象集对应的融合特征向量聚类结果,为后续实际搜索过程提供基础条件。即在步骤203之前,可获取样本对象集中各样本对象的多模态特征向量;并对各样本对象的多模态特征向量进行融合,以获得各样本对象对应的融合特征向量;接着,对各样本对象对应的融合特征向量进行聚类处理,进而获得该样本对象集对应的融合特征向量聚类结果。
进一步,上述获得样本对象集对应的融合特征向量聚类结果的一种可选实施方式为:采用层次聚类算法对各样本对象对应的融合特征向量进行聚类处理,以获得具有树状结构的多个融合特征向量聚类群及多个融合特征向量聚类中心;之后,将多个融合特征向量聚类中心按照树状结构存储至聚类中心数据库中,将多个融合特征向量聚类群按照树状结构存储至检索数据库中。
可选地,上述聚类中心数据库和/或检索数据库可采用内存数据库,可进一步提高后续对样本对象进行搜索的速度。
在一可选实施方式中,在步骤101中接收的搜索请求中还可携带有本次搜索的时间窗口。该时间窗口表示多模态特征向量所属的时间信息,即该时间窗口可明确表示是多长时间内的多模态特征向量,例如,一天、一周、一个月等。
基于上述携带有时间窗口的搜索请求,上述从样本对象集中获取符合搜索需求的样本对象之前,可从样本对象集对应不同时间窗口的融合特征向量聚类结果中,选择该样本对象集对应搜索请求中携带的时间窗口的融合特征向量聚类结果。例如,若时间窗口为一周,则从样本对象集对应不同时间窗口的融合特征向量聚类中,选择该样本对象集对应一周时间的融合特征向量聚类结果。
基于上述携带有时间窗口的搜索请求,上述获取样本对象集对应的融合特征向量聚类结果的一种可选实施方式为:获取样本对象集中各样本对象在指定时间窗口中的多模态特征向量特征;并对各样本对象在指定时间窗口中的多模态特征向量进行融合,进而获得各样本对象对应的在该指定时间窗口中的融合特征向量;并对各样本对象对应的在指定时间窗口中的融合特征向量进行聚类处理,进而获得样本对象对应指定时间窗口的融合特征向量聚类结果。
在另一可选实施方式中,在步骤202中采用层次聚类算法对多模态特征向量进行融合和在步骤203之前采用层次聚类算法对样本对象集进行融合和聚类训练的情况下,步骤203的一种可选实施方式为:根据目标融合特征向量和样本对象集对应的多个融合特征向量聚类中心之间的相似度,获取N个融合特征向量聚类中心;并将目标融合特征向量在获取的N个融合特征向量聚类中心对应的融合特征向量聚类群中进行匹配,进而获取符合搜索需求的M个融合特征向量;之后从样本对象集中获取这M个融合特征向量对应的样本对象。其中,N、M是正整数。
在本申请实施例中,不限定N和M的具体取值,根据不同的应用场景和样本对象,M和N的取值不同。可选地,可预设相似度阈值,则可以选择与目标融合特征向量之间的相似度超过预设的相似度阈值的N个融合特征向量聚类中心。
可选地,目标融合特征向量和样本对象集对应的多个融合特征向量聚类中心之间的相似度,可通过目标融合特征向量和融合特征向量聚类中心之间的距离进行表征,其距离越近,相似度越高。基于此,获取N个融合特征向量聚类中心的一种可选实施方式为:按照多个融合特征向量聚类中心之间的层级关系,逐层计算目标融合特征向量和多个融合特征向量聚类中心之间的向量距离;并从多个融合特征向量聚类中心中,选择与该目标融合特征向量最邻近的N个融合特征向量聚类中心。可选地,目标融合特征向量和融合特征向量聚类中心之间的向量距离可以采用欧式距离、曼哈顿距离、切比雪夫距离、马氏距离等,但不限于此。
在从样本对象集中获取这M个融合特征向量对应的样本对象的过程中,可以采用VAE算法中的解码器对M个融合特征向量进行解码还原出原始特征向量,进而使用原始特征向量来匹配样本对象。其中,VAE算法对每一个融合特征向量进行解码的逻辑过程相同。其中,采用VAE算法对每一个融合特征向量进行解码的过程可参见上述业务系统实施例中图1d及其相关描述,在此不再赘述。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质。该计算机程序被执行时,可实现上述方法实施例中可由服务器执行的各步骤。
图3为本申请实施例提供的另一种搜索方法的流程示意图。该方法适用于终端设备,如图3所示,该方法包括:
301、响应用户发起搜索的操作,展示搜索页面,该搜索页面包括待搜索对象对应的特征向量列表。
302、响应用户在所述特征向量列表中选择特征向量的操作,确定待搜索对象对应的多模态特征向量。
303、向服务器发送搜索请求,该搜索请求携带有多模态特征向量,以供服务器根据该多模态特征向量进行检索并返回符合搜索需求的样本对象。
在本实施例中,当用户需要针对待搜索对象发起搜索时,可通过终端设备向服务器发送相应的搜索请求,并在该搜索请求中携带待搜索对象的有多模态特征向量,以供服务器根据待搜索对象的多模态特征向量从样本对象集中搜索符合搜索需求的样本对象。在本实施例中,采用待搜索对象的多模态特征向量可以以更加全面的维度进行搜索,有利于提高搜索结果的精度。
值得说明的是,对于不同的应用场景,待搜索对象以及其多模态特征向量均会有所不同。
在一可选实施例中,终端设备上安装有相应的APP,用户可通过点击APP页面上的搜索按钮或搜索对话框发起搜索操作。在步骤301中,终端设备响应用户发起的搜索操作,向用户展示相应的搜索页面,该搜索页面上显示有待搜索对象对应的特征向量列表。用户可以通过点击或长按特征向量列表中的特征向量以选定待搜索对象对应的多个特征向量,从而形成多模态特征向量。在本申请实施例中,用户至少选择其中的两个特征向量,以形成多模态特征向量。其搜索页面的实施方式可参见上述图1b及其相关描述,在此不再赘述。
之后,进入步骤302,终端设备响应用户在特征向量列表中选择特征向量的操作,确定待搜索对象对应的多模态特征向量,并在步骤303中,将待搜索对象对应的多模态特征向量携带在搜索请求中发送给服务器。
可选地,终端设备可以在确定出待搜索对象对应的多模态特征向量后直接向服务器发送搜索请求。或者,用户在选定出待搜索对象对应的多模态特征向量后,可点击终端设备上搜索确定按钮,终端设备响应用户发出的搜索确定操作,将待搜索对象对应的多模态特征向量携带在搜索请求中发送给服务器。或者,用户可以再次点击搜索按钮以确定发起搜索,终端设备响应用户确定发起搜索的操作(即再次点击搜索按钮的操作),将待搜索对象对应的多模态特征向量携带在搜索请求中发送给服务器。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质。该计算机程序被执行时,可实现上述方法实施例中可由终端设备执行的各步骤。
需要说明的是,上述实施例所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤201至步骤204的执行主体可以为设备A;又比如,步骤201和202的执行主体可以为设备A,步骤403的执行主体可以为设备B;步骤404的执行主体可以为设备C等等。
另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如201、202等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
图4为本申请实施例提供的一种服务器的结构示意图。如图4所示,服务器包括:存储器40a、处理器40b和通信组件40c。其中,
通信组件40c,用于接收搜索请求,该搜索请求携带有待搜索对象的多模态特征向量。
存储器40a,用于存储计算机程序和样本对象集对应的融合特征向量聚类结果。
处理器40b,与存储器40a耦合,用于执行计算机程序,以用于:对多模态特征向量进行融合,以获得可反映待搜索对象的目标融合特征向量;根据该目标融合特征向量和样本对象集对应的融合特征向量聚类结果,从样本对象集中获取符合搜索需求的样本对象;通过通信组件40c将符合搜索需求的样本对象发送给搜索请求的发送端。
在一可选实施例中,处理器40b在对多模态特征向量进行融合时,具体用于:对多模态特征向量分别进行信息压缩,以获得多模态的压缩特征向量;对多模态的压缩特征向量进行合并,以获得可反映待搜索对象的整体特征向量;以该整体特征向量为基础,获得目标融合特征向量。
进一步,在多模态特征向量中,每种模态的特征向量包括多个维度。基于此,处理器40b在对多模态特征向量分别进行信息压缩时,具体用于:分别对每种模态下多个维度的特征向量进行信息压缩,以获得多模态的压缩特征向量。
可选地,处理器40b在对多模态特征向量分别进行信息压缩时,具体用于:采用VAE算法对多模态特征向量分别进行信息压缩,以获得多模态的压缩特征向量;或者采用Seq2seq算法对多模态特征向量中的时间序列型特征向量进行信息压缩,并采用VAE算法对多模态特征向量中的非时间序列型特征向量进行信息压缩,以获得多模态的压缩特征向量。
进一步,处理器40b在以整体特征向量为基础,获得目标融合特征向量,具体用于:直接将整体特征向量作为目标融合特征向量;或者,对整体特征向量进行压缩,以获得目标融合特征向量。
在另一可选实施例中,处理器40b在从样本对象集中获取符合搜索需求的样本对象之前,用于:获取样本对象集中各样本对象的多模态特征向量;对各样本对象的多模态特征向量进行融合,以获得各样本对象对应的融合特征向量;对各样本对象对应的融合特征向量进行聚类处理,以获得样本对象集对应的融合特征向量聚类结果。
进一步,处理器40b在对各样本对象对应的融合特征向量进行聚类处理时,具体用于:采用层次聚类算法对各样本对象对应的融合特征向量进行聚类处理,以获得具有树状结构的多个融合特征向量聚类群及多个融合特征向量聚类中心;将多个融合特征向量聚类中心按照树状结构存储至聚类中心数据库中,将多个融合特征向量聚类群按照树状结构存储至检索数据库中。
可选地,上述聚类中心数据库和/或检索数据库可采用内存数据库,并存储至存储器40a中。
进一步,通信组件40c接收到的搜索请求中,还携带有本次搜索的时间窗口。基于此,处理器40b在从样本对象集中获取符合搜索需求的样本对象之前,还用于:从样本对象集对应不同时间窗口的融合特征向量聚类结果中,选择样本对象集对应搜索请求中携带的时间窗口的融合特征向量聚类结果。
相应地,基于上述携带有时间窗口的搜索请求,处理器40b在获取样本对象集中各样本对象的多模态特征向量时,具体用于:获取样本对象集中各样本对象在指定时间窗口中的多模态特征向量。
相应地,处理器40b在对各样本对象的多模态特征向量进行融合时,具体用于:对各样本对象在指定时间窗口中的多模态特征向量进行融合,以获得各样本对象对应的在指定时间窗口中的融合特征向量。
进一步,处理器40b在对各样本对象对应的融合特征向量进行聚类处理时,具体用于:对各样本对象对应的在指定时间窗口中的融合特征向量进行聚类处理,以获得样本对象集对应指定时间窗口的融合特征向量聚类结果。
进一步,如图4所示,该服务器还包括:电源组件40e等其它组件。图4中仅示意性给出部分组件,并不意味着服务器只包括图4所示组件。
本实施例中,服务器在针对待搜索对象进行搜索时,一方面对多模态特征向量进行融合,可以从更全面的维度进行搜索,有利于提高搜索结果的精度;另一方面在搜索效率上引入聚类算法,基于样本对象集对应的聚类结果进行搜索,可以将多模态特征向量融合带来的搜索复杂度从O(n^2)降低至O(logn),让使得大规模、高频搜索成为可能。
图5为本申请实施例提供的一种终端设备的结构示意图。如图5所示,该终端设备包括:存储器50a、处理器50b、通信组件50c和显示器50d。其中,
存储器50a,用于存储计算机程序。
处理器50b,与存储器50a耦合,用于执行计算机程序,以用于:响应用户发起搜索的操作,控制显示器50d展示搜索页面,该搜索页面包括待搜索对象对应的特征向量列表;响应用户在特征向量列表中选择特征向量的操作,确定待搜索对象对应的多模态特征向量;以及通过通信组件50c向服务器发送搜索请求,该搜索请求携带有多模态特征向量,以供服务器根据所述多模态特征向量进行检索并返回符合搜索需求的样本对象。
进一步,如图5所示,该终端设备还包括:电源组件50e、音频组件50f等其它组件。图5中仅示意性给出部分组件,并不意味着终端设备只包括图5所示组件。
在本实施例中,当用户需要针对待搜索对象发起搜索时,终端设备响应用户的搜索操作向服务器发送相应的搜索请求,并在该搜索请求中携带待搜索对象的有多模态特征向量,以供服务器根据待搜索对象的多模态特征向量从样本对象集中搜索符合搜索需求的样本对象。在本实施例中,采用待搜索对象的多模态特征向量可以以更加全面的维度进行搜索,有利于提高搜索结果的精度。
上述图4和图5中的存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
上述图4和图5中的处理器可以为服务器和终端设备的中心处理器(CentralProcessing Unit,CPU),也可为服务器和终端设备的图形处理器(Graphics ProcessingUnit,GPU),或者CPU和GPU相互配合以实现处理器的功能。
上述图4和图5中的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
上述图5中的显示器包括屏幕,其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
上述图4和图5中的电源组件,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
上述图5中的音频组件,可被配置为输出和/或输入音频信号。例如,音频组件包括一个麦克风(MIC),当音频组件所在设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中,音频组件还包括一个扬声器,用于输出音频信号。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (20)
1.一种搜索方法,其特征在于,包括:
接收搜索请求,所述搜索请求携带有待搜索对象的多模态特征向量;
对所述多模态特征向量进行融合,以获得可反映所述待搜索对象的目标融合特征向量;
根据所述目标融合特征向量和样本对象集对应的融合特征向量聚类结果,从所述样本对象集中获取符合搜索需求的样本对象;
将所述符合搜索需求的样本对象发送给所述搜索请求的发送端。
2.根据权利要求1所述的方法,其特征在于,根据所述目标融合特征向量和样本对象集对应的融合特征向量聚类结果,从所述样本对象集中获取符合搜索需求的样本对象,包括:
根据所述目标融合特征向量和所述样本对象集对应的多个融合特征向量聚类中心之间的相似度,获取N个融合特征向量聚类中心;
将所述目标融合特征向量在所述N个融合特征向量聚类中心对应的融合特征向量聚类群中进行匹配,获取符合搜索需求的M个融合特征向量;
从所述样本对象集中获取所述M个融合特征向量对应的样本对象;其中,N、M是正整数。
3.根据权利要求2所述的方法,其特征在于,根据所述目标融合特征向量和所述样本对象集对应的多个融合特征向量聚类中心之间的相似度,获取N个融合特征向量聚类中心,包括:
按照所述多个融合特征向量聚类中心之间的层级关系,逐层计算所述目标融合特征向量和所述多个融合特征向量聚类中心之间的向量距离;
从所述多个融合特征向量聚类中心中,选择与所述目标融合特征向量最邻近的N个融合特征向量聚类中心。
4.根据权利要求1所述的方法,其特征在于,所述搜索请求还携带有本次搜索的时间窗口;
在根据所述目标融合特征向量和样本对象集对应的融合特征向量聚类结果,从所述样本对象集中获取符合搜索需求的样本对象之前,还包括:
从样本对象集对应不同时间窗口的融合特征向量聚类结果中,选择所述样本对象集对应所述搜索请求中携带的时间窗口的融合特征向量聚类结果。
5.根据权利要求1所述的方法,其特征在于,所述对所述多模态特征向量进行融合,以获得可反映所述待搜索对象的目标融合特征向量,包括:
对所述多模态特征向量分别进行信息压缩,以获得多模态的压缩特征向量;
对所述多模态的压缩特征向量进行合并,以获得可反映所述待搜索对象的整体特征向量;
以所述整体特征向量为基础,获得所述目标融合特征向量。
6.根据权利要求5所述的方法,其特征在于,在所述多模态特征向量中,每种模态的特征向量包括多个维度;
对所述多模态特征向量分别进行信息压缩,以获得多模态的压缩特征向量,包括:
分别对每种模态下多个维度的特征向量进行信息压缩,以获得多模态的压缩特征向量。
7.根据权利要求5所述的方法,其特征在于,对所述多模态特征向量分别进行信息压缩,以获得多模态的压缩特征向量,包括:
采用VAE算法对所述多模态特征向量分别进行信息压缩,以获得多模态的压缩特征向量;或者
采用Seq2seq算法对所述多模态特征向量中的时间序列型特征向量进行信息压缩,并采用VAE算法对所述多模态特征向量中的非时间序列型特征向量进行信息压缩,以获得多模态的压缩特征向量。
8.根据权利要求5所述的方法,其特征在于,以所述整体特征向量为基础,获得所述目标融合特征向量,包括:
直接将所述整体特征向量作为所述目标融合特征向量;或者
对所述整体特征向量进行压缩,以获得所述目标融合特征向量。
9.根据权利要求1所述的方法,其特征在于,所述待搜索对象为待购买股票或已购买股票,所述样本对象为历史股票。
10.根据权利要求9所述的方法,其特征在于,所述多模态特征向量包括:K线形态、技术指标、公司基本面以及公司事件中的至少两种模态。
11.根据权利要求1-10任一项所述的方法,其特征在于,在根据所述目标融合特征向量和样本对象集对应的融合特征向量聚类结果,从所述样本对象集中获取符合搜索需求的样本对象之前,还包括:
获取所述样本对象集中各样本对象的多模态特征向量;
对各样本对象的多模态特征向量进行融合,以获得各样本对象对应的融合特征向量;
对各样本对象对应的融合特征向量进行聚类处理,以获得所述样本对象集对应的融合特征向量聚类结果。
12.根据权利要求11所述的方法,其特征在于,对各样本对象对应的融合特征向量进行聚类处理,以获得所述样本对象集对应的融合特征向量聚类结果,包括:
采用层次聚类算法对各样本对象对应的融合特征向量进行聚类处理,以获得具有树状结构的多个融合特征向量聚类群及多个融合特征向量聚类中心;
将所述多个融合特征向量聚类中心按照树状结构存储至聚类中心数据库中,将所述多个融合特征向量聚类群按照树状结构存储至检索数据库中。
13.根据权利要求12所述的方法,其特征在于,所述聚类中心数据库和/或所述检索数据库采用内存数据库。
14.一种搜索方法,其特征在于,包括:
响应用户发起搜索的操作,展示搜索页面,所述搜索页面包括待搜索对象对应的特征向量列表;
响应所述用户在所述特征向量列表中选择特征向量的操作,确定所述待搜索对象对应的多模态特征向量;
向服务器发送搜索请求,所述搜索请求携带有所述多模态特征向量,以供所述服务器根据所述多模态特征向量进行检索并返回符合搜索需求的样本对象。
15.一种服务器,其特征在于,包括:存储器、处理器和通信组件;
所述通信组件,用于接收搜索请求,所述搜索请求携带有待搜索对象的多模态特征向量;
所述存储器,用于存储计算机程序和样本对象集对应的融合特征向量聚类结果;
所述处理器,与所述存储器耦合,用于执行所述计算机程序,以用于:
对所述多模态特征向量进行融合,以获得可反映所述待搜索对象的目标融合特征向量;根据所述目标融合特征向量和样本对象集对应的融合特征向量聚类结果,从所述样本对象集中获取符合搜索需求的样本对象;通过所述通信组件将所述符合搜索需求的样本对象发送给所述搜索请求的发送端。
16.一种终端设备,其特征在于,包括:存储器、处理器、通信组件和显示器;
所述存储器,用于存储计算机程序;
所述处理器,与所述存储器耦合,用于执行所述计算机程序,以用于:
响应用户发起搜索的操作,控制所述显示器展示搜索页面,所述搜索页面包括待搜索对象对应的特征向量列表;响应所述用户在所述特征向量列表中选择特征向量的操作,确定所述待搜索对象对应的多模态特征向量;以及通过所述通信组件向服务器发送搜索请求,所述搜索请求携带有所述多模态特征向量,以供所述服务器根据所述多模态特征向量进行检索并返回符合搜索需求的样本对象。
17.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序被执行时,可实现权利要求1-12任一项所述方法中的步骤。
18.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序被执行时,可实现权利要求13所述方法中的步骤。
19.一种业务系统,其特征在于,包括:终端设备和服务器;
所述终端设备,用于向所述服务器发送搜索请求,所述搜索请求携带有待搜索对象的多模态特征向量,并接收所述服务器返回的符合搜索需求的样本对象;
所述服务器,用于接收所述终端设备发送的所述搜索请求,对所述多模态特征向量进行融合,以获得可反映所述待搜索对象的目标融合特征向量;根据所述目标融合特征向量和样本对象集对应的融合特征向量聚类结果,从所述样本对象集中获取符合搜索需求的样本对象;将所述符合搜索需求的样本对象发送给所述终端设备。
20.根据权利要求19所述的系统,其特征在于,所述终端设备还用于:
在向所述服务器发送所述搜索请求之前,响应用户发起搜索的操作,展示搜索页面,所述搜索页面包括待搜索对象对应的特征向量列表;响应所述用户在所述特征向量列表中选择特征向量的操作,确定所述待搜索对象对应的多模态特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810904784.9A CN110858232B (zh) | 2018-08-09 | 2018-08-09 | 搜索方法、设备、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810904784.9A CN110858232B (zh) | 2018-08-09 | 2018-08-09 | 搜索方法、设备、系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110858232A true CN110858232A (zh) | 2020-03-03 |
CN110858232B CN110858232B (zh) | 2024-03-29 |
Family
ID=69634704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810904784.9A Active CN110858232B (zh) | 2018-08-09 | 2018-08-09 | 搜索方法、设备、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110858232B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116881541A (zh) * | 2023-05-05 | 2023-10-13 | 厦门亚瑟网络科技有限公司 | 针对在线搜索活动的ai处理方法及在线服务大数据系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040267774A1 (en) * | 2003-06-30 | 2004-12-30 | Ibm Corporation | Multi-modal fusion in content-based retrieval |
CN103425757A (zh) * | 2013-07-31 | 2013-12-04 | 复旦大学 | 融合多模态信息的跨媒体人物新闻检索方法与系统 |
CN104239566A (zh) * | 2014-09-28 | 2014-12-24 | 小米科技有限责任公司 | 视频搜索的方法及装置 |
CN106933953A (zh) * | 2017-01-22 | 2017-07-07 | 四川用联信息技术有限公司 | 一种模糊k均值聚类算法实现搜索引擎优化技术 |
US20180189572A1 (en) * | 2016-12-30 | 2018-07-05 | Mitsubishi Electric Research Laboratories, Inc. | Method and System for Multi-Modal Fusion Model |
-
2018
- 2018-08-09 CN CN201810904784.9A patent/CN110858232B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040267774A1 (en) * | 2003-06-30 | 2004-12-30 | Ibm Corporation | Multi-modal fusion in content-based retrieval |
CN103425757A (zh) * | 2013-07-31 | 2013-12-04 | 复旦大学 | 融合多模态信息的跨媒体人物新闻检索方法与系统 |
CN104239566A (zh) * | 2014-09-28 | 2014-12-24 | 小米科技有限责任公司 | 视频搜索的方法及装置 |
US20180189572A1 (en) * | 2016-12-30 | 2018-07-05 | Mitsubishi Electric Research Laboratories, Inc. | Method and System for Multi-Modal Fusion Model |
CN106933953A (zh) * | 2017-01-22 | 2017-07-07 | 四川用联信息技术有限公司 | 一种模糊k均值聚类算法实现搜索引擎优化技术 |
Non-Patent Citations (2)
Title |
---|
刘扬;郑逢斌;姜保庆;蔡坤;: "基于多模态融合和时空上下文语义的跨媒体检索模型的研究", vol. 29, no. 4, pages 1182 - 1187 * |
王琬;蒋兴浩;孙锬锋;: "基于首位数字特征的双重MPEG压缩检测算法", 电子与信息学报, no. 12 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116881541A (zh) * | 2023-05-05 | 2023-10-13 | 厦门亚瑟网络科技有限公司 | 针对在线搜索活动的ai处理方法及在线服务大数据系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110858232B (zh) | 2024-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110020009B (zh) | 在线问答方法、装置及系统 | |
CN112328761B (zh) | 一种意图标签设置方法、装置、计算机设备及存储介质 | |
CN111026853B (zh) | 目标问题的确定方法、装置、服务器和客服机器人 | |
CN116541610B (zh) | 一种推荐模型的训练方法及装置 | |
CN111582314A (zh) | 目标用户确定方法、装置及电子设备 | |
CN115935185A (zh) | 一种推荐模型的训练方法及装置 | |
US11900067B1 (en) | Multi-modal machine learning architectures integrating language models and computer vision systems | |
CN110858232B (zh) | 搜索方法、设备、系统及存储介质 | |
CN112330442A (zh) | 基于超长行为序列的建模方法及装置、终端、存储介质 | |
CN117009670A (zh) | 基于用户画像的综合推荐方法、装置、设备及存储介质 | |
CN117522538A (zh) | 招投标信息处理方法、装置、计算机设备及存储介质 | |
CN113963234B (zh) | 数据标注处理方法、装置、电子设备和介质 | |
CN112925972B (zh) | 信息推送方法、装置、电子设备和存储介质 | |
CN117216803B (zh) | 一种面向智慧金融的用户信息保护方法及系统 | |
CN117172632B (zh) | 一种企业异常行为检测方法、装置、设备及存储介质 | |
CN116757771A (zh) | 基于人工智能的方案推荐方法、装置、设备及存储介质 | |
US20150039385A1 (en) | System and method for liquidation management of a company | |
CN117909489A (zh) | 基于人工智能的数据生成方法、装置、设备及存储介质 | |
CN116542779A (zh) | 基于人工智能的产品推荐方法、装置、设备及存储介质 | |
CN116151986A (zh) | 基于用户风险类型的基金推荐方法、装置及设备 | |
CN117273960A (zh) | 产品推荐方法、装置、计算机设备及存储介质 | |
CN116932874A (zh) | 内容推荐方法、装置、电子设备和可读介质 | |
CN115049511A (zh) | 基于人工智能的标签生成方法、装置、设备及存储介质 | |
CN117422523A (zh) | 产品上线方法、装置、计算机设备及存储介质 | |
CN114240653A (zh) | 一种贵金属配对交易方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |