CN112115347B - 搜索结果的获取方法和装置及存储介质 - Google Patents
搜索结果的获取方法和装置及存储介质 Download PDFInfo
- Publication number
- CN112115347B CN112115347B CN202010694568.3A CN202010694568A CN112115347B CN 112115347 B CN112115347 B CN 112115347B CN 202010694568 A CN202010694568 A CN 202010694568A CN 112115347 B CN112115347 B CN 112115347B
- Authority
- CN
- China
- Prior art keywords
- text
- target
- search
- vector
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 106
- 239000013598 vector Substances 0.000 claims abstract description 749
- 230000003993 interaction Effects 0.000 claims description 80
- 238000012549 training Methods 0.000 claims description 43
- 230000006870 function Effects 0.000 claims description 22
- 238000006243 chemical reaction Methods 0.000 claims description 14
- 238000010276 construction Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 14
- 238000005516 engineering process Methods 0.000 abstract description 13
- 238000010586 diagram Methods 0.000 description 19
- 230000000694 effects Effects 0.000 description 19
- 238000012545 processing Methods 0.000 description 14
- 238000013528 artificial neural network Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 12
- 238000003058 natural language processing Methods 0.000 description 11
- 230000011218 segmentation Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 8
- 238000011176 pooling Methods 0.000 description 8
- 238000002372 labelling Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- 230000001960 triggered effect Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种人工智能场景下的搜索结果的获取方法和装置及存储介质,具体涉及人工智能场景下的自然语言学习以及机械学习技术。其中,该方法包括:获取携带有搜索文本的第一搜索指令,第一目标文本向量集中包括多个目标文本向量,目标文本向量为通过第一搜索网络对目标领域下的目标文本转换得到的向量;将搜索文本输入第二搜索网络,获取与搜索文本对应的搜索文本向量;获取搜索文本向量与多个目标文本向量中部分或全部目标文本向量的多个目标相关度;根据多个目标相关度,获取目标搜索结果。本发明解决了搜索结果的获取效率较低的技术问题。
Description
技术领域
本发明涉及人工智能领域,具体而言,涉及一种搜索结果的获取方法和装置及存储介质。
背景技术
近年搜索场景的应用越发广泛,但因待搜索文本的海量数据,导致根据用户的搜索文字进行搜索的工作量也是十分巨大的,而计算量大则对服务器的处理能力有着较大的挑战。而现有技术面对搜索工作的巨大工作量,往往通过牺牲搜索准确性以降低搜索的工作量,但对于用户来说,输入搜索文本但并未获得想要的搜索结果或耗费很长时间才能获得想要的搜索结果,这显然会降低用户的搜索体验。因此,存在搜索结果的获取效率较低的问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种搜索结果的获取方法和装置及存储介质,以至少解决搜索结果的获取效率较低的技术问题。
根据本发明实施例的一个方面,提供了一种搜索结果的获取方法,包括:获取携带有搜索文本的第一搜索指令,其中,上述第一搜索指令用于请求获取在目标领域下搜索到的与上述搜索文本匹配的目标搜索结果,上述目标领域配置有对应的第一目标文本向量集,上述第一目标文本向量集中包括多个目标文本向量,上述目标文本向量为通过第一搜索网络对上述目标领域下的目标文本转换得到的向量;将上述搜索文本输入第二搜索网络,获取与上述搜索文本对应的搜索文本向量,其中,上述第一搜索网络和上述第二搜索网络的网络结构同为目标搜索网络的网络结构,上述目标搜索网络用于将文本转换为向量;获取上述搜索文本向量与上述多个目标文本向量中部分或全部上述目标文本向量的多个目标相关度,其中,上述目标相关度用于表示上述搜索文本与上述目标文本的相关程度;根据上述多个目标相关度,获取上述目标搜索结果,其中,上述目标搜索结果中包括从上述部分或全部上述目标文本向量中确定出的全部或部分或上述目标文本向量各自对应的上述目标文本。
根据本发明实施例的一个方面,还提供了一种搜索结果的获取方法,包括:获取第二样本数据,其中,上述第二样本数据包括多组第二样本文本对,上述第二样本文本对包括存在关联关系的第一子样本文本和第二子样本文本;获取每组上述第二样本文本对匹配的第一子样本文本向量和第二子样本文本向量;将与每个上述第一子样本文本向量和上述第二子样本文本向量,输入初始化的上述目标搜索网络,以得到上述目标搜索网络;根据上述目标搜索网络的目标网络结构,构建第一搜索网络以及第二搜索网络,并根据上述第一搜索网络以及上述第二搜索网络获取搜索结果。
根据本发明实施例的另一方面,还提供了一种搜索结果的获取装置,包括:第一获取单元,用于获取携带有搜索文本的第一搜索指令,其中,上述第一搜索指令用于请求获取在目标领域下搜索到的与上述搜索文本匹配的目标搜索结果,上述目标领域配置有对应的第一目标文本向量集,上述第一目标文本向量集中包括多个目标文本向量,上述目标文本向量为通过第一搜索网络对上述目标领域下的目标文本转换得到的向量;第一输入单元,用于将上述搜索文本输入第二搜索网络,获取与上述搜索文本对应的搜索文本向量,其中,上述第一搜索网络和上述第二搜索网络的网络结构同为目标搜索网络的网络结构,上述目标搜索网络用于将文本转换为向量;第二获取单元,用于获取上述搜索文本向量与上述多个目标文本向量中部分或全部上述目标文本向量的多个目标相关度,其中,上述目标相关度用于表示上述搜索文本与上述目标文本的相关程度;第三获取单元,用于根据上述多个目标相关度,获取上述目标搜索结果,其中,上述目标搜索结果中包括从上述部分或全部上述目标文本向量中确定出的全部或部分上述目标文本向量各自对应的上述目标文本。
根据本发明实施例的另一方面,还提供了一种搜索结果的获取装置,包括:第八获取单元,用于获取第二样本数据,其中,上述第二样本数据包括多组第二样本文本对,上述第二样本文本对包括存在关联关系的第一子样本文本和第二子样本文本;第九获取单元,用于获取每组上述第二样本文本对匹配的第一子样本文本向量和第二子样本文本向量;输入单元,用于将与每个上述第一子样本文本向量和上述第二子样本文本向量,输入初始化的目标搜索网络,以得到训练好的上述目标搜索网络;构建单元,用于根据上述目标搜索网络的目标网络结构,构建第一搜索网络以及第二搜索网络,并根据上述第一搜索网络以及上述第二搜索网络获取搜索结果。
根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机目标,其中,该计算机目标被设置为运行时执行上述搜索结果的获取方法。
根据本发明实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机目标,其中,上述处理器通过计算机目标执行上述的搜索结果的获取方法。
在本发明实施例中,获取携带有搜索文本的第一搜索指令,其中,上述第一搜索指令用于请求获取在目标领域下搜索到的与上述搜索文本匹配的目标搜索结果,上述目标领域配置有对应的第一目标文本向量集,上述第一目标文本向量集中包括多个目标文本向量,上述目标文本向量为通过第一搜索网络对上述目标领域下的目标文本转换得到的向量;将上述搜索文本输入第二搜索网络,获取与上述搜索文本对应的搜索文本向量,其中,上述第一搜索网络和上述第二搜索网络的网络结构同为目标搜索网络的网络结构,上述目标搜索网络用于将文本转换为向量;获取上述搜索文本向量与上述多个目标文本向量中部分或全部上述目标文本向量的多个目标相关度,其中,上述目标相关度用于表示上述搜索文本与上述目标文本的相关程度;根据上述多个目标相关度,获取上述目标搜索结果,其中,上述目标搜索结果中包括从上述部分或全部上述目标文本向量中确定出的全部或部分上述目标文本向量各自对应的上述目标文本,通过根据孪生网络获取的相似程度较高的文本向量获取搜索结果,进而达到了减少搜索过程的计算量的目的,实现了提高搜索结果的获取效率的效果,进而解决了搜索结果的获取效率较低的技术问题。
在本发明实施例中,获取第二样本数据,其中,第二样本数据包括多组第二样本文本对,第二样本文本对包括存在关联关系的第一子样本文本和第二子样本文本;获取每组第二样本文本对匹配的第一子样本文本向量和第二子样本文本向量;将与每个第一子样本文本向量和第二子样本文本向量,输入初始化的目标搜索网络,以得到目标搜索网络;根据目标搜索网络的目标网络结构,构建第一搜索网络以及第二搜索网络,并根据上述第一搜索网络以及上述第二搜索网络获取搜索结果,通过训练的网络结构,以构造具有相同网络结构的子网络,进而达到了提高子网络分别输出的向量相似性的目的,从而实现了提高根据搜索网络获取的搜索结果的准确性的效果,进而解决了搜索结果的获取效率较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的搜索结果的获取方法的应用环境的示意图;
图2是根据本发明实施例的一种可选的搜索结果的获取方法的流程图的示意图;
图3是根据本发明实施例的一种可选的搜索结果的获取方法的示意图;
图4是根据本发明实施例的另一种可选的搜索结果的获取方法的示意图;
图5是根据本发明实施例的另一种可选的搜索结果的获取方法的示意图;
图6是根据本发明实施例的另一种可选的搜索结果的获取方法的示意图;
图7是根据本发明实施例的另一种可选的搜索结果的获取方法的示意图;
图8是根据本发明实施例的另一种可选的搜索结果的获取方法的示意图;
图9是根据本发明实施例的另一种可选的搜索结果的获取方法的示意图;
图10是根据本发明实施例的另一种可选的搜索结果的获取方法的示意图;
图11是根据本发明实施例的一种可选的搜索结果的获取方法的流程图的示意图;
图12是根据本发明实施例的另一种可选的搜索结果的获取方法的示意图;
图13是根据本发明实施例的另一种可选的搜索结果的获取方法的示意图;
图14是根据本发明实施例的另一种可选的搜索结果的获取方法的示意图;
图15是根据本发明实施例的另一种可选的搜索结果的获取方法的示意图;
图16是根据本发明实施例的另一种可选的搜索结果的获取方法的示意图;
图17是根据本发明实施例的一种可选的搜索结果的获取装置的示意图;
图18是根据本发明实施例的另一种可选的搜索结果的获取装置的示意图;
图19是根据本发明实施例的另一种可选的搜索结果的获取装置的示意图;
图20是根据本发明实施例的一种可选的搜索结果的获取装置的示意图;
图21是根据本发明实施例的一种可选的电子装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
人工智能(Artificial Intelligence,简称AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,简称NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供的方案涉及人工智能的自然语言处理以及机械学习等技术,具体通过如下实施例进行说明:
根据本发明实施例的一个方面,提供了一种搜索结果的获取方法,可选地,作为一种可选的实施方式,上述搜索结果的获取方法可以但不限于应用于如图1所示的环境中。其中,可以但不限于包括用户设备102、网络110及服务器112,其中,该用户设备102上可以但不限于包括显示器108、处理器106及存储器104,显示器108上可以但不限于显示搜索文本1022、搜索领域1024以及目标搜索结果1026。
具体过程可如下步骤:
步骤S102,用户设备102通过显示器108中安装的可识别到触碰操作的感应器,获取显示器108上的“搜索”位置处触发的触碰信号,进而根据触碰信号获取携带有搜索文本1022的第一搜索指令,其中,第一搜索指令用于在目标领域1024的文本中搜索与搜索文本1022对应的目标文本1026;
步骤S104-S106,用户设备102通过网络110将第一搜索指令发送给服务器112;
步骤S108,服务器112通过处理引擎116将第一搜索指令中携带的搜索文本112输入第二搜索网络(图中未示出),获取与搜索文本对应的搜索文本向量;获取搜索文本向量与多个目标文本向量中部分或全部目标文本向量的多个目标相关度,其中,目标文本向量为通过第一搜索网络(图中未示出)对目标领域1024下的目标文本转换得到的向量;根据多个目标相关度,获取目标搜索结果;
步骤S110-S112,服务器112通过网络110将目标搜索结果发送给用户设备102,用户设备102中的处理器106根据目标搜索结果获取目标文本1026,并将目标文本1026显示在显示器108,以及存储在存储器104中,其中,目标文本1026可以但不限于包括目标领域1024下多个文本标识,文本标识用于指示跳转并获取对应的目标领域1024的程序,例如,目标文本1026包括三个文本标识,“1、跳一跳”文本标识用于指示当前画面跳转为目标程序所对应的画面。
可选地,作为一种可选的实施方式,如图2所示,搜索结果的获取方法包括:
S202,获取携带有搜索文本的第一搜索指令,其中,第一搜索指令用于请求获取在目标领域下搜索到的与搜索文本匹配的目标搜索结果,目标领域配置有对应的第一目标文本向量集,第一目标文本向量集中包括多个目标文本向量,目标文本向量为通过第一搜索网络对目标领域下的目标文本转换得到的向量;
S204,将搜索文本输入第二搜索网络,获取与搜索文本对应的搜索文本向量,其中,第一搜索网络和第二搜索网络的网络结构同为目标搜索网络的网络结构,目标搜索网络用于将文本转换为向量;
S206,获取搜索文本向量与多个目标文本向量中部分或全部目标文本向量的多个目标相关度,其中,目标相关度用于表示搜索文本与目标文本的相关程度;
S208,根据多个目标相关度,获取目标搜索结果,其中,目标搜索结果中包括从部分或全部目标文本向量中确定出的全部或部分目标文本向量各自对应的目标文本。
可选的,搜索结果的获取方法可以但不限于应用于垂直搜索场景,具体的,可以但不限于应用在用户搜索目的是寻找某个固定的账号或其他目标,但无法确定其准确名称,需通过相似的关键词搜索获取结果的场景下,其中,垂直搜索可以但不限于为一种针对某一个行业的专业搜索,可以但不但不限于是搜索引擎的细分和延伸,以及对库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户,例如公众号搜索、小程序搜索等。搜索文本可以但不限于为用户搜索的文本,包括中文、字母、数字、标点符号、音频等。搜索结果可以但不限于为根据搜索文本返回的信息,还可以但不限于为跳转标识,其中,跳转标识用于跳转至搜索结果对应的画面或程序,例如,根据搜索文本返回跳转标识用于跳转至程序A的登录界面。网络结构相同可以但不限于为类型相同,且共享相同的权值。文本向量可以但不限于指的是将一段不定长的文本通过某种方式转换成一个定长的数值型向量。向量可分为两种形式:一种是高维稀疏向量,通常是将词表的长度作为向量的长度,每一维表示一个单词,只有在文本单词所对应的维度才有非零值,大部分维度都为零;另一种是低维稠密向量,可将文本输入到神经网络等模型中,通过训练输出向量表示,向量的每一维基本是非零值,没有明确的物理含义,但效果通常比高维稀疏向量更好。可选的,搜索结果的获取方法还可以但不限应用在文本与文本之间的匹配场景下。可选的,目标文本向量与目标文本一一对应。
可选的,搜索结果的获取方法可以但不限基于孪生网络,其中,孪生网络可以但不限为一种判断两个可比较对象是否相关的人工神经网络。这种人工神经网络通常有两个相同类型的子网络结构,并且这两个子网络结构共享权值。每个子网络结构接收一个对象作为输入,并将其转换为特征向量,输入到统一的结构判断相似性。可选的,第一搜索网络、第二搜索网络可以但不限基于Bert(BidirectionalEncoderRepresentationsfromTransformers,简称Bert)模型训练的网络,其中,Bert模型可以但不限于为一种语言模型,可将不定长文本转换成低维稠密的数值向量表示。Bert采用了两种训练方法,一种是掩码学习(MaskedLearning),做法是随机掩盖掉文本中的一些单词,然后用其他单词来预测这些被掩盖掉的词,这种方式主要学习单词的向量表示;另一种是下一句预测(Next SentencePrediction),做法是将文本的一个句子作为输入,预测下一个句子,这种方式主要学习句子的向量表示。Bert模型在多项公开的自然语言处理任务中都取得了非常优秀的效果。第一搜索网络、第二搜索网络还可以但不限基于不同的模型训练的网络,例如XLNet模型等,在此不做过多限制。
需要说明的是,获取携带有搜索文本的第一搜索指令,其中,第一搜索指令用于请求获取在目标领域下搜索到的与搜索文本匹配的目标搜索结果,目标领域配置有对应的第一目标文本向量集,第一目标文本向量集中包括多个目标文本向量,目标文本向量为通过第一搜索网络对目标领域下的目标文本转换得到的向量;将搜索文本输入第二搜索网络,获取与搜索文本对应的搜索文本向量,其中,第一搜索网络和第二搜索网络的网络结构同为目标搜索网络的网络结构,目标搜索网络用于将文本转换为向量;获取搜索文本向量与多个目标文本向量中部分或全部目标文本向量的多个目标相关度,其中,目标相关度用于表示搜索文本与目标文本的相关程度;根据多个目标相关度,获取目标搜索结果,其中,目标搜索结果中包括从多个目标文本向量中确定出的部分或全部目标文本向量各自对应的目标文本。可选的,例如包括N个目标文本向量,则在N个目标文本向量中确定m个目标文本向量,并确定m个目标文本向量对应的m个目标相关度,再在m个目标相关度中选取k个目标相关度作为目标搜索结果。可选的,可以但不限于对搜索文本和/或目标文本执行数据集预处理,例如分别对目标文本与搜索文本进行文本预处理,可以但不限于包括特殊符号处理、英文大小写转换以及繁简体字统一等。
进一步举例说明,可选的例如图3所示,包括目标终端302,以及显示在目标终端302的搜索界面上的搜索文本304、目标领域306、目标搜索结果308,其中,搜索文本304为通过目标终端302输入并显示在搜索界面上的文本信息,目标领域306为通过目标终端302选择并显示在搜索界面上的领域信息,目标搜索结果308为显示在目标终端302的搜索界面上的文本信息或程序标识,具体步骤如下:
步骤S302,获取携带有搜索文本304的第一搜索指令;
步骤S304,获取与搜索文本对应的目标搜索结果308;
具体的举例说明,可选的例如图3所示,获取目标终端302的搜索界面上“搜索”处触发的第一搜索指令,其中,第一搜索指令用于指示搜索目标领域306下与搜索文本304匹配的搜索结果;根据搜索文本304对应的文本信息“跳跳”,在目标领域306下的全部文本信息中查找与之匹配的搜索结果,具体的,包括“1、跳一跳”、“2、跳跳跳”、“3、跳了”,其中,与搜索文本304“跳跳”相似度最高的为“1、跳一跳”,其次为2、跳跳跳”,再其次为“3、跳了”,其中,因目标领域306为小程序,则可根据目标搜索结果308对应的文本标识触发页面转换指令,其中,页面转换指令用于指示当前界面由搜索界面转换为目标搜索结果对应的目标页面;例如,“1、跳一跳”对应的位置上触发页面转换指令,则页面转换指令用于指示目标终端302的当前页面由搜索界面转换为小程序“1、跳一跳”对应的界面。
进一步举例说明,可选的例如图4所示,包括第一搜索网络、第二搜索网络以及分类器412,将目标领域414下的全部目标文本402输入第一搜索网络,获得第一目标文本向量集404,其中,第一目标文本向量集404中包括通过转换全部目标文本402获得的多个目标文本向量;将目标领域414下的搜索文本406输入第二搜索网络,获得搜索文本向量408;将搜索文本向量408与第一目标文本向量集404中的多个目标文本向量以组合的方式输入分类器410,并获得多个目标相关度412;根据多个目标相关度412,获取目标搜索结果(图中未示出)。
通过本申请提供的实施例,获取携带有搜索文本的第一搜索指令,其中,第一搜索指令用于请求获取在目标领域下搜索到的与搜索文本匹配的目标搜索结果,目标领域配置有对应的第一目标文本向量集,第一目标文本向量集中包括多个目标文本向量,目标文本向量为通过第一搜索网络对目标领域下的目标文本转换得到的向量;将搜索文本输入第二搜索网络,获取与搜索文本对应的搜索文本向量,其中,第一搜索网络和第二搜索网络的网络结构同为目标搜索网络的网络结构,目标搜索网络用于将文本转换为向量;获取搜索文本向量与多个目标文本向量中部分或全部目标文本向量的多个目标相关度,其中,目标相关度用于表示搜索文本与目标文本的相关程度;根据多个目标相关度,获取目标搜索结果,其中,目标搜索结果中包括从部分或全部目标文本向量中确定出的全部或部分目标文本向量各自对应的目标文本,通过通过孪生网络更有效地捕捉搜索文本和搜索结果的相关性,并利用提前计算好的搜索结果的向量,进而达到了提高搜索结果的获取速度,以及减少搜索过程的计算量的目的,实现了提高搜索结果的获取效率的效果。
作为一种可选的方案,在获取携带有搜索文本的第一搜索指令之前,包括:
S1,获取目标文本中的目标文本信息,其中,目标文本信息包括第一文本信息、第二文本信息;
S2,将标题文本信息输入第一搜索网络中的第一搜索子网络,获取第一文本向量;
S3,将简介文本信息输入第一搜索网络中的第二搜索子网络,获取第二文本向量,其中,第一搜索子网络及第二搜索子网的网络结构同为目标搜索网络的网络结构;
S4,根据第一文本向量与第二文本向量,获取目标文本向量。
需要说明的是,获取目标文本中的目标文本信息,其中,目标文本信息包括第一文本信息、第二文本信息;将标题文本信息输入第一搜索网络中的第一搜索子网络,获取第一文本向量;将简介文本信息输入第一搜索网络中的第二搜索子网络,获取第二文本向量,其中,第一搜索子网络及第二搜索子网的网络结构同为目标搜索网络的网络结构;根据第一文本向量与第二文本向量,获取目标文本向量。可选的,目标文本信息可以但不限于包括标题文本信息、摘要文本信息、简介文本信息等。
进一步举例说明,可选的例如图5所示,包括第一搜索网络502,其中,第一搜索网络502包括第一搜索子网络504、第二搜索子网络506,;将目标文本508输入第一搜索网络502,获得第一文本向量514以及第二文本向量516,具体的,将目标文本508分为第一文本信息510以及第二文本信息512并分别输入第一搜索子网络504以及第二搜索子网络506,通过第一搜索子网络504以及第二搜索子网络506分别将第一文本信息510以及第二文本信息512转换并输出为第一文本向量514以及第二文本向量516。可选的,将目标文本508分为第一文本信息510以及第二文本信息512可以但不限于通过第一搜索网络502实现,也可以在输入至第一搜索网络502前预先在目标文本508中提取出第一文本信息510以及第二文本信息512,再将第一文本信息510以及第二文本信息512分别输入第一搜索网络502中的第一搜索子网络504以及第二搜索子网络506。
通过本申请提供的实施例,获取目标文本中的目标文本信息,其中,目标文本信息包括第一文本信息、第二文本信息;将标题文本信息输入第一搜索网络中的第一搜索子网络,获取第一文本向量;将简介文本信息输入第一搜索网络中的第二搜索子网络,获取第二文本向量,其中,第一搜索子网络及第二搜索子网的网络结构同为目标搜索网络的网络结构;根据第一文本向量与第二文本向量,获取目标文本向量,达到了细化目标文本的输入维度的目的,实现了提高对目标领域下目标文本的搜索准确性的效果。
作为一种可选的方案,根据第一文本向量与第二文本向量,获取携带有搜索文本的第一搜索指令目标文本向量包括:
S1,对第一文本向量与第二文本向量进行合并,获得第三文本向量;
S2,获取第三文本向量与搜索文本向量之差的第一绝对值,并将第一绝对值作为第一交互特征向量;
S3,获取第三文本向量与搜索文本向量相乘的第二绝对值,并将第二绝对值作为第二交互特征向量;
S4,对第一交互特征向量和第二交互特征向量进行合并,获得目标交互特征向量,并将目标交互特征向量作为目标文本向量。
需要说明的是,对第一文本向量与第二文本向量进行合并,获得第三文本向量;获取第三文本向量与搜索文本向量之差的第一绝对值,并将第一绝对值作为第一交互特征向量;获取第三文本向量与搜索文本向量相乘的第二绝对值,并将第二绝对值作为第二交互特征向量;对第一交互特征向量和第二交互特征向量进行合并,获得目标交互特征向量,并将目标交互特征向量作为目标文本向量。可选的,第一绝对值可以但不限于与相似度呈反比关系,第二绝对值可以但不限于与相似度呈正比关系。
进一步举例说明,可选的例如图6所示,合并第一文本向量514以及第二文本向量516,得到合并后的第三文本向量602,其中,合并可以但不限于为简单的向量拼接,也可以但不限于为根据预设权重执行的复杂合并,还可以但不限于将文本向量输入网络层,并得到输出的合并向量,其中,网络层可以但不限于包括全连接网路层、卷积层、池化层等;例如,将第一文本向量514以及第二文本向量516输进行简单拼接后,输入至一个全连接网路层,并由该全连接网络层输出一个整体的向量,其中,全连接层可以但不限于为一种人工神经网络中的基础结构,每一层是由多个人工神经元组成,当前层的每个人工神经元会与上一层的所有神经元进行连接,非邻居的全连接层则没有连接,可选的在深度学习中,用于分类任务的神经网络模型通常在末端使用全连接层,可将隐层特征有效地映射到样本标记空间,提高训练效果。可选的,池化层可以但不限于是人工神经网络中的基础结构之一,主要作用是减小模型参数量,降低过拟合。常用的池化层分为平均池化层和最大池化层。两种池化层都是将上一层神经网络抽取的特征向量转换成更低维的特征向量,区别在于,平均池化层是在设定的维度范围内计算平均值,而最大池化层是计算最大值。
进一步举例说明,可选的例如图7所示,包括第二搜索网络702,将搜索文本704输入第二搜索网络702,获得搜索文本向量706,对搜索文本向量706以及第三文本向量602分别作第一交叉处理以及第二交叉处理,分别获得第一交互特征向量708以及第二交互特征向量710,具体的,第一交叉处理为对搜索文本向量706以及第三文本向量602作差处理,并将处理结果的绝对值作为第一交互特征向量708;第二交叉处理为对搜索文本向量706以及第三文本向量602作相乘处理,并将处理结果的绝对值作为第二交互特征向量710;合并第一交互特征向量708以及第二交互特征向量710,获得目标文本向量712。
通过本申请提供的实施例,对第一文本向量与第二文本向量进行合并,获得第三文本向量;获取第三文本向量与搜索文本向量之差的第一绝对值,并将第一绝对值作为第一交互特征向量;获取第三文本向量与搜索文本向量相乘的第二绝对值,并将第二绝对值作为第二交互特征向量;对第一交互特征向量和第二交互特征向量进行合并,获得目标交互特征向量,并将目标交互特征向量作为目标文本向量,通过多种交互特征来更有效地捕捉搜索文本和搜索结果的相关性,达到了提高网络的输出精度的目的,实现了提高搜索结果的输出准确性的效果。
作为一种可选的方案,在第一目标文本向量集中包括N个目标文本向量的情况下,
S1,获取搜索文本向量与多个目标文本向量中部分或全部目标文本向量的多个目标相关度包括:分别计算搜索文本向量与N个目标文本向量中各个目标文本向量之间的余弦相关度,得到N个目标相关度,其中,N为大于等于0的整数;
S2,根据多个目标相关度,获取目标搜索结果包括:从N个目标相关度中获取m个目标相关度,其中,m为小于等于N,且大于等于0的整数;利用m个目标相关度对应的m个目标文本向量构建第二目标文本向量集;从第二目标文本向量集中确定出目标搜索结果。
需要说明的是,获取搜索文本向量与多个目标文本向量中各个目标文本向量的多个目标相关度包括:分别计算搜索文本向量与N个目标文本向量中各个目标文本向量之间的余弦相关度,得到N个目标相关度,其中,N为大于等于0的整数;根据多个目标相关度,获取目标搜索结果包括:从N个目标相关度中获取m个目标相关度,其中,m为小于等于N,且大于等于0的整数;利用m个目标相关度对应的m个目标文本向量构建第二目标文本向量集;从第二目标文本向量集中确定出目标搜索结果。
进一步举例说明,可选的例如图8所示,第一目标文本向量集404中包括N个目标文本向量,将第一目标文本向量集404中的N个目标文本向量分别与搜索文本向量408进行余弦计算,获得N个目标相似度802,在N个目标相似度802中选取相似度由大至小排序前m的目标相似度802,以构建第二目标文本向量集804,其中,第二目标文本向量集804包括m个目标相关度802对应的目标文本向量。
通过本申请提供的实施例,获取搜索文本向量与多个目标文本向量中部分或全部目标文本向量的多个目标相关度包括:分别计算搜索文本向量与N个目标文本向量中各个目标文本向量之间的余弦相关度,得到N个目标相关度,其中,N为大于等于0的整数;根据多个目标相关度,获取目标搜索结果包括:从N个目标相关度中获取m个目标相关度,其中,m为小于等于N,且大于等于0的整数;利用m个目标相关度对应的m个目标文本向量构建第二目标文本向量集;从第二目标文本向量集中确定出目标搜索结果,采用大规模无监督数据集对模型进行预训练,达到了有效地节约人工标注成本的目的,实现了提高目标文本的处理效率的效果。
作为一种可选的方案,从第二目标文本向量集中确定出目标搜索结果包括:
S1,将第二目标文本向量中每个目标文本向量的目标交互特征向量输入至目标分类器中,并得到第一分类结果,其中,目标分类器为利用第一样本数据训练后得到的分类网络,第一分类结果用于表示目标交互特征向量与搜索文本向量的相似度;
S2,根据第一分类结果从第二目标文本向量中确定出目标搜索结果,其中,目标搜索结果包括k个目标文本向量,k个目标文本向量的相似度大于等于预设阈值,k为小于等于m,且大于等于0的整数。
需要说明的是,将第二目标文本向量中每个目标文本向量的目标交互特征向量输入至目标分类器中,并得到第一分类结果,其中,目标分类器为利用第一样本数据训练后得到的分类网络,第一分类结果用于表示目标交互特征向量与搜索文本向量的相似度;根据第一分类结果从第二目标文本向量中确定出目标搜索结果,其中,目标搜索结果包括k个目标文本向量,k个目标文本向量的相似度大于等于预设阈值,k为小于等于m,且大于等于0的整数。可选的,k个目标文本向量的相似度可以但不限于在第二目标文本向量中的大小排序前k。
进一步举例说明,可选的例如图9所示,包括分类器902,将第二目标文本向量集804中的m个目标文本向量分别与搜索文本向量408进行处理,并获得m个目标交互特征向量904;将m个目标交互特征向量904输入分类器902,得到第一分类结果906,其中,第一分类结果906包括m个相似度;根据第一分类结果906,确定目标搜索结果908,其中,目标搜索结果908中包括在m个相似度中相似度大于预设阈值的k个相似度,还包括与k个相似度对应的k个目标文本402。
通过本申请提供的实施例,将第二目标文本向量中每个目标文本向量的目标交互特征向量输入至目标分类器中,并得到第一分类结果,其中,目标分类器为利用第一样本数据训练后得到的分类网络,第一分类结果用于表示目标交互特征向量与搜索文本向量的相似度;根据第一分类结果从第二目标文本向量中确定出目标搜索结果,其中,目标搜索结果包括k个目标文本向量,k个目标文本向量的相似度大于等于预设阈值,k为小于等于m,且大于等于0的整数,达到了获取与搜索文本匹配度更准确的目标文本的目的,实现了提高与搜索文本匹配的目标文本的获取准确性的效果。
作为一种可选的方案,在将第三交互特征向量输入目标分类网络中之前,包括:
S1,获取第一样本数据,其中,第一样本数据包括多组第一样本文本对,第一样本文本对中包括样本搜索文本以及样本目标文本,样本标签,样本标签用于指示样本目标文本与样本搜索文本的关联性;
S2,获取与每组第一样本文本对匹配的第一样本文本特征向量,其中,第一样本文本特征向量为对与样本搜索文本对应的样本搜索文本向量,和与样本目标文本对应的样本目标文本向量进行合并后得到的特征向量;
S3,将与每组第一样本文本对分别匹配的第一样本文本特征向量输入初始化的目标分类器,以得到目标分类器。
需要说明的是,获取第一样本数据,其中,第一样本数据包括多组第一样本文本对,第一样本文本对中包括样本搜索文本以及样本目标文本,样本标签,样本标签用于指示样本目标文本与样本搜索文本的关联性;获取与每组第一样本文本对匹配的第一样本文本特征向量,其中,第一样本文本特征向量为对与样本搜索文本对应的样本搜索文本向量,和与样本目标文本对应的样本目标文本向量进行合并后得到的特征向量;将与每组第一样本文本对分别匹配的第一样本文本特征向量输入初始化的目标分类器,以得到目标分类器。
可选的,第一样本数据可以但不限于为人工标注数据集,具体的例如,随机抽取在线的搜索文本和目标文本,然后通过人工判断搜索文本和目标文本是否相关,做二分类标注。
进一步举例说明,可选的例如图10所示,包括第一样本文本对1002、初始分类器1016,其中,第一样本文本对1002中包括样本搜索文本1004以及样本目标文本1006,将样本搜索文本1004以及样本目标文本1006分别输入第二搜索网络以及第一搜索网络,并分别获得对应的样本搜索文本向量1010以及样本目标文本向量1012;通过合并、交互等处理,将样本搜索文本向量1010以及样本目标文本向量1012处理为第一样本文本特征向量1014,并将第一样本文本特征向量1014输入初始分类器1016,以训练初始分类器1016。
通过本申请提供的实施例,获取第一样本数据,其中,第一样本数据包括多组第一样本文本对,第一样本文本对中包括样本搜索文本以及样本目标文本,样本标签,样本标签用于指示样本目标文本与样本搜索文本的关联性;获取与每组第一样本文本对匹配的第一样本文本特征向量,其中,第一样本文本特征向量为对与样本搜索文本对应的样本搜索文本向量,和与样本目标文本对应的样本目标文本向量进行合并后得到的特征向量;将与每组第一样本文本对分别匹配的第一样本文本特征向量输入初始化的目标分类器,以得到目标分类器,达到了通过样本数据训练分类器的目的,实现了提高分类器的分类准确性的效果。
作为一种可选的方案,将搜索文本输入第二搜索网络,获取与搜索文本对应的搜索文本向量包括:
按照第二搜索网络中的预定策略提取搜索文本的文本特征,并将其转化为目标格式的搜索文本向量,其中,预定策略为目标搜索网络的网络结构对应的转换策略,预定策略用于指示将提取的文本特征转化为目标格式的向量。
需要说明的是,按照第二搜索网络中的预定策略提取搜索文本的文本特征,并将其转化为目标格式的搜索文本向量,其中,预定策略为目标搜索网络的网络结构对应的转换策略,预定策略用于指示将提取的文本特征转化为目标格式的向量。可选的,预定策略可以但不限于包括采用外部标准语义策略数据,预训练得到的语义策略。
进一步举例说明,可选的例如采用公开的维基百科中文数据集,对第一搜索网络、第二搜索网络进行预测策略的预训练。
通过本申请提供的实施例,按照第二搜索网络中的预定策略提取搜索文本的文本特征,并将其转化为目标格式的搜索文本向量,其中,预定策略为目标搜索网络的网络结构对应的转换策略,预定策略用于指示将提取的文本特征转化为目标格式的向量,达到了第一搜索网络、第二搜索网络保持相同预测策略的目的,实现了提高通过第一搜索网络、第二搜索网络输出的向量相似性的效果。
可选地,作为一种可选的实施方式,如图11所示,搜索结果的获取方法包括:
S1102,获取第二样本数据,其中,第二样本数据包括多组第二样本文本对,第二样本文本对包括存在关联关系的第一子样本文本和第二子样本文本;
S1104,获取每组第二样本文本对匹配的第一子样本文本向量和第二子样本文本向量;
S1106,将与每个第一子样本文本向量和第二子样本文本向量,输入初始化的目标搜索网络,以得到目标搜索网络;
S1108,根据目标搜索网络的目标网络结构,构建第一搜索网络以及第二搜索网络,并根据第一搜索网络以及第二搜索网络获取搜索结果。
需要说明的是,获取第二样本数据,其中,第二样本数据包括多组第二样本文本对,第二样本文本对包括存在关联关系的第一子样本文本和第二子样本文本;获取每组第二样本文本对匹配的第一子样本文本向量和第二子样本文本向量;将与每个第一子样本文本向量和第二子样本文本向量,输入初始化的目标搜索网络,以得到目标搜索网络;根据目标搜索网络的目标网络结构,构建第一搜索网络以及第二搜索网络,并根据第一搜索网络以及第二搜索网络获取搜索结果。
进一步举例说明,可选的例如图12所示,包括目标搜索网络1204,以及预训练任务1206,将第二样本数据1202中的样本数据依次输入目标搜索网络1204,并根据预训练任务1206对目标搜索网络1204进行迭代训练,直至达到收敛条件,获取训练好的目标搜索网络1204,并确定训练好的目标搜索网络1204的网络结构,以构建第一搜索网络(此处未示出)以及第二搜索网络(此处未示出)。
通过本申请提供的实施例,获取第二样本数据,其中,第二样本数据包括多组第二样本文本对,第二样本文本对包括存在关联关系的第一子样本文本和第二子样本文本;获取每组第二样本文本对匹配的第一子样本文本向量和第二子样本文本向量;将与每个第一子样本文本向量和第二子样本文本向量,输入初始化的目标搜索网络,以得到目标搜索网络;根据目标搜索网络的目标网络结构,构建第一搜索网络以及第二搜索网络,并根据第一搜索网络以及第二搜索网络获取搜索结果,通过训练的网络结构,以构造具有相同网络结构的子网络,进而达到了提高子网络分别输出的向量相似性的目的,从而实现了提高根据搜索网络获取的搜索结果的准确性的效果。
作为一种可选的方案,将与每个第二样本文本分别对应的第二样本文本特征向量,输入初始化的目标搜索网络,以得到目标搜索网络的目标网络结构包括:
S1,依次从多个第二样本文本中获取当前样本文本对,重复执行以下步骤,直至目标搜索网络达到第一收敛条件:
S2,获取与当前样本文本对应的当前显示字样本文本特征向量和当前隐藏字样本特征向量;
S3,将当前显示字样本文本特征向量和当前隐藏字样本特征向量输入当前训练中的目标搜索网络;
S4,获取当前第一输出结果,其中,当前第一输出结果包括第一预测向量,第一预测向量用于表示根据当前显示字样本文本特征向量预测的隐藏字样本特征向量;
S5,在当前第一输出结果指示第一损失函数达到第一预设阈值的情况下,确定目标搜索网络达到第一收敛条件,其中,第一损失函数用于表示根据当前显示字样本文本特征向量预测的隐藏字样本特征向量的正确率。
需要说明的是,依次从多个第二样本文本中获取当前样本文本对,重复执行以下步骤,直至目标搜索网络达到第一收敛条件:获取与当前样本文本对应的当前显示字样本文本特征向量和当前隐藏字样本特征向量;将当前显示字样本文本特征向量和当前隐藏字样本特征向量输入当前训练中的目标搜索网络;获取当前第一输出结果,其中,当前第一输出结果包括第一预测向量,第一预测向量用于表示根据当前显示字样本文本特征向量预测的隐藏字样本特征向量;在当前第一输出结果指示第一损失函数达到第一预设阈值的情况下,确定目标搜索网络达到第一收敛条件,其中,第一损失函数用于表示根据当前显示字样本文本特征向量预测的隐藏字样本特征向量的正确率。
进一步举例说明,可选的例如随机掩盖掉输入的当前样本文本对中的某些字(当前隐藏字样本特征向量),然后根据输入的当前样本文本对中的其他字(当前显示字样本文本特征向量)来预测被掩盖掉的字,即“词预测”。
进一步举例说明,可选的例如先随机掩盖掉输入的当前样本文本对中的某些字(当前隐藏字样本特征向量),然后根据输入的当前样本文本对中的其他字(当前显示字样本文本特征向量)来预测被掩盖掉的字,即“词预测”;再将两个句子组成一个输入样本,用第一个句子去预测第二个句子出现的概率,即“句子预测”。
Bert模型有几个优势:(1)不需要对输入文本进行分词,输入文本的粒度是字,而不是单词,避免了中文分词工具造成的精度损失;(2)Bert模型采用了自然语言处理任务目前最强的特征抽取器之一(即,Transformer),比多层感知机更有效地抽取文本特征表示;(3)Bert模型会按顺序对输入文本进行双向(即,从句首到句尾、从句尾到句首)编码,捕捉到句子顺序所包含的语义信息,特征抽取更全面。
通过本申请提供的实施例,依次从多个第二样本文本中获取当前样本文本对,重复执行以下步骤,直至目标搜索网络达到第一收敛条件:获取与当前样本文本对应的当前显示字样本文本特征向量和当前隐藏字样本特征向量;将当前显示字样本文本特征向量和当前隐藏字样本特征向量输入当前训练中的目标搜索网络;获取当前第一输出结果,其中,当前第一输出结果包括第一预测向量,第一预测向量用于表示根据当前显示字样本文本特征向量预测的隐藏字样本特征向量;在当前第一输出结果指示第一损失函数达到第一预设阈值的情况下,确定目标搜索网络达到第一收敛条件,其中,第一损失函数用于表示根据当前显示字样本文本特征向量预测的隐藏字样本特征向量的正确率,采用字粒度输入,无需进行中文分词,达到了避免分词工具带来的精度误差的目的,实现了提高网络的输出效率的效果。
作为一种可选的方案,将与每个第二样本文本分别对应的第二样本文本特征向量,输入初始化的目标搜索网络,以得到目标搜索网络的目标网络结构包括:
S1,依次从多个第二样本文本中获取当前样本文本,重复执行以下步骤,直至目标搜索网络达到第二收敛条件:
S2,获取与当前样本文本对应的当前第一句样本文本特征向量和当前第二句样本特征向量;
S3,将当前第一句样本文本特征向量和当前第二句样本特征向量输入当前训练中的目标搜索网络;
S4,获取当前第二输出结果,其中,当前第二输出结果包括第二预测向量,第二预测向量用于表示根据当前第一句样本文本特征向量,预测当前第二句样本特征向量出现的概率;
S5,在当前第二输出结果指示第二损失函数达到第二预设阈值的情况下,确定目标搜索网络达到第二收敛条件,其中,第二损失函数用于表示根据当前第一句样本文本特征向量,预测当前第二句样本特征向量出现的概率。
需要说明的是,依次从多个第二样本文本中获取当前样本文本,重复执行以下步骤,直至目标搜索网络达到第二收敛条件:获取与当前样本文本对应的当前第一句样本文本特征向量和当前第二句样本特征向量;将当前第一句样本文本特征向量和当前第二句样本特征向量输入当前训练中的目标搜索网络;获取当前第二输出结果,其中,当前第二输出结果包括第二预测向量,第二预测向量用于表示根据当前第一句样本文本特征向量,预测当前第二句样本特征向量出现的概率;在当前第二输出结果指示第二损失函数达到第二预设阈值的情况下,确定目标搜索网络达到第二收敛条件,其中,第二损失函数用于表示根据当前第一句样本文本特征向量,预测当前第二句样本特征向量出现的概率。
进一步举例说明,可选的例如将两个句子组成一个输入样本,用第一个句子去预测第二个句子出现的概率,即“句子预测”。
进一步举例说明,可选的例如先随机掩盖掉输入的当前样本文本对中的某些字(当前隐藏字样本特征向量),然后根据输入的当前样本文本对中的其他字(当前显示字样本文本特征向量)来预测被掩盖掉的字,即“词预测”;再将两个句子组成一个输入样本,用第一个句子去预测第二个句子出现的概率,即“句子预测”。
通过本申请提供的实施例,依次从多个第二样本文本中获取当前样本文本,重复执行以下步骤,直至目标搜索网络达到第二收敛条件:获取与当前样本文本对应的当前第一句样本文本特征向量和当前第二句样本特征向量;将当前第一句样本文本特征向量和当前第二句样本特征向量输入当前训练中的目标搜索网络;获取当前第二输出结果,其中,当前第二输出结果包括第二预测向量,第二预测向量用于表示根据当前第一句样本文本特征向量,预测当前第二句样本特征向量出现的概率;在当前第二输出结果指示第二损失函数达到第二预设阈值的情况下,确定目标搜索网络达到第二收敛条件,其中,第二损失函数用于表示根据当前第一句样本文本特征向量,预测当前第二句样本特征向量出现的概率,通过捕捉到文本顺序所包含的语义信息,达到了提高网络训练的全面的目的,实现了提高网络输出结果的合理性的效果。
作为一种可选的方案,搜索结果的获取方法可以但不限于采用大规模无监督数据集对模型进行预训练,能够有效地节约人工标注成本;采用字粒度输入,无需进行中文分词,避免了分词工具带来的精度误差;采用了Bert模型,能够捕捉到文本顺序所包含的语义信息,而不像DSSM等模型忽略了文本的单词顺序;不仅如此,Bert模型采用了能够双向编码的Transformer特征抽取器,在特征抽取能力上有明显提升;具有非常好的可扩展性,主要体现在两方面:第一,可以接收doc的多种数据输入,并由于使用了孪生Bert,不会明显增加参数量,便于快速训练;第二,易于加入多种交互特征,可根据任务特点快速改造模型,节省研发开销;通过孪生网络和多种交互特征来更有效地捕捉query和doc的相关性,比DSSM模型的精度更高;此外,考虑到在线耗时的问题,本方案可提前计算好全量小程序的向量表示,大大减少了在线计算时间,适用于实时业务场景。
作为一种可选的方案,搜索结果的获取方法可以但不限于应用在一种聊天程序的搜索场景下,例如图13所示,包括发现界面1302,以及搜索界面1304,其中,搜索界面1304是通过发现界面1302上的“搜一搜”触发的,搜索界面1304上还设置有用于输入搜索关键字的搜索框1306。
作为一种可选的方案,搜索结果的获取方法可以但不限于应用在一种聊天程序的垂直搜索场景下,例如图14所示,包括搜索界面1412,以及显示在搜索界面1412上的输入的、用于获取搜索结果的搜索关键字1402,包括多个搜索类型的搜索类型集合1404,与搜索关键字1402相匹配的第一搜索结果1406,用于表示“小程序”类型的目标搜索类型1408,与搜索关键字1402以及目标搜索类型1408相匹配的第二搜索结果1410。需要说明的是,由于用户在搜索“跳一跳”小程序时,可能无法确定其名称,而是用类似的关键词在小程序的垂直场景下来搜索上述“跳一跳”小程序,进而使得上述“跳一跳”小程序可以凸显出来,以便于用户访问。
作为一种可选的方案,搜索结果的获取方法可以但不限于基于三个阶段的核心框架予以实现,可选的,例如图15所示,包括阶段一“子模型Bert预训练阶段”、阶段二“语义匹配模型训练阶段”,以及阶段三“模型在线预测阶段”,具体的,如下述内容所示:
一)子模型Bert预训练阶段:
1、数据集预处理:分别对小程序的标题和简介进行文本预处理,其中包括特殊符号处理、英文大小写转换以及繁简体字统一。
2、外部数据预训练:为了提高Bert模型的泛化性,我们先采用外部数据来预训练,目的是让Bert模型学习到基本的语法语义规律。我们采用公开的维基百科中文数据集,对Bert模型中进行语言模型预训练。预训练分为两部分:第一,随机掩盖掉输入文本中的某些字,然后根据输入文本的其他字来预测被掩盖掉的字,称之为“词预测”;第二,将两个句子组成一个输入样本,用第一个句子去预测第二个句子出现的概率,称之为“句子预测“。与DSSM中的多层感知机不同,Bert模型有几个优势:(1)不需要对输入文本进行分词,输入文本的粒度是字,而不是单词,避免了中文分词工具造成的精度损失;(2)Bert模型采用了自然语言处理任务目前最强的特征抽取器之一(即,Transformer),比多层感知机更有效地抽取文本特征表示;(3)Bert模型会按顺序对输入文本进行双向(即,从句首到句尾、从句尾到句首)编码,捕捉到句子顺序所包含的语义信息,特征抽取更全面。
3、小程序数据预训练:对小程序的标题和简介分别进行Bert模型的词预测任务,再将小程序的简介进行Bert模型的句子预测任务。这两个预训练任务的作用是,让Bert模型学习到小程序数据自身的特点。
二)语义匹配模型训练阶段
可选的,例如图16所示,基于孪生Bert的文本向量语义匹配模型,分别将用户query小程序标题(Title)、小程序简介(Introduction)分别输入到预训练后的Bert模型,输出三者的文本向量表示,然后对三个文本向量表示进行一系列的交互特征抽取,最终进行二分类任务,预测query与输入的小程序是否相关。具体过程如下:
人工标注数据集:随机抽取在线的用户query和小程序,然后通过人工判断小程序与对应的query是否相关,做二分类标注。由于Bert模型已经用大量的非人工标注数据集进行大规模预训练,学习到了大部分的语法语义规律,可以明显减少数据集的标注量,节省人工开销。
将各个输入分别表示成文本向量:分别将用户query、小程序标题、小程序简介分别输入到Bert模型中,进行特征向量表示。值得注意的是,三者的Bert模型是共享的,因此称之为孪生Bert。设计目的是:第一,用同一个Bert模型来学习三者的特征,可以产生信息交互的作用,捕捉到不同输入文本之间的相关性,提高训练效果;第二,孪生Bert共享参数,明显减少了模型的参数量,便于模型部署使用。
学习小程序的整体向量表示:将小程序标题的简介的两个文本向量进行拼接,输入到一个全连接网络层(FC-Layer)中,由该网络层学习出小程序的整体向量表示(即图16中的向量v)。与DSSM等模型只能接收doc的一种数据不同,本文模型可以接收doc的多个数据(例如图5的模型接收了小程序的标题、简介这两个数据),从而获取到更多的doc信息,提升模型精度。
生成query和doc的多种交互特征,捕捉两者的相关性:可选的,例如图15所示,向量u是query的特征表示,向量v是doc的特征表示;本文模型设计了两种交互特征:(1)将向量u和v进行向量逐元素相减并求绝对值(即,||u-v||),可以获取到两个向量的差异特征表示,差异值越小,相关性越大;(2)将向量u和v进行向量逐元素相乘(即,u*v),可以放大特征的重要性,对应维度的值越大,乘积就越大,特征重要性也就越高。值得注意的是,本模型易于扩展,可以根据任务或场景的特点设计出更多的交互特征,加入或改造模型。
采用Softmax进行相关性二分类:Softmax是人工神经网络中最常见的分类网络层。将步骤c中的两种交互特征进行拼接,输入到Softmax层中计算损失函数,然后通过反向传播算法对整个语义匹配模型进行迭代训练,直至达到预先设定的迭代次数。
三)模型在线预测阶段
在模型训练完成后,需要离线将所有的小程序映射成向量表示。具体步骤是,将小程序的标题和简介分别输入到训练好的孪生Bert中,接着通过训练好的FC-Layer获取到小程序的整体向量表示,存放在数据库中,大大减少线上的计算量。
当用户在线搜索query时,先用Bert模型将query转换成向量u;接着,通过计算余弦相似性,在数据库中检索出相似度最高的Top K个小程序向量;然后,依次将向量u和每个检索出来的小程序向量进行Softmax相关性预测。由于Softmax的预测值是0到1之间的实数值,可根据该实数值对小程序进行排序,并去除掉低于某个阈值的小程序,最后将小程序的结果列表返回给用户。
作为一种可选的本方案,搜索结果的获取方法可以但不限于通过采用大规模无监督数据集对模型进行预训练,能够有效地节约人工标注成本。
作为一种可选的本方案,搜索结果的获取方法可以但不限于通过采用字粒度输入,无需进行中文分词,避免了分词工具带来的精度误差。
作为一种可选的本方案,搜索结果的获取方法可以但不限于通过采用了Bert模型,能够捕捉到文本顺序所包含的语义信息,而不像DSSM等模型忽略了文本的单词顺序;不仅如此,Bert模型采用了能够双向编码的Transformer特征抽取器,在特征抽取能力上有明显提升。
作为一种可选的本方案,搜索结果的获取方法可以但不限于具有非常好的可扩展性,主要体现在两方面:第一,可以接收doc的多种数据输入,并由于使用了孪生Bert,不会明显增加参数量,便于快速训练;第二,易于加入多种交互特征,可根据任务特点快速改造模型,节省研发开销。
作为一种可选的本方案,搜索结果的获取方法可以但不限于通过孪生网络和多种交互特征来更有效地捕捉query和doc的相关性,比DSSM模型的精度更高;此外,考虑到在线耗时的问题,本方案可提前计算好全量小程序的向量表示,大大减少了在线计算时间,适用于实时业务场景。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种用于实施上述搜索结果的获取方法的搜索结果的获取装置。如图17所示,该装置包括:
第一获取单元1702,用于获取携带有搜索文本的第一搜索指令,其中,第一搜索指令用于请求获取在目标领域下搜索到的与搜索文本匹配的目标搜索结果,目标领域配置有对应的第一目标文本向量集,第一目标文本向量集中包括多个目标文本向量,目标文本向量为通过第一搜索网络对目标领域下的目标文本转换得到的向量;
第一输入单元1704,用于将搜索文本输入第二搜索网络,获取与搜索文本对应的搜索文本向量,其中,第一搜索网络和第二搜索网络的网络结构同为目标搜索网络的网络结构,目标搜索网络用于将文本转换为向量;
第二获取单元1706,用于获取搜索文本向量与多个目标文本向量中部分或全部目标文本向量的多个目标相关度,其中,目标相关度用于表示搜索文本与目标文本的相关程度;
第三获取单元1708,用于根据多个目标相关度,获取目标搜索结果,其中,目标搜索结果中包括从部分或全部目标文本向量中确定出的全部或部分目标文本向量各自对应的目标文本。
可选的,搜索结果的获取装置可以但不限于应用于垂直搜索场景,具体的,可以但不限于应用在用户搜索目的是寻找某个固定的账号或其他目标,但无法确定其准确名称,需通过相似的关键词搜索获取结果的场景下,其中,垂直搜索可以但不限于为一种针对某一个行业的专业搜索,可以但不但不限于是搜索引擎的细分和延伸,以及对库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户,例如公众号搜索、小程序搜索等。搜索文本可以但不限于为用户搜索的文本,包括中文、字母、数字、标点符号、音频等。搜索结果可以但不限于为根据搜索文本返回的信息,还可以但不限于为跳转标识,其中,跳转标识用于跳转至搜索结果对应的画面或程序,例如,根据搜索文本返回跳转标识用于跳转至程序A的登录界面。网络结构相同可以但不限于为类型相同,且共享相同的权值。文本向量可以但不限于指的是将一段不定长的文本通过某种方式转换成一个定长的数值型向量。向量可分为两种形式:一种是高维稀疏向量,通常是将词表的长度作为向量的长度,每一维表示一个单词,只有在文本单词所对应的维度才有非零值,大部分维度都为零;另一种是低维稠密向量,可将文本输入到神经网络等模型中,通过训练输出向量表示,向量的每一维基本是非零值,没有明确的物理含义,但效果通常比高维稀疏向量更好。可选的,搜索结果的获取装置还可以但不限应用在文本与文本之间的匹配场景下。
可选的,搜索结果的获取装置可以但不限基于孪生网络,其中,孪生网络可以但不限为一种判断两个可比较对象是否相关的人工神经网络。这种人工神经网络通常有两个相同类型的子网络结构,并且这两个子网络结构共享权值。每个子网络结构接收一个对象作为输入,并将其转换为特征向量,输入到统一的结构判断相似性。可选的,第一搜索网络、第二搜索网络可以但不限基于Bert(BidirectionalEncoderRepresentationsfromTransformers,简称Bert)模型训练的网络,其中,Bert模型可以但不限于为一种语言模型,可将不定长文本转换成低维稠密的数值向量表示。Bert采用了两种训练装置,一种是掩码学习(MaskedLearning),做法是随机掩盖掉文本中的一些单词,然后用其他单词来预测这些被掩盖掉的词,这种方式主要学习单词的向量表示;另一种是下一句预测(Next SentencePrediction),做法是将文本的一个句子作为输入,预测下一个句子,这种方式主要学习句子的向量表示。Bert模型在多项公开的自然语言处理任务中都取得了非常优秀的效果。第一搜索网络、第二搜索网络还可以但不限基于不同的模型训练的网络,例如XLNet模型等,在此不做过多限制。
需要说明的是,获取携带有搜索文本的第一搜索指令,其中,第一搜索指令用于请求获取在目标领域下搜索到的与搜索文本匹配的目标搜索结果,目标领域配置有对应的第一目标文本向量集,第一目标文本向量集中包括多个目标文本向量,目标文本向量为通过第一搜索网络对目标领域下的目标文本转换得到的向量;将搜索文本输入第二搜索网络,获取与搜索文本对应的搜索文本向量,其中,第一搜索网络和第二搜索网络的网络结构同为目标搜索网络的网络结构,目标搜索网络用于将文本转换为向量;获取搜索文本向量与多个目标文本向量中部分或全部目标文本向量的多个目标相关度,其中,目标相关度用于表示搜索文本与目标文本的相关程度;根据多个目标相关度,获取目标搜索结果,其中,目标搜索结果中包括从多个目标文本向量中确定出的部分或全部目标文本向量各自对应的目标文本。可选的,例如包括N个目标文本向量,则在N个目标文本向量中确定m个目标文本向量,并确定m个目标文本向量对应的m个目标相关度,再在m个目标相关度中选取k个目标相关度作为目标搜索结果。可选的,可以但不限于对搜索文本和/或目标文本执行数据集预处理,例如分别对目标文本与搜索文本进行文本预处理,可以但不限于包括特殊符号处理、英文大小写转换以及繁简体字统一等。
具体实施例可以参考上述搜索结果的获取装置中所示示例,本示例中在此不再赘述。
通过本申请提供的实施例,获取携带有搜索文本的第一搜索指令,其中,第一搜索指令用于请求获取在目标领域下搜索到的与搜索文本匹配的目标搜索结果,目标领域配置有对应的第一目标文本向量集,第一目标文本向量集中包括多个目标文本向量,目标文本向量为通过第一搜索网络对目标领域下的目标文本转换得到的向量;将搜索文本输入第二搜索网络,获取与搜索文本对应的搜索文本向量,其中,第一搜索网络和第二搜索网络的网络结构同为目标搜索网络的网络结构,目标搜索网络用于将文本转换为向量;获取搜索文本向量与多个目标文本向量中部分或全部目标文本向量的多个目标相关度,其中,目标相关度用于表示搜索文本与目标文本的相关程度;根据多个目标相关度,获取目标搜索结果,其中,目标搜索结果中包括从部分或全部目标文本向量中确定出的全部或部分目标文本向量各自对应的目标文本,通过根据孪生网络获取的相似程度较高的文本向量获取搜索结果,进而达到了减少搜索过程的计算量的目的,实现了提高搜索结果的获取效率的效果。
作为一种可选的方案,包括:
第四获取单元,用于在获取携带有搜索文本的第一搜索指令之前,获取目标文本中的目标文本信息,其中,目标文本信息包括第一文本信息、第二文本信息;
第五获取单元,用于在获取携带有搜索文本的第一搜索指令之前,将标题文本信息输入第一搜索网络中的第一搜索子网络,获取第一文本向量;
第六获取单元,用于在获取携带有搜索文本的第一搜索指令之前,将简介文本信息输入第一搜索网络中的第二搜索子网络,获取第二文本向量,其中,第一搜索子网络及第二搜索子网的网络结构同为目标搜索网络的网络结构;
第七获取单元,用于在获取携带有搜索文本的第一搜索指令之前,根据第一文本向量与第二文本向量,获取目标文本向量。
具体实施例可以参考上述搜索结果的获取方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,第七获取单元包括:
第一合并模块,用于对第一文本向量与第二文本向量进行合并,获得第三文本向量;
第一计算模块,用于获取第三文本向量与搜索文本向量之差的第一绝对值,并将第一绝对值作为第一交互特征向量;
第二计算模块,用于获取第三文本向量与搜索文本向量相乘的第二绝对值,并将第二绝对值作为第二交互特征向量;
第二合并模块,用于对第一交互特征向量和第二交互特征向量进行合并,获得目标交互特征向量,并将目标交互特征向量作为目标文本向量。
具体实施例可以参考上述搜索结果的获取方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,在第一目标文本向量集中包括N个目标文本向量的情况下,
如图18所示,第二获取单元1706包括:第三计算模块1802,用于分别计算搜索文本向量与N个目标文本向量中各个目标文本向量之间的余弦相关度,得到N个目标相关度,其中,N为大于等于0的整数;
如图19所示,第三获取单元1708包括:第一确定模块1902,用于从N个目标相关度中获取m个目标相关度,其中,m为小于等于N,且大于等于0的整数;利用m个目标相关度对应的m个目标文本向量构建第二目标文本向量集;从第二目标文本向量集中确定出目标搜索结果。
具体实施例可以参考上述搜索结果的获取方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,第一确定模块1902包括:
第一输入子模块,用于将第二目标文本向量中每个目标文本向量的目标交互特征向量输入至目标分类器中,并得到第一分类结果,其中,目标分类器为利用第一样本数据训练后得到的分类网络,第一分类结果用于表示目标交互特征向量与搜索文本向量的相似度;
第一确定子模块,用于根据第一分类结果从第二目标文本向量中确定出目标搜索结果,其中,目标搜索结果包括k个目标文本向量,k个目标文本向量的相似度大于等于预设阈值,k为小于等于m,且大于等于0的整数。
具体实施例可以参考上述搜索结果的获取方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,包括:
第一获取子模块,用于在将第三交互特征向量输入目标分类网络中之前,获取第一样本数据,其中,第一样本数据包括多组第一样本文本对,第一样本文本对中包括样本搜索文本以及样本目标文本,样本标签,样本标签用于指示样本目标文本与样本搜索文本的关联性;
第二获取子模块,用于获取与每组第一样本文本对匹配的第一样本文本特征向量,其中,第一样本文本特征向量为对与样本搜索文本对应的样本搜索文本向量,和与样本目标文本对应的样本目标文本向量进行合并后得到的特征向量;
第二输入子模块,用于将与每组第一样本文本对分别匹配的第一样本文本特征向量输入初始化的目标分类器,以得到目标分类器。
具体实施例可以参考上述搜索结果的获取方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,第一输入单元1704包括:
提取模块,用于按照第二搜索网络中的预定策略提取搜索文本的文本特征,并将其转化为目标格式的搜索文本向量,其中,预定策略为目标搜索网络的网络结构对应的转换策略,预定策略用于指示将提取的文本特征转化为目标格式的向量。
具体实施例可以参考上述搜索结果的获取方法中所示示例,本示例中在此不再赘述。
根据本发明实施例的另一个方面,还提供了一种用于实施上述搜索结果的获取方法的搜索结果的获取装置。如图20所示,该装置包括:
第八获取单元2002,用于获取第二样本数据,其中,第二样本数据包括多组第二样本文本对,第二样本文本对包括存在关联关系的第一子样本文本和第二子样本文本;
第九获取单元2004,用于获取每组第二样本文本对匹配的第一子样本文本向量和第二子样本文本向量;
输入单元2006,用于将与每个第一子样本文本向量和第二子样本文本向量,输入初始化的目标搜索网络,以得到训练好的目标搜索网络;
构建单元2008,用于根据目标搜索网络的目标网络结构,构建第一搜索网络以及第二搜索网络,并根据第一搜索网络以及第二搜索网络获取搜索结果,并根据第一搜索网络以及第二搜索网络获取搜索结果。
可选的,搜索结果的获取装置可以但不限基于孪生网络,其中,孪生网络可以但不限为一种判断两个可比较对象是否相关的人工神经网络。这种人工神经网络通常有两个相同类型的子网络结构,并且这两个子网络结构共享权值。每个子网络结构接收一个对象作为输入,并将其转换为特征向量,输入到统一的结构判断相似性。可选的,第一搜索网络、第二搜索网络可以但不限基于Bert(BidirectionalEncoderRepresentationsfromTransformers,简称Bert)模型训练的网络,其中,Bert模型可以但不限于为一种语言模型,可将不定长文本转换成低维稠密的数值向量表示。Bert采用了两种训练方法,一种是掩码学习(MaskedLearning),做法是随机掩盖掉文本中的一些单词,然后用其他单词来预测这些被掩盖掉的词,这种方式主要学习单词的向量表示;另一种是下一句预测(Next SentencePrediction),做法是将文本的一个句子作为输入,预测下一个句子,这种方式主要学习句子的向量表示。Bert模型在多项公开的自然语言处理任务中都取得了非常优秀的效果。第一搜索网络、第二搜索网络还可以但不限基于不同的模型训练的网络,例如XLNet模型等,在此不做过多限制。
需要说明的是,获取第二样本数据,其中,第二样本数据包括多组第二样本文本对,第二样本文本对包括存在关联关系的第一子样本文本和第二子样本文本;获取每组第二样本文本对匹配的第一子样本文本向量和第二子样本文本向量;将与每个第一子样本文本向量和第二子样本文本向量,输入初始化的目标搜索网络,以得到目标搜索网络;根据目标搜索网络的目标网络结构,构建第一搜索网络以及第二搜索网络,并根据第一搜索网络以及第二搜索网络获取搜索结果。
具体实施例可以参考上述搜索结果的获取方法中所示示例,本示例中在此不再赘述。
通过本申请提供的实施例,获取第二样本数据,其中,第二样本数据包括多组第二样本文本对,第二样本文本对包括存在关联关系的第一子样本文本和第二子样本文本;获取每组第二样本文本对匹配的第一子样本文本向量和第二子样本文本向量;将与每个第一子样本文本向量和第二子样本文本向量,输入初始化的目标搜索网络,以得到目标搜索网络;根据目标搜索网络的目标网络结构,构建第一搜索网络以及第二搜索网络,并根据第一搜索网络以及第二搜索网络获取搜索结果,通过训练的网络结构,以构造具有相同网络结构的子网络,进而达到了提高子网络分别输出的向量相似性的目的,从而实现了提高根据搜索网络获取的搜索结果的准确性的效果。
作为一种可选的方案,输入模块包括:
第一重复子模块,用于依次从多个第二样本文本中获取当前样本文本对,重复执行以下步骤,直至目标搜索网络达到第一收敛条件:
第三获取子模块,用于获取与当前样本文本对应的当前显示字样本文本特征向量和当前隐藏字样本特征向量;
第三输入子模块,用于将当前显示字样本文本特征向量和当前隐藏字样本特征向量输入当前训练中的目标搜索网络;
第四获取子模块,用于获取当前第一输出结果,其中,当前第一输出结果包括第一预测向量,第一预测向量用于表示根据当前显示字样本文本特征向量预测的隐藏字样本特征向量;
第二确定子模块,用于在当前第一输出结果指示第一损失函数达到第一预设阈值的情况下,确定目标搜索网络达到第一收敛条件,其中,第一损失函数用于表示根据当前显示字样本文本特征向量预测的隐藏字样本特征向量的正确率。
具体实施例可以参考上述搜索结果的获取方法中所示示例,本示例中在此不再赘述。
作为一种可选的方案,输入模块包括:
第二重复子模块,用于依次从多个第二样本文本中获取当前样本文本,重复执行以下步骤,直至目标搜索网络达到第二收敛条件:
第五获取子模块,用于获取与当前样本文本对应的当前第一句样本文本特征向量和当前第二句样本特征向量;
第四输入子模块,用于将当前第一句样本文本特征向量和当前第二句样本特征向量输入当前训练中的目标搜索网络;
第六获取子模块,用于获取当前第二输出结果,其中,当前第二输出结果包括第二预测向量,第二预测向量用于表示根据当前第一句样本文本特征向量,预测当前第二句样本特征向量出现的概率;
第三确定子模块,用于在当前第二输出结果指示第二损失函数达到第二预设阈值的情况下,确定目标搜索网络达到第二收敛条件,其中,第二损失函数用于表示根据当前第一句样本文本特征向量,预测当前第二句样本特征向量出现的概率。
具体实施例可以参考上述搜索结果的获取方法中所示示例,本示例中在此不再赘述。
根据本发明实施例的又一个方面,还提供了一种用于实施上述搜索结果的获取方法的电子装置,如图21所示,该电子装置包括存储器2102和处理器2104,该存储器2102中存储有计算机目标,该处理器2104被设置为通过计算机目标执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机目标执行以下步骤:
S1,获取携带有搜索文本的第一搜索指令,其中,第一搜索指令用于请求获取在目标领域下搜索到的与搜索文本匹配的目标搜索结果,目标领域配置有对应的第一目标文本向量集,第一目标文本向量集中包括多个目标文本向量,目标文本向量为通过第一搜索网络对目标领域下的目标文本转换得到的向量;
S2,将搜索文本输入第二搜索网络,获取与搜索文本对应的搜索文本向量,其中,第一搜索网络和第二搜索网络的网络结构同为目标搜索网络的网络结构,目标搜索网络用于将文本转换为向量;
S3,获取搜索文本向量与多个目标文本向量中部分或全部目标文本向量的多个目标相关度,其中,目标相关度用于表示搜索文本与目标文本的相关程度;
S4,根据多个目标相关度,获取目标搜索结果,其中,目标搜索结果中包括从多个目标文本向量中确定出的部分或全部目标文本向量各自对应的目标文本。和/或,
S1,获取第二样本数据,其中,第二样本数据包括多组第二样本文本对,第二样本文本对包括存在关联关系的第一子样本文本和第二子样本文本;
S2,获取每组第二样本文本对匹配的第一子样本文本向量和第二子样本文本向量;
S3,将与每个第一子样本文本向量和第二子样本文本向量,输入初始化的目标搜索网络,以得到目标搜索网络;
S4,根据目标搜索网络的目标网络结构,构建第一搜索网络以及第二搜索网络,并根据第一搜索网络以及第二搜索网络获取搜索结果。
可选地,本领域普通技术人员可以理解,图21所示的结构仅为示意,电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图21其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图21中所示更多或者更少的组件(如网络接口等),或者具有与图21所示不同的配置。
其中,存储器2102可用于存储软件目标以及模块,如本发明实施例中的搜索结果的获取方法和装置对应的目标指令/模块,处理器2104通过运行存储在存储器2102内的软件目标以及模块,从而执行各种功能应用以及数据处理,即实现上述的搜索结果的获取方法。存储器2102可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器2102可进一步包括相对于处理器2104远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器2102具体可以但不限于用于存储第一搜索指令、搜索文本以及目标搜索结果等信息。作为一种示例,如图21所示,上述存储器2102中可以但不限于包括上述搜索结果的获取装置中的第一获取单元1702、第一输入单元1704、第二获取单元17606及第三获取单元1708,和/或第八获取单元2002(图中未示出)、第九获取单元2004(图中未示出)、输入单元2006(图中未示出)以及构建单元2008(图中未示出)。此外,还可以包括但不限于上述搜索结果的获取装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置2106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置2106包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置2106为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子装置还包括:显示器2108,用于显示上述第一搜索指令、搜索文本以及目标搜索结果等信息;和连接总线2110,用于连接上述电子装置中的各个模块部件。
根据本发明的实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机目标,其中,该计算机目标被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机目标:
S1,获取携带有搜索文本的第一搜索指令,其中,第一搜索指令用于请求获取在目标领域下搜索到的与搜索文本匹配的目标搜索结果,目标领域配置有对应的第一目标文本向量集,第一目标文本向量集中包括多个目标文本向量,目标文本向量为通过第一搜索网络对目标领域下的目标文本转换得到的向量;
S2,将搜索文本输入第二搜索网络,获取与搜索文本对应的搜索文本向量,其中,第一搜索网络和第二搜索网络的网络结构同为目标搜索网络的网络结构,目标搜索网络用于将文本转换为向量;
S3,获取搜索文本向量与多个目标文本向量中部分或全部目标文本向量的多个目标相关度,其中,目标相关度用于表示搜索文本与目标文本的相关程度;
S4,根据多个目标相关度,获取目标搜索结果,其中,目标搜索结果中包括从多个目标文本向量中确定出的部分或全部目标文本向量各自对应的目标文本。和/或,
S1,获取第二样本数据,其中,第二样本数据包括多组第二样本文本对,第二样本文本对包括存在关联关系的第一子样本文本和第二子样本文本;
S2,获取每组第二样本文本对匹配的第一子样本文本向量和第二子样本文本向量;
S3,将与每个第一子样本文本向量和第二子样本文本向量,输入初始化的目标搜索网络,以得到目标搜索网络;
S4,根据目标搜索网络的目标网络结构,构建第一搜索网络以及第二搜索网络,并根据第一搜索网络以及第二搜索网络获取搜索结果。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过目标来指令终端设备相关的硬件来完成,该目标可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (12)
1.一种搜索结果的获取方法,其特征在于,包括:
获取目标领域下的目标文本中的目标文本信息,其中,所述目标文本信息包括标题文本信息、简介文本信息,所述目标领域配置有对应的第一目标文本向量集,所述第一目标文本向量集中包括多个目标文本向量;
将所述标题文本信息输入第一搜索网络中的第一搜索子网络,获取第一文本向量;
将所述简介文本信息输入所述第一搜索网络中的第二搜索子网络,获取第二文本向量,其中,所述第一搜索子网络及所述第二搜索子网络的网络结构同为目标搜索网络的网络结构,所述目标搜索网络用于将文本转换为向量;
对所述第一文本向量与所述第二文本向量进行合并,获得第三文本向量;
在获取到与搜索文本对应的搜索文本向量的情况下,获取所述第三文本向量与所述搜索文本向量之差的第一绝对值,并将所述第一绝对值作为第一交互特征向量;
获取所述第三文本向量与所述搜索文本向量相乘的第二绝对值,并将所述第二绝对值作为第二交互特征向量;
对所述第一交互特征向量和所述第二交互特征向量进行合并,获得目标交互特征向量,并将所述目标交互特征向量作为所述目标文本向量;
获取携带有所述搜索文本的第一搜索指令,其中,所述第一搜索指令用于请求获取在所述目标领域下搜索到的与所述搜索文本匹配的目标搜索结果;
将所述搜索文本输入第二搜索网络,获取所述搜索文本向量,其中,所述第一搜索网络和所述第二搜索网络的网络结构同为目标搜索网络的网络结构;
获取所述搜索文本向量与所述多个目标文本向量中部分或全部所述目标文本向量的多个目标相关度,其中,所述目标相关度用于表示所述搜索文本与所述目标文本的相关程度;
根据所述多个目标相关度,获取所述目标搜索结果,其中,所述目标搜索结果中包括从所述部分或全部所述目标文本向量中确定出的全部或部分所述目标文本向量各自对应的所述目标文本。
2.根据权利要求1所述的方法,其特征在于,在所述第一目标文本向量集中包括N个目标文本向量的情况下,
所述获取所述搜索文本向量与所述多个目标文本向量中部分或全部所述目标文本向量的多个目标相关度包括:分别计算所述搜索文本向量与所述N个目标文本向量中各个所述目标文本向量之间的余弦相关度,得到N个所述目标相关度,其中,N为大于等于0的整数;
所述根据所述多个目标相关度,获取所述目标搜索结果包括:从N个所述目标相关度中获取m个所述目标相关度,其中,m为小于等于N,且大于等于0的整数;利用所述m个目标相关度对应的m个目标文本向量构建第二目标文本向量集;从所述第二目标文本向量集中确定出所述目标搜索结果。
3.根据权利要求2所述的方法,其特征在于,所述从所述第二目标文本向量集中确定出所述目标搜索结果包括:
将所述第二目标文本向量中每个所述目标文本向量的所述目标交互特征向量输入至目标分类器中,并得到第一分类结果,其中,所述目标分类器为利用第一样本数据训练后得到的分类网络,所述第一分类结果用于表示所述目标交互特征向量与所述搜索文本向量的相似度;
根据所述第一分类结果从所述第二目标文本向量中确定出所述目标搜索结果,其中,所述目标搜索结果包括k个所述目标文本向量,所述k个所述目标文本向量的所述相似度大于等于预设阈值,所述k为小于等于m,且大于等于0的整数。
4.根据权利要求3所述的方法,其特征在于,在所述将所述第二目标文本向量中每个所述目标文本向量的所述目标交互特征向量输入至目标分类器中,并得到第一分类结果之前,包括:
获取所述第一样本数据,其中,所述第一样本数据包括多组第一样本文本对,所述第一样本文本对中包括样本搜索文本以及样本目标文本,样本标签,所述样本标签用于指示所述样本目标文本与所述样本搜索文本的关联性;
获取与每组所述第一样本文本对匹配的第一样本文本特征向量,其中,所述第一样本文本特征向量为对与所述样本搜索文本对应的样本搜索文本向量,和与所述样本目标文本对应的样本目标文本向量进行合并后得到的特征向量;
将与每组所述第一样本文本对分别匹配的所述第一样本文本特征向量输入初始化的所述目标分类器,以得到所述目标分类器。
5.根据权利要求1所述的方法,其特征在于,所述将所述搜索文本输入第二搜索网络,获取与所述搜索文本对应的搜索文本向量包括:
按照所述第二搜索网络中的预定策略提取所述搜索文本的文本特征,并将其转化为目标格式的所述搜索文本向量,其中,所述预定策略为所述目标搜索网络的网络结构对应的转换策略,所述预定策略用于指示将提取的文本特征转化为所述目标格式的向量。
6.一种搜索结果的获取方法,其特征在于,包括:
获取第二样本数据,其中,所述第二样本数据包括多组第二样本文本对,所述第二样本文本对包括存在关联关系的第一子样本文本和第二子样本文本;
获取每组所述第二样本文本对匹配的第一子样本文本向量和第二子样本文本向量;
将所述第二样本数据的样本数据依次输入初始化的目标搜索网络,以得到所述目标搜索网络,其中,所述第二样本数据的样本数据包括每个所述第一子样本文本向量和所述第二子样本文本向量;
根据所述目标搜索网络的目标网络结构,构建第一搜索网络以及第二搜索网络,并根据所述第一搜索网络以及所述第二搜索网络获取搜索结果,其中,所述第一搜索网络及所述第二搜索网络的网络结构同为所述目标搜索网络的网络结构;
获取目标领域下的目标文本中的目标文本信息,其中,所述目标文本信息包括标题文本信息、简介文本信息,所述目标领域配置有对应的第一目标文本向量集,所述第一目标文本向量集中包括多个目标文本向量;
将所述标题文本信息输入所述第一搜索网络中的第一搜索子网络,获取第一文本向量;
将所述简介文本信息输入所述第一搜索网络中的第二搜索子网络,获取第二文本向量;
对所述第一文本向量与所述第二文本向量进行合并,获得第三文本向量;
在获取到与搜索文本对应的搜索文本向量的情况下,获取所述第三文本向量与所述搜索文本向量之差的第一绝对值,并将所述第一绝对值作为第一交互特征向量;
获取所述第三文本向量与所述搜索文本向量相乘的第二绝对值,并将所述第二绝对值作为第二交互特征向量;
对所述第一交互特征向量和所述第二交互特征向量进行合并,获得目标交互特征向量,并将所述目标交互特征向量作为所述目标文本向量;
获取携带有所述搜索文本的第一搜索指令,其中,所述第一搜索指令用于请求获取在所述目标领域下搜索到的与所述搜索文本匹配的目标搜索结果;
将所述搜索文本输入所述第二搜索网络,获取所述搜索文本向量;
获取所述搜索文本向量与所述多个目标文本向量中部分或全部所述目标文本向量的多个目标相关度,其中,所述目标相关度用于表示所述搜索文本与所述目标文本的相关程度;
根据所述多个目标相关度,获取所述目标搜索结果,其中,所述目标搜索结果中包括从所述部分或全部所述目标文本向量中确定出的全部或部分所述目标文本向量各自对应的所述目标文本。
7.根据权利要求6所述的方法,其特征在于,所述将所述第二样本数据的样本数据依次输入初始化的目标搜索网络,以得到所述目标搜索网络包括:
依次从所述多组第二样本文本对中获取当前样本文本对,重复执行以下步骤,直至所述目标搜索网络达到第一收敛条件:
获取与所述当前样本文本对对应的当前显示字样本文本特征向量和当前隐藏字样本特征向量;
将所述当前样本文本对的样本数据输入当前训练中的所述目标搜索网络,其中,所述当前样本文本对的样本数据包括所述当前显示字样本文本特征向量和当前隐藏字样本特征向量;
获取当前第一输出结果,其中,所述当前第一输出结果包括第一预测向量,所述第一预测向量用于表示根据所述当前显示字样本文本特征向量预测的隐藏字样本特征向量;
在所述当前第一输出结果指示第一损失函数达到第一预设阈值的情况下,确定所述目标搜索网络达到所述第一收敛条件,其中,所述第一损失函数用于表示根据所述当前显示字样本文本特征向量预测的所述隐藏字样本特征向量的正确率。
8.根据权利要求6所述的方法,其特征在于,所述将所述第二样本数据的样本数据依次输入初始化的目标搜索网络,以得到所述目标搜索网络包括:
依次从所述多组第二样本文本对中获取当前样本文本对,重复执行以下步骤,直至所述目标搜索网络达到第二收敛条件:
获取与所述当前样本文本对对应的当前第一句样本文本特征向量和当前第二句样本特征向量;
将所述当前样本文本对的样本数据输入当前训练中的所述目标搜索网络,其中,所述当前样本文本对的样本数据包括所述当前第一句样本文本特征向量和所述当前第二句样本特征向量;
获取当前第二输出结果,其中,所述当前第二输出结果包括第二预测向量,所述第二预测向量用于表示根据所述当前第一句样本文本特征向量,预测所述当前第二句样本特征向量出现的概率;
在所述当前第二输出结果指示第二损失函数达到第二预设阈值的情况下,确定所述目标搜索网络达到所述第二收敛条件,其中,所述第二损失函数用于表示根据所述当前第一句样本文本特征向量,预测所述当前第二句样本特征向量出现的所述概率。
9.一种搜索结果的获取装置,其特征在于,包括:
第一获取单元,用于获取携带有搜索文本的第一搜索指令,其中,所述第一搜索指令用于请求获取在目标领域下搜索到的与所述搜索文本匹配的目标搜索结果,所述目标领域配置有对应的第一目标文本向量集,所述第一目标文本向量集中包括多个目标文本向量,所述目标文本向量为通过第一搜索网络对所述目标领域下的目标文本转换得到的向量;
第一输入单元,用于将所述搜索文本输入第二搜索网络,获取与所述搜索文本对应的搜索文本向量,其中,所述第一搜索网络和所述第二搜索网络的网络结构同为目标搜索网络的网络结构,所述目标搜索网络用于将文本转换为向量;
第二获取单元,用于获取所述搜索文本向量与所述多个目标文本向量中部分或全部所述目标文本向量的多个目标相关度,其中,所述目标相关度用于表示所述搜索文本与所述目标文本的相关程度;
第三获取单元,用于根据所述多个目标相关度,获取所述目标搜索结果,其中,所述目标搜索结果中包括从所述部分或全部所述目标文本向量中确定出的全部或部分所述目标文本向量各自对应的所述目标文本;
第四获取单元,用于在所述获取携带有搜索文本的第一搜索指令之前,获取所述目标文本中的目标文本信息,其中,所述目标文本信息包括标题文本信息、简介文本信息;
第五获取单元,用于在所述获取携带有搜索文本的第一搜索指令之前,将所述标题文本信息输入所述第一搜索网络中的第一搜索子网络,获取第一文本向量;
第六获取单元,用于在所述获取携带有搜索文本的第一搜索指令之前,将所述简介文本信息输入所述第一搜索网络中的第二搜索子网络,获取第二文本向量,其中,所述第一搜索子网络及所述第二搜索子网络的网络结构同为所述目标搜索网络的网络结构;
第七获取单元,用于在所述获取携带有搜索文本的第一搜索指令之前,根据所述第一文本向量与所述第二文本向量,获取所述目标文本向量;
所述第七获取单元包括:
第一合并模块,用于对所述第一文本向量与所述第二文本向量进行合并,获得第三文本向量;
第一计算模块,用于在获取到与搜索文本对应的搜索文本向量的情况下,获取所述第三文本向量与所述搜索文本向量之差的第一绝对值,并将所述第一绝对值作为第一交互特征向量;
第二计算模块,用于获取所述第三文本向量与所述搜索文本向量相乘的第二绝对值,并将所述第二绝对值作为第二交互特征向量;
第二合并模块,用于对所述第一交互特征向量和所述第二交互特征向量进行合并,获得目标交互特征向量,并将所述目标交互特征向量作为所述目标文本向量。
10.一种搜索结果的获取装置,其特征在于,包括:
第八获取单元,用于获取第二样本数据,其中,所述第二样本数据包括多组第二样本文本对,所述第二样本文本对包括存在关联关系的第一子样本文本和第二子样本文本;
第九获取单元,用于获取每组所述第二样本文本对匹配的第一子样本文本向量和第二子样本文本向量;
输入单元,用于将所述第二样本数据的样本数据依次输入初始化的目标搜索网络,以得到所述目标搜索网络,其中,所述第二样本数据的样本数据包括每个所述第一子样本文本向量和所述第二子样本文本向量;
构建单元,用于根据所述目标搜索网络的目标网络结构,构建第一搜索网络以及第二搜索网络,并根据所述第一搜索网络以及所述第二搜索网络获取搜索结果,其中,所述第一搜索网络及所述第二搜索网络的网络结构同为所述目标搜索网络的网络结构;
所述装置还用于:
获取目标领域下的目标文本中的目标文本信息,其中,所述目标文本信息包括标题文本信息、简介文本信息,所述目标领域配置有对应的第一目标文本向量集,所述第一目标文本向量集中包括多个目标文本向量;
将所述标题文本信息输入所述第一搜索网络中的第一搜索子网络,获取第一文本向量;
将所述简介文本信息输入所述第一搜索网络中的第二搜索子网络,获取第二文本向量;
对所述第一文本向量与所述第二文本向量进行合并,获得第三文本向量;
在获取到与搜索文本对应的搜索文本向量的情况下,获取所述第三文本向量与所述搜索文本向量之差的第一绝对值,并将所述第一绝对值作为第一交互特征向量;
获取所述第三文本向量与所述搜索文本向量相乘的第二绝对值,并将所述第二绝对值作为第二交互特征向量;
对所述第一交互特征向量和所述第二交互特征向量进行合并,获得目标交互特征向量,并将所述目标交互特征向量作为所述目标文本向量;
获取携带有所述搜索文本的第一搜索指令,其中,所述第一搜索指令用于请求获取在所述目标领域下搜索到的与所述搜索文本匹配的目标搜索结果;
将所述搜索文本输入所述第二搜索网络,获取所述搜索文本向量;
获取所述搜索文本向量与所述多个目标文本向量中部分或全部所述目标文本向量的多个目标相关度,其中,所述目标相关度用于表示所述搜索文本与所述目标文本的相关程度;
根据所述多个目标相关度,获取所述目标搜索结果,其中,所述目标搜索结果中包括从所述部分或全部所述目标文本向量中确定出的全部或部分所述目标文本向量各自对应的所述目标文本。
11.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的目标,其中,所述目标运行时执行上述权利要求1至8任一项中所述的方法。
12.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机目标,所述处理器被设置为通过所述计算机目标执行所述权利要求1至8任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010694568.3A CN112115347B (zh) | 2020-07-17 | 2020-07-17 | 搜索结果的获取方法和装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010694568.3A CN112115347B (zh) | 2020-07-17 | 2020-07-17 | 搜索结果的获取方法和装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112115347A CN112115347A (zh) | 2020-12-22 |
CN112115347B true CN112115347B (zh) | 2023-12-12 |
Family
ID=73799635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010694568.3A Active CN112115347B (zh) | 2020-07-17 | 2020-07-17 | 搜索结果的获取方法和装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112115347B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018076243A1 (zh) * | 2016-10-27 | 2018-05-03 | 华为技术有限公司 | 一种查找方法及装置 |
CN109918487A (zh) * | 2019-01-28 | 2019-06-21 | 平安科技(深圳)有限公司 | 基于网络百科全书的智能问答方法和系统 |
CN110046240A (zh) * | 2019-04-16 | 2019-07-23 | 浙江爱闻格环保科技有限公司 | 结合关键词检索与孪生神经网络的目标领域问答推送方法 |
CN110263150A (zh) * | 2019-03-05 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置、计算机设备及存储介质 |
WO2020024951A1 (zh) * | 2018-08-01 | 2020-02-06 | 北京三快在线科技有限公司 | 多义词词义学习以及搜索结果显示 |
CN111046648A (zh) * | 2019-10-29 | 2020-04-21 | 平安科技(深圳)有限公司 | 韵律控制的诗词生成方法、装置、设备及存储介质 |
CN111104512A (zh) * | 2019-11-21 | 2020-05-05 | 腾讯科技(深圳)有限公司 | 游戏评论的处理方法及相关设备 |
WO2020108608A1 (zh) * | 2018-11-29 | 2020-06-04 | 腾讯科技(深圳)有限公司 | 搜索结果处理方法、装置、终端、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2720905C2 (ru) * | 2018-09-17 | 2020-05-14 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система для расширения поисковых запросов с целью ранжирования результатов поиска |
-
2020
- 2020-07-17 CN CN202010694568.3A patent/CN112115347B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018076243A1 (zh) * | 2016-10-27 | 2018-05-03 | 华为技术有限公司 | 一种查找方法及装置 |
WO2020024951A1 (zh) * | 2018-08-01 | 2020-02-06 | 北京三快在线科技有限公司 | 多义词词义学习以及搜索结果显示 |
WO2020108608A1 (zh) * | 2018-11-29 | 2020-06-04 | 腾讯科技(深圳)有限公司 | 搜索结果处理方法、装置、终端、电子设备及存储介质 |
CN109918487A (zh) * | 2019-01-28 | 2019-06-21 | 平安科技(深圳)有限公司 | 基于网络百科全书的智能问答方法和系统 |
CN110263150A (zh) * | 2019-03-05 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置、计算机设备及存储介质 |
CN110046240A (zh) * | 2019-04-16 | 2019-07-23 | 浙江爱闻格环保科技有限公司 | 结合关键词检索与孪生神经网络的目标领域问答推送方法 |
CN111046648A (zh) * | 2019-10-29 | 2020-04-21 | 平安科技(深圳)有限公司 | 韵律控制的诗词生成方法、装置、设备及存储介质 |
CN111104512A (zh) * | 2019-11-21 | 2020-05-05 | 腾讯科技(深圳)有限公司 | 游戏评论的处理方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112115347A (zh) | 2020-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109947912B (zh) | 一种基于段落内部推理和联合问题答案匹配的模型方法 | |
CN109033068B (zh) | 基于注意力机制的用于阅读理解的方法、装置和电子设备 | |
CN108959246B (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
CN111444340B (zh) | 文本分类方法、装置、设备及存储介质 | |
CN110019701B (zh) | 用于问答服务的方法、问答服务系统以及存储介质 | |
CN112487182A (zh) | 文本处理模型的训练方法、文本处理方法及装置 | |
CN111581510A (zh) | 分享内容处理方法、装置、计算机设备和存储介质 | |
CN113127624B (zh) | 问答模型的训练方法及装置 | |
WO2022156561A1 (zh) | 一种自然语言处理方法以及装置 | |
CN112633010A (zh) | 基于多头注意力和图卷积网络的方面级情感分析方法及系统 | |
CN114519395B (zh) | 模型的训练方法和装置、文本摘要生成方法和装置、设备 | |
CN111597341B (zh) | 一种文档级关系抽取方法、装置、设备及存储介质 | |
CN115131698B (zh) | 视频属性确定方法、装置、设备及存储介质 | |
CN114330966A (zh) | 一种风险预测方法、装置、设备以及可读存储介质 | |
CN110969023B (zh) | 文本相似度的确定方法及装置 | |
CN113656563A (zh) | 一种神经网络搜索方法及相关设备 | |
Kalaivani et al. | A review on feature extraction techniques for sentiment classification | |
CN116541492A (zh) | 一种数据处理方法及相关设备 | |
CN116680386A (zh) | 基于多轮对话的答案预测方法和装置、设备、存储介质 | |
CN110516153B (zh) | 视频的智能推送方法和装置、存储介质及电子装置 | |
CN116956925A (zh) | 电子病历命名实体识别方法和装置、电子设备及存储介质 | |
CN112115347B (zh) | 搜索结果的获取方法和装置及存储介质 | |
CN114398903B (zh) | 意图识别方法、装置、电子设备及存储介质 | |
CN114998041A (zh) | 理赔预测模型的训练方法和装置、电子设备及存储介质 | |
CN115270746A (zh) | 问题样本生成方法和装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40034939 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |