CN112579767B - 搜索处理方法、装置和用于搜索处理的装置 - Google Patents
搜索处理方法、装置和用于搜索处理的装置 Download PDFInfo
- Publication number
- CN112579767B CN112579767B CN201910937061.3A CN201910937061A CN112579767B CN 112579767 B CN112579767 B CN 112579767B CN 201910937061 A CN201910937061 A CN 201910937061A CN 112579767 B CN112579767 B CN 112579767B
- Authority
- CN
- China
- Prior art keywords
- sample
- word
- vector
- training
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 41
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 296
- 230000011218 segmentation Effects 0.000 claims abstract description 89
- 238000000034 method Methods 0.000 claims abstract description 53
- 239000013598 vector Substances 0.000 claims description 448
- 238000011156 evaluation Methods 0.000 claims description 39
- 238000002372 labelling Methods 0.000 claims description 19
- 230000004044 response Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- WYGWHHGCAGTUCH-UHFFFAOYSA-N 2-[(2-cyano-4-methylpentan-2-yl)diazenyl]-2,4-dimethylpentanenitrile Chemical compound CC(C)CC(C)(C#N)N=NC(C)(C#N)CC(C)C WYGWHHGCAGTUCH-UHFFFAOYSA-N 0.000 description 3
- 101000869912 Cerastes vipera Disintegrin CV-11-alpha Proteins 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 3
- 101000983962 Conus victoriae Alpha-conotoxin Vc1a Proteins 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- KJQOYUHYAZGPIZ-PIJHVLQJSA-N conotoxin vc1.1 Chemical compound C([C@H]1C(=O)N2CCC[C@H]2C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@H](C(N[C@@H](CSSC[C@@H]2NC(=O)[C@@H](NC(=O)CN)CSSC[C@H](NC(=O)[C@H](CCCNC(N)=N)NC(=O)[C@@H]3CCCN3C(=O)[C@H](CC(O)=O)NC(=O)[C@H](CO)NC2=O)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](CC=2C=CC(O)=CC=2)C(=O)N[C@@H](CC(O)=O)C(=O)N1)C(N)=O)=O)[C@@H](C)CC)C1=CN=CN1 KJQOYUHYAZGPIZ-PIJHVLQJSA-N 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种搜索处理方法、装置和用于搜索处理的装置,其中的方法具体包括:获取第一训练样本,所述第一训练样本包括:第一样本搜索词以及所述第一样本搜索词对应的第一样本搜索结果;将所述第一训练样本中的目标分词替换为预设标识;其中,所述目标分词包括所述第一样本搜索词中的第一分词,和/或所述第一样本搜索结果中的第二分词;依据替换后的第一训练样本、以及所述目标分词构成的第一训练集,对预设模型进行预训练,得到第一模型;对所述第一模型进行再训练,得到第二模型;响应于针对目标搜索词的搜索请求,通过所述第二模型生成所述搜索请求对应的目标搜索结果。本发明实施例可以提高模型的预测准确度。
Description
技术领域
本发明涉及计算机处理技术领域,尤其涉及一种搜索处理方法、装置和用于搜索处理的装置。
背景技术
在信息搜索领域中,用户可以在搜索引擎页面的搜索框中输入搜索词,从而使得搜索引擎反馈该搜索词对应的搜索结果,以便用户进行查看。目前,可以构建搜索词对应的正样本,以及搜索词对应的负样本,该正样本和负样本分别标记有关联度,这样,可以通过该正样本和负样本训练深度学习模型得到搜索预测模型,以使得可以通过该搜索预测模型对搜索词的搜索结果进行质量得分的预测,并按照该质量得分向用户进行个性化推荐。
然而目前构建的搜索预测模型仅对搜索词、以及搜索词对应的搜索结果之间的关联关系进行学习,导致搜索预测模型的预测准确度较低。
发明内容
本发明实施例提供一种搜索处理方法、装置和用于搜索处理的装置,可以通过预训练学习到搜索词和搜索结果的语义逻辑,有助于提高模型的预测准确度。
为了解决上述问题,本发明公开了一种搜索处理方法,包括:
获取第一训练样本,所述第一训练样本包括:第一样本搜索词以及所述第一样本搜索词对应的第一样本搜索结果;
将所述第一训练样本中的目标分词替换为预设标识;其中,所述目标分词包括所述第一样本搜索词中的第一分词,和/或所述第一样本搜索结果中的第二分词;
依据替换后的第一训练样本、以及所述目标分词构成的第一训练集,对预设模型进行预训练,得到第一模型;
对所述第一模型进行再训练,得到第二模型;
响应于针对目标搜索词的搜索请求,通过所述第二模型生成所述搜索请求对应的目标搜索结果。
又一方面,本发明公开了一种搜索处理装置,包括:
第一样本获取模块,用于获取第一训练样本,所述第一训练样本包括:第一样本搜索词以及所述第一样本搜索词对应的第一样本搜索结果;
分词替换模块,用于将所述第一训练样本中的目标分词替换为预设标识;其中,所述目标分词包括所述第一样本搜索词中的第一分词,和/或所述第一样本搜索结果中的第二分词;
预训练模块,用于依据替换后的第一训练样本、以及所述目标分词构成的第一训练集,对预设模型进行预训练,得到第一模型;
再训练模块,用于对所述第一模型进行再训练,得到第二模型;
搜索处理模块,用于响应于针对目标搜索词的搜索请求,通过所述第二模型生成所述搜索请求对应的目标搜索结果。
再一方面,本发明公开了一种用于搜索处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取第一训练样本,所述第一训练样本包括:第一样本搜索词以及所述第一样本搜索词对应的第一样本搜索结果;
将所述第一训练样本中的目标分词替换为预设标识;其中,所述目标分词包括所述第一样本搜索词中的第一分词,和/或所述第一样本搜索结果中的第二分词;
依据替换后的第一训练样本、以及所述目标分词构成的第一训练集,对预设模型进行预训练,得到第一模型;
对所述第一模型进行再训练,得到第二模型;
响应于针对目标搜索词的搜索请求,通过所述第二模型生成所述搜索请求对应的目标搜索结果。
本发明实施例包括以下优点:
获取第一训练样本,所述第一训练样本包括:第一样本搜索词以及所述第一样本搜索词对应的第一样本搜索结果;将所述第一训练样本中的目标分词替换为预设标识;其中,所述目标分词包括所述第一样本搜索词中的第一分词,和/或所述第一样本搜索结果中的第二分词;依据替换后的第一训练样本、以及所述目标分词构成的第一训练集,对预设模型进行预训练,得到第一模型;对所述第一模型进行再训练,得到第二模型;响应于针对目标搜索词的搜索请求,通过所述第二模型生成所述搜索请求对应的目标搜索结果。可以通过预训练学习到搜索词和搜索结果的语义逻辑,提高模型的预测准确度。
此外,还可以从语义、语序、分类三方面表示搜索词和搜索结果,对于网页还可以从标题、关键词、站点地址三方面表示搜索词和搜索结果,有助于进一步提高模型的预测准确度;
再次,还可以基于搜索词和搜索结果的相关性、搜索结果的评价指标两个目标,对预设模型进行再训练,有助于进一步提高模型的预测准确度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的一种搜索处理方法实施例的步骤流程图;
图2是本发明的另一种搜索处理方法实施例的步骤流程图;
图3是本发明的一种搜索处理装置的框图;
图4是本发明的另一种搜索处理装置的框图;
图5是本发明实施例的一种用于搜索处理的装置800的框图;及
图6是本发明的一些实施例中服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
方法实施例
参照图1,示出了本发明的一种搜索处理方法实施例的步骤流程图,具体可以包括:
步骤101、获取第一训练样本,所述第一训练样本包括:第一样本搜索词以及所述第一样本搜索词对应的第一样本搜索结果。
本发明实施例的搜索处理方法可以用于搜索推荐平台的后台服务器,用户在搜索推荐平台的前端界面上输入目标搜索词,后台服务器可以采用预先训练得到的模型预测与目标搜索词相关的搜索结果的质量得分,并将质量得分较高的搜索结果通过前端界面展示给用户。本发明实施例通过在训练模型之前,预先对模型进行了预训练,使得模型可以识别语义逻辑,从而有助于提高质量得分的准确度。具体地,首先,从提供搜索功能的搜索推荐平台中获取大量用户的历史搜索记录;然后,从历史搜索记录中提取搜索词和根据该搜索词得到的搜索结果,作为第一样本搜索词和第一样本搜索结果。
其中,第一样本搜索词可以为字符串,从而可以对字符串进行分词得到一个或多个第一分词。例如,第一样本搜索词为“请问哪里能买到口红”时,可以对其进行分词,得到的第一分词为:{请问/哪里/能/买到/口红};再例如,当第一样本搜索词为“口红”时,直接将“口红”作为第一分词。
第一样本搜索结果可以包括但不限于:网页、文件等对象。第一样本搜索结果通常对应有描述信息,可以为一个或多个维度的描述信息。其中,可以从搜索结果的主题、搜索结果的内容等维度对搜索结果进行描述得到描述信息,并将描述信息进行分词作为第二分词。例如,第一样本搜索结果的主题为:“关于专利代理人考试的相关事项”,对其进行分词得到第二分词:{关于、专利代理人、考试、的、相关事项};若第一样本搜索结果的内容包括关键词:{报考时间、报考条件},则该关键词也可以作为第二分词。
步骤102、将所述第一训练样本中的目标分词替换为预设标识;其中,所述目标分词包括所述第一样本搜索词中的第一分词,和/或所述第一样本搜索结果中的第二分词。
其中,预设标识可以包括但不限于:固定标识或从预设词库中随机选取的分词。固定标识可以为区别于正常分词的标识,可以由多种类型的文字、数字、特殊符号组成。例如,固定标识为<MASK>,从而可以将第一分词{请问/哪里/能/买到/口红}中的“请问”和“能”替换为“<MASK>”,得到{<MASK>/哪里/<MASK>/买到/口红}。还可以将第一分词{请问/哪里/能/买到/口红}中的“口红”替换为随机选取的分词“护肤品”或“空气”,得到{请问/哪里/能/买到/护肤品}或{请问、/哪里/能/买到/空气}。
具体地,可以基于分词位置选取目标分词进行替换。
例如,按照一定数目间隔选取目标分词,或将指定位置的分词作为目标分词。例如,可以将第一分词按照顺序每隔两个分词选取一个分词作为目标分词;或,将第一个、中间一个、最后一个分词作为目标分词。需要说明的是,本发明的实施例对选取目标分词的规则不加以限制。
可以理解,第一分词和第二分词均可以按照上述过程替换,在实际应用中,可以仅对第一分词进行替换,也可以仅对第二分词进行替换,或两者均替换。
步骤103、依据替换后的第一训练样本、以及所述目标分词构成的第一训练集,对预设模型进行预训练,得到第一模型。
其中,预设模型可以为用于预测语句之间语义逻辑的任何模型,例如,深度学习中的全连接神经网络模型、卷积神经网络模型、循环神经网络模型等。
本发明的实施例可以通过预设模型根据第一训练样本中未被替换的分词预测预设标识对应的分词,并通过被替换为预设标识的目标分词对学习过程进行监督,直至预设模型可以准确的预测预设标识对应的分词为目标分词,得到第一模型,此时认为预设模型可以准确的识别语义逻辑。
其中,训练得到的第一模型用于预测搜索结果的语义逻辑的准确度,从而使得语义逻辑不准确的搜索结果的质量得分较低,使得语义逻辑准确的搜索结果的质量得分较高。
步骤104、对所述第一模型进行再训练,得到第二模型。
具体地,可以按照一定目标进行再训练,包括但不限于:基于搜索结果和搜索词之间的相关性进行再训练、基于搜索结果的评价指标进行再训练,本发明的实施例对再训练的目标不加以限制。可以理解,再训练时预设模型的初始参数为预训练得到的最优参数。
可以理解,基于搜索结果和搜索词之间的相关性进行再训练时,需要采用标注了相关性的样本进行再训练,从而使得再训练得到的结果可以预测搜索词和搜索结果的相关性;基于搜索结果的评价指标进行再训练时,需要采用标注了评价指标的样本进行再训练,从而使得再训练得到的结果可以预测搜索结果的质量得分。
需要说明的是,还可以将多种目标的再训练结合起来,从而标注信息可以结合多种目标。例如,可以通过结合相关性和评价指标的标注信息监督再训练,从而实现结合两种目标的再训练;还可以单独进行每种目标的再训练,例如,先进行第一种目标的再训练,然后再进行第二种目标的再训练,以此类推,从而实现多种目标的再训练。
本发明的实施例对再训练的目标、方法不加以限制,可以根据实际需求选取样本和标注信息。
步骤105、响应于针对目标搜索词的搜索请求,通过所述第二模型生成所述搜索请求对应的目标搜索结果。
其中,搜索请求为用户在搜索推荐平台提供的界面上输入目标搜索词之后生成,从而搜索推荐平台可以根据搜索请求生成目标搜索结果返回至界面展示。
具体地,第二模型首先预测搜索结果的质量得分,并根据搜索结果的质量得分降序排列展示。也可以选取质量得分较高的一个或多个、或质量得分大于一定阈值的一个或多个搜索结果降序排列。
综上,本发明实施例获取第一训练样本,所述第一训练样本包括:第一样本搜索词以及所述第一样本搜索词对应的第一样本搜索结果;将所述第一训练样本中的目标分词替换为预设标识;其中,所述目标分词包括所述第一样本搜索词中的第一分词,和/或所述第一样本搜索结果中的第二分词;依据替换后的第一训练样本、以及所述目标分词构成的第一训练集,对预设模型进行预训练,得到第一模型;对所述第一模型进行再训练,得到第二模型;响应于针对目标搜索词的搜索请求,通过所述第二模型生成所述搜索请求对应的目标搜索结果。可以通过预训练学习到搜索词和搜索结果的语义逻辑,有助于提高模型的预测准确度。
参照图2,示出了本发明的另一种搜索处理方法实施例的步骤流程图,具体可以包括:
步骤201、获取第一训练样本,所述第一训练样本包括:第一样本搜索词以及所述第一样本搜索词对应的第一样本搜索结果。
该步骤可以参照步骤101的详细说明,在此不再赘述。
步骤202、将所述第一训练样本中的目标分词替换为预设标识;其中,所述目标分词包括所述第一样本搜索词中的第一分词,和/或所述第一样本搜索结果中的第二分词,所述目标分词是按照目标类型和/或预设概率确定得到的。
其中,目标类型可以包括但不限于:动词、名词,或其余维度上的类型。例如,将第一分词中的名词或动词替换为预设标识。可以理解,由于名词或动词在句子中的重要性比较高,容易导致句子语义错误,从而可以将名词或动词作为目标分词,并通过后续的预测确定预测的名词或动词是否正确,更加有效的保证语义正确。
其中,预设概率可以根据实际应用场景设定,本发明实施例对其不加以限制。需要说明的是,被替换掉的目标分词越多,剩余的分词越少,导致预测准确率有可能下降。例如,极限情况下,剩余的分词仅剩一个,此时根据该一个分词预测目标分词,基本上很难,从而预设概率可以设置为一个较合理的数值,不能太大。此外,为了避免全部或大部分被替换的极端场景,可以设置样本中被替换的数目上限,如果被替换的分词达到该上限,则不继续替换;否则,可以继续进行替换。
具体地,针对每个分词,可以生成一个随机值,若该随机值小于或等于该预设概率,则将该分词作为目标分词,若该随机值大于该预设概率,则不将该分词作为目标分词;或,计算分词的总数目与该预设概率的乘积得到目标分词数目,并从所有分词中随机选取目标分词数目的目标分词。
步骤203、依据替换后的第一训练样本中的第一样本搜索词生成对应的第一样本搜索词向量,以及,依据替换后的第一训练样本中的第一样本搜索结果生成对应的第一样本搜索结果向量。
在实际应用中,分词可以用向量表示,向量与分词一一对应,相当于为分词分配一个身份信息,只是该身份信息用向量表示,向量接近的分词相似度较高。根据分词生成向量的算法已经是成熟的技术,例如,神经网络、单词共生矩阵的降维、概率模型、可解释的知识库方法、术语的显式表示、单词出现的背景表示。本发明的实施例对向量的具体表示不加以限制。
具体地,可以逐个获取第一分词对应的向量,然后将所有第一分词的向量组合起来得到第一样本搜索词向量;同理,逐个获取第二分词对应的向量,然后将所有第二分词的向量组合起来得到第一样本搜索结果向量。
可选地,在本发明的另一种实施例中,所述步骤203包括子步骤2031至2034:
子步骤2031,确定替换后的第一训练样本中的第一样本搜索词中每个第一分词对应的语义向量、语序向量、分类向量。
其中,语义向量从语义维度上表示第一分词,语序向量从位置顺序维度上表示第一分词,分类向量从第一分词的分类上表示第一分词。
子步骤2032,根据所述语义向量、所述语序向量、所述分类向量生成第一样本搜索词向量。
具体地,首先,将多个第一分词的语义向量组合为第一样本搜索词的语义向量,将多个第一分词的语序向量组合为第一样本搜索词的语序向量,将多个第一分词的分类向量组合为第一样本搜索词的分类向量;然后,将第一样本搜索词的语义向量、语序向量、分类向量按位叠加得到第一样本搜索词向量。
例如,对于由两个第一分词“快乐”和“生活”构成的第一样本搜索词。
若“快乐”对应的语义向量为[MV11,MV12,…,MV1N],“生活”对应的语义向量为[MV21,MV22,…,MV2N],则可以得到第一样本搜索词对应的语义向量为:[[MV11,MV12,…,MV1N],[MV21,MV22,…,MV2N]]。
若“快乐”对应的语序向量为[SV11,SV12,…,SV1N],“生活”对应的语序向量为[SV21,SV22,…,SV2N],则可以得到第一样本搜索词对应的语序向量为:[[SV11,SV12,…,SV1N],[SV21,SV22,…,SV2N]]。
若“快乐”对应的分类向量为[CV11,CV12,…,CV1N],“生活”对应的分类向量为[CV21,CV22,…,CV2N],则可以得到第一样本搜索词对应的分类向量为:[[CV11,CV12,…,CV1N],[CV21,CV22,…,CV2N]]。
从而,可以得到第一样本搜索词向量为:[[MV11+SV11+CV11,MV12+SV12+CV12,…,MV1N+SV1N+CV1N],[MV21+SV21+CV21,MV22+SV22+CV22,…,MV2N+SV2N+CV2N]]。
子步骤2033,确定所述第一样本搜索结果对应的语义向量、语序向量、分类向量。
在本发明的实施例中,第一样本搜索结果对应的语义向量,可以将多个第二分词的语义向量组合生成;第一样本搜索结果对应的语序向量,可以将多个第二分词的语序向量组合生成;第一样本搜索结果对应的分类向量,可以将多个第二分词的分类向量组合生成。原理与第一样本搜索词对应语义向量、语序向量、分类向量相同,在此不再赘述。
可选地,在本发明的实施例中,所述第一样本搜索结果为网页,所述子步骤2033包括子步骤20331至20336:
子步骤20331,确定所述网页的标题对应的语义向量、语序向量、分类向量。
本发明的实施例在应用于网页搜索时,用户在搜索推荐平台上输入搜索词,搜索平台将搜索结果以网页的形式展示给用户,从而第一样本搜索结果、第二样本搜索结果、第三样本搜索结果、候选搜索结果均为网页。
网页可以从标题、关键词、站点地址三个方面表示。
其中,标题类似于第一样本搜索词,可以为字符串或几个分词,字符串也可以拆分为分词,从而其语义向量可以为分词的语义向量组合得到,其语序向量为分词的语义向量组合得到,其分类向量为分词的分类向量组合得到,原理与子步骤2032中第一样本搜索词的语义向量、语序向量、分类向量的生成原理相同,在此不再赘述。
子步骤20332,确定所述网页的关键词对应的语义向量、分类向量。
可以理解,关键词可以认为为多个关键分词组成,不具有语序特征,从而不具有语序向量。关键词对应的语义向量为多个关键分词的语义向量组合生成,关键词对应的分类向量为多个关键分词的分类向量组合生成,叠加原理与子步骤2032中相同,在此不再赘述。
子步骤20333,确定所述网页的站点地址对应的语义向量、分类向量。
可以理解,站点地址也不具有语序特征,从而不具有语序向量。
站点地址对应的语义向量可以根据站点地址的语义信息生成,语义向量唯一表示了站点地址的语义信息。根据语义信息生成语义向量的过程与根据关键词生成向量的过程相同,已经是比较成熟的技术,在此不再赘述。
站点地址的分类向量可以根据站点地址的分类信息生成,分类向量唯一表示了该站点地址的分类信息,根据分类信息生成分类向量的过程与根据关键词生成向量的过程相同,已经是比较成熟的技术,在此不再赘述。
子步骤20334,根据所述网页的标题对应的语义向量、所述网页的关键词对应的语义向量、所述网页的站点地址对应的语义向量,生成第一样本搜索结果对应的语义向量。
具体地,可以将标题的语义向量、关键词的语义向量、站点地址的语义向量组合为第一样本搜索结果的语义向量。
例如,若标题的语义向量为:[[TMV11,TMV12,…,TMV1N],[TMV21,TMV22,…,TMV2N],…,[TMVL1,TMVL2,…,TMVLN]],其中,[TMV11,TMV12,…,TMV1N]为标题中第1个分词的语义向量,[TMV21,TMV22,…,TMV2N]为标题中第2个分词的语义向量,[TMVL1,TMVL2,…,TMVLN]为标题中第L个分词的语义向量。
关键词的语义向量为:[[KMV11,KMV12,…,KMV1N],[KMV21,KMV22,…,KMV2N],…,[KMVS1,KMVS2,…,KMVSN]]。其中,[KMV11,KMV12,…,KMV1N]为第1个关键词的语义向量,[KMV21,KMV22,…,KMV2N]为第2个关键词的语义向量,[KMVS1,KMVS2,…,KMVSN]为第S个关键词的语义向量。
站点地址的语义向量为:[AMV1,AMV2,…,AMVN]。
从而得到第一样本搜索结果的语义向量为:[[TMV11,TMV12,…,TMV1N],[TMV21,TMV22,…,TMV2N],…,[TMVL1,TMVL2,…,TMVLN],[KMV11,KMV12,…,KMV1N],[KMV21,KMV22,…,KMV2N],…,[KMVS1,KMVS2,…,KMVSN],[AMV1,AMV2,…,AMVN]]。
子步骤20335,将所述网页的标题对应的语序向量作为第一样本搜索结果对应的语序向量。
由于仅有标题具有语序特征,从而标题的语序向量即为第一样本搜索结果的语序向量。例如,若标题的语序向量为[[TSV11,TSV12,…,TSV1N],[TSV 21,TSV22,…,TSV2N],…,[TSVL1,TSVL2,…,TSVLN]],其中,[TSV11,TSV12,…,TSV1N]为标题中第1个分词的语序向量,[TSV21,TSV22,…,TSV2N]为标题中第2个分词的语序向量,[TSVL1,TSVL2,…,TSVLN]为标题中第L个分词的语序向量,则第一样本搜索结果对应的语序向量为:[[TSV11,TSV12,…,TSV1N],[TSV21,TSV22,…,TSV2N],…,[TSVL1,TSVL2,…,TSVLN]]。
子步骤20336,根据所述网页的标题对应的分类向量、所述网页的关键词对应的分类向量、所述网页的站点地址对应的分类向量,生成第一样本搜索结果对应的分类向量。
具体地,可以将标题的分类向量、关键词的分类向量、站点地址的分类向量组合为第一样本搜索结果的分类向量。例如,若标题的分类向量为:[[TCV11,TCV12,…,TCV1N],[TCV21,TCV22,…,TCV2N],…,[TCVL1,TCVL2,…,TCVLN]],其中,[TCV11,TCV12,…,TCV1N]为标题中第1个分词的分类向量,[TCV21,TCV22,…,TCV2N]为标题中第2个分词的分类向量,[TCVL1,TCVL2,…,TCVLN]为标题中第L个分词的分类向量,关键词的分类向量为:[[KCV11,KCV12,…,KCV1N],[KCV21,KCV22,…,KCV2N],…,[KCVS1,KCVS 2,…,KCVSN]],其中,[KCV11,KCV12,…,KCV1N]为第1个关键词的分类向量,[KCV21,KCV22,…,KCV2N]为第2个关键词的分类向量,[KCVS1,KCV S2,…,KCVSN]为第S个关键词的分类向量,站点地址的分类向量为:[ACV 1,ACV2,…,ACVN],从而得到第一样本搜索结果的分类向量为[[TCV11,TCV 12,…,TCV1N],[TCV21,TCV22,…,TCV2N],…,[TCVL1,TCVL2,…,TCVLN],[KCV11,KCV12,…,KCV1N],[KCV21,KCV22,…,KCV2N],…,[KCVS1,KCVS 2,…,KCVSN],[ACV1,ACV2,…,ACVN]]。
本发明的实施例可以针对网页,从标题、关键词、站点地址三方面对第一样本搜索结果进行向量表示,有助于提高网页表示的准确度。
子步骤2034,根据所述第一样本搜索结果对应的所述语义向量、所述语序向量、所述分类向量生成第一样本搜索结果向量。
具体地,可以将第一样本搜索结果对应的语义向量、语序向量、分类向量按位叠加得到第一样本搜索结果向量。例如,对于子步骤20331至20336得到的语义向量、语序向量、分类向量,在按位叠加之前,将语序向量扩展为与语义向量、分类向量相同维度,得到如下的语序向量:[[TSV11,TSV12,…,TSV1N],[TSV21,TSV22,…,TSV2N],…,[TSVL1,TSVL2,…,TSVLN],[0,0,…,0],[0,0,…,0],[0,0,…,0],[0,0,…,0]],从而对应的第一样本搜索结果向量为:[[TMV 11+TSV11+TCV11,TMV12+TSV12+TCV12,…,TMV1N+TSV1N+TCV1N],[TMV21+TSV21+TCV21,TMV22+TSV22+TCV22,…,TMV2N+TSV2N+TCV2N],…,[TMVL1+TSVL1+TCVL1,TMVL2+TSVL2+TCVL2,…,TMVLN+TSVL N+TCVLN],[KMV11+KCV11,KMV12+KCV12,…,KMV1N+KCV1N],[KMV21+KCV21,KMV22+KCV22,…,KMV2N+KCV2N],…,[KMVS1+KCVS1,KMV S2+KCVS2,…,KMVSN+KCVSN],[AMV1+ACV1,AMV2+ACV2,…,AMVN+ACVN]]。
本发明的实施例可以从语义、语序、分类三个方面对第一样本搜索词、第一样本搜索结果进行向量表示,有助于提高表示和模型的准确度。
步骤204、将所述第一样本搜索词向量与所述第一样本搜索结果向量输入至预设模型,预测所述第一样本搜索词和所述第一样本搜索结果中预设标识对应的分词,得到预测分词及所述预测分词对应的预测概率。
本发明的实施例中,可以根据语义逻辑以及剩余的非目标分词预测预设标识对应位置的分词,分词可以为多个,并以不同预测概率分布,例如,预测其中一个预设标识对应位置的分词包括:商品、空气等,而分词为商品的概率为0.8,分词为空气的概率为0.1,等。
可以理解,若预测得到的预测分词与被替换掉的目标分词一致时,代表模型已经可以准确的识别语义逻辑;若预测得到的预测分词与被替换掉的目标分词不一致,代表模型无法准确的识别语义逻辑。
步骤205、根据所述预设标识对应的预测分词、所述预测分词对应的预测概率和目标分词确定第一损失值。
具体地,第一损失值LOSS1可以采用如下公式计算得到:
其中,I为预设标识的数目,对于第i个预设标识对应的目标分词和预测分词,yi为与目标分词相同的预测分词对应的预测概率。例如,对于预测分词为预测概率为0.8的商品、预测概率为0.1的空气,若目标分词为商品,则yi为0.8。
当然,现有技术中计算损失值的函数还包括:均方差损失函数、合页损失函数等,均可以使用,本发明的实施例对计算损失值的公式不加以限制。
步骤206、若所述第一损失值大于预设第一损失值阈值,则调整所述预设模型的参数继续训练。
其中,第一损失值阈值可以根据实际应用场景设定,本发明的实施例对其不加以限制。可以理解,第一损失值阈值越大,训练时长越小,模型准确度越差;第一损失值阈值越小,训练时长越大,模型准确度越好。
具体地,首先,以模型的每个参数为变量,计算第一损失值的梯度函数;然后,朝着梯度函数下降的方向调整参数,使得第一损失值变小。可以理解,在调整参数时,可以调整一个参数,也可以同时调整多个参数。
步骤207、若所述第一损失值小于或等于预设第一损失值阈值,则结束训练,得到第一模型。
可以理解,若第一损失值小于第一损失值阈值,则说明预设模型识别语义逻辑的准确度已经达到了预期,此时结束训练得到第一模型,预设模型的当前参数为第一模型的参数。
本发明的实施例可以通过对预设标识的预测实现预设模型的预训练得到第一模型,使得第一模型可以识别语义逻辑,有助于提高第一模型识别语义逻辑的准确度。
在经过前述步骤得到第一模型之后,可以通过分别进行步骤208或步骤209对第一模型进行再训练得到第二模型。
步骤208、通过第二训练集对所述第一模型进行再训练,得到第二模型,所述第二训练集由第二训练样本组成,所述第二训练样本包括:第二样本搜索词、评价指标大于或等于预设指标阈值的第二样本搜索结果、评价指标小于预设指标阈值的第三样本搜索结果、代表所述第二样本搜索结果为正样本的标注信息、代表所述第三样本搜索结果为负样本的标注信息。
其中,评价指标可以包括但不限于:点击率、转化率,从而有助于提高根据目标搜索词推荐的目标搜索结果的点击率、转化率。本发明的实施例对其不加以限制,只要能表明样本搜索结果的质量的指标均可。
预设指标阈值可以根据实际应用场景设定,本发明的实施例对其不加以限制。例如,若评价指标为点击率,则可以将点击率0.6作为指标阈值,从而可以将点击率大于或等于0.6的第三样本搜索结果用1标注,将点击率小于0.6的第三样本搜索结果用0标注。
当然,标注信息的形式不限于上述形式,只要可以区分评价指标大于或等于指标阈值还是小于指标阈值即可。
可选地,在本发明的另一种实施例中,所述步骤208包括子步骤2081至2085:
子步骤2081,生成所述第二样本搜索词对应的第二样本搜索词向量、所述第二样本搜索结果对应的第二样本搜索结果向量和所述第三样本搜索结果对应的第三样本搜索结果向量。
该步骤可以参照步骤203、子步骤2031至2034、子步骤20331中20336的详细说明,在此不再赘述。
子步骤2082,将所述第二样本搜索词向量、所述第二样本搜索结果向量和所述第三样本搜索结果向量输入至所述第一模型,预测所述第二样本搜索结果和第三样本搜索结果的评价指标,得到第二预测指标、第三预测指标。
具体地,预设模型可以对第二样本搜索词向量、第二样本搜索结果向量进行运算,得到第二样本搜索结果的评价指标,对第二样本搜索词向量、第三样本搜索结果进行运算得到第三样本搜索结果的评价指标。
子步骤2083,根据所述第二预测指标、第三预测指标、代表所述第二样本搜索结果为正样本的标注信息、代表所述第三样本搜索结果为负样本的标注信息,确定第二损失值。
具体地,首先,计算第二预测指标与正样本的标注信息之间的第四损失值,以及,第三预测指标与负样本的标注信息之间的第五损失值;最后,将第四损失值和第五损失值之和作为第二损失值。
综上可以得到如下的第二损失值LOSS2公式:
其中,J为第二训练集中包含的第二训练样本的数目,LOSS4、LOSS5分别为第四损失值和第五损失值,y1'j为第j个第二训练样本对应的第二预测指标,y1j为第j个第二训练样本对应的正样本的标注信息,y2'j为第j个第二训练样本对应的第三预测指标,y2j为第j个第二训练样本对应的负样本的标注信息。
子步骤2084,若所述第二损失值大于预设第二损失值阈值,则调整所述第一模型的参数继续训练。
其中,第二损失值阈值可以根据实际应用场景和第二损失值的计算公式设定,本公开的实施例对其不加以限制。
具体地,调整第一模型的参数可以参照步骤206的详细说明,在此不再赘述。
子步骤2085,若所述第二损失值小于或等于预设第二损失值阈值,则结束训练,得到第二模型。
可以理解,若第二损失值小于第二损失值阈值,则说明第一模型识别评价指标的准确度已经达到了预期,此时结束训练得到第二模型,第一模型的当前参数为第二模型的参数。
本发明的实施例可以通过对评价指标的预测结果实现对第一模型的再训练得到第二模型,使得第二模型可以结合语义逻辑预测搜索结果的评价指标,有助于提高模型预测的准确度。
步骤209、通过第三训练集对所述第一模型进行再训练,得到第二模型,所述第三训练集由第三训练样本组成,所述第三训练样本包括:第三样本搜索词、所述第三样本搜索词对应的第四样本搜索结果、所述第三样本搜索词与所述第四样本搜索结果之间的相关系数。
其中,第三样本搜索词可以与第一样本搜索词相同,也可以不同;当第三样本搜索词语与第一样本搜索词相同时,第四样本搜索结果与第一样本搜索结果可以相同或不同。
可以理解,第三样本搜索词与第四样本搜索结果之间的相关系数,表示第三样本搜索词与第四样本搜索结果之间的相关性,相关系数越大,相关性越大;相关系数越小,相关性越小。
具体地,相关性系数可以通过人工标注,通常通过经验和一定准则确定是否相关。若第三样本搜索词与第四样本搜索结果超相关,则将其相关性系数设定为较高的值;若第三样本搜索词与第四样本搜索结果相关性比较小,则将其相关性系数设定为较小的值。
可选地,在本发明的另一种实施例中,所述步骤209包括子步骤2091至2095:
子步骤2091,生成所述第三样本搜索词对应的第三样本搜索词向量、所述第四样本搜索结果对应的第四样本搜索结果向量。
该步骤可以参照步骤203、子步骤2031至2034、子步骤20331中20336的详细说明,在此不再赘述。
子步骤2092,将所述第三样本搜索词向量、所述第四样本搜索结果向量输入至所述第一模型,预测所述第三样本搜索词和所述第四样本搜索结果之间的相关性系数,得到相关性预测值。
具体地,第一模型可以根据第三样本搜索词向量、所述第四样本搜索结果向量,通过各种运算得到一个预测的相关性系数。具体运算与选取的模型结构相关,本发明的实施例对其不加以限制。
子步骤2093,根据所述相关性预测值、所述第三训练样本中的相关性系数确定第三损失值。
具体地,第三损失值LOSS3可以参照如下公式计算得到:
其中,K为第三训练集中包含的第三训练样本的数目,y3'k为第k个第三训练样本对应的相关性预测值,y3k为第k个第三训练样本对应的相关性系数。
子步骤2094,若所述第三损失值大于预设第三损失值阈值,则调整所述第一模型的参数继续训练。
其中,第三损失值阈值可以根据实际应用场景和第三损失值的计算公式设定,本发明实施例对其不加以限制。
具体地,调整第一模型的参数可以参照步骤206的详细说明,在此不再赘述。
子步骤2095,若所述第三损失值小于或等于预设第三损失值阈值,则结束训练,得到第二模型。
可以理解,若第三损失值小于或等于第三损失值阈值,则说明第一模型识别相关性的准确度已经达到了预期,此时结束训练得到第二模型,第一模型的当前参数为第二模型的参数。
本发明的实施例可以通过对相关性的预测结果实现第一模型的再训练得到第二模型,使得第二模型可以结合语义逻辑预测搜索词和搜索结果之间的相关性系数,有助于提高模型预测的准确度。
需要说明的是,在实际应用中,可以将预训练过程单独与步骤208的再训练结合使用,也可以将预训练过程单独与步骤209的再训练结合使用,还可以将预训练过程、步骤208、209的再训练过程结合使用。特别地,在将预训练过程、步骤208、209的再训练过程结合使用时,首先,通过第二训练集对第一模型进行再训练得到临时的第二模型,然后,再通过第三训练集对临时的第二模型进行再训练得到最终的第二模型;或者,首先,通过第三训练集对第一模型进行再训练得到临时的第二模型,然后,再通过第二训练集对临时的第二模型进行再训练得到最终的第二模型。
可以理解,不管是单独经过步骤208的再训练,还是单独经过步骤209的再训练,或按照上述方案结合两种再训练,得到第二模型之后均继续进行后续的步骤210至211。
步骤210、响应于针对目标搜索词的搜索请求,获取与所述目标搜索词对应的候选搜索结果。
其中,候选搜索结果可以为与搜索词初次匹配成功的搜索结果,也可以为经过一定过滤处理之后的搜索结果,本发明的实施例对其不加以限制。
步骤211、通过所述第二模型预测所述候选搜索结果对应所述目标搜索词的质量得分。
质量得分不仅从语义方面对候选搜索结果进行评估,还从再训练的目标进行评估。例如,目标搜索词和候选搜索结果之间的相关性、候选搜索结果的评价指标。可以理解,若语义逻辑越好,目标搜索词和候选搜索结果之间的相关性越高,候选搜索结果的评价指标越好,则质量得分越高;若语义逻辑越差,目标搜索词和候选搜索结果之间的相关性越低,候选搜索结果的评价指标越差,则质量得分越低。
具体地,首先,将目标搜索词和候选搜索结果转换为目标搜索词向量和候选搜索结果向量;然后,将目标搜索词向量和候选搜索结果向量输入至第二模型,预测得到所述候选搜索结果的质量得分。
可以理解,将目标搜索词和候选搜索结果转换为目标搜索词向量和候选搜索结果向量的过程,可以参照步骤203、子步骤2031至2034、子步骤20331中20336的详细说明,在此不再赘述。
步骤212、根据所述质量得分从所述候选搜索结果中选取目标搜索结果。
具体地,可以选取质量得分最高的若干候选搜索结果作为目标搜索结果,还可以选取质量得分大于一定阈值的若干候选搜索结果作为目标搜索结果。
本发明的实施例可以采用经过预训练和再训练的第二模型对候选搜索结果进行打分,并生成目标搜索结果。
综上,本发明实施例获取第一训练样本,所述第一训练样本包括:第一样本搜索词以及所述第一样本搜索词对应的第一样本搜索结果;将所述第一训练样本中的目标分词替换为预设标识;其中,所述目标分词包括所述第一样本搜索词中的第一分词,和/或所述第一样本搜索结果中的第二分词;依据替换后的第一训练样本、以及所述目标分词构成的第一训练集,对预设模型进行预训练,得到第一模型;对所述第一模型进行再训练,得到第二模型;响应于针对目标搜索词的搜索请求,通过所述第二模型生成所述搜索请求对应的目标搜索结果。可以通过预训练学习到搜索词和搜索结果的语义逻辑,有助于提高模型的预测准确度。
此外,还可以从语义、语序、分类三方面表示搜索词和搜索结果,对于网页还可以从标题、关键词、站点地址三方面表示搜索词和搜索结果,有助于进一步提高模型的预测准确度;
再次,还可以基于搜索词和搜索结果的相关性、搜索结果的评价指标两个目标,对预设模型进行再训练,有助于进一步提高模型的预测准确度。
装置实施例
参照图3,示出了本发明的一种搜索处理装置实施例的结构框图,具体可以包括:
第一样本获取模块301,用于获取第一训练样本,所述第一训练样本包括:第一样本搜索词以及所述第一样本搜索词对应的第一样本搜索结果。
分词替换模块302,用于将所述第一训练样本中的目标分词替换为预设标识;其中,所述目标分词包括所述第一样本搜索词中的第一分词,和/或所述第一样本搜索结果中的第二分词。
预训练模块303,用于依据替换后的第一训练样本、以及所述目标分词构成的第一训练集,对预设模型进行预训练,得到第一模型。
再训练模块304,用于对所述第一模型进行再训练,得到第二模型。
搜索处理模块305,用于响应于针对目标搜索词的搜索请求,通过所述第二模型生成所述搜索请求对应的目标搜索结果。
综上,本发明实施例获取第一训练样本,所述第一训练样本包括:第一样本搜索词以及所述第一样本搜索词对应的第一样本搜索结果;将所述第一训练样本中的目标分词替换为预设标识;其中,所述目标分词包括所述第一样本搜索词中的第一分词,和/或所述第一样本搜索结果中的第二分词;依据替换后的第一训练样本、以及所述目标分词构成的第一训练集,对预设模型进行预训练,得到第一模型;对所述第一模型进行再训练,得到第二模型;响应于针对目标搜索词的搜索请求,通过所述第二模型生成所述搜索请求对应的目标搜索结果。可以通过预训练学习到搜索词和搜索结果的语义逻辑,有助于提高模型的预测准确度。
参照图4,示出了本发明的另一种搜索处理装置实施例的结构框图,具体可以包括:
第一样本获取模块401,用于获取第一训练样本,所述第一训练样本包括:第一样本搜索词以及所述第一样本搜索词对应的第一样本搜索结果。
分词替换模块402,用于将所述第一训练样本中的目标分词替换为预设标识;其中,所述目标分词包括所述第一样本搜索词中的第一分词,和/或所述第一样本搜索结果中的第二分词;可选地,在本发明的实施例中,所述目标分词是按照目标类型和/或预设概率确定得到的。
预训练模块403,用于依据替换后的第一训练样本、以及所述目标分词构成的第一训练集,对预设模型进行预训练,得到第一模型;可选地,在本发明的另一种实施例中,所述预训练模块403包括:
第一向量生成模块4031,用于依据替换后的第一训练样本中的第一样本搜索词生成对应的第一样本搜索词向量,以及,依据替换后的第一训练样本中的第一样本搜索结果生成对应的第一样本搜索结果向量。
分词预测模块4032,用于将所述第一样本搜索词向量与所述第一样本搜索结果向量输入至预设模型,预测所述第一样本搜索词和所述第一样本搜索结果中预设标识对应的分词,得到预测分词及所述预测分词对应的预测概率。
第一损失值确定模块4033,用于根据所述预设标识对应的预测分词、所述预测分词对应的预测概率和目标分词确定第一损失值。
第一继续训练模块4034,用于若所述第一损失值大于预设第一损失值阈值,则调整所述预设模型的参数继续训练。
第一结束训练模块4035,用于若所述第一损失值小于或等于第一预设损失值阈值,则结束训练,得到第一模型。
再训练模块404,用于对所述第一模型进行再训练,得到第二模型;可选地,在本发明的实施例中,所述再训练模块404包括:
第一再训练模块4041,用于通过第二训练集对所述第一模型进行再训练,得到第二模型,所述第二训练集由第二训练样本组成,所述第二训练样本包括:第二样本搜索词、评价指标大于或等于预设指标阈值的第二样本搜索结果、评价指标小于预设指标阈值的第三样本搜索结果、代表所述第二样本搜索结果为正样本的标注信息、代表所述第三样本搜索结果为负样本的标注信息。
第二再训练模块4042,用于通过第三训练集对所述第一模型进行再训练,得到第二模型,所述第三训练集由第三训练样本组成,所述第三训练样本包括:第三样本搜索词、所述第三样本搜索词对应的第四样本搜索结果、所述第三样本搜索词与所述第四样本搜索结果之间的相关系数。
搜索处理模块405,用于响应于针对目标搜索词的搜索请求,通过所述第二模型生成所述搜索请求对应的目标搜索结果;可选地,在发明实施例中,所述搜索处理模块405包括:
候选搜索结果获取模块4051,用于响应于针对目标搜索词的搜索请求,获取与所述目标搜索词对应的候选搜索结果。
质量得分预测模块4052,用于通过所述第二模型预测所述候选搜索结果对应所述目标搜索词的质量得分。
目标搜索结果生成模块4053,用于根据所述质量得分从所述候选搜索结果中选取目标搜索结果。
可选地,在本发明的另一种实施例中,所述第一向量生成模块4031包括:
第二向量生成模块,用于确定替换后的第一训练样本中的第一样本搜索词中每个第一分词对应的语义向量、语序向量、分类向量。
第一样本搜索词向量生成模块,用于根据所述语义向量、所述语序向量、所述分类向量生成第一样本搜索词向量。
第三向量生成模块,用于确定所述第一样本搜索结果对应的语义向量、语序向量、分类向量。
第一样本搜索结果向量生成模块,用于根据所述第一样本搜索结果对应的所述语义向量、所述语序向量、所述分类向量生成第一样本搜索结果向量。
可选地,在本发明的另一种实施例中,所述第一样本搜索结果为网页,所述第三向量生成模块包括:
标题向量生成模块,用于确定所述网页的标题对应的语义向量、语序向量、分类向量;
关键词向量生成模块,用于确定所述网页的关键词对应的语义向量、分类向量;
站点地址向量生成模块,用于确定所述网页的站点地址对应的语义向量、分类向量;
语义向量生成模块,用于根据所述网页的标题对应的语义向量、所述网页的关键词对应的语义向量、所述网页的站点地址对应的语义向量,生成第一样本搜索结果对应的语义向量;
语序向量生成模块,用于将所述网页的标题对应的语序向量作为第一样本搜索结果对应的语序向量;
分类向量生成模块,用于根据所述网页的标题对应的分类向量、所述网页的关键词对应的分类向量、所述网页的站点地址对应的分类向量,生成第一样本搜索结果对应的分类向量。
可选地,在本发明的另一种实施例中,所述第一再训练模块4041包括:
第四向量生成模块,用于生成所述第二样本搜索词对应的第二样本搜索词向量、所述第二样本搜索结果对应的第二样本搜索结果向量和所述第三样本搜索结果对应的第三样本搜索结果向量。
评价指标预测模块,用于将所述第二样本搜索词向量、所述第二样本搜索结果向量和所述第三样本搜索结果向量输入至所述第一模型,预测所述第二样本搜索结果和第三样本搜索结果的评价指标,得到第二预测指标、第三预测指标。
第二损失值确定模块,用于根据所述第二预测指标、第三预测指标、代表所述第二样本搜索结果为正样本的标注信息、代表所述第三样本搜索结果为负样本的标注信息,确定第二损失值。
第二继续训练模块,用于若所述第二损失值大于预设第二损失值阈值,则调整所述第一模型的参数继续训练。
第二结束训练模块,用于若所述第二损失值小于或等于预设第二损失值阈值,则结束训练,得到第二模型。
可选地,在本发明的另一种实施例中,所述第二再训练模块4042包括:
第五向量生成模块,用于生成所述第三样本搜索词对应的第三样本搜索词向量、所述第四样本搜索结果对应的第四样本搜索结果向量。
相关性预测模块,用于将所述第三样本搜索词向量、所述第四样本搜索结果向量输入至所述第一模型,预测所述第三样本搜索词和所述第四样本搜索结果之间的相关性系数,得到相关性预测值。
第三损失值确定模块,用于根据所述相关性预测值、所述第三训练样本中的相关性系数确定第三损失值。
第三继续训练模块,用于若所述第三损失值大于预设第三损失值阈值,则调整所述第一模型的参数继续训练。
第三结束训练模块,用于若所述第三损失值小于或等于预设第三损失值阈值,则结束训练,得到第二模型。
综上,本发明实施例获取第一训练样本,所述第一训练样本包括:第一样本搜索词以及所述第一样本搜索词对应的第一样本搜索结果;将所述第一训练样本中的目标分词替换为预设标识;其中,所述目标分词包括所述第一样本搜索词中的第一分词,和/或所述第一样本搜索结果中的第二分词;依据替换后的第一训练样本、以及所述目标分词构成的第一训练集,对预设模型进行预训练,得到第一模型;对所述第一模型进行再训练,得到第二模型;响应于针对目标搜索词的搜索请求,通过所述第二模型生成所述搜索请求对应的目标搜索结果。可以通过预训练学习到搜索词和搜索结果的语义逻辑,有助于提高模型的预测准确度。
此外,还可以从语义、语序、分类三方面表示搜索词和搜索结果,对于网页还可以从标题、关键词、站点地址三方面表示搜索词和搜索结果,有助于进一步提高模型的预测准确度;
再次,还可以基于搜索词和搜索结果的相关性、搜索结果的评价指标两个目标,对预设模型进行再训练,有助于进一步提高模型的预测准确度。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明实施例提供了一种用于搜索处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:获取第一训练样本,所述第一训练样本包括:第一样本搜索词以及所述第一样本搜索词对应的第一样本搜索结果;将所述第一训练样本中的目标分词替换为预设标识;其中,所述目标分词包括所述第一样本搜索词中的第一分词,和/或所述第一样本搜索结果中的第二分词;依据替换后的第一训练样本、以及所述目标分词构成的第一训练集,对预设模型进行预训练,得到第一模型;对所述第一模型进行再训练,得到第二模型;响应于针对目标搜索词的搜索请求,通过所述第二模型生成所述搜索请求对应的目标搜索结果。
图5是根据一示例性实施例示出的一种用于数据处理的装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图5,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音信息处理模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频信息处理(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图6是本发明的一些实施例中服务器的结构示意图。该服务器设备1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器设备1900上执行存储介质1930中的一系列指令操作。
服务器设备1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时,使得装置能够执行图1或图2所示的搜索处理方法。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(智能终端或者服务器)的处理器执行时,使得装置能够执行一种搜索处理方法,所述方法包括:获取第一训练样本,所述第一训练样本包括:第一样本搜索词以及所述第一样本搜索词对应的第一样本搜索结果;将所述第一训练样本中的目标分词替换为预设标识;其中,所述目标分词包括所述第一样本搜索词中的第一分词,和/或所述第一样本搜索结果中的第二分词;依据替换后的第一训练样本、以及所述目标分词构成的第一训练集,对预设模型进行预训练,得到第一模型;对所述第一模型进行再训练,得到第二模型;响应于针对目标搜索词的搜索请求,通过所述第二模型生成所述搜索请求对应的目标搜索结果。
本发明实施例公开了A1、一种搜索处理方法,包括:
获取第一训练样本,所述第一训练样本包括:第一样本搜索词以及所述第一样本搜索词对应的第一样本搜索结果;
将所述第一训练样本中的目标分词替换为预设标识;其中,所述目标分词包括所述第一样本搜索词中的第一分词,和/或所述第一样本搜索结果中的第二分词;
依据替换后的第一训练样本、以及所述目标分词构成的第一训练集,对预设模型进行预训练,得到第一模型;
对所述第一模型进行再训练,得到第二模型;
响应于针对目标搜索词的搜索请求,通过所述第二模型生成所述搜索请求对应的目标搜索结果。
A2、根据A1所述的方法,所述对所述第一模型进行再训练,得到第二模型,包括:
通过第二训练集对所述第一模型进行再训练,得到第二模型;所述第二训练集由第二训练样本组成,所述第二训练样本包括:第二样本搜索词、评价指标大于或等于预设指标阈值的第二样本搜索结果、评价指标小于预设指标阈值的第三样本搜索结果、代表所述第二样本搜索结果为正样本的标注信息、代表所述第三样本搜索结果为负样本的标注信息。
A3、根据A1所述的方法,所述对所述第一模型进行再训练,得到第二模型,包括:
通过第三训练集对所述第一模型进行再训练,得到第二模型,所述第三训练集由第三训练样本组成,所述第三训练样本包括:第三样本搜索词、所述第三样本搜索词对应的第四样本搜索结果、所述第三样本搜索词与所述第四样本搜索结果之间的相关系数。
A4、根据A1至A3其中任一项所述的方法,所述目标分词是按照目标类型和/或预设概率确定得到的。
A5、根据A4所述的方法,所述依据替换后的第一训练样本、以及所述目标分词构成的第一训练集,对预设模型进行预训练,得到第一模型,包括:
依据替换后的第一训练样本中的第一样本搜索词生成对应的第一样本搜索词向量,以及,依据替换后的第一训练样本中的第一样本搜索结果生成对应的第一样本搜索结果向量;
将所述第一样本搜索词向量与所述第一样本搜索结果向量输入至预设模型,预测所述第一样本搜索词和所述第一样本搜索结果中预设标识对应的分词,得到预测分词及所述预测分词对应的预测概率;
根据所述预设标识对应的预测分词、所述预测分词对应的预测概率和目标分词确定第一损失值;
若所述第一损失值大于预设第一损失值阈值,则调整所述预设模型的参数继续训练;
若所述第一损失值小于或等于预设第一损失值阈值,则结束训练,得到第一模型。
A6、根据A5所述的方法,所述依据替换后的第一训练样本中的第一样本搜索词生成对应的第一样本搜索词向量,以及,依据替换后的第一训练样本中的第一样本搜索结果生成对应的第一样本搜索结果向量,包括:
确定替换后的第一训练样本中的第一样本搜索词中每个第一分词对应的语义向量、语序向量、分类向量;
根据所述语义向量、所述语序向量、所述分类向量生成第一样本搜索词向量;
确定所述第一样本搜索结果对应的语义向量、语序向量、分类向量;
根据所述第一样本搜索结果对应的所述语义向量、所述语序向量、所述分类向量生成第一样本搜索结果向量。
A7、根据A6所述的方法,所述第一样本搜索结果为网页,所述确定所述第一样本搜索结果对应的语义向量、语序向量、分类向量,包括:
确定所述网页的标题对应的语义向量、语序向量、分类向量;
确定所述网页的关键词对应的语义向量、分类向量;
确定所述网页的站点地址对应的语义向量、分类向量;
根据所述网页的标题对应的语义向量、所述网页的关键词对应的语义向量、所述网页的站点地址对应的语义向量,生成第一样本搜索结果对应的语义向量;
将所述网页的标题对应的语序向量作为第一样本搜索结果对应的语序向量;
根据所述网页的标题对应的分类向量、所述网页的关键词对应的分类向量、所述网页的站点地址对应的分类向量,生成第一样本搜索结果对应的分类向量。
A8、根据A7所述的方法,所述通过第二训练集对所述第一模型进行再训练,得到第二模型,包括:
生成所述第二样本搜索词对应的第二样本搜索词向量、所述第二样本搜索结果对应的第二样本搜索结果向量和所述第三样本搜索结果对应的第三样本搜索结果向量;
将所述第二样本搜索词向量、所述第二样本搜索结果向量和所述第三样本搜索结果向量输入至所述第一模型,预测所述第二样本搜索结果和第三样本搜索结果的评价指标,得到第二预测指标、第三预测指标;
根据所述第二预测指标、第三预测指标、代表所述第二样本搜索结果为正样本的标注信息、代表所述第三样本搜索结果为负样本的标注信息,确定第二损失值;
若所述第二损失值大于预设第二损失值阈值,则调整所述第一模型的参数继续训练;
若所述第二损失值小于或等于预设第二损失值阈值,则结束训练,得到第二模型。
A9、根据A8所述的方法,所述通过第三训练集对所述第一模型进行再训练,得到第二模型,包括:
生成所述第三样本搜索词对应的第三样本搜索词向量、所述第四样本搜索结果对应的第四样本搜索结果向量;
将所述第三样本搜索词向量、所述第四样本搜索结果向量输入至所述第一模型,预测所述第三样本搜索词和所述第四样本搜索结果之间的相关性系数,得到相关性预测值;
根据所述相关性预测值、所述第三训练样本中的相关性系数确定第三损失值;
若所述第三损失值大于预设第三损失值阈值,则调整所述第一模型的参数继续训练;
若所述第三损失值小于或等于预设第三损失值阈值,则结束训练,得到第二模型。
A10、根据A9所述的方法,所述响应于针对目标搜索词的搜索请求,通过所述第二模型生成所述搜索请求对应的目标搜索结果的步骤,包括:
响应于针对目标搜索词的搜索请求,获取与所述目标搜索词对应的候选搜索结果;
通过所述第二模型预测所述候选搜索结果对应所述目标搜索词的质量得分;
根据所述质量得分从所述候选搜索结果中选取目标搜索结果。
本发明实施例公开了B11、一种搜索处理装置,所述装置包括:
第一样本获取模块,用于获取第一训练样本,所述第一训练样本包括:第一样本搜索词以及所述第一样本搜索词对应的第一样本搜索结果;
分词替换模块,用于将所述第一训练样本中的目标分词替换为预设标识;其中,所述目标分词包括所述第一样本搜索词中的第一分词,和/或所述第一样本搜索结果中的第二分词;
预训练模块,用于依据替换后的第一训练样本、以及所述目标分词构成的第一训练集,对预设模型进行预训练,得到第一模型;
再训练模块,用于对所述第一模型进行再训练,得到第二模型;
搜索处理模块,用于响应于针对目标搜索词的搜索请求,通过所述第二模型生成所述搜索请求对应的目标搜索结果。
B12、根据B11所述的装置,所述再训练模块,包括:
第一再训练模块,用于通过第二训练集对所述第一模型进行再训练,得到第二模型,所述第二训练集由第二训练样本组成,所述第二训练样本包括:第二样本搜索词、评价指标大于或等于预设指标阈值的第二样本搜索结果、评价指标小于预设指标阈值的第三样本搜索结果、代表所述第二样本搜索结果为正样本的标注信息、代表所述第三样本搜索结果为负样本的标注信息。
B13、根据B11所述的装置,所述再训练模块,包括:
第二再训练模块,用于通过第三训练集对所述第一模型进行再训练,得到第二模型,所述第三训练集由第三训练样本组成,所述第三训练样本包括:第三样本搜索词、所述第三样本搜索词对应的第四样本搜索结果、所述第三样本搜索词与所述第四样本搜索结果之间的相关系数。
B14、根据B11至B13其中任一项所述的装置,所述目标分词是按照目标类型和/或预设概率确定得到的。
B15、根据B14所述的装置,所述预训练模块,包括:
第一向量生成模块,用于依据替换后的第一训练样本中的第一样本搜索词生成对应的第一样本搜索词向量,以及,依据替换后的第一训练样本中的第一样本搜索结果生成对应的第一样本搜索结果向量;
分词预测模块,用于将所述第一样本搜索词向量与所述第一样本搜索结果向量输入至预设模型,预测所述第一样本搜索词和所述第一样本搜索结果中预设标识对应的分词,得到预测分词及所述预测分词对应的预测概率;
第一损失值确定模块,用于根据所述预设标识对应的预测分词、所述预测分词对应的预测概率和目标分词确定第一损失值;
第一继续训练模块,用于若所述第一损失值大于预设第一损失值阈值,则调整所述预设模型的参数继续训练;
第一结束训练模块,用于若所述第一损失值小于或等于预设第一损失值阈值,则结束训练,得到第一模型。
B16、根据B15所述的装置,所述第一向量生成模块包括:
第二向量生成模块,用于确定替换后的第一训练样本中的第一样本搜索词中每个第一分词对应的语义向量、语序向量、分类向量;
第一样本搜索词向量生成模块,用于根据所述语义向量、所述语序向量、所述分类向量生成第一样本搜索词向量;
第三向量生成模块,用于确定所述第一样本搜索结果对应的语义向量、语序向量、分类向量;
第一样本搜索结果向量生成模块,用于根据所述第一样本搜索结果对应的所述语义向量、所述语序向量、所述分类向量生成第一样本搜索结果向量。
B17、根据B16所述的装置,所述第一样本搜索结果为网页,所述第三向量生成模块包括:
标题向量生成模块,用于确定所述网页的标题对应的语义向量、语序向量、分类向量;
关键词向量生成模块,用于确定所述网页的关键词对应的语义向量、分类向量;
站点地址向量生成模块,用于确定所述网页的站点地址对应的语义向量、分类向量;
语义向量生成模块,用于根据所述网页的标题对应的语义向量、所述网页的关键词对应的语义向量、所述网页的站点地址对应的语义向量,生成第一样本搜索结果对应的语义向量;
语序向量生成模块,用于将所述网页的标题对应的语序向量作为第一样本搜索结果对应的语序向量;
分类向量生成模块,用于根据所述网页的标题对应的分类向量、所述网页的关键词对应的分类向量、所述网页的站点地址对应的分类向量,生成第一样本搜索结果对应的分类向量。
B18、根据B17所述的装置,所述第一再训练模块包括:
第四向量生成模块,用于生成所述第二样本搜索词对应的第二样本搜索词向量、所述第二样本搜索结果对应的第二样本搜索结果向量和所述第三样本搜索结果对应的第三样本搜索结果向量;
评价指标预测模块,用于将所述第二样本搜索词向量、所述第二样本搜索结果向量和所述第三样本搜索结果向量输入至所述第一模型,预测所述第二样本搜索结果和第三样本搜索结果的评价指标,得到第二预测指标、第三预测指标;
第二损失值确定模块,用于根据所述第二预测指标、第三预测指标、代表所述第二样本搜索结果为正样本的标注信息、代表所述第三样本搜索结果为负样本的标注信息,确定第二损失值;
第二继续训练模块,用于若所述第二损失值大于预设第二损失值阈值,则调整所述第一模型的参数继续训练;
第二结束训练模块,用于若所述第二损失值小于或等于预设第二损失值阈值,则结束训练,得到第二模型。
B19、根据B18所述的装置,所述第二再训练模块,包括:
第五向量生成模块,用于生成所述第三样本搜索词对应的第三样本搜索词向量、所述第四样本搜索结果对应的第四样本搜索结果向量;
相关性预测模块,用于将所述第三样本搜索词向量、所述第四样本搜索结果向量输入至所述第一模型,预测所述第三样本搜索词和所述第四样本搜索结果之间的相关性系数,得到相关性预测值;
第三损失值确定模块,用于根据所述相关性预测值、所述第三训练样本中的相关性系数确定第三损失值;
第三继续训练模块,用于若所述第三损失值大于预设第三损失值阈值,则调整所述第一模型的参数继续训练;
第三结束训练模块,用于若所述第三损失值小于或等于预设第三损失值阈值,则结束训练,得到第二模型。
B20、根据B19所述的装置,所述搜索处理模块,包括:
候选搜索结果获取模块,用于响应于针对目标搜索词的搜索请求,获取与所述目标搜索词对应的候选搜索结果;
质量得分预测模块,用于通过所述第二模型预测所述候选搜索结果对应所述目标搜索词的质量得分;
目标搜索结果生成模块,用于根据所述质量得分从所述候选搜索结果中选取目标搜索结果。
C21、一种用于搜索处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取第一训练样本,所述第一训练样本包括:第一样本搜索词以及所述第一样本搜索词对应的第一样本搜索结果;
将所述第一训练样本中的目标分词替换为预设标识;其中,所述目标分词包括所述第一样本搜索词中的第一分词,和/或所述第一样本搜索结果中的第二分词;
依据替换后的第一训练样本、以及所述目标分词构成的第一训练集,对预设模型进行预训练,得到第一模型;
对所述第一模型进行再训练,得到第二模型;
响应于针对目标搜索词的搜索请求,通过所述第二模型生成所述搜索请求对应的目标搜索结果。
本发明实施例公开了D22、一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如A1至A10中一个或多个所述的搜索处理方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上对本发明所提供的一种搜索处理方法、一种搜索处理装置和一种用于搜索处理的装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (20)
1.一种搜索处理方法,其特征在于,所述方法包括:
获取第一训练样本,所述第一训练样本包括:第一样本搜索词以及所述第一样本搜索词对应的第一样本搜索结果;
将所述第一训练样本中的目标分词替换为预设标识;其中,所述目标分词包括所述第一样本搜索词中的第一分词,和/或所述第一样本搜索结果中的第二分词;
依据替换后的第一训练样本、以及所述目标分词构成的第一训练集,对预设模型进行预训练,得到第一模型;
对所述第一模型进行再训练,得到第二模型;
响应于针对目标搜索词的搜索请求,通过所述第二模型生成所述搜索请求对应的目标搜索结果;
所述对所述第一模型进行再训练,得到第二模型,包括:
通过第二训练集对所述第一模型进行再训练,得到第二模型;所述第二训练集由第二训练样本组成,所述第二训练样本包括:第二样本搜索词、评价指标大于或等于预设指标阈值的第二样本搜索结果、评价指标小于预设指标阈值的第三样本搜索结果、代表所述第二样本搜索结果为正样本的标注信息、代表所述第三样本搜索结果为负样本的标注信息。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一模型进行再训练,得到第二模型,包括:
通过第三训练集对所述第一模型进行再训练,得到第二模型,所述第三训练集由第三训练样本组成,所述第三训练样本包括:第三样本搜索词、所述第三样本搜索词对应的第四样本搜索结果、所述第三样本搜索词与所述第四样本搜索结果之间的相关系数。
3.根据权利要求1至2其中任一项所述的方法,其特征在于,所述目标分词是按照目标类型和/或预设概率确定得到的。
4.根据权利要求3所述的方法,其特征在于,所述依据替换后的第一训练样本、以及所述目标分词构成的第一训练集,对预设模型进行预训练,得到第一模型,包括:
依据替换后的第一训练样本中的第一样本搜索词生成对应的第一样本搜索词向量,以及,依据替换后的第一训练样本中的第一样本搜索结果生成对应的第一样本搜索结果向量;
将所述第一样本搜索词向量与所述第一样本搜索结果向量输入至预设模型,预测所述第一样本搜索词和所述第一样本搜索结果中预设标识对应的分词,得到预测分词及所述预测分词对应的预测概率;
根据所述预设标识对应的预测分词、所述预测分词对应的预测概率和目标分词确定第一损失值;
若所述第一损失值大于预设第一损失值阈值,则调整所述预设模型的参数继续训练;
若所述第一损失值小于或等于预设第一损失值阈值,则结束训练,得到第一模型。
5.根据权利要求4所述的方法,其特征在于,所述依据替换后的第一训练样本中的第一样本搜索词生成对应的第一样本搜索词向量,以及,依据替换后的第一训练样本中的第一样本搜索结果生成对应的第一样本搜索结果向量,包括:
确定替换后的第一训练样本中的第一样本搜索词中每个第一分词对应的语义向量、语序向量、分类向量;
根据所述语义向量、所述语序向量、所述分类向量生成第一样本搜索词向量;
确定所述第一样本搜索结果对应的语义向量、语序向量、分类向量;
根据所述第一样本搜索结果对应的所述语义向量、所述语序向量、所述分类向量生成第一样本搜索结果向量。
6.根据权利要求5所述的方法,其特征在于,所述第一样本搜索结果为网页,所述确定所述第一样本搜索结果对应的语义向量、语序向量、分类向量,包括:
确定所述网页的标题对应的语义向量、语序向量、分类向量;
确定所述网页的关键词对应的语义向量、分类向量;
确定所述网页的站点地址对应的语义向量、分类向量;
根据所述网页的标题对应的语义向量、所述网页的关键词对应的语义向量、所述网页的站点地址对应的语义向量,生成第一样本搜索结果对应的语义向量;
将所述网页的标题对应的语序向量作为第一样本搜索结果对应的语序向量;
根据所述网页的标题对应的分类向量、所述网页的关键词对应的分类向量、所述网页的站点地址对应的分类向量,生成第一样本搜索结果对应的分类向量。
7.根据权利要求6所述的方法,其特征在于,所述通过第二训练集对所述第一模型进行再训练,得到第二模型,包括:
生成所述第二样本搜索词对应的第二样本搜索词向量、所述第二样本搜索结果对应的第二样本搜索结果向量和所述第三样本搜索结果对应的第三样本搜索结果向量;
将所述第二样本搜索词向量、所述第二样本搜索结果向量和所述第三样本搜索结果向量输入至所述第一模型,预测所述第二样本搜索结果和第三样本搜索结果的评价指标,得到第二预测指标、第三预测指标;
根据所述第二预测指标、第三预测指标、代表所述第二样本搜索结果为正样本的标注信息、代表所述第三样本搜索结果为负样本的标注信息,确定第二损失值;
若所述第二损失值大于预设第二损失值阈值,则调整所述第一模型的参数继续训练;
若所述第二损失值小于或等于预设第二损失值阈值,则结束训练,得到第二模型。
8.根据权利要求7所述的方法,其特征在于,所述通过第三训练集对所述第一模型进行再训练,得到第二模型,包括:
生成所述第三样本搜索词对应的第三样本搜索词向量、所述第四样本搜索结果对应的第四样本搜索结果向量;
将所述第三样本搜索词向量、所述第四样本搜索结果向量输入至所述第一模型,预测所述第三样本搜索词和所述第四样本搜索结果之间的相关性系数,得到相关性预测值;
根据所述相关性预测值、所述第三训练样本中的相关性系数确定第三损失值;
若所述第三损失值大于预设第三损失值阈值,则调整所述第一模型的参数继续训练;
若所述第三损失值小于或等于预设第三损失值阈值,则结束训练,得到第二模型。
9.根据权利要求8所述的方法,其特征在于,所述响应于针对目标搜索词的搜索请求,通过所述第二模型生成所述搜索请求对应的目标搜索结果的步骤,包括:
响应于针对目标搜索词的搜索请求,获取与所述目标搜索词对应的候选搜索结果;
通过所述第二模型预测所述候选搜索结果对应所述目标搜索词的质量得分;
根据所述质量得分从所述候选搜索结果中选取目标搜索结果。
10.一种搜索处理装置,其特征在于,所述装置包括:
第一样本获取模块,用于获取第一训练样本,所述第一训练样本包括:第一样本搜索词以及所述第一样本搜索词对应的第一样本搜索结果;
分词替换模块,用于将所述第一训练样本中的目标分词替换为预设标识;其中,所述目标分词包括所述第一样本搜索词中的第一分词,和/或所述第一样本搜索结果中的第二分词;
预训练模块,用于依据替换后的第一训练样本、以及所述目标分词构成的第一训练集,对预设模型进行预训练,得到第一模型;
再训练模块,用于对所述第一模型进行再训练,得到第二模型;
搜索处理模块,用于响应于针对目标搜索词的搜索请求,通过所述第二模型生成所述搜索请求对应的目标搜索结果;
所述再训练模块,包括:
第一再训练模块,用于通过第二训练集对所述第一模型进行再训练,得到第二模型,所述第二训练集由第二训练样本组成,所述第二训练样本包括:第二样本搜索词、评价指标大于或等于预设指标阈值的第二样本搜索结果、评价指标小于预设指标阈值的第三样本搜索结果、代表所述第二样本搜索结果为正样本的标注信息、代表所述第三样本搜索结果为负样本的标注信息。
11.根据权利要求10所述的装置,其特征在于,所述再训练模块,包括:
第二再训练模块,用于通过第三训练集对所述第一模型进行再训练,得到第二模型,所述第三训练集由第三训练样本组成,所述第三训练样本包括:第三样本搜索词、所述第三样本搜索词对应的第四样本搜索结果、所述第三样本搜索词与所述第四样本搜索结果之间的相关系数。
12.根据权利要求10至11其中任一项所述的装置,其特征在于,所述目标分词是按照目标类型和/或预设概率确定得到的。
13.根据权利要求12所述的装置,其特征在于,所述预训练模块,包括:
第一向量生成模块,用于依据替换后的第一训练样本中的第一样本搜索词生成对应的第一样本搜索词向量,以及,依据替换后的第一训练样本中的第一样本搜索结果生成对应的第一样本搜索结果向量;
分词预测模块,用于将所述第一样本搜索词向量与所述第一样本搜索结果向量输入至预设模型,预测所述第一样本搜索词和所述第一样本搜索结果中预设标识对应的分词,得到预测分词及所述预测分词对应的预测概率;
第一损失值确定模块,用于根据所述预设标识对应的预测分词、所述预测分词对应的预测概率和目标分词确定第一损失值;
第一继续训练模块,用于若所述第一损失值大于预设第一损失值阈值,则调整所述预设模型的参数继续训练;
第一结束训练模块,用于若所述第一损失值小于或等于预设第一损失值阈值,则结束训练,得到第一模型。
14.根据权利要求13所述的装置,其特征在于,所述第一向量生成模块包括:
第二向量生成模块,用于确定替换后的第一训练样本中的第一样本搜索词中每个第一分词对应的语义向量、语序向量、分类向量;
第一样本搜索词向量生成模块,用于根据所述语义向量、所述语序向量、所述分类向量生成第一样本搜索词向量;
第三向量生成模块,用于确定所述第一样本搜索结果对应的语义向量、语序向量、分类向量;
第一样本搜索结果向量生成模块,用于根据所述第一样本搜索结果对应的所述语义向量、所述语序向量、所述分类向量生成第一样本搜索结果向量。
15.根据权利要求14所述的装置,其特征在于,所述第一样本搜索结果为网页,所述第三向量生成模块包括:
标题向量生成模块,用于确定所述网页的标题对应的语义向量、语序向量、分类向量;
关键词向量生成模块,用于确定所述网页的关键词对应的语义向量、分类向量;
站点地址向量生成模块,用于确定所述网页的站点地址对应的语义向量、分类向量;
语义向量生成模块,用于根据所述网页的标题对应的语义向量、所述网页的关键词对应的语义向量、所述网页的站点地址对应的语义向量,生成第一样本搜索结果对应的语义向量;
语序向量生成模块,用于将所述网页的标题对应的语序向量作为第一样本搜索结果对应的语序向量;
分类向量生成模块,用于根据所述网页的标题对应的分类向量、所述网页的关键词对应的分类向量、所述网页的站点地址对应的分类向量,生成第一样本搜索结果对应的分类向量。
16.根据权利要求15所述的装置,其特征在于,所述第一再训练模块包括:
第四向量生成模块,用于生成所述第二样本搜索词对应的第二样本搜索词向量、所述第二样本搜索结果对应的第二样本搜索结果向量和所述第三样本搜索结果对应的第三样本搜索结果向量;
评价指标预测模块,用于将所述第二样本搜索词向量、所述第二样本搜索结果向量和所述第三样本搜索结果向量输入至所述第一模型,预测所述第二样本搜索结果和第三样本搜索结果的评价指标,得到第二预测指标、第三预测指标;
第二损失值确定模块,用于根据所述第二预测指标、第三预测指标、代表所述第二样本搜索结果为正样本的标注信息、代表所述第三样本搜索结果为负样本的标注信息,确定第二损失值;
第二继续训练模块,用于若所述第二损失值大于预设第二损失值阈值,则调整所述第一模型的参数继续训练;
第二结束训练模块,用于若所述第二损失值小于或等于预设第二损失值阈值,则结束训练,得到第二模型。
17.根据权利要求16所述的装置,其特征在于,所述第二再训练模块,包括:
第五向量生成模块,用于生成所述第三样本搜索词对应的第三样本搜索词向量、所述第四样本搜索结果对应的第四样本搜索结果向量;
相关性预测模块,用于将所述第三样本搜索词向量、所述第四样本搜索结果向量输入至所述第一模型,预测所述第三样本搜索词和所述第四样本搜索结果之间的相关性系数,得到相关性预测值;
第三损失值确定模块,用于根据所述相关性预测值、所述第三训练样本中的相关性系数确定第三损失值;
第三继续训练模块,用于若所述第三损失值大于预设第三损失值阈值,则调整所述第一模型的参数继续训练;
第三结束训练模块,用于若所述第三损失值小于或等于预设第三损失值阈值,则结束训练,得到第二模型。
18.根据权利要求17所述的装置,其特征在于,所述搜索处理模块,包括:
候选搜索结果获取模块,用于响应于针对目标搜索词的搜索请求,获取与所述目标搜索词对应的候选搜索结果;
质量得分预测模块,用于通过所述第二模型预测所述候选搜索结果对应所述目标搜索词的质量得分;
目标搜索结果生成模块,用于根据所述质量得分从所述候选搜索结果中选取目标搜索结果。
19.一种用于搜索处理的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行如权利要求1至9中一个或多个所述的搜索处理方法的指令。
20.一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至9中一个或多个所述的搜索处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910937061.3A CN112579767B (zh) | 2019-09-29 | 2019-09-29 | 搜索处理方法、装置和用于搜索处理的装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910937061.3A CN112579767B (zh) | 2019-09-29 | 2019-09-29 | 搜索处理方法、装置和用于搜索处理的装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112579767A CN112579767A (zh) | 2021-03-30 |
CN112579767B true CN112579767B (zh) | 2024-05-03 |
Family
ID=75110808
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910937061.3A Active CN112579767B (zh) | 2019-09-29 | 2019-09-29 | 搜索处理方法、装置和用于搜索处理的装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112579767B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254587B (zh) * | 2021-05-31 | 2023-10-13 | 北京奇艺世纪科技有限公司 | 搜索文本的识别方法、装置、计算机设备及存储介质 |
CN114138989A (zh) * | 2021-11-16 | 2022-03-04 | 杭州网易云音乐科技有限公司 | 相关性预测模型训练方法、装置及相关性预测方法 |
CN116720517B (zh) * | 2022-02-28 | 2024-10-15 | 腾讯科技(深圳)有限公司 | 搜索词成分识别模型构建方法以及搜索词成分识别方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104077306A (zh) * | 2013-03-28 | 2014-10-01 | 阿里巴巴集团控股有限公司 | 一种搜索引擎的结果排序方法及系统 |
CN105677637A (zh) * | 2015-12-31 | 2016-06-15 | 上海智臻智能网络科技股份有限公司 | 智能问答系统中抽象语义库的更新方法及更新装置 |
EP3188040A1 (en) * | 2015-12-31 | 2017-07-05 | Dassault Systèmes | Retrieval of outcomes of precomputed models |
CN107943860A (zh) * | 2017-11-08 | 2018-04-20 | 北京奇艺世纪科技有限公司 | 模型的训练方法、文本意图的识别方法及装置 |
CN109857845A (zh) * | 2019-01-03 | 2019-06-07 | 北京奇艺世纪科技有限公司 | 模型训练及数据检索方法、装置、终端及计算机可读存储介质 |
CN109933662A (zh) * | 2019-02-15 | 2019-06-25 | 北京奇艺世纪科技有限公司 | 模型训练方法、信息生成方法、装置、电子设备和计算机可读介质 |
CN110192203A (zh) * | 2016-11-03 | 2019-08-30 | 易享信息技术有限公司 | 用于多个自然语言处理(nlp)任务的联合多任务神经网络模型 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021374A (zh) * | 2016-05-11 | 2016-10-12 | 百度在线网络技术(北京)有限公司 | 查询结果的底层召回方法和装置 |
CN107491518B (zh) * | 2017-08-15 | 2020-08-04 | 北京百度网讯科技有限公司 | 一种搜索召回方法和装置、服务器、存储介质 |
-
2019
- 2019-09-29 CN CN201910937061.3A patent/CN112579767B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104077306A (zh) * | 2013-03-28 | 2014-10-01 | 阿里巴巴集团控股有限公司 | 一种搜索引擎的结果排序方法及系统 |
CN105677637A (zh) * | 2015-12-31 | 2016-06-15 | 上海智臻智能网络科技股份有限公司 | 智能问答系统中抽象语义库的更新方法及更新装置 |
EP3188040A1 (en) * | 2015-12-31 | 2017-07-05 | Dassault Systèmes | Retrieval of outcomes of precomputed models |
CN110192203A (zh) * | 2016-11-03 | 2019-08-30 | 易享信息技术有限公司 | 用于多个自然语言处理(nlp)任务的联合多任务神经网络模型 |
CN107943860A (zh) * | 2017-11-08 | 2018-04-20 | 北京奇艺世纪科技有限公司 | 模型的训练方法、文本意图的识别方法及装置 |
CN109857845A (zh) * | 2019-01-03 | 2019-06-07 | 北京奇艺世纪科技有限公司 | 模型训练及数据检索方法、装置、终端及计算机可读存储介质 |
CN109933662A (zh) * | 2019-02-15 | 2019-06-25 | 北京奇艺世纪科技有限公司 | 模型训练方法、信息生成方法、装置、电子设备和计算机可读介质 |
Non-Patent Citations (1)
Title |
---|
基于字符级循环网络的查询意图识别模型;孟奎;刘梦赤;胡婕;;计算机工程(第03期);第187-192页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112579767A (zh) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111460150B (zh) | 一种分类模型的训练方法、分类方法、装置及存储介质 | |
CN109800325B (zh) | 视频推荐方法、装置和计算机可读存储介质 | |
CN109684510B (zh) | 视频排序方法、装置、电子设备及存储介质 | |
CN111259148B (zh) | 信息处理方法、装置及存储介质 | |
CN110008401B (zh) | 关键词提取方法、关键词提取装置和计算机可读存储介质 | |
CN111368541B (zh) | 命名实体识别方法及装置 | |
CN110781305A (zh) | 基于分类模型的文本分类方法及装置,以及模型训练方法 | |
CN112579767B (zh) | 搜索处理方法、装置和用于搜索处理的装置 | |
RU2733816C1 (ru) | Способ обработки речевой информации, устройство и запоминающий носитель информации | |
CN107564526B (zh) | 处理方法、装置和机器可读介质 | |
CN111984749B (zh) | 一种兴趣点排序方法和装置 | |
CN111832316B (zh) | 语义识别的方法、装置、电子设备和存储介质 | |
CN109815396B (zh) | 搜索词权重确定方法及装置 | |
CN107424612B (zh) | 处理方法、装置和机器可读介质 | |
CN116127062A (zh) | 预训练语言模型的训练方法、文本情感分类方法及装置 | |
CN113095085A (zh) | 文本的情感识别方法、装置、电子设备和存储介质 | |
CN110968246A (zh) | 中文智能手写输入识别方法及装置 | |
WO2024179519A1 (zh) | 语义识别方法及其装置 | |
CN112836026B (zh) | 基于对话的问诊方法及装置 | |
CN112328809A (zh) | 实体分类方法、装置及计算机可读存储介质 | |
CN110858100B (zh) | 联想候选词生成方法及装置 | |
CN110908523B (zh) | 一种输入方法及装置 | |
KR20210050484A (ko) | 정보 처리 방법, 장치 및 저장 매체 | |
CN107301188B (zh) | 一种获取用户兴趣的方法及电子设备 | |
CN113326706A (zh) | 一种跨语言检索方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |