CN110909021A - 查询改写模型的构建方法、装置及其应用 - Google Patents
查询改写模型的构建方法、装置及其应用 Download PDFInfo
- Publication number
- CN110909021A CN110909021A CN201811061014.9A CN201811061014A CN110909021A CN 110909021 A CN110909021 A CN 110909021A CN 201811061014 A CN201811061014 A CN 201811061014A CN 110909021 A CN110909021 A CN 110909021A
- Authority
- CN
- China
- Prior art keywords
- model
- training
- sentence
- search
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title description 2
- 238000012549 training Methods 0.000 claims abstract description 181
- 238000000034 method Methods 0.000 claims abstract description 85
- 230000015654 memory Effects 0.000 claims description 11
- 238000000605 extraction Methods 0.000 abstract description 25
- 230000008569 process Effects 0.000 abstract description 12
- 239000013598 vector Substances 0.000 description 97
- 238000009826 distribution Methods 0.000 description 45
- 239000000284 extract Substances 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 239000011159 matrix material Substances 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 238000012795 verification Methods 0.000 description 9
- 230000011218 segmentation Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000001105 regulatory effect Effects 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了查询改写模型的构建方法、装置及其应用。所述方法包括:根据搜索点击数据生成训练数据;根据所述训练数据对目标模型进行训练,得到中间模型;所述目标模型包括编码器和解码器,所述解码器包括抽取模式和生成模式;判断所述中间模型是否满足预设条件,是则将所述中间模型作为查询改写模型并停止训练,否则将所述中间模型作为目标模型进行迭代训练。该技术方案通过大数据学习,合理化设置训练流程,结合了抽取式和生成式两种方式,使得训练得到的查询改写模型能够更准确地对搜索查询语句进行改写,以进一步使得搜索返回的结果贴近用户的实际需求。
Description
技术领域
本发明涉及自然语言处理领域,具体涉及查询改写模型的构建方法、装置及其应用。
背景技术
通常,搜索引擎更适用于输入由精准关键词组成的查询,由自然语言描述的查询会导致较差的返回结果。例如,图1示出了不同查询语句对应的查询结果的示意图,如图1中所示,用户在搜索时可能会输入“我想知道一个iPhone X要多少钱”这样的自然语言,尤其是在语言搜索的场景下更是如此。但是显然,这样得到的搜索结果不尽人意,而如果根据语义更换搜索词,如“iPhone X价格”,则搜索结果相对更符合用户需求。因此,需要一种能够对用户输入的搜索查询语句进行改写的方式。通过训练模型进行自然语言处理是一种手段,但是如何进行模型的训练是需要解决的问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的查询改写模型的构建方法、装置及其应用。
依据本发明的一个方面,提供了一种查询改写模型的构建方法,包括:根据搜索点击数据生成训练数据;根据所述训练数据对目标模型进行训练,得到中间模型;所述目标模型包括编码器和解码器,所述解码器包括抽取模式和生成模式;判断所述中间模型是否满足预设条件,是则将所述中间模型作为查询改写模型并停止训练,否则将所述中间模型作为目标模型进行迭代训练。
可选地,所述根据搜索点击数据生成训练数据包括:从所述搜索点击数据中提取出若干组句对;所述句对包括搜索查询语句和对应点击搜索结果的标题语句。
可选地,该方法还包括:从提取出的句对中去除噪声。
可选地,所述从提取出的句对中去除噪声包括:计算各句对中搜索查询语句和标题语句的主题相似度,和/或,计算各句对中搜索查询语句和标题语句的语义相似度;根据预设的相似度阈值去除噪声。
可选地,所述计算各句对中搜索查询语句和标题语句的主题相似度包括:对搜索查询语句和标题语句进行语义表示,训练潜在狄利克雷分布LDA主题模型并计算搜索查询语句的主题分布和标题语句的主题分布,基于JS散度计算各句对中搜索查询语句和标题语句的主题分布的分布相似度。
可选地,所述计算各句对中搜索查询语句和标题语句的语义相似度包括:确定搜索查询语句和标题语句中词语的词向量,将搜索查询语句和标题语句分别表示为词语词向量的均值,基于余弦相似度计算各句对中搜索查询语句和标题语句的相似度。
可选地,所述根据搜索点击数据生成训练数据进一步包括:对所述句对中的搜索查询语句和标题语句分别进行分词;从分词结果中划分出第一比例的数据作为验证集,划分出第二比例的数据作为训练数据集;基于训练数据集生成训练词汇表。
可选地,所述根据所述训练数据对目标模型进行训练,得到中间模型包括:将所述训练数据集中的数据划分为多组训练样本数据;取一组训练样本数据,根据所述训练词汇表对该组训练样本数据进行编号,将选择其中的标题语句作为训练输入数据,选择相应的搜索查询语句作为训练输出数据。
可选地,所述判断所述中间模型是否满足预设条件包括:在训练过程中,根据公式(10)计算t时刻的损失losst:
根据所述中间模型计算验证集的损失,若损失增大则满足预设条件。
可选地,所述编码器用于对输入语句进行词嵌入处理,得到所述输入语句中包含的各词对应的词向量;根据各词向量进行编码,得到输入隐向量。
可选地,所述根据各词向量进行编码,得到隐向量包括:基于一层双向长短期记忆网络LSTM进行所述编码。
可选地,所述解码器用于以抽取模式对所述编码数据进行解码,输出第一候选词表,以及以生成模式对所述编码数据进行解码,输出第二候选词表。
可选地,所述以抽取模式对所述编码数据进行解码,输出第一候选词表包括:根据所述输入隐向量计算注意力权重at;基于公式(1)和(2)计算所述输入语句中各词的抽取权重:
其中,Pextract(w)为目标词w的抽取权重,pw为调节因子,fw为目标词w在所述输入语句中出现的次数,N是语料中所有查询的次数,|w|是语料中包含目标词w的查询个数,t为t时刻;所述第一候选词表包括一个或多个词及其对应的抽取权重。
可选地,所述以生成模式对所述编码数据进行解码,输出第二候选词表包括:根据所述输入隐向量计算注意力权重at;根据所述注意力权重at和所述输入隐向量计算上下文权重Ct;根据所述注意力权重at、所述上下文权重Ct和当前时刻目标隐向量ht计算所述第二候选词表的分布概率Pvocab。
可选地,所述根据所述输入隐向量计算注意力权重at包括:基于公式(3)和(4)计算注意力权重at:
at=softmax(et) (4);
可选地,所述根据所述注意力权重at和所述输入隐向量计算上下文权重Ct包括:基于公式(5)和(6)计算上下文权重Ct:
其中,covt为t时刻的覆盖矩阵。
可选地,所述根据所述注意力权重at、所述上下文权重Ct和当前时刻目标隐向量ht计算所述第二候选词表的分布概率Pvocab包括:基于公式(7)计算Pvocab:
Pvocab=f(Ct,ht)=softmax(V'(V[ht,Ct]+b)+b') (7);
其中,V、b和V'、b'为两步线性变换参数矩阵和偏置向量。
可选地,所述以抽取模式对所述编码数据进行解码,输出第一候选词表,以及以生成模式对所述编码数据进行解码,输出第二候选词表包括:基于一层单向LSTM实现解码。
可选地,所述解码器用于根据第一候选词表的抽取权重Pextract和第二候选词表的分布概率Pvocab以及调节因子pgen确定第三候选词表,根据第三候选词表生成输出语句。
可选地,所述根据第一候选词表的抽取权重Pextract和第二候选词表的分布概率Pvocab以及调节因子pgen确定第三候选词表包括:基于公式(8)计算调节因子pgen:
其中,wh、ws、wx和b为预设参数,xt为输入的搜索查询语句,σ是sigmoid函数;
基于公式(9)计算第三候选词表中各候选词的概率:
P(w)=pgenPvocab(w)+(1-pgen)Pextract(w) (9)。
依据本发明的另一方面,提供了一种搜索的实现方法,包括:获取搜索查询语句;根据如上述任一项所述的方法训练得到的查询改写模型对所述搜索查询语句进行改写,得到改写语句;根据所述改写语句进行搜索查询,得到搜索结果。
依据本发明的又一方面,提供了一种查询改写模型的构建装置,包括:训练数据生成单元,适于根据搜索点击数据生成训练数据;训练单元,适于根据所述训练数据对目标模型进行训练,得到中间模型;所述目标模型包括编码器和解码器,所述解码器包括抽取模式和生成模式;判断所述中间模型是否满足预设条件,是则将所述中间模型作为查询改写模型并停止训练,否则将所述中间模型作为目标模型进行迭代训练。
可选地,所述训练数据生成单元,适于从所述搜索点击数据中提取出若干组句对;所述句对包括搜索查询语句和对应点击搜索结果的标题语句。
可选地,所述训练数据生成单元,适于还从提取出的句对中去除噪声。
可选地,所述训练数据生成单元,适于计算各句对中搜索查询语句和标题语句的主题相似度,和/或,计算各句对中搜索查询语句和标题语句的语义相似度;根据预设的相似度阈值去除噪声。
可选地,所述训练数据生成单元,适于对搜索查询语句和标题语句进行语义表示,训练潜在狄利克雷分布LDA主题模型并计算搜索查询语句的主题分布和标题语句的主题分布,基于JS散度计算各句对中搜索查询语句和标题语句的主题分布的分布相似度。
可选地,所述训练数据生成单元,适于确定搜索查询语句和标题语句中词语的词向量,将搜索查询语句和标题语句分别表示为词语词向量的均值,基于余弦相似度计算各句对中搜索查询语句和标题语句的相似度。
可选地,所述训练数据生成单元,还适于对所述句对中的搜索查询语句和标题语句分别进行分词;从分词结果中划分出第一比例的数据作为验证集,划分出第二比例的数据作为训练数据集;基于训练数据集生成训练词汇表。
可选地,所述训练单元,适于将所述训练数据集中的数据划分为多组训练样本数据;取一组训练样本数据,根据所述训练词汇表对该组训练样本数据进行编号,将选择其中的标题语句作为训练输入数据,选择相应的搜索查询语句作为训练输出数据。
可选地,所述训练单元,适于在训练过程中,根据公式(10)计算t时刻的损失losst:
根据公式(11)计算整个语句的损失loss:
根据所述中间模型计算验证集的损失,若损失增大则满足预设条件。
可选地,所述训练单元,适于以编码器对输入语句进行词嵌入处理,得到所述输入语句中包含的各词对应的词向量;根据各词向量进行编码,得到输入隐向量。
可选地,所述训练单元,适于基于一层双向长短期记忆网络LSTM进行所述编码。
可选地,所述训练单元,适于以解码器的抽取模式对所述编码数据进行解码,输出第一候选词表,以及以解码器的生成模式对所述编码数据进行解码,输出第二候选词表。
可选地,所述训练单元,适于根据所述输入隐向量计算注意力权重at;基于公式(1)和(2)计算所述输入语句中各词的抽取权重:
其中,Pextract(w)为目标词w的抽取权重,pw为调节因子,fw为目标词w在所述输入语句中出现的次数,N是语料中所有查询的次数,|w|是语料中包含目标词w的查询个数,t为t时刻;所述第一候选词表包括一个或多个词及其对应的抽取权重。
可选地,所述训练单元,适于根据所述输入隐向量计算注意力权重at;根据所述注意力权重at和所述输入隐向量计算上下文权重Ct;根据所述注意力权重at、所述上下文权重Ct和当前时刻目标隐向量ht计算所述第二候选词表的分布概率Pvocab。
可选地,所述训练单元,适于基于公式(3)和(4)计算注意力权重at:
at=softmax(et)(4);
可选地,所述训练单元,适于基于公式(5)和(6)计算上下文权重Ct:
其中,covt为t时刻的覆盖矩阵。
可选地,所述训练单元,适于基于公式(7)计算Pvocab:
Pvocab=f(Ct,ht)=softmax(V'(V[ht,Ct]+b)+b') (7);
其中,V、b和V'、b'为两步线性变换参数矩阵和偏置向量。
可选地,所述训练单元,适于基于一层单向LSTM实现解码。
可选地,所述训练单元,还适于根据第一候选词表的抽取权重Pextract和第二候选词表的分布概率Pvocab以及调节因子pgen确定第三候选词表,根据第三候选词表生成输出语句。
可选地,所述训练单元,适于基于公式(8)计算调节因子pgen:
其中,wh、ws、wx和b为预设参数,xt为输入的搜索查询语句,σ是sigmoid函数;
基于公式(9)计算第三候选词表中各候选词的概率:
P(w)=pgenPvocab(w)+(1-pgen)Pextract(w) (9)。
依据本发明的再一方面,提供了一种搜索的实现装置,包括:获取单元,适于获取搜索查询语句;改写单元,适于根据如上述任一项所述的查询改写模型的构建装置训练得到的查询改写模型对所述搜索查询语句进行改写,得到改写语句;搜索单元,适于根据所述改写语句进行搜索查询,得到搜索结果。
依据本发明的再一方面,提供了一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如上述任一所述的方法。
依据本发明的再一方面,提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如上述任一所述的方法。
由上述可知,本发明的技术方案,在获取到搜索点击数据后进一步生成训练数据,对基于编码器-解码器的目标模型进行训练,其中解码器还包括抽取、生成两种模式;通过迭代训练判断得到的中间模型是否满足需求,在满足预设条件时完成训练,得到最终可用的查询改写模型,可以进一步用于搜索场景。该技术方案通过大数据学习,合理化设置训练流程,结合了抽取式和生成式两种方式,使得训练得到的查询改写模型能够更准确地对搜索查询语句进行改写,以进一步使得搜索返回的结果贴近用户的实际需求。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了不同查询语句对应的查询结果的示意图;
图2示出了根据本发明一个实施例的一种查询改写模型的构建方法的流程示意图;
图3示出了根据本发明一个实施例的查询改写模型的结构示意图;
图4示出了根据本发明一个实施例的一种搜索的实现方法的流程示意图;
图5示出了根据本发明一个实施例的一种查询改写模型的构建装置的结构示意图;
图6示出了根据本发明一个实施例的一种搜索的实现装置的结构示意图;
图7示出了根据本发明一个实施例的电子设备的结构示意图;
图8示出了根据本发明一个实施例的计算机可读存储介质的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图2示出了根据本发明一个实施例的一种查询改写模型的构建方法的流程示意图。如图2所示,该方法包括:
步骤S210,根据搜索点击数据生成训练数据。
这里,可以将商业搜索引擎中的搜索点击数据作为数据源,并优选地选择高质量用户的搜索记录作为初始训练语料。对初始训练语料进行清洗等处理后可以得到训练数据。
步骤S220,根据训练数据对目标模型进行训练,得到中间模型;目标模型包括编码器和解码器,解码器包括抽取模式和生成模式。
抽取模式对应的现有策略为抽取式改写,通常使用特定的计算规则计算用户输入的搜索查询语句中各词的权重,选取权重大的词作为关键词。这种方法简单便捷,但是所有的关键词限制在输入的词集合中,而且倾向于抽取词频高的词,在某些场合下效果较差。
生成模式对应的现有策略为生成式改写,通常可以“理解”用户的输入,然后基于用户的意图生成一些关键词。这种方法能生成新的词语,但是生成过程往往不可控,也会生成一些完全错误的词语。
以图1示出的搜索场景为例,抽取式的方法会抽取出“iPhone X”和“多少”,这两个词全部来自于用户输入的搜索查询语句,不足以概括其意图。而生成模式的方法会依据训练语料产生不同的结果。例如会生成“iPhone 8”和“价钱”。虽然能生成新的词语,但是模型在生成词语时会根据训练语料制作的词表来计算概率,如果“iPhone X”不在训练语料中则只能用一个错误的近义词替代。这样的结果会导致搜索页面错误。
因此,上述两种方法各有利弊,仅用一种方法来改写查询往往得不到更好地结果。而在本发明的实施例中,通过在模型中合理地配置与这两种方法对应的模式,能够有效地结合这两种方法,对于查询改写有着重要的意义,最终输出的改写语句也更加准确。
步骤S230,判断中间模型是否满足预设条件,是则将中间模型作为查询改写模型并停止训练,否则将中间模型作为目标模型进行迭代训练。
可见,图2所示的方法,在获取到搜索点击数据后进一步生成训练数据,对基于编码器-解码器的目标模型进行训练,其中解码器还包括抽取、生成两种模式;通过迭代训练判断得到的中间模型是否满足需求,在满足预设条件时完成训练,得到最终可用的查询改写模型,可以进一步用于搜索场景。该技术方案通过大数据学习,合理化设置训练流程,结合了抽取式和生成式两种方式,使得训练得到的查询改写模型能够更准确地对搜索查询语句进行改写,以进一步使得搜索返回的结果贴近用户的实际需求。
在本发明的一个实施例中,上述方法中,根据搜索点击数据生成训练数据包括:从搜索点击数据中提取出若干组句对;句对包括搜索查询语句和对应点击搜索结果的标题语句。
句对(query-title)描述了用户输入的搜索查询语句,即表现出来的需求,以及描述了其实际点击的内容,即实际需求。以图1为例,当输入的搜索查询语句为“iPhone X价格”为例,当用户实际点击了第一项搜索结果时,则句对为“iPhone X价格-苹果iPhoneX全网通报价参数图片论坛中关村在线”。
实际上这里的搜索查询语句和标题语句并不一定是读起来通顺的完整语句,可能仅包含若干个孤立的词,在本发明中为便于介绍,统一描述为“语句”。
在本发明的一个实施例中,上述方法还包括:从提取出的句对中去除噪声。这些噪声主要是因为用户的误操作或者恰巧对某个页面感兴趣造成的。具体来说,一般表现在句对中的语句在语义上不相符,这些噪声会严重影响模型的训练过程。
在本发明的一个实施例中,上述方法中,从提取出的句对中去除噪声包括:计算各句对中搜索查询语句和标题语句的主题相似度,和/或,计算各句对中搜索查询语句和标题语句的语义相似度;根据预设的相似度阈值去除噪声。在具体实施中可以参照下述的两个实施例,但应当理解不限于下面示出的这量种相似度计算方式:在本发明的一个实施例中,上述方法中,计算各句对中搜索查询语句和标题语句的主题相似度包括:对搜索查询语句和标题语句进行语义表示,训练潜在狄利克雷分布LDA主题模型并计算搜索查询语句的主题分布和标题语句的主题分布,基于JS散度计算各句对中搜索查询语句和标题语句的主题分布的分布相似度。在本发明的一个实施例中,上述方法中,计算各句对中搜索查询语句和标题语句的语义相似度包括:确定搜索查询语句和标题语句中词语的词向量,将搜索查询语句和标题语句分别表示为词语词向量的均值,基于余弦相似度计算各句对中搜索查询语句和标题语句的相似度。
其中,主题相似度从语句的主题分布入手,计算分布之间的相似度。首先对语句进行语义表示,训练LDA模型并计算一个语句的主题分布。然后利用JS(Jensen-Shannon)散度计算两个分布之间的相似性。语义相似度从语句中词语的词向量入手,将一个语句表示成语句中词语的词向量的均值,然后利用余弦相似度计算两个语句的相似度。通过设定合理的阈值,达到去除噪声的目的。LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。
在本发明的一个实施例中,上述方法中,根据搜索点击数据生成训练数据进一步包括:对句对中的搜索查询语句和标题语句分别进行分词;从分词结果中划分出第一比例的数据作为验证集,划分出第二比例的数据作为训练数据集;基于训练数据集生成训练词汇表。
例如,使用jieba分词工具对语句进行分词,将语句按词分隔。在一个具体的场景下,划分20%的数据作为验证集,剩余80%数据作为训练数据集,根据训练数据集制作训练词汇表。这样就做好了训练数据的准备。
在本发明的一个实施例中,上述方法中,根据训练数据对目标模型进行训练,得到中间模型包括:将训练数据集中的数据划分为多组训练样本数据;取一组训练样本数据,根据训练词汇表对该组训练样本数据进行编号,将选择其中的标题语句作为训练输入数据,选择相应的搜索查询语句作为训练输出数据。
例如,将训练数据进行随机打乱,并平均分成S组,设置s=0(各组对应的序号为0,1,2……s-1);取第s份训练样本数据,按照构造的训练词汇表对选取的训练样本数据中,各语句的词进行编号,送入目标模型中进行训练。如果训练完毕后,得到的中间模型满足预设条件,则结束训练;如果不满足预设条件,则令s=s+1,重复训练至得到的中间模型满足预设条件为止。
在本发明的一个实施例中,上述方法中,判断中间模型是否满足预设条件包括:在训练过程中,根据公式(10)计算t时刻的损失losst:
根据公式(11)计算整个语句的损失loss:
根据中间模型计算验证集的损失,若损失增大则满足预设条件。
在本发明的实施例中,使用的模型参考sequence-to-sequence模型(seq2seq)。seq2seq是一个“编码器-解码器”(Encoder-Decoder)结构的网络,它的输入是一个序列,输出也是一个序列,编码器将一个可变长度的信号序列变为固定长度的向量表达,解码器将这个固定长度的向量变成可变长度的目标的信号序列。
seq2seq的模型结构中,输出每一个词的时候对于输入中词语的关注程度不一致,其权重根据特定规则计算得到。这样可以使得生成的序列更加合理,且能保留输入中的大部分信息,这也称之为注意力机制。一般在自然语言处理应用里把注意力模型看作是输出语句中某个单词和输入语句每个单词的对齐模型。
seq2seq模型下,当用户输入一个查询x={x1,...,xn}(xi表示输入句子的第i个词语)后,模型的目标是将此查询转换为语义相似的关键词查询y={y1,...,ym}(yi表示输出的第i个词语)。在该模型中,查询的每一个词依次被送入“编码器”中,然后“解码器”接收先前生成的词语{y1,...,yt-1}和一个上下文向量C来预测下一词yt。公式如下:
其中p(yt|{y1,...,yt-1},C)表示在已知先前生成的词语{y1,...,yt-1}和一个上下文向量C的前提下,yt的条件概率。上下文向量C可以通过注意力机制计算得到,由一个score方法来衡量输入中每个词语的权重并计算其加权和。
当计算注意力权重时,本发明还使用了覆盖(coverage)机制来防止生成结果重复问题。下面介绍本发明模型的编码器和解码器的具体实现方式。图3示出了根据本发明一个实施例的查询改写模型的结构示意图。可见,该查询改写模型的解码器分为两个模式,通过一个调节因子来实现输出的词的分布的确定。图3中的示例是以查询语句为“Tell meiPhone X cost”,即告诉我iPhone X多少钱作为示例,其中还示出了两个生成的候选词“iPhone X”和“price(价格)”。
在本发明的一个实施例中,上述方法中,编码器用于对输入语句进行词嵌入处理,得到输入语句中包含的各词对应的词向量;根据各词向量进行编码,得到输入隐向量。
词嵌入(embedding)可以形成语句的词向量表示,即将语句中的词分别表示为一个向量。将各个词逐个送入编码器中可以产生一个隐向量hs。隐向量作为输入语句的一个高级表示,在解码阶段用于新的序列的生成。在本发明的一个实施例中,上述方法中,根据各词向量进行编码,得到隐向量包括:基于一层双向长短期记忆网络LSTM进行编码。LSTM(Long Short-Term Memory,长短期记忆网络)是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。
在本发明的一个实施例中,上述方法中,解码器用于以抽取模式对编码数据进行解码,输出第一候选词表,以及以生成模式对编码数据进行解码,输出第二候选词表。参见图3,第一候选词表实际示出了输入语句中各个词的分布,也就是抽取权重(在图中标记为输入分布);第二候选词表实际示出了生成的各个词的分布,也就是第二候选词表的分布概率(在图中标记为词表分布)。
在本发明的一个实施例中,上述方法中,以抽取模式对编码数据进行解码,输出第一候选词表包括:根据输入隐向量计算注意力权重at;基于公式(1)和(2)计算输入语句中各词的抽取权重:
其中,Pextract(w)为目标词w的抽取权重,pw为调节因子,fw为目标词w在输入语句中出现的次数,N是语料中所有查询的次数,|w|是语料中包含目标词w的查询个数,t为t时刻;第一候选词表包括一个或多个词及其对应的抽取权重。
TF-IDF是两个统计量的乘积,词频率tf(w)和逆文件频率idf(w)。TF-IDF高是由词频高且该词在整个语料中出现频率低共同决定的,因此该方法可以用于排除常用术语。对于自然语言查询,这种方法可以有效地去除一些常见的口语描述,如“如何”、“什么”,并保留重要信息。
TF-IDF值和注意力权重在衡量单词重要性时有不同的侧重点。注意力权重关注输入和输出的语义匹配,使用隐藏状态来计算其相似度值。通过这种方式,它关注的是单词的“含义”。TF-IDF关注单词的统计特征,它统计了整个语料库中该单词的重要性,这两种值从不同的角度描述了输入词的重要性。通过将它们与权重因子相结合,可以从输入中提取更佳的关键词。
在本发明的一个实施例中,上述方法中,以生成模式对编码数据进行解码,输出第二候选词表包括:根据输入隐向量计算注意力权重at;根据注意力权重at和输入隐向量计算上下文权重Ct;根据注意力权重at、上下文权重Ct和当前时刻目标隐向量ht计算第二候选词表的分布概率Pvocab。
具体地,在本发明的一个实施例中,上述方法中,根据输入隐向量计算注意力权重at包括:基于公式(3)和(4)计算注意力权重at:
at=softmax(et) (4);
其中,函数score用来比较目标隐向量ht和输入隐向量的相似程度,为t时刻的覆盖向量,v、W1、W2、Wc和batten为预置参数;为输入隐向量,ht为输出隐向量。其中,cov0是一个全零矩阵。还需要说明的是Softmax函数的意义是将K维实数向量z映射到一个新的K维实数向量σ(z),使得向量的每一个元素值都在0-1之间,且所有元素和为1。
在本发明的一个实施例中,上述方法中,根据注意力权重at和输入隐向量计算上下文权重Ct包括:基于公式(5)和(6)计算上下文权重Ct:
其中,covt为t时刻的覆盖矩阵。即在t时刻,维护一个coverage矩阵covt来记录输入中词语的覆盖程度。它是之前所有时刻的注意力分布的和,上下文向量C通过注意力权重at对输入隐向量进行加权求和得到。
在本发明的一个实施例中,上述方法中,根据注意力权重at、上下文权重Ct和当前时刻目标隐向量ht计算第二候选词表的分布概率Pvocab包括:基于公式(7)计算Pvocab:
Pvocab=f(Ct,ht)=softmax(V'(V[ht,Ct]+b)+b') (7);
其中,V、b和V'、b'为两步线性变换参数矩阵和偏置向量。
即获得上下文向量C后,将其与当前时刻目标隐向量ht结合通过两层全连接层得到词表的分布概率Pvocab。
在本发明的一个实施例中,上述方法中,以抽取模式对编码数据进行解码,输出第一候选词表,以及以生成模式对编码数据进行解码,输出第二候选词表包括:基于一层单向LSTM实现解码。
总结地说,解码器接收输入的词向量表示和解码器的隐向量ht,并通过注意力机制计算词表中每个词语的概率,选取概率最高的词语作为输出,这种方式对应于生成模式;通过注意力矩阵和抽取式的方法计算输入句子中每个词的权重,选取权重大的词语作为输出,这种方式对应于抽取模式。
在本发明的一个实施例中,上述方法中,解码器用于根据第一候选词表的抽取权重Pextract和第二候选词表的分布概率Pvocab以及调节因子pgen确定第三候选词表,根据第三候选词表生成输出语句。
在本发明的一个实施例中,上述方法中,根据第一候选词表的抽取权重Pextract和第二候选词表的分布概率Pvocab以及调节因子pgen确定第三候选词表包括:基于公式(8)计算调节因子pgen:
其中,wh、ws、wx和b为预设参数,xt为输入的搜索查询语句,σ是sigmoid函数;基于公式(9)计算第三候选词表中各候选词的概率:
P(w)=pgenPvocab(w)+(1-pgen)Pextract(w) (9)。
这样就得到了图3中示出的最终分布。
上述实施例中,各预置参数、两步线性变换参数矩阵和偏置向量可以是根据模型训练得到的。
图4示出了根据本发明一个实施例的一种搜索的实现方法的流程示意图,如图4所示,该方法包括:
步骤S410,获取搜索查询语句。
步骤S420,根据查询改写模型对搜索查询语句进行改写,得到改写语句。查询改写模型是根据如上述任一实施例的方法训练得到的。
步骤S430,根据改写语句进行搜索查询,得到搜索结果。
在本实施例中示出了查询改写模型的一种应用,即在搜索场景下,对于用户输入的搜索查询语句(尤其是对于语音搜索场景,用户输入的搜素查询语句更为口语化)能够进行有效的改写。
图5示出了根据本发明一个实施例的一种查询改写模型的构建装置的结构示意图。如图5所示,查询改写模型的构建装置500包括:
训练数据生成单元510,适于根据搜索点击数据生成训练数据。
训练单元520,适于根据训练数据对目标模型进行训练,得到中间模型;目标模型包括编码器和解码器,解码器包括抽取模式和生成模式;判断中间模型是否满足预设条件,是则将中间模型作为查询改写模型并停止训练,否则将中间模型作为目标模型进行迭代训练。
可见,图5所示的装置,在获取到搜索点击数据后进一步生成训练数据,对基于编码器-解码器的目标模型进行训练,其中解码器还包括抽取、生成两种模式;通过迭代训练判断得到的中间模型是否满足需求,在满足预设条件时完成训练,得到最终可用的查询改写模型,可以进一步用于搜索场景。该技术方案通过大数据学习,合理化设置训练流程,结合了抽取式和生成式两种方式,使得训练得到的查询改写模型能够更准确地对搜索查询语句进行改写,以进一步使得搜索返回的结果贴近用户的实际需求。
在本发明的一个实施例中,上述装置中,训练数据生成单元510,适于从搜索点击数据中提取出若干组句对;句对包括搜索查询语句和对应点击搜索结果的标题语句。
在本发明的一个实施例中,上述装置中,训练数据生成单元510,适于还从提取出的句对中去除噪声。
在本发明的一个实施例中,上述装置中,训练数据生成单元510,适于计算各句对中搜索查询语句和标题语句的主题相似度,和/或,计算各句对中搜索查询语句和标题语句的语义相似度;根据预设的相似度阈值去除噪声。
在本发明的一个实施例中,上述装置中,训练数据生成单元510,适于对搜索查询语句和标题语句进行语义表示,训练潜在狄利克雷分布LDA主题模型并计算搜索查询语句的主题分布和标题语句的主题分布,基于JS散度计算各句对中搜索查询语句和标题语句的主题分布的分布相似度。
在本发明的一个实施例中,上述装置中,训练数据生成单元510,适于确定搜索查询语句和标题语句中词语的词向量,将搜索查询语句和标题语句分别表示为词语词向量的均值,基于余弦相似度计算各句对中搜索查询语句和标题语句的相似度。
在本发明的一个实施例中,上述装置中,训练数据生成单元510,还适于对句对中的搜索查询语句和标题语句分别进行分词;从分词结果中划分出第一比例的数据作为验证集,划分出第二比例的数据作为训练数据集;基于训练数据集生成训练词汇表。
在本发明的一个实施例中,上述装置中,训练单元520,适于将训练数据集中的数据划分为多组训练样本数据;取一组训练样本数据,根据训练词汇表对该组训练样本数据进行编号,将选择其中的标题语句作为训练输入数据,选择相应的搜索查询语句作为训练输出数据。
在本发明的一个实施例中,上述装置中,训练单元520,适于在训练过程中,根据公式(10)计算t时刻的损失losst:
根据公式(11)计算整个语句的损失loss:
根据中间模型计算验证集的损失,若损失增大则满足预设条件。
在本发明的一个实施例中,上述装置中,训练单元520,适于以编码器对输入语句进行词嵌入处理,得到输入语句中包含的各词对应的词向量;根据各词向量进行编码,得到输入隐向量。
在本发明的一个实施例中,上述装置中,训练单元520,适于基于一层双向长短期记忆网络LSTM进行编码。
在本发明的一个实施例中,上述装置中,训练单元520,适于以解码器的抽取模式对编码数据进行解码,输出第一候选词表,以及以解码器的生成模式对编码数据进行解码,输出第二候选词表。
在本发明的一个实施例中,上述装置中,训练单元520,适于根据输入隐向量计算注意力权重at;基于公式(1)和(2)计算输入语句中各词的抽取权重:
其中,Pextract(w)为目标词w的抽取权重,pw为调节因子,fw为目标词w在输入语句中出现的次数,N是语料中所有查询的次数,|w|是语料中包含目标词w的查询个数,t为t时刻;第一候选词表包括一个或多个词及其对应的抽取权重。
在本发明的一个实施例中,上述装置中,训练单元520,适于根据输入隐向量计算注意力权重at;根据注意力权重at和输入隐向量计算上下文权重Ct;根据注意力权重at、上下文权重Ct和当前时刻目标隐向量ht计算第二候选词表的分布概率Pvocab。
在本发明的一个实施例中,上述装置中,训练单元520,适于基于公式(3)和(4)计算注意力权重at:
at=softmax(et) (4);
在本发明的一个实施例中,上述装置中,训练单元520,适于基于公式(5)和(6)计算上下文权重Ct:
其中,covt为t时刻的覆盖矩阵。
在本发明的一个实施例中,上述装置中,训练单元520,适于基于公式(7)计算Pvocab:
Pvocab=f(Ct,ht)=softmax(V'(V[ht,Ct]+b)+b') (7);
其中,V、b和V'、b'为两步线性变换参数矩阵和偏置向量。
在本发明的一个实施例中,上述装置中,训练单元520,适于基于一层单向LSTM实现解码。
在本发明的一个实施例中,上述装置中,训练单元520,还适于根据第一候选词表的抽取权重Pextract和第二候选词表的分布概率Pvocab以及调节因子pgen确定第三候选词表,根据第三候选词表生成输出语句。
在本发明的一个实施例中,上述装置中,训练单元520,适于基于公式(8)计算调节因子pgen:
其中,wh、ws、wx和b为预设参数,xt为输入的搜索查询语句,σ是sigmoid函数;
基于公式(9)计算第三候选词表中各候选词的概率:
P(w)=pgenPvocab(w)+(1-pgen)Pextract(w)。
图6示出了根据本发明一个实施例的一种搜索的实现装置的结构示意图。如图6所示,搜索的实现装置600包括:
获取单元610,适于获取搜索查询语句。
改写单元620,适于根据如上述任一实施例的查询改写模型的构建装置500训练得到的查询改写模型对搜索查询语句进行改写,得到改写语句。
搜索单元630,适于根据改写语句进行搜索查询,得到搜索结果。
需要说明的是,上述各装置实施例的具体实施方式可以参照前述对应方法实施例的具体实施方式进行,在此不再赘述。
综上所述,本发明的技术方案,在获取到搜索点击数据后进一步生成训练数据,对基于编码器-解码器的目标模型进行训练,其中解码器还包括抽取、生成两种模式;通过迭代训练判断得到的中间模型是否满足需求,在满足预设条件时完成训练,得到最终可用的查询改写模型,可以进一步用于搜索场景。该技术方案通过大数据学习,合理化设置训练流程,结合了抽取式和生成式两种方式,使得训练得到的查询改写模型能够更准确地对搜索查询语句进行改写,以进一步使得搜索返回的结果贴近用户的实际需求。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的查询改写模型的构建装置和搜索的实现装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
例如,图7示出了根据本发明一个实施例的电子设备的结构示意图。该电子设备包括处理器710和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器720。存储器720可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器720具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码731的存储空间730。例如,用于存储计算机可读程序代码的存储空间730可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码731。计算机可读程序代码731可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图8所述的计算机可读存储介质。图8示出了根据本发明一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质800存储有用于执行根据本发明的方法步骤的计算机可读程序代码731,可以被电子设备700的处理器710读取,当计算机可读程序代码731由电子设备800运行时,导致该电子设备800执行上面所描述的方法中的各个步骤,具体来说,该计算机可读存储介质存储的计算机可读程序代码731可以执行上述任一实施例中示出的方法。计算机可读程序代码731可以以适当形式进行压缩。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (10)
1.一种查询改写模型的构建方法,包括:
根据搜索点击数据生成训练数据;
根据所述训练数据对目标模型进行训练,得到中间模型;所述目标模型包括编码器和解码器,所述解码器包括抽取模式和生成模式;
判断所述中间模型是否满足预设条件,是则将所述中间模型作为查询改写模型并停止训练,否则将所述中间模型作为目标模型进行迭代训练。
2.如权利要求1所述的方法,其中,所述根据搜索点击数据生成训练数据包括:
从所述搜索点击数据中提取出若干组句对;所述句对包括搜索查询语句和对应点击搜索结果的标题语句。
3.如权利要求1或2所述的方法,其中,该方法还包括:从提取出的句对中去除噪声。
4.一种搜索的实现方法,包括:
获取搜索查询语句;
根据权利要求1-3中任一项所述的方法训练得到的查询改写模型对所述搜索查询语句进行改写,得到改写语句;
根据所述改写语句进行搜索查询,得到搜索结果。
5.一种查询改写模型的构建装置,包括:
训练数据生成单元,适于根据搜索点击数据生成训练数据;
训练单元,适于根据所述训练数据对目标模型进行训练,得到中间模型;所述目标模型包括编码器和解码器,所述解码器包括抽取模式和生成模式;
判断所述中间模型是否满足预设条件,是则将所述中间模型作为查询改写模型并停止训练,否则将所述中间模型作为目标模型进行迭代训练。
6.如权利要求5所述的装置,其中,
所述训练数据生成单元,适于从所述搜索点击数据中提取出若干组句对;所述句对包括搜索查询语句和对应点击搜索结果的标题语句。
7.如权利要求5或6所述的装置,其中,
所述训练数据生成单元,适于还从提取出的句对中去除噪声。
8.一种搜索的实现装置,包括:
获取单元,适于获取搜索查询语句;
改写单元,适于根据权利要求5-7中任一项所述的查询改写模型的构建装置训练得到的查询改写模型对所述搜索查询语句进行改写,得到改写语句;
搜索单元,适于根据所述改写语句进行搜索查询,得到搜索结果。
9.一种电子设备,其中,该电子设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如权利要求1-4中任一项所述的方法。
10.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如权利要求1-4中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811061014.9A CN110909021A (zh) | 2018-09-12 | 2018-09-12 | 查询改写模型的构建方法、装置及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811061014.9A CN110909021A (zh) | 2018-09-12 | 2018-09-12 | 查询改写模型的构建方法、装置及其应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110909021A true CN110909021A (zh) | 2020-03-24 |
Family
ID=69812107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811061014.9A Pending CN110909021A (zh) | 2018-09-12 | 2018-09-12 | 查询改写模型的构建方法、装置及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110909021A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505194A (zh) * | 2021-06-15 | 2021-10-15 | 北京三快在线科技有限公司 | 改写词生成模型的训练方法及装置 |
CN113535932A (zh) * | 2020-04-22 | 2021-10-22 | 阿里巴巴集团控股有限公司 | 一种标注数据的方法及装置 |
WO2022121663A1 (en) * | 2020-12-10 | 2022-06-16 | International Business Machines Corporation | Adversarial hardening of queries against automated responses |
CN116894431A (zh) * | 2023-09-07 | 2023-10-17 | 腾讯科技(深圳)有限公司 | 文本处理模型训练方法、文本改写方法及装置和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1741012A (zh) * | 2004-08-23 | 2006-03-01 | 富士施乐株式会社 | 文本检索装置及方法 |
CN106067302A (zh) * | 2016-05-27 | 2016-11-02 | 努比亚技术有限公司 | 降噪装置及方法 |
CN106610972A (zh) * | 2015-10-21 | 2017-05-03 | 阿里巴巴集团控股有限公司 | 查询改写方法及装置 |
CN107423337A (zh) * | 2017-04-27 | 2017-12-01 | 天津大学 | 基于lda融合模型和多层聚类的新闻话题检测方法 |
CN107491447A (zh) * | 2016-06-12 | 2017-12-19 | 百度在线网络技术(北京)有限公司 | 建立查询改写判别模型、查询改写判别的方法和对应装置 |
CN107832299A (zh) * | 2017-11-17 | 2018-03-23 | 北京百度网讯科技有限公司 | 基于人工智能的标题的改写处理方法、装置及可读介质 |
CN108491512A (zh) * | 2018-03-23 | 2018-09-04 | 北京奇虎科技有限公司 | 新闻标题的摘要方法及装置 |
-
2018
- 2018-09-12 CN CN201811061014.9A patent/CN110909021A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1741012A (zh) * | 2004-08-23 | 2006-03-01 | 富士施乐株式会社 | 文本检索装置及方法 |
CN106610972A (zh) * | 2015-10-21 | 2017-05-03 | 阿里巴巴集团控股有限公司 | 查询改写方法及装置 |
CN106067302A (zh) * | 2016-05-27 | 2016-11-02 | 努比亚技术有限公司 | 降噪装置及方法 |
CN107491447A (zh) * | 2016-06-12 | 2017-12-19 | 百度在线网络技术(北京)有限公司 | 建立查询改写判别模型、查询改写判别的方法和对应装置 |
CN107423337A (zh) * | 2017-04-27 | 2017-12-01 | 天津大学 | 基于lda融合模型和多层聚类的新闻话题检测方法 |
CN107832299A (zh) * | 2017-11-17 | 2018-03-23 | 北京百度网讯科技有限公司 | 基于人工智能的标题的改写处理方法、装置及可读介质 |
CN108491512A (zh) * | 2018-03-23 | 2018-09-04 | 北京奇虎科技有限公司 | 新闻标题的摘要方法及装置 |
Non-Patent Citations (4)
Title |
---|
ABIGAIL SEE等: "Get To The Point: Summarization with Pointer-Generator Networks", 《HTTPS://ARXIV.ORG/ABS/1704.04368》 * |
ABIGAIL SEE等: "Get To The Point: Summarization with Pointer-Generator Networks", 《HTTPS://ARXIV.ORG/ABS/1704.04368》, 25 April 2017 (2017-04-25), pages 2 * |
XIAOPING JING等: "Improving Pointer-Generator Network with Keywords Information for Chinese Abstractive Summarization", 《NATURAL LANGUAGE PROCESSING AND CHINESE COMPUTING》, 14 August 2018 (2018-08-14), pages 464 - 474, XP047482529, DOI: 10.1007/978-3-319-99495-6_39 * |
刘耀,朱礼军,靳玮: "信息资源挖掘与发现关键技术研究", 科学技术文献出版社, pages: 98 - 99 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113535932A (zh) * | 2020-04-22 | 2021-10-22 | 阿里巴巴集团控股有限公司 | 一种标注数据的方法及装置 |
WO2022121663A1 (en) * | 2020-12-10 | 2022-06-16 | International Business Machines Corporation | Adversarial hardening of queries against automated responses |
GB2617489A (en) * | 2020-12-10 | 2023-10-11 | Ibm | Adversarial hardening of queries against automated responses |
GB2617489B (en) * | 2020-12-10 | 2024-05-15 | Ibm | Adversarial hardening of queries against automated responses |
CN113505194A (zh) * | 2021-06-15 | 2021-10-15 | 北京三快在线科技有限公司 | 改写词生成模型的训练方法及装置 |
CN113505194B (zh) * | 2021-06-15 | 2022-09-13 | 北京三快在线科技有限公司 | 改写词生成模型的训练方法及装置 |
CN116894431A (zh) * | 2023-09-07 | 2023-10-17 | 腾讯科技(深圳)有限公司 | 文本处理模型训练方法、文本改写方法及装置和存储介质 |
CN116894431B (zh) * | 2023-09-07 | 2024-01-09 | 腾讯科技(深圳)有限公司 | 文本处理模型训练方法、文本改写方法及装置和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106328147B (zh) | 语音识别方法和装置 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN108763362B (zh) | 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法 | |
CN111539197B (zh) | 文本匹配方法和装置以及计算机系统和可读存储介质 | |
WO2018049960A1 (zh) | 一种为文本信息匹配资源的方法及装置 | |
CN109165380B (zh) | 一种神经网络模型训练方法及装置、文本标签确定方法及装置 | |
CN110196972B (zh) | 文案生成方法、装置及计算机可读存储介质 | |
CN110909021A (zh) | 查询改写模型的构建方法、装置及其应用 | |
EP3707622A1 (en) | Generation of text from structured data | |
CN106844632B (zh) | 基于改进支持向量机的产品评论情感分类方法及装置 | |
CN112487827B (zh) | 问题回答方法及电子设备、存储装置 | |
CN111190997A (zh) | 一种使用神经网络和机器学习排序算法的问答系统实现方法 | |
CN110263122B (zh) | 一种关键词获取方法、装置及计算机可读存储介质 | |
CN113360646A (zh) | 基于动态权重的文本生成方法、设备及存储介质 | |
CN109766550A (zh) | 一种文本品牌识别方法、识别装置和存储介质 | |
CN114298055B (zh) | 基于多级语义匹配的检索方法、装置、计算机设备和存储介质 | |
CN110717038A (zh) | 对象分类方法及装置 | |
CN114077661A (zh) | 信息处理装置、信息处理方法和计算机可读介质 | |
Biesialska et al. | Leveraging contextual embeddings and self-attention neural networks with bi-attention for sentiment analysis | |
CN110019670A (zh) | 一种文本检索方法及装置 | |
Tomer et al. | STV-BEATS: skip thought vector and bi-encoder based automatic text summarizer | |
CN110909217A (zh) | 搜索的实现方法、装置、电子设备和存储介质 | |
CN107729509B (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
Lin et al. | Social media popularity prediction based on multi-modal self-attention mechanisms | |
CN110968759A (zh) | 一种改写模型的训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200324 |