CN112541362A - 一种泛化处理的方法、装置、设备和计算机存储介质 - Google Patents
一种泛化处理的方法、装置、设备和计算机存储介质 Download PDFInfo
- Publication number
- CN112541362A CN112541362A CN202011445266.9A CN202011445266A CN112541362A CN 112541362 A CN112541362 A CN 112541362A CN 202011445266 A CN202011445266 A CN 202011445266A CN 112541362 A CN112541362 A CN 112541362A
- Authority
- CN
- China
- Prior art keywords
- query
- model
- training
- requested
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title abstract description 3
- 238000012549 training Methods 0.000 claims abstract description 89
- 238000012545 processing Methods 0.000 claims abstract description 14
- 239000013598 vector Substances 0.000 claims description 68
- 238000000034 method Methods 0.000 claims description 53
- 230000015654 memory Effects 0.000 claims description 19
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2468—Fuzzy queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Fuzzy Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Automation & Control Theory (AREA)
- Probability & Statistics with Applications (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种泛化处理的方法、装置、设备和计算机存储介质,涉及人工智能技术领域,具体涉及深度学习技术。具体实现方案为:通过字面匹配方式、语义匹配方式和查询项(query)改写方式中的至少一种,确定query库中与所请求query相似的候选query集合;利用预先训练得到的query匹配模型,从所述候选query集合中确定所述所请求query对应的泛化query;其中所述query匹配模型基于交叉注意力模型预先训练得到。通过本申请能够实现针对所请求query的泛化。
Description
技术领域
本申请涉及计算机应用技术领域,特别涉及人工智能技术领域中的深度学习技术。
背景技术
信息爆炸时代,人们渴望能够快速、准确、直接地获取信息,传统的搜索引擎技术已经不能满足用户的需求。问答系统作为搜索引擎的高级形式,用最简单、高效的方式满足用户快速、精准获取信息的需求。问题泛化是问答系统中的核心技术,对于给定的query(查询项),可返回该query的所有同义query,从而提高响应的准确率和召回率。由此泛化技术被广泛运用于搜索、问答系统、智能客服、广告系统等多种业务场景中。
发明内容
有鉴于此,本申请提供了一种泛化处理的方法、装置、设备和计算机存储介质。
第一方面,本申请提供了一种泛化处理的方法,包括:
通过字面匹配方式、语义匹配方式和query改写方式中的至少一种,确定查询项query库中与所请求query相似的候选query集合;
利用预先训练得到的query匹配模型,从所述候选query集合中确定所述所请求query对应的泛化query;
其中所述query匹配模型基于交叉注意力模型预先训练得到。
第二方面,本申请提供了一种泛化处理的装置,包括:
候选确定模块,用于通过字面匹配方式、语义匹配方式和query改写方式中的至少一种,确定查询项query库中与所请求query相似的候选query集合;
泛化确定模块,用于利用预先训练得到的query匹配模型,从所述候选query集合中确定所述所请求query对应的泛化query;其中所述query匹配模型基于交叉注意力模型预先训练得到。
第三方面,本申请提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的方法。
第四方面,本申请提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述的方法。
由以上技术方案可以看出,通过字面匹配、语义匹配和query改写中至少一种方式先确定出候选query集合,再进一步通过query匹配模型从候选query集合中进一步确定泛化query,从而实现针对所请求query的泛化。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1为本申请实施例提供的主要方法流程图;
图2为本申请实施例提供的一种优选方法流程图;
图3a为本申请实施例提供的语义匹配的示意图;
图3b为本申请实施例提供的训练双塔模型的结构示意图;
图4为本申请实施例提供的query改写模型的结构示意图;
图5为本申请实施例提供的query匹配模型的结构示意图;
图6为本申请实施例提供的装置结构示意图;
图7是用来实现本申请实施例的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1为本申请实施例提供的主要方法流程图,该方法可以由服务器端执行,也可以由具有较强计算能力的计算机终端执行。如图1中所示,该方法可以包括以下步骤:
在101中,通过字面匹配方式、语义匹配方式和query改写方式中的至少一种,确定query库中与所请求query相似的候选query集合。
本申请实施例中涉及的query库根据具体应用场景的不同,可以具有不同含义。例如,若应用于普通搜索引擎场景,则query库指的是搜索关键词库,即query库中包含的是搜索关键词。再例如,若应用于问答系统场景,则query库指的是问题库,即query库中包含的是问答系统涉及的所有问题所构成的库。
在102中,利用预先训练得到的query匹配模型,从上述候选query集合中确定所请求query对应的泛化query;其中query匹配模型基于交叉注意力模型预先训练得到。
通过该实施例可以看出,通过字面匹配、语义匹配和query改写中至少一种方式先确定出候选query集合,再进一步通过query匹配模型从候选query集合中进一步确定泛化query,基于此使得针对query的响应更加准确和全面。
作为一种优选的实施方式,在上述101中,可以同时使用字面匹配方式、语义匹配方式和query改写方式来确定候选query集合。下面结合实施例进行详细描述。
图2为本申请实施例提供的一种优选方法流程图,如图2中所示,该方法可以包括以下步骤:
在201a中,通过字面匹配方式,确定query库中与所请求query字面相似的第一query集合。
所谓字面匹配指的是,query之间在字面上的相似度大于或等于预设的字面相似度阈值。通常字面上的相似度可以采用诸如汉明距离等方式来衡量。本步骤中可以采用诸如Elasticsearch(简称ES)或者Solr等已有的字面匹配工具在query库中搜索所请求query,搜索得到的query即为query库中与所请求query字面相似的query,将其构成第一query集合。
在201b中,通过语义匹配方式,确定query库中与所请求query语义相似的第二query集合。
作为一种优选的实施方式,如图3a中所示,在本步骤中可以利用预先训练得到的双塔模型中的向量表示层,确定所请求query的特征向量表示;然后通过向量检索的方式,检索query库中特征向量表示与所请求query的特征向量表示之间的相似度满足预设相似度要求的query,从而得到第二query集合。这种方式确定出的第二query集合能够在语义上与所请求query匹配。其中,预设相似度要求可以是相似度超过预设的第一相似度阈值,也可以是相似度排在前N个,N为预设的正整数。等等。
作为一种优选的实施方式,query库中的各query的特征向量采用所述向量表示层预先得到并进行对应存储。在上述语义匹配过程中直接获取并利用query库中各query的特征向量即可。当然除了该优选的实施方式之外,通过向量表示层实时确定query库中各query的特征向量也可以,但效率上不如上述优选的实施方式。
目前信息检索领域的常用模型主要有两种,其中一种是双塔模型(Dual Model)。所谓双塔模型是因为其采用两个编码器,分别对query和候选文本进行编码,得到query的向量表示以及候选文本(本申请实施例中候选文本即为query库中的各query)的向量表示,然后再通过内积等方式计算两个向量表示之间的相关度(也称为相似度)作为query和候选文本的相关性得分。这种两个编码器的结构呈现出一种双塔式的结构,因此称为双塔模型。
在本步骤中涉及的双塔模型是预先训练得到的。训练该双塔模型的过程可以包括:首先获取第一训练数据,第一训练数据包含同一query对应的相关query和不相关query。
然后将第一训练数据作为双塔模型的输入,训练该双塔模型;训练目标包括:最大化第一相似度和第二相似度之间的差值,第一相似度为双塔模型的向量表示层输出的同一query的特征向量表示与相关query的特征向量表示之间的相似度,第二相似度为双塔模型的向量表示层输出的同一query的特征向量表示与不相关query的特征向量表示之间的相似度。
训练双塔模型的结构示意图可以如图3b中所示。query、query的相关query和不相关query,经过向量表示层后得到query的特征向量表示、相关query的特征向量表示以及不相关query的特征向量表示。计算query的特征向量表示与相关query的特征向量表示之间的相似度,得到相似度1,计算query的特征向量表示与不相关query的特征向量表示之间的相似度,得到相似度2。训练目标是:Max{相似度1-相似度2}。利用该训练目标可以构建损失函数,然后进行反向传播以更新双塔模型的模型参数。
另外,在上述训练双塔模型时,上述向量表示层可以采用预训练语言模型得到。即在上述训练双塔模型时,可以基于由大量无标注数据得到的预训练语言模型的向量表示层,进行进一步训练得到。
经过训练后,在通过语义匹配方式,确定query库中与所请求query语义相似的第二query集合时,实际上仅利用了上述训练得到的双塔模型中的向量表示层。
在201c中,通过query改写方式,确定query库中所请求query的改写query构成第三query集合。
作为一种优选的实施方式,可以将所请求query输入预先训练得到的query改写模型,获取query改写模型输出的改写query。其中,query改写模型可以基于Seq2Seq(序列到序列)模型预先训练得到。通过这种方式能够获取到所请求query对应的不同表达方式的query,对于新query和长尾query也能够进行有效泛化。
如图4中所示,query改写模型对于输入的所请求query,在嵌入层针对各字符(图中表示为x1,x2,…,x5)进行字符嵌入(Token Embeddings)、段落嵌入(SegmentEmbeddings)和位置嵌入(Position Embeddings)。关于嵌入层进行上述嵌入处理的具体内容可以采用现有技术中较为成熟的方式,在此不做赘述。
隐藏层可以采用多层Transformer的结构。经过嵌入处理后得到的向量输入隐藏层,得到各字符(Token)的隐层向量表示,图中表示为h1,h2,…,h5。在经过一层多类别分类器,预测改写query的每个字符,表示为y1,y2,…,ym,其中m为正整数,即预测的改写query的字符数。
其中,在预先训练query改写模型时,可以首先获取第二训练数据,第二训练数据包含样本query及其对应的改写query。然后将样本query作为预训练得到的Seq2Seq模型的输入,将改写query作为Seq2Seq模型的目标输出,进一步训练Seq2Seq模型。
在上述训练过程中可以采用预训练-微调的训练模式。采用第二训练数据进行训练时基于的是预训练语言模型,例如预先训练mask语言模型,再基于上述mask语言模型得到Seq2Seq模型,在此模型基础上利用第二训练数据进行微调,得到query改写模型。另外,为了保证改写结果的多样性,也可以加入一些诸如同义词、同一规则等指导信息。
另外需要说明的是,上述步骤201a、201b和201c可以是并行执行的三个步骤,也可以是以任意顺序先后执行的三个步骤,在此不加以特别限制。
在202中,将第一query集合、第二query集合和第三query集合的并集确定为候选query集合。
通过将上述三种方式获得的query集合进行取并集的方式确定候选query集合,从而使得对所请求query的泛化更加的全面。
在203中,利用预先训练得到的query匹配模型,从候选query集合中确定所请求query对应的泛化query。
作为一种优选的实施方式,可以从候选query集合中逐一取出query与所请求query构成query对。将query对进行拼接后输入query匹配模型,由query匹配模型输出该query对是否为相关query的分类结果。然后基于该分类结果,利用所请求query的相关query得到所请求query对应的泛化query。
上面已经提到,目前信息检索领域的常用模型主要有两种,其中一种是双塔模型,即上述步骤201b中语义匹配使用的是双塔模型。而另外一种是交叉注意力(CrossAttention)模型。所谓交叉注意力模型是将query和候选文本进行拼接后,对拼接得到的文本采用交叉注意力机制进行统一编码后,再进一步将编码结果进行映射得到query与候选文本的相关度。在本步骤中,上述query匹配模型可以采用交叉注意力模型。如图5中所示。例如,候选query集合中的query1与所请求query构成query对。将该query对进行拼接后,query匹配模型的向量表示层进行编码后,输出query对拼接后对应的向量表示。将该向量表示经过分类器的分类,得到该query对属于相关query的概率,从而得到该query对是否为相关query的分类结果。
作为其中一种实施方式,依据分类结果,可以将所请求query的相关query确定为该所请求query对应的泛化query。作为另一种实现方式,也可以根据query对属于相关query的概率,将概率值大于或等于预设概率值的query对中的另一query作为所请求query的泛化query。
作为一种优选的实施方式,在训练query匹配模型时,可以首先获取第三训练数据,第三训练数据可以包括样本query对,并标注样本query对是相关query或不相关query;然后将样本query对进行拼接后输入交叉注意力模型,将对该样本query对的标注作为交叉注意力模型对该样本query对的目标分类结果。也就是说,若输入的样本query对为相关query对,那么交叉注意力模型的输出目标为相关query对的分类结果;若输入的样本query对为不相关query对,那么交叉注意力模型的输出目标为不相关query对的分类结果。
以上是对本申请所提供方法进行的详细描述,下面结合实施例对本申请提供的装置进行详细描述。
图6为本申请实施例提供的装置结构图,该装置可以是位于服务器端的应用,或者还可以是位于服务器的应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能单元,或者,还可以位于具有较强计算能力的计算机终端,本发明实施例对此不进行特别限定。如图6中所示,该装置可以包括:候选确定模块10和泛化确定模块20,还可以进一步包括第一训练模块30、第二训练模块40和第三训练模块50。其中各组成单元的主要功能如下:
候选确定模块10,用于通过字面匹配方式、语义匹配方式和query改写方式中的至少一种,确定查询项query库中与所请求query相似的候选query集合。
泛化确定模块20,用于利用预先训练得到的query匹配模型,从候选query集合中确定所请求query对应的泛化query;其中query匹配模型基于交叉注意力模型预先训练得到。
作为一种优选的实施方式,候选确定模块可以包括:字面匹配子模块11、语义匹配子模块12、query改写子模块13和候选并集子模块14。
其中,字面匹配子模块11,用于通过字面匹配方式,确定query库中与所请求query字面相似的第一query集合。
具体地,字面匹配子模块11可以采用诸如Elasticsearch(简称ES)或者Solr等已有的字面匹配工具在query库中搜索所请求query,搜索得到的query即为query库中与所请求query字面相似的query,将其构成第一query集合。
语义匹配子模块12,用于通过语义匹配方式,确定query库中与所请求query语义相似的第二query集合。
具体地,语义匹配子模块12可以利用预先训练得到的双塔模型中的向量表示层,确定所请求query的特征向量表示;通过向量检索的方式,检索query库中特征向量表示与所请求query的特征向量表示之间的相似度满足预设相似度要求的query。
第一训练模块30,用于采用如下方式预先训练双塔模型:获取第一训练数据,第一训练数据包含同一query对应的相关query和不相关query;将第一训练数据作为双塔模型的输入,训练双塔模型;训练目标包括:最大化第一相似度和第二相似度之间的差值,第一相似度为双塔模型的向量表示层输出的同一query的特征向量表示与相关query的特征向量表示之间的相似度,第二相似度为双塔模型的向量表示层输出的同一query的特征向量表示与不相关query的特征向量表示之间的相似度。
query改写子模块13,用于通过query改写方式,确定query库中所请求query的改写query构成第三query集合。
具体地,query改写子模块13将所请求query输入预先训练得到的query改写模型,获取query改写模型输出的改写query;其中query改写模型基于Seq2Seq模型预先训练得到。
第二训练模块40,用于采用如下方式预先训练query改写模型:获取第二训练数据,第二训练数据包含样本query及其对应的改写query;将样本query作为预训练得到的Seq2Seq模型的输入,将改写query作为Seq2Seq模型的目标输出,进一步训练Seq2Seq模型。
候选并集子模块14,用于将第一query集合、第二query集合和第三query集合的并集确定为候选query集合。
作为一种优选的实施方式,泛化确定模块20可以从候选query集合中逐一取出query与所请求query构成query对;将query对进行拼接后输入query匹配模型,由query匹配模型输出query对是否为相关query的分类结果;基于分类结果,利用所请求query的相关query得到所请求query对应的泛化query。
第三训练模块50,用于采用如下方式预先训练query匹配模型:获取第三训练数据,第三训练数据包括样本query对,并标注样本query对是相关query或不相关query;将样本query对进行拼接后输入交叉注意力模型,将对样本query对的标注作为交叉注意力模型对样本query对的目标分类结果。
本申请实施例提供的上述方法和装置可以适用于以下应用场景:
应用场景1:
在问答系统的问答库中包含很多问答对,每个问答对由问题和回答构成。当用户输入所请求的问题时,采用本申请实施例提供的上述方法和装置对所请求的问题进行泛化,得到一个以上的泛化问题。然后利用所请求的问题和泛化问题分别在问答库中进行匹配,找到匹配的问题所对应的回答,并返回给用户。
通过这种方式,即便用户输入的所请求的问题的表述与问答库中的问题在表述上存在一定差别,但由于从字面、语义和改写等多维度获得候选问题,并基于问题匹配的方式获得泛化问题,从而使得返回的答案更加全面和准确。
应用场景2:
在普通搜索引擎服务中,当用户输入搜索关键词后,采用本申请实施例所提供的上述方法和装置对上述搜索关键词进行泛化,得到一个以上的泛化搜索关键词。然后利用用户输入的搜索关键词以及泛化搜索关键词进行搜索,并返回搜索结果。
通过这种方式,除了能够向用户返回与用户输入的搜索关键词匹配的页面之外,还能够向用户返回与用户输入的搜索关键在字面上、语义上以及改写上等具有一定匹配度的搜索关键词所对应的页面,从而使得返回的搜索结果更加全面和准确。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图7所示,是根据本申请实施例的泛化处理的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图7所示,该电子设备包括:一个或多个处理器701、存储器702,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器701为例。
存储器702即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的泛化处理的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的泛化处理的方法。
存储器702作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的泛化处理的方法对应的程序指令/模块。处理器701通过运行存储在存储器702中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的泛化处理的方法。
存储器702可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据该电子设备的使用所创建的数据等。此外,存储器702可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器702可选包括相对于处理器701远程设置的存储器,这些远程存储器可以通过网络连接至该电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
该电子设备还可以包括:输入装置703和输出装置704。处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接,图7中以通过总线连接为例。
输入装置703可接收输入的数字或字符信息,以及产生与该电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置704可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (18)
1.一种泛化处理的方法,包括:
通过字面匹配方式、语义匹配方式和查询项query改写方式中的至少一种,确定query库中与所请求query相似的候选query集合;
利用预先训练得到的query匹配模型,从所述候选query集合中确定所述所请求query对应的泛化query;
其中所述query匹配模型基于交叉注意力模型预先训练得到。
2.根据权利要求1所述的方法,其中,所述通过字面匹配方式、语义匹配方式和query改写方式中的至少一种,确定查询项query库中与所请求query相似的候选query集合包括:
通过字面匹配方式,确定所述query库中与所请求query字面相似的第一query集合;
通过语义匹配方式,确定所述query库中与所请求query语义相似的第二query集合;
通过query改写方式,确定所述query库中所请求query的改写query构成第三query集合;
将所述第一query集合、第二query集合和第三query集合的并集确定为所述候选query集合。
3.根据权利要求1或2所述的方法,其中,所述语义匹配方式包括:
利用预先训练得到的双塔模型中的向量表示层,确定所述所请求query的特征向量表示;
通过向量检索的方式,检索所述query库中特征向量表示与所述所请求query的特征向量表示之间的相似度满足预设相似度要求的query。
4.根据权利要求3所述的方法,其中,所述双塔模型采用如下方式预先训练得到:
获取第一训练数据,所述第一训练数据包含同一query对应的相关query和不相关query;
将所述第一训练数据作为双塔模型的输入,训练所述双塔模型;训练目标包括:最大化第一相似度和第二相似度之间的差值,所述第一相似度为所述双塔模型的向量表示层输出的所述同一query的特征向量表示与相关query的特征向量表示之间的相似度,所述第二相似度为所述双塔模型的向量表示层输出的所述同一query的特征向量表示与不相关query的特征向量表示之间的相似度。
5.根据权利要求1或2所述的方法,其中,所述query改写方式包括:
将所述所请求query输入预先训练得到的query改写模型,获取所述query改写模型输出的改写query;
其中所述query改写模型基于序列到序列Seq2Seq模型预先训练得到。
6.根据权利要求5所述的方法,其中,所述query改写模型采用如下方式预先训练得到:
获取第二训练数据,所述第二训练数据包含样本query及其对应的改写query;
将所述样本query作为预训练得到的Seq2Seq模型的输入,将所述改写query作为所述Seq2Seq模型的目标输出,进一步训练所述Seq2Seq模型。
7.根据权利要求1或2所述的方法,其中,所述利用预先训练得到的query匹配模型,从所述候选query集合中确定所述所请求query对应的泛化query包括:
从所述候选query集合中逐一取出query与所请求query构成query对;
将query对进行拼接后输入所述query匹配模型,由所述query匹配模型输出所述query对是否为相关query的分类结果;
基于所述分类结果,利用所请求query的相关query得到所述所请求query对应的泛化query。
8.根据权利要求7所述的方法,其中,所述query匹配模型采用如下方式预先训练得到:
获取第三训练数据,所述第三训练数据包括样本query对,并标注样本query对是相关query或不相关query;
将所述样本query对进行拼接后输入交叉注意力模型,将对所述样本query对的标注作为所述交叉注意力模型对所述样本query对的目标分类结果。
9.一种泛化处理的装置,包括:
候选确定模块,用于通过字面匹配方式、语义匹配方式和查询项query改写方式中的至少一种,确定query库中与所请求query相似的候选query集合;
泛化确定模块,用于利用预先训练得到的query匹配模型,从所述候选query集合中确定所述所请求query对应的泛化query;其中所述query匹配模型基于交叉注意力模型预先训练得到。
10.根据权利要求9所述的装置,其中,所述候选确定模块包括:
字面匹配子模块,用于通过字面匹配方式,确定所述query库中与所请求query字面相似的第一query集合;
语义匹配子模块,用于通过语义匹配方式,确定所述query库中与所请求query语义相似的第二query集合;
query改写子模块,用于通过query改写方式,确定所述query库中所请求query的改写query构成第三query集合;
候选并集子模块,用于将所述第一query集合、第二query集合和第三query集合的并集确定为所述候选query集合。
11.根据权利要求10所述的装置,其中,所述语义匹配子模块,具体用于利用预先训练得到的双塔模型中的向量表示层,确定所述所请求query的特征向量表示;通过向量检索的方式,检索所述query库中特征向量表示与所述所请求query的特征向量表示之间的相似度满足预设相似度要求的query。
12.根据权利要求11所述的装置,还包括:
第一训练模块,用于采用如下方式预先训练所述双塔模型:
获取第一训练数据,所述第一训练数据包含同一query对应的相关query和不相关query;
将所述第一训练数据作为双塔模型的输入,训练所述双塔模型;训练目标包括:最大化第一相似度和第二相似度之间的差值,所述第一相似度为所述双塔模型的向量表示层输出的所述同一query的特征向量表示与相关query的特征向量表示之间的相似度,所述第二相似度为所述双塔模型的向量表示层输出的所述同一query的特征向量表示与不相关query的特征向量表示之间的相似度。
13.根据权利要求10所述的装置,其中,所述query改写子模块,具体用于将所述所请求query输入预先训练得到的query改写模型,获取所述query改写模型输出的改写query;其中所述query改写模型基于序列到序列Seq2Seq模型预先训练得到。
14.根据权利要求13所述的装置,还包括:
第二训练模块,用于采用如下方式预先训练所述query改写模型:
获取第二训练数据,所述第二训练数据包含样本query及其对应的改写query;
将所述样本query作为预训练得到的Seq2Seq模型的输入,将所述改写query作为所述Seq2Seq模型的目标输出,进一步训练所述Seq2Seq模型。
15.根据权利要求9所述的装置,其中,所述泛化确定模块,具体用于:
从所述候选query集合中逐一取出query与所请求query构成query对;
将query对进行拼接后输入所述query匹配模型,由所述query匹配模型输出所述query对是否为相关query的分类结果;
基于所述分类结果,利用所请求query的相关query得到所述所请求query对应的泛化query。
16.根据权利要求15所述的装置,还包括:
第三训练模块,用于采用如下方式预先训练所述query匹配模型:
获取第三训练数据,所述第三训练数据包括样本query对,并标注样本query对是相关query或不相关query;
将所述样本query对进行拼接后输入交叉注意力模型,将对所述样本query对的标注作为所述交叉注意力模型对所述样本query对的目标分类结果。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011445266.9A CN112541362B (zh) | 2020-12-08 | 2020-12-08 | 一种泛化处理的方法、装置、设备和计算机存储介质 |
US17/407,272 US11704326B2 (en) | 2020-12-08 | 2021-08-20 | Generalization processing method, apparatus, device and computer storage medium |
JP2021184476A JP7295200B2 (ja) | 2020-12-08 | 2021-11-12 | 汎化処理方法、装置、デバイス、コンピュータ記憶媒体及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011445266.9A CN112541362B (zh) | 2020-12-08 | 2020-12-08 | 一种泛化处理的方法、装置、设备和计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112541362A true CN112541362A (zh) | 2021-03-23 |
CN112541362B CN112541362B (zh) | 2022-08-23 |
Family
ID=75018340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011445266.9A Active CN112541362B (zh) | 2020-12-08 | 2020-12-08 | 一种泛化处理的方法、装置、设备和计算机存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11704326B2 (zh) |
JP (1) | JP7295200B2 (zh) |
CN (1) | CN112541362B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051368A (zh) * | 2021-03-24 | 2021-06-29 | 北京百度网讯科技有限公司 | 双塔模型训练方法、检索方法、装置及电子设备 |
CN113221034A (zh) * | 2021-05-06 | 2021-08-06 | 北京百度网讯科技有限公司 | 数据泛化方法、装置、电子设备和存储介质 |
CN113254714A (zh) * | 2021-06-21 | 2021-08-13 | 平安科技(深圳)有限公司 | 基于query分析的视频反馈方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109815484A (zh) * | 2018-12-21 | 2019-05-28 | 平安科技(深圳)有限公司 | 基于交叉注意力机制的语义相似度匹配方法及其匹配装置 |
CN111198940A (zh) * | 2019-12-27 | 2020-05-26 | 北京百度网讯科技有限公司 | Faq方法、问答检索系统、电子设备和存储介质 |
CN111797216A (zh) * | 2020-06-28 | 2020-10-20 | 北京百度网讯科技有限公司 | 检索项改写方法、装置、设备以及存储介质 |
CN111897928A (zh) * | 2020-08-04 | 2020-11-06 | 广西财经学院 | 查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10143521A (ja) | 1996-11-11 | 1998-05-29 | Oki Electric Ind Co Ltd | 情報検索方法及び情報検索装置 |
US7840547B1 (en) * | 2004-03-31 | 2010-11-23 | Google Inc. | Methods and systems for efficient query rewriting |
MX2015010582A (es) * | 2013-02-15 | 2017-01-11 | Voxy Inc | Sistemas y metodos de aprendizaje de idiomas. |
CN104573028B (zh) * | 2015-01-14 | 2019-01-25 | 百度在线网络技术(北京)有限公司 | 实现智能问答的方法和系统 |
US10242112B2 (en) * | 2015-07-15 | 2019-03-26 | Google Llc | Search result filters from resource content |
US11243955B2 (en) * | 2017-11-29 | 2022-02-08 | International Business Machines Corporation | Latent token representations for passage and answer scoring in question answering systems |
CN108052577B (zh) * | 2017-12-08 | 2022-06-14 | 北京百度网讯科技有限公司 | 一种通用文本内容挖掘方法、装置、服务器及存储介质 |
US11157564B2 (en) * | 2018-03-02 | 2021-10-26 | Thoughtspot, Inc. | Natural language question answering systems |
US11036774B2 (en) * | 2018-10-04 | 2021-06-15 | Robert Bosch Gmbh | Knowledge-based question answering system for the DIY domain |
CA3061152A1 (en) * | 2018-11-08 | 2020-05-08 | Royal Bank Of Canada | System and method for reverse-turing bot detection |
US11281733B2 (en) * | 2019-03-14 | 2022-03-22 | Microsoft Technology Licensing, Llc | Selective presentation of rich experiences in search |
US11531818B2 (en) * | 2019-11-15 | 2022-12-20 | 42 Maru Inc. | Device and method for machine reading comprehension question and answer |
US20210286851A1 (en) * | 2020-03-11 | 2021-09-16 | Microsoft Technology Licensing, Llc | Guided query recommendations |
-
2020
- 2020-12-08 CN CN202011445266.9A patent/CN112541362B/zh active Active
-
2021
- 2021-08-20 US US17/407,272 patent/US11704326B2/en active Active
- 2021-11-12 JP JP2021184476A patent/JP7295200B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109815484A (zh) * | 2018-12-21 | 2019-05-28 | 平安科技(深圳)有限公司 | 基于交叉注意力机制的语义相似度匹配方法及其匹配装置 |
CN111198940A (zh) * | 2019-12-27 | 2020-05-26 | 北京百度网讯科技有限公司 | Faq方法、问答检索系统、电子设备和存储介质 |
CN111797216A (zh) * | 2020-06-28 | 2020-10-20 | 北京百度网讯科技有限公司 | 检索项改写方法、装置、设备以及存储介质 |
CN111897928A (zh) * | 2020-08-04 | 2020-11-06 | 广西财经学院 | 查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法 |
Non-Patent Citations (1)
Title |
---|
黄如花 等: "《信息检索与利用实验教材》", 31 March 2017 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051368A (zh) * | 2021-03-24 | 2021-06-29 | 北京百度网讯科技有限公司 | 双塔模型训练方法、检索方法、装置及电子设备 |
CN113051368B (zh) * | 2021-03-24 | 2023-09-22 | 北京百度网讯科技有限公司 | 双塔模型训练方法、检索方法、装置及电子设备 |
CN113221034A (zh) * | 2021-05-06 | 2021-08-06 | 北京百度网讯科技有限公司 | 数据泛化方法、装置、电子设备和存储介质 |
CN113254714A (zh) * | 2021-06-21 | 2021-08-13 | 平安科技(深圳)有限公司 | 基于query分析的视频反馈方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
US11704326B2 (en) | 2023-07-18 |
JP7295200B2 (ja) | 2023-06-20 |
CN112541362B (zh) | 2022-08-23 |
US20220179858A1 (en) | 2022-06-09 |
JP2022091122A (ja) | 2022-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111125335B (zh) | 问答处理方法、装置、电子设备和存储介质 | |
CN112560479B (zh) | 摘要抽取模型训练方法、摘要抽取方法、装置和电子设备 | |
CN111625635A (zh) | 问答处理、语言模型的训练方法、装置、设备及存储介质 | |
CN112541362B (zh) | 一种泛化处理的方法、装置、设备和计算机存储介质 | |
CN112507715A (zh) | 确定实体之间关联关系的方法、装置、设备和存储介质 | |
CN110717339A (zh) | 语义表示模型的处理方法、装置、电子设备及存储介质 | |
CN111831813B (zh) | 对话生成方法、装置、电子设备及介质 | |
US20220129448A1 (en) | Intelligent dialogue method and apparatus, and storage medium | |
CN111259671A (zh) | 文本实体的语义描述处理方法、装置及设备 | |
CN110674260B (zh) | 语义相似模型的训练方法、装置、电子设备和存储介质 | |
US11947578B2 (en) | Method for retrieving multi-turn dialogue, storage medium, and electronic device | |
CN113094550A (zh) | 视频检索方法、装置、设备和介质 | |
CN112507091A (zh) | 检索信息的方法、装置、设备以及存储介质 | |
CN111737559A (zh) | 资源排序方法、训练排序模型的方法及对应装置 | |
CN112506949B (zh) | 结构化查询语言查询语句生成方法、装置及存储介质 | |
CN111950291A (zh) | 语义表示模型的生成方法、装置、电子设备及存储介质 | |
CN112528001B (zh) | 一种信息查询方法、装置及电子设备 | |
CN111339759A (zh) | 领域要素识别模型训练方法、装置及电子设备 | |
CN112925883B (zh) | 搜索请求处理方法、装置、电子设备及可读存储介质 | |
CN111274407A (zh) | 知识图谱中三元组置信度计算方法和装置 | |
CN111079945A (zh) | 端到端模型的训练方法及装置 | |
KR20210105288A (ko) | 질문 응답 로봇 생성 방법 및 장치 | |
CN111984774B (zh) | 搜索方法、装置、设备以及存储介质 | |
CN111241242B (zh) | 目标内容的确定方法、装置、设备及计算机可读存储介质 | |
CN111984775A (zh) | 问答质量确定方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |