CN110582761A - 基于点击图上向量传播模型的智能客户服务 - Google Patents

基于点击图上向量传播模型的智能客户服务 Download PDF

Info

Publication number
CN110582761A
CN110582761A CN201880025735.6A CN201880025735A CN110582761A CN 110582761 A CN110582761 A CN 110582761A CN 201880025735 A CN201880025735 A CN 201880025735A CN 110582761 A CN110582761 A CN 110582761A
Authority
CN
China
Prior art keywords
user
query
topics
candidate topics
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880025735.6A
Other languages
English (en)
Other versions
CN110582761B (zh
Inventor
张望舒
石志伟
刘俊宏
蔡捷
胡翔
毛德峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of CN110582761A publication Critical patent/CN110582761A/zh
Application granted granted Critical
Publication of CN110582761B publication Critical patent/CN110582761B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • G06Q30/015Providing customer assistance, e.g. assisting a customer within a business location or via helpdesk
    • G06Q30/016After-sales
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems

Abstract

在数据服务引擎处从用户接收查询。所述查询包括字符串。所述数据服务引擎基于所述查询识别多个候选主题。基于点击图上向量传播(VPCG)模型确定所述查询和所述多个候选主题中的每个候选主题之间的相似度得分,所述模型是基于用户点击数据训练的。基于所述相似度得分将所述多个候选主题排名。从所述已排名的候选主题中选择一个或多个主题。经由用户界面(UI)输出所述选择的主题。

Description

基于点击图上向量传播模型的智能客户服务
技术领域
本文一般涉及自然语言处理,特别是智能客户服务。
背景技术
随着人工智能(AI)愈发流行,人们期待越来越多的相关产品和服务,例如机器人写作、机器人创作和自动驾驶汽车。人工智能领域的代表性应用之一是智能客户服务,它已融入人们生活的各个方面。智能客户服务可以与用户通信并自动回复用户关于产品或服务的问题或查询,以降低客户服务运营的成本。
自然语言处理技术(NLP)帮助企业搭建智能客户服务机器人。NLP可以提高服务效率、降低人工服务成本,从而帮助企业实现从传统呼叫中心到智能客户联络中心的成功过渡。
发明内容
本公开的实施方式一般涉及智能客户服务中的自然语言处理。更具体地,本公开的实施方式涉及基于点击图上向量传播(VPCG)模型的智能客户服务。
在一般实施方式中,在数据服务引擎处从用户接收查询。查询包括一串字符。数据服务引擎基于查询识别多个候选主题。基于点击图上向量传播(VPCG)模型,确定查询分别相对于多个候选主题的相似度得分,所述点击图上向量传播(VPCG)模型是基于用户点击数据训练的。基于相似度得分对多个候选主题进行排名。从已排名的候选主题中选择一个或多个主题。经由用户界面(UI)输出所选择的主题。
本公开中描述的主题的特定实施方式可以被实施以实现以下优点中的一个或多个。例如,所描述的主题可以针对客户需求和意图提供更相关且准确的预测,并解决客户问题,从而帮助改善用户体验和用户满意度。
应当理解,根据本公开的方法可以包括本文所描述的方面和特征的任何组合。也就是说,根据本公开的方法不限于本文具体描述的方面和特征的组合,而还可以包括所提供的方面和特征的任何组合。
以下在附图和说明书中阐述了本公开的一个或多个实施方式的细节。从说明书和附图以及从权利要求书来看,本公开的其它特征和优点将是显而易见的。
附图说明
图1是示出根据本公开实施方式的用于基于点击图上向量传播(VPCG)模型提供智能客户服务的示例性环境的框图。
图2是示出根据本公开实施方式的用于基于用户点击数据来训练VPCG模型的示例性处理的框图。
图3是示出根据本公开实施方式的用于使用经训练的VPCG模型来计算用户查询q和候选知识点主题d的得分的示例性处理的流程图。
图4是示出根据本公开实施方式的用于基于VPCG模型提供智能客户服务的示例性系统的框图。
图5是示出根据本公开实施方式的用于基于VPCG模型提供智能客户服务的示例性处理的流程图。
图6是示出根据本公开实施方式的基于VPCG模型的智能客户服务和基于深度语义相似度模型(DSSM)的智能客户服务之间的性能对比的图。
图7是示出根据本公开实施方式的用于提供与本公开中所描述的算法、方法、功能、处理、流程和过程相关联的计算功能的示例性计算机系统的框图。
各附图中相同的附图标记和名称表示相同的元件。
具体实施方式
以下具体实施方式描述了基于点击图上向量传播(VPCG)模型的智能客户服务,并被呈现以使得本领域的任何技术人员能够在一个或多个特定实施方式的背景下做出和使用所公开的主题。可以对所公开的实施方式进行各种修改、更改和置换,并且这些修改、更改和置换对于本领域普通技术人员来说将是显而易见的,并且在不脱离本公开的范围的情况下,所定义的一般原理可以应用于其他实施方式和应用。在一些示例中,可以省略获得对所描述的主题的理解所不必要的细节,从而不模糊一个或多个所描述的实施方式,并且这样的细节在本领域普通技术人员的技术范围内。本公开的目的不限于所描述或示出的实施方式,而是被赋予与所描述的原理和特征一致的最宽范围。
智能客户服务系统可以通过计算机实现的技术,与客户(或用户)交互并提供自动客户服务。示例性智能客户服务系统可以实现为例如客户服务机器人或问答(Q&A)系统。
现有技术通常首先分析输入的问题并尝试理解问题的内容,然后初步分析使用哪种方法来回答问题。随后可以进行一些初步搜索,并可以生成可选答案。将对生成的所有答案进行评分。得分最高的答案被认为是最有用的,并将被返回给客户。一些Q&A系统使用仅依赖于用户表达的语言的算法,基于用户问题确定问题的类别或相关知识领域。由于缺乏对用户意图的理解或推断,这些系统的分类结果很差。例如,在使用智能客户服务时,用户在与客户服务机器人交互期间更可能使用口语和简化语言。客户提出的问题中超过50%包含10个或更少的单词,尤其是在客户发起问题的情况下。仅依赖用户的文字表达和传统的自然语言处理(NLP)技术来解决客户的问题存在困难和局限。随着使用电子商务应用的客户数量增加,客户提出的问题数量和这些问题的复杂性也相应增加,从而在提供满足用户需求的智能客户服务方面带来了额外的挑战。
本公开的实施方式提出了基于点击图上向量传播(VPCG)模型的智能客户服务,以提供对用户需求或意图更准确的预测或确定,从而回答用户查询。所描述的实施方式将基于点击数据训练的VPCG模型应用于例如计算客户问题和相应答案的得分的评分处理。所公开的实施方式可以集成到Q&A引擎中以实现改进的客户服务。
在一些实施方式中,在客户服务Q&A交互的场景中,当不确定客户问题的答案时,智能客户服务系统可以向客户提供多个(例如,3个)答案并允许客户选择与客户问题最相关的答案。因此,系统可以收集由不同用户提出的大量不同问题,以及他们各自点击或选择的答案。问题和所选答案的集合构成用户点击数据。所公开的技术利用这些数据来挖掘用户意图并匹配用户期望的正确主题或主题内容。
在一些实施方式中,所公开的系统使用二分图来对用户的点击数据进行建模。所得到的二分图可以被称为点击图。可以将向量传播应用于点击图,以获得用户查询和候选主题的向量表示。主题可以包括,例如,用户查询中表示的主题或所处理的对象。例如,主题可以包括基于用户查询中的内容或知识点的名称、类别、分类或其他主题。作为示例,用户查询q可以是“如何提取资金”,其中主题可以包括“取现(cash out)”、“赎回(redemption)”、“担保(bond)”和其他主题内容。
基于用户点击数据,可以使用词汇表中的单词元素构建VPCG模型,该模型包括每个用户查询和主题的向量表示。在一些实施方式中,为了扩展VPCG模型的应用,还可以基于用户点击数据来训练ngram组(又称ngram字典),以使用词汇表中的元素来获得每个ngram的向量表示。在计算语言学领域,ngram可以是来自文本或语音的给定样本的n个项目的连续序列。根据应用,项目可以是音素、音节、字母、单词或基本对(base pairs)。
在从用户接收到新查询时,所公开的系统可以例如基于所获得的用户查询的向量表示或ngrams的向量表示,使用VPCG模型预测新查询的向量表示。可以基于新查询的向量表示来计算相对于每个候选主题的向量表示的得分。所计算出的分数可以被集成到搜索和排名引擎中,以帮助提供返回的主题与对应的用户查询之间的更好的匹配。因此,智能客户系统可以通过展示对用户的需求和意图的更好理解来提高用户体验。
图1是示出根据本公开实施方式的用于基于点击图上向量传播(VPCG)模型提供智能客户服务的示例性环境100的框图。例如,可以通过向客户提供针对他们问题的答案的数据服务引擎来提供智能客户服务。示例性环境100包括用户102、计算机104、网络106和后端系统108。示例性环境100可以包括附加的用户、计算机、网络、系统或其他组件。在其他实施方式中,可以按其他方式配置示例性环境100。
在一些实施方式中,网络106包括局域网(LAN)、广域网(WAN)、互联网或者这些或其他网络的组合。网络106可以包括无线网络和/或有线网络。网络106连接计算设备(例如,计算机104)和后端系统(例如,后端系统108)。在一些实施方式中,网络106可以通过有线和/或无线通信链路被访问。
在所描绘的示例中,后端系统108包括至少一个服务器系统110和数据存储设备112。在一些实施方式中,后端系统108提供对一个或多个计算机实现的数据服务的访问,计算机104可与所述一个或多个计算机实现的数据服务交互。计算机实现的数据服务可以承载在例如至少一个服务器系统110和数据存储设备112上。计算机实现的数据服务可以包括例如Q&A数据服务,计算机104可以使用该Q&A数据服务来基于用户的问题和收集的点击数据向用户提供答案。例如,作为电子商务金融服务的一部分,服务器系统110可以对应于用户102的关于获得小额贷款服务的问题生成一个或多个答案。
在一些实施方式中,计算机104将用户102的问题发送到服务器系统110以获得相应的答案。服务器系统110分析所接收的问题并将问题的内容与存储在数据存储设备112中的一个或多个主题相匹配。服务器系统110可以在示例性环境100中基于点击图上向量传播(VPCG)模型,例如通过实时搜索匹配的主题动态地提供智能客户服务。
在一些实施方式中,后端系统108包括采用集群计算机和组件的计算机系统,当通过网络106访问该计算机系统时,该计算机系统用作单个无缝资源池。例如,这样的实施方式可以用于数据中心、云计算、存储区域网络(SAN)和网络附加存储(NAS)应用。在一些实施方式中,后端系统108被部署并通过虚拟机提供计算机实现的服务。
图2是示出根据本公开实施方式的基于用户点击数据训练的示例性VPCG模型200的框图。如图2所示,VPCG模型200包括具有节点集202a和202b(统称为查询节点202)的点击图,所述节点202a和202b分别表示用户查询q1和q2,以及另一节点集204a、204b和204c(统称为主题节点204),分别表示主题d1、d2和d3。主题d可以是例如表示基于知识点或上下文的主题的一个或多个单词、短语或其他单词元素的集合。例如,主题d1、d2和d3可以分别为“取现”、“赎回”和“担保”。
查询节点202和主题节点204之间的每个边,例如边206a、206b、206c、206d或206e的权重或值表示特定主题(或主题内容)对应于用户的特定查询的用户点击(或选择)的次数。因为不同用户对相同问题的点击行为可能不同,所以不同边的权重值可以不同。
在图2示出的示例性实施例中,有连接用户查询q1 202a与主题d1 204a、d2 204b和d3 204c的三个边206a、206b和206c。边206a具有权重值4、边206b具有权重值2以及边206c具有权重值1。这表明当提出相同查询q1并被提供候选主题d1、d2和d3时,4个用户点击主题d1204a、2个用户点击主题d2 204b且1个用户点击主题d3 204c。也就是说,对于相同的问题查询q1,4个用户认为主题d1 204a与他们的问题最相关,2个用户认为主题d2 204b与他们的问题最相关,并且1个用户认为主题d3 204b与他们的问题最相关。
在上面的示例中,q1表示来自用户的查询“如何提取资金?”,候选主题d1、d2和d3可以分别是“取现”、“赎回”和“担保”,且边206a、206b和206c的权重分别为4、2和1。这表明在一组客户提出了相同的问题“如何提取资金?”后,系统向他们提供了三个候选知识点主题,“取现”、“赎回”和“担保”,让客户选择与他们的问题最相关的一个。在这组客户中,有4个客户选择了知识点主题“取现”,2个客户选择了“赎回”,1个客户选择了“担保”。
在一些实施方式中,用户查询q和主题d可以各自表示为词汇表中的单词元素的向量。词汇表可以包括字典,字典中的字母、单词、短语或其他条目形成较长字符串(例如,查询、主题或ngram)的向量表示的基础。在一些实施方式中,可基于词汇表中的单词元素按照独热格式或按照另一方式对每个用户查询q的向量表示进行初始化。以用户查询qi为例。在将查询qi分成多段并且删除每段中不相关且无意义的字符或单词之后,查询qi可以表示为向量q1:w1,w2,w4,w6,wk∈W,k=1,2,...,v,其中W是词汇表、即单词元素的集合,并且集合W的大小或维度是v。在一些实施方式中,查询qi可以具有稀疏表示qi:(w1:l,w2:1,w4:1,w6:1)。
在一些实施方式中,在生成用户点击数据中的每个用户查询q1,q2,…,qn的向量表示之后,还可以按照类似方式基于点击二分图生成用户点击数据中的每个主题d的向量表示。例如,主题di可以基于同一词汇表中的单词元素表示为单词元素的向量。作为示例,主题di可以具有稀疏表示di:(wi:1,wj:1),其中wi,wj∈W。
在一些实施方式中,可以以迭代方式获得每个用户查询q和主题d的向量表示。例如,生成的主题d的向量表示被反向传播以更新用户查询q的向量表示,并且由此完成一次迭代。下面的等式(1)和(2)示出了第n次迭代中用户查询q和主题d的向量表示的示例:
其中输出是第n次迭代后主题dj和用户查询qi的向量表示。如果是第一次迭代,则表示查询qi的向量表示的初始值。Ci,j表示如针对图2中的二分图200所描述的基于用户点击数据导出的查询qi与主题dj间的边的权重。例如,Ci,j表示用户点击数据中用户针对用户查询qi点击或选择主题dj的总数量。如果没有边连接qi和dj,则该值为0。Q表示用户点击数据中的用户查询的总数量,即对于qi,i=1,2,…,Q。D表示用户点击数据中主题(例如知识点名称向量)的总数量,也即对于dj,j=1,2,…,D。
迭代的总数量可以是例如预定数量。例如,当n=5时,迭代算法可以终止,即迭代5次。在迭代处理结束之后,可以生成用户点击数据中的每个用户查询q和主题d的向量表示。
通常,来自不同用户的查询不同。用户点击数据中的用户查询可能未涵盖用户可能提出的所有可能问题。概括地说,在一些实施方式中,可以基于用户点击数据中的用户查询来训练ngram组,使得可以基于该ngram组来表示新的用户查询。例如,新的用户查询q可以由一个或多个ngram的序列、加权和或者其他组合表示。如图2所示,节点214a、214b、214c和214d分别表示ngram1、ngram2、ngram3和nrgam4。例如,ngram可以是在客户问题中频繁出现的完整单词或短语。作为示例,查询“如何提取资金”可以分为两个ngram,“如何”和“提取资金”。
为了将用户查询q转换为ngram的表示,可以获得ngram组G(即,ngram字典)。该组G可以是用于表示用户查询q的完整候选ngram组。在一些实施方式中,每个ngram具有最高为3的阶。ngram可以按其出现的频率进行排名。在一些实施方式中,该组G可以包括具有最高出现频率的多个ngram。例如,组G可以包括g个最常出现的ngram。在这种情况下,组G的大小为g,即|G|=g。
在一些实施方式中,可以使用组G中的ngram来表示用户查询q,例如,根据前向最大匹配算法或其他算法。在一些实施方式中,可以使用ngram组G中的ngram来表示用户查询q。图2示出了ngram组G,包括ngram1 214a、ngram2 214b、ngram3 214c和ngram4 214d。ngram组G可以包括附加的或不同的ngram。如所示出的,查询q1可以使用ngram1、ngram2和ngram3表示,查询q2可以使用ngram3和ngram4表示。
使用前述迭代方法,可以将查询q的向量表示反向传播给ngram,从而根据用户查询qi,i=1,2,…,N得到ngram的向量表示。因为每个用户查询q的向量表示是例如基于针对等式(1)和(2)描述的示例性技术进行多次迭代后生成的,因此用户查询q的向量表示可以被视为完整且充分的。在一些实施方式中,仅需要反向传播来使用用户查询qi,i=1,2,…,N生成ngram的向量表示。例如,如图2所示,可以使用用户查询q1 202a和用户查询q2 202b来表示ngram3 214c。
在一些实施方式中,可以由组G中各自具有权重的ngram表示用户查询。例如,可以计算ngram对应的权重,以使查询q在使用ngram之后的的向量表示尽可能接近查询q的使用词汇表W中的单词元素的向量表示。在一些实施方式中,可以例如根据以下等式来计算ngram对应的权重以使这两个值之间的误差最小:
其中uj表示ngram的向量表示(根据词汇表W中的单词元素),j=1,…,g,wj是uj对应的权重,qi表示迭代后的查询的向量表示,Gqi表示查询qi中的ngram组。在一些实施方式中,可以例如使用梯度下降法或其他方法迭代地计算以上等式中的ngram权重wj∈W。如图2所示,可以使用各自具有权重w1、w2和w3的ngram1、ngram2和ngram3表示查询q1;可以使用各自具有权重w3和w4的ngram3和ngram4表示查询q2
图3是示出根据本公开的实施方式的使用经训练的VPCG模型来计算用户查询q和候选知识点主题d的得分的示例性处理300的流程图。在一些实施方式中,方法300的各个步骤可以并行、组合、循环或以任何顺序运行。为了清楚呈现,下面的描述在本文中的其他附图的上下文中总体上描述了方法300。然而,应当理解,方法300可以例如通过任何合适的系统、环境、软件和硬件,或者系统、环境、软件和硬件的组合来适当地执行。例如,方法300可以由评分引擎或另一数据处理装置执行,其可以包括一个或多个处理器或由一个或多个处理器实现。
在302处,接收用户查询和多个候选主题。用户查询可以是从Q&A系统或另一智能客户服务平台接收的新的用户查询。多个候选主题可以是,例如,用于用户查询匹配的完整候选主题组、预选的候选主题组(例如,基于粗略或初步选择)、或另一预定数量的候选主题。在一些实施方式中,多个候选主题可以来自经训练的VPCG模型,所述模型包括基于用户点击数据经训练的主题的向量表示。在302后,处理300进行到304。
在304,可以预处理用户查询。例如,可以将查询划分为多个段,并且移除每个段中不相关且无意义的单词。在304后,处理300进行到306。
在306处,确定用户查询是否与已经通过用户点击数据训练并存储在VPCG模型中的经训练的用户查询匹配。如果确定查询与已经在VPCG模型中(例如,根据针对图2所述的技术)迭代计算的经训练的用户查询匹配,则可以直接获得用户查询的经训练的向量表示,例如,通过从数据存储设备中检索经训练的向量表示,然后处理300进行到312。否则,处理300进行到308。
在308处,响应于确定用户查询与VPCG模型中的任何经训练的用户查询均不匹配,可以例如通过前向最大匹配算法或其他算法来获得用户查询的ngram表示。换句话说,用户查询由基于用户点击数据中的用户查询训练的ngram组Gqi(例如,针对图2描述的ngram字典G)中的一个或多个ngram表示。也即q:uj,uj∈Gqi。在一些实施方式中,可以使用一个或多个ngram的向量表示将用户查询表达为例如基于以下等式的加权和:
其中uj表示ngram的向量表示,j=1,…,g;g表示ngram组Gqi的大小,wj表示与ngram uj对应的权重;qi表示用户查询i的向量表示。在308后,处理300进行到310。
在310处,基于用户查询的ngram表示来确定查询的向量表示。例如,可以基于用户查询的ngram表示中使用的ngram的向量表示和相应的权重来确定查询的向量表示。如针对等式(4)的示例示出的,可通过将用户查询qi转换为ngram{uj}的加权和来获得用户查询qi的使用词汇表中的单词元素的向量表示,其中每个uj表示其对应的使用词汇表中的单词元素的向量表示。在310后,处理300进行到312。
在312处,获得多个候选主题各自的向量表示。在一些实施方式中,可以从经训练的VPCG模型中检索多个候选主题各自的向量表示,该VPCG模型包括基于用户点击数据训练的主题的向量表示。在一些实施方式中,可以以其他方式获得多个候选主题各自的向量表示,诸如类似于上面针对用户查询描述的技术的ngram表示。在312后,处理300进行到314。
在314处,确定查询和候选主题的向量表示相似度得分。通过将用户查询和每个候选主题转换为对应的向量表示,可以将用户查询与每个候选主题有效地比较,例如,通过基于两者各自的向量表示确定两者的相关性或者计算两者的距离或误差度量。可以返回用户查询和每个候选主题组成的配对之间的距离或误差度量作为相似度得分,该相似度得分用于确定用户查询和每个候选主题之间的相似度或匹配度。在一些实施方式中,计算用户查询的向量表示和候选主题的向量表示之间的余弦距离作为输出的相似度得分的示例。在314后,处理300结束。
图4是示出根据本公开实施方式的基于VPCG模型提供智能客户服务的示例性系统400的框图。系统400包括搜索引擎404、精确(refined)排名引擎406和再排名引擎412。系统400可以接收用户查询402并例如基于相似度得分来输出预定数量的与用户查询402最相关的主题(例如,前3个主题414或416)。系统400还使用基于用户点击数据410训练的VPCG模型408,来例如基于由再排名引擎412根据从示例性处理300输出的相似度得分执行的再排名确定前3个主题416。
输入的用户查询402可以是基于文本的。用户可以进行书面或口头查询,查询随后可以被转换为文本。在系统400接收到用户查询402之后,搜索引擎404(例如,ApacheLucene搜索系统)可以调用存储在系统数据库中的所有主题,以得到基于每个主题相对于用户查询402的相关性的主题粗略排名(或排序)。在一些实施方式中,搜索引擎可以检索例如预定数量的主题(例如,前400个主题405)以馈送到精确排名引擎406中。在搜索引擎404内,可以过滤掉与用户查询402无关的主题。
调用的前400个主题405可以作为用于精确排名引擎406进行精确排名的候选主题。可以提取与用户查询402和主题相关的特征。可以计算与这些特征相关的排名分数,例如词移距离(WMD)得分、第二排序得分、意图树得分等。精确排名引擎406可以使用例如LamdaMart模型对排名得分进行排序。如果发现多个排名靠前的主题满足指示良好匹配的特定标准(例如,得分足够高或超过预定置信度阈值),则可以将排名靠前的多个主题(例如前3个主题414)输出,例如作为精确排名的结果经由用户界面(UI)输出至用户。否则,精确排名引擎406可以调用VPCG模型408以进一步计算用户查询和每个候选主题的相似度得分409。
再排名引擎412可以接收例如根据针对图3描述的技术基于VPCG模型408计算的相似度得分409。再排名引擎412可以基于例如诸如LamdaMART的梯度提升决策树(GBDT)模型的排名模型,根据相似度得分409和其他排名得分对候选主题再排名。结果,可以将排名靠前的多个主题(例如,前3个主题416)输出,例如作为再排名的结果经由用户界面(UI)输出至用户。在一些实施方式中,用户点击数据410也可以用于训练排名模型,例如以基于基尼系数(Gini coefficients)或其他标准来确定特定排名特征的重要性。在一些实施方式中,用户点击数据410包括来自用户的大约150万个点击日志。VPCG模型408和再排名引擎412可以在其各自的训练处理中使用用户点击数据410。
图5是示出根据本公开实施方式的用于基于VPCG模型提供智能客户服务的示例性方法500的流程图。在一些实施方式中,方法500的各个步骤可以并行、组合、循环或以任何顺序运行。为了清楚呈现,下面的描述在本文中的其他附图的上下文中总体上描述了方法500。然而,应当理解,方法500可以例如通过任何合适的系统、环境、软件和硬件,或者系统、环境、软件和硬件的组合来适当地执行。例如,方法500可以由评分引擎或另一数据处理装置执行,其可以包括一个或多个处理器或由一个或多个处理器实现。示例性系统400是数据服务引擎的示例。
在502处,在数据服务引擎处从用户接收查询。查询可以包括字符串,例如一系列字符或单词元素。例如,可以从Q&A系统的用户界面(UI)或其他智能客户服务平台接收查询。用户可以提出基于文本的查询或口头查询,并且在后一种情况下,口头查询可以在被数据服务引擎接收之前转换为文本。在502之后,处理500进行到504。
在504处,数据服务引擎基于查询来识别多个候选主题。识别多个候选主题可以包括:例如,从存储器或其他数据存储设备(例如,经训练的VPCG模型,其包括基于用户点击数据训练的主题的向量表示)中获得多个候选主题、从其他源检索多个候选主题、从设备接收候选主题、或以其他方式确定候选主题。在504后,处理500进行到506。
在506处,执行首次排名以选择一个或多个主题。在一些实施方式中,首次排名可以是例如根据针对图4所描述的技术基于每个主题相对于查询的相关性对主题的粗略排名(或排序)或初步选择。在506后,处理500进行到508。
在508处,确定一个或多个主题是否满足特定标准。响应于确定一个或多个主题满足特定标准(例如,根据针对图4描述的技术,基于诸如分数的特定度量和置信度阈值确定一个或多个主题是否与查询充分相关),可以将一个或多个主题输出,例如经由智能客户服务平台的用户界面(UI)输出至用户,然后方法500进行到516。否则,如果确定没有主题满足特定标准,则执行再次排名(例如,根据针对图4描述的技术的精确排名)以选择一个或多个主题,然后方法500进行到510。
在510处,基于点击图上向量传播(VPCG)模型来确定用户查询和每个候选主题之间的相似度得分,所述VPCG模型是基于用户点击数据训练的。在一些实施方式中,用户点击数据包括来自多个用户的响应于多个查询的多个用户选择,其中,多个用户选择各自包括相应的用户在基于用户查询提供给该用户的多个候选主题中对与该用户查询相关的主题的选择。
针对图2描述了训练VPCG模型的示例性技术。在一些实施方式中,训练VPCG模型包括:识别用户点击数据中来自多个用户的多个查询;识别用户数据中来自多个用户的响应于多个查询的多个用户选择;确定多个查询各自的使用词汇表中多个单词元素表示的向量表示;确定多个候选主题各自的使用词汇表中多个单词元素表示的向量表示。
在一些实施方式中,确定多个查询各自的使用词汇表中多个单词元素表示的向量表示包括,使用多个候选主题来表示多个查询中的每个查询。例如,使用多个查询来表示多个候选主题中的每个候选主题包括,根据等式(1)表示多个查询中的每个查询。
在一些实施方式中,确定多个候选主题各自的使用词汇表中多个单词元素表示的向量表示包括:使用多个查询来表示多个候选主题中的每个候选主题。例如,使用多个候选主题来表示多个查询中的每个查询包括:根据等式(2)通过多个查询的加权和来表示多个候选主题中的每个候选主题。
在一些实施方式中,确定相似度得分包括:例如,将查询和每个候选主题转换为相应的向量表示,基于用户查询和每个候选主题组成的配对中各自的向量表示计算两者间的距离或误差度量,并返回两者间的距离或误差度量作为该配对的相似度得分。在一些实施方式中,计算用户查询的向量表示和候选主题的向量表示之间的余弦距离作为输出的相似度得分的示例。
例如,根据基于用户点击数据训练的VPCG模型确定查询和多个候选主题中的每个候选主题间的相似度得分包括:确定来自用户的查询的使用词汇表中多个单词元素表示的向量表示;确定多个候选主题各自的使用词汇表中多个单词元素表示的向量表示;计算查询的向量表示与多个候选主题中的每个候选主题的向量表示之间的相似度得分。
在一些实施方式中,确定来自用户的查询的使用词汇表中多个单词元素表示的向量表示包括:根据基于用户点击数据训练的ngram组来表示来自用户的查询。在一些实施方式中,该ngram组包括该ngram组中每个ngram的基于用户点击数据中的多个查询各自的向量表示的、使用词汇表中多个单词元素表示的向量表示。
在一些实施方式中,根据基于用户点击数据训练的ngram组来表示来自用户的查询包括:根据等式(4)将来自用户的查询表示为该ngram组的加权和。在510后,处理500进行到512。
在512,基于相似度得分对多个候选主题进行排名。在一些实施方式中,数据服务引擎可以接收在510处确定的相似度得分,并基于相似度得分对候选主题进行排名或再排名。在一些实施方式中,在例如根据针对图4描述的技术对候选主题进行排名时,数据服务引擎还将基于排名模型使用其他排名分数,该排名模型例如为GDBP模型。在512后,处理500进行到514。
在514,从已排名的候选主题中选择一个或多个主题。在一些实施方式中,例如,可以从已排名的候选主题中选择多个排名靠前的主题(例如前3个主题)。在514后,处理500进行到516。
在516处,经由数据服务引擎的用户界面(UI)输出所选择的主题。在一些实施方式中,所选择的主题可以在图形用户界面(GUI)或其他UI中的表格、聊天框、弹出窗口等中显示。在516后,处理500停止。
图6是示出根据本公开实施方式的基于VPCG模型的智能客户服务和基于深度语义相似度模型(DSSM)的智能客户服务之间的性能对比图。如图6中所示的,VPCG模型的评分插件是基于C++代码模型服务部署的,其具有大约1ms的平均调用延迟,而DSSM约耗时70ms,这表明VPCG模型极大提高了在线操作的效率并减少了算法延迟。考虑到更多候选主题,基于VPCG模型的实施方式可以节省更多时间。随着基于VPCG模型的再排名引擎的引入,LambdaMart排序的结果将ndcg@1指标提高了2%,并且在线测试单引擎分辨率提高了约1.5%。
表1示出了用户查询的几个示例性向量表示。在“向量表示”列下,冒号(“:”)前面的每个单词或短语(例如,“资金”或“转出”)表示词汇表中的词汇元素。冒号(“:”)后面的值(例如“0.83”和“0.06”)表示与单词元素对应的权重。如表1所示,基于VPCG模型,用户查询的内容可以更全面地由单词元素表示,甚至可以通过未出现在用户查询中的单词元素来表示。VPCG模型还可以通过机器学习来学习各种向量表示。例如,用户查询“如何赎回资金”的向量表示包括全面表达用户查询的语义的单词元素“卖出”、“转移”、“销售”等。这种表示可以更好地匹配用户的需求或意图,从而为用户的查询提供更合适或有效的答案。
表1:基于VPCG模型的用户查询的示例性向量表示
图7是根据实施方式的用于提供与如本公开中所描述的算法、方法、函数、处理、流程和过程相关联的计算功能的示例性计算机系统500的框图。所示计算机702旨在包括诸如服务器、台式计算机、膝上型/笔记本计算机、无线数据端口、智能电话、个人数据助理(PDA)、平板计算设备、这些设备内的一个或多个处理器、或任何其它合适的处理设备,包括计算设备的物理或虚拟实例(或两者)的任何计算设备。此外,计算机702可包括这样的计算机:所述计算机包括诸如小型键盘、键盘、触摸屏或可接受用户信息的其它设备等的输入设备,以及传达与计算机702的操作相关联的信息的输出设备,所述信息包括数字数据、视觉或音频信息(或信息的组合)、或图形类型用户界面(UI)(或GUI)。
计算机702可以充当客户端、网络组件、服务器、数据库或其它持久性设备、或用于执行本公开中所描述的主题的计算机系统的任何其它组件的角色(或角色的组合)。所示计算机702与网络730可通信地耦接。在一些实施方式中,计算机702的一个或多个组件可以被配置成在包括基于云计算的环境、本地环境、全局环境或其他环境(或环境的组合)的环境内操作。
在高层级处,计算机702是可操作用于接收、发送、处理、存储或管理与所描述的主题相关联的数据和信息的电子计算设备。根据一些实施方式,计算机702还可以包括或应用服务器、电子邮件服务器、web服务器、高速缓存服务器、流数据服务器或其他服务器(或服务器的组合)或与其可通信地耦接。
计算机702可以通过网络730从客户端应用(例如,在另一计算机702上执行)接收请求,并通过使用适当的软件应用处理所接收的请求以响应所接收的请求。此外,请求也可以从内部用户(例如,从命令控制台或通过其他适当的访问方法)、外部或第三方、其他自动化应用、以及任何其他适当的实体、个人、系统或计算机被发送到计算机702。
计算机702的每个组件可以使用系统总线503进行通信。在一些实施方式中,计算机702的任何或所有组件、硬件或软件(或硬件和软件的组合)可以使用应用程序接口(API)712或服务层713(或API 712和服务层713的组合)通过系统总线703彼此相连或与接口704(或两者的组合)相连。API 712可以包括例程的规范、数据结构和对象类。API 712可以是独立或依赖于计算机语言的,并且是指完整的接口、单个函数、或甚至一组API。服务层713向计算机502提供软件服务或向可通信地耦接到计算机502的其它组件(无论是否示出)提供软件服务。计算机702的功能对使用该服务层的所有服务消费者可以是可访问的。诸如由服务层713提供的软件服务通过定义的接口提供可重用的、定义的功能。例如,接口可以是以JAVA、C++或以可扩展标记语言(XML)格式或其它适当格式提供数据的其它适当语言编写的软件。虽然示出了API 712或服务层713为计算机702的集成组件,但可选实施方式示出API712或服务层713为与计算机702的其它组件相关的独立组件或与可通信地耦接到计算机702的其它组件(无论是否示出)相关的独立组件。此外,在不脱离本公开的范围的情况下,API 712或服务层713的任何或所有部分可以被实现为另一软件模块、企业应用或硬件模块的子模块(child or sub-modules)。
计算机702包括接口704。尽管在图7中示出了单个接口704,但是根据计算机702的特定需要、期望或特定实施方式,可以使用两个或更多个接口704。接口704由计算机702使用以用于与分布式环境中连接至网络730(无论是否示出)的其它系统通信。通常,接口704包括编码在软件或硬件(或软件和硬件的组合)中的逻辑,并且可操作以与网络730通信。更具体地,接口704可以包括支持与通信相关联的一个或多个通信协议的软件,使得网络730或接口的硬件在所示计算机702之内和之外可操作地通信物理信号。
计算机702包括处理器705。尽管在图7中示出了单个处理器705,但是根据计算机702的特定需要、期望或特定实施方式,可以使用两个或更多个处理器。通常,处理器705执行指令并操作数据,以执行计算机702的操作和如本公开中描述的任何算法、方法、函数、处理、流程和程序。
计算机702还包括可为计算机702或可连接到网络730(无论是否示出)的其它组件(或两者的组合)保存数据的数据库706。例如,数据库706可以是存储符合本公开数据的内存数据库、常规数据库或其它类型的数据库。在一些实施方式中,根据计算机702的特定需要、期望或特定实施方式以及所描述的功能,数据库706可以是两个或更多个不同数据库类型的组合(例如,内存中的和常规数据库的混合)。尽管在图7中示出单个数据库706,但根据计算机702的特定需要、期望或特定实施方式以及所描述的功能,可使用(相同类型的或类型组合的)两个或多个数据库。虽然示出了数据库706为计算机702的集成组件,但在可选实施方式中,数据库706可以位于计算机702外部。如所示,数据库706保存一个或多个向量表示数据716,所述向量表示数据可以包括用户查询、候选主题、ngram等的向量表示、VPCG模型数据718和点击数据726.
计算机702还包括可以为计算机702保存数据或为可以连接到网络730的其它组件(或两者的组合)保存数据的存储器707(无论是否示出)。存储器707可以存储符合本公开的任何数据。在一些实施方式中,根据计算机702的特定需要、期望或特定实施方式以及所描述的功能,存储器707可以是两种或更多种不同类型的存储器的组合(例如,半导体存储器和磁存储器的组合)。尽管在图7中示出了单个存储器707,但是根据计算机702的特定需要、期望或特定实施方式以及所描述的功能,可以使用(相同的或类型组合的)两个或更多存储器707。尽管示出了存储器707为计算机702的集成组件,但在可选实施方式中,存储器707可以位于计算机702外部。
应用708是根据计算机702的特定需要、期望或特定实施方案提供功能,尤其是关于本公开中所描述的功能的算法软件引擎。例如,应用708可以用作一个或多个组件、模块或应用程序。此外,尽管示出单个应用708,但应用708可被实现为计算机702上的多个应用708。另外,尽管示出了应用708集成到计算机702,但在可选实施方式中,应用708可以位于计算机702外部。
计算机702还可包括电源714。电源714可以包括可以被配置为用户可更换的可再充电电池或用户不可更换的不可再充电电池。在一些实施方式中,电源714可以包括功率转换或管理电路(包括再充电、待机或其他功率管理功能)。在一些实施方式中,电源714可以包括电源插头,以允许计算机702的插头插入到墙壁插座或其他电源中,从而例如为计算机702供电或为可充电电池再充电。
可以存在任意数量个计算机702,计算机702与包含计算机702的计算机系统相关联,或者在包含计算机702的计算机系统的外部,每个计算机702通过网络730通信。此外,在不脱离本公开的范围的情况下,术语“客户端”、“用户”和其它适当的术语可以互换地合理使用。此外,本公开预期许多用户可以使用一个计算机702,或者一个用户可以使用多个计算机702。
所描述的主题的实施方式可以单独地或组合地包括一个或多个特征。
例如,在第一实施方式中,一种计算机实现的方法包括:在数据服务引擎处从用户接收查询,其中,所述查询包括字符串;所述数据服务引擎基于所述查询识别多个候选主题;根据基于用户点击数据训练的点击图上向量传播(VPCG)模型,来确定所述查询和所述多个候选主题中的每个候选主题之间的相似度得分;基于所述相似度得分将所述多个候选主题排名;从所述已排名的候选主题中选择一个或多个主题;以及经由用户界面(UI)输出所述选择的主题。
前述其它描述的实施方式可以各自可选地包括以下特征中的一个或多个:
第一特征,可与以下任何特征组合,还包括,在根据基于用户点击数据训练的点击图上向量传播(VPCG)模型来确定所述查询和所述多个候选主题中的每个候选主题之间的相似度得分之前,执行首次排名,以从所述多个候选主题中选出一个或多个第二主题;响应于确定所述一个或多个第二主题均不满足特定标准,根据基于用户点击数据训练的所述VPCG模型来执行再次排名,其中,执行所述再次排名包括:根据基于用户点击数据训练的VPCG模型来确定所述查询和各个候选主题之间的相似度得分;以及基于所述相似度得分将所述多个候选主题排名。
第二特征,可与任何先前或以下特征组合,其中,所述用户点击数据包括来自多个用户的响应于多个查询的多个用户选择,所述多个用户选择各自包括相应的用户在基于所述用户查询提供给所述用户的多个候选主题中对与所述用户查询相关的主题的选择。
第三特征,可与任何先前或以下特征组合,还包括基于所述用户点击数据来训练所述VPCG模型,其中,训练所述VPCG模型包括:从所述用户点击数据中识别来自多个用户的多个查询;识别所述用户数据中来自所述多个用户的响应于所述多个查询的多个用户选择;确定所述多个查询各自的使用词汇表中多个单词元素表示的向量表示;以及确定所述多个候选主题各自的使用所述词汇表中所述多个单词元素表示的向量表示。
第四特征,可与任何先前或以下特征组合,其中,确定所述多个查询各自的使用所述词汇表中所述多个单词元素表示的向量表示包括,使用所述多个候选主题来表示所述多个查询中的每个查询;以及确定所述多个候选主题各自的使用所述词汇表中所述多个单词元素表示的向量表示包括,使用所述多个查询来表示所述多个候选主题中的每个候选主题。
第五特征,可与任何先前或以下特征组合,其中,使用所述多个候选主题来表示所述多个候选主题中的每个候选主题包括,通过根据以下等式的所述多个查询的加权和表示所述多个查询中的每个查询:
以及使用所述多个查询来表示所述多个查询中的每个查询包括,根据以下等式表示所述多个候选主题中的每个候选主题:
其中,表示第n次迭代中的主题dj的向量表示表示第n-1次迭代中的查询qi的向量表示;Ci,j表示所述用户点击数据中用户针对所述查询qi点击或选择所述主题dj的总数量;Q表示所述用户点击数据中用户查询的总数量,即对于qi,i=1,2,…,Q;D表示所述用户点击数据中主题的总数量,即对于dj,j=1,2,…,D。
第六特征,可与任何先前或以下特征组合,其中,根据基于用户点击数据训练的VPCG模型来确定所述查询和所述多个候选主题中的每个候选主题之间的相似度得分,包括:确定来自所述用户的所述查询的使用词汇表中多个单词元素表示的向量表示;确定所述多个候选主题各自的使用所述词汇表中所述多个单词元素表示的向量表示;以及计算所述查询的向量表示和所述多个候选主题各自的向量表示之间的所述相似度得分。
第七特征,可与任何先前或以下特征组合,其中,确定来自所述用户的所述查询的使用所述词汇表中所述多个单词元素表示的向量表示,包括:根据基于所述用户点击数据训练的ngram组来表示来自所述用户的所述查询。
第八特征,可与任何先前或以下特征组合,其中,所述ngram组包括该ngram组中每个ngram的基于所述用户点击数据中的多个查询各自的所述向量表示的、使用所述词汇表中所述多个单词元素表示的向量表示。
第九特征,可与任何先前或以下特征组合,其中,根据基于所述用户点击数据训练的ngram组来表示来自所述用户的所述查询,包括,根据以下等式将来自所述用户的所述查询表示为所述ngram组的加权和:
其中:uj表示ngram j的向量表示,j=1,…,g;g表示所述ngram组中的ngram的总数量;wj表示与uj对应的权重;Gqi是基于所述用户点击数据训练的所述ngram组。
在第二实施方式中,一种计算机实现的系统,包括:一个或多个计算机;以及与所述一个或多个计算机互操作地耦接的一个或多个计算机存储设备,其具有存储指令的有形的、非暂时性的、机器可读介质,当所述指令由所述一个或多个计算机执行时,执行包括以下的操作:在数据服务引擎处从用户接收查询,其中,所述查询包括字符串;所述数据服务引擎基于所述查询识别多个候选主题;根据基于用户点击数据训练的点击图上向量传播(VPCG)模型,来确定所述查询和所述多个候选主题中的每个候选主题之间的相似度得分;基于所述相似度得分将所述多个候选主题排名;从所述已排名的候选主题中选择一个或多个主题;以及经由用户界面(UI)输出所述选择的主题。
前述其它描述的实施方式可以各自可选地包括以下特征中的一个或多个:
第一特征,可与以下任何特征组合,还包括,在根据基于用户点击数据训练的点击图上向量传播(VPCG)模型来确定所述查询和所述多个候选主题中的每个候选主题之间的相似度得分之前,执行首次排名,以从所述多个候选主题中选出一个或多个第二主题;响应于确定所述一个或多个第二主题均不满足特定标准,根据基于用户点击数据训练的所述VPCG模型来执行再次排名,其中,执行所述再次排名包括:根据基于用户点击数据训练的VPCG模型来确定所述查询和各个候选主题之间的相似度得分;以及基于所述相似度得分将所述多个候选主题排名。
第二特征,可与任何先前或以下特征组合,其中,所述用户点击数据包括来自多个用户的响应于多个查询的多个用户选择,所述多个用户选择各自包括相应的用户在基于所述用户查询提供给所述用户的多个候选主题中对与所述用户查询相关的主题的选择。
第三特征,可与任何先前或以下特征组合,还包括基于所述用户点击数据来训练所述VPCG模型,其中,训练所述VPCG模型包括:从所述用户点击数据中识别来自多个用户的多个查询;识别所述用户数据中来自所述多个用户的响应于所述多个查询的多个用户选择;确定所述多个查询各自的使用词汇表中多个单词元素表示的向量表示;以及确定所述多个候选主题各自的使用所述词汇表中所述多个单词元素表示的向量表示。
第四特征,可与任何先前或以下特征组合,其中,确定所述多个查询各自的使用所述词汇表中所述多个单词元素表示的向量表示包括,使用所述多个候选主题来表示所述多个查询中的每个查询;以及确定所述多个候选主题各自的使用所述词汇表中所述多个单词元素表示的向量表示包括,使用所述多个查询来表示所述多个候选主题中的每个候选主题。
第五特征,可与任何先前或以下特征组合,其中,使用所述多个候选主题来表示所述多个候选主题中的每个候选主题包括,通过根据以下等式的所述多个查询的加权和表示所述多个查询中的每个查询:
以及使用所述多个查询来表示所述多个查询中的每个查询包括,根据以下等式表示所述多个候选主题中的每个候选主题:
其中,表示第n次迭代中的主题dj的向量表示表示第n-1次迭代中的查询qi的向量表示;Ci,j表示所述用户点击数据中用户针对所述查询qi点击或选择所述主题dj的总数量;Q表示所述用户点击数据中用户查询的总数量,即对于qi,i=1,2,…,Q;D表示所述用户点击数据中主题的总数量,即对于dj,j=1,2,…,D。
第六特征,可与任何先前或以下特征组合,其中,根据基于用户点击数据训练的VPCG模型来确定所述查询和所述多个候选主题中的每个候选主题之间的相似度得分,包括:确定来自所述用户的所述查询的使用词汇表中多个单词元素表示的向量表示;确定所述多个候选主题各自的使用所述词汇表中所述多个单词元素表示的向量表示;以及计算所述查询的向量表示和所述多个候选主题各自的向量表示之间的所述相似度得分。
第七特征,可与任何先前或以下特征组合,其中,确定来自所述用户的所述查询的使用所述词汇表中所述多个单词元素表示的向量表示,包括:根据基于所述用户点击数据训练的ngram组来表示来自所述用户的所述查询。
第八特征,可与任何先前或以下特征组合,其中,所述ngram组包括该ngram组中每个ngram的基于所述用户点击数据中的多个查询各自的所述向量表示的、使用所述词汇表中所述多个单词元素表示的向量表示。
第九特征,可与任何先前或以下特征组合,其中,根据基于所述用户点击数据训练的ngram组来表示来自所述用户的所述查询,包括,根据以下等式将来自所述用户的所述查询表示为所述ngram组的加权和:
其中:uj表示ngram j的向量表示,j=1,…,g;g表示所述ngram组中的ngram的总数量;wj表示与uj对应的权重;Gqi是基于所述用户点击数据训练的所述ngram组。
在第三实施方式中,一种非暂时性计算机可读介质,存储能够由计算机实现的系统执行的一个或多个指令以执行包括以下的操作:在数据服务引擎处从用户接收查询,其中,所述查询包括字符串;所述数据服务引擎基于所述查询识别多个候选主题;根据基于用户点击数据训练的点击图上向量传播(VPCG)模型,来确定所述查询和所述多个候选主题中的每个候选主题之间的相似度得分;基于所述相似度得分将所述多个候选主题排名;从所述已排名的候选主题中选择一个或多个主题;以及经由用户界面(UI)输出所述选择的主题。
前述其它描述的实施方式可以各自可选地包括以下特征中的一个或多个:
第一特征,可与以下任何特征组合,还包括,在根据基于用户点击数据训练的点击图上向量传播(VPCG)模型来确定所述查询和所述多个候选主题中的每个候选主题之间的相似度得分之前,执行首次排名以从所述多个候选主题中选出一个或多个第二主题;响应于确定所述一个或多个第二主题均不满足特定标准,根据基于用户点击数据训练的所述VPCG模型来执行再次排名,其中,执行所述再次排名包括:根据基于用户点击数据训练的VPCG模型来确定所述查询和各个候选主题之间的相似度得分;以及基于所述相似度得分将所述多个候选主题排名。
第二特征,可与任何先前或以下特征组合,其中,所述用户点击数据包括来自多个用户的响应于多个查询的多个用户选择,所述多个用户选择各自包括相应的用户在基于所述用户查询提供给所述用户的多个候选主题中对与所述用户查询相关的主题的选择。
第三特征,可与任何先前或以下特征组合,还包括基于所述用户点击数据来训练所述VPCG模型,其中,训练所述VPCG模型包括:从所述用户点击数据中识别来自多个用户的多个查询;识别所述用户数据中来自所述多个用户的响应于所述多个查询的多个用户选择;确定所述多个查询各自的使用词汇表中多个单词元素表示的向量表示;以及确定所述多个候选主题各自的使用所述词汇表中所述多个单词元素表示的向量表示。
第四特征,可与任何先前或以下特征组合,其中,确定所述多个查询各自的使用所述词汇表中所述多个单词元素表示的向量表示包括,使用所述多个候选主题来表示所述多个查询中的每个查询;以及确定所述多个候选主题各自的使用所述词汇表中所述多个单词元素表示的向量表示包括,使用所述多个查询来表示所述多个候选主题中的每个候选主题。
第五特征,可与任何先前或以下特征组合,其中,使用所述多个候选主题来表示所述多个候选主题中的每个候选主题包括,通过根据以下等式的所述多个查询的加权和表示所述多个查询中的每个查询:
以及使用所述多个查询来表示所述多个查询中的每个查询包括,根据以下等式表示所述多个候选主题中的每个候选主题:
其中,表示第n次迭代中的主题dj的向量表示表示第n-1次迭代中的查询qi的向量表示;Ci,j表示所述用户点击数据中用户针对所述查询qi点击或选择所述主题dj的总数量;Q表示所述用户点击数据中用户查询的总数量,即对于qi,i=1,2,…,Q;D表示所述用户点击数据中主题的总数量,即对于dj,j=1,2,…,D。
第六特征,可与任何先前或以下特征组合,其中,根据基于用户点击数据训练的VPCG模型来确定所述查询和所述多个候选主题中的每个候选主题之间的相似度得分,包括:确定来自所述用户的所述查询的使用词汇表中多个单词元素表示的向量表示;确定所述多个候选主题各自的使用所述词汇表中所述多个单词元素表示的向量表示;以及计算所述查询的向量表示和所述多个候选主题各自的向量表示之间的所述相似度得分。
第七特征,可与任何先前或以下特征组合,其中,确定来自所述用户的所述查询的使用所述词汇表中所述多个单词元素表示的向量表示,包括:根据基于所述用户点击数据训练的ngram组来表示来自所述用户的所述查询。
第八特征,可与任何先前或以下特征组合,其中,所述ngram组包括该ngram组中每个ngram的基于所述用户点击数据中的多个查询各自的所述向量表示的、使用所述词汇表中所述多个单词元素表示的向量表示。
第九特征,可与任何先前或以下特征组合,其中,根据基于所述用户点击数据训练的ngram组来表示来自所述用户的所述查询,包括,根据以下等式将来自所述用户的所述查询表示为所述ngram组的加权和:
其中:uj表示ngram j的向量表示,j=1,…,g;g表示所述ngram组中的ngram的总数量;wj表示与uj对应的权重;Gqi是基于所述用户点击数据训练的所述ngram组。
本文中描述的主题和功能性操作的实施方式可以在数字电子电路中、在有形体现的计算机软件或固件中,在包括本文中公开的结构及其结构等同物的计算机硬件中,或者它们中的一个或多个的组合中实现。所描述的主题的软件实施方式可以被实现为一个或多个计算机程序,即,在有形的、非暂态的、计算机可读的计算机存储介质上编码的一个或多个计算机程序指令,用于由计算机或计算机实现的系统执行或控制计算机或计算机实现的系统的操作。可选地或附加地,所述程序指令可以被编码在例如,机器生成的电、光或电磁信号等的人工生成的传播信号中/之上,所述人工生成的传播信号被生成以编码用于传输到适当的接收器装置以便由数据处理装置执行的信息。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或计算机存储介质的组合。配置一个或多个计算机意味着一个或多个计算机已经安装了硬件、固件或软件(或硬件、固件和软件的组合),使得当所述软件由一个或多个计算机执行时,执行特定的计算操作。
术语“实时”、“实时(快速)时间(RFT)”、“近实时(NRT)”、“准实时”或类似术语(如所属领域的技术人员所了解的)意指操作和响应在时间上接近,使得个体大体上同时感知到所述操作和所述响应发送。例如,在个人访问数据的操作之后,用以显示数据的响应(或启动显示)的时间差可以小于1毫秒、小于1秒、或小于5秒。尽管所请求的数据不需要被即时显示(或被启动以显示),但是考虑到所描述的计算系统的处理限制以及例如收集、精确测量、分析、处理、存储或发送数据所需的时间,在没有任何故意延迟的情况下显示(或被启动以显示)所请求的数据。
术语“数据处理装置”、“计算机”或“电子计算机设备”(或本领域普通技术人员所理解的等同物)指的是数据处理硬件。数据处理硬件包括用于处理数据的所有种类的设备、装置和机器,例如包括可编程处理器、计算机或多个处理器或计算机。所述设备还可以是或进一步包括专用逻辑电路,例如,中央处理单元(CPU)、FPGA(现场可编程门阵列)或ASIC(专用集成电路)。在一些实施方式中,计算机或计算机实现的系统或专用逻辑电路(或计算机或计算机实现的系统或专用逻辑电路的组合)可以是基于硬件或软件的(或基于硬件和软件两者的组合)。计算机可以可选地包括创建用于计算机程序的执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统或执行环境的组合的代码。本公开预期使用具有一些类型的操作系统的计算机或计算机实现的系统,例如Linux、UNIX、Windows、MAC OS、Android、IOS、其它操作系统或操作系统的组合。
计算机程序,也可被称为或描述为程序、软件、软件应用、单元、模块、软件模块、脚本、代码或其他组件,可以以任何形式的编程语言来编写,包括编译或演绎性语言、说明或程序性语言,并且计算机程序可以被配置为任何形式,包括例如在计算环境中使用的独立程序、模块、组件或子例程。计算机程序可以但非必须对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分中,例如,存储在标记语言文档中的一个或多个脚本;专用于所讨论的程序的单个文件或多个协同文件中,例如,存储一个或多个模块、子程序或代码部分的文件中。计算机程序可以被部署为在一个计算机上执行,或者在位于一个地点或分布在多个地点并通过通信网络互连的多个计算机上执行。
尽管可以示出了在各图中示出的程序的各部分为使用各种对象、方法或其它过程实现所描述的特征和功能的各个组件,例如单元或模块,但程序可以适当地包括多个子单元、子模块、第三方服务、组件、库和其他组件。相反,各种组件的特征和功能可以适当地被组合成单个组件。用于进行计算确定的阈值可以静态地、动态地、或静态和动态地确定。
所描述的方法、处理或逻辑流程表示与本公开一致的功能的一个或多个示例,并且不旨在将本公开限制于所描述或示出的实施方式,而是与符合所描述的原理和特征的最宽范围相一致。所描述的方法、处理或逻辑流程可以由一个或多个可编程计算机执行一个或多个计算机程序来执行,以通对输入数据进行操作并生成输出数据来执行功能。方法、处理或逻辑流程也可以由专用逻辑电路执行,并且设备也可以被实现为专用逻辑电路,例如CPU、FPGA或ASIC。
适于执行计算机程序的计算机可以基于通用微处理器或专用微处理器、两者、或其它种类的CPU。通常,CPU从存储器接收指令和数据,并将指令和数据写入存储器。计算机的基本元件是用于进行或执行指令的CPU,以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还包括或者可操作地耦接到用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘,耦接以从一个或多个大容量存储设备接收数据和/或向其传送数据。然而,计算机不需要具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器、或便携式存储器存储设备中。
用于存储计算机程序指令和数据的非暂时性计算机可读介质可以包括所有形式的永久性/非永久性或易失性/非易失性存储器、介质和存储器设备,包括例如半导体存储器设备,例如随机存取存储器(RAM)、只读存储器(ROM)、相变存储器(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)和闪存设备;磁性设备,例如磁带、盒式磁带、内部/可移动磁盘;磁光盘;以及光学存储设备,例如,数字通用/视频盘(DVD)、压缩盘(CD)-ROM、DVD+/-R、DVD-RAM、DVD-ROM、高分辨率/密度(HD)-DVD和蓝光/蓝光盘(BD),以及其它光学存储技术。存储器可以存储各种对象或数据,包括高速缓存、类、框架、应用、模块、备份数据、作业、网页模板、数据结构、数据库表、存储动态信息的储存库、以及包括任何参数、变量、算法、指令、规则、约束或引用的任何其它适当信息。另外,存储器可以包括任何其他适当的数据,例如日志、策略、安全或访问数据、或报告文件。处理器和存储器可以补充有专用逻辑电路或集成在专用逻辑电路中。
为了提供与用户的交互,在本文中描述的主题的实施方式可以在计算机上实现,该计算机具有:用于向用户显示信息的显示设备,例如,阴极射线管(CRT)、液晶显示器(LCD)、发光二极管(LED)或等离子体监视器以及键盘和用户可以用来向计算机提供输入的例如,鼠标、跟踪球或轨迹板等的指针设备。还可以使用触摸屏向计算机提供输入,诸如具有压力灵敏度的平板计算机表面、使用电容或电感的多触摸屏、或其它类型的触摸屏。可使用其它类型的设备来提供与用户的交互。例如,提供给用户的反馈可以是任何形式的感官反馈(例如视觉反馈、听觉反馈或触觉反馈或反馈类型的组合)。可以以任何形式接收来自用户的输入,包括声音、语音或触觉输入。此外,计算机可以通过向用户使用的客户端计算设备发送文档和从该设备接收文档来与用户交互(例如通过响应于从web浏览器接收的请求而向用户的移动计算设备上的web浏览器发送网页)。
术语“图形用户界面”或“GUI”可以单数或复数使用,以描述一个或多个图形用户界面和特定图形用户界面的每个显示。因此,GUI可以表示任何图形用户界面,包括但不限于web浏览器、触摸屏或处理信息并有效地向用户呈现信息结果的命令行界面(CLI)。一般而言,GUI可包括多个用户界面(UI)元素、与web浏览器相关联的某些或全部元素,诸如交互字段、下拉列表和按钮。这些UI元素和其它UI元素可以与web浏览器的功能相关或表示web浏览器的功能。
本文中描述的主题的实施方式可以在包括后端组件例如作为数据服务器的计算系统中、或者包括例如应用服务器的中间件组件的计算系统中、或者包括例如具有图形用户界面或Web浏览器的客户端计算机的前端组件的计算系统中、或者包括一个或多个这样的后端组件、中间件组件或前端组件的任何组合的计算系统中实现,其中用户可以通过图形用户界面或Web浏览器与本文中描述的主题的实施方式进行交互。系统的组件可以通过有线或无线数字数据通信(或数据通信的组合)的任何形式或介质(例如通信网络)来互连。通信网络的示例包括局域网(LAN)、无线电接入网(RAN)、城域网(MAN)、广域网(WAN)、微波接入全球互通(WIMAX)、使用例如802.11a/b/g/n或802.20(或802.11x和802.20的组合或与本公开一致的其它协议)的无线局域网(WLAN)、因特网的全部或一部分、或其它通信网络或通信网络的组合。例如,通信网络可以与网络节点之间的因特网协议(IP)分组、帧中继帧、异步传输模式(ATM)单元、语音、视频、数据或其它适当信息(或通信类型的组合)通信。
计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且通常通过通信网络交互。客户端和服务器的关系借助运行在各自的计算机上并且彼此具有客户端-服务器关系的计算机程序产生。
虽然本文包含许多具体实现细节,但是这些细节不应被解释为对任何发明构思的范围或对所要求保护的范围的限制,而应被解释为对特定发明构思的特定实施方式所特有的特征的描述。在单独实施方式的上下文中在本说明书中描述的某些特征也可以在单个实施方式中组合地实现。相反,在单个实施方式的上下文中描述的各种特征也可以在多个实施方式中单独地或以任何合适的子组合来实现。此外,尽管先前描述的特征可被描述为以某些组合起作用,甚至最初也这样要求保护,但是在一些情况下,来自所要求保护的组合的一个或多个特征可从该组合中去除,并且所要求保护的组合可针对子组合或子组合的变型。
已经描述了主题的特定实施方式。所描述的实施方式的其它实现、变更和置换在所附权利要求的范围内,这对于本领域技术人员来说是显而易见的。虽然在附图或权利要求中以特定顺序描述了操作,但是这不应当被理解为要求以所示的特定顺序或以顺序执行这样的操作,或者要求执行所有所示的操作(可以认为一些操作是可选的),以实现期望的结果。在某些情况下,可以认为多任务或并行过程(或多任务和并行过程的组合)可能是有利的,并且被适当地执行。
此外,在前述实施方式中描述的各种系统模块和组件的分离或集成不应理解为在所有实施方式中都需要这样的分离或集成,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件项中或者被打包到多个软件产品中。
因此,先前描述的示例实施方式不限定或约束本发明。在不脱离本发明的精神和范围的情况下,其它改变、替换和变更也是可能的。
此外,可认为任何要求保护的实施方式可应用于至少一种计算机实现方法;存储用于执行所述计算机实现方法的计算机可读指令的非暂态计算机可读介质;以及包括被配置成执行计算机实现方法或存储在非暂态计算机可读介质上的指令的与硬件处理器可互操作地耦接的计算机存储器的计算机系统。

Claims (20)

1.一种计算机实现的方法,包括:
在数据服务引擎处从用户接收查询,其中,所述查询包括字符串;
所述数据服务引擎基于所述查询识别多个候选主题;
根据基于用户点击数据训练的点击图上向量传播VPCG模型,来确定所述查询和所述多个候选主题中的每个候选主题之间的相似度得分;
基于所述相似度得分将所述多个候选主题排名;
从所述已排名的候选主题中选择一个或多个主题;以及
经由用户界面UI输出所述选择的主题。
2.如权利要求1所述的计算机实现的方法,还包括:
在根据基于用户点击数据训练的点击图上向量传播VPCG模型来确定所述查询和所述多个候选主题中的每个候选主题之间的相似度得分之前,执行首次排名,以从所述多个候选主题中选出一个或多个第二主题;
响应于确定所述一个或多个第二主题均不满足特定标准,根据基于用户点击数据训练的所述VPCG模型来执行再次排名,其中,执行所述再次排名包括:
根据基于用户点击数据训练的VPCG模型来确定所述查询和各个候选主题之间的相似度得分;以及
基于所述相似度得分将所述多个候选主题排名。
3.如权利要求1所述的计算机实现的方法,其中,
所述用户点击数据包括来自多个用户的响应于多个查询的多个用户选择,
所述多个用户选择各自包括相应的用户在基于所述用户查询提供给所述用户的多个候选主题中对与所述用户查询相关的主题的选择。
4.如权利要求1所述的计算机实现的方法,还包括基于所述用户点击数据来训练所述VPCG模型,其中,训练所述VPCG模型包括:
从所述用户点击数据中识别来自多个用户的多个查询;
识别所述用户数据中来自所述多个用户的响应于所述多个查询的多个用户选择;
确定所述多个查询各自的使用词汇表中多个单词元素表示的向量表示;以及
确定所述多个候选主题各自的使用所述词汇表中所述多个单词元素表示的向量表示。
5.如权利要求4所述的计算机实现方法,其中:
确定所述多个查询各自的使用所述词汇表中所述多个单词元素表示的向量表示包括,使用所述多个候选主题来表示所述多个查询中的每个查询;以及
确定所述多个候选主题各自的使用所述词汇表中所述多个单词元素表示的向量表示包括,使用所述多个查询来表示所述多个候选主题中的每个候选主题。
6.如权利要求5所述的计算机实现的方法,其中:
使用所述多个候选主题来表示所述多个候选主题中的每个候选主题包括,通过根据以下等式的所述多个查询的加权和表示所述多个查询中的每个查询:
以及
使用所述多个查询来表示所述多个查询中的每个查询包括,根据以下等式表示所述多个候选主题中的每个候选主题:
其中:
表示第n次迭代中的主题dj的向量表示;
表示第n-1次迭代中的查询qi的向量表示;
Ci,j表示所述用户点击数据中用户针对所述查询qi点击或选择所述主题dj的总数量;
Q表示所述用户点击数据中用户查询的总数量,即对于qi,i=1,2,…,Q;
D表示所述用户点击数据中主题的总数量,即对于dj,j=1,2,…,D。
7.如权利要求1所述的计算机实现的方法,其中,根据基于用户点击数据训练的VPCG模型来确定所述查询和所述多个候选主题中的每个候选主题之间的相似度得分,包括:
确定来自所述用户的所述查询的使用词汇表中多个单词元素表示的向量表示;
确定所述多个候选主题各自的使用所述词汇表中所述多个单词元素表示的向量表示;以及
计算所述查询的向量表示和所述多个候选主题各自的向量表示之间的所述相似度得分。
8.如权利要求7所述的计算机实现的方法,其中,确定来自所述用户的所述查询的使用所述词汇表中所述多个单词元素表示的向量表示,包括:
根据基于所述用户点击数据训练的ngram组来表示来自所述用户的所述查询。
9.如权利要求8所述的计算机实现的方法,其中,所述ngram组包括该ngram组中每个ngram的基于所述用户点击数据中的多个查询各自的所述向量表示的、使用所述词汇表中所述多个单词元素表示的向量表示。
10.如权利要求8所述的计算机实现的方法,其中,根据基于所述用户点击数据训练的ngram组来表示来自所述用户的所述查询包括,根据以下等式将来自所述用户的所述查询表示为所述ngram组的加权和:
其中:
uj表示ngram j的向量表示,j=1,…,g,
g表示所述ngram组中的ngram的总数量,
wj表示与uj对应的权重,
是基于所述用户点击数据训练的所述ngram组。
11.一种计算机实现的系统,包括:
一个或多个计算机;以及
与所述一个或多个计算机互操作地耦接的一个或多个计算机存储设备,其具有存储指令的有形的、非暂时性的、机器可读介质,当所述指令由所述一个或多个计算机执行时,执行包括以下的操作:
在数据服务引擎处从用户接收查询,其中,所述查询包括字符串;
所述数据服务引擎基于所述查询识别多个候选主题;
根据基于用户点击数据训练的点击图上向量传播VPCG模型,来确定所述查询和所述多个候选主题中的每个候选主题之间的相似度得分;
基于所述相似度得分将所述多个候选主题排名;
从所述已排名的候选主题中选择一个或多个主题;以及
经由用户界面UI输出所述选择的主题。
12.如权利要求11所述的计算机实现的系统,所述操作还包括:
在根据基于用户点击数据训练的点击图上向量传播VPCG模型来确定所述查询和所述多个候选主题中的每个候选主题之间的相似度得分之前,执行首次排名,以从所述多个候选主题中选出一个或多个第二主题;
响应于确定所述一个或多个第二主题均不满足特定标准,根据基于用户点击数据训练的所述VPCG模型来执行再次排名,其中,执行所述再次排名包括:
根据基于用户点击数据训练的VPCG模型来确定所述查询和各个候选主题之间的相似度得分;以及
基于所述相似度得分将所述多个候选主题排名。
13.如权利要求11所述的计算机实现的系统,其中,所述用户点击数据包括来自多个用户的响应于多个查询的多个用户选择,所述多个用户选择各自包括相应的用户在基于所述用户查询提供给所述用户的多个候选主题中对与所述用户查询相关的主题的选择。
14.如权利要求11所述的计算机实现的系统,还包括基于所述用户点击数据来训练所述VPCG模型,其中,训练所述VPCG模型包括:
从所述用户点击数据中识别来自多个用户的多个查询;
识别所述用户数据中来自所述多个用户的响应于所述多个查询的多个用户选择;
确定所述多个查询各自的使用词汇表中多个单词元素表示的向量表示;以及
确定所述多个候选主题各自的使用所述词汇表中所述多个单词元素表示的向量表示。
15.如权利要求11所述的计算机实现的系统,其中,根据基于用户点击数据训练的VPCG模型来确定所述查询和所述多个候选主题中的每个候选主题之间的相似度得分,包括:
确定来自所述用户的所述查询的使用词汇表中多个单词元素表示的向量表示;
确定所述多个候选主题各自的使用所述词汇表中所述多个单词元素表示的向量表示;以及
计算所述查询的向量表示和所述多个候选主题各自的向量表示之间的所述相似度得分。
16.一种非暂时性计算机可读介质,存储能够由计算机实现的系统执行的一个或多个指令以执行包括以下的操作:
在数据服务引擎处从用户接收查询,其中,所述查询包括字符串;
所述数据服务引擎基于所述查询识别多个候选主题;
根据基于用户点击数据训练的点击图上向量传播VPCG模型,来确定所述查询和所述多个候选主题中的每个候选主题之间的相似度得分;
基于所述相似度得分将所述多个候选主题排名;
从所述已排名的候选主题中选择一个或多个主题;以及
经由用户界面UI输出所述选择的主题。
17.如权利要求16所述的非暂时性计算机可读介质,所述操作还包括:
在根据基于用户点击数据训练的点击图上向量传播VPCG模型来确定所述查询和所述多个候选主题中的每个候选主题之间的相似度得分之前,执行首次排名,以从所述多个候选主题中选出一个或多个第二主题;
响应于确定所述一个或多个第二主题均不满足特定标准,根据基于用户点击数据训练的所述VPCG模型来执行再次排名,其中,执行所述再次排名包括:
根据基于用户点击数据训练的VPCG模型来确定所述查询和各个候选主题之间的相似度得分;以及
基于所述相似度得分将所述多个候选主题排名。
18.如权利要求16所述的非暂时性计算机可读介质,其中,所述用户点击数据包括来自多个用户的响应于多个查询的多个用户选择,所述多个用户选择各自包括相应的用户在基于所述用户查询提供给所述用户的多个候选主题中对与所述用户查询相关的主题的选择。
19.如权利要求16所述的非暂时性计算机可读介质,所述操作还包括基于所述用户点击数据来训练所述VPCG模型,其中,训练所述VPCG模型包括:
从所述用户点击数据中识别来自多个用户的多个查询;
识别所述用户数据中来自所述多个用户的响应于所述多个查询的多个用户选择;
确定所述多个查询各自的使用词汇表中多个单词元素表示的向量表示;以及
确定所述多个候选主题各自的使用所述词汇表中所述多个单词元素表示的向量表示。
20.如权利要求16所述的非暂时性计算机可读介质,其中,根据基于用户点击数据训练的VPCG模型来确定所述查询和所述多个候选主题中的每个候选主题之间的相似度得分,包括:
确定来自所述用户的所述查询的使用词汇表中多个单词元素表示的向量表示;
确定所述多个候选主题各自的使用所述词汇表中所述多个单词元素表示的向量表示;以及
计算所述查询的向量表示和所述多个候选主题各自的向量表示之间的所述相似度得分。
CN201880025735.6A 2018-10-24 2018-10-24 基于点击图上向量传播模型的智能客户服务 Active CN110582761B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2018/111714 WO2020082272A1 (en) 2018-10-24 2018-10-24 Intelligent customer services based on a vector propagation on a click graph model

Publications (2)

Publication Number Publication Date
CN110582761A true CN110582761A (zh) 2019-12-17
CN110582761B CN110582761B (zh) 2023-05-30

Family

ID=66850329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880025735.6A Active CN110582761B (zh) 2018-10-24 2018-10-24 基于点击图上向量传播模型的智能客户服务

Country Status (9)

Country Link
US (2) US10592555B1 (zh)
EP (1) EP3665598A1 (zh)
JP (1) JP6799152B1 (zh)
KR (1) KR102117796B1 (zh)
CN (1) CN110582761B (zh)
MY (1) MY195969A (zh)
PH (1) PH12019500886A1 (zh)
SG (1) SG11201903588RA (zh)
WO (1) WO2020082272A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11032217B2 (en) * 2018-11-30 2021-06-08 International Business Machines Corporation Reusing entities in automated task-based multi-round conversation
US10909317B2 (en) 2019-07-26 2021-02-02 Advanced New Technologies Co., Ltd. Blockchain-based text similarity detection method, apparatus and electronic device
US11947604B2 (en) * 2020-03-17 2024-04-02 International Business Machines Corporation Ranking of messages in dialogs using fixed point operations
US11327969B2 (en) * 2020-07-15 2022-05-10 Oracle International Corporation Term vector modeling of database workloads
JP7309669B2 (ja) * 2020-07-28 2023-07-18 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
KR102457985B1 (ko) * 2020-09-17 2022-10-31 주식회사 포티투마루 페러프레이저 모델을 이용한 질의 응답 검색 방법 및 검색 장치
KR102434294B1 (ko) * 2020-09-17 2022-08-19 주식회사 포티투마루 질의 응답을 위한 페러프레이저 모델 생성 방법, 장치, 및 시스템
CN112131491B (zh) * 2020-11-20 2021-02-26 震坤行网络技术(南京)有限公司 分层排序方法、计算设备和计算机可读存储介质
CN112329928B (zh) * 2020-12-30 2021-04-30 四川新网银行股份有限公司 基于异构模型的用户满意度分析方法
KR102389671B1 (ko) 2021-02-08 2022-04-25 주식회사 잡쇼퍼 인공지능 기반의 학업 탐구 주제 데이터베이스 생성 방법
US20230138579A1 (en) * 2021-10-29 2023-05-04 Microsoft Technology Licensing, Llc Anchor-based collaborative filtering

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7089226B1 (en) * 2001-06-28 2006-08-08 Microsoft Corporation System, representation, and method providing multilevel information retrieval with clarification dialog
CN1828609A (zh) * 2006-04-13 2006-09-06 北大方正集团有限公司 一种基于簇排列的面向主题或查询的多文档摘要方法
US20100114929A1 (en) * 2008-11-06 2010-05-06 Yahoo! Inc. Diverse query recommendations using clustering-based methodology
US20100114928A1 (en) * 2008-11-06 2010-05-06 Yahoo! Inc. Diverse query recommendations using weighted set cover methodology
US20110179081A1 (en) * 2010-01-19 2011-07-21 Maksims Ovsjanikov Personalized recommendation of a volatile item
US20110270828A1 (en) * 2010-04-29 2011-11-03 Microsoft Corporation Providing search results in response to a search query
US20120158738A1 (en) * 2010-12-15 2012-06-21 Microsoft Corporation Inference Indexing
US20120323828A1 (en) * 2011-06-17 2012-12-20 Microsoft Corporation Functionality for personalizing search results
CN103699625A (zh) * 2013-12-20 2014-04-02 北京百度网讯科技有限公司 基于关键词进行检索的方法及装置
CN104471568A (zh) * 2012-07-02 2015-03-25 微软公司 对自然语言问题的基于学习的处理
CN104765769A (zh) * 2015-03-06 2015-07-08 大连理工大学 一种基于词矢量的短文本查询扩展及检索方法
CN104899322A (zh) * 2015-06-18 2015-09-09 百度在线网络技术(北京)有限公司 搜索引擎及其实现方法
US20150339573A1 (en) * 2013-09-30 2015-11-26 Manyworlds, Inc. Self-Referential Semantic-based Method, System, and Device
CN108345672A (zh) * 2018-02-09 2018-07-31 平安科技(深圳)有限公司 智能应答方法、电子装置及存储介质
CN108804443A (zh) * 2017-04-27 2018-11-13 安徽富驰信息技术有限公司 一种基于多特征融合的司法类案搜索方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7693827B2 (en) * 2003-09-30 2010-04-06 Google Inc. Personalization of placed content ordering in search results
US7836058B2 (en) * 2008-03-27 2010-11-16 Microsoft Corporation Web searching
US8260664B2 (en) * 2010-02-05 2012-09-04 Microsoft Corporation Semantic advertising selection from lateral concepts and topics
US8762326B1 (en) 2010-09-23 2014-06-24 Google Inc. Personalized hot topics
WO2012153438A1 (ja) 2011-05-10 2012-11-15 住友電工ハードメタル株式会社 表面被覆切削工具
US8838564B2 (en) * 2011-05-19 2014-09-16 Yahoo! Inc. Method to increase content relevance using insights obtained from user activity updates
US9129606B2 (en) * 2011-09-23 2015-09-08 Microsoft Technology Licensing, Llc User query history expansion for improving language model adaptation
US9230026B2 (en) * 2013-03-14 2016-01-05 FortyTwo, Inc. Persistent search object in a method and apparatus for keeping and finding information
US9400840B2 (en) * 2013-03-25 2016-07-26 Salesforce.Com, Inc. Combining topic suggestions from different topic sources to assign to textual data items
US9489373B2 (en) * 2013-07-12 2016-11-08 Microsoft Technology Licensing, Llc Interactive segment extraction in computer-human interactive learning
US9892208B2 (en) * 2014-04-02 2018-02-13 Microsoft Technology Licensing, Llc Entity and attribute resolution in conversational applications
WO2015161338A1 (en) 2014-04-24 2015-10-29 Semantic Technologies Pty Ltd Ontology aligner method, semantic matching method and apparatus
US9679558B2 (en) * 2014-05-15 2017-06-13 Microsoft Technology Licensing, Llc Language modeling for conversational understanding domains using semantic web resources
US9471668B1 (en) 2016-01-21 2016-10-18 International Business Machines Corporation Question-answering system
CN106997379B (zh) * 2017-03-20 2020-08-04 杭州电子科技大学 一种基于图片文本点击量的相近文本的合并方法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7089226B1 (en) * 2001-06-28 2006-08-08 Microsoft Corporation System, representation, and method providing multilevel information retrieval with clarification dialog
CN1828609A (zh) * 2006-04-13 2006-09-06 北大方正集团有限公司 一种基于簇排列的面向主题或查询的多文档摘要方法
US20100114929A1 (en) * 2008-11-06 2010-05-06 Yahoo! Inc. Diverse query recommendations using clustering-based methodology
US20100114928A1 (en) * 2008-11-06 2010-05-06 Yahoo! Inc. Diverse query recommendations using weighted set cover methodology
US20110179081A1 (en) * 2010-01-19 2011-07-21 Maksims Ovsjanikov Personalized recommendation of a volatile item
US20110270828A1 (en) * 2010-04-29 2011-11-03 Microsoft Corporation Providing search results in response to a search query
US20120158738A1 (en) * 2010-12-15 2012-06-21 Microsoft Corporation Inference Indexing
US20120323828A1 (en) * 2011-06-17 2012-12-20 Microsoft Corporation Functionality for personalizing search results
CN104471568A (zh) * 2012-07-02 2015-03-25 微软公司 对自然语言问题的基于学习的处理
US20150339573A1 (en) * 2013-09-30 2015-11-26 Manyworlds, Inc. Self-Referential Semantic-based Method, System, and Device
CN103699625A (zh) * 2013-12-20 2014-04-02 北京百度网讯科技有限公司 基于关键词进行检索的方法及装置
CN104765769A (zh) * 2015-03-06 2015-07-08 大连理工大学 一种基于词矢量的短文本查询扩展及检索方法
CN104899322A (zh) * 2015-06-18 2015-09-09 百度在线网络技术(北京)有限公司 搜索引擎及其实现方法
US20160371379A1 (en) * 2015-06-18 2016-12-22 Baidu Online Network Technology (Beijing) Co., Ltd Search engine and method for implementing the same
CN108804443A (zh) * 2017-04-27 2018-11-13 安徽富驰信息技术有限公司 一种基于多特征融合的司法类案搜索方法
CN108345672A (zh) * 2018-02-09 2018-07-31 平安科技(深圳)有限公司 智能应答方法、电子装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DAWEI YIN: "Ranking Relevance in Yahoo Search", 《PROCEEDINGS OF THE 22ND ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING》 *
冯伟: "社交媒体中内容的标注与排序", 《中国博士学位论文全文数据库 信息科技辑》 *

Also Published As

Publication number Publication date
US10592555B1 (en) 2020-03-17
SG11201903588RA (en) 2020-05-28
EP3665598A4 (en) 2020-06-17
MY195969A (en) 2023-02-27
EP3665598A1 (en) 2020-06-17
US20200183985A1 (en) 2020-06-11
WO2020082272A1 (en) 2020-04-30
CN110582761B (zh) 2023-05-30
KR20200049696A (ko) 2020-05-08
KR102117796B1 (ko) 2020-06-02
PH12019500886A1 (en) 2019-06-17
JP6799152B1 (ja) 2020-12-09
JP2021501378A (ja) 2021-01-14
US10824679B2 (en) 2020-11-03

Similar Documents

Publication Publication Date Title
CN110582761B (zh) 基于点击图上向量传播模型的智能客户服务
US11423233B2 (en) On-device projection neural networks for natural language understanding
KR102354716B1 (ko) 딥 러닝 모델을 이용한 상황 의존 검색 기법
US9099083B2 (en) Kernel deep convex networks and end-to-end learning
US20230259784A1 (en) Regularized neural network architecture search
CN107066464B (zh) 语义自然语言向量空间
US10089580B2 (en) Generating and using a knowledge-enhanced model
US9811765B2 (en) Image captioning with weak supervision
US9477654B2 (en) Convolutional latent semantic models and their applications
US9336298B2 (en) Dialog-enhanced contextual search query analysis
US11550871B1 (en) Processing structured documents using convolutional neural networks
JP6734748B2 (ja) 情報ソースの情報ソース用言語を選択するためのコンピュータ実装方法、コンピュータ・システム、コンピュータ・プログラム製品
CN114365120A (zh) 减少的训练意图识别技术
US11561969B2 (en) Utilizing logical-form dialogue generation for multi-turn construction of paired natural language queries and query-language representations
GB2546360A (en) Image captioning with weak supervision
US20200293873A1 (en) Generating vector representations of documents
US11043215B2 (en) Method and system for generating textual representation of user spoken utterance
US20240013769A1 (en) Vocabulary selection for text processing tasks using power indices
US20220366133A1 (en) Training a Model in a Data-Scarce Environment Using Added Parameter Information
US20190147365A1 (en) Deep vector table machine systems
US11847424B1 (en) Natural language generation
US11921768B1 (en) Iterative theme discovery and refinement in text
CN115952852B (zh) 模型训练方法、文本检索方法、装置、电子设备和介质
US20230315999A1 (en) Systems and methods for intent discovery
CN117494815A (zh) 面向档案的可信大语言模型训练、推理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40019717

Country of ref document: HK

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20201014

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

Effective date of registration: 20201014

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant