CN111373395A - 基于层次聚类的人工智能系统和方法 - Google Patents

基于层次聚类的人工智能系统和方法 Download PDF

Info

Publication number
CN111373395A
CN111373395A CN201880043921.2A CN201880043921A CN111373395A CN 111373395 A CN111373395 A CN 111373395A CN 201880043921 A CN201880043921 A CN 201880043921A CN 111373395 A CN111373395 A CN 111373395A
Authority
CN
China
Prior art keywords
terms
artificial intelligence
determining
queries
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880043921.2A
Other languages
English (en)
Inventor
柳俊宏
王鹏
吴康康
王杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Publication of CN111373395A publication Critical patent/CN111373395A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • G06Q30/015Providing customer assistance, e.g. assisting a customer within a business location or via helpdesk
    • G06Q30/016After-sales

Abstract

用于分类客户查询的人工智能系统和方法。系统(100)包括通信接口(102),用于接收至少两个历史客户查询。系统(100)进一步包括处理器(104)。该处理器(104)被配置为将历史客户查询分割成至少两个词语并确定一组常用词语。该处理器(104)进一步被配置为使用一组常用词语过滤历史客户查询。该处理器(104)还被配置为通过对过滤后的历史客户查询进行分类来确定至少两个代表性主题,其中该分类采用层次聚类方法。该系统(100)还包括存储器(108),被配置为存储常用词语和代表性主题。

Description

基于层次聚类的人工智能系统和方法
技术领域
本申请涉及用于管理客户查询的人工智能(AI)系统和方法,更具体地,涉及用于基于层次聚类智能地分类客户查询的AI系统和方法。
背景技术
高质量的客户服务对几乎所有类型的企业都很重要,包括销售产品和提供服务的企业。客户服务通常是劳动密集型的,因此需要庞大的代表团队来满足带宽要求。自动化或部分自动化的客户服务系统已被实施来降低人力资本成本,同时提高服务带宽和速度。例如,自动客户服务系统可以同时处理多个客户查询,这样客户就不需要排队等候。
某些自动化客户服务系统可以在问答(QA)会话中智能地与客户通信,例如了解客户查询并提供响应以解决查询。对于有效处理QA会话的智能客户服务系统,系统必须准确地确定问题与哪个主题相关。例如,“我应该何时接收订单?”这一问题与“运送状态”的现有主题有关。
在现有系统中,通常基于大量QA数据来手动合成主题。该过程是劳动密集型的,效率低且容易出错。例如,不同的人对客户询问具有不同的主观理解,因此可能对相关主题做出不同的确定。又例如,手动合成的主题可能是不明确的,例如,主题可以映射到应该提供不同答案的两个不同场景。例如,银行业务环境中的“如何更改密码”可以包括两种需要不同答案的可能情况:(1)如何更改登录密码以及(2)如何更改现金预付密码。
诸如k均值聚类的分类方法已经应用于聚类客户查询以合成主题。然而,客户在相同背景下的查询(例如,打车服务)通常在语义上相似,并且不容易彼此区分。因此,应用简单的k均值聚类可能无法在聚类空间中“分离”这样的查询。
本申请的实施例通过提供人工智能系统和方法来解决上述问题,用于基于层次聚类来智能地学习客户查询。
发明内容
本申请的实施例提供了一种用于分类客户查询的人工智能系统。所述系统包括通信接口,用于接收至少两个历史客户查询。所述系统进一步包括处理器。所述处理器被配置为将所述历史客户查询分割成至少两个词语并在所述词语中确定一组常用词语。所述处理器进一步被配置为使用所述一组常用词语过滤所述历史客户查询。所述处理器还被配置为通过对所述过滤后的历史客户查询进行分类来确定至少两个代表性主题,其中所述分类应用层次聚类方法。所述系统还包括存储器,被配置为存储所述常用词语和所述代表性主题。
本申请的实施例还提供了一种用于分类客户查询的人工智能方法。所述方法包括由处理器接收至少两个历史客户查询并将所述历史客户查询分割成至少两个词语。所述方法进一步包括由所述处理器确定所述词语中的一组常用词语,以及由所述处理器使用所述一组常用词语来过滤所述历史客户查询。所述方法还包括由所述处理器通过对所过滤后的历史客户查询进行分类来确定至少两个代表性主题,其中所述分类应用层次聚类方法。所述方法进一步包括将所述常用词语和所述代表性主题存储在存储器中。
本申请的实施例进一步提供了一种其上存储指令的非暂时性计算机可读介质,当由处理器执行时,使所述处理器执行用于分类客户查询的人工智能方法。所述方法包括接收至少两个历史客户查询并将所述历史客户查询分割成至少两个词语。所述方法进一步包括确定所述词语中的一组常用词语,并使用所述一组常用词语过滤所述历史客户查询。所述方法还包括通过对所述过滤后的历史客户查询进行分类来确定至少两个代表性主题,其中所述分类应用层次聚类方法。
应当理解,前面的一般性描述和下面的详细描述都只是示例性和说明性的,并不是对要求保护的本发明的限制。
附图说明
图1示出了根据本申请实施例的用于分类客户查询的示例性AI系统的示意图。
图2示出了根据本申请实施例的用于分类客户查询的示例性AI方法的流程图。
图3示出了根据本申请实施例的用于分类客户查询的示例性AI方法的流程图。
图4示出了根据本申请实施例的用于理解新的客户查询的示例性方法的流程图。
具体实施方式
现在将详细参考示例性实施例,其示例在附图中示出。尽可能地,在整个附图中将使用相同的附图标记来表示相同或相似的部分。
出于解释的目的,可以在网约车平台(例如,DiDiTM在线)的背景下描述实施例。网约车平台可以从乘客接收打车服务请求,然后将该服务请求发送给至少一个运输服务提供者(例如,出租车司机、私家车主等)。司机和乘客可以各自通过安装在终端设备(例如,移动电话)上的应用程序进行通信。应用程序可以在终端设备上的显示区域内显示各种信息。例如,在乘客终端上,应用程序可以显示司机和/或车辆信息、行程信息、行程费用和导航地图等。在司机终端上,应用程序可以显示乘客信息、行程信息、行程费用和导航地图等。
乘客和司机可以通过安装在各自终端设备上的应用程序访问客户服务以进行各种查询。用户(乘客和/或司机)也可以访问平台提供者的网站上的客户服务。例如,乘客/司机可能忘记他们的打车账号登录并想重置他们的密码。此外,司机可能对提供运输服务的付款有疑问。乘客可能查询在服务车辆上丢失的物品。
虽然本申请中描述了与网约车平台相关的客户服务,可以预期地,本领域普通技术人员可以将所披露的系统和方法适用于其他环境中的客户服务,例如银行业务、电子商务、社交媒体、保险等。
图1示出了根据本申请实施例的用于分类客户查询的示例性AI系统100的框图。与本申请一致,AI系统100可以从一个或以上终端设备110接收Q&A数据103。终端设备110可以是移动电话、可穿戴设备、台式计算机、笔记本电脑、PDA等。在一些实施例中,AI系统100可以实现为网约车服务应用程序的一部分。在这种情况下,终端设备110可以是司机(“司机终端”)或乘客(“乘客终端”)使用的设备。
AI系统100可以过滤Q&A数据103以获取与特定上下文相关的客户查询,然后合成客户查询以获取至少两个主题。这里使用的“主题”是客户查询类别的描述。例如,主题可以是“更改密码”、“丢失物品”、“申请优惠券”、“缺少酬金”等。主题可以包含在使用不同单词和短语、不同句子结构和不同语法的各种客户查询中。为了从客户查询中合成主题,AI系统100可以在语义上对客户查询进行聚类,然后为每个查询聚类确定共同主题。AI系统100可以确定与分类后的主题相关的自动回答。因此,当接收到新的客户查询时,AI系统100可以确定与查询最相关的主题,并提供自动回答以响应该查询。
在一些实施例中,如图1所示,AI系统100可以包括通信接口102、处理器104、内存106和存储器108。在一些实施例中,AI系统100可以在单个设备中具有不同的模块,例如集成电路(IC)芯片(例如,实现为专用集成电路(ASIC)或现场可编程门阵列(FPGA)),或是具有专用功能的单独设备。在一些实施例中,A1系统100的一个或以上组件可以位于云中,或者可以替代地在单独的位置(诸如车辆或移动设备内)或分布的位置。AI系统100的组件可以在集成设备中,或者分布在不同的位置但通过网络(未示出)彼此通信。
通信接口102可以通过通信电缆、无线局域网(WLAN)、广域网(WAN)、诸如无线电波、蜂窝网络、和/或本地或短程无线网络(例如,蓝牙TM)的无线网或其他通信方法向诸如终端设备110的组件发送数据以及从组件接收数据。在一些实施例中,通信接口102可以包括集成服务数字网(ISDN)卡、电缆调制解调器、卫星调制解调器或调制解调器,以提供数据通信连接。又例如,通信接口102可以包括局域网(LAN)卡,以提供与兼容LAN的数据通信连接。通信接口102也可以实现无线链路。在这种实现中,通信接口102可以发送和接收携带表示各种类型信息的数字数据流的电信号、电磁信号或光信号。
与一些实施例一致,通信接口102可以从终端设备110接收诸如历史Q&A数据103之类的数据。或者,客户查询可以首先从终端设备110发送到中心数据库,并且通信接口102可以从中心数据库接收Q&A数据103。通信接口102还可以将接收的数据提供给内存106和/或存储器108以便存储或提供给处理器104以进行处理。
处理器104可以包括任何适当类型的通用或专用微处理器、数字信号处理器或微控制器。处理器104可以被配置为专用于客户服务或更具体地客户查询处理的单独处理器模块。或者,处理器104可以被配置为共用处理器模块,用于执行与客户查询处理无关的其他功能。
如图1所示,处理器104可以包括多个模块,例如数据清洗单元120、预处理单元122、频繁词语挖掘单元124、嵌入训练单元126、层次聚类单元128等。这些模块(以及任何相应的子模块或子单元)可以是处理器104的硬件单元(例如,集成电路的部分),其被设计用于与处理器104通过执行程序的至少一部分实现的其他组件或软件单元一起使用。程序可以存储在计算机可读介质上,并且当由处理器104执行时,可以执行一个或以上的功能。尽管图1示出了在一个处理器104内的所有单元120-128,但是可以预期地这些单元可以分布在彼此靠近或远离的多个处理器之间。
其中,处理器104可以被配置为合成客户查询以获取至少两个主题。图2示出了根据本申请实施例的用于分类客户查询的示例性AI方法200的流程图。将共同描述模块120-128和方法200。
Q&A数据103可以是包括客户查询和服务代表回答的客户服务对话数据。例如,对话可能与特定上下文相关,例如运输服务订单。Q&A数据103中的客户查询可以包括例如对订单数量的查询202、对缺失订单信息的查询204、对订单价格的查询206、对订单补偿的查询208以及对订单状态的查询210。例如,对订单数量的查询202可以包括关于其已发出的订单数量的乘客查询,或者在一段时间内(例如,一个月)关于其已完成的订单数量的司机查询。对缺失订单信息的查询204可以包括关于其已发出但在应用中找不到的订单的乘客查询。对订单价格的查询206可以包括乘客询问订单将花费多少钱或司机询问他将从订单中赚到多少钱。对订单补偿的查询208可以包括司机查询由于例如促销而可以从打车服务平台获得多少补偿。对订单状态的查询210可以包括关于所下订单状态的乘客查询或司机查询。
在一些实施例中,数据清洗单元120可以被配置为对Q&A数据103执行方法200的客户查询召回过程212。客户查询召回过程212也称为“数据清洗”过程。数据清洗单元120可以对从终端设备110接收的Q&A数据103进行采样以获得样本对话(例如,问题和回答)。在一些实施例中,采样可以随机地或根据某些标准执行,例如与某些乘客/司机、某些起点/目的地、某些时间段、某些地理区域等相关。
数据清洗单元120还可以基于样本对话来定义至少两个关键词,例如“订单”、“运输服务”、“状态”等。关键词可以是在特定上下文中的常用词语。使用这些定义的关键词,数据清洗单元120可以过滤Q&A数据103以去除与运输服务订单无关(例如,问候、投诉、个人身份识别等)的客户代表答案、客户查询。在一些实施例中,除了关键词之外,数据清洗单元120还可以应用额外的过滤器,例如客户查询的句子长度。因此,在对Q&A数据103进行关键词过滤之后,剩余数据仅包括与运输订单相关的客户查询。此过程称为客户查询召回。
可以将召回的查询提供给预处理单元122,在其中可以执行预处理过程214。预处理过程214可以包括若干子过程,例如将客户查询分割成多个词语、去除非信息性词语、以及用预设词语替换句子中的同义词语。在一些实施例中,预处理单元122可以将每个客户查询分割成几个词语。例如,“I really have no way to update my login password”可以分割成词语“I”、“really”、“have no way”、“to update”和“my login password”。
由于客户服务问答对话通常是非正式的,因此客户查询可能包含拼写错误、语法错误、不准确的表达或非信息性词语。在分割之后,预处理单元122可以识别分割后的词语中的非信息性词语,并将其从客户查询中去除。与本申请一致,非信息性词语是一种不具有实质意义的词语。例如,在上面的示例性客户查询中,词语“really”可以作为非信息性词语被去除。
在一些实施例中,预处理单元122还可以识别分割词语中的同义词语,并用预设词语替换它们。在一些实施例中,同义词语可以被识别为与预设词语同义(例如,具有相同或相似的语义含义)的词语。在其他一些实施例中,同义词语可以被识别为彼此同义。预设词语可以与所识别的同义词语之一完全相同或是不同的词语。例如,一个客户查询可能是“我无法更新我的登录密码”,另一个客户查询可能是“我不能更改我的登录密码”。在这种情况下,词语“无法”和“不能”是同义词语。词语“无法”可以用“不能”代替,或者两者都可以用预设词语“失败”替换。类似地,词语“更新”和“更改”也可以被认为是同义词语。“更新”可以被“更改”替换。
频繁词语挖掘单元124可以被配置为执行频繁词语过程216。在一些实施例中,频繁词语挖掘单元124可以使用频繁模式树(FP树)来确定在客户查询中常用词语。FP树是一种紧凑的结构,可以在数据库中存储关于频繁模式的定量信息。频繁词语挖掘单元124可以使用预处理后的客户查询作为输入(例如,交易数据库)来构建FP树。频繁词语挖掘单元124可以使用诸如FP增长算法的数据挖掘算法获取一组常用词语。
频繁词语挖掘单元124可以使用所获取的常用词语进一步过滤客户查询,类似于客户查询召回过程212。过滤(或召回)过程进一步细化数据,以便剩下的客户查询全部与一个或以上特定上下文相关。
嵌入训练单元126可以被配置为训练词嵌入。在自然语言处理(NLP)中,单词通常被映射到包含数值的向量中,以便机器能够理解它。词嵌入是一种映射,允许具有相似含义的单词具有相似的表示。可以使用各种机器学习方法来确定词嵌入,例如Word2Vec和FastText。例如,嵌入训练单元126可以使用从数据库210获得的训练样本(例如,历史客户查询)来训练FastText网络230。训练后的嵌入可以存储在数据库210或内存106/存储器108中,例如,作为查找表。因此,可以查找到单词的嵌入。
层次聚类单元128可以被配置为将层次聚类应用到由频繁词语挖掘单元124获取的客户查询上。在预处理过程214和频繁词语挖掘过程216之后,客户查询基本上是词语的集合,其中每个词语具有其对应的嵌入。层次聚类单元128可以查找由嵌入训练单元126训练后的每个词语的嵌入。对于每个客户查询(或句子),层次聚类单元128可以基于词语嵌入来确定整体嵌入表征。例如,整体嵌入表征可以被确定为客户查询的词语嵌入的平均嵌入。因此,每个客户查询可以与嵌入表征对应。
层次聚类单元128可以进一步执行聚类过程218。在一些实施例中,层次聚类单元128可以将客户查询的整体嵌入表征输入到用于聚类的层次聚类中。在一些实施例中,层次聚类可以是凝聚嵌套(AGNES)聚类。可以预期地,可以使用其他类型的聚类。AGNES算法构造了一个类簇的层次结构。最初,每个嵌入被其自身当成一个小类簇。类簇可以被合并直到类簇之间的距离满足预设要求。在每个阶段,可以组合两个最近的类簇以形成一个更大的类簇。层次聚类单元128可以确定在迭代结束时保留的每个聚类240的主题。
内存106和存储器108可以包括任何适当类型的大容量存储器,其被提供以存储处理器104可能需要操作的任何类型的信息。内存106和存储器108可以是易失性或非易失性、磁性、半导体、磁带、光学、可移动、不可移动或其他类型的存储设备或有形(即,非暂时性)计算机可读介质,包括但不限于ROM、闪存、动态RAM和静态RAM。内存106和/或存储器108可以被配置为存储一个或以上计算机程序,其可以由处理器104执行以实施本文披露的车辆数据估计功能。例如,内存106和/或存储器108可以被配置为存储可以由处理器104执行的程序,以使用模型来实时估计车辆数据,该模型使用计算的车辆数据自适应地更新。
内存106和/或存储器108可以进一步被配置为存储处理器104使用的信息和数据。例如,内存106和/或存储器108可以被配置为存储各种类型的数据(例如,Q&A数据103等)。内存106和/或存储108还可以存储中间数据,例如,由数据清洗单元120调用的客户查询、由预处理单元122生成的预处理数据、由频繁词语挖掘单元124过滤后的数据、通过嵌入训练单元126训练后的嵌入,以及包括由层次聚类单元128获取的主题的聚类结果等。在一些实施例中,非信息性词语和同义词语可以预先记录在表中并保存在内存106或存储器108中。例如,该表可以是应用于多个上下文的公共表,也可以是仅适用于特定上下文的私有表。内存106和/或存储器108可以另外存储包括其模型参数的各种学习模型。各种类型的数据可以永久存储、周期性地删除、或者在处理每个数据帧之后立即被忽略。
图3示出了根据本申请实施例的用于分类客户查询的示例性AI方法300的流程图。在一些实施例中,方法300可以由AI系统100实现,其中包括处理器104等。然而,方法300不限于该示例性实施例。方法300可以包括如下所述的步骤S302-S322。应当理解,一些步骤可以是可选的,以执行本文提供的披露。此外,一些步骤可以同时执行,或者以与图3中所示不同的顺序执行。
在步骤S302,AI系统100可以例如通过通信接口102接收包括历史客户查询的Q&A数据103。仅出于描述目的,在用户(例如,乘客或司机)丢失其密码的上下文中的历史客户查询将用于描述方法300。与此示例性上下文相关的客户查询可以包括几个主题,例如,用户丢失了他的“取款/支付密码”或者用户丢失了他的“登录密码”。当用户进行支付或从金融账户中提取现金时使用“提款/支付密码”,例如DiDiTM钱包。另一方面,“登录密码”用于访问帐户,例如DiDiTM应用程序。因此,虽然它们属于丢失密码的相同的一般主题,但它们应该被归类为不同的主题并且以不同的解决方案进行响应。
步骤S304-S308可以是由处理器104的数据清洗单元120执行的客户查询撤回过程212的一部分。在步骤S304,数据清洗单元120可以从接收到的Q&A数据中选择样本客户查询。在一些实施例中,可以随机选择样品查询。在步骤S306,数据清洗单元120可以从样本客户查询中确定一个或以上的关键词。例如,这种关键词可以是“密码”、“PIN”、“登录”、“取款”、“支付”、“帐户”、“忘记”、“更改”和“更新”等。
在步骤S308,数据清洗单元120可以使用关键词从接收的历史客户查询中召回历史客户查询的子集。在一些实施例中,数据清洗单元120可以使用关键词作为过滤器来获取查询子集。例如,以下客户查询可以在步骤S308中召回的子集中:
我忘记了提现的密码。
它总是告诉我我的登录密码不正确。
我没有看到“我忘记密码”链接。
但是问题是没有找到丢失密码的指南。
我无法设置我的付款PIN码。
如果忘记了以前的密码,该如何更改?
我点击了“我忘记了密码”链接,但显示验证码不正确。
我的提款密码丢失了。
步骤S310-S314可以是由预处理单元122执行的预处理过程214的一部分。在步骤S310,预处理单元122可以将子集中的每个历史客户查询分割成多个词语。可以使用各种现有的分词方法。对基于单词的语言(例如,英语、西班牙语、法语、德语等)的查询所使用的分割方法可以与基于字符的语言(例如,中文、日文、韩文等)的查询不同。例如,“I forgot myPIN for cash withdraw”可以分割为[I,forgot,my PIN,for,cash withdraw],以及“Mycash withdraw password is lost”可以分割分为[my,cash withdraw,password,is,lost]。
在步骤S312,预处理单元122可识别并去除非信息性词语。在一些实施例中,非信息性词语可以由存储在内存106/存储器108中的公共和/或私有的非信息性词语表来定义。预处理单元122可以在该表中查找客户查询中的非信息性词语,并且如果检测到则将其去除。例如,单词/词语如“for”、“is”、“but the problem is”、“there is”、“it says”等可以作为非信息性词语去除。
在步骤S314,预处理单元122可以识别客户查询中的同义词语,并用预设词语替换它们。预设词语可以是同义词语或单独的词语。在一些实施例中,同义词语可以由存储在内存106/存储器108中的公共和/或私有同义词语表来定义。预处理单元122可以从表中查找同义词语。例如,在上面召回的客户查询中,“password”和“PIN”可以是同义词语,且“lost”和“forgot”可以是同义词语。
步骤S316-S318可以是频繁词语挖掘单元124执行的频繁词语挖掘过程216的一部分。在步骤S316,频繁词语挖掘单元可以在预处理单元122预处理的客户查询中确定常用的一个或以上词语。在一些实施例中,可以使用FP树获取常用词语。例如,常用词语可以包括{password,can’t,change,forget/forgot,login}。在步骤S318,频繁词语挖掘单元124可以使用在步骤S316中确定的常用词语来过滤原始接收的历史客户查询。在一些实施例中,频繁词语挖掘单元124可以进一步组合或以其他方式合并包括常用词语的客户查询。
步骤S320-S322可以是由层次聚类单元124执行的聚类处理218的一部分。在步骤S320,层次聚类单元128可以计算过滤后的历史客户查询的嵌入表征。在一些实施例中,层次聚类单元128可以检索由嵌入训练单元126训练后的词嵌入。例如,可以使用神经网络(例如,FastText网络230)训练词嵌入,并将其保存在存储于内存106/存储器108中的查找表中。在一些实施例中,层次聚类单元128可以通过用词语查询查找表来检索词嵌入。在一些实施例中,层次聚类单元128可以基于客户查询中词语的词嵌入来确定每个客户查询的整体嵌入表征。例如,整体嵌入可以是词嵌入的平均值。
在步骤S320,层次聚类单元124可以将层次聚类应用于在步骤S318中确定的各个客户查询的嵌入表征。在一些实施例中,可以应用AGENS层次聚类。AGNES聚类方法使用了簇的层次结构。例如,在开始时,层次聚类单元124可以将每个嵌入自身视为小的聚类,然后将小的聚类迭代地合并成较大的聚类,直到聚类之间的距离满足预定要求。因此,层次聚类单元128可以确定每个与主题对应的聚类240。
在一些实施例中,层次聚类单元124可以从属于对应聚类的客户查询中确定每个主题的代表性查询。该类簇中剩余的客户查询成为同义查询。例如,表1示出了聚类结果、代表性查询和同义查询。
Figure BDA0002344466720000131
表1
图4示出了根据本申请实施例的用于理解新的客户查询的示例性方法400的流程图。方法400将新客查询分类成主题并基于该主题向客户提供自动回答。方法400可以由处理器104或图1中未示出的单独处理器实现。方法400可以包括如下所述的步骤S402-S408。应当理解,一些步骤可以是可选的,以执行本文提供的披露。此外,一些步骤可以同时执行,或者以与图4中所示不同的顺序执行。
在步骤S402,A1系统100可以接收新的客户查询。例如,新的客户查询可以在终端设备110上进行,并由AI系统100的通信接口102接收。例如,新的客户查询可以是“Iwant toupdate my login password but I don’t see a link for doing that。”
在步骤S404,AI系统100可以将新的客户查询分割成多个词语。在一些实施例中,可以使用与步骤S310相同或相似的分割技术。例如,上面的示例性客户查询可以分为[I,want to,update,my login password,but,I,don’t,see,a link,for doing that)。在一些实施例中,AI系统100可以对分割后的查询另外执行预处理步骤,例如去除非信息性词语并替换同义词语,例如步骤S312-314。例如,在这些另外的预处理步骤之后,分割后的查询可以变成[change,login password,no link]。
在步骤S406,AI系统100可以基于分割后的词语在代表性主题中确定新的客户查询的主题。在一些实施例中,可以使用神经网络,例如基于嵌入计算的神经网络来分类。在步骤S408,AI系统100可以基于主题自动向用户提供信息以响应新的客户查询。在一些实施例中,可以预设代表性主题的各种解决方案、指令或指南并将其存储在内存106/存储器108中。因此,AI系统100可以基于新的查询所属的主题检索那些解决方案、指令或指南,并作为回答提供给用户。在一些实施例中,AI系统100可以基于主题在运行中形成回答,并将其提供给用户。该信息可以在终端设备110上提供给用户。
本申请的另一方面涉及一种存储指令的非暂时性计算机可读介质,所述指令在被执行时使一个或以上处理器执行如上所述的方法。所述计算机可读介质包括易失性或非易失性、磁性、半导体、磁带、光学、可移动、不可移动或其他类型的计算机可读介质或计算机可读存储设备。例如,如本申请的计算机可读介质可以是存储设备或其上存储有计算机指令的存储模块。在一些实施例中,计算机可读介质可以是其上存储有计算机指令的磁盘或闪存驱动器。
显而易见,本领域普通技术人员可以对本申请的系统和相关方法进行各种修改和变化。考虑到本申请的系统和相关方法的说明书和实践,其他实施例对于本领域普通技术人员是显而易见的。
本申请中的说明书和示例的目的仅被认为是示例性的,真正的范围由以下权利要求及其等同物限定。

Claims (20)

1.一种用于分类客户查询的人工智能系统,包括:
通信接口,被配置为接收包括至少两个历史客户查询的数据;
处理器,被配置为:
将所述历史客户查询分割成至少两个词语;
确定所述词语中的一组常用词语;
使用所述一组常用词语过滤所述历史客户查询;以及
通过对所述过滤后的历史客户查询进行分类来确定至少两个代表性主题,其中所述分类应用层次聚类方法;以及
存储器,被配置为储存所述常用词语和所述代表性主题。
2.根据权利要求1所述的人工智能系统,其特征在于,所述处理器进一步被配置为:
基于所述历史客户查询确定至少一个关键词;以及
使用所述至少一个关键词识别所述历史客户查询的子集,
其中所述被分割的历史客户查询在所述识别的子集中。
3.根据权利要求1所述的人工智能系统,其特征在于,所述处理器进一步被配置为:
在确定所述一组常用词语之前,去除所述至少两个词语中的非信息性词语。
4.根据权利要求1所述的人工智能系统,其特征在于,所述处理器进一步被配置为:
在确定所述一组常用词语之前,用预设词语替换所述至少两个词语中的同义词语。
5.根据权利要求1所述的人工智能系统,其特征在于,使用FP树模型确定所述一组常用词语。
6.根据权利要求1所述的人工智能系统,其特征在于,所述处理器进一步被配置为:
确定每个过滤后的历史客户查询中每个词语的嵌入向量;以及
基于所述嵌入向量确定所述过滤后的历史客户查询的嵌入表征。
7.根据权利要求6所述的人工智能系统,其特征在于,所述处理器进一步被配置为,将所述层次聚类方法应用于与所述过滤后的历史客户查询对应的所述嵌入表征。
8.根据权利要求1所述的人工智能系统,其特征在于,所述层次聚类方法是AGNES方法。
9.根据权利要求1所述的人工智能系统,其特征在于,所述通信接口被配置为接收新的客户查询,其中所述处理器进一步被配置为:
在所述代表性主题中确定所述新的客户查询的主题;以及
基于所述主题提供信息以响应所述新的客户查询。
10.一种用于分类客户查询的人工智能方法,包括:
接收包括至少两个历史客户查询的数据;
通过处理器将所述历史客户查询分割成至少两个词语;
通过所述处理器确定所述词语中的一组常用词语;
通过所述处理器,使用所述一组常用词语过滤所述历史客户查询;
通过所述处理器,通过对所述过滤后的历史客户查询进行分类来确定至少两个代表性主题,其中所述分类应用层次聚类方法;以及
将所述常用词语和所述代表性主题存储在存储器中。
11.根据权利要求10所述的人工智能方法,进一步包括:
基于所述历史客户查询确定至少一个关键词;以及
使用所述至少一个关键词识别所述历史客户查询的子集,
其中所述被分割的历史客户查询在所述识别的子集中。
12.根据权利要求10所述的人工智能方法,进一步包括:
在确定所述一组常用词语之前,去除所述至少两个词语中的非信息性词语。
13.根据权利要求10所述的人工智能方法,进一步包括:
在确定所述一组常用词语之前,用预设词语替换所述至少两个词语中的同义词语。
14.根据权利要求10所述的人工智能方法,其特征在于,使用FP树模型确定所述一组常用词语。
15.根据权利要求10所述的人工智能方法,进一步包括:
确定每个过滤后的历史客户查询中每个词语的嵌入向量;以及
基于所述嵌入向量确定所述过滤后的历史客户查询的嵌入表征。
16.根据权利要求15所述的人工智能方法,进一步包括将所述层次聚类方法应用于与所述过滤后的历史客户查询对应的所述嵌入表征。
17.根据权利要求10所述的人工智能方法,其特征在于,所述层次聚类方法是AGNES方法。
18.根据权利要求10所述的人工智能方法,进一步包括:
接收新的客户查询;
在所述代表性主题中确定所述新的客户查询的主题;以及
基于所述主题提供信息以响应所述新的客户查询。
19.一种其上存储计算机程序的非暂时性计算机可读介质,其特征在于,当所述计算机程序由处理器执行时,执行用于分类客户查询的人工智能方法,包括:
接收包括至少两个历史客户查询的数据;
将所述历史客户查询分割成至少两个词语;
确定所述词语中的一组常用词语;
使用所述一组常用词语过滤所述历史客户查询;以及
通过对所述过滤后的历史客户查询进行分类来确定至少两个代表性主题,其中所述分类应用层次聚类方法。
20.根据权利要求19所述的非暂时性计算机可读介质,其特征在于,所述人工智能方法进一步包括,在确定所述一组常用词语之前,
去除所述至少两个词语中的非信息性词语;以及
在确定所述一组常用词语之前,用预设词语替换所述至少两个词语中的同义词语。
CN201880043921.2A 2018-08-31 2018-08-31 基于层次聚类的人工智能系统和方法 Pending CN111373395A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2018/103626 WO2020042164A1 (en) 2018-08-31 2018-08-31 Artificial intelligence systems and methods based on hierarchical clustering

Publications (1)

Publication Number Publication Date
CN111373395A true CN111373395A (zh) 2020-07-03

Family

ID=69643217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880043921.2A Pending CN111373395A (zh) 2018-08-31 2018-08-31 基于层次聚类的人工智能系统和方法

Country Status (2)

Country Link
CN (1) CN111373395A (zh)
WO (1) WO2020042164A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11562004B2 (en) * 2019-07-02 2023-01-24 Jpmorgan Chase Bank, N.A. Classifying and filtering platform data via k-means clustering
EP3901875A1 (en) * 2020-04-21 2021-10-27 Bayer Aktiengesellschaft Topic modelling of short medical inquiries
CN112270460B (zh) * 2020-09-30 2023-10-27 交通运输部规划研究院 一种基于多源数据的超重货车货源站点识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294341A (zh) * 2015-05-12 2017-01-04 阿里巴巴集团控股有限公司 一种智能问答系统及其主题判别方法和装置
CN107341157A (zh) * 2016-04-29 2017-11-10 阿里巴巴集团控股有限公司 一种客服对话聚类方法和装置
CN107562836A (zh) * 2017-06-07 2018-01-09 北京航空航天大学 基于主题模型和机器学习的回答者推荐方法
CN107844533A (zh) * 2017-10-19 2018-03-27 云南大学 一种智能问答系统及分析方法
US20180144047A1 (en) * 2016-11-22 2018-05-24 International Business Machines Corporation System and method for generating improved search queries from natural language questions

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8788517B2 (en) * 2006-06-28 2014-07-22 Microsoft Corporation Intelligently guiding search based on user dialog
US7877389B2 (en) * 2007-12-14 2011-01-25 Yahoo, Inc. Segmentation of search topics in query logs
CN108415980A (zh) * 2018-02-09 2018-08-17 平安科技(深圳)有限公司 问答数据处理方法、电子装置及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294341A (zh) * 2015-05-12 2017-01-04 阿里巴巴集团控股有限公司 一种智能问答系统及其主题判别方法和装置
CN107341157A (zh) * 2016-04-29 2017-11-10 阿里巴巴集团控股有限公司 一种客服对话聚类方法和装置
US20180144047A1 (en) * 2016-11-22 2018-05-24 International Business Machines Corporation System and method for generating improved search queries from natural language questions
CN107562836A (zh) * 2017-06-07 2018-01-09 北京航空航天大学 基于主题模型和机器学习的回答者推荐方法
CN107844533A (zh) * 2017-10-19 2018-03-27 云南大学 一种智能问答系统及分析方法

Also Published As

Publication number Publication date
WO2020042164A1 (en) 2020-03-05

Similar Documents

Publication Publication Date Title
CN110222167B (zh) 一种获取目标标准信息的方法和系统
US8650141B2 (en) System and method of segmenting and tagging entities based on profile matching using a multi-media survey
CN109934619A (zh) 用户画像标签建模方法、装置、电子设备及可读存储介质
TWI743773B (zh) 基於隱私資料保護的異常採集行為識別方法和裝置
CN111898031B (zh) 一种获得用户画像的方法及装置
CN107862339B (zh) 用于输出信息的方法和装置
CN110659318A (zh) 基于大数据的策略推送方法、系统及计算机设备
CN109118316B (zh) 线上店铺真实性的识别方法和装置
CN111373395A (zh) 基于层次聚类的人工智能系统和方法
CN110033120A (zh) 用于为商户提供风险预测赋能服务的方法及装置
CN101203847B (zh) 用于管理列表的系统和方法
CN105897704A (zh) 权限添加、权限添加请求的方法、装置和系统
CN113393306A (zh) 产品推荐方法、装置、电子设备及计算机可读介质
CN113393299A (zh) 推荐模型训练方法、装置、电子设备和存储介质
CN110399473B (zh) 为用户问题确定答案的方法和装置
CN117114514A (zh) 一种基于大数据的人才信息分析管理方法、系统及装置
CN115238688A (zh) 电子信息数据关联关系分析方法、装置、设备和存储介质
CN111666513A (zh) 页面处理方法、装置、电子设备及可读存储介质
CN111179055A (zh) 授信额度调整方法、装置和电子设备
CN112487284A (zh) 银行客户画像生成方法、设备、存储介质及装置
CN113327132A (zh) 多媒体推荐方法、装置、设备及存储介质
CN111309882B (zh) 用于实现智能客服问答的方法和装置
CN113159901A (zh) 融资租赁业务会话的实现方法和装置
CN115455151A (zh) 一种ai情绪可视化识别方法、系统及云平台
CN114612139A (zh) 一种广告方案处理方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination