CN110059155A

CN110059155A - 文本相似度的计算、智能客服系统的实现方法和装置

Info

Publication number: CN110059155A
Application number: CN201811548126.7A
Authority: CN
Inventors: 曹绍升; 张建海; 周俊
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-12-18
Filing date: 2018-12-18
Publication date: 2019-07-26

Abstract

说明书披露一种文本相似度的计算、智能客服系统的实现方法和装置。所述文本相似度的计算方法可包括：对待计算相似度的文本进行分词处理，将所述文本划分为一个或多个词语；采用cw2vec算法为分词后的文本生成对应的向量集合，所述向量集合包括所述文本中各词语的N元笔画向量；将待计算相似度的文本所对应的向量集合作为输入参数，采用IWAN算法以N元笔画为粒度计算所述文本之间的相似度。

Description

文本相似度的计算、智能客服系统的实现方法和装置

技术领域

本说明书涉及人工智能技术领域，尤其涉及一种文本相似度的计算、智能客服系统的实现方法和装置。

背景技术

相关技术中，很多场景都会用到文本相似度的计算，例如：问答系统、客服系统等。文本相似度计算的准确性将直接影响相关场景的用户体验。

发明内容

有鉴于此，本说明书提供一种文本相似度的计算、智能客服系统的实现方法和装置。

具体地，本说明书是通过如下技术方案实现的：

一种文本相似度的计算方法，包括：

对待计算相似度的文本进行分词处理，将所述文本划分为一个或多个词语；

采用cw2vec算法为分词后的文本生成对应的向量集合，所述向量集合包括所述文本中各词语的N元笔画向量；

将待计算相似度的文本所对应的向量集合作为输入参数，采用IWAN算法以N元笔画为粒度计算所述文本之间的相似度。

一种智能客服系统的实现方法，包括：

对用户提交的客服问题进行分词处理，将所述客服问题划分为一个或多个词语；

采用cw2vec算法为分词后的客服问题生成对应的向量集合，所述向量集合包括所述客服问题中各词语的N元笔画向量；

将所述客服问题的向量集合分别和各标准问题的向量集合作为输入参数，采用IWAN算法以N元笔画为粒度计算所述客服问题和所述标准问题的相似度；

确定与所述客服问题的相似度满足预定相似度条件的标准问题，并将所述标准问题的答案返回给所述用户。

一种文本相似度的计算装置，包括：

分词处理单元，对待计算相似度的文本进行分词处理，将所述文本划分为一个或多个词语；

向量生成单元，采用cw2vec算法为分词后的文本生成对应的向量集合，所述向量集合包括所述文本中各词语的N元笔画向量；

相似度计算单元，将待计算相似度的文本所对应的向量集合作为输入参数，采用IWAN算法以N元笔画为粒度计算所述文本之间的相似度。

一种智能客服系统的实现装置，包括：

分词处理单元，对用户提交的客服问题进行分词处理，将所述客服问题划分为一个或多个词语；

向量生成单元，采用cw2vec算法为分词后的客服问题生成对应的向量集合，所述向量集合包括所述客服问题中各词语的N元笔画向量；

相似度计算单元，将所述客服问题的向量集合分别和各标准问题的向量集合作为输入参数，采用IWAN算法以N元笔画为粒度计算所述客服问题和所述标准问题的相似度；

答案返回单元，确定与所述客服问题的相似度满足预定相似度条件的标准问题，并将所述标准问题的答案返回给所述用户。

一种文本相似度的计算装置，包括：

处理器；

用于存储机器可执行指令的存储器；

其中，通过读取并执行所述存储器存储的与文本相似度的计算逻辑对应的机器可执行指令，所述处理器被促使：

一种智能客服系统的实现装置，包括：

处理器；

用于存储机器可执行指令的存储器；

其中，通过读取并执行所述存储器存储的与智能客服系统的实现逻辑对应的机器可执行指令，所述处理器被促使：

由以上描述可以看出，本实施例采用cw2vec算法将划分后的每个词语转换为对应的向量，以N元笔画为粒度对词语进行拆分，采用N元笔画来刻画汉语本身的特性，对语义的刻画粒度更小，刻画能力更强，然后再将包括有N元笔画向量的文本向量集合作为输入参数，采用IWAN算法来计算文本相似度，从词语粒度到N元笔画粒度的相似度计算，可实现对句子相似度层面更底层的认知，相似度计算结果准确性更高。

附图说明

图1是本说明书一示例性实施例示出的一种文本相似度的计算的方法的流程示意图。

图2是本说明书一示例性实施例示出的一种IWAN算法架构图。

图3是本说明书一示例性实施例示出的一种智能客服系统的实现方法的流程示意图。

图4是本说明书一示例性实施例示出的一种用于文本相似度的计算/智能客服系统的实现装置的一结构示意图。

图5是本说明书一示例性实施例示出的一种文本相似度的计算装置的框图。

图6是本说明书一示例性实施例示出的一种智能客服系统的实现装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

请参考图1，所述文本相似度的计算可应用在服务器中，包括有以下步骤：

步骤102，对待计算相似度的文本进行分词处理，将所述文本划分为一个或多个词语。

为便于描述，可将待计算文本相似度的两个文本称为第一文本和第二文本。

在本实施例中，可分别对第一文本和第二文本进行分词处理，通过分词处理，可将所述第一文本和第二文本分别划分为一个或多个词语。

例如，可采用相关技术中提供的分词开源工具，诸如ICTCLAS、SCWS等进行分词处理，当然，也可采用自行开发的工具对待计算相似度的文本进行分词处理，本说明书对此不作特殊限制。

步骤104，采用cw2vec算法为分词后的文本生成对应的向量集合，所述向量集合包括所述文本中各词语的N元笔画向量。

在本实施例中，可采用cw2vec算法为分词后的文本所包括的每个词语生成对应的词向量和N元笔画向量，得到所述文本对应的向量集合。其中，所述N元笔画向量是将所述词语基于笔画进行拆分后，连续N个笔画对应的向量。所述连续N个笔画可能是偏旁，也可能是汉字，还可能是一个非人为总结的表义结构，所述连续N个笔画可以更好的补充中文词语的语义。

上述N的取值可预先设置，通常是一个区间，例如3≤N≤5，可表示N的取值分别为3、4和5。

以第一文本为例，假设在分词处理后，第一文本包括词语“大人”，采用cw2vec算法，可将“大人”按照笔画拆分为“一”、“丿”、“丿”和

表1

请参考表1，当N的取值是3时，词语“大人”的3元笔画包括表1所示的3种情况，采用cw2vec算法，可分别生成上述各情况下笔画对应的向量，得到3个向量。

表2

请参考表2，当N的取值是4时，词语“大人”的4元笔画包括表2所示的两种情况，采用cw2vec算法，可分别生成上述两种情况下笔画对应的向量，得到2个向量。

假设N的取值是3和4，则采用cw2vec算法，可生成词语大人所对应的一个词向量和5个N元笔画向量，得到词语大人对应的6个向量。

在本实施例中，采用基于汉字笔画信息的中文词向量cw2vec算法为词语生成对应的向量集合，可有效提高中文语言处理的准确度。

步骤106，将待计算相似度的文本所对应的向量集合作为输入参数，采用IWAN算法以N元笔画为粒度计算所述文本之间的相似度。

基于前述步骤104，在得到第一文本和第二文本对应的向量集合后，可将这两个文本的向量集合作为输入参数，采用IWAN(Inter-Weighted Alignment Network)算法计算第一文本和第二文本之间的文本相似度。

请参考图2，图2实线框流程部分是IWAN算法架构，虚线框框出的是分词后的文本经cw2vec算法处理后得到的向量集合。

请继续参考图2，可将第一文本和第二文本对应的向量集合作为输入参数，采用IWAN算法，所述向量集合首先进行双层LSTM(Long Short-Term Memory，长短期记忆网络)处理，可得到每个文本对应的文本向量。

例如，经左侧双层LSTM处理后，得到第一文本的文本向量。

双层LSTM输出的文本向量可作为3个网络层的输入参数，分别为：Self-AttentionLayer、Similarity Matrix&Alignment Layer和Inter-Weighted Layer。

其中，Self-Attention Layer可用于找出文本中重要的词语和N元笔画，所述重要的词语和N元笔画通常是对文本语义有影响的词语。

例如，假设第一文本是“发什么快递呀？”，这条文本中重要的词语包括“发”、“什么”和“快递”，而“呀”是语气词，不影响文本语义，因此“呀”不是重要词语。

本实施例采用cw2vec算法对词语进行向量转换，可将词语以N元笔画为粒度进行拆分，再通过Self-Attention Layer可找出对语义有影响的词语和N元笔画，由于拆分粒度更小，所以对汉语语义的刻画能力更强。

Similarity Matrix&Alignment Layer可对第一文本和第二文本中相似的词语和N元笔画进行对齐，进而方便后续处理。

Inter-Weighted Layer可用于确定第一文本和第二文本中各词语和N元笔画的权重。

Self-Attention Layer、Similarity Matrix&Alignment Layer和Inter-Weighted Layer的输出结果汇总到Full Connection Layer，并通过Softmax计算得到第一文本和第二文本的相似度。

所述智能客服系统可应用于电商平台、保险公司、医院等，可用于自动回复用户咨询的问题。

在实现智能客服系统时，通常会预先设置标准问题及其对应的答案。以电商平台为例，通常以商户为单位进行标准问题和对应答案的设置。

例如，标准问题为“发什么快递”，对应的答案是“默认百世汇通”。

再例如，标准问题为“什么时候发货”，对应的答案是“下单后24小时内发货”等。

请参考图3，所述智能客服系统的实现方法可包括以下步骤：

步骤302，对用户提交的客服问题进行分词处理，将所述客服问题划分为一个或多个词语。

在本实施例中，可将用户提交的问题称为客服问题。在接收到所述客服问题后，可对所述客服问题进行分词划分，将所述客服问题划分为一个或多个词语。

步骤304，采用cw2vec算法为分词后的客服问题生成对应的向量集合，所述向量集合包括所述客服问题中各词语的N元笔画向量。

在本实施例中，前述步骤302的分词方法和本步骤304中的cw2vec算法的具体实现方法可参考前述图1所示的实施例，本说明书在此不再一一赘述。

步骤306，将所述客服问题的向量集合分别和各标准问题的向量集合作为输入参数，采用IWAN算法以N元笔画为粒度计算所述客服问题和所述标准问题的相似度。

在本实施例中，所述标准问题的向量集合可基于cw2vec算法生成。

在一个例子中，可预先生成各标准问题对应的向量集合，在生成客服问题的向量集合后，获取各标准问题的向量集合，然后将所述客服问题的向量集合分别和各个标准问题的向量集合作为输入参数，采用IWAN算法进行相似度计算。

例如，可在商户设置标准问题及其对应的答案后，为所述标准问题生成对应的向量集合。

在其他例子中，也可定期为本周期内新设置的标准问题生成对应的向量集合。若用户提交客服问题时，存在尚未生成向量集合的标准问题，则可进行向量集合的生成，本说明书对此不作特殊限制。

在本实施例中，可计算所述客服问题与每个标准问题的相似度，也可以在进行相似度计算之前，对标准问题进行筛选，然后计算所述客服问题与筛选后的标准问题的相似度。

例如，在进行相似度计算之前，可判断客服问题与每个标准问题的词语匹配数量，过滤掉词语匹配数量不满足条件的标准问题。

	分词后的词语
		客服问题	词语1-词语8
标准问题A	词语1-词语5
		标准问题B	词语10-词语13
标准问题C	词语2-词语5

表3

举例来说，请参考表3，假设某客服问题包括8个词语，分别为词语1-词语8，该客服问题与标准问题A的词语匹配数量是5，这5个匹配的词语分别为词语1-词语5；该客服问题与标准问题B的词语匹配数量是0，即客服问题和标准问题B之间没有匹配的词语；该客服问题与标准问题C的词语匹配数量是4，这4个匹配的词语分别为词语2-词语5。

在这个例子中，可将词语匹配数量的阈值设置为0，与客服问题词语匹配数量是0的标准问题B过滤掉，进而计算客服问题和标准问题A和标准问题B的相似度。

通过标准问题的过滤，可有效提高相似度计算速率，减少设备的处理压力。

当然，在其他例子中，也可以采用其他方式对标准问题进行过滤，本说明书对此不作特殊限制。

在本实施例中，客服问题与标准问题的相似度计算方法可参考前述图1所示的实施例，本说明书在此不再一一赘述。

步骤308，确定与所述客服问题的相似度满足预定相似度条件的标准问题，并将所述标准问题的答案返回给所述用户。

在本实施例中，所述相似度条件可预先设置，例如，所述相似度条件可以是相似度大于90％的最大值等。

请继续参考表3的示例，假设经相似度计算得到上述客服问题与标准问题A的相似度是93％，与标准问题C的相似度是90.5％。客服问题与标准问题A和标准问题C的相似度均大于相似度阈值90％，且与标准问题A的相似度最大，则可将标准问题A对应的答案返回给用户。

在本实施例中，若不存在与客服问题的相似度满足相似度条件的标准问题，可转人工客服进行处理。

由以上描述可以看出，本实施例在接收到用户提交的客服问题后，可采用cw2vec算法结合IWAN算法的方式计算客服问题与标准问题的相似度，大大提高相似度计算的准确性，然后可将相似度满足预定相似度条件的标准问题的答案返回给用户，提升智能客服应答的准确性，提升用户的客服使用体验。

可选的，在其他例子中，在采用cw2vec算法结合IWAN算法计算客服问题和标准问题的相似度之前，还可先根据客服问题的分词结果判断所述客服问题与各标准问题之间的词语匹配率。所述词语匹配率可等于所述客服问题和标准问题匹配的词语数量与所述客服问题的词语总数量的商值。

当存在词语匹配率满足预定匹配条件的标准问题时，可直接将该标准问题的答案返回给用户，无需再进行相似度的计算。

当不存在词语匹配率满足预定匹配条件的标准问题时，可执行采用cw2vec算法为分词后的客服问题生成对应的向量集合，并采用IWAN算法计算所述客服问题和标准问题的相似度的步骤。

上述匹配条件可预先设置，例如，词语匹配率大于85％，且词语匹配率最大等。

仍以表3的示例为例，客服问题与标准问题A的词语匹配率是5/8，客服问题与标准问题C的词语匹配率是4/8，均不满足匹配条件，则可采用前述图3所示实施例的方式来进行相似度的计算。

本实施例在进行客服问题和标准问题之间的相似度计算前，可采用词语匹配率等方式为客服问题查找对应的答案，从而实现对客服问题的过滤，无需对所有客服问题都进行相似度的计算，可有效节省设备资源。

值得注意的是，上述智能客服系统的实现方案还可应用在问答系统等场景，本说明书对此不作特殊限制。

与前述文本相似度的计算方法的实施例相对应，本说明书还提供了文本相似度的计算装置的实施例。

本说明书文本相似度的计算装置的实施例可以应用在服务器上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在服务器的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图4所示，为本说明书文本相似度的计算装置所在服务器的一种硬件结构图，除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的服务器通常根据该服务器的实际功能，还可以包括其他硬件，对此不再赘述。

请参考图5，所述文本相似度的计算装置500可以应用在前述图4所示的服务器中，包括有：分词处理单元501、向量生成单元502以及相似度计算单元503。

其中，分词处理单元501，对待计算相似度的文本进行分词处理，将所述文本划分为一个或多个词语；

向量生成单元502，采用cw2vec算法为分词后的文本生成对应的向量集合，所述向量集合包括所述文本中各词语的N元笔画向量。

相似度计算单元503，将待计算相似度的文本所对应的向量集合作为输入参数，采用IWAN算法以N元笔画为粒度计算所述文本之间的相似度。

请参考图6，所述智能客服系统的实现装置600也可以应用在前述图4所示的服务器中，包括有：分词处理单元601、向量生成单元602、相似度计算单元603、答案返回单元604以及匹配率计算单元605。

其中，分词处理单元601，对用户提交的客服问题进行分词处理，将所述客服问题划分为一个或多个词语；

向量生成单元602，采用cw2vec算法为分词后的客服问题生成对应的向量集合，所述向量集合包括所述客服问题中各词语的N元笔画向量；

相似度计算单元603，将所述客服问题的向量集合分别和各标准问题的向量集合作为输入参数，采用IWAN算法以N元笔画为粒度计算所述客服问题和所述标准问题的相似度；

答案返回单元604，确定与所述客服问题的相似度满足预定相似度条件的标准问题，并将所述标准问题的答案返回给所述用户。

匹配率计算单元605，根据所述客服问题的分词结果判断所述客服问题与各标准问题之间的词语匹配率；

所述向量生成单元602，在不存在词语匹配率满足预定匹配条件的标准问题时，执行采用cw2vec算法为分词后的客服问题生成对应的向量集合的步骤。

可选的，所述答案返回单元604，在存在词语匹配率满足预定匹配条件的标准问题时，将所述标准问题对应的答案返回给所述用户。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

与前述文本相似度的计算方法的实施例相对应，本说明书还提供一种文本相似度的计算装置，该装置包括：处理器以及用于存储机器可执行指令的存储器。其中，处理器和存储器通常借由内部总线相互连接。在其他可能的实现方式中，所述设备还可能包括外部接口，以能够与其他设备或者部件进行通信。

在本实施例中，通过读取并执行所述存储器存储的与文本相似度的计算逻辑对应的机器可执行指令，所述处理器被促使：

与前述智能客服系统的实现方法的实施例相对应，本说明书还提供一种智能客服系统的实现装置，该装置包括：处理器以及用于存储机器可执行指令的存储器。其中，处理器和存储器通常借由内部总线相互连接。在其他可能的实现方式中，所述设备还可能包括外部接口，以能够与其他设备或者部件进行通信。

在本实施例中，通过读取并执行所述存储器存储的与智能客服系统的实现逻辑对应的机器可执行指令，所述处理器被促使：

可选的，所述处理器还被促使：

根据所述客服问题的分词结果判断所述客服问题与各标准问题之间的词语匹配率；

当不存在词语匹配率满足预定匹配条件的标准问题时，执行采用cw2vec算法为分词后的客服问题生成对应的向量集合的步骤。

可选的，所述处理器还被促使：

当存在词语匹配率满足预定匹配条件的标准问题时，将所述标准问题对应的答案返回给所述用户。

与前述文本相似度的计算方法的实施例相对应，本说明书还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现以下步骤：

与前述智能客服系统的实现方法的实施例相对应，本说明书还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现以下步骤：

可选的，还包括：

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述仅为本说明书的较佳实施例而已，并不用以限制本说明书，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书保护的范围之内。

Claims

1.一种文本相似度的计算方法，包括：

2.根据权利要求1所述的方法，

所述N元笔画向量是将所述词语基于笔画进行拆分后，连续N个笔画对应的向量。

3.一种智能客服系统的实现方法，包括：

4.根据权利要求3所述的方法，还包括：

5.根据权利要求4所述的方法，还包括：

6.一种文本相似度的计算装置，包括：

7.一种智能客服系统的实现装置，包括：

8.根据权利要求7所述的装置，还包括：

匹配率计算单元，根据所述客服问题的分词结果判断所述客服问题与各标准问题之间的词语匹配率；

所述向量生成单元，在不存在词语匹配率满足预定匹配条件的标准问题时，执行采用cw2vec算法为分词后的客服问题生成对应的向量集合的步骤。

9.根据权利要求8所述的装置，

所述答案返回单元，在存在词语匹配率满足预定匹配条件的标准问题时，将所述标准问题对应的答案返回给所述用户。

10.一种文本相似度的计算装置，包括：

处理器；

用于存储机器可执行指令的存储器；

11.一种智能客服系统的实现装置，包括：

处理器；

用于存储机器可执行指令的存储器；