CN112599120A

CN112599120A - 基于自定义加权的wmd算法的语意确定方法及装置

Info

Publication number: CN112599120A
Application number: CN202011448591.0A
Authority: CN
Inventors: 林文升; 邵磊; 邱硕
Original assignee: Shanghai Zhongtongji Network Technology Co Ltd
Current assignee: Shanghai Zhongtongji Network Technology Co Ltd
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2021-04-02

Abstract

本发明涉及物流快递技术领域，具体涉及一种基于自定义加权的WMD算法的语意确定方法及装置。本申请提供的基于自定义加权的WMD算法的语意确定方法，应用于快递领域，包括：获取快递咨询领域，咨询话语中词的权重值；将得到的权重，通过重写WMD基础算法的方式最后加入到计算中，进行WMD算法的自定义加权；基于加权的WMD算法，确定快递咨询语音与预设的句子的距离关系；基于所述距离关系确定快递咨询语音的实际含义。

Description

基于自定义加权的WMD算法的语意确定方法及装置

技术领域

本发明涉及物流快递技术领域，具体涉及一种基于自定义加权的WMD算法的语意确定方法及装置。

背景技术

在快递的业务售后的客服场景中,会出现客户前来向客服机器人咨询快件问题，比如:“你好，我比较急用，想催快递”，其中会有一些词在通用领域不重要,但是在快递咨询领域中很重要比如“催快递”,从而通用领域的语义距离比较算法计算结果不准确。

发明内容

有鉴于此，提供一种基于自定义加权的WMD算法的语意确定方法及装置，以解决相关技术中的问题。

本发明采用如下技术方案：

第一方面，本发明实施例提供了一种基于自定义加权的WMD算法的语意确定方法，应用于快递领域包括：

获取快递咨询领域，咨询话语中词的权重值；

将得到的权重，通过重写WMD基础算法的方式最后加入到计算中，进行WMD算法的自定义加权；

基于加权的WMD算法，确定快递咨询语音与预设的句子的距离关系；

基于所述距离关系确定快递咨询语音的实际含义。

可选的，所述获取快递咨询领域，咨询话语中词的权重值，包括：

通过在线客服收集海量的客服与客户的对话内容；

通过对于在线客服系统收集到的海量对话内容进行TF-IDF算法计算得到咨询话语中词的权重值。

可选的，所述获取快递咨询领域，咨询话语中词的权重值，还包括：

通过人工排查的方式进一步的修改和确定咨询话语中词的权重值。

可选的，所述基于加权的WMD算法，确定快递咨询语音与预设的句子的距离关系，包括：

用归一化词袋模型方法来分别表示快递咨询语音和预设句子；

使用word2vec embedding算法进行编码，来表示快递咨询语音和预设句子中的每个词；

确定快递咨询语音和预设句子中各个词的转移代价；

基于加权后的WMD算法确定快递咨询语音与各个预设句子之间的全局转移代价；所述全局转移代价属于所述距离关系；

基于全局转移代价确定与所述快递咨询语音最接近的预设句子，进而确定所述快递咨询语音的意思。

可选的，编码选用的方式是skip-gram方式进行词义编码训练。

可选的，所述将得到的权重，通过重写WMD基础算法的方式最后加入到计算中，进行WMD算法的自定义加权，包括：

改写所述WMD基础算法进行全局转移代价计算，使用各个词的转移代价时，各个词的转移代价的权重。

可选的，还包括：

获取用户的反馈；所述反馈包括基于自定义加权的WMD算法的确定语意在实际应用中用户提出的对快递咨询语音语意的确定不正确的投诉；

基于反馈时的语音进行人工标记；

通过对于在线客服系统收集到的海量对话内容和携带有人工标记的语音进行TF-IDF算法计算得到咨询话语中词的权重值。

将得到的新的权重，通过重写WMD基础算法的方式最后加入到计算中，进行WMD算法的自定义加权。

第二方面，本申请提供的基于自定义加权的WMD算法的语意确定装置，包括：

获取模块，用于获取快递咨询领域，咨询话语中词的权重值；

重写模块，用于将得到的权重，通过重写WMD基础算法的方式最后加入到计算中，进行WMD算法的自定义加权；

距离确定模块，用于基于加权的WMD算法，确定快递咨询语音与预设的句子的距离关系；

语意确定模块，用于基于所述距离关系确定快递咨询语音的实际含义。

第三方面，本申请提供一种基于自定义加权的WMD算法的语意确定设备，包括：

处理器，以及与所述处理器相连接的存储器；

所述存储器用于存储计算机程序，所述计算机程序至少用于执行本申请第一方面提供的基于自定义加权的WMD算法的语意确定方法；

所述处理器用于调用并执行所述存储器中的所述计算机程序。

第四方面，提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现如本申请第一方面所述的基于自定义加权的WMD算法的语意确定方法中各个步骤。

本发明采用以上技术方案，首先获取快递咨询领域，咨询话语中词的权重值；将得到的权重，通过重写WMD基础算法的方式最后加入到计算中，进行WMD算法的自定义加权；基于加权的WMD算法，确定快递咨询语音与预设的句子的距离关系；基于所述距离关系确定快递咨询语音的实际含义。如此，本申请提供的方案中，使用了符合快递的业务售后的权重，利用加权的WMD算法计算得到的结果更加的符合该领域，在该领域计算结果更加准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于自定义加权的WMD算法的语意确定方法的流程图；

图2是本发明实施例提供的一种基于自定义加权的WMD算法的语意确定方法的流程图；

图3是本发明实施例提供的一种基于自定义加权的WMD算法的语意确定装置的结构示意图；

图4是本发明实施例提供的一种基于自定义加权的WMD算法的语意确定设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

首先对本发明实施例的应用场景进行说明，目前使用的传统的WMD算法时,产生的问题是无法带入行业领域内的词权重这样会带来部分行业词在语句中很重要但是却对整体语义比较不产生太大的影响，例如：“请你帮我催下快递”、“请你帮我查下快递”其中催查在快递咨询领域内都是有强业务属性的关键词，会导致两个句子虽然大量语句相同但是核心含义完全不同的情况，本申请针对这一问题提出了对应的解决方案。

实施例

图1是本发明实施例提供的一种基于自定义加权的WMD算法的语意确定方法的流程图；图2是本发明实施例提供的一种基于自定义加权的WMD算法的语意确定方法的流程图；参照图1和图2，该方法具体可以包括如下步骤：

S101、获取快递咨询领域，咨询话语中词的权重值；

具体的，获取权重值的方式如下：

S1011、通过在线客服收集海量的客服与客户的对话内容；

S1012、通过对于在线客服系统收集到的海量对话内容进行TF-IDF算法计算得到咨询话语中词的权重值；

S1013、通过人工排查的方式进一步的修改和确定咨询话语中词的权重值。

具体的，通过对于在线客服系统收集到的海量对话内容进行TF-IDF算法计算得到预想中的结果,算法公式:TF-IDF＝TF□IDF；其中词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(一般是词频除以文章总词数),以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频，而不管该词语重要与否。)逆向文件频率(inverse document frequency,IDF)IDF的主要思想是：如果包含词条t的文档越少,IDF越大，则说明词条具有很好的类别区分能力。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。

进一步的，增加人工排查的词权重但是被机器所遗漏：

最后得到的结果：快递行业词权重词＝TF-IDF+人工排查。

将上述的权重全部获取到以后得到机器算法认为权重比较的词语,会再次针对机器算法遗漏的词语进行补充。

S102、将得到的权重，通过重写WMD基础算法的方式最后加入到计算中，进行WMD算法的自定义加权；

具体的，改写所述WMD基础算法进行全局转移代价计算，使用各个词的转移代价时，各个词的转移代价的权重。

S103、基于加权的WMD算法，确定快递咨询语音与预设的句子的距离关系；

S1031、用归一化词袋模型方法来分别表示快递咨询语音和预设句子；

S1032、使用word2vec embedding算法进行编码，来表示快递咨询语音和预设句子中的每个词；

具体的，编码选用的方式是skip-gram方式进行词义编码训练。

S1033、确定快递咨询语音和预设句子中各个词的转移代价；

S1034、基于加权后的WMD算法确定快递咨询语音与各个预设句子之间的全局转移代价；所述全局转移代价属于所述距离关系；

S1035、基于全局转移代价确定与所述快递咨询语音最接近的预设句子，进而确定所述快递咨询语音的意思。

具体的，词权重得到以后,需要对词语进行编码,将文本转换为有意义的数值向量。

通过在线客服收集海量的客服与客户的对话内容，对对话的内容使用word2vec算法进行词编码。编码选用的方式是skip-gram方式进行词义编码训练。通过中心词预测左右出现词的概率得到高维向量。

进一步的，在部分没有经历过训练的词上无法得到一个高维向量的过程,我们通过随机数种子算法得到一个包含特定含义的高维向量。

接下来,使用WMD算法进行距离运算,以为传统的WMD算法无法带入词的权重就会受到相当大其他边缘词的干扰,导致核心的关键词无法得到一个很好的计算,我们改变了WMD的计算方式,基于上述的其余运算,我们将自己得到的权重，权重值大小会将部分高维向量计算的距离对于最终结果的影响,通过重写WMD基础算法的方式最后加入到计算中。最后得到一个语义距离。

S104、基于所述距离关系确定快递咨询语音的实际含义。

需要说明的是，在本申请提供的方案中主要包括俩部分，其中一部分为：S101和S102用于得到基于自定义加权的WMD算法；使得基于自定义加权的WMD算法符合实际应用场景的算法。步骤S103和S104为实际使用的情况，步骤S103中快递咨询语音为使用中的需要进行语义识别的咨询者语音。

进一步的，本申请提供的基于自定义加权的WMD算法的语意确定方法还包括：

S1051、获取用户的反馈；所述反馈包括基于自定义加权的WMD算法的确定语意在实际应用中用户提出的对快递咨询语音语意的确定不正确的投诉；

S1052、基于反馈时的语音进行人工标记；

S1053、通过对于在线客服系统收集到的海量对话内容和携带有人工标记的语音进行TF-IDF算法计算得到咨询话语中词的权重值。

S1054、将得到的新的权重，通过重写WMD基础算法的方式最后加入到计算中，进行WMD算法的自定义加权。

如此设置，可以在使用中，不断的调节基于自定义加权的WMD算法使得基于自定义加权的WMD算法随着使用更加的符合实际场景。需要说明的是，随着时间的变化，会在一些特定领域出现一些新的特殊的词汇和场景，不断调节可以使得基于自定义加权的WMD算法符合这些新出现的词汇和场景。

图3是本发明实施例提供的一种基于自定义加权的WMD算法的语意确定装置的结构示意图；参照图3，所述基于自定义加权的WMD算法的语意确定装置，包括：

获取模块31，用于获取快递咨询领域，咨询话语中词的权重值；

重写模块32，用于将得到的权重，通过重写WMD基础算法的方式最后加入到计算中，进行WMD算法的自定义加权；

距离确定模块33，用于基于加权的WMD算法，确定快递咨询语音与预设的句子的距离关系；

语意确定模块34，用于基于所述距离关系确定快递咨询语音的实际含义。

图4是本发明实施例提供的一种基于自定义加权的WMD算法的语意确定设备的结构示意图。参照图4，一种基于自定义加权的WMD算法的语意确定设备，其特征在于，包括：

处理器41，以及与所述处理器相连接的存储器42；

所述存储器42用于存储计算机程序，所述计算机程序至少用于执行本申请提供的所述的基于自定义加权的WMD算法的语意确定方法；

本申请还提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现如本申请提供的所述的基于自定义加权的WMD算法的语意确定方法中各个步骤。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于自定义加权的WMD算法的语意确定方法，应用于快递领域，其特征在于，包括：

获取快递咨询领域，咨询话语中词的权重值；

基于所述距离关系确定快递咨询语音的实际含义。

2.根据权利要求1所述的方法，其特征在于，所述获取快递咨询领域，咨询话语中词的权重值，包括：

通过在线客服收集海量的客服与客户的对话内容；

3.根据权利要求2所述方法，其特征在于，所述获取快递咨询领域，咨询话语中词的权重值，还包括：

4.根据权利要求1所述的方法，其特征在于，所述基于加权的WMD算法，确定快递咨询语音与预设的句子的距离关系，包括：

确定快递咨询语音和预设句子中各个词的转移代价；

5.根据权利要求4所述的方法，其特征在于，编码选用的方式是skip-gram方式进行词义编码训练。

6.根据权利要求1所述的方法，其特征在于，所述将得到的权重，通过重写WMD基础算法的方式最后加入到计算中，进行WMD算法的自定义加权，包括：

7.根据权利要求所述的方法，其特征在于，还包括：

基于反馈时的语音进行人工标记；

8.一种基于自定义加权的WMD算法的语意确定装置，其特征在于，包括：

9.一种基于自定义加权的WMD算法的语意确定设备，其特征在于，包括：

处理器，以及与所述处理器相连接的存储器；

所述存储器用于存储计算机程序，所述计算机程序至少用于执行权利要求1-7任一项所述的基于自定义加权的WMD算法的语意确定方法；

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1-7任一项所述的基于自定义加权的WMD算法的语意确定方法中各个步骤。