CN106557465B

CN106557465B - 一种词权重类别的获得方法及装置

Info

Publication number: CN106557465B
Application number: CN201611033877.6A
Authority: CN
Inventors: 李莉; 司华建; 李宝善; 赵乾
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2016-11-15
Filing date: 2016-11-15
Publication date: 2020-06-02
Anticipated expiration: 2036-11-15
Also published as: CN106557465A

Abstract

本申请公开了一种词权重类别的获得方法及装置，方法包括：获得目标词；提取所述目标词的词特征，所述词特征包括词向量及互信息；利用预设的词集分类器根据所述词向量及互信息，对所述目标词进行分类，得到所述目标词的初始权重类别；其中，所述词集分类器是对历史语料集合通过语料词特征提取进行构建得到。本申请通过预先基于历史语料集合的语料词特征构建词集分类器，进而在对目标词进行分类时，首先提取目标词的词向量及互信息等词特征，进而再利用词集分类器根据这些词特征对目标词进行分类，进而得到目标词的初始权重类别，无需人工对目标词的权重类别的手动标注，节省大量的人力消耗，从而提高效率。

Description

一种词权重类别的获得方法及装置

技术领域

本申请涉及数据处理技术领域，特别涉及一种词权重类别的获得方法及装置。

背景技术

目前的智能客服系统在使用时需要预先建立厂商的知识库。知识库的词库集中，词的权重为一个重要的属性，用来标示词的重要程度，词权重也是系统识别用户意图最基本的属性。

词有很多，每个词的重要程度都不同，甚至同一个词在不同的厂商的知识库中的权重也不同，例如运营商领域中“话费”就是一个非常重要的词，而在银行领域，显然没那么重要。

而在现有技术中，在构建词库的时候，都需要经验丰富有相关领域知识的专家对每个词都要标注词权重，由此会造成大量的人力消耗，且效率较低。

发明内容

有鉴于此，本申请的目的是提供一种词权重类别的获得方法及装置，用以解决现有技术中在构建词库时，需要人工对每个词标注词权重，由此造成效率较低的技术问题。

本申请提供了一种词权重类别的获得方法，包括：

获得目标词；

提取所述目标词的词特征，所述词特征包括词向量及互信息；

利用预设的词集分类器根据所述词向量及互信息，对所述目标词进行分类，得到所述目标词的初始权重类别；

其中，所述词集分类器是对历史语料集合通过语料词特征提取进行构建得到。

上述方法，优选的，在得到所述目标词的初始权重类别之后，所述方法还包括：

接收输入操作，所述输入操作中包括对所述初始权重类别的选择操作；

确定所述初始权重类别中与所述选择操作相对应的类别作为所述目标词的最终权重类别。

上述方法，优选的，利用预设的词集分类器根据所述词向量及互信息，对所述目标词进行分类，得到所述目标词的初始权重类别，包括：

将所述目标词的词向量及互信息的特征在预设的词集分类器中进行预测；

根据预测结果，确定所述目标词的初始权重类别。

上述方法，优选的，提取所述目标词的互信息，包括：

利用

提取所述目标词的互信息；

其中，a为目标词的首字符或尾字符，b为预设的权重类别。

上述方法，优选的，所述语料词特征包括语料词向量及语料互信息；

其中，构建所述词集分类器，包括：

利用逻辑回归的方式根据所述历史语料集合的语料词向量及语料互信息进行构建，得到所述词集分类器。

本申请还提供了一种词权重类别的获得装置，包括：

词获得单元，用于获得目标词；

特征提取单元，用于提取所述目标词的词特征，所述词特征包括词向量及互信息；

词分类单元，用于利用预设的词集分类器根据所述词向量及互信息，对所述目标词进行分类，得到所述目标词的初始权重类别；

上述装置，优选的，还包括：

操作接收单元，用于接收输入操作，所述输入操作中包括对所述初始权重类别的选择操作；

最终确定单元，用于确定所述初始权重类别中与所述选择操作相对应的类别作为所述目标词的最终权重类别。

上述装置，优选的，所述词分类单元具体用于：将所述目标词的词向量及互信息的特征在预设的词集分类器中进行预测，根据预测结果，确定所述目标词的初始权重类别。

上述装置，优选的，所述特征提取单元包括：

互信息提取子单元，用于利用

提取所述目标词的互信息；

其中，a为目标词的首字符或尾字符，b为预设的权重类别。

上述装置，优选的，所述语料词特征包括语料词向量及语料互信息；

所述装置还包括：

分类器构建单元，用于利用逻辑回归的方式根据所述历史语料集合的语料词向量及语料互信息进行构建，得到所述词集分类器。

由上述方案可知，本申请提供的一种词权重类别的获得方法及装置，通过预先基于历史语料集合的语料词特征构建词集分类器，进而在对目标词进行分类时，首先提取目标词的词向量及互信息等词特征，进而再利用词集分类器根据这些词特征对目标词进行分类，进而得到目标词的初始权重类别，无需人工对目标词的权重类别的手动标注，节省大量的人力消耗，从而提高效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例一提供的一种词权重类别的获得方法的流程图；

图2为本申请实施例二提供的一种词权重类别的获得方法的流程图；

图3为本申请实施例二的部分流程图；

图4为本申请实施例三提供的一种词权重类别的获得装置的结构示意图；

图5为本申请实施例三的部分结构示意图；

图6为本申请实施例四提供的一种词权重类别的获得装置的结构示意图；

图7为本申请实施例四提供的一种词权重类别的获得装置的另一结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参考图1，为本申请实施例一提供的一种词权重类别的获得方法的实现流程图，适用于对各种语料中的词进行权重类别的获取。

在本实施例中，可以包括以下步骤，实现对目标词的权重类别的获取：

步骤101：获得目标词。

其中，目标词是指需要标注权重类别的词，如“克数”、“上海”及“澳元”等词语。

本实施例中可以通过数据接口来获得目标词，这个目标词可以有用户进行实时输入，也可以为预先存储到一个文档中，本实施例中从文档中读取目标词。

步骤102：提取目标词的词特征。

其中，所述词特征可以包括有词向量及互信息。

词向量是指目标词在语料中所处上下文的向量化标示，例如，如果两个词经常在相似的上下文中出现，则认为这两个词的词义相似，属于同一个权重类别。具体的，目标词的词向量可以通过大量的历史语料集合进行训练得到。

互信息是指目标词的首字符和尾字符与各个已知或预设的权重类别之间的互信息，比如在语料中很多结尾为“卡”的词如“信用卡”及“银行卡”等被标注为“业务”权重类别，所以尾字符“卡”与权重类别“业务”之间的互信息较高。

具体的，可以利用利用

提取目标词的互信息。其中，a为目标词的首字符或尾字符，b为预设的权重类别，p表示a属于权重类别的事件发生的概率值。

步骤103：利用预设的词集分类器根据词向量及互信息，对目标词进行分类，得到目标词的初始权重类别。

具体的，本实施例中，可以将所述目标词的词向量及互信息的特征在预设的词集分类器中进行预测，根据预测结果，确定所述目标词的初始权重类别。其中，本文中可以以置信度数值表征预测权重类别的概率值。

需要说明的是，本实施例中的词集分类器对目标词进行分类时输出的结果数据为多个权重类别以及每个权重类别分别对应的置信度数值，这里的权重类别是指目标词可能所属的权重类别，权重类别对应的置信度数值表明目标词属于这个权重类别的可能性。本实施例中基于这些置信度数值，确定置信度数值从大到小排序在前N个的权重类别作为目标词的初始权重类别。

其中，目标词的初始权重类别可以有一个，也可以有多个，也就是说，本实施例中利用词集分类器基于目标词的词向量及互信息对目标词进行分类，会得出置信度较高的前N个权重类别作为目标词的初始权重类别，这里的N可以为大于或等于1的任意正整数。

这里的置信度高的权重类别是指目标词最有可能属于的权重类别。如表1中所示，词集分类器输出每个目标词置信度最高前三(TOP3)权重类别及TOP1权重类别的置信度：

表1

其中，所述词集分类器是对历史语料集合通过语料词特征提取进行构建得到，而语料词特征是指历史语料集合中的词的词特征，能够表征语料词之间以及语料词语预设权重类别之间的关联关系，如哪些词属于哪些权重类别，或者哪些词语哪些权重类别更相近，等等。

由上述方案可知，本申请实施例一提供的一种词权重类别的获得方法，通过预先基于历史语料集合的语料词特征构建词集分类器，进而在对目标词进行分类时，首先提取目标词的词向量及互信息等词特征，进而再利用词集分类器根据这些词特征对目标词进行分类，进而得到目标词的初始权重类别，无需人工对目标词的权重类别的手动标注，节省大量的人力消耗，从而提高效率。

基于上述实例，参考图2，为本申请实施例二提供的一种词权重类别的获得方法的实现流程图，其中，在步骤103之后，所述方法还可以包括以下结构：

步骤104：接收输入操作。

其中，输入操作中包括对初始权重类别的选择操作，也就是说，在词集分类器输出目标词的初始权重类别之后，可以通过操作界面提供给工作人员或用户进行选择，用户从目标词的几个初始权重类别中选择用户认为最贴近目标词的权重的权重类别，以此生成输入操作。

步骤105：确定初始权重类别中与选择操作相对应的类别作为目标词的最终权重类别。

也就是说，本实施例中利用词集分类器输出多个可能属于目标词的初始权重类别，再由人工进行精确审核，确认出最合适的最终权重类别。

在具体实现中，本实施例中在预先构建词集分类器时，是基于大量的训练语料实现的。具体的，如图3中所示，来构建词集分类器：

步骤301：接收用以训练的历史语料集合。

其中，历史语料集合中包括有大量的训练语料词，这些词中的权重被划分为不同的级别，例如表2中所示，接收到的语料词是标注有权重类别的大量的词集：

表2

步骤302：对训练语料词提取语料词特征。

其中，语料词特征包括语料词向量及语料互信息等。

词向量是指目标词在语料中所处上下文的向量化标示，例如，如果两个词经常在相似的上下文中出现，则认为这两个词的词义相似，属于同一个权重类别。在词向量上表现为余弦相似度较高。

具体的，可以利用利用

提取语料词的互信息。其中，a(X)为首字符或尾字符，b(Y)为预设的权重类别，p表示a属于权重类别的事件发生的概率值。

步骤303：根据提取到的语料词特征使用逻辑回归的方法构建词集分类器。

参考图4，为本申请实施例三提供的一种词权重类别的获得装置的结构示意图，适用于对各种语料中的词进行权重类别的获取。

在本实施例中，可以包括以下结构，实现对目标词的权重类别的获取：

词获得单元401，用于获得目标词。

特征提取单元402，用于提取目标词的词特征。

其中，所述词特征可以包括有词向量及互信息。

具体的，述特征提取单元402可以包括以下结构，如图5中所示：

向量提取子单元421，用于通过大量的历史语料集合进行训练得到所述目标词的词向量。

词向量是指目标词在语料中所处上下文的向量化标示，例如，如果两个词经常在相似的上下文中出现，则认为这两个词的词义相似，属于同一个权重类别。

互信息提取子单元422，用于利用

提取所述目标词的互信息；

其中，a为目标词的首字符或尾字符，b为预设的权重类别，p表示a属于权重类别的事件发生的概率值。互信息是指目标词的首字符和尾字符与各个已知或预设的权重类别之间的互信息，比如在语料中很多结尾为“卡”的词如“信用卡”及“银行卡”等被标注为“业务”权重类别，所以尾字符“卡”与权重类别“业务”之间的互信息较高。

词分类单元403，用于利用预设的词集分类器根据词向量及互信息，对目标词进行分类，得到目标词的初始权重类别。

具体的，本实施例中的词分类单元403具体可以首先将所述目标词的词向量及互信息的特征在预设的词集分类器中的进行预测，再基于预测结果，确定所述目标词的初始权重类别。其中，本文中可以以置信度数值表征预测权重类别的概率值。

这里的置信度高的权重类别是指目标词最有可能属于的权重类别。如表1中所示，词集分类器输出每个目标词置信度最高前三(TOP3)权重类别及TOP1权重类别的置信度。

由上述方案可知，本申请实施例三提供的一种词权重类别的获得装置，通过预先基于历史语料集合的语料词特征构建词集分类器，进而在对目标词进行分类时，首先提取目标词的词向量及互信息等词特征，进而再利用词集分类器根据这些词特征对目标词进行分类，进而得到目标词的初始权重类别，无需人工对目标词的权重类别的手动标注，节省大量的人力消耗，从而提高效率。

基于上述实例，参考图6，为本申请实施例四提供的一种词权重类别的获得装置的结构示意图，还可以包括以下结构：

操作接收单元404，用于接收输入操作。

最终确定单元405，用于确定所述初始权重类别中与所述选择操作相对应的类别作为所述目标词的最终权重类别。

在具体实现中，本实施例在预先构建词集分类器时，是基于大量的训练语料实现的。具体的，如图7中所示，本实施例中的装置还可以包括以下结构：

分类器构建单元406，用于利用逻辑回归的方式根据历史语料集合的语料词向量及语料互信息进行构建，得到词集分类器。

具体的，分类器构建单元406可以首先接收用以训练的历史语料集合，对训练语料词提取语料词特征，再根据提取到的语料词特征使用逻辑回归的方法构建词集分类器。

其中，历史语料集合中包括有大量的训练语料词，这些词中的权重被划分为不同的级别，例如表2中所示，接收到的语料词是标注有权重类别的大量的词集。

而语料词特征包括语料词向量及语料互信息等。

具体的，可以利用利用

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种词权重类别的获得方法及装置进行了详细介绍，对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种词权重类别的获得方法，其特征在于，包括：

获得目标词；

其中，所述词集分类器根据历史语料集合中训练语料词的词特征构建；所述词向量为能够表征所述目标词与所述目标词在语料中所处上下文中的词之间关联关系的向量；所述互信息是指所述目标词的首字符和尾字符与各个已知或预设的权重类别之间的互信息。

2.根据权利要求1所述的方法，其特征在于，在得到所述目标词的初始权重类别之后，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，利用预设的词集分类器根据所述词向量及互信息，对所述目标词进行分类，得到所述目标词的初始权重类别，包括：

根据预测结果，确定所述目标词的初始权重类别。

4.根据权利要求1或2所述的方法，其特征在于，提取所述目标词的互信息，包括：

利用

提取所述目标词的互信息；

其中，a为目标词的首字符或尾字符，b为预设的权重类别。

5.根据权利要求1或2所述的方法，其特征在于，所述语料词特征包括语料词向量及语料互信息；

其中，构建所述词集分类器，包括：

6.一种词权重类别的获得装置，其特征在于，包括：

词获得单元，用于获得目标词；

7.根据权利要求6所述的装置，其特征在于，还包括：

8.根据权利要求6或7所述的装置，其特征在于，所述词分类单元具体用于：将所述目标词的词向量及互信息的特征在预设的词集分类器中进行预测，根据预测结果，确定所述目标词的初始权重类别。

9.根据权利要求6或7所述的装置，其特征在于，所述特征提取单元包括：

互信息提取子单元，用于利用

提取所述目标词的互信息；

其中，a为目标词的首字符或尾字符，b为预设的权重类别。

10.根据权利要求6或7所述的装置，其特征在于，所述语料词特征包括语料词向量及语料互信息；

所述装置还包括：