CN111353050A

CN111353050A - 一种电信客服垂直领域的词库构建方法及工具

Info

Publication number: CN111353050A
Application number: CN202010114161.9A
Authority: CN
Inventors: 王鸿强; 雷晓宇; 王福君; 张宇
Original assignee: Beijing Heli Yijie Polytron Technologies Inc
Current assignee: Beijing Heli Yijie Polytron Technologies Inc
Priority date: 2019-12-27
Filing date: 2020-02-24
Publication date: 2020-06-30

Abstract

一种电信客服垂直领域的词库构建方法，包括：将需要提取领域词库的语料库导入词库构建工具，语料数据作为训练集数据；利用词库构建工具对训练集数据进行分词提取，分词提取工具有Jieba工具、TF‑IDF统计模型、信息熵模型和TextRank模型；提取后的词集导出作为专业领域词库。“种子词筛选结合词向量的优化”的词库构建方法及工具，快速、高效的发现行业专业领域词汇，构建主题词库，可用于专业的领域词汇挖掘，新词发现，关键词挖掘，相似主题挖掘等领域。

Description

一种电信客服垂直领域的词库构建方法及工具

技术领域

本发明涉及计算机网络技术领域，更具体地，涉及一种电信客服垂直领域的词库构建方法及工具。

背景技术

随着语言处理技术的不断发展，各行业基于此技术而构建智能化的呼叫中心客服业务应用需求不断增加。而基于此技术的应用建设离不开行业的通用词库。通过该词库的数据来支撑呼叫中心相关交互文本的语义理解，知识库的构建等。

电信客服垂直领域词库的构建是电信客服垂直领域词库应用的基础，随着词库构建的理论研究逐步深入和在工程实践中的广泛应用，形成了许多的构建方法和构建工具。传统构建方式往往是通过积累的大量的文本数据(例如如行业的科研论文，项目报告，服务规程，各类操作手册等等)依靠人工批注的模式去筛选该行业的专业领域词汇。但该构建过程仍需要通过人工的参与，人们凭借一定专业领域知识，依据自己的知识和理解主观地判断概念之间的关系。这种依靠人的经验和知识积累的词库构建方式非常费时费力，成为基于NLP业务应用发展的一个瓶颈。现有的领域词库的构建方法是依靠人工批注的模式去筛选该行业的专业领域词汇。该方法受专业领域限制，耗时耗力，效率低下，且无固化的工具来辅助完成词库的构建。

发明内容

本发明提供的一种“种子词筛选结合词向量的优化”的词库构建方法及工具，快速、高效的发现行业专业领域词汇，构建主题词库，可用于专业的领域词汇挖掘，新词发现，关键词挖掘，相似主题挖掘等领域。

本发明提供一种电信客服垂直领域的词库构建方法，包括：

步骤一、将需要提取领域词库的语料库导入词库构建工具，语料数据作为训练集数据；

步骤二、利用词库构建工具对训练集数据进行分词提取，分词提取工具有Jieba工具、TF-IDF统计模型、信息熵模型和TextRank模型；

步骤三、提取后的词集导出作为专业领域词库。

在本公开的一实施例中，所述步骤二中，通过Jieba分词法在语料库中初步分词得到分词集，构建分词词库。

在本公开的一实施例中，基于所述分词词库，利用TF-IDF统计模型、信息熵模型和TextRank模型对其语料库重新进行分词。

在本公开的一实施例中，将重新分词的结果“词”，重新作为Jieba的词典，重新对训练集数据进行分词，使用word2vec词向量模型计算得到各个词的向量空间。

在本公开的一实施例中，将重新分词的结果“词”中有交集的，作为种子词；剩余的其它词作为候选词。

在本公开的一实施例中，利用各个词的向量空间结果，将种子词与候选词进行相似度匹配，找出相似度高的K个词；然后采用投票形式，按照投票结果进行排序。

本发明提供一种电信客服垂直领域的词库构建工具，包括：

语料库管理模块，用于将需要提取领域词库的语料库导入，语料数据作为训练集数据；

词库构建核心模块，用于对训练集数据进行分词提取，分词提取工具有Jieba工具、TF-IDF统计模型、信息熵模型和TextRank模型；

词库管理模块，用于构建的专业领域词库的管理。

在本公开的一实施例中，词库构建核心模块通过Jieba分词法在语料库中初步分词得到分词集，构建分词词库。

本发明提供的电信客服垂直领域的词库构建工具，具有的技术效果为，本发明采用“种子词加Word2Vec”比对核心构建方法提供一套完整的词库构建工具，词库在构建过程中无需使用任何标注数据，是一种无监督的机器学习的构建工具，且不需要模型设计人员具备该专业领域的知识，具有良好的机器学习泛化能力，可用以作为其它专业领域词库的通用构建方法。本发明解决了词库构建需要专业人工标注，有监督学习训练的耗时耗力的效率低下，准确性差的构建问题。

本发明实施例的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明实施例的技术方案做进一步的详细描述。

附图说明

图1是词库构建工具功能框架示意图；

图2是整体词库管理流程图；

图3是词库构建核心流程图；

图4是语料库列表示例；

图5是词语列表示例；

图6是分词组合示例；

图7是分词结果组成图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

一.实现思路

本发明采用“种子词加Word2Vec”比对构建的固化词库构建工具，种子词的选取方式采用多种分词技术，验证分词交集，并将交集数据作为种子词，重新进入训练集优化分词结果。最终利用种子词与候选词的空间向量的相似性，找出目标词语构建成词库。

该词库管理工具中模型在构建过程中无需使用任何标注数据，是一种无监督学习的模型，且不需要模型设计人员具备该专业领域的知识，具有良好的机器学习泛化能力，可用以作为其它专业领域词库的通用构建方法。

图1是本发明词库构建工具的功能框架图。本发明的词库构建工具分为三个部分。语料库管理部分，针对需要进行构建词库的领域语料进行管理，包括：语料导入、语料更新、语料删除等。词库构建核心部分，通过该部分完成语料中词库的抓取构建，包括：关联需要提取词库的语料，算法模型的简单配置，以及一些分词模型工具等。本实施例的分词模型工具有Jieba工具、TF-IDF模型、信息熵模型和TextRank模型，但不限于此。词库管理部分，该部分为其构建的领域词库进行管理，通过该界面能进行词库的查看、添加新词和词管理等操作。

图2所示为本发明词库构建流程。首先进行语料导入，然后利用词库构建工具对导入的语料进行分词提取。分词提取工具有Jieba工具、TF-IDF模型、信息熵模型和TextRank模型，但不限于此。提取后的词集作为词库导出。

图3所示为本发明工具的核心方法，采用无监督学习的分词词库构建法。首先，通过Jieba分词法在语料库中初步分词得到分词集，获得构建分词词库。然后，基于该分词词库利用TF-IDF统计模型、信息熵模型和TextRank模型等多种分词模型对其语料库重新进行分词，并通过多模型交叉比对出种子词，种子词交集以外的词作为候选词。再利用种子词和候选词，重新作为词库利用向量空间模型对其语料进行循环分词筛选出相似度最高的词，以此来提升所构建词库的正确率，最终所得结果即为专业词库。

本发明基于种子词筛选结合词向量的优化方法，包含如下步骤：

S1：向工具中导入需要提取领域词库的语料内容。如图4所示语料库列表，从中选择需要提取领域词库的语料库，比如通用语料库。

S2：提取本次通用词库构建的目标行业文本数据，语料数据作为训练集数据。如图5所示语料库的词语列表作为训练集数据。

S3：使用Python中的Jieba组件进行分词，得到分词词集。

主要Jieba函数调用为：

第一个参数是要分解的字符串，第二个cut_all参数指是否使用全模式，如果为True，则使用全模式，False为不使用全模式，使用全模式后，分解的粒度会更加精细，不使用全模式时，只会把一句话分解，分解的词不会重复。

S4：将Jieba分词结果相邻的1个、2个、3个、4个词进行组合成新词，以此来解决Jieba分词颗粒度细的问题。如图6所示分词组合示例。Jieba得到四个分词：激活、联通、滴滴王卡和套餐，将这四个词分别单独作为一个词，再将这四个词两两组合得到如“激活套餐”等多个新词，然后再将这四个词三三组合得到如“联通滴滴王卡套餐”等多个新词，最后再将这四个词四四组合得到如“激活联通滴滴王卡套餐”等多个新词。

S5：将分词后的词，用停用词表筛选过滤。如果分词结果中出现了停用词，如“的”、“是”、“在”等等，直接进行过滤。

S6：改进互信息过滤：

其中tf_*S表示*S去重后的频度，tf_S*标识S*去重后的频度。

S7：将经S6步骤后过滤的数据作为“初始化词库”，采用改进的TF-IDF模型统计方法(该词语在本次所提供的语料数据中体现的重要程度)作为过滤的评估标准，对所提供的语料的词进一步筛选，以此方法评估出“关键词”。

可通过语料环境及分词结果，对其IDF的分母进行调整，如

等，从而提升提取的“关键词”效果。

S8：将经S6步骤后过滤的数据作为“初始化词库”，采用信息熵模型使用左右信息熵的乘积作为评价标准，筛选出结果“词”。

"信息熵"能够反映知道一个事件的结果后平均会给你带来多大的信息量。如果某个结果的发生概率为p，当你知道它确实发生了，你得到的信息量就被定义为-log(p)。p越小，你得到的信息量就越大。

S9：将经S6步骤后过滤的数据作为“初始化词库”，采用TextRanK模型进行筛选。该模型将词视为节点，构建出词关系图，根据词与词之间共同出现关系计算每个词的重要性，得出筛选模型结果“词”。

其中“sentence”表示语料。分词结果组成图如图7所示。采用TextRanK模型分词，字符串“请帮我查询滴滴王卡套餐是否欠费”首先分词为“请帮我查询滴滴王卡套餐是否欠费”8个分词，然后再邻近三三组合8个分词，得到“请帮我帮我查询我查询滴滴王卡查询滴滴王卡......套餐是否欠费”等多个新词。8个分词组合成新词的构成网络如图7所示，将相邻的1个、2个、3个、4个词进行组合成新词。

S10：将S7步骤，S8步骤，S9步骤筛选出的结果“词”，重新作为Jieba的词典，重新对训练集数据进行分词，使用word2vec词向量模型计算得到各个词的向量空间(度量词与词之间的相似性)。

词向量相似性计算：词向量的相似度可以很好的度量词汇之间的语义相似度，本方法利用标准化后的词向量相似度衡量词汇语义的相似度，其计算步骤如下：

1)计算相似度：对于两个词的词向量V₁与V₂，其相似度利用余弦相似度来度量，计算过程为：

式中：v₁*v₂为v₁与v₂的内积，||v||为词向量的模。

2)标准化。将相似度标准化到[0，1]，便于后续计算，标准化过程为：

S11：将S7步骤，S8步骤，S9步骤筛选出的结果“词”的有交集的，作为种子词；剩余的其它词作为候选词。

S12：根据S10步骤得出的各个词的向量空间结果，将S11中的筛选出的种子词与候选词进行相似度匹配，找出相似度高的K个词(K根据词库构建目标而定)；然后采用投票形式，按照投票结果进行排序。

S13：经过上述结果排序，筛选统计出的词即可作为该专业领域的专业词库进行建库。该词库即为领域词库。

S14：词管理：经过上述过程，将获得的领域词库在词管理界面进行展示管理。可手动修改、添加新词来更新词库，也可进行排序、分类等管理。

本发明词库构建模型在构建过程中无需使用任何标注数据，是一种无监督模型，且不需要模型设计人员具备该专业领域的知识，具有良好的机器学习泛化能力，可用以作为其它专业领域词库的通用构建方法。

以上所述仅为本发明的较佳实施例而已，为方便本领域的技术人员更容易理解而设计，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种电信客服垂直领域的词库构建方法，其特征在于，包括：

步骤三、提取后的词集导出作为专业领域词库。

2.如权利要求1所述的方法，其特征在于，所述步骤二中，通过Jieba分词法在语料库中初步分词得到分词集，构建分词词库。

3.如权利要求2所述的方法，其特征在于，基于所述分词词库，利用TF-IDF统计模型、信息熵模型和TextRank模型对其语料库重新进行分词。

4.如权利要求3所述的方法，其特征在于，将重新分词的结果“词”，重新作为Jieba的词典，重新对训练集数据进行分词，使用word2vec词向量模型计算得到各个词的向量空间。

5.如权利要求4所述的方法，其特征在于，将重新分词的结果“词”中有交集的，作为种子词；剩余的其它词作为候选词。

6.如权利要求5所述的方法，其特征在于，利用各个词的向量空间结果，将种子词与候选词进行相似度匹配，找出相似度高的K个词；然后采用投票形式，按照投票结果进行排序。

7.一种电信客服垂直领域的词库构建工具，其特征在于，包括：

词库管理模块，用于构建的专业领域词库的管理。

8.如权利要求7所述的工具，其特征在于，词库构建核心模块通过Jieba分词法在语料库中初步分词得到分词集，构建分词词库。

9.如权利要求8所述的工具，其特征在于，基于所述分词词库，利用TF-IDF统计模型、信息熵模型和TextRank模型对其语料库重新进行分词。

10.如权利要求9所述的方法，其特征在于，将重新分词的结果“词”，重新作为Jieba的词典，重新对训练集数据进行分词，使用word2vec词向量模型计算得到各个词的向量空间。

11.如权利要求10所述的工具，其特征在于，将重新分词的结果“词”中有交集的，作为种子词；剩余的其它词作为候选词。

12.如权利要求11所述的工具，其特征在于，利用各个词的向量空间结果，将种子词与候选词进行相似度匹配，找出相似度高的K个词；然后采用投票形式，按照投票结果进行排序。