CN113312903A

CN113312903A - 一种5g移动业务产品词库的构建方法及系统

Info

Publication number: CN113312903A
Application number: CN202110585587.7A
Authority: CN
Inventors: 杨京虎; 李忠斌; 段亮; 岳昆; 胡矿
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2021-08-27
Anticipated expiration: 2041-05-27
Also published as: CN113312903B

Abstract

本发明涉及一种5G移动业务产品词库的构建方法及系统。该方法包括：获取套餐办理类来电文本，基于字符串模式匹配算法，构建原始词源数据集；计算所有分词词语的词频以及逆文档频率，构建词频‑逆文档频率矩阵；根据词频‑逆文档频率矩阵确定移动业务产品词集以及移动业务语义词集；对所有分词词语进行编码，确定分词词语的编码；根据移动业务产品词集以及移动业务语义词集确定负样本数据集；将分词词语以及分词词语的编码加载至神经网络模型中，利用负样本数据集训练加载后的神经网络模型，生成训练后的神经网络模型；基于训练后的神经网络模型，利用移动业务产品词集构建产品词库以及同义词库。本发明能够准确提供移动业务产品以及提高识别效率。

Description

一种5G移动业务产品词库的构建方法及系统

技术领域

本发明涉及自然语言处理领域，特别是涉及一种5G移动业务产品词库的构建方法及系统。

背景技术

自然语言处理(Natural Language Processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向，研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。

在语言文本中，命名实体是信息的主要载体，旨在识别文本中特定实体信息；命名实体识别(Name Entity Recognition，NER)用来构建移动业务产品词库，产品词库构建以命名实体识别为核心，文本为输入、识别出的词集为输出；命名实体识别的质量直接影响到后续的移动业务需求，因此命名实体识别是信息处理的前提和重要任务。

命名实体识别方法包括基于词典的命名实体识别方法、基于规则的命名实体识别方法、基于无监督学习的命名实体识别的方法、基于特征的监督学习的命名实体识别方法和基于深度学习的命名实体识别方法。

基于词典的命名实体识别方法包括通用领域词典和特定领域词典，首先构造一定规模的实体词典，然后通过字符串多模匹配，切词匹配和词典来进行命名实体识别。基于规则的命名实体识别方法主要依赖人工特征，可以基于特定领域或者特定语法规则来设计规则；当词汇详尽时，基于规则的识别方法效果很好；然而由于特定领域的规则和不完整的词典，这类方法往往具有较高的精度和较低的召回率，适用领域有限。基于无监督学习的命名实体识别方法的主要思想为：词汇、词语模式以及在大语料上计算的统计特性可以用来推断命名实体的出现，其中典型的是基于文本相似性来聚类的NER提取方法。基于特征的监督学习的命名实体识别方法是将NER问题转化为一个多分类问题或者序列标注问题，通过精心设计的特征，在标注语料上进行训练，从而在未知文本上识别出类似的模式实体。基于深度学习的命名实体识别方法主要从输入、编码、解码三个方面来生成NER模型，其原理是将字或者词映射为单一向量，标注语料，然后输入神经网络模型中进行学习和标签预测，其中，经典模型是BiLSTM-CRF模型。

上述方法存在下列缺陷：

基于词典的命名实体识别方法，在一般情况下仅适用于通用领域，在特定领域上严重依赖于词库，无法识别词库中不存在的词，且在实体嵌套情形下识别困难。基于规则的命名实体识别方法，在构建规则时需要具有一定的语言学背景知识，且跨语言困难，如中文表达具有多样性，规则难以枚举且容易冲突，不具有迁移性。基于无监督学习的命名实体识别的方法，应用范围有限，常常一种方法只能在一个问题节点上处理。基于特征的监督学习的命名实体识别方法，严重依赖于特征明显的文本，实用范围有限。基于深度学习的命名实体识别方法，在字或词的多义性上难以表征，且模型参数庞大，训练时间长，加载速度慢，不能很好地满足实时应用交互型产品。

现有的套餐办理类来话文本数据为移动客服与客户的对话记录，存在文本质量不高，如对话记录不完整、语义歧义及关键词错误等问题，由于文本质量低导致无法准确提供移动业务产品，且移动业务需要高效地识别文本，进行实时交互处理，因此，词库的成功构建关系着后续的一系列需求，如监控客服是否主动推销业务、如何基于客户实际情况进行业务推荐，客户投诉问题的根源追踪等；由此可见，利用上述命名实体识别方法构建移动业务产品词库尚不能满足这种情况下的词库构建及维护的需求。

发明内容

本发明的目的是提供一种5G移动业务产品词库的构建方法及系统，以解决利用现有的命名实体识别方法构建的移动业务产品词库尚不能满足文本质量低以及识别效率差的情况下的词库构建及维护的需求。

为实现上述目的，本发明提供了如下方案：

一种5G移动业务产品词库的构建方法，包括：

获取套餐办理类来电文本，并基于字符串模式匹配算法，根据所述套餐办理类来电文本构建原始词源数据集；所述原始词源数据集包括多个分词词语；

计算所述原始词源数据集内所有所述分词词语的词频以及逆文档频率，构建词频-逆文档频率矩阵；

根据所述词频-逆文档频率矩阵确定移动业务产品词集以及移动业务语义词集；

对所有所述分词词语进行编码，确定所述分词词语的编码；

根据所述移动业务产品词集以及所述移动业务语义词集确定负样本数据集；

将所述分词词语以及所述分词词语的编码加载至神经网络模型中，并利用所述负样本数据集训练加载后的神经网络模型，生成训练后的神经网络模型；

基于所述训练后的神经网络模型，利用所述移动业务产品词集构建产品词库以及同义词库。

可选的，所述基于字符串模式匹配算法，根据所述套餐办理类来电文本构建原始词源数据集，具体包括：

从所述套餐办理类来话文本中的每一行数据采集语料，生成初始语料数据集；所述每一行数据包括通话内容、通话流水号以及文本类型；

基于字符串模式匹配算法，对所述初始语料数据集进行正则化处理，生成处理后的数据集；

获取通用日常文本用词，并根据所述通用日常文本用词构建停用词库；

根据所述停用词库过滤所述处理后的数据集，生成过滤后的数据集；

利用分词工具对所述过滤后的数据集进行分词处理，构建原始词源数据集。

可选的，所述计算所述原始词源数据集内所有所述分词词语的词频以及逆文档频率，构建词频-逆文档频率矩阵，具体包括：

利用公式

计算所述分词词语的词频；其中，w_tf为词频，α_ij为原始词源数据集中的每一个分词词语σ_ij在所述套餐办理类来话文本中所出现的次数；

利用公式

计算逆文档频率；其中，w_idf为逆文档频率，|ω|所述套餐办理类来话文本的总条数，|χ|为包含分词词语σ_ij的文本条数；

所述词频-逆文档频率矩阵为：

其中，

为第T行第C列的词语w_TC及w_TC的Tf-idf值

其中，0＜T＜50，0＜C 20，w_tf-idf＝w_tf×w_idf；w₁₁的tf-idf值最大，w₁₂的tf-idf值次之，Tf-idf值依次递减。

可选的，所述根据所述词频-逆文档频率矩阵确定移动业务产品词集以及移动业务语义词集，具体包括：

将所述词频-逆文档频率矩阵中出现的移动业务产品词加入词集，生成移动业务产品词集；

利用聚类算法，对所述词频-逆文档频率矩阵进行聚类处理，将与移动业务语义词相似度高于相似度阈值的聚类后的词语加入词集，生成移动业务语义词集。

可选的，所述根据所述词频-逆文档频率矩阵确定移动业务产品词集以及移动业务语义词集，之后还包括：

将所述词频-逆文档频率矩阵中除所述移动业务产品词集以及所述移动业务语义词集的词语添加至所述停用词库内。

可选的，所述对所有所述分词词语进行编码，确定所述分词词语的编码，具体包括：

将所述原始词源数据集内的所有分词作为具有多棵树的森林；其中，每棵树只有一个节点；

合并森林中两个根节点权重最小的树，作为新树的左子树以及右子树；所述新树的根结点的权重为所述左子树以及所述右子树的根结点的权重之和；

删除合并后的森林中根节点权重最小的两棵树，并所述新树添加到所述合并后的森林中；

返回“合并森林中两个根节点权重最小的树，作为新树的左子树以及右子树”，直至森林中仅剩一棵树；

根据森林中仅剩的一棵树确定所有分词词语的编码。

可选的，所述根据所述移动业务产品词集以及所述移动业务语义词集确定负样本数据集，具体包括：

将所述移动业务产品词集作为正例词，将所述移动业务语义词集作为负例词，根据所述正例词以及所述负例词确定输出词概率；

基于所述输出词概率，将词频进行0.75次幂运算，并根据所述词频-逆文档频率矩阵中词语的分布概率进行抽样；

若抽取的词语为正例词，抽取下一个词语；若抽取的词语不为正例词，将所述抽取的词语作为负样本数据，直至抽取的负样本数据的数量占总样本比例的60％以上，生成负样本数据集。

可选的，所述基于所述训练后的神经网络模型，利用所述移动业务产品词集构建产品词库以及同义词库，具体包括：

将所述移动业务产品词集中每个词语输入至所述训练后的神经网络模型中，输出所述移动业务产品词集中每个词语对应的词向量编码；

根据所述移动业务产品词集中每个词语对应的词向量编码与所述分词词语的词向量编码的相似度确定第一移动业务产品套餐词候选集；

根据所述第一移动业务产品套餐词候选集构建产品词库、移动业务产品词的不同表达形式以及有关联的套餐；

根据所述移动业务产品词的不同表达形式以及所述有关联的套餐构建同义词库。

可选的，所述根据所述移动业务产品词的不同表达形式以及所述有关联的套餐构建同义词库，之后还包括：

将所述移动业务语义词集中每个词语输入至所述训练后的神经网络模型中，输出所述移动业务语义词集中每个词语对应的词向量编码；

根据所述移动业务语义词集中每个词语对应的词向量编码与所述分词词语的词向量编码的相似度确定第二移动业务产品套餐词候选集；

根据所述第二移动业务产品套餐词候选集扩充所述产品词库以及所述同义词库。

一种5G移动业务产品词库的构建系统，包括：

原始词源数据集构建模块，用于获取套餐办理类来电文本，并基于字符串模式匹配算法，根据所述套餐办理类来电文本构建原始词源数据集；所述原始词源数据集包括多个分词词语；

词频-逆文档频率矩阵构建模块，用于计算所述原始词源数据集内所有所述分词词语的词频以及逆文档频率，构建词频-逆文档频率矩阵；

词集确定模块，用于根据所述词频-逆文档频率矩阵确定移动业务产品词集以及移动业务语义词集；

编码模块，用于对所有所述分词词语进行编码，确定所述分词词语的编码；

负样本数据集确定模块，用于根据所述移动业务产品词集以及所述移动业务语义词集确定负样本数据集；

训练模块，用于将所述分词词语以及所述分词词语的编码加载至神经网络模型中，并利用所述负样本数据集训练加载后的神经网络模型，生成训练后的神经网络模型；

词库构建模块，用于基于所述训练后的神经网络模型，利用所述移动业务产品词集构建产品词库以及同义词库。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明提供了一种5G移动业务产品词库的构建方法及系统，根据所述套餐办理类来电文本构建包括多个分词词语的原始词源数据集，基于分词词语确定移动业务产品词集以及移动业务语义词集，利用神经网络模型，根据上述词集构建词库，由于采用的是套餐办理类来电文本内的多个分词词语，从而解决了文本质量低无法准确提供移动业务产品的问题；且由于本发明采用字符串模式匹配算法构建原始词源数据集，使得套餐办理类来电文本的内容更容易识别，从而能够高效识别移动业务文本，提高了识别效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的5G移动业务产品词库的构建方法流程图；

图2为产品词库以及同义词库构建的主要步骤示意图；

图3为产品词库以及同义词库维护的主要步骤示意图；

图4为CBOW模型结构图；

图5为Skip-gram模型结构图；

图6为本发明所提供的5G移动业务产品词库的构建系统结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明所提供的5G移动业务产品词库的构建方法流程图，如图1所示，一种5G移动业务产品词库的构建方法，包括：

步骤101：获取套餐办理类来电文本，并基于字符串模式匹配算法，根据所述套餐办理类来电文本构建原始词源数据集；所述原始词源数据集包括多个分词词语。

所述步骤101具体包括：从所述套餐办理类来话文本中的每一行数据采集语料，生成初始语料数据集；所述每一行数据包括通话内容、通话流水号以及文本类型；基于字符串模式匹配算法，对所述初始语料数据集进行正则化处理，生成处理后的数据集；获取通用日常文本用词，并根据所述通用日常文本用词构建停用词库；根据所述停用词库过滤所述处理后的数据集，生成过滤后的数据集；利用分词工具对所述过滤后的数据集进行分词处理，构建原始词源数据集。

在实际应用中，具体包括如下步骤：

1)根据套餐办理类来话文本采集初始语料数据集A₁

为完成5G移动业务产品词库的构建，从套餐办理类来话文本中的每一行数据采集语料，一行数据包括内容、通话流水号、文本类型等表项，其中表中的内容为移动客服与客户的通话文本，通话流水号为该次记录的流水号数据，文本类型为该次记录最终的办理情况，得到初始语料数据集

2)对A₁进行文本正则化匹配处理与文本过滤，得到处理后的数据集A₂

对初始语料数据A₁中的数据，过滤其中有缺失值情况的行数据，构建正则表达式

将A₁中的每一行数据

与

进行正则化匹配得到

从而得到处理后的数据集A₂。

3)由处理后的数据集A₂构建原始词源数据集A₃

根据通用日常文本用词初步构建停用词库Z，将处理后的数据集A₂中的每条数据

通过

进行过滤，得到过滤后的数据

从而得到过滤后的数据集A'₂，之后针对A'₂之后使用分词工具Jieba进行分词，得到原始词源数据集A₃＝{(σ_i1,...,σ_ij)|0＜i＜L}。

步骤102：计算所述原始词源数据集内所有所述分词词语的词频以及逆文档频率，构建词频-逆文档频率矩阵。

所述步骤102具体包括：利用公式

计算所述分词词语的词频；其中，w_tf为词频，α_ij为原始词源数据集中的每一个分词词语σ_ij在所述套餐办理类来话文本中所出现的次数；利用公式

计算逆文档频率；其中，w_idf为逆文档频率，|ω|所述套餐办理类来话文本的总条数，|χ|为包含分词词语σ_ij的文本条数；所述词频-逆文档频率矩阵为：

其中，

为第T行第C列的词语w_TC及w_TC的Tf-idf值

步骤103：根据所述词频-逆文档频率矩阵确定移动业务产品词集以及移动业务语义词集。

所述步骤103具体包括：将所述词频-逆文档频率矩阵中出现的移动业务产品词加入词集，生成移动业务产品词集；利用聚类算法，对所述词频-逆文档频率矩阵进行聚类处理，将与移动业务语义词相似度高于相似度阈值的聚类后的词语加入词集，生成移动业务语义词集。

所述步骤103之后还包括：将所述词频-逆文档频率矩阵中除所述移动业务产品词集以及所述移动业务语义词集的词语(如地名，机构名等)添加至所述停用词库内，以扩充停用词库。

在实际应用中，根据词频-逆文档频率矩阵R，选取Top-k(0<k<T*C)词频，由移动领域背景及R，确定k的具体数值；将R中出现的移动业务产品词加入词集，可得到第一类目标词集，即移动业务产品词集P；移动业务产品词集P作为正例词数据，即后续的神经网络模型的输入；其中，移动领域背景指的是在移动运营商通信领域下，所涉及的移动业务产品名称、对移动业务产品的流量、通话等信息的描述(例如100G、流量、分钟、国内通话等)和客户对使用移动业务产品后的需求描述(例如流量、不够、资费、过高等)。

根据词频-逆文档频率矩阵R，选择无监督学习方法中的k-means算法进行聚类，可得到文本中与移动业务语义词相似程度较高的一类词；在移动领域背景下，移动业务语义词如口头用语词“扣下来”，“折下来”(意思分别为扣费后、打折后)，与套餐词、业务产品词联系较大且高频率的与相应业务名称词同时出现，根据聚类结果可得到第二类目标词集，即移动业务语义词集S；移动业务语义词集S作为负例词数据，即后续的神经网络模型的另一输入。

使用k-means算法进行聚类的方法如下：随机设置R中的Ω(0<Ω<20)个w_TC'作为初始的聚类中心点，对于R中剩余的其他元素w_TC”，使用欧氏距离公式

计算到w_TC的距离d，以此得到Ω个不同的聚类中心；接着通过评价指标函数

来调整聚类中心，重新计算出每个聚类的新中心点

若新中心点与原中心点重合，结束该流程，否则重新计算中心点；在不同Ω下，能够获取的语义词数量不同，选择获取数量最大时的Ω作为最佳聚类数目。

步骤104：对所有所述分词词语进行编码，确定所述分词词语的编码。

所述步骤104具体包括：将所述原始词源数据集内的所有分词作为具有多棵树的森林；其中，每棵树只有一个节点；合并森林中两个根节点权重最小的树，作为新树的左子树以及右子树；所述新树的根结点的权重为所述左子树以及所述右子树的根结点的权重之和；删除合并后的森林中根节点权重最小的两棵树，并所述新树添加到所述合并后的森林中；返回“合并森林中两个根节点权重最小的树，作为新树的左子树以及右子树”，直至森林中仅剩一棵树；根据森林中仅剩的一棵树确定所有分词词语的编码。

在实际应用中，对A₃中所有词语进行编码，A₃＝{(σ_i1,...,σ_ij)|0＜i＜L}，通过限制样本输出向量，减少模型计算复杂度。层次softmax的特点是结构权重越高的结点其对应频率越高，相应词的路径就越短，计算的次数也就越少，从而对每个词进行编码，限制样本输出向量，再根据以下公式计算每个编码所经历的结点。

n₁＝0

n_g＝n_list[n_g-1]+e_g-1,g＝1,2,3,...,l

其中，l表示编码长度，e_g表示第g个编码值，n_g表示经过第g个结点的位置。

在模型中使用Huffman树计算层次softmax，以生成所有分词的编码。根据给定的节点构造最优二叉树，也称为Huffman树。给定

个值作为

个结点的权重，通过下面4个步骤构造Huffman树：

Step1:将A₃中的分词σ_i1,...,σ_ij看成是有

棵树的森林，(每棵树只有一个结点)。

Step2:在森林中选出两个根节点权重最小的树合并，分别作为新树的左右子树，新树根结点的权重为左右子树根结点权重之和。

Step3:删除森林中选取的两棵树，并将新树添加到森林。

Step4:重复Step2与Step3操作，直到森林里就剩一棵树，该树就是Huffman树，得到所有分词的编码

步骤105：根据所述移动业务产品词集以及所述移动业务语义词集确定负样本数据集。

所述步骤105具体包括：将所述移动业务产品词集作为正例词，将所述移动业务语义词集作为负例词，根据所述正例词以及所述负例词确定输出词概率；基于所述输出词概率，将词频进行0.75次幂运算，并根据所述词频-逆文档频率矩阵中词语的分布概率进行抽样；若抽取的词语为正例词，抽取下一个词语；若抽取的词语不为正例词，将所述抽取的词语作为负样本数据，直至抽取的负样本数据的数量占总样本比例的60％以上，生成负样本数据集。

在实际应用中，将第一类移动业务产品词集P记为正例词，第二类动业务语义词集S记为负例词，移动业务语义词集为客服客户语义词集，以此使模型从分词结果中抽词，使得所有词概率的乘积最大，输出词概率表示为：

其中，O表示输出词为正例词的索引集合，

表示第m个输出词为负例词的集合，Θ_m表示输出词的概率，B表示将输入数据在模型中进行投影层处理的结果，θ_m表示第m词的输出权重向量，θ_τ表示第τ个词的输出权重向量。

负样本数据集的获取需要预测的词在P与S中出现，然后从其他词中抽取一些词作为负样本。通过R中词的分布概率进行抽样，但为了降低词频过高的词被抽的概率，以及提高词频过低的词被抽的概率，将词频进行了0.75次幂运算，得到每个词的概率；将每个词映射到0-1之间，然后生成随机数，根据其落在的空间判断抽取的词，遇到正例的词跳过，不断重复，直到抽取到的负样本数量占总样本比例的60％以上，得到负样本数据集a。

在实际应用中，所述模型为word2vec模型。

步骤106：将所述分词词语以及所述分词词语的编码加载至神经网络模型中，并利用所述负样本数据集训练加载后的神经网络模型，生成训练后的神经网络模型。

在实际应用中，所述神经网络模型为word2vec模型。

步骤107：基于所述训练后的神经网络模型，利用所述移动业务产品词集构建产品词库以及同义词库。

所述步骤107具体包括：将所述移动业务产品词集中每个词语输入至所述训练后的神经网络模型中，输出所述移动业务产品词集中每个词语对应的词向量编码；根据所述移动业务产品词集中每个词语对应的词向量编码与所述分词词语的词向量编码的相似度确定第一移动业务产品套餐词候选集；根据所述第一移动业务产品套餐词候选集构建产品词库、移动业务产品词的不同表达形式以及有关联的套餐；根据所述移动业务产品词的不同表达形式以及所述有关联的套餐构建同义词库。

在实际应用中，使用神经网络模型word2vec，对A₃中每条数据σ’_i中的每一个词语σ_ij’与所有分词词语的编码z加载到模型中，并使用负样本数据集a进行训练，word2vec模型首先会统计σ_ij’出现的次数，保存在hash表里，根据σ_ij’在hash表里的值建立哈夫曼树，由此生成σ_ij’的初始编码，再进行神经网络的训练过程，学习A₃的中词语的上下文关系及语义信息，最终得到σ_ij’的词向量编码σ_ij”，由每个词对应的编码，可计算任意两个词对应的余弦距离，实现词相关性计算。

图2为产品词库以及同义词库构建的主要步骤示意图，如图2所示，由移动业务产品词集词集P，对移动业务产品词集词集P中的每一个词p’，word2vec模型会根据其对应的词向量编码p”，计算p”与σ_ij”的相似度

选取与p’距离最近的前15个词语，得到第一移动业务产品套餐词候选集，再在移动业务背景下筛选，为此可初步构建产品词库X；同时得到移动业务产品词的不同表达形式及相互有关联的套餐，构建同义词库Y。

在根据所述移动业务产品词的不同表达形式以及所述有关联的套餐构建同义词库，之后还包括：将所述移动业务语义词集中每个词语输入至所述训练后的神经网络模型中，输出所述移动业务语义词集中每个词语对应的词向量编码；根据所述移动业务语义词集中每个词语对应的词向量编码与所述分词词语的词向量编码的相似度确定第二移动业务产品套餐词候选集；根据所述第二移动业务产品套餐词候选集扩充所述产品词库以及所述同义词库。

在实际应用中，对移动业务语义词集S进行同样步骤的相似性计算，得到第二移动业务产品套餐词候选集，再在移动业务背景下筛选，以此扩充词库X与Y；产品词库用来进行命名体识别，同义词库可用来解决语义歧义、同一词不同表达方式等问题。

由于现有对话工单文本为十亿量级的数据，并且数据规模会不断扩大，词库的维护也至关重要，在实际应用中，图3为产品词库以及同义词库维护的主要步骤示意图，如图3所示，对于后续的批量数据，重复以上流程，即首先从新的套餐办理类来话文本中采集数据，按照步骤101进行数据预处理，并根据停用词库Z选取停用词过滤数据；生成新的目标词集，再进行相关性计算，在移动业务背景下筛选，得到新的移动业务产品套餐词候选集和移动业务产品词的不同表达形式和相互有关联的套餐，将其添加到原始词库X，Y，Z中，得到新的词库X'，Y'，Z'，以实现对词库的维护。

在实际应用中，根据已训练的word2vec模型，构建有限词汇表，存储为词-向量组成的字典D，即得到相似性缓存字典D，用于加快模型读取速度，CBOW模型和Skip-gram模型为word2vec模型的常见模型，图4为CBOW模型结构图；图5为Skip-gram模型结构图，其中，图4中w(t)表示中心词(即需要预测的词)，w(t-1)，w(t-2)表示中心词的前面的两个词，w(t+1)，w(t+2)表示中心词后面的两个词，实际过程中不一定是两个词，数量可根据需求自定义；图5中w(t)，w(t-1)，w(t-2)，w(t+1)，w(t+2)的含义与图4中的含义相同。

在模型搜索相似词时，对于目标词集P与S中的每一个词语，以键的形式存储，同时将其最相近的5个词，以值的形式存储，缓存到字典D中；再反转字典D键值对，可通过多个值找到键，并将相似的词都缓存到D；模型在训练时可对每次新数据中的词语进行判断，如果输入词已在D中，便可快速读取；否则将其缓存到D供下一次查询时使用；通过使用D，进一步地减少了模型的时间耗费。

以下以xx年xx月套餐办理类来话文本词库构建与维护为例，进一步阐述本发明的技术方案。

预处理过程：

从xx年xx月套餐办理类来话文本xlsx文件中获取数据源，文件中表1包括内容、通话流水号、文本类型等表项，按照表项读取数据，得到未经处理的原始数据A₁，A₁中的每一条数据为一次客服与客户的语音交流文本记录。

先丢弃A₁中有缺失记录的行，之后构建正则表达式

将A₁中的每一次对话记录，即一次对话记录中客服客户所交流的每一句话以双竖线符号分割，并设置读取A₁的数据量，实现用户自定义数据量读取，得到处理后的数据A₂，表1为A₂数据格式示意表，如表1所示。

表1

从网络上下载停用词文件，之后读取文档并存放在列表中，使用分词工具Jieba进行分词，如果分词结果包含在停用词列表中，将其过滤，最终得到原始词源A₃。

目标词集P与S的生成：

首先获取A₃中的所有词语，通过设置输出矩阵的阈值，计算词频与逆文档频率，并将词语按照Tf-idf值降序排列，最终得到词Tf-idf矩阵R，表2为词Tf-idf矩阵数据片段示意表，如表2所示。

表2

矩阵行列标号	词语w	Tf-idf值
			0行0列	客户	0.4515263861131728
0行1列	客服	0.4515263861131728
			……	……	……
1行0列	七八	0.1335725383039322
			1行1列	幺九八	0.0797500020180043
1行2列	幺五八	0.0779754491766491
			……	……	……

从矩阵R中选取Top-k(0<k<1000)词频，可得到第一类目标词集，即移动业务产品词集P，保存在列表中供之后使用，表3为移动业务产品词集示意表，如表3所示。

表3

对矩阵R中词语由其Tf-idf值进行聚类。根据聚类后的结果，可得到文本中与移动业务语义词相似程度较高的一类词，处于移动领域下，该类词往往与套餐词、业务产品词有较大的联系，如口头用语词“扣下来”，“折下来”(意思分别为扣费后、打折后)，会常常出现在客服与客户的交流内容中，并且与相应的套餐词、业务产品词出现在一个句子中相邻的部分，表4为移动业务语义词集示意表，如表4所示。

表4

编号

0

1

2

3

4

……

目标词

扣下来

折下来

时长

国内

新版

……

根据矩阵R，选取非P，S中的词语，将其存储在停用词文档中，扩充停用词库Z，用以协同过滤掉大量的不相关词汇，表5为停用词库Z示意表，如表5所示。

表5

序号	词语	Tf-idf值
			0	稍等	0.11383942578360569
1	云南	0.10489730459838377
			……	……	……
10	师傅	0.08233130776890631
			……	……	……

词库构建与维护：

首先，通过对分词编码与数据负采样限制数据输出大小，减少模型计算复杂度。首先，利用gensim模型中层次softmax结构权重越高的结点频率越高的特点，这样词的路径就越短，计算的次数也就越少，从而对每个词进行编码，达到限制样本输出向量的效果。

其次，根据分词结果中筛选出的移动业务词和客服客户语义词，将移动业务词记为正例词，客服客户语义词记为负例词，以此从分词结果中抽词，使得所有词概率的乘积最大。

构建产品词库X与同义词库Y，首先对xx年xx月套餐办理类来话文本xlsx文件进行数据预处理，得到结果数据A₃，再选择神经网络模型word2vec，与所有分词词语的编码z加载到模型中，并使用负样本数据集a进行训练，最终模型得到每个词对应的距离度量编码，由此可计算任意两个词对应的余弦距离，实现词与词间的相似性计算，表6为模型参数设置示意表，如表6所示。

对于词集P与词集S中的每个词语，逐个计算与其最接近的15个词，表7为相似性计算示例表，如表7所示，其中示例词1词集P中的词语示例，即根据移动业务产品词“一百三十八块六”进行相似性计算，示例词2为词集S中的词语示例，即根据移动业务语义词“折下来”计算；从表7中可以看到，与“一百三十八块六”最相近的词为“一百三十八块零六”，这是客服或客户对同一套餐词产生的不同表达方式，其次最相近的词为“一百九十八”，这是因为一百九十八元套餐打七折后正好价格为一百三十八块六，按照如上方式，便可构建X与Y；同时，Y中的内容采取字典的方式，构造key-value，即键值对，将所有同义的词(value1，value2，value3，value4)都用同一个词语(key)代替；表8为产品词库示例表，表9为同义词库示例表。

表6

表7

表8

表9

其中，表8中的“四十几”，“无百分钟”等词语均由数据集得到，这是由于数据集文本质量不高的原因，而非数据记录出错。

针对后续批量数据，按照步骤101进行数据预处理，生成新的目标词集，再进行相关性计算，在移动业务背景下筛选，得到新的移动业务产品套餐词候选集和移动业务产品词的不同表达形式和相互有关联的套餐，将其添加到词库X，Y，Z中，达成词库维护的目标。

模型优化：

转存已训练的word2vec模型，构建有限词汇表，存储为词-向量组成的字典D；例如，在模型搜索相似词的时候，构造键值对，对于目标词集P与S中的每一个词语，以键的形式存储，同时将其最相近的5个词，以值的形式存储，再缓存到字典D中，表10为字典D缓存数据片段示意表，如表10所示。

表10

其次，反转字典D键值对，即可根据多个向量值去对应词本身，通过值找到键；模型在训练时可对每次新数据中的词语进行判断，如果输入词已在D中，便可快速读取；如果没有，将其缓存到D供下一次查询时使用；经比较，随机选择P与S的4个词，在使用D与不使用D两种情况下，分别记录模型启动时的开始时间start与模型运行完成后的结束时间end，不使用缓存字典的耗时约为使用缓存时的10倍，表11为时间耗费比较表，如表11所示。

表11

因此，通过使用D，更进一步地优化了模型的时间耗费，以上示例仅仅选取了4个词，时间差异性会在模型计算更多词的时候更加明显。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

图6为本发明所提供的5G移动业务产品词库的构建系统结构图，如图6所示，一种5G移动业务产品词库的构建系统，包括：

原始词源数据集构建模块601，用于获取套餐办理类来电文本，并基于字符串模式匹配算法，根据所述套餐办理类来电文本构建原始词源数据集；所述原始词源数据集包括多个分词词。

词频-逆文档频率矩阵构建模块602，用于计算所述原始词源数据集内所有所述分词词语的词频以及逆文档频率，构建词频-逆文档频率矩阵。

词集确定模块603，用于根据所述词频-逆文档频率矩阵确定移动业务产品词集以及移动业务语义词集。

编码模块604，用于对所有所述分词词语进行编码，确定所述分词词语的编码。

负样本数据集确定模块605，用于根据所述移动业务产品词集以及所述移动业务语义词集确定负样本数据集。

训练模块606，用于将所述分词词语以及所述分词词语的编码加载至神经网络模型中，并利用所述负样本数据集训练加载后的神经网络模型，生成训练后的神经网络模型。

词库构建模块607，用于基于所述训练后的神经网络模型，利用所述移动业务产品词集构建产品词库以及同义词库。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM，RAM，光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

与现有技术相比，本发明具有的优点及积极效果

(1)根据本发明的技术方案，采用了一种启发式的方法组合策略，结合了多种命名体识别方法的优点；词库构建过程中充分发挥了无监督学习和深度学习的作用，能够识别目标语义词和目标产品词；在移动业务产品词库领域，最终的产品词库在命名体识别上具有较高的准确率、能够满足实时交互，并能够对语义歧义，同音错字等不完整低质量文本信息进行识别，提高了识别信息的完整度，能够同样的高效处理后续的新数据。同样为移动后续需求，如监控客服是否主动推销业务、如何基于客户实际情况进行业务推荐，客户投诉问题的根源追踪等任务奠定坚实的基础。

(2)本发明提出了一种5G移动业务产品词库的构建方法及系统，该方法或系统同时考虑数据集位于特殊领域，从产品词出发，更基于语义词进行扩充词库；通过计算词频与逆文档频率得到的移动业务产品词，同其它命名体识别模型的结果类似，仅包括一些表达比较规范和标准的词语，不足以包括所有的产品词，这是由于许多产品词会出现混杂方言，一词多意，同音字词等情况；因此，本发明在构建词库时，采取词语间相似性匹配的方式，并结合移动业务语义词，在移动领域下，这些词虽不是业务产品词，但往往与业务产品词有较大联系。将原始数据文本中的所有分词转化为词向量，以词向量来衡量词语间的相似度，再计算与产品词和语义词相似度最高的词。通过相似性匹配的方式，便可快速、高效地获取业务产品词。

(3)本发明通过多种加速方式减少词向量输入维度与计算复杂性，借鉴页表的思想，定义相似性缓存字典，使得模型在计算时会首先查询自定义字典，若输入词已包含在字典中，便可快速读取，否则将其缓存到字典中供下一次查询时使用，从而节省了训练时间；通过测量模型时间耗费发现，不使用相似性缓存字典的模型耗时约为使用相似性缓存字典时的10倍，并且该时间差异性会在模型计算更多输入词的时候更加明显。

(4)本发明提出了一种5G移动业务产品词库的构建方法及系统，该方法或系统是云南移动通信集团在移动业务产品词库构建与维护领域的首次AI应用，基于云南移动5G通信领域，能够进行5G业务产品名称识别；近几年，对于三大运营商业务产品的词库构建及维护，相关技术与流程的应用很少，原因在于数据获取，数据精度保障等方面的难度。通过与云南移动通信集团合作，在数据集的获取，数据量充分程度及数据精度等方面都有了充分的保障。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。