CN110929085A

CN110929085A - 基于元语义分解的电力客服留言生成模型样本处理系统及方法

Info

Publication number: CN110929085A
Application number: CN201911110863.3A
Authority: CN
Inventors: 上官朝晖; 陈沙沙; 刘首文; 应君裕; 李凡; 温兵兵; 廖玉坤; 刘奕
Original assignee: HUBEI CENTRAL CHINA TECHNOLOGY DEVELOPMENT OF ELECTRIC POWER Co Ltd; State Grid Corp of China SGCC; State Grid Hubei Electric Power Co Ltd
Current assignee: HUBEI CENTRAL CHINA TECHNOLOGY DEVELOPMENT OF ELECTRIC POWER Co Ltd; State Grid Corp of China SGCC; State Grid Hubei Electric Power Co Ltd
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2020-03-27
Anticipated expiration: 2039-11-14
Also published as: CN110929085B

Abstract

本发明提供一种基于元语义分解的电力客服留言生成模型样本处理系统及方法。本发明从“深度学习环境搭建、生成对抗网络框架搭建、提问样本元语义分解、应答样本语义切割、应答样本元语义分解、应答样本集扩充”六个方面来实现此方案，通过搭建深度学习训练环境与生成对抗网络框架，接着通过对提问样本的应答样本的元语义提取等步骤，最终实现生成模型训练样本集的增强。

Description

基于元语义分解的电力客服留言生成模型样本处理系统及方法

技术领域

本发明涉及电子信息技术领域，具体是一种基于元语义分解的电力客服留言生成模型样本处理系统及方法，其通过对应答样本的语义分解与切割，提取应答内容的元语义，并针对元语义实现多样化扩充，最终实现训练样本集的增强，以支持模型深度学习训练的拟合速度与程度。

背景技术

随着人工智能技术、大数据技术、信号处理技术的成熟，类人化的自动聊天机器人已在各行业领域得到了广泛应用。传统的聊天机器人主要通过两种方式实现：其一为检索式，通过关键词提取、相似度计算等技术，实现标准聊天内容的数据库检索，这种方式需要提前构建庞大的数据库，并且由于答复内容为数据库中标准回答，因此聊天内容往往显得过于机械、重复；第二种方式为生成式，这种方式实现的聊天机器人，不需要额外制定数据库进行匹配检索，只需通过深度学习框架训练生成模型，根据具体的提问内容，实时生成聊天答复。生成式方式为了实现自然、逼真、准确的聊天内容，需要海量的样本集支撑。

行业应用的聊天机器人往往采用检索式，而未采用最新的生成式模型，原因之一是因为样本规模的限制。

发明内容

有鉴于此，本发明提出一种基于元语义分解的电力客服留言生成模型样本处理系统及方法，通过语义切割、语义分解等方法，实现了生成式应答模型的样本集扩充。

一种基于元语义分解的电力客服留言生成模型样本处理方法，包括如下步骤：

步骤S1、深度学习环境搭建：搭建样本训练所需深度学习环境；

步骤S2、生成对抗网络框架搭建：构建生成对抗网络模型，所述生成对抗网络模型用于根据提问样本生成应答样本；

步骤S3、提问样本元语义分解：提取提问样本中的最核心内容，去掉冗余信息，元语义分解后提取的内容为关键词、以及和关键词绑定的动词；

步骤S4、应答样本语义切割：对应答样本的语义进行切割，分为不同内容主题，为后续提取多元语义提供基础；

步骤S5、应答样本元语义分解：在应答样本语义分割的基础上，提取应答语句的元语义；

步骤S6、应答样本集扩充：构建用于样本集扩充的生成对抗网络，所述生成对抗网络中生成器端的输入为元语义，输出为扩充后的自然应答用语；输入样本中，采用动词库随机替换，扩大元语义空间；训练生成网络模型，对于生成的应答用语和对应的提问用语关联，扩充样本库空间；生成的内容进行人工审核，审核通过后入库处理，最终扩充样本空间。

进一步的，所述步骤S1具体实现为：

1)在装有2个或以上显卡的服务器上安装Ubuntu16.04操作系统；

2)显卡型号选择GTX 2080Ti或Titan X显卡；

3)在Ubuntu系统下，安装Tensorflow 2.0深度学习训练环境，Tensorflow选择GPU版本；

4)运行测试代码，测试Tensorflow环境对多GPU的支持是否配置完整。

进一步的，所述步骤S2中的所述冗余信息包括语气助词、重复表达、不相关内容。

进一步的，所述步骤S2具体实现为：

1)搭建生成对抗网络框架，框架由生成器和判别器组成；

2)使用生成器训练模型，将输入的样本映射为输出样本，具体过程如下：

a.步骤1)中构建的生成对抗网络，将输入语句分解为每个字的Unicode编码；

b.将Unicode编码转换为十进制，并替代原始的噪声输入，此时生成器的输入则调整为提问语句的Unicode编码；

c.生成结果此时也为Unicode编码，转换为汉字输出；

3)判别器判断生成器的输出语句为真实的应答内容或是由生成器生成的应答内容，判别器若能够准确识别出生成应答，即与样本集中真实应答区分开，则说明生成器生成的应答内容不够“形象”，则返回调整生成器参数；若不能够区分为生成应答，还是真实应答，则说明判别器生成的应答内容与原样本集应答内容高度相似，模型性能达到使用要求，则输出应答内容至用户。

进一步的，所述步骤S3具体实现为：

1)关键词通过电力客服关键词索引库进行匹配，具体步骤为：

a.人工构建电力客服关键词库，关键词库包括相关业务的专业名词；

b.将关键词库分为用电、查电、故障几大类，每类进一步细分业务，建立多叉树数据库索引结构，便于后续反向索引；

c.采用逐词比对的方式，匹配提问语句中是否有该关键词；

d.若比对结果显示某关键词在提问语句中存在，则表明匹配成功，停止后续匹配操作；

2)成功匹配后，提取关键词；

3)构建关键词动词库，实现步骤为：

a.人工构建关键词动词库，动词库中的记录包括历史样本中出现的各类动词；

b.在动词库中，人工操作为每个动词增加属性项，扩充其属性，属性内容为与其对应的可选关键词；

c.在动词数据库中，选择检索方式；

d.依次匹配c)步骤的结果结果，返回匹配成功的动词；

e)匹配动词库，提取关键词动词；

4)组合关键词及与其绑定的动词，构建提问样本的元语义。

进一步的，所述步骤S4具体实现为：

1)首先查询关键词库，匹配应答样本中的关键词；

2)若应答样本中关键词数量为1，则初步判定为该样本语句为单语义语句，转入步骤S5继续执行；

3)若应答样本中提取关键词数量大于1，则分别提取多个关键词，并记录关键词在原始样本语句中的位置；

4)对于提取的多个关键词，首先判断多个关键词的位置，若每个关键词分别独立在不同的语句中，则直接转后续元语义分解步骤；

5)若多个关键词，其中有某2个以上关键词在同一语句，无法明确判断该语句的元语义，则需接入动词库辅助判断；

6)对于多个关键词存在同一语句，并无法判断选用哪一个关键词用于合成元语义的情况，则需返回人工处理，拆分长语句。

进一步的，所述步骤S5具体实现为：

1)关键词通过电力客服关键词索引库进行匹配；

2)成功匹配后，提取关键词；

3)构建关键词动词库；

4)匹配动词库，提取关键词动词；

5)组合关键词及与其绑定的动词，构建提问样本的元语义；

6)确定应答样本内容的元语义条数及各自内容。

进一步的，所述步骤S6具体实现为：

1)构建用于样本集扩充的生成对抗网络，生成对抗网络中的生成器端的输入为元语义，输出为扩充后的自然应答用语；

2)输入样本中，采用动词库随机替换，扩大元语义空间；

3)训练生成网络模型，对于生成的应答用语，和对应的提问用语关联，扩充样本库空间；

4)生成的内容需要人工审核，审核通过后入库处理，最终扩充样本空间。

一种基于元语义分解的电力客服留言生成模型样本处理系统，包括

提问样本处理模块，用于提取提问样本中的最核心内容，去掉冗余信息，元语义分解后提取的内容为关键词、以及和关键词绑定的动词；

应答样本语义切割模块，用于将应答语句按照内容主题，分为不同句子，进而分别提取每个句子的元语义；

应答样本元语义分解模块，用于提取提问样本中的最核心内容，去掉冗余信息；

生成对抗网络构建模块，用于根据提问样本处理模块和应答样本元语义分解模块的处理结果构建用于应答机器人应答用语生成、样本集扩充两方面需求的生成对抗网络；

应答样本集扩充模块，用于采用生成对抗网络模块的生成模型，生成新的提问样本和应答样本，实现样本集的扩充。

进一步的，应答样本集扩充模块具体实现功能为：在生成对抗网络中生成器端的输入元语义，输出扩充后的自然应答用语，输入样本中，采用动词库随机替换，扩大元语义空间；训练生成网络模型，对于生成的应答用语和对应的提问用语关联，扩充样本库空间；生成的内容进行人工审核，审核通过后入库处理，最终扩充样本空间。

本发明从“深度学习环境搭建、生成对抗网络框架搭建、提问样本元语义分解、应答样本语义切割、应答样本元语义分解、应答样本集扩充”六个方面来实现此方案，通过搭建深度学习训练环境与生成对抗网络框架，接着通过对提问样本的应答样本的元语义提取等步骤，最终实现生成模型训练样本集的增强。

附图说明

图1是本发明生成对抗网络的流程示意图；

图2是本发明基于元语义分解的电力客服留言生成模型样本处理方法的流程示意图；

图3是本发明基于元语义分解的电力客服留言生成模型样本处理系统的结构示意图。

具体实施方式

下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述。

如图2所示，本发明实施例提供一种基于元语义分解的电力客服留言生成模型样本处理方法，包括以下步骤：

步骤S1、深度学习环境搭建：搭建样本训练所需深度学习环境。由于本发明涉及训练的模型较为复杂，因此需要搭建多GPU环境，构建并行深度学习处理框架，以提升后续模型训练速度。具体实现方法为：

1)在装有2个或以上显卡的服务器上安装Ubuntu16.04操作系统；

2)显卡型号选择GTX 2080Ti或Titan X显卡；

4)运行测试代码，测试Tensorflow环境对多GPU的支持是否配置完整；

在其他实施例中，也可选用局域网内的服务器集群，服务器集群应用于对训练速度要求更高的使用场景，本发明选用单服务器安装2个GPU部署Tensorflow。

步骤S2、生成对抗网络框架搭建：构建生成对抗网络(GAN,GenerativeAdversarial Networks)模型，该模型能够根据提问样本，生成应答样本。具体实现方法为：

1)搭建生成对抗网络框架，框架由生成器和判别器组成(如图1所示)，实现方法为：

a.生成模型本质上是极大似然估计，用于产生指定分布数据的模型，生成模型的作用是捕捉样本数据的分布、将原输入信息的分布情况经过极大似然估计中参数的转化来将训练偏向转换为指定分布的样本。生成模型为3层感知机，每层总共有稀薄的11个隐含单元。生成模型的输入是一个噪音分布z～uniform(0,1)中的一个样例，使用生成模型来将点z₁,z₂,...z_m映射为x₁,x₂,...x_m，这样映射的点x_i＝G(z_i)在p_data(x)密集的地方会密集聚集。因此，在生成模型G中输入z将生成伪数据x′，其中z_i为输入随机噪声，x_i为真实对应的数据，x′为生成器G生成的数据，G(x)表示生成模型，p_data(x)为数据x的概率。

b.通过判别器D，以x为输入，然后输出该输入属于p_data的可能性。令D₁和D₂为D的副本(它们共享参数，那么D₁(x)＝D₂(x))。D₁的输入是从合法的数据(真实数据)分布x～p_data中得到的单个样例，所以当优化判别器时使D₁(x)最大化。D₂以x′(G生成的伪数据)为输入，当优化D时，将使D₂(x)最小化。D的损失函数为：log(D₁(x))+log(1-D₂(G(z)))。

2)生成器用于训练模型，将输入的样本映射为输出样本；

传统的生成对抗网络的生成器，输入端为随机噪声或一张图片，本发明的应用场景，需要将输入信号重构为提问语句，具体实现方法为：

a.步骤1)中构建的生成对抗网络，输入为随机噪声z，需要调整模型；

b.将输入语句分解为每个字的Unicode编码，如提问语句“请问如何缴纳电费”，分解为Unicode编码表示为：8BF7 95EE 5982 4F557F34 7EB3 7535 8D39；

c.将Unicode编码转换为十进制，并替代原始的噪声输入，此时生成器的输入则调整为提问语句的Unicode编码；

d.生成结果x′此时也为Unicode编码，转换为汉字输出。

3)判别器用于判断生成器的输出语句为真实的应答内容(样本集中的真实应答)，或是由生成器生成的应答内容；

4)判别器若能够准确识别出生成应答(与样本集中真实应答区分开)，则说明生成器生成的应答内容不够“形象”，则返回调整生成器参数；

5)若不能够区分为生成应答，还是真实应答，则说明判别器生成的应答内容与原样本集应答内容高度相似，模型性能达到使用要求，则输出应答内容至用户。

步骤S3、提问样本元语义分解：提取提问样本中的最核心内容，去掉语气助词、重复表达、不相关内容等冗余信息，元语义分解后提取的内容为关键词、以及和关键词绑定的动词，如关键词为“电费”，动词为“查”，则语义分解后提取的元语义为“查电费”。以“请问如何查询电费”为例，具体实现方法为：

a.人工构建电力客服关键词库，关键词库包括相关业务的一些专业名词，例如“电费”、“用电量”、“停电”、“复电”等；

b.将关键词库分为用电、查电、故障等几大类，每类进一步细分业务，建立多叉树数据库索引结构，便于后续反向索引；

c.由于电力客服关键词库体量较小，此时采用逐词比对的方式，匹配提问语句中是否有该关键词，例如逐个查找提问语句中是否有“电费”、“停电”、“用电”等所有关键词；

d.若比对结果显示某关键词在提问语句中存在，则表明匹配成功，停止后续匹配操作。

2)成功匹配后，提取关键词；

3)构建关键词动词库，如和关键词“电费”相关的动词库包括：查、查询、缴、缴纳、交、付等等，实现步骤为：

a.人工构建关键词动词库，动词库中的记录包括历史样本中出现的各类动词，如“查”、“查询”、“交”、“缴纳”等；

b.在动词库中，人工操作为每个动词增加属性项，扩充其属性，属性内容为与其对应的可选关键词，例如对于动词“查询”，则扩充其属性项内容：“电费”、“余额”、“用电”、“公告”等，实现“电费”关键词与多个相关动词的绑定；

c.在动词数据库中，选择检索方式：指定属性项为“电费”的记录，返回动词列表如：“查”、“查询”、“缴纳”、“交”等；

d.依次匹配c)步骤的结果结果，返回匹配成功的动词，如上例返回结果“查”；

e)匹配动词库，提取关键词动词；

4)组合关键词及与其绑定的动词，构建提问样本的元语义；

步骤S4、应答样本语义切割：相对于提问样本，应答样本为电力客服官方回复，回复内容应确保完整、规范、准确。通常情况下，应答样本的内容篇幅要远大于提问样本。因此，在提取应答样本元语义之前，需要对样本的语义进行切割，分为不同内容主题，为后续提取多元语义提供基础，具体实现方法为：

1)首先查询关键词库，匹配应答样本中的关键词；

2)若应答样本中关键词数量为1，则初步判定为该样本语句为单语义语句，转入下一步“应答样本元语义分解步骤”继续执行；

5)若多个关键词，其中有某2个以上关键词在同一语句，无法明确判断该语句的元语义，则需接入动词库辅助判断。如语句“查询本月用电的电费情况”，其中包含“用电”和“电费”两个关键词，根据动词“查询”，确定选择“电费”作为该语句关键词，以便于后续步骤组合元语义(查询电费)。

6)对于多个关键词存在同一语句，并无法判断选用哪一个关键词用于合成元语义的情况，则需返回人工处理，拆分长语句。另一方面，前期也应包含样本的预处理过程，尽量确保每条语句表达内容单一，以短语句的形式输出，应答用户。

步骤S5、应答样本元语义分解：在应答样本语义分割的基础上，提取应答语句的元语义，其步骤类似提问样本元语义分解步骤。具体实现为：

1)关键词通过电力客服关键词索引库进行匹配；

2)成功匹配后，提取关键词；

3)构建关键词动词库；

4)匹配动词库，提取关键词动词；

5)组合关键词及与其绑定的动词，构建提问样本的元语义；

6)确定应答样本内容的元语义条数及各自内容。

步骤S6、应答样本集扩充：本发明涉及的生成网络模型，与传统的知识库检索式应答模型不同，应答内容全部为自动生成，对样本量的需求远大于传统知识库模型。因此，如何有效扩充样本空间，是影响后续模型性能的关键。具体实现方法为：

1)同样采用生成对抗网络，实现样本集的扩充，因此第一步需要重新构建用于样本集扩充的生成对抗网络(前述生成对抗网络用于应答内容生成)；

2)生成对抗网络中，生成器端的输入为元语义，输出为扩充后的自然应答用语；

3)输入样本中，采用动词库随机替换，扩大元语义空间；

4)训练生成网络模型，对于生成的应答用语，和对应的提问用语关联，扩充样本库空间。

5)生成的内容需要人工审核，审核通过后入库处理，最终扩充样本空间。

如图3所示，本发明实施例还提供的一种元语义分解的电力客服留言生成模型样本处理系统，各模块之间的逻辑关系为：提问样本处理模块10实现提问样本的预处理；应答样本语义切割模块20和应答样本元语义分解模块30实现应答样本的预处理；提问样本处理模块10和应答样本元语义分解模块30的处理结果，将作为生成对抗网络模块40的样本进行生成模型训练；生成对抗网络模块40的输出为样本扩充生成模型；应答样本集扩充模块50将采用生成对抗网络模块40的生成模型，生成新的提问样本和应答样本，实现样本集的扩充。

具体为：

提问样本处理模块10，用于提取提问样本中的最核心内容，去掉语气助词、重复表达、不相关内容等冗余信息，元语义分解后提取的内容为关键词、及和关键词绑定的动词，如关键词为“电费”，动词为“查”，则语义分解后提取的元语义为“查电费”。

可选的，若提问样本为长语句，则采取类似应答样本的语义切割方法，切割为多元语义结构处理。进一步的，若仍无法有效处理，则返回提示给样本库管理员，提示该提问样本不符合训练标准，需拆分分解为语义明确的短语句后重新入库。

应答样本语义切割模块20，用于将应答语句按照内容主题，分为不同句子，进而分别提取每个句子的元语义。对于提取的多个关键词，首先判断多个关键词的位置，若每个关键词分别独立在不同的语句中，则直接转后续元语义分解步骤；若多个关键词，其中有某2个以上关键词在同一语句，无法明确判断该语句的元语义，则需接入动词库辅助判断。

应答样本元语义分解模块30，此模块的核心功能类似提问样本处理模块10，用于提取提问样本中的最核心内容，去掉语气助词、重复表达、不相关内容等冗余信息。不同之处在于，应答样本的元语义分解通常需要处理多元语义，因此需要额外确定应答样本内容的元语义条数及各自内容。

生成对抗网络构建模块40，用于根据提问样本处理模块10和应答样本元语义分解模块30的处理结果，构建用于应答机器人应答用语生成、样本集扩充两方面需求的生成对抗网络，两个应用场景需要搭建分别独立的训练网络，搭建于Tensorflow 2.0多GPU的运行环境。网络结构中，生成器用到的是U-Net结构，输入的数据提问语句或元语义词组，判别器用到的是PatchGAN，判别器的作用是在输入提问语句或元语义词组的条件下，对于生成的语句判断为假，对于真实图片判断为真。

应答样本集扩充模块50，用于采用生成对抗网络模块40的生成模型，生成新的提问样本和应答样本，实现样本集的扩充。其中生成器端的输入为元语义，输出为扩充后的自然应答用语；生成的内容需要人工审核，审核通过后入库处理，最终扩充样本空间。应答样本集扩充模块50具体实现功能为：在生成对抗网络中生成器端的输入元语义，输出扩充后的自然应答用语，输入样本中，采用动词库随机替换，扩大元语义空间；训练生成网络模型，对于生成的应答用语和对应的提问用语关联，扩充样本库空间；生成的内容进行人工审核，审核通过后入库处理，最终扩充样本空间。

可选的，输入样本中，若样本集规模较小，可采用动词库随机替换，扩大元语义空间。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何属于本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于元语义分解的电力客服留言生成模型样本处理方法，其特征在于：包括如下步骤：

2.如权利要求1所述的基于元语义分解的电力客服留言生成模型样本处理方法，其特征在于：所述步骤S1具体实现为：

1)在装有2个或以上显卡的服务器上安装Ubuntu16.04操作系统；

2)显卡型号选择GTX 2080Ti或Titan X显卡；

3.如权利要求1所述的基于元语义分解的电力客服留言生成模型样本处理方法，其特征在于：所述步骤S2中的所述冗余信息包括语气助词、重复表达、不相关内容。

4.如权利要求1所述的基于元语义分解的电力客服留言生成模型样本处理方法，其特征在于：所述步骤S2具体实现为：

1)搭建生成对抗网络框架，框架由生成器和判别器组成；

c.生成结果此时也为Unicode编码，转换为汉字输出；

5.如权利要求1所述的基于元语义分解的电力客服留言生成模型样本处理方法，其特征在于：所述步骤S3具体实现为：

c.采用逐词比对的方式，匹配提问语句中是否有该关键词；

2)成功匹配后，提取关键词；

3)构建关键词动词库，实现步骤为：

c.在动词数据库中，选择检索方式；

d.依次匹配c)步骤的结果结果，返回匹配成功的动词；

e)匹配动词库，提取关键词动词；

4)组合关键词及与其绑定的动词，构建提问样本的元语义。

6.如权利要求1所述的基于元语义分解的电力客服留言生成模型样本处理方法，其特征在于：所述步骤S4具体实现为：

1)首先查询关键词库，匹配应答样本中的关键词；

7.如权利要求1所述的基于元语义分解的电力客服留言生成模型样本处理方法，其特征在于：所述步骤S5具体实现为：

1)关键词通过电力客服关键词索引库进行匹配；

2)成功匹配后，提取关键词；

3)构建关键词动词库；

4)匹配动词库，提取关键词动词；

5)组合关键词及与其绑定的动词，构建提问样本的元语义；

6)确定应答样本内容的元语义条数及各自内容。

8.如权利要求1所述的基于元语义分解的电力客服留言生成模型样本处理方法，其特征在于：所述步骤S6具体实现为：

2)输入样本中，采用动词库随机替换，扩大元语义空间；

9.一种基于元语义分解的电力客服留言生成模型样本处理系统，其特征在于：包括

10.如权利要求9所述的基于元语义分解的电力客服留言生成模型样本处理方法，其特征在于：应答样本集扩充模块具体实现功能为：在生成对抗网络中生成器端的输入元语义，输出扩充后的自然应答用语，输入样本中，采用动词库随机替换，扩大元语义空间；训练生成网络模型，对于生成的应答用语和对应的提问用语关联，扩充样本库空间；生成的内容进行人工审核，审核通过后入库处理，最终扩充样本空间。