CN117093715A

CN117093715A - 词库扩充方法、系统、计算机设备及存储介质

Info

Publication number: CN117093715A
Application number: CN202311346982.5A
Authority: CN
Inventors: 雷西; 高显; 刘璨; 齐雪; 汤剑男
Original assignee: Hunan Caixin Digital Technology Co ltd
Current assignee: Hunan Caixin Digital Technology Co ltd
Priority date: 2023-10-18
Filing date: 2023-10-18
Publication date: 2023-11-21
Anticipated expiration: 2043-10-18
Also published as: CN117093715B

Abstract

本申请实施例属于互联网技术领域，涉及一种词库扩充方法，包括：获取属于目标业务领域的第一舆情数据和不属于所述目标业务领域的第二舆情数据；根据所述第一舆情数据和所述第二舆情数据进行特征提取，得到特征词汇数据；根据所述特征词汇数据，构建基于生成对抗网络的领域词汇生成模型；通过所述领域词汇生成模型生成待鉴别词汇数据，根据所述特征词汇数据和所述待鉴别词汇数据，构建领域词汇鉴别模型；通过所述领域词汇鉴别模型对所述待鉴别词汇数据进行词汇鉴别，得到鉴别结果，并根据所述鉴别结果对所述目标业务领域对应的词库进行扩充。本申请还提供一种词库扩充系统、计算机设备及存储介质。本申请提高了扩充词库时的针对性和专业性。

Description

词库扩充方法、系统、计算机设备及存储介质

技术领域

本申请涉及互联网技术领域，尤其涉及一种词库扩充方法、系统、计算机设备及存储介质。

背景技术

随着互联网的飞速发展，网络语言已成为了人们生活中必不可少的一部分，不停地涌现于各个领域。由于网络语言的不断演化，用来体现网络语言的词汇也发生着日新月异的变化，因此，针对特定的业务领域，为了更好地对词汇进行判别，扩充词库是必不可少的。

一般而言，传统的扩充词库的过程，可以通过相似性、AI云计算等方式，以行业专家给出的关键词列表为索引，并采用主题建模方法如LDA对关键词列表中关键词的关联范围进行扩充，而后检索关联范围内的关联词，从而基于关联词对词库进行扩充。

然而，采用上述方式，没有考虑到关联词的质量和业务领域的适用情况，对于部分隐蔽性强的词汇不能很好的判别，例如在非法集资领域中将“分红”写成“分h”，此外，主题建模方法的泛化能力较弱，最终使得扩充词库时针对性较弱、专业性较差。

发明内容

本申请实施例的目的在于提出一种词库扩充方法、系统、计算机设备及存储介质，以解决扩充词库时针对性较弱，不能很好地判别隐蔽性强的词汇的技术问题。

为了解决上述技术问题，本申请实施例提供一种词库扩充方法，采用了如下所述的技术方案：

获取属于目标业务领域的第一舆情数据和不属于所述目标业务领域的第二舆情数据；

根据所述第一舆情数据和所述第二舆情数据进行特征提取，得到特征词汇数据；

根据所述特征词汇数据，构建基于生成对抗网络的领域词汇生成模型；

通过所述领域词汇生成模型生成待鉴别词汇数据，根据所述特征词汇数据和所述待鉴别词汇数据，构建领域词汇鉴别模型；

通过所述领域词汇鉴别模型对所述待鉴别词汇数据进行词汇鉴别，得到鉴别结果，并根据所述鉴别结果对所述目标业务领域对应的词库进行扩充。

进一步的，所述根据所述特征词汇数据，构建基于生成对抗网络的领域词汇生成模型的步骤，具体包括：

建立包含生成器网络和判别器网络的生成对抗网络模型；

根据所述特征词汇数据对所述生成对抗网络模型进行模型优化训练，得到训练完成的所述领域词汇生成模型。

进一步的，所述特征词汇数据包括所述第一舆情数据对应的第一特征词汇数据和所述第二舆情数据对应的第二特征词汇数据，所述根据所述特征词汇数据对所述生成对抗网络模型进行模型优化训练，得到训练完成的所述领域词汇生成模型的步骤，具体包括：

根据所述生成器网络将所述第二特征词汇数据转换为目标业务领域的生成词汇数据；

根据所述判别器网络对所述生成词汇数据和所述第一特征词汇数据进行判别，得到判别结果；

根据所述判别结果对所述生成器网络的参数进行优化；

当所述判别器网络对应的判别准确率为50%时，将所述生成对抗网络模型作为所述领域词汇生成模型。

进一步的，所述领域词汇生成模型的损失函数为：

；

其中，E为数学期望，G为生成器网络，D为判别器网络，X为第一特征词汇数据，为生成词汇数据。

进一步的，所述通过所述领域词汇生成模型生成待鉴别词汇数据，根据所述特征词汇数据和所述待鉴别词汇数据，构建领域词汇鉴别模型的步骤，具体包括：

通过所述领域词汇生成模型生成所述待鉴别词汇数据，将所述第一特征词汇数据、所述第二特征词汇数据以及所述待鉴别词汇数据作为特征集；

根据所述特征集，建立机器学习分类模型并对所述机器学习分类模型进行模型优化训练，得到训练完成的所述领域词汇鉴别模型。

进一步的，所述根据所述特征集，建立机器学习模型并对所述机器学习模型进行模型优化训练，得到训练完成的所述领域词汇鉴别模型的步骤，具体包括：

将所述特征集分为训练集和测试集；

根据所述训练集执行分类器算法，生成所述机器学习分类模型；

将所述测试集输入所述机器学习分类模型进行测试，根据测试结果对所述机器学习分类模型的模型参数进行优化，得到所述领域词汇鉴别模型。

进一步的，所述通过所述领域词汇鉴别模型对所述待鉴别词汇数据进行词汇鉴别，得到鉴别结果，并根据所述鉴别结果对所述目标业务领域对应的词库进行扩充的步骤，具体包括：

将所述待鉴别词汇数据输入所述领域词汇鉴别模型，得到所述鉴别结果；

根据所述鉴别结果，确定所述待鉴别词汇数据是否属于所述目标业务领域；

若所述待鉴别词汇数据属于所述目标业务领域，则将所述待鉴别词汇数据填充至所述词库；

若所述待鉴别词汇数据不属于所述目标业务领域，则通过所述领域词汇生成模型再次生成待鉴别词汇数据，并返回执行将待鉴别词汇数据输入领域词汇鉴别模型，得到鉴别结果的步骤。

为了解决上述技术问题，本申请实施例还提供一种词库扩充系统，采用了如下所述的技术方案：

一种词库扩充系统，包括：

获取模块，用于获取属于目标业务领域的第一舆情数据和不属于所述目标业务领域的第二舆情数据；

提取模块，用于根据所述第一舆情数据和所述第二舆情数据进行特征提取，得到特征词汇数据；

第一构建模块，用于根据所述特征词汇数据，构建基于生成对抗网络的领域词汇生成模型；

第二构建模块，用于通过所述领域词汇生成模型生成待鉴别词汇数据，根据所述特征词汇数据和所述待鉴别词汇数据，构建领域词汇鉴别模型；

鉴别模块，用于通过所述领域词汇鉴别模型对所述待鉴别词汇数据进行词汇鉴别，得到鉴别结果，并根据所述鉴别结果对所述目标业务领域对应的词库进行扩充。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现如上所述的词库扩充方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的词库扩充方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请公开的词库扩充方法，包括：获取属于目标业务领域的第一舆情数据和不属于所述目标业务领域的第二舆情数据；根据所述第一舆情数据和所述第二舆情数据进行特征提取，得到特征词汇数据；根据所述特征词汇数据，构建基于生成对抗网络的领域词汇生成模型；通过所述领域词汇生成模型生成待鉴别词汇数据，根据所述特征词汇数据和所述待鉴别词汇数据，构建领域词汇鉴别模型；通过所述领域词汇鉴别模型对所述待鉴别词汇数据进行词汇鉴别，得到鉴别结果，并根据所述鉴别结果对所述目标业务领域对应的词库进行扩充。本申请通过基于生成对抗网络的领域词汇生成模型进行词汇生成，并通过基于机器学习分类算法的领域词汇鉴别模型进行词汇鉴别，实现了针对特定业务领域的词库扩充，具有较强的泛化能力，提高了词库的针对性和专业性，从而可以更好地对隐蔽性强的词汇进行判别。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的词库扩充方法的一个实施例的流程图；

图3是根据本申请的词库扩充系统的一个实施例的结构示意图；

图4是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的词库扩充方法一般由终端设备执行，相应地，词库扩充系统一般设置于终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的词库扩充的方法的一个实施例的流程图。所述的词库扩充方法，包括以下步骤：

步骤S201，获取属于目标业务领域的第一舆情数据和不属于所述目标业务领域的第二舆情数据；

需要指出的是，词库扩充方法运行于其上的电子设备(例如图1所示的终端设备)可以通过有线连接方式或者无线连接方式接收和发送数据。上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

在本实施例中，词库扩充方法运行时，首先需要获取属于目标业务领域的第一舆情数据和不属于目标业务领域的第二舆情数据。具体地，在特定的业务领域中，为了针对隐蔽性强的词汇进行判别，需要对该业务领域的词库进行扩充，首先可以将该业务领域作为目标业务领域，并获取属于目标业务领域的舆情数据，作为第一舆情数据；以及不属于目标业务领域的舆情数据，作为第二舆情数据。例如，目标业务领域为非法集资领域，针对该领域，可以采集与非法集资相关的舆情信息和广告宣传信息，作为第一舆情数据，同时，采集与非法集资不相关的大量舆情信息，作为第二舆情数据，以使得后续可以根据第一舆情数据和第二舆情数据构建领域词汇生成模型和领域词汇鉴别模型。

步骤S202，根据所述第一舆情数据和所述第二舆情数据进行特征提取，得到特征词汇数据；

在本实施例中，得到属于目标业务领域的第一舆情数据和不属于目标业务领域的第二舆情数据后，即可根据第一舆情数据和第二舆情数据进行特征提取，得到特征词汇数据。具体地，对于第一舆情数据和第二舆情数据，可以进行特征提取，得到特征词汇数据，例如根据词频进行文本特征分析，将词频小于某一闭值或大于某一值的词删除，该方式所基于的假设为“出现频率较小的词汇对过滤的影响也较小，出现频率较大的词可能是无意义的普通词汇”，通过该方式进行特征提取可以降低特征空间的维数。

可选地，在得到特征词汇数据后，还可以根据特征词汇数据构建特征词库，使得持续进行特征提取时可以将得到的特征词汇数据加入特征词库，后续可以从特征词库中提取特征词汇数据用于模型的构建。

可选地，为了根据第一舆情数据和第二舆情数据进行特征提取以得到特征词汇数据，还可以采用文档频次、TF-IDF算法、互信息以及期望交叉熵等方式，从而提高特征词汇数据的准确性。

步骤S203，根据所述特征词汇数据，构建基于生成对抗网络的领域词汇生成模型；

在本实施例中，得到特征词汇数据后，即可根据特征词汇数据，构建基于生成对抗网络的领域词汇生成模型。具体地，可以先建立包含生成器网络和判别器网络的生成对抗网络模型，而后根据特征词汇数据对生成对抗网络模型进行模型优化训练，并将训练完成的生成对抗网络模型作为领域词汇生成模型，例如特征词汇数据包含第一舆情数据对应的第一特征词汇数据和第二舆情数据对应的第二特征词汇数据，将不属于目标业务领域的第二特征词汇数据输入生成器网络，生成器网络将其转换为目标业务领域的生成词汇数据，而后将第一特征词汇数据和生成词汇数据输入判别器网络，其中第一特征数据作为真实数据，由判别器对生成词汇数据进行判别，确定其为真实数据还是虚假数据，从而根据判别结果优化生成器网络的参数，直至判别结果的准确率达到50%，此时可以确定生成对抗网络模型训练完成，将其作为领域词汇生成模型。

可选地，在领域词汇生成模型的模型优化训练过程中，其损失函数l可以为：，其中，E为数学期望，G为生成器网络，D为判别器网络，X为第一特征词汇数据，/>为生成词汇数据，通过该损失函数提高领域词汇生成模型的鲁棒性。

步骤S204，通过所述领域词汇生成模型生成待鉴别词汇数据，根据所述特征词汇数据和所述待鉴别词汇数据，构建领域词汇鉴别模型；

在本实施例中，构建了领域词汇生成模型后，即可通过领域词汇生成模型生成待鉴别词汇数据，而后根据特征词汇数据和待鉴别词汇数据，构建领域词汇鉴别模型。具体地，领域词汇鉴别模型采用机器学习算法，首先可以通过领域词汇生成模型生成待鉴别词汇数据，并且特征词汇数据包含第一舆情数据对应的第一特征词汇数据和第二舆情数据对应的第二特征词汇数据，而后可以将第一特征词汇数据、第二特征词汇数据以及所述待鉴别词汇数据作为特征集，从而根据特征集，建立机器学习分类模型并对机器学习分类模型进行模型优化训练，最终将训练完成的机器学习模型作为领域词汇鉴别模型。

步骤S205，通过所述领域词汇鉴别模型对所述待鉴别词汇数据进行词汇鉴别，得到鉴别结果，并根据所述鉴别结果对所述目标业务领域对应的词库进行扩充。

在本实施例中，构建领域词汇鉴别模型后，即可通过领域词汇鉴别模型对待鉴别词汇数据进行词汇鉴别，得到鉴别结果，并根据鉴别结果对目标业务领域对应的词库进行扩充。具体地，可以将领域词汇生成模型生成的待鉴别词汇数据输入领域词汇鉴别模型进行鉴别，由于领域词汇生成模型属于机器学习分类算法，如此可以实现待鉴别词汇数据的分类，确定其是否属于目标业务领域，最终根据鉴别后属于目标业务领域的词汇数据对目标业务领域对应的词库进行扩充。

本申请通过基于生成对抗网络的领域词汇生成模型进行词汇生成，并通过基于机器学习分类算法的领域词汇鉴别模型进行词汇鉴别，实现了针对特定业务领域的词库扩充，具有较强的泛化能力，提高了词库的针对性和专业性，从而可以更好地对隐蔽性强的词汇进行判别。

在本实施例的一些可选的实现方式中，上述根据所述特征词汇数据，构建基于生成对抗网络的领域词汇生成模型的步骤包括：

建立包含生成器网络和判别器网络的生成对抗网络模型；

在本实施例中，根据第一舆情数据和第二舆情数据进行特征提取，并得到特征词汇数据后，可以建立包含生成器网络和判别器网络的生成对抗网络模型，而后根据特征词汇数据对生成对抗网络模型进行模型优化训练，得到训练完成的领域词汇生成模型。具体地，由于需要构建基于生成对抗网络的领域词汇生成模型，首先需要建立一个初始的生成对抗网络模型，该生成对抗网络模型包括生成器网络和判别器网络，而特征词汇数据包括了第一舆情数据对应的第一特征词汇数据和第二舆情数据对应的第二特征词汇数据，可以根据生成器网络将第二特征词汇数据转换为目标业务领域的生成词汇数据，再根据判别器网络对生成词汇数据和第一特征词汇数据进行判别，得到判别结果，从而根据判别结果对生成器网络的参数进行优化，当判别器网络对应的判别准确率为50%时，将生成对抗网络模型作为领域词汇生成模型。

本申请通过基于生成对抗网络的领域词汇生成模型进行词汇生成，提高了生成的词汇数据的准确性，从而可以针对特定业务领域的词库扩充，具有较强的泛化能力，使得词库的针对性和专业性更强，可以更好地对隐蔽性强的词汇进行判别。

在本实施例的一些可选的实现方式中，上述特征词汇数据包括所述第一舆情数据对应的第一特征词汇数据和所述第二舆情数据对应的第二特征词汇数据，上述根据所述特征词汇数据对所述生成对抗网络模型进行模型优化训练，得到训练完成的所述领域词汇生成模型的步骤包括：

根据所述判别结果对所述生成器网络的参数进行优化；

在本实施例中，特征词汇数据包括第一舆情数据对应的第一特征词汇数据和第二舆情数据对应的第二特征词汇数据，在建立包含生成器网络和判别器网络的生成对抗网络模型后，可以根据生成器网络将第二特征词汇数据转换为目标业务领域的生成词汇数据，并根据判别器网络对生成词汇数据和第一特征词汇数据进行判别，得到判别结果，而后根据判别结果对生成器网络的参数进行优化，当判别器网络对应的判别准确率为50%时，将生成对抗网络模型作为领域词汇生成模型。具体地，由于第一特征词汇数据属于目标业务领域，可以作为真实数据，而第二特征词汇数据不属于目标业务领域，可以作为虚假数据，例如，假设目标业务领域为非法集资领域，则第二特征词汇数据不属于非法集资领域（如只是单纯属于电信诈骗领域），通过将第二特征词汇数据输入生成器网络，即可通过生成器网络将其转换为非法集资领域的生成词汇数据，而后根据判别器网络对生成词汇数据和第一特征词汇数据的相似度进行判别，得到判别结果，该判别结果包含了生成词汇数据为虚假数据的概率，即判别器网络对应的判别准确率，如判别准确率为90%，则生成词汇数据为虚假数据的概率为90%，此时需要对生成器网络的参数进行优化，以降低判别准确率，当判别准确率为50%时，则判别器网络判别生成词汇数据为虚假数据的概率为50%，处于无法分辨的状态，此时，可以认为模型优化训练已完成，将训练完成的生成对抗网络模型作为领域词汇生成模型。

可选地，上述过程属于固定“判别器网络”并训练“生成器网络”，在构建了领域词汇生成模型后，还可以继续对其进行优化，采用固定“生成器网络”并训练“判别器网络”的方式，从而提高领域词汇生成模型中判别器网络的判别能力，后续可以进一步提高领域词汇生成模型生成目标业务领域的词汇数据的准确性。

本申请通过生成对抗网络的训练和优化，构建领域词汇生成模型，用于针对特定业务领域进行词汇生成，提高了生成的词汇数据的准确性，以实现词库扩充，具有较强的泛化能力，使得词库的针对性和专业性更强。

在本实施例的一些可选的实现方式中，上述领域词汇生成模型的损失函数为：

；

在本实施例中，在领域词汇生成模型的模型优化训练过程中，其损失函数l可以为：，其中，E为数学期望，G为生成器网络，D为判别器网络，X为第一特征词汇数据，/>为生成词汇数据。具体地，在该损失函数中，右侧的两项内容为/>，当这两项内容最大化时，生成器网络的参数固定，判别器网络的参数得到更新；当这两项的内容最小化时，判别器网络的参数固定，生成器网络的参数得到更新。

本申请通过损失函数可以合理地对基于生成对抗网络的领域词汇生成模型进行优化，从而提高了领域词汇生成模型的鲁棒性，使得领域词汇生成模型具有较强的泛化能力，最终扩充词库时针对性和专业性更强。

在本实施例的一些可选的实现方式中，上述通过所述领域词汇生成模型生成待鉴别词汇数据，根据所述特征词汇数据和所述待鉴别词汇数据，构建领域词汇鉴别模型的步骤包括：

在本实施例中，构建了领域词汇生成模型后，即可通过领域词汇生成模型生成待鉴别词汇数据，并将第一特征词汇数据、第二特征词汇数据以及待鉴别词汇数据作为特征集，而后根据特征集，建立机器学习分类模型并对机器学习分类模型进行模型优化训练，得到训练完成的领域词汇鉴别模型。具体地，机器学习分类算法可以对数据的类别进行预测，由于第一特征词汇数据属于目标业务领域，可以作为正向样本，而第二特征词汇数据不属于目标业务领域，可以作为负向样本，将第一特征词汇数据、第二特征词汇数据以及待鉴别词汇数据作为特征集后，可以将特征集分为训练集和测试集，并根据训练集执行分类器算法，生成机器学习分类模型，而后将测试集输入机器学习分类模型进行测试，即可根据测试结果对机器学习分类模型的模型参数进行优化，得到领域词汇鉴别模型，后续将词汇数据输入领域词汇鉴别模型，即可鉴别输入的词汇数据属于正向类别还是负向类别。

本申请通过基于机器学习分类算法的领域词汇鉴别模型进行词汇鉴别，用于实现针对特定业务领域进行词库扩充，提高了词汇鉴别的准确性，并且提高了词库的针对性和专业性，从而可以更好地对隐蔽性强的词汇进行判别。

在本实施例的一些可选的实现方式中，上述根据所述特征集，建立机器学习模型并对所述机器学习模型进行模型优化训练，得到训练完成的所述领域词汇鉴别模型的步骤包括：

将所述特征集分为训练集和测试集；

在本实施例中，根据第一特征词汇数据、第二特征词汇数据以及待鉴别词汇数据得到特征集后，可以将特征集分为训练集和测试集，并根据训练集执行分类器算法，生成机器学习分类模型，而后将测试集输入机器学习分类模型进行测试，即可根据测试结果对机器学习分类模型的模型参数进行优化，得到领域词汇鉴别模型，例如，分类器算法可以采用K-近邻算法(K-NN)，该算法通过识别被分成若干类的数据点，以预测新样本点的分类，根据训练集执行该分类器算法，可以将数据分为两个类别，包括属于目标业务领域和不属于目标业务领域，使得得到领域词汇鉴别模型后即可通过领域词汇鉴别模型对输入的词汇数据进行鉴别。

本申请通过机器学习分类算法构建领域词汇鉴别模型，后续可以通过领域词汇鉴别模型进行词汇鉴别，从而针对特定业务领域实现词库扩充，提高了词汇鉴别的准确性，并且提高了词库的针对性和专业性。

在本实施例的一些可选的实现方式中，上述通过所述领域词汇鉴别模型对所述待鉴别词汇数据进行词汇鉴别，得到鉴别结果，并根据所述鉴别结果对所述目标业务领域对应的词库进行扩充的步骤，具体包括：

在本实施例中，构建领域词汇鉴别模型后，即可将领域词汇生成模型生成的待鉴别词汇数据输入领域词汇鉴别模型，得到鉴别结果，并根据鉴别结果，确定待鉴别词汇数据是否属于目标业务领域，若待鉴别词汇数据属于目标业务领域，则将待鉴别词汇数据填充至目标业务领域对应的词库；若待鉴别词汇数据不属于目标业务领域，则通过领域词汇生成模型再次生成待鉴别词汇数据，并返回执行将待鉴别词汇数据输入领域词汇鉴别模型，得到鉴别结果的步骤。具体地，领域词汇生成模型可以针对目标业务领域生成待鉴别词汇数据，而通过领域词汇鉴别模型可以对待鉴别词汇数据进行进一步筛选，确定其是否属于目标业务领域，若属于目标业务领域，则可以将该词汇数据填充至目标业务领域对应的词库，实现词库扩充，若不属于目标业务领域，则可以通过领域词汇生成模型再次生成待鉴别词汇数据，并通过领域词汇鉴别模型对新生成的待鉴别词汇数据进行鉴别，重复上述步骤。

本申请通过基于生成对抗网络的领域词汇生成模型进行词汇生成，并通过基于机器学习分类算法的领域词汇鉴别模型进行词汇鉴别，实现了针对特定业务领域的词库扩充，从而提高了词库的针对性和专业性，使得扩充后的词库可以更好地对隐蔽性强的词汇进行判别。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3，作为对上述图2所示方法的实现，本申请提供了一种词库扩充系统的一个实施例，该系统实施例与图2所示的方法实施例相对应，该系统具体可以应用于各种电子设备中。

如图3所示，本实施例所述的词库扩充系统300包括：获取模块301、提取模块302、第一构建模块303、第二构建模块304以及鉴别模块305。其中：

获取模块301，用于获取属于目标业务领域的第一舆情数据和不属于所述目标业务领域的第二舆情数据；

提取模块302，用于根据所述第一舆情数据和所述第二舆情数据进行特征提取，得到特征词汇数据；

第一构建模块303，用于根据所述特征词汇数据，构建基于生成对抗网络的领域词汇生成模型；

第二构建模块304，用于通过所述领域词汇生成模型生成待鉴别词汇数据，根据所述特征词汇数据和所述待鉴别词汇数据，构建领域词汇鉴别模型；

鉴别模块305，用于通过所述领域词汇鉴别模型对所述待鉴别词汇数据进行词汇鉴别，得到鉴别结果，并根据所述鉴别结果对所述目标业务领域对应的词库进行扩充。

本申请提出的词库扩充系统，通过基于生成对抗网络的领域词汇生成模型进行词汇生成，并通过基于机器学习分类算法的领域词汇鉴别模型进行词汇鉴别，实现了针对特定业务领域的词库扩充，具有较强的泛化能力，提高了词库的针对性和专业性，从而可以更好地对隐蔽性强的词汇进行判别。

在本实施例的一些可选的实现方式中，第一构建模块303还用于：

建立包含生成器网络和判别器网络的生成对抗网络模型；

本申请提出的词库扩充系统，通过基于生成对抗网络的领域词汇生成模型进行词汇生成，提高了生成的词汇数据的准确性，从而可以针对特定业务领域的词库扩充，具有较强的泛化能力，使得词库的针对性和专业性更强，可以更好地对隐蔽性强的词汇进行判别。

在本实施例的一些可选的实现方式中，上述特征词汇数据包括所述第一舆情数据对应的第一特征词汇数据和所述第二舆情数据对应的第二特征词汇数据，第一构建模块303还用于：

根据所述判别结果对所述生成器网络的参数进行优化；

本申请提出的词库扩充系统，通过生成对抗网络的训练和优化，构建领域词汇生成模型，用于针对特定业务领域进行词汇生成，提高了生成的词汇数据的准确性，以实现词库扩充，具有较强的泛化能力，使得词库的针对性和专业性更强。

；

本申请提出的词库扩充系统，通过损失函数可以合理地对基于生成对抗网络的领域词汇生成模型进行优化，从而提高了领域词汇生成模型的鲁棒性，使得领域词汇生成模型具有较强的泛化能力，最终扩充词库时针对性和专业性更强。

在本实施例的一些可选的实现方式中，第二构建模块304还用于：

本申请提出的词库扩充系统，通过基于机器学习分类算法的领域词汇鉴别模型进行词汇鉴别，用于实现针对特定业务领域进行词库扩充，提高了词汇鉴别的准确性，并且提高了词库的针对性和专业性，从而可以更好地对隐蔽性强的词汇进行判别。

将所述特征集分为训练集和测试集；

本申请提出的词库扩充系统，通过机器学习分类算法构建领域词汇鉴别模型，后续可以通过领域词汇鉴别模型进行词汇鉴别，从而针对特定业务领域实现词库扩充，提高了词汇鉴别的准确性，并且提高了词库的针对性和专业性。

在本实施例的一些可选的实现方式中，鉴别模块305还用于：

本申请提出的词库扩充系统，通过基于生成对抗网络的领域词汇生成模型进行词汇生成，并通过基于机器学习分类算法的领域词汇鉴别模型进行词汇鉴别，实现了针对特定业务领域的词库扩充，从而提高了词库的针对性和专业性，使得扩充后的词库可以更好地对隐蔽性强的词汇进行判别。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图中仅示出了具有组件41-43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器 (Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、随机访问存储器（RAM）、静态随机访问存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存储器（PROM）、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（FlashCard）等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件，例如词库扩充方法的程序代码等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器（Central Processing Unit，CPU）、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的程序代码或者处理数据，例如运行所述词库扩充方法的程序代码。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本申请提出的计算机设备，通过基于生成对抗网络的领域词汇生成模型进行词汇生成，并通过基于机器学习分类算法的领域词汇鉴别模型进行词汇鉴别，实现了针对特定业务领域的词库扩充，具有较强的泛化能力，提高了词库的针对性和专业性，从而可以更好地对隐蔽性强的词汇进行判别。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有词库扩充程序，所述词库扩充程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述的词库扩充方法的步骤。

本申请提出的计算机可读存储介质，通过基于生成对抗网络的领域词汇生成模型进行词汇生成，并通过基于机器学习分类算法的领域词汇鉴别模型进行词汇鉴别，实现了针对特定业务领域的词库扩充，具有较强的泛化能力，提高了词库的针对性和专业性，从而可以更好地对隐蔽性强的词汇进行判别。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种词库扩充方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的词库扩充方法，其特征在于，所述根据所述特征词汇数据，构建基于生成对抗网络的领域词汇生成模型的步骤，具体包括：

建立包含生成器网络和判别器网络的生成对抗网络模型；

3.根据权利要求2所述的词库扩充方法，其特征在于，所述特征词汇数据包括所述第一舆情数据对应的第一特征词汇数据和所述第二舆情数据对应的第二特征词汇数据，所述根据所述特征词汇数据对所述生成对抗网络模型进行模型优化训练，得到训练完成的所述领域词汇生成模型的步骤，具体包括：

根据所述判别结果对所述生成器网络的参数进行优化；

4.根据权利要求3所述的词库扩充方法，其特征在于，所述领域词汇生成模型的损失函数为：

；

5.根据权利要求3所述的词库扩充方法，其特征在于，所述通过所述领域词汇生成模型生成待鉴别词汇数据，根据所述特征词汇数据和所述待鉴别词汇数据，构建领域词汇鉴别模型的步骤，具体包括：

6.根据权利要求5所述的词库扩充方法，其特征在于，所述根据所述特征集，建立机器学习模型并对所述机器学习模型进行模型优化训练，得到训练完成的所述领域词汇鉴别模型的步骤，具体包括：

将所述特征集分为训练集和测试集；

7.根据权利要求1至6任一项所述的词库扩充方法，其特征在于，所述通过所述领域词汇鉴别模型对所述待鉴别词汇数据进行词汇鉴别，得到鉴别结果，并根据所述鉴别结果对所述目标业务领域对应的词库进行扩充的步骤，具体包括：

8.一种词库扩充系统，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的词库扩充方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的词库扩充方法的步骤。