CN117829142A

CN117829142A - 一种开发者社区平台的贴文标记方法

Info

Publication number: CN117829142A
Application number: CN202311629605.2A
Authority: CN
Inventors: 涂振宇; 黄创光; 张�杰; 李君�; 纪烁; 彭庚
Original assignee: Tianyi Cloud Technology Co Ltd
Current assignee: Tianyi Cloud Technology Co Ltd
Priority date: 2023-12-01
Filing date: 2023-12-01
Publication date: 2024-04-05

Abstract

本发明公开一种开发者社区平台的贴文标记方法，涉及计算机网络应用技术领域。该开发者社区平台的贴文标记方法，先获取开发者在社区平台上传的贴文，之后对贴文进行预处理，并得到目标贴文文本，并对构建敏感词库并文本内容敏感词进行筛选，得到敏感词，再使用第一人工智能对负面敏感词进行判断，判断敏感词概率，最后通过第二人工智能判断正面敏感词概率，得到敏感词概率，对比两组敏感词概率并标记文本正负面。该开发者社区平台的贴文标记方法，通过对正面情感的程度与负面情感的程度的大小比较关系，来对贴文进行标记，通过对正面情感的贴文和负面情感的贴文进行标注，便于后期对负面情感的贴文进行过滤。

Description

一种开发者社区平台的贴文标记方法

技术领域

本发明涉及计算机网络应用技术领域，具体为一种开发者社区平台的贴文标记方法。

背景技术

目前，互联网领域发展迅速，在发布活动或报名活动时通常使用论坛发布的方法。

现有的论坛发布的贴文存在一些负面情感，这种负面情感不利于正面能量的传播，现有对于这些负面情感的贴文一般采用人工筛查的方式，但是这种人工筛查的方式，效率不高，因此，如何对这些负面情感的贴文进行智能化筛查，已成为行业内亟需解决的技术问题。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明公开了一种开发者社区平台的贴文标记方法，以解决上述背景技术中提出的对于这些负面情感的贴文一般采用人工筛查的方式，但是这种人工筛查的方式，效率不高的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：一种开发者社区平台的贴文标记方法，包括以下步骤；

步骤一、获取开发者在社区平台上传的贴文；

步骤二、对贴文进行预处理，并得到目标贴文文本；

步骤三、构建敏感词库并文本内容敏感词进行筛选，得到敏感词；

步骤四、使用第一人工智能对负面敏感词进行判断，判断敏感词概率；

步骤五、第二人工智能判断正面敏感词概率，最后得到敏感词概率，对比两组敏感词概率并标记文本正负面。

优选的，根据所述步骤一中获取开发者在社区平台上传的贴文，开发者需将撰写完成的贴文上传到社区平台上，社区平台需要对开发者上传的贴文进行收取，将文档完成收取后，可打开完成贴文。

优选的，根据所述步骤二中对贴文进行预处理，并得到目标贴文文本，对贴文中的格式进行处理，使其符合社区平台文档打开格式，同时对贴文中符号以及字体格式进行处理，使其符合社区平台文档打开格式。

优选的，所述对贴文进行预处理，通过社区平台文档存档盘对贴文进行收取，并得到目标贴文完整文本，同时可通过社区平台对打开完成贴文文档。

优选的，根据所述步骤三中构建敏感词库并文本内容敏感词进行筛选，得到敏感词，构建敏感词库，并向敏感词库内属于敏感词汇，生成敏感词汇代码，使敏感词汇代码输入智能运作流程中。

优选的，所述敏感词汇输入智能运作流程中，对文本中的敏感词汇进行查找，获取文本中存在的敏感词汇，根据预先构建的正反敏感词库对目标贴文文本进行正反敏感词进行筛选，并分别得到正负两组敏感词。

优选的，根据所述步骤四中使用第一人工智能对负面敏感词进行判断，判断敏感词概率，判断敏感词概率所述概率记为第一概率，并产生概念数据，使其可与第二人工智能产生的正面敏感词概率进行对比。

优选的，所述第一人工智能模型具体包括先提取目标贴文的特征向量，其中，特征向量包括标题、正文长度、关键字内容，再使用预先设定的标准正面情感的贴文作为训练集，训练得到第二人工智能模型，最后通过第二人工智能模型对目标贴文中的负面敏感词进行判断，判断其为正面的概率，其第一人工智能模型具体包括

优选的，根据所述步骤五中第二人工智能判断正面敏感词概率，先提取目标贴文的特征向量，其中，特征向量包括标题、正文长度、关键字内容，再使用预先设定的标准正面情感的贴文作为训练集，训练得到第二人工智能模型，最后通过第二人工智能模型对目标贴文中的负面敏感词进行判断，判断其为正面的概率，第二人工智能模型具体包括

优选的，所述得到正面敏感词概率后，对比两组敏感词概率并标记文本正负面，得到第一人工智能模型和第二人工智能模型，通过第一人工智能模型来得到贴文负面情感的程度，通过第二人工智能模型来得到贴文正面情感的程度，通过对正面情感的程度与负面情感的程度的大小比较关系，来对贴文进行标记。

本发明公开了一种开发者社区平台的贴文标记方法，其具备的有益效果如下：

1、该开发者社区平台的贴文标记方法，通过第一人工智能模型来得到贴文负面情感的程度，通过第二人工智能模型来得到贴文正面情感的程度，通过对正面情感的程度与负面情感的程度的大小比较关系，来对贴文进行标记，通过对正面情感的贴文和负面情感的贴文进行标注，便于后期对负面情感的贴文进行过滤。

2、该开发者社区平台的贴文标记方法，本开发者社区平台的贴文标记方法，通过第一人工智能模型和第二人工智能模型对正面情感的贴文和负面情感的贴文进行标注，从而实现对贴文进行自动化筛选，提高效率。

3、该开发者社区平台的贴文标记方法，通过使用人工智能模型对情感进行量化，构建对应的人工智能模型来发现贴文的情感程度之间的关系，从而利用人工智能模型来实现对贴文的自动化标记。

附图说明

图1为本发明开发者社区平台的贴文标记方法整体流程图；

图2为本发明贴文上传获取结构流程图；

图3为本发明正面敏感词判断流程图；

图4为本发明负面敏感词判断流程图。

具体实施方式

本发明实施例公开一种开发者社区平台的贴文标记方法，如图1-4所示，为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，并通过实施例的方式，对本发明实施例中的技术方案进行清楚、完整地描述。

包括以下步骤；

步骤一、获取开发者在社区平台上传的贴文；

步骤二、对贴文进行预处理，并得到目标贴文文本；

根据步骤一中获取开发者在社区平台上传的贴文，开发者需将撰写完成的贴文上传到社区平台上，社区平台需要对开发者上传的贴文进行收取，将文档完成收取后，可打开完成贴文。

根据步骤二中对贴文进行预处理，并得到目标贴文文本，对贴文中的格式进行处理，使其符合社区平台文档打开格式，同时对贴文中符号以及字体格式进行处理，使其符合社区平台文档打开格式。

对贴文进行预处理，通过社区平台文档存档盘对贴文进行收取，并得到目标贴文完整文本，同时可通过社区平台对打开完成贴文文档。

根据步骤三中构建敏感词库并文本内容敏感词进行筛选，得到敏感词，构建敏感词库，并向敏感词库内属于敏感词汇，生成敏感词汇代码，使敏感词汇代码输入智能运作流程中。

敏感词汇输入智能运作流程中，对文本中的敏感词汇进行查找，获取文本中存在的敏感词汇，根据预先构建的正反敏感词库对目标贴文文本进行正反敏感词进行筛选，并分别得到正负两组敏感词。

根据步骤四中使用第一人工智能对负面敏感词进行判断，判断敏感词概率，判断敏感词概率概率记为第一概率，并产生概念数据，使其可与第二人工智能产生的正面敏感词概率进行对比。

第一人工智能模型具体包括先提取目标贴文的特征向量，其中，特征向量包括标题、正文长度、关键字内容，再使用预先设定的标准正面情感的贴文作为训练集，训练得到第二人工智能模型，最后通过第二人工智能模型对目标贴文中的负面敏感词进行判断，判断其为正面的概率，其第一人工智能模型具体包括

根据步骤五中第二人工智能判断正面敏感词概率，先提取目标贴文的特征向量，其中，特征向量包括标题、正文长度、关键字内容，再使用预先设定的标准正面情感的贴文作为训练集，训练得到第二人工智能模型，最后通过第二人工智能模型对目标贴文中的负面敏感词进行判断，判断其为正面的概率，第二人工智能模型具体包括

得到正面敏感词概率后，对比两组敏感词概率并标记文本正负面，得到第一人工智能模型和第二人工智能模型，通过第一人工智能模型来得到贴文负面情感的程度，通过第二人工智能模型来得到贴文正面情感的程度，通过对正面情感的程度与负面情感的程度的大小比较关系，来对贴文进行标记。

通过获取在开发者社区平台中上传的贴文，并对贴文进行预处理，得到目标贴文文本，再根据预先构建的负面敏感词库对目标贴文文本进行负面敏感词筛选，得到负面敏感词同时根据预先构建的正面敏感词库对目标贴文文本进行正面敏感词筛选，得到正面敏感词，并通过第一人工智能模型对筛选得到的负面敏感词进行判断，判断其为负面的概率，概率记为第一概率，再通过第二人工智能模型对筛选得到的正面敏感词进行判断，判断其为正面的概率，概率记为第二概率，最后当第二概率大于第一概率，则标记目标贴文文本为正面贴文，否则标记目标贴文为负面贴文。

进一步，第一人工智能模型具体包括：

其中，Y表示为程度标签，当Y＝1时表示为具有最高程度的负面情感，当Y＝0时表示为具有最低程度的负面情感，X是特征向量，a为权重，b为偏置项，P(Y＝1|X＝x_w)表示当特征向量X＝x_w时，贴文的负面情感的概率，其中，a和b通过如下目标函数求解：

其中，W表示为总的负面情感分类的集合，w表示为集合中某一个子集合，y表示对应于w是负面情感的程度取值，O(a，b)表示为计算a和b的目标函数；

进一步，第二人工智能模型具体包括：

其中，G表示为程度标签，当G＝1时表示为具有最高程度的正面情感，当G＝0时表示为具有最低程度的正面情感，H是特征向量，c为权重，d为偏置项，Q(G＝1|H＝h_m)表示当特征向量H＝h_m时，贴文的正面情感的概率，其中，c和d通过如下目标函数求解：

其中，M表示为总的正面情感分类的集合，m表示为集合中某一个子集合，g表示对应于m是正面情感的程度取值，E(c，d)表示为计算c和d的目标函数。

进一步，对贴文进行预处理，得到目标贴文文本具体包括：去除贴文中的特殊字符，将繁体字转换成简体字，其中，特殊字符为非中文字符。

使用第一人工智能模型对贴文进行负面情感的程度的判定具体包括：

步骤1、提取目标贴文的特征向量，其中，特征向量包括标题、正文长度、关键字内容；

步骤2、使用预先设定的标准负面情感的贴文作为训练集，训练得到第一人工智能模型；

步骤3、通过第一人工智能模型对目标贴文中的负面敏感词进行判断，判断其为负面的概率；

在上述过程中，第一人工智能模型定义如下：

其中，W表示为总的负面情感分类的集合，w表示为集合中某一个子集合，y表示对应于w是是负面情感的程度取值，O(a，b)表示为计算a和b的目标函数；

使用第二人工智能模型对贴文进行正面情感的程度的判定具体包括：

步骤2、使用预先设定的标准正面情感的贴文作为训练集，训练得到第二人工智能模型；

步骤3、通过第二人工智能模型对目标贴文中的负面敏感词进行判断，判断其为正面的概率；

在上述过程中，第二人工智能模型定义如下：

其中，M表示为总的正面情感分类的集合，m表示为集合中某一个子集合，g表示对应于m是是正面情感的程度取值，E(c，d)表示为计算c和d的目标函数。

通过统计得到第一人工智能模型和第二人工智能模型，并发现负面情感的程度与其负面情感的关键字之间的关系可通过第一人工智能模型进行评价，而正面情感的程度与其正面情感的关键字之间的关系可通过第二人工智能模型进行评价，为此，可通过第一人工智能模型来得到贴文负面情感的程度，通过第二人工智能模型来得到贴文正面情感的程度，通过对正面情感的程度与负面情感的程度的大小比较关系，来对贴文进行标记，通过对正面情感的贴文和负面情感的贴文进行标注，便于后期对负面情感的贴文进行过滤，通过第一人工智能模型和第二人工智能模型对正面情感的贴文和负面情感的贴文进行标注，从而实现对贴文进行自动化筛选，提高效率，使用人工智能模型对情感进行量化，构建对应的人工智能模型来发现贴文的情感程度之间的关系，从而利用人工智能模型来实现对贴文的自动化标记。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其效物界定。

Claims

1.一种开发者社区平台的贴文标记方法，其特征在于，包括以下步骤；

步骤一、获取开发者在社区平台上传的贴文；

步骤二、对贴文进行预处理，并得到目标贴文文本；

2.根据权利要求1所述的一种开发者社区平台的贴文标记方法，其特征在于，根据所述步骤一中获取开发者在社区平台上传的贴文，开发者需将撰写完成的贴文上传到社区平台，社区平台需要对开发者上传的贴文进行收取，将文档完成收取后，打开完成贴文。

3.根据权利要求1所述的一种开发者社区平台的贴文标记方法，其特征在于，根据所述步骤二中对贴文进行预处理，并得到目标贴文文本，对贴文中的格式进行处理，使其符合社区平台文档打开格式，同时对贴文中符号以及字体格式进行处理，使其符合社区平台文档打开格式。

4.根据权利要求3所述的一种开发者社区平台的贴文标记方法，其特征在于，所述对贴文进行预处理，通过社区平台文档存档盘对贴文进行收取，并得到目标贴文完整文本，同时通过社区平台对打开完成贴文文档。

5.根据权利要求1所述的一种开发者社区平台的贴文标记方法，其特征在于，根据所述步骤三中构建敏感词库并文本内容敏感词进行筛选，得到敏感词，构建敏感词库，并向敏感词库内属于敏感词汇，生成敏感词汇代码，使敏感词汇代码输入智能运作流程中。

6.根据权利要求5所述的一种开发者社区平台的贴文标记方法，其特征在于，所述敏感词汇输入智能运作流程中，对文本中的敏感词汇进行查找，获取文本中存在的敏感词汇，根据预先构建的正反敏感词库对目标贴文文本进行正反敏感词进行筛选，并分别得到正负两组敏感词。

7.根据权利要求1所述的一种开发者社区平台的贴文标记方法，其特征在于，根据所述步骤四中使用第一人工智能对负面敏感词进行判断，判断敏感词概率，判断敏感词概率所述概率记为第一概率，并产生概念数据，使其与第二人工智能产生的正面敏感词概率进行对比。

8.根据权利要求7所述的一种开发者社区平台的贴文标记方法，其特征在于，所述第一人工智能模型具体包括先提取目标贴文的特征向量，其中，特征向量包括标题、正文长度、关键字内容，再使用预先设定的标准正面情感的贴文作为训练集，训练得到第二人工智能模型，最后通过第二人工智能模型对目标贴文中的负面敏感词进行判断，判断其为正面的概率，其第一人工智能模型具体包括

9.根据权利要求1所述的一种开发者社区平台的贴文标记方法，其特征在于，根据所述步骤五中第二人工智能判断正面敏感词概率，先提取目标贴文的特征向量，其中，特征向量包括标题、正文长度、关键字内容，再使用预先设定的标准正面情感的贴文作为训练集，训练得到第二人工智能模型，最后通过第二人工智能模型对目标贴文中的负面敏感词进行判断，判断其为正面的概率，第二人工智能模型具体包括

10.根据权利要求9所述的一种开发者社区平台的贴文标记方法，其特征在于，所述得到正面敏感词概率后，对比两组敏感词概率并标记文本正负面，得到第一人工智能模型和第二人工智能模型，通过第一人工智能模型来得到贴文负面情感的程度，通过第二人工智能模型来得到贴文正面情感的程度，通过对正面情感的程度与负面情感的程度的大小比较关系，来对贴文进行标记。