CN117829142A - 一种开发者社区平台的贴文标记方法 - Google Patents

一种开发者社区平台的贴文标记方法 Download PDF

Info

Publication number
CN117829142A
CN117829142A CN202311629605.2A CN202311629605A CN117829142A CN 117829142 A CN117829142 A CN 117829142A CN 202311629605 A CN202311629605 A CN 202311629605A CN 117829142 A CN117829142 A CN 117829142A
Authority
CN
China
Prior art keywords
text
sensitive
community platform
positive
sensitive words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311629605.2A
Other languages
English (en)
Inventor
涂振宇
黄创光
张�杰
李君�
纪烁
彭庚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyi Cloud Technology Co Ltd
Original Assignee
Tianyi Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianyi Cloud Technology Co Ltd filed Critical Tianyi Cloud Technology Co Ltd
Priority to CN202311629605.2A priority Critical patent/CN117829142A/zh
Publication of CN117829142A publication Critical patent/CN117829142A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种开发者社区平台的贴文标记方法,涉及计算机网络应用技术领域。该开发者社区平台的贴文标记方法,先获取开发者在社区平台上传的贴文,之后对贴文进行预处理,并得到目标贴文文本,并对构建敏感词库并文本内容敏感词进行筛选,得到敏感词,再使用第一人工智能对负面敏感词进行判断,判断敏感词概率,最后通过第二人工智能判断正面敏感词概率,得到敏感词概率,对比两组敏感词概率并标记文本正负面。该开发者社区平台的贴文标记方法,通过对正面情感的程度与负面情感的程度的大小比较关系,来对贴文进行标记,通过对正面情感的贴文和负面情感的贴文进行标注,便于后期对负面情感的贴文进行过滤。

Description

一种开发者社区平台的贴文标记方法
技术领域
本发明涉及计算机网络应用技术领域,具体为一种开发者社区平台的贴文标记方法。
背景技术
目前,互联网领域发展迅速,在发布活动或报名活动时通常使用论坛发布的方法。
现有的论坛发布的贴文存在一些负面情感,这种负面情感不利于正面能量的传播,现有对于这些负面情感的贴文一般采用人工筛查的方式,但是这种人工筛查的方式,效率不高,因此,如何对这些负面情感的贴文进行智能化筛查,已成为行业内亟需解决的技术问题。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明公开了一种开发者社区平台的贴文标记方法,以解决上述背景技术中提出的对于这些负面情感的贴文一般采用人工筛查的方式,但是这种人工筛查的方式,效率不高的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:一种开发者社区平台的贴文标记方法,包括以下步骤;
步骤一、获取开发者在社区平台上传的贴文;
步骤二、对贴文进行预处理,并得到目标贴文文本;
步骤三、构建敏感词库并文本内容敏感词进行筛选,得到敏感词;
步骤四、使用第一人工智能对负面敏感词进行判断,判断敏感词概率;
步骤五、第二人工智能判断正面敏感词概率,最后得到敏感词概率,对比两组敏感词概率并标记文本正负面。
优选的,根据所述步骤一中获取开发者在社区平台上传的贴文,开发者需将撰写完成的贴文上传到社区平台上,社区平台需要对开发者上传的贴文进行收取,将文档完成收取后,可打开完成贴文。
优选的,根据所述步骤二中对贴文进行预处理,并得到目标贴文文本,对贴文中的格式进行处理,使其符合社区平台文档打开格式,同时对贴文中符号以及字体格式进行处理,使其符合社区平台文档打开格式。
优选的,所述对贴文进行预处理,通过社区平台文档存档盘对贴文进行收取,并得到目标贴文完整文本,同时可通过社区平台对打开完成贴文文档。
优选的,根据所述步骤三中构建敏感词库并文本内容敏感词进行筛选,得到敏感词,构建敏感词库,并向敏感词库内属于敏感词汇,生成敏感词汇代码,使敏感词汇代码输入智能运作流程中。
优选的,所述敏感词汇输入智能运作流程中,对文本中的敏感词汇进行查找,获取文本中存在的敏感词汇,根据预先构建的正反敏感词库对目标贴文文本进行正反敏感词进行筛选,并分别得到正负两组敏感词。
优选的,根据所述步骤四中使用第一人工智能对负面敏感词进行判断,判断敏感词概率,判断敏感词概率所述概率记为第一概率,并产生概念数据,使其可与第二人工智能产生的正面敏感词概率进行对比。
优选的,所述第一人工智能模型具体包括先提取目标贴文的特征向量,其中,特征向量包括标题、正文长度、关键字内容,再使用预先设定的标准正面情感的贴文作为训练集,训练得到第二人工智能模型,最后通过第二人工智能模型对目标贴文中的负面敏感词进行判断,判断其为正面的概率,其第一人工智能模型具体包括
优选的,根据所述步骤五中第二人工智能判断正面敏感词概率,先提取目标贴文的特征向量,其中,特征向量包括标题、正文长度、关键字内容,再使用预先设定的标准正面情感的贴文作为训练集,训练得到第二人工智能模型,最后通过第二人工智能模型对目标贴文中的负面敏感词进行判断,判断其为正面的概率,第二人工智能模型具体包括
优选的,所述得到正面敏感词概率后,对比两组敏感词概率并标记文本正负面,得到第一人工智能模型和第二人工智能模型,通过第一人工智能模型来得到贴文负面情感的程度,通过第二人工智能模型来得到贴文正面情感的程度,通过对正面情感的程度与负面情感的程度的大小比较关系,来对贴文进行标记。
本发明公开了一种开发者社区平台的贴文标记方法,其具备的有益效果如下:
1、该开发者社区平台的贴文标记方法,通过第一人工智能模型来得到贴文负面情感的程度,通过第二人工智能模型来得到贴文正面情感的程度,通过对正面情感的程度与负面情感的程度的大小比较关系,来对贴文进行标记,通过对正面情感的贴文和负面情感的贴文进行标注,便于后期对负面情感的贴文进行过滤。
2、该开发者社区平台的贴文标记方法,本开发者社区平台的贴文标记方法,通过第一人工智能模型和第二人工智能模型对正面情感的贴文和负面情感的贴文进行标注,从而实现对贴文进行自动化筛选,提高效率。
3、该开发者社区平台的贴文标记方法,通过使用人工智能模型对情感进行量化,构建对应的人工智能模型来发现贴文的情感程度之间的关系,从而利用人工智能模型来实现对贴文的自动化标记。
附图说明
图1为本发明开发者社区平台的贴文标记方法整体流程图;
图2为本发明贴文上传获取结构流程图;
图3为本发明正面敏感词判断流程图;
图4为本发明负面敏感词判断流程图。
具体实施方式
本发明实施例公开一种开发者社区平台的贴文标记方法,如图1-4所示,为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,并通过实施例的方式,对本发明实施例中的技术方案进行清楚、完整地描述。
包括以下步骤;
步骤一、获取开发者在社区平台上传的贴文;
步骤二、对贴文进行预处理,并得到目标贴文文本;
步骤三、构建敏感词库并文本内容敏感词进行筛选,得到敏感词;
步骤四、使用第一人工智能对负面敏感词进行判断,判断敏感词概率;
步骤五、第二人工智能判断正面敏感词概率,最后得到敏感词概率,对比两组敏感词概率并标记文本正负面。
根据步骤一中获取开发者在社区平台上传的贴文,开发者需将撰写完成的贴文上传到社区平台上,社区平台需要对开发者上传的贴文进行收取,将文档完成收取后,可打开完成贴文。
根据步骤二中对贴文进行预处理,并得到目标贴文文本,对贴文中的格式进行处理,使其符合社区平台文档打开格式,同时对贴文中符号以及字体格式进行处理,使其符合社区平台文档打开格式。
对贴文进行预处理,通过社区平台文档存档盘对贴文进行收取,并得到目标贴文完整文本,同时可通过社区平台对打开完成贴文文档。
根据步骤三中构建敏感词库并文本内容敏感词进行筛选,得到敏感词,构建敏感词库,并向敏感词库内属于敏感词汇,生成敏感词汇代码,使敏感词汇代码输入智能运作流程中。
敏感词汇输入智能运作流程中,对文本中的敏感词汇进行查找,获取文本中存在的敏感词汇,根据预先构建的正反敏感词库对目标贴文文本进行正反敏感词进行筛选,并分别得到正负两组敏感词。
根据步骤四中使用第一人工智能对负面敏感词进行判断,判断敏感词概率,判断敏感词概率概率记为第一概率,并产生概念数据,使其可与第二人工智能产生的正面敏感词概率进行对比。
第一人工智能模型具体包括先提取目标贴文的特征向量,其中,特征向量包括标题、正文长度、关键字内容,再使用预先设定的标准正面情感的贴文作为训练集,训练得到第二人工智能模型,最后通过第二人工智能模型对目标贴文中的负面敏感词进行判断,判断其为正面的概率,其第一人工智能模型具体包括
根据步骤五中第二人工智能判断正面敏感词概率,先提取目标贴文的特征向量,其中,特征向量包括标题、正文长度、关键字内容,再使用预先设定的标准正面情感的贴文作为训练集,训练得到第二人工智能模型,最后通过第二人工智能模型对目标贴文中的负面敏感词进行判断,判断其为正面的概率,第二人工智能模型具体包括
得到正面敏感词概率后,对比两组敏感词概率并标记文本正负面,得到第一人工智能模型和第二人工智能模型,通过第一人工智能模型来得到贴文负面情感的程度,通过第二人工智能模型来得到贴文正面情感的程度,通过对正面情感的程度与负面情感的程度的大小比较关系,来对贴文进行标记。
通过获取在开发者社区平台中上传的贴文,并对贴文进行预处理,得到目标贴文文本,再根据预先构建的负面敏感词库对目标贴文文本进行负面敏感词筛选,得到负面敏感词同时根据预先构建的正面敏感词库对目标贴文文本进行正面敏感词筛选,得到正面敏感词,并通过第一人工智能模型对筛选得到的负面敏感词进行判断,判断其为负面的概率,概率记为第一概率,再通过第二人工智能模型对筛选得到的正面敏感词进行判断,判断其为正面的概率,概率记为第二概率,最后当第二概率大于第一概率,则标记目标贴文文本为正面贴文,否则标记目标贴文为负面贴文。
进一步,第一人工智能模型具体包括:
其中,Y表示为程度标签,当Y=1时表示为具有最高程度的负面情感,当Y=0时表示为具有最低程度的负面情感,X是特征向量,a为权重,b为偏置项,P(Y=1|X=xw)表示当特征向量X=xw时,贴文的负面情感的概率,其中,a和b通过如下目标函数求解:
其中,W表示为总的负面情感分类的集合,w表示为集合中某一个子集合,y表示对应于w是负面情感的程度取值,O(a,b)表示为计算a和b的目标函数;
进一步,第二人工智能模型具体包括:
其中,G表示为程度标签,当G=1时表示为具有最高程度的正面情感,当G=0时表示为具有最低程度的正面情感,H是特征向量,c为权重,d为偏置项,Q(G=1|H=hm)表示当特征向量H=hm时,贴文的正面情感的概率,其中,c和d通过如下目标函数求解:
其中,M表示为总的正面情感分类的集合,m表示为集合中某一个子集合,g表示对应于m是正面情感的程度取值,E(c,d)表示为计算c和d的目标函数。
进一步,对贴文进行预处理,得到目标贴文文本具体包括:去除贴文中的特殊字符,将繁体字转换成简体字,其中,特殊字符为非中文字符。
使用第一人工智能模型对贴文进行负面情感的程度的判定具体包括:
步骤1、提取目标贴文的特征向量,其中,特征向量包括标题、正文长度、关键字内容;
步骤2、使用预先设定的标准负面情感的贴文作为训练集,训练得到第一人工智能模型;
步骤3、通过第一人工智能模型对目标贴文中的负面敏感词进行判断,判断其为负面的概率;
在上述过程中,第一人工智能模型定义如下:
其中,Y表示为程度标签,当Y=1时表示为具有最高程度的负面情感,当Y=0时表示为具有最低程度的负面情感,X是特征向量,a为权重,b为偏置项,P(Y=1|X=xw)表示当特征向量X=xw时,贴文的负面情感的概率,其中,a和b通过如下目标函数求解:
其中,W表示为总的负面情感分类的集合,w表示为集合中某一个子集合,y表示对应于w是是负面情感的程度取值,O(a,b)表示为计算a和b的目标函数;
使用第二人工智能模型对贴文进行正面情感的程度的判定具体包括:
步骤1、提取目标贴文的特征向量,其中,特征向量包括标题、正文长度、关键字内容;
步骤2、使用预先设定的标准正面情感的贴文作为训练集,训练得到第二人工智能模型;
步骤3、通过第二人工智能模型对目标贴文中的负面敏感词进行判断,判断其为正面的概率;
在上述过程中,第二人工智能模型定义如下:
其中,G表示为程度标签,当G=1时表示为具有最高程度的正面情感,当G=0时表示为具有最低程度的正面情感,H是特征向量,c为权重,d为偏置项,Q(G=1|H=hm)表示当特征向量H=hm时,贴文的正面情感的概率,其中,c和d通过如下目标函数求解:
其中,M表示为总的正面情感分类的集合,m表示为集合中某一个子集合,g表示对应于m是是正面情感的程度取值,E(c,d)表示为计算c和d的目标函数。
通过统计得到第一人工智能模型和第二人工智能模型,并发现负面情感的程度与其负面情感的关键字之间的关系可通过第一人工智能模型进行评价,而正面情感的程度与其正面情感的关键字之间的关系可通过第二人工智能模型进行评价,为此,可通过第一人工智能模型来得到贴文负面情感的程度,通过第二人工智能模型来得到贴文正面情感的程度,通过对正面情感的程度与负面情感的程度的大小比较关系,来对贴文进行标记,通过对正面情感的贴文和负面情感的贴文进行标注,便于后期对负面情感的贴文进行过滤,通过第一人工智能模型和第二人工智能模型对正面情感的贴文和负面情感的贴文进行标注,从而实现对贴文进行自动化筛选,提高效率,使用人工智能模型对情感进行量化,构建对应的人工智能模型来发现贴文的情感程度之间的关系,从而利用人工智能模型来实现对贴文的自动化标记。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其效物界定。

Claims (10)

1.一种开发者社区平台的贴文标记方法,其特征在于,包括以下步骤;
步骤一、获取开发者在社区平台上传的贴文;
步骤二、对贴文进行预处理,并得到目标贴文文本;
步骤三、构建敏感词库并文本内容敏感词进行筛选,得到敏感词;
步骤四、使用第一人工智能对负面敏感词进行判断,判断敏感词概率;
步骤五、第二人工智能判断正面敏感词概率,最后得到敏感词概率,对比两组敏感词概率并标记文本正负面。
2.根据权利要求1所述的一种开发者社区平台的贴文标记方法,其特征在于,根据所述步骤一中获取开发者在社区平台上传的贴文,开发者需将撰写完成的贴文上传到社区平台,社区平台需要对开发者上传的贴文进行收取,将文档完成收取后,打开完成贴文。
3.根据权利要求1所述的一种开发者社区平台的贴文标记方法,其特征在于,根据所述步骤二中对贴文进行预处理,并得到目标贴文文本,对贴文中的格式进行处理,使其符合社区平台文档打开格式,同时对贴文中符号以及字体格式进行处理,使其符合社区平台文档打开格式。
4.根据权利要求3所述的一种开发者社区平台的贴文标记方法,其特征在于,所述对贴文进行预处理,通过社区平台文档存档盘对贴文进行收取,并得到目标贴文完整文本,同时通过社区平台对打开完成贴文文档。
5.根据权利要求1所述的一种开发者社区平台的贴文标记方法,其特征在于,根据所述步骤三中构建敏感词库并文本内容敏感词进行筛选,得到敏感词,构建敏感词库,并向敏感词库内属于敏感词汇,生成敏感词汇代码,使敏感词汇代码输入智能运作流程中。
6.根据权利要求5所述的一种开发者社区平台的贴文标记方法,其特征在于,所述敏感词汇输入智能运作流程中,对文本中的敏感词汇进行查找,获取文本中存在的敏感词汇,根据预先构建的正反敏感词库对目标贴文文本进行正反敏感词进行筛选,并分别得到正负两组敏感词。
7.根据权利要求1所述的一种开发者社区平台的贴文标记方法,其特征在于,根据所述步骤四中使用第一人工智能对负面敏感词进行判断,判断敏感词概率,判断敏感词概率所述概率记为第一概率,并产生概念数据,使其与第二人工智能产生的正面敏感词概率进行对比。
8.根据权利要求7所述的一种开发者社区平台的贴文标记方法,其特征在于,所述第一人工智能模型具体包括先提取目标贴文的特征向量,其中,特征向量包括标题、正文长度、关键字内容,再使用预先设定的标准正面情感的贴文作为训练集,训练得到第二人工智能模型,最后通过第二人工智能模型对目标贴文中的负面敏感词进行判断,判断其为正面的概率,其第一人工智能模型具体包括
9.根据权利要求1所述的一种开发者社区平台的贴文标记方法,其特征在于,根据所述步骤五中第二人工智能判断正面敏感词概率,先提取目标贴文的特征向量,其中,特征向量包括标题、正文长度、关键字内容,再使用预先设定的标准正面情感的贴文作为训练集,训练得到第二人工智能模型,最后通过第二人工智能模型对目标贴文中的负面敏感词进行判断,判断其为正面的概率,第二人工智能模型具体包括
10.根据权利要求9所述的一种开发者社区平台的贴文标记方法,其特征在于,所述得到正面敏感词概率后,对比两组敏感词概率并标记文本正负面,得到第一人工智能模型和第二人工智能模型,通过第一人工智能模型来得到贴文负面情感的程度,通过第二人工智能模型来得到贴文正面情感的程度,通过对正面情感的程度与负面情感的程度的大小比较关系,来对贴文进行标记。
CN202311629605.2A 2023-12-01 2023-12-01 一种开发者社区平台的贴文标记方法 Pending CN117829142A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311629605.2A CN117829142A (zh) 2023-12-01 2023-12-01 一种开发者社区平台的贴文标记方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311629605.2A CN117829142A (zh) 2023-12-01 2023-12-01 一种开发者社区平台的贴文标记方法

Publications (1)

Publication Number Publication Date
CN117829142A true CN117829142A (zh) 2024-04-05

Family

ID=90503507

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311629605.2A Pending CN117829142A (zh) 2023-12-01 2023-12-01 一种开发者社区平台的贴文标记方法

Country Status (1)

Country Link
CN (1) CN117829142A (zh)

Similar Documents

Publication Publication Date Title
CN110119786B (zh) 文本话题分类方法及装置
CN111126386B (zh) 场景文本识别中基于对抗学习的序列领域适应方法
CN109446404B (zh) 一种网络舆情的情感极性分析方法和装置
CN108664474B (zh) 一种基于深度学习的简历解析方法
CN110807328A (zh) 面向法律文书多策略融合的命名实体识别方法及系统
CN107766371A (zh) 一种文本信息分类方法及其装置
CN107688630B (zh) 一种基于语义的弱监督微博多情感词典扩充方法
CN108287911A (zh) 一种基于约束化远程监督的关系抽取方法
CN111460162B (zh) 一种文本分类方法、装置、终端设备及计算机可读存储介质
CN111651566B (zh) 基于多任务的小样本学习的裁判文书争议焦点提取方法
CN113806547A (zh) 一种基于图模型的深度学习多标签文本分类方法
CN111539417B (zh) 一种基于深度神经网络的文本识别训练优化方法
CN112417862A (zh) 知识点预测方法、系统和可读存储介质
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN114881043B (zh) 基于深度学习模型的法律文书语义相似度评估方法及系统
CN115630843A (zh) 合同条款自动审核方法及系统
CN114297987A (zh) 基于文本分类和阅读理解的文档信息抽取方法及系统
CN110910175A (zh) 一种旅游门票产品画像生成方法
CN111460147B (zh) 一种基于语义增强的标题短文本分类方法
CN106649338B (zh) 信息过滤策略生成方法及装置
CN111144116B (zh) 一种文档知识结构化的抽取方法及装置
CN110472075A (zh) 一种基于机器学习的异构数据分类存储方法及系统
CN114970502A (zh) 一种应用于数字政府的文本纠错方法
CN113378024A (zh) 一种基于深度学习面向公检法领域的相关事件识别方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination