CN114595333A - 一种用于舆情文本分析的半监督方法和装置 - Google Patents

一种用于舆情文本分析的半监督方法和装置 Download PDF

Info

Publication number
CN114595333A
CN114595333A CN202210447550.2A CN202210447550A CN114595333A CN 114595333 A CN114595333 A CN 114595333A CN 202210447550 A CN202210447550 A CN 202210447550A CN 114595333 A CN114595333 A CN 114595333A
Authority
CN
China
Prior art keywords
samples
sample
public opinion
similarity
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210447550.2A
Other languages
English (en)
Other versions
CN114595333B (zh
Inventor
王宏升
廖青
鲍虎军
陈�光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210447550.2A priority Critical patent/CN114595333B/zh
Priority to PCT/CN2022/093494 priority patent/WO2023092961A1/zh
Publication of CN114595333A publication Critical patent/CN114595333A/zh
Priority to US17/837,233 priority patent/US20230351212A1/en
Application granted granted Critical
Publication of CN114595333B publication Critical patent/CN114595333B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种用于舆情文本分析的半监督方法和装置,针对标注样本、未标注样本采用半监督方法提高舆情文本分析的分类准确率,首先获取舆情数据集,对数据集进行预处理;预处理后的样本使用数据增强算法生成数据增强样本;使类别标签无监督抽取聚类方式为数据集中未标注的样本生成类别标签;采用词向量隐语义空间,计算相似度与线性插值运算,运算结果生成相似度插值样本;构建最终训练样本集;采用半监督方法并使用预训练语言模型,输入最终训练样本集,对模型进行训练得到分类模型,使用分类模型对测试集预测得出分类结果。对比传统文本分类实验表明,使用该方法和装置在少量标注舆情样本、未标注舆情样本情况下提高舆情文本分类的准确率。

Description

一种用于舆情文本分析的半监督方法和装置
技术领域
本发明涉及自然语言处理领域,特别涉及一种用于舆情文本分析的半监督方法和装置。
背景技术
自然语言处理领域现有的分类方法包括有监督分类、半监督分类、无监督分类等方法。其中有监督分类方法需要大量标记样本,人工标注成本较高,不适用于某些特定场景;无监督分类不需要数据的类别信息,应用广泛,但由于缺乏类别导致分类效果不明显。半监督学习是将有监督学习和无监督学习结合,将未标记样本与少量标记样本结合使用可以提高分类准确率,同时解决了标签样本较少时监督学习方法泛化能力不强和缺少样本标签导致无监督学习方法不准确的问题。通过扩展训练样本集的语义特征,并限制选取扩展特征词的个数,以减少扩展后引入过多噪声而造成的效果不明显,然后使用基于半监督学习方法,充分利用未标注样本改进分类模型性能。用更新过的训练样本集来训练分类模型并预测,达到充分利用大量未标注样本来提高分类效果。
发明内容
本发明的目的在于提供一种用于舆情文本分析的半监督方法和装置,以克服现有技术中的不足。
为实现上述目的,本发明提供如下技术方案:
本发明公开了一种用于舆情文本分析的半监督方法,具体包括如下步骤:
S1、获取原始舆情数据集,所述原始舆情数据集包括标注样本、未标注样本和类别标签,其中未标注样本数量少于标注样本数量;
S2、对所述原始舆情数据集进行文本预处理;将原始舆情数据集按比例划分训练集与测试集;
S3、针对训练集,将标注样本和未标注样本采用数据增强方法分别得到:标注样本对应的增强样本、未标注样本对应的增强样本;
S4、计算标注样本的分类交叉熵损失;计算得出未标注样本与未标注样本对应的增强样本之间的相对熵损失;根据交叉熵损失、相对熵损失,计算得出未标注样本和标注样本的整体损失;
S5、针对未标注样本与未标注样本对应的增强样本,通过无监督抽取聚类方式得到聚类标签;
S6、计算聚类标签的相似度;校验聚类标签的相似度是否大于预先设置的类别标签相似度阈值;若大于,将大于类别标签相似度阈值的聚类标签构建置信类别标签;
S7、通过标注样本、标注样本对应的增强样本、未标注样本和未标注样本对应的增强样本之间的词向量隐语义空间,计算余玄相似度,得出相似度样本,再进行线性插值运算,运算结果生成相似度插值样本;
S8、校验相似度插值样本的相似度是否大于预先设置的插值样本相似度阈值;若大于,将大于插值样本相似度阈值的相似度插值样本构建置信样本;
S9、 使用原始舆情数据集的类别标签、置信类别标签、置信样本、标注样本对应的增强样本、未标注样本对应的增强样本,构建最终训练数据集;
S10、使用步骤S9中最终训练数据集的标注样本对应的增强样本、原始舆情数据集的类别标签进行训练,得到初始文本分类模型,根据分类效果调整初始文本分类模型参数,再将最终训练数据集的置信类别标签、置信样本、未标注样本对应的增强样本,输入初始文本分类模型中,迭代训练得到最终的文本分类模型;
S11、使用步骤S10中最终的文本分类模型对测试集进行预测,输出舆情文本分类结果。
作为优选,步骤S2中对所述原始舆情数据集进行文本预处理包括如下操作:统一规范文本长度、使用分词库将标注样本和未标注样本的文本分为单个词语、去除特定无用符号。
作为优选,所述步骤S3中数据增强方法为数据增强反译技术、数据增强停用词删除法或数据增强同义词替换法中的一种或多种。
作为优选,所述数据增强反译技术包括如下操作:运用反向翻译技术,将样本原句语言翻译成其它语言,之后再翻译回原语言,从而获得相同语义的不同句子,并将反译后样本作为对应的增强样本。
作为优选,所述数据增强停用词删除法包括如下操作:从标注样本与未标注样本随机选取不属于停用词表的词并删除,删除后的样本作为对应的增强样本。
作为优选,所述数据增强同义词替换法包括如下操作:样本中随机挑选一定量的词,使用同义词表中的词来替换样本中选出的词,得到对应的增强样本。
作为优选,步骤S6中检验聚类标签的相似度具体包括如下操作:校验未标注样本与未标注样本对应的增强样本的聚类标签的相似度均值是否大于预先设定的类别标签相似度阈值,如果大于,则标记未标注样本聚类标签为置信类别标签;反之,则标记未标注样本聚类标签不可用。
作为优选,步骤S7具体包括如下操作:根据标注样本、标注样本对应的增强样本、未标注样本和未标注样本对应的增强样本的数量大小,设置计算相似度与线性插值运算批次大小,样本数量大小与批次大小成整数倍关系;分批次计算样本之间的词向量隐语义空间的余玄相似度,计算得出相似度样本,再将相似度样本线性插值运算,结果得出相似度插值样本。
本发明还公开了一种用于舆情文本分析的半监督装置,包括获取原始舆情样本集模块,用于获取原始舆情数据集;数据预处理模块,用于对原始舆情数据集进行文本预处理;数据增强模块,用于对样本进行文本数据增强,得到对应的数据增强样本;标签抽取聚类模块,用于抽取并聚类未标注样本与对应的增强样本的类别标签,得到未标注样本的聚类标签;校验聚类标签相似度模块,校验未标注样本的聚类标签相似度;置信类别标签模块,使用校验相似度通过的聚类标签构建置信类别标签;校验相似度插值样本模块,校验词向量隐语义空间做相似度线性插值运算生成新的样本相似度;置信样本模块,使用校验相似度插值样本通过的样本构建置信样本;训练样本集模块,用于构建最终训练样本集;模型训练模块:用于根据最终训练样本集,对所述分类模型进行训练,得到舆情文本分类模型,文本分类模块:输入测试集使用舆情文本分类模型预测出文本分类结果。
本发明还公开了一种用于舆情文本分析的半监督装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于上述的一种用于舆情文本分析的半监督装置。
本发明还公开了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述的一种用于舆情文本分析的半监督装置。
本发明的有益效果:
基于少量注舆情样本和未林标注舆情样本,通过无监督抽取聚类方式对未标注舆情样本进行抽取并聚类,得聚类标签,解决标注样本缺乏问题,提升文本分类模型准确率;通过校验所述最终样本的标签分类结果是否可信,可以避免不可信样本对模型的影响,进一步提高文本分类模型的准确性。基于半监督学习方法可以在具有少量标注数据且无标注样本的情况下,通过对训练样本进行语义特征扩展,并使用已标注样本构建的初始分类模型,再将数量较多的未标注样本的对应增强样本加入到初始分类模型中进行迭代训练直到模型收敛为止,得到最终分类模型,将测试集输入最终分类模型并预测得出分类结果。对比实验表明本发明提出的方法和装置对少量标注舆情标本未标注舆情样本场景下的文本分类效果提升明显。
本发明的特征及优点将通过实施例结合附图进行详细说明。
附图说明
图1是本发明一种用于舆情文本分析的半监督方法整体流程图;
图2是数据预处理流程图;
图3是数据增强处理流程图;
图4是整体损失流程图;
图5是相似度线性插值运算流程图;
图6是本发明一种用于舆情文本分析的半监督装置的结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图及实施例,对本发明进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
参阅图1,本发明一种用于舆情文本分析的半监督方法,首先获取原始舆情数据集,文本预处理,样本数据增强,构建最终训练样本集,对少量已标注样本进行监督学习训练,得到初始分类器,调整参数,再将数量较多的未标注样本的对应增强样本加入到初始分类模型中进行迭代训练直到模型收敛为止,得到最终分类模型,将测试集输入最终分类模型并预测得出分类结果。
通过以下步骤对本发明进行详细说明。
本发明是一种用于舆情文本分析的半监督方法和装置,整个过程分为三个阶段:
第一阶段,数据预处理:如图2所示,规范文本句子长度,使用分词库(jieba)将样本文本分为单个词语、去除特定无用符号。
第二阶段,数据增强算法:如图3所示,同义词替换,反译技术,删除停用词;计算交叉熵损失、相对熵损失、整体损失、余玄相似度,无监督抽取聚类,置信类别标签,线性插值运算,置信插值样本,构建最终训练数据集。
第三阶段,训练与预测:将数据增强样本集输入预训练语言分类模型训练并预测得出分类结果。
进一步地,所述第一阶段具体为:获取初始样本集,初始样本集包括少量标注舆情样本、未标注舆情样本、舆情类别标签。对标注样本和未标注样本进行数据预处理,包括以下子步骤:
步骤一:规范句子长度,中文句子长度设置为150词;
步骤二:针对中文的文本分类模型,删除样本中非该语言的字词;去除指定无用符号;
步骤三:停用词过滤清洗处理,停用词是指将“的、和、好、也”之类的字词,将这些词汇总在预设的停用词表中,当样本中出现停用词表中字词,则删除该样本中的上述字词;
步骤四:使用分词库(jieba)将样本中文本分为单个中文词语。
进一步地,将预处理后的样本,接下进行数据增强处理。
进一步地,所述第二阶段具体为:针对标注样本与未标注样本进行文本数据增强处理,得到对应的数据增强样本。包括以下子步骤:
步骤一:对标注样本与未标注样本进行反译处理,先将未标注样本从中文翻译成另一种语言,再从另一种语言重新翻译成初始中文语言,得到相同语义不同的句子,得到对应的数据增强样本。
步骤二:利用词频逆向文件频率算法获取样本中的关键词和非关键词,对标注样本中的非关键词进行词替换处理,在对样本中的非关键词进行词替换处理时,将该样本中待替换的非关键词替换成另一个非关键词,得到对应的数据增强样本。
步骤三:同义词替换,样本中随机挑选一定量的词,使用同义词表中的词来替换样本中选出的词,得到对应的数据增强样本。
步骤四:如图4所示,计算标注样本分类交叉熵损失,通过无监督抽取聚类方式对标注样本与其对应的增强样本,以类别标签为触发词,抽取并聚类,得到聚类标签,采用激活函数(Softmax)将聚类标签映射到原始样本集的舆情类别标签上,得到聚类标签与原始样本集的类别标签误差,该误差采用交叉熵损失函数表示,公式如下:
Figure 783489DEST_PATH_IMAGE001
其中:
Figure 497368DEST_PATH_IMAGE002
为交叉熵损失,
Figure 57531DEST_PATH_IMAGE003
表示原始样本集的舆情类别标签概率分布,
Figure 983898DEST_PATH_IMAGE004
表示聚类标签概率分布,
Figure 329429DEST_PATH_IMAGE005
表示样本个数,
Figure 417471DEST_PATH_IMAGE006
表示样本数量从1开始,
Figure 966395DEST_PATH_IMAGE007
表示n个样本的交叉熵损失求和,
Figure 962033DEST_PATH_IMAGE008
表示类别标签,
Figure 365332DEST_PATH_IMAGE009
为对数。
步骤五:如图4所示,计算未标注样本相对熵损失,通过无监督抽取聚类方式对未标注样本类别标签进行抽取并聚类,以类别标签为触发词,得出未标注样本聚类标签;通过无监督抽取聚类方式对未标注样本的增强样本类别标抽取并聚类,得出未标注样本的增强样本聚类标签;计算未标注样本的聚类标签与未标注样本的增强样本聚类标签之间距离误差,该距离误差采用相对熵损失函数表示,公式如下:
Figure 889855DEST_PATH_IMAGE010
其中:
Figure 440922DEST_PATH_IMAGE011
为相对熵损失,
Figure 286256DEST_PATH_IMAGE003
为未标注样本聚类标签概率,
Figure 357111DEST_PATH_IMAGE004
为未标注样本的增强样本聚类标签概率,
Figure 318114DEST_PATH_IMAGE005
表示样本个数,
Figure 90898DEST_PATH_IMAGE006
表示样本数量从1开始,
Figure 631600DEST_PATH_IMAGE007
表示n个样本的相对熵损失求和,
Figure 55497DEST_PATH_IMAGE012
为每一个未标注样本类聚类标签概率,
Figure 452981DEST_PATH_IMAGE009
为对数,
Figure 713061DEST_PATH_IMAGE013
为每一个未标注样本的增强样本聚类标签概率。
步骤六:如4所示,计算样本整体损失,将已计算出的交叉熵损失,加入
权重的相对熵损失相加得到样本整体损失,公式如下所示:
Figure 339345DEST_PATH_IMAGE014
其中:
Figure 634060DEST_PATH_IMAGE015
为整体损失,
Figure 982871DEST_PATH_IMAGE002
为交叉熵损失,
Figure 464668DEST_PATH_IMAGE016
为权重用于控制损失系数,
Figure 222539DEST_PATH_IMAGE011
为相对熵损失。
步骤七:使用原始舆情数据集的类别标签作为触发器,通过无监督抽取聚类方式对标注样本进行抽取聚类,得到聚类标签,利用交叉熵来度量聚类标签与原始舆情数据集的类别标签的误差;使用聚类标签作为触发器,通过无监督抽取聚类方式对于未标注样本在增强前后分别进行抽取聚类,获取到抽取聚类对于同一条数据在增强前后的不同结果,利用相对熵来度量同一个未标注样本增强前后预测结果的误差;使用已计算得出的交叉熵损失、相对熵损失来计算整体损失,整体损失用来度量标签类别的损失。
步骤八:计算聚类标签与原始舆情数据集的类别标签余玄相似度;校验相似度是否大于预先设置的类别标签相似度阈值;若大于,将大于类别标签相似度阈值的聚类标签构建置信类别标签,若小于,则该聚类标签删除不用。余玄相似度公式如下:
Figure 309444DEST_PATH_IMAGE017
其中:
Figure 48730DEST_PATH_IMAGE018
为余玄相似度,
Figure 221085DEST_PATH_IMAGE019
表示样本个数,
Figure 438440DEST_PATH_IMAGE006
表示类别标签数量从1开始,
Figure 425857DEST_PATH_IMAGE007
表示求和,
Figure 70464DEST_PATH_IMAGE008
聚类标签,
Figure 323591DEST_PATH_IMAGE020
表示原始舆情数据集的类别标签。
步骤九:如图5所示,通过样本之间词向量隐语义空间,根据未标注样本和标注样本与其分别相对应的增强样本数量大小,设置计算相似度与线性插值运算批次大小,样本数量大小与批次大小成整数倍关系;迭代分批次随机获取两个句子,使两个样本句子长度相同,计算两个句子之间的词向量隐语义空间的余玄相似度,计算得出两个相似度句子,将相似度句子线性插值运算,运算得出两个相似度插值句子,再将两个相似度插值句子特征空间组合,得出相似度插值样本。其中线性插值运算公式如下所示:
Figure 829790DEST_PATH_IMAGE021
;
Figure 422445DEST_PATH_IMAGE022
;
Figure 237955DEST_PATH_IMAGE023
其中:
Figure 181640DEST_PATH_IMAGE024
表示权重用于控制线性插值运算系数,
Figure 990065DEST_PATH_IMAGE024
取值0到1之间;
Figure 437227DEST_PATH_IMAGE025
表示取最大值,
Figure 423637DEST_PATH_IMAGE026
表示相似度插值句子一,
Figure 854619DEST_PATH_IMAGE027
Figure 499358DEST_PATH_IMAGE028
表示相似度句子,
Figure 378190DEST_PATH_IMAGE029
表示相似度插值句子二,
Figure 66660DEST_PATH_IMAGE030
Figure 1249DEST_PATH_IMAGE031
表示相似度句子。
步骤十:计算相似度插值样本的置信度,校验置信度是否大于预先设置的插值样本置信度阈值;若大于,将大于插值样本置信度阈值的似度插值样本构建置信样本;若小于,则该似度插值样本删除不用。
步骤十:使用原始舆情数据集的类别标签、置信类别标签、置信样本、标注样本对应的增强样本、未标注样本对应的增强样本,构建最终训练数据集;
进一步地,所述第三阶段具体为:模型训练与预测舆情文本类别标签,包括以下子步骤:
步骤一:模型训练,将最终训练数据集的标注样本对应的增强样本、原始舆情数据集的类别标签输入BERT中文预训练模型中训练,得到初始文本分类模型,从而预测其标签类别分布,根据分类效果调整初始文本分类模型参数,为防止模型过拟合加入正则化;再将最终训练数据集的置信类别标签、置信样本、未标注样本对应的增强样本,输入初始文本分类模型中,迭代训练。
步骤二:结果预测,经过轮次迭代训练得到舆情文本分析分类模型,将舆情测试集输入舆情文本分析分类模型中预测得出舆情文本分析分类结果。
实施例:
步骤一:获取3万条舆情文本数据集包括:5000条标注样本、22000条未标注样本、3000条测试样本。
步骤二:实验一,采用本发明提供的舆情文本分析的半监督方法,采用步骤一的舆情文本数据集,按照本发明具体实施方式步骤,预测得出3000条测试样分类准确率为87.83%
步骤三:实验二,采用步骤一的舆情文本数据集,使用BERT预训练模型,预测得出3000条测试样分类准确率为84.62%
在采用相同数据集前提下,两组实验结果对比如下表所示:
训练样本 测试样本 分类方法 分类准确率
实验一 27000条 3000条 本发明半监督方法 87.83%
实验二 27000条 3000条 BERT预训练模型 84.62%
并且根据实验,当每个类别的标签数据极为有限时,模型准确率的提升尤为明显。通过对比其它文本分类数据集的实验,本发明提供的文本分析的半监督方法和装置,能够显著提升舆情文本分析分类准确率。
本发明还公开了一种用于舆情文本分析的半监督装置,包括获取原始舆情样本集模块,用于获取原始舆情数据集;数据预处理模块,用于对原始舆情数据集进行文本预处理;数据增强模块,用于对样本进行文本数据增强,得到对应的数据增强样本;标签抽取聚类模块,用于抽取并聚类未标注样本与对应的增强样本的类别标签,得到未标注样本的聚类标签;校验聚类标签相似度模块,校验未标注样本的聚类标签相似度;置信类别标签模块,使用校验相似度通过的聚类标签构建置信类别标签;校验相似度插值样本模块,校验词向量隐语义空间做相似度线性插值运算生成新的样本相似度;置信样本模块,使用校验相似度插值样本通过的样本构建置信样本;训练样本集模块,用于构建最终训练样本集;模型训练模块:用于根据最终训练样本集,对所述分类模型进行训练,得到舆情文本分类模型,文本分类模块:输入测试集使用舆情文本分类模型预测出文本分类结果。
本发明一种用于舆情文本分析的半监督装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图6所示,为本发明一种用于舆情文本分析的半监督装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的一种用于舆情文本分析的半监督装置。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种用于舆情文本分析的半监督方法,其特征在于,具体包括如下步骤:
S1、获取原始舆情数据集,所述原始舆情数据集包括标注样本、未标注样本和类别标签,其中未标注样本数量少于标注样本数量;
S2、对所述原始舆情数据集进行文本预处理;将原始舆情数据集按比例划分训练集与测试集;
S3、针对训练集,将标注样本和未标注样本采用数据增强方法分别得到:标注样本对应的增强样本、未标注样本对应的增强样本;
S4、计算标注样本的分类交叉熵损失;计算得出未标注样本与未标注样本对应的增强样本之间的相对熵损失;根据交叉熵损失、相对熵损失,计算得出未标注样本和标注样本的整体损失;
S5、针对未标注样本与未标注样本对应的增强样本,通过无监督抽取聚类方式得到聚类标签;
S6、计算聚类标签的相似度;校验聚类标签的相似度是否大于预先设置的类别标签相似度阈值;若大于,将大于类别标签相似度阈值的聚类标签构建置信类别标签;
S7、通过标注样本、标注样本对应的增强样本、未标注样本和未标注样本对应的增强样本之间的词向量隐语义空间,计算余玄相似度,得出相似度样本,再进行线性插值运算,运算结果生成相似度插值样本;
S8、校验相似度插值样本的相似度是否大于预先设置的插值样本相似度阈值;若大于,将大于插值样本相似度阈值的相似度插值样本构建置信样本;
S9、 使用原始舆情数据集的类别标签、置信类别标签、置信样本、标注样本对应的增强样本、未标注样本对应的增强样本,构建最终训练数据集;
S10、使用步骤S9中最终训练数据集的标注样本对应的增强样本、原始舆情数据集的类别标签进行训练,得到初始文本分类模型,根据分类效果调整初始文本分类模型参数,再将最终训练数据集的置信类别标签、置信样本、未标注样本对应的增强样本,输入初始文本分类模型中,迭代训练得到最终的文本分类模型;
S11、使用步骤S10中最终的文本分类模型对测试集进行预测,输出舆情文本分类结果。
2.如权利要求1所述的用于舆情文本分析的半监督方法,其特征在于:步骤S2中对所述原始舆情数据集进行文本预处理包括如下操作:统一规范文本长度、使用分词库将标注样本和未标注样本的文本分为单个词语、去除特定无用符号。
3.如权利要求1所述的用于舆情文本分析的半监督方法,其特征在于:所述步骤S3中数据增强方法为数据增强反译技术、数据增强停用词删除法或数据增强同义词替换法中的一种或多种。
4.如权利要求3所述的用于舆情文本分析的半监督方法,其特征在于:所述数据增强反译技术包括如下操作:运用反向翻译技术,将样本原句语言翻译成除所述原句语言外的其他语言,之后再翻译回原句语言,从而获得相同语义的不同句子,并将反译后样本作为对应的增强样本。
5.如权利要求3所述的用于舆情文本分析的半监督方法,其特征在于:所述数据增强停用词删除法包括如下操作:从标注样本与未标注样本随机选取不属于停用词表的词并删除,删除后的样本作为对应的增强样本。
6.如权利要求3所述的用于舆情文本分析的半监督方法,其特征在于:所述数据增强同义词替换法包括如下操作:样本中随机挑选若干个词,使用同义词表中的词来替换样本中选出的词,得到对应的增强样本。
7.如权利要求1所述的用于舆情文本分析的半监督方法,其特征在于:步骤S6中检验聚类标签的相似度具体包括如下操作:校验未标注样本与未标注样本对应的增强样本的聚类标签的相似度均值是否大于预先设定的类别标签相似度阈值,如果大于,则标记未标注样本聚类标签为置信类别标签;反之,则标记未标注样本聚类标签不可用。
8.如权利要求1所述的用于舆情文本分析的半监督方法,其特征在于:步骤S7具体包括如下操作:根据标注样本、标注样本对应的增强样本、未标注样本和未标注样本对应的增强样本的数量大小,设置计算相似度与线性插值运算批次大小,样本数量大小与批次大小成整数倍关系;分批次计算样本之间的词向量隐语义空间的余玄相似度,计算得出相似度样本,再将相似度样本线性插值运算,结果得出相似度插值样本。
9.一种用于舆情文本分析的半监督装置,其特征在于:包括获取原始舆情样本集模块,用于获取原始舆情数据集;数据预处理模块,用于对原始舆情数据集进行文本预处理;数据增强模块,用于对样本进行文本数据增强,得到对应的数据增强样本;标签抽取聚类模块,用于抽取并聚类未标注样本与对应的增强样本的类别标签,得到未标注样本的聚类标签;校验聚类标签相似度模块,校验未标注样本的聚类标签相似度;置信类别标签模块,使用校验相似度通过的聚类标签构建置信类别标签;校验相似度插值样本模块,校验词向量隐语义空间做相似度线性插值运算生成新的样本相似度;置信样本模块,使用校验相似度插值样本通过的样本构建置信样本;训练样本集模块,用于构建最终训练样本集;模型训练模块:用于根据最终训练样本集,对初始文本分类模型进行训练,得到舆情文本分类模型,文本分类模块:输入测试集使用舆情文本分类模型预测出文本分类结果。
10.一种用于舆情文本分析的半监督装置,其特征在于:包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1-8任一项所述的用于舆情文本分析的半监督方法。
11.一种计算机可读存储介质,其特征在于:其上存储有程序,该程序被处理器执行时,实现权利要求1-8任一项所述的用于舆情文本分析的半监督方法。
CN202210447550.2A 2022-04-27 2022-04-27 一种用于舆情文本分析的半监督方法和装置 Active CN114595333B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202210447550.2A CN114595333B (zh) 2022-04-27 2022-04-27 一种用于舆情文本分析的半监督方法和装置
PCT/CN2022/093494 WO2023092961A1 (zh) 2022-04-27 2022-05-18 一种用于舆情文本分析的半监督方法和装置
US17/837,233 US20230351212A1 (en) 2022-04-27 2022-06-10 Semi-supervised method and apparatus for public opinion text analysis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210447550.2A CN114595333B (zh) 2022-04-27 2022-04-27 一种用于舆情文本分析的半监督方法和装置

Publications (2)

Publication Number Publication Date
CN114595333A true CN114595333A (zh) 2022-06-07
CN114595333B CN114595333B (zh) 2022-08-09

Family

ID=81811695

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210447550.2A Active CN114595333B (zh) 2022-04-27 2022-04-27 一种用于舆情文本分析的半监督方法和装置

Country Status (3)

Country Link
US (1) US20230351212A1 (zh)
CN (1) CN114595333B (zh)
WO (1) WO2023092961A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115329069A (zh) * 2022-06-10 2022-11-11 黑龙江省网络空间研究中心 基于bert无监督文本分类的舆情分析方法和系统
CN115759027A (zh) * 2022-11-25 2023-03-07 上海苍阙信息科技有限公司 文本数据处理系统及方法
CN115827876A (zh) * 2023-01-10 2023-03-21 中国科学院自动化研究所 未标注文本的确定方法、装置和电子设备
CN116992034A (zh) * 2023-09-26 2023-11-03 之江实验室 一种智能事件打标方法、装置及存储介质

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116432655B (zh) * 2023-06-12 2023-12-08 山东大学 基于语用知识学习的少样本命名实体识别方法和装置
CN116451099B (zh) * 2023-06-19 2023-09-01 浪潮通用软件有限公司 一种基于随机遍历的高熵knn聚类方法、设备及介质
CN116501898B (zh) * 2023-06-29 2023-09-01 之江实验室 适用于少样本和有偏数据的金融文本事件抽取方法和装置
CN116776887B (zh) * 2023-08-18 2023-10-31 昆明理工大学 一种基于样本相似性计算的负采样远程监督实体识别方法
CN116912867B (zh) * 2023-09-13 2023-12-29 之江实验室 结合自动标注和召回补全的教材结构提取方法和装置
CN117056522B (zh) * 2023-10-11 2024-03-15 青岛网信信息科技有限公司 一种互联网言论优化处理方法、介质及系统
CN117332090B (zh) * 2023-11-29 2024-02-23 苏州元脑智能科技有限公司 一种敏感信息识别方法、装置、设备和存储介质
CN117574258B (zh) * 2024-01-15 2024-04-26 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种基于文本噪声标签和协同训练策略的文本分类方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011145951A (ja) * 2010-01-15 2011-07-28 Nippon Telegr & Teleph Corp <Ntt> コンテンツ自動分類装置、コンテンツ自動分類方法およびコンテンツ自動分類プログラム
US20130097103A1 (en) * 2011-10-14 2013-04-18 International Business Machines Corporation Techniques for Generating Balanced and Class-Independent Training Data From Unlabeled Data Set
CN111723209A (zh) * 2020-06-28 2020-09-29 上海携旅信息技术有限公司 半监督文本分类模型训练方法、文本分类方法、系统、设备及介质
CN112528030A (zh) * 2021-02-09 2021-03-19 中关村科学城城市大脑股份有限公司 一种用于文本分类的半监督学习方法和系统
CN113254599A (zh) * 2021-06-28 2021-08-13 浙江大学 一种基于半监督学习的多标签微博文本分类方法
CN114491036A (zh) * 2022-01-25 2022-05-13 四川启睿克科技有限公司 一种基于自监督和有监督联合训练的半监督文本分类方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10089576B2 (en) * 2015-07-28 2018-10-02 Microsoft Technology Licensing, Llc Representation learning using multi-task deep neural networks
US10896385B2 (en) * 2017-07-27 2021-01-19 Logmein, Inc. Real time learning of text classification models for fast and efficient labeling of training data and customization
US10540446B2 (en) * 2018-01-31 2020-01-21 Jungle Disk, L.L.C. Natural language generation using pinned text and multiple discriminators
US20200279105A1 (en) * 2018-12-31 2020-09-03 Dathena Science Pte Ltd Deep learning engine and methods for content and context aware data classification
CN112989841B (zh) * 2021-02-24 2021-09-21 中国搜索信息科技股份有限公司 一种用于突发事件新闻识别与分类的半监督学习方法
CN113436698B (zh) * 2021-08-27 2021-12-07 之江实验室 融合自监督和主动学习的医学术语自动标准化系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011145951A (ja) * 2010-01-15 2011-07-28 Nippon Telegr & Teleph Corp <Ntt> コンテンツ自動分類装置、コンテンツ自動分類方法およびコンテンツ自動分類プログラム
US20130097103A1 (en) * 2011-10-14 2013-04-18 International Business Machines Corporation Techniques for Generating Balanced and Class-Independent Training Data From Unlabeled Data Set
CN111723209A (zh) * 2020-06-28 2020-09-29 上海携旅信息技术有限公司 半监督文本分类模型训练方法、文本分类方法、系统、设备及介质
CN112528030A (zh) * 2021-02-09 2021-03-19 中关村科学城城市大脑股份有限公司 一种用于文本分类的半监督学习方法和系统
CN113254599A (zh) * 2021-06-28 2021-08-13 浙江大学 一种基于半监督学习的多标签微博文本分类方法
CN114491036A (zh) * 2022-01-25 2022-05-13 四川启睿克科技有限公司 一种基于自监督和有监督联合训练的半监督文本分类方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
叶华鑫: ""基于半监督学习的台风灾害舆情地理加权时空分析"", 《中国优秀硕士学位论文全文数据库 (基础科学辑)》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115329069A (zh) * 2022-06-10 2022-11-11 黑龙江省网络空间研究中心 基于bert无监督文本分类的舆情分析方法和系统
CN115329069B (zh) * 2022-06-10 2023-10-13 黑龙江省网络空间研究中心 基于bert无监督文本分类的舆情分析方法和系统
CN115759027A (zh) * 2022-11-25 2023-03-07 上海苍阙信息科技有限公司 文本数据处理系统及方法
CN115759027B (zh) * 2022-11-25 2024-03-26 上海苍阙信息科技有限公司 文本数据处理系统及方法
CN115827876A (zh) * 2023-01-10 2023-03-21 中国科学院自动化研究所 未标注文本的确定方法、装置和电子设备
CN116992034A (zh) * 2023-09-26 2023-11-03 之江实验室 一种智能事件打标方法、装置及存储介质
CN116992034B (zh) * 2023-09-26 2023-12-22 之江实验室 一种智能事件打标方法、装置及存储介质

Also Published As

Publication number Publication date
WO2023092961A1 (zh) 2023-06-01
CN114595333B (zh) 2022-08-09
US20230351212A1 (en) 2023-11-02

Similar Documents

Publication Publication Date Title
CN114595333B (zh) 一种用于舆情文本分析的半监督方法和装置
CN113011533B (zh) 文本分类方法、装置、计算机设备和存储介质
US11544474B2 (en) Generation of text from structured data
CN111738004A (zh) 一种命名实体识别模型的训练方法及命名实体识别的方法
CN111428026A (zh) 一种多标签文本分类处理方法及系统、信息数据处理终端
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN113191148B (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN113076739A (zh) 一种实现跨领域的中文文本纠错方法和系统
CN114896388A (zh) 一种基于混合注意力的层级多标签文本分类方法
CN113486178B (zh) 文本识别模型训练方法、文本识别方法、装置以及介质
CN115017299A (zh) 一种基于去噪图自编码器的无监督社交媒体摘要方法
CN113987174A (zh) 分类标签的核心语句提取方法、系统、设备及存储介质
CN116304307A (zh) 一种图文跨模态检索网络训练方法、应用方法及电子设备
CN114328939B (zh) 基于大数据的自然语言处理模型构建方法
CN113127607A (zh) 文本数据标注方法、装置、电子设备及可读存储介质
CN113065349A (zh) 基于条件随机场的命名实体识别方法
CN114707517A (zh) 一种基于开源数据事件抽取的目标跟踪方法
CN112613293B (zh) 摘要生成方法、装置、电子设备及存储介质
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN116629238A (zh) 文本增强质量评估方法、电子设备、存储介质
CN114996442B (zh) 一种联合抽象程度判别和摘要优化的文本摘要生成系统
CN115858776A (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN115859983B (zh) 一种细粒度中文命名实体识别方法
CN115482418B (zh) 基于伪负标签的半监督模型训练方法、系统及应用
CN117077678B (zh) 一种敏感词识别方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant