CN116578704A - 文本情感分类方法、装置、设备及计算机可读介质 - Google Patents

文本情感分类方法、装置、设备及计算机可读介质 Download PDF

Info

Publication number
CN116578704A
CN116578704A CN202310552969.9A CN202310552969A CN116578704A CN 116578704 A CN116578704 A CN 116578704A CN 202310552969 A CN202310552969 A CN 202310552969A CN 116578704 A CN116578704 A CN 116578704A
Authority
CN
China
Prior art keywords
text
sample
emotion classification
clustering
texts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310552969.9A
Other languages
English (en)
Inventor
舒畅
陈又新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202310552969.9A priority Critical patent/CN116578704A/zh
Publication of CN116578704A publication Critical patent/CN116578704A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及自然语言技术领域,揭露一种文本情感分类方法、装置、设备及存储介质。所述方法包括:获取情感标注文本集,并根据预设的样本批次数目设置聚类中心进行聚类,得到多个聚类样本集;通过获取标注文本的正样本和负样本生成正样本对和负样本对;计算正样本对中正样本与标注文本的相似度分数,得到第一相似度分数,计算负样本对中负样本与标注文本的相似度分数,得到第二相似度分数;将第一相似度分数和第二相似度分数带入预设的损失函数计算模型损失值,并根据模型损失值校正情感分类模型,得到标准情感分类模型;将待分类文本输入标准情感分类模型,得到待分类文本的情感分类。本发明可以提升医疗文本情感分类的准确度。

Description

文本情感分类方法、装置、设备及计算机可读介质
技术领域
本发明涉及自然语言技术领域,尤其涉及一种文本情感分类方法、装置、设备及介质。
背景技术
随着计算机技术和网络技术的发展,深度学习在自然语言处理中得到了广泛的应用,其中,情感分析是自然语言处理中一项重要部分,通过情感分析可以帮助用户快速获取、整理和分析相关信息,特别是医疗领域的网络问诊中,无论是心理治疗还是生理治疗,医护人员把握病患话语中的情感可以使的医护人员更好的与病患共情,对病患的患病程度进行更为准确的推测。
现有的情感分类方法利用对比学习的方法将具备情感特征的医疗文本进行两两配对,再使用自训练模型进行训练,得到情感表达强烈的医疗文本特征,这种方法相较于传统的多分类器方法更能对情感中的情绪进行区别,但无法对同属于一种大范围分类下的情感进行更细致的划分,因此,现在亟需一种更精确的医疗文本情感分类方法。
发明内容
本发明提供一种文本情感分类方法、装置、设备及介质,其主要目的在于提升医疗文本情感分类的准确度。
为实现上述目的,本发明提供的一种文本情感分类方法,包括:
获取情感标注文本集,并根据预设的样本批次数目设置聚类中心;
基于所述聚类中心将所述情感标注文本集中标注文本进行聚类,得到多个批次的聚类样本集;
通过获取各个所述标注文本的正样本和负样本生成所述聚类样本集中各个标注文本的正样本对和负样本对;
通过预构建的情感分类模型分别计算各个所述正样本对中正样本与所述标注文本的相似度分数,得到第一相似度分数,以及计算各个所述负样本对中负样本与所述标注文本的相似度分数,得到第二相似度分数;
将所述第一相似度分数和所述第二相似度分数带入所述预设的损失函数计算所述情感分类模型的模型损失值,并根据所述模型损失值校正所述情感分类模型,得到标准情感分类模型;
将待分类文本输入所述标准情感分类模型,得到所述待分类文本的情感分类。
可选地,所述基于所述聚类中心将所述情感标注文本集中标注文本进行聚类,得到多个批次的聚类样本集,包括:
对所述情感标注文本集中标注文本进行切词和去除停用词,得到标准标注文本;
获取所述标准标注文本的文本特征,并根据所述文本特征构建向量空间模型,得到文本特征向量;
通过K均值聚类算法和所述聚类中心聚类所述文本特征向量,得到多个批次的聚类样本集。
可选地,所述通过K均值聚类算法和所述聚类中心聚类所述文本特征向量,得到多个批次的聚类样本,包括:
步骤A、计算各个所述文本特征向量与各个预设初始聚类中心的距离,将所述文本特征向量分配至距离最近的聚类中心,得到多个样本聚类集;
步骤B、根据所述样本聚类集中的各个文本特征向量重新计算所述样本聚类集的聚类中心,得到多个更新聚类中心;
步骤C、判断所述更新聚类中心是否达到预设条件;
步骤D、当所述更新聚类中心没有达到预设条件时,返回上述的步骤A;
步骤E、当所述更新聚类中心达到预设条件时,根据所述更新聚类中心得到多个批次的聚类样本集。
可选地,所述根据所述样本聚类集中的各个文本特征向量重新计算所述样本聚类集的聚类中心,得到多个更新聚类中心,包括:
建立直角坐标系,以各个所述文本特征向量的起始点以原点表示,终点以向量坐标表示;
计算各个所述向量坐标的横轴平均值和纵轴平均值,将所述横轴平均值和所述纵轴平均值作为所述更新聚类中心。
可选地,所述通过获取各个所述标注文本的正样本和负样本生成所述聚类样本集中各个标注文本的正样本对和负样本对,包括:
生成所述聚类样本集中各个标注文本的增强文本,并将所述增强文本作为正样本;
依次从所述聚类样本集中选择标注文本,确定所述标注文本和所述标注文本对应正样本构成所述正样本对;
计算所述聚类样本集中每两个标注文本的文本相似度,并从所述聚类样本集中获取和所述标注文本的文本相似度最高的其他标注文本;
选择和所述标注文本的文本相似度最高的其他标注文本作为所述标注文本的负样本,确定所述标注文本和所述标注文本对应的负样本构成负样本对。
可选地,所述通过预构建的情感分类模型分别计算各个所述正样本对中正样本与所述标注文本的相似度分数,得到第一相似度分数,包括:
将所述正样本对输入所述情感分类模型中的BERT模型,得到正样本特征向量;
基于所述正样本特征向量,利用所述情感分类模型中的全连接神经网络计算出各个所述正样本对中正样本与所述标注文本的相似度分数,得到第一相似度分数。
可选地,所述将所述第一相似度分数和所述第二相似度分数带入所述预设的损失函数计算所述情感分类模型的模型损失值的损失函数为:
其中,Info_NCE为模型损失值,t为预置温度参数,q为所述标注文本,k+为所述第一相似度分数,k-为所述第二相似度分数,K为所述聚类样本集中标注文本的数目。
为了解决上述问题,本发明还提供一种文本情感分类装置,所述装置包括:
标注文本聚类模块,用于获取情感标注文本集,并根据预设的样本批次数目设置聚类中心,基于所述聚类中心将所述情感标注文本集中标注文本进行聚类,得到多个批次的聚类样本;
相似分数计算模块,用于通过获取各个所述标注文本的正样本和负样本生成所述聚类样本集中各个标注文本的正样本对和负样本对,通过预构建的情感分类模型分别计算各个所述正样本对中正样本与所述标注文本的相似度分数,得到第一相似度分数,以及计算各个所述负样本对中负样本与所述标注文本的相似度分数,得到第二相似度分数;
模型校正模块,用于将所述第一相似度分数和所述第二相似度分数带入所述预设的损失函数计算所述情感分类模型的模型损失值,并根据所述模型损失值校正所述情感分类模型,得到标准情感分类模型;
文本情感分类模块,用于将待分类文本输入所述标准情感分类模型,得到所述待分类文本的情感分类。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的文本情感分类方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,包括存储数据区和存储程序区,存储数据区存储创建的数据,存储程序区存储有计算机程序;其中,所述计算机程序被处理器执行时实现如上所述的文本情感分类方法。
本发明实施例中,首先获取情感标注文本集,并根据预设的样本批次数目设置聚类中心进行聚类,得到多个聚类样本集,实现将标注文本划分批次,之后通过获取标注文本的正样本和负样本生成正样本对和负样本对,然后计算正样本对中正样本与标注文本的相似度分数,得到第一相似度分数,以及计算负样本对中负样本与标注文本的相似度分数,得到第二相似度分数,将第一相似度分数和第二相似度分数带入预设的损失函数计算模型损失值,并根据模型损失值校正情感分类模型,得到标准情感分类模型,最后将待分类文本输入标准情感分类模型,得到待分类文本的情感分类。由于本发明预先构建正样本对和负样本对,增加了情感划分更细致的训练样本,之后再通过正负样本对的相似度分数计算模型损失值来校正模型,从而能够得到文本情感分类更为准确的模型,进而实现提升医疗文本情感分类准确度的目的。
附图说明
图1为本发明一实施例提供的一种文本情感分类方法的流程示意图;
图2为本发明一实施例提供一种文本情感分类方法中一个步骤的详细流程示意图;
图3为本发明一实施例提供一种文本情感分类方法中一个步骤的详细流程示意图;
图4为本发明一实施例提供的文本情感分类装置的模块示意图;
图5为本发明一实施例提供的实现文本情感分类方法的电子设备的内部结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种文本情感分类方法。所述文本情感分类方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。其中,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。换言之,所述文本情感分类方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
参照图1所示,为本发明一实施例提供的一种文本情感分类方法的流程示意图。在本实施例中,所述文本情感分类方法包括以下步骤S1-S6:
S1、获取情感标注文本集,并根据预设的样本批次数目设置聚类中心。
本发明实施例中,所述情感标注文本集包含标注文本,所述标注文本为已经进行情感标注的文本,标注的形式可以为多种,例如预先通过技术人员标注的,或者是通过标注工具标注的,进一步地,所述标注文本的文本类型可以为医疗文本,所述医疗文本可以是医疗电子记录(Electronic Healthcare Record)、电子化的个人健康记录,包括病历、心电图、医学影像等一系列具备保存备差价值的电子化记录。
具体的,可以将所述情感标注文本集中的标注文本标注为三类情感,“消极”、“中性”和“积极”。例如,“最近总是失眠”的情感标注为“消极”,“感觉好多了”的情感标注为“积极”。
进一步地,所述样本批次数目可以为预先设置的,用于将所述情感标注文本集划分为多个批次进行聚类。本发明实施例中,根据情感标注文本集中标注文本的数目预设样本批次数目,可以确保每个样本批次中都有足够的标注文本。
本发明实施例中,设置有多个聚类中心,具体的,所述聚类中心表示在聚类分析中的一个特殊样本,用来代表某一类,其他样本通过与所述聚类中心计算距离来决定是否属于该类。所述聚类中心的数目K=M/batch_size,其中,batch_size为每次批量训练时输入所述情感分类模型的标注文本的数目,M为所述情感标注文本集中所有情感标注文本的数目。
本发明实施例中,将所述情感标注文本集分为多个批次进行训练,降低运行一次全数据集(epoch)所需的迭代次数,加快对于相同数据量数据的处理速度,并减少模型训练的震荡。
S2、基于所述聚类中心将所述情感标注文本集中标注文本进行聚类,得到多个批次的聚类样本集。
本发明实施例中,通过将标注文本进行聚类,得到多个批次的聚类样本集可以使同一批次中的标注文本为语义相近的文本,便于后续训练和查找标注文本相似的其他标注文本。
本发明实施例中,可以采用K均值聚类(k-means)算法将所述情感标注文本集中的各个标注文本进行聚类,其中,所述K均值聚类算法是一种迭代求解的聚类分析算法。
本发明实施例中,所述基于所述聚类中心将所述情感标注文本集中标注文本进行聚类,得到多个批次的聚类样本集,包括:
对所述情感标注文本集中标注文本进行切词和去除停用词,得到标准标注文本;
获取所述标准标注文本的文本特征,并根据所述文本特征构建向量空间模型,得到文本特征向量;
通过K均值聚类算法和所述聚类中心聚类所述文本特征向量,得到多个批次的聚类样本集。
进一步地,所述聚类样本集的数目为S1中根据预设的样本批次数目设置的聚类中心的数目,即一个聚类中心对应一个聚类样本集。
本发明实施例中,所述切词又可称之为分词,是将一个词序列切分成一个一个单独的词的过程。切词作为文本挖掘的基础,对输入的一段文本进行切词,可以有益于计算机分析文本的语句含义。所述停用词为在自然语言处理之前通常被过滤掉的单词,一般可以为冠词、介词、代词、连词等不具备实际意义的词,去除停用词可以从文本中删除底层信息,便于凸显文本中更重要的信息。
本发明实施例中,所述标准标注文本的文本特征可以通过逆文本频率法获取。所述逆文本频率法(Term Frequency-Inverse Document Frequency,TF-IDF)是一种基于统计的文本特征获取方法,文本特征的重要性随着文本在所述标准标注文本中的词频增加而增加,随着文本在其他语料库中出现的频率增加而反比下降。
本发明实施例中,所述向量空间模型(Vector Space Model,VSM)用于把对文本内容的处理简化为向量空间中的向量运算,并且可以以空间上的相似度表达语义的相似度。
进一步地,参阅图2所示,所述通过K均值聚类算法和所述聚类中心聚类所述文本特征向量,得到多个批次的聚类样本集,包括:
S20、计算各个所述文本特征向量与各个预设初始聚类中心的距离,将所述文本特征向量分配至距离最近的聚类中心,得到多个样本聚类集;
S21、根据所述样本聚类集中的各个文本特征向量重新计算所述样本聚类集的聚类中心,得到多个更新聚类中心;
S22、判断所述更新聚类中心是否达到预设条件;
当所述更新聚类中心没有达到预设条件时,返回执行上述的步骤S20;
当所述更新聚类中心达到预设条件时,执行步骤S23根据所述更新聚类中心得到多个批次的聚类样本集。
本发明实施例中,所述预设条件为聚类中心的变化数值小于预设数值或者达到预设聚类次数。
本发明实施例中,所述根据所述样本聚类集中的各个文本特征向量重新计算所述样本聚类集的聚类中心,得到多个更新聚类中心,包括:
建立直角坐标系,以各个所述文本特征向量的起始点以原点表示,终点以向量坐标表示;
计算各个所述向量坐标的横轴平均值和纵轴平均值,将所述横轴平均值和所述纵轴平均值作为所述更新聚类中心。
S3、通过获取各个所述标注文本的正样本和负样本生成所述聚类样本集中各个标注文本的正样本对和负样本对。
本发明实施例中,所述正样本为所述标注文本对应的增强文本,所述负样本为所述标注文本所在聚类样本集中与所述标注文本相似度最高的其他标注文本。
进一步地,从所述聚类样本集中任选一个标注文本作为目标标注文本,将目标标注文本和经过数据增强后的目标标注文本组成正样本对,以及将目标标注文本和所述聚类样本集中同所述目标标注文本相似度最高的标注文本组成负样本对。
本发明实施例中,构建正样本对和负样本对作为训练样本,使得训练样本的情感划分更为细致。
参阅图3所示,本发明实施例中,所述通过获取各个所述标注文本的正样本和负样本生成所述聚类样本集中各个标注文本的正样本对和负样本对,包括:
S30、生成所述聚类样本集中各个标注文本的增强文本,并将所述增强文本作为正样本;
S31、依次从所述聚类样本集中选择标注文本,确定所述标注文本和所述标注文本对应正样本构成所述正样本对;
S32、计算所述聚类样本集中每两个标注文本的文本相似度,并从所述聚类样本集中获取和所述标注文本的文本相似度最高的其他标注文本;
S33、选择和所述标注文本的文本相似度最高的其他标注文本作为所述标注文本的负样本,确定所述标注文本和所述标注文本对应的负样本构成负样本对。
详细地,本发明实施例可以通过同义词替换的方式生成所述聚类样本集中各个标注文本的增强文本。
进一步地,本发明实施例中,可以通过下述公式获取和所述标注文本的文本相似度最高的其他标注文本:
其中,i为所述聚类样本集中和标注文本j相似度最高的其他标注文本,S(j,c)为计算所述标注文本j和其他标注文本c相似度的函数。
本发明实施例中,根据所述聚类样本集中各个正样本组成正样本集合,及根据所述聚类样本集中各个负样本组成负样本集合。
本发明实施例中,将各个标注文本区分为正样本对和负样本对可以对情感标注文本集中的标注文本进行更为细致的划分,凸显出标注文本的特征。例如,区分标注文本的“消极”,“中性”和“积极”,提升情感分类的细致程度。
S4、通过预构建的情感分类模型分别计算各个所述正样本对中正样本和所述标注文本的相似度分数,得到第一相似度分数,以及计算各个所述负样本对中负样本和所述标注文本的相似度分数,得到第二相似度分数。
本发明实施例中,所述情感分类模型是可以帮未进行情感标注的文本标注情感分类的模型。
本发明实施例中,所述通过预构建的情感分类模型分别计算各个所述正样本对中正样本和所述标注文本的相似度分数,得到第一相似度分数,包括:
将所述正样本对输入所述情感分类模型中的BERT模型,得到正样本特征向量;
基于所述正样本特征向量,利用所述情感分类模型中的全连接神经网络计算出各个所述正样本对中正样本与所述标注文本的相似度分数,得到第一相似度分数。
本发明实施例中,所述BERT模型为基于Transformer的双向编码器模型,用于将文本转化为具备文本特征的向量,为所述情感分类模型的组成部分,所述全连接神经网络是一种人工神经网络(Artificial Neural Networks)为一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数据模型,本实施例中,用于计算样本相似度分数。
本发明另一实施例中,所述分别计算各个所述正样本对中正样本和所述标注文本的相似度分数还可以通过将文本映射为向量后利用文本相似度计算公式计算得到,其中,文本相似度计算公式可以为欧式距离计算公式,余弦距离计算公式等。
进一步地,所述计算所述负样本对的相似度分数与上述所述计算各个所述正样本对中正样本和所述标注文本之间的相似度分数相似,这里不再赘述。
S5、将所述第一相似度分数和所述第二相似度分数带入所述预设的损失函数计算所述情感分类模型的模型损失值,并根据所述模型损失值校正所述情感分类模型,得到标准情感分类模型。
本发明实施例中,所述情感分类模型可以为基于朴素贝叶斯(Naive Bayesmodel)算法构建的情感分类模型,其中,所述朴素贝叶斯算法假设了文本集属性之间是相互独立的,因此对于不同类型的文本集之间不会呈现太大的差异性,具备良好的健壮性,所述情感分类模型属于机器学习模型,能够应用于多种不同的领域中,如语音识别、医疗诊断、应用程序的测试等。
进一步地,所述将所述第一相似度分数和所述第二相似度分数带入所述预设的损失函数计算所述情感分类模型的模型损失值的损失函数为:
其中,Info_NCE为模型损失值,t为预置温度参数,q为所述标注文本,k+为所述第一相似度分数,k-为所述第二相似度分数,K为所述聚类样本集中标注文本的数目。
进一步地,所述计算模型损失值为利用损失函数在模型的训练阶段,每个批次的训练数据输入模型后,通过前向传播输出的预测值和真实值之间的差异值,并且在得到模型损失值之后,模型还可以通过反向传播更新模型参数,来降低真实值与预测值之间的损失,使得模型生成的预测值往真实值方向靠拢,从而达到模型训练的目的。
S6、将待分类文本输入所述标准情感分类模型,得到所述待分类文本的情感分类。
本发明实施例中,所述待分类文本为未进行情感标注,并且需要进行情感分类的文本。
其中,所述待分类文本可以为医疗领域的病例记录、医学文献、药品说明,以及网络问诊中医护人员与患者的对话文本。
本发明实施例中,所述标准情感分类模型应用于医疗诊断领域,用于将医疗文本的情感进行分类,对病患的患病程度进行更为准确的推测。
本发明实施例中,所述待分类文本的情感分类可以和S1中的情感分类相同。例如,将所述待分类文本的情感分类分为“积极”,“消极”和“中性”。
本发明实施例中,首先获取情感标注文本集,并根据预设的样本批次数目设置聚类中心进行聚类,得到多个聚类样本集,实现将标注文本划分批次,之后通过获取标注文本的正样本和负样本生成正样本对和负样本对,然后计算正样本对中正样本与标注文本的相似度分数,得到第一相似度分数,以及计算负样本对中负样本与标注文本的相似度分数,得到第二相似度分数,将第一相似度分数和第二相似度分数带入预设的损失函数计算模型损失值,并根据模型损失值校正情感分类模型,得到标准情感分类模型,最后将待分类文本输入标准情感分类模型,得到待分类文本的情感分类。由于本发明预先构建正样本对和负样本对,增加了情感划分更细致的训练样本,之后再通过正负样本对的相似度分数计算模型损失值来校正模型,从而能够得到文本情感分类更为准确的模型,进而实现提升医疗文本情感分类准确度的目的。
如图4所示,是本发明文本情感分类装置的模块示意图。
本发明所述文本情感分类装置100可以安装于电子设备中。根据实现的功能,所述文本情感分类装置可以包括标注文本聚类模块101、相似分数计算模块102、模型校正模块103和文本情感分类模块104。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述标注文本聚类模块101,用于获取情感标注文本集,并根据预设的样本批次数目设置聚类中心,基于所述聚类中心将所述情感标注文本集中标注文本进行聚类,得到多个批次的聚类样本;
相似分数计算模块102,用于通过获取各个所述标注文本的正样本和负样本生成所述聚类样本集中各个标注文本的正样本对和负样本对,通过预构建的情感分类模型分别计算各个所述正样本对中正样本与所述标注文本的相似度分数,得到第一相似度分数,以及计算各个所述负样本对中负样本与所述标注文本的相似度分数,得到第二相似度分数;
模型校正模块103,用于将所述第一相似度分数和所述第二相似度分数带入所述预设的损失函数计算所述情感分类模型的模型损失值,并根据所述模型损失值校正所述情感分类模型,得到标准情感分类模型;
文本情感分类模块104,用于将待分类文本输入所述标准情感分类模型,得到所述待分类文本的情感分类。
详细地,本发明实施例中所述文本情感分类装置100中所述的各模块在使用时采用与上述图1至图3所述的文本情感分类方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
如图5所示,是本发明实现文本情感分类方法的电子设备的结构示意图。
所述电子设备可以包括处理器10、存储器11、通信总线12以及通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如文本情感分类程序。
其中,所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing Unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行文本情感分类程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如文本情感分类程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述通信总线12可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
所述通信接口13用于上述电子设备与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
图5仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图5示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备中的所述存储器11存储的文本情感分类程序是多个计算机程序的组合,在所述处理器10中运行时,可以实现:
获取情感标注文本集,并根据预设的样本批次数目设置聚类中心;
基于所述聚类中心将所述情感标注文本集中标注文本进行聚类,得到多个批次的聚类样本集;
通过获取各个所述标注文本的正样本和负样本生成所述聚类样本集中各个标注文本的正样本对和负样本对;
通过预构建的情感分类模型分别计算各个所述正样本对中正样本与所述标注文本的相似度分数,得到第一相似度分数,以及计算各个所述负样本对中负样本与所述标注文本的相似度分数,得到第二相似度分数;
将所述第一相似度分数和所述第二相似度分数带入所述预设的损失函数计算所述情感分类模型的模型损失值,并根据所述模型损失值校正所述情感分类模型,得到标准情感分类模型;
将待分类文本输入所述标准情感分类模型,得到所述待分类文本的情感分类。
具体地,所述处理器10对上述计算机程序的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
获取情感标注文本集,并根据预设的样本批次数目设置聚类中心;
基于所述聚类中心将所述情感标注文本集中标注文本进行聚类,得到多个批次的聚类样本集;
通过获取各个所述标注文本的正样本和负样本生成所述聚类样本集中各个标注文本的正样本对和负样本对;
通过预构建的情感分类模型分别计算各个所述正样本对中正样本与所述标注文本的相似度分数,得到第一相似度分数,以及计算各个所述负样本对中负样本与所述标注文本的相似度分数,得到第二相似度分数;
将所述第一相似度分数和所述第二相似度分数带入所述预设的损失函数计算所述情感分类模型的模型损失值,并根据所述模型损失值校正所述情感分类模型,得到标准情感分类模型;
将待分类文本输入所述标准情感分类模型,得到所述待分类文本的情感分类。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种文本情感分类方法,其特征在于,所述方法包括:
获取情感标注文本集,并根据预设的样本批次数目设置聚类中心;
基于所述聚类中心将所述情感标注文本集中标注文本进行聚类,得到多个批次的聚类样本集;
通过获取各个所述标注文本的正样本和负样本生成所述聚类样本集中各个标注文本的正样本对和负样本对;
通过预构建的情感分类模型分别计算各个所述正样本对中正样本与所述标注文本的相似度分数,得到第一相似度分数,以及计算各个所述负样本对中负样本与所述标注文本的相似度分数,得到第二相似度分数;
将所述第一相似度分数和所述第二相似度分数带入所述预设的损失函数计算所述情感分类模型的模型损失值,并根据所述模型损失值校正所述情感分类模型,得到标准情感分类模型;
将待分类文本输入所述标准情感分类模型,得到所述待分类文本的情感分类。
2.如权利要求1所述的文本情感分类方法,其特征在于,所述基于所述聚类中心将所述情感标注文本集中标注文本进行聚类,得到多个批次的聚类样本集,包括:
对所述情感标注文本集中标注文本进行切词和去除停用词,得到标准标注文本;
获取所述标准标注文本的文本特征,并根据所述文本特征构建向量空间模型,得到文本特征向量;
通过K均值聚类算法和所述聚类中心聚类所述文本特征向量,得到多个批次的聚类样本集。
3.如权利要求2所述的文本情感分类方法,其特征在于,所述通过K均值聚类算法和所述聚类中心聚类所述文本特征向量,得到多个批次的聚类样本,包括:
步骤A、计算各个所述文本特征向量与各个预设初始聚类中心的距离,将所述文本特征向量分配至距离最近的聚类中心,得到多个样本聚类集;
步骤B、根据所述样本聚类集中的各个文本特征向量重新计算所述样本聚类集的聚类中心,得到多个更新聚类中心;
步骤C、判断所述更新聚类中心是否达到预设条件;
步骤D、当所述更新聚类中心没有达到预设条件时,返回上述的步骤A;
步骤E、当所述更新聚类中心达到预设条件时,根据所述更新聚类中心得到多个批次的聚类样本集。
4.如权利要求3所述的文本情感分类方法,其特征在于,所述根据所述样本聚类集中的各个文本特征向量重新计算所述样本聚类集的聚类中心,得到多个更新聚类中心,包括:
建立直角坐标系,以各个所述文本特征向量的起始点以原点表示,终点以向量坐标表示;
计算各个所述向量坐标的横轴平均值和纵轴平均值,将所述横轴平均值和所述纵轴平均值作为所述更新聚类中心。
5.如权利要求1所述的文本情感分类方法,其特征在于,所述通过获取各个所述标注文本的正样本和负样本生成所述聚类样本集中各个标注文本的正样本对和负样本对,包括:
生成所述聚类样本集中各个标注文本的增强文本,并将所述增强文本作为正样本;
依次从所述聚类样本集中选择标注文本,确定所述标注文本和所述标注文本对应正样本构成所述正样本对;
计算所述聚类样本集中每两个标注文本的文本相似度,并从所述聚类样本集中获取和所述标注文本的文本相似度最高的其他标注文本;
选择和所述标注文本的文本相似度最高的其他标注文本作为所述标注文本的负样本,确定所述标注文本和所述标注文本对应的负样本构成负样本对。
6.如权利要求1所述的文本情感分类方法,其特征在于,所述通过预构建的情感分类模型分别计算各个所述正样本对中正样本与所述标注文本的相似度分数,得到第一相似度分数,包括:
将所述正样本对输入所述情感分类模型中的BERT模型,得到正样本特征向量;
基于所述正样本特征向量,利用所述情感分类模型中的全连接神经网络计算出各个所述正样本对中正样本与所述标注文本的相似度分数,得到第一相似度分数。
7.如权利要求1至6中任意一项所述的文本情感分类方法,其特征在于,所述将所述第一相似度分数和所述第二相似度分数带入所述预设的损失函数计算所述情感分类模型的模型损失值的损失函数为:
其中,Info_NCE为模型损失值,t为预置温度参数,q为所述标注文本,k+为所述第一相似度分数,k-为所述第二相似度分数,K为所述聚类样本集中标注文本的数目。
8.一种文本情感分类装置,其特征在于,所述装置包括:
标注文本聚类模块,用于获取情感标注文本集,并根据预设的样本批次数目设置聚类中心,基于所述聚类中心将所述情感标注文本集中标注文本进行聚类,得到多个批次的聚类样本;
相似分数计算模块,用于通过获取各个所述标注文本的正样本和负样本生成所述聚类样本集中各个标注文本的正样本对和负样本对,通过预构建的情感分类模型分别计算各个所述正样本对中正样本与所述标注文本的相似度分数,得到第一相似度分数,以及计算各个所述负样本对中负样本与所述标注文本的相似度分数,得到第二相似度分数;
模型校正模块,用于将所述第一相似度分数和所述第二相似度分数带入所述预设的损失函数计算所述情感分类模型的模型损失值,并根据所述模型损失值校正所述情感分类模型,得到标准情感分类模型;
文本情感分类模块,用于将待分类文本输入所述标准情感分类模型,得到所述待分类文本的情感分类。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的文本情感分类方法。
10.一种计算机可读存储介质,包括存储数据区和存储程序区,存储数据区存储创建的数据,存储程序区存储有计算机程序;其中,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的文本情感分类方法。
CN202310552969.9A 2023-05-16 2023-05-16 文本情感分类方法、装置、设备及计算机可读介质 Pending CN116578704A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310552969.9A CN116578704A (zh) 2023-05-16 2023-05-16 文本情感分类方法、装置、设备及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310552969.9A CN116578704A (zh) 2023-05-16 2023-05-16 文本情感分类方法、装置、设备及计算机可读介质

Publications (1)

Publication Number Publication Date
CN116578704A true CN116578704A (zh) 2023-08-11

Family

ID=87542821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310552969.9A Pending CN116578704A (zh) 2023-05-16 2023-05-16 文本情感分类方法、装置、设备及计算机可读介质

Country Status (1)

Country Link
CN (1) CN116578704A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116776887A (zh) * 2023-08-18 2023-09-19 昆明理工大学 一种基于样本相似性计算的负采样远程监督实体识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116776887A (zh) * 2023-08-18 2023-09-19 昆明理工大学 一种基于样本相似性计算的负采样远程监督实体识别方法
CN116776887B (zh) * 2023-08-18 2023-10-31 昆明理工大学 一种基于样本相似性计算的负采样远程监督实体识别方法

Similar Documents

Publication Publication Date Title
CN113378970B (zh) 语句相似性检测方法、装置、电子设备及存储介质
CN113674858B (zh) 在线医疗处方用药智能检查方法、装置、设备及存储介质
CN114822812A (zh) 角色对话模拟方法、装置、设备及存储介质
CN113111162A (zh) 科室推荐方法、装置、电子设备及存储介质
WO2023178978A1 (zh) 基于人工智能的处方审核方法、装置、设备及介质
CN115238670B (zh) 信息文本抽取方法、装置、设备及存储介质
CN113657105A (zh) 基于词汇增强的医学实体抽取方法、装置、设备及介质
CN116578704A (zh) 文本情感分类方法、装置、设备及计算机可读介质
CN115858886A (zh) 数据处理方法、装置、设备及可读存储介质
CN116681082A (zh) 离散文本语义分段方法、装置、设备及存储介质
WO2022227171A1 (zh) 关键信息提取方法、装置、电子设备及介质
CN116882496B (zh) 一种多级逻辑推理的医学知识库构建方法
CN116719904A (zh) 基于图文结合的信息查询方法、装置、设备及存储介质
CN116702776A (zh) 基于跨中西医的多任务语义划分方法、装置、设备及介质
CN116383766A (zh) 基于多模态数据的辅诊方法、装置、设备及存储介质
CN116522944A (zh) 基于多头注意力的图片生成方法、装置、设备及介质
CN116628162A (zh) 语义问答方法、装置、设备及存储介质
CN116450829A (zh) 医疗文本分类方法、装置、设备及介质
WO2023178979A1 (zh) 问题标注方法、装置、电子设备及存储介质
CN115631823A (zh) 相似病例推荐方法及系统
CN114864032B (zh) 基于his系统的临床数据采集方法及装置
CN116541764A (zh) 文本分类方法、装置、设备及计算机可读介质
CN116525142A (zh) 基于线上问诊的意图识别方法、装置、电子设备及介质
CN116403704A (zh) 基于在线医疗信息的重症预警方法、装置、设备及介质
CN116364300A (zh) 中医体质辨识方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination