CN115496076B - 一种价值需求特征驱动的文本情感识别、训练方法及装置 - Google Patents
一种价值需求特征驱动的文本情感识别、训练方法及装置 Download PDFInfo
- Publication number
- CN115496076B CN115496076B CN202211355285.1A CN202211355285A CN115496076B CN 115496076 B CN115496076 B CN 115496076B CN 202211355285 A CN202211355285 A CN 202211355285A CN 115496076 B CN115496076 B CN 115496076B
- Authority
- CN
- China
- Prior art keywords
- value
- text
- demand
- language model
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种价值需求特征驱动的文本情感识别、训练方法及装置,包括价值需求标注语料采集模块、价值需求回归模型构建模块、输入文本特征提取模块和文本情感预测模块,通过采集原始短文本,并对每条短文本,基于不同的维度的价值需求,进行价值需求标注,得到价值需求标注语料集;于预训练语言模型,在价值需求标注语料上进行微调学习,得到训练好的价值需求回归模型;基于价值回归模型提取输入文本的价值需求特征,基于预训练语言模型提取输入文本的语义特征;基于输入文本的价值需求特征和语义特征,进行最终的情感识别。本发明可有效提升文本情感识别的精度。
Description
技术领域
本发明涉及人工智能领域,尤其是涉及一种价值需求特征驱动的文本情感识别、训练方法及装置。
背景技术
情感识别作为人工智能领域的重要研究方向,识别输入文本中的情感信息有着广泛的应用场景,例如智慧客服、聊天机器人、医疗陪护等。文本情感识别一般形式化为离散类别分类任务,在领域内已有较多的研究工作。传统的文本情感识别方法多基于情感词汇、特定短语的分析等规则方法,现阶段主流的文本情感识别方法大多是以神经网络为代表的深度学习方法,这类方法依赖于大量的情感标注信息,通过神经网络编码器提取文本中的语义信息,并学习语义信息与情感标签之间的映射关系来实现文本的情感预测。
然而,情感作为人类对客观外部环境的主观感受,其内在因素十分复杂,当前主流深度学习方法仅仅依赖情感标签的监督信息难以实现对诱发情感的深层次原因理解建模,因而在实际情感预测场景中仍面临较大困难。而情感作为人类价值需求的一种外在反应,其提供了深层次理解建模人类情感的一种有效途径。
发明内容
为解决现有技术的不足,利用价值需求信息,实现提升文本情感预测准确率的目的,本发明采用如下的技术方案:
一种价值需求特征驱动的文本情感识别训练方法,包括如下步骤:
步骤S1:价值需求标注语料采集;采集原始短文本,并对每条短文本,基于不同的维度的价值需求,进行价值需求标注,得到价值需求标注语料集;
步骤S2:价值需求回归模型构建;基于预训练语言模型,在价值需求标注语料上进行微调学习,得到训练好的价值需求回归模型,包括如下步骤:
进一步地,所述步骤S1中,基于马斯洛夫需求层次理论的生理需求、安全需求、归属与爱、尊重需求和自我实现5个角度,分别进行多维度的价值需求标注;
进一步地,所述步骤S1包括如下步骤:
步骤S11:获取大量短文本语句,形成原始短文本语料集;
步骤S12:利用正则表达式对原始短文本语料集中的每条文本语句进行清洗,去除干扰信息,干扰信息包括日期、邮箱、网址、数字等;
步骤S13:过滤字数范围阈值以外的短语句,得到最终清洗干净的短文本语料集:
进一步地,所述步骤S23中,标量预测值的计算公式如下:
进一步地,所述步骤S24中,损失函数计算如下:
一种价值需求特征驱动的文本情感识别方法,基于训练方法,还包括如下步骤:
步骤S3:输入文本特征提取;基于价值回归模型提取输入文本的价值需求特征,基于预训练语言模型提取输入文本的语义特征;
步骤S4:文本情感预测;基于输入文本的价值需求特征和语义特征,进行最终的情感识别。
进一步地,所述步骤S3,包括如下步骤:
进一步地,所述步骤S4包括如下步骤:
步骤S42:将预测向量作为Softmax激活函数算子的自变量,计算Softmax激活函数的输出值,并将输出至作为输入文本/>属于每个情感类别的概率值,最后取类别概率值最大的作为最终情感类别,其中Softmax激活函数的计算公式如下:
一种价值需求特征驱动的文本情感识别训练装置,包括价值需求标注语料采集模块和价值需求回归模型构建模块;
所述价值需求标注语料采集模块,采集原始短文本,并对每条短文本,基于不同的维度的价值需求,进行价值需求标注,得到价值需求标注语料集;
所述价值需求回归模型构建模块,基于预训练语言模型,在价值需求标注语料上进行微调学习,得到训练好的价值需求回归模型,执行过程如下:
一种价值需求特征驱动的文本情感识别装置,基于训练装置,还包括输入文本特征提取模块和文本情感预测模块;
所述输入文本特征提取模块,基于价值回归模型提取输入文本的价值需求特征,基于预训练语言模型提取输入文本的语义特征;
所述文本情感预测模块,基于输入文本的价值需求特征和语义特征,进行最终的情感识别。
本发明的优势和有益效果在于:
1、本发明基于马斯洛夫需求层次理论,从5个价值维度来构建价值需求标注语料,具有较强的理论依据,且可实现性强。
2、本发明基于大规模预训练语言模型构建价值回归模型,能实现较好的文本价值需求特征预测效果。
3、本发明同时利用文本价值需求特征及语义特征来进行文本情感识别,可有效提升文本情感识别的准确率。
附图说明
图1是本发明的一种价值需求特征驱动的文本情感识别训练方法的流程图。
图2是本发明的一种价值需求特征驱动的文本情感识别方法的流程图。
图3是本发明实施例中一种价值需求特征驱动的文本情感识别方法的架构图。
图4是本发明的一种价值需求特征驱动的文本情感识别训练装置的结构示意图。
图5是本发明的一种价值需求特征驱动的文本情感识别装置的结构示意图。
图6是本发明实施例中一种价值需求特征驱动的文本情感识别设备的结构示意图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
如图1、图3所示,一种价值需求特征驱动的文本情感识别训练方法,包括以下步骤:
步骤S1:价值需求标注语料采集;采集原始短文本,并对每条短文本,基于不同的维度的价值需求,进行价值需求标注,得到价值需求标注语料集。本发明实施例中,通过网络爬虫技术从公众社交平台采集大量原始短文本,进行清洗过滤,并对每条干净的短文本进行多维度的价值需求标注,得到价值需求标注语料集。具体包括如下步骤:
步骤S11:获取大量短文本语句,形成原始短文本语料集;
本发明实施例中,利用python爬虫技术从新浪微博等公众社交平台自动收集大量短文本语句,形成原始短文本语料集。
步骤S12:利用正则表达式对原始短文本语料集中的每条文本语句进行清洗,去除干扰信息;
本发明实施例中,无关的干扰信息包括去除其中的日期、邮箱、网址、数字等。
步骤S13:过滤字数范围阈值以外的短语句,得到最终清洗干净的短文本语料集:
本发明实施例中,字数范围阈值以外的短语句是指字数大于35的过长语句及字数小于5的过短语句。
步骤S2:价值需求回归模型构建;基于预训练语言模型,在价值需求标注语料上进行微调学习,得到训练好的价值需求回归模型。本发明实施例中,价值需求回归模型构建,基于预训练语言模型,在价值需求标注语料上进行微调学习,得到价值需求回归模型,包括如下步骤:
标量预测值的计算公式如下:
损失函数计算如下:
如图2、图3所示,一种价值需求特征驱动的文本情感识别方法,基于上述训练方法,还包括以下步骤:
步骤S3:输入文本特征提取;基于价值回归模型提取输入文本的价值需求特征,基于预训练语言模型提取输入文本的语义特征,包括如下步骤:
步骤S4:文本情感预测;基于输入文本的价值需求特征和语义特征,进行最终的情感识别,包括如下步骤:
步骤S42:将预测向量作为Softmax激活函数算子的自变量,计算Softmax激活函数的输出值,并将输出至作为输入文本/>属于每个情感类别的概率值,最后取类别概率值最大的作为最终情感类别,其中Softmax激活函数的计算公式如下:
综上所述,本实施例提供的方法通过建立价值需求标注语料集,构建价值需求回归模型,并进一步利用价值需求回归模型预测任意输入文本的价值需求特征,通过综合利用输入文本的语义特征及价值需求特征,能够提高最终文本情感识别的精度。
如图4所示,一种价值需求特征驱动的文本情感识别训练装置,包括价值需求标注语料采集模块和价值需求回归模型构建模块;
所述价值需求标注语料采集模块,采集原始短文本,并对每条短文本,基于不同的维度的价值需求,进行价值需求标注,得到价值需求标注语料集;
本发明实施例中,价值需求标注语料采集模块,用于通过网络爬虫技术从公众社交平台采集大量原始短文本,进行清洗过滤,并对每条干净的短文本进行多维度的价值需求标注,得到价值需求标注语料集。价值需求标注语料采集模块从马斯洛夫需求层次理论对收集到的短文本进行5维度的价值需求标注。
所述价值需求回归模型构建模块,基于预训练语言模型,在价值需求标注语料上进行微调学习,得到训练好的价值需求回归模型,执行过程如下:
本发明实施例中,价值需求回归模型构建模块,基于预训练语言模型,在价值需求标注语料上进行微调学习,得到价值需求回归模型;价值需求回归模型构建模块通过微调预训练语言模型,构建能预测文本价值需求特征的价值需求回归模型。
如图5所示,一种价值需求特征驱动的文本情感识别装置,基于训练装置,还包括输入文本特征提取模块和文本情感预测模块;
所述输入文本特征提取模块,基于价值回归模型提取输入文本的价值需求特征,基于预训练语言模型提取输入文本的语义特征;
本发明实施例中,输入文本特征提取模块,基于价值回归模型提取输入文本的价值需求特征,并基于预训练语言模型提取输入文本的语义特征。
所述文本情感预测模块,基于输入文本的价值需求特征和语义特征,进行最终的情感识别;
本发明实施例中,文本情感预测模块,基于提取的文本语义特征及价值需求特征进行最终的情感识别。文本情感预测模块通过综合利用输入文本的价值需求特征及语义特征,来进行情感类别预测。
与前述一种价值需求特征驱动的文本情感识别方法的实施例相对应,本发明还提供了一种价值需求特征驱动的文本情感识别设备的实施例。
参见图6,本发明实施例提供的一种价值需求特征驱动的文本情感识别设备,包括存储器和一个或多个处理器,存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述实施例中的一种价值需求特征驱动的文本情感识别方法。
本发明一种价值需求特征驱动的文本情感识别设备的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图6所示,为本发明一种价值需求特征驱动的文本情感识别设备所在任意具备数据处理能力的设备的一种硬件结构图,除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的一种价值需求特征驱动的文本情感识别方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。
Claims (10)
1.一种价值需求特征驱动的文本情感识别训练方法,其特征在于包括如下步骤:
步骤S1:价值需求标注语料采集;采集原始短文本,并对每条短文本,基于马斯洛夫需求层次理论的生理需求、安全需求、归属与爱、尊重需求和自我实现5个不同维度的价值需求,进行价值需求标注,得到价值需求标注语料集;
步骤S2:价值需求回归模型构建;基于预训练语言模型,在价值需求标注语料上进行微调学习,得到训练好的价值需求回归模型,包括如下步骤:
步骤S24:计算语言模型预测价值与标注价值之间的误差,并将其作为微调训练语言模型的损失函数,得到训练好的价值需求回归模型。
3.根据权利要求1所述的一种价值需求特征驱动的文本情感识别训练方法,其特征在于,所述步骤S1包括如下步骤:
步骤S11:获取大量短文本语句,形成原始短文本语料集;
步骤S12:利用正则表达式对原始短文本语料集中的每条文本语句进行清洗,去除干扰信息;
步骤S13:过滤字数范围阈值以外的短语句,得到最终清洗干净的短文本语料集:
6.一种基于权利要求1所述的一种价值需求特征驱动的文本情感识别训练方法的文本情感识别方法,其特征在于还包括如下步骤:
步骤S3:输入文本特征提取;基于价值回归模型提取输入文本的价值需求特征,基于预训练语言模型提取输入文本的语义特征;
步骤S4:文本情感预测;基于输入文本的价值需求特征和语义特征,进行最终的情感识别。
9.一种价值需求特征驱动的文本情感识别训练装置,包括价值需求标注语料采集模块和价值需求回归模型构建模块,其特征在于:
所述价值需求标注语料采集模块,采集原始短文本,并对每条短文本,基于马斯洛夫需求层次理论的生理需求、安全需求、归属与爱、尊重需求和自我实现5个不同维度的价值需求,进行价值需求标注,得到价值需求标注语料集;
所述价值需求回归模型构建模块,基于预训练语言模型,在价值需求标注语料上进行微调学习,得到训练好的价值需求回归模型,执行过程如下:
计算语言模型预测价值与标注价值之间的误差,并将其作为微调训练语言模型的损失函数,得到训练好的价值需求回归模型。
10.一种基于权利要求9所述的一种价值需求特征驱动的文本情感识别训练装置的文本情感识别装置,还包括输入文本特征提取模块和文本情感预测模块,其特征在于:
所述输入文本特征提取模块,基于价值回归模型提取输入文本的价值需求特征,基于预训练语言模型提取输入文本的语义特征;
所述文本情感预测模块,基于输入文本的价值需求特征和语义特征,进行最终的情感识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211355285.1A CN115496076B (zh) | 2022-11-01 | 2022-11-01 | 一种价值需求特征驱动的文本情感识别、训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211355285.1A CN115496076B (zh) | 2022-11-01 | 2022-11-01 | 一种价值需求特征驱动的文本情感识别、训练方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115496076A CN115496076A (zh) | 2022-12-20 |
CN115496076B true CN115496076B (zh) | 2023-03-24 |
Family
ID=85115685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211355285.1A Active CN115496076B (zh) | 2022-11-01 | 2022-11-01 | 一种价值需求特征驱动的文本情感识别、训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115496076B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109697232A (zh) * | 2018-12-28 | 2019-04-30 | 四川新网银行股份有限公司 | 一种基于深度学习的中文文本情感分析方法 |
CN114742047A (zh) * | 2022-04-26 | 2022-07-12 | 河海大学 | 基于最大概率填充和多头注意力机制的文本情感识别方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11195057B2 (en) * | 2014-03-18 | 2021-12-07 | Z Advanced Computing, Inc. | System and method for extremely efficient image and pattern recognition and artificial intelligence platform |
US10489509B2 (en) * | 2016-03-14 | 2019-11-26 | International Business Machines Corporation | Personality based sentiment analysis of textual information written in natural language |
KR20180001889A (ko) * | 2016-06-28 | 2018-01-05 | 삼성전자주식회사 | 언어 처리 방법 및 장치 |
CN109344855B (zh) * | 2018-08-10 | 2021-09-24 | 华南理工大学 | 一种基于排序引导回归的深度模型的人脸美丽评价方法 |
US11373120B2 (en) * | 2019-11-25 | 2022-06-28 | Sap Se | Attention mechanism for natural language processing |
CN111444721B (zh) * | 2020-05-27 | 2022-09-23 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
CN115146607B (zh) * | 2022-09-05 | 2022-11-04 | 北京智源人工智能研究院 | 评论信息情感偏好识别模型训练方法、识别方法及设备 |
-
2022
- 2022-11-01 CN CN202211355285.1A patent/CN115496076B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109697232A (zh) * | 2018-12-28 | 2019-04-30 | 四川新网银行股份有限公司 | 一种基于深度学习的中文文本情感分析方法 |
CN114742047A (zh) * | 2022-04-26 | 2022-07-12 | 河海大学 | 基于最大概率填充和多头注意力机制的文本情感识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115496076A (zh) | 2022-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109697285B (zh) | 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法 | |
CN111783474B (zh) | 一种评论文本观点信息处理方法、装置及存储介质 | |
CN114169330B (zh) | 融合时序卷积与Transformer编码器的中文命名实体识别方法 | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN112131383B (zh) | 特定目标的情感极性分类方法 | |
CN111159407B (zh) | 训练实体识别和关系分类模型的方法、装置、设备及介质 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN110188195B (zh) | 一种基于深度学习的文本意图识别方法、装置及设备 | |
CN108549658A (zh) | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 | |
CN112580328A (zh) | 事件信息的抽取方法及装置、存储介质、电子设备 | |
CN112667818A (zh) | 融合gcn与多粒度注意力的用户评论情感分析方法及系统 | |
CN113836992B (zh) | 识别标签的方法、训练标签识别模型的方法、装置及设备 | |
CN111475622A (zh) | 一种文本分类方法、装置、终端及存储介质 | |
CN113204611A (zh) | 建立阅读理解模型的方法、阅读理解方法及对应装置 | |
CN113392209A (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN112667782A (zh) | 一种文本分类方法、装置、设备及存储介质 | |
CN112784532A (zh) | 用于短文本情感分类的多头注意力记忆网络 | |
CN113742733A (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN116775872A (zh) | 一种文本处理方法、装置、电子设备及存储介质 | |
CN114818718A (zh) | 合同文本识别方法及装置 | |
CN114428860A (zh) | 院前急救病例文本的识别方法、装置、终端及存储介质 | |
CN111666375B (zh) | 文本相似度的匹配方法、电子设备和计算机可读介质 | |
CN113127607A (zh) | 文本数据标注方法、装置、电子设备及可读存储介质 | |
CN115496076B (zh) | 一种价值需求特征驱动的文本情感识别、训练方法及装置 | |
CN110782221A (zh) | 一种面试智能评测系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |