CN114064906A - 情感分类网络训练方法以及情感分类方法 - Google Patents

情感分类网络训练方法以及情感分类方法 Download PDF

Info

Publication number
CN114064906A
CN114064906A CN202210047455.3A CN202210047455A CN114064906A CN 114064906 A CN114064906 A CN 114064906A CN 202210047455 A CN202210047455 A CN 202210047455A CN 114064906 A CN114064906 A CN 114064906A
Authority
CN
China
Prior art keywords
word
text
sample
emotion classification
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210047455.3A
Other languages
English (en)
Inventor
刘国清
杨广
王启程
王刚
杨国武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Minieye Innovation Technology Co Ltd
Original Assignee
Shenzhen Minieye Innovation Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Minieye Innovation Technology Co Ltd filed Critical Shenzhen Minieye Innovation Technology Co Ltd
Priority to CN202210047455.3A priority Critical patent/CN114064906A/zh
Publication of CN114064906A publication Critical patent/CN114064906A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本申请提供了一种情感分类网络训练方法包括:将目标域文本集中的每一文本进行分词得到与每一文本对应的第一词语样本集和第二词语样本集,计算第一词语样本集的词向量和计算第二词语样本集的词向量得到第一词向量集和第二词向量集;将第一词向量集和第二词向量集中对应文本中相同词语样本的词向量进行拼接得到拼接词向量;将文本中的词语用对应的拼接词向量进行代替得到文本样本;将文本样本输入特征提取网络进行特征提取得到带有情感特征的训练样本;以及将带有情感特征的训练样本输入初始分类网络进行训练得到目标域的情感分类网络。本申请还提供了一种情感分类方法、情感分类模型、计算机可读存储介质以及计算机设备。

Description

情感分类网络训练方法以及情感分类方法
技术领域
本申请涉及深度学习领域,尤其涉及一种情感分类网络训练方法、情感分类方法、情感分类模型、计算机可读存储介质以及计算机设备。
背景技术
近年来,随着诸多在线评论网站、微博、微信和论坛社区等网络媒体的蓬勃发展,网络上呈现出海量蕴含着丰富情感信息的主观性文本数据。文本的大幅增加为现有的深度学习模型提供了丰富的数据支持,深度学习在情感分析的各项任务中取得了很好的效果。而通过深度学习挖掘出这些文本中的情感信息,可以对学术界和企业都有非常重要的研究意义和应用价值。
在面对中文的情感分类任务时,经过中文分词后我们往往会发现,相同的词语在不同的场景下有着不同的词性,导致它们的词义也不完全相同,这时候我们如果仍然使用朴素的词向量来训练情感分类网络,往往得不到准确的结果,所以寻找一种一词多义下词向量的方法具有非常重要的研究价值和现实意义。
发明内容
本申请提供一种情感分类网络训练方法,解决中文一词多义导致情感分类不准确的问题。
第一方面,本申请实施例提供一种情感分类网络训练方法,该情感分类网络训练方法包括:
将目标域文本集中的每一文本进行分词得到与每一文本对应的不带有词性标签的第一词语样本集和与每一文本对应的带有词性标签的第二词语样本集,每一文本由若干词语样本构成,每一文本带有一个情感标签;每一文本的第一词语样本集包含每一文本的情感标签和文本集中不同词语样本的集合;每一文本的第二词语样本集包含了每一文本的情感标签、文本集中不同词语和词性不同的相同词语样本的集合;
计算第一词语样本集中每一词语样本的词向量和计算第二词语样本集中的每一词语样本的词向量得到每一文本的第一词向量集和每一文本的第二词向量集;
将第一词向量集和第二词向量集中对应文本中相同词语样本的词向量进行拼接得到拼接词向量;
将文本中的词语样本用对应的拼接词向量进行代替得到文本样本;
将文本样本输入特征提取网络进行特征提取得到带有情感特征的训练样本;以及
将带有情感特征的训练样本输入初始分类网络 进行训练得到目标域的情感分类网络。
第二方面,本申请实施例提供一种情感分类方法,该情感分类方法包括:
获取待分类文本;
将待分类文本输入根据情感分类网络训练方法得到的情感分类网络,得到待分类文本的情感分类结果。
第三方面,本申请实施例提供一种情感分类模型,该情感分类模型包括:
分词模块:用于将目标域文本集中的每一文本进行分词得到与每一文本对应的不带有词性标签的第一词语样本集和与每一文本对应的带有词性标签的第二词语样本集,每一文本由若干词语构成,每一文本带有一个情感标签;每一文本的第一词语样本集包含每一文本的情感标签和文本集中不同词语样本的集合;每一文本的第二词语样本集包含了每一文本的情感标签、文本集中不同词语和词性不同的相同词语样本的集合;
词向量转化模块:用于计算第一词语样本集中每一词语样本的词向量和计算第二词语样本集中的每一词语样本的词向量得到每一文本的第一词向量集和每一文本的第二词向量集;
词向量拼接模块:用于将第一词向量集和第二词向量集中对应文本中相同词语样本的词向量进行拼接得到拼接词向量;
训练样本构建模块:用于将文本中的词语用对应的拼接词向量进行代替得到文本样本;将文本样本输入特征提取网络进行特征提取得到带有情感特征的训练样本;
情感分类网络训练模块:用于将带有情感特征的训练样本输入初始分类网络 进行训练得到目标域的情感分类网络。
第四方面,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有能够被处理器加载并执行情感分类网络训练方法的程序指令。
第五方面,本申请实施例提供一种计算机设备,该计算机设备包括:
存储器,用于存储程序指令;以及
处理器,用于执行程序指令以使计算机设备实现情感分类网络训练方法。
本申请对所有文本进行中文分词,并且对分好的词添加词性标注,情感从而用一个是以带词性标注的中文词语为输入,一个是不带词性标注的原始中文词语为输入得到两组不同的词向量,并将两组不同的词向量进行拼接作为这个文本的拼接词向量;然后将拼接的词向量表示送入特征提取网络提取特征,再利用分类网络对提取的特征进行分类。由于拼接词向量中包含了每个词语的词性标注,且相同的词语在不同的场景下可以根据不同词性进行区分词义,利用拼接词向量对分类网络进行训练,可以实现一次词多义的情感准确分类,有效地解决了中文一词多义导致情感分类不准确的问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本申请第一实施例提供的情感分类网络训练方法的流程图。
图2为本申请第一实施例提供的情感分类网络训练方法的第一子流程图。
图3为本申请第二实施例提供的情感分类网络训练方法的子流程图。
图4为本申请第一实施例提供的情感分类网络训练方法的第二子流程图。
图5为本申请第一实施例提供的情感分类方法流程图。
图6为本申请第一实施例提供的情感分类模型内部结构示意图。
图7为本申请第一实施例提供的计算机设备内部结构示意图。
图8为本申请第一实施例提供拼接词向量结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在本申请中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
请结合参看图1,其为本申请第一实施例提供的情感分类网络训练方法的流程图。其中,本申请第一实施例提供的情感分类网络训练方法具体包括下面步骤。
步骤S101,将目标域文本集中的每一文本进行分词得到与每一文本对应的不带有词性标签的第一词语样本集和与每一文本对应的带有词性标签的第二词语样本集,每一文本由若干词语样本构成,每一文本带有一个情感标签。每一文本的第一词语样本集包含每一文本的情感标签和文本集中不同词语样本的集合。每一文本的第二词语样本集包含了每一文本的情感标签、文本集中不同词语和词性不同的相同词语样本的集合。具体地,使用中文分词工具jieba对目标域文本集中的每一文本进行分词。jieba是python的一个中文分词库。
例如,将“今天天气不错。”,输入设置好输出的jieba中进行分词,得到[“今天”,“天气”,“不错”]和[“今天t”,“天气n”,“不错a”]两个词语样本集。具体地词性标注可参考以下表格。
Figure 541256DEST_PATH_IMAGE001
步骤S102,计算第一词语样本集中每一词语样本的词向量和计算第二词语样本集中的每一词语样本的词向量得到每一文本的第一词向量集和每一文本的第二词向量集。在本实施例中,具体请参照步骤S1021-步骤S1023。
步骤S103,将第一词向量集和第二词向量集中对应文本中相同词语样本的词向量进行拼接得到拼接词向量。具体请结合参看图8,第一词向量801和第二词向量802进行拼接得到拼接词向量800。拼接词向量800中包含了第一词向量和第二词向量中所有的特征。拼接词向量的维度是第一词向量和第二词向量的维度之和。例如,第一词向量的维度为100维,第二词向量的维度为100维,那么拼接词向量的维度为200维。
步骤S104,将文本中的词语样本用对应的拼接词向量进行代替得到文本样本。
步骤S105,将文本样本输入特征提取网络进行特征提取得到带有情感特征的训练样本。
步骤S106,将带有情感特征的训练样本输入初始分类网络 进行训练得到目标域的情感分类网络。
请结合参看图2,其为本申请第一实施例提供的步骤S102的子步骤流程图。步骤S102,计算第一词语样本集中每一词语样本的词向量和计算第二词语样本集中的每一词语样本的词向量得到每一文本的第一词向量集和每一文本的第二词向量集,具体包括下面步骤。
步骤S1021,根据第一词语样本集和第二词语样本集构建第一字典和第二字典,其中,第一字典和第二字典每一个词语样本对应一个编号。例如,第一字典为
[“今天”:1,“天气”:2,“真好”:3]。例如,第二字典为[“今天t”:1,“天气n”:2,“不错a”:3]。第一字典和第二字典中对应的编号是独立的,互不影响。
步骤S1022,利用第一字典和第二字典中的编号替换第一词语样本集和第二词语样本集中的词语样本得到第一数据集和第二样本数据集。
步骤S1023,将第一数据集和第二数据集输入word2vec模型中得到第一词向量集和第二词向量集。具体地,将第一数据集和第二数据集输入word2vec模型中得到第一词向量集和第二词向量集中,使用的是word2vec模型中的CBOW 模型。在本实施例中,词向量的维度为100维,这里的100位维仅仅是示例不是限定,在实际应用中根据目标域样本的数据量确定词向量的维度。
上述实施例中对所有文本进行中文分词后并且对分好的词添加词性标注。接着分别训练两个word2vec模型,一个是以带词性标注的中文词语为输入,一个是不带词性标注的原始中文词语为输入。通过两个word2vec模型我们可以得到两组不同的词向量,将两组不同的词向量进行拼接,作为这个文本的拼接词向量。拼接词向量同时带有词语所有词性的中文意义,使用拼接词向量进行特征提取能够更加准确的还原文本中词语的意思,从而更加准确的分析出文本中所带的情感信息。
请结合参看图3,其为本申请第二实施例提供的情感分类网络训练方法流程图。第二实施例提供的情感分类网络训练方法与第一实施例提供的情感分类网络训练方法的差异在于在将目标域文本集中的每一文本进行分词得到与每一文本对应的不带有词性标签的第一词语样本集和与每一文本对应的带有词性标签的第二词语样本集前,第二实施例提供的情感分类网络训练方法还包括下面步骤。
步骤S301,删除目标域原始文本集中重复的文本得到第一文本集。
步骤S302,删除第一文本集中相似度高于预设值的文本得到第二文本集。
步骤S303,删除第二文本集中的只有符号的文本得到目标域文本集。
请结合参看图4,其为本申请第一实施例提供的步骤S101的子步骤流程图。步骤S101,将目标域文本集中的每一文本进行分词得到与每一文本对应的不带有词性标签的第一词语样本集和与每一文本对应的带有词性标签的第二词语样本集,具体包括下面步骤。
步骤S1011,利用中文分词工具jieba对目标域文本集中的每一文本进行分词得到原始第一词语样本集和原始第二词语样本集。
步骤S1012,删除原始第一词语样本集和原始第二词语样本集中的停用词和特殊符号得到中间第一词语样本集和中间第二词语样本集。
步骤S1013,删除中间第一词语样本集和中间第二词语样本集中的空白文本得到第一词语样本集和第二词语样本集。
请结合参看图5,其为本申请实施例提供情感分类方法流程图。其中,本申请第一实施例提供的情感分类方法具体包括下面步骤。
步骤S701,获取待分类文本。
步骤S702,将待分类文本输入根据情感分类网络训练方法得到的情感分类网络,得到待分类文本的情感分类结果。
请结合参看图6,本申请实施例还提供了一种情感分类模型600,该情感分类模型600包括:分词模块601、词向量转化模块602、词向量拼接模块603、训练样本构建模块604以及情感分类网络训练模块605。
分词模块601:用于将目标域文本集中的每一文本进行分词得到与每一文本对应的不带有词性标签的第一词语样本集和与每一文本对应的带有词性标签的第二词语样本集,每一文本由若干词语样本构成,每一文本带有一个情感标签。每一文本的第一词语样本集包含每一文本的情感标签和文本集中不同词语样本的集合。每一文本的第二词语样本集包含了每一文本的情感标签、文本集中不同词语和词性不同的相同词语样本的集合。
词向量转化模块602:用于计算第一词语样本集中每一词语样本的词向量和计算第二词语样本集中的每一词语样本的词向量得到每一文本的第一词向量集和每一文本的第二词向量集。
词向量拼接模块603:用于将第一词向量集和第二词向量集中对应文本中相同词语样本的词向量进行拼接得到拼接词向量。
训练样本构建模块604:用于将文本中的词语样本用对应的拼接词向量进行代替得到文本样本。将文本样本输入特征提取网络进行特征提取得到带有情感特征的训练样本。
情感分类网络训练模块605:用于将带有情感特征的训练样本输入初始分类网络进行训练得到目标域的情感分类网络。
本申请对所有文本进行中文分词,并且对分好的词添加词性标注,情感从而用一个是以带词性标注的中文词语为输入,一个是不带词性标注的原始中文词语为输入得到两组不同的词向量,并将两组不同的词向量进行拼接作为这个文本的拼接词向量;然后将拼接的词向量表示送入特征提取网络提取特征,再利用分类网络对提取的特征进行分类。由于拼接词向量中包含了每个词语的词性标注,且相同的词语在不同的场景下可以根据不同词性进行区分词义,利用拼接词向量对分类网络进行训练,可以实现一次词多义的情感准确分类,有效地解决了中文一词多义导致情感分类不准确的问题。
本申请还提供了一种计算机可读存储介质。计算机可读存储介质上存储有能够被处理器加载并执行的上述的情感分类网络训练方法的程序指令。由于计算机可读存储介质采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再赘述。
本申请还提供一种计算机设备900,计算机设备900至少包括,存储器901和处理器902。存储器901用于存储情感分类网络训练方法的程序指令。处理器902,用于执行程序指令以使计算机设备实现上述的情感分类网络训练方法。请结合参看图7,其为本申请第一实施例提供的计算机设备900的内部结构示意图。
其中,存储器901至少包括一种类型的计算机可读存储介质,该计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器901在一些实施例中可以是计算机设备900的内部存储单元,例如计算机设备900的硬盘。存储器901在另一些实施例中也可以是计算机设备900的外部存储设备,例如计算机设备900上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字卡(Secure Digital, SD),闪存卡(Flash Card)等。进一步地,存储器901还可以既包括计算机设备900的内部存储单元也包括外部存储设备。存储器901不仅可以用于存储安装于计算机设备900的应用软件及各类数据,例如情感分类网络训练方法的程序指令等,还可以用于暂时地存储已经输出或者将要输出的数据,例如情感分类网络训练方法执行产生的数据等。
处理器902在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器901中存储的程序指令或处理数据。具体地,处理器902执行情感分类网络训练方法的程序指令以控制计算机设备900实现情感分类网络训练方法。
进一步地,计算机设备900还可以包括总线903可以是外设部件互连标准总线(peripheral component interconnect,简称PCI)或扩展工业标准结构总线(extendedindustry standard architecture,简称EISA)等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
进一步地,计算机设备900还可以包括显示组件904。显示组件904可以是LED(Light Emitting Diode,发光二极管)显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示组件904也可以适当的称为显示装置或显示单元,用于显示在计算机设备900中处理的信息以及用于显示可视化的用户界面。
进一步地,计算机设备900还可以包括通信组件905,通信组件905可选的可以包括有线通信组件和/或无线通信组件(如WI-FI通信组件、蓝牙通信组件等),通常用于在计算机设备900与其他计算机设备之间建立通信连接。
图7仅示出了具有组件901-905以及实现情感分类网络训练方法的程序指令的计算机设备900,本领域技术人员可以理解的是,图7示出的结构并不构成对计算机设备900的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。由于计算机设备900采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再赘述。
该情感分类网络训练方法包括一个或多个程序指令。在设备上加载和执行该程序指令时,全部或部分地产生按照本申请实施例的流程或功能。该设备可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该程序指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,该程序指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid StateDisk(SSD))等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考上述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的情感分类网络训练方法实施例仅仅是示意性的,例如,该单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件 可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
该作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机 设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、流动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序指令的介质。
本申请还提供了一种情感分类网络训练方法设备。情感分类网络训练方法包括情感分类网络训练方法和情感分类网络训练方法。情感分类网络训练方法设备的具体结构参照上述实施例,由于情感分类网络训练方法设备采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再赘述。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘且本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
以上所列举的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属于本申请所涵盖的范围。

Claims (10)

1.一种情感分类网络训练方法,其特征在于,所述情感分类网络训练方法包括:
将目标域文本集中的每一文本进行分词得到与每一文本对应的不带有词性标签的第一词语样本集和与每一文本对应的带有词性标签的第二词语样本集,所述每一文本由若干词语样本构成,所述每一文本带有一个情感标签,所述每一文本的第一词语样本集包含所述每一文本的情感标签和文本中不同词语样本的集合,所述每一文本的第二词语样本集包含了所述每一文本的情感标签、所述文本中不同词语和词性不同的相同词语样本的集合;
计算所述第一词语样本集中每一词语样本的词向量和计算所述第二词语样本集中的每一词语样本的词向量得到每一文本的第一词向量集和每一文本的第二词向量集;
将所述第一词向量集和所述第二词向量集中对应文本中相同词语样本的词向量进行拼接得到拼接词向量;
将文本中的词语样本用对应的所述拼接词向量进行代替得到文本样本;
将所述文本样本输入特征提取网络进行特征提取得到带有情感特征的训练样本;以及
将所述带有情感特征的训练样本输入初始分类网络进行训练得到目标域的情感分类网络。
2.如权利要求1所述的情感分类网络训练方法,其特征在于,计算所述第一词语样本集中每一词语样本的词向量和计算所述第二词语样本集中的每一词语样本的词向量得到每一文本的第一词向量集和每一文本的第二词向量集,具体包括:
根据所述第一词语样本集和所述第二词语样本集构建第一字典和第二字典,其中,所述第一字典和所述第二字典每一个词语样本对应一个编号;
利用所述第一字典和所述第二字典中的编号替换所述第一词语样本集和所述第二词语样本集中的词语样本得到第一数据集和第二样本数据集;
将所述第一数据集和所述第二数据集输入word2vec模型中得到所述第一词向量集和所述第二词向量集。
3.如权利要求1所述的情感分类网络训练方法,其特征在于,在将目标域文本集中的每一文本进行分词得到与每一文本对应的不带有词性标签的第一词语样本集和与每一文本对应的带有词性标签的第二词语样本集前,还包括:
删除目标域原始文本集中重复的文本得到第一文本集;
删除所述第一文本集中相似度高于预设值的文本得到第二文本集;以及
删除所述第二文本集中的只有符号的文本得到所述目标域文本集。
4.如权利要求1所述的情感分类网络训练方法,其特征在于,使用中文分词工具jieba对所述目标域文本集中的每一文本进行分词。
5.如权利要求4所述的情感分类网络训练方法,其特征在于,将目标域文本集中的每一文本进行分词得到与每一文本对应的不带有词性标签的第一词语样本集和与每一文本对应的带有词性标签的第二词语样本集,具体包括:
利用中文分词工具jieba对所述目标域文本集中的每一文本进行分词得到原始第一词语样本集和原始第二词语样本集;
删除所述原始第一词语样本集和所述原始第二词语样本集中的停用词和特殊符号得到中间第一词语样本集和中间第二词语样本集;以及
删除所述中间第一词语样本集和所述中间第二词语样本集中的空白文本得到所述第一词语样本集和所述第二词语样本集。
6.如权利要求2所述的情感分类网络训练方法,其特征在于,在将所述第一数据集和所述第二数据集输入word2vec模型中得到所述第一词向量集和所述第二词向量集中,使用的是word2vec模型中的CBOW 模型。
7.一种情感分类方法,其特征在于,所述情感分类方法包括:
获取待分类文本;
将所述待分类文本输入根据如权利要求1~6任意一项所述的情感分类网络训练方法得到的情感分类网络,得到所述待分类文本的情感分类结果。
8.一种情感分类模型,其特征在于,所述情感分类模型包括:
分词模块:用于将目标域文本集中的每一文本进行分词得到与每一文本对应的不带有词性标签的第一词语样本集和与每一文本对应的带有词性标签的第二词语样本集,所述每一文本由若干词语样本构成,所述每一文本带有一个情感标签,所述每一文本的第一词语样本集包含所述每一文本的情感标签和文本集中不同词语样本的集合,所述每一文本的第二词语样本集包含了所述每一文本的情感标签、所述文本集中不同词语和词性不同的相同词语样本的集合;
词向量转化模块:用于计算所述第一词语样本集中每一词语样本的词向量和计算所述第二词语样本集中的每一词语样本的词向量得到每一文本的第一词向量集和每一文本的第二词向量集;
词向量拼接模块:用于将所述第一词向量集和所述第二词向量集中对应文本中相同词语样本的词向量进行拼接得到拼接词向量;
训练样本构建模块:用于将文本中的词语样本用对应的所述拼接词向量进行代替得到文本样本;将所述文本样本输入特征提取网络进行特征提取得到带有情感特征的训练样本;
情感分类网络训练模块:用于将所述带有情感特征的训练样本输入初始分类网络 进行训练得到目标域的情感分类网络。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有能够被处理器加载并执行的如权利要求1~6任意一项所述的情感分类网络训练方法的程序指令。
10.一种计算机设备,其特征在于,所述计算机设备包括:
存储器,用于存储程序指令;以及
处理器,用于执行所述程序指令以使所述计算机设备实现如权利要求1~6任意一项所述的情感分类网络训练方法。
CN202210047455.3A 2022-01-17 2022-01-17 情感分类网络训练方法以及情感分类方法 Pending CN114064906A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210047455.3A CN114064906A (zh) 2022-01-17 2022-01-17 情感分类网络训练方法以及情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210047455.3A CN114064906A (zh) 2022-01-17 2022-01-17 情感分类网络训练方法以及情感分类方法

Publications (1)

Publication Number Publication Date
CN114064906A true CN114064906A (zh) 2022-02-18

Family

ID=80231160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210047455.3A Pending CN114064906A (zh) 2022-01-17 2022-01-17 情感分类网络训练方法以及情感分类方法

Country Status (1)

Country Link
CN (1) CN114064906A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028821A (zh) * 2023-03-29 2023-04-28 中电科大数据研究院有限公司 融合领域知识的预训练模型训练方法、数据处理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108468A (zh) * 2017-12-29 2018-06-01 华中科技大学鄂州工业技术研究院 一种基于概念和文本情感的短文本情感分析方法和装置
CN110362819A (zh) * 2019-06-14 2019-10-22 中电万维信息技术有限责任公司 基于卷积神经网络的文本情感分析方法
CN111159409A (zh) * 2019-12-31 2020-05-15 腾讯科技(深圳)有限公司 基于人工智能的文本分类方法、装置、设备、介质
CN111694960A (zh) * 2020-06-03 2020-09-22 哈尔滨商业大学 基于词性特征和观点特征结合卷积神经网络的电商评论情感分析模型

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108468A (zh) * 2017-12-29 2018-06-01 华中科技大学鄂州工业技术研究院 一种基于概念和文本情感的短文本情感分析方法和装置
CN110362819A (zh) * 2019-06-14 2019-10-22 中电万维信息技术有限责任公司 基于卷积神经网络的文本情感分析方法
CN111159409A (zh) * 2019-12-31 2020-05-15 腾讯科技(深圳)有限公司 基于人工智能的文本分类方法、装置、设备、介质
CN111694960A (zh) * 2020-06-03 2020-09-22 哈尔滨商业大学 基于词性特征和观点特征结合卷积神经网络的电商评论情感分析模型

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王义等: "基于细粒度多通道卷积神经网络的文本情感分析", 《计算机工程》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028821A (zh) * 2023-03-29 2023-04-28 中电科大数据研究院有限公司 融合领域知识的预训练模型训练方法、数据处理方法
CN116028821B (zh) * 2023-03-29 2023-06-13 中电科大数据研究院有限公司 融合领域知识的预训练模型训练方法、数据处理方法

Similar Documents

Publication Publication Date Title
CN111581976B (zh) 医学术语的标准化方法、装置、计算机设备及存储介质
CN108052577B (zh) 一种通用文本内容挖掘方法、装置、服务器及存储介质
WO2021135469A1 (zh) 基于机器学习的信息抽取方法、装置、计算机设备及介质
CN111191428B (zh) 评论信息处理方法、装置、计算机设备和介质
US9514113B1 (en) Methods for automatic footnote generation
CN110245232B (zh) 文本分类方法、装置、介质和计算设备
CN112749547A (zh) 文本分类器训练数据的产生
CN109284367B (zh) 用于处理文本的方法和装置
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
EP3961426A2 (en) Method and apparatus for recommending document, electronic device and medium
CN115438149A (zh) 一种端到端模型训练方法、装置、计算机设备及存储介质
CN114064906A (zh) 情感分类网络训练方法以及情感分类方法
US20140343921A1 (en) Analyzing documents corresponding to demographics
CN110362688B (zh) 试题标注方法、装置、设备及计算机可读存储介质
CN107168627B (zh) 用于触摸屏的文本编辑方法和装置
CN107273362B (zh) 数据处理方法及其设备
CN111339760A (zh) 词法分析模型的训练方法、装置、电子设备、存储介质
CN114003725A (zh) 信息标注模型的构建方法以及信息标注的生成方法
CN110276001B (zh) 盘点页识别方法、装置、计算设备和介质
US11106864B2 (en) Comment-based article augmentation
CN114020879A (zh) 多源跨领域的文本情感分类网络的训练方法
CN113569741A (zh) 图像试题的答案生成方法、装置、电子设备及可读介质
CN110796137A (zh) 一种识别图像的方法和装置
CN110968677B (zh) 文本寻址的方法及装置、介质和电子设备
CN115293158B (zh) 基于标签辅助的消歧方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220218