CN110377739B - 文本情感分类方法、可读存储介质和电子设备 - Google Patents

文本情感分类方法、可读存储介质和电子设备 Download PDF

Info

Publication number
CN110377739B
CN110377739B CN201910656577.0A CN201910656577A CN110377739B CN 110377739 B CN110377739 B CN 110377739B CN 201910656577 A CN201910656577 A CN 201910656577A CN 110377739 B CN110377739 B CN 110377739B
Authority
CN
China
Prior art keywords
vector
determining
target text
emotion classification
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910656577.0A
Other languages
English (en)
Other versions
CN110377739A (zh
Inventor
陈晓宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Go Out And Ask Suzhou Information Technology Co ltd
Original Assignee
Go Out And Ask Suzhou Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Go Out And Ask Suzhou Information Technology Co ltd filed Critical Go Out And Ask Suzhou Information Technology Co ltd
Priority to CN201910656577.0A priority Critical patent/CN110377739B/zh
Publication of CN110377739A publication Critical patent/CN110377739A/zh
Application granted granted Critical
Publication of CN110377739B publication Critical patent/CN110377739B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种文本情感分类方法、可读存储介质和电子设备,所述方法在判断文本情感分类标识的过程中增加了除了词向量之外的关键词特征和正则规则特征输入,减小了对文本情感误判的概率,大幅度的提升了文本情感分类的准确率。

Description

文本情感分类方法、可读存储介质和电子设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本情感分类方法、可读存储介质和电子设备。
背景技术
目前在人工智能领域,可以通过神经网络模型对输入的文本情感进行分类,例如将文本分类为愉快、哀伤、愤怒、害怕、厌恶、惊奇等类别。所述文本情感分类过程为将文本进行分词,使用词向量作为特征,输入卷积神经网络模型(CNN),输出每个类别的概率分布,得到分类结果。在对文本情感进行分类时通过word2vec模型确定文本的词向量,无法根据词语所处的上下文来获得该词的语义信息的动态表示,只能获取文本中孤立的词语的词向量,可能会导致在对文本情感进行分类时将负面的句子情感误判为正面情感。受限于word2vec模型的静态语义局限性,现有方法在情感识别准确率很难提升。同时所述文本情感分类方法仅通过词向量作为输入特征,输出的情感分类结果往往不够精确。
发明内容
有鉴于此,本发明实施例提供一种文本情感分类方法、可读存储介质和电子设备,旨在通过增加文本情感分类模型的输入,减小文本情感误判的概率,提升文本情感分类的准确率。
第一方面,本发明实施例公开了一种文本情感分类方法,所述方法包括:
根据目标文本确定关键词特征、正则规则特征和至少一个用于表征目标文本的第一词向量,所述关键词特征用于表征所述目标文本中包含关键词对应的情感分类标识,所述正则规则特征根据目标文本和与情感分类标识对应的正则表达式确定;
根据所述关键词特征、正则规则特征和第一词向量确定第一向量;
根据所述第一向量确定情感向量,所述情感向量中的每个元素用于表征所述目标文本被分类到对应的情感分类中的概率值;
根据所述情感向量确定所述目标文本的情感分类标识。
进一步地,所述根据所述关键词特征、正则规则特征和第一词向量确定第一向量包括:
根据所述关键词特征、正则规则特征和第一词向量确定第二向量和第三向量;
将所述第二向量和所述第三向量结合为所述第一向量。
进一步地,所述根据所述关键词特征、正则规则特征和第一词向量确定第一向量还包括:
根据所述关键词特征确定第二词向量;
根据所述正则规则特征确定第三词向量;
将所述第一词向量、第二词向量和第三词向量输入至预先训练的卷积神经网络模型以确定所述第一向量。
进一步地,所述根据所述关键词特征、正则规则特征和第一词向量确定第二向量和第三向量包括:
将所述第一词向量输入预先训练的卷积神经网络模型以确定第二向量;
根据所述关键词特征和正则规则特征确定第三向量;或者
所述根据所述关键词特征、正则规则特征和第一词向量确定第二向量和第三向量包括:
根据所述关键词特征确定第二词向量;
将所述第一词向量和第二词向量输入预先训练的卷积神经网络模型以确定第二向量;
确定所述正则规则特征为第三向量;或者
所述根据所述关键词特征、正则规则特征和第一词向量确定第二向量和第三向量包括:
根据所述正则规则特征确定第三词向量;
将所述第一词向量和第三词向量输入预先训练的卷积神经网络模型以确定第二向量;
确定所述关键词特征为第三向量。
进一步地,所述根据目标文本确定关键词特征包括:
确定各情感分类标识和对应的关键词;
根据所述目标文本中包含的关键词与各情感分类标识对应的关键词确定关键词特征。
进一步地,所述根据目标文本确定正则规则特征包括:
确定各情感分类标识对应的至少一个正则表达式;
根据目标文本和各情感分类标识对应的正则表达式确定所述正则规则特征。
进一步地,所述根据目标文本确定至少一个用于表征目标文本的第一词向量具体为:
将所述目标文本输入BERT模型以确定至少一个用于表征目标文本的第一词向量。
进一步地,所述根据所述情感向量确定所述目标文本的情感分类标识包括:
根据归一化指数函数计算所述情感向量中每种元素的概率值;
确定所述概率值最高的元素表征的情感分类标识为所述目标文本的情感分类标识。
第二方面,本发明实施例公开了一种计算机可读存储介质,用于存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如第一方面中任一项所述的方法。
第三方面,本发明实施例公开了一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面中任一项所述的方法。
所述方法在判断文本情感分类标识的过程中增加了除了词向量之外的关键词特征和正则规则特征输入,正则规则特征可以通过正则表达式一定程度来表达目标文本的整体表达思想,由此,可以减小对文本情感误判的概率,大幅度的提升了文本情感分类的准确率。同时通过BERT(BidirectionalEncoder Representations from Transformer)模型确定目标文本的词向量,可以根据所述词语所处的上下文来获得该词的语义信息的动态表示,准确率更高。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1为本发明实施例的文本情感分类方法流程图;
图2为一种向卷积神经网络模型中输入第一词向量、第二词向量和第三词向量的文本情感分类方法示意图;
图3为一种向卷积神经网络模型中输入第一词向量和第二词向量的文本情感分类方法示意图;
图4为一种向卷积神经网络模型中输入第一词向量和第三词向量的文本情感分类方法示意图;
图5为一种向卷积神经网络模型中输入第一词向量的文本情感分类方法示意图;
图6为本发明实施例的电子设备示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
图1为本发明实施例的文本情感分类方法流程图,如图1所示,所述文本情感分类方法包括:
步骤S100:根据目标文本确定关键词特征、正则规则特征和至少一个用于表征目标文本的第一词向量。
具体地,现有的文本情感分类方法中通过word2vec获取目标文本的词向量,再将所述词向量的输入文本情感分类模型中以判断目标文本的文本情感状态。但所述方法因word2vec无法根据上下文来获得目标文本中某一情感词的语义信息的动态表示,导致对目标文本的情感发生误判。例如在句子“你考全班倒数第一,真给你爹争气啊”中,“争气”用于表示消极的语气,与绝大多数表示消极的感情不同,仅通过word2vec获取目标文本的词向量,再根据所述词向量的特征判断目标文本的文本情感状态会使所述句子的文本发生误判,输出积极感情。因此为了防止在对文本情感分类过程中的情感误判,增加关键词特征、正则规则特征两种文本情感分类模型中的输入。即在判断文本情感的过程中除了词向量之外,还需要综合考虑目标文本的关键词特征和正则规则特征以达到减小情感误判的概率,提升文本情感分类的准确率。
其中,所述关键词特征用于表征所述目标文本中包含关键词对应的情感分类标识,可以为一组离散数据组成的向量。在本实施例的一个可选的实施方式中,所述确定关键词特征的过程为确定各情感分类标识和对应的关键词,根据所述目标文本中包含的关键词与各情感分类标识对应的关键词确定关键词特征。所述情感分类标识为名称、代码、编号等可以用于表征所述情感分类的数据。例如,当所述情感分类标识为所述情感分类的名称时,所述情感分类标识可以是“喜欢”、“快乐”、“愉悦”、“兴奋”、“愤怒”、“厌恶”和“消极”等;当所述情感分类标识为代码时,所述情感分类标识可以是“001”、“002”、“003”和“004”或“a”、“b”、“c”和“d”等。每个所述情感分类标识具有对应的预先设置的关键词集合,每个关键词集合中会包括对应至少一个关键词。例如所述情感分类标识“快乐”对应的关键词可以包括“棒”、“第一”、“满分”、“过年”等。当所述目标文本中包含某个情感分类标识对应的关键词时,对所述情感分类标识进行标记后生成关键词特征。例如,当确认所述情感分类标识分别为“喜欢”、“快乐”、“讨厌”和“生气”时,创建一个包含4个维度的向量用于表征关键词特征,其中每一个维度对应一种情感分类标识。所述目标文本中包含某种情感分类标识对应的关键词时,通过编辑所述用于表征关键词特征的向量中的维度对与所述维度对应的情感分类标识进行标记。所述标记方式例如可以是通过确定所述目标文本中包含关键词对应的情感分类标识,在向量中将所述情感分类标识对应的维度标记为“1”,其他的情感分类标识对应的维度标记为“0”来确定所述关键词特征。或直接标记所述目标文本中包含某一情感分类标识对应关键词的数量,例如当所述目标文本中包含“生气”对应的3个关键词时,在向量中将“生气”对应的维度标记为“3”,依次对其他情感分类标识进行标记以确定所述关键词特征。
所述正则规则特征根据目标文本和与情感分类标识对应的正则表达式确定,用于表达目标文本的整体表达思想,可以为一组离散数据组成的向量。在本实施例的一个可选的实施方式中,所述确定关键词特征的过程为确定各情感分类标识对应的正则表达式,根据目标文本和各情感分类标识对应的正则表达式确定正则规则特征。所述每种情感分类标识对应至少一个正则表达式,当所述目标文本满足某种情感分类标识对应的正则表达式时,对所述情感分类标识进行标记。例如,所述情感分类标识包括“喜欢”、“快乐”、“讨厌”和“生气”时,每一种情感分类标识对应至少一个正则表达式,所述正则表达式为对应于字符串的逻辑公式,用于与目标文本进行匹配。在本实施例中,所述正则表达式例如可以是与所述情感分类标识“快乐”对应的“*,考了满分,*”或与所述情感分类标识“生气”对应的“*,别烦我!”等逻辑公式,其中*代表任意文字。创建一个包含4个维度的向量用于表征所述正则规则特征,其中每一个维度对应一种情感分类标识。当所述目标文本满足某一正则表达式所规定的句式时,通过编辑所述向量中的维度对与所述维度对应的所述情感分类标识进行标记。所述标记方式例如可以是将满足的正则表达式对应的情感分类标识在所述向量中对应的维度标记为“1”,将不满足的正则表达式对应的情感分类标识在所述向量中对应的维度标记为“0”。或当所述目标文本可以满足某一情感分类标识对应的多个正则表达式时,标记所述目标文本中满足某一情感分类标识对应正则表达式的数量来确定所述正则规则特征,例如当所述目标文本满足“生气”对应的3个正则表达式时,在向量中将“生气”对应的维度标记为“3”,依次对其他情感分类标识进行标记以确定所述正则规则特征。
在本实施例的一个可选的实施方式中,所述第一词向量可以通过将所述目标文本输入BERT模型确定。所述BERT模型用于提取目标文本中用于表征情感的关键词的词向量,在提取所述第一词向量的过程中随机隐藏目标文本中15%左右的词,然后再预测这些被隐藏的词,通过调整所述BERT模型的参数使得所述BERT模型预测正确的概率尽可能大,这样使得在对一个词进行编码时因所述BERT模型无法判断被隐藏的是哪一个词,必须参考上下文的信息进行”纠错”来拟合输入,使得输出词向量结果能够很大程度表示目标文本的情感。可选的,所述BERT模型包括关键字确定模块、上下文确定模块和权重计算模块。所述关键字确定模块用于确定目标文本中的关键字的向量表示,所述上下文确定模块用于所述关键字上下文各个字的向量表示,所述权重计算模块用于计算所述关键字上下文各个字与所述关键字的相似度以确定权重,将所述关键字上下文各个字的向量表示根据对应的权重融入所述关键字的向量表示中以确定输出的第一词向量。所述BERT模型在提取目标文本所述词向量的过程中根据所述词语所处的上下文来获得该词的语义信息的动态表示,提高了准确率。
步骤S200:根据所述关键词特征、正则规则特征和第一词向量确定第一向量。
在本实施例中,第一向量为融合了关键词特征、正则规则特征和第一词向量的特征向量。相比于现有的word2vec向量,在进行情感分类的角度来说,第一向量和可以更加准确地描述目标文本中情感特征,由此,进而可以根据第一词向量来确定目标文本对应的情感分类。
步骤S200可以有多种不同的实现方式。
在一个可选的实现方式中,步骤S200包括直接根据所述关键词特征、正则规则特征和第一词向量直接确定第一向量。
具体地,如图2所示,先根据所述关键词特征确定第二词向量,根据所述正则规则特征确定第三词向量,再将所述第一词向量、第二词向量和第三词向量输入至预先训练的卷积神经网络模型以确定第一向量。所述根据所述关键词特征确定第二词向量具体为根据所述关键词特征中向量维度的内容确定与所述目标文本中包含的关键词对应的情感分类标识,将所述情感分类标识分别转换为对应的第二词向量。所述根据所述正则规则特征确定第三词向量具体为根据所述正则规则特征中向量维度的内容确定所述目标文本满足的正则表达式对应的情感分类标识,将所述情感分类标识分别转换为对应的第三词向量。将所述第一词向量、第二词向量和第三词向量输入至预先训练的卷积神经网络模型,输出第一向量。可选的,所述第一词向量、第二词向量和第三词向量还可以作为模型参数,在所述确定第一向量的过程中更新所述模型。
在另一个可选的实现方式中,步骤S200包括:
步骤S210:将所述第一词向量输入预先训练的卷积神经网络模型以确定第二向量。
具体地,所述第一词向量可以通过步骤S100中将所述目标文本输入BERT模型确定,用于表征所述目标文本。
步骤S220:根据所述关键词特征和正则规则特征确定第三向量。
具体地,所述根据所述关键词特征和正则规则特征确定第三向量例如可以是将所述关键词特征和正则规则特征结合为第三向量,即将所述正则规则特征内的元素增加至所述关键词特征中,所述向量结合的过程可以在文本情感分类模型的全连接层内完成。例如当所述关键词特征为{0,1,1,0},所述正则规则特征为{1,1,0,0}时,所述第三向量为{0,1,1,0,1,1,0,0}。
步骤S230:将所述第二向量和所述第三向量结合为所述第一向量。
具体地,所述将所述第二向量和所述第三向量结合为所述第一向量即将所述第二向量中的元素并入第三向量,或将所述第三向量中的元素并入第二向量。可选的,所述第二向量和第三向量结合的过程在文本情感分类模型的全连接层内完成。
在另一个可选的实现方式中,步骤S200包括:
步骤S210’:根据所述关键词特征确定第二词向量。
具体地,所述根据所述关键词特征确定第二词向量具体为根据所述关键词特征中向量维度的内容确定与所述目标文本中包含的关键词对应的情感分类标识,将所述情感分类标识分别转换为对应的第二词向量。例如,所述情感分类标识为“喜欢”、“讨厌”、“开心”和“难过”,所述关键词特征为{0,1,1,0},则将所述关键词特征中元素值为“1”对应的情感分类标识“讨厌”和“开心”转换为第二词向量。
步骤S220’:将所述第一词向量和第二词向量输入预先训练的卷积神经网络模型以确定第二向量。
具体地,所述第一词向量可以通过步骤S100中将所述目标文本输入BERT模型确定,用于表征所述目标文本。
步骤S230’:确定所述正则规则特征为第三向量。
具体地,所述正则规则特征为一串用于表征所述目标文本对应的情感分类标识的离散数据,确定所述离散数据为第三向量。
步骤S240’:将所述第二向量和所述第三向量结合为所述第一向量。
具体地,所述将所述第二向量和所述第三向量结合为所述第一向量即将所述第二向量中的元素并入第三向量,或将所述第三向量中的元素并入第二向量。可选的,所述第二向量和第三向量结合的过程在文本情感分类模型的全连接层内完成。
在又一个可选的实现方式中,步骤S200包括:
步骤S210”:根据所述正则规则特征确定第三词向量。
具体地,所述根据所述正则规则特征确定第三词向量具体为根据所述正则规则特征中向量维度的内容确定所述目标文本满足的正则表达式对应的情感分类标识,将所述情感分类标识分别转换为对应的第三词向量。例如,所述情感分类标识为“喜欢”、“讨厌”、“开心”和“难过”,所述正则规则特征为{0,1,1,0},则将所述关键词特征中元素值为“1”对应的情感分类标识“讨厌”和“开心”转换为第三词向量。
步骤S220”:将所述第一词向量和第三词向量输入预先训练的卷积神经网络模型以确定第二向量;
具体地,所述第一词向量可以通过步骤S100中将所述目标文本输入BERT模型确定,用于表征所述目标文本。
步骤S230”:确定所述关键词特征为第三向量。
具体地,所述关键词特征为一串用于表征所述目标文本中关键词对应的情感分类标识的离散数据,确定所述离散数据为第三向量。
步骤S240”:将所述第二向量和所述第三向量结合为所述第一向量。
具体地,所述将所述第二向量和所述第三向量结合为所述第一向量即将所述第二向量中的元素并入第三向量,或将所述第三向量中的元素并入第二向量。可选的,所述第二向量和第三向量结合的过程在文本情感分类模型的全连接层内完成。
步骤S300:根据所述第一向量确定情感向量。
具体地,所述情感向量中的每个元素用于表征所述目标文本被分类到对应的情感分类中的概率值。可以通过文本情感分类模型的全连接层完成所述第一向量到情感向量的转换,即将所述第一向量输入文本情感分类模型中的全连接层,输出情感向量。所述全连接层在所述文本情感分类的过程中训练得到第一矩阵和第二矩阵,所述情感向量通过第一向量、第一矩阵和第二矩阵确定,所述用于确定情感向量的公式如下:
P=wX+b
其中所述P为情感向量,所述w和b分别为所述文本情感分类的过程中训练得到的第一矩阵和第二矩阵,所述X为第一向量。
步骤S400:根据所述情感向量确定所述目标文本的情感分类标识。
具体地,所述步骤S400可以通过先根据归一化指数函数计算所述情感向量中每种元素的概率值,再确定所述概率值最高的元素表征的情感分类标识为所述目标文本的情感分类标识实现。所述情感向量通过归一化指数函数计算后,可以确定所述情感向量中每一种元素的概率,即每一种情感分类标识对应的概率值,所述各情感分类标识对应的概率值的和为1。最终确定所述目标文本的情感分类标识为所述情感向量计算得出的概率值最高的元素表征的情感分类标识。例如所述情感向量中元素对应的情感分类标识依次为“开心”、“喜欢”、“难过”和“讨厌”,所述归一化指数函数计算所述情感向量后得到{0.2,0.3,0.4,0.1},则最终确定所述目标文本的情感分类标识为所述概率值0.4对应的情感分类标识,即认为所述目标文本所表征的情感为“难过”。
所述方法在判断文本情感分类标识的过程中增加了除了词向量之外的关键词特征和正则规则特征输入,减小了对文本情感误判的概率,大幅度的提升了文本情感分类的准确率。同时通过BERT模型确定目标文本的词向量,可以根据所述词语所处的上下文来获得该词的语义信息的动态表示,准确率更高。
图2为一种向卷积神经网络模型中输入第一词向量、第二词向量和第三词向量的文本情感分类方法示意图,如图2所示,所述文本情感分类方法通过文本情感分类模型实现,所述文本情感分类模型包括卷积神经网络模型和全连接层。
具体地,先根据所述目标文本确定关键词特征、正则规则特征和至少一个用于表征目标文本的第一词向量。所述第一词向量通过将目标文本输入BERT模型确定,所述关键词特征根据对比所述目标文本的关键词和各情感分类标识对应的关键词确定,所述正则规则特征根据判断所述目标文本是否符合各情感分类标识对应的正则表达式确定。根据所述关键词特征确定第二词向量,根据所述正则规则特征确定第三词向量,将所述第一词向量、第二词向量和第三词向量输入所述预先训练后的卷积神经网络模型内,输出第一向量。所述第一向量在所述文本情感分类模型的全连接层中计算得出情感向量,并根据归一化指数函数对所述情感向量中每个元素值的概率进行计算,最终确定概率最高的元素对应的情感分类标识为所述目标文本的情感分类标识。
作为本申请实施例的另一个可选的实施方式,所述第二词向量和第三词向量不需要根据所述关键词特征和正则规则特征确定,可以直接根据所述目标文本确定。例如当所述目标文本中包含的关键词与所述情感分类标识“开心”对应的关键词相同,则将所述情感分类标识“开心”转换为对应的第二词向量。当所述目标文本与所述情感分类标识“讨厌”对应的正则表达式匹配时,将所述情感分类标识“讨厌”转换为对应的第三词向量。
图3为一种向卷积神经网络模型中输入第一词向量和第二词向量的文本情感分类方法示意图,如图3所示,所述文本情感分类方法通过文本情感分类模型实现,所述文本情感分类模型包括卷积神经网络模型和全连接层。
具体地,先根据所述目标文本确定关键词特征、正则规则特征和至少一个用于表征目标文本的第一词向量。所述第一词向量通过将目标文本输入BERT模型确定,所述关键词特征根据对比所述目标文本的关键词和各情感分类标识对应的关键词确定,所述正则规则特征根据判断所述目标文本是否符合各情感分类标识对应的正则表达式确定。根据所述关键词特征确定第二词向量,将所述第一词向量和第二词向量输入所述预先训练后的卷积神经网络模型内,输出第二向量。确定所述正则规则特征为第三向量。所述第二向量和第三向量输入全连接层结合为第一向量,即通过将所述第三向量的元素加入所述第二向量中确定第一向量。所述第一向量在所述文本情感分类模型的全连接层中计算得出情感向量,并根据归一化指数函数对所述情感向量中每个元素值的概率进行计算,最终确定概率最高的元素对应的情感分类标识为所述目标文本的情感分类标识。
作为本申请实施例的另一个可选的实施方式,所述第二词向量和不需要根据所述关键词特征确定,可以直接根据所述目标文本确定。例如当所述目标文本中包含的关键词与所述情感分类标识“开心”对应的关键词相同,则将所述情感分类标识“开心”转换为对应的第二词向量。
图4为一种向卷积神经网络模型中输入第一词向量和第三词向量的文本情感分类方法示意图,如图4所示,所述文本情感分类方法通过文本情感分类模型实现,所述文本情感分类模型包括卷积神经网络模型和全连接层。
具体地,先根据所述目标文本确定关键词特征、正则规则特征和至少一个用于表征目标文本的第一词向量。所述第一词向量通过将目标文本输入BERT模型确定,所述关键词特征根据对比所述目标文本的关键词和各情感分类标识对应的关键词确定,所述正则规则特征根据判断所述目标文本是否符合各情感分类标识对应的正则表达式确定。根据所述正则规则特征确定第三词向量,将所述第一词向量和第三词向量输入所述预先训练后的卷积神经网络模型内,输出第二向量。同时确定所述关键词特征为第三向量,所述第二向量和第三向量输入全连接层结合为第一向量,即通过将所述第三向量的元素加入所述第二向量中确定第一向量。所述第一向量在所述文本情感分类模型的全连接层中计算得出情感向量,并根据归一化指数函数对所述情感向量中每个元素值的概率进行计算,最终确定概率最高的元素对应的情感分类标识为所述目标文本的情感分类标识。
作为本申请实施例的另一个可选的实施方式,所述第三词向量不需要根据所述正则规则特征确定,可以直接根据所述目标文本确定。例如当所述目标文本与所述情感分类标识“讨厌”对应的正则表达式匹配时,将所述情感分类标识“讨厌”转换为对应的第三词向量。
图5为一种向卷积神经网络模型中输入第一词向量的文本情感分类方法示意图,如图5所示,所述文本情感分类方法通过文本情感分类模型实现,所述文本情感分类模型包括卷积神经网络模型和全连接层。
具体地,先根据所述目标文本确定关键词特征、正则规则特征和至少一个用于表征目标文本的第一词向量。所述第一词向量通过将目标文本输入BERT模型确定,所述关键词特征根据对比所述目标文本的关键词和各情感分类标识对应的关键词确定,所述正则规则特征根据判断所述目标文本是否符合各情感分类标识对应的正则表达式确定。将所述第一词向量输入所述预先训练后的卷积神经网络模型内,输出第二向量。同时根据所述关键词特征和正则规则特征为第三向量,即将所述正则规则特征的元素并入所述关键词特征或将所述关键词特征的元素并入所述正则规则特征以确定第三向量。所述第二向量和第三向量输入全连接层结合为第一向量,即通过将所述第三向量的元素加入所述第二向量中确定第一向量。所述第一向量在所述文本情感分类模型的全连接层中计算得出情感向量,并根据归一化指数函数对所述情感向量中每个元素值的概率进行计算,最终确定概率最高的元素对应的情感分类标识为所述目标文本的情感分类标识。
图6为本发明实施例的电子设备示意图,如图6所示,在本实施例中,所述电子设备包括服务器、终端等。如图所示,所述电子设备包括:至少一个处理器62;与至少一个处理器通信连接的存储器61;以及与存储介质通信连接的通信组件63,所述通信组件63在处理器的控制下接收和发送数据;其中,存储器61存储有可被至少一个处理器62执行的指令,指令被至少一个处理器62执行以实现上述实施例中的文本情感分类方法。
具体地,所述存储器61作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器62通过运行存储在存储器中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述文本情感分类方法。
存储器61可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储选项列表等。此外,存储器61可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器61可选包括相对于处理器62远程设置的存储器,这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器61中,当被一个或者多个处理器62执行时,执行上述任意方法实施例中的文本情感分类方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果,未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本发明还涉及一种计算机可读存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种文本情感分类方法,其特征在于,所述方法包括:
根据目标文本确定关键词特征、正则规则特征和至少一个用于表征目标文本的第一词向量,所述关键词特征用于表征所述目标文本中包含关键词对应的情感分类标识,所述正则规则特征根据目标文本和与情感分类标识对应的正则表达式确定;
根据所述关键词特征、正则规则特征和第一词向量确定第一向量;
根据所述第一向量确定情感向量,所述情感向量中的每个元素用于表征所述目标文本被分类到对应的情感分类中的概率值;
根据所述情感向量确定所述目标文本的情感分类标识;
其中,所述根据所述关键词特征、正则规则特征和第一词向量确定第一向量包括:
根据所述关键词特征、正则规则特征和第一词向量确定第二向量和第三向量;
将所述第二向量和所述第三向量结合为所述第一向量;
其中,所述根据所述关键词特征、正则规则特征和第一词向量确定第二向量和第三向量包括:
将所述第一词向量输入预先训练的卷积神经网络模型以确定第二向量;
根据所述关键词特征和正则规则特征确定第三向量;或者
所述根据所述关键词特征、正则规则特征和第一词向量确定第二向量和第三向量包括:
根据所述关键词特征确定第二词向量;
将所述第一词向量和第二词向量输入预先训练的卷积神经网络模型以确定第二向量;
确定所述正则规则特征为第三向量;或者
所述根据所述关键词特征、正则规则特征和第一词向量确定第二向量和第三向量包括:
根据所述正则规则特征确定第三词向量;
将所述第一词向量和第三词向量输入预先训练的卷积神经网络模型以确定第二向量;
确定所述关键词特征为第三向量。
2.如权利要求1所述的方法,其特征在于,所述根据所述关键词特征、正则规则特征和第一词向量确定第一向量还包括:
根据所述关键词特征确定第二词向量;
根据所述正则规则特征确定第三词向量;
将所述第一词向量、第二词向量和第三词向量输入至预先训练的卷积神经网络模型以确定所述第一向量。
3.如权利要求1所述的方法,其特征在于,所述根据目标文本确定关键词特征包括:
确定各情感分类标识和对应的关键词;
根据所述目标文本中包含的关键词与各情感分类标识对应的关键词确定关键词特征。
4.如权利要求1所述的方法,其特征在于,所述根据目标文本确定正则规则特征包括:
确定各情感分类标识对应的至少一个正则表达式;
根据目标文本和各情感分类标识对应的正则表达式确定所述正则规则特征。
5.如权利要求1所述的方法,其特征在于,所述根据目标文本确定至少一个用于表征目标文本的第一词向量具体为:
将所述目标文本输入BERT模型以确定至少一个用于表征目标文本的第一词向量。
6.如权利要求1所述的方法,其特征在于,所述根据所述情感向量确定所述目标文本的情感分类标识包括:
根据归一化指数函数计算所述情感向量中每种元素的概率值;
确定所述概率值最高的元素表征的情感分类标识为所述目标文本的情感分类标识。
7.一种计算机可读存储介质,用于存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-6中任一项所述的方法。
8.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-6中任一项所述的方法。
CN201910656577.0A 2019-07-19 2019-07-19 文本情感分类方法、可读存储介质和电子设备 Active CN110377739B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910656577.0A CN110377739B (zh) 2019-07-19 2019-07-19 文本情感分类方法、可读存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910656577.0A CN110377739B (zh) 2019-07-19 2019-07-19 文本情感分类方法、可读存储介质和电子设备

Publications (2)

Publication Number Publication Date
CN110377739A CN110377739A (zh) 2019-10-25
CN110377739B true CN110377739B (zh) 2022-03-04

Family

ID=68254374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910656577.0A Active CN110377739B (zh) 2019-07-19 2019-07-19 文本情感分类方法、可读存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN110377739B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991535A (zh) * 2019-12-04 2020-04-10 中山大学 一种基于多类型医学数据的pCR预测方法
CN111324744B (zh) * 2020-02-17 2023-04-07 中山大学 一种基于目标情感分析数据集的数据增强方法
CN111339768B (zh) * 2020-02-27 2024-03-05 携程旅游网络技术(上海)有限公司 敏感文本检测方法、系统、电子设备及介质
CN113742479A (zh) * 2020-05-29 2021-12-03 北京沃东天骏信息技术有限公司 筛选目标文本的方法和装置
CN112052333B (zh) * 2020-08-20 2024-04-30 深圳市欢太科技有限公司 文本分类方法及装置、存储介质和电子设备
CN114969316B (zh) * 2021-02-24 2024-04-26 腾讯科技(深圳)有限公司 一种文本数据处理方法、装置、设备以及介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120253792A1 (en) * 2011-03-30 2012-10-04 Nec Laboratories America, Inc. Sentiment Classification Based on Supervised Latent N-Gram Analysis
CN105117428B (zh) * 2015-08-04 2018-12-04 电子科技大学 一种基于词语对齐模型的web评论情感分析方法
CN108170685B (zh) * 2018-01-29 2021-10-29 浙江省公众信息产业有限公司 文本情感分析方法、装置和计算机可读存储介质
CN108388654B (zh) * 2018-03-01 2020-03-17 合肥工业大学 一种基于转折句语义块划分机制的情感分类方法
CN108536801A (zh) * 2018-04-03 2018-09-14 中国民航大学 一种基于深度学习的民航微博安保舆情情感分析方法
CN109933795B (zh) * 2019-03-19 2023-07-28 上海交通大学 基于上下文-情感词向量的文本情感分析系统

Also Published As

Publication number Publication date
CN110377739A (zh) 2019-10-25

Similar Documents

Publication Publication Date Title
CN110377739B (zh) 文本情感分类方法、可读存储介质和电子设备
CN110349568B (zh) 语音检索方法、装置、计算机设备及存储介质
CN109446517B (zh) 指代消解方法、电子装置及计算机可读存储介质
CN110727779A (zh) 基于多模型融合的问答方法及系统
CN110032623B (zh) 用户问句与知识点标题的匹配方法和装置
WO2023108994A1 (zh) 一种语句生成方法及电子设备、存储介质
CN111259144A (zh) 多模型融合文本匹配方法、装置、设备和存储介质
CN112036168B (zh) 事件主体识别模型优化方法、装置、设备及可读存储介质
CN113094559B (zh) 信息匹配方法、装置、电子设备和存储介质
CN112395421B (zh) 课程标签的生成方法、装置、计算机设备及介质
CN111737464B (zh) 文本分类方法、装置和电子设备
CN113505200A (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN112632224B (zh) 基于案例知识图谱的案件推荐方法、装置和电子设备
CN112036169B (zh) 事件识别模型优化方法、装置、设备及可读存储介质
CN116991875B (zh) 一种基于大模型的sql语句生成、别名映射方法及设备
CN117591663B (zh) 一种基于知识图谱的大模型prompt生成方法
CN111159377A (zh) 属性召回模型训练方法、装置、电子设备以及存储介质
CN112215629B (zh) 基于构造对抗样本的多目标广告生成系统及其方法
CN114722832A (zh) 一种摘要提取方法、装置、设备以及存储介质
CN110874408B (zh) 模型训练方法、文本识别方法、装置及计算设备
CN112084783B (zh) 基于民航不文明旅客的实体识别方法及系统
CN112035668B (zh) 事件主体识别模型优化方法、装置、设备及可读存储介质
CN114970538A (zh) 文本纠错的方法及装置
CN116702765A (zh) 一种事件抽取方法、装置及电子设备
CN111523311A (zh) 一种搜索意图识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant