CN111475640A - 基于情感摘要的文本情感识别方法及装置 - Google Patents

基于情感摘要的文本情感识别方法及装置 Download PDF

Info

Publication number
CN111475640A
CN111475640A CN202010257469.9A CN202010257469A CN111475640A CN 111475640 A CN111475640 A CN 111475640A CN 202010257469 A CN202010257469 A CN 202010257469A CN 111475640 A CN111475640 A CN 111475640A
Authority
CN
China
Prior art keywords
emotion
text
abstract
emotion recognition
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010257469.9A
Other languages
English (en)
Inventor
任陶瑞
刘凡
霍刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010257469.9A priority Critical patent/CN111475640A/zh
Publication of CN111475640A publication Critical patent/CN111475640A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本说明书的实施例提供一种基于情感摘要的文本情感识别方法及装置。在该方法中,基于待识别文本生成情感摘要;以及将所生成的情感摘要提供给文本情感识别模型来进行文本情感识别。

Description

基于情感摘要的文本情感识别方法及装置
技术领域
本说明书实施例通常涉及人工智能技术领域,尤其涉及基于情感摘要的文本情感识别方法及装置。
背景技术
随着人工智能技术(Artificial Intelligence,AI)的发展,AI技术已经成为数据分析最有利的工具之一。AI技术所提供的大数据分析能力能够对现有业务提供科技指导,给人们带来新的商业价值和服务体验。情感计算作为AI领域的一个重要分支,已经经过了很多年的发展。随着技术的进步,文本情感分析的准确性已经大大提高,依托于情感分析的应用已经广泛地应用于各种应用场景。
发明内容
鉴于上述问题,本说明书实施例提供了一种基于情感摘要的文本情感识别方法及装置。利用该方法及装置,通过将待识别文本的情感摘要而不是待识别文本自身提供给文本情感识别模型来进行文本情感分析,可以提升文本情感识别的精度。
根据本说明书实施例的一个方面,提供一种基于情感摘要的文本情感识别方法,包括:基于待识别文本生成情感摘要;以及将所生成的情感摘要提供给文本情感识别模型来进行文本情感识别。
可选地,在上述方面的一个示例中,基于待识别文本生成情感摘要可以包括:对待识别文本进行分词处理;使用情感词典来对分词处理所得到的分词进行匹配处理;以及对匹配的分词按顺序进行拼接,得到情感摘要,所述情感摘要的断句位置与所述待识别文本的断句位置保持一致。
可选地,在上述方面的一个示例中,所述情感词典可以包括情感词、重要阐述对象、情感程度词、情感关联词、转折词和否定词中的至少一种及其组合。
可选地,在上述方面的一个示例中,所述原始输入文本包括简写词,所述文本情感识别方法还可以包括:使用简写词映射表来对待识别文本进行映射处理,基于待识别文本生成情感摘要可以包括:基于映射处理后的待识别文本生成情感摘要。
可选地,在上述方面的一个示例中,所述文本情感识别方法还可以包括:从所述情感摘要中去除作为独立短句且不能表达情感的分词,将所生成的情感摘要提供给文本情感识别模型来进行文本情感识别可以包括:将经过分词去除处理后的情感摘要提供给文本情感识别模型来进行文本情感识别。
可选地,在上述方面的一个示例中,基于待识别文本生成情感摘要可以包括:将待识别文本提供给情感摘要生成模型来生成情感摘要。
可选地,在上述方面的一个示例中,所述文本情感识别模型可以包括输入文本长度受限的机器学习模型。
根据本说明书的实施例的另一方面,提供一种基于情感摘要的文本情感识别装置,包括:情感摘要生成单元,基于待识别文本生成情感摘要;以及情感识别单元,将所生成的情感摘要提供给文本情感识别模型来进行文本情感识别。
可选地,在上述方面的一个示例中,所述情感摘要生成单元可以包括:分词处理模块,对待识别文本进行分词处理;分词匹配模块,使用情感词典来对分词处理所得到的分词进行匹配处理;以及分词拼接模块,对匹配的分词按顺序进行拼接,得到情感摘要,所述情感摘要的断句位置与所述待识别文本的断句位置保持一致。
可选地,在上述方面的一个示例中,所述情感词典可以包括情感词、重要阐述对象、情感程度词、情感关联词、转折词和否定词中的至少一种及其组合。
可选地,在上述方面的一个示例中,所述原始输入文本包括简写词,所述文本情感识别装置还可以包括:简写词映射单元,使用简写词映射表来对待识别文本进行映射处理,所述情感摘要生成单元基于映射处理后的待识别文本生成情感摘要。
可选地,在上述方面的一个示例中,所述文本情感识别装置还可以包括:分词去除单元,从所述情感摘要中去除作为独立短句且不能表达情感的分词,所述情感识别单元将经过分词去除处理后的情感摘要提供给文本情感识别模型来进行文本情感识别。
可选地,在上述方面的一个示例中,所述情感摘要生成单元将待识别文本提供给情感摘要生成模型来生成情感摘要。
根据本说明书的另一方面,提供一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器耦合的存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上所述的文本情感识别方法。
根据本说明书的实施例的另一方面,提供一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如上所述的文本情感识别方法。
附图说明
通过参照下面的附图,可以实现对于本说明书内容的本质和优点的进一步理解。在附图中,类似组件或特征可以具有相同的附图标记。
图1示出了根据本说明书的实施例的示例环境的示意图;
图2示出了根据本说明书的实施例的基于情感摘要的文本情感识别方法的一个示例的流程图;
图3示出了根据本说明书的实施例的情感摘要生成过程的一个示例的流程图;
图4示出了根据本说明书的实施例的情感词典的一个示例的节选示意图;
图5示出了根据本说明书的实施例的情感摘要的一个生成示例的示意图;
图6示出了根据本说明书的实施例的情感摘要的另一生成示例的示意图;
图7示出了根据本说明书的实施例的情感摘要的另一生成示例的示意图;
图8示出了根据本说明书的实施例的文本情感识别装置的一个示例的方框图;
图9示出了根据本说明书的实施例的情感摘要生成单元的一个示例的方框图;和
图10示出了根据本说明书的实施例的用于基于情感摘要进行文本情感识别的电子设备的示意图。
具体实施方式
现在将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本说明书内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。例如,所描述的方法可以按照与所描述的顺序不同的顺序来执行,以及各个步骤可以被添加、省略或者组合。另外,相对一些示例所描述的特征在其它例子中也可以进行组合。
如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。
随着AI技术的发展,文本情感分析的准确性已经大大提高,并且基于情感分析的应用已经广泛地应用于各种应用场景。例如,文本情感分析可以应用于舆情分析平台、用户评价分析平台和人机交互领域等。
在现有的文本情感分析方案中,可以通过使用字向量映射表来将输入文本转换为字向量序列,然后转换为字嵌入向量序列并提供给TextCNN模型来进行情感识别,或者可以对输入文本进行分词处理,通过词向量映射将分词转换为词向量序列,然后转换为词嵌入向量序列并提供给TextCNN模型来进行情感识别,或者可以使用字向量映射表将输入文本直接转换为字向量序列,然后提供给BERT模型来进行情感识别。
在这些实现方案中,都是将输入文本对应的向量序列(即,输入文本自身)提供给机器学习模型来进行情感识别。在输入文本的文字长度比较大的情况下,机器学习模型的模型训练的计算量更大,从而使得所训练出的模型识别精度不高。此外,由于输入文本中存在很多与情感识别无关的内容,从而会给机器学习模型的情感识别带来干扰,由此导致机器学习模型的情感识别精度降低。
鉴于上述,根据本说明书的实施例提供一种基于情感摘要的文本情感识别方案。在该方案中,基于输入文本生成情感摘要,所述情感摘要相较于原始输入文本语句长度较短,但是保留了原始输入文本中的情感因素,所表达的情感与原始输入文本基本保持一致。然后,将所生成的情感摘要提供给机器学习模型(即,文本情感识别模型)来进行情感识别。按照这种方式,可以缩短提供给机器学习模型的模型输入的文本长度,去除输入文本中的与情感识别无关的内容,从而降低模型识别的计算量,提高情感识别精度。
在本说明书中,术语“情感摘要”可以是对原始输入文本进行缩写或者提取而得到的文本摘要。情感摘要相较于原始输入文本语句长度较短,但是保留了原始输入文本中的情感因素,例如,情感摘要包括情感程度词以及用于表达正负向情感的词。情感摘要所表达的情感与原始输入文本基本保持一致。
下面将参考附图描述根据本说明书的实施例的基于情绪摘要的情绪识别方法及装置。
图1示出了根据本说明书的实施例的示例环境100的示意图。如图1所示,示例环境100可以包括计算设备102、104、106、108和网络112。在一实施例中,网络112可以包括局域网(Local Area Network,LAN)、广域网(Wide Area Network,WAN)、因特网或其组合,并连接至网站、用户设备(例如计算设备)和后端系统。在一实施例中,计算设备102、104、106和108可以通过有线和/或无线通信方式访问网络112。
在一实施例中,计算设备102~108可以运行任何适当的计算系统。例如,计算设备102~108可以包括但不限于个人计算机、服务器计算机、工作站、桌面型计算机、膝上型计算机、笔记本计算机、移动计算设备、智能电话、平板计算机、蜂窝电话、个人数字助理(PDA)、手持装置、消息收发设备、可佩戴计算设备、消费电子设备等等。
在一实施例中,计算设备102~106可以是与网络112相连的文本输入获取设备。例如,计算设备102可以是PC电脑,计算设备104可以是笔记本电脑,以及计算设备106可以是智能手机。计算设备108可以是与网络112相连的文本情感识别设备108。文本情感设备108中具有文本情感识别装置110。
计算设备102~106获取用户的原始输入文本,并且将原始输入文本经由网络112或者直接发送到文本情感识别设备108。文本情感设备108中的文本情感识别装置110针对该原始输入文本进行文本情感识别。
上面的示例环境包括多个用于获取用户的原始输入文本的计算设备,并且该多个计算设备经由网络与文本情感识别设备可通信地连接。在其它实施例中,也可以仅仅包括单个用于获取原始输入文本的计算设备,或者,该多个计算设备中的一个或多个也可以直接与文本情感识别设备可通信地连接(无需网络参与)。
图2示出了根据本说明书的实施例的基于情感摘要的文本情感识别方法200的一个示例的流程图。
如图2所示,在块210,基于待识别文本(为了描述方便,下文中称为“原始输入文本”)生成情感摘要。原始输入文本例如可以包括用户的点评文本、问询文本、服务反馈文本等等。例如,原始输入文本可以是“今天我们一家人来到杭州旅游住在这家宾馆,他家房间收拾得很干净,虽然酒店装修有点老,但是总体很惬意”。
在一个示例中,可以通过将原始输入文本提供给情感摘要生成模型来生成情感摘要。情感摘要生成模型可以是以原始输入文本为输入,以及以情感摘要为输出的机器学习模型。例如,情感摘要生成模型可以采用TextCNN、RNN、BERT、RoBERTa、GRU等文本处理模型实现。情感摘要生成模型可以预先使用收集的文本语料来进行模型训练。
在另一个示例中,也可以使用情感词典来生成原始输入文本的情感摘要。图3示出了根据本说明书的实施例的情感摘要生成过程的一个示例的流程图,图4示出了根据本说明书的实施例的情感词典的一个示例的节选示意图,以及图5示出了根据本说明书的实施例的情感摘要的一个生成示例的示意图。
如图3所示,在块310,对原始输入文本进行分词处理。例如,可以采用分词工具jieba、自建的分词工具或者本领域中的其他合适分词工具来对原始输入文本进行分词处理。
例如,如图5中所示,针对原始输入文本“今天我们一家人来到杭州旅游住在这家宾馆,他家房间收拾得很干净,虽然酒店装修有点老,但是总体很惬意”,经过分词处理后的结果可以是“今天|我们|一家人|来到|杭州|旅游|住|在|这|家|宾馆|,|他家|房间|收拾|得|很|干净|,|虽然|酒店|装修|有点|老|,|但是|总体|很|惬意”。这里,符号“|”用于表示分词切分的位置。在本说明书的其它实施例中,针对同一原始输入文本,使用不同的分词工具可以得到不同的分词处理结果,或者使用同一分词工具也可以得到多于一个分词处理结果,例如,上面的“这”和“家”可以分词为一个分词,或者“有点”和“老”也可以分词为一个分词。
在块320,使用情感词典来对分词处理所得到的分词进行匹配处理。在本说明书中,情感词典可以包括情感词、重要阐述对象、情感程度词、情感关联词、转折词和否定词中的至少一种及其组合。情感词典通常是预先构建的。
如图4中所示,情感词例如可以包括用于表示正向情感的情感词,比如“开心”,“爽”,“好玩”,“好吃”,“漂亮”等等;以及用于表示负向情感的情感词,比如“不开心”,“难吃”,“难受”,“想哭”等等。重要阐述对象例如可以是通常在酒店点评中会描述的“房间”,“卫生间”,“位置”,“车站”等词。在用户点评中,对这些关键信息的形容与情感表达之间具有非常大的关系,比如“离车站近”,“很方便”等等,这些可以反映正向情感,而“房间比较小”则可以反映负向情感。情感程度词例如可以包括“很”,“非常”,“相当”,“真”等等。情感关联词例如可以包括与情感联系紧密的词,比如,“发霉”,“脏”等。情感关联词没有直接描述情感,只是客观描述事物的情况,但是与情感联系非常紧密。例如,用户说房间有股霉味,很大程度上是负面情感的表达。转折词和否定词的示例例如可以包括“但是”,“否”,“不”,“不是”等等。
特别说明的是,例如jieba的分词工具在输入语句不同的情况下,会根据上下文决定如何分析。比如,当一句话出现“不开心”的时候,分词工具可能会将“不”和“开心”分开,也可能分为一个词。当出现“很不开心”的时候,分词工具可能会分为一个词,也可能会分为“很不”和“开心”,或者分为“很”“不”“开心”。相应地,在构建情感词典时,需要尽可能地构建全所有的分词情形,例如,将“很”“很不”“不”“不开心”“开心”“很不开心”都放在情感词典中,由此能够匹配不同的分词情况。
例如,上面的分词结果“今天|我们|一家人|来到|杭州|旅游|住|在|这|家|宾馆,他家|房间|收拾|的|很干净|,|虽然|酒店|装修|有点|老|,|但是|总体|很|惬意”中,情感词典收录的词包含了“房间”、“很干净”、“虽然”、“装修”、“老”、“但是”、“很”和“惬意”,由此所得到的匹配分词包括“房间”、“很干净”、“虽然”、“装修”、“老”、“但是”、“很”和“惬意”。
在块330,对匹配的分词按顺序进行拼接,得到情感摘要,所述情感摘要的断句位置与原始输入文本的断句位置保持一致。
例如,如上得到匹配分词“房间”、“很干净”、“虽然”、“装修”、“老”、“但是”、“很”和“惬意”后,对匹配的分词按照顺序拼接在一起,从而得到情感摘要。需要说明的是,在情感摘要中保留断句位置,并且情感摘要中的断句位置与原始输入文本的断句位置保持一致。原始输入文本采用逗号、句号、冒号和分号断句。为了保持各断句之间文本块的紧密性,情感摘要使用统一的符号进行断句,这种统一的断句符号例如可以包括但不限于“,”、“:”和“/”等字符。按照上述处理方式,得到情感摘要“房间很干净/虽然装修老/但是很惬意”,从而将输入字符数由原始输入文本的48个变为情感摘要中的17个。
回到图2,在如上得到情感摘要后,在块220,将所生成的情感摘要提供给文本情感识别模型来进行文本情感识别。这里,文本情感识别模型可以采用TextCNN、RNN、BERT、RoBERTa、GRU等文本处理模型实现,并且使用基于原始输入文本生成的情感摘要组成的情感摘要训练集来进行模型训练。在完成模型训练后,将情感摘要作为模型输入提供给文本情感识别模型来进行预测。
利用图2中示出的文本情感识别方法,通过基于原始输入文本生成情感摘要,并将情感摘要提供给文本情感识别模型来进行情感识别,可以缩短提供给机器学习模型的模型输入的文本长度,去除输入文本中的与情感识别无关的内容,由此降低模型识别的计算量,提高情感识别精度。
此外,本说明书中的情感词典可以支持更新操作,所述更新操作可以包括删除操作和新增操作。例如,在用户的使用场景变更时,所识别的语料变化使得用户使用原来的情感词典不能达到目标效果,由此用户可以重新建立新的情感词典或者基于现有情感词典进行更新。或者,由于用户使用的分词工具变化或者其他原因,使得用户发现一些原始输入语句经过现有的情感词典生成的情感摘要已经不能够完整表达原始文本的情感信息时候,用户需要更新情感词典。
情感词典的更新是一个迭代过程。初始情感词典可以通过各种方法进行创建,例如包括但不限于:使用人工筛选,或者词频统计或者其他合适的情感词典建立方法。本说明书中使用的情感词典仅仅是为生成情感摘要使用的,并不需要包含情感的极性和情感的激活程度。除了使用用户自己创建的情感词典之外,也可以使用他人公布的情感词典作为初始情感词典。
在本说明书中,通过更新情感词典,可以保证情感摘要更加符合原始输入文本的情感表达。例如,假设原始输入文本为“这酒店住的让人感觉一比吊糟,服务员很牛,服务也不在线”。如果原始的情感词典仅仅收录词“糟”,但是要是表达情感的词“一比吊糟”被分成一个词,则就不能在情感词典进行匹配。此外,词“不在线”可能也没有收录。在这种情况下,情感摘要变为“酒店/服务员很牛/服务”,与原始输入文本要表达的情感相反。在经过情感词典更新后,就可以得到正确的情感摘要“酒店一比吊糟/服务员很牛/服务不在线”。
要说明的是,图2中示出的仅仅是文本情感识别方法的实施例示例。在本说明书的其他实施例中,还可以对图2中示出的文本情感识别方法进行修改。
在一些原始输入文本中,尤其是网络输入中的原始输入文本中,会出现很多简写词,比如,简写词“XSWL”表示“笑死我了”,简写词“NB”表示“牛逼”等,简写词可以简单明了地表达情感情况。在这种情况下,如果仅仅对原始输入文本的中文进行处理,就会丢掉了这类关键词。或者这些简写词的出现频率很少,大多数表达都是通过汉字表达,即使将这些由英文字母组成的简写词送入文本情感识别模型,也没有足够的样本使得文本情感识别模型能够提取到特征。
相应地,在本说明书的一个修改实施例中,在原始输入文本包括简写词的情况下,预先创建简写词映射表,该简写词映射表用于反映简写词与中文表达之间的对应关系。此外,在基于原始输入文本生成情感摘要之前,文本情感识别方法还可以包括:使用简写词映射表来对原始输入文本进行映射处理,由此得到经过映射处理后的原始输入文本。
图6示出了根据本说明书的实施例的情感摘要的另一生成示例的示意图。
如图6所示,原始输入文本为“这家酒店的服务很NB,位置超级好,很舒服”,经过映射处理后,得到经过映射处理后的文本“这家酒店的服务很牛逼,位置超级好,很舒服”,这里,简写词“NB”被直接映射成中文表达“牛逼”。相应地,经过匹配和拼接处理后,所得到的情感摘要为“酒店服务牛逼/位置超级好/很舒服”。
利用上述实现方案,通过创建简写词映射表,将原始输入文本中的简写词映射为对应的中文表达,基于经过映射处理后的原始输入文本来生成情感摘要,然后,将情感摘要提供给文本情感识别模型来进行情绪识别,可以使得用于情绪识别的情感摘要中不会丢弃具有情感表达意义的简写词,由此提高文本情感识别的精度。
为了使得情感摘要表达情感能够尽可能贴近原始文本,情感词典中收录了很多与情感表达相关的词,但是有些词独立作为语句出现时并不表达情感状态。在使用这类情感词典生成情感摘要时,所生成的情感摘要语句中会独立地出现这类词。在这种情况下,需要从情感摘要中去除这些词,使得情感摘要的表达更加准确。
相应地,在本说明书的一个修改实施例中,在基于原始输入文本生成情感摘要后,文本情感识别方法还可以包括:从情感摘要中去除作为独立短句且不能表达情感的分词。然后,将经过分词去除处理后的情感摘要提供给文本情感识别模型来进行文本情感识别。
图7示出了根据本说明书的实施例的情感摘要的另一生成示例的示意图。
如图7所示,原始输入文本为“系统!系统啊!中午收到货,找同事装,没装好,跑到售后,说必须自己带正版系统盘,得,兄弟我装不起,又跑到苏宁电器,也不行,人家还说京东应该给装啊,哎,无奈,明后天吧到太平洋数码掏钱请人装吧,麻烦哪”。使用情感词典匹配并拼接后得到的情感摘要为“没装好/不起/也不行/哎/无奈/麻烦”。
在原始输入文本中“不起”这个词可以和“了”组成“了不起”,一个强烈表达情感的词,由此,情感词典中可能会收录词“不起”。但是经过拼接后,分词“不起”独立作为短句,不能表达清楚情感,所以这个短句可以被去除。由此,最终输出的情感摘要为“没装好/也不行/哎/无奈/麻烦”。
利用上述方案,通过从情感摘要中去除作为独立短句且不能表达情感的分词,可以使得所生成的情感摘要不会包含不能表达情感的内容,由此情感摘要更加简短和准确,从而使得文本情感识别模型的模型输入更加简短,由此提高模型处理效率和模型识别精度。
此外,在本说明书的其他实施例中,所述文本情感识别模型可以包括输入文本长度受限的机器学习模型。在模型输入文本长度受限的情况下,相比原始输入文本,相同长度的情感摘能够容纳更多的情感信息,由此能够适用于长文本的情感识别。在其他文本情感识别方案中,在机器学习模型的输入文本长度受限的情况下,要么丢弃超出长度的文本,要么采用截断的方法,将长文本截断成短文本识别,再通过短文本识别的结果进行综合以得到最终长文本的结果。
例如,假设原始文本为“网络社会的大众凭借新媒体很容易在海量信息中获得符合主观意愿的信息,为自己打造舒适封闭的“信息茧房”。新媒体环境中情绪化接收与表达正削弱对事实的尊重,2016年牛津年度词汇用“后真相”(Post-truth)一词标志了这一信息传播出现的新特征。而情绪和情感占主导的传播会使媒介环境中充斥着谎言与假新闻,为反转新闻的产生提供滋生的沃土。“后真相”是反转新闻发生的内因,反转新闻是“后真相”的表现形式。人们面对媒介各种信息时的选择能力、理解能力、质疑能力、评估能力、创造和生产能力以及思辨的反应能力。在“人人皆记者”的时代,每个人既是信息传播主体,又是信息传播受体,公众的媒介素养对建立健康媒介生态环境至关重要。公众不负责任的转发,主观的指向,负面情绪的宣泄都是造成新闻反转的重要因素。让公众学习新闻知识,提高道德修养,学会批判和独立思考,才能让其在面对鱼龙混杂的海量信息时,保持客观冷静的态度,理性传播和评论,自觉地维护和营造健康的媒介生态环境,进而预防反转新闻的发生。”
如果文本情感识别模型输入的文本长度最长为256个字符,文本情感识别模型的输入文本为:“网络社会的大众凭借新媒体很容易在海量信息中获得符合主观意愿的信息,为自己打造舒适封闭的“信息茧房”。新媒体环境中情绪化接收与表达正削弱对事实的尊重,2016年牛津年度词汇用“后真相”(Post-truth)一词标志了这一信息传播出现的新特征。而情绪和情感占主导的传播会使媒介环境中充斥着谎言与假新闻,为反转新闻的产生提供滋生的沃土。“后真相”是反转新闻发生的内因,反转新闻是“后真相”的表现形式。人们面对媒介各种信息时的选择能力、理解能力、质疑能力、评估能力、创造和生产能力以及思辨的反应能力。在“人人皆记者”的”。
利用本说明书的方案得到的情感摘要为“新媒体削弱尊重/情绪情感主导传播充斥谎言假新闻/媒介素养对健康生态环境至关重要/公众不负责任/负面情绪宣泄造成新闻反转/公众学习知识/提高道德修养/学会批判独立思考/面对鱼龙混杂/保持客观冷静/理性传播评论/维护营造健康环境”。
从上面可以看出,112个字的情感摘要涵盖了原始输入文本的433个字符的全部情感信息表达,由此在机器学习模型的模型输入最大文本长度不变的情况下,机器学习模型的模型输入能够包含原始输入文本的所有情感信息表达,从而可以有效地解决长文本的情感识别问题。
图8示出了根据本说明书的实施例的文本情感识别装置800的一个示例的方框图。如图8所示,文本情感识别装置800可以包括情感摘要生成单元810和情感识别单元820。
情感摘要生成单元810被配置为基于待识别文本生成情感摘要。情感摘要生成单元810的操作可以参考上面参照图2描述的块210的操作以及参照图3到图7描述的操作。
情感识别单元820被配置为将所生成的情感摘要提供给文本情感识别模型来进行文本情感识别。情感识别单元820的操作可以参考上面参照图2描述的块220的操作。
在本说明书的一个示例中,情感摘要生成单元810可以将待识别文本提供给情感摘要生成模型来生成情感摘要。情感摘要生成模型可以是以原始输入文本为输入,以及以情感摘要为输出的机器学习模型。例如,情感摘要生成模型可以采用TextCNN、RNN、BERT、RoBERTa、GRU等文本处理模型实现。情感摘要生成模型可以预先使用收集的文本语料来进行模型训练。
在本说明书的另一示例中,情感摘要生成单元810可以使用情感词典来基于待识别文本生成情感摘要。图9示出了根据本说明书的实施例的情感摘要生成单元810的一个示例的方框图。如图9所示,情感摘要生成单元810可以包括分词处理模块811、分词匹配模块813和分词拼接模块815。
分词处理模块811被配置为对待识别文本进行分词处理。分词处理模块811的操作可以参考上面参照图3描述的块310的操作。
分词匹配模块813被配置为使用情感词典来对分词处理所得到的分词进行匹配处理。分词匹配模块813的操作可以参考上面参照图3描述的块320的操作。
分词拼接模块815被配置为对匹配的分词按顺序进行拼接,得到情感摘要,所述情感摘要的断句位置与所述待识别文本的断句位置保持一致。分词拼接模块815的操作可以参考上面参照图3描述的块330的操作。
此外,在本说明书的另一示例中,原始输入文本可以包括简写词,相应地,文本情感识别装置800还可以包括简写词映射单元(未示出)。所述简写词映射单元使用简写词映射表来对待识别文本进行映射处理。情感摘要生成单元810基于映射处理后的待识别文本生成情感摘要。
此外,在本说明书的另一示例中,文本情感识别装置800还可以包括分词去除单元(未示出)。分词去除单元从情感摘要中去除作为独立短句且不能表达情感的分词。情感识别单元将经过分词去除处理后的情感摘要提供给文本情感识别模型来进行文本情感识别。
如上参照图1到图9,对根据本说明书实施例的文本情感识别方法和文本情感识别装置进行了描述。上面的文本情感识别装置可以采用硬件实现,也可以采用软件或者硬件和软件的组合来实现。
图10示出了根据本说明书的实施例的用于基于情感摘要进行文本情感识别的电子设备的示意图。如图10所示,电子设备1000可以包括至少一个处理器1010、存储器(例如,非易失性存储器)1020、内存1030和通信接口1040,并且至少一个处理器1010、存储器1020、内存1030和通信接口1040经由总线1060连接在一起。至少一个处理器1010执行在存储器中存储或编码的至少一个计算机可读指令(即,上述以软件形式实现的元素)。
在一个实施例中,在存储器中存储计算机可执行指令,其当执行时使得至少一个处理器1010:基于待识别文本生成情感摘要;以及将所生成的情感摘要提供给文本情感识别模型来进行文本情感识别。
应该理解,在存储器中存储的计算机可执行指令当执行时使得至少一个处理器1010进行本说明书的各个实施例中以上结合图1-9描述的各种操作和功能。
根据一个实施例,提供了一种比如机器可读介质(例如,非暂时性机器可读介质)的程序产品。机器可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被机器执行时,使得机器执行本说明书的各个实施例中以上结合图1-9描述的各种操作和功能。具体地,可以提供配有可读存储介质的系统或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。
在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。
可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上或云上下载程序代码。
本领域技术人员应当理解,上面公开的各个实施例可以在不偏离发明实质的情况下做出各种变形和修改。因此,本发明的保护范围应当由所附的权利要求书来限定。
需要说明的是,上述各流程和各系统结构图中不是所有的步骤和单元都是必须的,可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的,可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构,也可以是逻辑结构,即,有些单元可能由同一物理实体实现,或者,有些单元可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
以上各实施例中,硬件单元或模块可以通过机械方式或电气方式实现。例如,一个硬件单元、模块或处理器可以包括永久性专用的电路或逻辑(如专门的处理器,FPGA或ASIC)来完成相应操作。硬件单元或处理器还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器),可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。
上面结合附图阐述的具体实施方式描述了示例性实施例,但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。
本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说,对本公开内容进行的各种修改是显而易见的,并且,也可以在不脱离本公开内容的保护范围的情况下,将本文所定义的一般性原理应用于其它变型。因此,本公开内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims (15)

1.一种基于情感摘要的文本情感识别方法,包括:
基于待识别文本生成情感摘要;以及
将所生成的情感摘要提供给文本情感识别模型来进行文本情感识别。
2.如权利要求1所述的文本情感识别方法,其中,基于待识别文本生成情感摘要包括:
对待识别文本进行分词处理;
使用情感词典来对分词处理所得到的分词进行匹配处理;以及
对匹配的分词按顺序进行拼接,得到情感摘要,所述情感摘要的断句位置与所述待识别文本的断句位置保持一致。
3.如权利要求2所述的文本情感识别方法,其中,所述情感词典包括情感词、重要阐述对象、情感程度词、情感关联词、转折词和否定词中的至少一种及其组合。
4.如权利要求1所述的文本情感识别方法,其中,所述原始输入文本包括简写词,所述文本情感识别方法还包括:
使用简写词映射表来对待识别文本进行映射处理,
基于待识别文本生成情感摘要包括:
基于映射处理后的待识别文本生成情感摘要。
5.如权利要求1所述的文本情感识别方法,还包括:
从所述情感摘要中去除作为独立短句且不能表达情感的分词,
将所生成的情感摘要提供给文本情感识别模型来进行文本情感识别包括:
将经过分词去除处理后的情感摘要提供给文本情感识别模型来进行文本情感识别。
6.如权利要求1所述的文本情感识别方法,其中,基于待识别文本生成情感摘要包括:
将待识别文本提供给情感摘要生成模型来生成情感摘要。
7.如权利要求1到6中任一所述的文本情感识别方法,其中,所述文本情感识别模型包括输入文本长度受限的机器学习模型。
8.一种基于情感摘要的文本情感识别装置,包括:
情感摘要生成单元,基于待识别文本生成情感摘要;以及
情感识别单元,将所生成的情感摘要提供给文本情感识别模型来进行文本情感识别。
9.如权利要求8所述的文本情感识别装置,其中,所述情感摘要生成单元包括:
分词处理模块,对待识别文本进行分词处理;
分词匹配模块,使用情感词典来对分词处理所得到的分词进行匹配处理;以及
分词拼接模块,对匹配的分词按顺序进行拼接,得到情感摘要,所述情感摘要的断句位置与所述待识别文本的断句位置保持一致。
10.如权利要求9所述的文本情感识别装置,其中,所述情感词典包括情感词、重要阐述对象、情感程度词、情感关联词、转折词和否定词中的至少一种及其组合。
11.如权利要求8所述的文本情感识别装置,其中,所述原始输入文本包括简写词,所述文本情感识别装置还包括:
简写词映射单元,使用简写词映射表来对待识别文本进行映射处理,
所述情感摘要生成单元基于映射处理后的待识别文本生成情感摘要。
12.如权利要求8所述的文本情感识别装置,还包括:
分词去除单元,从所述情感摘要中去除作为独立短句且不能表达情感的分词,
所述情感识别单元将经过分词去除处理后的情感摘要提供给文本情感识别模型来进行文本情感识别。
13.如权利要求8所述的文本情感识别装置,其中,所述情感摘要生成单元将待识别文本提供给情感摘要生成模型来生成情感摘要。
14.一种电子设备,包括:
至少一个处理器,以及
与所述至少一个处理器耦合的存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如权利要求1到7中任一所述的方法。
15.一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如权利要求1到7中任一所述的方法。
CN202010257469.9A 2020-04-03 2020-04-03 基于情感摘要的文本情感识别方法及装置 Pending CN111475640A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010257469.9A CN111475640A (zh) 2020-04-03 2020-04-03 基于情感摘要的文本情感识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010257469.9A CN111475640A (zh) 2020-04-03 2020-04-03 基于情感摘要的文本情感识别方法及装置

Publications (1)

Publication Number Publication Date
CN111475640A true CN111475640A (zh) 2020-07-31

Family

ID=71750427

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010257469.9A Pending CN111475640A (zh) 2020-04-03 2020-04-03 基于情感摘要的文本情感识别方法及装置

Country Status (1)

Country Link
CN (1) CN111475640A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984793A (zh) * 2020-09-03 2020-11-24 平安国际智慧城市科技股份有限公司 文本情感分类模型训练方法、装置、计算机设备及介质
CN113076737A (zh) * 2021-03-26 2021-07-06 三亚中科遥感研究所 一种融合公众情感的生态环境感知网络构建方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617158A (zh) * 2013-12-17 2014-03-05 苏州大学张家港工业技术研究院 一种对话文本情感摘要的生成方法
CN108287922A (zh) * 2018-02-28 2018-07-17 福州大学 一种融合话题属性和情感信息的文本数据观点摘要挖掘方法
CN109359296A (zh) * 2018-09-18 2019-02-19 深圳前海微众银行股份有限公司 舆情情感识别方法、装置及计算机可读存储介质
CN110929030A (zh) * 2019-11-07 2020-03-27 电子科技大学 一种文本摘要和情感分类联合训练方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617158A (zh) * 2013-12-17 2014-03-05 苏州大学张家港工业技术研究院 一种对话文本情感摘要的生成方法
CN108287922A (zh) * 2018-02-28 2018-07-17 福州大学 一种融合话题属性和情感信息的文本数据观点摘要挖掘方法
CN109359296A (zh) * 2018-09-18 2019-02-19 深圳前海微众银行股份有限公司 舆情情感识别方法、装置及计算机可读存储介质
CN110929030A (zh) * 2019-11-07 2020-03-27 电子科技大学 一种文本摘要和情感分类联合训练方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984793A (zh) * 2020-09-03 2020-11-24 平安国际智慧城市科技股份有限公司 文本情感分类模型训练方法、装置、计算机设备及介质
CN113076737A (zh) * 2021-03-26 2021-07-06 三亚中科遥感研究所 一种融合公众情感的生态环境感知网络构建方法
CN113076737B (zh) * 2021-03-26 2023-01-31 三亚中科遥感研究所 一种融合公众情感的生态环境感知网络构建方法

Similar Documents

Publication Publication Date Title
CN107679039B (zh) 用于确定语句意图的方法和装置
US10831796B2 (en) Tone optimization for digital content
US10592607B2 (en) Iterative alternating neural attention for machine reading
CN110705206B (zh) 一种文本信息的处理方法及相关装置
CN107861954B (zh) 基于人工智能的信息输出方法和装置
Eger et al. From hero to zéroe: A benchmark of low-level adversarial attacks
CN109783801B (zh) 一种电子装置、多标签分类方法及存储介质
CN108304376B (zh) 文本向量的确定方法、装置、存储介质及电子装置
CN108108468A (zh) 一种基于概念和文本情感的短文本情感分析方法和装置
CN110929523B (zh) 共指解析和实体链接
CN110737774A (zh) 图书知识图谱的构建、图书推荐方法、装置、设备及介质
CN112528654A (zh) 自然语言处理方法、装置及电子设备
Veenhoven et al. Using translated data to improve deep learning author profiling models
CN113392179A (zh) 文本标注方法及装置、电子设备、存储介质
CN113761190A (zh) 文本识别方法、装置、计算机可读介质及电子设备
CN111475640A (zh) 基于情感摘要的文本情感识别方法及装置
CN111985251B (zh) 翻译质量测评方法及装置
US20220139386A1 (en) System and method for chinese punctuation restoration using sub-character information
CN110008807A (zh) 一种合同内容识别模型的训练方法、装置及设备
CN112507721B (zh) 生成文本主题的方法、装置、设备和计算机可读存储介质
CN110852063B (zh) 基于双向lstm神经网络的词向量生成方法及装置
CN112711943A (zh) 一种维吾尔文语种识别方法、装置及存储介质
CN108021609B (zh) 文本情感分类方法、装置、计算机设备和存储介质
CN109710751A (zh) 法律文件的智能推荐方法、装置、设备及存储介质
CN110866404B (zh) 基于lstm神经网络的词向量生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination