CN109271623A - 文本情感去噪方法及系统 - Google Patents

文本情感去噪方法及系统 Download PDF

Info

Publication number
CN109271623A
CN109271623A CN201810932216.XA CN201810932216A CN109271623A CN 109271623 A CN109271623 A CN 109271623A CN 201810932216 A CN201810932216 A CN 201810932216A CN 109271623 A CN109271623 A CN 109271623A
Authority
CN
China
Prior art keywords
text
word
emotion
attribute
current area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810932216.XA
Other languages
English (en)
Inventor
徐泓洋
郑权
张峰
聂颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Original Assignee
Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd filed Critical Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Priority to CN201810932216.XA priority Critical patent/CN109271623A/zh
Publication of CN109271623A publication Critical patent/CN109271623A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本情感去噪方法及系统,该文本情感去噪方法包括:步骤S1:获取待处理文本的当前领域;步骤S2:获取当前领域的属性词表,属性词表包括若干个与当前领域相关的属性词;步骤S3:利用属性词表对待处理文本进行去噪处理,以删除待处理文本中与当前领域无关的内容。本发明提供的文本情感去噪方法,利用属性词表对待处理文本进行去噪处理,针对多情感着力点的情况,能够通过限定领域话题范围实现对无关情感片段的删除,从而达到情感去噪的目的,进而有利于提高文本情感极性判断的准确度。

Description

文本情感去噪方法及系统
技术领域
本发明涉及自然语言技术领域,特别是一种文本情感去噪方法及系统。
背景技术
所谓的文本情感分类一般是指针对新闻评论或商品评论文本的褒、贬二元情感分类,以及喜怒哀乐等的多元情感分类。其过程与文本分类过程相似,一般将情感分类看作是一种特殊的文本分类问题。
在文本分类的研究中,因为文字以及由文字组成的词的数量很多,同时在不同的类别的文本中,不同的词出现的情况也各不相同,因此选择出对某个领域有很强区分度的词,将会有助于提升文本分类的准确度。通过特征选择方法从文本中筛选出有效的词,其实也可以看做是一种领域除噪,去除与领域无关的词,以提升文本分类效果。
但是具体到情感分类的问题中,由于情感的共同性,情感不存在领域区分,一段评论中可以有很多种情感,每一个情感都有一个着力点,不同的着力点的情感倾向可能完全相反,如果使用传统的特征选择方法,将挑选出所有表达情感的词,而忽略情感所针对的对象,将导致误判,所以传统的特征选择方法在这里并不适用。如以下酒店领域中的评论文本的例子:
“公司没人性出差不给买飞机票只能坐火车,虽然是卧铺,但是坐久了也很难受,一路上又累又困,到酒店好好的睡了一觉,真舒服。酒店条件挺好,好评!”
显然,上述例子中情感的着力点分别是交通领域的火车,通用领域的评论者自身感受,以及酒店领域的酒店条件这三个领域。负面情感的情感指向公司,火车;正面情感指向酒店。如果是对酒店领域的语料进行分类,上述例子中的情感倾向就是正的;如果是对交通领域的语料进行分类,上述例子中的情感倾向就是负的。因此,在酒店领域中进行分类时,因为有对火车的负面情感的干扰,分类器很可能会做出错误的判断。
发明内容
有鉴于此,本发明的目的在于提供一种文本情感去噪方法及系统,有利于提高文本情感极性判断的准确度。
为实现上述目的,本发明的技术方案提供了一种文本情感去噪方法,包括:
步骤S1:获取待处理文本的当前领域;
步骤S2:获取所述当前领域的属性词表,所述属性词表包括若干个与所述当前领域相关的属性词;
步骤S3:利用所述属性词表对所述待处理文本进行去噪处理,以删除所述待处理文本中与所述当前领域无关的内容。
优选地,所述步骤S2包括:
利用文档主题生成模型获取所述当前领域的属性词表。
优选地,所述利用文档主题生成模型获取所述当前领域的属性词表包括:
步骤S21:获取训练样本集,所述训练样本集包括若干个与所述当前领域相关的语料文本;
步骤S22:对所述训练样本集的语料文本进行处理,得到训练语料;
步骤S23:采用所述训练语料训练文档主题生成模型,得到若干个主题词;
步骤S24:根据所述若干个主题词构建所述属性词表。
优选地,所述步骤S22包括:
步骤S22a:对所述训练样本集的语料文本进行分词处理,得到文本序列;
步骤S22b:保留所述文本序列中预设词性的词,删除所述预设词性之外的词性的词,得到所述训练语料。
优选地,所述步骤S3包括:
步骤S31:对所述待处理文本进行切分处理,得到若干个文本片;
步骤S32:对每一个所述文本片进行预处理,得到每一个文本片的词序列;
步骤S33:根据所述属性词表以及词序列的长度从所述若干个文本片的词序列中选择保留的词序列;
步骤S34:将保留的词序列进行拼接。
优选地,所述步骤S31包括:
以预设的标点符号为切分依据,对所述待处理文本进行切分,从而得到所述若干个文本片。
优选地,所述步骤S32包括:
对每一个所述文本片依次进行分词处理及去停用词处理,从而得到每一个文本片的词序列。
优选地,所述步骤S33包括:对于每一个文本片的词序列,若其满足第一预设条件、第二预设条件中的至少一个条件,则对其进行保留,否则对其进行删除;
其中,所述第一预设条件为词序列的长度小于预设值,所述第二预设条件为词序列包含所述属性词表中至少一个属性词。
为实现上述目的,本发明的技术方案还提供了一种文本情感去噪系统,包括:
第一获取模块,用于获取待处理文本的当前领域;
第二获取模块,用于获取所述当前领域的属性词表,所述属性词表包括若干个与所述当前领域相关的属性词;
处理模块,用于利用所述属性词表对所述待处理文本进行去噪处理,以删除所述待处理文本中与所述当前领域无关的内容。
优选地,所述第二获取模块被配置为利用文档主题生成模型获取所述当前领域的属性词表。
优选地,所述所述第二获取模块包括:
获取单元,用于获取训练样本集,所述训练样本集包括若干个与所述当前领域相关的语料文本;
第一处理单元,用于对所述训练样本集的语料文本进行处理,得到训练语料;
训练单元,用于采用所述训练语料训练文档主题生成模型,得到若干个主题词;
构建单元,用于根据所述若干个主题词构建所述属性词表。
优选地,所述第一处理单元包括:
分词子单元,用于对所述训练样本集的语料文本进行分词处理,得到文本序列;
选择子单元,用于保留所述文本序列中预设词性的词,删除所述预设词性之外的词性的词,得到所述训练语料。
优选地,所述处理模块包括:
切分单元,用于对所述待处理文本进行切分处理,得到若干个文本片;
第二处理单元,用于对每一个所述文本片进行预处理,得到每一个文本片的词序列;
第三处理单元,用于根据所述属性词表以及词序列的长度从所述若干个文本片的词序列中选择保留的词序列;
拼接单元,用于将保留的词序列进行拼接。
优选地,所述切分单元被配置为以预设的标点符号为切分依据,对所述待处理文本进行切分,从而得到所述若干个文本片。
优选地,所述第二处理单元被配置为对每一个所述文本片依次进行分词处理及去停用词处理,从而得到每一个文本片的词序列。
优选地,所述第三处理单元被配置为对于每一个文本片的词序列,若其满足第一预设条件、第二预设条件中的至少一个条件,则对其进行保留,否则对其进行删除;
其中,所述第一预设条件为词序列的长度小于预设值,所述第二预设条件为词序列包含所述属性词表中至少一个属性词。
本发明提供的文本情感去噪方法,利用属性词表对待处理文本进行去噪处理,针对多情感着力点的情况,能够通过限定领域话题范围实现对无关情感片段的删除,从而达到情感去噪的目的,进而有利于提高文本情感极性判断的准确度。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是本发明实施例提供的一种文本情感去噪方法的流程图;
图2是本发明实施例提供的另一种文本情感去噪方法的流程图;
图3是本发明实施例提供的LDA模型提取的部分主题词的示意图;
图4是本发明实施例提供的属性词表的部分内容的示意图;
图5是本发明实施例提供的一种待处理文本的示意图;
图6是图5所示的待处理文本经过属性词匹配得到的结果示意图;
图7是图5所示的待处理文本经过拼接处理得到的结果示意图;
图8是本发明实施例提供的一种文本情感去噪系统的示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分,为了避免混淆本发明的实质,公知的方法、过程、流程、元件并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
参见图1,图1是本发明实施例提供的一种文本情感去噪方法的流程图,该方法包括:
步骤S1:获取待处理文本的当前领域;
例如,该当前领域可以为酒店、交通、饮食或体育等;
步骤S2:获取所述当前领域的属性词表,所述属性词表包括若干个与所述当前领域相关的属性词;
步骤S3:利用所述属性词表对所述待处理文本进行去噪处理,以删除所述待处理文本中与所述当前领域无关的内容。
本发明实施例提供的文本情感去噪方法,利用属性词表对待处理文本进行去噪处理,针对多情感着力点的情况,能够通过限定领域话题范围实现对无关情感片段的删除,从而达到情感去噪的目的,进而有利于提高文本情感极性判断的准确度。
例如,在步骤S2中,可以通过人工方式构建当前领域的属性词表;
优选地,可以利用文档主题生成模型(LDA模型)获取所述当前领域的属性词表,参见图2,图2是本发明实施例提供的另一种文本情感去噪方法的流程图,该方法包括:
步骤A:获取待处理文本的当前领域;
步骤B:利用文档主题生成模型(LDA模型)获取所述当前领域的属性词表,具体地,该步骤可以包括步骤S21-步骤S24;
步骤S21:获取训练样本集,所述训练样本集包括若干个与所述当前领域相关的语料文本;
例如,该训练样本集可以包括若干个以所述当前领域为主题的语料文本;
步骤S22:对所述训练样本集的语料文本进行处理,得到训练语料,具体地,该步骤可包括步骤S22a-步骤S22b;
步骤S22a:对所述训练样本集的语料文本进行分词处理,得到文本序列;
例如,可以采用结巴分词工具对语料文本进行分词,结巴分词是一种常用的中文分词工具,分词后可以得到词的序列以及每个词的词性;
步骤S22b:保留所述文本序列中预设词性的词,删除所述预设词性之外的词性的词,得到所述训练语料;
具体地,可以根据当前领域的情感着力点确定文本序列中要保留的词性以及需要删除的词性,例如,通常可以保留文本序列中的名词和/或动词,并去掉其他成分,但不同的领域会有不同的情感着力点,如具体到酒店领域中,则有“环境”、“卫生”等属性,一般由名词表示,如果可以抽取语料中常用的属性名词,那么就可以获取酒店领域的具体情感着力点;
步骤S23:采用所述训练语料训练文档主题生成模型,得到若干个主题词;
LDA(Latent Dirichlet Allocation)主题模型是一种基于贝叶斯的文档主题生成模型,其主要思想是由语料文档的主题和主题中使用的词来生成一篇文章需要的词,公式如下所示:
P(w│d)=P(w│t)×P(t│d);
其中,每个文档d看作一个单词序列<w1,w2,...,wn>,wi表示第i个单词,设d有n个单词,t为文档对应的主题;P(w│d)为文档d中出现单词w的概率,P(w│t)为单词w对应到不同主题的概率,P(t│d)为主题对应到文档d的概率;
通过采用上述处理得到的训练语料训练LDA模型,可以抽取主题词作为与当前领域相关的属性词,例如,以酒店的评论文本作为训练样本集中的语料文本,通过这些以酒店为主题的语料文本可以得到评论文本中常用的可以代表主题的词(即主题词),此外,文本中有各种各样的词性,对于酒店领域,主要需要的是表示属性的名词,因此在分词时只需保留文本中的名词作为文本的内容,并使用LDA模型对保留的名词进行训练,从而实现主题词的提取,例如,LDA模型提取的部分主题词如图3所示;
步骤S24:根据所述若干个主题词构建所述属性词表;
具体地,可以通过对LDA模型抽取的所有主题词进行整理,从而得到属性词表,例如,对于图3所示的主题词抽取结果,进行整理删减后得到属性词表,收录有效的属性词共200个,得到属性词表的部分内容如图4所示,
步骤C:利用所述属性词表对所述待处理文本进行去噪处理,以删除所述待处理文本中与所述当前领域无关的内容,具体地,该步骤可以包括步骤S31-步骤S34;
步骤S31:对所述待处理文本进行切分处理,得到若干个文本片;
具体地,可以以预设的标点符号为切分依据,对所述待处理文本进行切分,从而得到所述若干个文本片;
例如,可以以“,”、“。”、“;”、“!”四种主要标点符号为切分依据,将待处理文本切分成若干个文本片;
例如,评论性文本的行文特点更偏向于口语化,语言表达随意,标点符号的使用也极为简单,逗号“,”与句号“。”之间的差别不大,因此,也可以以这两个标点符号为标志对文本进行切分,再对切分后的文本片进行分词;
步骤S32:对每一个所述文本片进行预处理,得到每一个文本片的词序列;
具体地,对每一个所述文本片依次进行分词处理及去停用词处理,从而得到每一个文本片的词序列;
其中,分词处理可以采用结巴分词工具;
其中,停用词是指没有具体意义,对分类没有多大作用的虚词,包括连词、介词、语气词、标点符号等,例如,可以利用停用词表来剔除停用词,即分词后通过匹配停用词表,将匹配到的停用词去掉,在本实施例中,可以采用通用停用词表或者对通用停用词表进行修改,从而得到所需的停用词表;
步骤S33:根据所述属性词表以及词序列的长度从所述若干个文本片的词序列中选择保留的词序列;
具体地,对于每一个文本片的词序列,若其满足第一预设条件、第二预设条件中的至少一个条件,则对其进行保留,否则对其进行删除;
其中,所述第一预设条件为词序列的长度(也即词序列中词的数量)小于预设值,所述第二预设条件为词序列包含所述属性词表中至少一个属性词;
例如,对于每一个文本片的词序列,首先判断其长度是否小于3,若是,则确认为全局信息,不参与属性匹配,并进行保留,以避免全局情感信息的损失,若词序列的长度大于等于3,则遍历属性词表,与该文本片的词序列进行匹配,若匹配到属性词,则认为是当前领域的话题,保留;若未匹配到任何属性词,则认为是无关序列,确认删除;
步骤S34:将保留的词序列进行拼接;
具体地,将保留的词序列按照对应的文本片在待处理文本中的顺序再次进行拼接,重新得到删除部分内容的文本的词序列;
通过上述属性匹配的方法,经过属性匹配去噪后,保留下的将是与话题相关的文本,实现文本的去燥处理,之后可再对文本进行向量化处理,能够使分类模型更好的从文本包含的领域内的情感信息的角度去判断文本的情感极性;
例如,对于待处理文本“公司没人性出差不给买飞机票只能坐火车,虽然是卧铺,但是坐久了也很难受,一路上又累又困,到酒店好好的睡了一觉,真舒服。酒店条件挺好,好评!”,对其依次进行切分处理、预处理、属性词匹配得到的结果如下所示:
[公司,没,人性,出差,不给,买,飞机票,只能,坐火车],没有匹配中属性词,判定为无关噪声,删除;
[虽然,是,卧铺],没有匹配中属性词,判定为无关噪声,删除;
[但是,坐,久,了,也,很难受],没有匹配中属性词,判定为无关噪声,删除;
[一路,上,又,累,又,困],没有匹配中属性词,判定为无关噪声,删除;
[到,酒店,好好的,睡,了,一觉],“酒店”匹配中了,判定为相关内容,保留;
[真,舒服],长度小于3,不参与匹配,保留;
[酒店,条件,挺好],“酒店”、“条件”匹配中了,判定为相关内容,保留;
[好评],长度小于3,不参与匹配,保留。
拼接处理得到的结果如下所示:
[到,酒店,好好的,睡,了,一觉,真,舒服,酒店,条件,挺好,好评];
例如,对于图5所示的待处理文本,对其依次进行切分处理、预处理、属性词匹配得到的结果如图6所示,拼接处理得到的结果如图7所示;
本发明实施例提供的文本情感去噪方法,采用属性词匹配对待处理文本进行去噪,针对多情感着力点的情况,能够通过限定领域话题范围实现对无关情感片段的删除,实现情感去噪,同时不改变文本顺序,最大限度的保留文本上下文信息,在情感分类的研究中,能够使分类模型更好的从文本包含的领域内的情感信息的角度去判断文本的情感极性。
此外,参见图8,图8是本发明实施例提供的一种文本情感去噪系统的示意图,该系统包括:
第一获取模块1,用于获取待处理文本的当前领域;
第二获取模块2,用于获取所述当前领域的属性词表,所述属性词表包括若干个与所述当前领域相关的属性词;
处理模块3,用于利用所述属性词表对所述待处理文本进行去噪处理,以删除所述待处理文本中与所述当前领域无关的内容。
在一实施例中,所述第二获取模块被配置为利用文档主题生成模型获取所述当前领域的属性词表。
在一实施例中,所述所述第二获取模块包括:
获取单元,用于获取训练样本集,所述训练样本集包括若干个与所述当前领域相关的语料文本;
第一处理单元,用于对所述训练样本集的语料文本进行处理,得到训练语料;
训练单元,用于采用所述训练语料训练文档主题生成模型,得到若干个主题词;
构建单元,用于根据所述若干个主题词构建所述属性词表。
在一实施例中,所述第一处理单元包括:
分词子单元,用于对所述训练样本集的语料文本进行分词处理,得到文本序列;
选择子单元,用于保留所述文本序列中预设词性的词,删除所述预设词性之外的词性的词,得到所述训练语料。
在一实施例中,所述处理模块包括:
切分单元,用于对所述待处理文本进行切分处理,得到若干个文本片;
第二处理单元,用于对每一个所述文本片进行预处理,得到每一个文本片的词序列;
第三处理单元,用于根据所述属性词表以及词序列的长度从所述若干个文本片的词序列中选择保留的词序列;
拼接单元,用于将保留的词序列进行拼接。
在一实施例中,所述切分单元被配置为以预设的标点符号为切分依据,对所述待处理文本进行切分,从而得到所述若干个文本片。
在一实施例中,所述第二处理单元被配置为对每一个所述文本片依次进行分词处理及去停用词处理,从而得到每一个文本片的词序列。
在一实施例中,所述第三处理单元被配置为对于每一个文本片的词序列,若其满足第一预设条件、第二预设条件中的至少一个条件,则对其进行保留,否则对其进行删除;
其中,所述第一预设条件为词序列的长度小于预设值,所述第二预设条件为词序列包含所述属性词表中至少一个属性词。
本领域的技术人员容易理解的是,在不冲突的前提下,上述各优选方案可以自由地组合、叠加。
应当理解,上述的实施方式仅是示例性的,而非限制性的,在不偏离本发明的基本原理的情况下,本领域的技术人员可以针对上述细节做出的各种明显的或等同的修改或替换,都将包含于本发明的权利要求范围内。

Claims (16)

1.一种文本情感去噪方法,其特征在于,包括:
步骤S1:获取待处理文本的当前领域;
步骤S2:获取所述当前领域的属性词表,所述属性词表包括若干个与所述当前领域相关的属性词;
步骤S3:利用所述属性词表对所述待处理文本进行去噪处理,以删除所述待处理文本中与所述当前领域无关的内容。
2.根据权利要求1所述的文本情感去噪方法,其特征在于,所述步骤S2包括:
利用文档主题生成模型获取所述当前领域的属性词表。
3.根据权利要求2所述的文本情感去噪方法,其特征在于,所述利用文档主题生成模型获取所述当前领域的属性词表包括:
步骤S21:获取训练样本集,所述训练样本集包括若干个与所述当前领域相关的语料文本;
步骤S22:对所述训练样本集的语料文本进行处理,得到训练语料;
步骤S23:采用所述训练语料训练文档主题生成模型,得到若干个主题词;
步骤S24:根据所述若干个主题词构建所述属性词表。
4.根据权利要求3所述的文本情感去噪方法,其特征在于,所述步骤S22包括:
步骤S22a:对所述训练样本集的语料文本进行分词处理,得到文本序列;
步骤S22b:保留所述文本序列中预设词性的词,删除所述预设词性之外的词性的词,得到所述训练语料。
5.根据权利要求1所述的文本情感去噪方法,其特征在于,所述步骤S3包括:
步骤S31:对所述待处理文本进行切分处理,得到若干个文本片;
步骤S32:对每一个所述文本片进行预处理,得到每一个文本片的词序列;
步骤S33:根据所述属性词表以及词序列的长度从所述若干个文本片的词序列中选择保留的词序列;
步骤S34:将保留的词序列进行拼接。
6.根据权利要求5所述的文本情感去噪方法,其特征在于,所述步骤S31包括:
以预设的标点符号为切分依据,对所述待处理文本进行切分,从而得到所述若干个文本片。
7.根据权利要求5所述的文本情感去噪方法,其特征在于,所述步骤S32包括:
对每一个所述文本片依次进行分词处理及去停用词处理,从而得到每一个文本片的词序列。
8.根据权利要求5所述的文本情感去噪方法,其特征在于,所述步骤S33包括:对于每一个文本片的词序列,若其满足第一预设条件、第二预设条件中的至少一个条件,则对其进行保留,否则对其进行删除;
其中,所述第一预设条件为词序列的长度小于预设值,所述第二预设条件为词序列包含所述属性词表中至少一个属性词。
9.一种文本情感去噪系统,其特征在于,包括:
第一获取模块,用于获取待处理文本的当前领域;
第二获取模块,用于获取所述当前领域的属性词表,所述属性词表包括若干个与所述当前领域相关的属性词;
处理模块,用于利用所述属性词表对所述待处理文本进行去噪处理,以删除所述待处理文本中与所述当前领域无关的内容。
10.根据权利要求9所述的文本情感去噪系统,其特征在于,所述第二获取模块被配置为利用文档主题生成模型获取所述当前领域的属性词表。
11.根据权利要求10所述的文本情感去噪系统,其特征在于,所述所述第二获取模块包括:
获取单元,用于获取训练样本集,所述训练样本集包括若干个与所述当前领域相关的语料文本;
第一处理单元,用于对所述训练样本集的语料文本进行处理,得到训练语料;
训练单元,用于采用所述训练语料训练文档主题生成模型,得到若干个主题词;
构建单元,用于根据所述若干个主题词构建所述属性词表。
12.根据权利要求11所述的文本情感去噪系统,其特征在于,所述第一处理单元包括:
分词子单元,用于对所述训练样本集的语料文本进行分词处理,得到文本序列;
选择子单元,用于保留所述文本序列中预设词性的词,删除所述预设词性之外的词性的词,得到所述训练语料。
13.根据权利要求9所述的文本情感去噪系统,其特征在于,所述处理模块包括:
切分单元,用于对所述待处理文本进行切分处理,得到若干个文本片;
第二处理单元,用于对每一个所述文本片进行预处理,得到每一个文本片的词序列;
第三处理单元,用于根据所述属性词表以及词序列的长度从所述若干个文本片的词序列中选择保留的词序列;
拼接单元,用于将保留的词序列进行拼接。
14.根据权利要求13所述的文本情感去噪系统,其特征在于,所述切分单元被配置为以预设的标点符号为切分依据,对所述待处理文本进行切分,从而得到所述若干个文本片。
15.根据权利要求13所述的文本情感去噪系统,其特征在于,所述第二处理单元被配置为对每一个所述文本片依次进行分词处理及去停用词处理,从而得到每一个文本片的词序列。
16.根据权利要求13所述的文本情感去噪系统,其特征在于,所述第三处理单元被配置为对于每一个文本片的词序列,若其满足第一预设条件、第二预设条件中的至少一个条件,则对其进行保留,否则对其进行删除;
其中,所述第一预设条件为词序列的长度小于预设值,所述第二预设条件为词序列包含所述属性词表中至少一个属性词。
CN201810932216.XA 2018-08-16 2018-08-16 文本情感去噪方法及系统 Pending CN109271623A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810932216.XA CN109271623A (zh) 2018-08-16 2018-08-16 文本情感去噪方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810932216.XA CN109271623A (zh) 2018-08-16 2018-08-16 文本情感去噪方法及系统

Publications (1)

Publication Number Publication Date
CN109271623A true CN109271623A (zh) 2019-01-25

Family

ID=65153809

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810932216.XA Pending CN109271623A (zh) 2018-08-16 2018-08-16 文本情感去噪方法及系统

Country Status (1)

Country Link
CN (1) CN109271623A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457599A (zh) * 2019-08-15 2019-11-15 中国电子信息产业集团有限公司第六研究所 热点话题追踪方法、装置、服务器及可读存储介质
CN112257434A (zh) * 2019-07-02 2021-01-22 Tcl集团股份有限公司 一种无人机控制方法、系统、移动终端及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995803A (zh) * 2014-04-25 2014-08-20 西北工业大学 一种细粒度文本情感分析方法
CN104572616A (zh) * 2014-12-23 2015-04-29 北京锐安科技有限公司 文本倾向性的确定方法和装置
CN105022725A (zh) * 2015-07-10 2015-11-04 河海大学 一种应用于金融Web领域的文本情感倾向分析方法
CN105740302A (zh) * 2014-12-12 2016-07-06 北京海尔广科数字技术有限公司 一种需求信息的筛选方法及系统
CN108062304A (zh) * 2017-12-19 2018-05-22 北京工业大学 一种基于机器学习的商品评论数据的情感分析方法
CN108090231A (zh) * 2018-01-12 2018-05-29 北京理工大学 一种基于信息熵的主题模型优化方法
CN108108355A (zh) * 2017-12-25 2018-06-01 北京牡丹电子集团有限责任公司数字电视技术中心 基于深度学习的文本情感分析方法和系统
CN108256098A (zh) * 2018-01-30 2018-07-06 中国银联股份有限公司 一种确定用户评论情感倾向的方法及装置
CN109271510A (zh) * 2018-08-16 2019-01-25 龙马智芯(珠海横琴)科技有限公司 情感词向量构建方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995803A (zh) * 2014-04-25 2014-08-20 西北工业大学 一种细粒度文本情感分析方法
CN105740302A (zh) * 2014-12-12 2016-07-06 北京海尔广科数字技术有限公司 一种需求信息的筛选方法及系统
CN104572616A (zh) * 2014-12-23 2015-04-29 北京锐安科技有限公司 文本倾向性的确定方法和装置
CN105022725A (zh) * 2015-07-10 2015-11-04 河海大学 一种应用于金融Web领域的文本情感倾向分析方法
CN108062304A (zh) * 2017-12-19 2018-05-22 北京工业大学 一种基于机器学习的商品评论数据的情感分析方法
CN108108355A (zh) * 2017-12-25 2018-06-01 北京牡丹电子集团有限责任公司数字电视技术中心 基于深度学习的文本情感分析方法和系统
CN108090231A (zh) * 2018-01-12 2018-05-29 北京理工大学 一种基于信息熵的主题模型优化方法
CN108256098A (zh) * 2018-01-30 2018-07-06 中国银联股份有限公司 一种确定用户评论情感倾向的方法及装置
CN109271510A (zh) * 2018-08-16 2019-01-25 龙马智芯(珠海横琴)科技有限公司 情感词向量构建方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257434A (zh) * 2019-07-02 2021-01-22 Tcl集团股份有限公司 一种无人机控制方法、系统、移动终端及存储介质
CN112257434B (zh) * 2019-07-02 2023-09-08 Tcl科技集团股份有限公司 一种无人机控制方法、系统、移动终端及存储介质
CN110457599A (zh) * 2019-08-15 2019-11-15 中国电子信息产业集团有限公司第六研究所 热点话题追踪方法、装置、服务器及可读存储介质
CN110457599B (zh) * 2019-08-15 2021-09-03 中国电子信息产业集团有限公司第六研究所 热点话题追踪方法、装置、服务器及可读存储介质

Similar Documents

Publication Publication Date Title
CN104268160B (zh) 一种基于领域词典和语义角色的评价对象抽取方法
Schmid Deep learning-based morphological taggers and lemmatizers for annotating historical texts
CN104636466B (zh) 一种面向开放网页的实体属性抽取方法和系统
CN103678684B (zh) 一种基于导航信息检索的中文分词方法
CN106407236B (zh) 一种面向点评数据的情感倾向性检测方法
CN106776562A (zh) 一种关键词提取方法和提取系统
CN104298662B (zh) 一种基于有机物命名实体的机器翻译方法及翻译系统
CN107239439A (zh) 基于word2vec的舆情倾向性分析方法
CN104484374B (zh) 一种创建网络百科词条的方法及装置
CN107145479A (zh) 基于文本语义的篇章结构分析方法
CN105824933A (zh) 基于主述位的自动问答系统及其实现方法
CN106095996A (zh) 用于文本分类的方法
CN105740229B (zh) 关键词提取的方法及装置
Tiwari et al. Social media sentiment analysis on Twitter datasets
US7962507B2 (en) Web content mining of pair-based data
CN102737013A (zh) 基于依存关系来识别语句情感的设备和方法
CN103995853A (zh) 基于关键句的多语言情感数据处理分类方法及系统
CN105224520B (zh) 一种中文专利文献术语自动识别方法
CN110263319A (zh) 一种基于网页文本的学者观点抽取方法
Mohamed et al. Arabic Part of Speech Tagging.
CN105989058A (zh) 一种汉语新闻摘要生成系统及方法
CN106547875A (zh) 一种基于情感分析和标签的微博在线突发事件检测方法
Patil et al. Use of Porter stemming algorithm and SVM for emotion extraction from news headlines
CN105095196A (zh) 文本中新词发现的方法和装置
CN107894975A (zh) 一种基于Bi‑LSTM的分词方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190125

RJ01 Rejection of invention patent application after publication