CN108021609A - 文本情感分类方法、装置、计算机设备和存储介质 - Google Patents
文本情感分类方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN108021609A CN108021609A CN201711059752.5A CN201711059752A CN108021609A CN 108021609 A CN108021609 A CN 108021609A CN 201711059752 A CN201711059752 A CN 201711059752A CN 108021609 A CN108021609 A CN 108021609A
- Authority
- CN
- China
- Prior art keywords
- word
- text
- marked
- vector
- public
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种文本情感分类方法、装置、计算机设备和存储介质。该方法包括:通过公共词词向量集和相似词对向量集分别得到待标注文本和已标注文本对应的待标注文本向量集和已标注文本向量集,对已标注文本向量集和已标注文本向量集对应的已标注文本的情感分类标签进行训练得到分类模型,将待标注文本向量集输入分类模型进行预测以得到待标注文本向量集对应的待标注文本的情感分类标签。相比于人工标注文本情感分类标签,该方法大大节省了人力成本,并且提高了文本情感分类的效率。
Description
技术领域
本发明涉及情感分析领域,特别是涉及一种文本情感分类方法、装置、计算机设备和存储介质。
背景技术
随着互联网的飞速发展,微博、论坛、淘宝、APP(Application,应用程序)等各种应用上产生了大量用户的评论或留言,这些评论或留言表达了用户的各种情感倾向,如正负情感、喜怒哀乐、批评和赞美等。通过分析这些评论或留言文本中的情感倾向,对文本进行情感分类标注以有效把握信息趋势,对用户、商家、乃至政府而言都是比较有价值的。
然而,目前文本的情感分类主要是靠人工标注,这样不但消耗较多人力成本,而且效率也不高。
发明内容
基于此,有必要针对目前靠人工获取文本情感分类标签既费时又费力的问题,提供一种文本情感分类方法、装置、计算机设备和存储介质。
一种文本情感分类方法,所述方法包括:
获取待标注文本、已标注文本和所述已标注文本对应的情感分类标签;
分别对所述待标注文本和所述已标注文本进行词处理得到对应的待标注文本词集和已标注文本词集,根据所述待标注文本词集和所述已标注文本词集得到公共词词集;
分别对所述待标注文本词集和所述已标注文本词集进行词映射得到对应的待标注文本词向量集和已标注文本词向量集,计算所述公共词词集对应的公共词词向量集,获取所述公共词词集对应的相似词对集,计算所述相似词对集对应的相似词对向量集;
根据所述公共词词向量集和所述相似词对向量集分别对所述待标注文本和所述已标注文本进行文本映射得到对应的待标注文本向量集和已标注文本向量集;
对所述已标注文本向量集和所述已标注文本向量集对应的已标注文本的情感分类标签进行训练得到分类模型,将所述待标注文本向量集输入所述分类模型进行预测以得到所述待标注文本向量集对应的待标注文本的情感分类标签。
在一个实施例中,所述获取待标注文本、已标注文本和所述已标注文本对应的情感分类标签的步骤,包括:从第一领域获取所述待标注文本;从第一领域或第二领域获取所述已标注文本和所述已标注文本对应的情感分类标签,所述第一领域和第二领域为不同类型的领域。
在一个实施例中,所述分别对所述待标注文本和所述已标注文本进行词处理得到对应的待标注文本词集和已标注文本词集的步骤,包括:分别对所述待标注文本和所述已标注文本进行分词和词性标注;从所分的词中剔除停止词后得到所述待标注文本词集和所述已标注文本词集。
在一个实施例中,所述根据所述待标注文本词集和所述已标注文本词集得到公共词词集的步骤,包括:统计同时属于所述待标注文本词集和所述已标注文本词集的公共词;计算所述公共词的综合词频;根据所述综合词频对所述公共词进行排序,从大到小提取预设数量的公共词组成公共词词集。
在一个实施例中,所述计算所述公共词词集对应的公共词词向量集的步骤,包括:根据所述公共词词集中的公共词分别从所述待标注文本词向量集和所述已标注文本词向量集中获取对应于该公共词的词向量;将所述待标注文本词向量集中对应于该公共词的词向量和所述已标注文本词向量集中对应于该公共词的词向量相加后取平均向量作为所述公共词词集中的所述公共词对应的词向量,所述公共词词集中全部的公共词对应的词向量组成所述公共词词向量集。
在一个实施例中,所述获取所述公共词词集对应的相似词对集的步骤,包括:根据所述公共词词集中的公共词从所述待标注文本词集中获取最相似于该公共词的相似第一词,从所述已标注文本词集中获取最相似于该公共词的相似第二词;将所述相似第一词和所述相似第二词组成相似词对,所述公共词词集中全部的公共词对应的相似词对组成所述公共词词集对应的相似词对集。
在一个实施例中,所述根据所述公共词词集中的公共词从所述待标注文本词集中获取最相似于该公共词的相似第一词,从所述已标注文本词集中获取最相似于该公共词的相似第二词的步骤,包括:从所述待标注文本词向量集中剔除与所述公共词词向量集中的词向量相同的词向量以获得第一文本词向量集,计算所述公共词词向量集中的词向量与所述第一文本词向量集中的各个词向量对应的余弦相似度,根据余弦相似度最大原则从所述第一文本词向量集中获取第一目标词向量,将所述第一目标词向量所对应的词作为所述相似第一词;从所述已标注文本词向量集中剔除与所述公共词词向量集中的词向量相同的词向量以获得第二文本词向量集,计算所述公共词词向量集中的词向量与所述第二文本词向量集中的各个词向量对应的余弦相似度,根据余弦相似度最大原则从所述第二文本词向量集中获取第二目标词向量,将所述第二目标词向量所对应的词作为所述相似第二词。
在一个实施例中,所述计算所述相似词对集对应的相似词对向量集的步骤,包括:从所述待标注文本词向量集中获取对于所述相似第一词的词向量,从所述已标注文本词向量集中获取对应于所述相似第二词的词向量;将所述相似第一词的词向量和所述相似第二词的词向量相加后取平均向量作为所述相似词对对应的向量,全部的所述相似词对对应的向量组成所述相似词对向量集。
在一个实施例中,所述根据所述公共词词向量集和所述相似词对向量集分别对所述待标注文本和所述已标注文本进行文本映射得到对应的待标注文本向量集和已标注文本向量集的步骤,包括:利用所述相似词对来替换所述待标注文本词集中对应的所述相似第一词和所述已标注文本词集中对应的所述相似第二词;根据替换后的所述待标注文本词集、替换后的所述已标注文本词集对应确定所述待标注文本、所述已标注文本中各条文本所包括的所述公共词词集中的公共词和所述相似词对集中的相似词对;根据所述待标注文本中的每条文本分别从所述公共词词向量集中获取对应于该条文本所包括的公共词的词向量作为第一对应向量,从所述相似词对向量集中获取对应于该条文本所包括的相似词对的向量作为第二对应向量,根据所述已标注文本中的每条文本分别从所述公共词词向量集中获取对应于该条文本所包括的公共词的词向量作为第三对应向量,从所述相似词对向量集中获取对应于该条文本所包括的相似词对的向量作为第四对应向量;将获取的所述第一对应向量和所述第二对应向量相加后取平均向量作为所述待标注文本中的对应文本的向量,将获取的所述第三对应向量和所述第四对应向量相加后取平均向量作为所述已标注文本中的对应文本的向量,所述待标注文本中的全部文本的向量组成所述待标注文本向量集,所述已标注文本中的全部文本的向量组成所述已标注文本向量集。
一种文本情感分类装置,所述装置包括:
文本获取模块,用于获取待标注文本、已标注文本和所述已标注文本对应的情感分类标签;
词集获取模块,用于分别对所述待标注文本和所述已标注文本进行词处理得到对应的待标注文本词集和已标注文本词集,根据所述待标注文本词集和所述已标注文本词集得到公共词词集;
词向量映射模块,用于分别对所述待标注文本词集和所述已标注文本词集进行词映射得到对应的待标注文本词向量集和已标注文本词向量集,计算所述公共词词集对应的公共词词向量集,获取所述公共词词集对应的相似词对集,计算所述相似词对集对应的相似词对向量集;
文本向量映射模块,用于根据所述公共词词向量集和所述相似词对向量集分别对所述待标注文本和所述已标注文本进行文本映射得到对应的待标注文本向量集和已标注文本向量集;
标签预测模块,用于对所述已标注文本向量集和所述已标注文本向量集对应的已标注文本的情感分类标签进行训练得到分类模型,将所述待标注文本向量集输入所述分类模型进行预测以得到所述待标注文本向量集对应的待标注文本的情感分类标签。
在一个实施例中,所述文本获取模块包括:第一获取模块,用于从第一领域获取所述待标注文本;第二获取模块,用于从第一领域或第二领域获取所述已标注文本和所述已标注文本对应的情感分类标签,所述第一领域和第二领域为不同类型的领域。
在一个实施例中,所述词集获取模块包括:词标注模块,用于分别对所述待标注文本和所述已标注文本进行分词和词性标注;词剔除模块,用于从所分的词中剔除停止词后得到所述待标注文本词集和所述已标注文本词集;词提取模块,用于根据所述待标注文本词集和所述已标注文本词集得到公共词词集。
在一个实施例中,所述词提取模块包括:公共词统计单元,用于统计同时属于所述待标注文本词集和所述已标注文本词集的公共词;综合词频计算单元,用于计算所述公共词的综合词频;公共词提取单元,用于根据所述综合词频对所述公共词进行排序,从大到小提取预设数量的公共词组成公共词词集。
在一个实施例中,所述词向量映射模块包括:第一映射模块,用于对所述待标注文本词集进行词映射得到对应的待标注文本词向量集;第二映射模块,用于对所述已标注文本词集进行词映射得到对应的已标注文本词向量集;第一计算模块,用于计算所述公共词词集对应的公共词词向量集;词对获取模块,用于获取所述公共词词集对应的相似词对集;第二计算模块,用于计算所述相似词对集对应的相似词对向量集。
在一个实施例中,所述第一计算模块包括:第一词向量获取单元,用于根据所述公共词词集中的公共词分别从所述待标注文本词向量集和所述已标注文本词向量集中获取对应于该公共词的词向量;公共词词向量计算单元,用于将所述待标注文本词向量集中对应于该公共词的词向量和所述已标注文本词向量集中对应于该公共词的词向量相加后取平均向量作为所述公共词词集中的所述公共词对应的词向量,所述公共词词集中全部的公共词对应的词向量组成所述公共词词向量集。
在一个实施例中,所述词对获取模块包括:相似词获取单元,用于根据所述公共词词集中的公共词从所述待标注文本词集中获取最相似于该公共词的相似第一词,从所述已标注文本词集中获取最相似于该公共词的相似第二词;词对获取单元,用于将所述相似第一词和所述相似第二词组成相似词对,所述公共词词集中全部的公共词对应的相似词对组成所述公共词词集对应的相似词对集。
在一个实施例中,所述相似词获取单元包括:第一获取子单元,用于从所述待标注文本词向量集中剔除与所述公共词词向量集中的词向量相同的词向量以获得第一文本词向量集,计算所述公共词词向量集中的词向量与所述第一文本词向量集中的各个词向量对应的余弦相似度,根据余弦相似度最大原则从所述第一文本词向量集中获取第一目标词向量,将所述第一目标词向量所对应的词作为所述相似第一词;第二获取子单元,用于从所述已标注文本词向量集中剔除与所述公共词词向量集中的词向量相同的词向量以获得第二文本词向量集,计算所述公共词词向量集中的词向量与所述第二文本词向量集中的各个词向量对应的余弦相似度,根据余弦相似度最大原则从所述第二文本词向量集中获取第二目标词向量,将所述第二目标词向量所对应的词作为所述相似第二词。
在一个实施例中,所述第二计算模块包括:相似词词向量获取单元,用于从所述待标注文本词向量集中获取对于所述相似第一词的词向量,从所述已标注文本词向量集中获取对应于所述相似第二词的词向量;词对向量计算单元,用于将所述相似第一词的词向量和所述相似第二词的词向量相加后取平均向量作为所述相似词对对应的向量,全部的所述相似词对对应的向量组成所述相似词对向量集。
在一个实施例中,所述文本向量映射模块包括:相似词替换模块,用于利用所述相似词对来替换所述待标注文本词集中对应的所述相似第一词和所述已标注文本词集中对应的所述相似第二词;词确定模块,用于根据替换后的所述待标注文本词集、替换后的所述已标注文本词集对应确定所述待标注文本、所述已标注文本中各条文本所包括的所述公共词词集中的公共词和所述相似词对集中的相似词对;对应向量获取模块,用于根据所述待标注文本中的每条文本分别从所述公共词词向量集中获取对应于该条文本所包括的公共词的词向量作为第一对应向量,从所述相似词对向量集中获取对应于该条文本所包括的相似词对的向量作为第二对应向量,根据所述已标注文本中的每条文本分别从所述公共词词向量集中获取对应于该条文本所包括的公共词的词向量作为第三对应向量,从所述相似词对向量集中获取对应于该条文本所包括的相似词对的向量作为第四对应向量;文本向量计算模块,用于将获取的所述第一对应向量和所述第二对应向量相加后取平均向量作为所述待标注文本中的对应文本的向量,将获取的所述第三对应向量和所述第四对应向量相加后取平均向量作为所述已标注文本中的对应文本的向量,所述待标注文本中的全部文本的向量组成所述待标注文本向量集,所述已标注文本中的全部文本的向量组成所述已标注文本向量集。
一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例所述的文本情感分类方法的步骤。
一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例所述的文本情感分类方法的步骤。
上述文本情感分类方法、装置、计算机设备和存储介质,通过公共词词向量集和相似词对向量集分别得到待标注文本和已标注文本对应的待标注文本向量集和已标注文本向量集,对已标注文本向量集和已标注文本向量集对应的已标注文本的情感分类标签进行训练得到分类模型,将待标注文本向量集输入分类模型进行预测以得到待标注文本向量集对应的待标注文本的情感分类标签,相比于人工标注文本情感分类标签,大大节省了人力成本,并且提高了文本情感分类的效率。
附图说明
图1为一个实施例中文本情感分类方法的流程图;
图2为一个实施例中词处理的方法流程图;
图3为一个实施例中获取公共词词集的方法流程图;
图4为一个实施例中计算公共词词向量集的方法流程图;
图5为一个实施例中获取相似词对集的方法流程图;
图6为一个实施例中计算相似词对向量集的方法流程图;
图7为一个实施例中计算文本向量集的方法流程图;
图8为一个实施例中文本情感分类装置的结构框图;
图9为一个实施例中文本获取模块的结构框图;
图10为一个实施例中词集获取模块的结构框图;
图11为一个实施例中词提取模块的结构框图;
图12a为一个实施例中词向量映射模块的结构框图;
图12b为一个实施例中第一计算模块的结构框图;
图13为一个实施例中词对获取模块的结构框图;
图14为一个实施例中第二计算模块的结构框图;
图15为一个实施例中文本向量映射模块的结构框图;
图16为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,在一个实施例中,提出了一种文本情感分类方法,该方法包括:
步骤S110,获取待标注文本、已标注文本和已标注文本对应的情感分类标签。
其中,文本是书面语言的表现形式,至少包括一个具备完整含义的句子。文本可以是中文、英文、日文、韩文等表现形式中的至少一种。待标注文本和已标注文本至少包括一条文本。日常生活中,各种APP应用,如微博、论坛、淘宝等应用上会产生了大量用户的评论或留言,这些评论或留言表达了用户的各种情感倾向,如正负情感、喜怒哀乐、批评和赞美等。待标注文本和已标注文本可以从新闻评论中获取,也可以从淘宝应用中的商品评论中获取。
在一个实施例中,获取待标注文本、已标注文本和已标注文本对应的情感分类标签的步骤S110包括:从第一领域获取待标注文本;从第一领域或第二领域获取已标注文本和已标注文本对应的情感分类标签,第一领域和第二领域为不同类型的领域。
具体地,用户的大量评论或留言会在不同的应用领域产生,比如,新闻领域、电商领域、社交领域等应用领域。待标注文本和已标注文本可以从同类型的应用领域获取,还可以从不同类型的应用领域获取。
待标注文本是需要标注情感分类标签的文本,已标注文本是已标注有情感分类标签的文本。文本情感分类是对文本所具备的情感倾向进行判断,可以根据判断结果对文本进行标注从而形成文本情感分类标签。不同的情感分类特点则对应不同的预设情感分类标签。若根据价值的正负变化方向的不同,预设文本情感分类标签包括“正向”、“负向”;若根据人对事物所产生情绪的不同,预设文本情感分类标签可以包括“喜”、“怒”、“哀”、“乐”;若根据人对事物认同度的不同,预设文本情感分类标签可以包括“批评”、“赞美”。
在一个实施例中,文本情感分类可以基于一种情感分类特点进行判断,从而标注对应的一个情感分类标签,也可以基于两种以上情感分类特点进行判断,从而标注对应个数的情感分类标签。比如根据价值的正负变化方向的不同、人对事物认同度的不同对文本“这篇文章写得真棒”的情感倾向进行判断,那么以预设情感分类标签对该文本进行标注所形成的情感分类标签可以包括“正向”和“赞美”。
步骤S120,分别对待标注文本和已标注文本进行词处理得到对应的待标注文本词集和已标注文本词集,根据待标注文本词集和已标注文本词集得到公共词词集。
其中,词处理是按照预设规律将文本转换成词集的处理过程。预设规律可以是提取文本中的关键词,比如提取文本中出现的名词、动词、成语、形容词中的至少一种词作为关键词,或者提取文本中表示情绪的词作为关键词。词处理还包括对词集中每个词的所属文本序号进行标记的过程,比如,在对待标注文本的第一条文本所转换的词上标注序号“1”,代表该词是属于待标注文本的第一条文本所转换的词。词集是以词为单位形成的词的集合。词是最小的能够独立运用的语言单位。词集中的词可以是单个汉字形成的词,也可以是多个汉字组成的词,还可以是英文单词。
具体地,对待标注文本进行词处理可以得到对应的待标注文本词集,对已标注文本进行词处理可以得到对应的已标注文本词集。将待标注文本词集与已标注文本词集进行比对,获取待标注文本词集与已标注文本词集中的相同词,即获取既出现在待标注文本词集也出现在已标注文本词集的公共词,这些公共词组成公共词词集。
步骤S130,分别对待标注文本词集和已标注文本词集进行词映射得到对应的待标注文本词向量集和已标注文本词向量集,计算公共词词集对应的公共词词向量集,获取公共词词集对应的相似词对集,计算相似词对集对应的相似词对向量集。
其中,词映射是将词转换成对应的词向量的处理过程。词映射可以通过Word2Vec工具来完成。Word2Vec是一款用于词向量计算的工具,可以在百万数量级的词典和上亿的数据集上进行高效地训练,得到的训练结果即为词向量。Word2Vec工具利用CBoW(Continuous Bag-of-Words,连续词袋)模型和Skip-gram(连续跳跃元语法)模型计算词向量。CBoW模型和Skip-gram模型是两个直接以得到词向量为目标的模型。向量集是以向量为单位形成的向量的集合。词向量集为词集中的词对应的词向量的集合。
具体地,将待标注文本词集输入Word2Vec工具进行词映射可以得到待标注文本词向量集,将已标注文本词集输入Word2Vec工具进行词映射可以得到已标注文本词向量集。
具体地,根据待标注文本词向量集和已标注文本词向量集计算公共词词集对应的公共词词向量集,公共词词向量集是公共词词集中的公共词对应词向量的集合。
在一个实施例中,根据公共词词集中的公共词从待标注文本词向量集中获取对应于该公共词的词向量作为该公共词对应的词向量。
在另一个实施例中,根据公共词词集中的公共词从已标注文本词向量集中获取对应于该公共词的词向量作为该公共词对应的词向量。
在一个实施例中,根据公共词词集中的公共词从待标注文本词集中获取一个与该公共词词义相似而字符组成上不同的词,从已标注文本词集中获取一个与该公共词词义相似而字符组成上不同的词,两个词组成对应于该公共词的相似词对。相似词对集是公共词词集中的公共词对应的相似词对的集合。
具体地,根据待标注文本词向量集和已标注文本词向量集计算相似词对集对应的相似词对向量集,相似词对向量集是相似词对集中的相似词对对应的向量的集合。
在一个实施例中,根据组成相似词对的两个词中的任意一个词从待标注文本词向量集或者已标注文本词向量集中获取对应于该词的词向量作为该相似词对对应的向量。
步骤S140,根据公共词词向量集和相似词对向量集分别对待标注文本和已标注文本进行文本映射得到对应的待标注文本向量集和已标注文本向量集。
其中,文本向量集为文本中的各条文本对应文本向量的集合。文本映射是将文本转换成对应的文本向量的处理过程。文本映射根据公共词词向量集和相似词对向量集进行运算来完成。
具体地,对待标注文本中的各条文本进行文本映射可以得到对应的待标注文本向量,对已标注文本中的各条文本进行文本映射可以得到对应的已标注文本向量。待标注文本向量集为待标注文本中的各条文本对应文本向量的集合,即待标注文本向量的集合,已标注文本向量集为已标注文本中的各条文本对应文本向量的集合,即已标注文本向量的集合。
比如,待标注文本中包括10000条文本,则进行文本映射后得到的待标注文本向量集中包括10000个待标注文本向量;已标注文本中包括100条文本,则进行文本映射后得到的已标注文本向量集中包括100个已标注文本向量。
步骤S150,对已标注文本向量集和已标注文本向量集对应的已标注文本的情感分类标签进行训练得到分类模型,将待标注文本向量集输入分类模型进行预测以得到待标注文本向量集对应的待标注文本的情感分类标签。
具体的,将已标注文本向量集和已标注文本向量集对应的已标注文本的情感分类标签输入分类器进行训练。其中,分类器用于在已有数据的基础上构造出一个分类模型,利用该分类模型进行数据预测。分类器可以是SVM(SupportVector Machine,支持向量机)分类器,还可以是Logistic(逻辑)回归分类器,这两种分类器都是常见的分类器。
比如,将进行文本映射后得到的包括100个已标注文本向量的已标注文本向量集和对应的100个已标注文本情感分类标签输入分类器进行训练可以构造相应的分类模型,然后将进行文本映射后得到的10000个待标注文本向量输入构造的分类模型进行预测,可以得到该10000个待标注文本向量对应的10000条待标注文本的情感分类标签。
上述文本情感分类方法,通过公共词词向量集和相似词对向量集分别得到待标注文本和已标注文本对应的待标注文本向量集和已标注文本向量集,对已标注文本向量集和已标注文本向量集对应的已标注文本的情感分类标签进行训练得到分类模型,将待标注文本向量集输入分类模型进行预测以得到待标注文本向量集对应的待标注文本的情感分类标签,相比于人工标注文本情感分类标签,大大节省了人力成本,并且提高了文本情感分类的效率。
如图2所示,在一个实施例中,分别对待标注文本和已标注文本进行词处理得到对应的待标注文本词集和已标注文本词集,根据待标注文本词集和已标注文本词集得到公共词词集的步骤S120包括:
步骤S122A,分别对待标注文本和已标注文本进行分词和词性标注。
其中,词性是以词的特点作为划分词类的根据。词性包括动词、形容词、名词、副词、成语、习用语、名动词、停止词。
分词是对文本以词为单位进行拆分的过程。分词还包括对每个词的所属文本序号进行标记的过程。比如,在对待标注文本的第一条文本所分的词上标注序号“1”,代表该词是属于待标注文本的第一条文本所分的词。词性标注是对词的词性进行标记的过程。
步骤S122B,从所分的词中剔除停止词后得到待标注文本词集和已标注文本词集。
其中,停止词是指对文本的含义没有实质影响的词。停止词一般包括介词、连词、助词。
在一个实施例中,保留根据待标注文本和已标注文本所分的词中词性为动词、形容词、名词、副词、成语、习用语、名动词的词,并剔除停止词后可以得到对应的待标注文本词集和已标注文本词集。
如图3所示,在一个实施例中,分别对待标注文本和已标注文本进行词处理得到对应的待标注文本词集和已标注文本词集,根据待标注文本词集和已标注文本词集得到公共词词集的步骤S120包括:
步骤S124A,统计同时属于待标注文本词集和已标注文本词集的公共词。
其中,公共词是既属于待标注文本词集也属于已标注文本词集的词。将待标注文本词集与已标注文本词集进行比对,可以统计出待标注文本词集与已标注文本词集所包括的全部公共词。
步骤S124B,计算公共词的综合词频。
其中,综合词频是指公共词在待标注文本词集中的出现次数与在已标注文本词集中的出现次数之和。通过统计每个公共词分别在待标注文本词集和已标注文本词集中的出现次数,可以计算得到每个公共词的综合词频。
步骤S124C,根据综合词频对公共词进行排序,从大到小提取预设数量的公共词组成公共词词集。
其中,预设数量是根据实际需要对公共词词集设定的词个数。根据公共词的综合词频大小对全部公共词进行排序之后,按照从大到小的顺序从排序中提取预设数量的公共词即可组成公共词词集。
如图4所示,在一个实施例中,分别对待标注文本词集和已标注文本词集进行词映射得到对应的待标注文本词向量集和已标注文本词向量集,计算公共词词集对应的公共词词向量集,获取公共词词集对应的相似词对集,计算相似词对集对应的相似词对向量集的步骤S130包括:
步骤S132A,根据公共词词集中的公共词分别从待标注文本词向量集和已标注文本词向量集中获取对应于该公共词的词向量。
具体地,公共词是既属于待标注文本词集也属于已标注文本词集的词。待标注文本词集对应的待标注文本词向量集中包括公共词对应的词向量,根据公共词可以从待标注文本词向量集中找到对应于该公共词的词向量。同样的,已标注文本词集对应的已标注文本词向量集中包括公共词对应的词向量,根据公共词可以从已标注文本词向量集中找到对应于该公共词的词向量。
步骤S132B,将待标注文本词向量集中对应于该公共词的词向量和已标注文本词向量集中对应于该公共词的词向量相加后取平均向量作为公共词词集中的公共词对应的词向量,公共词词集中全部的公共词对应的词向量组成公共词词向量集。
具体地,根据公共词分别从待标注文本词向量集和已标注文本词向量集中获取该公共词对应的词向量后,计算所获取向量的平均向量,将该平均向量作为公共词的词向量。计算得到的全部的公共词的词向量组成公共词词集对应的公共词词向量集。
如图5所示,在一个实施例中,分别对待标注文本词集和已标注文本词集进行词映射得到对应的待标注文本词向量集和已标注文本词向量集,计算公共词词集对应的公共词词向量集,获取公共词词集对应的相似词对集,计算相似词对集对应的相似词对向量集的步骤S130包括:
步骤S134A,根据公共词词集中的公共词从待标注文本词集中获取最相似于该公共词的相似第一词,从已标注文本词集中获取最相似于该公共词的相似第二词。
其中,相似第一词是待标注文本词集中与公共词最相似的词,相似第二词是已标注文本词集中与公共词最相似的词。最相似是指两词之间词义最相似而字符组成不同。
在一个实施例中,根据公共词词集中的公共词从待标注文本词集中获取最相似于该公共词的相似第一词,从已标注文本词集中获取最相似于该公共词的相似第二词的步骤S134A包括:从待标注文本词向量集中剔除与公共词词向量集中的词向量相同的词向量以获得第一文本词向量集,计算公共词词向量集中的词向量与第一文本词向量集中的各个词向量对应的余弦相似度,根据余弦相似度最大原则从第一文本词向量集中获取第一目标词向量,将第一目标词向量所对应的词作为相似第一词;从已标注文本词向量集中剔除与公共词词向量集中的词向量相同的词向量以获得第二文本词向量集,计算公共词词向量集中的词向量与第二文本词向量集中的各个词向量对应的余弦相似度,根据余弦相似度最大原则从第二文本词向量集中获取第二目标词向量,将第二目标词向量所对应的词作为相似第二词。
其中,第一文本词向量集是指剔除与公共词词向量集中的词向量相同的词向量之后的待标注文本词向量集。第二文本词向量集是指剔除与公共词词向量集中的词向量相同的词向量之后的已标注文本词向量集。余弦相似度是指余弦相似性,是通过计算两个向量的夹角余弦值来评估该两个向量的相似度,夹角越小,余弦值越接近1,说明两个向量的方向更加吻合,则越相似。
具体地,计算公共词词向量集中的词向量与第一文本词向量集中的各个词向量对应的余弦相似度,是分别计算公共词词向量集中的词向量与第一文本词向量集中的各个词向量对应的夹角余弦值。根据余弦相似度最大原则从第一文本词向量集中获取第一目标词向量,将第一目标词向量所对应的词作为相似第一词,是从第一文本词向量集中找到与公共词词向量的夹角余弦值最大的词向量作为第一目标词向量,该第一目标词向量所对应的词即为相似第一词。计算公共词词向量集中的词向量与第二文本词向量集中的各个词向量对应的余弦相似度,是分别计算公共词词向量集中的词向量与第二文本词向量集中的各个词向量对应的夹角余弦值。根据余弦相似度最大原则从第二文本词向量集中获取第二目标词向量,将第二目标词向量所对应的词作为相似第二词,是从第二文本词向量集中找到与公共词词向量的夹角余弦值最大的词向量作为第二目标词向量,该第二目标词向量所对应的词即为相似第二词。
步骤S134B,将相似第一词和相似第二词组成相似词对,公共词词集中全部的公共词对应的相似词对组成公共词词集对应的相似词对集。
具体地,根据公共词从待标注文本词集中获取的相似第一词与从已标注文本词集中获取的相似第二词组成该公共词对应的相似词对。公共词词集中全部的公共词对应的相似词对组成相似词对集。
如图6所示,在一个实施例中,分别对待标注文本词集和已标注文本词集进行词映射得到对应的待标注文本词向量集和已标注文本词向量集,计算公共词词集对应的公共词词向量集,获取公共词词集对应的相似词对集,计算相似词对集对应的相似词对向量集的步骤S130包括:
步骤S136A,从待标注文本词向量集中获取对应于相似第一词的词向量,从已标注文本词向量集中获取对应于相似第二词的词向量。
具体地,相似第一词是被待标注文本词集所包括的词,相似第二词是被已标注文本词集所包括的词,因此,从待标注文本词集对应的待标注文本词向量集中可以获取对应于相似第一词的词向量,从已标注文本词集对应的已标注文本词向量集中可以获取对应于相似第二词的词向量。
步骤S136B,将相似第一词的词向量和相似第二词的词向量相加后取平均向量作为相似词对对应的向量,全部的相似词对对应的向量组成相似词对向量集。
具体地,相似词对由相似第一词与相似第二词组成,将相似第一词的词向量和相似第二词的词向量相加后取平均向量,该平均向量可以作为相似词对对应的向量。相似词对集中全部的相似词对对应的向量组成相似词对向量集。
如图7所示,在一个实施例中,根据公共词词向量集和相似词对向量集分别对待标注文本和已标注文本进行文本映射得到对应的待标注文本向量集和已标注文本向量集的步骤S140包括:
步骤S142,利用相似词对来替换待标注文本词集中对应的相似第一词和已标注文本词集中对应的相似第二词。
具体地,相似第一词是被待标注文本词集所包括的词,相似第二词是被已标注文本词集所包括的词,将待标注文本词集中出现的相似第一词替换为包括该相似第一词的相似词对,将已标注文本词集中出现的相似第二词替换为包括该相似第二词的相似词对。
步骤S144,根据替换后的待标注文本词集、替换后的已标注文本词集对应确定待标注文本、已标注文本中各条文本所包括的公共词词集中的公共词和相似词对集中的相似词对。
具体地,根据待标注文本词集和已标注文本词集中词的所属文本序号,结合公共词词集和相似词对集来确定待标注文本中的各条文本分别包括的公共词词集中的公共词和相似词对集中的相似词对,以及确定已标注文本中的各条文本分别包括的公共词词集中的公共词和相似词对集中的相似词对。
步骤S146,根据待标注文本中的每条文本分别从公共词词向量集中获取对应于该条文本所包括的公共词的词向量作为第一对应向量,从相似词对向量集中获取对应于该条文本所包括的相似词对的向量作为第二对应向量,根据已标注文本中的每条文本分别从公共词词向量集中获取对应于该条文本所包括的公共词的词向量作为第三对应向量,从相似词对向量集中获取对应于该条文本所包括的相似词对的向量作为第四对应向量。
其中,第一对应向量是待标注文本中的某条文本所包括的公共词词集中的公共词的词向量,第二对应向量是待标注文本中的该条文本所包括的相似词对集中的相似词对的向量。第三对应向量是已标注文本中的某条文本所包括的公共词词集中的公共词的词向量,第四对应向量是已标注文本中的该条文本所包括的相似词对集中的相似词对的向量。从公共词词向量集中可以获取第一对应向量和第三对应向量,从相似词对向量集中可以获取第二对应向量和第四对应向量。
步骤S148,将获取的第一对应向量和第二对应向量相加后取平均向量作为待标注文本中的对应文本的向量,将获取的第三对应向量和第四对应向量相加后取平均向量作为已标注文本中的对应文本的向量,待标注文本中的全部文本的向量组成待标注文本向量集,已标注文本中的全部文本的向量组成已标注文本向量集。
具体地,将获取的待标注文本中某条文本对应的第一对应向量和第二对应向量相加后取平均向量,该平均向量可以作为待标注文本中该条文本对应的向量。同样的,将获取的已标注文本中某条文本对应的第三对应向量和第四对应向量相加后取平均向量,该平均向量可以作为已标注文本中该条文本对应的向量。待标注文本中的全部文本的向量组成待标注文本向量集,已标注文本中的全部文本的向量组成已标注文本向量集。
如图8所示,在一个实施例中,提出了一种文本情感分类装置,该装置包括:
文本获取模块810,用于获取待标注文本、已标注文本和已标注文本对应的情感分类标签。
词集获取模块820,用于分别对待标注文本和已标注文本进行词处理得到对应的待标注文本词集和已标注文本词集,根据待标注文本词集和已标注文本词集得到公共词词集。
词向量映射模块830,用于分别对待标注文本词集和已标注文本词集进行词映射得到对应的待标注文本词向量集和已标注文本词向量集,计算公共词词集对应的公共词词向量集,获取公共词词集对应的相似词对集,计算相似词对集对应的相似词对向量集。
文本向量映射模块840,用于根据公共词词向量集和相似词对向量集分别对待标注文本和已标注文本进行文本映射得到对应的待标注文本向量集和已标注文本向量集。
标签预测模块850,用于对已标注文本向量集和已标注文本向量集对应的已标注文本的情感分类标签进行训练得到分类模型,将待标注文本向量集输入分类模型进行预测以得到待标注文本向量集对应的待标注文本的情感分类标签。
如图9所示,在一个实施例中,文本获取模块810包括:
第一获取模块811,用于从第一领域获取待标注文本。
第二获取模块812,用于从第一领域或第二领域获取已标注文本和已标注文本对应的情感分类标签,第一领域和第二领域为不同类型的领域。
上述文本情感分类装置,通过公共词词向量集和相似词对向量集分别得到待标注文本和已标注文本对应的待标注文本向量集和已标注文本向量集,对已标注文本向量集和已标注文本向量集对应的已标注文本的情感分类标签进行训练得到分类模型,将待标注文本向量集输入分类模型进行预测以得到待标注文本向量集对应的待标注文本的情感分类标签,相比于人工标注文本情感分类标签,大大节省了人力成本,并且提高了文本情感分类的效率。
如图10所示,在一个实施例中,词集获取模块820包括:
词标注模块822,用于分别对待标注文本和已标注文本进行分词和词性标注。
词剔除模块824,用于从所分的词中剔除停止词后得到待标注文本词集和已标注文本词集。
词提取模块826,用于根据待标注文本词集和已标注文本词集得到公共词词集。
如图11所示,在一个实施例中,词提取模块826包括:
公共词统计单元826A,用于统计同时属于待标注文本词集和已标注文本词集的公共词。
综合词频计算单元826B,用于计算公共词的综合词频。
公共词提取单元826C,用于根据综合词频对公共词进行排序,从大到小提取预设数量的公共词组成公共词词集。
如图12a所示,在一个实施例中,词向量映射模块830包括:
第一映射模块831,用于对待标注文本词集进行词映射得到对应的待标注文本词向量集。
第二映射模块832,用于对已标注文本词集进行词映射得到对应的已标注文本词向量集。
第一计算模块833,用于计算公共词词集对应的公共词词向量集。
词对获取模块834,用于获取公共词词集对应的相似词对集。
第二计算模块835,用于计算相似词对集对应的相似词对向量集。
如图12b所示,在一个实施例中,第一计算模块833包括:
第一词向量获取单元833A,用于根据公共词词集中的公共词分别从待标注文本词向量集和已标注文本词向量集中获取对应于该公共词的词向量。
公共词词向量计算单元833B,用于将待标注文本词向量集中对应于该公共词的词向量和已标注文本词向量集中对应于该公共词的词向量相加后取平均向量作为公共词词集中的公共词对应的词向量,公共词词集中全部的公共词对应的词向量组成公共词词向量集。
如图13所示,在一个实施例中,词对获取模块834包括:
相似词获取单元834A,用于根据公共词集中的公共词从待标注文本词集中获取最相似于该公共词的相似第一词,从已标注文本词集中获取最相似于该公共词的相似第二词。
词对获取单元834B,用于将相似第一词和相似第二词组成相似词对,公共词词集中全部的公共词对应的相似词对组成公共词词集对应的相似词对集。
在一个实施例中,相似词获取单元834A包括:第一获取子单元,用于从待标注文本词向量集中剔除与公共词词向量集中的词向量相同的词向量以获得第一文本词向量集,计算公共词词向量集中的词向量与第一文本词向量集中的各个词向量对应的余弦相似度,根据余弦相似度最大原则从第一文本词向量集中获取第一目标词向量,将第一目标词向量所对应的词作为相似第一词;第二获取子单元,用于从已标注文本词向量集中剔除与公共词词向量集中的词向量相同的词向量以获得第二文本词向量集,计算公共词词向量集中的词向量与第二文本词向量集中的各个词向量对应的余弦相似度,根据余弦相似度最大原则从第二文本词向量集中获取第二目标词向量,将第二目标词向量所对应的词作为相似第二词。
如图14所示,在一个实施例中,第二计算模块835包括:
相似词词向量获取单元835A,用于从待标注文本词向量集中获取对于相似第一词的词向量,从已标注文本词向量集中获取对应于相似第二词的词向量。
词对向量计算单元835B,用于将相似第一词的词向量和相似第二词的词向量相加后取平均向量作为相似词对对应的向量,全部的相似词对对应的向量组成相似词对向量集。
如图15所示,在一个实施例中,文本向量映射模块840包括:
相似词替换模块842,用于利用相似词对来替换待标注文本词集中对应的相似第一词和已标注文本词集中对应的相似第二词。
词确定模块844,用于根据替换后的待标注文本词集、替换后的已标注文本词集对应确定待标注文本、已标注文本中各条文本所包括的公共词词集中的公共词和相似词对集中的相似词对。
对应向量获取模块846,用于根据待标注文本中的每条文本分别从公共词词向量集中获取对应于该条文本所包括的公共词的词向量作为第一对应向量,从相似词对向量集中获取对应于该条文本所包括的相似词对的向量作为第二对应向量,根据已标注文本中的每条文本分别从公共词词向量集中获取对应于该条文本所包括的公共词的词向量作为第三对应向量,从相似词对向量集中获取对应于该条文本所包括的相似词对的向量作为第四对应向量。
文本向量计算模块848,用于将获取的第一对应向量和第二对应向量相加后取平均向量作为待标注文本中的对应文本的向量,将获取的第三对应向量和第四对应向量相加后取平均向量作为已标注文本中的对应文本的向量,待标注文本中的全部文本的向量组成待标注文本向量集,已标注文本中的全部文本的向量组成已标注文本向量集。
如图16所示,为一个实施例中计算机设备的内部结构示意图。该计算机设备用于实现一种文本情感分类方法。该计算机设备可以是终端,其中,终端可以是智能手机、平板电脑、笔记本电脑、台式电脑等电子设备中的至少一种。参照图16,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、内存储器和网络接口。其中,该计算机设备的非易失性存储介质可存储操作系统和计算机程序,该计算机程序被执行时,可使得处理器执行一种文本情感分类方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该内存储器中可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行一种文本情感分类方法。计算机设备的网络接口用于进行网络通信。本领域技术人员可以理解,图16中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的文本情感分类装置可以实现为一种计算机程序的形式,计算机程序可在如图16所示的计算机设备上运行,计算机设备的非易失性存储介质可存储组成文本情感分类装置的各个程序模块。各个程序模块中包括计算机程序,计算机程序用于使计算机设备执行本说明书中描述的本申请各个实施例的文本情感分类方法中的步骤,计算机设备中的处理器能够调用计算机设备的非易失性存储介质中存储的文本情感分类装置的各个程序模块,运行对应的可读指令,实现本说明书中文本情感分类装置的各个模块对应的功能。
在一个实施例中,提出了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如下步骤:获取待标注文本、已标注文本和已标注文本对应的情感分类标签;分别对待标注文本和已标注文本进行词处理得到对应的待标注文本词集和已标注文本词集,根据待标注文本词集和已标注文本词集得到公共词词集;分别对待标注文本词集和已标注文本词集进行词映射得到对应的待标注文本词向量集和已标注文本词向量集,计算公共词词集对应的公共词词向量集,获取公共词词集对应的相似词对集,计算相似词对集对应的相似词对向量集;根据公共词词向量集和相似词对向量集分别对待标注文本和已标注文本进行文本映射得到对应的待标注文本向量集和已标注文本向量集;对已标注文本向量集和已标注文本向量集对应的已标注文本的情感分类标签进行训练得到分类模型,将待标注文本向量集输入分类模型进行预测以得到待标注文本向量集对应的待标注文本的情感分类标签。
在一个实施例中,获取待标注文本、已标注文本和已标注文本对应的情感分类标签的步骤,包括:从第一领域获取待标注文本;从第一领域或第二领域获取已标注文本和已标注文本对应的情感分类标签,第一领域和第二领域为不同类型的领域。
在一个实施例中,分别对待标注文本和已标注文本进行词处理得到对应的待标注文本词集和已标注文本词集的步骤,包括:分别对待标注文本和已标注文本进行分词和词性标注;从所分的词中剔除停止词后得到待标注文本词集和已标注文本词集。
在一个实施例中,根据待标注文本词集和已标注文本词集得到公共词词集的步骤,包括:统计同时属于待标注文本词集和已标注文本词集的公共词;计算公共词的综合词频;根据综合词频对公共词进行排序,从大到小提取预设数量的公共词组成公共词词集。
在一个实施例中,计算公共词词集对应的公共词词向量集的步骤,包括:根据公共词词集中的公共词分别从待标注文本词向量集和已标注文本词向量集中获取对应于该公共词的词向量;将待标注文本词向量集中对应于该公共词的词向量和已标注文本词向量集中对应于该公共词的词向量相加后取平均向量作为公共词词集中的公共词对应的词向量,公共词词集中全部的公共词对应的词向量组成公共词词向量集。
在一个实施例中,获取公共词词集对应的相似词对集的步骤,包括:根据公共词词集中的公共词从待标注文本词集中获取最相似于该公共词的相似第一词,从已标注文本词集中获取最相似于该公共词的相似第二词;将相似第一词和相似第二词组成相似词对,公共词词集中全部的公共词对应的相似词对组成公共词词集对应的相似词对集。
在一个实施例中,根据公共词词集中的公共词从待标注文本词集中获取最相似于该公共词的相似第一词,从已标注文本词集中获取最相似于该公共词的相似第二词的步骤,包括:从待标注文本词向量集中剔除与公共词词向量集中的词向量相同的词向量以获得第一文本词向量集,计算公共词词向量集中的词向量与第一文本词向量集中的各个词向量对应的余弦相似度,根据余弦相似度最大原则从第一文本词向量集中获取第一目标词向量,将第一目标词向量所对应的词作为相似第一词;从已标注文本词向量集中剔除与公共词词向量集中的词向量相同的词向量以获得第二文本词向量集,计算公共词词向量集中的词向量与第二文本词向量集中的各个词向量对应的余弦相似度,根据余弦相似度最大原则从第二文本词向量集中获取第二目标词向量,将第二目标词向量所对应的词作为相似第二词。
在一个实施例中,计算相似词对集对应的相似词对向量集的步骤,包括:从待标注文本词向量集中获取对于相似第一词的词向量,从已标注文本词向量集中获取对应于相似第二词的词向量;将相似第一词的词向量和相似第二词的词向量相加后取平均向量作为相似词对对应的向量,全部的相似词对对应的向量组成相似词对向量集。
在一个实施例中,根据公共词词向量集和相似词对向量集分别对待标注文本和已标注文本进行文本映射得到对应的待标注文本向量集和已标注文本向量集的步骤,包括:利用相似词对来替换待标注文本词集中对应的相似第一词和已标注文本词集中对应的相似第二词;根据替换后的待标注文本词集、替换后的已标注文本词集对应确定待标注文本、已标注文本中各条文本所包括的公共词词集中的公共词和相似词对集中的相似词对;根据待标注文本中的每条文本分别从公共词词向量集中获取对应于该条文本所包括的公共词的词向量作为第一对应向量,从相似词对向量集中获取对应于该条文本所包括的相似词对的向量作为第二对应向量,根据已标注文本中的每条文本分别从公共词词向量集中获取对应于该条文本所包括的公共词的词向量作为第三对应向量,从相似词对向量集中获取对应于该条文本所包括的相似词对的向量作为第四对应向量;将获取的第一对应向量和第二对应向量相加后取平均向量作为待标注文本中的对应文本的向量,将获取的第三对应向量和第四对应向量相加后取平均向量作为已标注文本中的对应文本的向量,待标注文本中的全部文本的向量组成待标注文本向量集,已标注文本中的全部文本的向量组成已标注文本向量集。
在一个实施例中,提出了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如下步骤:获取待标注文本、已标注文本和已标注文本对应的情感分类标签;分别对待标注文本和已标注文本进行词处理得到对应的待标注文本词集和已标注文本词集,根据待标注文本词集和已标注文本词集得到公共词词集;分别对待标注文本词集和已标注文本词集进行词映射得到对应的待标注文本词向量集和已标注文本词向量集,计算公共词词集对应的公共词词向量集,获取公共词词集对应的相似词对集,计算相似词对集对应的相似词对向量集;根据公共词词向量集和相似词对向量集分别对待标注文本和已标注文本进行文本映射得到对应的待标注文本向量集和已标注文本向量集;对已标注文本向量集和已标注文本向量集对应的已标注文本的情感分类标签进行训练得到分类模型,将待标注文本向量集输入分类模型进行预测以得到待标注文本向量集对应的待标注文本的情感分类标签。
在一个实施例中,获取待标注文本、已标注文本和已标注文本对应的情感分类标签的步骤,包括:从第一领域获取待标注文本;从第一领域或第二领域获取已标注文本和已标注文本对应的情感分类标签,第一领域和第二领域为不同类型的领域。
在一个实施例中,分别对待标注文本和已标注文本进行词处理得到对应的待标注文本词集和已标注文本词集的步骤,包括:分别对待标注文本和已标注文本进行分词和词性标注;从所分的词中剔除停止词后得到待标注文本词集和已标注文本词集。
在一个实施例中,根据待标注文本词集和已标注文本词集得到公共词词集的步骤,包括:统计同时属于待标注文本词集和已标注文本词集的公共词;计算公共词的综合词频;根据综合词频对公共词进行排序,从大到小提取预设数量的公共词组成公共词词集。
在一个实施例中,计算公共词词集对应的公共词词向量集的步骤,包括:根据公共词词集中的公共词分别从待标注文本词向量集和已标注文本词向量集中获取对应于该公共词的词向量;将待标注文本词向量集中对应于该公共词的词向量和已标注文本词向量集中对应于该公共词的词向量相加后取平均向量作为公共词词集中的公共词对应的词向量,公共词词集中全部的公共词对应的词向量组成公共词词向量集。
在一个实施例中,获取公共词词集对应的相似词对集的步骤,包括:根据公共词词集中的公共词从待标注文本词集中获取最相似于该公共词的相似第一词,从已标注文本词集中获取最相似于该公共词的相似第二词;将相似第一词和相似第二词组成相似词对,公共词词集中全部的公共词对应的相似词对组成公共词词集对应的相似词对集。
在一个实施例中,根据公共词词集中的公共词从待标注文本词集中获取最相似于该公共词的相似第一词,从已标注文本词集中获取最相似于该公共词的相似第二词的步骤,包括:从待标注文本词向量集中剔除与公共词词向量集中的词向量相同的词向量以获得第一文本词向量集,计算公共词词向量集中的词向量与第一文本词向量集中的各个词向量对应的余弦相似度,根据余弦相似度最大原则从第一文本词向量集中获取第一目标词向量,将第一目标词向量所对应的词作为相似第一词;从已标注文本词向量集中剔除与公共词词向量集中的词向量相同的词向量以获得第二文本词向量集,计算公共词词向量集中的词向量与第二文本词向量集中的各个词向量对应的余弦相似度,根据余弦相似度最大原则从第二文本词向量集中获取第二目标词向量,将第二目标词向量所对应的词作为相似第二词。
在一个实施例中,计算相似词对集对应的相似词对向量集的步骤,包括:从待标注文本词向量集中获取对于相似第一词的词向量,从已标注文本词向量集中获取对应于相似第二词的词向量;将相似第一词的词向量和相似第二词的词向量相加后取平均向量作为相似词对对应的向量,全部的相似词对对应的向量组成相似词对向量集。
在一个实施例中,根据公共词词向量集和相似词对向量集分别对待标注文本和已标注文本进行文本映射得到对应的待标注文本向量集和已标注文本向量集的步骤,包括:利用相似词对来替换待标注文本词集中对应的相似第一词和已标注文本词集中对应的相似第二词;根据替换后的待标注文本词集、替换后的已标注文本词集对应确定待标注文本、已标注文本中各条文本所包括的公共词词集中的公共词和相似词对集中的相似词对;根据待标注文本中的每条文本分别从公共词词向量集中获取对应于该条文本所包括的公共词的词向量作为第一对应向量,从相似词对向量集中获取对应于该条文本所包括的相似词对的向量作为第二对应向量,根据已标注文本中的每条文本分别从公共词词向量集中获取对应于该条文本所包括的公共词的词向量作为第三对应向量,从相似词对向量集中获取对应于该条文本所包括的相似词对的向量作为第四对应向量;将获取的第一对应向量和第二对应向量相加后取平均向量作为待标注文本中的对应文本的向量,将获取的第三对应向量和第四对应向量相加后取平均向量作为已标注文本中的对应文本的向量,待标注文本中的全部文本的向量组成待标注文本向量集,已标注文本中的全部文本的向量组成已标注文本向量集。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (12)
1.一种文本情感分类方法,所述方法包括:
获取待标注文本、已标注文本和所述已标注文本对应的情感分类标签;
分别对所述待标注文本和所述已标注文本进行词处理得到对应的待标注文本词集和已标注文本词集,根据所述待标注文本词集和所述已标注文本词集得到公共词词集;
分别对所述待标注文本词集和所述已标注文本词集进行词映射得到对应的待标注文本词向量集和已标注文本词向量集,计算所述公共词词集对应的公共词词向量集,获取所述公共词词集对应的相似词对集,计算所述相似词对集对应的相似词对向量集;
根据所述公共词词向量集和所述相似词对向量集分别对所述待标注文本和所述已标注文本进行文本映射得到对应的待标注文本向量集和已标注文本向量集;
对所述已标注文本向量集和所述已标注文本向量集对应的已标注文本的情感分类标签进行训练得到分类模型,将所述待标注文本向量集输入所述分类模型进行预测以得到所述待标注文本向量集对应的待标注文本的情感分类标签。
2.根据权利要求1所述的方法,其特征在于,所述获取待标注文本、已标注文本和所述已标注文本对应的情感分类标签的步骤,包括:
从第一领域获取所述待标注文本;
从第一领域或第二领域获取所述已标注文本和所述已标注文本对应的情感分类标签,所述第一领域和第二领域为不同类型的领域。
3.根据权利要求1所述的方法,其特征在于,所述分别对所述待标注文本和所述已标注文本进行词处理得到对应的待标注文本词集和已标注文本词集的步骤,包括:
分别对所述待标注文本和所述已标注文本进行分词和词性标注;
从所分的词中剔除停止词后得到所述待标注文本词集和所述已标注文本词集。
4.根据权利要求1所述的方法,其特征在于,所述根据所述待标注文本词集和所述已标注文本词集得到公共词词集的步骤,包括:
统计同时属于所述待标注文本词集和所述已标注文本词集的公共词;
计算所述公共词的综合词频;
根据所述综合词频对所述公共词进行排序,从大到小提取预设数量的公共词组成公共词词集。
5.根据权利要求1所述的方法,其特征在于,所述计算所述公共词词集对应的公共词词向量集的步骤,包括:
根据所述公共词词集中的公共词分别从所述待标注文本词向量集和所述已标注文本词向量集中获取对应于该公共词的词向量;
将所述待标注文本词向量集中对应于该公共词的词向量和所述已标注文本词向量集中对应于该公共词的词向量相加后取平均向量作为所述公共词词集中的所述公共词对应的词向量,所述公共词词集中全部的公共词对应的词向量组成所述公共词词向量集。
6.根据权利要求1所述的方法,其特征在于,所述获取所述公共词词集对应的相似词对集的步骤,包括:
根据所述公共词词集中的公共词从所述待标注文本词集中获取最相似于该公共词的相似第一词,从所述已标注文本词集中获取最相似于该公共词的相似第二词;
将所述相似第一词和所述相似第二词组成相似词对,所述公共词词集中全部的公共词对应的相似词对组成所述公共词词集对应的相似词对集。
7.根据权利要求6所述的方法,其特征在于,所述根据所述公共词词集中的公共词从所述待标注文本词集中获取最相似于该公共词的相似第一词,从所述已标注文本词集中获取最相似于该公共词的相似第二词的步骤,包括:
从所述待标注文本词向量集中剔除与所述公共词词向量集中的词向量相同的词向量以获得第一文本词向量集,计算所述公共词词向量集中的词向量与所述第一文本词向量集中的各个词向量对应的余弦相似度,根据余弦相似度最大原则从所述第一文本词向量集中获取第一目标词向量,将所述第一目标词向量所对应的词作为所述相似第一词;
从所述已标注文本词向量集中剔除与所述公共词词向量集中的词向量相同的词向量以获得第二文本词向量集,计算所述公共词词向量集中的词向量与所述第二文本词向量集中的各个词向量对应的余弦相似度,根据余弦相似度最大原则从所述第二文本词向量集中获取第二目标词向量,将所述第二目标词向量所对应的词作为所述相似第二词。
8.根据权利要求6所述的方法,其特征在于,所述计算所述相似词对集对应的相似词对向量集的步骤,包括:
从所述待标注文本词向量集中获取对于所述相似第一词的词向量,从所述已标注文本词向量集中获取对应于所述相似第二词的词向量;
将所述相似第一词的词向量和所述相似第二词的词向量相加后取平均向量作为所述相似词对对应的向量,全部的所述相似词对对应的向量组成所述相似词对向量集。
9.根据权利要求8所述的方法,其特征在于,所述根据所述公共词词向量集和所述相似词对向量集分别对所述待标注文本和所述已标注文本进行文本映射得到对应的待标注文本向量集和已标注文本向量集的步骤,包括:
利用所述相似词对来替换所述待标注文本词集中对应的所述相似第一词和所述已标注文本词集中对应的所述相似第二词;
根据替换后的所述待标注文本词集、替换后的所述已标注文本词集对应确定所述待标注文本、所述已标注文本中各条文本所包括的所述公共词词集中的公共词和所述相似词对集中的相似词对;
根据所述待标注文本中的每条文本分别从所述公共词词向量集中获取对应于该条文本所包括的公共词的词向量作为第一对应向量,从所述相似词对向量集中获取对应于该条文本所包括的相似词对的向量作为第二对应向量,根据所述已标注文本中的每条文本分别从所述公共词词向量集中获取对应于该条文本所包括的公共词的词向量作为第三对应向量,从所述相似词对向量集中获取对应于该条文本所包括的相似词对的向量作为第四对应向量;
将获取的所述第一对应向量和所述第二对应向量相加后取平均向量作为所述待标注文本中的对应文本的向量,将获取的所述第三对应向量和所述第四对应向量相加后取平均向量作为所述已标注文本中的对应文本的向量,所述待标注文本中的全部文本的向量组成所述待标注文本向量集,所述已标注文本中的全部文本的向量组成所述已标注文本向量集。
10.一种文本情感分类装置,所述装置包括:
文本获取模块,用于获取待标注文本、已标注文本和所述已标注文本对应的情感分类标签;
词集获取模块,用于分别对所述待标注文本和所述已标注文本进行词处理得到对应的待标注文本词集和已标注文本词集,根据所述待标注文本词集和所述已标注文本词集得到公共词词集;
词向量映射模块,用于分别对所述待标注文本词集和所述已标注文本词集进行词映射得到对应的待标注文本词向量集和已标注文本词向量集,计算所述公共词词集对应的公共词词向量集,获取所述公共词词集对应的相似词对集,计算所述相似词对集对应的相似词对向量集;
文本向量映射模块,用于根据所述公共词词向量集和所述相似词对向量集分别对所述待标注文本和所述已标注文本进行文本映射得到对应的待标注文本向量集和已标注文本向量集;
标签预测模块,用于对所述已标注文本向量集和所述已标注文本向量集对应的已标注文本的情感分类标签进行训练得到分类模型,将所述待标注文本向量集输入所述分类模型进行预测以得到所述待标注文本向量集对应的待标注文本的情感分类标签。
11.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-9任意一项所述的文本情感分类方法的步骤。
12.一种计算机存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9任意一项所述的文本情感分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711059752.5A CN108021609B (zh) | 2017-11-01 | 2017-11-01 | 文本情感分类方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711059752.5A CN108021609B (zh) | 2017-11-01 | 2017-11-01 | 文本情感分类方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108021609A true CN108021609A (zh) | 2018-05-11 |
CN108021609B CN108021609B (zh) | 2020-08-18 |
Family
ID=62080406
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711059752.5A Expired - Fee Related CN108021609B (zh) | 2017-11-01 | 2017-11-01 | 文本情感分类方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108021609B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110633476A (zh) * | 2019-09-27 | 2019-12-31 | 北京百度网讯科技有限公司 | 用于获取知识标注信息的方法及装置 |
CN111191428A (zh) * | 2019-12-27 | 2020-05-22 | 北京百度网讯科技有限公司 | 评论信息处理方法、装置、计算机设备和介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016105803A1 (en) * | 2014-12-24 | 2016-06-30 | Intel Corporation | Hybrid technique for sentiment analysis |
CN105740224A (zh) * | 2014-12-11 | 2016-07-06 | 仲恺农业工程学院 | 一种基于文本分析的用户心理预警方法与装置 |
CN105824922A (zh) * | 2016-03-16 | 2016-08-03 | 重庆邮电大学 | 一种融合深层特征和浅层特征的情感分类方法 |
CN106021578A (zh) * | 2016-06-01 | 2016-10-12 | 南京邮电大学 | 一种基于聚类和隶属度融合的改进型文本分类算法 |
CN106897428A (zh) * | 2017-02-27 | 2017-06-27 | 腾讯科技(深圳)有限公司 | 文本分类特征提取方法、文本分类方法及装置 |
CN107239439A (zh) * | 2017-04-19 | 2017-10-10 | 同济大学 | 基于word2vec的舆情倾向性分析方法 |
-
2017
- 2017-11-01 CN CN201711059752.5A patent/CN108021609B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740224A (zh) * | 2014-12-11 | 2016-07-06 | 仲恺农业工程学院 | 一种基于文本分析的用户心理预警方法与装置 |
WO2016105803A1 (en) * | 2014-12-24 | 2016-06-30 | Intel Corporation | Hybrid technique for sentiment analysis |
CN105824922A (zh) * | 2016-03-16 | 2016-08-03 | 重庆邮电大学 | 一种融合深层特征和浅层特征的情感分类方法 |
CN106021578A (zh) * | 2016-06-01 | 2016-10-12 | 南京邮电大学 | 一种基于聚类和隶属度融合的改进型文本分类算法 |
CN106897428A (zh) * | 2017-02-27 | 2017-06-27 | 腾讯科技(深圳)有限公司 | 文本分类特征提取方法、文本分类方法及装置 |
CN107239439A (zh) * | 2017-04-19 | 2017-10-10 | 同济大学 | 基于word2vec的舆情倾向性分析方法 |
Non-Patent Citations (3)
Title |
---|
NURULHUDA ZAINUDDIN ET AL.: ""Twitter Feature Selection and Classification Using Support Vector Machine for Aspect-Based Sentiment Analysis"", 《INTERNATIONAL CONFERENCE ON INDUSTRIAL, ENGINEERING AND OTHER APPLICATIONS OF APPLIED INTELLIGENT SYSTEMS》 * |
胡学钢 等: ""基于词向量空间模型的中文文本分类方法"", 《合肥工业大学学报(自然科学版)》 * |
魏广顺 等: ""基于词向量模型的情感分析"", 《计算机系统应用》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110633476A (zh) * | 2019-09-27 | 2019-12-31 | 北京百度网讯科技有限公司 | 用于获取知识标注信息的方法及装置 |
CN110633476B (zh) * | 2019-09-27 | 2024-04-05 | 北京百度网讯科技有限公司 | 用于获取知识标注信息的方法及装置 |
CN111191428A (zh) * | 2019-12-27 | 2020-05-22 | 北京百度网讯科技有限公司 | 评论信息处理方法、装置、计算机设备和介质 |
JP2021108098A (ja) * | 2019-12-27 | 2021-07-29 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | レビュー情報の処理方法、装置、コンピュータ機器及び媒体 |
CN111191428B (zh) * | 2019-12-27 | 2022-02-25 | 北京百度网讯科技有限公司 | 评论信息处理方法、装置、计算机设备和介质 |
JP7159248B2 (ja) | 2019-12-27 | 2022-10-24 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | レビュー情報の処理方法、装置、コンピュータ機器及び媒体 |
US11507751B2 (en) | 2019-12-27 | 2022-11-22 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Comment information processing method and apparatus, and medium |
Also Published As
Publication number | Publication date |
---|---|
CN108021609B (zh) | 2020-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Salloum et al. | A survey of Arabic text mining | |
Dahou et al. | Word embeddings and convolutional neural network for arabic sentiment classification | |
CN106919673A (zh) | 基于深度学习的文本情绪分析系统 | |
Demir et al. | Improving named entity recognition for morphologically rich languages using word embeddings | |
CN106776581A (zh) | 基于深度学习的主观性文本情感分析方法 | |
CN103034626A (zh) | 情感分析系统及方法 | |
CN102929861A (zh) | 一种文本情感指数计算方法和系统 | |
CN106126502A (zh) | 一种基于支持向量机的情感分类系统及方法 | |
CN112434164B (zh) | 一种兼顾话题发现和情感分析的网络舆情分析方法及系统 | |
Mukund et al. | A vector space model for subjectivity classification in Urdu aided by co-training | |
CN104573030A (zh) | 一种文本情绪预测方法及装置 | |
CN106227802A (zh) | 一种基于中文自然语言处理和多核分类器的多信源股价预测方法 | |
Matrane et al. | A systematic literature review of Arabic dialect sentiment analysis | |
CN110232124A (zh) | 一种情感分析系统 | |
Philemon et al. | A machine learning approach to multi-scale sentiment analysis of amharic online posts | |
CN108021609A (zh) | 文本情感分类方法、装置、计算机设备和存储介质 | |
Fouadi et al. | Applications of deep learning in Arabic sentiment analysis: research perspective | |
CN110888983B (zh) | 一种正负面情感分析方法、终端设备及存储介质 | |
Klein et al. | A combined approach for extracting financial instrument-specific investor sentiment from weblogs | |
CN116911286A (zh) | 词典构建方法、情感分析方法、装置、设备及存储介质 | |
Shalunts et al. | SentiSAIL: sentiment analysis in English, German and Russian | |
Sweeney et al. | Multi-entity sentiment analysis using entity-level feature extraction and word embeddings approach. | |
Kong et al. | Construction of microblog-specific chinese sentiment lexicon based on representation learning | |
Das et al. | Sentence level emotion tagging | |
Kosmajac et al. | DalTeam@ INLI-FIRE-2017: Native Language Identification using SVM with SGD Training. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200818 Termination date: 20201101 |
|
CF01 | Termination of patent right due to non-payment of annual fee |