CN108763487A - 一种基于Mean Shift的融合词性和句子信息的词表示方法 - Google Patents

一种基于Mean Shift的融合词性和句子信息的词表示方法 Download PDF

Info

Publication number
CN108763487A
CN108763487A CN201810534989.2A CN201810534989A CN108763487A CN 108763487 A CN108763487 A CN 108763487A CN 201810534989 A CN201810534989 A CN 201810534989A CN 108763487 A CN108763487 A CN 108763487A
Authority
CN
China
Prior art keywords
vector
speech
context
word
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810534989.2A
Other languages
English (en)
Other versions
CN108763487B (zh
Inventor
邓辉舫
赖港明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201810534989.2A priority Critical patent/CN108763487B/zh
Publication of CN108763487A publication Critical patent/CN108763487A/zh
Application granted granted Critical
Publication of CN108763487B publication Critical patent/CN108763487B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于Mean Shift的融合词性和句子信息的词表示方法,包括步骤:1)对语料进行分词和词性标注;2)使用skim‑gram、CROW方法训练得到字词联合向量;3)通过使用skim‑gram、CROW方法训练直接得到词性向量或使用属于同一词性的所有词向量的平均值作为词性向量;4)用Attention机制和词性向量生成句子向量,进行主分析主成分PCA;5)对上下文矩阵进行Mean Shift聚类,对Top‑K聚类中心进行加权求和后得到上下文向量;6)对字词联合向量、词性向量和上下文向量加权求和得到最终的词向量表示。本发明实现的词表示方法,融合了词性信息和句子信息,利用了已有的词性标注信息和去噪后的上下文向量,不依赖于特定领域和语料,具有较低的成本和较强的实用性。

Description

一种基于Mean Shift的融合词性和句子信息的词表示方法
技术领域
本发明涉及词向量、深度学习和自然语言处理的技术领域,尤其是指一种基于Mean Shift的融合词性和句子信息的词表示方法。
背景技术
词向量即使用向量对词进行表示,通常被认为是词的特征表示。主流的词表示技术主要分为:基于矩阵的词表示技术、基于聚类的词表示技术和基于神经网络的词表示技术。其中基于神经网络的表示方法以Skip-gram和CBOW为代表,其本质思想是:Harris在1954年提出的分布假说——上下文相似的词,其语义也相似。词向量能在一定程度上解决语义鸿沟现象。在自然语言处理领域,词向量作为深度学习的特征输入,其质量直接影响上层深度模型的效果。传统的词表示模型在给定窗口的词共现信息上进行训练,而忽略了句子信息对词向量本身的反作用,导致词表示的信息建模不完整。
传统的自然语言处理技术包括:分词、词性标注、命名实体识别、情感分析和文本分类等。其中的分词和词性标注耗费了巨大的资源进行人工标注,取得了较好的成果。词性,作为词表示的重要组成部分,其极大地影响词的语义,将已有词性标注信息融入词向量能从词性的角度对词表示进行建模。
发明内容
本发明的目的在于克服现有词表示技术的缺点与不足,提出了一种基于MeanShift的融合词性和句子信息的词表示方法,从词性和句子侧面为词向量表示补充额外的信息,从而使得词向量在单词类比和词相似度方面有较大的提高,进一步缓解词语的语义鸿沟现象。
为实现上述目的,本发明所提供的技术方案为:一种基于Mean Shift的融合词性和句子信息的词表示方法,包括以下步骤:
1)对语料进行分词和词性标注;
2)使用skim-gram、CROW方法训练得到字词联合向量;
3)通过使用skim-gram、CROW方法训练直接得到词性向量或使用属于同一词性的所有词向量的平均值作为词性向量;
4)用Attention机制和词性向量生成句子向量,进行主分析主成分PCA;
5)对上下文矩阵进行Mean Shift聚类,对Top-K聚类中心进行加权求和后得到上下文向量;
6)对字词联合向量、词性向量和上下文向量加权求和得到最终的词向量表示。
在步骤1)中,所述的词性标注包括1998年和2014年人民日报标注语料,采用的词性标注工具有jieba、HanLP和NLPIR。
在步骤2)中,使用skim-gram、CROW方法训练词向量和字向量得到字词联合向量,包括以下步骤:
2.1)进行数据清理,去除步骤1)生成的词序列中的标点符号、特殊字符;
2.2)使用skip-gram或CBOW方法分别训练得到词向量wi,字向量ci
2.3)对步骤2.2)生成的字向量和词向量进行加权求和,得到的字词联合向量:
其中,ui为字词联合向量,wi为词语i的词向量,ci为词语i包含的字向量,|ci|为词语i包含的字的个数,α为模型的超参数,为字向量的占比。
在步骤3)中,使用两种方法生成词性向量,方法一是直接对词性标注序列,使用skim-gram、CROW方法训练词性向量,训练参数设置和步骤2)一致;方法二是使用步骤2)生成的字词联合向量,对于每一类词性使用属于该词性的所有词的向量的平均值作为该词性的向量表示;方法一和方法二得到的词性向量记为:POS(ui)。
在步骤4)中,统计词对应的上下文,用Attention机制和词性向量生成句子向量,对句子向量进行主分析主成分PCA,得到低维的上下文矩阵,包括以下步骤:
4.1)计算词对应的上下文矩阵,矩阵中的每一行代表一个词上下文,计算公式如下:
其中,代表字词联合词向量ui的第j个上下文,代表字词联合词向量ui的第j个上下文的长度,u是上下文中的某一个词的字词联合向量,β为模型的超参数,范围在[10-3-10-4]最合适,P(u)为语料中字词联合向量u的词频,POS(u)为字词联合向量u对应的词性向量,由步骤2)获得。
4.2)对步骤4.1)生成的每一个词对应的上下文矩阵进行主成分分析PCA,提取经过PCA后的上下文矩阵的第一主元素,对上下文矩阵中每一个元素进行更新,计算公式如下:
其中,代表字词联合词向量ui的第j个上下文,v为PCA变换矩阵的第一主元素,vT为v的转置向量。
在步骤5)中,对上下文矩阵进行Mean Shift聚类,获取Top-K聚类中心,对聚类中心进行加权求和后得到词的上下文向量。计算公式如下:
其中,Context(ui)为字词联合向量ui对应的上下文向量,为经过MeanShift聚类后的第j个聚类中心,rj为聚类类别j的占比,K为聚类类别包含的元素最多的前K个。
在步骤6)中,对得到的字词联合向量、词性向量和上下文向量使用矩阵汇总保留,矩阵形式如下所示:
其中,WR(wi)为最终保留上下文和概率的词矩阵,U为步骤2)生成的字词联合向量ui,S为步骤5)生成的上下文向量Context(ui),r为上下文向量的概率,即步骤5)对应的聚类类别占比rj
为了转化为常用的词向量形式,设计以下两种方式的降维表示:
方法一:加权求和得到最终的词向量表示;通过更改ρ的比例适应不同的需求,若需要寻找与目标词词性相近的词语则提高ρ2的比例;需寻找上下文相近的词语则提高ρ3的比例;计算公式如下:
其中,Wi为最终的词向量表示,ρ1、ρ2和ρ3为模型的超参数,分别为字词联合向量、词性向量和上下文向量的建模比例;
方法二:使用上下文向量的最大值作为词上下文的代表;很多情况下,只关心词在最常用语境下的语义,因此选取出现的上下文概率最大的上下文向量即可;计算公式如下:
其中,rk为聚类类别k的占比,j为最大rk对应的类,为经过Mean Shift聚类后的第j个聚类中心,ρ1、ρ2和ρ3为模型的超参数,分别为字词联合向量、词性向量和上下文向量的建模比例。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明将词性标注信息和句子信息融合到词向量表示中,使用同一向量空间表示字、词、词性和上下文,能提高词向量的表示能力。
2、使用PCA技术对句子矩阵进行主成分分析,经过Mean Shift聚类后提取常用的句子语境,本质上的思想就是:去噪,只保留高频使用的top-k种词义,提高了词表示的质量,缓解语义鸿沟现象。
3、本发明可组合不同的词向量,寻找与目标词词性相近的词或上下文相近的词,拓展了词向量的使用场景。
4、本发明显式地保留词的上下文向量及其出现频率,可用于词的歧义消除等后续的自然语言处理任务。
附图说明
图1为本发明方法的流程示意图。
图2为本发明的Mean Shift聚类图。
图3为本发明的词表示模型图。
具体实施方式
下面结合具体实施例对本发明做进一步说明。
本实施例所提供的基于Mean Shift的融合词性和句子信息的词表示方法,包括以下步骤:
1)对语料进行人工或者使用词性标注工具进行分词和词性标注;所述的人工词性标注包括:1998年和2014年人民日报标注语料等。词性标注工具包括:jieba、HanLP和NLPIR等。
2)使用skim-gram、CROW等方法训练词向量和字向量,得到字词联合向量。其中包括以下步骤:
2.1)进行数据清理,去除步骤1)生成的词序列中的标点符号、特殊字符。
2.2)使用同样的skip-gram或CBOW等方法分别训练得到词向量wi,字向量ci,指定的调优参数包括:向量维度、负采样率、最低词频和上下文窗口大小等。
2.3)对步骤2.2)生成的字向量和词向量进行加权求和,得到的字词联合向量:
其中,ui为字词联合向量,wi为词语i的词向量,ci为词语i包含的字向量,|ci|为词语i包含的字的个数,α为模型的超参数,为字向量的占比。
3)使用两种方法生成词性向量,方法一是直接对词性标注序列,使用skim-gram、CROW等方法训练词性向量,训练参数设置和步骤2)一致;方法二是使用步骤2)生成的字词联合向量,对于每一类词性使用属于该词性的所有词的向量的平均值作为该词性的向量表示。方法一和方法二得到的词性向量记为:POS(ui)。
4)统计词对应的上下文,用Attention机制和词性向量生成句子向量,对句子向量进行主分析主成分(PCA),得到低维的上下文矩阵,包括以下步骤:
4.1)计算词对应的上下文矩阵,矩阵中的每一行代表一个词上下文,计算公式如下:
其中,代表字词联合词向量ui的第j个上下文,代表字词联合词向量ui的第j个上下文的长度,u是上下文中的某一个词的字词联合向量,β为模型的超参数,范围在[10-3-10-4]最合适,P(u)为语料中字词联合向量u的词频,POS(u)为字词联合向量u对应的词性向量,由步骤2)获得。
4.2)对步骤4.1)生成的每一个词对应的上下文矩阵进行主成分分析(PCA),提取经过PCA后的上下文矩阵的第一主元素,对上下文矩阵中每一个元素进行更新,计算公式如下:
其中,代表字词联合词向量ui的第j个上下文,v为PCA变换矩阵的第一主元素,vT为v的转置向量。
5)对上下文矩阵进行Mean Shift聚类,获取Top-K聚类中心,对聚类中心进行加权求和后得到词的上下文向量。计算公式如下:
其中,Context(ui)为字词联合向量ui对应的上下文向量,为经过MeanShift聚类后的第j个聚类中心,rj为聚类类别j的占比,K为聚类类别包含的元素最多的前K个。
6)对得到的字词联合向量、词性向量和上下文向量使用矩阵汇总保留,使用矩阵的形式显式地保留。矩阵形式如下所示:
其中,WR(wi)为最终保留上下文和概率的词矩阵,U为步骤2)生成的字词联合向量ui,S为步骤5)生成的上下文向量Context(ui),r为上下文向量的概率,即步骤5)对应的聚类类别占比rj
为了转化为常用的词向量形式,设计了以下两种方式的降维表示:
方法一:加权求和得到最终的词向量表示。通过更改ρ的比例适应不同的需求,如需要寻找与目标词词性相近的词语则提高ρ2的比例;需寻找上下文相近的词语则提高ρ3的比例。计算公式如下:
其中,Wi为最终的词向量表示,ρ1、ρ2和ρ3为模型的超参数,分别为字词联合向量、词性向量和上下文向量的建模比例。
方法二:使用上下文向量的最大值作为词上下文的代表。很多情况下,只关心词在最常用语境下的语义,因此选取出现的上下文概率最大的上下文向量即可。计算公式如下:
其中,rk为聚类类别k的占比,j为最大rk对应的类,为经过Mean Shift聚类后的第j个聚类中心,ρ1、ρ2和ρ3为模型的超参数,分别为字词联合向量、词性向量和上下文向量的建模比例。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (7)

1.一种基于Mean Shift的融合词性和句子信息的词表示方法,其特征在于,包括以下步骤:
1)对语料进行分词和词性标注;
2)使用skim-gram、CROW方法训练得到字词联合向量;
3)通过使用skim-gram、CROW方法训练直接得到词性向量或使用属于同一词性的所有词向量的平均值作为词性向量;
4)用Attention机制和词性向量生成句子向量,进行主分析主成分PCA;
5)对上下文矩阵进行Mean Shift聚类,对Top-K聚类中心进行加权求和后得到上下文向量;
6)对字词联合向量、词性向量和上下文向量加权求和得到最终的词向量表示。
2.根据权利要求1所述的一种基于Mean Shift的融合词性和句子信息的词表示方法,其特征在于:在步骤1)中,所述的词性标注包括1998年和2014年人民日报标注语料,采用的词性标注工具有jieba、HanLP和NLPIR。
3.根据权利要求1所述的一种基于Mean Shift的融合词性和句子信息的词表示方法,其特征在于:在步骤2)中,使用skim-gram、CROW方法训练词向量和字向量得到字词联合向量,包括以下步骤:
2.1)进行数据清理,去除步骤1)生成的词序列中的标点符号、特殊字符;
2.2)使用skip-gram或CBOW方法分别训练得到词向量wi,字向量ci
2.3)对步骤2.2)生成的字向量和词向量进行加权求和,得到的字词联合向量:
其中,ui为字词联合向量,wi为词语i的词向量,ci为词语i包含的字向量,|ci|为词语i包含的字的个数,α为模型的超参数,为字向量的占比。
4.根据权利要求1所述的一种基于Mean Shift的融合词性和句子信息的词表示方法,其特征在于:在步骤3)中,使用两种方法生成词性向量,方法一是直接对词性标注序列,使用skim-gram、CROW方法训练词性向量,训练参数设置和步骤2)一致;方法二是使用步骤2)生成的字词联合向量,对于每一类词性使用属于该词性的所有词的向量的平均值作为该词性的向量表示;方法一和方法二得到的词性向量记为:POS(ui)。
5.根据权利要求1所述的一种基于Mean Shift的融合词性和句子信息的词表示方法,其特征在于:在步骤4)中,统计词对应的上下文,用Attention机制和词性向量生成句子向量,对句子向量进行主分析主成分PCA,得到低维的上下文矩阵,包括以下步骤:
4.1)计算词对应的上下文矩阵,矩阵中的每一行代表一个词上下文,计算公式如下:
其中,代表字词联合词向量ui的第j个上下文,代表字词联合词向量ui的第j个上下文的长度,u是上下文中的某一个词的字词联合向量,β为模型的超参数,范围在[10-3-10-4]最合适,P(u)为语料中字词联合向量u的词频,POS(u)为字词联合向量u对应的词性向量,由步骤2)获得。
4.2)对步骤4.1)生成的每一个词对应的上下文矩阵进行主成分分析PCA,提取经过PCA后的上下文矩阵的第一主元素,对上下文矩阵中每一个元素进行更新,计算公式如下:
其中,代表字词联合词向量ui的第j个上下文,v为PCA变换矩阵的第一主元素,vT为v的转置向量。
6.根据权利要求1所述的一种基于Mean Shift的融合词性和句子信息的词表示方法,其特征在于:在步骤5)中,对上下文矩阵进行Mean Shift聚类,获取Top-K聚类中心,对聚类中心进行加权求和后得到词的上下文向量。计算公式如下:
其中,Context(ui)为字词联合向量ui对应的上下文向量,为经过MeanShift聚类后的第j个聚类中心,rj为聚类类别j的占比,K为聚类类别包含的元素最多的前K个。
7.根据权利要求1所述的一种基于Mean Shift的融合词性和句子信息的词表示方法,其特征在于:在步骤6)中,对得到的字词联合向量、词性向量和上下文向量使用矩阵汇总保留,矩阵形式如下所示:
其中,WR(wi)为最终保留上下文和概率的词矩阵,U为步骤2)生成的字词联合向量ui,S为步骤5)生成的上下文向量Context(ui),r为上下文向量的概率,即步骤5)对应的聚类类别占比rj
为了转化为常用的词向量形式,设计以下两种方式的降维表示:
方法一:加权求和得到最终的词向量表示;通过更改ρ的比例适应不同的需求,若需要寻找与目标词词性相近的词语则提高ρ2的比例;需寻找上下文相近的词语则提高ρ3的比例;计算公式如下:
其中,Wi为最终的词向量表示,ρ1、ρ2和ρ3为模型的超参数,分别为字词联合向量、词性向量和上下文向量的建模比例;
方法二:使用上下文向量的最大值作为词上下文的代表;很多情况下,只关心词在最常用语境下的语义,因此选取出现的上下文概率最大的上下文向量即可;计算公式如下:
其中,rk为聚类类别k的占比,j为最大rk对应的类,为经过MeanShift聚类后的第j个聚类中心,ρ1、ρ2和ρ3为模型的超参数,分别为字词联合向量、词性向量和上下文向量的建模比例。
CN201810534989.2A 2018-05-30 2018-05-30 一种基于Mean Shift的融合词性和句子信息的词表示方法 Expired - Fee Related CN108763487B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810534989.2A CN108763487B (zh) 2018-05-30 2018-05-30 一种基于Mean Shift的融合词性和句子信息的词表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810534989.2A CN108763487B (zh) 2018-05-30 2018-05-30 一种基于Mean Shift的融合词性和句子信息的词表示方法

Publications (2)

Publication Number Publication Date
CN108763487A true CN108763487A (zh) 2018-11-06
CN108763487B CN108763487B (zh) 2021-08-10

Family

ID=64003786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810534989.2A Expired - Fee Related CN108763487B (zh) 2018-05-30 2018-05-30 一种基于Mean Shift的融合词性和句子信息的词表示方法

Country Status (1)

Country Link
CN (1) CN108763487B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110517747A (zh) * 2019-08-30 2019-11-29 志诺维思(北京)基因科技有限公司 病理数据处理方法、装置及电子设备
CN114943235A (zh) * 2022-07-12 2022-08-26 长安大学 一种基于多类语言模型的命名实体识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227721A (zh) * 2016-08-08 2016-12-14 中国科学院自动化研究所 汉语韵律层级结构预测系统
CN106502994A (zh) * 2016-11-29 2017-03-15 上海智臻智能网络科技股份有限公司 一种文本的关键词提取的方法和装置
CN107291693A (zh) * 2017-06-15 2017-10-24 广州赫炎大数据科技有限公司 一种改进词向量模型的语义计算方法
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法
US10509860B2 (en) * 2016-02-10 2019-12-17 Weber State University Research Foundation Electronic message information retrieval system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10509860B2 (en) * 2016-02-10 2019-12-17 Weber State University Research Foundation Electronic message information retrieval system
CN106227721A (zh) * 2016-08-08 2016-12-14 中国科学院自动化研究所 汉语韵律层级结构预测系统
CN106502994A (zh) * 2016-11-29 2017-03-15 上海智臻智能网络科技股份有限公司 一种文本的关键词提取的方法和装置
CN107291693A (zh) * 2017-06-15 2017-10-24 广州赫炎大数据科技有限公司 一种改进词向量模型的语义计算方法
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MOHAMMED SENOUSSAOUI ET AL: "A Study of the Cosine Distance-Based Mean Shift for Telephone Speech Diarization", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110517747A (zh) * 2019-08-30 2019-11-29 志诺维思(北京)基因科技有限公司 病理数据处理方法、装置及电子设备
CN110517747B (zh) * 2019-08-30 2022-06-03 志诺维思(北京)基因科技有限公司 病理数据处理方法、装置及电子设备
CN114943235A (zh) * 2022-07-12 2022-08-26 长安大学 一种基于多类语言模型的命名实体识别方法

Also Published As

Publication number Publication date
CN108763487B (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
CN108763353B (zh) 基于规则和远程监督的百度百科关系三元组抽取方法
CN108804417A (zh) 一种基于特定领域情感词的文档级情感分析方法
WO2019080863A1 (zh) 文本情感分类方法、存储介质及计算机
CN106919673A (zh) 基于深度学习的文本情绪分析系统
CN106776581A (zh) 基于深度学习的主观性文本情感分析方法
CN105844424A (zh) 基于网络评论的产品质量问题发现及风险评估方法
CN107688576B (zh) 一种cnn-svm模型的构建及倾向性分类方法
CN102929861A (zh) 一种文本情感指数计算方法和系统
CN113901229B (zh) 基于句法图卷积的汉越双语新闻事件因果关系抽取方法
CN107943786A (zh) 一种中文命名实体识别方法及系统
CN109492105A (zh) 一种基于多特征集成学习的文本情感分类方法
CN110119443A (zh) 一种面向推荐服务的情感分析方法
CN109492168A (zh) 一种基于旅游照片的可视化旅游兴趣推荐信息生成方法
CN109871449A (zh) 一种基于语义描述的端到端的零样本学习方法
Sazzed A hybrid approach of opinion mining and comparative linguistic analysis of restaurant reviews
CN110472245A (zh) 一种基于层次化卷积神经网络的多标记情绪强度预测方法
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
CN115017903A (zh) 文档层次结构联合全局局部信息抽取关键短语方法及系统
Jotheeswaran et al. Feature selection using random forest method for sentiment analysis
Jiang et al. Biterm pseudo document topic model for short text
CN108763487A (zh) 一种基于Mean Shift的融合词性和句子信息的词表示方法
CN106227802A (zh) 一种基于中文自然语言处理和多核分类器的多信源股价预测方法
CN109033087A (zh) 计算文本语义距离的方法、去重方法、聚类方法以及装置
Lê et al. On Vietnamese sentiment analysis: a transfer learning method
CN106021413B (zh) 基于主题模型的自展式特征选择方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210810

CF01 Termination of patent right due to non-payment of annual fee