CN106055633A - 一种中文微博主客观句分类方法 - Google Patents
一种中文微博主客观句分类方法 Download PDFInfo
- Publication number
- CN106055633A CN106055633A CN201610367978.0A CN201610367978A CN106055633A CN 106055633 A CN106055633 A CN 106055633A CN 201610367978 A CN201610367978 A CN 201610367978A CN 106055633 A CN106055633 A CN 106055633A
- Authority
- CN
- China
- Prior art keywords
- sentence
- subjective
- word
- arbitrary
- objective
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提出了一种中文微博主客观句分类方法,所述方法包括:根据预设的主观句训练语料集和客观句训练语料集形成如下的六个特征集:3‑POS主观模式特征集、句法依存关系特征集、情感词特征集、情感影响因子特征集、语气词及标点符号特征集、字数及链接特征集;根据所述六个特征集,利用支持向量机SVM算法,形成中文微博主客观句分类模型,以利用所述中文微博主客观句分类模型对待测试语句进行主客观句分类。所述方法不但考虑了中文文本的语言学特点,同时也充分利用微博的个性化特征,使得本文所选取的特征更加接近微博本身的语义描述。
Description
技术领域
本发明涉及计算机自然语言处理技术领域,尤其涉及一种中文微博主客观句分类方法。
背景技术
随着互联网技术的发展及其应用的迅猛增长,包括微博、社交网站、即时通讯等在内的一些新型社交媒体正在从根本上改变着人类的生活。网民的增加和微博的发展使得大量主观信息迅速膨胀,仅靠人工的方法难以应对微博海量信息的收集和处理,如何有效地管理和使用这些微博评论信息成为当前的迫切需求。
微博情感分析是目前自然语言处理中的一个重要研究领域,其主要目的就是从用户发布的微博信息中识别主观信息,挖掘出用户的观点以及情感倾向性。因此,有效的识别微博用户表达主观意见、态度的内容,是实现微博情感分析的重要前提。
发明内容
本发明要解决的技术问题是,提供一种中文微博主客观句分类方法,能够大幅度的提高分类精准度。
本发明采用的技术方案是,所述中文微博主客观句分类方法,包括:
根据预设的主观句训练语料集和客观句训练语料集形成如下的六个特征集:3-POS主观模式特征集、句法依存关系特征集、情感词特征集、情感影响因子特征集、语气词及标点符号特征集、字数及链接特征集;
根据所述六个特征集,利用支持向量机SVM算法,形成中文微博主客观句分类模型,以利用所述中文微博主客观句分类模型对待测试语句进行主客观句分类。
进一步的,所述根据预设的主观句训练语料集和客观句训练语料集形成3-POS主观模式特征集,包括:
对所述主观句训练语料集和客观句训练语料集中的每个句子进行词语划分;并对所述词语划分后的每个词语进行词性标注;将所述每个句子中任意连续三个词语的词性构成一个3-POS模式;提取出所述每个句子中包含的所有不同的3-POS模式;
针对提取出的任一3-POS模式,计算所述任一3-POS模式在主观句训练语料集中的卡方统计量值与所述任一3-POS模式在客观句训练语料集中的卡方统计量值的差值;若所述任一3-POS模式对应的所述差值大于第一预设阈值,则将所述任一3-POS模式存入3-POS主观模式特征集中。
进一步的,针对所述主观句训练语料集和客观句训练语料集中的任一训练语料集J中的任一3-POS模式P,所述3-POS模式P的卡方统计量值K按照如下公式计算得出:
其中,N表示训练语料集J中包含的句子总数;
A表示在训练语料集J中,包含3-POS模式P的句子的总数;
B表示不在训练语料集J中,但是包含3-POS模式P的句子的总数;
C表示在训练语料集J中,不包含3-POS模式P的句子的总数;
D表示不在训练语料集J中,也不包含3-POS模式P的句子的总数。
进一步的,所述根据预设的主观句训练语料集和客观句训练语料集形成句法依存关系特征集,包括:
步骤1:针对所述主观句训练语料集和客观句训练语料集中的任一句子,找出所述任一句子的中心词以及与所述中心词有依存关系的依存词;
步骤2:逐一确定所述任一句子中的中心词与各个依存词的结构关系,将与所述中心词的结构关系为连动结构关系、独立分句结构关系或依存分句结构关系的依存词也设置为中心词;
步骤3:重复步骤2直至所述任一句子中没有中心词与依存词之间存在连动结构关系、独立分句结构和依存分句结构关系;
步骤4:针对所述任一句子中的任一中心词,按照“所述任一中心词前面的词与所述任一中心词的结构关系+任一中心词+所述任一中心词后面的词与所述任一中心词的结构关系”形成一个句法依存关系模式;提取出所述任一句子中包含的所有句法依存关系模式;
步骤5:针对提取出的所述任一句法依存关系模式,计算所述任一句法依存关系模式在所述主观句训练语料集中出现的次数Ns和在所述客观句训练语料集中出现的次数NO;若所述任一句法依存关系模式的NS大于第二预设阈值,且所述任一句法依存关系模式的NO小于第二预设阈值,则将所述任一句法依存关系模式存入句法依存关系特征集中。
进一步的,所述情感词特征集,包括:
从所述主观句训练语料集中提取出的反映情感色彩的词语、网络词汇和微博表情符号。
进一步的,所述情感影响因子特征集,包括:
从所述主观句训练语料集中提取出的否定词、程度词和连词。
进一步的,所述语气词及标点符号特征集,包括:
问号、感叹号以及从所述主观句训练语料集中提取出的语气词。
进一步的,所述字数及链接特征集,包括:预设的主观句字数阈值和URL(UniformResoure Locator,统一资源定位器)链接。
采用上述技术方案,本发明至少具有下列优点:
本发明所述的中文微博主客观句分类方法,通过对预设的主观句训练语料 集和客观句训练语料集的预处理分析,提取用于判定中文微博主客观性的六种基本特征,不但考虑了中文文本的语言学特点,同时也充分利用微博的个性化特征,使得本文所选取的特征更加接近微博本身的语义描述。所述方法不仅是对传统文本分类方法的改进,而且更有利于提高分类结果的精确度和工作效率。
附图说明
图1为本发明第一实施例的中文微博主客观句分类方法的流程图;
图2为本发明第二实施例的句法依存关系的示意图。
具体实施方式
为更进一步阐述本发明为达成预定目的所采取的技术手段及功效,以下结合附图及较佳实施例,对本发明进行详细说明如后。
本发明第一实施例,提供一种中文微博主客观句分类方法,如图1所述,具体包括:
步骤S101:根据预设的主观句训练语料集和客观句训练语料集形成如下的六个特征集:3-POS主观模式特征集、句法依存关系特征集、情感词特征集、情感影响因子特征集、语气词及标点符号特征集、字数及链接特征集;
具体的,所述根据预设的主观句训练语料集和客观句训练语料集形成3-POS主观模式特征集,包括:
对所述主观句训练语料集和客观句训练语料集中的每个句子进行词语划分;并对所述词语划分后的每个词语进行词性标注;将所述每个句子中任意连续三个词语的词性构成一个3-POS模式;提取出所述每个句子中包含的所有不同的3-POS模式;
进一步的,通过分词工具ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)对所述每个句子进行词语划分;
针对提取出的任一3-POS模式,计算所述任一3-POS模式在主观句训练语 料集中的卡方统计量值与所述任一3-POS模式在客观句训练语料集中的卡方统计量值的差值;若所述任一3-POS模式对应的所述差值大于第一预设阈值,则将所述任一3-POS模式存入3-POS主观模式特征集中。
进一步的,针对所述主观句训练语料集和客观句训练语料集中的任一训练语料集J中的任一3-POS模式P,所述3-POS模式P的卡方统计量值K按照如下公式计算得出:
其中,N表示训练语料集J中包含的句子总数;
A表示在训练语料集J中,包含3-POS模式P的句子的总数;
B表示不在训练语料集J中,但是包含3-POS模式P的句子的总数;
C表示在训练语料集J中,不包含3-POS模式P的句子的总数;
D表示不在训练语料集J中,也不包含3-POS模式P的句子的总数;
所述根据预设的主观句训练语料集和客观句训练语料集形成句法依存关系特征集,包括:
步骤A1:针对所述主观句训练语料集和客观句训练语料集中的任一句子,找出所述任一句子的中心词以及与所述中心词有依存关系的依存词;
进一步的,通过哈尔滨工业大学信息检索研究中心的依存关系分析工具LTP找出所述任一句子的中心词以及与所述中心词有依存关系的依存词;
所述依存关系表示的是中心词与依存词之间在语义上的某种结构关系。
步骤B1:逐一确定所述任一句子中的中心词与各个依存词的结构关系,将与所述中心词的结构关系为连动结构关系、独立分句结构关系或依存分句结构关系的依存词也设置为中心词;
步骤C1:重复步骤B1直至所述任一句子中没有中心词与依存词之间存在连动结构关系、独立分句结构和依存分句结构关系;
步骤D1:针对所述任一句子中的任一中心词,按照“所述任一中心词前面的词与所述任一中心词的结构关系+任一中心词+所述任一中心词后面的词与所 述任一中心词的结构关系”形成一个句法依存关系模式;提取出所述任一句子中包含的所有句法依存关系模式;
步骤E1:针对提取出的所述任一句法依存关系模式,计算所述任一句法依存关系模式在所述主观句训练语料集中出现的次数NS和在所述客观句训练语料集中出现的次数NO;若所述任一句法依存关系模式的NS大于第二预设阈值,且所述任一句法依存关系模式的NO小于第二预设阈值,则将所述任一句法依存关系模式存入句法依存关系特征集中;
所述情感词特征集,具体包括:从所述主观句训练语料集中提取出的反映情感色彩的词语、网络词汇和微博表情符号;
所述情感影响因子特征集,具体包括:从所述主观句训练语料集中提取出的否定词、程度词和连词;
所述语气词及标点符号特征集,具体包括:问号、感叹号以及从所述主观句训练语料集中提取出的语气词;
所述字数及链接特征集,具体包括:预设的主观句字数阈值和统一资源定位器URL链接;
例如:若待测试语句的字数超过所述预设的主观句字数阈值,则所述待测试语句为客观句;若所述待测试语句中包含待URL链接,则所述待测试语句为客观句。
步骤S102:根据所述六个特征集,利用支持向量机SVM算法,形成中文微博主客观句分类模型,以利用所述中文微博主客观句分类模型对待测试语句进行主客观句分类。
本发明第二实施例,提供一种中文微博主客观句分类方法,具体包括:
步骤S201:根据预设的主观句训练语料集和客观句训练语料集提取以下五类特征作为支持向量机SVM算法的候选特征向量:情感词特征、情感影响因子特征、语气词及标点符号特征、上下文特征、字数及链接特征;
具体的,所述情感词特征,包括:
情感词,是指蕴含情感色彩的词语,包含正负面“情感词语”和“评价词语”。这类词对于判别微博句子是否带有主观色彩具有关键的作用。例如:“蒙牛这种一而再再而三出恶性事故的垃圾企业必须坚决抵制!”;
本发明基于大连理工大学的情感词汇本体库、HowNet情感分析用语集、中国台湾大学NTU情感词典、《知网》和《同义词林》中收录的情感词,形成了基本情感词;并基于微博语料做了网络词和表情符号扩充,最终形成了包含基本情感词30035个,网络词1031个,微博表情539个的情感词特征;
所述情感影响因子特征,包括:否定词32个、程度词196个,连词30个;
所述语气词及标点符号特征,包括:感叹号、问号、和语气词39个,例如“吧”、“咯”、“呐”等;
所述上下文特征包括:3-POS主观模式特征和句法依存关系特征;
进一步的,所述3-POS主观模式特征,包括:
对预设的主观句训练语料集和客观句训练语料集中的每个句子进行词语划分;并对所述词语划分后的每个词语进行词性标注;将所述每个句子中任意连续三个词语的词性构成一个3-POS模式;提取出所述每个句子中包含的所有不同的3-POS模式;
更进一步的,利用分词工具ICTCLAS对所述主观句训练语料集和客观句训练语料集中的每个句子进行分词和词性标注;本发明针对分词工具ICTCLAS不能有效识别网络词汇、微博表情符号等缺点,专门另外构建了网络词库和微博表情符号库,加入到了分词词表,对分词工具ICTCLAS做了优化处理;
针对提取出的任一3-POS模式,计算所述任一3-POS模式在主观句训练语料集中的卡方统计量值与所述任一3-POS模式在客观句训练语料集中的卡方统计量值的差值;若所述任一3-POS模式对应的所述差值大于第一预设阈值,则将所述任一3-POS模式存入3-POS主观模式特征集中;
更进一步的,按照如下公式计算任一3-POS模式的卡方统计量值:
其中,Posj表示任一3-POS模式;
X_Set表示主观句训练语料集或客观句训练语料集;
A表示属于类别X_Set并且包含Posj的句子数;
B表示不属于类X_Set但是包含Posj的句子数;
C表示属于类X_Set但是不包含Posj的句子数;
D表示不属于类X_Set并且不包含Posj的句子数;
如表1所示,为3-POS主观模式特征集中的部分3-POS主观模式:
表1
所述句法依存关系特征,包括:
句子中的成分(如词语)是相互联系的,依存句法是通过分析语言单位内各个语言成分之间的依存关系揭示其句法结构;其中,依存关系表示的是中心词与依存词之间在语义上的某种依赖关系;依存句法主张句子中的中心动词是支配其他成分的中心成分,而它本身却不受其它任何成分的支配,所有的受支配成分都以某种依存关系从属于支配者;
本发明使用哈尔滨工业大学信息检索研究中心开发的LTP系统对微博句子进行依存句法分析;把句子由一个线性序列转化为一棵结构化的依存分析树,通过依存弧来反映句子中词汇之间的依存关系,弧的方向是由中心词指向依存词,弧上的标记表示依存关系的类型;如图2所示,“管管”是中心动词,是支配其它成分的中心成分,其它节点以某种结构依存于它;ADV表示“状中”结构、SBV表示“主谓”结构、ATT表示“定中”结构、HED表示中心词;
进一步的,按照如下步骤提取句法依存关系特征:
步骤A2:针对预设的主观句训练语料集和客观句训练语料集中的任一句子,找出所述任一句子的中心词以及与所述中心词有依存关系的依存词;
步骤B2:逐一确定所述任一句子中的中心词与各个依存词的结构关系,将与所述中心词的结构关系为连动结构关系、独立分句结构关系或依存分句结构关系的依存词也设置为中心词;
步骤C2:重复步骤B2直至所述任一句子中没有中心词与依存词之间存在连动结构关系、独立分句结构和依存分句结构关系;
步骤D2:针对所述任一句子中的任一中心词,按照“所述任一中心词前面的词与所述任一中心词的结构关系+任一中心词+所述任一中心词后面的词与所述任一中心词的结构关系”形成一个句法依存关系模式;提取出所述任一句子中包含的所有句法依存关系模式;
步骤E2:针对提取出的所述任一句法依存关系模式,计算所述任一句法依存关系模式在所述主观句训练语料集中出现的次数NS和在所述客观句训练语料集中出现的次数NO;若所述任一句法依存关系模式的NS大于第二预设阈值,且所述任一句法依存关系模式的NO小于第二预设阈值,则将所述任一句法依存关系模式存入句法依存关系特征集中;
如表2所示,为句法依存关系特征中的部分依存关系模式:
表2
所述字数及链接特征,包括:一条微博的总字数主要集中在1-140字之间,经统计发现,这其中时事新闻、公告声明和广告微博、哲理警句等会出现长句以外,大部分用户发表的观点微博都较短。将微博句子长度和微博中是否含有URL链接也作为一类特征用于主客观句的分类。
步骤S202:采用SVM机器学习算法作为微博主客观句分类的核心算法,选用中国台湾大学林智仁博士设计的通用支持向量机软件包LibSVM,利用多种特征融合方法进行了文本特征抽取和归一化,实现了对微博句子的主客观二元分类。基于多特征融合的SVM分类模型主要包括两部分:微博特征选择和SVM分类。微博特征选择部分采用前述的5大类基本特征进行特征项的确定和权重计算。SVM算法用于实现微博句子的主客观句分类,它根据文本训练样本集和类别标签,选取最佳分类超平面,学习得到最佳的分类模型。测试语料根据训练好的分类模型,预测句子的主客观二元特征性。
本发明实施例中介绍的中文微博主客观句分类方法,通过对预设的主观句训练语料集和客观句训练语料集的预处理分析,提取用于判定中文微博主客观性的六种基本特征,不但考虑了中文文本的语言学特点,同时也充分利用微博的个性化特征,使得本文所选取的特征更加接近微博本身的语义描述。所述方法不仅是对传统文本分类方法的改进,而且更有利于提高分类结果的精确度和工作效率。
通过具体实施方式的说明,应当可对本发明为达成预定目的所采取的技术 手段及功效得以更加深入且具体的了解,然而所附图示仅是提供参考与说明之用,并非用来对本发明加以限制。
Claims (8)
1.一种中文微博主客观句分类方法,其特征在于,包括:
根据预设的主观句训练语料集和客观句训练语料集形成如下的六个特征集:3-POS主观模式特征集、句法依存关系特征集、情感词特征集、情感影响因子特征集、语气词及标点符号特征集、字数及链接特征集;
根据所述六个特征集,利用支持向量机SVM算法,形成中文微博主客观句分类模型,以利用所述中文微博主客观句分类模型对待测试语句进行主客观句分类。
2.根据权利要求1所述的中文微博主客观句分类方法,其特征在于,所述根据预设的主观句训练语料集和客观句训练语料集形成3-POS主观模式特征集,包括:
对所述主观句训练语料集和客观句训练语料集中的每个句子进行词语划分;并对所述词语划分后的每个词语进行词性标注;将所述每个句子中任意连续三个词语的词性构成一个3-POS模式;提取出所述每个句子中包含的所有不同的3-POS模式;
针对提取出的任一3-POS模式,计算所述任一3-POS模式在主观句训练语料集中的卡方统计量值与所述任一3-POS模式在客观句训练语料集中的卡方统计量值的差值;若所述任一3-POS模式对应的所述差值大于第一预设阈值,则将所述任一3-POS模式存入3-POS主观模式特征集中。
3.根据权利要求2所述的中文微博主客观句分类方法,其特征在于,针对所述主观句训练语料集和客观句训练语料集中的任一训练语料集J中的任一3-POS模式P,所述3-POS模式P的卡方统计量值K按照如下公式计算得出:
其中,N表示训练语料集J中包含的句子总数;
A表示在训练语料集J中,包含3-POS模式P的句子的总数;
B表示不在训练语料集J中,但是包含3-POS模式P的句子的总数;
C表示在训练语料集J中,不包含3-POS模式P的句子的总数;
D表示不在训练语料集J中,也不包含3-POS模式P的句子的总数。
4.根据权利要求1所述的中文微博主客观句分类方法,其特征在于,所述根据预设的主观句训练语料集和客观句训练语料集形成句法依存关系特征集,包括:
步骤1:针对所述主观句训练语料集和客观句训练语料集中的任一句子,找出所述任一句子的中心词以及与所述中心词有依存关系的依存词;
步骤2:逐一确定所述任一句子中的中心词与各个依存词的结构关系,将与所述中心词的结构关系为连动结构关系、独立分句结构关系或依存分句结构关系的依存词也设置为中心词;
步骤3:重复步骤2直至所述任一句子中没有中心词与依存词之间存在连动结构关系、独立分句结构和依存分句结构关系;
步骤4:针对所述任一句子中的任一中心词,按照“所述任一中心词前面的词与所述任一中心词的结构关系+任一中心词+所述任一中心词后面的词与所述任一中心词的结构关系”形成一个句法依存关系模式;提取出所述任一句子中包含的所有句法依存关系模式;
步骤5:针对提取出的所述任一句法依存关系模式,计算所述任一句法依存关系模式在所述主观句训练语料集中出现的次数NS和在所述客观句训练语料集中出现的次数NO;若所述任一句法依存关系模式的NS大于第二预设阈值,且所述任一句法依存关系模式的NO小于第二预设阈值,则将所述任一句法依存关系模式存入句法依存关系特征集中。
5.根据权利要求1所述的中文微博主客观句分类方法,其特征在于,所述情感词特征集,包括:
从所述主观句训练语料集中提取出的反映情感色彩的词语、网络词汇和微博表情符号。
6.根据权利要求1所述的中文微博主客观句分类方法,其特征在于,所述情感影响因子特征集,包括:
从所述主观句训练语料集中提取出的否定词、程度词和连词。
7.根据权利要求1所述的中文微博主客观句分类方法,其特征在于,所述语气词及标点符号特征集,包括:
问号、感叹号以及从所述主观句训练语料集中提取出的语气词。
8.根据权利要求1所述的中文微博主客观句分类方法,其特征在于,所述字数及链接特征集,包括:预设的主观句字数阈值和统一资源定位器URL链接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610367978.0A CN106055633A (zh) | 2016-05-30 | 2016-05-30 | 一种中文微博主客观句分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610367978.0A CN106055633A (zh) | 2016-05-30 | 2016-05-30 | 一种中文微博主客观句分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106055633A true CN106055633A (zh) | 2016-10-26 |
Family
ID=57175602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610367978.0A Pending CN106055633A (zh) | 2016-05-30 | 2016-05-30 | 一种中文微博主客观句分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106055633A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106844349A (zh) * | 2017-02-14 | 2017-06-13 | 广西师范大学 | 基于协同训练的垃圾评论识别方法 |
CN108595440A (zh) * | 2018-05-11 | 2018-09-28 | 厦门市美亚柏科信息股份有限公司 | 短文本内容分类方法和系统 |
CN109101487A (zh) * | 2018-07-11 | 2018-12-28 | 广州杰赛科技股份有限公司 | 对话角色区分方法、装置、终端设备及存储介质 |
CN110162781A (zh) * | 2019-04-09 | 2019-08-23 | 国金涌富资产管理有限公司 | 一种金融文本主观句自动识别方法 |
CN112632272A (zh) * | 2020-10-20 | 2021-04-09 | 浙江工业大学 | 基于句法分析的微博情感分类方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103123633A (zh) * | 2011-11-21 | 2013-05-29 | 阿里巴巴集团控股有限公司 | 评价参数的生成方法以及基于评价参数的信息搜索方法 |
CN103150367A (zh) * | 2013-03-07 | 2013-06-12 | 宁波成电泰克电子信息技术发展有限公司 | 一种中文微博的情感倾向分析方法 |
CN103886097A (zh) * | 2014-04-04 | 2014-06-25 | 华侨大学 | 基于自适应提升算法的中文微博观点句识别特征的提取方法 |
-
2016
- 2016-05-30 CN CN201610367978.0A patent/CN106055633A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103123633A (zh) * | 2011-11-21 | 2013-05-29 | 阿里巴巴集团控股有限公司 | 评价参数的生成方法以及基于评价参数的信息搜索方法 |
CN103150367A (zh) * | 2013-03-07 | 2013-06-12 | 宁波成电泰克电子信息技术发展有限公司 | 一种中文微博的情感倾向分析方法 |
CN103886097A (zh) * | 2014-04-04 | 2014-06-25 | 华侨大学 | 基于自适应提升算法的中文微博观点句识别特征的提取方法 |
Non-Patent Citations (2)
Title |
---|
张博: "基于SVM的中文观点句抽取", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
管玮乔: "基于特征融合的中文产品评论主观陈述筛选研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106844349A (zh) * | 2017-02-14 | 2017-06-13 | 广西师范大学 | 基于协同训练的垃圾评论识别方法 |
CN106844349B (zh) * | 2017-02-14 | 2019-10-18 | 广西师范大学 | 基于协同训练的垃圾评论识别方法 |
CN108595440A (zh) * | 2018-05-11 | 2018-09-28 | 厦门市美亚柏科信息股份有限公司 | 短文本内容分类方法和系统 |
CN108595440B (zh) * | 2018-05-11 | 2022-03-18 | 厦门市美亚柏科信息股份有限公司 | 短文本内容分类方法和系统 |
CN109101487A (zh) * | 2018-07-11 | 2018-12-28 | 广州杰赛科技股份有限公司 | 对话角色区分方法、装置、终端设备及存储介质 |
CN110162781A (zh) * | 2019-04-09 | 2019-08-23 | 国金涌富资产管理有限公司 | 一种金融文本主观句自动识别方法 |
CN112632272A (zh) * | 2020-10-20 | 2021-04-09 | 浙江工业大学 | 基于句法分析的微博情感分类方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106919673B (zh) | 基于深度学习的文本情绪分析系统 | |
CN106096664B (zh) | 一种基于社交网络数据的情感分析方法 | |
CN105843897B (zh) | 一种面向垂直领域的智能问答系统 | |
CN108874937B (zh) | 一种基于词性结合和特征选择的情感分类方法 | |
CN102831184B (zh) | 根据对社会事件的文字描述来预测社会情感的方法及系统 | |
CN106777275A (zh) | 基于多粒度语义块的实体属性和属性值提取方法 | |
CN106055633A (zh) | 一种中文微博主客观句分类方法 | |
CN106599032A (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN104008091A (zh) | 一种基于情感值的网络文本情感分析方法 | |
CN102929860B (zh) | 一种基于上下文语境的中文分句情感极性判别方法 | |
CN104915443B (zh) | 一种中文微博评价对象的抽取方法 | |
CN105183717A (zh) | 一种基于随机森林和用户关系的osn用户情感分析方法 | |
CN106446147A (zh) | 一种基于结构化特征的情感分析方法 | |
CN106776555A (zh) | 一种基于字模型的评论文本实体识别方法及装置 | |
CN113360647A (zh) | 一种基于聚类的5g移动业务投诉溯源分析方法 | |
CN113312922A (zh) | 一种改进的篇章级三元组信息抽取方法 | |
Laddha et al. | Extracting aspect specific opinion expressions | |
CN108038166A (zh) | 一种基于词项主客观偏向性的中文微博情感分析方法 | |
CN113361252B (zh) | 基于多模态特征和情感词典的文本抑郁倾向检测系统 | |
CN104794209A (zh) | 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统 | |
CN106445914A (zh) | 微博情感分类器的构建方法及构建装置 | |
CN104572613A (zh) | 数据处理装置、数据处理方法和程序 | |
CN112182204A (zh) | 构建中文命名实体标注的语料库的方法、装置 | |
Quan et al. | Combine sentiment lexicon and dependency parsing for sentiment classification | |
CN104281695B (zh) | 基于组合理论的类自然语言的语义信息抽取方法及其系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20161026 |
|
WD01 | Invention patent application deemed withdrawn after publication |