CN106776686A - 基于多领的中文域短文本理解方法及系统 - Google Patents

基于多领的中文域短文本理解方法及系统 Download PDF

Info

Publication number
CN106776686A
CN106776686A CN201610985728.3A CN201610985728A CN106776686A CN 106776686 A CN106776686 A CN 106776686A CN 201610985728 A CN201610985728 A CN 201610985728A CN 106776686 A CN106776686 A CN 106776686A
Authority
CN
China
Prior art keywords
word
short text
chinese domain
vocabulary
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610985728.3A
Other languages
English (en)
Inventor
刘丽君
李成华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUHAN TIPDM INTELLIGENT TECHNOLOGY Co Ltd
Original Assignee
WUHAN TIPDM INTELLIGENT TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUHAN TIPDM INTELLIGENT TECHNOLOGY Co Ltd filed Critical WUHAN TIPDM INTELLIGENT TECHNOLOGY Co Ltd
Priority to CN201610985728.3A priority Critical patent/CN106776686A/zh
Publication of CN106776686A publication Critical patent/CN106776686A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于多领的中文域短文本理解方法,其包括如下步骤:S1、建立中文域短文本理解的模型;S2、获取短文本输入集;S3、通过中文域短文本理解的模型对短文本集进行分析,从而获得短文本理解结果。实施本发明提供的基于多领的中文域短文本理解方法及系统与现有技术相比具有以下有益效果:能够有效解决短文本通常不遵循语法规则,并且长度短、没有足够的信息量来进行统计推断,机器很难在有限的语境中进行准确的推断的问题,是的短文本理解更为准确。

Description

基于多领的中文域短文本理解方法及系统
技术领域
本发明涉及大数据文本处理技术领域,特别涉及一种基于多领的中文域短文本理解方法及系统。
背景技术
短文本分类如此重要,那么究竟什么是短文本呢?目前,对于短文本还没有统一规范的定义,本文参考已有的研究文献将短文本定义为长度不超过200字的文本形式的信息。短文本的几种常见形式有手机短信息、社交网络短信息、信息检索简介信息、BBS/论坛短信息等。一般来说,短文本包括的特点有:
①稀疏性。每条短文本形式信息的长度都比较短,都在200字以内,通常只有几句话,有的甚至只有几个词语如微博信息、手机短信息等,因此所包含的有效信息也就非常少,造成样本的特征非常稀疏,并且特征集的维数非常高,很难从中抽取到准确而关键的样本特征用于分类学习。
②实时性。在互联网上出现的短文本形式的信息,大部分都是实时更新的,刷新速度非常快,像聊天信息、微博信息、评论信息等,都在以秒计时的速度不断更新,难以采集,并且这部分动态文本数量非常庞大,这就要求对短文本信息分类必须具有更高的效率。
③不规则性。短文本形式的信息用语不规范,包含流行词汇较多,造成了噪声特征非常多,如“94”代表“就是”,“88”代表“再见”,“童鞋”代表“同学”,“河蟹”代表“和谐”等。流行语在短文本中更是频繁出现,而且更新很快,如2011年的流行词“伤不起”、“有没有”、“坑爹”,2012年的流行词“屌丝”、“江南Style”、“元芳,你怎么看”等等。
短文本理解与长文本不同,短文本通常不遵循语法规则,并且长度短、没有足够的信息量来进行统计推断,机器很难在有限的语境中进行准确的推断。此外,由于短文本通常不遵循语法,自然语言处理技术难以直接用于短文本分析。
发明内容
有鉴于此,本发明提出一种能够有效解决由于短文本通常不遵循语法规则,并且长度短、没有足够的信息量来进行统计推断,机器很难在有限的语境中进行准确的推断问题的基于多领的中文域短文本理解方法及系统。
一种基于多领的中文域短文本理解方法,其包括如下步骤:
S1、建立中文域短文本理解的模型;
S2、获取短文本输入集;
S3、通过中文域短文本理解的模型对短文本集进行分析,从而获得短文本理解结果。
在本发明所述的基于多领的中文域短文本理解方法中,所述步骤S1包括:
建立短文本训练集;对训练集中的每篇短文本分词,然后进行词性过滤、停用词过滤预处理,从而构建出短文本词典,词典包含有训练集中出现的词的信息,所述信息包括词语出现的总次数,所有包含该词的文档名及出现的次数,并对其中某一个类中的词计算其卡方值,按卡方值降序排列,取前预设个数个词作为短文本训练集的特征词;
选出特征之后,对短文本训练集中的每一篇文档进行向量化,文档转换的格式为:类别ID特征序号:特征值;
从一组连续多变量概率分布中取样生成短文本的主题分布;从主题的多项式分布中取样生成短文本中各个特征词的主题;从连续多变量概率分布中取样生成主题的词语分布;从词语的连续多变量概率分布中采样最终生成词语;选择概率最大的词作为扩展特征词,其概率值即为扩展特征值。
在本发明所述的基于多领的中文域短文本理解方法中,所述步骤S1中还包括区分短文本词汇之间的相似度时,通过增强那些最凸显的向量特征,以改善特征向量的权重,具体跳跃模型函数如下:
其中V代表词汇;语境窗口中目标词w与语境c共现;目标词w出现的次数与出现的语境被定义为#(w,c),其中k表示否定样本词汇的数量,#(w)表示目标词w出现的次数;sim()为两个不同词汇的两个嵌入向量之间的相似度余弦值;A()表示反义词汇;S()表示同义词汇。
在本发明所述的基于多领的中文域短文本理解方法中,所述步骤S1还包括:处理否定词与情感词间的修饰关系,具体包括:
利用依存句法分析处理否定词修饰情感词,修饰关系用于反映在依存句法中表现为依存关系类型是不定修饰以及被支配词为否定词;筛选出依存关系类型为不定修饰且满足支配词与被支配词分别为情感词和否定词的依存关系对,然后直接反转情感极性。
本发明还提供一种基于多领的中文域短文本理解系统,其包括如下单元:
模型建立单元,用于建立中文域短文本理解的模型;
短文本输入单元,用于获取短文本输入集;
分析理解单元,用于通过中文域短文本理解的模型对短文本集进行分析,从而获得短文本理解结果。
在本发明所述的基于多领的中文域短文本理解系统中,所述模型建立单元包括:
建立短文本训练集;对训练集中的每篇短文本分词,然后进行词性过滤、停用词过滤预处理,从而构建出短文本词典,词典包含有训练集中出现的词的信息,所述信息包括词语出现的总次数,所有包含该词的文档名及出现的次数,并对其中某一个类中的词计算其卡方值,按卡方值降序排列,取前预设个数个词作为短文本训练集的特征词;
选出特征之后,对短文本训练集中的每一篇文档进行向量化,文档转换的格式为:类别ID特征序号:特征值;
从一组连续多变量概率分布中取样生成短文本的主题分布;从主题的多项式分布中取样生成短文本中各个特征词的主题;从连续多变量概率分布中取样生成主题的词语分布;从词语的连续多变量概率分布中采样最终生成词语;选择概率最大的词作为扩展特征词,其概率值即为扩展特征值。
在本发明所述的基于多领的中文域短文本理解系统中,所述模型建立单元中还包括区分短文本词汇之间的相似度时,通过增强那些最凸显的向量特征,以改善特征向量的权重,具体跳跃模型函数如下:
其中V代表词汇;语境窗口中目标词w与语境c共现;目标词w出现的次数与出现的语境被定义为#(w,c),其中k表示否定样本词汇的数量,#(w)表示目标词w出现的次数;sim()为两个不同词汇的两个嵌入向量之间的相似度余弦值;A()表示反义词汇;S()表示同义词汇。
在本发明所述的基于多领的中文域短文本理解系统中,所述模型建立单元还包括:处理否定词与情感词间的修饰关系,具体包括:
利用依存句法分析处理否定词修饰情感词,修饰关系用于反映在依存句法中表现为依存关系类型是不定修饰以及被支配词为否定词;筛选出依存关系类型为不定修饰且满足支配词与被支配词分别为情感词和否定词的依存关系对,然后直接反转情感极性。
实施本发明提供的基于多领的中文域短文本理解方法及系统与现有技术相比具有以下有益效果:能够有效解决短文本通常不遵循语法规则,并且长度短、没有足够的信息量来进行统计推断,机器很难在有限的语境中进行准确的推断的问题,是的短文本理解更为准确。
附图说明
图1是本发明实施例的基于多领的中文域短文本理解方法流程图。
具体实施方式
如图1所示,一种基于多领的中文域短文本理解方法,其包括如下步骤:
S1、建立中文域短文本理解的模型;
S2、获取短文本输入集;
S3、通过中文域短文本理解的模型对短文本集进行分析,从而获得短文本理解结果。
在本发明所述的基于多领的中文域短文本理解方法中,所述步骤S1包括:
建立短文本训练集;对训练集中的每篇短文本分词,然后进行词性过滤、停用词过滤预处理,从而构建出短文本词典,词典包含有训练集中出现的词的信息,所述信息包括词语出现的总次数,所有包含该词的文档名及出现的次数,并对其中某一个类中的词计算其卡方值,按卡方值降序排列,取前预设个数个词作为短文本训练集的特征词;
选出特征之后,对短文本训练集中的每一篇文档进行向量化,文档转换的格式为:类别ID特征序号:特征值;
从一组连续多变量概率分布中取样生成短文本的主题分布;从主题的多项式分布中取样生成短文本中各个特征词的主题;从连续多变量概率分布中取样生成主题的词语分布;从词语的连续多变量概率分布中采样最终生成词语;选择概率最大的词作为扩展特征词,其概率值即为扩展特征值。
在本发明所述的基于多领的中文域短文本理解方法中,所述步骤S1中还包括区分短文本词汇之间的相似度时,通过增强那些最凸显的向量特征,以改善特征向量的权重,具体跳跃模型函数如下:
其中V代表词汇;语境窗口中目标词w与语境c共现;目标词w出现的次数与出现的语境被定义为#(w,c),其中k表示否定样本词汇的数量,#(w)表示目标词w出现的次数;sim()为两个不同词汇的两个嵌入向量之间的相似度余弦值;A()表示反义词汇;S()表示同义词汇。
在本发明所述的基于多领的中文域短文本理解方法中,所述步骤S1还包括:处理否定词与情感词间的修饰关系,具体包括:
利用依存句法分析处理否定词修饰情感词,修饰关系用于反映在依存句法中表现为依存关系类型是不定修饰以及被支配词为否定词;筛选出依存关系类型为不定修饰且满足支配词与被支配词分别为情感词和否定词的依存关系对,然后直接反转情感极性。
实施本发明实施例,尤其是运用大量训练数据的时候,在运行时间内这种整合方法能够更为高效地训练词汇向量。
本发明还提供一种基于多领的中文域短文本理解系统,其包括如下单元:
模型建立单元,用于建立中文域短文本理解的模型;
短文本输入单元,用于获取短文本输入集;
分析理解单元,用于通过中文域短文本理解的模型对短文本集进行分析,从而获得短文本理解结果。
在本发明所述的基于多领的中文域短文本理解系统中,所述模型建立单元包括:
建立短文本训练集;对训练集中的每篇短文本分词,然后进行词性过滤、停用词过滤预处理,从而构建出短文本词典,词典包含有训练集中出现的词的信息,所述信息包括词语出现的总次数,所有包含该词的文档名及出现的次数,并对其中某一个类中的词计算其卡方值,按卡方值降序排列,取前预设个数个词作为短文本训练集的特征词;
选出特征之后,对短文本训练集中的每一篇文档进行向量化,文档转换的格式为:类别ID特征序号:特征值;
从一组连续多变量概率分布中取样生成短文本的主题分布;从主题的多项式分布中取样生成短文本中各个特征词的主题;从连续多变量概率分布中取样生成主题的词语分布;从词语的连续多变量概率分布中采样最终生成词语;选择概率最大的词作为扩展特征词,其概率值即为扩展特征值。
在本发明所述的基于多领的中文域短文本理解系统中,所述模型建立单元中还包括区分短文本词汇之间的相似度时,通过增强那些最凸显的向量特征,以改善特征向量的权重,具体跳跃模型函数如下:
其中V代表词汇;语境窗口中目标词w与语境c共现;目标词w出现的次数与出现的语境被定义为#(w,c),其中k表示否定样本词汇的数量,#(w)表示目标词w出现的次数;sim()为两个不同词汇的两个嵌入向量之间的相似度余弦值;A()表示反义词汇;S()表示同义词汇。
在本发明所述的基于多领的中文域短文本理解系统中,所述模型建立单元还包括:处理否定词与情感词间的修饰关系,具体包括:
利用依存句法分析处理否定词修饰情感词,修饰关系用于反映在依存句法中表现为依存关系类型是不定修饰以及被支配词为否定词;筛选出依存关系类型为不定修饰且满足支配词与被支配词分别为情感词和否定词的依存关系对,然后直接反转情感极性。
实施本发明提供的基于多领的中文域短文本理解方法及系统与现有技术相比具有以下有益效果:能够有效解决短文本通常不遵循语法规则,并且长度短、没有足够的信息量来进行统计推断,机器很难在有限的语境中进行准确的推断的问题,是的短文本理解更为准确。
可以理解的是,对于本领域的普通技术人员来说,可以根据本发明的技术构思做出其它各种相应的改变与变形,而所有这些改变与变形都应属于本发明权利要求的保护范围。

Claims (8)

1.一种基于多领的中文域短文本理解方法,其特征在于,其包括如下步骤:
S1、建立中文域短文本理解的模型;
S2、获取短文本输入集;
S3、通过中文域短文本理解的模型对短文本集进行分析,从而获得短文本理解结果。
2.如权利要求1所述的基于多领的中文域短文本理解方法,其特征在于,所述步骤S1包括:
建立短文本训练集;对训练集中的每篇短文本分词,然后进行词性过滤、停用词过滤预处理,从而构建出短文本词典,词典包含有训练集中出现的词的信息,所述信息包括词语出现的总次数,所有包含该词的文档名及出现的次数,并对其中某一个类中的词计算其卡方值,按卡方值降序排列,取前预设个数个词作为短文本训练集的特征词;
选出特征之后,对短文本训练集中的每一篇文档进行向量化,文档转换的格式为:类别ID特征序号:特征值;
从一组连续多变量概率分布中取样生成短文本的主题分布;从主题的多项式分布中取样生成短文本中各个特征词的主题;从连续多变量概率分布中取样生成主题的词语分布;从词语的连续多变量概率分布中采样最终生成词语;选择概率最大的词作为扩展特征词,其概率值即为扩展特征值。
3.如权利要求2所述的基于多领的中文域短文本理解方法,其特征在于,所述步骤S1中还包括区分短文本词汇之间的相似度时,通过增强那些最凸显的向量特征,以改善特征向量的权重,具体跳跃模型函数如下:
其中V代表词汇;语境窗口中目标词w与语境c共现;目标词w出现的次数与出现的语境被定义为#(w,c),其中k表示否定样本词汇的数量,#(w)表示目标词w出现的次数;sim()为两个不同词汇的两个嵌入向量之间的相似度余弦值;A()表示反义词汇;S()表示同义词汇。
4.如权利要求2所述的基于多领的中文域短文本理解方法,其特征在于,所述步骤S1还包括:处理否定词与情感词间的修饰关系,具体包括:
利用依存句法分析处理否定词修饰情感词,修饰关系用于反映在依存句法中表现为依存关系类型是不定修饰以及被支配词为否定词;筛选出依存关系类型为不定修饰且满足支配词与被支配词分别为情感词和否定词的依存关系对,然后直接反转情感极性。
5.一种基于多领的中文域短文本理解系统,其特征在于,其包括如下单元:
模型建立单元,用于建立中文域短文本理解的模型;
短文本输入单元,用于获取短文本输入集;
分析理解单元,用于通过中文域短文本理解的模型对短文本集进行分析,从而获得短文本理解结果。
6.如权利要求5所述的基于多领的中文域短文本理解系统,其特征在于,所述模型建立单元包括:
建立短文本训练集;对训练集中的每篇短文本分词,然后进行词性过滤、停用词过滤预处理,从而构建出短文本词典,词典包含有训练集中出现的词的信息,所述信息包括词语出现的总次数,所有包含该词的文档名及出现的次数,并对其中某一个类中的词计算其卡方值,按卡方值降序排列,取前预设个数个词作为短文本训练集的特征词;
选出特征之后,对短文本训练集中的每一篇文档进行向量化,文档转换的格式为:类别ID特征序号:特征值;
从一组连续多变量概率分布中取样生成短文本的主题分布;从主题的多项式分布中取样生成短文本中各个特征词的主题;从连续多变量概率分布中取样生成主题的词语分布;从词语的连续多变量概率分布中采样最终生成词语;选择概率最大的词作为扩展特征词,其概率值即为扩展特征值。
7.如权利要求6所述的基于多领的中文域短文本理解系统,其特征在于,所述模型建立单元中还包括区分短文本词汇之间的相似度时,通过增强那些最凸显的向量特征,以改善特征向量的权重,具体跳跃模型函数如下:
其中V代表词汇;语境窗口中目标词w与语境c共现;目标词w出现的次数与出现的语境被定义为#(w,c),其中k表示否定样本词汇的数量,#(w)表示目标词w出现的次数;sim()为两个不同词汇的两个嵌入向量之间的相似度余弦值;A()表示反义词汇;S()表示同义词汇。
8.如权利要求6所述的基于多领的中文域短文本理解系统,其特征在于,所述模型建立单元还包括:处理否定词与情感词间的修饰关系,具体包括:
利用依存句法分析处理否定词修饰情感词,修饰关系用于反映在依存句法中表现为依存关系类型是不定修饰以及被支配词为否定词;筛选出依存关系类型为不定修饰且满足支配词与被支配词分别为情感词和否定词的依存关系对,然后直接反转情感极性。
CN201610985728.3A 2016-11-09 2016-11-09 基于多领的中文域短文本理解方法及系统 Pending CN106776686A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610985728.3A CN106776686A (zh) 2016-11-09 2016-11-09 基于多领的中文域短文本理解方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610985728.3A CN106776686A (zh) 2016-11-09 2016-11-09 基于多领的中文域短文本理解方法及系统

Publications (1)

Publication Number Publication Date
CN106776686A true CN106776686A (zh) 2017-05-31

Family

ID=58973405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610985728.3A Pending CN106776686A (zh) 2016-11-09 2016-11-09 基于多领的中文域短文本理解方法及系统

Country Status (1)

Country Link
CN (1) CN106776686A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107656921A (zh) * 2017-10-10 2018-02-02 上海数眼科技发展有限公司 一种基于深度学习的短文本依存分析方法
CN109618067A (zh) * 2018-11-30 2019-04-12 携程旅游信息技术(上海)有限公司 外呼对话处理方法和系统
WO2019084867A1 (zh) * 2017-11-02 2019-05-09 深圳前海达闼云端智能科技有限公司 自动回答方法、装置、存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678278A (zh) * 2013-12-16 2014-03-26 中国科学院计算机网络信息中心 一种中文文本情感识别方法
CN103744953A (zh) * 2014-01-02 2014-04-23 中国科学院计算机网络信息中心 一种基于中文文本情感识别的网络热点挖掘方法
CN104991891A (zh) * 2015-07-28 2015-10-21 北京大学 一种短文本特征提取方法
CN105069021A (zh) * 2015-07-15 2015-11-18 广东石油化工学院 基于领域的中文短文本情感分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678278A (zh) * 2013-12-16 2014-03-26 中国科学院计算机网络信息中心 一种中文文本情感识别方法
CN103744953A (zh) * 2014-01-02 2014-04-23 中国科学院计算机网络信息中心 一种基于中文文本情感识别的网络热点挖掘方法
CN105069021A (zh) * 2015-07-15 2015-11-18 广东石油化工学院 基于领域的中文短文本情感分类方法
CN104991891A (zh) * 2015-07-28 2015-10-21 北京大学 一种短文本特征提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高斐: "https://www.leiphone.com/news/201608/uVeZDnN5DopHgCqf.html", 《机器也能自主区分反义词-同义词 ?!_ 雷锋网》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107656921A (zh) * 2017-10-10 2018-02-02 上海数眼科技发展有限公司 一种基于深度学习的短文本依存分析方法
WO2019084867A1 (zh) * 2017-11-02 2019-05-09 深圳前海达闼云端智能科技有限公司 自动回答方法、装置、存储介质及电子设备
CN109618067A (zh) * 2018-11-30 2019-04-12 携程旅游信息技术(上海)有限公司 外呼对话处理方法和系统

Similar Documents

Publication Publication Date Title
CN107967261B (zh) 智能客服中交互式问句语义理解方法
CN108874782B (zh) 一种层次注意力lstm和知识图谱的多轮对话管理方法
CN110210016B (zh) 基于风格引导的双线性神经网络虚假新闻检测方法及系统
CN113962315A (zh) 模型预训练方法、装置、设备、存储介质以及程序产品
CN107908614A (zh) 一种基于Bi‑LSTM的命名实体识别方法
CN107480122A (zh) 一种人工智能交互方法及人工智能交互装置
CN102693279B (zh) 一种快速计算评论相似度的方法、装置及系统
CN109376240A (zh) 一种文本分析方法及终端
CN107273348B (zh) 一种文本的话题和情感联合检测方法及装置
CN107609103A (zh) 一种基于推特的事件检测方法
CN108388554B (zh) 基于协同过滤注意力机制的文本情感识别系统
CN105893582A (zh) 一种社交网络用户情绪判别方法
CN107239440A (zh) 一种垃圾文本识别方法和装置
CN110134788B (zh) 一种基于文本挖掘的微博发布优化方法及系统
CN106569999A (zh) 多粒度短文本语义相似度比较方法及系统
Kann et al. Open-domain dialogue generation: What we can do, cannot do, and should do next
CN105787121B (zh) 一种基于多故事线的微博事件摘要提取方法
CN107357785A (zh) 主题特征词抽取方法及系统、情感极性判断方法及系统
CN106776539A (zh) 一种多维度短文本特征提取方法及系统
CN106776686A (zh) 基于多领的中文域短文本理解方法及系统
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN106528538A (zh) 智能识别情绪的方法及装置
CN105975497A (zh) 微博话题自动推荐方法及装置
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
CN114547293A (zh) 一种跨平台虚假新闻检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170531

RJ01 Rejection of invention patent application after publication