CN108133014B - 基于句法分析和聚类的三元组生成方法、装置及用户终端 - Google Patents

基于句法分析和聚类的三元组生成方法、装置及用户终端 Download PDF

Info

Publication number
CN108133014B
CN108133014B CN201711408501.3A CN201711408501A CN108133014B CN 108133014 B CN108133014 B CN 108133014B CN 201711408501 A CN201711408501 A CN 201711408501A CN 108133014 B CN108133014 B CN 108133014B
Authority
CN
China
Prior art keywords
words
word
speech
feature
syntactic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711408501.3A
Other languages
English (en)
Other versions
CN108133014A (zh
Inventor
牟昊
杨飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Datastory Information Technology Co ltd
Original Assignee
Guangzhou Datastory Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Datastory Information Technology Co ltd filed Critical Guangzhou Datastory Information Technology Co ltd
Priority to CN201711408501.3A priority Critical patent/CN108133014B/zh
Publication of CN108133014A publication Critical patent/CN108133014A/zh
Application granted granted Critical
Publication of CN108133014B publication Critical patent/CN108133014B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Databases & Information Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于句法分析和聚类的三元组生成方法、装置及用户终端,方法包括:获取文本信息,清洗噪音并划分为句子;将句子划分为至少一个词语;按句子顺序将词语以及其对应的词性作为输入,构建句法依赖树;将句法依赖树转换为无向图,利用宽度搜索技术生成二元组,二元组表达为(特征词,情感词);获取二元组中的特征词,将特征词转换为特征向量;将特征向量作为输入,通过K‑Means算法进行聚类,使特征词聚类为对应的类别;获取对应的类别的ID,记为类别ID,输出三元组,三元组表达为(类别ID,特征词,情感词)。本发明的优点在于通过句法分析发现二元组,通过特征词聚类,将类似的特征词聚在一起,同时降低了人工成本。

Description

基于句法分析和聚类的三元组生成方法、装置及用户终端
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于句法分析和聚类的电商评论结构化分析处理技术。
背景技术
随着电商在我国的迅速发展,网上购物作为一种新的消费方式,已经逐渐深入我们的生活,商品评论已经成为用户表达商品体验的重要方式。以淘宝、天猫,京东,唯品会等为主体的电商平台的兴起带来了大量的用户评论,根据《2016中国电商消费行为报告》,2016年电商交易额超过20万亿,商品评论数以亿计算。电商评论已成为用户表达商品体验的重要渠道,如何通过如此庞大数量的数据来获知人们目前正在关注的商品体验问题,是当前研究的重点。
在现有技术中,使用基于人工设置码表的三元组检测技术是解决该问题的常用解决方案,但是由于文本信息数据量巨大,且文本信息中存在较多的表情和非规范化的语言,传统的人工设置码表的方法需要消耗大量的人力成本,极大的影响工作效率。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供基于句法分析和聚类的三元组生成方法,通过句法分析发现(特征词,情感词),通过特征词聚类,将类似的特征词聚在一起,同时降低了人工成本。
本发明的目的之二在于提供基于句法分析和聚类的三元组生成装置,通过句法分析发现(特征词,情感词),通过特征词聚类,将类似的特征词聚在一起,同时降低了人工成本。
本发明的目的之三在于提供用户终端,通过句法分析发现(特征词,情感词),通过特征词聚类,将类似的特征词聚在一起,同时降低了人工成本。
为实现上述目的之一,本发明所采用的技术方案如下:
基于句法分析和聚类的三元组生成方法,包括以下步骤:
S1、获取文本信息,清洗噪音并划分为句子;
S2、将所述句子划分为至少一个词语,以及每个词语对应的词性;
S3、按所述句子顺序将所述词语以及对应的词性作为输入,构建句法依赖树;
S4、将所述句法依赖树转换为无向图,利用宽度搜索技术生成二元组,二元组表达为(特征词,情感词);
S5、获取所述二元组中的特征词,将所述特征词转换为特征向量;
S6、将所述特征向量作为输入,通过K-Means算法进行聚类,使所述特征词聚类为对应的类别;
S7、获取所述对应的类别的ID,记为类别ID,输出三元组,三元组表达为(类别ID,特征词,情感词)。
优选的,在步骤S2中,通过开源中文分词工具将所述句子划分为至少一个词语;在步骤S3中,通过开源中文分词工具构建句法依赖树。
优选的,在步骤S4中,利用宽度搜索技术生成二元组的过程为:
以词性为形容词的词语作为起点,在所述无向图中沿路径找到其可到达的词性为名词的词语作为终点,从而生成句法模板;
将所述句法模板与预设句法模板进行匹配,若匹配成功,则将所述句法模板的首尾的词性为形容词的词语和词性为名词的词语记为二元组,其中,将词性为形容词的词语记为情感词,将词性为名词的词语记为特征词。
优选的,在步骤S5中,通过word2vec模型将所述特征词转换为特征向量。
为实现上述目的之二,本发明所采用的技术方案如下:
基于句法分析和聚类的三元组生成装置,包括以下模块:
句子划分模块,用于获取文本信息,清洗噪音并划分为句子;
词语划分模块,用于将所述句子划分为至少一个词语,以及每个词语对应的词性;
构建句法依赖树模块,用于按所述句子顺序将所述词语以及对应的词性作为输入,构建句法依赖树;
二元组生成模块,用于将所述句法依赖树转换为无向图,利用宽度搜索技术生成二元组,二元组表达为(特征词,情感词);
特征词转换模块,用于获取所述二元组中的特征词,将所述特征词转换为特征向量;
聚类模块,用于将所述特征向量作为输入,通过K-Means算法进行聚类,使所述特征词聚类为对应的类别;
三元组生成模块,用于获取所述对应的类别的ID,记为类别ID,输出三元组,三元组表达为(类别ID,特征词,情感词)。
优选的,在词语划分模块中,通过开源中文分词工具将所述句子划分为至少一个词语;在构建句法依赖树模块中,通过开源中文分词工具构建句法依赖树。
优选的,在二元组生成模块中,利用宽度搜索技术生成二元组的过程为:
以词性为形容词的词语作为起点,在所述无向图中沿路径找到其可到达的词性为名词的词语作为终点,从而生成句法模板;
将所述句法模板与预设句法模板进行匹配,若匹配成功,则将所述句法模板的首尾的词性为形容词的词语和词性为名词的词语记为二元组,其中,将词性为形容词的词语记为情感词,将词性为名词的词语记为特征词。
优选的,在特征词转换模块中,通过word2vec模型将所述特征词转换为特征向量。
为实现上述目的之三,本发明所采用的技术方案如下:
用户终端,包括:
存储器,用于存储程序指令;
处理器,用于运行所述程序指令,以执行以下步骤:
S1、获取文本信息,清洗噪音并划分为句子;
S2、将所述句子划分为至少一个词语,以及每个词语对应的词性;
S3、按所述句子顺序将所述词语以及对应的词性作为输入,构建句法依赖树;
S4、将所述句法依赖树转换为无向图,利用宽度搜索技术生成二元组,二元组表达为(特征词,情感词);
S5、获取所述二元组中的特征词,将所述特征词转换为特征向量;
S6、将所述特征向量作为输入,通过K-Means算法进行聚类,使所述特征词聚类为对应的类别;
S7、获取所述对应的类别的ID,记为类别ID,输出三元组,三元组表达为(类别ID,特征词,情感词)。
优选的,在步骤S2中,通过开源中文分词工具将所述句子划分为至少一个词语;在步骤S3中,通过开源中文分词工具构建句法依赖树。
优选的,在步骤S4中,利用宽度搜索技术生成二元组的过程为:
以词性为形容词的词语作为起点,在所述无向图中沿路径找到其可到达的词性为名词的词语作为终点,从而生成句法模板;
将所述句法模板与预设句法模板进行匹配,若匹配成功,则将所述句法模板的首尾的词性为形容词的词语和词性为名词的词语记为二元组,其中,将词性为形容词的词语记为情感词,将词性为名词的词语记为特征词。
优选的,在步骤S5中,通过word2vec模型将所述特征词转换为特征向量。
相比现有技术,本发明的有益效果在于:
附图说明
图1为本发明基于句法分析和聚类的三元组生成方法流程图;
图2为本发明实施例一中构建的句法依赖树示意图;
图3为本发明实施例一中由句法依赖树转换成的无向图示意图;
图4为本发明实施例一中的句法模板示意图;
图5为本发明基于句法分析和聚类的三元组生成装置结构图;
图6为本发明用户终端结构图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
参考图1,本发明公开了一种基于句法分析和聚类的三元组生成方法,包括以下步骤:
S1、获取文本信息,清洗噪音并划分为句子;
S2、将所述句子划分为至少一个词语,以及每个词语对应的词性;
S3、按所述句子顺序将所述词语以及对应的词性作为输入,构建句法依赖树;
S4、将所述句法依赖树转换为无向图,利用宽度搜索技术生成二元组,二元组表达为(特征词,情感词);
S5、获取所述二元组中的特征词,将所述特征词转换为特征向量;
S6、将所述特征向量作为输入,通过K-Means算法进行聚类,使所述特征词聚类为对应的类别;
S7、获取所述对应的类别的ID,记为类别ID,输出三元组,三元组表达为(类别ID,特征词,情感词)。
其中,在步骤S2中,通过开源中文分词工具(FNLP)将所述句子划分为至少一个词语;在步骤S3中,通过开源中文分词工具(FNLP)构建句法依赖树。
在步骤S4中,利用宽度搜索技术生成二元组的过程为:
以词性为形容词的词语作为起点,在所述无向图中沿路径找到其可到达的词性为名词的词语作为终点,从而生成句法模板;
将所述句法模板与预设句法模板进行匹配,若匹配成功,则将所述句法模板的首尾的词性为形容词的词语和词性为名词的词语记为二元组,其中,将词性为形容词的词语记为情感词,将词性为名词的词语记为特征词。
在步骤S5中,通过word2vec模型将所述特征词转换为特征向量。
下面结合具体例子对本实施例的方法作进一步描述:
在步骤S1中,获取的文本信息为“性价比还是比较高的,味道也不错,中秋送礼不错。”,经过清洗噪音划分为句子后得到三个句子,以第一个句子“性价比还是比较高的”作为例子结合后面的步骤进行描述。
在步骤S2中,划分为词语,即“性价比”,“还”,“是”,“比较高”,“的”,以及每个词语对应的词性,即“名词”,“副词”,“动词”,“形容词”,“语气词”。
在步骤S3中,通过FNLP构建的句法依赖树如图2所示。
在步骤S4中,句法依赖树转换成的无向图如图3所示,利用图论中的宽度搜索技术生成二元组。具体的,以形容词为起点,沿着无向图路径找到名词,即可生成句法模板,句法模板表达为([形容词]补语[动词]反_主语[名词]),如图4所示。将得到的句法模板与预设的句法模板进行匹配,预设的句法模板是通过大量经验总结得到的,匹配成功则生成有效的二元组,二元组表达为(特征词,情感词),其中特征词即为名词,情感词即为形容词。
在步骤S5中,获取二元组中的特征词,即“性价比”,通过word2vec模型将特征词转换为特征向量,word2vec模型为一种开源技术。
在步骤S6中,将特征词转换成的特征向量通过K-Means算法进行聚类,通过聚类可以使类似的特征词归为一个类别。
在步骤S7中,获取特征词聚类后对应的类别的ID,输出三元组。
通过上述方法,实现了自动特征词聚类,得到不同类别的特征词,将原来需要人工分析文本发现特征词的过程转化成根据本方法自动输出的结果进行筛选,从而降低了三元组码表设置的复杂度,提高了三元组码表设置效率,同时节约了大量的人力成本。
实施例二:
参考图5,本发明公开了一种基于句法分析和聚类的三元组生成装置,包括以下模块:
句子划分模块,用于获取文本信息,清洗噪音并划分为句子;
词语划分模块,用于将所述句子划分为至少一个词语,以及每个词语对应的词性;
构建句法依赖树模块,用于按所述句子顺序将所述词语以及对应的词性作为输入,构建句法依赖树;
二元组生成模块,用于将所述句法依赖树转换为无向图,利用宽度搜索技术生成二元组,二元组表达为(特征词,情感词);
特征词转换模块,用于获取所述二元组中的特征词,将所述特征词转换为特征向量;
聚类模块,用于将所述特征向量作为输入,通过K-Means算法进行聚类,使所述特征词聚类为对应的类别;
三元组生成模块,用于获取所述对应的类别的ID,记为类别ID,输出三元组,三元组表达为(类别ID,特征词,情感词)。
优选的,在词语划分模块中,通过开源中文分词工具将所述句子划分为至少一个词语;在构建句法依赖树模块中,通过开源中文分词工具构建句法依赖树。
优选的,在二元组生成模块中,利用宽度搜索技术生成二元组的过程为:
以词性为形容词的词语作为起点,在所述无向图中沿路径找到其可到达的词性为名词的词语作为终点,从而生成句法模板;
将所述句法模板与预设句法模板进行匹配,若匹配成功,则将所述句法模板的首尾的词性为形容词的词语和词性为名词的词语记为二元组,其中,将词性为形容词的词语记为情感词,将词性为名词的词语记为特征词。
优选的,在特征词转换模块中,通过word2vec模型将所述特征词转换为特征向量。
实施例三:
参考图6,本发明公开了一种用户终端,包括:
存储器,用于存储程序指令;
处理器,用于运行所述程序指令,以执行以下步骤:
S1、获取文本信息,清洗噪音并划分为句子;
S2、将所述句子划分为至少一个词语,以及每个词语对应的词性;
S3、按所述句子顺序将所述词语以及对应的词性作为输入,构建句法依赖树;
S4、将所述句法依赖树转换为无向图,利用宽度搜索技术生成二元组,二元组表达为(特征词,情感词);
S5、获取所述二元组中的特征词,将所述特征词转换为特征向量;
S6、将所述特征向量作为输入,通过K-Means算法进行聚类,使所述特征词聚类为对应的类别;
S7、获取所述对应的类别的ID,记为类别ID,输出三元组,三元组表达为(类别ID,特征词,情感词)。
优选的,在步骤S2中,通过开源中文分词工具将所述句子划分为至少一个词语;在步骤S3中,通过开源中文分词工具构建句法依赖树。
优选的,在步骤S4中,利用宽度搜索技术生成二元组的过程为:
以词性为形容词的词语作为起点,在所述无向图中沿路径找到其可到达的词性为名词的词语作为终点,从而生成句法模板;
将所述句法模板与预设句法模板进行匹配,若匹配成功,则将所述句法模板的首尾的词性为形容词的词语和词性为名词的词语记为二元组,其中,将词性为形容词的词语记为情感词,将词性为名词的词语记为特征词。
优选的,在步骤S5中,通过word2vec模型将所述特征词转换为特征向量。
对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims (7)

1.基于句法分析和聚类的三元组生成方法,其特征在于,包括以下步骤:
S1、获取文本信息,清洗噪音并划分为句子;
S2、将所述句子划分为至少一个词语,以及每个词语对应的词性;
S3、按所述句子顺序将所述词语以及对应的词性作为输入,构建句法依赖树;
S4、将所述句法依赖树转换为无向图,利用宽度搜索技术生成二元组,二元组表达为(特征词,情感词);
S5、获取所述二元组中的特征词,将所述特征词转换为特征向量;
S6、将所述特征向量作为输入,通过K-Means算法进行聚类,使所述特征词聚类为对应的类别;
S7、获取所述对应的类别的ID,记为类别ID,输出三元组,三元组表达为(类别ID,特征词,情感词);
在步骤S4中,利用宽度搜索技术生成二元组的过程为:
以词性为形容词的词语作为起点,在所述无向图中沿路径找到其可到达的词性为名词的词语作为终点,从而生成句法模板;
将所述句法模板与预设句法模板进行匹配,若匹配成功,则将所述句法模板的首尾的词性为形容词的词语和词性为名词的词语记为二元组,其中,将词性为形容词的词语记为情感词,将词性为名词的词语记为特征词。
2.根据权利要求1所述的基于句法分析和聚类的三元组生成方法,其特征在于,在步骤S2中,通过开源中文分词工具将所述句子划分为至少一个词语;在步骤S3中,通过开源中文分词工具构建句法依赖树。
3.根据权利要求1所述的基于句法分析和聚类的三元组生成方法,其特征在于,在步骤S5中,通过word2vec模型将所述特征词转换为特征向量。
4.基于句法分析和聚类的三元组生成装置,其特征在于,包括以下模块:
句子划分模块,用于获取文本信息,清洗噪音并划分为句子;
词语划分模块,用于将所述句子划分为至少一个词语,以及每个词语对应的词性;
构建句法依赖树模块,用于按所述句子顺序将所述词语以及对应的词性作为输入,构建句法依赖树;
二元组生成模块,用于将所述句法依赖树转换为无向图,利用宽度搜索技术生成二元组,二元组表达为(特征词,情感词);
特征词转换模块,用于获取所述二元组中的特征词,将所述特征词转换为特征向量;
聚类模块,用于将所述特征向量作为输入,通过K-Means算法进行聚类,使所述特征词聚类为对应的类别;
三元组生成模块,用于获取所述对应的类别的ID,记为类别ID,输出三元组,三元组表达为(类别ID,特征词,情感词);
在二元组生成模块中,利用宽度搜索技术生成二元组的过程为:
以词性为形容词的词语作为起点,在所述无向图中沿路径找到其可到达的词性为名词的词语作为终点,从而生成句法模板;
将所述句法模板与预设句法模板进行匹配,若匹配成功,则将所述句法模板的首尾的词性为形容词的词语和词性为名词的词语记为二元组,其中,将词性为形容词的词语记为情感词,将词性为名词的词语记为特征词。
5.根据权利要求4所述的基于句法分析和聚类的三元组生成装置,其特征在于,在词语划分模块中,通过开源中文分词工具将所述句子划分为至少一个词语;在构建句法依赖树模块中,通过开源中文分词工具构建句法依赖树。
6.用户终端,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于运行所述程序指令,以执行以下步骤:
S1、获取文本信息,清洗噪音并划分为句子;
S2、将所述句子划分为至少一个词语,以及每个词语对应的词性;
S3、按所述句子顺序将所述词语以及对应的词性作为输入,构建句法依赖树;
S4、将所述句法依赖树转换为无向图,利用宽度搜索技术生成二元组,二元组表达为(特征词,情感词);
S5、获取所述二元组中的特征词,将所述特征词转换为特征向量;
S6、将所述特征向量作为输入,通过K-Means算法进行聚类,使所述特征词聚类为对应的类别;
S7、获取所述对应的类别的ID,记为类别ID,输出三元组,三元组表达为(类别ID,特征词,情感词);
在步骤S4中,利用宽度搜索技术生成二元组的过程为:
以词性为形容词的词语作为起点,在所述无向图中沿路径找到其可到达的词性为名词的词语作为终点,从而生成句法模板;
将所述句法模板与预设句法模板进行匹配,若匹配成功,则将所述句法模板的首尾的词性为形容词的词语和词性为名词的词语记为二元组,其中,将词性为形容词的词语记为情感词,将词性为名词的词语记为特征词。
7.根据权利要求6所述的用户终端,其特征在于,在步骤S2中,通过开源中文分词工具将所述句子划分为至少一个词语;在步骤S3中,通过开源中文分词工具构建句法依赖树。
CN201711408501.3A 2017-12-22 2017-12-22 基于句法分析和聚类的三元组生成方法、装置及用户终端 Active CN108133014B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711408501.3A CN108133014B (zh) 2017-12-22 2017-12-22 基于句法分析和聚类的三元组生成方法、装置及用户终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711408501.3A CN108133014B (zh) 2017-12-22 2017-12-22 基于句法分析和聚类的三元组生成方法、装置及用户终端

Publications (2)

Publication Number Publication Date
CN108133014A CN108133014A (zh) 2018-06-08
CN108133014B true CN108133014B (zh) 2022-03-22

Family

ID=62391579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711408501.3A Active CN108133014B (zh) 2017-12-22 2017-12-22 基于句法分析和聚类的三元组生成方法、装置及用户终端

Country Status (1)

Country Link
CN (1) CN108133014B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800219A (zh) * 2019-01-18 2019-05-24 广东小天才科技有限公司 一种语料清洗的方法和装置
CN111401940B (zh) * 2020-03-05 2023-07-04 杭州网易再顾科技有限公司 特征预测方法、装置、电子设备及存储介质
CN112084389A (zh) * 2020-08-17 2020-12-15 上海交通大学 一种基于网络爬虫的学术机构地理位置信息抽取方法
CN113869034B (zh) * 2021-09-29 2022-05-20 重庆理工大学 基于强化依赖图的方面情感分类方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236722B (zh) * 2011-08-17 2014-08-27 广州索答信息科技有限公司 一种基于三元组的用户评论摘要的生成方法与系统
CN104281645B (zh) * 2014-08-27 2017-06-16 北京理工大学 一种基于词汇语义和句法依存的情感关键句识别方法
CN106156041B (zh) * 2015-03-26 2019-05-28 科大讯飞股份有限公司 热点信息发现方法及系统
CN105243129B (zh) * 2015-09-30 2018-10-30 清华大学深圳研究生院 商品属性特征词聚类方法
CN106503049A (zh) * 2016-09-22 2017-03-15 南京理工大学 一种基于svm融合多种情感资源的微博情感分类方法
CN107229610B (zh) * 2017-03-17 2019-06-21 咪咕数字传媒有限公司 一种情感数据的分析方法及装置

Also Published As

Publication number Publication date
CN108133014A (zh) 2018-06-08

Similar Documents

Publication Publication Date Title
US11556713B2 (en) System and method for performing a meaning search using a natural language understanding (NLU) framework
US11238232B2 (en) Written-modality prosody subsystem in a natural language understanding (NLU) framework
CN106776544B (zh) 人物关系识别方法及装置和分词方法
CN108133014B (zh) 基于句法分析和聚类的三元组生成方法、装置及用户终端
US20160299955A1 (en) Text mining system and tool
CN108363725B (zh) 一种用户评论观点提取和观点标签生成的方法
CN107463548B (zh) 短语挖掘方法及装置
US20210004441A1 (en) Deriving multiple meaning representations for an utterance in a natural language understanding (nlu) framework
Psomakelis et al. Comparing methods for twitter sentiment analysis
WO2017198031A1 (zh) 解析语义的方法和装置
Giannakopoulos et al. Representation models for text classification: a comparative analysis over three web document types
CN106372063A (zh) 信息处理方法、装置及终端
CN110263154A (zh) 一种网络舆情情感态势量化方法、系统及存储介质
Singh et al. Sentiment analysis using lexicon based approach
Shah et al. Sentimental analysis of twitter data using classifier algorithms
WO2014114175A1 (zh) 一种提供搜索引擎标签的方法和装置
CN111813923A (zh) 文本摘要方法、电子设备及存储介质
CN113282762A (zh) 知识图谱构建方法、装置、电子设备和存储介质
Hao et al. A dynamic conditional random field based framework for sentence-level sentiment analysis of Chinese microblog
Koto et al. The use of POS sequence for analyzing sentence pattern in Twitter sentiment analysis
JP2011065380A (ja) 意見分類装置およびプログラム
Zhang et al. Predicting author age from weibo microblog posts
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
Saloot et al. Toward tweets normalization using maximum entropy
CN115017271B (zh) 用于智能生成rpa流程组件块的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant