CN104699766B - 一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法 - Google Patents
一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法 Download PDFInfo
- Publication number
- CN104699766B CN104699766B CN201510082519.3A CN201510082519A CN104699766B CN 104699766 B CN104699766 B CN 104699766B CN 201510082519 A CN201510082519 A CN 201510082519A CN 104699766 B CN104699766 B CN 104699766B
- Authority
- CN
- China
- Prior art keywords
- word
- attribute
- msub
- notional
- mrow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000008451 emotion Effects 0.000 claims abstract description 109
- 239000011159 matrix material Substances 0.000 claims abstract description 38
- 238000012986 modification Methods 0.000 claims abstract description 30
- 230000004048 modification Effects 0.000 claims abstract description 30
- 238000013480 data collection Methods 0.000 claims abstract description 29
- 238000009412 basement excavation Methods 0.000 claims abstract description 26
- 239000000284 extract Substances 0.000 claims description 11
- 239000012141 concentrate Substances 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 239000000047 product Substances 0.000 description 30
- 238000012216 screening Methods 0.000 description 8
- 238000012552 review Methods 0.000 description 7
- 238000011105 stabilization Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000007600 charging Methods 0.000 description 3
- 230000005611 electricity Effects 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 230000006641 stabilisation Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 229910052687 Fermium Inorganic materials 0.000 description 1
- 240000000233 Melia azedarach Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- -1 clothes Substances 0.000 description 1
- ZPUCINDJVBIVPJ-LJISPDSOSA-N cocaine Chemical compound O([C@H]1C[C@@H]2CC[C@@H](N2C)[C@H]1C(=O)OC)C(=O)C1=CC=CC=C1 ZPUCINDJVBIVPJ-LJISPDSOSA-N 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- MIORUQGGZCBUGO-UHFFFAOYSA-N fermium Chemical compound [Fm] MIORUQGGZCBUGO-UHFFFAOYSA-N 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法,包括:构建语料库,并利用语料库构建当前品类产品的参考评论数据集、属性词词典、情感词词典、实词词典、属性词‑情感词修饰矩阵和属性词‑实词共现矩阵;利用构建的参考评论数据集、属性词词典、情感词词典、实词词典、属性词‑情感词修饰矩阵和属性词‑实词共现矩阵,结合分句的上下文语境依次对待分析评论数据集中需要进行隐式属性挖掘的每一条分句进行挖掘,从而得到隐式属性挖掘的结果。本发明综合利用了两种不同的词语关联关系:属性词与情感词之间的修饰关系、属性词与实词之间的共现关系,并融合分句的上下文语境进行推断,从而大大提高了隐式属性挖掘的准确率。
Description
技术领域
本发明涉及数据挖掘技术领域,具体涉及一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法。
背景技术
在观点挖掘领域,属性词挖掘和情感词挖掘是两个基本的子任务。通过属性词挖掘,能够对用户观点进行分类汇总,从而为用户提供更好的决策支持。目前,面向产品评论的属性词挖掘技术,主要分为显式属性挖掘和隐式属性挖掘两大类。显式属性挖掘相对简单,学者们已经开展了大量的研究工作。而隐式属性挖掘则十分复杂,目前相关研究工作较少。
在隐式属性挖掘方面,Liu等人在文献《Opinion observer:analyzing andcomparing opinions on the Web》中提出了通过规则挖掘(rule mining)的方式建立产品属性和属性值间的映射,比如将“heavy”映射到属性“weight”,将“big”映射到属性“size”,然后通过上述映射关系进行隐式属性的挖掘。然而,映射规则的建立需要一定的人工标注,因此,隐式属性挖掘的准确率受限于规则标注的数量和质量。此外,针对新的领域,映射规则需要重新进行人工标注,时间成本高且准确率也难以保证。
Su等人在文献《Hidden sentiment association in Chinese Web opinionmining》中提出了一种基于属性词和情感词共现关系的隐式属性挖掘方法,通过迭代地在属性词和情感词上应用相互加强聚类的算法,得到属性词簇和情感词簇,从而将单个属性词和单个情感词之间的关联关系扩展为属性词簇和情感词簇之间的关联关系。但是她们的方法并未考虑情感词之外的其它词语与属性词之间的关联关系。
仇光等人在文献《基于正则化主题建模的隐式产品属性抽取》中提出了一种基于正则化主题建模(regularized topic modeling)思想的隐式属性挖掘方法。在不需要先验知识的前提下,根据属性相关词实现隐式属性的挖掘,但是该方法并没有考虑评论分句的上下文语境。
发明内容
针对现有技术的不足,本发明提出了一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法。
一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法,包括如下步骤:
(1)构建语料库,并利用所述的语料库构建当前品类产品的参考评论数据集、属性词词典、情感词词典、实词词典、属性词-情感词修饰矩阵和属性词-实词共现矩阵,具体如下:
(1-1)获取不同品类产品的评论数据,并对获取的评论数据进行预处理;
具体过程如下:
(1-11)对评论数据的规范化处理:将评论数据中的繁体字转换为简体字,识别其中的错别字并进行更正,并对存在乱码和包含无法识别的外文单词的评论语句进行删除;
(1-12)垃圾评论过滤:利用正则表达式对含有QQ号、手机号、网站网址等信息的评论语句进行过滤;
(1-13)对评论数据进行中文分词和词性标注,然后进行停用词过滤,最后删除通篇无标点和分句过长的评论语句。
(1-2)利用预处理后的评论数据构建语料库;
本发明中构建的语料库应理解为所有预处理后的评论数据的集合。
(1-3)针对当前品类的产品,将语料库中当前品类产品的评论数据作为当前品类产品的参考评论数据集,并基于所述的参考评论数据集构建当前品类产品的属性词词典、情感词词典和实词词典;
本发明根据各个属性词、情感词和实词在所述的参考评论数据集中的出现情况构建属性词词典、情感词词典和实词词典,具体如下:
(a)通过如下操作构建属性词词典:
根据所述的参考评论数据集,利用双向迭代的方法构建初始属性词词集F和初始情感词词集O:
针对初始属性词词集F中的任意一个属性词,根据该属性词在参考评论数据集中的出现次数,利用如下公式计算出初始属性词词集F中每个属性词的TF-IDF权值:
其中,为初始属性词词集F中第i个属性词fi的TF-IDF权值,1≤i≤nF,nF为初始属性词词集F中属性词的个数。tfi为属性词fi在参考评论数据集中的归一化词频(归一化词频为属性词fi在参考评论数据集中出现次数与参考评论数据集中所有实词出现次数的比值);idfi为语料库中包含属性词fi的评论数据数量的倒数,即逆文档频率;N为所述语料库中所有品类产品评论数据的总数量,ni为所述语料库中包含属性词fi的评论数据的总数量。
将TF-IDF权值大于第一阈值的属性词筛选出来,构建出领域属性词词集,然后从初始属性词词集F剩余的属性词中人工筛选出20~30个词频较大的属性词,构建出公共属性词词集;
将所述的领域属性词词集和公共属性词词集合并(即求并集),构建出属性词词典。
本发明根据初始属性词词集F中每个属性词的TF-IDF权值,能够筛选出区分度高、领域特有的属性词。
第一阈值的取值直接影响到领域属性词词集的构建,作为优选,所述的第一阈值为0.01~0.02,进一步优选,所述的第一阈值为0.015。
最优地,从初始属性词词集F剩余的属性词中选择25个词频较大的组成公共属性词词集。具体实现时,将初始属性词词集F剩余的属性词按照词频由高到低排序,人工筛选出25个词频较高且领域通用的属性词构建出公共属性词词集。
(b)通过如下操作构建情感词词典:
利用知网的“情感分析用词语集”、大连理工大学的“情感词汇本体库”和初始情感词词集O进行交叉筛选,构建出情感词词典。
(c)通过如下操作构建实词词典:
统计所述的参考评论数据集中所有实词的词频并按降序排列,筛选出词频大于第二阈值的实词,构建出实词词典。
作为优选,第二阈值为50。
(1-4)基于所述的参考评论数据集,利用所述的属性词词典、情感词词典和实词词典构建属性词-情感词修饰矩阵和属性词-实词共现矩阵;
所述的属性词-情感词修饰矩阵中的值表示任意一个属性词与任意一个情感词在参考评论数据集中共现的次数,所述的属性词-实词共现矩阵中的值表示任意一个属性词与任意一个实词在参考评论数据集中共现的次数。
构建属性词-情感词修饰矩阵和属性词-实词共现矩阵具体包括如下操作:
(1-41)遍历所述的参考评论数据集,利用所述的属性词词典、情感词词典和实词词典,对所有出现了属性词的分句,抽取属性词-情感词修饰对和属性词-实词共现对;
(1-42)根据抽取的属性词-情感词修饰对,构建属性词-情感词修饰矩阵;根据抽取的属性词-实词共现对,构建属性词-实词共现矩阵。
本发明中抽取属性词-情感词修饰对与属性词-实词共现对时,是以分句为单位进行,依次对所述的参考评论数据集中的每一条分句进行抽取。
本发明的隐式属性挖掘方法针对不同品类的产品需要构建专有的参考评论数据集、属性词词典、情感词词典和实词词典、属性词-情感词修饰矩阵和属性词-实词共现矩阵,确保了属性词的领域相关性,并提高了隐式属性挖掘结果的准确率。
(2)依次对待分析评论数据集中的每一条分句进行处理,对当前分句进行处理时,首先利用所述的属性词词典判断当前分句是否需要进行隐式属性挖掘,若不需要,则直接处理下一条分句,否则,则进行如下操作:
(2-1)利用所述的情感词词典和属性词-情感词修饰矩阵确定当前分句的候选属性词数组Af;
(2-2)分析当前分句的上下文语境,如果其前一条分句或后一条分句中存在显式属性词fi,且则将fi加入到当前分句的候选属性词数组Af中,并将fi的上下文权值赋值为1;若fi∈Af,则增大fi的上下文权值1≤i≤nf,nf表示候选属性词数组Af中属性词的个数;
(2-3)利用所述的情感词词典和实词词典构建当前分句的实词数组At,针对当前分句的候选属性词数组Af中的每一个属性词,根据属性词和实词的共现次数、实词数组At中每个实词在参考评论数据集中的出现情况以及属性词的上下文权值计算该属性词与实词数组At中每个实词的加权关联值,并选取加权关联值最大的候选属性词作为当前分句的隐式挖掘结果。
本发明通过以下方法判断当前分句是否需要进行隐式属性挖掘:
首先判断该分句是否为观点句,如果不是观点句,则不需要进行隐式属性挖掘;如果是观点句,则利用正则表达式判断该分句是否表期望、祝愿或假想:如果是,则不需要进行隐式属性挖掘;如果不是,则需要进行隐式属性挖掘。
本发明中根据待分析评论文本自身的停顿、断句情况,确定每一条分句的范围。
所述步骤(2-1)包括如下操作:
(2-11)利用所述的情感词词典,抽取当前分句中所有的情感词形成情感词数组Ao;
(2-12)利用如下公式计算当前分句的情感词数组Ao中每一个情感词与其修饰的任意一个属性词fi之间的点态互信息值:
其中,1≤i≤n,n为属性词词典中属性词的个数,oj为情感词数组Ao中的情感词,1≤j≤no,no表示情感词数组Ao中情感词的个数,P(fi,oj)为属性词fi和情感词oj在所述的参考评论数据集中共现的次数,P(fi,oj)是从所述的属性词-情感词修饰矩阵读取得到的,P(fi)、P(oj)分别为属性词fi和情感词oj在所述的参考评论数据集中出现的次数;
(2-13)根据情感词数组Ao中每个情感词与其修饰的属性词之间的点态互信息值,选取点态互信息值最高的3个属性词作为候选属性词,然后将根据情感词数组Ao中所有情感词选取的候选属性词进行融合,删除其中重复的属性词构建出当前分句的候选属性词数组Af,并将Af中每一个属性词fi的上下文权值的初值赋为1。
本发明步骤(2-2)中,如果fi∈Af,则说明利用词语关联关系挖掘出来的候选属性词数组Af中包含了利用上下文语境推断出来的属性词fi,fi成为当前分句隐式属性词的可能性较大,因此增大fi的上下文权值,作为优选,所述步骤(2-2)中,若fi∈Af,则增大fi的上下文权值为原来的2倍。
(2-31)利用所述的实词词典,抽取当前分句中所有的实词形成实词数组At,并删除实词数组At中的情感词;
(2-32)利用如下公式计算候选属性词数组Af中的每一个属性词与实词数组At中所有实词的关联值:
其中,T(fi)为属性词fi与实词数组At中所有实词的关联值,tk为实词数组At中的实词,1≤i≤nf,nf表示候选属性词数组Af中属性词的个数,1≤k≤v,v表示实词数组At中实词的个数,P(fi|tk)为所述的参考评论数据集中属性词fi与实词数组At中实词tk共现情况下的条件概率,根据如下公式计算:
其中,nc表示所述的参考评论数据集中属性词fi和实词tk的共现次数,nc从所述属性词-实词共现矩阵中读取得到,表示实词tk在参考评论数据集中出现的次数,nn表示实词词典中所有实词在参考评论数据集中出现的次数;
(2-33)对于候选属性词数组Af中的每一个候选属性词fi,用如下公式计算其与实词数组At中所有实词的加权关联值T'(fi):
其中,为每个候选属性词fi的上下文权值,1≤i≤nf,nf表示候选属性词数组Af中属性词的个数。并根据计算结果选取加权关联值最大的候选属性词作为当前分句的隐式属性挖掘结果。
未作特殊说明,本发明中某词(包括实词、情感词和属性词)的词频为该词在当前品类产品评论数据集中出现的次数。
未作特殊说明,本发明中的评论语句指的是获取的一条评论,评论数据则是指若干条评论语句的集合。
与现有技术相比,本发明具有如下优点:
(1)首先对分句进行非观点句以及表期望、祝愿或假想的语句的识别,对上述几类分句不进行隐式属性推断,不仅减少了工作量,还提高了隐式属性挖掘的准确率;
(2)利用情感词与属性词之间的修饰关系获得多个候选属性词,再根据候选属性词与实词的共现关系进行隐式属性挖掘,这种方法综合利用了两种不同的词语关联关系,能够有效地提高隐式属性挖掘的准确率;
(3)综合考虑分句的上下文语境,通过调整候选属性词的上下文权值,能够进一步提高隐式属性挖掘的准确率。
附图说明
图1为本实施例的融合词语关联关系和上下文语境推断的隐式属性挖掘方法的流程图;
图2为对评论数据进行预处理的流程图;
图3为构建属性词词典、情感词词典和实词词典的流程图;
图4为计算候选属性词上下文权值的流程图;
图5为计算候选属性词加权关联值的流程图。
具体实施方式
下面结合附图和具体实施例,对本发明的具体实施方式做进一步详细描述。
本实施例中以淘宝网上抓取的手机类产品评论为例进行说明。
如图1所示,本实施例的融合词语关联关系和上下文语境推断的隐式属性挖掘方法包括以下步骤:
(1)从网站(本实施例中为淘宝网)上抓取不同品类产品的评论数据,包括服装、珠宝、家电、手机、数码等不同品类,并对获取的评论数据进行预处理,形成语料库S。针对评论数据的预处理流程如图2所示,包括如下步骤:
(1-1)评论数据的规范化处理:将评论数据中的繁体字转换为简体字,识别其中的错别字并进行更正,并对存在乱码和包含无法识别的外文单词的的评论语句进行删除。
下面分别举例进行说明:
(a)繁简体转换:“爸爸非常喜歡这个手机”,分句中的“歡”为繁体字,经过繁简体转换后,输出为“爸爸非常喜欢这个手机”。
(b)错别字识别及更正:“手机反映很慢”,分句中的“反映”应为“反应”,经过识别更正后,输出为“手机反应很慢”。
(c)乱码语句的识别与删除:“簲璇ュお蹇欎简锛岃伞镣硅兘鐞呜В銆备笉澶氲锛屽緢婊℃剰镄勪竴娆喘鐗+纴濂借瘎锛屽叏5鍒嗐?”,该评论语句中包含乱码,直接将其删除。
(1-2)垃圾评论过滤:利用正则表达式对含有QQ号、手机号、网站网址等信息的评论语句进行过滤。其中识别手机号码的正则表达式为“(13|18|15|17)[0-9]{9}”,该表达式能识别出包含以13、18、15、17开头的11位数字串的评论语句。识别QQ号的正则表达式为“.*qq.*[1-9][0-9]{4,}|.*QQ.*[1-9][0-9]{4,}|.*扣扣.*[1-9][0-9]{4,}”,其中“[1-9][0-9]{4,}”表示5位以上的连续数字串,如果连续数字串前面出现“QQ”、“qq”或“扣扣”等关键字时,即判定该连续数字串为QQ号码,该评论语句为垃圾评论,并进行删除。
例如:“在【321fanli.cn】拿了返利,通过【321fanli.cn】找到这款宝贝返了不少钱!记住【网址:321fanli.cn】直接输入到浏览器里-----帮他们宣传评价还有奖励,联系QQ:15325973793。”这条评论语句中出现了网站网址和QQ号,属于垃圾评论,利用上述正则表达式将其识别并删除。
(1-3)对评论数据进行中文分词和词性标注,然后进行停用词过滤,最后删除通篇无标点和分句过长的评论语句。
例如:“手机/n买/v了/u好/d久/a了/u才/d来/v评论/v不好意思/a啊/y手机/n很/d好用/a用/v了/u几/m天/q了/u爸爸/n很/d喜欢/a”,这条评论语句通篇没有标点而且长度过长,很容易产生错误的分析结果,因此将其删除。
(2)根据步骤(1)中构建的语料库S,利用其中手机类产品的参考评论数据集Sphone,构建手机类的属性词词典Dic_F、情感词词典Dic_O和实词词典Dic_T,具体步骤如图3所示:
(2-1)利用双向迭代的方法构建初始属性词词集F和初始情感词词集O:
首先人工选定1~2个(本实施例中为2个)种子属性词加入到初始属性词词集F中。对于F中的每一个属性词fi,遍历手机类产品的参考评论数据集Sphone中的评论语句,逐个找出修饰属性词fi的情感词oj。如果则将oj加入到初始情感词词集O中;
反之,对于初始情感词词集O中的每一个情感词oj,遍历手机类产品的参考评论数据集Sphone中的评论语句,逐个找出被它修饰的属性词fi。如果则将fi加入到初始属性词词集F中。如此反复迭代,直到F和O中的词数都不再增加为止。
本实施例中构建的语料库实际上为所获取的全部品类产品的、预处理后的评论数据集合,手机类参考评论数据集实际上为语料库中所有手机类产品评论数据的集合。
例如:选择“手机”、“服务”作为种子词进行双向迭代,最终可以获得初始属性词词集F和初始情感词词集O。
(2-2)利用如下公式:
计算出初始属性词词集F中每个属性词的TF-IDF权值,其中,为初始属性词词集F中第i个属性词fi的TF-IDF权值,1≤i≤nF,nF为初始属性词词集F中属性词的个数。tfi为属性词fi在手机类产品参考评论数据集Sphone中的归一化词频(归一化词频为属性词fi在参考评论数据集Sphone中出现次数与参考评论数据集Sphone中所有实词出现次数的比值);idfi为语料库S中包含属性词fi的评论数据数量的倒数,即逆文档频率;N为语料库S中所有品类产品评论数据的总数量,ni为语料库S中包含属性词fi的评论数据的总数量。
接下来,根据计算结果(各个属性词的TF-IDF权值)利用阈值进行筛选,将大于第一阈值0.015的属性词筛选出来,构建成领域属性词词集。将小于或等于第一阈值的属性词加入到公共属性词候选词集,并对公共属性词候选词集进行人工筛选得到公共属性词词集。
人工筛选方法如下:将初始属性词词集F中剩余的全部属性词(即公共属性词候选词集中的属性词)按词频(即该属性词在手机类产品参考评论数据集Sphone中出现的次数)排序(本实施例中按降序排列,即按由高至低的顺序排列),并人工筛选出领域通用的属性词成公共属性词词集。
最后,将领域属性词词集和公共属性词词集合并,构建出属性词词典Dic_F。
例如:“手机”、“屏幕”、“按键”等词的TF-IDF权值高于第一阈值,将其筛选出来加入到领域属性词词集中。“宝贝”、“物流”等词的TF-IDF权值低于第一阈值,经过人工筛选后将其加入到公共属性词词集中。最后将领域属性词词集和公共属性词词集合并,构建出属性词词典Dic_F。
(2-3)利用知网的“情感分析用词语集”、大连理工大学的“情感词汇本体库”和初始情感词词集O进行交叉筛选,构建出情感词词典Dic_O。
将同时出现在初始情感词词集O和知网“情感分析用词语集”中的情感词加入到情感词词典Dic_O中。同理,将同时出现在初始情感词词集O和大连理工大学“情感词汇本体库”中的情感词也加入到情感词词典Dic_O中。删除情感词词典Dic_O中重复的情感词,完成情感词词典Dic_O的构建。
(2-4)统计手机类产品的参考评论数据集Sphone中所有实词的词频(即每个实词在Sphone中出现的次数)并按降序排列,筛选出词频大于第二阈值(本实施例中第二阈值为50)的实词,构建出实词词典Dic_T。
(3)利用手机类产品的参考评论数据集Sphone构建属性词-情感词修饰矩阵MFO和属性词-实词共现矩阵MFT:
(3-1)遍历手机类产品的参考评论数据集Sphone,利用步骤(2)中构建的词典(包括属性词词典Dic_F、情感词词典Dic_O和实词词典Dic_T),抽取出属性词-情感词修饰对和属性词-实词共现对。
本实施例中以“电池/n充电/v的/u时候/n很/d不/d稳定/a,/w”为例,抽取结果如下:
属性词-情感词修饰对:“电池-稳定”;
属性词-实词共现对:“电池-充电”、“电池-时候”、“电池-稳定”。
(3-2)根据抽取出的属性词-情感词修饰对,构建属性词-情感词修饰矩阵MFO;根据抽取出的属性词-实词共现对,构建属性词-实词共现矩阵MFT。
本实施例中:如上文抽取出的属性词-情感词修饰对“电池-稳定”,找到“电池”在属性词词典Dic_F中的位置i,找到“稳定”在情感词词典Dic_O中的位置j。每当抽取出“电池-稳定”这个属性词-情感词修饰对时,则将矩阵MFO第i行第j列上元素的值加1。同理,根据抽取出的属性词-实词共现对,每当抽取出相应的属性词-实词对时,则将属性词-实词共现矩阵MFT中相应位置上元素的值加1。
(4)重新从淘宝网抓取少量的手机类产品评论数据(本实施例中为5000条,这部分评论数据并不包含在Sphone中),并按照步骤(1)中的方法进行预处理,构建待分析评论数据集D。逐条读取待分析评论数据集D中的评论分句,并按照如下步骤进行分析,直到最后一条分句处理完为止:
处理当前评论分句时,首先读入当前评论分句(即分句),逐词匹配属性词词典Dic_F,如果该评论分句中没有出现显式属性词,则按照以下步骤获得候选属性词数组Af;
显式属性词指的是评论分句中显式出现的产品属性词,例如:“价格太贵”中的“价格”显式地出现在分句中,根据属性词词典Dic_F能够直接被抽取出来,因此为显式属性词。在“手机很好,就是太贵了!”这条评论的第二个分句中,“贵”是修饰“价格”的,但是“价格”这个属性词并没有显式地出现在该分句中,需要进行隐式属性挖掘才能获得,因此为隐式属性词。
(4-1)首先判断该评论分句是否为观点句:
若是非观点句,则不进行隐式属性挖掘,继续读入下一条分句;
若是观点句,则利用正则表达式进行如下判断:
如果该评论分句表期望、祝愿或假想,则该分句也不进行隐式属性挖掘,继续读入下一条分句;
否则进行隐式属性挖掘,并根据情感词词典Dic_O抽取该分句中所有的情感词,形成该分句的情感词数组Ao。
下面分别举例进行说明:
(a)非观点句:“我/r这/r几/m天/q出差/v了/y。”当前分句没有情感词,因此为非观点句,不进行隐式属性挖掘。
(b)观点句:“要是/c再/d便宜/a一点/m就/d好/a了/u。/w”,分句中出现了表假想的句式“要是……就……”,因此不进行隐式属性挖掘。
(c)对于需要进行隐式属性挖掘的分句,抽取其中所有的情感词,构成该分句的情感词数组,例如:“很/d不/d耐用/a。/w”,该分句出现了情感词“耐用”,但是没有显式属性词,因此需要进行隐式属性挖掘。从分句中抽取出“耐用”,构成该分句的情感词数组Ao={耐用}。
(4-2)根据步骤(3)中构建的属性词-情感词修饰矩阵MFO,利用如下公式计算该分句的情感词数组Ao中每个情感词与其修饰的任意一个属性词fi之间的点态互信息值PMI(fi,oj)(PMI值,Point Mutual Information):
其中,1≤i≤n,n为属性词词典中属性词的个数,oj为情感词数组Ao中的情感词,P(fi,oj)为属性词fi和情感词oj在手机类产品的参考评论数据集Sphone中共现的次数(从属性词-情感词修饰矩阵MFO中读取得到),P(fi)、P(oj)分别为属性词fi和情感词oj在手机类产品参考评论数据集Sphone中出现的次数(即词频)。
根据计算结果(每个情感词与其修饰的属性词之间的PMI值),针对该分句的情感词数组Ao中的每一个情感词,将与其PMI值最高的3个属性词加入到该分句的候选属性词数组Af中。全部加入完成后,删除其中重复的属性词,构建得到该分句的候选属性词数组Af,并将该分句的候选属性词数组Af中每个候选属性词fi的上下文权值的初值赋为1。
例如:计算“耐用”与其有修饰关系的所有属性词的PMI值,并筛选出PMI值最高的3个属性词作为该分句的候选属性词:
PMI(电池)=log(918/6242)=-0.8325,
PMI(电板)=log(24/337)=-1.1474,
PMI(机子)=log(6/9616)=-3.2048。
最终构建出的候选属性词数组Af=[电池,电板,机子]。
(5)计算属性词fi的上下文权重,如图4所示,首先读入上下文分句(即当前分句的前一条分句和后一条分句),判断上下文分句中是否存在显式属性词:
如果其上下文分句中存在某个显式属性词fi且则抽取该显式属性词fi,并将属性词fi加入到候选属性词数组Af中,并将其上下文权值赋值为1。如果fi∈Af,则将fi的上下文权值翻倍。
例如:“电池/n充电/v的/u时候/n很/d不/d稳定/a,/w很/d不/d耐用/a。/w”,针对分句“很/d不/d耐用/a。/w”,根据上下文语境,可得其上下文属性词为“电池”,“电池”∈Af,则将“电池”的上下文权值翻倍,即w电池=2。
(6)计算候选属性词数组Af中的每一个候选属性词与当前分句中出现的实词之间的关联值,如图5所示,具体步骤如下:
(6-1)利用步骤(2)中构建的实词词典Dic_T抽取当前分句中所有的实词,并根据情感词词典Dic_O删除其中所有的情感词,形成实词数组At。
例如:“电池/n太/d不/d给力/a,/w一下/m就/d没/v电/n了/u很/d不/d耐用/a。/w”,抽取出第二个分句中所有的实词:“一下”、“没”、“电”、“耐用”,并删除其中的情感词“耐用”,形成实词数组At=[一下,没,电]。
(6-2)对于候选属性词数组Af中的每一个属性词fi,根据如下公式计算其与实词数组At中所有实词的关联值T(fi):
其中,1≤i≤nf,nf表示候选属性词数组Af中候选属性词的个数,1≤k≤v,v表示实词数组At中实词的个数,P(fi|tk)表示手机类产品的参考评论数据集Sphone中属性词fi与实词数组At中的实词tk共现情况下的条件概率。
本实施例中,P(fi|tk)根据如下公式进行计算:
其中,nc表示属性词fi和实词tk共现的次数(从属性词-实词共现矩阵MFT中读取得到),表示实词tk在参考评论数据集Sphone中出现的次数(即词频),nn表示实词词典Dic_T中所有实词的在参考评论数据集Sphone中出现的次数。
(6-3)对于候选属性词数组Af中的每一个候选属性词fi,用如下公式计算其与实词数组At中所有实词的加权关联值T'(fi):
其中,为候选属性词fi的上下文权值,1≤i≤nf,nf表示候选属性词数组Af中属性词的个数。根据计算结果,选取加权关联值最大的候选属性词作为隐式属性的挖掘结果,并输出。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法,其特征在于,包括如下步骤:
(1)构建语料库,并利用所述的语料库构建当前品类产品的参考评论数据集、属性词词典、情感词词典、实词词典、属性词-情感词修饰矩阵和属性词-实词共现矩阵;
(2)依次对待分析评论数据集中的每一条分句进行处理,对当前分句进行处理时,首先利用所述的属性词词典判断当前分句是否需要进行隐式属性挖掘,通过以下方法判断当前分句是否需要进行隐式属性挖掘:
首先判断该分句是否为观点句,如果不是观点句,则不需要进行隐式属性挖掘;如果是观点句,则利用正则表达式判断该分句是否表期望、祝愿或假想:如果是,则不需要进行隐式属性挖掘;如果不是,则需要进行隐式属性挖掘;
若不需要,则直接处理下一条分句,否则,进行如下操作:
(2-1)利用所述的情感词词典和属性词-情感词修饰矩阵确定当前分句的候选属性词数组Af;
步骤(2-1)包括如下操作:
(2-11)利用所述的情感词词典,抽取当前分句中所有的情感词形成情感词数组Ao;
(2-12)利用如下公式计算当前分句的情感词数组Ao中每一个情感词与其修饰的任意一个属性词fi之间的点态互信息值:
<mrow>
<mi>P</mi>
<mi>M</mi>
<mi>I</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>f</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>o</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>l</mi>
<mi>o</mi>
<mi>g</mi>
<mfrac>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>f</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>o</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>f</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>o</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
其中,1≤i≤n,n为属性词词典中属性词的个数,oj为情感词数组Ao中的情感词,1≤j≤no,no为情感词数组Ao中情感词的个数,P(fi,oj)为属性词fi和情感词oj在所述的参考评论数据集中共现的次数,P(fi,oj)是从所述的属性词-情感词修饰矩阵中读取得到的,P(fi)、P(oj)分别为属性词fi和情感词oj在所述的参考评论数据集中出现的次数;
(2-13)根据情感词数组Ao中每个情感词与其修饰的属性词之间的点态互信息值,选取点态互信息值最高的3个属性词作为候选属性词,然后将根据情感词数组Ao中所有情感词选取的候选属性词进行融合,删除其中重复的属性词构建出当前分句的候选属性词数组Af,并将Af中每一个属性词fi的上下文权值的初值赋为1;
(2-2)分析当前分句的上下文语境,如果其前一条分句或后一条分句中存在显式属性词fi,且则将fi加入到当前分句的候选属性词数组Af中,并将fi的上下文权值赋值为1;若fi∈Af,则增大fi的上下文权值1≤i≤nf,nf表示候选属性词数组Af中属性词的个数;
(2-3)利用所述的情感词词典和实词词典构建当前分句的实词数组At,针对当前分句的候选属性词数组Af中的每一个属性词,根据属性词和实词的共现次数、实词数组At中每个实词在参考评论数据集中的出现情况以及属性词的上下文权值计算该属性词与实词数组At中所有实词的加权关联值,并选取加权关联值最大的候选属性词作为当前分句的隐式属性挖掘结果;
步骤(2-3)包括如下操作:
(2-31)利用所述的实词词典,抽取当前分句中所有的实词形成实词数组At,并删除实词数组At中的情感词;
(2-32)利用如下公式计算候选属性词数组Af中的每一个属性词fi与实词数组At中所有实词的关联值:
<mrow>
<mi>T</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>f</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>v</mi>
</munderover>
<mfrac>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>f</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<msub>
<mi>t</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mi>v</mi>
</mfrac>
<mo>,</mo>
</mrow>
其中,T(fi)为属性词fi与实词数组At中所有实词的关联值,tk为实词数组At中的实词,1≤i≤nf,nf表示候选属性词数组Af中属性词的个数,1≤k≤v,v表示实词数组At中实词的个数,P(fi|tk)为所述的参考评论数据集中属性词fi与实词数组At中实词tk共现情况下的条件概率,根据如下公式计算:
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>f</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<msub>
<mi>t</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>f</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>t</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>t</mi>
<mi>k</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>=</mo>
<mfrac>
<mrow>
<msub>
<mi>n</mi>
<mi>c</mi>
</msub>
<mo>/</mo>
<msub>
<mi>n</mi>
<mi>n</mi>
</msub>
</mrow>
<mrow>
<msub>
<mi>n</mi>
<msub>
<mi>t</mi>
<mi>k</mi>
</msub>
</msub>
<mo>/</mo>
<msub>
<mi>n</mi>
<mi>n</mi>
</msub>
</mrow>
</mfrac>
<mo>=</mo>
<mfrac>
<msub>
<mi>n</mi>
<mi>c</mi>
</msub>
<msub>
<mi>n</mi>
<msub>
<mi>t</mi>
<mi>k</mi>
</msub>
</msub>
</mfrac>
<mo>,</mo>
</mrow>
其中,nc表示所述的参考评论数据集中属性词fi和实词tk的共现次数,nc从所述属性词-实词共现矩阵中读取得到,表示实词tk在参考评论数据集中出现的次数,nn表示实词词典中所有实词在参考评论数据集中出现的次数;
(2-33)对于候选属性词数组Af中的每一个候选属性词fi,用如下公式计算其与实词数组At中所有实词的加权关联值T'(fi):
<mrow>
<msup>
<mi>T</mi>
<mo>&prime;</mo>
</msup>
<mrow>
<mo>(</mo>
<msub>
<mi>f</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msub>
<mi>w</mi>
<msub>
<mi>f</mi>
<mi>i</mi>
</msub>
</msub>
<mo>&times;</mo>
<mi>T</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>f</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
其中,为每个候选属性词fi的上下文权值,1≤i≤nf,nf表示候选属性词数组Af中属性词的个数,并根据计算结果选取加权关联值最大的候选属性词作为当前分句的隐式属性挖掘结果。
2.如权利要求1所述的融合词语关联关系和上下文语境推断的隐式属性挖掘方法,其特征在于,所述步骤(1)包括如下操作:
(1-1)获取不同品类产品的评论数据,并对获取的评论数据进行预处理;
(1-2)利用所有预处理后的评论数据构建语料库;
(1-3)针对当前品类的产品,将语料库中当前品类产品的评论数据作为当前品类产品的参考评论数据集,并基于所述的参考评论数据集构建当前品类产品的属性词词典、情感词词典和实词词典;
(1-4)基于所述的参考评论数据集,利用所述的属性词词典、情感词词典和实词词典构建属性词-情感词修饰矩阵和属性词-实词共现矩阵;
所述的属性词-情感词修饰矩阵中的值表示任意一个属性词与任意一个情感词在参考评论数据集中共现的次数,所述的属性词-实词共现矩阵中的值表示任意一个属性词与任意一个实词在参考评论数据集中共现的次数。
3.如权利要求2所述的融合词语关联关系和上下文语境推断的隐式属性挖掘方法,其特征在于,所述步骤(1-1)对评论数据进行预处理如下:
(1-11)对评论数据的规范化处理:将评论数据中的繁体字转换为简体字,识别其中的错别字并进行更正,并对存在乱码和包含无法识别的外文单词的评论语句进行删除;
(1-12)垃圾评论过滤:利用正则表达式对含有QQ号、手机号、网站网址信息的评论语句进行过滤;
(1-13)对评论数据进行中文分词和词性标注,然后进行停用词过滤,最后删除通篇无标点和分句过长的评论语句。
4.如权利要求2所述的融合词语关联关系和上下文语境推断的隐式属性挖掘方法,其特征在于,所述步骤(1-3)根据各个实词、属性词和情感词在所述的参考评论数据集中的出现情况构建属性词词典、情感词词典和实词词典。
5.如权利要求2所述的融合词语关联关系和上下文语境推断的隐式属性挖掘方法,其特征在于,所述步骤(1-4)包括如下操作:
(1-41)遍历所述的参考评论数据集,利用所述的属性词词典、情感词词典和实词词典,对所有出现了属性词的分句,抽取属性词-情感词修饰对和属性词-实词共现对;
(1-42)根据抽取的属性词-情感词修饰对,构建属性词-情感词修饰矩阵;根据抽取的属性词-实词共现对,构建属性词-实词共现矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510082519.3A CN104699766B (zh) | 2015-02-15 | 2015-02-15 | 一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510082519.3A CN104699766B (zh) | 2015-02-15 | 2015-02-15 | 一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104699766A CN104699766A (zh) | 2015-06-10 |
CN104699766B true CN104699766B (zh) | 2018-01-02 |
Family
ID=53346887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510082519.3A Expired - Fee Related CN104699766B (zh) | 2015-02-15 | 2015-02-15 | 一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104699766B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407236B (zh) * | 2015-08-03 | 2019-07-23 | 北京众荟信息技术股份有限公司 | 一种面向点评数据的情感倾向性检测方法 |
CN105183847A (zh) * | 2015-09-07 | 2015-12-23 | 北京京东尚科信息技术有限公司 | 网络评论数据的特征信息采集方法和装置 |
CN105354183A (zh) * | 2015-10-19 | 2016-02-24 | Tcl集团股份有限公司 | 一种家电产品互联网评论的分析方法、装置及系统 |
CN105868185A (zh) * | 2016-05-16 | 2016-08-17 | 南京邮电大学 | 一种购物评论情感分析中基于词性标注的词典构建方法 |
CN106066870B (zh) * | 2016-05-27 | 2019-03-15 | 南京信息工程大学 | 一种语境标注的双语平行语料库构建系统 |
CN107766318B (zh) * | 2016-08-17 | 2021-03-16 | 北京金山安全软件有限公司 | 一种关键词的抽取方法、装置及电子设备 |
CN106407438A (zh) * | 2016-09-28 | 2017-02-15 | 珠海迈越信息技术有限公司 | 一种数据处理方法及系统 |
CN107391575B (zh) * | 2017-06-20 | 2020-08-04 | 浙江理工大学 | 一种基于词向量模型的隐式特征识别方法 |
CN107526721B (zh) * | 2017-06-21 | 2020-07-10 | 深圳美云智数科技有限公司 | 一种对电商产品评论词汇的歧义消除方法及装置 |
CN109670542A (zh) * | 2018-12-11 | 2019-04-23 | 田刚 | 一种基于评论外部信息的虚假评论检测方法 |
CN109933788B (zh) * | 2019-02-14 | 2023-05-23 | 北京百度网讯科技有限公司 | 类型确定方法、装置、设备和介质 |
CN110399491A (zh) * | 2019-07-19 | 2019-11-01 | 电子科技大学 | 一种基于特征词共现图的微博事件演化分析方法 |
CN110706028A (zh) * | 2019-09-26 | 2020-01-17 | 四川长虹电器股份有限公司 | 基于属性特征的商品评价情感分析系统 |
CN112328658B (zh) * | 2020-11-03 | 2023-08-08 | 北京百度网讯科技有限公司 | 用户档案数据处理方法、装置、设备及存储介质 |
CN112529627B (zh) * | 2020-12-16 | 2023-06-13 | 中国联合网络通信集团有限公司 | 商品隐式属性抽取方法、装置、计算机设备及存储介质 |
CN113378542B (zh) * | 2021-02-05 | 2022-04-01 | 中国司法大数据研究院有限公司 | 一种裁判文书质量评测的方法和装置 |
CN113298365B (zh) * | 2021-05-12 | 2023-12-01 | 北京信息科技大学 | 一种基于lstm的文化附加值评估方法 |
CN113112310A (zh) * | 2021-05-12 | 2021-07-13 | 北京大学 | 一种商品服务文化附加值评估方法、装置和系统 |
CN113191145B (zh) * | 2021-05-21 | 2023-08-11 | 百度在线网络技术(北京)有限公司 | 关键词的处理方法、装置、电子设备和介质 |
CN114298012B (zh) * | 2021-12-31 | 2022-10-25 | 中国电子科技集团公司电子科学研究院 | 生成长文本科技情报模型的优化方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7756879B2 (en) * | 2004-07-23 | 2010-07-13 | Jeffrey Parsons | System and method for estimating user ratings from user behavior and providing recommendations |
CN102682074A (zh) * | 2012-03-09 | 2012-09-19 | 浙江大学 | 一种基于流形学习的产品隐式属性识别方法 |
CN102591472B (zh) * | 2011-01-13 | 2014-06-18 | 新浪网技术(中国)有限公司 | 一种汉字输入方法和装置 |
-
2015
- 2015-02-15 CN CN201510082519.3A patent/CN104699766B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7756879B2 (en) * | 2004-07-23 | 2010-07-13 | Jeffrey Parsons | System and method for estimating user ratings from user behavior and providing recommendations |
CN102591472B (zh) * | 2011-01-13 | 2014-06-18 | 新浪网技术(中国)有限公司 | 一种汉字输入方法和装置 |
CN102682074A (zh) * | 2012-03-09 | 2012-09-19 | 浙江大学 | 一种基于流形学习的产品隐式属性识别方法 |
Non-Patent Citations (1)
Title |
---|
《面向电子商务评论文本的观点挖掘系统研究与实现》;朱卫祥;《中国优秀硕士学位论文全文数据库 信息科技辑 》;20131215(第12期);I138-311 * |
Also Published As
Publication number | Publication date |
---|---|
CN104699766A (zh) | 2015-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104699766B (zh) | 一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法 | |
CN107609121B (zh) | 基于LDA和word2vec算法的新闻文本分类方法 | |
Hai et al. | Identifying features in opinion mining via intrinsic and extrinsic domain relevance | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN107193801A (zh) | 一种基于深度信念网络的短文本特征优化及情感分析方法 | |
CN100595760C (zh) | 一种获取口语词条的方法、装置以及一种输入法系统 | |
CN107133213A (zh) | 一种基于算法的文本摘要自动提取方法与系统 | |
CN108363725B (zh) | 一种用户评论观点提取和观点标签生成的方法 | |
CN103425763B (zh) | 基于sns的用户推荐方法及装置 | |
CN102831234A (zh) | 基于新闻内容和主题特征的个性化新闻推荐装置和方法 | |
CN106599041A (zh) | 基于大数据平台的文本处理及检索系统 | |
CN104281653A (zh) | 一种针对千万级规模微博文本的观点挖掘方法 | |
CN107423282A (zh) | 基于混合特征的文本中语义连贯性主题与词向量并发提取方法 | |
CN101593200A (zh) | 基于关键词频度分析的中文网页分类方法 | |
CN107066555A (zh) | 面向专业领域的在线主题检测方法 | |
CN107273474A (zh) | 基于潜在语义分析的自动摘要抽取方法及系统 | |
CN103970730A (zh) | 一种从单个中文文本中提取多主题词的方法 | |
CN109446333A (zh) | 一种实现中文文本分类的方法及相关设备 | |
CN106126502A (zh) | 一种基于支持向量机的情感分类系统及方法 | |
CN105740227A (zh) | 一种求解中文分词中新词的遗传模拟退火方法 | |
CN105975475A (zh) | 基于中文短语串的细粒度主题信息抽取方法 | |
CN101957812A (zh) | 基于事件本体的动词语义信息提取方法 | |
CN101556596A (zh) | 一种输入法系统及智能组词的方法 | |
CN109086355A (zh) | 基于新闻主题词的热点关联关系分析方法及系统 | |
CN109299248A (zh) | 一种基于自然语言处理的商业情报收集方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180102 Termination date: 20190215 |