CN105243129A - 商品属性特征词聚类方法 - Google Patents

商品属性特征词聚类方法 Download PDF

Info

Publication number
CN105243129A
CN105243129A CN201510638459.9A CN201510638459A CN105243129A CN 105243129 A CN105243129 A CN 105243129A CN 201510638459 A CN201510638459 A CN 201510638459A CN 105243129 A CN105243129 A CN 105243129A
Authority
CN
China
Prior art keywords
word
feature words
item property
property feature
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510638459.9A
Other languages
English (en)
Other versions
CN105243129B (zh
Inventor
杨余久
袁威强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Tsinghua University
Original Assignee
Shenzhen Graduate School Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Tsinghua University filed Critical Shenzhen Graduate School Tsinghua University
Priority to CN201510638459.9A priority Critical patent/CN105243129B/zh
Publication of CN105243129A publication Critical patent/CN105243129A/zh
Application granted granted Critical
Publication of CN105243129B publication Critical patent/CN105243129B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种商品属性特征词聚类方法,包括如下步骤:所述方法包括,A1:从相关电商网站获取目标商品的评论文本,进行数据预处理;A2:选取含有商品属性特征词语的评论文本,对商品属性特征词进行人工标注,作为获取词性模板的训练样本;A3:根据A2中人工标注的数据进行词性模板训练;A4:利用A1中得到的数据训练语言模型,获得词语的向量表示;A5:利用A4中得到的词语向量,对A3中得到的商品属性特征词进行聚类,得到目标商品的最终属性特征词集合。本发明的方法可以于应用在基于商品评论文本的商品推荐系统,通过聚类可以减少商品属性特征词数目,从而降低特征维度以及特征稀疏性,使所设计的推荐系统具有更加快速和准确的性能。

Description

商品属性特征词聚类方法
技术领域
本发明涉及计算机数据处理和数据挖掘领域,尤其是一种商品属性特征词聚类方法。
背景技术
商品评论数据的挖掘属于计算机文本处理与挖掘领域,对于分析目标商品的特征、分析市场对目标商品的需求、获取用户的个性化偏好、对用户进行商品推荐等方面有着很直接的应用。用户对商品的评价文本蕴涵着丰富的信息,现在很多研究人员也开始着眼于利用评论文本来提升商品推荐系统的性能。用户评论文本中最重要的两个信息就是:用户所关注的商品属性,以及用户对于目标商品在自己所关注属性上的表现评价。因此对于商品属性特征词的获取与处理,是对商品评论数据进行挖掘和利用的关键步骤。
对于商品属性特征词的获取当前已经有很多方法,如基于语法规则扩展的词性模板匹配法、基于词语序列标注的隐马尔科夫以及条件随机场。这些方法可以初步获取评论文本中的商品属性特征词。
但是,在商品评论文本中我们会发现,同一种商品的同一种属性,会被具有不同教育程度、文化背景、风俗习惯的用户采取不同的表述方式。同一种属性的不同表达方式,一方面增加了商品属性特征的维度,同时也就是增加了数据特征的稀疏程度,增加了问题的求解复杂度;另一方面也不利于刻画商品的属性,从而不利于刻画用户对商品属性偏好和评价。
采用聚类方法,将实际表达商品同一属性的特征词聚类在一起,可以有效解决上面提出的问题。但是目前对于商品属性特征词聚类,还很少有人提出有效方法。
发明内容
本发明所要解决的技术问题是:弥补上述现有技术的不足,提出一种商品属性特征词聚类方法,以减少商品属性特征词数目,降低特征维度以及特征稀疏性,使所设计的推荐系统具有更加快速和准确的性能。
为此,本发明提出的商品属性特征词聚类方法包括如下步骤:。
优选地,本发明还包括如下特征:
本发明与现有技术对比的有益效果是:本发明提出了一种基于词语向量表示的商品属性特征词聚类方法,研究表明,将词语表示成较低维度的连续值向量的形式,通过大量的数据进行训练,可以得到具有很强表示能力的词语向量。这种词语向量具有很强的语义表示能力,语义上相近的词语,在映射后的向量空间中的距离也会很相近。本发明基于词语向量表示这一方法,进一步改进使得利用本发明可以得到自动匹配评论文本中商品属性特征词的词性模板,进而获取指定商品的属性特征词;可以通过训练语言模型得到低维度、具有丰富语义信息的词语向量;可以根据实际需要进行属性特征词的聚类,从而减少商品属性特征词数目,降低特征维度以及特征稀疏性,使所设计的推荐系统具有更加快速和准确的性能。
附图说明
图1是本发明具体实施方式中的商品属性特征词聚类方法的流程示意图。
具体实施方式
下面结合具体实施方式并对照附图对本发明做进一步详细说明。
如图1所示,为本具体实施方式中的商品属性特征词聚类方法的流程图。
本发明实施例针对商品评论文本,提出了一种基于词语向量表示的商品属性特征词聚类方法。首先确定需要研究和分析的目标商品,进行数据的准备:从相关电商网站获取目标商品的评论文本,进行数据预处理,主要包括词语切分、词性标注、词频统计、停用词过滤以及低频词语过滤;在获取的商品评论文本中选取若干含有商品属性特征词语的评论文本,对商品属性特征词进行人工标注,作为获取词性模板的训练数据。然后进一步的加工数据:根据人工标注的训练数据进行词性模板训练,得到可以自动匹配商品属性特征词语的词性模板,然后在全部数据上进行匹配,获取商品属性特征词语的候选集合,并设定规则对候选集合进行过滤;使用现有工具Word2Vec或者自己设定模型进行训练,获得词语的向量表示。最后使用候选集合中属性特征词的向量表示作为输入,进行商品属性特征词聚类,得到目标商品的最终属性特征词集合。使用词语的向量表示,可以使在语义上接近的词语,在向量空间上的分布也很接近,也就是描述同一个属性的特征词语可以分布在一起,这样聚类得到的类比较符合真实的特征词聚集情况。此外,词语的向量表示维度较低,在进行聚类时的计算复杂度很低。
本实施例提出的一种基于词语向量表示的商品属性特征词聚类方法包括如下步骤:
A1:从相关电商网站获取目标商品的评论文本,进行数据预处理,主要包括词语切分、词性标注、词频统计、停用词过滤以及低频词语过滤;
A2:选取含有商品属性特征词语的评论文本,对商品属性特征词进行人工标注,作为获取词性模板的训练样本;
A3:根据A2中人工标注的数据进行词性模板训练,得到可以自动匹配商品属性特征词语的词性模板,然后在全部数据上进行匹配,获取商品属性特征词语的候选集合,并对候选集合按照设定规则进行过滤;
A4:利用A1中得到的数据训练语言模型,获得词语的向量表示;
A5:利用A4中得到的词语向量,对A3中得到的商品属性特征词进行聚类,得到目标商品的最终属性特征词集合。
本实施例的最终重点环节是步骤A5,而步骤A1中文本的获取与预处理为A2中的属性特征词标注以及A4中词语向量的学习提供了数据准备和基础,A3中根据模板进行特征词的匹配和过滤以及A4中词语向量的学习是获取最终商品属性特征词的关键环节。
在具体的实施方案中,可按下面方式操作(在下面的操作表述中,我们将以对淘宝网站中某件服装商品的特征属性词的抽取与聚类为例,在每个操作步骤后,给出具体示例):
A1:对于数据的获取,由于本步骤中预处理后的数据将用于A4步骤中的语言模型训练,而训练语言模型需要大量的数据,因此可以获取目标商品的评论文本越多越好,为了较好的效果,文本的大小大于10MB(也即将所有评论文本放在一个文件中,该文件大小大于10MB)为宜。对于数据准备阶段的数据预处理,主要包括词语切分、词性标注、词频统计、停用词过滤以及低频词语过滤等步骤。具体可以如下进行:a)词语切分与词性标注:对于中文文本,由于词语之间没有形式的分界,在进行相关问题处理时,需要首先对文本进行词语切分,也即找出词语之间的界限,将文本表示成词语序列;而词性标注则指,对于上述切分出来的每一个独立的词语,给予它们词性标签(主要的词性有名词、动词、形容词、副词、标点符号,其他具体可以参见http://blog.sina.com.cn/s/blog_4a95553b0100068w.html)。我们使用“结巴”中文分词工具(工具网站:http://www.oschina.net/p/jieba)进行词语切分和词性标注的举例,此外中科院的ICTCLAS系统(官方网站:http://ictclas.nlpir.org/)也是一款优秀的中文分词与词性标注工具,具体用法请参见其网站;b)词频统计可以很方便的进行,这里建议先对所得文本进行切分后的词语进行哈希编码,我们可以根据词语的Unicode值,利用哈希函数将词语重新编码,这样每次访问该词语时可以做到瞬时访问,然后就可以快速的进行词频统计;c)有很多词语几乎在所有评论文本中都会出现,比如“的”、“我”等词,这些词语对于文本处理来说没有信息价值,我们成之为停用词。停用词可以使用公开的一般性中文文本处理停用词表,也可以根据所涉及的问题自己设计停用词表;d)词频是词语频率的简称,其大小是词语在全部评论文本中出现的次数。低频词的过滤,一般是过滤掉词频低于3的词语,也可以将词频排序,将较低的后10%的词语过滤掉。本发明涵盖的范围不限于所列举的方法。
我们从淘宝某衣服商品的评论文本中选择以下几条作为示例:
1“面料非常好,款式很好看,很满意!”
2“衣服很合身,布料非常好,跟描述一样,物美价廉,愉快的一次购物”
3“和图片看到的一样,面料非常好,非常满意”
4“做工很细物有所值值得拥有”
所谓词性标注就是根据句子的上下文信息给句中的每个词确定一个最为合适的词性标记。比如,给定一个句子:“我非常喜爱北京!”。对其的标注结果可以是:“我/代词非常/副词喜爱/动词北京/名词!/标点”。使用“结巴”分词工具的python语言版本进行词语切分与词性标注的用法如下(str表示需要处理的文本字串):
Importjieba.possegaspseg
word_list=pseg.cut("str")
示例文本1的处理结果为(使用空格分隔各个词语,反斜线后是词性;这是第一次处理结果,对所有词进行泛泛标注,A2是对特征词再次精确标注):
“面料/n非常/d好/a,/x款式/n很/zg好看/v,/x很/zg满意/v!/x”,其中,v代表动词、n代表名词、c代表连词、d代表副词、wp代表标点符号、zg代表状态语素、x代表非语素字。这里标准集符号采用ICTPOS3.0标准词性标注集。
A2:特征词标注,具体指,对于含有商品属性特征词的评论文本进行特征词标注,比如我们选择如下标签集合{T,BT1,BT2,AT1,AT2},分别表示特征属性词(T)、在特征属性词前面并且相邻(BT1)、在特征属性词前面并且隔一个词语(BT2)、在特征属性词后面并且相邻(AT1)、在特征属性词后面并且隔一个词语(AT2),对属性词前后各2词语范围内的词语进行标注(也即给予相应位置的词语选用标签集合中的标签(标签就是对应单词给的词性标注),对于特征属性词前后两个位置中不存在词语的情况,直接忽略。标注完成后,仅仅保留词性信息。标签集合的设定可以有其他形式,不限于上面的方式。本发明涵盖的范围不限于所列举的方法。
对于示例文本1,包含特征属性词的文本为:“面料非常好”、“款式很好看”。选用上述标签集合,标注后的结果分别是:“T/nAT1/dAt2/a”、“T/nAT1/zgAT2/v”,从而构成了特征词词性组合标注。
A3:a)词性模板训练,具体指,跟据A2中标注的数据学习可以自动匹配商品属性特征词的词性模板,这些模板仅含有词性信息,学习方法可以但不限于是,统计训练数据中所出现的各种词性组合的频率,选用高频(例如,出现5次以上,或者词性组合出现频率排序前5%的组合)出现的词性组合作为词性模板输出;并且学习标签T在各种词性上的概率分布(比如动名词49%等,其他各个词性同,各按某种分布出现)。b)使用学习到的词性模板在全部数据上进行匹配(一条一条逐一匹配),获取商品属性特征词语的候选集合,具体指,首先根据被匹配文本的词性信息找到与词性模板相匹配的词语组合,再根据T在各个词性上的概率分布,从词语组合中选出特征属性词。对所有评论文本处理之后,就得到了商品属性特征词候选集,比如对衣服的评论中,我们可以得到特征词候选集合{面料、颜色、图案、手感、价格、款式、物流等等};c)对候选集进行过滤,具体指,根据所处理问题设定一些过滤规则,可以但不限于是:特征词词频在一定阈值之上;人工寻找一些种子特征词,然后计算候选特征词与种子特征的点对互信息值(PointMutualInformation,PMI),PMI值在一定阈值之上,PMI的计算公式一般采用
其中,PMI-IR表示利用搜索引擎结果计算得到PMI值,hits(x)表示搜索引擎检索词语x返回的结果数目。本发明涵盖的范围不限于所列举的方法。表示种子词语,表示特征词候选集中的词语。
对示例文本全部预处理以及特征词标注后,可以获得以下词性组合:
“面料非常好”{T/nAT1/dAT2/a}、“款式很好看”{T/nAT1/zgAT2/v}、“衣服很合身”{BT1/nBT2/zgT/v}、“面料非常好”{T/nAT1/dAT2/a}、
“面料非常好”{T/nAT1/dAT2/a}、“做工很细”{T/vAT1/zgAT2/a}
我们可以得到各种词性组合的频率:{nda}:3、{nzgv}:2、{vzga}:1,{其余组合}:0,以及T标签在各个词性上的概率分布::{T/n4,T/v2}。
设定词性模板的频率不低于2,则得到两个词性模板:{nda}、{nzgv}。为了简便,我们仍使用示例中的文本作为被匹配文本,使用上述学习到的模板进行匹配,可以获得如下词语组合:{面料/n非常/d好/a}、{款式/n很/zg好看/v}、{衣服/n很/zg合身/v}、{布料/n非常/d好/a}、{面料/n非常/d好/a}。根据标签T在各个词性上的概率分布,取概率最大的词性对应的词语作为目标词语,我们可以分别得到上面各个词语组合中含有的商品属性词:{面料}、{款式}、{衣服}、{布料}、{面料},(注意到导致了第三组“衣服很合身”的结果是错误的,说明这种算法有一定的误差,但是当训练数据很多的时候,这种误差会很小)。到此我们得到了商品属性候选特征词集合以及每个特征词的词频:{面料:2、款式:1、衣服:1、布料:1}。具体对候选集进行过滤的举例略。
A4:利用A1中得到的数据训练语言模型,获得词语的向量表示,具体指a)可以使用Word2Vec工具训练该工具内部包含的模型;b)所得到的词语向量表示,是一种较低维度的连续值向量,每个词语向量具有相同的维度,维度的大小K的取值通常在训练前人工指定,例发K取值以50维和100维比较常见。Word2Vec是由Google开发的开源词向量学习工具(工具网址:https://code.google.com/p/word2vec/),该工具内部实现了两种语言模型:连续词袋模型(continuousbag-of-word,CBOW)以及连续skip-gram模型,CBOW是已知中心词的上下文来预测中心词的概率分布,skip-gram是已知中心词来预测上下文词语的概率分布,两种模型都以词语向量的onehot(即当前词是1,其他词是0)表示为输入,训练好模型之后,就获得了我们需要的词嵌入表示的词语向量。
对于Word2Vec的Linux版本,可以使用如下的Linuxshell终端命令进行词向量的训练:./word2vec–traintrain.txt–outputvectors.bin–cbow0–size200–window5–negative0–hs1–sample1e-3–threads12–binary1。其中,-train,-output指明输入以及输出文件的名字;-cbow表示选用的模型,1选用cbow,0选用skip-gram;-size表示词向量的维度,根据问题来确定,一般推荐200至500;-window指明上下文窗口的大小,一般推荐为5;-negative,-hs是训练算法中的优化方式,一般选用hs;-sample表示训练过程中的抽样概率阈值,可以默认为1e-3;-threads表示训练中启用的线程数目;-binary表示输出文件的存储格式,1表示二进制形式。
我们将获取的大量商品评论文本进行词语切分后,全部保存在train.txt文件中,指明相应的参数后,即可获取文本中所有词语的向量表示,比如“面料”一词可以表示成如下样子:[0.792,-0.177,-0.107,0.109,-0.542,...],构成一个100维的向量。
A5:所述步骤A5中,利用A4中得到的词语向量,对A3中得到的商品属性特征词进行聚类,得到目标商品的最终属性特征词集合,具体指,a)将属性候选特征词的向量表示作为聚类算法的输入,使用常见的聚类方法如K-means将得到的商品属性特征词进行聚类,距离度量使用余弦距离或者欧式距离;b)或者使用层次聚类的方法,通过定义词语之间相似度,可以选择但不限于余弦相似度,将相似度高的特征词逐层聚类;c)聚类后的类标签可以根据特征词在全部文本中的频率来确定,选择该类簇中,词频最大的特征词作为类的标签。本发明涵盖的范围不限于所列举的方法。
经过A3步骤,我们获取了属性特征集合{面料:2、款式:1、衣服:1、布料:1},经过A4步骤我们得到了文本中所有出现过的词语向量表示,通过前面所述的哈希方法,可以很快的索引到属性特征集合中词语的向量表示。下面为了说明聚类过程,我们取K为2,即将每个词语表示成二维向量,假定属性词汇可以表示成如下二维向量,即:{面料:[0.5,0.5]、款式:[0.8,0.1]、衣服:[0.2,0.9]、布料:[0.48,0.52]}(此为假设,仅为示意说明聚类过程)。使用K-means算法并采用欧式距离度量,设置聚类数目为3,可以得到如下三个了类簇:{面料、布料}、{款式}、{衣服}。由于在全部文本中“面料”的词频比“布料”大,{面料、布料}类簇的类标签为“面料”,到这时,我们便得到了最终的商品属性特征词集合:{面料、款式、衣服}。
词向量包含有大量语义特性,所得的属性特征词集能更好的反映用户的关注点,据此,我们对用户的评论信息进行分析计算可以得到更为客观的用户偏好,从而为用户画像和商品推荐做好数据准备。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下做出若干替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围。

Claims (10)

1.一种商品属性特征词聚类方法,其特征是包括如下步骤:
A1:从相关电商网站获取目标商品的评论文本,进行数据预处理;
A2:选取含有商品属性特征词语的评论文本,接收输入端对商品属性特征词所进行的人工标注,作为获取词性模板的训练样本;
A3:根据所述步骤A2中人工标注的数据进行词性模板训练,得到可以自动匹配商品属性特征词语的词性模板,然后在全部数据上进行匹配,获取商品属性特征词语的候选集合,并对候选集合按照设定规则进行过滤;
A4:利用所述步骤A1中得到的数据训练语言模型,获得词语的向量表示;
A5:利用所述步骤A4中得到的词语向量,对所述步骤A3中得到的商品属性特征词进行聚类,得到目标商品的最终属性特征词集合。
2.如权利要求1所述的商品属性特征词聚类方法,其特征是所述步骤A1中,数据预处理包括词语切分、词性标注、词频统计、停用词过滤以及低频词语过滤。
3.如权利要求1所述的商品属性特征词聚类方法,其特征是,所述步骤A2中,特征词标注的方法是:挑选出含有商品属性特征词的评论文本并设计词语标签集合,然后给予文本中的特征词以及特征词前、后的n个词语标注标签,n为自然数;词语标签标注完成后,仅仅保留词语的词性信息。
4.如权利要求1所述的商品属性特征词聚类方法,其特征是,所述步骤A3中,词性模板训练的方法是:根据步骤A2中标注的数据学习自动匹配商品属性特征词的词性模板,统计训练数据中所出现的各种词性组合的频率,选用高频出现的词性组合作为词性模板输出。
5.如权利要求1所述的商品属性特征词聚类方法,其特征是,所述步骤A3中,对候选集合按照设定规则进行过滤的方法是:根据所处理问题设定一些过滤规则,所述规则是如下之一:词语长度在一定阈值范围内;或特征词词频在一定阈值之上;或人工寻找一些种子特征词,然后计算候选特征词与种子特征的点对互信息值PMI,PMI值在一定阈值之上。
6.如权利要求1所述的商品属性特征词聚类方法,其特征是,所述步骤A4中,利用A1中得到的数据训练语言模型,获得词语的向量表示的方法是:使用Word2Vec工具训练该工具内部包含的模型;其中所得到的词语向量表示,是一种较低维度的连续值向量,每个词语向量具有相同的维度,维度的大小作为超参数在训练前人工指定。
7.如权利要求1所述的商品属性特征词聚类方法,其特征是,所述步骤A5中,将属性候选特征词的向量表示作为聚类算法的输入,使用常见的聚类方法如K-means将得到的商品属性特征词进行聚类,距离度量使用余弦距离或者欧式距离。
8.如权利要求1所述的商品属性特征词聚类方法,其特征是,所述步骤A5中,使用层次聚类的方法,通过定义词语之间相似度,可以选择但不限于余弦相似度,将相似度高的特征词逐层聚类。
9.如权利要求1所述的商品属性特征词聚类方法,其特征是,所述步骤A5中,聚类后的类标签根据特征词在全部文本中的频率来确定,选择该类簇中,词频最大的特征词作为类的标签。
10.如权利要求3所述的商品属性特征词聚类方法,其特征是,所述n等于2。
CN201510638459.9A 2015-09-30 2015-09-30 商品属性特征词聚类方法 Active CN105243129B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510638459.9A CN105243129B (zh) 2015-09-30 2015-09-30 商品属性特征词聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510638459.9A CN105243129B (zh) 2015-09-30 2015-09-30 商品属性特征词聚类方法

Publications (2)

Publication Number Publication Date
CN105243129A true CN105243129A (zh) 2016-01-13
CN105243129B CN105243129B (zh) 2018-10-30

Family

ID=55040777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510638459.9A Active CN105243129B (zh) 2015-09-30 2015-09-30 商品属性特征词聚类方法

Country Status (1)

Country Link
CN (1) CN105243129B (zh)

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250365A (zh) * 2016-07-21 2016-12-21 成都德迈安科技有限公司 基于文本分析的消费者评论中商品属性特征词的提取方法
CN106599269A (zh) * 2016-12-22 2017-04-26 东软集团股份有限公司 关键词提取方法及装置
CN106886934A (zh) * 2016-12-30 2017-06-23 北京三快在线科技有限公司 用于确定商家品类的方法、系统和装置
CN107122471A (zh) * 2017-05-02 2017-09-01 北京众荟信息技术股份有限公司 一种酒店特色点评抽取的方法
CN107239444A (zh) * 2017-05-26 2017-10-10 华中科技大学 一种融合词性与位置信息的词向量训练方法及系统
CN107291693A (zh) * 2017-06-15 2017-10-24 广州赫炎大数据科技有限公司 一种改进词向量模型的语义计算方法
CN107633007A (zh) * 2017-08-09 2018-01-26 五邑大学 一种基于层次化ap聚类的商品评论数据标签化系统和方法
CN107679052A (zh) * 2016-06-09 2018-02-09 株式会社岛津制作所 大数据分析方法以及利用了该分析方法的质谱分析系统
CN107844473A (zh) * 2017-09-25 2018-03-27 沈阳航空航天大学 基于语境相似度计算的词义消歧方法
CN108133014A (zh) * 2017-12-22 2018-06-08 广州数说故事信息科技有限公司 基于句法分析和聚类的三元组生成方法、装置及用户终端
CN108153856A (zh) * 2017-12-22 2018-06-12 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN108205522A (zh) * 2016-12-16 2018-06-26 北京酷我科技有限公司 情感标注的方法及其系统
CN108230085A (zh) * 2017-11-27 2018-06-29 重庆邮电大学 一种基于用户评论的商品评价系统及方法
CN108363725A (zh) * 2018-01-08 2018-08-03 浙江大学 一种用户评论观点提取和观点标签生成的方法
CN108427749A (zh) * 2018-03-12 2018-08-21 上海哔哩哔哩科技有限公司 商品标签管理方法、服务器及商品标签管理系统
CN108877880A (zh) * 2018-06-29 2018-11-23 清华大学 基于病历文本的病人相似性度量装置及方法
CN108932647A (zh) * 2017-07-24 2018-12-04 上海宏原信息科技有限公司 一种预测相似物品及训练其模型的方法和装置
CN109325119A (zh) * 2018-09-05 2019-02-12 平安科技(深圳)有限公司 新闻情感分析的方法、装置、计算机设备和存储介质
CN109710841A (zh) * 2018-12-17 2019-05-03 北京百度网讯科技有限公司 评论推荐方法和装置
CN109977392A (zh) * 2017-12-28 2019-07-05 北京京东尚科信息技术有限公司 一种文本特征分析的方法和装置
CN110019783A (zh) * 2017-09-27 2019-07-16 北京国双科技有限公司 属性词聚类方法及装置
CN110059183A (zh) * 2019-03-22 2019-07-26 重庆邮电大学 一种基于大数据的汽车行业用户观点情感分类方法
CN110175246A (zh) * 2019-04-09 2019-08-27 山东科技大学 一种从视频字幕中提取概念词的方法
CN110223095A (zh) * 2018-03-02 2019-09-10 阿里巴巴集团控股有限公司 确定商品属性的方法、装置、设备和存储介质
CN110309294A (zh) * 2018-03-01 2019-10-08 优酷网络技术(北京)有限公司 内容集合的标签确定方法及装置
CN110322093A (zh) * 2018-03-30 2019-10-11 阿里巴巴集团控股有限公司 信息处理方法、信息显示方法、装置及计算设备
CN110362670A (zh) * 2019-07-19 2019-10-22 中国联合网络通信集团有限公司 商品属性抽取方法及系统
CN110990709A (zh) * 2019-12-17 2020-04-10 北京奇艺世纪科技有限公司 角色自动推荐方法、装置及电子设备
CN111160034A (zh) * 2019-12-31 2020-05-15 东软集团股份有限公司 一种实体词的标注方法、装置、存储介质及设备
CN111460788A (zh) * 2020-04-01 2020-07-28 哈尔滨工业大学 一种ct/pet报告的交互式阅读方法
CN112035660A (zh) * 2020-08-14 2020-12-04 海尔优家智能科技(北京)有限公司 基于网络模型的对象类别确定方法及装置
US10963833B2 (en) 2016-06-17 2021-03-30 Cainiao Smart Logistics Holding Limited Method and apparatus for processing logistics information
CN113139061A (zh) * 2021-05-14 2021-07-20 东北大学 一种基于词向量聚类的案件特征提取方法
CN113450187A (zh) * 2021-06-22 2021-09-28 上海明略人工智能(集团)有限公司 基于场景的商品关联方法、系统、电子设备及存储介质
CN113592512A (zh) * 2021-07-22 2021-11-02 上海普洛斯普新数字科技有限公司 一种线上商品身份唯一性识别确认系统
CN113609844A (zh) * 2021-07-30 2021-11-05 国网山西省电力公司晋城供电公司 一种基于混合模型和聚类算法的电力专业词库构建方法
TWI782137B (zh) * 2018-02-27 2022-11-01 香港商阿里巴巴集團服務有限公司 生成、展示資料物件資訊的方法及裝置
CN115841120A (zh) * 2023-02-27 2023-03-24 文灵科技(北京)有限公司 一种基于方面词的主语义分析方法及系统
CN109885813B (zh) * 2019-02-18 2023-04-28 武汉瓯越网视有限公司 一种基于词语覆盖度的文本相似度的运算方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169495B (zh) * 2011-04-11 2014-04-02 趣拿开曼群岛有限公司 行业词典生成方法及装置
CN104268197B (zh) * 2013-09-22 2017-11-07 中科嘉速(北京)并行软件有限公司 一种行业评论数据细粒度情感分析方法
CN104091054B (zh) * 2014-06-26 2017-12-05 中国科学院自动化研究所 面向短文本的群体性事件预警方法和系统

Cited By (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679052A (zh) * 2016-06-09 2018-02-09 株式会社岛津制作所 大数据分析方法以及利用了该分析方法的质谱分析系统
US10963833B2 (en) 2016-06-17 2021-03-30 Cainiao Smart Logistics Holding Limited Method and apparatus for processing logistics information
CN106250365A (zh) * 2016-07-21 2016-12-21 成都德迈安科技有限公司 基于文本分析的消费者评论中商品属性特征词的提取方法
CN108205522A (zh) * 2016-12-16 2018-06-26 北京酷我科技有限公司 情感标注的方法及其系统
CN106599269A (zh) * 2016-12-22 2017-04-26 东软集团股份有限公司 关键词提取方法及装置
CN106599269B (zh) * 2016-12-22 2019-12-03 东软集团股份有限公司 关键词提取方法及装置
CN106886934A (zh) * 2016-12-30 2017-06-23 北京三快在线科技有限公司 用于确定商家品类的方法、系统和装置
CN107122471A (zh) * 2017-05-02 2017-09-01 北京众荟信息技术股份有限公司 一种酒店特色点评抽取的方法
CN107239444A (zh) * 2017-05-26 2017-10-10 华中科技大学 一种融合词性与位置信息的词向量训练方法及系统
CN107239444B (zh) * 2017-05-26 2019-10-08 华中科技大学 一种融合词性与位置信息的词向量训练方法及系统
CN107291693A (zh) * 2017-06-15 2017-10-24 广州赫炎大数据科技有限公司 一种改进词向量模型的语义计算方法
CN107291693B (zh) * 2017-06-15 2021-01-12 广州赫炎大数据科技有限公司 一种改进词向量模型的语义计算方法
CN108932647A (zh) * 2017-07-24 2018-12-04 上海宏原信息科技有限公司 一种预测相似物品及训练其模型的方法和装置
CN107633007B (zh) * 2017-08-09 2021-09-28 五邑大学 一种基于层次化ap聚类的商品评论数据标签化系统和方法
CN107633007A (zh) * 2017-08-09 2018-01-26 五邑大学 一种基于层次化ap聚类的商品评论数据标签化系统和方法
CN107844473B (zh) * 2017-09-25 2020-12-18 沈阳航空航天大学 基于语境相似度计算的词义消歧方法
CN107844473A (zh) * 2017-09-25 2018-03-27 沈阳航空航天大学 基于语境相似度计算的词义消歧方法
CN110019783B (zh) * 2017-09-27 2021-01-22 北京国双科技有限公司 属性词聚类方法及装置
CN110019783A (zh) * 2017-09-27 2019-07-16 北京国双科技有限公司 属性词聚类方法及装置
CN108230085A (zh) * 2017-11-27 2018-06-29 重庆邮电大学 一种基于用户评论的商品评价系统及方法
CN108153856A (zh) * 2017-12-22 2018-06-12 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN108153856B (zh) * 2017-12-22 2022-09-06 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN108133014A (zh) * 2017-12-22 2018-06-08 广州数说故事信息科技有限公司 基于句法分析和聚类的三元组生成方法、装置及用户终端
CN109977392B (zh) * 2017-12-28 2024-02-09 北京京东尚科信息技术有限公司 一种文本特征分析的方法和装置
CN109977392A (zh) * 2017-12-28 2019-07-05 北京京东尚科信息技术有限公司 一种文本特征分析的方法和装置
CN108363725A (zh) * 2018-01-08 2018-08-03 浙江大学 一种用户评论观点提取和观点标签生成的方法
CN108363725B (zh) * 2018-01-08 2020-10-30 浙江大学 一种用户评论观点提取和观点标签生成的方法
TWI782137B (zh) * 2018-02-27 2022-11-01 香港商阿里巴巴集團服務有限公司 生成、展示資料物件資訊的方法及裝置
CN110309294A (zh) * 2018-03-01 2019-10-08 优酷网络技术(北京)有限公司 内容集合的标签确定方法及装置
CN110309294B (zh) * 2018-03-01 2022-03-15 阿里巴巴(中国)有限公司 内容集合的标签确定方法及装置
CN110223095A (zh) * 2018-03-02 2019-09-10 阿里巴巴集团控股有限公司 确定商品属性的方法、装置、设备和存储介质
CN108427749A (zh) * 2018-03-12 2018-08-21 上海哔哩哔哩科技有限公司 商品标签管理方法、服务器及商品标签管理系统
CN110322093B (zh) * 2018-03-30 2024-03-08 阿里巴巴集团控股有限公司 信息处理方法、信息显示方法、装置及计算设备
CN110322093A (zh) * 2018-03-30 2019-10-11 阿里巴巴集团控股有限公司 信息处理方法、信息显示方法、装置及计算设备
CN108877880B (zh) * 2018-06-29 2020-11-20 清华大学 基于病历文本的病人相似性度量装置及方法
CN108877880A (zh) * 2018-06-29 2018-11-23 清华大学 基于病历文本的病人相似性度量装置及方法
CN109325119B (zh) * 2018-09-05 2024-03-15 平安科技(深圳)有限公司 新闻情感分析的方法、装置、计算机设备和存储介质
CN109325119A (zh) * 2018-09-05 2019-02-12 平安科技(深圳)有限公司 新闻情感分析的方法、装置、计算机设备和存储介质
CN109710841A (zh) * 2018-12-17 2019-05-03 北京百度网讯科技有限公司 评论推荐方法和装置
CN109885813B (zh) * 2019-02-18 2023-04-28 武汉瓯越网视有限公司 一种基于词语覆盖度的文本相似度的运算方法及系统
CN110059183A (zh) * 2019-03-22 2019-07-26 重庆邮电大学 一种基于大数据的汽车行业用户观点情感分类方法
CN110059183B (zh) * 2019-03-22 2022-08-23 重庆邮电大学 一种基于大数据的汽车行业用户观点情感分类方法
CN110175246A (zh) * 2019-04-09 2019-08-27 山东科技大学 一种从视频字幕中提取概念词的方法
CN110362670A (zh) * 2019-07-19 2019-10-22 中国联合网络通信集团有限公司 商品属性抽取方法及系统
CN110990709B (zh) * 2019-12-17 2023-07-21 北京奇艺世纪科技有限公司 角色自动推荐方法、装置及电子设备
CN110990709A (zh) * 2019-12-17 2020-04-10 北京奇艺世纪科技有限公司 角色自动推荐方法、装置及电子设备
CN111160034A (zh) * 2019-12-31 2020-05-15 东软集团股份有限公司 一种实体词的标注方法、装置、存储介质及设备
CN111160034B (zh) * 2019-12-31 2024-02-27 东软集团股份有限公司 一种实体词的标注方法、装置、存储介质及设备
CN111460788A (zh) * 2020-04-01 2020-07-28 哈尔滨工业大学 一种ct/pet报告的交互式阅读方法
CN112035660A (zh) * 2020-08-14 2020-12-04 海尔优家智能科技(北京)有限公司 基于网络模型的对象类别确定方法及装置
CN113139061A (zh) * 2021-05-14 2021-07-20 东北大学 一种基于词向量聚类的案件特征提取方法
CN113139061B (zh) * 2021-05-14 2023-07-21 东北大学 一种基于词向量聚类的案件特征提取方法
CN113450187A (zh) * 2021-06-22 2021-09-28 上海明略人工智能(集团)有限公司 基于场景的商品关联方法、系统、电子设备及存储介质
CN113592512A (zh) * 2021-07-22 2021-11-02 上海普洛斯普新数字科技有限公司 一种线上商品身份唯一性识别确认系统
CN113609844A (zh) * 2021-07-30 2021-11-05 国网山西省电力公司晋城供电公司 一种基于混合模型和聚类算法的电力专业词库构建方法
CN113609844B (zh) * 2021-07-30 2024-03-08 国网山西省电力公司晋城供电公司 一种基于混合模型和聚类算法的电力专业词库构建方法
CN115841120A (zh) * 2023-02-27 2023-03-24 文灵科技(北京)有限公司 一种基于方面词的主语义分析方法及系统

Also Published As

Publication number Publication date
CN105243129B (zh) 2018-10-30

Similar Documents

Publication Publication Date Title
CN105243129A (zh) 商品属性特征词聚类方法
US11928434B2 (en) Method for text generation, device and storage medium
CN103049435B (zh) 文本细粒度情感分析方法及装置
CN101539907B (zh) 词性标注模型训练装置、词性标注系统及其方法
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN106897559B (zh) 一种面向多数据源的症状体征类实体识别方法及装置
CN110502621A (zh) 问答方法、问答装置、计算机设备及存储介质
CN108460011B (zh) 一种实体概念标注方法及系统
CN108460014A (zh) 企业实体的识别方法、装置、计算机设备及存储介质
CN107392143A (zh) 一种基于svm文本分类的简历精确解析方法
CN103559199B (zh) 网页信息抽取方法和装置
CN112084381A (zh) 一种事件抽取方法、系统、存储介质以及设备
CN103246644B (zh) 一种网络舆情信息处理方法和装置
CN106599032A (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN107357793A (zh) 信息推荐方法和装置
CN108319734A (zh) 一种基于线性组合器的产品特征结构树自动构建方法
CN106126619A (zh) 一种基于视频内容的视频检索方法及系统
CN109145260A (zh) 一种文本信息自动提取方法
CN102253930A (zh) 一种文本翻译的方法及装置
CN106649666A (zh) 一种左右递归新词发现方法
CN105653522A (zh) 一种针对植物领域的非分类关系识别方法
Sasidhar et al. A survey on named entity recognition in Indian languages with particular reference to Telugu
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN107357785A (zh) 主题特征词抽取方法及系统、情感极性判断方法及系统
Zhu et al. Webpage understanding: an integrated approach

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
CB02 Change of applicant information

Address after: 518055 Guangdong city of Shenzhen province Nanshan District Xili of Tsinghua

Applicant after: Graduate School at Shenzhen, Tsinghua University

Address before: 518000 Guangdong city in Shenzhen Province, Nanshan District City Xili Shenzhen Tsinghua Campus of Tsinghua University

Applicant before: Graduate School at Shenzhen, Tsinghua University

COR Change of bibliographic data
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant