CN104951430B

CN104951430B - 产品特征标签的提取方法及装置

Info

Publication number: CN104951430B
Application number: CN201410119711.0A
Authority: CN
Inventors: 严紫丹
Original assignee: Shanghai Ctrip Business Co Ltd
Current assignee: Shanghai Ctrip Business Co Ltd
Priority date: 2014-03-27
Filing date: 2014-03-27
Publication date: 2019-03-12
Anticipated expiration: 2034-03-27
Also published as: CN104951430A

Abstract

本发明提供一种产品特征标签的提取方法及装置，包括有以下步骤：S1、抓取产品类型的所有评论并预设主题；S2、将同一主题的评论内容合并为一文本；S3、抽取出现次数最多的若干词语，以构成一常用词集合；S4、生成TF‑IDF矩阵；S5、从TF‑IDF矩阵的每一行抽取值最大的若干元素对应的词语；S6、将从TF‑IDF矩阵中抽取所得的全部词语集合在一起形成关键词集合；S7、从单独产品的全部评论中抽取包含有关键词集合中的词语的单独产品的特征标签。通过预设主题后再抽取词语组成常用词集合，进而通过TF‑IDF矩阵整理出关键词集合，优选出评论中的短语作为特征标签，降低了噪声干扰，使得产品的特征标签更为准确。

Description

产品特征标签的提取方法及装置

技术领域

本发明涉及一种产品特征标签的提取方法及装置。

背景技术

目前，一般通过人工对用户发出的评论进行搜索后，整理并提取中间的某些短语作为产品的特征标签，这样的做法耗时较长，由于人工筛选通常带有较强的主观性，使得特征标签往往难以以最客观的形式来描述产品的特性。

有的方案采用直接使用文本挖掘技术提取标签，即通过词频等指标筛选出文本中的短语或词语作为产品的特征标签。但这样的方式往往噪声很高，使得特征标签的短语并非最优。

发明内容

本发明要解决的技术问题是为了克服现有技术的产品的特征标签噪声较大、主观性较强的缺陷，提供一种噪声更小、更客观的产品特征标签的提取方法及装置。

本发明是通过下述技术方案来解决上述技术问题：

一种产品特征标签的提取方法，其特点在于，其包括有以下步骤：

S1、抓取一产品类型的所有评论，所述评论预设有若干个主题；

S2、将同一主题的全部所述评论的内容合并为一文本；

S3、从每一所述文本抽取出现次数最多的若干词语，以构成一常用词集合。

此处，分别从不同主题所对应的文本中抽取出现次数最多的若干词语后构成常用词集合，相对于直接将所有评论合并后抽取出现次数最多的词语所形成的词语的集合，上述常用词集合噪音(也就是说起干扰作用的词)更少。

S4、生成一TF-IDF矩阵，所述TF-IDF矩阵的行对应每一所述文本，列对应全部所述文本中的每一词语，所述TF-IDF矩阵中的每一元素的取值根据以下公式计算：

其中，e为TF-IDF矩阵中的元素的取值，n为该元素对应的所述词语在对应的所述文本中的出现次数，k为该元素对应的所述文本中的总词语数，a为所述TF-IDF矩阵的行数，b为所述TF-IDF矩阵中该元素对应的词语数不为0的行数。

TF-IDF矩阵的行数可以理解为文本的总数，即预设的主题数目。而TF-IDF矩阵中该元素对应的词语数不为0的行数可以理解为包含有元素对应的词语的文本的数量。

此处，TF-IDF矩阵中的元素的取值(即TF-IDF值)等于标准化词频乘以逆文档频率，标准化词频的定义为某个词在文章中出现的次数除以该文章的总词数，而逆文档频率则为log(文章总数/包含该词的文章数)。

通过计算得出的元素取值所对应的词语在文本通常为一句话所修饰和描述的对象(例如，学术论文的关键词等)。

S5、从所述TF-IDF矩阵的每一行中抽取值最大的若干元素对应的所述词语；

S6、将从所述TF-IDF矩阵中抽取所得的全部所述词语集合在一起形成一关键词集合。

此处，S5和S6与S3中一样，由于区分了主题(每个主题对应的文本均对应TF-IDF中的一行)，因此噪声也相应的减小了。

S7、从一单独产品的全部评论中抽取包含有所述关键词集合中的词语的一短语作为所述单独产品的特征标签，所述短语为文本中由分隔符分隔形成的文字段。

较佳的，所述S7分为以下步骤：

S701、将所述产品类型中的每一产品的所有评论分别合并成一第二文本；

S702、生成一第二词频矩阵，所述第二词频矩阵的行对应每一所述第二文本，列对应全部所述常用词集合中的词语，元素的取值为每一列所对应的词语在每一行所对应的所述第二文本中的出现次数；

S703、生成一第二TF-IDF矩阵，所述第二TF-IDF矩阵的行对应每一所述第二文本，列对应全部所述第二文本中的每一词语，所述第二TF-IDF矩阵中的每一元素的取值根据以下公式计算：

其中，e₂为第二TF-IDF矩阵中的元素的取值，n₂为该元素对应的所述词语在对应的所述第二文本中的出现次数，k₂为该元素对应的所述第二文本中的总词语数，a₂为所述第二TF-IDF矩阵的行数，b₂为所述第二TF-IDF矩阵中该元素对应的词语数不为0的行数。

也就是说，第二词频矩阵和第二TF-IDF矩阵的行和列与前面第一TF-IDF矩阵是不同的，因为第二文本对应的是不同产品的评论，而S2中的文本对应的是不同主题的评论。

S704、从所述单独产品所对应的所述第二词频矩阵和所述第二TF-IDF矩阵的行中，分别抽取对应的元素取值最大且属于所述关键词集合的若干个词语，并将抽取的所有词语合并形成一产品关键词集合。

此处，这样的方案是为了进一步减少噪声。

S705、将所述单独产品所对应的所述第二文本按照分隔符拆分成若干个短语。

此处，分隔符是指的逗号句号等可以分断语义的标点符号。

S706、从所述产品关键词集合中选取一个词语作为关键词，从所述若干个短语中筛选出包含有所述关键词的短语，从筛选出的所述短语中选出一与其余短语共有词语最多的短语作为所述关键词对应的特征标签。

也就是说，经过前面的步骤，关键词集合中的词语已经具有较强代表性。而含有关键词集合中词语的短语逐个对比，所得出的共有词语最多的短语往往为短语中能较好描述单独产品特征的短语。

S707、重复S706得出所有关键词所对应的特征标签；

S708、将所述特征标签存储至数据库。

较佳的，所述S706为：

从所述产品关键词集合中选取一个词语作为关键词，从所述若干个短语中筛选出包含有所述关键词的短语，将筛选出的所述短语组成一短语词频矩阵，所述短语词频矩阵的行对应每一所述短语，且列对应全部所述短语中的每一词语，元素的取值为全部所述短语中的每一词语的出现次数，根据所述短语词频矩阵的每一行的元素值的平方和，得出一与其余短语的余弦相似性之和最小的短语作为所述关键词对应的特征标签。

此处，利用短语与短语之间的余弦相似性，更为精确的选择出了更具代表性的短语。余弦相似性是一种统计方法，以下结合S706中的方法，举例说明余弦相似性的计算方法：

从产品关键词集合中选取“风格”一词作为关键词，从由第二文本按分隔符拆分成若干个短语中筛选出三个包含有“风格”一词的短语(x、y、z)，列出短语词频矩阵对应的列表如下：

表1短语词频矩阵对应的列表

根据短语x和短语y在每一行的元素值的平方和得：

sin(x,y)＝0.8164966

distance(x,y)＝1-sin(x,y)＝0.1835034

其中，distance(x,y)为短语x与短语y的余弦相似性。

依次类推得出短语x、y、z之间的余弦相似性如下表：

表2短语x、y、z之间的余弦相似性

	x	y	z
				x	0	0.183503	0.666667
y	0.183503	0	0.591752
				z	0.666667	0.591752	0

最终得出余弦相似性之和最小的为y短语，再将y短语作为该单独产品的特征标签。以上仅为举例，在数据量更为庞大的情况下采用矩阵的方式进行余弦相似性的计算，可以使得计算过程更为直观和方便。

较佳的，所述S3为：从每一所述文本抽取出现次数最多的若干词语并舍去停止词后，构成一常用词集合。

本发明还提供一种产品特征标签的提取装置，其特点在于，其包括有：一评论抓取模块、一评论合并模块、一常用词集合生成模块、一TF-IDF矩阵生成模块、一TF-IDF矩阵元素抽取模块、一关键词集合生成模块和一特征标签生成模块；

所述评论抓取模块用于抓取一产品类型的所有评论，所述评论预设有若干个主题；

所述评论合并模块用于将同一主题的全部所述评论的内容合并为一文本；

所述常用词集合生成模块用于从每一所述文本抽取出现次数最多的若干词语，以构成一常用词集合；

所述TF-IDF矩阵生成模块用于生成一TF-IDF矩阵，所述TF-IDF矩阵的行对应每一所述文本，列对应全部所述文本中的每一词语，所述TF-IDF矩阵中的每一元素的取值根据以下公式计算：

其中，e为TF-IDF矩阵中的元素的取值，n为该元素对应的所述词语在对应的所述文本中的出现次数，k为该元素对应的所述文本中的总词语数，a为所述TF-IDF矩阵的行数，b为所述TF-IDF矩阵中该元素对应的词语数不为0的行数；

所述TF-IDF矩阵元素抽取模块用于从所述TF-IDF矩阵的每一行中抽取值最大的若干元素对应的所述词语；

所述关键词集合生成模块用于将从所述TF-IDF矩阵中抽取所得的全部所述词语集合在一起形成一关键词集合；

所述特征标签生成模块用于从一单独产品的全部评论中抽取包含有所述关键词集合中的词语的一短语作为所述单独产品的特征标签，所述短语为文本中由分隔符分隔形成的文字段。

较佳的，所述特征标签生成模块包括有：一第二文本生成模块、一第二词频矩阵生成模块、一第二TF-IDF矩阵生成模块、一产品关键词集合生成模块、一第二文本拆分模块、一特征标签筛选模块和一数据库；

所述第二文本生成模块用于将所述产品类型中的每一产品的所有评论分别合并成一第二文本；

所述第二词频矩阵生成模块用于生成一第二词频矩阵，所述第二词频矩阵的行对应每一所述第二文本，列对应全部所述常用词集合中的词语，元素的取值为每一列所对应的词语在每一行所对应的所述第二文本中的出现次数；

所述第二TF-IDF矩阵生成模块用于生成一第二TF-IDF矩阵，所述第二TF-IDF矩阵的行对应每一所述第二文本，列对应全部所述第二文本中的每一词语，所述第二TF-IDF矩阵中的每一元素的取值根据以下公式计算：

其中，e₂为第二TF-IDF矩阵中的元素的取值，n₂为该元素对应的所述词语在对应的所述第二文本中的出现次数，k₂为该元素对应的所述第二文本中的总词语数，a₂为所述第二TF-IDF矩阵的行数，b₂为所述第二TF-IDF矩阵中该元素对应的词语数不为0的行数；

所述产品关键词集合生成模块用于从所述单独产品所对应的所述第二词频矩阵和所述第二TF-IDF矩阵的行中，分别抽取对应的元素取值最大且属于所述关键词集合的若干个词语，并将抽取的所有词语合并形成一产品关键词集合；

所述第二文本拆分模块用于将所述单独产品所对应的所述第二文本按照分隔符拆分成若干个短语；

所述特征标签筛选模块用于从所述产品关键词集合中选取一个词语作为关键词，从所述若干个短语中筛选出包含有所述关键词的短语，从筛选出的所述短语中选出一与其余短语共有词语最多的短语作为所述关键词对应的特征标签，进而重复筛选得出所有关键词所对应的特征标签；

所述数据库用于存储所述特征标签。

较佳的，所述特征标签筛选模块用于从所述产品关键词集合中选取一个词语作为关键词，从所述若干个短语中筛选出包含有所述关键词的短语，将筛选出的所述短语组成一短语词频矩阵，所述短语词频矩阵的行对应每一所述短语，且列对应全部所述短语中的每一词语，元素的取值为全部所述短语中的每一词语的出现次数，根据所述短语词频矩阵的每一行的元素值的平方和，得出一与其余短语的余弦相似性之和最小的短语作为所述关键词对应的特征标签，进而重复筛选得出所有关键词所对应的特征标签。

较佳的，所述常用词集合生成模块用于从每一所述文本抽取出现次数最多的若干词语并舍去停止词后，构成一常用词集合。

本发明积极进步效果在于：通过预设若干个主题后再抽取词语组成常用词集合，进而通过TF-IDF矩阵整理出关键词集合，优选出评论中的短语作为特征标签，降低了噪声干扰，使得筛选得出的产品的特征标签更为准确。

附图说明

图1为本发明一较佳实施例的产品特征标签的提取方法的流程图。

图2为本发明一较佳实施例的产品特征标签的提取装置的示意图。

具体实施方式

下面举个较佳实施例，并结合附图来更清楚完整地说明本发明。

图1为本实施例的产品特征标签的提取方法的流程图，如图1所示，本实施例涉及的产品特征标签的提取方法包括有以下步骤：

步骤1、抓取一产品类型的所有评论，评论预设有若干个主题；

主题可以在收集评论的时候就先行确定，例如引导客户在主题一(物流评价)和主题二(与描述相符的程度)下分别评论。也可以通过其他的搜索手段确定。

步骤2、将同一主题的全部评论的内容合并为一文本；

步骤3、从每一所述文本抽取出现次数最多的若干词语(本实施例中抽取出现次数最多的前50％的词语)并舍去停止词后，构成一常用词集合；

步骤4、生成一TF-IDF矩阵，TF-IDF矩阵的行对应每一文本，列对应全部文本中的每一词语，TF-IDF矩阵中的每一元素的取值根据以下公式计算：

其中，e为TF-IDF矩阵中的元素的取值，n为该元素对应的词语在对应的文本中的出现次数，k为该元素对应的文本中的总词语数，a为TF-IDF矩阵的行数，b为TF-IDF矩阵中该元素对应的词语数不为0的行数；

此处，TF-IDF矩阵中的元素的取值(即TF-IDF值)等于标准化词频乘以逆文档频率，标准化词频的定义为某个词在文章中出现的次数除以该文章的总词数，而逆文档频率则为log(文章总数/包含该词的文章数)，将上述规整套用到本发明的技术方案中可以得出上述公式。

步骤5、从TF-IDF矩阵的每一行中抽取值最大的若干元素对应的词语(本实施例中抽取值最大的前30％的词语)；

步骤6、将从TF-IDF矩阵中抽取所得的全部词语集合在一起形成一关键词集合；

此处，步骤5和步骤6与步骤3中一样，由于区分了主题(每个主题对应的文本均对应TF-IDF中的一行)，因此噪声也相应的减小了。

步骤701、将产品类型中的每一产品的所有评论分别合并成一第二文本；

步骤702、生成一第二词频矩阵，第二词频矩阵的行对应每一第二文本，列对应全部常用词集合中的词语，元素的取值为每一列所对应的词语在每一行所对应的第二文本中的出现次数；

步骤703、生成一第二TF-IDF矩阵，第二TF-IDF矩阵的行对应每一第二文本，列对应全部第二文本中的每一词语，第二TF-IDF矩阵中的每一元素的取值根据以下公式计算：

其中，e₂为第二TF-IDF矩阵中的元素的取值，n₂为该元素对应的词语在对应的第二文本中的出现次数，k₂为该元素对应的第二文本中的总词语数，a₂为第二TF-IDF矩阵的行数，b₂为第二TF-IDF矩阵中该元素对应的词语数不为0的行数；

也就是说，第二词频矩阵和第二TF-IDF矩阵的行和列与前面第一TF-IDF矩阵是不同的，因为第二文本对应的是不同产品的评论，而步骤2中的文本对应的是不同主题的评论。

步骤704、从单独产品所对应的第二词频矩阵和第二TF-IDF矩阵的行中，分别抽取对应的元素取值最大且属于关键词集合的若干个词语，并将抽取的所有词语合并形成一产品关键词集合，例如，从第二词频矩阵的一行(单独产品对应的一行，下同)中抽取元素取值最大的5个元素，再从第二TF-IDF矩阵的一行中抽取元素取值最大的5个元素，将二者对应的词语合并后，这一行对应的产品关键词集合中有5～10个词语(因为可能存在重复)。

此处，这样的方案是为了进一步减少噪声。

步骤705、将单独产品所对应的第二文本按照分隔符拆分成若干个短语；

此处，分隔符是指的逗号句号等可以分断语义的标点符号。

步骤706、从产品关键词集合中选取一个词语作为关键词，从若干个短语中筛选出包含有关键词的短语，将筛选出的短语组成一短语词频矩阵，短语词频矩阵的行对应每一短语，且列对应全部短语中的每一词语，元素的取值为全部短语中的每一词语的出现次数，根据短语词频矩阵的每一行的元素值的平方和，得出一与其余短语的余弦相似性之和最小的短语作为关键词对应的特征标签。

此处，利用短语与短语之间的余弦相似性，更为精确的选择出了更具代表性的短语。

步骤707、重复步骤706得出所有关键词所对应的特征标签；

步骤708、将特征标签存储至数据库。

图2为和本实施例的产品特征标签的提取方法相对应的提取装置的示意图，如图2所示，该提取装置包括有一评论抓取模块101、评论合并模块102、常用词集合生成模块103、TF-IDF矩阵生成模块104、TF-IDF矩阵元素抽取模块105、关键词集合生成模块106、第二文本生成模块107、第二词频矩阵生成模块108、第二TF-IDF矩阵生成模块109、产品关键词集合生成模块110、第二文本拆分模块111、特征标签筛选模块112和数据库113。

评论抓取模块101用于抓取一产品类型的所有评论，评论预设有若干个主题。

评论合并模块102用于将同一主题的全部评论的内容合并为一文本。

常用词集合生成模块103用于从每一文本抽取出现次数最多的若干词语并舍去停止词后，构成一常用词集合。

TF-IDF矩阵生成模块104用于生成一TF-IDF矩阵，TF-IDF矩阵的行对应每一文本，列对应全部文本中的每一词语，TF-IDF矩阵中的每一元素的取值根据以下公式计算：

其中，e为TF-IDF矩阵中的元素的取值，n为该元素对应的词语在对应的文本中的出现次数，k为该元素对应的文本中的总词语数，a为TF-IDF矩阵的行数，b为TF-IDF矩阵中该元素对应的词语数不为0的行数。

TF-IDF矩阵元素抽取模块105用于从TF-IDF矩阵的每一行中抽取值最大的若干元素对应的词语。

关键词集合生成模块106用于将从TF-IDF矩阵中抽取所得的全部词语集合在一起形成一关键词集合。

第二文本生成模块107用于将产品类型中的每一产品的所有评论分别合并成一第二文本。

第二词频矩阵生成模块108用于生成一第二词频矩阵，第二词频矩阵的行对应每一第二文本，列对应全部常用词集合中的词语，元素的取值为每一列所对应的词语在每一行所对应的第二文本中的出现次数。

第二TF-IDF矩阵生成模块109用于生成一第二TF-IDF矩阵，第二TF-IDF矩阵的行对应每一第二文本，列对应全部第二文本中的每一词语，第二TF-IDF矩阵中的每一元素的取值根据以下公式计算：

其中，e₂为第二TF-IDF矩阵中的元素的取值，n₂为该元素对应的词语在对应的第二文本中的出现次数，k₂为该元素对应的第二文本中的总词语数，a₂为第二TF-IDF矩阵的行数，b₂为第二TF-IDF矩阵中该元素对应的词语数不为0的行数。

产品关键词集合生成模块110用于从单独产品所对应的第二词频矩阵和第二TF-IDF矩阵的行中，分别抽取对应的元素取值最大且属于关键词集合的若干个词语，并将抽取的所有词语合并形成一产品关键词集合。

第二文本拆分模块111用于将单独产品所对应的第二文本按照分隔符拆分成若干个短语。

特征标签筛选模块112用于从产品关键词集合中选取一个词语作为关键词，从若干个短语中筛选出包含有关键词的短语，将筛选出的短语组成一短语词频矩阵，短语词频矩阵的行对应每一短语，且列对应全部短语中的每一词语，元素的取值为全部短语中的每一词语的出现次数，根据短语词频矩阵的每一行的元素值的平方和，得出一与其余短语的余弦相似性之和最小的短语作为关键词对应的特征标签，进而重复筛选得出所有关键词所对应的特征标签。

数据库113用于存储特征标签。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种产品特征标签的提取方法，其特征在于，其包括有以下步骤；

S2、将同一主题的全部所述评论的内容合并为一文本；

S3、从每一所述文本抽取出现次数最多的若干词语，以构成一常用词集合；

S6、将从所述TF-IDF矩阵中抽取所得的全部所述词语集合在一起形成一关键词集合；

S7、从一单独产品的全部评论中抽取包含有所述关键词集合中的词语的一短语作为所述单独产品的特征标签，所述短语为文本中由分隔符分隔形成的文字段；

所述S7包括以下步骤：

S704、从所述单独产品所对应的所述第二词频矩阵和所述第二TF-IDF矩阵的行中，分别抽取对应的元素取值最大且属于所述关键词集合的若干个词语，并将抽取的所有词语合并形成一产品关键词集合；

S705、将所述单独产品所对应的所述第二文本按照分隔符拆分成若干个所述短语；

S706、从所述产品关键词集合中选取一个词语作为关键词，从所述若干个短语中筛选出包含有所述关键词的短语，从筛选出的所述短语中选出一与其余短语共有词语最多的短语作为所述关键词对应的特征标签；

S707、重复S706得出所有关键词所对应的特征标签；

S708、将所述特征标签存储至数据库。

2.如权利要求1所述的产品特征标签的提取方法，其特征在于，所述S706为：

3.如权利要求1或2所述的产品特征标签的提取方法，其特征在于，所述S3为：从每一所述文本抽取出现次数最多的若干词语并舍去停止词后，构成一常用词集合。

4.一种产品特征标签的提取装置，其特征在于，其包括有：一评论抓取模块、一评论合并模块、一常用词集合生成模块、一TF-IDF矩阵生成模块、一TF-IDF矩阵元素抽取模块、一关键词集合生成模块和一特征标签生成模块；

所述特征标签生成模块用于从一单独产品的全部评论中抽取包含有所述关键词集合中的词语的一短语作为所述单独产品的特征标签，所述短语为文本中由分隔符分隔形成的文字段；

所述特征标签生成模块包括有：一第二文本生成模块、一第二词频矩阵生成模块、一第二TF-IDF矩阵生成模块、一产品关键词集合生成模块、一第二文本拆分模块、一特征标签筛选模块和一数据库；

所述第二文本拆分模块用于将所述单独产品所对应的所述第二文本按照分隔符拆分成若干个所述短语；

所述数据库用于存储所述特征标签。

5.如权利要求4所述的产品特征标签的提取装置，其特征在于，所述特征标签筛选模块用于从所述产品关键词集合中选取一个词语作为关键词，从所述若干个短语中筛选出包含有所述关键词的短语，将筛选出的所述短语组成一短语词频矩阵，所述短语词频矩阵的行对应每一所述短语，且列对应全部所述短语中的每一词语，元素的取值为全部所述短语中的每一词语的出现次数，根据所述短语词频矩阵的每一行的元素值的平方和，得出一与其余短语的余弦相似性之和最小的短语作为所述关键词对应的特征标签，进而重复筛选得出所有关键词所对应的特征标签。

6.如权利要求4或5所述的产品特征标签的提取装置，其特征在于，所述常用词集合生成模块用于从每一所述文本抽取出现次数最多的若干词语并舍去停止词后，构成一常用词集合。