具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明是通过对从互联网中采集到的大量的信息数据进行多层次的数据筛选,数据分析,从而得到需求主题的需求方向、需求类型及需求程度的可靠性高的数据;该数据可以直观的反映出用户对产品的需求情况,也可以用于构建用户需求库,进一步分析出用户对产品的需求情况。
如图1所示,公开了一种需求信息的筛选方法,包括;
S11、采集互联网中的至少一个信息源上发布的至少一个文本信息;
其中,信息源上发布的文本信息,可以是电商网站的评论栏中的评论文本,也可以是在论坛、微博、贴吧、相关网站的评论版块上发布的自由言论。
另外,采集文本信息可以通过网络爬虫进行数据抓取获得,本领域的技术人员应该可以了解的是通过网络爬虫对数据进行抓取只是本说明性实施例所采用的优选方法,还可以通过其他数据采集/抓取方法获取文本信息。
S12、将包含有需求主题的相关词语的文本信息作为目标文本;
其中,所述需求主题的相关词语为以下之一或任意组合:产品名称、产品部件名称、产品使用技术、产品所在领域中的相关术语、产品的应用。例如需求主题为“电视”,那么“电视”的相关词语为液晶电视、体感游戏、音频编码、杂波、视频信号、双影、隔行、逐行信号、图像、显卡等,另外相关词语可能包含几百甚至上千个关键词。
S13、通过每个所述目标文本中的情感词语,确定该目标文本对于所述需求主题的需求方向,或者,通过每个所述目标文本中的情感词语,确定该目标文本对于所述需求主题的需求方向及需求程度。
本发明通过从互联网上获取大量的文本信息作为语料样本,并通过需求主题筛选对噪音数据进行滤除,进而保证获取到的目标文本的可靠性;同时通过线上信息采集也可以使分析效率得到大大的提升;采用分析目标文本中的情感词语,进而判断出用户对主题的需求方向是正是负,以及需求程度的强烈程度,得到大量的可靠性高的用户需求信息,进而分析出用户需求。
另外,数据信息筛选,一般都是以关键词在整个文本信息中进行扫描匹配的方式进行数据查找,进而实现筛选;但选取的关键词对于整个文本信息来言,仅仅是文本信息中的一个词语,但扫描针对于文本信息全部内容,因此扫描整个文本信息的过程中,有许多的扫描是无用扫描,占据了大量的处理时间,以下提出一种可选的实施例,以节省处理时间,提高处理效率。
如图2所示,在一些说明性实施例中,在所述采集互联网中的至少一个信息源的至少一个文本信息之后,还包括:
S21、找出每个所述文本信息中至少一个关键词,构建文本信息-关键词的分布矩阵;其中,分布矩阵例如表1所示:
表1:分布矩阵示例
|
词语1 |
词语2 |
词语3 |
词语4 |
…… |
词语m |
文本1 |
0 |
0 |
0 |
0 |
…… |
0 |
文本2 |
0 |
0 |
0 |
0 |
…… |
0 |
文本3 |
0 |
1 |
0 |
0 |
…… |
1 |
文本4 |
0 |
2 |
2 |
0 |
…… |
0 |
文本5 |
0 |
0 |
0 |
0 |
…… |
0 |
文本6 |
0 |
0 |
0 |
0 |
…… |
0 |
…… |
…… |
…… |
…… |
…… |
…… |
…… |
文本n |
0 |
0 |
0 |
0 |
…… |
0 |
构建分布矩阵的过程,具体包括:
确定每个文本信息,以及每个文本信息中的关键词;将文本作为竖列,关键词作为横列,构建分布矩阵。
其中,关键词的词性为名词、动词或形容词。
S22、通过卡方检验,确定每个所述文本信息的至少一个关键词中的特征词,获得每个所述文本信息的特征词集;
其中,一般认为文本中出现的词有两种:第一种是只在本文本中出现,但是在所有样本集中出现次数少,认定这种词语可以代表该文本的意思,即是该文本的特征词。第二种是不仅在本文本中出现,还在其它文本中频繁出现,这类词不能典型代表本文本。卡方检验就是用来去掉一些“大众”的词语,晒选出能够代表文本中的特征词,达到给分布矩阵降维的效果。
S23、将所述需求主题的相关词语与每个所述文本信息的特征词集中的特征词进行匹配;
S24、将所述特征词与所述需求主题的相关词语匹配成功的所述文本信息作为所述目标文本。
通过构建分布矩阵,保留文本信息中的名词、动词和形容词;在匹配的过程中,相关词语只需与关键词进行匹配,从而减小了处理的工作量及处理时间,提高了分析效率。
在一些说明性实施例中,所述通过每个所述目标文本中的情感词语,确定该目标文本对于所述需求主题的需求方向或需求方向及需求程度的过程,包括:
以需求词库中的每个需求词与每个所述目标文本在所述分布矩阵中的形容词词性的关键词进行匹配;
匹配成功,将该需求词对应的需求方向及需求程度作为该目标文本对于所述需求主题的需求方向或需求方向及需求程度。
其中,需求词库例如表2所示:
表2需求词库示例
强烈需求词 |
一般需求词 |
负面需求词 |
非常想要 |
想要 |
不方便 |
非常喜欢 |
需要 |
不满 |
非常希望 |
就好了 |
受不了 |
非常需要 |
喜欢 |
不好 |
特别想要 |
建议 |
不方便 |
特别需要 |
期待 |
不行 |
特别喜欢 |
希望 |
不满 |
强烈赞 |
优势 |
不能忍 |
很喜欢 |
期望 |
不算快 |
…… |
…… |
…… |
其中,强烈需求词指示出了需求方向为正面(即需求),需求程度为强烈;一般需求词指示出了需求方向为正面,需求程度为一般;负面需求词指示出了需求方向为负面(即不需求);另外,本领域技术人员应该可以理解的是表2为本说明性实施例的所选取的优选实施例,还可以对需求词进一步细分,将正面或负面的需求程度划分为若干个等级。
以表2为需求词库举例说明确定需求方向及需求程度的过程:
例:我前两天买的冰箱,颜色不好看。
分析得到的特征词集包括:冰箱、颜色、不好;
以需求词库对特征词进行匹配,匹配到不好,对应的需求词库中的需求方向为负面。
另外,对于一些复杂的文本信息,即文本信息中包含有至少两种需求方向,可以采用另外一种分析方法。
当检测出文本中既包含有正面需求,又包含有负面需求这样两个方向的需求时,对文本进行分句处理,选取首次出现的特征词进行匹配,确定需求方向及需求程度。
分句处理,可以以逗号、句号、感叹号、分号等符号划分。
例如:冰箱性能很好,但颜色不好看;
分析得到的特征词集包括:冰箱、性能、很好;颜色、不好;
以需求词库对首次出现的特征词进行匹配,匹配到很好,对应的需求词库中的需求方向为正面。
鉴于这种复杂句型的数量占比更少,通过上述方法处理方式更为快捷高效。
在一些说明性实施例中,在所述将包含有需求主题的相关词语的文本信息作为目标文本之后,还包括:
判断所述目标文本在所述分布矩阵中对应的关键词中是否具有反映需求类型的描述;
若是,则将该描述对应的需求类型作为所述目标文本对于需求主题的需求类型。
其中,所述需求类型为功能性需求、外观需求、价格需求或售后需求。
对于包含有多种需求描述的目标文本,例如:冰箱性能很好,但颜色不好看。
选取首次出现的特征词,性能,即该需求类型为功能性需求。
最终将以获得的数据建立/加入到数据库,以用于作为用户的需求分析的基础。
现在参照图3,图3示出了需求信息的筛选系统的结构框图。
如图3所示,公开了一种需求信息的筛选系统100,包括:采集互联网中的至少一个信息源上发布的至少一个文本信息的采集模块101;将包含有需求主题的相关词语的文本信息作为目标文本的主题筛选模块102;通过每个所述目标文本中的情感词语,确定该目标文本对于所述需求主题的需求方向,或者对于所述需求主题的需求方向及需求程度的需求筛选模块103。
在一些说明性实施例中,所述主题筛选模块包括:找出每个所述文本信息中至少一个关键词,构建文本信息-关键词的分布矩阵的矩阵建立模块104;通过卡方检验,确定每个所述文本信息的至少一个关键词中的特征词,获得每个所述文本信息的特征词集的特征词获取模块105;将所述需求主题的相关词语与每个所述文本信息的特征词集中的特征词进行匹配的第一匹配模块106;将所述特征词与所述需求主题的相关词语匹配成功的所述文本信息作为所述目标文本的主题筛选子模块107。
在一些说明性实施例中,所述关键词的词性为名词、动词或形容词。
在一些说明性实施例中,所述需求筛选模块包括:以需求词库中的每个需求词与每个所述目标文本在所述分布矩阵中的形容词词性的关键词进行匹配的第二匹配模块108;在匹配成功后,将该需求词对应的需求方向及需求程度作为该目标文本对于所述需求主题的需求方向,或者对于所述需求主题的需求方向及需求程度的需求筛选子模块109。
在一些说明性实施例中,需求筛选模块还包括:判断所述目标文本在所述分布矩阵中对应的关键词中是否具有反映需求类型的描述;若是,则将该描述对应的需求类型作为所述目标文本对于需求主题的需求类型的类型识别模块110。
在一些说明性实施例中,所述需求类型为功能性需求、外观需求、价格需求或售后需求。
在一些说明性实施例中,所述需求主题的相关词语为以下之一或任意组合:产品名称、产品部件名称、产品支持技术、产品所在领域中的相关术语、产品的应用。
在一些说明性实施例中,所述信息源至少包含有以下之一:电商网站、论坛、微博、相关网站的评论版块。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。