CN102902757A

CN102902757A - 一种电子商务字典自动生成方法

Info

Publication number: CN102902757A
Application number: CN201210359050XA
Authority: CN
Inventors: 姚明东; 范英磊; 陈浩
Original assignee: Individual
Current assignee: Individual
Priority date: 2012-09-25
Filing date: 2012-09-25
Publication date: 2013-01-30
Anticipated expiration: 2032-09-25
Also published as: CN102902757B

Abstract

本发明公开了一种电子商务字典自动生成方法，包括以下步骤：步骤1：数据爬取：从电子商务网站、搜索引擎爬取原始商品数据；步骤2：预处理；步骤3：递进穷举；步骤4：词频统计；步骤5：归并处理；步骤6：冗余过滤；步骤7：正则式过滤；步骤8；步骤9：低频词剔除；步骤10：特征词补偿。主要优点包括：一是生成字典的速度快，采用机器学习、智能过滤、纠偏、补偿等算法自动生成字典、可大大提高生成效率。二是生成字典收录率高，由于采用了递进穷举方法对文本进行分词，因此在分词过程中很少会漏掉词条。三是生成的字典更加精炼，结合纠偏、冗余过滤、正则过滤等处理算法，消除字典中的冗余和错误，最终生成的电子商务字典更加精炼。

Description

一种电子商务字典自动生成方法

技术领域

本发明涉及的是一种电子商务字典自动生成方法。主要面向电子商务领域，电子商务字典是电子商务网站应用的基础，譬如在搜索、推荐、语义分词、排序权重计算等多方面都需要用到。

背景技术

目前面向电子商务的字典很少见，目前主流应用如淘宝大多采用手工生成或简单统计生成，也有部分采用机器学习的方法去搜集词条形成字典。但传统方法的缺点主要包括：一是手工处理工作量大：二是由于电子商务领域应用新商品层出不穷变化非常快，传统方式更新速度慢：三是自动生成方法的精确度低，结果比较粗糙。

发明内容

本发明针对电子商务领域特点，提出一套电子商务字典的自动生成方法，可从HTML网页等商品描述数据源中提取商品相关原始信息，通过递进穷举方法对文本进行切分，然后结合相应的纠偏和补偿算法对字典数据进行提纯，最终得到高质量的电子商务领域字典。该字典可广泛使用于搜索、语义分词、推荐、权重计算等电子商务应用中。

本发明的技术方案如下：

步骤1：数据爬取：从电子商务网站、搜索引擎爬取原始商品数据；

步骤2：预处理：对采集的原始商品数据进行预处理，过滤其中垃圾信息并做结构化处理；

步骤3：递进穷举：采用递进穷举方法按合理长度穷举各种分词组合，同时累计各种组合出现的频率，形成完整的包含所有可能组合的粗糙字典；

步骤4：词频统计：对字典中各个词条的出现次数进行统计，对每遇到一次把相应词条的count加1；

步骤5：归并处理：按规则五进行合并处理，一组潜在词如果字数相同、出现次数相同，同时有公共子串，并且公共子串出现频率与潜在词次数相同，则合并两个潜在词为一个字符串；

步骤6：冗余过滤：对粗糙字典计算出现频率，按照规则一至规则三过滤掉因穷举所带来的冗余词条；

步骤7：正则式过滤：结合规则四对开头和结尾为特定词汇的词条剔除；

步骤8：潜在词补偿：对步骤5的结果依据规则六进行处理；

步骤9：低频词剔除：基于某一个出现频率的阀值过滤词典，对于出现次数小于阀值的直接删除；

步骤10：特征词补偿：对一些电子商务领域中的特征词做补偿处理，如长度过长的品牌名称等领域特征词做补偿处理。

电子商务领域新名词更新频率高，采用传统的手工方式去处理工作量大且更新速度慢。本发明的主要优点包括：一是生成字典的速度快，采用机器学习、智能过滤、纠偏、补偿等算法自动生成字典、可大大提高生成效率。二是生成字典收录率高，由于采用了递进穷举方法对文本进行分词，因此在分词过程中很少会漏掉词条；采用补偿的方法，补充了一部分长度较长，同时在电子商务领域中很有意义的词条，所以收录率高。三是生成的字典更加精炼，结合纠偏、冗余过滤、正则过滤等处理算法，，消除字典中的冗余和错误，最终生成的电子商务字典更加精炼。

具体实施方式

以下结合具体实施例，对本发明进行详细说明。

本方法的详细实现步骤包括：

步骤1：数据爬取从电子商务网站、搜索引擎等原始数据源爬取原始数据，原始数据一般为HTML网页，HTML网页中包含商品名称、型号、描述等商品信息；通过文本抽取和分类后保存为包含商品信息的粗糙文本；

步骤2：预处理分析文本中的HTML标签，过滤步骤1中商品信息的垃圾数据，如图像链接、网址、HTML标签；然后对商品信息做结构化处理，获得不含标点符号和HTML标签的商品描述纯文本信息；

步骤3：递进穷举对采集的信息文本做全切分，初始位置为文本字符串的第一个字符，按合理长度(可调整)向后切分字符串，采用递进穷举方法每次递进一个字符在一个合理的范围内(默认为6)穷举各种分词组合，形成包含较多冗余数据的粗糙字典Z；

步骤4：词频统计对字典Z中各个词条的出现次数进行统计，对每遇到一次把相应词条的count加1：

步骤5：归并处理：按规则5进行合并处理，一组潜在词如果字数相同、出现次数相同，同时有公共子串，并且公共子串出现频率与潜在词次数相同，则合并两个潜在词为一个字符串；

步骤6：冗余过滤对粗糙字典计算出现频率，按照规则1-3过滤掉因穷举所带来的冗余词条；

步骤7：正则式过滤结合规则4对开头和结尾为特定词汇的词条剔除；

步骤8：潜在词补偿：对步骤5的结果依据规则6进行处理；

步骤9：低频词剔除基于某一个出现频率的阀值过滤词典，对于出现次数小于阀值的直接删除

步骤10；特征词补偿：对一些电子商务领域中的特征词做补偿处理，比如品牌、属性名等直接作为有效词加入字典中(如长度过长的品牌名称等领域特征词做补偿处理)

1、规则一：基于公共前缀或公共后缀过滤重复提取的无效子串

经过递进穷举处理后，会产生大量重复提取的无效子串，对有公共前缀或公共后缀且长度相同的潜在词过滤掉重复提取的公共前缀或公共后缀，比如如下情况：

775＝627+99+48+1

532＝338+180+11+3

以上第一个例子是包含潜在词“器类型”的最短潜在词(字数为5)有共同的后缀(如果是共同前缀也可)“器类型”，并且count之和与“器类型”的count一致，说明“器类型”没有单独作为一个词出现过，这种情况下将“器类型”从潜在词表中删除。

第二个例子是包含潜在词“片拍摄”的最短潜在词(字数为4)有共同的后缀(如果是共同的前缀也可)“片拍摄”，并且count之和与“片拍摄”的count一致，说明“片拍摄”没有单独作为一个词出现过，这种情况下将“器类型”从潜在词表中删除。

387-342-38-6＝1

这个例子含潜在词“控器”的最短潜在词(字数为3)有共同的后缀(如果是共同的前缀也可)“控器”，并且count之和与“控器”的count非常接近(这个可以通过一个阀值界定)，说明“片拍摄”单独作为一个词出现的最大次数为他们的差值，这种情况下将“控器”的count减掉其余所有count的和。

2、规则二：基于统计次数的等频重复子串过滤：

(1)把所有出现次数相同的潜在词，用最长的一个去跟其它的比较，其它所有是最长潜在词的子串的潜在词，从潜在词词典中删除。这种情况说明其它最长潜在词的子串只能出现在最长潜在词中，其它情况下不会出现，所以把最长的留下就可以了，其余的都是垃圾。举例如下：

尽管个数相同，但是因为不是礼品箱包的子串，所以依然保留；

这样做有两个好处：1)减少了很多垃圾；2)留下的最长潜在词对我们做最长匹配很有意义。

(2)另一个例子：

这种情况下我之前说的用最长潜在词去匹配的做法会对数据处理不彻底，比如本例中只有“非质量问题”的垃圾子串能处理掉；“时尚男”，“传感器”，“扬声器”的垃圾子串处理不掉。所以我想我们的处理策略变一下，依次用长度递增的潜在词去匹配其它更长的潜在词，比如本例中首先用每一个长度为2的潜在词去匹配所有长度大于2的潜在词，去除长度为2的垃圾；然后用长度为3的潜在词去匹配长度大于3的潜在词，去除长度为3的垃圾，...直到所有都处理完。这个问题需要尽快处理，潜在词库中这种情况特别多，随着产品数量的增加还会更多。我们在审核之前需要去除尽可能多的垃圾，以便我们做进一步的优化。

3、规则三：基于统计次数的相近频率重复子串过滤

譬如有以下切分结果，word代表已切分出的词条，count代表统计的出现频率：

如果把这些情况下的垃圾数据处理掉，估计potentiai phrase中垃圾已不多。因此做法是：如果某个潜在词(比如数码相)是另外一个词的子串(数码相机)，并且出现的频率非常接近，可以设定一个阀值(比如长词出现频率＞短词出现频率的90％，阀值根据情况调整)，则将较短潜在词的count减掉与它次数最接近的较长词的count。这样做的依据是较短词除了作为较长词字串出现以外，单独出现的几率很低，所以这样的词可能作为一个有意义的词单独出现的最大次数也就是如上的差值。实际上在其它情况下出现也是作为其它可能更有意义词的子串。其实这种情况下可以直接把较短词删掉的，防止万一出现误删，暂时减少统计次数就行，我们将来对于出现频率较低的词可能根本不做处理，跟删掉差不多。

对于一个有意义的词会跟任何包含它的更长词次数如此接近。有意义的词单独出现的概率很高。即便作为其它更长词的子串出现，在各个更长词中出现次数也是很分散的，一般不会如此集中。

4、规则4：基于无效前缀/后缀集合的潜在词过滤

如下是一些例子：

Word

万像素

倍光学变焦

张照片

含电池

个配件

人评价

的频率

前缀出现在某个集合中，去掉前缀之后剩下的部分在已经做过部分优化的潜在词字典中出现频率大于某个阀值，则将这些潜在词从潜在词词典中删除。

使用时

拍摄时

采用了

模式下

相机的

后缀出现在某个集合中，去掉后缀之后剩下的部分在已经做过部分优化的潜在词字典中出现频率大于某个阀值，则将这些潜在词从潜在词词典中删除。

5、规则5：基于切分边界错误识别的切分纠错

合并规则只应用于最大切分长度的潜在词，过滤规则应用于所有潜在词

合并的条件：一组潜在词如果字数相同、出现次数相同，同时有公共子串，并且公共子串出现频率与潜在词次数相同，则合并两个潜在词为一个字符串(所以合并的原因是两个词的公共子串出现的次数与两个词相同，则这两个词一定出现且只出现在同一个更长的字符串中)，同时删除被合并的潜在词(潜在词没有独立出现，或者是切分错误，比如计算机操作系，或者是一个常规词的子串，比如“操作系”，因此不会作为一个有意义的词独立出现，所以删除)。

比如“如您在购物过”和“您在购物过程”出现频率都为404次，且有公共子串“您在购物过”次数也为404，则合并两个子串为“如您在购物过程”，频率计为404，依次扫描其它长度相同的潜在词，进行合并或者过滤。直到所有满足条件的潜在词都处理完，得到“如您在购物过程中遇到配送”，同时删除如上潜在词。

公共子串的长度要求不小于两个字，比如“如您在购物过”和“物过程中遇到”公共子串为“物过”，如果“物过”出现次数为404，可以直接合并两个子串为“如您在购物过程中遇到”，同时过滤掉所有长度为6的“如您在购物过程中遇到”的子串，继续与剩余满足条件的潜在词合并。

与词典中其它潜在词进行比较，删除所有与得到的长字符串出现频率相同的子串，比如“如您在购物过程中遇到”出现频率为404，则删除所有出现频率为404的“如您在购物过程中遇到”的子串“物过”、“在购物过程”等等。

6、规则6：基于分词匹配的有效词补偿

1)、基于步骤6处理之后的潜在词词典做最长匹配分词处理，如果切分的组合已经作为一个潜在词出现在字典中，则继续向后扫描字符串，对于没有出现在潜在词字典中的长度不小于2的最长切分组合(在步骤4过滤子串时已经过滤掉的)加入到潜在词词典中，频率与字符串的频率相同。假入字符串为“享受国家三包政策”，进行切分得到“享受”、“国家”、“政策”在字典中已经出现，则将“三包”加入潜在词词典。

2)、或者直到扫描到字符串结尾，都没有匹配的潜在词，则将整个字符串作为一个潜在词加入字典，比如“粉红色大布娃娃”，假如所有子串都没有在其它情况下出现，则“粉红色大布娃娃”整体作为一个潜在词。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种电子商务字典自动生成方法，其特征在于，包括以下步骤：

步骤8：潜在词补偿：对步骤5的结果依据规则六进行处理；