CN107203542A

CN107203542A - 词组提取方法及装置

Info

Publication number: CN107203542A
Application number: CN201610153177.4A
Authority: CN
Inventors: 张增明
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2016-03-17
Filing date: 2016-03-17
Publication date: 2017-09-26
Also published as: EP3432160A4; JP2019508815A; US20190018841A1; WO2017157201A1; TW201734851A; EP3432160A1

Abstract

本申请提供一种词组提取方法及装置。方法包括：获取网络资源的描述信息；对所述描述信息执行显示词组提取流程，以从所述描述信息中提取显示词组；对所述描述信息执行模式词组提取流程，以从所述描述信息中提取隐式词组。采用本申请技术方案可以提取更多高质量的词组。

Description

词组提取方法及装置

【技术领域】

本申请涉及数据处理技术领域，尤其涉及一种词组提取方法及装置。

【背景技术】

随着互联网技术的发展，信息处理领域需要处理的信息量不断增长。在诸如搜索引擎、自动分词、词典编纂以及机器翻译等信息处理领域中，词组提取不仅是必要操作，而且词组提取的效果在很大程度上影响着这些信息处理的效果。不同领域的语言风格不同，因此词组提取的方式也有所不同。

例如，在电子商务领域中，需要的是能够描述商品特征的词组。例如，一件衣服，可以通过long-sleeve(长袖)，v-neck(v领)，black(黑色)，package-hip(包臀)等词组来描述。目前，电子商务领域中的词组，都是运营人员根据经验，人工确定的。由于受限于运营人员的知识，这种方式所确定的词组不够全面，质量得不到保证。

【发明内容】

本申请的多个方面提供一种词组提取方法及装置，用以提取更多高质量的词组。

本申请的一方面，提供一种词组提取方法，包括：

获取网络资源的描述信息；

对所述描述信息执行显示词组提取流程，以从所述描述信息中提取显示词组；

对所述描述信息执行模式词组提取流程，以从所述描述信息中提取隐式词组。

本申请的另一方面，提供一种词组提取装置，包括：

获取模块，用于获取网络资源的描述信息；

第一提取模块，用于对所述描述信息执行显示词组提取流程，以从所述描述信息中提取显示词组；

第二提取模块，用于对所述描述信息执行模式词组提取流程，以从所述描述信息中提取隐式词组。

在本申请中，将网络资源的描述信息作为提取词组所需的语料，通过对该描述信息执行显示词组提取流程和模式词组提取流程，能够从描述信息中提取到容易发现的显示词组和不容易发现的隐式词组，以更加全面的提取词组，并且可以保证词组的质量。

【附图说明】

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的词组提取方法的流程示意图；

图2为本申请另一实施例提供的词组提取方法的流程示意图；

图3为本申请又一实施例提供的词组提取装置的结构示意图；

图4为本申请又一实施例提供的词组提取装置的结构示意图。

【具体实施方式】

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在电子商务领域中，需要提取能够描述商品特征的词组。在现有技术中，一般是由运营人员根据经验，人工确定的。由于受限于运营人员的知识以及主观性，这种方式所确定的词组不够全面，质量得不到保证。

针对上述问题，本申请提供一种词组提取方法，主要原理是：将网络资源的描述信息作为提取词组所需的语料，自动从描述信息中提取容易发现的显示词组和不容易发现的隐式词组，以更加全面的提取词组，并保证词组的质量，解决现有技术存在的问题。

图1为本申请一实施例提供的词组提取方法的流程示意图。如图1所示，该方法包括：

101、获取网络资源的描述信息。

102、对上述描述信息执行显示词组提取流程，以从描述信息中提取显示词组。

103、对描述信息执行模式词组提取流程，以从描述信息中提取隐式词组。

本实施例提供一种词组提取方法，可由词组提取装置来执行，用以更加全面的提取词组，并保证词组的质量。

具体的，提取词组的第一步是：准备提取语料。本实施例获取网络资源的描述信息作为提取语料。

网络资源的描述信息主要是一些与网络资源相关的信息，例如可以包括但不限于：网络资源的标题、属性信息、关键词、详情信息以及评论信息中的至少一种。值得说明的是，网络资源的描述信息优选是文本信息，但不限于此。

上述网络资源的属性信息可以是网络资源提供者在发布网络资源时手动填写的，例如包括但不限于：长度、大小、产地、款式、饰品等。

上述网络资源的标题和关键词也是网络资源提供者在发布网络资源时手动填写的。

在电子商务领域，上述网络资源可以是商品或服务。以商品为例，网络资源的标题、属性信息和标题实际上也就是商品的标题、属性信息和关键词。

值得说明的是，由于是大数据处理，本实施例提取的网络资源的描述信息是非常多的，甚至可以达到亿级别。本实施例基于海量描述信息进行词组提取，可以在真正意义上实现词组提取的自动化，不受人工限制。

在一可选实施方式中，考虑到数据仓库中的信息比较规范，质量比较好，则可以直接从数据仓库中获取网络资源的描述信息。以网络资源为商品，且描述信息包括商品的标题、属性信息以及关键词为例，则可以直接从数据仓库中获取商品的标题、属性信息以及关键词。举例说明，从数据仓库中提取的商品的标题、属性信息以及关键词的示例如下。

一种商品的标题的示例如下：

Sexy style girls’black dress package-hip-dress one-shoulder long-sleevegreen flower v-neck o-neck cocktail dress wholesale-retail free shipping 100％cotton

一种商品的属性信息的示例如下：

一种商品的关键词(逗号分隔)的示例如下：

Blue Dress Party,Fashion Ladies Blue Dress Party,Fashion Ladies BlueDress Party

在一可选实施方式中，考虑到网络资源的描述信息可能存在一些不规范和错误的地方，例如使用奇怪的符号连接单词，多个单词写在一起无法区分，单词的拼写错误，同一个单词或者词组在多个地方的写法不一致等，若直接采用描述信息，会为后面的处理带来一定困难，降低所提取的词组质量。基于此，一种获取网络资源的描述信息的实施方式包括：从数据仓库中，提取网络资源的原始描述信息，对原始描述信息进行文本预处理，获取文本预处理后的描述信息。

其中，对原始描述信息进行文本预处理包括但不限于：

对原始描述信息进行连接符号预留处理、大小写转换处理、拼写一致性检查处理、单词分割处理、拼写纠错处理以及名词词形还原处理中的至少一种。

连接符号预留处理：

在原始描述信息中，可能存在一些奇怪的连接符号，例如加号“+”，去除这些奇怪的连接符号，原始描述信息就变得比较规范，方便后续处理。但是，有一些特殊的连接符号，可能能够表达特殊或更加丰富的含义。

例如，短线“-”，通过分析发现，这个符号一般是网络资源提供者在填写网络资源的描述信息的过程中主动加上去的，往往连接着两个或多个相关的词，网络资源提供者可能希望将这些词连接在一起，表达一个更加丰富的语义。以o-neck为例，是一个正确的拼写，表达“圆领”的意义，若将短线“-”去掉，则变成oneck，这是一个错误拼写，有可能在后续纠错过程中被纠正为neck，使其丧失原本的意义。

又例如，百分号“％”，在某些情况下可能会用于表示成分含量，例如“100％cotton”中的百分号表示含棉量百分百，所以应该保留。当然，对于不需要保留的情况，可以将其去掉，例如“v-neck％”中的百分号则是不需要保留的，将其删除。

又例如，单引号“’”，在某些情况下可能会表达所属关系，例如girls’中的单引号表示所属关系，需要保留。当然，对于不需要保留的情况，可以将其去掉，例如shoulder’中的单引号就是多余的，将其删除。

基于上述，对于短线、单引号或百分号，可以预先指定需要保留的格式。在对原始描述信息进行连接符号预留处理时，可以判断原始描述信息中是否包含符合指定格式的短线、单引号或百分号，若判断结果为存在，则保留原始描述信息中符合指定格式的短线、单引号或百分号。对于原始描述信息中存在的不符合指定格式的短线、单引号和百分号以及其它连接符号，均删除。

以商品的标题为例，连接符号预留处理之前如下：

SEXY style girls’black dresses package-hip-dress one shouder’longSLEEVE++Green flowers+v-neck％oneck COCKAIL DR-ESS+wholesaleand retail+free shipping 100％cotton

连接符号预留处理之后如下：

SEXY style girls’black dresses package-hip-dress one shouderlongSLEEVE Green flowers v-neck oneck COCKAIL DR-ESS wholesale andretail free shipping 100％cotton

值得说明的是，在处理百分号时，当发现需要保留时，若在百分号与后面的单词之间没有空格，则可以加一个空格，例如上面的“100％cotton”，变成了“100％cotton”，使得预处理后的信息更加规范。

大小写转换处理：

这里主要是进行大小写之间的统一。根据具体应用需求，可以将大写统一转换为小写，也可以将小写统一转换为大写。

以上述商品的标题为例，在进行连接符号预留处理之后，大小写转换处理之前的标题示例如下：

经过连接符号预留处理和大小写转换处理之后的标题示例如下：

sexy style girls’black dresses package-hip-dress one shouderlongsleeve green flowers v-neck oneck cockail dr-ess wholesale-retail freeshipping 100％cotton

拼写一致性检查处理：

经过分析发现，同样一个单词，在不同的地方可能会以不同的拼写方式出现。例如，dresses这个单词，存在着如下不同的拼写方法(不完全统计):dresses、dr-esses、dress-es等。这种拼写的不一致性，也会给后面的分析带来困难，影响所提取到的词组的质量。基于此，这里预先对原始描述信息进行拼写一致性检查处理，将这些拼写不一致的单词转换为一致的拼写方式。

具体的，对于原始描述信息中的每个单词或词组，若该单词或词组在原始描述信息中出现多种拼写方式，统计每种拼写方式在数据仓库中重复出现的次数；根据每种拼写方式在数据仓库中重复出现的次数，从多种拼写方式中，选择重复出现的次数最多且大于预设阈值的拼写方式作为目标拼写方式，将该单词或词组在原始描述信息中出现的其它拼写方式替换为目标拼写方式。

例如，假设dresses这个单词，在描述信息中共出现了dresses、dr-esses和dress-es三种拼写方式，经过统计发现dresses在数据仓库中出现的次数最多且大于预设的次数阈值，则可以将dresses作为目标拼写方式，将dr-esses和dress-es这两种拼写方式替换为dresses。

仍以上述商品的标题为例，则上面经过连接符号预留处理和大小写转换处理的标题示例，进一步经过拼写一致性检查处理之后转化为：

sexy style girls’black dresses package-hip-dress one shouderlongsleeve green flowers v-neck o-neck cockail dress wholesale-retail freeshipping 100％cotton

单词分割处理：

经过分析发现，原始描述信息中经常出现多个单词写在了一起的情况，比如上面标题中的“longsleeve”，还有单词拼写错误的情况，比如上面标题中的“shouder”(应该是shoulder)和“cockail”(应该是cocktail)。这些错误会严重影响后续处理过程，所以需要订正。

针对上述问题，一种具体订正方式是：对原始描述信息进行单词分割处理，即识别出原始描述信息中存在的连写在一起的单词，对所识别出的连写在一起的单词进行分割。

举例说明，单词分割处理的结果示例如下：

longsleevefloorlengthdress->long sleeve floor length dress

dgdhlongsleevekl->dgdh long sleeve kl

swearskirt->swear skirt

在上述示例中，“->”左侧的是连写在一起的单词，“->”右侧的是分割后的结果。在上述第一个示例中，待处理字符串是由单词组成的，经过单词分割之后，每个单词都分割出来了。在上述第二个示例中，前面有几个干扰字符，后面也有干扰字符，经过单词分割之后，不仅分割出了确定的单词(longsleeve)，而且也将干扰字符识别出来了。在上述第三个示例中，通过采用最优的分割策略，使分割出来的单词更加符合上下文的语义。

综上所述，单词分割处理的过程，就是尽可能的排除前后的干扰字符，识别出单词，并结合上下文确定最优分割策略，使得语义上更加顺畅。

拼写纠错处理：

拼写纠错，就是将错误的拼写形式，订正为正确的形式。例如，将sleve修改为sleeve。值得说明的是，这里的拼写纠错是针对任意字符串(token)的，这里的字符串可以是单词，也可以是多个单词，这样，拼写纠错不仅可以纠正拼写错误的单词，可以纠正由多个单词形成但拼写错误的词组。

举例说明，拼写纠错处理的结果示例如下：

sleve->sleeve

dres->dress

wholesle->wholesale

shouder->shoulder

saikaaadffdsaf->saikaaadffdsaf

sleevc->sleeve

sleever->sleeve

sleeev->sleeve

sleeevt->sleeve

longsleve->longsleeve

在上述示例中，“->”左侧的错误的拼写形式，“->”右侧的是订正后正确的拼写形式。

上面单独对单词分割处理和拼写纠错处理进行了说明。在实际应用中，两者也可以结合使用。由于某些单词写在了一起，但是也有可能写错，比如上面标题示例中的“longsleve”，这种错误的拼写形式，无法直接被单词分割，所以需要首先被订正，例如会被订正为“longsleeve”。在订正之后，就可以对其进行单词分割处理，将单词分割为正确的形式“long sleeve”。这里将单词分割和拼写纠错结合起来使用，可以解决很多只靠单一技术无法解决的问题，提高了数据预处理的效果。

仍以上述商品的标题为例，则上面经过连接符号预留处理、大小写转换处理以及拼写一致性检查处理的标题示例，进一步经过单词分割和拼写纠错之后转化为：

sexy style girls’black dresses package-hip-dress one shoulder longsleeve green flowers v-neck o-neck cocktail dress wholesale-retail freeshipping 100％cotton

名词词形还原：

名词词形还原主要是指将原始描述信息中的名词进行词形还原，即名词复数变单数。

值得说明的是，本实施例考虑到动名词或者动词的过去式可能是形容词，有可能表达特定的意思，所以暂不考虑对动词和形容词进行词形还原。

在本实施例中，可以根据词典和预设单复数变换规则中的至少一种，对原始描述信息中的名词进行词形还原。

其中，基于词典的名词词形还原方式，比较暴力，但是比较可靠。具体的做法是：从词典中获取了所有名词及其复数形式，构建名词和其复数形式之间的映射关系，后续基于该映射关系，识别描述信息中的名词复数，并将其还原为名词单数。

基于预设单复数变换规则的名词词形还原方式，预先设定名词单复数变换规则，例如名词变成复数形式的方法一般有后面加“s”，末尾字符是“y”的变成“ies”等，后续基于该变换规则，识别描述信息中的名词复数，并按照变换规则对识别出的名词复数进行逆向处理，以还原为名词单数。

在实际应用上，可以优先基于词典进行名词词形还原处理，如果基于词典无法还原为名词单数，进一步，基于单复数变换规则进行名词词形还原处理。一般来说，词典的准确率比较高，而规则的覆盖面比较广泛，将两者结合使用，既可以保证名词词形还原的准确率，又可以保证名词复数尽可能被还原为名词单数。

仍以上述商品的标题为例，则上面经过连接符号预留处理、大小写转换处理、拼写一致性检查处理、单词分割和拼写纠错的标题示例，进一步经过名词词形还原之后转化为：

sexy style girls’black dress package-hip-dress one shoulder long sleevegreen flower v-neck o-neck cocktail dress wholesale-retail free shipping 100％cotton

值得说明的是，上面单独对每种文本预处理方式进行了说明。在实际应用中，各种文本预处理方式可以单独使用，也可以相互结合使用。

原始描述信息在经过上述各种文本预处理之后，将变得规范化，为后续提取词组打下了基础。

之后，可以将上述获取的描述信息作为提取语料，从中提取词组。

在本实施例中，为了更加全面的提取词组，词组提取装置从两方面进行词组提取，一方面是对描述信息执行显示词组提取流程，以从描述信息中提取显示词组，另一方面是对描述信息执行模式词组提取流程，以从描述信息中提取隐式词组。

其中，显示词组是指容易发现的词组，隐式词组是指不容易发现的词组。由此可见，词组提取装置既能提取显示词组，又能提取隐式词组，所以能够更加全面的提取词组。另外，词组提取装置基于海量描述信息进行词组提取，不依赖于人工，因此可以避免人工带来的错误，保证词组的质量。

值得说明的是，本实施例并不限制提取显示词组的操作与提取隐式词组的操作之间的执行顺序，可以按照任意先后顺序执行，也可以并行执行。

进一步，上述显示词组提取流程包括：加载预设的显示词组规则的步骤和根据显示词组规则从描述信息中提取显示词组的步骤。基于此，上述对描述信息执行显示词组提取流程，以从描述信息中提取显示词组的实施方式包括：

加载预设的显示词组规则；

从描述信息中，提取符合显示词组规则的信息片段作为显示词组。

在一可选实施方式中，上述显示词组规则包括但不限于：指定字符串条件规则、领域词典规则以及属性值规则中的至少一个规则。

上述指定字符串条件规则用于指示符合指定字符串条件的字符串可以作为显示词组。

上述领域词典规则用于指示属于领域词典中的词组可以作为显示词组。根据领域的不同，领域词典也会有所不同。例如，在服装领域，《英汉纺织大辞典》可以算作一种领域词典。

上述属性值规则用于指示网络资源的属性信息中的属性值可以作为显示词组。

基于上述具体的显示词组规则，从描述信息中，提取符合显示词组规则的信息片段作为显示词组，具体可以包括以下至少一种操作：

从描述信息中，提取满足指定字符串条件的字符串作为显示词组；

从描述信息中，提取属于领域词典中的词组作为所述显示词组；

在描述信息包括网络资源的属性信息时，提取属性信息中的属性值作为显示词组。

下面对提取满足指定字符串条件的字符串作为显示词组的方案进行详细说明。

具体的，考虑到网络资源的描述信息中存在短线“-”连接的字符串，例如，前述示例中的package-hip-dress、v-neck、o-neck、wholesale-retail、one-shoulder、long-sleeve等均属于通过短线“-”连接的字符串。以短线“-”连接的字符串一般是将多个单词连接在一起，能够表达更加丰富的含义，所以短线“-”连接的字符串是词组的概率较大。当然，也有一些以短线“-”连接的字符串由于不具有实际含义，所以不能作为词组，例如a-b，v-neck-half-sleeve-dress等不属于词组。

基于上述，可以设定一些条件，用于限定能够作为词组的以短线“-”连接的字符串，这些限制条件称为字符串条件，具体包括以下至少一个条件：

字符串以短线“-”连接：这个条件用于限定必须是以短线“-”连接的字符串才能成为词组，其中，以短线“-”连接的字符串可以称为token；

字符串的出现次数大于预设次数阈值：这个条件要求字符串的出现次数大于预设次数阈值，例如大于500次；这里字符串的出现次数是指统计出的该字符串在数据仓库中的出现次数；

字符串不是英文单词：这个条件用于排除单词，即单词不是词组；

字符串的最后一个单词不是以s、es、ex、ed、d、ing、ings、ry、ies、ves、y或a结束：这个条件主要用于避免词组中包含名词复数、动词过去式、现在进行时等；

字符串中不含有连词：这个条件主要用于避免词组中含有连词(如and、but、or、for、so、nor等)；

字符串中不含有停用词：这个条件主要用于避免词组中出现停用词(如of、a等)；

字符串包含指定个数的单词：这个条件的意思是字符串必须包含指定个数的单词才能成为词组，否则不能成为词组；

字符串中不含有数字(百分数除外)：这个条件的意思是含有数字的字符串不能成为词组；

字符串中单词长度小于指定长度(例如小于20个字母)：这个条件的意思是字符串中单词的长度要小于指定长度才能成为词组，反之不能成为词组；

字符串的长度大于字符串包含的单词的个数：这个条件的意思是指字符串的长度要大于字符串包含的单词的个数才能成为词组，反之不能成为词组；

字符串不满足指定的正则规则：这个条件的意思是不满足指定的正则规则的字符串才能成为词组，反之，满足正则规则的不能成为词组。例如，这里的正则规则包括但不限于：“as-\w+”，表示以“as-”开头的字符串，“so-\w+”，表示以“so-”开头的字符串。

基于上述字符串条件可以确定哪些字符串是显示词组，哪些字符串不是显示词组。举例说明：

不是词组的字符串：

sleeve-less：最后一个单词以s结束；

dress-es：最后一个单词以s或es结束；

sleeve-s：最后一个单词以s结束；

full-sleevevneckdresssexyclubwear：字符串中单词长度超过了指定长度；

a-b：字符串的长度不大于字符串包含的单词的个数；

half-3sleeve：字符串中含有数字3；

v-neck-half-sleeve-dress：字符串包含的单词过多；

fashion-ladies-blue-dress-party：字符串包含的单词过多；

as-picture：字符串满足了指定的正则规则；

so-good：字符串满足了指定的正则规则。

是词组的字符串：

v-neck

deep-v-neck

green-flower

floor-length

100％-silk

考虑到网络资源的描述信息可以包括但不限于：网络资源的标题、属性信息以及关键词等。在提取满足指定字符串条件的字符串作为显示词组的实施过程中，可以将网络资源的标题、属性信息以及关键词等整合为一个信息集合，然后从该信息集合中提取满足指定字符串条件的字符串作为显示词组。或者，在提取满足指定字符串条件的字符串作为显示词组的实施过程中，可以单独从网络资源的标题中提取满足指定字符串条件的字符串作为显示词组，单独从网络资源的属性信息中提取满足指定字符串条件的字符串作为显示词组，以及单独从网络资源的关键词中提取满足指定字符串条件的字符串作为显示词组，等等。

对于网络资源来说，一般具有多个属性，但不是每个属性对词组提取都有用。基于此，可以根据具体应用场景，预先配置筛选规则，用于从所有属性中筛选出对词组提取有用的属性，称为关键属性。然后，以关键属性为语料，进行词组提取。

以电子商务领域为例，网络资源为商品。用户预先配置筛选规则，通过筛选规则选择关键属性。其中，不同资源类目对应的筛选规则不同，筛选出的关键属性也不相同。假设id为3的类目为Apparel，则按照预设的筛选规则筛选出的关键属性包括但不限于表1所示。

表1

类目名称	类目ID	关键属性的名称
			Apparel	3	Length
Apparel	3	Decoration
			Apparel	3	Sleeve Style
Apparel	3	Neckline
			Apparel	3	Gender

下面对提取属于领域词典中的词组作为显示词组的方案进行详细说明。

具体的，领域词典中存储有本领域的词组，因此，可以直接判断描述信息中是否包括属于领域词典中的词组，若包括，则可以直接确定该词组属于显示词组。这种方式实现相对简单，效率较高，尤其适合发现比较明显的词组。

下面对上述提取属性信息中的属性值作为显示词组的方案进行详细说明。

具体的，属性信息一般包括属性名和属性值，一般实现结构为属性名：属性值。在这种实现结构中，属性值多为语义明确的词组，所以可以直接从描述信息中发现属性信息，然后提取属性信息中的属性值作为显示词组。

在上述实施例或实施方式中，可以采用上述几种方式提取到显示词组。值得说明的是，上述提取显示词组的几种方式可以单独使用，也可以以任意组合结合使用。

进一步，上述模式词组提取流程包括：加载预设的模式组合规则的步骤和根据模式组合规则从描述信息中提取隐式词组的步骤。基于此，上述对描述信息执行模式词组提取流程，以从描述信息中提取隐式词组的实施方式包括：

加载预设的模式组合规则；

从描述信息中，提取符合模式组合规则的信息片段作为隐式词组。

在一可选实施方式中，上述模式组合规则包括但不限于：词性组合规则、正则表达式规则以及属性表达规则中的至少一个规则。

上述词性组合规则用于指示符合指定词性组合条件的单词组合可以作为隐式词组。

上述正则表达式规则用于指示满足指定正则表达式的单词组合可以作为隐式词组。

上述属性表达规则用于指示按照预设生成规则，根据属性信息生成隐式词组。

基于上述具体的模式词组规则，从描述信息中，提取符合模式词组规则的信息片段作为隐式词组，具体可以包括以下至少一种操作：

从描述信息中，提取满足指定词性组合条件的单词组合作为隐式词组；

从描述信息中，提取满足指定正则表达式的单词组合作为隐式词组；

在描述信息包括网络资源的属性信息时，按照预设生成规则，根据属性信息，生成隐式词组。

下面对上述从描述信息中，提取满足指定词性组合条件的单词组合作为隐式词组的方案进行详细说明。

具体的，经过研究分析发现，有些词性组合模式往往是词组，例如，形容词+名词("^JJ\\s+NNS{0,1}$")、形容词+形容词+名词("^JJ\\s+JJ\\s+NNS{0,1}$")等构成的单词组合，一般是词组。基于此，词性组合条件可以包括：形容词+名词模式、形容词+形容词+名词模式。当然，除了这两种词性组合模式之外，还有其它词性组合模式。例如，green flowers，natural-color,hooded-collar等属于形容词+名词模式的单词组合，属于词组。又例如，small green flowers等属于形容词+形容词+名词模式的单词组合，也属于词组。

在具体实现上，词组提取装置可以按照词组包括的单词个数设置窗口长度，按照设定的窗口长度对描述信息依次采样，然后判断采样到的单词组合在词性上是否符合词性组合条件，若判断结果为是，则确定该单词组合为隐式词组；若判断结果为否，则丢弃，并继续下一次采样。

其中，若设置词组包括2或3个单词，则可以设置两个窗口长度，分别为2和3，用于采样长度为2和3的单词组合。

下面对上述从描述信息中，提取满足指定正则表达式的单词组合作为隐式词组的方案进行详细说明。

具体的，考虑到有些词组，既不是固定搭配形成的词组，也不符合词性组合模式，即无法通过正常的语法手段来得到，但是这些词组符合一定的构词方式，比如都以style结尾，或者有百分数开头等。针对这些词组，预先设定正则表达式，符合预设正则表达式的单词组合，也是词组。

列举几个表示词组的正则表达式：

"^[a-z]*？\\s+style$"表示xxx style，即单词+style形式的单词组合，可能是词组，需要获取，例如"sexy style","bohemia style"；

"^[0-9]+％\\s+[a-z]+$"表示xx％xxx，即百分数+单词的单词组合，可能是词组，需要获取，例如"100％cotton"；

"^％[0-9]+\\s+[a-z]+$"表示％xx xxx，即百分数+单词的单词组合，可能是词组，需要获取，例如"％100cotton"。

在具体实现上，词组提取装置可以根据正则表达式中的标识部分(例如style、％)，在描述信息中进行查找，当确定该标识部分后，按照正则表达式的格式判断该标识部分之前或之后的单词是否符合正则表达式的要求，若判断结果为是，则获取由该标识部分以及该标识部分之前或之后的单词形成的单词组合作为隐式词组。

下面对上述按照预设生成规则，根据属性信息，生成隐式词组的方案进行详细说明。

具体的，网络资源的属性信息包括属性名和属性值。在描述信息包括网络资源的属性信息时，可以按照预设生成规则，根据属性信息，生成隐式词组。

进一步，上述生成规则用于指示将属性名转换为展示属性名，将属性值和展示属性名进行组合，以生成隐式词组。

基于上述，按照预设生成规则，根据属性信息，生成隐式词组包括：

根据属性信息中的属性名生成展示属性名，将属性信息中的属性值和展示属性名进行组合，以生成隐式词组。

其中，可以预先设定属性名到展示属性名之间的转换规则，然后基于该转换规则生成展示属性名。根据不同应用场景，该转换规则可以适应性设置。以电子商务领域中的服装类目为例，一种属性名到展示属性名之间的转换规则的示例如下所示：

dresses length/dress

sleeve length/sleeve

sleeve style/sleeve

sleeve type/sleeve

sleeve/sleeve

hooded/hooded

material/NULL

neckline/neckline

waistline/waistline

decoration/decoration

style/style

silhouette/silhouette

fabric type/fabric

season/NULL

for season/NULL

for the season/NULL

pattern type/pattern

color/NULL

color style/NULL

technics/technics

item type/NULL

item name/NULL

product category/NULL

outerwear type/outerwear

eyewear type/NULL

scarves type/NULL

clothing length/clothing

collar/collar

closure type/closure

thickness/thickness

back design/back

built-in bra/built-in bra

waistline/waistline

wedding dress fabric/NULL

在上述示例中，每个示例包含三部分，属性名、斜线和展示属性名。斜线用以分割属性名和展示属性名，斜线左侧是属性名，斜线右侧是展示属性名。

基于上述示例，一种生成隐式词组的方式为：属性值+展示属性名。在具体实现上，词组提取装置可以获取属性信息，根据上述转换规则，将属性信息中的属性名转换为展示属性名，再按照上述方式将属性值与展示属性名组合在一起，形成隐式词组。

例如，假设一属性信息为sleeve length:half，其中，属性名是“sleevelength”，属性值是“half”，可以将属性名“sleeve length”转换为展示属性名“sleeve”，将属性值“half”和展示属性名“sleeve”进行组合，生成隐式词组“half-sleeve”。

又例如，假设一属性信息为sleeve style:bat wing，其中，属性名是“sleevestyle”，属性值是“bat wing”，可以将属性名“sleeve style”转换为展示属性名“sleeve”，将属性值“bat wing”和展示属性名“sleeve”进行组合，生成隐式词组“bat-wing-sleeve”。

值得说明的是，上述展示属性名可以为“NULL”，即生成隐式词组时，展示属性名为空，不使用属性名。

另外，对于一些属性值是布尔类型的，例如一属性信息为“build-in-bra：yes”(一般在婚纱类目的商品中，用以表达婚纱是否内置了文胸)，如果是属性值是“yes”或“y”等表示“是”，则形成隐式词组时可以直接省略属性值，否则不省略。例如，根据属性信息“build-in-bra：yes”，形成的隐式词组为“build-in-bra”。例如，根据属性信息“build-in-bra：not”，形成的隐式词组“not-build-in-bra”。

由此可见，经过上述几种操作可以提取到隐式词组。值得说明的是，上述提取隐式词组的几种方式可以单独使用，也可以以任意组合结合使用。

进一步，在一可选实施方式中，如图2所示，在提取到显示词组和隐式词组之后，还包括：

104、对显示词组和隐式词组进行派生，以获得派生词组。

在一可选实施方式中，步骤104的实施方式包括：统计显示词组或隐式词组中名词的逆向文件频率(Inverse Document Frequency，IDF)值；将IDF值低于预设阈值的名词从上述显示词组或隐式词组中删除，获得词组片段；判断该词组片段是否符合词组条件，若判断结果为词组片段符合词组条件，则确定词组片段为派生词组；若判断结果为词组片段不符合词组条件，则丢弃该词组片段。

值得说明的是，上述词组条件主要用于判断一个词组片段是否为词组。在具体实现上，这里的词组条件可以包括但不限于：上述具体的显示词组规则(例如字符串条件、领域词典、提取属性值的规则)和具体的模式组合规则(例如词性组合条件、正则表达式、生成规则)等。这意味着，如果去除IDF值低于预设阈值的名词后剩余的词组片段满足字符串条件、领域词典、提取属性值的规则、词性组合条件、正则表达式或生成规则，则确定该词组片段是词组。

例如，假设之前步骤提取到的显示词组和隐式词组包括：half-sleeve-dress、package-hip-dress以及full-sleeve-dress。经过统计发现dress这个名词的IDF值低于阈值，因此将这个名词从相应词组中去除，获得词组片段half-sleeve、package-hip以及full-sleeve，经分析发现，这三个词组片段都符合词组条件，于是将词组片段half-sleeve、package-hip以及full-sleeve均作为派生词组。

基于上述，词库中的词组共包括：half-sleeve-dress、package-hip-dress、full-sleeve-dress、half-sleeve、package-hip以及full-sleeve。

在本实施例中，词组提取装置通过对之前提取到的显示词组和隐式词组进行派生，可以进一步提取新的词组(即派生词组)，有利于丰富所提取到的词组，以使提取到的词组更加全面。

更进一步，在提取到显示词组、隐式词组和派生词组之后，还可以对所提取到的词组进行修正操作，以便于清理词组中的坏例子(bad case)，保证词组的质量，提高词组的可用性。

具体的，可以将显示词组、隐式词组和派生词组构成词组集合；对词组集合执行以下至少一种修正操作：

名词词形还原、停用词去除以及同源低频词组去除。

名词词形还原：确定词组集合中包含名词复数的词组，将该词组中的名词复数还原为名词单数；例如，将sexy-style-dresses，变成sexy-style-dress。

停用词去除：确定词组集合中包含停用词的词组，若该词组去除停用词后的剩余部分符合词组条件，则将该词组替换为剩余部分。这里的词组条件与上述词组条件相同，不再详述。

这里的停用词主要是指与领域匹配的停用词表中的停用词，停用词表中的停用词以标准停用词为主，以英文为例，其标准停用词如下所示。但考虑到一些标准停用词可能对领域有所共享，所以可以从停用词表中去除，例如with，between，under，over等。

其中，以英文为例，标准停用词包括以下：

[u'i',u'me',u'my',u'myself',u'we',u'our',u'ours',u'ourselves',u'you',u'your',u'yours',u'yourself',u'yourselves',u'he',u'him',u'his',u'himself',u'she',u'her',u'hers',u'herself',u'it',u'its',u'itself',u'they',u'them',u'their',u'theirs',u'themselves',u'what',u'which',u'who',u'whom',u'this',u'that',u'these',u'those',u'am',u'is',u'are',u'was',u'were',u'be',u'been',u'being',u'have',u'has',u'had',u'having',u'do',u'does',u'did',u'doing',u'a',u'an',u'the',u'and',u'but',u'if',u'or',u'because',u'as',u'until',u'while',u'of',u'at',u'by',u'for',u'with',u'about',u'against',u'between',u'into',u'through',u'during',u'before',u'after',u'above',u'below',u'to',u'from',u'up',u'down',u'in',u'out',u'on',u'off',u'over',u'under',u'again',u'further',u'then',u'once',u'here',u'there',u'when',u'where',u'why',u'how',u'all',u'any',u'both',u'each',u'few',u'more',u'most',u'other',u'some',u'such',u'no',u'nor',u'not',u'only',u'own',u'same',u'so',u'than',u'too',u'very',u's',u't',u'can',u'will',u'just',u'don',u'should',u'now']

另外，这里的停用词表还可以包括在领域中贡献较少或没有共享的词组(可称为无用词)。例如，wholesale，retail，shipping，free-shipping，fashion，price，offer，none，quantity，shipment等在电子商务领域中属于无用词。

同源低频词组去除：确定词组集合中的同源词组，将同源词组中词频不满足指定词频条件的词组删除，同源词组包括前n个单词相同的词组，n是大于或等于2的自然数。例如，可以确定前2个单词相同的词组为同源词组。如half-sleeve-dress，half-sleeve-shirt，half-sleeve-long以及half-sleeve属于同源词组。若统计出half-sleeve-dress的词频为1000，half-sleeve-shirt的词频为900，half-sleeve-long的词频为10，half-sleeve的词频为1100，同时设置指定词频条件为比其同源词组中词频少30％以上，则可以确定half-sleeve-long满足指定词频条件，即half-sleeve-long的词频10比half-sleeve的词频1100少30％以上，所以将half-sleeve-long去除。

由上述可见，本申请以网络资源的描述信息作为提取词组所需的语料，首先对描述信息执行显示词组提取流程和模式词组提取流程，能够从描述信息中提取到容易发现的显示词组和不容易发现的隐式词组，已经可以更加全面的提取词组，并且可以保证词组的质量。

进一步，本申请通过对所提取的显示词组和隐式词组进行派生，获得派生词组，可以进一步提取新的词组(即派生词组)，有利于丰富所提取到的词组，以使提取到的词组更加全面。

更进一步，本申请通过对最终提取到的词组进行修正操作，有利于规范词组形式，剔除词组中的bad case，保证词组质量，最终提高词库的可用性。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

图3为本申请又一实施例提供的词组提取装置的结构示意图。如图3所示，该装置包括：获取模块31、第一提取模块32和第二提取模块33。

获取模块31，用于获取网络资源的描述信息。

第一提取模块32，用于对描述信息执行显示词组提取流程，以从描述信息中提取显示词组。

第二提取模块33，用于对描述信息执行模式词组提取流程，以从描述信息中提取隐式词组。

值得说明的是，为便于描述，在模块划分上将提取模块分为第一提取模块32和第二提取模块33，但并不限于这种实现结构。例如，第一提取模块32和第二提取模块33也可以合并为一个提取模块实现。另外，第一提取模块32和第二提取模块33在执行提取操作时的执行顺序不做限定。

在一可选实施方式中，第一提取模块32具体用于：

加载预设的显示词组规则；

进一步，上述显示词组规则包括但不限于：指定字符串条件规则、领域词典规则以及属性值规则中的至少一个规则。

基于上述具体的显示词组规则，第一提取模块32具体用于执行以下至少一种操作：

从描述信息中，提取属于领域词典中的词组作为显示词组；

更进一步，上述指定字符串条件包括以下至少一个条件：

字符串以短线“-”连接；

字符串的出现次数大于预设次数阈值；

字符串不是英文单词；

字符串的最后一个单词不是以s、es、ex、ed、d、ing、ings、ry、ies、ves、y或a结束；

字符串中不含有连词；

字符串中不含有停用词；

字符串包含指定个数的单词；

字符串中不含有数字；

字符串中单词长度小于指定长度；

字符串的长度大于字符串包含的单词的个数；

字符串不满足指定的正则规则。

在一可选实施方式中，第二提取模块33具体用于：

加载预设的模式组合规则；

进一步，上述模式组合规则包括但不限于：词性组合规则、正则表达式规则以及属性表达规则中的至少一个规则。

基于上述具体的模式词组规则，第二提取模块33具体用于执行以下至少一种操作：

更进一步，第二提取模块33在按照预设生成规则，根据属性信息，生成隐式词组时，具体用于：

在一可选实施方式中，如图4所示，该装置还包括：派生模块34。

派生模块34，用于对显示词组和隐式词组进行派生，以获得派生词组。

进一步，派生模块34具体用于：

统计显示词组或隐式词组中名词的逆向文件频率IDF值；

将IDF值低于预设阈值的名词从显示词组或隐式词组中删除，获得词组片段；

若词组片段符合词组条件，则确定词组片段为派生词组。

在一可选实施方式中，如图4所示，该装置还包括：修正模块35。

修正模块35，用于将显示词组、隐式词组和派生词组构成词组集合，对词组集合执行以下至少一种修正操作：

确定词组集合中包含名词复数的词组，将词组中的名词复数还原为名词单数；

确定词组集合中包含停用词的词组，若词组去除停用词后的剩余部分符合词组条件，则将词组替换为剩余部分；

确定词组集合中的同源词组，将同源词组中词频不满足指定词频条件的词组删除，同源词组包括前n个单词相同的词组，n是大于或等于2的自然数。

本实施例提供的词组提取装置，将网络资源的描述信息作为提取词组所需的语料，通过对该描述信息执行显示词组提取流程和模式词组提取流程，能够从描述信息中提取到容易发现的显示词组和不容易发现的隐式词组，以更加全面的提取词组，并且可以保证词组的质量。

进一步，本实施例提供的词组提取装置，通过对所提取的显示词组和隐式词组进行派生，获得派生词组，可以进一步提取新的词组(即派生词组)，有利于丰富所提取到的词组，以使提取到的词组更加全面。

更进一步，本实施例提供的词组提取装置，通过对最终提取到的词组进行修正操作，有利于规范词组形式，剔除词组中的bad case，保证词组质量，最终提高词库的可用性。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种词组提取方法，其特征在于，包括：

获取网络资源的描述信息；

2.根据权利要求1所述的方法，其特征在于，所述对所述描述信息执行显示词组提取流程，以从所述描述信息中提取显示词组，包括：

加载预设的显示词组规则；

从所述描述信息中，提取符合所述显示词组规则的信息片段作为所述显示词组。

3.根据权利要求2所述的方法，其特征在于，所述从所述描述信息中，提取符合所述显示词组规则的信息片段作为所述显示词组，包括以下至少一种操作：

从所述描述信息中，提取满足指定字符串条件的字符串作为所述显示词组；

从所述描述信息中，提取属于领域词典中的词组作为所述显示词组；

在所述描述信息包括所述网络资源的属性信息时，提取所述属性信息中的属性值作为所述显示词组。

4.根据权利要求3所述的方法，其特征在于，所述指定字符串条件包括以下至少一个：

字符串以短线“-”连接；

字符串的出现次数大于预设次数阈值；

字符串不是英文单词；

字符串中不含有连词；

字符串中不含有停用词；

字符串包含指定个数的单词；

字符串中不含有数字；

字符串中单词长度小于指定长度；

字符串的长度大于字符串包含的单词的个数；

字符串不满足指定的正则规则。

5.根据权利要求1所述的方法，其特征在于，所述对所述描述信息执行模式词组提取流程，以从所述描述信息中提取隐式词组，包括：

加载预设的模式组合规则；

从所述描述信息中，提取符合所述模式组合规则的信息片段作为所述隐式词组。

6.根据权利要求5所述的方法，其特征在于，所述从所述描述信息中，提取符合所述模式组合规则的信息片段作为所述隐式词组，包括以下至少一种操作：

从所述描述信息中，提取满足指定词性组合条件的单词组合作为所述隐式词组；

从所述描述信息中，提取满足指定正则表达式的单词组合作为所述隐式词组；

在所述描述信息包括所述网络资源的属性信息时，按照预设生成规则，根据所述属性信息，生成所述隐式词组。

7.根据权利要求6所述的方法，其特征在于，所述按照预设生成规则，根据所述属性信息，生成所述隐式词组，包括：

根据所述属性信息中的属性名生成展示属性名，将所述属性信息中的属性值和所述展示属性名进行组合，以生成所述隐式词组。

8.根据权利要求1-7任一项所述的方法，其特征在于，在提取所述显示词组和所述隐式词组之后，还包括：

对所述显示词组和所述隐式词组进行派生，以获得派生词组。

9.根据权利要求8所述的方法，其特征在于，所述对所述显示词组和所述隐式词组进行派生，获得派生词组，包括：

统计所述显示词组或隐式词组中名词的逆向文件频率IDF值；

将IDF值低于预设阈值的名词从所述显示词组或隐式词组中删除，获得词组片段；

若所述词组片段符合词组条件，则确定所述词组片段为所述派生词组。

10.根据权利要求8所述的方法，其特征在于，还包括：

将所述显示词组、所述隐式词组和所述派生词组构成词组集合；

对所述词组集合执行以下至少一种修正操作：

确定所述词组集合中包含名词复数的词组，将所述词组中的名词复数还原为名词单数；

确定所述词组集合中包含停用词的词组，若所述词组去除停用词后的剩余部分符合词组条件，则将所述词组替换为所述剩余部分；

确定所述词组集合中的同源词组，将所述同源词组中词频不满足指定词频条件的词组删除，所述同源词组包括前n个单词相同的词组，n是大于或等于2的自然数。

11.一种词组提取装置，其特征在于，包括：

获取模块，用于获取网络资源的描述信息；

12.根据权利要求11所述的装置，其特征在于，所述第一提取模块具体用于：

加载预设的显示词组规则；

13.根据权利要求12所述的装置，其特征在于，所述第一提取模块具体用于执行以下至少一种操作：

14.根据权利要求13所述的装置，其特征在于，所述指定字符串条件包括以下至少一个：

字符串以短线“-”连接；

字符串的出现次数大于预设次数阈值；

字符串不是英文单词；

字符串中不含有连词；

字符串中不含有停用词；

字符串包含指定个数的单词；

字符串中不含有数字；

字符串中单词长度小于指定长度；

字符串的长度大于字符串包含的单词的个数；

字符串不满足指定的正则规则。

15.根据权利要求11所述的装置，其特征在于，所述第二提取模块具体用于：

加载预设的模式组合规则；

16.根据权利要求15所述的装置，其特征在于，所述第二提取模块具体用于执行以下至少一种操作：

17.根据权利要求16所述的装置，其特征在于，所述第二提取模块具体用于：

18.根据权利要求11-17任一项所述的装置，其特征在于，还包括：

派生模块，用于对所述显示词组和所述隐式词组进行派生，以获得派生词组。

19.根据权利要求18所述的装置，其特征在于，所述派生模块具体用于：

统计所述显示词组或隐式词组中名词的逆向文件频率IDF值；

20.根据权利要求18所述的装置，其特征在于，还包括：

修正模块，用于将所述显示词组、所述隐式词组和所述派生词组构成词组集合，对所述词组集合执行以下至少一种修正操作：