CN105718595A

CN105718595A - 一种关键词提取方法及装置

Info

Publication number: CN105718595A
Application number: CN201610089001.7A
Authority: CN
Inventors: 高云翔; 陈晨
Original assignee: Wireless Living (hangzhou) Mdt Infotech Ltd
Current assignee: Wireless Living (hangzhou) Mdt Infotech Ltd
Priority date: 2016-02-17
Filing date: 2016-02-17
Publication date: 2016-06-29

Abstract

本发明公开了一种关键词提取方法及装置，该方法包括：获取待处理信息；分别确定所述待处理信息中的每一个词语与所述待处理信息中除所述词语外的其它所有词语的相关性；将与所述待处理信息中除所述词语外的其它所有词语的相关性排在前N位的词语作为关键词进行提取。本发明的上述技术方案，可以准确提取出待处理信息中的关键字，对商品相关性，商品属性挖掘等都有很大帮助。

Description

一种关键词提取方法及装置

技术领域

本发明涉及文本处理技术领域，特别涉及一种关键词提取方法及装置。

背景技术

随着互联网技术的进一步发展，网上购物也持续火爆，目前很多购物平台会要求卖家上传商品的同时附带一段描述。卖家在描述商品信息的同时，往往附带一些附加信息，这些附加信息会形成干扰，需要算法进行关键字提取。现有技术一般采用TF-IDF技术(termfrequency–inversedocumentfrequency，一种用于资讯检索与资讯探勘的常用加权技术)，TF-IDF技术可以这样理解：一个词在本商品描述中出现的次数越多，代表这个词越重要；一个词在其他商品描述中出现的越少，代表这个词越重要。

然而，上述的现有技术方案存在以下问题：1、TF意思是说一个词在本商品描述中出现的越多，代表这个词越重要，但是电商商品的描述往往较精简，只有几百字，每个词出现的频率相差无几，无法充分利用TF信息；2、IDF是说，一个词在其他商品中出现的比较少，但是在本商品中出现了，说明它比较特别、比较重要。但是在电商的商品中IDF并不能完全代表词的重要度。比如商品描述“本店的花王纸尿裤都是日本全进口的，相信亲们都知道，日本的商品只有生产批号，没有生产日期和使用日期的，那么亲怎么从生产批号里看出花王生产日期呢？比如U1-1910，最后那个0是年，往前三位看191，意思就是10年的第191天生产的，以此类推。纸尿裤保质期为三年，您可以放心使用！”中含有词“U1-1910”，这个词在其他商品描述中出现的很少但是并不重要。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种关键词提取方法及装置。

本发明提供一种关键词提取方法，包括：

获取待处理信息；

分别确定所述待处理信息中的每一个词语与所述待处理信息中除所述词语外的其它所有词语的相关性；

将与所述待处理信息中除所述词语外的其它所有词语的相关性排在前N位的词语作为关键词进行提取，N为大于或者等于1的整数。

在一个实施例中，所述确定所述待处理信息中的每一个词语与所述待处理信息中除所述词语外的所有词语的相关性，可包括：

分别计算所述待处理信息中的每一个词语与所述待处理信息中除所述词语外的所有词语的共现度；

确定所述词语与所述待处理信息中除所述词语外的所有词语的共现度之和；

将所述待处理信息中的每一个词语与所述待处理信息中除所述词语外的所有词语的共现度之和进行排序；

所述将与所述待处理信息中除所述词语外的其它所有词语的相关性排在前N位的词语作为关键词进行提取，包括：

将与所述待处理信息中除所述词语外的其它所有词语的共现度之和排在前N位的词语作为关键词进行提取。

在一个实施例中，可根据下列公式计算所述待处理信息中的每一个词语与所述待处理信息中除所述词语外的所有词语的共现度；

Sim(w1,w2)＝C(w1,w2)/(P(w1)*P(w2)+t)

其中，所述w1表示所述待处理信息中的一个词语，所述w2表示所述待处理信息中除所述词语外的任一个词语，所述Sim(w1,w2)表示所述w1、w2两个词语的共现度，所述C(w1,w2)表示与所述待处理信息相关的样本信息中同时出现w1、w2两个词语的样本信息的数量，所述P(w1)表示与所述待处理信息相关的样本信息中出现词语w1的样本信息的数量，所述P(w2)表示与所述待处理信息相关的样本信息中出现词语w2的样本信息的数量，t为常数。

在一个实施例中，所述待处理信息为待处理的商品描述信息，所述与所述待处理信息相关的样本信息为与所述待处理的商品描述信息针对同一个商品的多个商品描述信息。

在一个实施例中，在所述分别确定所述待处理信息中的每一个词语与所述待处理信息中除所述词语外的其它所有词语的相关性之前，所述方法还可包括：

将所述待处理信息进行分词处理，将所述待处理信息划分为若干单个词语。

本发明实施例还提供一种关键字提取装置，其特征在于，包括：

获取模块，用于获取待处理信息；

确定模块，用于分别确定所述待处理信息中的每一个词语与所述待处理信息中除所述词语外的其它所有词语的相关性；

提取模块，用于将与所述待处理信息中除所述词语外的其它所有词语的相关性排在前N位的词语作为关键词进行提取，N为大于或者等于1的整数。

在一个实施例中，所述确定模块，可包括：

计算子模块，用于分别计算所述待处理信息中的每一个词语与所述待处理信息中除所述词语外的所有词语的共现度；

确定子模块，用于确定所述词语与所述待处理信息中除所述词语外的所有词语的共现度之和；

排序子模块，用于将所述待处理信息中的每一个词语与所述待处理信息中除所述词语外的所有词语的共现度之和进行排序；

所述提取模块，包括：

提取子模块，用于将与所述待处理信息中除所述词语外的其它所有词语的共现度之和排在前N位的词语作为关键词进行提取。

在一个实施例中，

根据下列公式计算所述待处理信息中的每一个词语与所述待处理信息中除所述词语外的所有词语的共现度；

Sim(w1,w2)＝C(w1,w2)/(P(w1)*P(w2)+t)

在一个实施例中，所述装置还可包括：

处理模块，用于将所述待处理信息进行分词处理，将所述待处理信息划分为若干单个词语。

本发明的实施例提供的技术方案可以包括以下有益效果：

本发明实施例的上述技术方案，通过获取待处理信息并分别确定待处理信息中的每一个词语与待处理信息中除词语外的其它所有词语的相关性，将与待处理信息中除词语外的其它所有词语的相关性排在前N位的词语作为关键词进行提取。从而可以准确提取出待处理信息中的关键字，对商品相关性，商品属性挖掘等都有很大帮助。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种关键词提取方法的流程图；

图2为本发明实施例中另一种关键词提取方法的流程图；

图3为本发明实施例中另一种关键词提取方法的流程图；

图4为本发明实施例一中一种关键词提取方法的流程图；

图5为本发明实施例中一种关键词提取装置的框图；

图6为本发明实施例中另一种关键词提取装置的框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1所示为本发明实施例中一种关键词提取方法的流程图，如图1所示，包括以下步骤S11-S13：

步骤S11，获取待处理信息；

待处理信息例如可以是一段文本。

步骤S12，分别确定待处理信息中的每一个词语与待处理信息中除该词语外的其它所有词语的相关性；

将待处理信息中的每一个词语提取出来，分别确定出每一个词语与待处理信息中的其它词语的相关性。

为了帮助理解，举一个简单的例子进行说明，待处理信息为一句话：“我爱北京天安门”，待处理信息中包括4个词语，分别是“我”、“爱”、“北京”、“天安门”，分别计算每一个词语与除这个词语之外的其它词语的相关性，即：计算词语“我”与“爱”、“北京”、“天安门”的相关性；计算词语“爱”与“我”、“北京”、“天安门”的相关性；计算词语“北京”与“我”、“爱”、“天安门”的相关性；计算词语“天安门”与“我”、“爱”、“北京”的相关性。

在计算每一个词语与剩余词语的相关性时，这个词语与剩余词语中每一个词的相关性又分别计算，即在计算词语“我”与“爱”、“北京”、“天安门”的相关性时，分别计算“我”与“爱”、“我”与“北京”、“我”与“天安门”的相关性，计算出的相关性之和即为这个词语与该词语外的其它所有词语的相关性。

步骤S13，将与待处理信息中除该词语外的其它所有词语的相关性排在前N位的词语作为关键词进行提取，N为大于或者等于1的整数。

N可以根据用户的实际需求进行选取，例如N可以取值3。

本发明实施例的上述方法，通过获取待处理信息并分别确定待处理信息中的每一个词语与待处理信息中除词语外的其它所有词语的相关性，将与待处理信息中除词语外的其它所有词语的相关性排在前N位的词语作为关键词进行提取。从而可以准确提取出待处理信息中的关键字，对商品相关性，商品属性挖掘等都有很大帮助。

在一个实施例中，如图2所示，步骤S12可包括以下步骤S21-S23：

步骤S21，分别计算待处理信息中的每一个词语与待处理信息中除词语外的所有词语的共现度；

步骤S22，确定该词语与待处理信息中除该词语外的所有词语的共现度之和；

步骤S23，将待处理信息中的每一个词语与待处理信息中除词语外的所有词语的共现度之和进行排序；

步骤S13可实施为以下步骤S131：

步骤S131，将与待处理信息中除该词语外的其它所有词语的共现度之和排在前N位的词语作为关键词进行提取。

在一个实施例中，可根据下列公式计算待处理信息中的每一个词语与待处理信息中除词语外的所有词语的共现度：

Sim(w1,w2)＝C(w1,w2)/(P(w1)*P(w2)+t)

其中，w1表示待处理信息中的一个词语，w2表示待处理信息中除词语外的任一个词语，Sim(w1,w2)表示w1、w2两个词语的共现度，C(w1,w2)表示与待处理信息相关的样本信息中同时出现w1、w2两个词语的样本信息的数量，P(w1)表示与待处理信息相关的样本信息中出现词语w1的样本信息的数量，P(w2)表示与待处理信息相关的样本信息中出现词语w2的样本信息的数量，t为常数。

在一个实施例中，待处理信息为待处理的商品描述信息，与待处理信息相关的样本信息为与待处理的商品描述信息针对同一个商品的多个商品描述信息。

举例说明，商品描述信息为关于日本XX品牌的纸尿裤的商品的描述信息，由于不同商家发布的关于该品牌的纸尿裤的商品描述信息的内容是不一样的，因此，与待处理信息相关的样本信息可以为针对该品牌的纸尿裤的其它商家发布的商品描述信息。商品描述信息包括商品标题以及商品详情介绍。

在一个实施例中，如图3所示，在步骤S12之前，上述方法还可包括以下步骤S14：

步骤S14，将待处理信息进行分词处理，将待处理信息划分为若干单个词语。

下面以具体实施例来说明本公开实施例提供的上述技术方案。

实施例一

实施例一利用本公开实施例提供的关键字提取方法，提取商品描述信息中的关键字，其应用场景为，一个某品牌纸尿裤的商品，其商品的描述信息为：

原装进口日本XX纸尿裤(品牌名)L54号

适用：体重9—14公斤

主要原料：无纺布、绒毛布、高分子吸收树脂、透气PE膜

有效期：3年

卫生标准号：符合GB15979-2002

原产国：日本

生产商：XX株式会社

地址：日本东京都茅场町XX号

经销商：广州XX进出口贸易有限公司

地址：广州市番禺区XX号

本店XX纸尿裤通过在日本大批量采购，装柜海运回国，正规报关，照章征税，通过出入境检验检疫局检验检疫，合格后才准予销售使用，保证每一包纸尿裤都原产于日本，质量稳定，真正给宝宝的最贴心的呵护！

日本XX株式会社是日本最大的家用日化企业，创立于1887年，总部在东京。XX纸尿裤，超薄，超柔软，超透气，每天带给小宝宝的永远是干爽的感觉，快乐的心情。在日本销量长期排名第一。XX纸尿裤拥有超强的锁水因子加上裤裤本身表面的温柔棉质，不会让宝宝有红屁股。

本实施例即是利用本发明的上述方法提取该商品描述信息中的关键字，如图4所示，该关键字提取方法包括如下步骤:

步骤S41，获取待处理的商品描述信息；

步骤S42，对待处理的商品描述信息进行分词处理，分别计算待处理商品描述信息中的每一个词语与商品描述信息中除该词语外的所有词语的共现度；

两个词同时出现在同一个商品描述中的次数越多，则认为这两个词的共现度越高。基于这个想法，有如下定义：

Sim(w1,w2)＝C(w1,w2)/(P(w1)*P(w2)+t)

Sim(w1,w2)表示要计算的两个词的共现度。C(w1,w2)表示商品描述中同时出现了w1,w2两个词的商品数。P(w1)表示商品描述中出现了词w1的商品数。同理P(w2)表示商品描述中出现了词w2的商品数。

也就是说两个词的共现度等于这两个词的共同出现的次数除以他俩的热度。t为常数项，防止一些冷门词出现。

步骤S43，确定该词语与商品描述信息中除该词语外的所有词语的共现度之和；

步骤S44，将待处理商品描述信息中的每一个词语与商品描述信息中除词语外的所有词语的共现度之和进行排序；

步骤S45，将与待处理商品描述信息中除该词语外的其它所有词语的共现度之和排在前N位的词语作为关键词进行提取。

关键词提取方案说明：商品描述中一个词的重要程度，定义为这个词和其它所有词的共现度之和。有了如上定义，把商品描述中的词按照重要程度进行排序，排在前面的就是关键词。

通过本发明实施例的上述方案，可以提取商品描述中的关键词，对商品相关性，商品属性挖掘等都有很大帮助。比如，当用户打开一个商品的页面时，用户会在商品页面的右侧或者下方看到与这个商品相关的其它商品的相关推荐，这时，通过上述方法提取的商品描述中的关键词，可以有效的利用关键词进行相关推荐。

基于同一发明构思，本发明实施例还提供了一种关键词提取装置，由于该装置所解决问题的原理与前述关键词提取方法相似，因此该装置的实施可以参见前述方法的实施，重复之处不再赘述。

图5所示为本发明实施例中一种关键词提取装置的框图，如图5所示，该装置包括：

获取模块51，用于获取待处理信息；

确定模块52，用于分别确定待处理信息中的每一个词语与待处理信息中除词语外的其它所有词语的相关性；

提取模块53，用于将与待处理信息中除词语外的其它所有词语的相关性排在前N位的词语作为关键词进行提取。

在一个实施例中，确定模块52，可包括：

计算子模块，用于分别计算待处理信息中的每一个词语与待处理信息中除词语外的所有词语的共现度；

确定子模块，用于确定词语与待处理信息中除词语外的所有词语的共现度之和；

排序子模块，用于将待处理信息中的每一个词语与待处理信息中除词语外的所有词语的共现度之和进行排序；

提取模块53，包括：

提取子模块，用于将与待处理信息中除词语外的其它所有词语的共现度之和排在前N位的词语作为关键词进行提取。

在一个实施例中，

根据下列公式计算待处理信息中的每一个词语与待处理信息中除词语外的所有词语的共现度；

Sim(w1,w2)＝C(w1,w2)/(P(w1)*P(w2)+t)

在一个实施例中，如图6所示，该装置还可包括：

处理模块54，用于将待处理信息进行分词处理，将待处理信息划分为若干单个词语。

本发明实施例的上述装置，通过获取待处理信息并分别确定待处理信息中的每一个词语与待处理信息中除词语外的其它所有词语的相关性，将与待处理信息中除词语外的其它所有词语的相关性排在前N位的词语作为关键词进行提取。从而可以准确提取出待处理信息中的关键字，对商品相关性，商品属性挖掘等都有很大帮助。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种关键字提取方法，其特征在于，包括：

获取待处理信息；

2.如权利要求1所述的方法，其特征在于，所述确定所述待处理信息中的每一个词语与所述待处理信息中除所述词语外的所有词语的相关性，包括：

3.如权利要求2所述的方法，其特征在于，

根据下列公式计算所述待处理信息中的每一个词语与所述待处理信息中除所述词语外的所有词语的共现度：

Sim(w1,w2)＝C(w1,w2)/(P(w1)*P(w2)+t)

4.如权利要求3所述的方法，其特征在于，所述待处理信息为待处理的商品描述信息，所述与所述待处理信息相关的样本信息为与所述待处理的商品描述信息针对同一个商品的多个商品描述信息。

5.如权利要求1-4中任一项所述的方法，其特征在于，在所述分别确定所述待处理信息中的每一个词语与所述待处理信息中除所述词语外的其它所有词语的相关性之前，所述方法还包括：

6.一种关键字提取装置，其特征在于，包括：

获取模块，用于获取待处理信息；

7.如权利要求6所述的装置，其特征在于，所述确定模块，包括：

所述提取模块，包括：

8.如权利要求7所述的装置，其特征在于，

Sim(w1,w2)＝C(w1,w2)/(P(w1)*P(w2)+t)

9.如权利要求8所述的装置，其特征在于，所述待处理信息为待处理的商品描述信息，所述与所述待处理信息相关的样本信息为与所述待处理的商品描述信息针对同一个商品的多个商品描述信息。

10.如权利要求6-9中任一项所述的装置，其特征在于，所述装置还包括：