CN110287289A

CN110287289A - 一种文档关键词提取及基于文档匹配商品的方法

Info

Publication number: CN110287289A
Application number: CN201910553323.6A
Authority: CN
Inventors: 周楠; 徐翔
Original assignee: Beijing Jinhai Qunying Network Information Technology Co Ltd
Current assignee: Beijing Jinhai Qunying Network Information Technology Co Ltd
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2019-09-27

Abstract

本发明提供一种文档关键词提取及基于文档匹配商品的方法。目标文档关键词提取方法包括：利用TextRank技术，获得目标文档中m个词的权重；在m个初始关键词中，选择权重靠前的n个词作为初始关键词；基于预定的策略，分别确定目标文档中j个词的预定IDF值；利用TF‑IDF，分别确定目标文档中j个词在目标文档中的TF值；基于预定IDF值和TF值，利用TF‑IDF技术确定j个词的TF‑IDF权重；在j个词中，选择权重靠前的k个词作为校验关键词；判断各初始关键词是否属于校验关键词，如果为是，则将该初始关键词作为文档关键词。

Description

一种文档关键词提取及基于文档匹配商品的方法

技术领域

本发明涉及文档数据处理技术，特别是涉及一种文档关键词提取方法，还涉及一种基于文档关键词匹配商品的方法。

背景技术

随着网络应用越来广泛，应用网络推广商品已经成为当前商品中推广的重要方式。

在网络空间中，其内容包括由文字等自然语言组成的文档，还包括由数据形成的以图片形式存在的商品。图片形式商品并没有详细的描述，无法通过自然语言的方式进行搜索或相应处理。当前，主要采用的方式是：在文档中提取相应关键词，利用关键词与商品属性的匹配性，提高商品推广的精确性。

当前，在文档中提取关键词的方式有两大类：第一类为自然语言处理(NLP，Natural Language Processing)技术，如词频-逆文件频率(TF-IDF，Term Frequency-Inverse Document Frequency)技术。另一类为复杂网络的算法技术，如关键词抽取(TextRank)技术。TF-IDF的基本原理为：确定预定关键词在目标文档中出现的次数，即词频(TF，term frequency)值。然后再确定包含该关键词的文档数量，即确定逆向文件频率(IDF，inverse document frequency)，然后基于TF和IDF确定相应关键词在目标文档中频率及该关键词在整体文件集合(其他文档)的底频率，确定其在目标文档中的重要程序，即TF-IDF权重。而TextRank是针对某一关键词在目标文档中的重要程序进行确定的技术，以确定关键词的权重。

第一类NLP技术需要大量的文档(语料集)进行训练，关键词权重的质量取决于语料集的质量和数量，要么无法保证关键词权重准确性，要么存在提取效率低的不足。第二类虽然不需要大量的其他文档，但其权重获得仅基于目标文档本身，没有考虑其他文档，无法体现文档所在行业及环境情形，权重值可能存在较大偏差。

如何在保证关键词提取效率的同时，保证关键词权重的确认性，提高关键词提取质量，进而为增加商品与目标文档的匹配度，提高商品推荐的精确性，是本领域技术人员需要解决的技术难题。

发明内容

本发明的第一个目的是提供一种目标文档关键词提取方法，在保证关键词提取效率的同时，保证关键词权重的确认性，提高关键词提取质量。

基于上述目标文档关键词提取方法，本发明还提供一种基于目标文档匹配商品的方法，以增加商品与目标文档的匹配度，提高商品推荐的精确性。

本发明提供的目标文档关键词提取方法，包括如下步骤：

S210，利用TextRank技术，获得目标文档中m个词的权重；

S220，在m个初始关键词中，选择权重靠前的n个词作为初始关键词，其中，n≦m；

S230，基于预定的策略，分别确定目标文档中j个词的预定IDF值；

S240，利用TF-IDF，分别确定目标文档中j个词在目标文档中的TF值；

S250，基于预定IDF值和TF值，利用TF-IDF技术确定j个词的TF-IDF权重；

S260，在j个词中，选择权重靠前的k个词作为校验关键词；其中，k≦j；

S270，判断各初始关键词是否属于校验关键词，如果为是，则将该初始关键词作为文档关键词。

基于步骤S210，利用TextRank技术，获得目标文档中m个词的权重，而步骤S220至S260，利用TF-IDF技术，基于目标文档之外的文档中相应词的频率，再基于步骤S270，独创性地将TextRank技术和TF-IDF技术进行了结合，保证关键词提取效率的同时，保证关键词权重的确认性，提高关键词提取质量。同时，步骤S220至S260中，将IDF值和TF值分别处理，也有利于提高数据处理效率。

进一步的技术方案中，所述步骤S210中，利用TextRank技术，获得目标文档中所有词的权重，可以避免遗漏，提高关键词提取的质量和准确性。

进一步的技术方案中，其特征在于，所述步骤S230具体包括：

判断文档指数X是否大于Y；如果是，则基于预置IDF数据库的数据及目标文档，利用TF-IDF技术，更新IDF数据库的数据，并使X归0；如果否，则使X+1；然后从预置IDF数据库获取相应词的IDF值，该IDF值作为相应词的预定IDF值；所述IDF数据库存储有预定的词与各词对应的IDF值。这样，在进行目标文档处理时，不需要针对每一篇目标文档均进行IDF处理，只在处理的目标文档超过一定数量时，再基于目标文档进行处理，更新IDF值，可以兼顾数据处理效率和质量。

进一步的技术方案中，在步骤S230中：

如果否，还包括将目标文档标记为待更新目标文档的步骤；

基于预置IDF数据库的数据及目标文档，利用TF-IDF技术，更新IDF数据库的数据，具体为：基于预置IDF数据库的数据、当前目标文档及待更新目标文档。

即利用该技术方案，在进行更新IDF数据库时，对于未影响当前IDF目标文档均进行处理，以保证更新后IDF的质量。

进一步的技术方案中，在所述步骤S230中，更新IDF数据库的数据包括更新存储的词及对应相应词的IDF值。即不仅仅更新IDF值，也根据新加入目标文档的内容，对存储的词进行更新，以保证更新后IDF的质量。

进一步的技术方案中，所述步骤S230具体包括：基于预置IDF数据库的数据及目标文档，利用TF-IDF技术更新IDF数据库的数据；从预置IDF数据库获取相应词的IDF值，该IDF值作为相应词的预定IDF值；所述IDF数据库存储有预定的词与各词对应的IDF值。该技术方案，针对每一个目标文档均进行TF-IDF处理，保证IDF的质量。

进一步的技术方案中，在所述步骤S230中，基于预定的策略，分别确定目标文档中所有词的预定IDF值；

在所述步骤S240中，利用TF-IDF，分别确定目标文档中所有词在目标文档中的TF值；

在所述步骤S250中，基于预定IDF值和TF值，利用TF-IDF技术确定所有词的TF-IDF权重。

对目标文档所有词进行处理，可以保证TF-IDF权重的质量

本发明提供的基于目标文档匹配商品的方法，基于预定的商品数据库，所述商品数据库对应存储有预定的文档关键词和商品属性参数，对应商品属性参数存储有预定的商品信息；

基于目标文档匹配商品的方法包括上述任一种目标文档关键词提取方法；

在步骤S270中获得文档关键词之后，还包括：

S310，基于文档关键词，在所述商品数据库查询与该文档关键词对应的商品属性参数，并基于商品属性参数，确定对应商品信息；

S320，在预定的文档与商品匹配数据库中，对应存储文档编号(Id，identification)及商品信息；

S320，将与相应文档编号对应的商品信息输出。

基于目标文档关键词提取方法具有的优点，利用该目标文档匹配商品的方法，可以增加商品与目标文档的匹配度，提高商品推荐的精确性。

进一步的技术方案中，所述商品数据库还对应存储文档编号及从该文档提取的文档关键词；在步骤S210之前，还包括：

S110，判断目标文档是否重复输入，如果是，则基于目标文档编号获取所述商品数据库中对应存储的文档关键词，然后进入步骤S310；如果否，则进入步骤S210。

这样可以避免无效数据处理，提高数据处理效果和效率。

进一步的技术方案中，所述商品数据库还对应存储文档编号及从该文档的基准Md5(Message-Digest Algorithm)的值；

所述步骤S110具体包括：获取目标文档的MD5的值；判断所述商品数据库中，与该目标文档编号对应的基准MD5与获取的MD5的值是否一致；如果为是，则基于目标文档编号获取所述商品数据库中对应存储的文档关键词，然后进入步骤S310；如果为否，则进入步骤S210。

利用目标文档的MD5对目标文件进行预处理，可以保证处理安全性，提高处理效率。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书示出了本发明的示例性、特征和方面，并且用于解释本发明的原理。

图1为本发明一个实施例提供的目标文档关键词提取方法的流程框架图；

图2为本发明另一实施例提供的目标文档关键词提取方法的流程框架图；

图3为本发明提供的一种基于目标文档匹配商品的方法的流程框架图；

图4为本发明提供的另一种基于目标文档匹配商品的方法的流程框架图。

具体实施方式

以下将参考附图详细说明本发明的各种示例性实施例、特征和方面。这里作为“示例性”所说明的任何实施例不必解释为优于或者好于其他实施例。

另外，为了更好的说明本发明，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本发明同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件未作详细描述，以便于凸显本发明的主旨。

本文件中，所述“关键词”包括由一个或多个自然语言字构成的单个关键词，也包括由若干相邻关键词构成的关键短语。

如图1所示，图1为本发明一个实施例提供的目标文档关键词提取方法的流程框架图。该目标文档关键词提取方法可以由适当的软件实施，也可以由适当的硬件实施，还可以由适当的软件和硬件结合实施，在输入预定的目标文档之后，可以包括如下步骤：

S210，利用TextRank技术，获得目标文档中m个词的权重。具体可以是，把目标文档按预定的规则分割成m个词，并建立图模型,利用投票机制对各词中的重要性进行排序。

TextRank一般模型可以表示为一个有向有权图G＝(V,E),由点集合V和边集合E组成,E是V×V的子集。图中任两点Vi,Vj之间边的权重为wji,对于一个给定的点Vi,In(Vi)为指向该点的点集合,Out(Vi)为点Vi指向的点集合。点Vi的得分定义如下：

d为阻尼系数,取值范围为0到1,代表从图中某一特定点指向其他任意点的概率,一般取值可以为0.85。

S220，在m个初始关键词中，选择权重靠前的n个词作为初始关键词，其中，n≦m。即选出top n个词，可以存储为预定的列表1(list1)，这些词作为初始关键词。本发明实施例中，n可以为5；n越小，精确度越高，反之，精确度越低，根据精确度要求，可以适当调整n的具体数值。基于TextRank的原理，这些词只是考虑了目标文档内词与词之间的关系，没有考虑这些词在其他文档中的情形。

S230，基于预定的策略，分别确定目标文档中j个词的预定IDF值。即根据预定策略，分别确定目标文档中j个词的IDF值，进而为后续获取TF-IDF值提供前提。本实施例中，为了保证效率，IDF值是基于之前处理文档获得的值，其计算可以暂时不包含当前目标文档。在目标文档输入或更新数量不大或频率不高的情况下，不会影响TF-IDF的质量。当然，也可以根据实际需要设定一个预定的值；还可以根据预定的策略(时间、更新次数、场景、时间+更新次数等等)调整具体的IDF值。

S240，利用TF-IDF，分别确定目标文档中j个词在目标文档中的TF值。TF值可以为相应词在目标文档中出现的次数；为了避免较长目标文档可能产生的偏差，可以进行标准化处理，具体计算公式可以是：

S250，基于预定IDF值和TF值，利用TF-IDF技术确定j个词的TF-IDF权重。由于TF-IDF倾向于过滤掉常见的词语，保留重要的词语，这样便于提取目标文档中重要的词。

其公式可以为：

TF-IDF＝TF*IDF

S260，在j个词中，选择权重靠前的k个词作为校验关键词；其中，k≦j。即根据TF-IDF，确定top k个词为校验关键词。k越大，可能有准确，但容易产生冗余，因此，根据实际需要选择适合的数值。

S270，判断各初始关键词是否属于校验关键词，如果为是，则将该初始关键词作为文档关键词。即确定初始关键词和校验关键词是否有重合，如果重合，说明该关键词不仅在目标文档中具有较高权重(基于TextRank技术)，在与目标文档同类或预定场景文档中也具有较高权重，因此，基于步骤S210，利用TextRank技术，获得目标文档中m个词的权重，而步骤S220至S260，利用TF-IDF技术，基于目标文档之外的文档中相应词的频率，再基于步骤S270，独创性地将TextRank技术和TF-IDF技术进行了结合，保证关键词提取效率的同时，保证关键词权重的确认性，提高关键词提取质量。同时，步骤S220至S260中，将IDF值和TF值分别处理，也有利于提高数据处理效率。

当然，可以将初始关键词与校验关键词均重合的关键词作为文档关键词，也可以根据实际需要选择适当数量的关键词作为文档关键词。

根据上述说明，可以确定，步骤S210-S220属于基于TextRank技术的处理，而步骤S230-S260属于基于TF-IDF技术的处理，如图所示，上述两部分可以并行处理，也可以先后进行，其先后顺序并不以本实施例描述或序号表示为限。

利用上述实施例，对下述目标文档的处理过程可以为：

这几年，不管是我们日常穿的衣服还是婚礼穿的婚纱，一字领绝对是个大热的款式，它的优点有很多：恰到好处地展示了线条优美的肩部，让充满女人味的锁骨显露出来，时尚活泼中不失性感。很是引人注目。但是，如果你的肩膀过于宽厚，一字领会在视觉上拉长你的肩宽，在一定程度上暴露甚至加大你的不完美之处，所以，一字领虽美，肩膀线条不完美的姑娘请慎重。

从中提取出的文档关键词为：婚纱，一字领，锁骨。

在一个实施例中，所述步骤S210中，利用TextRank技术，可以获得目标文档中所有词的权重，可以避免遗漏，提高关键词提取的质量和准确性。

另外，可以基于每一个目标文档，利用TF-IDF技术，更新当前IDF值。当然，也可以在输入目标文档超过预定数量时，更新当前IDF值。请参考图2，该图为本发明另一实施例提供的目标文档关键词提取方法的流程框架图，与上一个实施例相比，其主要区别在于步骤S230；该实施例中，步骤S230具体包括：

S231，判断预置的文档指数X是否大于Y；如果是，则进入步骤S233；如果否，则进入步骤S232。

S232，使X+1；

S233，从预置IDF数据库获取相应词的IDF值，该IDF值作为相应词的预定IDF值，再进入步骤S240；所述IDF数据库存储有预定的词与各词对应的IDF值。

S234，使X归0；

S235，基于预置IDF数据库的数据及目标文档，利用TF-IDF技术，更新IDF数据库的数据，，然后返回步骤S233。

X、Y可以为预先设置的参数。本实施例中，Y可以为4(当然可以为其他数字，X的初始值可以0)。如果X小于4，则说明处理的目标文档(新目标文档)未超过4篇，此时暂时不需要更新IDF值；如X大于4，则说明处理的目标文档(新目标文档)已经超过4篇，此时需要更新IDF值，以保证IDF值质量。

IDF值计算公式可以为：

这样，在进行目标文档处理时，不需要针对每一篇目标文档均进行IDF处理，只在处理的目标文档超过一定数量时，再基于目标文档进行处理，更新IDF值，可以兼顾数据处理效率和质量。

当然，根据实际需要，还可以采用其他策略调整具体的IDF值，如每天定时更新IDF值；还可以结合时间和文档更新数量调整具体的IDF值，即在更新IDF值时，如果发现两次更新时间之间处理的文档数量小于设定的阈值，不予更新IDF值，大于设定的阈值时，更新IDF值；例如设置每天凌晨0点更新IDF值，设置阈值为X。设上次更新是9号，在10号更新IDF值时，如果从上次更新到当前处理的文档数量小于X，就不更新IDF值。在11号更新更新IDF值时，上次更新是9号(10号没有更新)，在9号和10号这两天处理的文档数大于X时，在当前11号就更新IDF值。

在步骤S230中，如果否，在步骤S232中，还包括将目标文档标记为待更新目标文档的步骤；进而，在所述步骤S234中，基于预置IDF数据库的数据及目标文档，利用TF-IDF技术，更新IDF数据库的数据，具体为：基于预置IDF数据库的数据、当前目标文档及待更新目标文档。即虽然每4篇新的目标文档更新一次IDF值，但在更新的时候，不仅考虑当前处理目标文档，还考虑之前处理的4份目标文档，进而保证IDF值的质量。即利用该技术方案，在进行更新IDF数据库时，对于未影响当前IDF目标文档均进行处理，以保证更新后IDF的质量。当然，在所述步骤S232中，更新IDF数据库的数据包括更新存储的词及对应相应词的IDF值。即不仅仅更新IDF值，也根据新加入目标文档的内容，对存储的词进行更新，以保证更新后IDF的质量。

当然，在步骤S230中，可以基于每一篇目标文档，更新IDF值，步骤S230具体可以包括：基于预置IDF数据库的数据及目标文档，利用TF-IDF技术更新IDF数据库的数据；从预置IDF数据库获取相应词的IDF值，该IDF值作为相应词的预定IDF值；所述IDF数据库存储有预定的词与各词对应的IDF值。该技术方案，针对每一个目标文档均进行TF-IDF处理，保证IDF的质量。

在所述步骤S230中，基于预定的策略，分别确定目标文档中所有词的预定IDF值；相应地，在所述步骤S240中，利用TF-IDF，分别确定目标文档中所有词在目标文档中的TF值；在所述步骤S250中，基于预定IDF值和TF值，利用TF-IDF技术确定所有词的TF-IDF权重。对目标文档所有词进行处理，可以保证TF-IDF权重的质量。

本发明还提供一种基于目标文档匹配商品的方法。该方法可以基于预定的商品数据库实施，所述商品数据库对应存储有预定的文档关键词和商品属性参数，对应商品属性参数存储有预定的商品信息，以对应获取相应信息。

如图3所示，该图为本发明提供的一种基于目标文档匹配商品的方法的流程框架图。实施该方法，对于新输入的目标文档，可以采用上述任一种目标文档关键词提取方法。在实施上述任一种目标文档关键词提取方法，步骤S270中获得文档关键词之后，还包括：

S320，在预定的文档与商品匹配数据库中，对应存储文档编号(Id，identification)及商品信息。此时，文档编号为本次处理目标文档的编号，在输入目标文档时，各目标文档可以预置相应的编号，其编号可以具有唯一性。

S330，将与相应文档编号对应的商品信息输出。输出的方式可以是商品信息的直接展示，也可以输出网页链接，还可以是插件式广告等等。

为了避免重复处理，所述商品数据库还对应存储文档编号及从该文档提取的文档关键词。如图4所示，该图为本发明提供的另一种基于目标文档匹配商品的方法的流程框架图。在步骤S210之前，还包括：S110，判断目标文档是否重复输入，如果是，则基于目标文档编号获取所述商品数据库中对应存储的文档关键词，然后进入步骤S310；如果否，则进入步骤S210。这样可以避免无效数据处理，提高数据处理效果和效率。

所述商品数据库还可以对应存储文档编号及从该文档的基准Md5(Message-Digest Algorithm)的值。步骤S110可以具体包括：获取目标文档的MD5的值；判断所述商品数据库中，与该目标文档编号对应的基准MD5与获取的MD5的值是否一致；如果为是，则基于目标文档编号获取所述商品数据库中对应存储的文档关键词，然后进入步骤S310；如果为否，则进入步骤S210。这样，利用目标文档的MD5对目标文件进行预处理，可以保证处理安全性，提高处理效率。

基于目标文档获取的关键词：婚纱，一字领，锁骨；可以匹配对应商品，得到的结果可以是：La Fides|V领一字肩公主款婚纱，【GRETA G.】一字领蕾丝短袖主纱，【DW暗香袭人】酒红色一字肩V领礼服。

以上仅是本发明的优选实施方式，说明书具体实施方式描述的先后顺序及序号本身并不应当形成对本发明保护技术方案的限制；另外，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种目标文档关键词提取方法，其特征在于，包括如下步骤：

S210，利用TextRank技术，获得目标文档中m个词的权重；

S270，判断各初始关键词是否属于校验关键词，如果为是，则将该初始关键词作为文档关键词，并输出。

2.根据权利要求1所述的目标文档关键词提取方法，其特征在于，所述步骤S210中，利用TextRank技术，获得目标文档中所有词的权重。

3.根据权利要求1或2所述的目标文档关键词提取方法，其特征在于，所述步骤S230具体包括：

判断文档指数X是否大于Y；如果是，则基于预置IDF数据库的数据及目标文档，利用TF-IDF技术，更新IDF数据库的数据，并使X归0；如果否，则使X+1；然后从预置IDF数据库获取相应词的IDF值，该IDF值作为相应词的预定IDF值；所述IDF数据库存储有预定的词与各词对应的IDF值。

4.根据权利要求3所述的目标文档关键词提取方法，其特征在于，在步骤S230中：如果否，还包括将目标文档标记为待更新目标文档的步骤；

5.根据权利要求3所述的目标文档关键词提取方法，其特征在于，在所述步骤S230中，更新IDF数据库的数据包括更新存储的词及对应相应词的IDF值。

6.根据权利要求1或2所述的目标文档关键词提取方法，其特征在于，所述步骤S230具体包括：基于预置IDF数据库的数据及目标文档，利用TF-IDF技术，更新IDF数据库的数据；从预置IDF数据库获取相应词的IDF值，该IDF值作为相应词的预定IDF值；所述IDF数据库存储有预定的词与各词对应的IDF值。

7.根据权利要求1至5任一项所述的目标文档关键词提取方法，其特征在于，在所述步骤S230中，基于预定的策略，分别确定目标文档中所有词的预定IDF值；

8.一种基于目标文档匹配商品的方法，其特征在于，基于预定的商品数据库，所述商品数据库对应存储有预定的文档关键词和商品属性参数，对应商品属性参数存储有预定的商品信息；

基于目标文档匹配商品的方法包括权利要求1至5任一项所述的目标文档关键词提取方法；

在步骤S270中获得文档关键词之后，还包括：

S330，将与相应文档编号对应的商品信息输出。

9.根据权利要求8所述的基于目标文档匹配商品的方法，其特征在于，

所述商品数据库还对应存储文档编号及从该文档提取的文档关键词；

在步骤S210之前，还包括：

10.根据权利要求9所述的基于目标文档匹配商品的方法，其特征在于，

所述商品数据库还对应存储文档编号及从该文档的基准Md5(Message-DigestAlgorithm)的值；