CN116933782A

CN116933782A - 一种电商文本关键词提取处理方法及系统

Info

Publication number: CN116933782A
Application number: CN202310674877.8A
Authority: CN
Inventors: 姚云锋; 沈寅
Original assignee: Hangzhou Taofenba Network Technology Co ltd
Current assignee: Hangzhou Taofenba Network Technology Co ltd
Priority date: 2023-06-08
Filing date: 2023-06-08
Publication date: 2023-10-24

Abstract

本发明公开的是种电商文本关键词提取处理方法及系统，获取电商相关文本标题及正文；获取标题词向量与句向量计算相似度，相似度最高的词作为第一候选关键词；将电商文本输入预训练的命名实体识别模型，预测得到多个第二候选关键词；将电商文本与指定电商核心词库进行匹配，以得到多个第三候选关键词；获取电商文本各个词词性，提取多个名词短语作为第四候选关键词；对第一、二、三、四候选关键词进行重要程度排序，将相似度满足预设条件的候选关键词，确定为最终关键词，还包括关键词提取处理系统，包括通信连接的获取模块，第一、第二、第三、第四处理模块，排序模块，本发明具有能够解决电商文本关键词提取准确率不高的问题等技术特点。

Description

一种电商文本关键词提取处理方法及系统

技术领域

本发明涉及一种处理方法，更具体一点说，涉及一种电商文本关键词提取处理方法，属于自然语言处理技术领域。

背景技术

近年来，随着互联网高速发展，尤其是移动互联网的普及，使得电子商务快速发展，网上购物逐渐成为消费者的消费习惯，同时各大电商平台积累了大量有关商品介绍相关的文本数据。面对互联网过中海量的电商文本数据，消费者需要耗费巨大的时间和精力查找阅读文本，找出文本中对自身有价值的关键信息。通过自动化技术提取电商文本数据的关键词以及关键短语，即从文本中找到具有代表性的词语或短语来总结文本内容，并保证尽量不丢失文本中基础信息。这有利于消费者快速了解文本内容，节省消费者的时间，降低消费者的学习成本。

关键词和关键短语提取，是指利用计算机技术从文本中抽取出与文本内容相关性较高的词语或短语。关键词提取是自然语言处理领域的一个分支，是文本检索、摘要生成、文档比较、文本分类和聚类等文本挖掘研究的基础性工作。

目前关键词提取方法中，最常见的方法包括：

1)有监督型的关键词提取：

此方法首先需要通过人工对文本数据进行标注关键词信息，生成标注语料数据。通过人工标注部分数据，然后利用机器学习方法有监督的学习关键词分布特征，训练得到关键词提取的分类器。利用训练好的关键词提取分类器，可以提取新文章的标签。但有监督的提取方法非常依赖于人工标注语料，标注语料的领域、规模和质量都会直接影响到机器的提取效果，人工成本太昂贵。

2)无监督的关键词提取：

无监督的关键词提取不需要人工标注的语料，利用某些方法发现文本中比较重要的词作为关键词，进行关键词提取。该方法的缺点在于，计算复杂度太高，提取效率不高，由于未能有效利用已有的领域知识库信息数据，提取的准确性不高，虽能提取新词，但经常会提取出明显无意义的词，影响整体准确率。

因此需要对现有技术进行改进，以提供一种新的关键短语提取方法。

发明内容

为了解决上述现有技术问题，本发明提供具有能够解决电商文本关键词提取准确率不高的问题等技术特点的一种电商文本关键词提取处理方法及系统。

为了实现上述目的，本发明是通过以下技术方案实现的：

本发明一种电商文本关键词提取处理方法，该方法包括如下步骤：

步骤S101：获取电商相关文本标题及正文；

步骤S102：获取所述标题词向量与句向量计算相似度，相似度最高的词作为第一候选关键词；

步骤S103：将所述电商文本输入预训练的命名实体识别模型，预测得到多个第二候选关键词；

步骤S104：将所述电商文本与指定电商核心词库进行匹配，以得到多个第三候选关键词；

步骤S105：获取电商文本各个词词性，提取多个名词短语作为第四候选关键词；

步骤S106：对所述第一、二、三、四候选关键词进行重要程度排序，将相似度满足预设条件的候选关键词，确定为所述最终关键词；所述预设条件是指相似度是否大于预设阈值，将大于预设阈值的候选关键词，确定为所述最终关键词，其中预设阈值根据需要进行灵活设置，可以根据相同字数依据。

优选的，步骤S102中预设词向量是基于ELMo模型预先训练获取到的，ELMo模型是基于大规模语料训练的语言模型；句向量是对标题中每个词的词向量利用SIF加权平均句子每个词的词向量得到的。

优选的，步骤S103中预设的命名实体识别模型是利用ELMo模型预先基于电商文本样本数据训练得到的。

优选的，步骤S104中所述电商领域核心词汇表中包括商品品类词、品牌词和产品词，对所述电商领域核心词汇表中的词汇进行整理和筛选，以得到高质量目标电商领域核心词汇表。

优选的，步骤S106中词的重要程度是通过计算文本的句向量和所诉候选关键词计算余弦相似度来衡量。

优选的，计算文本的句向量方法还包括：

1)将文档分为较短且完整的句子，通过并行计算句向量来提升计算效率；

2)将句子中每个词第一次出现的位置来生成权重1/(p+u)，其中，p是出现的位置，u是超参数。

本发明一种电商文本关键词提取处理系统，包括词向量模块，相似计算模块，实体识别模块，词库匹配模块，词性匹配模块，排序模块；

其中，词向量模块用于获取电商文本标题及正文以及获取电商文本对应的词向量；

相似计算模块将所述电商文本标题每个词的词向量与标题句向量计算相似度，获取相似度最高的词作为第一候选词；

实体识别模块用于将所述电商文本输入预训练的命名实体识别模型，预测得到多个第二候选关键词；

词库匹配模块用于将所述电商文本与指定电商核心词库进行匹配，以得到多个第三候选关键词；

词性匹配模块获取电商文本各个词词性，提取多个名词短语作为第四候选关键词；

排序模块用于第一、二、三、四候选关键词进行重要程度排序。

本发明一种计算机可读存储介质，存储有用于执行电商文本关键词提取处理方法的计算机程序。

有益效果：相对于现有TF-IDF、TextRank等基于统计和图的关键词提取算法，ELMo语言模型可以获得文本更多的语义信息，同时ELMo是动态的，可以改善一词多义问题；SIF句向量模型根据词频对词向量进行平滑反频率加权，而非简单将词向量求平均，其能更好地捕捉句子的中心话题，更好地过滤通用词，能更好的表征句子含义，同时结合电商核心词库，能提高电商文本的关键词提取准确率；对比需要耗费大量人力的有监督型的关键词提取方法，本技术成本低。

附图说明

图1为本公开实施例文本关键词提取处理方法流程图；

图2为本公开实施例文本关键词提取处理系统示意图。

具体实施方式

以下结合说明书附图，对本发明作进一步说明，但本发明并不局限于以下实施例。

相对于现有技术，本发明技术方案创造性要点包括：

1.利用ELMo语言模型更好表征文本语义。

2.SIF句向量模型根据词频对词向量进行平滑反频率加权，使句向量能更好地捕捉句子的中心话题，并更好地过滤通用词。

3.通过实体命名识别算法得到的关键词，重要程度高。

4.利用领域的电商核心词，匹配文本得到的关键词准确性更高。

5.将候选关键词与文本句向量计算相似度，则可以将所有候选关键词进行排序，更好控制关键词数量和重要程度。

如图1-2所示为一种电商文本关键词提取处理方法及系统的具体实施例，本发明一种电商文本关键词提取处理方法，该方法包括如下步骤：

步骤S101：获取电商相关文本标题及正文；

示例性的，用户在社交媒体上发表的电商商品相关介绍的文本数据。

步骤S102：获取所述标题词向量与句向量计算相似度，相似度最高的词作为第一候选关键词；预设词向量是基于ELMo(Embeddings from Language Models嵌入式语言模型)模型预先训练获取到的，ELMo模型是基于大规模语料训练的语言模型；句向量是对标题中每个词的词向量利用SIF(smooth inverse frequency)加权平均句子每个词的词向量得到的；

示例性的，对电商文本标题分词，获取词向量以及句向量，计算标题中每个词的词向量与句向量的相似度，得到相似度最高的候选关键词。

步骤S103：将所述电商文本输入预训练的命名实体识别模型，预测得到多个第二候选关键词；预设的命名实体识别模型是利用ELMo模型预先基于电商文本样本数据训练得到的。

示例性的，可以预先收集不同的电商领域文本作为样本。基于样本对ELMo模型训练得到预设命名实体识别模型，可以提取电商相关的实体关键词作为多个第二候选关键词。ELMo模型预训练的预设命名实体识别模型如中文命名实体识别模型，其实体类别可以包括商品的产品名、商品类目、商品品牌等。关于ELMo模型具体训练过程可以参考现有技术理解，此处不再赘述，本实施例中仅是训练样本数据以及应用场景不同。

步骤S104：将所述电商文本与指定电商核心词库进行匹配，以得到多个第三候选关键词；所述电商领域核心词汇表中包括商品品类词、品牌词和产品词，对所述电商领域核心词汇表中的词汇进行整理和筛选，以得到高质量目标电商领域核心词汇表；

示例性的，指定主题词库可以是电商商品品类词、品牌词和产品词等。

示例性的，对文本进行分词，根据词性挑选名词短语作为候选关键词，例如“手机”、“口罩”、“鸿星尔克”等。

步骤S106：对所述第一、二、三、四候选关键词进行重要程度排序，词的重要程度是通过计算文本的句向量和所诉候选关键词计算余弦相似度来衡量；将相似度满足预设条件的候选关键词，确定为所述最终关键词；所述预设条件是指相似度是否大于预设阈值，将大于预设阈值的候选关键词，确定为所述最终关键词。

示例性的，若候选关键词按相似度从高到低有“口罩”、“酒精”、“N95”、“感冒药”、“手机”等，若“手机”的相似度较低未达到预设阈值，那么“手机”这个候选关键词就不会选入最终关键词。

需要说明的是，尽管在附图1中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。另外，也易于理解的是，这些步骤可以是例如在多个模块/进程/线程中同步或异步执行。

优选的实施例方式，计算文本的句向量方法还包括：

2)将句子中每个词第一次出现的位置来生成权重1/(p+u)，其中，p是出现的位置，u是超参数，竖直可以调节，优选设置为3.2；

如图2所示，本发明一种电商文本关键词提取处理系统，包括词向量模块201、相似计算模块202、实体识别模块203、词库匹配模块204、词性匹配模块205、排序模块206；

其中，词向量模块201用于获取电商文本标题及正文以及获取电商文本对应的词向量；

相似计算模块202将所述电商文本标题每个词的词向量与标题句向量计算相似度，获取相似度最高的词作为第一候选词；预设词向量是基于ELMo(Embeddings fromLanguage Models嵌入式语言模型)模型预先训练获取到的，所述ELMo模型是基于大规模语料训练的语言模型；所述句向量是对标题中每个词的词向量利用SIF(smooth inversefrequency)加权平均句子每个词的词向量得到的。

实体识别模块203用于将所述电商文本输入预训练的命名实体识别模型，预测得到多个第二候选关键词；预设词向量是基于ELMo(Embeddings from Language Models嵌入式语言模型)模型预先训练获取到的，所述ELMo模型是基于大规模语料训练的语言模型；所述句向量是对标题中每个词的词向量利用SIF(smooth inverse frequency)加权平均句子每个词的词向量得到的。

词库匹配模块204用于将所述电商文本与指定电商核心词库进行匹配，以得到多个第三候选关键词；电商领域核心词汇表中包括商品品类词、品牌词和产品词等，对所述电商领域核心词汇表中的词汇进行整理和筛选，以得到高质量目标电商领域核心词汇表；

词性匹配模块205获取电商文本各个词词性，提取多个名词短语作为第四候选关键词；

排序模块206用于第一、二、三、四候选关键词进行重要程度排序；词的重要程度是通过计算文本的句向量和所诉候选关键词计算余弦相似度来衡量的；将相似度满足预设条件的候选关键词，确定为所述最终关键词。

该计算机可读存储介质，例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

本发明公开实施例提供的技术方案与现有技术相比具有如下优点：

本发明方案结合了ELMo语言模型以及SIF句向量，ELMo语言模型较TFIDF、TextRank等基于统计和图的具有更多的语义信息，SIF句向量算法根据词频对词向量进行平滑反频率加权，能更好地捕捉句子的中心话题的特点，实现了对句子更好的表示。实体命名识别模型方法，能更准确提取文本中实体数据，电商核心词库与电商文本进行匹配得到的关键词融合处理，考虑了除标注实体以外的电商领域内有意义的关键词，使得提取的电商本中的关键词的准确性提高。

最后，需要注意的是，本发明不限于以上实施例，还可以有很多变形。本领域的普通技术人员能从本发明公开的内容中直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.一种电商文本关键词提取处理方法，其特征在于该方法包括如下步骤：

步骤S101：获取电商相关文本标题及正文；

步骤S106：对所述第一、二、三、四候选关键词进行重要程度排序，将相似度满足预设条件的候选关键词，确定为所述最终关键词；所述预设条件是指相似度是否大于预设阈值，将大于预设阈值的候选关键词，确定为所述最终关键词。

2.根据权利要求1所述的一种电商文本关键词提取处理方法，其特征在于，步骤S102中预设词向量是基于ELMo模型预先训练获取到的，ELMo模型是基于大规模语料训练的语言模型；句向量是对标题中每个词的词向量利用SIF加权平均句子每个词的词向量得到的。

3.根据权利要求1所述的一种电商文本关键词提取处理方法，其特征在于，步骤S103中预设的命名实体识别模型是利用ELMo模型预先基于电商文本样本数据训练得到的。

4.根据权利要求1所述的一种电商文本关键词提取处理方法，其特征在于，步骤S104中所述电商领域核心词汇表中包括商品品类词、品牌词和产品词，对所述电商领域核心词汇表中的词汇进行整理和筛选，以得到高质量目标电商领域核心词汇表。

5.根据权利要求1所述的一种电商文本关键词提取处理方法，其特征在于，步骤S106中词的重要程度是通过计算文本的句向量和所诉候选关键词计算余弦相似度来衡量。

6.根据权利要求5所述的一种电商文本关键词提取处理方法，其特征在于，计算文本的句向量方法还包括：

7.适用于如权利要求1-6任一项所述的一种电商文本关键词提取处理方法的系统，其特征在于，包括词向量模块(201)、相似计算模块(202)、实体识别模块(203)、词库匹配模块(204)、词性匹配模块(205)、排序模块(206)；

其中，词向量模块(201)用于提取电商文本标题及正文以及获取电商文本对应的词向量；

相似计算模块(202)将所述电商文本标题每个词的词向量与标题句向量计算相似度，获取相似度最高的词作为第一候选关键词；

实体识别模块(203)用于将所述电商文本输入预训练的命名实体识别模型，预测得到多个第二候选关键词；

词库匹配模块(204)用于将所述电商文本与指定电商核心词库进行匹配，以得到多个第三候选关键词；

词性匹配模块(205)获取电商文本各个词词性，提取多个名词短语作为第四候选关键词；

排序模块(206)用于第一、二、三、四候选关键词进行重要程度排序。

8.一种计算机可读存储介质，其特征在于，存储有用于执行权利要求1-6中任一项所述的电商文本关键词提取处理方法的计算机程序。