CN112257439B

CN112257439B - 一种通过舆情数据挖掘热度词根的方法和装置

Info

Publication number: CN112257439B
Application number: CN202011189650.7A
Authority: CN
Inventors: 陈嘉真; 张琛; 王硕; 徐凯波
Original assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Current assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2024-04-12
Anticipated expiration: 2040-10-30
Also published as: CN112257439A

Abstract

本申请涉及一种通过舆情数据挖掘热度词根的方法和装置，其中，该方法包括：输出词根步骤，根据索引条件和附加信息确认标题，对标题进行分词并输出有效词根；统计评论数量步骤，接收并根据有效词根统计有效词根对应的评论数量；词根分类步骤，通过分类器将有效词根按照所需的业务点进行分类并输出对应的词根类别；确定词根步骤，在词根类别下将对应有效词根按照评论数量进行排序，将排序在一定序次的有效词根作为热度词根。本申请通过使用更具有舆情代表性的数据，并结合评论数量，解决了现有的词根不准确的问题，所挖掘到的热度词根更能体现出用户最近关注的热点。

Description

一种通过舆情数据挖掘热度词根的方法和装置

技术领域

本申请涉及人工智能技术领域，特别是涉及一种通过舆情数据挖掘热度词根的方法、装置。

背景技术

在淘宝钻展，直通车等活动中，电商们会通过购买关键词来实现千人千面的客户引流。构建词根的主要目的是给电商的关键词投手们提供一些词根相关的舆情分析，即，可以组建关键词的一部分，如“洗衣液促销”里面的词根为“洗衣液”和“促销”，从而给投手一些比较直观的信息而利于他们去组建和购买合理的关键词。例如，投手想为某个场景下的宝贝推荐关键词，已知该宝贝的品牌为当妮，品类为洗衣粉，我们会给投手们提供当妮洗衣粉相关的最近讨论较高的词根，比如，“除菌”，“好闻”，“李佳奇代言”等等。投手拿到信息后即可组建一些精准的长尾关键词，如“洗衣液除菌好闻”等等，或者用该信息去评估他们本有的候选关键词库。

一般来说，相关技术会通过实体识别等方法对大量的和产品相关的语料进行分析，抽取可能成为词根的实体作为备选，然后再根据词频过滤掉热度较小的词根，并推荐热度高的给投手参考。然而，在实际做的过程中，发现通过索引形式获取的舆情语料(如含有洗衣液的微博评论、知乎评论、淘宝评论等等)大部分并不包含可能构成关键词的词根。其次，即便是有词根，词根的所处的语境也未必是正向的，比如“这个洗衣液真的非常难用”，“难用”虽可作为一个正常词根，但因其处在负向的评语里所以使用的意义不大。

目前针对相关技术中词根准确性低的问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种通过舆情数据挖掘热度词根的方法和装置，基于大量的关于电商的标题和评论数据，提取电商的标题中出现的词根，并根据评论数据来间接判断词根的热度，以至少解决相关技术中所提取的词根准确性低，无法满足需求的问题。

第一方面，本申请实施例提供了一种通过舆情数据挖掘热度词根的方法，包括以下步骤：

输出词根步骤，根据索引条件和附加信息确认标题，对所述标题进行分词并输出有效词根；

统计评论数量步骤，接收并根据所述有效词根统计所述有效词根对应的评论数量；

词根分类步骤，通过分类器将所述有效词根按照所需的业务点进行分类并输出对应的词根类别；

确定词根步骤，在所述词根类别下将对应所述有效词根按照所述评论数量进行排序，将排序在一定序次的所述有效词根作为热度词根。

在其中一些实施例中，所述词根分类步骤具体包括：

预分类步骤，接收并对部分所述有效词根进行标签分类；

模型训练步骤，利用标签分类后的所述有效词根训练多类型模型；

分类步骤，根据所述多类型模型对剩余的所述有效词根进行分类。

在其中一些实施例中，所述输出词根步骤中包括：

对所述标题进行分词得到词根后，利用TF-IDF去掉所述词根中的高频词汇，并输出所述有效词根。

在其中一些实施例中，所述输出词根步骤中包括以下步骤：

标注关键词步骤，接收并对历史关键词或榜单热词进行切词得到对应的历史关键词词根和榜单热词词根，对所述历史关键词词根和所述榜单热词词根进行标注；

训练二分类模型步骤，运用所述历史关键词词根和所述榜单热词词根训练二分类模型；

输出有效词根步骤，根据所述二分类模型判断所述标题中的词根是否满足模型条件，对满足条件的所述有效词根进行保存并输出。

在其中一些实施例中，当一有效词根出现在多个所述标题下方时，所述有效词根的所述评论数量为多个所述标题的评论中出现的数量总和。

第二方面，本申请实施例提供了一种通过舆情数据挖掘热度词根的装置，包括：

输出词根模块，根据索引条件和附加信息确认标题，对所述标题进行分词并输出有效词根；

统计评论数量模块，接收并根据所述有效词根统计所述有效词根对应的评论数量；

词根分类模块，通过分类器将所述有效词根按照所需的业务点进行分类并输出对应的词根类别；

确定词根模块，在对应的所述词根类别下将所述有效词根按照所述评论数量进行排序，将排序在一定序次的所述有效词根作为热度词根。

在其中一些实施例中，所述词根分类模块具体包括：

预分类单元，接收并对部分所述有效词根进行标签分类；

模型训练单元，利用标签分类后的所述有效词根训练多类型模型；

分类单元，根据所述多类型模型对剩余的所述有效词根进行分类。

在其中一些实施例中，所述输出词根模块对所述标题进行分词得到词根后，利用TF-IDF去掉所述词根中的高频词汇，并输出所述有效词根。

在其中一些实施例中，所述输出词根模块包括以下模块：

标注关键词单元，接收并对历史关键词或榜单热词进行切词得到对应的历史关键词词根和榜单热词词根，对所述历史关键词词根和所述榜单热词词根进行标注；

训练二分类模型单元，运用所述历史关键词词根和所述榜单热词词根训练二分类模型；

输出有效词根单元，根据所述二分类模型判断所述标题中的词根是否满足模型条件，对满足条件的所述有效词根进行保存并输出。

相比于相关技术，本申请实施例提供的通过舆情数据挖掘热度词根的方法和装置，通过使用更具有舆情代表性的数据，并结合评论数量，解决了现有的词根不准确的问题，所挖掘到的热度词根更能体现出用户最近关注的热点。在实际的应用中，业务端反应良好，因词根的来源更具备说服力，投手更愿意使用本发明提供的词根来构建关键词进而实现投放，提高了用户的体验。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的通过舆情数据挖掘热度词根的方法的流程图；

图2是根据本申请实施例的词根分类步骤的流程图；

图3是根据本申请实施例的一种输出有效词根的方法的流程图；

图4是根据本申请实施例的通过舆情数据挖掘热度词根的方法的优选流程图；

图5是根据本申请实施例的通过舆情数据挖掘热度词根的装置的结构框图；

图6是根据本申请实施例的词根根类模块的结构框图；

图7是根据本申请实施例的输出词根模块的结构框图。

附图说明：

1、输出词根模块；2、统计评论数量模块；3、词根分类模块；

4、确定词根模块；31、预分类单元；32、模型训练单元；

33、分类单元；11、标注关键词单元；12、训练二分类模型单元；

13、输出有效词根单元。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency)，IDF是逆文本频率指数(InverseDocument Frequency)。

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外，因特网上的搜索引擎还会使用基于链接分析的评级方法，以确定文件在搜寻结果中出现的顺序。

本实施例提供了一种通过舆情数据挖掘热度词根的方法。图1是根据本申请实施例的通过舆情数据挖掘热度词根的方法的流程图，如图1所示，该流程包括如下步骤：

输出词根步骤，根据索引条件和附加信息确认标题，对标题进行分词并输出有效词根；

在实际应用中，通过分词软件对标题进行切词的操作具体包括：对获取的标题进行无关文本过滤、表情转换或过滤、乱码处理、文本格式处理、时间标准化处理。

统计评论数量步骤，接收并根据有效词根统计有效词根对应的评论数量；

词根分类步骤，通过分类器将有效词根按照所需的业务点进行分类并输出对应的词根类别；

确定词根步骤，在词根类别下将对应有效词根按照评论数量进行排序，将排序在前一定序次的有效词根作为热度词根。

本实施例为业务人员推荐最近热度较高的电商词根，可以按照评论数量给词根进行排序，为保证词根的数量和时效性，将词根保留一定时间段，本实施例内中并其限制在最近一周上。

在实际的应用中，可以选择较为正向的用户评论，间接通过正向用户评论的量级数据评估从标题、产品名、内容等等抽取出的词根的舆情热度。

通过上述步骤，根据索引条件和附加信息确认标题，对标题进行分词得到有效词根，再根据有效词根的评论数量情况选择出热度词根，更能体现用户关注的热点问题，提高用户体验度。

在其中一些实施例中，图2是根据本申请实施例的词根分类步骤的流程图；如图2所示，词根分类步骤的流程具体包括：

预分类步骤，接收并对部分有效词根进行标签分类；

模型训练步骤，利用标签分类后的有效词根训练多类型模型；

分类步骤，根据多类型模型对剩余的有效词根进行分类。

在一些实施例中，输出词根步骤中包括：

对标题进行分词得到词根后，利用TF-IDF去掉所述词根中的高频词汇，并输出有效词根。

本实施例还提出了输出有效词根的另一实现方式，根据索引条件和附加信息确认标题，根据历史关键词或平台提供的榜单热词训练模型，运用模型识别标题中的有效词根并输出。

图3是根据本申请实施例的一种输出有效词根的方法的流程图，如图3所示，输出词根步骤中包括以下步骤：

标注关键词步骤，接收并对历史关键词或榜单热词进行切词得到对应的历史关键词词根和榜单热词词根，对历史关键词词根和榜单热词词根进行标注；

训练二分类模型步骤，运用历史关键词词根和榜单热词词根训练二分类模型；

输出有效词根步骤，根据二分类模型判断标题中的词根是否满足模型条件，对满足条件的有效词根进行保存并输出。

在实际的应用中，提取词根有两种方式，一种是根据分词软件对标题直接切词，得到若干词根。然后通过TFIDF(NLP里常用的方法，这里标题为document，词根为word)的方法去掉高频词，即一些常用的语气词等等，得到有效词根。

另一种方法是根据历史关键词或电商平台提供的榜单热词训练模型来识别标题中的有效词根。具体的说，就是将这些历史关键词进行切词，对切分后的词根进行人工标注，包括功效、目标用户、评价词、外观等等，这些是根据要推荐的关键词的领域所总结的一些类型，然后对每一个类型训练二分类模型，最后用二分类模型依次去判断标题中的通过切词软件得到的词根是否属于这些类型，如果属于，则保留下来作为有效词根。

在一些实施例中，当一有效词根出现在多个标题下方时，有效词根的评论数量为多个标题的评论中出现的数量总和。

下面通过优选实施例对本申请实施例进行描述和说明。

图4是根据本申请实施例的通过舆情数据挖掘热度词根的方法的优选流程图，如图4所示，该方法包括如下步骤：

第一步：首先确定索引条件。如，需要为哪个品牌、品类等等推荐热度词根，确定好后根据其它附加信息锁定相关标题。现有的电商数据库中存有相关品牌、品类、产品等等的相关标签，可以用其作为索引。

第二步：通过分词软件对标题进行切词。如，该标题属于语义类标题，也可通过实体识别技术从中抽取词根。

上述实体识别具体的方法为：

对获取的数据进行预处理，包括无关文本过滤、表情转换与过滤、乱码处理、文本格式处理、时间标准化等；

实体关键词标签设计，依据关键词投放领域中关键词的选取类型，将实体关键词设为多种类型，如品牌(Brand)、功效(Effect)、外观(Appearance)、味道(Flavor)、类型(Type)、受众(TargetAudience)等等；

预先对小部分数据进行人工打标；

采用NLP中的实体识别模型对打标好的数据条进行训练。

第三步：对词根进行评论统计。因词根是更粗粒度的数据，可以通过第一步中的标题统计信息进行聚合。

第四步：通过分类器将词根按照需要的业务点进行聚类。

上述步骤可使用常规的多分类建模步骤：

首先将小部分词根划分为功效、目标受众等等标签类型。

然后使用多分类模型对标好的词根进行训练。，其中，多分类模型可为神经网络，树模型，传统机器学习方法等等，此部分为现有技术，本申请不进行具体描述；

最后使用该模型对剩余词根进行标签预测。

第五步：将词根按标签分好类，在每一类别下按照评论数量进行排序，并保留一定时间内(如最近一周内)的词根，数量高的词根为热度高的词根。

需要说明的是，在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。例如，步骤三步骤四的次序交换并不影响本发明的效果。

本申请的实施例使用的是电商的标题作为词根标题，但实际上也不仅限于电商领域，只要该领域的评论基数庞大，产品名或标题包含大量词根，即可使用本项目一样的方法论。同时，标题的热度也可只使用正向的用户评论数量。具体情况根据用户评论是否试先拥有评论态度标签而定。

本实施例还提供了一种通过舆情数据挖掘热度词根的装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图5是根据本申请实施例的通过舆情数据挖掘热度词根的装置的结构框图，如图5所示，该装置包括输出词根模块1、统计评论数据模块2、词根分析模块和确定词根模块4，其中，输出词根模块1根据索引条件和附加信息确认标题，对标题进行分词并输出有效词根；统计评论数据模块2接收并根据有效词根统计有效词根对应的评论数量；词根分类模块3通过分类器将有效词根按照所需的业务点进行分类并输出对应的词根类别；确定词根模块4在对应的词根类别下将有效词根按照评论数量进行排序，将排序在一定序次的有效词根作为热度词根。

在一些实施例中，图6是根据本申请实施例的词根根类模块的结构框图；如图6所示，词根分类模块3具体包括预分类单元31、模型训练单元32和分类单元33，其中，预分类单元31接收并对部分有效词根进行标签分类；模型训练单元32利用标签分类后的有效词根训练多类型模型；分类单元33根据多类型模型对剩余的有效词根进行分类。

在一些实施例中，输出词根模块对标题进行分词得到词根后，利用TF-IDF去掉词根中的高频词汇，并输出有效词根。

在一些实施例中，图7是根据本申请实施例的输出词根模块1的结构框图；如图7所示，输出词根模块1具体包括标注关键词单元11、训练二分类模型单元12和输出有效词根单元13，其中：

标注关键词单元11接收并对历史关键词或榜单热词进行切词得到对应的历史关键词词根和榜单热词词根，对历史关键词词根和榜单热词词根进行标注；训练二分类模型单元12运用历史关键词词根和榜单热词词根训练二分类模型；输出有效词根单元13根据二分类模型判断标题中的词根是否满足模型条件，对满足条件的有效词根进行保存并输出。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

本申请的实施例的语料来源不限于电商平台，也可试用于其它平台，如小红书等等的商品相关的网站，只要其用户评论数量庞大即可使用。

同时，使用的领域也不仅限于给投手提供关键词词根的候选，也可被用于构建标题，生成标题，推荐产品等等问题，该词根通过分类后也可以给业务端提供更多产品设计或推销的建议。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种通过舆情数据挖掘热度词根的方法，其特征在于，包括以下步骤：

确定词根步骤，在所述词根类别下将对应所述有效词根按照所述评论数量进行排序，将排序在一定序次的所述有效词根作为热度词根，其中在每一类别下按照评论数量进行排序，并保留一定时间内的所述有效词根，数量高的所述有效词根作为热度高的词根。

2.根据权利要求1所述的通过舆情数据挖掘热度词根的方法，其特征在于，所述词根分类步骤具体包括：

预分类步骤，接收并对部分所述有效词根进行标签分类；

3.根据权利要求1所述的通过舆情数据挖掘热度词根的方法，其特征在于，所述输出词根步骤中包括：

4.根据权利要求1所述的通过舆情数据挖掘热度词根的方法，其特征在于，所述输出词根步骤中包括以下步骤：

5.根据权利要求1所述的通过舆情数据挖掘热度词根的方法，其特征在于，当一有效词根出现在多个所述标题下方时，所述有效词根的所述评论数量为多个所述标题的评论中出现的数量总和。

6.一种通过舆情数据挖掘热度词根的装置，其特征在于，包括：

确定词根模块，在所述词根类别下将对应所述有效词根按照所述评论数量进行排序，将排序在一定序次的所述有效词根作为热度词根，其中在每一类别下按照评论数量进行排序，并保留一定时间内的所述有效词根，数量高的所述有效词根作为热度高的词根。

7.根据权利要求6所述的通过舆情数据挖掘热度词根的装置，其特征在于，所述词根分类模块具体包括：

预分类单元，接收并对部分所述有效词根进行标签分类；

8.根据权利要求6所述的通过舆情数据挖掘热度词根的装置，其特征在于，所述输出词根模块对所述标题进行分词得到词根后，利用TF-IDF去掉所述词根中的高频词汇，并输出所述有效词根。

9.根据权利要求6所述的通过舆情数据挖掘热度词根的装置，其特征在于，所述输出词根模块包括以下模块：

10.根据权利要求6所述的通过舆情数据挖掘热度词根的装置，其特征在于，当一有效词根出现在多个所述标题下方时，所述有效词根的所述评论数量为多个所述标题的评论中出现的数量总和。