CN110688846B - 周期词挖掘方法、系统、电子设备及可读存储介质 - Google Patents

周期词挖掘方法、系统、电子设备及可读存储介质 Download PDF

Info

Publication number
CN110688846B
CN110688846B CN201810738295.0A CN201810738295A CN110688846B CN 110688846 B CN110688846 B CN 110688846B CN 201810738295 A CN201810738295 A CN 201810738295A CN 110688846 B CN110688846 B CN 110688846B
Authority
CN
China
Prior art keywords
search
unit
periodic
time period
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810738295.0A
Other languages
English (en)
Other versions
CN110688846A (zh
Inventor
邝秋鸿
邵荣防
郝晖
欧阳硕
谢群群
刘儒君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201810738295.0A priority Critical patent/CN110688846B/zh
Publication of CN110688846A publication Critical patent/CN110688846A/zh
Application granted granted Critical
Publication of CN110688846B publication Critical patent/CN110688846B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种周期词挖掘方法、系统、电子设备及可读存储介质,周期词挖掘方法包括:获取一预设时间段内所有用户的检索数据,检索数据包括多个检索关键词和每个关键词的检索时间;对每个检索关键词检测检索关键词是否具有热搜时间段,检索关键词在热搜时间段内的检索次数达到在预设时间段内的检索总次数的预设百分比;若包含,生成检索关键词的特征标签;预设一周期特征标签库,周期特征标签库存储有多个周期特征标签;计算特征标签与每个周期特征标签的相似度;判断计算得到的最高相似度是否高于一预设阈值,若高于,则确认检索关键词为周期词。本发明的周期词挖掘方法使用灵活,数据成本低,符合用户习惯,且有较高的准确性。

Description

周期词挖掘方法、系统、电子设备及可读存储介质
技术领域
本发明属于信息处理技术领域,尤其涉及一种周期词挖掘方法、系统、电子设备及可读存储介质。
背景技术
周期词是指在搜索引擎中用户随着季节、时令变化而搜索量周期性变化的周期词。电商行业中的周期词可以被用于用户需求监测,指导运营、采销人员根据用户在周期中的需求进行文案运营、采购等操作;也可以对外展示,吸引更多有类似需求的用户购买这些周期热点商品。
周期词的挖掘中,一般使用过去几年的用户搜索行为历史数据变化情况作为是否是周期词的依据,但在某些情况下往年数据缺失,数据不足两个或两个以上周期时,现有的挖掘算法会失效,完全无法从数据中挖掘出周期属性。
发明内容
本发明要解决的技术问题是为了克服现有技术中缺失往年数据时无法有效挖掘周期属性的缺陷,提供一种周期词挖掘方法、系统、电子设备及可读存储介质。
本发明是通过下述技术方案来解决上述技术问题:
一种周期词挖掘方法,所述周期词挖掘方法包括:
获取一预设时间段内所有用户的检索数据,所述检索数据包括多个检索关键词和每个所述关键词的检索时间;
对每个所述检索关键词检测所述检索关键词是否具有热搜时间段,所述检索关键词在所述热搜时间段内的检索次数达到在所述预设时间段内的检索总次数的预设百分比;
若包含,生成所述检索关键词的特征标签,所述特征标签用于表征所述检索关键词对应的热搜时间段;
预设一周期特征标签库,所述周期特征标签库存储有多个周期特征标签,不同的周期特征标签用于表征不同的热搜周期;
计算所述特征标签与每个所述周期特征标签的相似度;
判断计算得到的最高相似度是否高于一预设阈值,若高于,则确认所述检索关键词为周期词。
较佳地,所述检测所述检索关键词是否包含热搜时间段的步骤之前,所述周期词挖掘方法还包括:
将所述预设时间段划分为多个单位时段,并统计每个所述单位时段内所述检索关键词的单位检索次数;
所述检测所述检索关键词是否包含热搜时间段的步骤具体包括:
按照次数大小依次将排序靠前的若干单位时段的单位检索次数累加,直至累加检索次数达到在所述预设时间段内的检索总次数的预设百分比;
判断所述若干单位时段是否为连续时间段。
较佳地,所述统计每个所述单位时段内所述检索关键词的单位检索次数的步骤之后,所述周期词挖掘方法还包括:
任意选取一目标单位时段;
判断所述目标单位时段的单位检索次数是否大于与所述目标单位时段相邻的两个单位时段的单位检索次数之和的2倍或小于所述相邻的两个单位时段的单位检索次数之差的1/2倍;
若是,则将所述相邻的两个单位时段的单位检索次数的均值作为所述目标单位时段的有效检索次数,若否,则统计得到的所述目标单位时段的检索次数即为所述目标单位时段的有效检索次数;
所述检测所述检索关键词是否包含热搜时间段的步骤中,用所述有效检索次数替换所述单位检索次数。
较佳地,所述周期特征标签包括时令标签,所述判断计算得到的最高相似度是否高于一预设阈值,若是,则确认所述检索关键词为周期词的步骤具体包括:
判断计算得到的最高相似度是否高于一预设阈值;
若高于,则判断具有最高相似度的周期特征标签是否是时令标签;
若是,判断所述时令标签代表的时令是否在单位检索次数最高的单位时段内;
若在,则确认所述检索关键词为周期词。
较佳地,所述周期特征标签包括季节标签,所述判断计算得到的最高相似度是否高于一预设阈值,若是,则确认所述检索关键词为周期词的步骤具体包括:
判断计算得到的最高相似度是否高于一预设阈值;
若高于,则判断具有最高相似度的周期特征标签是否是季节标签;
若是,则确认所述检索关键词为周期词。
较佳地,所述计算所述特征标签与每个所述周期特征标签的相似度的步骤中,基于Jaccard算法(用于比较有限样本集之间的相似性与差异性的机器学习算法)计算得到所述相似度。
较佳地,所述对每个所述检索关键词检测所述检索关键词是否具有热搜时间段的步骤之前,所述周期词挖掘方法还包括:
判断所述检索关键词的最大单位检索次数和最小单位检索次数的比值是否超过预设比值,若否,则滤除所述比值没有超过预设比值的检索关键词,
所述对每个所述检索关键词检测所述检索关键词是否具有热搜时间段的步骤中,对滤除后的每个所述检索关键词执行检测是否具有热搜时间段的动作。
较佳地,所述对每个所述检索关键词检测所述检索关键词是否具有热搜时间段的步骤之前,所述周期词挖掘方法还包括:
对所述检索关键词进行归一化处理,所述归一化处理包括符号处理、简繁体转换和大小写转换中至少一个。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的周期词挖掘方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的周期词挖掘方法的步骤。
一种周期词挖掘系统,所述周期词挖掘系统包括数据获取模块、检测模块、特征标签生成模块、相似度计算模块、周期词判断模块和一周期特征标签库,所述周期特征标签库存储有多个周期特征标签,不同的周期特征标签用于表征不同的热搜周期;
所述数据获取模块用于获取一预设时间段内所有用户的检索数据,所述检索数据包括多个检索关键词和每个所述关键词的检索时间;
所述检测模块用于对每个所述检索关键词检测所述检索关键词是否具有热搜时间段,若包含,则调用所述特征标签生成模块;所述检索关键词在所述热搜时间段内的检索次数达到在所述预设时间段内的检索总次数的预设百分比;
所述特征标签生成模块用于生成所述检索关键词的特征标签,所述特征标签用于表征所述检索关键词对应的热搜时间段;
所述相似度计算模块用于计算所述特征标签与每个所述周期特征标签的相似度;
所述周期词判断模块用于判断计算得到的最高相似度是否高于一预设阈值,若高于,则确认所述检索关键词为周期词。
较佳地,所述周期词挖掘系统还包括统计模块,所述检测模块包括计算单元和第一判断单元;
所述统计模块用于将所述预设时间段划分为多个单位时段,并统计每个所述单位时段内所述检索关键词的单位检索次数;
所述计算单元用于按照次数大小依次将排序靠前的若干单位时段的单位检索次数累加,直至累加检索次数达到在所述预设时间段内的检索总次数的预设百分比,并调用所述第一判断单元;
所述第一判断单元用于判断所述若干单位时段是否为连续时间段,若是,则调用所述特征标签生成模块。
较佳地,所述周期词挖掘系统还包括检索数据处理模块,所述检索数据处理模块包括单位时段选取单元、第二判断单元和有效检索次数确认单元;
所述单位时段选取单元用于任意选取一目标单位时段;
所述第二判断单元用于判断所述目标单位时段的单位检索次数是否大于与所述目标单位时段相邻的两个单位时段的单位检索次数之和的2倍或小于所述相邻的两个单位时段的单位检索次数之差的1/2倍;
所述有效检索次数确认单元用于在所述第二判断单元的判断结果为是时,将所述相邻的两个单位时段的单位检索次数的均值作为所述目标单位时段的有效检索次数;
所述有效检索次数确认单元还用于在所述第二判断单元的判断结果为否时,将统计得到的所述目标单位时段的检索次数作为所述目标单位时段的有效检索次数;
所述检测模块还包括替换单元,所述替换单元用于将所述有效检索次数替换所述单位检索次数。
较佳地,所述周期特征标签包括时令标签,所述周期词判断模块包括第三判断单元;
所述第三判断单元用于判断计算得到的最高相似度是否高于一预设阈值,若高于,则判断具有最高相似度的周期特征标签是否是时令标签,若是,判断所述时令标签代表的时令是否在单位检索次数最高的单位时段内,若在,则确认所述检索关键词为周期词。
较佳地,所述周期特征标签包括季节标签;
所述第三判断单元还用于判断计算得到的最高相似度是否高于一预设阈值,若高于,则判断具有最高相似度的周期特征标签是否是季节标签,若是,则确认所述检索关键词为周期词。
较佳地,所述相似度计算模块用于基于Jaccard算法计算得到所述相似度。
较佳地,所述检索数据处理模块还包括滤除单元;
所述第二判断单元还用于判断所述检索关键词的最大单位检索次数和最小单位检索次数的比值是否超过预设比值,若否,则调用所述滤除单元;
所述滤除单元用于滤除所述比值没有超过预设比值的检索关键词,
所述检测模块用于对滤除后的每个所述检索关键词执行检测是否具有热搜时间段。
较佳地,所述周期词挖掘系统还包括归一化模块;
所述归一化模块用于对所述检索关键词进行归一化处理,所述归一化处理包括符号处理、简繁体转换和大小写转换中至少一个。
本发明的积极进步效果在于:本发明使用物品检索关键词及其检索时间和次数作为周期词的挖掘数据源,使用词的热搜时间段与已知的热搜周期相似程度作为是否具有周期的标志,挖掘出用户需求的周期性特征,本发明的周期词挖掘方法不依赖于多年的历史数据,仅需一年的数据即可完成,使用灵活,数据成本低,同时,周期词完全来源于用户搜索历史,符合用户习惯,周期词质量高且有较高的准确性。
附图说明
图1为本发明实施例1的周期词挖掘方法的流程图。
图2为本发明实施例2的周期词挖掘方法的流程图。
图3为本发明实施例2的周期词挖掘方法中步骤120的具体流程图。
图4为本发明实施例3的周期词挖掘方法中步骤160的一种实施方式的具体流程图。
图5为本发明实施例3的周期词挖掘方法中步骤160的另一种实施方式的具体流程图。
图6为本发明实施例4的周期词挖掘方法的流程图。
图7为本发明实施例5的电子设备的结构示意图。
图8为本发明实施例7的周期词挖掘系统的结构框图。
图9为本发明实施例8的周期词挖掘系统的结构框图。
图10为本发明实施例8的周期词挖掘系统中检测模块的结构框图。
图11为本发明实施例8的周期词挖掘系统中检索数据处理模块的结构框图。
图12为本发明实施例10的周期词挖掘系统中检索数据处理模块的结构框图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
一种周期词挖掘方法,如图1所示,所述周期词挖掘方法包括:
步骤110、获取一预设时间段内所有用户的检索数据,检索数据包括多个检索关键词和每个关键词的检索时间;然后对每个检索关键词执行步骤120;
步骤120、检测检索关键词是否具有热搜时间段,若是,执行步骤130;检索关键词在热搜时间段内的检索次数达到在预设时间段内的检索总次数的预设百分比;若不包含,继续检测下一个检索关键词;
步骤130、生成检索关键词的特征标签;特征标签用于表征检索关键词对应的热搜时间段;
步骤140、预设一周期特征标签库;周期特征标签库存储有多个周期特征标签,不同的周期特征标签用于表征不同的热搜周期;
步骤150、计算特征标签与每个周期特征标签的相似度;
步骤160、判断计算得到的最高相似度是否高于一预设阈值,若是,则执行步骤170;若否,则所述检索关键词不为周期词;
步骤170、确认检索关键词为周期词。
需要说明的是,每检测完一个检索关键词后选取下一个检索关键字继续上述的各检测步骤,直至所有检索关键词全部检测完毕。
本实施例中使用物品检索关键词及其检索时间和次数作为周期词的挖掘数据源,使用词的热搜时间段与已知的热搜周期相似程度作为是否具有周期的标志,挖掘出用户需求的周期性特征,本发明的周期词挖掘方法不依赖于多年的历史数据,仅需一年的数据即可完成,使用灵活,数据成本低,同时,周期词完全来源于用户搜索历史,符合用户习惯,周期词质量高且有较高的准确性。
实施例2
本实施例的周期词挖掘方法是在实施例1的基础上进一步改进,如图2所示,步骤120之前,所述周期词挖掘方法还包括:
步骤111、将预设时间段划分为多个单位时段;
步骤112、统计每个单位时段内检索关键词的单位检索次数;
其中,如图3所示,步骤120具体包括:
步骤1201、按照次数大小依次将排序靠前的若干单位时段的单位检索次数累加,直至累加检索次数达到在预设时间段内的检索总次数的预设百分比;
步骤1202、判断若干单位时段是否为连续时间段,若是,执行步骤130;若否,则所述检索关键词不为周期词。
需要说明的是,假设获取到的检索数据为一年的数据,此处可以将一年划分为52周,对每周的检索数据进行统计,此处的连续时间段可以为获取的该一年时间内的连续周,或者以该一年的最后一周(12月)与第一周(1月)的连续也可以作为一个连续时间段。
另外,为了避免由于突发性的活动影响,部分词搜索量可能会出现大幅的波动,为了剔除这部分波动数据,对检索次数进行平滑处理,如图2所示,即步骤112之后,所述周期词挖掘方法还包括:
步骤113、任意选取一目标单位时段;
步骤114、判断目标单位时段的单位检索次数是否大于与目标单位时段相邻的两个单位时段的单位检索次数之和的2倍或小于相邻的两个单位时段的单位检索次数之差的1/2倍,若是,则执行步骤115,若否,则执行步骤116;
步骤115、将相邻的两个单位时段的单位检索次数的均值作为目标单位时段的有效检索次数;
步骤116、将统计得到的目标单位时段的检索次数作为目标单位时段的有效检索次数;
进一步的,步骤120中,用所述有效检索次数替换所述单位检索次数。
另外,对于检索关键词的检索次数的确认,可以通过数据筛选去重的方式将较短时间内同一用户同一检索关键词的检索次数进行去重处理,以确保数据的有效性。
本实施例中进一步限定了通过检索次数的统计得到检索关键词的热搜周期,其中,为避免由于电商突发性的活动影响,部分词搜索量可能会出现大幅的波动,对检索次数进行平滑处理。
实施例3
本实施例的周期词挖掘方法是在实施例2的基础上进一步改进,所述周期特征标签包括时令标签,如图4所示,步骤160具体包括:
步骤1611、判断计算得到的最高相似度是否高于一预设阈值,若是,执行步骤1612;若否,则所述检索关键词不为周期词;
步骤1612、判断具有最高相似度的周期特征标签是否是时令标签,若是,则执行步骤1613;
步骤1613、判断时令标签代表的时令是否在单位检索次数最高的单位时段内,若是,执行步骤170,若否,则所述检索关键词不为与所述时令标签相关的周期词;
另外,所述周期特征标签包括季节标签,如图5所示,提供步骤160的另一种实现方式,具体包括:
步骤1621、判断计算得到的最高相似度是否高于一预设阈值,若是,则执行步骤1622,若否,则所述检索关键词不为周期词;;
步骤1622、判断具有最高相似度的周期特征标签是否是季节标签,若是,则执行步骤170,若否,则所述检索关键词不为与所述季节标签相关的周期词;
另外,步骤150中,基于Jaccard算法计算得到相似度;
举个具体示例进一步说明,比如:荣华月饼的热搜时间段为第39、40、41周,是热搜时间段的赋予标签1,不是热搜时间段的赋予标签0,荣华月饼的特征标签:0000000000000000000000000000000000000011100000000000,基于Jaccard算法计算得到最高相似度的周期特征标签为“中秋”这个时令的周期特征标签:0000000000000000000000000000000000000011110000000000,最高相似度大于预设阈值,此时进一步得到荣华月饼的周检索次数最高的为第41周,而中秋这个时令正在第41周内,那么荣华月饼这个检索关键词为一周期词,且包含了中秋这个时令的属性。此处进一步判定中秋这个时令是否在荣华月饼这个检索关键词的最高周检索次数所述的周,是为了避免由于电商的活动影响,部分词搜索量可能会出现大幅的波动而剔除这部分波动数据,由于时令标签所属时令的热搜周期一般在一周或者最多一个月,热搜时间较短,若此时由于活动影响导致该部分词刚好与某时令标签相似度较高,则很难区分其是否具备周期的特性;相对的,如果是季节标签,由于其热搜周期跨度较大,因此可以对此不进行限定。
需要说明的,此处虽然只列举了季节标签和时令标签,但是不限于此,周期特征标签库中还有其他明显具有热搜周期的周期特征标签,比如情人节、圣诞节等。
实施例4
本实施例的周期词挖掘方法是在实施例2的基础上进一步改进,如图6所示,步骤120之前,所述周期词挖掘方法还包括:
步骤117、判断检索关键词的最大单位检索次数和最小单位检索次数的比值是否超过预设比值,若是,执行步骤120,若否,则滤除比值没有超过预设比值的检索关键词,继续检测下一个检索关键词;
进一步的,步骤120中,对滤除后的每个检索关键词执行检测是否具有热搜时间段的动作。
需要说明的是,为了减少后续的统计计算量可以对检索关键词进行预处理,包括上述步骤117中,可以筛选出变化剧烈的检索关键词,另外,还可以比对黑名单库,将属于黑名单库中的用户的检索关键词数据滤除,或者,还可以将很明显不具备周期特性的检索关键词滤除,比如数码产品、图书音像等。
本实施例中,步骤120之前,所述周期词挖掘方法还包括:
对检索关键词进行归一化处理,归一化处理包括符号处理、简繁体转换和大小写转换中至少一个;
关键词归一化处理包括特殊符号处理、简繁体转换、大小写转换等。其中特殊符号做空格替换处理,繁体统一转换为简体,大写统一转换为小写,多个空格归一为一个空格,处在第一位的空格去除,如关键词“蘋果iPhone·X”,在归一化处理后变成“苹果iPhoneX”,目的是为了将同一个物品的检索关键词进行归类。
实施例5
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现实施例1-4中任意一个实施例所述的周期词挖掘方法。
图7为本发明实施例5提供的一种电子设备的结构示意图。图7示出了适于用来实现本发明实施方式的示例性电子设备10的框图。图7显示的电子设备10仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,电子设备10可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备10的组件可以包括但不限于:至少一个处理器11、至少一个存储器12、连接不同系统组件(包括存储器12和处理器11)的总线13。
总线13包括数据总线、地址总线和控制总线。
存储器12可以包括易失性存储器,例如随机存取存储器(RAM)121和/或高速缓存存储器122,还可以进一步包括只读存储器(ROM)123。
存储器12还可以包括具有一组(至少一个)程序模块124的程序工具125,这样的程序模块124包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器11通过运行存储在存储器12中的计算机程序,从而执行各种功能应用以及数据处理。
电子设备10也可以与一个或多个外部设备14(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口15进行。并且,电子设备10还可以通过网络适配器16与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器16通过总线13与电子设备10的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备10使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例6
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1-4中任意一个实施例所述的周期词挖掘方法的步骤。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1-4中任意一个实施例所述的用户专业度评分方法的步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
实施例7
一种周期词挖掘系统,如图8所示,所述周期词挖掘系统包括数据获取模块1、检测模块2、特征标签生成模块3、相似度计算模块4、周期词判断模块5和一周期特征标签库6,所述周期特征标签库6存储有多个周期特征标签,不同的周期特征标签用于表征不同的热搜周期;
所述数据获取模块1用于获取一预设时间段内所有用户的检索数据,所述检索数据包括多个检索关键词和每个所述关键词的检索时间;
所述检测模块2用于对每个所述检索关键词执行检测所述检索关键词是否具有热搜时间段,若包含,则调用所述特征标签生成模块3;所述检索关键词在所述热搜时间段内的检索次数达到在所述预设时间段内的检索总次数的预设百分比;
所述特征标签生成模块3用于生成所述检索关键词的特征标签,所述特征标签用于表征所述检索关键词对应的热搜时间段;
所述相似度计算模块4用于计算所述特征标签与每个所述周期特征标签的相似度;
所述周期词判断模块5用于判断计算得到的最高相似度是否高于一预设阈值,若高于,则确认所述检索关键词为周期词。
需要说明的是,每检测完一个检索关键词后选取下一个检索关键字继续上述的各检测步骤,直至所有检索关键词全部检测完毕。
本实施例中使用物品检索关键词及其检索时间和次数作为周期词的挖掘数据源,使用词的热搜时间段与已知的热搜周期相似程度作为是否具有周期的标志,挖掘出用户需求的周期性特征,本发明的周期词挖掘方法不依赖于多年的历史数据,仅需一年的数据即可完成,使用灵活,数据成本低,同时,周期词完全来源于用户搜索历史,符合用户习惯,周期词质量高且有较高的准确性。
实施例8
本实施例的周期词挖掘系统是在实施例7的基础上进一步改进,如图9-10所示,所述周期词挖掘系统还包括统计模块7,所述检测模块2包括计算单元21和第一判断单元22;
所述统计模块7用于将所述预设时间段划分为多个单位时段,并统计每个所述单位时段内所述检索关键词的单位检索次数;
所述计算单元21用于按照次数大小依次将排序靠前的若干单位时段的单位检索次数累加,直至累加检索次数达到在所述预设时间段内的检索总次数的预设百分比,并调用所述第一判断单元22;
所述第一判断单元22用于判断所述若干单位时段是否为连续时间段,若是,则调用所述特征标签生成模块3。
需要说明的是,假设获取到的检索数据为一年的数据,此处可以将一年划分为52周,对每周的检索数据进行统计,此处的连续时间段可以为获取的该一年时间内的连续周,或者以该一年的最后一周(12月)与第一周(1月)的连续也可以作为一个连续时间段。
另外,为了避免由于电商突发性的活动影响,部分词搜索量可能会出现大幅的波动,为了剔除这部分波动数据,对检索次数进行平滑处理,参见图9,所述周期词挖掘系统还包括检索数据处理模块8,如图11所示,所述检索数据处理模块8包括单位时段选取单元81、第二判断单元82和有效检索次数确认单元83;
所述单位时段选取单元用于任意选取一目标单位时段;
所述第二判断单元82用于判断所述目标单位时段的单位检索次数是否大于与所述目标单位时段相邻的两个单位时段的单位检索次数之和的2倍或小于所述相邻的两个单位时段的单位检索次数之差的1/2倍;
所述有效检索次数确认单元83用于在所述第二判断单元82的判断结果为是时,将所述相邻的两个单位时段的单位检索次数的均值作为所述目标单位时段的有效检索次数;
所述有效检索次数确认单元83还用于在所述第二判断单元82的判断结果为否时,将统计得到的所述目标单位时段的检索次数作为所述目标单位时段的有效检索次数;
所述检测模块2还包括替换单元,所述替换单元用于将所述有效检索次数替换所述单位检索次数。
另外,对于检索关键词的检索次数的确认,可以通过数据筛选去重的方式将较短时间内同一用户同一检索关键词的检索次数进行去重处理,以确保数据的有效性。
本实施例中进一步限定了通过检索次数的统计得到检索关键词的热搜周期,其中,为避免由于电商突发性的活动影响,部分词搜索量可能会出现大幅的波动,对检索次数进行平滑处理。
实施例9
本实施例的周期词挖掘系统是在实施例7的基础上进一步改进,所述周期特征标签包括时令标签,所述周期词判断模块包括第三判断单元(图中未示出);
所述第三判断单元用于判断计算得到的最高相似度是否高于一预设阈值,若高于,则判断具有最高相似度的周期特征标签是否是时令标签,若是,判断所述时令标签代表的时令是否在单位检索次数最高的单位时段内,若在,则确认所述检索关键词为周期词。
另外,所述周期特征标签包括季节标签;
所述第三判断单元还用于判断计算得到的最高相似度是否高于一预设阈值,若高于,则判断具有最高相似度的周期特征标签是否是季节标签,若是,则确认所述检索关键词为周期词。
另外,所述相似度计算模块用于基于Jaccard算法计算得到所述相似度。
举个具体示例进一步说明,比如:荣华月饼的热搜时间段为第39、40、41周,是热搜时间段的赋予标签1,不是热搜时间段的赋予标签0,荣华月饼的特征标签:0000000000000000000000000000000000000011100000000000,基于Jaccard算法计算得到最高相似度的周期特征标签为“中秋”这个时令的周期特征标签:0000000000000000000000000000000000000011110000000000,最高相似度大于预设阈值,此时进一步得到荣华月饼的周检索次数最高的为第41周,而中秋这个时令正在第41周内,那么荣华月饼这个检索关键词为一周期词,且包含了中秋这个时令的属性。此处进一步判定中秋这个时令是否在荣华月饼这个检索关键词的最高周检索次数所述的周,是为了避免由于电商的活动影响,部分词搜索量可能会出现大幅的波动而剔除这部分波动数据,由于时令标签所属时令的热搜周期一般在一周或者最多一个月,热搜时间较短,若此时由于活动影响导致该部分词刚好与某时令标签相似度较高,则很难区分其是否具备周期的特性;相对的,如果是季节标签,由于其热搜周期跨度较大,因此可以对此不进行限定。
需要说明的,此处虽然只列举了季节标签和时令标签,但是不限于此,周期特征标签库6中还有其他明显具有热搜周期的周期特征标签,比如情人节、圣诞节等。
实施例10
本实施例的周期词挖掘系统是在实施例8的基础上进一步改进,如图12所示,所述检索数据处理模块8还包括滤除单元84;
所述第二判断单元82还用于判断所述检索关键词的最大单位检索次数和最小单位检索次数的比值是否超过预设比值,若否,则调用所述滤除单元84;
所述滤除单元84用于滤除所述比值没有超过预设比值的检索关键词,
所述检测模块2用于对滤除后的每个所述检索关键词执行检测是否具有热搜时间段。
需要说明的是,为了减少后续的统计计算量可以对检索关键词进行预处理,包括上述可以筛选出变化剧烈的检索关键词,另外,还可以比对黑名单库,将属于黑名单库中的用户的检索关键词数据滤除,或者,还可以将很明显不具备周期特性的检索关键词滤除,比如数码产品、图书音像等。
所述周期词挖掘系统还包括归一化模块(图中未示出);
所述归一化模块用于对所述检索关键词进行归一化处理,所述归一化处理包括符号处理、简繁体转换和大小写转换中至少一个。
关键词归一化处理包括特殊符号处理、简繁体转换、大小写转换等。其中特殊符号做空格替换处理,繁体统一转换为简体,大写统一转换为小写,多个空格归一为一个空格,处在第一位的空格去除,如关键词“蘋果iPhone·X”,在归一化处理后变成“苹果iPhoneX”,目的是为了将同一个物品的检索关键词进行归类。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (18)

1.一种周期词挖掘方法,其特征在于,所述周期词挖掘方法包括:
获取一预设时间段内所有用户的检索数据,所述检索数据包括多个检索关键词和每个所述关键词的检索时间;
对每个所述检索关键词检测所述检索关键词是否包含热搜时间段,所述检索关键词在所述热搜时间段内的检索次数达到在所述预设时间段内的检索总次数的预设百分比;
若包含,生成所述检索关键词的特征标签,所述特征标签用于表征所述检索关键词对应的热搜时间段;
预设一周期特征标签库,所述周期特征标签库存储有多个周期特征标签,不同的周期特征标签用于表征不同的热搜周期;
计算所述特征标签与每个所述周期特征标签的相似度;
判断计算得到的最高相似度是否高于一预设阈值,若高于,则确认所述检索关键词为周期词。
2.如权利要求1所述的周期词挖掘方法,其特征在于,所述检测所述检索关键词是否包含热搜时间段的步骤之前,所述周期词挖掘方法还包括:
将所述预设时间段划分为多个单位时段,并统计每个所述单位时段内所述检索关键词的单位检索次数;
所述检测所述检索关键词是否包含热搜时间段的步骤具体包括:
按照次数大小依次将排序靠前的若干单位时段的单位检索次数累加,直至累加检索次数达到在所述预设时间段内的检索总次数的预设百分比;
判断所述若干单位时段是否为连续时间段。
3.如权利要求2所述的周期词挖掘方法,其特征在于,所述统计每个所述单位时段内所述检索关键词的单位检索次数的步骤之后,所述周期词挖掘方法还包括:
任意选取一目标单位时段;
判断所述目标单位时段的单位检索次数是否大于与所述目标单位时段相邻的两个单位时段的单位检索次数之和的2倍或小于所述相邻的两个单位时段的单位检索次数之差的1/2倍;
若是,则将所述相邻的两个单位时段的单位检索次数的均值作为所述目标单位时段的有效检索次数,若否,则统计得到的所述目标单位时段的检索次数即为所述目标单位时段的有效检索次数;
所述检测所述检索关键词是否包含热搜时间段的步骤中,用所述有效检索次数替换所述单位检索次数。
4.如权利要求2所述的周期词挖掘方法,其特征在于,所述周期特征标签包括时令标签,所述判断计算得到的最高相似度是否高于一预设阈值,若是,则确认所述检索关键词为周期词的步骤具体包括:
判断计算得到的最高相似度是否高于一预设阈值;
若高于,则判断具有最高相似度的周期特征标签是否是时令标签;
若是,判断所述时令标签代表的时令是否在单位检索次数最高的单位时段内;
若在,则确认所述检索关键词为周期词。
5.如权利要求1所述的周期词挖掘方法,其特征在于,所述周期特征标签包括季节标签,所述判断计算得到的最高相似度是否高于一预设阈值,若是,则确认所述检索关键词为周期词的步骤具体包括:
判断计算得到的最高相似度是否高于一预设阈值;
若高于,则判断具有最高相似度的周期特征标签是否是季节标签;
若是,则确认所述检索关键词为周期词。
6.如权利要求1所述的周期词挖掘方法,其特征在于,所述计算所述特征标签与每个所述周期特征标签的相似度的步骤中,基于Jaccard算法计算得到所述相似度。
7.如权利要求3所述的周期词挖掘方法,其特征在于,所述对每个所述检索关键词检测所述检索关键词是否包含热搜时间段的步骤之前,所述周期词挖掘方法还包括:
判断所述检索关键词的最大单位检索次数和最小单位检索次数的比值是否超过预设比值,若否,则滤除所述比值没有超过预设比值的检索关键词,
所述对每个所述检索关键词检测所述检索关键词是否包含热搜时间段的步骤中,对滤除后的每个所述检索关键词执行检测是否包含热搜时间段的动作。
8.如权利要求1所述的周期词挖掘方法,其特征在于,所述对每个所述检索关键词检测所述检索关键词是否包含热搜时间段的步骤之前,所述周期词挖掘方法还包括:
对所述检索关键词进行归一化处理,所述归一化处理包括符号处理、简繁体转换和大小写转换中至少一个。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8任一项所述的周期词挖掘方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至8任一项所述的周期词挖掘方法的步骤。
11.一种周期词挖掘系统,其特征在于,所述周期词挖掘系统包括数据获取模块、检测模块、特征标签生成模块、相似度计算模块、周期词判断模块和一周期特征标签库,所述周期特征标签库存储有多个周期特征标签,不同的周期特征标签用于表征不同的热搜周期;
所述数据获取模块用于获取一预设时间段内所有用户的检索数据,所述检索数据包括多个检索关键词和每个所述关键词的检索时间;
所述检测模块用于对每个所述检索关键词检测所述检索关键词是否包含热搜时间段,若包含,则调用所述特征标签生成模块;所述检索关键词在所述热搜时间段内的检索次数达到在所述预设时间段内的检索总次数的预设百分比;
所述特征标签生成模块用于生成所述检索关键词的特征标签,所述特征标签用于表征所述检索关键词对应的热搜时间段;
所述相似度计算模块用于计算所述特征标签与每个所述周期特征标签的相似度;
所述周期词判断模块用于判断计算得到的最高相似度是否高于一预设阈值,若高于,则确认所述检索关键词为周期词。
12.如权利要求11所述的周期词挖掘系统,其特征在于,所述周期词挖掘系统还包括统计模块,所述检测模块包括计算单元和第一判断单元;
所述统计模块用于将所述预设时间段划分为多个单位时段,并统计每个所述单位时段内所述检索关键词的单位检索次数;
所述计算单元用于按照次数大小依次将排序靠前的若干单位时段的单位检索次数累加,直至累加检索次数达到在所述预设时间段内的检索总次数的预设百分比,并调用所述第一判断单元;
所述第一判断单元用于判断所述若干单位时段是否为连续时间段,若是,则调用所述特征标签生成模块。
13.如权利要求12所述的周期词挖掘系统,其特征在于,所述周期词挖掘系统还包括检索数据处理模块,所述检索数据处理模块包括单位时段选取单元、第二判断单元和有效检索次数确认单元;
所述单位时段选取单元用于任意选取一目标单位时段;
所述第二判断单元用于判断所述目标单位时段的单位检索次数是否大于与所述目标单位时段相邻的两个单位时段的单位检索次数之和的2倍或小于所述相邻的两个单位时段的单位检索次数之差的1/2倍;
所述有效检索次数确认单元用于在所述第二判断单元的判断结果为是时,将所述相邻的两个单位时段的单位检索次数的均值作为所述目标单位时段的有效检索次数;
所述有效检索次数确认单元还用于在所述第二判断单元的判断结果为否时,将统计得到的所述目标单位时段的检索次数作为所述目标单位时段的有效检索次数;
所述检测模块还包括替换单元,所述替换单元用于将所述有效检索次数替换所述单位检索次数。
14.如权利要求12所述的周期词挖掘系统,其特征在于,所述周期特征标签包括时令标签,所述周期词判断模块包括第三判断单元;
所述第三判断单元用于判断计算得到的最高相似度是否高于一预设阈值,若高于,则判断具有最高相似度的周期特征标签是否是时令标签,若是,判断所述时令标签代表的时令是否在单位检索次数最高的单位时段内,若在,则确认所述检索关键词为周期词。
15.如权利要求14所述的周期词挖掘系统,其特征在于,所述周期特征标签包括季节标签;
所述第三判断单元还用于判断计算得到的最高相似度是否高于一预设阈值,若高于,则判断具有最高相似度的周期特征标签是否是季节标签,若是,则确认所述检索关键词为周期词。
16.如权利要求11所述的周期词挖掘系统,其特征在于,所述相似度计算模块用于基于Jaccard算法计算得到所述相似度。
17.如权利要求13所述的周期词挖掘系统,其特征在于,所述检索数据处理模块还包括滤除单元;
所述第二判断单元还用于判断所述检索关键词的最大单位检索次数和最小单位检索次数的比值是否超过预设比值,若否,则调用所述滤除单元;
所述滤除单元用于滤除所述比值没有超过预设比值的检索关键词,
所述检测模块用于对滤除后的每个所述检索关键词执行检测是否包含热搜时间段。
18.如权利要求11所述的周期词挖掘系统,其特征在于,所述周期词挖掘系统还包括归一化模块;
所述归一化模块用于对所述检索关键词进行归一化处理,所述归一化处理包括符号处理、简繁体转换和大小写转换中至少一个。
CN201810738295.0A 2018-07-06 2018-07-06 周期词挖掘方法、系统、电子设备及可读存储介质 Active CN110688846B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810738295.0A CN110688846B (zh) 2018-07-06 2018-07-06 周期词挖掘方法、系统、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810738295.0A CN110688846B (zh) 2018-07-06 2018-07-06 周期词挖掘方法、系统、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN110688846A CN110688846A (zh) 2020-01-14
CN110688846B true CN110688846B (zh) 2023-11-07

Family

ID=69107371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810738295.0A Active CN110688846B (zh) 2018-07-06 2018-07-06 周期词挖掘方法、系统、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN110688846B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259058B (zh) * 2020-01-16 2023-09-15 北京百度网讯科技有限公司 数据挖掘方法、数据挖掘装置和电子设备
CN111782924B (zh) * 2020-06-30 2023-09-29 北京百度网讯科技有限公司 内容处理方法、装置、设备以及存储介质
CN113673224B (zh) * 2021-08-19 2022-04-05 北京三快在线科技有限公司 识别热门词汇的方法、装置、计算机设备及可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013033476A (ja) * 2011-08-01 2013-02-14 Nhn Business Platform Corp 入力回数が急上昇する検索語を利用した検索広告方法、システム及びコンピュータ読み取り可能な記録媒体
CN104331493A (zh) * 2014-11-17 2015-02-04 百度在线网络技术(北京)有限公司 通过计算机实现的用于生成趋势解释数据的方法及装置
CN106227880A (zh) * 2016-08-01 2016-12-14 挂号网(杭州)科技有限公司 医生搜索推荐的实现方法
CN106649818A (zh) * 2016-12-29 2017-05-10 北京奇虎科技有限公司 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN107038156A (zh) * 2017-04-28 2017-08-11 北京清博大数据科技有限公司 一种基于大数据的舆论热点预测方法
CN107180098A (zh) * 2017-05-16 2017-09-19 武汉斗鱼网络科技有限公司 一种信息搜索中关键词淘汰方法及装置
CN107767172A (zh) * 2017-10-12 2018-03-06 百度在线网络技术(北京)有限公司 信息推送方法、装置、服务器及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013033476A (ja) * 2011-08-01 2013-02-14 Nhn Business Platform Corp 入力回数が急上昇する検索語を利用した検索広告方法、システム及びコンピュータ読み取り可能な記録媒体
CN104331493A (zh) * 2014-11-17 2015-02-04 百度在线网络技术(北京)有限公司 通过计算机实现的用于生成趋势解释数据的方法及装置
CN106227880A (zh) * 2016-08-01 2016-12-14 挂号网(杭州)科技有限公司 医生搜索推荐的实现方法
CN106649818A (zh) * 2016-12-29 2017-05-10 北京奇虎科技有限公司 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN107038156A (zh) * 2017-04-28 2017-08-11 北京清博大数据科技有限公司 一种基于大数据的舆论热点预测方法
CN107180098A (zh) * 2017-05-16 2017-09-19 武汉斗鱼网络科技有限公司 一种信息搜索中关键词淘汰方法及装置
CN107767172A (zh) * 2017-10-12 2018-03-06 百度在线网络技术(北京)有限公司 信息推送方法、装置、服务器及介质

Also Published As

Publication number Publication date
CN110688846A (zh) 2020-01-14

Similar Documents

Publication Publication Date Title
US10733149B2 (en) Template based data reduction for security related information flow data
AU2017202873B2 (en) Efficient query processing using histograms in a columnar database
US8990241B2 (en) System and method for recommending queries related to trending topics based on a received query
Beebe et al. Digital forensic text string searching: Improving information retrieval effectiveness by thematically clustering search results
US7437323B1 (en) Method and system for spot pricing via clustering based demand estimation
US20180107528A1 (en) Aggregation based event identification
US11538005B2 (en) Long string pattern matching of aggregated account data
US11188860B2 (en) Injury risk factor identification, prediction, and mitigation
CN110688846B (zh) 周期词挖掘方法、系统、电子设备及可读存储介质
US9646081B1 (en) System and method to present a summarized task view in a case management system
US10067964B2 (en) System and method for analyzing popularity of one or more user defined topics among the big data
US10459980B2 (en) Display system, method and computer readable recording media for an issue
US20220019739A1 (en) Item Recall Method and System, Electronic Device and Readable Storage Medium
CN105183873A (zh) 恶意点击行为检测方法及装置
CN112818230B (zh) 内容推荐方法、装置、电子设备和存储介质
Shroff et al. Enterprise information fusion for real-time business intelligence
CN106327230A (zh) 一种异常用户检测方法及设备
CN110046188A (zh) 业务处理方法及其系统
US11017452B2 (en) Concerted learning and multi-instance sequential prediction tree
CN110969501A (zh) 网络购物车页面的显示方法、系统、设备和存储介质
US9443214B2 (en) News mining for enterprise resource planning
US11308130B1 (en) Constructing ground truth when classifying data
WO2018061136A1 (ja) 需要予測方法、需要予測システム及びそのプログラム
CN114817572A (zh) 基于知识图谱的知识分类方法、系统、设备及介质
CN114266242A (zh) 工单数据处理方法、装置、服务器及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant