CN113868373A - 一种词云生成方法、装置、电子设备及存储介质 - Google Patents

一种词云生成方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113868373A
CN113868373A CN202111074473.2A CN202111074473A CN113868373A CN 113868373 A CN113868373 A CN 113868373A CN 202111074473 A CN202111074473 A CN 202111074473A CN 113868373 A CN113868373 A CN 113868373A
Authority
CN
China
Prior art keywords
search
target user
search keyword
keyword
observation period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111074473.2A
Other languages
English (en)
Inventor
王云云
高洁
张涛
程新洲
成晨
晁昆
贾玉玮
赫欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202111074473.2A priority Critical patent/CN113868373A/zh
Publication of CN113868373A publication Critical patent/CN113868373A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种词云生成方法、装置、电子设备及存储介质,涉及互联网技术领域,用于提高词云的准确性。该方法包括:获取观测期内目标用户的包括搜索关键词、以及搜索关键词对应的搜索时间的搜索记录;对于每条搜索记录,计算观测期的观测截止时间与搜索记录中搜索关键词对应的搜索时间的时间差,根据相同搜索关键词对应的时间差得到搜索关键词的权重;其中,搜索关键词的权重与时间差成反比关系;根据目标用户的搜索关键词的权重,获取目标用户对应的词云。

Description

一种词云生成方法、装置、电子设备及存储介质
技术领域
本申请涉及互联网技术领域,尤其涉及一种词云生成方法、装置、电子设备及存储介质。
背景技术
随着社交媒体的广泛应用,词云已经成了各大社交媒体的重要应用之一,越来越多的社交媒体通过词云显示词汇。其中,词云就是对文本中出现频率较高的关键词予以视觉上的突出,可以通过形成关键词的云层或关键词渲染实现词云,从而过滤掉大量的文本信息,词云显示能让观看对象非常直观的了解到某一类信息的重点内容。
当前,业界常用的方式,是根据词语的被关注频率确定关键词词语对应的权重(关注频率高的词语权重大),之后按照权重生成词云,该词云中权重高的词语视觉突出程度高,权重低的词语视觉突出程度低。
然而,当前是将词语的出现次数作为词语的被关注频率,而词语的出现次数会由于用户的某些操作(比如单个用户的反复查询或其他操作),无法准确反映词语的被关注频率,进而降低根据词语的被关注频率得到的词云的准确性。
发明内容
本申请提供一种词云生成方法、装置、电子设备及存储介质,可以使生成的词云反映用户近期的关注度,提高词云的准确性。
第一方面,本申请提供一种词云生成方法,包括:获取观测期内目标用户的搜索记录,该搜索记录包括搜索关键词、以及搜索关键词对应的搜索时间;对于每条搜索记录,计算观测期的观测截止时间与搜索记录中搜索关键词对应的搜索时间的时间差,根据相同搜索关键词对应的时间差得到搜索关键词的权重;其中,搜索关键词的权重与时间差成反比关系;根据目标用户的搜索关键词的权重,获取目标用户对应的词云。
也就是说,通过获取观测期内目标用户的搜索记录,然后根据用户搜索关键词的搜索时间距离观测期截止时间的时间差确定该用户搜索该搜索关键词的权重,进而,根据关键词的权重生成词云。如此,可以通过对最近搜索时间的搜索关键词赋予较大的权重,使最终生成的词云可以反映用户的近期的关注度。
一种可能的设计,搜索关键词a的权重Wa满足如下关系:
Figure BDA0003261736030000021
其中,T1为搜索关键词a对应的第c条搜索记录包括的搜索时间,c的取值为[1,m],m为第u个目标用户的搜索关键词a对应的搜索记录的条数,m的取值为正整数,T2为观测期截止时间,T为观测期的时长;N为目标用户的总数量,p的取值为0或1,p=1表示搜索关键词a被第u个目标用户使用,u的取值为[1,N],p=0表示搜索关键词a未被第u个目标用户使用。这样,可以通过计算准确得到搜索关键词的权重值,从而可以保证生成的词云的准确性。
一种可能的设计,获取观测期内目标用户的搜索记录包括:获取目标用户的初始搜索记录,其中,初始搜索记录包括搜索关键词、搜索关键词对应的搜索时间;对目标用户的初始搜索记录进行筛选,如果同一搜索关键词对应的初始搜索记录大于m条,则获取同一搜索关键词的搜索时间在后的m条搜索记录。这样,可以避免单一用户对关键词的权重影响较大,从而导致生成反映目标用户的词云出现一定偏差。
一种可能的设计,目标用户的初始搜索记录中,同一用户的同一搜索关键词对应的相邻搜索时间的时间差大于预设值。这样可以避免用户的反复查询或网络波动等原因造成对该搜索关键词进行多次无效的搜索,从而造成该搜索关键词的权重较大,影响词云的准确性。
一种可能的设计中,获取观测期内目标用户的搜索记录中的搜索关键词,包括:获取观测期内目标用户的统一资源定位符(uniform resource locator,URL);根据观测期内目标用户的URL,获取观测期内目标用户的搜索关键语句;对观测期内目标用户搜索关键语句进行提取,获取观测期内目标用户的搜索关键词。
一种可能的设计中,目标用户包括观测期内位于目标区域且归属地为目标区域的用户,和/或位于目标区域且拜访地为目标区域的用户;其中,目标区域包括多个小区,多个小区包括在预观测小区中。如此,可以有选择的对目标用户进行选择,增加生成词云的多样性。
第二方面,本申请提供的词云生成装置,该装置包括:第一获取单元、计算单元和第二获取单元。其中:
第一获取单元,用于获取观测期内目标用户的搜索记录,搜索记录包括搜索关键词以及搜索关键词对应的搜索时间。
计算单元,用于对计算观测期的观测截止时间与搜索记录中搜索关键词对应的搜索时间的时间差,根据相同搜索关键词对应的时间差得到搜索关键词的权重;其中,搜索关键词的权重与所述时间差成反比关系。
第二获取单元,用于根据目标用户的搜索关键词的权重,获取目标用户对应的词云。
也就是说,通过获取观测期内目标用户的搜索记录,然后根据用户搜索关键词的搜索时间距离观测期截止时间的时间差确定该用户搜索该搜索关键词的权重,进而,根据关键词的权重生成词云。如此,可以通过对最近搜索时间的搜索关键词赋予较大的权重,使最终生成的词云可以反映用户的最近的关注度。
需要说明的是,第二方面提供的词云生成装置,用于实现上述第一方面或其任一种可能的设计描述的词云生成方法,其具体实现可以参照上述第一方面或其任一种可能的设计描述的词云生成方法的具体实现。
第三方面,本申请提供一种电子设备,该电子设备包括:一个或多个处理器,以及存储器;存储器与一个或多个处理器耦合;存储器用于存储计算机程序代码,计算机程序代码包括指令,当一个或多个处理器执行指令时,电子设备执行第一方面或其任一种可能的设计所提供的任意一种方法。
第四方面,本申请提供一种计算机可读存储介质,该计算机可读存储介质包括计算机指令,当计算机指令在计算机上运行时,使得计算机执行第一方面或其任一种可能的设计所提供的任意一种方法。
附图说明
图1为本申请实施例提供的一种词云生成方法的流程示意图;
图2为本申请实施例提供的一种获取观测期内目标用户的搜索关键词的流程示意图;
图3为本申请实施例提供的一种词云生成装置的结构示意图;
图4为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。其中,在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,在本申请实施例的描述中,“多个”是指两个或多于两个。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。另外,为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
另外,本申请实施例描述的网络架构以及业务场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着网络架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本发明的词云生成方法及装置可设置在各种对文本内容进行处理的电子设备中,该电子设备包括但不限于可穿戴设备、头戴设备、医疗健康平台、个人计算机、服务器计算机、手持式或膝上型设备、移动设备(比如移动电话、个人数字助理(PDA)、媒体播放器等等)、多处理器系统、消费型电子设备、小型计算机、大型计算机、包括上述任意系统或设备的分布式计算环境,等等。
下面会结合相应的附图对本申请实施例进行描述。
如图1所示,本申请实施例提供一种词云生成方法可以包括如下步骤:
S101、词云生成装置获取观测期内目标用户的搜索记录。
其中,观测期可以是预设时间段,观测期的时长、截止时间等可以根据需要设置,不予限制。示例性的,某地举办从7月1号到7月3号为期3天的运动会,该观测期可以是运动会开始前一天6月30号到运动会开始后从7月1号到7月3号的三天,共计四天的观测期,该观测期的起始时间为6月30号、截止时间为7月3号。
可选的,目标用户可以为观测期内位于目标区域的用户,目标区域包括多个小区,多个小区包括在预观测小区中。目标用户可以包括观测期内位于目标区域且归属地为目标区域的用户,和/或位于目标区域且拜访地为目标区域的用户。即该目标用户可以为目标区域的本地人群,和/或目标区域的外地人群。示例性的,目标区域可以是A市,该目标用户可以是观测期内位于A市的用户。
一种可能的实现方式,可以通过用户的业务发生所在地小区标识(cell-id)与用户的手机号码归属地确定哪些用户为目标用户。比如可以首先通过用户的业务发生所在地cell-id筛选出目标区域内的用户,然后,根据用户的手机号码归属地,对目标区域内的用户筛选,筛选出归属地为目标区域的用户和/或拜访地为目标区域的用户。
其中,cell-id是通过识别网络中哪一个小区传输用户呼叫,并将该传输呼叫的小区位置信息翻译成纬度和经度来确定用户位置。如果用户A的业务发生所在地cell-id指示的区域位置为目标区域,则将该用户A作为目标用户。
例如,在一次获取A市的外地人口的搜索记录,首先获取业务发生cell-id在A市区域内的所有用户信息,该用户信息包括:用户的手机号码、用户的搜索记录,然后,根据用户的手机号码确定用户的归属地,进而获取到在A市区域内的外地用户的搜索记录(即若用户的归属地不是A市,则将该用户作为在A市区域内的外地用户)。
其中,搜索记录包括搜索关键词、以及该搜索关键词对应的搜索时间。一个目标用户可以对应一条或者多条搜索记录。
其中,搜索关键词可以指用户在使用搜索引擎时,输入的能够最大程度概括用户所要查找的信息内容。例如,该搜索关键词可以是“电脑”“做菜”“楼市”等搜索关键词。
本申请中,可以通过下述方式获取搜索关键词:首先,获取观测期内目标用户的URL;然后,根据观测期内目标用户的URL,获取观测期内目标用户的搜索关键语句;最后,对观测期内目标用户搜索关键语句进行提取,获取观测期内目标用户的搜索关键词。
需要说明的是,获取观测期内目标用户的搜索关键词语的具体实现方式,可以详见图2中S201-S203中所述,此处不再赘述。
示例性,目标用户的搜索记录可以如下表1所示。
表1
Figure BDA0003261736030000051
Figure BDA0003261736030000061
需要说明的是,表1只是通过举例的方式。对搜索记录中包括的搜索关键词、以及该搜索关键词对应的搜索时间进行实例说明,并不对该对应关系的形式以及内容构成具体限定。
另外,需要说明的是,本申请对搜索记录中包括的搜索关键词以及该搜索关键词对应的搜索时间的排序方式,本申请对此不作限定。
可选的,实际应用中,因为用户客观原因(例如,网络卡顿或终端设备卡顿)可能会造成用户在短时间内提交了多条相同的搜索请求,从而导致该搜索请求中的搜索关键词权重过高,造成生成的词云无法准确反映关键词的被关注频率。为了避免该问题的出现,对目标用户的初始搜索记录进行筛选,将同一用户的相同搜索关键词按时间先后顺序进行排序,去除时间间隔小于预设值且搜索时间靠后的搜索记录,即去除无效搜索,使得同一用户的同一搜索关键词对应的相邻搜索时间的时间差大于预设值,即保证S101中搜索记录中同一用户的同一搜索关键词对应的相邻搜索时间的时间差大于预设值。
其中,预设值可以根据需要设置,不予限制。比如可以设置为1分钟等。
如此,可以通过去除用户的相同搜索关键词时间间隔小于预设值(例如预设值为1分钟)且靠后的搜索记录,可以避免用户因为客观原因(例如,网络卡顿或终端设备卡顿)造成用户在短时间内提交了多条相同的搜索请求,避免该搜索请求中的搜索关键词权重过高,提高生成的词云的准确性。
示例性的,用户C的初始搜索记录如下表2所示。假设时间间隔对应的预设值设置为1分钟,表2中,可以看出用户C对同一搜索关键词“做菜”的搜索时间为2020/9/2/13:12:36、2020/9/2/13:12:45、2020/9/2/13:12:54,用户C的这三个相同搜索关键词的搜索间隔时间小于预设值(1分钟),因此,需要对用户C的搜索记录中包括的搜索关键词“做菜”,进行去除。同理,用户C的搜索关键词“电脑”的搜索关键词的搜索间隔时间小于预设值(1分钟),需要对用户C的搜索记录中包括的搜索关键词“电脑”,进行去除。
表2
目标用户 搜索关键词 搜索时间(年/月/日/时/分/秒)
用户C 做菜 2020/9/2/13:12:36
用户C 做菜 2020/9/2/13:12:45
用户C 做菜 2020/9/2/13:12:54
用户C 电脑 2020/9/2/13:13:02
用户C 电脑 2020/9/2/13:13:22
示例性的,去除用户C的相同搜索关键词时间间隔小于预设值(1分钟)且靠后的搜索记录后可以如下表3所示。
表3
目标用户 搜索关键词 搜索时间(年/月/日/时/分/秒)
用户C 做菜 2020/9/2/13:12:36
用户C 电脑 2020/9/2/13:13:02
需要说明的是,表2、表3只是通过举例的方式,对同一用户的相同搜索关键词,去除时间间隔小于预设值且靠后的搜索记录进行示例说明,并不对该内容构成具体限定。
S102、对于每条搜索记录,词云生成装置计算观测期的观测截止时间与搜索记录中搜索关键词对应的搜索时间的时间差,根据相同搜索关键词对应的时间差得到搜索关键词的权重。
需要说明的是,一个搜索关键词的权重反映的是用户近期对该搜索关键词的关注程度,即搜索关键词不仅反映观测期内用户对该搜索关键词的关注程度,而且还强调的是用户在观测期内近期对该搜索关键词的关注程度。搜索关键词的权重越大,表示用户近期对该搜索关键词的关注度越高,搜索关键词的权重越小,表示用户近期对该搜索关键词的关注度越低。
在本申请实施例中,一个搜索关键词的权重大小受以下两方面影响:
第一方面、用户对该搜索关键词的搜索次数。
其中,搜索关键词的权重与用户对该搜索关键词的搜索次数成正比关系。在不考虑搜索关键词的搜索时间情况下,在观测期内,用户对该搜索关键词的搜索次数越多,该搜索关键词的权重越大,反之,该搜索关键词的权重越小。
需要说明的是,由于在对搜索关键词的权重进行计算时,防止单一用户对关键词的权重影响过大,仅考虑一个用户对该搜索关键词在观测期的m条搜索记录,m为预设正整数。
示例性的,若需要计算搜索关键词“做菜”的权重,m值设定为3,用户A在观测期对“做菜”有4次搜索记录,用户B在观测期对“做菜”有2次搜索记录,用户C在观测期对“做菜”有5次搜索记录。则“用户对该搜索关键词的搜索次数”为3+2+3=8次,即用户搜索次数大于3次的,只计算搜索时间靠后的三次搜索记录,用户搜索次数小于等于3次的,计算所有的搜索次数。
第二方面、观测期的观测截止时间与用户搜索记录中搜索关键词对应的搜索时间的时间差。其中,搜索关键词的权重与时间差成反比关系。
在用户对该搜索关键词的搜索次数相同的情况下,若用户对该搜索关键词的搜索时间越靠近观测期截止时间,则该搜索关键词的权重越大,反之,该搜索关键词的权重越小。
示例性的,观测期截止时间为今晚18:00,用户A对关键词“做菜”的搜索时间为今晚17:00,用户B对该搜索关键词“做菜”的搜索时间为今晚16:00,此时,用户A对关键词“做菜”的权重小于用户B对关键词“做菜”的权重。
具体的,搜索关键词a的权重Wa满足如下关系:
Figure BDA0003261736030000081
其中,T1为搜索关键词a对应的第c条搜索记录包括的搜索时间,c的取值为[1,m],m为第u个目标用户的搜索关键词a对应的搜索记录的条数,m的取值为正整数,T2为观测期截止时间,T为观测期的时长;N为目标用户的总数量,p的取值为0或1,p=1表示搜索关键词a被第u个目标用户使用,u的取值为[1,N],p=0表示搜索关键词a未被第u个目标用户使用。
举例来说,假如用户对关键词“做菜”的搜索记录如上述表1所示。
假如观测期截止时间为2020/11/14/00:00:00,该观测期为5天(即120小时),则关键词“做菜”的权重为
Figure BDA0003261736030000091
Figure BDA0003261736030000092
S103、词云生成装置根据目标用户的搜索关键词的权重,获取目标用户对应的词云。
其中,“词云”就是通过形成“关键词云层”或“关键词渲染”,对网络文本中出现频率较高的“关键词”的视觉上的突出(例如,字体的颜色或者字体的大小等突出方式)。
在本实施例中,是通过对权重不同的搜索关键词,进行不同的视觉突出,若搜索关键词的权重较大,则在词云图上对该搜索关键词进行较高的视觉突出(例如,赋予该搜索关键词较为突出的字体颜色,或赋予该搜索关键词较大的字体等);若搜索关键词的权重较小,则在词云图上对该搜索关键词进行较低的视觉突出(例如,赋予该搜索关键词的字体较小,或赋予该搜索关键词普通的字体颜色)。
一种可能的实现方式,可以通过计算机编程语言(python)根据目标用户的搜索关键词的权重,获取目标用户对应的词云。
具体的,可以通过python的数据可视化(wordcloud)模块将目标用户的搜索关键词的权重,生成目标用户对应的词云。本申请对此不再进行赘述。
本申请提供的方案,通过获取观测期内目标用户的搜索记录,然后根据用户搜索关键词的搜索时间距离观测期截止时间的时间差确定该用户搜索该搜索关键词的权重,进而,根据关键词的权重生成词云。如此,可以通过对最近搜索时间的搜索关键词赋予较大的权重,使最终生成的词云可以反映用户的近期的关注度。
如图2所示,本申请实施例提供一种获取观测期内目标用户的搜索关键词的方法,该方法包括以下步骤:
S201、获取观测期内目标用户的URL。
其中,URL是因特网的万维网服务程序上用于指定信息位置的表示方法。
示例性的,该URL的形式可以为:%baidu.com%wd=%&%。
具体的,获取观测期内目标用户的URL可以通过如下步骤1-步骤4实现。
步骤1、从核心网设备端口采集获取用户的访问数据,该访问数据包括:用户手机号码、业务发生时间、URL、业务发生所在第cell-id。
步骤2、根据访问数据中的业务发生时间,筛选出第一访问数据。第一访问数据为,访问数据中业务发生时间在观测期内的访问数据。
步骤3、对第一访问数据中的用户进行筛选,获取观测期内目标用户的访问数据。
可选的,目标用户可以为观测期内位于目标区域的用户。
一种可能的实现方式,目标用户可以通过用户的业务发生所在地cell-id与用户的手机号码归属地确定。
可选的,目标用户可以为观测期内位于目标区域且归属地为目标区域的用户,和/或观测期位于目标区域且拜访地为目标区域的用户。
一种可能的实现方式,可以通过用户的业务发生所在地cell-id与用户的手机号码归属地确定目标用户。
需要说明的是,具体的目标用户的确定方式,可参考步骤S101中描述,本申请在此不再赘述。
步骤4、根据观测期内目标用户的访问数据,获取观测期内目标用户的URL。
S202、根据观测期内目标用户的URL,获取观测期内目标用户的搜索关键语句。
其中,搜索关键语句是指用户在搜索时输入的搜索语句。示例性的,该搜索关键语句可以是“如何做菜”“A市有几个区”“B省有几个地级市”等。
可选的,S202的具体可以通过以下步骤5-步骤6实现。
步骤5、获取观测期内目标用户在主流搜索引擎的URL。其中,主流搜索引擎可以为:百度、搜狗和360。
一种可能是实现方式,根据URL中包含的主流搜索引擎的网址符号,获取观测期内目标用户在主流搜索引擎的URL。
示例性的,用户在通过百度搜索引擎搜索时,得到的URL可以是%baidu.com%wd=%&%。用户在通过搜狗搜索引擎搜索时,得到的URL可以是%sougou.com%query=%&%。用户在通过360搜索引擎搜索时,得到的URL可以是%so.com%q=%&%。
步骤6、根据观测期内目标用户在主流搜索引擎的URL,提取目标用户的搜索关键语句。
一种可能的实现方式,通过正则表达式的方法提取观测期内目标用户在主流搜索引擎的URL中的第三个%号的内容,获取用户的搜索关键语句。
其中,正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
可选的,若搜索关键语句被前端进行加密,可以通过解码工具对搜索关键词进行解码。
示例性的,可以通过python的URL解码(urllib.parse.unquote)进行解码获取搜索关键词。
具体的,对搜索关键词的解码过程,可参考现有技术,本申请对此不在赘述。
S203、对观测期内目标用户搜索关键语句进行提取,获取观测期内目标用户的搜索关键词。
其中,获取观测期内目标用户的搜索关键词,可以通过对观测期内目标用户的搜索关键语句进行分词,去停用词得到搜索关键词。
示例性的,若搜索关键语句为“如何做菜”,通过分词,去停用词后得到的搜索关键词可以为“做菜”。若搜索关键语句为“C市马拉松报名时间是什么时候”通过分词,去停用词后得到的搜索关键词可以为“C市”“马拉松”“报名时间”。
需要说明的是,在对搜索关键语句进行分词时,具体的分词字符数可以根据需要进行预设。其中,该分词字符数表示根据语句分出的关键词的最大字符数。
示例性的,当搜索关键语句为“C市马拉松报名时间是什么时候”,若预设分词字符数为5个字符时,得到的搜索关键词可以为“C市马拉松”“报名时间”。若预设的分词字符数为4个字符时,得到的搜索关键词可以为“C市”“马拉松”“报名时间”。
上述主要从词云生成装置的角度对本申请提供的方案进行了介绍。可以理解的是,装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的算法步骤,本发明能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
本申请可以根据上述方法示例对装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
图3示出本申请实施例提供的一种词云生成装置的组成示意图。如图3所示,该词云生成装置30包括:第一获取单元301、计算单元302和第二获取单元303。
其中,第一获取单元301,用于获取观测期内目标用户的搜索记录,该搜索记录包括搜索关键词以及搜索关键词对应的搜索时间。例如,第一获取单元301可以用于执行图1中示意的S101。
计算单元302,用于对计算观测期的观测截止时间与搜索记录中搜索关键词对应的搜索时间的时间差,根据相同搜索关键词对应的时间差得到搜索关键词的权重;其中,搜索关键词的权重与时间差成反比关系。例如,计算单元302可以用于执行图1中示意的S102。
第二获取单元303,用于根据目标用户的搜索关键词的权重,获取目标用户对应的词云。例如,第二获取单元303可以用于执行图1中示意的S103。
可选的,搜索关键词a的权重Wa满足如下关系:
Figure BDA0003261736030000121
其中,T1为搜索关键词a对应的第c条搜索记录包括的搜索时间,c的取值为[1,m],m为第u个目标用户的搜索关键词a对应的搜索记录的条数,m的取值为正整数,T2为观测期截止时间,T为观测期的时长;N为目标用户的总数量,P的取值为0或1,p=1表示搜索关键词a被第u个目标用户使用,u的取值为[1,N],p=0表示搜索关键词a未被第u个目标用户使用。
可选的,第一获取单元301具体用于:获取目标用户的初始搜索记录,其中,初始搜索记录包括搜索关键词、搜索关键词对应的搜索时间;对目标用户的初始搜索记录进行筛选,如果同一搜索关键词对应的初始搜索记录大于m条,则获取同一搜索关键词的搜索时间在后的m条搜索记录。
可选的,目标用户的初始搜索记录中,同一用户的同一搜索关键词对应的相邻搜索时间的时间差大于预设值。
可选的,第一获取单元301还具体用于:获取目标用户的统一资源定位符URL;根据目标用户的URL,获取目标用户的搜索关键语句;对搜索关键语句进行提取,获取目标用户的搜索关键词。例如,第一获取单元301可以用于执行图2中示意的S201-S203。
其中,图3中的单元也可以称为模块,例如,计算单元可以称为计算模块。另外,在图3所示的实施例中,各个单元的名称也可以不是图中所示的名称,例如,计算单元也可以称为处理单元。
本申请实施例还提供一种电子设备示意图,如图4所示,电子设备40包括处理器401,可选的,该装置40还包括与处理器401连接的存储器402和收发器403。处理器401、存储器402和收发器403通过总线404连接。
处理器401可以是中央处理器(central processing unit,CPU),通用处理器网络处理器(network processor,NP)、数字信号处理器(digital signal processing,DSP)、微处理器、微控制器、可编程逻辑器件(programmable logic device,PLD)或它们的任意组合。处理器还可以是其它任意具有处理功能的装置,例如电路、器件或软件模块。处理器401也可以包括多个CPU,并且处理器401可以是一个单核(single-CPU)处理器,也可以是多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路或用于处理数据(例如计算机程序指令)的处理核。
存储器402可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory,EEPROM)、只读光盘(compact disc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,本申请实施例对此不作任何限制。存储器402可以是独立存在,也可以和处理器401集成在一起。其中,存储器402中可以包含计算机程序代码。处理器401用于执行存储器402中存储的计算机程序代码,从而实现本申请实施例提供的方法。
收发器403可以用于与其他设备或通信网络通信如以太网,RAN,无线局域网(wireless local area networks,WLAN)等)。
总线404可以是外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构(extended industry standard architecture,EISA)总线等。所述总线404可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
图3中的各个单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。存储计算机软件产品的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时,可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机执行指令。在计算机上加载和执行计算机执行指令时,全部或部分地产生按照本申请实施例所述的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机执行指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机执行指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带),光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本申请实施例还提供了一种计算机可读存储介质,包括计算机执行指令,当其在计算机上运行时,使得计算机执行上述任一方法。
本申请实施例还提供了一种包含计算机执行指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一方法。
本申请实施例还提供了一种芯片,包括:处理器和接口,处理器通过接口与存储器耦合,当处理器执行存储器中的计算机程序或计算机执行指令时,使得上述实施例提供的任意一种方法被执行。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时,可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机执行指令。在计算机上加载和执行计算机执行指令时,全部或部分地产生按照本申请实施例所述的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机执行指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机执行指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带),光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
尽管在此结合各实施例对本申请进行了描述,然而,在实施所要求保护的本申请过程中,本领域技术人员通过查看附图、公开内容、以及所附权利要求书,可理解并实现公开实施例的其他变化。在权利要求中,“包括”(comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
尽管结合具体特征及其实施例对本申请进行了描述,显而易见的,在不脱离本申请的精神和范围的情况下,可对其进行各种修改和组合。相应地,本说明书和附图仅仅是所附权利要求所界定的本申请的示例性说明,且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (14)

1.一种词云生成方法,其特征在于,所述方法包括:
获取观测期内目标用户的搜索记录,所述搜索记录包括搜索关键词、以及所述搜索关键词对应的搜索时间;
对于每条搜索记录,计算所述观测期的观测截止时间与所述搜索记录中搜索关键词对应的搜索时间的时间差,根据相同搜索关键词对应的时间差得到所述搜索关键词的权重;其中,所述搜索关键词的权重与所述时间差成反比关系;
根据所述目标用户的搜索关键词的权重,获取所述目标用户对应的词云。
2.根据权利要求1所述的方法,其特征在于,所述搜索关键词a的权重Wa满足如下关系:
Figure FDA0003261736020000011
其中,所述T1为所述搜索关键词a对应的第c条搜索记录包括的搜索时间,所述c的取值为[1,m],所述m为第u个目标用户的搜索关键词a对应的搜索记录的条数,所述m的取值为正整数,所述T2为所述观测期截止时间,所述T为观测期的时长;所述N为所述目标用户的总数量,所述p的取值为0或1,所述p=1表示所述搜索关键词a被第u个目标用户使用,所述u的取值为[1,N],所述p=0表示所述搜索关键词a未被第u个目标用户使用。
3.根据权利要求2所述的方法,其特征在于,所述获取观测期内目标用户的搜索记录包括:
获取所述目标用户的初始搜索记录,其中,所述初始搜索记录包括搜索关键词、所述搜索关键词对应的搜索时间;
对所述目标用户的初始搜索记录进行筛选,如果同一搜索关键词对应的初始搜索记录大于m条,则获取所述同一搜索关键词的搜索时间在后的m条搜索记录。
4.根据权利要求3所述的方法,其特征在于,
所述目标用户的初始搜索记录中,同一用户的同一搜索关键词对应的相邻搜索时间的时间差大于预设值。
5.根据权利要求1所述的方法,其特征在于,所述获取观测期内目标用户的搜索记录中的搜索关键词,包括:
获取观测期内所述目标用户的统一资源定位符URL;
根据观测期内所述目标用户的所述URL,获取观测期内所述目标用户的搜索关键语句;
对所述观测期内所述目标用户搜索关键语句进行提取,获取观测期内所述目标用户的搜索关键词。
6.根据权利要求1所述的方法,其特征在于,
所述目标用户包括所述观测期内位于目标区域且归属地为所述目标区域的用户,和/或位于目标区域且拜访地为所述目标区域的用户;其中,所述目标区域包括多个小区,所述多个小区包括在预观测小区中。
7.一种词云生成装置,其特征在于,所述装置包括:
第一获取单元,用于获取观测期内目标用户的搜索记录,所述搜索记录包括搜索关键词以及所述搜索关键词对应的搜索时间;
计算单元,用于对计算所述观测期的观测截止时间与所述搜索记录中搜索关键词对应的搜索时间的时间差,根据相同搜索关键词对应的时间差得到所述搜索关键词的权重;其中,所述搜索关键词的权重与所述时间差成反比关系;
第二获取单元,用于根据所述目标用户的搜索关键词的权重,获取所述目标用户对应的词云。
8.根据权利要求7所述的装置,其特征在于,所述搜索关键词a的权重Wa满足如下关系:
Figure FDA0003261736020000021
其中,所述T1为所述搜索关键词a对应的第c条搜索记录包括的搜索时间,所述c的取值为[1,m],所述m为第u个目标用户的搜索关键词a对应的搜索记录的条数,所述m的取值为正整数,所述T2为所述观测期截止时间,所述T为观测期的时长;所述N为所述目标用户的总数量,所述p的取值为0或1,所述p=1表示所述搜索关键词a被第u个目标用户使用,所述u的取值为[1,N],所述p=0表示所述搜索关键词a未被第u个目标用户使用。
9.根据权利要求8所述的装置,其特征在于,所述第一获取单元具体用于:
获取所述目标用户的初始搜索记录,其中,所述初始搜索记录包括搜索关键词、所述搜索关键词对应的搜索时间;
对所述目标用户的初始搜索记录进行筛选,如果同一搜索关键词对应的初始搜索记录大于m条,则获取所述同一搜索关键词的搜索时间在后的m条搜索记录。
10.根据权利要求9所述的装置,其特征在于,
所述目标用户的初始搜索记录中,同一用户的同一搜索关键词对应的相邻搜索时间的时间差大于预设值。
11.根据权利要求7所述的装置,其特征在于,所述第一获取装置还具体用于:
获取所述目标用户的统一资源定位符URL;
根据所述目标用户的所述URL,获取所述目标用户的搜索关键语句;
对所述搜索关键语句进行提取,获取所述目标用户的搜索关键词。
12.根据权利要求7所述的装置,其特征在于,
所述目标用户包括所述观测期内位于目标区域且归属地为所述目标区域的用户,和/或位于目标区域且拜访地为所述目标区域的用户;其中,所述目标区域包括多个小区,所述多个小区包括在预观测小区中。
13.一种电子设备,其特征在于,所述电子设备包括:一个或多个处理器,以及存储器;
所述存储器与所述一个或多个处理器耦合;所述存储器用于存储计算机程序代码,所述计算机程序代码包括指令,当所述一个或多个处理器执行所述指令时,所述电子设备执行如权利要求1-6中任意一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括计算机指令,当所述计算机指令在计算机上运行时,使得所述计算机执行权利要求1-6中任意一项所述的方法。
CN202111074473.2A 2021-09-14 2021-09-14 一种词云生成方法、装置、电子设备及存储介质 Pending CN113868373A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111074473.2A CN113868373A (zh) 2021-09-14 2021-09-14 一种词云生成方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111074473.2A CN113868373A (zh) 2021-09-14 2021-09-14 一种词云生成方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113868373A true CN113868373A (zh) 2021-12-31

Family

ID=78995848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111074473.2A Pending CN113868373A (zh) 2021-09-14 2021-09-14 一种词云生成方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113868373A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116089368A (zh) * 2022-08-01 2023-05-09 荣耀终端有限公司 文件搜索方法和相关装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116089368A (zh) * 2022-08-01 2023-05-09 荣耀终端有限公司 文件搜索方法和相关装置
CN116089368B (zh) * 2022-08-01 2023-12-19 荣耀终端有限公司 文件搜索方法和相关装置

Similar Documents

Publication Publication Date Title
CN108304444B (zh) 信息查询方法及装置
US11580168B2 (en) Method and system for providing context based query suggestions
US20230177360A1 (en) Surfacing unique facts for entities
US10346496B2 (en) Information category obtaining method and apparatus
CN104081392A (zh) 社会媒体配置文件的影响评分
CN110334356A (zh) 文章质量的确定方法、文章筛选方法、以及相应的装置
CN108062418B (zh) 一种数据搜索方法、装置及服务器
CN108717407A (zh) 实体向量确定方法及装置,信息检索方法及装置
CN111435406A (zh) 一种纠正数据库语句拼写错误的方法和装置
CN113806660B (zh) 数据评估方法、训练方法、装置、电子设备以及存储介质
JP2022137281A (ja) データ照会方法、装置、電子デバイス、記憶媒体、及びプログラム
CN113204953A (zh) 基于语义识别的文本匹配方法、设备及设备可读存储介质
CN107239542A (zh) 一种数据统计方法、装置、服务器及存储介质
CN113868373A (zh) 一种词云生成方法、装置、电子设备及存储介质
CN115687810A (zh) 网页搜索方法、装置及相关设备
CN112184370A (zh) 一种推送产品的方法和装置
CN109063015B (zh) 热点内容的提取方法、装置及设备
US8560468B1 (en) Learning expected values for facts
CN111723201A (zh) 一种用于文本数据聚类的方法和装置
CN112818221B (zh) 实体的热度确定方法、装置、电子设备及存储介质
US20220391445A1 (en) Online content evaluation system and methods
CN103902687A (zh) 一种搜索结果的生成方法及装置
CN111539208B (zh) 语句处理方法和装置、以及电子设备和可读存储介质
CN111639099A (zh) 全文索引方法及系统
CN112016017A (zh) 确定特征数据的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination