CN113961677A - 话题文本处理方法、装置、电子设备及可读存储介质 - Google Patents

话题文本处理方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN113961677A
CN113961677A CN202111080660.1A CN202111080660A CN113961677A CN 113961677 A CN113961677 A CN 113961677A CN 202111080660 A CN202111080660 A CN 202111080660A CN 113961677 A CN113961677 A CN 113961677A
Authority
CN
China
Prior art keywords
topic
text
texts
word
network platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111080660.1A
Other languages
English (en)
Inventor
修文超
张钦
吴忠伙
杨一帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN202111080660.1A priority Critical patent/CN113961677A/zh
Publication of CN113961677A publication Critical patent/CN113961677A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种话题文本处理方法、装置、电子设备及可读存储介质,该方法中,基于网络平台的用户搜索记录,确定网络平台内的热点词,以及,获取网络平台对应的候选话题文本。基于热点词对候选话题文本进行匹配,以从候选话题文本中选择与热点词相关联的候选话题文本,作为目标话题文本。基于目标话题文本,在网络平台中进行话题投放。相较于直接投放的方式,本发明实施例中先基于用户搜索记录,确定网络平台内的热点词。最终投放时,基于该热点词语选择与当前热点相关联的目标话题文本进行投放,确保最终投放的目标话题文本更符合网络平台中用户的需求,进而一定程度上可以提高话题投放的效果。

Description

话题文本处理方法、装置、电子设备及可读存储介质
技术领域
本发明属于网络技术领域,特别是涉及一种话题文本处理方法、装置、电子设备及可读存储介质。
背景技术
随着网络技术的不断发展,网络平台中的信息越来越多。面对大量的信息,用户在使用网络平台所提供服务的过程中,往往需要花费大量时间去选择。因此,如何提高用户选择的便捷度效率成为亟需解决的问题。
相关技术中,往往是由网络平台中的运营人员手动为网络平台设置话题文本,然后直接将话题文本投放至网络平台中,以实现热点话题推荐,从而使得用户可以根据网络平台中投放的热点话题,便捷的获知网络平台中的热点网络对象、热点活动等等,方便用户进行选择。但是,这种方式中,有时会出现话题投放效果较差的问题。
发明内容
本发明提供一种话题文本处理方法、装置、电子设备及可读存储介质,以解决话题投放效果较差的问题。
第一方面,本发明提供一种话题文本处理方法,所述方法包括:
基于网络平台的用户搜索记录,确定所述网络平台内的热点词,以及,获取所述网络平台对应的候选话题文本;
基于所述热点词对所述候选话题文本进行匹配,以从所述候选话题文本中选择与所述热点词相关联的候选话题文本,作为目标话题文本;
基于所述目标话题文本,在所述网络平台中进行话题投放。
第二方面,本发明提供一种话题文本处理装置,所述装置包括:
确定模块,用于基于网络平台的用户搜索记录,确定所述网络平台内的热点词,以及,获取所述网络平台对应的候选话题文本;
选择模块,用于基于所述热点词对所述候选话题文本进行匹配,以从所述候选话题文本中选择与所述热点词相关联的候选话题文本,作为目标话题文本;
投放模块,用于基于所述目标话题文本,在所述网络平台中进行话题投放。
第三方面,本发明提供一种电子设备,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述方法。
第四方面,本发明提供一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述方法。
在本发明实施例中,基于网络平台的用户搜索记录,确定网络平台内的热点词,以及,获取网络平台对应的候选话题文本。基于热点词对候选话题文本进行匹配,以从候选话题文本中选择与热点词相关联的候选话题文本,作为目标话题文本。基于目标话题文本,在网络平台中进行话题投放。相较于直接投放的方式,本发明实施例中先基于用户搜索记录,确定网络平台内的热点词。最终投放时,基于该热点词语选择与当前热点相关联的目标话题文本进行投放,确保最终投放的目标话题文本更符合网络平台中用户的需求,进而一定程度上可以提高话题投放的效果。
同时,一定程度上可以避免受到人为主观影响,导致无法准确感知到网络平台中的热点,从而导致投放的话题文本无法覆盖网络平台内的热点,进而导致投放效果较差的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种话题文本处理方法的步骤流程图;
图2是本发明实施例提供的一种不同时段的被搜索次数的示意;
图3是本发明实施例提供的另一种不同时段的被搜索次数的示意图;
图4是本发明实施例提供的一种系统示意图;
图5是本发明实施例提供的一种话题文本处理装置的结构图;
图6是本发明实施例提供的一种电子设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的一种话题文本处理方法的步骤流程图,如图1所示,该方法可以包括:
步骤101、基于网络平台的用户搜索记录,确定所述网络平台内的热点词,以及,获取所述网络平台对应的候选话题文本。
本发明实施例中,网络平台可以是根据实际需求选定的,网络平台可以以网页、应用程序、小程序的形式实现。示例的,该网络平台可以为视频平台、音频平台、垂直搜索领域内部的生活服务类平台,等等。其中,生活服务类平台可以是外卖平台、点评平台、团购平台,等等。网络平台的用户搜索记录可以是在用户使用网络平台提供的搜索功能,对网络平台中提供的网络对象进行搜索时记录的。其中,用户每搜索一次,可以对应生成一条用户搜索记录,以记录本次搜索的相关信息。
进一步地,用户搜索记录可以表征用户搜索行为。由于用户在网络平台中进行搜索时,往往是搜索符合当前个人兴趣的内容,具体的,往往是基于当前感兴趣的内容输入搜索词语,以进行搜索。因此,用户搜索记录一定程度上可以反映网络平台中用户感兴趣的内容,本步骤中可以基于网络平台内的用户搜索记录,确定出当前网络平台内的热点词。其中,该热点词可以是被搜索频次较高的词语,搜索频次越高可以说明该热点词反映的内容符合更多用户的需求、喜好。
进一步地,获取网络平台对应的候选话题文本可以是直接读取预先生成好的话题文本,以作为候选话题文本。也可以是基于网络平台中的用户生成内容(User GeneratedContent,UGC)文本,生成候选话题文本,从而实现获取,本发明对此不作限制。
步骤102、基于所述热点词对所述候选话题文本进行匹配,以从所述候选话题文本中选择与所述热点词相关联的候选话题文本,作为目标话题文本。
本发明实施例中,热点词可以表征网络平台内当前的热点,如果话题文本与热点词相关联,则可以说明该话题文本符合网络平台的当前热点,更符合网络平台中大部分用户的当前需求。反之,如果话题文本与热点词不存在关联,则可以说明该话题文本不符合网络平台的当前热点,并不符合网络平台中大部分用户的当前需求。因此,本步骤中可以基于热点词对候选话题文本进行匹配,以从中确定出与热点词相关联的候选话题文本,从而得到目标话题文本。
步骤103、基于所述目标话题文本,在所述网络平台中进行话题投放。
本发明实施例中,可以在网络平台的显示界面的预设位置,显示目标话题文本,从而实现话题投放。示例的,预设位置可以为引导入口,例如,搜索框、搜索发现栏、热搜榜,等等。由于目标话题文本与网络平台内的热点词相关联,即,目标话题文本符合网络平台的当前热点,符合网络平台中大部分用户的当前需求。因此,本步骤中基于选择匹配的目标话题文本,向用户推荐目标话题文本,即,在网络平台中进行话题投放,一定程度上可以使得最终投放的话题文本更准确,使得投放的话题文本更能满足在用户需求,从而可以提高投放效果。
本发明实施例提供的话题文本处理方法,基于网络平台的用户搜索记录,确定网络平台内的热点词,以及,获取网络平台对应的候选话题文本。基于热点词对候选话题文本进行匹配,以从候选话题文本中选择与热点词相关联的候选话题文本,作为目标话题文本。基于目标话题文本,在网络平台中进行话题投放。相较于直接投放的方式,本发明实施例中先基于用户搜索记录,确定网络平台内的热点词。最终投放时,基于该热点词语选择与当前热点相关联的目标话题文本进行投放,确保最终投放的目标话题文本更符合网络平台中用户的需求,进而一定程度上可以提高话题投放的效果。
同时,一定程度上可以避免受到人为主观影响,导致无法准确感知到网络平台中的热点,从而导致投放的话题文本无法覆盖网络平台内的热点,进而导致投放效果较差的问题。
可选的,在本发明实施例的一种实现方式中,上述获取所述网络平台对应的候选话题文本的操作,可以具体包括:
步骤S21、从所述网络平台内的用户生成内容UGC文本中,选择包含预设基础词的UGC文本,以作为目标UGC文本;所述预设基础词在所述网络平台的出现次数大于预设次数阈值。
本发明实施例中,网络平台内的UGC文本可以是用户对网络平台所提供的网络对象的评价文本、用于介绍该网络对象的笔记文本,等等。示例的,以网络平台为点评类平台为例,在该应用场景下UGC文本可以包括用户对平台内店铺的评价以及笔记文本。进一步地,预设基础词可以包括网络平台内各网络对象分类下的基础词,基础词在所属网络对象分类下的网络对象的描述信息中的出现次数大于预设次数阈值。其中,网络对象分类、网络对象的描述信息以及预设次数阈值可以是预先设置的,不同网络对象分类可以表征网络平台内的不同场景。示例的,网络对象分类可以包括美食类别、娱乐类别、旅游类别,等等,可以预先统计各个类别下包括的网络对象的介绍信息中出现频次大于预设次数阈值的词语,即,统计高频词,从而得到不同场景下的预设基础词。
进一步地,可以通过匹配的方式,将每条UGC文本与预设基础词进行比对,如果该UGC文本中包含至少一个预设基础词,则可以将该UGC文本确定为目标UGC文本。本发明实施例中,由于目标UGC文本中包含预设基础词,因此,一定程度上可以确保目标UGC文本与网络平台中的网络对象更为贴切,确保目标UGC文本能为后续操作提供较高价值的信息,从而确保后续生成的候选话题文本的文本质量。
步骤S22、根据所述目标UGC文本中包含的词语,生成话题词组。
本步骤中,可以对目标UGC文本进行分词,得到目标UGC文本中包含的词语,从而得到候选集中的话题词。然后,可以将至少两个话题词作为一组并进行组合,得到话题词组。示例的,可以对话题词进行两两组合,以作为候选集中的话题词组。需要说明的是,在对目标UGC文本进行分词之后,可以将得到的所有词语作为话题词,或者,也可以是对得到的词语进行过滤,以剔除其中没有实际意义的词语,并将剩余的词语作为话题词,本发明对此不作限制。
步骤S23、根据所述话题词组以及预设话题模板,生成所述候选话题文本。
本发明实施例中,预设话题模板可以是预先构建的。具体的,可以将话题词组与预设话题模板进行匹配组合,从而生成候选话题文本。
本发明实施例中,从网络平台内的用户生成内容UGC文本中,选择包含预设基础词的UGC文本,以作为目标UGC文本。预设基础词在网络平台的出现次数大于预设次数阈值。根据目标UGC文本中包含的词语,生成话题词组。根据话题词组以及预设话题模板,生成候选话题文本。这样,无需人工设置话题文本,通过从UGC文本中自动抽取话题词组,基于话题词组自动化构建候选话题文本,可以实现平台内的自动化话题挖掘,一定程度上可以降低人工成本。
可选的,上述根据所述话题词组以及预设话题模板,生成所述候选话题文本的步骤,具体可以包括:
步骤S31、基于所述话题词组的词语属性,将与所述预设话题模板中定义的预设词语属性相匹配的话题词组,写入所述预设话题模板,得到备选话题文本。
本步骤中,词语属性可以是预先定义的,示例的,话题词组的词语属性可以为该话题词组中词语的词性以及所表征对象的含义。示例的,以话题词组为“郁金香大赏”为例,词语属性可以为表物品的名词以及表动作的动词。
进一步地,预设话题模板可以表征话题词组的组合方式,示例的,预设话题模板中可以定义有待写入话题词组的词语属性,即,预设词语属性。预设话题模板中定义的待写入话题词组的数量可以根据实际需求设置,不同待写入话题词组的位置可以关联有该位置需写入的待写入话题词组的预设词语属性。相应地,可以通过匹配槽位的方式实现组合。具体的,可以按照预设话题模板中定义的预设词语属性,通过属性匹配,将话题词组写入预设词语属性与该话题词组的词语属性相同的待写入话题词组的位置,从而得到备选话题文本。由于话题词组有多个,预设话题模板有至少一个,因此,通过写入组合,可以得到多条备选话题文本。其中,预设话题模板中还可以包括衔接词,以使写入的话题词组之间的语义更加流畅,从而确保候选话题文本的文本质量。示例的,衔接词可以为“享”,预设话题模板中包括两个待写入话题词组的位置:位置1以及位置2,位置1关联的预设词语属性为表节日的名词,位置3关联的预设词语属性为表事物的名词,那么可以将话题词组“女神节”写入位置1,将话题词组“美味福利”写入位置2,从而得到一条备选话题文本“女神节享美味福利”。当然,也可以不设置衔接词,从而得到备选话题文本“女神节美味福利”,本发明对此不作限制。
进一步地,在预先获取预设话题模板时,可以基于已有话题库中话题文本的语法结构并行抽取,以构建话题模板。其中,可以通过预设的模板抽取模型实现抽取。进一步地,还可以通过预设方式(例如,bootstrap方式)扩大已有话题模板,以丰富模板。具体的,可以先根据各个话题词组的词语属性与已有话题模板中的预设词语属性进行匹配,然后将相匹配的话题词组对应的目标UGC文本作为备用文本。其中,话题词组对应的目标UGC文本可以是包含该话题词组中词语的目标UGC文本。然后可以从这些备用文本中抽取备选模板。例如,可以基于预设的模板抽取模型实现抽取。最后,可以基于预设的模板打分模型,为各个备选模板进行打分,并将分值大于预设分值阈值的备选模板,作为预设话题模板,加入到原有的预设话题模板。
步骤S33、基于预设排序模型对所述备选话题文本进行排序,以选择前M个备选话题文本,作为所述候选话题文本。
本发明实施例中,M可以是根据实际需求预先设置的正整数,示例的,M可以为100,等等。预设排序模型可以是基于基础统计模型预先构造的话题排序模型。示例的,可以将备选话题文本作为预设排序模型的输入,预设排序模型可以基于输入的备选话题文本,计算备选话题文本的各类分数,接着,可以将各类分数进行加和,以作为该备选话题文本的最终得分。最后,可以按照最终得分由大至小的顺序进行排序。进一步地,可以从排序结果中取前M个备选话题文本作为候选话题文本。
本发明实施例中,基于话题词组的词语属性,将与预设话题模板中定义的预设词语属性相匹配的话题词组,写入预设话题模板,得到备选话题文本。最后,基于预设排序模型对备选话题文本进行排序,以选择前M个备选话题文本,作为候选话题文本。这样,通过写入预设话题模板即可实现话题文本构建,从而一定程度上可以确保构建效率。同时,通过排序,选择前M个备选话题文本作为候选话题文本,可以实现选择备选话题文本中相对优秀的话题描述,从而确保候选话题文本的文本质量,方便后续与热点词进行关联。
需要说明的是,也可以将网络平台中已有的话题作为候选话题文本。其中,已有的话题可以是户自发构建的话题和/或运营人员根据相应活动撰写的话题,以提高候选话题文本的数量。当然,由于已有的话题的存量相对较少,覆盖度较低。本发明实施例中,基于UGC文本自动化构建新的候选话题文本,可以快速丰富话题库,从而较大程度提高可选范围。
可选的,上述根据所述话题词组以及预设话题模板,生成所述候选话题文本的步骤之前,本发明实施例中还可以执行下述步骤:
步骤S41、对所述话题词组中的同义词组进行过滤;其中,所述同义词组中包含的至少两个词语为同义词;和/或,检测所述话题词组的成立概率;基于所述成立概率剔除不成立的话题词组。
本发明实施例中,可以基于原始话题词候选集,即,所有话题词组,进行话题词的初筛,以剔除同义词组。具体的,可以将各个话题词组中包含的词语与预设的同义词表进行比对,如果在话题词组中包括在同义词表中被定义的同义词的至少两个词语,则可以将该话题词组过滤掉。示例的,假设话题词组为“自驾驾车”,词语“自驾”以及词语“驾车”在同义词表中被定义的同义词,那么可以将该话题词组确定为同义词组,并从候选集中过滤掉。这样,通过过滤同义词组,一定程度上可以降低对话题词组处理时,例如,对话题词组进行模型预测的复杂度,提高后续处理的速度。
进一步地,本发明实施例中,可以基于话题词成立模型对话题词组进行模型预测。具体的,可以将话题词组作为预设的话题词成立模型的输入,以得到该话题词成立模型输出的分值。其中,该分值可以表征话题词组的成立概率。话题词成立模型可以是通过树模型+MT-BERT模型融合的方式得到的。其中,对于树模型而言,可以使用人工标注语料作为样本集,通过计算KL散度、覆盖度、熵、词长、词共现、词频等信息作为基础特征构建得到的。对于MT-BERT模型而言,可以预先通过微调(Finetune)的方式构建得到的。或者,也可以采用其他方式构建得到,本发明对此不作限制。确定成立概率时,可以基于树模型以及MT-BERT模型分别为话题词组输出分值,然后将两个模型分别输出的分值作为预设的加权打分公式的输入,确定最终的分值,从而得到成立概率。进一步地,如果成立概率大于预设概率阈值,则可以确定该话题词组不成立,相应地,可以删除该不成立的话题词组。这样,通过过滤不成立的话题词组,可以进一步提升被保留的话题词组成立的概率,从而确保后续基于保留的话题词组,生成的话题文本的文本质量。
可选的,上述基于网络平台的用户搜索记录,确定所述网络平台内的热点词的操作,可以具体包括:
步骤S51、根据所述网络平台中的用户搜索记录,获取备选种子词。
本步骤中,可以从网络平台的后台服务中读取用户搜索记录,然后基于用户搜索记录确定搜索时使用的搜索文本。其中,搜索文本可以为搜索关键字。接着,可以从搜索文本中能获取备选种子词。例如,可以直接将搜索文本中包含的所有词语作为备选种子词。当然,也可以采用其他方式,本发明不作限制
步骤S52、根据所述备选种子词的第一被搜索次数,计算所述备选种子词的当前热度值;所述第一被搜索次数是在距离当前第一时长的第一历史时段内的被搜索次数,所述当前热度值与所述第一被搜索次数正相关。
本发明实施例中,第一时长可以是根据实际需求设置的,示例的,第一时长可以为7天,那么相应地,距离当前第一时长的第一历史时段内,即为过去7天内。第一被搜索次数可以是备选种子词在距离当前第一时长的第一历史时段内的被搜索次数,示例的,第一被搜索次数可以为过去7天内被搜索的次数。具体的,可以将距离当前第一时长的第一历史时段内搜索文本中包含该备选种子词的用户搜索记录的数量,确定为第一被搜索次数。
进一步地,如果备选种子词近期被搜索的次数较多,那么一定程度上可以说明该备选种子词的热度较高,因此,本步骤中基于第一被搜索次数,计算当前热度值,一定程度上可以确保当前热度值的准确性。
步骤S53、若所述当前热度值大于预设热度值阈值,则将所述备选种子词确定为所述热点词。
其中,预设热度值阈值可以是根据实际需求预先设置,本发明实施例对此不作限制。进一步地,如果当前热度值不大于预设热度值阈值,则可以确定该选种子词的热度不够高。反之,如果当前热度值大于预设热度值阈值,则可以确定该选种子词的热度足够高,相应地,可以将该备选种子词确定为热点词。其中,确定热点词的过程可以是基于预先构建的热点种子挖掘模型实现的。
本发明实施例中,根据网络平台中的用户搜索记录,获取备选种子词。根据备选种子词在距离当前第一时长的第一历史时段内的第一被搜索次数,计算备选种子词的当前热度值,当前热度值与第一被搜索次数正相关。若当前热度值大于预设热度值阈值,则将备选种子词确定为热点词。这样,可以确保所计算的当前热度值的准确性,从而确保基于当前热度值选择的热点词的准确性。
同时,由于网络平台中UGC文本的生成路径有时较长,例如,在点评类平台中,用户需要先执行在网络平台中进行意向店铺的搜索的步骤,然后基于搜索到的意向店铺,进入该意向店铺,之后才能进行UGC文本的产生步骤。很多用户在前一个步骤中已经流失掉了,因此UGC文本往往对于真实热点以及新出现的热点的覆盖度较低。如果仅从UGC文本中获取对应热点话题,会导致准确率较低且热点话题滞后的问题。本发明实施例中,结合处于UGC文本生成的用户使用路径中更靠前位置的用户搜索记录,由于用户搜索记录可以直接反映当前热点,因此,相较于生成UGC文本的后置模块,具备较高的热点敏感性,可以更敏锐的捕获到平台热点,从而使得可以结合捕获到的热点词以及挖掘的候选话题文本,准确的生成热点话题。
可选的,上述根据所述备选种子词的第一被搜索次数,计算所述备选种子词的当前热度值的操作,可以具体包括:
步骤S61、确定所述第一被搜索次数与所述第一历史时段内发生的总搜索次数的比值,得到第一相对搜索数,以及,计算第二被搜索次数与第二历史时段内发生的总搜索次数的比值,得到第二相对搜索数;所述第二被搜索次数为所述备选种子词在距离当前第二时长的第二历史时段内被搜索的次数,所述第二时长大于所述第一时长。
本步骤中,第一历史时段内发生的总搜索次数可以是第一历史时段内整个网络平台中发生的总搜索次数。通过结合第一历史时段内发生的总搜索次数,计算第一相对搜索数,第一相对搜索数可以更客观的衡量该备选种子词的热点,进而一定程度上可以使得计算的当前热度值更加准确。
进一步地,第二时长可以是根据实际需求预先设置的,示例的,第二时长可以为2个月,那么相应地,距离当前第二时长的第二历史时段内,即为过去2个月内。由于第二时长大于第一时长,因此,进一步结合距离当前第二时长的第二历史时段内的相对搜索数,计算当前热度值,可以为计算过程提供更多有价值的信息以及提供更大维度的参考,从而一定程度上可以确保当前热度值的准确性。其中,第一/第二历史时段内发生的总搜索次数可以是基于第一/第二历史时段内产生的用户搜索记录确定的。示例的,一条用户搜索记录可以表征一次搜索操作,那么可以将第一/第二历史时段内产生的用户搜索记录的总数量,确定为第一/第二历史时段内发生的总搜索次数。可以将距离当前第二时长的第二历史时段内搜索文本中包含该备选种子词的用户搜索记录的数量,确定为第二被搜索次数。
步骤S62、根据所述第一被搜索次数、所述第一相对搜索数以及所述第二相对搜索数,计算所述备选种子词的当前热度值;所述当前热度值与所述第一相对搜索数正相关,与以及所述第二相对搜索数负相关。
示例的,当前热度值也可以称为热点指数、热点相对值,等等。进一步地,可以将第一被搜索次数、第一相对搜索数以及第二相对搜索数输入预设计算公式,从而便捷的得到当前热度值。以Flast1week(NER)表示第一被搜索次数、Plast1week(NER)表示第一相对搜索数、Plast2month(NER)表示第二相对搜索数,Score表示当前热度值。那么该当前热度值可以为:
Figure BDA0003263872180000121
在该示例中,综合考虑第一时长内表征的当前热度以及第二时长内表征的历史热度两方面,通过该预设计算公式,对最近1周和过去2个月的搜索次数进行对比,即可得到City-NER(即,备选种子词)对应的热点指数。
本发明实施例中,通过进一步确定第一被搜索次数与第一历史时段内发生的总搜索次数的比值,得到第一相对搜索数,以及,计算第二被搜索次数与第二历史时段内发生的总搜索次数的比值,得到第二相对搜索数;第二被搜索次数为备选种子词在距离当前第二时长的第二历史时段内被搜索的次数,第二时长大于第一时长。最后,根据第一被搜索次数、第一相对搜索数以及第二相对搜索数,计算备选种子词的当前热度值;当前热度值与第一相对搜索数正相关,与第二相对搜索数负相关。这样,由于进一步地引入了更大范围内的相对搜索数,因此,一定程度上可以确保最终计算的当前热度值的准确性。
可选的,上述根据所述网络平台中的用户搜索记录,获取备选种子词的操作,可以具体包括:
步骤S71、根据所述用户搜索记录对应的搜索文本,提取搜索实体词。
具体的,确定用户搜索记录对应的搜索文本的相关内容,可以参照前述相关描述,此处不再赘述。进一步地,可以对搜索文本进行命名实体识别(Named EntityRecognition,NER),以提取搜索实体词。其中,搜索实体词可以记为NER。
步骤S72、确定各所述搜索实体词在距离当前第三时长的第三历史时段内的被搜索次数以及搜索用户数。
本步骤中,第三时长可以是根据实际需求预先设置的,示例的,第二时长可以为一周。相应地,距离当前第三时长的第三历史时段内的被搜索次数可以记为周QV,距离当前第三时长的第三历史时段内的搜索用户数可以记为周UV。
具体的,可以将距离当前第三时长的第三历史时段内搜索文本中包含该搜索实体词的用户搜索记录的数量,确定为距离当前第三时长的第三历史时段内的被搜索次数。进一步地,可以将距离当前第三时长的第三历史时段内搜索文本中包含该搜索实体词的用户搜索记录对应的用户的数量,确定为搜索用户数。由于一个用户可能在距离当前第三时长的第三历史时段内多次进行搜索,因此搜索用户数不大于被搜索次数。
步骤S73、在所述被搜索次数不小于第一阈值以及所述搜索用户数不小于第二阈值的情况下,将所述搜索实体词确定为所述备选种子词。
其中,第一阈值以及第二阈值可以是根据实际需求设置的,本发明对此不作限定。如果被搜索次数不小于第一阈值且搜索用户数不小于第二阈值,则可以确定该搜索实体词具备一定的热度,因此,可以将该搜索实体词确定为所述备选种子词。
本发明实施例中,根据用户搜索记录对应的搜索文本,提取搜索实体词。确定各搜索实体词在距离当前第三时长的第三历史时段内的被搜索次数以及搜索用户数。在被搜索次数不小于第一阈值以及搜索用户数不小于第二阈值的情况下,将搜索实体词确定为备选种子词。这样,通过对第三时长的第三历史时段内的被搜索次数以及搜索用户数进行限制,可以避免本身热度较小,即,被搜索次数小于第一阈值、搜索用户数小于第二阈值的搜索实体词被确定为备选种子词,从而避免后续对热度较小的备选种子词执行不必要的热度值计算操作,节省处理资源。
同时,由于用户搜索词中关键信息主要集中在NER中,因此,本发明实施例中,先提取搜索实体词,后续基于搜索实体词。确定备选种子词的方式,一定程度上可以确保备选种子词的质量,从而为热度值计算操作提供质量较高的计算基础,确定计算效果。
可选的,本发明实施例中还可以执行下述步骤:
步骤S81、对于任一所述热点词,获取所述热点词在距离当前第四时长的第四历史时段内的第三被搜索次数,以及,所述第三被搜索次数与搜索次数均值的比值;所述搜索次数均值为距离当前第五时长的第五历史时段内的第四被搜索次数的均值。
本发明实施例中,第四时长以及第五时长可以根据实际需求设置,不同类型对应的时长可以不同。具体的,由于可能存在不同类型的热点词,因此,本步骤中,可以先检测该热点词的类型,示例的,检测该热点词在一段时间内的不同时段的被搜索次数,如果被搜索次数大于第一预设阈值的时段的数量较少,例如,被搜索次数大于第一预设阈值的时段的数量小于第一数量阈值,则可以确定该热点词的类型为第一类型。如果被搜索次数大于第二预设阈值的时段的数量较多,例如,被搜索次数大于第二预设阈值的时段的数量大于第二数量阈值,则可以确定该热点词的类型为第二类型。其中,第一类型对应的第五时长可以小于第二类型对应的第五时长。示例的,第一类型可以为“尖刺型热点”,第一类型对应的第五时长可以为1天,相应地,搜索次数均值可以为前一天的均值。第二类型可以为“持续型热点”第二类型对应的第五时长可以为15天,相应地,搜索次数均值可以为前15天的均值。示例的,以横坐标表示不同时段,纵坐标表示被搜索次数为例,图2是本发明实施例提供的一种不同时段的被搜索次数的示意图,如图2所示,该热点词在多个时段内的被搜索次数均较高,因此,该热点词的类型即为“持续型热点”。图3是本发明实施例提供的另一种不同时段的被搜索次数的示意图,如图3所示,该热点词仅在一个时段内的被搜索次数较高,因此,该热点词的类型即为“尖刺型热点”。
进一步地,可以基于该热点词的类型,确定对应的第五时长,并获取距离当前第五时长的第五历史时段内的第四被搜索次数。最后计算第三被搜索次数与第四被搜索次数的比值。其中,确定第三被搜索次数/第四被搜索次数的实现方式,与前述确定第一被搜索次数/第二被搜索次数的实现方式类似,此处不再赘述。
步骤S82、在所述第三被搜索次数不大于预设次数阈值,和/或,所述比值不大于预设比值阈值的情况下,剔除所述热点词。
本发明实施例中,预设次数阈值以及预设比值阈值可以是预先设置的,不同类型对应的阈值可以不同,本发明实施例对此不作限制。具体的,可以根据该热点词的类型,确定对应的预设比值阈值。示例的,第一类型对应的预设比值阈值可以为0.5,第二类型对应的预设比值阈值可以为0.3。这样,针对不同类型,针对性的设置时长/阈值,可以实现差异化的进行过气热点过滤,从而一定程度上可以确保过滤效果。
进一步地,如果第三被搜索次数不大于预设次数阈值,和/或比值不大于预设比值阈值,则可以认为该热点词出现了热点消退,该热点词为过气热点词,进而可以剔除该热点词。
需要说明的是,上述步骤S81以及步骤S82可以周期性执行,以定期进行过气热点过滤,或者,也可以是在每次基于热点词对候选话题文本进行匹配,以从候选话题文本中选择与热点词相关联的候选话题文本,作为目标话题文本的操作之前执行,以确保选择的目标话题文本的准确性。进一步地,上述步骤S81以及步骤S82可以是基于按照热点自身性质预先构建的过气热点过滤模型实现的,该模型可以通过判断热点词最近的绝对QV值(即,第三被搜索次数与第四被搜索次数的比值)以及不同时间窗口内的热点消退情况(即,热点词的类型)实现过滤。
由于热点词本身对时间较为敏感。本发明实施中,通过自动过滤过气热点词,可以确保热点词的准确性。同时,可以避免由于热度下降至较低水平的热点词的存在,导致后续选择的目标话题文本的质量较差,进而影响话题投放效果,从而降低用户体验的问题。
可选的,本发明实施例中,上述基于所述目标话题文本,在所述网络平台中进行话题投放的操作,可以具体包括:检测所述目标话题文本与所述目标话题文本相关联的热点词之间的关联合理度,以及,检测所述目标话题文本中是否存在预设敏感信息。若所述关联合理度符合预设要求且所述目标话题文本中不存在所述预设敏感信息,将所述目标话题文本投放至所述网络平台。这样,可以避免投放不合适的目标话题文本,从而一定程度上可以确保话题投放效果。进一步地,可以是将经过筛选的目标话题文本投放至默认搜索框、搜索发现、热搜榜、SUG搜索等模块,从而增加用户使用网络平台时的惊喜度。示例的,可以按照目标话题文本与其热点词对应的方式生成列表,并显示给审核人员。相应地,可以接收审核人员返回的审核结果,其中,该审核结果可以表征目标话题文本与其相关联的热点词之间的关联合理度是否符合预设要求,以及目标话题文本中是否存在预设敏感信息。或者,也可以通过预设检测算法,检测关联合理度,相应地,如果关联合理度大于预设合理度阈值,则可以确定关联合理度符合预设要求。进一步地,可以将预设敏感信息与目标话题文本进行匹配,如果在目标话题文本中匹配到预设敏感信息,则可以确定目标话题文本中不预设敏感信息。
可选的,上述基于所述热点词对所述候选话题文本进行匹配,以从所述候选话题文本中选择与所述热点词相关联的候选话题文本,作为目标话题文本的操作,可以具体包括:
步骤S91、将所述热点词作为关键词,并从所述候选话题文本搜索相关联的候选话题文本。
示例的,可以基于预先构建的热点话题关联模型,先以热点词作为关键词,即,先通过NER粒度从候选话题文本中召回相应的热点话题,即,召回相关联的候选话题文本。
步骤S92、若搜索到与所述热点词相关联的候选话题文本,则将所述候选话题文本确定为所述目标话题文本。
示例的,假设热点词为“青团”,基于热点词召回的相关联的候选话题文本可以为“网红青团打卡”、“一年一度青团季”。假设热点词为“女神节”,基于热点词召回的相关联的候选话题文本可以为“女神节享美味福利”、“女神节高颜值甜品”。假设热点词为“郁金香”,基于热点词召回的相关联的候选话题文本可以为“景区郁金香大赏”、“郁金香花展观赏记”。相应地,被召回的这些候选话题文本即为目标话题文本。
步骤S93、若未搜索到与所述热点词相关联的候选话题文本,则对所述热点词进行分词,以确定新的关键词;基于所述新的关键词从所述候选话题文本搜索相关联的候选话题文本。
进一步地,由于NER粒度可能较粗,因此,如果在NER粒度下未召回相关联的候选话题文本,则可以对多个热点词进行细粒度的分词,并使用频率-反向文档频率(tf-idf)方法从分词结果中确定新的关键词。示例的,可以选择分词结果中tf-idf最高的N个词语作为新的关键词。最后,可以基于新的关键词重新进行匹配召回,以确保能够得到目标话题文本,实现热点话题生成。其中,上述步骤S91~步骤S93可以是基于预先构建的热点话题关联模型实现的。
本发明实施例中,先直接使用热点词对候选话题文本进行搜索,在未能召回相关联的候选话题文本的情况下,才进一步通过分词,获取细粒度的新的关键词,以召回相关联的候选话题文本。这样,可以避免执行不必要的分词操作,进而一定程度上可以降低选择目标话题文本的实现成本。
可选的,在上述基于所述目标话题文本,在所述网络平台中进行话题投放的操作之后,本发明实施例还可以执行下述步骤:
步骤S201、在接收到对所述目标话题文本的触发操作的情况下,根据所述目标话题文本包含的话题词组对应的目标UGC文本,提取与所述目标话题文本关联的描述信息;所述话题词组对应的目标UGC文本包含所述话题词组中的词语。
本发明实施例中,触发操作可以是预先定义的,示例的,触发操作可以包括对显示的目标话题文本的点击操作。目标话题文本包含的话题词组可以是生成该目标话题文本时,写入预设话题模板的话题词组。进一步地,由于话题词组对应的目标UGC文本包含该话题词组中的词语,则可以确定话题词组对应的目标UGC文本与该话题词组存在关联。因此,可以根据目标话题文本包含的话题词组对应的目标UGC文本,提取与目标话题文本关联的描述信息。示例的,可以基于预先构建的信息提取模型从这些目标UGC文本中提取描述信息。需要说明的是,本发明实施例中的话题文本处理方法可以应用至网络平台的搜索引导项目中,并周期性执行,例如,可以以一天为一个周期,天级挖掘网络平台内的热点话题,进而确保在网络平台中投放的热点话题的新鲜度以及准确性,确定所投放话题对用户的吸引程度,为用户提供精准的搜索参考信息。
步骤S202、将所述描述信息作为所述目标话题文本的话题描述,并显示给用户。
示例的,描述信息可以为文本,相应地,可以在目标话题文本的详情页中显示这些描述信息,从而方便用户更深入的连接该目标话题。
本发明实施例中,在接收到对所述目标话题文本的触发操作的情况下,根据所述目标话题文本包含的话题词组对应的目标UGC文本,提取与所述目标话题文本关联的描述信息;所述话题词组对应的目标UGC文本包含所述话题词组中的词语。将所述描述信息作为所述目标话题文本的话题描述,并显示给用户。这样,一定程度上可以确保最终为用户显示的话题描述可以较为准确的描述该目标话题,进而提高目标话题的投放效果。
进一步地,由于网络平台内的UGC文本是用户自由生成的,因此,UGC文本的相关措辞往往不够正规,句法结构不够完整,存在噪声信息。因此,本发明实施例中,还可以在生成话题词组之后,将话题词组对应的UGC列表,即,对应的目标UGC文本页加入候选集。并可以在步骤S201之前,对话题词组对应的目标UGC文本进行过滤。示例的,可以预先基于BTM方法构建UGC打标模型。使用该模型抽取目标UGC文本的主题向量,然后,基于主题向量计算目标UGC文本间的距离,并基于距离对与话题词组相关性较小的目标UGC文本进行过滤,例如,可以将距离小于预设阈值的目标UGC文本剔除,进而过滤掉与话题词组的相关性较小的目标UGC文本,保证话题词组和对应的目标UGC文本关系相对统一。同时,由于BTM模型能够较好解决稀疏问题,对短文本的处理效果更好,且网络平台内的UGC文本往往为短文本。因此,可以确保对目标UGC文本的过滤效果。
在一种具体应用场景中,随着移动互联网的普及,垂类搜索领域相关的网络平台越来越多,这些网络平台在为用户带来便利的同时,也产生了数量巨大的信息。用户在使用相关服务的时候,往往需要花费较多时间去甄别各网络平台中的热点信息,从而方便选择。例如,用户在在使用相关服务时,往往需要较快知晓当前热点店铺或热点活动,以帮助用户进行相关决策。在一种相关技术中,往往是在新闻资讯信息的场景中,基于原始新闻资讯内容细节或者对应标题,通过主题的聚类合并,直接得到话题文本。在另一种相关技术中,往往是在社交场景中直接通过丰富的语料抽取主题向量,并基于主题向量生成话题文本。由于垂类搜索领域的网络平台中,UGC文本的内容不够丰富,信息量较小、存在较大噪声、且UGC文本产生的路径较长、热点不够集中,UGC文本对热点的捕捉不够敏感。因此,这两种场景中的方式并不能适用于垂类搜索领域的网络平台,垂类搜索领域的网络平台目前由于不具备类热点话题自动挖掘能力,仅能通过人工设置的方式进行话题投放。
图4是本发明实施例提供的一种系统示意图,如图4所示,该系统可以包括话题生成模块以及热点种子挖掘模块。其中,话题生成模块可以基于场景基础词以及UGC预料,构建候选集。其中,该候选集可以包括话题词、话题词组以及话题词组对应的UGC列表。接着,可以进行话题词组初筛,即,对同义词组进行过滤。然后,基于话题词成立模型剔除不成立的话题词组,以及,基于UGC打标模型对话题词组对应的目标UGC文本进行过滤。同时,可以基于已有话题库进行话题模板构建。最后可以基于话题排序模型,对根据话题模板以及话题词组得到的备选话题文本进行排序,以生成候选话题文本,从而生成话题库。
进一步地,对于热点种子挖掘模块,可以获取用户搜索日志,基于热点种子挖掘模型,对用户搜索日志(即,用户搜索记录)进行挖掘,得到热点词。接着,基于过气热点过滤模型对过气的热点词进行剔除。最后可以基于热点话题关联模型,根据热点词以及候选话题文本,生成热点话题,即,从候选话题文本中选择目标话题文本。
最后,可以执行质量抽检及投放操作,以实现话题投放。即,向审核人员显示目标话题文本,将经过审核的目标话题文本投放至网络平台,例如,将不存在预设敏感信息且与该目标话题文本相关联的热点词之间的关联合理度符合预设要求的目标话题文本,投放至网络平台。
本发明实施例中,针对垂类搜索领域内部存在的热点话题捕捉困难的问题,基于平台特点,结合平台内丰富的用户搜索行为,基于用户搜索记录先自动化的圈定相关热点,其次针对用户UGC文本挖掘相应候选话题文本,通过两者相关联的方式确定对应热点话题,并在引导入口进行热点话题的推荐。这样,可以确保话题文本处理方法的拓展性,确保该方法可以复用在多种垂类搜索领域的网络平台,达到自动化捕捉站内热点话题的效果,同时,利用用户搜索记录进行热点圈定,一定程度上可以提高热点话题的准确性以及实时性。
图5是本发明实施例提供的一种话题文本处理装置的结构图,该装置20可以包括:
确定模块201,用于基于网络平台的用户搜索记录,确定所述网络平台内的热点词,以及,获取所述网络平台对应的候选话题文本;
选择模块202,用于基于所述热点词对所述候选话题文本进行匹配,以从所述候选话题文本中选择与所述热点词相关联的候选话题文本,作为目标话题文本;
投放模块203,用于基于所述目标话题文本,在所述网络平台中进行话题投放。
可选的,所述确定模块201,具体用于:
根据所述网络平台中的用户搜索记录,获取备选种子词;
根据所述备选种子词的第一被搜索次数,计算所述备选种子词的当前热度值;所述第一被搜索次数是在距离当前第一时长的第一历史时段内的被搜索次数,所述当前热度值与所述第一被搜索次数正相关;
若所述当前热度值大于预设热度值阈值,则将所述备选种子词确定为所述热点词。
可选的,所述确定模块201,还具体用于:
根据所述用户搜索记录对应的搜索文本,提取搜索实体词;
确定各所述搜索实体词在距离当前第三时长的第三历史时段内的被搜索次数以及搜索用户数;
在所述被搜索次数不小于第一阈值以及所述搜索用户数不小于第二阈值的情况下,将所述搜索实体词确定为所述备选种子词。
可选的,所述确定模块201,还具体用于:
确定所述第一被搜索次数与所述第一历史时段内发生的总搜索次数的比值,得到第一相对搜索数,以及,计算第二被搜索次数与第二历史时段内发生的总搜索次数的比值,得到第二相对搜索数;所述第二被搜索次数为所述备选种子词在距离当前第二时长的第二历史时段内被搜索的次数,所述第二时长大于所述第一时长;
根据所述第一被搜索次数、所述第一相对搜索数以及所述第二相对搜索数,计算所述备选种子词的当前热度值;所述当前热度值与所述第一相对搜索数正相关,与所述第二相对搜索数负相关。
可选的,所述装置20还包括:
获取模块,用于对于任一所述热点词,获取所述热点词在距离当前第四时长的第四历史时段内的第三被搜索次数,以及,所述第三被搜索次数与搜索次数均值的比值;所述搜索次数均值为距离当前第五时长的第五历史时段内的第四被搜索次数的均值;
第一剔除模块,用于在所述第三被搜索次数不大于预设次数阈值,和/或,所述比值不大于预设比值阈值的情况下,剔除所述热点词。
可选的,所述确定模块202,还具体用于:
从所述网络平台内的用户生成内容UGC文本中,选择包含预设基础词的UGC文本,以作为目标UGC文本;所述预设基础词在所述网络平台的出现次数大于预设次数阈值;
根据所述目标UGC文本中包含的词语,生成话题词组;
根据所述话题词组以及预设话题模板,生成所述候选话题文本。
可选的,所述装置20还包括:
过滤模块,用于对所述话题词组中的同义词组进行过滤;其中,所述同义词组中包含的至少两个词语为同义词;
和/或,第二剔除模块,用于检测所述话题词组的成立概率;基于所述成立概率剔除不成立的话题词组。
可选的,所述确定模块201,还具体用于:
基于所述话题词组的词语属性,将与所述预设话题模板中定义的预设词语属性相匹配的话题词组,写入所述预设话题模板,得到备选话题文本。
基于预设排序模型对所述备选话题文本进行排序,以选择前M个备选话题文本,作为所述候选话题文本。
可选的,所述装置20还包括:
提取模块,用于在接收到对所述目标话题文本的触发操作的情况下,根据所述目标话题文本包含的话题词组对应的目标UGC文本,提取与所述目标话题文本关联的描述信息;所述话题词组对应的目标UGC文本包含所述话题词组中的词语;
显示模块,用于将所述描述信息作为所述目标话题文本的话题描述,并显示给用户。
本发明实施例提供的话题文本处理装置,基于网络平台的用户搜索记录,确定网络平台内的热点词,以及,获取网络平台对应的候选话题文本。基于热点词对候选话题文本进行匹配,以从候选话题文本中选择与热点词相关联的候选话题文本,作为目标话题文本。基于目标话题文本,在网络平台中进行话题投放。相较于直接投放的方式,本发明实施例中先基于用户搜索记录,确定网络平台内的热点词。最终投放时,基于该热点词语选择与当前热点相关联的目标话题文本进行投放,确保最终投放的目标话题文本更符合网络平台中用户的需求,进而一定程度上可以提高话题投放的效果。
同时,一定程度上可以避免受到人为主观影响,导致无法准确感知到网络平台中的热点,从而导致投放的话题文本无法覆盖网络平台内的热点,进而导致投放效果较差的问题。
本发明还提供了一种电子设备,参见图6,包括:处理器301、存储器302以及存储在所述存储器上并可在所述处理器上运行的计算机程序3021,所述处理器执行所述程序时实现前述实施例的方法。
本发明还提供了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行前述实施例的方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明的排序设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (12)

1.一种话题文本处理方法,其特征在于,所述方法包括:
基于网络平台的用户搜索记录,确定所述网络平台内的热点词,以及,获取所述网络平台对应的候选话题文本;
基于所述热点词对所述候选话题文本进行匹配,以从所述候选话题文本中选择与所述热点词相关联的候选话题文本,作为目标话题文本;
基于所述目标话题文本,在所述网络平台中进行话题投放。
2.根据权利要求1所述的方法,其特征在于,所述基于网络平台的用户搜索记录,确定所述网络平台内的热点词,包括:
根据所述网络平台中的用户搜索记录,获取备选种子词;
根据所述备选种子词的第一被搜索次数,计算所述备选种子词的当前热度值;所述第一被搜索次数是在距离当前第一时长的第一历史时段内的被搜索次数,所述当前热度值与所述第一被搜索次数正相关;
若所述当前热度值大于预设热度值阈值,则将所述备选种子词确定为所述热点词。
3.根据权利要求2所述的方法,其特征在于,所述根据所述网络平台的用户搜索记录,获取备选种子词,包括:
根据所述用户搜索记录对应的搜索文本,提取搜索实体词;
确定各所述搜索实体词在距离当前第三时长的第三历史时段内的被搜索次数以及搜索用户数;
在所述被搜索次数不小于第一阈值以及所述搜索用户数不小于第二阈值的情况下,将所述搜索实体词确定为所述备选种子词。
4.根据权利要求2所述的方法,其特征在于,所述根据所述备选种子词的第一被搜索次数,计算所述备选种子词的当前热度值,包括:
确定所述第一被搜索次数与所述第一历史时段内发生的总搜索次数的比值,得到第一相对搜索数,以及,计算第二被搜索次数与第二历史时段内发生的总搜索次数的比值,得到第二相对搜索数;所述第二被搜索次数为所述备选种子词在距离当前第二时长的第二历史时段内被搜索的次数,所述第二时长大于所述第一时长;
根据所述第一被搜索次数、所述第一相对搜索数以及所述第二相对搜索数,计算所述备选种子词的当前热度值;所述当前热度值与所述第一相对搜索数正相关,与所述第二相对搜索数负相关。
5.根据权利要求1至4中任一所述的方法,其特征在于,所述方法还包括:
对于任一所述热点词,获取所述热点词在距离当前第四时长的第四历史时段内的第三被搜索次数,以及,所述第三被搜索次数与搜索次数均值的比值;所述搜索次数均值为距离当前第五时长的第五历史时段内的第四被搜索次数的均值;
在所述第三被搜索次数不大于预设次数阈值,和/或,所述比值不大于预设比值阈值的情况下,剔除所述热点词。
6.根据权利要求1至4中任一所述的方法,其特征在于,所述获取所述网络平台对应的候选话题文本,包括:
从所述网络平台内的用户生成内容UGC文本中,选择包含预设基础词的UGC文本,以作为目标UGC文本;所述预设基础词在所述网络平台的出现次数大于预设次数阈值;
根据所述目标UGC文本中包含的词语,生成话题词组;
根据所述话题词组以及预设话题模板,生成所述候选话题文本。
7.根据权利要求6所述的方法,其特征在于,所述根据所述话题词组以及预设话题模板,生成所述候选话题文本之前,所述方法还包括:
对所述话题词组中的同义词组进行过滤;其中,所述同义词组中包含的至少两个词语为同义词;
和/或,检测所述话题词组的成立概率;基于所述成立概率剔除不成立的话题词组。
8.根据权利要求6所述的方法,其特征在于,所述根据所述话题词组以及预设话题模板,生成所述候选话题文本,包括:
基于所述话题词组的词语属性,将与所述预设话题模板中定义的预设词语属性相匹配的话题词组,写入所述预设话题模板,得到备选话题文本;
基于预设排序模型对所述备选话题文本进行排序,以选择前M个备选话题文本,作为所述候选话题文本。
9.根据权利要求6所述的方法,其特征在于,所述基于所述目标话题文本,在所述网络平台中进行话题投放之后,所述方法还包括:
在接收到对所述目标话题文本的触发操作的情况下,根据所述目标话题文本包含的话题词组对应的目标UGC文本,提取与所述目标话题文本关联的描述信息;所述话题词组对应的目标UGC文本包含所述话题词组中的词语;
将所述描述信息作为所述目标话题文本的话题描述,并显示给用户。
10.一种话题文本处理装置,其特征在于,所述装置包括:
确定模块,用于基于网络平台的用户搜索记录,确定所述网络平台内的热点词,以及,获取所述网络平台对应的候选话题文本;
选择模块,用于基于所述热点词对所述候选话题文本进行匹配,以从所述候选话题文本中选择与所述热点词相关联的候选话题文本,作为目标话题文本;
投放模块,用于基于所述目标话题文本,在所述网络平台中进行话题投放。
11.一种电子设备,其特征在于,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-9中一个或多个所述的方法。
12.一种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行权利要求1-9中一个或多个所述的方法。
CN202111080660.1A 2021-09-15 2021-09-15 话题文本处理方法、装置、电子设备及可读存储介质 Pending CN113961677A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111080660.1A CN113961677A (zh) 2021-09-15 2021-09-15 话题文本处理方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111080660.1A CN113961677A (zh) 2021-09-15 2021-09-15 话题文本处理方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN113961677A true CN113961677A (zh) 2022-01-21

Family

ID=79461542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111080660.1A Pending CN113961677A (zh) 2021-09-15 2021-09-15 话题文本处理方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113961677A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116881541A (zh) * 2023-05-05 2023-10-13 厦门亚瑟网络科技有限公司 针对在线搜索活动的ai处理方法及在线服务大数据系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136300A (zh) * 2011-12-05 2013-06-05 北京百度网讯科技有限公司 一种文本相关主题的推荐方法和装置
CN105488136A (zh) * 2015-11-25 2016-04-13 北京京东尚科信息技术有限公司 选购热点标签的挖掘方法
CN108776901A (zh) * 2018-04-27 2018-11-09 微梦创科网络科技(中国)有限公司 基于搜索词的广告推荐方法及系统
CN109190017A (zh) * 2018-08-02 2019-01-11 腾讯科技(北京)有限公司 热点信息的确定方法、装置、服务器及存储介质
CN110457580A (zh) * 2019-07-31 2019-11-15 百度时代网络技术(北京)有限公司 基于搜索的热点推荐方法及装置
CN111897965A (zh) * 2020-09-29 2020-11-06 北京三快在线科技有限公司 话题生成方法、装置、存储介质和电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136300A (zh) * 2011-12-05 2013-06-05 北京百度网讯科技有限公司 一种文本相关主题的推荐方法和装置
CN105488136A (zh) * 2015-11-25 2016-04-13 北京京东尚科信息技术有限公司 选购热点标签的挖掘方法
CN108776901A (zh) * 2018-04-27 2018-11-09 微梦创科网络科技(中国)有限公司 基于搜索词的广告推荐方法及系统
CN109190017A (zh) * 2018-08-02 2019-01-11 腾讯科技(北京)有限公司 热点信息的确定方法、装置、服务器及存储介质
CN110457580A (zh) * 2019-07-31 2019-11-15 百度时代网络技术(北京)有限公司 基于搜索的热点推荐方法及装置
CN111897965A (zh) * 2020-09-29 2020-11-06 北京三快在线科技有限公司 话题生成方法、装置、存储介质和电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116881541A (zh) * 2023-05-05 2023-10-13 厦门亚瑟网络科技有限公司 针对在线搜索活动的ai处理方法及在线服务大数据系统

Similar Documents

Publication Publication Date Title
US20240152962A1 (en) Optimized content generation method and system
Boididou et al. Challenges of computational verification in social multimedia
US10803245B2 (en) Compiling documents into a timeline per event
KR101605430B1 (ko) 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법
US10489447B2 (en) Method and apparatus for using business-aware latent topics for image captioning in social media
CN108520046B (zh) 搜索聊天记录的方法及设备
CN110888990A (zh) 文本推荐方法、装置、设备及介质
US20160283585A1 (en) Method and system for providing a personalized snippet
US10769196B2 (en) Method and apparatus for displaying electronic photo, and mobile device
JP2016126567A (ja) コンテンツ推薦装置、及びプログラム
KR20100132376A (ko) 스니펫 제공 장치 및 방법
KR102093790B1 (ko) 문자 중계 데이터로부터 이벤트 정보를 추출하는 이벤트 정보 추출 방법 및 그 방법을 수행하는 사용자 단말
CN113961677A (zh) 话题文本处理方法、装置、电子设备及可读存储介质
CN106919649B (zh) 一种词条权重计算的方法及装置
Samantaray et al. Fake news detection using text similarity approach
CN109145261B (zh) 一种生成标签的方法和装置
CN107609094B (zh) 数据消歧方法、装置及计算机设备
CN105868271A (zh) 一种姓名统计方法及装置
KR20140140224A (ko) 리트윗 정보 제공 서비스 시스템
CN117743267B (zh) 数据推送方法、装置、电子设备及存储介质
CN110196940B (zh) 向用户显示热点网络内容的方法、装置、显示引擎和介质
Elmas et al. Opinion Mining from YouTube Captions Using ChatGPT: A Case Study of Street Interviews Polling the 2023 Turkish Elections
Van Canneyt Knowledge extraction and popularity modeling using social media
CN117835004A (zh) 用于生成视频看点的方法、装置及计算机可读介质
KR101354720B1 (ko) 콘텐츠 분석 시스템 및 콘텐츠 분석 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination