CN112328752B - 基于搜索内容的课程推荐方法、装置、计算机设备及介质 - Google Patents

基于搜索内容的课程推荐方法、装置、计算机设备及介质 Download PDF

Info

Publication number
CN112328752B
CN112328752B CN202110000753.2A CN202110000753A CN112328752B CN 112328752 B CN112328752 B CN 112328752B CN 202110000753 A CN202110000753 A CN 202110000753A CN 112328752 B CN112328752 B CN 112328752B
Authority
CN
China
Prior art keywords
search
contents
content
core
click
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110000753.2A
Other languages
English (en)
Other versions
CN112328752A (zh
Inventor
许丹
杨德杰
叶聆音
沈芳瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110000753.2A priority Critical patent/CN112328752B/zh
Publication of CN112328752A publication Critical patent/CN112328752A/zh
Application granted granted Critical
Publication of CN112328752B publication Critical patent/CN112328752B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及大数据分析技术领域,提供一种基于搜索内容的课程推荐方法、装置、计算机设备及介质,包括:根据搜索内容提取出多个热词;针对每个热词,获取包含热词的目标搜索内容并提取目标搜索内容的搜索文本向量;对同一热词对应的多个搜索文本向量进行聚类并确定每类的核心搜索内容;根据搜索内容引发的点击次数从多类的核心搜索内容中识别出用户满意的核心搜索内容和用户不满意的核心搜索内容;根据搜索内容引发的点击内容过滤出用户满意的核心搜索内容中的假性满意的核心搜索内容;根据用户不满意的核心搜索内容及假性满意的核心搜索内容进行课程推荐。本发明能够结合用户的搜索内容和点击内容共同为用户推荐课程,课程推荐准确度高。

Description

基于搜索内容的课程推荐方法、装置、计算机设备及介质
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于搜索内容的课程推荐方法、装置、计算机设备及介质。
背景技术
为了避免培训内容宽泛、不够聚焦、无法帮助用户解决实际困难的问题,培训部门需要密切地和业务部门进行沟通,及时地收集用户的培训诉求。这种人工收集素材加工选题的过程需要花费大量的人力和时间且时效性难以保证。随着培训课程不断地线上化,学习平台利用推荐算法引擎来为用户推荐相关课程。
然而,发明人在实现本发明的过程中发现,现有的推荐算法是基于用户在学习平台上点击的内容来进行推荐,用户的点击并非完全代表用户的实际需求,因此,课程推荐效果较差。
发明内容
鉴于以上内容,有必要提出一种基于搜索内容的课程推荐方法、装置、计算机设备及介质,能够结合用户的搜索内容和点击内容共同为用户推荐课程,课程推荐更符合用户需求,课程推荐的准确度高,课程推荐效果好。
本发明的第一方面提供一种基于搜索内容的课程推荐方法,所述方法包括:
根据预设第一数据库表中的搜索内容提取出多个热词;
针对每个热词,获取包含所述热词的目标搜索内容,并提取所述目标搜索内容的搜索文本向量;
对同一热词对应的多个搜索文本向量进行聚类,并根据聚类后的质心确定每类的核心搜索内容;
根据预设第二数据库表中的搜索内容引发的点击次数,从多类的核心搜索内容中识别出多个用户满意的核心搜索内容和多个用户不满意的核心搜索内容;
根据所述预设第二数据库表中的搜索内容引发的点击内容,过滤出所述多个用户满意的核心搜索内容中的假性满意的核心搜索内容;
根据所述多个用户不满意的核心搜索内容及所述假性满意的核心搜索内容进行课程推荐。
在一个可选的实施例中,所述根据预设第二数据库表中的搜索内容引发的点击次数,从多类的核心搜索内容中识别出多个用户满意的核心搜索内容和多个用户不满意的核心搜索内容包括:
根据预设第二数据库表中的搜索内容引发的点击次数,计算每类的核心搜索内容的搜索次数;
根据所述搜索次数识别出多类的核心搜索内容中的多个头部热点搜索内容;
将所述多个头部热点搜索内容确定为多个用户满意的核心搜索内容,及将多个非头部热点搜索内容确定为多个用户不满意的核心搜索内容。
在一个可选的实施例中,所述根据所述搜索次数识别出所述多类的核心搜索内容中的多个头部热点搜索内容包括:
根据所述搜索次数计算每类的核心搜索内容引发的点击集中度;
对所述点击集中度进行倒序排序;
确定排序后的点击集中度中的分位数;
将位于所述分位数之前的多个点击集中度对应的核心搜索内容确定为多个头部热点搜索内容。
在一个可选的实施例中,所述根据预设第一数据库表中的搜索内容提取出多个热词包括:
对所述搜索内容进行分词处理,得到多个分词;
删除所述多个分词中的无意义词,得到多个有意义词;
更新所述多个有意义词为多个标准词;
计算所述多个标准词中的每个标准词的热度;
根据所述热度从所述多个标准词中提取出多个热词。
在一个可选的实施例中,所述提取所述目标搜索内容的搜索文本向量包括:
获取所述目标搜索内容中的每个标准词对应的TF-IDF值;
根据每个标准词对应的TF-IDF值生成热度文本向量;
定义卷积核向量;
从所述热度文本向量中的起始位置开始逐次滑动所述卷积核向量直至滑动至所述热度文本向量中的终止位置,获取每次滑动时所述热度文本向量中与所述卷积核向量对应的子文本向量;
根据每次滑动时所述卷积核向量与对应的子文本向量计算卷积结果;
根据多个所述卷积结果生成搜索文本向量。
在一个可选的实施例中,所述根据所述预设第二数据库表中的搜索内容引发的点击内容,过滤出所述多个用户满意的核心搜索内容中的假性满意的核心搜索内容包括:
根据所述预设第二数据库表中的搜索内容引发的点击内容,匹配出与每个用户满意的核心搜索内容对应的所有目标点击内容;
提取每个所述目标点击内容的点击文本向量;
计算每个用户满意的核心搜索内容的搜索文本向量及对应的每个点击文本向量之间的相似度;
根据所述相似度过滤出所述多个用户满意的核心搜索内容中的假性满意的核心搜索内容。
在一个可选的实施例中,所述方法还包括:
从所述相似度中获取小于预设相似度阈值的多个第一目标相似度,及从所述相似度中获取大于或者等于预设相似度阈值的多个第二目标相似度;
对所述多个第一目标相似度对应的点击内容进行第一标记,及对所述多个第二目标相似度对应的点击内容进行第二标记;
响应于用户输入的搜索内容,显示与所输入的搜索内容对应的点击内容,并在显示的点击内容上显示第一标记或者第二标记。
本发明的第二方面提供一种基于搜索内容的课程推荐装置,所述装置包括:
提取模块,用于根据预设第一数据库表中的搜索内容提取出多个热词;
所述提取模块,还用于针对每个热词,获取包含所述热词的目标搜索内容,并提取所述目标搜索内容的搜索文本向量;
聚类模块,用于对同一热词对应的多个搜索文本向量进行聚类,并根据聚类后的质心确定每类的核心搜索内容;
识别模块,用于根据预设第二数据库表中的搜索内容引发的点击次数,从多类的核心搜索内容中识别出多个用户满意的核心搜索内容和多个用户不满意的核心搜索内容;
过滤模块,用于根据所述预设第二数据库表中的搜索内容引发的点击内容,过滤出所述多个用户满意的核心搜索内容中的假性满意的核心搜索内容;
推荐模块,用于根据所述多个用户不满意的核心搜索内容及所述假性满意的核心搜索内容进行课程推荐。
本发明的第三方面提供一种计算机设备,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述基于搜索内容的课程推荐方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述基于搜索内容的课程推荐方法。
综上所述,本发明所述的基于搜索内容的课程推荐方法、装置、计算机设备及介质,通过从搜索内容中提取出多个热词,并针对每个热词,获取包含所述热词的目标搜索内容,从而提取所述目标搜索内容的搜索文本向量;对同一热词对应的多个搜索文本向量进行聚类,并根据聚类后的质心确定每类的核心搜索内容,确定出核心搜索内容,能够缩小用户关注的需求点;根据预设第二数据库表中的搜索内容引发的点击次数,从多类的核心搜索内容中识别出多个用户满意的核心搜索内容和多个用户不满意的核心搜索内容,能够进一步确定出用户关注的需求点和不关注的需求点;最后,根据所述预设第二数据库表中的搜索内容引发的点击内容,过滤出所述多个用户满意的核心搜索内容中的假性满意的核心搜索内容,即对结合用户的点击内容对用户关注的需求点进一步过滤,得到用户不关注的需求点,最后根据所述多个用户不满意的核心搜索内容及所述假性满意的核心搜索内容能够真实的挖掘出潜在目标内容,从而针对用户真正的需求点推荐相关的课程。本申请可以应用于智慧教育中,促进智慧城市的建设与发展。
附图说明
图1是本发明实施例一提供的基于搜索内容的课程推荐方法的流程图。
图2是本发明实施例二提供的基于搜索内容的课程推荐装置的结构图。
图3是本发明实施例三提供的计算机设备的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
本发明实施例提供的基于搜索内容的课程推荐方法由计算机设备执行,相应地,基于搜索内容的课程推荐装置运行于计算机设备中。
图1是本发明实施例一提供的基于搜索内容的课程推荐方法的流程图。所述基于搜索内容的课程推荐方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11,根据预设第一数据库表中的搜索内容提取出多个热词。
其中,所述预设第一数据库表用于记录搜索内容与搜索次数之间的映射关系。
获取每个用户输入的搜索内容,并按照时间顺序将所述搜索内容存储于预设第一数据库表中。每存储一个搜索内容后,计算所述预设第一数据库表中与所存储的搜索内容相同的搜索内容的数量,作为所述搜索内容的搜索次数。
在一个可选的实施例中,所述根据预设第一数据库表中的搜索内容提取出多个热词包括:
对所述搜索内容进行分词处理,得到多个分词;
删除所述多个分词中的无意义词,得到多个有意义词;
更新所述多个有意义词为多个标准词;
计算所述多个标准词中的每个标准词的热度;
根据所述热度从所述多个标准词中提取出多个热词。
可以使用结巴分词工具对所述预设第一数据库表中的每个搜索内容进行分词处理,使得每个搜索内容被处理为多个分词。由于多个分词之中存在停用词、特殊符号、隐藏符号等无意义词,将这些无意义词进行删除,便于提高后续对搜索内容的处理效率。将删除无意义词之后的多个分词称之为有意义词。可以根据预设标准词库表将所述多个有意义词更新为多个标准词。
当对所述预设第一数据库表中所有的搜索内容进行分词处理并更新为标准词之后,计算每一个标准词的TF-IDF值,得到每一个标准词的热度。按照从大到小的顺序对热度进行排序,并提取排序在前预设数量的热度对应的标准词,作为热词,或者提取大于预设热度阈值的热度对应的标准词,作为热词。
可以采用TF-IDF模型计算每个标准词的TF-IDF值。其中,所述TF-IDF模型是一种统计方法,用以评估标准词在整个语料库中的重要程度。计算标准词的TF-IDF值,能够区分出该标准词是否是一个重要的标准词,从而便于对标准词进行过滤操作。
在一个可选的实施例中,所述计算每个标准词的TF-IDF值包括:
计算每个标准词在所有标准词中的词频;
获取每个标准词的逆文档频率;
计算所述词频与所述逆文档频率的乘积,得到所述标准词的TF-IDF值。
TF是指词频(Term Frequency),指的是某一个给定的标准词在所有标准词组成的语料库中出现的频率。TF是对词数(Term Count)的归一化,以防止它偏向长的文本(同一个词语在长文件里可能会比短文件有更高的词数,而不管该词语重要与否)。IDF是指逆文档频率(Inverse document frequency),某一给定的标准词的IDF,可以由总标准词数目除以该标准词的数目,再将得到的商取对数得到。
S12,针对每个热词,获取包含所述热词的目标搜索内容,并提取所述目标搜索内容的搜索文本向量。
由于在实际搜索时,会存在大量搜索文本不同但搜索语义类似的搜索内容,因此,需要针对每个热词,将包含同一个热词的多个目标搜索内容认为是相类似的搜索内容。
在一个可选的实施例中,所述提取所述目标搜索内容的搜索文本向量包括:
获取所述目标搜索内容中的每个标准词对应的TF-IDF值;
根据每个标准词对应的TF-IDF值生成热度文本向量;
定义卷积核向量;
从所述热度文本向量中的起始位置开始逐次滑动所述卷积核向量直至滑动至所述热度文本向量中的终止位置,获取每次滑动时所述热度文本向量中与所述卷积核向量对应的子文本向量;
根据每次滑动时所述卷积核向量与对应的子文本向量计算卷积结果;
根据多个所述卷积结果生成搜索文本向量。
由于搜索内容的多样性,直接根据TF-IDF值为每一个目标搜索内容生成热度文本向量的空间分布会比较分散,不利于后续的聚类,通过卷积运算将所述热度文本向量转换为搜索文本向量,使所述搜索文本向量集中在特定的向量空间中,能够提高搜索文本向量的聚类效率,从而提高提取核心搜索内容的效率;通过卷积运算,能够将相似度较大的搜索内容转换为相似度更大的搜索文本向量,而将相似度较小的搜索内容转换为相似度更小的搜索文本向量,能够提高搜索文本向量的聚类质量,从而提高提取核心搜索内容的准确率。
S13,对同一热词对应的多个搜索文本向量进行聚类,并根据聚类后的质心确定每类的核心搜索内容。
针对每个热词,将包含每个热词的多个目标搜索内容进行聚类,并提取每一类的核心搜索内容,能够提炼出不同的搜索意图。
本实施例中,可以采用K-means聚类算法基于多个所述搜索文本向量进行聚类。
对同一热词对应的多个搜索文本向量进行聚类后,得到多个聚类,每一类有一个质心。将每一类的质心对应的搜索文本向量确定为核心搜索文本向量,并将核心搜索文本向量对应的搜索内容确定为核心搜索内容。
示例性的,假设有100个热词,每一个热词对应30个核心搜索内容,则共有3000个核心搜索内容。
S14,根据预设第二数据库表中的搜索内容引发的点击次数,从多类的核心搜索内容中识别出多个用户满意的核心搜索内容和多个用户不满意的核心搜索内容。
其中,所述预设第二数据库表用于记录搜索内容、引发的点击内容及由此搜索内容引发此点击内容的点击次数之间的映射关系。
当获取到用户输入的搜索内容之后,将与所述搜索内容相关的多个内容显示给用户,并在侦测到用户点击了相关的多个内容之后,将搜索内容及点击内容关联存储于预设第二数据库表中。每存储一个点击内容后,计算所述预设第二数据库表中与所存储的点击内容相同的点击内容的数量,作为所述点击内容的点击次数。所述点击次数为由搜索内容引发的点击内容的点击数量。
根据预设第二数据库表中的搜索内容引发的点击次数,确定出每个热词对应的多个用户满意的核心搜索内容和多个用户不满意的核心搜索内容。
在一个可选的实施例中,所述根据预设第二数据库表中的搜索内容引发的点击次数,从多类的核心搜索内容中识别出多个用户满意的核心搜索内容和多个用户不满意的核心搜索内容包括:
根据预设第二数据库表中的搜索内容引发的点击次数,计算每类的核心搜索内容的搜索次数;
根据所述搜索次数识别出多类的核心搜索内容中的多个头部热点搜索内容;
将所述多个头部热点搜索内容确定为多个用户满意的核心搜索内容,及将多个非头部热点搜索内容确定为多个用户不满意的核心搜索内容。
具体实施时,首先确定每类包括的目标搜索内容,然后从所述预设第二数据库表匹配出与每个目标搜索内容对应的搜索内容,再匹配出每个搜索内容引发的点击内容的点击次数,最后计算该类中的目标搜索内容对应的所有点击次数之和,得到该类的核心搜索内容的搜索次数。
因为搜索文本具有长尾性,即便通过聚类也依然会存在很多搜索次数少且语义各不相同的搜索内容,因此,根据每类的核心搜索内容确定出头部热点搜索内容,从而确定出哪些搜索内容是用户满意的核心搜索内容,哪些搜索内容是用户不满意的核心搜索内容。
在一个可选的实施例中,所述根据所述搜索次数识别出所述多类的核心搜索内容中的多个头部热点搜索内容包括:
根据所述搜索次数计算每类的核心搜索内容引发的点击集中度;
对所述点击集中度进行倒序排序;
确定排序后的点击集中度中的分位数;
将位于所述分位数之前的多个点击集中度对应的核心搜索内容确定为多个头部热点搜索内容。
通常而言,只有搜索后有点击行为,且同类搜索内容引发的点击内容非常集中,则认为搜索出的点击内容是真正让用户满意的点击内容。如果同类搜索内容引发的点击内容比较分散,则认为搜索出的点击内容并非是真正让用户满意的点击内容。
计算每类的核心搜索内容的搜索次数与所有类的核心搜索内容的搜索次数之和的占比,得到每类的核心搜索内容引发的点击集中度。
由于并不清楚哪些搜索内容是头部热点搜索内容,为了精确的确定出头部热点搜索内容,采用逐步试探的思想来确定,根据每个分位数确定出一组头部热点搜索内容组,其中,每组头部热点搜索内容组中包括多个头部热点搜索内容。
示例性的,假设定义了3个分位数,例如,60%,65%,70%,则将多类的核心搜索内容中位于前60%的核心搜索内容确定为头部热点搜索内容,得到第一组头部热点搜索内容组,将多类的核心搜索内容中位于前65%的核心搜索内容确定为头部热点搜索内容,得到第二组头部热点搜索内容组,将多类的核心搜索内容中位于前70%的核心搜索内容确定为头部热点搜索内容,得到第三组头部热点搜索内容组。
S15,根据所述预设第二数据库表中的搜索内容引发的点击内容,过滤出所述多个用户满意的核心搜索内容中的假性满意的核心搜索内容。
实际应用时,公司会为了业务发展,对某些内容重点曝光,即无论是否搜索这一内容,都会作为搜索内容的点击内容进行显示,但这些内容并非是用户真正满意的点击内容。因此,为了避免用户虽然没有找到匹配的点击内容但是某个正在推广的内容因为曝光度高而排位靠前被点击的情况,需要过滤出所述多个用户满意的核心搜索内容中的假性满意的核心搜索内容。
在一个可选的实施例中,所述根据所述预设第二数据库表中的搜索内容引发的点击内容,过滤出所述多个用户满意的核心搜索内容中的假性满意的核心搜索内容包括:
根据所述预设第二数据库表中的搜索内容引发的点击内容,匹配出与每个用户满意的核心搜索内容对应的所有目标点击内容;
提取每个所述目标点击内容的点击文本向量;
计算每个用户满意的核心搜索内容的搜索文本向量及对应的每个点击文本向量之间的相似度;
根据所述相似度过滤出所述多个用户满意的核心搜索内容中的假性满意的核心搜索内容。
该可选的实施例中,先对每个点击内容进行分词处理,得到多个分词,再删除所述多个分词中的无意义词,得到多个有意义词,接着更新所述多个有意义词为多个标准词,最后按照提取所述目标搜索内容的搜索文本向量提取所述目标点击内容的点击文本向量。
可以计算搜索文本向量与对应的点击文本向量之间的欧式距离或者余弦夹角,作为搜索文本向量与对应的点击文本向量之间的相似度。相似度越大,表明搜索文本向量与对应的点击文本向量之间越相似,搜索内容与点击内容之间越匹配;相似度越小,表明搜索文本向量与对应的点击文本向量之间越不相似,搜索内容与点击内容之间越不匹配。
针对每个用户满意的核心搜索内容,从对应的多个相似度中获取小于预设相似度阈值的多个第一目标相似度,将每个第一目标相似度对应的用户满意的核心搜索内容确定为假性满意的核心搜索内容;从对应的多个相似度中获取大于或者等于预设相似度阈值的多个第二目标相似度,将每个第二目标相似度对应的用户满意的核心搜索内容确定为阳性满意的核心搜索内容。
该可选的实施例中,通过计算搜索内容与搜索内容引发的点击内容之间的相似度,过滤出所述多个用户满意的核心搜索内容中的假性满意的核心搜索内容,能够进一步提高用户不满意的核心搜索内容的质量。
在一个可选的实施例中,针对每组头部热点搜索内容组,过滤出所述多个用户满意的核心搜索内容中的假性满意的核心搜索内容,在将所有的头部热点搜索内容组对应的假性满意的核心搜索内容聚合在一起,作为最终的假性满意的核心搜索内容。如此,能够提高用户不满意的核心搜索内容的数量,从而提高用户不满意的核心搜索内容的质量。
在一个可选的实施例中,所述方法还包括:
从所述相似度中获取小于预设相似度阈值的多个第一目标相似度,及从所述相似度中获取大于或者等于预设相似度阈值的多个第二目标相似度;
对所述多个第一目标相似度对应的点击内容进行第一标记,及对所述多个第二目标相似度对应的点击内容进行第二标记;
响应于用户输入的搜索内容,显示与所输入的搜索内容对应的点击内容,并在显示的点击内容上显示第一标记或者第二标记。
该可选的实施例中,通过在显示的点击内容上显示第一标记,能够提醒用户该点击内容虽然曝光度较高排位靠前,但与要搜索的内容关联性不大;通过在显示的点击内容上显示第二标记,能够提醒用户该点击内容虽然曝光度较低排位靠后,但与要搜索的内容是有一定的关联性的。如此,用户可以根据第一标记或者第二标记确定是否点击所显示的点击内容,避免用户对每一个点击内容均执行点击操作来查询所要搜索的内容,从而提高用户的查询效率,提高用户的搜索体验。
S16,根据所述多个用户不满意的核心搜索内容及所述假性满意的核心搜索内容进行课程推荐。
通过上述方案,确定了用户搜索的热词及每个热词对应的一系列用户不满意的核心搜索内容。将所述用户不满意的核心搜索内容缓存至内容选题池,并将所述内容选题池中新增的核心搜索内容实时推送给目标终端,由目标终端结合企业现有目标进行课程推荐。或者,由计算机设备的管理者根据所述多个用户不满意的核心搜索内容及所述假性满意的核心搜索内容制定课程,并推荐课程给用户。
综上所述,本申请通过从搜索内容中提取出多个热词,并针对每个热词,获取包含所述热词的目标搜索内容,从而提取所述目标搜索内容的搜索文本向量;对同一热词对应的多个搜索文本向量进行聚类,并根据聚类后的质心确定每类的核心搜索内容,确定出核心搜索内容,能够缩小用户关注的需求点;根据预设第二数据库表中的搜索内容引发的点击次数,从多类的核心搜索内容中识别出多个用户满意的核心搜索内容和多个用户不满意的核心搜索内容,能够进一步确定出用户关注的需求点和不关注的需求点;最后,根据所述预设第二数据库表中的搜索内容引发的点击内容,过滤出所述多个用户满意的核心搜索内容中的假性满意的核心搜索内容,即对结合用户的点击内容对用户关注的需求点进一步过滤,得到用户不关注的需求点,最后根据所述多个用户不满意的核心搜索内容及所述假性满意的核心搜索内容能够真实的挖掘出潜在目标内容,从而针对用户真正的需求点推荐相关的课程。本申请可以应用于智慧教育中,促进智慧城市的建设与发展。
需要强调的是,为进一步保证上述第一数据库表和第二数据库表的私密性和安全性,上述第一数据库表和第二数据库表可存储于区块链的节点中。
图2是本发明实施例二提供的基于搜索内容的课程推荐装置的结构图。
在一些实施例中,所述基于搜索内容的课程推荐装置20可以包括多个由计算机程序段所组成的功能模块。所述基于搜索内容的课程推荐装置20中的各个程序段的计算机程序可以存储于计算机设备的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)基于搜索内容的课程推荐的功能。
本实施例中,所述基于搜索内容的课程推荐装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:提取模块201、聚类模块202、识别模块203、过滤模块204、显示模块205及推荐模块206。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述提取模块201,用于根据预设第一数据库表中的搜索内容提取出多个热词。
其中,所述预设第一数据库表用于记录搜索内容与搜索次数之间的映射关系。
获取每个用户输入的搜索内容,并按照时间顺序将所述搜索内容存储于预设第一数据库表中。每存储一个搜索内容后,计算所述预设第一数据库表中与所存储的搜索内容相同的搜索内容的数量,作为所述搜索内容的搜索次数。
在一个可选的实施例中,所述提取模块201根据预设第一数据库表中的搜索内容提取出多个热词包括:
对所述搜索内容进行分词处理,得到多个分词;
删除所述多个分词中的无意义词,得到多个有意义词;
更新所述多个有意义词为多个标准词;
计算所述多个标准词中的每个标准词的热度;
根据所述热度从所述多个标准词中提取出多个热词。
可以使用结巴分词工具对所述预设第一数据库表中的每个搜索内容进行分词处理,使得每个搜索内容被处理为多个分词。由于多个分词之中存在停用词、特殊符号、隐藏符号等无意义词,将这些无意义词进行删除,便于提高后续对搜索内容的处理效率。将删除无意义词之后的多个分词称之为有意义词。可以根据预设标准词库表将所述多个有意义词更新为多个标准词。
当对所述预设第一数据库表中所有的搜索内容进行分词处理并更新为标准词之后,计算每一个标准词的TF-IDF值,得到每一个标准词的热度。按照从大到小的顺序对热度进行排序,并提取排序在前预设数量的热度对应的标准词,作为热词,或者提取大于预设热度阈值的热度对应的标准词,作为热词。
可以采用TF-IDF模型计算每个标准词的TF-IDF值。其中,所述TF-IDF模型是一种统计方法,用以评估标准词在整个语料库中的重要程度。计算标准词的TF-IDF值,能够区分出该标准词是否是一个重要的标准词,从而便于对标准词进行过滤操作。
在一个可选的实施例中,所述计算每个标准词的TF-IDF值包括:
计算每个标准词在所有标准词中的词频;
获取每个标准词的逆文档频率;
计算所述词频与所述逆文档频率的乘积,得到所述标准词的TF-IDF值。
TF是指词频(Term Frequency),指的是某一个给定的标准词在所有标准词组成的语料库中出现的频率。TF是对词数(Term Count)的归一化,以防止它偏向长的文本(同一个词语在长文件里可能会比短文件有更高的词数,而不管该词语重要与否)。IDF是指逆文档频率(Inverse document frequency),某一给定的标准词的IDF,可以由总标准词数目除以该标准词的数目,再将得到的商取对数得到。
所述提取模块201,还用于针对每个热词,获取包含所述热词的目标搜索内容,并提取所述目标搜索内容的搜索文本向量。
由于在实际搜索时,会存在大量搜索文本不同但搜索语义类似的搜索内容,因此,需要针对每个热词,将包含同一个热词的多个目标搜索内容认为是相类似的搜索内容。
在一个可选的实施例中,所述提取模块201提取所述目标搜索内容的搜索文本向量包括:
获取所述目标搜索内容中的每个标准词对应的TF-IDF值;
根据每个标准词对应的TF-IDF值生成热度文本向量;
定义卷积核向量;
从所述热度文本向量中的起始位置开始逐次滑动所述卷积核向量直至滑动至所述热度文本向量中的终止位置,获取每次滑动时所述热度文本向量中与所述卷积核向量对应的子文本向量;
根据每次滑动时所述卷积核向量与对应的子文本向量计算卷积结果;
根据多个所述卷积结果生成搜索文本向量。
由于搜索内容的多样性,直接根据TF-IDF值为每一个目标搜索内容生成热度文本向量的空间分布会比较分散,不利于后续的聚类,通过卷积运算将所述热度文本向量转换为搜索文本向量,使所述搜索文本向量集中在特定的向量空间中,能够提高搜索文本向量的聚类效率,从而提高提取核心搜索内容的效率;通过卷积运算,能够将相似度较大的搜索内容转换为相似度更大的搜索文本向量,而将相似度较小的搜索内容转换为相似度更小的搜索文本向量,能够提高搜索文本向量的聚类质量,从而提高提取核心搜索内容的准确率。
所述聚类模块202,用于对同一热词对应的多个搜索文本向量进行聚类,并根据聚类后的质心确定每类的核心搜索内容。
针对每个热词,将包含每个热词的多个目标搜索内容进行聚类,并提取每一类的核心搜索内容,能够提炼出不同的搜索意图。
本实施例中,可以采用K-means聚类算法基于多个所述搜索文本向量进行聚类。
对同一热词对应的多个搜索文本向量进行聚类后,得到多个聚类,每一类有一个质心。将每一类的质心对应的搜索文本向量确定为核心搜索文本向量,并将核心搜索文本向量对应的搜索内容确定为核心搜索内容。
示例性的,假设有100个热词,每一个热词对应30个核心搜索内容,则共有3000个核心搜索内容。
所述识别模块203,用于根据预设第二数据库表中的搜索内容引发的点击次数,从多类的核心搜索内容中识别出多个用户满意的核心搜索内容和多个用户不满意的核心搜索内容。
其中,所述预设第二数据库表用于记录搜索内容、引发的点击内容及由此搜索内容引发此点击内容的点击次数之间的映射关系。
当获取到用户输入的搜索内容之后,将与所述搜索内容相关的多个内容显示给用户,并在侦测到用户点击了相关的多个内容之后,将搜索内容及点击内容关联存储于预设第二数据库表中。每存储一个点击内容后,计算所述预设第二数据库表中与所存储的点击内容相同的点击内容的数量,作为所述点击内容的点击次数。所述点击次数为由搜索内容引发的点击内容的点击数量。
根据预设第二数据库表中的搜索内容引发的点击次数,确定出每个热词对应的多个用户满意的核心搜索内容和多个用户不满意的核心搜索内容。
在一个可选的实施例中,所述识别模块203根据预设第二数据库表中的搜索内容引发的点击次数,从多类的核心搜索内容中识别出多个用户满意的核心搜索内容和多个用户不满意的核心搜索内容包括:
根据预设第二数据库表中的搜索内容引发的点击次数,计算每类的核心搜索内容的搜索次数;
根据所述搜索次数识别出多类的核心搜索内容中的多个头部热点搜索内容;
将所述多个头部热点搜索内容确定为多个用户满意的核心搜索内容,及将多个非头部热点搜索内容确定为多个用户不满意的核心搜索内容。
具体实施时,首先确定每类包括的目标搜索内容,然后从所述预设第二数据库表匹配出与每个目标搜索内容对应的搜索内容,再匹配出每个搜索内容引发的点击内容的点击次数,最后计算该类中的目标搜索内容对应的所有点击次数之和,得到该类的核心搜索内容的搜索次数。
因为搜索文本具有长尾性,即便通过聚类也依然会存在很多搜索次数少且语义各不相同的搜索内容,因此,根据每类的核心搜索内容确定出头部热点搜索内容,从而确定出哪些搜索内容是用户满意的核心搜索内容,哪些搜索内容是用户不满意的核心搜索内容。
在一个可选的实施例中,所述根据所述搜索次数识别出所述多类的核心搜索内容中的多个头部热点搜索内容包括:
根据所述搜索次数计算每类的核心搜索内容引发的点击集中度;
对所述点击集中度进行倒序排序;
确定排序后的点击集中度中的分位数;
将位于所述分位数之前的多个点击集中度对应的核心搜索内容确定为多个头部热点搜索内容。
通常而言,只有搜索后有点击行为,且同类搜索内容引发的点击内容非常集中,则认为搜索出的点击内容是真正让用户满意的点击内容。如果同类搜索内容引发的点击内容比较分散,则认为搜索出的点击内容并非是真正让用户满意的点击内容。
计算每类的核心搜索内容的搜索次数与所有类的核心搜索内容的搜索次数之和的占比,得到每类的核心搜索内容引发的点击集中度。
由于并不清楚哪些搜索内容是头部热点搜索内容,为了精确的确定出头部热点搜索内容,采用逐步试探的思想来确定,根据每个分位数确定出一组头部热点搜索内容组,其中,每组头部热点搜索内容组中包括多个头部热点搜索内容。
示例性的,假设定义了3个分位数,例如,60%,65%,70%,则将多类的核心搜索内容中位于前60%的核心搜索内容确定为头部热点搜索内容,得到第一组头部热点搜索内容组,将多类的核心搜索内容中位于前65%的核心搜索内容确定为头部热点搜索内容,得到第二组头部热点搜索内容组,将多类的核心搜索内容中位于前70%的核心搜索内容确定为头部热点搜索内容,得到第三组头部热点搜索内容组。
所述过滤模块204,用于根据所述预设第二数据库表中的搜索内容引发的点击内容,过滤出所述多个用户满意的核心搜索内容中的假性满意的核心搜索内容。
实际应用时,公司会为了业务发展,对某些内容重点曝光,即无论是否搜索这一内容,都会作为搜索内容的点击内容进行显示,但这些内容并非是用户真正满意的点击内容。因此,为了避免用户虽然没有找到匹配的点击内容但是某个正在推广的内容因为曝光度高而排位靠前被点击的情况,需要过滤出所述多个用户满意的核心搜索内容中的假性满意的核心搜索内容。
在一个可选的实施例中,所述过滤模块204根据所述预设第二数据库表中的搜索内容引发的点击内容,过滤出所述多个用户满意的核心搜索内容中的假性满意的核心搜索内容包括:
根据所述预设第二数据库表中的搜索内容引发的点击内容,匹配出与每个用户满意的核心搜索内容对应的所有目标点击内容;
提取每个所述目标点击内容的点击文本向量;
计算每个用户满意的核心搜索内容的搜索文本向量及对应的每个点击文本向量之间的相似度;
根据所述相似度过滤出所述多个用户满意的核心搜索内容中的假性满意的核心搜索内容。
该可选的实施例中,先对每个点击内容进行分词处理,得到多个分词,再删除所述多个分词中的无意义词,得到多个有意义词,接着更新所述多个有意义词为多个标准词,最后按照提取所述目标搜索内容的搜索文本向量提取所述目标点击内容的点击文本向量。
可以计算搜索文本向量与对应的点击文本向量之间的欧式距离或者余弦夹角,作为搜索文本向量与对应的点击文本向量之间的相似度。相似度越大,表明搜索文本向量与对应的点击文本向量之间越相似,搜索内容与点击内容之间越匹配;相似度越小,表明搜索文本向量与对应的点击文本向量之间越不相似,搜索内容与点击内容之间越不匹配。
针对每个用户满意的核心搜索内容,从对应的多个相似度中获取小于预设相似度阈值的多个第一目标相似度,将每个第一目标相似度对应的用户满意的核心搜索内容确定为假性满意的核心搜索内容;从对应的多个相似度中获取大于或者等于预设相似度阈值的多个第二目标相似度,将每个第二目标相似度对应的用户满意的核心搜索内容确定为阳性满意的核心搜索内容。
该可选的实施例中,通过计算搜索内容与搜索内容引发的点击内容之间的相似度,过滤出所述多个用户满意的核心搜索内容中的假性满意的核心搜索内容,能够进一步提高用户不满意的核心搜索内容的质量。
在一个可选的实施例中,针对每组头部热点搜索内容组,过滤出所述多个用户满意的核心搜索内容中的假性满意的核心搜索内容,在将所有的头部热点搜索内容组对应的假性满意的核心搜索内容聚合在一起,作为最终的假性满意的核心搜索内容。如此,能够提高用户不满意的核心搜索内容的数量,从而提高用户不满意的核心搜索内容的质量。
所述显示模块205,用于从所述相似度中获取小于预设相似度阈值的多个第一目标相似度,及从所述相似度中获取大于或者等于预设相似度阈值的多个第二目标相似度;对所述多个第一目标相似度对应的点击内容进行第一标记,及对所述多个第二目标相似度对应的点击内容进行第二标记;响应于用户输入的搜索内容,显示与所输入的搜索内容对应的点击内容,并在显示的点击内容上显示第一标记或者第二标记。
该可选的实施例中,通过在显示的点击内容上显示第一标记,能够提醒用户该点击内容虽然曝光度较高排位靠前,但与要搜索的内容关联性不大;通过在显示的点击内容上显示第二标记,能够提醒用户该点击内容虽然曝光度较低排位靠后,但与要搜索的内容是有一定的关联性的。如此,用户可以根据第一标记或者第二标记确定是否点击所显示的点击内容,避免用户对每一个点击内容均执行点击操作来查询所要搜索的内容,从而提高用户的查询效率,提高用户的搜索体验。
所述推荐模块206,用于根据所述多个用户不满意的核心搜索内容及所述假性满意的核心搜索内容进行课程推荐。
通过上述方案,确定了用户搜索的热词及每个热词对应的一系列用户不满意的核心搜索内容。将所述用户不满意的核心搜索内容缓存至内容选题池,并将所述内容选题池中新增的核心搜索内容实时推送给目标终端,由目标终端结合企业现有目标进行课程推荐。或者,由计算机设备的管理者根据所述多个用户不满意的核心搜索内容及所述假性满意的核心搜索内容制定课程,并推荐课程给用户。
综上所述,本申请通过从搜索内容中提取出多个热词,并针对每个热词,获取包含所述热词的目标搜索内容,从而提取所述目标搜索内容的搜索文本向量;对同一热词对应的多个搜索文本向量进行聚类,并根据聚类后的质心确定每类的核心搜索内容,确定出核心搜索内容,能够缩小用户关注的需求点;根据预设第二数据库表中的搜索内容引发的点击次数,从多类的核心搜索内容中识别出多个用户满意的核心搜索内容和多个用户不满意的核心搜索内容,能够进一步确定出用户关注的需求点和不关注的需求点;最后,根据所述预设第二数据库表中的搜索内容引发的点击内容,过滤出所述多个用户满意的核心搜索内容中的假性满意的核心搜索内容,即对结合用户的点击内容对用户关注的需求点进一步过滤,得到用户不关注的需求点,最后根据所述多个用户不满意的核心搜索内容及所述假性满意的核心搜索内容能够真实的挖掘出潜在目标内容,从而针对用户真正的需求点推荐相关的课程。本申请可以应用于智慧教育中,促进智慧城市的建设与发展。
需要强调的是,为进一步保证上述第一数据库表和第二数据库表的私密性和安全性,上述第一数据库表和第二数据库表可存储于区块链的节点中。
参阅图3所示,为本发明实施例三提供的计算机设备的结构示意图。在本发明较佳实施例中,所述计算机设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的计算机设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述计算机设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述计算机设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述计算机设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31中存储有计算机程序,所述计算机程序被所述至少一个处理器32执行时实现如所述的基于搜索内容的课程推荐方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一些实施例中,所述至少一个处理器32是所述计算机设备3的控制核心(Control Unit),利用各种接口和线路连接整个计算机设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行计算机设备3的各种功能和处理数据。例如,所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本发明实施例中所述的基于搜索内容的课程推荐方法的全部或者部分步骤;或者实现基于搜索内容的课程推荐装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(CentralProcessing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述计算机设备3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,计算机设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。本发明陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (9)

1.一种基于搜索内容的课程推荐方法,其特征在于,所述方法包括:
根据预设第一数据库表中的搜索内容提取出多个热词;
针对每个热词,获取包含所述热词的目标搜索内容,并提取所述目标搜索内容的搜索文本向量;
对同一热词对应的多个搜索文本向量进行聚类,并根据聚类后的质心确定每类的核心搜索内容;
根据预设第二数据库表中的搜索内容引发的点击次数,从多类的核心搜索内容中识别出多个用户满意的核心搜索内容和多个用户不满意的核心搜索内容;
根据所述预设第二数据库表中的搜索内容引发的点击内容,过滤出所述多个用户满意的核心搜索内容中的假性满意的核心搜索内容,包括:根据所述预设第二数据库表中的搜索内容引发的点击内容,匹配出与每个用户满意的核心搜索内容对应的所有目标点击内容;提取每个所述目标点击内容的点击文本向量;计算每个用户满意的核心搜索内容的搜索文本向量与对应的每个点击文本向量之间的相似度;根据所述相似度过滤出所述多个用户满意的核心搜索内容中的假性满意的核心搜索内容;
根据所述多个用户不满意的核心搜索内容及所述假性满意的核心搜索内容进行课程推荐。
2.如权利要求1所述的基于搜索内容的课程推荐方法,其特征在于,所述根据预设第二数据库表中的搜索内容引发的点击次数,从多类的核心搜索内容中识别出多个用户满意的核心搜索内容和多个用户不满意的核心搜索内容包括:
根据预设第二数据库表中的搜索内容引发的点击次数,计算每类的核心搜索内容的搜索次数;
根据所述搜索次数识别出多类的核心搜索内容中的多个头部热点搜索内容;
将所述多个头部热点搜索内容确定为多个用户满意的核心搜索内容,及将多个非头部热点搜索内容确定为多个用户不满意的核心搜索内容。
3.如权利要求2所述的基于搜索内容的课程推荐方法,其特征在于,所述根据所述搜索次数识别出所述多类的核心搜索内容中的多个头部热点搜索内容包括:
根据所述搜索次数计算每类的核心搜索内容引发的点击集中度;
对所述点击集中度进行倒序排序;
确定排序后的点击集中度中的分位数;
将位于所述分位数之前的多个点击集中度对应的核心搜索内容确定为多个头部热点搜索内容。
4.如权利要求1所述的基于搜索内容的课程推荐方法,其特征在于,所述根据预设第一数据库表中的搜索内容提取出多个热词包括:
对所述搜索内容进行分词处理,得到多个分词;
删除所述多个分词中的无意义词,得到多个有意义词;
更新所述多个有意义词为多个标准词;
计算所述多个标准词中的每个标准词的热度;
根据所述热度从所述多个标准词中提取出多个热词。
5.如权利要求4所述的基于搜索内容的课程推荐方法,其特征在于,所述提取所述目标搜索内容的搜索文本向量包括:
获取所述目标搜索内容中的每个标准词对应的TF-IDF值;
根据每个标准词对应的TF-IDF值生成热度文本向量;
定义卷积核向量;
从所述热度文本向量中的起始位置开始逐次滑动所述卷积核向量直至滑动至所述热度文本向量中的终止位置,获取每次滑动时所述热度文本向量中与所述卷积核向量对应的子文本向量;
根据每次滑动时所述卷积核向量与对应的子文本向量计算卷积结果;
根据多个所述卷积结果生成搜索文本向量。
6.如权利要求5所述的基于搜索内容的课程推荐方法,其特征在于,所述方法还包括:
从所述相似度中获取小于预设相似度阈值的多个第一目标相似度,及从所述相似度中获取大于或者等于预设相似度阈值的多个第二目标相似度;
对所述多个第一目标相似度对应的点击内容进行第一标记,及对所述多个第二目标相似度对应的点击内容进行第二标记;
响应于用户输入的搜索内容,显示与所输入的搜索内容对应的点击内容,并在显示的点击内容上显示第一标记或者第二标记。
7.一种基于搜索内容的课程推荐装置,其特征在于,所述装置包括:
提取模块,用于根据预设第一数据库表中的搜索内容提取出多个热词;
所述提取模块,还用于针对每个热词,获取包含所述热词的目标搜索内容,并提取所述目标搜索内容的搜索文本向量;
聚类模块,用于对同一热词对应的多个搜索文本向量进行聚类,并根据聚类后的质心确定每类的核心搜索内容;
识别模块,用于根据预设第二数据库表中的搜索内容引发的点击次数,从多类的核心搜索内容中识别出多个用户满意的核心搜索内容和多个用户不满意的核心搜索内容;
过滤模块,用于根据所述预设第二数据库表中的搜索内容引发的点击内容,过滤出所述多个用户满意的核心搜索内容中的假性满意的核心搜索内容,包括:根据所述预设第二数据库表中的搜索内容引发的点击内容,匹配出与每个用户满意的核心搜索内容对应的所有目标点击内容;提取每个所述目标点击内容的点击文本向量;计算每个用户满意的核心搜索内容的搜索文本向量与对应的每个点击文本向量之间的相似度;根据所述相似度过滤出所述多个用户满意的核心搜索内容中的假性满意的核心搜索内容;
推荐模块,用于根据所述多个用户不满意的核心搜索内容及所述假性满意的核心搜索内容进行课程推荐。
8.一种计算机设备,其特征在于,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至6中任意一项所述的基于搜索内容的课程推荐方法。
9.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任意一项所述的基于搜索内容的课程推荐方法。
CN202110000753.2A 2021-01-04 2021-01-04 基于搜索内容的课程推荐方法、装置、计算机设备及介质 Active CN112328752B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110000753.2A CN112328752B (zh) 2021-01-04 2021-01-04 基于搜索内容的课程推荐方法、装置、计算机设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110000753.2A CN112328752B (zh) 2021-01-04 2021-01-04 基于搜索内容的课程推荐方法、装置、计算机设备及介质

Publications (2)

Publication Number Publication Date
CN112328752A CN112328752A (zh) 2021-02-05
CN112328752B true CN112328752B (zh) 2021-06-15

Family

ID=74302012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110000753.2A Active CN112328752B (zh) 2021-01-04 2021-01-04 基于搜索内容的课程推荐方法、装置、计算机设备及介质

Country Status (1)

Country Link
CN (1) CN112328752B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112988980B (zh) * 2021-05-12 2021-07-30 太平金融科技服务(上海)有限公司 目标产品查询方法、装置、计算机设备和存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102087734A (zh) * 2011-03-04 2011-06-08 宇龙计算机通信科技(深圳)有限公司 商品推荐方法、商品推荐系统及移动终端
CN103530389B (zh) * 2013-10-22 2017-08-22 北京奇虎科技有限公司 一种提高停用词搜索有效性的方法和装置
US11250008B2 (en) * 2015-04-17 2022-02-15 Steven Michael VITTORIO Content search and results
CN106844472A (zh) * 2016-12-22 2017-06-13 北京搜狗科技发展有限公司 一种搜索方法和装置、一种用于搜索的装置
CN107220384B (zh) * 2017-06-29 2019-11-15 北京拉勾科技有限公司 一种基于相关性的搜索词处理方法、装置及计算设备
CN107341268B (zh) * 2017-07-25 2020-06-05 北京奇艺世纪科技有限公司 一种热搜榜排序方法及系统
CN110619076B (zh) * 2018-12-25 2023-04-07 北京时光荏苒科技有限公司 一种搜索词推荐方法、装置、计算机及存储介质
CN111475729B (zh) * 2020-04-07 2023-07-25 腾讯科技(深圳)有限公司 搜索内容推荐方法及装置
CN111538903B (zh) * 2020-04-17 2023-03-31 抖音视界有限公司 搜索推荐词确定方法、装置、电子设备及计算机可读介质
CN111708890B (zh) * 2020-07-09 2023-09-19 腾讯科技(深圳)有限公司 一种搜索词确定方法和相关装置

Also Published As

Publication number Publication date
CN112328752A (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
WO2022141861A1 (zh) 情感分类方法、装置、电子设备及存储介质
WO2022105115A1 (zh) 问答对匹配方法、装置、电子设备及存储介质
CN103336793B (zh) 一种个性化论文推荐方法及其系统
CN113312461A (zh) 基于自然语言处理的智能问答方法、装置、设备及介质
CN113836131B (zh) 一种大数据清洗方法、装置、计算机设备及存储介质
WO2022222942A1 (zh) 问答记录生成方法、装置、电子设备及存储介质
CN113435202A (zh) 基于用户画像的产品推荐方法、装置、电子设备及介质
CN112288337B (zh) 行为推荐方法、装置、设备及介质
CN115002200A (zh) 基于用户画像的消息推送方法、装置、设备及存储介质
Feng et al. Practical duplicate bug reports detection in a large web-based development community
CN112860989B (zh) 课程推荐方法、装置、计算机设备及存储介质
CN108241867A (zh) 一种分类方法及装置
CN114398560B (zh) 基于web平台的营销界面设置方法、装置、设备及介质
CN116362684A (zh) 一种基于图书馆集群的图书管理方法、装置、设备及存储介质
CN114862140A (zh) 基于行为分析的潜力评估方法、装置、设备及存储介质
CN114862520A (zh) 产品推荐方法、装置、计算机设备及存储介质
CN112328752B (zh) 基于搜索内容的课程推荐方法、装置、计算机设备及介质
CN112860851B (zh) 基于根因分析的课程推荐方法、装置、设备及介质
CN113674065A (zh) 基于服务触点的业务推荐方法、装置、电子设备及介质
CN110929526A (zh) 样本生成方法、装置以及电子设备
CN113505117A (zh) 基于数据指标的数据质量评估方法、装置、设备及介质
CN113434660A (zh) 基于多领域分类的产品推荐方法、装置、设备及存储介质
CN113590792A (zh) 用户问题的处理方法、装置和服务器
CN113064984A (zh) 意图识别方法、装置、电子设备及可读存储介质
CN115392206B (zh) 基于wps/excel快速查询数据方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant