CN103810162A - 推荐网络信息的方法和系统 - Google Patents

推荐网络信息的方法和系统 Download PDF

Info

Publication number
CN103810162A
CN103810162A CN201210436266.1A CN201210436266A CN103810162A CN 103810162 A CN103810162 A CN 103810162A CN 201210436266 A CN201210436266 A CN 201210436266A CN 103810162 A CN103810162 A CN 103810162A
Authority
CN
China
Prior art keywords
network information
user
information
network
aggregate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210436266.1A
Other languages
English (en)
Other versions
CN103810162B (zh
Inventor
王亮
姚从磊
翟俊杰
温泉
李新娟
张文龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201210436266.1A priority Critical patent/CN103810162B/zh
Publication of CN103810162A publication Critical patent/CN103810162A/zh
Application granted granted Critical
Publication of CN103810162B publication Critical patent/CN103810162B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种推荐网络信息的方法和系统。所述方法包括:根据网络信息的点击次数对网络平台中的网络信息进行划分得到信息集合和对应的评级;对信息集合中的网络信息进行特征抽取得到浏览行为特征,并根据所述浏览行为特征训练得到所述信息集合对应的分类模型;将更新的网络信息输入分类模型得到所属的信息集合;根据所述更新的网络信息所属的信息集合对应的评级进行所述更新的网络信息的推荐。所述系统包括:信息处理模块、特征处理模块、预测模块以及推荐模块。采用本发明能提高推荐的准确性。

Description

推荐网络信息的方法和系统
技术领域
本发明涉及信息处理技术,特别是涉及一种推荐网络信息的方法和系统。
背景技术
各种各样的论坛、门户网站等网络平台通过互联网络为用户提供大量的网络信息,例如,论坛中发布的文章、门户网站中更新的新闻等。每一个为用户提供网络信息的网络平台所拥有以及更新的网络信息数量是非常庞大的,为了避免用户淹没于海量网络信息中,常常对网络信息进行筛选,将筛选得到的网络信息推荐给用户。
传统的网络信息推荐方法包括了编辑的挑选推荐和基于网络信息质量的智能推荐。编辑的挑选推荐主要是由编辑依据个人经验进行网络信息的挑选,以挑选出个人认为可能受欢迎的网络信息;基于网络信息质量的智能推荐是由编辑挑选语料,通过语料训练出与网络信息质量相关的预测模型,进而将网络平台中更新的网络信息输入预测模型中得到相应的质量评分,将一定数量的质量评分较高的网络信息推荐给用户。
然而,对于编辑的挑选推荐而言,所挑选得到的网络信息大都与编辑自身的品味和知识背景等因素相关,但这些网络信息并不一定是用户所喜欢的,因此,这一网络信息推荐方法较为随意,无法准确地推荐符合用户意图的网络信息。
对于基于网络信息质量的智能推荐而言,形成预测模型的语料也是由编辑挑选的,因此,也存在着无法准确地推荐符合用户意图的网络信息的问题。
发明内容
基于此,提供一种能提高准确性的推荐网络信息的方法。
此外,还有必要提供一种能提高准确性的推荐网络信息的系统。
一种推荐网络信息的方法,包括如下步骤:
根据网络信息的点击次数对网络平台中的网络信息进行划分得到信息集合和对应的评级;
对信息集合中的网络信息进行特征抽取得到浏览行为特征,并根据所述浏览行为特征训练得到所述信息集合对应的分类模型;
将更新的网络信息输入分类模型得到所属的信息集合;
根据所述更新的网络信息所属的信息集合对应的评级进行所述更新的网络信息的推荐。
一种推荐网络信息的系统,其特征在于,包括:
信息处理模块,用于根据网络信息的点击次数对网络平台中的网络信息进行划分得到信息集合和对应的评级;
特征处理模块,用于对信息集合中的网络信息进行特征抽取得到浏览行为特征,并根据所述浏览行为特征训练得到所述信息集合对应的分类模型;
预测模块,用于将更新的网络信息输入分类模型得到所属的信息集合;
推荐模块,用于根据所述更新的网络信息所属的信息集合对应的评级进行所述更新的网络信息的推荐。
上述推荐网络信息的方法和系统,根据网络信息的点击次数对网络平台中的网络信息进行划分以得信息集合和对应的评级,然后从划分的信息集合中逐一抽取网络信息的浏览行为特征,以根据这一浏览行为特征进行训练得到分类模型,进而将更新的网络信息输入分类模型中得到该网络信息所属的信息集合,从而根据该网络信息所属的信息集合对应的评级对更新的网络信息进行推荐,由于网络信息的点击次数以及网络信息的浏览行为特征均反映了用户意思,因此根据网络信息的点击次数和浏览行为特征所实现的网络信息推荐将有效地提高了准确性。
附图说明
图1为一个实施例中推荐网络信息的方法流程图;
图2为另一个实施例中推荐网络信息的方法流程图;
图3为一个实施例中根据网络信息的点击次数对网络平台中的网络信息进行划分得到信息集合和对应的评级的方法流程图;
图4为一个实施例中对信息集合中的网络信息进行特征抽取得到浏览行为特征,并根据浏览行为特征训练得到信息集合对应的分类模型的方法流程图;
图5为一个实施例中根据更新的网络信息所属的信息集合对应的评级进行更新的网络信息的推荐的方法流程图;
图6为一个实施例中推荐网络信息的应用示意图;
图7为另一个实施例中推荐网络信息的原理示意图;
图8为图6中推荐网络信息的应用示意图;
图9为一个实施例中推荐网络信息的结构示意图;
图10为另一个实施例中推荐网络信息的结构示意图;
图11为一个实施例中信息处理模块的结构示意图;
图12为一个实施例中特征处理模块的结构示意图;
图13为一个实施例中推荐模块的结构示意图。
具体实施方式
如图1所示,在一个实施例中,一种推荐网络信息的方法,包括如下步骤:
步骤S110,根据网络信息的点击次数对网络平台中的网络信息进行划分得到信息集合和对应的评级。
本实施例中,网络信息的点击次数是指网络平台中每一网络信息所对应的点击次数,通常认为某一网络信息的点击次数较多,相应的,这一网络信息的受欢迎程度也就越高。对网络平台中的若干个网络信息按照点击次数进行划分,以得到多个信息集合以及信息集合所对应的评级,该评级与信息集合中网络信息的点击次数相关,可用于衡量信息集合中的网络信息受欢迎程度,评级越高则相应信息集合中的网络信息越受欢迎。
例如,信息集合对应的评级可分为第一评级、第二评级和第三评级这三档,第一评级所对应的信息集合中网络信息的点击次数均处于68至100的范围之内,第二评级所对应的信息集合中网络信息的点击次数均处于34至67的范围之内,第三评级所对应的信息集合中网络信息的点击次数均处于0至33的范围内,根据上述每一评级所对应的范围进行网络平台中网络信息的划分,进而将网络平台中的网络信息划分到相应的信息集合中,实现海量网络信息的分类管理。
步骤S130,对信息集合中的网络信息进行特征抽取得到浏览行为特征,并根据浏览行为特征训练得到信息集合对应的分类模型。
本实施例中,如表1所示,浏览行为特征包括了网络信息的浏览量、回复数。浏览趋势等特征项,而表1中的范围指的是每一特征项所对应的数值范围。
序号 特征提取 范围
1 文章标题 字符串长度
2 标题信息熵 [0,1]
3 正文长度 个数
4 标点正文比 [0,1]
5 语言平滑性 [0,1]
6 正文信息熵 [0,1]
7 词性信息熵 [0.1]
8 图片数 个数
9 段落排版 [0,1]
10 浏览量 个数
11 回复数 个数
12 浏览趋势 [0,1]
13 作者权威度 [0,1]
表1
同一信息集合中网络信息对应的点击次数以及受欢迎程度是相近似的,对这一类相近似的网络信息进行特征提取得到浏览行为特征,提取得到的浏览行为特征将作为信息集合的特征,用于与其它信息集合的网络信息相区别。
以信息集合中的网络信息作为语料,浏览行为特征作为特征,应用svm(support vector machine,支持向量机)算法或其它算法进行分类模型的训练,进而方便对后续的网络信息应用新的分类模型进行受欢迎程度即关注度的预测。
上述分类模型的训练可以根据需要再次训练分类模型,以实现分类模型的更新。例如预先设定分类模型的更新周期为7天,此时,将每隔7天进行一次网络信息点击次数的获取、信息集合的划分,进而在新划分得到的信息集合中进行特征抽取得到浏览行为特征,进而再次完成分类模型的训练,实现分类模型的更新。
步骤S150,将更新的网络信息输入分类模型得到所属的信息集合。
本实施例中,在训练得到新的分类模型之后,从更新的网络信息抽取特征,并抽取得到的特征将输入分类模型中以识别出更新的网络信息是属于哪一个信息集合的。步骤S170,根据更新的网络信息所属的信息集合对应的评级进行更新的网络信息的推荐。
本实施例中,对于更新的网络信息而言,所属的信息集合对应的评级预测了更新的网络信息在网络平台中展示时受到用户欢迎的程度,例如,某一更新的网络信息所属的信息集合对应的评级为第一评级则认为这一更新的网络信息是最有可能受用户欢迎、最符合用户意图的,因此,将会在网络平台中对这一更新的网络信息进行推荐。
如图2所示,在另一个实施例中,上述推荐网络信息的方法还包括如下步骤:
步骤S210,将更新的网络信息输入分类模型得到其与所属的信息集合对应的匹配值。
本实施例中,从更新的网络信息抽取特征并输入分类模型之后还将计算得到更新的网络信息与所属的信息集合之间的匹配值。匹配值的高低用于衡量更新的网络信息与所属的信息集合之间的相似程序,匹配值越高,则更新的网络信息与所属的信息集合中的网络信息越相似,相应的,更新的网络信息是用户期望浏览到的网络信息的可能性也与信息集合中的网络信息相似,因此,可根据匹配值来准确地进行更新的网络信息的推荐。
步骤S230,根据更新的网络信息所属的信息集合对应的评级和匹配值进行更新的网络信息的推荐。
本实施例中,对于更新的网络信息而言,对应的匹配值进一步确定了更新的网络信息在网络平台中展示时受到用户欢迎的程度。例如,对于所属的信息集合对应的评级为第一评级的更新的网络信息而言,其对应的匹配值也高于其它更新的网络信息,则进一步确认这一更新的网络信息是最受用户欢迎、最符合用户意图的,通过匹配值的辅助进一步提高了网络信息推荐的准确性。
在一个实施例中,上述推荐网络信息的方法中,在网络平台运行初期尚未产生任何网络信息的点击时,无法根据网络信息的点击次数来实现推荐,此时,将通过人工的方式对网络信息进行评级,处于同一评级的网络信息将属于同一个信息集合中。从信息集合中提取网络信息的特征,并通过提取的特征进行分类模型的训练,进而通过训练得到的分类模型得到更新的网络信息所属的信息集合和匹配值,根据所属信息集合的评级和匹配值进行网络平台的初次推荐。
在另一个实施例中,上述步骤S110之前还包括:
获取通过客户端采集得到的日志数据以及对应的用户标识,根据日志数据对用户标识进行聚类处理得到用户集合。
本实施例中,客户端可以是浏览器、各种可访问网络平台的网络应用客户端等。日志数据是通过访问网络平台产生的,反映了用户在网络平台中的浏览行为。在用户访问网络平台时将客户端将会生成相应的日志数据,并且生成的日志数据也记录了用户登录网络平台所使用的用户标识,因此,通过客户端可获取到用户标识以及每一用户标识所对应的日志数据。
根据日志数据对用户标识进行分类,对应了相似日志数据的用户标识将属于同一用户集合。这一用户标识的分类可通过自动聚类方法,例如k-均值聚类方法来实现。
进一步的,在对用户标识进行聚类处理的过程中,从日志数据中提取用户特征,每一用户特征都将有相应的特征值,以便于将每一个用户表述为一系列的数值,进而方便快捷地通过数值实现用户的聚合处理。例如,提取的用户特征如表2所示,可以包括浏览网络信息数量、浏览时段、是否浏览过占总浏览量较大的某一网络信息、客户端型号、用户标识等信息。
Figure BDA00002359193800071
表2
如图2所示,在一个实施例中,上述步骤S110的过程为:
步骤S111,对用户集合中每一用户标识所点击的网络信息进行次数统计,得到网络信息在用户集合中的点击次数。
本实施例中,在任一用户集合中,每一用户标识所点击的网络信息可能为多个,需要对网络信息的点击次数进行统计以得到每一网络信息在这一个用户集合中被点击的次数。
步骤S113,根据网络信息在用户集合中的点击次数对网络信息进行划分得到用户集合对应的信息集合和评级。
本实施例中,在对任一用户集合所点击过的网络信息进行了点击次数的统计之后,根据网络信息的点击次数对属于这一用户集合的用户点击次数和网络信息进行划分以得到信息集合和评级,每一用户集合将对应了若干个集合组合和评级。
步骤S115,将信息集合和用户集合相关联。
本实施例中,关联信息集合和用户集合,建立信息集合和用户集合之间的对应关系,以方便后续针对不同的用户类别进行网络信息的推荐。
如图3所示,在一个实施例中,上述步骤S 130的过程为:
步骤S131,在与用户集合相关联的信息集合中抽取网络信息的浏览行为特征。
本实施例中,在与用户集合相关联的若干个信息集合分别抽取网络信息的浏览行为特征,该浏览行为特征是与网络信息所属的信息集合相对应的。
步骤S133,根据浏览行为特征训练得到信息集合对应的分类模型,并将分类模型与用户集合相关联。
本实施例中,根据浏览行为特征以及信息集合中的网络信息,对每一用户集合所对应的若干个信息集合分别训练相对应的分类模型,并将训练得到的多个分类模型与用户集合相关联。
如图4所示,在一个实施例中,上述步骤S 170的过程为:
步骤S171,根据评级,或者,根据评级和匹配值选取输入分类模型的网络信息。
本实施例中,对于每一用户集合而言,将根据评级,或者,根据评级和匹配值对输入分类模型的多个网络信息进行选取,以选取出评级或者评级和匹配值都较高的预设数量的网络信息,进而在与分类模型相关联的用户集合中记录的用户标识登录至网络平台时,将选取的网络信息推荐至该用户标识所在的页面,提高了网络信息推荐的针对性和准确性,使得网络信息推荐更加符合用户意图。
进一步的,选取得到的网络信息是与用户集合相对应的,该用户集合是与分类模型相关联的,进而使得这一选取得到的网络信息是为该用户集合推荐的网络信息。
步骤S173,获取当前登录的用户标识,判断当前登录的用户标识是否存在于用户集合中,若是,则进入步骤S175,若否,则进入步骤S 177。
本实施例中,在用户访问网络平台并通过用户标识进行登录时,将获取当前所登录的用户标识,进而识别当前登录的用户标识所属的用户集合,进而获取为这一用户集合推荐的网络信息直接向访问网络平台的用户进行推荐,不需要再进行复杂的处理,有利于提高网络平台推荐的效率。
步骤S175,根据当前登录的用户标识进行选取得到的网络信息的推送。
本实施例中,推送的网络信息输入的分类模型是与当前登录的用户标识所存在的用户集合相关联的。
步骤S177,推送选取得到的网络信息。
本实施例中,在未识别出当前登录的用户标识所属的用户集合时,将所有选取得到的网络信息推送给用户。
下面结合一个具体的实施例来详细阐述上述推荐网络信息的方法。该实施例中,用户通过点击网络平台中网络信息的标题等链接开启网络信息,以实现网络信息的浏览。如图5所示,上述推荐网络信息的方法包括了分类模型训练流程410和预测推荐流程430。在用户点击网络平台上的网络信息时将统计网络信息的点击次数,根据网络信息的点击次数得到信息集合以及对应的评级,从信息集合中抽取所包含的网络信息的浏览行为特征,并用于进行训练以得到分类模型。
在训练得到分类模型之后,将进入预测推荐流程430对网络平台中更新的网络信息进行预测推荐。抽取更新的网络信息中的特征,并通过分类模型得到更新的网络信息所对应的评级和匹配值,进而根据评级和匹配值的高低顺序提取预设数量的网络信息进行推荐。
如图6所示,为了进一步提高推荐的准确性,将首先通过步骤S601至S605对用户进行分类以得到用户所处的类别即用户集合n,进而向这一用户推荐通过用户集合n所对应的分类模型选取得到的网络信息,从而针对每一用户实现个性化的推荐。若用户没有处于任一用户集合中,则通过步骤S607和S609直接根据每一个更新的网络信息所对应的评级和匹配值进行推荐即可。
如图7所示,将收集客户端中产生的日志数据以及日志数据中记录的用户标识,该用户标识是用户登录至网络平台中用于区分用户身份的标记。在获取到日志数据以及对应的用户标识之后,通过步骤S701对用户进行聚类处理,以将同类用户聚焦在一起形成用户集合1、用户集合2和用户集合3,其中,每一用户集合记录了同类用户对应的用户标识。
分别对用户集合1、用户集合2和用户集合3中用户所点击的网络信息进行点击次数的统计,以得到每一网络信息在相应的用户集合中的点击次数,例如,获取用户集合1中用户点击的多个网络信息,统计每一网络信息被用户集合1中的用户进行点击的次数,以得到每一网络信息在用户集合1中的点击次数,以相应的方式统计得到网络信息在用户集合2中的点击次数和网络信息在用户集合3中的点击次数。
在步骤S703中,针对每一个用户集合,需要根据点击次数对该用户集合中用户所点击的网络信息进行划分,以得到该用户集合对应的信息集合和评级,每一用户集合将对应了多个信息集合和评级,进而在多个信息集合中分别抽取网络信息的浏览行为特征,根据浏览行为特征进行训练得到每一信息集合所对应的分类模型,并将分类模型与用户集合相关联。在图7中,对每一用户集合划分了3个评级的信息集合,并且每一信息集合对应了一个分类模型,因此,每一用户集合所拥有的分类模型也为3个。
此时,每一类别,即每一个用户集合均有相应的信息集合以及分类模型,换而言之,用户集合与多个信息集合相对应,而每一信息集合与分类模型一一对应,进而使得用户集合也将与多个分类模型存在着对应关系。
通过步骤S705抽取了更新的网络信息中的特征之后,将输入每一分类模型中进行预测,以获知更新的网络信息所属的信息集合以及更新的网络信息与所属的信息集合之间的匹配值,通过这一方式,在每一个用户集合中,通过步骤S707对应的多个分类模型都将预测得到多个更新的网络信息所属的信息集合和匹配值。
在某一用户访问网络平台,相应的用户标识在网络平台中登录时,识别该用户标识所属的用户集合,进而对这一用户集合中多个分类模型所预测得到的多个更新的网络信息根据相应的评级和匹配值进行选取,以得到为这一用户集合推荐的网络信息,进而向访问网络平台的用户推荐。
如图8所示,在一个实施例中,一种推荐网络信息的系统,包括信息处理模块110、特征处理模块130、预测模块150以及推荐模块170。
信息处理模块110,用于根据网络信息的点击次数对网络平台中的网络信息进行划分得到信息集合和对应的评级。
本实施例中,网络信息的点击次数是指网络平台中每一网络信息所对应的点击次数,通常认为某一网络信息的点击次数较多,相应的,这一网络信息的受欢迎程度也就越高。信息处理模块110对网络平台中的若干个网络信息按照点击次数进行划分,以得到多个信息集合以及信息集合所对应的评级,该评级与信息集合中网络信息的点击次数相关,可用于衡量信息集合中的网络信息受欢迎程度,评级越高则相应信息集合中的网络信息越受欢迎。
例如,信息集合对应的评级可分为第一评级、第二评级和第三评级这三档,第一评级所对应的信息集合中网络信息的点击次数均处于68至100的范围之内,第二评级所对应的信息集合中网络信息的点击次数均处于34至67的范围之内,第三评级所对应的信息集合中网络信息的点击次数均处于0至33的范围内,信息处理模块110根据上述每一评级所对应的范围进行网络平台中网络信息的划分,进而将网络平台中的网络信息划分到相应的信息集合中,实现海量信息的分类管理。
特征处理模块130,用于对信息集合中的网络信息进行特征抽取得到浏览行为特征,并根据浏览行为特征训练得到信息集合对应的分类模型。
本实施例中,浏览行为特征包括了网络信息的浏览量、回复数。浏览趋势等特征项。同一信息集合中网络信息对应的点击次数以及受欢迎程度是相近似的,特征处理模块130对这一类相近似的网络信息进行特征提取得到浏览行为特征,提取得到的浏览行为特征将作为信息集合的特征,用于与其它信息集合的网络信息相区别。
特征处理模块130以信息集合中的网络信息作为语料,浏览行为特征作为特征,应用svm算法或其它算法进行分类模型的训练,进而方便对后续的网络信息应用新的分类模型进行受欢迎程度即关注度的预测。
上述分类模型的训练可以根据需要再次训练分类模型,以实现分类模型的更新。例如预先设定分类模型的更新周期为7天,此时,将每隔7天进行一次网络信息点击次数的获取、信息集合的划分,进而在新划分得到的信息集合中进行特征抽取得到浏览行为特征,进而再次完成分类模型的训练,实现分类模型的更新。
预测模块150,用于将更新的网络信息输入分类模型得到所属的信息集合。
本实施例中,在训练得到新的分类模型之后,预测模块150从更新的网络信息抽取特征,并抽取得到的特征将输入分类模型中以识别出更新的网络信息是属于哪一个信息集合的。
推荐模块170,用于根据更新的网络信息所属的信息集合对应的评级进行更新的网络信息的推荐。
本实施例中,对于更新的网络信息而言,所属的信息集合对应的评级预测了更新的网络信息在网络平台中展示时受到用户欢迎的程度,例如,某一更新的网络信息所属的信息集合对应的评级为第一评级,则认为这一更新的网络信息是最有可能受用户欢迎、最符合用户意图的,因此,推荐模块170将会在网络平台中对这一更新的网络信息进行推荐。
在另一个实施例中,上述预测模块150还用于将更新的网络信息输入分类模型得到其与所属的信息集合对应的匹配值。
本实施例中,从更新的网络信息抽取特征并输入分类模型之后预测模块150还将计算得到更新的网络信息与所属的信息集合之间的匹配值。匹配值的高低用于衡量更新的网络信息与所属的信息集合之间的相似程序,匹配值越高,则更新的网络信息与所属的信息集合中的网络信息越相似,相应的,更新的网络信息是用户期望浏览到的网络信息的可能性也与信息集合中的网络信息相似,因此,可根据匹配值来准确地进行更新的网络信息的推荐。
上述推荐模块170还用于根据更新的网络信息所属的信息集合对应的评级和匹配值进行更新的网络信息的推荐。
本实施例中,对于更新的网络信息而言,对应的匹配值进一步确定了更新的网络信息在网络平台中展示时受到用户欢迎的程度。例如,对于所属的信息集合对应的评级为第一评级的更新的网络信息而言,其对应的匹配值也高于其它更新的网络信息,则进一步确认这一更新的网络信息是最受用户欢迎、最符合用户意图的,推荐模块170通过匹配值的辅助进一步提高了网络信息推荐的准确性。
在一个实施例中,上述推荐网络信息的系统中,在网络平台运行初期尚未产生任何网络信息的点击时,无法根据网络信息的点击次数来实现推荐,此时,将通过人工的方式对网络信息进行评级,处于同一评级的网络信息将属于同一个信息集合中。从信息集合中提取网络信息的特征,并通过提取的特征进行分类模型的训练,进而通过训练得到的分类模型得到更新的网络信息所属的信息集合和匹配值,根据所属信息集合的评级和匹配值进行网络平台的初次推荐。
如图9所示,在另一个实施例中,上述推荐网络信息的系统还包括聚类处理模块210。
聚类处理模块210,用于获取通过客户端采集得到的日志数据以及对应的用户标识,根据日志数据对用户标识进行聚类处理得到用户集合,该日志数据是通过访问网络平台产生的。
本实施例中,客户端可以是浏览器、各种可访问网络平台的网络应用客户端等。日志数据是通过访问网络平台产生的,反映了用户在网络平台中的浏览行为。在用户访问网络平台时将客户端将会生成相应的日志数据,并且生成的日志数据也记录了用户登录网络平台所使用的用户标识,因此,聚类处理模块210通过客户端可获取到用户标识以及每一用户标识所对应的日志数据。
聚类处理模块210根据日志数据对用户标识进行分类,对应了相似日志数据的用户标识将属于同一用户集合。这一用户标识的分类可通过自动聚类方法,例如k-均值聚类方法来实现。
进一步的,在对用户标识进行聚类处理的过程中,聚类处理模块210从日志数据中提取用户特征,每一用户特征都将有相应的特征值,以便于将每一个用户表述为一系列的数值,进而方便快捷地通过数值实现用户的聚合处理。例如,提取的用户特征可以包括浏览网络信息数量、浏览时段、是否浏览过占总浏览量较大的某一网络信息、客户端型号、用户标识等信息。
如图10所示,在一个实施例中,上述信息处理模块110包括计数单元111、划分单元113以及关联单元115。
计数单元111,用于对用户集合中每一用户标识所点击的网络信息进行次数统计,得到网络信息在用户集合中的点击次数。
本实施例中,在任一用户集合中,每一用户标识所点击的网络信息可能为多个,计数单元111需要对网络信息的点击次数进行统计以得到每一网络信息在这一个用户集合中被点击的次数。
划分单元113,用于根据网络信息在用户集合中的点击次数对网络信息进行划分得到信息集合和对应的评级。
本实施例中,在对任一用户集合所点击过的网络信息进行了点击次数的统计之后,划分单元113根据网络信息的点击次数对属于这一用户集合的用户点击次数和网络信息进行划分以得到信息集合和评级,每一用户集合将对应了若干个集合组合和评级。
关联单元115,用于将信息集合和用户集合相关联。
本实施例中,关联单元115关联信息集合和用户集合,建立信息集合和用户集合之间的对应关系,以方便后续针对不同的用户类别进行网络信息的推荐。
如图11所示,在一个实施例中,上述特征处理模块130包括抽取单元131以及训练单元133。
抽取单元131,用于在用户集合相关联的信息集合中抽取网络信息的浏览行为特征。
本实施例中,抽取单元131在与用户集合相关联的若干个信息集合分别抽取网络信息的浏览行为特征,该浏览行为特征是与网络信息所属的信息集合相对应的。
训练单元133,用于根据浏览行为特征训练得到信息集合对应的分类模型,并将分类模型与用户集合相关联。
本实施例中,训练单元133根据浏览行为特征以及信息集合中的网络信息,对每一用户集合所对应的若干个信息集合分别训练相对应的分类模型,并将训练得到的多个分类模型与用户集合相关联。
如图12所示,在一个实施例中,上述推荐模块170包括选取单元171、识别单元173和推送单元175。
选取单元171,用于根据评级,或者,根据评级和匹配值输入分类模型的网络信息。
本实施例中,对于每一用户集合而言,选取单元171将根据评级和匹配值对输入分类模型的多个网络信息进行选取,以选取出评级或者评级和匹配值都较高的预设数量的网络信息,进而在与分类模型相关联的用户集合中记录的用户标识登录至网络平台时,将选取的网络信息推荐至该用户标识所在的页面,提高了网络信息推荐的针对性和准确性,使得网络信息推荐更加符合用户意图。
进一步的,选取得到的网络信息是与用户集合相对应的,该用户集合是与分类模型相关联的,进而使得这一选取得到的网络信息是为该用户集合推荐的网络信息。
识别单元173,用于获取当前登录的用户标识,判断当前登录的用户标识是否存在于用户集合中,若是,则通知推送单元175根据当前登录的用户标识进行选取得到的网络信息的推送,推送的网络信息输入的分类模型是与当前登录的用户标识所存在的用户集合相关联的,若否,则通知推送单元175推送选取得到的网络信息。
本实施例中,在用户访问网络平台并通过用户标识进行登录时,识别单元173将获取当前所登录的用户标识,进而识别当前登录的用户标识所属的用户集合,进而获取为这一用户集合推荐的网络信息直接向访问网络平台的用户进行推荐,不需要再进行复杂的处理,有利于提高网络平台推荐的效率。
在识别到当前登录的用户标识所属的用户集合时,推送单元175所推送的网络信息输入的分类模型是与当前登录的用户标识所存在的用户集合相关联的。在未识别到当前登录的用户标识所属的用户集合时,推送单元175将所有选取得到的网络信息推送给用户。
上述推荐网络信息的方法和系统,根据网络信息的点击次数对网络平台中的网络信息进行划分以得信息集合和对应的评级,然后从划分的信息集合中逐一抽取网络信息的浏览行为特征,以根据这一浏览行为特征进行训练得到分类模型,进而将更新的网络信息输入分类模型中得到该网络信息所属的信息集合,从而根据该网络信息所属的信息集合对应的评级对更新的网络信息进行推荐,由于网络信息的点击次数以及网络信息的浏览行为特征均反映了用户意思,因此根据网络信息的点击次数和浏览行为特征所实现的网络信息推荐将有效地提高了准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (12)

1.一种推荐网络信息的方法,包括如下步骤:
根据网络信息的点击次数对网络平台中的网络信息进行划分得到信息集合和对应的评级;
对信息集合中的网络信息进行特征抽取得到浏览行为特征,并根据所述浏览行为特征训练得到所述信息集合对应的分类模型;
将更新的网络信息输入分类模型得到所属的信息集合;
根据所述更新的网络信息所属的信息集合对应的评级进行所述更新的网络信息的推荐。
2.根据权利要求1所述的推荐网络信息的方法,其特征在于,还包括:
将更新的网络信息输入分类模型得到其与所属的信息集合对应的匹配值;
根据所述更新的网络信息所属的信息集合对应的评级和匹配值进行所述更新的网络信息的推荐。
3.根据权利要求1或2所述的推荐网络信息的方法,其特征在于,所述根据网络信息的点击次数对网络平台中的网络信息进行划分得到信息集合和对应的评级的步骤之前还包括:
获取通过客户端采集得到的日志数据以及对应的用户标识,根据所述日志数据对所述用户标识进行聚类处理得到用户集合。
4.根据权利要求3所述的推荐网络信息的方法,其特征在于,所述根据网络信息的点击次数对网络平台中的网络信息进行划分得到信息集合和对应的评级的步骤包括:
对用户集合中每一用户标识所点击的网络信息进行次数统计,得到网络信息在所述用户集合中的点击次数;
根据所述网络信息在所述用户集合中的点击次数对所述网络信息进行划分得到所述用户集合对应的信息集合和评级;
将所述信息集合和所述用户集合相关联。
5.根据权利要求4所述的推荐网络信息的方法,其特征在于,所述对信息集合中的网络信息进行特征抽取得到浏览行为特征,并根据所述浏览行为特征训练得到所述信息集合对应的分类模型的步骤包括:
在与所述用户集合相关联的信息集合中抽取网络信息的浏览行为特征;
根据所述浏览行为特征训练得到所述信息集合对应的分类模型,并将所述分类模型与用户集合相关联。
6.根据权利要求5所述的推荐网络信息的方法,其特征在于,所述根据所述更新的网络信息所属的信息集合对应的评级进行所述更新网络信息的推荐的步骤包括:
根据评级,或者,根据评级和匹配值选取输入分类模型的网络信息;
获取当前登录的用户标识,判断所述当前登录的用户标识是否存在于用户集合中,若是,则根据当前登录的用户标识进行选取得到的网络信息的推送,所述推送的网络信息输入的分类模型是与当前登录的用户标识所存在的用户集合相关联的。
7.一种推荐网络信息的系统,其特征在于,包括:
信息处理模块,用于根据网络信息的点击次数对网络平台中的网络信息进行划分得到信息集合和对应的评级;
特征处理模块,用于对信息集合中的网络信息进行特征抽取得到浏览行为特征,并根据所述浏览行为特征训练得到所述信息集合对应的分类模型;
预测模块,用于将更新的网络信息输入分类模型得到所属的信息集合;
推荐模块,用于根据所述更新的网络信息所属的信息集合对应的评级进行所述更新的网络信息的推荐。
8.根据权利要求7所述的推荐网络信息的系统,其特征在于,所述预测模块还用于将更新的网络信息输入分类模型得到其与所属的信息集合对应的匹配值;
所述推荐模块还用于根据所述更新的网络信息所属的信息集合对应的评级和匹配值进行所述更新的网络信息的推荐。
9.根据权利要求7或8所述的推荐网络信息的系统,其特征在于,还包括:
聚类处理模块,用于获取通过客户端采集得到的日志数据以及对应的用户标识,根据所述日志数据对所述用户标识进行聚类处理得到用户集合。
10.根据权利要求9所述的推荐网络信息的系统,其特征在于,所述信息处理模块包括:
计数单元,用于对用户集合中每一用户标识所点击的网络信息进行次数统计,得到网络信息在用户集合中的点击次数;
划分单元,用于根据所述网络信息在所述用户集合中的点击次数对所述网络信息进行划分得到信息集合和对应的评级;
关联单元,用于将所述信息集合和所述用户集合相关联。
11.根据权利要求0所述的推荐网络信息的方法,其特征在于,所述特征处理模块包括:
抽取单元,用于在与所述用户集合相关联的信息集合中抽取网络信息的浏览行为特征;
训练单元,用于根据所述浏览行为特征训练得到所述信息集合对应的分类模型,并将所述分类模型与用户集合相关联。
12.根据权利要求11所述的推荐网络信息的系统,其特征在于,所述推荐模块包括:
选取单元,用于根据评级,或者,根据评级和匹配值选取输入分类模型的网络信息;
识别单元,用于获取当前登录的用户标识,判断所述当前登录的用户标识是否存在于用户集合中,若是,则通知推送单元;
所述推送单元用于根据当前登录的用户标识进行选取得到的网络信息的推送;所述推送的网络信息输入的分类模型是与当前登录的用户标识所存在的用户集合相关联的。
CN201210436266.1A 2012-11-05 2012-11-05 推荐网络信息的方法和系统 Active CN103810162B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210436266.1A CN103810162B (zh) 2012-11-05 2012-11-05 推荐网络信息的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210436266.1A CN103810162B (zh) 2012-11-05 2012-11-05 推荐网络信息的方法和系统

Publications (2)

Publication Number Publication Date
CN103810162A true CN103810162A (zh) 2014-05-21
CN103810162B CN103810162B (zh) 2017-12-12

Family

ID=50706949

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210436266.1A Active CN103810162B (zh) 2012-11-05 2012-11-05 推荐网络信息的方法和系统

Country Status (1)

Country Link
CN (1) CN103810162B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335491A (zh) * 2015-10-20 2016-02-17 杭州东信北邮信息技术有限公司 基于用户点击行为来向用户推荐图书的方法和系统
CN105718533A (zh) * 2016-01-15 2016-06-29 百度在线网络技术(北京)有限公司 信息推送方法和装置
CN105824818A (zh) * 2015-01-04 2016-08-03 中国移动通信集团河北有限公司 一种信息化管理方法、平台及系统
CN107491432A (zh) * 2017-06-20 2017-12-19 北京百度网讯科技有限公司 基于人工智能的低质量文章识别方法及装置、设备及介质
CN107577736A (zh) * 2017-08-25 2018-01-12 上海斐讯数据通信技术有限公司 一种基于bp神经网络的文件推荐方法及系统
WO2018040310A1 (zh) * 2016-09-05 2018-03-08 北京百度网讯科技有限公司 基于人工智能的推荐数据的获取方法、装置、设备及非易失性计算机存储介质
CN108171267A (zh) * 2017-12-28 2018-06-15 广州优视网络科技有限公司 用户群划分方法及装置、消息推送方法及装置
CN109255081A (zh) * 2018-09-26 2019-01-22 郑州云海信息技术有限公司 一种基于云平台的门户业务导航方法及系统
CN109587328A (zh) * 2018-11-21 2019-04-05 Oppo广东移动通信有限公司 消息管理方法和装置、存储介质及电子设备
CN110097066A (zh) * 2018-01-31 2019-08-06 阿里巴巴集团控股有限公司 一种用户分类方法、装置及电子设备
CN112487240A (zh) * 2020-11-02 2021-03-12 泰康保险集团股份有限公司 一种视频数据的推荐方法和装置
US11843651B2 (en) 2019-04-03 2023-12-12 Huawei Technologies Co., Ltd. Personalized recommendation method and system, and terminal device

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007122450A1 (en) * 2006-04-24 2007-11-01 Sony Ericsson Mobile Communications Ab Method and system for recommending media content to a user of a mobile radio terminal
CN102054003A (zh) * 2009-11-04 2011-05-11 北京搜狗科技发展有限公司 网络信息推荐、建立网络资源索引的方法及系统
CN102340514A (zh) * 2010-07-15 2012-02-01 腾讯科技(北京)有限公司 网络信息推送方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007122450A1 (en) * 2006-04-24 2007-11-01 Sony Ericsson Mobile Communications Ab Method and system for recommending media content to a user of a mobile radio terminal
CN102054003A (zh) * 2009-11-04 2011-05-11 北京搜狗科技发展有限公司 网络信息推荐、建立网络资源索引的方法及系统
CN102340514A (zh) * 2010-07-15 2012-02-01 腾讯科技(北京)有限公司 网络信息推送方法及系统

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824818A (zh) * 2015-01-04 2016-08-03 中国移动通信集团河北有限公司 一种信息化管理方法、平台及系统
CN105335491A (zh) * 2015-10-20 2016-02-17 杭州东信北邮信息技术有限公司 基于用户点击行为来向用户推荐图书的方法和系统
CN105335491B (zh) * 2015-10-20 2018-11-09 杭州东信北邮信息技术有限公司 基于用户点击行为来向用户推荐图书的方法和系统
CN105718533A (zh) * 2016-01-15 2016-06-29 百度在线网络技术(北京)有限公司 信息推送方法和装置
WO2018040310A1 (zh) * 2016-09-05 2018-03-08 北京百度网讯科技有限公司 基于人工智能的推荐数据的获取方法、装置、设备及非易失性计算机存储介质
CN107491432A (zh) * 2017-06-20 2017-12-19 北京百度网讯科技有限公司 基于人工智能的低质量文章识别方法及装置、设备及介质
US11645554B2 (en) 2017-06-20 2023-05-09 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for recognizing a low-quality article based on artificial intelligence, device and medium
CN107577736A (zh) * 2017-08-25 2018-01-12 上海斐讯数据通信技术有限公司 一种基于bp神经网络的文件推荐方法及系统
CN108171267B (zh) * 2017-12-28 2022-03-22 阿里巴巴(中国)有限公司 用户群划分方法及装置、消息推送方法及装置
CN108171267A (zh) * 2017-12-28 2018-06-15 广州优视网络科技有限公司 用户群划分方法及装置、消息推送方法及装置
CN110097066A (zh) * 2018-01-31 2019-08-06 阿里巴巴集团控股有限公司 一种用户分类方法、装置及电子设备
CN110097066B (zh) * 2018-01-31 2024-01-05 阿里巴巴集团控股有限公司 一种用户分类方法、装置及电子设备
CN109255081A (zh) * 2018-09-26 2019-01-22 郑州云海信息技术有限公司 一种基于云平台的门户业务导航方法及系统
CN109587328A (zh) * 2018-11-21 2019-04-05 Oppo广东移动通信有限公司 消息管理方法和装置、存储介质及电子设备
US11843651B2 (en) 2019-04-03 2023-12-12 Huawei Technologies Co., Ltd. Personalized recommendation method and system, and terminal device
CN112487240A (zh) * 2020-11-02 2021-03-12 泰康保险集团股份有限公司 一种视频数据的推荐方法和装置
CN112487240B (zh) * 2020-11-02 2024-03-15 泰康保险集团股份有限公司 一种视频数据的推荐方法和装置

Also Published As

Publication number Publication date
CN103810162B (zh) 2017-12-12

Similar Documents

Publication Publication Date Title
CN103810162A (zh) 推荐网络信息的方法和系统
CN103914478B (zh) 网页训练方法及系统、网页预测方法及系统
CN107862022B (zh) 文化资源推荐系统
CN101556553B (zh) 基于需求变更的缺陷预测方法和系统
CN108363821A (zh) 一种信息推送方法、装置、终端设备及存储介质
CN103678618B (zh) 一种基于社交网络平台的Web服务推荐方法
CN103294815B (zh) 基于关键字分类并有多种呈现方式的搜索引擎装置与方法
CN105335491B (zh) 基于用户点击行为来向用户推荐图书的方法和系统
CN109800350A (zh) 一种个性化新闻推荐方法及系统、存储介质
CN104933622A (zh) 一种基于用户和微博主题的微博流行度预测方法及系统
CN106709754A (zh) 一种用基于文本挖掘的电力用户分群方法
CN106682686A (zh) 一种基于手机上网行为的用户性别预测方法
CN104462336A (zh) 信息推送方法和装置
CN103226578A (zh) 面向医学领域的网站识别和网页细分类的方法
CN105243087A (zh) It资讯聚合阅读个性化推荐方法
CN102855282B (zh) 一种文档推荐方法及装置
KR102361597B1 (ko) 빅데이터를 활용하여 뉴스 기사의 감성 정보를 레이블링하는 프로그램이 기록된 기록매체
CN111523055B (zh) 一种基于农产品特征属性评论倾向的协同推荐方法及系统
CN105225135B (zh) 潜力客户识别方法以及装置
CN108199951A (zh) 一种基于多算法融合模型的垃圾邮件过滤方法
CN103838754A (zh) 信息搜索装置及方法
CN112699295A (zh) 一种网页内容推荐方法、装置和计算机可读存储介质
CN113010705B (zh) 标签预测方法、装置、设备及存储介质
CN103869999B (zh) 对输入法所产生的候选项进行排序的方法及装置
CN106843941A (zh) 信息处理方法、装置和计算机设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant