CN106156259A - 一种用户行为信息展示方法及系统 - Google Patents

一种用户行为信息展示方法及系统 Download PDF

Info

Publication number
CN106156259A
CN106156259A CN201510208861.3A CN201510208861A CN106156259A CN 106156259 A CN106156259 A CN 106156259A CN 201510208861 A CN201510208861 A CN 201510208861A CN 106156259 A CN106156259 A CN 106156259A
Authority
CN
China
Prior art keywords
user
interest
key word
word
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510208861.3A
Other languages
English (en)
Inventor
章杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TVM Beijing Technology Co Ltd
Original Assignee
TVM Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TVM Beijing Technology Co Ltd filed Critical TVM Beijing Technology Co Ltd
Priority to CN201510208861.3A priority Critical patent/CN106156259A/zh
Publication of CN106156259A publication Critical patent/CN106156259A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用户行为信息展示方法及系统,所述方法包括:提取用户的特征信息;所述特征信息包括用户使用所述应用的行为信息和用户自定义信息;根据所述特征信息获取用户兴趣点;根据所述用户兴趣点获取兴趣关键词;根据所述兴趣关键词在用户浏览页面上做标引。本发明实施例的方案,能够根据用户自身的信息设定和行为设定,分析用户的兴趣点,并根据兴趣点为用户进行后续浏览页面的展示和标引,极大的提高了用户体验度。

Description

一种用户行为信息展示方法及系统
技术领域
本发明涉及互联网技术领域,特别涉及一种用户行为信息展示方法及系统。
背景技术
随着互联网技术的发展,交互变的越来越重要。在线的交互,已经成为日益重要的沟通模式。为了满足广大用户信息交互的需要,各种交互软件或者沟通软件应运而生。
微信是腾讯公司推出的一个为智能终端提供即时通讯服务的免费应用程序,微信支持跨通信运营商、跨操作系统平台通过网络快速发送免费(需消耗少量网络流量)语音短信、视频、图片和文字,同时,也可以使用通过共享流媒体内容的资料和基于位置的社交插件等服务插件。微信提供公众平台、朋友圈、消息推送等功能,用户可以通过“摇一摇”、“搜索号码”、“附近的人”、扫二维码方式添加好友和关注公众平台,同时微信将内容分享给好友以及将用户看到的精彩内容分享到微信朋友圈。
微信作为时下最热门的社交信息平台,也是移动端的一大入口,正在演变成为一大商业交易平台,其对营销行业带来的颠覆性变化开始显现。微信商城的开发也随之兴起,微信商城是基于微信而研发的一款社会化电子商务系统,消费者只要通过微信平台,就可以实现商品查询、选购、体验、互动、订购与支付的线上线下一体化服务模式。
微信公众账号是开发者或商家在微信公众平台上申请的应用账号,该帐号与QQ账号互通,通过公众账号,商家可在微信平台上实现和特定群体的文字、图片、语音、视频的全方位沟通、互动。形成了一种主流的线上线下微信互动营销方式。用户可以通过自身设备与公众账号进行互动。
当用户在浏览相关网页的时候,实际上用户很可能希望对该网页内容相关联的其它信息或者内容进行深入浏览,而现有技术中通常也会有网页上一些关键词高亮显示等,用以引起用户注意,从而继续进一步的浏览。
现有技术中,这种对于用户浏览网页内容的标识方式仅仅是对热度较高的词语进行标注,或者是对有更详细内容的词语进行标注,并未从用户的角度出发。因而,亟需要一种新的可以根据用户的兴趣爱好进行词语标注和信息展示的方案,以提高用户体验度。
发明内容
本发明提供一种用户行为信息展示方法及系统,用以解决现有技术中无法根据用户行为进行信息展示的问题。
本发明提供一种用户行为信息展示方法,包括:
提取用户的特征信息;所述特征信息包括用户使用应用程序的行为信息和用户自定义信息;
根据所述特征信息获取用户兴趣点;
根据所述用户兴趣点获取兴趣关键词;
根据所述兴趣关键词在用户浏览页面上做标引。
所述方法还包括:
根据所述特征信息将所述用户分为若干小组;
获取所述小组中用户的兴趣点;
根据所述兴趣点获取兴趣关键词;
根据所述兴趣关键词在小组内所有用户浏览页面上做标引。
所述方法还包括:
根据所述用户特征信息,采用聚类分析,将所述用户分为若干小组;每个所述小组对应若干用户;同一所述用户能够属于若干个所述小组。
所述在用户浏览页面上做标引包括:
在用户浏览页面上识别所述兴趣关键词;
为所述兴趣关键词设置链接,所述链接指向所述兴趣关键词对应的页面。
所述方法还包括:
将所述做标引的兴趣关键词特殊显示。
所述根据所述用户兴趣点获取兴趣关键词,包括:
对所述用户兴趣点进行分词处理,在得到的分词结果中取出现概率较大的词语作为兴趣关键词。
一种用户行为信息展示系统,包括:
特征信息提取单元,用于提取用户的特征信息;所述特征信息包括用户使用所述应用的行为信息和用户自定义信息;
兴趣点获取单元,用于根据所述特征信息获取用户兴趣点;
关键词获取单元,用于根据所述用户兴趣点获取兴趣关键词;
标引单元,用于根据所述兴趣关键词在用户浏览页面上做标引。
所述系统还包括分组单元,用于根据所述特征信息将所述用户分为若干小组;
所述兴趣点获取单元,获取所述小组中用户的兴趣点;
所述标引单元,根据所述兴趣关键词在小组内所有用户浏览页面上做标引。
所述标引单元,还用于:
在用户浏览页面上识别所述兴趣关键词;
为所述兴趣关键词设置链接,所述链接指向所述兴趣关键词对应的页面。
所述关键词获取单元,还用于:
对所述用户兴趣点进行分词处理,在得到的分词结果中取出现概率较大的词语作为兴趣关键词。
本发明实施例中,通过提取用户的特征信息;所述特征信息包括用户使用所述应用的行为信息和用户自定义信息;根据所述特征信息获取用户兴趣点;根据所述用户兴趣点获取兴趣关键词;根据所述兴趣关键词在用户浏览页面上做标引。本发明实施例的方案,能够根据用户自身的信息设定和行为设定,分析用户的兴趣点,并根据兴趣点为用户进行后续浏览页面的展示和标引,极大的提高了用户体验度。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例1提供的一种用户行为信息展示方法原理流程图;
图2为本发明实施例2提供的一种用户行为信息展示系统结构示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
如图1所示,为本发明实施例1提供的一种用户行为信息展示方法原理流程图,其中,
步骤11,提取用户的特征信息,特征信息包括用户使用所述应用的行为信息和用户自定义信息。
用户特征信息包括用户行为特征信息和用户自定义信息等,也就是包括了用户自身的信息、用户使用应用的行为信息、用户自行定义的自定义信息等。首先需要获取这些信息。通常,获取用户信息的方法包括了要求用户自行上传、在用户使用过程中提取特征信息等方式,或者,在用户使用应用的日志信息中,通过文本分析的方法获取用户特征信息。
特征提取如果基于用户行为的日志数据进行文本提取的话,就要用到文本特征提取。文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖掘所处理的数据是结构化的,而文档(web)都是半结构或无结构的。所以,文本挖掘面临的首要问题是如何在计算机中合理地表示文本,使之既要包含足够的信息以反映文本的特征,又不至于过于复杂使学习算法无法处理。在浩如烟海的网络信息中,80%的信息是以文本的形式存放的,WEB文本挖掘是WEB内容挖掘的一种重要形式。
文本的表示及其特征项的选取是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。由于文本是非结构化的数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。目前人们通常采用向量空间模型来描述文本向量,但是如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,那么这个向量的维度将是非常的大。这种未经处理的文本矢量不仅给后续工作带来巨大的计算开销,使整个处理过程的效率非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果很难令人满意。因此,必须对文本向量做进一步净化处理,在保证原文含义的基础上,找出对文本特征类别最具代表性的文本特征。为了解决这个问题,最有效的办法就是通过特征选择来降维。
目前有关文本表示的研究主要集中于文本表示模型的选择和特征词选择算法的选取上。用于表示文本的基本单位通常称为文本的特征或特征项。特征项必须具备一定的特性:1)特征项要能够确实标识文本内容;2)特征项具有将目标文本与其他文本相区分的能力;3)特征项的个数不能太多;4)特征项分离要比较容易实现。在中文文本中可以采用字、词或短语作为表示文本的特征项。相比较而言,词比字具有更强的表达能力,而词和短语相比,词的切分难度比短语的切分难度小得多。因此,目前大多数中文文本分类系统都采用词作为特征项,称作特征词。这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算。如果把所有的词都作为特征项,那么特征向量的维数将过于巨大,从而导致计算量太大,在这样的情况下,要完成文本分类几乎是不可能的。特征抽取的主要功能是在不损伤文本核心信息的情况下尽量减少要处理的单词数,以此来降低向量空间维数,从而简化计算,提高文本处理的速度和效率。文本特征选择对文本内容的过滤和分类、聚类处理、自动摘要以及用户兴趣模式发现、知识发现等有关方面的研究都有非常重要的影响。通常根据某个特征评估函数计算各个特征的评分值,然后按评分值对这些特征进行排序,选取若干个评分值最高的作为特征词,这就是特征抽取(FeatureSelection)。
特征选取的方式有4种:(I)用映射或变换的方法把原始特征变换为较少的新特征;(2)从原始特征中挑选出一些最具代表性的特征;(3)根据专家的知识挑选最有影响的特征;(4)用数学的方法进行选取,找出最具分类信息的特征,这种方法是一种比较精确的方法,人为因素的干扰较少,尤其适合于文本自动分类挖掘系统的应用。
实际上,在提取用户特征的过程中,需要对用户信息以及行为信息全面分析,并设定合理的提取特征数量和具体内容,以更全面的反应用户实际的行为特征,从而为后续的分类处理奠定基础。
步骤12,根据特征信息获取用户兴趣点。
具体来说,根据用户的特征信息获取用户的兴趣点,通常需要用到聚类方法。或者,可以将特征信息相近的用户进行分组。
在提取用户特征的基础上,根据用户特征之间的联系,将用户分为若干个小组。每个小组对应一个或多个用户特征信息,这样就将用户根据自身的特征信息分配到不同的小组。同一小组对应多个用户,同一用户根据自身的特征信息可以对应多个小组。
根据用户特征将用户分组的方案,需要用到聚类算法。聚类分析属于探索性的数据分析方法。通常,我们利用聚类分析将看似无序的对象进行分组、归类,以达到更好地理解研究对象的目的。聚类结果要求组内对象相似性较高,组间对象相似性较低。在用户研究中,很多问题可以借助聚类分析来解决,比如,网站的信息分类问题、网页的点击行为关联性问题以及用户分类问题等等。其中,用户分类是最常见的情况。
聚类分析计算方法主要有如下几种:
1、划分方法(partitioning methods)
给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K<N。而且这K个分组满足下列条件:(1)每一个分组至少包含一个数据纪录;(2)每一个数据纪录属于且仅属于一个分组(注意:这个要求在某些模糊聚类算法中可以放宽);对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的纪录越远越好。使用这个基本思想的算法有:K-MEANS算法、K-MEDOIDS算法、CLARANS算法;
大部分划分方法是基于距离的。给定要构建的分区数k,划分方法首先创建一个初始化划分。然后,它采用一种迭代的重定位技术,通过把对象从一个组移动到另一个组来进行划分。一个好的划分的一般准备是:同一个簇中的对象尽可能相互接近或相关,而不同的簇中的对象尽可能远离或不同。还有许多评判划分质量的其他准则。传统的划分方法可以扩展到子空间聚类,而不是搜索整个数据空间。当存在很多属性并且数据稀疏时,这是有用的。为了达到全局最优,基于划分的聚类可能需要穷举所有可能的划分,计算量极大。实际上,大多数应用都采用了流行的启发式方法,如k-均值和k-中心算法,渐近的提高聚类质量,逼近局部最优解。这些启发式聚类方法很适合发现中小规模的数据库中小规模的数据库中的球状簇。为了发现具有复杂形状的簇和对超大型数据集进行聚类,需要进一步扩展基于划分的方法。
2、层次方法(hierarchical methods)
这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。例如在“自底向上”方案中,初始时每一个数据纪录都组成一个单独的组,在接下来的迭代中,它把那些相互邻近的组合并成一个组,直到所有的记录组成一个分组或者某个条件满足为止。代表算法有:BIRCH算法、CURE算法、CHAMELEON算法等。
层次聚类方法可以是基于距离的或基于密度或连通性的。层次聚类方法的一些扩展也考虑了子空间聚类。层次方法的缺陷在于,一旦一个步骤(合并或分裂)完成,它就不能被撤销。这个严格规定是有用的,因为不用担心不同选择的组合数目,它将产生较小的计算开销。然而这种技术不能更正错误的决定。已经提出了一些提高层次聚类质量的方法。
3、基于密度的方法(density-based methods)
基于密度的方法与其它方法的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。这个方法的指导思想就是,只要一个区域中的点的密度大过某个阀值,就把它加到与之相近的聚类中去。代表算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等。
4、基于网格的方法(grid-based methods)
这种方法首先将数据空间划分成为有限个单元(cell)的网格结构,所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点就是处理速度很快,通常这是与目标数据库中记录的个数无关的,它只与把数据空间分为多少个单元有关。代表算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算法。
很多空间数据挖掘问题,使用网格通常都是一种有效的方法。因此,基于网格的方法可以和其他聚类方法集成。
5、基于模型的方法(model-based methods)
基于模型的方法给每一个聚类假定一个模型,然后去寻找能够很好的满足这个模型的数据集。这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在的假定就是:目标数据集是由一系列的概率分布所决定的。通常有两种尝试方向:统计的方案和神经网络的方案。
当然聚类方法还有:传递闭包法,布尔矩阵法,直接聚类法,相关性分析聚类,基于统计的聚类方法等。
现有的聚类已经比较成功的解决了低维数据的聚类问题。但是由于实际应用中数据的复杂性,在处理许多问题时,现有的算法经常失效,特别是对于高维数据和大型数据的情况。因为传统聚类方法在高维数据集中进行聚类时,主要遇到两个问题。一个是高维数据集中存在大量无关的属性使得在所有维中存在簇的可能性几乎为零;另一个是高维空间中数据较低维空间中数据分布要稀疏,其中数据间距离几乎相等是普遍现象,而传统聚类方法是基于距离进行聚类的,因此在高维空间中无法基于距离来构建簇。
高维聚类分析已成为聚类分析的一个重要研究方向。同时高维数据聚类也是聚类技术的难点。随着技术的进步使得数据收集变得越来越容易,导致数据库规模越来越大、复杂性越来越高,如各种类型的贸易交易数据、Web文档、基因表达数据等,它们的维度(属性)通常可以达到成百上千维,甚至更高。但是,受“维度效应”的影响,许多在低维数据空间表现良好的聚类方法运用在高维空间上往往无法获得好的聚类效果。高维数据聚类分析是聚类分析中一个非常活跃的领域,同时它也是一个具有挑战性的工作。高维数据聚类分析在市场分析、信息安全、金融、娱乐、反恐等方面都有很广泛的应用。
本实施例中,对于聚类方法没有具体的限定,只要可以将用户特征信息根据必要的条件分类,并根据分类的结果对用户进行分组即可。
步骤13,根据用户兴趣点获取兴趣关键词。
完成用户的分组后,每组用户都拥有相同或相近的兴趣点,小组的兴趣点就是该小组中用户共同的兴趣点。获取了用户的兴趣点,还需要对所述用户兴趣点进行分词处理,在得到的分词结果中取出现概率较大的词语作为兴趣关键词。
分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。
分词算法可分为三大类:基于字典、词库匹配的分词方法;基于词频度统计的分词方法和基于知识理解的分词方法。
第一类方法应用词典匹配、汉语词法或其它汉语语言知识进行分词,如:最大匹配法、最小分词方法等。这类方法简单、分词效率较高,但汉语语言现象复杂丰富,词典的完备性、规则的一致性等问题使其难以适应开放的大规模文本的分词处理。第二类基于统计的分词方法则基于字和词的统计信息,如把相邻字间的信息、词频及相应的共现信息等应用于分词,由于这些信息是通过调查真实语料而取得的,因而基于统计的分词方法具有较好的实用性。
1).逐词遍历法。
逐词遍历法将词典中的所有词按由长到短的顺序在文章中逐字搜索,直至文章结束。也就是说,不管文章有多短,词典有多大,都要将词典遍历一遍。这种方法效率比较低,大一点的系统一般都不使用。
2).基于字典、词库匹配的分词方法(机械分词法)
这种方法按照一定策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。识别出一个词,根据扫描方向的不同分为正向匹配和逆向匹配。根据不同长度优先匹配的情况,分为最大(最长)匹配和最小(最短)匹配。根据与词性标注过程是否相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的方法如下:
(一)最大正向匹配法(Maximum Matching Method)通常简称为MM法。其基本思想为:假定分词词典中的最长词有i个汉字字符,则用被处理文档的当前字串中的前i个字作为匹配字段,查找字典。若字典中存在这样的一个i字词,则匹配成功,匹配字段被作为一个词切分出来。如果词典中找不到这样的一个i字词,则匹配失败,将匹配字段中的最后一个字去掉,对剩下的字串重新进行匹配处理……如此进行下去,直到匹配成功,即切分出一个词或剩余字串的长度为零为止。这样就完成了一轮匹配,然后取下一个i字字串进行匹配处理,直到文档被扫描完为止。
(二)逆向最大匹配法,通常简称为RMM法。RMM法的基本原理与MM法相同,不同的是分词切分的方向与MM法相反,而且使用的分词辞典也不同。逆向最大匹配法从被处理文档的末端开始匹配扫描,每次取最末端的2i个字符(i字字串)作为匹配字段,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配。相应地,它使用的分词词典是逆序词典,其中的每个词条都将按逆序方式存放。在实际处理时,先将文档进行倒排处理,生成逆序文档。然后,根据逆序词典,对逆序文档用正向最大匹配法处理即可。
由于汉语中偏正结构较多,若从后向前匹配,可以适当提高精确度。所以,逆向最大匹配法比正向最大匹配法的误差要小。统计结果表明,单纯使用正向最大匹配的错误率为1/16.9,单纯使用逆向最大匹配的错误率为1/245。例如切分字段“硕士研究生产”,正向最大匹配法的结果会是“硕士研究生/产”,而逆向最大匹配法利用逆向扫描,可得到正确的分词结果“硕士/研究/生产”。
当然,最大匹配算法是一种基于分词词典的机械分词法,不能根据文档上下文的语义特征来切分词语,对词典的依赖性较大,所以在实际使用时,难免会造成一些分词错误,为了提高系统分词的准确度,可以采用正向最大匹配法和逆向最大匹配法相结合的分词方案(即双向匹配法)。
(三)最少切分法:使每一句中切出的词数最小。
(四)双向匹配法:将正向最大匹配法与逆向最大匹配法组合。先根据标点对文档进行粗切分,把文档分解成若干个句子,然后再对这些句子用正向最大匹配法和逆向最大匹配法进行扫描切分。如果两种分词方法得到的匹配结果相同,则认为分词正确,否则,按最小集处理。
3).全切分和基于词的频度统计的分词方法
基于词的频度统计的分词方法是一种全切分方法。在讨论这个方法之前我们先要明白有关全切分的相关内容。
全切分要求获得输入序列的所有可接受的切分形式,而部分切分只取得一种或几种可接受的切分形式,由于部分切分忽略了可能的其他切分形式,所以建立在部分切分基础上的分词方法不管采取何种歧义纠正策略,都可能会遗漏正确的切分,造成分词错误或失败。而建立在全切分基础上的分词方法,由于全切分取得了所有可能的切分形式,因而从根本上避免了可能切分形式的遗漏,克服了部分切分方法的缺陷。
全切分算法能取得所有可能的切分形式,它的句子覆盖率和分词覆盖率均为100%,但全切分分词并没有在文本处理中广泛地采用,原因有以下几点:
全切分算法只是能获得正确分词的前提,因为全切分不具有歧义检测功能,最终分词结果的正确性和完全性依赖于独立的歧义处理方法,如果评测有误,也会造成错误的结果。
全切分的切分结果个数随句子长度的增长呈指数增长,一方面将导致庞大的无用数据充斥于存储数据库;另一方面当句长达到一定长度后,由于切分形式过多,造成分词效率严重下降。
基于词的频度统计的分词方法:
这是一种全切分方法。它不依靠词典,而是将文章中任意两个字同时出现的频率进行统计,次数越高的就可能是一个词。它首先切分出与词表匹配的所有可能的词,运用统计语言模型和决策算法决定最优的切分结果。它的优点在于可以发现所有的切分歧义并且容易将新词提取出来。
4).基于知识理解的分词方法。
该方法主要基于句法、语法分析,并结合语义分析,通过对上下文内容所提供信息的分析对词进行定界,它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断。这类方法试图让机器具有人类的理解能力,需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式。因此目前基于知识的分词系统还处在试验阶段。
5).并行分词方法。这种分词方法借助于一个含有分词词库的管道进行,比较匹配过程是分步进行的,每一步可以对进入管道中的词同时与词库中相应的词进行比较,由于同时有多个词进行比较匹配,因而分词速度可以大幅度提高。这种方法涉及到多级内码理论和管道的词典数据结构。
分词的目的在于将用户兴趣点切分成为一个一个的词语,作为找到其中出现频率最大的部分词语作为兴趣关键词。为了避免干扰,还需要去除一些无实际意义的词语。
步骤14,根据兴趣关键词在用户浏览页面上做标引。
获取了兴趣关键词后,需要在用户浏览页面上识别所述兴趣关键词;
为所述兴趣关键词设置链接,所述链接指向所述兴趣关键词对应的页面。进一步的,还可以将做标引的兴趣关键词特殊显示。这里的特殊显示包括高亮显示、处理成艺术字等等方式。目的在于引起用户注意,并且区分于一般的浏览文字,使得用户可以很容易从中找到可以进一步点击浏览的关键词和页面链接。
本发明实施例中,通过提取用户的特征信息;所述特征信息包括用户使用所述应用的行为信息和用户自定义信息;根据所述特征信息获取用户兴趣点;根据所述用户兴趣点获取兴趣关键词;根据所述兴趣关键词在用户浏览页面上做标引。本发明实施例的方案,能够根据用户自身的信息设定和行为设定,分析用户的兴趣点,并根据兴趣点为用户进行后续浏览页面的展示和标引,极大的提高了用户体验度。
如图2所示,为本发明实施例2提供的一种用户行为信息展示系统结构示意图,其中,
特征信息提取单元21,用于提取用户的特征信息;所述特征信息包括用户使用所述应用的行为信息和用户自定义信息;
兴趣点获取单元22,用于根据所述特征信息获取用户兴趣点;
关键词获取单元23,用于根据所述用户兴趣点获取兴趣关键词;
标引单元24,用于根据所述兴趣关键词在用户浏览页面上做标引。
进一步的,上述系统还包括分组单元25,用于根据所述特征信息将所述用户分为若干小组;
兴趣点获取单元22,获取所述小组中用户的兴趣点;
所述标引单元24,根据所述兴趣关键词在小组内所有用户浏览页面上做标引。
进一步的,上述标引单元24,还用于:
在用户浏览页面上识别所述兴趣关键词;
为所述兴趣关键词设置链接,所述链接指向所述兴趣关键词对应的页面。
进一步的,上述关键词获取单元23,还用于:
对所述用户兴趣点进行分词处理,在得到的分词结果中取出现概率较大的词语作为兴趣关键词。
综上所述,本发明实施例中,通过提取用户的特征信息;所述特征信息包括用户使用所述应用的行为信息和用户自定义信息;根据所述特征信息获取用户兴趣点;根据所述用户兴趣点获取兴趣关键词;根据所述兴趣关键词在用户浏览页面上做标引。本发明实施例的方案,能够根据用户自身的信息设定和行为设定,分析用户的兴趣点,并根据兴趣点为用户进行后续浏览页面的展示和标引,极大的提高了用户体验度。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种用户行为信息展示方法,其特征在于,包括:
提取用户的特征信息;所述特征信息包括用户使用应用程序的行为信息和用户自定义信息;
根据所述特征信息获取用户兴趣点;
根据所述用户兴趣点获取兴趣关键词;
根据所述兴趣关键词在用户浏览页面上做标引。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述特征信息将所述用户分为若干小组;
获取所述小组中用户的兴趣点;
根据所述兴趣点获取兴趣关键词;
根据所述兴趣关键词在小组内所有用户浏览页面上做标引。
3.如权利要求2所述的方法,其特征在于,所述方法还包括:
根据所述用户特征信息,采用聚类分析,将所述用户分为若干小组;每个所述小组对应若干用户;同一所述用户能够属于若干个所述小组。
4.如权利要求1所述的方法,其特征在于,所述在用户浏览页面上做标引包括:
在用户浏览页面上识别所述兴趣关键词;
为所述兴趣关键词设置链接,所述链接指向所述兴趣关键词对应的页面。
5.如权利要求4所述的方法,其特征在于,所述方法还包括:
将所述做标引的兴趣关键词特殊显示。
6.如权利要求1所述的方法,其特征在于,所述根据所述用户兴趣点获取兴趣关键词,包括:
对所述用户兴趣点进行分词处理,在得到的分词结果中取出现概率较大的词语作为兴趣关键词。
7.一种用户行为信息展示系统,其特征在于,包括:
特征信息提取单元,用于提取用户的特征信息;所述特征信息包括用户使用所述应用的行为信息和用户自定义信息;
兴趣点获取单元,用于根据所述特征信息获取用户兴趣点;
关键词获取单元,用于根据所述用户兴趣点获取兴趣关键词;
标引单元,用于根据所述兴趣关键词在用户浏览页面上做标引。
8.如权利要求7所述的系统,其特征在于,所述系统还包括分组单元,用于根据所述特征信息将所述用户分为若干小组;
所述兴趣点获取单元,获取所述小组中用户的兴趣点;
所述标引单元,根据所述兴趣关键词在小组内所有用户浏览页面上做标引。
9.如权利要求7所述的系统,其特征在于,所述标引单元,还用于:
在用户浏览页面上识别所述兴趣关键词;
为所述兴趣关键词设置链接,所述链接指向所述兴趣关键词对应的页面。
10.如权利要求7所述的系统,其特征在于,所述关键词获取单元,还用于:
对所述用户兴趣点进行分词处理,在得到的分词结果中取出现概率较大的词语作为兴趣关键词。
CN201510208861.3A 2015-04-28 2015-04-28 一种用户行为信息展示方法及系统 Pending CN106156259A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510208861.3A CN106156259A (zh) 2015-04-28 2015-04-28 一种用户行为信息展示方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510208861.3A CN106156259A (zh) 2015-04-28 2015-04-28 一种用户行为信息展示方法及系统

Publications (1)

Publication Number Publication Date
CN106156259A true CN106156259A (zh) 2016-11-23

Family

ID=57346552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510208861.3A Pending CN106156259A (zh) 2015-04-28 2015-04-28 一种用户行为信息展示方法及系统

Country Status (1)

Country Link
CN (1) CN106156259A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582846A (zh) * 2018-11-21 2019-04-05 百度在线网络技术(北京)有限公司 通过文章进行搜索的方法、装置、电子设备及存储介质
CN114296859A (zh) * 2021-12-31 2022-04-08 珠海豹趣科技有限公司 网页中文字内容的显示方法及装置、电子设备、存储介质
CN118153918A (zh) * 2024-05-10 2024-06-07 浙江云茗科技股份有限公司 一种基于旅游管理平台的信息互动方法、系统及设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101968802A (zh) * 2010-09-30 2011-02-09 百度在线网络技术(北京)有限公司 一种基于用户浏览行为进行互联网内容推荐的方法与设备
CN102663627A (zh) * 2012-04-26 2012-09-12 焦点科技股份有限公司 个性化推荐方法
CN103235824A (zh) * 2013-05-06 2013-08-07 上海河广信息科技有限公司 根据浏览网页确定用户感兴趣的网页文本的方法和系统
CN103235823A (zh) * 2013-05-06 2013-08-07 上海河广信息科技有限公司 根据相关网页和当前行为确定用户当前兴趣的方法和系统
CN103246725A (zh) * 2013-05-06 2013-08-14 上海河广信息科技有限公司 一种基于无线网络的数据业务推送系统和方法
CN103593413A (zh) * 2013-10-27 2014-02-19 西安电子科技大学 基于Agent的元搜索引擎个性化方法
CN104008184A (zh) * 2014-06-10 2014-08-27 百度在线网络技术(北京)有限公司 信息的推送方法和装置
CN104199874A (zh) * 2014-08-20 2014-12-10 哈尔滨工程大学 一种基于用户浏览行为的网页推荐方法
US20150058380A1 (en) * 2009-12-02 2015-02-26 Gartner, Inc. Implicit profile for use with recommendation engine and/or question router

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150058380A1 (en) * 2009-12-02 2015-02-26 Gartner, Inc. Implicit profile for use with recommendation engine and/or question router
CN101968802A (zh) * 2010-09-30 2011-02-09 百度在线网络技术(北京)有限公司 一种基于用户浏览行为进行互联网内容推荐的方法与设备
CN102663627A (zh) * 2012-04-26 2012-09-12 焦点科技股份有限公司 个性化推荐方法
CN103235824A (zh) * 2013-05-06 2013-08-07 上海河广信息科技有限公司 根据浏览网页确定用户感兴趣的网页文本的方法和系统
CN103235823A (zh) * 2013-05-06 2013-08-07 上海河广信息科技有限公司 根据相关网页和当前行为确定用户当前兴趣的方法和系统
CN103246725A (zh) * 2013-05-06 2013-08-14 上海河广信息科技有限公司 一种基于无线网络的数据业务推送系统和方法
CN103593413A (zh) * 2013-10-27 2014-02-19 西安电子科技大学 基于Agent的元搜索引擎个性化方法
CN104008184A (zh) * 2014-06-10 2014-08-27 百度在线网络技术(北京)有限公司 信息的推送方法和装置
CN104199874A (zh) * 2014-08-20 2014-12-10 哈尔滨工程大学 一种基于用户浏览行为的网页推荐方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582846A (zh) * 2018-11-21 2019-04-05 百度在线网络技术(北京)有限公司 通过文章进行搜索的方法、装置、电子设备及存储介质
CN114296859A (zh) * 2021-12-31 2022-04-08 珠海豹趣科技有限公司 网页中文字内容的显示方法及装置、电子设备、存储介质
CN118153918A (zh) * 2024-05-10 2024-06-07 浙江云茗科技股份有限公司 一种基于旅游管理平台的信息互动方法、系统及设备

Similar Documents

Publication Publication Date Title
RU2628436C1 (ru) Классификация текстов на естественном языке на основе семантических признаков
Bordes et al. Translating embeddings for modeling multi-relational data
CN108681557B (zh) 基于自扩充表示和相似双向约束的短文本主题发现方法及系统
CN111190900B (zh) 一种云计算模式下json数据可视化优化方法
Huang et al. Learning social image embedding with deep multimodal attention networks
CN117574898A (zh) 基于电网设备的领域知识图谱更新方法及系统
CN113988075A (zh) 基于多任务学习的网络安全领域文本数据实体关系抽取法
Sun et al. Graph force learning
Hu et al. EGC: A novel event-oriented graph clustering framework for social media text
CN106649380A (zh) 一种基于标签的热点推荐方法及系统
Repke et al. Extraction and representation of financial entities from text
CN106156259A (zh) 一种用户行为信息展示方法及系统
CN106156256A (zh) 一种用户信息分类透传方法及系统
Wang et al. High-level semantic image annotation based on hot Internet topics
Jotikabukkana et al. Social media text classification by enhancing well-formed text trained model
Yu et al. Mining hidden interests from twitter based on word similarity and social relationship for OLAP
Veparala et al. Big Data and Different Subspace Clustering Approaches: From social media promotion to genome mapping
Sundari et al. A study of various text mining techniques
Harshvardhan et al. Topic modelling Twitterati sentiments using Latent Dirichlet allocation during demonetization
Peng et al. TH-SLP: Web service link prediction based on topic-aware heterogeneous graph neural network
Zhen et al. Frequent words and syntactic context integrated biomedical discontinuous named entity recognition method
CN106156250A (zh) 一种搜索热点推荐方法及系统
Ding et al. Hierarchical clustering for micro-learning units based on discovering cluster center by LDA
Zhao Construction of Safety Early Warning Model for Construction of Engineering Based on Convolution Neural Network
Yang et al. Construction and analysis of scientific and technological personnel relational graph for group recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161123

RJ01 Rejection of invention patent application after publication