CN106503094A - 一种基于文档的用户偏好分析方法 - Google Patents
一种基于文档的用户偏好分析方法 Download PDFInfo
- Publication number
- CN106503094A CN106503094A CN201610896081.7A CN201610896081A CN106503094A CN 106503094 A CN106503094 A CN 106503094A CN 201610896081 A CN201610896081 A CN 201610896081A CN 106503094 A CN106503094 A CN 106503094A
- Authority
- CN
- China
- Prior art keywords
- document
- user
- value
- user preference
- style
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于文档的用户偏好分析方法,包括:接收用户文档;根据预设的文档分析模型提取所述用户文档中的每个维度的对应信息并进行计算,从而得到用户总偏好值;其中,所述文档分析模型为:H(x)=V1S1+V2S2+…+VnSn,其中,H(x)表示用户对于特定方面的用户总偏好值,V1、V2…Vn分别表示所述特定方面的每个维度的用户偏好值;S1、S2…Sn表示每个维度对应预设的权重系数,n≥2;利用计算得到的所述用户总偏好值对已保存的用户总偏好值进行更新。本发明公开的一种基于文档的用户偏好分析方法填补了行为偏好分析在文档领域的空白,为个性化推荐服务资源提供了新的来源。
Description
技术领域
本发明涉及用户行为偏好分析领域,尤其涉及一种基于文档的用户偏好分析方法。
背景技术
随着互联网的逐渐普及和网络信息资源的日益丰富,人们逐渐从信息匮乏时代走进信息过载时代,信息量的不断增大使得无论是信息生产者还是信息消费者都遇到了很大的困难和挑战:从海量的信息里找到自己需求的信息已经变得越来越困难。与此同时,想让产品在众多信息中脱颖而出,得到消费者的关注也越来越困难。以前常用的方法是让用户自己输入关键词搜索,搜索引擎会根据用户所提交的关键词在数据库里遍历,以找到合适的信息进行推荐。这种方法的缺点是:需要用户明确自己的需求,而且需要用户主动检索。
为了高效率、快速、主动给用户提供推荐信息,从海量数据中挖掘到用户所需信息并向用户推荐,节省用户获取有用信息的时间,个性化推荐服务应运而生,个性化推荐服务首先会根据用户行为数据进行相应的用户行为偏好分析,常用的方法是通过用户行为分析建立一个用户偏好模型,将用户的行为转换为用户的偏好。目前对用户行为偏好建模多是在信息搜索引擎、网购平台等对用户信息搜索关键字、搜索信息,网购商品信息、网购评价信息等方面进行偏好分析。
本发明人在研发本发明的时候发现,目前市面上还没有基于文档的用户行为偏好分析方法和用户行为偏好分析模型,但是用户花了大量时间和精力精心制作的文档中包含了用户行为偏好的大量信息,例如用户对文档字体的选择,文档颜色的设置,文档艺术字的使用等等,都能反映出用户的行为偏好,这就导致了互联网文档在用户行为偏好分析这一领域的空白以及互联网文档资源使用上的一种浪费。
发明内容
本发明实施例的目的是提供一种基于文档的用户偏好分析方法,能够丰富用户行为偏好分析的来源数据库及提高互联网文档资源的利用率,同时填补用户行为偏好分析在文档这一领域的空白。
为实现上述目的,本发明实施例提供了一种基于文档的用户偏好分析方法,包括:
接收用户文档;
根据预设的文档分析模型提取所述用户文档中的每个维度的对应信息并进行计算,从而得到用户总偏好值;其中,所述文档分析模型为:H(x)=V1S1+V2S2+V3S3+V4S4+…+VnSn,其中,H(x)表示用户对于特定方面的用户总偏好值,V1、V2、……Vn分别表示所述特定方面的每个维度的用户偏好值,每个维度的用户偏好值基于获取的所述对应信息并通过预设公式计算得到;S1、S2、……Sn表示每个维度对应预设的权重系数,n≥2;
利用计算得到的所述用户总偏好值对已保存的用户总偏好值进行更新。
与现有技术相比,本发明实施例根据预设的文档分析模型将用户文档划分为多个维度,提取每一个维度的文档对应信息,并基于预设的公式对每一个维度的文档对应信息计算得到每个维度的用户偏好值,从而得到用户对于特定方面(例如文档设计风格)的用户总偏好值并进行更新。通过本实施例提供的基于文档的用户偏好分析方法得到最新的用户在特定方面(例如文档设计风格)的用户总偏好值后,能够利用该最新的用户总偏好值来提供相应的个性化服务资源(例如,提供符合用户在文档设计风格的偏好的服务资源)。因此,本实施例提供的基于文档的用户偏好分析方法既能丰富用户行为偏好分析的来源数据库,提高互联网文档资源的利用率,也填补了用户行为偏好分析在文档这一领域的空白,同时为个性化推荐服务资源提供了新的来源。
作为上述方案的改进,还包括步骤:
在推送服务资源时,根据更新后的所述用户总偏好值推送符合用户在所述特定方面的偏好的服务资源。
作为上述方案的改进,所述特定方面包括文档设计风格,所述文档设计风格包括文档字体、文档颜色、文档艺术字三个维度,所述用户文档中的每个维度的对应信息包括文档字体信息、文档颜色信息以及文档艺术字信息。
作为上述方案的改进,预先设置所述文档设计风格的用户总偏好值的最大阈值和最小阈值,所述最大阈值对应的文档设计风格为极复杂化风格,所述最小阈值对应的文档设计风格为极简化风格,所述最大阈值和所述最小阈值之间的每个值对应所述极复杂化风格和极简化风格之间的每一种文档设计风格。
作为上述方案的改进,通过以下步骤提取所述文档字体信息及计算对应的用户偏好值:
获取文档中每个字符的字体,统计文档中使用对应字体的字符个数,通过公式P=(a1*b1+a2*b2+…+ai*bi)/(b1+b2+…bi)计算文档中字符的平均粗细值,其中,a1、a2…ai表示特定字体的粗细值;b1、b2…bi表示使用对应字体的字符个数,P表示所述文档中字符的平均粗细值,i≥1;
通过公式P(f)=PQ计算文档字体的用户偏好值,其中:P(f)表示所述文档字体的用户偏好值,Q表示粗细权重系数,Q=|1.5-P|;
将所述用户偏好值P(f)归一化到所述最大阈值和所述最小阈值之间的阈值范围内,从而得到用户偏好值V1。
作为上述方案的改进,通过以下步骤提取所述文档颜色信息及计算对应的用户偏好值:
对所述文档每页进行截图,通过对每幅截图进行图像处理得到所述文档每个像素的深浅度值,从而得到所述文档中每一颜色的深浅度值,并通过公式P(c)=Y1A1+Y2A2+Y3A3+Y4A4+…+YjAj计算文档颜色的用户偏好值,其中:P(c)表示所述文档颜色的用户偏好值,Y1、Y2……Yj表示每一颜色的深浅度值,A1、A2……Aj表示每一颜色深浅度值占整个文档的面积比例,j≥1;
将所述用户偏好值P(c)归一化到所述最大阈值和所述最小阈值之间的阈值范围内,从而得到用户偏好值V2。
作为上述方案的改进,通过以下步骤计算每一颜色深浅度值占整个文档的面积比例:
对所述文档每页进行截图,通过对每幅截图进行图像处理得到所述文档每个像素的深浅度值;
将深浅度值相同的像素累加后与文档总像素的比值,作为每一颜色深浅度值占整个文档的面积比例。
作为上述方案的改进,通过公式Yj=Rm+Gb+Bk计算每一颜色的深浅度值,其中:Yj表示所述文档中的每一颜色的深浅度值,R、G、B分别表示每一像素中RGB通道的数值,m、b、k表示所述RGB通道的系数。
作为上述方案的改进,m=0.299,b=0.587,k=0.114。
作为上述方案的改进,通过以下步骤提取所述文档艺术字信息及计算对应的用户偏好值:
获取文档中每一种艺术字的字符个数,通过公式P(a)=U1C1+U2C2+U3C3…+UtCt计算文档艺术字的用户偏好值,其中:P(a)表示所述文档艺术字的用户偏好值,U1、U2……Ut表示所述每一种艺术字的字符个数,C1、C2……Ct表示对应的每一种艺术字的预设偏好权重系数,t≥1;
将所述用户偏好值P(a)归一化到所述最大阈值和所述最小阈值之间的阈值范围内,从而得到用户偏好值V3。
附图说明
图1是本发明实施例1中一种基于文档的用户偏好分析方法的流程图;
图2是图1中步骤S2的具体流程示意图;
图3是图2中步骤S201中文档设计风格用户总偏好值阈值设置示意图;
图4是图2中步骤S202的具体流程示意图;
图5是图2中步骤S203的具体流程示意图;
图6是图2中步骤S204的具体流程示意图;
图7是本发明实施例2中一种基于文档的用户偏好分析方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明实施例1提供的一种基于文档的用户偏好分析方法的流程图。本发明实施例1提供的一种基于文档的用户偏好分析方法包括步骤S1~S3:
S1:接收用户文档。
具体实施时,接收的可以是用户实时制作并同步保存至互联网云端的文档,或者是用户实时制作以用于进行用户偏好分析的文档,还可以是用户已保存在本地或者云端的并提取出来用于进行用户偏好分析的文档。在本实施例中,为了及时且自动获得用户最新的偏好,优选为接收用户实时制作并同步保存至互联网云端的文档以用于进行用户偏好分析。
S2:根据预设的文档分析模型提取所述用户文档中的每个维度的对应信息并进行计算,从而得到用户总偏好值;其中,所述文档分析模型为:H(x)=V1S1+V2S2+V3S3+V4S4+…+VnSn,其中,H(x)表示用户对于特定方面的用户总偏好值,V1、V2、……Vn分别表示所述特定方面的每个维度的用户偏好值,每个维度的用户偏好值基于获取的所述对应信息并通过预设公式计算得到;S1、S2、……Sn表示每个维度对应预设的权重系数,n≥2。
在该步骤中提供了基于文档的用户行为偏好分析模型及计算方法,具体的,在该步骤中,所述特定方面的用户总偏好值H(x)包括但不限于文档设计风格,所述文档设计风格的维度包括但不限于文档字体、文档颜色、文档艺术字,文档字体维度的对应信息包括文档字体信息,文档颜色维度的对应信息包括文档颜色信息,文档艺术字的对应信息包括文档艺术字信息。
S3:利用计算得到的所述用户总偏好值对已保存的用户总偏好值进行更新。
具体的,在每次使用文档分析模型分析用户的文档后,将每次计算得到的用户总偏好值进行更新,即将最新的用户总偏好值计算结果对已保存的用户总偏好值进行更新。
本发明实施例1根据预设的文档分析模型将用户文档划分为多个维度,提取每一个维度的文档对应信息,并基于预设的公式对每一个维度的文档对应信息计算得到每个维度的用户偏好值,从而得到用户对于特定方面(例如文档设计风格)的用户总偏好值并进行更新。通过本实施例1提供的基于文档的用户偏好分析方法得到最新的用户在特定方面(例如文档设计风格)的用户总偏好值后,能够利用该最新的用户总偏好值来提供相应的个性化服务资源(例如,提供符合用户在文档设计风格的偏好的服务资源)。因此,本发明实施例1提供的基于文档的用户偏好分析方法既能丰富用户行为偏好分析的来源数据库,提高互联网文档资源的利用率,也填补了用户行为偏好分析在文档这一领域的空白,同时为个性化推荐服务资源提供了新的来源。
为了方便理解步骤S2中文档分析模型的建立和用户文档中每个维度的对应信息的提取过程,下面举文档设计风格,维度分别为文档字体、文档颜色、文档艺术字为例,详细说明如何计算确定用户在文档设计风格的用户总偏好值。
参见图2,通过计算确定用户在文档设计风格的用户总偏好值包括步骤S201~S205,其中:
S201:预先设置所述文档设计风格的用户总偏好值的最大阈值和最小阈值,所述最大阈值对应的文档设计风格为极复杂化风格,所述最小阈值对应的文档设计风格为极简化风格,所述最大阈值和所述最小阈值之间的每个值对应所述极复杂化风格和极简化风格之间的每一种文档设计风格。
具体的,为了更加方便直观的表示所述文档设计风格的简约或复杂,参见图3,图3是图2中步骤S201中文档设计风格阈值设置示意图,将用户总偏好值设置最小阈值为0、最大阈值为100,最小阈值0对应极简化风格,最大阈值100对应极复杂化风格,最小阈值0到最大阈值100区间之间的每个值对应所述极简化风格和极复杂化风格之间的每一种文档设计风格。可以理解的,该最小阈值和最大阈值设置的具体数值可根据实际情况和需求进行设置,如也可设置最小阈值为0、最大阈值为10,在此不做具体限制。
S202:提取所述文档中的文档字体信息,根据预设公式计算用户对于文档字体的用户偏好值,并将计算得到的用户偏好值归一化到所述最大阈值和所述最小阈值之间的阈值范围内。
具体的,参见图,4,该步骤可以通过以下步骤实现,包括步骤S2021~S2023,其中:
S2021:获取文档中每个字符的字体,统计文档中使用对应字体的字符个数,通过公式P=(a1*b1+a2*b2+…+ai*bi)/(b1+b2+…bi)计算文档中字符的平均粗细值,其中,a1、a2…ai表示特定字体的粗细值;b1、b2…bi表示使用对应字体的字符个数,P表示所述文档中字符的平均粗细值,i≥1。
具体的,每一种字体都对应一个粗细值,这是写入到每种字体中的,可以直接获取到,通过获取文档中每个字符的字体可以得到文档中每个字符的粗细值,统计文档中具有相同粗细值的字符个数,计算可得到文档中字符的平均粗细值。
S2022:通过公式P(f)=PQ计算文档字体的用户偏好值,其中:P(f)表示所述文档字体的用户偏好值,Q表示粗细权重系数,Q=|1.5-P|。
具体的,粗细权重系数Q表示的是对于某一个平均粗细值,它对文档风格的影响情况,每一个粗细值都对应一个粗细权重系数,简约风格的字体粗细值偏向较小,定义平均粗细值为1.5时,最符合简约风格的要求。
S2023:将所述用户偏好值P(f)归一化到所述最大阈值和所述最小阈值之间的阈值范围内,从而得到用户偏好值V1。
该步骤用于将计算得到的文档字体用户偏好值P(f)归一化到预先设置的文档设计风格的用户总偏好值的最大阈值和最小阈值的阈值范围内,使得文档字体这一维度用户偏好值计算结果在文档设计风格用户总偏好值范围内,使得文档字体用户偏好值与文档设计风格用户总偏好值具有统一的衡量标准。
具体的,由于每一种字体都对应一个粗细值(粗细值范围已定),例如用1.5-2.0分别表示每一种字体的粗细值范围,1.5最小,2.0最大。根据步骤S2021中的计算公式可以得到所述文档中字符的平均粗细值P的范围也是1.5~2.0,因此通过公式P(f)=PQ得到文档字体的用户偏好值P(f)的范围是0~1。然后,将范围为0~1的用户偏好值P(f)通过映射归一化到预先设置的文档设计风格的用户总偏好值的最大阈值和最小阈值的阈值范围(例如,0~100)内,从而得到所述用户偏好值P(f)归一化到所述阈值范围内的用户偏好值V1。
S203:提取所述文档中的文档颜色信息,根据预设公式计算用户对于文档字体的用户偏好值,并将计算得到的用户偏好值归一化到所述最大阈值和所述最小阈值之间的阈值范围内。
具体的,参见图5,该步骤可以通过以下步骤实现,包括步骤S2031~S2032,其中:
S2031:对所述文档每页进行截图,通过对每个截图进行图像处理得到所述文档每个像素的深浅度值,从而得到所述文档中每一颜色的深浅度值,并通过公式P(c)=Y1A1+Y2A2+Y3A3+Y4A4+…+YjAj计算文档颜色的用户偏好值,其中:P(c)表示所述文档颜色的用户偏好值,Y1、Y2……Yj表示每一颜色的深浅度值,A1、A2……Aj表示每一颜色深浅度值占整个文档的面积比例,j≥1。
具体的,简约风格的文档整体颜色偏浅色,对文档每页进行截图,对文档的每张截图进行图像处理,得到每个像素的深浅度值,从而得到所述文档中每一颜色的深浅度值,具体的,通过公式Yj=Rm+Gb+Bk计算每一颜色的深浅度值,其中:Yj表示所述文档中的每一颜色的深浅度值,R、G、B分别表示每一像素中RGB通道的数值,m、b、k表示所述RGB通道的系数,m=0.299,b=0.587,k=0.114。RGB通道的数值不同,则像素的深浅度值不同,即每种颜色的深浅度值不同,每一种深浅度值分别对应一种颜色,则通过每个像素的深浅度值可以得到文档使用的所有颜色,以及每一种颜色对应的深浅度值,通过将所述每个深浅度值相同的像素进行累加得到累加值,累加值与文档总像素的比值即为每一颜色深浅度值占整个文档的面积比例。
S2032:将所述用户偏好值P(c)归一化到所述最大阈值和所述最小阈值之间的阈值范围内,从而得到用户偏好值V2。
该步骤用于将计算得到的文档颜色用户偏好值P(c)归一化到预先设置的文档设计风格的用户总偏好值的最大阈值和最小阈值的阈值范围内,使得文档颜色这一维度用户偏好值计算结果在文档设计风格用户总偏好值范围内,使得文档颜色用户偏好值与文档设计风格用户总偏好值具有统一的衡量标准。
具体的,黑色的RGB通道的数值为(0,0,0),白色的RGB通道的数值为(255,255,255),根据步骤S2031中公式Yj=Rm+Gb+Bk可以得到每一颜色的深浅度值的范围为0~255,根据步骤S2031中公式P(c)=Y1A1+Y2A2+Y3A3+Y4A4+…+YjAj可以得到文档颜色用户偏好值P(c)的范围为0~255,将范围为0~255的用户偏好值P(c)通过映射归一化到预先设置的文档设计风格的用户总偏好值的最大阈值和最小阈值的阈值范围(例如,0~100)内,从而得到所述用户偏好值P(c)归一化到所述阈值范围内的用户偏好值V2。
S204:提取所述文档中的文档艺术字信息,根据预设公式计算用户对于文档字体的用户偏好值,并将计算得到的用户偏好值归一化到所述最大阈值和所述最小阈值之间的阈值范围内
具体的,参见图6,该步骤可以通过以下步骤实现,包括步骤S2041~S2042,其中:
S2041:获取文档中每一种艺术字的字符个数,通过公式P(a)=U1C1+U2C2+U3C3…+UtCt计算文档艺术字的用户偏好值,其中:P(a)表示所述文档艺术字的用户偏好值,U1、U2……Ut表示所述每一种艺术字的字符个数,C1、C2……Ct表示对应的每一种艺术字的预设偏好权重系数,t≥1;
具体的,确定文档中使用的艺术字的种类及使用对应的每一种艺术字的字符个数,由于艺术字的效果是确定的,且每一种艺术字都有对应的风格属性,根据经验定义每一种艺术字的预设偏好权重系数。
S2042:将所述用户偏好值P(a)归一化到所述最大阈值和所述最小阈值之间的阈值范围内,从而得到用户偏好值V3。
该步骤用于将计算得到的文档艺术字用户偏好值P(a)归一化到预先设置的文档设计风格的用户总偏好值的最大阈值和最小阈值的阈值范围内,使得文档艺术字这一维度用户偏好值计算结果在文档设计风格用户总偏好值范围内,使得文档艺术字用户偏好值与文档设计风格用户总偏好值具有统一的衡量标准。
具体的,由于分析的文档中字符个数是确定、有限的,则文档中使用艺术字的种类及使用对应的每一种艺术字的字符个数也是有限的,根据步骤S2041中公式计算得到的文档艺术字的用户偏好值范围也是有限的,设定文档艺术字的用户偏好值P(a)范围为0~1,0表示文档中未使用艺术字,1表示文档中字符全部使用极复杂化风格的艺术字,然后,将范围为0~1的用户偏好值P(a)通过映射归一化到预先设置的文档设计风格的用户总偏好值的最大阈值和最小阈值的阈值范围(例如,0-100)内,从而得到所述用户偏好值P(a)归一化到所述阈值范围内的用户偏好值V3。
S205:将步骤S202~S204分别得到的用户偏好值V1、用户偏好值V2、用户偏好值V3代入文档分析模型H(x)=V1S1+V2S2+V3S3中,从而计算得到用户对于文档设计风格的用户总偏好值。
在该步骤中,H(x)表示用户对于文档设计风格的用户总偏好值,V1、V2、V3分别表示用户对于文档设计风格中的文档字体、文档颜色、文档艺术字三个维度的用户偏好值,而S1、S2、S3表示每个维度对应预设的权重系数。可以理解的,由于S1、S2、S3表示每个维度对应预设的权重系数,S1、S2、S3三个系数的和为1。
参见图7,是本发明实施例2提供的一种基于文档的用户偏好分析方法的流程图。本发明实施例2提供的一种基于文档的用户偏好分析方法包括步骤S21~S24:
S21:接收用户文档。
具体实施时,接收的可以是用户实时制作并同步保存至互联网云端的文档,或者是用户实时制作以用于进行用户偏好分析的文档,还可以是用户已保存在本地或者云端的并提取出来用于进行用户偏好分析的文档。在本实施例中,为了及时且自动获得用户最新的偏好,优选为接收用户实时制作并同步保存至互联网云端的文档以用于进行用户偏好分析。
S22:根据预设的文档分析模型提取所述用户文档中的每个维度的对应信息并进行计算,从而得到用户总偏好值;其中,所述文档分析模型为:H(x)=V1S1+V2S2+V3S3+V4S4+…+VnSn,其中,H(x)表示用户对于特定方面的用户总偏好值,V1、V2、……Vn分别表示所述特定方面的每个维度的用户偏好值,每个维度的用户偏好值基于获取的所述对应信息并通过预设公式计算得到;S1、S2、……Sn表示每个维度对应预设的权重系数,n≥2。;
具体的,在该步骤中,所述特定方面的用户总偏好值H(x)包括但不限于文档设计风格,所述文档设计风格的维度包括但不限于文档字体、文档颜色、文档艺术字,文档字体维度的对应信息包括文档字体信息,文档颜色维度的对应信息包括文档颜色信息,文档艺术字的对应信息包括文档艺术字信息。
S23:利用计算得到的所述用户总偏好值对已保存的用户总偏好值进行更新。
具体的,在每次使用文档分析模型分析用户的文档后,将每次计算得到的用户总偏好值进行更新,即将最新的用户总偏好值计算结果对已保存的用户总偏好值进行更新。
S24:在推送服务资源时,根据更新后的所述用户总偏好值推送符合用户在所述特定方面的偏好的服务资源。
具体的,该步骤用于将文档分析用户总偏好值计算结果应用于个性化推荐服务领域中,根据本发明实施例2提供的文档分析模型计算得到的用户总偏好值可以给用户推送服务资源,例如在购物、观影等方面给客户提供资源推送。
本发明实施例2提供的一种基于文档的用户偏好分析方法中步骤S21~S23与本发明实施例1提供的一种基于文档的用户偏好分析方法中步骤S1~S3相同,本发明实施例2中步骤S21~S23具体实施过程与本发明实施例1中步骤S1~S3相同,在此不再赘述。
与实施例1相比,本发明实施例2提供的一种基于文档的用户偏好分析方法增加了步骤S24,具体实施时该步骤用于将文档分析用户总偏好值计算结果应用于个性化推荐服务领域中,根据本发明实施例2提供的文档分析模型计算得到的用户总偏好值可以给用户推送服务资源,例如在购物、观影等方面给客户提供资源推送。
与实施例1相比,本发明实施例2提供的一种基于文档的用户偏好分析方法将根据本发明建立的文档分析模型分析计算得到的用户总偏好值计算结果应用于个性化推荐服务领域中,丰富了个性化推荐的来源数据库,为个性化推荐服务资源提供了新的来源。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种基于文档的用户偏好分析方法,其特征在于,包括:
接收用户文档;
根据预设的文档分析模型提取所述用户文档中的每个维度的对应信息并进行计算,从而得到用户总偏好值;其中,所述文档分析模型为:H(x)=V1S1+V2S2+V3S3+V4S4+…+VnSn,其中,H(x)表示用户对于特定方面的用户总偏好值,V1、V2、……Vn分别表示所述特定方面的每个维度的用户偏好值,每个维度的用户偏好值基于获取的所述对应信息并通过预设公式计算得到;S1、S2、……Sn表示每个维度对应预设的权重系数,n≥2;
利用计算得到的所述用户总偏好值对已保存的用户总偏好值进行更新。
2.如权利要求1所述的一种基于文档的用户偏好分析方法,其特征在于,还包括步骤:
在推送服务资源时,根据更新后的所述用户总偏好值推送符合用户在所述特定方面的偏好的服务资源。
3.如权利要求1所述的一种基于文档的用户偏好分析方法,其特征在于,所述特定方面包括文档设计风格,所述文档设计风格包括文档字体、文档颜色、文档艺术字三个维度,所述用户文档中的每个维度的对应信息包括文档字体信息、文档颜色信息以及文档艺术字信息。
4.如权利要求3所述的一种基于文档的用户偏好分析方法,其特征在于,预先设置所述文档设计风格的用户总偏好值的最大阈值和最小阈值,所述最大阈值对应的文档设计风格为极复杂化风格,所述最小阈值对应的文档设计风格为极简化风格,所述最大阈值和所述最小阈值之间的每个值对应所述极复杂化风格和极简化风格之间的每一种文档设计风格。
5.如权利要求4所述的一种基于文档的用户偏好分析方法,其特征在于,通过以下步骤提取所述文档字体信息及计算对应的用户偏好值:
获取文档中每个字符的字体,统计文档中使用对应字体的字符个数,通过公式P=(a1*b1+a2*b2+…+ai*bi)/(b1+b2+…bi)计算文档中字符的平均粗细值,其中,a1、a2…ai表示特定字体的粗细值;b1、b2…bi表示使用对应字体的字符个数,P表示所述文档中字符的平均粗细值,i≥1;
通过公式P(f)=PQ计算文档字体的用户偏好值,其中:P(f)表示所述文档字体的用户偏好值,Q表示粗细权重系数,Q=|1.5-P|;
将所述用户偏好值P(f)归一化到所述最大阈值和所述最小阈值之间的阈值范围内,从而得到用户偏好值V1。
6.如权利要求3所述的一种基于文档的用户偏好分析方法,其特征在于,通过以下步骤提取所述文档颜色信息及计算对应的用户偏好值:
对所述文档每页进行截图,通过对每幅截图进行图像处理得到所述文档每个像素的深浅度值,从而得到所述文档中每一颜色的深浅度值,并通过公式P(c)=Y1A1+Y2A2+Y3A3+Y4A4+…+YjAj计算文档颜色的用户偏好值,其中:P(c)表示所述文档颜色的用户偏好值,Y1、Y2……Yj表示每一颜色的深浅度值,A1、A2……Aj表示每一颜色深浅度值占整个文档的面积比例,j≥1;
将所述用户偏好值P(c)归一化到所述最大阈值和所述最小阈值之间的阈值范围内,从而得到用户偏好值V2。
7.如权利要求6所述的一种基于文档的用户偏好分析方法,其特征在于,通过以下步骤计算每一颜色深浅度值占整个文档的面积比例:
对所述文档每页进行截图,通过对每幅截图进行图像处理得到所述文档每个像素的深浅度值;
将深浅度值相同的像素累加后与文档总像素的比值,作为每一颜色深浅度值占整个文档的面积比例。
8.如权利要求6所述的一种基于文档的用户偏好分析方法,其特征在于,通过公式Yj=Rm+Gb+Bk计算每一颜色的深浅度值,其中:Yj表示所述文档中的每一颜色的深浅度值,R、G、B分别表示每一像素中RGB通道的数值,m、b、k表示所述RGB通道的系数。
9.如权利要求8所述的一种基于文档的用户偏好分析方法,其特征在于,m=0.299,b=0.587,k=0.114。
10.如权利要求3所述的一种基于文档的用户偏好分析方法,其特征在于,通过以下步骤提取所述文档艺术字信息及计算对应的用户偏好值:
获取文档中每一种艺术字的字符个数,通过公式P(a)=U1C1+U2C2+U3C3…+UtCt计算文档艺术字的用户偏好值,其中:P(a)表示所述文档艺术字的用户偏好值,U1、U2……Ut表示所述每一种艺术字的字符个数,C1、C2……Ct表示对应的每一种艺术字的预设偏好权重系数,t≥1;
将所述用户偏好值P(a)归一化到所述最大阈值和所述最小阈值之间的阈值范围内,从而得到用户偏好值V3。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610896081.7A CN106503094A (zh) | 2016-10-13 | 2016-10-13 | 一种基于文档的用户偏好分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610896081.7A CN106503094A (zh) | 2016-10-13 | 2016-10-13 | 一种基于文档的用户偏好分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106503094A true CN106503094A (zh) | 2017-03-15 |
Family
ID=58294961
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610896081.7A Pending CN106503094A (zh) | 2016-10-13 | 2016-10-13 | 一种基于文档的用户偏好分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106503094A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102426583A (zh) * | 2011-10-10 | 2012-04-25 | 北京工业大学 | 基于图像内容分析的中医舌象检索方法 |
CN103106668A (zh) * | 2011-11-09 | 2013-05-15 | 佳能株式会社 | 基于颜色直方图来描述图像区域的方法和系统 |
CN104077344A (zh) * | 2013-12-31 | 2014-10-01 | 河南大学 | 基于自适应学习区域重要性的交互式图像检索方法及系统 |
-
2016
- 2016-10-13 CN CN201610896081.7A patent/CN106503094A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102426583A (zh) * | 2011-10-10 | 2012-04-25 | 北京工业大学 | 基于图像内容分析的中医舌象检索方法 |
CN103106668A (zh) * | 2011-11-09 | 2013-05-15 | 佳能株式会社 | 基于颜色直方图来描述图像区域的方法和系统 |
CN104077344A (zh) * | 2013-12-31 | 2014-10-01 | 河南大学 | 基于自适应学习区域重要性的交互式图像检索方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110909176B (zh) | 数据推荐方法、装置、计算机设备以及存储介质 | |
CN105791157B (zh) | 一种流量的分配方法、分配系统、及服务器 | |
CN107688606A (zh) | 一种推荐信息的获取方法及装置,电子设备 | |
CN108021929A (zh) | 基于大数据的移动端电商用户画像建立与分析方法及系统 | |
CN109978630A (zh) | 一种基于大数据建立用户画像的精准营销方法和系统 | |
CN108062375A (zh) | 一种用户画像的处理方法、装置、终端和存储介质 | |
CN103955842B (zh) | 一种面向大规模媒体数据的在线广告推荐系统及方法 | |
CN106846061A (zh) | 潜在用户挖掘方法以及装置 | |
CN104462385A (zh) | 一种基于用户兴趣模型的电影个性化相似度计算方法 | |
CN105426514A (zh) | 个性化的移动应用app推荐方法 | |
CN105142028A (zh) | 面向三网融合的电视节目内容搜索与推荐方法 | |
CN106446045A (zh) | 基于对话交互的用户画像的构建方法及系统 | |
CN103488788A (zh) | 一种应用自动推荐的方法及装置 | |
CN107330020B (zh) | 一种基于结构和属性相似度的用户实体解析方法 | |
CN111177559B (zh) | 文旅服务推荐方法、装置、电子设备及存储介质 | |
CN106709017A (zh) | 一种基于大数据的辅助决策方法 | |
CN110599393A (zh) | 图片风格转换方法、装置、设备及计算机可读存储介质 | |
CN108647818A (zh) | 一种预测企业涉税风险的方法及装置 | |
CN106600213A (zh) | 一种个人简历智能管理系统及方法 | |
CN108804577A (zh) | 一种资讯标签兴趣度的预估方法 | |
CN108846043A (zh) | 基于互联网大数据的网络痕迹挖掘分析方法及系统 | |
CN114565407A (zh) | 一种广告投放数据分析方法及系统 | |
CN104765763B (zh) | 一种基于概念格的异构空间信息服务分类的语义匹配方法 | |
CN105956023A (zh) | 一种生僻字库网络化应用的方法及系统 | |
CN108717445A (zh) | 一种基于历史数据的在线社交平台用户兴趣推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170315 |
|
RJ01 | Rejection of invention patent application after publication |