CN106934004A - 一种基于地域特征向用户推荐文章的方法和装置 - Google Patents

一种基于地域特征向用户推荐文章的方法和装置 Download PDF

Info

Publication number
CN106934004A
CN106934004A CN201710130703.XA CN201710130703A CN106934004A CN 106934004 A CN106934004 A CN 106934004A CN 201710130703 A CN201710130703 A CN 201710130703A CN 106934004 A CN106934004 A CN 106934004A
Authority
CN
China
Prior art keywords
region
article
storehouse
user
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710130703.XA
Other languages
English (en)
Inventor
潘岸腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Guangzhou Youshi Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Youshi Network Technology Co Ltd filed Critical Guangzhou Youshi Network Technology Co Ltd
Priority to CN201710130703.XA priority Critical patent/CN106934004A/zh
Publication of CN106934004A publication Critical patent/CN106934004A/zh
Priority to PCT/CN2018/071961 priority patent/WO2018161719A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于地域特征向用户推荐文章的方法和装置。所述方法包括:提取已有文章库里的文章的地域特征度;根据文章的地域特征度、预先已建立的地域库和地域关键词库来确定文章与地域之间的匹配度;获取与用户关联的地域信息,利用该地域与文章库里的文章之间的匹配度按预设方式选取一定数量的相应文章推荐给用户。

Description

一种基于地域特征向用户推荐文章的方法和装置
技术领域
本发明涉及信息处理技术领域,具体而言涉及一种基于地域特征向用户推荐文章的方法和装置。
背景技术
随着通信网络的推广和智能终端的普及,人们越来越习惯使用电子产品进行阅读。例如,在电子计算机上登录新闻网站或者小说网站阅读各种新闻或小说,也可以登录网上图书馆来阅读各种图书。再例如,使用智能手机或平板电脑等智能移动终端上安装的第三方应用来实现阅读,如新闻类的“今日头条”、小说类的“书旗小说”、还有其它期刊类的APP等等。
面对体现产品个性化的市场需求,很多阅读产品都需要提供良好的搜索功能和推荐功能。尤其是智能移动终端,由于屏幕尺寸大小和硬件性能的限制,阅读产品的搜索功能受到一定限制,不像电子计算机提供的搜索功能那样强大。为了弥补这样的不足,更为了让用户不用花费太多时间自己查询资源,很多第三方应用都具有推荐功能,向用户推荐热门文章,例如向用户推荐热门新闻,如上了今日头条的新闻。在实行推荐的各类应用场景中,有一种场景是基于用户所在地域进行文章推荐,例如:在某些新闻类应用中、在提供旅游信息的应用中,都会有一个地域专栏,提供各个地域的新闻、各个地域的旅游信息等。
但是,现有的地域推荐都是被动式推荐,即当用户阅读地域专栏时才会向用户推荐本专栏的信息,而推荐方法也无非采用向用户推荐浏览量最高的文章或者推荐点赞率最高的文章等方式,目前的文章推荐方法不能给用户带来很好的体验,例如一个久在上海工作但家乡在广州的用户,想了解家乡广州的信息,只能登录关于广州的网站,查询广州的信息,而接收到推荐的文章也仅仅所谓的热门文章,但未必是该用户想要关心和了解的信息。
发明内容
本发明的目的在于提供一种基于地域特征向用户推荐文章的方法和装置,以改善上述问题。
本发明实施例提供了一种基于地域特征向用户推荐文章的方法,其包括:
提取已有文章库里的文章的地域特征度;
根据文章的地域特征度、预先已建立的地域库和地域关键词库来确定文章与地域之间的匹配度;
获取与用户关联的地域信息,利用该地域与文章库里的文章之间的匹配度按预设方式选取一定数量的相应文章推荐给用户。
其中,所述预先已建立的地域库包括:国家的国名、该国家管辖的各个级别的地域名、以及各个级别的地域名之间的隶属关系、和所述地域隶属关系之间的权重。
其中,建立所述地域库的方法包括:根据每个国家对本国的行政区域划分方法来收录从一个国家的国名到最小行政区域的地域名及其隶属关系,使用区域平均权重法来确定地域隶属关系之间的权重,即用每个下一级区域与直接隶属于上一级区域的所有下一级区域的数量的比值作为直接上下级区域隶属关系的权重;多级区域的两个区域之间的权重为相应多个直接上下级区域隶属关系的权重相乘之积。
其中,所述预先已建立的地域关键词库包括:表示每个地域名的1个或多个关键词,和该1个或多个关键词与对应地域名的关联性,其中圈定用于表示每个地域名的1个或多个关键词的规则包括但不限于:1、每个地域的正式名称;2、能够代表一个地域的公认的别称;3、一个地域有代表性的标志性建筑或风景区。
其中,在提取已有文章库里的文章的地域特征度的步骤中,提取所述文章的地域特征度的方法为:
其中:
Pa,t表示已有文章库里的文章a对预设地域关键词库里的关键词t的地域特征度;
na,t表示已有文章库里的文章a中出现预设地域关键词库里的关键词t的次数;
la表示已有文章库里的文章a经过分词处理得到的分词数量。
其中,在根据文章的地域特征度、预先已建立的地域库和地域关键词库来确定文章与地域之间的匹配度的步骤中,确定所述匹配度的方法是:
其中:
sa,i表示已有文章库里的文章a与地域库里的地域i的匹配度;
R表示预设地域库中的所有地域的集合;
T表示预设地域关键词库中的所有关键词的集合;
pa,t表示已有文章库里的文章a对预设地域关键词库里的关键词t的地域特征度;
ft,i表示预设地域关键词库里的关键词t与预设地域库里的地域i是否关联,取值1和0,当关键词t与地域i关联时取值为1,反之取值为0;
ft,j表示预设地域关键词库里的关键词t与预设地域库里的地域j是否关联,取值1和0,当关键词t与地域j关联时取值为1,反之取值为0;
wj,i表示预设地域库里的地域i隶属于地域j的权重,地域i和地域j没有隶属关系时wj,i为0。
其中,在获取与用户关联的地域信息的步骤中,包括:通过用户联网的IP地址获取与用户关联的地域信息,或者通过智能移动终端的定位功能来获取与用户关联的地域信息,或者通过用户注册时提供的常住地址来获取与用户关联的地域信息。
其中,在利用该地域与文章库里的文章之间的匹配度按预设方式选取一定数量的相应文章推荐给用户的步骤中,从大于或等于预设阈值的匹配度所对应的多篇文章中随机选取一定数量的相应文章推荐给用户;或者按照匹配度从大到小顺序选取一定数量的相应文章推荐给用户。
优选的,对选取的一定数量的相应文章首先按一定条件进行排序,然后优先向用户推荐排序在前面的多篇文章。
本发明实施例还提供了一种基于地域特征向用户推荐文章的装置,其包括:
文章地域特征度提取单元,用于提取已有文章库里的文章的地域特征度;
匹配度确定单元,用于根据文章的地域特征度、预先已建立的地域库和地域关键词库来确定文章与地域之间的匹配度;
推荐单元,用于获取与用户关联的地域信息,利用该地域与文章库里的文章之间的匹配度按预设方式选取一定数量的相应文章推荐给用户。
其中,所述装置还包括:
地域库建立单元,用于预先建立一个地域库,该地域库包括:国家的国名、该国家管辖的各个级别的地域名、以及各个级别的地域名之间的隶属关系、和所述地域隶属关系之间的权重;和
地域关键词库建立单元,用于预先建立一个地域关键词库,该地域关键词库包括:表示每个地域名的1个或多个关键词,和该1个或多个关键词与对应地域名的关联性。
其中,所述文章地域特征度提取单元用于提取所述文章的地域特征度的方法为:
其中:
pa,t表示已有文章库里的文章a对预设地域关键词库里的关键词t的地域特征度;
na,t表示已有文章库里的文章a中出现预设地域关键词库里的关键词t的次数;
la表示已有文章库里的文章a经过分词处理得到的分词数量。
其中,所述匹配度确定单元用于确定所述匹配度的方法是:
其中:
sa,i表示已有文章库里的文章a与地域库里的地域i的匹配度;
R表示预设地域库中的所有地域的集合;
T表示预设地域关键词库中的所有关键词的集合;
pa,t表示已有文章库里的文章a对预设地域关键词库里的关键词t的地域特征度;
ft,i表示预设地域关键词库里的关键词t与预设地域库里的地域i是否关联,取值1和0,当关键词t与地域i关联时取值为1,反之取值为0;
ft,j表示预设地域关键词库里的关键词t与预设地域库里的地域j是否关联,取值1和0,当关键词t与地域j关联时取值为1,反之取值为0;
wj,i表示预设地域库里的地域i隶属于地域j的权重,地域i和地域j没有隶属关系时wj,i为0。
其中,所述推荐单元用于通过用户联网的IP地址获取与用户关联的地域信息,或者通过智能移动终端的定位功能来获取与用户关联的地域信息,或者通过用户注册时提供的常住地址来获取与用户关联的地域信息。
优选的,所述推荐单元用于从大于或等于预设阈值的匹配度所对应的多篇文章中随机选取一定数量的相应文章推荐给用户;或者按照匹配度从大到小顺序选取一定数量的相应文章推荐给用户。
优选的,所述推荐单元还用于对选取的一定数量的相应文章首先按一定条件进行排序,然后优先向用户推荐排序在前面的多篇文章。
根据本发明的一种基于地域特征向用户推荐文章的方法和装置,可以通过找出的文章与地域之间的匹配度,在用户没有进入地域专栏的情况下,基于用户的地域特征来向给用户推荐相关的文章,甚至是既符合用户的地域特征又广受欢迎的文章,大大提高了用户的体验感。
附图说明
图1是本发明实施例提供的基于地域特征向用户推荐文章的方法的流程图;
图2是本发明实施例提供的基于地域特征向用户推荐文章的装置的示意性框图。
具体实施方式
下面将结合本发明实施例和附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的基于地域特征向用户推荐文章的方法的流程图。如图1所示,本发明的基于地域特征向用户推荐文章的方法包括以下的步骤:
S1:提取已有文章库里的文章的地域特征度。
在提取已有文章库里的文章的地域特征度的步骤中,提取所述文章的地域特征度的方法为:
其中:
pa,t表示已有文章库里的文章a对预设地域关键词库里的关键词t的地域特征度;
na,t表示已有文章库里的文章a中出现预设地域关键词库里的关键词t的次数;
la表示已有文章库里的文章a经过分词处理得到的分词数量。
即,在已有文章库里的文章a中搜索在预先已建立的地域关键词库里的每个关键词t,统计出每个关键词t在文章a中出现的次数;还需要采用任意公知的分词技术对所述文章a进行分词处理,得到分词的总数量。从而,通过预先已建立的地域关键词库的每个地域关键词在一篇文章里出现的次数百分比作为该文章的地域特征度,可以得到该文章针对预先已建立的地域库里记录的每个地域的地域特征度。这里所述的对预先已建立的地域库和预先已建立的地域关键词库可以根据地理知识和行政管理制度来预先建立。
可以预先建立一个地域库,即一个和地域信息有关的数据库,该地域库包括:国家的国名、该国家管辖的各个级别的地域名、以及各个级别的地域名之间的隶属关系、和所述地域隶属关系之间的权重。
可以建立中国的地域库,还可以建立包含全世界范围内任意多个国家的地域库。可以根据每个国家对本国的行政区域划分方法来收录从一个国家的国名到最小行政区域的地域名及其隶属关系。使用区域平均权重法来确定地域隶属关系之间的权重,即用每个下一级区域与直接隶属于上一级区域的所有下一级区域的数量的比值作为直接上下级区域隶属关系的权重;多级区域的两个区域之间的权重为相应多个直接上下级区域隶属关系的权重相乘之积。以中国为例,中国的最小行政区域是乡、镇、街道等,所以建立中国的地域库时,该地域库包括:1)国家的国名:中国,该国家管辖的各个级别的地域名以及各个级别的地域名之间的隶属关系:如中国→广东省→广州市→白云区→人和镇。在使用区域平均权重法来确定地域隶属关系之间的权重时,例如广东省管辖21个地级市(广州市、深圳市、佛山市¥……),则每个地级市对广东省的隶属关系权重为1/21≈0.048;再如,广州市下辖11个市辖区,则隶属于广州市的每个市辖区对于广州市的隶属关系权重为1/11≈0.091;再如,白云区下辖22个街道和镇(下辖18个街道和4个镇),则隶属于白云区的每个街道或镇(最小行政区域)对白云区的隶属关系权重为1/22≈0.045。而多级区域的两个区域之间的权重为相应多个上下级区域隶属关系的权重相乘之积的意思是:再以上述例子中国→广东省→广州市→白云区→人和镇为例,人和镇对广州市的隶属关系权重为:0.091*0.045=0.0041;白云区对广东省的隶属关系权重为:0.048*0.091=0.0044;人和镇对广东省的隶属关系权重为:0.048*0.091*0.045=0.0002。
还可以采用人口比例的方法来确定地域隶属关系之间的权重。例如:广州市常住人口1350万,广州市隶属于广东省,广东省常住人口1.08亿,那么广州市对广东省的隶属关系权重为0.135/1.08=0.125。当然,因为人口流动现象,像一些广州市、上海市、北京市等大城市,人口流动频繁,常住人口数量每年都在变动,如果采用人口比例的方法来确定地域隶属关系之间的权重,则至少需要每年或者每隔几年统计各大城市的人口数量,这无形需要花费额外的成本,因此优选的方式为使用区域平均权重法。
还可以预先建立一个地域关键词库,即一个和地域相关联的关键词数据库,该地域库关键词包括:表示每个地域名的1个或多个关键词,和该1个或多个关键词与对应地域名的关联性。
其中,圈定用于表示每个地域名的1个或多个关键词的规则包括但不限于:1、每个地域的正式名称,例如包括:国家名称、省份名称、城市名称、区名称、县名称、乡镇街道名称等;2、能够代表一个地域的公认的别称;3、一个地域有代表性的标志性建筑或风景区等。在这里,使用每个地域的正式名称作为关键词是必选的,而使用能够代表地域的公认的别称作为关键词和使用对地域有代表性的标志性建筑名称或风景区名称等作为关键词是可选的;当然还可以使用能够对地域有唯一代表性的其他方式的名称作为关键词,这里不再列举。另外,每一个关键词只能与一个地域相关联,可以多个关键词与一个地域相关联,但禁止一个关键词与多个地域相关联。当有了地域名和代表这个地域的1个或多个关键词时,就可以建立所述的地域关键词库,其包括:地域名称、关键词、关键词与地域名称之间的关联性。
下面以具体的例子进行说明。
例如,地域名1:广东省,关键词1:广东;关键词2:粤(在地理学上广东省的简称为“粤”),并且建立了关键词“广东”和“粤”与地域广东省的关联性。地域名2:广州市,关键词1:广州;关键词2:五羊城(五羊城”公认指广州),关键词3:小蛮腰(广州市有代表性的标志性建筑:广州新电视塔,昵称小蛮腰),并且建立了关键词“广州”、“五羊城”和“小蛮腰”与地域广州市的关联性。地域名3:山东省,关键词1:山东;关键词2:鲁(在地理学上山东省的简称为“鲁”);关键词3:泰山(山东省的标志性风景区名称),并且建立了关键词“山东”、“鲁”和“泰山”与地域山东省的关联性。
S2:根据文章的地域特征度、预先已建立的地域库和地域关键词库来确定文章与地域之间的匹配度。
在根据文章的地域特征度、预先已建立的地域库和地域关键词库来确定文章与地域之间的匹配度的步骤中,确定所述匹配度的方法是:
其中:
sa,i表示已有文章库里的文章a与地域库里的地域i的匹配度;
R表示预设地域库中的所有地域的集合;
T表示预设地域关键词库中的所有关键词的集合;
pa,t表示已有文章库里的文章a对预设地域关键词库里的关键词t的地域特征度;
ft,i表示预设地域关键词库里的关键词t与预设地域库里的地域i是否关联,取值1和0,当关键词t与地域i关联时取值为1,反之取值为0;
ft,j表示预设地域关键词库里的关键词t与预设地域库里的地域j是否关联,取值1和0,当关键词t与地域j关联时取值为1,反之取值为0;
wj,i表示预设地域库里的地域i隶属于地域j的权重,地域i和地域j没有隶属关系时wj,i为0。
在这里t,i表示任意关键词t与任意地域i是否关联,i∈R,t∈T,即任意地域i位于预设地域库中的所有地域的集合之内,任意关键词t位于预设地域关键词库中的所有关键词的集合之内。例如:当i表示地域名广州市,关键词t为广州或者五羊城时,基于上述的预先建立的多个关键词与对应地域的关联性,此时的关键词t与地域i相关联,t,i=1;如果关键词t为泰山,此时的关键词t与地域i没有关联性,t,i=0。
由该公式可知:第一部分的计算得出任意一篇文章与预设地域库里的所有地域的相似度;第二部分的计算考虑了地域隶属关系对相似度的影响,即通过地域隶属关系权重来计算出地域隶属关系对相似度的影响,将这两部分计算结果相加得到文章与地域之间的匹配度。
S3:获取与用户关联的地域信息,利用该地域与文章库里的文章之间的匹配度按预设方式选取一定数量的相应文章推荐给用户。
优选的,从大于或等于预设阈值的匹配度所对应的多篇文章中随机选取一定数量的相应文章推荐给用户。
优选的,利用文章与该地域之间的匹配度并且按照匹配度从大到小顺序选取一定数量的相应文章推荐给用户。
在得到每篇文章与各个地域之间的匹配度后,获取与用户关联的地域信息,例如根据实际应用场景,通过用户联网的IP地址获取与用户关联的地域信息,可以通过智能移动终端的定位功能来获取与用户关联的地域信息,可以通过用户注册时提供的常住地址来获取与用户关联的地域信息,利用所得到的该地域与文章库里的文章之间的匹配度,从大于或等于预设阈值的匹配度所对应的多篇文章中随机选取一定数量的相应文章推荐给用户,或者按照匹配度从大到小顺序选取一定数量的相应文章推荐给用户,例如选取排名在前的1-5篇或5-20篇或更多等文章推荐给用户。而所述的预设阈值可以在实践中根据需要任意设置。
另外,还可以对选取的一定数量的文章做进一步的优选排序,即对选取的一定数量的相应文章首先按一定条件进行排序,然后优先向用户推荐排序在前面的多篇文章。例如,如果选取的文章数量比较多,超过50篇、100篇或者更多时,还可以对这些选取的这些文章做进一步的优选排序,以便向用户优先推荐既符合地域特征又广受欢迎的文章。由此,在一个优选实施例中,对从大于或等于预设阈值的匹配度所对应的多篇文章中随机选取出一定数量的相应文章,或者按照匹配度从大到小顺序选取出一定数量的相应文章,例如100-500篇或更多篇文章,进一步对这些文章按一定条件排序,例如1、根据文章的浏览量进行降序排列;或者2、根据文章的点击率进行降序排列;或者3、根据文章的点赞率进行降序排列;或者其他类似方法,然后将排序在前面的1-5篇或5-20篇或更多等文章优先推荐给用户。
根据本发明的基于地域特征向用户推荐文章的方法,可以通过找出的文章与地域之间的匹配度,基于用户的地域特征来向给用户推荐相关的文章,甚至是既符合用户的地域特征又广受欢迎的文章,大大提高了用户的体验感。
图2是本发明实施例提供的基于地域特征向用户推荐文章的装置的示意性框图。如图2所示,本发明的基于地域特征向用户推荐文章的装置包括:
文章地域特征度提取单元,用于提取已有文章库里的文章的地域特征度;
匹配度确定单元,用于根据文章的地域特征度、预先已建立的地域库和地域关键词库来确定文章与地域之间的匹配度;
推荐单元,用于获取与用户关联的地域信息,利用该地域与文章库里的文章之间的匹配度按预设方式选取一定数量的相应文章推荐给用户。
另外,本发明的基于地域特征向用户推荐文章的装置还包括:
地域库建立单元,用于预先建立一个地域库,该地域库包括:国家的国名、该国家管辖的各个级别的地域名、以及各个级别的地域名之间的隶属关系、和所述地域隶属关系之间的权重;和
地域关键词库建立单元,用于预先建立一个地域关键词库,该地域关键词库包括:表示每个地域名的1个或多个关键词,和该1个或多个关键词与对应地域名的关联性。
其中地域库建立单元用于建立所述地域库的方法包括:根据每个国家对本国的行政区域划分方法来收录从一个国家的国名到最小行政区域的地域名及其隶属关系,使用区域平均权重法来确定地域隶属关系之间的权重,即用每个下一级区域与直接隶属于上一级区域的所有下一级区域的数量的比值作为直接上下级区域隶属关系的权重;多级区域的两个区域之间的权重为相应多个直接上下级区域隶属关系的权重相乘之积。
地域关键词库建立单元执行圈定用于表示每个地域名的1个或多个关键词的规则包括但不限于:1、每个地域的正式名称;2、能够代表一个地域的公认的别称;3、一个地域有代表性的标志性建筑或风景区。
优选的,所述文章地域特征度提取单元用于提取所述文章的地域特征度的方法为:
其中:
pa,t表示已有文章库里的文章a对预设地域关键词库里的关键词t的地域特征度;
na,t表示已有文章库里的文章a中出现预设地域关键词库里的关键词t的次数;
la表示已有文章库里的文章a经过分词处理得到的分词数量。
优选的,所述匹配度确定单元用于确定所述匹配度的方法是:
其中:
sa,i表示已有文章库里的文章a与地域库里的地域i的匹配度;
R表示预设地域库中的所有地域的集合;
T表示预设地域关键词库中的所有关键词的集合;
pa,t表示已有文章库里的文章a对预设地域关键词库里的关键词t的地域特征度;
ft,i表示预设地域关键词库里的关键词t与预设地域库里的地域i是否关联,取值1和0,当关键词t与地域i关联时取值为1,反之取值为0;
ft,j表示预设地域关键词库里的关键词t与预设地域库里的地域j是否关联,取值1和0,当关键词t与地域j关联时取值为1,反之取值为0;
wj,i表示预设地域库里的地域i隶属于地域j的权重,地域i和地域j没有隶属关系时wj,i为0。
优选的,所述推荐单元用于通过用户联网的IP地址获取与用户关联的地域信息,或者通过智能移动终端的定位功能来获取与用户关联的地域信息,或者通过用户注册时提供的常住地址来获取与用户关联的地域信息。
优选的,所述推荐单元在利用该地域与文章库里的文章之间的匹配度按预设方式选取一定数量的相应文章推荐给用户的过程中,从大于或等于预设阈值的匹配度所对应的多篇文章中随机选取一定数量的相应文章推荐给用户;或者按照匹配度从大到小顺序选取一定数量的相应文章推荐给用户。
优选的,所述推荐单元在利用该地域与文章库里的文章之间的匹配度按预设方式选取一定数量的相应文章推荐给用户的过程中,还可以对选取的一定数量的文章做进一步的优选排序,即对选取的一定数量的相应文章首先按一定条件进行排序,然后优先向用户推荐排序在前面的多篇文章。例如,将排序在前面的1-5篇或5-20篇或更多等文章优先推荐给用户。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,前述方法实施例中列举的例子和相关描述,同样适用于解释所描述的装置的工作过程,在此不再重复描述。
根据本发明的基于地域特征向用户推荐文章的装置,可以通过找出的文章与地域之间的匹配度,基于用户的地域特征来向给用户推荐相关的文章,甚至是既符合用户的地域特征又广受欢迎的文章,大大提高了用户的体验感。
本发明实施例所提供的一种基于地域特征向用户推荐文章的方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,智能平板电脑,智能手机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (16)

1.一种基于地域特征向用户推荐文章的方法,其包括:
提取已有文章库里的文章的地域特征度;
根据文章的地域特征度、预先已建立的地域库和地域关键词库来确定文章与地域之间的匹配度;
获取与用户关联的地域信息,利用该地域与文章库里的文章之间的匹配度按预设方式选取一定数量的相应文章推荐给用户。
2.根据权利要求1所述的方法,其特征在于所述预先已建立的地域库包括:国家的国名、该国家管辖的各个级别的地域名、以及各个级别的地域名之间的隶属关系、和所述地域隶属关系之间的权重。
3.根据权利要求2所述的方法,其特征在于建立所述地域库的方法包括:根据每个国家对本国的行政区域划分方法来收录从一个国家的国名到最小行政区域的地域名及其隶属关系,使用区域平均权重法来确定地域隶属关系之间的权重,即用每个下一级区域与直接隶属于上一级区域的所有下一级区域的数量的比值作为直接上下级区域隶属关系的权重;多级区域的两个区域之间的权重为相应多个直接上下级区域隶属关系的权重相乘之积。
4.根据权利要求1所述的方法,其特征在于所述预先已建立的地域关键词库包括:表示每个地域名的1个或多个关键词,和该1个或多个关键词与对应地域名的关联性,其中圈定用于表示每个地域名的1个或多个关键词的规则包括但不限于:1、每个地域的正式名称;2、能够代表一个地域的公认的别称;3、一个地域有代表性的标志性建筑或风景区。
5.根据权利要求1所述的方法,其特征在于在提取已有文章库里的文章的地域特征度的步骤中,提取所述文章的地域特征度的方法为:
p a , t = n a , t l a
其中:
pa,t表示已有文章库里的文章a对预设地域关键词库里的关键词t的地域特征度;
na,t表示已有文章库里的文章a中出现预设地域关键词库里的关键词t的次数;
la表示已有文章库里的文章a经过分词处理得到的分词数量。
6.根据权利要求1所述的方法,其特征在于在根据文章的地域特征度、预先已建立的地域库和地域关键词库来确定文章与地域之间的匹配度的步骤中,确定所述匹配度的方法是:
s a , i = Σ t ∈ T ( p a , t * f t , i ) + Σ t ∈ T Σ j ∈ R ( p a , t * f t , j * w j , i ) , i ≠ j
其中:
sa,i表示已有文章库里的文章a与地域库里的地域i的匹配度;
R表示预设地域库中的所有地域的集合;
T表示预设地域关键词库中的所有关键词的集合;
pa,t表示已有文章库里的文章a对预设地域关键词库里的关键词t的地域特征度;
ft,i表示预设地域关键词库里的关键词t与预设地域库里的地域i是否关联,取值1和0,当关键词t与地域i关联时取值为1,反之取值为0;
ft,j表示预设地域关键词库里的关键词t与预设地域库里的地域j是否关联,取值1和0,当关键词t与地域j关联时取值为1,反之取值为0;
wj,i表示预设地域库里的地域i隶属于地域j的权重,地域i和地域j没有隶属关系时wj,i为0。
7.根据权利要求1所述的方法,其特征在于在获取与用户关联的地域信息的步骤中,包括:通过用户联网的IP地址获取与用户关联的地域信息,或者通过智能移动终端的定位功能来获取与用户关联的地域信息,或者通过用户注册时提供的常住地址来获取与用户关联的地域信息。
8.根据权利要求1所述的方法,其特征在于在利用该地域与文章库里的文章之间的匹配度按预设方式选取一定数量的相应文章推荐给用户的步骤中,从大于或等于预设阈值的匹配度所对应的多篇文章中随机选取一定数量的相应文章推荐给用户;或者按照匹配度从大到小顺序选取一定数量的相应文章推荐给用户。
9.根据权利要求1-8之一所述的方法,其特征在于还包括:对选取的一定数量的相应文章首先按一定条件进行排序,然后优先向用户推荐排序在前面的多篇文章。
10.一种基于地域特征向用户推荐文章的装置,其包括:
文章地域特征度提取单元,用于提取已有文章库里的文章的地域特征度;
匹配度确定单元,用于根据文章的地域特征度、预先已建立的地域库和地域关键词库来确定文章与地域之间的匹配度;
推荐单元,用于获取与用户关联的地域信息,利用该地域与文章库里的文章之间的匹配度按预设方式选取一定数量的相应文章推荐给用户。
11.根据权利要求10所述的装置,其特征在于还包括:
地域库建立单元,用于预先建立一个地域库,该地域库包括:国家的国名、该国家管辖的各个级别的地域名、以及各个级别的地域名之间的隶属关系、和所述地域隶属关系之间的权重;和
地域关键词库建立单元,用于预先建立一个地域关键词库,该地域关键词库包括:表示每个地域名的1个或多个关键词,和该1个或多个关键词与对应地域名的关联性。
12.根据权利要求10所述的装置,其特征在于所述文章地域特征度提取单元用于提取所述文章的地域特征度的方法为:
p a , t = n a , t l a
其中:
pa,t表示已有文章库里的文章a对预设地域关键词库里的关键词t的地域特征度;
na,t表示已有文章库里的文章a中出现预设地域关键词库里的关键词t的次数;
la表示已有文章库里的文章a经过分词处理得到的分词数量。
13.根据权利要求10所述的装置,其特征在于所述匹配度确定单元用于确定所述匹配度的方法是:
s a , i = Σ t ∈ T ( p a , t * f t , i ) + Σ t ∈ T Σ j ∈ R ( p a , t * f t , j * w j , i ) , i ≠ j
其中:
sa,i表示已有文章库里的文章a与地域库里的地域i的匹配度;
R表示预设地域库中的所有地域的集合;
T表示预设地域关键词库中的所有关键词的集合;
pa,t表示已有文章库里的文章a对预设地域关键词库里的关键词t的地域特征度;
ft,i表示预设地域关键词库里的关键词t与预设地域库里的地域i是否关联,取值1和0,当关键词t与地域i关联时取值为1,反之取值为0;
ft,j表示预设地域关键词库里的关键词t与预设地域库里的地域j是否关联,取值1和0,当关键词t与地域j关联时取值为1,反之取值为0;
wj,i表示预设地域库里的地域i隶属于地域j的权重,地域i和地域j没有隶属关系时wj,i为0。
14.根据权利要求10所述的装置,其特征在于所述推荐单元用于通过用户联网的IP地址获取与用户关联的地域信息,或者通过智能移动终端的定位功能来获取与用户关联的地域信息,或者通过用户注册时提供的常住地址来获取与用户关联的地域信息。
15.根据权利要求10所述的装置,其特征在于所述推荐单元用于从大于或等于预设阈值的匹配度所对应的多篇文章中随机选取一定数量的相应文章推荐给用户;或者按照匹配度从大到小顺序选取一定数量的相应文章推荐给用户。
16.根据权利要求10-15之一所述的装置,其特征在于所述推荐单元还用于对选取的一定数量的相应文章首先按一定条件进行排序,然后优先向用户推荐排序在前面的多篇文章。
CN201710130703.XA 2017-03-07 2017-03-07 一种基于地域特征向用户推荐文章的方法和装置 Pending CN106934004A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710130703.XA CN106934004A (zh) 2017-03-07 2017-03-07 一种基于地域特征向用户推荐文章的方法和装置
PCT/CN2018/071961 WO2018161719A1 (zh) 2017-03-07 2018-01-09 一种基于地域特征向用户推荐文章的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710130703.XA CN106934004A (zh) 2017-03-07 2017-03-07 一种基于地域特征向用户推荐文章的方法和装置

Publications (1)

Publication Number Publication Date
CN106934004A true CN106934004A (zh) 2017-07-07

Family

ID=59424456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710130703.XA Pending CN106934004A (zh) 2017-03-07 2017-03-07 一种基于地域特征向用户推荐文章的方法和装置

Country Status (2)

Country Link
CN (1) CN106934004A (zh)
WO (1) WO2018161719A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018161719A1 (zh) * 2017-03-07 2018-09-13 广州优视网络科技有限公司 一种基于地域特征向用户推荐文章的方法和装置
CN112837106A (zh) * 2019-11-22 2021-05-25 上海哔哩哔哩科技有限公司 商品推荐方法、装置、计算机设备
CN113379481A (zh) * 2021-05-25 2021-09-10 北京大米科技有限公司 一种数据处理方法及装置
CN115049327A (zh) * 2022-08-17 2022-09-13 阿里巴巴(中国)有限公司 数据处理方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102611785A (zh) * 2011-01-20 2012-07-25 北京邮电大学 面向手机的移动用户个性化新闻主动推荐服务系统及方法
CN103136300A (zh) * 2011-12-05 2013-06-05 北京百度网讯科技有限公司 一种文本相关主题的推荐方法和装置
CN103678669A (zh) * 2013-12-25 2014-03-26 福州大学 一种社交网络中的社区影响力评估系统及方法
CN104462578A (zh) * 2014-12-29 2015-03-25 北京邮电大学 新闻推送方法
CN104915426A (zh) * 2015-06-12 2015-09-16 百度在线网络技术(北京)有限公司 信息排序方法、用于生成信息排序模型的方法及装置
CN106033445A (zh) * 2015-03-16 2016-10-19 北京国双科技有限公司 获取文章关联度数据的方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101651634A (zh) * 2008-08-13 2010-02-17 阿里巴巴集团控股有限公司 提供地域化信息的方法和系统
US9374427B2 (en) * 2011-11-01 2016-06-21 Rahul Shekher Geographical location based cloud storage
CN104077322A (zh) * 2013-03-30 2014-10-01 百度在线网络技术(北京)有限公司 基于问题的地理信息挖掘方法及系统
CN104951543B (zh) * 2015-06-19 2019-02-22 百度在线网络技术(北京)有限公司 通过计算机实现的信息处理方法及装置
CN106934004A (zh) * 2017-03-07 2017-07-07 广州优视网络科技有限公司 一种基于地域特征向用户推荐文章的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102611785A (zh) * 2011-01-20 2012-07-25 北京邮电大学 面向手机的移动用户个性化新闻主动推荐服务系统及方法
CN103136300A (zh) * 2011-12-05 2013-06-05 北京百度网讯科技有限公司 一种文本相关主题的推荐方法和装置
CN103678669A (zh) * 2013-12-25 2014-03-26 福州大学 一种社交网络中的社区影响力评估系统及方法
CN104462578A (zh) * 2014-12-29 2015-03-25 北京邮电大学 新闻推送方法
CN106033445A (zh) * 2015-03-16 2016-10-19 北京国双科技有限公司 获取文章关联度数据的方法和装置
CN104915426A (zh) * 2015-06-12 2015-09-16 百度在线网络技术(北京)有限公司 信息排序方法、用于生成信息排序模型的方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018161719A1 (zh) * 2017-03-07 2018-09-13 广州优视网络科技有限公司 一种基于地域特征向用户推荐文章的方法和装置
CN112837106A (zh) * 2019-11-22 2021-05-25 上海哔哩哔哩科技有限公司 商品推荐方法、装置、计算机设备
CN113379481A (zh) * 2021-05-25 2021-09-10 北京大米科技有限公司 一种数据处理方法及装置
CN115049327A (zh) * 2022-08-17 2022-09-13 阿里巴巴(中国)有限公司 数据处理方法、装置、电子设备及存储介质
CN115049327B (zh) * 2022-08-17 2022-11-15 阿里巴巴(中国)有限公司 数据处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2018161719A1 (zh) 2018-09-13

Similar Documents

Publication Publication Date Title
Jiang et al. Author topic model-based collaborative filtering for personalized POI recommendations
CN107133277B (zh) 一种基于动态主题模型和矩阵分解的旅游景点推荐方法
CN103886090B (zh) 基于用户喜好的内容推荐方法及装置
CN102611785B (zh) 面向手机的移动用户个性化新闻主动推荐服务系统及方法
CN105488233A (zh) 阅读信息推荐方法和系统
CN106055650A (zh) 地址标准化方法和装置
CN106934004A (zh) 一种基于地域特征向用户推荐文章的方法和装置
CN105930469A (zh) 基于Hadoop的个性化旅游推荐系统及方法
KR100928042B1 (ko) 메타데이터 태그를 이용한 맞춤형 컨텐츠 제공 방법 및 그장치
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN108319376B (zh) 一种优化商业词推广的输入联想推荐方法及装置
CN103020845A (zh) 一种移动应用的推送方法及系统
CN106326391A (zh) 多媒体资源推荐方法及装置
CN103064880B (zh) 一种基于搜索信息向用户提供网站选择的方法、装置和系统
Hauff et al. Placing images on the world map: a microblog-based enrichment approach
CN103020270A (zh) 用于电子书籍的信息检索系统和方法
CN103607496A (zh) 一种推断手机用户兴趣爱好的方法、装置及手机终端
CN104423621A (zh) 拼音字符串处理方法和装置
CN104156356B (zh) 个性化导航页面生成方法及装置
CN104516980B (zh) 搜索结果的输出方法以及服务器系统
CN110019645A (zh) 索引库构建方法、搜索方法及装置
CN103268330A (zh) 基于图片内容的用户兴趣提取方法
CN103294692A (zh) 一种信息推荐方法及系统
CN106227866A (zh) 一种基于数据挖掘的混合过滤电影推荐方法
CN103412880B (zh) 一种用于确定多媒体资源间隐式关联信息的方法与设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200901

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Alibaba (China) Co.,Ltd.

Address before: 510627 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping square B radio tower 15 layer self unit 02

Applicant before: GUANGZHOU UC NETWORK TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20170707

RJ01 Rejection of invention patent application after publication