CN114756764A - 基于企业的内容信息流推荐方法、装置、电子设备及存储介质 - Google Patents
基于企业的内容信息流推荐方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114756764A CN114756764A CN202210241069.8A CN202210241069A CN114756764A CN 114756764 A CN114756764 A CN 114756764A CN 202210241069 A CN202210241069 A CN 202210241069A CN 114756764 A CN114756764 A CN 114756764A
- Authority
- CN
- China
- Prior art keywords
- enterprise
- content
- user
- acquiring
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012163 sequencing technique Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 abstract description 3
- 230000006399 behavior Effects 0.000 description 113
- 230000000694 effects Effects 0.000 description 10
- 230000003068 static effect Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000009825 accumulation Methods 0.000 description 3
- 230000004931 aggregating effect Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及大数据处理技术领域,尤其是涉及一种基于企业的内容信息流推荐方法、装置、电子设备及存储介质,包括以下步骤:获取用户的内容请求,其中,所述内容请求中携带有用户标识;根据所述用户标识,获取所述用户的关联企业;根据所述关联企业,将对应的内容推荐集推送给所述用户。本发明能够将海量的企业相关的内容信息快速准确地呈现给用户。
Description
技术领域
本申请涉及大数据处理技术领域,尤其是涉及一种基于企业的内容信息流推荐方法、装置、电子设备及存储介质。
背景技术
随着移动通信和互联网技术的发展,网络信息流服务逐步取代了传统媒体成为用户获取信息的主要途径。信息流是多个信息顺序排列所构成的流式数据。信息流推荐是一种通过对特征进行挖掘,构建并训练学习网络,从而匹配推测出用户可能喜欢的信息流的方法。
相关技术中,为了提升用户体验,通常会基于用户的搜索、浏览、评论等行为,来匹配推测出用户可能喜欢的信息流,向用户提供相关度较高的信息流资源。
在实践过程中,发明人发现该技术中至少存在如下问题:
在面向用户获取企业相关信息的服务中,由于企业数量众多,相关的政策补贴与立项公示信息分散非标准化,企业所拥有的知识产权数量为海量,产学研专家信息遍布全国,从而形成了海量分散无序的企业信息数据。在海量的企业信息数据中,如何获取用户所需要、关注、感兴趣的内容信息,如何将这些海量的企业相关的内容信息快速准确地呈现给用户,是目前的一个难题。
发明内容
为了解决上述问题,本申请提供一种基于企业的内容信息流推荐方法、装置、电子设备及存储介质,能够将海量的企业相关的内容信息快速准确地呈现给用户。
第一方面,本申请提供的一种基于企业的内容信息流推荐方法,采用如下的技术方案:
一种基于企业的内容信息流推荐方法,包括以下步骤:
获取用户的内容请求,其中,所述内容请求中携带有用户标识;
根据所述用户标识,获取所述用户的关联企业;
根据所述关联企业,将对应的内容推荐集推送给所述用户。
通过上述技术方案,获取到用户的关联企业,并基于关联企业确定所推送的内容信息,使得用户能够快速准确地查看到感兴趣的企业相关的内容信息。
在一些实施方式中,所述关联企业包括:
所述用户的绑定企业或根据所述用户标识确定的指定企业,
以及根据所述绑定企业或指定企业获取的同行企业。
在一些实施方式中,所述根据用户标识,获取用户的关联企业,具体包括以下步骤:
根据所述用户标识,查找用户是否存在绑定企业;
若是,则获取所述用户的绑定企业,以及所述绑定企业的同行企业;
若否,则根据所述用户标识,获取用户行为数据;
根据所述用户行为数据,提取用户特征;
根据所述用户特征,确定所述用户的指定企业,并获取所述指定企业的同行企业。
通过上述技术方案,无论用户是否绑定企业,均能将用户与特定企业相关联,并获取同行企业的信息。
在一些实施方式中,所述根据关联企业,将对应的内容推荐集推送给所述用户,具体包括以下步骤:
根据所述关联企业,确定对应的候选推荐集;
对所述候选推荐集中的内容数据进行排序,生成内容推荐集;
向所述用户对应的终端推送所述内容推荐集。
通过上述技术方案,确定候选推荐集,生成最终的内容推荐集,并向用户推送。
在一些实施方式中,所述根据关联企业,确定对应的候选推荐集,具体包括以下步骤:
获取所述关联企业的企业画像;
根据所述企业画像,获取对应的内容数据;
获取所述内容数据的内容画像;
根据所述企业画像和内容画像,建立基于标签的企业倒排索引和内容倒排索引;
根据企业画像、内容画像、企业倒排索引和内容倒排索引,确定所述关联企业所对应的候选推荐集。
在一些实施方式中,所述获取关联企业的企业画像,具体包括以下步骤:
根据所述用户标识,获取用户的用户画像;
获取所述用户的关联企业;
根据所述关联企业下所关联的所有用户的用户画像,获取关联企业的企业画像。
通过上述技术方案,以企业的维度去聚合该企业下所有关联的个人用户的行为数据,通过用户画像、企业画像、内容画像三者相结合的方式来确定候选内容数据。
在一些实施方式中,所述对候选推荐集中的内容数据进行排序,生成内容推荐集,具体包括以下步骤:
获取所述候选推荐集中各内容数据的内容评分,其中,所述内容评分包括内容兴趣度评分和内容质量评分;
根据所述内容评分对所述候选推荐集中的内容数据进行排序,获取排序结果;
根据所述排序结果生成内容推荐集。
通过上述技术方案,根据内容评分的高低对候选的内容数据进行排序,并按排序结果进行内容推荐。
第二方面,本申请提供的一种基于企业的内容信息流推荐装置,采用如下的技术方案:
一种基于企业的内容信息流推荐装置,包括:
内容请求获取模块,用于获取用户的内容请求,其中,所述内容请求中携带有用户标识;
关联企业获取模块,用于根据所述用户标识,获取所述用户的关联企业;
信息流推荐模块,用于根据所述关联企业,将对应的内容推荐集推送给所述用户。
第三方面,本申请提供了一种电子设备,采用如下的技术方案:
一种电子设备,包括:
至少一个处理器;
存储装置,用于存储至少一个计算机程序;
当所述至少一个计算机程序被所述至少一个处理器执行,使得所述至少一个处理器实现上述技术方案所述的方法。
第四方面,本申请提供了一种计算机可读存储介质,采用如下的技术方案:
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述技术方案所述的方法。
综上所述,本申请包括以下至少一种有益技术效果:
1.选出对用户最为合适的企业相关内容数据进行推送,使得用户能得到合适、准确、有价值的与关联企业相关的内容信息。
2.在用户未绑定企业的情况下,仍能根据用户行为来确定用户相关的企业,更加智能化。
3.除了用户的绑定企业或指定企业外,还能对同行企业相关的内容数据进行推荐,使得推送的内容信息更加符合用户需求。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请的一种实施例提供的基于企业的内容信息流推荐方法的整体流程示意图;
图2为本申请的一种实施例提供的获取用户的关联企业的流程示意图;
图3为本申请的一种实施例提供的推送内容推荐集的流程示意图;
图4为本申请的一种实施例提供的确定候选推荐集的流程示意图;
图5为本申请的一种实施例提供的获取关联企业的企业画像的流程示意图;
图6为本申请的一种实施例提供的生成内容推荐集的流程示意图;
图7为本申请的一种实施例提供的基于企业的内容信息流推荐装置的框架示意图。
具体实施方式
为使得本申请的发明目的、特征、优点能够更加的明显和易懂,下面将结合本申请的一种实施例中的附图,对本申请的一种实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前现有的很多信息流推荐系统,基本都是面向普通个人用户,其关注的大部分为个人层面的内容信息,因此只需从用户侧和内容侧来分析,根据用户的喜好推送贴合用户的信息流。而本申请的一种实施例中,是面向的要关注各类企业信息的个人用户,同时从用户侧、企业侧和内容侧三个角度来进行综合的分析。在实际应用过程中,很多用户不会绑定自己的所属企业,此时如何向用户,尤其是这类未绑定所属企业的用户推荐合适、有价值的信息,就是本申请解决问题的方向。
本申请的一种实施例中,未绑定企业的情况下,基于用户的行为(包括用户当前行为和历史行为),来确定用户的关联企业;基于用户的行为,计算出用户喜好的内容画像,并且基于关联企业的标识,得到对应的内容数据,将内容数据与企业画像、内容画像进行关联和评分,对内容数据进行排序,基于排序结果向用户提供对应的内容。
以下结合附图1至7对本申请作进一步详细说明。
如图1所示的基于企业的内容信息流推荐方法,可以实施以下步骤:
101、获取用户的内容请求,其中,所述内容请求中携带有用户标识。
本申请的一种实施例中,用户访问APP/web时,是以企业内的自然人为发起者(即个人用户)发起内容请求,根据内容请求获取用户标识参数。该用户内容请求一般用于请求获取至少一个基本企业所对应的内容信息。
例如,在本申请的一种实施例中,用户UA有绑定企业或指定企业CA,CA有同行企业CA1、CA2、CA3,服务器会基于企业CA、CA1、CA2、CA3确定相关的内容信息推荐给用户UA。该用户内容请求中携带的用户标识即为“用户UA”。用户的用户标识为唯一的ID编码,可以为终端设备的唯一编号,也可以为一个账户。
102、根据所述用户标识,获取所述用户的关联企业。
所述关联企业包括:用户的绑定企业或根据所述用户标识确定出的指定企业,以及根据所述绑定企业或指定企业获取的同行企业。
本申请的一种实施例中,通过查询用户相关企业的服务,获取一个自然人(个人用户)映射到一家企业的对应关系,并由该企业确定出同行企业,从而达到基于企业推荐的效果。
本申请的一种实施例中,先根据用户标识,来查询用户是否有绑定企业;如无绑定企业,则根据该用户标识,通过查询本地保存的用户行为和用户标识的对应关系,确定出与该用户标识对应的指定企业。用户标识可用于获取所对应的用户行为数据(当前行为数据和历史行为数据)。表1:用户标识与用户行为的对应关系表。
用户标识 | 用户行为A | 用户行为B | 用户行为C |
用户UA | A1 | B1 | C1 |
用户的行为包括有:曝光行为、点击行为、收藏行为、分享行为、浏览时长等,一个用户只有曝光行为的记录视为负反馈,点击行为、收藏行为、分享行为、浏览时长等视为正反馈;正反馈和负反馈会影响内容数据的相关评分,也会影响到用户的指定企业。表1中的用户行为还包括搜索行为,在信息流推荐中,用户的搜索行为也会计入用户行为数据,影响到用户的关联企业;但搜索行为实际获取到的信息流由搜索关键词来确定,获得的非上述推荐信息流。
例如:在表1中,本地保存的用户行为数据和用户标识的对应关系如表所示,当用户标识为“用户UA”时,获取对应的用户行为数据A1、B1、C1(此处仅为示例,用户行为数据会有大量数据,需经过数据清洗),A1(点击了内容信息1)中涉及企业CB五次,B1(浏览了内容信息2)中涉及企业CA十次,C1(分享了内容信息2)中涉及企业CA两次,还需综合考虑这些用户行为发生的时间段,此示例中可确定出用户相关的指定企业为CA(此示例中用户UA无绑定企业)。
根据用户行为数据指定企业,此处的行为包括历史行为和当前行为的所有行为数据,通过对这些行为数据进行分析,统计各企业的概率。
1)根据用户行为数据,获取各用户行为数据中所包含的企业信息,得到企业信息列表;
2)对不同用户行为设置不同的权重,并根据各企业所对应的用户行为的数量,得到用户与各企业对应的置信度;
3)根据置信度对用户所对应的企业进行排序,置信度最高的即为该用户的指定企业。
用来指定企业的用户行为数据主要包含用户的关注数据、监控数据、咨询数据、内容浏览数据等,这部分数据包含企业相关的信息,例如用户关注的企业、监控的企业、咨询的企业、内容关联的企业等。本实施例中,可进行置信度分析,根据置信区间的下界,取置信度最高的企业作为指定企业。对不同行为设置不同的权重,同时统计用户在各个企业上咨询次数、内容浏览次数,最后将权重乘以对应的次数累加求和,得到用户归属于这个企业的对应分数(概率),即置信度。对不同行为设置不同的权重,可根据专家打分法、熵权法、主成分分析法等方法。此处可以加入置信度限制,从而控制指定企业的准确度;或者可以通过贝叶斯的分类模型等方法来计算。数学表示可以形式化为:
score=F(behavior1,behavior2,behavior3,...)。
根据用户的当前发生的行为数据,会不断迭代更新用户行为数据,最终会影响到指定企业和推送的内容信息。例如,用户的历史行为数据关联某个行业较多,则该用户的指定企业即为该行业内某企业;但用户当前行为数据关联另一行业,随着用户当前行为不断的迭代更新,该用户的指定企业会产生变化,到一定程度会变为另一行业的企业,即指定企业会逐渐变化,推送的信息会随着指定企业而变化。但如果已经存在绑定企业,绑定企业是不会像指定企业那样不断变化的,因此此时结合偏好数据和兴趣数据来生成信息流推荐的候选内容数据会更加准确。
本申请的一种实施例中,根据获取到的绑定企业或指定企业,基于企业产品、行业类别、经营范围、企业规模是否相近、企业所属地域、知识产权数量等多个维度,来确定绑定企业或指定企业的同行企业。其中企业产品是核心的判断依据。
例如:指定企业为CA,根据企业产品、行业类别、经营范围、企业规模、企业所属地域、知识产权数量等信息,确定出企业的同行企业为CA1、CA2、CA3等。
103、根据所述关联企业,将对应的内容推荐集推送给所述用户。
基于关联企业,确定与关联企业相关的候选内容集合,并依据内容评分排序,根据排序选出一定数据的内容数据,生成内容推荐集合,并将内容推荐集合推送给用户。
本申请的一种实施例中,服务器接收到用户的内容数据获取请求后,根据用户标识id信息,判断用户是否存在绑定企业,如未绑定,则推断出用户所属的指定企业,并根据推断出绑定企业或指定企业来查询其同行企业列表,最后根据所属企业(绑定企业或指定企业)及同行企业列表,基于企业确定企业相关的内容信息,例如知识产权、政策、企业、产学研等内容信息,返回内容响应数据给用户。
如图2所示的获取用户的关联企业的方法,可以实施以下步骤:
201、获取用户内容请求中的用户标识;
202、根据所述用户标识,查找用户是否存在绑定企业;
203、若存在绑定企业,则获取所述用户的绑定企业;
204、获取所述绑定企业的同行企业;
205、若不存在绑定企业,则根据所述用户标识,获取用户行为数据;
本申请的一种实施例中,基于用户的行为数据,统计<user,content>每天的曝光次数、点击次数、观看进度(时长、百分比)、浏览路径等行为;
206、根据所述用户行为数据,提取用户特征;
根据用户行为数据,查找在各个内容数据中所涉及的企业,结合各类用户行为的影响分值等等。
207、根据所述用户特征,确定所述用户的指定企业;
查找符合用户特征的相关企业,并根据置信度对相关企业进行排序;根据置信度分析结果,将置信度最高的企业作为用户的指定企业;
208、获取所述指定企业的同行企业。
本申请的一种实施例中,若根据所述用户特征无法确定出所述用户的指定企业(例如新用户,行为数据量较少,无法确定出相关企业),则提供默认的信息流并向用户对应的终端进行推荐(例如向用户推荐同一归属地的热点内容信息)。
如图3所示的推送内容推荐集的方法,可以实施以下步骤:
301、根据所述关联企业,确定对应的候选推荐集;
本申请的一种实施例中,通过关联企业列表,查询本地保存的海量企业信息中与企业列表中各企业相关的内容数据。
表2:企业标识与内容数据的对应关系表。
企业标识 | 内容数据 |
CA | C1 |
CA1 | C2 |
CA | C3 |
CA1 | C4 |
例如:企业标识与内容数据的对应关系如表所示,CA对应的内容数据为C1、C3。本实施例中,该数据的存储方式可以由多种方式体现,具体数据存储方式本实施例并不限定。
302、对所述候选推荐集中的内容数据进行排序,生成内容推荐集;
303、向所述用户对应的终端推送所述内容推荐集。
如图4所示的确定候选推荐集的方法,可以实施以下步骤:
401、获取所述关联企业的企业画像;
402、根据所述企业画像,获取对应的内容数据;
根据企业画像中的内容标签,获取对应的内容数据;
403、获取所述内容数据的内容画像;
本申请的一种实施例中,基于内容数据、内容展现点击数据,来计算内容侧的内容画像,包括内容标签向量、内容曝光、点击统计数据、内容实体词embeding向量、内容topic向量等;
404、根据所述企业画像和内容画像,建立基于标签的企业倒排索引和内容倒排索引;
405、根据企业画像、内容画像、企业倒排索引和内容倒排索引,确定所述关联企业所对应的候选推荐集。
本申请的一种实施例中,围绕企业画像、内容画像,建立基于标签的企业倒排索引、内容倒排索引;根据构建的画像、特征、内容倒排索引、企业倒排索引,使用协同、LDA、E2I(企业关联内容)、I2I(内容关联内容)、E2E(企业关联企业)、E2I2I、E2E2I、I2E2I等方法,形成一个网状关联结构,由此来确定企业候选推荐集。
内容画像中包括内容被标注的各种标签及该条内容所涉及的行为种类、次数,以每个标签建立一个内容倒排索引,可以通过行为次数等方式倒排内容。
企业画像包括企业下面所关联的各个用户点击阅读过内容的标签列表、对应标签的行为次数、各个用户的偏好数据、兴趣数据,同样可以以每个标签建立企业倒排索引,通过行为次数、偏好值、兴趣值等方式倒排得到标签下面对应的企业倒排索引。
另外,根据企业的标签及内容的标签,企业标签与内容标签相同存在一条连边,相同的标签树越多,连边的数量越多,从而形成一个整体的网状结构。由此可以从企业或者内容出发,通过标签,关联到企业或者内容。
如图5所示的获取关联企业的企业画像的方法,可以实施以下步骤:
501、根据所述用户标识,获取用户的用户画像;
502、获取所述用户的关联企业;
503、根据所述关联企业下所关联的所有用户的用户画像,获取关联企业的企业画像。
用户画像是围绕自然人的年龄、性别、职业、收入、风险、兴趣等各个维度去建立和完善相关的标签体系,用户标签是表达人的基本属性、行为倾向、兴趣偏好等某一个维度的数据标识。
用户画像包括用户静态属性、用户行为特征等;其中用户静态属性的静态信息由用户填写或者直接读取用户设备;而用户行为特征包括:
1)用户行为数据,用于衡量用户各行为的频率,包括关注行为、监控行为、搜索行为、点击行为、浏览行为、咨询行为、分享行为等,该类行为频率为次数累加统计;
2)用户活跃数据,用于衡量用户的活跃程度和生命周期,包括用户活跃程度和用户生命周期。用户活跃程度通过用户在站内的行为的次数累加(随时间衰减)衡量,计算公式为∑δt·Cntclick,其中δ表示每天的衰减参数,t表示行为所在时间到当前时间的天数,Cntclick表示一天的行为次数;用户生命周期使用单纯的活跃天数时间段来衡量;
3)用户偏好数据,用于衡量用户的偏好,根据用户各行为的频率,及各行为所对应的标签,得到对各个标签的偏好值,该偏好值可以为次数累加统计,也可以为其他的定义方法;
4)用户兴趣数据,用于衡量用户的兴趣,根据用户行为数据,可以得出用户感兴趣的方向,兴趣方向可以为行业、企业、或业务,从用户的行为聚合分析出具体的兴趣方向。
企业画像为企业侧的标签体系,是包含了若干用户画像的一个集合,所有关联在该企业下的个人用户的用户画像集合到一起,共同构成了该企业的企业画像。
企业画像包括企业静态属性、企业行为特征等;企业行为特征包括:企业活跃数据(企业活跃程度和企业生命周期)、企业行为数据、企业偏好数据和企业兴趣数据。其中,企业静态属性信息一方面由用户主动填写,另一方面为采集公开的信息数据,包括工商信息、企业官网等,该类信息可通过爬虫技术或者数据清洗聚合能力来提取;企业行为特征为关联(绑定或指定)在该企业下的(个人)用户行为特征的聚合,对于统计类的用户行为特征(用户生命周期、用户行为数据),现阶段仅采用简单的数据累加聚合,得到企业生命周期、企业行为数据;对于时间衰减类特征(用户活跃程度),会对每天各用户的行为进行加总后再进行时间衰减累加,得到企业活跃程度。对于用户偏好数据、用户兴趣数据,采用贝叶斯置信区间的方法来评估每个用户偏好数据或者用户兴趣数据的可信程度,以一定阈值为界限,取置信区间上界或者下界来选取企业偏好数据的列表、企业兴趣数据的列表;候选推荐集的获取基于企业行为数据、企业偏好数据、企业兴趣数据,以及内容画像、企业倒排索引和内容倒排索引。例如,一个企业画像的偏好是专利、机械类别,召回的内容数据将集中在专利类内容、机械类别内容,并在最终用户看到的内容中占据大多数。
获取企业偏好数据列表时,对企业下所关联的各用户的行为数据对应的标签进行偏好值分数统计,若企业下所关联的多个用户的行为数据对应的标签相同,对这些相同标签的偏好值进行加总,由此得到该企业下的各标签的偏好值评分;偏好值的评分,即标签的评分,是根据预设的评分方案,预先定义各行为的分数,按照行为的次数或行为的程度,累计加总得分。采用贝叶斯置信区间的方法来评估用户偏好数据的可信度,可结合用户数量,用户数量越大,可信度越高。例如,一企业下3个用户对于A标签的偏好值评分都为3分,企业对该标签的评分的加总则为9分,该企业下1个用户对于B标签的偏好值评分为9分,企业对该标签的评分的加总也为9分,但此时认为第一种更可信,A标签相对于B标签,更可能属于该企业的标签。更可信的标签会在企业偏好数据列表中更靠前,本实施例中可采用取置信区间的下界的处理方法,使得更可信标签的偏好值评分会更高。获取企业兴趣数据列表的方式与获取企业偏好数据列表的方式类似,企业下所关联的多个用户均存在所对应的兴趣方向,各个兴趣方向各自存在一个兴趣值评分,采用贝叶斯置信区间的方法来评估用户兴趣数据的可信度,取置信区间上界或者下界来选取用户兴趣数据,并由此得到企业兴趣数据列表。
企业偏好数据和企业兴趣数据为两个维度,根据企业画像(企业行为数据、企业偏好数据和/或企业兴趣数据)、内容画像、企业倒排索引和内容倒排索引,得到所述关联企业所对应的候选推荐集时,可以采用同时匹配企业偏好数据和企业兴趣数据的方式,也可以采用单独匹配企业偏好数据或企业兴趣数据的方式。
企业侧的企业画像,包括企业内容标签统计数、企业内容标签偏好、企业长期偏好内容标签、企业短期偏好内容标签、企业内容浏览周期、基于企业内容标签维度的embeding向量、基于企业浏览内容的topic向量、基于企业浏览内容的node2vec向量(深度、广度)、基于企业主观行为(搜索、关注、收藏)的embeding向量等。
本申请的一种实施例中,基于用户映射的企业,将一个用户映射到一家企业,以企业维度聚合用户行为(当前行为和历史行为)的统计数据。
如图6所示的生成内容推荐集的方法,可以实施以下步骤:
601、获取所述候选推荐集中各内容数据的内容评分,其中,所述内容评分包括内容兴趣度评分和内容质量评分;
本申请的一种实施例中,内容兴趣度评分,主要受用户特征、物品(内容)特征、上下文特征等几部分影响,几部分内容会共同影响一条内容的关联度评分。用户特征,即用户相关的标签信息,在哪个标签上比较关注等,是对某个内容标签感兴趣的一个评分。本申请实施例中是基于企业,因此可以采用企业特征来描述,是以企业维度来聚合了该企业下的所有关联用户的用户特征,企业标签包含了用户标签;内容特征,即内容数据在与企业标签的各个内容标签相关联的一个评分;上下文特征包括用户在进行查看内容等用户行为时与内容的交互信息,还包括时空环境、网络状态等数据。因此内容兴趣度评分可以评估内容数据与企业侧(用户侧)对内容的兴趣度。
内容数据本身质量的评分称之为内容质量评分,内容质量评分会依据内容所属行业、主题、发布时间等信息,以及内容曝光次数、点击次数、点赞次数、分享次数、收藏次数、浏览时长、阅读完成度等统计数据,结合统计数据所在发生的时间做衰减(例如指数衰减、牛顿冷却定律等)综合计算内容质量评分,内容质量评分的表达式如下所示:
Score=Score基准+W点击·Cnt点击+W收藏·Cnt收藏+…-W曝光未点击
·Cnt曝光未点击-W曝光己点击·Cnt曝光己点击
Score表示内容质量评分,Score基准表示内容的基准分,W点赞·Cnt点赞表示调整项,该调整项的形式也可以是指数函数、对数函数等,根据不同的衡量纬度采用不同的形式,W表示行为的权重,Cnt表示行为次数。
602、根据所述内容评分对候选推荐集中的内容数据进行排序,获取排序结果;
本申请的一种实施例中,根据排序模型对每条内容数据进行排序,排序按内容数据的内容评分来确定,根据内容评分的高低顺序进行排序。
例如:如表2中所示,CA对应的内容数据包括C1、C3,如C1、C3的内容评分为0.9、0.95,按照得分降序排序,排序结果为C3、C1。本实施例中,排序模型可以由多种方式体现,排序规则可以有多种方式体现,本实施例并不限定。所述内容数据的种类包括多种,例如财税类、专利类、项目类、政策类等。
本申请的一种实施例中,基于点击率、转化率、留存率等目标,使用LR、GBDT、FM、deepFM、wide&deep等机器学习、深度学习方法构建排序模型,对候选内容推荐集进行排序,推荐给用户合适、有价值的内容。
排序模型构建,业界通常包含数据处理、特征工程、模型训练(传统机器学习模型LR、GBDT之类的树模型等;深度学习模型包括网络结构设计等)几部分。
603、根据所述排序结果生成内容推荐集。
本申请的一种实施例中,从排序结果中取top N个值(排序前N个值,N≥1),一般可以取5~20条记录,生成内容推荐集。服务器生成推荐信息流,并将获取到的数据转换成用户使用的终端可显示的形式发送给用户。
本申请的另一种实施例中,内容评分还包括:内容-内容关联度评分和内容-企业标签关联度评分。
本申请的另一种实施例中,步骤602还可以实施以下步骤:
6021、获取所述候选推荐集中各内容数据的内容-内容关联度评分;
6022、根据所述内容-内容关联度评分对候选推荐集中的内容数据进行排序,获取第一排序集;
6023、获取所述候选推荐集中各内容数据的内容-企业标签关联度评分;
6024、根据所述内容-企业标签关联度评分对候选推荐集中的内容数据进行排序,获取第二排序集;
6025、根据第一排序集和/或第二排序集,获取第一结果集;
6026、根据所述内容兴趣度评分和内容质量评分对所述第一结果集中的内容数据进行排序,获取第二结果集,即最终排序结果。
该依据内容-内容关联度评分、内容-企业标签关联度评分、内容兴趣度评分和内容质量评分的排序方法相比较仅依据内容兴趣度评分、内容质量评分的排序方法,精度会更高。
内容-内容关联度评分,是基于内容的维度,根据企业行为数据中的最后N(N≥1)次行为对应的内容数据,和候选推荐集中的内容数据来共同获取,具体方法如下:
1)获取候选推荐集中各内容数据的第一内容标签和第一内容关键词;
本申请实施例中,内容数据的标签由人工标注,属于人为定义的一套内容标签体系;可通过TF-IDF、TextRank模型可以获取每篇内容top N的关键词。所述关键词是基于NLP技术做的自动化的关键词提取技术,不需要人工介入,可以做到自动化,关键词提取基于统计理论,有较为完备的理论体系。
2)根据企业行为数据,获取企业行为数据的最后N(N≥1)次行为对应的内容数据,并根据所述最后N次行为对应的内容数据获取N组对应的第二内容标签和第二内容关键词;
3)根据所述第一内容标签、第一内容关键词、N组对应的第二内容标签和第二内容关键词,得到N组内容-内容关联度评分。
本申请实施例中,通过计算标签向量、关键词向量之间的相似度,可以计算出内容之间的关联度。可根据N组内容-内容关联度评分获取N组第一排序集,再根据N组第一排序集,和/或第二排序集,获取第一结果集。
内容-企业标签关联度评分,是基于企业的维度,根据企业画像中的标签和候选推荐集中的内容标签的关联度来获取,具体方法如下:
1)获取候选推荐集中各内容数据的第一内容标签;
2)获取企业画像中的企业行为数据所对应的第二内容标签;
3)根据第一内容标签和第二内容标签得到内容-企业标签关联度评分。
内容与企业的关联度,本质上是内容标签列表和企业画像标签列表的关联度计算,同时,在内容生产时,有部分内容是根据企业的相关信息生产的,此时内容会天然的带有企业信息。企业画像标签列表是通过聚合各个个人用户的画像而形成的一个企业画像标签列表。
如图7所示的基于企业的内容信息流推荐装置的框架示意图,本申请的一种实施例提供的一种基于企业的内容信息流推荐装置,包括:
内容请求获取模块701,用于获取用户的内容请求,其中,所述内容请求中携带有用户标识;
关联企业获取模块702,用于根据所述用户标识,获取所述用户的关联企业;
信息流推荐模块703,用于根据所述关联企业,将对应的内容推荐集推送给所述用户。
本申请的一种实施例提供的一种基于企业的内容信息流推荐装置,还包括:
7031、候选推荐集确定模块,用于根据所述关联企业,确定对应的候选推荐集;
7032、内容推荐集生成模块,用于对所述候选推荐集中的内容数据进行排序,生成内容推荐集;
7033、内容推荐集推送模块,用于向所述用户对应的终端推送所述内容推荐集。
在一些可能的实施方式中,根据本申请实施方式的电子设备可以至少包括至少一个处理器、以及至少一个存储装置。其中,所述存储装置存储有至少一个计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行本说明书上述技术方案中描述的根据本申请各种具体实施方式的方法中的步骤。
在一些可能的实施方式中,本申请的各个方面还可以实现为一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被电子设备的处理器执行时用于实现本说明书上述技术方案中描述的根据本申请各种具体实施方式的方法中的步骤。
计算机可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线、光缆、RF等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务器上执行。在涉及远程电子设备的情形中,远程电子设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户电子设备,或者,可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
以上均为本申请的较佳实施例,并非依此限制本申请的保护范围,故:凡依本申请的结构、形状、原理所做的等效变化,均应涵盖于本申请的保护范围之内。
Claims (10)
1.一种基于企业的内容信息流推荐方法,其特征在于,包括以下步骤:
获取用户的内容请求,其中,所述内容请求中携带有用户标识;
根据所述用户标识,获取所述用户的关联企业;
根据所述关联企业,将对应的内容推荐集推送给所述用户。
2.根据权利要求1所述的基于企业的内容信息流推荐方法,其特征在于,所述关联企业包括:
所述用户的绑定企业或根据所述用户标识确定的指定企业,
以及根据所述绑定企业或指定企业获取的同行企业。
3.根据权利要求2所述的基于企业的内容信息流推荐方法,其特征在于,所述根据用户标识,获取用户的关联企业,具体包括以下步骤:
根据所述用户标识,查找用户是否存在绑定企业;
若是,则获取所述用户的绑定企业,以及所述绑定企业的同行企业;
若否,则根据所述用户标识,获取用户行为数据;
根据所述用户行为数据,提取用户特征;
根据所述用户特征,确定所述用户的指定企业,并获取所述指定企业的同行企业。
4.根据权利要求1所述的基于企业的内容信息流推荐方法,其特征在于,所述根据关联企业,将对应的内容推荐集推送给用户,具体包括以下步骤:
根据所述关联企业,确定对应的候选推荐集;
对所述候选推荐集中的内容数据进行排序,生成内容推荐集;
向所述用户对应的终端推送所述内容推荐集。
5.根据权利要求4所述的基于企业的内容信息流推荐方法,其特征在于,所述根据关联企业,确定对应的候选推荐集,具体包括以下步骤:
获取所述关联企业的企业画像;
根据所述企业画像,获取对应的内容数据;
获取所述内容数据的内容画像;
根据所述企业画像和内容画像,建立基于标签的企业倒排索引和内容倒排索引;
根据企业画像、内容画像、企业倒排索引和内容倒排索引,确定所述关联企业所对应的候选推荐集。
6.根据权利要求5所述的基于企业的内容信息流推荐方法,其特征在于,所述获取关联企业的企业画像,具体包括以下步骤:
根据所述用户标识,获取用户的用户画像;
获取所述用户的关联企业;
根据所述关联企业下所关联的所有用户的用户画像,获取关联企业的企业画像。
7.根据权利要求4所述的基于企业的内容信息流推荐方法,其特征在于,所述对候选推荐集中的内容数据进行排序,生成内容推荐集,具体包括以下步骤:
获取所述候选推荐集中各内容数据的内容评分,其中,所述内容评分包括内容兴趣度评分和内容质量评分;
根据所述内容评分对所述候选推荐集中的内容数据进行排序,获取排序结果;
根据所述排序结果生成内容推荐集。
8.一种基于企业的内容信息流推荐装置,其特征在于,包括:
内容请求获取模块,用于获取用户的内容请求,其中,所述内容请求中携带有用户标识;
关联企业获取模块,用于根据所述用户标识,获取所述用户的关联企业;
信息流推荐模块,用于根据所述关联企业,将对应的内容推荐集推送给所述用户。
9.一种电子设备,其特征在于,包括:
至少一个处理器;
存储装置,用于存储至少一个计算机程序;
当所述至少一个计算机程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210241069.8A CN114756764A (zh) | 2022-03-11 | 2022-03-11 | 基于企业的内容信息流推荐方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210241069.8A CN114756764A (zh) | 2022-03-11 | 2022-03-11 | 基于企业的内容信息流推荐方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114756764A true CN114756764A (zh) | 2022-07-15 |
Family
ID=82327767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210241069.8A Withdrawn CN114756764A (zh) | 2022-03-11 | 2022-03-11 | 基于企业的内容信息流推荐方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114756764A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115293933A (zh) * | 2022-08-15 | 2022-11-04 | 维正知识产权科技有限公司 | 知识产权内容推荐方法、装置、计算机设备和存储介质 |
CN115564486A (zh) * | 2022-10-12 | 2023-01-03 | 企知道网络技术有限公司 | 一种数据推送方法、装置、设备和介质 |
CN116010704A (zh) * | 2023-01-13 | 2023-04-25 | 企知道网络技术有限公司 | 企业同行推荐方法、电子设备及存储介质 |
CN117436830A (zh) * | 2023-12-20 | 2024-01-23 | 陕西青叶海棠网络科技有限责任公司 | 一种毕业生就业企业鉴别系统 |
-
2022
- 2022-03-11 CN CN202210241069.8A patent/CN114756764A/zh not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115293933A (zh) * | 2022-08-15 | 2022-11-04 | 维正知识产权科技有限公司 | 知识产权内容推荐方法、装置、计算机设备和存储介质 |
CN115564486A (zh) * | 2022-10-12 | 2023-01-03 | 企知道网络技术有限公司 | 一种数据推送方法、装置、设备和介质 |
CN116010704A (zh) * | 2023-01-13 | 2023-04-25 | 企知道网络技术有限公司 | 企业同行推荐方法、电子设备及存储介质 |
CN117436830A (zh) * | 2023-12-20 | 2024-01-23 | 陕西青叶海棠网络科技有限责任公司 | 一种毕业生就业企业鉴别系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Guzman et al. | An exploratory study of twitter messages about software applications | |
CN114756764A (zh) | 基于企业的内容信息流推荐方法、装置、电子设备及存储介质 | |
CN105701216B (zh) | 一种信息推送方法及装置 | |
CN110163647B (zh) | 一种数据处理方法及装置 | |
Liu et al. | Modeling and predicting the helpfulness of online reviews | |
CN102708131B (zh) | 将消费者自动分类到微细分中 | |
CN103377250B (zh) | 基于邻域的top‑k推荐方法 | |
JP5615857B2 (ja) | 分析装置、分析方法及び分析プログラム | |
US20150142507A1 (en) | Recommendation system for specifying and achieving goals | |
CN112231533A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN110795613B (zh) | 商品搜索方法、装置、系统及电子设备 | |
US20200210390A1 (en) | Automatic feature generation for machine learning in data-anomaly detection | |
Li et al. | WeSeer: Visual analysis for better information cascade prediction of WeChat articles | |
CN114693409A (zh) | 产品匹配方法、装置、计算机设备、存储介质和程序产品 | |
US20190205341A1 (en) | Systems and methods for measuring collected content significance | |
CN117076770A (zh) | 基于图计算的数据推荐方法、装置、存储价值及电子设备 | |
CN117194779A (zh) | 基于人工智能的营销系统优化方法、装置及设备 | |
CN116561134A (zh) | 业务规则处理方法、装置、设备及存储介质 | |
WO2016187504A1 (en) | Crowd-based sentiment indices | |
CN115619503A (zh) | 一种物品推荐方法、装置、存储介质和计算机设备 | |
CN110490682A (zh) | 分析商品属性的方法和装置 | |
CN115222177A (zh) | 业务数据处理方法、装置、计算机设备和存储介质 | |
Chauhan et al. | Customer-Aware Recommender System for Push Notifications in an e-commerce Environment | |
Grottke et al. | How the distribution of the number of items rated per user influences the quality of recommendations | |
Liu et al. | Understanding Consumer Preferences---Eliciting Topics from Online Q&A Community |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 518051 2201, block D, building 1, bid section 1, Chuangzhi Yuncheng, Liuxian Avenue, Xili community, Xili street, Nanshan District, Shenzhen, Guangdong Applicant after: Qizhi Technology Co.,Ltd. Address before: 518051 2201, block D, building 1, bid section 1, Chuangzhi Yuncheng, Liuxian Avenue, Xili community, Xili street, Nanshan District, Shenzhen, Guangdong Applicant before: Qizhi Network Technology Co.,Ltd. |
|
CB02 | Change of applicant information | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220715 |
|
WW01 | Invention patent application withdrawn after publication |