CN111723295A - 一种内容分发方法、装置和存储介质 - Google Patents
一种内容分发方法、装置和存储介质 Download PDFInfo
- Publication number
- CN111723295A CN111723295A CN202010618228.2A CN202010618228A CN111723295A CN 111723295 A CN111723295 A CN 111723295A CN 202010618228 A CN202010618228 A CN 202010618228A CN 111723295 A CN111723295 A CN 111723295A
- Authority
- CN
- China
- Prior art keywords
- content
- target
- title
- target content
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000009826 distribution Methods 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000003860 storage Methods 0.000 title claims abstract description 28
- 230000000694 effects Effects 0.000 claims abstract description 17
- 238000000605 extraction Methods 0.000 claims description 28
- 230000015654 memory Effects 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 14
- 238000013473 artificial intelligence Methods 0.000 abstract description 9
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 239000013598 vector Substances 0.000 description 29
- 230000008569 process Effects 0.000 description 14
- 238000013528 artificial neural network Methods 0.000 description 10
- 238000010801 machine learning Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 10
- 238000004519 manufacturing process Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 6
- 238000012552 review Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000000243 solution Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241000282376 Panthera tigris Species 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000007789 sealing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/55—Push-based network services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种内容分发方法、装置和存储介质,其中,本申请实施例本申请实施例可以获取第一用户上传的待分发的目标内容;对目标内容进行特征提取,得到目标内容对应的内容特征信息,根据内容特征信息生成上下文关联信息,并根据上下文关联信息和目标内容预测得到目标内容对应的目标标题;根据目标标题确定目标内容的推荐权重,并基于推荐权重向第二用户分发目标内容。本申请方案涉及到人工智能的自然语言处理领域,基于对目标内容的处理,生成具有吸引力的目标标题,从而可以提高内容分发的效果。
Description
技术领域
本申请涉及通信的技术领域,具体涉及一种内容分发方法、装置和存储介质。
背景技术
近年来,随着互联网和内容领域的快速发展,信息过载的情况越来越严重,内容发布者上传的内容通常以内容流的形式展示给内容接收者,内容本身通常被折叠,在内容流中只显示内容的标题,内容接收者可以打开折叠阅读内容本身。为了吸引内容接收者的注意,内容的标题非常关键。目前在发布内容时,通常由内容发布者设置标题,但是有些内容发布者不擅长构思标题,或者内容发布者设置的标题无法吸引内容接收者,因此内容无法继续分发给别的内容接收者,内容分发效果不好,也会降低内容发布者的生产欲望,不利于整个内容生态的的繁荣。
发明内容
有鉴于此,本申请实施例提供了一种内容分发方法、装置和存储介质,可以提高内容分发效果。
第一方面,本申请实施例提供了一种内容分发方法,包括:
获取第一用户上传的待分发的目标内容;
对所述目标内容进行特征提取,得到所述目标内容对应的内容特征信息;
根据所述内容特征信息生成上下文关联信息,并根据所述上下文关联信息和所述目标内容预测得到所述目标内容对应的目标标题;
根据所述目标标题确定所述目标内容的推荐权重,并基于所述推荐权重向第二用户分发所述目标内容。
在一实施例中,在对所述目标内容进行特征提取,得到所述目标内容对应的内容特征信息之前,还包括:
获取多个分发效果优良的历史样本对,所述样本对包括历史内容样本,以及所述历史内容样本对应的历史标题样本;
采用预设初始标题生成模型的编码分支网络,提取所述历史内容样本的内容特征信息;
采用预设初始标题生成模型的解码分支网络,根据所述内容特征信息生成上下文关联信息,并根据所述上下文关联信息和所述历史内容样本预测得到所述历史内容样本对应的预测历史标题;
根据所述预测历史标题和所述历史标题,获取预测结果;
采用损失函数对所述预设初始标题生成模型进行收敛,直至所述预测结果为预测正确,得到训练后的标题生成模型。
在一实施例中,所述对所述目标内容进行特征提取,得到所述目标内容对应的内容特征信息,包括:
采用所述训练后的标题生成模型的编码分支网络对所述目标内容进行特征提取,得到所述目标内容对应的内容特征信息。
在一实施例中,所述根据所述内容特征信息生成上下文关联信息,并根据所述上下文关联信息和所述目标内容预测得到所述目标内容对应的目标标题,包括:
采用所述训练后的标题生成模型的解码分支网络根据所述内容特征信息生成上下文关联信息,并根据所述上下文关联信息和所述目标内容预测得到所述目标内容对应的目标标题。
在一实施例中,所述根据所述上下文关联信息和所述目标内容预测得到所述目标内容对应的目标标题,包括:
根据所述上下文关联信息和所述目标内容预测得到所述目标内容对应的至少一个候选标题。
在一实施例中,所述目标内容包括正文字段和标题字段,还包括:
根据所述标题字段,从所述历史标题中获取至少一个相似标题,作为候选标题。
在一实施例中,还包括:
根据所述目标内容,从已发布的历史内容中获取至少一组相似内容;
将所述相似内容对应的历史标题,作为候选标题。
在一实施例中,在所述根据所述目标标题确定所述目标内容的推荐权重,并基于所述推荐权重向第二用户分发所述目标内容之前,还包括:
基于所述第一用户针对所述候选标题的选择操作,从所述候选标题中选择至少一个目标标题。
在一实施例中,所述根据所述目标标题确定所述目标内容的推荐权重,并基于所述推荐权重向第二用户分发所述目标内容,包括:
根据所述目标标题以及所述第一用户、所述目标内容,预测所述目标标题对应的分发结果参数;
根据所述分发结果参数确定所述目标标题对应的推荐权重,并基于所述目标标题对应的推荐权重向第二用户分发所述目标内容。
在一实施例中,所述基于所述目标标题对应的推荐权重向第二用户分发所述目标内容,包括:
基于所述目标标题与所述目标内容生成至少一组待推荐内容;
根据所述待推荐内容对应的推荐权重,向第二用户发送所述待推荐内容;
基于所述第二用户针对所述待推荐内容的操作,获取反馈参数;
根据所述反馈参数更新所述待推荐内容对应的推荐权重;
基于更新后的推荐权重,向第二用户发送所述待推荐内容。
在一实施例中,在所述基于所述第一用户针对所述候选标题的选择操作,从所述候选标题中选择至少一个目标标题之前,还包括:
根据所述目标内容的关键词,计算用于表征所述候选标题与所述目标内容相符程度的相符参数;
当所述相符参数满足预设阈值要求时,向所述第一用户展示所述候选标题。
在一实施例中,在所述基于所述第一用户针对所述候选标题的选择操作,从所述候选标题中选择至少一个目标标题之前,还包括:
基于预设语言模型获取所述候选标题的语言表达清晰度参数;
当所述语言表达清晰度参数满足预设阈值要求时,向所述第一用户展示所述候选标题。
第二方面,本申请的实施例提供了一种内容分发装置,包括:
获取单元,用于获取第一用户上传的待分发的目标内容;
提取单元,用于对所述目标内容进行特征提取,得到所述目标内容对应的内容特征信息,其中,所述标题生成模型是以已分发的历史内容以及所述历史内容对应的历史标题训练得到的;
生成单元,用于根据所述内容特征信息生成上下文关联信息,并根据所述上下文关联信息和所述目标内容预测得到所述目标内容对应的目标标题;
推荐单元,用于根据所述目标标题确定所述目标内容的推荐权重,并基于所述推荐权重向第二用户分发所述目标内容
第三方面,本申请实施例还提供了一种计算机设备,包括:处理器和存储器;所述存储器质存储有多条指令,所述处理器加载所述存储器存储的指令以执行上述内容分发方法中的步骤。
第四方面,本申请的实施例提供的存储介质,其上存储有计算机程序,当计算机程序在计算机上运行时,使得计算机执行如本申请任一实施例提供的内容分发方法。
本申请实施例可以获取第一用户上传的待分发的目标内容;对所述目标内容进行特征提取,得到所述目标内容对应的内容特征信息;根据所述内容特征信息生成上下文关联信息,并根据所述上下文关联信息和所述目标内容预测得到所述目标内容对应的目标标题;根据所述目标标题确定所述目标内容的推荐权重,并基于所述推荐权重向第二用户分发所述目标内容。本申请方案涉及到人工智能的自然语言处理领域,基于可以基于历史内容和历史标题自动生成标题,对目标内容进行处理,这样生成的标题可以吸引第二用户的注意,从而可以提高内容分发的效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的内容分发方法的场景示意图;
图2a是本发明实施例提供的内容分发方法应用在内容分发场景中的示意图;
图2b是本发明实施例提供的内容分发方法的流程示意图;
图3是本发明实施例提供的内容分发装置的一种结构示意图;
图4是本发明实施例提供计算机设备的结构示意图;
图5a是本发明实施例提供的标题生成模型结构示意图。
图5b是本发明实施例提供的候选标题获取流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种内容分发方法、装置和存储介质。其中,内容分发(ContentDelivery),指的是通过实现用户对网站的就近访问及网络流量的智能分析,将本节点流媒体资源库中的指定内容,根据业务运营商定义的内容分发策略向下层节点推送(PUSH)。下层节点控制系统通知下层内容管理系统登记接收,该节点以内容注入的方式接收分发的内容。
其中,该内容分发装置具体可以集成在计算机设备中,该计算机设备可以为终端、服务器等设备。
该计算机设备可以为只能高端等设备,例如可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑(Personal Computer,PC)等设备。
该计算机设备还可以为服务器等设备,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器,但并不局限于此。
本实施例的内容分发方法,可以由服务器实现,也可以由终端和服务器共同实现。
参考图1,本发明实施例提供的内容分发系统包括终端10和服务器20等;终端10与服务器20之间通过网络连接,比如,通过有线或无线网络连接等,其中,终端10可以作为内容生产者的终端存在。
其中,终端10,可以为内容生产者的终端,用于向服务器20发送目标内容至内容发布平台。
其中,服务器20,可以用于接收终端10发送的目标内容,对所述目标内容进行特征提取,得到所述目标内容对应的内容特征信息;根据所述内容特征信息生成上下文关联信息,并根据所述上下文关联信息和所述目标内容预测得到所述目标内容对应的目标标题;根据所述目标标题确定所述目标内容的推荐权重,并基于所述推荐权重向第二用户分发所述目标内容。本申请方案可以基于历史内容和历史标题自动生成标题,这样生成的标题可以吸引第二用户的注意,=从而可以提高内容分发的效果。
以下分别进行详细说明。需说明的是,以下实施例的序号不作为对实施例优选顺序的限定。
本发明实施例将从内容分发装置的角度进行描述,该内容分发装置具体可以集成在服务器中。
实施例一
为了便于后续内容的描述,在此对本实施例涉及的部分名词进行解释说明。
内容发布平台:可以理解为可发布内容的任意形式的平台,包括网页形式的平台,客户端形式的平台,或者集成在客户端中的平台。例如各种新闻类客户端,网页形式的搜索引擎等等。
客户端:运行在终端上的应用程序,可以为用户提供对应的服务,例如即时通讯客户端等各种可接受消息及Feeds流信息的应用。
服务端:部署在(多组)服务器上、专门为客户端程序提供远程网络服务的服务器程序。
UGC(User Generated Content)指用户原创内容。
PUGC(Professional User Generated Content,“专业用户生产内容”或“专家生产内容”):是以UGC形式,产出的相对接近PGC的专业图文和视频内容。
Feeds(web feed、news feed、syndicated feed):消息来源,是一种资料格式,网站透过它将最新资讯传播给用户,通常以Timeline时间轴方式排列,时间轴是Feeds最原始最直接也最基本的展示形式。用户能够订阅网站的先决条件是,网站提供了消息来源。将feed汇流于一处称为聚合(aggregation),而用于聚合的软体称为聚合器(aggregator)。对最终用户而言,聚合器是专门用来订阅网站的软件,一般亦称为RSS阅读器、feed阅读器、新闻阅读器等。
本实施例中,内容分发方法对应的装置可以设置于内容分发系统中,参考图2a,图2a示出了将本实施例的内容分发方法应用于内容分发系统,对内容进行内容分发的原理架构图。
以下基于图2a,对本实施例的内容分发系统中的模块进行说明。
一.内容生产端和内容消费端
(1)内容生产端:PGC或者UGC等MCN内容的生产者使用的终端,生产者通过移动端或者后端接口API系统,向对应的内容发布平台发布图文内容或者视频内容,这些内容都是推荐分发内容的主要内容来源;
(2)内容生产端可以通过与上下行内容接口服务器(参考图2a)的通讯,触发A1上传发布内容的步骤,可选的发布内容包括但不限于图文内容和视频内容,图文内容来源通常是一个轻量级发布端和编辑内容入口,视频内容发布通常是一个拍摄摄影端,视频内容生产过程中,可以对待发布视频选择搭配的音乐,滤镜模板和视频的美化功能等等,然后配以一段文字说明和描述得到待发布的视频内容;
(3)内容消费端作为消费者,和上下行内容接口服务器通讯,内容发布平台可通过上下行内容接口服务器向内容消费端推送推荐内容,若用户进入内容发布平台的展示页面,则内容消费端执行图2a的步骤B1获取访问内容的索引信息,然后执行步骤B2和内容存储服务器通讯,获取内容,该内容包括内容发布平台的推荐内容,用户订阅的专题内容等。
一个可选的示例中,图2a中的内容存储服务器存储有内容源文件比如视频源文件,图文源文件,而内容的元信息比如标题,作者,封面图,分类,Tag信息等等存储在内容数据库(参考图2a);
(4)内容消费端通常通过Feeds流方式浏览内容数据,同时用户和内容的互动信息如评论,转发,收藏还有内容的举报负反馈也上报给“统计接口和评论挖掘谣言服务”模块(参考图2a)。
二.上下行内容接口服务器
(1)上下行内容接口服务器和内容生产端直接通讯,从内容生产端提交的数据,通常包括内容的元信息和源文件;
(2)上下行内容接口服务器将图文内容的元信息,比如文件大小,封面图链接,码率,标题,发布时间,作者、视频文件大小,视频格式等信息写入内容数据库(参考步骤A3),将源文件写入内容存储服务模块(参考步骤A2)。
(3)上下行内容接口服务器将内容生产端提交的内容,同步给调度中心模块(参考步骤A4),进行后续的内容处理和流转。
三.内容数据库
(1)内容的核心数据库,所有生产者发布内容的元信息都保存在这个业务数据库当中,内容的元信息还可以包括:原创标记,人工审核过程中对内容的分类(包括一,二,三级别分类和标签信息,比如一篇讲解XX品牌手机的文章,一级分科是科技,二级分类是智能手机,三级分类是国内手机,标签信息是XX品牌XX型号);
(2)本实施例的人工审核过程当中会读取内容数据库当中的信息,同时人工审核的结果和状态也会回传进入内容数据库(参考步骤A8);
(3)调度中心对内容处理主要包括机器处理和人工审核处理,本实施例的机器处理系统包括统计接口和评论挖掘谣言服务模块,谣言过滤服务模块,以及排重服务模块等等,处理结果会写入内容数据库,完全重复一样的内容不会给人工进行重复的二次处理;
(4)后续抽取标签的时候会从内容数据库读取内容的元信息。
四.调度中心和人工审核系统
(1)调度中心模块,负责内容流转的整个调度过程,通过上下行内容接口服务器接收入库的内容(参考步骤A4),然后从内容数据库中获取内容的元信息(参考步骤A9);
(2)调度中心调度人工审核系统和机器处理系统,控制调度的顺序和优先级;
(3)通过人工审核系统审核的非谣言内容被启用,然后通过内容出口分发服务模块(通常是推荐引擎或者搜索引擎或者运营)对应的展示页面提供给终端的内容消费者(参考步骤A11和A12),也就是消费端获得的内容索引信息;
(4)人工审核系统是人工服务能力的载体,可以用于审核过滤政治敏感,色情,法律不允许等机器无法确定判断的内容,同时还可以对进行视频内容的标签标注和二次确认;
(5)人工审核过程当中,对于低质量的内容标题和优质的内容标题直接标记上报出来,作为后面机器学习训练的数据来源。
五.内容存储服务
(1)内容存储服务模块,通常由一组分布范围很广,便于用户就近接入的存储服务器,通常外围还有CDN加速服务器进行分布式缓存加速,通过上下行内容接口服务器将内容生产端上传的内容保存起来;
(2)内容消费端在获取内容索引信息后,可直接访问视频内容存储服务器下载对应的内容;
(3)排重过程当中,若发现完全一样的数据,执行去重操作,在内容存储服务上只需要保存一份相同内容,节省存储空间。
六.标题样本数据库
(1)从人工审核标记的内容元数据服务当中,读取优质标题的数据和低质量标题的数据;
(2)为构建标题生成模型提供数据源进行标题文本的预处理输入。
七.标题生成模型
(1)按照上面提到机器学习模型构造不同的标题生成模型,来通过模型给文章提供新的标题候选集合,在作者发文的时候提供新的标题的候选;
(2)主要完成上面的阶段1-3的工作。
八.标题生成和评价服务
(1)将标题生成模型服务化,对于内容创作端每个新的内容,通过内容生产端调用标题生成和评价服务为标题质量进行评级,给作者更多的标题候选;
(2)同时也对作者提供的标题给出评价,当文章标题检测出此类关键词或者标题低质量时候,系统自动发送弹窗提示并劝导作者取消此标题或者内容,如果作者不予修改,机器则会降低该文章的推荐权重,严重标题党内容,对作者进行惩罚和封号;
(3)主要完成上面的阶段4的任务;
十.统计接口和评论挖掘服务
(1)接受内容消费端和人工审核系统分别在内容消费过程当中和内容审核处理过程当中的统计数据上报,同时对上报的数据进行量化的分析,指导不同级别质量标题的分布;
(2)主动接受内容消费端举报和反馈的低质量标题内容作为后续机器学习的样本;
本实施例的内容分发方法可以基于图2a中的“标题生成及评价服务”以及“构建标题生成模型”模块实现。
实施例二
本发明实施例提供了一种内容分发方法,该方法涉及机器学习(Machinelearning,ML)技术领域,尤其涉及其包括的深度学习(Deep Learning)领域中的人工神经网络(artificial neural network)技术领域,本实施例中的模型,可以基于人工神经网络的结构构建。
如图2b所示,本实施例的内容分发方法的流程可以如下:
201、获取第一用户上传的待分发的目标内容。
其中,第一用户指的是内容的生产者。目标内容指的是当前时刻需要发布的内容。第一用户可以通过终端编辑目标内容,并向服务器发送该目标内容。
优选地,在生成标题之前,需要对目标内容进行系统化插件式的预处理,比如,对目标内容进行分句拼句、繁简转换、大小写归,隐藏文字去除,广告内容清洗,还包括情感过滤、敏感过滤等通用过滤,以及规则判别等涉及表情、冗余字符处理与语法改写的二次基础优化等,确保基础数据的质量。
在本实施例中,生成标题时,采用预处理后的目标内容。得到目标标题后,将预处理之前的目标内容发送给第二用户。其中,第二用户指的是内容消费者。
202、对所述目标内容进行特征提取,得到所述目标内容对应的内容特征信息。
其中,上述步骤可以采用训练得到的标题生成模型进行,所述标题生成模型是以已分发的历史内容以及所述历史内容对应的历史标题训练得到的。具体地,采用所述训练后的标题生成模型的编码分支网络对所述目标内容进行特征提取,得到所述目标内容对应的内容特征信息。
其中,标题生成模型涉及到人工智能技术,其中人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。而标题生成模型的训练涉及到人工智能的机器学习技术,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
在一实施例中,参考图5a,标题生成模型可以采用Seq2Seq Mode模型,本质是将目标内容划分为多个句子,将每个句子中的单词进行编码后,输入循环神经网络中作为源句的表示,这一部分称为编码分支网络(Encoder);另一部分生成端在每一个位置同样通过循环神经网络,循环输出标题中的单词,这一部分称为解码分支网络(Decoder)。通过两个循环神经网络连接Encoder和Decoder,可以将两个平行表示连接起来。另外一个非常重要的,就是Attention机制,其本质思想是获取两端的某种权重关系作为上下文关联信息,即在Decoder端生成的词和Encoder端的某些信息更相关。它也同样可以处理多模态的问题,比如图片标题生成任务,通过CNN模型等将图片做一个关键特征的向量表示,将这个表示输出到类似的Decoder中去解码输出文本(即标题),视频语音等也使用同样的方式。
其中,Encoder的是每一个单词的编码向量,和上一个时间点的隐藏状态。输出的是这个时间点的隐藏状态。
在一实施例中,训练过程可以包括如下步骤:
获取多个分发效果优良的历史样本对,所述样本对包括历史内容样本,以及所述历史内容样本对应的历史标题样本;
采用预设初始标题生成模型的编码分支网络,提取所述历史内容样本的内容特征信息;
采用预设初始标题生成模型的解码分支网络,根据所述内容特征信息生成上下文关联信息,并根据所述上下文关联信息和所述历史内容样本预测得到所述历史内容样本对应的预测历史标题;
根据所述预测历史标题和所述历史标题,获取预测结果;
采用损失函数对所述预设初始标题生成模型进行收敛,直至所述预测结果为预测正确,得到训练后的标题生成模型。
分发效果优良的历史样本对,是审核人员根据根据第二用户针对历史内容样本的评论,分享和转发,收藏次数和分发PV及VV来确定的。其中,VV(Video View,播放数),指的是在一个统计周期内,历史内容样本被打开的次数之和。PV(Page View,浏览量),是指在一个统计周期内,浏览目标内容的次数之和。
203、根据所述内容特征信息生成上下文关联信息,并根据所述上下文关联信息和所述目标内容预测得到所述目标内容对应的目标标题。
具体地,可以采用所述训练后的标题生成模型的解码分支网络根据所述内容特征信息生成上下文关联信息,并根据所述上下文关联信息和所述目标内容预测得到所述目标内容对应的目标标题。
其中,Decoder隐藏状态与Encoder所有的隐藏状态作为输入,放入Attention模块开始计算一个上下文关联信息。之前的上下文关联信息可以作为输入和目标的单词串起来作为循环神经网络的输入。之后又回到一个隐藏状态。上下文关联信息和decoder的隐藏状态合起来通过一系列非线性转换以及softmax最后计算出标题中每个位置的单词对应的概率。
具体地,在解码分支网络中设置有线性变换层,线性变换层是一个简单的全连接神经网络,它可以把解码分支网络产生的实数向量投射到一个比它大得多的、被称作对数几率(logits)的向量里。不妨假设我们的模型从预设文本集中学习一万个不同的单词(我们模型的“预设词表”)。因此对数几率向量为一万个单元格长度的向量——每个单元格对应某一个文本片段的分数。接下来的Softmax全连接层可以将分数变成概率(都为正数、上限1.0)。概率最高的单元格被选中,并且它对应的单词被作为当前位置的单词。
其中,循环申请网络可以采用长短期记忆网络(Long Short-Term Memory,LSTM)。
例如,目标内容特征提取过程使用了LSTM模型记忆的功能,内容特征信息可以表现为向量形式(即内容特征向量),通过目标内容中上下文的序列关系,将多个单词特征向量依次输入网络。对于LSTM模型,隐层状态来源与当前特征提取时刻的输入和上一时刻的隐层状态,而内容特征向量就是总结多个单词特征向量所对应的各个隐层状态。
在一些实施例中,为了使计算机对语言的处理进一步深入到语义理解的层面,可以使用双向长短时记忆网络,步骤“根据所述片段特征向量及所述语义特征提取模型特征提取时刻的隐层状态,生成语义特征向量”具体可以包括:
LSTM模型是由t时刻的输入xt,细胞状态(cell state)Ct,临时细胞状态Ct’,隐层状态ht,遗忘门ft,记忆门it,输出门ot组成。LSTM的计算过程可以概括为,通过对细胞状态中信息遗忘和记忆新的信息使得对后续时刻计算有用的信息得以传递,而无用的信息被丢弃,并在每个时间步都会输出隐层状态,其中遗忘,记忆与输出由通过上个时刻的隐层状态和当前输入计算出来的遗忘门,记忆门,输出门来控制。
这种结构可以使之前输入的信息保存在网络中,并一直向前传递,输入门打开时新的输入才会改变网络中保存的历史状态,输出门打开时保存的历史状态会被访问到,并影响之后的输出,忘记门用于清空之前保存的历史信息。
在单向的长短时记忆网络中,ft被称为遗忘门,可以选择需要被遗忘的信息,遗忘门的值由前一时刻的隐层状态和当前特征提取时刻的输入决定:
ft=σ(Wf[ht-1,xt]+bf)
记忆门决定什么样的新信息被存放在细胞状态中,当输入前一时刻的隐层状态和当前特征提取时刻的输入后,记忆门能够输出记忆门的值以及临时细胞状态:
it=σ(Wi[ht-1,xt]+bi)
Ct’=tanh(WC[ht-1,xt]+bC)
当前特征提取时刻的细胞状态可以由记忆门的值、遗忘门的值、临时细胞状态以及上一刻细胞状态决定:
Ct=ft*Ct-1+it*Ct’
ot被称作输出门,决定了输出的值,它可以由前一时刻的隐层状态和当前特征提取时刻的输入词决定:
ot=σ(Wo[ht-1,xt]+bo)
当前特征提取时刻的隐层状态可以由当前特征提取时刻的细胞状态和当前特征提取时刻的输入门值决定:
ht=ot*tanhCt
其中,W以及b是模型通过训练阶段与预测阶段习得的参数。
最终,可以得到隐层状态序列{h0,h1,...,hn-1}。
向前的LSTM与向后的LSTM可以结合成BiLSTM,BiLSTM包括两个LSTM,下方为向前的LSTM,上方为向后的LSTM,两个方向的LSTM之间互不影响。
例如,向前的LSTM将片段特征向量组依次正向输入得到向量{hL0,hL1,hL2},向后的LSTM将片段特征向量组依次反向输入得到向量{hR0,hR1,hR2},将其拼接得到{[hL0,hR2][hL1,hR1][hL2,hR0]},即{h0,h1,h2}。
片段特征向量组依次反向输入得到向量{hR0,hR1,hR2},将其拼接得到{[hL0,hR2][hL1,hR1][hL2,hR0]},即{h0,h1,h2}。
在一实施例中,还可以采用如下方法生成候选标题:根据所述目标内容,从已发布的历史内容中获取至少一组相似内容;将所述相似内容对应的历史标题,作为候选标题。
具体地,可以根据目标内容生成拓扑图,然后基于GCN(Graph ConvolutionalNetwork,图卷积神经网络)来提取目标内容的特征向量,实际上跟CNN的作用一样,就是一个特征提取器,只不过它的对象是图数据。GCN是一种半监督学习方法,即使不训练,完全使用随机初始化的参数W,GCN提取出来的特征就可以,给少量的标注信息,GCN的效果就会更加出色。通过GCN网络对目标内容的正文字段进行编码,得到特征向量,然后通过比较该特征向量与历史内容的特征向量之间的距离,找到相似的历史内容,将相似的历史内容对应的历史标题作为候选标题。
其中,拓扑图是指数学(图论)中的用顶点和边建立相应关系的拓扑图,是一种简单有效的图神经网络,能够捕捉高阶邻域信息。两个词节点之间的边由词的共现信息构建,一个词节点与文档节点之间的边由词的频率和词的文档频率构建。可以将文本分类问题转化为节点分类问题。该方法能在少量标注文档的情况下实现较强的分类性能,并能可解释地学习单词和文档节点嵌入。
在一实施例中,目标内容的样式文件有HTML结构,目标内容中的文字标题,子标题,段落和句子层次结构就构成了正文字段的拓扑结构,根据该拓扑结构即可生成拓扑图。
在一实施例中,所述目标内容包括正文字段和标题字段,还可以采用如下方法获取候选标题:根据所述标题字段,从所述历史标题中获取至少一个相似标题,作为候选标题。
具体地,可以将目标内容的标题字段通过Bert模型进行词嵌入编码,得到标题向量,然后通过比较该标题向量与历史标题向量之间的距离,获取相似的历史标题,作为候选标题。
优选地,可以采用Distill(一种新的蒸馏算法)算法对BERT模型压缩,得到LTD-BERT模型。在效果损失很小的基础上,LTD-BERT模型相比于BERT内存、存储开销可降低近20倍,运算速度方面可以将句向量获取速度提升80余倍。Distilling算法是Hinton等人在论文Distilling the Knowledge in a Neural Network中提出的一种类似网络迁移的学习算法。其基本思想是通过一个性能好的大网络来教小网络学习,从而使得小网络能够具备跟大网络一样的性能,但蒸馏后的小网络参数规模远远小于原始大网络,从而达到压缩网络的目的。
参考图5b,在一实施例中,可以同时采用上述三种方法得到至少三种候选标题,并在终端中显示候选标题列表,由第一用户从候选标题列表中选择目标标题。
优选地,在输出候选标题列表之前,可以需要对候选标题进行评价,当满足要求时,将该候选标题输出给第一用户,以确保候选标题的质量。
在一实施例中,可以根据所述目标内容的关键词,计算用于表征所述候选标题与所述目标内容相符程度的相符参数;当所述相符参数满足预设阈值要求时,向所述第一用户展示所述候选标题。具体地,可以采用NER(命名实体识别)技术识别目标内容,得到候选关键词,通过统计TF-IDF打分从候选关键词中确定关键词,并计算关键词和候选标题之间的相似度,作为相符参数。
另外,还可以将候选标题通过Bi-LSTM+Attention或者Elmo+Bi-Lstm+Attention或者CNN+Bi-Lstm+Attention几种不同模型将生成的标题转换为标题向量,目标内容地正文字段本身对应有LTD-BERT向量,可以借此来判断题文相符程度,低于一定阈值的直接过滤。
在一实施例中,可以基于预设语言模型获取所述候选标题的语言表达清晰度参数;当所述语言表达清晰度参数满足预设阈值要求时,向所述第一用户展示所述候选标题。具体地,可以经过经过基础的语言模型对候选标题过滤。其中,语言模型在自然语言处理当中是用于计算一个句子的概率,如果一个句子表达得清晰度强,那么该句子的概率值高,如“xx打死了老虎”与“老虎了死xx打”前者概率值就高于后者,前者出现概率更高,因此后者就被过滤掉了。
另外,还可以利用已有标记的优质历史标题样本,由审核人员按照优质程度给不同的历史标题打分,通常是1-10分,然后利用这些历史标题训练一个优质标题模型。
204、根据所述目标标题确定所述目标内容的推荐权重,并基于所述推荐权重向第二用户分发所述目标内容。
其中,推荐权重是用于表示推荐程度顺序的参数。
在一实施例中,所述根据所述目标标题确定所述目标内容的推荐权重,并基于所述推荐权重向第二用户分发所述目标内容,具体可以包括如下步骤:
根据所述目标标题以及所述第一用户、所述目标内容,预测所述目标标题对应的分发结果参数;
根据所述分发结果参数确定所述目标标题对应的推荐权重,并基于所述目标标题对应的推荐权重向第二用户分发所述目标内容。
其中,分发结果参数指的是用于表示分发结果的参数,具体可以包括第二用户针对目标内容的点击率、转发率、评价分数等。这是由预设推荐算法预测得到的。
根据预测得到的分发结果参数来进行内容分发,可以改善内容分发效果,使更多第二用户可以打开待推荐内容,阅读其中的目标内容。
在一实施例中,第一用户还可以同时选择多个目标标题,每个目标标题和目标内容生成一种待推荐内容,根据所述待推荐内容对应的推荐权重,向第二用户发送所述待推荐内容之后,可以基于所述第二用户针对所述待推荐内容的操作,获取反馈参数,并根据该反馈参数更新各待推荐内容对应的推荐权重。并基于更新后的推荐权重,向其它第二用户发送待推荐内容。效果更好的标题增加推荐量,效果较差的标题则会在推荐过程中被淘汰。
由上可知,本申请实施例可以获取第一用户上传的待分发的目标内容;对所述目标内容进行特征提取,得到所述目标内容对应的内容特征信息;根据所述内容特征信息生成上下文关联信息,并根据所述上下文关联信息和所述目标内容预测得到所述目标内容对应的目标标题;根据所述目标标题确定所述目标内容的推荐权重,并基于所述推荐权重向第二用户分发所述目标内容。本申请方案可以基于历史内容和历史标题自动生成标题,这样生成的标题可以吸引第二用户的注意,从而可以提高内容分发的效果。
本申请的方案可以从源头避免明显低质和不规范的标题;为内容生产者提供更多的候选标题,同时能够为那些内容还不错,但是标题没有写好的内容多增加一次内容曝光的机会;还能够收集到可量化的数据,来了解不同领域的用户对什么样风格的标题更感兴趣。创作者可以对用户进行长期的测试,并根据历史数据的整理,逐渐摸索到同类内容中最可能起作用的标题风格,这个对于内容生态的繁荣和内容生产者会很有帮助。
为了更好地实施以上方法,相应的,本发明实施例还提供一种内容分发装置,该内容分发装置具体可以集成在终端中,例如以客户端的形式集成在终端中。
参考图3,该内容分发装置包括获取单元401、提取单元402、生成单元403和推荐单元404,如下:
(1)获取单元401,用于获取第一用户上传的待分发的目标内容;
(2)提取单元402,用于对所述目标内容进行特征提取,得到所述目标内容对应的内容特征信息;
(3)生成单元403,用于根据所述内容特征信息生成上下文关联信息,并根据所述上下文关联信息和所述目标内容预测得到所述目标内容对应的目标标题;
(4)推荐单元404,用于根据所述目标标题确定所述目标内容的推荐权重,并基于所述推荐权重向第二用户分发所述目标内容。
可选的,内容分发装置还包括训练单元,用于获取多个分发效果优良的历史样本对,所述样本对包括历史内容样本,以及所述历史内容样本对应的历史标题样本;采用预设初始标题生成模型的编码分支网络,提取所述历史内容样本的内容特征信息;采用预设初始标题生成模型的解码分支网络,根据所述内容特征信息生成上下文关联信息,并根据所述上下文关联信息和所述历史内容样本预测得到所述历史内容样本对应的预测历史标题;根据所述预测历史标题和所述历史标题,获取预测结果;采用损失函数对所述预设初始标题生成模型进行收敛,直至所述预测结果为预测正确,得到训练后的标题生成模型。
可选的,生成单元403,用于根据所述上下文关联信息和所述目标内容预测得到所述目标内容对应的至少一个候选标题。
可选的,生成单元402,还可以用于:
根据所述标题字段,从所述历史标题中获取至少一个相似标题,作为候选标题;
或者,
根据所述目标内容,从已发布的历史内容中获取至少一组相似内容;将所述相似内容对应的历史标题,作为候选标题。
可选的,内容分发装置还可以包括选择单元,用于基于所述第一用户针对所述候选标题的选择操作,从所述候选标题中选择至少一个目标标题。
可选的,推荐单元404可以用于根据所述目标标题以及所述第一用户、所述目标内容,预测所述目标标题对应的分发结果参数;根据所述分发结果参数确定所述目标标题对应的推荐权重,并基于所述目标标题对应的推荐权重向第二用户分发所述目标内容。
可选的,推荐单元404还可以用于:基于所述目标标题与所述目标内容生成至少一组待推荐内容;根据所述待推荐内容对应的推荐权重,向第二用户发送所述待推荐内容;基于所述第二用户针对所述待推荐内容的操作,获取反馈参数;根据所述反馈参数更新所述待推荐内容对应的推荐权重;基于更新后的推荐权重,向第二用户发送所述待推荐内容。
可选的,本实施例的装置还包括:第一评价单元,用于根据所述目标内容的关键词,计算用于表征所述候选标题与所述目标内容相符程度的相符参数;当所述相符参数满足预设阈值要求时,向所述第一用户展示所述候选标题。
可选的,本实施例的装置还包括:第二评价单元,用于基于预设语言模型获取所述候选标题的语言表达清晰度参数;当所述语言表达清晰度参数满足预设阈值要求时,向所述第一用户展示所述候选标题。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
采用本实施例,本申请方案可以基于历史内容和历史标题自动生成标题,这样生成的标题可以吸引第二用户的注意,从而可以提高内容分发的效果。
此外,本发明实施例还提供一种计算机设备,该计算机设备可以为终端或者服务器,如图4所示,其示出了本发明实施例所涉及的计算机设备的结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解,图4中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器501是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器502内的软件程序和/或模块,以及调用存储在存储器502内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器501可包括一个或多个处理核心;优选的,处理器501可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器501中。
存储器502可用于存储软件程序以及模块,处理器501通过运行存储在存储器502的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器502还可以包括存储器控制器,以提供处理器501对存储器502的访问。
计算机设备还包括给各个部件供电的电源503,优选的,电源503可以通过电源管理系统与处理器501逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元504,该输入单元504可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器501会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中,并由处理器501来运行存储在存储器502中的应用程序,从而实现各种功能,如下:
获取第一用户上传的待分发的目标内容;
对所述目标内容进行特征提取,得到所述目标内容对应的内容特征信息;
根据所述内容特征信息生成上下文关联信息,并根据所述上下文关联信息和所述目标内容预测得到所述目标内容对应的目标标题;
根据所述目标标题确定所述目标内容的推荐权重,并基于所述推荐权重向第二用户分发所述目标内容。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例还提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的内容分发方法,如下:
获取第一用户上传的待分发的目标内容;
对所述目标内容进行特征提取,得到所述目标内容对应的内容特征信息;
根据所述内容特征信息生成上下文关联信息,并根据所述上下文关联信息和所述目标内容预测得到所述目标内容对应的目标标题;
根据所述目标标题确定所述目标内容的推荐权重,并基于所述推荐权重向第二用户分发所述目标内容。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的内容分发方法中的步骤,因此,可以实现本发明实施例所提供的内容分发方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种内容分发方法、装置、计算机设备和存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。
Claims (15)
1.一种内容分发方法,其特征在于,包括:
获取第一用户上传的待分发的目标内容;
对所述目标内容进行特征提取,得到所述目标内容对应的内容特征信息;
根据所述内容特征信息生成上下文关联信息,并根据所述上下文关联信息和所述目标内容预测得到所述目标内容对应的目标标题;
根据所述目标标题确定所述目标内容的推荐权重,并基于所述推荐权重向第二用户分发所述目标内容。
2.如权利要求1所述的方法,其特征在于,在对所述目标内容进行特征提取,得到所述目标内容对应的内容特征信息之前,还包括:
获取多个分发效果优良的历史样本对,所述样本对包括历史内容样本,以及所述历史内容样本对应的历史标题样本;
采用预设初始标题生成模型的编码分支网络,提取所述历史内容样本的内容特征信息;
采用预设初始标题生成模型的解码分支网络,根据所述内容特征信息生成上下文关联信息,并根据所述上下文关联信息和所述历史内容样本预测得到所述历史内容样本对应的预测历史标题;
根据所述预测历史标题和所述历史标题,获取预测结果;
采用损失函数对所述预设初始标题生成模型进行收敛,直至所述预测结果为预测正确,得到训练后的标题生成模型。
3.如权利要求2所述的方法,其特征在于,所述对所述目标内容进行特征提取,得到所述目标内容对应的内容特征信息,包括:
采用所述训练后的标题生成模型的编码分支网络对所述目标内容进行特征提取,得到所述目标内容对应的内容特征信息。
4.如权利要求2所述的方法,其特征在于,所述根据所述内容特征信息生成上下文关联信息,并根据所述上下文关联信息和所述目标内容预测得到所述目标内容对应的目标标题,包括:
采用所述训练后的标题生成模型的解码分支网络根据所述内容特征信息生成上下文关联信息,并根据所述上下文关联信息和所述目标内容预测得到所述目标内容对应的目标标题。
5.如权利要求1所述的方法,其特征在于,所述根据所述上下文关联信息和所述目标内容预测得到所述目标内容对应的目标标题,包括:
根据所述上下文关联信息和所述目标内容预测得到所述目标内容对应的至少一个候选标题。
6.如权利要求3所述的方法,其特征在于,所述目标内容包括正文字段和标题字段,还包括:
根据所述标题字段,从所述历史标题中获取至少一个相似标题,作为候选标题。
7.如权利要求3所述的方法,其特征在于,还包括:
根据所述目标内容,从已发布的历史内容中获取至少一组相似内容;
将所述相似内容对应的历史标题,作为候选标题。
8.如权利要求1至7中任一项所述的方法,其特征在于,在所述根据所述目标标题确定所述目标内容的推荐权重,并基于所述推荐权重向第二用户分发所述目标内容之前,还包括:
基于所述第一用户针对所述候选标题的选择操作,从所述候选标题中选择至少一个目标标题。
9.如权利要求1所述的方法,其特征在于,所述根据所述目标标题确定所述目标内容的推荐权重,并基于所述推荐权重向第二用户分发所述目标内容,包括:
根据所述目标标题以及所述第一用户、所述目标内容,预测所述目标标题对应的分发结果参数;
根据所述分发结果参数确定所述目标标题对应的推荐权重,并基于所述目标标题对应的推荐权重向第二用户分发所述目标内容。
10.如权利要求9所述的方法,其特征在于,所述基于所述目标标题对应的推荐权重向第二用户分发所述目标内容,包括:
基于所述目标标题与所述目标内容生成至少一组待推荐内容;
根据所述待推荐内容对应的推荐权重,向第二用户发送所述待推荐内容;
基于所述第二用户针对所述待推荐内容的操作,获取反馈参数;
根据所述反馈参数更新所述待推荐内容对应的推荐权重;
基于更新后的推荐权重,向第二用户发送所述待推荐内容。
11.如权利要求8所述的方法,其特征在于,在所述基于所述第一用户针对所述候选标题的选择操作,从所述候选标题中选择至少一个目标标题之前,还包括:
根据所述目标内容的关键词,计算用于表征所述候选标题与所述目标内容相符程度的相符参数;
当所述相符参数满足预设阈值要求时,向所述第一用户展示所述候选标题。
12.如权利要求8所述的方法,其特征在于,在所述基于所述第一用户针对所述候选标题的选择操作,从所述候选标题中选择至少一个目标标题之前,还包括:
基于预设语言模型获取所述候选标题的语言表达清晰度参数;
当所述语言表达清晰度参数满足预设阈值要求时,向所述第一用户展示所述候选标题。
13.一种内容分发装置,其特征在于,包括:
获取单元,用于获取第一用户上传的待分发的目标内容;
提取单元,用于对所述目标内容进行特征提取,得到所述目标内容对应的内容特征信息;
生成单元,用于根据所述内容特征信息生成上下文关联信息,并根据所述上下文关联信息和所述目标内容预测得到所述目标内容对应的目标标题;
推荐单元,用于根据所述目标标题确定所述目标内容的推荐权重,并基于所述推荐权重向第二用户分发所述目标内容。
14.一种计算机设备,其特征在于,包括:处理器和存储器;所述存储器质存储有多条指令,所述处理器加载所述存储器存储的指令以执行权利要求1-10任一项所述的内容分发方法中的步骤。
15.一种存储介质,其上存储有计算机程序,其特征在于,当计算机程序在计算机上运行时,使得所述计算机执行如权利要求1至12中任一项所述的内容分发方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010618228.2A CN111723295B (zh) | 2020-06-30 | 2020-06-30 | 一种内容分发方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010618228.2A CN111723295B (zh) | 2020-06-30 | 2020-06-30 | 一种内容分发方法、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111723295A true CN111723295A (zh) | 2020-09-29 |
CN111723295B CN111723295B (zh) | 2023-10-17 |
Family
ID=72570696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010618228.2A Active CN111723295B (zh) | 2020-06-30 | 2020-06-30 | 一种内容分发方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111723295B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112508612A (zh) * | 2020-12-11 | 2021-03-16 | 北京搜狗科技发展有限公司 | 训练广告创意生成模型、生成广告创意的方法及相关装置 |
CN113507419A (zh) * | 2021-07-07 | 2021-10-15 | 工银科技有限公司 | 流量分发模型的训练方法、流量分发方法及装置 |
CN113516533A (zh) * | 2021-06-24 | 2021-10-19 | 平安科技(深圳)有限公司 | 基于改进bert模型的产品推荐方法、装置、设备及介质 |
CN114548787A (zh) * | 2022-02-23 | 2022-05-27 | 中国平安人寿保险股份有限公司 | 用户生成内容管理方法、装置、电子设备及存储介质 |
CN115168568A (zh) * | 2022-03-16 | 2022-10-11 | 腾讯科技(深圳)有限公司 | 一种数据内容的识别方法、装置以及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105243087A (zh) * | 2015-09-09 | 2016-01-13 | 浙江网新恒天软件有限公司 | It资讯聚合阅读个性化推荐方法 |
JP6152199B1 (ja) * | 2016-06-28 | 2017-06-21 | ヤフー株式会社 | 生成装置、生成方法、及び生成プログラム |
CN106933808A (zh) * | 2017-03-20 | 2017-07-07 | 百度在线网络技术(北京)有限公司 | 基于人工智能的文章标题生成方法、装置、设备及介质 |
CN109299477A (zh) * | 2018-11-30 | 2019-02-01 | 北京字节跳动网络技术有限公司 | 用于生成文本标题的方法和装置 |
US20190130281A1 (en) * | 2017-10-31 | 2019-05-02 | Microsoft Technology Licensing, Llc | Next career move prediction with contextual long short-term memory networks |
CN110717327A (zh) * | 2019-09-29 | 2020-01-21 | 北京百度网讯科技有限公司 | 标题生成方法、装置、电子设备和存储介质 |
CN110737783A (zh) * | 2019-10-08 | 2020-01-31 | 腾讯科技(深圳)有限公司 | 一种推荐多媒体内容的方法、装置及计算设备 |
CN110852801A (zh) * | 2019-11-08 | 2020-02-28 | 北京字节跳动网络技术有限公司 | 信息处理方法、装置及设备 |
CN111061856A (zh) * | 2019-06-06 | 2020-04-24 | 北京理工大学 | 一种基于知识感知的新闻推荐方法 |
CN111078865A (zh) * | 2019-12-24 | 2020-04-28 | 北京百度网讯科技有限公司 | 文本标题生成方法和装置 |
-
2020
- 2020-06-30 CN CN202010618228.2A patent/CN111723295B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105243087A (zh) * | 2015-09-09 | 2016-01-13 | 浙江网新恒天软件有限公司 | It资讯聚合阅读个性化推荐方法 |
JP6152199B1 (ja) * | 2016-06-28 | 2017-06-21 | ヤフー株式会社 | 生成装置、生成方法、及び生成プログラム |
CN106933808A (zh) * | 2017-03-20 | 2017-07-07 | 百度在线网络技术(北京)有限公司 | 基于人工智能的文章标题生成方法、装置、设备及介质 |
US20190130281A1 (en) * | 2017-10-31 | 2019-05-02 | Microsoft Technology Licensing, Llc | Next career move prediction with contextual long short-term memory networks |
CN109299477A (zh) * | 2018-11-30 | 2019-02-01 | 北京字节跳动网络技术有限公司 | 用于生成文本标题的方法和装置 |
CN111061856A (zh) * | 2019-06-06 | 2020-04-24 | 北京理工大学 | 一种基于知识感知的新闻推荐方法 |
CN110717327A (zh) * | 2019-09-29 | 2020-01-21 | 北京百度网讯科技有限公司 | 标题生成方法、装置、电子设备和存储介质 |
CN110737783A (zh) * | 2019-10-08 | 2020-01-31 | 腾讯科技(深圳)有限公司 | 一种推荐多媒体内容的方法、装置及计算设备 |
CN110852801A (zh) * | 2019-11-08 | 2020-02-28 | 北京字节跳动网络技术有限公司 | 信息处理方法、装置及设备 |
CN111078865A (zh) * | 2019-12-24 | 2020-04-28 | 北京百度网讯科技有限公司 | 文本标题生成方法和装置 |
Non-Patent Citations (1)
Title |
---|
周开拓 等: "智能推荐在新媒体内容分发中的应用", 人工智能, no. 15, pages 105 - 115 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112508612A (zh) * | 2020-12-11 | 2021-03-16 | 北京搜狗科技发展有限公司 | 训练广告创意生成模型、生成广告创意的方法及相关装置 |
CN112508612B (zh) * | 2020-12-11 | 2024-02-27 | 北京搜狗科技发展有限公司 | 训练广告创意生成模型、生成广告创意的方法及相关装置 |
CN113516533A (zh) * | 2021-06-24 | 2021-10-19 | 平安科技(深圳)有限公司 | 基于改进bert模型的产品推荐方法、装置、设备及介质 |
CN113507419A (zh) * | 2021-07-07 | 2021-10-15 | 工银科技有限公司 | 流量分发模型的训练方法、流量分发方法及装置 |
CN113507419B (zh) * | 2021-07-07 | 2022-11-01 | 工银科技有限公司 | 流量分发模型的训练方法、流量分发方法及装置 |
CN114548787A (zh) * | 2022-02-23 | 2022-05-27 | 中国平安人寿保险股份有限公司 | 用户生成内容管理方法、装置、电子设备及存储介质 |
CN114548787B (zh) * | 2022-02-23 | 2024-04-12 | 中国平安人寿保险股份有限公司 | 用户生成内容管理方法、装置、电子设备及存储介质 |
CN115168568A (zh) * | 2022-03-16 | 2022-10-11 | 腾讯科技(深圳)有限公司 | 一种数据内容的识别方法、装置以及存储介质 |
CN115168568B (zh) * | 2022-03-16 | 2024-04-05 | 腾讯科技(深圳)有限公司 | 一种数据内容的识别方法、装置以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111723295B (zh) | 2023-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shi et al. | Functional and contextual attention-based LSTM for service recommendation in mashup creation | |
CN111723295B (zh) | 一种内容分发方法、装置和存储介质 | |
CN107341145B (zh) | 一种基于深度学习的用户情感分析方法 | |
CN111753060A (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN112749326B (zh) | 信息处理方法、装置、计算机设备及存储介质 | |
CN111324728A (zh) | 文本事件摘要的生成方法、装置、电子设备及存储介质 | |
WO2023108993A1 (zh) | 基于深度聚类算法的产品推荐方法、装置、设备及介质 | |
CN112231563B (zh) | 一种内容推荐方法、装置及存储介质 | |
CN113987187B (zh) | 基于多标签嵌入的舆情文本分类方法、系统、终端及介质 | |
CN113705299A (zh) | 一种视频识别的方法、装置及存储介质 | |
CN116702737A (zh) | 文案生成方法、装置、设备、存储介质及产品 | |
CN111506794A (zh) | 一种基于机器学习的谣言管理方法和装置 | |
CN113032552B (zh) | 一种基于文本摘要的政策要点抽取方法与提取系统 | |
US20230237093A1 (en) | Video recommender system by knowledge based multi-modal graph neural networks | |
CN113392331A (zh) | 文本处理方法及设备 | |
EP3732592A1 (en) | Intelligent routing services and systems | |
CN113590928A (zh) | 内容推荐方法、装置及计算机可读存储介质 | |
CN116975615A (zh) | 基于视频多模态信息的任务预测方法和装置 | |
CN110852047A (zh) | 一种文本配乐方法、装置、以及计算机存储介质 | |
CN113011126A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN113656560B (zh) | 情感类别的预测方法和装置、存储介质及电子设备 | |
CN115186085A (zh) | 回复内容处理方法以及媒体内容互动内容的交互方法 | |
CN115730232A (zh) | 基于主题相关的异构图神经网络跨语言文本分类方法 | |
CN113934835A (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |