CN116976281A - 内容生成方法、装置、计算机可读存储介质和计算机设备 - Google Patents
内容生成方法、装置、计算机可读存储介质和计算机设备 Download PDFInfo
- Publication number
- CN116976281A CN116976281A CN202211393974.1A CN202211393974A CN116976281A CN 116976281 A CN116976281 A CN 116976281A CN 202211393974 A CN202211393974 A CN 202211393974A CN 116976281 A CN116976281 A CN 116976281A
- Authority
- CN
- China
- Prior art keywords
- tag
- label
- content
- interaction
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 94
- 230000003993 interaction Effects 0.000 claims abstract description 437
- 238000012545 processing Methods 0.000 claims description 54
- 238000000605 extraction Methods 0.000 claims description 51
- 238000005070 sampling Methods 0.000 claims description 37
- 230000004044 response Effects 0.000 claims description 32
- 238000012216 screening Methods 0.000 claims description 30
- 230000007704 transition Effects 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 description 19
- 230000001186 cumulative effect Effects 0.000 description 17
- 239000000284 extract Substances 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000002452 interceptive effect Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 8
- 230000009467 reduction Effects 0.000 description 7
- 238000009825 accumulation Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000007499 fusion processing Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000001364 causal effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种内容生成方法、装置、计算机可读存储介质和计算机设备;通过获取内容交互系统中内容标签集,以及对象基于内容标签集产生的交互属性信息;在标签中提取出标签特征,并在交互属性信息中提取出对象对应的对象特征;基于标签特征和对象特征,预测对象针对标签的交互增益信息,并基于交互增益信息确定标签在内容交互系统中的交互需求信息;对内容标签集进行标签聚类处理,得到至少一个标签簇以及标签簇对应的簇中心,并计算标签簇中每一标签与簇中心的匹配程度;根据匹配程度在标签中识别出目标内容标签,并根据目标内容标签和交互需求信息,生成与标签的需求程度匹配的目标内容。以此,提高内容生成准确性,提升内容生成效率。
Description
技术领域
本申请涉及互联网技术领域,具体涉及一种内容生成方法、装置、计算机可读存储介质和计算机设备。
背景技术
随着互联网技术的快速发展,每天都会产生海量的内容。内容生产者创作内容并进行发布,用户获取到内容生产者发布的内容并进行消费。
在对现有技术的研究和实践过程中发现,在现有的内容生成方法中,内容生产者无法准确的获取用户的内容需求,从而无法创作出满足用户需求的内容,因此,内容生成准确性较低,进行导致内容生成效率较低。
发明内容
本申请实施例提供一种内容生成方法、装置、计算机可读存储介质和计算机设备,可以提高内容生成的准确性,进而提升内容生成的效率。
本申请实施例提供一种内容生成方法,包括:
获取内容交互系统中内容标签集,以及对象基于所述内容标签集产生的交互属性信息,所述内容标签集包括多个内容的标签;
在所述标签中提取出标签特征,并在所述交互属性信息中提取出所述对象对应的对象特征;
基于所述标签特征和所述对象特征,预测所述对象针对所述标签的交互增益信息,并基于所述交互增益信息确定所述标签在所述内容交互系统中的交互需求信息,所述交互需求信息用于衡量所述标签的需求程度;
对所述内容标签集进行标签聚类处理,得到至少一个标签簇以及所述标签簇对应的簇中心,并计算所述标签簇中每一标签与所述簇中心的匹配程度;
根据所述匹配程度在所述标签中识别出目标内容标签,并根据所述目标内容标签和所述交互需求信息,生成与所述标签的需求程度匹配的目标内容。
相应的,本申请实施例提供一种内容生成装置,包括:
获取单元,用于获取内容交互系统中内容标签集,以及对象基于所述内容标签集产生的交互属性信息,所述内容标签集包括多个内容的标签;
提取单元,用于在所述标签中提取出标签特征,并在所述交互属性信息中提取出所述对象对应的对象特征;
预测单元,用于基于所述标签特征和所述对象特征,预测所述对象针对所述标签的交互增益信息,并基于所述交互增益信息确定所述标签在所述内容交互系统中的交互需求信息,所述交互需求信息用于衡量所述标签的需求程度;
聚类单元,用于对所述内容标签集进行标签聚类处理,得到至少一个标签簇以及所述标签簇对应的簇中心,并计算所述标签簇中每一标签与所述簇中心的匹配程度;
生成单元,用于根据所述匹配程度在所述标签中识别出目标内容标签,并根据所述目标内容标签和所述交互需求信息,生成与所述标签的需求程度匹配的目标内容。
在一实施例中,所述生成单元,包括:
融合子单元,用于将所述标签簇中标签的交互需求信息进行融合处理,得到所述标签簇对应的簇交互需求信息;
排序子单元,用于基于所述簇交互需求信息对所述目标内容标签进行排序处理,得到排序后内容标签;
生成子单元,用于基于所述排序后内容标签,生成与所述标签的需求程度匹配的目标内容。
在一实施例中,所述生成单元,包括:
标签筛选子单元,用于根据所述匹配程度在所述标签簇中筛选出至少一个话题标签;
标签词组筛选子单元,用于获取匹配阈值,并基于所述匹配程度和所述匹配阈值,在所述标签簇中识别出与所述话题标签关联的标签词组,所述标签词组包括多个标签;
目标内容标签确定子单元,用于将所述话题标签以及所述标签词组确定为目标内容标签。
在一实施例中,所述预测单元,包括:
标签筛选子单元,用于根据所述标签在所述内容中的共现频率,计算出所述标签的重要程度信息,并根据所述重要程度信息对所述标签进行筛选,得到筛选后标签;
内容量预测子单元,用于基于所述对象特征和所述筛选后标签对应的标签特征,预测所述对象针对所述筛选后标签的对照交互内容量和响应交互内容量;
交互增益信息计算子单元,用于根据所述对照交互内容量以及所述响应交互内容量,计算所述对象针对所述标签的交互增益信息。
在一实施例中,所述标签筛选子单元,包括:
共现频率统计模块,用于在所述内容中统计出所述标签之间的共现频率;
信息提取模块,用于在所述共现频率中提取出所述标签对应的表达充分程度信息以及表达覆盖程度信息;
重要程度信息计算模块,用于基于所述表达充分程度信息以及所述表达覆盖程度信息,计算出所述标签的重要程度信息。
在一实施例中,所述提取单元,包括:
提取子单元,用于基于所述标签在所述内容中的共现频率,对所述标签进行特征提取,得到所述标签对应的标签共现特征;
相似标签确定子单元,用于根据所述标签共现特征计算所述标签之间的相似度,并根据所述相似度对所述标签进行分类,得到所述标签对应的相似标签;
特征提取子单元,用于基于所述相似标签,对所述标签进行特征提取,得到标签特征。
在一实施例中,所述特征提取子单元,包括:
归一化处理模块,用于将所述标签与所述相似标签之间的相似度进行归一化处理,得到所述标签与所述相似标签之间的转移概率;
标签采样处理模块,用于基于所述共现频率对所述标签进行标签采样处理,得到标签文本序列,并根据所述标签文本序列中标签对应的转移概率对所述相似标签进行标签采样处理,得到所述标签文本序列对应的目标标签文本序列;
特征提取模块,用于基于所述标签文本序列和所述目标标签文本序列,对所述标签进行特征提取,得到所述标签对应的标签特征。
此外,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本申请实施例所提供的任一种内容生成方法中的步骤。
此外,本申请实施例还提供一种计算机设备,包括处理器和存储器,所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序实现本申请实施例提供的内容生成方法。
本申请实施例还提供一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机设备执行本申请实施例提供的内容生成方法中的步骤。
本申请实施例通过获取内容交互系统中内容标签集,以及对象基于内容标签集产生的交互属性信息;在标签中提取出标签特征,并在交互属性信息中提取出对象对应的对象特征;基于标签特征和对象特征,预测对象针对标签的交互增益信息,并基于交互增益信息确定标签在内容交互系统中的交互需求信息,交互需求信息用于衡量标签的需求程度;对内容标签集进行标签聚类处理,得到至少一个标签簇以及标签簇对应的簇中心,并计算标签簇中每一标签与簇中心的匹配程度;根据匹配程度在标签中识别出目标内容标签,并根据目标内容标签和交互需求信息,生成与标签的需求程度匹配的目标内容。以此,通过内容交互系统中内容标签集,以及对象基于内容标签集产生的交互属性信息来预测对象针对标签的交互增益信息,并根据交互增益信息确定标签在内容交互系统中的需求程度,然后对内容标签集进行标签聚类处理,并在标签中筛选出与每一类标签簇匹配的目标内容标签,进而根据目标内容标签以及交互需求信息确定出需求程度较高的热点标签,从而生成与标签的需求程度匹配的目标内容,提高了内容生成准确性,进而提升了内容生成效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种内容生成方法实施场景示意图;
图2是本申请实施例提供的一种内容生成方法的流程示意图;
图3是本申请实施例提供的一种内容生成方法的整体流程示意图;
图4是本申请实施例提供的一种内容生成方法的具体流程示意图;
图5是本申请实施例提供的一种内容生成方法的另一具体流程示意图;
图6是本申请实施例提供的一种内容生成方法的另一流程示意图;
图7是本申请实施例提供的内容生成装置的结构示意图;
图8是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种内容生成方法、装置、计算机可读存储介质和计算机设备。其中,该内容生成装置可以集成在计算机设备中,该计算机设备可以是服务器,也可以是终端等设备。
其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
请参阅图1,以内容生成装置集成在计算机设备中为例,图1为本申请实施例所提供的内容生成方法的实施场景示意图,其中,该计算机设备可以为服务器该计算机设备可以获取内容交互系统中内容标签集,以及对象基于内容标签集产生的交互属性信息;在标签中提取出标签特征,并在交互属性信息中提取出对象对应的对象特征;基于标签特征和对象特征,预测对象针对标签的交互增益信息,并基于交互增益信息确定标签在内容交互系统中的交互需求信息,交互需求信息用于衡量标签的需求程度;对内容标签集进行标签聚类处理,得到至少一个标签簇以及标签簇对应的簇中心,并计算标签簇中每一标签与簇中心的匹配程度;根据匹配程度在标签中识别出目标内容标签,并根据目标内容标签和交互需求信息,生成与标签的需求程度匹配的目标内容。
需要说明的是,本发明实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。图1所示的内容生成方法的实施环境场景示意图仅仅是一个示例,本申请实施例描述的内容生成方法的实施环境场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定。本领域普通技术人员可知,随着内容生成的演变和新业务场景的出现,本申请提供的技术方案对于类似的技术问题,同样适用。
本申请实施例提供的方案涉及人工智能的机器学习等技术,具体通过如下实施例进行说明。需要说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从内容生成装置的角度进行描述,该内容生成装置具体可以集成在计算机设备中,该计算机设备可以是服务器,本申请在此不作限制。
请参阅图2,图2是本申请实施例提供的内容生成方法的流程示意图。该内容生成方法包括:
在步骤101中,获取内容交互系统中内容标签集,以及对象基于内容标签集产生的交互属性信息。
其中,该内容交互系统可以为用于内容交互的系统,该内容交互可以指对象对内容进行获取、浏览、消费等交互行为,该内容可以为信息的载体,例如,可以包括视频、音频、文本、图片等内容,该对象可以为与内容进行交互的主体,例如,可以为内容交互系统的用户,该内容标签集可以为多个标签构成的整体,可以包括多个内容的标签,该标签可以为标识内容的分类的信息,例如,可以为体育、动漫等标签,该交互属性信息可以为对象与内容的交互产生的信息,可以包括对象标识、内容标识以及对象与内容交互的交互信息,该对象标识可以为唯一标识一个对象的信息,例如,可以为对象的身份标识号(Identitydocument,简称id),该内容标识可以为唯一标识一个内容的信息,例如,可以为内容id,该交互信息可以为描述对象与内容交互的程度的信息,比如,可以包括交互次数、交互时间等信息,具体的,例如,该交互信息可以包括对象消费内容而产生的消费流水信息,该消费流水信息可以包括消费时间、消费次数等信息。
其中,可以理解的是,在本申请的具体实施方式中,涉及到用户信息等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
在步骤102中,在标签中提取出标签特征,并在交互属性信息中提取出对象对应的对象特征。
其中,该标签特征可以为表征标签的信息,可以表征标签中包含的信息。该对象特征可以为基于对象的交互属性信息表征对象的信息,可以包含对象以及对象与内容交互的特征。可选的,标签特征以及对象特征可以为向量形式的特征信息。
其中,在标签中提取出标签特征的方式可以有多种,例如,可以基于标签在内容中的共现频率,对标签进行特征提取,得到标签对应的标签共现特征,根据标签共现特征计算标签之间的相似度,并根据相似度对标签进行分类,得到标签对应的相似标签,基于相似标签,对标签进行特征提取,得到标签特征。
其中,该共现频率可以为标签在内容中同时出现的频率,该标签共现特征可以为表征标签在内容中同时出现的频率的信息,该相似度可以为表征标签之间的相似程度的信息,该相似标签可以为语义相似的标签。
其中,获取标签在内容中的共现频率的方式可以有多种,例如,请参考图3,图3是本申请实施例提供的一种内容生成方法的整体流程示意图,可以根据内容中存在的标签(tag),统计内容中标签共同出现的次数,从而可以根据标签在内容中共同出现的次数构建内容标签集对应的共现频率矩阵,基于共现频率矩阵可以得到标签之间的共现频率,其中,共现频率矩阵也可以称为共现矩阵(co-occurrence matrix),是一种表示词共现频率的方式,共现频率矩阵中的值P(tagj|tagi)可以表示在全局的内容数据中,内容里含有标签tagi条件下,同时出现的标签tagj的概率。
在获取到标签在内容中的共现频率之后,便可以基于标签在内容中的共现频率,对标签进行特征提取,得到标签对应的标签共现特征。其中,基于标签在内容中的共现频率,对标签进行特征提取的方式可以有多种,例如,可以将共现频率矩阵进行主成分分析(Principal Component Analysis,简称PCA)处理,从而可以对共现频率矩阵进行降维,得到标签对应的标签共现特征。
在基于标签在内容中的共现频率,对标签进行特征提取之后,便可以根据标签共现特征计算标签之间的相似度。其中,根据标签共现特征计算标签之间的相似度的方式可以有多种,例如,可以计算标签共现特征之间的余弦相似度来计算标签之间的相似度。
在根据标签共现特征计算标签之间的相似度之后,便可以根据相似度对标签进行分类,得到标签对应的相似标签。其中,根据相似度对标签进行分类的方式可以有多种,例如,可以将与当前标签相似度较高的其他标签确定为该标签的相似标签,譬如,可以根据相似度对当前标签对应的其他标签进行由高到低的排序,从而可以根据预先设定的标签数量将排名与该标签数量相同的标签作为当前标签对应的相似标签,还可以获取一个预先设定的相似度阈值,该相似度阈值可以为一个相似度的临界值,在相似度大于该临界值时,表明该相似度对应的标签为当前标签的相似标签,在相似度不大于该临界值时,表明该相似度对应的标签非为当前标签的相似标签,从而可以将相似度大于该相似度阈值的标签确定为当前标签对应的相似标签,对于内容标签集中的其他标签,也根据该方式确定其对应的相似标签,从而可以确定内容标签集中每一标签对应的相似标签。
在根据相似度对标签进行分类之后,便可以基于相似标签,对标签进行特征提取,得到标签特征。其中,基于相似标签,对标签进行特征提取的方式可以有多种,例如,可以将标签与相似标签之间的相似度进行归一化处理,得到标签与相似标签之间的转移概率,基于共现频率对标签进行标签采样处理,得到标签文本序列,并根据标签文本序列中标签对应的转移概率对相似标签进行标签采样处理,得到标签文本序列对应的目标标签文本序列,基于标签文本序列和目标标签文本序列,对标签进行特征提取,得到标签对应的标签特征。
其中,该转移概率可以为表征基于标签得到相似标签的概率,可以表征标签与相似标签之间的相似程度,该标签文本序列可以为对标签进行采样得到的标签文本以一定先后顺序排序而构成的标签序列,该目标标签文本序列可以为基于转移概率在相似标签中进行采样得到的、以一定先后顺序排序的标签文本构成的标签序列。
其中,基于共现频率对标签进行标签采样处理的方式可以有多种,例如,请继续参考图3并请参考图4,图4是本申请实施例提供的一种内容生成方法的具体流程示意图,可以根据标签的共现频率,确定出标签在内容中出现的概率,可以将该概率进行归一化,从而可以根据标签在内容中出现的归一化概率在内容标签集中进行标签采样处理,得到标签文本,并基于采样顺序,将标签文件构建为标签文本序列,假设为标签文本序列[A,B,...]。其中,A和B可以表示采样得到的标签文本序列中的标签。可选的,可以采用别名采样(Alias采样)来对标签进行标签采样处理。
在基于共现频率对标签进行标签采样处理之后,便可以根据标签文本序列中标签对应的转移概率对相似标签进行标签采样处理,得到标签文本序列对应的目标标签文本序列。其中,根据标签文本序列中标签对应的转移概率对相似标签进行标签采样处理的方式可以有多种,例如,请继续参考图4,可以获取标签文本序列中标签对应的转移概率,例如,假设标签A对应的转移概率可以表示为A:{X(0.5),Y(0.2),...},其中,X和Y表示标签A对应的相似标签,标签A与相似标签X之间的相似度为0.5,标签A与相似标签Y之间的相似度为0.2,同时假设标签B对应的转移概率可以表示为B:{M(0.4),N(0.3),...},其中,M和N表示标签B对应的相似标签,标签B与相似标签M之间的相似度为0.4,标签B与相似标签N之间的相似度为0.3。从而可以根据标签文本序列中标签对应的转移概率对相似标签进行标签采样处理,例如,可以得到目标标签文本序列[X,Y,M,N,...]。
在根据标签文本序列中标签对应的转移概率对相似标签进行标签采样处理之后,便可以基于标签文本序列和目标标签文本序列,对标签进行特征提取,得到标签对应的标签特征。其中,基于标签文本序列和目标标签文本序列,对标签进行特征提取的方式可以有多种,例如,请继续参考图4,可以采样特征提取模型来对标签进行特征提取,可以将目标标签文本序列作为特征提取模型的目标标签(label),将标签文本序列作为特征提取模型的输入(input),基于该目标标签文本序列label:[X,Y,M,N,...],可以将标签文本序列对应调整为input:[A,A,B,B,...],从而可以将输入与目标标签进行匹配,再基于标签文本序列和目标标签文本序列通过特征提取模型来进行词典到编码的映射,以学习标签在特征空间中的特征表示,从而可以准确的提取出标签的标签特征,其中,相似的标签会映射到特征空间中相近的位置,也就是说,在标签的特征空间中内容含义相似的标签的标签特征之间的距离会较近,因此,可以根据标签特征在特征空间之间的距离来衡量标签之间的相似度。可选的,该特征提取模型可以为预训练模型,可以为word2vec(一种用来产生词向量的相关模型)或者来自变压器的双向编码器表示模型(Bidirectional Encoder Representationfrom Transformers,简称BERT)等。以此,可以在对共现频率矩阵进行降维之后,采用特征提取模型来将标签映射到特征空间中,得到标签的标签特征,从而可以根据标签在特征空间中的位置关系挖掘出标签中没有出现在同一内容中,但是语义类似的标签,可以更加准确的发现标签之间的相似性,保证后续标签聚类处理的效果,进而提升内容生成效率。
可选的,将内容标签集对应的共现频率矩阵、标签下的消费数据等作为微调参数(finetuning)来对特征提取模型进行训练,从而可以得到更加准确的标签的标签特征。以此,通过对标签的两次标签采样处理,可以将内容标签集中无序的标签转换为有序的标签序列,并基于标签文本序列和目标标签文本序列来对特征提取模型进行训练,从而可以更加准确便捷的对标签进行特征提取,提高标签的特征提取效率。
可选的,在交互属性信息中提取出对象对应的对象特征的方式可以有多种,例如,请参考图5,图5是本申请实施例提供的一种内容生成方法的另一具体流程示意图,可以在交互属性信息中提取出对象标识、交互信息以及内容标识,从而可以对这些信息进行特征提取,得到对象特征,该对象特征可以为嵌入特征(embedding)的形式,可以采用顶点嵌入方法(metapath2vec)、node2vec(一种图神经网络种随机游走模型)等算法来在交互属性信息中提取出对象对应的对象特征。
在步骤103中,基于标签特征和对象特征,预测对象针对标签的交互增益信息,并基于交互增益信息确定标签在内容交互系统中的交互需求信息。
为了生成符合对象需求的内容,可以根据标签在内容交互平台中的需求程度来生成符合需求的内容,而为了可以对标签的需求程度进行衡量,可以通过预测每一标签对对象的交互弹性来衡量标签的需求程度,该交互弹性可以表征对象针对某一标签的内容产生的交互增量能带来该对象对整体内容(即所有标签对应的内容)的交互量的多少提升,某一标签对应的交互弹性越大,表明对象与该标签的内容多交互一次可以使得该对象对整体内容的交互的增加量就越大,通过提升交互弹性较大的标签的内容生成数量,可以提升对象与整体内容的交互数量,也就进一步表明该标签为对象感兴趣的、需要的标签,因此,可以将交互弹性较大的标签确定为需要程度较大的标签。为此,本申请实施例通过基于标签特征和对象特征,预测对象针对标签的交互增益信息,以该交互增益信息来表征标签对对象的交互弹性,从而可以基于标签对应的交互弹性来衡量标签的需求程度,进而根据标签的需求程度来进行内容生成,提高内容生成的准确性。其中,该交互增益信息可以为表征对象针对标签的交互增量而产生的交互增益的信息,可以衡量对象针对标签的交互增量对对象针对所有标签的交互增量的影响,该交互增量可以为对象在前后两次对一个标签的交互次数之间的差值,例如,假设对象在第一天与标签A交互的次数是2次,在第二天与标签A交互的次数是4次,则该交互增量可以为4-2=2次。该交互需求信息可以用于衡量标签在内容交互系统中的需求程度,可以为表征对象对标签的偏好以及需求程度的信息,在对象针对某一标签产生交互增量时带来的交互增益较大时,可以表明该标签可以促进对象的内容交互次数的增加,即该标签为对象感兴趣以及需要的话题类别,为此,可以根据交互增益信息确定标签在内容交互系统中的需求程度。
其中,基于标签特征和对象特征,预测对象针对标签的交互增益信息的方式可以有多种,例如,可以根据标签在内容中的共现频率,计算出标签的重要程度信息,并根据重要程度信息对标签进行筛选,得到筛选后标签,基于对象特征和筛选后标签对应的标签特征,预测对象针对筛选后标签的对照交互内容量和响应交互内容量,根据对照交互内容量以及响应交互内容量,计算对象针对标签的交互增益信息。
其中,该重要程度信息可以为衡量每一标签的重要程度的信息,该筛选后标签可以为根据重要程度信息对标签进行筛选后的标签,该对照交互内容量可以为对象与标签的交互时对所有筛选后标签的交互的交互内容量,即未受到对象与标签的交互增量的影响时与内容的交互数量,该交互内容量可以为交互内容的数量,该响应交互内容量可以为基于对象与标签的交互增量的干预下在所有内容中产生的交互内容量,即在受到对象与标签的交互增量的影响时与内容的交互数量。
可选的,由于内容标签集中极有可能存在一些计算价值比较低的标签,例如一些出现频率很高或者含有的信息量较少的泛标签等,这些标签的加入,极有可能导致样本不平衡或者增加计算量的问题,因此,可以根据标签的重要程度来对标签进行筛选。其中,根据标签在内容中的共现频率,计算出标签的重要程度信息的方式可以有多种,例如,可以在内容中统计出标签之间的共现频率,在共现频率中提取出标签对应的表达充分程度信息以及表达覆盖程度信息,基于表达充分程度信息以及表达覆盖程度信息,计算出标签的重要程度信息。
其中,该表达充分程度信息可以为表征标签对筛选后标签中其他标签进行表达的充分性的信息,该表达覆盖程度信息可以为表征标签被筛选后标签中其他标签覆盖的概率的信息。
其中,在共现频率中提取出标签对应的表达充分程度信息以及表达覆盖程度信息的方式可以有多种,例如,可以假设筛选后标签中任一标签i,根据共现频率矩阵将每一标签的共现频率进行归一化,得到标签对应的共现概率,在共现概率中提取出标签i与其他标签的共现概率并进行累加处理,得到标签i对应的表达充分程度信息Si,可以表示为
其中,tagm表示筛选后标签中除了标签i的其他标签,tagi表示标签i,m!=i表示标签不是标签i,∑表示累加符号。
可以将标签i作为边缘分布,在共现概率中提取出其他标签与标签i的共现概率并进行累加处理,得到标签i对应的表达覆盖程度信息Ci,可以表示为
其中,tagl表示筛选后标签中除了标签i的其他标签,l!=i表示标签tagl不是标签i。
在共现频率中提取出标签对应的表达充分程度信息以及表达覆盖程度信息之后,便可以基于表达充分程度信息以及表达覆盖程度信息,计算出标签的重要程度信息。其中,基于表达充分程度信息以及表达覆盖程度信息,计算出标签的重要程度信息的方式可以有多种,例如,可以计算表达充分程度信息以及表达覆盖程度信息之间的比值,得到标签的重要程度信息Ii,可以表示为
在根据标签在内容中的共现频率,计算出标签的重要程度信息之后,便可以根据重要程度信息对标签进行筛选,得到筛选后标签。其中,根据重要程度信息对标签进行筛选的方式可以有多种,例如,请继续参考图4,可以设定一个重要程度阈值,该重要程度阈值可以为一个临界值,在标签的重要程度信息表征的重要程度大于该临界值时,可以将该标签确定为重要的标签,因此,可以将重要程度信息与该重要程度阈值进行比对,从而可以将重要程度大于该重要程度阈值的标签确定为筛选后标签。
在根据重要程度信息对标签进行筛选之后,便可以基于对象特征和筛选后标签对应的标签特征,预测对象针对筛选后标签的对照交互内容量和响应交互内容量。其中,基于对象特征和筛选后标签对应的标签特征,预测对象针对筛选后标签的对照交互内容量和响应交互内容量的方式可以有多种,例如,请继续参考图5,可以采用增益模型(Upliftmodel)来基于对象特征和筛选后标签对应的标签特征,预测对象针对筛选后标签的对照交互内容量和响应交互内容量。该增益模型可以为针对增量进行建模,用于预测某种干预对于个体状态或行为的因果效应,可选的,该增益模型可以为差分响应模型,可以将响应行为(outcome)设置为对象与筛选后标签的交互情况,例如,可以为用户整体消费情况,可以将干预动作(treatment)设置为对象与单个标签的交互情况,例如,可以为用户消费单个标签的情况,可以将对象的交互属性信息作为基础特征,以训练样本的形式对模型进行训练,例如,该交互属性信息可以为用户的消费流水信息,同时,可以允许treatment为多个离散值,表明对象与标签的交互次数可以大于一次。可选的,可以采用平均因果效应(AverageTreatment Effect,ATE)来计算单个对象的交互增益信息。以此,在增益模型达到收敛之后,可以采用收敛后增益模型预测对象针对筛选后标签的对照交互内容量和响应交互内容量。
在基于对象特征和筛选后标签对应的标签特征,预测对象针对筛选后标签的对照交互内容量和响应交互内容量之后,便可以根据对照交互内容量以及响应交互内容量,计算对象针对标签的交互增益信息。其中,根据对照交互内容量以及响应交互内容量,计算对象针对标签的交互增益信息的方式可以有多种,例如,可以计算对照交互内容量以及响应交互内容量之间的差值,从而可以得到对象针对标签的交互增益信息。
可选的,对增益模型进行训练的方式可以有多种,例如,可以获取标签样本,以及对象样本针对该标签样本产生的行为属性信息样本,对标签样本以及行为属性信息样本进行特征提取,得到对象样本特征和标签样本特征,基于对象样本特征和标签样本特征,采用预设增益模型预测对象样本针对标签样本产生的交互增益信息样本,并基于交互增益信息样本计算累积增益系数,在累积增益系数满足预设条件时,可以得到效果较好的增益模型。
其中,该累积增益系数(qini score)可以表征对象样本的内容交互数量的增益与标签样本的交互次数的增量之间的关系,该预设条件可以为预先设定的判断累积增益系数是否符合要求的条件,例如,可以为一个系数的阈值,在累积增益系数构成的曲线与随机曲线之间的面积小于该阈值时,可以表明当前的增益模型效果较好,在面积不小于该阈值时,可以表明当前的增益模型效果较差,仍然需要进行调整。为了保证预测结果的可靠性,可以通过计算累积增益系数来衡量预测结果的可靠性,在该累积增益满足预设条件时,可以认为当前增益模型的预测结果具有可靠性,也即可以得到效果较好的增益模型。
其中,基于交互增益信息样本计算累积增益系数的方式可以有多种,例如,可以基于交互增益信息样本以及交互属性信息样本将对象样本划分为对照对象组以及实验对象组,基于交互属性信息样本在对照对象组和实验对象组中统计出对象样本与标签样本存在交互的交互样本次数,并基于交互样本次数计算对照对象组和实验对象组中相邻对象之间的交互次数跨度,基于对照对象组和实验对象组对应的交互样本次数以及交互次数跨度,计算标签样本对应的累积增益系数。
其中,该交互样本次数可以为对象样本与标签样本之间存在交互的次数,该对照对象组以及实验对象组可以为对应的对照组以及实验组,该实验组可以表示存在干预动作(即存在交互增量)的对象样本集合,该对照组可以表示不存在干预动作(即无交互增量)的对象样本集合,该相邻对象可以为对照对象组以及实验对象组中对象序列中处于相邻位置的对象样本,该交互次数跨度可以为相邻对象的交互次数之间的差值。
其中,基于交互增益信息样本以及交互属性信息样本将对象样本划分为对照对象组以及实验对象组的方式可以有多种,例如,可以在交互属性信息样本中提取出每一对象针对每一标签的交互样本次数,从而可以将交互样本次数进行排序,基于排序后的交互样本次数将对象样本划分为对照对象组以及实验对象组。例如,假设对象样本基于标签样本a对应的交互样本次数一共包含[1,3,6,5]共4个值,每一值为对象样本对标签样本a的交互样本次数,从而可以根据交互样本次数对交互样本次数进行排序,得到[1,3,5,6],从而可以令交互样本次数为[1,3,5]的数据对应的对象样本为对照对象组,交互样本次数为[3,5,6]的数据对应的对象样本为实验对象组,从而可以分别在对照对象组以及实验对象组,根据交互增益信息样本表征的每一对象样本的增益大小,对对照对象组以及实验对象组中的对象样本进行排序,从而可以将排序后的对象样本进行划分为多个小组,从而可以得到多个对照对象组以及实验对象组。例如,可以对实验对象组以及对照对象组中的对象样本进行分组为十等分,分别为前10%、前20%、...前100%的对象样本。
可选的,考虑到treatment的交互次数跨度可能大于1(例如1到3的跨度为2),因此,在计算累积增益系数时,可以在累积增益系数的计算公式的分母上除以交互次数跨度,以提升预测结果的准确性。
其中,基于对照对象组和实验对象组对应的交互样本次数以及交互次数跨度,计算标签样本对应的累积增益系数的方式可以有多种,例如,该累积增益系数的计算公式可以表示为如下公式(1):
其中,此处i表示对象样本的百分比,例如,可以对实验对象组以及对照对象组中的对象样本进行分组为十等分,分别为前10%、前20%、...前100%,则该i可以表示为前10%、前20%等百分比对应的对象样本。φi可以表示为从0到i的对象样本的数量,Qini(φi)可以表示从0到i的对象样本的累积增益系数,其中,count(Ti)表示交互样本次数(treatment)的次数数值,Ti可以表示为交互次数的类型,例如,假设对象样本中treatment包括[1,3,3,5],则Ti可以包括1、3以及5这三个类型,可以表示为
其中,t(φi)可以表示为实验对象组或者对照对象组的排序后的对象样本中0到i的对象样本对应的交互样本次数,unique(t(φi))表示对0到i的对象样本对应的交互次数进行去重处理,以此可以得到不同交互次数的类型。表示“定义为”的符号,/>可以表示为对照对象组的0到i的对象样本中交互样本次数为第k个的交互样本次数和实验对象组的0到i的对象样本中第k+1个交互样本次数之间的交互次数跨度,其中,/>可以表示对照对象组中0到i的对象样本中第k个的交互样本次数类型,/>可以表示实验对照组中0到i的对象样本中第k+1个的交互样本次数类型,/>可以表示为
其中,N表示自然数,大于/> 属于Ti中的值,/>可以表示为实验对象组中0到i的对象样本中交互样本次数为第k+1个交互样本次数类型时,0到i的对象样本针对所有标签的交互样本次数的总和,可以表示为
其中,index()表示索引函数,index(φi)表示取0到i的对象样本的数据,I()表示单位函数,可以表示实验对象组中交互样本次数为第k+1个交互样本次数类型时为1,交互样本次数不为第k+1个交互样本次数类型时为0,即可以将实验对象组中0到i的对象样本中交互样本次数为第k+1个交互样本次数的数据筛选出来,yj表示交互次数的权重,此时可以表示0到i的对象样本中交互样本次数为第k+1个交互样本次数时,0到i的每一对象样本针对所有标签产生的交互样本次数的和。/>可以表示为实验对象组中0到i的对象样本中交互样本次数为第k+1交互样本次数类型的对象样本数量,可以表示为
相应的,可以表示对照对象组中0到i的对象样本中交互样本次数为第k个交互样本次数类型时,0到i的对象样本针对所有标签的交互样本次数的总和,可以表示为
其中,可以表示实验对象组中交互样本次数为第k个交互样本次数类型时为1,交互样本次数不为第k个交互样本次数类型时为0,即可以将实验对象组中0到i的对象样本中交互样本次数为第k个交互样本次数类型的交互样本次数的数据筛选出来。可以表示对照对象组中0到i的对象样本中交互样本次数为第k+1交互样本次数类型的对象样本数量,可以表示为
以此,可以采用公式(1)来基于对照对象组和实验对象组对应的交互样本次数以及交互次数跨度计算标签样本对应的累积增益系数,从而可以根据累积增益系数与随机曲线之间的面积,来判断当前的预设增益模型的预测结果是否可靠,例如,可以在该累积增益系数与随机曲线之间的面积小于一个面积阈值时,可以认为当前的预设增益模型的预测结果较准确,此时可以基于预设增益模型得到效果较好的增益模型。
可选的,该增益模型可以采用分布式梯度增强库(XGBoost)作为主模型,也可以使用其他支持回归算法的统计学习算法或者深度学习算法,此外,在模型学习方式上可以采用S学习器(S learner),也可以使用T学习器(T learner)等其他增益模型架构,也可以直接针对交互增益本身进行建模,本申请在此不做限定。
在基于标签特征和对象特征,预测对象针对标签的交互增益信息之后,便可以基于交互增益信息确定标签在内容交互系统中的交互需求信息。其中,基于交互增益信息确定标签在内容交互系统中的交互需求信息的方式可以有多种,例如,可以将标签对应的交互增益信息进行累加处理,得到标签对应的交互热度信息,从而可以获取标签对应的需求权重,并基于需求权重对标签交互热度信息进行加权,进而得到标签在内容交互系统中的交互需求信息。
其中,该交互热度信息可以为表征标签在内容交互系统中的热度的信息,该需求权重可以为衡量每一标签的需求数量的权重,例如,对于需求数量较多的标签可以赋予一个较大的权重,对于需求数量较少的标签可以赋予一个较小的权重。
在步骤104中,对内容标签集进行标签聚类处理,得到至少一个标签簇以及标签簇对应的簇中心,并计算标签簇中每一标签与簇中心的匹配程度。
其中,标签聚类处理指的是将标签的集合分成由类似的标签组成的多个类的过程,该标签簇可以为一个类别的标签构成的整体,每个标签簇中会有一个簇中心,该簇中心可以为标签簇中的一个特殊样本,用来代表该类标签簇。该匹配程度可以表征标签簇中每一标签与簇中心的相似程度,可以用来衡量标签与该标签簇的匹配程度。
其中,对内容标签集进行标签聚类处理的方式可以有多种,例如,可以采用高斯混合聚类、聚类算法(K-means)等聚类方法来对标签进行标签聚类处理,也可以直接计算标签之前的距离,根据标签之间的距离来进行聚类等。可选的,在进行标签聚类处理之前,可以将标签特征进行降维,并将每一标签的重要程度信息、标签下的篇均消费作为辅助信息和降维后的标签特征进行合并,共同作为聚类处理的基础,从而可以采用聚类方法,按照预先规定的类别数对标签进行标签聚类处理,得到该类别数对应数量的标签簇及其簇中心。
在对内容标签集进行标签聚类处理之后,便可以计算标签簇中每一标签与簇中心的匹配程度。其中,计算标签簇中每一标签与簇中心的匹配程度的方式可以有多种,例如,可以采用余弦相似度来计算标签与簇中心的匹配程度。
在步骤105中,根据匹配程度在标签中识别出目标内容标签,并根据目标内容标签和交互需求信息,生成与标签的需求程度匹配的目标内容。
其中,目标内容标签可以为标签中与簇中心匹配的标签,该目标内容可以为基于目标内容标签生成的与标签的需求程度匹配的内容。
其中,根据匹配程度在标签中识别出目标内容标签的方式可以有多种,例如,可以根据匹配程度对标签簇中的标签进行由高到低的排序,从而可以根据排序后的标签,将与簇中心最为匹配的标签作为目标内容标签,例如,可以为排名第一以及第二的标签确定为目标内容标签等,具体可以根据实际情况进行设定。此外,也可以设定一个临界值,在标签与对应的簇中心的匹配程度大于这个临界值时,将该标签确定为目标内容标签等。
在根据匹配程度在标签中识别出目标内容标签之后,便可以根据目标内容标签和交互需求信息,生成与标签的需求程度匹配的目标内容。其中,根据目标内容标签和交互需求信息,生成与标签的需求程度匹配的目标内容的方式可以有多种,例如,请继续参考图3,可以将标签簇中标签的交互需求信息进行融合处理,得到标签簇对应的簇交互需求信息,基于簇交互需求信息对目标内容标签进行排序处理,得到排序后内容标签,基于排序后内容标签,生成与标签的需求程度匹配的目标内容。
其中,该簇交互需求信息可以为标签簇对应的交互需求信息,该排序后内容标签可以为根据簇交互需求信息对标签簇的目标内容标签进行排序后的目标内容标签。以此,根据每一目标内容标签对应的簇交互需求信息进行排序,从而将排序后的目标内容标签推送到内容交互系统对应的供需中台中进行展示,从而内容创造者可以根据排序后的目标内容标签获取到目标内容标签的需求程度,从而进行更加准确的内容创作,提升内容生成效率。
其中,将标签簇中标签的交互需求信息进行融合处理的方式可以有多种,例如,可以将标签簇中标签对应的交互需求信息进行累加处理,并将累加处理的结果进行平均处理,从而可以将平均值作为标签簇对应的簇交互需求信息。
其中,基于排序后内容标签,生成与标签的需求程度匹配的目标内容的方式可以有多种,例如,可以根据匹配程度在标签簇中筛选出至少一个话题标签,获取匹配阈值,并基于匹配程度和匹配阈值,在标签簇中识别出与话题标签关联的标签词组,将话题标签以及标签词组确定为目标内容标签。
其中,该话题标签可以为标签簇的标签中与簇中心匹配的标签,标签词组包括多个标签,可以为多个标签构成的整体,例如,可以为标签词云的形式,该匹配阈值可以为一个匹配程度的临界值,在标签的匹配程度大于该临界值时,可以将该标签确定为与话题标签关联的标签词组中的标签。由于单个标签包含的信息较少,因此,可以采用话题标签加上多个与话题标签关联的标签词组作为目标内容标签,从而内容创作者可以根据该目标内容标签获取到更丰富的表征标签需求程度的信息,从而可以生成更加准确且多样的内容,提高了内容生成效率。
由以上可知,本申请实施例通过获取内容交互系统中内容标签集,以及对象基于内容标签集产生的交互属性信息;在标签中提取出标签特征,并在交互属性信息中提取出对象对应的对象特征;基于标签特征和对象特征,预测对象针对标签的交互增益信息,并基于交互增益信息确定标签在内容交互系统中的交互需求信息,交互需求信息用于衡量标签的需求程度;对内容标签集进行标签聚类处理,得到至少一个标签簇以及标签簇对应的簇中心,并计算标签簇中每一标签与簇中心的匹配程度;根据匹配程度在标签中识别出目标内容标签,并根据目标内容标签和交互需求信息,生成与标签的需求程度匹配的目标内容。以此,通过内容交互系统中内容标签集,以及对象基于内容标签集产生的交互属性信息来预测对象针对标签的交互增益信息,并根据交互增益信息确定标签在内容交互系统中的需求程度,然后对内容标签集进行标签聚类处理,并在标签中筛选出与每一类标签簇匹配的目标内容标签,进而根据目标内容标签以及交互需求信息确定出需求程度较高的热点标签,从而生成与标签的需求程度匹配的目标内容,提高了内容生成准确性,进而提升了内容生成效率。
根据上面实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该内容生成装置具体集成在计算机设备为例进行说明。其中,该内容生成方法以服务器为执行主体为例进行具体的描述。
为了更好的描述本申请实施例,请参阅图6,图6为本申请实施例提供的内容生成方法的另一流程示意图。具体流程如下:
在步骤201中,服务器获取内容交互系统中内容标签集,以及对象基于内容标签集产生的交互属性信息,基于标签在内容中的共现频率,对标签进行特征提取,得到标签对应的标签共现特征。
其中,服务器获取标签在内容中的共现频率的方式可以有多种,例如,请参考图3,服务器可以根据内容中存在的标签,统计内容中标签共同出现的次数,从而可以根据标签在内容中共同出现的次数构建内容标签集对应的共现频率矩阵,基于共现频率矩阵可以得到标签之间的共现频率,其中,共现频率矩阵也可以称为共现矩阵,是一种表示词共现频率的方式,共现频率矩阵中的值P(tagj|tagi)可以表示在全局的内容数据中,内容里含有标签tagi条件下,同时出现的标签tagj的概率。
服务器在获取到标签在内容中的共现频率之后,便可以基于标签在内容中的共现频率,对标签进行特征提取,得到标签对应的标签共现特征。其中,服务器基于标签在内容中的共现频率,对标签进行特征提取的方式可以有多种,例如,服务器可以将共现频率矩阵进行PCA处理,从而可以对共现频率矩阵进行降维,得到标签对应的标签共现特征。
在步骤202中,服务器根据标签共现特征计算标签之间的相似度,并根据相似度对标签进行分类,得到标签对应的相似标签,将标签与相似标签之间的相似度进行归一化处理,得到标签与相似标签之间的转移概率。
其中,服务器根据标签共现特征计算标签之间的相似度的方式可以有多种,例如,服务器可以计算标签共现特征之间的余弦相似度来计算标签之间的相似度。
服务器在根据标签共现特征计算标签之间的相似度之后,便可以根据相似度对标签进行分类,得到标签对应的相似标签。其中,服务器根据相似度对标签进行分类的方式可以有多种,例如,服务器可以将与当前标签相似度较高的其他标签确定为该标签的相似标签,譬如,服务器可以根据相似度对当前标签对应的其他标签进行由高到低的排序,从而可以根据预先设定的标签数量将排名与该标签数量相同的标签作为当前标签对应的相似标签,还可以获取一个预先设定的相似度阈值,该相似度阈值可以为一个相似度的临界值,在相似度大于该临界值时,表明该相似度对应的标签为当前标签的相似标签,在相似度不大于该临界值时,表明该相似度对应的标签非为当前标签的相似标签,从而可以将相似度大于该相似度阈值的标签确定为当前标签对应的相似标签,对于内容标签集中的其他标签,也根据该方式确定其对应的相似标签,从而可以确定内容标签集中每一标签对应的相似标签。
在步骤203中,服务器基于共现频率对标签进行标签采样处理,得到标签文本序列,并根据标签文本序列中标签对应的转移概率对相似标签进行标签采样处理,得到标签文本序列对应的目标标签文本序列,基于标签文本序列和目标标签文本序列,对标签进行特征提取,得到标签对应的标签特征,并在交互属性信息中提取出对象对应的对象特征。
其中,服务器基于共现频率对标签进行标签采样处理的方式可以有多种,例如,请继续参考图3并请参考图4,服务器可以根据标签的共现频率,确定出标签在内容中出现的概率,可以将该概率进行归一化,从而可以根据标签在内容中出现的归一化概率在内容标签集中进行标签采样处理,得到标签文本,并基于采样顺序,将标签文件构建为标签文本序列,假设为标签文本序列[A,B,...]。其中,A和B可以表示采样得到的标签文本序列中的标签。可选的,可以采用别名采样(Alias采样)来对标签进行标签采样处理。
服务器在基于共现频率对标签进行标签采样处理之后,便可以根据标签文本序列中标签对应的转移概率对相似标签进行标签采样处理,得到标签文本序列对应的目标标签文本序列。其中,服务器根据标签文本序列中标签对应的转移概率对相似标签进行标签采样处理的方式可以有多种,例如,请继续参考图4,服务器可以获取标签文本序列中标签对应的转移概率,例如,假设标签A对应的转移概率可以表示为A:{X(0.5),Y(0.2),...},其中,X和Y表示标签A对应的相似标签,标签A与相似标签X之间的相似度为0.5,标签A与相似标签Y之间的相似度为0.2,同时假设标签B对应的转移概率可以表示为B:{M(0.4),N(0.3),...},其中,M和N表示标签B对应的相似标签,标签B与相似标签M之间的相似度为0.4,标签B与相似标签N之间的相似度为0.3。从而可以根据标签文本序列中标签对应的转移概率对相似标签进行标签采样处理,例如,可以得到目标标签文本序列[X,Y,M,N,...]。
服务器在根据标签文本序列中标签对应的转移概率对相似标签进行标签采样处理之后,便可以基于标签文本序列和目标标签文本序列,对标签进行特征提取,得到标签对应的标签特征。其中,服务器基于标签文本序列和目标标签文本序列,对标签进行特征提取的方式可以有多种,例如,请继续参考图4,服务器可以采样特征提取模型来对标签进行特征提取,可以将目标标签文本序列作为特征提取模型的目标标签(label),将标签文本序列作为特征提取模型的输入(input),基于该目标标签文本序列label:[X,Y,M,N,...],可以将标签文本序列对应调整为input:[A,A,B,B,...],从而可以将输入与目标标签进行匹配,再基于标签文本序列和目标标签文本序列通过特征提取模型来进行词典到编码的映射,以学习标签的特征表示,从而可以准确的提取出标签的标签特征。可选的,该特征提取模型可以为预训练模型,可以为word2vec或者BERT等。可选的,将内容标签集对应的共现频率矩阵、标签下的消费数据等作为finetuning来对特征提取模型进行训练,从而可以得到更加准确的标签的标签特征。以此,服务器通过对标签的两次标签采样处理,可以将内容标签集中无序的标签转换为有序的标签序列,并基于标签文本序列和目标标签文本序列来对特征提取模型进行训练,从而可以更加准确便捷的对标签进行特征提取,提高标签的特征提取效率。
可选的,服务器在交互属性信息中提取出对象对应的对象特征的方式可以有多种,例如,请参考图5,服务器可以在交互属性信息中提取出对象标识、交互信息以及内容标识,从而可以对这些信息进行特征提取,得到对象特征,该对象特征可以为嵌入特征(embedding)的形式,可以采用metapath2vec、node2vec等算法来在交互属性信息中提取出对象对应的对象特征。
在步骤204中,服务器在共现频率中提取出标签对应的表达充分程度信息以及表达覆盖程度信息,基于表达充分程度信息以及表达覆盖程度信息,计算出标签的重要程度信息,并根据重要程度信息对标签进行筛选,得到筛选后标签。
其中,服务器在共现频率中提取出标签对应的表达充分程度信息以及表达覆盖程度信息的方式可以有多种,例如,服务器可以假设筛选后标签中任一标签i,根据共现频率矩阵将每一标签的共现频率进行归一化,得到标签对应的共现概率,在共现概率中提取出标签i与其他标签的共现概率并进行累加处理,得到标签i对应的表达充分程度信息Si,可以表示为
其中,tagm表示筛选后标签中除了标签i的其他标签,tagi表示标签i,m!=i表示标签不是标签i,∑表示累加符号。
服务器可以将标签i作为边缘分布,在共现概率中提取出其他标签与标签i的共现概率并进行累加处理,得到标签i对应的表达覆盖程度信息Ci,可以表示为
其中,tagl表示筛选后标签中除了标签i的其他标签,l!=i表示标签tagl不是标签i。
服务器在共现频率中提取出标签对应的表达充分程度信息以及表达覆盖程度信息之后,便可以基于表达充分程度信息以及表达覆盖程度信息,计算出标签的重要程度信息。其中,服务器基于表达充分程度信息以及表达覆盖程度信息,计算出标签的重要程度信息的方式可以有多种,例如,服务器可以计算表达充分程度信息以及表达覆盖程度信息之间的比值,得到标签的重要程度信息Ii,可以表示为
服务器在根据标签在内容中的共现频率,计算出标签的重要程度信息之后,便可以根据重要程度信息对标签进行筛选,得到筛选后标签。其中,服务器根据重要程度信息对标签进行筛选的方式可以有多种,例如,请继续参考图4,服务器可以设定一个重要程度阈值,该重要程度阈值可以为一个临界值,在标签的重要程度信息表征的重要程度大于该临界值时,可以将该标签确定为重要的标签,因此,服务器可以将重要程度信息与该重要程度阈值进行比对,从而可以将重要程度大于该重要程度阈值的标签确定为筛选后标签。
在步骤205中,服务器基于对象特征和筛选后标签对应的标签特征,预测对象针对筛选后标签的对照交互内容量和响应交互内容量,根据对照交互内容量以及响应交互内容量,计算对象针对标签的交互增益信息,并基于交互增益信息确定标签在内容交互系统中的交互需求信息。
其中,服务器基于对象特征和筛选后标签对应的标签特征,预测对象针对筛选后标签的对照交互内容量和响应交互内容量的方式可以有多种,例如,请继续参考图5,服务器可以采用增益模型来基于对象特征和筛选后标签对应的标签特征,预测对象针对筛选后标签的对照交互内容量和响应交互内容量。该增益模型可以为针对增量进行建模,用于预测某种干预对于个体状态或行为的因果效应,可选的,该增益模型可以为差分响应模型,可以将响应行为(outcome)设置为对象与筛选后标签的交互情况,例如,可以为用户整体消费情况,可以将干预动作(treatment)设置为对象与单个标签的交互情况,例如,可以为用户消费单个标签的交互次数,可以将对象的交互属性信息作为基础特征,以训练样本的形式对模型进行训练,例如,该交互属性信息可以为用户的消费流水信息,同时,可以允许treatment为多个离散值,表明对象与标签的交互次数可以大于一次。可选的,服务器可以采用平均因果效应(Average Treatment Effect,ATE)来计算单个对象的交互增益信息。以此,在增益模型达到收敛之后,可以采用收敛后增益模型预测对象针对筛选后标签的对照交互内容量和响应交互内容量。
服务器在基于对象特征和筛选后标签对应的标签特征,预测对象针对筛选后标签的对照交互内容量和响应交互内容量之后,便可以根据对照交互内容量以及响应交互内容量,计算对象针对标签的交互增益信息。其中,服务器根据对照交互内容量以及响应交互内容量,计算对象针对标签的交互增益信息的方式可以有多种,例如,服务器可以计算对照交互内容量以及响应交互内容量之间的差值,从而可以得到对象针对标签的交互增益信息。
可选的,服务器可以采用分布式梯度增强库(XGBoost)作为该增益模型中的主模型,也可以使用其他支持回归算法的统计学习算法或者深度学习算法,此外,在模型学习方式上可以采用S learner,也可以使用T learner等其他增益模型架构,也可以直接针对交互增益本身进行建模,本申请在此不做限定。
服务器在基于标签特征和对象特征,预测对象针对标签的交互增益信息之后,便可以基于交互增益信息确定标签在内容交互系统中的交互需求信息。其中,服务器基于交互增益信息确定标签在内容交互系统中的交互需求信息的方式可以有多种,例如,服务器可以将标签对应的交互增益信息进行累加处理,得到标签对应的交互热度信息,从而可以获取标签对应的需求权重,并基于需求权重对标签交互热度信息进行加权,进而得到标签在内容交互系统中的交互需求信息。
在步骤206中,服务器对内容标签集进行标签聚类处理,得到至少一个标签簇以及标签簇对应的簇中心,并计算标签簇中每一标签与簇中心的匹配程度,根据匹配程度在标签簇中筛选出至少一个话题标签。
其中,服务器对内容标签集进行标签聚类处理的方式可以有多种,例如,服务器可以采用高斯混合聚类、K-means等聚类方法来对标签进行标签聚类处理,也可以直接计算标签之前的距离,根据标签之间的距离来进行聚类等。可选的,在进行标签聚类处理之前,服务器可以将标签特征进行降维,并将每一标签的重要程度信息、标签下的篇均消费作为辅助信息和降维后的标签特征进行合并,共同作为聚类处理的基础,从而可以采用聚类方法,按照预先规定的类别数对标签进行标签聚类处理,得到该类别数对应数量的标签簇及其簇中心。
服务器在对内容标签集进行标签聚类处理之后,便可以计算标签簇中每一标签与簇中心的匹配程度。其中,服务器计算标签簇中每一标签与簇中心的匹配程度的方式可以有多种,例如,服务器可以采用余弦相似度来计算标签与簇中心的匹配程度。
在计算标签簇中每一标签与簇中心的匹配程度之后,便可以根据匹配程度在标签簇中筛选出至少一个话题标签。其中,根据匹配程度在标签簇中筛选出至少一个话题标签的方式可以有多种,例如,可以根据匹配程度对标签簇中的标签进行由高到低的排序,从而可以根据排序后的标签,将与簇中心最为匹配的标签作为话题标签,例如,可以为排名第一以及第二的标签确定为话题标签等,具体可以根据实际情况进行设定。此外,也可以设定一个临界值,在标签与对应的簇中心的匹配程度大于该临界值时,将该标签确定为话题标签等。
在步骤207中,服务器获取匹配阈值,并基于匹配程度和匹配阈值,在标签簇中识别出与话题标签关联的标签词组,将话题标签以及标签词组确定为目标内容标签,将标签簇中标签的交互需求信息进行融合处理,得到标签簇对应的簇交互需求信息。
其中,该标签词组可以为多个标签构成的整体,例如,可以为标签词云的形式,该匹配阈值可以为一个匹配程度的临界值,在标签的匹配程度大于该临界值时,可以将该标签确定为与话题标签关联的标签词组中的标签。由于单个标签包含的信息较少,因此,可以采用话题标签加上多个与话题标签关联的标签词组作为目标内容标签,从而内容创作者可以根据该目标内容标签获取到更丰富的表征标签需求程度的信息,从而可以生成更加准确且多样的内容,提高了内容生成效率。
其中,服务器将标签簇中标签的交互需求信息进行融合处理的方式可以有多种,例如,服务器可以将标签簇中标签对应的交互需求信息进行累加处理,并将累加处理的结果进行平均处理,从而可以将平均值作为标签簇对应的簇交互需求信息。
在步骤208中,服务器基于簇交互需求信息对目标内容标签进行排序处理,得到排序后内容标签,基于排序后内容标签,生成与标签的需求程度匹配的目标内容。
其中,该排序后内容标签可以为根据簇交互需求信息对标签簇的目标内容标签进行排序后的目标内容标签。以此,服务器根据每一目标内容标签对应的簇交互需求信息对目标内容标签进行排序,从而将排序后的目标内容标签推送到内容交互系统对应的供需中台中进行展示,从而内容创造者可以根据展示的排序后内容标签获取到目标内容标签的需求程度信息,从而进行更加准确且针对性的对用户感兴趣且内容交互系统中缺乏的内容进行创作,从而生成用户需求且感兴趣的内容,提升了内容生成的效率。
由以上可知,本申请实施例通过服务器获取内容交互系统中内容标签集,以及对象基于内容标签集产生的交互属性信息,基于标签在内容中的共现频率,对标签进行特征提取,得到标签对应的标签共现特征;服务器根据标签共现特征计算标签之间的相似度,并根据相似度对标签进行分类,得到标签对应的相似标签,将标签与相似标签之间的相似度进行归一化处理,得到标签与相似标签之间的转移概率;服务器基于共现频率对标签进行标签采样处理,得到标签文本序列,并根据标签文本序列中标签对应的转移概率对相似标签进行标签采样处理,得到标签文本序列对应的目标标签文本序列,基于标签文本序列和目标标签文本序列,对标签进行特征提取,得到标签对应的标签特征,并在交互属性信息中提取出对象对应的对象特征;服务器在共现频率中提取出标签对应的表达充分程度信息以及表达覆盖程度信息,基于表达充分程度信息以及表达覆盖程度信息,计算出标签的重要程度信息,并根据重要程度信息对标签进行筛选,得到筛选后标签;服务器基于对象特征和筛选后标签对应的标签特征,预测对象针对筛选后标签的对照交互内容量和响应交互内容量,根据对照交互内容量以及响应交互内容量,计算对象针对标签的交互增益信息,并基于交互增益信息确定标签在内容交互系统中的交互需求信息;服务器对内容标签集进行标签聚类处理,得到至少一个标签簇以及标签簇对应的簇中心,并计算标签簇中每一标签与簇中心的匹配程度,根据匹配程度在标签簇中筛选出至少一个话题标签;服务器获取匹配阈值,并基于匹配程度和匹配阈值,在标签簇中识别出与话题标签关联的标签词组,将话题标签以及标签词组确定为目标内容标签,将标签簇中标签的交互需求信息进行融合处理,得到标签簇对应的簇交互需求信息;服务器基于簇交互需求信息对目标内容标签进行排序处理,得到排序后内容标签,基于排序后内容标签,生成与标签的需求程度匹配的目标内容。以此,通过在内容标签集中进行标签采样处理,将无序的标签转换为有序的标签文本序列以及目标标签文本序列,并基于标签文本序列以及目标标签文本序列在标签中提取出标签特征,然后根据标签的重要程度信息对标签进行筛选,从而基于筛选后标签对应的标签特征以及对象特征,预测对象针对标签的交互增益信息,并根据交互增益信息确定标签在内容交互系统中的需求程度,然后对内容标签集进行标签聚类处理,并在标签中筛选出与每一类标签簇匹配的话题标签以及关联的标签词组作为目标内容标签,进而根据标签簇中标签的交互需求信息计算标签簇的簇交互需求信息,并基于簇交互需求信息对目标内容标签进行排序,从而基于排序后的目标内容标签确定出需求程度较高的热点标签,从而生成与标签的需求程度匹配的目标内容,提高了内容生成准确性,进而提升了内容生成效率。
为了更好地实施以上方法,本发明实施例还提供一种内容生成装置,该内容生成装置可以集成在计算机设备中,该计算机设备可以为服务器。
例如,如图7所示,为本申请实施例提供的内容生成装置的结构示意图,该内容生成装置可以包括获取单元301、提取单元302、预测单元303、聚类单元304和生成单元305,如下:
获取单元301,用于获取内容交互系统中内容标签集,以及对象基于该内容标签集产生的交互属性信息,该内容标签集包括多个内容的标签;
提取单元302,用于在该标签中提取出标签特征,并在该交互属性信息中提取出该对象对应的对象特征;
预测单元303,用于基于该标签特征和该对象特征,预测该对象针对该标签的交互增益信息,并基于该交互增益信息确定该标签在该内容交互系统中的交互需求信息,该交互需求信息用于衡量该标签的需求程度;
聚类单元304,用于对该内容标签集进行标签聚类处理,得到至少一个标签簇以及该标签簇对应的簇中心,并计算该标签簇中每一标签与该簇中心的匹配程度;
生成单元305,用于根据该匹配程度在该标签中识别出目标内容标签,并根据该目标内容标签和该交互需求信息,生成与该标签的需求程度匹配的目标内容。
在一实施例中,该生成单元305,包括:
融合子单元,用于将该标签簇中标签的交互需求信息进行融合处理,得到该标签簇对应的簇交互需求信息;
排序子单元,用于基于该簇交互需求信息对该目标内容标签进行排序处理,得到排序后内容标签;
生成子单元,用于基于该排序后内容标签,生成与该标签的需求程度匹配的目标内容。
在一实施例中,该生成单元305,包括:
标签筛选子单元,用于根据该匹配程度在该标签簇中筛选出至少一个话题标签;
标签词组筛选子单元,用于获取匹配阈值,并基于该匹配程度和该匹配阈值,在该标签簇中识别出与该话题标签关联的标签词组,该标签词组包括多个标签;
目标内容标签确定子单元,用于将该话题标签以及该标签词组确定为目标内容标签。
在一实施例中,该预测单元303,包括:
标签筛选子单元,用于根据该标签在该内容中的共现频率,计算出该标签的重要程度信息,并根据该重要程度信息对该标签进行筛选,得到筛选后标签;
内容量预测子单元,用于基于该对象特征和该筛选后标签对应的标签特征,预测该对象针对该筛选后标签的对照交互内容量和响应交互内容量;
交互增益信息计算子单元,用于根据该对照交互内容量以及该响应交互内容量,计算该对象针对该标签的交互增益信息。
在一实施例中,该标签筛选子单元,包括:
共现频率统计模块,用于在该内容中统计出该标签之间的共现频率;
信息提取模块,用于在该共现频率中提取出该标签对应的表达充分程度信息以及表达覆盖程度信息;
重要程度信息计算模块,用于基于该表达充分程度信息以及该表达覆盖程度信息,计算出该标签的重要程度信息。
在一实施例中,该提取单元302,包括:
提取子单元,用于基于该标签在该内容中的共现频率,对该标签进行特征提取,得到该标签对应的标签共现特征;
相似标签确定子单元,用于根据该标签共现特征计算该标签之间的相似度,并根据该相似度对该标签进行分类,得到该标签对应的相似标签;
特征提取子单元,用于基于该相似标签,对该标签进行特征提取,得到标签特征。
在一实施例中,该特征提取子单元,包括:
归一化处理模块,用于将该标签与该相似标签之间的相似度进行归一化处理,得到该标签与该相似标签之间的转移概率;
标签采样处理模块,用于基于该共现频率对该标签进行标签采样处理,得到标签文本序列,并根据该标签文本序列中标签对应的转移概率对该相似标签进行标签采样处理,得到该标签文本序列对应的目标标签文本序列;
特征提取模块,用于基于该标签文本序列和该目标标签文本序列,对该标签进行特征提取,得到该标签对应的标签特征。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由以上可知,本申请实施例通过获取单元301获取内容交互系统中内容标签集,以及对象基于内容标签集产生的交互属性信息;提取单元302在标签中提取出标签特征,并在交互属性信息中提取出对象对应的对象特征;预测单元303基于标签特征和对象特征,预测对象针对标签的交互增益信息,并基于交互增益信息确定标签在内容交互系统中的交互需求信息,交互需求信息用于衡量标签的需求程度;聚类单元304对内容标签集进行标签聚类处理,得到至少一个标签簇以及标签簇对应的簇中心,并计算标签簇中每一标签与簇中心的匹配程度;生成单元305根据匹配程度在标签中识别出目标内容标签,并根据目标内容标签和交互需求信息,生成与标签的需求程度匹配的目标内容。以此,通过内容交互系统中内容标签集,以及对象基于内容标签集产生的交互属性信息来预测对象针对标签的交互增益信息,并根据交互增益信息确定标签在内容交互系统中的需求程度,然后对内容标签集进行标签聚类处理,并在标签中筛选出与每一类标签簇匹配的目标内容标签,进而根据目标内容标签以及交互需求信息确定出需求程度较高的热点标签,从而生成与标签的需求程度匹配的目标内容,提高了内容生成准确性,进而提升了内容生成效率。
本申请实施例还提供一种计算机设备,如图8所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,该计算机设备可以是服务器,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图8中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备的各种功能和处理数据。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及内容生成。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
计算机设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取内容交互系统中内容标签集,以及对象基于内容标签集产生的交互属性信息;在标签中提取出标签特征,并在交互属性信息中提取出对象对应的对象特征;基于标签特征和对象特征,预测对象针对标签的交互增益信息,并基于交互增益信息确定标签在内容交互系统中的交互需求信息,交互需求信息用于衡量标签的需求程度;对内容标签集进行标签聚类处理,得到至少一个标签簇以及标签簇对应的簇中心,并计算标签簇中每一标签与簇中心的匹配程度;根据匹配程度在标签中识别出目标内容标签,并根据目标内容标签和交互需求信息,生成与标签的需求程度匹配的目标内容。
以上各个操作的具体实施可参见前面的实施例,在此不作赘述。应当说明的是,本申请实施例提供的计算机设备与上文实施例中的适用于内容生成方法属于同一构思,其具体实现过程详见以上方法实施例,此处不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种内容生成方法中的步骤。例如,该指令可以执行如下步骤:
获取内容交互系统中内容标签集,以及对象基于内容标签集产生的交互属性信息;在标签中提取出标签特征,并在交互属性信息中提取出对象对应的对象特征;基于标签特征和对象特征,预测对象针对标签的交互增益信息,并基于交互增益信息确定标签在内容交互系统中的交互需求信息,交互需求信息用于衡量标签的需求程度;对内容标签集进行标签聚类处理,得到至少一个标签簇以及标签簇对应的簇中心,并计算标签簇中每一标签与簇中心的匹配程度;根据匹配程度在标签中识别出目标内容标签,并根据目标内容标签和交互需求信息,生成与标签的需求程度匹配的目标内容。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种内容生成方法中的步骤,因此,可以实现本申请实施例所提供的任一种内容生成方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
其中,根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例提供的各种可选实现方式中提供的方法。
以上对本申请实施例所提供的一种内容生成方法、装置、计算机可读存储介质和计算机设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种内容生成方法,其特征在于,包括:
获取内容交互系统中内容标签集,以及对象基于所述内容标签集产生的交互属性信息,所述内容标签集包括多个内容的标签;
在所述标签中提取出标签特征,并在所述交互属性信息中提取出所述对象对应的对象特征;
基于所述标签特征和所述对象特征,预测所述对象针对所述标签的交互增益信息,并基于所述交互增益信息确定所述标签在所述内容交互系统中的交互需求信息,所述交互需求信息用于衡量所述标签的需求程度;
对所述内容标签集进行标签聚类处理,得到至少一个标签簇以及所述标签簇对应的簇中心,并计算所述标签簇中每一标签与所述簇中心的匹配程度;
根据所述匹配程度在所述标签中识别出目标内容标签,并根据所述目标内容标签和所述交互需求信息,生成与所述标签的需求程度匹配的目标内容。
2.如权利要求1所述的内容生成方法,其特征在于,所述根据所述目标内容标签和所述交互需求信息,生成与所述标签的需求程度匹配的目标内容,包括:
将所述标签簇中标签的交互需求信息进行融合处理,得到所述标签簇对应的簇交互需求信息;
基于所述簇交互需求信息对所述目标内容标签进行排序处理,得到排序后内容标签;
基于所述排序后内容标签,生成与所述标签的需求程度匹配的目标内容。
3.如权利要求1所述的内容生成方法,其特征在于,所述根据所述匹配程度在所述标签中识别出目标内容标签,包括:
根据所述匹配程度在所述标签簇中筛选出至少一个话题标签;
获取匹配阈值,并基于所述匹配程度和所述匹配阈值,在所述标签簇中识别出与所述话题标签关联的标签词组,所述标签词组包括多个标签;
将所述话题标签以及所述标签词组确定为目标内容标签。
4.如权利要求1所述的内容生成方法,其特征在于,所述基于所述标签特征和所述对象特征,预测所述对象针对所述标签的交互增益信息,包括:
根据所述标签在所述内容中的共现频率,计算出所述标签的重要程度信息,并根据所述重要程度信息对所述标签进行筛选,得到筛选后标签;
基于所述对象特征和所述筛选后标签对应的标签特征,预测所述对象针对所述筛选后标签的对照交互内容量和响应交互内容量;
根据所述对照交互内容量以及所述响应交互内容量,计算所述对象针对所述标签的交互增益信息。
5.如权利要求4所述的内容生成方法,其特征在于,所述根据所述标签在所述内容中的共现频率,计算出所述标签的重要程度信息,包括:
在所述内容中统计出所述标签之间的共现频率;
在所述共现频率中提取出所述标签对应的表达充分程度信息以及表达覆盖程度信息;
基于所述表达充分程度信息以及所述表达覆盖程度信息,计算出所述标签的重要程度信息。
6.如权利要求1至5中任一项所述的内容生成方法,其特征在于,所述在所述标签中提取出标签特征,包括:
基于所述标签在所述内容中的共现频率,对所述标签进行特征提取,得到所述标签对应的标签共现特征;
根据所述标签共现特征计算所述标签之间的相似度,并根据所述相似度对所述标签进行分类,得到所述标签对应的相似标签;
基于所述相似标签,对所述标签进行特征提取,得到标签特征。
7.如权利要求6所述的内容生成方法,其特征在于,所述基于所述相似标签,对所述标签进行特征提取,得到标签特征,包括:
将所述标签与所述相似标签之间的相似度进行归一化处理,得到所述标签与所述相似标签之间的转移概率;
基于所述共现频率对所述标签进行标签采样处理,得到标签文本序列,并根据所述标签文本序列中标签对应的转移概率对所述相似标签进行标签采样处理,得到所述标签文本序列对应的目标标签文本序列;
基于所述标签文本序列和所述目标标签文本序列,对所述标签进行特征提取,得到所述标签对应的标签特征。
8.一种内容生成装置,其特征在于,包括:
获取单元,用于获取内容交互系统中内容标签集,以及对象基于所述内容标签集产生的交互属性信息,所述内容标签集包括多个内容的标签;
提取单元,用于在所述标签中提取出标签特征,并在所述交互属性信息中提取出所述对象对应的对象特征;
预测单元,用于基于所述标签特征和所述对象特征,预测所述对象针对所述标签的交互增益信息,并基于所述交互增益信息确定所述标签在所述内容交互系统中的交互需求信息,所述交互需求信息用于衡量所述标签的需求程度;
聚类单元,用于对所述内容标签集进行标签聚类处理,得到至少一个标签簇以及所述标签簇对应的簇中心,并计算所述标签簇中每一标签与所述簇中心的匹配程度;
生成单元,用于根据所述匹配程度在所述标签中识别出目标内容标签,并根据所述目标内容标签和所述交互需求信息,生成与所述标签的需求程度匹配的目标内容。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至7任一项所述的内容生成方法中的步骤。
10.一种计算机设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的内容生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211393974.1A CN116976281A (zh) | 2022-11-08 | 2022-11-08 | 内容生成方法、装置、计算机可读存储介质和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211393974.1A CN116976281A (zh) | 2022-11-08 | 2022-11-08 | 内容生成方法、装置、计算机可读存储介质和计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116976281A true CN116976281A (zh) | 2023-10-31 |
Family
ID=88473685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211393974.1A Pending CN116976281A (zh) | 2022-11-08 | 2022-11-08 | 内容生成方法、装置、计算机可读存储介质和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116976281A (zh) |
-
2022
- 2022-11-08 CN CN202211393974.1A patent/CN116976281A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112632385A (zh) | 课程推荐方法、装置、计算机设备及介质 | |
CN110163647B (zh) | 一种数据处理方法及装置 | |
CN110619051B (zh) | 问题语句分类方法、装置、电子设备及存储介质 | |
CN108090216B (zh) | 一种标签预测方法、装置及存储介质 | |
CN109471944A (zh) | 文本分类模型的训练方法、装置及可读存储介质 | |
CN112819023A (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN111563158B (zh) | 文本排序方法、排序装置、服务器和计算机可读存储介质 | |
CN113704389A (zh) | 一种数据评估方法、装置、计算机设备及存储介质 | |
CN113392920B (zh) | 生成作弊预测模型的方法、装置、设备、介质及程序产品 | |
CN114461783A (zh) | 关键词生成方法、装置、计算机设备、存储介质和产品 | |
CN107908649B (zh) | 一种文本分类的控制方法 | |
CN111767404B (zh) | 一种事件挖掘方法和装置 | |
CN113515593A (zh) | 基于聚类模型的话题检测方法、装置和计算机设备 | |
CN117195046A (zh) | 异常文本识别方法及相关设备 | |
CN115510331B (zh) | 一种基于闲置量聚合的共享资源匹配方法 | |
CN116955788A (zh) | 一种内容处理的方法、装置、设备、存储介质及程序产品 | |
CN116842936A (zh) | 关键词识别方法、装置、电子设备和计算机可读存储介质 | |
CN115952800A (zh) | 命名实体识别方法、装置、计算机设备及可读存储介质 | |
CN116976281A (zh) | 内容生成方法、装置、计算机可读存储介质和计算机设备 | |
CN113722484A (zh) | 基于深度学习的谣言检测方法、装置、设备及存储介质 | |
CN113821632A (zh) | 内容分类方法、装置、电子设备和计算机可读存储介质 | |
CN115712719A (zh) | 数据处理方法、装置、计算机可读存储介质和计算机设备 | |
CN113705253A (zh) | 一种机器翻译模型性能检测方法、以及相关设备 | |
CN113569091A (zh) | 视频数据的处理方法、装置 | |
CN116992031B (zh) | 数据处理方法、装置、电子设备、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |