CN116738968A

CN116738968A - 内容建联方法、装置、计算机设备和存储介质

Info

Publication number: CN116738968A
Application number: CN202311015971.9A
Authority: CN
Inventors: 李煜; 丑晓慧; 王玮
Original assignee: Ningbo Deepq Information Technology Co ltd
Current assignee: Ningbo Deepq Information Technology Co ltd
Priority date: 2023-08-14
Filing date: 2023-08-14
Publication date: 2023-09-12
Anticipated expiration: 2043-08-14
Also published as: CN116738968B

Abstract

本申请涉及一种内容建联方法、装置、计算机设备和存储介质。所述方法包括：获取资讯文本数据和产品服务文本描述数据，进行分词处理，得到文本数据集合；对所述文本数据集合中的资讯文本数据进行向量化，得到第一语义特征向量和第二语义特征向量；针对标签词，采用语义向量模型训练得到标签词对应的标签语义向量，以及标签语义向量列表；将资讯文本数据和产品服务文本描述数据对应的文本标签和标签语义向量存储在内存数据库中；在线检索时，通过查询资讯文本的文本标签对应的标签语义向量，得到相似文本列表，从相似文本列表选择最终建联的产品服务文本列表。采用本方法能够提高建联的准确性。

Description

内容建联方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种内容建联方法、装置、计算机设备和存储介质。

背景技术

内容-产品/服务建联是指在信息流推荐场景下，将资讯内容跟实际业务中的产品或服务相互关联，使得资讯内容与产品/服务之间形成有机的联系。产品/服务可以通过内容来宣传自己的特点和优势，而内容/服务也可以通过产品来传达自己的价值和意义。通过内容-产品/服务建联，可以提高产品的知名度和认可度，同时也可以提升内容的传播效果和影响力。有效的内容-产品/服务建联体系既可以提升资讯内容消费转化，也可以降低内容运营的复杂度。

目前，内容建联方法基本是通过标签把特定的内容与服务进行匹配关联，并没有考虑产品/服务实际的内容，从而导致内容建联的准确度不高，后续维护效率低下。

发明内容

基于此，有必要针对上述技术问题，提供一种能够内容建联方法、装置、计算机设备和存储介质。

一种内容建联方法，所述方法包括：

获取资讯文本数据和产品服务文本描述数据，对所述资讯文本数据和产品服务文本描述数据进行分词处理，得到文本数据集合；

对所述文本数据集合中的资讯文本数据进行向量化，得到所述资讯文本数据的标签对应的第一语义特征向量，对所述文本数据集合中的产品服务文本描述数据进行向量化，得到产品服务文本描述数据的标签对应的第二语义特征向量；

针对所述第一语义特征向量和所述第二语义特征向量对应的标签词，采用语义向量模型训练得到所述标签词对应的标签语义向量，以及标签语义向量列表；

将所述资讯文本数据和产品服务文本描述数据对应的文本标签和所述标签语义向量采用Key-Value方式存储在内存数据库中；

在线检索时，通过查询资讯文本的文本标签对应的标签语义向量，得到相似文本列表，从所述相似文本列表选择最终建联的资讯文本和/或产品服务文本列表。

在其中一个实施例中，所述资讯文本数据包括：标题、文本内容的文本数据，所述产品服务文本描述数据包括：名称、描述、所属行业、类型的描述数据。

在其中一个实施例中，还包括：获取所述标签词对应的多个所述第一语义特征向量和所述第二语义特征向量；通过Word2Vec方式对所述第一语义特征向量和所述第二语义特征向量进行训练，生成标签词的标签语义向量。

在其中一个实施例中，还包括：对内存数据库中存储的数据的标签变化进行全量数据更新。

在其中一个实施例中，还包括：提取待检索资讯文本的标签词，根据所述标签词从所述内存数据库中检索标签词对应的标签语义向量，得到标签列表；获取所述待检索资讯文本的语义向量，根据所述语义向量在所述内存数据库进行语义检索，得到标签相似度列表；根据所述标签列表和标签相似度列表，排序得到最终建联的资讯文本和/或产品服务文本列表。

在其中一个实施例中，所述待检索资讯文本包含多个标签词；还包括：提取待检索资讯文本的多个标签词，依次将每个所述标签词在所述内存数据库中检索标签词对应的标签语义向量，得到标签列表。

一种内容建联装置，所述装置包括：

文本处理模块，用于获取资讯文本数据和产品服务文本描述数据，对所述资讯文本数据和产品服务文本描述数据进行分词处理，得到文本数据集合；

语义向量化模块，用于对所述文本数据集合中的资讯文本数据进行向量化，得到所述资讯文本数据的标签对应的第一语义特征向量，对所述文本数据集合中的产品服务文本描述数据进行向量化，得到产品服务文本描述数据的标签对应的第二语义特征向量；

标签向量化模块，用于针对所述第一语义特征向量和所述第二语义特征向量对应的标签词，采用语义向量模型训练得到所述标签词对应的标签语义向量，以及标签语义向量列表；

内容建联模块，用于将所述资讯文本数据和产品服务文本描述数据对应的文本标签和所述标签语义向量采用Key-Value方式存储在内存数据库中；在线检索时，通过查询文本标签对应的标签语义向量，得到相似文本列表，从所述相似文本列表选择最终建联的资讯文本和/或产品服务文本列表。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述内容建联方法、装置、计算机设备和存储介质，通过对资讯文本数据和产品服务文本描述数据进行两个维度的关联，最终实现内容建立的精准度，第一个维度的建联是分别提取资讯文本数据和产品服务文本描述数据的语义向量，将资讯文本和产品/服务文本进行相同维度的转化，第二个维度是通过对文本的标签进行统一，在大量的文本数据支持下，每个标签对应的语义向量来自于不同的资讯文本和产品服务文本描述数据，通过上述语义向量综合来描述标签词，从而实现了资讯和产品服务第二维度的建联，将上述处理的数据存储在高性能内存数据库中，后续只需要通过输入资讯文本，就可以快速查询到产品服务文本列表，在满足精准度的同时，还提高了查询的效率。

附图说明

图1为一个实施例中内容建联方法的流程示意图；

图2为另一个实施例中内容建联方法的流程示意图；

图3为一个实施例中内容建联装置的结构框图；

图4为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种内容建联方法，包括以下步骤：

步骤102，获取资讯文本数据和产品服务文本描述数据，对资讯文本数据和产品服务文本描述数据进行分词处理，得到文本数据集合。

值得说明的是，资讯文本可以是新闻、数据、趋势、见解等，通常用于向公众传达重要的或有价值的信息。资讯文本可以出现在各种媒体平台上，包括新闻网站、报纸、杂志、电视新闻、社交媒体以及其他在线平台。因此可以通过爬虫方式获取到大量的资讯文本。而产品服务文本描述数据指的是一种用于介绍和说明产品或服务特点、功能、优势和使用方法的文本形式。它通常用于产品目录、网站、广告、宣传资料、销售文案等场合，旨在吸引潜在客户，促进销售，并向客户传递有关产品或服务的关键信息。

上述资讯文本数据和产品服务文本描述数据一般而言是短文本数据，通过特定的分词工具，可以实现上述文本的分词。

步骤104，对文本数据集合中的资讯文本数据进行向量化，得到资讯文本数据的标签对应的第一语义特征向量，对文本数据集合中的产品服务文本描述数据进行向量化，得到产品服务文本描述数据的标签对应的第二语义特征向量。

一般而言，通过分词处理后的文本，能够准确的表达出文本的语义，通过特定的语义模型可以输出文本的语义特征向量。

在本步骤中，可以使用Skip-gram模式对分词后的文本进行训练，skip-gram的原理是用句子中的一个词语作为输入，来预测它周围的上下文。

步骤106，针对第一语义特征向量和第二语义特征向量对应的标签词，采用语义向量模型训练得到标签词对应的标签语义向量，以及标签语义向量列表。

值得说明的是，一个文本可能包含多个标签词，也就是说，一个语义特征向量也可能包含多个标签词，通过构建标签词库，获取到标签词库中每个标签词对应的语义特征向量，通过语义特征向量训练，可以得到标签词对应的标签语义向量。可以知道的是，标签语义向量可以一定程度反映标签词的含义，并且这种关联性在训练为向量后可以被计算机识别。

步骤108，将资讯文本数据和产品服务文本描述数据对应的文本标签和标签语义向量采用Key-Value方式存储在内存数据库中。

步骤110，在线检索时，通过查询资讯文本的文本标签对应的标签语义向量，得到相似文本列表，从相似文本列表选择最终建联的产品服务文本列表。

上述内容建联方法，通过对资讯文本数据和产品服务文本描述数据进行两个维度的关联，最终实现内容建立的精准度，第一个维度的建联是分别提取资讯文本数据和产品服务文本描述数据的语义向量，将资讯文本和产品/服务文本进行相同维度的转化，第二个维度是通过对文本的标签进行统一，在大量的文本数据支持下，每个标签对应的语义向量来自于不同的资讯文本和产品服务文本描述数据，通过上述语义向量综合来描述标签词，从而实现了资讯和产品服务第二维度的建联，将上述处理的数据存储在高性能内存数据库中，后续只需要通过输入资讯文本，就可以快速查询到产品服务文本列表，在满足精准度的同时，还提高了查询的效率。

在其中一个实施例中，资讯文本数据包括：标题、文本内容的文本数据，所述产品服务文本描述数据包括：名称、描述、所属行业、类型的描述数据。由于上述数据的组成结构是不同的，无法进行直接处理，需要进行分词并语义化后，才能进行相同维度的操作。

对于分词操作，可以利用基于统计的分词方法，使用分词词典来对文本进行字符串匹配分词的同时，使用隐马尔科夫模型识别一些新词，对短文本进行分割。这里分词工具可以是jieba、Ansj、HanNLP等分词工具，各分词器会导入领域内自定义特征词库，用于提升分词器在领域内的分词准确率。

在其中一个实施例中，获取标签词对应的多个第一语义特征向量和第二语义特征向量；通过Word2Vec方式对第一语义特征向量和第二语义特征向量进行训练，生成标签词的标签语义向量。

具体的，除了Word2Vec方式，还可以采用Glove词向量表示方法，BERT词向量表示方法等。

在其中一个实施例中，在将数据存储至内存数据库之后，还需要对内存数据库中存储的数据的标签变化进行全量数据更新。

具体的，将文本标签、产品服务文本描述数据的标签生成的标签语义向量以Key-Value对的方式存储到内存数据库中，其中key为文本、产品/服务的标签ID，Value为标签语义向量。同时标签ID和标签也会以Key-Value的方式存储到内存数据库中。

在其中一个实施例中，提取待检索资讯文本的标签词，根据标签词从内存数据库中检索标签词对应的标签语义向量，得到标签列表；获取待检索资讯文本的语义向量，根据语义向量在内存数据库进行语义检索，得到标签相似度列表；根据标签列表和标签相似度列表，排序得到最终建联的产品服务文本列表。

本实施例中，资讯文本可以获取得到标签词，因此根据该标签词可以从内存数据库中检索得到标签语义向量，从而得到标签列表，另外，根据待检索资讯文本的语义向量，根据语义向量在内存数据库进行语义检索，可以得到相近的标签语义向量，从而综合相似度进行排序，可以得到最终的产品服务文本列表。

值得说明的是，资讯文本的标签词可能查询不到标签语义向量，说明该标签词为新的标签词，因此可以更新至内存数据库中。

在其中一个实施例中，待检索资讯文本包含多个标签词；提取待检索资讯文本的多个标签词，依次将每个标签词在所述内存数据库中检索标签词对应的标签语义向量，得到标签列表。

具体的，首先根据资讯文本打出的标签词，到内存数据库中搜索标签词对应的标签语义向量，如果该标签词查询不到标签语义向量，则会直接调用语义向量模型获取对应的向量，考虑到模型调用的性能问题，该标签语义向量也会同步更新至内存数据库。一条资讯可以有若干个标签词，对应的可以获取到若干个标签语义向量。然后通过向量检索引擎，输入资讯文本的语义向量，通过近邻搜索得到产品/服务的标签ID，以及对应的相似度值。输出的产品/服务的标签ID通过查询内存数据库得到产品/服务的标签列表，再根据产品/服务的标签列表-产品/服务的倒排索引，最后根据近邻搜索返回的相似度值对产品/服务进行排序，如果某个产品/服务存在多个产品/服务标签，则使用加权平均的方式计算相似度值。

如图2所示，为一个实施例中内容建联方法的流程图，主要包含两个部分：

离线部分是使用资讯文本、产品/服务属性画像数据训练词向量模型。资讯文本主要包括资讯的标题，正文等文本内容。产品/服务属性画像主要包括名称、描述、标签（所属行业、类型等）等文本描述。

然后将资讯文本和产品/服务抽取出来的标签进行向量化处理，即调用词向量模型，生成对应的标签语义向量。

最后，将生成的标签语义向量、标签等信息实时存入到内存数据库（如redis）中，存储格式为json，key为标签ID，value为标签对应的标签语义向量。为了提升查询效率，降低后期维护标签的成本，标签和标签ID的映射关系也存储到内存数据库（如redis）中。同时也会将产品/服务的标签ID和对应的标签语义向量实时保存到向量检索数据库引擎（如faiss）中，用于通过相似度计算的方式进行近似标签的召回。

在线部分，当一条资讯文本进来后，会根据抽取的文本标签到内存数据库中查询对应的文本标签向量，获取到文本标签向量后通过向量检索引擎，通过相似度计算召回近似的产品/服务标签ID，最后通过产品/服务标签ID和产品/服务标签的映射以及产品/服务-产品/服务标签的倒排索引，返回最终的产品/服务列表。

例如，一条资讯中的标签包含“茅台”，通过标签向量相似度计算，可以召回带有“白酒”相关标签的购物优惠券、理财/基金产品。而相比实际运营过程中则需要人工去配置“茅台”和“白酒”的映射规则。提升了运营效率。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图3所示，提供了一种内容建联装置，包括：文本处理模块302、语义向量化模块304、标签向量化模块306和内容建联模块308，其中：

文本处理模块302，用于获取资讯文本数据和产品服务文本描述数据，对所述资讯文本数据和产品服务文本描述数据进行分词处理，得到文本数据集合；

语义向量化模块304，用于对所述文本数据集合中的资讯文本数据进行向量化，得到所述资讯文本数据的标签对应的第一语义特征向量，对所述文本数据集合中的产品服务文本描述数据进行向量化，得到产品服务文本描述数据的标签对应的第二语义特征向量；

标签向量化模块306，用于针对所述第一语义特征向量和所述第二语义特征向量对应的标签词，采用语义向量模型训练得到所述标签词对应的标签语义向量，以及标签语义向量列表；

内容建联模块308，用于将所述资讯文本数据和产品服务文本描述数据对应的文本标签和所述标签语义向量采用Key-Value方式存储在内存数据库中；在线检索时，通过查询文本标签对应的标签语义向量，得到相似文本列表，从所述相似文本列表选择最终建联的资讯文本和/或产品服务文本列表。

在其中一个实施例中，标签向量化模块306还用于获取所述标签词对应的多个所述第一语义特征向量和所述第二语义特征向量；通过Word2Vec方式对所述第一语义特征向量和所述第二语义特征向量进行训练，生成标签词的标签语义向量。

在其中一个实施例中，内容建联模块308还用于对内存数据库中存储的数据的标签变化进行全量数据更新。

在其中一个实施例中，内容建联模块308还用于提取待检索资讯文本的标签词，根据所述标签词从所述内存数据库中检索标签词对应的标签语义向量，得到标签列表；获取所述待检索资讯文本的语义向量，根据所述语义向量在所述内存数据库进行语义检索，得到标签相似度列表；根据所述标签列表和标签相似度列表，排序得到最终建联的产品服务文本列表。

在其中一个实施例中，内容建联模块308还用于提取待检索资讯文本的多个标签词，依次将每个所述标签词在所述内存数据库中检索标签词对应的标签语义向量，得到标签列表。

关于内容建联装置的具体限定可以参见上文中对于内容建联方法的限定，在此不再赘述。上述内容建联装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储标签语义向量、标签词、ID等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种内容建联方法。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述实施例中方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种内容建联方法，其特征在于，所述方法包括：

在线检索时，通过查询资讯文本的文本标签对应的标签语义向量，得到相似文本列表，从所述相似文本列表选择最终建联的产品服务文本列表。

2.根据权利要求1所述的方法，其特征在于，所述资讯文本数据包括：标题、文本内容的文本数据，所述产品服务文本描述数据包括：名称、描述、所属行业、类型的描述数据。

3.根据权利要求1所述的方法，其特征在于，采用语义向量模型训练得到所述标签词对应的标签语义向量，包括：

获取所述标签词对应的多个所述第一语义特征向量和所述第二语义特征向量；

通过Word2Vec方式对所述第一语义特征向量和所述第二语义特征向量进行训练，生成标签词的标签语义向量。

4.根据权利要求1所述的方法，其特征在于，在将所述资讯文本数据和产品服务文本描述数据对应的文本标签和所述标签语义向量采用Key-Value方式存储在内存数据库中之后，所述方法还包括：

对内存数据库中存储的数据的标签变化进行全量数据更新。

5.根据权利要求1至4任一项所述的方法，其特征在于，通过查询文本标签对应的标签语义向量，得到多个相似的文本标签，从所述相似文本列表选择最终建联的产品服务文本列表，包括：

提取待检索资讯文本的标签词，根据所述标签词从所述内存数据库中检索标签词对应的标签语义向量，得到标签列表；

获取所述待检索资讯文本的语义向量，根据所述语义向量在所述内存数据库进行语义检索，得到标签相似度列表；

根据所述标签列表和标签相似度列表，排序得到最终建联的产品服务文本列表。

6.根据权利要求5所述的方法，其特征在于，所述待检索资讯文本包含多个标签词；

所述提取待检索资讯文本的标签词，根据所述标签词从所述内存数据库中检索标签词对应的标签语义向量，得到标签列表，包括：

提取待检索资讯文本的多个标签词，依次将每个所述标签词在所述内存数据库中检索标签词对应的标签语义向量，得到标签列表。

7.一种内容建联装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述资讯文本数据包括：标题、文本内容的文本数据，所述产品服务文本描述数据包括：名称、描述、所属行业、类型的描述数据。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。