CN116992031B - 数据处理方法、装置、电子设备、存储介质及程序产品 - Google Patents

数据处理方法、装置、电子设备、存储介质及程序产品 Download PDF

Info

Publication number
CN116992031B
CN116992031B CN202311094999.6A CN202311094999A CN116992031B CN 116992031 B CN116992031 B CN 116992031B CN 202311094999 A CN202311094999 A CN 202311094999A CN 116992031 B CN116992031 B CN 116992031B
Authority
CN
China
Prior art keywords
tag
label
text
content
description
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311094999.6A
Other languages
English (en)
Other versions
CN116992031A (zh
Inventor
李明达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202311094999.6A priority Critical patent/CN116992031B/zh
Publication of CN116992031A publication Critical patent/CN116992031A/zh
Application granted granted Critical
Publication of CN116992031B publication Critical patent/CN116992031B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种数据处理方法、装置、电子设备、存储介质及程序产品,可以应用于云技术、人工智能、智慧交通、车联网等各种场景;本申请可以获取待处理数据,待处理数据包括标签集合中每一标签对应的内容文本和标签描述文本;在内容文本中识别出标签的标签类型,得到标签的参考类型;分别对内容文本和标签描述文本进行特征提取,得到内容文本对应的内容文本特征和标签描述文本对应的描述文本特征;根据内容文本特征和描述文本特征,在标签集合中筛选出每一标签对应的至少一个关联标签,得到每一标签对应的关联标签集合;根据参考类型,确定标签与对应的关联标签集合中每一关联标签之间的标签关系。本申请可以提高标签关系的生成效率。

Description

数据处理方法、装置、电子设备、存储介质及程序产品
技术领域
本申请涉及数据处理技术领域,具体涉及一种数据处理方法、装置、电子设备、存储介质及程序产品,该存储介质为计算机可读存储介质,该程序产品为计算机程序产品。
背景技术
在很多场景中会存在需要使用到标签来区分不同内容之间的内容关系的情况,例如,内容推荐场景,以及内容运营场景等等。其中,对于内容关系的确定,需要先确定标签之间的标签关系,再基于标签关系区分内容关系。
目前确定标签关系的方式一般是:通过开发人员规划出标签的类型,然后由开发人员根据自己的知识储备和理解,对所有的标签进行类型的划分。接着,开发人员再构建不同标签之间的标签关系,以便于基于标签关系来区分不同内容之间的内容关系。但是,由于标签关系是通过人工构建的,这样会导致难以快速地生成标签关系。
综上,目前存在标签关系的生成效率较低的问题。
发明内容
本申请实施例提供一种数据处理方法、装置、电子设备、存储介质及程序产品,能够提高标签关系的生成效率。
一种数据处理方法,包括:
获取待处理数据,待处理数据包括标签集合中每一标签对应的内容文本和标签描述文本,内容文本包括标签的文本;
在内容文本中识别出标签的标签类型,得到标签的参考类型;
分别对内容文本和标签描述文本进行特征提取,得到内容文本对应的内容文本特征和标签描述文本对应的描述文本特征;
根据内容文本特征和描述文本特征,在标签集合中筛选出每一标签对应的至少一个关联标签,得到每一标签对应的关联标签集合;
根据参考类型,确定标签与对应的关联标签集合中每一关联标签之间的标签关系。
相应地,本申请实施例提供一种数据处理装置,包括:
获取单元,可以用于获取待处理数据,待处理数据包括标签集合中每一标签对应的内容文本和标签描述文本,内容文本包括标签的文本;
识别单元,可以用于在内容文本中识别出标签的标签类型,得到标签的参考类型;
提取单元,可以用于分别对内容文本和标签描述文本进行特征提取,得到内容文本对应的内容文本特征和标签描述文本对应的描述文本特征;
筛选单元,可以用于根据内容文本特征和描述文本特征,在标签集合中筛选出每一标签对应的至少一个关联标签,得到每一标签对应的关联标签集合;
确定单元,可以用于根据参考类型,确定标签与对应的关联标签集合中每一关联标签之间的标签关系。
可选地,在一些实施例中,筛选单元,具体可以用于基于描述文本特征,在标签集合中筛选出每一标签对应的至少一个候选标签,得到每一标签对应的描述标签集合;计算内容文本特征之间的内容特征相似度,并基于内容特征相似度,在标签集合中筛选出每一标签对应的至少一个候选标签,得到每一标签对应的第一内容标签集合;将描述标签集合和第一内容标签集合作为关联标签集合。
可选地,在一些实施例中,筛选单元,具体可以用于计算描述文本特征之间的特征相似度,得到描述特征相似度;基于描述特征相似度,在标签集合中筛选出每一标签对应的至少一个候选标签,得到每一标签对应的初始描述标签集合;基于描述特征相似度,对标签集合中的标签进行多次聚类,并根据聚类结果,在标签集合中筛选出每一标签对应的至少一个候选标签,得到每一标签对应的聚类标签集合;将初始描述标签集合和聚类标签集合作为描述标签集合。
可选地,在一些实施例中,确定单元,具体可以用于在标签集合中确定出目标标签,并在聚类标签集合中筛选出目标标签对应的至少一个候选关联标签,候选关联标签包括在多次聚类中与目标标签均为不同类别的标签;基于参考类型、候选关联标签、聚类标签集合、初始描述标签集合和第一内容标签集合,确定目标标签与对应的关联标签集合中每一关联标签之间的标签关系;返回执行在标签集合中确定出目标标签的步骤,直至标签集合中的标签均为目标标签时为止,得到每一标签与对应的关联标签集合中每一关联标签之间的标签关系。
可选地,在一些实施例中,确定单元,具体可以用于基于参考类型,将初始描述标签集合和第一内容标签集合进行对比,以得到目标标签与当前关联标签集合中的关联标签之间的标签关系,当前关联标签集合包括描述标签集合和第一内容标签集合;在标签集合中筛选出候选关联标签对应的至少一个标签,得到候选关联标签对应的第二内容标签集合,并将第一内容标签集合和第二内容标签集合进行对比,以得到目标标签与候选关联标签之间的标签关系;将聚类标签集合中除候选关联标签以外的其他标签与第一内容标签集合进行对比,以得到目标标签与其他标签之间的标签关系。
可选地,在一些实施例中,确定单元,具体可以用于在初始描述标签集合和第一内容标签集合中筛选出至少一个相同的标签,得到待处理标签;基于参考类型,确定目标标签和待处理标签之间的标签关系;在当前关联标签集合中提取出除候选标签以外的剩余标签,并确定目标标签与待处理标签之间的标签关系为相似关系。
可选地,在一些实施例中,确定单元,具体可以用于在参考类型中识别出目标标签对应的目标参考类型和待处理标签对应的候选参考类型;当目标参考类型与候选参考类型相同时,确定目标标签和待处理标签的标签关系为相同关系;当目标参考类型与候选参考类型不同时,确定目标标签与待处理标签的标签关系为相似关系。
可选地,在一些实施例中,确定单元,具体可以用于当第一内容标签集合和第二内容标签集合中不存在相同的标签时,确定目标标签与候选关联标签之间的标签关系为不同关系;当第一内容标签集合和第二内容标签集合中存在相同标签时,确定目标标签与候选关联标签之间的标签关系为相似关系。
可选地,在一些实施例中,确定单元,具体可以用于在聚类标签集合中筛选出除候选关联标签以外的至少一个标签,得到其他标签;当其他标签不属于第一内容标签集合中的标签时,确定目标标签与其他标签之间的标签关系为相似关系。
可选地,在一些实施例中,识别单元,具体可以用于获取内容文本对应的类型预测指示文本,并将内容文本和类型预测指示文本进行融合,得到融合后文本;基于融合后文本,预测标签的标签类型,得到标签的参考类型。
可选地,在一些实施例中,类型预测指示文本包括背景文本、类型提示文本和格式提示文本;识别单元,具体可以用于将背景文本和内容文本进行融合,得到初始融合后文本;获取文本拼接参数,并基于文本拼接参数,对初始融合后文本、类型提示文本和格式提示文本进行拼接,以得到融合后文本。
可选地,在一些实施例中,获取单元,具体可以用于获取标签集合中每一标签对应的描述指示文本,并基于描述指示文本预测标签的标签描述文本;获取每一标签对应的内容文本,并根据标签描述文本和内容文本,生成待处理数据。
可选地,在一些实施例中,获取单元,具体可以用于获取标签集合中每一标签对应的标签介绍文本和描述提示文本;对标签介绍文本和描述提示文本进行关联,以得到标签对应的描述指示文本。
此外,本申请实施例还提供一种电子设备,包括处理器和存储器,存储器存储有应用程序,处理器用于运行存储器内的应用程序实现本发明实施例提供的任一种数据处理方法。
此外,本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序适于处理器进行加载,以执行本申请实施例提供的任一种数据处理方法。
此外,本申请实施例还提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现本申请实施例所提供的任一种数据处理方法。
本申请可以获取待处理数据,待处理数据包括标签集合中每一标签对应的内容文本和标签描述文本,内容文本包括标签的文本;在内容文本中识别出标签的标签类型,得到标签的参考类型;分别对内容文本和标签描述文本进行特征提取,得到内容文本对应的内容文本特征和标签描述文本对应的描述文本特征;根据内容文本特征和描述文本特征,在标签集合中筛选出每一标签对应的至少一个关联标签,得到每一标签对应的关联标签集合;根据参考类型,确定标签与对应的关联标签集合中每一关联标签之间的标签关系。由于本申请可以基于标签的内容文本,获取到标签的参考类型,以及基于内容文本对应的内容文本特征和标签描述文本的描述文本特征,获取每一标签对应的关联标签集合,从而可以基于参考类型,快速地确定标签与关联标签集合中每一关联标签之间的标签关系,如此提高标签关系的生成效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的数据处理方法的场景示意图;
图2是本申请实施例提供的数据处理方法的流程示意一图;
图3是本申请实施例提供的在内容文本中识别出标签的标签类型,得到标签的参考类型的流程示意图;
图4是本申请实施例提供的特征提取的示意图;
图5是本申请实施例提供的获取关联标签集合的示意图;
图6是本申请实施例提供的数据处理方法的流程示意二图;
图7是本申请实施例提供的数据处理装置的结构示意图;
图8是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种数据处理方法、装置、电子设备和计算机可读存储介质。其中,该数据处理装置可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备。
其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
例如,参见图1,以数据处理装置集成在电子设备中为例,电子设备可以获取待处理数据,待处理数据包括标签集合中每一标签对应的内容文本和标签描述文本,内容文本包括标签的文本;在内容文本中识别出标签的标签类型,得到标签的参考类型;分别对内容文本和标签描述文本进行特征提取,得到内容文本对应的内容文本特征和标签描述文本对应的描述文本特征;根据内容文本特征和描述文本特征,在标签集合中筛选出每一标签对应的至少一个关联标签,得到每一标签对应的关联标签集合;根据参考类型,确定标签与对应的关联标签集合中每一关联标签之间的标签关系。
其中,本申请实施例可以识别到标签集合中标签的参考类型,以及筛选出标签对应的关联标签集合,从而可以基于参考类别,快速地生成标签与关联标签集合中关联标签之间的标签关系。
其中,本申请的数据处理方法涉及人工智能(Artificial Intelligence, AI)。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从数据处理装置的角度进行描述,该数据处理装置具体可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备;其中,该终端可以包括平板电脑、笔记本电脑、以及个人计算机(PC,Personal Computer)、可穿戴设备、虚拟现实设备或其他可以获取数据的智能设备等设备。
如图2所示,该数据处理方法的具体流程如步骤S201至步骤S205:
S201、获取待处理数据。
其中,待处理数据包括标签集合中每一标签对应的内容文本和标签描述文本。内容文本包括标签的文本。
其中,标签可以用于对内容进行标注。内容可以包括但不限于图像、文本、视频及图像、文本、视频三者的结合。
其中,内容文本可以是指包括标签和标签的相关内容的文本。每一标签可以具有对应的至少一个内容文本。比如,在内容文本具有多个的情况下,如内容文本可以包括第一内容文本、第二内容文本和第三内容文本,当标签为“篮球”时,第一内容文本可以为“运动员在篮球馆打篮球”,第二内容文本可以为“目前正在举办的运动赛事是篮球比赛”,第三内容文本可以为“篮球是一种很多人喜欢的球类运动”。
其中,标签描述文本可以是指用于对标签作描述的文本。例如,当标签为“篮球”时,标签描述文本可以为“篮球,是以手为中心的身体对抗性体育运动,是运动会核心比赛项目”。每一标签可以具有对应的至少一个标签描述文本。
在步骤S201中,“获取待处理数据”的方式可以有多种,例如可以如下述步骤S1至步骤S2:
S1、获取标签集合中每一标签对应的描述指示文本,并基于描述指示文本预测标签的标签描述文本。
其中,描述指示文本可以是指用于指示生成标签描述文本的文本。例如,当标签为“篮球”时,描述指示文本可以为“篮球是一种体育运动,请具体描述下‘篮球’”。其中,每一标签可以具有对应的至少一个描述指示文本。
在步骤S1中,“获取标签集合中每一标签对应的描述指示文本”的方式可以有多种,例如,可以基于标签集合中每一标签对应的标签标识,在数据库中,提取标签对应的描述指示文本。其中,数据库可以为位于云端的数据库,也可以为电子设备本地的数据库。又例如,通过内部网络,向存储服务器发送文本获取请求,以便于基于文本获取请求,从存储服务器中提取标签对应的描述指示文本。其中,内部网络可以是指局域网,电子设备与存储服务器分别为内部网络中的节点,此处可以理解的是,电子设备通过内部网络向存储服务器请求描述指示文本,可以提高对描述指示文本的获取效率。又例如,可以获取标签集合中每一标签对应的标签介绍文本和描述提示文本;对标签介绍文本和描述提示文本进行关联,以得到标签对应的描述指示文本。
其中,标签介绍文本可以是指用于对标签进行介绍的文本。描述提示文本可以是指用于提示对标签进行描述的文本。
其中,“获取标签集合中每一标签对应的标签介绍文本和描述提示文本”的方式可以为:基于标签集合中标签的标签标识,从数据库或存储服务器中提取每一标签对应的标签介绍文本和描述提示文本。或者,显示文本获取页面,文本获取页面包括标签集合中标签对应的文本输入控件;响应于针对文本输入控件的输入操作,生成标签对应的标签介绍文本和描述提示文本。
其中,“对标签介绍文本和描述提示文本进行关联,以得到标签对应的描述指示文本”的方式可以为:获取拼接参数,并根据拼接参数,对标签介绍文本和描述提示文本进行拼接,得到拼接后文本;将拼接后文本作为标签对应的描述指示文本。
在步骤S1中,“基于描述指示文本预测标签的标签描述文本”的方式可以为:采用训练后文本预测模型,基于描述指示文本预测标签的标签描述文本。其中,训练后文本预测模型可以为大模型,大模型可以是指具有数百万或数十亿个参数的深度神经网络模型,这种模型经过专门的训练过程,能够对大规模数据进行复杂的处理和任务处理。大模型可以如ChatGPT,其中,ChatGPT具体可以为ChatGPT3.5或ChatGPT4。
此处以具体例子对标签描述文本的生成进行阐述。例如,本申请可以预先使用大量的语料对待训练文本预测模型进行训练,得到训练后文本预测模型,使得训练后文本预测模型具有丰富的知识,能够准确回答一些知识类的文本。
基于此,本申请可以先设置标签介绍文本,如“背景介绍:${标签A}是一个常见的体育类标签,常在体育类的内容中出现。背景介绍完毕。”然后,设置描述提示文本,如“请介绍一下${标签A}”。基于此,本申请可以基于拼接参数,对标签介绍文本和描述提示文本进行拼接,所得到的描述指示文本例如可以为“背景介绍:${标签A}是一个常见的体育类标签,常在体育类的内容中出现。背景介绍完毕。请介绍一下${标签A}”。
然后,本申请可以利用采用训练后文本预测模型,基于描述指示文本预测标签的标签描述文本,即可得到标签A的标签描述文本。
S2、获取每一标签对应的内容文本,并根据标签描述文本和内容文本,生成待处理数据。
在步骤S2中,“获取每一标签对应的内容文本”的方式可以参见上述“获取标签集合中每一标签对应的标签介绍文本和描述提示文本”的方式,此处不再赘述。
在步骤S2中,“根据标签描述文本和内容文本,生成待处理数据”的方式可以为:将标签和标签对应的标签描述文本和内容文本进行绑定,以生成待处理数据。
又例如,在步骤S201中,“获取待处理数据”的方式可以为:向内部网络对应的存储服务器发送数据请求,以便基于数据请求在存储服务器中查找待处理数据。
在步骤S201之前,本申请还可以先获取标签集合,以便于后续在步骤201中可以获取到待处理数据。例如,本申请可以获取预设标签集合类型;在预设标签库中查询预设标签集合类型对应的目标标签集合,并将目标标签集合作为标签集合。或者,获取预设标签集合类型;根据预设标签集合类型,预测预设标签集合类型对应的标签,并根据预设标签集合类型对应的标签,生成标签集合。
其中,预设标签集合类型可以是预先设置的类型。例如,预设标签集合类型可以表征为一个大类,在该大类下,存在很多不同标签类型的标签。
其中,预设标签库可以位于电子设备本地或者存储服务器。本申请可以预先从线上获取标签,然后,将标签存储于预设标签库中。
S202、在内容文本中识别出标签的标签类型,得到标签的参考类型。
本申请在获取到待处理数据的内容文本之后,便可以基于内容文本获取到标签的参考类型。所谓参考类型可以是指用于对标签关系的确定作辅助的类型。
在步骤S202,“在内容文本中识别出标签的标签类型,得到标签的参考类型”的方式可以如步骤S21至步骤S22所示:
S21、获取内容文本对应的类型预测指示文本,并将内容文本和类型预测指示文本进行融合,得到融合后文本。
其中,类型预测指示文本可以是指用于对标签的标签类型的预测作指示的文本。类型预测指示文本可以包括背景文本、类型提示文本和格式提示文本。所谓背景文本可以是指标签的背景文本。所谓类型提示文本可以是指提示标签可能所属的标签类型的文本。所谓格式提示文本可以是指对预测到的标签类型的输出格式进行提示的文本。
在步骤S21中,“获取内容文本对应的类型预测指示文本”的方式可以为:获取指示文本输入页面,指示文本页面包括文本输入区域和确认控件;响应于针对文本输入区域的输入操作,生成类型预测指示文本;响应于针对确认控件的点击操作,获取类型预测指示文本。
在步骤S21中,“获取内容文本对应的类型预测指示文本”的方式还可以为:分别获取内容文本对应的背景文本、类型提示文本和格式提示文本;根据背景文本、类型提示文本和格式提示文本,构建类型预测指示文本。
其中,“获取内容文本对应的类型提示文本”的方式可以为:获取标签集合的集合类型,并确定集合类型对应的标签类型文本;获取初始类型提示文本,并将初始类型提示文本与标签类型文本进行拼接,得到内容文本对应的类型提示文本。
其中,集合类型可以为标签集合携带的类型。初始类型提示文本可以为用于提示标签可能所属的标签类型的文本。
其中,“确定集合类型对应的标签类型文本”的方式可以为:采用类型文本预测模型基于集合类型预测出标签类型文本。例如,类型文本预测模型可以为训练完成的大模型,如ChatGPT。
其中,“获取初始类型提示文本”的方式可以为:获取文本输入页面,文本输入页面包括提示文本输入控件;响应针对提示文本输入控件的输入操作,生成初始类型提示文本。
在步骤S21中,“将内容文本和类型预测指示文本进行融合,得到融合后文本”的方式可以为:将背景文本和内容文本进行融合,得到初始融合后文本;获取文本拼接参数,并基于文本拼接参数,对初始融合后文本、类型提示文本和格式提示文本进行拼接,以得到融合后文本。
其中,步骤“将背景文本和内容文本进行融合,得到初始融合后文本”的方式可以为:将背景文本和内容文本进行拼接,得到拼接后内容文本,并将拼接后内容文本作为初始融合后文本。
其中,本申请可以基于文本拼接参数,使初始融合后文本、类型提示文本和格式提示文本按照文本拼接参数对应的拼接规则进行拼接,得到拼接后类型文本;将拼接后类型文本作为融合后文本。
S22、基于融合后文本,预测标签的标签类型,得到标签的参考类型。
在步骤S22中,“基于融合后文本,预测标签的标签类型,得到标签的参考类型”的方式可以为:采用类型预测模型,对融合后文本进行特征提取,得到融合后文本特征;采用类型预测模型基于融合后文本特征进行类型预测,得到标签的标签类型;根据标签类型,确定标签的参考类型。
其中,类型预测模型可以对待训练类型预测模型进行训练得到的神经网络模型。类型预测模型可以为大模型。类型预测模型具体可以为ChatGPT,具体例如为ChatGPT3.5或ChatGPT4。
其中,对于标签的参考类型,本申请可以将标签类型作为参考类型。
对于步骤S21和步骤S22,此处以步骤S211至步骤S216进一步阐述,具体如图3所示:
S211、获取标签集合的集合类型,并确定集合类型对应的标签类型文本。
S212、获取初始类型提示文本,并将初始类型提示文本与标签类型文本进行拼接,得到内容文本对应的类型提示文本。
S213、获取内容文本对应的背景文本,以及内容文本对应的格式提示文本。
S214、根据背景文本、类型提示文本和格式提示文本,构建类型预测指示文本。
S215、将内容文本和类型预测指示文本进行融合,得到融合后文本。
S216、采用大模型基于融合后文本,预测标签的标签类型,得到标签的参考类型。
针对步骤S211至步骤S216,此处以具体例子进行阐述。例如,当标签集合的集合类型为体育类型时,确定集合类型对应的标签类型文本包括人名、运动队名、运动项目、运动器材、运动赛事、运动场馆、运动媒体、运动术语、运动机构、运动品牌、其他。当标签为标签A时,初始类型提示文本可以为“请回答,这段介绍中的${标签A}最可能分类哪一个”。
在获取到初始类型提示文本后,可以将初始类型提示文本与标签类型文本进行拼接,得到类型提示文本例如可以为“请回答,这段介绍中的${标签A}最可能分类为人名、运动队名、运动项目、运动器材、运动赛事、运动场馆、运动媒体、运动术语、运动机构、运动品牌、其他中的哪一个”。
然后,本申请可以获取内容文本对应的背景文本如“背景介绍”、“背景介绍完毕”等,以及内容文本对应的格式提示文本如“请只用json格式回答”。本申请在此处引入格式提示文本,可以使得获取到的标签的标签类型更加规范,以便于后续快速地生成标签关系。此处可以理解的是,本申请引入背景文本可以便于大模型理解标签A的含义。
然后,本申请可以根据背景文本、类型提示文本和格式提示文本,构建类型预测指示文本。将内容文本如:${自然语句S},和类型预测指示文本进行融合,得到融合后文本。例如,融合后文本可以为“背景介绍:${自然语句S}。背景介绍完毕。请回答,这段介绍中的${标签A}最可能分类为人名、运动队名、运动项目、运动器材、运动赛事、运动场馆、运动媒体、运动术语、运动机构、运动品牌、其他中的哪一个, 请只用json格式回答?”。
然后,本申请可以采用大模型ChatGPT基于融合后文本,预测标签的标签类型,得到标签的参考类型。
此处可以理解的是,当标签对应多个内容文本时,本申请对每一个内容文本执行上述步骤S211至步骤S216,得到标签在每一内容文本下对应的标签类型;基于每一内容文本下对应的标签类型,确定标签的参考类型。其中,本申请可以将出现次数最多的标签类型,作为标签的参考类型。
S203、分别对内容文本和标签描述文本进行特征提取,得到内容文本对应的内容文本特征和标签描述文本对应的描述文本特征。
此处可以理解的是,标签本身的信息量比较少,因此,本申请采用长文本的内容文本和标签描述文本来增加信息量,以便于提取到优质的特征。
在步骤S203中,“分别对内容文本和标签描述文本进行特征提取,得到内容文本对应的内容文本特征和标签描述文本对应的描述文本特征”的方式可以为:采用同一特征提取模型分别对内容文本和标签描述文本进行特征提取,得到内容文本对应的内容文本特征和标签描述文本对应的描述文本特征;或者,采用第一特征提取模型对内容文本进行特征提取,得到内容文本对应的内容文本特征;采用第二特征提取模型对标签描述文本进行特征提取,得到描述标签文本对应的描述标签文本特征。
其中,特征提取模型、第一特征提取模型和第二特征提取模型均可以为大模型,如中文开源大模型(ChatGLM-6B)。其中,第一特征提取模型和第二特征提取模型的模型参数可以不同。
其中,本申请可以利用特征提取模型的浅层神经网络层如第一层神经网络层,或第一特征提取模型的浅层神经网络层如第一层神经网络层和第二层神经网络层,对内容文本进行特征提取,得到内容文本对应的内容文本特征。
本申请可以利用特征提取模型的浅层神经网络层如第一层神经网络层,或第二特征提取模型的浅层神经网络层如第一层神经网络层和第二层神经网络层,对描述标签文本进行特征提取,得到描述文本对应的描述标签文本特征。
其中,在标签的内容文本包括多个内容文本的情况下,当对内容文本进行特征提取时,可以采用特征提取模型或者第一特征提取模型,对每一内容文本进行特征提取,得到每一内容文本对应的初始内容文本特征;对每一初始内容文本特征进行融合,得到内容文本对应的内容文本特征。
此处以标签A为例子进行阐述。如图4所示,标签A可以采用N个内容文本,和标签描述文本,其中,/>表示第N个内容文本,标签描述文本可以表示为/>。本申请可以对特征提取模型或者第一特征提取模型,对每一内容文本进行特征提取,得到每一内容文本对应的初始内容文本特征/>,/>表示第N个内容文本对应的初始内容文本特征。然后,本申请可以对/>计算平均值/>,以对每一初始内容文本特征进行融合;将平均值作为内容文本对应的内容文本特征。
本申请可以采用特征提取模型或者第二特征提取模型,对标签描述文本进行特征提取,得到标签描述文本/>对应的标签描述文本特征/>
S204、根据内容文本特征和描述文本特征,在标签集合中筛选出每一标签对应的至少一个关联标签,得到每一标签对应的关联标签集合。
本申请在获取到内容文本特征和描述文本特征之后,便可以获取每一标签对应的关联标签集合,在步骤S204中,“根据内容文本特征和描述文本特征,在标签集合中筛选出每一标签对应的至少一个关联标签,得到每一标签对应的关联标签集合”的方式可以如步骤S41至步骤S43所示:
S41、基于描述文本特征,在标签集合中筛选出每一标签对应的至少一个候选标签,得到每一标签对应的描述标签集合。
在步骤S41中,“基于描述文本特征,在标签集合中筛选出每一标签对应的至少一个候选标签,得到每一标签对应的描述标签集合”的方式可以为:计算描述文本特征之间的特征相似度,得到描述特征相似度;基于描述特征相似度,在标签集合中筛选出每一标签对应的至少一个候选标签,得到每一标签对应的初始描述标签集合;基于描述特征相似度,对标签集合中的标签进行多次聚类,并根据聚类结果,在标签集合中筛选出每一标签对应的至少一个候选标签,得到每一标签对应的聚类标签集合;将初始描述标签集合和聚类标签集合作为描述标签集合。
其中,“计算描述文本特征之间的特征相似度,得到描述特征相似度;基于描述特征相似度”的方式可以为:采用相似度函数,计算不同标签分别对应的描述文本特征之间的特征相似度,并将不同标签分别对应的描述文本特征之间的特征相似度,作为描述特征相似度。
具体来说,相似度函数可以包括多个相似度函数,本申请可以采用多个相似度函数,计算不同标签分别对应的描述文本特征之间的特征相似度,得到每一相似度函数对应的目标特征相似度;对目标特征相似度进行加权,得到描述特征相似度。其中,相似度函数可以包括高斯核相似度函数、余弦相似度函数、欧几里得距离函数。
其中,“基于描述特征相似度,在标签集合中筛选出每一标签对应的至少一个候选标签,得到每一标签对应的初始描述标签集合”的方式可以为:将描述特征相似度与预设相似度阈值进行比较;当描述特征相似度大于或等于预设相似度阈值时,将标签集合中描述特征相似度大于或等于预设相似度阈值的标签作为候选标签;针对每一标签,基于标签对应的候选标签,构建标签对应的初始描述标签集合。
其中,“基于描述特征相似度,对标签集合中的标签进行多次聚类”的方式可以为:采用聚类策略基于描述特征相似度,对标签集合中的标签进行聚类,直到聚类次数到达预设次数阈值为止,得到多次聚类的聚类结果。其中,聚类策略可以为K-均值策略(K-means),可以为层次聚类策略,还可以为基于密度的聚类策略(DBScan,Density-Based SpatialClustering of Applications with Noise),等等。
其中,聚类结果表征标签集合中每一标签对应的类别。“根据聚类结果,在标签集合中筛选出每一标签对应的至少一个候选标签,得到每一标签对应的聚类标签集合”的方式可以为:根据聚类结果,确定每一标签所属的目标类别;针对每一标签,在标签集合中提取目标类别对应的候选标签,并基于标签和标签对应的候选标签,构建聚类标签集合。
S42、计算内容文本特征之间的内容特征相似度,并基于内容特征相似度,在标签集合中筛选出每一标签对应的至少一个候选标签,得到每一标签对应的第一内容标签集合。
在步骤S42中,“计算内容文本特征之间的内容特征相似度”的方式可以为:采用至少一个相似度计算策略,计算不同标签分别对应的内容文本特征之间的初始内容特征相似度,得到每一相似度计算策略对应的初始内容特征相似度;对每一相似度计算策略对应的初始内容特征相似度进行加权,得到加权后内容特征相似度,并将加权后内容特征相似度作为内容特征相似度。
其中,相似度计算策略可以包括但不限于高斯核计算策略、余弦相似度计算策略和欧式距离计算策略中的至少一种。
在步骤S42中,“基于内容特征相似度,在标签集合中筛选出每一标签对应的至少一个候选标签,得到每一标签对应的第一内容标签集合”的方式可以为:针对每一标签,根据内容特征相似度的大小,对内容特征特相似度进行排序,得到排序结果;基于排序结果,在内容特征相似度中确定预设数量的目标特征相似度,并在标签集合中提取出目标特征相似度对应的候选标签;基于目标特征相似度对应的候选标签,得到标签对应的第一内容标签集合。其中,目标特征相似度为数值较大的相似度。其中,预设数量可根据具体需求进行设定,在此处不作限制。
S43、将描述标签集合和第一内容标签集合作为关联标签集合。
S205、根据参考类型,确定标签与对应的关联标签集合中每一关联标签之间的标签关系。
其中,标签关系可以有多种,例如标签关系可以包括但不限于相同关系、相似关系、不同关系。
本申请在得到每一标签对应的关联标签集合之后,便可以确定标签与关联标签集合中每一关联标签之间的标签关系,具体来说,在步骤S205中,“根据参考类型,确定标签与对应的关联标签集合中每一关联标签之间的标签关系”的方式可以有多种,例如,可以对关联标签集合中关联标签进行聚类,得到聚类后标签集合和聚类后标签集合对应的聚类类别;计算参考类型和聚类类别之间的类别相似度;基于类别相似度,确定标签和聚类后标签集合之间的目标相似度;基于目标相似度,识别标签与对应的关联标签集合中每一关联标签之间的标签关系。
又例如,在步骤S205中,“根据参考类型,确定标签与对应的关联标签集合中每一关联标签之间的标签关系”的方式还可以参见步骤S51至步骤S53:
S51、在标签集合中确定出目标标签,并在聚类标签集合中筛选出目标标签对应的至少一个候选关联标签。
在步骤S51中,步骤“在标签集合中确定出目标标签”的方式有多种,例如,可以获取标签集合中每一标签的排序序号;基于排序序号的先后顺序,依次将排序序号对应的标签作为目标标签。其中,排序序号可以为标签携带的序号。
又例如,步骤“在标签集合中确定出目标标签”可以为:获取预设标签类型,并基于预设标签类型,在参考标签类型中确定出预设标签类型对应的目标参考标签类型;将在标签集合中提取出目标参考标签类型对应的标签,并将目标参考标签类型对应的标签作为目标标签。
本申请在确定出目标标签之后,便可以筛选出候选关联标签,其中,候选关联标签包括在多次聚类中与目标标签均为不同类别的标签。具体来说,步骤S51中,步骤“在聚类标签集合中筛选出目标标签对应的至少一个候选关联标签”的方式可以为:确定目标标签在每一次聚类中对应的目标类别;确定在每一次聚类中与目标类别不同的候选类别;在聚类标签集合中识别出每一候选类别对应的聚类标签子集;在每一聚类标签子集中提取出相同的目标聚类标签,并将目标聚类标签作为目标标签对应的候选关联标签。
S52、基于参考类型、候选关联标签、聚类标签集合、初始描述标签集合和第一内容标签集合,确定目标标签与对应的关联标签集合中每一关联标签之间的标签关系。
在步骤S52中,“基于参考类型、候选关联标签、聚类标签集合、初始描述标签集合和第一内容标签集合,确定目标标签与对应的关联标签集合中每一关联标签之间的标签关系”的方式可以如步骤S521至步骤S523所示,此处可以需要说明的是,步骤S521至步骤S523可以依次执行,也可以并列执行:
S521、基于参考类型,将初始描述标签集合和第一内容标签集合进行对比,以得到目标标签与当前关联标签集合中的关联标签之间的标签关系。
其中,当前关联标签集合包括描述标签集合和第一内容标签集合。
在步骤S521中,“基于参考类型,将初始描述标签集合和第一内容标签集合进行对比,以得到目标标签与当前关联标签集合中的关联标签之间的标签关系”的方式可以为:在初始描述标签集合和第一内容标签集合中筛选出至少一个相同的标签,得到待处理标签;基于参考类型,确定目标标签和待处理标签之间的标签关系;在当前关联标签集合中提取出除候选标签以外的剩余标签,并确定目标标签与待处理标签之间的标签关系为相似关系。
其中,步骤“在初始描述标签集合和第一内容标签集合中筛选出至少一个相同的标签,得到待处理标签”的方式可以为:获取初始描述标签集合中标签的第一标签标识,以及获取第一内容标签集合中标签的第二标签标识;将第一标签标识和第二标签标识进行对比;当第一标签标识和第二标签标识相同时,将第一标签标识对应的标签作为相同的标签。
其中,本申请在得到待处理标签之后,便可以确定标签关系,具体来说,步骤“基于参考类型,确定目标标签和待处理标签之间的标签关系”的方式可以为:在参考类型中识别出目标标签对应的目标参考类型和待处理标签对应的候选参考类型;当目标参考类型与候选参考类型相同时,确定目标标签和待处理标签的标签关系为相同关系;当目标参考类型与候选参考类型不同时,确定目标标签与待处理标签的标签关系为相似关系。
此处可以理解的是,每一标签具有对应的参考类型,标签与对应的参考类型之间具有对应关系,基于此,“在参考类型中识别出目标标签对应的目标参考类型和待处理标签对应的候选参考类型”的方式可以为:获取对应关系;根据对应关系,在参考类型中确定目标标签对应的目标参考类型;根据对应关系,在参考类型中确定待处理标签对应的候选参考类型。
S522、在标签集合中筛选出候选关联标签对应的至少一个标签,得到候选关联标签对应的第二内容标签集合,并将第一内容标签集合和第二内容标签集合进行对比,以得到目标标签与候选关联标签之间的标签关系。
在步骤S522中,步骤“在标签集合中筛选出候选关联标签对应的至少一个标签,得到候选关联标签对应的第二内容标签集合”的方式可以为:基于内容文本特征,计算候选关系标签和标签集合中标签之间的相似度;根据相似度,在标签集合中筛选出候选关联标签对应的至少一个标签,得到候选关联标签对应的第二内容标签集合。
例如,候选关系标签的内容文本特征为第一内容文本特征,标签集合中标签的内容文本特征为第二内容文本特征;计算第一内容文本特征和第二内容文本特征之间的相似度;然后,基于相似度的大小,提取出M个相似度与候选关系标签最近的标签,并将M个相似度与候选关系标签最近的标签,构建第二内容标签集合。
在步骤S522中,为了确定目标标签与候选关联标签之间的标签关系,需要利用候选关联标签对应的第二内容标签集合与目标标签的第一内容标签集合进行对比。基于此,步骤“将第一内容标签集合和第二内容标签集合进行对比,以得到目标标签与候选关联标签之间的标签关系”的方式可以为:当第一内容标签集合和第二内容标签集合中不存在相同的标签时,确定目标标签与候选关联标签之间的标签关系为不同关系;当第一内容标签集合和第二内容标签集合中存在相同标签时,确定目标标签与候选关联标签之间的标签关系为相似关系。
其中,在步骤“当第一内容标签集合和第二内容标签集合中不存在相同的标签时,确定目标标签与候选关联标签之间的标签关系为不同关系”之前,本申请可以先在第一内容标签集合和第二内容标签集合中查询相同的标签,得到查询结果,查询结果表征存在相同的标签,或不存在相同的标签。
S523、将聚类标签集合中除候选关联标签以外的其他标签与第一内容标签集合进行对比,以得到目标标签与其他标签之间的标签关系。
在步骤S523中,“将聚类标签集合中除候选关联标签以外的其他标签与第一内容标签集合进行对比,以得到目标标签与其他标签之间的标签关系”的方式可以为:在聚类标签集合中筛选出除候选关联标签以外的至少一个标签,得到其他标签;当其他标签不属于第一内容标签集合中的标签时,确定目标标签与其他标签之间的标签关系为相似关系。
其中,本申请可以将聚类标签集合中出候选关联标签以外的标签作为其他标签。
在步骤“在聚类标签集合中筛选出除候选关联标签以外的至少一个标签,得到其他标签”之后,当其他标签属于第一内容标签集合中的标签时,执行步骤“基于参考类型,将初始描述标签集合和第一内容标签集合进行对比,以得到目标标签与当前关联标签集合中的关联标签之间的标签关系”。
S53、返回执行在标签集合中确定出目标标签的步骤,直至标签集合中的标签均为目标标签时为止,得到每一标签与对应的关联标签集合中每一关联标签之间的标签关系。
针对于上述步骤S204和步骤S205,此处以标签A为例子为例进行阐述,此处可以理解的是,标签集合中的每一标签均可以如标签A一样处理。如图5所示,本申请可以包括两种特征,即内容文本对应的内容文本特征和标签描述文本对应的描述文本特征。本申请可以利用内容文本特征来生成第一内容标签集合,利用描述文本特征来生成描述标签集合,以便将第一内容标签集合和描述标签集合作为关联标签集合。/>
(一)、针对第一内容标签集合,本申请可以计算标签A和与标签A不同的标签分别对应的内容文本特征之间的内容特征相似度,并基于内容特征相似度,在标签集合中筛选出标签A对应的M个候选标签,并基于M个候选标签,构建标签A的第一内容标签集合/>
(二)、针对描述标签集合,描述标签集合中可以包括初始描述标签集合和聚类标签集合。
其中,对于初始描述标签集合,本申请可以计算标签A和与标签A不同的标签分别对应的描述文本特征之间的特征相似度,得到标签A和不同标签之间的描述特征相似度;基于描述特征相似度,在标签集合中筛选出标签A对应的m个候选标签,得到标签A对应的初始描述标签集合/>,其中,m远小于M。
其中,对于聚类标签集合,本申请可以基于描述特征相似度,对标签集合中的标签进行n次聚类,并根据聚类结果,在标签集合中筛选出标签A对应的至少一个候选标签,得到标签A对应的聚类标签集合。比如,本申请基于描述特征相似度,对标签集合中的标签进行k-means聚类,然后,再对聚类中心点再次进行k-means聚类,如此循环执行n次,得到聚类结果,此处聚类结果可以表征标签集合中每一标签在每一次聚类中对应的类别,然后,基于聚类结果获取到聚类标签集合。
本申请在获取到第一内容标签集合和描述标签集合之后,便可以将第一内容标签集合和描述标签集合作为关联标签集合,然后再确定出标签与关联标签集合中每一关联标签之间的标签关系。
具体来说,本申请可以将标签A作为目标标签,然后,在聚类标签集合中筛选出标签A的n个候选关联标签,候选关联标签包括在多次聚类中与目标标签均为不同类别的标签。然后,基于参考类型、候选关联标签、聚类标签集合、初始描述标签集合和第一内容标签集合,确定标签A与对应的关联标签集合中每一关联标签之间的标签关系。在本申请中,确定标签关系可以有多种方式,如下的方式(一)、方式(二)和方式(三):
方式(一):基于参考类型,将初始描述标签集合和第一内容标签集合进行对比,以得到标签A与当前关联标签集合中的关联标签之间的标签关系。
具体来说,针对方式(一),在初始描述标签集合和第一内容标签集合中筛选出至少一个相同的标签,并将该相同的标签作为待处理标签。在参考类型中识别出标签A对应的目标参考类型和待处理标签对应的候选参考类型;当目标参考类型与候选参考类型相同时,确定标签A和待处理标签的标签关系为相同关系;当目标参考类型与候选参考类型不同时,确定标签A与待处理标签的标签关系为相似关系。
方式(二):在标签集合中筛选出候选关联标签对应的至少一个标签,得到候选关联标签对应的第二内容标签集合,并将标签A的第一内容标签集合和候选关联标签的第二内容标签集合进行对比,以得到标签A与候选关联标签之间的标签关系。
针对方式(二),此处可以理解的是,如果第一内容标签集合中的标签和第二内容标签集合的标签没有重叠,即第一内容标签集合和第二内容标签集合中不存在相同的标签,那么确定标签A与候选关联标签之间的标签关系为不同关系;当第一内容标签集合和第二内容标签集合中存在相同标签时,确定标签A与候选关联标签之间的标签关系为相似关系。
方式(三):将聚类标签集合中除候选关联标签以外的其他标签与第一内容标签集合进行对比,以得到标签A与其他标签之间的标签关系。
针对方式(三),此处可以理解的是,聚类标签集合中除候选关联标签以外的其他标签可以为:在多次聚类中,与标签A为同一类别的标签。当其他标签不属于第一内容标签集合中的标签时,确定标签A与其他标签之间的标签关系为相似关系。当其他标签属于第一内容标签集合中的标签时,采用方式(一)来确定标签关系。
进一步地,本申请在步骤S205之后,可以对标签关系进行应用。比如,本申请可以获取标签集合对应的内容集合,其中,标签集合中的标签可以与内容集合中的内容一一对应;基于标签关系,识别内容集合中不同内容之间的内容关系。
其中,可以将标签关系作为内容关系,例如,当标签包括第一标签和第二标签时,第一标签和第二标签之间的关系为不同关系;相应地,第一标签对应的第一内容和第二标签对应的第二内容之间的内容关系也为不同关系。
进一步地,当对候选内容进行推荐时,获取预设时间内容已推荐的目标内容,候选内容和目标内容属于内容集合;在内容关系中识别出目标内容与候选内容之间的目标内容关系;当目标内容关系为相同关系或相似关系时,不推荐候选内容;当目标关系内容为不同关系时,推荐候选内容。
其中,内容可以包括但不限于视频、图像和文本,以及视频、图像和文本中至少两种的结合。例如,内容可以为新闻。
综上,本申请可以的大模型可以用于多个环节,例如,本申请可以利用大模型丰富的知识储备,可以对标签的标签类型进行识别,有效替代了人工操作。其次可以使用大模型对具体标签给出标签描述文本,弥补标签本身信息量不足的问题。再次,使用大模型对标签描述文本进行特征提取,区分性会更强。基于此,进一步可以理解的是,本申请利用大模型,可以有效且快速地建立标签关系,节省人力成本。
本申请可以获取待处理数据,待处理数据包括标签集合中每一标签对应的内容文本和标签描述文本,内容文本包括标签的文本;在内容文本中识别出标签的标签类型,得到标签的参考类型;分别对内容文本和标签描述文本进行特征提取,得到内容文本对应的内容文本特征和标签描述文本对应的描述文本特征;根据内容文本特征和描述文本特征,在标签集合中筛选出每一标签对应的至少一个关联标签,得到每一标签对应的关联标签集合;根据参考类型,确定标签与对应的关联标签集合中每一关联标签之间的标签关系。由于本申请可以基于标签的内容文本,获取到标签的参考类型,以及基于内容文本对应的内容文本特征和标签描述文本的描述文本特征,获取每一标签对应的关联标签集合,从而可以基于参考类型,快速地确定标签与关联标签集合中每一关联标签之间的标签关系,如此提高标签关系的生成效率。
根据上面实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该数据处理装置具体集成在电子设备,电子设备为服务器。
如图6所示,一种数据处理方法,具体流程如步骤S501至步骤S509所示:
S501、电子设备获取标签集合中每一标签对应的描述指示文本,并基于描述指示文本预测标签的标签描述文本。
在步骤S501中,“获取标签集合中每一标签对应的描述指示文本”的方式可以为:电子设备获取标签集合中每一标签对应的标签介绍文本和描述提示文本;对标签介绍文本和描述提示文本进行关联,以得到标签对应的描述指示文本。
其中,“对标签介绍文本和描述提示文本进行关联,以得到标签对应的描述指示文本”的方式可以为:电子设备获取拼接参数,并根据拼接参数,对标签介绍文本和描述提示文本进行拼接,得到拼接后文本;将拼接后文本作为标签对应的描述指示文本。
电子设备在获取到描述指示文本之后,便可以预测出标签的标签描述文本,例如,采用ChatGPT基于描述指示文本,预测标签的标签描述文本。
S502、电子设备获取每一标签对应的内容文本,并根据标签描述文本和内容文本,生成待处理数据。
其中,待处理数据包括标签集合中每一标签对应的内容文本和标签描述文本,内容文本包括标签的文本。
在步骤S502中,“根据标签描述文本和内容文本,生成待处理数据”的方式可以为:将标签和标签对应的标签描述文本和内容文本进行绑定,以生成待处理数据。
S503、获取内容文本对应的类型预测指示文本,并将内容文本和类型预测指示文本进行融合,得到融合后文本。
在步骤S503中,“获取内容文本对应的类型预测指示文本”的方式还可以为:分别获取内容文本对应的背景文本、类型提示文本和格式提示文本;根据背景文本、类型提示文本和格式提示文本,构建类型预测指示文本。
其中,“获取内容文本对应的类型提示文本”的方式可以为:电子设备获取标签集合的集合类型,并采用类型文本预测模型基于集合类型预测出标签类型文本。然后,电子设备获取初始类型提示文本,并将初始类型提示文本与标签类型文本进行拼接,得到内容文本对应的类型提示文本。
本申请在获取内容文本对应的类型预测指示文本之后,便可以将内容文本和类型预测指示文本进行融合,得到融合后文本,具体来说,“将内容文本和类型预测指示文本进行融合,得到融合后文本”的方式可以为:将背景文本和内容文本进行拼接,得到拼接后内容文本,并将拼接后内容文本作为初始融合后文本。然后,获取文本拼接参数,并基于文本拼接参数,对初始融合后文本、类型提示文本和格式提示文本进行拼接,以得到融合后文本。
S504、电子设备基于融合后文本,预测标签的标签类型,得到标签的参考类型。
电子设备在获取到融合后文本之后,便可以获取标签的参考类型,以便于为确定标签关系作辅助。具体来说,步骤S504中,“基于融合后文本,预测标签的标签类型,得到标签的参考类型”的方式可以为:电子设备采用ChatGPT,对融合后文本进行特征提取,得到融合后文本特征;采用类型预测模型基于融合后文本特征进行类型预测,得到标签的标签类型;将标签类型作为标签的参考类型。
S505、电子设备分别对内容文本和标签描述文本进行特征提取,得到内容文本对应的内容文本特征和标签描述文本对应的描述文本特征。
此处可以理解的是,标签本身的信息量比较少,因此,本申请采用长文本的内容文本和标签描述文本来增加信息量,以便于提取到优质的特征。
在步骤S505中,“分别对内容文本和标签描述文本进行特征提取,得到内容文本对应的内容文本特征和标签描述文本对应的描述文本特征”的方式可以为:电子设备采用ChatGLM-6B分别对内容文本和标签描述文本进行特征提取,得到内容文本对应的内容文本特征和标签描述文本对应的描述文本特征。
其中,本申请可以利用ChatGLM-6B的第一层神经网络层,分别对内容文本和标签描述文本进行特征提取,得到内容文本对应的内容文本特征和标签描述文本对应的描述文本特征。
针对内容文本,本申请实施例的每一标签可以对应多个内容文本,具体来说,电子设备可以采用ChatGLM-6B的第一层神经网络层,对每一内容文本进行特征提取,得到每一内容文本对应的初始内容文本特征;然后,对目标标签对应的所有的初始内容文本特征进行计算平均值,并将平均值作为内容文本对应的内容文本特征。
S506、电子设备基于描述文本特征,在标签集合中筛选出每一标签对应的至少一个候选标签,得到每一标签对应的描述标签集合。
在步骤S506中,“基于描述文本特征,在标签集合中筛选出每一标签对应的至少一个候选标签,得到每一标签对应的描述标签集合”的方式可以为:计算描述文本特征之间的特征相似度,得到描述特征相似度;基于描述特征相似度,在标签集合中筛选出每一标签对应的至少一个候选标签,得到每一标签对应的初始描述标签集合;基于描述特征相似度,对标签集合中的标签进行多次聚类,并根据聚类结果,在标签集合中筛选出每一标签对应的至少一个候选标签,得到每一标签对应的聚类标签集合;将初始描述标签集合和聚类标签集合作为描述标签集合。
其中,步骤“基于描述特征相似度,在标签集合中筛选出每一标签对应的至少一个候选标签,得到每一标签对应的初始描述标签集合”的方式可以为:电子设备将描述特征相似度与预设相似度阈值进行比较;当描述特征相似度大于或等于预设相似度阈值时,将标签集合中描述特征相似度大于或等于预设相似度阈值的标签作为候选标签;针对每一标签,基于标签对应的候选标签,构建标签对应的初始描述标签集合。
其中,步骤“基于描述特征相似度,对标签集合中的标签进行多次聚类”的方式可以为:采用K-means策略基于描述特征相似度,对标签集合中的标签进行聚类,直到聚类次数到达预设次数阈值为止,得到多次聚类的聚类结果。
S507、电子设备计算内容文本特征之间的内容特征相似度,并基于内容特征相似度,在标签集合中筛选出每一标签对应的至少一个候选标签,得到每一标签对应的第一内容标签集合。
在步骤S507中,“计算内容文本特征之间的内容特征相似度”的方式可以为:电子设备采用至少一个相似度计算策略,计算不同标签分别对应的内容文本特征之间的初始内容特征相似度,得到每一相似度计算策略对应的初始内容特征相似度;对每一相似度计算策略对应的初始内容特征相似度进行加权,得到加权后内容特征相似度,并将加权后内容特征相似度作为内容特征相似度。
在步骤S507中,“基于内容特征相似度,在标签集合中筛选出每一标签对应的至少一个候选标签,得到每一标签对应的第一内容标签集合”的方式可以为:针对每一标签,根据内容特征相似度的大小,对内容特征特相似度进行排序,得到排序结果;基于排序结果,在内容特征相似度中确定预设数量的目标特征相似度,并在标签集合中提取出目标特征相似度对应的候选标签;基于目标特征相似度对应的候选标签,得到标签对应的第一内容标签集合。
S508、电子设备将描述标签集合和第一内容标签集合作为关联标签集合。
S509、电子设备根据参考类型,确定标签与对应的关联标签集合中每一关联标签之间的标签关系。
电子设备在得到关联标签集合之后,便可以确定标签与关联标签集合中每一关联标签之间的标签关系,具体来说,在S509中,“根据参考类型,确定标签与对应的关联标签集合中每一关联标签之间的标签关系”的方式可以为:在标签集合中确定出目标标签,并在聚类标签集合中筛选出目标标签对应的至少一个候选关联标签;基于参考类型、候选关联标签、聚类标签集合、初始描述标签集合和第一内容标签集合,确定目标标签与对应的关联标签集合中每一关联标签之间的标签关系;返回执行在标签集合中确定出目标标签的步骤,直至标签集合中的标签均为目标标签时为止,得到每一标签与对应的关联标签集合中每一关联标签之间的标签关系。
其中,电子设备可以获取标签集合中每一标签的排序序号;基于排序序号的先后顺序,依次将排序序号对应的标签作为目标标签。电子设备在获取到目标标签之后,便可以筛选出在多次聚类中与目标标签均为不同类别的候选关联标签,例如,步骤“在聚类标签集合中筛选出目标标签对应的至少一个候选关联标签”的方式可以为:确定目标标签在每一次聚类中对应的目标类别;确定在每一次聚类中与目标类别不同的候选类别;在聚类标签集合中识别出每一候选类别对应的聚类标签子集;在每一聚类标签子集中提取出相同的目标聚类标签,并将目标聚类标签作为目标标签对应的候选关联标签。
电子设备在获取到候选关联标签之后,便可以基于参考类型、候选关联标签、聚类标签集合、初始描述标签集合和第一内容标签集合,确定目标标签与对应的关联标签集合中每一关联标签之间的标签关系,其中,确定标签关系有多种如下方式A、方式B和方式C:
方式A:基于参考类型,将初始描述标签集合和第一内容标签集合进行对比,以得到目标标签与当前关联标签集合中的关联标签之间的标签关系。其中,当前关联标签集合包括描述标签集合和第一内容标签集合。
方式A中,电子设备可以在初始描述标签集合和第一内容标签集合中筛选出至少一个相同的标签,得到待处理标签;基于参考类型,确定目标标签和待处理标签之间的标签关系;在当前关联标签集合中提取出除候选标签以外的剩余标签,并确定目标标签与待处理标签之间的标签关系为相似关系。
电子设备在得到待处理标签之后,便可以确定标签关系,具体来说,电子设备可以在参考类型中识别出目标标签对应的目标参考类型和待处理标签对应的候选参考类型;当目标参考类型与候选参考类型相同时,确定目标标签和待处理标签的标签关系为相同关系;当目标参考类型与候选参考类型不同时,确定目标标签与待处理标签的标签关系为相似关系。
方式B:在标签集合中筛选出候选关联标签对应的至少一个标签,得到候选关联标签对应的第二内容标签集合,并将第一内容标签集合和第二内容标签集合进行对比,以得到目标标签与候选关联标签之间的标签关系。
方式B中,电子设备可以基于内容文本特征,计算候选关系标签和标签集合中标签之间的相似度;根据相似度,在标签集合中筛选出候选关联标签对应的至少一个标签,得到候选关联标签对应的第二内容标签集合。
其中,为了确定目标标签与候选关联标签之间的标签关系,需要利用候选关联标签对应的第二内容标签集合与目标标签的第一内容标签集合进行对比。基于此,当第一内容标签集合和第二内容标签集合中不存在相同的标签时,电子设备确定目标标签与候选关联标签之间的标签关系为不同关系;电子设备当第一内容标签集合和第二内容标签集合中存在相同标签时,确定目标标签与候选关联标签之间的标签关系为相似关系。
方式C:将聚类标签集合中除候选关联标签以外的其他标签与第一内容标签集合进行对比,以得到目标标签与其他标签之间的标签关系。
在方式C中,电子设备可以在聚类标签集合中筛选出除候选关联标签以外的至少一个标签,得到其他标签;当其他标签不属于第一内容标签集合中的标签时,确定目标标签与其他标签之间的标签关系为相似关系。
综上,本申请通过内容文本的构建,增加了标签的信息量,如此可以使ChatGPT返回准确性较高的标签类型,经过评测,准确率达到82%,实现了替换利用人工对标签分类和标注的可能。
本申请还可以利用ChatGPT生成标签描述文本,弥补了标签的信息量不足的缺点。然后,可以分别对标签描述文本和内容文本进行特征提取,得到内容文本对应的内容文本特征和标签描述文本对应的描述文本特征;然后可以利用内容文本特征和描述文本特征进行运用,以生成标签的标签关系。其中,可以对于所生成的标签关系进行测试,可看出本申请取得了明确的正向效果,标签关系的测试效果如表1所示。
表1
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
本申请可以获取待处理数据,待处理数据包括标签集合中每一标签对应的内容文本和标签描述文本,内容文本包括标签的文本;在内容文本中识别出标签的标签类型,得到标签的参考类型;分别对内容文本和标签描述文本进行特征提取,得到内容文本对应的内容文本特征和标签描述文本对应的描述文本特征;根据内容文本特征和描述文本特征,在标签集合中筛选出每一标签对应的至少一个关联标签,得到每一标签对应的关联标签集合;根据参考类型,确定标签与对应的关联标签集合中每一关联标签之间的标签关系。由于本申请可以基于标签的内容文本,获取到标签的参考类型,以及基于内容文本对应的内容文本特征和标签描述文本的描述文本特征,获取每一标签对应的关联标签集合,从而可以基于参考类型,快速地确定标签与关联标签集合中每一关联标签之间的标签关系,如此提高标签关系的生成效率。
为了更好地实施以上方法,本申请实施例还提供一种数据处理装置,该数据处理装置可以集成在电子设备,比如服务器或终端等设备中,该终端可以包括平板电脑、笔记本电脑和/或个人计算机等。
例如,如图7所示,该数据处理装置可以包括获取单元301、识别单元302、提取单元303、筛选单元304和确定单元305,如下:
(1)获取单元301;
获取单元301,可以用于获取待处理数据,待处理数据包括标签集合中每一标签对应的内容文本和标签描述文本,内容文本包括标签的文本。
例如,获取单元301,可以用于获取标签集合中每一标签对应的描述指示文本,并基于描述指示文本预测标签的标签描述文本;获取每一标签对应的内容文本,并根据标签描述文本和内容文本,生成待处理数据。
(2)识别单元302;
识别单元302,可以用于在内容文本中识别出标签的标签类型,得到标签的参考类型。
例如,识别单元302,可以用于获取内容文本对应的类型预测指示文本,并将内容文本和类型预测指示文本进行融合,得到融合后文本;基于融合后文本,预测标签的标签类型,得到标签的参考类型。
(3)提取单元303;
提取单元303,可以用于分别对内容文本和标签描述文本进行特征提取,得到内容文本对应的内容文本特征和标签描述文本对应的描述文本特征。
(4)筛选单元304;
筛选单元304,可以用于根据内容文本特征和描述文本特征,在标签集合中筛选出每一标签对应的至少一个关联标签,得到每一标签对应的关联标签集合。
例如,筛选单元304,可以用于基于描述文本特征,在标签集合中筛选出每一标签对应的至少一个候选标签,得到每一标签对应的描述标签集合;计算内容文本特征之间的内容特征相似度,并基于内容特征相似度,在标签集合中筛选出每一标签对应的至少一个候选标签,得到每一标签对应的第一内容标签集合;将描述标签集合和第一内容标签集合作为关联标签集合。
(5)确定单元305;
确定单元305,可以用于根据参考类型,确定标签与对应的关联标签集合中每一关联标签之间的标签关系。
例如,确定单元305,可以用于在标签集合中确定出目标标签,并在聚类标签集合中筛选出目标标签对应的至少一个候选关联标签,候选关联标签包括在多次聚类中与目标标签均为不同类别的标签;基于参考类型、候选关联标签、聚类标签集合、初始描述标签集合和第一内容标签集合,确定目标标签与对应的关联标签集合中每一关联标签之间的标签关系;返回执行在标签集合中确定出目标标签的步骤,直至标签集合中的标签均为目标标签时为止,得到每一标签与对应的关联标签集合中每一关联标签之间的标签关系。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
由上可知,本申请的获取单元301,可以用于获取待处理数据,待处理数据包括标签集合中每一标签对应的内容文本和标签描述文本,内容文本包括标签的文本;识别单元302,可以用于在内容文本中识别出标签的标签类型,得到标签的参考类型;提取单元303,可以用于分别对内容文本和标签描述文本进行特征提取,得到内容文本对应的内容文本特征和标签描述文本对应的描述文本特征;筛选单元304,可以用于根据内容文本特征和描述文本特征,在标签集合中筛选出每一标签对应的至少一个关联标签,得到每一标签对应的关联标签集合;确定单元305,可以用于根据参考类型,确定标签与对应的关联标签集合中每一关联标签之间的标签关系。由于本申请可以基于标签的内容文本,获取到标签的参考类型,以及基于内容文本对应的内容文本特征和标签描述文本的描述文本特征,获取每一标签对应的关联标签集合,从而可以基于参考类型,快速地确定标签与关联标签集合中每一关联标签之间的标签关系,如此提高标签关系的生成效率。
本申请实施例还提供一种电子设备,如图8所示,其示出了本发明实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图8中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
电子设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取待处理数据,待处理数据包括标签集合中每一标签对应的内容文本和标签描述文本,内容文本包括标签的文本;在内容文本中识别出标签的标签类型,得到标签的参考类型;分别对内容文本和标签描述文本进行特征提取,得到内容文本对应的内容文本特征和标签描述文本对应的描述文本特征;根据内容文本特征和描述文本特征,在标签集合中筛选出每一标签对应的至少一个关联标签,得到每一标签对应的关联标签集合;根据参考类型,确定标签与对应的关联标签集合中每一关联标签之间的标签关系。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成,或通过计算机程序控制相关的硬件来完成,该计算机程序可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种数据处理方法。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种数据处理方法中的步骤,因此,可以实现本申请实施例所提供的任一种数据处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
其中,根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述实施例提供的各种可选实现方式中提供的方法。
以上对本申请实施例所提供的一种数据处理方法、装置、电子设备、存储介质及程序产品进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。

Claims (14)

1.一种数据处理方法,其特征在于,包括:
获取待处理数据,所述待处理数据包括标签集合中每一标签对应的内容文本和标签描述文本,所述内容文本包括所述标签的文本;
在所述内容文本中识别出所述标签的标签类型,得到所述标签的参考类型;
分别对所述内容文本和标签描述文本进行特征提取,得到所述内容文本对应的内容文本特征和所述标签描述文本对应的描述文本特征;
计算所述描述文本特征之间的特征相似度,得到描述特征相似度;
基于所述描述特征相似度,在所述标签集合中筛选出每一标签对应的至少一个候选标签,得到每一标签对应的初始描述标签集合;
基于所述描述特征相似度,对所述标签集合中的标签进行多次聚类,并根据聚类结果,在所述标签集合中筛选出每一标签对应的至少一个候选标签,得到每一标签对应的聚类标签集合;
将所述初始描述标签集合和所述聚类标签集合作为所述描述标签集合;
计算所述内容文本特征之间的内容特征相似度,并基于所述内容特征相似度,在所述标签集合中筛选出每一标签对应的至少一个候选标签,得到每一标签对应的第一内容标签集合;
将所述描述标签集合和所述第一内容标签集合作为关联标签集合;
在所述标签集合中确定出目标标签,并在所述聚类标签集合中筛选出所述目标标签对应的至少一个候选关联标签,所述候选关联标签包括在多次聚类中与所述目标标签均为不同类别的标签;
基于所述参考类型、所述候选关联标签、所述聚类标签集合、所述初始描述标签集合和所述第一内容标签集合,确定所述目标标签与对应的关联标签集合中每一关联标签之间的标签关系;
返回执行所述在所述标签集合中确定出目标标签的步骤,直至所述标签集合中的标签均为目标标签时为止,得到每一标签与对应的关联标签集合中每一关联标签之间的标签关系。
2.根据权利要求1所述的数据处理方法,其特征在于,所述基于所述参考类型、所述候选关联标签、所述聚类标签集合、所述初始描述标签集合和所述第一内容标签集合,确定所述目标标签与对应的关联标签集合中每一关联标签之间的标签关系,包括:
基于所述参考类型,将所述初始描述标签集合和所述第一内容标签集合进行对比,以得到所述目标标签与当前关联标签集合中的关联标签之间的标签关系,所述当前关联标签集合包括所述描述标签集合和所述第一内容标签集合;
在所述标签集合中筛选出所述候选关联标签对应的至少一个标签,得到所述候选关联标签对应的第二内容标签集合,并将所述第一内容标签集合和所述第二内容标签集合进行对比,以得到所述目标标签与所述候选关联标签之间的标签关系;
将所述聚类标签集合中除所述候选关联标签以外的其他标签与所述第一内容标签集合进行对比,以得到所述目标标签与所述其他标签之间的标签关系。
3.根据权利要求2所述的数据处理方法,其特征在于,所述基于所述参考类型,将所述初始描述标签集合和所述第一内容标签集合进行对比,以得到所述目标标签与当前关联标签集合中的关联标签之间的标签关系,包括:
在所述初始描述标签集合和所述第一内容标签集合中筛选出至少一个相同的标签,得到待处理标签;
基于所述参考类型,确定所述目标标签和待处理标签之间的标签关系;
在所述当前关联标签集合中提取出除所述候选标签以外的剩余标签,并确定所述目标标签与所述待处理标签之间的标签关系为相似关系。
4.根据权利要求3所述的数据处理方法,其特征在于,所述基于所述参考类型,确定所述目标标签和待处理标签之间的标签关系,包括:
在所述参考类型中识别出所述目标标签对应的目标参考类型和所述待处理标签对应的候选参考类型;
当所述目标参考类型与所述候选参考类型相同时,确定所述目标标签和待处理标签的标签关系为相同关系;
当所述目标参考类型与所述候选参考类型不同时,确定所述目标标签与所述待处理标签的标签关系为相似关系。
5.根据权利要求2所述的数据处理方法,其特征在于,所述将所述第一内容标签集合和所述第二内容标签集合进行对比,以得到所述目标标签与所述候选关联标签之间的标签关系,包括:
当所述第一内容标签集合和所述第二内容标签集合中不存在相同的标签时,确定所述目标标签与所述候选关联标签之间的标签关系为不同关系;
当所述第一内容标签集合和所述第二内容标签集合中存在相同标签时,确定所述目标标签与所述候选关联标签之间的标签关系为相似关系。
6.根据权利要求2所述的数据处理方法,其特征在于,所述将所述聚类标签集合中除所述候选关联标签以外的其他标签与所述第一内容标签集合进行对比,以得到所述目标标签与所述其他标签之间的标签关系,包括:
在所述聚类标签集合中筛选出除所述候选关联标签以外的至少一个标签,得到其他标签;
当所述其他标签不属于所述第一内容标签集合中的标签时,确定所述目标标签与其他标签之间的标签关系为相似关系。
7.根据权利要求1所述的数据处理方法,其特征在于,所述在所述内容文本中识别出所述标签的标签类型,得到所述标签的参考类型,包括:
获取所述内容文本对应的类型预测指示文本,并将所述内容文本和所述类型预测指示文本进行融合,得到融合后文本;
基于所述融合后文本,预测所述标签的标签类型,得到所述标签的参考类型。
8.根据权利要求7所述的数据处理方法,其特征在于,所述类型预测指示文本包括背景文本、类型提示文本和格式提示文本;所述将所述内容文本和所述类型预测指示文本进行融合,得到融合后文本,包括:
将所述背景文本和所述内容文本进行融合,得到初始融合后文本;
获取文本拼接参数,并基于所述文本拼接参数,对所述初始融合后文本、所述类型提示文本和格式提示文本进行拼接,以得到所述融合后文本。
9.根据权利要求1所述的数据处理方法,其特征在于,所述获取待处理数据,包括:
获取所述标签集合中每一标签对应的描述指示文本,并基于所述描述指示文本预测所述标签的标签描述文本;
获取每一所述标签对应的内容文本,并根据所述标签描述文本和所述内容文本,生成所述待处理数据。
10.根据权利要求9所述的数据处理方法,其特征在于,所述获取所述标签集合中每一标签对应的描述指示文本,包括:
获取所述标签集合中每一标签对应的标签介绍文本和描述提示文本;
对所述标签介绍文本和所述描述提示文本进行关联,以得到所述标签对应的描述指示文本。
11.一种数据处理装置,其特征在于,包括:
获取单元,用于获取待处理数据,所述待处理数据包括标签集合中每一标签对应的内容文本和标签描述文本,所述内容文本包括所述标签的文本;
识别单元,用于在所述内容文本中识别出所述标签的标签类型,得到所述标签的参考类型;
提取单元,用于分别对所述内容文本和标签描述文本进行特征提取,得到所述内容文本对应的内容文本特征和所述标签描述文本对应的描述文本特征;
筛选单元,用于计算所述描述文本特征之间的特征相似度,得到描述特征相似度;基于所述描述特征相似度,在所述标签集合中筛选出每一标签对应的至少一个候选标签,得到每一标签对应的初始描述标签集合;基于所述描述特征相似度,对所述标签集合中的标签进行多次聚类,并根据聚类结果,在所述标签集合中筛选出每一标签对应的至少一个候选标签,得到每一标签对应的聚类标签集合;将所述初始描述标签集合和所述聚类标签集合作为所述描述标签集合;计算所述内容文本特征之间的内容特征相似度,并基于所述内容特征相似度,在所述标签集合中筛选出每一标签对应的至少一个候选标签,得到每一标签对应的第一内容标签集合;将所述描述标签集合和所述第一内容标签集合作为关联标签集合;
确定单元,用于在所述标签集合中确定出目标标签,并在所述聚类标签集合中筛选出所述目标标签对应的至少一个候选关联标签,所述候选关联标签包括在多次聚类中与所述目标标签均为不同类别的标签;基于所述参考类型、所述候选关联标签、所述聚类标签集合、所述初始描述标签集合和所述第一内容标签集合,确定所述目标标签与对应的关联标签集合中每一关联标签之间的标签关系;返回执行所述在所述标签集合中确定出目标标签的步骤,直至所述标签集合中的标签均为目标标签时为止,得到每一标签与对应的关联标签集合中每一关联标签之间的标签关系。
12.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序,以执行权利要求1至10任一项所述的数据处理方法中的步骤。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于处理器进行加载,以执行权利要求1至10任一项所述的数据处理方法。
14.一种计算机程序产品,其特征在于,所述计算机程序产品存储有计算机程序,所述计算机程序适于处理器进行加载,以执行权利要求1至10任一项所述的数据处理方法。
CN202311094999.6A 2023-08-29 2023-08-29 数据处理方法、装置、电子设备、存储介质及程序产品 Active CN116992031B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311094999.6A CN116992031B (zh) 2023-08-29 2023-08-29 数据处理方法、装置、电子设备、存储介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311094999.6A CN116992031B (zh) 2023-08-29 2023-08-29 数据处理方法、装置、电子设备、存储介质及程序产品

Publications (2)

Publication Number Publication Date
CN116992031A CN116992031A (zh) 2023-11-03
CN116992031B true CN116992031B (zh) 2024-01-09

Family

ID=88532104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311094999.6A Active CN116992031B (zh) 2023-08-29 2023-08-29 数据处理方法、装置、电子设备、存储介质及程序产品

Country Status (1)

Country Link
CN (1) CN116992031B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111626362A (zh) * 2020-05-28 2020-09-04 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和存储介质
CN113139141A (zh) * 2021-04-22 2021-07-20 康键信息技术(深圳)有限公司 用户标签扩展标注方法、装置、设备及存储介质
CN114443847A (zh) * 2022-01-27 2022-05-06 北京字节跳动网络技术有限公司 文本分类、文本处理方法、装置、计算机设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9218546B2 (en) * 2012-06-01 2015-12-22 Google Inc. Choosing image labels
US9082047B2 (en) * 2013-08-20 2015-07-14 Xerox Corporation Learning beautiful and ugly visual attributes

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111626362A (zh) * 2020-05-28 2020-09-04 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和存储介质
CN113139141A (zh) * 2021-04-22 2021-07-20 康键信息技术(深圳)有限公司 用户标签扩展标注方法、装置、设备及存储介质
CN114443847A (zh) * 2022-01-27 2022-05-06 北京字节跳动网络技术有限公司 文本分类、文本处理方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN116992031A (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
CN112632385B (zh) 课程推荐方法、装置、计算机设备及介质
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN111563158B (zh) 文本排序方法、排序装置、服务器和计算机可读存储介质
CN111831826B (zh) 跨领域的文本分类模型的训练方法、分类方法以及装置
CN111522915A (zh) 中文事件的抽取方法、装置、设备及存储介质
CN110543920B (zh) 图像识别模型的性能检测方法、装置、服务器及存储介质
CN113590876A (zh) 一种视频标签设置方法、装置、计算机设备及存储介质
CN115659008A (zh) 大数据信息反馈的信息推送系统、方法、电子设备及介质
CN113515593A (zh) 基于聚类模型的话题检测方法、装置和计算机设备
CN113821612A (zh) 信息查找方法以及装置
CN111950265A (zh) 一种领域词库构建方法和装置
CN116992031B (zh) 数据处理方法、装置、电子设备、存储介质及程序产品
CN113392220B (zh) 一种知识图谱生成方法、装置、计算机设备及存储介质
CN115129902A (zh) 媒体数据处理方法、装置、设备及存储介质
CN116415624A (zh) 模型训练方法及装置、内容推荐方法及装置
CN114639044A (zh) 标签确定方法、装置、电子设备及存储介质
CN113704422A (zh) 一种文本推荐方法、装置、计算机设备和存储介质
CN116484085A (zh) 一种信息投放方法、装置、设备及存储介质、程序产品
CN113569091A (zh) 视频数据的处理方法、装置
CN115712719A (zh) 数据处理方法、装置、计算机可读存储介质和计算机设备
CN113821632A (zh) 内容分类方法、装置、电子设备和计算机可读存储介质
CN117173493B (zh) 分类模型的训练方法、装置、设备、程序产品及存储介质
CN115114910B (zh) 文本处理方法、装置、设备、存储介质及产品
WO2022213864A1 (zh) 一种语料标注方法、装置及相关设备
CN116976281A (zh) 内容生成方法、装置、计算机可读存储介质和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant