CN117371440B - 基于aigc的话题文本大数据分析方法及系统 - Google Patents
基于aigc的话题文本大数据分析方法及系统 Download PDFInfo
- Publication number
- CN117371440B CN117371440B CN202311653831.4A CN202311653831A CN117371440B CN 117371440 B CN117371440 B CN 117371440B CN 202311653831 A CN202311653831 A CN 202311653831A CN 117371440 B CN117371440 B CN 117371440B
- Authority
- CN
- China
- Prior art keywords
- topic
- text
- vector
- topic text
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000007405 data analysis Methods 0.000 title claims abstract description 23
- 239000013598 vector Substances 0.000 claims abstract description 363
- 238000004458 analytical method Methods 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims description 199
- 238000013473 artificial intelligence Methods 0.000 claims description 40
- 238000002372 labelling Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 17
- 238000012545 processing Methods 0.000 abstract description 16
- 238000010219 correlation analysis Methods 0.000 abstract description 6
- 238000012552 review Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供一种基于AIGC的话题文本大数据分析方法及系统,通过从话题文本大数据中获取候选话题文本,并为其生成两个话题视角下的话题文本向量,同时,也为已经标定的话题文本序列中的每个文本生成相应的两个话题视角下的话题文本向量,有助于将复杂的话题文本信息转化为易于处理和分析的向量形式,大大提高了后续处理的效率,通过对候选话题文本的第一话题视角的话题文本向量与每个标定话题文本的第一话题视角的话题文本向量进行关联性分析,生成第二话题文本序列,能够有效地缩小后续处理的数据规模,提高处理速度。最后,通过对更高维度的特征进行关联性分析,能够更精确地找到与候选话题文本相关的信息,从而提高了查找的准确性。
Description
技术领域
本申请涉及人工智能技术领域,具体而言,涉及一种基于AIGC的话题文本大数据分析方法及系统。
背景技术
随着互联网和大数据技术的快速发展,各种类型的文本数据如新闻报道、社交媒体帖子、商品评论等日益增多。这些文本数据中包含了丰富的信息,对于市场分析、舆情监控、消费者行为预测等许多领域都有着重要的价值。然而,由于文本数据的非结构化特性,直接处理和分析文本数据具有很大的挑战。
在此背景下,话题模型作为一种有效的文本分析工具,被广泛应用于从大规模文本数据中抽取主题信息。传统的话题模型如潜在狄利克雷分配(LDA)能够将文本数据转化为低维度的主题空间,从而便于后续的处理和分析。然而,传统的话题模型通常假设文档中的单词是交换的,忽略了文本中的语序信息,因此其抽取的主题信息可能并不准确。
近年来,深度学习技术的发展为解决这一问题提供了新的可能。例如,词嵌入模型可以将单词映射到一个连续的向量空间,从而捕捉到更丰富的语义信息。然而,如何有效地利用深度学习技术对大规模文本数据进行话题分析,仍然是一个开放的问题。
另一方面,由于不同的任务和应用可能关注文本中的不同方面,因此需要能够从多个视角进行话题分析。然而,现有的方法往往只能从单一的视角进行话题分析,难以满足多视角的需求。
总的来说,如何在大数据环境下,有效地进行多视角的话题文本向量生成和查找,是当前亟待解决的技术问题。
发明内容
有鉴于此,本申请的目的在于提供一种基于AIGC的话题文本大数据分析方法及系统。
依据本申请的第一方面,提供一种基于AIGC的话题文本大数据分析方法,应用于云话题服务系统,所述方法包括:
获取话题文本大数据中的候选话题文本的第一话题视角的话题文本向量和第二话题视角的话题文本向量,以及第一话题文本序列中每个标定话题文本的第一话题视角的话题文本向量和第二话题视角的话题文本向量,其中,所述第一话题视角的特征维度数量小于所述第二话题视角;
对所述候选话题文本的第一话题视角的话题文本向量与所述第一话题文本序列中每个标定话题文本的第一话题视角的话题文本向量进行关联性分析,获得对应的第一关联值,并依据所述第一关联值从所述第一话题文本序列中确定设定数量的标定话题文本,生成第二话题文本序列;
对所述候选话题文本的第二话题视角的话题文本向量与所述第二话题文本序列中每个标定话题文本的第二话题视角的话题文本向量进行关联性分析,获得对应的第二关联值,并依据所述第二关联值确定所述候选话题文本的话题文本查找数据。
在第一方面的一种可能的实施方式中,所述获取话题文本大数据中的候选话题文本的第一话题视角的话题文本向量和第二话题视角的话题文本向量,包括:
对所述候选话题文本的文本语义特征进行衍生扩展,获得所述候选话题文本对应的第一衍生扩展话题文本和第二衍生扩展话题文本;
分别对所述候选话题文本对应的第一衍生扩展话题文本和第二衍生扩展话题文本进行主题向量编码,获得所述候选话题文本的第一话题视角的话题文本向量和第二话题视角的话题文本向量。
在第一方面的一种可能的实施方式中,所述分别对所述候选话题文本对应的第一衍生扩展话题文本和第二衍生扩展话题文本进行主题向量编码,获得所述候选话题文本的第一话题视角的话题文本向量和第二话题视角的话题文本向量,包括:
分别对所述候选话题文本的第一衍生扩展话题文本和所述第二衍生扩展话题文本进行初始主题向量编码,获得所述候选话题文本的第一初始主题向量和第二初始主题向量;
分别对所述候选话题文本的第一初始主题向量及所述第二初始主题向量进行启发式搜索,获得所述候选话题文本对应的第一启发式搜索向量和第二启发式搜索向量;
分别对所述第一启发式搜索向量和所述第二启发式搜索向量进行话题关键词的知识关系提取,获得所述候选话题文本对应的第一话题视角的话题文本向量和第二话题视角的话题文本向量。
在第一方面的一种可能的实施方式中,所述主题向量编码是基于生成式人工智能网络执行的,所述生成式人工智能网络包括编码器、启发式搜索层和第二图自注意力层;
所述分别对所述候选话题文本对应的第一衍生扩展话题文本和第二衍生扩展话题文本进行主题向量编码,获得所述候选话题文本的第一话题视角的话题文本向量和第二话题视角的话题文本向量,包括:
依据所述编码器,分别对所述第一衍生扩展话题文本和所述第二衍生扩展话题文本进行初始主题向量编码,获得所述候选话题文本的第一初始主题向量和第二初始主题向量;
依据所述启发式搜索层,分别对所述第一初始主题向量和所述第二初始主题向量进行启发式搜索,获得所述候选话题文本对应的第一启发式搜索向量和第二启发式搜索向量;
依据所述第二图自注意力层,对所述第一启发式搜索向量进行话题关键词的知识关系提取,获得所述候选话题文本对应的第一话题视角的话题文本向量;
对所述第二启发式搜索向量进行特征降维,获得所述候选话题文本对应的第二话题视角的话题文本向量。
在第一方面的一种可能的实施方式中,所述生成式人工智能网络还包括第一图自注意力层,所述方法还包括:
获取基础生成式人工智能网络以及训练话题文本;
依据所述训练话题文本,对所述基础生成式人工智能网络中的所述编码器进行知识学习,获得所述基础生成式人工智能网络对应的第一生成式人工智能网络;
锁定所述第一生成式人工智能网络中所述编码器的权重信息,对所述第一生成式人工智能网络中的所述第一图自注意力层进行知识学习,获得所述第一生成式人工智能网络对应的第二生成式人工智能网络;
锁定所述第一生成式人工智能网络中所述编码器的权重信息、以及所述第一生成式人工智能网络中的所述第一图自注意力层的权重信息,对所述第二生成式人工智能网络中的所述第二图自注意力层进行知识学习,获得所述第二生成式人工智能网络对应的第三生成式人工智能网络,并将所述第三生成式人工智能网络作为所述生成式人工智能网络。
在第一方面的一种可能的实施方式中,所述依据所述训练话题文本,对所述基础生成式人工智能网络中的所述编码器进行知识学习,获得所述基础生成式人工智能网络对应的第一生成式人工智能网络,包括:
对所述训练话题文本的文本语义特征进行衍生扩展,获得所述训练话题文本对应的第一衍生扩展话题文本和第二衍生扩展话题文本,并以所述训练话题文本对应的第一衍生扩展话题文本为目标训练话题文本、以所述训练话题文本对应的第二衍生扩展话题文本为积极训练话题文本,以其它训练话题文本为消极训练话题文本;
基于所述基础生成式人工智能网络中的所述编码器,分别对所述目标训练话题文本、所述积极训练话题文本和所述消极训练话题文本进行初始主题向量编码,获得对应的目标训练话题文本向量、积极训练话题文本向量和消极训练话题文本向量;
获取所述目标训练话题文本向量与所述积极训练话题文本向量之间的第一特征距离、以及所述目标训练话题文本向量与所述消极训练话题文本向量之间的第二特征距离,并依据所述第一特征距离及所述第二特征距离生成所述基础生成式人工智能网络的第一训练误差参数;
依据所述第一训练误差参数对所述基础生成式人工智能网络中的所述编码器进行训练,获得所述基础生成式人工智能网络对应的第一生成式人工智能网络。
在第一方面的一种可能的实施方式中,所述对所述第一生成式人工智能网络中的所述第一图自注意力层进行知识学习,获得所述第一生成式人工智能网络对应的第二生成式人工智能网络,包括:
基于所述第一生成式人工智能网络中的所述第一图自注意力层,分别对所述目标训练话题文本向量、所述积极训练话题文本向量和所述消极训练话题文本向量进行话题关键词的知识关系提取,获得对应的目标训练自注意力向量、积极训练自注意力向量和消极训练自注意力向量;
获取所述目标训练自注意力向量与所述积极训练自注意力向量之间的第三特征距离、以及所述目标训练自注意力向量与所述消极训练自注意力向量之间的第四特征距离,并依据所述第三特征距离及所述第四特征距离生成所述第一生成式人工智能网络的第二训练误差参数; 依据所述第二训练误差参数对所述第一生成式人工智能网络中的所述第一图自注意力层进行训练,获得所述第一生成式人工智能网络对应的第二生成式人工智能网络。
在第一方面的一种可能的实施方式中,所述对所述第二生成式人工智能网络中的所述第二图自注意力层进行知识学习,获得所述第二生成式人工智能网络对应的第三生成式人工智能网络,包括:
获取训练话题文本向量序列,所述训练话题文本向量序列包括多个训练话题文本分别对应的训练话题文本向量以及各所述训练话题文本向量对应的标注特征向量,所述标注特征向量反映依据所述第二图自注意力层对所述训练话题文本向量进行话题关键词的知识关系提取的图知识向量;
基于所述第二生成式人工智能网络中的所述第二图自注意力层,分别对各所述训练话题文本向量进行话题关键词的知识关系提取,获得各所述训练话题文本向量分别对应的训练图知识向量;
确定各所述训练图知识向量分别与相应的所述标注特征向量的特征距离,并将各所述特征距离进行均值计算,获得所述生成式人工智能网络的第三训练误差参数;
依据所述第三训练误差参数,对所述第二生成式人工智能网络中的所述第二图自注意力层进行训练,获得所述第二生成式人工智能网络对应的第三生成式人工智能网络。
在第一方面的一种可能的实施方式中,所述获取第一话题文本序列中每个标定话题文本的第一话题视角的话题文本向量和第二话题视角的话题文本向量,包括:
分别对所述第一话题文本序列中每个标定话题文本,对所述标定话题文本的文本语义特征进行衍生扩展,获得所述标定话题文本对应的第三衍生扩展话题文本;
对所述标定话题文本对应的第三衍生扩展话题文本进行初始主题向量编码,获得所述标定话题文本对应的第三初始主题向量;
对所述标定话题文本对应的第三初始主题向量进行启发式搜索,获得所述标定话题文本对应的第三启发式搜索向量;
对所述第三启发式搜索向量进行不同知识图谱生成维度的话题关键词的知识关系提取,获得所述标定话题文本对应的第一话题视角的话题文本向量和第二话题视角的话题文本向量;
所述对所述标定话题文本对应的第三衍生扩展话题文本进行初始主题向量编码,获得所述标定话题文本对应的第三初始主题向量,包括:
基于图自编码网络,对所述标定话题文本对应的第三衍生扩展话题文本进行初始主题向量编码,获得所述标定话题文本对应的多个图自编码向量,并将所述多个图自编码向量作为第三初始主题向量;
所述对所述标定话题文本对应的第三初始主题向量进行启发式搜索,获得所述标定话题文本对应的第三启发式搜索向量,包括:
对所述多个图自编码向量进行聚合,获得所述标定话题文本对应的第三启发式搜索向量。
依据本申请的第二方面,提供一种云话题服务系统,所述云话题服务系统包括处理器以及可读存储介质,所述可读存储介质存储有程序,该程序被处理器执行时实现前述的基于AIGC的话题文本大数据分析方法。
依据本申请的第三方面,提供提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,在监测到所述计算机可执行指令被执行时,实现前述的基于AIGC的话题文本大数据分析方法。
依据以上任意一个方面,本申请中,通过从话题文本大数据中获取候选话题文本,并为其生成两个话题视角下的话题文本向量,其中第一个话题视角的特征维度数量小于第二个话题视角。同时,也为已经标定的话题文本序列中的每个文本生成相应的两个话题视角下的话题文本向量,有助于将复杂的话题文本信息转化为易于处理和分析的向量形式,大大提高了后续处理的效率。接着,通过对候选话题文本的第一话题视角的话题文本向量与每个标定话题文本的第一话题视角的话题文本向量进行关联性分析,获得第一关联值。根据这个关联值,从已经标定的话题文本序列中确定一定数量的文本,生成第二话题文本序列,能够有效地缩小后续处理的数据规模,提高处理速度。最后,对候选话题文本的第二话题视角的话题文本向量与第二话题文本序列中的每个标定话题文本的第二话题视角的话题文本向量进行关联性分析,获得第二关联值。依据这个第二关联值,可以确定候选话题文本的话题文本查找数据,通过对更高维度的特征进行关联性分析,能够更精确地找到与候选话题文本相关的信息,从而提高了查找的准确性。由此,本申请能够在大数据环境下高效、准确地进行话题文本向量的生成和查找,大大提高了话题文本处理的效率和准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以依据这些附图获得其它相关的附图。
图1本申请实施例所提供的基于AIGC的话题文本大数据分析方法的流程示意图;
图2示出了本申请实施例所提供的用于实现上述的基于AIGC的话题文本大数据分析方法的云话题服务系统的组件结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。依据本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排它的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
图1示出了本申请实施例提供的基于AIGC的话题文本大数据分析方法的流程示意图,应当理解,在其它实施例中,本实施例的基于AIGC的话题文本大数据分析方法其中部分步骤的顺序可以依据实际需要相互交换,或者其中的部分步骤也可以省略或删除。该基于AIGC的话题文本大数据分析方法的详细步骤介绍如下。
步骤S110,获取话题文本大数据中的候选话题文本的第一话题视角的话题文本向量和第二话题视角的话题文本向量,以及第一话题文本序列中每个标定话题文本的第一话题视角的话题文本向量和第二话题视角的话题文本向量,其中,所述第一话题视角的特征维度数量小于所述第二话题视角。
例如,假设当前正在进行一个大型电商网站上商品评论的分析项目,希望对“产品质量”和“客户服务”两个话题进行探索。首先,从所有用户评论中获取候选话题文本,即可能涉及"产品质量"或"客户服务"的评论。每条评论都会被转换为两个话题文本向量:第一话题视角(“产品质量”)和第二话题视角(“客户服务”)。其中,第一话题视角的特征维度数量可能较小,因为它主要涵盖了如“耐用”,“性价比”,“功能完善”等与产品质量直接相关的词汇;而第二话题视角的特征维度数量可能较多,因为它包含了更广泛的词汇,如“快递”,“售后”,“退款”等。
步骤S120,对所述候选话题文本的第一话题视角的话题文本向量与所述第一话题文本序列中每个标定话题文本的第一话题视角的话题文本向量进行关联性分析,获得对应的第一关联值,并依据所述第一关联值从所述第一话题文本序列中确定设定数量的标定话题文本,生成第二话题文本序列。
例如,本步骤需要对候选话题文本的第一话题视角的话题文本向量进行关联性分析。假设已经有一些标定的话题文本序列,这是一组已知主要讨论产品质量的评论,将其转化为第一话题视角的话题文本向量。会比较候选话题文本的第一话题视角向量与标定话题文本的第一话题视角向量之间的相似性,获得第一关联值。如果这个值超过了设定的阈值,就认为这条候选评论也主要关注产品质量,并将其加入到第二话题文本序列中。
步骤S130,对所述候选话题文本的第二话题视角的话题文本向量与所述第二话题文本序列中每个标定话题文本的第二话题视角的话题文本向量进行关联性分析,获得对应的第二关联值,并依据所述第二关联值确定所述候选话题文本的话题文本查找数据。
例如,本步骤需要对候选话题文本的第二话题视角的话题文本向量进行关联性分析。类似于步骤S120,现在比较的是每条候选评论的第二话题视角向量(即客户服务相关)与第二话题文本序列中的标定话题文本的第二话题视角向量。获得第二关联值,并根据这个第二关联值确定候选话题文本是否主要讨论客户服务。如果是,就会在话题文本查找数据中记录下这条评论的信息,以供后续进一步分析和研究。
基于以上步骤,通过从话题文本大数据中获取候选话题文本,并为其生成两个话题视角下的话题文本向量,其中第一个话题视角的特征维度数量小于第二个话题视角。同时,也为已经标定的话题文本序列中的每个文本生成相应的两个话题视角下的话题文本向量,有助于将复杂的话题文本信息转化为易于处理和分析的向量形式,大大提高了后续处理的效率。接着,通过对候选话题文本的第一话题视角的话题文本向量与每个标定话题文本的第一话题视角的话题文本向量进行关联性分析,获得第一关联值。根据这个关联值,从已经标定的话题文本序列中确定一定数量的文本,生成第二话题文本序列,能够有效地缩小后续处理的数据规模,提高处理速度。最后,对候选话题文本的第二话题视角的话题文本向量与第二话题文本序列中的每个标定话题文本的第二话题视角的话题文本向量进行关联性分析,获得第二关联值。依据这个第二关联值,可以确定候选话题文本的话题文本查找数据,通过对更高维度的特征进行关联性分析,能够更精确地找到与候选话题文本相关的信息,从而提高了查找的准确性。由此,本申请能够在大数据环境下高效、准确地进行话题文本向量的生成和查找,大大提高了话题文本处理的效率和准确性。
在一种可能的实施方式中,所述步骤S110可以包括:
步骤S111,对所述候选话题文本的文本语义特征进行衍生扩展,获得所述候选话题文本对应的第一衍生扩展话题文本和第二衍生扩展话题文本。
例如,假设正在分析一款手机的评论,可以从“产品质量”和“客户服务”两个角度来研究。对于每条评论(候选话题文本),首先进行语义特征的衍生扩展。例如,如果一条评论提到“手机运行流畅”,可能会在第一衍生扩展话题文本中添加类似于“速度快”,“性能优秀”等语义相近的词汇;如果评论提到“售后服务良好”,可能会在第二衍生扩展话题文本中添加“响应迅速”,“态度友好”等词汇。
步骤S112,分别对所述候选话题文本对应的第一衍生扩展话题文本和第二衍生扩展话题文本进行主题向量编码,获得所述候选话题文本的第一话题视角的话题文本向量和第二话题视角的话题文本向量。
例如,将对每条评论对应的第一衍生扩展话题文本和第二衍生扩展话题文本进行主题向量编码。例如,可能使用word2vec或者BERT这样的工具将每一个词转化为一个多维的向量,以此来表示该词的语义信息。通过这种方式,就可以获得每条评论在“产品质量”(第一话题视角)和“客户服务”(第二话题视角)两个方面的话题文本向量。这样,如果一条评论在产品质量方面有很强的语义特征(如“性能优秀”,“速度快”等),那么它的第一话题视角的话题文本向量就会强调这些特征;同理,如果一条评论在客户服务方面有很强的语义特征(如“响应迅速”,“态度友好”等),那么它的第二话题视角的话题文本向量就会强调这些特征。
在一种可能的实施方式中,步骤S112可以包括:
步骤S1121,分别对所述候选话题文本的第一衍生扩展话题文本和所述第二衍生扩展话题文本进行初始主题向量编码,获得所述候选话题文本的第一初始主题向量和第二初始主题向量。
例如,在收集并进行语义衍生扩展后,首先对每条评论(候选话题文本)对应的第一衍生扩展话题文本和第二衍生扩展话题文本进行初始主题向量编码。例如,可以使用词嵌入模型如word2vec或BERT等将每一个词转化为一个多维的向量。这样,就获得了每条评论的第一初始主题向量(与“产品质量”相关)和第二初始主题向量(与“客户服务”相关)。
步骤S1122,分别对所述候选话题文本的第一初始主题向量及所述第二初始主题向量进行启发式搜索,获得所述候选话题文本对应的第一启发式搜索向量和第二启发式搜索向量。
例如,可以对每条评论的第一初始主题向量和第二初始主题向量进行启发式搜索。这个过程可能包括查找相近的词汇、引入同义词或反义词、甚至进行更深层次的语义分析等操作,从而使得原始的主题向量能够更好地捕捉到评论中的主题信息。通过启发式搜索,获得了每条评论的第一启发式搜索向量和第二启发式搜索向量。
步骤S1123,分别对所述第一启发式搜索向量和所述第二启发式搜索向量进行话题关键词的知识关系提取,获得所述候选话题文本对应的第一话题视角的话题文本向量和第二话题视角的话题文本向量。
例如,可以对第一启发式搜索向量和第二启发式搜索向量进行话题关键词的知识关系提取。这可能包括分析关键词之间的关联性、依赖性、以及在特定领域内的重要性等等。例如,对于“产品质量”,可能会分析词汇“耐用”、“性价比”、“功能完善”等词汇之间的关系;对于“客户服务”,可能会分析“快递”、“售后”、“退款”等词汇之间的关系。通过这种方式,最终获得了每条评论在第一话题视角和第二话题视角下的话题文本向量,这些向量更深入地反映了用户评论中的主题信息。
在一种可能的实施方式中,所述主题向量编码是基于生成式人工智能网络执行的,所述生成式人工智能网络包括编码器、启发式搜索层和第二图自注意力层。
步骤S112可以包括:
步骤S11201,依据所述编码器,分别对所述第一衍生扩展话题文本和所述第二衍生扩展话题文本进行初始主题向量编码,获得所述候选话题文本的第一初始主题向量和第二初始主题向量。
例如,可以使用一个生成式人工智能网络进行主题向量编码,该生成式人工智能网络包括编码器、启发式搜索层和第二图自注意力层。首先,编码器将每条评论对应的第一衍生扩展话题文本(例如,“手机运行流畅”,“速度快”,“性能优秀”等)和第二衍生扩展话题文本(例如,“售后服务良好”,“响应迅速”,“态度友好”等)转化为初始主题向量。这就得到了每条评论的第一初始主题向量和第二初始主题向量。
步骤S11202,依据所述启发式搜索层,分别对所述第一初始主题向量和所述第二初始主题向量进行启发式搜索,获得所述候选话题文本对应的第一启发式搜索向量和第二启发式搜索向量。
例如,可以使用启发式搜索层对每条评论的第一初始主题向量和第二初始主题向量进行处理。通过查找相近词汇、引入同义词或反义词、甚至进行更深层次的语义分析,获得了每条评论的第一启发式搜索向量和第二启发式搜索向量。
步骤S11203,依据所述第二图自注意力层,对所述第一启发式搜索向量进行话题关键词的知识关系提取,获得所述候选话题文本对应的第一话题视角的话题文本向量。
例如,可以使用第二图自注意力层对第一启发式搜索向量进行处理,这可能包括提取关键词的知识关系、分析关键词之间的关联性等等。这样,就获得了每条评论在“产品质量”话题视角下的话题文本向量。
步骤S11204,对所述第二启发式搜索向量进行特征降维,获得所述候选话题文本对应的第二话题视角的话题文本向量。
例如,可以对第二启发式搜索向量进行特征降维,以减少计算复杂度和提高模型的泛化能力。这样,就获得了每条评论在“客户服务”话题视角下的话题文本向量。通过以上步骤,不仅可以理解每条评论主要关注的是“产品质量”还是“客户服务”,而且还可以深入了解用户对这两个话题的具体看法。
在一种可能的实施方式中,所述生成式人工智能网络还包括第一图自注意力层,所述方法还包括:
步骤S101,获取基础生成式人工智能网络以及训练话题文本。
继续使用电商网站上商品评论分析的场景来说明这个过程。
例如,可以获取基础生成式人工智能网络以及一些已经标记了“产品质量”和“客户服务”主题的训练话题文本。这些训练文本可能是由专家手动标记,也可能是通过其他方式获取的。
步骤S102,依据所述训练话题文本,对所述基础生成式人工智能网络中的所述编码器进行知识学习,获得所述基础生成式人工智能网络对应的第一生成式人工智能网络。
例如,可以依据训练话题文本对基础生成式人工智能网络中的编码器进行知识学习。这个过程可能包括将每个词转换为一个多维的向量,以此来表示该词的语义信息。经过知识学习后,获得了第一生成式人工智能网络。
步骤S103,锁定所述第一生成式人工智能网络中所述编码器的权重信息,对所述第一生成式人工智能网络中的所述第一图自注意力层进行知识学习,获得所述第一生成式人工智能网络对应的第二生成式人工智能网络。
例如,可以锁定第一生成式人工智能网络中编码器的权重信息,即固定住编码器的参数,使其在后续的学习过程中不再改变。然后,对第一生成式人工智能网络中的第一图自注意力层进行知识学习。这个过程可能包括提取关键词的知识关系、分析关键词之间的关联性等等。这样,就获得了第二生成式人工智能网络。
步骤S104,锁定所述第一生成式人工智能网络中所述编码器的权重信息、以及所述第一生成式人工智能网络中的所述第一图自注意力层的权重信息,对所述第二生成式人工智能网络中的所述第二图自注意力层进行知识学习,获得所述第二生成式人工智能网络对应的第三生成式人工智能网络,并将所述第三生成式人工智能网络作为所述生成式人工智能网络。
例如,可以锁定第一生成式人工智能网络中编码器的权重信息和第一图自注意力层的权重信息,然后对第二生成式人工智能网络中的第二图自注意力层进行知识学习。这个过程可能包括进一步提取关键词的知识关系、进行更深层次的语义分析等等。这样,就获得了第三生成式人工智能网络,并将其作为最终的生成式人工智能网络来进行商品评论的主题分析。
在一种可能的实施方式中,步骤S102可以包括:
步骤S1021,对所述训练话题文本的文本语义特征进行衍生扩展,获得所述训练话题文本对应的第一衍生扩展话题文本和第二衍生扩展话题文本,并以所述训练话题文本对应的第一衍生扩展话题文本为目标训练话题文本、以所述训练话题文本对应的第二衍生扩展话题文本为积极训练话题文本,以其它训练话题文本为消极训练话题文本。
继续使用电商网站上商品评论分析的场景来说明这个过程。
例如,首先可以对训练话题文本(即已经标记了“产品质量”和“客户服务”主题的评论)的文本语义特征进行衍生扩展。比如,如果原始训练文本提到“手机运行流畅”,那么在第一衍生扩展话题文本中,可能会添加诸如“速度快”,“性能优秀”等语义相近的词汇;如果原始训练文本提到了“售后服务良好”,那么在第二衍生扩展话题文本中,可能会添加如“响应迅速”,“态度友好”等词汇。然后,将第一衍生扩展话题文本设为目标训练话题文本,第二衍生扩展话题文本设为积极训练话题文本,其余训练话题文本设为消极训练话题文本。
步骤S1022,基于所述基础生成式人工智能网络中的所述编码器,分别对所述目标训练话题文本、所述积极训练话题文本和所述消极训练话题文本进行初始主题向量编码,获得对应的目标训练话题文本向量、积极训练话题文本向量和消极训练话题文本向量。
例如,可以使用基础生成式人工智能网络中的编码器,对目标训练话题文本、积极训练话题文本和消极训练话题文本进行初始主题向量编码。例如,可能使用词嵌入模型如word2vec或BERT等将每一个词转化为一个多维的向量。这样,就获得了目标训练话题文本向量、积极训练话题文本向量和消极训练话题文本向量。
步骤S1023,获取所述目标训练话题文本向量与所述积极训练话题文本向量之间的第一特征距离、以及所述目标训练话题文本向量与所述消极训练话题文本向量之间的第二特征距离,并依据所述第一特征距离及所述第二特征距离生成所述基础生成式人工智能网络的第一训练误差参数。
例如,可以计算目标训练话题文本向量与积极训练话题文本向量之间的第一特征距离,以及目标训练话题文本向量与消极训练话题文本向量之间的第二特征距离。这些特征距离可以通过各种方式计算,比如欧几里得距离、余弦相似度等。然后,依据第一特征距离和第二特征距离生成基础生成式人工智能网络的第一训练误差参数。
步骤S1024,依据所述第一训练误差参数对所述基础生成式人工智能网络中的所述编码器进行训练,获得所述基础生成式人工智能网络对应的第一生成式人工智能网络。
例如,可以根据第一训练误差参数对基础生成式人工智能网络中的编码器进行训练。在这个过程中,编码器会逐渐调整其参数,使得产生的主题向量能够更好地反映评论中的主题信息。经过训练后,就得到了基础生成式人工智能网络对应的第一生成式人工智能网络。
在一种可能的实施方式中,步骤S103可以包括:
步骤S1031,基于所述第一生成式人工智能网络中的所述第一图自注意力层,分别对所述目标训练话题文本向量、所述积极训练话题文本向量和所述消极训练话题文本向量进行话题关键词的知识关系提取,获得对应的目标训练自注意力向量、积极训练自注意力向量和消极训练自注意力向量。
例如,可以使用第一生成式人工智能网络中的第一图自注意力层对目标训练话题文本向量、积极训练话题文本向量和消极训练话题文本向量进行处理。这个过程可能包括提取关键词的知识关系、分析关键词之间的关联性等等。这样,就获得了目标训练自注意力向量、积极训练自注意力向量和消极训练自注意力向量。
步骤S1032,获取所述目标训练自注意力向量与所述积极训练自注意力向量之间的第三特征距离、以及所述目标训练自注意力向量与所述消极训练自注意力向量之间的第四特征距离,并依据所述第三特征距离及所述第四特征距离生成所述第一生成式人工智能网络的第二训练误差参数。 依据所述第二训练误差参数对所述第一生成式人工智能网络中的所述第一图自注意力层进行训练,获得所述第一生成式人工智能网络对应的第二生成式人工智能网络。
例如,可以计算目标训练自注意力向量与积极训练自注意力向量之间的第三特征距离,以及目标训练自注意力向量与消极训练自注意力向量之间的第四特征距离。这些特征距离可以通过各种方式计算,比如欧几里得距离、余弦相似度等。然后,依据第三特征距离和第四特征距离生成第一生成式人工智能网络的第二训练误差参数。
最后,根据第二训练误差参数对第一生成式人工智能网络中的第一图自注意力层进行训练。在这个过程中,第一图自注意力层会逐渐调整其参数,使得产生的自注意力向量能够更好地反映评论中的主题信息。经过训练后,就得到了第一生成式人工智能网络对应的第二生成式人工智能网络。
在一种可能的实施方式中,步骤S104可以包括:
步骤S1041,获取训练话题文本向量序列,所述训练话题文本向量序列包括多个训练话题文本分别对应的训练话题文本向量以及各所述训练话题文本向量对应的标注特征向量,所述标注特征向量反映依据所述第二图自注意力层对所述训练话题文本向量进行话题关键词的知识关系提取的图知识向量。
例如,首先获取训练话题文本向量序列,这个序列包括多个训练话题文本分别对应的训练话题文本向量以及各训练话题文本向量对应的标注特征向量。例如,如果的训练数据包括了关于“产品质量”和“客户服务”的评论,那么每一条评论就可以被转化为一个训练话题文本向量,而对应的标注特征向量则反映出第二图自注意力层对训练话题文本向量进行话题关键词的知识关系提取的结果。
步骤S1042,基于所述第二生成式人工智能网络中的所述第二图自注意力层,分别对各所述训练话题文本向量进行话题关键词的知识关系提取,获得各所述训练话题文本向量分别对应的训练图知识向量。
例如,可以使用第二生成式人工智能网络中的第二图自注意力层对各训练话题文本向量进行处理,这可能包括进一步提取关键词的知识关系、进行更深层次的语义分析等等。这样,就获得了每个训练话题文本向量对应的训练图知识向量。
步骤S1043,确定各所述训练图知识向量分别与相应的所述标注特征向量的特征距离,并将各所述特征距离进行均值计算,获得所述生成式人工智能网络的第三训练误差参数。
例如,可计算每个训练图知识向量与相应的标注特征向量之间的特征距离,然后将所有特征距离进行均值计算,得到第三训练误差参数。这个参数反映了的模型在训练过程中的预测结果与真实结果之间的差距。
步骤S1044,依据所述第三训练误差参数,对所述第二生成式人工智能网络中的所述第二图自注意力层进行训练,获得所述第二生成式人工智能网络对应的第三生成式人工智能网络。
例如,根据第三训练误差参数对第二生成式人工智能网络中的第二图自注意力层进行训练。在这个过程中,第二图自注意力层会逐渐调整其参数,使得产生的图知识向量能够更好地反映评论中的主题信息。经过训练后,就得到了第二生成式人工智能网络对应的第三生成式人工智能网络。
在一种可能的实施方式中,步骤S110中获取第一话题文本序列中每个标定话题文本的第一话题视角的话题文本向量和第二话题视角的话题文本向量,包括:
步骤S113,分别对所述第一话题文本序列中每个标定话题文本,对所述标定话题文本的文本语义特征进行衍生扩展,获得所述标定话题文本对应的第三衍生扩展话题文本。
例如,在电商网站上,首先选取了一系列已经标记了“产品质量”和“客户服务”主题的评论,形成第一话题文本序列。对于这个序列中的每一个标定话题文本,会对其进行衍生扩展。比如,如果原始评论提到了“手机运行流畅”,那么在第三衍生扩展话题文本中,可能会添加诸如“速度快”,“性能优秀”等语义相近的词汇。
步骤S114,对所述标定话题文本对应的第三衍生扩展话题文本进行初始主题向量编码,获得所述标定话题文本对应的第三初始主题向量。
例如,可以基于图自编码网络,对所述标定话题文本对应的第三衍生扩展话题文本进行初始主题向量编码,获得所述标定话题文本对应的多个图自编码向量,并将所述多个图自编码向量作为第三初始主题向量。
步骤S115,对所述标定话题文本对应的第三初始主题向量进行启发式搜索,获得所述标定话题文本对应的第三启发式搜索向量。
例如,可以对所述多个图自编码向量进行聚合,获得所述标定话题文本对应的第三启发式搜索向量。
例如,可以使用图自编码网络对标定话题文本对应的第三衍生扩展话题文本进行初始主题向量编码。例如,可能使用词嵌入模型如word2vec或BERT等将每一个词转化为一个多维的向量。这样,就获得了标定话题文本对应的多个图自编码向量,并将这些向量作为第三初始主题向量。
步骤S116,对所述第三启发式搜索向量进行不同知识图谱生成维度的话题关键词的知识关系提取,获得所述标定话题文本对应的第一话题视角的话题文本向量和第二话题视角的话题文本向量。
例如,对第三启发式搜索向量进行不同知识图谱生成维度的话题关键词的知识关系提取。这可能包括根据预先构建的知识图谱找出与当前评论相关的主题,或者使用自然语言处理技术如命名实体识别、关系抽取等从评论中直接提取出关键信息。通过这个过程,可以得到标定话题文本在“产品质量”和“客户服务”两个视角下的话题文本向量。
进一步地,图2示出了一种用于实现本申请实施例所提供的方法的云话题服务系统100的硬件结构示意图。如图2所示,云话题服务系统100可以包括一个或多个处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106以及控制器108。本领域普通技术人员可以理解,图2所示的结构仅为示意,其并不对该云话题服务系统100的结构造成限定。例如,云话题服务系统100还可包括比图2中所示更多或者更少的组件,或者具有与图2所示不同的配置。
存储器104可用于存储应用软件的软件程序以及模块,如本申请实施例中上述的方法实施例对应的程序指令,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的一种基于AIGC的话题文本大数据分析方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其它非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至云话题服务系统100。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括云话题服务系统100的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器,其可通过基站与其它网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频模块,其用于通过无线方式与互联网进行通讯。
需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本申请实施例特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以依据不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本申请实施例中的各个实施例均依据递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。尤其,对于以上不同实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,上述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
Claims (9)
1.一种基于AIGC的话题文本大数据分析方法,其特征在于,所述方法包括:
获取话题文本大数据中的候选话题文本的第一话题视角的话题文本向量和第二话题视角的话题文本向量,以及第一话题文本序列中每个标定话题文本的第一话题视角的话题文本向量和第二话题视角的话题文本向量,所述第一话题视角的特征维度数量小于所述第二话题视角;
对所述候选话题文本的第一话题视角的话题文本向量与所述第一话题文本序列中每个标定话题文本的第一话题视角的话题文本向量进行关联性分析,获得对应的第一关联值,并依据所述第一关联值从所述第一话题文本序列中确定设定数量的标定话题文本,生成第二话题文本序列;
对所述候选话题文本的第二话题视角的话题文本向量与所述第二话题文本序列中每个标定话题文本的第二话题视角的话题文本向量进行关联性分析,获得对应的第二关联值,并依据所述第二关联值确定所述候选话题文本的话题文本查找数据;
获取第一话题文本序列中每个标定话题文本的第一话题视角的话题文本向量和第二话题视角的话题文本向量,包括:
分别对所述第一话题文本序列中每个标定话题文本,对所述标定话题文本的文本语义特征进行衍生扩展,获得所述标定话题文本对应的第三衍生扩展话题文本;
对所述标定话题文本对应的第三衍生扩展话题文本进行初始主题向量编码,获得所述标定话题文本对应的第三初始主题向量;
对所述标定话题文本对应的第三初始主题向量进行启发式搜索,获得所述标定话题文本对应的第三启发式搜索向量;
对所述第三启发式搜索向量进行不同知识图谱生成维度的话题关键词的知识关系提取,获得所述标定话题文本对应的第一话题视角的话题文本向量和第二话题视角的话题文本向量;
所述对所述标定话题文本对应的第三衍生扩展话题文本进行初始主题向量编码,获得所述标定话题文本对应的第三初始主题向量,包括:
基于图自编码网络,对所述标定话题文本对应的第三衍生扩展话题文本进行初始主题向量编码,获得所述标定话题文本对应的多个图自编码向量,并将所述多个图自编码向量作为第三初始主题向量;
所述对所述标定话题文本对应的第三初始主题向量进行启发式搜索,获得所述标定话题文本对应的第三启发式搜索向量,包括:
对所述多个图自编码向量进行聚合,获得所述标定话题文本对应的第三启发式搜索向量。
2.根据权利要求1所述的基于AIGC的话题文本大数据分析方法,其特征在于,所述获取话题文本大数据中的候选话题文本的第一话题视角的话题文本向量和第二话题视角的话题文本向量,包括:
对所述候选话题文本的文本语义特征进行衍生扩展,获得所述候选话题文本对应的第一衍生扩展话题文本和第二衍生扩展话题文本;
分别对所述候选话题文本对应的第一衍生扩展话题文本和第二衍生扩展话题文本进行主题向量编码,获得所述候选话题文本的第一话题视角的话题文本向量和第二话题视角的话题文本向量。
3.根据权利要求2所述的基于AIGC的话题文本大数据分析方法,其特征在于,所述分别对所述候选话题文本对应的第一衍生扩展话题文本和第二衍生扩展话题文本进行主题向量编码,获得所述候选话题文本的第一话题视角的话题文本向量和第二话题视角的话题文本向量,包括:
分别对所述候选话题文本的第一衍生扩展话题文本和所述第二衍生扩展话题文本进行初始主题向量编码,获得所述候选话题文本的第一初始主题向量和第二初始主题向量;
分别对所述候选话题文本的第一初始主题向量及所述第二初始主题向量进行启发式搜索,获得所述候选话题文本对应的第一启发式搜索向量和第二启发式搜索向量;
分别对所述第一启发式搜索向量和所述第二启发式搜索向量进行话题关键词的知识关系提取,获得所述候选话题文本对应的第一话题视角的话题文本向量和第二话题视角的话题文本向量。
4.根据权利要求2所述的基于AIGC的话题文本大数据分析方法,其特征在于,所述主题向量编码是基于生成式人工智能网络执行的,所述生成式人工智能网络包括编码器、启发式搜索层和第二图自注意力层;
所述分别对所述候选话题文本对应的第一衍生扩展话题文本和第二衍生扩展话题文本进行主题向量编码,获得所述候选话题文本的第一话题视角的话题文本向量和第二话题视角的话题文本向量,包括:
依据所述编码器,分别对所述第一衍生扩展话题文本和所述第二衍生扩展话题文本进行初始主题向量编码,获得所述候选话题文本的第一初始主题向量和第二初始主题向量;
依据所述启发式搜索层,分别对所述第一初始主题向量和所述第二初始主题向量进行启发式搜索,获得所述候选话题文本对应的第一启发式搜索向量和第二启发式搜索向量;
依据所述第二图自注意力层,对所述第一启发式搜索向量进行话题关键词的知识关系提取,获得所述候选话题文本对应的第一话题视角的话题文本向量;
对所述第二启发式搜索向量进行特征降维,获得所述候选话题文本对应的第二话题视角的话题文本向量。
5.根据权利要求4所述的基于AIGC的话题文本大数据分析方法,其特征在于,所述生成式人工智能网络还包括第一图自注意力层,所述方法还包括:
获取基础生成式人工智能网络以及训练话题文本;
依据所述训练话题文本,对所述基础生成式人工智能网络中的所述编码器进行知识学习,获得所述基础生成式人工智能网络对应的第一生成式人工智能网络;
锁定所述第一生成式人工智能网络中所述编码器的权重信息,对所述第一生成式人工智能网络中的所述第一图自注意力层进行知识学习,获得所述第一生成式人工智能网络对应的第二生成式人工智能网络;
锁定所述第一生成式人工智能网络中所述编码器的权重信息、以及所述第一生成式人工智能网络中的所述第一图自注意力层的权重信息,对所述第二生成式人工智能网络中的所述第二图自注意力层进行知识学习,获得所述第二生成式人工智能网络对应的第三生成式人工智能网络,并将所述第三生成式人工智能网络作为所述生成式人工智能网络。
6.根据权利要求5所述的基于AIGC的话题文本大数据分析方法,其特征在于,所述依据所述训练话题文本,对所述基础生成式人工智能网络中的所述编码器进行知识学习,获得所述基础生成式人工智能网络对应的第一生成式人工智能网络,包括:
对所述训练话题文本的文本语义特征进行衍生扩展,获得所述训练话题文本对应的第一衍生扩展话题文本和第二衍生扩展话题文本,并以所述训练话题文本对应的第一衍生扩展话题文本为目标训练话题文本、以所述训练话题文本对应的第二衍生扩展话题文本为积极训练话题文本,以其它训练话题文本为消极训练话题文本;
基于所述基础生成式人工智能网络中的所述编码器,分别对所述目标训练话题文本、所述积极训练话题文本和所述消极训练话题文本进行初始主题向量编码,获得对应的目标训练话题文本向量、积极训练话题文本向量和消极训练话题文本向量;
获取所述目标训练话题文本向量与所述积极训练话题文本向量之间的第一特征距离、以及所述目标训练话题文本向量与所述消极训练话题文本向量之间的第二特征距离,并依据所述第一特征距离及所述第二特征距离生成所述基础生成式人工智能网络的第一训练误差参数;
依据所述第一训练误差参数对所述基础生成式人工智能网络中的所述编码器进行训练,获得所述基础生成式人工智能网络对应的第一生成式人工智能网络。
7.根据权利要求6所述的基于AIGC的话题文本大数据分析方法,其特征在于,所述对所述第一生成式人工智能网络中的所述第一图自注意力层进行知识学习,获得所述第一生成式人工智能网络对应的第二生成式人工智能网络,包括:
基于所述第一生成式人工智能网络中的所述第一图自注意力层,分别对所述目标训练话题文本向量、所述积极训练话题文本向量和所述消极训练话题文本向量进行话题关键词的知识关系提取,获得对应的目标训练自注意力向量、积极训练自注意力向量和消极训练自注意力向量;
获取所述目标训练自注意力向量与所述积极训练自注意力向量之间的第三特征距离、以及所述目标训练自注意力向量与所述消极训练自注意力向量之间的第四特征距离,并依据所述第三特征距离及所述第四特征距离生成所述第一生成式人工智能网络的第二训练误差参数; 依据所述第二训练误差参数对所述第一生成式人工智能网络中的所述第一图自注意力层进行训练,获得所述第一生成式人工智能网络对应的第二生成式人工智能网络。
8.根据权利要求6所述的基于AIGC的话题文本大数据分析方法,其特征在于,所述对所述第二生成式人工智能网络中的所述第二图自注意力层进行知识学习,获得所述第二生成式人工智能网络对应的第三生成式人工智能网络,包括:
获取训练话题文本向量序列,所述训练话题文本向量序列包括多个训练话题文本分别对应的训练话题文本向量以及各所述训练话题文本向量对应的标注特征向量,所述标注特征向量反映依据所述第二图自注意力层对所述训练话题文本向量进行话题关键词的知识关系提取的图知识向量;
基于所述第二生成式人工智能网络中的所述第二图自注意力层,分别对各所述训练话题文本向量进行话题关键词的知识关系提取,获得各所述训练话题文本向量分别对应的训练图知识向量;
确定各所述训练图知识向量分别与相应的所述标注特征向量的特征距离,并将各所述特征距离进行均值计算,获得所述生成式人工智能网络的第三训练误差参数;
依据所述第三训练误差参数,对所述第二生成式人工智能网络中的所述第二图自注意力层进行训练,获得所述第二生成式人工智能网络对应的第三生成式人工智能网络。
9.一种云话题服务系统,其特征在于,所述云话题服务系统包括处理器以及可读存储介质,所述可读存储介质存储有程序,该程序被处理器执行时实现权利要求1-8任意一项所述的基于AIGC的话题文本大数据分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311653831.4A CN117371440B (zh) | 2023-12-05 | 2023-12-05 | 基于aigc的话题文本大数据分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311653831.4A CN117371440B (zh) | 2023-12-05 | 2023-12-05 | 基于aigc的话题文本大数据分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117371440A CN117371440A (zh) | 2024-01-09 |
CN117371440B true CN117371440B (zh) | 2024-03-12 |
Family
ID=89404458
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311653831.4A Active CN117371440B (zh) | 2023-12-05 | 2023-12-05 | 基于aigc的话题文本大数据分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117371440B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007241902A (ja) * | 2006-03-10 | 2007-09-20 | Univ Of Tsukuba | テキストデータの分割システム及びテキストデータの分割及び階層化方法 |
CN111966792A (zh) * | 2020-09-03 | 2020-11-20 | 网易(杭州)网络有限公司 | 一种文本处理方法、装置、电子设备及可读存储介质 |
CN112115718A (zh) * | 2020-09-29 | 2020-12-22 | 腾讯科技(深圳)有限公司 | 内容文本生成方法和装置、音乐评论文本生成方法 |
CN114357290A (zh) * | 2021-12-29 | 2022-04-15 | 国家计算机网络与信息安全管理中心 | 一种多视角社交媒体用户立场检测方法与装置 |
CN114357278A (zh) * | 2020-09-28 | 2022-04-15 | 腾讯科技(深圳)有限公司 | 一种话题推荐方法、装置及设备 |
CN115422948A (zh) * | 2022-11-04 | 2022-12-02 | 文灵科技(北京)有限公司 | 一种基于语义分析的事件层次网络识别系统及方法 |
CN115795030A (zh) * | 2022-10-26 | 2023-03-14 | 招联消费金融有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
CN115934951A (zh) * | 2023-02-16 | 2023-04-07 | 湖南大学 | 一种网络热点话题用户情绪预测方法 |
CN116304745A (zh) * | 2023-03-27 | 2023-06-23 | 济南大学 | 基于深层次语义信息的文本话题匹配方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11315551B2 (en) * | 2019-11-07 | 2022-04-26 | Accent Global Solutions Limited | System and method for intent discovery from multimedia conversation |
CN111241282B (zh) * | 2020-01-14 | 2023-09-08 | 北京百度网讯科技有限公司 | 文本主题生成方法、装置及电子设备 |
-
2023
- 2023-12-05 CN CN202311653831.4A patent/CN117371440B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007241902A (ja) * | 2006-03-10 | 2007-09-20 | Univ Of Tsukuba | テキストデータの分割システム及びテキストデータの分割及び階層化方法 |
CN111966792A (zh) * | 2020-09-03 | 2020-11-20 | 网易(杭州)网络有限公司 | 一种文本处理方法、装置、电子设备及可读存储介质 |
CN114357278A (zh) * | 2020-09-28 | 2022-04-15 | 腾讯科技(深圳)有限公司 | 一种话题推荐方法、装置及设备 |
CN112115718A (zh) * | 2020-09-29 | 2020-12-22 | 腾讯科技(深圳)有限公司 | 内容文本生成方法和装置、音乐评论文本生成方法 |
CN114357290A (zh) * | 2021-12-29 | 2022-04-15 | 国家计算机网络与信息安全管理中心 | 一种多视角社交媒体用户立场检测方法与装置 |
CN115795030A (zh) * | 2022-10-26 | 2023-03-14 | 招联消费金融有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
CN115422948A (zh) * | 2022-11-04 | 2022-12-02 | 文灵科技(北京)有限公司 | 一种基于语义分析的事件层次网络识别系统及方法 |
CN115934951A (zh) * | 2023-02-16 | 2023-04-07 | 湖南大学 | 一种网络热点话题用户情绪预测方法 |
CN116304745A (zh) * | 2023-03-27 | 2023-06-23 | 济南大学 | 基于深层次语义信息的文本话题匹配方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于主题标签的在线社区话题发现;周新民等;系统工程(第07期);第44-50页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117371440A (zh) | 2024-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108694225B (zh) | 一种图像搜索方法、特征向量的生成方法、装置及电子设备 | |
US10031973B2 (en) | Method and system for identifying a sensor to be deployed in a physical environment | |
US9754177B2 (en) | Identifying objects within an image | |
CN108268600B (zh) | 基于ai的非结构化数据管理方法及装置 | |
CN109960810B (zh) | 一种实体对齐方法及装置 | |
US10642891B2 (en) | Graph matching by sub-graph grouping and indexing | |
CN110362660A (zh) | 一种基于知识图谱的电子产品质量自动检测方法 | |
WO2022188644A1 (zh) | 词权重的生成方法、装置、设备及介质 | |
CN108090178B (zh) | 一种文本数据分析方法、装置、服务器和存储介质 | |
CN114218400A (zh) | 基于语义的数据湖查询系统及方法 | |
CN110851761A (zh) | 基于区块链的侵权检测方法、装置、设备及存储介质 | |
Perera | Ipedagogy: Question answering system based on web information clustering | |
KR101545050B1 (ko) | 정답 유형 자동 분류 방법 및 장치, 이를 이용한 질의 응답 시스템 | |
KR20200083159A (ko) | 사용자 단말에서의 사진 검색 방법 및 시스템 | |
Siva Shankar et al. | An embedded-based weighted feature selection algorithm for classifying web document | |
CN113569118B (zh) | 自媒体推送方法、装置、计算机设备及存储介质 | |
Kastrati et al. | An improved concept vector space model for ontology based classification | |
EP3166022A1 (en) | Method and apparatus for image search using sparsifying analysis operators | |
CN117371440B (zh) | 基于aigc的话题文本大数据分析方法及系统 | |
Vrigkas et al. | Active privileged learning of human activities from weakly labeled samples | |
WO2021190389A1 (zh) | 语音处理方法、语音编码器、语音解码器及语音识别系统 | |
CN110874412B (zh) | 一种本体匹配方法、装置和计算机存储介质 | |
Gao et al. | Data-driven lightweight interest point selection for large-scale visual search | |
Bartolini et al. | Imagination: exploiting link analysis for accurate image annotation | |
CN112148902A (zh) | 数据处理方法、装置、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |