CN117573811B - 基于深度迁移学习的大语言模型数据挖掘方法 - Google Patents
基于深度迁移学习的大语言模型数据挖掘方法 Download PDFInfo
- Publication number
- CN117573811B CN117573811B CN202410057152.9A CN202410057152A CN117573811B CN 117573811 B CN117573811 B CN 117573811B CN 202410057152 A CN202410057152 A CN 202410057152A CN 117573811 B CN117573811 B CN 117573811B
- Authority
- CN
- China
- Prior art keywords
- topic
- text
- theme
- meaning
- taking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000007418 data mining Methods 0.000 title claims abstract description 22
- 238000013508 migration Methods 0.000 title claims abstract description 13
- 230000005012 migration Effects 0.000 title claims abstract description 13
- 238000001914 filtration Methods 0.000 claims abstract description 33
- 238000013145 classification model Methods 0.000 claims abstract description 13
- 238000010845 search algorithm Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 18
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000010030 laminating Methods 0.000 claims description 4
- 238000005065 mining Methods 0.000 claims description 4
- 238000009825 accumulation Methods 0.000 claims description 2
- 230000004069 differentiation Effects 0.000 claims description 2
- 238000005259 measurement Methods 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 claims 1
- 238000013526 transfer learning Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000001105 regulatory effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000009928 pasteurization Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明涉及数据处理技术领域,提出了基于深度迁移学习的大语言模型数据挖掘方法,包括:获取文本数据集;利用主题模型获取每个主题下的主题特征词;利用深度优先搜索算法基于包含每个主题特征词对应节点的无向图确定文本无向路径;基于文本无向路径确定主题含义关联系数;基于主题含义关联系数以及主题特征词出现的频率确定主题含义凸显度;基于每个主题下所有主题特征词的主题含义凸显度的分布特征以及不同主题之间的语义差异确定主题过滤指数;基于主题过滤指数得到文本集合中的增强主题;将源域模型中的权重参数迁移到所述增强主题训练的文本分类模型中得到数据挖掘结果。本发明通过主题增强的方式提高文本数据分类的准确率。
Description
技术领域
本发明涉及数字数据处理技术领域,具体涉及基于深度迁移学习的大语言模型数据挖掘方法。
背景技术
基于深度迁移学习的大语言模型是指利用深度学习和迁移学习技术,构建用于处理自然语言文本的大型人工智能模型,比如GPT(Generative Pre-Trained Transformer)、BERT(Bidirectional Encoder Representations from Transformers)模型,通过在大规模文本数据上进行大型语言模型的预训练,然后将预训练得到的大语言模型在特定任务中进行微调,以实现对各类任务的应用,比如问答系统、文本分类、机器翻译等任务。大语言模型解决了生成文本的流畅性问题,但是由于大语言模型的训练文本具有多样性和不平衡性的特点,使得大语言模型很难生成指定主题情感和关键词的文本,进而影响大语言模型在问答系统、文本分类等任务中的应用效果,因此需要对大语言模型的训练文本进行潜在主题特征词信息的挖掘,并将训练文本及其主题特征词一起输入进行大语言模型的自监督训练,以提高大语言模型对具体下游任务的应用效果。
基于隐含狄利克雷分布LDA(Latent Dirichlet Allocation)主题模型的主题提取方法是一种主流的文本数据处理方法,能够以无监督的方式从大规模的文本数据集中有效地挖掘出文本潜在的主题信息,在文本主体识别、文本分类、信息检索等领域有广泛的应用。由于大型语言模型的训练数据集具有大规模性和多样性的特点,使得训练数据集中的文本数据出现主题混杂、主题重叠的问题,而这可能会导致LDA主题模型生成一些噪声主题,例如与文本真实语义无关的、难以解释的或不具有明显意义的主题,噪声主题会加大文本主题的解释难度,干扰真正有用的主题,进而影响大语言模型对主题词语分类挖掘的准确性。
发明内容
本发明提供基于深度迁移学习的大语言模型数据挖掘方法,以解决文本数据集中噪声主题对大语言模型数据挖掘结果的准确性产生影响的问题,所采用的技术方案具体如下:
本发明一个实施例基于深度迁移学习的大语言模型数据挖掘方法,该方法包括以下步骤:
获取文本数据集;
利用主题模型获取每个主题下的主题特征词;利用深度优先搜索算法基于包含每个主题特征词对应节点的无向图确定包含每个主题特征词的文本无向路径;
采用TF-IDF算法基于包含不同主题特征词的每个文本的文本无向路径确定两个主题特征词之间的主题含义关联系数;
基于每个主题下不同主题特征词之间的主题含义关联系数以及主题特征词出现的频率确定每个主题特征词的主题含义凸显度;
基于每个主题下所有主题特征词的主题含义凸显度的分布特征以及不同主题之间的语义差异确定每个主题的主题过滤指数;
基于所有主题的主题过滤指数得到文本集合中的增强主题;将源域模型中的权重参数迁移到所述增强主题训练的文本分类模型中得到数据挖掘结果。
优选的,所述利用主题模型获取每个主题下的主题特征词的方法为:
将利用分词工具对文本数据集中的每个文本进行预处理后的结果组成的集合作为文本集合;
将文本集合中的所有词语作为输入,利用LDA主题模型获取文本集合中每个主题下的主题特征词集合、每个主题下每个主题特征词的频率。
优选的,所述利用深度优先搜索算法基于包含每个主题特征词对应节点的无向图确定包含每个主题特征词的文本无向路径的方法为:
对文本集合中每个文本的预处理结果进行去重复词处理,将任意一个去重复词后的文本作为一个去重文本;
将文本集合中所有不相同词语组成的集合作为词汇表,将词汇表中每个词语作为一个节点,将出现在同一去重文本中的两个词语对应的节点进行连接得到若干无向图;
将每个主题特征词对应的节点作为起始节点,利用深度优先搜索算法在任意一个包含起始节点的无向图上获取包含起始节点的联通分量,将所述联通分量上所有节点组成的路径作为一个包含主题特征词的文本无向路径。
优选的,所述采用TF-IDF算法基于包含不同主题特征词的每个文本的文本无向路径确定两个主题特征词之间的主题含义关联系数的方法为:
将文本集合中所有的词语作为输入,利用TF-IDF算法获取词汇表中每个词语的TF-IDF得分;
分别获取每个包含主题特征词的文本无向路径上所有节点对应词语的TF-IDF得分,将以每个包含主题特征词的文本无向路径上所有节点对应词语为横坐标,以所述所有节点对应词语的TF-IDF得分为纵坐标组成的直方图作为每个包含主题特征词的文本无向路径的得分直方图;
将任意两个包含两个主题特征词的文本无向路径的得分直方图之间的度量距离在包含两个主题特征词的所有文本无向路径上累加结果的均值作为第一度量值;将第一度量值与预设参数之和的倒数作为两个主题特征词之间的主题含义关联系数。
优选的,所述基于每个主题下不同主题特征词之间的主题含义关联系数以及主题特征词出现的频率确定每个主题特征词的主题含义凸显度的方法为:
根据每个主题特征词与包含每个主题特征词的文本无向路径上节点对应主题特征词之间的主题含义关联系数确定每个主题特征词的主题含义贴合度;
将每个主题下每个主题特征词在其余所有主题的主题特征词集合中出现频率的均值作为频率均值,将每个主题下每个主题特征词出现的频率与频率均值的比值作为每个主题下每个主题特征词的主题排他程度;
每个主题特征词的主题含义凸显度由每个主题特征词的主题含义贴合度、主题排他程度两部分组成,其中,所述主题含义凸显度分别与主题含义贴合度、主题排他程度成正比关系。
优选的,所述根据每个主题特征词与包含每个主题特征词的文本无向路径上节点对应主题特征词之间的主题含义关联系数确定每个主题特征词的主题含义贴合度的方法为:
将任意一个包含每个主题特征词的文本无向路径上任意一个节点对应主题特征词与每个主题特征词之间的主题含义关联系数在所属文本无向路径上所有节点上累加结果的均值作为第一特征值;
将任意一个包含每个主题特征词的文本无向路径上节点的数量与主题特征词所属主题下数量的比值作为比例因子,将比例因子与第一特征值的乘积作为第二特征值;
将第二特征值在所有包含每个主题特征词的文本无向路径上的累加均值作为每个主题特征词的主题含义贴合度。
优选的,所述基于每个主题下所有主题特征词的主题含义凸显度的分布特征以及不同主题之间的语义差异确定每个主题的主题过滤指数的方法为:
将以每个主题下所有主题特征词为横坐标,以每个主题下所有主题特征词的主题含义凸显度为纵坐标构成的直方图作为每个主题的含义分布直方图;
将每个主题与其余所有主题的含义分布直方图之间度量距离的均值作为每个主题的主题含义区分度;
基于每个主题下所有主题特征词的主题含义凸显度确定每个主题的主题可解释程度;
将每个主题的主题含义区分度与主题可解释程度的乘积与预设参数之和的倒数作为每个主题的主题过滤指数。
优选的,所述基于每个主题下所有主题特征词的主题含义凸显度确定每个主题的主题可解释程度的方法为:
将每个主题下所有主题特征词的主题含义凸显度的均值作为第一均值;
将每个主题下每个主题特征词的主题含义凸显度与第一均值之间差值的平方在每个主题下所有主题特征词上累加结果的均值作为第一计算因子;
将第一计算因子与预设参数之和的倒数作为每个主题的主题可解释程度。
优选的,所述基于所有主题的主题过滤指数得到文本集合中的增强主题的方法为:
将所有主题的主题过滤指数作为输入,利用阈值分割算法获取主题过滤指数的分割阈值;
将文本集合中每个文本中所有主题过滤指数大于所述分割阈值的主题滤除,将文本集合中每个文本中任意一个保留的主题作为一个增强主题。
优选的,所述将源域模型中的权重参数迁移到所述增强主题训练的文本分类模型中得到数据挖掘结果的方法为:
将利用THUCNews数据集训练的文本分类模型作为源域模型;
将文本集合中所有文本下所有增强主题对应的主题特征词作为训练样本训练的文本分类模型作为目标模型;
将源域模型中的注意力权重参数迁移到目标模型中,利用训练后的目标模型获取主题特征词的分类结果。
本发明的有益效果是:本发明根据不同主题特征词所表达主题语义信息的相似程度构建主题含义关联系数,并基于同一个主题下不同主题特征词在不同文本中的分布情况构建主题含义贴合度;其次结合每个主题特征词在不同主题下的频率高低确定每个主题特征词的主题含义凸显度,能够提高同一个主题中主题特征词对主题所表达内容的贡献度和重要性之间的差异;并根据不同主题的主题含义分布直方图以及每个主题语义的可解释程度确定每个主题的主题过滤指数,提高了对文本主题内容解释性不强的以及干扰真正有用主题的噪声主题与有用主题之间的差异,实现了对文本集合的主题中噪声主题的有效滤除,提高了后续目标模型训练样本的样本质量;其次通过迁移源域模型中的注意力权重进一步提高了目标模型对不同主题的主题特征词的分类能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例所提供的基于深度迁移学习的大语言模型数据挖掘方法的流程示意图;
图2为本发明一个实施例所提供的含义分布直方图的示意图;
图3为本发明一个实施例所提供的基于深度迁移学习的大语言模型数据挖掘方法的实施流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明一个实施例提供的基于深度迁移学习的大语言模型数据挖掘方法的流程图,该方法包括以下步骤:
步骤S001,获取文本数据集,并对所获文本数据集中的文本进行预处理。
大型语言模型的训练数据集通常来源于样化的文本数据,以确保覆盖广泛的内容主题、描述风格和知识,因此从互联网上进行文本数据的获取,包括但不限于新闻网站、维基百科、社交媒体平台、文学作品等。
使用哈工大LTP工具包对获取的文本数据集中的各个文本分别进行预处理,包括分词、词性标注、停用词的删除等,将预处理后的文本组成的结合记为文本集合,其中,哈工大LTP工具包的使用为公知技术,具体过程不再赘述。
至此,得到文本集合,用于后续主题的提取以及主题下主题特征词的获取。
步骤S002,利用深度优先搜索算法基于包含每个主题特征词对应节点的无向图确定包含每个主题特征词的文本无向路径;基于文本无向路径确定两个主题特征词之间的主题含义关联系数。
本发明的目的旨在对文本数据集中的噪声主题进行筛除处理,以提高大语言模型数据挖掘的准确率。因此首先需要识别文本数据集中的主题以及每个主题下的主题特征词。
具体地,将文本集合中所有词语作为LDA主题模型的输入,采用层次狄利克雷HDP(Hierarchical Dirichlet process)算法获取LDA主题模型中主题的数量,利用LDA主题模型识别文本集合中的/>个主题、各个文本的主题集合、各个主题的主题特征词集合以及主题特征词集合中各个词语出现的概率,LDA主题模型为公知技术,具体过程不再赘述。
进一步地,在文本集合中的每个文本中可能会存在重复的词语,这些重复的词语不仅会影响数据挖掘的效率,同时会隐藏文本中独特的文本信息。因此,对于文本集合中的任意一个文本,对每个文本的预处理结果进行去重复词处理得到每个文本对应的一个去重文本。其次,遍历整个文本集合中的所有词语,将文本集合中不重复的词语组成的集合作为词汇表。并将词汇表中每个词语作为一个节点,将任意两个存在同一去重文本内的词语对应的节点进行连接,利用词汇表中的所有词语得到多个无向图。举例而言,词语、/>在同一个去重文本中,则词语/>、/>对应的节点之间能够进行连线;词语/>、/>不在同一去重文本在,则词语/>、/>对应的节点之间不能够进行连线。
进一步地,由于本发明中只有处于同一去重文本中的两个词语对应的节点之间才有连线,才可能位于同一个无向图中,因此每个文本都会对应一个无向图。对于任意一个主题特征词,以主题特征词a为例,主题特征词a可能位于多个主题的主题词集合中,这是由于不同文本之间可能存在部分相似的内容。对于每个包含主题特征词a的无向图,将主题特征词a对应的节点作为起始节点,利用深度优先搜索算法在包含主题特征词a对应节点的每个无向图上获取主题特征词a对应节点所在的联通分量,将每个主题特征词a对应节点所在联通分量上所有节点组成的路径作为一个包含主题特征词a的文本无向路径,深度优先搜索算法为公知技术,具体过程不再赘述。
进一步地,将文本集合中的所有词语作为输入,利用TF-IDF(Term Frequency-Inverse document frequency)算法获取每个词语的TF-IDF得分,TF-IDF算法为公知技术,具体过程不再赘述。其次,对于每个包含主题特征词a的文本无向路径,以第n个包含主题特征词a的文本无向路径为例,将以/>上所有节点对应词语为横坐标,以/>上所有节点对应词语的TF-IDF得分为纵坐标组成的直方图作为文本无向路径/>的得分直方图。
基于上述分析,此处构建主题含义关联系数,用于表征两个不同的主题特征词之间主题语义的关联程度,计算主题特征词a、b之间的主题含义关联系数:
式中,是主题特征词a、b之间的主题含义关联系数,M、/>分别是包含主题特征词a、b的文本无向路径的数量,/>是第i个包含主题特征词a的文本无向路径的得分直方图,/>是第j个包含主题特征词b的文本无向路径的得分直方图,/>是直方图、/>之间的巴氏距离,/>是调参因子,用于防止分母为0,/>的大小取经验值0.1,巴氏距离的计算为公知技术,具体过程不再赘述。
其中,第i个包含主题特征词a的文本无向路径、第j个包含主题特征词b的文本无向路径对应文本中的内容越相似,主题特征词在两个文本中的重要性越相似,两个文本路径上节点对应词语的TF-IDF得分分布越相似,得分直方图之间的相似程度越高,的值越小,第一度量值/>的值越小;即的值越大,包含主题特征词a、b的文本中的主题内容越相似,主题语义之间的相关性越强。
至此,得到两个主题特征词之间的主题含义关联系数,用于后续确定每个主题特征词的主题含义凸显度。
步骤S003,基于每个主题下不同主题特征词之间的主题含义关联系数以及主题特征词的频率确定每个主题特征词的主题含义凸显度;基于主题特征词的主题含义凸显度的分布特征以及主题之间的语义差异确定主题过滤指数。
由于获取文本的数据源不同,文本中的内容不同,每个文本中包含的主题数量以及每个主题下主题特征词的数量都有可能是不相同的。在同一文本中,虽然可能存在多个主题,但是文本主要描述的对象或整体的语义是唯一的,即不同主题在文本中的突出程度,不同主题下不同主题特征词在文本中的重要程度各有不同。对文本而言,越贴合文本整体的语义,在文本中的重要性越大的主题,越不可能是噪声主题,越应该被保留下来进行数据挖掘。
基于上述分析,此处构建主题含义凸显度,用于表征每个主题特征词对其所属主题所表达语义的重要程度。计算第k个主题下主题特征词a的主题含义凸显度:
式中,是主题特征词a的第一特征值,/>是第k个主题的主题特征词集合在文本无向路径/>上对应节点的数量,/>是第k个主题的主题特征词集合在文本无向路径/>上对应节点中第h个节点对应的主题特征词与主题特征词a之间的主题含义关联系数;
是第k个主题下主题特征词a的主题含义贴合度,M是包含主题特征词a的文本无向路径的数量,/>是第k个主题下主题特征词的数量;
是第k个主题下主题特征词a的主题排他程度,/>是主题特征词a在第k个主题的主题特征词集合中出现的频率,K是文本集合中提取主题的数量,g是除第k个主题之外的第g个主题,/>是主题特征词a在第g个主题的主题特征词集合中出现的频率;
是第k个主题下主题特征词a的主题含义凸显度。
其中,主题特征词a表达的语义与其所属第k个主题下其余主题特征词所表达的语义信息越相似,第k个主题下主题特征词位于包含主题特征词a的无向文本路径上节点的概率越高,主题特征词a与第k个主题的主题特征词集合在文本无向路径上对应节点中第h个节点对应主题特征词之间的主题含义关联系数越大,/>的值越大,第一特征值的值越大;第k个主题的主题特征词集合中在文本无向路径/>上存在对应节点的主题特征词越能表达第k个主题的语义,无向文本路径/>对应文本中所有主题特征词与第k个主题下主题特征词的重合概率越高,比例因子/>的值越大,第二特征值的值越大;即/>的值越大,主题特征词a对其所属第k个主题的重要性越大;主题特征词a在其余主题下出现的概率越低,说明主题特征词a所能表达的语义越稳定,频率均值/>的值越小,主题特征词a的语义在第k个主题的语义中显著程度越高,主题特征词a在第k个主题的主题特征词集合中出现的频率越高,/>的值越大,的值越大;即/>的值越大,主题特征词a对第k个主题所表达语义的重要程度越高。
根据上述步骤,分别获取每个主题下所有主题特征词的主题含义凸显度,并基于主题特征词及其对应的主题含义凸显度构建每个主题的含义分布直方图。以第k个主题为例,获取第k个主题下主题特征词集合中每个主题特征词的主题含义凸显度,将以第k个主题下所有主题特征词为横坐标,以第k个主题下所有主题特征词的主题含义凸显度为纵坐标构成的直方图作为第k个主题的含义分布直方图,如图2所示,图中前三个柱状分别代表第k个主题下第1个、第2个、第3个主题特征词及其主题含义凸显度。
对于整个文本数据集而言,由于主题提取所用的文本中文本内容之间存在差异,那么相同的词语在某一主题下可能是重要程度较大的主题特征词,在另一个主题下可能无法作为主题特征词。其次,对于噪声主题或者包含噪声主题下主题特征词的其它主题,此类主题的主题含义通常较为模糊,即和其它主题之间的区分程度通常较小,且此类主题的语义可解释程度通常较弱,难以挖掘有效的数据信息。
基于上述分析,此处构建主题过滤指数,用于表征每个主题作为噪声主题的可能性。计算第k个主题的主题过滤指数:
式中,是第k个主题的主题含义区分度,K是文本集合中提取主题的数量,t是除第k个主题之外的第t个主题,/>、/>分别是第k个、第t个主题的含义分布直方图,是直方图/>、/>之间的巴氏距离;
是第k个主题的主题可解释程度,/>是第k个主题下主题特征词的数量,/>是第k个主题下主题特征词a的主题含义凸显度,/>是第k个主题下所有主题特征词的主题含义凸显度的均值,/>是调参因子,用于防止分母为0,/>的大小取经验值0.01;
是第k个主题的主题过滤指数,/>是调参因子,用于防止分母为0,/>的大小取经验值0.01。
其中,两个主题之间的主题特征词的分布特征越相似,两个主题之间的区分性越不明显,相应的,含义分布直方图、/>之间的相似性越高,/>的值越小,/>的值越小;第/>个主题中的每个主题特征词对第k个主题的语义表达和理解均具有相似的重要性和贡献度,则认为第k个主题的表达越清晰和一致,能更好地捕捉该主题的本质和核心内容,使得该主题更容易被理解和解释,第k个主题下每个主题特征词主题含义凸显度的与第一均值/>的大小越接近,/>的值越小,第一计算因子/>的值越小,/>的值越大;即/>的值越大,第k个主题的语义信息越模糊,与其余主题之间的区分性越小,越有可能是噪声主题。
至此,得到每个主题的主题过滤指数,用于后续确定文本数据集中的增强主题。
步骤S004,基于所有主题的主题过滤指数得到文本集合中的增强主题;将源域模型中的权重参数迁移到所述增强主题训练的文本分类模型中得到数据挖掘结果。
根据上述步骤,分别获取K个主题中每个主题的主题过滤指数。其次,由于LDA主题模型得到大部分主题通常具有一定的可解释性和区分性,即这些主题均具有较小的主题过滤指数,并且与噪声主题之间的主题过滤指数的差异较大,因此将文本集合的个主题的主题过滤指数作为最大类间方差法的输入,利用最大类间方差法得到主题过滤指数的分割阈值,最大类间方差法为公知技术,具体过程不再赘述。
进一步地,将每个文本中主题过滤指数大于所述分割阈值的主题滤除,保留主题过滤指数小于所述分割阈值的主题,将每个被保留的主题作为一个增强主题,基于权重迁移实现目标模型对增强主题下主题特征词的分类,整个流程如图3所示。其次,将所有文本中所有增强主题对应的主题特征词作为训练样本训练基于BERT的文本分类模型作为目标模型。其次,为了提高目标模型对文本数据的分类能力,加快模型的训练速度。利用公开的数据集,THUCNews新闻文本分类数据集训练域目标模型相同结构的,即同样基于BERT的文本分类模型作为源域模型,神经网络的训练为公知技术,具体过程不再赘述。
进一步地,在BERT模型结构中的多头注意力机制是决定模型性能的关键机制,而多头注意力机制的注意力权重通常需要基于大规模的数据进行较长时间的训练。因此,本发明中,将源域模型中多头注意力机制的注意力权重参数迁移到目标模型中,提高目标模型对增强主题下主题特征词的数据挖掘能力,得到增强主体词的分类结果。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.基于深度迁移学习的大语言模型数据挖掘方法,其特征在于,该方法包括以下步骤:
获取文本数据集;
利用主题模型获取每个主题下的主题特征词;利用深度优先搜索算法基于包含每个主题特征词对应节点的无向图确定包含每个主题特征词的文本无向路径;
采用TF-IDF算法基于包含不同主题特征词的每个文本的文本无向路径确定两个主题特征词之间的主题含义关联系数;
基于每个主题下不同主题特征词之间的主题含义关联系数以及主题特征词出现的频率确定每个主题特征词的主题含义凸显度;
基于每个主题下所有主题特征词的主题含义凸显度的分布特征以及不同主题之间的语义差异确定每个主题的主题过滤指数;
基于所有主题的主题过滤指数得到文本集合中的增强主题;将源域模型中的权重参数迁移到所述增强主题训练的文本分类模型中得到数据挖掘结果;
所述利用主题模型获取每个主题下的主题特征词的方法为:
将利用分词工具对文本数据集中的每个文本进行预处理后的结果组成的集合作为文本集合;
将文本集合中的所有词语作为输入,利用LDA主题模型获取文本集合中每个主题下的主题特征词集合、每个主题下每个主题特征词的频率;
所述基于每个主题下不同主题特征词之间的主题含义关联系数以及主题特征词出现的频率确定每个主题特征词的主题含义凸显度的方法为:
根据每个主题特征词与包含每个主题特征词的文本无向路径上节点对应主题特征词之间的主题含义关联系数确定每个主题特征词的主题含义贴合度;
将每个主题下每个主题特征词在其余所有主题的主题特征词集合中出现频率的均值作为频率均值,将每个主题下每个主题特征词出现的频率与频率均值的比值作为每个主题下每个主题特征词的主题排他程度;
每个主题特征词的主题含义凸显度由每个主题特征词的主题含义贴合度、主题排他程度两部分组成,其中,所述主题含义凸显度分别与主题含义贴合度、主题排他程度成正比关系;
所述根据每个主题特征词与包含每个主题特征词的文本无向路径上节点对应主题特征词之间的主题含义关联系数确定每个主题特征词的主题含义贴合度的方法为:
将任意一个包含每个主题特征词的文本无向路径上任意一个节点对应主题特征词与每个主题特征词之间的主题含义关联系数在所属文本无向路径上所有节点上累加结果的均值作为第一特征值;
将任意一个包含每个主题特征词的文本无向路径上节点的数量与主题特征词所属主题下数量的比值作为比例因子,将比例因子与第一特征值的乘积作为第二特征值;
将第二特征值在所有包含每个主题特征词的文本无向路径上的累加均值作为每个主题特征词的主题含义贴合度;
所述基于每个主题下所有主题特征词的主题含义凸显度的分布特征以及不同主题之间的语义差异确定每个主题的主题过滤指数的方法为:
将以每个主题下所有主题特征词为横坐标,以每个主题下所有主题特征词的主题含义凸显度为纵坐标构成的直方图作为每个主题的含义分布直方图;
将每个主题与其余所有主题的含义分布直方图之间度量距离的均值作为每个主题的主题含义区分度;
基于每个主题下所有主题特征词的主题含义凸显度确定每个主题的主题可解释程度;
将每个主题的主题含义区分度与主题可解释程度的乘积与预设参数之和的倒数作为每个主题的主题过滤指数;
所述基于每个主题下所有主题特征词的主题含义凸显度确定每个主题的主题可解释程度的方法为:
将每个主题下所有主题特征词的主题含义凸显度的均值作为第一均值;
将每个主题下每个主题特征词的主题含义凸显度与第一均值之间差值的平方在每个主题下所有主题特征词上累加结果的均值作为第一计算因子;
将第一计算因子与预设参数之和的倒数作为每个主题的主题可解释程度;
所述将源域模型中的权重参数迁移到所述增强主题训练的文本分类模型中得到数据挖掘结果的方法为:
将利用THUCNews数据集训练的文本分类模型作为源域模型;
将文本集合中所有文本下所有增强主题对应的主题特征词作为训练样本训练的文本分类模型作为目标模型;
将源域模型中的注意力权重参数迁移到目标模型中,利用训练后的目标模型获取主题特征词的分类结果。
2.根据权利要求1所述的基于深度迁移学习的大语言模型数据挖掘方法,其特征在于,所述利用深度优先搜索算法基于包含每个主题特征词对应节点的无向图确定包含每个主题特征词的文本无向路径的方法为:
对文本集合中每个文本的预处理结果进行去重复词处理,将任意一个去重复词后的文本作为一个去重文本;
将文本集合中所有不相同词语组成的集合作为词汇表,将词汇表中每个词语作为一个节点,将出现在同一去重文本中的两个词语对应的节点进行连接得到若干无向图;
将每个主题特征词对应的节点作为起始节点,利用深度优先搜索算法在任意一个包含起始节点的无向图上获取包含起始节点的联通分量,将所述联通分量上所有节点组成的路径作为一个包含主题特征词的文本无向路径。
3.根据权利要求1所述的基于深度迁移学习的大语言模型数据挖掘方法,其特征在于,所述采用TF-IDF算法基于包含不同主题特征词的每个文本的文本无向路径确定两个主题特征词之间的主题含义关联系数的方法为:
将文本集合中所有的词语作为输入,利用TF-IDF算法获取词汇表中每个词语的TF-IDF得分;
分别获取每个包含主题特征词的文本无向路径上所有节点对应词语的TF-IDF得分,将以每个包含主题特征词的文本无向路径上所有节点对应词语为横坐标,以所述所有节点对应词语的TF-IDF得分为纵坐标组成的直方图作为每个包含主题特征词的文本无向路径的得分直方图;
将任意两个包含两个主题特征词的文本无向路径的得分直方图之间的度量距离在包含两个主题特征词的所有文本无向路径上累加结果的均值作为第一度量值;将第一度量值与预设参数之和的倒数作为两个主题特征词之间的主题含义关联系数。
4.根据权利要求1所述的基于深度迁移学习的大语言模型数据挖掘方法,其特征在于,所述基于所有主题的主题过滤指数得到文本集合中的增强主题的方法为:
将所有主题的主题过滤指数作为输入,利用阈值分割算法获取主题过滤指数的分割阈值;
将文本集合中每个文本中所有主题过滤指数大于所述分割阈值的主题滤除,将文本集合中每个文本中任意一个保留的主题作为一个增强主题。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410057152.9A CN117573811B (zh) | 2024-01-16 | 2024-01-16 | 基于深度迁移学习的大语言模型数据挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410057152.9A CN117573811B (zh) | 2024-01-16 | 2024-01-16 | 基于深度迁移学习的大语言模型数据挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117573811A CN117573811A (zh) | 2024-02-20 |
CN117573811B true CN117573811B (zh) | 2024-03-19 |
Family
ID=89862733
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410057152.9A Active CN117573811B (zh) | 2024-01-16 | 2024-01-16 | 基于深度迁移学习的大语言模型数据挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117573811B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929937A (zh) * | 2012-09-28 | 2013-02-13 | 福州博远无线网络科技有限公司 | 基于文本主题模型的商品分类的数据处理方法 |
CN110825850A (zh) * | 2019-11-07 | 2020-02-21 | 哈尔滨工业大学(深圳) | 一种自然语言主题分类方法及装置 |
CN113255340A (zh) * | 2021-07-09 | 2021-08-13 | 北京邮电大学 | 面向科技需求的主题提取方法、装置和存储介质 |
CN114462392A (zh) * | 2022-02-14 | 2022-05-10 | 南京邮电大学 | 一种基于主题关联度与关键词联想的短文本特征扩展方法 |
CN115099188A (zh) * | 2022-06-22 | 2022-09-23 | 南京邮电大学 | 一种基于词嵌入和生成式神经网络的主题挖掘方法 |
CN115659954A (zh) * | 2022-10-31 | 2023-01-31 | 北京工业大学 | 一种基于多阶段学习的作文自动评分方法 |
-
2024
- 2024-01-16 CN CN202410057152.9A patent/CN117573811B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929937A (zh) * | 2012-09-28 | 2013-02-13 | 福州博远无线网络科技有限公司 | 基于文本主题模型的商品分类的数据处理方法 |
CN110825850A (zh) * | 2019-11-07 | 2020-02-21 | 哈尔滨工业大学(深圳) | 一种自然语言主题分类方法及装置 |
CN113255340A (zh) * | 2021-07-09 | 2021-08-13 | 北京邮电大学 | 面向科技需求的主题提取方法、装置和存储介质 |
CN114462392A (zh) * | 2022-02-14 | 2022-05-10 | 南京邮电大学 | 一种基于主题关联度与关键词联想的短文本特征扩展方法 |
CN115099188A (zh) * | 2022-06-22 | 2022-09-23 | 南京邮电大学 | 一种基于词嵌入和生成式神经网络的主题挖掘方法 |
CN115659954A (zh) * | 2022-10-31 | 2023-01-31 | 北京工业大学 | 一种基于多阶段学习的作文自动评分方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117573811A (zh) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI735543B (zh) | 網頁文本分類的方法和裝置,網頁文本識別的方法和裝置 | |
CN108536870B (zh) | 一种融合情感特征和语义特征的文本情感分类方法 | |
CN109241530B (zh) | 一种基于N-gram向量和卷积神经网络的中文文本多分类方法 | |
CN109766544B (zh) | 基于lda和词向量的文档关键词抽取方法和装置 | |
CN110825877A (zh) | 一种基于文本聚类的语义相似度分析方法 | |
CN107608999A (zh) | 一种适用于自动问答系统的问句分类方法 | |
CN112417863B (zh) | 基于预训练词向量模型与随机森林算法的中文文本分类方法 | |
CN112347244A (zh) | 基于混合特征分析的涉黄、涉赌网站检测方法 | |
CN108846047A (zh) | 一种基于卷积特征的图片检索方法及系统 | |
CN108804595B (zh) | 一种基于word2vec的短文本表示方法 | |
CN112256861B (zh) | 一种基于搜索引擎返回结果的谣言检测方法及电子装置 | |
CN111581967B (zh) | 一种联合LW2V与Triplet网络的新闻主题事件检测方法 | |
CN110377695B (zh) | 一种舆情主题数据聚类方法、装置及存储介质 | |
CN109492678A (zh) | 一种集成浅层和深度学习的App分类方法 | |
CN110956044A (zh) | 一种基于注意力机制的司法场景用文案输入识别分类方法 | |
CN112069312A (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN107818173B (zh) | 一种基于向量空间模型的中文虚假评论过滤方法 | |
Chang et al. | A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING. | |
CN115952292A (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN114676346A (zh) | 新闻事件处理方法、装置、计算机设备和存储介质 | |
CN114491062A (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN112347247A (zh) | 基于LDA和Bert的特定类别文本标题二分类方法 | |
CN117573811B (zh) | 基于深度迁移学习的大语言模型数据挖掘方法 | |
CN114065749A (zh) | 一种面向文本的粤语识别模型及系统的训练、识别方法 | |
CN113987536A (zh) | 数据表中字段安全等级确定方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |