CN117520786B - 基于nlp和循环神经网络的大语言模型构建方法 - Google Patents
基于nlp和循环神经网络的大语言模型构建方法 Download PDFInfo
- Publication number
- CN117520786B CN117520786B CN202410006873.7A CN202410006873A CN117520786B CN 117520786 B CN117520786 B CN 117520786B CN 202410006873 A CN202410006873 A CN 202410006873A CN 117520786 B CN117520786 B CN 117520786B
- Authority
- CN
- China
- Prior art keywords
- word
- data set
- standard data
- standard
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 23
- 238000010276 construction Methods 0.000 title claims abstract description 16
- 125000004122 cyclic group Chemical group 0.000 title claims abstract description 16
- 230000006870 function Effects 0.000 claims abstract description 58
- 230000011218 segmentation Effects 0.000 claims abstract description 42
- 238000002372 labelling Methods 0.000 claims abstract description 26
- 238000012546 transfer Methods 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 18
- 238000000034 method Methods 0.000 claims description 43
- 239000000203 mixture Substances 0.000 claims description 18
- 238000011156 evaluation Methods 0.000 claims description 15
- 238000004140 cleaning Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000000306 recurrent effect Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 4
- 238000009825 accumulation Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 5
- 239000002245 particle Substances 0.000 abstract 1
- 238000012549 training Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 230000002265 prevention Effects 0.000 description 3
- 239000000779 smoke Substances 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000002485 combustion reaction Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000002737 fuel gas Substances 0.000 description 1
- 239000007789 gas Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
- 235000014347 soups Nutrition 0.000 description 1
- 238000009423 ventilation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及数字数据处理技术领域,提出了基于NLP和循环神经网络的大语言模型构建方法,包括:根据分词结果确定标准数据集中每个字的标签;根据每个字与专业字典中每个词语的词向量之间的相似度确定字意匹配度;根据文本序列内的分词结果在专业字典中出现的频率确定上下文语境匹配得分;根据词语的重要性以及上下文语境匹配得分确定词性特征得分;根据词性特征得分、字意匹配度确定状态特征函数与转移特征函数;采用条件随机场基于状态特征函数与转移特征函数获取标准数据集的标注结果;基于标注结果构建基于循环神经网络的大语言模型。本发明利用改进后的条件随机场对标准数据集进行标注,提高了大语言模型捕捉输入数据中颗粒信息的能力。
Description
技术领域
本发明涉及数字数据处理技术领域,具体涉及基于NLP和循环神经网络的大语言模型构建方法。
背景技术
在科技飞速发展的今天,电器和燃气的广泛应用以及人为疏忽,导致了日常生活中消防隐患问题的急剧增加,由此引发的火灾不仅可能造成财产损失、影响社会稳定,更关键的是直接威胁到人们的人身安全,鉴于大多数民众对火灾的防范意识及自救、补救能力较为有限,利用循环神经网络构建基于NLP(Nature Language Processing)的消防预防与应急大语言模型,成为处理生活中安全隐患以及正确应对火灾的有效工具,这一模型有助于提升公众对消防安全的认知,为他们提供正确的预防、自救和补救方法,进而降低火灾风险,保障人们的生命安全和财产安全。
然而,在进行循环神经网络训练时,数据集的文本序列会被分解成单词序列,当单词序列较长时,由于梯度消失或梯度爆炸的问题,可能会难以捕捉到长距离的依赖关系,如模型可能更关注序列的后部而忽略了序列的前部,导致模型对文本的全局语义理解不足造成信息丢失,且模型无法很好地理解并泛化到包含罕见词汇的文本,上述问题会导致模型在训练过程中丢失重要信息,需要对其进行改进。
发明内容
本发明提供基于NLP和循环神经网络的大语言模型构建方法,以解决语言模型对训练集内长文本语义理解不足造成语义信息丢失的问题,所采用的技术方案具体如下:
本发明一个实施例基于NLP和循环神经网络的大语言模型构建方法,该方法包括以下步骤:
根据标准数据集中每个句子的分词结果确定标准数据集中每个字的标签;
根据标准数据集中每个字与专业字典中每个词语的词向量之间的相似度确定标准数据集中每个字的字意匹配度;
根据标准数据集中每个字所取文本序列内的分词结果在专业字典中出现的频率确定标准数据集中每个字的上下文语境匹配得分;
根据标准数据集中每个词语的重要性以及每个词语中每个字的上下文语境匹配得分确定每个词的词性特征得分;
根据标准数据集中每个词的词性特征得分、每个字的字意匹配度确定状态特征函数与转移特征函数;
采用条件随机场基于状态特征函数与转移特征函数获取标准数据集的标注结果;基于标准数据集的标注结果构建基于循环神经网络的大语言模型。
优选的,所述根据标准数据集中每个句子的分词结果确定标准数据集中每个字的标签的方法为:
将现有语料库进行数据清洗后得到的数据集作为标准数据集,所述数据清洗包括去标点、去HTML标签、英文字符的转换;
将标准数据集的分词结果中任意一个单独文字的标签标记为“S”;对于标准数据集的分词结果中非单独文字的任意一个词语,采用“B-M-E”的标签,按照预设标注方式确定标准数据集的分词结果中每个词语中的每个字的标签,所述预设标注方式为:每个词语中第一个字的标签为“B”,每个词语中的中间字得到标签为“M”,每个词语中最后一个字的标签为“E”。
优选的,所述根据标准数据集中每个字与专业字典中每个词语的词向量之间的相似度确定标准数据集中每个字的字意匹配度的方法为:
将采用专家评价法基于消防预警相关术语构建的字典作为专业字典;
将标准数据集中每个字、专业字典作为输入,采用词嵌入模型分别获取标准数据集中每个字、专业字典中每个词语的词向量;
基于标准数据集中每个字与专业字典中每个词语的词向量之间的相似度确定标准数据集中每个字的字典匹配得分;
将标准数据集中每个字的字典匹配得分与预设参数中的最大值作为标准数据集中每个字的字意匹配度。
优选的,所述基于标准数据集中每个字与专业字典中每个词语的词向量之间的相似度确定标准数据集中每个字的字典匹配得分的方法为:
将专业字典中存在标准数据集中每个字的词语数量与专业字典中词语数量的比值作为比例因子;
将标准数据集中每个字与专业字典中每个词语的词向量之间的度量结果在专业字典上累加结果的均值作为第一度量值;
标准数据集中每个字的字典匹配得分由比例因子、第一度量值两部分组成,其中,所述字典匹配得分分别与比例因子、第一度量值成正比关系。
优选的,所述根据标准数据集中每个字所取文本序列内的分词结果在专业字典中出现的频率确定标准数据集中每个字的上下文语境匹配得分的方法为:
根据标准数据集中每个字所取文本序列内的分词结果在专业字典中出现的频率确定每个字的信息量评估值;
将标准数据集中每个字在专业字典中出现的频率与每个字的字意匹配度的乘积在每个字所取文本序列上累加结果的均值作为第一乘积因子;
标准数据集中每个字的上下文语境匹配得分由信息量评估值、第一乘积因子两部分组成,其中,所述上下文语境匹配得分分别与信息量评估值、第一乘积因子成正比关系。
优选的,所述根据标准数据集中每个字所取文本序列内的分词结果在专业字典中出现的频率确定每个字的信息量评估值的方法为:
将标准数据集中的每个字与其预设数量个相邻字组成的序列作为标准数据集中每个字的文本序列;
统计标准数据集中每个字的文本序列中每个元素出现的概率,将所述概率的映射结果在所述文本序列上的累加作为标准数据集中每个字的文本序列的局部信息熵;
将标准数据集中每个字的文本序列内的分词结果中所有词语在专业字典中出现的次数与所述局部信息熵的乘积作为分子,将分子与所述分词结果中所有词语数量的比值作为每个字的信息量评估值。
优选的,所述根据标准数据集中每个词语的重要性以及每个词语中每个字的上下文语境匹配得分确定每个词的词性特征得分的方法为:
采用关键词提取算法获取标准数据集中每个词语的第一组成因子;
将标准数据集中每个词语对应标签中“M”的数量与预设参数之和与每个词语内字的数量的比值作为第一计算因子;将标准数据集中每个词语内每个字的上下文语境匹配得分与第一计算因子的乘积在每个词语内所有字上累加结果的均值作为第二组成因子;
每个词的词性特征得分由第一组成因子、第二组成因子两部分组成,其中,所述词性特征得分分别与第一组成因子、第二组成因子成正比关系。
优选的,所述采用关键词提取算法获取标准数据集中每个词语的第一组成因子的方法为:
将专业字典中的所有词语作为输入,利用TF-IDF算法确定专业字典中的每个词语的TF-IDF值;
将专业字典中属于标准数据集中的每个词语的TF-IDF值与预设参数的和作为第一组成因子。
优选的,所述根据标准数据集中每个词的词性特征得分、每个字的字意匹配度确定状态特征函数与转移特征函数的方法为:
式中,是标准数据集中第i个字的状态特征函数,/>、/>分别是标准数据集中第i个、第i-1个字的上下文语境匹配得分,/>是调参因子,大小取经验值0.4;
是标准数据集中第j个词的转移特征函数,/>、/>是标准数据集中第j个词、第j-1个词的词性特征得分,/>是调参因子,大小取经验值0.2。
优选的,所述采用条件随机场基于状态特征函数与转移特征函数获取标准数据集的标注结果的方法为:
将标准数据集作为输入,采用条件随机场基于状态特征函数与转移特征函数得到标准数据集对应的标签序列;根据标准数据集对应的标签序列对标准数据集中的每个词进行标注。
本发明的有益效果是:本发明根据标准数据集中每个字与专业字典中每个词语的词向量之间的相似度确定标准数据集中每个字的字意匹配度,其次基于标准数据集中每个字所取文本序列内的分词结果在专业字典中出现的频率确定标准数据集中每个字的上下文语境匹配得分,上下文语境匹配得分反映了标准数据集中每个字与其相邻文字之间的语境契合程度,能够准确评估相邻两个字关联语义信息的相似度,自适应确定后续条件随机场中每个字的状态特征函数;其次根据标准数据集中每个词语的重要性以及每个词语中每个字的上下文语境匹配得分确定每个词的词性特征得分;根据标准数据集中每个词的词性特征得分构建转移特征函数,能够通过每条文本数据中相邻词语之间的词性变化量自适应确定每个词语的转移特征函数值,利用改进后的条件随机场对标准数据集进行标注得到标签序列,提高了用于消防知识问答的大语言模型学习消防知识的能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例所提供的基于NLP和循环神经网络的大语言模型构建方法的流程示意图;
图2为本发明一个实施例所提供的确定标准数据集中每个字的标签的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明一个实施例提供的基于NLP和循环神经网络的大语言模型构建方法流程图,该方法包括以下步骤:
步骤S001,根据标准数据集中每个句子的分词结果确定标准数据集中每个字的标签。
现阶段大语言模型应用在问答系统、语音识别、智慧助手等多个领域得以广泛应用,随着人为、天气等多种原因,火灾应急消防知识越来越被人们重视,因此本发明通过现有中文语料库以及消防知识专业术语构建用于消防知识问答的大语言模型。
具体地,将现代语料库CCL、中文词性标注数据集作为中文语料库,对中文语料库内的文本数据进行数据清洗,数据清洗的过程为:将中文语料库内的文本数据作为输入,利用Python库中封装的正则表达式去除输入中的标点符号、特殊字符以及数字,其次将经过上述流程处理的结果输入到HTML解析工具去除HTML标签的文本得到纯净数据集,所述HTML解析工具包括但不限于Beautiful Soup等,实施者可根据所选中文语料库自行选择;其次,将利用字符串函数将纯净数据集中的英文文本统一转换成小写字符后的结果记为标准数据集,数据清洗为公知技术,具体过程不再赘述。
进一步地,利用jieba分词工具对标准数据集中的每句文本进行分词处理,对于分词结果中的任意一个词语,按照分词结果中每个词语中每个字的位置构建标准数据集中每个字的标签。
构建标签的具体过程为:对于标准数据集的分词结果中“了、的、吗”此类单独一个,即左右没有相邻文字的文字,将标准数据集的分词结果中每个单独文字的标签标记为“S”;对于标准数据集的分词结果中非单独文字的任意一个词语,采用“B-M-E”的标签,按照每个词语中第一个字的标签为“B”,每个词语中的中间字得到标签为“M”,每个词语中最后一个字的标签为“E”的标注方式确定标准数据集的分词结果中每个词语中的每个字的标签。如图2所示,“中文分词很重要”这一句子,分词结果为“中文”“分词”“很”“重要”,按照上述标签标注方式,能够得到“B”、“E”、“B”、“E”、“S”、“B”、“E”的标注结果。这样标注的目的在于,对于标准数据集中的每一个字都是数据集的基本单元,通过每个字所代表的含义能够捕捉到数据集中更细粒度的信息,捕捉到每个字在上下文中的语境信息。
至此,得到标准数据集以及标准数据集中每个字的标准结果。
步骤S002,根据标准数据集中每个字与专业字典中每个词语的词向量之间的相似度确定标准数据集中每个字的字意匹配度;根据标准数据集中每个字所取文本序列内的分词结果在专业字典中出现的频率确定标准数据集中每个字的上下文语境匹配得分。
训练大语言模型的重要任务是对文本进行序列标注,如词性标注、实体识别等,条件随机场CRF(Conditional random fields)在这些任务中可以广泛用于捕捉标签之间的依赖关系,通过考虑上下文信息来提高标注的准确性,CRF在语言模型构建中的应用使得模型能够更好地处理序列数据,更准确地捕捉上下文信息,提高在各种NLP(Nature LanguageProcessing)任务中的性能。
进一步地,采用专家评价法基于消防知识中的所有专业术语构建一个专业字典,本发明中,所述消防知识的专业术语包括火灾相关的专业术语、应急救援相关的专业术语、救援设备相关的专业术语、消防安全的专业术语。其中,所述火灾相关的专业术语包括但不限于:燃烧、火源、火警、火灾、烈火、烟雾、火场、火势、燃烧物、电、电线、插板、燃气、老化、灭火、火灾扑救、着火、热量等;所述应急救援相关的专业术语包括但不限于:应急、救援、抢险、搜救、救护、紧急、事故、警报、抢救、救援队、救灾等;所述救援设备相关的专业术语包括但不限于:灭火器、消防车、消防栓、消防水带、防烟面罩、安全出口、火警器、防火门、灭火器材、防护服、烟雾报警器等;所述消防安全的专业术语包括但不限于:安全、预防、逃生、疏散、通风、应急预案、安全意识、防范、保护、急救、警示等。利用爬虫工具从相关网页上爬取上述消防知识的所有专业术语,并通过知识专家评价爬取的词语或文本是否真正属于消防知识的专业术语,专家评价法为公知技术,具体过程不再赘述。
对于标准数据集中的任意一个字,以第i个字为例,将第i个字与专业字典中的所有词语作为输入,利用词嵌入模型word2vec将输入中的每个样本转化成相应的词向量,词嵌入模型为公知技术,具体过程不再赘述。
基于上述分析,此处构建字意匹配度,用于表征每个字与专业字典中词语之间的相似度。计算标准数据集中第i个字的字意匹配度:
式中,是第i个字的字典匹配得分,/>是专业字典中包含第i个字的词语数量,N是专业字典中词语数量的总数,/>、/>分别是第i个字、专业字典中第c个词语的词向量,是词向量/>、/>之间的余弦相似度,余弦相似度为公知技术,具体过程不再赘述;
是第i个字的字意匹配度,/>是最大值函数。
其中,标准数据集中第i个字所表达的语义与消防知识中专业术语的语义越接近,标准数据集中第i个字与专业字典中的字可组合成专业术语的概率越大,专业字典中包含第i个字的词语数量越多,的值越大,比例因子/>的值越大,/>的值越大,第一度量值/>的值越大;即/>的值越大,第i个字的语义与专业字典中词语的语义匹配度越高,越有可能蕴含消防知识的相关语义,第i个字在训练大语言模型时学习到的特征与消防数据特征越相似。
进一步地,通过标准数据集中每个字与其相邻字、词之间共同表达的语义来评估标准数据集中每个字的上下文信息特征。具体地,将以标准数据集中的每个字为中心,左右各取相邻的K个字与每个字组成长度为2K+1的序列作为每个字的文本序列,K的大小取经验值10,将第i个字的文本序列记为。其次,将文本序列/>作为输入,利用jieba分词工具获取文本序列内/>词语的分词结果,并基于文本序列/>内的分词结果评估第i个字的上下文信息特征。
基于上述分析,此处构建上下文语境匹配得分,用于表征标准数据集中每个字与其相邻文字之间的语境契合程度。计算第i个字的上下文语境匹配得分:
式中,是第i个字的文本序列/>的局部信息熵,K是第i个字左右所取相邻文字的数量,/>是文本序列/>的长度,/>是文本序列/>内第k个字在文本序列/>中出现的概率,/>是以自然常数为底数的对数函数;
是第i个字的信息量评估值,/>是文本序列/>内的分词结果中所有词语在专业字典中出现的次数,N是专业字典中词语数量的总数;
是第i个字的上下文语境匹配得分,/>是文本序列/>内第k个字的同在概率,/>是文本序列/>内第k个字的字意匹配度;所述同在概率等于文本序列/>内第k个字在标准数据集出现的次数与文本序列/>内第k个字在专业字典中出现次数的比值。
其中,第i个字所取文本序列内表达的语义信息越多,文本序列内每个字出现的概率越不相同,/>的值越大;文本序列/>内的分词结果中的词语在专业字典中出现的次数越多,文本序列/>内的分词结果与专业字典中词语之间的关联性越大,/>的值越大;文本序列/>内第k个字关联的上下文信息越丰富,文本序列/>内第k个字在标准数据集中出现的概率越高,/>的值越大,文本序列/>内第k个字的语义与专业字典中词语的语义匹配度越大,/>的值越大,第一乘积因子/>的值;即/>的值越大,第i个字语义在整个标准数据集中关联的其它字越多,第i个字的语义越关键。
至此,标准数据集中每个字的上下文语境匹配得分,用于后续特征函数的构建。
步骤S003,根据标准数据集中每个词语的重要性以及每个词语中每个字的上下文语境匹配得分确定每个词的词性特征得分;根据标准数据集中每个词的词性特征得分、每个字的字意匹配度确定状态特征函数与转移特征函数。
在自然语言处理的任务中,文本信息通常是以字和词为基本单位进行处理,然而,单个字的信息有时不足以完整表达语境,特别是在汉语这种复杂的语言中,一个词通常由多个字组成,同一个字在不同的词中可能具有不同的含义,而词的意义也可能不同于其包含的多个字的意义的组合,所以在进行数据集特征计算时,不仅要考虑字的特征,更要每个字所在词语的语义特征进行分析。
进一步地,将专业字典中的所有词语作为关联词提取TF-IDF算法的输入,利用TF-IDF算法获取专业字典中的所有词语的TF-IDF值,TF-IDF算法为公知技术,具体过程不再赘述。专业字典中的一个词语的TF-IDF值越大,则该词语作为关键词的概率越大,该词语表达的语义信息对于消防知识问答大语言模型越重要。从专业字典的所有词语的TF-IDF值获取标准数据集中每个词语的TF-IDF值,即如果词语A在专业字典、标准数据集中同时存在,则将专业字典中词语A的TF-IDF值同时作为标准数据集中词语A的TF-IDF值。
基于上述分析,此处构建词性特征得分,用于表征标准数据集中每个词语的重要程度。计算第i个字所在的第j个词的词性特征得分:
式中,是标准数据集中第i个字所在的第j个词语的词性特征得分,是所述第j个词语的TF-IDF值,/>是所述第j个词语内文字的数量,/>是标准数据集中第i个字的上下文语境匹配得分,/>是所述第j个词语对应标签中“M”的数量,/>是调参因子,用于防止第j个词语中文字过少可能造成多种语义的影响,/>的大小取经验值0.01。
其中,标准数据集中第i个字所在的第j个词语所表达的语义信息与消防专业术语表达的语义信息越接近,越有可能成为专业字典中的关键词,的值越大,第一组成因子/>的值越大;所述第j个词语的中间字的数量越多,所述第j个词语的词性含义越复杂,语义信息越稳定,越不会存在语义歧义,第一计算因子/>的值越大,第i个字语义在整个标准数据集中关联的其它字越多,第i个字的语义越关键,/>的值越大,第二组成因子/>的值越大,相应的,标准数据集中第i个字所在的第j个词的词性特征得分/>越大。
进一步地,在利用条件随机场CRF对文本数据进行标注时,通常通过定义两种特征函数来建模文本数据和标签之间的关系,这两种指示函数通常被称为状态特征函数和转移特征函数。其中,状态特征函数描述文本数据输入CRF后形成的观测序列和标签序列之间的关系,转移特征函数表示相邻标签对之间的关联关系。因此考虑在利用标准数据集训练用于消防知识问答的大语言模型之前,基于标准数据集中每个字的字意匹配度、上下文语境匹配得分、以及每个词语的词性特征得分确定条件随机场CRF中的特征函数:
式中,是标准数据集中第i个字的状态特征函数,/>、/>分别是标准数据集中第i个、第i-1个字的上下文语境匹配得分,即同时满足/>、/>时,则第i个字的状态特征函数的函数值为1;否则第i个字的状态特征函数的函数值为0,这是因为相邻两个字对应的上下文信息越相似,利用条件随机场进行标注的结果应当越相似,减少相邻字之间的语义突变;/>是调参因子,大小取经验值0.4;
是标准数据集中第j个词的转移特征函数,/>、/>是标准数据集中第j个词、第j-1个词的词性特征得分,即满足/>时,则第j个词的状态特征函数的函数值为1;否则第j个词的状态特征函数的函数值为0,这是因为当相邻两个词语的词性特征得分差异较大时认为语义发生较大变化,/>是调参因子,大小取经验值0.2。
根据上述分析,将标准数据集作为输入,分别基于每个字的上下文语境匹配得分、每个词语的词性特征得分确定条件随机场CRF中的状态特征函数、转移特征函数,利用条件随机场完成对标准数据集的标注。例如标准数据集中的一条文本数据为“火灾发生时,蓝天救援队迅速赶到了现场”CRF模型输出一个标签序列,形如:“火灾XXXX蓝天救援队XXXX”,其中“X”表示非实体,“火灾”和“蓝天救援队”是两个不同的实体标签,则后续大语言模型能够学习到救援队赶到火灾现场这一知识。
至此,得到标准数据集的标注结果,用于后续训练用于消防知识问答的大语言模型。
步骤S004,采用条件随机场基于状态特征函数与转移特征函数获取标准数据集的标注结果;基于标准数据集的标注结果构建基于循环神经网络的大语言模型。
根据上述步骤,得到标准数据集的标注结果。进一步的,获取标准数据集中每条文本数据的标签序列,对标准数据集中每条文本数据及其对应的标签序列进行编码,将所有编码后的文本数据作为训练集,用于消防知识问答的大语言模型为循环神经网络RNN(Recurrent Neural Network),模型结构中包括输入层、嵌入层、LSTM循环层、全连接层、输出层等,以Adam算法为优化算法,以交叉熵函数为损失函数,神经网络的训练为公知技术,具体过程不再赘述。至此得到用于消防知识问答的大语言模型。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.基于NLP和循环神经网络的大语言模型构建方法,其特征在于,该方法包括以下步骤:
根据标准数据集中每个句子的分词结果确定标准数据集中每个字的标签;
根据标准数据集中每个字与专业字典中每个词语的词向量之间的相似度确定标准数据集中每个字的字意匹配度;
根据标准数据集中每个字所取文本序列内的分词结果在专业字典中出现的频率确定标准数据集中每个字的上下文语境匹配得分;
根据标准数据集中每个词语的重要性以及每个词语中每个字的上下文语境匹配得分确定每个词的词性特征得分;
根据标准数据集中每个词的词性特征得分、每个字的字意匹配度确定状态特征函数与转移特征函数;
采用条件随机场基于状态特征函数与转移特征函数获取标准数据集的标注结果;基于标准数据集的标注结果构建基于循环神经网络的大语言模型;
所述根据标准数据集中每个字所取文本序列内的分词结果在专业字典中出现的频率确定标准数据集中每个字的上下文语境匹配得分的方法为:
根据标准数据集中每个字所取文本序列内的分词结果在专业字典中出现的频率确定每个字的信息量评估值;
将标准数据集中每个字在专业字典中出现的频率与每个字的字意匹配度的乘积在每个字所取文本序列上累加结果的均值作为第一乘积因子;
标准数据集中每个字的上下文语境匹配得分由信息量评估值、第一乘积因子两部分组成,其中,所述上下文语境匹配得分分别与信息量评估值、第一乘积因子成正比关系;
所述根据标准数据集中每个字所取文本序列内的分词结果在专业字典中出现的频率确定每个字的信息量评估值的方法为:
将标准数据集中的每个字与其预设数量个相邻字组成的序列作为标准数据集中每个字的文本序列;
统计标准数据集中每个字的文本序列中每个元素出现的概率,将所述概率的映射结果在所述文本序列上的累加作为标准数据集中每个字的文本序列的局部信息熵;
将标准数据集中每个字的文本序列内的分词结果中所有词语在专业字典中出现的次数与所述局部信息熵的乘积作为分子,将分子与所述分词结果中所有词语数量的比值作为每个字的信息量评估值;
所述根据标准数据集中每个词语的重要性以及每个词语中每个字的上下文语境匹配得分确定每个词的词性特征得分的方法为:
采用关键词提取算法获取标准数据集中每个词语的第一组成因子;
将标准数据集中每个词语对应标签中“M”的数量与预设参数之和与每个词语内字的数量的比值作为第一计算因子;将标准数据集中每个词语内每个字的上下文语境匹配得分与第一计算因子的乘积在每个词语内所有字上累加结果的均值作为第二组成因子;
每个词的词性特征得分由第一组成因子、第二组成因子两部分组成,其中,所述词性特征得分分别与第一组成因子、第二组成因子成正比关系;
所述采用关键词提取算法获取标准数据集中每个词语的第一组成因子的方法为:
将专业字典中的所有词语作为输入,利用TF-IDF算法确定专业字典中的每个词语的TF-IDF值;
将专业字典中属于标准数据集中的每个词语的TF-IDF值与预设参数的和作为第一组成因子。
2.根据权利要求1所述的基于NLP和循环神经网络的大语言模型构建方法,其特征在于,所述根据标准数据集中每个句子的分词结果确定标准数据集中每个字的标签的方法为:
将现有语料库进行数据清洗后得到的数据集作为标准数据集,所述数据清洗包括去标点、去HTML标签、英文字符的转换;
将标准数据集的分词结果中任意一个单独文字的标签标记为“S”;对于标准数据集的分词结果中非单独文字的任意一个词语,采用“B-M-E”的标签,按照预设标注方式确定标准数据集的分词结果中每个词语中的每个字的标签,所述预设标注方式为:每个词语中第一个字的标签为“B”,每个词语中的中间字得到标签为“M”,每个词语中最后一个字的标签为“E”。
3.根据权利要求1所述的基于NLP和循环神经网络的大语言模型构建方法,其特征在于,所述根据标准数据集中每个字与专业字典中每个词语的词向量之间的相似度确定标准数据集中每个字的字意匹配度的方法为:
将采用专家评价法基于消防预警相关术语构建的字典作为专业字典;
将标准数据集中每个字、专业字典作为输入,采用词嵌入模型分别获取标准数据集中每个字、专业字典中每个词语的词向量;
基于标准数据集中每个字与专业字典中每个词语的词向量之间的相似度确定标准数据集中每个字的字典匹配得分;
将标准数据集中每个字的字典匹配得分与预设参数中的最大值作为标准数据集中每个字的字意匹配度。
4.根据权利要求3所述的基于NLP和循环神经网络的大语言模型构建方法,其特征在于,所述基于标准数据集中每个字与专业字典中每个词语的词向量之间的相似度确定标准数据集中每个字的字典匹配得分的方法为:
将专业字典中存在标准数据集中每个字的词语数量与专业字典中词语数量的比值作为比例因子;
将标准数据集中每个字与专业字典中每个词语的词向量之间的度量结果在专业字典上累加结果的均值作为第一度量值;
标准数据集中每个字的字典匹配得分由比例因子、第一度量值两部分组成,其中,所述字典匹配得分分别与比例因子、第一度量值成正比关系。
5.根据权利要求1所述的基于NLP和循环神经网络的大语言模型构建方法,其特征在于,所述根据标准数据集中每个词的词性特征得分、每个字的字意匹配度确定状态特征函数与转移特征函数的方法为:
式中,是标准数据集中第i个字的状态特征函数,/>、/>分别是标准数据集中第i个、第i-1个字的上下文语境匹配得分,/>是调参因子,大小取经验值0.4;/>是标准数据集中第j个词的转移特征函数,/>、/>是标准数据集中第j个词、第j-1个词的词性特征得分,/>是调参因子,大小取经验值0.2。
6.根据权利要求1所述的基于NLP和循环神经网络的大语言模型构建方法,其特征在于,所述采用条件随机场基于状态特征函数与转移特征函数获取标准数据集的标注结果的方法为:
将标准数据集作为输入,采用条件随机场基于状态特征函数与转移特征函数得到标准数据集对应的标签序列;根据标准数据集对应的标签序列对标准数据集中的每个词进行标注。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410006873.7A CN117520786B (zh) | 2024-01-03 | 2024-01-03 | 基于nlp和循环神经网络的大语言模型构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410006873.7A CN117520786B (zh) | 2024-01-03 | 2024-01-03 | 基于nlp和循环神经网络的大语言模型构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117520786A CN117520786A (zh) | 2024-02-06 |
CN117520786B true CN117520786B (zh) | 2024-04-02 |
Family
ID=89766783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410006873.7A Active CN117520786B (zh) | 2024-01-03 | 2024-01-03 | 基于nlp和循环神经网络的大语言模型构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117520786B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117852637B (zh) * | 2024-03-07 | 2024-05-24 | 南京师范大学 | 一种基于定义的学科概念知识体系自动构建方法与系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0741362A2 (en) * | 1995-05-01 | 1996-11-06 | International Business Machines Corporation | Automatic construction of conditional exponential models from elementary feature |
CN113157916A (zh) * | 2021-03-10 | 2021-07-23 | 南京航空航天大学 | 一种基于深度学习的民航突发事件抽取方法 |
WO2021164200A1 (zh) * | 2020-02-20 | 2021-08-26 | 齐鲁工业大学 | 一种基于深度分层编码的智能语义匹配方法和装置 |
CN113590783A (zh) * | 2021-07-28 | 2021-11-02 | 复旦大学 | 基于nlp自然语言处理的中医养生智能问答系统 |
CN115422362A (zh) * | 2022-10-09 | 2022-12-02 | 重庆邮电大学 | 一种基于人工智能的文本匹配方法 |
US11694460B1 (en) * | 2021-01-04 | 2023-07-04 | Wells Fargo Bank, N.A. | Natural language processing and text analytics for audit testing with documentation prioritization and selection |
CN116911312A (zh) * | 2023-09-12 | 2023-10-20 | 深圳须弥云图空间科技有限公司 | 一种任务型对话系统及其实现方法 |
CN117056451A (zh) * | 2023-08-12 | 2023-11-14 | 安徽理工大学 | 一种基于语境增强的新能源汽车投诉文本方面-观点对抽取方法 |
CN117216687A (zh) * | 2023-09-04 | 2023-12-12 | 广州科技贸易职业学院 | 一种基于集成学习的大语言模型生成文本检测方法 |
-
2024
- 2024-01-03 CN CN202410006873.7A patent/CN117520786B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0741362A2 (en) * | 1995-05-01 | 1996-11-06 | International Business Machines Corporation | Automatic construction of conditional exponential models from elementary feature |
WO2021164200A1 (zh) * | 2020-02-20 | 2021-08-26 | 齐鲁工业大学 | 一种基于深度分层编码的智能语义匹配方法和装置 |
US11694460B1 (en) * | 2021-01-04 | 2023-07-04 | Wells Fargo Bank, N.A. | Natural language processing and text analytics for audit testing with documentation prioritization and selection |
CN113157916A (zh) * | 2021-03-10 | 2021-07-23 | 南京航空航天大学 | 一种基于深度学习的民航突发事件抽取方法 |
CN113590783A (zh) * | 2021-07-28 | 2021-11-02 | 复旦大学 | 基于nlp自然语言处理的中医养生智能问答系统 |
CN115422362A (zh) * | 2022-10-09 | 2022-12-02 | 重庆邮电大学 | 一种基于人工智能的文本匹配方法 |
CN117056451A (zh) * | 2023-08-12 | 2023-11-14 | 安徽理工大学 | 一种基于语境增强的新能源汽车投诉文本方面-观点对抽取方法 |
CN117216687A (zh) * | 2023-09-04 | 2023-12-12 | 广州科技贸易职业学院 | 一种基于集成学习的大语言模型生成文本检测方法 |
CN116911312A (zh) * | 2023-09-12 | 2023-10-20 | 深圳须弥云图空间科技有限公司 | 一种任务型对话系统及其实现方法 |
Non-Patent Citations (1)
Title |
---|
基于迁移学习的知识图谱问答语义匹配模型;鲁强 等;计算机应用;20180403(第07期);第22-28页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117520786A (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106980683B (zh) | 基于深度学习的博客文本摘要生成方法 | |
CN110704598B (zh) | 一种语句信息的抽取方法、抽取装置及可读存储介质 | |
Granroth-Wilding et al. | What happens next? event prediction using a compositional neural network model | |
CN109800310B (zh) | 一种基于结构化表达的电力运维文本分析方法 | |
CN111160005B (zh) | 基于事件演化知识本体的事件预测方法、装置及终端设备 | |
CN117520786B (zh) | 基于nlp和循环神经网络的大语言模型构建方法 | |
CN110889786A (zh) | 一种基于lstm技术的法律诉讼被告人保全用审判服务方法 | |
CN109308323A (zh) | 一种因果关系知识库的构建方法、装置及设备 | |
US20230205995A1 (en) | Methods and Systems for Automated Detection of Personal Information Using Neural Networks | |
CN112148832A (zh) | 一种基于标签感知的双重自注意力网络的事件检测方法 | |
CN109359184B (zh) | 英文事件同指消解方法和系统 | |
CN112784010A (zh) | 一种基于多模型非线性融合的中文句子相似度计算方法 | |
CN113821605A (zh) | 一种事件抽取方法 | |
CN115238697A (zh) | 基于自然语言处理的司法命名实体识别方法 | |
CN113704396A (zh) | 短文本分类方法、装置、设备及存储介质 | |
Rahimtoroghi et al. | Learning fine-grained knowledge about contingent relations between everyday events | |
CN113312490B (zh) | 一种针对突发事件的事件知识图谱构建方法 | |
CN115455202A (zh) | 一种应急事件事理图谱构建方法 | |
CN111815426B (zh) | 一种涉及金融投研的数据处理方法及终端 | |
CN117332073A (zh) | 基于特征融合的工业领域事件联合抽取方法、装置和设备 | |
CN110377753B (zh) | 基于关系触发词与gru模型的关系抽取方法及装置 | |
CN111046665B (zh) | 一种领域术语语义漂移抽取方法 | |
CN115048485A (zh) | 面向变压器检修场景的推理型自动问答方法、系统与计算机可读介质 | |
Zhu et al. | Attention based BiLSTM-MCNN for sentiment analysis | |
CN113849637A (zh) | 一种低噪声干扰的有监督关系抽取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |