CN113158685A - 文本的语义预测方法、装置、计算机设备和存储介质 - Google Patents

文本的语义预测方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN113158685A
CN113158685A CN202110444349.4A CN202110444349A CN113158685A CN 113158685 A CN113158685 A CN 113158685A CN 202110444349 A CN202110444349 A CN 202110444349A CN 113158685 A CN113158685 A CN 113158685A
Authority
CN
China
Prior art keywords
text
feature
model
feature vector
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110444349.4A
Other languages
English (en)
Inventor
吴天博
王健宗
黄章成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110444349.4A priority Critical patent/CN113158685A/zh
Publication of CN113158685A publication Critical patent/CN113158685A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/043Architecture, e.g. interconnection topology based on fuzzy logic, fuzzy membership or fuzzy inference, e.g. adaptive neuro-fuzzy inference systems [ANFIS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Mathematics (AREA)
  • Biophysics (AREA)
  • Automation & Control Theory (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及人工智能领域,实现由模糊神经网络模型对BERT模型与双向GRU模型输出的特征向量进行融合,提高了语义预测的准确性。涉及一种文本的语义预测方法、装置、计算机设备和存储介质,该方法包括:获取待进行语义预测的目标文本;将目标文本输入特征融合模型中进行融合处理,获得目标文本对应的特征融合向量,其中,特征融合模型包括BERT模型、双向GRU网络模型以及模糊神经网络模型,模糊神经网络模型用于对BERT模型与双向GRU网络模型输出的特征向量进行融合处理;将特征融合向量输入语义预测模型进行语义预测,获得目标文本对应的语义预测结果。此外,本申请还涉及区块链技术,目标文本可存储于区块链中。

Description

文本的语义预测方法、装置、计算机设备和存储介质
技术领域
本申请涉及人工智能领域,尤其涉及一种文本的语义预测方法、装置、计算机设备和存储介质。
背景技术
在文本的语义预测任务中,通常采用BERT模型对文本进行特征提取,对得到特征向量进行语义预测。然而对于篇幅较长的长文本,很容易超出BERT模型的最大处理长度,造成内存溢出和信息丢失。现有的长文本的处理方式通常包括直接截断、Pooling法以及压缩法等等,但是这些处理方法会造成长文本的序列信息丢失,同时各部分之间的关联也会丢失,从而降低了后续预测语义的准确度。
因此如何解决BERT模型由于文本最大长度的限制造成文本信息丢失的缺陷,以提高语义预测的准确性成为亟需解决的问题。
发明内容
本申请提供了一种文本的语义预测方法、装置、计算机设备和存储介质,通过将目标文本输入特征融合模型进行融合处理,实现由模糊神经网络模型对BERT模型与双向GRU模型输出的特征向量进行融合,得到的特征融合向量包含文本完整的信息以及句子之间的依赖关系,弥补了BERT模型由于文本最大长度的限制造成文本信息丢失的缺陷,提高了语义预测的准确性。
第一方面,本申请提供了一种文本的语义预测方法,所述方法包括:
获取待进行语义预测的目标文本;
将所述目标文本输入特征融合模型中进行融合处理,获得所述目标文本对应的特征融合向量,其中,所述特征融合模型包括BERT模型、双向GRU网络模型以及模糊神经网络模型,所述模糊神经网络模型用于对所述BERT模型与所述双向GRU网络模型输出的特征向量进行融合处理;
将所述特征融合向量输入语义预测模型进行语义预测,获得所述目标文本对应的语义预测结果。
第二方面,本申请还提供了一种文本的语义预测装置,所述装置包括:
目标文本获取模块,用于获取待进行语义预测的目标文本;
特征融合处理模块,用于将所述目标文本输入特征融合模型中进行融合处理,获得所述目标文本对应的特征融合向量,其中,所述特征融合模型包括BERT模型、双向GRU网络模型以及模糊神经网络模型,所述模糊神经网络模型用于对所述BERT模型与所述双向GRU网络模型输出的特征向量进行融合处理;
语义预测模块,用于将所述特征融合向量输入语义预测模型进行语义预测,获得所述目标文本对应的语义预测结果。
第三方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上述的文本的语义预测方法。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上述的文本的语义预测方法。
本申请公开了一种文本的语义预测方法、装置、计算机设备和存储介质,通过获取待进行语义预测的目标文本,将目标文本输入特征融合模型中进行融合处理,实现由BERT模型提取目标文本中的关键信息对应的特征向量,剩余的文本由双向GRU模型提取特征向量,由模糊神经网络模型对BERT模型与双向GRU模型输出的特征向量进行融合,得到的特征融合向量包含文本完整的信息以及句子之间的依赖关系,可以有效弥补BERT模型由于文本最大长度的限制造成文本信息丢失的缺陷;通过将特征融合模型输出的特征融合向量输入语义预测模型进行语义预测,提高了语义预测的准确性。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种文本的语义预测方法的示意性流程图;
图2是本申请实施例提供的一种对目标文本进行语义预测的示意图;
图3是本申请实施例提供的一种对特征融合模型进行训练的子步骤的示意性流程图;
图4是本申请实施例提供的一种对特征融合模型进行训练的示意图;
图5是本申请实施例提供的一种文本的语义预测装置的示意性框图;
图6是本申请实施例提供的一种计算机设备的结构示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本申请的实施例提供了一种文本的语义预测方法、装置、计算机设备和存储介质。其中,该文本的语义预测方法可以应用于服务器或终端中,实现将目标文本输入特征融合模型进行融合处理,由模糊神经网络模型对BERT模型与双向GRU模型输出的特征向量进行融合,得到的特征融合向量包含文本完整的信息以及句子之间的依赖关系,可以弥补BERT模型由于文本最大长度的限制造成文本信息丢失的缺陷,提高了语义预测的准确性。
其中,服务器可以为独立的服务器,也可以为服务器集群。终端可以是智能手机、平板电脑、笔记本电脑和台式电脑等电子设备。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
如图1所示,文本的语义预测方法包括步骤S10至步骤S30。
步骤S10、获取待进行语义预测的目标文本。
示例性的,待进行语义预测的目标文本可以是预先存储至本地数据库或本地磁盘中的文本,也可以是用户实时上传的文本。例如,在文本的语义预测任务中,可以根据检测到用户的选中操作,根据选中操作确定待进行语义预测的目标文本。
其中,目标文本可以是任意长度的文本。例如,可以是长度大于512个字的文本。
步骤S20、将所述目标文本输入特征融合模型中进行融合处理,获得所述目标文本对应的特征融合向量,其中,所述特征融合模型包括BERT模型、双向GRU网络模型以及模糊神经网络模型,所述模糊神经网络模型用于对所述BERT模型与所述双向GRU网络模型输出的特征向量进行融合处理。
请参阅图2,图2是本申请实施例提供的一种对目标文本进行语义预测的示意图。如图2所示,可以将目标文本输入特征融合模型中进行融合处理,获得目标文本对应的特征融合向量;然后将特征融合向量输入语义预测模型进行语义预测,从而可以获得目标文本对应的语义预测结果。
需要说明的是,由于特征融合模型包括BERT(Bidirectional EncoderRepresentations from Transformer)模型、双向GRU(Gate Recurrent Unit,门控循环单元)网络模型以及模糊神经网络模型,模糊神经网络模型用于对BERT模型与双向GRU网络模型输出的特征向量进行融合处理;因此,经特征融合模型进行融合处理输出的特征融合向量包含文本完整的信息以及句子之间的依赖关系,可以有效弥补BERT模型由于文本最大长度的限制造成文本信息丢失的缺陷,进而提高了后续语义预测的准确性。
在本申请实施例中,特征融合模型是预先训练好的特征融合模型。在将目标文本输入特征融合模型中进行融合处理之前,需要对初始的特征融合模型进行训练至收敛,得到训练好的特征融合模型。通过对特征融合模型进行训练,不仅可以提高特征融合模型进行特征融合的准确性,而且还可以提高特征融合模型的泛化性,经特征融合模型输出的融合特征向量可以应用于不同的语义预测任务中。
请参阅图3,图3是本申请实施例提供的一种对特征融合模型进行训练的子步骤的示意性流程图,具体可以包括以下步骤S201至步骤S203。
步骤S201、获取预设数量的第一训练文本。
示例性的,第一训练文本可以是存储至本地数据库或本地磁盘中的文本;第一训练文本还可以是存储在区块链中的文本。需要说明的是,为进一步保证训练文本的私密和安全性,上述训练文本可以存储于一区块链的节点中。在训练时,可以从区块链节点中提取预设数量的文本作为第一训练文本。
其中,第一训练文本可以是篇幅较长的文本,例如,长度大于512个字的文本。
步骤S202、基于所述BERT模型,确定所述第一训练文本对应的第一特征向量,以及基于所述双向GRU网络模型,确定所述第一训练文本对应的第二特征向量。
请参阅图4,图4是本申请实施例提供的一种对特征融合模型进行训练的示意图。如图4所示,首先将第一训练文本输入BERT模型中进行向量化,输出第一特征向量,并根据第一特征向量与第一训练文本,生成第二训练文本;然后,将第二训练文本输入双向GRU网络模型进行特征提取,输出第二特征向量;最后,将第一特征向量与第二特征向量作为输入,对模糊神经网络模型进行训练至收敛,得到训练好的特征融合模型。
在一些实施例中,基于BERT模型,确定第一训练文本对应的第一特征向量之前,还可以对第一训练文本进行拆分处理,获得第一训练文本对应的至少一个样本语句。
需要说明的是,拆分处理是指将第一训练文本进行语句拆分,从而得到第一训练文本对应的至少一个样本语句。
示例性的,可以识别第一训练文本中的目标符号,根据目标符号对第一训练文本进行句子拆分,得到第一训练文本对应的样本语句。其中,目标符号可以包括但不限于分号、句号、冒号以及空格符等。
示例性的,在对第一训练文本进行拆分处理之后,可以将各样本语句输入BERT模型中进行向量化。
在一些实施例中,基于BERT模型,确定第一训练文本对应的第一特征向量,可以包括:将每个样本语句输入BERT模型进行向量化,获得每个样本语句对应的特征向量;根据每个样本语句对应的特征向量,确定第一特征向量。
需要说明的是,在本申请实施例中,BERT模型可以是训练好的模型。示例性的,可以预先采用大规模、与特定NLP(Natural Language Processing,自然语言处理)任务无关的文本语料对BERT模型进行训练,得到训练后的BERT模型。在训练时,BERT模型可以通过Attention(注意力)机制将目标字和上下文各个字的语义向量表示作为输入;然后通过线性变换获得目标字的向量表示、上下文各个字的向量表示以及目标字与上下文各个字的原始值表示;最后计算目标字的向量与上下文各个字的向量的相似度作为权重,对目标字的向量和各个上下文字的向量进行加权融合,作为Attention的输出,即目标字的增强语义向量表示。
示例性的,将每个样本语句输入训练好的BERT模型进行向量化,获得每个样本语句对应的特征向量。需要说明的是,通过将样本语句输入BERT模型进行向量化,可以获得语义增强的特征向量。
在本申请实例中,为避免BERT模型造成文本信息丢失,需要通过BERT模型确定包含关键信息的样本语句,将剩余的样本语句作为另一个数据源输入双向GRU网络模型进行二次特征提取,得到第二特征向量。从而,不仅解决了BERT模型由于文本最大长度的限制造成文本信息丢失的缺陷,而且还可以通过第一特征向量与第二特征向量获得包含文本完整的信息以及句子之间的依赖关系的特征融合向量。
示例性的,在将样本语句输入BERT模型进行向量化后,可以根据特征向量之间的相似度,确定包含关键信息的样本语句。需要说明的是,包含关键信息的样本语句是指相似度较高的特征向量对应的样本语句。
在一些实施例中,根据每个样本语句对应的特征向量,确定第一特征向量,包括:基于预设的相似度算法,确定每两个特征向量之间的相似度;将相似度大于预设相似度阈值的特征向量,确定为目标特征向量;对目标特征向量进行数据清洗,根据清洗后的目标特征向量确定第一特征向量。
示例性的,预设的相似度算法可以包括但不限于欧式距离、余弦相似度、Jaccard相似系数以及Pearson相关系数等算法。
示例性的,若存在A、B、C三个特征向量,则可以基于相似度算法,分别计算特征向量A与B之间的相似度、特征向量A与C之间的相似度以及特征向量B与C之间的相似度。然后,将相似度大于预设相似度阈值的特征向量,确定为目标特征向量。
其中,预设相似度阈值可以根据实际情况设定,具体数值在此不作限定。
在本申请实施例中,在确定目标特征向量之后,可以对目标特征向量进行数据清洗,根据清洗后的目标特征向量确定第一特征向量。示例性的,可以根据第一特征向量确定第一训练文本中的包含关键信息的样本语句。
需要说明的是,数据清洗是指清除目标特征向量中重复的特征向量。示例性的,若目标特征向量存在两个相同的特征向量A,则保留其中一个特征向量A。
通过相似度算法计算每两个特征向量之间的相似度,可以将相似度较高的特征向量作为第一特征向量,进而实现通过BERT模型提取到训练文本中的关键信息,有效解决了BERT模型因文本最大长度的限制造成文本信息丢失的缺陷。通过对目标特征向量进行数据清洗,可以避免第一特征向量出现数据冗余,进而提高了后续特征融合的准确性。
在一些实施例中,基于双向GRU网络模型,确定第一训练文本对应的第二特征向量,可以将第一训练文本中的与第一特征向量对应的样本语句去除,根据第一训练文本中的剩余样本语句,确定第二训练文本;将第二训练文本输入双向GRU网络模型中进行特征提取,获得第二特征向量。
需要说明的是,双向GRU网络模型是循环神经网络(Recurrent Neural Network,RNN)的一种。双向GRU网络模型可以包括一个或多个双向GRU单元,其中,双向GRU单元由状态向量重置门和更新门组成。此外,双向GRU模型在处理长文本时,在自动特征选择、时间序列依赖关系方面的高效性和稳定性较好,可以很好的获取句子间的依赖关系。
示例性的,双向GRU网络模型可以是预先训练好的网络模型,具体的训练过程在此不作限定。
示例性的,可以将第一训练文本中的剩余样本语句,确定为第二训练文本。然后,将第二训练文本中的样本语句输入训练好的双向GRU网络模型进行特征提取,获得第二训练文本对应的第二特征向量。
通过将第二训练文本输入双向GRU网络模型进行二次特征提取,得到第二特征向量,不仅解决了BERT模型由于文本最大长度的限制造成文本信息丢失的缺陷,而且还可以通过第一特征向量与第二特征向量获得包含文本完整的信息以及句子之间的依赖关系的特征融合向量。
步骤S203、将所述第一特征向量与所述第二特征向量输入所述模糊神经网络模型进行迭代训练,直至所述模糊神经网络模型收敛,得到训练好的所述特征融合模型。
在本申请实施例中,通过将第一特征向量与第二特征向量输入模糊神经网络模型进行迭代训练,直至模糊神经网络模型收敛,不仅可以使得训练好的特征融合模型具备对特征向量进行融合的能力,而且还可以提高特征融合模型特征融合的准确性。
示例性的,将第一特征向量与第二特征向量同时输入模糊神经网络模型进行迭代训练,直至模糊神经网络模型收敛,得到训练好的特征融合模型。可以理解的是,由于特征融合模型包括BERT模型、双向GRU网络模型以及模糊神经网络模型,因此当模糊神经网络模型收敛时,可以得到训练好的特征融合模型。
需要说明的是,模糊神经网络模型是指自适应模糊神经推理系统(AdaptiveNeuro-Fuzzy Inference System),由自适应网络和模糊推理系统合并而成。自适应模糊神经推理系统在功能上继承了模糊推理系统的可解释性的特点以及自适应网络的学习能力,能够根据先验知识调节模型参数,使模型的输出更接近真实输出。其中,自适应模糊神经推理系统采用反向传播算法和最小二乘法的混合算法调整前提参数和结论参数,并能自动产生If-Then规则。
在一些实施例中,将第一特征向量与第二特征向量输入模糊神经网络模型进行迭代训练之前,还可以包括:获取预设的同义词集;基于注意力机制,根据同义词集对第一特征向量与第二特征向量进行权重值分配,得到权重值分配后的第一特征向量与第二特征向量。
示例性的,预设的同义词集可以是WordNet知识库中的同义词集;其中,WordNet知识库以三元组形式存储同义词,每个同义词是一组可嵌入矩阵。
在一些实施方式中,基于注意力机制,根据同义词集对第一特征向量与第二特征向量进行权重值分配,得到权重值分配后的第一特征向量与第二特征向量,可以包括:基于同义词集,确定第一特征向量与第二特征向量对应的词相似矩阵;基于预设的相似度算法,计算第一特征向量与词相似矩阵之间的第一相似度以及计算第二特征向量与词相似矩阵之间的第二相似度;对第一相似度与第二相似度进行归一化,得到第一特征向量对应的第一权重值以及第二特征向量对应的第二权重值。
示例性的,可以根据第一特征向量对应的样本语句与第二特征向量对应的样本语句,在同义词集中提取一个与样本语句语义相同或相似的矩阵,将该矩阵确定为第一特征向量与第二特征向量对应的词相似矩阵。然后分别计算第一特征向量与词相似矩阵之间的第一相似度以及计算第二特征向量与词相似矩阵之间的第二相似度。其中,可以采用欧式距离、余弦相似度、Jaccard相似系数以及Pearson相关系数等相似度算法进行计算。
示例性的,对第一相似度与第二相似度进行归一化处理,得到第一特征向量对应的第一权重值以及第二特征向量对应的第二权重值。例如,第一权重值为0.7,第二权重值为0.3。
通过加入同义词集,不仅可以减少语义歧义的问题,而且还可以提高训练好的特征融合模型的泛化性;通过基于注意力机制,根据同义词集对第一特征向量与第二特征向量进行权重值分配,可以对模糊神经网络模型的输入进行修正,进而提高了模糊神经网络模型融合特征的准确性。
在一些实施例中,将第一特征向量与第二特征向量输入模糊神经网络模型进行迭代训练,可以包括:将权重值分配后的第一特征向量与第二特征向量输入模糊神经网络模型进行迭代训练。
示例性的,将第一特征向量按照第一权重值、将第二特征向量按照第二权重值输入输入模糊神经网络模型进行迭代训练。
示例性的,模糊神经网络模型的训练过程为:根据权重值分配后的第一特征向量与第二特征向量,确定每一轮训练的训练样本数据;将当前轮训练样本数据输入模糊神经网络模型中进行特征融合训练,得到当前轮训练样本数据对应的特征融合预测向量;基于最小二乘估计算法,确定特征融合预测向量对应的损失函数值;若损失函数值大于预设的损失值阈值,则基于误差反向传播算法调整模糊神经网络模型的参数,并进行下一轮训练,直至得到的损失函数值小于或等于损失值阈值,结束训练,得到训练后的模糊神经网络模型。
示例性的,预设的损失值阈值可以根据实际情况进行设定,具体数值在此不作限定。
需要说明的是,误差反向传播(Error Back Propagation,BP)算法是一种按照误差逆向传播算法训练的多层前馈神经网络。
通过采用最小二乘估计算法和误差反向传播算法相结合的混合学习算法对模糊神经网络模型进行参数调整,不仅可以减少单独采用BP法的搜索空间的维数,而且还可以减少模糊神经网络模型收敛所需的时间,提高训练速度。
为进一步保证上述训练好的特征融合模型的私密和安全性,上述训练好的特征融合模型还可以存储于一区块链的节点中。当需要使用训练好的特征融合模型时,可以从区块链的节点中调用。
在本申请实施例中,在对特征融合模型进行训练后,可以将目标文本输入训练好的特征融合模型进行融合处理,从而可以获得目标文本对应的特征融合向量。
示例性的,将目标文本输入特征融合模型中进行融合处理,获得目标文本对应的特征融合向量,包括:对目标文本进行拆分处理,获得目标文本对应的至少一个目标语句;将每个目标语句输入BERT模型进行向量化,获得每个目标语句对应的特征向量;根据每个目标语句对应的特征向量,确定第三特征向量;基于双向GRU网络模型,根据第三特征向量与目标文本,确定第四特征向量;将第三特征向量与第四特征向量输入模糊神经网络模型进行融合处理,获得特征融合向量。
其中,在根据第三特征向量与目标文本确定第四特征向量时,可以将目标文本中的与第三特征向量对应的目标语句去除,根据目标文本中的剩余目标语句,确定第二目标文本;将第二目标文本输入双向GRU网络模型中进行特征提取,获得第四特征向量。
通过将目标文本输入特征融合模型中进行融合处理,可以实现模糊神经网络模型对BERT模型与双向GRU模型输出的特征向量进行融合,得到的特征融合向量包含文本完整的信息以及句子之间的依赖关系,可以有效弥补BERT模型由于文本最大长度的限制造成文本信息丢失的缺陷。
步骤S30、将所述特征融合向量输入语义预测模型进行语义预测,获得所述目标文本对应的语义预测结果。
在本申请实施例中,语义预测模型可以根据不同的语义预测任务进行设定。示例性的,语义预测模型可以包括双向GRU网络模型与全连接层,还可以是其它分类模型,例如,卷积神经网络、受限玻尔兹曼机等等。
示例性的,可以将特征融合向量输入语义预测模型进行语义预测,获得目标文本对应的语义预测结果。其中,语义预测结果可以包括语义类别。
需要说明的是,语义类别是指按语义关系划分的语言表达式的类。示例性的,语义类别可以包括但不限于同义、反义、类包含、部分整体以及事件等等。
示例性的,还可以在语义预测模型中添加归一化层,从而语义预测模型输出的语义预测结果包括语义类别与语义类别对应的概率。
通过将特征融合模型输出的特征融合向量输入语义预测模型进行语义预测,提高了语义预测的准确性。
上述实施例提供的文本的语义预测方法,通过对特征融合模型进行训练,不仅可以提高特征融合模型进行特征融合的准确性,而且还可以提高特征融合模型的泛化性,经特征融合模型输出的融合特征向量可以应用于不同的语义预测任务中;通过将样本语句输入BERT模型进行向量化,可以获得语义增强的特征向量;通过相似度算法计算每两个特征向量之间的相似度,可以将相似度较高的特征向量作为第一特征向量,进而实现通过BERT模型提取到训练文本中的关键信息,有效解决了BERT模型因文本最大长度的限制造成文本信息丢失的缺陷;通过对目标特征向量进行数据清洗,可以避免第一特征向量出现数据冗余,进而提高了后续特征融合的准确性;通过将第二训练文本输入双向GRU网络模型进行二次特征提取,得到第二特征向量,不仅解决了BERT模型由于文本最大长度的限制造成文本信息丢失的缺陷,而且还可以通过第一特征向量与第二特征向量获得包含文本完整的信息以及句子之间的依赖关系的特征融合向量;通过加入同义词集,不仅可以减少语义歧义的问题,而且还可以提高训练好的特征融合模型的泛化性;通过基于注意力机制,根据同义词集对第一特征向量与第二特征向量进行权重值分配,可以对模糊神经网络模型的输入进行修正,进而提高了模糊神经网络模型融合特征的准确性;通过采用最小二乘估计算法和误差反向传播算法相结合的混合学习算法对模糊神经网络模型进行参数调整,不仅可以减少单独采用BP法的搜索空间的维数,而且还可以减少模糊神经网络模型收敛所需的时间,提高训练速度;通过将目标文本输入特征融合模型中进行融合处理,可以实现模糊神经网络模型对BERT模型与双向GRU模型输出的特征向量进行融合,得到的特征融合向量包含文本完整的信息以及句子之间的依赖关系,可以有效弥补BERT模型由于文本最大长度的限制造成文本信息丢失的缺陷;通过将特征融合模型输出的特征融合向量输入语义预测模型进行语义预测,提高了语义预测的准确性。
请参阅图5,图5是本申请的实施例还提供一种文本的语义预测装置1000的示意性框图,该文本的语义预测装置用于执行前述的文本的语义预测方法。其中,该文本的语义预测装置可以配置于服务器或终端中。
如图5所示,该文本的语义预测装置1000,包括:目标文本获取模块1001、特征融合处理模块1002和语义预测模块1003。
目标文本获取模块1001,用于获取待进行语义预测的目标文本。
特征融合处理模块1002,用于将所述目标文本输入特征融合模型中进行融合处理,获得所述目标文本对应的特征融合向量,其中,所述特征融合模型包括BERT模型、双向GRU网络模型以及模糊神经网络模型,所述模糊神经网络模型用于对所述BERT模型与所述双向GRU网络模型输出的特征向量进行融合处理。
语义预测模块1003,用于将所述特征融合向量输入语义预测模型进行语义预测,获得所述目标文本对应的语义预测结果。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
上述的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图6所示的计算机设备上运行。
请参阅图6,图6是本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是服务器或终端。
请参阅图6,该计算机设备包括通过系统总线连接的处理器和存储器,其中,存储器可以包括非易失性存储介质和内存储器。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种文本的语义预测方法。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取待进行语义预测的目标文本;将所述目标文本输入特征融合模型中进行融合处理,获得所述目标文本对应的特征融合向量,其中,所述特征融合模型包括BERT模型、双向GRU网络模型以及模糊神经网络模型,所述模糊神经网络模型用于对所述BERT模型与所述双向GRU网络模型输出的特征向量进行融合处理;将所述特征融合向量输入语义预测模型进行语义预测,获得所述目标文本对应的语义预测结果。
在一个实施例中,所述处理器在实现将所述目标文本输入特征融合模型中进行融合处理之前,还用于实现:
获取预设数量的第一训练文本;基于所述BERT模型,确定所述第一训练文本对应的第一特征向量,以及基于所述双向GRU网络模型,确定所述第一训练文本对应的第二特征向量;将所述第一特征向量与所述第二特征向量输入所述模糊神经网络模型进行迭代训练,直至所述模糊神经网络模型收敛,得到训练好的所述特征融合模型。
在一个实施例中,所述处理器在实现基于所述BERT模型,确定所述第一训练文本对应的第一特征向量之前,还用于实现:
对所述第一训练文本进行拆分处理,获得所述第一训练文本对应的至少一个样本语句。
在一个实施例中,所述处理器在实现基于所述BERT模型,确定所述第一训练文本对应的第一特征向量时,用于实现:
将每个所述样本语句输入所述BERT模型进行向量化,获得每个所述样本语句对应的特征向量;根据每个所述样本语句对应的特征向量,确定所述第一特征向量。
在一个实施例中,所述处理器在实现根据每个所述样本语句对应的特征向量,确定所述第一特征向量时,用于实现:
基于预设的相似度算法,确定每两个所述特征向量之间的相似度;将相似度大于预设相似度阈值的特征向量,确定为目标特征向量;对所述目标特征向量进行数据清洗,根据清洗后的所述目标特征向量确定所述第一特征向量。
在一个实施例中,所述处理器在实现基于所述双向GRU网络模型,确定所述第一训练文本对应的第二特征向量,用于实现:
将所述第一训练文本中的与所述第一特征向量对应的样本语句去除,根据所述第一训练文本中的剩余样本语句,确定第二训练文本;将所述第二训练文本输入所述双向GRU网络模型中进行特征提取,获得所述第二特征向量。
在一个实施例中,所述处理器在实现将所述第一特征向量与所述第二特征向量输入所述模糊神经网络模型进行迭代训练之前,还用于实现:
获取预设的同义词集;基于注意力机制,根据所述同义词集对所述第一特征向量与所述第二特征向量进行权重值分配,得到权重值分配后的所述第一特征向量与所述第二特征向量。
在一个实施例中,所述处理器在实现将所述第一特征向量与所述第二特征向量输入所述模糊神经网络模型进行迭代训练时,用于实现:
将权重值分配后的所述第一特征向量与所述第二特征向量输入所述模糊神经网络模型进行迭代训练。
在一个实施例中,所述处理器在实现将所述目标文本输入特征融合模型中进行融合处理,获得所述目标文本对应的特征融合向量时,用于实现:
对所述目标文本进行拆分处理,获得所述目标文本对应的至少一个目标语句;将每个所述目标语句输入所述BERT模型进行向量化,获得每个所述目标语句对应的特征向量;根据每个所述目标语句对应的特征向量,确定第三特征向量;基于所述双向GRU网络模型,根据所述第三特征向量与所述目标文本,确定第四特征向量;将所述第三特征向量与所述第四特征向量输入所述模糊神经网络模型进行融合处理,获得所述特征融合向量。
本申请的实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现本申请实施例提供的任一项文本的语义预测方法。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字卡(Secure Digital Card,SD Card),闪存卡(Flash Card)等。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种文本的语义预测方法,其特征在于,包括:
获取待进行语义预测的目标文本;
将所述目标文本输入特征融合模型中进行融合处理,获得所述目标文本对应的特征融合向量,其中,所述特征融合模型包括BERT模型、双向GRU网络模型以及模糊神经网络模型,所述模糊神经网络模型用于对所述BERT模型与所述双向GRU网络模型输出的特征向量进行融合处理;
将所述特征融合向量输入语义预测模型进行语义预测,获得所述目标文本对应的语义预测结果。
2.根据权利要求1所述的文本的语义预测方法,其特征在于,所述将所述目标文本输入特征融合模型中进行融合处理之前,还包括:
获取预设数量的第一训练文本;
基于所述BERT模型,确定所述第一训练文本对应的第一特征向量,以及基于所述双向GRU网络模型,确定所述第一训练文本对应的第二特征向量;
将所述第一特征向量与所述第二特征向量输入所述模糊神经网络模型进行迭代训练,直至所述模糊神经网络模型收敛,得到训练好的所述特征融合模型。
3.根据权利要求2所述的文本的语义预测方法,其特征在于,所述基于所述BERT模型,确定所述第一训练文本对应的第一特征向量之前,还包括:
对所述第一训练文本进行拆分处理,获得所述第一训练文本对应的至少一个样本语句;
所述基于所述BERT模型,确定所述第一训练文本对应的第一特征向量,包括:
将每个所述样本语句输入所述BERT模型进行向量化,获得每个所述样本语句对应的特征向量;
根据每个所述样本语句对应的特征向量,确定所述第一特征向量。
4.根据权利要求3所述的文本的语义预测方法,其特征在于,所述根据每个所述样本语句对应的特征向量,确定所述第一特征向量,包括:
基于预设的相似度算法,确定每两个所述特征向量之间的相似度;
将相似度大于预设相似度阈值的特征向量,确定为目标特征向量;
对所述目标特征向量进行数据清洗,根据清洗后的所述目标特征向量确定所述第一特征向量。
5.根据权利要求2所述的文本的语义预测方法,其特征在于,所述基于所述双向GRU网络模型,确定所述第一训练文本对应的第二特征向量,包括:
将所述第一训练文本中的与所述第一特征向量对应的样本语句去除,根据所述第一训练文本中的剩余样本语句,确定第二训练文本;
将所述第二训练文本输入所述双向GRU网络模型中进行特征提取,获得所述第二特征向量。
6.根据权利要求2所述的文本的语义预测方法,其特征在于,所述将所述第一特征向量与所述第二特征向量输入所述模糊神经网络模型进行迭代训练之前,还包括:
获取预设的同义词集;
基于注意力机制,根据所述同义词集对所述第一特征向量与所述第二特征向量进行权重值分配,得到权重值分配后的所述第一特征向量与所述第二特征向量;
所述将所述第一特征向量与所述第二特征向量输入所述模糊神经网络模型进行迭代训练,包括:
将权重值分配后的所述第一特征向量与所述第二特征向量输入所述模糊神经网络模型进行迭代训练。
7.根据权利要求1-6任一项所述的文本的语义预测方法,其特征在于,所述将所述目标文本输入特征融合模型中进行融合处理,获得所述目标文本对应的特征融合向量,包括:
对所述目标文本进行拆分处理,获得所述目标文本对应的至少一个目标语句;
将每个所述目标语句输入所述BERT模型进行向量化,获得每个所述目标语句对应的特征向量;
根据每个所述目标语句对应的特征向量,确定第三特征向量;
基于所述双向GRU网络模型,根据所述第三特征向量与所述目标文本,确定第四特征向量;
将所述第三特征向量与所述第四特征向量输入所述模糊神经网络模型进行融合处理,获得所述特征融合向量。
8.一种文本的语义预测装置,其特征在于,包括:
目标文本获取模块,用于获取待进行语义预测的目标文本;
特征融合处理模块,用于将所述目标文本输入特征融合模型中进行融合处理,获得所述目标文本对应的特征融合向量,其中,所述特征融合模型包括BERT模型、双向GRU网络模型以及模糊神经网络模型,所述模糊神经网络模型用于对所述BERT模型与所述双向GRU网络模型输出的特征向量进行融合处理;
语义预测模块,用于将所述特征融合向量输入语义预测模型进行语义预测,获得所述目标文本对应的语义预测结果。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至7任一项所述的文本的语义预测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7任一项所述的文本的语义预测方法。
CN202110444349.4A 2021-04-23 2021-04-23 文本的语义预测方法、装置、计算机设备和存储介质 Pending CN113158685A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110444349.4A CN113158685A (zh) 2021-04-23 2021-04-23 文本的语义预测方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110444349.4A CN113158685A (zh) 2021-04-23 2021-04-23 文本的语义预测方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN113158685A true CN113158685A (zh) 2021-07-23

Family

ID=76870153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110444349.4A Pending CN113158685A (zh) 2021-04-23 2021-04-23 文本的语义预测方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN113158685A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743650A (zh) * 2021-08-04 2021-12-03 南方电网科学研究院有限责任公司 电力负荷预测方法、装置、设备与存储介质
CN113779960A (zh) * 2021-09-26 2021-12-10 挂号网(杭州)科技有限公司 文本特征确定方法、装置、设备及介质
CN114218961A (zh) * 2021-12-14 2022-03-22 北京百度网讯科技有限公司 文本检测方法、装置和电子设备
CN114625315A (zh) * 2022-01-21 2022-06-14 南华大学 一种基于元语义嵌入的云存储相似数据检测方法和系统
CN117272233A (zh) * 2023-11-21 2023-12-22 中国汽车技术研究中心有限公司 柴油机排放预测方法、设备和存储介质
CN117272233B (zh) * 2023-11-21 2024-05-31 中国汽车技术研究中心有限公司 柴油机排放预测方法、设备和存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743650A (zh) * 2021-08-04 2021-12-03 南方电网科学研究院有限责任公司 电力负荷预测方法、装置、设备与存储介质
CN113779960A (zh) * 2021-09-26 2021-12-10 挂号网(杭州)科技有限公司 文本特征确定方法、装置、设备及介质
CN114218961A (zh) * 2021-12-14 2022-03-22 北京百度网讯科技有限公司 文本检测方法、装置和电子设备
CN114625315A (zh) * 2022-01-21 2022-06-14 南华大学 一种基于元语义嵌入的云存储相似数据检测方法和系统
CN117272233A (zh) * 2023-11-21 2023-12-22 中国汽车技术研究中心有限公司 柴油机排放预测方法、设备和存储介质
CN117272233B (zh) * 2023-11-21 2024-05-31 中国汽车技术研究中心有限公司 柴油机排放预测方法、设备和存储介质

Similar Documents

Publication Publication Date Title
CN113158685A (zh) 文本的语义预测方法、装置、计算机设备和存储介质
AU2014315619B2 (en) Methods and systems of four-valued simulation
Etessami et al. Recursive Markov decision processes and recursive stochastic games
CN113011529B (zh) 文本分类模型的训练方法、装置、设备及可读存储介质
CN112528634A (zh) 文本纠错模型训练、识别方法、装置、设备及存储介质
WO2019006541A1 (en) SYSTEM AND METHOD FOR AUTOMATIC CONSTRUCTION OF LEARNING MACHINES USING LEARNING MACHINES
CN116644804B (zh) 分布式训练系统、神经网络模型训练方法、设备和介质
CN112101042A (zh) 文本情绪识别方法、装置、终端设备和存储介质
CN113190675A (zh) 文本摘要生成方法、装置、计算机设备和存储介质
CN112418320A (zh) 一种企业关联关系识别方法、装置及存储介质
CN113296755A (zh) 代码结构树库构建方法和信息推送方法
CN113239150B (zh) 文本匹配方法、系统及设备
CN113343677B (zh) 一种意图识别方法、装置、电子设备及存储介质
CN112835798B (zh) 聚类学习方法、测试步骤聚类方法及相关装置
CN114399025A (zh) 一种图神经网络解释方法、系统、终端以及存储介质
KR102582779B1 (ko) 뉴로 심볼릭 기반 릴레이션 임베딩을 통한 지식완성 방법 및 장치
CN113806489A (zh) 用于数据集创建的方法、电子设备和计算机程序产品
CN113779190A (zh) 事件因果关系识别方法、装置、电子设备与存储介质
US20200234120A1 (en) Generation of tensor data for learning based on a ranking relationship of labels
JP2008226091A (ja) 計算装置
CN112445914A (zh) 文本分类方法、装置、计算机设备和介质
CN109977194B (zh) 基于无监督学习的文本相似度计算方法、系统、设备及介质
Schueller et al. Active learning strategies and active control of complexity growth in naming games
CN114065741B (zh) 用于验证表述的真实性的方法、设备、装置和介质
CN111400484B (zh) 一种关键词提取方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination