CN114065768B - 特征融合模型的训练、文本处理方法及装置 - Google Patents
特征融合模型的训练、文本处理方法及装置 Download PDFInfo
- Publication number
- CN114065768B CN114065768B CN202111490459.0A CN202111490459A CN114065768B CN 114065768 B CN114065768 B CN 114065768B CN 202111490459 A CN202111490459 A CN 202111490459A CN 114065768 B CN114065768 B CN 114065768B
- Authority
- CN
- China
- Prior art keywords
- fusion
- network
- fusion network
- vectors
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 525
- 238000003672 processing method Methods 0.000 title description 14
- 239000013598 vector Substances 0.000 claims abstract description 239
- 239000013604 expression vector Substances 0.000 claims abstract description 163
- 238000007499 fusion processing Methods 0.000 claims abstract description 67
- 238000000034 method Methods 0.000 claims abstract description 67
- 230000001149 cognitive effect Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 abstract description 16
- 230000008909 emotion recognition Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000008451 emotion Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 241000599931 Paris quadrifolia Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本说明书实施例公开了一种特征融合模型的训练和文本处理方法、装置,用以实现全面准确的文本嵌入,提高文本处理过程中对文本语义理解的准确性。所述特征融合模型的训练方法包括:获取第一样本字符在N个维度的特征信息;分别对得到的N个特征信息进行嵌入处理;依次将N个嵌入向量输入特征融合模型中,输出第一样本字符的M个表示向量,特征融合模型包括M级融合网络,第一级融合网络用于对输入的嵌入向量进行融合处理得到对应的表示向量;非第一级融合网络用于对输入的嵌入向量和上一级融合网络对应的表示向量进行融合处理得到对应的表示向量;基于各级融合网络对应的表示向量和输入至各级融合网络的嵌入向量,更新各级融合网络的网络参数。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种特征融合模型的训练、文本处理方法及装置。
背景技术
在进行文本处理时,通常需要先对待处理的文本进行文本嵌入,即将文本中的字符(比如中文对应的汉字、英文对应的单词等)转换为计算机可以识别的数值型词向量。文本嵌入结果的好坏大大影响文本处理过程中对文本语义的理解。
目前常见的文本嵌入方案,主要是基于深度学习技术,利用神经网络对大型语料中的字符的语义进行学习,输出一串语义向量来表示字符的语义。但是,这种方案只能针对文本中的字符在实际文本中的语义来刻画文本,这就造成对文本的刻画较为单一,进而导致后续文本处理过程中对文本语义的理解不准确,影响文本处理结果的准确性。
发明内容
本申请提供一种特征融合模型的训练方法、文本处理方法及装置,用于提高文本处理过程中对文本语义理解的准确性,进而提高文本处理结果的准确性。
第一方面,本申请提供一种特征融合模型的训练方法,包括:
获取第一样本文本中的第一样本字符在N个维度的特征信息,得到N个特征信息,所述N个特征信息与所述N个维度一一对应,所述N为大于1的整数;
分别对所述N个特征信息进行嵌入处理,得到N个嵌入向量,每个嵌入向量用于表示所述第一样本字符在对应维度的嵌入向量;
将所述N个嵌入向量输入特征融合模型中,输出所述第一样本字符的M个表示向量,所述M为正整数;其中,所述特征融合模型包括M级融合网络,所述M级融合网络与所述M个表示向量一一对应,若融合网络为第一级融合网络,融合网络用于对输入的嵌入向量进行融合处理得到对应的表示向量;若融合网络不为第一级融合网络,融合网络用于对输入的嵌入向量和上一级融合网络对应的表示向量进行融合处理得到对应的表示向量;
基于各级融合网络对应的表示向量和输入至各级融合网络的嵌入向量,更新各级融合网络的网络参数。
可以看出,在本申请实施例中,由于使用了文本中的字符在多个维度的特征信息进行嵌入,使得特征融合模型能够从多个维度去学习了解文本,进而输出的表示向量能够更全面、更丰富地刻画文本的语义;另外,由于多个维度的特征信息是有层次地、逐步输入到特征融合模型中进行融合处理的,使得特征融合模型能够在对当前输入的嵌入向量有了一定的学习了解之后再继续对下一个嵌入向量进行学习了解,进而使得特征融合模型能够循序渐进地获取信息、理解信息及认知信息,保留各维度的重要特征并进行有效结合,相较于将多个维度的特征信息混杂在一起同时进行融合处理,本方案的特征融合模型输出的表示向量能够更准确地刻画文本的语义。
第二方面,本申请提供一种文本处理方法,包括:
获取待处理文本的目标字符在N个维度的特征信息,得到N个特征信息,所述N个特征信息与所述N个维度一一对应,所述N为大于1的整数;
分别对所述N个特征信息进行嵌入处理,得到N个嵌入向量,每个嵌入向量用于表示所述目标字符在对应维度的嵌入向量;
将所述N个嵌入向量输入预先建立的特征融合模型中,输出所述目标字符的M个表示向量,所述M为正整数;其中,所述特征融合模型包括M级融合网络,所述M级融合网络与所述M个表示向量一一对应,若融合网络为第一级融合网络,融合网络用于对输入的嵌入向量进行融合处理得到对应的表示向量;若融合网络不为第一级融合网络,融合网络用于对输入的嵌入向量和上一级融合网络对应的表示向量进行融合处理得到对应的表示向量,各级融合网络为基于样本文本中的样本字符在所述N个维度的嵌入向量及各级融合网络对应的表示向量进行训练得到;
基于所述目标字符的M个表示向量,对所述待处理文本进行文本处理。
可以看出,在本申请实施例中,由于通过本方案训练出的特征融合模型输出的表示向量能够更准确地刻画文本的语义,进一步地,利用该特征融合模型输出的表示向量进行文本处理,能够提高文本处理过程中对文本语义理解的准确性,从而可以提高文本处理结果的准确性。
第三方面,本申请提供一种特征融合模型的训练装置,包括:
第一获取模块,用于获取第一样本字符在N个维度的特征信息,得到N个特征信息,所述N个特征信息与所述N个维度一一对应,所述N为大于1的整数;
第一嵌入模块,用于分别对所述N个特征信息进行嵌入处理,得到N个嵌入向量,每个嵌入向量用于表示所述第一样本字符在对应维度的嵌入向量;
第一融合模块,用于将所述N个嵌入向量输入特征融合模型中,输出所述第一样本字符的M个各级表示向量,所述M为正整数;其中,所述特征融合模型包括M级融合网络,所述M级融合网络与所述M个表示向量一一对应,若融合网络为第一级融合网络,融合网络用于对输入的嵌入向量进行融合处理得到对应的表示向量;若融合网络不为第一级融合网络,融合网络用于对输入的嵌入向量和上一级融合网络对应的表示向量进行融合处理得到对应的表示向量;
更新模块,用于基于各级融合网络对应的表示向量和输入至各级融合网络的嵌入向量,更新各级融合网络的网络参数。
第四方面,本申请提供一种文本处理装置,包括:
第二获取模块,用于获取待处理文本的目标字符在N个维度的特征信息,得到N个特征信息,所述N个特征信息与所述N个维度一一对应,所述N为大于1的整数;
第二嵌入模块,用于分别对所述N个特征信息进行嵌入处理,得到N个嵌入向量,每个嵌入向量用于表示所述目标字符在对应维度的嵌入向量;
第二融合模块,用于将所述N个嵌入向量输入预先建立的特征融合模型中,输出所述目标字符的M个表示向量,所述M为正整数;其中,所述特征融合模型包括M级融合网络,所述M级融合网络与所述M个表示向量一一对应,若融合网络为第一级融合网络,融合网络用于对输入的嵌入向量进行融合处理得到对应的表示向量;若融合网络不为第一级融合网络,融合网络用于对输入的嵌入向量和上一级融合网络对应的表示向量进行融合处理得到对应的表示向量,各级融合网络为基于样本文本中的样本字符在所述N个维度的嵌入向量及各级融合网络对应的表示向量进行训练得到;
文本处理模块,用于基于所述目标字符的M个表示向量,对所述待处理文本进行文本处理。
第五方面,本申请提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如第一方面或第二方面所述的方法。
第六方面,本申请提供一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面或第二方面所述的方法。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本说明书的一个实施例提供的一种特征融合模型的训练方法的流程示意图;
图2为本说明书的一个实施例提供的一种特征融合模型的结构示意图;
图3为本说明书的一个实施例提供的一种特征融合过程的示意图;
图4为本说明书的一个实施例提供的一种文本处理方法的流程示意图;
图5为本说明书的一个实施例提供的一种特征融合模型的训练装置的结构示意图;
图6为本说明书的一个实施例提供的一种文本处理装置的结构示意图;
图7为本说明书的一个实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应理解这样使用的数据在适当情况下可以互换,以便本说明书实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,本说明书以及权利要求书中“和/或”表示所连接对象的至少其中之一,字符“/”一般表示前后关联对象是一种“或”的关系。
如前所述,目前常见的文本嵌入方案,主要是基于深度学习技术,利用神经网络对大型语料中的字符的语义进行学习,输出一串语义向量来表示字符的语义。但是,这种方案只能针对文本中的字符在实际文本中的语义来刻画字符,这就造成对文本的刻画较为单一,进而导致后续文本处理过程中对文本语义的理解不准确,影响文本处理结果的准确性。
例如,不同的语句可能存在相同的语义,比如“天上有乌云”和“要下雨了”在语义上的理解相同,所以输出“乌云”和“雨”的语义向量就会比较接近,如果仅从词语的语义上去刻画文本,就无法较好地区分这两句话。又如,相同的词本身的语义相同,但却在不同的场景下表征的语义可能不同,比如“小狗真可爱”和“这个人是真的狗!”这两句话中都包含相同的词“狗”,如果仅从词语的语义上去刻画文本,同样无法较好地区分两句话。
为了提高文本处理过程中对文本语义理解的准确性,进而提高文本处理结果的准确性,本说明书实施例旨在提供一种特征融合模型的训练方法以及后续基于训练出的特征融合模型进行文本处理的方案,通过获取文本中的字符在N个维度的特征信息并进行嵌入处理,得到文本中的字符在N个维度的嵌入向量,然后按照一定的顺序,将文本中的字符在N个维度的嵌入向量输入到包含M级融合网络的特征融合模型中进行融合处理,第一级融合网络对输入的嵌入向量进行融合处理得到对应的表示向量,其他各级融合网络对输入的嵌入向量和上一级融合网络对应的表示向量进行融合处理后输入到下一级融合网络。由于使用了文本中的字符在多个维度的特征信息进行嵌入,使得特征融合模型能够从多个维度去学习了解文本,进而输出的表示向量能够更全面、更丰富地刻画文本的语义;另外,由于多个维度的特征信息是有层次地、逐步输入到特征融合模型中进行融合处理的,使得特征融合模型能够在对当前输入的嵌入向量有了一定的学习了解之后再继续对下一个嵌入向量进行学习了解,进而使得特征融合模型能够循序渐进地获取信息、理解信息及认知信息,保留各维度的重要特征并进行有效结合,相较于将多个维度的特征信息混杂在一起同时进行融合处理,本方案的特征融合模型输出的表示向量能够更准确地刻画文本的语义。由于通过本方案训练出的特征融合模型输出的表示向量能够更准确地刻画文本的语义,进一步地,利用该特征融合模型输出的表示向量进行文本处理,能够提高文本处理过程中对文本语义理解的准确性,从而可以提高文本处理结果的准确性。
应理解,本说明书实施例提供的特征融合模型的训练方法和文本处理方法均可以由电子设备执行或安装在电子设备中的软件执行,具体可以由终端设备或服务端设备执行。其中,特征融合模型的训练方法和文本处理方法可以由同一电子设备执行,或者也可以由不同的电子设备执行。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
请参考图1,为本说明书的一个实施例提供的一种特征融合模型的训练方法的流程示意图,应用于电子设备,该方法可以包括:
S102,获取第一样本文本中的第一样本字符在N个维度的特征信息,得到N个特征信息。
其中,第一样本字符为进行文本处理所需的第一样本文本中的字符。第一样本字符可以通过对第一样本文本进行分词处理得到。
本说明书实施例中,文本处理可以例如包括但不限于情感识别、文本分类等。第一样本文本可以根据文本处理的不同进行选择,例如,情感识别所需的第一样本文本可以包括从语料库中爬取的语料数据等。
文本中的字符可以根据文本类型的不同而不同。例如,对于中文文本,字符则可以为汉字;对于英文文本,则字符可以为单词等。
本说明书实施例中,N个特征信息与N个维度一一对应,N为大于1的整数。字符在N个维度的特征信息可以根据实际需要进行选择。考虑到人们在对一个事物进行认知时,通常都是从外形、读音、书写以及语义等多个方面进行认知,基于此,在一种可选的实现方案中,字符在N个维度的特征信息可以例如包括但不限于以下至少两项:字符表征的实体的图像特征、字符的发音特征、字符的字形特征以及字符的语义特征等。其中,字符表征的实体的图形特征用于描述字符表征的实体的外形,比如字符“狗”表征的小狗的图像特征用于描述小狗的外形;字符的发音特征用于描述字符的读音,比如字符“狗”的发音特征用于描述该字符的读音[gǒu];字符的字形特征用于描述字符的字形;字符的语义特征用于描述字符的含义。需要说明的是,字符的读音特征可以根据字符的不同而不同,比如中文字符的读音特征则为用于描述中文字符的拼音的特征,英文字符的读音特征则为用于描述英文字符的音标的特征,日文字符的读音特征则为用于描述日文字符的音图的特征等。
实际应用中,上述图像特征、发音特征字形特征以及语义特征等可以根据实际需要进行选择。例如,以上文提到的“天上有乌云”和“要下雨了”这两个文本为例,其中的词“乌云”和“雨”在语义上无法区分,但两者在其他特征上存在不同,因而除了获取语义特征之外,可以获取这两个词各自的字形特征和发音特征。又如,以上文提到的“小狗真可爱”和“这个人是真的狗!”这两个文本为例,这两个文本中都包含相同的词“狗”,且该词本身的语义是相同却分别在两个文本中表达出不同的含义,其中,“小狗真可爱”中的词“狗”其表达的是一个实体“小狗”,因而对于该文本中的词“狗”,不仅可以获取语义特征,还可以获取实体“小狗”的图像特征;但“这个人是真的狗!”中的词“狗”实际上是形容词,因而对于该文本中的词“狗”,就不需要去获取实体“小狗”的图像特征。
可以理解的是,通过使用上述N个维度的特征信息,可以使得后续特征融合模型能够获得更多的知识并按照人类对事物的认知方式去理解和认知文本中的字符而输出能够更全面、更丰富地刻画文本语义的表示向量。
本说明书实施例中,字符在各个维度的特征信息可通过相应的特征提取方式获得。例如,字符表征的实体的图像特征可以通过对该实体的图像进行特征提取得到;字符的读音特征可以通过对字符的读音进行编码得到;字符的字形特征可以通过对字符在不同书写体对应的图像进行特征提取得到;字符的语义特征可以通过对字符表征的语义进行编码得到。
当然,应理解,上述获取字符在各个维度的特征信息的方式仅为一种示例性描述,在其他一些可选的实现方式中,还可采用本领域技术人员已知的各种技术手段获取字符在各个维度的特征信息,本说明书实施例对此不作具体限定。
S104,分别对N个特征信息进行嵌入处理,以得到N个嵌入向量。
其中,每个嵌入向量用于表示第一样本字符在对应维度的嵌入向量。
通过对第一样本字符在各维度的特征信息进行嵌入处理(Embedding),可以将第一样本字符在各维度的特征信息转换为计算机可以识别的数值型向量。本说明书实施例中,针对不同维度的特征信息,可以采用不同的嵌入处理方式。
可选地,对于字符表征的实体的图像特征,可以采用本领域技术人员已知的各种图嵌入(Graph Embedding)方式进行嵌入处理,比如将字符表征的实体的图像中的像素值进行平铺处理后再对像素值进行表示压缩,由此得到字符的图嵌入向量;对于字符的发音特征,可以采用本领域技术人员已知的各种向量转换方式,将字符的发音特征转换为字符的发音嵌入向量;对于字符的字形特征,可以采用本领域技术人员已知的各种字形嵌入(Font Embedding)方式进行嵌入处理,比如将字符在不同书写体对应的图像中的像素值进行平铺,得到字符的字形嵌入向量;对于字符的语义特征,可以采用本领域技术人员已知的各种语义嵌入(Word Embedding)方式进行嵌入处理,比如对字符表征的语义进行编码后得到的值进行向量转换处理,得到字符的语义嵌入向量。
在上述S104中,为快速准确地获取第一样本字符在各个维度对应的嵌入向量,从而提高特征融合模型的训练效率,在一种可选的实现方式中,可分别将第一样本字符的N个特征信息输入N个嵌入模型,得到N个嵌入向量,其中,N个嵌入模型与N个维度一一对应,嵌入模型是以对应维度的样本特征信息进行训练得到的,每个维度的样本特征信息为第二样本文本中的第二样本字符在对应维度的特征信息。
更为具体地,嵌入模型可以是以对应维度的特征信息作为训练样本,基于自监督学习的方式进行训练得到。需要说明的是,对于嵌入模型的具体训练方式,可以采用本领域技术人员已知的各种自监督学习方式实现,在此不再详细展开。另外,嵌入模型可以具有任意适当的结构,比如可以采用神经网络(Neural Network)等。
S106,分别将N个嵌入向量输入特征融合模型中,输出第一样本字符的M个表示向量。
为使特征融合模型能够循序渐进地获取、理解及认知输入的第一样本字符,保留输入的第一样本字符在各维度的重要特征并将这些重要特征进行有效结合,本说明书实施例中,特征融合模型可以采用多层级的网络结构,如图2所示,特征融合模型可以包括依次相连的M级融合网络,M为正整数。其中,若融合网络为第一级融合网络,该融合网络用于对输入的嵌入向量进行融合处理得到对应的表示向量;若融合网络不为第一级融合网络,则该融合网络用于对输入的嵌入向量和上一级融合网络对应的表示向量进行融合处理得到对应的表示向量。其中,M可以根据实际需要进行设置,图2中仅以M=3示意,即特征融合模型包含三级融合网络。
在一种可选的实现方式中,可以将N个嵌入向量有层次地、逐步输入到相应层级的融合网络进行融合处理。具体而言,在上述S106之前,本说明书实施例的特征融合模型的训练方法还可以包括:
首先,基于N个维度对应的预设融合顺序,确定N个嵌入向量与M级融合网络之间的对应关系;接着,基于该对应关系和M级融合网络之间的连接顺序,确定N个嵌入向量的输入顺序。相应地,上述S106可以包括:基于N个嵌入向量的输入顺序,依次将N个嵌入向量输入至对应的融合网络,输出第一样本字符的M个表示向量。
本说明书实施例中,N个维度对应的预设融合顺序可以根据实际需要进行设置。例如,以上述N个特征信息包括字符表征的实体的图像特征、字符的发音特征、字符的字形特征以及字符的语义特征为例,考虑到人们在对一个事物进行认知时,通常是按照事物的外形、读音、书写、语义这一顺序进行认知的,比如人们最小的时候对狗产生认知时,一般都是先看到小狗的外形(狗的图像呈现在大脑当中),然后会听到其他人告诉他这个事物叫什么(读音/拼音,别人会告诉他,这是[gǒu]),再然后人们学会怎样书写这个读音所描述的字“狗”,最后人们通过整体理解才掌握这个事物的语义,以至于应用到实际生活中。基于此,上述N个特征信息对应的预设融合顺序依次为:字符表征的实体的图像特征、字符的发音特征、字符的字形特征、字符的语义特征。相应地,如图3所示,在上述N个特征信息包括字符表征的实体的图像特征、字符的发音特征、字符的字形特征以及字符的语义特征时,字符表征的实体的图像特征和字符的发音特征则对应第一级融合网络,字符的字形特征则对应第二级融合网络,字符的语义特征则对应第三级融合网络。
这样,通过按照该融合顺序将第一样本字符在各维度的嵌入向量有层次地、逐步输入到特征融合模型中的各级融合网络,使得特征融合模型能够模仿人类对事物的认知过程,在对当前输入的字符特征有了一定的学习了解之后再继续对下一个字符特征进行学习了解,进而使得特征融合模型能够对输入的字符进行循序渐进的理解和认知,从而保留字符在各维度的重要特征并进行有效结合,相较于将多个维度的特征信息混杂在一起同时进行融合处理,上述特征融合模型输出的表示向量能够更准确地刻画文本的语义。
在图2所示的特征融合网络中,可先将第一样本字符的嵌入向量1和嵌入向量2输入到第一级融合网络中,得到第一级融合网络对应的第一级表示向量;然后,将第一样本字符的嵌入向量3输入到第二级融合网络中,与第一级融合网络对应的表示向量一起经第二级融合网络进行融合处理后,得到第二级融合网络对应的表示向量;接着,将第一样本字符的嵌入向量4输入到第三级融合网络中,与第二级融合网络对应的表示向量一起经第三级融合网络进行融合处理后,得到第三级融合网络对应的表示向量;以此类推,最后一级融合网络输出的表示向量即为第一样本字符最终的表示向量。
为了使各级融合网络能够更好地对输入的向量进行融合处理,对于每级融合网络,将嵌入向量输入至对应的融合网络的具体实现方式包括:若融合网络为第一级融合网络,则对该融合网络对应的嵌入向量进行拼接处理,以及将拼接处理得到的拼接向量输入至该融合网络;若融合网络不为第一级融合网络,则对该融合网络对应的嵌入向量和上一级融合网络对应的表示向量进行拼接处理,以及将拼接处理得到的拼接向量输入至该融合网络。
示例地,以上述N个特征信息包括字符表征的实体的图像特征、字符的发音特征、字符的字形特征以及字符的语义特征为例,如图3所示,在对第一样本字符“狗”的上述N个特征信息进行嵌入处理后,可分别得到该第一样本字符的图嵌入向量、发音嵌入向量、字形嵌入向量以及语义嵌入向量;接着,可以将第一样本字符的图嵌入向量及发音嵌入向量进行拼接后再输入第一级融合网络进行融合处理,得到第一级融合网络对应的表示向量;然后,将第一样本字符的字形嵌入向量输入到第二级融合网络,与第一级融合网络对应的表示向量进行拼接处理后再经第二级融合网络进行融合处理后,得到第二级融合网络对应的表示向量;最后,将第一样本字符的语义嵌入向量输入到第三级融合网络,与第二级融合网络对应的表示向量进行拼接处理后再经第三级融合网络进行融合处理后,得到第三级融合网络对应的表示向量,也即最终用于刻画第一样本字符的表示向量,进而通过第一样本字符的表示向量可以刻画第一样本文本。
可以理解的是,在上述实现方式中,通过将第一样本字符的N个嵌入向量有层次地、逐步输入到相应层级的融合网络进行融合处理,使得特征融合模型可以在对当前输入的嵌入向量有了一定的学习了解之后再继续对下一个嵌入向量进行学习了解,进而使得特征融合模型能够对输入的字符进行循序渐进的理解和认知,从而保留字符在各维度的重要特征并进行有效结合,相较于将多个维度的特征信息混杂在一起同时进行融合处理,上述特征融合模型输出的表示向量能够更准确地刻画文本的语义。
S108,基于各级融合网络对应的表示向量和输入至各级融合网络的嵌入向量,更新各级融合网络的网络参数。
其中,各级融合网络可以具有任意适当的结构,比如各级融合网络可以采用神经网络。各级融合网络的网络参数可以包括各级融合网络包含的网络层数、各网络层之间的连接权重及各网络层包含的神经元数量等,本说明书实施例对此不作具体限定。
考虑到特征融合模型是从第一级融合网络起,循序渐进地对输入的字符进行学习了解的,且每一级融合网络的输出结果会受到上一级融合网络的输出结果的影响,为了使特征融合模型中的各级融合网络能够对输入字符的特征信息进行全面充分的学习了解,以提高输出的表示向量的质量,在一种可选的实现方式中,可以采用反向传播算法更新各级融合网络的网络参数。具体而言,上述S108可以包括如下步骤:
步骤A1,基于M级融合网络中最后一级融合网络对应的表示向量,确定各级融合网络的融合处理损失值。
在一种可选的方案中,考虑到各级融合输出的表示向量的质量好坏会受到其上一级融合网络的影响,基于此,可以基于该融合网络对应的表示向量和预设期望表示向量,确定该融合网络的融合处理损失值,其中,融合网络的融合处理损失值用于表征输出的表示向量与期望表示向量之间的差异;然后,通过反向传播算法,基于各级融合网络的网络参数,将最后一级融合网络的融合处理损失值依次向前传播至第一级融合网络,得到除最后一级融合网络以外的各级融合网络的融合处理损失值。也就是说,基于最后一级融合网络的网络参数和最后一级融合网络的融合处理损失值,确定其上一级融合网络的融合处理损失值,然后基于上一级融合网络的融合处理损失值和上一级融合网络的网络参数,确定再上一级融合网络的融合处理损失值;依次类推,由此得到各级融合网络的融合处理损失值。
在另一种可选的实现方案中,考虑到特征融合模型输出的表示向量的质量好坏会对后续的文本处理结果产生影响,那么,反过来,可通过文本处理结果与期望处理结果之间的差异,反向调整特征融合模型中各级融合的网络参数,从而使得训练得到的特征融合模型能够更好地适应后续的文本处理任务,为后续的文本处理任务提供合适的、高质量的表示向量,以提高文本处理结果的准确性。具体而言,上述步骤A1可以包括:
步骤A11,可基于M级融合网络中最后一级融合网络对应的表示向量,对第一样本文本进行文本处理,得到处理结果。
示例地,由于最后一级融合网络对应的表示向量融合了N个嵌入向量,其能够全面且准确地刻画样本文本的语义,因而可以将最后一级融合网络对应的表示向量确定为第一样本字符最终的表示向量,并利用该表示向量对第一样本文本进行文本处理。如前文所述,本说明书实施例中,文本处理可以例如包括但不限于情感识别、文本分类等。实际应用中,对第一样本文本的文本处理可以采用预先训练的文本处理模型实现。例如,以情感识别为例,可将第一样本文本中的第一样本字符最终的表示向量输入到预先训练的情感识别模型中,得到样本文本表征的情感。
步骤A12,基于处理结果和第一样本文本对应的期望处理结果,确定处理损失值。
其中,处理损失值用于表征得到的处理结果和第一样本文本对应的期望处理结果之间的差异,其可以通过任意适当的方式确定,比如通过预设损失函数确定。示例地,以上述情感识别为例,可以基于对第一样本文本进行情感识别得到的情感与第一样本文本实际的情感以及预设损失函数,确定处理损失值。
步骤A13,基于处理损失值,确定各级融合网络的融合处理损失值。
具体地,可利用反向传播算法,基于各级融合网络当前的网络参数,将处理损失值依次传递至各级融合网络。
更为具体地,对于每级融合网络,确定融合网络的融合处理损失值的具体实现方式有:若融合网络为最后一级融合网络,则基于处理损失值确定融合网络的融合处理损失值,示例地,将处理损失值确定为最后一级融合网络的融合处理损失值;若融合网络不为最后一级融合网络,则基于后一级融合网络的融合处理损失值及后一级融合网络的网络参数,确定融合网络的融合处理损失值。由此,得到的各级融合网络的融合处理损失值更准确。
步骤A2,基于各级融合网络的融合处理损失值、输入至各级融合网络的嵌入向量以及各级融合网络的上一级融合网络对应的表示向量,更新各级融合网络的网络参数。
在得到传播至各级融合网络的处理损失值后,可从第一级融合网络起,依次针对每级融合网络,以使融合网络的融合处理损失值下降为目标,采用梯度下降算法更新融合网络的网络参数,直到达到更新停止条件。具体应用中,更新停止条件可以根据实际需要进行设置,比如更新停止条件可以设置为更新次数达到预设次数或者融合网络的融合处理损失值小于预设损失值,等等。
当然,也可以采用其他本领域技术人员已知的各种技术手段,基于传播至各级融合网络的处理损失值更新各级融合网络的网络参数,本说明书实施例对此不作限定。
应理解,在其他一些可选的实现方式中,上述步骤S108也可以采用本领域技术人员已知的各种技术手段实现,比如前向传播算法等,本说明书实施例对此不作具体限定。
本说明书实施例提供的特征融合模型的训练方法,由于使用了文本中的字符在多个维度的特征信息进行嵌入,使得特征融合模型能够从多个维度去学习了解文本,进而输出的表示向量能够更全面、更丰富地刻画文本的语义;另外,由于多个维度的特征信息是有层次地、逐步输入到特征融合模型中进行融合处理的,使得特征融合模型能够在对当前输入的嵌入向量有了一定的学习了解之后再继续对下一个嵌入向量进行学习了解,进而使得特征融合模型能够循序渐进地获取信息、理解信息及认知信息,保留各维度的重要特征并进行有效结合,相较于将多个维度的特征信息混杂在一起同时进行融合处理,本方案的特征融合模型输出的表示向量能够更准确地刻画文本的语义。
与上述方法相应地,本说明书实施例还提供一种文本处理方法,能够基于图1所示方法训练出的特征融合模型对待处理的文本进行文本嵌入以及利用文本嵌入所得的表示向量对待处理的文本进行文本处理。
请参考图4,为本说明书的一个实施例提供的一种文本处理方法的流程示意图,应用于电子设备,该方法可以包括如下步骤:
S302,获取待处理文本的目标字符在N个维度的特征信息,得到N个特征信息。
其中,目标字符为进行待处理文本中的字符。目标样本字符可以通过对待处理文本进行分词处理得到。
N个特征信息与N个维度一一对应,N为大于1的整数。
S304,分别对N个特征信息进行嵌入处理,得到N个嵌入向量。
每个嵌入向量用于表示目标字符在对应维度的嵌入向量。
S306,将N个嵌入向量输入预先建立的特征融合模型中,输出目标字符的M个表示向量。
其中,所述M为正整数;其中,所述特征融合模型包括M级融合网络,所述M级融合网络与所述M个表示向量一一对应,若融合网络为第一级融合网络,融合网络用于对输入的嵌入向量进行融合处理得到对应的表示向量;若融合网络不为第一级融合网络,融合网络用于对输入的嵌入向量和上一级融合网络对应的表示向量进行融合处理得到对应的表示向量,各级融合网络为基于样本文本中的样本字符在所述N个维度的嵌入向量及各级融合网络对应的表示向量进行训练得到。
上述S302至S306的实现方式分别与图1所示实施例揭示的特征融合模型的训练方法中的S102至S106类似,具体可参见前文对于图1所示实施例揭示的方法中的S102至S106的详细说明,在此不再赘述。
S308,基于目标字符的M个表示向量,对待处理文本进行文本处理。
本说明书实施例中,文本处理可以例如包括但不限于情感识别、文本分类等。实际应用中,对目标文本的文本处理可以采用预先训练的文本处理模型实现,其中,文本处理模型可以是利用样本文本及样本文本对应的标签进行训练得到的,样本文本对应的标签用于指示样本文本对应的实际处理结果。例如,以情感识别为例,可将目标文本的表示向量输入到预先训练的情感识别模型中,得到目标文本表征的情感,其中,文本处理模型可以是利用样本文本及样本文本对应的情感标签进行训练得到的,样本文本对应的情感标签用于指示样本文本实际表征的情感。
本说明书实施例提供的文本处理方法,由于通过本方案训练出的特征融合模型输出的表示向量能够更准确地刻画文本的语义,进一步地,利用该特征融合模型输出的表示向量进行文本处理,能够提高文本处理过程中对文本语义理解的准确性,从而可以提高文本处理结果的准确性。
此外,与上述图1所示的特征融合模型的训练方法相对应地,本说明书实施例还提供一种特征融合模型的训练装置。图5是本说明书实施例提供的一种特征融合模型的训练装置500的结构示意图,包括:
第一获取模块510,用于获取第一样本字符在N个维度的特征信息,得到N个特征信息,所述N个特征信息与所述N个维度一一对应,所述N为大于1的整数;
第一嵌入模块520,用于分别对所述N个特征信息进行嵌入处理,得到N个嵌入向量,每个嵌入向量用于表示所述第一样本字符在对应维度的嵌入向量;
第一融合模块530,用于将所述N个嵌入向量输入特征融合模型中,输出所述第一样本字符的M个各级表示向量,所述M为正整数;其中,所述特征融合模型包括M级融合网络,所述M级融合网络与所述M个表示向量一一对应,若融合网络为第一级融合网络,融合网络用于对输入的嵌入向量进行融合处理得到对应的表示向量;若融合网络不为第一级融合网络,融合网络用于对输入的嵌入向量和上一级融合网络对应的表示向量进行融合处理得到对应的表示向量;
更新模块540,用于基于各级融合网络对应的表示向量和输入至各级融合网络的嵌入向量,更新各级融合网络的网络参数。
本说明书实施例提供的特征融合模型的训练装置,由于使用了文本中的字符在多个维度的特征信息进行嵌入,使得特征融合模型能够从多个维度去学习了解文本,进而输出的表示向量能够更全面、更丰富地刻画文本的语义;另外,由于多个维度的特征信息是有层次地、逐步输入到特征融合模型中进行融合处理的,使得特征融合模型能够在对当前输入的嵌入向量有了一定的学习了解之后再继续对下一个嵌入向量进行学习了解,进而使得特征融合模型能够循序渐进地获取信息、理解信息及认知信息,保留各维度的重要特征并进行有效结合,相较于将多个维度的特征信息混杂在一起同时进行融合处理,本方案的特征融合模型输出的表示向量能够更准确地刻画文本的语义。
可选地,所述装置500还包括:
对应关系确定模块,用于在所述第一融合模块530将所述N个嵌入向量输入特征融合模型中之前,基于所述N个维度对应的预设融合顺序,确定所述N个嵌入向量与所述M级融合网络之间的对应关系;
输入顺序确定模块,用于基于所述对应关系和所述M级融合网络之间的连接顺序,确定所述N个嵌入向量的输入顺序;
第一融合模块530包括:
向量输入子模块,用于基于所述N个嵌入向量的输入顺序,依次将所述N个嵌入向量输入至对应的融合网络,输出所述M个表示向量。
可选地,对于每级融合网络,将嵌入向量输入至对应的融合网络的具体实现方式有:
若所述融合网络为第一级融合网络,则对所述融合网络对应的嵌入向量进行拼接处理,以及将拼接处理得到的拼接向量输入至所述融合网络;
若所述融合网络不为第一级融合网络,则对所述融合网络对应的嵌入向量和上一级融合网络对应的表示向量进行拼接处理,以及将拼接处理得到的拼接向量输入至所述融合网络。
可选地,所述更新模块540包括:
融合损失值确定子模块,用于基于所述M级融合网络中最后一级融合网络对应的表示向量,确定各级融合网络的融合处理损失值;
更新子模块,用于基于各级融合网络的融合处理损失值、输入至各级融合网络的嵌入向量以及各级融合网络的上一级融合网络对应的表示向量,更新各级融合网络的网络参数。
可选地,所述融合损失值确定子模块基于所述M级融合网络中最后一级融合网络对应的表示向量,确定各级融合网络的融合处理损失值,包括:
基于所述M级融合网络中最后一级融合网络对应的表示向量,对所述第一样本文本进行文本处理,得到处理结果;
基于所述处理结果和所述第一样本文本对应的期望处理结果,确定处理损失值;
基于所述处理损失值,确定各级融合网络的融合处理损失值。
可选地,对于每级融合网络,确定融合网络的融合处理损失值的具体实现方式有:
若所述融合网络为最后一级融合网络,则基于所述处理损失值确定所述融合网络的融合处理损失值;
若所述融合网络不为最后一级融合网络,则基于后一级融合网络的融合处理损失值及所述后一级融合网络的网络参数,确定所述融合网络的融合处理损失值。
可选地,所述第一嵌入模块520包括:
第一嵌入子模块,用于分别将所述N个特征信息输入N个嵌入模型,得到所述N个嵌入向量,所述N个嵌入模型与所述N个维度一一对应,所述嵌入模型是以对应维度的样本特征信息作为训练样本进行训练得到的,每个维度的样本特征信息为第二样本文本中的第二样本字符在对应维度的特征信息。
可选地,字符在所述N个特征信息包括以下至少两项:字符表征的实体的图像特征、字符的发音特征、字符的字形特征、字符的语义特征。
可选地,所述N个维度对应的预设融合顺序依次为:字符表征的实体的图像特征、字符的发音特征、字符的字形特征、字符的语义特征。
显然,本说明书实施例的特征融合模型的训练装置可以作为上述图1所示的特征融合模型的训练方法的执行主体,因此能够实现特征融合模型的训练方法在图1所实现的功能。由于原理相同,在此不再赘述。
此外,与上述图4所示的文本处理方法相对应地,本说明书实施例还提供一种文本处理装置。图6是本说明书实施例提供的一种文本处理装置600的结构示意图,包括:
第二获取模块610,用于获取待处理文本的目标字符在N个维度的特征信息,得到N个特征信息,所述N个特征信息与所述N个维度一一对应,所述N为大于1的整数;
第二嵌入模块620,用于分别对所述N个特征信息进行嵌入处理,得到N个嵌入向量,每个嵌入向量用于表示所述目标字符在对应维度的嵌入向量;
第二融合模块630,用于将所述N个嵌入向量输入预先建立的特征融合模型中,输出所述目标字符的M个表示向量,所述M为正整数;其中,所述特征融合模型包括M级融合网络,所述M级融合网络与所述M个表示向量一一对应,若融合网络为第一级融合网络,融合网络用于对输入的嵌入向量进行融合处理得到对应的表示向量;若融合网络不为第一级融合网络,融合网络用于对输入的嵌入向量和上一级融合网络对应的表示向量进行融合处理得到对应的表示向量,各级融合网络为基于样本文本中的样本字符在所述N个维度的嵌入向量及各级融合网络对应的表示向量进行训练得到;
文本处理模块640,用于基于所述目标字符的M个表示向量,对所述待处理文本进行文本处理。
本说明书实施例提供的文本处理装置,由于通过本方案训练出的特征融合模型输出的表示向量能够更准确地刻画文本的语义,进一步地,利用该特征融合模型输出的表示向量进行文本处理,能够提高文本处理过程中对文本语义理解的准确性,从而可以提高文本处理结果的准确性。
显然,本说明书实施例的文本处理装置可以作为上述图4所示的文本处理方法的执行主体,因此能够实现文本处理方法在图4所实现的功能。由于原理相同,在此不再赘述。
图7是本说明书的一个实施例电子设备的结构示意图。请参考图7,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成特征融合模型的训练装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取第一样本文本中的第一样本字符在N个维度的特征信息,得到N个特征信息,所述N个特征信息与所述N个维度一一对应,所述N为大于1的整数;
分别对所述N个特征信息进行嵌入处理,得到N个嵌入向量,每个嵌入向量用于表示所述第一样本字符在对应维度的嵌入向量;
将所述N个嵌入向量输入特征融合模型中,输出所述第一样本字符的M个表示向量,所述M为正整数;其中,所述特征融合模型包括M级融合网络,所述M级融合网络与所述M个表示向量一一对应,若融合网络为第一级融合网络,融合网络用于对输入的嵌入向量进行融合处理得到对应的表示向量;若融合网络不为第一级融合网络,融合网络用于对输入的嵌入向量和上一级融合网络对应的表示向量进行融合处理得到对应的表示向量;
基于各级融合网络对应的表示向量和输入至各级融合网络的嵌入向量,更新各级融合网络的网络参数。
或者,处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成文本处理装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取待处理文本的目标字符在N个维度的特征信息,得到N个特征信息,所述N个特征信息与所述N个维度一一对应,所述N为大于1的整数;
分别对所述N个特征信息进行嵌入处理,得到N个嵌入向量,每个嵌入向量用于表示所述目标字符在对应维度的嵌入向量;
将所述N个嵌入向量输入预先建立的特征融合模型中,输出所述目标字符的M个表示向量,所述M为正整数;其中,所述特征融合模型包括M级融合网络,所述M级融合网络与所述M个表示向量一一对应,若融合网络为第一级融合网络,融合网络用于对输入的嵌入向量进行融合处理得到对应的表示向量;若融合网络不为第一级融合网络,融合网络用于对输入的嵌入向量和上一级融合网络对应的表示向量进行融合处理得到对应的表示向量,各级融合网络为基于样本文本中的样本字符在所述N个维度的嵌入向量及各级融合网络对应的表示向量进行训练得到;
基于所述目标字符的M个表示向量,对所述待处理文本进行文本处理。
上述如本说明书图1所示实施例揭示的特征融合模型的训练装置执行的方法或者如本说明书图4所示实施例揭示的文本处理装置可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
应理解,本说明书实施例的电子设备可以实现特征融合模型的训练装置在图1所示实施例的功能或者文本处理装置在图4所示实施例的功能。由于原理相同,本说明书实施例在此不再赘述。
当然,除了软件实现方式之外,本说明书的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1所示实施例的方法,并具体用于执行以下操作:
获取第一样本文本中的第一样本字符在N个维度的特征信息,得到N个特征信息,所述N个特征信息与所述N个维度一一对应,所述N为大于1的整数;
分别对所述N个特征信息进行嵌入处理,得到N个嵌入向量,每个嵌入向量用于表示所述第一样本字符在对应维度的嵌入向量;
将所述N个嵌入向量输入特征融合模型中,输出所述第一样本字符的M个表示向量,所述M为正整数;其中,所述特征融合模型包括M级融合网络,所述M级融合网络与所述M个表示向量一一对应,若融合网络为第一级融合网络,融合网络用于对输入的嵌入向量进行融合处理得到对应的表示向量;若融合网络不为第一级融合网络,融合网络用于对输入的嵌入向量和上一级融合网络对应的表示向量进行融合处理得到对应的表示向量;
基于各级融合网络对应的表示向量和输入至各级融合网络的嵌入向量,更新各级融合网络的网络参数。
本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图4所示实施例的方法,并具体用于执行以下操作:
获取待处理文本的目标字符在N个维度的特征信息,得到N个特征信息,所述N个特征信息与所述N个维度一一对应,所述N为大于1的整数;
分别对所述N个特征信息进行嵌入处理,得到N个嵌入向量,每个嵌入向量用于表示所述目标字符在对应维度的嵌入向量;
将所述N个嵌入向量输入预先建立的特征融合模型中,输出所述目标字符的M个表示向量,所述M为正整数;其中,所述特征融合模型包括M级融合网络,所述M级融合网络与所述M个表示向量一一对应,若融合网络为第一级融合网络,融合网络用于对输入的嵌入向量进行融合处理得到对应的表示向量;若融合网络不为第一级融合网络,融合网络用于对输入的嵌入向量和上一级融合网络对应的表示向量进行融合处理得到对应的表示向量,各级融合网络为基于样本文本中的样本字符在所述N个维度的嵌入向量及各级融合网络对应的表示向量进行训练得到;
基于所述目标字符的M个表示向量,对所述待处理文本进行文本处理。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
总之,以上所述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
Claims (12)
1.一种特征融合模型的训练方法,其特征在于,包括:
获取第一样本文本中的第一样本字符在N个维度的特征信息,得到N个特征信息,所述N个特征信息与所述N个维度一一对应,所述N为大于1的整数;
分别对所述N个特征信息进行嵌入处理,得到N个嵌入向量,每个嵌入向量用于表示所述第一样本字符在对应维度的嵌入向量;
基于所述N个嵌入向量的输入顺序,依次将所述N个嵌入向量输入特征融合模型中对应的融合网络,输出所述第一样本字符的M个表示向量,所述M为大于1的正整数;其中,所述特征融合模型包括M级融合网络,所述M级融合网络与所述M个表示向量一一对应,所述M级融合网络与所述N个嵌入向量之间具有对应关系,所述对应关系为基于所述N个维度对应的预设融合顺序确定的,所述预设融合顺序为对所述第一样本字符表征的实体的认知顺序,所述N个嵌入向量的输入顺序为基于所述对应关系和所述M级融合网络之间的连接顺序确定的,若融合网络为第一级融合网络,则对所述融合网络对应的嵌入向量进行拼接处理,以及将拼接处理得到的拼接向量输入至所述融合网络,所述融合网络用于根据输入的拼接向量,对自身对应的嵌入向量进行融合处理得到对应的表示向量;若融合网络不为第一级融合网络,对所述融合网络对应的嵌入向量和上一级融合网络对应的表示向量进行拼接处理,以及将拼接处理得到的拼接向量输入至所述融合网络,所述融合网络用于根据输入的拼接向量,对自身对应的嵌入向量和上一级融合网络对应的表示向量进行融合处理得到对应的表示向量;
基于各级融合网络对应的表示向量和输入至各级融合网络的嵌入向量,更新各级融合网络的网络参数。
2.根据权利要求1所述的方法,其特征在于,所述基于各级融合网络对应的表示向量和输入至各级融合网络的嵌入向量,更新各级融合网络的网络参数,包括:
基于所述M级融合网络中最后一级融合网络对应的表示向量,确定各级融合网络的融合处理损失值;
基于各级融合网络的融合处理损失值、输入至各级融合网络的嵌入向量以及各级融合网络的上一级融合网络对应的表示向量,更新各级融合网络的网络参数。
3.根据权利要求2所述的方法,其特征在于,所述基于所述M级融合网络中最后一级融合网络对应的表示向量,确定各级融合网络的融合处理损失值,包括:
基于所述M级融合网络中最后一级融合网络对应的表示向量,对所述第一样本文本进行文本处理,得到处理结果;
基于所述处理结果和所述第一样本文本对应的期望处理结果,确定处理损失值;
基于所述处理损失值确定各级融合网络的融合处理损失值。
4.根据权利要求3所述的方法,其特征在于,对于每级融合网络,确定融合网络的融合处理损失值的具体实现方式有:
若所述融合网络为最后一级融合网络,则基于所述处理损失值确定所述融合网络的融合处理损失值;
若所述融合网络不为最后一级融合网络,则基于后一级融合网络的融合处理损失值及所述后一级融合网络的网络参数,确定所述融合网络的融合处理损失值。
5.根据权利要求1所述的方法,其特征在于,所述分别对所述N个特征信息进行嵌入处理,得到所述N个嵌入向量,包括:
分别将所述N个特征信息输入N个嵌入模型,得到所述N个嵌入向量,所述N个嵌入模型与所述N个维度一一对应,所述嵌入模型是以对应维度的样本特征信息作为训练样本进行训练得到的,每个维度的样本特征信息为第二样本文本中的第二样本字符在对应维度的特征信息。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述N个特征信息包括以下至少两项:字符表征的实体的图像特征、字符的发音特征、字符的字形特征、字符的语义特征。
7.根据权利要求6所述的方法,其特征在于,所述N个维度对应的预设融合顺序依次为:字符表征的实体的图像特征对应的维度、字符的发音特征对应的维度、字符的字形特征对应的维度、字符的语义特征对应的维度。
8.一种文本处理方法,其特征在于,包括:
获取待处理文本的目标字符在N个维度的特征信息,得到N个特征信息,所述N个特征信息与所述N个维度一一对应,所述N为大于1的整数;
分别对所述N个特征信息进行嵌入处理,得到N个嵌入向量,每个嵌入向量用于表示所述目标字符在对应维度的嵌入向量;
基于所述N个嵌入向量的输入顺序,依次将所述N个嵌入向量输入预先建立的特征融合模型中对应的融合网络,输出所述目标字符的M个表示向量,所述M为大于1的正整数;其中,所述特征融合模型包括M级融合网络,所述M级融合网络与所述M个表示向量一一对应,所述M级融合网络与所述N个嵌入向量之间具有对应关系,所述对应关系为基于所述N个维度对应的预设融合顺序确定的,所述N个嵌入向量的输入顺序为基于所述对应关系和所述M级融合网络之间的连接顺序确定的,所述预设融合顺序为对所述目标字符表征的实体的认知顺序,若融合网络为第一级融合网络,则对所述融合网络对应的嵌入向量进行拼接处理,以及将拼接处理得到的拼接向量输入至所述融合网络,所述融合网络用于对自身对应的嵌入向量进行融合处理得到对应的表示向量;若融合网络不为第一级融合网络,对所述融合网络对应的嵌入向量和上一级融合网络对应的表示向量进行拼接处理,以及将拼接处理得到的拼接向量输入至所述融合网络,所述融合网络用于根据输入的拼接向量,对自身对应的嵌入向量和上一级融合网络对应的表示向量进行融合处理得到对应的表示向量,各级融合网络为基于样本文本中的样本字符在所述N个维度的嵌入向量及各级融合网络对应的表示向量进行训练得到;
基于所述目标字符的M个表示向量,对所述待处理文本进行文本处理。
9.一种特征融合模型的训练装置,其特征在于,包括:
第一获取模块,用于获取第一样本字符在N个维度的特征信息,得到N个特征信息,所述N个特征信息与所述N个维度一一对应,所述N为大于1的整数;
第一嵌入模块,用于分别对所述N个特征信息进行嵌入处理,得到N个嵌入向量,每个嵌入向量用于表示所述第一样本字符在对应维度的嵌入向量;
第一融合模块,用于基于所述N个嵌入向量的输入顺序,依次将所述N个嵌入向量输入特征融合模型中对应的融合网络,输出所述第一样本字符的M个各级表示向量,所述M为大于1的正整数;其中,所述特征融合模型包括M级融合网络,所述M级融合网络与所述M个表示向量一一对应,所述M级融合网络与所述N个嵌入向量之间具有对应关系,所述对应关系为基于所述N个维度对应的预设融合顺序确定的,所述预设融合顺序为对所述第一样本字符表征的实体的认知顺序,所述N个嵌入向量的输入顺序为基于所述对应关系和所述M级融合网络之间的连接顺序确定的,若融合网络为第一级融合网络,则对所述融合网络对应的嵌入向量进行拼接处理,以及将拼接处理得到的拼接向量输入至所述融合网络,所述融合网络用于根据输入的拼接向量,对自身对应的嵌入向量进行融合处理得到对应的表示向量;若融合网络不为第一级融合网络,对所述融合网络对应的嵌入向量和上一级融合网络对应的表示向量进行拼接处理,以及将拼接处理得到的拼接向量输入至所述融合网络,所述融合网络用于根据输入的拼接向量,对自身对应的嵌入向量和上一级融合网络对应的表示向量进行融合处理得到对应的表示向量;
更新模块,用于基于各级融合网络对应的表示向量和输入至各级融合网络的嵌入向量,更新各级融合网络的网络参数。
10.一种文本处理装置,其特征在于,包括:
第二获取模块,用于获取待处理文本的目标字符在N个维度的特征信息,得到N个特征信息,所述N个特征信息与所述N个维度一一对应,所述N为大于1的整数;
第二嵌入模块,用于分别对所述N个特征信息进行嵌入处理,得到N个嵌入向量,每个嵌入向量用于表示所述目标字符在对应维度的嵌入向量;
第二融合模块,用于基于所述N个嵌入向量的输入顺序,依次将所述N个嵌入向量输入预先建立的特征融合模型中对应的融合网络,输出所述目标字符的M个表示向量,所述M为大于1的正整数;其中,所述特征融合模型包括M级融合网络,所述M级融合网络与所述M个表示向量一一对应,所述M级融合网络与所述N个嵌入向量之间具有对应关系,所述对应关系为基于所述N个维度对应的预设融合顺序确定的,所述N个嵌入向量的输入顺序为基于所述对应关系和所述M级融合网络之间的连接顺序确定的,所述预设融合顺序为对所述目标字符表征的实体的认知顺序,若融合网络为第一级融合网络,则对所述融合网络对应的嵌入向量进行拼接处理,以及将拼接处理得到的拼接向量输入至所述融合网络,所述融合网络用于对自身对应的嵌入向量进行融合处理得到对应的表示向量;若融合网络不为第一级融合网络,对所述融合网络对应的嵌入向量和上一级融合网络对应的表示向量进行拼接处理,以及将拼接处理得到的拼接向量输入至所述融合网络,所述融合网络用于根据输入的拼接向量,对自身对应的嵌入向量和上一级融合网络对应的表示向量进行融合处理得到对应的表示向量,各级融合网络为基于样本文本中的样本字符在所述N个维度的嵌入向量及各级融合网络对应的表示向量进行训练得到;
文本处理模块,用于基于所述目标字符的M个表示向量,对所述待处理文本进行文本处理。
11.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至8中任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111490459.0A CN114065768B (zh) | 2021-12-08 | 2021-12-08 | 特征融合模型的训练、文本处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111490459.0A CN114065768B (zh) | 2021-12-08 | 2021-12-08 | 特征融合模型的训练、文本处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114065768A CN114065768A (zh) | 2022-02-18 |
CN114065768B true CN114065768B (zh) | 2022-12-09 |
Family
ID=80228917
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111490459.0A Active CN114065768B (zh) | 2021-12-08 | 2021-12-08 | 特征融合模型的训练、文本处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114065768B (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110715A (zh) * | 2019-04-30 | 2019-08-09 | 北京金山云网络技术有限公司 | 文本检测模型训练方法、文本区域、内容确定方法和装置 |
CN111597815A (zh) * | 2020-05-22 | 2020-08-28 | 北京慧闻科技(集团)有限公司 | 一种多嵌入命名实体识别方法、装置、设备及存储介质 |
CN112699675B (zh) * | 2020-12-30 | 2023-09-12 | 平安科技(深圳)有限公司 | 文本处理方法、装置、设备及计算机可读存储介质 |
CN113723105A (zh) * | 2021-04-13 | 2021-11-30 | 腾讯科技(北京)有限公司 | 语义特征提取模型的训练方法、装置、设备及存储介质 |
CN113761883A (zh) * | 2021-05-17 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 一种文本信息识别方法、装置、电子设备及存储介质 |
CN113377909B (zh) * | 2021-06-09 | 2023-07-11 | 平安科技(深圳)有限公司 | 释义分析模型训练方法、装置、终端设备及存储介质 |
-
2021
- 2021-12-08 CN CN202111490459.0A patent/CN114065768B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114065768A (zh) | 2022-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110309283B (zh) | 一种智能问答的答案确定方法及装置 | |
CN111914551B (zh) | 自然语言处理方法、装置、电子设备及存储介质 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN109344406B (zh) | 词性标注方法、装置和电子设备 | |
CN111159412B (zh) | 分类方法、装置、电子设备及可读存储介质 | |
US11003993B1 (en) | Training recurrent neural networks to generate sequences | |
CN111428010A (zh) | 人机智能问答的方法和装置 | |
CN109299276B (zh) | 一种将文本转化为词嵌入、文本分类方法和装置 | |
CN111310464A (zh) | 词向量获取模型生成方法、装置及词向量获取方法、装置 | |
CN113255328A (zh) | 语言模型的训练方法及应用方法 | |
CN107967304A (zh) | 会话交互处理方法、装置及电子设备 | |
CN113887235A (zh) | 一种信息推荐的方法及装置 | |
CN116630480B (zh) | 一种交互式文本驱动图像编辑的方法、装置和电子设备 | |
CN117349402A (zh) | 一种基于机器阅读理解的情绪原因对识别方法及系统 | |
CN112908315A (zh) | 一种基于声音特征和语音识别的问答意图判断方法 | |
CN114065768B (zh) | 特征融合模型的训练、文本处理方法及装置 | |
US20230130662A1 (en) | Method and apparatus for analyzing multimodal data | |
CN110895924B (zh) | 一种文档内容朗读方法、装置、电子设备及可读存储介质 | |
CN116127003A (zh) | 文本处理方法、装置、电子设备及存储介质 | |
CN116226382B (zh) | 一种给定关键词的文本分类方法、装置、电子设备及介质 | |
US20230342553A1 (en) | Attribute and rating co-extraction | |
CN113343716B (zh) | 一种多语种翻译方法、装置、存储介质及设备 | |
CN115423485B (zh) | 数据处理方法、装置及设备 | |
CN118395957A (zh) | 基于大语言模型的问答方法、装置、电子设备及存储介质 | |
CN118657152A (zh) | 语义分析方法、意图识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
OL01 | Intention to license declared | ||
OL01 | Intention to license declared |