CN110428052A - 深度神经网络模型的构建方法、装置、介质及电子设备 - Google Patents
深度神经网络模型的构建方法、装置、介质及电子设备 Download PDFInfo
- Publication number
- CN110428052A CN110428052A CN201910708892.3A CN201910708892A CN110428052A CN 110428052 A CN110428052 A CN 110428052A CN 201910708892 A CN201910708892 A CN 201910708892A CN 110428052 A CN110428052 A CN 110428052A
- Authority
- CN
- China
- Prior art keywords
- network model
- data
- nervus opticus
- type
- task type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例公开了一种深度神经网络模型的构建方法、装置、介质及电子设备。该方法包括:将有标签样本数据输入第一神经网络模型,得到有标签样本数据的特征表示;其中,所述第一神经网络模型根据无标签样本数据对第一神经网络模型的网络结构的参数进行训练得到的;将有标签样本数据的特征表示和标签数据输入第二神经网络模型,以对所述第二神经网络模型的参数进行训练。通过运行本申请所提供的技术方案,可以实现在有标签的训练样本资源有限的情况下,能够保证高质量的模型训练效果,无需消耗大量的人力资源对较多数据进行标注标签的目的。
Description
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种深度神经网络模型的构建方法、装置、介质及电子设备。
背景技术
随着科技的迅速发展,了解用户的真实意图已经成为智能化的新标准。在对自然语言进行处理的过程中,往往需要构建神经网络模型,以实现对自然语言的文本蕴涵、智能问答、语义相似判断以及文本分类等进行处理,来获取用户的真实意图。
然而,目前的神经网络模型构建过程,往往会存在两方面问题。一方面是如果采用没有标签的数据作为训练样本,则虽然样本数据多,但是训练得到的神经网络模型特征比较泛化,不能够针对特定的问题提供质量较高的输出结果。另一方面是有标签的数据作为训练样本的话,由于数据量比较稀少,获取难度大,则可能会造成对模型的训练不够充分,导致模型的训练效果较差的问题。
发明内容
本申请实施例提供一种深度神经网络模型的构建方法、装置、介质及电子设备,可以实现在有标签的训练样本资源有限的情况下,能够保证高质量的模型训练效果,无需消耗大量的人力资源对较多数据进行标注标签的目的。
第一方面,本申请实施例提供了一种深度神经网络模型的构建方法,该方法包括:
将有标签样本数据输入第一神经网络模型,得到有标签样本数据的特征表示;其中,所述第一神经网络模型根据无标签样本数据对第一神经网络模型的网络结构的参数进行训练得到的;
将有标签样本数据的特征表示和标签数据输入第二神经网络模型,以对所述第二神经网络模型的参数进行训练。
进一步的,将有标签样本数据的特征表示和标签数据输入第二神经网络模型之前还包括:
根据样本数据的标签类型,确定样本数据的任务类型;
根据样本数据的任务类型,确定所述第二神经网络模型的网络结构。
进一步的,对所述第二神经网络模型的参数进行训练之后,还包括:
获取待检测的目标数据,以及目标数据所关联的目标任务类型;
将所述目标数据作为所述第一神经网络模型的输入,得到目标数据的特征表示;
将目标数据的特征表示作为所述目标任务类型所关联经训练的第二神经网络模型,得到目标数据的任务检测结果。
进一步的,所述任务类型包括语义分类类型、语义包含类型、文本相似类型以及多元选择类型中的至少一种。
进一步的,根据样本数据的任务类型,确定所述第二神经网络模型的网络结构,包括:
若所述样本数据的任务类型为语义分类类型,则所述第二神经网络模型的网络结构包括:数据输入层和语义分类数据输出层;
若所述样本数据的任务类型为语义包含类型,则所述第二神经网络模型的网络结构包括:前提信息输入层、假设信息输入层以及包含结果输出层;
若所述样本数据的任务类型为文本相似类型,则所述第二神经网络模型的网络结构包括:第一分支、第二分支和结果叠加层,其中所述第一分支包括第一信息输入层、第二信息输入层以及相似结果输出层;所述第二分支包括第二信息输入层、第一信息输入层以及相似结果输出层;其中所述结果叠加层用于根据第一分支的相似结果输出层和第二分支的相似结果输出层确定第一信息和第二信息的文本相似度;
若所述样本数据的任务类型为多元选择类型,则所述第二神经网络模型的网络结构包括:至少两个选择分支,每个选择分支包括上下文信息输入层和待选答案输入层,还包括匹配度输入层以输出各分支的上下文信息与待选答案的匹配度。
第二方面,本申请实施例提供了一种深度神经网络模型的构建装置,该装置包括:
特征表示获取模块,用于将有标签样本数据输入第一神经网络模型,得到有标签样本数据的特征表示;其中,所述第一神经网络模型根据无标签样本数据对第一神经网络模型的网络结构的参数进行训练得到的;
参数训练模块,用于将有标签样本数据的特征表示和标签数据输入第二神经网络模型,以对所述第二神经网络模型的参数进行训练。
进一步的,所述装置还包括:
任务类型确定模块,用于根据样本数据的标签类型,确定样本数据的任务类型;
网络结构选择模块,用于根据样本数据的任务类型,确定所述第二神经网络模型的网络结构。
进一步的,所述装置还包括深度神经网络模型应用模块,具体用于:
获取待检测的目标数据,以及目标数据所关联的目标任务类型;
将所述目标数据作为所述第一神经网络模型的输入,得到目标数据的特征表示;
将目标数据的特征表示作为所述目标任务类型所关联经训练的第二神经网络模型,得到目标数据的任务检测结果。
进一步的,所述任务类型包括语义分类类型、语义包含类型、文本相似类型以及多元选择类型中的至少一种。
进一步的,所述网络结构选择模块具体用于:
若所述样本数据的任务类型为语义分类类型,则所述第二神经网络模型的网络结构包括:数据输入层和语义分类数据输出层;
若所述样本数据的任务类型为语义包含类型,则所述第二神经网络模型的网络结构包括:前提信息输入层、假设信息输入层以及包含结果输出层;
若所述样本数据的任务类型为文本相似类型,则所述第二神经网络模型的网络结构包括:第一分支、第二分支和结果叠加层,其中所述第一分支包括第一信息输入层、第二信息输入层以及相似结果输出层;所述第二分支包括第二信息输入层、第一信息输入层以及相似结果输出层;其中所述结果叠加层用于根据第一分支的相似结果输出层和第二分支的相似结果输出层确定第一信息和第二信息的文本相似度;
若所述样本数据的任务类型为多元选择类型,则所述第二神经网络模型的网络结构包括:至少两个选择分支,每个选择分支包括上下文信息输入层和待选答案输入层,还包括匹配度输入层以输出各分支的上下文信息与待选答案的匹配度。
第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器运行时实现如本申请实施例所述的深度神经网络模型的构建方法。
第四方面,本申请实施例提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,所述处理器运行所述计算机程序时实现如本申请实施例所述的深度神经网络模型的构建方法。
本申请实施例所提供的技术方案,将有标签样本数据输入第一神经网络模型,得到有标签样本数据的特征表示;其中,所述第一神经网络模型根据无标签样本数据对第一神经网络模型的网络结构的参数进行训练得到的;将有标签样本数据的特征表示和标签数据输入第二神经网络模型,以对所述第二神经网络模型的参数进行训练。通过采用本申请所提供的技术方案,可以实现在测试过程中,可以实现在有标签的训练样本资源有限的情况下,能够保证高质量的模型训练效果,无需消耗大量的人力资源对较多数据进行标注标签的目的。
附图说明
图1是本申请实施例一提供的深度神经网络模型的构建方法的流程图;
图2是本申请实施例二提供的模型构建综合示意图;
图3是本申请实施例三提供的深度神经网络模型的构建装置的结构示意图;
图4是本申请实施例五提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1是本申请实施例一提供的深度神经网络模型的构建方法的流程图,本实施例可适于模型训练等情况,该方法可以由本申请实施例所提供的深度神经网络模型的构建装置运行,该装置可以由软件和/或硬件的方式来实现,并可集成于用于智能终端、服务器等具有模型训练的计算功能的电子设备中。
如图1所示,所述深度神经网络模型的构建方法包括:
S110、将有标签样本数据输入第一神经网络模型,得到有标签样本数据的特征表示;其中,所述第一神经网络模型根据无标签样本数据对第一神经网络模型的网络结构的参数进行训练得到的。
其中,有标签样本数据可以是工作人员经过人工标注得到的样本数据,还可以是在其他样本集中,抽取与本方案的模型训练相关的样本数据。本实施例中,所提供的样本数据可以是自然语言的样本数据,具体的,可以对自然语言进行文本蕴含、智能问答、语义相似判断和文本分类等处理。可以理解的,由于自然语言的训练需要大量的样本数据,而且如果对这些样本数据都进行标签的标注需要耗费大量的人工成本,并且影响模型的训练效率。然而如果仅使用无标签样本数据,又会造成训练得到的模型的准确度不够理想,影响模型的使用效果。
本技术方案中,可以通过预训练的方式,通过大量的,例如数以千计、数以万计甚至更多的无标签样本数据对第一神经网络模型的网络结构的参数进行训练,得到第一神经网络模型。其中第一神经网络模型经过无标签样本数据的训练后,可以准确的确定所输入的有标签样本数据的特征表示,例如有标签样本数据的词向量、句向量等。在本技术方案中,可以在确定有标签样本数据的特征表示的过程中,不对已经训练好的第一神经网络模型的结构和参数进行调整,而直接通过第一神经网络模型输出有标签样本数据的特征表示。这样设置,既利用到了第一神经网络模型的输出结果,又不会因为有标签样本数据对模型的参数或者结构的调整,造成多次输出的结果出现各不相同的情况,保证了第一神经网络模型输出结果的一致性。
S120、将有标签样本数据的特征表示和标签数据输入第二神经网络模型,以对所述第二神经网络模型的参数进行训练。
其中,得到有标签样本数据的特征表示之后,可以将有标签样本数据的特征表示和标签数据同时输入至第二神经网络模型,用以对第二神经网络模型的参数进行训练。其中,第二神经网络模型可以是用于对自然语言进行文本蕴含、智能问答、语义相似判断和文本分类等操作的神经网络模型。可以理解的,第二神经网络模型可以是各不相同的。例如用于进行语义相思判断的第二神经网络模型与用于进行文本分类的第二神经网络模型是各不相同的。具体的,可以根据实际需求来确定第二神经网络模型。例如当前实际需要确定智能问答的答案,可以采用与智能问答相对应的第二神经网络模型来进行训练。其中,训练的目的在于根据有标签样本数据的标签对第二神经网络模型的参数进行调节,可以使第二神经网络模型的输出结果更加准确。进而将第二神经网络模型与第一神经网络模型结合,就可以得到符合工作人员需求的深度神经网络模型。
因此在对第二神经网络模型进行训练的过程中,既无需重新训练第一神经网络模型,对设备的运算能力进行消耗,又能够基于有标签样本数据,得到准确的输出结果。这样设置达到了节省人力成本、无需对设备的内存产生过度消耗以及提高了模型构建效率的目的。
在本实施例中,可选的,将有标签样本数据的特征表示和标签数据输入第二神经网络模型之前还包括:根据样本数据的标签类型,确定样本数据的任务类型;根据样本数据的任务类型,确定所述第二神经网络模型的网络结构。其中,可以根据有标签样本数据的标签类型,确定样本数据对第二神经网络模型的训练的任务类型。例如有标签样本数据的标签为分类标签,例如美食、旅行以及时装等,则可以确定当前任务类型为对自然语言根据语义进行分类。由此,可以在得到有标签的样本数据之后,就可以确定选择哪一种任务类型所对应的第二神经网络模型的网络结构。进而可以只对第二神经网络模型进行参数的调整,就能够得到符合工作人员实际需求的第二神经网络模型。
本申请实施例所提供的技术方案,将有标签样本数据输入第一神经网络模型,得到有标签样本数据的特征表示;其中,所述第一神经网络模型根据无标签样本数据对第一神经网络模型的网络结构的参数进行训练得到的;将有标签样本数据的特征表示和标签数据输入第二神经网络模型,以对所述第二神经网络模型的参数进行训练。通过采用本申请所提供的技术方案,可以实现在测试过程中,可以实现在有标签的训练样本资源有限的情况下,能够保证高质量的模型训练效果,无需消耗大量的人力资源对较多数据进行标注标签的目的。
在上述各技术方案的基础上,可选的,对所述第二神经网络模型的参数进行训练之后,还包括:获取待检测的目标数据,以及目标数据所关联的目标任务类型;将所述目标数据作为所述第一神经网络模型的输入,得到目标数据的特征表示;将目标数据的特征表示作为所述目标任务类型所关联经训练的第二神经网络模型,得到目标数据的任务检测结果。其中,在确定第二神经网络模型的参数之后,就可以得到与第一神经网络模型组合而形成的深度神经网络模型。在得到深度神经网络模型之后,可以将需要检测的目标数据,目标数据所关联的目标任务类型,来确定实际使用的深度神经网络。除此之外,还可以在得到第一神经网络模型之后,根据目标任务类型,确定需要和第一神经网络模型进行组合的第二神经网络模型。在得到待检测的目标数据之后,可以将其输入至第一神经网络模型,得到输出的目标数据的特征表示。再将目标数据的特征表示作为已经确定的第二神经网络模型的输入数据,得到输出的目标任务结果。例如目标任务为文本相似识别,则可以输出目标数据的相似度结果。
在本技术方案中,可选的,可以将第一神经网络模型上线发布,当工作人员需要进行文本相似识别时,可以从网络资源中获取到第一神经网络模型,并结合网络资源中获取的或者本地存储的已经训练过的第二神经网络模型,这样就能够直接得到目标数据的最终输出结果,如文本相似度。在本方案中,可以根据工作人员的需求,确定第二神经网络模型的类型,如果第二神经网络模型为网络资源可下载,或者本地存储,则可以直接使用,如果目标任务类型与已有的第二神经网络模型都不关联,则工作人员可以根据需求自己构建。并且可以在工作人员构建第二神经网络模型之后,供工作人员选择是否将自己构建的模型上线,这样可以在局域网或者整个网络资源中进行共享和使用。例如同一个公司的其他工作人员如果需要使用与当前目标任务相同的第二神经网络模型的网络结构,则可以直接从局域网或者网络资源中获取。
本技术方案中,可以通过一些预设的方式,将目标任务类型与第二神经网络模型之间关联起来,例如可以为工作人员提供目标任务类型的选项,根据工作人员的选择,直接根据预设关联关系确定该选项与第二神经网络模型之间的关系。除此之外还可以为用户提供自定义的选项,如果用户选择了自定义选项,则说明目前所提供的第二神经网络模型没有与目标任务类型向关联的。可以通过这样的设置,简便工作人员的操作,同时将目标任务类型和与之关联的第二神经网络模型的关联关系可视化,提高工作人员的使用体验。
在上述各技术方案的基础上,可选的,所述任务类型包括语义分类类型、语义包含类型、文本相似类型以及多元选择类型中的至少一种。其中,语义分类类型是用于对自然语言根据语义进行分类。语义包含类型可以是用来判断第一个句子是否包括第二个句子的前提。文本相似类型可以是确定两个自然语言的文本信息的相似度。多元选择类型可以是根据上下文信息确定多个答案中最适合的答案。上述几种类型可以广泛应用于采用深度神经网络模型对自然语言进行处理的方法,适用范围广。
在上述各技术方案的基础上,可选的,根据样本数据的任务类型,确定所述第二神经网络模型的网络结构,包括:若所述样本数据的任务类型为语义分类类型,则所述第二神经网络模型的网络结构包括:数据输入层和语义分类数据输出层;若所述样本数据的任务类型为语义包含类型,则所述第二神经网络模型的网络结构包括:前提信息输入层、假设信息输入层以及包含结果输出层;若所述样本数据的任务类型为文本相似类型,则所述第二神经网络模型的网络结构包括:第一分支、第二分支和结果叠加层,其中所述第一分支包括第一信息输入层、第二信息输入层以及相似结果输出层;所述第二分支包括第二信息输入层、第一信息输入层以及相似结果输出层;其中所述结果叠加层用于根据第一分支的相似结果输出层和第二分支的相似结果输出层确定第一信息和第二信息的文本相似度;若所述样本数据的任务类型为多元选择类型,则所述第二神经网络模型的网络结构包括:至少两个选择分支,每个选择分支包括上下文信息输入层和待选答案输入层,还包括匹配度输入层以输出各分支的上下文信息与待选答案的匹配度。
其中,对于语义分类类型,第二神经网络模型的网络结构可以包括数据输入层和语义分类数据输出层,其中,数据输入层所输入的数据可以是带有标签的样本数据。可以理解的,所输入的带有标签的样本数据可以是经过第一神经网络模型输出的特征表示,如样本数据的词向量。对于样本数据的任务类型为语义包含类型,第二神经网络模型的网络结构可以包括:前提信息输入层、假设信息输入层以及包含结果输出层,其中,针对该前提,假设的信息如果成立,则说明存在语义包含关系,若否,则说明不存在语义包含关系,其输出的信息可以是成立或者不成立。针对样本数据的任务类型为文本相似类型,第二神经网络模型的网络结构可以包括:第一分支、第二分支和结果叠加层,其中所述第一分支包括第一信息输入层、第二信息输入层以及相似结果输出层;所述第二分支包括第二信息输入层、第一信息输入层以及相似结果输出层;其中所述结果叠加层用于根据第一分支的相似结果输出层和第二分支的相似结果输出层确定第一信息和第二信息的文本相似度。第一信息可以是两个样本数据中的一个样本数据的特征表示,第二信息可以是另一个样本数据的特征表示,经过第一信息与第二信息的输入,可以确定第二信息与第一信息的相似度。另一个分支可以确定第一信息与第二信息的相似度,进过将两个相似度的叠加,可以准确的确定两个样本数据之间的文本相似度。对于样本数据的任务类型为多元选择类型,第二神经网络模型的网络结构可以包括:至少两个选择分支,每个选择分支包括上下文信息输入层和待选答案输入层,还包括匹配度输入层以输出各分支的上下文信息与待选答案的匹配度。其中各个选择分支可以输入相同的上下文信息,并且输入不同的待选答案,根据各个分支计算确定待选答案与上下文信息之间的匹配程度。进而可以确定至少两个答案中与上下文信息中最匹配的答案作为输出答案。本技术方案这样设置的好处是可以通过对第二神经网络模型的网络结构的设置,只要在训练过程中将有标签样本数据输入至第二神经网络模型即可,使得整个深度神经网络模型使用更加便捷,而且针对任务类型的功能组合更加灵活。
实施例二
为了能够让本领域技术人员更加清楚的了解本申请公开的技术方案,本申请还提供了一种优选的实施方式。
针对现有技术存在的以下缺点:
1.神经网络模型的训练需要大量的有标签数据,这些数据比较稀少,获取难度大,因此对应的效果就差;
2.不同自然语言任务需要训练各自的神经网络模型,耗时时间长;
3.深度学习模型的超参数数量巨大,尤其是embedding矩阵,占用较大内存,资源消耗大。
本发明将现实所有自然语言处理任务相关的无标签数据集合起来训练一个预训练模型,解决了除了预训练耗时较长外,所有的微调过程时间很短,解决了问题;将预训练的模型部署到线上,其他任务调用线上接口获取所需的特征,不需要独立的深度学习模型全部加载进内存。
本发明将所有任务中的无标签数据收集起来,进行预训练得到Transformer。接着构造不同下游任务所需要的有标签数据,在Transformer的基础上,加入单层神经网络进行微调,其中Transformer部分的参数保持不变,得到不同的深度学习模型。最后将这些预训练模型和所有微调模型部署到线上,微调模型调用预训练模型得到所需的特征,经过微调的网络结构输出任务对应的结果。
具体的,本发明主要有两部分组成。第一个部分是预训练和微调的过程,这部分根据业务需求确定下游任务,首先对所有的无标签数据进行预训练得到Transformer的超参数和网络结构,接着将Transformer与下游任务结合对单层神经网络的参数进行微调,得到下游任务模型。第二部分是上线部署部分,将预训练模型和下游模型同时部署到线上使用,其中下游模型需要Transformer的特征和参数通过接口请求预训练模型得到。
图2是本申请实施例二提供的模型构建综合示意图。其中,左半部分表示的是预训练的过程,右半部分表示的是微调的过程。无监督预训练的结构主要由多层的Transformer组成。无监督文本经过切词后,首先经过一个position-wise(表达词在句子中的位置)的前馈神经网络,接着经过多个含有多个masked self-attention(attention机制的一种)头的Transformer decoder层(它是Transformer的变种),最后加入Layer normalization加快训练速度,使用softmax作为输出层。
有监督微调的过程如下:微调时重复利用无监督预训练时的超参数,如上图所示,我们根据业务需求添加对应的分类层(例如:一个线性+softmax的全连接层)。我们将多个微调后的业务模型和预训练后的模型同时部署到线上,每个特定任务模型根据所需的特征以http的形式请求预训练模型的接口,训练模型将特征返回给任务接口使用。
本发明所提供的技术方案,通过利用了现实业务中大量的无监督数据构造了一个大而全的语言模型,在这个语言模型上,我们可以很轻松的构造特定的有监督深度神经网络。并且将预训练语言模型部署到线上后,可以通过接口的形式从中抽取特征和参数,大大降低了资源消耗。这样就使得特定任务的有监督模型部署编辑更加轻量级。
实施例三
图3是本申请实施例三提供的深度神经网络模型的构建装置的结构示意图。如图3所示,所述深度神经网络模型的构建装置,包括:
特征表示获取模块310,用于将有标签样本数据输入第一神经网络模型,得到有标签样本数据的特征表示;其中,所述第一神经网络模型根据无标签样本数据对第一神经网络模型的网络结构的参数进行训练得到的;
参数训练模块320,用于将有标签样本数据的特征表示和标签数据输入第二神经网络模型,以对所述第二神经网络模型的参数进行训练。
本申请实施例所提供的技术方案,将有标签样本数据输入第一神经网络模型,得到有标签样本数据的特征表示;其中,所述第一神经网络模型根据无标签样本数据对第一神经网络模型的网络结构的参数进行训练得到的;将有标签样本数据的特征表示和标签数据输入第二神经网络模型,以对所述第二神经网络模型的参数进行训练。通过采用本申请所提供的技术方案,可以实现在测试过程中,可以实现在有标签的训练样本资源有限的情况下,能够保证高质量的模型训练效果,无需消耗大量的人力资源对较多数据进行标注标签的目的。
在上述各技术方案的基础上,可选的,所述装置还包括:
任务类型确定模块,用于根据样本数据的标签类型,确定样本数据的任务类型;
网络结构选择模块,用于根据样本数据的任务类型,确定所述第二神经网络模型的网络结构。
在上述各技术方案的基础上,可选的,所述装置还包括深度神经网络模型应用模块,具体用于:
获取待检测的目标数据,以及目标数据所关联的目标任务类型;
将所述目标数据作为所述第一神经网络模型的输入,得到目标数据的特征表示;
将目标数据的特征表示作为所述目标任务类型所关联经训练的第二神经网络模型,得到目标数据的任务检测结果。
在上述各技术方案的基础上,可选的,所述任务类型包括语义分类类型、语义包含类型、文本相似类型以及多元选择类型中的至少一种。
在上述各技术方案的基础上,可选的,所述网络结构选择模块具体用于:
若所述样本数据的任务类型为语义分类类型,则所述第二神经网络模型的网络结构包括:数据输入层和语义分类数据输出层;
若所述样本数据的任务类型为语义包含类型,则所述第二神经网络模型的网络结构包括:前提信息输入层、假设信息输入层以及包含结果输出层;
若所述样本数据的任务类型为文本相似类型,则所述第二神经网络模型的网络结构包括:第一分支、第二分支和结果叠加层,其中所述第一分支包括第一信息输入层、第二信息输入层以及相似结果输出层;所述第二分支包括第二信息输入层、第一信息输入层以及相似结果输出层;其中所述结果叠加层用于根据第一分支的相似结果输出层和第二分支的相似结果输出层确定第一信息和第二信息的文本相似度;
若所述样本数据的任务类型为多元选择类型,则所述第二神经网络模型的网络结构包括:至少两个选择分支,每个选择分支包括上下文信息输入层和待选答案输入层,还包括匹配度输入层以输出各分支的上下文信息与待选答案的匹配度。
上述产品可运行本申请任意实施例所提供的方法,具备运行方法相应的功能模块和有益效果。
实施例四
本申请实施例还提供一种包含计算机可运行指令的存储介质,所述计算机可运行指令在由计算机处理器运行时用于运行一种深度神经网络模型的构建方法,该方法包括:
将有标签样本数据输入第一神经网络模型,得到有标签样本数据的特征表示;其中,所述第一神经网络模型根据无标签样本数据对第一神经网络模型的网络结构的参数进行训练得到的;
将有标签样本数据的特征表示和标签数据输入第二神经网络模型,以对所述第二神经网络模型的参数进行训练。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDR RAM、SRAM、EDO RAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被运行的计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到计算机系统。第二计算机系统可以提供程序指令给计算机用于运行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器运行的程序指令(例如具体实现为计算机程序)。
当然,本申请实施例所提供的一种包含计算机可运行指令的存储介质,其计算机可运行指令不限于如上所述的深度神经网络模型的构建操作,还可以运行本申请任意实施例所提供的深度神经网络模型的构建方法中的相关操作。
实施例五
本申请实施例提供了一种电子设备,该电子设备中可集成本申请实施例提供的深度神经网络模型的构建装置。图4是本申请实施例五提供的一种电子设备的结构示意图。如图4所示,本实施例提供了一种电子设备400,其包括:一个或多个处理器420;存储装置410,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器420运行,使得所述一个或多个处理器420实现本申请实施例所提供的深度神经网络模型的构建方法,该方法包括:
将有标签样本数据输入第一神经网络模型,得到有标签样本数据的特征表示;其中,所述第一神经网络模型根据无标签样本数据对第一神经网络模型的网络结构的参数进行训练得到的;
将有标签样本数据的特征表示和标签数据输入第二神经网络模型,以对所述第二神经网络模型的参数进行训练。
当然,本领域技术人员可以理解,处理器420还可以实现本申请任意实施例所提供的深度神经网络模型的构建方法的技术方案。
图4显示的电子设备400仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图4所示,该电子设备400包括处理器420、存储装置410、输入装置430和输出装置440;电子设备中处理器420的数量可以是一个或多个,图4中以一个处理器420为例;电子设备中的处理器420、存储装置410、输入装置430和输出装置440可以通过总线或其他方式连接,图4中以通过总线450连接为例。
存储装置410作为一种计算机可读存储介质,可用于存储软件程序、计算机可运行程序以及模块单元,如本申请实施例中的深度神经网络模型的构建方法对应的程序指令。
存储装置410可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储装置410可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置410可进一步包括相对于处理器420远程设置的存储器,这些远程存储器可以通过网络连接。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置430可用于接收输入的数字、字符信息或语音信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏、扬声器等设备。
本申请实施例提供的电子设备,可以实现在测试过程中,可以实现在有标签的训练样本资源有限的情况下,能够保证高质量的模型训练效果,无需消耗大量的人力资源对较多数据进行标注标签的目的。
上述实施例中提供的深度神经网络模型的构建装置、介质及电子设备可运行本申请任意实施例所提供的深度神经网络模型的构建方法,具备运行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的深度神经网络模型的构建方法。
注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。
Claims (10)
1.一种深度神经网络模型的构建方法,其特征在于,包括:
将有标签样本数据输入第一神经网络模型,得到有标签样本数据的特征表示;其中,所述第一神经网络模型根据无标签样本数据对第一神经网络模型的网络结构的参数进行训练得到的;
将有标签样本数据的特征表示和标签数据输入第二神经网络模型,以对所述第二神经网络模型的参数进行训练。
2.根据权利要求1所述的方法,其特征在于,将有标签样本数据的特征表示和标签数据输入第二神经网络模型之前还包括:
根据样本数据的标签类型,确定样本数据的任务类型;
根据样本数据的任务类型,确定所述第二神经网络模型的网络结构。
3.根据权利要求1所述的方法,其特征在于,对所述第二神经网络模型的参数进行训练之后,还包括:
获取待检测的目标数据,以及目标数据所关联的目标任务类型;
将所述目标数据作为所述第一神经网络模型的输入,得到目标数据的特征表示;
将目标数据的特征表示作为所述目标任务类型所关联经训练的第二神经网络模型,得到目标数据的任务检测结果。
4.根据权利要求2所述的方法,其特征在于,所述任务类型包括语义分类类型、语义包含类型、文本相似类型以及多元选择类型中的至少一种。
5.根据权利要求4所述的方法,其特征在于,根据样本数据的任务类型,确定所述第二神经网络模型的网络结构,包括:
若所述样本数据的任务类型为语义分类类型,则所述第二神经网络模型的网络结构包括:数据输入层和语义分类数据输出层;
若所述样本数据的任务类型为语义包含类型,则所述第二神经网络模型的网络结构包括:前提信息输入层、假设信息输入层以及包含结果输出层;
若所述样本数据的任务类型为文本相似类型,则所述第二神经网络模型的网络结构包括:第一分支、第二分支和结果叠加层,其中所述第一分支包括第一信息输入层、第二信息输入层以及相似结果输出层;所述第二分支包括第二信息输入层、第一信息输入层以及相似结果输出层;其中所述结果叠加层用于根据第一分支的相似结果输出层和第二分支的相似结果输出层确定第一信息和第二信息的文本相似度;
若所述样本数据的任务类型为多元选择类型,则所述第二神经网络模型的网络结构包括:至少两个选择分支,每个选择分支包括上下文信息输入层和待选答案输入层,还包括匹配度输入层以输出各分支的上下文信息与待选答案的匹配度。
6.一种深度神经网络模型的构建装置,其特征在于,包括:
特征表示获取模块,用于将有标签样本数据输入第一神经网络模型,得到有标签样本数据的特征表示;其中,所述第一神经网络模型根据无标签样本数据对第一神经网络模型的网络结构的参数进行训练得到的;
参数训练模块,用于将有标签样本数据的特征表示和标签数据输入第二神经网络模型,以对所述第二神经网络模型的参数进行训练。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
任务类型确定模块,用于根据样本数据的标签类型,确定样本数据的任务类型;
网络结构选择模块,用于根据样本数据的任务类型,确定所述第二神经网络模型的网络结构。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括深度神经网络模型应用模块,具体用于:
获取待检测的目标数据,以及目标数据所关联的目标任务类型;
将所述目标数据作为所述第一神经网络模型的输入,得到目标数据的特征表示;
将目标数据的特征表示作为所述目标任务类型所关联经训练的第二神经网络模型,得到目标数据的任务检测结果。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的深度神经网络模型的构建方法。
10.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的深度神经网络模型的构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910708892.3A CN110428052B (zh) | 2019-08-01 | 2019-08-01 | 深度神经网络模型的构建方法、装置、介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910708892.3A CN110428052B (zh) | 2019-08-01 | 2019-08-01 | 深度神经网络模型的构建方法、装置、介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110428052A true CN110428052A (zh) | 2019-11-08 |
CN110428052B CN110428052B (zh) | 2022-09-06 |
Family
ID=68413879
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910708892.3A Active CN110428052B (zh) | 2019-08-01 | 2019-08-01 | 深度神经网络模型的构建方法、装置、介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110428052B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112070233A (zh) * | 2020-08-25 | 2020-12-11 | 北京百度网讯科技有限公司 | 模型联合训练方法、装置、电子设备和存储介质 |
CN114254319A (zh) * | 2021-12-13 | 2022-03-29 | 安天科技集团股份有限公司 | 网络病毒的识别方法、装置、计算机设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170323202A1 (en) * | 2016-05-06 | 2017-11-09 | Fujitsu Limited | Recognition apparatus based on deep neural network, training apparatus and methods thereof |
CN108182427A (zh) * | 2018-01-30 | 2018-06-19 | 电子科技大学 | 一种基于深度学习模型和迁移学习的人脸识别方法 |
CN109165380A (zh) * | 2018-07-26 | 2019-01-08 | 咪咕数字传媒有限公司 | 一种神经网络模型训练方法及装置、文本标签确定方法及装置 |
CN109389220A (zh) * | 2018-09-28 | 2019-02-26 | 北京达佳互联信息技术有限公司 | 神经网络模型的处理方法、装置、电子设备以及存储介质 |
CN109447183A (zh) * | 2018-11-27 | 2019-03-08 | 东软集团股份有限公司 | 模型训练方法、装置、设备以及介质 |
CN109816092A (zh) * | 2018-12-13 | 2019-05-28 | 北京三快在线科技有限公司 | 深度神经网络训练方法、装置、电子设备及存储介质 |
-
2019
- 2019-08-01 CN CN201910708892.3A patent/CN110428052B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170323202A1 (en) * | 2016-05-06 | 2017-11-09 | Fujitsu Limited | Recognition apparatus based on deep neural network, training apparatus and methods thereof |
CN108182427A (zh) * | 2018-01-30 | 2018-06-19 | 电子科技大学 | 一种基于深度学习模型和迁移学习的人脸识别方法 |
CN109165380A (zh) * | 2018-07-26 | 2019-01-08 | 咪咕数字传媒有限公司 | 一种神经网络模型训练方法及装置、文本标签确定方法及装置 |
CN109389220A (zh) * | 2018-09-28 | 2019-02-26 | 北京达佳互联信息技术有限公司 | 神经网络模型的处理方法、装置、电子设备以及存储介质 |
CN109447183A (zh) * | 2018-11-27 | 2019-03-08 | 东软集团股份有限公司 | 模型训练方法、装置、设备以及介质 |
CN109816092A (zh) * | 2018-12-13 | 2019-05-28 | 北京三快在线科技有限公司 | 深度神经网络训练方法、装置、电子设备及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112070233A (zh) * | 2020-08-25 | 2020-12-11 | 北京百度网讯科技有限公司 | 模型联合训练方法、装置、电子设备和存储介质 |
CN112070233B (zh) * | 2020-08-25 | 2024-03-22 | 北京百度网讯科技有限公司 | 模型联合训练方法、装置、电子设备和存储介质 |
CN114254319A (zh) * | 2021-12-13 | 2022-03-29 | 安天科技集团股份有限公司 | 网络病毒的识别方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110428052B (zh) | 2022-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230419074A1 (en) | Methods and systems for neural and cognitive processing | |
Evermann et al. | Predicting process behaviour using deep learning | |
Forbus et al. | Towards a computational model of sketching | |
US11238085B2 (en) | System and method for automatically generating concepts related to a target concept | |
CN110534087A (zh) | 一种文本韵律层级结构预测方法、装置、设备及存储介质 | |
EP3596663B1 (en) | Neural network system | |
US20160372118A1 (en) | Context-dependent modeling of phonemes | |
CN108334499A (zh) | 一种文本标签标注设备、方法和计算设备 | |
CN107680579A (zh) | 文本正则化模型训练方法和装置、文本正则化方法和装置 | |
Al Ka'bi | Proposed artificial intelligence algorithm and deep learning techniques for development of higher education | |
CN108417210A (zh) | 一种词嵌入语言模型训练方法、词语识别方法及系统 | |
CN110516253A (zh) | 中文口语语义理解方法及系统 | |
CN112527383A (zh) | 用于生成多任务模型的方法、装置、设备、介质和程序 | |
Lian et al. | Unsupervised representation learning with future observation prediction for speech emotion recognition | |
CN110428052A (zh) | 深度神经网络模型的构建方法、装置、介质及电子设备 | |
KR102148867B1 (ko) | 노래와 그리기를 연계한 교육 서비스 제공 시스템 | |
Yao | Attention-based BiLSTM neural networks for sentiment classification of short texts | |
Liu et al. | Learning to teach with student feedback | |
Khan et al. | Generate: A NLG system for educational content creation. | |
CN112347150B (zh) | 一种学者学术标签标注方法、装置和电子设备 | |
CN113450764A (zh) | 文本语音识别方法、装置、设备及存储介质 | |
Chai et al. | Machine learning and modern education | |
Mao et al. | Compositional semantics network with multi-task learning for pun location | |
CN112989801B (zh) | 一种序列标注方法、装置及设备 | |
Thurman | The ANOPP2 Artificial Neural Network Tool (AANNT) Reference Manual |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |