CN109615083B

CN109615083B - 机器学习系统、机器学习方法及其非暂态电脑可读媒体

Info

Publication number: CN109615083B
Application number: CN201811141845.7A
Authority: CN
Inventors: 张智威; 周俊男; 余俊贤
Original assignee: HTC Corp
Current assignee: HTC Corp
Priority date: 2017-10-02
Filing date: 2018-09-28
Publication date: 2021-03-30
Anticipated expiration: 2038-09-28
Also published as: US20190108442A1; TW201915800A; CN109615083A; TWI742312B

Abstract

本公开涉及机器学习系统、机器学习方法及其非暂态电脑可读媒体。一机器学习系统包含一存储器以及一处理器。该处理器用以存取并执行该存储器存储的至少一指令以：输入一原始数据至一神经网络的一第一分区，其中该第一分区至少包含该神经网络中的一激励函数，该激励函数用以转换该原始数据为非可逆的一元数据，其中该元数据被用以传输至该神经网络的一第二分区以产生对应于该原始数据的一学习结果。本发明可兼顾机器学习的有效性以及训练样本的保密性。

Description

机器学习系统、机器学习方法及其非暂态电脑可读媒体

技术领域

本发明涉及一种计算系统、计算方法以及用以计算的非暂态电脑可读媒体(medium，介质)。详细而言，本发明涉及一种用以执行机器学习任务的系统、方法以及非暂态电脑可读媒体。

背景技术

近期以来，神经网络以及深度学习被有效地应用于不同的技术领域，例如，其可应用于机器视觉、语音辨识以及机器翻译等领域当中。然而，为了以具有较高的机敏程度的训练样本进行训练以及学习，应思考如何兼顾深度学习的有效性以及训练样本的保密性。

发明内容

本发明的一方面涉及一种机器学习系统。该机器学习系统包含一存储器以及一处理器，该处理器通信耦接于该存储器。该存储器存储至少一指令。该处理器用以存取并执行该至少一指令以：输入一原始数据(raw data)至一神经网络(neural network)的一第一分区(first partition)，其中该第一分区至少包含该神经网络当中的一激励函数(activation function layer，激励函数层)，该激励函数用以转换(transform)该原始数据为非可逆(irreversible)的一元数据(metadata)，其中该元数据被用以传输至该神经网络的一第二分区(second partition)以产生对应于该原始数据的一学习结果。

在一实施例中，机器学习系统还包含一服务器，该服务器通信耦接于该处理器，其中该服务器用以接收该元数据，并将该元数据输入至该神经网络中接续于该第一分区的该第二分区以产生该学习结果。

在另一实施例中，该激励函数为该神经网络中次序为首的非线性(nonlinear)激励函数。

在又一实施例中，该激励函数为一阶层式非线性函数，且依据一分割数量该阶层式非线性函数的一定义域被分割为多个区间，该些区间各自于该阶层式非线性函数的一值域中对应一固定数值。

在再一实施例中，该激励函数对应于一切分值，该切分值与该些区间的一数量具有一比值，该激励函数将比较一输入值以及该切分值以取得一比较结果，该激励函数依据该比值、该比较结果与该输入值产生该元数据。

在一实施例中，该分割数量介于一第一数值与一第二数值间。

在另一实施例中，该分割数量的大小对应于该原始数据的内容复杂度。

在又一实施例中，该第一分区包含一卷积(convolution)层。

在再一实施例中，该第二分区包含一卷积(convolution)层、一池化(pooling)层以及一全连接(fully connected)层中的至少一者。

本发明的另一方面涉及一种机器学习方法。该机器学习方法由一处理器所执行。该机器学习方法包含下列步骤：输入一原始数据至一神经网络的一第一分区，其中该第一分区至少包含该神经网络当中的一激励函数，该激励函数用以转换该原始数据为非可逆的一元数据，其中该元数据被用以传输至该神经网络的一第二分区以产生对应于该原始数据的一学习结果。

在一实施例中，机器学习方法还包含：传输该元数据至一服务器；以及该服务器接收该元数据，并将该元数据输入至该神经网络中接续于该第一分区的该第二分区以产生该学习结果。

在另一实施例中，该激励函数为该神经网络中次序为首的非线性激励函数。

在又一实施例中，该第一分区还包含一卷积层。

在再一实施例中，该第二分区包含一卷积层、一池化层以及一全连接层中的至少一者。

本发明的又一方面涉及一种非暂态电脑可读取媒体。该非暂态电脑可读媒体关联于至少一指令以界定一机器学习方法，该机器学习方法包含：输入一原始数据至一神经网络的一第一分区，其中该第一分区至少包含该神经网络当中的一激励函数，该激励函数用以转换该原始数据为非可逆的一元数据，其中该元数据被用以传输至该神经网络的一第二分区以产生对应于该原始数据的一学习结果。

在一实施例中，非暂态电脑可读取媒体关联于该至少一指令以界定的该机器学习方法还包含：传输该元数据至一服务器；以及该服务器接收该元数据，并将该元数据输入至该神经网络中接续于该第一分区的该第二分区以产生该学习结果。

应注意的是，前述的发明内容以及后述的实施方式皆仅是举例说明而已，其主要目的为详细地解释本发明权利要求当中的内容。

附图说明

参照后续段落中的实施方式以及下列附图，当可更好地理解本发明的内容：

图1为根据本发明一实施例示出的机器学习系统的示意图；

图2为根据本发明一实施例示出的机器学习方法的步骤流程图；

图3为根据本发明一实施例示出的现有S型函数以及阶层式S型函数的对照示意图；

图4A为根据本发明一实施例示出的神经网络的示意图；

图4B为根据本发明一实施例示出的神经网络的示意图；

图5A为根据本发明一实施例提供的原始影像的示意图；

图5B为根据现有技术提供的还原影像的示意图；

图5C为根据本发明一实施例提供的还原影像的示意图；

图6A为根据本发明一实施例提供的原始影像的示意图；

图6B为根据现有技术提供的还原影像的示意图；以及

图6C为根据本发明一实施例提供的还原影像的示意图。

附图标记说明：

100：机器学习系统

110：本地端

111：存储器

112：处理器

120：远端

121：存储器

122：处理器

200：机器学习方法

S210～S240：步骤流程

S1：曲线

S2：阶跃线

NN：神经网络

CL1～CL10：运算层

PT1：第一分区

PT2：第二分区

具体实施方式

以下将以附图及详细叙述清楚说明本发明的精神，任何所属技术领域中技术人员在了解本发明的实施例后，当可由本发明所启示的技术，加以改变及修饰，其并不脱离本发明的精神与范围。

本文的用语只为描述特定实施例，而无意为本发明的限制。单数形式如“一”、“这”、“此”、“本”以及“该”，如本文所用，同样也包含多个形式。

关于本文中所使用的“耦接”或“连接”，均可指二或多个元件或装置相互直接作实体接触，或是相互间接作实体接触，亦可指二或多个元件或装置相互操作或动作。

关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等，均为开放性的用语，即意指包含但不限于。

关于本文中所使用的“及/或”，包括所述事物的任一或全部组合。

关于本文中所使用的术语(terms)，除有特别注明外，通常具有每个术语使用在此领域中、在本发明的内容中与特殊内容中的平常意义。某些用以描述本发明的术语将于下或在此说明书的别处讨论，以提供本领域技术人员在有关本发明的描述上额外的引导。

图1为根据本发明一实施例示出的机器学习系统的示意图。如图1所示，在一些实施例中，机器学习系统100可包含本地端110，举例而言，可以是本地服务器或独立电脑，其至少包括存储器111以及处理器112。在一些实施例中，存储器111电性/通信耦接于处理器112。

在一些实施例中，存储器111可为闪存(flash)存储器、硬盘(HDD)、固态硬盘(SSD)、动态随机存取存储器(DRAM)或静态随机存取存储器(SRAM)。在一些实施例中，作为一种非暂态电脑可读取媒体，存储器111可存储关联于机器学习方法的至少一指令，该至少一指令可供处理器112存取并执行。

在一些实施例中，处理器112包含但不限于单一处理器以及多个微处理器的集成，例如，中央处理器(CPU)或绘图处理器(GPU)等。该些(微)处理器电性耦接于存储器111，因此，处理器112可用以自存储器111存取前述的至少一指令，以依据该至少一指令执行前述的机器学习方法。为了更好地理解该机器学习方法，将于下面段落中详细对其进行解释。

在一些实施例中，机器学习系统100还可包含一远端120，举例而言，可以是云端服务器或独立电脑，其至少包括存储器121以及处理器122。在一些实施例中，存储器121电性/通信耦接于处理器122。应理解，远端120的存储器121和处理器122的构成以及功能类似于本地端110的存储器111以及处理器112，于此不再赘述。

在一些实施例中，机器学习系统100当中的本地端110通信耦接于远端120，应注意的是，前述的“通信耦接”可为实体或非实体的耦接。例如，在一实施例中，本地端110可以通过无线通信技术耦接至远端120，借此两者可进行双向的信息交换。在一些实施例中，本地端110以及远端120可以通过实体线路耦接，借此两者可进行双向的信息交换。

在一些实施例中，本地端110可设置于保存有机敏数据的机关单位，例如，医院、军方或半导体公司等。在一些实施例中，远端120可设置于为具有优选数据运算能力的网络单位，例如，运算平台或云端服务供应者等等。在一些实施例中，远端120的数据运算能力优于本地端110，但不以此为限。

图2为根据本发明一实施例示出的机器学习方法的步骤流程图。如图2所示，在一些实施例中，机器学习方法200可由图1中所示的本地端110的处理器112所执行。在一些实施例中，机器学习方法200可由图1中所示的本地端110的处理器112以及远端120的处理器122协同执行。在一些实施例中，机器学习方法200的详细步骤将于下面段落中叙述。

步骤S210：接收一原始数据。

在一些实施例中，本地端110的处理器112可自一存储器(例如，存储器111)存取至少一原始数据(raw data)。在一些实施例中，该至少一原始数据可为影像数据。在一些实施例中，该至少一原始数据可为语音数据或文字数据等，本发明可应用的数据形式并不以此为限。

例如，在一实施例中，本地端110对应于一医院，本地端110的处理器112通信耦接于医院的数据库，医院的数据库可存储有医院所搜集的病患的X光片影像、患部切片影像或全身磁振造影影像等医学影像数据。在一些实施例中，处理器112所存取/接收的至少一原始数据可为前述的X光片影像、患部切片影像或全身磁振造影影像等。

在一些实施例中，本地端110的存储器111以及处理器112设置于医院中，医院为安全(secured)端。意即，在本地端110以及医院内，数据的安全性应可获得保证。

步骤S220：输入原始数据至神经网络的第一分区，其中第一分区至少包含神经网络中的激励函数，激励函数用以转换原始数据为非可逆的元数据。

在一些实施例中，处理器112于存取/接收至少一原始数据后，可将至少一原始数据输入神经网络(neural network)的第一分区(first partition)。关于该神经网络(如后述的神经网络NN)以及第一分区(如后述的第一分区PT1)的细节，将于后面段落中详述。

应理解，此处所指的神经网络为机器学习(machine learning)程序中用以训练的模型(model)，神经网络可包含有具有次序关系的多个层(layers)，该些层各自可包含若干神经元(neurons)。大致而言，该些层中的神经元可接收输入(input)值并产生输出(output)值，对应地，各层所属的该些神经元分别对应于一运算。

在一些实施例中，神经网络为卷积神经网络(convolutional neural network)，此架构可用以训练深度学习(deep learning)程序。在一些实施例中，神经网络可包含卷积层、激励函数、池化层以及全连接层等运算层。

例如，在一些实施例中，卷积层(convolution layer)以特定的滤波器(filter)对其输入值作卷积运算，借此可萃取出输入值当中的某些特征(features)以产生输出值。例如，在一些实施例中，激励函数(activation function)可接续于卷积层之后，主要是用以对卷积层的输出值作非线性(nonlinear)滤波。在一些实施例中，激励函数用以转换卷积层的输出值为正值，但不以此为限。例如，在一些实施例中，池化层(pooling layer)用以针对某些输入值作累积(aggregate)运算，如极大值(maximum)运算或平均数(average)运算等，借此可保留该些输入值当中的某些特征并去除噪声。例如，在一些实施例中，全连接层(fully-connected layer)的神经元用以依据神经元对应的权重(weight)对输入值进行矩阵乘法(matrix multiplication)运算，并将输出值连结至该神经网络的学习结果。

在一些实施例中，神经网络包含多个卷积层、多个激励函数、多个池化层以及多个全连接层，该些运算层以一定次序排列，其间的各神经元可以相互连结。取决神经网络中各层的次序关系，以及各层的神经元之间的连结关系，该至少一原始数据可作为训练样本(training samples)输入神经网络，经由该些运算层运算以获取训练结果。在一些实施例中，可多次地基于神经网络进行梯度运算，借此训练并修改神经网络中的卷积层和池化层所萃取的特征，以及训练并修改全连接层当中的权重，最后完成基于该神经网络的机器学习程序/深度学习程序。

在一些实施例中，神经网络的第一分区至少包含一激励函数，激励函数可用以转换至少一原始数据为元数据，元数据为非可逆(irreversible)数据，关于“非可逆”的解释，将于后面段落中详述。

在一些实施例中，本发明的激励函数可为阶层式非线性(stepwise nonlinear)函数。应理解，现有技术中的非线性函数可为，例如，S型函数(sigmoid)、双曲正切函数(hyperbolic tangent)或线性整流函数(rectified linear unit,ReLU)等等。若以函数图形理解，相较于现有技术中的非线性函数，本发明的阶层式非线性的定义域(domain)大致分割为多个区间(intervals)，且该些区间各自对应于多个阶跃(step)线段，使本发明的阶层式非线性函数的函数图形表示为该些阶跃线段的集成。应理解，本发明的阶层式非线性函数可应用于现有的S型函数、双曲正切函数或线性整流函数的定义域，将其转换为阶层化的函数。

举例而言，在一些实施例中，本发明的激励函数可为阶层式S型函数(stepwisesigmoid)，相较于现有技术中的S型(sigmoid)函数，阶层式S型函数的函数图形可表示为多个阶跃线段的集成。

例如，在一些实施例中，本发明的阶层式S型函数(标记为g^step(x))的函数式可表示如下。

在前述函数式中，符号

代表取底函数(或称下取整函数)。若以

为例，函数输入值为a，函数输出值为小于等于a的首个整数(integer)值。

在前述函数式中，符号min()代表为极小值函数。若以min(b,c)为例，函数输入值为b以及c，函数输出值为b,c两者当中的较小者。

在前述函数式中，符号||代表为绝对值函数。若以|d|为例，函数输入值为d，若d为非负数，函数输出值为d，若d为负数(negative)，函数输出值为-d。

在前述函数式中，符号sign()代表为二元阶跃函数。若以sign(e)为例，函数输入值为e，若e为非负数，其输出值为1，若e为负数，其输出值为-1。

在前述函数式中，n值代表区间数量(number of intervals)，亦即阶层式S型函数的定义域的分割数量。

在前述函数式中，v值代表切分值，亦即阶层式S型函数设定用以分割的定值(clipping value)。

在前述函数式中，x值代表函数的输入值，亦即阶层式S型函数定义域当中的某一数值。

整体而言，前述函数式的意义如下。当某一x值作为前述函数式的一输入值，函数式可自该x值的绝对值与v当中取最小值为一第一数值，再将该第一数值除以v与n的比值以产生一第二数值。函数式可再获取小于等于该第二数值的首个整数为一第三数值。函数式可再将该第三数值乘以v与n的比值以产生一第四数值。函数式可再依据原x值的正负状况选择将该第四数值乘以1或-1，以产生一第五数值。该第五数值可被输入至S型函数当中，以获取对应于该x值的一输出值。

为了更好地理解，可一并参照图3。图3为根据本发明一实施例示出的现有S型函数以及阶层式S型函数的对照示意图。在一些实施例中，如图3所示，横轴(horizontal axis)用以表示x值，x值对应于现有S型函数以及阶层式S型函数的定义域(domain)。如图3所示，纵轴(vertical axis)用以表示g(x)值以及g^step(x)值，其中，g(x)值对应于现有S型函数的值域(range)，g^step(x)值对应于本发明的阶层式S型函数的值域。

如图3所示，基于同样的定义域(亦即，x值为-10～10的区间内)，现有S型函数的值域可表示为曲线S1，本发明的阶层式S型函数的值域(即g(x)值或g^step(x)为0.0～1.0的区间内)可表示为由多个阶跃线段构成的阶跃线S2(即各区间当中的横线段的集成)。

如图3所示，现有S型函数对应的曲线S1为指数曲线，对应x值的递增，曲线S1呈现平滑向上的趋势。应理解，在本实施例中，现有的S型函数的函数式可表示如下：g(x)＝1/(1+e^-x)，其中，e代表以欧拉数(Euler’s number)为底的指数函数。

如图3所示，阶层式S型函数对应的阶跃线S2由多个阶跃线段构成，对应x值的递增，阶跃线S2呈现阶层向上的趋势。应理解，阶层式S型函数的函数式可参照前述实施例所述的g^step(x)。在本实施例中，g^step(x)的函数式当中的v值(即切分值)为10，n值(即区间数量)为21。

如图3所示，依据曲线S1的趋势变化，可以理解，在现有S型函数的整体区间中，每一个g(x)值仅对应于一个x值。如图3所示，依据阶跃线S2的趋势，可以理解，在阶层式S型函数的分割区间中，每一个g^step(x)值可能对应于一个以上的x值。

应理解，图3所示的阶层式S型函数仅是一示例，本发明并不以此为限。在一些实施例中，该阶层式S型函数的定义域的分割数量(即n值)以及用以分割的该定值(即v值)可以不同，运算量亦随之变化。在一些实施例中，以前述的阶层式S型函数为参照，本发明的阶层式非线性函数亦可实施于现有的双曲正切函数或线性整流函数。亦即，可依据同于上述的计算式对输入值(x值)做转换，再将转换后的数值输入双曲正切函数或线性整流函数，其即为阶层式双曲正切函数或阶层式线性整流函数。

在一些实施例中，通过第一分区当中的激励函数(例如，前述的阶层式S型函数)，处理器112可将至少一原始数据当中的数值(例如，各像素对应的灰阶值)转换为元数据(metadata)，元数据为一种中介数据。

在一些实施例中，处理器112可依据图3所示的阶层式S型函数处理至少一原始数据，以将至少一原始数据转换为元数据。应理解，承前所述，在阶层式S型函数的分割区间中，元数据的每一个g^step(x)值可对应于一个以上的x值。是以，若将元数据输入逆转函数(inverse function)当中，将产生多对一(many to one)映射(mapping)的非可逆(irreversible)状况。应理解，此处所指的非可逆状况是指，由于阶层式S型函数的同一输出值可能对应多个输入值，故无法将该元数据完整地还原为该至少一原始数据。

在一些实施例中，即便阶层式S型函数的运算逻辑已被获取，仍难以推导出有效的逆转函数以将元数据完整还原为该至少一原始数据。

应理解，前述的阶层式S型函数仅是一示例，本发明并不以此为限。在一些实施例中，处理器112可以其他可行的激励函数将该至少一原始数据转换为元数据，只要将元数据输入逆转函数时，将产生多对一映射的非可逆状况，使元数据无法被有效地还原为该至少一原始数据，该等激励函数皆为本发明范围所涵盖。

步骤S230：传输元数据至服务器。

在一些实施例中，当处理器112通过第一分区当中的激励函数将至少一原始数据转换为元数据后，处理器112可通过通信管道传输该元数据至远端120。在一些实施例中，远端120的存储器121以及处理器122系设置于云端服务供应者。

步骤S240：服务器接收元数据，并将元数据输入至神经网络中接续于第一分区的第二分区以产生学习结果。

在一些实施例中，处理器112可通过通信管道传输元数据至远端120。远端120的处理器122可接收元数据，并将元数据存储于存储器121。或者，处理器122可将元数据输入至神经网络当中的第二分区(second partition)，通过第二分区的运算，处理器112可产生对应于该至少一原始数据的学习结果。关于神经网络(如后述的神经网络NN)以及第二分区(如后述的第二分区PT2)的细节，将于后面段落中详述。

为了更好地理解神经网络当中的第一分区以及第二分区，可一并参照图4A以及图4B。图4A以及图4B皆为根据本发明一实施例示出的神经网络的示意图。

在一实施例中，如图4A所示出，神经网络NN可包含多个运算层CL1～CL10。运算层CL1可为第一卷积层，运算层CL2可为第一激励函数，运算层CL3可为第二卷积层，运算层CL4可为第二激励函数，运算层CL5可为第一池化层，运算层CL6可为第三卷积层，运算层CL7可为第三激励函数，运算层CL8可为第二池化层，运算层CL9可为第一全连接层，运算层CL10可为第二全连接层，该些运算层CL1～CL10构成神经网络NN。

在一实施例中，神经网络NN可应用为机器学习系统100的训练模型。在一实施例中，机器学习系统100的输入(即该至少一原始数据)是输入自神经网络NN的运算层CL1，经运算层CL1运算后产生输出，该输出再输入至运算层CL2，经运算层CL2运算后产生输出。以此类推，运算层CL10的输出则连接至神经网络NN的判断结果，亦即神经网络NN的学习结果。

再参照图4B。应理解，图4B的实施例所示的本地端110以及远端120与图1的实施例所示的本地端110以及远端120相同，图4B的架构旨在解释该神经网络NN的第一分区以及第二分区。

如图4B所示，在一些实施例中，神经网络NN可包含第一分区PT1以及第二分区PT2。

在一些实施例中，神经网络NN的该些运算层当中的运算层CL1～CL2位于第一分区PT1当中。在本实施例中，神经网络NN的第一分区PT1由本地端110的处理器112所执行。

在一些实施例中，神经网络NN的该些运算层当中的运算层CL3～CL10位于第二分区PT2当中。在本实施例中，第二分区PT2由远端120的处理器122所执行。

亦即，如图4B所示，在一些实施例中，神经网络NN至少可分为两部分，且两部分分别由本地端110以及远端120执行。

请一并参照图4A以及图4B。如图4A的实施例所述，神经网络NN中包含多个非线性激励函数，分别对应于该些运算层当中的运算层CL2、CL4、CL7。如图4B所示，在一些实施例中，第一分区PT1包含运算层CL2，而运算层CL2对应于神经网络NN中的第一激励函数。亦即，在一些实施例中，激励函数为神经网络NN当中次序为首的非线性激励函数。

如图4B所示，在一些实施例中，第一分区PT1当中还包含运算层CL1，运算层CL1为第一卷积层。在一些实施例中，处理器112可将至少一原始数据当中的数值输入运算层CL1以获取卷积输出，并将运算层CL1的输出再输入至运算层CL2，由运算层CL2的第一激励函数进行转换，以输出该元数据。

如图4B所示，在一些实施例中，处理器112可将元数据传输至远端120，由远端120的处理器122执行后续的运算层CL3～CL10，最后产生该神经网络NN的学习结果。在一些实施例中，运算层CL4以及运算层CL7所对应的激励函数可为S型函数、双曲正切函数或线性整流函数等。

应理解，图4A以及图4B所示的该神经网络NN仅是一示例，本发明并不以此为限。在一些实施例中，神经网络NN可包含不同数量以及次序的运算层，第一分区PT1以及第二分区PT2各自包含的运算层数量亦可不同。

承前所述，在一些实施例中，处理器112所存取/接收的该至少一原始数据可为前述的X光片影像、患部切片影像或全身磁振造影影像等应保密数据。在现有技术中，若未对该至少一原始数据处理即向外传输，当该通信管道的保密性不足时，恶意第三方可拦截并直接获取该至少一原始数据。

或者，即便现有技术可通过现有的激励函数对该至少一原始数据进行转换，经转换的该至少一原始数据仍较易被还原为该至少一原始数据。在一些实施例中，现有的激励函数可包含但不限于，例如，S型函数、双曲正切函数或线性整流函数等等。

在一些实施例(例如，图3)中，现有的S型函数的函数式可表示如下：sigmoid(z)＝1/(1+e^-z)，其中，e代表以欧拉数为底的指数函数。在一些实施例中，若通过现有的S型函数转换至少一原始数据为元数据，可通过下列的逆转函数将元数据还原为该至少一原始数据。逆转函数的函数式可表示为：z＝sigmoid^-1(y)＝-ln((1/y)-1)，其中，ln()代表自然对数函数。

在一些实施例中，现有的双曲正切函数的函数式可表示如下：tanh(z)＝(e^2z-1)/(e^2z+1)，其中，e代表以欧拉数为底的指数函数。在一些实施例中，若通过现有的双曲正切函数转换该至少一原始数据为元数据，可藉下列逆转函数将元数据还原为该至少一原始数据。逆转函数的函数式可表示为：tanh^-1(z)＝[ln(1+z)-ln(1-z)]/2，其中，ln()代表自然对数函数。

在一些实施例中，现有的线性整流函数的函数式可表示如下：ReLU(z)＝{z,if z≥0；0,otherwise}，亦即，若输入值z大于等于0，函数输出值为z，若输入值z小于0，函数输出值为0。在一些实施例中，若通过现有的线性整流函数转换至少一原始数据为元数据。若恶意第三方获取元数据，元数据中的正数部分可直接使用，仅须补足零值部分，即可获取该至少一原始数据。此外，若以现有的线性整流函数转换原始数据为元数据，即便只获取元数据中的正数部分，其仍可于视觉上大致辨识(recognizable)为该至少一原始数据。

相对地，在一些实施例中，本发明的处理器112可通过前述的该阶层式S型函数将该至少一原始数据转换为元数据。在此状况下，难以找到一种有效的逆转函数可将该元数据还原为该至少一原始数据。

在一些实施例中，若恶意第三方仍尝试通过其所推导的逆转函数还原该元数据，由于阶层式S型函数的转换效果，其尝试还原的数据于视觉上将难以辨识(unrecognizable)为该至少一原始数据。亦即，被还原的数据仍难以辨识为前述的X光片影像、患部切片影像或全身磁振造影影像等数据。

在一些实施例中，本发明与现有技术的系统效率比较如下所示。

在一些实施例中，若依据现有的S型函数建构机器学习系统，并以MNIST影像数据库作为此系统的训练样本(即前述的该至少一原始数据)来源，采用随机梯度下降法(Stochastic gradient descent,SGD)运算90个时期(epochs)，此系统的学习结果的准确率为99.68％。在此实施例中，MNIST影像数据库(Mixed National Institute ofStandards and Technology database)提供多张手写数字(handwritten digits)影像，该些影像可于LeCun教授的网站(http://yann.lecun.com/exdb/mnist/)上获取。

在一些实施例中，若依据现有的S型函数建构机器学习系统，并以CIFAR10影像数据库作为此系统的训练样本(即前述的该至少一原始数据)时，采用随机梯度下降法运算90个时期，此系统的学习结果的准确率为86.94％。在此实施例中，CIFAR10影像数据库当中具有10个分类的物体影像，包含：飞机、汽车、鸟、猫、鹿、狗、青蛙、船、卡车等。该些影像可于http://www.cs.toronto.edu/～kriz/cifar.html网站上获取。

对应地，在一些实施例中，若依据本发明的阶层式S型函数建构机器学习系统，同样采用随机梯度下降法运算90个时期。若以MNIST影像数据库作为此系统的训练样本来源，在n值(即该阶层式S型函数的定义域的分割数量)为1的时候，学习结果的准确率为10.28％；在n值为5的时候，学习结果的准确率为23.27％；在n值为11的时候，学习结果的准确率为99.57％；在n值为21的时候，学习结果的准确率为99.65％。应注意的是，学习结果的准确率随n值增加而提升，在n值至少为21的时候，本发明的系统与现有技术的系统的学习结果的准确率几无二致。

对应地，在一些实施例中，若依据本发明的阶层式S型函数建构机器学习系统，采用随机梯度下降法运算90个时期。若以CIFAR10影像数据库作为此系统的训练样本来源(即为前述的该至少一原始数据)时，在n值(即该阶层式S型函数的定义域的分割数量)为1的时候，学习结果的准确率为13.74％；在n值为5的时候，学习结果的准确率为23.45％；在n值为11的时候，学习结果的准确率为49.91％；在n值为21的时候，学习结果的准确率为81.28％。应注意的是，学习结果的准确率随n值增加而提升，在n值至少为21的时候，本发明的系统的学习结果的准确率与现有技术系统差距较小。

可预期地，在n值更高的时候，本发明的系统的学习结果的准确率可接近于现有技术的系统。此外，依据学习结果的准确率随n值增加的变化趋势，可以理解，在n值提升至一定值以上时，本发明的系统的学习结果的准确率将趋于一固定值(亦即n值可被设定介于第一数值与第二数值间，例如：5～21之间)。

为了更好地理解上述内容，请参照图5A～图5C以及图6A～图6C。

图5A为根据本发明一实施例提供的原始影像的示意图。如图5A所示，六个物体的原始影像于图中呈纵向排列，该些原始影像是自前述的CIFAR10影像数据库当中所获取。该些物体的原始影像由上而下分别呈现汽车、狗、青蛙、汽车、青蛙、鸟。

图5B为根据现有技术提供的还原影像的示意图。应理解，图5B所示的两列还原影像对应于图5A的原始影像。图5B当中左列所呈现的为图5A的该些原始影像经现有的S型函数处理后，再根据S型函数的逆转函数还原后的影像。图5B当中右列所呈现的为图5A的该些原始影像经现有的线性整流函数处理后，再根据线性整流函数的逆转函数还原后的影像。如图5B所示，根据现有的激励函数处理再还原的影像可清楚辨识为如图5A所示的该些物体。

图5C为根据本发明一实施例提供的还原影像的示意图。应理解，图5C所示的还原影像对应于图5A的原始影像。图5C当中所呈现的四列影像皆为图5A的原始影像经本发明的阶层式S型函数处理后，再根据推导的逆转函数尝试还原的影像。于图5C当中，由左至右的四列影像分别对应阶层式S型函数当中n选取为3、5、11、21的还原影像。如图中所示，当n选取为21时，该些还原影像于视觉上仍难以辨识为原始影像(亦即，非可逆的)。而根据前述实施例，可知n选取为21时，本发明的学习结果的准确率可达81.28％。

图6A为根据本发明一实施例提供的原始影像的示意图。如图6A所示，多个手写数字的原始影像于图中呈纵向排列，该些原始影像是自前述的MNIST影像数据库当中所获取。该些数字的原始影像由上而下分别呈现数字2、数字5、数字2、数字8、数字7、数字4。

图6B为根据现有技术提供的还原影像的示意图。应理解，图6B所示的两列还原影像对应于图6A的原始影像。图6B当中左列所呈现的为图6A的该些原始影像经现有的S型函数处理后，再根据S型函数的逆转函数还原后的影像。图6B当中右列所呈现的为图6A的该些原始影像经现有的线性整流函数处理后，再根据线性整流函数的逆转函数还原后的影像。如图6B所示，根据现有的激励函数处理再还原的影像皆可清楚辨识为如图6A所示的该些数字。

图6C为根据本发明一实施例提供的还原影像的示意图。应理解，图6C所示的四列还原影像对应于图6A的原始影像。图6C当中所呈现的皆为图6A的该些原始影像经本发明的阶层式S型函数处理后，再根据推导的逆转函数尝试还原的影像。于图6C当中，由左至右的四列影像分别对应阶层式S型函数当中n选取为3、5、11、21的还原影像。如图中所示，当n选取为11时，该些还原影像于视觉上难以辨识为原始影像(亦即，非可逆的)。而根据前述实施例，可知n选取为11时，本发明的学习结果的准确率可达99.57％。

因此由上述实施例可知，在数据形态不同的两个实施例之间，n值的选取可影响学习结果准确率以及还原影像的可辨识程度。一般而言，以原始数据为影像数据为例，文字影像的内容复杂度相较于物体影像的内容复杂度为低。因此，当应用于文字影像时，选取的n值可能较低。对应地，当应用于物体影像时，选取的n值可能较高。是故，应理解，在一些实施例中，依据该至少一原始数据的数据形态的内容复杂度(例如文字影像或物体影像)的不同，本发明的阶层式非线性函数的n值的选取亦可不同。

应理解，在前述比较中，本发明的系统的学习结果相较于现有技术仍具有显著的准确率。然而，若现有技术的系统的元数据被获取，经由前述的逆转函数还原该元数据，其尝试还原的数据于视觉上将可有效地辨识为该至少一原始数据。相对地，若本发明的系统的元数据被获取，其尝试还原的数据于视觉上将难以有效地辨识为该至少一原始数据。亦即，前述比较说明了，本发明的系统在元数据难以还原的前提上，仍可实现显著的学习结果的准确率。

然而，应理解，前述实施例中虽以医院以及云端服务供应者为例说明本发明，然本发明并不以此为限，机器学习系统100的本地端110以及远端120可应用于其他网络服务架构中。

依据前述实施例，本发明提供了一种机器学习系统、机器学习方法以及其非暂态电脑可读媒体。通过将神经网络的不同分区分别指派于本地端或远端当中执行，可有效降低系统的运算成本。

另外，本发明亦可应用于多个本地端上，借此实现以同一远端连接多个本地端的运算服务模式，可提供一种并行且有效的机器学习架构。

应理解，在本发明的系统中，神经网络分为位于本地端的第一分区以及位于远端的第二分区，恶意第三方欲同时获取完整神经网络架构的难度较高。

此外，在本发明的系统中，若本地端传输至远端的过程中发生元数据外泄，或远端受到恶意第三方攻击而发生元数据外泄，承前所述，此元数据亦难以辨识。因此，本发明可有效地防止黑箱(black-box)攻击。

进一步地，在本发明的系统中，若本地端发生元数据外泄，且本地端的运算层权重亦同样被获知，获知者仅凭元数据仍无法完全还原出原始数据。因此，本发明亦可有效地防止白箱(white-box)攻击。

综上所述，本发明可在机敏数据受保密的前提下提供一种有效的机器学习系统、机器学习方法以及其非暂态电脑可读媒体。

虽然本发明以详细的实施例公开如上，然而本发明并不排除其他可行的实施方式。因此，本发明的保护范围当视权利要求所界定者为准，而非受于前述实施例的限制。

对本领域技术人员而言，在不脱离本发明的精神和范围内，当可对本发明作各种的变动与润饰。基于前述实施例，所有对本发明所作的变动与润饰，亦涵盖于本发明的保护范围内。

Claims

1.一种机器学习系统，其特征在于，包含：

一存储器，存储至少一指令；以及

一处理器，通信耦接于该存储器，其中该处理器用以存取并执行该至少一指令以：

输入一原始数据至一神经网络的一第一分区，其中该第一分区至少包含该神经网络当中的一激励函数层，该激励函数用以转换该原始数据为非可逆的一元数据，其中该元数据被用以传输至该神经网络的一第二分区以产生对应于该原始数据的一学习结果，

该激励函数为一阶层式非线性函数，且依据一分割数量该阶层式非线性函数的一定义域被分割为多个区间，该些区间各自于该阶层式非线性函数的一值域中对应一固定数值，该分割数量介于一第一数值与一第二数值间。

2.如权利要求1所述的机器学习系统，其特征在于，还包含：

一服务器，通信耦接于该处理器，其中该服务器用以接收该元数据，并将该元数据输入至该神经网络中接续于该第一分区的该第二分区以产生该学习结果。

3.如权利要求1所述的机器学习系统，其特征在于，该激励函数为该神经网络中次序为首的非线性激励函数。

4.如权利要求1所述的机器学习系统，其特征在于，该激励函数对应于一切分值，该切分值与该些区间的一数量具有一比值，该激励函数将比较一输入值以及该切分值以取得一比较结果，该激励函数依据该比值、该比较结果与该输入值产生该元数据。

5.如权利要求1所述的机器学习系统，其特征在于，该分割数量的大小对应于该原始数据的内容复杂度。

6.如权利要求1所述的机器学习系统，其特征在于，该第一分区包含一卷积层。

7.如权利要求1所述的机器学习系统，其特征在于，该第二分区包含一卷积层、一池化层以及一全连接层中的至少一者。

8.一种机器学习方法，由一处理器所执行，其特征在于，该机器学习方法包含：

输入一原始数据至一神经网络的一第一分区，其中该第一分区至少包含该神经网络当中的一激励函数，该激励函数用以转换该原始数据为非可逆的一元数据，其中该元数据被用以传输至该神经网络的一第二分区以产生对应于该原始数据的一学习结果，

9.如权利要求8所述的机器学习方法，其特征在于，还包含：

传输该元数据至一服务器；以及

该服务器接收该元数据，并将该元数据输入至该神经网络中接续于该第一分区的该第二分区以产生该学习结果。

10.如权利要求8所述的机器学习方法，其特征在于，该激励函数为该神经网络中次序为首的非线性激励函数。

11.如权利要求8所述的机器学习方法，其特征在于，该激励函数对应于一切分值，该切分值与该些区间的一数量具有一比值，该激励函数将比较一输入值以及该切分值以取得一比较结果，该激励函数依据该比值、该比较结果与该输入值产生该元数据。

12.如权利要求8所述的机器学习方法，其特征在于，该分割数量的大小对应于该原始数据的内容复杂度。

13.如权利要求8所述的机器学习方法，其特征在于，该第一分区还包含一卷积层。

14.如权利要求8所述的机器学习方法，其特征在于，该第二分区包含一卷积层、一池化层以及一全连接层中的至少一者。

15.一种非暂态电脑可读取媒体，关联于至少一指令以界定一机器学习方法，其特征在于，该机器学习方法包含：

16.如权利要求15所述的非暂态电脑可读取媒体，其特征在于，该机器学习方法还包含：

传输该元数据至一服务器；以及