CN117332877A

CN117332877A - 数据读取和写入的机器学习优化

Info

Publication number: CN117332877A
Application number: CN202311344889.0A
Authority: CN
Inventors: I·A·斯蒂芬诺维茨; B·C·汤姆森; A·L·冈特; A·I·T·罗斯特伦; R·S·B·诺沃津
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2017-10-17
Filing date: 2018-10-10
Publication date: 2024-01-02
Also published as: US20210224355A1; US12019705B2; WO2019079076A1; EP3698476A1; US20190114307A1; US10970363B2; CN111213320B; CN111213320A; EP3698476B1

Abstract

本公开涉及数据读取和写入的机器学习优化。公开了与读取所存储的数据相关的示例。方法包括：获得对数据存储介质执行的测量的表示，表示基于以一个布局被编码在数据存储介质中的先前记录的数据模式，该布局限定多个数据位置。方法还包括：将表示输入到数据译码器中，数据译码器包括经训练的机器学习功能；以及针对布局的每个数据位置，从数据译码器获得多个概率值，其中每个概率值与对应数据值相关联，并且表示对应数据值与布局中的相同位置处的先前记录的数据模式中的实际数据值相匹配的概率。

Description

数据读取和写入的机器学习优化

本申请是申请日为2018年10月10日、申请号为201880066754.3、发明名称为“数据读取和写入的机器学习优化”的中国发明专利申请的分案申请。

背景技术

数字数据的大容量存储依赖于在数据存储介质内将数据转换成持久的物理扰动或状态变化。相反，从数据存储介质中取回先前存储的数据需要探测介质以检测扰动。可适用于高吞吐量、高密度数据存储的扰动包括例如介质的磁性质或光学性质的局部变化。然而，用于存储和取回数据的转导过程可能受到干扰。

发明内容

公开了与读取所存储的数据相关的示例。方法包括：获得对数据存储介质执行的测量的表示，该表示基于以一个布局被编码在数据存储介质中的先前记录的数据模式，该布局限定多个数据位置。方法还包括：将表示输入到数据译码器中，数据译码器包括经训练的机器学习功能；以及针对布局的每个数据位置，从数据译码器获得多个概率值，其中每个概率值与对应数据值相关联，并且表示对应数据值与布局中的相同位置处的先前记录的数据模式中的实际数据值相匹配的概率。

提供本发明内容以按照简化形式介绍对构思的选择，下文在具体实施方式中进一步描述这些构思。本发明内容既不旨在标识所要求保护的主题的关键特征或者本质特征，也不旨在用于限制所要求保护的主题的范围。此外，所要求保护的主题不限于解决在本公开的任何部分中提到的任何或所有缺点的实现。

附图说明

图1示出了示例数据存储和取回系统的各个方面。

图2示出了示例光学数据存储和取回系统的各个方面。

图3图示了用于对来自分析器相机图像集合的光学存储数据进行译码的比较规范的方法。

图4示出了用于对来自分析器相机图像集合的光学存储数据进行译码的示例卷积神经网络的各个方面。

图5图示了用于对被存储在数据存储介质上的数据进行译码的示例方法。

图6图示了用于将数据编码到数据存储介质上的示例方法。

图7示出了示例计算系统的框图。

具体实施方式

本公开通过示例并参考上文列出的附图来呈现。在各图中的一者或多者中可以基本上相同的组件、过程步骤和其他元件被协调地标识，并且以最少的重复进行描述。然而，应注意，经协调标识的元件也可以在一定程度上不同。应进一步注意，各图是示意性的且一般来说并未按比例绘制。相反，图中所示的各种绘制比例、纵横比和组件的数量可能会被有意地变形，以使得更容易看到某些特征或关系。

机器学习可以用于优化(1)数据在数据存储介质中被编码的过程以及(2)先前存储的数据从数据存储介质中被译码(即，读取或取回)的过程。这些优化可以分别或同时进行。换言之，译码过程的优化可以通过编码过程的任何优化来获知或与编码过程的任何优化无关。本文中所公开的机器学习方法提供了优于规范方法的优点，由此可观察到的物理性质通过一个或多个中间物连接到从数据存储介质读取或写入数据存储介质的数据。

图1示出了示例数据存储和取回系统10的各个方面。所图示的系统是能够进行数据存储和数据取回操作的集成式读写系统。如下文进一步详细地描述的，系统10可以被实施为5D光学存储和取回系统。然而，还设想了各种其他数据存储和取回技术。例如，能够进行读取操作和写入操作二者，系统10可以是数据服务器的组件。根据本公开的其他系统可以是只读或只写的，并且互补的写入过程或读取过程可以在远程系统上进行。作为示例，只读系统可以是个人计算机或游戏系统的组件，并且只写系统可以用于媒体内容的分布。

系统10包括可以或可以不从系统移除的物理数据存储介质12。在所图示的示例中，数据存储介质采用盘的形式，但此方面不是必要的。数据存储介质的备选几何形式包括条带和平板。

系统10被配置为接收数字数据的写入流14并释放数字数据的读取流16。来自写入流的数据可以在被写入数据存储介质之前被缓冲在写入缓冲器18中。相反，从数据存储介质读取的数据可以在被释放到读取流中之前被缓冲在读取缓冲器20中。

系统10的编码器22被配置为进行逻辑编码操作，该逻辑编码操作将缓冲的数据转换为由写入头24接收的控制信号。写入头包括硬件配置，该硬件配置基于控制信号将数据物理地写入数据存储介质12。同样，读取头26包括硬件配置，该硬件配置物理地探测数据存储介质以感测由先前的写入操作所引起的扰动。在这样做时，读取头生成在数据译码器28中接收到的感测信号。数据译码器被配置为进行逻辑译码操作，该逻辑译码操作将来自读取头的感测信号转换回先前存储的数据。写入控制器30和读取控制器32分别向编码器和写入头供应适当的写入参数，并且向数据译码器和读取头供应适当的读取参数。在一些实现中，控制器30和32可以被组合。

由控制器30供应的一些写入参数可以限定数据存储介质12的局部数据存储位置的配置。特定地，数据存储位置可以被布置在一个或多个相互平行的层中，这些层经由介质的深度(例如在垂直于介质读取/写入表面的方向上)间隔开。写入参数可以指定层数、每一层的深度和/或任何层内的数据存储位置的详细布置。以这种方式，写入参数可以限定数据存储位置的密度，此密度可以或可以不是各向同性的。数据存储位置的密度可以变化，例如以便优化写入或读取操作或端到端读写性能的某些方面。作为示例，要被优化的方面可以包括读写精度、可靠可读的存储数据的密度和/或写入或读取吞吐量。

一些写入参数和读取参数可以是实现特定的。例如，控制磁带上的数据存储的特定参数将不同于与光学(例如全息)存储介质一起使用的参数。因此，现在将参考图2描述数据存储和取回系统10的更特别变型。根据该示例，写入和读取参数的示例性范围及其优化将被更好地理解。

图2示出了示例光学数据存储和取回系统10A的各个方面。系统10A被配置为写入和存储光学存储介质12A上的数据。光学存储介质可以在一个示例与下一个示例之间不同，但通常包括固体介电基板。在一些示例中，基板可以是聚合物。在其他示例中，基板可以是无机玻璃，诸如石英玻璃。在一些示例中，基板可以采取相对较薄的层(例如30微米至300微米厚)的形式，其被耦合至光学存储介质的机械稳定的支撑层。

高功率短脉冲激光辐照度用于在光学存储介质12A上写入和存储数据。辐照度在其焦点处诱发光学存储介质内的长寿命或永久性结构和光学扰动。扰动是由基板的非线性(例如双光子)吸收引起的。在一些情况下，具有光栅状光学性质的纳米级3D结构在辐照度的焦点处被形成。术语“体元(voxel)”在本文中被用来指代单独数据存储位置，该单独数据存储位置包括光学存储介质12A内的此诱发扰动或另一诱发扰动。

体元可以存储呈许多不同形式的数据。原则上，光学存储介质12A的基板的任何米勒矩阵系数可以被操纵，并且被用于对数据进行编码。在更特别的示例中，被写入光学存储介质中的体元可以被建模为延迟(retardance)δd和慢轴定向的波片。慢轴定向和延迟(被统称为“双折射”)均可以进行调制以对数据进行编码。当这种体元由偏振激光束写入时，光束的偏振角度决定了波片光栅的定向/>而光束的强度决定了光栅的强度，并且因此决定了延迟δd。这种类型的光学数据存储也被称为‘5D光学存储’。

通过将可实现的慢轴定向和延迟的连续空间划分为离散间隔，多比特(multi-bit)数据值可以被编码于每个体元中——即，通过将该体元的双折射独立地支配于离散间隔中的一个内。以这种方式，每个体元可以在Q个不同偏振角度中的每一个处对R个不同延迟状态中的一种进行编码。此外，体元结构的许多平行层可以通过将激光辐照度聚焦到光学存储介质12A的经辐照表面下方的指定深度，而在光学存储介质内被独立地写入。为了使用这种方法实现可接受的高写入速度，被用于写入数据的激光束可以被分成多个独立调制的体元大小的写入光束，使得对应的多个体元可以被同时写入。

为了实现同时写入，系统10A的写入头24A可以包括可电子寻址的空间光调制器(SLM)34，其被操作地耦合至编码器22和写入控制器30。编码器向SLM提供数字地限定全息投影的电子信号；全息投影由写入光束的平行2D阵列又译为数组(array)组成，每个光束具有可控制的相位和强度。每个光束被映射至光学存储介质12A的对应体元。应注意，全息图像素到写入光束(即，体元)的映射不一定是1:1映射，而是可以为2:1、4:1或10:1以及其他合适的映射。

如上文提到的，来自SLM 34的全息投影对要被写入光学存储介质12A中的数据模式进行编码并携载该数据模式。在一些示例中，实际上可达到的写入光束的数量约为SLM上的像素数量的四分之一。例如，利用约1000万个SLM像素，一百万个或更多个子光束可以被形成。此外，写入光束的阵列可以以SLM的完全刷新速率被重新配置。采用向列液晶的SLM具有每秒100帧量级的刷新速率。

在图2中，SLM 34的辐照源是呈飞秒脉冲激光器36形式的高功率激光器。在一些实现中，激光器可以是调Q(Q-switched)和锁模(mode-locked)中的一者或多者，以提供非常短的极高能量脉冲。来自激光器的辐照度可以包括亚纳秒光子脉冲的重复脉冲串——例如持续时间例如为数十至数百飞秒。还设想了其他形式的激光辐照度。

在一些实现中，SLM 34的像素位置的阵列可以被聚集为多个不重叠或边缘重叠的全息区域，其按顺序被暴露于激光器36的输出光束。每个全息区域可以是任何期望形状的二维区域——例如矩形、楔形、环形等。因此，系统10A的SLM 34被机械地耦合至扫描台38，该扫描台38被配置为改变激光器相对于SLM的相对位置。以这种方式，SLM的每个全息区域可以顺序地被辐照。扫描台可以是可平移的和/或可旋转的，并且每次SLM被寻址时，扫描台可以前进多次(4、9、16次等)。该方法有效地将SLM的时间带宽倍增到其最大刷新速率之外。不论SLM 34和相关组件的益处如何，也可以设想采用串行写入头的备选写入方法。

在数据将被写入光学存储介质12A的多个层的示例中，写入头22A可以包括可调节物镜系统40。可调节物镜系统被配置为将SLM的写入光束的辐照度聚焦在光学存储介质的任何所选择的深度层上。

系统10A的读取头26A包括偏振光学探头42和分析器相机44。偏振光学探头可以包括低功率二极管激光器或其他平面偏振光源。读取控制器32被操作地耦合到偏振光学探头并且被配置为控制偏振光学探头的发射的偏振平面的角度。

分析器相机44可以包括高分辨率/高帧率CMOS或其他合适的光电检测器阵列。分析器相机被配置为在来自偏振光学探头42的光已经与光学存储介质12A的体元相互作用之后对此光进行成像。尽管图2示出了偏振光线通过介质并到达相机的透射，但在备选配置中，光线可以通过来自介质的反射而到达相机。

由分析器相机44获取的每个图像帧可以包括同时或快速连续地捕获到的多个分量图像。分析器相机可以在分量图像的对应像素阵列中解析不同偏振平面中的局部强度。为此，分析器相机可以包括例如呈液晶延迟器或普克尔斯盒(Pockels cell)的形式的可切换或可调谐偏振控件。

在一个特定示例中，当偏振光学探头42通过四个不同偏振角度被旋转时，光学存储介质12A的每个目标部分的四个图像由分析器相机依次获取。此过程类似于测量多维向量的基础向量，其中此处的“向量”捕获所成像目标部分的体元的双折射性质。在一些示例中，背景图像也被获取，其捕获了分量图像中的与样本无关的偏振噪声的分布。

在数据要从光学存储介质12A的多个层被读取的示例中，读取头26A可以包括可调节采集透镜系统46。可调节采集透镜系统可以采集从光学存储介质的所选择的深度层衍射的光线，并且拒绝其他光线。在其他实现中，基于干涉量度法的无透镜成像可以被采用。

在此处所图示的示例中，数据译码器28被配置为从分析器相机44接收分量图像，并且进行取回被存储在光学存储介质12A中的数据所需的图像处理。如上文提到的，这种数据可以根据规范方法而被译码，在规范方法中，可观察的物理性质通过一个或多个中间物与从数据存储介质读取或写入数据存储介质的数据连接。然而，与本文中所描述的基于机器学习的方法相比，该方法可以造成各种缺点。下文参考图3的50处所图示的示例规范方法图示了这种缺点。

在规范方法50的52中，试图读取的一个或多个体元位于来自分析器相机44的共同配准的分量图像中。为了定位这些体元，适合于读取头26A的几何相机模型被采用。几何相机模型基于读取头26A的各种度量，并且被假定为管控光学存储介质12A的每个体元到共同配准的分量图像的对应位点(locus)的映射。相机模型可以包含固定且可调节的参数，诸如可调节采集透镜系统46的光焦度(power)以及分析器相机轴线相对于光学存储介质的对准。

在方法50的54处，与感兴趣体元相对应的分量图像的所标识的部分在数据译码器28中被处理，以便提取每个体元的慢轴角度和延迟值。在减去背景之后，在每个共同配准的像素位置处求解方程组的图像处理算法被应用于四个分量图像。该算法的乘积是合成图像对：表示相位位移(例如以纳米为单位)的一个延迟图像以及表示偏振角度相对于偏振光学探头42的偏振角度的旋转(以度为单位)的一个方位图像。在这种方法中，合成图像对的质量高度取决于背景图像的选择方式(其可能有些主观)并且取决于供应给偏振光学探头和分析器相机的读取参数。

在方法50的56处，上面计算的慢轴和延迟值被进一步处理，以便取回先前写入感兴趣体元的多比特数据。为此，使比特值与慢轴角度和延迟相关的数据模型被调用。通常应用于此问题的数据模型可能依赖于简单的信号处理，可能不稳健，并且可能容易出错和受到干扰。作为示例，这种误差可以从延迟和慢轴角度输出的结果方差得出以及从系统中的噪声(这种噪声随体元层的数量和每一层的体元密度而累积)得出。附加噪声来自光学系统的有限景深(其可能会使分量图像中的给定体元的形状和大小变形，这取决于体元的哪个部分自上而下聚焦)。

鉴于前述分析，可以看出，将图像数据译码为多比特数据值的规范方法50容易出错，并且可以看出，该误差受到对端到端数据存储和取回操作的各种写入和读取参数的选择的影响。如果在开头就知道优化的参数，那么规范译码方法50可能是合适的。这同样可以适用于互补规范编码方法，该方法将要存储的比特值映射到中间慢轴角度以及延迟和值，然后基于几何相机模型将其写入假定的体元位置。然而，这种方法不容易告知优化与数据存储和取回相关联的许多写入和读取参数的过程。实际上，参数相关的误差被附加到规范方法的每个处理步骤。因为该误差对写入和读取参数的依赖性通常是非线性的，所以可能难以将误差的传播进行建模，这对于根据试验参数预测任何性能度量将是必要的。

鉴于前述内容，图4图示了卷积神经网络(CNN)58，作为对图3的规范方法的示例机器学习备选方案的基础。利用CNN 58，所存储的数据在不具有任何中间度量(诸如特定体元的双折射)的显式计算的情况下从分量图像数据中被译码。相反，来自分析器相机44的图像数据在CNN 58的输入层60处被接收。所接收到的图像数据在一系列隐藏层62中的每一个中连续变换。每个隐藏层(例如62A、62Z)包括被称为‘神经元’的逻辑构造的阵列。每个神经元从上一层的神经元接收其输入，对输入进行逻辑运算，并且将输出传递到下一层的神经元。

与通用神经网络的神经元相比，CNN 58的神经元仅从神经元的正上方接收输入，并且在一些示例中从近邻神经元接收输入。此特征反映了以下事实：光学存储介质12A的体元基本上(如果不完美)被定位在每个图像帧中。

在CNN 58的隐藏层62间的是一个或多个卷积层或过滤层。卷积层中的每个神经元通过计算其输入向量与相同维度的过滤器向量之间的点积来实现其过滤操作。每个过滤器向量的元素是被称为“过滤权重”的可调节参数。在机器学习CNN实现中，过滤权重以闭环方式被自动优化，从而使CNN收敛到作为输入而提供的给定训练图像的给定已知解决方案。为了利于反向传播，由每个神经元进行的过滤和其他逻辑功能可能被要求关于每个相关联的过滤权重是可区分的。在一些示例中，每个神经元可以包括被配置为计算其自身的导数的逻辑。这种导数可以用于参数优化过程中，诸如“最速下降”方法等。

CNN 58可以包含被布置在多个隐藏层62中的大量过滤器。与通用神经网络相比，在每个神经元的过滤器向量被独立地优化的情况下，对于给定卷积层的每个体元对应位点，CNN 58中的过滤器向量都被约束为相同的。该特征识别体元之间的固有图像相似度。

在CNN 58中，输出层66的每个神经元提供标记概率数组68。附加到数组元素上的标签跨越可以被存储在分类至该神经元的体元中的所有可能的数据值。在图4中所图示的示例中，对于每个体元存在八个可能的数据值i(例如对于四个慢轴角度中的每一个存在两个延迟值)。数组元素P_i表示体元包含与标签i相匹配的数据的概率。因此，每个概率数组中的所有元素之和为1。较短比特值和较长比特值也被设想。

与基于计算得到的中间物来分配多比特数据值的规范算法相比，在机器学习算法内执行的CNN 58学习如何有效地将未经处理的分量图像直接解析为适当的输出类别。这在不具有预先设计的过滤器、特征选择或预处理的情况下发生——这很可能会由于不正确的假定或偏差而降低分类的最优性。如上文提到的，过滤器通过反向传播的过程在训练阶段期间被学习。如果在训练阶段有足够数量的标记数据可用，那么CNN可以潜在地学习处理体元几何形状中的噪声和/或失真。另外，对于输入层处的分量图像中的平移移位，CNN本质上是不变的，从而对各种分量图像(训练和操作)之间的方差和偏移提供了容忍度。

用于机器学习模型的训练数据可以包括在实际数据存储介质(例如与已知地面实况数据数组相对应的测试标准)上进行的测量以及基于对读取过程的物理特性的模拟(例如射线追踪模拟)的合成数据。使用任一种方法，CNN 58可以在与偏振光学探头42和分析器相机44的不同偏振平面设置相对应的图像上被训练。这些设置的优化可以被视为各种基础向量之间的选择——这些基础向量中的任一者将跨越体元的双折射空间，但可能存在不同的非理想因素和对噪声的曝光。通过在CNN 58中进行反向传播，越来越多的理想且耐噪声的基础向量在其上收敛。因此，最终基础是以可能的最少数量的测量(例如最少的分量图像、偏振器/分析器设置等)以最佳方式提取最大信息的基础。

如上所述，虽然CNN 58可以提供各种优点，但在其他示例中，数据译码器28可以采用其他机器学习模型和策略。作为示例，数据译码器可以采用自动编码器、决策森林或支持向量机。另外，虽然管控数据的编码和译码二者的端到端机器学习方法可能是期望的，但在每个示例中，机器学习的使用并不一定排除了人为设计的特征选择。也并不一定排除了如应用于写入和/或读取操作的一些方面的预处理或数据调节。

上述配置支持用于存储和取回数据、用于对数据进行编码和译码、用于训练CNN或其他机器学习功能以对数据进行译码以及用于优化用于数据存储和取回的各种读取和写入参数的各种方法。因此，现在继续参考以上配置来描述示例方法。然而，应理解，此处所描述的方法以及在本公开的范围内的其他方法也可以与其他配置一起使用(诸如那些采用其他机器学习功能、优化机器等的方法)。本质上，方法的每次执行可以改变用于后续执行的进入条件，从而调用复杂的决策逻辑。这种逻辑在本文中被完全地考虑。

图5图示了用于从数据存储介质读取先前存储的数据的示例方法70。在方法70的72处，对数据存储介质执行的测量的表示被获得。该表示基于或响应于在限定多个数据位置的布局中在数据存储介质中编码的先前记录的数据模式(即，表示先前记录的数据模式的读取)。该表示中的数据位置的2D布局(例如图像)可以映射到数据存储介质中的数据存储位置的物理配置，在一些示例中，该物理配置可以是3D的。例如，数据存储位置的配置可以包括单个层或深度不同的多个层。在一些示例中，介质的每个层的数据存储位置规则地间隔开。在其他示例中，间隔可以是不同的。为了获得表示，数据存储介质的多个数据位置可以被主动探测。

探测多个数据位置的方式基于系统中采用的数据存储模式。例如，利用5D光学存储，在数据存储介质包括光学存储介质(例如石英玻璃)的情况下，探测数据位置的动作可以包括设置偏振光学探头的偏振态，然后其被用于辐照介质的数据位置。在一些示例中，辐照数据位置可以包括将辐照度聚焦在数据位置层上，该层是数据存储介质的多个层中的一者。在该示例中，该表示采用一个或多个分量图像的形式，并且通过在施加光学探头辐照度的同时对数据存储介质进行成像来获取。对数据存储介质进行成像可以包括检测来自光学探头的、通过数据存储介质透射或由数据存储介质反射的光。

在其他实现中，数据存储介质可以是磁存储介质，其通过在介质的表面上将导体光栅化并且同时测量在导体中诱发的电流来进行探测。在其他实现中，数据存储介质可以包括在两种或更多种核自旋态或电子自旋态中稳定的材料，该材料在材料的小体积元素内独立地可切换。例如，这种介质可以使用磁共振成像来探测。

在方法70的74处，测量的表示被输入到执行经训练的机器学习功能的数据译码器。在一些示例中，机器学习功能可以包括CNN。在其他示例中，作为示例，机器学习功能可以包括任何其他合适的机器学习功能，诸如自动编码器，决策森林或支持向量机。在一些示例中，如下文进一步描述的，数据译码器的机器学习功能可以使用关于一个或多个数据存储参数和/或数据译码参数而不同的多个训练数据集来训练。这样做时，机器学习功能可以在扫描一个或多个参数以在数据存储介质上存储和取回先前记录的数据模式时被反复地评估。

在76，测量的表示经由数据译码器而被译码。数据译码器的机器学习功能可以被训练，以基于表示将概率数组与每个数据存储位置相关联。在表示包括图像数据的实现中，概率数组可以基于图像数据。

在78，因此，针对布局的每个数据位置，概率值的数组从数据译码器被获得。数组中的每个概率值标记有对应数据值，并且表示对应的数据值与布局中的相同位置处的先前记录的数据模式中的实际数据值相匹配的概率。在5D光学存储示例中，每个对应数据值可以区分位于数据存储介质的体元局部的双折射值。更特别地，每个可能的数据值可以区分慢轴角度和延迟值中的一个或多个。例如，每个可能的数据值可以从三个或更多个慢轴角度以及针对每个角度的两个或更多个延迟值中进行区分。

在方法70的80，针对每个数据存储位置，对应数据值中的一者被选择进行输出。选择可以基于与该数据位置相关联的概率数组的概率值(即，元素)之间的比较。例如，与最高概率相对应的数据值可以被选择以供输出。

图6图示了用于数据存储和取回系统中的端到端训练和参数优化的示例方法82。然而，应理解，所图示的方法的各个方面也可适用于更有限的训练场景——例如，可适用于只读系统中的数据译码器的训练。

在方法82的84，适用于训练数据译码器的机器学习功能的训练集被获得。每个训练集可以包括一系列测试数据表示。如上文提到的，两种不同种类的训练集被设想：由系统在读取标准存储介质时创建的真实数据集以及不与任何有形存储介质相关联的模拟数据集。任一种类的训练集都与地面实况数据数组(训练集表示的数据)相关联以及与写入参数和/或读取参数的特定集合相关联。在来自标准存储介质的真实数据的情况下，相关联的参数是用于写入标准存储介质并用于获取每个测试数据表示的实际参数。在模拟数据的情况下，相关联的参数是在模拟中假设的参数。在5D光学存储的特定示例中，每个训练集包括图像数据。这种图像数据可以从读取标准光学存储介质中得出，或可以使用射线追踪程序被合成地创建。

在86，训练集使用被配置为执行呈CNN形式的机器学习功能的译码器来进行译码。如上文所描述，CNN采用各种过滤器向量并且返回标记概率数组。在88，参考与当前训练集相对应的地面实况数据向量，CNN的过滤器向量经由反向传播被细化。在当前训练集的过滤器向量被细化之后，在90，对来自当前数据集的数据进行译码的可靠性使用细化的过滤器向量被评估。

一般而言，从CNN输出的标记概率数组被用来评估可靠性。在一些示例中，评估可靠性包括将译码数据与对应地面实况值进行比较。译码例如在与最高概率元素相对应的标签与对应地面实况值相匹配的程度上可以是可靠的。在其他示例中，评估可靠性包括将标记概率数组中的每个元素的概率值相互比较。例如，可靠性可以基于最高概率的元素超过数组中的下一最高概率值的元素的程度而被评估。

由于在方法82中，数据译码器中采用的各种过滤器向量已经在这一点上进行了细化，因此在90处评估的可靠性是用于对在写入和读取操作中使用的各种可调节参数进行排名的合适的品质因数。在一些示例中，第一训练集和后续训练集可以关于数据存储介质的布局和3D配置而不同。在一些示例中，第一训练集和后续训练集可以关于用于对数据进行编码的写入光束的一个或多个性质而不同。这种性质可以包括写入光束强度、偏振和/或波长。在一些示例中，第一训练集和后续训练集可以关于读取光束性质(诸如偏振光学探头的偏振态)而不同。

因此，方法82现在返回至后续训练集被获得的84。后续训练集是具有与已经评估的训练集不同的写入参数或读取参数的训练集。因此，通过遍历整个写入和读取参数空间，优化的参数值可以在92处被标识。应注意，数据译码可靠性不是可以用于优化写入和读取参数的唯一品质因数。其他品质因数将例如性能因子包括进来作为数据存储密度、数据写入带宽、数据读取带宽。在一些示例中，两个或更多个品质因数可以按照协定和/或闭环方式被优化。因此，在84处获得的后续训练数据集可以包括训练数据集，该训练数据集具有经过调整的数据写入参数配置，从而增加了品质因数(即，数据写入和/或数据读取性能的度量)。以这种方式，在方法82中被优化的数据写入和数据读取参数配置可以进一步基于数据写入或数据读取性能的任何合适的度量或其任何组合来选择。

在94，在参数优化被实现之后，优化的写入参数可以被用来对附加数据进行编码，然后该附加数据可以使用优化的读取参数来读取。

本文中所描述的方法和过程可以与一个或多个计算设备的计算系统联系在一起。特别地，这种方法和过程可以被实现为计算机应用程序或服务、应用编程接口(API)、库和/或其他计算机程序产品。

图7示意性地示出了可以进行上述方法和过程中的一者或多者的计算系统96的非限制性实施例。计算系统96以简化形式被示出。计算系统96可以采取一个或多个台式或服务器计算机和/或专用电子控制器的形式。编码器22、译码器28以及控制器30和32是计算系统96的示例。

计算系统96包括逻辑处理器98、易失性存储器100以及非易失性存储设备102。计算系统96可以可选地包括显示子系统104、输入子系统106、通信子系统108和/或在图7中未示出的其他组件。

逻辑处理器98包括被配置为执行指令的一个或多个物理设备。例如，逻辑处理器可以被配置为执行作为一个或多个应用、程序、例程、库、对象、组件、数据结构或其他逻辑构造的一部分的指令。这种指令可以被实现以执行任务，实现数据类型，变换一个或多个组件的状态，实现技术效果或以其他方式达到期望结果。

逻辑处理器可以包括被配置为执行软件指令的一个或多个物理处理器(硬件)。附加地或备选地，逻辑处理器可以包括一个或多个硬件逻辑电路或固件设备，其被配置为执行硬件实现的逻辑或固件指令。逻辑处理器98的处理器可以是单核的或多核的，并且在处理器上执行的指令可以被配置为用于顺序、并行和/或分布处理。逻辑处理器的单独组件可选地可以分布在两个或更多个分离设备之间，该两个或更多个分离设备可以远程定位和/或被配置为用于协调处理。逻辑处理器的各个方面可以由以云计算配置进行配置的可远程访问的联网计算设备虚拟化并执行。在这种情况下，这些虚拟化方面在各种不同机器的不同物理逻辑处理器上运行，这应被理解。

非易失性存储设备102包括一个或多个物理设备，该物理设备被配置为保存由逻辑处理器可执行以实现本文中所描述的方法和过程的指令。当这种方法和过程被实现时，非易失性存储设备100的状态可以被变换——例如以保存不同数据。

非易失性存储设备102可以包括可移除和/或内置的物理设备。非易失性存储设备102可以包括光学存储器(例如CD、DVD、HD-DVD、蓝光光盘等)、半导体存储器(例如ROM、EPROM、EEPROM、闪速存储器等)和/或磁存储器(例如硬盘驱动器、软盘驱动器、磁带驱动器、MRAM等)或其他大容量存储设备技术。非易失性存储设备102可以包括非易失性、动态、静态、读/写、只读、顺序访问、位置可寻址、文件可寻址和/或内容可寻址设备。应了解，即使当非易失性存储设备102断电时，非易失性存储设备102也被配置为保存指令。

易失性存储器100可以包括物理设备，该物理设备包括随机存取存储器。易失性存储器100通常由逻辑处理器98用来在软件指令的处理期间暂时地存储信息。应了解，当易失性存储器100断电时，易失性存储器100通常不继续存储指令。

逻辑处理器98、易失性存储器100和非易失性存储设备102的各个方面可以一起被集成到一个或多个硬件逻辑组件中。这种硬件逻辑组件可以包括例如现场可编程门阵列(FPGA)、程序特定和专用集成电路(PASIC/ASIC)、程序特定和应用特定标准产品(PSSP/ASSP)、片上系统(SOC)以及复杂的可编程逻辑设备(CPLD)。

显示子系统104在被包括时可以用于呈现由非易失性存储设备102保存的数据的视觉表示。视觉表示可以采取图形用户界面(GUI)的形式。由于本文中所描述的方法和过程改变了由非易失性存储设备保存的数据，且因此变换了非易失性存储设备的状态，因此显示子系统104的状态同样可以被变换来以可视方式表示基础数据的变化。显示子系统104可以包括实际上利用任何类型的技术的一个或多个显示设备。这种显示设备可以与逻辑处理器98、易失性存储器100和/或非易失性存储设备102被组合在共享外壳中，或这种显示设备可以是外围显示设备。

输入子系统106在被包括时可以包括一个或多个用户输入设备(诸如键盘、鼠标、触摸屏等)或与一个或多个用户输入设备交互。通信子系统108在被包括时可以被配置为将本文中所描述的各种计算设备彼此通信地耦合以及与其他设备通信地耦合。通信子系统108可以包括与一个或多个不同通信协议兼容的有线和/或无线通信设备。作为非限制性示例，通信子系统可以被配置为通过Wi-Fi连接经由无线电话网络或有线或无线局域网或广域网(诸如HDMI)进行通信。在一些实施例中，通信子系统可以允许计算系统96经由网络(诸如互联网)向其他设备发送消息和/或从其他设备接收消息。

本公开的一个方面涉及一种在计算设备上进行的用于读取所存储的数据的方法。该方法包括：获得对数据存储介质执行的测量的表示，该表示基于以一个布局被编码在数据存储介质中的先前记录的数据模式，该布局限定多个数据位置；将表示输入到数据译码器中，数据译码器包括经训练的机器学习功能；以及针对布局的每个数据位置，从数据译码器获得多个概率值，每个概率值具有对应数据值，并且表示对应数据值与布局中的相同位置处的先前记录的数据模式中的实际数据值相匹配的概率。

在一些实现中，该方法还包括：针对每个数据存储位置，基于与该数据位置相关联的多个概率值来选择对应数据值中的一个对应数据值以用于输出。在一些实现中，获得测量的表示包括：探测数据存储介质的多个数据位置以获取表示。在一些实现中，数据存储介质包括光学存储介质，表示包括图像，每个对应数据值关于双折射值而不同，并且探测多个数据存储位置包括：用预定偏振态的光束辐照数据存储位置。在一些实现中，机器学习功能包括卷积神经网络。在一些实现中，布局映射至数据存储介质的一个或多个层的物理配置。在一些实现中，机器学习功能被使用关于一个或多个数据存储参数而不同的多个训练数据集进行训练，并且在设置一个或多个数据存储参数以用于先前记录的数据模式在数据存储介质上的存储时被迭代评估。

本公开的另一方面涉及一种在计算设备上进行的用于从光学存储介质光学地读取先前存储的数据的方法。该方法包括：设置光学探头的偏振态；用光学探头辐照光学存储介质的多个存储位置并同时对数据存储介质进行成像以获取先前存储的数据的表示图像，该表示图像包括与光学存储介质的多个存储位置相对应的多个数据位置；以及经由数据译码器对表示图形进行译码，该数据译码器包括机器学习功能，该机器学习功能被训练为基于表示图像将概率数组与每个数据存储位置相关联，其中概率数组中的每个元素与可能的数据值相对应并且表示相关联的数据存储位置的先前存储的数据与可能的数据值相匹配的概率。

在一些实现中，对数据存储介质进行成像包括检测来自光学探头的通过光学存储介质透射的光。在一些实现中，每个可能的数据值区分慢轴角度和延迟值中的一个或多个。在一些实现中，每个可能的数据值从三个或更多个慢轴角度中进行区分。在一些实现中，光学存储介质包括石英玻璃介质。在一些实现中，辐照多个数据存储位置包括将辐照度聚焦在数据存储位置层上，该层是光学存储介质的数据存储位置的多个层中的一个层。

本公开的另一方面涉及一种在计算设备上进行的用于在数据存储介质上对数据进行编码的方法。该方法包括：获得用于训练数据译码器的第一训练数据集，该第一训练数据集与第一数据写入参数配置相对应；使用第一训练数据集和对应地面实况数据，训练数据译码器的机器学习功能以对用第一数据写入参数配置写入的数据进行译码，机器学习功能输出与第一训练数据集相对应的标记概率数组；获得第二训练数据集以训练数据译码器，该第二训练数据集与第二数据写入参数配置相对应；使用第二训练数据集和对应地面实况数据，训练数据译码器的机器学习功能以对用第二数据写入参数配置写入的数据进行译码，机器学习功能输出与第二训练数据集相对应的标记概率数组；基于标记概率数组来评估对用第一数据写入参数配置写入的数据进行译码的可靠性和对用第二数据写入参数配置写入的数据进行译码的可靠性；基于所评估的对至少第一训练数据集和第二训练数据集进行译码的可靠性来选择第一数据写入参数配置或第二数据写入参数配置中的一者；并且使用第一数据写入参数配置或第二数据写入参数配置中的所选择的一者将数据写入数据存储介质。

在一些实现中，第一数据写入参数配置或第二数据写入参数配置中的一者进一步基于数据写入性能的度量而被选择，并且获得第二训练数据集包括在数据写入参数配置被调整的情况下获得训练数据集，以便增加数据写入性能的度量。在一些实现中，第一训练数据集和第二训练数据集关于布局而不同。在一些实现中，数据存储介质包括光学存储介质，第一训练数据集和第二训练数据集包括图像，标记概率数组中的每个元素与可能的数据值相对应，并且数据使用光学写入光束进行编码。在一些实现中，第一训练数据集和第二训练数据集关于写入光束的一个或多个性质而不同，该写入光束用于对数据进行编码，相应第一训练数据集或第二训练数据集从此数据被获得。在一些实现中，获得第一训练数据集和第二训练数据集包括用读取光束探测数据存储介质并且同时对数据存储介质进行成像，并且第一训练数据集和第二训练数据集关于读取光束性质而不同。在一些实现中，评估可靠性包括以下中的一者或多者：对标记概率数组中的每个元素的概率值进行比较以及将已编码的数据与对应地面实况值进行比较。

应理解，本文中所描述的配置和/或方法本质上是示例性的，并且这些具体示例不应被视为是限制性的，这是因为许多变型都是可能的。本文中所描述的具体例程或方法可以表示任何数量的处理策略中的一者或多者。因此，所说明和/或所描述的各种动作可以按照所说明和/或所描述的顺序执行，按照其他顺序执行，并行地执行或被省略。同样，上述过程的顺序可以被改变。

本公开的主题包括本文中所公开的各种过程、系统和配置以及其他特征、功能、动作和/或性质的所有新颖且不明显的组合和子组合及其所有等效物。

Claims

1.一种在计算设备上的用于在数据存储介质上编码数据的方法，所述方法包括：

获得用于训练数据译码器的第一训练数据集，所述第一训练数据集与第一数据写入参数配置相对应；

使用所述第一训练数据集和对应的地面实况数据，训练所述数据译码器的机器学习功能以对利用所述第一数据写入参数配置写入的数据进行译码，所述机器学习功能输出与所述第一训练数据集相对应的第一标记概率数组；

获得用于训练所述数据译码器的第二训练数据集，所述第二训练数据集与第二数据写入参数配置相对应；

使用所述第二训练数据集和对应的地面实况数据，训练所述数据译码器的所述机器学习功能以对利用所述第二数据写入参数配置写入的数据进行译码，所述机器学习功能输出与所述第二训练数据集相对应的第二标记概率数组；

基于所述第一标记概率数组和所述第二标记概率数组，评估对利用所述第一数据写入参数配置写入的数据进行译码的可靠性和对利用所述第二数据写入参数配置写入的数据进行译码的可靠性；

基于对至少所述第一训练数据集和所述第二训练数据集的数据进行译码的所评估的可靠性，选择所述第一数据写入参数配置或所述第二数据写入参数配置中的一个数据写入参数配置；以及

使用所述第一数据写入参数配置或所述第二数据写入参数配置中的所选择的所述一个数据写入参数配置将数据写入所述数据存储介质。

2.根据权利要求1所述的方法，其中所述第一数据写入参数配置或所述第二数据写入参数配置中的所述一个数据写入参数配置是进一步基于数据写入性能的度量来被选择的，并且其中获得所述第二训练数据集包括获得具有被调整以增加数据写入性能的所述度量的数据写入参数配置的训练数据集。

3.根据权利要求1所述的方法，其中所述第一训练数据集和所述第二训练数据集关于布局而不同。

4.根据权利要求1所述的方法，其中所述数据存储介质包括光学存储介质，所述第一训练数据集和所述第二训练数据集包括图像，所述标记概率数组的每个元素与可能的数据值相对应，并且所述数据使用光学写入光束被编码。

5.根据权利要求1所述的方法，其中所述第一训练数据集和所述第二训练数据集关于写入光束的一个或多个性质是不同的，所述写入光束用于对相应的所述第一训练数据集或所述第二训练数据集从其而被获得的数据进行编码。

6.根据权利要求1所述的方法，其中获得所述第一训练数据集和所述第二训练数据集包括用读取光束探测所述数据存储介质并同时对所述数据存储介质成像，并且其中所述第一训练数据集和所述第二训练数据集关于所述读取光束性质而不同。

7.根据权利要求1所述的方法，其中评估所述可靠性包括以下一项或多项：将所述标记概率数组的每个元素的所述概率值进行比较、以及将所译码的数据与所述对应的地面实况值进行比较。

8.一种在计算设备上的用于在光学数据存储介质上编码数据的方法，所述方法包括：

获得用于训练数据译码器的第一训练数据集，所述第一训练数据集与第一数据写入参数配置相对应并且包括图像；

获得用于训练所述数据译码器的第二训练数据集，所述第二训练数据集与第二数据写入参数配置相对应并且包括图像；

使用所述第一数据写入参数配置或所述第二数据写入参数配置中的所选择的所述一个数据写入参数配置将数据写入所述光学数据存储介质，

其中所述第一标记概率数组和所述第二标记概率数组的每个元素与可能的数据值相对应，并且表示对应的所述可能的数据值与所述光学存储介质中编码的实际数据值匹配的概率。

9.根据权利要求8所述的方法，其中所述第一数据写入参数配置或所述第二数据写入参数配置中的所述一个数据写入参数配置是进一步基于数据写入性能的度量来被选择的，并且其中获得所述第二训练数据集包括获得具有被调整以增加数据写入性能的所述度量的数据写入参数配置的训练数据集。

10.根据权利要求8所述的方法，其中所述第一训练数据集和所述第二训练数据集关于布局而不同。

11.根据权利要求8所述的方法，其中所述第一训练数据集和所述第二训练数据集关于写入光束的一个或多个性质是不同的，所述写入光束用于对相应的所述第一训练数据集或所述第二训练数据集从其而被获得的数据进行编码。

12.根据权利要求8所述的方法，其中获得所述第一训练数据集和所述第二训练数据集包括利用读取光束探测所述光学数据存储介质并且同时对所述光学数据存储介质成像，并且其中所述第一训练数据集和所述第二训练数据集关于所述读取光束性质而不同。

13.根据权利要求8所述的方法，其中评估所述可靠性包括以下一项或多项：将所述标记概率数组的每个元素的所述概率值进行比较、以及将所译码的数据与所述对应的地面实况值进行比较。

14.根据权利要求8所述的方法，其中所述机器学习功能包括卷积神经网络。

15.根据权利要求8所述的方法，其中所述数据使用光学写入光束被编码并且使用预定偏振态的光束被读取，并且其中每个对应的数据值关于双折射值而不同。

16.一种光学数据存储和取回系统，包括：

光学数据存储介质；以及

一个或多个逻辑设备，所述一个或多个逻辑设备被配置为执行指令以操作包括机器学习功能的数据译码器，所述机器学习功能是如下被训练的：

(a)使用与第一数据写入参数配置相对应的第一训练数据集和对应的地面实况数据，所述机器学习功能被训练以对利用所述第一数据写入参数配置写入的数据进行译码，并且被配置为输出与所述第一训练数据集相对应的第一标记概率数组，所述第一训练数据集包括图像；以及

(b)使用与第二数据写入参数配置相对应的第二训练数据集和对应的地面实况数据，所述机器学习功能进一步被训练以对利用所述第二数据写入参数配置写入的数据进行译码，并且被配置为输出与所述第二训练数据集相对应的第二标记概率数组，所述第二训练数据集包括图像；

其中所述一个或多个逻辑设备进一步被配置为执行指令以：

17.根据权利要求16所述的系统，其中所述第一数据写入参数配置或所述第二数据写入参数配置中的所述一个数据写入参数配置是进一步基于数据写入性能的度量来被选择的，并且其中获得所述第二训练数据集包括获得具有被调整以增加数据写入性能的所述度量的数据写入参数配置的训练数据集。

18.根据权利要求16所述的系统，其中所述第一训练数据集和所述第二训练数据集关于布局而不同。

19.根据权利要求16所述的系统，其中所述第一训练数据集和所述第二训练数据集关于写入光束的一个或多个性质是不同的，所述写入光束用于对相应的所述第一训练数据集或所述第二训练数据集从其被获得的数据进行编码。

20.根据权利要求16所述的系统，其中获得所述第一训练数据集和所述第二训练数据集包括用读取光束探测所述光学数据存储介质并同时对所述光学数据存储介质成像，其中所述第一训练数据集和所述第二训练数据集关于所述读取光束性质而不同，并且其中评估所述可靠性包括以下一项或多项：将所述标记概率数组的每个元素的所述概率值进行比较、以及将所译码的数据与所述对应的地面实况值进行比较。