CN116257286A

CN116257286A - 一种文件处理方法、装置、电子设备及存储介质

Info

Publication number: CN116257286A
Application number: CN202310259833.9A
Authority: CN
Inventors: 吴京京; 骆涛; 徐晓健; 詹荣瑞; 孔嘉明
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-03-13
Filing date: 2023-03-13
Publication date: 2023-06-13
Anticipated expiration: 2043-03-13
Also published as: CN116257286B

Abstract

本公开提供了一种文件处理方法、装置、电子设备及存储介质，涉及计算机技术领域，尤其涉及深度学习、自然语言处理技术领域。具体实现方案为：分别解析目标配置文件和目标头文件中关于张量Tensor的函数的函数信息，得到第一解析结果和第二解析结果；利用所述第一解析结果和第二解析结果，生成类型提示文件；按照预定打包方式，将所述类型提示文件打包至所述动态语言包内。通过本方案可以为动态语言包提供全量的关于Tensor的函数的类型提示信息，从而提高动态语言包关于Tensor的函数的类型提示效果。

Description

一种文件处理方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及深度学习、自然语言处理技术领域。

背景技术

Tensor即张量，是深度学习中最基础的概念之一。开发者在编写关于深度学习的代码时会频繁的使用Tensor并调用其相关的函数，并且，开发者通常使用Python语言编写关于深度学习的代码，以及通过调用接口的方式来调用基于C++语言所实现的关于Tensor的函数。

为了提高开发者的开发效率和体验，针对用于实现一定功能的Python包，在通过编辑工具进行加载以及显示时，通常希望能够提供其所调用的关于Tensor的函数的类型提示信息。但是，Python是一种动态语言，其代码中不需定义函数的类型提示信息，同时，尽管C++的代码中可以定义有函数的类型提示信息，但C++端所实现的关于Tensor的函数的类型提示信息无法暴露至Python端。

发明内容

本公开提供了一种文件处理方法、装置、电子设备及存储介质。

根据本公开的第一方面，提供了一种文件处理方法，包括：

分别解析目标配置文件和目标头文件中关于张量Tensor的函数的函数信息，得到第一解析结果和第二解析结果；其中，所述目标配置文件为动态语言包的配置文件，所述目标头文件为所述动态语言包所调用的头文件；

利用所述第一解析结果和第二解析结果，生成类型提示文件；其中，所述类型提示文件用于记录所述动态语言包中的关于Tensor的各函数的类型提示信息；

按照预定打包方式，将所述类型提示文件打包至所述动态语言包内；其中，所述预定打包方式用于使得在打包完成后，若所述动态语言包通过编辑工具加载，则所述类型提示文件中的关于Tensor的各函数的类型提示信息，加载并显示在所述动态语言包的代码界面中。

可选地，所述类型提示信息包括参数和返回值；

所述利用所述第一解析结果和第二解析结果，生成类型提示文件，包括：

从所述第一解析结果中，提取关于Tensor的函数的参数和返回值，以及从所述第二解析结果中，提取关于Tensor的函数的参数和返回值；

利用所提取到的关于Tensor的函数的参数和返回值，构建类型提示文件。

可选地，所述从所述第一解析结果中，提取关于Tensor的函数的参数和返回值，包括：

从所述第一解析结果中，筛选关于Tensor的函数的声明信息，并基于所筛选到的声明信息，确定关于Tensor的函数的参数和返回值；

所述从所述第二解析结果中，提取关于Tensor的函数的参数和返回值，包括：

从所述第二解析结果中，筛选关于Tensor的函数的声明信息，并基于所筛选到的声明信息，确定关于Tensor的函数的参数和返回值。

可选地，所述利用所提取到的关于Tensor的函数的参数和返回值，构建类型提示文件，包括：

生成包含有所提取到的关于Tensor的函数的参数和返回值的、且符合目标动态语言的语法规则的可执行文件，得到类型提示文件；

其中，所述目标动态语言为编写所述动态语言包所使用的动态语言。

可选地，所述动态语言包为Python包，所述目标配置文件为所述动态语言包的yaml文件，所述目标头文件为根据C++语法所编译的文件。

可选地，所述方法还包括：

解析所述动态语言包的Tensor目录中关于Tensor的函数的类型提示信息，得到目录解析结果；其中，所述Tensor目录中记载有针对所述动态语言包预先已标注的、关于Tensor的函数的类型提示信息；

将所述类型提示文件与所述目录解析结果进行内容对比，得到对比结果；

若所述对比结果表征所述Tensor目录与所述类型提示文件存在差异，则为所述Tensor目录添加差异标识。

根据本公开的第二方面，提供了一种文件处理装置，包括：

解析模块，用于分别解析目标配置文件和目标头文件中关于张量Tensor的函数的函数信息，得到第一解析结果和第二解析结果；其中，所述目标配置文件为动态语言包的配置文件，所述目标头文件为所述动态语言包所调用的头文件；

生成模块，用于利用所述第一解析结果和第二解析结果，生成类型提示文件；其中，所述类型提示文件用于记录所述动态语言包中的关于Tensor的各函数的类型提示信息；

打包模块，用于按照预定打包方式，将所述类型提示文件打包至所述动态语言包内；其中，所述预定打包方式用于使得在打包完成后，若所述动态语言包通过编辑工具加载，则所述类型提示文件中的关于Tensor的各函数的类型提示信息，加载并显示在所述动态语言包的代码界面中。

可选地，所述类型提示信息包括参数和返回值；

所述生成模块，包括：

提取子模块，用于从所述第一解析结果中，提取关于Tensor的函数的参数和返回值，以及从所述第二解析结果中，提取关于Tensor的函数的参数和返回值；

构建子模块，用于利用所提取到的关于Tensor的函数的参数和返回值，构建类型提示文件。

可选地，所述提取子模块，包括：

第一提取子模块，用于从所述第一解析结果中，筛选关于Tensor的函数的声明信息，并基于所筛选到的声明信息，确定关于Tensor的函数的参数和返回值；

第二提取子模块，用于从所述第二解析结果中，筛选关于Tensor的函数的声明信息，并基于所筛选到的声明信息，确定关于Tensor的函数的参数和返回值。

可选地，所述构建子模块，具体用于：

可选地，所述装置还包括差异识别模块，用于：

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行所述的文件处理方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行所述的文件处理方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现所述的文件处理方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开提供的一种文件处理方法的流程示意图；

图2是根据本公开提供的一种文件处理方法的另一流程示意图；

图3是根据本公开提供的一种文件处理方法的另一流程示意图；

图4是根据本公开提供的一种文件处理装置的结构示意图；

图5是用来实现本公开实施例的文件处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

开发者为了更好的开发体验以及更高的开发效率，通常使用Python语言编写关于深度学习的代码，以及通过调用接口的方式来调用基于C++语言所实现的关于Tensor的函数。

在通过编辑工具加载以及显示能够实现一定功能的Python包时，开发者通常希望能够提供其所调用的关于Tensor的函数的类型提示信息，而Python语言中不需要定义函数的类型提示信息，尽管C++的代码中定义有关于Tensor的函数的类型提示信息，但C++端所实现的关于Tensor的函数类型提示信息无法暴露至Python端，即编辑工具加载以及显示Python包时，无法提供关于Tensor的函数的类型提示信息。

相关技术中存在一些为Python包提供关于Tensor的函数的类型提示信息的方案：

其中，PyTorch的方案为：在Python包的大多数原生.py文件(Python源码文件)中直接写入关于Tensor的函数的类型提示信息，即在Python包的大多数原生脚本文件中直接使用内联类型提示；并且，部分C++扩展API则是使用自动生成.pyi格式的stub file的方式提供类型提示信息；PyTorch是一个开源的Python机器学习库，基于Torch，用于自然语言处理等应用程序。另外，PyTorch的Tensor主体(torch._C.TensorBase)是在C++端实现的，通过继承的方式实现了一个新的Tensor(torch.Tensor)，因为最终暴露的torch.Tensor是在Python端实现的，其包含了完整的类型提示信息，且继承自torch._C.TensorBase的属性方法也通过pyi文件提供了完整的类型提示信息。

NumPy(Numerical Python，是Python的一种开源的数值计算扩展工具)的方案为：为Python包的大多数.py文件都额外维护了一份.pyi的stub file，从而提供关于Tensor的函数的类型提示信息；此外，NumPy专门提供了一个类型模块numpy.typing，用以提供复杂的类型提示用法。NumPy的Array(ndarray)本身是在C中实现的，并利用Cython暴露到Python端，其类型信息同样是通过stub file提供的。ndarray本身是一个泛型，提供了两个类型参数shape和dtype，可以为用户提供更加详细和精准的类型提示信息。此外，NumPy还在numpy.typing中提供了更为易用的numpy.typing.NDArray类型方便用户使用。

TensorFlow(将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统)的方案为：提供一个stub-only的包，从而提供关于Tensor的函数的类型提示信息。

而采用相关技术的方案，并不能很好的为Python包提供关于Tensor的函数的类型提示信息：

PyTorch的方案要直接在Python源码文件中写入关于Tensor的函数的类型提示信息，对Python主代码库的影响较大，甚至会对Python主代码库造成一定的性能影响，且针对现有成熟库进行改动会存在很大的技术风险。

NumPy与TensorFlow的方案虽然能够提供简单的Tensor函数的类型提示信息，但并不支持函数文档docstring，无法提供与原生代码相同的智能提示效果。其中，TensorFlow的方案还需要额外的安装包，加重了安装包的依赖性，降低安装体验。

并且，PyTorch、NumPy以及TensorFlow的方案，仅能提供Python包中关于Tensor函数的部分类型提示信息，无法提供Python包中全量的关于Tensor的函数的类型提示信息，导致关于Tensor的函数的类型提示效果较差。

基于此，本公开提供了一种文件处理方法、装置、电子设备及存储介质，以为动态语言包提供全量的关于Tensor的函数的类型提示信息，从而提高动态语言包关于Tensor的函数的类型提示效果。

下面首先对本公开提供的一种文件处理方法进行介绍。

其中，本公开实施例涉及的一种文件处理方法可以应用于电子设备，该电子设备可以为终端设备或服务器，本公开并不对电子设备的具体形态进行限定。另外，本公开实施例所提供的一种文件处理方法可以应用于为动态语言包提供关于Tensor的各函数的类型提示信息的任一场景，本公开实施例对于具体场景不做限定。

Tensor即张量，是一个多维数组，它是标量、向量、矩阵的高维扩展。本公开所涉及的关于Tensor的函数即Tensor相关的数学函数，关于Tensor的函数可以是存在Tensor的调用的函数，在此不做限定。

代码的类型提示信息即为代码中所包含的变量、变量的类型、函数的参数、函数的返回值、类的函数、类的属性等进行解释说明的信息。本公开中关于Tensor的各函数的类型提示信息，可以为动态语言包中关于Tensor的各函数进行解释说明。

本公开实施例所提供的一种文件处理方法，可以包括如下步骤：

本方案中，动态语言包的Tensor的函数的函数信息会存在于其配置文件和其调用的头文件中，因此，可以先解析目标配置文件和目标头文件中关于Tensor的函数的函数信息，得到第一解析结果和第二解析结果，并利用第一解析结果和第二解析结果，生成记录有关于Tensor的各函数的类型提示信息的类型提示文件，并按照预定的打包方式，将类型提示文件打包至动态语言包内。本方案生成的类型提示文件为记录有关于Tensor的各函数的类型提示信息的文件，能够为动态语言包关于Tensor的各函数提供全量的类型提示信息。可见，通过本方案可以为动态语言包提供全量的关于Tensor的函数的类型提示信息，从而提高动态语言包关于Tensor的函数的类型提示效果。

下面结合附图，对本公开提供的一种文件处理方法进行示例性介绍。

如图1所示，本公开所提供的一种文件处理方法，可以包括如下步骤：

S101：分别解析目标配置文件和目标头文件中关于张量Tensor的函数的函数信息，得到第一解析结果和第二解析结果；

其中，所述目标配置文件为动态语言包的配置文件，所述目标头文件为所述动态语言包所调用的头文件。

本公开中，为了提供动态语言包关于Tensor的各函数的类型提示信息，可以先从目标配置文件和目标头文件中解析出全量的、关于Tensor的函数的函数信息，并通过后续的步骤，提供动态语言包关于Tensor的各函数的类型提示信息。其中，所谓函数信息可以包括：函数名称、函数参数、函数返回值、函数文档等信息。

需要说明的是，动态语言包的目标配置文件中可以包含关于Tensor的函数，动态语言包所调用的目标头文件中也可以包含关于Tensor的函数，从目标配置文件和目标头文件中，可以解析出动态语言包全量的、关于Tensor的函数的函数信息，后续可以利用解析结果，生成关于Tensor的各函数的类型提示信息，即可以利用解析结果生成全量的关于Tensor的函数的类型提示信息。

示例性的，在本公开的一种实施例中，所述动态语言包为Python包，所述目标配置文件为所述动态语言包的yaml文件，所述目标头文件为根据C++语法所编译的文件。

在实际应用中，开发者所使用的动态语言包可以为Python包，Python包的目标配置文件可以为yaml文件，Python包所调用的目标头文件可以为通过C++语法所编译的文件。此时，可以解析yaml文件和C++语法编译的头文件中关于Tensor的函数的函数信息，得到解析结果，通过后续的步骤，可以为Python包提供全量的、关于Tensor的函数的类型提示信息。此时，本公开的方案能够提高Python包关于Tensor的函数的类型提示效果，从而能够提高开发者的开发体验和开发效率。

S102：利用所述第一解析结果和第二解析结果，生成类型提示文件；

其中，所述类型提示文件用于记录所述动态语言包中的关于Tensor的各函数的类型提示信息。

在得到第一解析结果和第二解析结果后，所得到的解析结果中包含有关于Tensor的各函数的函数信息，可以以此为依据，生成记录关于Tensor各函数的类型提示信息的类型提示文件，示例性的，类型提示文件可以为stub file，类型提示文件的文件类型可以为.pyi文件的文件类型。

需要说明的是，利用第一解析结果和第二解析结果生成类型提示文件的步骤，将在后续实施例进行详细介绍，在此不做赘述。

并且，类型提示文件中除记录关于Tensor各函数的类型提示信息外，还可以记录关于Tensor各函数的函数文档，本公开对类型提示文件中所记录的内容不做限定。

S103：按照预定打包方式，将所述类型提示文件打包至所述动态语言包内；

其中，所述预定打包方式用于使得在打包完成后，若所述动态语言包通过编辑工具加载，则所述类型提示文件中的关于Tensor的各函数的类型提示信息，加载并显示在所述动态语言包的代码界面中。

本公开的文件处理方法，在生成类型提示文件后，为了利用该类型提示文件为动态语言包提供关于Tensor的各函数的类型提示信息，可以按照预定的打包方式，将类型提示文件打包至动态语言包内。也就是，在打包完成后，开发者在使用动态语言包时，通常会通过编辑工具加载动态语言包，编辑工具可以为IDE(Integrated DevelopmentEnvironment，集成开发环境)或Editor等编辑工具，在此不做限定。此时，若动态语言包通过编辑工具加载，本公开提供的预定打包方式，可以将类型提示文件中的关于Tensor的各函数的类型提示信息加载并显示在动态语言包的代码界面中，从而为开发者提供动态语言包关于Tensor的各函数的类型提示信息。

需要说明的是，关于Tensor的各函数的类型提示信息可以在不影响动态语言包中代码加载和显示的情况下，加载并显示至动态语言包中关于Tensor的各函数的对应位置，当然还可以加载并显示至代码头部区域或尾部区域等。也就是，本公开对关于Tensor的各函数的类型提示信息的显示区域，不做任何限定。

在一些场景下，如：动态语言包更新的场景下，动态语言包中的目标配置文件或其调用的目标头文件中的代码内容会发生变动，此时，本公开提供的文件处理方法，还包括：识别目标配置文件和/或目标头文件中的代码内容是否发生变动；若识别结果为是，则解析变动后的目标配置文件以及变动后的目标头文件中关于Tensor的函数的函数信息，得到第一目标解析结果和第二目标解析结果；利用第一目标解析结果和第二目标解析结果，生成目标类型提示文件；按照预定的打包方式，将动态语言包中的类型提示文件，更新为目标类型提示文件。

需要说明的是，目标配置文件和目标头文件中的任一文件的代码内均可以发生变动，当然也可以两者中的代码内容同时发生变动，这都是合理的。并且，若两者中的某一文件的代码内容发生变动，此时，无论另一文件的代码内容是否发生变动，两者均可以称为变动后的目标配置文件以及变动后的目标头文件，例如：目标配置文件的代码内容发生变动，但目标头文件的代码内容未发生变动，此时，两者可以分别称为变动后的目标配置文件以及变动后的目标头文件。

本公开中，若目标配置文件和目标头文件中的任一文件的代码内容发生变动，可以通过上述的步骤，将动态语言包中的类型提示文件自动更新为目标类型提示文件，不必开发人员手动同步调整，从而提高动态语言包关于Tensor的函数的类型提示效果。并且，上述生成目标类型提示文件以及将类型提示文件更新为目标类型提示文件的步骤，可以与上述步骤S101-S103类似，在此不做赘述。

本公开的技术方案中，所涉及的目标配置文件以及目标头文件的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

可以理解的是，本公开中所生成的类型提示文件，并不影响动态语言包中的代码内容的正常运行，类型提示文件仅仅用于对动态语言包提供关于Tensor的各函数的类型提示信息。

可选地，在本公开的另一实施例中，所述类型提示信息包括参数和返回值；

如图2所示，所述利用所述第一解析结果和第二解析结果，生成类型提示文件，包括如下步骤：

S201：从所述第一解析结果中，提取关于Tensor的函数的参数和返回值，以及从所述第二解析结果中，提取关于Tensor的函数的参数和返回值；

在提供关于Tensor的函数的类型提示信息时，该类型提示信息可以为关于Tensor的函数的参数和返回值，因此，在生成类型提示文件时，可以先从第一解析结果和第二解析结果中，提取关于Tensor的函数的参数和返回值，后续可以利用所提取的关于Tensor的函数的参数和返回值，生成类型提示文件。

其中，函数的参数即在调用该函数时所需输入的内容，通过对函数输入不同的参数，该函数可以有着不同的输出值。函数的返回值即当函数被调用执行结束之后，向函数调用者所返回的结果。

例如：针对用于计算两个变量之和的函数，在定义函数时为函数定义了两个参数，a和b，而在调用该函数时传入了两个变量c和d。其中，a和b为函数的形式参数，而c和d是函数调用的实际参数。也就是，当函数被调用时，c的值传递给了a，d的值传递给了b，若c的值为3，而d的值为5，则传递后a的值为3，b的值为5。而在函数体中，函数将计算3与5的和，并通过返回语句return将结果返回，得到返回值为8。

示例性的，所述从所述第一解析结果中，提取关于Tensor的函数的参数和返回值，包括：

在从第一解析结果或第二解析结果中提取关于Tensor的函数的参数和返回值时，第一解析结果和第二解析结果中包含有各函数的声明信息，可以从中筛选关于Tensor的函数的声明信息，并基于所筛选到的声明信息，确定关于Tensor的函数的参数和返回值。其中，函数的声明信息中可以记录有函数名称、函数参数列表、函数所处代码行数、函数文档和函数返回值等等，在此不做限定。并且，函数的声明信息为函数信息的中间产物，可以基于函数的声明信息确定函数的参数和返回值，以及后续生成类型提示文件。

示例性的，函数的声明信息可以抽象为如下的一个类：

class FunctionDeclare(BaseModel):

name:str

args:list[str|tuple[str,str|None,str|None]]

lineno:int

return_type:str|None

docstring:str|None

每个函数的声明信息对应的了一个FunctionDeclare(函数声明)对象，其中包含有name、args、lineno、return_type、docstring等属性，其中，name即函数名称；args即函数参数列表，包含有数组信息等，args可以有两种形态，一种包含参数名，用str格式表示，另一种包含函数类型信息或默认值，用tuple表示，若存在类型信息或默认值，其中对应不存在的值用none表示；lineno即函数所处代码行数；return_type即函数返回值；docstring即函数文档。

任一解析结果中包含有函数的声明信息，而声明信息中包含有函数的参数和返回值等信息，可以从第一解析结果和第二解析结果中筛选关于Tensor的函数的声明信息，基于所筛选的Tensor的函数的声明信息，可以准确、便捷地确定关于Tensor的函数的参数和返回值，以便后续可以快速生成类型提示文件。

需要说明的是，上述针对函数的声明信息的介绍，仅仅作为示例，并不应构成对本公开的限定。

S202：利用所提取到的关于Tensor的函数的参数和返回值，构建类型提示文件；

得到所提取的关于Tensor的函数的参数和返回值后，可以利用所提取的关于Tensor的函数的参数和返回值，直接构建类型提示文件。

并且，为了保证动态语言包在被后续调用时能正常运行，所述利用所提取到的关于Tensor的函数的参数和返回值，构建类型提示文件，包括：

在生成类型提示文件时，考虑到需要为关于Tensor的函数提供包含有参数值和返回值的类型提示，并且，考虑到所生成的类型提示文件需要能够后续被加载并显示，因此，可以生成包含有所提取到的关于Tensor的函数的参数和返回值的、且符合目标动态语言的语法规则的可执行文件，作为类型提示文件。

通过上述类型提示文件的生成方式，能够为动态语言包提供关于Tensor的函数包含有参数值和返回值的类型提示，并且该类型提示文件符合目标动态语言的语法规则，后续若动态语言包通过编辑工具加载时，类型提示文件中的关于Tensor的各函数的类型提示信息，可以加载并显示在所述动态语言包的代码界面中，从而实现动态语言包关于Tensor的各函数的类型提示信息。

本公开中的类型提示信息包括参数和返回值，在生成类型提示文件时，可以从第一解析结果和第二解析结果中提取关于Tensor的各函数的参数和返回值，即能够提取动态语言包全量的、关于Tensor的函数的参数和返回值，可以利用所提取的全量的、关于Tensor的函数的参数和返回值，构建关于该动态语言包的类型提示文件。此时，该类型提示文件能够为动态语言包关于Tensor的函数提供全量的类型提示信息，从而提高后续动态语言包关于Tensor的函数的类型提示效果。

可选地，在本公开的另一实施例中，所述方法还包括：步骤A1-A3；

步骤A1：解析所述动态语言包的Tensor目录中关于Tensor的函数的类型提示信息，得到目录解析结果；

其中，所述Tensor目录中记载有针对所述动态语言包预先已标注的、关于Tensor的函数的类型提示信息；

可以理解的是，动态语言包中可以包含有预先已标注的、部分关于Tensor的函数的类型提示信息，该部分类型提示信息可以位于Tensor目录中；其中，Tensor目录位于Python包中，可以类似于上述NumPy的方案中所提供的stub file包，其中包含有关于Tensor函数的部分类型提示信息。本公开中，还可以校验Tensor目录的准确性，在校验时，可以先解析Tensor目录中关于Tensor的函数的类型提示信息，得到目录解析结果，后续可以利用该目录解析结果进行校验。

步骤A2：将所述类型提示文件与所述目录解析结果进行内容对比，得到对比结果；

在得到目录解析结果后，为了对Tensor目录进行校验，可以将类型提示文件与目录解析结果进行内容对比，例如：对比名称相同的函数的类型提示信息，得到对比结果；其中，对比结果可以为相同或不同，如：针对名称相同的函数，其类型提示信息相同或不同等。

步骤A3：若所述对比结果表征所述Tensor目录与所述类型提示文件存在差异，则为所述Tensor目录添加差异标识；

若对比结果表征Tensor目录与类型提示文件存在差异，即针对Tensor目录与类型提示文件中函数名称相同的函数，在Tensor目录和类型提示文件中该函数的类型提示信息不同，则可以为Tensor目录添加差异标识；其中，差异标识用于表征Tensor目录存在错误的关于Tensor的函数的类型提示。

需要说明的是，为Tensor目录添加差异标识，开发人员可以了解该Tensor目录为存在错误的类型提示的Tensor目录，后续可以利用类型提示文件，对Tensor目录进行修改操作。当然，为了方便后续的修改操作，还可以在Tensor目录中为存在差异的、关于Tensor的函数添加差异标识，以表征该函数的类型提示信息存在错误，在此不做限定。

本公开中，在生成类型提示文件后，还可以利用类型提示文件，对动态语言包的Tensor目录进行校验，可以先解析Tensor目录，得到目录解析结果，并将类型提示文件与目录解析结果进行内容对比，得到对比结果，若对比结果表征Tensor目录与类型提示文件存在差异，可以为Tensor目录添加差异标识，以表征Tensor目录中关于Tensor的函数的类型提示信息存在错误，能够防止开发人员利用错误的类型提示信息。并且，由于类型提示文件记录有全量的、关于Tensor的函数的类型提示信息，而Tensor目录为部分的关于Tensor的函数的类型提示信息，在对比类型提示文件和Tensor目录时，还可以将类型提示文件中存在但Tensor目录中不存在的类型提示信息，新增至Tensor目录中，以便开发者可以利用类型提示文件或新增后的Tensor目录，为动态语言包提供全量的关于Tensor的函数的类型提示信息，从而提高动态语言包关于Tensor的函数的类型提示效果。

下面基于一具体实施例，对本公开所提供的一种文件处理方法进行详细介绍。

针对用于实现一定功能的Python包，其配置文件为yaml文件，其所调用的头文件为C++头文件。其中，Python包对应上述动态语言包，yaml文件对应上述目标配置文件，C++头文件对应上述目标头文件。

如图3所示，本公开所提供的一种文件处理方法，可以包括如下步骤：

S301：分别解析yaml文件和C++头文件中关于Tensor的函数的函数信息，得到yaml文件解析结果和C++头文件解析结果；

在生成Python包的类型提示文件时，可以先解析yaml文件和C++头文件，得到yaml文件解析结果和C++头文件解析结果，根据解析得到的内容，后续可以生成Python包对应的类型提示文件。其中，yaml文件解析结果和C++头文件解析结果对应上述第一解析结果和第二解析结果。

S302：利用yaml文件解析结果和C++头文件解析结果，生成Python包对应的类型提示文件；

得到yaml文件解析结果和C++头文件解析结果后，可以利用解析结果中的函数信息，生成Python包对应的类型提示文件，Python包对应的类型提示文件用于记录Python包中的关于Tensor的各函数的类型提示信息。其中，Python包对应的类型提示文件对应上述动态语言包的类型提示文件。

其中，Python包对应的类型提示文件的生成方式可以与上述类型提示文件的生成方式类似，在此不做赘述。

S303：将Python包对应的类型提示文件打包至Python包内；

生成Python包对应的类型提示文件后，可以将该Python包对应的类型提示文件打包至Python包内，开发者在调用该Python包时，可以通过编辑器加载的方式，将Python包对应的类型提示文件中所记录的类型提示信息，显示在Python包的代码界面中。

当然，当Python包的代码内容进行更新时，还可以通过重复执行上述步骤S301-S303的方式，对Python包对应的类型提示文件进行更新。

需要说明的是，步骤S301-S303的实现方式，可以与上述步骤S101-S103的实现方式类似，在此不做赘述。

Tensor目录中可以为Python包提供部分关于Tensor的函数的类型提示信息，在生成Python包的类型提示文件后，还可以通过正则表达式等方式，从Tensor目录中解析其中包含的关于Tensor的函数的类型提示信息，利用Python包对应的类型提示文件，对Tensor目录中所解析到的关于Tensor的函数的类型提示信息进行校验，其校验方式可以与上述动态语言包的Tensor目录的校验方式类似，在此不做赘述。

本公开所提供的一种文件处理方法，可以在静态检查阶段为Python包中的关于Tensor的函数提供一个类型提示文件，可以为Python包提供完整的类型提示信息以及函数文档docstring，并且，该Python包对应的类型提示文件不会对Python包的运行产生影响。可见，本方案可以为Python包提供全量的关于Tensor的函数的类型提示信息，从而提高Python包关于Tensor的函数的类型提示效果。

下面，通过对比的方式，对本公开所提供的文件处理方法进行示例性介绍。

表1

如表1所示，本实施例中共对比四种解决方案：方案一-方案四，其中，方案一的类型分发方式为inline-type，即行内注解；方案二的类型分发方式为stub file inpackage，即包内类型提示文件；方案三的类型分发方式为Distributed stub file，即第三方包类型提示；方案四的类型分发方式为stub file in package，即包内类型提示文件。所谓类型分发方式可以为任一方案为Python包提供类型提示的方式。

需要说明的是，方案一的Inline-type annotation即内联类型提示，将类型提示信息直接写入Python包中，与上述的PyTorch中Tensor的实现方案一致；方案二的Stubfile in package通过在库内添加stub file文件的方式，为Python包中关于Tensor的函数提供类型提示信息，与上述的NumPy的方案一致；方案三的Distributed stub file，通过维护一个第三方包的方式，为Python包中关于Tensor的函数提供类型提示信息，与上述的TensorFlow的方案一致；方案四为本公开提供的方案，采用Generated stub file即生成类型提示文件的方式，可以根据相关模块生成stub file即类型提示文件，为Python包中关于Tensor的函数提供全量的类型提示信息。需要说明的是，方案一-方案三并不能为Python包中关于Tensor的函数提供全量的类型提示信息，仅仅能提供部分关于Tensor的函数的类型提示信息。

通过上述表1可见，方案三由于需要维护一个第三方包，需要依赖第三方库，会增加安装包的依赖性；而方案一由于直接将类型提示信息写入Python包的源码文件中，在运行时会造成一定的性能影响。方案一和方案二中，在Python包进行维护时(即Python包更新或修改)，维护成本较高，底层的改动需要在Python API中同步调整，其调整方式通常是人工手动调整，成本较高；方案三中，在Python包进行维护时，由于维护了一个第三方包，Paddle库(飞浆库，可以包括Python包)的相关改动需要在第三方库中同步调整，并且通常也是人工手动调整，成本较高；而本公开提供的方案四，在Python包进行维护时，可以通过上述对类型提示文件进行更新的方式，将底层的改动自动映射到stub file上，所需维护成本适中。

本公开提供的方案四采用业界最稳定的stub file方式给Python包中关于Tensor的函数提供类型信息，与其他解决方案不同的是，该stub file并不是由第三方工具生成，而是通过自定义脚本(即上述的相关模块)扫描算子yaml文件以及解析头文件的方式获得关于Python包全量的Tensor函数的类型信息，并动态生成stub file文件，打包至Python包内，从而为开发者提供Python包中关于Tensor函数的全量类型提示信息。

根据本公开的实施例，本公开还提供了一种文件处理装置，如图4所示，该装置包括：

解析模块410，用于分别解析目标配置文件和目标头文件中关于张量Tensor的函数的函数信息，得到第一解析结果和第二解析结果；其中，所述目标配置文件为动态语言包的配置文件，所述目标头文件为所述动态语言包所调用的头文件；

生成模块420，用于利用所述第一解析结果和第二解析结果，生成类型提示文件；其中，所述类型提示文件用于记录所述动态语言包中的关于Tensor的各函数的类型提示信息；

打包模块430，用于按照预定打包方式，将所述类型提示文件打包至所述动态语言包内；其中，所述预定打包方式用于使得在打包完成后，若所述动态语言包通过编辑工具加载，则所述类型提示文件中的关于Tensor的各函数的类型提示信息，加载并显示在所述动态语言包的代码界面中。

可选地，所述类型提示信息包括参数和返回值；

所述生成模块，包括：

可选地，所述提取子模块，包括：

可选地，所述构建子模块，具体用于：

可选地，所述装置还包括差异识别模块，用于：

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

本公开实施例提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行任一所述的文件处理方法。

本公开实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行任一所述的文件处理方法。

本公开实施例提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据任一所述的文件处理方法。

图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序，来执行各种适当的动作和处理。在RAM 503中，还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如文件处理方法。例如，在一些实施例中，文件处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的文件处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文件处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文件处理方法，包括：

2.根据权利要求1所述的方法，其中，所述类型提示信息包括参数和返回值；

3.根据权利要求2所述的方法，其中，所述从所述第一解析结果中，提取关于Tensor的函数的参数和返回值，包括：

4.根据权利要求2所述的方法，其中，所述利用所提取到的关于Tensor的函数的参数和返回值，构建类型提示文件，包括：

5.根据权利要求1-4任一项所述的方法，其中，所述动态语言包为Python包，所述目标配置文件为所述动态语言包的yaml文件，所述目标头文件为根据C++语法所编译的文件。

6.根据权利要求1-4任一项所述的方法，其中，所述方法还包括：

7.一种文件处理装置，包括：

8.根据权利要求7所述的装置，其中，所述类型提示信息包括参数和返回值；

所述生成模块，包括：

9.根据权利要求8所述的装置，其中，所述提取子模块，包括：

10.根据权利要求8所述的装置，其中，所述构建子模块，具体用于：

11.根据权利要求7-10任一项所述的装置，其中，所述动态语言包为Python包，所述目标配置文件为所述动态语言包的yaml文件，所述目标头文件为根据C++语法所编译的文件。

12.根据权利要求7-10任一项所述的装置，其中，所述装置还包括差异识别模块，用于：

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。

15.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。