CN111209747B

CN111209747B - 一种词向量文件加载方法、装置、存储介质及电子设备

Info

Publication number: CN111209747B
Application number: CN202010049608.9A
Authority: CN
Inventors: 李亮; 杨航; 胡姣姣; 罗利利
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2023-02-28
Anticipated expiration: 2040-01-16
Also published as: CN111209747A

Abstract

本申请提出一种词向量文件加载方法、装置、存储介质及电子设备。首先，依据词频和业务领域对词向量文件进行分割，以获得多个子文件，至少一个子文件为启动加载文件，启动加载文件小于词向量文件，然后，通过加载启动加载文件，构建词向量查询模型，词向量查询模型可以满足用户基础查询，同时缩短了加载的过程，提升了加载效率，并且占用的存储空间更少，更加节省资源。

Description

一种词向量文件加载方法、装置、存储介质及电子设备

技术领域

本申请涉及自然语言处理技术领域，具体而言，涉及一种词向量文件加载方法、装置、存储介质及电子设备。

背景技术

随着互联网经济的快速发展，产生了大量的文本信息，因此对文本信息这种非结构化数据的处理越来越重要。由于文本的原生信息计算机无法识别，为了便于计算和处理，人们发明了词向量，即以数字化向量的方式来表征一个字、词、短语或者文本，以便于计算文本之间的相似度和关联性，通过词向量的表示可以进一步发现语义之间的内在关联，从而帮助提升解决具体场景下业务问题的能力。

但是词向量文件通常都比较大，其每一行由一个词及其对应的向量组成。由于词向量文件通常很大，加载过程就会很慢，对于开发测试都比较不利；而且词向量文件对内存资源的消耗也比较大，这也限制了很多场景的使用。

发明内容

本申请的目的在于提供一种词向量文件加载方法、装置、存储介质及电子设备，以解决上述问题。

为了实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请实施例提供一种词向量文件加载方法，应用于电子设备，所述方法包括：

依据词频和业务领域对词向量文件进行分割，以获得多个子文件，其中，至少一个所述子文件为启动加载文件，所述启动加载文件包括所述业务领域内的核心词汇和词频大于第一阈值的词汇；

加载所述启动加载文件，构建词向量查询模型。

第二方面，本申请实施例提供一种词向量文件加载装置，应用于电子设备，所述装置包括：

词向量管理单元，用于依据词频和业务领域对词向量文件进行分割，以获得多个子文件，其中，至少一个所述子文件为启动加载文件，所述启动加载文件包括所述业务领域内的核心词汇和词频大于第一阈值的词汇；

模型管理单元，用于加载所述启动加载文件，构建词向量查询模型。

第三方面，本申请实施例提供一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的方法。

第四方面，本申请实施例提供一种电子设备，所述电子设备包括：处理器和存储器，所述存储器用于存储一个或多个程序；当所述一个或多个程序被所述处理器执行时，实现上述的方法。

相对于现有技术，本申请实施例所提供的一种词向量文件加载方法、装置、存储介质及电子设备的有益效果为：首先，依据词频和业务领域对词向量文件进行分割，以获得多个子文件，至少一个子文件为启动加载文件，启动加载文件小于词向量文件，然后，通过加载启动加载文件，构建词向量查询模型，词向量查询模型可以满足用户基础查询，同时缩短了加载的过程，提升了加载效率，并且占用的存储空间更少，更加节省资源。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它相关的附图。

图1为本申请实施例提供的电子设备的结构示意图；

图2为本申请实施例提供的词向量文件加载方法的流程示意图；

图3为本申请实施例提供的S103的子步骤示意图；

图4为本申请实施例提供的词向量文件加载方法的另一种流程示意图；

图5为本申请实施例提供的词向量文件加载方法的另一种流程示意图；

图6为本申请实施例提供的词向量文件加载方法的另一种流程示意图；

图7为本申请实施例提供的词向量文件加载装置的单元示意图。

图中：10-处理器；11-存储器；12-总线；13-通信接口；201-词向量管理单元；202-模型管理单元。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本申请的描述中，需要说明的是，术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该申请产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

在本申请的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

现有技术中，词向量文件通常都比较大，其每一行由一个词及其对应的向量组成：通常是用一个100维以上的数字向量来表示一个词，而每一维通常都会保留小数点后面的10位以上来保证精度。这就导致词向量文件通常在GB级别以上，例如腾讯2018年公开的中文词向量就有16GB大小。由于词向量通常很大，加载过程就会很慢，对于开发测试都比较不利；而且词向量对资源的消耗也比较大，例如16GB的词向量完整加载就大概需要28GB的JAVA内存，这也限制了很多场景的使用。

本申请实施例提供了一种电子设备，可以是手机、电脑或者其他电子终端。请参照图1，电子设备的结构示意图。电子设备包括处理器10、存储器11、总线12。处理器10、存储器11通过总线12连接，处理器10用于执行存储器11中存储的可执行模块，例如计算机程序。

处理器10可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，词向量文件加载方法的各步骤可以通过处理器10中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器10可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processor，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

存储器11可能包含高速随机存取存储器(RAM：Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。

总线12可以是ISA(Industry Standard Architecture)总线、PCI(PeripheralComponent Interconnect)总线或EISA(Extended Industry Standard Architecture)总线等。图1中仅用一个双向箭头表示，但并不表示仅有一根总线12或一种类型的总线12。

存储器11用于存储程序，例如词向量文件加载装置对应的程序。词向量文件加载装置包括至少一个可以软件或固件(firmware)的形式存储于存储器11中或固化在电子设备的操作系统(operating system，OS)中的软件功能模块。处理器10在接收到执行指令后，执行所述程序以实现词向量文件加载方法。

可能地，本申请实施例提供的电子设备还包括通信接口13。通信接口13通过总线与处理器10连接。电子设备可以通过通信接口13接收其他终端发送的语料信息。

应当理解的是，图1所示的结构仅为电子设备的部分的结构示意图，电子设备还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

本发明实施例提供的一种词向量文件加载方法，可以但不限于应用于图1所示的电子设备，具体的流程，请参考图2：

S102，依据词频和业务领域对词向量文件进行分割，以获得多个子文件。

其中，至少一个子文件为启动加载文件，启动加载文件包括业务领域内的核心词汇和词频大于第一阈值的词汇。

具体地，词向量文件通常在GB级别以上。但是相对于指定业务领域(如公安行业)，词向量文件中的很多词汇是不适用且不常见的。如果直接加载词向量文件，会导致加载过程过长，从而影响用户的使用。

通过将词向量文件进行分割获得启动加载文件。启动加载文件包含业务领域内的核心词汇和词频大于第一阈值的词汇。启动加载文件小于词向量文件。词频为各个词在生成词向量文件的语料中出现的次数。第一阈值为用户依据业务领域具体设定。

S103，加载启动加载文件，构建词向量查询模型。

具体地，对启动加载文件的每一行进行解析并构建方便使用的内存结构，即词向量查询模型。比如在JAVA中可以构建Map结构来存储，Key为词，Value为向量。因为启动加载文件小于词向量文件，所以，加载和解析启动加载文件，相对于，加载和解析原本的词向量文件，耗时更短，占用的存储空间更少，更加节省资源。

综上所述，本申请实施例提供的词向量文件加载方法中：首先，依据词频和业务领域对词向量文件进行分割，以获得多个子文件，至少一个子文件为启动加载文件，启动加载文件小于词向量文件，然后，通过加载启动加载文件，构建词向量查询模型，词向量查询模型可以满足用户基础查询，同时缩短了加载的过程，提升了加载效率，并且占用的存储空间更少，更加节省资源。

对本申请实施例中的向量查询模型可以为词向量内存结构，用户可以通过输入某个词，获得该词对应的向量。

词向量内存结构也可以为其他的存储结构，比如存储到Redis等内存型数据库中的存储结构。

在图2的基础上，对于S103中的内容，本申请实施例还提供了一种可能的实现方式，请参考图3，S103包括：

S103-1，将启动加载文件分为多个子片区。

通常启动加载文件仍然十分大，为了提升加载的效率，将启动加载文件分为多个子片区。具体地，可以分为连续的多个子片区。

S103-2，通过N个线程并行加载多个子片区，其中，N为电子设备的CPU核数。

具体地，电子设备的CPU核数为N。电子设备能够执行N个并行线程。为了提升加载效率，可以通过N个线程并行加载多个子片区。可能地，根据子片区的命名特征或文件夹遍历的方式进行批量加载。

当子片区的个数大于N时，可以分轮依次加载子片区。可能地，每轮最多可以加载N个子片区，直到所有子片区全部加载，即完成对启动加载文件的加载。

S103-3，构建词向量查询模型。

具体地，解析各个子片区中的每一行，获得各个词和对应的向量，构建词向量查询模型。

在图2的基础上，关于何如完善词向量查询模型，本申请实施例还提供了一种可能的实现方式，请参考图4，词向量文件加载方法还包括：

S104，加载延时加载文件，并更新词向量查询模型。

其中，多个子文件还包括延时加载文件，延时加载文件包括词频大于第二阈值且小于第一阈值的常见词汇。第二阈值小于第一阈值。第二阈值由用户依据业务领域具体设定。

具体地，依据启动加载文件构建的词向量查询模型还无法全面地满足用户的查询需求。所以需要加载延时加载文件，解析延时加载文件中的每一行，用于更新词向量查询模型，完善词向量查询模型，更加全面的满足用户对词的查询需求。

在图4的基础上，关于进一步完善词向量查询模型，本申请实施例还提供了一种可能的实现方式，请参考图5，词向量文件加载方法还包括：

S105，当查询的词汇不属于词向量查询模型时，加载专用词汇文件和生僻词汇文件，并更新词向量查询模型。

其中，多个子文件还包括专用词汇文件和生僻词汇文件，专用词汇文件包含业务领域内的专用词汇，生僻词汇文件包含词频小于第二阈值的生僻词汇。

具体地，当查询的词汇不属于词向量查询模型时。以用户输入单词A为例，未能通过词向量查询模型找到单词A对应的向量，即表示单词A不属于词向量查询模型。也表示词向量查询模型有待完善。此时，加载专用词汇文件和生僻词汇文件，解析专用词汇文件和生僻词汇文件中的每一行，用于更新词向量查询模型，完善词向量查询模型，更加全面的满足用户对词的查询需求。

在图2的基础上，对于如何获得词向量文件，本申请实施例还提供了一种可能的实现方式，请参考图6，词向量文件加载方法还包括：

S101，将词汇按照词频高低排列，以得到词向量文件。

具体地，在训练词向量时，设定语料(例如维基百科、文章、文献以及公知常识等)的分词结果中的各个词汇按照词频高低倒序排列，训练完成后分别得到vocabulary词表和vector词向量文件。vocabulary词表每一行一个词。vector词向量文件的第一列是词，第二列是同行词所对应的向量。可能地，第一列和第二列之间以空格分开。vector词向量文件和vocabulary词表中的词排列顺序保持一致，即vector词向量文件中的第i行所记载的向量为vocabulary词表第i行的词的向量。

可能地，本申请实施例中的启动加载文件、延时加载文件、专用词汇文件和生僻词汇文件统一路径存储，便于调取。

请参阅图7，图7为本申请实施例提供的一种词向量文件加载装置，可选的，该词向量文件加载装置被应用于上文所述的电子设备。

词向量文件加载装置包括：词向量管理单元201和模型管理单元202。

词向量管理单元201，用于依据词频和业务领域对词向量文件进行分割，以获得多个子文件，其中，至少一个子文件为启动加载文件，启动加载文件包括业务领域内的核心词汇和词频大于第一阈值的词汇。具体地，词向量管理单元201可以执行上述的S102。

模型管理单元202，用于加载启动加载文件，构建词向量查询模型。具体地，模型管理单元202可以执行上述的S103。

可能地，模型管理单元202具体地用于将启动加载文件分为多个子片区；通过N个线程并行加载多个子片区，其中，N为电子设备的CPU核数；构建词向量查询模型。具体地，模型管理单元202可以执行上述的S103-1～S103-3。

可能地，多个子文件还包括延时加载文件，延时加载文件包括词频大于第二阈值且小于第一阈值的常见词汇。

模型管理单元202还用于加载延时加载文件，并更新词向量查询模型。具体地，模型管理单元202可以执行上述的S104。

需要说明的是，本实施例所提供的词向量文件加载装置，其可以执行上述方法流程实施例所示的方法流程，以实现对应的技术效果。为简要描述，本实施例部分未提及之处，可参考上述的实施例中相应内容。

本发明实施例还提供了一种存储介质，该存储介质存储有计算机指令、程序，该计算机指令、程序在被读取并运行时执行上述实施例的词向量文件加载方法。该存储介质可以包括内存、闪存、寄存器或者其结合等。

下面提供一种电子设备，可以是手机、电脑或者其他智能终端，该电子设备如图1所示，可以实现上述的词向量文件加载方法。具体的，该电子设备包括：处理器10，存储器11、总线12。处理器10可以是CPU。存储器11用于存储一个或多个程序，当一个或多个程序被处理器10执行时，执行上述实施例的词向量文件加载方法。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其它的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种词向量文件加载方法，应用于电子设备，其特征在于，所述方法包括：

加载所述启动加载文件，构建词向量查询模型；

加载所述启动加载文件，构建词向量查询模型的步骤，包括：

将所述启动加载文件分为多个子片区；

通过N个线程并行加载所述多个子片区，其中，N为所述电子设备的CPU核数；

构建所述词向量查询模型；

所述多个子文件还包括延时加载文件，所述延时加载文件包括词频大于第二阈值且小于第一阈值的常见词汇；

在加载所述启动加载文件之后，所述方法还包括：

加载所述延时加载文件，并更新所述词向量查询模型；

所述多个子文件还包括专用词汇文件和生僻词汇文件，所述专用词汇文件包含所述业务领域内的专用词汇，所述生僻词汇文件包含词频小于第二阈值的生僻词汇；

在加载所述延时加载文件，并更新所述词向量查询模型之后，所述方法还包括：

当查询的词汇不属于所述词向量查询模型时，加载所述专用词汇文件和所述生僻词汇文件，并更新所述词向量查询模型。

2.如权利要求1所述的词向量文件加载方法，其特征在于，在依据词频和业务领域对词向量文件进行分割之前，所述方法还包括：

将词汇按照词频高低排列，以得到所述词向量文件。

3.一种词向量文件加载装置，应用于电子设备，其特征在于，所述装置包括：

模型管理单元，用于加载所述启动加载文件，构建词向量查询模型；

所述模型管理单元具体地用于将所述启动加载文件分为多个子片区；通过N个线程并行加载所述多个子片区，其中，N为所述电子设备的CPU核数；构建所述词向量查询模型；

所述模型管理单元还用于加载所述延时加载文件，并更新所述词向量查询模型；

在加载所述延时加载文件，并更新所述词向量查询模型之后，所述词向量文件加载装置还用于当查询的词汇不属于所述词向量查询模型时，加载所述专用词汇文件和所述生僻词汇文件，并更新所述词向量查询模型。

4.一种存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1或2所述的方法。

5.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器用于存储一个或多个程序；当所述一个或多个程序被所述处理器执行时，实现如权利要求1或2所述的方法。