CN111488727B

CN111488727B - 词文件解析方法、词文件解析设备和计算机可读存储介质

Info

Publication number: CN111488727B
Application number: CN202010214298.1A
Authority: CN
Inventors: 王家祥; 吴桐; 蓝菊芳
Original assignee: Nanyang Clear Technology Co Ltd
Current assignee: Nanyang Clear Technology Co Ltd
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2023-09-19
Anticipated expiration: 2040-03-24
Also published as: CN111488727A

Abstract

本发明实施例公开了一种词文件解析方法，包括：获取待处理的词文件；读取词文件的格式信息，根据格式信息获取词文件的有效信息的位置；读取有效信息，根据有效信息获取词文件中的字符信息的位置；读取字符信息，根据字符信息获取词文件中的词语。本发明还提供了词文件解析设备和计算机可读存储介质。本发明实现了对词文件中的词语的自动提取，可以有效提高词语提取的工作效率。

Description

词文件解析方法、词文件解析设备和计算机可读存储介质

技术领域

本发明设计词语提取技术领域，尤其涉及词文件解析方法、词文件解析设备和计算机可读存储介质。

背景技术

在维护云胶片智能解读模块的词数据时，通常需要添加大量的词语，可以从输入法词文件中获取某一特定类型的大量词语，目前是通过工具网站将输入法词文件转换成txt格式，从而手动获取txt文件中的词语，造成添加的效率较低。

发明内容

基于此，有必要针对上述问题，提出了词文件解析方法、词文件解析设备和计算机可读存储介质。

一种词文件解析方法，包括：获取待处理的词文件；读取所述词文件的格式信息，根据所述格式信息获取所述词文件的有效信息的位置；读取所述有效信息，根据所述有效信息获取所述词文件中的字符信息的位置；读取所述字符信息，根据所述字符信息获取所述词文件中的词语。

其中，述读取所述词文件的格式信息的步骤，包括：读取所述词文件预设位置的信息字节，根据所述信息字节的数值获取所述词文件的格式信息；所述根据所述格式信息获取所述词文件的有效信息的位置的步骤包括：根据所述格式信息获取所述有效信息的起始位置，所述有效信息的长度为4个字节。

其中，所述读取所述有效信息，根据所述有效信息获取所述词文件中的字符信息的位置的步骤，包括：根据所述有效信息获取所述词文件的字符长度信息的位置；根据所述字符长度信息获取所述字符信息的位置。

其中，所述根据所述有效信息获取所述词文件的字符长度信息的位置的步骤，包括：读取所述有效信息中的第三字节的第一位置数值和第四字节的第二位置数值，根据所述第一位置数值和所述第二位置数值计算间隔字节数；将与所述有效信息间隔所述间隔字节数的位置作为所述字符长度信息起始位置，所述字符长度信息的长度为2字节。

其中，所述根据所述字符长度信息获取所述字符信息的位置的步骤之后，包括：将与所述字符信息间隔预设字节数的字节作为所述有效信息的起始位置；重复如上所述的步骤，直至读取完毕所述词文件。

其中，所述根据所述字符长度信息获取所述字符信息的位置的步骤，包括：将所述字符长度信息之后的字节作为所述字符信息的起始位置；根据所述字符长度信息计算所述字符信息的长度。

其中，所述根据所述字符长度信息计算所述字符信息的长度的步骤，包括：读取所述字符长度信息中的第一字节的第三位置数值和第二字节的第四位置数值，根据所述第三位置数值和所述第四位置数值计算所述字符信息的长度。

一种词文件解析设备，包括：获取模块，用于获取待处理的词文件；第一位置模块，用于读取所述词文件的格式信息，根据所述格式信息获取所述词文件的有效信息的位置；第二位置模块，用于读取所述有效信息，根据所述有效信息获取所述词文件中的字符信息的位置；字符模块，用于读取所述字符信息，根据所述字符信息获取所述词文件中的词语。

一种词文件解析设备，包括：处理器和存储器，所述处理器耦接所述存储器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序以实现如上所述的方法。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序能够被处理器执行以实现如上所述的方法。

采用本发明实施例，具有如下有益效果：

根据词文件的格式信息获取待处理的词文件的有效信息的位置，读取有效信息，根据有效信息获取字符信息的位置，读取字符信息，根据字符信息获取待处理的词文件中的词语，实现了对词文件中的词语的自动提取，可以有效提高词语提取的工作效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1是本发明提供的词文件解析方法的第一实施例的流程示意图；

图2是本发明提供的词文件解析方法的第二实施例的流程示意图；

图3是本发明提供的词文件解析方法的第三实施例的流程示意图；

图4是本发明提供的词文件解析设备的第一实施例的结构示意图；

图5是本发明提供的词文件解析设备的第二实施例的结构示意图；

图6是本发明提供的计算机可读存储介质的一实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在维护云胶片智能解读模块的词数据时，通常需要添加大量的词语，可以从输入法词文件中获取某一特定类型的大量词语，目前是通过工具网站将输入法词文件转换成txt格式，从而手动获取txt文件中的词语，词语添加的效率较低。

在本实施例中，为了解决上述问题，提供了一种词文件解析方法，能够实现对输入法的词文件中的词语进行自动提取，有效提高了词语提取的效率。

请参阅图1，图1是本发明提供的词文件解析方法的第一实施例的流程示意图。本发明提供的词文件解析方法包括：

S101：获取待处理的词文件。

在一个具体的实施场景中，词文件为搜狗输入法的细胞词文件，用户可以根据自身需求在网络上下载所需的细胞词文件。在其他实施场景中，词文件还可以是其他输入法的细胞词文件。

S102：读取词文件的格式信息，根据格式信息获取词文件的有效信息的位置。

在本实施场景中，读取词文件的头部信息，头部信息中包括词文件的格式信息，根据格式信息获取待处理的词文件的格式，每个格式的词文件的有效信息的位置不同，因此可以根据格式信息获取待处理的词文件的有效信息的位置。

在本实施场景中，可以通过读取词文件预设位置的字节的数据来确定词文件的格式。

S103：读取有效信息，根据有效信息获取词文件中的字符信息的位置。

在本实施场景中，词文件中除了对应词语的字符信息外，还有对应拼音等其他数据的信息，因此，需要根据有效信息获取字符信息的位置。例如，可以根据有效信息中的数据，根据预设的公式计算字符信息的位置。

S104：读取字符信息，根据字符信息获取词文件中的词语。

在本实施场景中，读取字符信息的位置上的字节包括的字符信息，将字符信息转换为字符串，根据字符串获取待处理的词文件中的词语。

根据上述描述可知，在本实施例中读取词文件的格式信息，根据格式信息获取待处理的词文件的有效信息的位置，读取有效信息，根据有效信息获取字符信息的位置，读取字符信息，根据字符信息获取待处理的词文件中的词语，实现了对词文件中的词语的自动提取，可以有效提高词语提取的工作效率。

请参阅图2，图2是本发明提供的词文件解析方法的第二实施例的流程示意图。本发明提供的词文件解析方法包括：

S201：获取待处理的词文件。

在一个具体的实施场景中，本步骤与本发明提供的词文件解析方法的第一实施例中步骤S101基本一致，此处不再进行赘述。

S202：读取词文件预设位置的信息字节，根据信息字节获取词文件的格式信息。

在本实施场景中，读取词文件预设位置的信息字节，根据该信息字节获取待处理的词文件的格式信息。例如，预设位置为词文件的第五个字节，根据第五个字节的ASCII(American Standard Code for Information Interchange，美国信息交换标准代码)码值获取待处理的词文件的格式信息。在本实施场景中，词文件包括两种格式：D型和E型。若信息字节的数值为68，则词文件为D型，若信息字节的数值为69，则词文件为E型。

S203：根据格式信息获取词文件的有效信息的位置。

在本实施场景中，获取对应格式信息的有效信息的位置。具体地说，若词文件为D型，则有效信息的起始位置为第9768个字节；若词文件为E型，则有效信息的起始位置为第9924个字节。

S204：根据有效信息获取词文件的字符长度信息的位置。

在本实施场景中，有效信息的长度为4个字节。读取自步骤S203中获取的有效信息的起始位置之后的4个字节的数据，获取有效信息。可以根据有效信息中的至少一个字节的数据，结合预设的计算公式获取待处理的词文件的字符长度信息。具体地说，读取有效信息中的第三字节的第一位置数值和第四字节的第二位置数值，根据第一位置数值和第二位置数值计算间隔字节数。将与有效信息间隔了间隔字节数的位置作为字符长度信息起始位置。

例如，当词文件为D型时，有效信息的起始位置为第9768个字节，有效信息的长度为4个字节，即第9768、第9769、第9770和第9771个字节。计算出的间隔字节数为A，因此字符长度信息的起始位置为第9771+A个字节。字符长度信息的长度为2字节，因此字符长度信息的位置为第9771+A和第9771+A+1个字节。当词文件为E型时，有效信息的起始位置为第9924个字节，有效信息的长度为4个字节，即第9924、第9925、第9926和第9927个字节。计算出的间隔字节数为A，因此字符长度信息的起始位置为第9927+A个字节。字符长度信息的长度为2字节，因此字符长度信息的位置为第9927+A和第9927+A+1个字节。

在本实施场景中，将第一位置数值和第二位置数值之和与256的乘积作为间隔字节数。

S205：将字符长度信息之后的字节作为字符信息的起始位置，根据字符长度信息计算字符信息的长度。

在本实施场景中，将字符长度信息之后的字节作为字符信息的起始位置，例如当词文件为D型时，字符信息的起始位置为第9771+A+2个字节。当词文件为E型时，字符信息的起始位置为第9927+A+1个字节。

在本实施场景中，字符长度信息的长度为2字节，读取字符长度信息中每一字节的数据，根据该数据结合预设的计算公式获取待处理的词文件的字符信息的长度。读取字符长度信息中的第一字节的第三位置数值和第二字节的第四位置数值，根据第三位置数值和第四位置数值计算字符信息的长度。具体地说，计算出的字符长度为B时，若词文件为D型，则字符信息位于词文件的第9771+A+2个字节起的B个字节，若词文件为E型，则字符信息位于词文件的第9927+A+2个字节起的B个字节。

在本实施场景中，将第三位置数值和第四位置数值之和与256的乘积作为字符信息的长度。

S206：将与字符信息间隔预设字节数的字节作为有效信息的起始位置。

在本实施场景中，词文件包括多个词语，因此在获取对应一个字符串的字符信息的位置后，需要再次获取对应下一个字符串的有效信息的位置，以提取词文件中全部的词语。具体地说，在词文件中对应当前字符串的有效信息与对应上一字符串的字符信息之间间隔有预设个数的字节，在本实施场景中，该预设个数为12。

在本实施场景中，将与对应上一字符串的字符信息间隔12个字节的字节作为对应下一字符串的有效信息的起始位置。重复步骤S204-S205的步骤，直至读取完毕全部的词文件。

S207：读取字符信息，根据字符信息获取词文件中的词语。

在本实施场景中，本步骤与本发明提供的词文件解析方法的第一实施例中步骤S104基本一致，此处不再进行赘述。

在本实施场景中，获取所有的字符信息后，根据字符信息获取词语，在其他实施场景中，获取到一个字符信息后，根据该字符信息获取词语，再获取下一个字符信息。即步骤S206和步骤S207的先后执行数据不做限定。

通过上述描述可知，在本实施例中通过根据信息字节获取待处理的词文件的格式信息，根据有效信息获取待处理的词文件的字符长度信息的位置，将字符长度信息之后的字节作为字符信息的起始位置，根据字符长度信息计算字符信息的长度，将与字符信息间隔预设字节数的字节作为下一个有效信息的起始位置，重复上述步骤，直至获取待处理的词文件中全部的字符信息，从而获取待处理的词文件中的全部词语，实现了对词文件中的词语的自动提取，可以有效提高词语提取的工作效率。

请参阅图3，图3是本发明提供的词文件解析方法的第三实施例的流程示意图，本发明提供的词文件解析方法包括：

S301：获取待处理的词文件。

S302：读取词文件第五个字节的ASCII码值，若ASCII码值为68，则执行步骤S303，若ASCII码值为69，则执行步骤S304。

在本实施场景中，将词文件第五个字节作为词文件预设位置的信息字节，词文件包括两种格式：D型和E型。若信息字节的数值为68，则词文件为D型，若信息字节的数值为69，则词文件为E型。若词文件为D型，则执行步骤S303，若词文件为E型，则执行步骤S304。

S303：将词文件第9768个字符作为有效信息的起始位置。

在本实施场景中，词文件为D型，则有效信息的起始位置为第9768个字节。

S304：将词文件第9924个字符作为有效信息的起始位置。

在本实施场景中，若词文件为E型，则有效信息的起始位置为第9924个字节。

S305：读取自有效信息的起始位置起的4个字节的数据，获取有效信息。

在本实施场景中，有效信息的长度为4个字节。因此，读取自有效信息的起始位置起的4个字节的数据，获取有效信息。当词文件为D型时，有效信息的起始位置为第9768个字节，有效信息的长度为4个字节，即第9768、第9769、第9770和第9771个字节。当词文件为E型时，有效信息的起始位置为第9924个字节，有效信息的长度为4个字节，即第9924、第9925、第9926和第9927个字节。

S306：读取有效信息中的第三字节的第一位置数值和第四字节的第二位置数值，根据第一位置数值和第二位置数值计算间隔字节数。

S307：将与有效信息间隔了间隔字节数的位置作为字符长度信息起始位置，读取字符长度信息。

在本实施场景中，字符长度信息的长度为2字节，当词文件为D型时，字符长度信息的位置为第9771+A和第9771+A+1个字节。当词文件为E型时，字字符长度信息的位置为第9927+A和第9927+A+1个字节。

S308：根据字符长度信息的第一字节的第三位置数值和第二字节第四位置数值计算字符信息的长度。

在本实施场景中。将第三位置数值和第四位置数值之和与256的乘积作为字符信息的长度。

S309：读取字符信息，根据字符信息获取词文件中的词语。

S310：判断待处理的词文件是否读取完毕，若否则重复执行步骤S305及其后续步骤。

在本实施场景中，判断待处理的词文件是否读取完毕，若未读取完毕，则将与上一有效信息间隔预设字节数的字节作为下一个有效信息的起始位置，执行步骤S305及其后续步骤，直至读取完毕该词文件。

通过上述描述可知，在本实施例中读取词文件第五个字节的ASCII码值，根据ASCII码值获取有效信息的起始位置，根据有效信息的第一位置数值和第二位置数值计算间隔字节数，将与有效信息间隔了间隔字节数的位置作为字符长度信息起始位置，字符长度信息的第一字节的第三位置数值和第二字节第四位置数值计算字符信息的长度，读取字符信息，根据字符信息获取词文件中的词语，判断待处理的词文件是否读取完毕，若否则重复执行上述步骤。实现了对词文件中的词语的自动提取，可以有效提高词语提取的工作效率。

请参阅图4，图4是本发明提供的词文件解析设备的第一实施例的结构示意图。词文件解析设备10包括：获取模块11、第一位置模块12、第二位置模块13和字符模块14。

获取模块11用于获取待处理的词文件。第一位置模块12用于读取词文件的格式信息，根据格式信息获取词文件的有效信息的位置。第二位置模块13用于读取有效信息，根据有效信息获取词文件中的字符信息的位置。字符模块14用于读取字符信息，根据字符信息获取词文件中的词语。

第一位置模块12还用于读取词文件预设位置的信息字节，根据信息字节的数值获取词文件的格式信息。

第一位置模块12还用于根据格式信息获取有效信息的起始位置，有效信息的长度为4个字节。

第二位置模块13还用于根据有效信息获取词文件的字符长度信息的位置；根据字符长度信息获取字符信息的位置。

第二位置模块13还用于读取有效信息中的第三字节的第一位置数值和第四字节的第二位置数值，根据第一位置数值和第二位置数值计算间隔字节数；将与有效信息间隔间隔字节数的位置作为字符长度信息起始位置，字符长度信息的长度为2字节。

第二位置模块13还用于将与字符信息间隔预设字节数的字节作为有效信息的起始位置；重复上述步骤，直至读取完毕词文件。

第二位置模块13还用于将字符长度信息之后的字节作为字符信息的起始位置；根据字符长度信息计算字符信息的长度。

第二位置模块13还用于读取字符长度信息中的第一字节的第三位置数值和第二字节的第四位置数值，根据第三位置数值和第四位置数值计算字符信息的长度。

通过上述描述可知，本实施例中的词文件解析设备读取词文件的格式信息，根据格式信息获取待处理的词文件的有效信息的位置，读取有效信息，根据有效信息获取字符信息的位置，读取字符信息，根据字符信息获取待处理的词文件中的词语，实现了对词文件中的词语的自动提取，可以有效提高词语提取的工作效率。

请参阅图5，图5是本发明提供的词文件解析设备的第二实施例的结构示意图。词文件解析设备20包括处理器21、存储器22。处理器21耦接存储器22。存储器22中存储有计算机程序，处理器21在工作时执行该计算机程序以实现如图1-图2所示的方法。详细的方法可参见上述，在此不再赘述。

请参阅图6，图6是本发明提供的计算机可读存储介质的一实施例的结构示意图。计算机可读存储介质30中存储有至少一个计算机程序31，计算机程序31用于被处理器执行以实现如图1-图3所示的方法，详细的方法可参见上述，在此不再赘述。在一个实施例中，计算机可读存储介质30可以是终端中的存储芯片、硬盘或者是移动硬盘或者优盘、光盘等其他可读写存储的工具，还可以是服务器等等。

通过上述描述可知，在本实施例中计算机可读存储介质中的计算机程序可以用于通根据格式信息获取待处理的词文件的有效信息的位置，读取有效信息，根据有效信息获取字符信息的位置，读取字符信息，根据字符信息获取待处理的词文件中的词语，实现了对词文件中的词语的自动提取，可以有效提高词语提取的工作效率。

区别于现有技术，本发明实现了对词文件中的词语的自动提取，可以有效提高词语提取的工作效率。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种词文件解析方法，其特征在于，包括：

获取待处理的词文件；

读取所述词文件的格式信息，根据所述格式信息获取所述词文件的有效信息的位置；

读取所述有效信息，根据所述有效信息获取所述词文件中的字符信息的位置；

读取所述字符信息，根据所述字符信息获取所述词文件中的词语；

其中，所述根据所述格式信息获取所述词文件的有效信息的位置的步骤包括：

根据所述格式信息获取所述有效信息的起始位置，所述有效信息的长度为4个字节；

其中，所述读取所述有效信息，根据所述有效信息获取所述词文件中的字符信息的位置的步骤，包括：

根据所述有效信息获取所述词文件的字符长度信息的位置；

根据所述字符长度信息获取所述字符信息的位置；

其中，所述根据所述有效信息获取所述词文件的字符长度信息的位置的步骤，包括：

读取所述有效信息中的第三字节的第一位置数值和第四字节的第二位置数值，根据所述第一位置数值和所述第二位置数值计算间隔字节数；

将与所述有效信息间隔所述间隔字节数的位置作为所述字符长度信息起始位置，所述字符长度信息的长度为2字节；

其中，所述根据所述字符长度信息获取所述字符信息的位置的步骤，包括：

将所述字符长度信息之后的字节作为所述字符信息的起始位置；

根据所述字符长度信息计算所述字符信息的长度。

2.根据权利要求1所述的词文件解析方法，其特征在于，所述读取所述词文件的格式信息的步骤，包括：

读取所述词文件预设位置的信息字节，根据所述信息字节的数值获取所述词文件的格式信息。

3.根据权利要求1所述的词文件解析方法，其特征在于，所述根据所述字符长度信息获取所述字符信息的位置的步骤之后，包括：

将与所述字符信息间隔预设字节数的字节作为所述有效信息的起始位置；

重复所述根据所述有效信息获取所述词文件的字符长度信息的位置，以及所述根据所述字符长度信息获取所述字符信息的位置的步骤，直至读取完毕所述词文件。

4.根据权利要求1所述的词文件解析方法，其特征在于，所述根据所述字符长度信息计算所述字符信息的长度的步骤，包括：

读取所述字符长度信息中的第一字节的第三位置数值和第二字节的第四位置数值，根据所述第三位置数值和所述第四位置数值计算所述字符信息的长度。

5.一种词文件解析设备，其特征在于，包括：

获取模块，用于获取待处理的词文件；

第一位置模块，用于读取所述词文件的格式信息，根据所述格式信息获取所述词文件的有效信息的位置；

第二位置模块，用于读取所述有效信息，根据所述有效信息获取所述词文件中的字符信息的位置；

字符模块，用于读取所述字符信息，根据所述字符信息获取所述词文件中的词语；

根据所述有效信息获取所述词文件的字符长度信息的位置；

根据所述字符长度信息获取所述字符信息的位置；

根据所述字符长度信息计算所述字符信息的长度。

6.一种词文件解析设备，其特征在于，包括：处理器和存储器，所述处理器耦接所述存储器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序以实现如权利要求1-4任一项所述的方法。

7.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序能够被处理器执行以实现如权利要求1-4任一项所述的方法。