CN111884659B

CN111884659B - 一种fst数据的压缩方法和装置

Info

Publication number: CN111884659B
Application number: CN202010737012.8A
Authority: CN
Inventors: 梁振兴
Original assignee: Guangzhou Ziipin Network Science & Technology Co ltd
Current assignee: Guangzhou Ziipin Network Science & Technology Co ltd
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2021-09-10
Anticipated expiration: 2040-07-28
Also published as: WO2022021876A1; US20230005474A1; CN111884659A

Abstract

本申请公开了一种FST数据的压缩方法和装置，其中方法包括：获取待压缩的FST数据，FST数据包括：状态连接弧数据和状态节点数据；将状态连接弧数据按照第一数据种类进行分解，得到第一分解数据；将状态节点数据按照第二数据种类进行分解，得到第二分解数据；将同一第一数据种类的第一分解数据按照先后顺序进行连续排列，得到各第一数据种类对应的第一排列数据；将第一排列数据与第二分解数据按照先后顺序进行混合排列，得到第二排列数据；将第一排列数据和第二排列数据进行分类统计，得到索引数据；将第一排列数据、第二排列数据和索引数据组合，以完成FST数据的压缩，有效减少了FST数据的占用空间，从而解决了数据空间浪费的技术问题。

Description

一种FST数据的压缩方法和装置

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种FST数据的压缩方法和装置。

背景技术

在自然语言处理技术领域中的语音识别、全文检索和输入法等应用中，搜索引擎在获取到输入信息后，将输入信息在词典索引中进行搜索，接着输出匹配结果。词典索引作为搜索时的匹配库，其的数据结构会影响搜索算法、搜索速度和匹配结果。

有限状态转换机(Finite-State Transducers，FST)是一种词典索引数据结构，如图1(A)所示为FST的简单结构示意图，主要包括：状态节点S₁～S₄和状态连接弧a₁～a₅，状态节点包括：起始状态标记和结束状态标记；如图1(B)所示为FST的简单数据结构示意图，状态连接弧数据包括：信号标签数据(label)、权重数据(weight)和下一状态节点标号数据(next state)，状态节点数据包括附属状态连接弧标号数据，标记为结束的状态节点对应的状态节点数据又包括结束权重数据。FST数据中存在大量冗余数据，然而FST数据一般长期存储在应用终端，在终端资源有限的情况下，大量冗余数据会造成终端内存资源紧缺。所以，FST数据的压缩优化显得十分重要。

现有的数据压缩方法中，将标记为结束的状态节点的结束权重包装成状态连接弧的权重，生成统一格式的压缩数据保存起来。如图4所示为现有的FST的压缩数据结构示意图。上述的方法虽然可以取得一定的压缩效果，但是在将标记为结束的状态节点的结束权重包装成状态连接弧的权重的过程中，为了保持压缩数据格式的一致性，又将状态节点中不存在的下一状态节点标号加入到了压缩数据中，造成了数据空间的浪费。另外，当所有状态连接弧都不包括权重时，上述的方法仍然将状态连接弧中不存在的权重加入到了压缩数据中，造成了数据空间的浪费。

因此，提供一种FST数据的高效压缩方法是本领域技术人员亟待解决的技术问题。

发明内容

有鉴于此，本申请提供了一种FST数据的压缩方法和装置，有效减少了FST数据的占用空间，解决了数据空间浪费的技术问题。

本申请第一方面提供了一种FST数据的压缩方法，包括：

获取待压缩的FST数据，所述FST数据包括：状态连接弧数据和状态节点数据；

将所述状态连接弧数据按照第一数据种类进行分解，得到第一分解数据；

将所述状态节点数据按照第二数据种类进行分解，得到第二分解数据；

将同一所述第一数据种类的所述第一分解数据按照先后顺序进行连续排列，得到各所述第一数据种类对应的第一排列数据；

将所述第一排列数据与所述第二分解数据按照先后顺序进行混合排列，得到第二排列数据；

将所述第一排列数据和所述第二排列数据进行分类统计，得到索引数据；

将所述第一排列数据、所述第二排列数据和所述索引数据组合，以完成所述FST数据的压缩。

可选地，将所述状态连接弧数据按照第一数据种类进行分解，得到第一分解数据，具体包括：

将所述状态连接弧数据按照信号标签、权重和下一状态节点标号的数据种类进行分解，得到信号标签分解数据、权重分解数据和下一状态节点标号分解数据。

可选地，将所述状态连接弧数据按照第一数据种类进行分解，得到第一分解数据，之前还包括：

根据所述信号标签的最大数值及所述状态节点数据的状态节点总数，设定所述第一分解数据的数据类型。

可选地，将所述状态连接弧数据按照第一数据种类进行分解，得到第一分解数据，之后还包括：

当所述FST数据对应的数据结构为FSA结构时，将所述信号标签分解数据中的输出信号标签分解数据移除；

当所述FST数据对应的数据结构为字典树结构时，将所述权重分解数据移除。

可选地，将所述状态节点数据按照第二数据种类进行分解，得到第二分解数据，具体包括：

将结束状态节点对应的所述状态节点数据，按照空白标签和结束权重的数据种类进行分解，得到空白标签分解数据和结束权重分解数据，其中，所述结束状态节点为：结束状态标记对应的状态节点。

可选地，将同一所述第一数据种类的所述第一分解数据按照先后顺序进行连续排列，得到各所述第一数据种类对应的第一排列数据，具体包括：

将所有所述信号标签分解数据，按照各自对应的所属状态节点的先后顺序进行连续排列，得到对应的信号标签排列数据；

将所有所述权重分解数据，按照各自对应的所属状态节点的先后顺序进行连续排列，得到对应的权重排列数据；

将所有所述下一状态节点标号分解数据，按照各自对应的所属状态节点的先后顺序进行连续排列，得到对应的下一状态节点标号排列数据。

可选地，将所述第一排列数据与所述第二分解数据按照先后顺序进行混合排列，得到第二排列数据，具体包括：

将所有所述信号标签排列数据与所述空白标签分解数据，按照各自对应的所属状态节点的先后顺序进行混合排列，得到信号标签混合排列数据；

将所有所述结束权重分解数据，按照各自对应的所属状态节点的先后顺序进行连续排列，得到结束权重排列数据。

可选地，将所述第一排列数据和所述第二排列数据进行分类统计，得到索引数据，具体包括：

将所述第一排列数据按照对应的所属状态节点进行分类统计，得到第一索引数据；

将所述第二排列数据按照对应的所属状态节点进行分类统计，得到第二索引数据。

可选地，将所述第一排列数据和所述第二排列数据进行分类统计，得到索引数据，之前还包括：

根据最大附属状态连接弧数量，设定所述索引数据的数据类型，所述最大附属状态连接弧数量为：所述状态节点数据对应的所有状态节点中，最大状态节点的附属状态连接弧数量，其中，所述最大状态节点为附属连接弧数量最多的状态节点。

可选地，将所述第一排列数据、所述第二排列数据和所述索引数据组合，以完成所述FST数据的压缩，具体包括：

将所有所述权重排列数据、所述下一状态节点标号排列数据、所述信号标签混合排列数据、所述结束权重排列数据和所述索引数据组合，以完成所述FST数据的压缩。

本申请第二方面提供了一种FST数据的压缩装置，包括：

获取单元，用于获取待压缩的FST数据，所述FST数据包括：状态连接弧数据和状态节点数据；

第一分解单元，用于将所述状态连接弧数据按照第一数据种类进行分解，得到第一分解数据；

第二分解单元，用于将所述状态节点数据按照第二数据种类进行分解，得到第二分解数据；

第一排列单元，用于将同一所述第一数据种类的所述第一分解数据按照先后顺序进行连续排列，得到各所述第一数据种类对应的第一排列数据；

第二排列单元，用于将所述第一排列数据与所述第二分解数据按照先后顺序进行混合排列，得到第二排列数据；

分类统计单元，用于将所述第一排列数据和所述第二排列数据进行分类统计，得到索引数据；

组合单元，用于将所述第一排列数据、所述第二排列数据和所述索引数据组合，以完成所述FST数据的压缩。

从以上技术方案可以看出，本申请提供的压缩方法具有以下优点：

本申请提供的一种FST数据的压缩方法，包括：获取待压缩的FST数据，FST数据包括：状态连接弧数据和状态节点数据；将状态连接弧数据按照第一数据种类进行分解，得到第一分解数据；将状态节点数据按照第二数据种类进行分解，得到第二分解数据；将同一第一数据种类的第一分解数据按照先后顺序进行连续排列，得到各第一数据种类对应的第一排列数据；将第一排列数据与第二分解数据按照先后顺序进行混合排列，得到第二排列数据；将第一排列数据和第二排列数据进行分类统计，得到索引数据；将第一排列数据、第二排列数据和索引数据组合，以完成FST数据的压缩。

本申请中，将FST数据的状态连接弧数据按照第一数据种类进行分解，得到第一分解数据，同时将状态节点数据按照第二数据种类进行分解，得到第二分解数据，然后将同一第一数据种类的第一分解数据按照先后顺序进行连续排列，得到各第一数据种类对应的第一排列数据，再接着将第一排列数据与第二分解数据按照先后顺序进行混合排列，得到第二排列数据，然后将第一排列数据和第二排列数据进行分类统计，得到索引数据，最后将第一排列数据、第二排列数据和索引数据组合，以完成FST数据的压缩。在整个过程中，是将FST数据进行了细粒度的分解和排列，不再需要额外添加其它的数据，相较于现有的为了保持压缩数据格式一致性而添加了不存在的数据的压缩方法，有效减少了FST数据的占用空间，从而解决了数据空间浪费的技术问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例所使用的附图，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1(A)为FST的简单结构示意图；

图1(B)为图1(A)的数据结构示意图；

图2为本申请实施例中一种FST数据的压缩方法的实施例一的流程示意图；

图3为本申请实施例中一种FST数据的压缩方法的实施例二的流程示意图；

图4为现有的压缩方法对FST数据进行压缩后的数据结构示意图；

图5为本申请实施例中的压缩方法对FST数据进行压缩后的数据结构示意图；

图6为本申请实施例中一种FST数据的压缩装置的实施例的结构示意图。

具体实施方式

本申请实施例提供了一种FST数据的压缩方法和装置，有效减少了FST数据的占用空间，从而解决了数据空间浪费的技术问题。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例，都属于本申请保护的范围。

首先，在对本申请实施例进行描述的过程中出现的部分名词或者术语适用于如下解释：

字典树(Trie)：一种具有相同前缀的有序前缀树。

FSA：一种不包括输出信号标签的有限状态自动机(Finite-State Automaton)。

数据类型：数据内容在存储器中的数值表示法、解释和结构。

请参阅图2，本申请实施例中一种FST数据的压缩方法的实施例一的流程示意图。

本实施例中的一种FST数据的压缩方法，包括：

步骤201、获取待压缩的FST数据，FST数据包括：状态连接弧数据和状态节点数据。

要对FST数据进行压缩，首先获取待压缩的FST数据。

需要说明的是，不同结构的FST数据可能不完全相同，但如图1(A)所示，各FST结构都包括：状态节点(state)、状态连接弧(arc)、信号标签(label)、权重(weight)、下一状态节点标号(next state)、起始状态标记(start)和结束状态标记(final)；如图1(B)所示，对应的FST数据包括：状态连接弧数据和状态节点数据，状态连接弧数据包括：信号标签数据、权重数据和下一状态节点标号数据，状态节点数据包括：结束权重数据和附属状态连接弧标号数据。对于每个状态连接弧，可以根据状态节点数据中的附属状态连接弧标号数据，确定其对应的所属状态节点。

可以理解的是，图1(A)中的标记S_i表示状态节点，a_i表示状态连接弧，加粗的标记○表示起始状态节点，标记◎表示结束状态节点。其中，结束状态节点标记又代表了结束权重标记，状态连接弧标记又代表了信号标签标记和权重标记。

步骤202、将状态连接弧数据按照第一数据种类进行分解，得到第一分解数据。

状态连接弧数据和状态节点数据结构本身存在不同，现有的压缩方法是，将状态连接弧数据和状态节点数据进行了统一，这样将导致添加了本来不存在的数据。本实施例中，不再将数据进行统一，而是将数据进行分解，并根据分解数据种类进行单独排列、混合排列等，故首先将FST数据中的状态连接弧数据按照第一数据种类进行细粒度的分解，得到细粒度的第一分解数据。

可以理解的是，参照图1(A)所示的FST结构，将该FST结构对应的FST数据进行如步骤202的处理可以是：

将状态连接弧a₁～a₅的数据按照信号标签、权重和下一状态节点标号的数据种类进行分解，得到a₁～a₅信号标签分解数据、a₁～a₅权重分解数据和a₁～a₅下一状态节点标号分解数据。

步骤203、将状态节点数据按照第二数据种类进行分解，得到第二分解数据。

本实施例中，在将状态连接弧数据进行分解时，同时将状态节点数据按照第二数据种类进行细粒度的分解，得到细粒度的第二分解数据。

可以理解的是，参照图1(A)所示的FST结构，将该FST结构对应的FST数据进行如步骤203的处理可以是：

将状态节点数据中标记为结束的状态节点S₂、S₄的数据，按照空白标签和结束权重的数据种类进行分解，得到S₂、S₄空白标签分解数据和S₂、S₄结束权重分解数据。

步骤204、将同一第一数据种类的第一分解数据按照先后顺序进行连续排列，得到各第一数据种类对应的第一排列数据。

可以理解的是，基于上述步骤202得到的第一分解数据，进行如步骤204的处理可以是：

将a₁～a₅信号标签分解数据，按照各自对应的所属状态节点的先后顺序进行连续排列，得到排列顺序为a₁信号标签、a₂信号标签、a₃信号标签、a₄信号标签、a₅信号标签的信号标签排列数据；

将a₁～a₅权重分解数据，按照各自对应的所属状态节点的先后顺序进行连续排列，得到排列顺序为a₁权重、a₂权重、a₃权重、a₄权重、a₅权重的权重排列数据；

将a₁～a₅下一状态节点标号分解数据，按照各自对应的所属状态节点的先后顺序进行连续排列，得到排列顺序为a₁下一状态节点标号、a₂下一状态节点标号、a₃下一状态节点标号、a₄下一状态节点标号、a₅下一状态节点标号的下一状态节点标号排列数据。

步骤205、将第一排列数据与第二分解数据按照先后顺序进行混合排列，得到第二排列数据。

可以理解的是，基于上述步骤204和步骤203得到的第一排列数据与第二分解数据，进行如步骤205的处理可以是：

将第一排列数据中的a₁～a₅信号标签排列数据与第二分解数据中的S₂、S₄空白标签分解数据混合，按照各自对应的所属状态节点的先后顺序进行混合排列，得到排列顺序为a₁信号标签、a₂信号标签、S₂空白标签、a₃信号标签、a₄信号标签、a₅信号标签、S₄空白标签的信号标签混合排列数据；

将S₂、S₄结束权重分解数据，按照各自对应的所属状态节点的先后顺序进行连续排列，得到排列顺序为S₂结束权重、S₄结束权重的结束权重排列数据。

步骤206、将第一排列数据和第二排列数据进行分类统计，得到索引数据。

可以理解的是，基于上述步骤204和步骤205得到的第一排列数据和第二排列数据，进行如步骤206的处理可以是：

将第一排列数据中的信号标签排列数据，按照所属状态节点进行分类统计，得到第一索引数据，索引值为S₁:2、S₂:2、S₃:1、S₄:0；

将第二排列数据中的信号标签混合排列数据，按照所属状态节点进行分类统计，得到第二索引数据，索引值为S₁:2、S₂:3、S₃:1、S₄:1。

步骤207、将第一排列数据、第二排列数据和索引数据组合，以完成FST数据的压缩。

可以理解的是，基于上述步骤204和步骤205得到的第一排列数据和第二排列数据，以及通过步骤206得到的索引数据，进行如步骤207的处理可以是：

将第一排列数据中的权重排列数据和下一状态节点标号排列数据，与第二排列数据中的信号标签混合排列数据和结束权重排列数据，以及索引数据组合，以完成FST数据的压缩。

最后得到的压缩数据的排列顺序为：S₁:2、S₂:3、S₃:1、S₄:1、a₁信号标签、a₂信号标签、S₂空白标签、a₃信号标签、a₄信号标签、a₅信号标签、S₄空白标签、a₁权重、a₂权重、a₃权重、a₄权重、a₅权重、a₁下一状态节点标号、a₂下一状态节点标号、a₃下一状态节点标号、a₄下一状态节点标号、a₅下一状态节点标号、S₂结束权重、S₄结束权重。

本实施例中，将FST数据的状态连接弧数据按照第一数据种类进行分解，得到第一分解数据，同时将状态节点数据按照第二数据种类进行分解，得到第二分解数据，然后将同一第一数据种类的第一分解数据按照先后顺序进行连续排列，得到各第一数据种类对应的第一排列数据，再接着将第一排列数据与第二分解数据按照先后顺序进行混合排列，得到第二排列数据，然后将第一排列数据和第二排列数据进行分类统计，得到索引数据，最后将第一排列数据、第二排列数据和索引数据组合，以完成FST数据的压缩。在整个过程中，是将FST数据进行了细粒度的分解和排列，不再需要额外添加其它的数据，相较于现有的为了保持压缩数据格式一致性而添加了不存在的数据的压缩方法，有效减少了FST数据的占用空间，从而解决了数据空间浪费的技术问题。

以上为本申请实施例提供的一种FST数据的压缩方法的实施例一，以下为本申请实施例提供的一种FST数据的压缩方法的实施例二。

请参阅图3，本申请实施例中一种FST数据的压缩方法的实施例二的流程示意图。

本实施例中的一种FST数据的压缩方法，包括：

步骤301、获取待压缩的FST数据，FST数据包括：状态连接弧数据和状态节点数据。

需要说明的是，步骤301的描述与实施例一中步骤201的描述相同，具体可以参见上述描述，在此不再赘述。

步骤302、根据信号标签的最大数值及状态节点总数，设定第一分解数据的数据类型。

现有的技术方案中对于FST数据采用统一的、占用空间较大的状态连接弧数据类型，其中信号标签数据类型为32-bit Integer，下一状态节点标号数据类型为32-bitInteger，权重数据类型为32-bit Float，这样会造成数据空间的浪费。因此本实施例中只需要针对各FST数据自身的情况，设计其合适的状态连接弧数据类型。故本实施例中首先计算各状态连接弧的不同数据的数值范围，即信号标签数据、权重数据和下一状态节点标号数据各自对应的数值范围，然后根据各自数值范围的最大值，分别选定各自合适的数据类型，使得对于任意状态连接弧，其的信号标签数据、权重数据和下一状态节点标号数据在各自数值范围内的任意值，都分别有各自数据类型的某个值与之对应。

可以理解的是，进行如步骤302的处理可以是：

信号标签的最大数值为127，信号标签数值范围为0～127，故信号标签数据类型为7-bit Integer；

状态节点总数为4，状态节点标号数值范围为0～3，故下一状态节点标号数据类型为2-bit Integer；

权重数值范围为0～255，故权重数据类型为8-bit Integer。

步骤303、将状态连接弧数据按照第一数据种类进行分解，得到第一分解数据。

需要说明的是，步骤303的描述与实施例一中步骤202的描述相同，具体可以参见上述描述，在此不再赘述。

步骤304、当FST数据对应的数据结构为FSA结构时，将信号标签分解数据中的输出信号标签分解数据移除。

在FST数据格式中，每个信号标签数据都包括输入信号标签数据(input label)和输出信号标签数据(output label)。当使用FST数据格式来表示FSA结构时，输入信号标签和输出信号标签的数值相等。

可以理解的是，当FST数据对应的数据结构退化或变化为FSA结构时，其所有状态连接弧数据的输入信号标签数据和输出信号标签数据的数值互相重复，对于这种情况，可以将信号标签分解数据中的输出信号标签分解数据作为冗余数据移除，进一步减小FST数据的占用空间。

步骤305、当FST数据对应的数据结构为字典树结构时，将权重分解数据移除。

当使用FST数据格式来表示字典树结构时，对于任意一个状态节点，从起始状态节点出发到达该节点的路径都是唯一的，即路径上所途径的状态连接弧的集合是唯一的。也就是说，从起始状态节点出发到达指定的目标节点，所途径的状态连接弧的权重总和，加上目标节点的结束权重，其数值是唯一的。所以，所有状态连接弧的权重可以被转移叠加到状态节点的结束权重上。

可以理解的是，当FST数据对应的数据结构为字典树结构时，其所有状态连接弧数据可能都不包括权重数据。对于这种情况，可以将权重分解数据作为冗余数据移除，进一步减小FST数据的占用空间。

步骤306、将状态节点数据按照第二数据种类进行分解，得到第二分解数据。

需要说明的是，步骤306的描述与实施例一中步骤203的描述相同，具体可以参见上述描述，在此不再赘述。

步骤307、将同一第一数据种类的第一分解数据按照先后顺序进行连续排列，得到各第一数据种类对应的第一排列数据。

需要说明的是，步骤307的描述与实施例一中步骤204的描述相同，具体可以参见上述描述，在此不再赘述。

步骤308、将第一排列数据与第二分解数据按照先后顺序进行混合排列，得到第二排列数据。

需要说明的是，步骤308的描述与实施例一中步骤205的描述相同，具体可以参见上述描述，在此不再赘述。

步骤309、根据最大附属状态连接弧数量，设定索引数据的数据类型。

需要说明的是，最大附属状态连接弧数量为：状态节点数据对应的所有状态节点中，最大状态节点的附属状态连接弧数量，其中，最大状态节点为附属连接弧数量最多的状态节点。

现有的技术方案中对于FST数据的索引数据采用数值范围较大的、占用空间也较大的地址偏移量数据类型，如图4所示，其中数据类型一般为8-bit Integer、16-bitInteger、32-bit Integer，这样会造成数据空间的浪费。因此本实施例中只需要针对各FST数据自身的情况，设计其合适的索引数据类型。由于每个状态节点的附属状态连接弧的最大数量都是有限的，并且一般不超过信号标签的最大数值，所以选定数值范围较小的、占用空间也较小的地址相对偏移量数据类型，如图5所示。

可以理解的是，进行如步骤309的处理可以是：

各状态节点的附属状态连接弧数量情况为：S₁附属2个状态连接弧、S₂附属2个状态连接弧、S₃附属1个状态连接弧、S₄附属0个状态连接弧。因此，每个状态节点的附属状态连接弧最大数量为2，考虑到可能有1个空白标签的占位情况，最大数量应该为3，索引数值范围为0～3，故索引数据类型为2-bit Integer。

步骤310、将第一排列数据和第二排列数据进行分类统计，得到索引数据。

需要说明的是，步骤310的描述与实施例一中步骤206的描述相同，具体可以参见上述描述，在此不再赘述。

步骤311、将第一排列数据、第二排列数据和索引数据组合，以完成FST数据的压缩。

需要说明的是，步骤311的描述与实施例一中步骤207的描述相同，具体可以参见上述描述，在此不再赘述。

观察通过使用不同的压缩方法得到的压缩数据，如图4所示为通过现有的压缩方法对FST数据进行压缩后，得到的压缩数据的排列结构，如图5所示为通过本实施例中的压缩方法对FST数据进行压缩后，得到的压缩数据的排列结构。可以发现，相较于现有的技术方案，通过本申请技术方案进行压缩后的数据占用空间减少了2个下一状态节点标号数据单位，以及其它因选用合适的数据类型而减少的数据单位，当FST数据对应的数据结构较为复杂时，其的节省空间是较为可观的。

本实施例中，将FST数据的状态连接弧数据按照第一数据种类进行分解，得到第一分解数据，同时将状态节点数据按照第二数据种类进行分解，得到第二分解数据，然后将同一第一数据种类的第一分解数据按照先后顺序进行连续排列，得到各第一数据种类对应的第一排列数据，再接着将第一排列数据与第二分解数据按照先后顺序进行混合排列，得到第二排列数据，然后将第一排列数据和第二排列数据进行分类统计，得到索引数据，最后将第一排列数据、第二排列数据和索引数据组合，以完成FST数据的压缩；在对状态连接弧数据进行第一数据种类分解而得到第一分解数据的过程中，可以根据信号标签的最大数值及状态节点总数来设定第一分解数据的数据类型，以及根据FST数据对应的数据结构来将输出信号标签分解数据和权重分解数据移除；在对排列数据进行分类统计而得到索引数据的过程中，可以根据最大附属状态连接弧数量来设定索引数据的数据类型。在整个过程中，是将FST数据进行了细粒度的分解和排列，不再需要额外添加其它的数据，相较于现有的为了保持压缩数据格式一致性而添加了不存在的数据的压缩方法，有效减少了FST数据的占用空间，从而解决了数据空间浪费的技术问题。

以上为本申请实施例提供的一种FST数据的压缩方法的实施例二，以下为本申请实施例提供的一种FST数据的压缩装置的实施例。

请参阅图6，本申请实施例中一种FST数据的压缩装置的实施例的结构示意图，包括：

获取单元601，用于获取待压缩的FST数据，FST数据包括：状态连接弧数据和状态节点数据；

第一分解单元602，用于将状态连接弧数据按照第一数据种类进行分解，得到第一分解数据；

第二分解单元603，用于将状态节点数据按照第二数据种类进行分解，得到第二分解数据；

第一排列单元604，用于将同一第一数据种类的第一分解数据按照先后顺序进行连续排列，得到各第一数据种类对应的第一排列数据；

第二排列单元605，用于将第一排列数据与第二分解数据按照先后顺序进行混合排列，得到第二排列数据；

分类统计单元606，用于将第一排列数据和第二排列数据进行分类统计，得到索引数据；

组合单元607，用于将第一排列数据、第二排列数据和索引数据组合，以完成FST数据的压缩。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个待安装电网网络，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接可以是电性、机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有的技术方案做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种FST数据的压缩方法，其特征在于，包括：

将所述状态连接弧数据按照第一数据种类进行分解，得到第一分解数据，其中，所述第一数据种类包括：信号标签和下一状态节点标号；

将所述状态节点数据按照第二数据种类进行分解，得到第二分解数据，其中，所述第二数据种类包括：空白标签；

将所述第一排列数据、所述第二排列数据和所述索引数据组合，以完成所述FST数据的压缩；

将所述第一排列数据、所述第二排列数据和所述索引数据组合，以完成所述FST数据的压缩，具体包括：

将所述第一排列数据中的下一状态节点标号排列数据与所述第二排列数据中的信号标签混合排列数据以及所述索引数据组合，以完成所述FST数据的压缩。

2.根据权利要求1所述的FST数据的压缩方法，其特征在于，所述第一数据种类还包括：权重；

将所述状态连接弧数据按照第一数据种类进行分解，得到第一分解数据，具体包括：

3.根据权利要求2所述的FST数据的压缩方法，其特征在于，将同一所述第一数据种类的所述第一分解数据按照先后顺序进行连续排列，得到各所述第一数据种类对应的第一排列数据，具体包括：

4.根据权利要求3所述的FST数据的压缩方法，其特征在于，所述第二数据种类还包括：结束权重；

将所述状态节点数据按照第二数据种类进行分解，得到第二分解数据，具体包括：

5.根据权利要求4所述的FST数据的压缩方法，其特征在于，将所述第一排列数据与所述第二分解数据按照先后顺序进行混合排列，得到第二排列数据，具体包括：

6.根据权利要求5所述的FST数据的压缩方法，其特征在于，将所述第一排列数据、所述第二排列数据和所述索引数据组合，以完成所述FST数据的压缩，具体包括：

7.根据权利要求2所述的FST数据的压缩方法，其特征在于，将所述状态连接弧数据按照第一数据种类进行分解，得到第一分解数据，之前还包括：

8.根据权利要求2所述的FST数据的压缩方法，其特征在于，将所述状态连接弧数据按照第一数据种类进行分解，得到第一分解数据，之后还包括：

9.根据权利要求1所述的FST数据的压缩方法，其特征在于，将所述第一排列数据和所述第二排列数据进行分类统计，得到索引数据，具体包括：

10.根据权利要求9所述的FST数据的压缩方法，其特征在于，将所述第一排列数据和所述第二排列数据进行分类统计，得到索引数据，之前还包括：

11.一种FST数据的压缩装置，其特征在于，包括：

第一分解单元，用于将所述状态连接弧数据按照第一数据种类进行分解，得到第一分解数据，其中，所述第一数据种类包括：信号标签和下一状态节点标号；

第二分解单元，用于将所述状态节点数据按照第二数据种类进行分解，得到第二分解数据，其中，所述第二数据种类包括：空白标签；

组合单元，用于将所述第一排列数据、所述第二排列数据和所述索引数据组合，以完成所述FST数据的压缩；

所述组合单元具体用于，将所述第一排列数据中的下一状态节点标号排列数据与所述第二排列数据中的信号标签混合排列数据以及所述索引数据组合，以完成所述FST数据的压缩。