CN103973311B

CN103973311B - 一种对变长二值化描述子的快速编解码算法

Info

Publication number: CN103973311B
Application number: CN201410145436.XA
Authority: CN
Inventors: 毋立芳; 侯亚希; 许晓; 周鹏; 高源�; 曹航明; 曹瑜; 漆薇
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2014-04-11
Filing date: 2014-04-11
Publication date: 2017-08-04
Anticipated expiration: 2034-04-11
Also published as: CN103973311A

Abstract

在多媒体内容描述领域里，存在很多的特征描述子。对于特征维数相对较高的特征描述子，数据量是巨大的。对特征描述子进行二值化是很多研究者的选择，但是二值化的方式种类繁多。而且，在保存二值化数据的时候往往存在很大的冗余。因此，需要一种合理的编码规则来规范二值化的表示方法。本发明提出了一种对变长二值化描述子的快速编解码算法。本发明提出的对变长二值化的编码算法，大大减少了数据冗余量，而且对各种形式的二值化方案提出了一个统一的标准。本发明相应提出了对变长二值化描述子的解码方案。对一个描述子而言，平均解码时间仅为1.90*10^‑4s，并没有带来额外的时间损失，计算速度很快。

Description

一种对变长二值化描述子的快速编解码算法

技术领域

本发明涉及多媒体内容描述领域，具体涉及一种对变长二值化描述子的快速编解码算法。

背景技术

当代社会由于科技快速发展导致信息极度膨胀，大量的多媒体信息不断的产生。对于多媒体内容的描述有很多种，如傅里叶描述子、SIFT描述子、形状上下描述子，MPEG中还定义了颜色、纹理、（物体）形状、运动等视觉描述子。对于特征维数相对较高的特征描述子，数据量是巨大的。对特征描述子进行二值化是很多研究者的选择，二值化的划分过程，可以用二叉树的方式来直观的进行描述。二叉树是以分支关系定义的层次结构，左右子树互不相交，所以不会出现特征点用二进制码型描述不唯一的情况。从二叉树树形中可以看出（如图1），二叉树的形状有很多种类，有满二叉树、完全二叉树、普通二叉树。二叉树形状的复杂也体现了二值化方式的多种多样。对于一个特征描述子，如果仅仅进行一层二值化有种方式，进行二层二值化可选择的有种方式，进行三层二值化所选择的有种方式，进行四层二值化有种方式，如果进行更多层，将会产生更多的二值化方式。以二层为例简单说明每层包含的二值化种类，如图2所示。如果对特征描述子选择的层数不统一，二值化形式则数不胜数。因此，需要一种合理的编码规则来规范二值化的表示方法。本发明提出了一种对变长二值化描述子的快速编解码算法。

发明内容

本发明提供了一种对变长二值化描述子的快速编解码算法。编码序列由码头和特征数据两部分构成。码头是对二叉树进行标识，对二值化采取的具体方式来进行编码。二叉树标识部分的具体编码方法是：对二叉树进行层序遍历依次访问各节点，从树根开始遍历，原特征描述子可以当作根节点，通过分层次来看，以从左到右的顺序，判断节点是否有子孩子，有子孩子则该节点编码为“1”，否则编码为“0”。特征数据描述部分用来表示经过二值化以后得到的特征数据。特征描述部分的编码方法是：从二叉树的根节点开始，根据每一个叶子节点的路径来获得该叶子节点的编码。解码时，首先将二值化标识部分解码出来，其表示采取的二值化方式。然后根据二值化的方式再对特征数据部分进行解码。本发明提出的编码算法是对二值化结果进行变长存储，跟统一层数二值化相比，大大的减少了数据量。解码时，每个描述子所用的平均解码时间仅为1.90*10^-4s，计算速度很快。综上所述，本发明是具有一定的实用价值和意义的。

为了实现上述问题，本发明提出了一种对变长二值化描述子的快速编解码算法。该方法具体包括：

A、编码阶段

编码由二叉树标识和特征数据两部分组成。

A1、二叉树标识

二叉树标识——将二值化采取的具体方式进行编码。规则是：对二叉树的分支关系进行编码。编码是对二叉树进行层序遍历依次访问各节点，原特征描述子可以当作根节点，从根节点出发，首先访问第一层的树根节点，然后从左到右访问第二层上的节点，接着是第三层的节点，以此类推，自上而下，自左至右逐层访问树的节点。对于每一个节点，判断该节点是否有子孩子，如果有子孩子，则该节点编码为“1”，否则编码为“0”。

A2、特征描述

特征数据描述部分用来表示特征描述子经过二值化后得到的二值化数据。特征描述子进行二值化的最后结果是通过根节点到叶子节点的路径来描述的。左节点上的数值为“0”，右节点上的数值为“1”。从二叉树的根节点开始遍历，根据每一个叶子节点的路径来获得二值编码。二叉树的左右子树是互不相交的，所以不会出现叶子节点用二进制码型描述不唯一的情况。

二值化后的特征描述子通过码头和特征数据来进行表示。码头用来判断采取的是何种二值化的方式，特征描述部分用来表示经过二值化后得到的二值化数据。通过码头可以决定特征描述子进行二值化后的特征数据编码。

B、解码阶段

解码时，首先将二值化标识部分解码出来，其表示采取的二值化方式。然后根据二值化的方式再对特征数据部分进行解码。

B1、首先对二值化标识部分进行解码，采取逐个节点进行判断的方法。从第一个节点开始，根据每个节点对应值是否为1，来判断是否进行二值化，若某一层的节点都为0，则二值化终止，即可以得到二值化标识。

B2、然后根据二值化标识部分对特征数据进行解码。为了更快的对特征数据进行解码操作，首先将二值化标识部分扩展成“满二叉树”的形式，因为满二叉树便于计算节点的位置，然后根据这种形式对特征数据部分进行解码。通过二值化标识部分的0或1来判断节点是否进行二值化，通过特征数据的0和1来判断节点所在左子节点还是右子节点，通过此节点所在的位置来得到二值化标识部分中下一个相对应的节点，依次交替进行，直至特征数据解码完成。

本发明与现有技术相比，具有以下明显的优势和有益效果：

（1）本发明对特征描述子进行二值化后的结果进行了规范化的编码。每个数据进行二值化的层数不一样，每个特征进行二值化的方式也不同，这就造成了二值化后是一个变长的结果。如果统一保存到最大层数，会带来很大的数据冗余量。经过本发明提出的对变长二值化的编码算法，大大减少了数据冗余量，而且对各种形式的二值化方案提出了一个统一的标准。

（2）本发明相应提出了对变长二值化描述子的解码方案。对一个描述子而言，平均解码时间仅为1.90*10^-4s，计算速度很快。

附图说明：

图1是特征描述子的二值化。

图2是进行二层二值化的三种方式。

图3是特征描述子进行二值化的一个实例。

具体实施方式：

本发明提出的对变长二值化描述子的快速编解码算法，对二值化特征进行变长存储，大大减少了数据存储量。每个描述子的解码并没有带来额外的时间损失，计算时间很快。

A、编码阶段

实际上，编码过程就是对二值化描述子的一个表示方式。本发明采用二叉树标识和特征数据两部分组成。

A1、二叉树标识

二叉树标识——将二值化采取的具体方式进行编码。规则是：对二叉树的分支关系进行编码。具体编码方法是，对二叉树进行层次遍历，根节点一定进行二值化，不计入编码内，首先从左到右依次访问第一层的节点，然后访问第二层的节点，以此类推，自上而下，自左至右逐层访问树的节点。对于访问到的每一个节点，判断该节点是否有子孩子，如果有子孩子，则该节点编码为“1”，否则编码为“0”。

例如二值化过程形成的二叉树如图3所示。二叉树节点上的数据是二值化后的数值，不代表具体的编码。编码是根据节点有没有子孩子来进行判断的。根节点一定进行二值化，所以根节点可以不计入编码。从第一层开始，首先考虑第一层的两个节点，左节点有子孩子，说明继续进行二值化，所以编码为1。右节点有子孩子，说明继续进行二值化，所以编码1。则第一层的描述为11。再考虑第一层中编码为1的节点，分别考虑该节点的左右节点有没有子孩子。第一层中的左节点编码为1，所以考虑其左右节点是否有子孩子。在图中可以看到，它的左右节点均没有子孩子，所以左节点编码为0，右节点编码也为0。第一层中的右节点编码为1，所以考虑其左右节点是否有子孩子。在图中可以看到，它的左节点有子孩子，编码为1。右节点没有子孩子，编码为0。所以第二层的描述为0010。然后考虑第二层中编码为1的节点，此节点的左右节点均没有子孩子。所以第三层的编码为00。此时，第三层中已经没有编码为1的节点，所以编码终止。所以二值化标识的编码为11001000。

A2、特征数据描述

特征数据描述部分用来表示特征描述子经过二值化后得到的二值化数据。特征描述子进行二值化的最后结果是通过叶子节点上的数据来描述的。从二叉树的根节点开始遍历，根据每一个叶子节点的路径来获得该叶子节点的编码。二叉树的左右子树是互不相交的，所以不会出现叶子节点用二进制码型描述不唯一的情况。

仍以图3中的二叉树为例，该二叉树包含五个叶子节点，按照根节点到叶子节点的路径来进行编码，则该特征描述子是用四种变长编码来描述的。分别为00，01，100，101。

二值化后的特征描述子就可以通过码头和特征数据表示出来。码头用来判断采取的是何种二值化的方式，从而可以决定特征描述子进行二值化后的特征数据编码。

B、解码阶段

B1、首先对二值化标识部分进行解码，采取逐个节点进行判断的方法。从第一个节点开始，根据每个节点对应值是否为1，来判断是否进行二值化，若某一层的节点都为0，则二值化终止，即可以得到二值化标识。具体解码步骤为：

1、从第一层开始进行解码，码字个数为2，用m来表示该层码字个数，

此时，m=2；

2、判断这一层中m个码字中1的个数n，若n=0，则解码终止，若n≠0，则进行步骤3；

3、根据n值计算下一层码字的个数，此时用m来表示此层码字的个数，m=2*n。然后进行步骤2，直至解码终止。

以图3中的二值化方式得到的一列编码110010001000100101......为例，第一层的码字个数一定为2，编码是11，这两个码字中1的个数为2，即n=2，说明第一层的两个节点都有子节点，所以下一层的码字个数为4，即m=2*n=2*2=4，说明第二层中有4个码字0010，这4个码字中1的个数为1，即n=1，说明第二层中只有一个节点继续进行二值化，所以下一层码字个数为2，即m=2*n=2*1=2，说明第三层有2个码字00，这2个码字中1的个数为0，说明第三层中的节点都不再进行二值化，即解码终止。解码出来的11001000即为二叉树标识部分。

B2、然后根据二值化标识部分对特征数据进行解码。为了更快的对特征数据进行解码操作，首先将二值化标识部分扩展成“满二叉树”的形式，因为满二叉树更容易来计算节点的位置，然后根据这种形式对特征数据部分进行解码。通过二值化标识部分的0或1来判断是否进行二值化，通过特征数据的0和1来判断节点所在左子节点还是右子节点，通过节点所在的位置来得到二值化标识部分中下一个相对应的节点，依次交替进行，直至特征数据解码完成。具体解码步骤为：

1)判断特征数据的第一个数值，若数值为0，则对应于码头的第1位，用k来表示此数值所在码头的位置，此时，k=1；若数值为1，则对应于码头的第2位，此时，k=2；

2)判断码头的第k位码字，若码字为0，说明此节点不再进行二值化，此节点为叶子节点，则解码终止，得到一个特征数据；若码字为1，则执行第3步；

3)读取特征数据中的下一个数值，判断数值为0或1。

4)若特征数据中的数值为0，则表示位于左节点上，所在位置为2k+1，即对应于码头的第2k+1位，令k=2k+1，执行步骤2）；

若特征数据中的数值为1，则表示位于右节点上，所在位置为2k+2，对应于码头的第2k+2位，令k=2k+2，执行步骤3）。

以上述编码得到的结果为例，首先将二值化标识部分11001000扩展成“满二叉树”的形式11001000000000，然后根据这种形式对特征数据部分进行解码。特征数据为1000100101......，首先考虑特征数据第一位为1，说明是二叉树的右节点，根据扩展的二值化标识（11001000000000），可以得到，右节点对应于二值化标识的第2位，即k=1，数值为1，说明继续进行二值化，所以接着考虑特征数据中的后一位0，0位于二叉树的左节点上，对应于二值化标识中的第2k+1位，即2*2+1=5，此时令k=5，所在位置的数值为1，所以继续进行二值化，判断特征数据的下一个数值为0，0位于二叉树的左节点上，对应于二值化标识中的第2k+1位，即2*5+1=11，所在位置的数值为0，所以二值化终止，代表此位置对应节点为叶子节点，即得到100。然后继续对下一个特征值进行解码，第一位为0，说明是二叉树的左节点，对应于二值化标识中的第1位，即k=1，数值为1，说明继续进行二值化，所以接着考虑特征数据的后一位1，1位于二叉树的右节点上，对应于二值化标识中的第2k+2位，即2*1+2=4，所在位置的数值为0，所以二值化终止，代表此节点为叶子节点，即得到10。然后依次进行，最终可以得到解码100，01，00，101.....

本发明提出了一种合理的编码规则来规范二值化的表示方法。提出了一种对变长二值化描述子的快速编解码算法。每个数据进行二值化的层数不一样，每个特征进行二值化的方式也不同，这就造成了二值化后是一个变长的结果。如果统一保存到最大层数，会带来很大的数据冗余量。经过本发明提出的对变长二值化的编码算法，大大减少了数据冗余量，而且对各种形式的二值化方案提出了一个统一的标准。本发明相应提出了对变长二值化描述子的解码方案。对一个描述子而言，平均解码时间仅为1.90*10^-4s，并没有带来额外的时间损失，计算速度很快。

Claims

1.一种对变长二值化描述子的快速编解码算法，其特征在于，包括以下步骤：

A、编码阶段

所述编码采用二叉树标识和特征数据两部分组成；

A1、二叉树标识

二叉树标识——将二值化采取的具体方式进行编码；规则是：对二叉树的分支关系进行编码；具体编码方法是，对二叉树进行层次遍历，根节点一定进行二值化，不计入编码内，首先从左到右依次访问第一层的节点，然后访问第二层的节点，自上而下，自左至右逐层访问树的节点；对于访问到的每一个节点，判断该节点是否有子孩子，如果有子孩子，则该节点编码为“1”，否则编码为“0”；

A2、特征数据描述

特征数据描述部分用来表示特征描述子经过二值化后得到的二值化数据；特征描述子进行二值化的最后结果是通过叶子节点上的数据来描述的；从二叉树的根节点开始遍历，根据每一个叶子节点的路径来获得该叶子节点的编码；二叉树的左右子树是互不相交的，所以不会出现叶子节点用二进制码型描述不唯一的情况；

二值化后的特征描述子就通过码头和特征数据表示出来；码头用来判断采取的是何种二值化的方式，从而决定特征描述子进行二值化后的特征数据编码；

B、解码阶段

B1、首先对二值化标识部分进行解码，采取逐个节点进行判断的方法；从第一个节点开始，根据每个节点对应值是否为1，来判断是否进行二值化，若某一层的节点都为0，则二值化终止，即得到二值化标识；具体解码步骤为：

(1)、从第一层开始进行解码，码字个数为2，用m来表示该层码字个数，m＝2；

(2)、判断这一层中m_i个码字中1的个数n，i表示层数，m_i表示第i层码字个数，若n＝0，则解码终止，若n≠0，则进行步骤(3)；

(3)、根据n值计算下一层码字的个数，m_i＝2*n；然后进行步骤(2)，直至解码终止；

B2、然后根据二值化标识部分对特征数据进行解码；为了更快的对特征数据进行解码操作，首先将二值化标识部分扩展成“满二叉树”的形式，因为满二叉树更容易来计算节点的位置，然后根据这种形式对特征数据部分进行解码；通过二值化标识部分的0或1来判断是否进行二值化，通过特征数据的0和1来判断节点所在左子节点还是右子节点，通过节点所在的位置来得到二值化标识部分中下一个相对应的节点，依次交替进行，直至特征数据解码完成；具体解码步骤为：

1)判断特征数据的第一个数值，若数值为0，则对应于码头的第1位，用k来表示此数值所在码头的位置，此时，k＝1；若数值为1，则对应于码头的第2位，此时，k＝2；

2)判断码头的第k位码字，若码字为0，说明此节点不再进行二值化，此节点为叶子节点，则解码终止，得到一个特征数据；若码字为1，则执行第3)步；

3)读取特征数据中的下一个数值，判断数值为0或1；

4)若特征数据中的数值为0，则表示位于左子节点上，所在位置为2k+1，即对应于码头的第2k+1位，令k＝2k+1，执行步骤2)；

若特征数据中的数值为1，则表示位于右子节点上，所在位置为2k+2，对应于码头的第2k+2位，令k＝2k+2，执行步骤3)。