CN102169480B - 一种对多级字符串序列进行编码的方法 - Google Patents

一种对多级字符串序列进行编码的方法 Download PDF

Info

Publication number
CN102169480B
CN102169480B CN201110081334A CN201110081334A CN102169480B CN 102169480 B CN102169480 B CN 102169480B CN 201110081334 A CN201110081334 A CN 201110081334A CN 201110081334 A CN201110081334 A CN 201110081334A CN 102169480 B CN102169480 B CN 102169480B
Authority
CN
China
Prior art keywords
character string
matrix
string sequence
multistage character
multistage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110081334A
Other languages
English (en)
Other versions
CN102169480A (zh
Inventor
陈俊杰
徐乙人
杨云涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201110081334A priority Critical patent/CN102169480B/zh
Publication of CN102169480A publication Critical patent/CN102169480A/zh
Application granted granted Critical
Publication of CN102169480B publication Critical patent/CN102169480B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及一种对多级字符串序列进行编码的方法,可使多级字符串编码与多级字符串一一对应,通过该编码方法所获得的编码能够保留多级字符串的各级别的从属关系,多级字符串的各个级别在其编码中均能够有所反应。通过该方法对多级字符串序列进行编码处理后,可方便对多级别字符串序列进行分析处理。

Description

一种对多级字符串序列进行编码的方法
技术领域
本发明涉及一种对多级字符串序列进行编码的方法,属于信息处理领域。
背景技术
随着计算机应用的日益广泛,越来越多的数据要需要计算机进行辅助管理和分析。计算机在对字符串类型数据进行分析之前,必须对其进行编码,且要求编码能够体现多级字符串的多级属性。
本发明可以对大量的多级字符串进行统一编码,通过该方法可直接获得一个与多级字符串序列相对应的编码序列,且多级字符串序列中的多级字符串允许出现重复。在数据量较少时。
发明内容
为了避免现有技术的不足之处,本发明提出一种对多级字符串序列进行编码的方法。
一种对多级字符串序列进行编码的方法,其特征在于具体步骤如下:
步骤1:计算多级字符串序列编码矩阵X的第1行:令多级字符串序列矩阵S的第1行对应的各级字符串编码全部为1,得到多级字符串序列编码矩阵X的第1行Xij,j=1,2,3,…,n;所述的多级字符串序列矩阵S表示为:
步骤2:在i∈{2,3,…,m}范围内依次计算多级字符串序列编码矩阵X的第i行的元素Xij,j=1,2,3,…,n;首先检查Si1,Si2,…,Sin是否与第1行至第i-1行的某个多级字符串Sk1,Sk2,…,Skn,k∈{1,2,3,…,i-1}完全相同,若相同Xij=Xkj,j=1,2,3,…,n;若不相同,去掉多级字符串序列矩阵S中的最后一列,得到n-1列的多级字符串序列矩阵S(n-1),继续检查矩阵S(n-1)中的Si1,Si2,…,Si(n-1)是否与矩阵S(n-1)中的第1行至第i-1行的某个多级字符串Sk1,Sk2,…,Sk(n-1),k∈{1,2,3,…,i-1}完全相同,在检查结果为不相同时,去掉当前多级字符串序列矩阵中的最后一列得到新的多级字符串序列矩阵,并对新矩阵进行同样的检查,若检查结果仍为不相同,则继续去掉新矩阵的最后一列,直至检查到当前多级字符串序列矩阵为n-(n-1)列,即多级字符串序列矩阵S(1)
在上述检查中,当检查到多级字符串序列矩阵S(p)结果为相同时,多级字符串序列编码矩阵X的第i行的编码为:
Xij=Xkj,j=1,2,3,…,p,{k|k<i,Sk1=Si1,Sk2=Si2,…,Skp=Sip};
Xi(p+1)=max(Xk(p+1))+1,{k|k<i,Sk1=Si1,Sk2=Si2,…,Skp=Sip};
Xij=1,j=p+2,p+3,…,n;
当检查直至矩阵S(1),结果仍为不相同时,多级字符串序列编码矩阵X的第i行的编码为:
Xi1=max(Xk1)+1,k∈{1,2,3,…,i-1};
Xij=1,j=2,3,4,…,n;
当第m行编码完成,得到了多级字符串序列编码矩阵X,表示为:
Figure BSA00000464565800021
本发明提出的一种对多级字符串序列进行编码的方法,可使多级字符串编码与多级字符串一一对应,通过该编码方法所获得的编码能够保留多级字符串的各级别的从属关系,多级字符串的各个级别在其编码中均能够有所反应。通过该方法对多级字符串序列进行编码处理后,可方便对多级别字符串序列进行分析处理。
附图说明
图1:图1是使用本发明的实现流程图,被编码的多级字符串序列中多级字符串个数为m,多级字符串的级别为n。
具体实施方式
现结合实施例、附图对本发明作进一步描述:
编码对象:
字符串:abcd
多级字符串:abcd sdfe s2as gfde
多级字符串序列:
Figure BSA00000464565800031
多级字符串序列矩阵:
S = S 11 S 12 S 13 S 14 S 21 S 22 S 23 S 24 S 31 S 32 S 33 S 34 S 41 S 42 S 43 S 44 S 51 S 52 S 53 S 54 = abcd sdfe s 2 as gfde accc egfd s 2 as gf 3 e abcd sdfe kjue gfde abcd sdfe 5 dfs fafd qcuu sdfe s 2 as gfde
编码过程:
①对矩阵S第1行进行编码,即:
X11=1;
X12=1;
X13=1;
X14=1;
②对矩阵S第2行进行编码。首先S21,S22,S23,S24与S11,S12,S13,S14不完全相同,继续检查S21,S22,S23是否与S11,S12,S13完全相同,仍不相同,继续检查S21,S22与S11,S12是否完全相同,仍不相同,继续检查S21与S11是否相同,结果仍不相同。此时有:
X21=max(Xk1)+1,(k∈{1}),即X21=Xk1+1=1+1=2;
X22=1;
X23=1;
X24=1;
③对矩阵S第3行进行编码。首先S31,S32,S33,S34与S11,S12,S13,S14及S21,S22,S23,S24都不完全相同;继续检查S31,S32,S33是否与S11,S12,S13及S21,S22,S23是否相同,结果仍不相同,继续检查S31,S32与S11,S12及S21,S22是否完全相同,发现S31,S32与S11,S12完全相同,都为abcd,sdfe,此时有:
X31=X11=1;
X32=X12=1;
X33=max(Xk3)+1,({k|k<3,S31=Sk1,S32=Sk2}),即X33=X13+1=1+1=2;
X34=1;
④对矩阵S第4行进行编码。首先S41,S42,S43,S44与S11,S12,S13,S14及S21,S22,S23,S24以及S31,S32,S33,S34都不完全相同;继续检查S41,S42,S43是否与S11,S12,S13及S21,S22,S23以及S31,S32,S33是否相同,结果仍不相同,继续检查S41,S42与S11,S12及S21,S22以及S31,S32是否完全相同,发现S41,S42与S11,S12完全相同,都为abcd,sdfe;此时有:
X41=X11=1;
X42=X12=1;
X43=max(Xk3)+1,({k|k<5,S41=Sk1,S42=Sk2}),即X43=X33+1=2+1=3;
X44=1;
⑤对矩阵S第5行进行编码。首先S51,S52,S53,S54与S11,S12,S13,S14及S21,S22,S23,S24及S31,S32,S33,S34以及S41,S42,S43,S44都不完全相同;继续检查S51,S52,S53是否与S11,S12,S13及S21,S22,S23及S31,S32,S33以及S41,S42,S43是否相同,结果仍不相同,继续检查S51,S52与S11,S12及S21,S22及S31,S32以及S41,S42是否完全相同,结果仍不相同,继续检查S51与S11及S21及S31及S41是否相同,结果仍不相同。此时有:
X51=max(Xk1)+1,(k∈{1,2,3,4}),即X51=X21+1=2+1=3;
X52=1;
X53=1;
X54=1;
至此得到了完整的多级字符串序列编码矩阵X,表示为:
X = X 11 X 12 X 13 X 14 X 21 X 22 X 23 X 24 X 31 X 32 X 33 X 34 X 41 X 42 X 43 X 44 X 51 X 52 X 53 X 54 = 1 1 1 1 2 1 1 1 1 1 2 1 1 1 3 1 3 1 1 1 .

Claims (1)

1.一种对多级字符串序列进行编码的方法,其特征在于具体步骤如下:
步骤1:计算多级字符串序列编码矩阵X的第1行:令多级字符串序列矩阵S的第1行对应的各级字符串编码全部为1,得到多级字符串序列编码矩阵X的第1行X1j,j=1,2,3,…,n;所述的多级字符串序列矩阵S表示为:
步骤2:在i∈{2,3,…,m}范围内依次计算多级字符串序列编码矩阵X的第i行的元素Xij,j=1,2,3,…,n;首先检查Si1,Si2,…,Sin是否与第1行至第i-1行的某个多级字符串Sk1,Sk2,…,Skn,k∈{1,2,3,…,i-1}完全相同,若相同则Xij=Xkj,j=1,2,3,…,n;若不相同,去掉多级字符串序列矩阵S中的最后一列,得到n-1列的多级字符串序列矩阵S(n-1),继续检查矩阵S(n-1)中的Si1,Si2,…,Si(n-1)是否与矩阵S(n-1)中的第1行至第i-1行的某个多级字符串Sk1,Sk2,…,Sk(n-1),k∈{1,2,3,…,i-1}完全相同,在检查结果为不相同时,去掉当前多级字符串序列矩阵中的最后一列得到新的多级字符串序列矩阵,并对新矩阵进行同样的检查,若检查结果仍为不相同,则继续去掉新矩阵的最后一列,直至检查到当前多级字符串序列矩阵为n-(n-1)列,即多级字符串序列矩阵S(1)
在上述检查中,当检查到多级字符串序列矩阵S(p)结果为相同时,多级字符串序列编码矩阵X的第i行的编码为:
Xij=Xkj,j=1,2,3,…,p,{k|k<i,Sk1=Si1,Sk2=Si2,…,Skp=Sip};
Xi(p+1)=max(Xk(p+1))+1,{k|k<i,Sk1=Si1,Sk2=Si2,…,Skp=Sip};
Xij=1,j=p+2,p+3,…,n;
当检查直至矩阵S(1),结果仍为不相同时,多级字符串序列编码矩阵X的第i行的编码为:
Xi1=max(Xk1)+1,k∈{1,2,3,…,i-1};
Xij=1,j=2,3,4,…,n;
当第m行编码完成,得到了多级字符串序列编码矩阵X,表示为:
Figure FSB00000808450100021
CN201110081334A 2011-03-31 2011-03-31 一种对多级字符串序列进行编码的方法 Expired - Fee Related CN102169480B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110081334A CN102169480B (zh) 2011-03-31 2011-03-31 一种对多级字符串序列进行编码的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110081334A CN102169480B (zh) 2011-03-31 2011-03-31 一种对多级字符串序列进行编码的方法

Publications (2)

Publication Number Publication Date
CN102169480A CN102169480A (zh) 2011-08-31
CN102169480B true CN102169480B (zh) 2012-08-29

Family

ID=44490644

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110081334A Expired - Fee Related CN102169480B (zh) 2011-03-31 2011-03-31 一种对多级字符串序列进行编码的方法

Country Status (1)

Country Link
CN (1) CN102169480B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1078052A (zh) * 1992-08-24 1993-11-03 杨艳忠 字符串译码编码器
CN1641633A (zh) * 2005-01-07 2005-07-20 清华大学 基于成熟工艺文档的工艺术语提取、规律分析和重用方法
CN101079023A (zh) * 2003-01-24 2007-11-28 株式会社理光 字符串处理装置、字符串处理方法和成像装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1078052A (zh) * 1992-08-24 1993-11-03 杨艳忠 字符串译码编码器
CN101079023A (zh) * 2003-01-24 2007-11-28 株式会社理光 字符串处理装置、字符串处理方法和成像装置
CN1641633A (zh) * 2005-01-07 2005-07-20 清华大学 基于成熟工艺文档的工艺术语提取、规律分析和重用方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Ellen E. Strong, Diana Lipscomb.Character Coding and Inapplicable Data.《Cladistics》.1999,第15卷(第4期),363-371. *

Also Published As

Publication number Publication date
CN102169480A (zh) 2011-08-31

Similar Documents

Publication Publication Date Title
Calhoun et al. Predicting the types of file fragments
CN104461842A (zh) 基于日志相似性来处理故障的方法和装置
CN110874625B (zh) 一种数据处理方法及装置
WO2019076177A1 (zh) 基因测序数据压缩预处理、压缩、解压方法、系统及计算机可读介质
CN111709244A (zh) 一种用于矛盾纠纷事件因果关系识别的深度学习方法
CN104346511A (zh) 一种全新的油藏动态监测方法及装置
JP2011109618A5 (zh)
CN116502162A (zh) 边缘算力网络中的异常算力联邦检测方法、系统及介质
Hanany et al. Construction and deconstruction of single instanton Hilbert series
CN116007937B (zh) 一种机械设备传动部件智能故障诊断方法及装置
CN105825269A (zh) 一种基于并行自动编码机的特征学习方法及系统
CN104699614A (zh) 一种软件缺陷组件预测的方法
CN109495211A (zh) 一种信道编码和解码方法
CN102169480B (zh) 一种对多级字符串序列进行编码的方法
CN105469601B (zh) 一种基于lzw编码的道路交通空间数据压缩方法
CN113092083A (zh) 一种基于分形维数和神经网络的机泵故障诊断方法和装置
CN105427583A (zh) 一种基于lzw编码的道路交通数据压缩方法
CN114648152B (zh) 基于状态约束和时频特征的建筑能耗预测方法及系统
CN1630255A (zh) 分析通信网络的测量结果选择的系统和方法
CN102930158A (zh) 基于偏最小二乘的变量选择方法
CN102915769A (zh) 一种处理器纠错检错edac电路实现优化方法
CN115169426B (zh) 一种基于相似性学习融合模型的异常检测方法及系统
CN104657473A (zh) 一种保证质量单调性的大规模数据挖掘方法
CN104268034B (zh) 一种数据备份方法及装置和数据恢复方法及装置
CN111562943B (zh) 一种基于事件嵌入树及gat网络的代码克隆检测方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120829

Termination date: 20150331

EXPY Termination of patent right or utility model