CN114595665A - 一种二进制极短码字符词编码集的构建方法 - Google Patents

一种二进制极短码字符词编码集的构建方法 Download PDF

Info

Publication number
CN114595665A
CN114595665A CN202210097257.8A CN202210097257A CN114595665A CN 114595665 A CN114595665 A CN 114595665A CN 202210097257 A CN202210097257 A CN 202210097257A CN 114595665 A CN114595665 A CN 114595665A
Authority
CN
China
Prior art keywords
binary
code
codes
coding
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210097257.8A
Other languages
English (en)
Inventor
吴礼明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202210097257.8A priority Critical patent/CN114595665A/zh
Publication of CN114595665A publication Critical patent/CN114595665A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/52Binary to binary

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Input From Keyboards Or The Like (AREA)

Abstract

本发明为一种二进制极短码字符词编码集的构建方法,以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,首先以二进制短码字节长度为基础,通过特定比例来获得二进制极短码字节长度,然后在二进制极短码的字节长度的位数上以整体位数作为分隔点来构建二进制双状态极短码编码,而后在以二进制双状态极短码编码生成二进制四级极短码编码结构来对应字符词领域的二进制短码集、长码集、超长码集,构建一个统一的可扩展的二进制字符词编码库的方法。本发明为一种原创技术,突破了计算机协议层的技术,可以归属于计算机的底层逻辑技术,也是属于一种全领域级的原创发明。而这种突破计算机技术的底层逻辑技术的发明,会对原有的计算机技术产生全方位的突破,对计算机的编码、存储协议、指令集操作码等产生革命性改变。

Description

一种二进制极短码字符词编码集的构建方法
一.技术领域:
本发明是一种原创技术,是一种突破了计算机协议层的技术,可以归属于计算机的底层逻辑技术。 本发明可对现有的二进制字符编码集的短码集、长码集进行规定和编排,也能对衍生的二进制词集超长码 集进行规定和编排,从而构建出以二进制极短码为编码单元集的包含二进制短码、长码、超长码的编码库, 并对其中的高频使用的二进制短码、长码连续输入单元、超长码等编码单元或编码单元集进行特定规定, 使其输入单元字节长度缩短。
二.背景技术:
本发明是一种原创技术,在构建二进制极短码的情况下,能够将该领域的二进制短码编码集、长码编 码集、衍生的词超长码编码集进行有序编辑,构建可扩展的统一编码库。说到现有的字符集,无论是ASCII 字符集,GB2312字符集,GB18030字符集,还是31位的ISO 10646全字符集,对于字符集中的高频使用的 字符都没有进行特别处置,如ASCII字符集中的空格键,各字符集中的标点符号。空格键和标点符号这些 在一般情况下都是独立输入单元,又是高频使用单元,如果能够通过技术手段实现极短码,这对于计算机 的性能将有很大的提升;而阿拉伯数字和字母一般情况下是属于连续输入单元,字母的连续输入就是单词 了,而本发明是在现有字符集的基础上,通过缩小短二进制编码字节长度,结合现有的26键大键盘多语 种输入法和10键小键盘多语种输入法,构建包括多语种词汇的输入码即词字符合集编码的全新技术。
三.发明内容:
本发明是一种原创技术,突破了计算机协议层的技术,可以归属于计算机的底层逻辑技术,也是属于 一种全领域级的原创发明。而这种突破计算机技术的底层逻辑技术的发明,会对原有的计算机技术产生全 方位的突破,对计算机的编码、存储协议、指令集操作码等产生革命性改变。
一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,首先以二进制短码字 节长度为基础,通过特定比例来获得二进制极短码字节长度,然后在二进制极短码的字节长度的位数上以 整体位数作为分隔点来构建二进制双状态极短码编码,而后在以二进制双状态极短码编码生成二进制四级 极短码编码结构来对应字符词领域的二进制短码集、长码集、超长码集,构建一个统一的可扩展的二进制 字符词编码库的方法,其特征有:
1.二进制极短码字节长度是按照二进制短码的字节长度通过特定比例来获得,其特定比例范围为小于1并 且大于二分之一:二进制极短码的字节长度最大值要比二进制短码的字节长度小一位;最小值分两种情况, 当二进制短码的字节位数为偶数时,二进制极短码的字节长度为二进制短码字节位数的二分之一数值加上 1,当二进制短码的字节位数为奇数时,二进制极短码的字节长度为二进制短码字节位数的二分之一数值 加上0.5;二进制极短码的字节长度所表示最大二进制数值应大于或等于十进制数值16;
2.在二进制极短码的字节长度位数上以整体位数作为分隔点将二进制极短码的编码分为两部分编码集合, 对应的二进制编码集合为二进制独立编码单元集合和二进制复合编码单元集合:二进制独立编码单元对应 的是高频使用二进制短码编码,一个编码对应一个高频使用二进制短码编码,为一个完整二进制编码单元; 二进制独立编码单元集合的编码单元作为标识二进制复合编码的结尾标识的二进制独立编码单元;二进制 复合编码单元通过分级结构对应的余下的短码、长码、超长码的二进制编码单元,二进制复合编码单元必 须加上二进制独立编码单元才能构成完整的二进制编码单元集;
3.二进制极短码的双状态是在二进制极短码的字节长度位数上以整体位数作为分隔点将二进制极短码的 编码分为两部分编码集来构建的,二进制极短码双状态的字节长度位数分隔点最大值应比二进制极短码的 字节长度位数小一位,字节长度位数分隔点最小值为一位;如:字节长度为四位的二进制极短码,字节长 度分隔点最大值就是三位,也就是二的三次方总共8个二进制独立编码单元和8个二进制复合编码单元; 字节长度分隔点最小值为一位,也就是二的一次方共2个二进制独立编码单元和14个二进制复合编码单元;
4.二进制复合编码单元由二进制基础复合编码单元和二进制特殊复合编码单元构成:二进制特殊复合编码 单元由分类码和扩展码组成,根据字符编码领域的短码、长码、超长码的技术特征,设定两个的二进制复 合编码作为分类码,分别是字符分类码和语种分类码,设定两个二进制复合编码作为扩展码,一个为平级 扩展码,一个为下级扩展码;基础复合编码的个数为复合编码个数减去特殊复合编码个数的值;
5.以二进制双状态编码单元生成的二进制四级编码结构单元的前三级编码结构单元为封闭型结构编码单 元集,第四级编码结构单元为开放型结构单元,分别对应:第一级编码结构的二进制编码单元集为一个二 进制独立编码单元单独构成的二进制编码集;第二级编码结构的二进制编码双单元集为一个二进制基础复 合编码单元加一个二进制独立编码单元构成的二进制编码集;第三级编码结构的二进制编码三单元集为两 个二进制基础复合编码加一个二进制独立编码单元构成的二进制编码集;第四级编码结构的二进制编码多 单元集为三个及三个以上的二进制复合编码单元加一个二进制独立编码单元构成的二进制编码集;第四级 编码结构为开放型二进制编码结构,以二进制分类码或二进制分类码加扩展码为开始编码,分类码下设二 级分类码:二级分类码的第一次分类个数是二进制基础复合编码个数的值,并支持通过平级扩展码无限展 开扩展;通过下级扩展码对二级字符分类码或二级语种分类码向下级结构进行三级扩展;下级扩展码在中 文语种编码的字扩展到词或词扩展短句时充当引导编码;下级扩展码在字符分类码的阿拉伯数字编码的整 数扩展到小数后的数字时在充当引导编码的同时还充当小数点编码:第四级编码结构为开放型二进制编码 结构,支持字符、词、短句对应多个的二进制编码多单元集。
如:第四级编码结构的语种分类码,其二级分类码,通过平级扩展码支持语种数量的扩展,平级扩展 指的是在编码库上属于同级编码,平级扩展码就是同级编码数扩展的引导编码;二级语种分类码支持下级 扩展码进行三级扩展,下级扩展码就是向下级进行编码数扩展的引导编码,以支持构建同语种多输入法编 码集需求:如中文的26键有王码输入法、拼音输入法法、音形码输入法、标记式输入法,10键同样也有 多种输入法;二级字符分类码支持下级扩展码进行三级扩展,以支持字符编码的分区数量扩展。
一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,当二进制短码的编码 字节长度为7位的ASCII编码集时,极短码字节长度取最小值4位,双状态的字节长度位数分隔点为一位, 具体方案如下:
1.二进制独立编码单元编码数值为二的一次方,共两个,二进制编码0000和0001,二进制复合编码单元 为二进制编码0010至1111,以十个基础复合编码集和四个特殊复合编码集构成,四个特殊复合编码分别 是平级扩展码、下级扩展码、字符分类码、语种分类码,其中特殊复合编码的对应关系为:1100对应“平 级扩展码”,1101对应“下级扩展码”,1110对应“字符分类码”,1111对应“语种分类码”;
2.四位二进制极短码的双状态四级编码结构为:第一级编码结构的二进制编码单元集为两个带结尾标识二 进制独立编码单元,对应字符为:0000对应“回车键”,0001对应“空格键”;第二级编码结构的二进制 编码双单元集为十个二进制基础复合编码分别加二进制独立编码0000“回车键”构成,十个二进制基础复 合编码在二级编码结构中的配对编码为六个常用标点符号加四个运算符号:0010对应标点符号“,”,0011 对应标点符号“:”,0100对应标点符号“;”,0101对应标点符号“。”,0110对应标点符号“!”,0111对 应标点符号“?”,1000对应运算符号“+”,1001对应运算符号“-”,1010对应运算符号“*”,1011对 应运算符号“/”;第三级编码结构的二进制编码三单元集为十个二进制基础复合编码两两相交加上二进制 独立编码0000“回车键”构成,共一百个,对应七位ASCII字符集的其他字符;第一、二、三级编码结构 的二进制编码单元集所组成的封闭型字符编码个数112个;第四级编码结构的二进制编码多单元集以三个 以上包括三个的二进制复合编码加上带二进制独立编码0000“回车键”或0001“空格键”构成;第四级 编码结构为开放型编码结构,以分类码(字符分类码或语种分类码)或分类码(字符分类码或语种分类码) 加平级扩展码为开始编码,字符分类码下设二级分类码:二级字符分类码对应十个二级字符分类码,对应 字符编码可包括112个第一、二、三级结构已完成对应的七位ASCII字符集编码,以通用和专业两个分类 划分字符编码,通过平级扩展码支持编码类型数量扩展,通过下级扩展码进行结构的二次扩展;语种分类 码以现有的十键输入法能够覆盖的语种作为二级编码,通过平级扩展码支持语种数量的扩展;二级语种分 类码通过下级扩展码进行三级扩展,以支持构建同语种多输入法编码集的需求;十个二进制基础复合编对 应语种编码时,对应的是十键输入法,中文的字到词组或词组到短句的扩展码采用下级扩展码作为引导编 码;十个二进制基础复合编码对应阿拉伯数字连续输入时,对应的是阿拉伯数字0~9,小数点以下级扩展 码作为引导编码和小数点对应编码。
一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,当二进制短码的编码 字节长度为7位的ASCII编码集时,极短码字节长度取5位,双状态的字节长度位数分隔点为四位,具体 方案如下:
1.二进制独立编码单元编码集的数值为二的四次方,共十六个,二进制编码由00000至01111,二进制复 合编码单元集为二进制编码由10000至11111,以一个平级扩展码、一个下级扩展码、一个字符分类码、 一个语种分类码和十二个基础复合编码构成,其中特殊复合编码的对应关系为:11100对应“平级扩展码”, 11101对应“下级扩展码”,11110对应“字符分类码”,11111对应“语种分类码”。
2.五位二进制极短码的双状态四级编码结构为:第一级编码结构的二进制编码单元集为十六个带结尾标识 二进制独立编码单元,对应字符为:00000对应“回车键”,00001对应“空格键”,00010对应标点符号“,”, 00011对应标点符号“、”,00100对应标点符号“:”,00101对应标点符号“;”,00110对应标点符号“。”, 00111对应标点符号“`”(标点符号单引号),01000对应点符号“!”,01001对应标点符号“?”,01010 对应符号“%”,01011对应运算符号“+”,01100对应运算符号“-”,01101对应运算符号“*”,01110对 应运算符号“/”,01111对应运算符号“=”;第二级编码结构的二进制编码双单元集为十二个二进制基础 复合编码加二进制独立编码00000“回车键”构成,十二个二进制基础复合编码在二级编码结构中的配对 编码为十一个标点符号:10000对应标点符号“-”,10001对应标点符号“~”,10010对应标点符号“…”, 10011对应标点符号“—”,10100对应标点符号“(”,10101对应标点符号“)”,10110对应标点符号““” (双引号前部分),10111对应标点符号“””(双引号后部分),11000对应标点符号“《”,11001对应标 点符号“》”,11010对应符号“#”,11011对应符号“&”;第三级编码结构的二进制编码三单元集为十二 个二进制基础复合编码两两相交加上二进制独立编码00000(回车键)构成,共144个;第一、二、三级 编码结构所组成的字符编码个数172个,已经比ASCII七位字符集128个编码集多了44个编码,可以用 中文的四个标点符号和朝鲜语的四十个拼音字母进行填充;第四级编码结构的二进制编码多单元集以三个 以上包括三个的二进制复合编码加上二进制独立编码构成,十六个带结尾标识二进制独立编码分别对应不 同编码组合;第四级编码结构为开放型编码结构,以分类码(字符分类码或语种分类码)或分类码(字符 分类码或语种分类码)加平级扩展码为开始编码,字符分类码下设二级分类码:二级字符分类码对应十二 个二级字符分类码,对应字符编码可包括七位的ASCII字符集和三级结构编码中另外44个编码,语种分 类码以现有的十键输入法能够覆盖的语种加上扩展码作为二级编码,通过平级扩展码支持语种数量的扩 展;二级语种分类码支持下级扩展码进行三级扩展,以支持构建同语种多输入法编码集的需求;十二个二 进制基础复合编对应语种编码时,对应的是十键输入法和两个辅助输入码,如中文的词组引导码就是输助 输入码;十二个二进制基础复合编码对应阿拉伯数字连续输入时,对应的是阿拉伯数字0~9、小数点也是 一个辅助输入码。
一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,当二进制短码的编码 字节长度为8位的ASCII编码扩展集时,极短码字节长度取最小值5位,双状态的字节长度位数分隔点为 一位,具体方案如下:
1.二进制独立编码单元编码数值为二的一次方,共两个,二进制编码00000和00001,二进制复合编码单 元为二进制编码00010至11111,以一个平级扩展码、一个下级扩展码、一个字符分类码、一个语种分类 码和二十六个基础复合编码构成,其中特殊复合编码的对应关系为:11100对应“平级扩展码”,11101对 应“下级扩展码”,11110对应“字符分类码”,11111对应“语种分类码”;
2.五位二进制极短码的双状态四级编码结构的编码单元为:第一级编码结构的二进制编码单元集为两个带 结尾标识二进制独立编码单元,对应字符为:00000对应“回车键”;00001对应“空格键”;第二级编码 结构的二进制编码双单元集为二进制基础复合编码加带结尾标识二进制独立编码00000“回车键”构成, 二十六个二进制基础复合编码在第二级编码结构中的配对编码为:00010对应标点符号“,”,00011对 应标点符号“、”,00100对应标点符号“:”,00101对应标点符号“;”,00110对应标点符号“。”, 00111对应标点符号“`”(标点符号单引号),01000对应点符号“!”,01001对应标点符号“?”, 01010对应标点符号“-”,01011对应标点符号“~”,01100对应标点符号“…”,01101对应标点符 号“—”,01110对应标点符号“(”,01111对应标点符号“)”,10000对应标点符号““”(双引号 前部分),10001对应标点符号“””(双引号后部分),10010对应标点符号“《”,10011对应标点符号“》”,10100对应符号“#”,10101对应符号“&”,10110对应符号“%”,10111对应符号“^”,11000 对应符号“¥”,11001对应符号“*”,11010对应符号“/”,11011对应符号“$”;第三级编码结构的 二进制编码三单元集为二十六个二进制基础复合编码两两相交加上二进制独立编码00000“回车键”构成, 共676个;第一、二、三级编码结构编码集所组成的二进制编码个数为704个,已经比ASCII八位扩展字 符集256个编码集多了448个编码,以阿拉伯语、印度语、日语、韩语、泰语、越南语、藏语、维语的拼 音字母为这448个第三级结构的编码单元;第四级编码结构的二进制编码多单元集以三个以上包括三个的 二进制复合编码加上二进制独立编码00000“回车键”或00001“空格键”构成;第四级编码结构为开放 型编码结构,以分类码(字符分类码、语种分类码)或分类码加平级扩展码(平级扩展码)为开始编码, 其中字符分类码下设二级分类码:二级字符分类码对应二十六个二级字符分类码,对应字符编码可包括八 位的ASCII字符集和三级结构编码中另外448个编码,语种分类码以现有的二十六键输入法能够覆盖的语 种作为二级编码,通过平级扩展码支持语种数量在同级结构上的扩展;二级语种分类码支持下级扩展码进 行三级扩展,以支持构建同语种多输入法编码集的需求;二十六个二进制基础复合编对应语种编码时,对 应的是二十六键输入法,通过下级扩展码支持同语种种输入法的编码库扩展;二十六个二进制基础复合编 码对应阿拉伯数字连续输入时,对应的是阿拉伯数字0~9共十个、算术运算符号五个(加、减、乘、除、求余)、关系运算符号六个(大于、小于、大于等于、小于等于、等于、不等于)逻辑运算符号三个(与、 或、非)、小括号符两个。
一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,当构建对象为单独二 进制短码编码集时,双状态下的四级开放型结构缩短为二级的封闭型结构,复合编码完全由基础复合编码 构成,以对应封闭型编码集:
1.二进制短码集为七位的ASCII编码集时,二进制极短码的字节长度取四位时,双状态的字节长度位数分 隔点取一位,一级编码结构的二进制编码单元为2个,二级编码结构的二进制编码单元为14的平方196 个,可容纳的二进制编码单元总共198个,多出来的编码单元70个,可用于欧洲非英语种的特有字母的 编码;
2.短码集为八位的ASCII扩展编码集时,二进制极短码的字节长度取五位时,双状态的字节长度位数分隔 点取四位,一级编码结构的二进制编码单元为16个,二级编码结构的二进制编码单元为16的平方256个, 可容纳的编码单元总共272个,多出来的编码单元16个,可用于扩充字符编码使用。
一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,其构建的对象是二进 制计算机指令集中操作码时,极短码的字节长度和封闭型二级结构的双状态分隔点如下所述:
1.用于计算机指令集操作码的极短码字节长度和封闭型二级结构:用于计算机指令集操作码的极短码字节 长度设为n,按照指令集操作码的总数应当小于极短码的第二级结构编码单元的个数,极短码封闭型二级 结构的双状态分隔点取二进制极短码的字节长度位数值n的小一位数值,即n-1,并满2的(2n-2)次方 的值大于指令集操作码的个数;
2.高频使用的二进制指令集操作码的个数由决定第一级结构的编码单元数决定,具体数值应当小于或等于 2的n-1次方的值。
一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,也适用于其它领域具 备二进制短码、长码编码集的封闭型编码集的二进制极短码构建,对于其它领域具备二进制短码、长码、 超长码编码集的开放型编码集的二进制极短码构建也适用。
一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,二进制极短码的字节 长度也是适用于构建新的二进制计算机存储磁盘、内存的字节长度单位,也适用于构建新的网络传输协议 的二进制字节长度单位。
一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,其极短码字节长度、 双状态字节长度位数分隔点、四级编码结构也适用于三位三进制、三位四进制、二位五进制、二位六进制 的极短码的编码库构建:1.三位三进制的极短码的双状态字节长度位数分隔点为两位,独立编码单元为9 个,复合编码单元为18个,可用基础复合编码单元14个;2.三位四进制的极短码的双状态字节长度位数 分隔点为两位,独立编码单元为16个,复合编码单元为48个,可用基础复合编码单元44个;二位五进 制的极短码的双状态字节长度位数分隔点为一位,独立编码单元为5个,复合编码单元为20个,可用基 础复合编码单元16个;二位六进制的极短码的双状态字节长度位数分隔点为一位,独立编码单元为6个, 复合编码单元为30个,可用基础复合编码单元26个。
一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,其编码分配方式也适 用于电子设备的输入设备的键位分配。
一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,其方法也适用于构建 多语种的全球邮政地址十六进制数字编码的方法。
四.附图说明:图1是四位二进制极短码四级编码结构图
五.具体实施方法:
本发明一种原创技术,突破了计算机协议层的技术,可以归属于计算机的底层逻辑技术,也是属于 一种全领域级的原创发明。而这种突破计算机技术的底层逻辑技术的发明,会对原有的计算机技术产生全 方位的突破,对计算机的编码、存储协议、指令集操作码等产生革命性改变。
一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,首先以二进制短码字 节长度为基础,通过特定比例来获得二进制极短码字节长度,然后在二进制极短码的字节长度的位数上以 整体位数作为分隔点来构建二进制双状态极短码编码,而后在以二进制双状态极短码编码生成二进制四级 极短码编码结构来对应字符词领域的二进制短码集、长码集、超长码集,构建一个统一的可扩展的二进制 字符词编码库的方法,其特征有:
1.二进制极短码字节长度是按照二进制短码的字节长度通过特定比例来获得,其特定比例范围为小于1并 且大于二分之一:二进制极短码的字节长度最大值要比二进制短码的字节长度小一位;最小值分两种情况, 当二进制短码的字节位数为偶数时,二进制极短码的字节长度为二进制短码字节位数的二分之一数值加上 1,当二进制短码的字节位数为奇数时,二进制极短码的字节长度为二进制短码字节位数的二分之一数值 加上0.5;二进制极短码的字节长度所表示最大二进制数值应大于或等于十进制数值16;
2.在二进制极短码的字节长度位数上以整体位数作为分隔点将二进制极短码的编码分为两部分编码集合, 对应的二进制编码集合为二进制独立编码单元集合和二进制复合编码单元集合:二进制独立编码单元对应 的是高频使用二进制短码编码,一个编码对应一个高频使用二进制短码编码,为一个完整二进制编码单元; 二进制独立编码单元集合的编码单元作为二进制复合编码的结尾标识二进制独立编码单元;二进制复合编 码单元通过分级结构对应的余下的短码、长码、超长码的二进制编码单元,二进制复合编码单元必须加上 二进制独立编码单元才能构成完整的二进制编码单元集;
3.二进制极短码的双状态是在二进制极短码的字节长度位数上以整体位数作为分隔点将二进制极短码的 编码分为两部分编码集来构建的,二进制极短码双状态的字节长度位数分隔点最大值应比二进制极短码的 字节长度位数小一位,字节长度位数分隔点最小值为一位;如:字节长度为四位的二进制极短码,字节长 度分隔点最大值就是三位,也就是二的三次方总共8个二进制独立编码单元和8个二进制复合编码单元; 字节长度分隔点最小值为一位,也就是二的一次方共2个二进制独立编码单元和14个二进制复合编码单元;
4.二进制复合编码单元由二进制基础复合编码单元和二进制特殊复合编码单元构成:二进制特殊复合编码 单元由分类码和扩展码组成,根据字符编码领域的短码、长码、超长码的技术特征,设定两个的二进制复 合编码作为分类码,分别是字符分类码和语种分类码,设定两个二进制复合编码作为扩展码,一个为平级 扩展码,一个为下级扩展码;基础复合编码的个数为复合编码个数减去特殊复合编码个数的值;
5.以二进制双状态编码单元生成的二进制四级编码结构单元的前三级编码结构单元为封闭型编码单元集, 第四级编码结构单元为开放型编码单元集,分别对应:第一级编码结构的二进制编码单元集为一个二进制 独立编码单元单独构成的二进制编码集;第二级编码结构的二进制编码双单元集为一个二进制基础复合编 码单元加一个二进制独立编码单元构成的二进制编码集;第三级编码结构的二进制编码三单元集为两个二 进制基础复合编码加一个二进制独立编码单元构成的二进制编码集;第四级编码结构的二进制编码多单元 集为三个及三个以上的二进制复合编码单元加一个二进制独立编码单元构成的二进制编码集;第四级编码 结构为开放型二进制编码结构,以二进制分类码或二进制分类码加扩展码为开始编码,分类码下设二级分 类码:二级分类码的第一次分类个数是二进制基础复合编码个数的值,并支持通过平级扩展码无限展开扩 展;通过下级扩展码对二级字符分类码或二级语种分类码向下级结构进行三级扩展;下级扩展码在中文语 种编码的字扩展到词或词扩展短句时充当引导编码;下级扩展码在字符分类码的阿拉伯数字编码的整数扩 展到小数后的数字时在充当引导编码的同时还充当小数点编码;第四级编码结构为开放型二进制编码结 构,支持字符、词、短句对应多个的二进制编码多单元集。
如:第四级编码结构的语种分类码,其二级分类码,通过平级扩展码支持语种数量的扩展,平级扩展 指的是在编码库上属于同级编码,平级扩展码就是同级编码数扩展的引导编码;二级语种分类码支持下级 扩展码进行三级扩展,下级扩展码就是向下级进行编码数扩展的引导编码,以支持构建同语种多输入法编 码集需求:如中文的26键有王码输入法、拼音输入法法、音形码输入法、标记式输入法,10键同样也有 多种输入法;二级字符分类码支持下级扩展码进行三级扩展,以支持字符编码的分区数量扩展。
一个原创发明,需要定义的名称有点多,都是全新的东西,极短码、极短码的双状态、独立编码单元、 复合编码单元、基础复合编码单元、特殊复合编码单元、双状态下字节长度位数分隔点、四级编码结构等 这些名称都需要一一详细说明其定义,并与旧技术体系产生联系,从旧技术体系中平稳转换到新技术体系。
一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,当二进制短码的编码 字节长度为7位的ASCII编码集时,极短码字节长度取最小值4位,双状态的字节长度位数分隔点为一位, 具体方案如下:
1.二进制独立编码单元编码数值为二的一次方,共两个,二进制编码0000和0001,二进制复合编码单元 为二进制编码0010至1111,以十个基础复合编码集和四个特殊复合编码集构成,四个特殊复合编码分别 是平级扩展码、下级扩展码、字符分类码、语种分类码;
2.四位二进制极短码的双状态四级编码结构为:第一级编码结构的二进制编码单元集为两个带结尾标识二 进制独立编码单元,对应字符为:0000对应“回车键”,0001对应“空格键”,第二级编码结构的二进制 编码双单元集为十个二进制基础复合编码分别加二进制独立编码0000“回车键”构成,十个二进制基础复 合编码在二级编码结构中的配对编码为六个常用标点符号加四个运算符号:0010对应标点符号“,”,0011 对应标点符号“:”,0100对应标点符号“;”,0101对应标点符号“。”,0110对应标点符号“!”,0111对 应标点符号“?”,1000对应运算符号“+”,1001对应运算符号“-”,1010对应运算符号“*”,1011对 应运算符号“/”;第三级编码结构的二进制编码三单元集为十个二进制基础复合编码两两相交加上二进制 独立编码0000“回车键”构成,共一百个,对应七位ASCII字符集的其他字符;第一、二、三级编码结构 的二进制编码单元集所组成的封闭型字符编码个数112个;第四级编码结构的二进制编码多单元集以三个 以上包括三个的二进制复合编码加上带二进制独立编码0000“回车键”或0001“空格键”构成;其中: 1100对应“平级扩展码”,1101对应“下级扩展码”,1110对应“字符分类码”,1111对应“语种分类码”; 第四级编码结构为开放型编码结构,以分类码(字符分类码或语种分类码)或分类码(字符分类码或语种 分类码)加平级扩展码为开始编码,字符分类码下设二级分类码:二级字符分类码对应十个二级字符分类码,对应字符编码可包括112个第一、二、三级结构已完成对应的七位ASCII字符集编码,以通用和专业 两个分类划分字符编码,通过平级扩展码支持编码类型数量扩展,通过下级扩展码进行结构的二次扩展; 语种分类码以现有的十键输入法能够覆盖的语种作为二级编码,通过平级扩展码支持语种数量的扩展;二 级语种分类码通过下级扩展码进行三级扩展,以支持构建同语种多输入法编码集的需求;十个二进制基础 复合编对应语种编码时,对应的是十键输入法,中文的字到词组或词组到短句的扩展码采用下级扩展码作 为引导编码;十个二进制基础复合编码对应阿拉伯数字连续输入时,对应的是阿拉伯数字0~9,小数点以 下级扩展码作为引导编码和小数点对应编码。
对于第四级结构编码的二进制多单元编码集的具体对应关系:1.阿拉伯数字的连续输入,阿拉伯数字 属于字符分类码的下级分类码,如设定阿拉伯数字的二级分类码为0010,阿拉伯数字12345.6789的第四 级结构多单元编码集为:1110(字符分类码)0010(阿拉伯数字)0011(阿拉伯数字1)0100(阿拉伯数 字2)0101(阿拉伯数字3)0110(阿拉伯数字4)0111(阿拉伯数字5)1111(下级扩展码整数向小数扩 展兼小数点)1000(阿拉伯数字6)1001(阿拉伯数字7)1010(阿拉伯数字8)1011(阿拉伯数字9)0000 (回车键“结尾标识”);
2.语种单词或短句的输入:如中文的词组输入,本发明将所有字节长度的极短码字符词库的语种分类码的 中文的语种排位排在第一位,输入法选择字符词库默认输入法,如十键的“复合码元数字键盘形码中文输 入法”,则词语“中华人民共和国”的第四级结构多单元编码集有多个,分别为全顺序编码集和高频编码 集:1.全顺序编码集:1111(语种分类码)0010(中文)0011(“中”字首部首为“口”)1000(尾笔划 竖,完成了“中”字编码,词的编码在字的后面,如“0010中、0011中国、0100中文、0101中华、0110 中华民族、0111中华人民共和国1000…1001…1010…1011…”)0010(“中”的编码)1111(以“中”字 进行词组扩展)0101(“华”字首部首单人旁编码)0101(“人”字的编码)1011(“民”字的首部首折的 编码)0100(“共”字的首部首草头的编码)1001(“和”字的首部首撇的编码)0011(“国”字的首部首大口的编码)加0000(回车键“结尾标识”)共13个极短码单元;2.高频使用编码集:1111(语种分类码) 0010(中文)0011(“中”字首部首为“口”)1000(尾笔划竖,完成了“中”字编码,词的编码在字的后 面,如“0010中、0011中国、0100中文、0101中华、0110中华民族、0111中华人民共和国 1000…1001…1010…1011…”)0111(中华人民共和国)0000(回车键“结尾标识”);如英文单词“Chinese” 的输入,本发明将所有字节长度的极短码字符词库的语种分类码的英文的语种排位排在第二位,输入法选 择字符词库默认输入法,如十键的“五行英文复笔输入编码方法”,则英文单词“Chinese”的第四级结构 多单元编码集为:1111(语种分类码)0011(语种英文)0010(字母abcd中的任一个)0011(字母efgh 中的任一个)1001(字母ijklmn中的任两个组合)0011(字母efgh中的任一个)0101(字母opqrst中 的任一个)0011(字母efgh中的任一个)0010(0010Chinese0011chinese0100…0101…0110………)0000 (回车键“结尾标识”)或0001(空格键“空格键兼结尾标识”);本发明的高频使用短语集中在拼音语种 的开始字母上,如英语短句“come in,please(请进)”的高频使用编码集为:1111(语种分类码)0011(语 种英文)0010(字母abcd中的任一个开头的英文单词为开头的高频使用短句)0010(0010come in,please0011…………)0000(回车键“结尾标识”)或0001(空格键“空格键兼结尾标识”)。
四位二进制极短码双状态四级编码结构是所有极短码构建编码库的基础,通过扩展可以产生五位二 进制极短码双状态四级编码结构的构建字符编码库的方法。从字符编码的容量来讲,二进制双状态四级结 构极短码所能够构建的字符词编码集是超越31位的ISO 10646全字符集的编码数量的,而且在字符词编 码集和输入编码集两者合一的情况,相关的细节处理至少也有上千个的发明专利产生,所以本发明只详尽 论述结构构建方法。
一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,当二进制短码的编码 字节长度为7位的ASCII编码集时,极短码字节长度取5位,双状态的字节长度位数分隔点为四位,具体 方案如下:
1.二进制独立编码单元编码集的数值为二的四次方,共十六个,二进制编码由00000至01111,二进制复 合编码单元集为二进制编码由10000至11111,以一个平级扩展码、一个下级扩展码、一个字符分类码、 一个语种分类码和十二个基础复合编码构成;
2.五位二进制极短码的双状态四级编码结构为:第一级编码结构的二进制编码单元集为十六个带结尾标识 二进制独立编码单元,对应字符为:00000对应“回车键”,00001对应“空格键”,00010对应标点符号“,”, 00011对应标点符号“、”,00100对应标点符号“:”,00101对应标点符号“;”,00110对应标点符号“。”,00111对应标点符号“`”(标点符号单引号),01000对应点符号“!”,01001对应标点符号“?”,01010 对应符号“%”,01011对应运算符号“+”,01100对应运算符号“-”,01101对应运算符号“*”,01110对 应运算符号“/”,01111对应运算符号“=”;第二级编码结构的二进制编码双单元集为十二个二进制基础 复合编码加二进制独立编码00000“回车键”构成,十二个二进制基础复合编码在二级编码结构中的配对 编码为十一个标点符号:10000对应标点符号“-”,10001对应标点符号“~”,10010对应标点符号“…”, 10011对应标点符号“—”,10100对应标点符号“(”,10101对应标点符号“)”,10110对应标点符号““” (双引号前部分),10111对应标点符号“””(双引号后部分),11000对应标点符号“《”,11001对应标 点符号“》”,11010对应符号“#”,11011对应符号“&”;第三级编码结构的二进制编码三单元集为十二 个二进制基础复合编码两两相交加上二进制独立编码00000(回车键)构成,共144个;第一、二、三级 编码结构所组成的字符编码个数172个,已经比ASCII七位字符集128个编码集多了44个编码,可以用 中文的四个标点符号和朝鲜语的四十个拼音字母进行填充;第四级编码结构的二进制编码多单元集以三个 以上包括三个的二进制复合编码加上二进制独立编码构成,十六个带结尾标识二进制独立编码分别对应不 同编码组合;其中特殊复合编码的对应关系为:11100对应“平级扩展码”,11101对应“下级扩展码”, 11110对应“字符分类码”,11111对应“语种分类码”;第四级编码结构为开放型编码结构,以分类码(字 符分类码或语种分类码)或分类码(字符分类码或语种分类码)加平级扩展码为开始编码,字符分类码下 设二级分类码:二级字符分类码对应十二个二级字符分类码,对应字符编码可包括七位的ASCII字符集和 三级结构编码中另外44个编码,语种分类码以现有的十键输入法能够覆盖的语种加上扩展码作为二级编 码,通过平级扩展码支持语种数量的扩展;二级语种分类码支持下级扩展码进行三级扩展,以支持构建同 语种多输入法编码集的需求;十二个二进制基础复合编对应语种编码时,对应的是十键输入法和两个辅助 输入码,如中文的词组引导码就是输助输入码;十二个二进制基础复合编码对应阿拉伯数字连续输入时, 对应的是阿拉伯数字0~9、小数点也是一个辅助输入码。
对于第四级结构编码的二进制多单元编码集的具体对应关系可以参照四位二进制极短码四级编码的 第四级编码集对应关系例子,区别于四位二进制极短码四级编码的基础复合编码集的个数为10个,五位 二进制编码极短码的基础复合编码的个数为12个,能多容纳两个中文汉字或拼音类单词;十六个带结尾 标识的独立编码单元对应相应的标点符号、空格键、运算符号的结尾编码,如等式:5+25=30;设定阿拉 伯数字的二级分类码为10000,则上述等式的第四级结构多单元编码集为三个,第一个“5+”:11110(字 符分类码)10000(阿拉伯数字)10101(阿拉伯数字5)01011(运算符号+“加号兼结尾标识”);第二个“25=”:11110(字符分类码)10000(阿拉伯数字)10010(阿拉伯数字2)10101(阿拉伯数字5)01111 (运算符号=“等号兼结尾标识”);第三个“30”:11110(字符分类码)10000(阿拉伯数字)10011(阿 拉伯数字3)10000(阿拉伯数字0)00000(回车键“结尾标识”)。
一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,当二进制短码的编码 字节长度为8位的ASCII编码扩展集时,极短码字节长度取最小值5位,双状态的字节长度位数分隔点为 一位,具体方案如下:
1.二进制独立编码单元编码数值为二的一次方,共两个,二进制编码00000和00001,二进制复合编码单 元为二进制编码00010至11111,以一个平级扩展码、一个下级扩展码、一个字符分类码、一个语种分类 码和二十六个基础复合编码构成;
2.五位二进制极短码的双状态四级编码结构的编码单元为:第一级编码结构的二进制编码单元集为两个带 结尾标识二进制独立编码单元,对应字符为:00000对应“回车键”;00001对应“空格键”;第二级编码 结构的二进制编码双单元集为二进制基础复合编码加带结尾标识二进制独立编码00000“回车键”构成, 二十六个二进制基础复合编码在第二级编码结构中的配对编码为:00010对应标点符号“,”,00011对 应标点符号“、”,00100对应标点符号“:”,00101对应标点符号“;”,00110对应标点符号“。”, 00111对应标点符号“`”(标点符号单引号),01000对应点符号“!”,01001对应标点符号“?”, 01010对应标点符号“-”,01011对应标点符号“~”,01100对应标点符号“…”,01101对应标点符 号“—”,01110对应标点符号“(”,01111对应标点符号“)”,10000对应标点符号““”(双引号 前部分),10001对应标点符号“””(双引号后部分),10010对应标点符号“《”,10011对应标点符号“》”,10100对应符号“#”,10101对应符号“&”,10110对应符号“%”,10111对应符号“^”,11000 对应符号“¥”,11001对应符号“*”,11010对应符号“/”,11011对应符号“$”;第三级编码结构的 二进制编码三单元集为二十六个二进制基础复合编码两两相交加上二进制独立编码00000“回车键”构成, 共676个;第一、二、三级编码结构编码集所组成的二进制编码个数为704个,已经比ASCII八位扩展字 符集256个编码集多了448个编码,以阿拉伯语、印度语、日语、韩语、泰语、越南语、藏语、维语的拼 音字母为这448个第三级结构的编码单元;第四级编码结构的二进制编码多单元集以三个以上包括三个的 二进制复合编码加上二进制独立编码00000“回车键”或00001“空格键”构成;其中特殊复合编码的对 应关系为:11100对应“平级扩展码”,11101对应“下级扩展码”,11110对应“字符分类码”,11111对 应“语种分类码”;第四级编码结构为开放型编码结构,以分类码(11110对应“字符分类码”、11111对 应“语种分类码”)或分类码加平级扩展码(11100对应“平级扩展码”)为开始编码,字符分类码下设二 级分类码:二级字符分类码对应二十六个二级字符分类码,对应字符编码可包括八位的ASCII字符集和三 级结构编码中另外448个编码,语种分类码以现有的二十六键输入法能够覆盖的语种作为二级编码,通过 平级扩展码支持语种数量在同级结构上的扩展;二级语种分类码支持下级扩展码进行三级扩展,以支持构 建同语种多输入法编码集的需求;二十六个二进制基础复合编对应语种编码时,对应的是二十六键输入法, 通过下级扩展码(11101对应“下级扩展码”)支持同语种种输入法的编码库扩展;二十六个二进制基础复 合编码对应阿拉伯数字连续输入时,对应的是阿拉伯数字0~9共十个、算术运算符号五个(加、减、乘、 除、求余)、关系运算符号六个(大于、小于、大于等于、小于等于、等于、不等于)逻辑运算符号三个 (与、或、非)、小括号符两个。
对于第四级结构编码的二进制多单元编码集的具体对应关系,级结构编码的二进制多单元编码集的具 体对应关系可以参照四位二进制极短码四级编码的第四级编码集对应关系例子,区别于四位二进制极短码 四级编码的基础复合编码集的个数为10个,五位二进制编码极短码的基础复合编码的个数为26个,能多 容纳16个中文汉字或拼音类单词,对于首字母的短句容量大大提升;而在阿拉伯数字进行基础计算时, 能够支持整个等式对应一个编码集,如设定中:阿拉伯数字属于字符分类码的下级分类码,如设定阿拉伯 数字的二级分类码为00010,数字等式(1+2+3-4)*5+9/3=13的第四级结构多单元编码集为:11110(字 符分类码)00010(阿拉伯数字)11010(小括号前半部)00011(阿拉伯数字1)01100(运算符号加号) 00100(阿拉伯数字2)01100(运算符号加号)00101(阿拉伯数字3)01101(运算符号减号)00110(阿 拉伯数字4)11011(小括号后部分)01110(运算符号乘号)00111(阿拉伯数字5)01100(运算符号加 号)01011(阿拉伯数字9)01111(运算符号除号)00101(阿拉伯数字3)10101(运算符号等号)00011 (阿拉伯数字1)00101(阿拉伯数字3)00000(回车键“结尾标识”);
六位二进制极短码可构建对应六十进制的编码集:六十进制是一个特殊的进制,对应的如小时、分钟、 秒等,应用领域也比较特殊,本发明不展开论述。
一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,当构建对象为单独二 进制短码编码集时,双状态下的四级开放型结构缩短为二级的封闭型结构,复合编码完全由基础复合编码 构成,以对应封闭型编码集:
1.二进制短码集为七位的ASCII编码集时,二进制极短码的字节长度取四位时,双状态的字节长度位数分 隔点取一位,一级编码结构的二进制编码单元为2个,二级编码结构的二进制编码单元为14的平方196 个,可容纳的二进制编码单元总共198个,多出来的编码单元70个,可用于欧洲非英语种的特有字母的 编码;
2.短码集为八位的ASCII扩展编码集时,二进制极短码的字节长度取五位时,双状态的字节长度位数分隔 点取四位,一级编码结构的二进制编码单元为16个,二级编码结构的二进制编码单元为16的平方256个, 可容纳的编码单元总共272个,多出来的编码单元16个,可用于扩充字符编码使用。
一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,其构建的对象是二进 制计算机指令集中操作码时,极短码的字节长度和封闭型二级结构的双状态分隔点如下所述:
1.用于计算机指令集操作码的极短码字节长度和封闭型二级结构:用于计算机指令集操作码的极短码字节 长度设为n,按照指令集操作码的总数应当小于极短码的第二级结构编码单元的个数,极短码封闭型二级 结构的双状态分隔点取二进制极短码的字节长度位数值n的小一位数值,即n-1,并满2的(2n-2)次方 的值大于指令集操作码的个数;
2.高频使用的二进制指令集操作码的个数由决定第一级结构的编码单元数决定,具体数值应当小于或等于 2的n-1次方的值。
如:计算机指令集操作码的总个数为两百个,则2的(2n-2)次方大于200,则2n-2=8满足上面条件, n=5。
如上述的计算机指令集操作码的极短码的字节长度最小值为五位,双状态分隔点的位数是四位,能容 纳的高频使用计算机指令集操作码的个数是2的四次方共16个。
二进制极短码所构建适用于计算机指令集操作码的编码集可以很好的解决指令集操作码的一个痛点, 即百分之十的操作码执行百分之九十的命令;对于涉及操作对象的内外指令,也可以在二级状态的复合编 码中设定一个分类码作为特殊复合编码,生成第三级结构来解决;想要构建自主的计算机指令集,需要更 多的原创技术,本发明只能解决一个痛点,超长指令是计算机指令集的另外一个痛点,操作数的规范格式 化需要在另外一个原创技术中才能够表达,这里就不多语了。
一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,也适用于其它领域具 备二进制短码、长码编码集的封闭型编码集的二进制极短码构建,对于其它领域具备二进制短码、长码、 超长码编码集的开放型编码集的二进制极短码构建也适用。
一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,二进制极短码的字节 长度也是适用于构建新的二进制计算机存储磁盘、内存的字节长度单位,也适用于构建新的网络传输协议 的二进制字节长度单位。
一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,其极短码字节长度、 双状态字节长度位数分隔点、四级编码结构也适用于三位三进制、二位四进制、二位五进制、二位六进制 的极短码的编码库构建:1.三位三进制的极短码的双状态字节长度位数分隔点为两位,独立编码单元为9 个,复合编码单元为18个,可用基础复合编码单元14个;2.三位四进制的极短码的双状态字节长度位数 分隔点为两位,独立编码单元为16个,复合编码单元为48个,可用基础复合编码单元44个;二位五进 制的极短码的双状态字节长度位数分隔点为一位,独立编码单元为5个,复合编码单元为20个,可用基 础复合编码单元16个;二位六进制的极短码的双状态字节长度位数分隔点为一位,独立编码单元为6个, 复合编码单元为30个,可用基础复合编码单元26个。
对于可用基础复合编码单元个数大于10个小于26个的,套用十键输入法,可用基础复合编码单元大 于26个的,套用26键输入法。
一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,其编码分配方式也适 用于电子设备的输入设备:如计算机、手机、平板电脑、笔记本电脑的实物键盘或虚拟键盘,通过对四位 二进制或五位二进制的编码结构单元进行四行或五行的编码位置分配,增加配套的删除键或后退键和清空 键,就可以组成用于全语种全字符输入的输入设备了。
一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,其方法也适用于构建 多语种的全球邮政地址十六进制数字编码:用十六进制数字代替字符词的编码,对于扫描设备是十分友好 的,编码数量少,长度小,方便多语种设定。

Claims (11)

1.一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,首先以二进制短码字节长度为基础,通过特定比例来获得二进制极短码字节长度,然后在二进制极短码的字节长度的位数上以整体位数作为分隔点来构建二进制双状态极短码编码,而后在以二进制双状态极短码编码生成二进制四级极短码编码结构来对应字符词领域的二进制短码集、长码集、超长码集,构建一个统一的可扩展的二进制字符词编码库的方法,其特征有:(1).二进制极短码字节长度是按照二进制短码的字节长度通过特定比例来获得,其特定比例范围为小于1并且大于二分之一:1)二进制极短码的字节长度最大值要比二进制短码的字节长度小一位;2)最小值分两种情况,当二进制短码的字节位数为偶数时,二进制极短码的字节长度为二进制短码字节位数的二分之一数值加上1,当二进制短码的字节位数为奇数时,二进制极短码的字节长度为二进制短码字节位数的二分之一数值加上0.5;3)二进制极短码的字节长度所表示最大二进制数值应大于或等于十进制数值16;(2).在二进制极短码的字节长度位数上以整体位数作为分隔点将二进制极短码的编码分为两部分编码集合,对应的二进制编码集合为二进制独立编码单元集合和二进制复合编码单元集合:1)二进制独立编码单元对应的是高频使用二进制短码编码,一个编码对应一个高频使用二进制短码编码,为一个完整二进制编码单元;2)二进制独立编码单元集合的编码单元作为标识二进制复合编码的结尾标识的二进制独立编码单元;3)二进制复合编码单元通过分级结构对应的余下的短码、长码、超长码的二进制编码单元,二进制复合编码单元必须加上二进制独立编码单元才能构成完整的二进制编码单元集;(3).二进制极短码的双状态是在二进制极短码的字节长度位数上以整体位数作为分隔点将二进制极短码的编码分为两部分编码集来构建的,二进制极短码双状态的字节长度位数分隔点最大值应比二进制极短码的字节长度位数小一位,字节长度位数分隔点最小值为一位;(4).二进制复合编码单元由二进制基础复合编码单元和二进制特殊复合编码单元构成:1)二进制特殊复合编码单元由分类码和扩展码组成,根据字符编码领域的短码、长码、超长码的技术特征,设定两个的二进制复合编码作为分类码,分别是字符分类码和语种分类码,设定两个二进制复合编码作为扩展码,一个为平级扩展码,一个为下级扩展码;2)基础复合编码的个数为复合编码个数减去特殊复合编码个数的值;(5).以二进制双状态编码单元生成的二进制四级编码结构单元的前三级编码结构单元为封闭型结构编码单元集,第四级编码结构单元为开放型结构单元,分别对应:1)第一级编码结构的二进制编码单元集为一个二进制独立编码单元单独构成的二进制编码集;2)第二级编码结构的二进制编码双单元集为一个二进制基础复合编码单元加一个二进制独立编码单元构成的二进制编码集;3)第三级编码结构的二进制编码三单元集为两个二进制基础复合编码加一个二进制独立编码单元构成的二进制编码集;4)第四级编码结构的二进制编码多单元集为三个及三个以上的二进制复合编码单元加一个二进制独立编码单元构成的二进制编码集;5)第四级编码结构为开放型二进制编码结构,以二进制分类码或二进制分类码加扩展码为开始编码,分类码下设二级分类码:①二级分类码的第一次分类个数是二进制基础复合编码个数的值,并支持通过平级扩展码无限展开扩展;②通过下级扩展码对二级字符分类码或二级语种分类码向下级结构进行三级扩展;③下级扩展码在中文语种编码的字扩展到词或词扩展短句时充当引导编码;④下级扩展码在字符分类码的阿拉伯数字编码的整数扩展到小数后的数字时在充当引导编码的同时还充当小数点编码;⑤第四级编码结构为开放型二进制编码结构,支持字符、词、短句对应多个的二进制编码多单元集。
2.根据权利要求1所述,一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,当二进制短码的编码字节长度为7位的ASCII编码集时,极短码字节长度取最小值4位,双状态的字节长度位数分隔点为一位,具体方案如下:(1).二进制独立编码单元编码数值为二的一次方,共两个,二进制编码0000和0001,二进制复合编码单元为二进制编码0010至1111,以十个基础复合编码集和四个特殊复合编码集构成,四个特殊复合编码分别是平级扩展码、下级扩展码、字符分类码、语种分类码,其中特殊复合编码的对应关系为:1100对应“平级扩展码”,1101对应“下级扩展码”,1110对应“字符分类码”,1111对应“语种分类码”;(2).四位二进制极短码的双状态四级编码结构为:第一级编码结构的二进制编码单元集为两个带结尾标识二进制独立编码单元,对应字符为:1)0000对应“回车键”,0001对应“空格键”;2)第二级编码结构的二进制编码双单元集为十个二进制基础复合编码分别加二进制独立编码0000“回车键”构成,十个二进制基础复合编码在二级编码结构中的配对编码为六个常用标点符号加四个运算符号:0010对应标点符号“,”,0011对应标点符号“:”,0100对应标点符号“;”,0101对应标点符号“。”,0110对应标点符号“!”,0111对应标点符号“?”,1000对应运算符号“+”,1001对应运算符号“-”,1010对应运算符号“*”,1011对应运算符号“/”;3)第三级编码结构的二进制编码三单元集为十个二进制基础复合编码两两相交加上二进制独立编码0000“回车键”构成,共一百个,对应七位ASCII字符集的其他字符;4)第一、二、三级编码结构的二进制编码单元集所组成的封闭型字符编码个数112个;5)第四级编码结构的二进制编码多单元集以三个以上包括三个的二进制复合编码加上带二进制独立编码0000“回车键”或0001“空格键”构成;6)第四级编码结构为开放型编码结构,以分类码(字符分类码或语种分类码)或分类码(字符分类码或语种分类码)加平级扩展码为开始编码,字符分类码下设二级分类码:①二级字符分类码对应十个二级字符分类码,对应字符编码可包括112个第一、二、三级结构已完成对应的七位ASCII字符集编码,以通用和专业两个分类划分字符编码,通过平级扩展码支持编码类型数量扩展,通过下级扩展码进行结构的二次扩展;②语种分类码以现有的十键输入法能够覆盖的语种作为二级编码,通过平级扩展码支持语种数量的扩展;③二级语种分类码通过下级扩展码进行三级扩展,以支持构建同语种多输入法编码集的需求;④十个二进制基础复合编对应语种编码时,对应的是十键输入法,中文的字到词组或词组到短句的扩展码采用下级扩展码作为引导编码;⑤十个二进制基础复合编码对应阿拉伯数字连续输入时,对应的是阿拉伯数字0~9,小数点以下级扩展码作为引导编码和小数点对应编码。
3.根据权利要求1所述,一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,当二进制短码的编码字节长度为7位的ASCII编码集时,极短码字节长度取5位,双状态的字节长度位数分隔点为四位,具体方案如下:(1).二进制独立编码单元编码集的数值为二的四次方,共十六个,二进制编码由00000至01111,二进制复合编码单元集为二进制编码由10000至11111,以一个平级扩展码、一个下级扩展码、一个字符分类码、一个语种分类码和十二个基础复合编码构成,其中特殊复合编码的对应关系为:11100对应“平级扩展码”,11101对应“下级扩展码”,11110对应“字符分类码”,11111对应“语种分类码”;(2).五位二进制极短码的双状态四级编码结构为:1)第一级编码结构的二进制编码单元集为十六个带结尾标识二进制独立编码单元,对应字符为:00000对应“回车键”,00001对应“空格键”,00010对应标点符号“,”,00011对应标点符号“、”,00100对应标点符号“:”,00101对应标点符号“;”,00110对应标点符号“。”,00111对应标点符号“`”(标点符号单引号),01000对应点符号“!”,01001对应标点符号“?”,01010对应符号“%”,01011对应运算符号“+”,01100对应运算符号“-”,01101对应运算符号“*”,01110对应运算符号“/”,01111对应运算符号“=”;2)第二级编码结构的二进制编码双单元集为十二个二进制基础复合编码加二进制独立编码00000“回车键”构成,十二个二进制基础复合编码在二级编码结构中的配对编码为十一个标点符号:10000对应标点符号“-”,10001对应标点符号“~”,10010对应标点符号“…”,10011对应标点符号“-”,10100对应标点符号“(”,10101对应标点符号“)”,10110对应标点符号““”(双引号前部分),10111对应标点符号“””(双引号后部分),11000对应标点符号“《”,11001对应标点符号“》”,11010对应符号“#”,11011对应符号“&”;3)第三级编码结构的二进制编码三单元集为十二个二进制基础复合编码两两相交加上二进制独立编码00000(回车键)构成,共144个;4)第一、二、三级编码结构所组成的字符编码个数172个,已经比ASCII七位字符集128个编码集多了44个编码,可以用中文的四个标点符号和朝鲜语的四十个拼音字母进行填充;5)第四级编码结构的二进制编码多单元集以三个以上包括三个的二进制复合编码加上二进制独立编码构成,十六个带结尾标识二进制独立编码分别对应不同编码组合;6)第四级编码结构为开放型编码结构,以分类码(字符分类码或语种分类码)或分类码(字符分类码或语种分类码)加平级扩展码为开始编码,字符分类码下设二级分类码:①二级字符分类码对应十二个二级字符分类码,对应字符编码可包括七位的ASCII字符集和三级结构编码中另外44个编码,语种分类码以现有的十键输入法能够覆盖的语种加上扩展码作为二级编码,通过平级扩展码支持语种数量的扩展;②二级语种分类码支持下级扩展码进行三级扩展,以支持构建同语种多输入法编码集的需求;③十二个二进制基础复合编对应语种编码时,对应的是十键输入法和两个辅助输入码,如中文的词组引导码就是输助输入码;④十二个二进制基础复合编码对应阿拉伯数字连续输入时,对应的是阿拉伯数字0~9、小数点也是一个辅助输入码。
4.根据权利要求1所述,一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,当二进制短码的编码字节长度为8位的ASCII编码扩展集时,极短码字节长度取最小值5位,双状态的字节长度位数分隔点为一位,具体方案如下:(1).二进制独立编码单元编码数值为二的一次方,共两个,二进制编码00000和00001,二进制复合编码单元为二进制编码00010至11111,以一个平级扩展码、一个下级扩展码、一个字符分类码、一个语种分类码和二十六个基础复合编码构成,其中特殊复合编码的对应关系为:11100对应“平级扩展码”,11101对应“下级扩展码”,11110对应“字符分类码”,11111对应“语种分类码”;(2)五位二进制极短码的双状态四级编码结构的编码单元为:1)第一级编码结构的二进制编码单元集为两个带结尾标识二进制独立编码单元,对应字符为:00000对应“回车键”,00001对应“空格键”;2)第二级编码结构的二进制编码双单元集为二进制基础复合编码加带结尾标识二进制独立编码00000“回车键”构成,二十六个二进制基础复合编码在第二级编码结构中的配对编码为:00010对应标点符号“,”,00011对应标点符号“、”,00100对应标点符号“:”,00101对应标点符号“;”,00110对应标点符号“。”,00111对应标点符号“`”(标点符号单引号),01000对应点符号“!”,01001对应标点符号“?”,01010对应标点符号“-”,01011对应标点符号“~”,01100对应标点符号“…”,01101对应标点符号“-”,01110对应标点符号“(”,01111对应标点符号“)”,10000对应标点符号““”(双引号前部分),10001对应标点符号“””(双引号后部分),10010对应标点符号“《”,10011对应标点符号“》”,10100对应符号“#”,10101对应符号“&”,10110对应符号“%”,10111对应符号“^”,11000对应符号“¥”,11001对应符号“*”,11010对应符号“/”,11011对应符号“$”;3)第三级编码结构的二进制编码三单元集为二十六个二进制基础复合编码两两相交加上二进制独立编码00000“回车键”构成,共676个;4)第一、二、三级编码结构编码集所组成的二进制编码个数为704个,已经比ASCII八位扩展字符集256个编码集多了448个编码,以阿拉伯语、印度语、日语、韩语、泰语、越南语、藏语、维语的拼音字母为这448个第三级结构的编码单元;5)第四级编码结构的二进制编码多单元集以三个以上包括三个的二进制复合编码加上二进制独立编码00000“回车键”或00001“空格键”构成;6)第四级编码结构为开放型编码结构,以分类码(字符分类码、语种分类码)或分类码加平级扩展码(平级扩展码)为开始编码,其中字符分类码下设二级分类码:①二级字符分类码对应二十六个二级字符分类码,对应字符编码可包括八位的ASCII字符集和三级结构编码中另外448个编码,语种分类码以现有的二十六键输入法能够覆盖的语种作为二级编码,通过平级扩展码支持语种数量在同级结构上的扩展;②二级语种分类码支持下级扩展码进行三级扩展,以支持构建同语种多输入法编码集的需求;③二十六个二进制基础复合编对应语种编码时,对应的是二十六键输入法,通过下级扩展码支持同语种种输入法的编码库扩展;④二十六个二进制基础复合编码对应阿拉伯数字连续输入时,对应的是阿拉伯数字0~9共十个、算术运算符号五个(加、减、乘、除、求余)、关系运算符号六个(大于、小于、大于等于、小于等于、等于、不等于)逻辑运算符号三个(与、或、非)、小括号符两个。
5.根据权利要求1所述,一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,当构建对象为单独二进制短码编码集时,双状态下的四级开放型结构缩短为二级的封闭型结构,复合编码完全由基础复合编码构成,以对应封闭型编码集:(1)二进制短码集为七位的ASCII编码集时,二进制极短码的字节长度取四位时,双状态的字节长度位数分隔点取一位,一级编码结构的二进制编码单元为2个,二级编码结构的二进制编码单元为14的平方196个,可容纳的二进制编码单元总共198个,多出来的编码单元70个,可用于欧洲非英语种的特有字母的编码;(2)短码集为八位的ASCII扩展编码集时,二进制极短码的字节长度取五位时,双状态的字节长度位数分隔点取四位,一级编码结构的二进制编码单元为16个,二级编码结构的二进制编码单元为16的平方256个,可容纳的编码单元总共272个,多出来的编码单元16个,可用于扩充字符编码使用。
6.根据权利要求1或权利要求5所述,一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,其构建的对象是二进制计算机指令集中操作码时,极短码的字节长度和封闭型二级结构的双状态分隔点如下所述:(1)用于计算机指令集操作码的极短码字节长度和封闭型二级结构:用于计算机指令集操作码的极短码字节长度设为n,按照指令集操作码的总数应当小于极短码的第二级结构编码单元的个数,极短码封闭型二级结构的双状态分隔点取二进制极短码的字节长度位数值n的小一位数值,即n-1,并满2的(2n-2)次方的值大于指令集操作码的个数;(2)高频使用的二进制指令集操作码的个数由决定第一级结构的编码单元数决定,具体数值应当小于或等于2的n-1次方的值。
7.根据权利要求1或权利要求5所述,一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,也适用于其它领域具备二进制短码、长码编码集的封闭型编码集的二进制极短码构建,对于其它领域具备二进制短码、长码、超长码编码集的开放型编码集的二进制极短码构建也适用。
8.据权利要求1所述,一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,二进制极短码的字节长度也是适用于构建新的二进制计算机存储磁盘、内存的字节长度单位,也适用于构建新的网络传输协议的二进制字节长度单位。
9.根据权利要求1所述,一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,其极短码字节长度、双状态字节长度位数分隔点、四级编码结构也适用于三位三进制、三位四进制、二位五进制、二位六进制的极短码的编码库构建:(1)三位三进制的极短码的双状态字节长度位数分隔点为两位,独立编码单元为9个,复合编码单元为18个,可用基础复合编码单元14个;(2)三位四进制的极短码的双状态字节长度位数分隔点为两位,独立编码单元为16个,复合编码单元为48个,可用基础复合编码单元44个;(3)二位五进制的极短码的双状态字节长度位数分隔点为一位,独立编码单元为5个,复合编码单元为20个,可用基础复合编码单元16个;(4)二位六进制的极短码的双状态字节长度位数分隔点为一位,独立编码单元为6个,复合编码单元为30个,可用基础复合编码单元26个。
10.根据权利要求1所述,一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,其编码分配方式也适用于电子设备的输入设备的键位分配。
11.根据权利要求1所述,一种以二进制极短码构建包括二进制短码、长码、超长码字符词编码库的方法,其方法也适用于构建多语种的全球邮政地址十六进制数字编码的方法。
CN202210097257.8A 2022-01-22 2022-01-22 一种二进制极短码字符词编码集的构建方法 Pending CN114595665A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210097257.8A CN114595665A (zh) 2022-01-22 2022-01-22 一种二进制极短码字符词编码集的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210097257.8A CN114595665A (zh) 2022-01-22 2022-01-22 一种二进制极短码字符词编码集的构建方法

Publications (1)

Publication Number Publication Date
CN114595665A true CN114595665A (zh) 2022-06-07

Family

ID=81804334

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210097257.8A Pending CN114595665A (zh) 2022-01-22 2022-01-22 一种二进制极短码字符词编码集的构建方法

Country Status (1)

Country Link
CN (1) CN114595665A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116501997A (zh) * 2023-06-28 2023-07-28 太平金融科技服务(上海)有限公司深圳分公司 短链接生成方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116501997A (zh) * 2023-06-28 2023-07-28 太平金融科技服务(上海)有限公司深圳分公司 短链接生成方法、装置、电子设备及存储介质
CN116501997B (zh) * 2023-06-28 2023-09-26 太平金融科技服务(上海)有限公司深圳分公司 短链接生成方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN100594470C (zh) 用于对用户输入的多义性输入序列进行多义性消除的系统和方法
US5309358A (en) Method for interchange code conversion of multi-byte character string characters
US8401838B2 (en) System and method for multilanguage text input in a handheld electronic device
US6877003B2 (en) Efficient collation element structure for handling large numbers of characters
KR20050013222A (ko) 모호성 텍스트 엔트리의 명시적 문자 필터링
WO2004109492A1 (fr) Procede et appareil de traitement et de representation d'objets
JP2009181584A (ja) 中国語データおよびユーザ修正データの作成し、かつ、使用する方法およびシステム
TWI604318B (zh) 資料排序方法
WO2006024147A1 (en) Multi language text input in a handheld electronic device
KR20090007343A (ko) 키패드의 멀티캐릭터 키를 사용한 문자 숫자식 데이터 입력장치와 방법
CN114595665A (zh) 一种二进制极短码字符词编码集的构建方法
CN100498662C (zh) 一种元拼拼音汉字输入方法
JP2007042146A (ja) 中国語データおよびユーザ修正データの作成し、かつ、使用する方法およびシステム
WO2010043117A1 (zh) 一种数字编码方法及其应用
WO2006074586A1 (fr) Technologie d'extraction de chaines de caracteres marques de bits
CN101206665B (zh) 一种多语种文字信息搜索方法
WO1996011442A1 (fr) Procede de traitement de donnees de caracteres, et appareil associe
US6032165A (en) Method and system for converting multi-byte character strings between interchange codes within a computer system
JPH0140372B2 (zh)
CN1027839C (zh) 中华双拼汉字编入的计算机键盘
WO2004023284A1 (fr) Procede d'entree de code de langue
CN100378725C (zh) 一种产生用于提供与文本对应的语音的信号的方法
CN1017662B (zh) 无理序号数字编码法及其键盘
CN1307273A (zh) 智能注音输入系统及方法
JPS61285573A (ja) 仮名漢字変換装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination