CN117351497A

CN117351497A - 基于矩阵的针对英语单词外观特征码的编码方法及其应用

Info

Publication number: CN117351497A
Application number: CN202311410633.5A
Authority: CN
Inventors: 阮春颜; 骆剑锋
Original assignee: Dongguan City College; Dongguan Polytechnic
Current assignee: Dongguan City College; Dongguan Polytechnic
Priority date: 2023-10-27
Filing date: 2023-10-27
Publication date: 2024-01-05
Anticipated expiration: 2043-10-27
Also published as: CN117351497B

Abstract

本发明涉及一种基于矩阵的针对英语单词外观特征码的编码方法及其应用，属于计算机领域；包括以下步骤：S1、选择待编码的英语单词；S2、根据所选择英语单词中的字母外观特征，形成第一批字母的占位矩阵；S3、第一批字母的占位矩阵与M456模型矩阵运算，形成第一批字母外观特征码；S4、将没有字母外观特征码的字母，形成第二批字母的占位矩阵；S5、第二批字母的占位矩阵与M9123模型矩阵运算，形成第二批字母外观特征码；S6、根据第一批字母外观特征码和第二批字母外观特征码，形成单词特征码集合；S7、针对单词特征码集合，得到初步合成编码；S8、把初步合成编码进行62进制转换，结果就是最终编码。本发明的优点是：针对英语单词的外观，计算出它外观特征码，因为有了特征码，存储空间可以得到节省。

Description

基于矩阵的针对英语单词外观特征码的编码方法及其应用

技术领域

本发明涉及一种基于矩阵的针对英语单词外观特征码的编码方法，属于计算机领域。

背景技术

以人脸的例子引入，对于人脸，我们常用一些特征语言去描述一个人的脸部特征，比如：圆脸、鼻子大、嘴巴小、眉毛粗等，听者通过这些特征可以想到一些相似的脸。同样，对于英语单词来说，我们计算出它的外观特征码，通过特征码的比较，找到相似的单词。相关技术及对比如下：

1、现有的如公告号为CN113268972B，发明名称为：两英语单词外观相似度的智能计算方法、系统、设备和介质，是申请人在该篇文献的申请日之前申请的的，其包括以下步骤：(1)对26个英语字母进行重新排序，并给出每个字母的编码及代表符号；(2)根据编码，得两英语单词的编码序列；(3)依据排码组合公式，得两英语单词的排码序列；(4)根据排码序列及编码序列，计算两英语单词的相关系数值p；(5)计算两英语单词的相差系数x；(6)计算两英语单词的外观相似度s＝p+x，基于外观相似度计算数值，判断两个英语单词的相似程度。关于两英语单词外观对比后得到相似度的方法，主要基于对字母数量一样多的两个英语单词进行外观相似度进行计算；

2、现有汉字外观特征的研究，但没有关于英语单词的，并且这些外观特征都没有通过数值(码)的形式表达出来。

3、而现有的编码研究，常见的有：

3.1、存在一些对英语单词进行编码的方法，这此方法为每个单词产生唯一的编码；而我们的编码不是唯一的，相似的单词具有一样的编码。

3.2、存在考虑了英语单词的发音进行编码的方法，但编码结果不反映外观；

3.3、常见的英语单词编码方法，并没有压缩编码字符数；

3.4、现有的编码及其压缩方法，但没有针对英语单词外观的；

3.5、存在一些编码方法，它是基于外观的编码，但它的编码结果不反映外观的特征。

发明内容

为克服现有技术的缺陷，本发明提供一种基于矩阵的针对英语单词外观特征码的编码方法，本发明的技术方案是：

一种基于矩阵的针对英语单词外观特征码的编码方法，包括以下步骤：

S1、选择待编码的英语单词：所述的英语单词的字母均为小写字母，且英语单词不带标点符号，每一个英语单词的字母数量大于等于3个；

S2、根据26个英文字母在双目表格中的占位情况，形成第一批字母的占位矩阵，而这一批字母称作第一批字母；

S3、第一批字母的占位矩阵与M456模型矩阵运算，形成第一批字母外观特征码；

S4、将没有字母外观特征码的字母，形成第二批字母的占位矩阵，而这一批字母称作第二批字母；

S5、第二批字母的占位矩阵与M9123模型矩阵运算，形成第二批字母外观特征码；

S6、根据第一批字母外观特征码和第二批字母外观特征码，对英语单词进行字母替换，形成单词特征码集合；

S7、针对单词特征码集合，使用合码公式，得到初步合成编码；

S8、把初步合成编码进行62进制转换，结果就是最终编码。

所述的步骤S2具体为：

2.1、英语单词中的字母在双目表格中的占位情况，具体为：

2.2、根据字母的占位情况，得到每个字母的占位矩阵，每个字母的占位矩阵用Ms(ASCII(字母)-96)来表示，具体每个字母的占位矩阵如下：

2.3、根据步骤2.2中的矩阵，不包含M9的矩阵就是第一批字母的占位矩阵，这些字母分别是b、d、f、g、h、j、k、l、m、p、q、w、y。

所述的步骤S3具体为：

3.1、根据占位特点，设计M456模型矩阵如下：

3.2、第一批字母的占位矩阵与M456模型矩阵运算公式如下：

其中，Si g₄₅₆(字母)为字母的外观特征码；

⊙是矩阵运算中的Hadamard积运算符；

Max()为最大值函数，在矩阵中，取其最大值作为外观特征码；

其中，“字母”取值为b、d、f、g、h、j、k、l、m、p、q、w、y中的一个。

所述的步骤S4具体为：

4.1、根据字母外观情况，得到每个字母的九宫格占位情况：剩余的a、c、e、i、n、o、r、s、t、u、v、x、z的九宫格占位情况为

4.2、步骤4.2中剩余字母的占位情况，得到每个字母的占位矩阵，每个字母的占位矩阵用Ms9(字母)来表示，其中，字母∈{a，c，e，i，n，o，r，s，t，u，v，x，z},具体每个字母的占位矩阵如下：

所述的步骤S5具体为：

5.1、根据占位特点，设计M9123模型矩阵如下：

5.2、第二批字母的占位矩阵与M9123模型矩阵运算公式如下：

其中，Sig_m9(字母)为第二批字母的外观特征码；

⊙是矩阵运算中的Hadamard积运算符；

其中，字母取值为a、c、e、i、n、o、r、s、t、u、v、x、z中的一个。

所述的步骤S6具体为：

WSCL＝{Sig_m9(字母1),Sig₄₅₆(字母2),Sig₄₅₆(字母3),......,Sig_m9(字母n)}；

其中，WSCL代表了单词特征码集合，字母1为单词中的第一个字母，字母n为第n个字母，n的值为单词中字母的个数。字母如果属于第一批字母，则使用Sig₄₅₆(字母)代表该字母的特征码，如果字母属于第二批字母，则使用Sig_m9(字母)代表该字母的特征码。

所述的步骤S7具体为：

所述的合码公式如下：

其中，T即代表单词外观特征码的初步合成编码，Sk即为WSCL集合中第K个单词特征码，Max()的功能是：从矩阵的元素中，取出最大值。

所述的步骤S8具体为：

把初步合成编码T进行62进制转换，转换的结果就是最终编码。

一种基于矩阵的针对英语单词外观特征码的编码方法在人工智能领域的应用。

一种基于矩阵的针对英语单词外观特征码的编码方法在大数据领域的应用。

本发明的优点是：针对英语单词的外观，计算出它外观特征码，外观特征码表达了单词外观的特征，具有一样特征码的英语单词，外观是相似的。同时，因为有了特征码，英语单词外观对比的方法就变得简单，并且特征码的字符数量比原来单词的字母要少，存储空间可以得到节省。

该方法如果应用在人工智能领域中，可以实现快速模糊识别相似单词。

该方法如果应用在大数据领域中，可以实现一种基于外观特征码的相似单词的检索方法。

具体实施方式

下面结合具体实施例来进一步描述本发明，本发明的优点和特点将会随着描述而更为清楚。但这些实施例仅是范例性的，并不对本发明的范围构成任何限制。本领域技术人员应该理解的是，在不偏离本发明的精神和范围下可以对本发明技术方案的细节和形式进行修改或替换，但这些修改和替换均落入本发明的保护范围内。

本发明涉及一种基于矩阵的针对英语单词外观特征码的编码方法，包括以下步骤：

S7、针对单词特征码集合，使用合码公式，得到初步合成编码。

S8、把初步合成编码进行62进制转换，结果就是最终编码，增加步骤S8之后，压缩功能进一步提升。

所述的步骤S2具体为：

2.1、英语单词中的字母在双目表格中的占位情况，具体为：

2.2、根据字母的占位情况，得到每个字母的占位矩阵，每个字母的占位矩阵用Ms(ASCII(字母)-96)来表示，如Ms(ASCII(a)-96)就是字母a的占位矩阵，其中ASCII(a)就是a的ASCII码，即97，也就是说Ms(1)即是第1个占位矩阵，也是字母a的占位矩阵，具体每个字母的占位矩阵如下：

所述的步骤S3具体为：

3.1、根据占位特点，设计M456模型矩阵如下：

3.2、第一批字母的占位矩阵与M456模型矩阵运算公式如下：

其中，Si g₄₅₆(字母)为字母的外观特征码；

⊙是矩阵运算中的Hadamard积运算符；

现以b为例:

Sig₄₅₆(b)＝Max(M456⊙Ms(ASCII(b)-96))；

Sig₄₅₆(b)＝4；

通过以上相似的运算，第一批字母外观特征码为：b为4、d为4、f为4、g为5、h为4、j为5、k为4、l为4、m为6、p为5、q为5、w为6、y为5。

所述的步骤S4具体为：

4.2、步骤4.2中剩余字母的占位情况，得到每个字母的占位矩阵，每个字母的占位矩阵用Ms9(字母)来表示，其中字母∈{a，c，e，i，n，o，r，s，t，u，v，x，z},具体每个字母的占位矩阵如下：

所述的步骤S5具体为：

5.1、根据占位特点，设计M9123模型矩阵如下：

5.2、第二批字母的占位矩阵与M9123模型矩阵运算公式如下：

其中，Sig_m9(字母)为第二批字母的外观特征码；

⊙是矩阵运算中的Hadamard积运算符；

现以u为例:

Sig_m9(u)＝Max(M9⊙Ms₉(u))；

Sig_m9(u)＝3；

通过以上相似的运算，第二批字母外观特征码为：a为1、c为1、e为1、i为2、n为3、o为1、r为2、s为2、t为2、u为3、v为3、x为2、z为2。

所述的步骤S6具体为：

如单词affect的

WSCL＝{Sig_m9(a),Sig₄₅₆(f),Sig₄₅₆(f),Sig_m9(e),Sig_m9(c),Sig_m9(t)},

即为WSCL＝{1，4，4，1，1，2}；

所述的步骤S7具体为：

所述的合码公式如下：

如单词affect，代入公式：

T＝(s₁-1)×6^1-1+(s₂-1)×6^2-1+(s₃-1)×6^3-1+(s₄-1)×6^4-1+(s₅-1)×6^5-1+(s₆-1)×6^6-1

T＝(1-1)×6⁰+(4-1)×6¹+(4-1)×6²+(1-1)×6³+(1-1)×6⁴+(2-1)×6⁵

T＝0+18+108+0+0+7776

T＝7902

所述的步骤S8具体为：

把初步合成编码T(T的值是7902)进行62进制转换，结果是23s,而23s就是最终编码。

通过步骤S1至步骤S8可知，affect的外观特征码是23s，同时对形近词effect进行编码，结果也是23s，可知外观相似的单词，它们的外观特征码是一样的，再看china这个单词，它的外观特征码是2w，从affect、effect、china三个单词看到，外观相似，外观特征码是一样的，不相似的单词，外观特征码不一样。

从单词的字符个数可知，affect和effect是6个字母组成，而它们的外观特征码是23s，只有3个字符组成，明显是减少了3位，有压缩的功能，同样，china中5个字母，而它的码是2w，也是比字母少了3位，所以本方法是有压缩功能的。

常见的编码有ASCII编码，如果针对affect单词，它的编码是9710210210199116，而相似的单词effect，它的编码是10110210210199116，明显，它们是相似单词，但编码是不一样的，并且编码长度明显比单词长度要长许多，明显没有压缩功能。

本发明还涉及一种基于矩阵的针对英语单词外观特征码的编码方法在人工智能领域的应用，可以实现快速模糊识别相似单词。

本发明还涉及一种基于矩阵的针对英语单词外观特征码的编码方法在大数据领域的应用，可以实现一种基于外观特征码的相似单词的检索方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于矩阵的针对英语单词外观特征码的编码方法，其特征在于，包括以下步骤：

S8、把初步合成编码进行62进制转换，结果就是最终编码。

2.根据权利要求1所述的基于矩阵的针对英语单词外观特征码的编码方法，其特征在于，所述的步骤S2具体为：

2.1、英语单词中的字母在双目表格中的占位情况，具体为：

3.根据权利要求1或2所述的基于矩阵的针对英语单词外观特征码的编码方法，其特征在于，所述的步骤S3具体为：

3.1、根据占位特点，设计M456模型矩阵如下：

3.2、第一批字母的占位矩阵与M456模型矩阵运算公式如下：

其中，Sig₄₅₆(字母)为字母的外观特征码；

⊙是矩阵运算中的Hadamard积运算符；

4.根据权利要求3所述的基于矩阵的针对英语单词外观特征码的编码方法，其特征在于，所述的步骤S4具体为：

4.1、根据字母外观情况，得到每个字母的九宫格占位情况：

剩余的a、c、e、i、n、o、r、s、t、u、v、x、z的九宫格占位情况为/>

5.根据权利要求4所述的基于矩阵的针对英语单词外观特征码的编码方法，其特征在于，所述的步骤S5具体为：

5.1、根据占位特点，设计M9123模型矩阵如下：

5.2、第二批字母的占位矩阵与M9123模型矩阵运算公式如下：

其中，Sig_m9(字母)为第二批字母的外观特征码；

⊙是矩阵运算中的Hadamard积运算符；

6.根据权利要求5所述的基于矩阵的针对英语单词外观特征码的编码方法，其特征在于，所述的步骤S6具体为：

7.根据权利要求6所述的基于矩阵的针对英语单词外观特征码的编码方法，其特征在于，所所述的步骤S7具体为：

所述的合码公式如下：

8.一种基于矩阵的针对英语单词外观特征码的编码方法在人工智能领域的应用。

9.一种基于矩阵的针对英语单词外观特征码的编码方法在大数据领域的应用。