CN109271610A - 一种汉字的向量表达方法 - Google Patents

一种汉字的向量表达方法 Download PDF

Info

Publication number
CN109271610A
CN109271610A CN201810838971.1A CN201810838971A CN109271610A CN 109271610 A CN109271610 A CN 109271610A CN 201810838971 A CN201810838971 A CN 201810838971A CN 109271610 A CN109271610 A CN 109271610A
Authority
CN
China
Prior art keywords
chinese character
chinese
character
stroke
phonetic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810838971.1A
Other languages
English (en)
Inventor
龙华
祁俊辉
邵玉斌
杜庆治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201810838971.1A priority Critical patent/CN109271610A/zh
Publication of CN109271610A publication Critical patent/CN109271610A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及一种汉字的向量表达方法,属于汉语信息处理技术领域。本发明通过中文点阵字库提取汉字的矩阵特征,通过五笔书写顺序规则提取汉字的笔画特征,通过汉语拼音数据库提取汉字的拼音特征,将汉字所对应的三种特征以一定的规则生成16维空间特征向量,该特征向量在计算机处理汉字时可以替代汉字进行相关计算。本发明与现有技术相比,主要解决了现有技术在计算机处理汉字时支持度低、不利于编程实现等现象,增加了目前依靠计算机对汉字进行处理的灵活性。

Description

一种汉字的向量表达方法
技术领域
本发明涉及一种汉字的向量表达方法,属于汉语信息处理技术领域。
背景技术
在汉语研究中,将汉字表示为数学表达式后可以对汉字进行计算机处理,有助于研究汉字的字形相似,对汉语教学、汉文编辑、汉文机器识别等业务具有重要意义。
目前,将汉字表示为数学表达式的方法主要是根据汉字的笔画、偏旁、拼音等固有属性对其进行编码实现,但是在汉语中拼旁部首有非常多,特别是针对一些复杂的复合字来讲,这种方式只能在理论研究中使用,在计算机处理中却难以实现。
发明内容
本发明要解决的技术问题是针对现有技术的局限和不足,提供一种汉字的向量表达方法,以解决现有技术在计算机处理汉字时支持度低、不利于编程实现等现象,致力于增加目前依靠计算机对汉字进行处理的灵活性。
本发明的技术方案是:一种汉字的向量表达方法,具体步骤为:
Step1:获取汉字X;
Step2:提取汉字X的矩阵特征,即根据16×15像素中文点阵字库,将点阵按照从上至下的规则(i=1→8)划分为8个2×15像素的小矩阵,记2×15像素小矩阵中汉字X所占像素数为pi,i∈[1,8],记p1,p2,…,p8为汉字X的矩阵特征;
Step3:提取汉字X的笔画特征,即按照汉字五笔书写顺序规则,将横、竖、撇、捺、折编码为字母a、b、c、d、e,生成汉字X所对应的笔顺编码字符串x1x2…xz,其中z为汉字X的笔画数,xi为汉字X第i笔的笔画,并且xi∈{a,b,c,d,e},i∈[1,z];同时由笔顺编码字符串x1x2…xz提取出横、竖、撇、捺、折各自所占笔画数za、zb、zc、zd、ze
Step4:提取汉字X的拼音特征,即根据汉语拼音数据库获取汉字X的常用读音StrpX;同时将读音StrpX分为声母StrsX、韵母StryX和拼音声调StrdX,以及声母、韵母和拼音声调所对应的编码数字IntsX、IntyX和IntdX
Step5:由Step2、Step3、Step4步骤所产生的数据,按照p1、p2、p3、p4、p5、p6、p7、p8、z1、z2、z3、z4、z5、IntsX、IntyX、IntdX的顺序生成汉字X的16维空间特征向量
进一步的,所述步骤Step2中,2×15像素小矩阵中汉字所占像素数pi,i∈[1,8]应满足公式(1)的要求:
0≤pi≤30,i∈[1,8] (1)。
进一步的,所述步骤Step3中,汉字X的笔画数z,以及横、竖、撇、捺、折各自所占笔画数za、zb、zc、zd、ze,应满足公式(2)的要求:
进一步的,所述步骤Step4中,将汉语拼音字母表中21个声母按顺序编码为数字1~21;将汉语拼音字母表中39个韵母按顺序编码为数字1~39;将将汉语拼音字母表中4个拼音声调按顺序编码为数字1~4;若汉字X没有声母StrsX或韵母StryX,则将IntsX或IntyX赋值为0;即声母、韵母和拼音声调所对应的编码数字IntsX、IntyX和IntdX满足公式(3)的要求:
本发明的有益效果是:本发明与现有技术相比,主要解决了现有技术在计算机处理汉字时支持度低、不利于编程实现等现象,增加了目前依靠计算机对汉字进行处理的灵活性。
附图说明
图1是本发明流程示意图;
图2是本发明16×15像素中文点阵示意图;
图3是本发明实施例1中所使用的汉字点阵示意图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1所示,一种汉字的向量表达形式,具体步骤为:
Step1:获取汉字X;
Step2:提取汉字X的矩阵特征,即根据16×15像素中文点阵字库,将点阵按照从上至下的规则(i=1→8)划分为8个2×15像素的小矩阵,记2×15像素小矩阵中汉字X所占像素数为pi,i∈[1,8],记p1,p2,…,p8为汉字X的矩阵特征;
Step3:提取汉字X的笔画特征,即按照汉字五笔书写顺序规则,将横、竖、撇、捺、折编码为字母a、b、c、d、e,生成汉字X所对应的笔顺编码字符串x1x2…xz,其中z为汉字X的笔画数,xi为汉字X第i笔的笔画,并且xi∈{a,b,c,d,e},i∈[1,z];同时由笔顺编码字符串x1x2…xz提取出横、竖、撇、捺、折各自所占笔画数za、zb、zc、zd、ze
Step4:提取汉字X的拼音特征,即根据汉语拼音数据库获取汉字X的常用读音StrpX;同时将读音StrpX分为声母StrsX、韵母StryX和拼音声调StrdX,以及声母、韵母和拼音声调所对应的编码数字IntsX、IntyX和IntdX
Step5:由Step2、Step3、Step4步骤所产生的数据,按照p1、p2、p3、p4、p5、p6、p7、p8、z1、z2、z3、z4、z5、IntsX、IntyX、IntdX的顺序生成汉字X的16维空间特征向量
所述步骤Step1中,汉字X可以是编码方式为Unicode的中日韩统一表意文字基本字符集所收录的20902个汉字(Unicode码为4E00~9FA5)。
所述步骤Step2中,16×15像素中文点阵如附图2所示,以虚线组成的小方格作为像素点,共计240个像素点;以实线组成2×15像素的小矩阵,共计8个2×15像素的小矩阵。
所述步骤Step2中,2×15像素小矩阵中汉字所占像素数pi,i∈[1,8]应满足公式(1)的要求。
0≤pi≤30,i∈[1,8] (1)。
所述步骤Step3中,汉字X的笔画数z,以及横、竖、撇、捺、折各自所占笔画数za、zb、zc、zd、ze,应满足公式(2)的要求。
所述步骤Step4中,将汉语拼音字母表中21个声母按顺序编码为数字1~21;将汉语拼音字母表中39个韵母按顺序编码为数字1~39;将将汉语拼音字母表中4个拼音声调按顺序编码为数字1~4;需注意若汉字X没有声母StrsX或韵母StryX,则将IntsX或IntyX赋值为0;即声母、韵母和拼音声调所对应的编码数字IntsX、IntyX和IntdX满足公式(3)的要求。
实施例2:如图1所示,一种汉字的向量表达形式,通过中文点阵字库提取汉字的矩阵特征,通过五笔书写顺序规则提取汉字的笔画特征,通过汉语拼音数据库提取汉字的拼音特征,将汉字所对应的三种特征以一定的规则生成16维空间特征向量,该特征向量在计算机处理汉字时可以替代汉字进行相关计算。
Step1:获取汉字X;
具体的:所获取的汉字X为“藉”;
Step2:提取汉字X的矩阵特征,即根据16×15像素中文点阵字库,将点阵按照从上至下的规则(i=1→8)划分为8个2×15像素的小矩阵,记2×15像素小矩阵中汉字X所占像素数为pi,i∈[1,8],记p1,p2,…,p8为汉字X的矩阵特征;
具体的:汉字“藉”所对应的汉字点阵如附图3所示,由附图可得到p1=4、p2=17、p3=14、p4=10、p5=16、p6=12、p7=14、p8=10;
Step3:提取汉字X的笔画特征,即按照汉字五笔书写顺序规则,将横、竖、撇、捺、折编码为字母a、b、c、d、e,生成汉字X所对应的笔顺编码字符串x1x2…xz,其中z为汉字X的笔画数,xi为汉字X第i笔的笔画,并且xi∈{a,b,c,d,e},i∈[1,z];同时由笔顺编码字符串x1x2…xz提取出横、竖、撇、捺、折各自所占笔画数za、zb、zc、zd、ze
具体的:汉字“藉”所对应的笔顺编码字符串为abbaaabcdabbabeaa,其中z=17,横、竖、撇、捺、折各自所占笔画数za=8、zb=6、zc=1、zd=1、ze=1;
Step4:提取汉字X的拼音特征,即根据汉语拼音数据库获取汉字X的常用读音StrpX;同时将读音StrpX分为声母StrsX、韵母StryX和拼音声调StrdX,以及声母、韵母和拼音声调所对应的编码数字IntsX、IntyX和IntdX
具体的:汉字“藉”所对应的常用读音StrpX为“ji”,声母StrsX为“j”,韵母StryX为“i”,拼音声调StrdX为二声,同时声母、韵母和拼音声调所对应的编码数字IntsX、IntyX和IntdX分别为12、4和2。
Step5:由Step2、Step3、Step4步骤所产生的数据,按照p1、p2、p3、p4、p5、p6、p7、p8、z1、z2、z3、z4、z5、IntsX、IntyX、IntdX的顺序生成汉字X的16维空间特征向量
具体的:汉字“藉”的16维空间特征向量为{4,17,14,10,16,12,14,10,8,6,1,1,1,12,4,2}。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (4)

1.一种汉字的向量表达方法,其特征在于具体步骤为:
Step1:获取汉字X;
Step2:提取汉字X的矩阵特征,即根据16×15像素中文点阵字库,将点阵按照从上至下的规则(i=1→8)划分为8个2×15像素的小矩阵,记2×15像素小矩阵中汉字X所占像素数为pi,i∈[1,8],记p1,p2,…,p8为汉字X的矩阵特征;
Step3:提取汉字X的笔画特征,即按照汉字五笔书写顺序规则,将横、竖、撇、捺、折编码为字母a、b、c、d、e,生成汉字X所对应的笔顺编码字符串x1x2…xz,其中z为汉字X的笔画数,xi为汉字X第i笔的笔画,并且xi∈{a,b,c,d,e},i∈[1,z];同时由笔顺编码字符串x1x2…xz提取出横、竖、撇、捺、折各自所占笔画数za、zb、zc、zd、ze
Step4:提取汉字X的拼音特征,即根据汉语拼音数据库获取汉字X的常用读音StrpX;同时将读音StrpX分为声母StrsX、韵母StryX和拼音声调StrdX,以及声母、韵母和拼音声调所对应的编码数字IntsX、IntyX和IntdX
Step5:由Step2、Step3、Step4步骤所产生的数据,按照p1、p2、p3、p4、p5、p6、p7、p8、z1、z2、z3、z4、z5、IntsX、IntyX、IntdX的顺序生成汉字X的16维空间特征向量
2.根据权利要求1所述的汉字的向量表达方法,其特征在于:所述步骤Step2中,2×15像素小矩阵中汉字所占像素数pi,i∈[1,8]应满足公式(1)的要求:
0≤pi≤30,i∈[1,8] (1)。
3.根据权利要求1所述的汉字的向量表达方法,其特征在于:所述步骤Step3中,汉字X的笔画数z,以及横、竖、撇、捺、折各自所占笔画数za、zb、zc、zd、ze,应满足公式(2)的要求:
4.根据权利要求1所述的汉字的向量表达方法,其特征在于:所述步骤Step4中,将汉语拼音字母表中21个声母按顺序编码为数字1~21;将汉语拼音字母表中39个韵母按顺序编码为数字1~39;将将汉语拼音字母表中4个拼音声调按顺序编码为数字1~4;若汉字X没有声母StrsX或韵母StryX,则将IntsX或IntyX赋值为0;即声母、韵母和拼音声调所对应的编码数字IntsX、IntyX和IntdX满足公式(3)的要求:
CN201810838971.1A 2018-07-27 2018-07-27 一种汉字的向量表达方法 Pending CN109271610A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810838971.1A CN109271610A (zh) 2018-07-27 2018-07-27 一种汉字的向量表达方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810838971.1A CN109271610A (zh) 2018-07-27 2018-07-27 一种汉字的向量表达方法

Publications (1)

Publication Number Publication Date
CN109271610A true CN109271610A (zh) 2019-01-25

Family

ID=65153319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810838971.1A Pending CN109271610A (zh) 2018-07-27 2018-07-27 一种汉字的向量表达方法

Country Status (1)

Country Link
CN (1) CN109271610A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858039A (zh) * 2019-03-01 2019-06-07 北京奇艺世纪科技有限公司 一种文本信息识别方法及识别装置
CN111091001A (zh) * 2020-03-20 2020-05-01 支付宝(杭州)信息技术有限公司 一种词语的词向量的生成方法、装置及设备
CN111597815A (zh) * 2020-05-22 2020-08-28 北京慧闻科技(集团)有限公司 一种多嵌入命名实体识别方法、装置、设备及存储介质
CN112507866A (zh) * 2020-12-03 2021-03-16 润联软件系统(深圳)有限公司 一种汉字字向量生成方法、装置、计算机设备及存储介质
CN113627175A (zh) * 2021-08-17 2021-11-09 北京计算机技术及应用研究所 一种利用正交变换计算汉语词向量的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1283937A (zh) * 1999-07-07 2001-02-14 陈有垦 一种使汉语数字化的技术
CN1420422A (zh) * 2001-11-20 2003-05-28 侯朋太 码元用笔划集合数表示法及用途
CN101655840A (zh) * 2009-09-11 2010-02-24 潘昌仁 汉语语音数字化方法和装置
CN105824793A (zh) * 2016-05-25 2016-08-03 潘昌仁 将汉字转化为数字及拉丁字母的处理系统、方法和装置
CN108009253A (zh) * 2017-12-05 2018-05-08 昆明理工大学 一种改进的字符串相似对比方法
CN108154167A (zh) * 2017-12-04 2018-06-12 昆明理工大学 一种汉字字形相似度计算方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1283937A (zh) * 1999-07-07 2001-02-14 陈有垦 一种使汉语数字化的技术
CN1420422A (zh) * 2001-11-20 2003-05-28 侯朋太 码元用笔划集合数表示法及用途
CN101655840A (zh) * 2009-09-11 2010-02-24 潘昌仁 汉语语音数字化方法和装置
CN105824793A (zh) * 2016-05-25 2016-08-03 潘昌仁 将汉字转化为数字及拉丁字母的处理系统、方法和装置
CN108154167A (zh) * 2017-12-04 2018-06-12 昆明理工大学 一种汉字字形相似度计算方法
CN108009253A (zh) * 2017-12-05 2018-05-08 昆明理工大学 一种改进的字符串相似对比方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱甦: "《潜山方言》", 31 January 2017 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858039A (zh) * 2019-03-01 2019-06-07 北京奇艺世纪科技有限公司 一种文本信息识别方法及识别装置
CN109858039B (zh) * 2019-03-01 2023-09-05 北京奇艺世纪科技有限公司 一种文本信息识别方法及识别装置
CN111091001A (zh) * 2020-03-20 2020-05-01 支付宝(杭州)信息技术有限公司 一种词语的词向量的生成方法、装置及设备
CN111597815A (zh) * 2020-05-22 2020-08-28 北京慧闻科技(集团)有限公司 一种多嵌入命名实体识别方法、装置、设备及存储介质
CN112507866A (zh) * 2020-12-03 2021-03-16 润联软件系统(深圳)有限公司 一种汉字字向量生成方法、装置、计算机设备及存储介质
CN112507866B (zh) * 2020-12-03 2021-07-13 润联软件系统(深圳)有限公司 一种汉字字向量生成方法、装置、计算机设备及存储介质
CN113627175A (zh) * 2021-08-17 2021-11-09 北京计算机技术及应用研究所 一种利用正交变换计算汉语词向量的方法
CN113627175B (zh) * 2021-08-17 2024-05-28 北京计算机技术及应用研究所 一种利用正交变换计算汉语词向量的方法

Similar Documents

Publication Publication Date Title
CN109271610A (zh) 一种汉字的向量表达方法
CN1018092B (zh) 表意文字的处理方法及装置
CN105023028B (zh) 基于hmm和决策树的阿拉伯语光学字母识别方法
US20100106481A1 (en) Integrated system for recognizing comprehensive semantic information and the application thereof
CN103995600A (zh) 一种盲文汉字转换装置及其方法
US20120164607A1 (en) Application system of multidimensional chinese learning
CN102929394A (zh) 一种基于手势识别的盲文输入法
CN104408037A (zh) 藏文文本的向量模型表示方法
CN103616960A (zh) 六元音字母双拼输入法
CN104106023A (zh) 一种兼容键盘的输入方法
CN105260124B (zh) 六按键汉字及英文触摸屏滑行输入方法
CN101477408B (zh) 东巴文图元输入法
CN105045410A (zh) 一种形式化拼音和汉字对应识别的方法
CN106227363B (zh) 拼音基础上的精确汉字编码和键盘输入方法
CN105912139B (zh) 一种模块化笔画编码汉字对应识别的方法
CN109032383A (zh) 基于手写识别的输入方法
CN103207684A (zh) 音素字母双拼输入法
CN101169697A (zh) 一种音形结合的向电子设备中手写汉字的输入法
Stanley To Read Images Not Words: Computer-Aided Analysis of the Handwriting in the Codex Seraphinianus.
CN103838393B (zh) 汉字结构数码识字输入法
US20090060339A1 (en) Method of organizing chinese characters
US20070160292A1 (en) Method of inputting chinese characters
Stallings The morphology of Chinese characters: a survey of models and applications
CN101488051A (zh) 一种电脑汉字音位码输入法及其键盘
CN104951094B (zh) 一种汉字音形五模式输入方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190125