CN112487762B - 一种基于汉字音意结构汉字编码的自然语言处理方法 - Google Patents
一种基于汉字音意结构汉字编码的自然语言处理方法 Download PDFInfo
- Publication number
- CN112487762B CN112487762B CN202011385160.4A CN202011385160A CN112487762B CN 112487762 B CN112487762 B CN 112487762B CN 202011385160 A CN202011385160 A CN 202011385160A CN 112487762 B CN112487762 B CN 112487762B
- Authority
- CN
- China
- Prior art keywords
- codes
- chinese character
- chinese
- phonetic
- meaning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000003058 natural language processing Methods 0.000 title claims abstract description 19
- 238000013135 deep learning Methods 0.000 claims abstract description 7
- 238000004458 analytical method Methods 0.000 abstract description 10
- 238000000605 extraction Methods 0.000 abstract description 10
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000003672 processing method Methods 0.000 abstract description 2
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 239000002023 wood Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种基于汉字音意结构汉字编码的自然语言处理方法,包括如下步骤:步骤一,汉字编码的转换以及UTF‑8到新编码转化;步骤二,自然语言处理以及深度学习训练;步骤三,语法器、分类器、语言模型生成。该方法可以降低现有自然语言处理方法的难度,提供一种基于汉字特征的、包含汉字音意结构特征编码的自然分析处理方法,使得自然语言分析技术,从汉字本身出发,进行属性分析,特征提取,减少暴力训练的语料需求量,提高语言模型的训练效率,提升分析结果的准确率。
Description
技术领域
本发明涉及人工智能汉字处理技术领域,更具体的说,涉及一种基于汉字音意结构汉字编码的自然语言处理方法。
背景技术
目前,深度学习是一种基于特征学习的机器学习方法,国际国内的自然语言处理技术(NLP)都是通过提取原始数据的数字编码的特征来进行的。
英语是构成每个单词的英文字母编码的罗列,所以编码体现了字母的排列顺序,如:study 7374756479(编码直接反应字母构成),有助于对单词的特征提取,能够体现英语的词根等特性,从而有助于基于英语单词结构分类的特征提取,模型微调过程可实现快速收敛。
汉语处理基于每个汉字的UTF-8编码进行的,如(图1所示UTF-8编码的规则,偏旁+整个字的笔画,偏旁氵的汉字到火的过度只是单纯的编码+1,无法表现出汉字特征):灯706F 00E7 81AF(无结构规律),这种编码是按照(偏旁+整个字的笔画)进行的连续数字编码,该编码无明显语义特征,需要海量的语料数据进行暴力学习训练。这也是为什么很多语言模型欧美体系取得很好效果,汉语效果却不行的原因。
汉字,是中文的记录符号,也在日文、朝鲜文等文字中使用。与英文、俄文、印地文、阿拉伯文等表音的字母文字不同,汉字是典型的意音文字。与拼音文字单词的单音或多音表义不同,汉字一般单字单音表义。
汉字由象形文字(表形文字)演变成兼表音义的意音文字,但总的体系仍属表意文字。所以,汉字具有集形象、声音和辞义三者于一体的特性。本身具有很强的语义信息。这一特性在世界文字中是独一无二的,因此它具有独特的魅力。
如果想让计算机处理汉字信息,尤其是在深度学习对文本的分析中,能够像人学习汉字一样,对汉字的发音、表意、结构进行全面分析,并提取语义特征的话,就需要有效利用中文字符内部的语义信息,形成一种能够暴露汉字的音、意结构属性特征,并特征码对齐的汉字编码方式,这将极大的减小n-gram汉语语言模型训练所需的资源,通过极少的语料,迅速提取汉字间关联性特征,分析文本中汉字与整句构成及语义的关联关系,从而分析出句型的构成。
发明内容
本发明的目的是提供了一种基于汉字音意结构汉字编码的自然语言处理方法,该方法可以降低现有自然语言处理方法的难度,提供一种基于汉字特征的、包含汉字音意结构特征编码的自然分析处理方法,使得自然语言分析技术,从汉字本身出发,进行属性分析,特征提取,减少暴力训练的语料需求量,提高语言模型的训练效率,提升分析结果的准确率。
为了实现上述目的,本发明采用的技术方案如下:
一种基于汉字音意结构汉字编码的自然语言处理方法,其特征在于:包括如下步骤:
步骤一,汉字编码的转换以及UTF-8到新编码转化;
步骤二,自然语言处理以及深度学习训练;
步骤三,语法器、分类器、语言模型生成。
进一步,所述的汉字编码的转换中将汉字编码分为音码和结构码两部分,所述的音码为15位二进制数,所述的结构码为26位二进制数。
进一步,所述的音码包括声母、介母、韵母和声调,其中声母为5位二进制数,介母为2位二进制数,韵母为5位二进制数,声调为3位二进制数。
进一步,所述的结构码包括结构编码和结构部件编码,所述的结构编码为2位二进制数,所述的结构部件编码包括分别为12位二进制数的音旁和意旁。
进一步,所述的音旁和意旁其中一项不存在时,该独体字编码由12位0编码和该独体字的音旁或意旁组成。
与已有技术相比,本发明的有益效果如下:
1.去除字库汉字数限制,由于新的编码完全是串行数字化信息,不管汉字库中存不存在的汉字,都能从音形方面表现出该汉字的特征。对于生僻字、缺损字的特征不依存于字库,可以很好的编码记录。
2.有利于减少语言模型参数集,以往的自然语言处理程序的训练对象是特征不明显的汉字UTF8编码数据,需要大量的语料才能暴力的将以汉字为单元的数据通过大量的语言模型参数运算,提取出特征,对于语料的变更,模型修改量巨大,同时算力需求也巨大,就算是常用汉字4000个,也需要以4000为基数,级数级的汉语词汇分类器来进行信息处理,新编码则在部件及拼音层次对汉字进行了详细编码标注,使得汉字组词及词性判断上的分类模型的分支减少,语言模型的参数集也相应的减少。
3.提高特征提取的有效性及提取效率,基于部件及发音的汉字标注可以让语言模型快速对汉字及汉语词汇进行特征提取,降低语料需求量,提高提取效率,对于二义性汉字,多音字有更加优秀的分类。
4.有助于原始语言模型的简化,特征抽取单元的维度降低,使得生成的语言模型大幅的简化,降低了硬件需求,提高处理速度。
5.基于较少的样本数据也能快速实现特征提取函数的快速收敛,相比较传统的语料数据,新的编码更能体现汉语的原始特征,汉语信息的维度降低,使得较少的样本数据也能快速的被提取出特征,让特征提取函数达到快速收敛效果。
附图说明
图1为UTF-8编码的规则示意图(部分);
图2为本发明基于汉字音形结构汉字编码的计算机汉字信息处理方法流程图图;
图3为本发明实施例中自然语言处理示意图;
图4为本发明音码和结构码编码表(部分);
具体实施方式
为了使发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本发明。
如图2所示,一种基于汉字音意结构汉字编码的自然语言处理方法,包括如下步骤:步骤一,汉字编码的转换以及UTF-8到新编码转化;步骤二,自然语言处理以及深度学习训练;步骤三,语法器、分类器、语言模型生成。
具体的,如图3所示,编码“哪里有卫生间”,将这六个字分别进行音码和结构码编码,得到共六组41位二进制数,其中各部分编码对应表如图4所示,音码中,声母:00001~10111、介母:01~11、韵母:00001~11000、声调:000~100,结构码中,结构编码00~11,分别对应左右(含左中右)、上下(含上中下)、独体和包围;
接着对汉字的UTF-8码与新的编码做编码对照表,在语料进行深度学习自然语言处理训练前将汉字编码由UTF-8码转换成新的编码,再进行语言模型训练;
在自然语言处理的n-gram语言模型处理中,通过词向量,就是词频(TermFrequency),即某个词语出现的频率,来进行关键词提取,从而确定整个文本的主要语义。中文词汇大概有40多万个,作为一般大学本科生,汉字4千。词汇合计2-3万左右,这是正常水准。这样构建的词向量数据是非常庞大的,对于算力要求巨大,以谷歌的硬件水平也仅仅做到4元gram模型(1万词所有可能的n-gram的个数为10000^4=1016个)。
本发明将汉字按照音意分解为两个部件,这样2元以上的模型就能够表现汉字之间的关系,由于部件相对与汉字数量减少,所构成的4元模型的数据数量也大幅降低,从而降低算力要求。其中4元模型公式如下:
例如:“猫跳上椅子”现有计算方法都是在“猫、跳上、椅子“这样的词汇之间计算联合概率,按照新的编码体系,则在计算“犭、苗、足、兆、上、木、奇、子”之间的关系,在抽象过程中,通过算法指向“犭、足、木”的一种近似关系,那么“狗跳上椅子、猪跳过栏子”都会形成相应的关联关系。
利用贝叶斯定理,将上述的条件概率值(一个句子出现的概率都转变为右边条件概率值相乘了)统计出来,公式如下:
即可完成相应的语义分析。
以上显示和描述了本发明的基本原理和主要特征以及本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (1)
1.一种基于汉字音意结构汉字编码的自然语言处理方法,其特征在于:包括如下步骤:
步骤一,在进行深度学习自然语言处理前将语料中的汉字由UTF-8编码转换为汉字音意结构汉字编码;
步骤二,利用汉字音意结构汉字编码后的语料进行语言模型训练;
步骤三,语言模型生成;
所述汉字音意结构汉字编码分为音码和结构码两部分,所述的音码为15位二进制数,所述的结构码为26位二进制数,所述的音码包括声母、介母、韵母和声调,其中声母为5位二进制数,介母为2位二进制数,韵母为5位二进制数,声调为3位二进制数,所述的结构码包括结构编码和结构部件编码,所述的结构编码为2位二进制数,所述的结构部件编码包括分别为12位二进制数的音旁和意旁,所述的音旁和意旁其中一项不存在时,独体字编码由12位0编码和独体字的存在的音旁或意旁对应的12位二进制数组成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011385160.4A CN112487762B (zh) | 2020-12-01 | 2020-12-01 | 一种基于汉字音意结构汉字编码的自然语言处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011385160.4A CN112487762B (zh) | 2020-12-01 | 2020-12-01 | 一种基于汉字音意结构汉字编码的自然语言处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112487762A CN112487762A (zh) | 2021-03-12 |
CN112487762B true CN112487762B (zh) | 2024-04-02 |
Family
ID=74938516
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011385160.4A Active CN112487762B (zh) | 2020-12-01 | 2020-12-01 | 一种基于汉字音意结构汉字编码的自然语言处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112487762B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105938402A (zh) * | 2016-06-08 | 2016-09-14 | 魏万鸿 | 一种声形码汉字输入法及键盘 |
CN109800440A (zh) * | 2019-02-26 | 2019-05-24 | 京东方科技集团股份有限公司 | 汉字的序列标注方法及系统、计算机设备及可读存储介质 |
CN110674813A (zh) * | 2019-09-24 | 2020-01-10 | 北京字节跳动网络技术有限公司 | 汉字识别方法、装置、计算机可读介质及电子设备 |
CN111476036A (zh) * | 2020-04-10 | 2020-07-31 | 电子科技大学 | 一种基于中文单词特征子串的词嵌入学习方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7032175B2 (en) * | 2003-01-30 | 2006-04-18 | Ching-Shyan Wu | Collision-free ideographic character coding method and apparatus for oriental languages |
-
2020
- 2020-12-01 CN CN202011385160.4A patent/CN112487762B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105938402A (zh) * | 2016-06-08 | 2016-09-14 | 魏万鸿 | 一种声形码汉字输入法及键盘 |
CN109800440A (zh) * | 2019-02-26 | 2019-05-24 | 京东方科技集团股份有限公司 | 汉字的序列标注方法及系统、计算机设备及可读存储介质 |
CN110674813A (zh) * | 2019-09-24 | 2020-01-10 | 北京字节跳动网络技术有限公司 | 汉字识别方法、装置、计算机可读介质及电子设备 |
CN111476036A (zh) * | 2020-04-10 | 2020-07-31 | 电子科技大学 | 一种基于中文单词特征子串的词嵌入学习方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112487762A (zh) | 2021-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109992775B (zh) | 一种基于高级语义的文本摘要生成方法 | |
KR100904049B1 (ko) | 음성 인식에 대한 통계적 의미 분류 시스템 및 방법 | |
CN112199945A (zh) | 一种文本纠错的方法和装置 | |
CN112507734B (zh) | 一种基于罗马化维吾尔语的神经机器翻译系统 | |
KR102043353B1 (ko) | 딥 러닝을 이용한 한국어 개체명 인식 장치 및 방법 | |
CN111599340A (zh) | 一种多音字读音预测方法、装置及计算机可读存储介质 | |
CN111476036A (zh) | 一种基于中文单词特征子串的词嵌入学习方法 | |
CN113268576B (zh) | 一种基于深度学习的部门语义信息抽取的方法及装置 | |
CN115587590A (zh) | 训练语料集构建方法、翻译模型训练方法、翻译方法 | |
CN113221542A (zh) | 一种基于多粒度融合与Bert筛选的中文文本自动校对方法 | |
CN113065349A (zh) | 基于条件随机场的命名实体识别方法 | |
CN109948144A (zh) | 一种基于课堂教学情境的教师话语智能处理的方法 | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN111241820A (zh) | 不良用语识别方法、装置、电子装置及存储介质 | |
CN112489634A (zh) | 语言的声学模型训练方法、装置、电子设备及计算机介质 | |
CN112487762B (zh) | 一种基于汉字音意结构汉字编码的自然语言处理方法 | |
CN110069632B (zh) | 一种集成浅层语义表示向量的深度学习文本分类方法 | |
CN111178009A (zh) | 一种基于特征词加权的文本多语种识别方法 | |
CN116663501A (zh) | 一种基于多模态共享权重的中文变体文本转换方法 | |
CN115796157A (zh) | 基于规则的领域词典构建方法 | |
CN109960782A (zh) | 一种基于深度神经网络的藏文分词方法及装置 | |
CN113282746B (zh) | 一种网络媒体平台变体评论对抗文本生成方法 | |
Bilac et al. | Direct combination of spelling and pronunciation information for robust back-transliteration | |
CN113919339A (zh) | 人工智能辅助写作方法 | |
CN113255330B (zh) | 一种基于字符特征分类器与软输出的中文拼写检查方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Room 407, 4th floor, Yuanhe building, No. 959, Jiayuan Road, Yuanhe street, Xiangcheng District, Suzhou, Jiangsu 215000 Applicant after: SUZHOU YINGTE LEIZHEN INTELLIGENT TECHNOLOGY Co.,Ltd. Address before: Room 416, 4th floor, Yuanhe building, 959 Jiayuan Road, Yuanhe street, Xiangcheng District, Suzhou City, Jiangsu Province 215000 Applicant before: SUZHOU YINGTE LEIZHEN INTELLIGENT TECHNOLOGY Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |