CN114707467A - 一种基于自注意力机制的自动化拼音转汉字方法 - Google Patents
一种基于自注意力机制的自动化拼音转汉字方法 Download PDFInfo
- Publication number
- CN114707467A CN114707467A CN202210269579.6A CN202210269579A CN114707467A CN 114707467 A CN114707467 A CN 114707467A CN 202210269579 A CN202210269579 A CN 202210269579A CN 114707467 A CN114707467 A CN 114707467A
- Authority
- CN
- China
- Prior art keywords
- pinyin
- matrix
- sequence
- self
- chinese character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 17
- 239000011159 matrix material Substances 0.000 claims abstract description 83
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 230000001131 transforming effect Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
一种基于自注意力机制的自动化拼音转汉字方法,包括:预处理拼音序列;利用嵌入层获得输入拼音序列的嵌入表示矩阵;在嵌入表示添加位置编码,获得拼音序列的输入表示矩阵;利用拼音序列的输入表示矩阵和自注意力机制获得拼音序列的自注意力输出矩阵;利用全连接层将自注意力输出矩阵变换为输出矩阵;解析输出矩阵,获得汉字序列结果。该发明可在无人工干预的前提下,自动化的将拼音序列转成汉字序列。
Description
技术领域
本发明涉及自然语言处理领域,具体涉及一种基于自注意力机制的拼音转汉字方法。
背景技术
拼音是中文的官方汉字注音拉丁化方案,提供了将汉字映射到一串拉丁字母的解决方案,在日常生活中被广泛使用。然而,中文的同音字现象非常常见。据统计,汉字共有5000多个常用字,但对应拼音仅有410个,这意味着,一个拼音平均对应十多个汉字。因此,拼音转汉字是一个有着巨大使用需求及挑战性的问题。
目前大多数拼音转汉字的解决方案基于拼音输入法,在转换时需要人工干预。本发明针对自动化拼音转汉字问题,提出了一种基于自注意力机制的方法。
发明内容
本发明要克服现有技术的上述缺点,提供一种基于自注意力机制的自动化拼音转汉字方法。
为了解决上述技术问题,本发明提出一种基于自注意力机制的自动化拼音转汉字方法,所述方法包括:
S110,预处理输入,输入为一段拼音序列;
S120,利用嵌入层获得输入拼音序列的嵌入表示矩阵;
S130,在嵌入表示添加位置编码,获得拼音序列的输入表示矩阵;
S140,利用拼音序列的输入表示矩阵和自注意力机制获得拼音序列的自注意力输出矩阵;
S150,利用全连接层将自注意力输出矩阵变换为输出矩阵;
S160,解析输出矩阵,获得汉字序列结果。
进一步的,步骤S110所述的预处理输入,输入为一段拼音序列,具体包括:
将拼音序列按照声母和韵母拆分成词元;
使用事先给定拼音字典,将词元(声母或韵母)映射到数字索引,并以此将拼音序列转换为数字索引序列X=(x1,x2,…,xn)。
进一步的,步骤S120所述的利用嵌入层获得输入拼音序列的嵌入表示矩阵包括:
嵌入层的权重是一个矩阵,行数是词汇表大小,列数是特征向量的维度。
对于任意词元xi,嵌入层权重的第i行即为对应的词向量。
以此获得输入序列X的嵌入表示矩阵E∈Rn×d(n代表词元数,d代表词向量维度)。
进一步的,步骤S130所述的,在嵌入表示添加位置编码,获得拼音序列的输入表示矩阵包括:
嵌入表示E的第i行、第2j列和2j+1列元素的位置编码为:
计算位置编码矩阵P∈Rn×d;
将嵌入表示矩阵E与位置编码矩阵P相加,获得序列的输入表示矩阵Q。
进一步的,步骤S140所述的,利用拼音序列的输入表示矩阵和自注意力机制获得拼音序列的自注意力输出矩阵包括:
以此可得拼音序列的自注意力输出矩阵M∈Rn×d
进一步的,步骤S150所述的,利用全连接层将自注意力输出矩阵变换为输出矩阵包括:
使用全连接层将将自注意力输出矩阵M∈Rn×d变换为输出矩阵Y∈Rn×v(n代表词元数,v代表事先给定的汉字字典长度)。
进一步的,步骤S160所述的,解析输出矩阵,获得汉字序列结果包括:
利用argmax函数处理输出矩阵Y,得汉字数字序列Y′=(y1,y2,…,y_n);
使用事先给定汉字字典,将数字索引映射到词元(汉字),并以此将汉字数字序列Y′=(y1,y2,…,y_n)转换为汉字序列,即最终结果。
本发明的有益效果是,本发明提供的基于自注意力机制的自动化拼音转汉字方法,其中,所述方法预处理拼音序列;利用嵌入层获得输入拼音序列的嵌入表示矩阵;在嵌入表示添加位置编码,获得拼音序列的输入表示矩阵;利用拼音序列的输入表示矩阵和自注意力机制获得拼音序列的自注意力输出矩阵;利用全连接层将自注意力输出矩阵变换为输出矩阵;解析输出矩阵,获得汉字序列结果。该发明可在无人工干预的前提下,自动化的将拼音序列转成汉字序列。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1是本发明方法的流程图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
实施例1
如图1所示,本实施例1提供了一种基于自注意力机制的自动化拼音转汉字方法,所述方法包括:针对自动化拼音转汉字问题,提出一种基于自注意力机制的解决方案。
具体来说,所述方法包括:
S110:预处理输入,输入为一段拼音序列。
具体来说,对输入拼音序列的预处理操作包括:
将拼音序列按照声母和韵母拆分成词元;
使用事先给定拼音字典,将词元(声母或韵母)映射到数字索引,并以此将拼音序列转换为数字索引序列X=(x1,x2,…,xn)。
S120:利用嵌入层获得输入拼音序列的嵌入表示矩阵。
具体来说,嵌入层的权重是一个矩阵,行数是词汇表大小,列数是特征向量的维度。
对于任意词元xi,嵌入层权重的第i行即为对应的词向量。
以此获得输入序列X的嵌入表示矩阵E∈Rn×d(n代表词元数,d代表词向量维度)。
S130:在嵌入表示添加位置编码,获得拼音序列的输入表示矩阵。
具体来说,在嵌入表示添加位置编码操作包括:
嵌入表示E的第i行、第2j列和2j+1列元素的位置编码为:
计算位置编码矩阵P∈Rn×d;
将嵌入表示矩阵E与位置编码矩阵P相加,获得序列的输入表示矩阵Q。
S140:利用拼音序列的输入表示矩阵和自注意力机制获得拼音序列的自注意力输出矩阵。
以此可得拼音序列的自注意力输出矩阵M∈Rn×d。
S150:利用全连接层将自注意力输出矩阵变换为输出矩阵。
具体来说,使用全连接层将将自注意力输出矩阵M∈Rn×d变换为输出矩阵Y∈Rn×v(n代表词元数,v代表事先给定的汉字字典长度)。
S160:解析输出矩阵,获得汉字序列结果。
具体来说,解析输出矩阵的操作包括:
利用argmax函数处理输出矩阵Y,得汉字数字序列Y′=(y1,y2,…,y_n);
使用事先给定汉字字典,将数字索引映射到词元(汉字),并以此将汉字数字序列Y′=(y1,y2,…,y_n)转换为汉字序列,即最终结果。
综上所述,本发明提供的基于自注意力机制的拼音转汉字方法,其中,所述方法预处理拼音序列;利用嵌入层获得输入拼音序列的嵌入表示矩阵;在嵌入表示添加位置编码,获得拼音序列的输入表示矩阵;利用拼音序列的输入表示矩阵和自注意力机制获得拼音序列的自注意力输出矩阵;利用全连接层将自注意力输出矩阵变换为输出矩阵;解析输出矩阵,获得汉字序列结果。该发明可在无人工干预的前提下,自动化的将拼音序列转成汉字序列。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。
Claims (7)
1.一种基于自注意力机制的自动化拼音转汉字方法,其特征在于,包括如下步骤:
S110,预处理输入,输入为一段拼音序列;
S120,利用嵌入层获得输入拼音序列的嵌入表示矩阵;
S130,在嵌入表示添加位置编码,获得拼音序列的输入表示矩阵;
S140,利用拼音序列的输入表示矩阵和自注意力机制获得拼音序列的自注意力输出矩阵;
S150,利用全连接层将自注意力输出矩阵变换为输出矩阵;
S160,解析输出矩阵,获得汉字序列结果。
2.如权利要求1所述的基于自注意力机制的自动化拼音转汉字方法,其特征在于,步骤S110包括:
将拼音序列按照声母和韵母拆分成词元;
使用事先给定拼音字典,将词元(声母或韵母)映射到数字索引,并以此将拼音序列转换为数字索引序列X=(x1,x2,…,xn)。
3.如权利要求1所述的基于自注意力机制的自动化拼音转汉字方法,其特征在于,步骤S120包括:
嵌入层的权重是一个矩阵,行数是词汇表大小,列数是特征向量的维度;
对于任意词元xi,嵌入层权重的第i行即为对应的词向量;
以此获得输入序列X的嵌入表示矩阵E∈Rn×d,n代表词元数,d代表词向量维度。
6.如权利要求1所述的基于自注意力机制的自动化拼音转汉字方法,其特征在于,步骤S150包括:
使用全连接层将将自注意力输出矩阵M∈Rn×d变换为输出矩阵Y∈Rn×v,n代表词元数,v代表事先给定的汉字字典长度;
7.如权利要求1所述的基于自注意力机制的自动化拼音转汉字方法,其特征在于,步骤S160包括:
利用argmax函数处理输出矩阵Y,得汉字数字序列Y′=(y1,y2,…,y_n);
使用事先给定汉字字典,将数字索引映射到词元(汉字),并以此将汉字数字序列Y′=(y1,y2,…,y_n)转换为汉字序列,即最终结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210269579.6A CN114707467A (zh) | 2022-03-18 | 2022-03-18 | 一种基于自注意力机制的自动化拼音转汉字方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210269579.6A CN114707467A (zh) | 2022-03-18 | 2022-03-18 | 一种基于自注意力机制的自动化拼音转汉字方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114707467A true CN114707467A (zh) | 2022-07-05 |
Family
ID=82168286
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210269579.6A Pending CN114707467A (zh) | 2022-03-18 | 2022-03-18 | 一种基于自注意力机制的自动化拼音转汉字方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114707467A (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014012521A1 (zh) * | 2012-07-19 | 2014-01-23 | Liang Chen | 基于韵列的键盘输入方法 |
CN111144110A (zh) * | 2019-12-27 | 2020-05-12 | 科大讯飞股份有限公司 | 拼音标注方法、装置、服务器及存储介质 |
CN111145718A (zh) * | 2019-12-30 | 2020-05-12 | 中国科学院声学研究所 | 一种基于自注意力机制的中文普通话字音转换方法 |
CN111160020A (zh) * | 2019-11-26 | 2020-05-15 | 华东师范大学 | 一种具有多种子模块信息的中文词向量生成方法 |
US20200218746A1 (en) * | 2019-01-08 | 2020-07-09 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for presenting information |
CN111414481A (zh) * | 2020-03-19 | 2020-07-14 | 哈尔滨理工大学 | 基于拼音和bert嵌入的中文语义匹配方法 |
CN112163431A (zh) * | 2020-10-19 | 2021-01-01 | 北京邮电大学 | 一种基于泛条件随机场的中文缺失代词补全方法 |
CN112507734A (zh) * | 2020-11-19 | 2021-03-16 | 南京大学 | 一种基于罗马化维吾尔语的神经机器翻译系统 |
WO2021179570A1 (zh) * | 2020-03-13 | 2021-09-16 | 平安科技(深圳)有限公司 | 序列标注方法、装置、计算机设备和存储介质 |
US20210319314A1 (en) * | 2020-04-09 | 2021-10-14 | Naver Corporation | End-To-End Graph Convolution Network |
CN113971404A (zh) * | 2021-10-29 | 2022-01-25 | 中南民族大学 | 一种基于解耦注意力的文物安全命名实体识别方法 |
-
2022
- 2022-03-18 CN CN202210269579.6A patent/CN114707467A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014012521A1 (zh) * | 2012-07-19 | 2014-01-23 | Liang Chen | 基于韵列的键盘输入方法 |
US20200218746A1 (en) * | 2019-01-08 | 2020-07-09 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for presenting information |
CN111414561A (zh) * | 2019-01-08 | 2020-07-14 | 百度在线网络技术(北京)有限公司 | 用于呈现信息的方法和装置 |
CN111160020A (zh) * | 2019-11-26 | 2020-05-15 | 华东师范大学 | 一种具有多种子模块信息的中文词向量生成方法 |
CN111144110A (zh) * | 2019-12-27 | 2020-05-12 | 科大讯飞股份有限公司 | 拼音标注方法、装置、服务器及存储介质 |
CN111145718A (zh) * | 2019-12-30 | 2020-05-12 | 中国科学院声学研究所 | 一种基于自注意力机制的中文普通话字音转换方法 |
WO2021179570A1 (zh) * | 2020-03-13 | 2021-09-16 | 平安科技(深圳)有限公司 | 序列标注方法、装置、计算机设备和存储介质 |
CN111414481A (zh) * | 2020-03-19 | 2020-07-14 | 哈尔滨理工大学 | 基于拼音和bert嵌入的中文语义匹配方法 |
US20210319314A1 (en) * | 2020-04-09 | 2021-10-14 | Naver Corporation | End-To-End Graph Convolution Network |
CN112163431A (zh) * | 2020-10-19 | 2021-01-01 | 北京邮电大学 | 一种基于泛条件随机场的中文缺失代词补全方法 |
CN112507734A (zh) * | 2020-11-19 | 2021-03-16 | 南京大学 | 一种基于罗马化维吾尔语的神经机器翻译系统 |
CN113971404A (zh) * | 2021-10-29 | 2022-01-25 | 中南民族大学 | 一种基于解耦注意力的文物安全命名实体识别方法 |
Non-Patent Citations (3)
Title |
---|
刘刚;曹雨虹;裴莹莹;李玉;: "基于专利摘要词嵌入分布式表示方法的改进", 信息通信, no. 04, 15 April 2019 (2019-04-15) * |
商齐;曾碧卿;王盛玉;周才东;曾锋;: "ACMF:基于卷积注意力模型的评分预测研究", 中文信息学报, no. 11, 15 November 2018 (2018-11-15) * |
蔡佳;王向东;唐李真;崔晓娟;刘宏;钱跃良;: "基于汉盲对照语料库和深度学习的汉盲自动转换", 中文信息学报, no. 04, 15 April 2019 (2019-04-15) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100656736B1 (ko) | 표음 입력 모호성 제거 시스템 및 방법 | |
US5360343A (en) | Chinese character coding method using five stroke codes and double phonetic alphabets | |
CN112507734B (zh) | 一种基于罗马化维吾尔语的神经机器翻译系统 | |
CN109241540A (zh) | 一种基于深度神经网络的汉盲自动转换方法和系统 | |
Abbad et al. | Multi-components system for automatic Arabic diacritization | |
CN111581985B (zh) | 一种基于Transformer的汉盲翻译方法及系统 | |
CN1484173A (zh) | 基于汉字形状的中文单词拼写错误校正方法 | |
CN101135938B (zh) | 一种汉字元拼双音输入方法 | |
Hlaing | Manually constructed context-free grammar for Myanmar syllable structure | |
CN114707467A (zh) | 一种基于自注意力机制的自动化拼音转汉字方法 | |
Das et al. | Multilingual Neural Machine Translation System for Indic to Indic Languages | |
KR102040088B1 (ko) | 템플릿을 이용한 개인화 폰트 생성 방법 및 시스템 | |
Lu et al. | An automatic spelling correction method for classical mongolian | |
JP7315420B2 (ja) | テキストの適合および修正の方法 | |
Saharia et al. | LuitPad: a fully unicode compatible Assamese writing software | |
CN111428509A (zh) | 一种基于拉丁字母的维吾尔语处理方法和系统 | |
Joshi et al. | Input Scheme for Hindi Using Phonetic Mapping | |
CN1200332C (zh) | 一种汉字计算机输入方法 | |
Ding et al. | MY-AKKHARA: A Romanization-based Burmese (Myanmar) input method | |
CN111581991B (zh) | 一种基于端到端神经机器翻译的汉盲翻译方法及系统 | |
Tanaka-Ishii et al. | Text entry in East Asian languages | |
Rolfe | What is an IME (Input Method Editor) and how do I use it | |
Lakshmi et al. | State-of-the-art automatic machine transliteration systems for Indic scripts: a comparative report | |
CN114429127A (zh) | 一种汉字到通用盲文的转换方法及系统 | |
CN1122913C (zh) | 计算机汉字信息处理的规范编码输入方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |