CN114707467A - 一种基于自注意力机制的自动化拼音转汉字方法 - Google Patents

一种基于自注意力机制的自动化拼音转汉字方法 Download PDF

Info

Publication number
CN114707467A
CN114707467A CN202210269579.6A CN202210269579A CN114707467A CN 114707467 A CN114707467 A CN 114707467A CN 202210269579 A CN202210269579 A CN 202210269579A CN 114707467 A CN114707467 A CN 114707467A
Authority
CN
China
Prior art keywords
pinyin
matrix
sequence
self
chinese character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210269579.6A
Other languages
English (en)
Inventor
卜佳俊
邵子睿
于智
李承曦
李亮城
林帅浩
谷雨
陈锶皓
戚忠达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202210269579.6A priority Critical patent/CN114707467A/zh
Publication of CN114707467A publication Critical patent/CN114707467A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种基于自注意力机制的自动化拼音转汉字方法,包括:预处理拼音序列;利用嵌入层获得输入拼音序列的嵌入表示矩阵;在嵌入表示添加位置编码,获得拼音序列的输入表示矩阵;利用拼音序列的输入表示矩阵和自注意力机制获得拼音序列的自注意力输出矩阵;利用全连接层将自注意力输出矩阵变换为输出矩阵;解析输出矩阵,获得汉字序列结果。该发明可在无人工干预的前提下,自动化的将拼音序列转成汉字序列。

Description

一种基于自注意力机制的自动化拼音转汉字方法
技术领域
本发明涉及自然语言处理领域,具体涉及一种基于自注意力机制的拼音转汉字方法。
背景技术
拼音是中文的官方汉字注音拉丁化方案,提供了将汉字映射到一串拉丁字母的解决方案,在日常生活中被广泛使用。然而,中文的同音字现象非常常见。据统计,汉字共有5000多个常用字,但对应拼音仅有410个,这意味着,一个拼音平均对应十多个汉字。因此,拼音转汉字是一个有着巨大使用需求及挑战性的问题。
目前大多数拼音转汉字的解决方案基于拼音输入法,在转换时需要人工干预。本发明针对自动化拼音转汉字问题,提出了一种基于自注意力机制的方法。
发明内容
本发明要克服现有技术的上述缺点,提供一种基于自注意力机制的自动化拼音转汉字方法。
为了解决上述技术问题,本发明提出一种基于自注意力机制的自动化拼音转汉字方法,所述方法包括:
S110,预处理输入,输入为一段拼音序列;
S120,利用嵌入层获得输入拼音序列的嵌入表示矩阵;
S130,在嵌入表示添加位置编码,获得拼音序列的输入表示矩阵;
S140,利用拼音序列的输入表示矩阵和自注意力机制获得拼音序列的自注意力输出矩阵;
S150,利用全连接层将自注意力输出矩阵变换为输出矩阵;
S160,解析输出矩阵,获得汉字序列结果。
进一步的,步骤S110所述的预处理输入,输入为一段拼音序列,具体包括:
将拼音序列按照声母和韵母拆分成词元;
使用事先给定拼音字典,将词元(声母或韵母)映射到数字索引,并以此将拼音序列转换为数字索引序列X=(x1,x2,…,xn)。
进一步的,步骤S120所述的利用嵌入层获得输入拼音序列的嵌入表示矩阵包括:
嵌入层的权重是一个矩阵,行数是词汇表大小,列数是特征向量的维度。
对于任意词元xi,嵌入层权重的第i行即为对应的词向量。
以此获得输入序列X的嵌入表示矩阵E∈Rn×d(n代表词元数,d代表词向量维度)。
进一步的,步骤S130所述的,在嵌入表示添加位置编码,获得拼音序列的输入表示矩阵包括:
嵌入表示E的第i行、第2j列和2j+1列元素的位置编码为:
Figure BDA0003552779530000021
Figure BDA0003552779530000022
计算位置编码矩阵P∈Rn×d
将嵌入表示矩阵E与位置编码矩阵P相加,获得序列的输入表示矩阵Q。
进一步的,步骤S140所述的,利用拼音序列的输入表示矩阵和自注意力机制获得拼音序列的自注意力输出矩阵包括:
对于输入表示矩阵Q∈Rn×d的每一列q∈Rd,均可计算得一个自注意力输出mi=f(qi,(q1,q1),…,(qn,qn))∈Rd,其中
Figure BDA0003552779530000023
Figure BDA0003552779530000031
以此可得拼音序列的自注意力输出矩阵M∈Rn×d
进一步的,步骤S150所述的,利用全连接层将自注意力输出矩阵变换为输出矩阵包括:
使用全连接层将将自注意力输出矩阵M∈Rn×d变换为输出矩阵Y∈Rn×v(n代表词元数,v代表事先给定的汉字字典长度)。
进一步的,步骤S160所述的,解析输出矩阵,获得汉字序列结果包括:
利用argmax函数处理输出矩阵Y,得汉字数字序列Y′=(y1,y2,…,y_n);
使用事先给定汉字字典,将数字索引映射到词元(汉字),并以此将汉字数字序列Y′=(y1,y2,…,y_n)转换为汉字序列,即最终结果。
本发明的有益效果是,本发明提供的基于自注意力机制的自动化拼音转汉字方法,其中,所述方法预处理拼音序列;利用嵌入层获得输入拼音序列的嵌入表示矩阵;在嵌入表示添加位置编码,获得拼音序列的输入表示矩阵;利用拼音序列的输入表示矩阵和自注意力机制获得拼音序列的自注意力输出矩阵;利用全连接层将自注意力输出矩阵变换为输出矩阵;解析输出矩阵,获得汉字序列结果。该发明可在无人工干预的前提下,自动化的将拼音序列转成汉字序列。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1是本发明方法的流程图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
实施例1
如图1所示,本实施例1提供了一种基于自注意力机制的自动化拼音转汉字方法,所述方法包括:针对自动化拼音转汉字问题,提出一种基于自注意力机制的解决方案。
具体来说,所述方法包括:
S110:预处理输入,输入为一段拼音序列。
具体来说,对输入拼音序列的预处理操作包括:
将拼音序列按照声母和韵母拆分成词元;
使用事先给定拼音字典,将词元(声母或韵母)映射到数字索引,并以此将拼音序列转换为数字索引序列X=(x1,x2,…,xn)。
S120:利用嵌入层获得输入拼音序列的嵌入表示矩阵。
具体来说,嵌入层的权重是一个矩阵,行数是词汇表大小,列数是特征向量的维度。
对于任意词元xi,嵌入层权重的第i行即为对应的词向量。
以此获得输入序列X的嵌入表示矩阵E∈Rn×d(n代表词元数,d代表词向量维度)。
S130:在嵌入表示添加位置编码,获得拼音序列的输入表示矩阵。
具体来说,在嵌入表示添加位置编码操作包括:
嵌入表示E的第i行、第2j列和2j+1列元素的位置编码为:
Figure BDA0003552779530000041
Figure BDA0003552779530000042
计算位置编码矩阵P∈Rn×d
将嵌入表示矩阵E与位置编码矩阵P相加,获得序列的输入表示矩阵Q。
S140:利用拼音序列的输入表示矩阵和自注意力机制获得拼音序列的自注意力输出矩阵。
具体来说,对于输入表示矩阵Q∈Rn×d的每一列q∈Rd,均可计算得一个自注意力输出mi=f(qi,(q1,q1),…,(qn,qn))∈Rd,其中
Figure BDA0003552779530000051
Figure BDA0003552779530000052
以此可得拼音序列的自注意力输出矩阵M∈Rn×d
S150:利用全连接层将自注意力输出矩阵变换为输出矩阵。
具体来说,使用全连接层将将自注意力输出矩阵M∈Rn×d变换为输出矩阵Y∈Rn×v(n代表词元数,v代表事先给定的汉字字典长度)。
S160:解析输出矩阵,获得汉字序列结果。
具体来说,解析输出矩阵的操作包括:
利用argmax函数处理输出矩阵Y,得汉字数字序列Y′=(y1,y2,…,y_n);
使用事先给定汉字字典,将数字索引映射到词元(汉字),并以此将汉字数字序列Y′=(y1,y2,…,y_n)转换为汉字序列,即最终结果。
综上所述,本发明提供的基于自注意力机制的拼音转汉字方法,其中,所述方法预处理拼音序列;利用嵌入层获得输入拼音序列的嵌入表示矩阵;在嵌入表示添加位置编码,获得拼音序列的输入表示矩阵;利用拼音序列的输入表示矩阵和自注意力机制获得拼音序列的自注意力输出矩阵;利用全连接层将自注意力输出矩阵变换为输出矩阵;解析输出矩阵,获得汉字序列结果。该发明可在无人工干预的前提下,自动化的将拼音序列转成汉字序列。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

Claims (7)

1.一种基于自注意力机制的自动化拼音转汉字方法,其特征在于,包括如下步骤:
S110,预处理输入,输入为一段拼音序列;
S120,利用嵌入层获得输入拼音序列的嵌入表示矩阵;
S130,在嵌入表示添加位置编码,获得拼音序列的输入表示矩阵;
S140,利用拼音序列的输入表示矩阵和自注意力机制获得拼音序列的自注意力输出矩阵;
S150,利用全连接层将自注意力输出矩阵变换为输出矩阵;
S160,解析输出矩阵,获得汉字序列结果。
2.如权利要求1所述的基于自注意力机制的自动化拼音转汉字方法,其特征在于,步骤S110包括:
将拼音序列按照声母和韵母拆分成词元;
使用事先给定拼音字典,将词元(声母或韵母)映射到数字索引,并以此将拼音序列转换为数字索引序列X=(x1,x2,…,xn)。
3.如权利要求1所述的基于自注意力机制的自动化拼音转汉字方法,其特征在于,步骤S120包括:
嵌入层的权重是一个矩阵,行数是词汇表大小,列数是特征向量的维度;
对于任意词元xi,嵌入层权重的第i行即为对应的词向量;
以此获得输入序列X的嵌入表示矩阵E∈Rn×d,n代表词元数,d代表词向量维度。
4.如权利要求1所述的基于自注意力机制的自动化拼音转汉字方法,其特征在于,步骤S130包括:
嵌入表示E的第i行、第2h列和2h+1列元素的位置编码为:
Figure FDA0003552779520000021
Figure FDA0003552779520000022
计算位置编码矩阵P∈Rn×d
将嵌入表示矩阵E与位置编码矩阵P相加,获得序列的输入表示矩阵Q。
5.如权利要求1所述的基于自注意力机制的自动化拼音转汉字方法,其特征在于,步骤S140包括:
对于输入表示矩阵Q∈Rn×d的每一列q∈Rd,均可计算得一个自注意力输出mi=f(qi,(q1,q1),…,(qn,qn))∈Rd,其中
Figure FDA0003552779520000023
Figure FDA0003552779520000024
以此可得拼音序列的自注意力输出矩阵M∈Rn×d
6.如权利要求1所述的基于自注意力机制的自动化拼音转汉字方法,其特征在于,步骤S150包括:
使用全连接层将将自注意力输出矩阵M∈Rn×d变换为输出矩阵Y∈Rn×v,n代表词元数,v代表事先给定的汉字字典长度;
7.如权利要求1所述的基于自注意力机制的自动化拼音转汉字方法,其特征在于,步骤S160包括:
利用argmax函数处理输出矩阵Y,得汉字数字序列Y′=(y1,y2,…,y_n);
使用事先给定汉字字典,将数字索引映射到词元(汉字),并以此将汉字数字序列Y′=(y1,y2,…,y_n)转换为汉字序列,即最终结果。
CN202210269579.6A 2022-03-18 2022-03-18 一种基于自注意力机制的自动化拼音转汉字方法 Pending CN114707467A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210269579.6A CN114707467A (zh) 2022-03-18 2022-03-18 一种基于自注意力机制的自动化拼音转汉字方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210269579.6A CN114707467A (zh) 2022-03-18 2022-03-18 一种基于自注意力机制的自动化拼音转汉字方法

Publications (1)

Publication Number Publication Date
CN114707467A true CN114707467A (zh) 2022-07-05

Family

ID=82168286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210269579.6A Pending CN114707467A (zh) 2022-03-18 2022-03-18 一种基于自注意力机制的自动化拼音转汉字方法

Country Status (1)

Country Link
CN (1) CN114707467A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014012521A1 (zh) * 2012-07-19 2014-01-23 Liang Chen 基于韵列的键盘输入方法
CN111144110A (zh) * 2019-12-27 2020-05-12 科大讯飞股份有限公司 拼音标注方法、装置、服务器及存储介质
CN111145718A (zh) * 2019-12-30 2020-05-12 中国科学院声学研究所 一种基于自注意力机制的中文普通话字音转换方法
CN111160020A (zh) * 2019-11-26 2020-05-15 华东师范大学 一种具有多种子模块信息的中文词向量生成方法
US20200218746A1 (en) * 2019-01-08 2020-07-09 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for presenting information
CN111414481A (zh) * 2020-03-19 2020-07-14 哈尔滨理工大学 基于拼音和bert嵌入的中文语义匹配方法
CN112163431A (zh) * 2020-10-19 2021-01-01 北京邮电大学 一种基于泛条件随机场的中文缺失代词补全方法
CN112507734A (zh) * 2020-11-19 2021-03-16 南京大学 一种基于罗马化维吾尔语的神经机器翻译系统
WO2021179570A1 (zh) * 2020-03-13 2021-09-16 平安科技(深圳)有限公司 序列标注方法、装置、计算机设备和存储介质
US20210319314A1 (en) * 2020-04-09 2021-10-14 Naver Corporation End-To-End Graph Convolution Network
CN113971404A (zh) * 2021-10-29 2022-01-25 中南民族大学 一种基于解耦注意力的文物安全命名实体识别方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014012521A1 (zh) * 2012-07-19 2014-01-23 Liang Chen 基于韵列的键盘输入方法
US20200218746A1 (en) * 2019-01-08 2020-07-09 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for presenting information
CN111414561A (zh) * 2019-01-08 2020-07-14 百度在线网络技术(北京)有限公司 用于呈现信息的方法和装置
CN111160020A (zh) * 2019-11-26 2020-05-15 华东师范大学 一种具有多种子模块信息的中文词向量生成方法
CN111144110A (zh) * 2019-12-27 2020-05-12 科大讯飞股份有限公司 拼音标注方法、装置、服务器及存储介质
CN111145718A (zh) * 2019-12-30 2020-05-12 中国科学院声学研究所 一种基于自注意力机制的中文普通话字音转换方法
WO2021179570A1 (zh) * 2020-03-13 2021-09-16 平安科技(深圳)有限公司 序列标注方法、装置、计算机设备和存储介质
CN111414481A (zh) * 2020-03-19 2020-07-14 哈尔滨理工大学 基于拼音和bert嵌入的中文语义匹配方法
US20210319314A1 (en) * 2020-04-09 2021-10-14 Naver Corporation End-To-End Graph Convolution Network
CN112163431A (zh) * 2020-10-19 2021-01-01 北京邮电大学 一种基于泛条件随机场的中文缺失代词补全方法
CN112507734A (zh) * 2020-11-19 2021-03-16 南京大学 一种基于罗马化维吾尔语的神经机器翻译系统
CN113971404A (zh) * 2021-10-29 2022-01-25 中南民族大学 一种基于解耦注意力的文物安全命名实体识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘刚;曹雨虹;裴莹莹;李玉;: "基于专利摘要词嵌入分布式表示方法的改进", 信息通信, no. 04, 15 April 2019 (2019-04-15) *
商齐;曾碧卿;王盛玉;周才东;曾锋;: "ACMF:基于卷积注意力模型的评分预测研究", 中文信息学报, no. 11, 15 November 2018 (2018-11-15) *
蔡佳;王向东;唐李真;崔晓娟;刘宏;钱跃良;: "基于汉盲对照语料库和深度学习的汉盲自动转换", 中文信息学报, no. 04, 15 April 2019 (2019-04-15) *

Similar Documents

Publication Publication Date Title
KR100656736B1 (ko) 표음 입력 모호성 제거 시스템 및 방법
US5360343A (en) Chinese character coding method using five stroke codes and double phonetic alphabets
CN112507734B (zh) 一种基于罗马化维吾尔语的神经机器翻译系统
CN109241540A (zh) 一种基于深度神经网络的汉盲自动转换方法和系统
Abbad et al. Multi-components system for automatic Arabic diacritization
CN111581985B (zh) 一种基于Transformer的汉盲翻译方法及系统
CN1484173A (zh) 基于汉字形状的中文单词拼写错误校正方法
CN101135938B (zh) 一种汉字元拼双音输入方法
Hlaing Manually constructed context-free grammar for Myanmar syllable structure
CN114707467A (zh) 一种基于自注意力机制的自动化拼音转汉字方法
Das et al. Multilingual Neural Machine Translation System for Indic to Indic Languages
KR102040088B1 (ko) 템플릿을 이용한 개인화 폰트 생성 방법 및 시스템
Lu et al. An automatic spelling correction method for classical mongolian
JP7315420B2 (ja) テキストの適合および修正の方法
Saharia et al. LuitPad: a fully unicode compatible Assamese writing software
CN111428509A (zh) 一种基于拉丁字母的维吾尔语处理方法和系统
Joshi et al. Input Scheme for Hindi Using Phonetic Mapping
CN1200332C (zh) 一种汉字计算机输入方法
Ding et al. MY-AKKHARA: A Romanization-based Burmese (Myanmar) input method
CN111581991B (zh) 一种基于端到端神经机器翻译的汉盲翻译方法及系统
Tanaka-Ishii et al. Text entry in East Asian languages
Rolfe What is an IME (Input Method Editor) and how do I use it
Lakshmi et al. State-of-the-art automatic machine transliteration systems for Indic scripts: a comparative report
CN114429127A (zh) 一种汉字到通用盲文的转换方法及系统
CN1122913C (zh) 计算机汉字信息处理的规范编码输入方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination