CN110162789A - 一种基于汉语拼音的词表征方法及装置 - Google Patents

一种基于汉语拼音的词表征方法及装置 Download PDF

Info

Publication number
CN110162789A
CN110162789A CN201910392767.6A CN201910392767A CN110162789A CN 110162789 A CN110162789 A CN 110162789A CN 201910392767 A CN201910392767 A CN 201910392767A CN 110162789 A CN110162789 A CN 110162789A
Authority
CN
China
Prior art keywords
character
sequence
pinyin
chinese
language model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910392767.6A
Other languages
English (en)
Other versions
CN110162789B (zh
Inventor
窦志成
钱泓锦
黄真
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wisdom Data Technology Co Ltd
Original Assignee
Beijing Wisdom Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wisdom Data Technology Co Ltd filed Critical Beijing Wisdom Data Technology Co Ltd
Priority to CN201910392767.6A priority Critical patent/CN110162789B/zh
Publication of CN110162789A publication Critical patent/CN110162789A/zh
Application granted granted Critical
Publication of CN110162789B publication Critical patent/CN110162789B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请公开了一种基于汉语拼音的词表征方法及装置,所述方法包括:将中文序列转化为拼音形式,得到拼音序列;基于所述拼音序列,训练语言模型;利用训练好的语言模型,预测目标文本序列中每个汉字的词向量。

Description

一种基于汉语拼音的词表征方法及装置
技术领域
本申请涉及语言处理技术,尤其涉及一种基于汉语拼音的词表征方法及装置。
背景技术
中文语言模型是各种中文相关的自然语言处理任务的基石,语言模型的优劣直接影响到相关任务的表现。现有的大部分中文语言模型都是采用与英语相同的方法训练的。但是,与英语这样的表音文字不同,中文属于表意文字,其信息密度远高于表音文字。
发明内容
为解决上述技术问题,本申请实施例提供了一种基于汉语拼音的词表征方法及装置。
本申请实施例提供的基于汉语拼音的词表征方法,所述方法包括:
将中文序列转化为拼音形式,得到拼音序列;
基于所述拼音序列,训练语言模型;
利用训练好的语言模型,预测目标文本序列中每个汉字的词向量。
在一实施方式中,所述将中文序列转化为拼音形式,得到拼音序列,包括:
为中文序列中的每一个汉字生成对应的拼音形式,将生成的拼音以空格为间隔拼接在一起,得到拼音序列。
在一实施方式中,对于所述中文序列中的非汉字或者非拼音字母的字符,如果该字符出现在字典中,则在拼音序列中保留原来的形式,如果该字符未出现在字典中,则在拼音序列中作为未知字符处理。
在一实施方式中,所述基于所述拼音序列,训练语言模型,包括:
将输入语言模型中的拼音序列中的每一个字符编码成隐藏状态;
将字符的隐藏状态通过线性变换后得到分值,采用softmax函数将所述分值映射到(0,1)区间作为所述字符的概率分布;
将所述概率分布中的最大值所对应的标签,作为所述字符的预测标签;
基于所述字符的预测标签和真实标签计算损失函数;
基于所述损失函数迭代训练所述语言模型的参数,直到满足特定条件时停止训练。
在一实施方式中,所述利用训练好的语言模型,预测目标文本序列中每个汉字的词向量,包括:
将目标中文序列转化为拼音形式,得到目标拼音序列;
将目标拼音序列中的每一个字符编码成隐藏状态;
对于目标汉字,该目标汉字的正向向量为其最后一个字符之后的隐藏状态输出,反向向量为其第一个字符之前的隐藏状态输出;所述目标汉字的词向量包括所述正向向量和所述反向向量。
本申请实施例提供的基于汉语拼音的词表征装置,包括:
预处理单元,用于将中文序列转化为拼音形式,得到拼音序列;
训练单元,用于基于所述拼音序列,训练语言模型;
预测单元,用于利用训练好的语言模型,预测目标文本序列中每个汉字的词向量。
在一实施方式中,所述预处理单元,用于为中文序列中的每一个汉字生成对应的拼音形式,将生成的拼音以空格为间隔拼接在一起,得到拼音序列。
在一实施方式中,对于所述中文序列中的非汉字或者非拼音字母的字符,如果该字符出现在字典中,则在拼音序列中保留原来的形式,如果该字符未出现在字典中,则在拼音序列中作为未知字符处理。
在一实施方式中,所述训练单元,用于:
将输入语言模型中的拼音序列中的每一个字符编码成隐藏状态;
将字符的隐藏状态通过线性变换后得到分值,采用softmax函数将所述分值映射到(0,1)区间作为所述字符的概率分布;
将所述概率分布中的最大值所对应的标签,作为所述字符的预测标签;
基于所述字符的预测标签和真实标签计算损失函数;
基于所述损失函数迭代训练所述语言模型的参数,直到满足特定条件时停止训练。
在一实施方式中,所述预测单元,用于:
将目标中文序列转化为拼音形式,得到目标拼音序列;
将目标拼音序列中的每一个字符编码成隐藏状态;
对于目标汉字,该目标汉字的正向向量为其最后一个字符之后的隐藏状态输出,反向向量为其第一个字符之前的隐藏状态输出;所述目标汉字的词向量包括所述正向向量和所述反向向量。
本申请实施例的技术方案中,模型能为给定中文序列中的每一个字生成对应的拼音形式,把生成的拼音以空格为间隔,拼接在一起,然后用训练好的语言模型为文本序列中的每一个字符预测一个指定维度的隐藏状态。该隐藏状态就是字符的词向量,可用于输入所有的自然语言处理任务。
附图说明
图1为本申请实施例提供的生成向量的示意图;
图2为本申请实施例提供的LSTM结构的示意图;
图3为本申请实施例提供的基于汉语拼音的词表征方法的流程示意图;
图4为本申请实施例提供的拼音转化示意图一;
图5为本申请实施例提供的生成词向量的示意图;
图6为本申请实施例提供的拼音转化示意图二;
图7为本申请实施例提供的基于汉语拼音的词表征装置的结构组成示意图。
具体实施方式
为便于理解本申请实施例的技术方案,以下对本申请实施例的相关技术进行说明。
●语言模型
很多实验表明,预训练语言模型是众多自然语言处理任务的基石。好的语言模型对自然语言处理模型的精度能有大幅提升。早期的自然语言处理任务中,研究者使用one-hot或者TF-IDF算法来将词表示转化为数值形式,这样的方式在词库数量比较大的情况下效果不好。
2013年,Mikolov等人提出了Word2Vec模型,在大规模文本上预训练语言模型,为每个单词生成了一个指定维度的静态词向量。
之后一系列类似的模型,例如Glove,Fasttext,BpEmb等,都采用了类似的思想。这些模型的出现极大的促进了自然语言处理任务的发展。
但是,这些模型的缺陷也显而易见,其中最主要的就是忽略上下文和无法处理词的歧义。为解决这个问题,研究者开始探索利用循环神经网络结构进行语言模型的预训练,为每一个词根据前后文生成词向量。2018年,AlenNLP提出了ELMo模型,采用LSTM结构对大规模语料进行双向语言模型训练,并利用训练好的语言模型生成词向量。同年,Google提出了Bert模型刷新了几乎所有的自然语言处理任务的记录。
几乎所有的中文语言模型都是采用以上方法训练的,这样的缺陷也很明显,没有考虑中文的语言特性。近年来,也有一些专门针对中文而提出的语言模型,为中文的自然语言处理相关任务带来了很大帮助。
●汉语拼音语言模型
汉语拼音,简称拼音,是一种以拉丁字母为现代标准汉语标音的方案,为中文罗马拼音的国际标准规范。同时,拼音输入法也是现在最主流的中文输入方法。过去,对拼音语言模型研究的主要目的有以下几点:
1.在拼音输入时,根据已输入序列,预测接下来最可能出现的序列。
2.给定一个有错误的拼音序列,预测正确的序列,为用户拼音输入提供一定的容错能力。
3.将一段拼音序列准确地转化为中文汉字。
经过调查,未发现有将汉语拼音语言模型用于中文词向量生成的相关研究。为此,提出了本申请实施例的以下技术方案,本申请实施例的技术方案旨在通过将大规模中文语料转化为拼音形式,基于转化后的拼音语料,用循环神经网络进行双向字符级语言模型训练。训练好的语言模型可应用于所有的自然语言处理任务。例如,在序列标注任务中,一个汉字的双向向量表示分别是其拼音表示的首字母和末字母的隐藏状态输出。
该语言模型对于单个汉字生成的向量表示是根据前后语境生成的。其中,正向模型生成的向量包含了前文信息,反向模型生成的向量包含了后文信息。在实际应用中,通常把正反双向模型生成的向量连接在一起。
实验证明,该模型能够有效地为每个汉字生成符合语境的向量表示,很大程度上解决了中文歧义问题。图1举例说明了模型为“北”字在不同语境下生成向量的差异。
为了能够更加详尽地了解本申请实施例的特点与技术内容,下面结合附图对本申请实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本申请实施例。以下先对本申请实施例中涉及到的相关概念进行说明:
○词向量:单词或单字的向量表征。
○语言模型:语言模型是借由一个概率分布,给定词序S=W_1,W_2,…,W_k的概率P(S)模型。
○循环神经网络:循环神经网络是一种解决序列问题的网络结构,有RNN,LSTM,GRU等多种形态。本申请的一种可选实施方式中,模型训练使用的是LSTM,其结构如图2所示,输入门决定数据是否能传入区块,遗忘门决定是否将区块中记住的信息忘掉,输出门决定是否将区块中的信息输出。其中,LSTM单元在t时刻更新的公式如下:
it=σ(Wiht-1+U1xt+bi) (1)
ft=σ(Wfht-1+Ufxt+bf) (2)
ot=σ(Woht-1+Uoxt+bo) (5)
ht=ot ⊙tanh(ct) (6)
○反向传播:反向传播算法的作用是对网络中所有权重计算损失函数的梯度,然后将梯度会反馈给优化器,用来更新权值以最小化损失函数,从而让模型能够拟合数据的分布。
○交叉熵:交叉熵是经常在神经网络中使用的一种损失函数,给定序列p表示真实标记的分布,序列q则为训练后的模型的预测标记,交叉熵损失函数可以衡量p与q的相似性,公式如下:
○深度语言模型:深度语言模型是利用深度学习模型搭建Encoder-Decoder结构来训练的语言模型。其中,Encoder将文字编码为隐藏状态,Decoder将隐藏状态转化为字符数量长度的张量,来解码生成字符。通过反向传播算法最小化交叉熵损失来获得最优语言模型。
图3为本申请实施例提供的基于汉语拼音的词表征方法的流程示意图,如图3所示,所述基于汉语拼音的词表征方法包括以下步骤:
步骤301:将中文序列转化为拼音形式,得到拼音序列。
这里,中文序列为语言模型的训练语料。
本申请实施例中,为中文序列中的每一个汉字生成对应的拼音形式,将生成的拼音以空格为间隔拼接在一起,得到拼音序列。进一步,对于所述中文序列中的非汉字或者非拼音字母的字符,如果该字符出现在字典中,则在拼音序列中保留原来的形式,如果该字符未出现在字典中,则在拼音序列中作为未知字符处理。
具体实现时:语言模型的训练语料采用中文维基百科数据。原始数据解析后转为纯文本。对文本转为拼音的处理方式为:简体中文,繁体中文转化为带数字音调的拼音,其他字符(标点、数字等)保留原来的形式。图4是一个转化示例。在大规模的文本中,会存在很多非中文或者非拼音字母的字符。在预处理的时候,建立了一个字典,其中包括26个英文字母,常见标点符号,数字,不在词典中的字符被当作未知字符(unk)处理。
步骤302:基于所述拼音序列,训练语言模型。
本申请实施例中,采用以下方式训练语言模型:1)将输入语言模型中的拼音序列中的每一个字符编码成隐藏状态;2)将字符的隐藏状态通过线性变换后得到分值,采用softmax函数将所述分值映射到(0,1)区间作为所述字符的概率分布;3)将所述概率分布中的最大值所对应的标签,作为所述字符的预测标签;4)基于所述字符的预测标签和真实标签计算损失函数;5)基于所述损失函数迭代训练所述语言模型的参数,直到满足特定条件时停止训练。
具体实现时:LSTM模型将输入的拼音序列中的每一个字符编码成隐藏状态。对于t时刻的字符xt,其条件概率P(xt|x0:t-1),可以近似等于其隐藏状态ht。在LSTM中,由公式(4)可知,cell state ct,中存有之前序列的信息,当前字符的条件概率可近似写为:
其中,θ代表模型的所有参数。特别地,在t=0时刻,h-1和c-1初始化为0。
字符被编码为隐藏状态ht后,隐藏状态通过线性转换后变为分值,然后采用softmax函数将分值映射到(0,1)区间作为字符预测值的概率分布,线性层的计算可写为以下公式:
P(xt|ht;V)=softmax(Vht+b) (9)
其中,V和b是权重和偏置。
在获得当前字符的概率分布后,其解码生成的字符是概率分布中最大值所对应的字符。通过计算交叉熵损失和反向传播算法优化,模型参数迭代更新,当满足特定条件时,模型停止训练。
步骤303:利用训练好的语言模型,预测目标文本序列中每个汉字的词向量。
本申请实施例中,采用以下方式预测目标文本序列中每个汉字的词向量:1)将目标中文序列转化为拼音形式,得到目标拼音序列;2)将目标拼音序列中的每一个字符编码成隐藏状态;3)对于目标汉字,该目标汉字的正向向量为其最后一个字符之后的隐藏状态输出,反向向量为其第一个字符之前的隐藏状态输出;所述目标汉字的词向量包括所述正向向量和所述反向向量。
具体实现时:对于给定中文序列,第一步生成其拼音表示形式,即拼音序列,预训练模型的Encoder为拼音序列中每一个字符预测一个隐藏状态。对于汉字(也称为词)w,其正向向量为其最后一个字符之后的隐藏状态输出,反向向量为其第一个字符之前的隐藏状态输出。具体地,给定拼音序列Spinyin=p1,p2…pt,对于第i个汉字wi,li表示其拼音长度,si∈[1,t-li]为wi拼音形式在拼音序列中的起始位置,模型对wi生成的向量表示为:
其中,hf和hb分别代表正向模型和反向模型生成的隐藏状态。图5所示是“春眠不觉晓,”中的“不”字向量生成的示意。
在实际应用中,为了让生成的词向量包含前后文的信息,可以把正反模型生成的隐藏状态连接在一起,可表示为以下公式:
例如,对于单字wi,其正向模型和反向模型的输出分别为Rf(wi)和Rb(wi),纬度都为h=1024,则其正向反向连接表示为[Rf(wi),Rb(wi)],纬度为2048。这样生成的词向量可应用与各种自然语言处理任务,例如命名实体识别,机器翻译,智能对话,文本情感分析,文本分类等。
需要说明的是,在准备语言模型的训练语料时,需要先将中文序列转化为拼音序列。其中,转化方法不限于上述列举的形式,也包括其他形式,例如图6给出的形式。
本申请实施例的技术方案,首先将大规模中文语料转化为拼音形式,利用循环神经网络结构搭建Encoder-Decoder模型,来训练基于汉语拼音的语言模型,然后将训练完成的语言模型中的Encoder的输出作为对于中文汉字的向量表示。其中,在用拼音训练语言模型时,可选的神经网络结构不限于具体网络结构,不限于具体的模型参数。训练好的语言模型可用于各种中文相关的自然语言处理任务。
图7为本申请实施例提供的基于汉语拼音的词表征装置的结构组成示意图,如图7所示,所述基于汉语拼音的词表征装置包括:
预处理单元701,用于将中文序列转化为拼音形式,得到拼音序列;
训练单元702,用于基于所述拼音序列,训练语言模型;
预测单元703,用于利用训练好的语言模型,预测目标文本序列中每个汉字的词向量。
在一实施方式中,所述预处理单元701,用于为中文序列中的每一个汉字生成对应的拼音形式,将生成的拼音以空格为间隔拼接在一起,得到拼音序列。
在一实施方式中,对于所述中文序列中的非汉字或者非拼音字母的字符,如果该字符出现在字典中,则在拼音序列中保留原来的形式,如果该字符未出现在字典中,则在拼音序列中作为未知字符处理。
在一实施方式中,所述训练单元702,用于:
将输入语言模型中的拼音序列中的每一个字符编码成隐藏状态;
将字符的隐藏状态通过线性变换后得到分值,采用softmax函数将所述分值映射到(0,1)区间作为所述字符的概率分布;
将所述概率分布中的最大值所对应的标签,作为所述字符的预测标签;
基于所述字符的预测标签和真实标签计算损失函数;
基于所述损失函数迭代训练所述语言模型的参数,直到满足特定条件时停止训练。
在一实施方式中,所述预测单元703,用于:
将目标中文序列转化为拼音形式,得到目标拼音序列;
将目标拼音序列中的每一个字符编码成隐藏状态;
对于目标汉字,该目标汉字的正向向量为其最后一个字符之后的隐藏状态输出,反向向量为其第一个字符之前的隐藏状态输出;所述目标汉字的词向量包括所述正向向量和所述反向向量。
本领域技术人员应当理解,图7所示的基于汉语拼音的词表征装置中的各单元的实现功能可参照前述基于汉语拼音的词表征方法的相关描述而理解。图7所示的基于汉语拼音的词表征装置中的各单元的功能可通过运行于处理器上的程序而实现,也可通过具体的逻辑电路而实现。
本申请实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和智能设备,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个第二处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。

Claims (10)

1.一种基于汉语拼音的词表征方法,其特征在于,所述方法包括:
将中文序列转化为拼音形式,得到拼音序列;
基于所述拼音序列,训练语言模型;
利用训练好的语言模型,预测目标文本序列中每个汉字的词向量。
2.根据权利要求1所述的方法,其特征在于,所述将中文序列转化为拼音形式,得到拼音序列,包括:
为中文序列中的每一个汉字生成对应的拼音形式,将生成的拼音以空格为间隔拼接在一起,得到拼音序列。
3.根据权利要求2所述的方法,其特征在于,对于所述中文序列中的非汉字或者非拼音字母的字符,如果该字符出现在字典中,则在拼音序列中保留原来的形式,如果该字符未出现在字典中,则在拼音序列中作为未知字符处理。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述基于所述拼音序列,训练语言模型,包括:
将输入语言模型中的拼音序列中的每一个字符编码成隐藏状态;
将字符的隐藏状态通过线性变换后得到分值,采用softmax函数将所述分值映射到(0,1)区间作为所述字符的概率分布;
将所述概率分布中的最大值所对应的标签,作为所述字符的预测标签;
基于所述字符的预测标签和真实标签计算损失函数;
基于所述损失函数迭代训练所述语言模型的参数,直到满足特定条件时停止训练。
5.根据权利要求1至3中任一项所述的方法,其特征在于,所述利用训练好的语言模型,预测目标文本序列中每个汉字的词向量,包括:
将目标中文序列转化为拼音形式,得到目标拼音序列;
将目标拼音序列中的每一个字符编码成隐藏状态;
对于目标汉字,该目标汉字的正向向量为其最后一个字符之后的隐藏状态输出,反向向量为其第一个字符之前的隐藏状态输出;所述目标汉字的词向量包括所述正向向量和所述反向向量。
6.一种基于汉语拼音的词表征装置,其特征在于,所述装置包括:
预处理单元,用于将中文序列转化为拼音形式,得到拼音序列;
训练单元,用于基于所述拼音序列,训练语言模型;
预测单元,用于利用训练好的语言模型,预测目标文本序列中每个汉字的词向量。
7.根据权利要求6所述的装置,其特征在于,所述预处理单元,用于为中文序列中的每一个汉字生成对应的拼音形式,将生成的拼音以空格为间隔拼接在一起,得到拼音序列。
8.根据权利要求7所述的装置,其特征在于,对于所述中文序列中的非汉字或者非拼音字母的字符,如果该字符出现在字典中,则在拼音序列中保留原来的形式,如果该字符未出现在字典中,则在拼音序列中作为未知字符处理。
9.根据权利要求6至8中任一项所述的装置,其特征在于,所述训练单元,用于:
将输入语言模型中的拼音序列中的每一个字符编码成隐藏状态;
将字符的隐藏状态通过线性变换后得到分值,采用softmax函数将所述分值映射到(0,1)区间作为所述字符的概率分布;
将所述概率分布中的最大值所对应的标签,作为所述字符的预测标签;
基于所述字符的预测标签和真实标签计算损失函数;
基于所述损失函数迭代训练所述语言模型的参数,直到满足特定条件时停止训练。
10.根据权利要求6至8中任一项所述的装置,其特征在于,所述预测单元,用于:
将目标中文序列转化为拼音形式,得到目标拼音序列;
将目标拼音序列中的每一个字符编码成隐藏状态;
对于目标汉字,该目标汉字的正向向量为其最后一个字符之后的隐藏状态输出,反向向量为其第一个字符之前的隐藏状态输出;所述目标汉字的词向量包括所述正向向量和所述反向向量。
CN201910392767.6A 2019-05-13 2019-05-13 一种基于汉语拼音的词表征方法及装置 Active CN110162789B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910392767.6A CN110162789B (zh) 2019-05-13 2019-05-13 一种基于汉语拼音的词表征方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910392767.6A CN110162789B (zh) 2019-05-13 2019-05-13 一种基于汉语拼音的词表征方法及装置

Publications (2)

Publication Number Publication Date
CN110162789A true CN110162789A (zh) 2019-08-23
CN110162789B CN110162789B (zh) 2023-07-21

Family

ID=67634269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910392767.6A Active CN110162789B (zh) 2019-05-13 2019-05-13 一种基于汉语拼音的词表征方法及装置

Country Status (1)

Country Link
CN (1) CN110162789B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569505A (zh) * 2019-09-04 2019-12-13 平顶山学院 一种文本输入方法及装置
CN110705217A (zh) * 2019-09-09 2020-01-17 上海凯京信达科技集团有限公司 一种错别字检测方法、装置及计算机存储介质、电子设备
CN111177324A (zh) * 2019-12-31 2020-05-19 支付宝(杭州)信息技术有限公司 基于语音识别结果进行意图分类的方法和装置
CN111310441A (zh) * 2020-01-20 2020-06-19 上海眼控科技股份有限公司 基于bert的语音识别后文本修正方法、装置、终端及介质
GB2580755A (en) * 2019-01-18 2020-07-29 Adobe Inc Voice command matching during testing of voice-assisted application prototypes for languages with non-phonetic alphabets
CN111476036A (zh) * 2020-04-10 2020-07-31 电子科技大学 一种基于中文单词特征子串的词嵌入学习方法
CN112000800A (zh) * 2020-07-02 2020-11-27 广东华兴银行股份有限公司 基于汉字构词法的中文舆情监测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268444A (zh) * 2018-01-10 2018-07-10 南京邮电大学 一种基于双向lstm、cnn和crf的中文分词方法
CN109472031A (zh) * 2018-11-09 2019-03-15 电子科技大学 一种基于双记忆注意力的方面级别情感分类模型及方法
CN109492202A (zh) * 2018-11-12 2019-03-19 浙江大学山东工业技术研究院 一种基于拼音的编码与解码模型的中文纠错方法
CN109697232A (zh) * 2018-12-28 2019-04-30 四川新网银行股份有限公司 一种基于深度学习的中文文本情感分析方法
CN109739370A (zh) * 2019-01-10 2019-05-10 北京帝派智能科技有限公司 一种语言模型训练方法、汉语拼音输入方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268444A (zh) * 2018-01-10 2018-07-10 南京邮电大学 一种基于双向lstm、cnn和crf的中文分词方法
CN109472031A (zh) * 2018-11-09 2019-03-15 电子科技大学 一种基于双记忆注意力的方面级别情感分类模型及方法
CN109492202A (zh) * 2018-11-12 2019-03-19 浙江大学山东工业技术研究院 一种基于拼音的编码与解码模型的中文纠错方法
CN109697232A (zh) * 2018-12-28 2019-04-30 四川新网银行股份有限公司 一种基于深度学习的中文文本情感分析方法
CN109739370A (zh) * 2019-01-10 2019-05-10 北京帝派智能科技有限公司 一种语言模型训练方法、汉语拼音输入方法及装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2580755A (en) * 2019-01-18 2020-07-29 Adobe Inc Voice command matching during testing of voice-assisted application prototypes for languages with non-phonetic alphabets
GB2580755B (en) * 2019-01-18 2021-12-29 Adobe Inc Voice command matching during testing of voice-assisted application prototypes for languages with non-phonetic alphabets
CN110569505A (zh) * 2019-09-04 2019-12-13 平顶山学院 一种文本输入方法及装置
CN110705217A (zh) * 2019-09-09 2020-01-17 上海凯京信达科技集团有限公司 一种错别字检测方法、装置及计算机存储介质、电子设备
CN111177324A (zh) * 2019-12-31 2020-05-19 支付宝(杭州)信息技术有限公司 基于语音识别结果进行意图分类的方法和装置
CN111177324B (zh) * 2019-12-31 2023-08-11 支付宝(杭州)信息技术有限公司 基于语音识别结果进行意图分类的方法和装置
CN111310441A (zh) * 2020-01-20 2020-06-19 上海眼控科技股份有限公司 基于bert的语音识别后文本修正方法、装置、终端及介质
CN111476036A (zh) * 2020-04-10 2020-07-31 电子科技大学 一种基于中文单词特征子串的词嵌入学习方法
CN112000800A (zh) * 2020-07-02 2020-11-27 广东华兴银行股份有限公司 基于汉字构词法的中文舆情监测方法

Also Published As

Publication number Publication date
CN110162789B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
Yao et al. An improved LSTM structure for natural language processing
CN108460013B (zh) 一种基于细粒度词表示模型的序列标注模型及方法
CN110162789A (zh) 一种基于汉语拼音的词表征方法及装置
CN109190131B (zh) 一种基于神经机器翻译的英语单词及其大小写联合预测方法
CN107358948B (zh) 基于注意力模型的语言输入关联性检测方法
CN109359294B (zh) 一种基于神经机器翻译的古汉语翻译方法
CN110532557B (zh) 一种无监督的文本相似度计算方法
CN109739370B (zh) 一种语言模型训练方法、汉语拼音输入方法及装置
Chen et al. Syntax or semantics? knowledge-guided joint semantic frame parsing
CN108062388A (zh) 人机对话的回复生成方法和装置
CN109003601A (zh) 一种针对低资源土家语的跨语言端到端语音识别方法
CN108153864A (zh) 基于神经网络生成文本摘要的方法
CN106484682A (zh) 基于统计的机器翻译方法、装置及电子设备
CN112541356B (zh) 一种生物医学命名实体识别的方法和系统
CN111767718B (zh) 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN107766320A (zh) 一种中文代词消解模型建立方法及装置
CN110807069B (zh) 一种基于强化学习算法的实体关系联合抽取模型构建方法
CN111354333A (zh) 一种基于自注意力的汉语韵律层级预测方法及系统
CN110427629A (zh) 半监督文本简化模型训练方法和系统
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN110134950A (zh) 一种字词结合的文本自动校对方法
CN114254645A (zh) 一种人工智能辅助写作系统
Zhang et al. Automatic repetition instruction generation for air traffic control training using multi-task learning with an improved copy network
Du et al. Named entity recognition method with word position
Zhou Natural language processing with improved deep learning neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant