CN110196894A - 语言模型的训练方法和预测方法 - Google Patents

语言模型的训练方法和预测方法 Download PDF

Info

Publication number
CN110196894A
CN110196894A CN201910460896.4A CN201910460896A CN110196894A CN 110196894 A CN110196894 A CN 110196894A CN 201910460896 A CN201910460896 A CN 201910460896A CN 110196894 A CN110196894 A CN 110196894A
Authority
CN
China
Prior art keywords
word
replaced
mask
limited vocabulary
text sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910460896.4A
Other languages
English (en)
Other versions
CN110196894B (zh
Inventor
罗希意
邓卓彬
赖佳伟
付志宏
何径舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910460896.4A priority Critical patent/CN110196894B/zh
Publication of CN110196894A publication Critical patent/CN110196894A/zh
Application granted granted Critical
Publication of CN110196894B publication Critical patent/CN110196894B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请提出一种语言模型训练方法和预测方法,其中,训练方法包括:获取训练文本序列,并随机生成训练文本序列中需要通过语言模型建模分析的字或词的目标位置,对目标位置处的字或词进行掩码替换,生成掩码替换后的文本序列,生成被替换的字或词的受限词表,根据掩码替换后的文本序列和受限词表,生成在受限词表空间上的概率分布,根据被替换的字或词以及在受限词表空间上的概率分布计算交叉熵函数,并进行迭代优化。该方法在模型的解码端引入受限词表,模型训练时充分利用原词信息,使得语言模型对易混淆词更容易区分,提升了语言模型在错误检测或错误纠正等任务上的效果。

Description

语言模型的训练方法和预测方法
技术领域
本申请涉及计算机技术领域,尤其涉及一种语言模型的训练方法和预测方法。
背景技术
目前,基于循环神经网络(Recurrent Neural Network,简称RNN)的语言模型解码端的解码候选集是整个词表空间(例如,基于汉字字典/分词词典),语言模型的解码空间过大、导致模型复杂度高难以收敛,使得对易混淆词的区分度降低,降低了语言模型在错误检测或错误纠错等任务上的效果。
发明内容
本申请提出一种语言模型的训练方法和预测方法,用于解决相关技术中基于RNN语言模型对易混淆词的区分度降低、在错误检测或错误纠错等任务上的效果差的问题。
本申请一方面实施例提出了一种语言模型的训练方法,包括:
获取训练文本序列,并随机生成所述训练文本序列中需要通过语言模型建模分析的字或词的目标位置;
对所述目标位置处的字或词进行掩码替换,生成掩码替换后的文本序列;
生成被替换的字或词的受限词表;
根据所述掩码替换后的文本序列和所述受限词表,生成在所述受限词表空间上的概率分布;以及
根据所述被替换的字或词以及在所述受限词表空间上的概率分布计算交叉熵函数,并进行迭代优化。
本申请实施例的语言模型的训练方法,通过获取训练文本序列,并随机生成训练文本序列中需要通过语言模型建模分析的字或词的目标位置,对目标位置处的字或词进行掩码替换,生成掩码替换后的文本序列,生成被替换的字或词的受限词表,根据掩码替换后的文本序列和受限词表,生成在受限词表空间上的概率分布,根据被替换的字或词以及在受限词表空间上的概率分布计算交叉熵函数,并进行迭代优化。由此,通过在模型的解码端引入被替换字或词的受限词表,在模型训练时充分利用原词的信息,从而使得训练得到的语言模型对易混淆词更容易区分,大大提升了语言模型在错误检测或错误纠正等任务上的效果。
本申请另一方面实施例提出了一种语言模型的预测方法,包括:
获取待预测文本序列,并生成所述待预测文本序列中需要通过所述语言模型分析的字或词的目标位置;
对所述目标位置处的字或词进行掩码替换,以生成掩码替换后的文本序列;
生成被替换的字或词的受限词表;
根据所述掩码替换后的文本序列和所述受限词表,生成所述语言模型在所述受限词表空间上的概率分布;以及
根据在所述受限词表空间上的概率分布生成预测结果。
本申请实施例的语言模型的预测方法,通过获取待预测文本序列,并生成待预测文本序列中需要通过语言模型分析的字或词的目标位置,对目标位置处的字或词进行掩码替换,以生成掩码替换后的文本序列,生成被替换的字或词的受限词表,根据掩码替换后的文本序列和受限词表,生成语言模型在受限词表空间上的概率分布,根据在受限词表空间上的概率分布生成预测结果。由此,通过在语言模型解码端引入受限词表,在模型预测时充分利用了原词的信息,从而对易混淆词更容易区分,大大提高了预测的准确性。
本申请另一方面实施例提出了一种语言模型的训练装置,包括:
获取模块,用于获取训练文本序列,并随机生成所述训练文本序列中需要通过语言模型建模分析的字或词的目标位置;
替换模块,用于对所述目标位置处的字或词进行掩码替换,生成掩码替换后的文本序列;
第一生成模块,用于生成被替换的字或词的受限词表;
第二生成模块,用于根据所述掩码替换后的文本序列和所述受限词表,生成在所述受限词表空间上的概率分布;以及
计算模块,用于根据所述被替换的字或词以及在所述受限词表空间上的概率分布计算交叉熵函数,并进行迭代优化。
本申请实施例的语言模型的训练装置,通过获取训练文本序列,并随机生成训练文本序列中需要通过语言模型建模分析的字或词的目标位置,对目标位置处的字或词进行掩码替换,生成掩码替换后的文本序列,生成被替换的字或词的受限词表,根据掩码替换后的文本序列和受限词表,生成在受限词表空间上的概率分布,根据被替换的字或词以及在受限词表空间上的概率分布计算交叉熵函数,并进行迭代优化。由此,通过在模型的解码端引入被替换字或词的受限词表,在模型训练时充分利用原词的信息,从而使得训练得到的语言模型对易混淆词更容易区分,大大提升了语言模型在错误检测或错误纠正等任务上的效果。
本申请另一方面实施例提出了一种语言模型的预测装置,包括:
获取模块,用于获取待预测文本序列,并生成所述待预测文本序列中需要通过所述语言模型分析的字或词的目标位置;
替换模块,用于对所述目标位置处的字或词进行掩码替换,以生成掩码替换后的文本序列;
第一生成模块,用于生成被替换的字或词的受限词表;
第二生成模块,用于根据所述掩码替换后的文本序列和所述受限词表,生成所述语言模型在所述受限词表空间上的概率分布;以及
第三生成模块,用于根据在所述受限词表空间上的概率分布生成预测结果。
本申请实施例的语言模型的预测装置,通过获取待预测文本序列,并生成待预测文本序列中需要通过语言模型分析的字或词的目标位置,对目标位置处的字或词进行掩码替换,以生成掩码替换后的文本序列,生成被替换的字或词的受限词表,根据掩码替换后的文本序列和受限词表,生成语言模型在受限词表空间上的概率分布,根据在受限词表空间上的概率分布生成预测结果。由此,通过在语言模型解码端引入受限词表,在模型预测时充分利用了原词的信息,从而对易混淆词更容易区分,大大提高了预测的准确性。
本申请另一方面实施例提出了一种计算机设备,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如上述一方面实施例所述的语言模型的训练方法,或实现另一方面实施例所述的语言模型的预测方法。
本申请另一方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述一方面实施例所述的语言模型的训练方法,或实现另一方面实施例所述的语言模型的预测方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例提供的一种语言模型的训练方法的流程示意图;
图2为本申请实施例提供的另一种语言模型的训练方法的流程示意图;
图3为深度双向转换编码器的一个示例Bert模型的结构示意图;
图4为本申请实施例提供的另一种语言模型的训练方法的流程示意图;
图5为本申请实施例提供的另一种语言模型的训练方法的流程示意图;
图6为本申请实施例提供的一种语言模型的预测方法的流程示意图;
图7为本申请实施例提供的另一种语言模型的预测方法的流程示意图;
图8为本申请实施例提供的另一种语言模型的预测方法的流程示意图;
图9为本申请实施例提供的另一种语言模型的预测方法的流程示意图;
图10为本申请实施例提供的一种语言模型的训练装置的结构示意图;
图11为本申请实施例提供的一种语言模型的预测装置的结构示意图;
图12示出了适于用来实现本申请实施方式的示例性计算机设备的框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的语言模型的训练方法和预测方法。
图1为本申请实施例提供的一种语言模型的训练方法的流程示意图。
如图1所示,该语言模型的训练方法包括:
步骤101,获取训练文本序列,并随机生成训练文本序列中需要通过语言模型建模分析的字或词的目标位置。
本实施例中,可以从互联网上获取大量文本序列用于语言模型的训练。其中,一个文本序列中可包含一个或多个句子,例如,训练文本序列“你一半多长时间回家一次?”。
针对每个训练文本序列,随机生成训练文本序列中需要通过语言模型分析的字或词的目标位置。例如,将训练文本序列“你一半多长时间回家一次?”中“一半”的位置作为目标位置,或者,将“半”所在的位置作为目标位置。
在具体实现时,可从训练文本序列中每次选取一个字或词所在位置作为目标位置,也可根据训练文本序列的长度,按照一定的比例,如按照15%~20%的比例,在训练文本序列中随机生成目标位置。
步骤102,对目标位置处的字或词进行掩码替换,生成掩码替换后的文本序列。
在确定目标位置后,用掩码对目标位置处的字或者词进行替换,得到掩码替换后的文本序列。例如,“你一半多长时间回家一次?”中的“一半”用掩码[MASK]替换,得到掩码替换后的文本序列“你[MASK]多长时间回家一次?”。
若每次仅选择一个字或词用掩码进行替换,得到掩码替换后的文本序列,由于一个训练文本序列中每个字或者每个词的位置都可以作为目标位置,那么对于一个训练文本序列,根据不同的目标位置,可以得到不同的掩码替换后的文本序列。由此,针对每个训练文本序列,可以得到多个掩码替换后的文本序列。当然,在一个训练文本序列中,也可以选择多个字或词用掩码进行替换。
需要说明的是,按照一定的比例生成目标位置时,比例不能太高,不然会导致训练文本序列中掩码的比例较高,训练时上下文包含了太多的掩码,就会影响对上下文的信息建模效果。
步骤103,生成被替换的字或词的受限词表。
本实施例中,受限词表是一个局限性词表,可包含与被替换的字或者词容易混淆的字或词。在生成受限词表时,可根据被替换的字或词所在的训练文本序列,以及结合词典,确定与被替换的字或者词比较容易混淆的词,这些词构成受限词表。
例如,与“半”容易混淆的字包括“般”、“搬”、“伴”、“斑”等等。
可以理解的是,训练文本序列中不同位置处的字或词被替换时,被替换的字或词对应的受限词表不同,即受限词表是动态的。
本实施例中,将受限词表作为当前被替换位置即目标位置经由语言模型建模输出后的解码空间,而相比相关技术中将整个词表(例如,基于汉字字典/分词词典)作为解码空间,本实施例的语言模型复杂度低、收敛速度快。
步骤104,根据掩码替换后的文本序列和受限词表,生成在受限词表空间上的概率分布。
本实施例中,语言模型的输入需要以向量的形式输入,因此,根据掩码替换后的文本序列生成对应的向量数组表示,具体地,可根据每个字或词的向量表示,得到掩码替换后的文本序列的向量数组表示。
根据掩码替换后的文本序列的向量数组表示和受限词表,计算出受限词表中每个词的概率,由此,受限词表中每个词的概率构成受限词表空间上的概率分布。
步骤105,根据被替换的字或词以及在受限词表空间上的概率分布计算交叉熵函数,并进行迭代优化。
本实施例中,对于目标位置,以被替换的字或分词作为监督标签,根据监督标签与受限词表中每个词对应的概率,计算交叉熵函数,并进行迭代优化。
这里的迭代优化是指利用其他被掩码替换的文本序列进行训练,进行不断的迭代优化,当交叉熵函数处于收敛状态时,训练结束。比如,可以采用自适应矩估计进行优化。
本申请实施例的语言模型的训练方法,通过获取训练文本序列,并随机生成训练文本序列中需要通过语言模型建模分析的字或词的目标位置,对目标位置处的字或词进行掩码替换,生成掩码替换后的文本序列,生成被替换的字或词的受限词表,根据掩码替换后的文本序列和受限词表,生成在受限词表空间上的概率分布,根据被替换的字或词以及在受限词表空间上的概率分布计算交叉熵函数,并进行迭代优化。由此,通过模型的解码端引入被替换字或词的受限词表,在模型训练时充分利用原词的信息,从而使得训练得到的语言模型对易混淆词更容易区分,大大提升了语言模型在错误检测或错误纠正等任务上的效果。
在本申请的一个实施例中,可通过如下方式生成在受限词表空间上的概率分布。图2为本申请实施例提供的另一种语言模型的训练方法的流程示意图。
如图2所示,上述根据掩码替换后的文本序列和受限词表,生成在受限词表空间上的概率分布,包括:
步骤201,根据掩码替换后的文本序列、词向量表和位置向量表,生成输入向量数组表示。
本实施例中,从大规模无监督语料中统计生成一个全局性的词表,并加入掩码[MASK],该全局性的词表可包含常用汉字及其各种符号,也会包含一些用于特殊处理的字,[MASK]就是这样一种字(包含中括号)。而对于语言模型而言,[MASK]与正常的汉字是一样的。该全局性的词表的大小通常在万级别(参考汉语字典),如设定为10000。显然,与全局性的词表相比,受限词表是一个局限性的词表,受限词表的大小可在10~50的量级。
本实施例中,词向量表与全局性的词表对应,词向量表可通过模型预先学习获取,初始时,词向量表会按照某种概率分布(如正态分布)随机生成,并在训练过程中随着梯度的更新而不断发生变化。
位置向量表也可以通过预先模型学习获取,其作用是对掩码替换后的文本序列的每个位置进行编码。其中,位置向量表的大小等于语言模型能够处理的文本序列的最大长度。
由于本申请中采用的是深度双向转换编码器与双向RNN网络结构不同,双向RNN网络结构模型结构并没有考虑序列的位置信息,因此本实施例中需要引入位置向量表。
本实施例中,在生成输入向量数组表示时,可先将词向量表与位置向量表进行融合,具体而言,可按对应位置分别相加,得到融合向量表,然后利用融合向量表对掩码替换后的文本序列进行映射,得到输入向量数组表示。
步骤202,将输入向量数组表示通过深度双向转换编码器,生成编码向量数组表示。
由于本申请中的模型结构是深度双向转换编码器,如果对原词的信息不加以隐藏,则会存在标签泄露的问题,因此本申请用掩码替换训练文本中目标位置处的字或词的目的是为了隐藏原词的信息。
本实施例中,采用深度双向转换编码器对输入向量数组表示进行编码,生成与输入向量数组表示一一对应的编码向量数组表示。
深度双向转换编码器是一个Seq2Seq即序列到序列的结构,对于文本序列中的每个字或词,都会生成相应的状态输出,由于掩码和汉字一样,因此同样也会生成相应的状态输出。
双向转换编码器是语言模型的基本构成单元,多个双向转换编码器堆叠组合成为深度双向转换编码器。图3为深度双向转换编码器的一个示例Bert模型的结构示意图。图3中E1,E2,…,EN为输入向量数组表示,Trm为中间编码向量数组表示,T1,T2,…,TN为编码后输出的编码向量数组表示。由图3可以看出双向是在网络结构的每一层都进行了双向连接。
相关技术中基于RNN的语言模型采用的双向RNN网络结构仅将两个独立的单向RNN网络的输出层隐藏状态简单连接起来作为其上下文,其结构不能有效利用目标位置的上下文所包含的信息。相较于双向RNN网络的浅层上下文表示,深度双向转换编码器能够获取深度上下文信息,从而语言模型上下文理解的能力大幅度提升。
另外,基于RNN的语言模型,当前位置的计算依赖于之前所有位置的计算结果,即通过串行计算当前位置,训练效率低。而本申请中语言模型结构采用转换编码器实现可以并行计算,从而提高了模型训练速度。
步骤203,根据目标位置从编码向量数组表示中提取与掩码对应的目标编码向量数组表示。
由于编码向量数组表示对应的是掩码替换后的文本序列,本实施例中,为了准确的对目标位置处的字或词进行解码,那么可根据目标位置从编码向量数组表示中提取与掩码对应的编码向量数组表示,称为目标编码向量数组表示。也就是说,根据训练文本序列中被替换的字或词的位置,从编码向量数组表示中提取与掩码对应的目标编码向量数组表示。
步骤204,根据目标编码向量数组表示和受限词表,生成在受限词表空间上的概率分布。
在获取目标编码向量数组表示后,根据目标编码向量数组表示和受限词表,生成语言模型在受限词表空间上的概率分布,以作为目标位置的解码参考。
具体而言,根据受限词表和词向量表,提取受限词表中所有字或词对应的词向量表中的词向量(即浮点数向量),然后将目标编码向量数组表示中每个向量(即浮点数向量)的维度转换为与提取出的词向量维度相同,再将每个转换后的目标编码向量与受限词表中所有字或词对应的词向量做向量内积,生成与受限词表大小数量相同个数的内积结果,即生成的内积结果的数量与受限词表中包含的字或词的数量相同,最后将生成的与受限词表大小数量相同个数的内积结果进行softmax归一化,以作为受限词表空间上的概率分布。其中,根据受限词表空间上的概率分布可以确定受限词表中每个字或词对应的概率,该概率用于表示字或词作为目标位置处的解码结果的可能性。
本申请实施例中,在生成在受限词表空间上的概率分布,通过根据词向量表和位置向量表,得到输入向量数组表示,再利用深度双向转换编码器进行编码得到编码向量数组表示,再根据目标位置从编码向量数组表示中提取出目标编码向量数组表示,最后根据目标编码向量数组表示和受限词表生成在受限词表空间上的概率分布。由此,利用深度双向转换编码器进行编码,不仅可以获取深度上下文信息,提高语言模型的上下文理解能力,而且可以并行计算,提高语言模型的训练速度。
图4为本申请实施例提供的另一种语言模型的训练方法的流程示意图。
如图4所示,该语言模型的训练方法包括:
步骤301,获取训练文本序列,并随机生成训练文本序列中需要通过语言模型建模分析的字或词的目标位置。
步骤302,对目标位置处的字或词进行掩码替换,生成掩码替换后的文本序列。
步骤303,生成被替换的字或词的受限词表。
本实施例中,步骤301-步骤303与上述步骤101-步骤103类似,故在此不再赘述。
步骤304,根据掩码替换后的文本序列和词向量表,生成掩码替换后的文本序列的词向量数组表示。
本实施例中,可利用词向量表对掩码替换后的文本序列进行映射,生成掩码替换后的文本序列的词向量数组表示。
步骤305,根据掩码替换后的文本序列的长度和位置向量表,生成掩码替换后的文本序列的位置向量数组表示。
本实施例中,可利用位置向量表对掩码替换后的文本序列进行映射,生成掩码替换后的文本序列的位置向量数组表示。
步骤306,根据掩码替换后的文本序列的词向量数组表示和位置向量数组表示,生成输入向量数组表示。
本实施例中,在获取词向量数组表示和位置向量数组表示后,可将词向量数组表示和位置向量数组表示进行融合,具体而言,按对应位置分别相加,生成掩码替换后的文本序列对应的输入向量数组表示。
本实施例中,根据词向量表和位置向量表,分别生成掩码替换后的文本序列的词向量数组表示和位置向量数,再根据词向量数组表示和位置向量数生成输入向量数组表示。
步骤307,将输入向量数组表示通过深度双向转换编码器,生成编码向量数组表示。
步骤308,根据目标位置从编码向量数组表示中提取与掩码对应的目标编码向量数组表示。
步骤309,根据目标编码向量数组表示和受限词表,生成在受限词表空间上的概率分布。
本实施例中,步骤307-步骤309与上述202-步骤204类似,故在此不再赘述。
步骤310,根据被替换的字或词以及在受限词表空间上的概率分布计算交叉熵函数,并进行迭代优化。
本实施例中,对于目标位置,以被替换的字或分词作为监督标签,根据监督标签与受限词表中每个词对应的概率,计算交叉熵函数,并进行迭代优化。
这里的迭代优化是指利用其他被掩码替换的文本序列进行训练,进行不断的迭代优化,当交叉熵函数处于收敛状态时,训练结束。比如,可以采用自适应矩估计进行优化。
本申请实施例的语言模型的训练方法,通过获取训练文本序列,并随机生成训练文本序列中需要通过语言模型建模分析的字或词的目标位置,对目标位置处的字或词进行掩码替换生成掩码替换后的文本序列,生成被替换的字或词的受限词表,根据词向量表和位置向量表分别生成掩码替换后的文本序列的词向量数组表示和位置向量数组表示,再根据词向量数组表示和位置向量数组表示生成输入向量数组表示,并通过深度双向转换编码器对输入向量数组表示进行编码得到编码向量数组表示,根据目标位置从编码向量数组表示中提取目标编码向量数组表示,再根据目标编码向量数组表示和受限词表,生成在受限词表空间上的概率分布,根据被替换的字或词以及在受限词表空间上的概率分布计算交叉熵函数,并进行迭代优化。由此,通过在模型的解码端引入被替换字或词的受限词表,在模型训练时充分利用原词的信息,从而使得训练得到的语言模型对易混淆词更容易区分,大大提升了语言模型在错误检测或错误纠正等任务上的效果,另外,利用深度双向转换编码器进行编码,不仅可以获取深度上下文信息,提高语言模型的上下文理解能力,而且可以并行计算,提高语言模型的训练速度。
本申请实施例中,通过在模型的解码端引入受限词表,提高语言模型的解码准确性,可见受限词表在语言模型的训练中起到至关重要的作用。在本申请的一个实施例中,在生成被替换的字或词的受限词表时,可以被替换的字或词为中心,结合上下文查询词典,得到与被替换的字或词容易混淆的字或词,根据这些字或词得到受限词表。
本实施例中,上述查询用到的词典可以是短语替换表(Phrase Table,简称PT)词典、音近词典和形近词典中的一种或多种。其中,PT词典反映的是利用历史错误行为,近词典和形近词典分别反映音近字、形近字的混淆情况。
PT词典是根据大量的用户点击搜索日志并辅以该映射词组在语料库中出现的频数,生成的原始字或词至候选字或词的映射表。其中,语料库,是指经科学取样和加工的大规模电子文本库,本实施例中,语料是指用户点击搜索日志数据。
比如,原始词为“去哪儿”到候选词为“去哪儿”的映射词组,出现在语料库中的频次为90,原始词语为“去哪儿”到候选词语为“去那儿”的映射词组,出现在语料库中的频次为10。
比如,文本序列“自己赚的钱一般分给父母”,被替换的字为“般”。根据“般”的上下信息,PT词典召回:半→本;音近词典召回:班→把→板→版→斑→瓣;形近词典召回:搬。最后,将上述召回结果首尾拼接起来,构成文本序列中字“般”的受限词表。
若查询所用的词典为一个,则根据该词典获取候选字或词,对获取的候选字或词进行排序,并选取受限词表的大小的数量的字或词,并构成被替换的字或词的受限词表。
图5为本申请实施例提供的另一种语言模型的训练方法的流程示意图。
若结合上下文查询的词典的数量至少为两个,如图5所示,上述以被替换的字或词为中心,结合上下文查询词典,生成受限词表,包括:
步骤401,以被替换的字或词为中心结合上下文,通过查询各词典得到受限词表的候选字或词集合。
本实施例中,以被替换的字或词为中心结合上下文,通过查询各词典得到受限词表的候选字或词集合。
比如,查询用的是音近词典和形近词典,那么在查询音近词典时,可根据拼音编辑距离分别为0,1,2,对目标位置处的字或词即训练文本序列中被替换的字或词的位置,进行候选召回。其中,拼音编辑距离为0表示拼音完全相同,拼音编辑距离为1和2可以是根据拼音编辑距离范围划分的,拼音编辑距离0、1、2对应容易混淆的程度越来越低。在查询形近词典时,根据字形上的差异,对目标位置的字或词进行候选召回。那么,根据查询音近字典和形近词典候选召回的字或词组成了被替换的字或词的受限词表中的候选字或词集合。
若查询用的是PT词典、音近词典和形近词典,那么三个词典的候选召回的字或词构成了被替换的字或词的受限词表中的候选字或词集合。
步骤402,根据各词典的优先级和候选字或词集合中候选字或词的权重计算得出候选字或词的排序列表。
本实施例中,可根据各词典的优先级和候选字或词集合中候选字或词的权重计算得出候选字或词的一个排序列表。其中,排序列表中越靠前的字或词,是与被替换字或词越容易混淆的字或词。
本实施例中,各词典的优先级可预先规定,如规定优先级为:PT词典>音近词典>形近词典;候选字或词集合中每个字或词的权重可根据其在对应词典中出现的频次计算,其中,字或词出现的频次越高对应的权重越大。具体而言,在计算出候选词或字对应的权重后,根据规定的各词典的优先级,将优先级高的词典召回的候选字或词排序在前,同一词典召回的候选字或词,根据候选字或词的权重的大小进行排序,将权重大的排序在前,由此可以得到排序列表。
在实际应用中,也可仅按照词典的优先级从高到低的顺序,得到候选字或词的排序列表,而对同一词典召回的字或词的内部优先级不限定。
步骤403,根据设定的受限词表的大小,从排序列表中选取前受限词表的大小数量的候选字或词,构成受限词表。
比如,设定的受限词表的大小为10,那么从排序列表中选取前10个字或词,构成受限词表。
在实际应用中,若排序列表中的候选字或词数量不足,则用缺省字或词进行填充,以保证受限词表的大小为预先设定的大小。
需要说明的是,被替换的字或词不同时,得到的受限词表也不相同,也就是说,不同的字、不同的上下文会生成大小相同但内容却不同的受限词表,故而受限词表是动态的。
本实施例中,PT词典反映的是历史错误行为,音近词典和形近词典分别反映音近字、形近字的混淆情况,以此受限词表作为语言模型解码端的求解依据,将大大降低模型的复杂度、提高模型收敛的效果,从而提高了错误检测、错误纠正等任务的效果。
为了实现上述实施例,本申请实施例还提出一种语言模型的预测方法。图6为本申请实施例提供的一种语言模型的预测方法的流程示意图。本申请实施例的语言模型的预测方法可利用上述训练得到的语言模型实现。
如图6所示,该语言模型的预测方法包括:
步骤501,获取待预测文本序列,并生成待预测文本序列中需要通过语言模型分析的字或词的目标位置。
在实际应用中,可根据实际需要,从待预测文本序列中每次仅选定1个要需要通过语言模型预测的字或词位置作为目标位置。
例如,将待预测文本序列“你一半多长时间回国一次?”中“一半”的位置作为目标位置,或者,将“半”所在的位置作为目标位置。
步骤502,对目标位置处的字或词进行掩码替换,生成掩码替换后的文本序列。
在确定目标位置后,用掩码对目标位置处的字或者词进行替换,得到掩码替换后的文本序列。
例如,“你一半多长时间回国一次?”中的“一半”用掩码[MASK]替换,得到掩码替换后的文本序列“你[MASK]多长时间回家一次?”。
本实施例中,若每次仅选定一个字或词用掩码替换,那么一个待预测文本序列有多少个位置要预测,便会生成多少个带掩码的文本序列。
步骤503,生成被替换的字或词的受限词表。
本实施例中,受限词表是一个局限性词表,可包含与被替换的字或者词容易混淆的字或词。在生成受限词表时,可根据被替换的字或词所在的训练文本序列,以及结合词典,确定与被替换的字或者词比较容易混淆的词,这些词构成受限词表。
例如,与“半”容易混淆的字包括“般”、“搬”、“伴”、“斑”等等。
可以理解的是,待预测文本序列中不同位置处的字或词被替换时,被替换的字或词对应的受限词表不同。
本实施例中,将受限词表作为当前被替换位置即目标位置经由语言模型输出后的解码空间,而相比相关技术中将整个词表(例如,基于汉字字典/分词词典)作为解码空间,本实施例的预测方法得到的预测结果准确性较高。
步骤504,根据掩码替换后的文本序列和受限词表,生成语言模型在受限词表空间上的概率分布。
本实施例中,语言模型的输入需要以向量的形式输入,因此,根据掩码替换后的文本序列生成对应的向量数组表示,具体地,可根据每个字或词的向量表示,得到掩码替换后的文本序列的向量数组表示。
根据掩码替换后的文本序列的向量数组表示和受限词表,计算出受限词表中每个字或词的概率,由此,受限词表中每个字或词的概率构成受限词表空间上的概率分布。
步骤505,根据在受限词表空间上的概率分布生成预测结果。
本实施例中,可根据受限词表中每个字或词对应的概率,选取概率最大的字或词,作为目标位置的解码结果,即作为预测结果。
本申请实施例的语言模型的预测方法,通过获取待预测文本序列,并随机生成待预测文本序列中需要通过语言模型分析的字或词的目标位置,对目标位置处的字或词进行掩码替换,以生成掩码替换后的文本序列,生成被替换的字或词的受限词表,根据掩码替换后的文本序列和受限词表,生成语言模型在受限词表空间上的概率分布,根据在受限词表空间上的概率分布生成预测结果。由此,通过在语言模型解码端引入受限词表,在模型预测时充分利用了原词的信息,从而对易混淆词更容易区分,大大提高了预测的准确性。
在本申请的一个实施例中,可通过如下方式生成在受限词表空间上的概率分布。图7为本申请实施例提供的另一种语言模型的预测方法的流程示意图。
如图7所示,上述根据掩码替换后的文本序列和受限词表,生成在受限词表空间上的概率分布,包括:
步骤601,根据掩码替换后的文本序列、词向量表和位置向量表,生成输入向量数组表示。
本实施例中,从大规模无监督语料中统计生成一个全局性的词表,并加入掩码[MASK],该全局性的词表可包含常用汉字及其各种符号,也会包含一些用于特殊处理的字,[MASK]就是这样一种字(包含中括号)。而对于语言模型而言,[MASK]与正常的汉字是一样的。该全局性的词表的大小通常在万级别(参考汉语字典),如设定为10000。显然,与全局性的词表相比,受限词表是一个局限性的词表,受限词表的大小可在10~50的量级。
本实施例中,词向量表与全局性的词表对应,词向量表可通过模型预先学习获取,初始时,词向量表会按照某种概率分布(如正态分布)随机生成,并在训练过程中随着梯度的更新而不断发生变化。
位置向量表也可以通过预先模型学习获取,其作用是对掩码替换后的文本序列的每个位置进行编码。其中,位置向量表的大小等于语言模型能够处理的文本序列的最大长度。
由于本申请中采用的是深度双向转换编码器与双向RNN网络结构不同,双向RNN网络结构模型结构并没有考虑序列的位置信息,因此本实施例中需要引入位置向量表。
本实施例中,在生成输入向量数组表示时,可先将词向量表与位置向量表进行融合,具体而言,可按对应位置分别相加,得到融合向量表,然后利用融合向量表对掩码替换后的文本序列进行映射,得到输入向量数组表示。
步骤602,将输入向量数组表示通过深度双向转换编码器,生成编码向量数组表示。
本实施例中,采用深度双向转换编码器对输入向量数组表示进行编码,生成与输入向量数组表示一一对应的编码向量数组表示。
深度双向转换编码器是一个Seq2Seq即序列到序列的结构,对于文本序列中的每个字或词,都会生成相应的状态输出,由于掩码和汉字一样,因此同样也会生成相应的状态输出。
双向转换编码器是语言模型的基本构成单元,多个双向转换编码器堆叠组合成为深度双向转换编码器,。
图3为深度双向转换编码器的一个示例Bert模型的结构示意图。图3中E1,E2,…,EN为输入向量数组表示,T1,T2,…,TN为编码后输出的编码向量数组表示。由图3可以看出双向是在网络结构的每一层都进行了双向连接。
相关技术中基于RNN的语言模型采用的双向RNN网络结构仅将两个独立的单向RNN网络的输出层隐藏状态简单连接起来作为其上下文,其结构不能有效利用目标位置的上下文所包含的信息。相较于双向RNN网络的浅层上下文表示,深度双向转换编码器能够获取深度上下文信息,从而语言模型上下文理解的能力大幅度提升。
另外,基于RNN的语言模型,当前位置的计算依赖于之前所有位置的计算结果,即通过串行计算当前位置,预测效率低。而本申请中语言模型结构采用转换编码器实现,可以并行计算,从而提高了模型预测速度。
步骤603,根据目标位置从编码向量数组表示中提取与掩码对应的目标编码向量数组表示。
由于编码向量数组表示对应的是掩码替换后的文本序列,本实施例中,为了准确的对目标位置处的字或词进行解码,那么可根据目标位置从编码向量数组表示中提取与掩码对应的编码向量数组表示,称为目标编码向量数组表示。也就是说,根据待预测文本序列中被替换的字或词的位置,从编码向量数组表示中提取与掩码对应的目标编码向量数组表示。
步骤604,根据目标编码向量数组表示和受限词表,生成在受限词表空间上的概率分布。
在获取目标编码向量数组表示后,根据目标编码向量数组表示和受限词表,生成语言模型在受限词表空间上的概率分布,以作为目标位置的解码参考。
具体而言,根据受限词表和词向量表,提取受限词表中所有字或词对应的词向量表中的词向量(即浮点数向量),然后将目标编码向量数组表示中每个向量(即浮点数向量)的维度转换为与提取出的词向量维度相同,再将每个转换后的目标编码向量与受限词表中所有字或词对应的词向量做向量内积,生成与受限词表大小数量相同个数的内积结果,即生成的内积结果的数量与受限词表中包含的字或词的数量相同,最后将生成的与受限词表大小数量相同个数的内积结果进行softmax归一化,以作为受限词表空间上的概率分布。其中,根据受限词表空间上的概率分布可以确定受限词表中每个字或词对应的概率,该概率用于表示字或词作为目标位置处的解码结果的可能性。
本申请实施例中,在生成在受限词表空间上的概率分布,通过根据词向量表和位置向量表,得到输入向量数组表示,再利用深度双向转换编码器进行编码得到编码向量数组表示,再根据目标位置从编码向量数组表示中提取出目标编码向量数组表示,最后根据目标编码向量数组表示和受限词表生成在受限词表空间上的概率分布。由此,利用深度双向转换编码器进行编码,不仅可以获取深度上下文信息,提高语言模型的上下文理解能力,从而可以解决长依赖问题进一步提高了预测的准确度,而且可以并行计算,从而提高了语言模型的预测速度。
图8为本申请实施例提供的另一种语言模型的预测方法的流程示意图。
如图8所示,该语言模型的预测方法包括:
步骤701,获取待预测文本序列,并生成待预测文本序列中需要通过语言模型分析的字或词的目标位置。
步骤702,对目标位置处的字或词进行掩码替换,以生成掩码替换后的文本序列。
步骤703,生成被替换的字或词的受限词表。
本实施例中,步骤701-步骤703与上述步骤501-步骤503类似,故在此不再赘述。
步骤704,根据掩码替换后的文本序列和词向量表,生成掩码替换后的文本序列的词向量数组表示。
本实施例中,可利用词向量表对掩码替换后的文本序列进行映射,生成掩码替换后的文本序列的词向量数组表示。
步骤705,根据掩码替换后的文本序列的长度和位置向量表,生成掩码替换后的文本序列的位置向量数组表示。
本实施例中,可利用位置向量表对掩码替换后的文本序列进行映射,生成掩码替换后的文本序列的位置向量数组表示。
步骤706,根据掩码替换后的文本序列的词向量数组表示和位置向量数组表示,生成输入向量数组表示。
本实施例中,在获取词向量数组表示和位置向量数组表示后,可将词向量数组表示和位置向量数组表示进行融合,具体而言,按对应位置分别相加,生成掩码替换后的文本序列对应的输入向量数组表示。
本实施例中,根据词向量表和位置向量表,分别生成掩码替换后的文本序列的词向量数组表示和位置向量数,再根据词向量数组表示和位置向量数生成输入向量数组表示。
步骤707,将输入向量数组表示通过深度双向转换编码器,生成编码向量数组表示。
步骤708,根据目标位置从编码向量数组表示中提取与掩码对应的目标编码向量数组表示。
步骤709,根据目标编码向量数组表示和受限词表,生成在受限词表空间上的概率分布。
本实施例中,步骤707-步骤709与上述步骤602-步骤604类似,故在此不再赘述。
步骤710,根据在受限词表空间上的概率分布生成预测结果。
本实施例中,可根据受限词表中每个字或词对应的概率,选取概率最大的字或词,作为目标位置的解码结果,即作为预测结果。
本申请实施例的语言模型的预测方法,通过获取待预测文本序列,并生成待预测文本序列中需要通过语言模型分析的字或词的目标位置,对目标位置处的字或词进行掩码替换生成掩码替换后的文本序列,生成被替换的字或词的受限词表,根据词向量表和位置向量表分别生成掩码替换后的文本序列的词向量数组表示和位置向量数组表示,再根据词向量数组表示和位置向量数组表示生成输入向量数组表示,并通过深度双向转换编码器对输入向量数组表示进行编码得到编码向量数组表示,根据目标位置从编码向量数组表示中提取目标编码向量数组表示,再根据目标编码向量数组表示和受限词表,生成在受限词表空间上的概率分布,根据在受限词表空间上的概率分布生成预测结果。由此,通过在模型的解码端引入被替换字或词的受限词表,在模型预测时充分利用原词的信息,从而模型预测的结果准确度较高,大大提升了语言模型在错误检测或错误纠正等任务上的效果,另外,利用深度双向转换编码器进行编码,不仅可以获取深度上下文信息,提高语言模型的上下文理解能力,从而可以解决长依赖问题进一步提高预测的准确度,而且可以并行计算,从而提高了语言模型的预测速度。
本申请实施例中,通过在模型的解码端引入受限词表,提高语言模型的解码准确性,可见受限词表在语言模型的预测中起到至关重要的作用。在本申请的一个实施例中,在生成被替换的字或词的受限词表时,可以被替换的字或词为中心,结合上下文查询词典,得到与被替换的字或词容易混淆的字或词,根据这些字或词得到受限词表。
本实施例中,上述查询用到的词典可以是PT词典、音近词典和形近词典中的一种或多种。其中,PT词典反映的是利用历史错误行为,近词典和形近词典分别反映音近字、形近字的混淆情况。
比如,文本序列“自己赚的钱一般分给父母”,被替换的字为“般”。根据“般”的上下信息,PT词典召回:半→本;音近词典召回:班→把→板→版→斑→瓣;形近词典召回:搬。最后,将上述召回结果首尾拼接起来,构成文本序列中字“般”的受限词表。
若查询所用的词典为一个,则根据该词典获取候选字或词,对获取的候选字或词进行排序,并选取受限词表的大小的数量的字或词,并构成被替换的字或词的受限词表。
图9为本申请实施例提供的另一种语言模型的预测方法的流程示意图。
若结合上下文查询的词典的数量至少为两个,如图9所示,上述以被替换的字或词为中心,结合上下文查询词典,生成受限词表,包括:
步骤801,以被替换的字或词为中心结合上下文,通过查询各词典得到受限词表的候选字或词集合。
本实施例中,以被替换的字或词为中心结合上下文,通过查询各词典得到受限词表的候选字或词集合。
比如,查询用的是音近词典和形近词典,那么在查询音近词典时,可根据拼音编辑距离分别为0,1,2,对目标位置处的字或词即待预测文本序列中被替换的字或词的位置,进行候选召回。其中,拼音编辑距离为0表示拼音完全相同,拼音编辑距离为1和2可以是根据拼音编辑距离范围划分的,拼音编辑距离0、1、2对应容易混淆的程度越来越低。在查询形近词典时,根据字形上的差异,对目标位置的字或词进行候选召回。那么,根据查询音近字典和形近词典候选召回的字或词组成了被替换的字或词的受限词表中的候选字或词集合。
若查询用的是PT词典、音近词典和形近词典,那么三个词典的候选召回的字或词构成了被替换的字或词的受限词表中的候选字或词集合。
步骤802,根据各词典的优先级和候选字或词集合中候选字或词的权重计算得出候选字或词的排序列表。
本实施例中,可根据各词典的优先级和候选字或词集合中候选字或词的权重计算得出候选字或词的一个排序列表。其中,排序列表中越靠前的字或词,是与被替换字或词越容易混淆的字或词。
本实施例中,各词典的优先级可预先规定,如规定优先级为:PT词典>音近词典>形近词典;候选字或词集合中每个字或词的权重可根据其在对应词典中出现的频次计算,其中,字或词出现的频次越高对应的权重越大。
具体而言,在计算出候选词或字对应的权重后,根据规定的各词典的优先级,将优先级高的词典召回的候选字或词排序在前,同一词典召回的候选字或词,根据候选字或词的权重的大小进行排序,将权重大的排序在前,由此可以得到排序列表。
在实际应用中,也可仅按照词典的优先级从高到低的顺序,得到候选字或词的排序列表,而对同一词典召回的字或词的内部优先级不限定。
步骤803,根据设定的受限词表的大小,从排序列表中选取前受限词表的大小数量的候选字或词,构成受限词表。
比如,设定的受限词表的大小为10,那么从排序列表中选取前10个字或词,构成受限词表。
在实际应用中,若排序列表中的候选字或词数量不足,则用缺省字或词进行填充,以保证受限词表的大小为预先设定的大小。
需要说明的是,被替换的字或词不同时,得到的受限词表也不相同,也就是说,不同的字、不同的上下文会生成大小相同但内容却不同的受限词表,故而受限词表是动态的。
本实施例中,PT词典反映的是历史错误行为,音近词典和形近词典分别反映音近字、形近字的混淆情况,以此受限词表作为语言模型解码端的求解依据,将大大提高了预测结果的准确度,提高了错误检测、错误纠正等任务的效果。
为了实现上述实施例,本申请实施例还提出一种语言模型的训练装置。图10为本申请实施例提供的一种语言模型的训练装置的结构示意图。
如图10所示,该语言模型的训练装置包括:获取模块910、替换模块920、第一生成模块930、第二生成模块940、计算模块950。
获取模块910,用于获取训练文本序列,并随机生成训练文本序列中需要通过语言模型建模分析的字或词的目标位置;
替换模块920,用于对目标位置处的字或词进行掩码替换,生成掩码替换后的文本序列;
第一生成模块930,用于生成被替换的字或词的受限词表;
第二生成模块940,用于根据掩码替换后的文本序列和受限词表,生成在受限词表空间上的概率分布;以及
计算模块950,用于根据被替换的字或词以及在受限词表空间上的概率分布计算交叉熵函数,并进行迭代优化。
在本申请实施例一种可能的实现方式中,上述第二生成模块940,包括:
第一生成单元,用于根据掩码替换后的文本序列、词向量表和位置向量表,生成输入向量数组表示;
第二生成单元,用于将输入向量数组表示通过深度双向转换编码器,生成编码向量数组表示;
提取单元,用于根据目标位置从编码向量数组表示中提取与掩码对应的目标编码向量数组表示;
第三生成单元,用于根据目标编码向量数组表示和受限词表,生成在受限词表空间上的概率分布。
在本申请实施例一种可能的实现方式中,上述第一生成单元,具体用于:
根据掩码替换后的文本序列和词向量表,生成掩码替换后的文本序列的词向量数组表示;
根据掩码替换后的文本序列的长度和位置向量表,生成掩码替换后的文本序列的位置向量数组表示;
根据掩码替换后的文本序列的词向量数组表示和位置向量数组表示,生成输入向量数组表示。
在本申请实施例一种可能的实现方式中,上述第一生成模块930,具体用于:
以被替换的字或词为中心,结合上下文查询词典,生成受限词表,词典包括PT词典、音近词典和形近词典中的一种或多种。
在本申请实施例一种可能的实现方式中,若结合上下文查询的词典的数量至少为两个,上述第一生成模块930,具体用于:
以被替换的字或词为中心结合上下文,通过查询各词典得到受限词表的候选字或词集合;
根据各词典的优先级和候选字或词集合中候选字或词的权重计算得出候选字或词的排序列表;
根据设定的受限词表的大小,从排序列表中选取前受限词表的大小数量的候选字或词,构成受限词表。
需要说明的是,上述对语言模型的训练方法实施例的解释说明,也适用于该实施例的语言模型的训练装置,故在此不再赘述。
本申请实施例的语言模型的训练方法,通过获取训练文本序列,并随机生成训练文本序列中需要通过语言模型建模分析的字或词的目标位置,对目标位置处的字或词进行掩码替换,生成掩码替换后的文本序列,生成被替换的字或词的受限词表,根据掩码替换后的文本序列和受限词表,生成在受限词表空间上的概率分布,根据被替换的字或词以及在受限词表空间上的概率分布计算交叉熵函数,并进行迭代优化。由此,通过在模型的解码端引入被替换字或词的受限词表,在模型训练时充分利用原词的信息,从而使得训练得到的语言模型对易混淆词更容易区分,大大提升了语言模型在错误检测或错误纠正等任务上的效果。
为了实现上述实施例,本申请实施例还提出一种语言模型的预测装置。图11为本申请实施例提供的一种语言模型的预测装置的结构示意图。
如图11所示,该语言模型的预测装置包括:获取模块1010、替换模块1020、第一生成模块1030、第二生成模块1040、第三生成模块1050。
获取模块1010,用于获取待预测文本序列,并生成待预测文本序列中需要通过语言模型分析的字或词的目标位置;
替换模块1020,用于对目标位置处的字或词进行掩码替换,以生成掩码替换后的文本序列;
第一生成模块1030,用于生成被替换的字或词的受限词表;
第二生成模块1040,用于根据掩码替换后的文本序列和受限词表,生成语言模型在受限词表空间上的概率分布;以及
第三生成模块1050,用于根据在受限词表空间上的概率分布生成预测结果。
在本申请实施例一种可能的实现方式中,上述第二生成模块1040,包括:
第一生成单元,用于根据所述掩码替换后的文本序列、词向量表和位置向量表,生成输入向量数组表示;
第二生成单元,用于将所述输入向量数组表示通过深度双向转换编码器,生成编码向量数组表示;
提取单元,用于根据目标位置从编码向量数组表示中提取与掩码对应的目标编码向量数组表示;
第三生成单元,用于根据目标编码向量数组表示和受限词表,生成在受限词表空间上的概率分布。
在本申请实施例一种可能的实现方式中,上述第一生成单元,具体用于:
根据掩码替换后的文本序列和词向量表,生成掩码替换后的文本序列的词向量数组表示;
根据掩码替换后的本序列的长度和位置向量表,生成掩码替换后的文本序列的位置向量数组表示;
根据掩码替换后的文本序列的词向量数组表示和位置向量数组表示,生成输入向量数组表示。
在本申请实施例一种可能的实现方式中,上述第一生成模块1030,具体用于:
以被替换的字或词为中心,结合上下文查询词典,生成所述受限词表,所述词典包括PT词典、音近词典和形近词典中的一种或多种。
在本申请实施例一种可能的实现方式中,若结合上下文查询的词典的数量至少为两个,上述第一生成模块1030,具体用于:
以被替换的字或词为中心结合上下文,通过查询各词典得到生成受限词表的候选字或词集合;
根据各词典的优先级和候选字或词集合中候选字或词的权重计算得出候选字或词的排序列表;
根据设定的受限词表的大小,从排序列表中选取前受限词表的大小数量的候选字或词,构成受限词表。
需要说明的是,上述对语言模型的预测方法实施例的解释说明,也适用于该实施例的语言模型的预测装置,故在此不再赘述。
本申请实施例的语言模型的预测装置,通过获取待预测文本序列,并生成待预测文本序列中需要通过语言模型分析的字或词的目标位置,对目标位置处的字或词进行掩码替换,以生成掩码替换后的文本序列,生成被替换的字或词的受限词表,根据掩码替换后的文本序列和受限词表,生成语言模型在受限词表空间上的概率分布,根据在受限词表空间上的概率分布生成预测结果。由此,通过在语言模型解码端引入受限词表,在模型预测时充分利用了原词的信息,从而对易混淆词更容易区分,大大提高了预测的准确性。
为了实现上述实施例,本申请实施例还提出一种计算机设备,包括处理器和存储器;
其中,处理器通过读取存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如上述实施例所述的语言模型的训练方法或语言模型的预测方法。
图12示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图12显示的计算机设备13仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图12所示,计算机设备13以通用计算设备的形式表现。计算机设备13的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备13典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备13访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备13可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图12未显示,通常称为“硬盘驱动器”)。尽管图12中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备13也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备13交互的设备通信,和/或与使得该计算机设备13能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备13还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备13的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备13使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
为了实现上述实施例,本申请实施例还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例所述的语言模型的训练方法或语言模型的预测方法。
在本说明书的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (22)

1.一种语言模型的训练方法,其特征在于,包括:
获取训练文本序列,并随机生成所述训练文本序列中需要通过语言模型建模分析的字或词的目标位置;
对所述目标位置处的字或词进行掩码替换,生成掩码替换后的文本序列;
生成被替换的字或词的受限词表;
根据所述掩码替换后的文本序列和所述受限词表,生成在所述受限词表空间上的概率分布;以及
根据所述被替换的字或词以及在所述受限词表空间上的概率分布计算交叉熵函数,并进行迭代优化。
2.如权利要求1所述的语言模型的训练方法,其特征在于,所述根据所述掩码替换后的文本序列和所述受限词表,生成在所述受限词表空间上的概率分布,包括:
根据所述掩码替换后的文本序列、词向量表和位置向量表,生成输入向量数组表示;
将所述输入向量数组表示通过深度双向转换编码器,生成编码向量数组表示;
根据所述目标位置从所述编码向量数组表示中提取与掩码对应的目标编码向量数组表示;
根据所述目标编码向量数组表示和所述受限词表,生成在所述受限词表空间上的概率分布。
3.如权利要求2所述的语言模型的训练方法,其特征在于,所述根据所述掩码替换后的文本序列、词向量表和位置向量表,生成输入向量数组表示,包括:
根据所述掩码替换后的文本序列和词向量表,生成所述掩码替换后的文本序列的词向量数组表示;
根据所述掩码替换后的文本序列的长度和位置向量表,生成所述掩码替换后的文本序列的位置向量数组表示;
根据所述掩码替换后的文本序列的词向量数组表示和位置向量数组表示,生成输入向量数组表示。
4.如权利要求1所述的语言模型的训练方法,其特征在于,所述生成被替换的字或词的受限词表,包括:
以所述被替换的字或词为中心,结合上下文查询词典,生成所述受限词表,所述词典包括PT词典、音近词典和形近词典中的一种或多种。
5.如权利要求4所述的语言模型的训练方法,其特征在于,若结合上下文查询的词典的数量至少为两个,所述以所述被替换的字或词为中心,结合上下文查询词典,生成所述受限词表,包括:
以所述被替换的字或词为中心结合上下文,通过查询各词典得到受限词表的候选字或词集合;
根据各词典的优先级和所述候选字或词集合中候选字或词的权重计算得出候选字或词的排序列表;
根据设定的受限词表的大小,从所述排序列表中选取前受限词表的大小数量的候选字或词,构成受限词表。
6.一种语言模型的预测方法,其特征在于,包括:
获取待预测文本序列,并生成所述待预测文本序列中需要通过所述语言模型分析的字或词的目标位置;
对所述目标位置处的字或词进行掩码替换,以生成掩码替换后的文本序列;
生成被替换的字或词的受限词表;
根据所述掩码替换后的文本序列和所述受限词表,生成所述语言模型在所述受限词表空间上的概率分布;以及
根据在所述受限词表空间上的概率分布生成预测结果。
7.如权利要求6所述的语言模型的预测方法,其特征在于,所述根据所述掩码替换后的文本序列和所述受限词表,生成所述语言模型在所述受限词表空间上的概率分布,包括:
根据所述掩码替换后的文本序列、词向量表和位置向量表,生成输入向量数组表示;
将所述输入向量数组表示通过深度双向转换编码器,生成编码向量数组表示;
根据所述目标位置从所述编码向量数组表示中提取与掩码对应的目标编码向量数组表示;
根据所述目标编码向量数组表示和所述受限词表,生成在所述受限词表空间上的概率分布。
8.如权利要求7所述的语言模型的预测方法,其特征在于,所述根据所述掩码替换后的文本序列、词向量表和位置向量表,生成输入向量数组表示,包括:
根据所述掩码替换后的文本序列和词向量表,生成所述掩码替换后的文本序列的词向量数组表示;
根据所述掩码替换后的本序列的长度和位置向量表,生成所述掩码替换后的文本序列的位置向量数组表示;
根据所述掩码替换后的文本序列的词向量数组表示和位置向量数组表示,生成输入向量数组表示。
9.如权利要求6所述的语言模型的预测方法,其特征在于,所述生成被替换的字或词的受限词表,包括:
以所述被替换的字或词为中心,结合上下文查询词典,生成所述受限词表,所述词典包括PT词典、音近词典和形近词典中的一种或多种。
10.如权利要求9所述的语言模型的预测方法,其特征在于,若结合上下文查询的词典的数量至少为两个,所述以所述被替换字或词为中心,结合上下文查询词典,生成所述受限词表,包括:
以所述被替换的字或词为中心结合上下文,通过查询各词典得到生成受限词表的候选字或词集合;
根据各词典的优先级和所述候选字或词集合中候选字或词的权重计算得出候选字或词的排序列表;
根据设定的受限词表的大小,从所述排序列表中选取前受限词表的大小数量的候选字或词,构成受限词表。
11.一种语言模型的训练装置,其特征在于,包括:
获取模块,用于获取训练文本序列,并随机生成所述训练文本序列中需要通过语言模型建模分析的字或词的目标位置;
替换模块,用于对所述目标位置处的字或词进行掩码替换,生成掩码替换后的文本序列;
第一生成模块,用于生成被替换的字或词的受限词表;
第二生成模块,用于根据所述掩码替换后的文本序列和所述受限词表,生成在所述受限词表空间上的概率分布;以及
计算模块,用于根据所述被替换的字或词以及在所述受限词表空间上的概率分布计算交叉熵函数,并进行迭代优化。
12.如权利要求11所述的语言模型的训练装置,其特征在于,所述第二生成模块,包括:
第一生成单元,用于根据所述掩码替换后的文本序列、词向量表和位置向量表,生成输入向量数组表示;
第二生成单元,用于将所述输入向量数组表示通过深度双向转换编码器,生成编码向量数组表示;
提取单元,用于根据目标位置从所述编码向量数组表示中提取与掩码对应的目标编码向量数组表示;
第三生成单元,用于根据所述目标编码向量数组表示和所述受限词表,生成在所述受限词表空间上的概率分布。
13.如权利要求12所述的语言模型的训练装置,其特征在于,所述第一生成单元,具体用于:
根据所述掩码替换后的文本序列和词向量表,生成所述掩码替换后的文本序列的词向量数组表示;
根据所述掩码替换后的文本序列的长度和位置向量表,生成所述掩码替换后的文本序列的位置向量数组表示;
根据所述掩码替换后的文本序列的词向量数组表示和位置向量数组表示,生成输入向量数组表示。
14.如权利要求11所述的语言模型的训练装置,其特征在于,所述第一生成模块,具体用于:
以所述被替换的字或词为中心,结合上下文查询词典,生成所述受限词表,所述词典包括PT词典、音近词典和形近词典中的一种或多种。
15.如权利要求14所述的语言模型的训练装置,其特征在于,若结合上下文查询的词典的数量至少为两个,所述第一生成模块,具体用于:
以所述被替换的字或词为中心结合上下文,通过查询各词典得到受限词表的候选字或词集合;
根据各词典的优先级和所述候选字或词集合中候选字或词的权重计算得出候选字或词的排序列表;
根据设定的受限词表的大小,从所述排序列表中选取前受限词表的大小数量的候选字或词,构成受限词表。
16.一种语言模型的预测装置,其特征在于,包括:
获取模块,用于获取待预测文本序列,并生成所述待预测文本序列中需要通过所述语言模型分析的字或词的目标位置;
替换模块,用于对所述目标位置处的字或词进行掩码替换,以生成掩码替换后的文本序列;
第一生成模块,用于生成被替换的字或词的受限词表;
第二生成模块,用于根据所述掩码替换后的文本序列和所述受限词表,生成所述语言模型在所述受限词表空间上的概率分布;以及
第三生成模块,用于根据在所述受限词表空间上的概率分布生成预测结果。
17.如权利要求16所述的语言模型的预测装置,其特征在于,所述第二生成模块,包括:
第一生成单元,用于根据所述掩码替换后的文本序列、词向量表和位置向量表,生成输入向量数组表示;
第二生成单元,用于将所述输入向量数组表示通过深度双向转换编码器,生成编码向量数组表示;
提取单元,用于根据目标位置从所述编码向量数组表示中提取与掩码对应的目标编码向量数组表示;
第三生成单元,用于根据所述目标编码向量数组表示和所述受限词表,生成在所述受限词表空间上的概率分布。
18.如权利要求17所述的语言模型的预测装置,其特征在于,所述第一生成单元,具体用于:
根据所述掩码替换后的文本序列和词向量表,生成所述掩码替换后的文本序列的词向量数组表示;
根据所述掩码替换后的本序列的长度和位置向量表,生成所述掩码替换后的文本序列的位置向量数组表示;
根据所述掩码替换后的文本序列的词向量数组表示和位置向量数组表示,生成输入向量数组表示。
19.如权利要求16所述的语言模型的预测装置,其特征在于,所述第一生成模块,具体用于:
以所述被替换的字或词为中心,结合上下文查询词典,生成所述受限词表,所述词典包括PT词典、音近词典和形近词典中的一种或多种。
20.如权利要求19所述的语言模型的预测装置,其特征在于,若结合上下文查询的词典的数量至少为两个,所述第一生成模块,具体用于:
以所述被替换的字或词为中心结合上下文,通过查询各词典得到生成受限词表的候选字或词集合;
根据各词典的优先级和所述候选字或词集合中候选字或词的权重计算得出候选字或词的排序列表;
根据设定的受限词表的大小,从所述排序列表中选取前受限词表的大小数量的候选字或词,构成受限词表。
21.一种计算机设备,其特征在于,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-5中任一所述的语言模型的训练方法或者实现如权利要求6-10中任一所述的语言模型的预测方法。
22.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的语言模型的训练方法或者实现如权利要求6-10中任一所述的语言模型的预测方法。
CN201910460896.4A 2019-05-30 2019-05-30 语言模型的训练方法和预测方法 Active CN110196894B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910460896.4A CN110196894B (zh) 2019-05-30 2019-05-30 语言模型的训练方法和预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910460896.4A CN110196894B (zh) 2019-05-30 2019-05-30 语言模型的训练方法和预测方法

Publications (2)

Publication Number Publication Date
CN110196894A true CN110196894A (zh) 2019-09-03
CN110196894B CN110196894B (zh) 2021-06-08

Family

ID=67753393

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910460896.4A Active CN110196894B (zh) 2019-05-30 2019-05-30 语言模型的训练方法和预测方法

Country Status (1)

Country Link
CN (1) CN110196894B (zh)

Cited By (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765733A (zh) * 2019-10-24 2020-02-07 科大讯飞股份有限公司 一种文本规整方法、装置、设备及存储介质
CN111008266A (zh) * 2019-12-06 2020-04-14 北京金山数字娱乐科技有限公司 文本分析模型的训练方法及装置、文本分析方法及装置
CN111008531A (zh) * 2019-12-06 2020-04-14 北京金山数字娱乐科技有限公司 语句选词模型的训练方法及装置、语句选词方法及装置
CN111061867A (zh) * 2019-10-29 2020-04-24 平安科技(深圳)有限公司 基于质量感知的文本生成方法、设备、存储介质及装置
CN111062205A (zh) * 2019-12-16 2020-04-24 北京大学 一种中文自动语法纠错中的动态掩码训练方法
CN111079450A (zh) * 2019-12-20 2020-04-28 北京百度网讯科技有限公司 基于顺句驱动的语言转换方法和装置
CN111104482A (zh) * 2019-12-18 2020-05-05 北京百度网讯科技有限公司 数据处理方法和装置
CN111125491A (zh) * 2019-11-29 2020-05-08 腾讯科技(深圳)有限公司 商品信息的搜索方法和装置、存储介质及电子装置
CN111310050A (zh) * 2020-02-27 2020-06-19 深圳大学 一种基于多层注意力的推荐方法
CN111341309A (zh) * 2020-02-18 2020-06-26 百度在线网络技术(北京)有限公司 一种语音交互方法、装置、设备和计算机存储介质
CN111401037A (zh) * 2020-06-05 2020-07-10 平安国际智慧城市科技股份有限公司 自然语言的生成方法、装置、电子设备及存储介质
CN111475658A (zh) * 2020-06-12 2020-07-31 北京百度网讯科技有限公司 知识表示学习方法、装置、设备以及存储介质
CN111539223A (zh) * 2020-05-29 2020-08-14 北京百度网讯科技有限公司 语言模型的训练方法、装置、电子设备及可读存储介质
CN111611790A (zh) * 2020-04-13 2020-09-01 华为技术有限公司 数据处理的方法与装置
CN111709248A (zh) * 2020-05-28 2020-09-25 北京百度网讯科技有限公司 文本生成模型的训练方法、装置及电子设备
CN111737994A (zh) * 2020-05-29 2020-10-02 北京百度网讯科技有限公司 基于语言模型获取词向量的方法、装置、设备及存储介质
CN111737996A (zh) * 2020-05-29 2020-10-02 北京百度网讯科技有限公司 基于语言模型获取词向量的方法、装置、设备及存储介质
CN111737995A (zh) * 2020-05-29 2020-10-02 北京百度网讯科技有限公司 基于多种词向量训练语言模型的方法、装置、设备及介质
CN111783443A (zh) * 2020-06-29 2020-10-16 百度在线网络技术(北京)有限公司 文本扰动检测方法、扰动还原方法、扰动处理方法和装置
CN111831901A (zh) * 2020-03-26 2020-10-27 北京嘀嘀无限科技发展有限公司 数据处理方法、装置、设备和存储介质
CN111897955A (zh) * 2020-07-13 2020-11-06 广州视源电子科技股份有限公司 基于编解码的评语生成方法、装置、设备和存储介质
CN111950293A (zh) * 2020-06-24 2020-11-17 北京百度网讯科技有限公司 语义表示模型的生成方法、装置、电子设备及存储介质
CN111950292A (zh) * 2020-06-22 2020-11-17 北京百度网讯科技有限公司 文本纠错模型的训练方法、文本纠错处理方法和装置
CN112069795A (zh) * 2020-08-28 2020-12-11 平安科技(深圳)有限公司 基于掩码语言模型的语料检测方法、装置、设备及介质
CN112149415A (zh) * 2020-10-12 2020-12-29 清华大学 文本生成模型的训练方法、装置及可读存储介质
CN112396049A (zh) * 2020-11-19 2021-02-23 平安普惠企业管理有限公司 文本纠错方法、装置、计算机设备及存储介质
CN112487182A (zh) * 2019-09-12 2021-03-12 华为技术有限公司 文本处理模型的训练方法、文本处理方法及装置
CN112966496A (zh) * 2021-05-19 2021-06-15 灯塔财经信息有限公司 一种基于拼音特征表征的中文纠错方法及系统
CN113011149A (zh) * 2021-03-04 2021-06-22 中国科学院自动化研究所 一种文本纠错方法及系统
CN113050787A (zh) * 2019-12-26 2021-06-29 上海智臻智能网络科技股份有限公司 一种人机对话模型的训练方法及人机对话方法
CN113270088A (zh) * 2020-02-14 2021-08-17 阿里巴巴集团控股有限公司 文本处理、数据处理和语音处理方法、装置和电子设备
WO2021189851A1 (zh) * 2020-09-03 2021-09-30 平安科技(深圳)有限公司 文本纠错方法、系统、设备及可读存储介质
CN113591475A (zh) * 2021-08-03 2021-11-02 美的集团(上海)有限公司 无监督可解释分词的方法、装置和电子设备
CN113593574A (zh) * 2021-08-25 2021-11-02 广州虎牙科技有限公司 一种语音识别方法、计算机程序产品及电子设备
CN113626564A (zh) * 2021-10-09 2021-11-09 腾讯科技(深圳)有限公司 一种概念标签生成方法、装置、电子设备和存储介质
WO2022121178A1 (zh) * 2020-12-11 2022-06-16 平安科技(深圳)有限公司 文本纠错模型训练方法、识别方法、装置及计算机设备
CN114840499A (zh) * 2021-02-01 2022-08-02 腾讯科技(深圳)有限公司 一种表描述信息的生成方法、相关装置、设备及存储介质
CN114997147A (zh) * 2022-08-04 2022-09-02 深圳依时货拉拉科技有限公司 基于混合mask的poi地址纠错方法、装置、存储介质和设备
WO2022227166A1 (zh) * 2021-04-26 2022-11-03 平安科技(深圳)有限公司 词语替换方法、装置、电子设备和存储介质
CN115600583A (zh) * 2022-08-09 2023-01-13 中国搜索信息科技股份有限公司(Cn) 一种字词多粒度混合的中文语言模型预训练方法
CN116227484A (zh) * 2023-05-09 2023-06-06 腾讯科技(深圳)有限公司 模型训练方法、装置、设备、存储介质和计算机程序产品
CN116452047A (zh) * 2023-04-12 2023-07-18 上海才历网络有限公司 一种候选人胜任能力测评方法及装置
CN116628171A (zh) * 2023-07-24 2023-08-22 北京惠每云科技有限公司 一种基于预训练语言模型的病历检索方法和系统
CN117056522A (zh) * 2023-10-11 2023-11-14 青岛网信信息科技有限公司 一种互联网言论优化处理方法、介质及系统
CN112149415B (zh) * 2020-10-12 2024-05-31 清华大学 文本生成模型的训练方法、装置及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021838A (zh) * 2007-03-02 2007-08-22 华为技术有限公司 文本处理方法和系统
US20110260894A1 (en) * 2010-04-23 2011-10-27 Weicheng Joseph Ku Method and apparatus for entropy decoding
CN104765728A (zh) * 2014-01-08 2015-07-08 富士通株式会社 训练神经网络的方法和装置以及确定稀疏特征向量的方法
US9196243B2 (en) * 2014-03-31 2015-11-24 International Business Machines Corporation Method and system for efficient spoken term detection using confusion networks
CN107193792A (zh) * 2017-05-18 2017-09-22 北京百度网讯科技有限公司 基于人工智能的生成文章的方法和装置
CN108959551A (zh) * 2018-06-29 2018-12-07 北京百度网讯科技有限公司 近邻语义的挖掘方法、装置、存储介质和终端设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021838A (zh) * 2007-03-02 2007-08-22 华为技术有限公司 文本处理方法和系统
US20110260894A1 (en) * 2010-04-23 2011-10-27 Weicheng Joseph Ku Method and apparatus for entropy decoding
CN104765728A (zh) * 2014-01-08 2015-07-08 富士通株式会社 训练神经网络的方法和装置以及确定稀疏特征向量的方法
US9196243B2 (en) * 2014-03-31 2015-11-24 International Business Machines Corporation Method and system for efficient spoken term detection using confusion networks
CN107193792A (zh) * 2017-05-18 2017-09-22 北京百度网讯科技有限公司 基于人工智能的生成文章的方法和装置
CN108959551A (zh) * 2018-06-29 2018-12-07 北京百度网讯科技有限公司 近邻语义的挖掘方法、装置、存储介质和终端设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BARNABÁS PÓCZOS ET AL: "Identification of Recurrent Neural Networks by Bayesian Interrogation Techniques", 《THE JOURNAL OF MACHINE LEARNING RESEARCH》 *
CHENGLONG WANG ET AL: "A Hybrid Framework for Text Modeling with Convolutional RNN", 《PROCEEDINGS OF THE 23RD ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING》 *
李洋 等: "基于CNN和BiLSTM网络特征融合的文本情感分析", 《计算机应用》 *
聂庆庆: "基于文本序列和语义信息学习的文本分类研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (75)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487182A (zh) * 2019-09-12 2021-03-12 华为技术有限公司 文本处理模型的训练方法、文本处理方法及装置
CN112487182B (zh) * 2019-09-12 2024-04-12 华为技术有限公司 文本处理模型的训练方法、文本处理方法及装置
CN110765733A (zh) * 2019-10-24 2020-02-07 科大讯飞股份有限公司 一种文本规整方法、装置、设备及存储介质
CN111061867A (zh) * 2019-10-29 2020-04-24 平安科技(深圳)有限公司 基于质量感知的文本生成方法、设备、存储介质及装置
CN111061867B (zh) * 2019-10-29 2022-10-25 平安科技(深圳)有限公司 基于质量感知的文本生成方法、设备、存储介质及装置
CN111125491A (zh) * 2019-11-29 2020-05-08 腾讯科技(深圳)有限公司 商品信息的搜索方法和装置、存储介质及电子装置
CN111008266A (zh) * 2019-12-06 2020-04-14 北京金山数字娱乐科技有限公司 文本分析模型的训练方法及装置、文本分析方法及装置
CN111008531A (zh) * 2019-12-06 2020-04-14 北京金山数字娱乐科技有限公司 语句选词模型的训练方法及装置、语句选词方法及装置
CN111008531B (zh) * 2019-12-06 2023-05-26 北京金山数字娱乐科技有限公司 语句选词模型的训练方法及装置、语句选词方法及装置
CN111008266B (zh) * 2019-12-06 2023-09-26 北京金山数字娱乐科技有限公司 文本分析模型的训练方法及装置、文本分析方法及装置
CN111062205A (zh) * 2019-12-16 2020-04-24 北京大学 一种中文自动语法纠错中的动态掩码训练方法
CN111062205B (zh) * 2019-12-16 2021-10-01 北京大学 一种中文自动语法纠错中的动态掩码训练方法
JP2021096813A (ja) * 2019-12-18 2021-06-24 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド データ処理方法及び装置
CN111104482A (zh) * 2019-12-18 2020-05-05 北京百度网讯科技有限公司 数据处理方法和装置
CN111079450A (zh) * 2019-12-20 2020-04-28 北京百度网讯科技有限公司 基于顺句驱动的语言转换方法和装置
CN113050787A (zh) * 2019-12-26 2021-06-29 上海智臻智能网络科技股份有限公司 一种人机对话模型的训练方法及人机对话方法
CN113270088A (zh) * 2020-02-14 2021-08-17 阿里巴巴集团控股有限公司 文本处理、数据处理和语音处理方法、装置和电子设备
CN113270088B (zh) * 2020-02-14 2022-04-29 阿里巴巴集团控股有限公司 文本处理、数据处理和语音处理方法、装置和电子设备
US11978447B2 (en) 2020-02-18 2024-05-07 Baidu Online Network Technology (Beijing) Co., Ltd. Speech interaction method, apparatus, device and computer storage medium
CN111341309A (zh) * 2020-02-18 2020-06-26 百度在线网络技术(北京)有限公司 一种语音交互方法、装置、设备和计算机存储介质
CN111310050B (zh) * 2020-02-27 2023-04-18 深圳大学 一种基于多层注意力的推荐方法
CN111310050A (zh) * 2020-02-27 2020-06-19 深圳大学 一种基于多层注意力的推荐方法
CN111831901A (zh) * 2020-03-26 2020-10-27 北京嘀嘀无限科技发展有限公司 数据处理方法、装置、设备和存储介质
CN111611790B (zh) * 2020-04-13 2022-09-16 华为技术有限公司 数据处理的方法与装置
WO2021208612A1 (zh) * 2020-04-13 2021-10-21 华为技术有限公司 数据处理的方法与装置
EP4131020A4 (en) * 2020-04-13 2023-08-23 Huawei Technologies Co., Ltd. DATA PROCESSING METHOD AND DEVICE
CN111611790A (zh) * 2020-04-13 2020-09-01 华为技术有限公司 数据处理的方法与装置
CN111709248A (zh) * 2020-05-28 2020-09-25 北京百度网讯科技有限公司 文本生成模型的训练方法、装置及电子设备
CN111737995A (zh) * 2020-05-29 2020-10-02 北京百度网讯科技有限公司 基于多种词向量训练语言模型的方法、装置、设备及介质
CN111737994B (zh) * 2020-05-29 2024-01-26 北京百度网讯科技有限公司 基于语言模型获取词向量的方法、装置、设备及存储介质
CN111539223A (zh) * 2020-05-29 2020-08-14 北京百度网讯科技有限公司 语言模型的训练方法、装置、电子设备及可读存储介质
CN111737994A (zh) * 2020-05-29 2020-10-02 北京百度网讯科技有限公司 基于语言模型获取词向量的方法、装置、设备及存储介质
CN111737996B (zh) * 2020-05-29 2024-03-26 北京百度网讯科技有限公司 基于语言模型获取词向量的方法、装置、设备及存储介质
CN111539223B (zh) * 2020-05-29 2023-08-18 北京百度网讯科技有限公司 语言模型的训练方法、装置、电子设备及可读存储介质
CN111737995B (zh) * 2020-05-29 2024-04-05 北京百度网讯科技有限公司 基于多种词向量训练语言模型的方法、装置、设备及介质
CN111737996A (zh) * 2020-05-29 2020-10-02 北京百度网讯科技有限公司 基于语言模型获取词向量的方法、装置、设备及存储介质
CN111401037A (zh) * 2020-06-05 2020-07-10 平安国际智慧城市科技股份有限公司 自然语言的生成方法、装置、电子设备及存储介质
US11687718B2 (en) 2020-06-12 2023-06-27 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, device, and storage medium for learning knowledge representation
CN111475658A (zh) * 2020-06-12 2020-07-31 北京百度网讯科技有限公司 知识表示学习方法、装置、设备以及存储介质
CN111950292B (zh) * 2020-06-22 2023-06-27 北京百度网讯科技有限公司 文本纠错模型的训练方法、文本纠错处理方法和装置
CN111950292A (zh) * 2020-06-22 2020-11-17 北京百度网讯科技有限公司 文本纠错模型的训练方法、文本纠错处理方法和装置
CN111950293B (zh) * 2020-06-24 2023-06-23 北京百度网讯科技有限公司 语义表示模型的生成方法、装置、电子设备及存储介质
CN111950293A (zh) * 2020-06-24 2020-11-17 北京百度网讯科技有限公司 语义表示模型的生成方法、装置、电子设备及存储介质
CN111783443A (zh) * 2020-06-29 2020-10-16 百度在线网络技术(北京)有限公司 文本扰动检测方法、扰动还原方法、扰动处理方法和装置
CN111783443B (zh) * 2020-06-29 2023-08-15 百度在线网络技术(北京)有限公司 文本扰动检测方法、扰动还原方法、扰动处理方法和装置
CN111897955B (zh) * 2020-07-13 2024-04-09 广州视源电子科技股份有限公司 基于编解码的评语生成方法、装置、设备和存储介质
CN111897955A (zh) * 2020-07-13 2020-11-06 广州视源电子科技股份有限公司 基于编解码的评语生成方法、装置、设备和存储介质
CN112069795A (zh) * 2020-08-28 2020-12-11 平安科技(深圳)有限公司 基于掩码语言模型的语料检测方法、装置、设备及介质
WO2021151292A1 (zh) * 2020-08-28 2021-08-05 平安科技(深圳)有限公司 基于掩码语言模型的语料检测方法、装置、设备及介质
WO2021189851A1 (zh) * 2020-09-03 2021-09-30 平安科技(深圳)有限公司 文本纠错方法、系统、设备及可读存储介质
CN112149415A (zh) * 2020-10-12 2020-12-29 清华大学 文本生成模型的训练方法、装置及可读存储介质
CN112149415B (zh) * 2020-10-12 2024-05-31 清华大学 文本生成模型的训练方法、装置及可读存储介质
CN112396049A (zh) * 2020-11-19 2021-02-23 平安普惠企业管理有限公司 文本纠错方法、装置、计算机设备及存储介质
WO2022121178A1 (zh) * 2020-12-11 2022-06-16 平安科技(深圳)有限公司 文本纠错模型训练方法、识别方法、装置及计算机设备
CN114840499A (zh) * 2021-02-01 2022-08-02 腾讯科技(深圳)有限公司 一种表描述信息的生成方法、相关装置、设备及存储介质
CN113011149A (zh) * 2021-03-04 2021-06-22 中国科学院自动化研究所 一种文本纠错方法及系统
CN113011149B (zh) * 2021-03-04 2024-05-14 中国科学院自动化研究所 一种文本纠错方法及系统
WO2022227166A1 (zh) * 2021-04-26 2022-11-03 平安科技(深圳)有限公司 词语替换方法、装置、电子设备和存储介质
CN112966496B (zh) * 2021-05-19 2021-09-14 灯塔财经信息有限公司 一种基于拼音特征表征的中文纠错方法及系统
CN112966496A (zh) * 2021-05-19 2021-06-15 灯塔财经信息有限公司 一种基于拼音特征表征的中文纠错方法及系统
CN113591475A (zh) * 2021-08-03 2021-11-02 美的集团(上海)有限公司 无监督可解释分词的方法、装置和电子设备
CN113593574A (zh) * 2021-08-25 2021-11-02 广州虎牙科技有限公司 一种语音识别方法、计算机程序产品及电子设备
CN113593574B (zh) * 2021-08-25 2024-04-19 广州虎牙科技有限公司 一种语音识别方法、计算机程序产品及电子设备
CN113626564B (zh) * 2021-10-09 2021-12-17 腾讯科技(深圳)有限公司 一种概念标签生成方法、装置、电子设备和存储介质
CN113626564A (zh) * 2021-10-09 2021-11-09 腾讯科技(深圳)有限公司 一种概念标签生成方法、装置、电子设备和存储介质
CN114997147B (zh) * 2022-08-04 2022-11-04 深圳依时货拉拉科技有限公司 基于混合mask的poi地址纠错方法、装置、存储介质和设备
CN114997147A (zh) * 2022-08-04 2022-09-02 深圳依时货拉拉科技有限公司 基于混合mask的poi地址纠错方法、装置、存储介质和设备
CN115600583B (zh) * 2022-08-09 2023-04-18 中国搜索信息科技股份有限公司 一种字词多粒度混合的中文语言模型预训练方法
CN115600583A (zh) * 2022-08-09 2023-01-13 中国搜索信息科技股份有限公司(Cn) 一种字词多粒度混合的中文语言模型预训练方法
CN116452047A (zh) * 2023-04-12 2023-07-18 上海才历网络有限公司 一种候选人胜任能力测评方法及装置
CN116227484A (zh) * 2023-05-09 2023-06-06 腾讯科技(深圳)有限公司 模型训练方法、装置、设备、存储介质和计算机程序产品
CN116628171B (zh) * 2023-07-24 2023-10-20 北京惠每云科技有限公司 一种基于预训练语言模型的病历检索方法和系统
CN116628171A (zh) * 2023-07-24 2023-08-22 北京惠每云科技有限公司 一种基于预训练语言模型的病历检索方法和系统
CN117056522A (zh) * 2023-10-11 2023-11-14 青岛网信信息科技有限公司 一种互联网言论优化处理方法、介质及系统
CN117056522B (zh) * 2023-10-11 2024-03-15 青岛网信信息科技有限公司 一种互联网言论优化处理方法、介质及系统

Also Published As

Publication number Publication date
CN110196894B (zh) 2021-06-08

Similar Documents

Publication Publication Date Title
CN110196894A (zh) 语言模型的训练方法和预测方法
CN109871535B (zh) 一种基于深度神经网络的法语命名实体识别方法
CN110046350B (zh) 文法错误识别方法、装置、计算机设备及存储介质
CN109684648B (zh) 一种多特征融合的古今汉语自动翻译方法
CN109344413B (zh) 翻译处理方法、装置、计算机设备和计算机可读存储介质
EP0813156A2 (en) Method and apparatus for language translation
CN111401079A (zh) 神经网络机器翻译模型的训练方法、装置及存储介质
CN109670185A (zh) 基于人工智能的文本生成方法和装置
CN112599128A (zh) 一种语音识别方法、装置、设备和存储介质
CN111814479B (zh) 一种企业简称生成及其模型的训练方法及装置
CN112528649A (zh) 针对多语言混合文本的英文拼音识别方法和系统
EP4348603A1 (en) Application-specific optical character recognition customization
KR20230009564A (ko) 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치
CN115730585A (zh) 文本纠错及其模型训练方法、装置、存储介质及设备
CN109189882A (zh) 序列内容的回答类型识别方法、装置、服务器和存储介质
CN113469163B (zh) 一种基于智能纸笔的医疗信息记录方法和装置
Dilawari et al. Neural attention model for abstractive text summarization using linguistic feature space
CN115600597A (zh) 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质
CN109346060A (zh) 语音识别方法、装置、设备及存储介质
US11966700B2 (en) Neural tagger with deep multi-level model
CN111428509B (zh) 一种基于拉丁字母的维吾尔语处理方法和系统
CN114492418A (zh) 文本转换方法及相关装置
CN114972907A (zh) 基于强化学习和对比学习的图像语义理解及文本生成
Lv et al. StyleBERT: Chinese pretraining by font style information
Duan et al. Pinyin as a feature of neural machine translation for Chinese speech recognition error correction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant