CN110390093A

CN110390093A - 一种语言模型建立方法及装置

Info

Publication number: CN110390093A
Application number: CN201810360452.9A
Authority: CN
Inventors: 张鹏
Original assignee: Putian Information Technology Co Ltd
Current assignee: Putian Information Technology Co Ltd
Priority date: 2018-04-20
Filing date: 2018-04-20
Publication date: 2019-10-29
Anticipated expiration: 2038-04-20
Also published as: CN110390093B

Abstract

本发明实施例提供一种语言模型建立方法及装置。所述方法包括获取语料库，语料库包括至少一个经过分词处理的句子；根据策略函数对所述语料库中的每个句子进行筛选，将满足预设筛选条件的句子组成分词词典；通过对分词词典中每个句子的分析得到语言模型；用语言模型对预先获取的声学模型进行解码以计算损失函数；若根据损失函数和预设的奖励函数得到的奖励值满足预设的优化条件，则判断所述语言模型建立完成，本发明实施例通过策略函数对获取的语料库进行筛选，然后将得到语言模型对声学模型进行解码得到CTC函数，再通过得到的奖励函数对策略函数进行优化改进，从而通过强化学习的方法快速得到需要的语言模型，且能够提高语音识别的准确率。

Description

一种语言模型建立方法及装置

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种语言模型建立方法及装置。

背景技术

语言模型是语音识别的重要组成部分，一个好的语言模型能够大大提升语音识别的准确度，如一个人说的“苹果”但语言模型里没有的话，模型是不能正常识别出该词汇的。如今流行的建立语言模型工具为Kenlm，它基于N-gram语言模型，采用C++编写。输入语料库为已经分好词的文本文件，输出为词的前后概率，即一个词出现在前后文情况下的概率。可以看出，若输入的分词文本文件越大，每个词在不同场景下出现的频次越高，语言模型的词典越大则最终获得的语言模型更好。

为了得到语言模型，需要好的分词技术，如今流行的分词技术框架都是基于人工标注的分词语料库，一般而言它的建立需经过以下几个步骤：1)网络收集的文本首先经过清洗、预处理等程序得到较为干净的文本文件。该文本文件需保证其领域适用性、词汇量等要求。2)该文件经过表现较好的分词软件进行分词，得到绝大部分词都已经分好的语料库。该分词软件通常使用如哈工大的分词器、结巴分词、斯坦福分词器等。3)由于分词软件得到的文本会带有一些错误尤其是领域不匹配或对方词典外的词。被错误分词的概率一般而言在5％左右。此时需要人手工从全文本中寻找并去修正这些错误。4)被修正后的文本会被再次的校对，检验其前后一致性等情况。

可以看出以上步骤非常依赖于人工并且非常耗时。与此同时由于需要多人参与，最终得到的词典依然面临着前后不一致、错误分词等情况，从而导致最终得到的语言模型不佳，语音识别准确率不高。

发明内容

本发明实施例提供一种语言模型建立方法及装置，用以解决现有技术中非常依赖于人工并且非常耗时。与此同时由于需要多人参与，最终得到的词典依然面临着前后不一致、错误分词等情况，从而导致最终得到的语言模型不佳，语音识别准确率不高。

第一方面，本发明实施例提供了一种语言模型的建立方法，包括：

获取语料库，所述语料库包括至少一个经过分词处理的句子；

根据策略函数对所述语料库中的每个句子进行筛选，将满足预设筛选条件的句子组成分词词典；

通过对所述分词词典中每个句子的分析得到语言模型；

用所述语言模型对预先获取的声学模型进行解码以计算损失函数；

若根据所述损失函数和预设的奖励函数得到的奖励值满足预设的优化条件，则判断所述语言模型建立完成。

第二方面，本发明实施例提供了一种语言模型的建立装置，包括：

获取模块，用于获取语料库，所述语料库包括至少一个经过分词处理的句子；

策略模块，用于根据策略函数对所述语料库中的每个句子进行筛选，将满足预设筛选条件的句子组成分词词典；

分析模块，用于通过对所述分词词典中每个句子的分析得到语言模型；

解码模块，用于用所述语言模型对预先获取的声学模型进行解码以计算损失函数；

奖励模块，用于若根据所述损失函数和预设的奖励函数得到的奖励值满足预设的优化条件，则判断所述语言模型建立完成。

第三方面，本发明实施例还提供了一种电子设备，包括：

处理器、存储器、通信接口和总线；其中，

所述处理器、存储器、通信接口通过所述总线完成相互间的通信；

所述通信接口用于该电子设备的通信设备之间的信息传输；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如下方法：

通过对所述分词词典中每个句子的分析得到语言模型；

第四方面，本发明实施例还提供了一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如下方法：

通过对所述分词词典中每个句子的分析得到语言模型；

本发明实施例提供的语言模型建立方法及装置，通过策略函数对获取的语料库进行筛选，然后将得到语言模型对声学模型进行解码得到CTC函数，再通过得到的奖励函数对策略函数进行优化改进，从而通过强化学习的方法快速得到需要的语言模型，且能够提高语音识别的准确率。

附图说明

图1为本发明实施例的语言模型的建立方法流程图；

图2为本发明实施例的另一语言模型的建立方法流程图；

图3为本发明实施例的语言模型的建立装置结构示意图；

图4为本发明实施例的电子设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例的语言模型的建立方法流程图，如图1所示，所述方法包括：

步骤S01、获取语料库，所述语料库包括至少一个经过分词处理的句子。

首先要尽可能得收集需要的材料，可以从网络上收集大量的文本，将这些文本经过清洗、预处理等程序得到较为干净的文本文件。然后再经过分词软件对文本文件中的每个句子都进行分词处理从而得到语料库。

步骤S02、根据策略函数对所述语料库中的每个句子进行筛选，将满足预设筛选条件的句子组成分词词典。

利用一个策略函数对所述语料库中的句子进行筛选，通过策略函数对每个句子的计算结果来决定是否将该句子选取并存入分词词典，也就是从语料库中去除那些经过策略函数计算后不满足筛选条件的句子，然后将语料库中剩下的句子组成分词词典。

步骤S03、通过对所述分词词典中每个句子的分析得到语言模型。

然后通过对所述分词词典中的每个句子的分词的分析可以得到每个分词出现在前后文件情况下的概率，将得到的概率与分词词典结合后就得到了具体的语言模型。

进一步地，所述通过对所述分词词典中每个句子的分析得到语言模型，具体为：

采用Kenlm工具对所述分词词典中的每个句子进行解析以得到所述语言模型。

可用于对所述分词词典进行分析的方法和工具有很多，但在此不作具体的限定，例如可以采用Kenlm工具，基于N-gram语言模型来具体实现。

步骤S04、用所述语言模型对预先获取的声学模型进行解码以计算损失函数。

根据得到的语言模型对已经预先获取的声学模型进行解码，通过解码来计算损失函数。

进一步地，所述损失函数为CTC损失函数。

对于损失函数的计算方法可以根据实际的需要来选择，例如可以使用本发明实施例的链结式时间分类算法(Connectionist temporal classification，CTC)来计算CTC损失函数。

步骤S05、若根据所述损失函数和预设的奖励函数得到的奖励值满足预设的优化条件，则判断所述语言模型建立完成。

根据得到的损失函数和奖励函数来计算得到奖励值，若该奖励值不满足预设的优化条件，则需要利用该奖励函数对策略函数中的各个参数进行修正。若该奖励值满足了预设的优化条件，则可认为此时的策略函数为最佳策略函数，且当前得到的语言模型满足语音识别的要求，即可以判定语言模型建立完成。

本发明实施例，通过策略函数对获取的语料库进行筛选，然后将得到语言模型对声学模型进行解码得到CTC函数，再通过得到的奖励函数对策略函数进行优化改进，从而通过强化学习的方法快速得到需要的语言模型，且能够提高语音识别的准确率。

图2为本发明实施例的另一语言模型的建立方法流程图，如图2所示，所述方法还包括：

步骤S06、若所述奖励值不满足预设的优化条件，则判断所述语言模型没有完成。

根据得到的损失函数和奖励函数来计算得到的奖励值若不满足预设的优化条件，则判断当前得到的语言模型无法满足语音识别的要求，需要进行做优化。

其中所述优化条件，根据奖励函数的不同而设置，可以预先设置一个目标奖励值和误差值，若由奖励函数得到的奖励值与目标奖励值进行比较，若得到的差值大于所述误差值，则判断当前的语言模型建立失败，需要对当前的策略函数进行改进。

以误差函数为CTC误差函数L(S)为例，所述奖励函数可以为CTC误差函数的相反数E[-L(S)]。

步骤S07、采用策略梯度算法根据所述奖励函数对所述策略函数进行修正以得到新的策略函数，以使所述新的策略函数对所述语料库中每个句子重新进行筛选。

对于策略函数的改进方法有很多，例如可以采用策略梯度算法，将奖励函数和策略函数分别代入到公式对应的部分，即可以通过对当前策略函数的参数的更新来得到新的策略函数。

然后用新的策略函数再次去对所述语料库中的每个句子进行筛选，通过对每个句子的计算来重新选取用来组成分词词典的句子。

再继续执行如上述实施例所述的过程，可以通过奖励函数来得到新的奖励值，如此通过不断得的迭代更新，最终可以得到期望的语言模型，而此时的策略函数为与当前语料库对应的最佳策略函数。

基于上述实施例，进一步地，所述步骤S02具体为：

根据策略函数计算所述语料库中的每个句子的选取概率；

根据预设的筛选概率，将所述选取概率大于所述筛选概率的句子存入所述分词词典。

策略是决定个体行为的机制,是从状态到行为的一个映射,可以是确定性的,也可以是不确定性的。本发明实施例对于每个句子的策略执行动作只有选或不选，因此可以采用二分类问题中常用的概率函数作策略函数，例如如下：

π_Θ(s,a)＝P_Θ(a|s)＝aσ(W*s+b)+(1-a)(1-σ(W*s+b))，

该公式给出了在当前句子s下，执行选取a的概率，其中W为策略函数中的权重，它可以由强化学习训练得到，b为偏置，一般设为固定值1。

通过以上公式，将预设的筛选概率与该策略函数得到的选取概率进行比对，就可以通过对所述语料库中的句子进行判断是否选取，即若选取概率大于所述筛选概率则对该句子进行选取操作，最终得到一系列的句子以组成所述分词词典。

图3为本发明实施例的语言模型的建立装置结构示意图，如图3所示，所述装置包括：获取模块10、策略模块11、分析模块12、解码模块13和奖励模块14，其中，

所述获取模块10用于获取语料库，所述语料库包括至少一个经过分词处理的句子；所述策略模块11用于根据策略函数对所述语料库中的每个句子进行筛选，将满足预设筛选条件的句子组成分词词典；所述分析模块12用于通过对所述分词词典中每个句子的分析得到语言模型；所述解码模块13用于用所述语言模型对预先获取的声学模型进行解码以计算损失函数；所述奖励模块14用于若根据所述损失函数和预设的奖励函数得到的奖励值满足预设的优化条件，则判断所述语言模型建立完成。

首先所述获取模块10要尽可能得收集需要的材料，可以从网络上收集大量的文本，将这些文本经过清洗、预处理等程序得到较为干净的文本文件。然后再经过分词软件对文本文件中的每个句子都进行分词处理从而得到语料库。所述获取模块10将得到的语料库发送给所述策略模块11。

所述策略模块11利用一个策略函数对所述语料库中的句子进行筛选，通过策略函数对每个句子的计算结果来决定是否将该句子选取并存入分词词典，也就是从语料库中去除那些经过策略函数计算后不满足筛选条件的句子，然后将语料库中剩下的句子组成分词词典。

然后所述分析模块12会对所述分词词典中的每个句子的分词进行分析以得到每个分词出现在前后文件情况下的概率，将得到的概率与分词词典结合后就得到了具体的语言模型。

可用于所述分析模块12对所述分词词典进行分析的方法和工具有很多，但在此不作具体的限定，例如可以采用Kenlm工具，基于N-gram语言模型来具体实现。

所述解码模块13根据得到的语言模型对已经预先获取的声学模型进行解码，通过解码来计算损失函数。

进一步地，所述损失函数为CTC损失函数。

所述奖励模块14根据得到的损失函数和预设的奖励函数来计算得到奖励值，若该奖励值不满足预设的优化条件，则所述策略模块11需要利用该奖励函数对策略函数中的各个参数进行修正。若该奖励值满足了预设的优化条件，则可认为此时的策略函数为最佳策略函数，且当前得到的语言模型满足语音识别的要求，即可以判定语言模型建立完成。

本发明实施例提供的装置用于执行上述方法，其功能具体参考上述方法实施例，其具体方法流程在此处不再赘述。

基于上述实施例，进一步地，所述奖励模块还用于，若所述奖励值不满足预设的优化条件，则判断所述语言模型没有完成；相应地，所述策略模块还用于，所述采用策略梯度算法根据所述奖励函数对所述策略函数进行修正以得到新的策略函数，以使所述新的策略函数对所述语料库中每个句子重新进行筛选。

所述奖励模块根据得到的损失函数和奖励函数来计算得到的奖励值若不满足预设的优化条件，则判断当前得到的语言模型无法满足语音识别的要求，需要进行做优化。

其中所述优化条件，根据奖励函数的不同而设置，可以预先设置一个目标奖励值和误差值，若由奖励函数得到的奖励值与目标奖励值进行比较，若得到的差值大于所述误差值，则判断当前的语言模型建立失败，需要所述策略模块对当前的策略函数进行改进。

所述策略模块对于策略函数的改进方法有很多，例如可以采用策略梯度算法，将奖励函数和策略函数分别代入到公式对应的部分，即可以通过对当前策略函数的参数的更新来得到新的策略函数。

然后所述策略模块用新的策略函数再次去对所述语料库中的每个句子进行筛选，通过对每个句子的计算来重新选取用来组成分词词典的句子。

再继续执行如上述实施例所述的过程，可以通过奖励模块来得到新的奖励值，如此通过不断得的迭代更新，最终可以得到期望的语言模型，而此时的策略函数为与当前语料库对应的最佳策略函数。

基于上述实施例，进一步地，所述策略模块具体用于，根据策略函数计算所述语料库中的每个句子的选取概率；根据预设的筛选概率，将所述选取概率大于所述筛选概率的句子存入所述分词词典

策略是决定个体行为的机制,是从状态到行为的一个映射,可以是确定性的,也可以是不确定性的。本发明实施例对于每个句子的策略执行动作只有选或不选，因此可以采用二分类问题中常用的概率函数作所述策略模块中的策略函数，例如如下：

π_Θ(s,a)＝P_Θ(a|s)＝aσ(W*s+b)+(1-a)(1-σ(W*s+b))，

图4为本发明实施例的电子设备结构示意图。如图4所示，所述电子设备，包括：处理器(processor)601、存储器(memory)602和总线603；

其中，所述处理器601和所述存储器602通过所述总线603完成相互间的通信；

所述处理器601用于调用所述存储器602中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：获取语料库，所述语料库包括至少一个经过分词处理的句子；根据策略函数对所述语料库中的每个句子进行筛选，将满足预设筛选条件的句子组成分词词典；通过对所述分词词典中每个句子的分析得到语言模型；用所述语言模型对预先获取的声学模型进行解码以计算损失函数；若根据所述损失函数和预设的奖励函数得到的奖励值满足预设的优化条件，则判断所述语言模型建立完成。

进一步地，本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：获取语料库，所述语料库包括至少一个经过分词处理的句子；根据策略函数对所述语料库中的每个句子进行筛选，将满足预设筛选条件的句子组成分词词典；通过对所述分词词典中每个句子的分析得到语言模型；用所述语言模型对预先获取的声学模型进行解码以计算损失函数；若根据所述损失函数和预设的奖励函数得到的奖励值满足预设的优化条件，则判断所述语言模型建立完成。

进一步地，本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：获取语料库，所述语料库包括至少一个经过分词处理的句子；根据策略函数对所述语料库中的每个句子进行筛选，将满足预设筛选条件的句子组成分词词典；通过对所述分词词典中每个句子的分析得到语言模型；用所述语言模型对预先获取的声学模型进行解码以计算损失函数；若根据所述损失函数和预设的奖励函数得到的奖励值满足预设的优化条件，则判断所述语言模型建立完成。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的电子设备等实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语言模型的建立方法，其特征在于，包括：

通过对所述分词词典中每个句子的分析得到语言模型；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若所述奖励值不满足预设的优化条件，则判断所述语言模型没有完成；

采用策略梯度算法根据所述奖励函数对所述策略函数进行修正以得到新的策略函数，以使所述新的策略函数对所述语料库中每个句子重新进行筛选。

3.根据权利要求1所述的方法，其特征在于，所述根据策略函数对所述语料库中的每个句子进行筛选，将满足预设筛选条件的句子组成分词词典，具体为：

根据策略函数计算所述语料库中的每个句子的选取概率；

4.根据权利要求1所述的方法，其特征在于，所述通过对所述分词词典中每个句子的分析得到语言模型，具体为：

5.根据权利要求1所述的方法，其特征在于，所述损失函数为CTC损失函数。

6.一种语言模型的建立装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述奖励模块还用于，若所述奖励值不满足预设的优化条件，则判断所述语言模型没有完成；相应地，所述策略模块还用于，所述采用策略梯度算法根据所述奖励函数对所述策略函数进行修正以得到新的策略函数，以使所述新的策略函数对所述语料库中每个句子重新进行筛选。

8.根据权利要求6所述的装置，其特征在于，所述策略模块具体用于，根据策略函数计算所述语料库中的每个句子的选取概率；根据预设的筛选概率，将所述选取概率大于所述筛选概率的句子存入所述分词词典。

9.一种电子设备，其特征在于，包括存储器和处理器，所述处理器和所述存储器通过总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至5任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至5任一所述的方法。