CN109783648B

CN109783648B - 一种利用asr识别结果改进asr语言模型的方法

Info

Publication number: CN109783648B
Application number: CN201811628828.6A
Authority: CN
Inventors: 杨程远; 陈孝良; 冯大航; 苏少炜; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2020-12-29
Anticipated expiration: 2038-12-28
Also published as: CN109783648A

Abstract

本公开提供了一种利用ASR识别结果改进ASR语言模型的方法，包括：建立一个基础的N‑Gram模型；对线上数据ASR识别结果的文本进行分词；分词后在所述N‑Gram模型中依次查找文本中每一个N元词组，并计算文本中每一个N元词组出现的概率，计算完所有的N元词组的概率之后求均值，获得所述文本的成句概率；使用确定成句概率的阈值对线上数据ASR识别结果进行筛选，若被筛选的文本的成句概率大于所述阈值，则将筛选后的文本数据用于ASR语言模型训练。本公开基于N‑Gram模型对ASR识别结果的文本成句概率进行筛选，经过筛选后的ASR识别结果准确性有大幅度提高，可以满足相关性高、准确性高的要求。

Description

一种利用ASR识别结果改进ASR语言模型的方法

技术领域

本公开涉及自动语音识别(Automatic Speech Recognition，简称ASR)领域，尤其涉及一种利用ASR识别结果改进ASR语言模型的方法。

背景技术

随着信息和通信技术的发展，智能设备已经在日常生活中被广泛应用。智能音箱等智能设备可使用通过麦克风采集到的音频信号来提供服务，例如智能语音设备作为家庭场景中有效的人工智能交互入口。

自动语音识别系统由声学模型、语言模型、解码器三大部分构成。其中声学模型是由大量已经标注文本的音频的提特征之后通过DNN等方法训练得到的，大量领域相关、标注准确的音频是声学模型优化的主要途径；目前主流的语言模型是基于N元文法模型(N-Gram)训练得到的，大量领域相关的、内容丰富、准确的文本内容对于优化语言模型有非常重要的作用；

对于智能音箱领域，主要涉及知识问答、天气查询、音视频点播等方面，传统方法采用从问答类网站抓取大量数据，从而提高内容覆盖度。但该方式并非真实的用户提问，内容相关性略低。

发明内容

(一)要解决的技术问题

本公开提供了一种利用ASR识别结果改进ASR语言模型的方法，以至少部分解决以上所提出的技术问题。

(二)技术方案

根据本公开的一个方面，提供了一种利用ASR识别结果改进ASR语言模型的方法，包括：

建立一个基础的N-Gram模型；

对线上数据ASR识别结果的文本进行分词；

分词后在所述N-Gram模型中依次查找文本中每一个N元词组，并计算文本中每一个N元词组出现的概率，计算完所有的N元词组的概率之后求均值，获得所述文本的成句概率；

使用确定成句概率的阈值对线上数据ASR识别结果进行筛选，若被筛选的文本的成句概率大于所述阈值，则将筛选后的文本数据用于ASR语言模型训练。

在一些实施例中，所述对线上数据ASR识别结果的文本进行分词包括：

采用神经网络模型进行分词，通过使用神经网络训练而得的分词词典，以前后双向匹配取最少量分词结果的方式进行分词。

在一些实施例中，所述基础N-gram模型中包括已经计算好的所有已经出现过的词组的共现概率，数据稀疏情况下的回退概率，以及文本分词后的词频的概率统计。

在一些实施例中，分完词之后在基础N-gram模型中依次查找文本中每一个N元词组时，如果找不到N元词组，则回退查找N-1元词组。

在一些实施例中，所述计算文本中每一个N元词组出现的概率包括：

获取N元词组和/或N-1元词组的成句概率，若获取的为N-1元词组的成句概率，则对该文本的成句概率乘以折扣系数。

在一些实施例中，所述折扣系数取值为0.7～0.8。

在一些实施例中，计算完文本中所有的N元词组的概率之后求均值包括：

对于具有n个N元词组的文本，n＝1，2，3...，所述成句概率为：

P＝(P1+P2+…+Pn)/n；

其中，P1为文本语句中第一个三元词组的成句概率；P2为文本语句中第二个三元词组的成句概率，……，Pn为文本语句中第n个三元词组的成句概率。

在一些实施例中，所述N-gram模型为三元文法模型。

在一些实施例中，使用确定成句概率的阈值对线上数据进行筛选时，所述阈值使得筛选后的数据的字准确率能够满足预定要求。

在一些实施例中，所述的方法还包括：

对线上数据ASR识别结果进行筛选之前，将文本中的高频语句进行删减，并去除单字。

(三)有益效果

从上述技术方案可以看出，本公开利用ASR识别结果改进ASR语言模型的方法至少具有以下有益效果其中之一：

基于N-Gram模型对ASR识别结果的文本成句概率进行筛选，经过筛选后的ASR识别结果准确性有大幅度提高，可以满足相关性高、准确性高的要求。

附图说明

图1为本公开实施例利用ASR识别结果改进ASR语言模型的方法的流程图。

具体实施方式

本公开提供了一种利用ASR识别结果改进ASR语言模型的方法。由于智能音箱的线上用户数据数以百万、千万计，而线上数据是非常有价值的，其中，线上数据主要包括：用户真实的跟智能音箱对话的声音(音频)、ASR系统识别出来的文本内容(音频对应的识别文本)。真实的用户数据更具有相关性，获取大量的准确性高、相关性高的文本内容。利用用户线上数据作为增量语料，对ASR语言模型进行训练改进，能够有效提高准确率及提高内容覆盖度。但是由于线性获取的用户数据中会有一部分是错误的识别结果，因此本公开进一步通过对数据的筛选实现了对ASR语言模型的优化。

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

本公开某些实施例于后方将参照所附附图做更全面性地描述，其中一些但并非全部的实施例将被示出。实际上，本公开的各种实施例可以由许多不同形式实现，而不应被解释为限于此处所阐述的实施例；相对地，提供这些实施例使得本公开满足适用的法律要求。

在本公开的一个示例性实施例中，提供了一种利用ASR识别结果改进ASR语言模型的方法。图1为本公开实施例利用ASR识别结果改进ASR语言模型的方法的流程图。如图1所示，本公开利用ASR识别结果改进ASR语言模型的方法包括：

S1，建立一个基础的N-Gram模型；

S2，对线上数据ASR识别结果的文本进行分词；

S3，分词后在基础的N-Gram模型中依次查找文本中每一个N元词组，并计算文本中每一个N元词组出现的概率，计算完所有的N元词组的概率之后求均值，获得所述文本的成句概率；

S4，使用确定成句概率的阈值对线上数据ASR识别结果进行筛选，若被筛选的文本的成句概率大于所述阈值，则将筛选后的文本数据用于ASR语言模型训练。

所述步骤S1中，N-Gram模型即N元文法模型。所述N-Gram模型是大词汇连续语音识别中常用的一种统计语言模型，利用上下文中相邻词间的搭配信息，统计词频，计算出具有最大概率的句子，或者进行文本拼写检查。在拼写检查的应用中，N-Gram模型由于存在数据的稀疏性，需要加上平滑算法才能表现出良好的效果。平滑技术(smoothing)通过提高低概率或零概率，降低高概率，使统计语言模型可求，从而解决零概率问题，一般地，可以采用回退(backoff)和插值(interpolate)两种方法来实现平滑。

最初建立基础的N-Gram模型时可以以大量语料进行模型训练，提高覆盖度和普遍性。通过开源工具包Srilm和IRSTLM以C++作为开发语言，建立N-Gram模型速度表现也较好。

所述步骤S2中，采用深度神经网络模型进行分词，通过使用神经网络训练而得的分词词典，以前后双向匹配取最少量分词结果的方式进行分词。例如：我是中国人；前向分词结果：我|是|中国|人；后向结果是：我是|中国人；那么会选择后向结果。

所述步骤S3中，在分词后，在基础的N-Gram模型中依次查找文本中每一个N元词组出现的概率。具体地，所述N-Gram模型基于马尔科夫假设：第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。再通过所有的N元词组的概率求均值，获得所述文本的成句概率。优选地，基于N元语法的统计语言模型最常采用三元语法或二元语法。

所述步骤S4中，根据设定的阈值，对线上数据ASR识别结果的文本进行筛选，即可完成文本的筛选，筛选后的文本作为增量语料对ASR语言模型进行训练改进，可以有效提高识别文本字准确率。

以下结合具体实施例对本公开用ASR识别结果改进ASR语言模型的方法的各个步骤进行详细说明。

所述步骤S1中，首先要建立一个基础的N-Gram模型，N-Gram模型可以计算一串词语的成句概率，举例来说就是：“我爱美丽的花朵”肯定要比“我爱光明的花朵”更像是一句合理的话，所谓的合理就是“我爱美丽的花朵”这三个词的成句概率更高；或者说“随波逐流”要比“逐流随波”更加常见，所谓常见就是在一个大量文本的数据集(比如1千万个某论坛的网页数据)中“随波逐流”要比“逐流随波”出现的次数多。

具体地，所述N-Gram模型是基于统计的模型，其中有大量文本分词后的词频的概率统计，以及词语和词语同时出现的概率统计，还有对数据稀疏问题做平滑的回退概率，可以表征文本的上下文关系。本实施例中，使用三元文法模型，就是最多统计一个词前面两个词的概率，即某三个词出现的概率Pi(i＝1，2，3...)。

所述步骤S2中，在拿到一段音频的识别文本后，比如是“给我播放一首刘若英的后来”，会首先将这段话分词，比如分完词之后是：<s>给我|播放|一首|刘若英|的|后来</s>；其中<s>和</s>分别是一段话的开头和结尾标识。分完词之后会在基础三元模型中依次查找文本中每一个三元词组，在此可以认为是对分词的结果进行了有顺序的排列组合，例如上述文本中存在的三元词组包括：给我|播放|一首、给我|播放|刘若英、给我|播放|后来、播放|一首|刘若英|、刘若英|的|后来等等。

所述步骤S3中，根据基础N-Gram模型判断文本成句概率。本实施例中采用基础三元模型，查找分词之后在基础三元模型中每一个三元词组出现的概率Pi(i＝1，2，3...)；在此，需要要求基础Ngram模型尽可能要全面丰富、内容相关，所述基础N-gram模型中包括已经计算好的所有已经出现过的词组的共现概率，以及数据稀疏情况下的回退概率。如果找不到三元就回退到二元，获取二元组的出现概率Pi’(i＝1，2，3...)，同时需要对该文本的成句概率乘以折扣系数Q，即成句概率为Pi’*Q。优选地，采用的折扣系数为0.7～0.8，在该范围里对文本成句概率结果影响不大。

计算完文本中所有的三元词组的概率之后求均值，就是该文本语句的成句概率；对于具有n个三元词组的文本，所述成句概率可以表示为：

P＝(P1+P2+...+Pn)/n；

其中，P1为文本语句中第一个三元词组的成句概率；P2为文本语句中第二个三元词组的成句概率，......，Pn为文本语句中第n个三元词组的成句概率。

所述步骤S4中，使用确定成句概率的阈值对线上数据进行筛选，其中，所述阈值使得筛选后的数据的字准确率能够满足使用要求。

所述阈值可以预先确定，本实施例中，通过使用4万条已经标注的小样本集合做测试，找到一个成句概率的阈值，使得筛选后的数据的字准确率能够满足使用要求。通过使用该阈值对数以百万计的线上数据做筛选，将筛选后的文本数据用于ASR语言模型训练。优选地，筛选之前会把高频句子进行删减，并会去除单字。

将筛选后的两百万条相关文本用于语言模型训练，对包含4万条音频的ASR测试集进行测试，准确率提高3％左右。

至此，已经结合附图对本公开实施例进行了详细描述。需要说明的是，在附图或说明书正文中，未绘示或描述的实现方式，均为所属技术领域中普通技术人员所知的形式，并未进行详细说明。此外，上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式，本领域普通技术人员可对其进行简单地更改或替换。

此外，除非特别描述或必须依序发生的步骤，上述步骤的顺序并无限制于以上所列，且可根据所需设计而变化或重新安排。并且上述实施例可基于设计及可靠度的考虑，彼此混合搭配使用或与其他实施例混合搭配使用，即不同实施例中的技术特征可以自由组合形成更多的实施例。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本公开也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本公开的内容，并且上面对特定语言所做的描述是为了披露本公开的最佳实施方式。

本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。本公开的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开实施例的相关设备中的一些或者全部部件的一些或者全部功能。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。并且，在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。

类似地，应当理解，为了精简本公开并帮助理解各个公开方面中的一个或多个，在上面对本公开的示例性实施例的描述中，本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，公开方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本公开的单独实施例。

以上所述的具体实施例，对本公开的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本公开的具体实施例而已，并不用于限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种利用ASR识别结果改进ASR语言模型的方法，包括：

建立一个基础的N-Gram模型；

通过语料对所述N-Gram模型进行模型训练，作为ASR语言模型；

对线上数据ASR识别结果的文本进行分词；

使用确定成句概率的阈值对线上数据ASR识别结果进行筛选，若被筛选的文本的成句概率大于所述阈值，则将筛选后的文本数据用于对所述ASR语言模型进行训练改进。

2.根据权利要求1所述的方法，所述对线上数据ASR识别结果的文本进行分词包括：

3.根据权利要求1所述的方法，其中，所述基础N-Gram模型中包括已经计算好的所有已经出现过的词组的共现概率，数据稀疏情况下的回退概率，以及文本分词后的词频的概率统计。

4.根据权利要求1所述的方法，其中，分完词之后在基础N-Gram模型中依次查找文本中每一个N元词组时，如果找不到N元词组，则回退查找N-1元词组。

5.根据权利要求4所述的方法，所述计算文本中每一个N元词组出现的概率包括：

6.根据权利要求5所述的方法，所述折扣系数取值为0.7～0.8。

7.根据权利要求1所述的方法，计算完文本中所有的N元词组的概率之后求均值包括：

对于具有n个N元词组的文本，n＝1,2,3…，所述成句概率为：

P＝(P1+P2+…+Pn)/n；

8.根据权利要求1所述的方法，所述N-Gram模型为三元文法模型。

9.根据权利要求1所述的方法，使用确定成句概率的阈值对线上数据进行筛选时，所述阈值使得筛选后的数据的字准确率能够满足预定要求。

10.根据权利要求1所述的方法，还包括：