CN107204184A

CN107204184A - 语音识别方法及系统

Info

Publication number: CN107204184A
Application number: CN201710327374.8A
Authority: CN
Inventors: 王健宗; 程宁; 查高密; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2017-05-10
Filing date: 2017-05-10
Publication date: 2017-09-26
Anticipated expiration: 2037-05-10
Also published as: TWI636452B; CN107204184B; WO2018205389A1; TW201901661A

Abstract

本发明公开了一种语音识别方法及系统，该方法包括：从预先确定的数据源获取特定类型的信息文本；对获取的各个信息文本进行语句切分得到若干语句，对各个语句进行分词处理得到对应的分词，由各个语句与对应的分词构成第一映射语料；根据得到的各个第一映射语料，训练预设类型的第一语言模型，并基于训练的所述第一语言模型进行语音识别。本发明有效提高语音识别的精度且有效降低语音识别的成本。

Description

语音识别方法及系统

技术领域

本发明涉及计算机技术领域，尤其涉及一种语音识别方法及系统。

背景技术

语言模型在语音识别任务中扮演着重要的角色，在现有的语音识别中，一般利用标注过的对话文本建立语言模型，通过该语言模型确定每个字的概率。然而，现有技术中利用标注过的对话文本建立语言模型的方式，由于目前用户在日常生活中需要用到语音识别技术的场景过少(例如，比较常见的场景是语音搜索、语音控制等领域)，且能够收集的语料类型和范围过于集中，使得这种方式存在以下两个缺点：一个是购买价格昂贵、成本很高；另一个是很难获取到足够数量的语料，获取标注过的对话文本比较困难，而且升级扩容的及时性、准确性难以保障，进而影响语言模型的训练效果和识别精度，从而影响语音识别的准确性。

因此，如何利用现有的语料资源有效提高语音识别的精度且有效降低语音识别的成本已经成为一个亟待解决的技术问题。

发明内容

本发明的主要目的在于提供一种语音识别方法及系统，旨在有效提高语音识别的精度且有效降低语音识别的成本。

为实现上述目的，本发明提供的一种语音识别方法，所述方法包括以下步骤：

A、从预先确定的数据源获取特定类型的信息文本；

B、对获取的各个信息文本进行语句切分得到若干语句，对各个语句进行分词处理得到对应的分词，由各个语句与对应的分词构成第一映射语料；

C、根据得到的各个第一映射语料，训练预设类型的第一语言模型，并基于训练的所述第一语言模型进行语音识别。

优选地，所述步骤C替换为：

根据得到的各个第一映射语料，训练预设类型的第一语言模型；

根据各个预先确定的样本语句与对应的分词的第二映射语料，训练预设类型的第二语言模型；

根据预先确定的模型混合公式，将训练的所述第一语言模型及第二语言模型进行混合，以获得混合语言模型，并基于获得的所述混合语言模型进行语音识别。

优选地，所述预先确定的模型混合公式为：

M＝a*M1+b*M2

其中，M为混合语言模型，M1代表预设类型的第一语言模型，a代表预设的模型M1的权重系数，M2代表预设类型的第二语言模型，b代表预设的模型M2的权重系数。

优选地，所述预设类型的第一语言模型及/或第二语言模型为n-gram语言模型，所述预设类型的第一语言模型或第二语言模型的训练过程如下：

S1、将各个第一映射语料或者各个第二映射语料分为第一比例的训练集和第二比例的验证集；

S2、利用所述训练集训练所述第一语言模型或者第二语言模型；

S3、利用所述验证集验证训练的第一语言模型或者第二语言模型的准确率，若准确率大于或者等于预设准确率，则训练结束，或者，若准确率小于预设准确率，则增加第一映射语料或者第二映射语料的数量并重新执行步骤S1、S2、S3。

优选地，所述对各个切分的语句进行分词处理的步骤包括：

在一个切分的语句被选择进行分词处理时，根据正向最大匹配法将该切分的语句与预先确定的字词典库进行匹配，得到第一匹配结果，所述第一匹配结果中包含有第一数量的第一词组和第三数量的单字；

根据逆向最大匹配法将该切分的语句与预先确定的字词典库进行匹配，得到第二匹配结果，所述第二匹配结果中包含有第二数量的第二词组和第四数量的单字；

若所述第一数量与所述第二数量相等，且所述第三数量小于或者等于所述第四数量，则将所述第一匹配结果作为该切分的语句的分词结果；

若所述第一数量与所述第二数量相等，且所述第三数量大于所述第四数量，则将所述第二匹配结果作为该切分的语句的分词结果；

若所述第一数量与所述第二数量不相等，且所述第一数量大于所述第二数量，则将所述第二匹配结果作为该切分的语句的分词结果；

若所述第一数量与所述第二数量不相等，且所述第一数量小于所述第二数量，则将所述第一匹配结果作为该切分的语句的分词结果。

此外，为实现上述目的，本发明还提供一种语音识别系统，所述语音识别系统包括：

获取模块，用于从预先确定的数据源获取特定类型的信息文本；

分词模块，用于对获取的各个信息文本进行语句切分得到若干语句，对各个语句进行分词处理得到对应的分词，由各个语句与对应的分词构成第一映射语料；

训练识别模块，用于根据得到的各个第一映射语料，训练预设类型的第一语言模型，并基于训练的所述第一语言模型进行语音识别。

优选地，所述训练识别模块还用于：

优选地，所述预先确定的模型混合公式为：

M＝a*M1+b*M2

优选地，所述分词模块还用于：

本发明提出的语音识别方法及系统，通过对从预先确定的数据源获取的特定类型的信息文本进行语句切分，并对各个切分的语句进行分词处理，得到各个切分的语句与对应的分词的第一映射语料，根据该第一映射语料训练预设类型的第一语言模型，并基于训练的所述第一语言模型进行语音识别。由于可通过对从预先确定的多个数据源中获取的信息文本进行语句切分及相应的分词处理来得到语料资源，并基于该语料资源训练语言模型，无需获取标注过的对话文本，且能获取到足够数量的语料资源，能保证语言模型的训练效果和识别精度，从而有效提高语音识别的精度且有效降低语音识别的成本。

附图说明

图1为本发明语音识别方法第一实施例的流程示意图；

图2为本发明语音识别方法第二实施例的流程示意图；

图3为本发明语音识别系统10较佳实施例的运行环境示意图；

图4为本发明语音识别系统一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种语音识别方法。

参照图1，图1为本发明语音识别方法第一实施例的流程示意图。

在第一实施例中，该语音识别方法包括：

步骤S10，从预先确定的数据源获取特定类型的信息文本。

本实施例中，在训练语言模型之前，实时或者定时从预先确定的多个数据源(例如，新浪微博、百度百科、维基百科、新浪新闻等网站)获取特定类型的信息文本(例如，词条及其解释、新闻标题、新闻摘要、微博内容等等)。例如，可通过网络爬虫等工具实时或者定时从预先确定的数据源(例如，各大新闻网站、论坛等)获取特定类型的信息(例如，新闻标题信息、索引信息、简介信息等)。

步骤S20，对获取的各个信息文本进行语句切分得到若干语句，对各个语句进行分词处理得到对应的分词，由各个语句与对应的分词构成第一映射语料。

从预先确定的多个数据源中获取到特定类型的各个信息文本后，可对获取的各个信息文本进行语句切分，例如可根据标点符号将各个信息文本切分成一条条完整的语句。然后，对各个切分的语句进行分词处理，例如，可利用字符串匹配的分词方法对各个切分的语句进行分词处理，如正向最大匹配法，把一个切分的语句中的字符串从左至右来分词；或者，反向最大匹配法，把一个切分的语句中的字符串从右至左来分词；或者，最短路径分词法，一个切分的语句中的字符串里面要求切出的词数是最少的；或者，双向最大匹配法，正反向同时进行分词匹配。还可利用词义分词法对各个切分的语句进行分词处理，词义分词法是一种机器语音判断的分词方法，利用句法信息和语义信息来处理歧义现象来分词。还可利用统计分词法对各个切分的语句进行分词处理，从当前用户的历史搜索记录或大众用户的历史搜索记录中，根据词组的统计，会统计有些两个相邻的字出现的频率较多，则可将这两个相邻的字作为词组来进行分词。

对获取的各个切分的语句完成分词处理后，即可得到各个切分的语句与对应的分词所组成的第一映射语料。通过从预先确定的多个数据源中获取信息文本，并对信息文本切分生成大量的语句来进行分词处理，可从多个数据源中获取到语料类型丰富、范围较广以及数量较多的语料资源。

步骤S30，根据得到的各个第一映射语料，训练预设类型的第一语言模型，并基于训练的所述第一语言模型进行语音识别。

基于所述第一映射语料，训练预设类型的第一语言模型，该第一语言模型可以是生成性模型、分析性模型、辨识性模型等。由于第一映射语料是从多个数据源中获取到的，其语料资源的语料类型丰富、范围较广且数量较多，因此，利用该第一映射语料来训练第一语言模型的训练效果较好，进而使得基于训练的所述第一语言模型进行语音识别的识别精度较高。

本实施例通过对从预先确定的数据源获取的特定类型的信息文本进行语句切分，并对各个切分的语句进行分词处理，得到各个切分的语句与对应的分词的第一映射语料，根据该第一映射语料训练预设类型的第一语言模型，并基于训练的所述第一语言模型进行语音识别。由于可通过对从预先确定的多个数据源中获取的信息文本进行语句切分及相应的分词处理来得到语料资源，并基于该语料资源训练语言模型，无需获取标注过的对话文本，且能获取到足够数量的语料资源，能保证语言模型的训练效果和识别精度，从而有效提高语音识别的精度且有效降低语音识别的成本。

进一步地，在其他实施例中，上述步骤S20可以包括：

对获取的各个信息文本进行清洗去噪。例如，针对微博内容，所述清洗去噪的步骤包括：从微博内容中删除用户名、id等信息，只保留微博的实际内容；删除掉转发的微博内容，一般获取的微博内容中有大量转发的微博内容，重复的转发微博内容会影响到词语的频次，因此须将转发的微博内容过滤掉，过滤方法为删除掉所有包含“转发”或包含“http”的微博内容；过滤掉微博内容中的特殊符号，将微博内容中预设类型的符号全部过滤掉；繁体转简体，微博内容中有大量的繁体字符，利用预先确定的简繁对应表将所有繁体字符转变为简体字符，等等。

对清洗去噪后的各个信息文本进行语句切分，例如，将两个预设类型的断句符“例如，逗号、句号、感叹号等”之间的语句作为一个待切分的语句，并对各个切分的语句进行分词处理，以得到各个切分的语句与对应的分词(包括词组和单字)的映射语料。

如图2所示，本发明第二实施例提出一种语音识别方法，在上述实施例的基础上，上述步骤S30替换为：

步骤S40，根据得到的各个第一映射语料，训练预设类型的第一语言模型。

步骤S50，根据各个预先确定的样本语句与对应的分词的第二映射语料，训练预设类型的第二语言模型。例如，可预先确定若干样本语句，如可从预先确定的数据源中找出若干出现频率最高或最常用的样本语句，并确定每一样本语句对应的正确的分词(包括词组和单字)，以根据各个预先确定的样本语句与对应的分词的第二映射语料，训练预设类型的第二语言模型。

步骤S60，根据预先确定的模型混合公式，将训练的所述第一语言模型及第二语言模型进行混合，以获得混合语言模型，并基于获得的所述混合语言模型进行语音识别。所述预先确定的模型混合公式可以为：

M＝a*M1+b*M2

本实施例中，在根据从多个数据源中获取到的第一映射语料训练得到第一语言模型的基础上，还根据各个预先确定的样本语句与对应的分词的第二映射语料，训练得到第二语言模型，例如该预先确定的样本语句可以为预设的最常用且正确无误的若干语句，因此，训练得到的该第二语言模型能正确识别常用的语音。将训练的所述第一语言模型及第二语言模型按预设的不同权重比例进行混合得到混合语言模型，并基于获得的所述混合语言模型进行语音识别，既能保证语音识别的类型丰富、范围较广，又能保证正确识别常用的语音，进一步地提高语音识别的精度。

进一步地，在其他实施例中，所述预设类型的第一语言模型或第二语言模型的训练过程如下：

A、将各个第一映射语料或者各个第二映射语料分为第一比例(例如，70％)的训练集和第二比例(例如，30％)的验证集；

B、利用所述训练集训练所述第一语言模型或者第二语言模型；

C、利用所述验证集验证训练的第一语言模型或者第二语言模型的准确率，若准确率大于或者等于预设准确率，则训练结束，或者，若准确率小于预设准确率，则增加第一映射语料或者第二映射语料的数量并重新执行步骤A、B、C，直至训练的所述第一语言模型或者第二语言模型的准确率大于或者等于预设准确率。

进一步地，在其他实施例中，所述预设类型的第一语言模型及/或第二语言模型为n-gram语言模型。n-gram语言模型是大词汇连续语音识别中常用的一种语言模型，对中文而言，称之为汉语语言模型(CLM,Chinese LanguageModel)。汉语语言模型利用上下文中相邻词间的搭配信息，在需要把连续无空格的拼音、笔划，或代表字母或笔划的数字，转换成汉字串(即句子)时，可以计算出具有最大概率的句子，从而实现到汉字的自动转换，避开了许多汉字对应一个相同的拼音(或笔划串、数字串)的重码问题。n-gram是一种统计语言模型，用来根据前(n-1)个item来预测第n个item。在应用层面，这些item可以是音素(语音识别应用)、字符(输入法应用)、词(分词应用)或碱基对(基因信息)，可以从大规模文本或音频语料库生成n-gram模型。

n-gram语言模型基于这样一种假设，第n个词的出现只与前面n-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现的概率的乘积，这些概率可以通过直接从映射语料中统计n个词同时出现的次数得到。对于一个句子T，假设T是由词序列W1,W2,…,Wn组成的，那么句子T出现的概率P(T)＝P(W1W2…Wn)＝P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1)。本实施例中，为了解决出现概率为0的n-gram，在所述第一语言模型及/或第二语言模型的训练中，本实施例采用了最大似然估计方法，即：

P(Wn|W1W2…Wn-1)＝C(W1W2…Wn)/C(W1W2…Wn-1)

也就是说，在语言模型训练过程中，通过统计序列W1W2…Wn出现的次数和W1W2…Wn-1出现的次数，即可算出第n个词的出现概率，以判断出所对应字的概率，实现语音识别。

进一步地，在其他实施例中，上述步骤S20中对各个切分的语句进行分词处理的步骤可以包括：

根据正向最大匹配法将每一切分的语句中待处理的字符串与预先确定的字词典库(例如，该字词典库可以是通用字词典库，也可以是可扩容的学习型字词典库)进行匹配，得到第一匹配结果；

根据逆向最大匹配法将每一切分的语句中待处理的字符串与预先确定的字词典库(例如，该字词典库可以是通用字词典库，也可以是可扩容的学习型字词典库)进行匹配，得到第二匹配结果。其中，所述第一匹配结果中包含有第一数量的第一词组，所述第二匹配结果中包含有第二数量的第二词组；所述第一匹配结果中包含有第三数量的单字，所述第二匹配结果中包含有第四数量的单字。

若所述第一数量与所述第二数量相等，且所述第三数量小于或者等于所述第四数量，则输出该切分的语句对应的所述第一匹配结果(包括词组和单字)；

若所述第一数量与所述第二数量相等，且所述第三数量大于所述第四数量，则输出该切分的语句对应的所述第二匹配结果(包括词组和单字)；

若所述第一数量与所述第二数量不相等，且所述第一数量大于所述第二数量，则输出该切分的语句对应的所述第二匹配结果(包括词组和单字)；

若所述第一数量与所述第二数量不相等，且所述第一数量小于所述第二数量，则输出该切分的语句对应的所述第一匹配结果(包括词组和单字)。

本实施例中采用双向匹配法来对获取的各个切分的语句进行分词处理，通过正反向同时进行分词匹配来分析各个切分的语句待处理的字符串中前后组合内容的粘性，由于通常情况下词组能代表核心观点信息的概率更大，即通过词组更能表达出核心观点信息。因此，通过正反向同时进行分词匹配找出单字数量更少，词组数量更多的分词匹配结果，以作为切分的语句的分词结果，从而提高分词的准确性，进而保证语言模型的训练效果和识别精度。

本发明进一步提供一种语音识别系统。请参阅图3，是本发明语音识别系统10较佳实施例的运行环境示意图。

在本实施例中，所述的语音识别系统10安装并运行于电子装置1中。该电子装置1可包括，但不仅限于，存储器11、处理器12及显示器13。图3仅示出了具有组件11-13的电子装置1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述存储器11在一些实施例中可以是所述电子装置1的内部存储单元，例如该电子装置1的硬盘或内存。所述存储器11在另一些实施例中也可以是所述电子装置1的外部存储设备，例如所述电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器11还可以既包括所述电子装置1的内部存储单元也包括外部存储设备。所述存储器11用于存储安装于所述电子装置1的应用软件及各类数据，例如所述语音识别系统10的程序代码等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器12在一些实施例中可以是一中央处理器(Central ProcessingUnit,CPU)，微处理器或其他数据处理芯片，用于运行所述存储器11中存储的程序代码或处理数据，例如执行所述语音识别系统10等。

所述显示器13在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。所述显示器13用于显示在所述电子装置1中处理的信息以及用于显示可视化的用户界面，例如语音识别的菜单界面、语音识别的结果等。所述电子装置1的部件11-13通过系统总线相互通信。

请参阅图4，是本发明语音识别系统10较佳实施例的功能模块图。在本实施例中，所述的语音识别系统10可以被分割成一个或多个模块，所述一个或者多个模块被存储于所述存储器11中，并由一个或多个处理器(本实施例为所述处理器12)所执行，以完成本发明。例如，在图4中，所述的语音识别系统10可以被分割成获取模块01、分词模块02及训练识别模块03。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，比程序更适合于描述所述语音识别系统10在所述电子装置1中的执行过程。以下描述将具体介绍所述获取模块01、分词模块02及训练识别模块03的功能。

获取模块01，用于从预先确定的数据源获取特定类型的信息文本。

分词模块02，用于对获取的各个信息文本进行语句切分得到若干语句，对各个语句进行分词处理得到对应的分词，由各个语句与对应的分词构成第一映射语料。

训练识别模块03，用于根据得到的各个第一映射语料，训练预设类型的第一语言模型，并基于训练的所述第一语言模型进行语音识别。

进一步地，在其他实施例中，上述分词模块02还用于：

进一步地，在其他实施例中，上述训练识别模块03还用于：

根据得到的各个第一映射语料，训练预设类型的第一语言模型。

根据各个预先确定的样本语句与对应的分词的第二映射语料，训练预设类型的第二语言模型。例如，可预先确定若干样本语句，如可从预先确定的数据源中找出若干出现频率最高或最常用的样本语句，并确定每一样本语句对应的正确的分词(包括词组和单字)，以根据各个预先确定的样本语句与对应的分词的第二映射语料，训练预设类型的第二语言模型。

根据预先确定的模型混合公式，将训练的所述第一语言模型及第二语言模型进行混合，以获得混合语言模型，并基于获得的所述混合语言模型进行语音识别。所述预先确定的模型混合公式可以为：

M＝a*M1+b*M2

P(Wn|W1W2…Wn-1)＝C(W1W2…Wn)/C(W1W2…Wn-1)

进一步地，在其他实施例中，上述分词模块02还用于：

本实施例中采用双向匹配法来对获取的各个切分的语句进行分词处理，通过正反向同时进行分词匹配来分析各个切分的语句待处理的字符串中前后组合内容的粘性，由于通常情况下词组能代表核心观点信息的概率更大，即通过词组更能表达出核心观点信息。因此，通过正反向同时进行分词匹配找出单字数量更少，词组数量更多的分词匹配结果，以作为切分的语句的分词结果，从而提高分词的准确性，进而保证语言模型的训练效果和识别精度

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件来实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上参照附图说明了本发明的优选实施例，并非因此局限本发明的权利范围。上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。另外，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本领域技术人员不脱离本发明的范围和实质，可以有多种变型方案实现本发明，比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡在运用本发明的技术构思之内所作的任何修改、等同替换和改进，均应在本发明的权利范围之内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括以下步骤：

A、从预先确定的数据源获取特定类型的信息文本；

2.如权利要求1所述的语音识别方法，其特征在于，所述步骤C替换为：

3.如权利要求2所述的语音识别方法，其特征在于，所述预先确定的模型混合公式为：

M＝a*M1+b*M2

4.如权利要求2或3所述的语音识别方法，其特征在于，所述预设类型的第一语言模型及/或第二语言模型为n-gram语言模型，所述预设类型的第一语言模型或第二语言模型的训练过程如下：

5.如权利要求1、2或3所述的语音识别方法，其特征在于，所述对各个切分的语句进行分词处理的步骤包括：

6.一种语音识别系统，其特征在于，所述语音识别系统包括：

7.如权利要求6所述的语音识别系统，其特征在于，所述训练识别模块还用于：

8.如权利要求7所述的语音识别系统，其特征在于，所述预先确定的模型混合公式为：

M＝a*M1+b*M2

9.如权利要求7或8所述的语音识别系统，其特征在于，所述预设类型的第一语言模型及/或第二语言模型为n-gram语言模型，所述预设类型的第一语言模型或第二语言模型的训练过程如下：

10.如权利要求6、7或8所述的语音识别系统，其特征在于，所述分词模块还用于：