CN106328147B

CN106328147B - 语音识别方法和装置

Info

Publication number: CN106328147B
Application number: CN201610795918.9A
Authority: CN
Inventors: 高建清; 陈恩红; 王智国; 胡国平; 胡郁; 刘庆峰
Original assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Current assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Priority date: 2016-08-31
Filing date: 2016-08-31
Publication date: 2022-02-01
Anticipated expiration: 2036-08-31
Also published as: CN106328147A

Abstract

本发明公开一种语音识别方法和装置。所述方法包括：获取与待识别语音数据相关的基础资料；确定所述基础资料的关键词；依据所述关键词确定搜索项，通过所述搜索项搜索目标语料；通过所述目标语料训练目标主题语言模型，以所述目标主题语言模型识别所述待识别语音数据。应用本发明提供的技术方案，能够提高识别特定应用场景的语音数据的准确度，识别效果较好。

Description

语音识别方法和装置

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种语音识别方法和装置。

背景技术

语音识别是将语音转成文本的过程，近年来，随着语音识别技术的成熟，该技术已逐渐成功应用于各行各业中，尤其是针对特定领域的语音识别技术，如针对会议的录音数据进行语音识别，将接收的语音数据直接转换为会议的文本内容，大大方便了会议秘书整理会议纪要。

目前的技术中，一般直接采用通用的声学模型及通用语言模型对待识别语音数据进行语音识别，针对特定应用场景的语音数据进行语音识别时，由于经常会存在专业词汇、特定用法导致无法正确识别的问题，仅仅依靠通用语言模型往往无法满足应用需求，因此往往采用语言模型定制的方式，即预先获取用户提供的大量与该特定应用场景相关的语料后，训练相应的主题语言模型，利用该主题语言模型、通用的声学模型及通用语言模型进行语音识别。

然而，在实际应用中，往往仅知道少量应用场景信息，无法通过用户直接获取到足够数量的主题相关的语料以训练主题相关语言模型，导致语音识别的准确度比较低，识别效果较差，如待识别语音数据为会议录音时，往往仅知道会议相关的演示文稿，数据量较少，不足以训练相应的主题语言模型，导致语音识别效果较差。

发明内容

有鉴于此，本发明提供了一种语音识别方法和装置，能够提高识别特定应用场景的语音数据的准确度，识别效果较好。

为实现上述目的，本发明提供如下技术方案：

第一方面，本发明实施例提供了一种语音识别方法，包括：

获取与待识别语音数据相关的基础资料；

确定所述基础资料的关键词；

依据所述关键词确定搜索项，通过所述搜索项搜索目标语料；

通过所述目标语料训练目标主题语言模型，以所述目标主题语言模型识别所述待识别语音数据。

可选的，所述确定所述基础资料的关键词，包括：

以第一确定方式确定所述关键词，所述第一确定方式包括，依据预先训练得到的编码-解码模型计算所述基础资料中每个词作为所述关键词的概率，将所述概率大于第一预设阈值的词确定为所述关键词；

或者以第二确定方式确定所述关键词，所述第二确定方式包括，计算所述基础资料中每个词的词频和逆文档频率，将所述词频大于第二预设阈值且所述逆文档频率大于第三预设阈值的词确定所述关键词；

或者以第三确定方式确定所述关键词，所述第三确定方式包括，计算所述基础资料中每个词的TextRank得分，将所述TextRank得分大于第四预设阈值的词作为所述关键词；

或者所述第一确定方式、所述第二确定方式和所述第三确定方式中，以任意两种方式或三种方式相结合来确定候选关键词，将经过去重后的所述候选关键词作为所述关键词。

可选的，所述依据所述关键词确定搜索项，通过所述搜索项搜索目标语料，包括：

统计所述基础资料的每个句子中包含的所述关键词个数，将包含至少两个关键词的句子中的所有关键词作为一个关键词组，将不属于任一所述关键词组的所述关键词作为独立关键词；

依据所述关键词组和所述独立关键词确定所述搜索项，通过所述搜索项搜索所述目标语料。

可选的，还包括：

获取在识别所述待识别语音数据的过程中已经得到的识别结果，将所述识别结果补充到所述基础资料。

可选的，还包括：

依据所述基础资料和与系统预先存储的各目标领域语言模型的领域类别相匹配的领域判定模型，确定所述待识别语音数据属于每个所述领域类别的概率，按设定顺序排序，生成概率向量；

以所述概率向量作为可信度判定模型的输入，判断所述概率向量是否可信；

若所述概率向量可信，对于每个所述领域类别，判断所述待识别语音数据属于所述领域类别的概率是否超过与所述领域类别相对应的第五预设阈值；

若是，则以所述概率所对应的所述领域类别的目标领域语言模型识别所述待识别语音数据。

第二方面，本发明实施例提供了一种语音识别装置，包括：

获取模块，用于获取与待识别语音数据相关的基础资料；

第一确定模块，用于确定所述基础资料的关键词；

搜索模块，用于依据所述关键词确定搜索项，通过所述搜索项搜索目标语料；

第一识别模块，用于通过所述目标语料训练目标主题语言模型，以所述目标主题语言模型识别所述待识别语音数据。

可选的，所述第一确定模块包括：

第一确定单元，用于以第一确定方式确定所述关键词，所述第一确定方式包括，依据预先训练得到的编码-解码模型计算所述基础资料中每个词作为所述关键词的概率，将所述概率大于第一预设阈值的词确定为所述关键词；

第二确定单元，用于以第二确定方式确定所述关键词，所述第二确定方式包括，计算所述基础资料中每个词的词频和逆文档频率，将所述词频大于第二预设阈值且所述逆文档频率大于第三预设阈值的词确定所述关键词；

第三确定单元，用于以第三确定方式确定所述关键词，所述第三确定方式包括，计算所述基础资料中每个词的TextRank得分，将所述TextRank得分大于第四预设阈值的词作为所述关键词；

第四确定单元，用于所述第一确定方式、所述第二确定方式和所述第三确定方式中，以任意两种方式或三种方式相结合来确定候选关键词，将经过去重后的所述候选关键词作为所述关键词。

可选的，所述搜索模块包括：

统计单元，用于统计所述基础资料的每个句子中包含的所述关键词个数，将包含至少两个关键词的句子中的所有关键词作为一个关键词组，将不属于任一所述关键词组的所述关键词作为独立关键词；

搜索单元，用于依据所述关键词组和所述独立关键词确定所述搜索项，通过所述搜索项搜索所述目标语料。

可选的，还包括：

更新模块，用于获取在识别所述待识别语音数据的过程中已经得到的识别结果，将所述识别结果补充到所述基础资料。

可选的，还包括：

第二确定模块，用于依据所述基础资料和与系统预先存储的各目标领域语言模型的领域类别相匹配的领域判定模型，确定所述待识别语音数据属于每个所述领域类别的概率，按设定顺序排序，生成概率向量；

第一判断模块，用于以所述概率向量作为可信度判定模型的输入，判断所述概率向量是否可信，所述可信度判定模型与所述领域类别相匹配；

第二判断模块，用于若所述概率向量可信，对于每个所述领域类别，判断所述待识别语音数据属于所述领域类别的概率是否超过与所述领域类别相对应的第五预设阈值；

第二识别模块，用于若是，则以所述概率所对应的所述领域类别的目标领域语言模型识别所述待识别语音数据。

经由上述的技术方案可知，与现有技术相比，本发明提供了一种语音识别方法和装置。本发明提供的技术方案，在用户提供的与待识别语音数据的主题相关的语料不够充分，即这些语料仅仅是一些基础资料时，通过确定所述基础资料的关键词，然后依据所述关键词确定搜索项，通过所述搜索项搜索目标语料，从而有效扩充与待识别语音数据的主题相关的语料，能够较大程度上弥补用户提供的语料不足的缺陷，然后通过搜索到的所述目标语料来训练目标主题语言模型，从而得到与待识别语音数据的主题相匹配的目标主题语言模型，最后以所述目标主题语言模型识别所述待识别语音数据，相对于现有技术，能够有效提高语音识别的准确度。因此，应用本发明提供的技术方案，能够提高识别特定应用场景的语音数据的准确度，识别效果较好。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种语音识别方法的流程图；

图2为本发明实施例提供的Encoder-Decoder方法的示意图；

图3为本发明实施例提供的另外一种语音识别方法的流程图；

图4为本发明实施例提供的一种语音识别装置的结构图；

图5为本发明实施例提供的另外一种语音识别装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例

本发明实施例提供的语音识别方法，可以应用于计算机信息系统。请参阅图1，图1为本发明实施例提供的一种语音识别方法的流程图。如图1所示，该方法包括：

步骤S101，获取与待识别语音数据相关的基础资料；

具体的，所述与待识别语音数据相关的基础资料由用户预先提供，所述基础资料与所述待识别语音数据的内容相关性较高，可以包括与所述待识别语音数据相关的图片、文本数据等，如果所述基础资料为图片，则需要通过图像识别相关技术将图片转换为文本数据，也就是说，该步骤最终得到的是文本数据。其中，可选的，所述图像识别相关技术可以采用OCR(Optical Character Recognition，光学字符识别)技术。以所述待识别语音数据为会议录音为例，所述基础资料可以包含会议的演示文稿、演讲人信息、会议主题、主办方或用户根据会议需求自己添加的会议关键信息等。

步骤S102，确定所述基础资料的关键词；

具体的，经所述步骤S101，系统得到的所述基础资料都是文本数据，可以根据所述文本数据确定关键词，具体确定方法可以包括：

方法1：以第一确定方式确定所述关键词，所述第一确定方式包括，依据预先训练得到的编码-解码模型计算所述基础资料中每个词作为所述关键词的概率，将所述概率大于第一预设阈值的词确定为所述关键词；

具体的，计算所述基础资料中每个词作为关键词的概率时，可以使用基于神经网络的Encoder(编码)-Decoder(解码)方法。具体的，通过预先收集大量文本数据训练Encoder-Decoder模型参数后，利用所述Encoder-Decoder模型确定待识别语音数据的基础资料中每个词作为关键词的概率，将所述概率大于第一预设阈值的词确定为关键词。

请参阅图2，如图2为本发明实施例提供的Encoder-Decoder方法的示意图，输入为所述基础资料中每个词的词向量，经过Encoder层对输入特征(即所述词向量)进行编码，将编码后的特征作为Decoder层的输入，Decoder层对编码后的特征进行解码，将解码后的特征作为输出层的输入，输出层为每个词作为关键词的概率，具体过程如下所述:

输入层(Input)：输入基础资料中每个词的词向量，所述词向量可以使用基于神经网络的方法训练得到，或使用Word2Vec(文本深度表示模型)的方法得到，如图2所示，输入层每个圆圈代表一个词向量，受图形大小限制，输入层仅以3个句子(sent1、sent2、sent3)做示例，每句包含3个词向量，第一个句子sent1中第一个节点表示开始节点，无实际意义。

词编码层(Word Enc)：对输入层输入的词向量进行编码，具体的，可以使用单向LSTM(Long-Short Term Memory，长短时记忆神经网络)从左到右对词向量进行编码；

词解码层(Word Dec)：对编码后的特征进行解码，如可以使用单向LSTM从右到左对编码后的特征进行解码；

输出层(Output)：将解码后的特征作为输出层的输入，输出为每个词作为关键词的概率，如图2所示，输出层每个圆圈代表所对应的输入层的词向量作为关键词的概率。

或者方法2：以第二确定方式确定所述关键词，所述第二确定方式包括，计算所述基础资料中每个词的词频和逆文档频率，将所述词频大于第二预设阈值且所述逆文档频率大于第三预设阈值的词确定所述关键词；

具体的，首先对基础资料的文本数据进行分词；然后计算分词后文本数据中每个词的词频及逆文档频率，所述词频即每个词在基础资料中出现的频率，可以通过每个词在基础资料中的出现次数与所有词在基础资料中出现次数之和的比值得到；所述逆文档频率是词的重性度量，可以由基础资料的总文件数除以包含每个词的文件数后，再取对数得到，具体计算方法与现有技术相同，在此不再详述；最后可以根据每个词的词频及逆文档频率对基础资料中所有词进行排序，选择所述词频大于第二预设阈值且所述逆文档频率大于第三预设阈值的词确定所述关键词。

或者方法3：以第三确定方式确定所述关键词，所述第三确定方式包括，计算所述基础资料中每个词的TextRank得分，将所述TextRank得分大于第四预设阈值的词作为所述关键词；

具体的，所述TextRank得分用以描述每个词的重要度。在计算每个词的TextRank得分时，通过构建候选关键词图的方法，将相关资料中每个词作为图中每个节点，通过计算每个节点的链入边数，计算每个节点的重要度，将所述节点的重要度作为每个词的重要度，即TextRank得分，选择TextRank得分大于阈值的词作为候选关键词；所述TextRank得分的计算方法与现有技术相同，在此不再详述。

或者方法4：所述第一确定方式、所述第二确定方式和所述第三确定方式中，以任意两种方式或三种方式相结合来确定候选关键词，将经过去重后的所述候选关键词作为所述关键词。

具体的，所述方法1～方法3任意一种都可以确定所述基础资料的关键词，为了对所述关键词进行更加全面和精确地统计，可以考虑将方法1、方法2和方法3进行任意组合使用。

由于将方法1、方法2和方法3进行任意组合使用可能会得到重复的关键词，因此，若选择组合使用，需要将重复的关键词去掉。

步骤S103，依据所述关键词确定搜索项，通过所述搜索项搜索目标语料；

具体的，首先统计所述基础资料的每个句子中包含的所述关键词个数，将包含至少两个关键词的句子中的所有关键词作为一个关键词组，将不属于任一所述关键词组的所述关键词作为独立关键词；

然后依据所述关键词组和所述独立关键词确定所述搜索项，通过所述搜索项搜索所述目标语料。

具体的，所述搜索项可以为所述关键词组和/或所述独立关键词，也可以为所述关键词组与一个或多个独立关键词组合的形式，或者多个所述独立关键词的任意组合，本发明并不限制所述搜索项的具体形式。

步骤S104，通过所述目标语料训练目标主题语言模型，以所述目标主题语言模型识别所述待识别语音数据；

具体的，将搜索到的所述目标语料作为所述目标主题语言模型的训练语料，来训练所述目标主题语言模型，具体训练方法与现有技术相同，在此不再赘述。

本发明实施例提供的技术方案，在用户提供的与待识别语音数据的主题相关的语料不够充分，即这些语料仅仅是一些基础资料时，通过确定所述基础资料的关键词，然后依据所述关键词确定搜索项，通过所述搜索项搜索目标语料，从而有效扩充与待识别语音数据的主题相关的语料，能够较大程度上弥补用户提供的语料不足的缺陷，然后通过搜索到的所述目标语料来训练目标主题语言模型，从而得到与待识别语音数据的主题相匹配的目标主题语言模型，最后以所述目标主题语言模型识别所述待识别语音数据，相对于现有技术，能够有效提高语音识别的准确度。因此，应用本发明实施例提供的技术方案，能够提高识别特定应用场景的语音数据的准确度，识别效果较好。

需要说明的是，如果用户提供了与待识别语音数据中的说话人相关性较高的资料，则可选的，本发明另外一个实施例提供的技术方案，可以将该资料与提取后的关键词或关键词组给合作为搜索项，搜索相关语料，以进一步提高搜索语料与主题的相关性；以待识别语音数据为会议录音为例，所述与待识别语音数据中的说话人相关性较高的资料，可以为会议说话人的姓名、单位、演讲主题等。

可选的，本发明另外一个实施例提供的技术方案，还包括：

可以理解的是，在具体场景中，如谈话、报告或开会时，讨论的主题可能会切换，或者会插入新的话题，为此，本实施例提供的技术方案，能够在具体场景中获取在识别所述待识别语音数据的过程中已经得到的识别结果，从而及时将所述识别结果补充到所述基础资料，然后确定更新后的基础资料的关键词，方便后续搜索新的目标语料和训练新的目标主题语言模型，以适应具体场景讨论内容的变更，提高现场语音识别的准确度。

具体的，在具体场景现场识别所述待识别语音数据时，可以适当提高输出所述识别结果的频率，比如5分钟，以方便及时获取到现场已产生的新语料，从而能够更好的丰富所述基础语料。

可选的，请参阅图3，图3为本发明实施例提供的另外一种语音识别方法的流程图。如图3所示，该方法包括：

步骤S301，获取与待识别语音数据相关的基础资料；

步骤S302，确定所述基础资料的关键词；

步骤S303，依据所述关键词确定搜索项，通过所述搜索项搜索目标语料；

步骤S304，通过所述目标语料训练目标主题语言模型，以所述目标主题语言模型识别所述待识别语音数据；

步骤S305，依据所述基础资料和与系统预先存储的各目标领域语言模型的领域类别相匹配的领域判定模型，确定所述待识别语音数据属于每个所述领域类别的概率，按设定顺序排序，生成概率向量；

具体的，所述目标领域语言模型是指将训练模型的文本数据按照应用领域进行划分，如划分为新闻、体育、娱乐、科技等具体的领域，使用每个领域相应文本数据训练模型，得到目标领域语言模型。所述目标领域语言模型可以由系统预先收集各领域文本数据训练得到；在进行语音识别时，根据与待识别语音数据相关的基础资料确定与待识别语音数据领域相同的目标领域语言模型即可。

具体的，所述领域判定模型为预先构建的模型，关于构建所述领域判定模型的过程如下：

首先收集系统内存储的各领域类别的大量文本数据，如系统中只有“人工智能”和“医学”两个领域，则只需要收集这两个领域的文本数据，标注出文本数据所属的领域标签后，将文本数据向量化，训练所述领域判定模型，将文本数据的句子向量作为所述领域判定模型的输入特征，输出为文本数据属于每个领域类别的概率，根据文本数据所属的领域标签对模型参数进行更新，更新结束后，得到领域判定模型，所述领域判定模型使用模式识别中常用模型描述，如支持向量机、深度神经网络等。

具体的，所述步骤S305可以包括：将与待识别语音数据相关的基础资料中的文本数据向量化，得到文本数据的句子向量，具体向量化过程与现有技术相同，如使用Sec2Vec技术；将所述基础资料中的文本数据的句子向量作为领域判定模型的输入，对待识别语音数据进行领域判定，得到待识别语音数据属于每个领域的概率，对所述概率进行排序后，得到待识别语音数据属于每个领域的概率向量，所述排序方法可以为从大到小排序，也可为从小到大排序，不发明不作限定。比如待识别语音数据属于A、B、C、D、E、F和G领域的概率向量分别为{0.01，0.01，0.01，0.01，0.01，0.08，0.87}。

步骤S306，以所述概率向量作为可信度判定模型的输入，判断所述概率向量是否可信；

具体的，所述判断所述概率向量是否可信便是对待识别语音数据属于系统预先存储的各所述领域类别的可信度进行判定。

具体的，所述可信度判定模型为预先构建的模型，关于构建所述可信度判定模型的过程如下：

首先预先收集大量集内、集外文本数据，标注出所述文本数据属于集内数据还是集外数据，得到所述文本数据的集内或集外标签，如标注时使用1表示文本数据的集内标签，标注时使用0表示文本数据的集外标签，所述集内数据是指系统包含的各所述领域类别的数据，所述集外数据是指非系统包含的各所述领域类别的数据；然后利用领域判定模型对收集的文本数据进行领域判定，得到文本数据属于系统内包含的每个领域类别的概率，对所述概率进行排序后，得到文本数据属于系统内包含的每个领域类别的概率向量；将所述概率向量及文本数据的集内或集外标签作为训练数据，如a1文本数据属于系统内包含的每个领域类别的概率向量{0.01，0.01，0.01，0.01，0.01，0.08，0.87}以及a1文本数据的集内标签1，便是一组训练数据，通过大量训练数据训练所述可信度判定模型，所述可信度判定模型的输入为概率向量，输出为集内或集外标签，所述可信度判定模型为模式识别中常用分类模型，如支持向量机模型、深度神经网络模型等。

需要说明的是，待识别语音数据属于系统内包含的每个领域的概率向量的排序方法必须与所述可信度判定模型构建时，文本数据属于系统内包含的每个领域的概率向量的排序方法一致，如都使用从大到小的排序方法或者从小到大的排序方法。

具体的，所述步骤S306具体包括：将所述待识别语音数据属于系统内包含的每个领域的概率向量作为可信度判定模型的输入，依据对应的可信度判定模型的输出对待识别语音数据进行可信度判定。

具体的，对待识别语音数据进行可信度判定时，直接利用预先训练好的可信度判定模型对待识别语音数据属于每个领域的概率向量进行可信度预测，所述可信度判定模型的输入为待识别语音数据属于系统内包含的每个所述领域类别的概率向量，输出表征该概率向量是否可信，如果使用1表示可信，使用0表示不可信，则可信度判定模型的输出为0或1，那么若所述可信度判定模型的输出为1，表示输入的概率向量可信，若所述可信度判定模型的输出为0，表示输入的概率向量不可信。

步骤S307，若所述概率向量可信，对于每个所述领域类别，判断所述待识别语音数据属于所述领域类别的概率是否超过与所述领域类别相对应的第五预设阈值；

具体的，如果输入的所述概率向量可信，则说明待识别语音数据属于集内数据，从而可以根据所述概率向量确定待识别语音数据属于系统内的哪个或哪些领域类别，即可以使用系统预先训练得到的目标领域语言模型；如果输入的所述概率向量不可信，则说明待识别语音数据属于集外数据，因此可以确定待识别语音数据不属于系统内包含的领域类别，也就无法使用所述目标领域语言模型。

步骤S308，若是，则以所述概率所对应的所述领域类别的目标领域语言模型识别所述待识别语音数据；

具体的，如果所述概率超过所述第五预设阈值，则使用所述概率对应领域类别的目标领域语言模型，如果有多个所述概率超过所述第五预设阈值，则可以选择多个目标领域语言模型；当然，如果待识别语音数据属于每个领域的概率都没有超过所述第五预设阈值，则不使用所述目标领域语言模型。

本实施例提供的技术方案，通过添加预先训练得到的目标领域语言模型，在获取到用户提供的与待识别语音数据相关的基础资料后，根据所述基础资料确定目标领域语言模型，经确定的所述目标领域语言模型是与待识别语音数据的领域相同或相近的语言模型，以此语言模型来识别所述待识别语音数据，相对于现有技术仅是依靠通用语言模型来识别的方式，能够提高语音识别的准确性，加强识别效果。

可选的，本发明任一实施例提供的技术方案，所述收集大量数据时可以从网络上或用户历史数据来收集，对此，本发明不做限制。

可以理解的是，在现场进行语音识别时，本发明实施例提供的技术方案可以结合现有技术中的通用语言模型来实施，所述通用语言模型即语音识别时使用的通用语言模型，训练通用语言模型的语料不局限于单个领域或单个主题，所述通用语言模型可以通过预先收集多领域多主题的文本数据训练得到。

具体的，使用目标领域语言模型、目标主题语言模型及通用语言模型对待识别语音数据进行语音识别时，可以直接将目标领域语言模型、目标主题语言模型及通用语言模型进行融合后再使用，所述融合方法如插值方法，具体过程与现有技术相同，在此不再详述；对待识别语音数据进行语音识别，需要提取语音数据的声学特征，利用预先训练的声学模型及融合后的语言模型根据提取的声学特征进行语音识别，具体过程与现有技术相同，在此不再详述。

当然，对待识别语音数据进行语音识别时，也可以先使用通用语言模型进行语音识别后，再使用目标领域语言模型或目标主题语言模型对识别结果进行二遍解码，得到最终识别结果，所述语言模型的使用方法本发明不作限定。

为了更加全面地阐述本发明提供的技术方案，对应于本发明实施例提供的语音识别方法，本发明公开一种语音识别装置。

请参阅图4，图4为本发明实施例提供的一种语音识别装置的结构图。如图4所示，该装置包括：

获取模块401，用于获取与待识别语音数据相关的基础资料；

第一确定模块402，用于确定所述基础资料的关键词；

搜索模块403，用于依据所述关键词确定搜索项，通过所述搜索项搜索目标语料；

第一识别模块404，用于通过所述目标语料训练目标主题语言模型，以所述目标主题语言模型识别所述待识别语音数据。

应用本发明实施例提供的语音识别装置，能够提高识别特定应用场景的语音数据的准确度，识别效果较好。

可选的，本发明实施例提供的语音识别装置，所述第一确定模块402包括：

可选的，本发明实施例提供的语音识别装置，所述搜索模块403包括：

可选的，本发明另外一个实施例提供的语音识别装置，还包括：

可选的，请参阅图5，图5为本发明实施例提供的另外一种语音识别装置的结构图。如图5所示，该装置包括：

获取模块501，用于获取与待识别语音数据相关的基础资料；

第一确定模块502，用于确定所述基础资料的关键词；

搜索模块503，用于依据所述关键词确定搜索项，通过所述搜索项搜索目标语料；

第一识别模块504，用于通过所述目标语料训练目标主题语言模型，以所述目标主题语言模型识别所述待识别语音数据；

第二确定模块505，用于依据所述基础资料和与系统预先存储的各目标领域语言模型的领域类别相匹配的领域判定模型，确定所述待识别语音数据属于每个所述领域类别的概率，按设定顺序排序，生成概率向量；

第一判断模块506，用于以所述概率向量作为可信度判定模型的输入，判断所述概率向量是否可信，所述可信度判定模型与所述领域类别相匹配；

第二判断模块507，用于若所述概率向量可信，对于每个所述领域类别，判断所述待识别语音数据属于所述领域类别的概率是否超过与所述领域类别相对应的第五预设阈值；

第二识别模块508，用于若是，则以所述概率所对应的所述领域类别的目标领域语言模型识别所述待识别语音数据。

本实施例提供的语音识别装置，系统添加了预先训练得到的目标领域语言模型，根据与待识别语音数据相关的基础资料确定目标领域语言模型，经确定的所述目标领域语言模型是与待识别语音数据的领域相同或相近的语言模型，以此语言模型来识别所述待识别语音数据，相对于现有技术仅是依靠通用语言模型来识别的方式，能够提高语音识别的准确性，加强识别效果。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音识别方法，其特征在于，包括：

获取与待识别语音数据相关的基础资料；

确定所述基础资料的关键词；

统计所述基础资料的每个句子中包含的所述关键词的个数，将包含至少两个关键词的句子中的所有关键词作为一个关键词组，将不属于任一所述关键词组的所述关键词作为独立关键词；依据所述关键词组和所述独立关键词确定搜索项，通过所述搜索项搜索目标语料；所述目标语料与所述待识别语音数据的主题相关；

通过所述目标语料训练目标主题语言模型，并使用所述目标主题语言模型、目标领域语言模型和通用语言模型对所述待识别语音数据进行识别；所述目标领域语言模型是根据所述基础资料确定的与所述待识别语音数据领域相同的语言模型；

2.根据权利要求1所述的方法，其特征在于，所述确定所述基础资料的关键词，包括：

或者以第二确定方式确定所述关键词，所述第二确定方式包括，计算所述基础资料中每个词的词频和逆文档频率，将所述词频大于第二预设阈值且所述逆文档频率大于第三预设阈值的词确定为所述关键词；

3.根据权利要求1所述的方法，其特征在于，还包括：

以所述概率向量作为可信度判定模型的输入，判断所述概率向量是否可信，所述可信度判定模型与所述领域类别相匹配；

4.一种语音识别装置，其特征在于，包括：

获取模块，用于获取与待识别语音数据相关的基础资料；

第一确定模块，用于确定所述基础资料的关键词；

搜索模块包括统计单元和搜索单元：

所述统计单元，用于统计所述基础资料的每个句子中包含的所述关键词的个数，将包含至少两个关键词的句子中的所有关键词作为一个关键词组，将不属于任一所述关键词组的所述关键词作为独立关键词；

所述搜索单元，用于依据所述关键词组和所述独立关键词确定搜索项，通过所述搜索项搜索目标语料；所述目标语料与所述待识别语音数据的主题相关；

第一识别模块，用于通过所述目标语料训练目标主题语言模型，并使用所述目标主题语言模型、目标领域语言模型和通用语言模型对所述待识别语音数据进行识别；所述目标领域语言模型是根据所述基础资料确定的与所述待识别语音数据领域相同的语言模型；

5.根据权利要求4所述的装置，其特征在于，所述第一确定模块包括：

第二确定单元，用于以第二确定方式确定所述关键词，所述第二确定方式包括，计算所述基础资料中每个词的词频和逆文档频率，将所述词频大于第二预设阈值且所述逆文档频率大于第三预设阈值的词确定为所述关键词；

6.根据权利要求4所述的装置，其特征在于，还包括：