CN108538286A

CN108538286A - 一种语音识别的方法以及计算机

Info

Publication number: CN108538286A
Application number: CN201710121180.2A
Authority: CN
Inventors: 康战辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-03-02
Filing date: 2017-03-02
Publication date: 2018-09-14
Also published as: WO2018157789A1

Abstract

本发明实施例公开了一种语音识别的方法，用于在根据下次接收的语音信号获取的识别文本中，对于该主题词或者该主题词相关的主题词的识别就会显示的是准确的识别，提高了语音识别的准确率。本发明实施例方法包括：获取初步识别文本中的主题词，所述主题词为所述初步识别文本中关键信息的词，所述初步识别文本为根据语音信号识别得到的文本；根据所述主题词获取目标相关信息，所述目标相关信息为与所述主题词对应的上下文信息；根据所述目标相关信息建立目标语言库。

Description

一种语音识别的方法以及计算机

技术领域

本发明涉及计算机领域，尤其涉及一种语音识别的方法以及计算机。

背景技术

一个通用的语音识别系统至少包括声学模型和语言模型两大部分。其中声学模型主要是将输入的语音信号转化为topN候选的语言序列；而语言模型则是判别候选语言序列是否符合一个正常语句的概率。至此，一个通用的语言模型往往是通过海量(几亿，乃至几十亿，上百亿)自然文本统计不同长度片段(Ngram)的出现概率而构建。

现有技术的缺点是，通用的语言模型往往存在数据识别有偏的问题。比如在语音转写场景下，具体来说比如某个专业的学术演讲场景下，用户需要通过语音识别系统自动做会议记录。此时如果在会议演讲中提到一些小众、专业的词汇(比如某种蛋白质的名字)，通用的语音识别系统，由于其中的语言模型可能没有涉及到这方面的语料，进而往往不能正确识别。

发明内容

本发明实施例提供了一种语音识别的方法以及计算机，用于在根据下次接收的语音信号获取的识别文本中，对于该主题词或者该主题词相关的主题词的识别就会显示的是准确的识别，提高了语音识别的准确率。

本发明实施例第一方面提供一种语音识别的方法，可以包括：

获取初步识别文本中的主题词，该主题词为该初步识别文本中关键信息的词，该初步识别文本为根据语音信号识别得到的文本；

根据该主题词获取目标相关信息，该目标相关信息为与该主题词对应的上下文信息；

根据该目标相关信息建立目标语言库。

本发明实施例第二方面提供一种计算机，可以包括：

第一获取模块，用于获取初步识别文本中的主题词，该主题词为该初步识别文本中关键信息的词，该初步识别文本为根据语音信号识别得到的文本；

第二获取模块，用于根据该主题词获取目标相关信息，该目标相关信息为与该主题词对应的上下文信息；

建立模块，用于根据该目标相关信息建立目标语言库。

从以上技术方案可以看出，本发明实施例具有以下优点：

在本发明实施例中，获取初步识别文本中的主题词，该主题词为该初步识别文本中关键信息的词，该初步识别文本为根据语音信号识别得到的文本；根据该主题词获取目标相关信息，该目标相关信息为与该主题词对应的上下文信息；根据该目标相关信息建立目标语言库。用户在使用计算机的过程中，计算机可以接收语音信号，根据语音信号获取对应的初步识别文本，再根据初步识别文本获取主题词，然后根据该主题词获取目标相关信息，可以根据相关信息建立目标语言库，目标语言库用于在根据下次接收的语音信号获取的识别文本中，对于该主题词或者该主题词相关的主题词的识别就会显示的是准确的识别，提高了语音识别的准确率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例和现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，还可以根据这些附图获得其它的附图。

图1为本发明实施例中通用的语音识别系统的一个示意图；

图2为本发明实施例中所应用的语音识别系统的框架示意图；

图3为本发明实施例中语音识别的方法的一个实施例示意图；

图4为本发明实施例中语音识别的一个示意图；

图5为本发明实施例中计算机的一个实施例示意图；

图6为本发明实施例中计算机的另一个实施例示意图；

图7为本发明实施例中计算机的另一个实施例示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，都应当属于本发明保护的范围。

自然语言(Natural Language)其实就是人类语言，自然语言处理(NaturalLanguage Processing，NLP)就是对人类语言的处理，当然主要是利用计算机。自然语言处理是关于计算机科学和语言学的交叉学科，常见的研究任务包括：分词(WordSegmentation或Word Breaker，WB)；信息抽取(Information Extraction，IE)；关系抽取(Relation Extraction，RE)；命名实体识别(Named Entity Recognition，NER)；词性标注(Part Of Speech Tagging，POS)；指代消解(Coreference Resolution)；句法分析(Parsing)；词义消歧(Word Sense Disambiguation，WSD)；语音识别(SpeechRecognition)；语音合成(Text To Speech，TTS)；机器翻译(Machine Translation，MT)；自动文摘(Automatic Summarization)；问答系统(Question Answering)；自然语言理解(Natural Language Understanding)；光学字符识别(Optical Character Recognition，OCR)；信息检索(Information Retrieval，IR)。

简单地说，语言模型就是用来计算一个句子的概率的模型，即P(W1，W2......Wk)。利用语言模型，可以确定哪个词序列的可能性更大，或者给定若干个词，可以预测下一个最可能出现的词语。举个音字转换的例子来说，输入拼音串为nixianzaiganshenme，对应的输出可以有多种形式，如你现在干什么、你西安再赶什么、等等，那么到底哪个才是正确的转换结果呢，利用语言模型，我们知道前者的概率大于后者，因此转换成前者在多数情况下比较合理。再举一个机器翻译的例子，给定一个汉语句子为李明正在家里看电视，可以翻译为Li Ming is watching TV at home、Li Ming at home is watching TV、等等，同样根据语言模型，我们知道前者的概率大于后者，所以翻译成前者比较合理。

如图1所示，为通用的语音识别系统的示意图，至少包括声学模型和语言模型两大部分，声学模型是对声学、语音学、环境的变量、说话人性别、口音等的差异的知识表示，而语言模型是对一组字序列构成的知识表示。通用的语言模型往往存在数据识别有偏的问题。比如在语音转写场景下，具体来说比如某个专业的学术演讲场景下，我们需要通过语音识别系统自动做会议记录。此时如果演讲中提到一些小众、专业的词汇(比如某种蛋白质的名字)，通用的语音识别系统，由于其中的语言模型可能没有涉及到这方面的语料，进而往往不能正确识别。而以上这种小众、专业的词汇，长尾语料是不能够穷举的(或者说穷举的成本很高也没必要)。

如图2所示，为本发明实施例所应用的语音识别系统的框架示意图，包括语音识别输入、语音识别系统、初步识别文本、提取主题词、全网搜索top结果摘要、训练上下文和领域语言模型。本发明要解决的就是在通用的语言模型系统中实时加入领域相关的长尾语料，以解决在语音转写场景下，当通用语音识别系统前几次不能识别的领域专业词汇，但随着转写(演讲)的推进，系统可以准确实时的自动挖掘补充相应领域的语言模型语料，后续当演讲者再次提到该词汇，甚至与该词汇相关的词汇时可有效识别。

下面以实施例的方式对本发明技术方案做进一步的描述，如图3所示，为本发明实施例中语音识别的方法的一个实施例示意图，包括：

301、接收语音信号；

在本发明实施例中，计算机接收语音信号，示例性的，这里的语音信号可以是在会议场景中相关工作人员的声音，被计算机接收的语音信号；也可以是在学术报告、主题研究报告、专业知识讲座等一系列场景中，计算机所接收的一段语音信号。其中，声学模型可以用lstm+ctc训练，得到语音特征到音素的映射；语言模型可以用SRILM工具做LM的训练得到3-gram and 4-gram，是词与词、词与句子的映射，字典是字词对应的音素index集合，是字词和音素之间的映射。

所谓声学模型就是把语音的声学特征分类对应到(解码)音素或字词这样的单元；语言模型接着把字词解码成一个完整的句子。

先说语言模型，语言模型表示某一字序列发生的概率，一般采用链式法则，把一个句子的概率拆解成器中的每个词的概率之积。设W是由w1，w2，...，wn组成的，则P(W)可以拆成(由条件概率公式和乘法公式)：

P(W)＝P(w1)P(w2/w1)P(w3/w1，w2)...P(wn/w1，w2，...wn-1)，每一项都是在之前所有词的概率条件下，当前词的概率。由马尔卡夫模型的思想，最常见的做法就是用N-元文法，即假定某一个字的输出只与前面N-1个字出现的概率有关系，这种语言模型叫做n-gram模型(一般n取3，即trigram)，这时候我们就可以这么表示：

P(W)＝P(w1)P(w2|w1)P(w3|w1，w2)P(w4|w1，w2，w3)...P(wn/wn-1，wn-2，...，w1)，条件太长的时候，概率就不好估计了，三元文法只取前两个词

P(W)＝P(w1)P(w2|w1)P(w3|w1，w2)P(w4|w2，w3)...P(wn/wn-1，wn-2)，

对于其中的每一项条件概率都可以用贝叶斯公式求出，在所有的语料中统计出相邻的字发生的概率，再统计出单个字出现的概率，代入即可。

需要说明的是，这里的n-gram是根据字符串序列建立的，所以一个n-gram就相当于词组，必然会有一些词组没有出现过，但是也存在发生的概率，所以需要算法生成这些生僻词组的概率。

再说声学模型，声学模型的任务是计算P(X/W)，即给定文字之后发出这段语音的概率(最后利用贝叶斯，求P(X/W)时使用)。首先第一问题：怎么才能知道每个单词发什么音呢？这就需要另外一个模块，叫做词典，看eesen的源码在数据准备阶段就是先求出词对应音素的dict，它的作用就是把单词串转化成音素串，然后再求得语言模型和训练声学模型(用lstm+ctc训练声学模型)。有了dict的帮助，声学模型就知道给定的文字串该依次发哪些音了。

302、根据语音信号获取对应的初步识别文本；

在本发明实施例中，计算机在接收语音信号之后，还可以根据语音信号获取对应的初步识别文本。即语音信号可以通过语音识别系统中的声学模型和通用语言模型，获取对应的初步识别文本。

具体来说就是输入一段语音信号，要找到一个文字序列(由字或者词组成)，找到的这个文字序列与语音信号的匹配程度最高。这个匹配程度，一般都是用概率来表示的，用X表示语音信号，用W表示文字序列，则要解的是下面这个问题：

但是一般语音是由文字产生的，已知文字才能发出语音，所以对于上面的条件概率公式我们想要已知结果求该条件下发生概率，这时候自然而然就想到贝叶斯公式：

由于我们要优化W，P(X)可以看作常数，可以省略分母。

由上边的步骤来看，求文字串、计算语言模型概率、求音素串、求音素分界点、计算声学模型概率几个步骤似乎是依次进行的。其实不然，在实际编码过程中，因为文字串、音素分界点都有非常多种可能，枚举是不现实的。实际中，这几个步骤同时进行并互相制约，随时砍掉不够优的可能，最终在可接受的时间内求出最优解，如下所示:

W＊＝argmaxP(W|X)。

举个例子来说，对于音字转换问题，输入拼音nixianzaiganshenme，可能对应着很多转换结果，对于这个例子，可能的转换结果如图4所示(只画出部分的词语节点)，各节点之间构成了复杂的网络结构，从开始到结束的任意一条路径都是可能的转换结果，从诸多转换结果中选择最合适的结果的过程就需要解码算法。

常用的解码算法是viterbi算法，它采用动态规划的原理能够很快地确定最合适的路径。

303、获取初步识别文本中的主题词，主题词为初步识别文本中关键信息的词，初步识别文本为根据语音信号识别得到的文本；

在本发明实施例中，计算机根据语音信号获取对应的初步识别文本之后，可以获取初步识别文本中的主题词，主题词为初步识别文本中关键信息的词。其中，主题词可以理解为该会议讨论的核心主题，也可以是会议报告的重心等。

获取初步识别文本中的主题词可以包括：根据初步识别文本按照公式1获取主题词，其中，公式1为：

Score(i)＝tf(i)*idf(i) (公式1)

其中，i指初步识别文本中第i个词，tf(i)指第i个词在初步识别文本中出现的次数，idf(i)指第i个词在初步识别文本中的逆文档频率。

进一步的，idf(i)为通过大量文本数据离线统计而得，计算idf(i)的公式2为：

其中，|D|为文档集里的文档个数，d_j为第j个文档，t_i为第j个文档中的第i个词。

对于主题词的提取还可以基于TextRank算法，即关键词抽取的任务就是从一段给定的文本中自动抽取出若干有意义的词语或词组。TextRank算法是利用局部词汇之间关系(共现窗口)对后续关键词进行排序，直接从文本本身抽取。其主要步骤如下：

(1)把给定的文本T按照完整句子进行分割，即T＝[S₁,S₂,...,S_m]；

(2)对于每个句子S_i∈T，进行分词和词性标注处理，并过滤掉停用词，只保留指定词性的单词，如名词、动词、形容词，即S_i＝[t_i,1,t_i,2,...t_i,n]，其中t_i,j∈S_j是保留后的候选关键词；

(3)构建候选关键词图G＝(V，E)，其中V为节点集，由步骤(2)生成的候选关键词组成，然后采用共现关系(co-occurrence)构造任两点之间的边，两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现，K表示窗口大小，即最多共现K个单词；

(4)根据上面公式，迭代传播各节点的权重，直至收敛；

(5)对节点权重进行倒序排序，从而得到最重要的T个单词，作为候选关键词；

(6)由步骤(5)得到最重要的T个单词，在原始文本中进行标记，若形成相邻词组，则组合成多词关键词。例如，文本中有句子“Matlab code for plotting ambiguityfunction”，如果“Matlab”和“code”均属于候选关键词，则组合成“Matlab code”加入关键词序列。

其中，对于TextRank源码解析如下所示：读入文本，并切词，对切词结果统计共现关系，窗口默认为5，保存大cm中。

需要说明的是，对于主题词的提取包括但不限于上述提及的几种实现方式，而且，计算机获取的主题词的数量不做限定。

在语音识别系统中，经常会遇到这样的需求：将大量(比如几十万、甚至上百万)的对象进行排序，然后只需要取出最Top的前N名作为排行榜的数据，这即是一个TopN算法。常见的解决方案有三种：

(1)直接使用List的Sort方法进行处理。

(2)使用排序二叉树进行排序，然后取出前N名。

(3)使用最大堆排序，然后取出前N名。

304、根据主题词获取目标相关信息，目标相关信息为与主题词对应的上下文信息；

在本发明实施例中，计算机获取初步识别文本中的主题词之后，可以根据主题词获取目标相关信息，目标相关信息为与主题词对应的上下文信息。

根据主题词获取目标相关信息，可以包括：

(1)根据主题词通过全网搜索获取目标相关信息。

(2)在预置的相关信息集合中，提取与主题词对应的目标相关信息。

进一步的，根据主题词通过全网搜索获取目标相关信息，可以包括：根据主题词通过全网搜索，获取对应的搜索结果；将搜索结果进行匹配，确定目标相关信息。

需要说明的是，这里的目标相关信息简单的可以理解为搜索主题词显示的页面上的每篇文章的题目、或者每篇文章的摘要、或者每篇文章的所有内容。但是，应理解，若目标相关信息为每篇文章的所有内容的话，消耗的资源比较大。

示例性的，若获取的主题词为滤波器，这里显示的滤波器可以是正确的词组，也可以不是正确的词组，计算机可以自动通过一些搜索软件获取与滤波器相关的页面内容，例如显示的是高通滤波器、低通滤波器、带通滤波器和带阻滤波器的超链接内容，可以把这些超链接的标题或者每个超链接内容中的摘要作为主题词“滤波器”的目标相关信息。

305、根据目标相关信息建立目标语言库。

在本发明实施例中，计算机根据主题词获取目标相关信息之后，再根据目标相关信息建立目标语言库。具体的，可以包括：根据目标相关信息进行训练，建立目标语言库。应理解，这里的目标语言库是建立的关于本次会议的主题或者本次报告核心的领域语言模型。即可以对目标相关信息进行过滤清洗、领域匹配等一系列操作，进行训练等得到领域语言模型。示例性的，可以根据高通滤波器、低通滤波器、带通滤波器和带阻滤波器超链接内容中的摘要信息，进行训练，得到关于滤波器领域的语言模型，并将关于滤波器领域的语言模型添加在上述图2所示的通用语言模型中。

那么，在后续的语音识别中，再出现关于滤波器的相关信息，都会先在语音识别系统中进行识别，因为语音识别系统中之前有添加关于滤波器领域的语言模型，所以，计算机可以准确的识别，具体可以识别出是否是高通滤波器、低通滤波器、带通滤波器或者带阻滤波器。

本发明实施例中可以使用Ngram统计语言模型，n-gram模型也称为n-1阶马尔科夫模型，它有一个有限历史假设：当前词的出现概率仅仅与前面n-1个词相关。因此P(S)可以近似为：

当n取1、2、3时，n-gram模型分别称为unigram、bigram和trigram语言模型。n-gram模型的参数就是条件概率P(Wi|Wi-n+1，...，Wi-1)。假设词表的大小为100000，那么n-gram模型的参数数量为100000的n次方。n越大，模型越准确，也越复杂，需要的计算量越大。本发明实施例中以选用的n为3为例来进行说明，即trigram语言模型。更详细一点，ngram语言模型也就是上述P(S)模型一般通过最大似然估计进行参数估计，各类模型算法的不同之处往往在于使用何种数据平滑算法来解决当n增大后的数据稀疏问题(即要解决上述概率公式展开后由于某项在语料中统计频次趋近与0，而带来的整个P(S)趋0的问题)。本发明可以使用Katz平滑算法，相应的业界还存在加法平滑、Good-Turing平滑，插值平滑等不同算法。

下面以实际应用场景对本发明实施例中语音识别的方法进行具体说明，如下所示：

假设秋香是一位播音主持，在节目中需要读取一篇文章，这篇长文为《中国的蜜蜂养殖》，我们准备用计算机提取它的关键词。一个容易想到的思路，就是找到出现次数最多的词。如果某个词很重要，它应该在这篇文章中多次出现。于是，我们进行“词频”(TermFrequency，缩写为TF)统计。

结果大家肯定猜到了，出现次数最多的词是：“的”、“是”、“在”等这一类最常用的词。它们叫做“停用词”(stop words)，表示对找到结果毫无帮助、必须过滤掉的词。

假设我们把它们都过滤掉了，只考虑剩下的有实际意义的词。这样又会遇到了另一个问题，我们可能发现“中国”、“蜜蜂”、“养殖”这三个词的出现次数一样多。这是不是意味着，作为关键词，它们的重要性是一样的？

显然不是这样。因为“中国”是很常见的词，相对而言，“蜜蜂”和“养殖”不那么常见。如果这三个词在一篇文章的出现次数一样多，有理由认为，“蜜蜂”和“养殖”的重要程度要大于“中国”，也就是说，在关键词排序上面，“蜜蜂”和“养殖”应该排在“中国”的前面。

所以，我们需要一个重要性调整系数，衡量一个词是不是常见词。如果某个词比较少见，但是它在这篇文章中多次出现，那么它很可能就反映了这篇文章的特性，正是我们所需要的关键词。

用统计学语言表达，就是在词频的基础上，要对每个词分配一个“重要性”权重。最常见的词(“的”、“是”、“在”)给予最小的权重，较常见的词(“中国”)给予较小的权重，较少见的词(“蜜蜂”、“养殖”)给予较大的权重。这个权重叫做“逆文档频率”(Inverse DocumentFrequency，缩写为IDF)，它的大小与一个词的常见程度成反比。

知道了“词频”(TF)和“逆文档频率”(IDF)以后，将这两个值相乘，就得到了一个词的TF-IDF值。某个词对文章的重要性越高，它的TF-IDF值就越大。所以，排在最前面的几个词，就是这篇文章的关键词。

第一步，计算词频；

词频(TF)＝某个词在文章中的出现次数

考虑到文章有长短之分，为了便于不同文章的比较，进行“词频”标准化。

词频(TF)＝某个词在文章中的出现次数/文章的总词数

或者，

词频(TF)＝某个词在文章中的出现次数/该文出现次数最多的词的出现次数

第二步，计算逆文档频率；

这时，需要一个语料库(corpus)，用来模拟语言的使用环境。

逆文档频率(IDF)＝log(语料库的文档总数/(包含该词的文档数+1))

如果一个词越常见，那么分母就越大，逆文档频率就越小越接近0。分母之所以要加1，是为了避免分母为0(即所有文档都不包含该词)。log表示对得到的值取对数。

第三步，计算TF-IDF。

TF-IDF＝词频(TF)*逆文档频率(IDF)

可以看到，TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比。所以，自动提取关键词的算法就很清楚了，就是计算出文档的每个词的TF-IDF值，然后按降序排列，取排在最前面的几个词。

还是以《中国的蜜蜂养殖》为例，假定该文长度为1000个词，“中国”、“蜜蜂”、“养殖”各出现20次，则这三个词的“词频”(TF)都为0.02。然后，搜索Google发现，包含“的”字的网页共有250亿张，假定这就是中文网页总数。包含“中国”的网页共有62.3亿张，包含“蜜蜂”的网页为0.484亿张，包含“养殖”的网页为0.973亿张。则它们的逆文档频率(IDF)和TF-IDF如下表1所示：

表1

从上述表1可见，“蜜蜂”的TF-IDF值最高，“养殖”其次，“中国”最低。(如果还计算“的”字的TF-IDF，那将是一个极其接近0的值。)所以，如果只选择一个词，“蜜蜂”就是这篇文章的关键词。

除了自动提取关键词，TF-IDF算法还可以用于许多别的地方。比如，信息检索时，对于每个文档，都可以分别计算一组搜索词(“中国”、“蜜蜂”、“养殖”)的TF-IDF，将它们相加，就可以得到整个文档的TF-IDF。这个值最高的文档就是与搜索词最相关的文档。

所以，这里的“蜜蜂”和“养殖”作为主题词进行搜索，获取关于“蜜蜂”和“养殖”的上下文信息，将搜索到的这些上下文信息训练得到蜜蜂养殖领域的语言模型。

等到后续的文章中再出现关于蜜蜂养殖的过程中，出现关于蜜蜂养殖的相关的语音识别时，就可以通过蜜蜂养殖领域的语言模型准确的进行识别了。

上面对本发明实施例中语音识别的方法进行了描述，下面对本发明实施例中的计算机进行说明，如图5所示，为本发明实施例中计算机的一个实施例示意图，包括：

第一获取模块501，用于初步识别文本中的主题词，主题词为初步识别文本中关键信息的词，初步识别文本为根据语音信号识别得到的文本；

第二获取模块502，用于根据主题词获取目标相关信息，目标相关信息为与主题词对应的上下文信息；

建立模块503，用于根据目标相关信息建立目标语言库。

可选的，在本发明的一些实施例中，

第一获取模块501，具体用于根据初步识别文本按照公式1获取主题词，其中，公式1为：

Score(i)＝tf(i)*idf(i)，其中，i指初步识别文本中第i个词，tf(i)指第i个词在初步识别文本中出现的次数，idf(i)指第i个词在初步识别文本中的逆文档频率。

可选的，在本发明的一些实施例中，在上述图5所示的基础上，如图6所示，为本发明实施例中计算机的另一个实施例示意图，计算机还包括：

接收模块504，用于接收语音信号；

第三获取模块505，用于根据语音信号获取对应的初步识别文本。

可选的，在本发明的一些实施例中，

第二获取模块502，具体用于根据主题词通过全网搜索获取目标相关信息。

可选的，在本发明的一些实施例中，

第二获取模块502，具体还用于根据主题词通过全网搜索，获取对应的搜索结果；将搜索结果进行匹配，确定目标相关信息。

可选的，在本发明的一些实施例中，

第二获取模块502，具体还用于在预置的相关信息集合中，提取与主题词对应的目标相关信息。

可选的，在本发明的一些实施例中，

建立模块503，具体用于根据目标相关信息进行训练，建立目标语言库。

如图7所示，为本发明实施例中计算机的另一个实施例示意图。

计算机700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)722(例如，一个或一个以上处理器)和存储器732，一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对计算机中的一系列指令操作。更进一步地，中央处理器722可以设置为与存储介质730通信，在计算机700上执行存储介质730中的一系列指令操作。

计算机700还可以包括一个或一个以上电源726，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口758，和/或，一个或一个以上操作系统741，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

在本发明实施例中，中央处理器722还用于执行以下功能：用于获取初步识别文本中的主题词，主题词为初步识别文本中关键信息的词，初步识别文本为根据语音信号识别得到的文本；根据主题词获取目标相关信息，目标相关信息为与主题词对应的上下文信息；根据目标相关信息建立目标语言库。

可选的，在本发明的一些实施例中，

中央处理器722，具体用于根据初步识别文本按照公式1获取主题词，其中，公式1为：

可选的，在本发明的一些实施例中，

中央处理器722，还用于接收语音信号；根据语音信号获取对应的初步识别文本。

可选的，在本发明的一些实施例中，

中央处理器722，具体用于根据主题词通过全网搜索获取目标相关信息。

可选的，在本发明的一些实施例中，

中央处理器722，具体还用于根据主题词通过全网搜索，获取对应的搜索结果；将搜索结果进行匹配，确定目标相关信息。

可选的，在本发明的一些实施例中，

中央处理器722，具体还用于在预置的相关信息集合中，提取与主题词对应的目标相关信息。

可选的，在本发明的一些实施例中，

中央处理器722，具体用于根据目标相关信息进行训练，建立目标语言库。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音识别的方法，其特征在于，包括：

获取初步识别文本中的主题词，所述主题词为所述初步识别文本中关键信息的词，所述初步识别文本为根据语音信号识别得到的文本；

根据所述主题词获取目标相关信息，所述目标相关信息为与所述主题词对应的上下文信息；

根据所述目标相关信息建立目标语言库。

2.根据权利要求1所述的方法，其特征在于，所述获取初步识别文本中的主题词，包括：

根据所述初步识别文本按照公式1获取所述主题词，其中，所述公式1为：

Score(i)＝tf(i)*idf(i)，其中，i指所述初步识别文本中第i个词，tf(i)指第i个词在所述初步识别文本中出现的次数，idf(i)指第i个词在所述初步识别文本中的逆文档频率。

3.根据权利要求1所述的方法，其特征在于，所述获取初步识别文本中的主题词之前，所述方法还包括：

接收语音信号；

根据所述语音信号获取对应的初步识别文本。

4.根据权利要求1-3任一所述的方法，其特征在于，所述根据所述主题词获取目标相关信息，包括：

根据所述主题词通过全网搜索获取所述目标相关信息。

5.根据权利要求4所述的方法，其特征在于，所述根据所述主题词通过全网搜索获取所述目标相关信息，包括：

根据所述主题词通过全网搜索，获取对应的搜索结果；

将所述搜索结果进行匹配，确定所述目标相关信息。

6.根据权利要求1-3任一所述的方法，其特征在于，所述根据所述主题词获取目标相关信息，包括：

在预置的相关信息集合中，提取与所述主题词对应的目标相关信息。

7.根据权利要求1-3任一所述的方法，其特征在于，所述根据所述目标相关信息建立目标语言库，包括：

根据所述目标相关信息进行训练，建立所述目标语言库。

8.一种计算机，其特征在于，包括：

第一获取模块，用于获取初步识别文本中的主题词，所述主题词为所述初步识别文本中关键信息的词，所述初步识别文本为根据语音信号识别得到的文本；

第二获取模块，用于根据所述主题词获取目标相关信息，所述目标相关信息为与所述主题词对应的上下文信息；

建立模块，用于根据所述目标相关信息建立目标语言库。

9.根据权利要求8所述的方法，其特征在于，

所述第一获取模块，具体用于根据所述初步识别文本按照公式1获取所述主题词，其中，所述公式1为：

10.根据权利要求8所述的方法，其特征在于，所述计算机还包括：

接收模块，用于接收语音信号；

第三获取模块，用于根据所述语音信号获取对应的初步识别文本。

11.根据权利要求8-10任一所述的方法，其特征在于，

所述第二获取模块，具体用于根据所述主题词通过全网搜索获取所述目标相关信息。

12.根据权利要求11所述的方法，其特征在于，

所述第二获取模块，具体还用于根据所述主题词通过全网搜索，获取对应的搜索结果；将所述搜索结果进行匹配，确定所述目标相关信息。

13.根据权利要求8-10任一所述的方法，其特征在于，

所述第二获取模块，具体还用于在预置的相关信息集合中，提取与所述主题词对应的目标相关信息。

14.根据权利要求8-10任一所述的方法，其特征在于，

所述建立模块，具体用于根据所述目标相关信息进行训练，建立所述目标语言库。