CN108831459A

CN108831459A - 语音识别方法及装置

Info

Publication number: CN108831459A
Application number: CN201810541713.7A
Authority: CN
Inventors: 张冉
Original assignee: Chumen Wenwen Information Technology Co Ltd
Current assignee: Volkswagen China Investment Co Ltd; Mobvoi Innovation Technology Co Ltd
Priority date: 2018-05-30
Filing date: 2018-05-30
Publication date: 2018-11-16
Anticipated expiration: 2038-05-30
Also published as: CN108831459B

Abstract

本发明实施例公开了一种语音识别方法及装置，涉及智能语音识别技术领域，本发明实施例的一个目的在于解决现有技术中存在误识别指令词的问题。本发明实施例的方法主要包括：在确定播放语音的文本中包含相似词时，获取所述相似词对应的播放时间段，所述相似词为与智能终端的预设的指令词发音相似的词；在所述播放时间段内提高所述智能终端的识别阈值；在所述智能终端计算出所述播放时间段内接收的声音为指令词的概率高于提高后的识别阈值时，确定所述声音为指令词。本发明实施例主要适用于识别指令词的场景中。

Description

语音识别方法及装置

技术领域

本发明实施例涉及智能语音识别技术领域，尤其涉及一种语音识别方法及装置。

背景技术

语音识别技术是通过人机交互，让设备终端通过识别和理解把用户的语音转变为相应的文本或命令的智能技术。语音发出指令相对于手动输入信息，大大增加了用户操作的便利性。故而，利用语音代替手动输入和设备终端进行交流，是未来智能终端发展的趋势。

当前的智能可穿戴设备、移动终端、智能音响等智能终端都具有语音识别功能，包括智能终端处于待机状态下，用户通过说出对应的指令词来唤醒智能终端；或智能终端处于工作状态下，用户通过说出对应的指令词来控制智能终端执行对应的操作。因此可以看出，在智能终端通过语音识别用户下达的命令的过程中，较为重要的一项技术就是判断接收到的声音中是否包含了指令词。现有的语音识别技术是对采集到的声音是否为指令词进行概率计算，当确定当前的声音是指令词的概率大于预置的阈值时，即执行相应的指令。例如，设置智能终端在音乐播放模式下，切换下一播放音乐的指令词为“下一首”，当用户发出“下一首”这一指令词后，智能终端就会执行下一首音乐切换操作。智能终端的识别指令词的具体方法为：在接收到声音时，计算当前声音为指令词的概率；当计算出的概率大于识别阈值时，即判断该声音为指令词，进而执行对应的操作。而当该识别阈值被设置为一个数值较大的值时，智能终端的拒识率会就提高，该拒识率指的是用户说出指令词，但智能终端未判断其为指令词，进而拒绝执行操作。而反之当该识别阀值被设置为一个数值较小的值时，智能终端的误识别率就会提高。即由于智能终端自身识别算法的错误判断，会造成该智能终端对指令词的误识别，即在用户没有说出指令词时，进行了误操作，进而给用户带来较为糟糕的体验。因此，识别阈值的设置十分关键，在设置智能终端的识别阈值之前，需要录制大量不同发音的指令词数据融入训练语料中，并对训练语料中的音素进行标记，再通过机器学习来训练语音识别模型。通过训练不断调整识别阈值，最终获取最优的数值，再将该语音识别模型部署到智能终端中，从而智能终端的误识别率和拒识率都维持在一个较低的水平。

由此可知，现有技术仅仅是将智能终端的识别阈值调整在一个能够均衡误识别率和拒识率的数值上，因此会增加误识别指令词的概率，进而给用户带来的不良体验。

发明内容

鉴于上述问题，本发明实施例提供一种语音识别方法及装置，本发明实施例的一个目的在于解决现有技术中存在误识别指令词的问题。

为了解决上述问题，本发明实施例主要提供如下技术方案：

第一方面，本发明实施例提供了一种语音识别方法，该方法包括：

在确定播放语音的文本中包含相似词时，获取所述相似词对应的播放时间段，所述相似词为与智能终端的预设的指令词发音相似的词；

在所述播放时间段内提高所述智能终端的识别阈值；

在所述智能终端计算出所述播放时间段内接收的声音为指令词的概率高于提高后的识别阈值时，确定所述声音为指令词。

第二方面，本发明实施例还提供了一种语音识别装置，该装置包括：

获取单元，在确定播放语音的文本中包含相似词时，获取所述相似词对应的播放时间段，所述相似词为与智能终端的预设的指令词发音相似的词；

提高单元，用于在所述播放时间段内提高所述智能终端的识别阈值；

确定单元，用于在所述智能终端计算出所述播放时间段内接收的声音为指令词的概率高于提高后的识别阈值时，确定所述声音为指令词。

为了实现上述目的，本发明实施例提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如上述第一方面所述的语音识别方法。

为了实现上述目的，提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述第一方面所述的语音识别方法。

借由上述技术方案，本发明实施例提供的语音识别方法及装置，在播放语音之前，从该语音的文本中确定该语音是否包含与智能终端的指令词发音相似的相似词。与现有技术只能根据固定的识别阈值来判断是否接收到指令词相比，本发明实施例能够在智能终端播放语音时，根据播放的语音和指令词发音的相似程度来动态调整智能终端的识别阈值，即确定在播放时间段内会播出指令词的相似词时，自动提高该播放时间段内智能终端的识别阈值，使智能终端计算该时间段内出现的声音为指令词的概率高于调整后的识别阈值时，才能确定接收到了用户发出的指令词；进而避免智能终端将当前播放的语音误识别成指令词的情况。

上述说明仅是本发明实施例技术方案的概述，为了能够更清楚了解本发明实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种语音识别方法的流程图；

图2示出了本发明实施例提供的另一种语音识别方法的流程图；

图3示出了本发明实施例提供的一种语音识别装置的框图；

图4示出了本发明实施例提供的另一种语音识别装置的框图；

图5示出了本发明实施例提供的一种电子设备的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为了解决现有技术中存在误识别指令词的问题，本发明实施例提供了一种语音识别方法，参考图1所示，该方法包括：

101、在确定播放语音的文本中包含相似词时，获取所述相似词对应的播放时间段。

智能终端能够利用文本转语音(TTS，TextToSpeech)系统将文本转换成语音进行播放。而在播放语音时，会对该播放语音所对应的文本进行分析，查找该文本中是否包含与智能终端的指令词发音相似的词，即相似词；若确定文本中含有相似词，则判断该相似词在播放时可能会被智能终端误识别为指令词，需要获取该相似词对应的语音的播放时间段，以便后续将该播放时间段内的识别阈值进行调整，以消除误识别。

进一步的，在对本文进行分析时，需要获取文本对应的音素分布，以及每个音素的播放时长。将文本中的文字分隔成若干待测词，将该待测词的音素分布和指令词的音素分布进行比计较，若待测词和指令词中的相同音素分布的相似度大于预置的相似度阈值时，则确定该待测词为该指令词的相似词。然后根据该待测词中每个音素的播放时长计算该待测词的播放时间段。其中，相似度阈值可以根据需求进行设置，本实施例对该相似阈值的数值不作具体限定。

102、在所述播放时间段内提高所述智能终端的识别阈值。

在确定播放语音中包含指令词的相似词，并确定了该相似词的播放时间段后，需要对播放语音的播放进度进行实时监控，在监控到该语音播放到相似词的播放时间段时，立即提高该播放时间段内的识别阈值，以避免智能终端将播放的相似词误识别为指令词。其中，识别阈值的提高幅度可以根据需求进行设置，本实施例对识别阈值的提高数值不作具体限定。

103、在所述智能终端计算出所述播放时间段内接收的声音为指令词的概率高于提高后的识别阈值时，确定所述声音为指令词。

在根据相似词和指令词的相似度，动态提高了相似词的播放时间段内的识别阈值后，智能终端计算的该相似词为指令词的概率就会低于提高后的识别阈值；而只有在接收到的声音为指令词的概率高于提高后的识别阈值时，智能终端才会确定该声音为指令词，进而避免了将该相似词误识别为指令词。

本发明实施例提供的语音识别方法，能够在播放语音之前，从该语音的文本中确定该语音是否包含与智能终端的指令词发音相似的相似词。与现有技术只能根据固定的识别阈值来判断是否接收到指令词相比，本实施例的音识别方法能够在智能终端播放语音时，根据播放的语音和指令词发音的相似程度来动态调整智能终端的识别阈值，即确定在播放时间段内会播出指令词的相似词时，自动提高该播放时间段内智能终端的识别阈值，使智能终端计算该时间段内出现的声音为指令词的概率高于调整后的识别阈值时，才能确定接收到了用户发出的指令词，进而防止智能终端将当前播放的语音误识别成指令词的情况发生。

进一步的，作为对图1所示实施例的细化及扩展，本发明实施例还提供了另一种语音识别方法，参照图2所示，该方法包括：

201、计算所述文本中的待测词和所述指令词的音素的相似度。

待测词可以是由所述文本中任意连续文字组成的词，该待测词中包含文字的个数可以和指令词中文字的个数相同，也可以和指令词中文字的个数不同。计算待测词和所述指令词的音素的相似度的具体方式如下：

(1)将所述待测词和所述指令词中相同位置的文字的音素进行对比。

(2)若对比的文字中所有的音素相同，则记录具有相同音素的文字数量。

(3)根据记录的文字数量和所述指令词包含的文字数量的比值确定所述相似度。

指令词为“你好问问”，获取该指令词的音素“ni hao wen wen”。播放语音播放语音对应的文本为“你好，问题我们遇到过”，在对该文本进行分析时，提取其中的所有待测词“你好问题”、“好问题我”、“问题我们”、“题我们遇”、“我们遇到”、“们遇到过”、“遇到过”、“到过”，然后获取上述所有待测词的音素分布“ni hao wen ti”、“hao wen ti wo”、“wenti wo men”、“ti wo men yu”、“wo men yu dao”、“men yu dao guo”、“yu dao guo”、“daoguo”。之后将待测词中第一个文字的音素和指令词中第一个文字的音素进行对比，待测词中第二个文字的音素和指令词中第二个文字的音素进行对比，以此类推，直至待测词和指令词中每一个每个文字都对比完成。然后记录下待测词和指令词中具有相同音素的文字的数量，最后再根据记录的文字数量和所述指令词包含的文字数量的比值确定该待测词和指令词的相似度；例如第一个待测词和指令词的相似度Similarity＝(ni hao wen wen)x(nihao wenti)＝75％。

或者在提取了文本中的待测词后，获取上述所有待测词包含语调的音素分布“ni3hao3wen4ti2”、“hao3wen3ti4wo3”、“wen4ti2wo3men2”、“ti2wo3men2yu4”、“wo3men2yu4dao4”、“men2yu4dao4guo4”、“yu4dao4guo4”、“dao4guo4”。之后将待测词中第一个文字的包含语调的音素和指令词中第一个文字的包含语调的音素进行对比，待测词中第二个文字的包含语调的音素和指令词中第二个文字的包含语调的音素进行对比，以此类推，直至待测词和指令词中每一个每个文字都对比完成。然后记录下待测词和指令词中具有相同音素的文字的数量，最后再根据记录的文字数量和所述指令词包含的文字数量的比值确定该待测词和指令词的相似度；例如第一个待测词和指令词的相似度Similarity＝(ni3hao3wen4wen4)x(ni3hao3wen4ti2)＝75％。

进一步的，可以利用滑动窗对待测词和指令词进行对比。按照指令词包含的文字个数来设置滑动窗的长度，例如指令词为“你好问问”，对应的滑动窗的长度为4。将滑动窗设置在文本上，在对比过程中，每次将滑动窗滑动一个文字的长度。然后计算滑动窗的窗口中显示的待测词和指令词的相似度。

202、在所述相似度大于相似度阈值时，确定所述待测词为相似词。

将计算的相似度和预置的相似度阈值进行比较，例如当相似度阈值为90％时，待测词“你好问题”和指令词“你好问问”的相似度小于相似度阈值，即确待测词“你好问题”为非相似词；当当相似度阈值为60％时，待测词“你好问题”和指令词“你好问问”的相似度大于相似度阈值，即确待测词“你好问题”为相似词。

203、获取所述相似词在播放语音中对应的播放开始时间和播放结束时间。

在确定待测词为相似词后，需要进一步获取相似词的播放时间段。具体可以是在对文本进行分析时，获取文本中每个文字的音素的播放时长，然后在确定相似词时，从中提取相似词中文字对应的播放时长，得到该相似词在播放语音中的播放开始时间和播放结束时间。例如，在对文本“你好，问题我们遇到过”进行分析时，获取其中每个文字的音素的播放时长：音素“ni(你)”的播放时长为0s-0.3s，音素“hao(好)”的播放时长为0.3s-0.7s，音素“wen(问)”的播放时长为0.7s-0.9s，音素“ti(题)”的播放时长为0.9s-1.1s，音素“wo(我)”的播放时长为1.1s-1.3s，音素“men(们)”的播放时长为1.3s-1.6s，音素“yu(遇)”的播放时长为1.6s-1.8s，音素“dao(到)”的播放时长为1.8s-2.0s，音素“guo(过)”的播放时长为2.0s-2.3s。在确定“你好问题”是相似词后，提取到其音素的播放时长0s-0.3s、0.3s-0.7s、0.7s-0.9s和0.9s-1.1s，得到该相似词的播放开始时间为0s，播放结束时间为1.1s。

204、根据所述播放开始时间和所述播放结束时间确定所述播放时间段。

在获取了相似词的播放开始时间和播放结束时间后，就可以确定该相似词在播放语音中的播放时间段了。例如，相似词“你好问题”的播放开始时间为0s，播放结束时间为1.1s，获得该相似词“你好问题”的播放时间段为0s-1.1s。

205、根据预设的相似度和加权系数的对应关系，以及计算的相似度获取所述相似词对应的加权系数。

预先在智能终端中设置相似词和指示词的各种相似度，并将不同的相似度和不同的加权系数进行对应。该加权系数是计算提高后的识别阈值时所用的系数。进一步的，对应关系中相似度的值都大于相似度阈值，相似度越大其对应的加权系数越大。进一步的，可以将相似度和加权系数以对应关系表的形式预先存储在智能终端中。例如，相似度阈值为50％，其对应的加权系数即为1，预设的相似度为55％、60％、65％、70％和75％，预设对应的加权系数分别为1.1、1.2、1.3、1.4和1.5，在智能终端中预设对应关系如表1所述：

表1对应关系表

相似度	50％	55％	60％	65％	70％	75％
							加权系数	1	1.05	1.1	1.15	1.2	1.25

确定待测词为相似词后，根据计算得到相似词和指令词的相似度，在智能终端预设的对应关系中查找与该相似度对应的加权系数，然后提取该加权系数，并同时获取为智能终端设置的识别阈值的原始数值，以便后续计算提高后的识别阈值使用。

需要说明的是，步骤203-204实现的是对相似词播放时间段的获取，步骤205实现的是对相似词加权系数的获取，两者之间不存在逻辑关联，图2所示的步骤执行顺序仅仅是示例之一，本实施例对步骤203-204和步骤205的执行顺序并不作限定。

206、根据所述加权系数提高所述播放时间段内所述智能终端的识别阈值。

在获知播放语音中包含指令词的相似词后，根据该相似词的相似度对应的加权系数和识别阈值的原始数值，计算在相似词的播放时间段内提高的识别阈值。并且，当播放该播放语音时，会实时监控其播放进度。在监控到相似词的播放时间段时，立即将识别阈值提高为之前计算的提高后的识别阈值的数值。例如，相似词的指令词的相识度为65％，根据预设相似度和加权系数的对应关系可获知对应的加权系数为1.15，而智能终端的识别阈值的原始数值是73％，那么计算出的在相似词的播放时间段内提高的识别阈值即为73％×1.15＝83.95％。在监控到播放语音播放进入到相似词的播放时间段内时，将智能终端的识别阈值由73％提高到83.95％。

207、当所述播放进度超出所述播放时间段时，将所述识别阈值调整回原始数值。

在对播放语音的播放进度进行监控时，不仅要在监控到进入相似词的播放时间段时提高智能终端的识别阈值，还要在监控到该播放进度超出相似词的播放时间段时，立刻将智能终端的识别阈值调回原始数值，以避免在没有相似词干扰的情况下，智能终端依旧以较高的识别阈值来判断是否接收到指令词，使智能终端的拒识率增高，进而带来不良的体验用户。

本发明实施例提供的语音识别方法，能够根据文字的音素来判断播放语音中是否包括指令词的相似词以及该相似词和指令词的相似度。并且能够根据不同的相似度来动态调整在播放不同相似词的时间段内智能终端的识别阈值，相似词的相似度越大，其在播放时智能终端对识别阈值的调整就越高，以确保通过智能终端对识别阈值的调整来准确地避免将当前播放的语音误识别成指令词。而且在监控到当前的播放进度超出相似词的播放时间段时，能够立刻将智能终端的识别阈值调回原始数值，以避免增加智能终端的拒识率。

进一步的，作为对上述图1和图2所示方法的实现，本发明实施例还提供了一种语音识别装置，用于对上述图1和图2所示的方法进行实现。该装置实施例与前述方法实施例对应，并能够对应实现前述方法实施例中的全部内容。参考图3所示，该装置包括：获取单元31、提高单元32和确定单元33。

获取单元31，用于在确定播放语音的文本中包含相似词时，获取所述相似词对应的播放时间段。

智能终端在播放由文本转语音系统转换的语音时，会对该播放语音所对应的文本进行分析，查找该文本中是否包含与智能终端的指令词发音相似的相似词；若确定文本中含有相似词，则判断该相似词在播放时可能会被智能终端误识别为指令词，需要获取单元31获取该相似词对应的语音的播放时间段，以便后续将该播放时间段内的识别阈值进行调整，以消除误识别。

提高单元32，用于在所述播放时间段内提高所述智能终端的识别阈值。

在获取单元31获取了相似词的播放时间段后，智能终端会对播放语音的播放进度进行实时监控，在监控到该语音播放到相似词的播放时间段时，控制提高单元32立即提高智能终端的识别阈值，即动态调整该播放时间段内的识别阈值。其中，识别阈值的提高幅度可以根据需求进行设置，本实施例对识别阈值的提高数值不作具体限定。

在提高了识别阈值后，智能终端计算的该相似词为指令词的概率就会低于提高后的识别阈值，而确定单元33只有智能终端计算出接收到的声音为指令词的概率高于提高后的识别阈值时，才会确定该声音为指令词，进而避免了将该相似词误识别为指令词。

进一步的，参考图4所示，该装置还包括：

调整单元34，用于当所述播放进度超出所述播放时间段时，将所述识别阈值调整回原始数值。

为了避免在没有相似词干扰的情况下，智能终端依旧以较高的识别阈值来判断是否接收到指令词，使智能终端的拒识率增高，在对播放语音的播放进度进行监控时，需要调整单元34在播放进度超出相似词的播放时间段时，立刻将智能终端的识别阈值调回原始数值。

进一步的，参考图4所示，所述获取单元31包括：计算模块311和确定模块312。

计算模块311，用于计算所述文本中的待测词和所述指令词的音素的相似度。

按照实际需求，将文本中的文字分隔成若干待测词，该待测词是由文本中任意连续文字组成的词，其包含的文字个数可以和指令词中文字的个数相同，也可以和指令词中文字的个数不同。计算模块311根据测词中文字的音素和指令词中对应位置文字的音素进行一一比较，以计算待测词和指令词的相似度。

确定模块312，用于在所述相似度大于相似度阈值时，确定所述待测词为相似词。

确定模块312将计算的相似度和预置的相似度阈值进行比较，若待测词和指令词的相似度大于预置的相似度阈值时，则确定该待测词为该指令词的相似词。其中，相似度阈值可以根据需求进行设置，本实施例对该相似阈值的数值不作具体限定。

进一步的，参考图4所示，所述计算模块311包括：对比子模块3111、记录子模块3112和确定子模块3113。

对比子模块3111，用于将所述待测词和所述指令词中相同位置的文字的音素进行对比。

在本实施例中，当计算模块311待测词和指令词的相似度时，利用了对比子模块3111将待测词中第一个文字的音素和指令词中第一个文字的音素进行对比，待测词中第二个文字的音素和指令词中第二个文字的音素进行对比，以此类推，直至待测词和指令词中每一个每个文字都对比完成。或利用对比子模块3111将待测词中第一个文字的包含语调的音素和指令词中第一个文字的包含语调的音素进行对比，待测词中第二个文字的包含语调的音素和指令词中第二个文字的包含语调的音素进行对比，以此类推，直至待测词和指令词中每一个每个文字都对比完成。

进一步的，对比子模块3111还可以通过滑动窗对待测词和指令词进行对比。

记录子模块3112，用于当对比的文字中所有的音素相同时，记录具有相同音素的文字数量；

确定子模块3113，用于根据记录的文字数量和所述指令词包含的文字数量的比值确定所述相似度。

然后记录子模块3112会记录下进过对比子模块3111对比的待测词和指令词中具有相同音素的文字的数量，并由确定子模块3113根据记录子模块3112记录的文字数量和指令词包含的文字数量的比值确定该待测词和指令词的相似度；例如第一个待测词和指令词的相似度Similarity＝(ni hao wenwen)x(ni hao wen ti)＝75％，或Similarity＝(ni3hao3wen4wen4)x(ni3hao3wen4ti2)＝75％。

进一步的，所述获取单元31还用于根据预设的相似度和加权系数的对应关系，以及计算的相似度获取所述相似词对应的加权系数。

智能终端中预先设置有相似词和指示词的各种相似度，并存储了相似度和加权系数的对应关系，该加权系数是计算提高后的识别阈值时所用的系数。进一步的，可以将相似度和加权系数以对应关系表的形式预先存储在智能终端中。在确定模块312确定了待测词是相似词后，获取单元31根据计算模块311计算得到的相似度，在预设的对应关系中查找与该相似度对应的加权系数，然后提取该加权系数；并获取为智能终端设置的识别阈值的原始数值，以便将加权系数和识别阈值的原始数值发送给提高单元33。

所述提高单元33还用于根据所述加权系数提高所述播放时间段内所述智能终端的识别阈值。

提高单元33会根据接收到的加权系数和识别阈值的原始数值计算对应相似词的识别阈值的提高数值，并在监控到播放语音播放到了该相似词的播放时间段内时，立即将识别阈值提高为该计算的提高数值。

进一步的，参考图4所示，所述获取单元31还包括：

获取模块313，用于获取所述相似词在播放语音中对应的播放开始时间和播放结束时间。

所述确定模块312还用于根据所述播放开始时间和所述播放结束时间确定所述播放时间段。

在确定待测词为相似词后，为了能够在播放该相似词时动态提高智能终端的识别阈值，还需要进一步获取该相似词的播放时间段。具体可以是在对文本进行分析时，通过获取模块313获取文本中每个文字的音素的播放时长，然后在确定相似词时，从中提取相似词中文字对应的播放时长，得到该相似词在播放语音中的播放开始时间和播放结束时间。在获取模块313获取了相似词的播放开始时间和播放结束时间后，确定模块312就可以确定该相似词在播放语音中的播放时间段了。

本发明实施例提供的语音识别装置，能够在播放语音之前，通过获取单元31从该语音的文本中确定该语音是否包含与智能终端的指令词发音相似的相似词，并在确定了相似词时，同时获取该相似词对应的播放时间段。与现有技术只能根据固定的识别阈值来判断是否接收到指令词相比，本实施例的音识别装置控制提高单元33根据该相似词和指令词的相似程度来动态调整智能终端的识别阈值，使智能终端计算播放相似词的时间段内出现的声音为指令词的概率高于调整后的识别阈值时，才能确定接收到了用户发出的指令词，进而避免智能终端将当前播放的相似词误识别成指令词。

并且，获取单元31的计算模块311能够根据文字的音素来计算待测词和指令词的相似度，以及获取单元31的记录子模块3112和确定子模块3113能够根据计算的相似度判断播放语音中是否包括指令词的相似词。而且，语音识别装置可以根据不同的相似度预设对应的加权系数，使提高单元33够根据不同的加权系数来计算不同相似词对应的识别阈值的提高数值，以在播放不同相似词时对应调整智能终端的识别阈值，以确保通过智能终端对识别阈值的调整来准确地避免将当前播放的语音误识别成指令词。以及，为了避免调高后的识别阈值会增加智能终端的拒识率，在监控到当前的播放进度超出了相似词的播放时间段时，装置会通过调整单元34立刻将智能终端的识别阈值调回原始数值。

所述语音识别装置包括处理器和存储器，上述获取单元、提高单元和确定单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来提高用户需求分析结果的准确性。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述语音识别方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述语音识别方法。

本发明实施例提供了一种电子设备，如图5所示，包括：

至少一个处理器(processor)41；

以及与所述处理器41连接的至少一个存储器(memory)42、总线43；

所述处理器41、存储器42通过所述总线43完成相互间的通信；

所述处理器41用于调用所述存储器42中的程序指令，以执行以下步骤：

在确定播放语音的文本中包含相似词时，获取所述相似词对应的播放时间段，所述相似词是所述与智能终端的指令词发音相似的词；

在所述播放时间段内提高所述智能终端的识别阈值；

可选的，当所述播放进度超出所述播放时间段时，将所述识别阈值调整回原始数值。

可选的，确定播放语音的文本中包含相似词，包括：

计算所述文本中的待测词和所述指令词的音素的相似度，所述待测词是由所述文本中任意连续文字组成的词；

在所述相似度大于相似度阈值时，确定所述待测词为相似词。

可选的，计算所述文本中的待测词和所述指令词的音素的相似度，包括：

将所述待测词和所述指令词中相同位置的文字的音素进行对比；

若对比的文字中所有的音素相同，则记录具有相同音素的文字数量；

根据记录的文字数量和所述指令词包含的文字数量的比值确定所述相似度。

可选的，根据预设的相似度和加权系数的对应关系和计算的相似度获取相似词对应的加权系数；

在所述播放时间段内提高所述智能终端的识别阈值，包括：

根据所述加权系数提高所述播放时间段内所述智能终端的识别阈值。

可选的，获取所述相似词对应的播放时间段，包括：

获取所述相似词在播放语音中对应的播放开始时间和播放结束时间；

根据所述播放开始时间和所述播放结束时间确定所述播放时间段。

本发明实施例中的设备可以是服务器、PC、PAD、手机等。

本发明实施例还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

1、在确定播放语音的文本中包含相似词时，获取所述相似词对应的播放时间段，所述相似词是所述与智能终端的指令词发音相似的词。

2、在所述播放时间段内提高所述智能终端的识别阈值。

3、在所述智能终端计算出所述播放时间段内接收的声音为指令词的概率高于提高后的识别阈值时，确定所述声音为指令词。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

在所述播放时间段内提高所述智能终端的识别阈值；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述播放进度超出所述播放时间段时，将所述识别阈值调整回原始数值。

3.根据权利要求1或2所述的方法，其特征在于，确定播放语音的文本中包含相似词，包括：

4.根据权利要求3所述的方法，其特征在于，计算所述文本中的待测词和所述指令词的音素的相似度，包括：

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

根据预设的相似度和加权系数的对应关系，以及计算的相似度获取所述相似词对应的加权系数；

在所述播放时间段内提高所述智能终端的识别阈值，包括：

6.根据权利要求1或2所述的方法，其特征在于，获取所述相似词对应的播放时间段，包括：

7.一种语音识别装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

调整单元，用于当所述播放进度超出所述播放时间段时，将所述识别阈值调整回原始数值。

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述权利要求1至6中所述的语音识别方法。

10.一种电子设备，其特征在于，包括：

至少一个处理器；

以及与所述处理器连接的至少一个存储器、总线；其中

所述处理器、存储器通过所述总线完成相互间的通信；

所述处理器用于调用所述存储器中的程序指令，以执行如权利要求1至6中所述的语音识别方法。