CN109979440B

CN109979440B - 关键词样本确定方法、语音识别方法、装置、设备和介质

Info

Publication number: CN109979440B
Application number: CN201910189413.1A
Authority: CN
Inventors: 李敬
Original assignee: Guangzhou Wangxing Information Technology Co Ltd
Current assignee: Guangzhou Wangxing Information Technology Co Ltd
Priority date: 2019-03-13
Filing date: 2019-03-13
Publication date: 2021-05-11
Anticipated expiration: 2039-03-13
Also published as: WO2020182042A1; CN109979440A

Abstract

本发明公开了一种关键词样本确定方法、语音识别方法、装置、设备和介质。其中，该关键词样本确定方法包括：获取关键词；在已有的语音识别样本库中获取包括所述关键词的目标语音样本；确定所述目标语音样本中的关键词语音片段，得到关键词样本。本发明实施例提供的技术方案，无需通过专门录制在各个场景下各用户的关键词语音来生成关键词样本，通过在已有的语音识别样本库中获取包含关键词的目标语音样本，并截取出目标语音样本中的关键词语音片段，得到关键词样本，减少了关键词样本的获取成本，提高了关键词样本确定的全面性，通过该关键词样本训练得到的关键词识别模型来识别相应用户语音中包含的关键词，提高了语音识别的准确性。

Description

关键词样本确定方法、语音识别方法、装置、设备和介质

技术领域

本发明实施例涉及语音识别技术领域，尤其涉及一种关键词样本确定方法、语音识别方法、装置、设备和介质。

背景技术

随着市场上的智能音箱不断增多，语音识别领域的相关技术得到了很大的发展和应用，其中关键词识别(Key Word Spotting，KWS)技术作为语音交互控制的基础也得到了广泛的应用。

目前，KWS技术中主要采用基于各类神经网络的方式来识别语音中携带的关键词，此时需要采集大量包含预先定义的关键词和非关键词的音频数据，由该音频数据对构建的神经网络中的参数进行训练、验证和测试，使得构建的神经网络能够准确识别用户语音中的关键词信息。

现有方案中通过人工录制对应的关键词语音，以采集大量的音频数据来得到关键词训练集，需要花费较高的成本，而且要求所采集音频数据的录音环境与预先定义的关键词所在的实际环境一致，从而导致各类关键词的生成存在一定的局限性。

发明内容

本发明实施例提供了一种关键词样本确定方法、语音识别方法、装置、设备和介质，提高关键词样本确定的全面性，增强语音识别的准确性。

第一方面，本发明实施例提供了一种关键词样本确定方法，该方法包括：

获取关键词；

在已有的语音识别样本库中获取包括所述关键词的目标语音样本；

确定所述目标语音样本中的关键词语音片段，得到关键词样本。

第二方面，本发明实施例提供了一种语音识别方法，该方法包括：

获取用户的语音指令；

通过关键词识别模型识别所述语音指令中的关键词，所述关键词识别模型预先通过如第一方面中所述的关键词样本确定方法确定的关键词样本训练；

根据所述关键词触发相应的操作。

第三方面，本发明实施例提供了一种关键词样本确定装置，该装置包括：

关键词获取模块，用于获取关键词；

目标语音获取模块，用于在已有的语音识别样本库中获取包括所述关键词的目标语音样本；

关键词样本确定模块，用于确定所述目标语音样本中的关键词语音片段，得到关键词样本。

第四方面，本发明实施例提供了一种语音识别装置，该装置包括：

语音指令获取模块，用于获取用户的语音指令；

关键词识别模块，用于通过关键词识别模型识别所述语音指令中的关键词，所述关键词识别模型预先通过如第三方面中所述的关键词样本确定装置确定的关键词样本训练；

操作触发模块，用于根据所述关键词触发相应的操作。

第五方面，本发明实施例提供了一种设备，该设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明第一方面中所述的关键词样本确定方法，或者实现本发明第二方面中所述的语音识别方法。

第六方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明第一方面中所述的关键词样本确定方法，或者实现本发明第二方面中所述的语音识别方法。

本发明实施例提供了一种关键词样本确定方法、语音识别方法、装置、设备和介质，通过在已有的语音识别样本库中获取包含关键词的目标语音样本，并截取出目标语音样本中的关键词语音片段，得到关键词样本，由于已有的语音识别样本库中包含大量各类用户或者各类场景下的语音样本，此时获取的包含关键词的目标语音样本也相应处于多种语音场景类型下，使得截取出的关键词语音片段也处于多种语音场景类型下，进而得到多样化的关键词样本，无需通过专门录制在各个场景下各用户的关键词语音来生成关键词样本，减少了关键词样本的获取成本，提高了关键词样本确定的全面性，通过该关键词样本训练得到的关键词识别模型来识别相应用户语音中包含的关键词，提高了语音识别的准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1A为本发明实施例一提供的一种关键词样本确定方法的流程图；

图1B为本发明实施例一提供的方法中确定关键词样本的原理示意图；

图2A为本发明实施例二提供的一种关键词样本确定方法的流程图；

图2B为本发明实施例二提供的一种关键词样本确定过程的原理示意图；

图2C为本发明实施例二提供的方法中语音样本中的音频数据的波形示意图；

图3A为本发明实施例三提供的一种语音识别方法的流程图；

图3B为本发明实施例三提供的方法中语音识别过程的原理示意图；

图4为本发明实施例四提供的一种关键词样本确定装置的结构示意图；

图5为本发明实施例五提供的一种语音识别装置的结构示意图；

图6为本发明实施例六提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。此外，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

由于通过识别用户语音中携带的关键词来进行语音交互控制，在语音识别领域得到了广泛地使用，而此时的关键词可以是日常生活中任一种用户感兴趣的关键词，但现有的关键词数据集一般仅是某些公司或者机构公开的用于科学研究使用的关键词，无法与日常生活中感兴趣的关键词匹配，难以查找到相应感兴趣的关键词语音数据集，此时相比关键词识别技术，任意类型的语音识别中存在的训练数据集所包含的内容更加丰富，因此本发明实施例中利用已有的语音识别样本库中查找包含相应关键词的目标语音样本，并在目标语音样本中截取出对应的关键词语音片段，得到对应的关键词样本，无需通过录制各用户在各个不同实际场景下的关键词语音来确定关键词样本，减少了关键词样本的获取成本，提高了关键词样本确定的全面性，有效地减少了关键词样本确定的工作量，通过该关键词样本训练得到的关键词识别模型来识别相应用户语音中包含的关键词，提高了语音识别的准确性。

实施例一

图1A为本发明实施例一提供的一种关键词样本确定方法的流程图，本实施例可应用于任一种需要确定用于模型训练的关键词样本的情况中。本发明实施例的方案可以适用于如何解决关键词样本的获取成本高且存在局限性的问题。本实施例提供的一种关键词样本确定方法可以由本发明实施例提供的关键词样本确定装置来执行，该装置可以通过软件和/或硬件的方式来实现，并集成在执行本方法的设备中，该设备可以是任一种智能终端设备，如笔记本电脑、平板或者台式机等。

具体的，参考图1A，该方法可以包括如下步骤：

S110，获取关键词。

其中，关键词是指开发人员预先根据语音交互需求设定的在日常生活中用户较为感兴趣的任意词语，通过在用户语音中识别出该关键词可以执行相应的触发操作。

具体的，在通过关键词识别技术进行语音交互控制时，开发人员首先会根据语音交互中的开发需求指定一个关键词，用于指示通过该关键词实现相应的触发操作；此时开发人员首先将指定的关键词输入执行本实施例中关键词样本确定方法的设备中，使得该设备获取开发人员预先定义的关键词，以便后续自动生成对应的关键词样本。进而对设定的关键词识别模型进行训练。

S120，在已有的语音识别样本库中获取包括关键词的目标语音样本。

其中，由于语音识别技术相比关键词识别技术更早被各个领域的开发人员进行研究，使得其对应的训练数据集中包含的语音数据也更加丰富，此时语音识别样本库是指语音识别技术在发展过程中已经预先构建的存储有大量各领域下的用户语音的数据库，也就是现有的大词汇量连续语音识别(Large Vocabulary Continuous Speech Recognition，LVCSR)系统中提供的包含各类场景下的用户语音的大词汇量样本集合。示例性的，本实施例中语音识别样本库可以是现有的语音识别工具库，如Kaldi、Sphinx或者HTK等语音识别框架下的各类语音工具包。

可选的，在获取到开发人员预先指定的关键词时，可以根据该关键词在已有的语音识别样本库，也就是现有的大词汇量连续语音识别系统中提供的包含各类场景下的各个用户语音的大词汇量样本集合中选取出包括该关键词的目标语音样本；此时由于语音识别技术被处于各个领域的开发人员在各类场景下研究使用，因此已有的语音识别样本库中包括大量各类场景下的各种用户语音，使得获取的目标语音样本为各类场景下具备多样化的语音样本，且能够保证在已有的语音识别样本库中获取的目标语音样本的样本数量足够大，在后续足以构建用于训练关键词识别模型的训练样本集合。

可选的，如图1B所示，在本实施例中，在已有的语音识别样本库中获取包括关键词的目标语音样本，具体可以包括：在已有的语音识别样本库中，查找标注数据中包括关键词的语音样本，查找到的语音样本作为目标语音样本。

具体的，在已有的语音识别样本库包含的语音样本可以由相应的音频数据和标注数据两部分组成；其中音频数据可以为表示该语音样本中用户声音频率、幅度变化以及持续时长等声音信号特征的数据，每个音频数据中可以通过记录相应用户语音中声音波形来展示；标注数据可以为记录用户语音内容的编号和文字信息等。此时在获取到指定的关键词时，可以首先查询已有的语音识别样本库，通过遍历已有的语音识别样本库中包含的每一语音样本，对组成各个语音样本的标注数据进行解析，判断标注数据中是否包括指定的关键词，从而查找出由包括指定的关键词的标注数据组成的语音样本，忽略不包括指定的关键词的标注数据组成的语音样本，进而将查找出的语音样本作为目标语音样本，以便进行后续的关键词分析。

以Kaldi语音识别框架为例对具体的查找过程进行实例说明，Kaldi语音识别框架下提供了大量已经公开的语音识别样本库，如中文的aishell和thchs30样本库等，英文的wsj和librispeech样本库等；此时该已有的语音识别样本库中包含大量由音频数据和标注数据两部分组成的语音样本，其中标注数据如下：“BAC009S0002W0130财政金融政策紧随其后而来”；其中，“BAC009S0002W0130”表示该标注数据所组成的语音样本的编号，能够明确标注数据与语音样本之间的匹配关系；“财政金融政策紧随其后而来”表示该标注数据所组成的语音样本中包含内容的文字信息。具体的，如获取的关键词为“金融”，则首先查询已有的语音识别样本库中，遍历其中包含的各个语音样本的标注数据，提取出标注数据中包括该关键词“金融”的语音样本，如上述示例的内容为“财政金融政策紧随气候而来”的语音样本，将查找出的该语音样本作为目标语音样本，此时可以在Kaldi语音识别框架下提供的大量已经公开的语音识别样本库中获取到大量各类场景下包含关键词“金融”的目标语音样本，后续对目标语音样本进行处理，得到各类场景下对应的关键词语音。

S130，确定目标语音样本中的关键词语音片段，得到关键词样本。

其中，关键词语音片段是指语音样本中仅携带有指定的关键词对应的语音，而不存在其他内容对应语音的语音片段。

具体的，本实施例在获取到目标语音样本后，通过特定的语音识别技术对目标语音样本进行识别，得到表示该目标语音样本具体语音特征信息的识别结果，并根据该识别结果确定出目标语音样本中包含的关键词所处的语音范围，进而在目标语音样本中确定出对应的关键词语音片段，并在目标语音样本中的对应语音范围内截取出该关键词语音片段，此时该关键词语音片段中仅包含关键词的内容和声音特征信息，而不存在关键词以外其他内容的信息，因此将该关键词语音片段作为本实施例中的关键词样本。

进一步的，由于通过遍历已有的语音识别样本库中每一语音样本，可以获取到大量在各类场景下的标注数据中包括指定的关键词的目标语音样本，因此从目标语音样本中确定的关键词语音片段的数量也足够多，进而能够得到在各类场景下的关键词样本，以便后续通过各类场景下的关键词样本对相应的关键词识别模型进行训练。

本实施例提供的技术方案，通过在已有的语音识别样本库中获取包含关键词的目标语音样本，并截取出目标语音样本中的关键词语音片段，得到关键词样本，由于已有的语音识别样本库中包含大量各类用户或者各类场景下的语音样本，此时获取的包含关键词的目标语音样本也相应处于多种语音场景类型下，使得截取出的关键词语音片段也处于多种语音场景类型下，进而得到多样化的关键词样本，无需通过专门重复录制在各个场景下各用户的关键词语音来生成关键词样本，减少了关键词样本的获取成本，提高了关键词样本确定的全面性。

实施例二

图2A为本发明实施例二提供的一种关键词样本确定方法的流程图，图2B为本发明实施例二提供的一种关键词样本的确定过程的原理示意图。本实施例中是在上述实施例提供的技术方案的基础上进行优化。具体的，本实施例中对目标语音样本中关键词语音片段的具体确定过程进行详细的解释说明。

可选的，如图2A所示，本实施例中可以包括如下步骤：

S210，获取关键词。

S220，在已有的语音识别样本库中获取包括关键词的目标语音样本。

S230，确定关键词的音素在目标语音样本的音频数据音素中的起始时间点和终止时间点。

其中，音素是根据语音属性划分的最小语音单位，可以依据用户语音的发音动作来分析；本实施例中的音素可以为语音构成中的各个声母和韵母。具体的，本实施例中预先为存在的每一音素设定相应的编号，并存储于对应的音素表中，以便后续根据各个因素的编号对目标语音样本进行识别。同时，由于目标语音样本的音频数据是表示用户声音频率、幅度变化以及持续时长等声音信号特征的数据，也就是持续一段时间的语音数据，因此该音频数据中包含的用户发出的每一词语均匹配有相应的起止时间范围，此时起始时间点是指在目标语音样本的音频数据中用户开始发出该关键词时所处的时间点，终止时间点是指在目标语音样本的音频数据中用户结束发出该关键词时所处的时间点。

具体的，本实施例在获取到标注数据中包括关键词的目标语音样本时，首先对组成该目标语音样本的音频数据进行语音识别，而由于音频数据是持续一段时间的声音特征数据，且属于准稳态的语音信号，此时在对音频数据进行语音识别时，首先会确定该音频数据的分帧情况，一般设定语音帧长度为20ms-30ms，本实施例中的语音帧长度为20ms，进而对每一语音帧内的音频数据包含的音素进行识别，此时根据预先设定的音素编号以及语音帧长度对目标语音样本中的音频数据进行识别，得到对应音素识别结果，并确定该关键词的音素在该音素识别结果中存在的范围，也就是关键词的音素在音素识别结果中起始点和终止点，进而根据设定的语音帧长度以及音素识别结果中起始点和终止点对应的音素编号数量，确定关键词的音素在目标语音样本的音频数据音素中的起始时间点和终止时间点。

示例性的，对于“财政金融政策紧随其后而来”的目标语音样本，关键词为“金融”，音频数据对应的波形如图2C所示，关键词“金融”对应的音素为j、in、r和ong，其中由于用户在发音时，两个字之间可能存在一定时长的静音，因此音频数据中包含的关键词中的“金”和“融”之间会有一定的静音，预先设定静音的编号为“1”，j的编号为“17”，in的编号为“23”，r的编号为“18”以及ong的编号为“27”，语音帧长度为20ms，此时根据音素编号以及语音帧长度对该音频数据进行识别，得到对应的音素识别结果为“1 1 1 1 1…17 17 17 1723 23 23 23 23 23 23 1 18 18 18 27 27 27 27 27 27…”，每一个编号对应一个语音帧长度，此时可以观察到关键词中的“金”对应的音素“j”的编号17共有4帧，“in”的编号23共有7帧，“融”对应的音素“r”的编号18共有3帧，“ong”的编号27共有6帧，此时“金”对应的音素“j”的第一帧在整个音素识别结果中为第63帧，因此该关键词“金融”中的“金”在音频数据中的起始时间点为62*20ms＝1.24s，“金”在音素识别结果中共持续了11帧，因此“金”在音频数据中的持续时长为11*20ms＝0.22s；同样，可以得到“融”在音频数据中的起始时间点为1.24s+0.22s+20ms＝1.48s，“融”在音素识别结果中共持续了9帧，对应的持续时长为9*20ms＝0.18s，因此“金融”在目标语音样本的音频数据中的总共持续时长为0.22s+20ms+0.18s＝0.42s；从而确定关键词“金融”在目标语音样本的音频数据中的起始时间点为1.24s，终止时间点为1.66s。

S240，根据起始时间点和终止时间点截取对应的音频数据，得到关键词语音片段。

可选的，在确定关键词的音素在目标语音样本的音频数据音素中的起始时间点和终止时间点时，可以在该音频数据中截取出位于起始时间点和终止时间点之间的音频数据片段，也就是在上述“财政金融政策紧随其后而来”的目标语音样本对应的音频数据中，截取出位于1.24s到1.66s之间的音频数据片段，或者在该音频数据中从1.24s开始，截取出持续时长为0.42s的音频数据片段，作为本实施例中的关键词语音片段，此时该关键词语音片段中仅包含有关键词“金融”的语音信息。

S250，在关键词语音片段的前和后填充预设长度的静音数据，得到关键词样本。

可选的，在得到对应的关键词语音片段时，为了保证关键词样本的独立性，本实施例中可以在得到的关键词语音片段的前和后的位置填充预设长度的静音数据，本实施例中的静音数据可以为预设语音帧长度的数据“0”，从而得到一个独立的关键词样本，便于后续与其他语音样本进行区分。

以aishell语音识别样本库为例，其中包含了178小时以及400人在各个领域下的语音样本，此时可以查找出包含有关键词“金融”的目标语音样本一共有610条，通过本实施例中的关键词样本确定方法分别对查找出的610条目标语音样本进行关键词截取，可以得到关键词为“金融”的610条关键词样本，进而得到多样化的关键词样本集合，为后续的关键词识别模型的训练创造了一定的条件。

本实施例提供的技术方案，通过确定关键词的音素在目标语音样本的音频数据音素中的起始时间点和终止时间点，并截取出目标语音样本的音频数据中位于起始时间点和终止时间点之间的关键词语音片段，得到关键词样本，保证关键词样本确定的多样化，无需通过专门重复录制在各个场景下各用户的关键词语音来生成关键词样本，减少了关键词样本的获取成本，提高了关键词样本确定的全面性和准确性。

实施例三

图3A为本发明实施例三提供的一种语音识别方法的流程图，本实施例可应用于任一种对用户的语音指令中包含的关键词进行识别的情况中。本发明实施例的方案可以适用于如何解决关键词识别模型训练过程繁琐的问题。本实施例提供的一种语音识别方法可以由本发明实施例提供的语音识别装置来执行，该装置可以通过软件和/或硬件的方式来实现，并集成在执行本方法的设备中，该设备可以是任一种智能终端设备，如笔记本电脑、平板或者台式机等。

具体的，参考图3A，本实施例可以包括如下步骤：

S310，获取用户的语音指令。

具体的，用户在需要执行某项操作时，会发出携带有与该操作对应的关键词的语音，设备在接收到用户发出的语音时生成对应的语音指令，该语音指令中携带有相应的关键词；本实施例中会根据应用场景不同预先设定各个关键词与不同操作之间的匹配关系，如在短视频应用中可以设置预定义的不同关键词与不同视频特效之间的匹配关系，而在直播应用中可以设置预定义的关键词来在直播间中赠送相应的礼物等。

S320，通过关键词识别模型识别语音指令中的关键词。

其中，关键词识别模型预先通过本发明实施例提供的关键词样本确定方法确定的关键词样本训练。示例性的，本实施例首先获取用户预先指定的关键词，并查询已有的语音识别样本库中包含的每一语音样本，判断组成该语音样本的标注数据中是否包括指定的关键词，进而将标注数据中包括指定的关键词的语音样本作为目标语音样本，并根据词语音素确定关键词音素在目标语音样本的音频数据音素中的起始时间点和终止时间点，截取出位于起始时间点和终止时间点之间的音频数据片段，作为关键词语音片段，进而得到大量关键词样本。本实施例中在得到各类关键词的关键词样本后，会生成相应的关键词样本库，该关键词样本库中包含有用户指定的各个关键词下的不同场景以及不同用户发出的仅包含关键词语音的关键词样本。

进一步的，如图3B所示，在得到包含各个关键词对应的不同场景下的关键词样本的关键词样本库后，可以通过该关键词样本库中包含的大量关键词样本对预先设定的关键词识别模型进行训练，此时通过将各关键词对应的关键词样本输入预先设定的关键词识别模型中，得到该关键词样本对应的关键词识别结果，并判断本次识别存在的分类损失，在该分类损失超出预设损失阈值时，根据该分类损失对关键词识别模型进行修复，并继续获取该关键词下对应的关键词样本，再次输入到修复后的关键词识别模型中进行关键词识别，直至得到的分类损失未超出预设损失阈值，此时获取关键词样本库中的下一关键词对应的关键词样本在此进行训练，直至对关键词样本库中包含的每一关键词下的关键词样本均进行训练，进而得到最终的关键词识别模型，此时该关键词识别模型能够准确识别出任意语音中的关键词。

可选的，本实施例在获取到用户的语音指令时，可以将该语音指令输入到预先训练好的关键词识别模型中，由关键词识别模型对该语音指令进行解析，进而准确识别出该语音指令中携带的关键词，以便后续根据该关键词执行相应的操作。

S330，根据关键词触发相应的操作。

具体的，通过关键词识别模型识别出用户的语音指令中携带的关键词后，通过对该携带的关键词进行分析，确定与该关键词匹配的操作，进而触发执行该操作，实现相应的语音交互控制。

本实施例提供的技术方案，通过上述关键词样本的确定方确定的关键词样本对预先设定的关键词识别模型进行训练，使得该关键词识别模型能够准确识别出语音指令中携带的关键词，进而根据识别出的关键词触发执行相应的操作，简化了模型训练时采集关键词样本的操作繁琐度，减少了关键词样本的获取成本，通过该关键词样本训练得到的关键词识别模型来识别相应用户语音中携带的关键词，提高了语音识别的准确性。

实施例四

图4为本发明实施例四提供的一种关键词样本确定装置的结构示意图，具体的，如图4所示，该装置可以包括：

关键词获取模块410，用于获取关键词；

目标语音获取模块420，用于在已有的语音识别样本库中获取包括关键词的目标语音样本；

关键词样本确定模块430，用于确定目标语音样本中的关键词语音片段，得到关键词样本。

进一步的，上述目标语音获取模块420，具体可以用于：在已有的语音识别样本库中，查找标注数据中包括关键词的语音样本，查找到的语音样本作为目标语音样本。

进一步的，上述关键词样本确定模块430，可以包括：

时间点确定单元，用于确定关键词的音素在目标语音样本的音频数据音素中的起始时间点和终止时间点；

关键词片段截取单元，用于根据起始时间点和终止时间点截取对应的音频数据，得到关键词语音片段。

进一步的，上述关键词样本确定模块430，还可以包括：

静音填充单元，用于在关键词语音片段的前和后填充预设长度的静音数据，得到关键词样本。

本实施例提供的关键词样本确定装置可适用于上述本发明任意实施例提供的关键词样本确定方法，具备相应的功能和有益效果。

实施例五

图5为本发明实施例五提供的一种语音识别装置的结构示意图，具体的，如图5所示，该装置可以包括：

语音指令获取模块510，用于获取用户的语音指令；

关键词识别模块520，用于通过关键词识别模型识别语音指令中的关键词，该关键词识别模型预先通过上述实施例提供的关键词样本确定装置确定的关键词样本训练；

操作触发模块530，用于根据关键词触发相应的操作。

本实施例提供的语音识别装置可适用于上述发明任意实施例提供的语音识别方法，具备相应的功能和有益效果。

实施例六

图6为本发明实施例六提供的一种设备的结构示意图，如图6所示，该设备包括处理器60、存储装置61和通信装置62；设备中处理器60的数量可以是一个或多个，图6中以一个处理器60为例；设备中的处理器60、存储装置61和通信装置62可以通过总线或其他方式连接，图6中以通过总线连接为例。

存储装置61作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中提供的关键词样本确定方法或者语音识别方法对应的程序指令/模块。处理器60通过运行存储在存储装置61中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述关键词样本确定方法或者语音识别方法。

存储装置61可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储装置61可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置61可进一步包括相对于处理器60远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

通信装置62可用于实现设备间的网络连接或者移动数据连接。

本实施例提供的一种设备可用于执行上述任意实施例提供的关键词样本确定方法或者语音识别方法，具备相应的功能和有益效果。

实施例七

本发明实施例七还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可实现上述任意实施例中的关键词样本确定方法。该方法具体可以包括：

获取关键词；

在已有的语音识别样本库中获取包括关键词的目标语音样本；

确定目标语音样本中的关键词语音片段，得到关键词样本。

或者，实现上述任意实施例中的语音识别方法，该方法具体可以包括：

获取用户的语音指令；

通过关键词识别模型识别语音指令中的关键词，该关键词识别模型预先通过如上述任意实施例提供的关键词样本确定方法确定的关键词样本训练；

根据关键词触发相应的操作。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的关键词样本确定方法或者语音识别方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述关键词样本确定装置或者语音识别装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种关键词样本确定方法，其特征在于，包括：

获取关键词；

在已有的语音识别样本库中获取包括所述关键词的目标语音样本，其中，所述语音识别样本库包括现有的大词汇量连续语音识别系统中提供的包含各类场景下的用户语音的大词汇量样本集合；

确定所述目标语音样本中的关键词语音片段，得到关键词样本，其中，所述关键词语音片段是指语音样本中仅携带有指定的关键词对应的语音，而不存在其他内容对应语音的语音片段；

所述确定所述目标语音样本中的关键词语音片段，包括：

确定所述关键词的音素在所述目标语音样本的音频数据音素中的起始时间点和终止时间点；

根据所述起始时间点和终止时间点截取对应的音频数据，得到关键词语音片段。

2.根据权利要求1所述的方法，其特征在于，所述在已有的语音识别样本库中获取包括所述关键词的目标语音样本，包括：

在已有的语音识别样本库中，查找标注数据中包括所述关键词的语音样本，查找到的语音样本作为目标语音样本。

3.根据权利要求1至2任一项所述的方法，其特征在于，所述得到关键词样本，包括：

在所述关键词语音片段的前和后填充预设长度的静音数据，得到所述关键词样本。

4.一种语音识别方法，其特征在于，包括：

获取用户的语音指令；

通过关键词识别模型识别所述语音指令中的关键词，所述关键词识别模型预先通过如权利要求1至3任一项所述的关键词样本确定方法确定的关键词样本训练；

根据所述关键词触发相应的操作。

5.一种关键词样本确定装置，其特征在于，包括：

关键词获取模块，用于获取关键词；

目标语音获取模块，用于在已有的语音识别样本库中获取包括所述关键词的目标语音样本，其中，所述语音识别样本库包括现有的大词汇量连续语音识别系统中提供的包含各类场景下的用户语音的大词汇量样本集合；

关键词样本确定模块，用于确定所述目标语音样本中的关键词语音片段，得到关键词样本，其中，所述关键词语音片段是指语音样本中仅携带有指定的关键词对应的语音，而不存在其他内容对应语音的语音片段；

所述关键词样本确定模块，包括：

6.根据权利要求5所述的装置，其特征在于，所述目标语音获取模块，具体用于：

7.一种语音识别装置，其特征在于，包括：

语音指令获取模块，用于获取用户的语音指令；

关键词识别模块，用于通过关键词识别模型识别所述语音指令中的关键词，所述关键词识别模型预先通过如权利要求5或6所述的关键词样本确定装置确定的关键词样本训练；

操作触发模块，用于根据所述关键词触发相应的操作。

8.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-3中任一项所述的关键词样本确定方法，或者实现如权利要求4中所述的语音识别方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-3中任一项所述的关键词样本确定方法，或者实现如权利要求4中所述的语音识别方法。