CN110634468A - 语音唤醒方法、装置、设备及计算机可读存储介质 - Google Patents

语音唤醒方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN110634468A
CN110634468A CN201910857371.4A CN201910857371A CN110634468A CN 110634468 A CN110634468 A CN 110634468A CN 201910857371 A CN201910857371 A CN 201910857371A CN 110634468 A CN110634468 A CN 110634468A
Authority
CN
China
Prior art keywords
feature extraction
voice
awakening
keyword
extraction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910857371.4A
Other languages
English (en)
Other versions
CN110634468B (zh
Inventor
刘金财
刘驰
于向丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201910857371.4A priority Critical patent/CN110634468B/zh
Publication of CN110634468A publication Critical patent/CN110634468A/zh
Application granted granted Critical
Publication of CN110634468B publication Critical patent/CN110634468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Electric Clocks (AREA)

Abstract

本发明提供一种语音唤醒方法、装置、设备及计算机可读存储介质。本发明的方法,通过根据第一预设时段内语音唤醒失败的语音数据,确定适用于当前场景的目标特征提取模型;响应于语音唤醒指令,分别通过原始特征提取模型和所述目标特征提取模型对输入语音进行特征提取处理,得到第一关键词和第二关键词;将所述第一关键词和第二关键词分别与唤醒词进行匹配;若所述第一关键词和第二关键词中的至少一个与唤醒词匹配成功,则唤醒设备,可以减少输入语音正确但是识别出的关键词与唤醒词不匹配导致唤醒失败的情况发生,提高了语音唤醒的成功率低。

Description

语音唤醒方法、装置、设备及计算机可读存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种语音唤醒方法、装置、设备 及计算机可读存储介质。
背景技术
语音唤醒作为语音识别技术中比较常见的一种应用,其价值在于方便人 们在不触碰设备时使用声音启动设备,解放人们的双手。
现有的语音唤醒方法,通常设定常用的唤醒词,通过特征提取模型提取 输入语音的关键词,确认关键词与唤醒词匹配时,唤醒设备。在现实使用中, 在不同时间段,设备的使用场景和使用者可能会变化。当设备处于某些特殊 的嘈杂场景中、或者进行语音唤醒的使用者的说话习惯改变时,设备特征提 取模型可能会因不适用当前场景和语音习惯,导致输入语音正确但是识别出 的关键词与唤醒词不匹配,导致唤醒失败的情况,语音唤醒的成功率低。
发明内容
本发明提供一种语音唤醒方法、装置、设备及计算机可读存储介质,用 以解决现有技术中当设备处于某些特殊的嘈杂场景中、或者进行语音唤醒的 使用者的说话习惯改变时,设备特征提取模型可能会因不适用当前场景和语 音习惯,导致输入语音正确但是识别出的关键词与唤醒词不匹配,导致唤醒 失败的情况,语音唤醒的成功率低的问题。
本发明的一个方面是提供一种语音唤醒方法,包括:
根据第一预设时段内语音唤醒失败的语音数据,确定目标特征提取模型;
响应于语音唤醒指令,分别通过原始特征提取模型和所述目标特征提取 模型对输入语音进行特征提取处理,得到第一关键词和第二关键词;
将所述第一关键词和第二关键词分别与唤醒词进行匹配;
若所述第一关键词和第二关键词中的至少一个与唤醒词匹配成功,则唤 醒设备。
本发明的另一个方面是提供一种语音唤醒装置,包括:
目标特征提取模型确定模块,用于根据第一预设时段内语音唤醒失败的 语音数据,确定目标特征提取模型;
特征提取模块,用于响应于语音唤醒指令,分别通过原始特征提取模型 和所述目标特征提取模型对输入语音进行特征提取处理,得到第一关键词和 第二关键词;
唤醒处理模块,用于将所述第一关键词和第二关键词分别与唤醒词进行 匹配;
所述唤醒处理模块还用于:若所述第一关键词和第二关键词中的至少一 个与唤醒词匹配成功,则唤醒设备。
本发明的另一个方面是提供一种语音唤醒设备,包括:
处理器,存储器,以及存储在所述存储器上并可在所述处理器上运行的 计算机程序;
其中,所述处理器运行所述计算机程序时实现上述所述的语音唤醒方法。
本发明的另一个方面是提供一种计算机可读存储介质,所述计算机可读 存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现上述所 述的语音唤醒方法。
本发明提供的语音唤醒方法、装置、设备及计算机可读存储介质,通过 根据第一预设时段内语音唤醒失败的语音数据,确定适用于当前场景的目标 特征提取模型;响应于语音唤醒指令,分别通过原始特征提取模型和所述目 标特征提取模型对输入语音进行特征提取处理,得到第一关键词和第二关键 词;将所述第一关键词和第二关键词分别与唤醒词进行匹配;若所述第一关 键词和第二关键词中的至少一个与唤醒词匹配成功,则唤醒设备,可以减少 输入语音正确但是识别出的关键词与唤醒词不匹配导致唤醒失败的情况发生, 提高了语音唤醒的成功率低。
附图说明
图1为本发明实施例提供的语音唤醒方法的应用场景示意图;
图2为本发明实施例一提供的语音唤醒方法流程图;
图3为本发明实施例二提供的语音唤醒方法流程图;
图4为本发明实施例三提供的语音唤醒装置的结构示意图;
图5为本发明实施例五提供的语音唤醒设备的结构示意图。
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描 述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围, 而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的 描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的 要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所 有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一 些方面相一致的装置和方法的例子。
本发明所涉及术语“第一”、“第二”等仅用于描述目的,而不能理解 为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各 实施例的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。
本发明具体的应用场景如图1所示,用户通过语音可以控制智能语音设 备,比如用户通过语音唤醒指令唤醒智能语音设备。在某些嘈杂场景中,特 征提取模型可能不适应当前场景,出现输入语音正确但是识别出的关键词与 唤醒词不匹配,导致唤醒失败的情况;或者,在智能音箱的使用者更换为其 他用户时,使用者的说话习惯改变,也会出现输入语音正确但是识别出的关 键词与唤醒词不匹配,导致唤醒失败的情况。
本发明提供的语音唤醒的方法,旨在解决现有技术的如上技术问题。
下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解 决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对 于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图, 对本发明的实施例进行描述。
实施例一
图2为本发明实施例一提供的语音唤醒方法流程图。本发明实施例针对 有技术中当设备处于某些特殊的嘈杂场景中、或者进行语音唤醒的使用者的 说话习惯改变时,设备特征提取模型可能会因不适用当前场景和语音习惯, 导致输入语音正确但是识别出的关键词与唤醒词不匹配,导致唤醒失败的情 况,语音唤醒的成功率低的问题,提供了语音唤醒方法。
本实施例中的方法应用于语音唤醒设备,该语音唤醒设备可以是智能手 机、智能音箱、智能家电等智能语音设备,也可以是用于远程控制智能语音 设备的服务器等,在其他实施例中,该方法还可应用于其他设备,本实施例 以智能语音设备为例进行示意性说明。
如图2所示,该方法具体步骤如下:
步骤S101、根据第一预设时段内语音唤醒失败的语音数据,确定目标特 征提取模型。
第一预设时段内语音唤醒失败的语音数据是指在第一预设时段内用户通 过语音唤醒智能语音设备时,在唤醒失败后,智能语音设备存储的用户输入 的语音数据。
其中第一预设时段可以由技术人员根据实际应用场景和需要进行设定, 本实施例此处不做具体限定。例如,第一预设时段可以是10天、20天、一 个月、几个月等等。
本实施例中,目标特征提取模型可以是对原始特征提取模型的模型参数 优化之后的模型,或者还可以是对其他特征提取模型进行模型训练得到的模 型。
作为一种可能的实施方式,可以根据第一预设时段内语音唤醒失败的语 音数据,对原始特征提取模型进行模型参数优化,得到目标特征提取模型。
示例性的,可以通过对备用唤醒词的语音数据标注正确关键词,生成训 练数据,通过训练数据对原始特征提取模型训练,确定新的模型参数,得到 优化后的模型,作为目标特征提取模型。
作为另一种可能的实施方式,还可以据第一预设时段内语音唤醒失败的 语音数据,对备选特征提取模型进行模型训练,将备选特征提取模型中效果 最优的模型作为目标特征提取模型。其中,备选特征提取模型可以是现有技 术中任意一种用于语音识别的特征提取模型,例如,动态时间归整(Dynamic Time Warping,简称DTW)算法,隐马尔可夫模型(Hidden Markov Model, 简称HMM),矢量量化(Vector Quantization,VQ)模型等等,另外,备选 特征提取模型还可以是卷积神经网络模型,本实施例此处不做具体限定。
步骤S102、响应于语音唤醒指令,分别通过原始特征提取模型和目标特 征提取模型对输入语音进行特征提取处理,得到第一关键词和第二关键词。
由于目标特征提取模型是根据第一预设时段内语音唤醒失败的语音数据 训练或者优化之后得到的,目标特征提取模型会很好地适用于当前场景。
本实施例中,当接收到用户的语音唤醒指令时,智能语音设备分别通过 原始特征提取模型对用户输入语音进行特征提取,得到第一关键词,通过目 标特征提取模型对用户输入语音进行特征提取,得到第二关键词。
可选的,智能语音设备通过原始特征提取模型对用户输入语音进行特征 提取得到第一关键词,与通过目标特征提取模型对用户输入语音进行特征提 取得到第二关键词的过程可以并行进行,或者可以按照任意顺序先后进行, 本实施例此处不做具体限定。
步骤S103、将第一关键词和第二关键词分别与唤醒词进行匹配。
智能语音设备分别通过原始特征提取模型对用户输入语音进行特征提取 得到第一关键词,通过目标特征提取模型对用户输入语音进行特征提取得到 第二关键词之后,将第一关键词和第二关键词分别与唤醒词进行匹配。
如果第一关键词和第二关键词中至少一个与唤醒词匹配成功,则执行步 骤S104唤醒设备,唤醒成功。
如果第一关键词和第二关键词中均与唤醒词匹配失败,则执行步骤S105 不唤醒设备,唤醒失败。
步骤S104、若第一关键词和第二关键词中的至少一个与唤醒词匹配成功, 则唤醒设备。
步骤S105、若第一关键词和第二关键词均与唤醒词匹配失败,则不唤醒 设备。
本发明实施例通过根据第一预设时段内语音唤醒失败的语音数据,确定 适用于当前场景的目标特征提取模型;响应于语音唤醒指令,分别通过原始 特征提取模型和目标特征提取模型对输入语音进行特征提取处理,得到第一 关键词和第二关键词;将第一关键词和第二关键词分别与唤醒词进行匹配; 若第一关键词和第二关键词中的至少一个与唤醒词匹配成功,则唤醒设备, 可以减少输入语音正确但是识别出的关键词与唤醒词不匹配导致唤醒失败的 情况发生,提高了语音唤醒的成功率低。
实施例二
图3为本发明实施例二提供的语音唤醒方法流程图。在上述实施例一的 基础上,本实施例中,根据第一预设时段内语音唤醒失败的语音数据,确定 目标特征提取模型,包括:通过原始特征提取模型提取各语音数据对应的第 三关键词;将与唤醒词的相似度大于预设相似度阈值且出现次数大于预设次 数阈值的第三关键词作为备用唤醒词;通过每种备选特征提取模型,提取备 用唤醒词对应的语音数据的第四关键词,并计算提取得到的第四关键词与唤 醒词匹配的成功率;将提取得到的第四关键词与唤醒词匹配的成功率最高的 备选特征提取模型确定为目标特征提取模型。
如图3所示,该方法具体步骤如下:
步骤S201、获取第一预设时段内语音唤醒失败的语音数据。
本实施例中,在第一预设时段内,在每次唤醒设备失败时,智能语音设 备实时地存储输入的语音数据。
其中第一预设时段可以由技术人员根据实际应用场景和需要进行设定, 本实施例此处不做具体限定。例如,第一预设时段可以是10天、20天、一 个月、几个月等等。
本实施例中,根据第一预设时段内语音唤醒失败的语音数据,确定目标 特征提取模型,具体可以采用如下步骤S202-S205实现。
步骤S202、通过原始特征提取模型提取各语音数据对应的第三关键词。
对于第一预设时段内语音唤醒失败的语音数据,通过原始特征提取模型 分别对每次唤醒失败的语音数据进行特征提取,得到对应的第三关键词。
步骤S203、将与唤醒词的相似度大于预设相似度阈值且出现次数大于预 设次数阈值的第三关键词作为备用唤醒词。
具体的,分别计算各语音数据对应的第三关键词与唤醒词的相似度,统 计各语音数据出现的次数,筛选出与唤醒词的相似度大于预设相似度阈值并 且出现次数大于预设次数阈值第三关键词,作为备用唤醒词。通常确定的备 用唤醒词有多个。
其中,计算第三关键词与唤醒词的相似度的方法可以采用现有技术中任 意一种计算两个词或者两个短文本之间的相似度的方法实现,本实施例此处 不再赘述。
另外,预设相似度阈值可以由技术人员根据实际应用场景和经验进行设 定,例如,预设相似度阈值可以为90%、或者95%等,本实施例此处不做具体 限定。
预设次数阈值可以由技术人员根据实际应用场景和经验进行设定,例如, 预设次数阈值可以为5次或10次等,本实施例此处不做具体限定。
步骤S204、通过每种备选特征提取模型,提取备用唤醒词对应的语音数 据的第四关键词,并计算提取得到的第四关键词与唤醒词匹配的成功率。
其中,备选特征提取模型包括一种或者多种特征提取模型。备选特征提 取模型可以是现有技术中任意一种用于语音识别的特征提取模型,例如,动 态时间归整(DynamicTime Warping,简称DTW)算法,隐马尔可夫模型(Hidden Markov Model,简称HMM),矢量量化(Vector Quantization,VQ)模型等 等,另外,备选特征提取模型还可以是卷积神经网络模型,本实施例此处不 做具体限定。
可选的,还可以根据第一预设时段内语音唤醒失败的语音数据,对原始 特征提取模型进行模型参数优化,得到优化后的模型作为一个备选特征提取 模型。
进一步的,可以通过对备用唤醒词的语音数据标注正确关键词,生成训 练数据,通过训练数据对原始特征提取模型训练,确定新的模型参数,得到 优化后的模型,作为一个备选特征提取模型。
本实施例中,在确定备用唤醒词之后,从第一预设时段内语音唤醒失败 的语音数据中筛选出各备用唤醒词对应的语音数据;然后分别将每种备选特 征提取模型作为目标备选模型,通过目标备选模型提取各备用唤醒词对应的 语音数据的第四关键词,将各个第四关键词与唤醒词进行匹配,并统计第四 关键词与唤醒词匹配的成功率,得到目标备选模型对应的第四关键词与唤醒 词匹配的成功率。这样,可以得到每种备选特征提取模型对应的第四关键词 与唤醒词匹配的成功率。
步骤S205、将提取得到的第四关键词与唤醒词匹配的成功率最高的备选 特征提取模型确定为目标特征提取模型。
在得到每种备选特征提取模型对应的第四关键词与唤醒词匹配的成功率 之后,确定对应的第四关键词与唤醒词匹配的成功率最高的备选特征提取模 型,作为目标特征提取模型。
由于目标特征提取模型是根据第一预设时段内语音唤醒失败的语音数据 训练之后得到的,目标特征提取模型会很好地适用于当前场景。
步骤S206、响应于语音唤醒指令,分别通过原始特征提取模型和目标特 征提取模型对输入语音进行特征提取处理,得到第一关键词和第二关键词。
本实施例中,当接收到用户的语音唤醒指令时,智能语音设备分别通过 原始特征提取模型对用户输入语音进行特征提取,得到第一关键词,通过目 标特征提取模型对用户输入语音进行特征提取,得到第二关键词。
可选的,智能语音设备通过原始特征提取模型对用户输入语音进行特征 提取得到第一关键词,与通过目标特征提取模型对用户输入语音进行特征提 取得到第二关键词的过程可以并行进行,或者可以按照任意顺序先后进行, 本实施例此处不做具体限定。
步骤S207、将第一关键词和第二关键词分别与唤醒词进行匹配。
智能语音设备分别通过原始特征提取模型对用户输入语音进行特征提取 得到第一关键词,通过目标特征提取模型对用户输入语音进行特征提取得到 第二关键词之后,将第一关键词和第二关键词分别与唤醒词进行匹配。
如果第一关键词和第二关键词中至少一个与唤醒词匹配成功,则执行步 骤S208唤醒设备,唤醒成功。
如果第一关键词和第二关键词中均与唤醒词匹配失败,则执行步骤S209 不唤醒设备,唤醒失败。
可选的,在将第一关键词和第二关键词分别与唤醒词进行匹配之后,可 以根据匹配结果,记录唤醒日志信息。唤醒日志信息至少包括:通过原始特 征提取模型是否唤醒成功,通过目标特征提取模型是否唤醒成功。
步骤S208、若第一关键词和第二关键词中的至少一个与唤醒词匹配成功, 则唤醒设备。
可选的,在唤醒设备成功之后,记录唤醒日志信息。唤醒日志信息至少 包括:通过原始特征提取模型是否唤醒成功,通过目标特征提取模型是否唤 醒成功。
步骤S209、若第一关键词和第二关键词均与唤醒词匹配失败,则不唤醒 设备。
可选的,在唤醒设备失败之后,记录唤醒日志信息。唤醒日志信息至少 包括:通过原始特征提取模型是否唤醒成功,通过目标特征提取模型是否唤 醒成功。
本实施例中,唤醒日志信息还可以包括记录时间,唤醒结果等等信息, 或者还可以包括其他需要记录在唤醒日志中的信息,本实施例此处不做具体 限定。
本实施例另一实施方式中,智能语音设备还可以根据唤醒日志信息,确 定是否停止使用目标特征提取模型进行语音唤醒。
示例性的,根据唤醒日志信息,计算第二预设时段内通过目标特征提取 模型唤醒成功的次数,若在第二预设时段内通过目标特征提取模型唤醒成功 的次数小于第一阈值,则停止使用目标特征提取模型进行语音唤醒。
其中,第一阈值可以由技术人员根据实际应用场景和经验进行设定,本 实施例此处不做具体限定。
示例性的,根据唤醒日志信息,计算第二预设时段内通过目标特征提取 模型的唤醒成功率,若在第二预设时段内通过目标特征提取模型的唤醒成功 率大于第二阈值,则停止使用目标特征提取模型进行语音唤醒。
其中,第二阈值可以由技术人员根据实际应用场景和经验进行设定,本 实施例此处不做具体限定。
第二预设时段可以由技术人员根据实际应用场景和经验进行设定,本实 施例此处不做具体限定。
本实施例的另一实施方式中,还可以每隔第三预设时段,通过上述步骤 S201-S205,根据最近一段时期内语音唤醒失败的语音数据,更新目标特征提 取模型,以使更新后的目标特征提取模型能够更加适用于近期智能语音设备 的应用场景。
本发明实施例通过获取第一预设时段内语音唤醒失败的语音数据,通过 原始特征提取模型提取各语音数据对应的第三关键词;将与唤醒词的相似度 大于预设相似度阈值且出现次数大于预设次数阈值的第三关键词作为备用唤 醒词;通过每种备选特征提取模型,提取备用唤醒词对应的语音数据的第四 关键词,并计算提取得到的第四关键词与唤醒词匹配的成功率;将提取得到 的第四关键词与唤醒词匹配的成功率最高的备选特征提取模型确定为目标特 征提取模型,能够更好地确定更加适用于智能语音设备当前的应用场景的特 征提取模型;在进行语音唤醒时,同时使用原始特征提取模型和目标特征提 取模型进行语音唤醒处理,只要其中一个唤醒成功,就唤醒设备,可以减少 输入语音正确但是识别出的关键词与唤醒词不匹配导致唤醒失败的情况发生, 提高了语音唤醒的成功率低。
实施例三
图4为本发明实施例三提供的语音唤醒装置的结构示意图。本发明实施 例提供的语音唤醒装置可以执行语音唤醒方法实施例提供的处理流程。如图 4所示,该语音唤醒装置30包括:目标特征提取模型确定模块301,特征提 取模块302和唤醒处理模块303。
具体地,目标特征提取模型确定模块301用于根据第一预设时段内语音 唤醒失败的语音数据,确定目标特征提取模型。
特征提取模块302用于响应于语音唤醒指令,分别通过原始特征提取模 型和目标特征提取模型对输入语音进行特征提取处理,得到第一关键词和第 二关键词。
唤醒处理模块303用于将第一关键词和第二关键词分别与唤醒词进行匹 配。
唤醒处理模块303还用于:若第一关键词和第二关键词中的至少一个与 唤醒词匹配成功,则唤醒设备。
唤醒处理模块303还用于:若第一关键词和第二关键词均与唤醒词匹配 失败,则不唤醒设备。
本发明实施例提供的装置可以具体用于执行上述实施例一所提供的方法 实施例,具体功能此处不再赘述。
本发明实施例通过根据第一预设时段内语音唤醒失败的语音数据,确定 适用于当前场景的目标特征提取模型;响应于语音唤醒指令,分别通过原始 特征提取模型和目标特征提取模型对输入语音进行特征提取处理,得到第一 关键词和第二关键词;将第一关键词和第二关键词分别与唤醒词进行匹配; 若第一关键词和第二关键词中的至少一个与唤醒词匹配成功,则唤醒设备, 可以减少输入语音正确但是识别出的关键词与唤醒词不匹配导致唤醒失败的 情况发生,提高了语音唤醒的成功率低。
实施例四
在上述实施例三的基础上,本实施例中,目标特征提取模型确定模块还 用于:
通过原始特征提取模型提取各语音数据对应的第三关键词;将与唤醒词 的相似度大于预设相似度阈值且出现次数大于预设次数阈值的第三关键词作 为备用唤醒词;通过每种备选特征提取模型,提取备用唤醒词对应的语音数 据的第四关键词,并计算提取得到的第四关键词与唤醒词匹配的成功率;将 提取得到的第四关键词与唤醒词匹配的成功率最高的备选特征提取模型确定 为目标特征提取模型。
可选的,目标特征提取模型确定模块还用于:
将第一预设时段内语音唤醒失败的语音数据作为训练数据,对原始特征 提取模型进行模型参数优化,得到目标特征提取模型。
可选的,目标特征提取模型确定模块还用于:
在每次唤醒设备失败时,存储输入的语音数据。
可选的,唤醒处理模块还用于:
记录唤醒日志信息,唤醒日志信息至少包括:通过原始特征提取模型是 否唤醒成功,通过目标特征提取模型是否唤醒成功;根据唤醒日志信息,确 定是否停止使用目标特征提取模型进行语音唤醒。
可选的,唤醒处理模块还用于:
若在第二预设时段内,通过目标特征提取模型唤醒成功的次数小于第一 阈值,则停止使用目标特征提取模型进行语音唤醒;或者,若在第二预设时 段内,通过目标特征提取模型的唤醒成功率大于第二阈值,则停止使用目标 特征提取模型进行语音唤醒。
本发明实施例提供的装置可以具体用于执行上述实施例二所提供的方法 实施例,具体功能此处不再赘述。
本发明实施例通过获取第一预设时段内语音唤醒失败的语音数据,通过 原始特征提取模型提取各语音数据对应的第三关键词;将与唤醒词的相似度 大于预设相似度阈值且出现次数大于预设次数阈值的第三关键词作为备用唤 醒词;通过每种备选特征提取模型,提取备用唤醒词对应的语音数据的第四 关键词,并计算提取得到的第四关键词与唤醒词匹配的成功率;将提取得到 的第四关键词与唤醒词匹配的成功率最高的备选特征提取模型确定为目标特 征提取模型,能够更好地确定更加适用于智能语音设备当前的应用场景的特 征提取模型;在进行语音唤醒时,同时使用原始特征提取模型和目标特征提 取模型进行语音唤醒处理,只要其中一个唤醒成功,就唤醒设备,可以减少 输入语音正确但是识别出的关键词与唤醒词不匹配导致唤醒失败的情况发生, 提高了语音唤醒的成功率低。
实施例五
图5为本发明实施例五提供的语音唤醒设备的结构示意图。如图5所示, 该设备70包括:处理器701,存储器702,以及存储在存储器702上并可在 处理器701上运行的计算机程序。
其中,处理器701运行计算机程序时实现上述任一方法实施例提供的语 音唤醒方法。
本发明实施例通过根据第一预设时段内语音唤醒失败的语音数据,确定 适用于当前场景的目标特征提取模型;响应于语音唤醒指令,分别通过原始 特征提取模型和目标特征提取模型对输入语音进行特征提取处理,得到第一 关键词和第二关键词;将第一关键词和第二关键词分别与唤醒词进行匹配; 若第一关键词和第二关键词中的至少一个与唤醒词匹配成功,则唤醒设备, 可以减少输入语音正确但是识别出的关键词与唤醒词不匹配导致唤醒失败的 情况发生,提高了语音唤醒的成功率低。
另外,本发明实施例还提供一种计算机可读存储介质,计算机可读存储 介质中存储有计算机程序,计算机程序被处理器执行时实现上述任一方法实 施例提供的语音唤醒方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法, 可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的, 例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外 的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或 一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或 直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连 接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作 为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方, 或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或 者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中, 也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单 元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件 功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机 可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指 令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等) 或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述 的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、 随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以 存储程序代码的介质。
本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各 功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分 配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以 完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以 参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本 发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性 变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发 明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被 视为示例性的,本发明的真正范围和精神由下面的权利要求书指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确 结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所 附的权利要求书来限制。

Claims (10)

1.一种语音唤醒方法,其特征在于,包括:
根据第一预设时段内语音唤醒失败的语音数据,确定目标特征提取模型;
响应于语音唤醒指令,分别通过原始特征提取模型和所述目标特征提取模型对输入语音进行特征提取处理,得到第一关键词和第二关键词;
将所述第一关键词和第二关键词分别与唤醒词进行匹配;
若所述第一关键词和第二关键词中的至少一个与唤醒词匹配成功,则唤醒设备。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一关键词和第二关键词分别与唤醒词进行匹配之后,还包括:
若所述第一关键词和第二关键词均与唤醒词匹配失败,则不唤醒设备。
3.根据权利要求1所述的方法,其特征在于,所述根据第一预设时段内语音唤醒失败的语音数据,确定目标特征提取模型,包括:
将所述第一预设时段内语音唤醒失败的语音数据作为训练数据,对所述原始特征提取模型进行模型参数优化,得到所述目标特征提取模型。
4.根据权利要求1所述的方法,其特征在于,所述根据第一预设时段内语音唤醒失败的语音数据,确定目标特征提取模型,包括:
通过所述原始特征提取模型提取各所述语音数据对应的第三关键词;
将与唤醒词的相似度大于预设相似度阈值且出现次数大于预设次数阈值的第三关键词作为备用唤醒词;
通过每种备选特征提取模型,提取所述备用唤醒词对应的语音数据的第四关键词,并计算提取得到的所述第四关键词与所述唤醒词匹配的成功率;
将提取得到的所述第四关键词与所述唤醒词匹配的成功率最高的备选特征提取模型确定为所述目标特征提取模型。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述根据第一预设时段内语音唤醒失败的语音数据,确定目标特征提取模型之前,还包括:
在每次唤醒设备失败时,存储输入的语音数据。
6.根据权利要求1至4任一项所述的方法,其特征在于,所述将所述第一关键词和第二关键词分别与唤醒词进行匹配之后,还包括:
记录唤醒日志信息,所述唤醒日志信息至少包括:通过原始特征提取模型是否唤醒成功,通过目标特征提取模型是否唤醒成功;
根据所述唤醒日志信息,确定是否停止使用所述目标特征提取模型进行语音唤醒。
7.根据权利要求6所述的方法,其特征在于,所述根据所述唤醒日志信息,确定是否停止使用所述目标特征提取模型进行语音唤醒,包括:
若在第二预设时段内,通过目标特征提取模型唤醒成功的次数小于第一阈值,则停止使用所述目标特征提取模型进行语音唤醒;
或者,若在第二预设时段内,通过目标特征提取模型的唤醒成功率大于第二阈值,则停止使用所述目标特征提取模型进行语音唤醒。
8.一种语音唤醒装置,其特征在于,包括:
目标特征提取模型确定模块,用于根据第一预设时段内语音唤醒失败的语音数据,确定目标特征提取模型;
特征提取模块,用于响应于语音唤醒指令,分别通过原始特征提取模型和所述目标特征提取模型对输入语音进行特征提取处理,得到第一关键词和第二关键词;
唤醒处理模块,用于将所述第一关键词和第二关键词分别与唤醒词进行匹配;
所述唤醒处理模块还用于:若所述第一关键词和第二关键词中的至少一个与唤醒词匹配成功,则唤醒设备。
9.一种语音唤醒设备,其特征在于,包括:
处理器,存储器,以及存储在所述存储器上并可在所述处理器上运行的计算机程序;
其中,所述处理器运行所述计算机程序时实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
CN201910857371.4A 2019-09-11 2019-09-11 语音唤醒方法、装置、设备及计算机可读存储介质 Active CN110634468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910857371.4A CN110634468B (zh) 2019-09-11 2019-09-11 语音唤醒方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910857371.4A CN110634468B (zh) 2019-09-11 2019-09-11 语音唤醒方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110634468A true CN110634468A (zh) 2019-12-31
CN110634468B CN110634468B (zh) 2022-04-15

Family

ID=68972530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910857371.4A Active CN110634468B (zh) 2019-09-11 2019-09-11 语音唤醒方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110634468B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111816178A (zh) * 2020-07-07 2020-10-23 云知声智能科技股份有限公司 语音设备的控制方法、装置和设备
CN111880988A (zh) * 2020-07-09 2020-11-03 Oppo广东移动通信有限公司 一种声纹唤醒日志收集方法及装置
CN112017663A (zh) * 2020-08-14 2020-12-01 博泰车联网(南京)有限公司 一种语音泛化方法、装置及计算机存储介质
CN112037786A (zh) * 2020-08-31 2020-12-04 百度在线网络技术(北京)有限公司 语音交互方法、装置、设备以及存储介质
CN113516977A (zh) * 2021-03-15 2021-10-19 南京每深智能科技有限责任公司 关键词识别方法及系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103943105A (zh) * 2014-04-18 2014-07-23 安徽科大讯飞信息科技股份有限公司 一种语音交互方法及系统
US20150302847A1 (en) * 2014-04-17 2015-10-22 Qualcomm Incorporated Keyword model generation for detecting user-defined keyword
CN107767863A (zh) * 2016-08-22 2018-03-06 科大讯飞股份有限公司 语音唤醒方法、系统及智能终端
US20180182373A1 (en) * 2016-12-23 2018-06-28 Soundhound, Inc. Parametric adaptation of voice synthesis
CN108538293A (zh) * 2018-04-27 2018-09-14 青岛海信电器股份有限公司 语音唤醒方法、装置及智能设备
US20180336886A1 (en) * 2017-05-16 2018-11-22 Baidu Online Network Technology (Beijing) Co., Ltd. Method and device for waking up via speech based on artificial intelligence and computer device
CN109065046A (zh) * 2018-08-30 2018-12-21 出门问问信息科技有限公司 语音唤醒的方法、装置、电子设备及计算机可读存储介质
TW201905897A (zh) * 2017-06-29 2019-02-01 香港商阿里巴巴集團服務有限公司 語音喚醒方法、裝置以及電子設備
CN109545194A (zh) * 2018-12-26 2019-03-29 出门问问信息科技有限公司 唤醒词预训练方法、装置、设备及存储介质
CN110070857A (zh) * 2019-04-25 2019-07-30 北京梧桐车联科技有限责任公司 语音唤醒模型的模型参数调整方法及装置、语音设备
CN110097876A (zh) * 2018-01-30 2019-08-06 阿里巴巴集团控股有限公司 语音唤醒处理方法和被唤醒设备
CN110148399A (zh) * 2019-05-06 2019-08-20 北京猎户星空科技有限公司 一种智能设备的控制方法、装置、设备及介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150302847A1 (en) * 2014-04-17 2015-10-22 Qualcomm Incorporated Keyword model generation for detecting user-defined keyword
CN103943105A (zh) * 2014-04-18 2014-07-23 安徽科大讯飞信息科技股份有限公司 一种语音交互方法及系统
CN107767863A (zh) * 2016-08-22 2018-03-06 科大讯飞股份有限公司 语音唤醒方法、系统及智能终端
US20180182373A1 (en) * 2016-12-23 2018-06-28 Soundhound, Inc. Parametric adaptation of voice synthesis
US20180336886A1 (en) * 2017-05-16 2018-11-22 Baidu Online Network Technology (Beijing) Co., Ltd. Method and device for waking up via speech based on artificial intelligence and computer device
TW201905897A (zh) * 2017-06-29 2019-02-01 香港商阿里巴巴集團服務有限公司 語音喚醒方法、裝置以及電子設備
CN110097876A (zh) * 2018-01-30 2019-08-06 阿里巴巴集团控股有限公司 语音唤醒处理方法和被唤醒设备
CN108538293A (zh) * 2018-04-27 2018-09-14 青岛海信电器股份有限公司 语音唤醒方法、装置及智能设备
CN109065046A (zh) * 2018-08-30 2018-12-21 出门问问信息科技有限公司 语音唤醒的方法、装置、电子设备及计算机可读存储介质
CN109545194A (zh) * 2018-12-26 2019-03-29 出门问问信息科技有限公司 唤醒词预训练方法、装置、设备及存储介质
CN110070857A (zh) * 2019-04-25 2019-07-30 北京梧桐车联科技有限责任公司 语音唤醒模型的模型参数调整方法及装置、语音设备
CN110148399A (zh) * 2019-05-06 2019-08-20 北京猎户星空科技有限公司 一种智能设备的控制方法、装置、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MONIKA GRASSER: "Interdisciplinary education in vocational education and training: Supporting joint up thinking — Some insites in lecturing", 《2015 INTERNATIONAL CONFERENCE ON INTERACTIVE COLLABORATIVE LEARNING (ICL)》 *
吴宇航: "基于深度学习的语音关键词匹配模型", 《中国优秀硕士学位论文全文数据库》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111816178A (zh) * 2020-07-07 2020-10-23 云知声智能科技股份有限公司 语音设备的控制方法、装置和设备
CN111880988A (zh) * 2020-07-09 2020-11-03 Oppo广东移动通信有限公司 一种声纹唤醒日志收集方法及装置
CN111880988B (zh) * 2020-07-09 2022-11-04 Oppo广东移动通信有限公司 一种声纹唤醒日志收集方法及装置
CN112017663A (zh) * 2020-08-14 2020-12-01 博泰车联网(南京)有限公司 一种语音泛化方法、装置及计算机存储介质
CN112017663B (zh) * 2020-08-14 2024-04-30 博泰车联网(南京)有限公司 一种语音泛化方法、装置及计算机存储介质
CN112037786A (zh) * 2020-08-31 2020-12-04 百度在线网络技术(北京)有限公司 语音交互方法、装置、设备以及存储介质
CN113516977A (zh) * 2021-03-15 2021-10-19 南京每深智能科技有限责任公司 关键词识别方法及系统

Also Published As

Publication number Publication date
CN110634468B (zh) 2022-04-15

Similar Documents

Publication Publication Date Title
CN110634468B (zh) 语音唤醒方法、装置、设备及计算机可读存储介质
CN106782536B (zh) 一种语音唤醒方法及装置
CN107704275B (zh) 智能设备唤醒方法、装置、服务器及智能设备
CN108538298B (zh) 语音唤醒方法及装置
US10332507B2 (en) Method and device for waking up via speech based on artificial intelligence
CN106658129B (zh) 基于情绪的终端控制方法、装置及终端
EP3617946B1 (en) Context acquisition method and device based on voice interaction
CN108694940B (zh) 一种语音识别方法、装置及电子设备
WO2018188586A1 (zh) 一种用户注册方法、装置及电子设备
CN108538293B (zh) 语音唤醒方法、装置及智能设备
CN105556920A (zh) 用于控制对应用程序的访问的方法和设备
CN110175012B (zh) 技能推荐方法、装置、设备及计算机可读存储介质
CN111968644B (zh) 智能设备唤醒方法、装置及电子设备
CN108831477B (zh) 一种语音识别方法、装置、设备及存储介质
CN111312222A (zh) 一种唤醒、语音识别模型训练方法及装置
CN110544468B (zh) 应用唤醒方法、装置、存储介质及电子设备
CN105469789A (zh) 一种语音信息的处理方法及终端
CN110741387B (zh) 人脸识别方法、装置、存储介质及电子设备
US11194378B2 (en) Information processing method and electronic device
CN109979474A (zh) 语音设备及其用户语速修正方法、装置和存储介质
JP7208951B2 (ja) 音声対話の方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体
CN112233676A (zh) 智能设备唤醒方法、装置、电子设备及存储介质
CN110473542B (zh) 语音指令执行功能的唤醒方法、装置及电子设备
CN108766443A (zh) 匹配阈值的调整方法、装置、存储介质及电子设备
CN111081260A (zh) 一种唤醒词声纹的识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant