CN113658593B - 基于语音识别的唤醒实现方法及装置 - Google Patents
基于语音识别的唤醒实现方法及装置 Download PDFInfo
- Publication number
- CN113658593B CN113658593B CN202110933173.9A CN202110933173A CN113658593B CN 113658593 B CN113658593 B CN 113658593B CN 202110933173 A CN202110933173 A CN 202110933173A CN 113658593 B CN113658593 B CN 113658593B
- Authority
- CN
- China
- Prior art keywords
- wake
- data
- model
- word
- list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000004364 calculation method Methods 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000013518 transcription Methods 0.000 claims description 12
- 230000035897 transcription Effects 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 abstract description 13
- 230000002618 waking effect Effects 0.000 abstract description 4
- 238000004590 computer program Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Abstract
本发明涉及一种基于语音识别的唤醒实现方法及装置,所述方法包括获取语音数据并对所述语音数据进行特征提取和前向计算;将计算后的语音数据输入到预构建的唤醒模型中,得到所述唤醒模型中唤醒词备选项的置信度;将所述置信度与预设阈值进行对比,根据对比结果判断是否输出唤醒结果。本发明通过语音数据,将备选列表中的内容尽可能多地列入考虑之中,本申请提供的技术方案是通过唤醒实现,因此有效屏蔽了用户的无效输入;将于备选列表的内容尽可能多地列入考虑之中,而不局限于特定词,还能够增加考虑用户说的内容,使得在筛选时更加精确。
Description
技术领域
本发明属于人工智能技术领域,具体涉及一种基于语音识别的唤醒实现方 法及装置。
背景技术
目前,语音识别愈加广泛地应用于车载系统中。在车载系统中,语音识别 最常用的场景是导航、打电话和听音乐。这三种场景都不可避免地存在列表筛 选。在列表筛选流程中,传统的方式是通过“第一个”、“第二个”等特定词语来 进行筛选。这样的筛选词较为固定,因此较容易实现,但也限制了用户的筛选 方式。因此,更好的方式是在固定词语之外,允许用户通过列表中的内容进行数据筛选。通过列表内容筛选数据既可以使用语音唤醒实现,也可以用语音识 别实现。但是在通过语音识别进行筛选时,由于语音的候选空间较大,因此很 难保证当前流程不会被不相干的内容打断。且通过语音唤醒的方式实现时,由 于列表的内容千变万化,且长短不一,因此常规的语音唤醒技术无法直接应用。
相关技术中,市面上大部分语音产品在列表选择场景下通过列表内容筛选 数据并不理想,主要由于大家对列表数据通用的处理方式只是做了简单的分词, 之后再对词表做个性化加载。按照这种处理方式,用户能说的内容局限在某些 常见的特定词,如果提取出的词语区分度不足或者有缺失,用户就无法准确通 过列表内容筛选结果。
发明内容
有鉴于此,本发明的目的在于克服现有技术的不足,提供一种基于语音识 别的唤醒实现方法及装置,以解决现有技术中用户无法准确通过列表内容筛选 结果的问题。
为实现以上目的,本发明采用如下技术方案:一种基于语音识别的唤醒实 现方法,包括:
获取语音数据并对所述语音数据进行特征提取和前向计算;
将计算后的语音数据输入到预构建的唤醒模型中,得到所述唤醒模型中唤 醒词备选项的置信度;
将所述置信度与预设阈值进行对比,根据对比结果判断是否输出唤醒结果。
进一步的,还包括:构建唤醒模型;所述构建唤醒模型,包括:
获取场景对话,根据所述场景对话获取当前场景下的列表数据;
对所述列表数据进行分析并根据分析结果将所述列表数据转换为唤醒词, 根据所述唤醒词构建唤醒词备选项;
将所述唤醒词备选项加入生效的唤醒词列表中,生成唤醒模型。
进一步的,所述唤醒模型等待唤醒结果时,如果判断输出唤醒结果或计算 超时无法输出唤醒结果则清除新增的唤醒词。
进一步的,对所述列表数据进行分析之前,还包括:
判断所述列表数据中是否存在有效数据;
如果存在则对所述列表数据进行预处理,否则,结束流程。
进一步的,所述对所述列表数据进行预处理,包括:
将获取的场景对话转换为文字;
对所述文字进行特殊符号和/或数字转换处理。
进一步的,所述对所述列表数据进行分析并根据分析结果将所述列表数据 转换为唤醒词,包括:
对所述列表数据中的每条数据进行分词和标音;
根据每条数据得到的分词结果和标音结果的词头构建多个唤醒词。
进一步的,根据词典对所述列表数据中的每条数据进行分词。
进一步的,所述将所述置信度与预设阈值进行对比,根据对比结果判断是 否输出唤醒结果,包括:
将所述置信度与预设阈值进行对比;
如果所述置信度大于等于预设阈值,则输出该置信度对应的唤醒词备选项; 否则,继续获取语音数据.
本申请实施例提供一种基于语音识别的唤醒实现装置,包括:
获取模块,用于获取语音数据并对所述语音数据进行特征提取和前向计算;
计算模块,用于将计算后的语音数据输入到预构建的唤醒模型中,得到所 述唤醒模型中唤醒词备选项的置信度;
输出模块,用于将所述置信度与预设阈值进行对比,根据对比结果判断是 否输出唤醒结果。
进一步的,还包括:构建模块,用于构建唤醒模型;所述构建唤醒模型, 包括:
获取场景对话,根据所述场景对话获取当前场景下的列表数据;
对所述列表数据进行分析并根据分析结果将所述列表数据转换为唤醒词, 根据所述唤醒词构建唤醒词备选项;
将所述唤醒词备选项加入生效的唤醒词列表中,生成唤醒模型。
本发明采用以上技术方案,能够达到的有益效果包括:
本发明提供一种基于语音识别的唤醒实现方法及装置,所述方法包括获取 语音数据并对所述语音数据进行特征提取和前向计算;将计算后的语音数据输 入到预构建的唤醒模型中,得到所述唤醒模型中唤醒词备选项的置信度;将所 述置信度与预设阈值进行对比,根据对比结果判断是否输出唤醒结果。本发明 通过语音数据,将备选列表中的内容尽可能多地列入考虑之中,本申请提供的技术方案是通过唤醒实现,因此有效屏蔽了用户的无效输入;将于备选列表的 内容尽可能多地列入考虑之中,而不局限于特定词,还能够增加考虑用户说的 内容,使得在筛选时更加精确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施 例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述 中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付 出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于语音识别的唤醒实现方法的步骤示意图;
图2为本发明基于语音识别的唤醒实现方法的流程示意图;
图3为本发明基于语音识别的唤醒实现装置的结构示意图;
图4为本发明基于语音识别的唤醒实现方法的涉及的硬件运行环境的计算 机设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方 案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不 是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创 造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
下面结合附图介绍本申请实施例中提供的一个具体的基于语音识别的唤醒 实现方法及装置。
如图1所示,本申请实施例中提供的基于语音识别的唤醒实现方法,包括:
S101,获取语音数据并对所述语音数据进行特征提取和前向计算;
本申请实时获取用户发出的语音,例如用户可以说“导航到XXX(其中, XXX表示为某个地名)”,从而得到语音数据。然后对语音数据进行特征提取和 前向计算。
其中,特征提取是提取语音数据中的声学特征,采用的方法是如Filterbank,MFCC等,前向计算是根据声学特征和声学模型(如DNN,TDNN,CTC等), 本申请中使用TDNN模型,前向计算主要是计算音频与声学模型中建模单元的 相似性,计算后验概率。其中,后验概率是信息理论的基本概念之一。在一个 通信系统中,在收到某个消息之后,接收端所了解到的该消息发送的概率称为 后验概率。
S102,将计算后的语音数据输入到预构建的唤醒模型中,得到所述唤醒模 型中唤醒词备选项的置信度;
根据所述后验概率计算语音数据对应唤醒词备选项对应的置信度。本申请 预先构建了唤醒模型,唤醒模型用于在收到语音数据后,将语音数据与唤醒词 备选项进行对比,计算唤醒模型中唤醒词备选项的置信度,可以理解的是,本 申请中计算置信度的方法采用现有技术实现,本申请在此不再赘述。
S103,将所述置信度与预设阈值进行对比,根据对比结果判断是否输出唤 醒结果。
将置信度与预设阈值进行对比,当置信度大于等于预设阈值时,说明该置 信度对应的唤醒词备选项符合输出条件则输出该唤醒词作为唤醒结果,当置信 度小于预设阈值时,说明该置信度对应的唤醒词备选项不符合输出条件,不予 输出。
基于语音识别的唤醒实现方法的工作原理为:首先获取用户的语音数据并 对所述语音数据进行特征提取和前向计算;将计算后的语音数据输入到预构建 的唤醒模型中,得到所述唤醒模型中唤醒词备选项的置信度;将所述置信度与 预设阈值进行对比,根据对比结果判断是否输出唤醒结果。
本申请提供的技术方案专门针对一些特定的场景,将给定列表数据转换为 唤醒词列表,加入当前的备选唤醒词列表中,从而允许用户自由使用列表中的 内容筛选数据,同时因为限制了用户筛选的范围,避免不相干内容打断的筛选 流程。
一些实施例中,还包括:构建唤醒模型;所述构建唤醒模型,包括:
获取场景对话,根据所述场景对话获取当前场景下的列表数据;
对所述列表数据进行分析并根据分析结果将所述列表数据转换为唤醒词, 根据所述唤醒词构建唤醒词备选项;
将所述唤醒词备选项加入生效的唤醒词列表中,生成唤醒模型。
优选的,所述唤醒模型等待唤醒结果时,如果判断输出唤醒结果或计算超 时无法输出唤醒结果则清除新增的唤醒词。
优选的,所述对所述列表数据进行分析并根据分析结果将所述列表数据转 换为唤醒词,包括:
对所述列表数据中的每条数据进行分词和标音;
根据每条数据得到的分词结果和标音结果的词头构建多个唤醒词。
具体的,本申请获取的场景对话是从上次对话的上下文中获取,如上次发 话说“导航到XXX”,在搜索之后,会有一个XXX的列表,这就构成了当前 场景下的数据列表,就是XXX的搜索列表。对获取到的每条数据进行分词和 标音,从每条数据分词结果的词头开始,构建若干唤醒词备选项。比如,导航 搜索得到的目的地列表如下:
(1)渤海大学滨海校区;
(2)渤海大学培训学院;
(3)锦州渤海大学民宿;
第一条数据分词之后,得到“渤海大学”、“滨海”和“校区”三部分,那 么这条数据中,将产生三个唤醒词作为唤醒词备选项,分别为“渤海大学”、“滨 海”和“校区”。与此同时,这类词允许:1,只说词的一部分来唤醒,比如, 当用户说了“渤海”,即可唤醒“渤海大学”;2,说出连续的两个词来唤醒,比 如“滨海校区”,而“滨海”声音较轻,可以唤醒“滨海校区”。同样的,对第 二条和第三条数据,也做同样处理。最后,将得到的唤醒词备选项加入当前生效的唤醒词列表之中,生成唤醒模型。优选的,本申请根据词典对所述列表数 据中的每条数据进行分词。本申请中提供的技术方案标音是以标音词典为基础 的,标音词典中每一行都是对具体的文本进行发音指导,如渤海大学b o2 h ai3 d a4 x ue2声学模型是根据发音来建模的,可以建成上下文相关与不相关等声学 发音模型,表示的是发音的相似性标音的过程,就是把输入的汉字与声学模型 进行关联的过程。
可以理解的是,本申请提供的唤醒模型在使用过程中,如果判断输出唤醒 结果或计算超时无法输出唤醒结果则清除新增的唤醒词。
一些实施例中,对所述列表数据进行分析之前,还包括:
判断所述列表数据中是否存在有效数据;
如果存在则对所述列表数据进行预处理,否则,结束流程。
具体的,唤醒模型的生成阶段,在获取到对话上下文得到列表数据后,要 先判断列表数据中是否存在有效数据,有效数据为具有唤醒词备选项中分词的 列表数据,例如:列表数据为“导航去XXX”,则其中XXX在唤醒词备选项中存在,则认为该列表数据中存在有效数据。如“我们去那”,则认为不存在有效 数据。
优选的,所述对所述列表数据进行预处理,包括:
将获取的场景对话转换为文字;
对所述文字进行特殊符号和/或数字转换处理。
具体的,预处理包含特殊符号处理、数字转换等操作,如搜索结果为 “XXX178号”,需要处理成“XXX一百七十八号”和“XXX一七八号“,以 及“XXX幺七八号”。
优选的,所述将所述置信度与预设阈值进行对比,根据对比结果判断是否 输出唤醒结果,包括:
将所述置信度与预设阈值进行对比;
如果所述置信度大于等于预设阈值,则输出该置信度对应的唤醒词备选项; 否则,继续获取语音数据。
本申请的预设阈值可根据实际需要进行设置,本申请在此不做限定。
作为一个优选的实施方式,参见图2,本申请存在生成阶段以及测试阶段,生成阶段用于生成唤醒模型,测试阶段用于测试唤醒模型。首先在生成阶段, 通过用户的对话上下文获取列表数据,判断列表数据中是否存在有效数据,如 果不存在则结束流程,如果存在,则对有效数据进行预处理,然后对预处理后 的有效数据根据现有词典进行分词处理及标音处理,将所述列表数据转换为唤 醒词,根据所述唤醒词构建唤醒词备选项;将所述唤醒词备选项加入生效的唤 醒词列表中,生成唤醒模型。在测试阶段,用户输入语音,对语音数据进行特征提取和前向计算,将计算后的语音数据输入到预构建的唤醒模型中,得到所述唤醒模型中唤醒词备选项的置信度,将所述置信度与预设阈值进行对比,根 据对比结果判断是否输出唤醒结果。
如图3所示,本申请提供一种基于语音识别的唤醒实现装置,包括:
获取模块301,用于获取语音数据并对所述语音数据进行特征提取和前向 计算;
计算模块302,用于将计算后的语音数据输入到预构建的唤醒模型中,得 到所述唤醒模型中唤醒词备选项的置信度;
输出模块303,用于将所述置信度与预设阈值进行对比,根据对比结果判 断是否输出唤醒结果。
本申请提供的基于语音识别的唤醒实现装置的工作原理为,获取模块301 获取语音数据并对所述语音数据进行特征提取和前向计算;计算模块302将计 算后的语音数据输入到预构建的唤醒模型中,得到所述唤醒模型中唤醒词备选 项的置信度;输出模块303将所述置信度与预设阈值进行对比,根据对比结果判断是否输出唤醒结果。
优选的,还包括:构建模块,用于构建唤醒模型;所述构建唤醒模型,包 括:
获取场景对话,根据所述场景对话获取当前场景下的列表数据;
对所述列表数据进行分析并根据分析结果将所述列表数据转换为唤醒词, 根据所述唤醒词构建唤醒词备选项;
将所述唤醒词备选项加入生效的唤醒词列表中,生成唤醒模型。
本申请实施例提供一种计算机设备,包括处理器,以及与处理器连接的存 储器;
存储器用于存储计算机程序,计算机程序用于执行上述任一实施例提供的 基于语音识别的唤醒实现方法;
处理器用于调用并执行存储器中的计算机程序。存储器可以包括计算机可 读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形 式,如只读存储器(ROM)或闪存(flash RAM)。该计算机设备存储有操作系 统,存储器是计算机可读介质的示例。所述计算机程序被所述处理器执行时, 使得所述处理器执行基于语音识别的唤醒实现方法,如图4示出的结构,仅仅 是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上 的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的基于语音识别的唤醒实现方法可以实现为 一种计算机程序的形式,计算机程序可在如图4所示的计算机设备上运行。
一些实施例中,所述计算机程序被所述处理器执行时,使得所述处理器执 行以下步骤:获取语音数据并对所述语音数据进行特征提取和前向计算;将计 算后的语音数据输入到预构建的唤醒模型中,得到所述唤醒模型中唤醒词备选 项的置信度;将所述置信度与预设阈值进行对比,根据对比结果判断是否输出 唤醒结果。
本申请还提供一种计算机存储介质,计算机的存储介质的例子包括,但不 限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储 器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电 可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘 只读存储器(CD-ROM)、数字多功能光光盘(DVD)或其他光学存储、磁盒式磁带存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
一些实施例中,本发明还提出了一种计算机可读存储介质,存储有计算机 程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:获取 语音数据并对所述语音数据进行特征提取和前向计算;将计算后的语音数据输 入到预构建的唤醒模型中,得到所述唤醒模型中唤醒词备选项的置信度;将所 述置信度与预设阈值进行对比,根据对比结果判断是否输出唤醒结果。
综上所述,本发明提供一种基于语音识别的唤醒实现方法及装置,所述方 法包括获取语音数据并对所述语音数据进行特征提取和前向计算;将计算后的 语音数据输入到预构建的唤醒模型中,得到所述唤醒模型中唤醒词备选项的置 信度;将所述置信度与预设阈值进行对比,根据对比结果判断是否输出唤醒结 果。本发明通过语音数据,将备选列表中的内容尽可能多地列入考虑之中,本 申请提供的技术方案是通过唤醒实现,因此有效屏蔽了用户的无效输入;将于备选列表的内容尽可能多地列入考虑之中,而不局限于特定词,还能够增加考 虑用户说的内容,使得在筛选时更加精确。
可以理解的是,上述提供的方法实施例与上述的装置实施例对应,相应的 具体内容可以相互参考,在此不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计 算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结 合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包 含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品 的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/ 或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或 方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式 处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机 或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流 程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备 以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的 指令产生包括指令方法的制造品,该指令方法实现在流程图一个流程或多个流 程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使 得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程 或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于 此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到 变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应 以所述权利要求的保护范围为准。
Claims (7)
1.一种基于语音识别的唤醒实现方法,其特征在于,包括:
获取语音数据并对所述语音数据进行特征提取和前向计算;
将计算后的语音数据输入到预构建的唤醒模型中,得到所述唤醒模型中唤醒词备选项的置信度;
将所述置信度与预设阈值进行对比,根据对比结果判断是否输出唤醒结果;
还包括:构建唤醒模型;所述构建唤醒模型,包括:
获取场景对话,根据所述场景对话获取当前场景下的列表数据;
对所述列表数据进行分析并根据分析结果将所述列表数据转换为唤醒词,根据所述唤醒词构建唤醒词备选项;
将所述唤醒词备选项加入生效的唤醒词列表中,生成唤醒模型;
所述唤醒模型等待唤醒结果时,如果判断输出唤醒结果或计算超时无法输出唤醒结果则清除新增的唤醒词;
对所述列表数据进行分析之前,还包括:
判断所述列表数据中是否存在有效数据;
如果存在则对所述列表数据进行预处理,否则,结束流程。
2.根据权利要求1所述的方法,其特征在于,所述对所述列表数据进行预处理,包括:
将获取的场景对话转换为文字;
对所述文字进行特殊符号和/或数字转换处理。
3.根据权利要求1所述的方法,其特征在于,所述对所述列表数据进行分析并根据分析结果将所述列表数据转换为唤醒词,包括:
对所述列表数据中的每条数据进行分词和标音;
根据每条数据得到的分词结果和标音结果的词头构建多个唤醒词。
4.根据权利要求3所述的方法,其特征在于,
根据词典对所述列表数据中的每条数据进行分词。
5.根据权利要求1所述的方法,其特征在于,所述将所述置信度与预设阈值进行对比,根据对比结果判断是否输出唤醒结果,包括:
将所述置信度与预设阈值进行对比;
如果所述置信度大于等于预设阈值,则输出该置信度对应的唤醒词备选项;否则,继续获取语音数据。
6.一种基于语音识别的唤醒实现装置,执行包括如权利要求1-5任一项所述的方法,其特征在于,包括:
获取模块,用于获取语音数据并对所述语音数据进行特征提取和前向计算;
计算模块,用于将计算后的语音数据输入到预构建的唤醒模型中,得到所述唤醒模型中唤醒词备选项的置信度;
输出模块,用于将所述置信度与预设阈值进行对比,根据对比结果判断是否输出唤醒结果。
7.根据权利要求6所述的装置,其特征在于,还包括:构建模块,用于构建唤醒模型;所述构建唤醒模型,包括:
获取场景对话,根据所述场景对话获取当前场景下的列表数据;
对所述列表数据进行分析并根据分析结果将所述列表数据转换为唤醒词,根据所述唤醒词构建唤醒词备选项;
将所述唤醒词备选项加入生效的唤醒词列表中,生成唤醒模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110933173.9A CN113658593B (zh) | 2021-08-14 | 2021-08-14 | 基于语音识别的唤醒实现方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110933173.9A CN113658593B (zh) | 2021-08-14 | 2021-08-14 | 基于语音识别的唤醒实现方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113658593A CN113658593A (zh) | 2021-11-16 |
CN113658593B true CN113658593B (zh) | 2024-03-12 |
Family
ID=78491620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110933173.9A Active CN113658593B (zh) | 2021-08-14 | 2021-08-14 | 基于语音识别的唤醒实现方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113658593B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FI20156000A (fi) * | 2015-12-22 | 2017-06-23 | Code-Q Oy | Puheentunnistusmenetelmä ja -laite herätesanaan pohjautuen |
CN108899044A (zh) * | 2018-07-27 | 2018-11-27 | 苏州思必驰信息科技有限公司 | 语音信号处理方法及装置 |
CN110473539A (zh) * | 2019-08-28 | 2019-11-19 | 苏州思必驰信息科技有限公司 | 提升语音唤醒性能的方法和装置 |
CN110838289A (zh) * | 2019-11-14 | 2020-02-25 | 腾讯科技(深圳)有限公司 | 基于人工智能的唤醒词检测方法、装置、设备及介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3067884B1 (en) * | 2015-03-13 | 2019-05-08 | Samsung Electronics Co., Ltd. | Speech recognition system and speech recognition method thereof |
CN107134279B (zh) * | 2017-06-30 | 2020-06-19 | 百度在线网络技术(北京)有限公司 | 一种语音唤醒方法、装置、终端和存储介质 |
-
2021
- 2021-08-14 CN CN202110933173.9A patent/CN113658593B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FI20156000A (fi) * | 2015-12-22 | 2017-06-23 | Code-Q Oy | Puheentunnistusmenetelmä ja -laite herätesanaan pohjautuen |
CN108899044A (zh) * | 2018-07-27 | 2018-11-27 | 苏州思必驰信息科技有限公司 | 语音信号处理方法及装置 |
CN110473539A (zh) * | 2019-08-28 | 2019-11-19 | 苏州思必驰信息科技有限公司 | 提升语音唤醒性能的方法和装置 |
CN110838289A (zh) * | 2019-11-14 | 2020-02-25 | 腾讯科技(深圳)有限公司 | 基于人工智能的唤醒词检测方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113658593A (zh) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111933129B (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
CN110838289B (zh) | 基于人工智能的唤醒词检测方法、装置、设备及介质 | |
US10332507B2 (en) | Method and device for waking up via speech based on artificial intelligence | |
CN106683677B (zh) | 语音识别方法及装置 | |
CN106940998B (zh) | 一种设定操作的执行方法及装置 | |
CN108735201B (zh) | 连续语音识别方法、装置、设备和存储介质 | |
US11514891B2 (en) | Named entity recognition method, named entity recognition equipment and medium | |
CN108694940B (zh) | 一种语音识别方法、装置及电子设备 | |
CN110706690A (zh) | 语音识别方法及其装置 | |
CN105529028A (zh) | 语音解析方法和装置 | |
US20220262352A1 (en) | Improving custom keyword spotting system accuracy with text-to-speech-based data augmentation | |
CN106875936B (zh) | 语音识别方法及装置 | |
CN111028842B (zh) | 触发语音交互响应的方法及设备 | |
CN109377985B (zh) | 一种领域词的语音识别增强方法和装置 | |
CN112151015A (zh) | 关键词检测方法、装置、电子设备以及存储介质 | |
CN113450771B (zh) | 唤醒方法、模型训练方法和装置 | |
US20240013784A1 (en) | Speaker recognition adaptation | |
WO2023055410A1 (en) | Contrastive siamese network for semi-supervised speech recognition | |
CN114255754A (zh) | 语音识别方法、电子设备、程序产品和存储介质 | |
US11682400B1 (en) | Speech processing | |
CN112863496B (zh) | 一种语音端点检测方法以及装置 | |
CN113658593B (zh) | 基于语音识别的唤醒实现方法及装置 | |
US10929601B1 (en) | Question answering for a multi-modal system | |
CN112397053B (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
US11328713B1 (en) | On-device contextual understanding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |