CN112185367A - 关键词检测方法和装置、计算机可读存储介质、电子设备 - Google Patents

关键词检测方法和装置、计算机可读存储介质、电子设备 Download PDF

Info

Publication number
CN112185367A
CN112185367A CN201910510516.3A CN201910510516A CN112185367A CN 112185367 A CN112185367 A CN 112185367A CN 201910510516 A CN201910510516 A CN 201910510516A CN 112185367 A CN112185367 A CN 112185367A
Authority
CN
China
Prior art keywords
confidence
keyword
candidate keyword
candidate
audio information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910510516.3A
Other languages
English (en)
Inventor
黄明运
刘鼎
潘复平
王振兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Horizon Robotics Technology Research and Development Co Ltd
Original Assignee
Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Horizon Robotics Technology Research and Development Co Ltd filed Critical Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority to CN201910510516.3A priority Critical patent/CN112185367A/zh
Publication of CN112185367A publication Critical patent/CN112185367A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种关键词检测方法和装置、计算机可读存储介质和电子设备,其中,方法包括:对音频信息进行语音识别处理,得到音频信息的至少一个候选关键词;针对至少一个候选关键词的每一候选关键词,确定每一候选关键词对应的两个以上置信度;基于每一候选关键词对应的两个以上置信度,确定每一候选关键词对应的综合置信度;根据每一候选关键词的综合置信度,确定音频信息的目标关键词,当以该目标关键词进行语音唤醒时,由于是基于综合置信度确定的目标关键词,并且综合置信度体现了多个置信度的特点,因此可以实现在提升关键词的识别率的同时,有效降低关键词的误报率,同时兼顾关键词的识别率和误报率,从而获得较好的语音唤醒效果。

Description

关键词检测方法和装置、计算机可读存储介质、电子设备
技术领域
本公开涉及语音技术,尤其是一种关键词检测方法和装置、计算机可读存储介质、电子设备。
背景技术
随着人工智能的普及,语音已成为了重要的交互方式。语音唤醒是在连续语流中实时检测出说话人特定片段的技术。语音唤醒的应用领域非常广泛,例如:机器人、手机、可穿戴设备、智能家居、车载设备等,在很多带有语音功能的设备上,大都会需要语音唤醒技术作为人和机器互动的一个开始或入口。
发明内容
在实现本发明的过程中,本发明人通过研究发现,在从音频信息中检测出关键词进行语音唤醒时,如果把识别率调整到比较高的水平,误报数也比较高,不能得到很好的语音唤醒效果。
为了解决上述技术问题,本公开实施例提供了一种关键词检测方法和装置、计算机可读存储介质、电子设备。
根据本公开实施例的一个方面,提供了一种关键词检测方法,包括:
对音频信息进行语音识别处理,得到所述音频信息的至少一个候选关键词;
针对所述至少一个候选关键词的每一候选关键词,确定所述每一候选关键词对应的两个以上置信度;
基于所述每一候选关键词对应的两个以上置信度,确定所述每一候选关键词对应的综合置信度;
根据所述每一候选关键词的综合置信度,确定所述音频信息的目标关键词。
根据本公开实施例的另一个方面,提供了一种关键词检测装置,包括:
识别模块,用于对音频信息进行语音识别处理,得到所述音频信息的至少一个候选关键词;
第一计算模块,用于针对所述识别模块确定的至少一个候选关键词的每一候选关键词,确定所述每一候选关键词对应的两个以上置信度;
第二计算模块,用于基于所述第一计算模块确定的每一候选关键词对应的两个以上置信度,确定所述每一候选关键词对应的综合置信度;
处理模块,用于根据所述第二计算模块得到的所述每一候选关键词的综合置信度,确定所述音频信息的目标关键词。
根据本公开实施例的又一个方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述任一实施例所述的方法。
根据本公开实施例的还一个方面,提供了一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述任一实施例所述的方法。
基于本公开上述实施例提供的关键词检测方法和装置、计算机可读存储介质和电子设备,对音频信息进行语音识别处理,得到音频信息的至少一个候选关键词;针对至少一个候选关键词的每一候选关键词,确定每一候选关键词对应的两个以上置信度;基于每一候选关键词对应的两个以上置信度,确定每一候选关键词对应的综合置信度,提高了每一候选关键词的综合置信度的准确率;此时,根据每一候选关键词的综合置信度,确定音频信息的目标关键词,当以该目标关键词进行语音唤醒时,由于是基于综合置信度确定的目标关键词,并且综合置信度体现了多个置信度的特点,因此可以实现在提升关键词的识别率的同时,有效降低关键词的误报率,同时兼顾关键词的识别率和误报率,从而获得较好的语音唤醒效果。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本公开可选实施例中关键词检测的一个应用场景图。
图2是本公开一示例性实施例提供的关键词检测方法的流程示意图。
图3是本公开图2所示的实施例中步骤202的一个流程示意图。
图4是本公开图2所示的实施例中步骤203的一个流程示意图。
图5是本公开图2所示的实施例中步骤201的一个流程示意图。
图6是本公开一示例性实施例提供的关键词检测装置的结构示意图。
图7是本公开另一示例性实施例提供的关键词检测装置的结构示意图。
图8是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
申请概述
在实现本公开的过程中,发明人发现,现有技术在关键词唤醒的场景中,通过引入一个关键词的置信度来实现辅助识别,但该关键词识别方法至少存在以下问题:很难同时兼顾识别率和误报率。
示例性系统
图1是本公开可选实施例中关键词检测的一个应用场景图。如图1所示,包括,步骤101,对输入的WAV格式的数据特征提取,获得声学特征(如,梅尔特征,Mel Bank);步骤102,将特征送训练好的神经网络中进行预测,获得预测的结果,该预测结果表示每个音素出现的概率;步骤103,对预测结果进行解码,具体根据音素概率的分布实现解码过程,获得多条解码结果;步骤104,对多条解码结果进行处理,得到一条最优的识别结果;步骤105,输出最优的识别结果。本公开实施例在步骤104还包括:步骤1041,对多条解码结果进行排序,获得最佳排序(sort best);步骤1042,计算最佳排序中前几条解码结果的置信度;步骤1043,根据置信度,确定一条解码结果作为最优的识别结果。上述过程输出的最优的识别结果,有助于提高系统的识别正确率。
为了提升识别率、降低误报,本公开提供的关键词检测方法中使用多种置信度计算方式相融合的方法。其中,置信度计算方法可以包括但不限于以下:
(1)通过识别路径中的N best结果概率来计算。
计算方法:根据本次的解码结果的不同路径来计算。比如:本次解码结果显示有20条结果(通过20条路径获得候选关键词),那么用20条结果的统计概率加权求和,得到统计结果,然后每个候选关键词对应的至少一条路径的概率与统计结果做除法,得出每个候选关键词的置信度。
(2)通过唤醒词路径不同音素的概率融合来计算。
计算方法:根据神经网络预测出来的每个音素每帧的概率,然后根据音素持续的帧长做平均,最终加起来实现整个音素串(唤醒词)的概率,即为该唤醒词的置信度。
其中,本实施例中的路径表示根据概率估计出来的发音单元(音素、字等)在时间轴上序列组合,同一段音频信息通过不同路径可获得多个不同的候选关键词,但有可能存在几条路径对应一个候选关键词的情况,此时,这几条路径中对应的音素长度不同。
其他计算置信度的方法:
(3)基于MAP决策准则的后验概率。
该计算方法可采用以下公式(1)实现计算:
Figure BDA0002093337850000051
(4)基于可能性比率测试(likelihood ratio testing,LRT)的置信度。
其中上述方法(1)和方法(2)使用解码信息计算置信度,是比较常用的计算方法:信噪比较高的语音段唤醒时,二者计算出的值都比较高,比如达到80%以上。
当背景噪声较大、说话人的语速很快、声音很小时,二者就会有所差异,如,说话人语速较快,导致缺少部分音素时,方法(2)计算的置信度较低,而方法(1)计算的置信度为正常值;以地平线(d-i-p-ing-x-ian)为例,如果缺少ian这个音素,在使用方法(2)的计算方式时,ian这个音素的置信度就是0,这样计算出来的整体值也会偏低。
干扰噪声误唤醒时,方法(2)计算出的置信度可能在正常值,但是方法(1)计算出的置信度会较低。比如地平线(d-i-p-ing-x-ian),每个音素的值都有,那么根据方法(2)计算出来的值就会偏向正常,而由于噪声等因素,造成某些音素长度比较短,这样根据方法(1)计算出来的整体值就会偏低。
因此,在实际使用中,可以利用这两种计算方法的特点,给与不同的权重,融合数据结果,最终通过综合的结果判别是否为真正的唤醒。
基于上述不同计算方法计算综合置信度的方法可以包括但不限于以下几种:
a、计算上述两种方法获得的置信度的平均值,以平均值作为综合置信度;
b、根据当前的信噪比质量,决定使用不同的权重值。如当前信噪比较高时,给方法(1)获得的置信度较高的权重;否则给方法(2)获得的置信度较高的权重;
c、根据当前的噪声类型,决定使用不同的权重值。如洗衣机噪声时给方法(1)获得的置信度较高的权重,电视噪声(背景为人声)时给方法(2)获得的置信度较高的权重;
在实际融合的时候,可以根据系统的不同特点,使用不同的融合方法。
而在不依赖解码信息时,就可以使用方法(3)和/或方法(4)中提供的计算方法来计算置信度。而其对应的权重的判断,需要根据当前噪声的来源、以及唤醒词的发音特点进行选择。
示例性方法
图2是本公开一示例性实施例提供的关键词检测方法的流程示意图。本实施例可应用在电子设备上,如图2所示,包括如下步骤:
步骤201,对音频信息进行语音识别处理,得到音频信息的至少一个候选关键词。
其中,音频信息为需要进行关键词提取的信息,表现为音频形式。其中,语音识别处理可以通过深度神经网络等现有技术可实现的处理方法实现,本实施例不限制获得关键词的具体方法。
步骤202,针对至少一个候选关键词的每一候选关键词,确定每一候选关键词对应的两个以上置信度。
在一实施例中,置信度表示每一候选关键词被选中的概率,可选地,可通过多钟计算方式计算获得两个以上置信度。
步骤203,基于每一候选关键词对应的两个以上置信度,确定每一候选关键词对应的综合置信度。
其中,每一候选关键词对应一个综合置信度。
步骤204,根据每一候选关键词的综合置信度,确定音频信息的目标关键词。
在一实施例中,通过对所有候选关键词分别进行判断,并从所有候选关键词中选择达到设定条件候选关键词作为目标关键词。
本公开上述实施例提供的关键词检测方法,对音频信息进行语音识别处理,得到音频信息的至少一个候选关键词;针对至少一个候选关键词的每一候选关键词,确定每一候选关键词对应的两个以上置信度;基于每一候选关键词对应的两个以上置信度,确定每一候选关键词对应的综合置信度,提高了每一候选关键词的综合置信度的准确率;此时,根据每一候选关键词的综合置信度,确定音频信息的目标关键词,当以该目标关键词进行语音唤醒时,由于是基于综合置信度确定的目标关键词,并且综合置信度体现了多个置信度的特点,因此可以实现在提升关键词的识别率的同时,有效降低关键词的误报率,同时兼顾关键词的识别率和误报率,从而获得较好的语音唤醒效果。
在一些可选的实施例中,上述实施例中步骤202可以包括:
分别采用至少二种置信度的计算方式计算每一候选关键词的置信度,得到每一候选关键词的至少二个置信度。
可选地,候选关键词对应的每一置信度对应一种计算方式。
本实施例使用多种置信度计算方式相融合的方法,来提升识别率、降低误报。具体地,其采用的置信度的计算方式可以如上述图1提供的实施例中的方法(1)至(4)中的任意两种或两种以上。
在一些可选实施例中,上述实施例中步骤201可以包括:
对音频信息进行语音识别处理,通过至少一个候选路径得到音频信息的至少一个候选关键词,每个候选关键词对应至少一个候选路径。
其中,本实施例中的候选路径表示根据概率估计出来的发音单元(音素、字等)在时间轴上序列组合,同一段音频信息通过不同路径可获得多个不同的候选关键词,但有可能存在几条候选路径对应一个候选关键词的情况,此时,这几条候选路径中对应的音素长度不同。
如图3所示,在上述图2所示实施例的基础上,步骤202可包括如下至少两个步骤:
步骤2021,基于N个最佳的候选路径的置信度计算方式计算获得候选关键词的置信度。
其中,N为大于或等于1的整数。
步骤2022,基于不同音素的置信度计算方法计算获得候选关键词的置信度。
步骤2023,基于最大后验概率决策准则的置信度计算方式计算获得候选关键词的置信度。
步骤2024,基于似然比检测的置信度计算方式计算获得候选关键词的置信度。
在该实施例中,上述4个步骤可以任意排列组合方式构成步骤202,例如,步骤202包括步骤2021和步骤2022;或者,步骤202包括步骤2023和步骤2024;又或者,步骤202包括步骤2021、步骤2022、步骤2023和步骤2024;本实施例不限制步骤202包括的上述步骤的数量,并且上述各步骤在包括的前提下是同时执行的。
可选地,上述步骤2021提供的置信度计算方法可对应上述图1提供的实施例中的方法(1),步骤2022提供的置信度计算方法可对应上述图1提供的实施例中的方法(2),步骤2023提供的置信度计算方法可对应上述图1提供的实施例中的方法(3),步骤2024提供的置信度计算方法可对应上述图1提供的实施例中的方法(4);因此,当步骤202包括至少两种计算方法时,可利用上述图1提供的融合方法对两个以上的置信度进行融合,以获得融合置信度。
通过对上述实施例提供的四种置信度计算方法中的任意两种或两种以上进行组合,可实现通过多种方式获得置信度,避免了仅通过一种置信度确定目标关键词会出现的识别率和误报率无法兼顾的问题,可通过多种置信度对识别率和误报率进行平衡,以实现提高关键词识别的正确率。
在一些可选的实施例中,步骤203包括:
基于每一候选关键词对应的两个以上置信度的平均值,确定每一候选关键词的综合置信度。
可选地,该实施例对应上述图1提供的实施例中通过方法a计算综合置信度的方法,本实施例通过计算两个以上置信度的平均值确定综合置信度,使通过多种置信度计算方法获得的多个置信度在判断候选关键词是否为目标关键词时都起到了一定的作用,使获得的综合置信度兼顾所有置信度计算方法的优点,提高了关键词识别的准确率。
如图4所示,在上述图2所示实施例的基础上,步骤203可包括如下步骤:
步骤2031,确定每一候选关键词对应的两个以上置信度中每个置信度的权重。
可选地,可通过不同方式确定每个置信度的权重,例如,上述图1提供的实施例中步骤b中通过当前的信噪比质量,决定使用不同的权重值;而上述图1提供的实施例中步骤c中通过当前的噪声类型,决定使用不同的权重值。
步骤2032,基于每个置信度的权重确定每一候选关键词对应的两个以上置信度的加权平均值,得到每一候选关键词对应的综合置信度。
对于计算综合置信度,除了通过上述实施例提供的计算均值之外,还可以为每种置信度分配不同的权重,通过加权平均对不同的置信度计算方法进行重点突出或削弱,以满足在不同场景下(如:当前噪声的来源、以及唤醒词的发音特点等)将更适合的置信度计算方法通过赋予更大的权重进行特出,以提高综合置信度的准确率。
可选地,步骤204包括:
分别将每一候选关键词对应的综合置信度与预设阈值进行比较,确定综合置信度大于预设阈值的候选关键词作为音频信息的目标关键词。
本实施例中的预设阈值可根据具体情况进行选择,由于预设阈值的可设定,可对一些特定情况(如,嘈杂环境等)设置较高的阈值,以避免因其他噪音导致获得错误的关键词,实现错误的语音唤醒等操作;而对于一些需要模糊识别的场景,可设置较低的阈值,以提高获得关键词的效率,进而提高语音唤醒等操作的效率;本实施例通过设定阈值使不同情况下都能实现较好的关键词识别。
如图5所示,在上述图2所示实施例的基础上,步骤201可包括如下步骤:
步骤2011,对音频信息进行特征提取处理,得到音频信息的声学特征。
步骤2012,对声学特征进行识别处理,得到音频信息的至少一个候选关键词。
本实施例中实现声学特征的提取和候选关键词的获取,可以利用上述图1所示的实施例中的步骤101、步骤102和步骤103实现,通过对声学特征进行识别处理,可获得每个音素在音频信息中出现的概率值,基于这些概率即可确定至少一个候选关键词,后续以候选关键词为基础获得目标关键词,因此,本实施例实现了对关键词的初始筛选,缩小了确定目标关键词的范围,提高了识别效率。
在一些可选的实施例中,本实施例提供的方法还包括:
根据音频信息的目标关键词对待唤醒设备执行对应的唤醒操作。
本实施例提供的关键词检测方法可以应用到很多以语音识别为基础的领域中,该实施例中以语音唤醒为例,针对现有的语音唤醒方法在从音频信息中检测出关键词时,很难同时兼顾关键词的识别率和误报率,往往不能得到很好的语音唤醒效果;而通过本公开实施例提供的关键词检测方法获得的关键词由于采用了多种置信度计算方式,综合了各种置信度计算方式的优点,实现了同时兼顾关键词的识别率和误报率,进而提高了唤醒操作的准确率。
本公开实施例提供的任一种关键词检测方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。或者,本公开实施例提供的任一种关键词检测方法可以由处理器执行,如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种关键词检测方法。下文不再赘述。
示例性装置
图6是本公开一示例性实施例提供的关键词检测装置的结构示意图。如图6所示,本实施例包括:
识别模块61,用于对音频信息进行语音识别处理,得到音频信息的至少一个候选关键词。
第一计算模块62,用于针对识别模块61确定的至少一个候选关键词的每一候选关键词,确定每一候选关键词对应的两个以上置信度。
第二计算模块63,用于基于第一计算模块62确定的每一候选关键词对应的两个以上置信度,确定每一候选关键词对应的综合置信度。
处理模块64,用于根据第二计算模块63得到的所述每一候选关键词的综合置信度,确定音频信息的目标关键词。
本公开上述实施例提供的关键词检测装置,对音频信息进行语音识别处理,得到音频信息的至少一个候选关键词;针对至少一个候选关键词的每一候选关键词,确定每一候选关键词对应的两个以上置信度;基于每一候选关键词对应的两个以上置信度,确定每一候选关键词对应的综合置信度,提高了每一候选关键词的综合置信度的准确率;此时,根据每一候选关键词的综合置信度,确定音频信息的目标关键词,当以该目标关键词进行语音唤醒时,由于是基于综合置信度确定的目标关键词,并且综合置信度体现了多个置信度的特点,因此可以实现在提升关键词的识别率的同时,有效降低关键词的误报率,同时兼顾关键词的识别率和误报率,从而获得较好的语音唤醒效果。
图7是本公开另一示例性实施例提供的关键词检测装置的结构示意图。如图7所示,本实施例,识别模块61包括:
特征提取单元611,用于对音频信息进行特征提取处理,得到音频信息的声学特征。
特征处理单元612,用于对声学特征进行识别处理,得到音频信息的至少一个候选关键词。
在实施例中第一计算模块62,可以具体用于分别采用至少二种置信度的计算方式计算每一候选关键词的置信度,得到每一候选关键词的至少二个置信度。
或者,第一计算模块62包括以下单元中的至少两个:
第一置信度计算单元621,基于N个最佳的候选路径的置信度计算方式计算获得候选关键词的置信度;其中,N为大于或等于1的整数。
第二置信度计算单元622,基于不同音素的置信度计算方法计算获得候选关键词的置信度。
第三置信度计算单元623,基于最大后验概率决策准则的置信度计算方式计算获得候选关键词的置信度。
第四置信度计算单元624,基于似然比检测的置信度计算方式计算获得候选关键词的置信度。
在本实施例中,第二计算模块63可以具体用于,基于每一候选关键词对应的两个以上置信度的平均值,确定每一候选关键词的综合置信度。
或者,第二计算模块63包括以下两个单元:
权重确定单元631,确定每一候选关键词对应的两个以上置信度中每个置信度的权重。
综合计算单元632,基于每个置信度的权重确定每一候选关键词对应的两个以上置信度的加权平均值,得到每一候选关键词对应的综合置信度。
在本实施例中,处理模块64,具体用于分别将每一候选关键词对应的综合置信度与预设阈值进行比较,确定综合置信度大于预设阈值的候选关键词作为音频信息的目标关键词。
本实施例还包括:唤醒模块65,用于根据音频信息的目标关键词对待唤醒设备执行对应的唤醒操作。
示例性电子设备
下面,参考图8来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。
图8图示了根据本公开实施例的电子设备的框图。
如图8所示,电子设备80包括一个或多个处理器81和存储器82。
处理器81可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备80中的其他组件以执行期望的功能。
存储器82可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器81可以运行所述程序指令,以实现上文所述的本公开的各个实施例的关键词检测方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备80还可以包括:输入装置83和输出装置84,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,在该电子设备是第一设备100或第二设备200时,该输入装置83可以是上述的麦克风或麦克风阵列,用于捕捉声源的输入信号。在该电子设备是单机设备时,该输入装置83可以是通信网络连接器,用于从第一设备100和第二设备200接收所采集的输入信号。
此外,该输入设备83还可以包括例如键盘、鼠标等等。
该输出装置84可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备84可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图8中仅示出了该电子设备80中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备80还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的关键词检测方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的关键词检测方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (12)

1.一种关键词检测方法,包括:
对音频信息进行语音识别处理,得到所述音频信息的至少一个候选关键词;
针对所述至少一个候选关键词的每一候选关键词,确定所述每一候选关键词对应的两个以上置信度;
基于所述每一候选关键词对应的两个以上置信度,确定所述每一候选关键词对应的综合置信度;
根据所述每一候选关键词的综合置信度,确定所述音频信息的目标关键词。
2.根据权利要求1所述的方法,其中,所述确定所述每一候选关键词对应的两个以上置信度,包括:
分别采用至少二种置信度的计算方式计算所述每一候选关键词的置信度,得到所述每一候选关键词的至少二个置信度。
3.根据权利要求1所述的方法,其中,所述对音频信息进行语音识别处理,得到所述音频信息的至少一个候选关键词,包括:
对音频信息进行语音识别处理,通过至少一个候选路径得到所述音频信息的至少一个候选关键词,每个所述候选关键词对应至少一个候选路径。
4.根据权利要求3所述的方法,其中,所述确定该每一候选关键词对应的两个以上置信度,包括:
基于N个最佳的候选路径的置信度计算方式计算获得所述候选关键词的置信度,其中,N为大于或等于1的整数;和/或,
基于不同音素的置信度计算方法计算获得所述候选关键词的置信度;和/或,
基于最大后验概率决策准则的置信度计算方式计算获得所述候选关键词的置信度;和/或,
基于似然比检测的置信度计算方式计算获得所述候选关键词的置信度。
5.根据权利要求2-4任一所述的方法,其中,所述基于所述每一候选关键词对应的两个以上置信度,确定所述每一候选关键词对应的综合置信度,包括:
基于所述每一候选关键词对应的两个以上置信度的平均值,确定所述每一候选关键词的综合置信度。
6.根据权利要求2-4任一所述的方法,其中,所述基于所述每一候选关键词对应的两个以上置信度,确定所述每一候选关键词对应的综合置信度,包括:
确定所述每一候选关键词对应的两个以上置信度中每个置信度的权重;
基于所述每个置信度的权重确定所述每一候选关键词对应的两个以上置信度的加权平均值,得到所述每一候选关键词对应的综合置信度。
7.根据权利要求1所述的方法,其中,所述根据所述每一候选关键词的综合置信度,确定所述音频信息的目标关键词,包括:
分别将所述每一候选关键词对应的综合置信度与预设阈值进行比较,确定所述综合置信度大于所述预设阈值的候选关键词作为所述音频信息的目标关键词。
8.根据权利要求1所述的方法,其中,所述对音频信息进行语音识别处理,得到所述音频信息的至少一个候选关键词,包括:
对所述音频信息进行特征提取处理,得到所述音频信息的声学特征;
对所述声学特征进行识别处理,得到所述音频信息的至少一个候选关键词。
9.根据权利要求1所述的方法,其中,所述方法还包括:
根据所述音频信息的目标关键词对待唤醒设备执行对应的唤醒操作。
10.一种关键词检测装置,包括:
识别模块,用于对音频信息进行语音识别处理,得到所述音频信息的至少一个候选关键词;
第一计算模块,用于针对所述识别模块确定的至少一个候选关键词的每一候选关键词,确定所述每一候选关键词对应的两个以上置信度;
第二计算模块,用于基于所述第一计算模块确定的每一候选关键词对应的两个以上置信度,确定所述每一候选关键词对应的综合置信度;
处理模块,用于根据所述第二计算模块得到的所述每一候选关键词的综合置信度,确定所述音频信息的目标关键词。
11.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1至9中任意一项所述的方法。
12.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1至9中任意一项所述的方法。
CN201910510516.3A 2019-06-13 2019-06-13 关键词检测方法和装置、计算机可读存储介质、电子设备 Pending CN112185367A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910510516.3A CN112185367A (zh) 2019-06-13 2019-06-13 关键词检测方法和装置、计算机可读存储介质、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910510516.3A CN112185367A (zh) 2019-06-13 2019-06-13 关键词检测方法和装置、计算机可读存储介质、电子设备

Publications (1)

Publication Number Publication Date
CN112185367A true CN112185367A (zh) 2021-01-05

Family

ID=73914245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910510516.3A Pending CN112185367A (zh) 2019-06-13 2019-06-13 关键词检测方法和装置、计算机可读存储介质、电子设备

Country Status (1)

Country Link
CN (1) CN112185367A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112951211A (zh) * 2021-04-22 2021-06-11 中国科学院声学研究所 一种语音唤醒方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102194454A (zh) * 2010-03-05 2011-09-21 富士通株式会社 用于检测连续语音中的关键词的设备和方法
CN103500579A (zh) * 2013-10-10 2014-01-08 中国联合网络通信集团有限公司 语音识别方法、装置及系统
CN103559881A (zh) * 2013-11-08 2014-02-05 安徽科大讯飞信息科技股份有限公司 语种无关的关键词识别方法及系统
CN104978963A (zh) * 2014-04-08 2015-10-14 富士通株式会社 语音识别装置、方法以及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102194454A (zh) * 2010-03-05 2011-09-21 富士通株式会社 用于检测连续语音中的关键词的设备和方法
CN103500579A (zh) * 2013-10-10 2014-01-08 中国联合网络通信集团有限公司 语音识别方法、装置及系统
CN103559881A (zh) * 2013-11-08 2014-02-05 安徽科大讯飞信息科技股份有限公司 语种无关的关键词识别方法及系统
CN104978963A (zh) * 2014-04-08 2015-10-14 富士通株式会社 语音识别装置、方法以及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112951211A (zh) * 2021-04-22 2021-06-11 中国科学院声学研究所 一种语音唤醒方法及装置
CN112951211B (zh) * 2021-04-22 2022-10-18 中国科学院声学研究所 一种语音唤醒方法及装置

Similar Documents

Publication Publication Date Title
CN108428447B (zh) 一种语音意图识别方法及装置
CN111916061B (zh) 语音端点检测方法、装置、可读存储介质及电子设备
US20200219384A1 (en) Methods and systems for ambient system control
CN1202687A (zh) 和用快速和精细匹配在人群中识别讲话者
CN108922553A (zh) 用于音箱设备的波达方向估计方法及系统
CN114038457B (zh) 用于语音唤醒的方法、电子设备、存储介质和程序
US11756572B2 (en) Self-supervised speech representations for fake audio detection
EP4310838A1 (en) Speech wakeup method and apparatus, and storage medium and system
WO2022083969A1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
JP2023531398A (ja) ホットワードしきい値自動チューニング
CN113628612A (zh) 语音识别方法、装置、电子设备及计算机可读存储介质
CN109346062A (zh) 语音端点检测方法及装置
CN114821066A (zh) 模型训练方法、装置、电子设备及计算机可读存储介质
CN113889091A (zh) 语音识别方法、装置、计算机可读存储介质及电子设备
CN114093358A (zh) 语音识别方法和装置、电子设备和存储介质
CN113053377A (zh) 语音唤醒方法和装置、计算机可读存储介质、电子设备
CN111862943A (zh) 语音识别方法和装置、电子设备和存储介质
CN113330513A (zh) 语音信息处理方法及设备
CN112185367A (zh) 关键词检测方法和装置、计算机可读存储介质、电子设备
CN111862963B (zh) 语音唤醒方法、装置和设备
CN116343765A (zh) 自动语境绑定领域特定话音识别的方法和系统
CN115862597A (zh) 人物类型的确定方法、装置、电子设备和存储介质
CN113744734A (zh) 一种语音唤醒方法、装置、电子设备及存储介质
CN112037772A (zh) 基于多模态的响应义务检测方法、系统及装置
CN113096651A (zh) 语音信号处理方法、装置、可读存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination