CN112530442B - 语音交互方法及装置 - Google Patents
语音交互方法及装置 Download PDFInfo
- Publication number
- CN112530442B CN112530442B CN202011225235.2A CN202011225235A CN112530442B CN 112530442 B CN112530442 B CN 112530442B CN 202011225235 A CN202011225235 A CN 202011225235A CN 112530442 B CN112530442 B CN 112530442B
- Authority
- CN
- China
- Prior art keywords
- coefficient
- voice
- user
- intention
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000004044 response Effects 0.000 claims abstract description 64
- 238000004458 analytical method Methods 0.000 claims abstract description 25
- 238000001914 filtration Methods 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开一种语音交互方法及装置,方法包括:在捕获到语音时,根据语音的声纹特征分析得到用户置信系数;确定语音的语义意图及意图系数;根据用户置信系数和意图系数确定系统响应系数;根据系统响应系数高于语义意图对应的响应阈值,响应语音。本申请通过声纹识别得到捕获语音的用户置信系数,并通过语义分析得到捕获语音的语义意图及意图系数,进而结合用户置信系数和意图系数得到系统响应系数,由于系统响应系数根据意图系数和用户置信系数得到,因此可以实现语义过滤,通过将系统响应系数与语义意图对应的响应阈值比较以做出是否响应的判定,以避免频繁唤醒操作以及多人嘈杂环境下的误识别、频繁触发对话的问题,以真正提升用户的使用体验。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种语音交互方法及装置。
背景技术
目前市场上的语音菜谱助手,通常需要频繁唤醒操作,用户体验不佳。如果使用全双工对话技术,解决掉频繁唤醒操作问题,由于整个对话过程,语音菜谱助手一直响应捕获到的所有声音,这样就会出现多人嘈杂环境下误识别的问题,导致会频繁触发语音对话。
发明内容
本发明的目的是针对上述现有技术的不足提出的一种语音交互方法及装置,该目的是通过以下技术方案实现的。
本发明的第一方面提出了一种语音交互方法,所述方法包括:
在捕获到语音时,根据所述语音的声纹特征分析得到用户置信系数;
确定所述语音的语义意图及意图系数,所述意图系数是所述语音属于所确定的语义意图的概率;
根据所述用户置信系数和所述意图系数确定系统响应系数;
根据所述系统响应系数高于所述语义意图对应的响应阈值,响应所述语音。
本发明的第二方面提出了一种语音交互装置,所述装置包括:
声纹分析模块,用于在捕获到语音时,根据所述语音的声纹特征分析得到用户置信系数;
语义分析模块,用于确定所述语音所属的预设语义意图及意图系数,所述意图系数是所述语音属于所确定的语义意图的概率;
计算模块,用于根据所述用户置信系数和所述意图系数确定系统响应系数;
响应模块,用于根据所述系统响应系数高于所述预设语义意图对应的响应阈值,响应所述语音。
基于上述第一方面和第二方面所述的语音交互方法及装置,本发明具有如下有益效果:
在捕获到语音时,通过声纹识别得到捕获语音的用户置信系数,并通过语义分析得到捕获语音的语义意图及意图系数,进而结合用户置信系数和意图系数得到系统响应系数,由于系统响应系数根据意图系数和用户置信系数得到,因此可以实现语义过滤,通过将系统响应系数与语义意图对应的响应阈值比较以做出是否响应的判定,以避免频繁唤醒操作以及多人嘈杂环境下的误识别、频繁触发对话的问题,以真正提升用户的使用体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明示出的一种语音交互方法的实施例流程图;
图2为本发明根据图1所示实施例示出的一种电子设备的结构示意图;
图3为本发明示出一种语音交互装置的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“连接”、“固定”等应做广义理解,例如,“固定”可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
目前市场上的语音菜谱助手大部分需要频繁唤醒操作,即用户每次与助手对话,都需要用固定的唤醒词先唤醒助手,用户体验很不好。如果采用全双工语音交互技术,可以解决掉频繁唤醒操作的问题。但是应用全双工语音交互技术,由于整个对话过程中,语音菜谱助手始终在识别捕获的声音,除非是在一个安静的单人场景下使用效果会比较理想,但是在嘈杂多人对话的环境中,会出现误识别的问题,导致语音菜谱助手会频繁触发对话,无法真正提升用户体验。
基于此,本申请提出一种改进的语音交互方法,通过将全双工语音交互技术、声纹识别技术和语义识别技术结合在一起实现语音交互,以避免频繁唤醒操作以及多人嘈杂环境下的频繁触发对话的问题,以真正提升用户的使用体验。
具体实现方案为:在捕获到语音时,先使用声纹识别技术根据捕获的语音分析得到用户置信系数,并使用语义识别技术分析语音的语义意图及意图系数,然后根据用户置信系数和意图系数确定系统响应系数,进而如果系统响应系数高于分析的到的语义意图对应的响应阈值时,再响应捕获到的语音。
下面以具体实施例对本申请提出的语音交互方法进行详细阐述。
图1为本发明示出的一种语音交互方法的实施例流程图,该语音交互方法可以应用在终端设备上,以菜谱应用场景为例,通过在终端设备上安装语音菜谱助手APP实现本实施例提出的语音交互方案。如图1所示,该语音交互方法包括如下步骤:
步骤101:在捕获到语音时,根据捕获的语音的声纹特征分析得到用户置信系数。
其中,语音的捕获可以通过设备上的麦克风进行采集。
可以理解的是,针对根据捕获的语音的声纹特征分析得到用户置信系数,可以使用声纹识别技术提取捕获语音的声纹特征,然后将提取的声纹特征与使用者列表中记录的每位使用者的声纹特征进行比对分析,以得到候选用户置信系数,进而从得到的候选用户置信系数中选择一个最大的候选用户置信系数作为用户置信系数。
其中,使用者列表中记录有使用者的声纹特征。以语音菜谱助手应用场景为例,使用者列表即为菜谱使用者列表,用户通过语音启动某一菜谱,并选择进入全双工语音交互模式后,设备提取用户语音的声纹特征并记录到菜谱使用者列表中。
可以理解的是,可以将捕获的语音的声纹特征与每位使用者的声纹特征进行声纹近似度计算,以得到与每位使用者的声纹特征之间的候选用户置信系数。其中,最大候选用户置信系数对应的使用者即可能是捕获的语音的发出者。
步骤102:确定捕获的语音的语义意图及意图系数。
在执行步骤102之前,可以预先部署好所需的语义意图知识库。在语音菜谱应用场景中,预先部署好的知识库,可以包括所需的问答意图的知识库、设备操作意图的知识库、播放音乐意图的知识库等。
可以理解的是,根据预先部署好的各种语义意图的知识库,可以使用语义分析技术确定捕获的语音的语义意图及意图系数。
其中,意图系数指的是捕获的语音属于确定的语义意图的概率值。当然最终确定的语义意图为概率值最高的语义意图。
需要说明的是,在部署好所需的语义意图的知识库之后,还可以进一步为每种语义意图独立设置响应阈值,以用于与下面步骤103中计算得到的系统响应系数进行比较,判断需不需要响应。例如问答意图的响应阈值是1.6,设备操作意图的响应阈值是1.8,播放音乐意图的响应阈值为1.5。
步骤103:根据该用户置信系数和该意图系数确定系统响应系数。
可以理解的是,可以将用户置信系数与意图系数之和确定为系统响应系数。
当然在其他实施方式中,还可以为每种类型的系数设置权重,从而系统响应系数为权重与用户置信系数的乘积加上权重与意图系数的乘积。
步骤104:判断该系统响应系数是否高于该语义意图对应的响应阈值,若高于,则执行步骤105,否则,返回执行步骤101。
其中,响应阈值即为上述步骤102中为语义意图设置的响应阈值。
步骤105:响应捕获到的语音。
可以理解的是,基于上述步骤102中预先部署的知识库,可以根据所述语义意图对应的知识库,获取该语音的应答信息并进行播放。
其中,根据知识库获取语音的应答信息可以采用相关技术实现,本申请不再详述。
在执行步骤105之后,可以判断上述步骤101分析得到的用户置信系数是否低于预设阈值,如果低于,认为捕获的语音不属于使用者列表中的用户,但系统响应,已经参与到菜谱的互动中,从而可以将捕获的语音的声纹特征作为新用户的声纹特征添加到使用者列表中,以实现用户的动态注册机制。
其中,预设阈值可以根据实践经验设置,例如可以设置为0.9,如果低于0.9,则认为声音不属于同一个人。
针对上述步骤101至步骤105的过程,以语音菜谱交互举例来说,假设当前场景中有用户A、用户B、用户C三人:
用户A通过语音启动戚风蛋糕的菜谱,并选择进入全双工语音交互模式,语音菜谱助手的后台将用户A的声纹特征记录到使用者列表中。
当用户A说“需要什么材料?”,语音菜谱助手的后台使用声纹识别技术分析计算得到用户置信系数是0.9,使用语义分析技术,确定出的意图是“问答意图”且意图系数为0.8,由于系统响应系数0.9+0.8=1.7,高于“问答意图”对应的响应阈值1.6,因此语音菜谱助手响应,即播放对应的应答信息。
而后,用户B说“帮我放歌”,语音菜谱助手的后台使用声纹识别技术分析计算得到是用户A的用户置信系数是0.6,使用语义分析技术,确定出的意图是“播放音乐意图”且意图系数为1,由于系统响应系数0.6+1=1.6,高于“播放音乐意图”对应的响应阈值1.5,因此语音菜谱助手响应,即按照用户B的意图播放音乐。而由于用户置信系数0.6低于预设阈值0.9,说明明显与用户A的声纹不同,则语音菜谱助手将用户B作为新增用户添加到使用者列表中。
紧接着,用户C说“今天有什么活动”,语音菜谱助手的后台使用声纹识别技术分析出用户C的声纹特征相对于使用者列表中用户A的声纹特征的候选用户置信系数为0.6,相当于使用者列表中用户B的声纹特征的候选用户置信系数为0.3,则去最大值0.6作为用户C的用户置信系数,使用语义分析技术确定出的意图是“问答意图”,意图系数为0.9,由于系统响应系数0.6+0.9=1.5,低于“问答意图”对应的响应阈值1.6,因此语音菜谱助手静默处理,不响应用户C的语音。
至此,完成上述图1所示流程,在捕获到语音时,通过声纹识别得到捕获语音的用户置信系数,并通过语义分析得到捕获语音的语义意图及意图系数,进而结合用户置信系数和意图系数得到系统响应系数,由于系统响应系数根据意图系数和用户置信系数得到,因此可以实现语义过滤,通过将系统响应系数与语义意图对应的响应阈值比较以做出是否响应的判定,以避免频繁唤醒操作以及多人嘈杂环境下的误识别、频繁触发对话的问题,以真正提升用户的使用体验。
图2为本发明根据一示例性实施例示出的一种电子设备的硬件结构图,该电子设备包括:通信接口201、处理器202、机器可读存储介质203和总线204;其中,通信接口201、处理器202和机器可读存储介质203通过总线204完成相互间的通信。处理器202通过读取并执行机器可读存储介质203中与语音交互方法的控制逻辑对应的机器可执行指令,可执行上文描述的语音交互方法,该方法的具体内容参见上述实施例,此处不再累述。
本发明中提到的机器可读存储介质203可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:易失存储器、非易失性存储器或者类似的存储介质。具体地,机器可读存储介质203可以是RAM(Random Access Memory,随机存取存储器)、闪存、存储驱动器(如硬盘驱动器)、任何类型的存储盘(如光盘、DVD等),或者类似的存储介质,或者它们的组合。
与前述语音交互方法的实施例相对应,本发明还提供了语音交互装置的实施例。
图3为本发明示出一种语音交互装置的结构示意图,该语音交互装置可以应用在终端设备上,如图3所示,该语音交互装置包括:
声纹分析模块310,用于在捕获到语音时,根据所述语音的声纹特征分析得到用户置信系数;
语义分析模块320,用于确定所述语音所属的预设语义意图及意图系数,所述意图系数是所述语音属于所确定的语义意图的概率;
计算模块330,用于根据所述用户置信系数和所述意图系数确定系统响应系数;
响应模块340,用于根据所述系统响应系数高于所述预设语义意图对应的响应阈值,响应所述语音。
在一可选实现方式中,所述声纹分析模块310,具体用于获取所述语音的声纹特征,并将所述声纹特征与使用者列表中记录的每位使用者的声纹特征进行比对,得到候选用户置信系数;从得到的候选用户置信系数中选择一个最大的候选用户置信系数作为所述语音的用户置信系数。
在一可选实现方式中,所述计算模块330,具体用于将所述用户置信系数与所述意图系数之和确定为系统响应系数。
在一可选实现方式中,所述响应模块340,具体用于根据所述语义意图对应的知识库,获取所述语音的应答信息并进行播放。
在一可选实现方式中,所述装置还包括(图3中未示出):
注册模块,用于在所述响应模块340响应所述语音后,根据所述用户置信系数低于预设阈值时,将所述语音的声纹特征作为新用户的声纹特征添加到所述使用者列表中。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。
Claims (8)
1.一种语音交互方法,其特征在于,所述方法包括:
在捕获到语音时,根据所述语音的声纹特征分析得到用户置信系数;
确定所述语音的语义意图及意图系数,所述意图系数是所述语音属于所确定的语义意图的概率;
根据所述用户置信系数和所述意图系数确定系统响应系数;
根据所述系统响应系数高于所述语义意图对应的响应阈值,响应所述语音;
其中,所述根据所述用户置信系数和所述意图系数确定系统响应系数,包括:
将所述用户置信系数与所述意图系数之和确定为系统响应系数。
2.如权利要求1所述的方法,其特征在于,所述根据所述语音的声纹特征分析得到用户置信系数,包括:
提取所述语音的声纹特征,并将所述声纹特征与使用者列表中记录的每位使用者的声纹特征进行比对,得到候选用户置信系数;
从得到的候选用户置信系数中选择一个最大的候选用户置信系数作为所述语音的用户置信系数。
3.如权利要求1所述的方法,其特征在于,所述响应所述语音,包括:
根据所述语义意图对应的知识库,获取所述语音的应答信息并进行播放。
4.如权利要求2所述的方法,其特征在于,所述方法还包括:
在响应所述语音后,根据所述用户置信系数低于预设阈值,将所述语音的声纹特征作为新用户的声纹特征添加到所述使用者列表中。
5.一种语音交互装置,其特征在于,所述装置包括:
声纹分析模块,用于在捕获到语音时,根据所述语音的声纹特征分析得到用户置信系数;
语义分析模块,用于确定所述语音所属的预设语义意图及意图系数,所述意图系数是所述语音属于所确定的语义意图的概率;
计算模块,用于根据所述用户置信系数和所述意图系数确定系统响应系数;
响应模块,用于根据所述系统响应系数高于所述预设语义意图对应的响应阈值,响应所述语音;
其中,所述计算模块,具体用于将所述用户置信系数与所述意图系数之和确定为系统响应系数。
6.如权利要求5所述的装置,其特征在于,所述声纹分析模块,具体用于获取所述语音的声纹特征,并将所述声纹特征与使用者列表中记录的每位使用者的声纹特征进行比对,得到候选用户置信系数;从得到的候选用户置信系数中选择一个最大的候选用户置信系数作为所述语音的用户置信系数。
7.如权利要求5所述的装置,其特征在于,所述响应模块,具体用于根据所述语义意图对应的知识库,获取所述语音的应答信息并进行播放。
8.如权利要求5所述的装置,其特征在于,所述装置还包括:
注册模块,用于在所述响应模块响应所述语音后,根据所述用户置信系数低于预设阈值,将所述语音的声纹特征作为新用户的声纹特征添加到使用者列表中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011225235.2A CN112530442B (zh) | 2020-11-05 | 2020-11-05 | 语音交互方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011225235.2A CN112530442B (zh) | 2020-11-05 | 2020-11-05 | 语音交互方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112530442A CN112530442A (zh) | 2021-03-19 |
CN112530442B true CN112530442B (zh) | 2023-11-17 |
Family
ID=74980679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011225235.2A Active CN112530442B (zh) | 2020-11-05 | 2020-11-05 | 语音交互方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112530442B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107068148A (zh) * | 2015-12-25 | 2017-08-18 | 松下电器(美国)知识产权公司 | 控制方法以及控制装置 |
CN107977183A (zh) * | 2017-11-16 | 2018-05-01 | 百度在线网络技术(北京)有限公司 | 语音交互方法、装置及设备 |
CN108320733A (zh) * | 2017-12-18 | 2018-07-24 | 上海科大讯飞信息科技有限公司 | 语音数据处理方法及装置、存储介质、电子设备 |
CN110956958A (zh) * | 2019-12-04 | 2020-04-03 | 深圳追一科技有限公司 | 搜索方法、装置、终端设备及存储介质 |
CN111357048A (zh) * | 2017-12-31 | 2020-06-30 | 美的集团股份有限公司 | 用于控制家庭助手装置的方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2017145373A1 (ja) * | 2016-02-26 | 2018-08-09 | 三菱電機株式会社 | 音声認識装置 |
-
2020
- 2020-11-05 CN CN202011225235.2A patent/CN112530442B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107068148A (zh) * | 2015-12-25 | 2017-08-18 | 松下电器(美国)知识产权公司 | 控制方法以及控制装置 |
CN107977183A (zh) * | 2017-11-16 | 2018-05-01 | 百度在线网络技术(北京)有限公司 | 语音交互方法、装置及设备 |
CN108320733A (zh) * | 2017-12-18 | 2018-07-24 | 上海科大讯飞信息科技有限公司 | 语音数据处理方法及装置、存储介质、电子设备 |
CN111357048A (zh) * | 2017-12-31 | 2020-06-30 | 美的集团股份有限公司 | 用于控制家庭助手装置的方法和系统 |
CN110956958A (zh) * | 2019-12-04 | 2020-04-03 | 深圳追一科技有限公司 | 搜索方法、装置、终端设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112530442A (zh) | 2021-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102339594B1 (ko) | 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체 | |
AU2017294791B2 (en) | Method and system for automatically diarising a sound recording | |
JP6596376B2 (ja) | 話者識別方法及び話者識別装置 | |
US9354687B2 (en) | Methods and apparatus for unsupervised wakeup with time-correlated acoustic events | |
JP4950930B2 (ja) | 音声/非音声を判定する装置、方法およびプログラム | |
US20170256270A1 (en) | Voice Recognition Accuracy in High Noise Conditions | |
US20140337024A1 (en) | Method and system for speech command detection, and information processing system | |
US20170061970A1 (en) | Speaker Dependent Voiced Sound Pattern Detection Thresholds | |
CN110211599B (zh) | 应用唤醒方法、装置、存储介质及电子设备 | |
US9335966B2 (en) | Methods and apparatus for unsupervised wakeup | |
US20190057687A1 (en) | Device for recognizing speeches and method for speech recognition | |
CN110473542B (zh) | 语音指令执行功能的唤醒方法、装置及电子设备 | |
US11081115B2 (en) | Speaker recognition | |
CN109065026B (zh) | 一种录音控制方法及装置 | |
CN110689887A (zh) | 音频校验方法、装置、存储介质及电子设备 | |
JPWO2018163279A1 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
US20180366127A1 (en) | Speaker recognition based on discriminant analysis | |
CN112530442B (zh) | 语音交互方法及装置 | |
CN111261172B (zh) | 一种声纹识别方法和装置 | |
CN109922397B (zh) | 音频智能处理方法、存储介质、智能终端及智能蓝牙耳机 | |
EP3195314B1 (en) | Methods and apparatus for unsupervised wakeup | |
CN110970027A (zh) | 一种语音识别方法、装置、计算机存储介质及系统 | |
CN110083392B (zh) | 音频唤醒预录的方法、存储介质、终端及其蓝牙耳机 | |
JP5496945B2 (ja) | 話者分類装置、話者分類方法、プログラム | |
CN110895941A (zh) | 声纹识别方法、装置及存储装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |