CN110100278B

CN110100278B - 说话者识别系统及说话者识别方法及入耳式装置

Info

Publication number: CN110100278B
Application number: CN201780000606.7A
Authority: CN
Inventors: 黄彦颖
Original assignee: Shenzhen Goodix Technology Co Ltd
Current assignee: Shenzhen Goodix Technology Co Ltd
Priority date: 2017-07-03
Filing date: 2017-07-03
Publication date: 2023-09-22
Anticipated expiration: 2037-07-03
Also published as: CN110100278A; WO2019006587A1

Abstract

一种说话者识别系统(10)，包括一入耳式装置(100)，置入一使用者的一外耳道，入耳式装置(100)包括一收音器(102)，用来接收来自外耳道的一耳道声波，以产生对应于耳道声波的一耳道声信号；一声频处理模块(106)，耦接于收音器(102)，用来自耳道声信号中撷取对应于使用者的声纹特征，以产生一声纹特征信号；以及一终端装置(120)，用来根据声纹特征信号，判断使用者是否为一认证用户。

Description

说话者识别系统及说话者识别方法及入耳式装置

技术领域

本申请涉及一种说话者识别系统及说话者识别方法，尤其涉及一种可避免被侧录或盗录的说话者识别系统及说话者识别方法。

背景技术

说话者识别已被广泛的运用在语音安全系统或语音授权系统上，已成为当代科技产品中不可或缺的一项功能之一。现有语音辨识系统主要是利用人体以外麦克风来进行收音，其所收到的声音为人体经由口腔发送出来并经过外在空气介质传导的声波，而现有说话者识别存有遭到有心人士侧录或盗录的风险。详细来说，某甲君可跟踪某乙君并侧录乙君的说话声音，或窃听乙君的说话声音，甚至利用语音合成的技术伪造乙君的说话声音，并将乙君的声音事先储存于录音机中，当甲君欲通过某语音门禁系统或语音授权系统的身份验证时，甲君可用录音机播放乙君的声音而通过份验证，进而盗用乙君的身份，可能造成乙君的财务损失，甚至危害乙君生命财产安全。因此，现有技术实有改进的必要。

发明内容

因此，本申请的主要目的即在于提供一种说话者识别系统及说话者识别方法，其可避免被侧录或盗录，以改善现有技术的缺点。

为了解决上述技术问题，本申请提供了一种一种说话者识别系统，包括入耳式装置，用于置入使用者的外耳道，所述入耳式装置包括收音器，用来接收来自所述外耳道的耳道声波，以产生对应于所述耳道声波的一耳道声信号；声频处理模块，耦接于所述收音器，用于自所述耳道声信号中撷取对应于所述使用者的声纹特征，以产生一声纹特征信号；以及一终端装置，用于根据所述声纹特征信号判断所述使用者是否为一认证用户。

例如，所述入耳式装置为一有线或无线的入耳式耳机、入耳式耳机麦克风、耳塞或助听器。

例如，所述声频处理模块对所述耳道声信号进行一语音检测运算以及一特征提取运算，以产生所述声纹特征信号。

例如，所述声频处理模块对所述耳道声信号进行一噪声抑制运算。

例如，所述终端装置为移动电子装置、计算机主机或门禁系统。

例如，所述终端装置建立对应于所述认证用户的一声纹模型，并接收来自所述声频处理模块的一声纹特征信号，根据所述声纹模型比对所述声纹特征信号，以产生一相似度信号，所述终端装置根据所述相似度信号判断所述使用者是否为所述认证用户。

例如，所述声频处理模块对所述耳道声信号进行一生理检测运算，以产生一生理检测结果，所述终端装置根据所述声纹特征信号以及所述生理检测结果，判断所述使用者是否为所述认证用户。

例如，所述生理检测运算为一呼吸检测运算，所述生理检测结果为一呼吸检测结果。

例如，所述生理检测运算为一心率检测运算，所述生理检测结果为一心率检测结果。

本申请还提供了一种说话者识别方法，应用于一说话者识别系统，所述说话者识别系统包括一入耳式装置及一终端装置，所述入耳式装置包括一收音器及一声频处理模块，所述入耳式装置置入一使用者的一外耳道，其特征在于，所述说话者识别方法包括所述收音器接收来自所述外耳道的一耳道声波，以产生对应于所述耳道声波的一耳道声信号；所述声频处理模块自所述耳道声信号中撷取对应于所述使用者的声纹特征，以产生一声纹特征信号；以及所述终端装置根据所述声纹特征信号，判断所述说话者识别系统的一发话端是否为所述使用者本身；其中，所述说话者识别系统的所述发话端为对所述说话者识别系统发出声音以进行声纹辨识的人或装置。

本申请利用入耳式装置来进行收音，以接收使用者外耳到的耳道声波，利用入耳式装置中的声频处理模块撷取使用者的声纹特征，并利用终端装置进行声纹对比，以判断说话者识别系统的发话端是否为使用者本身。相较于现有技术，本申请可避免遭到有心人士侧录或盗录的风险。

附图说明

图1为本申请实施例一说话者识别系统的外观示意图。

图2为图1的说话者识别系统的功能方块示意图。

图3为本申请实施例一声纹辨识流程的示意图。

图4为本申请实施例一声纹特征撷取流程的示意图。

图5为本申请实施例一声纹对比流程的示意图。

图6为本申请实施例一声纹辨识流程的示意图。

图7为本申请实施例一声纹辨识流程的示意图。

图8为本申请实施例一说话者识别系统的功能方块示意图。

图9为本申请实施例一声纹辨识流程的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

人体发声流程为透过肺部呼吸时，气流通过狭窄的声门，声带黏膜会产生波动，此波动会使附近的空气介质振动，而形成疏密波，即为声波。这些声波会在咽、口腔、鼻腔及鼻窦等器官产生共鸣或共振而具有较大音量，再由嘴唇、牙齿及舌头等器官修正成为外在听者听到的声音。现有说话者识别主要是接收由发话者口腔发送出来的声波，并藉由人体外在空气介质将声波传至人体以外的麦克风，而对于需经说话者识别的安全系统(如语音门禁系统、语音支付系统)来说，现有说话者识别存在有遭到有心人士侧录或盗录的风险。

然而，人体除了由口腔发出至外在空气介质的声音之外，声带黏膜所产生的声波亦会透过耳咽管传递至内耳道(Internal Auditory Meatus)甚至是外耳道(ExternalAuditory Meatus)，而于外耳道的声波(或称耳道声波)与利用人体以外麦克风所接收的声波具有不同的声音特征，换句话说，即使发话者为同一人，其耳道声波与侧录或盗录到的声波具有不同的声音特征。因此，本申请的说话者识别系统于使用者的外耳道进行收音，并撷取耳道声波的声纹特征，并针对耳道声波的声纹特征进行说话者识别，以避免使用者的声音遭到侧录或盗录的风险。

具体来说，请参考图1及图2，图1及图2分别为本申请实施例一说话者识别系统10的外观示意图及功能方块示意图。说话者识别系统10包括一入耳式(In-Ear)装置(即耳道式装置(Canal-Type Device))100以及一终端装置120，终端装置120可为具运算功能的一计算机主机、移动电子装置或门禁系统，入耳式装置100可置入一使用者USR的一外耳道(Canal，即External Acoustic Meatus)，其可为一入耳式耳机(Earphone)、一入耳式耳机麦克风(Headset)、一耳塞(Earplug)或一助听器(Hearing Aid)其中之一。入耳式装置100可包含一收音器102、一扬声器(Speaker)104以及一声频处理模块106，收音器102可为一麦克风(Microphone)，用来接收来自使用者USR外耳道的一耳道声波CWV，并将耳道声波CWV转换成为一耳道声信号CSg，即收音器102可产生对应于耳道声波CWV的耳道声信号CSg。声频处理模块106耦接于收音器102，用来自耳道声信号CSg中撷取对应于使用者USR的声纹特征(Voiceprint Feature)，以产生一声纹特征信号VPF，其中声纹特征信号VPF包括使用者USR的声纹特征。入耳式装置100可透过有线传输或是无线传输，将声纹特征信号VPF传送至终端装置120。

一般来说，终端装置120可根据其所接收到的声纹特征信号，判断使用者USR是否为一认证用户或其他人，甚至是事先录有使用者USR声音的录音机，其中，说话者识别系统10的发话端是指对说话者识别系统10发出声音以进行声纹辨识的人或装置(如录音机或具有语音合成功能的装置)。换句话说，终端装置120可根据其所接收到的声纹特征信号，判断使用者USR是否为认证用户。在理想的情况下，终端装置120接收到入耳式装置100所产生的声纹特征信号VPF，并根据声纹特征信号VPF判断使用者USR确实为认证用户。

说话者识别系统10的操作可归纳为一声纹辨识流程。请参考图3，图3为本申请实施例一声纹辨识流程30的示意图。声纹辨识流程30可由说话者识别系统10来执行，其包含以下步骤：

步骤302：入耳式装置100的收音器102自使用者USR外耳道接收耳道声波CWV，并产生对应于耳道声波CWV的耳道声信号CSg。

步骤304：入耳式装置100的声频处理模块106自耳道声信号CSg中撷取对应于使用者USR的声纹特征，并产生声纹特征信号VPF。

步骤306：终端装置120根据声纹特征信号VPF，判断使用者USR是否为一认证用户。

于步骤304，声频处理模块106自耳道声信号CSg中撷取对应于使用者USR的声纹特征并产生声纹特征信号VPF的操作细节，可参考图4，图4为一声纹特征撷取流程40的示意图，声纹特征撷取流程40是由入耳式装置100的声频处理模块106来执行。由图4可知，声频处理模块106可对耳道声信号CSg进行一语音检测(Voice Detection)运算、一噪声抑制(Noise Suppression)运算以及一特征提取(Feature Extraction)运算，即可产生声纹特征信号VPF，其中，语音检测运算、噪声抑制运算以及特征提取运算不限于利用特定算法来实现，其技术细节为本领域技术人员所熟知，故于此不再赘述。需注意的是，声纹特征撷取流程40中的语音检测运算、噪声抑制运算以及特征提取运算皆由设置于入耳式装置100中的声频处理模块106来执行，即由设置于入耳式装置100中的声频处理模块106产生声纹特征信号VPF。声频处理模块106产生声纹特征信号VPF后，可将声纹特征信号VPF利用有线传输或是无线传输的方式传送至终端装置120。

于步骤306，终端装置120根据声纹特征信号VPF，判断使用者USR是否为认证用户的操作细节，请参考图5，图5为一声纹对比流程50的示意图，声纹对比流程50是由人体以外的终端装置120来执行。由图5可知，终端装置120可先根据声纹特征信号VPF建立对应于认证用户的一声纹模型MD，于建立声纹模型MD后，再对比声纹特征信号VPF与声纹模型MD，以进行「声纹匹配」，并根据声纹匹配结果，产生一相似度得分SC(Score)，其中，相似度得分SC代表声纹特征信号VPF与声纹模型MD之间的相似程度，其可为一种相似度信号。详细来说，终端装置120可于一第一时间t₁建立对应于认证用户声纹模型MD(或于第一时间t₁接收声频处理模块106所产生对应于认证用户的一第一声纹特征信号VPF1，并根据第一声纹特征信号VPF1建立对应于认证用户的声纹模型MD，第一声纹特征信号VPF1代表于第一时间t₁的声纹特征信号VPF)，于建立声纹模型MD后，终端装置120可于一第二时间t₂接收声频处理模块106所产生的一第二声纹特征信号VPF2(其代表于第二时间t₂的声纹特征信号VPF)，终端装置120可比对第二声纹特征信号VPF2与声纹模型MD以进行声纹匹配，并根据声纹匹配结果，产生相似度得分SC。

终端装置120产生相似度得分SC后，即可根据相似度得分SC，判断使用者USR是否为认证用户，即为终端装置120执行图5中「识别身份」的步骤。于一实施例中，当相似度得分SC大于一特定值时，终端装置120可判定使用者USR确实为认证用户。另外，图5中的「建立声纹模型」、「声纹匹配」以及「取得相似度得分」等步骤不限于利用特定算法来实现，其技术细节为本领域技术人员所熟知，故于此不再赘述。

简言之，说话者识别系统10利用入耳式装置100接收耳道声波CWV，利用声频处理模块106撷取对应于使用者USR的声纹特征，利用终端装置120根据声纹特征信号VPF，判断使用者USR是否为认证用户。

现有说话者识别系统皆利用人体以外的麦克风进行收音，存在有遭到侧录或盗录的风险，甚至有心人士可利用语音合成技术合成出与使用者USR声纹相似的声音，进而破解需经说话者识别的安全系统(如语音门禁系统，以下简称语音安全系统)或语音授权系统(其为经说话者识别以确认语者身份以进行授权以进行下一步动作的系统，如语音支付系统、语音转账交易系统、语音信用卡交易系统或语音登入系统等)。相较之下，说话者识别系统10于使用者USR的外耳道进行收音，并针对耳道声波CWV的声纹特征进行声纹辨识，由于耳道声波与以人体外麦克风所接收的声波具有不同的声音特征，而有心人士无法经由侧录、盗录或语音合成破解具有说话者识别系统10的语音安全系统，可进一步提升语音安全系统或语音授权系统的安全性。

更进一步地，人体透过肺部呼吸时，仍会于外耳道产生因呼吸而产生的呼吸声波(其具有特定呼吸频率)，而呼吸声波包含于耳道声波CWV之中，因此入耳式装置100中的声频处理模块106可由耳道声信号CSg判断耳道声波CWV中是否具有呼吸声波，即对耳道声信号CSg进行一生理检测运算，以确认说话者识别系统10的发话端为具有生理特征的自然人，而非如录音机或语音合成器等装置，其中，生理检测运算可为一呼吸检测运算，甚至是一心率检测运算。

具体来说，请参考图6，图6为本申请实施例一声纹辨识流程60的示意图。声纹辨识流程60可由说话者识别系统10来执行，其包含以下步骤：

步骤602：入耳式装置100的收音器102自使用者USR外耳道接收耳道声波CWV，并产生对应于耳道声波CWV的耳道声信号CSg。

步骤603：入耳式装置100的声频处理模块106对耳道声信号CSg进行生理检测运算，以产生一生理检测结果Bio。

步骤604：入耳式装置100的声频处理模块106自耳道声信号CSg中撷取对应于使用者USR的声纹特征，并产生声纹特征信号VPF。

步骤606：终端装置120根据声纹特征信号VPF以及生理检测结果Bio，判断使用者USR是否为认证用户本身。

声纹辨识流程60与声纹辨识流程30相似。与声纹辨识流程30不同的是，声纹辨识流程60还包括步骤603。于步骤603，声频处理模块106不限于利用特定算法对耳道声信号CSg进行呼吸检测运算，举例来说，声频处理模块106可根据耳道声信号CSg检测耳道声波CWV中是否具有特定呼吸频率的呼吸声波，而不在此限。呼吸检测运算的技术细节为本领域技术人员所熟知，故于此不再赘述。以生理检测结果Bio为呼吸检测结果为例，生理检测结果Bio可为一二进制数值(Binary Value)，其代表检测到「有呼吸」或「无呼吸」，当生理检测结果Bio指示检测到「有呼吸」时，代表说话者识别系统10的发话端为自然人，另外，生理检测结果Bio亦可为如灰阶值(Gray Level)等非二进制的数值，其代表代表检测到「有呼吸」(或检测到「无呼吸」)的信心水平(Confidence Level)，或是使用者USR的特定呼吸频率以及特征。

于步骤606，终端装置120根据声纹特征信号VPF以及生理检测结果Bio，判断说话者识别系统10的发话端是否为使用者USR本身。于一实施例中，当生理检测结果Bio指示检测到「有呼吸」且相似度得分SC大于特定值时，终端装置120可判定使用者USR确实为认证用户。

除此之外，语音安全系统或语音授权系统通常具有一问一答的对话情境，举例来说，银行端(或信用卡中心、支付系统中心，以下简称客服端)可能于语音电话中询问：「请问您的账号？」而使用者可能回答：「123456789」，其中客服端的问句可透过扬声器104发送至使用者USR的外耳道，在此情形下，耳道声波CWV可包含客服端的问句声波的反射波，因此入耳式装置100中的声频处理模块106可由耳道声信号CSg判断耳道声波CWV中是否具有向关于问句声波的反射声波，以产生一反射波检测结果。当反射波检测结果显示耳道声波CWV具有反射声波时，代表说话者识别系统10的发话端为自然人，而非如录音机或语音合成器等装置，进而排除说话者识别系统10的发话端为装置的可能性。另外，问句声波可广义地视为提示声波，当提示声波结束之后，使用者USR才可开始发话，举例来说，客服端可能于语音电话中说：「请听到哔声后念出您的账号/密码(即提示语句)」，提示声波可包括相关于提示语句的声波或该哔声。

详细来说，请参考图7，图7为本申请实施例一声纹辨识流程70的示意图。声纹辨识流程70可由说话者识别系统10来执行，其包含以下步骤：

步骤701：扬声器104向使用者USR外耳道发出一提示声波。

步骤702：入耳式装置100的收音器102自使用者USR外耳道接收耳道声波CWV，并产生对应于耳道声波CWV的耳道声信号CSg。

步骤703：入耳式装置100的声频处理模块106根据耳道声信号CSg，判断耳道声波CWV中是否具有对应于提示声波的反射声波，以产生一反射波检测结果Rf。

步骤704：入耳式装置100的声频处理模块106自耳道声信号CSg中撷取对应于使用者USR的声纹特征，并产生声纹特征信号VPF。

步骤706：终端装置120根据声纹特征信号VPF以及反射波检测结果Rf，判断使用者USR是否为认证用户。

声纹辨识流程70与声纹辨识流程30相似。与声纹辨识流程30不同的是，声纹辨识流程70还包括步骤701及步骤703。于步骤703，声频处理模块106不限于利用特定算法来判断耳道声波CWV中是否具有对应于提示声波的反射声波，举例来说，因人体的外耳道具有一耳道长度范围，声频处理模块106可根据耳道长度范围，来判断耳道声波CWV中是否具有对应于提示声波的反射声波。耳道内生理检测运算(如呼吸检测运算或心率检测运算)的技术细节为本领域技术人员所熟知，故于此不再赘述。反射波检测结果Rf可为一二进制数值，其代表「有反射波」或「无反射波」，当反射波检测结果Rf指示「有反射波」时，代表说话者识别系统10的发话端为自然人。

于步骤706，终端装置120根据声纹特征信号VPF以及反射波检测结果Rf，判断说话者识别系统10的发话端是否为使用者USR本身。于一实施例中，当反射波检测结果Rf指示「有反射波」且相似度得分SC大于特定值时，终端装置120可判定使用者USR确实为认证用户。

除此之外，于一实施例中，本申请的说话者识别系统可利用如智能手机等个人电子装置(Personal Electronic Device)对入耳式装置100所产生的声纹特征信号VPF进行一变声(Voice Changing)运算，终端装置120根据变声后声纹特征信号进行说话者识别，即根据变声后声纹特征信号判断说话者识别系统的发话端是否为使用者USR。换句话说，使用者USR仅在持有个人电子装置时，才能通过终端装置120对其说话者识别的验证过程，进一步增加语音安全系统或语音授权系统的安全性。

具体来说，请参考图8，图8为本申请实施例一说话者识别系统80的功能方块示意图。说话者识别系统80与说话者识别系统10相似，与说话者识别系统10不同的是，说话者识别系统80另包含个人电子装置800，个人电子装置800可为智能穿戴装置、智能手机、平板计算机、个人计算机等个人电子装置，个人电子装置800接收入耳式装置100所产生的声纹特征信号VPF，并对声纹特征信号VPF进行变声运算，以产生一变声后声纹特征信号VPF’，并将变声后声纹特征信号VPF’传送至终端装置120，终端装置120根据变声后声纹特征信号VPF’进行说话者识别。

说话者识别系统80的操作可归纳为一声纹辨识流程。请参考图9，图9为本申请实施例一声纹辨识流程90的示意图。声纹辨识流程90可由说话者识别系统80来执行，其包含以下步骤：

步骤902：入耳式装置100的收音器102自使用者USR外耳道接收耳道声波CWV，并产生对应于耳道声波CWV的耳道声信号CSg。

步骤904：入耳式装置100的声频处理模块106自耳道声信号CSg中撷取对应于使用者USR的声纹特征，并产生声纹特征信号VPF。

步骤905：个人电子装置800对声纹特征信号VPF进行变声运算，以产生变声后声纹特征信号VPF’。

步骤906：终端装置120根据变声后声纹特征信号VPF’，判断使用者USR是否为认证用户。

声纹辨识流程90与声纹辨识流程30相似。与声纹辨识流程30不同的是，声纹辨识流程90还包括步骤905。于步骤905，个人电子装置800不限于利用特定算法对声纹特征信号VPF进行变声运算，以产生变声后声纹特征信号VPF’，以对这些信息/声纹特征信号VPF进行加密，其技术细节为本领域技术人员所熟知，故于此不再赘述。

于步骤906，终端装置120可先根据变声后声纹特征信号VPF’建立对应于使用者USR及个人电子装置800的一声纹模型MD’，于建立声纹模型MD’后，再比对变声后声纹特征信号VPF’与声纹模型MD’，以进行「声纹匹配」，并根据声纹匹配结果，产生一相似度得分SC’，相似度得分SC’代表变声后声纹特征信号VPF’与声纹模型MD’之间的相似程度。其余操作细节可参考前述相关段落，于此不再赘述。

需注意的是，前述实施例是用以说明本申请之概念，本领域具通常知识者当可据以做不同的修饰，而不限于此。举例来说，终端装置120不限于为计算机主机，只要终端装置120为可执行图5所示声纹对比流程50的电子装置(如云端服务器)甚至是移动电子装置(如手机、平板计算机等)，皆符合本申请的要求而属于本申请的范畴。另外，声频处理模块不限于设置于入耳式装置中，声频处理模块亦可设置于终端装置中，入耳式装置仅需将耳道声信号送至终端装置，并由终端装置中的声频处理模块自耳道声信号中撷取对应于使用者USR的声纹特征，亦符合本申请的要求而属于本申请的范畴。

综上所述，本申请的说话者识别系统利用入耳式装置来收音，以接收使用者外耳到的耳道声波，利用入耳式装置中的声频处理模块撷取使用者的声纹特征，并利用终端装置根据声纹特征信号，进行声纹对比，以判断说话者识别系统的发话端是否为使用者本身。相较于现有技术，本申请可避免遭到有心人士侧录或盗录的风险。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本申请的保护范围之内。

Claims

1.一种说话者识别系统，其特征在于，包括：

入耳式装置，用于置入使用者的外耳道，所述入耳式装置包括：

收音器，用来接收来自所述外耳道的耳道声波，以产生对应于所述耳道声波的一耳道声信号；

声频处理模块，耦接于所述收音器，用于自所述耳道声信号中撷取对应于所述使用者的声纹特征，以产生一声纹特征信号，还用于对所述耳道声信号进行生理检测运算，所述生理检测运算包括呼吸检测运算或心率检测运算，以产生一生理检测结果，所述生理检测结果为一呼吸检测结果或一心率检测结果；所述生理检测运算包括所述声频处理模块根据所述耳道声信号判断所述耳道声波中是否具有特定呼吸频率的呼吸声波；

一终端装置，用于根据所述声纹特征信号以及所述生理检测结果判断所述使用者是否为一认证用户；以及

个人电子装置，用来接收自所述入耳式装置接收所述声纹特征信号，并对所述声纹特征信号进行一变声运算，以产生一变声后声纹特征信号；

其中，所述终端装置根据所述个人电子装置所产生的变声后声纹特征信号，判断所述使用者是否为所述认证用户。

2.如权利要求1所述的说话者识别系统，其特征在于，所述入耳式装置为一有线或无线的入耳式耳机、入耳式耳机麦克风、耳塞或助听器。

3.如权利要求1所述的说话者识别系统，其特征在于，所述声频处理模块对所述耳道声信号进行一语音检测运算以及一特征提取运算，以产生所述声纹特征信号。

4.如权利要求3所述的说话者识别系统，其特征在于，所述声频处理模块对所述耳道声信号进行一噪声抑制运算。

5.如权利要求1所述的说话者识别系统，其特征在于，所述终端装置为移动电子装置、计算机主机或门禁系统。

6.如权利要求1所述的说话者识别系统，其特征在于，所述终端装置建立对应于所述认证用户的一声纹模型，并接收来自所述声频处理模块的一声纹特征信号，根据所述声纹模型比对所述声纹特征信号，以产生一相似度信号，所述终端装置根据所述相似度信号判断所述使用者是否为所述认证用户。

7.如权利要求1所述的说话者识别系统，其特征在于，所述入耳式装置还包括：

一扬声器，用来向所述外耳道发出一第一声波；

其中，所述声频处理模块根据所述耳道声信号判断所述耳道声波中是否具有对应于所述第一声波的一反射声波，以产生一反射波检测结果，所述终端装置根据所述声纹特征信号以及所述反射波检测结果，判断所述使用者是否为所述认证用户。

8.一种说话者识别方法，应用于一说话者识别系统，所述说话者识别系统包括一入耳式装置及一终端装置，所述入耳式装置包括一收音器及一声频处理模块，所述入耳式装置置入一使用者的一外耳道，其特征在于，所述说话者识别方法包括：

所述收音器接收来自所述外耳道的耳道声波，以产生对应于所述耳道声波的一耳道声信号；

所述声频处理模块自所述耳道声信号中撷取对应于所述使用者的声纹特征，以产生一声纹特征信号，所述声频处理模块还对所述耳道声信号进行一生理检测运算，以产生一生理检测结果，所述生理检测运算为一呼吸检测运算或一心率检测运算，所述生理检测结果为一呼吸检测结果或一心率检测结果；所述生理检测运算包括所述声频处理模块根据所述耳道声信号判断所述耳道声波中是否具有特定呼吸频率的呼吸声波；以及

所述终端装置根据所述声纹特征信号以及所述生理检测结果，判断所述使用者是否为一认证用户；

所述说话者识别系统还包括一个人电子装置，所述说话者识别方法还包括：

所述个人电子装置对所述声纹特征信号进行一变声运算，以产生一变声后声纹特征信号；以及

所述终端装置根据所述个人电子装置所产生的变声后声纹特征信号，判断所述使用者是否为所述认证用户。

9.如权利要求8所述的说话者识别方法，其特征在于，所述声频处理模块自所述耳道声信号中撷取对应于所述使用者的声纹特征，以产生所述声纹特征信号的步骤包括：

所述声频处理模块对所述耳道声信号进行一语音检测运算以及一特征提取运算，以产生所述声纹特征信号。

10.如权利要求9所述的说话者识别方法，其特征在于，所述声频处理模块自所述耳道声信号中撷取对应于所述使用者的声纹特征，以产生所述声纹特征信号的步骤还包括：

所述声频处理模块对所述耳道声信号进行一噪声抑制运算。

11.如权利要求8所述的说话者识别方法，其特征在于，所述终端装置根据所述声纹特征信号，判断所述使用者是否为所述认证用户的步骤包括：

所述终端装置建立对应于所述认证用户的一声纹模型；

所述终端装置接收来自所述声频处理模块的一声纹特征信号，根据所述声纹模型比对所述声纹特征信号，以产生一相似度得分；以及

所述终端装置根据所述相似度得分，判断所述使用者是否为所述认证用户。

12.如权利要求8所述的说话者识别方法，其特征在于，所述入耳式装置包括一扬声器，所述说话者识别方法还包括：

所述扬声器向所述外耳道发出一第一声波；

所述声频处理模块根据所述耳道声信号判断所述耳道声波中是否具有对应于所述第一声波的一反射声波，以产生一反射波检测结果；以及

所述终端装置根据所述声纹特征信号以及所述反射波检测结果，判断所述使用者是否为所述认证用户。

13.一种用于说话者识别的入耳式装置，其用于置入使用者的外耳道，其特征在于，包括：

收音器，用来接收来自所述外耳道的耳道声波，以产生对应于所述耳道声波的耳道声信号；以及

声频处理模块，耦接于所述收音器，用于自所述耳道声信号中撷取对应于所述使用者的声纹特征，以产生一声纹特征信号，还用于对所述耳道声信号进行生理检测运算，所述生理检测运算包括呼吸检测运算或心率检测运算，以产生一生理检测结果，所述生理检测结果为一呼吸检测结果或一心率检测结果，所述生理检测运算包括所述声频处理模块根据所述耳道声信号判断所述耳道声波中是否具有特定呼吸频率的呼吸声波；所述声频处理模块还用于将所述声纹特征信号和所述生理检测结果发送至一外部终端以使得个人电子装置对所述声纹特征信号进行一变声运算，以产生一变声后声纹特征信号；以及

终端装置根据所述个人电子装置所产生的变声后声纹特征信号，判断所述使用者是否为认证用户。